JP4724051B2 - キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 - Google Patents

キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 Download PDF

Info

Publication number
JP4724051B2
JP4724051B2 JP2006162462A JP2006162462A JP4724051B2 JP 4724051 B2 JP4724051 B2 JP 4724051B2 JP 2006162462 A JP2006162462 A JP 2006162462A JP 2006162462 A JP2006162462 A JP 2006162462A JP 4724051 B2 JP4724051 B2 JP 4724051B2
Authority
JP
Japan
Prior art keywords
keyword
document
read
topic
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006162462A
Other languages
English (en)
Other versions
JP2007334429A (ja
Inventor
哲郎 甘粕
克年 大附
喜昭 野田
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006162462A priority Critical patent/JP4724051B2/ja
Publication of JP2007334429A publication Critical patent/JP2007334429A/ja
Application granted granted Critical
Publication of JP4724051B2 publication Critical patent/JP4724051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、例えばコールセンターにおけるオペレータとユーザとの会話中の最新の話題や一般の文書中の話題区間の推定に利用され、音声情報若しくはテキスト情報の中から話題範囲を推定する方法、話題の境界を推定する方法、話題範囲内のキーワードを生成する方法、生成したキーワードを含む文書を検索する方法、及びこれらの装置、そのプログラムを記録する記録媒体に関する。
従来、文書中の話題区間を推定する方法としては、例えば形態素解析を利用した方法が知られている。形態素解析とは、文書テキストを、意味を持つ最小単位の列である形態素に分割して品詞を見分けるものである。図11に特許文献1に示された形態素解析を利用した話題区間推定方法の原理構成図を示す。形態素解析手段10で文書テキストが単語に分割され、その分割された単語間の意味の類似の度合いを表す単語ベクトルが記憶された概念ベース30から、単語ベクトル取得手段20が単語ベクトルを読み出す。そして、最小コスト分割取得手段40が複数の単語間の並びの最適値を選んで文章化し、最適分割取得手段50がその文章を話題区間に分割するものである。話題区間を推定することで、文書テキスト全体の構造が分析でき、例えば要約文を自動的に生成するなどの応用が考えられる。また、音声認識技術と組み合わせることで、例えば顧客応対業務を行うコールセンターの業務支援装置への応用も考えられる。
特開2004−234512号公報(図2)
しかしながら、この方法は常にテキスト全体を走査して話題区間に分割するもので、非常に計算コストがかかるものである。また、キーワードの抽出も可能であるが、その方法は、話題区間に分割した後に、その区間からキーワードを抽出するものであって、手順を要するものである。また、技術の対象とする範囲が例えば手入力された文書であり、顧客応対中の音声認識結果である未完全な文書や、音声認識に特有の誤認識の問題で単語の一部に誤りを含む様な場合について考慮されていない。たとえば、コールセンター等における顧客対応業務への応用を考えた場合、上記したような非常に計算コストが掛かり、また不完全な文書への対応が考慮されていない話題区間推定方法は向いていない。
顧客応対の初期段階においては、顧客が問い合わせて来る問題について、顧客自身が的確に説明できす曖昧さが残る説明になることが多い。よって、オペレータは、顧客から説明を受けると、用件の復唱や用件の状況を噛み砕いて確認する質問を返す問題把握応対を通して、徐々に回答すべき問題を突き止めて行くことになる。
問題把握応対の段階においては、その問題についての凡そのカテゴリが判明しても、最終的な回答までには更なる問題の詳細な切り分けが必要である。そのために、応対の進行に伴って、選択すべき回答文書の候補は徐々に変化する。例えば、「プリンターから印刷が出来ない」という質問があった場合でも、プリンターからエラーが出ているのか、パソコンの画面メッセージにエラーが出ているのかで回答の内容は大きく異なる。したがって、応答用文書の検索には、オペレータの質問の度に、つまり応答発声のたび毎に直前までの応対話題のカテゴリの推測や、文書候補の絞り込みの見直しをする必要がある。
オペレータの負担を最小限にするためには、自動検索結果となる応答用文書リストは的確に絞り込まれている必要がある。そのため、キーワードを元に検索をする場合には、そのキーワードの組み合わせは、適切に設定される必要がある。組み合わせたキーワードの中に話題と関係のないキーワードが含まれれば目的となる文書は検索結果に含まれない。また、組み合わせたキーワードが少ないと、検索結果に目的の文書が含まれていても、他の余分な検索結果も含むので、オペレータは多くの余分な文書の中から目的の文書を探すことになり、オペレータの負担が大きくなってしまう。
このように音声や電子メールによる応対の、一発話程度の短い期間に話題が変わるような即時性が求められるケース、或いは講演中の一部の音声や文書が表す話題を抽出する場合には、複雑な計算を要しない簡便な方法によって、話題に対応した適切なキーワードの組み合わせを検出するキーワード生成装置や、そのキーワードに対応した話題区間を推定する話題区間推定装置や、適切な応答用文書が提供できる文書検索装置が求められる。
この発明はこのような点に鑑みてなされたものであり、複雑な計算を要しないで、入力された文字列中の話題区間を見つける方法、話題区間の境界を推定する方法、さらには、話題に対応するキーワードの組み合わせを見つけ、所定のデータベースからキーワードに対応した文書を検索する方法、とこれらの装置、及びそのプログラムと記録媒体を提供することを目的とする。
この発明のキーワード生成装置は、キーワード検出処理部が入力される文字列からキーワードを検出して、そのキーワードとそのキーワードの出現順番をカウントし、キーワードとそのキーワードの出現順番との組みをキーワード履歴記憶部で記憶する。そして、そのキーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、話題区間推定部処理部がキーワード履歴記憶部からある所定の出現順番と組で記憶されたキーワードを読み出し、複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、上記読み出したキーワードと同一の検索語を含む文書が在る場合に、上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する。そして、キーワード生成部が話題区間推定処理部の出力する話題区間内に含まれるキーワードを出力する。
また、この発明の話題範囲推定装置は、上記した話題区間の範囲を出力する。また、この発明の話題境界推定装置は、上記した話題区間と隣接するキーワードとの間の文字列中の位置情報を話題境界情報として出力する。
また、この発明の文書検索装置は、文書検索部が上記したキーワード生成装置からキーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索し、表示信号変換部は文書検索部が検索した結果を映像信号に変換し、その映像信号を表示部に表示する。そして文書検索部に接続される選択入力部から、表示部に表示された文書タイトル若しくは要約文を選択する選択情報が入力され、文書検索部がその選択入力に基づいて文書記憶装置から文書本体を読み出す。
この発明のキーワード生成装置及び話題範囲推定装置によれば、キーワード個々をそれぞれ検索語とし、それらの検索語を含む文書とを対応付けた検索用データベースから、話題区間推定処理部が、ある出現順番を起点として出現順番上で連続した範囲にあるキーワードを組み合わせ、それら組み合わせたキーワードに対応する検索語を含む文書数の数が0になるまで検索することで、同一の話題に対応する話題区間を推定する。つまり、連続する複数のキーワードを含む文書数が0に変化した時を話題の切り替わり点としている。このように、複雑な計算をすることなく、キーワードと文書内の検索語を照合するだけの簡単な処理で、話題区間を推定することが出来る。
また、この発明による文書検索装置によれば、適切な話題区間及び適切なキーワードを元に文書が検索できるので、適切な文書検索を行うことができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明によるキーワード生成装置の実施例1の機能構成を示す。実施例1は、例えば入力される音声情報を音声認識した認識文字列からキーワードと話題範囲を検出する例を示す。音声信号が音声認識処理部101に入力される。音声認識処理部101は、発話毎に、入力音声信号を音声認識して認識文字列をキーワード検出処理部103に出力する。
キーワード検出処理部103は、キーワード検出手段103aが発話毎の認識文字列から検索の際のキーとなる単語であるキーワードを検出して経過時間順に取り出す。例えば、検索の際のキーとして用いる単語の候補の文字列を格納したキーワード辞書を記憶装置であるキーワード辞書格納部104に予め記憶しておき、認識文字列中にキーワード辞書に格納されたキーワード候補の文字列と合致するものがある場合に、その文字列をキーワードとして検出する。または、キーワード辞書格納部104に換えて、例えば特開9−330331号公報に開示されている方法のように、形態素解析部103dによって、認識文字列を形態素解析し、名詞と固定された単語が連続する文字列の部分で、同一の文字列パターンが同一文書内に2回以上現れたものをキーワードとして検出してもよい。この処理は、単語を検出する処理だけであるので、従来技術で示した話題区間を推定する方法に比べて処理時間は短くて済む。
時間順に取り出されたそのキーワードは、キーワードカウント手段103bによって出現順にカウントされる。出現順にカウントされたキーワードは、そのカウント値と組でキーワード履歴記憶部への格納手段103cによって、キーワード履歴記憶部105に記憶される。カウント値は、キーワードの出現順番を表す。以降、実施例1では出現順番をカウント値として動作を説明する。
ここでは、キーワード検出処理部103において最も新しく検出されたキーワードのカウント値が、話題区間推定処理部106の検索開始番号保持手段106aと話題区間カウント手段106cにセットされたとして説明する。すると、話題区間推定処理手段106bが、キーワード履歴記憶部105からカウント値と組で記憶されているキーワードを読み出して、そのキーワードを含む文書が幾つ在るかについて、検索用データベース107を検索する。
検索用データベース107には、例えば、個々のキーワードと同じ複数の検索語KW(*は、1,2,3などの複数の数字を意味する)が列方向に配列記憶され、各文書を表すインデックスd,d,…,dが最上位置で行方向に配列記憶され、インデックスdごとに対応する文書内に検索語KWが含まれているか否かが記憶されている。例えば、検索語が含まれていれば、その検索語の行に“1”、含まれていなければ“0”が記憶されている。この様な検索用の転置行列については、例えば非特許文献「情報検索と言語処理」の26頁に述べられている。
便宜上、カウント値をKとして以降説明する。上記カウント値Kのキーワードと同一の検索語を含む文書が在れば、話題区間カウント手段106cが、カウント値Kを、例えば、K−1にダウンカウントする。すると、再び話題区間推定処理手段106bは、話題区間カウント手段106cのカウント値を参照して、K−1番目のキーワードをキーワード履歴記憶部105から読み出し、K番目とK−1番目のキーワードとそれぞれ同一の検索語を両方含む文書の数が幾つ在るかを、検索用データベース107に対して検索する。この動作を、K番目のキーワードからK−1番目、K−2番目と、キーワードの数を増やして、その連続するキーワードと同一の検索語の全てを含む文書の数が0になるまで繰り返す。話題区間カウント手段106cの値が、例えばK−4になり、この時に初めてK番目〜K−4番目のキーワードと同一の検索語を含む検索で文書数が0になった場合、出現順番KからK−3番目までの区間において、それらのキーワードに関連する一つの話題が話されていたと推定する。
文書数の検索は、例えば検索用データベース107内に蓄積する文書集合の情報を非特許文献「情報検索と言語処理」の40頁に述べられている転置ファイルの形式で表現したものを用いてand検索をした結果数を数えることで、高速に知ることが可能である。以後、この検索語を含む文書の数を関数NumDoc(X)と記す。(X)には検索語の組み合わせが入る。
簡単な具体例を示して更に上記した動作を説明する。今、例えば、音声認識処理部101に、次のような音声のディジタル化された信号が入力されたと仮定する。「データベースにクエリー出来るのにー」「え、ええ」「ブラウザからインターネットに、えー」「え、はい」「接続出来ないのですね」
そのように仮定すると、上記した動作によって、キーワード履歴記憶部105に、(1,データベース)(2,クエリー)(3,ブラウザ)(4,インターネット)(5,接続)(6,出来ない)の順番でキーワードが記憶される。
各キーワードと同じ検索語KWと、その検索語を含む文書情報とが、検索用データベース107に記憶されている。以降の説明において、説明の都合で認識文字列から検出したものをキーワード、検索用データベース107に記憶された語を検索語KWと称するが、どちらも、同じ語である。
話題区間推定処理部106の検索開始番号保持手段106aと話題区間カウント手段106cに最後に出現したキーワードである(6,出来ない)のカウント値K=6がセットされたとする。話題区間推定処理手段106bは、話題区間カウント手段106cのカウント値の出現順番であるキーワードをキーワード履歴記憶部105から読み出し、そのキーワードと同じ検索語KW「出来ない」を含む文書の数の検索を検索用データベース107に対しておこなう。この例では、その検索に対してインデックスdの1個の文書のみが検索され、検索結果文書数として1が得られる。
実際の検索では、検索すべきキーワード(検索語)が少ない時には多数の文書数になり、検索語を増やして行くにしたがって、検索文書数は減少し、ついには検索文書数は0になるように動作する。説明を簡単にする目的で、この例では検索開始の最初から文書検索数は1個であるとして説明する。
文書数が0より大であると、話題区間カウント手段106cは、カウント値KをダウンカウントしてK=5にセットする。話題区間推定処理手段106bは、話題区間カウント手段106cのカウントを参照して、今度は、カウント値K=5番目のキーワード(5,接続)に対応した検索語KW「接続」を増やして、KW=「接続」and「KW=出来ない」、の条件のand検索を検索用データベース107に対して行う。この時も検索した結果の文書数は1である。この動作をキーワード履歴記憶部105に記憶された出現順番順のキーワードを徐々に増やしながら、それら全てのキーワードを含む文書数が0になるまで繰り返す。
この例の場合は、カウント値K=3のキーワード(3,ブラウザ)までのand検索の結果の文書数は1個である。カウント値K=2にすると、キーワード(2,クエリー)に対応した検索語KW=「クエリー」を文書dは含まないので、and検索(KWandKWandKWandKWandKW)の結果、文書数は初めて0になる。この結果から、出現番号3〜6の区間において、そのキーワードに関連する話題が話されていたと推定する。以上の動作で話題区間を推定できる原理を以下に説明する。
〔話題区間の推定原理〕
複数の検索語KWをand条件で検索した結果の文書数が0になるということは、最後に加えた検索語KWiを含む文書の集合と、それまでに加えた検索語(KWi+1,…,KW)を全て含む文書の集合とに交わりが無いことになる。文書の集合が交わらないということは、それぞれが異なる話題を扱った文書集合と考えられる。すなわち、最後に追加した検索語を含めた検索語で文書を検索したキーワード出現箇所と、その直前までに追加した検索語を含めた検索語で文書を検索した範囲では、異なる話題を扱っていると推定することが出来る。したがって、複数の検索語KWをand条件で含む文書数が0になる直前のキーワードの両端を求め、そのキーワードの在る範囲を話題区間とすることができる。
話題区間推定処理部106の動作を一般化して示した動作フローの一例を図2に示して更に動作を詳しく説明する。ステップ201に示す変数Nは、キーワード履歴記憶部105に記憶されたキーワード数である。話題区間推定処理部106が動作を開始すると、最初にキーワード履歴記憶部105にキーワード履歴が記憶されているか否か、がチェックされる(ステップ201)。キーワード履歴が記憶されていない場合は、N=0となりステップ202において、話題区間の開始側キーワード変数i=0、話題区間の終了側キーワード変数j=0、つまり話題区間がないとして動作を終了する。
今、検索開始番号保持手段106aと話題区間カウント手段106cに、上記した説明と異なり、検索開始キーワード選定手段109によって、キーワード履歴記憶部105に記憶されたキーワードの中の、あるキーワードを特定するカウント値K=4が保持されたとする。検索開始キーワード選定手段109からは、そのあるキーワードそのものを入力してもよい。その場合、話題区間推定処理部106は、そのキーワードの出現番号を、キーワード履歴記憶部105から入手する。すると、話題区間推定処理手段106bは、キーワード出現番号K=4のキーワード(4,インターネット)に対応する検索語KW「インターネット」を含む文書が検索用データベース107内に在るかどうかを検索してその有無を判断する(ステップ203)。検索語KW「インターネット」を含む文書数は{d}の1個であるので、ステップ204で話題区間カウント手段106cが、初期値の4を開始側キーワード変数iに代入する。ステップ203で検索語KW「インターネット」を含む文書数が0の場合は、ステップ214においてi=4、j=4、この場合、話題区間は無いとして動作を終了する。この場合は話題区間の両端が、キーワード出現順番4番目にあることを意味する。
話題区間カウント手段106cのカウント値が、キーワードの出現順番であり、話題区間の開始側のカウント値をi、終了側のカウント値をjとして以降の説明を行う。話題区間カウント手段106cのカウント値がダウンカウントされ(ステップ206)、i=3になると、ステップ205において、話題区間推定処理手段106bは検索用データベースに対して、出現順番3番目のキーワード(3,ブラウザ)に対応した検索語KW「ブラウザ」を増やして、NumDoc(S)、Sは(KW,KW)のand検索を行う。この結果、その2つの検索語を含む文書数は{d}の1個であるので、文書数は1である。この動作は、検索結果の文書数が0(ステップ205)か、i=0になるまで(ステップ207)繰り返される。i=2になると、出現順番2番目のキーワード(2,クエリー)に対応した検索語KW「クエリー」を増やして、NumDoc(S)、Sは(KW,KW,KW)のand検索を行う。「クエリー」と「ブラウザ」と「インターネット」の3個の検索語を全て含む文書はないので、検索結果の文書数は0となる。
話題区間の開始側のキーワードを探すand検索の検索結果文書数が0になると、今度は、話題区間の終了側のキーワードを探す目的で話題区間の終了側の検索語の位置を特定する変数jを、話題区間カウント手段106cにセットする(ステップ208)。先ほど、話題区間の開始側の検索語の位置を特定する変数iの初期値をi=4としたので、ステップ208では話題区間の終了側の検索語の位置を特定する変数jの初期値を、話題終了側隣のキーワード出現順番となるj=K+1=5としている。そして、話題区間の開始側の検索語の位置を特定する変数iに+1してi=3とし、話題区間の開始側のキーワード位置を確定させ(ステップ209)、話題区間の終了側の検索語の検索が開始される。
j=5は、キーワード履歴記憶部105に記憶されているキーワード数Nを超えていないので、ステップ210をスルーして話題区間の終了側のキーワード位置検索ループLeの動作が開始される。そして、ステップ211において話題区間開始側の検索結果を踏まえたand検索が行われる。and検索NumDoc(E)は、(KW,KW,KW)、つまり、開始側キーワード位置検索ループLsで検索した「ブラウザ」と「インターネット」に、出現順5番目の(5,接続)のキーワードに対応した検索語「接続」を加えたand検索を行う。この検索語を全て含む文書は{d}だけであるので文書数は1である。そして、ステップ212において、話題区間終了側の検索語の位置を特定する変数jである話題区間カウント手段106cがカウントアップされる。そして終了側方向の検索語が増やされて、再びand検索が行われる。「ブラウザ」and「インターネット」and「接続」and「出来ない」が行われる(ステップ211)。この動作は、jがキーワード数Nより大になるまで、又は、検索結果文書数が0になるまで続けられる(ループLe)。この例の場合、話題区間終了側の検索語の位置を特定する変数j=7となると、キーワード履歴記憶部105に記憶されているキーワードの数N=6よりjが大きくなるので、ステップ210で話題区間終了側キーワード位置検索ループLeを抜ける。Nが大きな数の場合は、ステップ211で検索結果文書数が0になると話題区間終了側キーワード位置検索ループLeを抜ける。そして終了側キーワード変数jをj−1として確定させ、iとj−1を話題区間として出力する(ステップ213)。この例の場合j=7−1で確定する。以上の動作により、話題区間の開始側キーワード変数i=3、話題区間の終了側キーワード変数j=6となる。
このように話題区間を推定するキーワード位置を、キーワード履歴記憶部105に記憶された任意の、あるキーワードから始めることも可能である。こうして推定した話題区間の範囲(i=3,j=6)は、キーワード生成部108に出力される。キーワード生成部108は、話題区間推定処理部106から与えられた話題区間情報に基づいて、キーワード履歴記憶部105からその区間内のキーワードを読み出してキーワード列として出力する。
以上説明したキーワード生成装置のキーワード生成方法を整理する。図3にキーワード生成方法の動作フローを示して説明する。まず始めに、キーワード検出処理過程300において、キーワード検出手段103aが、入力される文字列からキーワードを検出し、キーワードカウント手段103bがそのキーワードの出現順にカウントする。キーワード履歴記憶過程301において、キーワード履歴記憶部への格納手段103cは、キーワードカウント手段103bがカウントしたカウント値Kと、キーワード検出手段103aが検出したキーワードとを組としたキーワード履歴を、キーワード履歴記憶部105に記憶する。
話題区間推定処理部106は、キーワード個々をそれぞれ検索語とし、それら検索語を含む文書とを対応付けた検索用データベース107を検索する。検索は、話題区間推定処理過程302において、キーワード履歴記憶部105に出現順にカウントされた或るカウント値Kを起点として、話題区間カウント手段106cがカウント値Kをカウントしてキーワードを可変し、その全てのキーワードに対応する検索語を含む文書数が0になるまで行われる。つまり、カウント値Kのキーワードと隣接して連続するキーワードを全て含む文書が見つかる最も長い区間を話題区間の範囲として出力する。このように話題区間推定処理部106によって、与えられた認識文字列中の、指定したキーワードを含む同じ話題について言及している範囲を得ることが出来る。また、顧客応対中の一発話以上の間、同じ話題が続くとすると、その分多くのキーワードを用いて話題区間を推定することができる。つまり、精度の高い推定が行える。キーワード生成処理過程303において、キーワード生成部108の話題区間キーワード抽出手段108aは、話題区間推定処理部106が出力する話題区間内の全てのキーワードを、キーワード履歴記憶部105から読み出してキーワード列を生成する。
なお、検索用データベース107を転置行列で示した例で説明したが、データベースの構造は、文書がどの検索語を含むかを示せるものであればどの様なものであっても構わない。また検索データベース107に保存される情報の内容は、文書が検索語を含まなくても、話題として関係があることを示すものであっても良い。また、検索はand検索に限られない。例えば、キーワードを含む複数の文書そのものを文書データベース107aとして、そのデータベース内の文書全体を検索して文書数を求める古典的な検索方法を用いてもよい。
図4にこの発明の実施例2として話題範囲推定装置の機能構成例を示す。実施例2は話題区間推定処理部106の出力である話題区間の範囲を入力とし、外部に話題区間の範囲を出力する話題範囲出力部400を備える点が実施例1と異なる。動作は、実施例1と同じであるので説明は省略する。
話題範囲推定方法を整理する。図5に話題範囲推定方法の動作フローを示して説明する。キーワード検出処理過程300から話題区間推定処理過程302までの動作は、キーワード生成方法と全く同じである。話題区間推定処理過程302において、カウント値Kを、キーワード履歴の最後の出現順番にすると最新の話題範囲を得ることが出来る。また、上記したようにキーワード履歴記憶部105内に記憶された任意のあるキーワードを特定する出現順番をセットすると、その出現順番のキーワードを含む任意の部分の話題区間の範囲を得ることができる。そうして得た話題区間の範囲を入力として、話題範囲出力過程500で話題区間の開始側キーワードの出現順番Kiと、終了側のキーワードの出現順番Kを外部に出力する。
なお、図示しないが、話題区間の範囲の他に、次に示す実施例3に示すように認識文字列の全てを記憶して置き、話題区間のテキスト情報を一緒に出力するようにしても良い。
また、通話の音声情報を録音しておき、話題範囲内の音声情報を出力するようにしても良い。
話題範囲と話題範囲との間の話題境界を出力するようにしたこの発明の実施例3である話題境界推定装置を図6に示す。実施例3の基本的な構成は、実施例1と2と一緒である。異なる点は、話題区間の範囲の外側になる他の話題のキーワードとの間の話題境界を得るために、キーワード検出処理部103内に句点・文章区間検出手段103eが新たに設けられた点である。句点・文章区間検出手段103eは、キーワード検出手段103aで検出されたキーワードの直前と直後の句点(。)の認識文字列中の位置情報を検出するものである。位置情報は、句点の他に、音声認識処理によって特定された各発話の区間の始端、終端の認識文字列中の位置を用いても良い。その句点位置情報は、検出されたキーワードと共にキーワード履歴記憶部105に記憶される。話題境界出力部450は、話題区間推定処理部106が出力する話題区間の範囲、例えば(Ki=3, K=6)のKi=3に対応するキーワードである(3,ブラウザ,直前句点位置,直後句点位置)の直前の句点位置情報と、K=6に対応する(6,出来ない,直前句点位置,直後句点位置)の直後の句点位置情報を、キーワード履歴記憶部105から読み出して話題境界として出力する。
話題境界推定方法を整理する。図7に話題境界推定方法の動作フローを示して説明する。キーワード検出処理過程300から話題区間推定処理過程302までの動作は、キーワード生成方法と全く同じである。話題区間推定処理過程302において、カウント値Kをキーワード履歴の最後の出現順番にすると最新の話題境界を得ることが出来る。また、上記したようにキーワード履歴記憶部105内に記憶された任意のあるキーワードを特定する出現順番をセットすると、その出現順番のキーワードを含む任意の部分の話題境界を得ることが出来る点も同じである。
なお、音声認識処理部101からキーワード検出処理部103に入力される認識文字列を、全ての文書テキスト記憶部401にキーワード出現順番と句点位置情報と共に記憶して置き、上記した話題境界に挟まれた文書テキストを文書テキスト記憶部401から読み出して、話題境界情報と共に出力するようにしてもよい。
また、図示しないが、句点・文章区間検出手段103eに換えて、キーワード検出処理部103に入力される認識文字列の全てについて付番する文字列カウント手段として、認識文字列中の個々のキーワードの位置を明らかにしても良い。
また、通話の音声認識した音声情報を録音しておき、話題境界に挟まれた音声の区間を示す時間情報や音声情報を出力するようにしてもよい。
実施例1に示したキーワード生成装置を用いて構成した応対用文検索装置を実施例4として図8に示す。ネットワーク802に顧客電話端末801とコールセンター600内にある電話送受信部803が接続されている。電話送受信部803で送受信される音声情報は、文書検索装置550を構成するキーワード生成部805に接続されている。キーワード生成部805は実施例1で説明したキーワード生成装置そのものであり、認識文字列中から検出したキーワードは、文書検索部807で受信される。文書検索部807は、キーワード生成部805が検出したキーワードと関連する文書タイトル若しくは要約文を、文書記憶装置808から検索して読み出す。文書記憶装置808は、オペレータと顧客との間で交わす話題に関する回答例などの、応対の参考文書(以降、応対文書と称する)を電子的に記憶した文書記憶装置808である。
文書記憶装置808から読み出されたキーワードと関連する文書タイトル若しくは要約は、表示信号変換部811で映像信号に変換され、表示部809で表示される。オペレータは、表示部809に表示された検索結果のタイトル及び要約文を見て、その中から読みたい文書を、文書検索部807に接続されたキーボード若しくはマウスである選択入力部810を操作して選択する。文書検索部807は、その選択入力に基づいて文書記憶装置808から選択された応対文書を読み出して表示信号変換部811に出力する。表示信号変換部811に出力された応対文書は表示部809に表示される。
文書検索装置550の動作フローを図9に示して説明する。入力待ち処理908で、キーワード生成部805及び選択入力部810から入力信号を待ち受けている。入力があると、どちらからの入力であるかが入力判断処理900で判断される。キーワード生成部305からの入力の場合、検出されたキーワードはキーワード受信過程901で文書検索部807に受信される。
文書検索部807は受信したキーワードを含む文書タイトル若しくは要約文の検索を文書記憶装置808に対して行い、文書タイトル若しくは要約文を取得する。文書記憶装置から取得した文書タイトル若しくは要約文は、文書タイトル表示過程903によって表示部809に表示される。
この文書タイトル検索過程902では、受信したキーワードに基づいて改めて検索処理を行っても構わないが、キーワード生成部305で検索した文書インデックス808aも同時に受信するようにしておけば、その文書インデックス808aに基づいて検索処理が行えるので検索処理にかかる計算コストを低減することができる。つまり、キーワード生成部305で行った検索処理の結果を保存し再利用することで、キーワード生成部305から出力したキーワードの組み合わせについて、検索処理の実行を省くことができ、実行時の処理時間を低減できる。文書タイトル表示過程903を終了すると、入力待ち処理908で入力待ち状態となる。
表示部809に表示された文書タイトル若しくは要約文の中の一つをオペレータが選択入力部810によって選択する。(文書タイトル選択過程905)。選択された文書タイトル若しくは要約文に対する文書本体を文書記憶装置808から読み出す(文書取得過程906)。そして、読み出した文書本体を文書表示過程907によって表示部809に表示する。
図10に文書タイトル表示過程903が実行された後の表示部809の表示例を示す。検索候補処理の結果である応対文書の内容をオペレータが把握するための文書タイトル若しくは要約文が表示される502。501には、文書タイトル若しくは要約文502を表示する根拠となったキーワードの組み合わせが表示されている。オペレータは、文書タイトル若しくは要約文502のリストから、読みたい文書の何れか一つを選択し、表示ボタン503を選択入力部310でクリックすることで、選択した結果を文書検索部307に通知する。
なお、文書タイトル表示過程903において、表示されたキーワードの中からより適切な組み合わせのキーワードをオペレータが入力し、そのキーワードの組み合わせを用いて再度検索表示を行っても良い。例えば、表示されている4個のキーワードの内、「プリンター」と「故障」と「電源」の3個をマウス等で選択し、その3個のキーワードの組み合わせで再度検索を行えるようにしてもよい。505は選択され、例えば反転表示されている状態を表している。キーワードを選んで再検索が行えるので、不必要なキーワードの混入を防いで高い精度で文書検索を行うことが可能である。更に、ある一つの発声の間に二つの話題が入るようなケースでも、結論部分にあると思われる発声の最後の話題区間に述べられている話題に相当するキーワードのみを選び、異なる話題のキーワードの混入を防ぎながら高い精度で文書検索を行うことが可能となる。さらに音声認識の途中で誤認識によって湧き出し、話題に関係のないキーワードが出現した場合には、上記したようにそのキーワードを含めずに検索用のキーワードを組み合わせることができるので、文書の検索結果が無い、または不適切な文書が検索されることを防ぐことが出来る。
また、表示部309に表示されている以外のキーワードを入力出来るウインド507を用意して置き、選択入力部310のキーボードからのフリーキーワードで検索出来るようにしても良い。このようにキーワードの入力・修正を容易にすることで、コールセンターの応対業務を効率化することが出来る。全体として、オペレータが現在応対している話題に関する文書を選択する際に、現在の話題に関してより適切なキーワードで自動的に検索実行・提示することで、大規模な文書を応答用文書として利用するコールセンターの応対業務を効率化することが出来る。
選択入力部310で選択された選択入力は、文書タイトル選択過程905で受信され、その選択情報に基づいて文書記憶装置308から応対文書を取得する(文書取得過程906)。その文書は、文書表示過程907で表示部309に表示されるので、オペレータはその文書を参考にして、顧客からの問い合わせに的確に答えることが出来る。
上記したように、キーワード生成部305が認識文字列中の最新キーワードを検出するようにしておくことで、常に応対の最新の話題に沿った話題を適切に選択して見ることが可能である。
以上述べて来た様に、この発明は、複数の検索語を含む文書数が0になる点を、キーワードの照合と言う極めて簡単な処理によって見つけて、話題範囲を推定するものである。したがって、即時性が求められ、一発話程度の短い期間に話題が変わるような場面に適した話題範囲推定装置やキーワード生成装置を実現することができる。
以上の各実施形態の他、本発明である各装置及び方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各装置における処理機能をコンピュータによって実現する場合、言語モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記言語モデル作成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明によるキーワード生成装置の実施例1の機能構成例を示す図。 図1の話題区間推定処理部106の動作フローの一例を示す。 キーワード生成方法の動作フローの一例を示す。 この発明による話題範囲推定装置の実施例2の機能構成例を示す図。 話題範囲推定方法の動作フローの一例を示す。 この発明による話題境界推定装置の実施例3の機能構成例を示す図。 話題境界推定方法の動作フローの一例を示す。 この発明による文書検索装置の実施例4の機能構成例を示す図。 図8の文書検索装置の動作フローを示す。 図8に示す表示部309の表示例を示す図。 特許文献1に示された形態素解析を利用した話題区間推定方法の原理構成を示す図。

Claims (15)

  1. 入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
    上記キーワード検出処理部の出力するキーワードとそのキーワードの出現順番組で記憶するキーワード履歴記憶部と、
    上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
    上記キーワード履歴記憶部に記憶されたある所定の出現順番と組で記憶されたキーワードを読み出し、
    複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、
    上記読み出したキーワードと同一の検索語を含む文書が在る場合に、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、
    上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、
    または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、
    同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する話題区間推定処理部と、
    上記話題区間推定処理部が出力する話題区間内の出現順番と組みで記憶された全てのキーワードをキーワード列として生成するキーワード生成部と、
    を具備することを特徴とするキーワード生成装置。
  2. 請求項1に記載したキーワード生成装置(以下、キーワード生成部と称す)と、上記キーワード生成部から上記キーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索する文書検索部と、
    上記文書検索部により検索された結果を映像信号に変換する表示信号変換部と、
    上記表示信号変換部で変換された映像信号を表示する表示部と、
    上記文書検索部に接続され、上記表示部に表示された上記文書タイトル若しくは要約文を選択する選択入力部と、
    を具備し、上記選択入力部からの選択入力に基づき上記文書検索部は、上記文書検索装置から文書を読み出し、その文書データを上記表示信号変換部に出力するものであることを特徴とする文書検索装置。
  3. 請求項に記載の文書検索装置において、
    上記キーワード生成部は出力キーワードに対応した文書の文書インデックスを出力するものであり、上記文書検索部は、文書インデックスに対する文書タイトル若しくは要約文、及び文書本体を上記文書記憶装置から検索するものであることを特徴とする文書検索装置。
  4. 入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
    上記キーワード検出処理部の出力するキーワードとそのキーワードの出現順番組で記憶するキーワード履歴記憶部と、
    上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
    上記キーワード履歴記憶部に記憶されたある所定の出現順番と組で記憶されたキーワードを読み出し、
    複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、
    上記読み出したキーワードと同一の検索語を含む文書が在る場合に、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、
    上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、
    または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、
    同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する話題区間推定処理部と、
    上記話題区間推定処理部の上記話題区間の範囲出力を外部に出力する話題範囲出力部と、
    を具備することを特徴とする話題範囲推定装置。
  5. 請求項に記載の話題範囲推定装置において、
    上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題範囲推定装置。
  6. 入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
    上記キーワード検出処理部の出力するキーワードとそのキーワードの出現順番組で記憶するキーワード履歴記憶部と、
    上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
    上記キーワード履歴記憶部に記憶されたある所定の出現順番と組で記憶されたキーワードを読み出し、
    複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、
    上記読み出したキーワードと同一の検索語を含む文書が在る場合に、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、
    上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、
    または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、
    同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する話題区間推定処理部と、
    上記話題区間推定処理部の出力する話題区間と、その話題区間の外側で隣接するキーワードとの間の上記文字列中の位置情報を話題境界情報として生成する話題境界生成部と、
    を具備することを特徴とする話題境界推定装置。
  7. 請求項に記載の話題境界推定装置において、
    上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題境界推定装置。
  8. キーワード検出手段が入力される文字列からキーワードを検出し、そのキーワードそのキーワードの出現順番をカウントするキーワード検出処理過程と、
    キーワード履歴記憶部への格納手段が、上記キーワードとそのキーワードの出現順番と組でキーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
    話題区間推定処理手段が、上記キーワード履歴記憶部に記憶されたある所定の出現順番と組で記憶されたキーワードを読み出し、
    複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、
    上記読み出したキーワードと同一の検索語を含む文書が在る場合に、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、
    上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、
    または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、
    同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する話題区間推定処理過程と、
    話題区間キーワード抽出手段が、上記話題区間内の出現順番と組で記憶された全てのキーワードをキーワード列として生成するキーワード生成処理過程と、
    を有するキーワード生成方法。
  9. 請求項に記載したキーワード生成方法により生成されたキーワードを受信するキーワード受信過程と、
    受信したキーワードに対応する検索語を含む文書タイトル若しくは要約文を文書記憶装置から検索する文書タイトル検索過程と、
    上記検索された文書タイトル若しくは要約文を表示信号変換手段が映像信号に変換して表示部に表示する文書タイトル表示過程と、
    上記表示信号変換手段が映像信号を文字表示する過程と、
    上記表示部に表示された文書タイトル若しくは要約文の一つを選択する文書タイトル選択過程と、
    上記選択された文書タイトル若しくは要約文の一つに対応する文書本体を上記文書記憶装置から読み出し、上記表示部に表示する文書表示過程と、
    を有する文書検索方法。
  10. キーワード検出手段が入力される文字列からキーワードを検出し、そのキーワードそのキーワードの出現順番をカウントするキーワード検出処理過程と、
    キーワード履歴記憶部への格納手段が、上記キーワードとそのキーワードの出現順番と組でキーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
    話題区間推定処理手段が、上記キーワード履歴記憶部に記憶されたある所定の出現順番と組で記憶されたキーワードを読み出し、
    複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、
    上記読み出したキーワードと同一の検索語を含む文書が在る場合に、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、
    上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、
    または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、
    同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する話題区間推定処理過程と、
    上記話題区間推定処理部の出力する話題区間の範囲を入力として話題区間の開始側の出現順番Kと終了側の出現順番Kを外部に出力する話題範囲出力過程と、
    を有する話題範囲推定方法。
  11. 請求項1に記載の話題範囲推定方法において、
    上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題範囲推定方法。
  12. キーワード検出手段が入力される文字列からキーワードを検出し、そのキーワードそのキーワードの出現順番をカウントするキーワード検出処理過程と、
    キーワード履歴記憶部への格納手段が、上記キーワードとそのキーワードの出現順番と組でキーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
    話題区間推定処理手段が、上記キーワード履歴記憶部に記憶されたある所定の出現順番と組で記憶されたキーワードを読み出し、
    複数の文書ごとに少なくともその文書に含まれる検索語が記憶された検索用データベースから、上記読み出したキーワードと同一の検索語を含む文書を検索し、
    上記読み出したキーワードと同一の検索語を含む文書が在る場合に、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索し、
    上記それぞれのキーワードと同一の検索語の全てを含む文書の数が0になるまで、または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最初の値になるまで、
    または上記キーワード履歴記憶部から読み出す新たなキーワードの出現順番が上記キーワード履歴記憶部に記憶された出現順番の最後の値になるまで、
    上記読み出したキーワードと出現順番が連続する新たなキーワードを上記キーワード履歴記憶部から読み出して上記読み出された全てのキーワードのそれぞれと同一の検索語の全てを含む文書を上記検索用データベースから検索することを繰り返し、
    同一の検索語を含む文書が在る、出現順番が連続するキーワードの範囲を話題区間の範囲として出力する話題区間推定処理過程と、
    話題境界推定手段が、上記話題区間推定処理部の出力する話題区間と隣接するキーワードとの間の上記文字列中の位置を話題境界情報として生成する話題境界推定過程と、
    を有する話題境界推定方法。
  13. 請求項1に記載の話題境界推定方法において、
    上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題境界推定方法。
  14. 請求項1乃至に記載した各装置としてコンピュータを機能させるための装置プログラム。
  15. 請求項1に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2006162462A 2006-06-12 2006-06-12 キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 Active JP4724051B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006162462A JP4724051B2 (ja) 2006-06-12 2006-06-12 キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006162462A JP4724051B2 (ja) 2006-06-12 2006-06-12 キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2007334429A JP2007334429A (ja) 2007-12-27
JP4724051B2 true JP4724051B2 (ja) 2011-07-13

Family

ID=38933882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006162462A Active JP4724051B2 (ja) 2006-06-12 2006-06-12 キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP4724051B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010067565A1 (ja) * 2008-12-12 2010-06-17 日本電気株式会社 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体
JP2011159100A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
CN101826102B (zh) * 2010-03-26 2012-07-25 浙江大学 一种图书关键字自动生成的方法
JP2013025299A (ja) 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP6387044B2 (ja) * 2016-05-25 2018-09-05 株式会社東芝 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP6567128B1 (ja) * 2018-05-08 2019-08-28 ベクスト株式会社 会話支援システムおよび会話支援方法
CN113407792B (zh) * 2021-07-06 2024-03-26 亿览在线网络技术(北京)有限公司 一种基于话题的文本输入方法
GB2629319A (en) * 2022-01-25 2024-10-23 Ntt Technocross Corp Information processing device, information processing method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235585A (ja) * 1998-12-30 2000-08-29 Xerox Corp トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
JP2001249930A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 協調的応答型情報提供方法および装置
JP2004007358A (ja) * 2002-03-28 2004-01-08 Fujitsu Ltd 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法
JP2004164678A (ja) * 2002-09-24 2004-06-10 Nariyuki Motoi コンテンツ提供システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203295A (ja) * 1998-01-08 1999-07-30 Ntt Data Corp 情報提供装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000235585A (ja) * 1998-12-30 2000-08-29 Xerox Corp トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
JP2001249930A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 協調的応答型情報提供方法および装置
JP2004007358A (ja) * 2002-03-28 2004-01-08 Fujitsu Ltd 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法
JP2004164678A (ja) * 2002-09-24 2004-06-10 Nariyuki Motoi コンテンツ提供システム

Also Published As

Publication number Publication date
JP2007334429A (ja) 2007-12-27

Similar Documents

Publication Publication Date Title
JP4724051B2 (ja) キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
US8364470B2 (en) Text analysis method for finding acronyms
JP4887264B2 (ja) 音声データ検索システム
US8356065B2 (en) Similar text search method, similar text search system, and similar text search program
JP5300974B2 (ja) 検索装置
JP2006243728A (ja) 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム
EP1617409A1 (en) Multimodal method to provide input to a computing device
JP2007122719A (ja) 複数の言語を連動する自動完成推薦語提供システムおよび方法
JP5722415B2 (ja) 自動完成質疑語提供システム、検索システム、自動完成質疑語提供方法並びに記録媒体
CN101218625A (zh) 用于移动设备的使用拼写识别的字典查找
JP2007323558A (ja) キーワード生成装置、文書検索装置、その方法、およびそのプログラム
JP2010134922A (ja) 類似語決定方法およびシステム
JP2007304793A (ja) 文書検索装置
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JPH0778183A (ja) デ−タベ−ス検索システム
JP2004046775A (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP4416644B2 (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP4015661B2 (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JPH06124305A (ja) 文書検索方法
JP4847210B2 (ja) 入力変換学習プログラム、入力変換学習方法及び入力変換学習装置
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JP5344649B2 (ja) 文字列変換装置、文字列変換方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350