JP2007334429A - Keyword generating method, document retrieval method, topic range estimating method, topic boundary estimating method, and device therefor, its program, and its recording medium - Google Patents

Keyword generating method, document retrieval method, topic range estimating method, topic boundary estimating method, and device therefor, its program, and its recording medium Download PDF

Info

Publication number
JP2007334429A
JP2007334429A JP2006162462A JP2006162462A JP2007334429A JP 2007334429 A JP2007334429 A JP 2007334429A JP 2006162462 A JP2006162462 A JP 2006162462A JP 2006162462 A JP2006162462 A JP 2006162462A JP 2007334429 A JP2007334429 A JP 2007334429A
Authority
JP
Japan
Prior art keywords
keyword
topic
document
search
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006162462A
Other languages
Japanese (ja)
Other versions
JP4724051B2 (en
Inventor
Tetsuo Amakasu
哲郎 甘粕
Katsutoshi Ofu
克年 大附
Yoshiaki Noda
喜昭 野田
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006162462A priority Critical patent/JP4724051B2/en
Publication of JP2007334429A publication Critical patent/JP2007334429A/en
Application granted granted Critical
Publication of JP4724051B2 publication Critical patent/JP4724051B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a keyword generating method, topic range estimating method, and a device thereof detecting a combination of appropriate keywords corresponding to a topic by a simple method not requiring complicated calculation. <P>SOLUTION: In a keyword detection processing part 103, keywords are detected from an inputted character string, the keywords and an appearance order of the keywords are counted, and the keywords and the count values are stored in a keyword history storing part 105. A topic zone estimation processing part 106 retrieves a topic zone including continuous retrieval words from a retrieval database in which a plurality of different retrieval words corresponding to respective keywords are associated with documents including the retrieval words by using the count values and the keywords as inputs, and a range of a keyword providing retrieval of a document including a retrieval word including the keyword and corresponding to most long keyword is outputted as a range of the topic zone. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

この発明は、例えばコールセンターにおけるオペレータとユーザとの会話中の最新の話題や一般の文書中の話題区間の推定に利用され、音声情報若しくはテキスト情報の中から話題範囲を推定する方法、話題の境界を推定する方法、話題範囲内のキーワードを生成する方法、生成したキーワードを含む文書を検索する方法、及びこれらの装置、そのプログラムを記録する記録媒体に関する。   The present invention is used, for example, to estimate the latest topic during conversation between an operator and a user in a call center or a topic section in a general document, and to estimate a topic range from speech information or text information, topic boundaries The present invention relates to a method for estimating a keyword, a method for generating a keyword within a topic range, a method for searching for a document including the generated keyword, these devices, and a recording medium for recording the program.

従来、文書中の話題区間を推定する方法としては、例えば形態素解析を利用した方法が知られている。形態素解析とは、文書テキストを、意味を持つ最小単位の列である形態素に分割して品詞を見分けるものである。図11に特許文献1に示された形態素解析を利用した話題区間推定方法の原理構成図を示す。形態素解析手段10で文書テキストが単語に分割され、その分割された単語間の意味の類似の度合いを表す単語ベクトルが記憶された概念ベース30から、単語ベクトル取得手段20が単語ベクトルを読み出す。そして、最小コスト分割取得手段40が複数の単語間の並びの最適値を選んで文章化し、最適分割取得手段50がその文章を話題区間に分割するものである。話題区間を推定することで、文書テキスト全体の構造が分析でき、例えば要約文を自動的に生成するなどの応用が考えられる。また、音声認識技術と組み合わせることで、例えば顧客応対業務を行うコールセンターの業務支援装置への応用も考えられる。
特開2004−234512号公報(図2)
Conventionally, as a method for estimating a topic section in a document, for example, a method using morphological analysis is known. The morpheme analysis is to distinguish the part of speech by dividing the document text into morphemes, which are columns of the smallest meaningful units. FIG. 11 shows a principle configuration diagram of a topic interval estimation method using morphological analysis disclosed in Patent Document 1. The morphological analysis means 10 divides the document text into words, and the word vector acquisition means 20 reads the word vectors from the concept base 30 in which the word vectors representing the degree of similarity in meaning between the divided words are stored. And the minimum cost division | segmentation acquisition means 40 selects the optimal value of the arrangement | sequence between several words, and makes a sentence, and the optimal division | segmentation acquisition means 50 divides | segments the sentence into a topic area. By estimating the topic interval, the structure of the entire document text can be analyzed. For example, an application such as automatically generating a summary sentence can be considered. Also, by combining with voice recognition technology, for example, application to a work support device of a call center that performs customer service is also conceivable.
JP 2004-234512 A (FIG. 2)

しかしながら、この方法は常にテキスト全体を走査して話題区間に分割するもので、非常に計算コストがかかるものである。また、キーワードの抽出も可能であるが、その方法は、話題区間に分割した後に、その区間からキーワードを抽出するものであって、手順を要するものである。また、技術の対象とする範囲が例えば手入力された文書であり、顧客応対中の音声認識結果である未完全な文書や、音声認識に特有の誤認識の問題で単語の一部に誤りを含む様な場合について考慮されていない。たとえば、コールセンター等における顧客対応業務への応用を考えた場合、上記したような非常に計算コストが掛かり、また不完全な文書への対応が考慮されていない話題区間推定方法は向いていない。   However, this method always scans the entire text and divides it into topic sections, which is very computationally expensive. A keyword can also be extracted. However, this method involves extracting a keyword from the section after dividing it into topic sections, and requires a procedure. In addition, the scope of the technology is, for example, a manually entered document, and an error may occur in part of a word due to an incomplete document that is the result of speech recognition during customer service, or a misrecognition problem unique to speech recognition. It is not taken into consideration for such cases. For example, when considering application to a customer service in a call center or the like, the above-described topic interval estimation method that is very computationally expensive and does not take into account imperfect documents is not suitable.

顧客応対の初期段階においては、顧客が問い合わせて来る問題について、顧客自身が的確に説明できす曖昧さが残る説明になることが多い。よって、オペレータは、顧客から説明を受けると、用件の復唱や用件の状況を噛み砕いて確認する質問を返す問題把握応対を通して、徐々に回答すべき問題を突き止めて行くことになる。   In the initial stage of customer service, there is often an ambiguity that the customer can explain accurately about the problem that the customer inquires about. Thus, when the operator receives an explanation from the customer, the operator gradually finds out the problem to be answered through a problem grasping response that returns a question to check and confirm the situation of the business.

問題把握応対の段階においては、その問題についての凡そのカテゴリが判明しても、最終的な回答までには更なる問題の詳細な切り分けが必要である。そのために、応対の進行に伴って、選択すべき回答文書の候補は徐々に変化する。例えば、「プリンターから印刷が出来ない」という質問があった場合でも、プリンターからエラーが出ているのか、パソコンの画面メッセージにエラーが出ているのかで回答の内容は大きく異なる。したがって、応答用文書の検索には、オペレータの質問の度に、つまり応答発声のたび毎に直前までの応対話題のカテゴリの推測や、文書候補の絞り込みの見直しをする必要がある。   In the problem grasping stage, even if the general category of the problem is found, further detailed classification of the problem is necessary until the final answer. For this reason, the answer document candidates to be selected gradually change as the response progresses. For example, even if there is a question “Printing is not possible from the printer”, the contents of the answer differ greatly depending on whether an error has occurred from the printer or an error has occurred in the screen message of the personal computer. Therefore, for searching for a response document, it is necessary to estimate the category of the topic to be addressed immediately before each question is made by the operator, that is, for each response utterance, and to review the narrowing down of document candidates.

オペレータの負担を最小限にするためには、自動検索結果となる応答用文書リストは的確に絞り込まれている必要がある。そのため、キーワードを元に検索をする場合には、そのキーワードの組み合わせは、適切に設定される必要がある。組み合わせたキーワードの中に話題と関係のないキーワードが含まれれば目的となる文書は検索結果に含まれない。また、組み合わせたキーワードが少ないと、検索結果に目的の文書が含まれていても、他の余分な検索結果も含むので、オペレータは多くの余分な文書の中から目的の文書を探すことになり、オペレータの負担が大きくなってしまう。   In order to minimize the burden on the operator, the response document list that is an automatic search result needs to be accurately narrowed down. Therefore, when searching based on keywords, the combination of the keywords needs to be set appropriately. If a keyword that is not related to the topic is included in the combined keyword, the target document is not included in the search result. Also, if there are few keywords combined, even if the search result includes the target document, it also includes other extra search results, so the operator will search for the target document from many extra documents. This increases the burden on the operator.

このように音声や電子メールによる応対の、一発話程度の短い期間に話題が変わるような即時性が求められるケース、或いは講演中の一部の音声や文書が表す話題を抽出する場合には、複雑な計算を要しない簡便な方法によって、話題に対応した適切なキーワードの組み合わせを検出するキーワード生成装置や、そのキーワードに対応した話題区間を推定する話題区間推定装置や、適切な応答用文書が提供できる文書検索装置が求められる。   In this way, when responding by voice or e-mail, the case where immediateness is required such that the topic changes in a short period of about one utterance, or when extracting the topic represented by some voice or document being lectured, A keyword generation device that detects an appropriate combination of keywords corresponding to a topic by a simple method that does not require complicated calculation, a topic interval estimation device that estimates a topic interval corresponding to the keyword, and an appropriate response document A document retrieval device that can be provided is required.

この発明はこのような点に鑑みてなされたものであり、複雑な計算を要しないで、入力された文字列中の話題区間を見つける方法、話題区間の境界を推定する方法、さらには、話題に対応するキーワードの組み合わせを見つけ、所定のデータベースからキーワードに対応した文書を検索する方法、とこれらの装置、及びそのプログラムと記録媒体を提供することを目的とする。   The present invention has been made in view of the above points, and does not require complicated calculation, and a method for finding a topic section in an input character string, a method for estimating a boundary of a topic section, and a topic It is an object of the present invention to provide a method for searching a document corresponding to a keyword from a predetermined database, a device thereof, a program thereof, and a recording medium.

この発明のキーワード生成装置は、キーワード検出処理部が入力される文字列からキーワードを検出して、そのキーワードとそのキーワードの出現順番をカウントし、キーワード履歴記憶部で記憶する。そして、そのキーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、話題区間推定部処理部がキーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースから、入力されたキーワードと一致する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせのキーワード履歴記憶部に保存された出現順番上の範囲を、話題区間の範囲として出力する。そして、キーワード生成部が話題区間推定処理部の出力する話題区間内に含まれるキーワードを出力する。   In the keyword generation device of the present invention, the keyword detection processing unit detects the keyword from the input character string, counts the keyword and the appearance order of the keyword, and stores them in the keyword history storage unit. Then, among the keywords, the order of appearance of a keyword or the keyword is input, and the topic section estimation unit processing unit sets each keyword as a search word, and for each of a plurality of documents, at least the search word included in the document is A document including a search word that matches the input keyword is searched from the stored search database, and the combination of the keywords that are the longest continuous adjacent in the order of appearance including the input keyword that can be searched for the document. The range in the appearance order stored in the keyword history storage unit is output as the topic interval range. Then, the keyword generation unit outputs a keyword included in the topic section output from the topic section estimation processing unit.

また、この発明の話題範囲推定装置は、上記した話題区間の範囲を出力する。また、この発明の話題境界推定装置は、上記した話題区間と隣接するキーワードとの間の文字列中の位置情報を話題境界情報として出力する。   Also, the topic range estimation apparatus of the present invention outputs the above-described topic section range. The topic boundary estimation apparatus of the present invention outputs position information in a character string between the above-described topic section and an adjacent keyword as topic boundary information.

また、この発明の文書検索装置は、文書検索部が上記したキーワード生成装置からキーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索し、表示信号変換部は文書検索部が検索した結果を映像信号に変換し、その映像信号を表示部に表示する。そして文書検索部に接続される選択入力部から、表示部に表示された文書タイトル若しくは要約文を選択する選択情報が入力され、文書検索部がその選択入力に基づいて文書記憶装置から文書本体を読み出す。   In the document search device of the present invention, the document search unit receives keywords from the keyword generation device described above, searches the document storage device for document titles or summary sentences related to the keywords including these keywords, and the display signal conversion unit The search result of the document search unit is converted into a video signal, and the video signal is displayed on the display unit. Selection information for selecting the document title or summary sentence displayed on the display unit is input from the selection input unit connected to the document search unit, and the document search unit retrieves the document body from the document storage device based on the selection input. read out.

この発明のキーワード生成装置及び話題範囲推定装置によれば、キーワード個々をそれぞれ検索語とし、それらの検索語を含む文書とを対応付けた検索用データベースから、話題区間推定処理部が、ある出現順番を起点として出現順番上で連続した範囲にあるキーワードを組み合わせ、それら組み合わせたキーワードに対応する検索語を含む文書数の数が0になるまで検索することで、同一の話題に対応する話題区間を推定する。つまり、連続する複数のキーワードを含む文書数が0に変化した時を話題の切り替わり点としている。このように、複雑な計算をすることなく、キーワードと文書内の検索語を照合するだけの簡単な処理で、話題区間を推定することが出来る。   According to the keyword generation device and the topic range estimation device of the present invention, the topic section estimation processing unit has a certain appearance order from the search database in which each keyword is a search word and the document including the search word is associated with each other. By combining keywords that are in a continuous range in the order of appearance starting from, and searching until the number of documents that include the search terms corresponding to the combined keywords becomes zero, topic sections corresponding to the same topic can be obtained. presume. That is, the topic switching point is when the number of documents including a plurality of consecutive keywords changes to zero. As described above, the topic section can be estimated by a simple process in which the keyword is matched with the search word in the document without performing a complicated calculation.

また、この発明による文書検索装置によれば、適切な話題区間及び適切なキーワードを元に文書が検索できるので、適切な文書検索を行うことができる。   In addition, according to the document search device of the present invention, a document can be searched based on an appropriate topic section and an appropriate keyword, so that an appropriate document search can be performed.

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.

図1にこの発明によるキーワード生成装置の実施例1の機能構成を示す。実施例1は、例えば入力される音声情報を音声認識した認識文字列からキーワードと話題範囲を検出する例を示す。音声信号が音声認識処理部101に入力される。音声認識処理部101は、発話毎に、入力音声信号を音声認識して認識文字列をキーワード検出処理部103に出力する。   FIG. 1 shows a functional configuration of Embodiment 1 of the keyword generating apparatus according to the present invention. Example 1 shows an example in which a keyword and a topic range are detected from a recognized character string obtained by voice recognition of input voice information, for example. A voice signal is input to the voice recognition processing unit 101. For each utterance, the speech recognition processing unit 101 recognizes an input speech signal and outputs a recognized character string to the keyword detection processing unit 103.

キーワード検出処理部103は、キーワード検出手段103aが発話毎の認識文字列から検索の際のキーとなる単語であるキーワードを検出して経過時間順に取り出す。例えば、検索の際のキーとして用いる単語の候補の文字列を格納したキーワード辞書を記憶装置であるキーワード辞書格納部104に予め記憶しておき、認識文字列中にキーワード辞書に格納されたキーワード候補の文字列と合致するものがある場合に、その文字列をキーワードとして検出する。または、キーワード辞書格納部104に換えて、例えば特開9−330331号公報に開示されている方法のように、形態素解析部103dによって、認識文字列を形態素解析し、名詞と固定された単語が連続する文字列の部分で、同一の文字列パターンが同一文書内に2回以上現れたものをキーワードとして検出してもよい。この処理は、単語を検出する処理だけであるので、従来技術で示した話題区間を推定する方法に比べて処理時間は短くて済む。   In the keyword detection processing unit 103, the keyword detection unit 103a detects a keyword that is a key word at the time of search from the recognized character string for each utterance and extracts it in the order of elapsed time. For example, a keyword dictionary storing a character string of a word candidate used as a key for search is stored in advance in the keyword dictionary storage unit 104 as a storage device, and the keyword candidates stored in the keyword dictionary in the recognized character string If there is a match with the character string, the character string is detected as a keyword. Alternatively, instead of the keyword dictionary storage unit 104, the recognition character string is morphologically analyzed by the morpheme analysis unit 103d as in the method disclosed in, for example, Japanese Patent Laid-Open No. 9-330331. A continuous character string portion in which the same character string pattern appears two or more times in the same document may be detected as a keyword. Since this process is only a process for detecting a word, the processing time can be shortened compared to the method for estimating the topic section shown in the prior art.

時間順に取り出されたそのキーワードは、キーワードカウント手段103bによって出現順にカウントされる。出現順にカウントされたキーワードは、そのカウント値と組でキーワード履歴記憶部への格納手段103cによって、キーワード履歴記憶部105に記憶される。カウント値は、キーワードの出現順番を表す。以降、実施例1では出現順番をカウント値として動作を説明する。   The keywords taken out in time order are counted in order of appearance by the keyword counting means 103b. The keywords counted in the order of appearance are stored in the keyword history storage unit 105 by the storage means 103c in the keyword history storage unit in combination with the count value. The count value represents the appearance order of keywords. Hereinafter, in the first embodiment, the operation will be described using the appearance order as a count value.

ここでは、キーワード検出処理部103において最も新しく検出されたキーワードのカウント値が、話題区間推定処理部106の検索開始番号保持手段106aと話題区間カウント手段106cにセットされたとして説明する。すると、話題区間推定処理手段106bが、キーワード履歴記憶部105からカウント値と組で記憶されているキーワードを読み出して、そのキーワードを含む文書が幾つ在るかについて、検索用データベース107を検索する。   Here, the description will be made assuming that the count value of the keyword detected most recently in the keyword detection processing unit 103 is set in the search start number holding unit 106a and the topic interval counting unit 106c of the topic interval estimation processing unit 106. Then, the topic section estimation processing unit 106b reads the keyword stored in combination with the count value from the keyword history storage unit 105, and searches the search database 107 for how many documents include the keyword.

検索用データベース107には、例えば、個々のキーワードと同じ複数の検索語KW(*は、1,2,3などの複数の数字を意味する)が列方向に配列記憶され、各文書を表すインデックスd,d,…,dが最上位置で行方向に配列記憶され、インデックスdごとに対応する文書内に検索語KWが含まれているか否かが記憶されている。例えば、検索語が含まれていれば、その検索語の行に“1”、含まれていなければ“0”が記憶されている。この様な検索用の転置行列については、例えば非特許文献「情報検索と言語処理」の26頁に述べられている。 In the search database 107, for example, a plurality of search words KW * (* means a plurality of numbers such as 1, 2, 3, etc.) that are the same as individual keywords are arranged and stored in the column direction to represent each document. Indexes d 1 , d 2 ,..., D 6 are arranged and stored in the row direction at the uppermost position, and whether or not the search word KW * is included in the corresponding document for each index d * is stored. For example, if a search term is included, “1” is stored in the row of the search term, and “0” is stored if not included. Such a transpose matrix for search is described on page 26 of the non-patent document “Information Search and Language Processing”, for example.

便宜上、カウント値をKとして以降説明する。上記カウント値Kのキーワードと同一の検索語を含む文書が在れば、話題区間カウント手段106cが、カウント値Kを、例えば、K−1にダウンカウントする。すると、再び話題区間推定処理手段106bは、話題区間カウント手段106cのカウント値を参照して、K−1番目のキーワードをキーワード履歴記憶部105から読み出し、K番目とK−1番目のキーワードとそれぞれ同一の検索語を両方含む文書の数が幾つ在るかを、検索用データベース107に対して検索する。この動作を、K番目のキーワードからK−1番目、K−2番目と、キーワードの数を増やして、その連続するキーワードと同一の検索語の全てを含む文書の数が0になるまで繰り返す。話題区間カウント手段106cの値が、例えばK−4になり、この時に初めてK番目〜K−4番目のキーワードと同一の検索語を含む検索で文書数が0になった場合、出現順番KからK−3番目までの区間において、それらのキーワードに関連する一つの話題が話されていたと推定する。   For convenience, the following description will be made assuming that the count value is K. If there is a document containing the same search word as the keyword of the count value K, the topic interval counting means 106c counts down the count value K to, for example, K-1. Then, the topic section estimation processing unit 106b again refers to the count value of the topic section counting unit 106c, reads the K-1th keyword from the keyword history storage unit 105, and the Kth and K-1th keywords respectively. The search database 107 is searched for the number of documents including both of the same search terms. This operation is repeated until the number of keywords including all of the same search terms as the consecutive keywords becomes 0, increasing the number of keywords from the Kth keyword to K-1 and K-2. When the value of the topic section counting means 106c becomes, for example, K-4, and when the number of documents becomes 0 in a search including the same search word as the Kth to K-4th keywords for the first time, the order of appearance K It is estimated that one topic related to those keywords was spoken in the section up to the K-3th section.

文書数の検索は、例えば検索用データベース107内に蓄積する文書集合の情報を非特許文献「情報検索と言語処理」の40頁に述べられている転置ファイルの形式で表現したものを用いてand検索をした結果数を数えることで、高速に知ることが可能である。以後、この検索語を含む文書の数を関数NumDoc(X)と記す。(X)には検索語の組み合わせが入る。   The search for the number of documents is performed using, for example, the information of the document set stored in the search database 107 expressed in the form of a transposed file described on page 40 of the non-patent document “Information Search and Language Processing” and By counting the number of search results, it is possible to know at high speed. Hereinafter, the number of documents including the search term is described as a function NumDoc (X). (X) is a combination of search terms.

簡単な具体例を示して更に上記した動作を説明する。今、例えば、音声認識処理部101に、次のような音声のディジタル化された信号が入力されたと仮定する。「データベースにクエリー出来るのにー」「え、ええ」「ブラウザからインターネットに、えー」「え、はい」「接続出来ないのですね」
そのように仮定すると、上記した動作によって、キーワード履歴記憶部105に、(1,データベース)(2,クエリー)(3,ブラウザ)(4,インターネット)(5,接続)(6,出来ない)の順番でキーワードが記憶される。
The above operation will be further described with a simple specific example. Now, for example, it is assumed that the following speech digitized signal is input to the speech recognition processing unit 101. “Can I query the database?” “Yes, yes” “From the browser to the Internet, yes” “Yes, yes” “Can't connect”
Assuming that, the above operation causes the keyword history storage unit 105 to store (1, database) (2, query) (3, browser) (4, Internet) (5, connection) (6, not possible). Keywords are stored in order.

各キーワードと同じ検索語KWと、その検索語を含む文書情報とが、検索用データベース107に記憶されている。以降の説明において、説明の都合で認識文字列から検出したものをキーワード、検索用データベース107に記憶された語を検索語KWと称するが、どちらも、同じ語である。 The same search word KW * as each keyword and document information including the search word are stored in the search database 107. In the following description, what is detected from the recognized character string for convenience of description is referred to as a keyword, and a word stored in the search database 107 is referred to as a search word KW * , both of which are the same word.

話題区間推定処理部106の検索開始番号保持手段106aと話題区間カウント手段106cに最後に出現したキーワードである(6,出来ない)のカウント値K=6がセットされたとする。話題区間推定処理手段106bは、話題区間カウント手段106cのカウント値の出現順番であるキーワードをキーワード履歴記憶部105から読み出し、そのキーワードと同じ検索語KW「出来ない」を含む文書の数の検索を検索用データベース107に対しておこなう。この例では、その検索に対してインデックスdの1個の文書のみが検索され、検索結果文書数として1が得られる。 Assume that the count value K = 6, which is the last keyword that appeared in the search start number holding means 106a and the topic section count means 106c of the topic section estimation processing unit 106 (6, not possible), is set. The topic section estimation processing unit 106b reads a keyword that is the appearance order of the count value of the topic section counting unit 106c from the keyword history storage unit 105, and retrieves the number of documents that include the same search word KW 6 “cannot be” as the keyword. Is performed on the search database 107. In this example, only one document with index d 6 is searched for the search, and 1 is obtained as the number of search result documents.

実際の検索では、検索すべきキーワード(検索語)が少ない時には多数の文書数になり、検索語を増やして行くにしたがって、検索文書数は減少し、ついには検索文書数は0になるように動作する。説明を簡単にする目的で、この例では検索開始の最初から文書検索数は1個であるとして説明する。   In an actual search, when there are few keywords (search words) to be searched, the number of documents is large, and as the number of search words increases, the number of search documents decreases, and finally the number of search documents becomes zero. Operate. In order to simplify the explanation, in this example, it is assumed that the number of document searches is one from the beginning of the search.

文書数が0より大であると、話題区間カウント手段106cは、カウント値KをダウンカウントしてK=5にセットする。話題区間推定処理手段106bは、話題区間カウント手段106cのカウントを参照して、今度は、カウント値K=5番目のキーワード(5,接続)に対応した検索語KW「接続」を増やして、KW=「接続」and「KW=出来ない」、の条件のand検索を検索用データベース107に対して行う。この時も検索した結果の文書数は1である。この動作をキーワード履歴記憶部105に記憶された出現順番順のキーワードを徐々に増やしながら、それら全てのキーワードを含む文書数が0になるまで繰り返す。 If the number of documents is greater than 0, the topic section counting means 106c counts down the count value K and sets K = 5. The topic section estimation processing means 106b refers to the count of the topic section count means 106c, and this time increases the search word KW 5 “connection” corresponding to the count value K = 5th keyword (5, connection), An and search under the condition of KW 5 = “connection” and “KW 6 = not possible” is performed on the search database 107. Also at this time, the number of documents retrieved is 1. This operation is repeated while gradually increasing the keywords in the order of appearance stored in the keyword history storage unit 105 until the number of documents including all the keywords becomes zero.

この例の場合は、カウント値K=3のキーワード(3,ブラウザ)までのand検索の結果の文書数は1個である。カウント値K=2にすると、キーワード(2,クエリー)に対応した検索語KW=「クエリー」を文書dは含まないので、and検索(KWandKWandKWandKWandKW)の結果、文書数は初めて0になる。この結果から、出現番号3〜6の区間において、そのキーワードに関連する話題が話されていたと推定する。以上の動作で話題区間を推定できる原理を以下に説明する。
〔話題区間の推定原理〕
複数の検索語KWをand条件で検索した結果の文書数が0になるということは、最後に加えた検索語KWiを含む文書の集合と、それまでに加えた検索語(KWi+1,…,KW)を全て含む文書の集合とに交わりが無いことになる。文書の集合が交わらないということは、それぞれが異なる話題を扱った文書集合と考えられる。すなわち、最後に追加した検索語を含めた検索語で文書を検索したキーワード出現箇所と、その直前までに追加した検索語を含めた検索語で文書を検索した範囲では、異なる話題を扱っていると推定することが出来る。したがって、複数の検索語KWをand条件で含む文書数が0になる直前のキーワードの両端を求め、そのキーワードの在る範囲を話題区間とすることができる。
In the case of this example, the number of documents as a result of the AND search up to the keyword (3, browser) with the count value K = 3 is one. When the count value K = 2, the document d 6 does not include the search term KW 2 = “query” corresponding to the keyword (2, query), and the result of the and search (KW 2 and KW 3 and KW 4 and KW 5 and KW 6 ) The number of documents becomes zero for the first time. From this result, it is presumed that the topic related to the keyword was spoken in the section of appearance numbers 3-6. The principle by which the topic section can be estimated by the above operation will be described below.
[Topic section estimation principle]
The fact that the number of documents as a result of searching a plurality of search terms KW * with the and condition is 0 means that a set of documents including the search term KW i added last and the search terms (KW i + 1 , .., KW K ), and there is no intersection with a set of documents. The fact that document sets do not intersect is considered a document set that deals with different topics. That is, different topics are handled in the keyword appearance location where the document was searched with the search term including the search term added last and the range where the document was searched with the search term including the search term added immediately before the search term. Can be estimated. Therefore, it is possible to obtain both ends of a keyword immediately before the number of documents including a plurality of search words KW * under the “and” condition becomes 0, and to set a range in which the keyword exists as a topic section.

話題区間推定処理部106の動作を一般化して示した動作フローの一例を図2に示して更に動作を詳しく説明する。ステップ201に示す変数Nは、キーワード履歴記憶部105に記憶されたキーワード数である。話題区間推定処理部106が動作を開始すると、最初にキーワード履歴記憶部105にキーワード履歴が記憶されているか否か、がチェックされる(ステップ201)。キーワード履歴が記憶されていない場合は、N=0となりステップ202において、話題区間の開始側キーワード変数i=0、話題区間の終了側キーワード変数j=0、つまり話題区間がないとして動作を終了する。   An example of an operation flow in which the operation of the topic interval estimation processing unit 106 is generalized is shown in FIG. 2 and the operation will be further described in detail. A variable N shown in step 201 is the number of keywords stored in the keyword history storage unit 105. When the topic section estimation processing unit 106 starts operating, it is first checked whether or not a keyword history is stored in the keyword history storage unit 105 (step 201). If no keyword history is stored, N = 0, and in step 202, the topic section start keyword variable i = 0 and the topic section end keyword variable j = 0, that is, the operation is terminated as there is no topic section. .

今、検索開始番号保持手段106aと話題区間カウント手段106cに、上記した説明と異なり、検索開始キーワード選定手段109によって、キーワード履歴記憶部105に記憶されたキーワードの中の、あるキーワードを特定するカウント値K=4が保持されたとする。検索開始キーワード選定手段109からは、そのあるキーワードそのものを入力してもよい。その場合、話題区間推定処理部106は、そのキーワードの出現番号を、キーワード履歴記憶部105から入手する。すると、話題区間推定処理手段106bは、キーワード出現番号K=4のキーワード(4,インターネット)に対応する検索語KW「インターネット」を含む文書が検索用データベース107内に在るかどうかを検索してその有無を判断する(ステップ203)。検索語KW「インターネット」を含む文書数は{d}の1個であるので、ステップ204で話題区間カウント手段106cが、初期値の4を開始側キーワード変数iに代入する。ステップ203で検索語KW「インターネット」を含む文書数が0の場合は、ステップ214においてi=4、j=4、この場合、話題区間は無いとして動作を終了する。この場合は話題区間の両端が、キーワード出現順番4番目にあることを意味する。 Now, unlike the above description, the search start number holding means 106a and the topic interval counting means 106c are counted by the search start keyword selection means 109 to identify a keyword among the keywords stored in the keyword history storage unit 105. Assume that the value K = 4 is held. From the search start keyword selection unit 109, the certain keyword itself may be input. In that case, the topic section estimation processing unit 106 obtains the appearance number of the keyword from the keyword history storage unit 105. Then, the topic section estimation processing means 106b searches whether or not a document including the search word KW 4 “Internet” corresponding to the keyword (4, Internet) having the keyword appearance number K = 4 exists in the search database 107. The presence or absence is determined (step 203). Since the number of documents including the search word KW 4 "Internet" is one of {d 6 }, the topic section counting means 106 c substitutes an initial value of 4 for the starting keyword variable i in step 204. If the number of documents including the search word KW 4 "Internet" is 0 in step 203, i = 4 and j = 4 in step 214. In this case, the operation is terminated because there is no topic section. In this case, it means that both ends of the topic section are in the fourth keyword appearance order.

話題区間カウント手段106cのカウント値が、キーワードの出現順番であり、話題区間の開始側のカウント値をi、終了側のカウント値をjとして以降の説明を行う。話題区間カウント手段106cのカウント値がダウンカウントされ(ステップ206)、i=3になると、ステップ205において、話題区間推定処理手段106bは検索用データベースに対して、出現順番3番目のキーワード(3,ブラウザ)に対応した検索語KW「ブラウザ」を増やして、NumDoc(S)、Sは(KW,KW)のand検索を行う。この結果、その2つの検索語を含む文書数は{d}の1個であるので、文書数は1である。この動作は、検索結果の文書数が0(ステップ205)か、i=0になるまで(ステップ207)繰り返される。i=2になると、出現順番2番目のキーワード(2,クエリー)に対応した検索語KW「クエリー」を増やして、NumDoc(S)、Sは(KW,KW,KW)のand検索を行う。「クエリー」と「ブラウザ」と「インターネット」の3個の検索語を全て含む文書はないので、検索結果の文書数は0となる。 The following description will be made assuming that the count value of the topic section counting means 106c is the appearance order of keywords, the count value on the start side of the topic section is i, and the count value on the end side is j. When the count value of the topic section counting unit 106c is down-counted (step 206) and i = 3, in step 205, the topic section estimation processing unit 106b makes a search for the third keyword (3, 3) The search term KW 3 “browser” corresponding to “Browser” is increased, and NumDoc (S) and S perform an AND search of (KW 3 , KW 4 ). As a result, since the number of documents including the two search terms is one of {d 6 }, the number of documents is one. This operation is repeated until the number of documents in the search result is 0 (step 205) or i = 0 (step 207). When i = 2, the search term KW 2 “query” corresponding to the second keyword (2, query) in the order of appearance is increased, and NumDoc (S) and S are (and KW 2 , KW 3 , KW 4 ) and Perform a search. Since there is no document including all three search terms “query”, “browser”, and “Internet”, the number of documents in the search result is zero.

話題区間の開始側のキーワードを探すand検索の検索結果文書数が0になると、今度は、話題区間の終了側のキーワードを探す目的で話題区間の終了側の検索語の位置を特定する変数jを、話題区間カウント手段106cにセットする(ステップ208)。先ほど、話題区間の開始側の検索語の位置を特定する変数iの初期値をi=4としたので、ステップ208では話題区間の終了側の検索語の位置を特定する変数jの初期値を、話題終了側隣のキーワード出現順番となるj=K+1=5としている。そして、話題区間の開始側の検索語の位置を特定する変数iに+1してi=3とし、話題区間の開始側のキーワード位置を確定させ(ステップ209)、話題区間の終了側の検索語の検索が開始される。   When the number of search result documents for searching for a keyword at the start of a topic section becomes zero, this time, a variable j that specifies the position of the search word at the end of the topic section for the purpose of searching for a keyword at the end of the topic section. Is set in the topic section counting means 106c (step 208). Since the initial value of the variable i for specifying the position of the search word on the start side of the topic section is i = 4 earlier, in step 208, the initial value of the variable j for specifying the position of the search word on the end side of the topic section is set. J = K + 1 = 5, which is the keyword appearance order next to the topic end side. Then, +1 is added to the variable i specifying the position of the search word on the start side of the topic section, i = 3, the keyword position on the start side of the topic section is fixed (step 209), and the search word on the end side of the topic section is determined. The search for is started.

j=5は、キーワード履歴記憶部105に記憶されているキーワード数Nを超えていないので、ステップ210をスルーして話題区間の終了側のキーワード位置検索ループLeの動作が開始される。そして、ステップ211において話題区間開始側の検索結果を踏まえたand検索が行われる。and検索NumDoc(E)は、(KW,KW,KW)、つまり、開始側キーワード位置検索ループLsで検索した「ブラウザ」と「インターネット」に、出現順5番目の(5,接続)のキーワードに対応した検索語「接続」を加えたand検索を行う。この検索語を全て含む文書は{d}だけであるので文書数は1である。そして、ステップ212において、話題区間終了側の検索語の位置を特定する変数jである話題区間カウント手段106cがカウントアップされる。そして終了側方向の検索語が増やされて、再びand検索が行われる。「ブラウザ」and「インターネット」and「接続」and「出来ない」が行われる(ステップ211)。この動作は、jがキーワード数Nより大になるまで、又は、検索結果文書数が0になるまで続けられる(ループLe)。この例の場合、話題区間終了側の検索語の位置を特定する変数j=7となると、キーワード履歴記憶部105に記憶されているキーワードの数N=6よりjが大きくなるので、ステップ210で話題区間終了側キーワード位置検索ループLeを抜ける。Nが大きな数の場合は、ステップ211で検索結果文書数が0になると話題区間終了側キーワード位置検索ループLeを抜ける。そして終了側キーワード変数jをj−1として確定させ、iとj−1を話題区間として出力する(ステップ213)。この例の場合j=7−1で確定する。以上の動作により、話題区間の開始側キーワード変数i=3、話題区間の終了側キーワード変数j=6となる。 Since j = 5 does not exceed the number N of keywords stored in the keyword history storage unit 105, the operation of the keyword position search loop Le on the end side of the topic section is started through step 210. In step 211, an and search is performed based on the search result on the topic section start side. and search NumDoc (E) is (KW 3 , KW 4 , KW 5 ), that is, the fifth (5, connection) in the order of appearance in “Browser” and “Internet” searched in the start keyword position search loop Ls Perform an AND search with the search term "connection" corresponding to the keyword. Since the document including all of the search terms is only {d 6 }, the number of documents is 1. In step 212, the topic section counting means 106c, which is a variable j that specifies the position of the search term on the topic section end side, is counted up. Then, the search word in the end side direction is increased and the AND search is performed again. "Browser" and "Internet" and "Connection" and "Cannot" are performed (step 211). This operation is continued until j becomes larger than the number N of keywords or until the number of search result documents becomes 0 (loop Le). In this example, when the variable j = 7 specifying the position of the search term on the topic section end side is reached, j is larger than the number of keywords N = 6 stored in the keyword history storage unit 105. Exit the topic section end keyword position search loop Le. When N is a large number, when the number of search result documents becomes zero in step 211, the topic section end side keyword position search loop Le is exited. Then, the end-side keyword variable j is determined as j-1, and i and j-1 are output as topic sections (step 213). In this example, it is determined by j = 7-1. By the above operation, the topic side start keyword variable i = 3 and the topic side end keyword variable j = 6.

このように話題区間を推定するキーワード位置を、キーワード履歴記憶部105に記憶された任意の、あるキーワードから始めることも可能である。こうして推定した話題区間の範囲(i=3,j=6)は、キーワード生成部108に出力される。キーワード生成部108は、話題区間推定処理部106から与えられた話題区間情報に基づいて、キーワード履歴記憶部105からその区間内のキーワードを読み出してキーワード列として出力する。   As described above, the keyword position for estimating the topic section can be started from any keyword stored in the keyword history storage unit 105. The range of topic sections thus estimated (i = 3, j = 6) is output to the keyword generation unit 108. The keyword generation unit 108 reads out keywords in the section from the keyword history storage unit 105 based on the topic section information given from the topic section estimation processing unit 106 and outputs the keyword as a keyword string.

以上説明したキーワード生成装置のキーワード生成方法を整理する。図3にキーワード生成方法の動作フローを示して説明する。まず始めに、キーワード検出処理過程300において、キーワード検出手段103aが、入力される文字列からキーワードを検出し、キーワードカウント手段103bがそのキーワードの出現順にカウントする。キーワード履歴記憶過程301において、キーワード履歴記憶部への格納手段103cは、キーワードカウント手段103bがカウントしたカウント値Kと、キーワード検出手段103aが検出したキーワードとを組としたキーワード履歴を、キーワード履歴記憶部105に記憶する。   The keyword generation method of the keyword generation apparatus described above is organized. FIG. 3 shows an operation flow of the keyword generation method. First, in the keyword detection processing step 300, the keyword detection unit 103a detects a keyword from the input character string, and the keyword counting unit 103b counts the keywords in the order of appearance. In the keyword history storage process 301, the storage means 103c in the keyword history storage unit stores a keyword history that is a set of the count value K counted by the keyword count means 103b and the keyword detected by the keyword detection means 103a, as a keyword history storage. Store in the unit 105.

話題区間推定処理部106は、キーワード個々をそれぞれ検索語とし、それら検索語を含む文書とを対応付けた検索用データベース107を検索する。検索は、話題区間推定処理過程302において、キーワード履歴記憶部105に出現順にカウントされた或るカウント値Kを起点として、話題区間カウント手段106cがカウント値Kをカウントしてキーワードを可変し、その全てのキーワードに対応する検索語を含む文書数が0になるまで行われる。つまり、カウント値Kのキーワードと隣接して連続するキーワードを全て含む文書が見つかる最も長い区間を話題区間の範囲として出力する。このように話題区間推定処理部106によって、与えられた認識文字列中の、指定したキーワードを含む同じ話題について言及している範囲を得ることが出来る。また、顧客応対中の一発話以上の間、同じ話題が続くとすると、その分多くのキーワードを用いて話題区間を推定することができる。つまり、精度の高い推定が行える。キーワード生成処理過程303において、キーワード生成部108の話題区間キーワード抽出手段108aは、話題区間推定処理部106が出力する話題区間内の全てのキーワードを、キーワード履歴記憶部105から読み出してキーワード列を生成する。   The topic section estimation processing unit 106 searches the search database 107 in which each keyword is used as a search word and associated with a document including the search word. In the topic interval estimation processing step 302, the topic interval counting means 106c counts the count value K and changes the keyword starting from a certain count value K counted in the appearance order in the keyword history storage unit 105 in the topic interval estimation process 302. This is performed until the number of documents including the search terms corresponding to all the keywords becomes zero. That is, the longest section in which a document including all consecutive keywords adjacent to the keyword of the count value K is found is output as the topic section range. In this way, the topic section estimation processing unit 106 can obtain a range that refers to the same topic including the specified keyword in a given recognized character string. Also, if the same topic continues for more than one utterance during customer service, the topic section can be estimated using more keywords. That is, highly accurate estimation can be performed. In the keyword generation processing step 303, the topic section keyword extraction unit 108a of the keyword generation unit 108 reads all keywords in the topic section output from the topic section estimation processing unit 106 from the keyword history storage unit 105 and generates a keyword string. To do.

なお、検索用データベース107を転置行列で示した例で説明したが、データベースの構造は、文書がどの検索語を含むかを示せるものであればどの様なものであっても構わない。また検索データベース107に保存される情報の内容は、文書が検索語を含まなくても、話題として関係があることを示すものであっても良い。また、検索はand検索に限られない。例えば、キーワードを含む複数の文書そのものを文書データベース107aとして、そのデータベース内の文書全体を検索して文書数を求める古典的な検索方法を用いてもよい。   Although the example in which the search database 107 is represented by a transposed matrix has been described, the structure of the database may be any as long as it can indicate which search terms the document includes. Further, the content of the information stored in the search database 107 may indicate that there is a relationship as a topic even if the document does not include a search word. Search is not limited to and search. For example, a classical search method may be used in which a plurality of documents including keywords are used as the document database 107a, and the entire document in the database is searched to obtain the number of documents.

図4にこの発明の実施例2として話題範囲推定装置の機能構成例を示す。実施例2は話題区間推定処理部106の出力である話題区間の範囲を入力とし、外部に話題区間の範囲を出力する話題範囲出力部400を備える点が実施例1と異なる。動作は、実施例1と同じであるので説明は省略する。   FIG. 4 shows a functional configuration example of the topic range estimation apparatus as Embodiment 2 of the present invention. The second embodiment is different from the first embodiment in that the second embodiment includes a topic range output section 400 that receives a topic section range as an output of the topic section estimation processing unit 106 and outputs the topic section range to the outside. Since the operation is the same as that of the first embodiment, description thereof is omitted.

話題範囲推定方法を整理する。図5に話題範囲推定方法の動作フローを示して説明する。キーワード検出処理過程300から話題区間推定処理過程302までの動作は、キーワード生成方法と全く同じである。話題区間推定処理過程302において、カウント値Kを、キーワード履歴の最後の出現順番にすると最新の話題範囲を得ることが出来る。また、上記したようにキーワード履歴記憶部105内に記憶された任意のあるキーワードを特定する出現順番をセットすると、その出現順番のキーワードを含む任意の部分の話題区間の範囲を得ることができる。そうして得た話題区間の範囲を入力として、話題範囲出力過程500で話題区間の開始側キーワードの出現順番Kiと、終了側のキーワードの出現順番Kを外部に出力する。 Organize topic range estimation methods. FIG. 5 illustrates an operation flow of the topic range estimation method. The operations from the keyword detection process 300 to the topic interval estimation process 302 are exactly the same as those of the keyword generation method. In the topic section estimation process 302, the latest topic range can be obtained by setting the count value K to the last appearance order of the keyword history. As described above, when an appearance order for specifying an arbitrary keyword stored in the keyword history storage unit 105 is set, the range of the topic section of an arbitrary part including the keyword in the appearance order can be obtained. As input the range of the topic section obtained by doing so, outputs an appearance order K i of initiator keyword topic section in the topic range output process 500, the appearance order K j of the end-side keyword to the outside.

なお、図示しないが、話題区間の範囲の他に、次に示す実施例3に示すように認識文字列の全てを記憶して置き、話題区間のテキスト情報を一緒に出力するようにしても良い。
また、通話の音声情報を録音しておき、話題範囲内の音声情報を出力するようにしても良い。
Although not shown in the drawing, in addition to the topic section range, all of the recognized character strings may be stored and output together with the topic section text information as shown in Example 3 below. .
In addition, voice information of a call may be recorded and voice information within a topic range may be output.

話題範囲と話題範囲との間の話題境界を出力するようにしたこの発明の実施例3である話題境界推定装置を図6に示す。実施例3の基本的な構成は、実施例1と2と一緒である。異なる点は、話題区間の範囲の外側になる他の話題のキーワードとの間の話題境界を得るために、キーワード検出処理部103内に句点・文章区間検出手段103eが新たに設けられた点である。句点・文章区間検出手段103eは、キーワード検出手段103aで検出されたキーワードの直前と直後の句点(。)の認識文字列中の位置情報を検出するものである。位置情報は、句点の他に、音声認識処理によって特定された各発話の区間の始端、終端の認識文字列中の位置を用いても良い。その句点位置情報は、検出されたキーワードと共にキーワード履歴記憶部105に記憶される。話題境界出力部450は、話題区間推定処理部106が出力する話題区間の範囲、例えば(Ki=3, K=6)のKi=3に対応するキーワードである(3,ブラウザ,直前句点位置,直後句点位置)の直前の句点位置情報と、K=6に対応する(6,出来ない,直前句点位置,直後句点位置)の直後の句点位置情報を、キーワード履歴記憶部105から読み出して話題境界として出力する。 FIG. 6 shows a topic boundary estimation apparatus according to Embodiment 3 of the present invention, which outputs a topic boundary between topic ranges. The basic configuration of the third embodiment is the same as that of the first and second embodiments. The difference is that a phrase / sentence section detection means 103e is newly provided in the keyword detection processing unit 103 in order to obtain a topic boundary between keywords of other topics outside the range of the topic section. is there. The punctuation / sentence section detection means 103e detects position information in the recognized character string of the punctuation (.) Immediately before and after the keyword detected by the keyword detection means 103a. The position information may use the positions in the recognized character strings at the start and end of each utterance section specified by the speech recognition process, in addition to the phrase. The phrase position information is stored in the keyword history storage unit 105 together with the detected keyword. Topic boundary output unit 450 is a keyword corresponding range of topic section that topic section estimation processor 106 outputs, to the K i = 3, for example, (K i = 3, K j = 6) (3, browser, just before From the keyword history storage unit 105, the phrase position information immediately before (the phrase position, the immediately following phrase position) and the phrase position information immediately after (6, impossible, immediately preceding phrase position, immediately following phrase position) corresponding to K j = 6 are obtained from the keyword history storage unit 105. Read and output as topic boundaries.

話題境界推定方法を整理する。図7に話題境界推定方法の動作フローを示して説明する。キーワード検出処理過程300から話題区間推定処理過程302までの動作は、キーワード生成方法と全く同じである。話題区間推定処理過程302において、カウント値Kをキーワード履歴の最後の出現順番にすると最新の話題境界を得ることが出来る。また、上記したようにキーワード履歴記憶部105内に記憶された任意のあるキーワードを特定する出現順番をセットすると、その出現順番のキーワードを含む任意の部分の話題境界を得ることが出来る点も同じである。   Organize topic boundary estimation methods. FIG. 7 shows an operation flow of the topic boundary estimation method. The operations from the keyword detection process 300 to the topic interval estimation process 302 are exactly the same as those of the keyword generation method. In the topic section estimation process 302, the latest topic boundary can be obtained by setting the count value K to the last appearance order of the keyword history. Also, as described above, if an appearance order for specifying an arbitrary keyword stored in the keyword history storage unit 105 is set, a topic boundary of an arbitrary part including the keyword in the appearance order can be obtained. It is.

なお、音声認識処理部101からキーワード検出処理部103に入力される認識文字列を、全ての文書テキスト記憶部401にキーワード出現順番と句点位置情報と共に記憶して置き、上記した話題境界に挟まれた文書テキストを文書テキスト記憶部401から読み出して、話題境界情報と共に出力するようにしてもよい。   The recognition character string input from the speech recognition processing unit 101 to the keyword detection processing unit 103 is stored in all document text storage units 401 together with the keyword appearance order and the phrase position information, and is sandwiched between the above-described topic boundaries. The read document text may be read from the document text storage unit 401 and output together with the topic boundary information.

また、図示しないが、句点・文章区間検出手段103eに換えて、キーワード検出処理部103に入力される認識文字列の全てについて付番する文字列カウント手段として、認識文字列中の個々のキーワードの位置を明らかにしても良い。   In addition, although not shown in the drawing, each character string in the recognized character string is used as a character string counting unit that numbers all the recognized character strings input to the keyword detection processing unit 103 instead of the punctuation / sentence section detecting unit 103e. You may clarify the position.

また、通話の音声認識した音声情報を録音しておき、話題境界に挟まれた音声の区間を示す時間情報や音声情報を出力するようにしてもよい。   In addition, voice information that has been voice-recognized during a call may be recorded, and time information and voice information indicating a voice section sandwiched between topic boundaries may be output.

実施例1に示したキーワード生成装置を用いて構成した応対用文検索装置を実施例4として図8に示す。ネットワーク802に顧客電話端末801とコールセンター600内にある電話送受信部803が接続されている。電話送受信部803で送受信される音声情報は、文書検索装置550を構成するキーワード生成部805に接続されている。キーワード生成部805は実施例1で説明したキーワード生成装置そのものであり、認識文字列中から検出したキーワードは、文書検索部807で受信される。文書検索部807は、キーワード生成部805が検出したキーワードと関連する文書タイトル若しくは要約文を、文書記憶装置808から検索して読み出す。文書記憶装置808は、オペレータと顧客との間で交わす話題に関する回答例などの、応対の参考文書(以降、応対文書と称する)を電子的に記憶した文書記憶装置808である。 Figure 8 shows the answering for documents retrieval apparatus using a keyword generating apparatus shown in Example 1 Example 4. A customer telephone terminal 801 and a telephone transmission / reception unit 803 in the call center 600 are connected to the network 802. The voice information transmitted / received by the telephone transmission / reception unit 803 is connected to the keyword generation unit 805 constituting the document search device 550. The keyword generation unit 805 is the keyword generation device itself described in the first embodiment, and the keyword detected from the recognized character string is received by the document search unit 807. The document search unit 807 searches the document storage device 808 and reads out the document title or summary sentence associated with the keyword detected by the keyword generation unit 805. The document storage device 808 is a document storage device 808 that electronically stores reception reference documents (hereinafter referred to as reception documents) such as answers about topics exchanged between an operator and a customer.

文書記憶装置808から読み出されたキーワードと関連する文書タイトル若しくは要約は、表示信号変換部811で映像信号に変換され、表示部809で表示される。オペレータは、表示部809に表示された検索結果のタイトル及び要約文を見て、その中から読みたい文書を、文書検索部807に接続されたキーボード若しくはマウスである選択入力部810を操作して選択する。文書検索部807は、その選択入力に基づいて文書記憶装置808から選択された応対文書を読み出して表示信号変換部811に出力する。表示信号変換部811に出力された応対文書は表示部809に表示される。   The document title or summary associated with the keyword read from the document storage device 808 is converted into a video signal by the display signal conversion unit 811 and displayed on the display unit 809. The operator looks at the title and summary sentence of the search result displayed on the display unit 809 and operates a selection input unit 810 that is a keyboard or a mouse connected to the document search unit 807 to read a document to be read from the title. select. The document search unit 807 reads the response document selected from the document storage device 808 based on the selection input, and outputs it to the display signal conversion unit 811. The response document output to the display signal conversion unit 811 is displayed on the display unit 809.

文書検索装置550の動作フローを図9に示して説明する。入力待ち処理908で、キーワード生成部805及び選択入力部810から入力信号を待ち受けている。入力があると、どちらからの入力であるかが入力判断処理900で判断される。キーワード生成部305からの入力の場合、検出されたキーワードはキーワード受信過程901で文書検索部807に受信される。   The operation flow of the document search apparatus 550 will be described with reference to FIG. In an input waiting process 908, an input signal is awaited from the keyword generation unit 805 and the selection input unit 810. When there is an input, input determination processing 900 determines which input is from. In the case of input from the keyword generation unit 305, the detected keyword is received by the document search unit 807 in the keyword reception process 901.

文書検索部807は受信したキーワードを含む文書タイトル若しくは要約文の検索を文書記憶装置808に対して行い、文書タイトル若しくは要約文を取得する。文書記憶装置から取得した文書タイトル若しくは要約文は、文書タイトル表示過程903によって表示部809に表示される。   The document search unit 807 searches the document storage device 808 for a document title or summary sentence that includes the received keyword, and acquires the document title or summary sentence. The document title or summary sentence acquired from the document storage device is displayed on the display unit 809 by the document title display process 903.

この文書タイトル検索過程902では、受信したキーワードに基づいて改めて検索処理を行っても構わないが、キーワード生成部305で検索した文書インデックス808aも同時に受信するようにしておけば、その文書インデックス808aに基づいて検索処理が行えるので検索処理にかかる計算コストを低減することができる。つまり、キーワード生成部305で行った検索処理の結果を保存し再利用することで、キーワード生成部305から出力したキーワードの組み合わせについて、検索処理の実行を省くことができ、実行時の処理時間を低減できる。文書タイトル表示過程903を終了すると、入力待ち処理908で入力待ち状態となる。   In this document title search process 902, search processing may be performed again based on the received keyword. However, if the document index 808a searched by the keyword generation unit 305 is also received at the same time, the document index 808a is stored in the document index 808a. Since the search process can be performed based on this, the calculation cost for the search process can be reduced. That is, by saving and reusing the results of the search processing performed by the keyword generation unit 305, it is possible to omit the execution of the search processing for the combination of keywords output from the keyword generation unit 305, and to reduce the processing time at the time of execution. Can be reduced. When the document title display process 903 is completed, an input waiting process 908 enters an input waiting state.

表示部809に表示された文書タイトル若しくは要約文の中の一つをオペレータが選択入力部810によって選択する。(文書タイトル選択過程905)。選択された文書タイトル若しくは要約文に対する文書本体を文書記憶装置808から読み出す(文書取得過程906)。そして、読み出した文書本体を文書表示過程907によって表示部809に表示する。   The operator selects one of the document title or summary sentence displayed on the display unit 809 by the selection input unit 810. (Document title selection process 905). The document main body for the selected document title or summary sentence is read from the document storage device 808 (document acquisition process 906). Then, the read document body is displayed on the display unit 809 by the document display process 907.

図10に文書タイトル表示過程903が実行された後の表示部809の表示例を示す。検索候補処理の結果である応対文書の内容をオペレータが把握するための文書タイトル若しくは要約文が表示される502。501には、文書タイトル若しくは要約文502を表示する根拠となったキーワードの組み合わせが表示されている。オペレータは、文書タイトル若しくは要約文502のリストから、読みたい文書の何れか一つを選択し、表示ボタン503を選択入力部310でクリックすることで、選択した結果を文書検索部307に通知する。   FIG. 10 shows a display example of the display unit 809 after the document title display process 903 is executed. A document title or summary sentence for the operator to grasp the contents of the response document as a result of the search candidate processing is displayed 502. Reference numeral 501 indicates a combination of keywords that is the basis for displaying the document title or summary sentence 502. It is displayed. The operator selects one of the documents to be read from the list of document titles or summary sentences 502, and clicks the display button 503 with the selection input unit 310 to notify the document search unit 307 of the selected result. .

なお、文書タイトル表示過程903において、表示されたキーワードの中からより適切な組み合わせのキーワードをオペレータが入力し、そのキーワードの組み合わせを用いて再度検索表示を行っても良い。例えば、表示されている4個のキーワードの内、「プリンター」と「故障」と「電源」の3個をマウス等で選択し、その3個のキーワードの組み合わせで再度検索を行えるようにしてもよい。505は選択され、例えば反転表示されている状態を表している。キーワードを選んで再検索が行えるので、不必要なキーワードの混入を防いで高い精度で文書検索を行うことが可能である。更に、ある一つの発声の間に二つの話題が入るようなケースでも、結論部分にあると思われる発声の最後の話題区間に述べられている話題に相当するキーワードのみを選び、異なる話題のキーワードの混入を防ぎながら高い精度で文書検索を行うことが可能となる。さらに音声認識の途中で誤認識によって湧き出し、話題に関係のないキーワードが出現した場合には、上記したようにそのキーワードを含めずに検索用のキーワードを組み合わせることができるので、文書の検索結果が無い、または不適切な文書が検索されることを防ぐことが出来る。   In the document title display step 903, the operator may input a more appropriate combination of keywords from the displayed keywords, and search and display may be performed again using the combination of keywords. For example, among the four displayed keywords, three of “printer”, “failure”, and “power” are selected with a mouse or the like, and the search can be performed again with the combination of the three keywords. Good. Reference numeral 505 represents a selected state, for example, a state of being highlighted. Since a keyword can be selected and re-searched, it is possible to perform a document search with high accuracy by preventing unnecessary keywords from being mixed. In addition, even if two topics are included in one utterance, only keywords corresponding to the topic described in the last topic section of the utterance considered to be in the conclusion part are selected, and keywords of different topics are selected. It is possible to perform a document search with high accuracy while preventing contamination of the document. Furthermore, if a keyword that is not related to the topic appears due to misrecognition in the middle of speech recognition, you can combine search keywords without including the keyword as described above. It is possible to prevent a document that is missing or inappropriate from being searched.

また、表示部309に表示されている以外のキーワードを入力出来るウインド507を用意して置き、選択入力部310のキーボードからのフリーキーワードで検索出来るようにしても良い。このようにキーワードの入力・修正を容易にすることで、コールセンターの応対業務を効率化することが出来る。全体として、オペレータが現在応対している話題に関する文書を選択する際に、現在の話題に関してより適切なキーワードで自動的に検索実行・提示することで、大規模な文書を応答用文書として利用するコールセンターの応対業務を効率化することが出来る。   Alternatively, a window 507 for inputting a keyword other than that displayed on the display unit 309 may be prepared and searched for using a free keyword from the keyboard of the selection input unit 310. As described above, by facilitating the input / correction of keywords, it is possible to improve the efficiency of call center service. Overall, when an operator selects a document related to a topic currently being handled, a large-scale document is used as a response document by automatically executing and presenting the current topic with a more appropriate keyword. It is possible to improve the efficiency of call center operations.

選択入力部310で選択された選択入力は、文書タイトル選択過程905で受信され、その選択情報に基づいて文書記憶装置308から応対文書を取得する(文書取得過程906)。その文書は、文書表示過程907で表示部309に表示されるので、オペレータはその文書を参考にして、顧客からの問い合わせに的確に答えることが出来る。
上記したように、キーワード生成部305が認識文字列中の最新キーワードを検出するようにしておくことで、常に応対の最新の話題に沿った話題を適切に選択して見ることが可能である。
The selection input selected by the selection input unit 310 is received in the document title selection process 905, and a response document is acquired from the document storage device 308 based on the selection information (document acquisition process 906). Since the document is displayed on the display unit 309 in the document display process 907, the operator can accurately answer the inquiry from the customer with reference to the document.
As described above, when the keyword generation unit 305 detects the latest keyword in the recognized character string, it is possible to always appropriately select and view a topic along the latest topic of reception.

以上述べて来た様に、この発明は、複数の検索語を含む文書数が0になる点を、キーワードの照合と言う極めて簡単な処理によって見つけて、話題範囲を推定するものである。したがって、即時性が求められ、一発話程度の短い期間に話題が変わるような場面に適した話題範囲推定装置やキーワード生成装置を実現することができる。
以上の各実施形態の他、本発明である各装置及び方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
As described above, according to the present invention, the topic range is estimated by finding the point that the number of documents including a plurality of search terms becomes zero by a very simple process called keyword matching. Therefore, it is possible to realize a topic range estimation device and a keyword generation device suitable for scenes where immediateness is required and the topic changes in a short period of about one utterance.
In addition to the above-described embodiments, the devices and methods according to the present invention are not limited to the above-described embodiments, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in each of the above apparatuses and methods is not only executed in time series according to the order of description, but is also assumed to be executed in parallel or individually as required by the processing capability of the apparatus that executes the processing. Also good.

また、上記各装置における処理機能をコンピュータによって実現する場合、言語モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記言語モデル作成装置における処理機能がコンピュータ上で実現される。   Further, when the processing functions in the above devices are realized by a computer, the processing contents of the functions that the language model creation device should have are described by a program. Then, by executing this program on a computer, the processing function in the language model creating apparatus is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage device. When executing the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
In this embodiment, each apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

この発明によるキーワード生成装置の実施例1の機能構成例を示す図。The figure which shows the function structural example of Example 1 of the keyword production | generation apparatus by this invention. 図1の話題区間推定処理部106の動作フローの一例を示す。An example of the operation | movement flow of the topic area estimation process part 106 of FIG. 1 is shown. キーワード生成方法の動作フローの一例を示す。An example of the operation | movement flow of a keyword production | generation method is shown. この発明による話題範囲推定装置の実施例2の機能構成例を示す図。The figure which shows the function structural example of Example 2 of the topic range estimation apparatus by this invention. 話題範囲推定方法の動作フローの一例を示す。An example of the operation | movement flow of a topic range estimation method is shown. この発明による話題境界推定装置の実施例3の機能構成例を示す図。The figure which shows the function structural example of Example 3 of the topic boundary estimation apparatus by this invention. 話題境界推定方法の動作フローの一例を示す。An example of the operation flow of the topic boundary estimation method is shown. この発明による文書検索装置の実施例4の機能構成例を示す図。The figure which shows the function structural example of Example 4 of the document search device by this invention. 図8の文書検索装置の動作フローを示す。The operation | movement flow of the document search apparatus of FIG. 8 is shown. 図8に示す表示部309の表示例を示す図。The figure which shows the example of a display of the display part 309 shown in FIG. 特許文献1に示された形態素解析を利用した話題区間推定方法の原理構成を示す図。The figure which shows the principle structure of the topic area estimation method using the morphological analysis shown by patent document 1. FIG.

Claims (17)

入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番またはそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部が出力する話題区間内のキーワードを出力するキーワード生成部と、
を具備することを特徴とするキーワード生成装置。
A keyword detection processing unit that detects a keyword from an input character string and counts the keyword and the order of appearance of the keyword;
A keyword history storage unit for storing the keywords output by the keyword detection processing unit and the order of appearance;
Each of the keywords is a search term, and for each of a plurality of documents, a search database storing at least the search terms included in the document,
Among the above keywords, the order of appearance of a keyword or the keyword is used as an input, the document containing the search word corresponding to the order of appearance of the keyword or the keyword is searched, and the order of appearance including the input keyword that can be searched for the document. A topic interval estimation processing unit that outputs a range on the appearance order stored in the keyword history storage unit of the longest continuous keyword combination adjacently as a topic interval range;
A keyword generation unit that outputs keywords in the topic section output by the topic section estimation processing unit;
A keyword generation device comprising:
請求項1に記載のキーワード生成装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成装置。
The keyword generating device according to claim 1,
The keyword generation apparatus, wherein the appearance order of the keyword or the keyword input to the topic section estimation processing unit corresponds to the keyword detected most recently in the keyword detection processing unit.
請求項1及び2に記載したキーワード生成装置(以下、キーワード生成部と称す)と、上記キーワード生成部から上記キーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索する文書検索部と、
上記文書検索部により検索された結果を映像信号に変換する表示信号変換部と、
上記表示信号変換部で変換された映像信号を表示する表示部と、
上記文書検索部に接続され、上記表示部に表示された上記文書タイトル若しくは要約文を選択する選択入力部と、
を具備し、上記選択入力部からの選択入力に基づき上記文書検索部は、上記文書検索装置から文書を読み出し、その文書データを上記表示信号変換部に出力するものであることを特徴とする文書検索装置。
3. The keyword generation device (hereinafter referred to as a keyword generation unit) according to claim 1 and 2, the keyword is received from the keyword generation unit, and a document title or a summary sentence associated with the keyword including these keywords is received from the document storage device. A document search section to search;
A display signal conversion unit that converts the result searched by the document search unit into a video signal;
A display unit for displaying the video signal converted by the display signal conversion unit;
A selection input unit that is connected to the document search unit and selects the document title or summary sentence displayed on the display unit;
And the document search unit reads out the document from the document search device and outputs the document data to the display signal conversion unit based on the selection input from the selection input unit. Search device.
請求項3に記載の文書検索装置において、
上記キーワード生成部は出力キーワードに対応した文書の文書インデックスを出力するものであり、上記文書検索部は、文書インデックスに対する文書タイトル若しくは要約文、及び文書本体を上記文書記憶装置から検索するものであることを特徴とする文書検索装置。
The document search device according to claim 3,
The keyword generation unit outputs a document index of a document corresponding to the output keyword, and the document search unit searches a document title or summary sentence for the document index and a document body from the document storage device. A document search apparatus characterized by that.
入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部の上記話題区間の範囲出力を外部に出力する話題範囲出力部と、
を具備することを特徴とする話題範囲推定装置。
A keyword detection processing unit that detects a keyword from an input character string and counts the keyword and the order of appearance of the keyword;
A keyword history storage unit for storing the keywords output by the keyword detection processing unit and the order of appearance;
Each of the keywords is a search term, and for each of a plurality of documents, a search database storing at least the search terms included in the document,
Among the above keywords, the order of appearance of a keyword or the keyword is used as an input, the order of appearance of a keyword or a document including a search word corresponding to the keyword is searched, and the order of appearance including the input keyword that can be searched for the document is searched. A topic interval estimation processing unit that outputs a range on the appearance order stored in the keyword history storage unit of the longest continuous keyword combination adjacently as a topic interval range;
A topic range output unit for outputting the range output of the topic interval of the topic interval estimation processing unit to the outside;
The topic range estimation apparatus characterized by comprising.
請求項5に記載の話題範囲推定装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題範囲推定装置。
In the topic range estimation apparatus according to claim 5,
A topic range estimation apparatus, wherein an appearance order of a certain keyword input to the topic section estimation processing unit or a keyword thereof corresponds to a keyword detected most recently in the keyword detection processing unit.
入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部の出力する話題区間と、その話題区間の外側で隣接するキーワードとの間の上記文字列中の位置情報を話題境界情報として生成する話題境界生成部と、
を具備することを特徴とする話題境界推定装置。
A keyword detection processing unit that detects a keyword from an input character string and counts the keyword and the order of appearance of the keyword;
A keyword history storage unit for storing the keywords output by the keyword detection processing unit and the order of appearance;
Each of the keywords is a search term, and for each of a plurality of documents, a search database storing at least the search terms included in the document,
Among the above keywords, the order of appearance of a keyword or the keyword is used as an input, the order of appearance of a keyword or a document including a search word corresponding to the keyword is searched, and the order of appearance including the input keyword that can be searched for the document is searched. A topic interval estimation processing unit that outputs a range on the appearance order stored in the keyword history storage unit of the longest continuous keyword combination adjacently as a topic interval range;
A topic boundary generation unit that generates position information in the character string between the topic section output by the topic section estimation processing unit and a keyword adjacent outside the topic section as topic boundary information;
The topic boundary estimation apparatus characterized by comprising.
請求項7に記載の話題境界推定装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題境界推定装置。
In the topic boundary estimation apparatus according to claim 7,
A topic boundary estimation apparatus, wherein an appearance order of a certain keyword or a keyword input to the topic section estimation processing unit corresponds to a keyword detected most recently in the keyword detection processing unit.
キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力する出現順番とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記そのキーワード又はあるキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
話題区間キーワード抽出手段が、上記話題区間推定処理部が出力する話題区間内のキーワードを生成するキーワード生成処理過程と、
を有するキーワード生成方法。
Detecting a keyword from the character string keyword detection means is input, and a keyword detection process of keyword counting means for counting the occurrence order in the keyword,
A keyword history storage process in which the storage means to the keyword history storage unit stores the appearance order and keywords output by the keyword detection processing unit in the keyword history storage unit;
The topic section estimation processing means, a plurality of different search terms corresponding to each of the keywords,
The database for search which matched the document containing those search words is collated, and the document which contains the search word which matches the appearance order of a certain keyword or the keyword among the said keywords is searched, and it is memorize | stored in the keyword history memory | storage part. The topic section estimation process for outputting the range in the appearance order saved in the keyword history storage unit of the keyword sequence including the keyword or a keyword that is adjacent and longest in succession in the order of appearance as the topic section range Process,
A topic generation keyword extraction means for generating a keyword in the topic interval output by the topic interval estimation processing unit;
A keyword generation method comprising:
請求項9に記載のキーワード生成方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。
The keyword generation method according to claim 9,
The keyword generation method, wherein the appearance order of the certain keyword or the keyword in the topic section estimation process corresponds to the keyword detected most recently in the keyword detection processing unit.
請求項9又は10に記載したキーワード生成方法により生成されたキーワードを受信するキーワード受信過程と、
受信したキーワードに対応する検索語を含む文書タイトル若しくは要約文を文書記憶装置から検索する文書タイトル検索過程と、
上記検索された文書タイトル若しくは要約文を表示信号変換手段が映像信号に変換して表示部に表示する文書タイトル表示過程と、
上記表示信号変換手段が映像信号を文字表示する過程と、
上記表示部に表示された文書タイトル若しくは要約文の一つを選択する文書タイトル選択過程と、
上記選択された文書タイトル若しくは要約文の一つに対応する文書本体を上記文書記憶装置から読み出し、上記表示部に表示する文書表示過程と、
を有する文書検索方法。
A keyword receiving process for receiving a keyword generated by the keyword generating method according to claim 9 or 10,
A document title search process of searching a document storage device for a document title or a summary sentence including a search term corresponding to the received keyword;
A document title display process in which the display signal conversion means converts the retrieved document title or summary sentence into a video signal and displays it on the display unit,
A process in which the display signal converting means displays the video signal in characters;
A document title selection process for selecting one of the document title or summary sentence displayed on the display unit;
A document display process of reading a document body corresponding to one of the selected document title or summary sentence from the document storage device and displaying the document body on the display unit;
A document search method comprising:
キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力する出現順番とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記そのキーワード又はあるキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
上記話題区間推定処理部の出力する話題区間の範囲を入力として話題区間の開始側の出現順番Kと終了側の出現順番Kを外部に出力する話題範囲出力過程と、
を有する話題範囲推定方法。
A keyword detection process in which the keyword detection means detects a keyword from the input character string, and the keyword counting means counts the appearance order of the keyword;
A keyword history storage process in which the storage means to the keyword history storage unit stores the appearance order and keywords output by the keyword detection processing unit in the keyword history storage unit;
The topic section estimation processing means, a plurality of different search terms corresponding to each of the keywords,
The database for search which matched the document containing those search words is collated, and the document which contains the search word which matches the appearance order of a certain keyword or the keyword among the said keywords is searched, and it is memorize | stored in the keyword history memory | storage part. The topic section estimation process for outputting the range in the appearance order saved in the keyword history storage unit of the keyword sequence including the keyword or a keyword that is adjacent and longest in succession in the order of appearance as the topic section range Process,
A topic range output process in which the topic section range output by the topic section estimation processing unit is input and the appearance order K i on the start side and the appearance order K j on the end side of the topic section are output to the outside;
A topic range estimation method having
請求項12に記載のキーワード生成方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。
The keyword generation method according to claim 12,
The keyword generation method, wherein the appearance order of the certain keyword or the keyword in the topic section estimation process corresponds to the keyword detected most recently in the keyword detection processing unit.
キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力するカウント値とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記あるキーワード又はそのキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
話題境界推定手段が、上記話題区間推定処理部の出力する話題区間と隣接するキーワードとの間の上記文字列中の位置を話題境界情報として生成する話題境界推定過程と、
を有する話題境界推定方法。
A keyword detection process in which the keyword detection means detects a keyword from the input character string, and the keyword counting means counts the appearance order of the keyword;
A keyword history storage process in which the storage means to the keyword history storage unit stores the count value and the keyword output by the keyword detection processing unit in the keyword history storage unit,
The topic section estimation processing means, a plurality of different search terms corresponding to each of the keywords,
The database for search which matched the document containing those search words is collated, and the document which contains the search word which matches the appearance order of a certain keyword or the keyword among the said keywords is searched, and it is memorize | stored in the keyword history memory | storage part. The topic section estimation process for outputting the range in the appearance order stored in the keyword history storage unit of the keyword that includes the keyword or the combination of the keywords that are adjacent and longest in the order of appearance as the topic section range. Process,
A topic boundary estimation process in which a topic boundary estimation unit generates, as topic boundary information, a position in the character string between a topic segment output by the topic segment estimation processing unit and an adjacent keyword;
A topic boundary estimation method having:
請求項14に記載の話題境界推定方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。
The topic boundary estimation method according to claim 14,
The keyword generation method, wherein the appearance order of the certain keyword or the keyword in the topic section estimation process corresponds to the keyword detected most recently in the keyword detection processing unit.
請求項1乃至8に記載した各装置としてコンピュータを機能させるための装置プログラム。   An apparatus program for causing a computer to function as each apparatus according to claim 1. 請求項16に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
A computer-readable recording medium on which any one of the programs according to claim 16 is recorded.
JP2006162462A 2006-06-12 2006-06-12 Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof Active JP4724051B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006162462A JP4724051B2 (en) 2006-06-12 2006-06-12 Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006162462A JP4724051B2 (en) 2006-06-12 2006-06-12 Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2007334429A true JP2007334429A (en) 2007-12-27
JP4724051B2 JP4724051B2 (en) 2011-07-13

Family

ID=38933882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006162462A Active JP4724051B2 (en) 2006-06-12 2006-06-12 Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4724051B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010067565A1 (en) * 2008-12-12 2010-06-17 日本電気株式会社 Device for analyzing document, method of analyzing document, and computer-readable storage medium
CN101826102A (en) * 2010-03-26 2010-09-08 浙江大学 Automatic book keyword generation method
JP2011159100A (en) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> Successive similar document retrieval apparatus, successive similar document retrieval method and program
JP2016177311A (en) * 2016-05-25 2016-10-06 株式会社東芝 Text processing device, text processing method and text processing program
US10304457B2 (en) 2011-07-26 2019-05-28 Kabushiki Kaisha Toshiba Transcription support system and transcription support method
JP2019197293A (en) * 2018-05-08 2019-11-14 ベクスト株式会社 Talk support system and talk support method
CN113407792A (en) * 2021-07-06 2021-09-17 亿览在线网络技术(北京)有限公司 Topic-based text input method
WO2023144896A1 (en) * 2022-01-25 2023-08-03 Nttテクノクロス株式会社 Information processing device, information processing method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203295A (en) * 1998-01-08 1999-07-30 Ntt Data Corp Information providing device and its method
JP2000235585A (en) * 1998-12-30 2000-08-29 Xerox Corp Method/system for cross index of text and sound based on topic
JP2001249930A (en) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> Cooperative response type information providing method and device
JP2004007358A (en) * 2002-03-28 2004-01-08 Fujitsu Ltd Program, device and method for generating synchronized contents information
JP2004164678A (en) * 2002-09-24 2004-06-10 Nariyuki Motoi Content providing system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203295A (en) * 1998-01-08 1999-07-30 Ntt Data Corp Information providing device and its method
JP2000235585A (en) * 1998-12-30 2000-08-29 Xerox Corp Method/system for cross index of text and sound based on topic
JP2001249930A (en) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> Cooperative response type information providing method and device
JP2004007358A (en) * 2002-03-28 2004-01-08 Fujitsu Ltd Program, device and method for generating synchronized contents information
JP2004164678A (en) * 2002-09-24 2004-06-10 Nariyuki Motoi Content providing system

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010067565A1 (en) * 2008-12-12 2010-06-17 日本電気株式会社 Device for analyzing document, method of analyzing document, and computer-readable storage medium
JP5464371B2 (en) * 2008-12-12 2014-04-09 日本電気株式会社 Document analysis apparatus, document analysis method, and program
JP2011159100A (en) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> Successive similar document retrieval apparatus, successive similar document retrieval method and program
CN101826102A (en) * 2010-03-26 2010-09-08 浙江大学 Automatic book keyword generation method
CN101826102B (en) * 2010-03-26 2012-07-25 浙江大学 Automatic book keyword generation method
US10304457B2 (en) 2011-07-26 2019-05-28 Kabushiki Kaisha Toshiba Transcription support system and transcription support method
JP2016177311A (en) * 2016-05-25 2016-10-06 株式会社東芝 Text processing device, text processing method and text processing program
JP2019197293A (en) * 2018-05-08 2019-11-14 ベクスト株式会社 Talk support system and talk support method
CN113407792A (en) * 2021-07-06 2021-09-17 亿览在线网络技术(北京)有限公司 Topic-based text input method
CN113407792B (en) * 2021-07-06 2024-03-26 亿览在线网络技术(北京)有限公司 Topic-based text input method
WO2023144896A1 (en) * 2022-01-25 2023-08-03 Nttテクノクロス株式会社 Information processing device, information processing method, and program
GB2629319A (en) * 2022-01-25 2024-10-23 Ntt Technocross Corp Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP4724051B2 (en) 2011-07-13

Similar Documents

Publication Publication Date Title
JP4724051B2 (en) Keyword generation method, document search method, topic range estimation method, topic boundary estimation method, apparatus and program thereof, and recording medium thereof
US8364470B2 (en) Text analysis method for finding acronyms
JP4887264B2 (en) Voice data retrieval system
JP4930379B2 (en) Similar sentence search method, similar sentence search system, and similar sentence search program
JP5300974B2 (en) Search device
JP2006243728A (en) Method for converting phoneme to text, and its computer system and computer program
JP5722415B2 (en) Automatic completion question providing system, search system, automatic completion question providing method, and recording medium
JP2007323558A (en) Keyword generator, and document retrieval device, method and program
JP6126965B2 (en) Utterance generation apparatus, method, and program
JP4084515B2 (en) Alphabet character / Japanese reading correspondence apparatus and method, alphabetic word transliteration apparatus and method, and recording medium recording the processing program therefor
JP2004046775A (en) Device, method and program for extracting intrinsic expression
JP4416644B2 (en) Character processing apparatus with prediction function, method, recording medium, and program
JP5583230B2 (en) Information search apparatus and information search method
JP4015661B2 (en) Named expression extraction device, method, program, and recording medium recording the same
JP2009104475A (en) Similar document retrieval device, and similar document retrieval method and program
JP4622861B2 (en) Voice input system, voice input method, and voice input program
JP2009282835A (en) Method and device for voice search
JPH06124305A (en) Document retrieving method
JP5160120B2 (en) Information search apparatus, information search method, and information search program
JP4847210B2 (en) Input conversion learning program, input conversion learning method, and input conversion learning device
JP2001109740A (en) Device and method for preparing chinese document
JP5344649B2 (en) Character string conversion apparatus, character string conversion method, program, and recording medium
JP3819959B2 (en) Information retrieval device by voice
JP2011053851A (en) Classification processor
KR100957416B1 (en) Method and System for Providing Search Service Using Synonym

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350