JP5847290B2 - Document search apparatus and document search method - Google Patents
Document search apparatus and document search method Download PDFInfo
- Publication number
- JP5847290B2 JP5847290B2 JP2014504643A JP2014504643A JP5847290B2 JP 5847290 B2 JP5847290 B2 JP 5847290B2 JP 2014504643 A JP2014504643 A JP 2014504643A JP 2014504643 A JP2014504643 A JP 2014504643A JP 5847290 B2 JP5847290 B2 JP 5847290B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- unit
- result
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 109
- 230000010354 integration Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 description 31
- 230000000877 morphologic effect Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 230000007704 transition Effects 0.000 description 10
- 239000010410 layer Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Description
この発明は、電子化されたドキュメントの章、節、項などの細かい単位を検索するドキュメント検索装置およびドキュメント検索方法に関するものである。 The present invention relates to a document search apparatus and a document search method for searching for fine units such as chapters, sections, and sections of an electronic document.
家電製品および車載機器など、多くの機器に対し、操作方法およびトラブル時の対応方法などについて記載した紙の取扱説明書が添付されている。その中でも、画面を持つような情報機器においては、取扱説明書が電子化され、直接検索および閲覧が可能となっている。これにより、わざわざ紙のドキュメントを持ち歩いたりすることなく、閲覧することが可能となっている。一方で、電子化されたドキュメントは一覧性が低く、ユーザが確認したいと思う内容を探すことが難しく、検索機能を提供することが必須となる。 For many devices such as home appliances and in-vehicle devices, a paper instruction manual that describes operation methods and troubleshooting methods is attached. Among them, in an information device having a screen, an instruction manual is digitized and can be directly searched and browsed. This makes it possible to browse without having to carry a paper document. On the other hand, an electronic document has a low listability, and it is difficult to search for a content that a user wants to confirm, and it is essential to provide a search function.
従来の検索機能の典型的なものの中で一番単純な方式としては、キーワードにより検索を行い、ヒットした部分をドキュメントの先頭から出現順に表示するGREP検索方式がある。さらに、あらかじめドキュメントと抽出したキーワードから検索インデックスを作成し、その検索インデックスを利用して論理式による検索を行い候補を表示する論理型検索方式がある。また、論理型検索方式では入力キーワードと検索インデックスとの関連度を表すスコアが定義できないため、単純にキーワードを入力してその出現頻度をカウントすることでスコアを決定するベストマッチング検索方式がある。さらにキーワードからtf・idf(term frequency and inverse document frequency)などの統計的な重みを付けた検索インデックスを作成し、入力キーワードとのベクトル距離(内積)によって検索して候補を表示する統計型検索方式がある。これらの検索方式の提供により、電子化されたドキュメントを検索することが可能になり、ある程度ユーザが求める部分を閲覧することが可能である。 Among the typical conventional search functions, the simplest method is a GREP search method in which a search is performed using a keyword and hit portions are displayed in the order of appearance from the top of the document. Further, there is a logical search method in which a search index is created from a document and a keyword extracted in advance, and a search is performed using a logical expression using the search index to display candidates. Further, since the logical search method cannot define a score representing the degree of association between an input keyword and a search index, there is a best matching search method in which a score is determined by simply inputting a keyword and counting its appearance frequency. Further, a search index with a statistical weight such as tf.idf (term frequency and inverse document frequency) is created from the keyword, and a search is performed by a vector distance (inner product) with the input keyword to display candidates. There is. By providing these search methods, it is possible to search for an electronic document, and it is possible to browse a portion requested by the user to some extent.
論理型検索方式では、検索条件に厳密に一致するものだけを検索するため、複雑な検索条件を駆使すればユーザの検索意図に一致するものが見つかりやすいというメリットがある一方、検索条件が少しでも適切でないと検索漏れにつながりやすいというデメリットがある。また、複雑な検索式を構築することは一般ユーザにとってはハードルが高いというデメリットもある。従って、最も一般的な論理型検索はキーワードを複数入力させ、OR論理演算によって検索結果を求めて提示する方式である。
一方、ベストマッチング検索方式および統計型検索方式の場合には、キーワードに論理的な構造を入れる必要なく検索できるというメリットがある一方、ドキュメント中のキーワードの出現回数が単純にスコア化されたり、出現傾向に応じて重み付けされた値によってスコアが計算されたりするために、ユーザが制御することが難しいというデメリットがある。The logical search method searches only those that exactly match the search conditions, so there is an advantage that using complex search conditions makes it easier to find a search that matches the user's search intention. There is a demerit that it is easy to lead to search omission if it is not appropriate. In addition, there is a demerit that building a complicated search expression is a high hurdle for general users. Therefore, the most common logical type search is a method in which a plurality of keywords are input and a search result is obtained and presented by an OR logical operation.
On the other hand, the best-matching search method and the statistical search method have the advantage of being able to search without the need for a logical structure in the keyword, while the number of occurrences of the keyword in the document is simply scored or There is a demerit that it is difficult for the user to control because the score is calculated by a value weighted according to the tendency.
これらの方式のメリットとデメリットを踏まえて、両方の良いところを活かす方法として、複数の検索エンジンを統合して処理するような方法が提案されている。たとえば特許文献1では、論理型検索方式と統計型検索方式、またはベストマッチング検索方式と統計型検索方式を別々に実行し、その結果を論理的に統合することで検索する方法が開示されている。
Based on the merits and demerits of these methods, a method that integrates and processes a plurality of search engines has been proposed as a method of taking advantage of both advantages. For example,
具体的には、論理型検索方式の検索エンジンからは検索結果候補の情報だけが求まり、ベストマッチング検索方式と統計型検索方式の検索エンジンからは検索結果候補とそのスコアが情報として求まる。
論理型検索方式と統計型検索方式を合わせた場合には、たとえば、論理式型検索結果と統計型検索結果のうち文書IDの重なったものだけを最終結果候補としたり、論理式型検索結果と統計型検索結果の文書IDのすべてを最終結果候補とした上で、統計型検索結果のスコアを最終結果の順位付けに使ったりしている。Specifically, only search result candidate information is obtained from a logical search method search engine, and search result candidates and their scores are obtained as information from best matching search method and statistical search method search engines.
When the logical type search method and the statistical type search method are combined, for example, only the result of the logical type search result and the statistical type search result with the document ID overlapping is set as the final result candidate, or the logical type search result and All the document IDs of the statistical search results are used as final result candidates, and the scores of the statistical search results are used for ranking the final results.
さらに、ベストマッチング検索方式と統計型検索方式を合わせた場合には、スコアの平均を使って最終結果の順位付けを行っている。 Furthermore, when the best matching search method and the statistical search method are combined, the final results are ranked using the average of scores.
また、従来の検索方式では、キーワードの表層的な違いによって検索できない場合を少なくするために、同義語および類義語のテーブルを作成しておき、検索条件中のキーワードを同義語および類義語に展開して検索する方法が提案されている。 In addition, in the conventional search method, a table of synonyms and synonyms is created and the keywords in the search conditions are expanded into synonyms and synonyms in order to reduce the case where the search cannot be performed due to differences in the surface layer of keywords. A search method has been proposed.
従来のドキュメント検索装置およびドキュメント検索方法は以上のように構成されているので、単独の検索方式で検索するよりもユーザが所望する検索結果を得やすくなっている。しかしながら、これらの検索方式は、検索インデックスを作成するためのキーワードの抽出対象が検索対象のドキュメントそのものであるため、単独の検索方式を使う場合でも、複数の検索方式を組み合わせて使う場合でも、ドキュメント内に出現したキーワードを検索することが基本となる。 Since the conventional document search apparatus and document search method are configured as described above, it is easier to obtain a search result desired by the user than when searching by a single search method. However, in these search methods, the keyword extraction target for creating the search index is the search target document itself, so even if a single search method is used or a combination of multiple search methods is used, the document It is fundamental to search for keywords that appear inside.
また、実際の検索場面においては、検索する側はドキュメントで使われるキーワードが何か分からない状態で検索条件を入力しなくてはならないため、所望のドキュメントが引けないということが発生する。それらを解消するため、同義語および類義語展開による検索が行われ、それによって多少の改善が期待できる。しかしながら、取扱説明書などのドキュメントは、正確を期すため専門的な用語、および独自機能に対する特別な用語を使った説明が記載されることが多く、一般的なユーザおよび使い方を知りたい初心者ユーザにとっては、何をキーワードとして検索すれば所望の説明が得られるのか分からないという状況になってしまう場合が多い。具体的には、カーナビゲーションの地図向きを表す用語として「北基準」とか「自車基準」といった用語がカーナビ初心者には想像もできないキーワードであり、「走っていく方向がいつも上側になる地図にしたい」といった条件で検索しようとし、適切なキーワードが存在しないため所望の検索結果が得られないといったことが発生する。 Further, in the actual search scene, the search side must input the search condition in a state where the keyword used in the document is unknown, so that a desired document cannot be drawn. In order to eliminate them, a search by synonym and synonym expansion is performed, so that some improvement can be expected. However, manuals and other manuals often contain technical terms and explanations using special terms for unique functions to ensure accuracy, so it is recommended for general users and beginner users who want to know how to use them. In many cases, it is difficult to know what is searched for as a keyword to obtain a desired explanation. Specifically, terms such as “north reference” or “own vehicle reference” are terms that cannot be imagined by car navigation beginners as terms that indicate the direction of a map for car navigation. When a search is performed under a condition such as “I want to do”, an appropriate keyword does not exist and a desired search result cannot be obtained.
この発明は、上記のような課題を解決するためになされたもので、ユーザの自然言語による入力に対して、単純な検索方式による検索結果よりも、より適切な検索結果を提示することを目的とする。 The present invention has been made to solve the above-described problems, and it is an object of the present invention to present a more appropriate search result for a user's natural language input than a search result obtained by a simple search method. And
この発明に係るドキュメント検索装置は、あらかじめ用意されたドキュメントから作成した検索インデックスと、ユーザからの入力を受け、検索インデックスを用いてドキュメント内から当該ユーザ入力に関連のある項目を検索するドキュメント検索部と、ドキュメントの内容を問う想定質問と当該想定質問の回答となるドキュメント内の項目との対応関係を学習した発話推定モデルと、発話推定モデルを基にドキュメント内からユーザ入力の回答に相当する項目を推定する発話内容推定部と、ドキュメント検索部から得られたドキュメント検索結果および発話内容推定部から得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合部とを備えるものである。 A document search device according to the present invention receives a search index created from a document prepared in advance and an input from a user, and uses the search index to search an item related to the user input from the document. And an utterance estimation model that learns the correspondence between an assumed question that asks the contents of the document and an item in the document that is the answer to the assumed question, and an item that corresponds to a user input answer from the document based on the utterance estimation model Utterance content estimation unit, and a document search result obtained from the document search unit and a document estimation result obtained from the utterance content estimation unit are integrated to generate a final search result. is there.
この発明に係るドキュメント検索方法は、入力解析部が、ユーザからの入力を受け付けるユーザ入力ステップと、ドキュメント検索部が、あらかじめ用意されたドキュメントから作成した検索インデックスを用いて、当該ドキュメント内からユーザ入力に関連のある項目を検索するドキュメント検索ステップと、発話内容推定部が、ドキュメントの内容を問う想定質問と当該想定質問の回答となるドキュメント内の項目との対応関係を学習した発話推定モデルを基に、ドキュメント内からユーザ入力の回答に相当する項目を推定する発話内容推定ステップと、結果統合部が、ドキュメント検索ステップから得られたドキュメント検索結果および発話内容推定ステップから得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合ステップとを備えるものである。 In the document search method according to the present invention, a user input step in which an input analysis unit receives an input from a user, and a user input from within the document using a search index created from a document prepared in advance by the document search unit. The document search step for searching for items related to the utterance, and the utterance content estimation unit based on the utterance estimation model in which the correspondence between the assumed question that asks the document content and the item in the document that is the answer to the assumed question is learned. The utterance content estimation step for estimating an item corresponding to the user input answer from the document, and the result integration unit obtains the document search result obtained from the document search step and the document estimation result obtained from the utterance content estimation step. Result in a final search result It is intended and a consolidation step.
この発明によれば、ユーザがどのような聞き方をするかを想定した質問とその回答になるドキュメント項目との対応関係を学習した発話推定モデルを用いて、ドキュメント内からユーザ入力の回答に相当する項目を推定し、推定結果をインデックス検索の結果と統合するようにしたので、ユーザの自然言語による入力に対して、単純な検索方式による結果よりも、より適切な検索結果を提示することができる。 According to the present invention, using an utterance estimation model in which a correspondence between a question assuming a user's way of listening and a document item as an answer is learned, it corresponds to a user input answer from within a document. Since the estimated items are integrated with the index search results, it is possible to present more appropriate search results than the results of the simple search method to the user's natural language input. it can.
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本実施の形態1に係るドキュメント検索装置の構成を示すブロック図である。
ドキュメント1は、製品の取扱説明書などを電子化したテキストデータである。このドキュメント1は、製品機能などに合わせて章、節、項などの項目にある程度階層化されているものとする。入力解析部2は、ドキュメント1のテキストなどを公知の技術である形態素解析などの方法により、形態素単位に分割する。ドキュメント解析結果3は、入力解析部2によってドキュメント1を形態素に分割したデータである。Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the document search apparatus according to the first embodiment.
検索インデックス作成部4は、ドキュメント解析結果3から検索インデックス5を作成する。この検索インデックス5は、ドキュメント検索部12からのキーワードの入力に対してドキュメント1中の特定の章、節、項などの項目を検索結果として返す。
収集発話データ6は、ドキュメント1を利用する場合にあらかじめユーザアンケートなどの方法によって聞きたいことを収集した発話データである。収集発話データ6の作成方法は、あらかじめドキュメント1に書かれた製品機能から質問を生成し、それをアンケートなどの形で事前に集めたものを想定する。
収集発話解析結果7は、入力解析部2によって収集発話データ6を形態素に分割したデータである。The search
The collected
The collected
発話推定モデル作成部8は、収集発話解析結果7の形態素単位を学習単位(素性)として統計的な学習を行い、発話推定モデル9を作成する。この発話推定モデル9は、収集発話解析結果7の形態素列を入力とし、発話内容推定結果として前記質問に対する回答に相当する項目をスコアつきで返すための学習結果データである。
The utterance estimation model creation unit 8 performs statistical learning using the morpheme unit of the collected
ユーザ入力10は、ドキュメント検索装置へのユーザからの入力を表すデータである。ここでは、ユーザ入力10がテキスト入力であるものとして説明を行う。ユーザ入力解析結果11は、入力解析部2によってユーザ入力10を形態素に分割したデータである。
The
ドキュメント検索部12は、ユーザ入力解析結果11を入力として、検索インデックス5を利用して検索を行い、ドキュメント検索結果13を作成する。
発話内容推定部14は、ユーザ入力解析結果11を入力として、発話推定モデル9を使ってこの入力に対応する項目を推定し、その項目のドキュメントIDを取得する。ドキュメント推定結果15は、発話内容推定部14で推定したドキュメントIDとそのスコア(後述する)を含むデータである。The
The utterance
結果統合部16は、ドキュメント検索結果13とドキュメント推定結果15を統合して1つの検索結果としてまとめ、最終検索結果17として出力する。
The
図2は、ドキュメント1の例である。ドキュメント1は章、節、項のような階層構造を持っており、階層ごとに検索結果位置を示すドキュメントIDを持っている。図2の例では、ドキュメントID「Id_10_1」のドキュメント1−1が、下位のデータ構造内に含まれるテキストも含んでいる。たとえば「Id_10_1_1」のドキュメント1−2は、「Id_10_1」のドキュメント1−1にも含まれることを表している。
FIG. 2 is an example of the
図3は、ドキュメント解析結果3、および検索インデックス5用のキーワードリストの例である。「Id_10_1_1」はドキュメント解析結果3−1の一例であり、図2の「Id_10_1_1」のドキュメント1−2に対して形態素解析による入力解析を行った結果を示している。このドキュメント解析結果3−1では、形態素解析結果の区切を「/」で区切っている。
検索インデックス用データ3−2は、「Id_10_1_1」のドキュメント解析結果3−1をもとにした、検索インデックス作成部4が使用するデータ例を示している。ここではドキュメントIDと自立語形態素の一般形(キーワード)のリストとが抽出されている。FIG. 3 shows an example of the keyword analysis results for the
The search index data 3-2 indicates an example of data used by the search
図4は、収集発話データ6の例である。収集発話データ6−1は「Id_10」のドキュメントに対応する質問の例、収集発話データ6−2は「Id_10_1」のドキュメントに対応する質問の例、収集発話データ6−3は「Id_10_1_1」のドキュメントに対応する質問の例である。収集発話データ6−4は、地図種類の具体的変更方法を知りたいことを意図した質問であるが、ここで想定している製品では実現不可能な地図種類であるため、「Id_10_1_1」と同階層のドキュメントIDが選択できない収集発話データ例である。
なお、これら収集発話データ6−1〜6−4は、ユーザが製品の機能を確認するためにどのような聞き方をするかを想定した質問文例である。FIG. 4 is an example of the collected
Note that these collected utterance data 6-1 to 6-4 are examples of question sentences that are assumed to be heard by the user in order to confirm the function of the product.
図5は、収集発話解析結果7、および発話推定モデル9用のキーワードリストの例である。「Id_10_1_1」は収集発話解析結果7−1の一例であり、図4の「Id_10_1_1」の収集発話データ6−1のテキストを形態素解析による入力解析を行った結果を示している。
発話推定モデル用データ7−2は、「Id_10_1_1」の収集発話解析結果7−1をもとにした、発話推定モデル作成部8が使用するデータ例を示している。ここではドキュメントIDと自立語形態素の一般形(キーワード)のリストとが抽出されている。FIG. 5 is an example of a keyword list for the collected
The utterance estimation model data 7-2 shows an example of data used by the utterance estimation model creation unit 8 based on the collected utterance analysis result 7-1 of “Id — 10_1 — 1”. Here, a document ID and a list of general forms (keywords) of independent word morphemes are extracted.
次に、ドキュメント検索装置の動作を説明する。
動作は大きく2つの処理に分かれる。1つは、ドキュメント1および収集発話データ6からそれぞれ検索インデックス5、発話推定モデル9を作成する作成処理であり、もう1つは、ユーザ入力10を受けて最終検索結果17を作成する検索処理である。まず、作成処理について説明する。Next, the operation of the document search apparatus will be described.
The operation is roughly divided into two processes. One is a creation process for creating the
まず、作成処理のうち、検索インデックス5の作成方法について説明する。ここでは、従来技術で開示されているtf・idfによる重み付けをするものとする。
図6は、ドキュメント1から検索インデックス5を作成するまでの動作を示すフローチャートである。図2に示したように、ドキュメント1はドキュメントIDとテキストとが対応付けられたペアになっているものとする。たとえば、ドキュメント1−2ではドキュメントID「Id_10_1_1」という名前に、「自車基準。自車の進行方向を上とした地図が表示されます。」というテキストが対応付けられている。ステップST1では、入力解析部2がこの構造のドキュメント1を順次読み込み、既知の技術である形態素解析によって形態素列に分割する。ドキュメント1−2を形態素解析した結果が、図3のドキュメント解析結果3−1である。このドキュメント解析結果3−1は、形態素の区切り「/」しか示していないが、実際には、品詞情報、活用語の原型、読みなどが含まれているものとする。First, a method for creating the
FIG. 6 is a flowchart showing an operation from creation of the
ドキュメント解析結果3がすべてのドキュメントIDに対して生成されると、続くステップST2で、検索インデックス作成部4が、すべてのドキュメント解析結果3から検索インデックス5の作成に必要な形態素(キーワード)を抽出し、(ドキュメントID、キーワードリスト)のペアを作成し、すべてのペアを元にtf・idfによって重み付けした検索インデックス5を作成する。図3のドキュメント解析結果3−1から抽出した(ドキュメントID、キーワードリスト)のペアは、同じ図3の検索インデックス用データ3−2で表される。
When the
具体的な検索インデックス作成手順の説明は行わないが、簡単に説明する。まず、tf・idfは、すべてのドキュメントIDに含まれるキーワード数をベクトルの次元とし、各キーワードをベクトルの要素に割り当て、ベクトルの値を頻度で表す(tfの部分)。このベクトル値を「多くのドキュメントに出現するキーワード(一般的な語)は重要度が低く、特定のドキュメントにしか出現しないキーワードの重要度は高い」というヒューリスティックに適うように重み付けを行う(idfの部分)。この重み付きテーブルが検索インデックス5となる。
A specific search index creation procedure will not be described, but will be briefly described. First, tf · idf uses the number of keywords included in all document IDs as a vector dimension, assigns each keyword to a vector element, and represents the vector value as a frequency (tf portion). This vector value is weighted so as to meet the heuristic that “keywords that appear in many documents (general words) have low importance, and keywords that appear only in specific documents have high importance” (idf portion). This weighted table is the
次に、発話推定モデル9の作成処理について説明する。
図7は、収集発話データ6から発話推定モデル9を作成するまでの動作を示すフローチャートである。収集発話データ6は、図4の収集発話データ6−1〜6−4に表したように、あらかじめユーザから集めた発話をその回答となるドキュメントIDに割り当てたデータである。収集発話データ6の作成方法は、アンケートなどでドキュメントIDごとの機能を説明した内容を提示して、その機能を探したい場合に何と言うかを表す文章を集めたデータである。たとえば、図4の「Id_10_1_1」の「自車基準。自車の進行方向を上とした地図が表示されます。」という具体的内容を提示した場合は、収集発話データ6−3のような発話が収集できることが期待でき、一方「Id_10」のような上位の概念を提示した場合には、収集発話データ6−1のようなデータを始め、収集発話データ6−2〜6−4のような発話も収集できることが期待できる。なお、収集発話データ6−4はドキュメント1の製品の機能外の内容の発話データであり、この場合は中間的な「Id_10_1」のドキュメントIDに割り当てることとなる。上記の作業は人手によってあらかじめ行い、図4の構造のデータを用意しておくこととなる。Next, a process for creating the
FIG. 7 is a flowchart showing an operation until the
入力解析部2はステップST3において、ステップST1でドキュメント1を入力とした場合と同様に、収集発話データ6の形態素解析を行う。たとえば、図4の収集発話データ6−3を形態素解析した結果が、図5の収集発話解析結果7−1である。続くステップST4で発話推定モデル作成部8が、ステップST2と同様にドキュメントIDとキーワードのリストを発話推定モデル用データ7−2として抽出し、発話推定モデル9を作成するための処理を行う。発話推定モデル9は、ここでは最大エントロピ法(以下、ME法)によって学習するものとする。
In step ST3, the
ME法の詳細な説明は行わないが、簡単に説明する。ME法は、(ドキュメントID、キーワードリスト)のペアを学習データとし、入力としてキーワードのリストを入力した場合にそのドキュメントIDを推定する方法である。キーワードのリストからドキュメントのIDを推定するときに学習したデータで最も起こりやすくなる(正解が多くなる)ように(ドキュメントID、キーワードリスト)のペアの重みを計算し、それを保存したものが発話推定モデル9である。
すべての収集発話解析結果7からキーワードが抽出され、ME法によって学習して、発話推定モデル9が作成される。具体的には、図5の収集発話解析結果7−1に対して、同じ図5の発話推定モデル用データ7−2が抽出され、この発話推定モデル用データ7−2を元に上記学習が行われる。The ME method will not be described in detail, but will be described briefly. The ME method is a method of estimating a document ID when a pair of (document ID, keyword list) is used as learning data and a keyword list is input as an input. The weight of the pair of (document ID, keyword list) is calculated so that it is most likely to occur in the data learned when estimating the document ID from the keyword list (the number of correct answers increases), and the saved data is the utterance This is an
Keywords are extracted from all the collected
次に、検索処理について説明する。
図8は、ユーザ入力10から最終検索結果17を作成するまでの動作を示すフローチャートである。図9および図10は、ユーザ入力10の一例であるユーザ入力10−1の検索処理における遷移例を示す。ここではユーザ入力10はテキストでの入力を想定し、図9のユーザ入力10−1が入力されたとして説明する。入力解析部2は、ステップST11でまずユーザ入力10−1を受け取り、形態素解析してユーザ入力解析結果11−1を生成し、ユーザ入力解析結果11−1から自立語を抽出してキーワードリスト11−2を作成する。続くステップST12では、発話内容推定部14がこのキーワードリスト11−2を入力に用いて、発話推定モデル9から図10のドキュメント推定結果15−1を得る。図10に示すように、ドキュメント推定結果15−1は、スコア順に並んでいる。このスコアは、発話推定モデル9に保存された(ドキュメントID、キーワードリスト)のぺアの重みから算出される値であり、ユーザ入力10との関連度合いが高いドキュメントID、即ち、ユーザ入力10の質問に対する回答として相応しいドキュメントIDに高いスコアが付与される。Next, the search process will be described.
FIG. 8 is a flowchart showing the operation from the
ドキュメント推定結果15−1が得られると、続くステップST13にて今度はドキュメント検索部12がキーワードリスト11−2を入力に用いて、検索インデックス5から図10のドキュメント検索結果13−1を得る。図10に示すように、ドキュメント検索結果13−1もスコア順に並んでいる。このスコアは、検索インデックス5に保存されたtf・idfの重みから算出される値であり、ユーザ入力10との関連度合いが高いドキュメントIDに高いスコアが付与される。
なお、ドキュメント推定結果15のスコアおよびドキュメント検索結果13のスコアの算出方法には公知の技術を用いればよいため、ここでの説明は省略する。When the document estimation result 15-1 is obtained, the
Note that a known technique may be used for the calculation method of the score of the
ステップST13の処理が終わると、続いてステップST14の処理に移り、結果統合部16がドキュメント推定結果15−1の最大スコアがここで定めた閾値X(たとえば、X=0.9)以上かどうかを判断する。ドキュメント推定結果15−1では最大スコアが閾値Xより小さいので(ステップST14“NO”)、結果統合部16はステップST16の処理に進む。ステップST16では、ドキュメントIDごとに、ドキュメント検索結果13−1のスコアとドキュメント推定結果15−1のスコアの重み付き加算を行い、最終検索結果17−1を作成する。図10では、(ドキュメント推定結果15−1のスコア):(ドキュメント検索結果13−1のスコア)=1:1で加算した結果が最終検索結果74となっている。
When the process of step ST13 ends, the process proceeds to the process of step ST14, and the
一方、ステップST14でドキュメント推定結果15−1の最大スコアが閾値Xを超えた場合には(ステップST14“YES”)、続くステップST15にて結果統合部16はドキュメント検索結果13−1を破棄して、ドキュメント推定結果15−1を最終検索結果(不図示)とする。
検索が終了すると、ドキュメント検索装置は画面にドキュメントIDのタイトルなどを表示して、ユーザに選択させることで、所望のドキュメント位置を提示する。On the other hand, when the maximum score of the document estimation result 15-1 exceeds the threshold value X in step ST14 (step ST14 “YES”), the
When the search is completed, the document search device displays the title of the document ID and the like on the screen and makes the user select, thereby presenting a desired document position.
以上より、実施の形態1によれば、ドキュメント検索装置は、あらかじめ用意されたドキュメント1から作成した検索インデックス5と、ユーザ入力10を解析したユーザ入力解析結果11を受け、検索インデックス5を用いてドキュメント1内からユーザ入力解析結果11に関連のあるドキュメントIDを検索するドキュメント検索部12と、ドキュメント1の内容を問う想定質問(ユーザ発話)とその回答となるドキュメントIDとの対応関係を定義した収集発話データ6を学習した発話推定モデル9と、発話推定モデル9を基にドキュメント1内からユーザ入力解析結果11の回答に相当するドキュメントIDを推定する発話内容推定部14と、ドキュメント検索部12から得られたドキュメント検索結果13と発話内容推定部14から得られたドキュメント推定結果15を統合して最終検索結果17を生成する結果統合部16とを備えるように構成した。このため、単純なドキュメント検索機能とは異なる、収集発話データ6に基づく発話内容推定を行って、従来のドキュメント検索機能では実現できなかった一般ユーザおよび初心者ユーザが入力するドキュメント1に出現しないような言い回しおよび一般用語での検索が可能となる。よって、ユーザの自然言語による入力に対して、単純な検索方式による結果よりも、より適切な検索結果を提示することができる。
As described above, according to the first embodiment, the document search apparatus receives the
また、実施の形態1によれば、発話内容推定部14は、推定したドキュメントIDにユーザ入力10との関連度合いに応じたスコアを付与し、結果統合部16は、発話内容推定部14から得られたドキュメント推定結果15のスコアがあらかじめ定めた閾値Xより大きい場合に、ドキュメント検索部12から得られたドキュメント検索結果13を無視して、最終検索結果17を生成する構成にした。このため、一般ユーザおよび初心者ユーザの入力がドキュメント1に出現しないような言い回しおよび一般用語の場合に、単純な検索方式では不適切な検索結果候補をたくさん含んでしまうのを避け、ユーザの入力に対してより適切な検索結果を提示することができる。
Further, according to the first embodiment, the utterance
なお、実施の形態1では、ドキュメント推定結果15の最大スコアがあらかじめ定めた閾値Xより大きい場合には、ドキュメント推定結果15をそのまま最終検索結果17にする構成としたが、最初からドキュメント推定結果15のスコアとドキュメント検索結果13のスコアを所定の割合で重み付け加算するようにしてもよい。ドキュメント推定結果15のスコアは、ユーザの発話から直接推定されるドキュメントから計算されるのに対して、ドキュメント検索結果13のスコアとは、ドキュメント中のキーワードの有無から計算される。したがってそれぞれ一長一短があり、それらを重み付け加算することで、2つの方式でともによいスコアのものを提示することができる。
In the first embodiment, when the maximum score of the
また、実施の形態1によれば、ドキュメント検索装置は、あらかじめ用意されたドキュメント1、および当該ドキュメント1の内容を問うユーザ発話とその回答になるドキュメントIDとの対応関係を定義した収集発話データ6を解析する入力解析部2と、入力解析部2から出力されたドキュメント解析結果3から検索インデックス5を作成する検索インデックス作成部4と、入力解析部2から出力された収集発話解析結果7を用いてユーザ発話とドキュメントIDとの対応関係を学習して発話推定モデル9を作成する発話推定モデル作成部8とを備えるように構成した。このため、従来のドキュメント検索機能では実現できなかった、一般ユーザおよび初心者ユーザが入力する、ドキュメント1に出現しないような言い回しおよび一般用語での検索が可能となる。
Further, according to the first embodiment, the document search apparatus collects the collected
実施の形態2.
図11は、本実施の形態2に係るドキュメント検索装置の構成を示すブロック図である。なお、図11において図1と同一または相当の部分については同一の符号を付し説明を省略する。
上記実施の形態1との大きな違いは以下の2点である。
(1)収集発話データ6を割り当てるドキュメントIDの単位を細かい単位ではなく、より大きな単位にした発話推定モデル9を作成する。
(2)ドキュメント推定結果15は検索インデックス5による検索対象範囲を限定する目的で使用する。
FIG. 11 is a block diagram showing the configuration of the document search apparatus according to the second embodiment. 11 that are the same as or equivalent to those in FIG. 1 are denoted by the same reference numerals and description thereof is omitted.
Major differences from the first embodiment are the following two points.
(1) Create an
(2) The
図11において、検索対象限定部18は、ドキュメント検索部12の検索対象を、ドキュメント推定結果15の下位ドキュメントIDに限定する。ドキュメント限定リスト19は、限定されたドキュメントIDを保持する。
In FIG. 11, the search
図12は、ドキュメント1のドキュメントIDの階層を表す図である。図12の例では、第2階層(四角で囲まれたドキュメントID)より下位層のドキュメントIDに収集発話データ6を割り付けることなく、第1階層と第2階層のドキュメントIDに割り当てることを表している。
FIG. 12 is a diagram illustrating a hierarchy of document IDs of
次に、ドキュメント検索装置の動作を説明する。
作成処理における動作は基本的に上記実施の形態1と同じである。但し、収集発話データ6のドキュメントIDへの割り当てを、図12に示すように第2階層以上とする。従って、図4において収集発話データ6−1はドキュメントID「Id_10」に割り当て、それ以外の収集発話データ6−2〜6−4はすべて「Id_10_1」に割り当てる。Next, the operation of the document search apparatus will be described.
The operation in the creation process is basically the same as in the first embodiment. However, the allocation of the collected
続いて、検索処理について説明する。
図13は、ユーザ入力10から最終検索結果17を作成するまでの動作を示すフローチャートである。図14は、検索対象限定部18の動作を説明する図である。上記実施の形態1と同様に、ここでもユーザ入力10はテキストでの入力を想定し、図9のユーザ入力10−1が入力されたとして説明する。ステップST11で入力解析部2は、図8と同様にユーザ入力10−1を解析する。次にステップST12で、発話内容推定部14が発話内容推定を行う。推定結果は、図14のドキュメント推定結果15−2(ドキュメントID、スコア)になる。上述したように、収集発話データ6のドキュメントIDへの割り当てが第2階層以上に制限されているため、第3階層以下のドキュメントIDは無い。Next, the search process will be described.
FIG. 13 is a flowchart showing the operation from the
続くステップST21で検索対象限定部18が、ドキュメント推定結果15−2のスコアが閾値Y(たとえば、Y=0.6)以上になるドキュメントIDが1個以上か確認する。ドキュメント推定結果15−2では、「ID_10_1」のスコアが0.6以上なので(ステップST21“YES”)、処理をステップST22に移し、スコアが閾値Y以上のドキュメントIDの下位層を展開し、展開した各ドキュメントIDに同じスコアを付与する。また、ドキュメント推定結果15−2では「Id_10_1」だけが閾値Y以上なので、検索対象限定部18は「Id_10_1」の下位層の「Id_10_1_1」〜「Id_10_1_7」を検索対象として選択し、ドキュメント限定リスト19−1として設定する。
In subsequent step ST21, the search
続くステップST23では、ドキュメント検索部12が図14のキーワードリスト11−2を使って検索インデックス5を検索し、ドキュメント検索結果13−1を得る。そして、ステップST24でこのドキュメント検索結果13−1のスコアにドキュメント限定リスト19−1のスコアを足し合わせた結果を最終検索結果17−2として出力する。
In subsequent step ST23, the
一方、ステップST21でドキュメント推定結果15−2に閾値Yを超えるスコアが存在しなかった場合(ステップST21“NO”)、検索対象限定部18はこのドキュメント推定結果15−2を破棄し(ステップST25)、続くステップST26にてドキュメント検索部12がすべてのドキュメントIDを検索対象にしたドキュメント検索結果(不図示)を得て、そのまま最終検索結果(不図示)として出力する。
On the other hand, if there is no score exceeding the threshold Y in the document estimation result 15-2 in step ST21 (step ST21 “NO”), the search
以上より、実施の形態2によれば、ドキュメント検索装置は、発話内容推定部14から得られたドキュメント推定結果15のうち、あらかじめ定めた閾値Y以上のスコアのドキュメントIDとその下位層のドキュメントIDを抽出する検索対象限定部18を備え、発話内容推定部14は、検索インデックス5の検索の最小単位となる階層より上位の階層のドキュメントIDと収集発話データ6との対応関係を学習した発話推定モデル9を基に推定し、結果統合部16は、発話内容推定部14から得られたドキュメント推定結果15のうちの検索対象限定部18で抽出したドキュメントIDを、ドキュメント検索部12から得られたドキュメント検索結果13と統合するように構成した。このため、収集発話データ6をより上位の階層のドキュメントIDに割り振れば、収集発話データ6を製品の機種による機能の細かな違いを考慮しなくてよいドキュメントIDへの対応付けが可能となる。よって、ドキュメントIDと収集発話データ6との対応付けが容易になると共に、データスパースネスによる検索の精度低下を抑制することができる。また、製品の機能を汎用的なレベルで定義できるため、多くの機種を抱える製品開発においても、共通の収集発話データ6として利用でき、新たな製品への対応が容易となる。
As described above, according to the second embodiment, the document search apparatus includes a document ID having a score equal to or higher than a predetermined threshold Y among the document estimation results 15 obtained from the utterance
なお、上記実施の形態1,2では、検索インデックス5として、統計型検索方式の検索インデックスを用いて説明したが、論理型検索方式の検索インデックスを用いて、検索キーワードの出現回数の総和をもとに確率を設定してもよい。その場合、検索キーワード出現回数の総和が最大の場合をNとし、各ドキュメントでの検索キーワード出現回数の総和をNで割ったものをスコアとしたり、検索結果のすべてのドキュメントにおける検索キーワード出現回数の総和をMとして、各ドキュメントでの検索キーワード出現回数の総和をMで割ったものをスコアとしたりする方法が考えられる。
In
さらに、上記実施の形態1,2では、検索インデックス5の作成単位および発話推定モデル9の作成単位として自立語単位で行った例を示したが、音素n−gramおよび音節n−gramなどを単位として検索インデックス5および発話推定モデル9を作成してもよい。また、高頻出単語と音素n−gram、または高頻出単語と音節n−gramを組み合わせて検索インデックス5および発話推定モデル9を作成してもよい。この場合、検索インデックス5および発話推定モデル9のサイズの削減が可能となる。
Furthermore, in the first and second embodiments, the example in which the
また、上記実施の形態1,2では、図4の収集発話データ6−4のような、該当する製品機能が無く適切な説明部分が無いためにドキュメント1のどこにも当てはめることのできない発話については、特別なドキュメントIDを付与して発話推定モデル9を作成しておき、ユーザ入力10に対するドキュメント推定結果15の最大スコアのものがその特別なドキュメントIDであった場合には、結果統合部16においてドキュメント検索結果13を利用せずに最終検索結果17を作成するようにしてもよい。また、この場合にドキュメント検索装置としては、特別なドキュメントIDに対応するメッセージを提示するように構成してもよい。
In
さらに、上記実施の形態1,2では、ユーザ入力10がテキスト入力の場合を例に説明したが、入力手段として音声認識を用いてもよい。その場合には、音声認識結果の第1候補のテキストをユーザ入力10として処理する方法、およびN番目の候補までをユーザ入力10として処理する方法などが考えられる。また、音声認識結果が形態素単位で生成される場合は、入力解析部2での処理を省略してそのままユーザ入力解析結果11として扱うようにしてもよい。
Furthermore, in the first and second embodiments, the case where the
また、上記実施の形態1,2では、日本語の入力例について説明を行ったが、言語を限定するものではなく、英語、ドイツ語、中国語などでも、入力解析部2を言語ごとに差し替えることで同様の効果を得ることが可能である。
In the first and second embodiments, examples of Japanese input have been described. However, the language is not limited, and the
実施の形態3.
以下では、英語の入力例について説明する。
本実施の形態3のドキュメント検索装置は、図1に示すドキュメント検索装置と図面上では同様の構成であるため、以下では図1を援用して説明する。
In the following, an example of English input will be described.
Since the document search apparatus according to the third embodiment has the same configuration as that of the document search apparatus shown in FIG. 1, the following description will be given with reference to FIG.
図15は、本実施の形態3に係るドキュメント検索装置に入力されるドキュメント1の英語例である。ドキュメント1は、章、節、項のような階層構造を持っており、階層ごとに検索結果位置を示すドキュメントIDを持っている。図15の例では、ドキュメントID「Id_10_1」のドキュメント1−11が、下位のデータ構造内に含まれるテキストも含んでいる。たとえば「Id_10_1_1」のドキュメント1−12は、「Id_10_1」のドキュメント1−11にも含まれることを表している。
FIG. 15 is an English example of the
図16は、ドキュメント解析結果3、および検索インデックス5用のキーワードリストの例である。「Id_10_1_1」はドキュメント解析結果の一例であり、図15の「Id_10_1_1」のドキュメント1−12に対して形態素解析による入力解析を行った結果を示している。このドキュメント解析結果3−11では、形態素解析結果の区切を「/」で区切った情報しか提示していないが、実際には品詞情報などの情報も生成される。
検索インデックス用データ3−12は、「Id_10_1_1」のドキュメント解析結果3−11をもとにした、検索インデックス作成部4が使用するデータ例を示している。ここではドキュメントIDと、前置詞、冠詞、be動詞、代名詞を除く自立語形態素とが抽出されている。FIG. 16 is an example of a keyword list for the
The search index data 3-12 shows an example of data used by the search
図17は、収集発話データ6の例である。収集発話データ6−11は「Id_10」のドキュメントに対応する質問の例、収集発話データ6−12は「Id_10_1」のドキュメントに対応する質問の例、収集発話データ6−13は「Id_10_1_1」のドキュメントに対応する質問の例である。収集発話データ6−14は、地図種類の具体的変更方法を知りたいことを意図した質問であるが、ここで想定している製品では実現不可能な地図種類であるため、「Id_10_1_1」と同階層のドキュメントIDが選択できない収集発話データ例である。
FIG. 17 is an example of the collected
図18は、収集発話解析結果7、および発話推定モデル9用のキーワードリストの例である。「Id_10_1_1」の収集発話解析結果7−11は、図17の「Id_10_1_1」の収集発話データ6−13の収集発話解析結果例、発話推定モデル用データ7−12は、「Id_10_1_1」の収集発話解析結果7−11をもとにした、発話推定モデル作成部8が使用するデータ例を示している。ここではドキュメントIDと、前置詞、冠詞、be動詞を除く自立語形態素とが抽出されている。
FIG. 18 is an example of the keyword list for the collected
次に、ドキュメント検索装置の動作を説明する。
本実施の形態3に係るドキュメント検索装置の動作(作成処理、検索処理)は基本的に上記実施の形態1の図6〜図8と同じである。従って、ここでは異なる部分のみを説明する。まず、作成処理について説明する。Next, the operation of the document search apparatus will be described.
The operation (creation process, search process) of the document search apparatus according to the third embodiment is basically the same as that in FIGS. 6 to 8 of the first embodiment. Therefore, only different parts will be described here. First, the creation process will be described.
まず、作成処理のうち、検索インデックス5の作成方法について説明する。ここでは、従来技術で開示されているtf・idfによる重み付けをするものとする。
図15に示したように、ドキュメント1は、ドキュメントIDとテキストとが対応付けられたペアになっているものとする。たとえば、ドキュメント1−12ではドキュメントID「Id_10_1_1」という名前に、「Heading up.Display the map which rotated to always face the direction you are travelling」というテキストが対応付けられている。図6のステップST1では、入力解析部2がこの構造のドキュメント1を順次読み込み、既知の技術である形態素解析によって形態素列に分割する。ドキュメント1−12を形態素解析した結果が、図16のドキュメント解析結果3−11である。このドキュメント解析結果3−11は、形態素の区切りしか示していないが、実際には、品詞情報、活用語の原形などが含まれているものとする。First, a method for creating the
As shown in FIG. 15, it is assumed that the
ドキュメント解析結果3がすべてのドキュメントIDに対して生成されると、続くステップST2で、検索インデックス作成部4が、すべてのドキュメント解析結果3から検索インデックス5の作成に必要な形態素(キーワード)を抽出し、(ドキュメントID、キーワードリスト)のペアを作成し、すべてのペアを元にtf・idfによって重み付けした検索インデックス5を作成する。図16のドキュメント解析結果3−11から抽出した(ドキュメントID、キーワードリスト)のペアは、同じ図16の検索インデックス用データ3−12で表される。
When the
具体的な検索インデックス作成手順は、上記実施の形態1と同様であるため、説明を省略する。 The specific search index creation procedure is the same as that in the first embodiment, and a description thereof will be omitted.
次に、発話推定モデル9の作成処理について説明する。
収集発話データ6は、図17の収集発話データ6−11〜6−14に表したように、あらかじめユーザから集めた発話をその回答となるドキュメントIDに割り当てたデータである。収集発話データ6の作成方法は上記実施の形態1と同様であるため、説明を省略する。Next, a process for creating the
The collected
入力解析部2は、図7に示したステップST3において、先に説明したステップST1でドキュメント1を入力とした場合と同様に、収集発話データ6の形態素解析を行う。たとえば、図17の収集発話データ6−13を形態素解析した結果が、図18の収集発話解析結果7−11である。続くステップST4で発話推定モデル作成部8が、先に説明したステップST2と同様にドキュメントIDとキーワードのリストを発話推定モデル用データ7−12として抽出し、上記実施の形態1と同様にME法によって発話推定モデル9を学習する。すべての収集発話解析結果7からキーワードが抽出され、ME法によって学習して、発話推定モデル9が作成される。具体的には、図18の収集発話解析結果7−11に対して、同じ図18の発話推定モデル用データ7−12が抽出され、この発話推定モデル用データ7−12を元に上記学習が行われる。
In step ST3 shown in FIG. 7, the
次に、検索処理について説明する。
図19および図20は、ユーザ入力10の一例であるユーザ入力10−11の検索処理における遷移例を示す。ここではユーザ入力10はテキストでの入力を想定し、図19のユーザ入力10−11が入力されたとして説明する。入力解析部2は、図8に示したステップST11でまずユーザ入力10−11を受け取り、形態素解析してユーザ入力解析結果11−11を生成し、ユーザ入力解析結果11−11から前置詞、冠詞、be動詞、代名詞を除外して自立語を抽出し、キーワードリスト11−12を作成する。続くステップST12では、発話内容推定部14がこのキーワードリスト11−12を入力に用いて、発話推定モデル9から図20のドキュメント推定結果15−11を得る。図20に示すように、ドキュメント推定結果15−11は、スコア順に並んでいる。Next, the search process will be described.
19 and 20 show a transition example in the search process of the user input 10-11 which is an example of the
ドキュメント推定結果15−11が得られると、続くステップST13にて今度はドキュメント検索部12がキーワードリスト11−12を入力に用いて、検索インデックス5から図20のドキュメント検索結果13−11を得る。図20に示すように、ドキュメント検索結果13−11もスコア順に並んでいる。
When the document estimation result 15-11 is obtained, the
続くステップST14では、結果統合部16がドキュメント推定結果15−11の最大スコアがここで定めた閾値X(たとえば、X=0.9)以上かどうかを判断する。ドキュメント推定結果15−11では最大スコアが閾値Xより小さいので(ステップST14“NO”)、結果統合部16はステップST16の処理に進む。ステップST16では、ドキュメントIDごとに、ドキュメント検索結果13−11のスコアとドキュメント推定結果15−11のスコアの重み付き加算を行い、最終検索結果17−11を作成する。図20では、(ドキュメント推定結果15−11のスコア):(ドキュメント検索結果13−11のスコア)=1:1で加算した結果が最終検索結果17−11となっている。
In subsequent step ST14, the
一方、ステップST14でドキュメント推定結果15−11の最大スコアが閾値Xを超えた場合には(ステップST14“YES”)、続くステップST15にて結果統合部16はドキュメント検索結果13−11を破棄して、ドキュメント推定結果15−11を最終検索結果(不図示)とする。
検索が終了すると、ドキュメント検索装置は画面にドキュメントIDのタイトルなどを表示して、ユーザに選択させることで、所望のドキュメント位置を提示する。On the other hand, when the maximum score of the document estimation result 15-11 exceeds the threshold value X in step ST14 (step ST14 “YES”), the
When the search is completed, the document search device displays the title of the document ID and the like on the screen and makes the user select, thereby presenting a desired document position.
以上より、実施の形態3によれば、ドキュメント検索装置は、日本語だけでなく英語のドキュメント1についても上記実施の形態1と同様の処理を実施可能であり、英語の入力の場合にも、上記実施の形態1と同様の効果を得ることができる。
なお、説明は省略するが、実施の形態3の構成を上記実施の形態2に適用してもよい。As described above, according to the third embodiment, the document search apparatus can perform the same processing as that of the first embodiment not only on the Japanese language but also on the
Although not described, the configuration of the third embodiment may be applied to the second embodiment.
実施の形態4.
以下では、中国語の入力例について説明する。
本実施の形態4のドキュメント検索装置は、図1に示すドキュメント検索装置と図面上では同様の構成であるため、以下では図1を援用して説明する。
In the following, an example of Chinese input will be described.
The document search apparatus according to the fourth embodiment has the same configuration as that of the document search apparatus shown in FIG. 1, and therefore will be described below with reference to FIG.
図21は、本実施の形態4に係るドキュメント検索装置に入力されるドキュメント1の中国語例である。ドキュメント1は、章、節、項のような階層構造を持っており、階層ごとに検索結果位置を示すドキュメントIDを持っている。図21の例では、ドキュメントID「Id_10_1」のドキュメント1−21が、下位のデータ構造内に含まれるテキストも含んでいる。たとえば「Id_10_1_1」のドキュメント1−22は、「Id_10_1」のドキュメント1−21にも含まれることを表している。
FIG. 21 is a Chinese example of the
図22は、ドキュメント解析結果3、および検索インデックス5用のキーワードリストの例である。「Id_10_1_1」はドキュメント解析結果の一例であり、図21の「Id_10_1_1」のドキュメント1−22に対して形態素解析による入力解析を行った結果を示している。このドキュメント解析結果3−21では、形態素解析結果の区切を「/」で区切った情報しか提示していないが、実際には品詞情報などの情報も生成される。
検索インデックス用データ3−22は、「Id_10_1_1」のドキュメント解析結果3−22をもとにした、検索インデックス作成部4が使用するデータ例を示している。ここではドキュメントIDと、代詞、助詞、介詞を除く自立語形態素とが抽出されている。FIG. 22 is an example of the keyword list for the
The search index data 3-22 is an example of data used by the search
図23は、収集発話データ6の例である。収集発話データ6−21は「Id_10」のドキュメントに対応する質問の例、収集発話データ6−22は「Id_10_1」のドキュメントに対応する質問の例、収集発話データ6−23は「Id_10_1_1」のドキュメントに対応する質問の例である。収集発話データ6−24は、地図種類の具体的変更方法を知りたいことを意図した質問であるが、ここで想定している製品では実現不可能な地図種類であるため、「Id_10_1_1」と同階層のドキュメントIDが選択できない収集発話データ例である。
FIG. 23 is an example of the collected
図24は、収集発話解析結果7、および発話推定モデル9用のキーワードリストの例である。「Id_10_1_1」の収集発話解析結果7−21は、図23の「Id_10_1_1」の収集発話データ6−23の収集発話解析結果例、発話推定モデル用データ7−22は、「Id_10_1_1」の収集発話解析結果7−21をもとにした、発話推定モデル作成部8が使用するデータ例を示している。ここではドキュメントIDと、代詞、助詞、介詞を除く自立語形態素とが抽出されている。
FIG. 24 is an example of a keyword list for the collected
次に、ドキュメント検索装置の動作を説明する。
本実施の形態4に係るドキュメント検索装置の動作(作成処理、検索処理)は基本的に上記実施の形態1の図6〜図8と同じである。従って、ここでは異なる部分のみを説明する。まず、作成処理について説明する。Next, the operation of the document search apparatus will be described.
The operations (creation processing and search processing) of the document search apparatus according to the fourth embodiment are basically the same as those in FIGS. 6 to 8 in the first embodiment. Therefore, only different parts will be described here. First, the creation process will be described.
まず、作成処理のうち、検索インデックス5の作成方法について説明する。ここでは、従来技術で開示されているtf・idfによる重み付けをするものとする。
図21に示したように、ドキュメント1は、ドキュメントIDとテキストとが対応付けられたペアになっているものとする。First, a method for creating the
As shown in FIG. 21, it is assumed that the
図6のステップST1では、入力解析部2がこの構造のドキュメント1を順次読み込み、既知の技術である形態素解析によって形態素列に分割する。ドキュメント1−22を形態素解析した結果が、図22のドキュメント解析結果3−21である。このドキュメント解析結果3−21は、形態素の区切りしか示していないが、実際には、品詞情報などが含まれているものとする。
In step ST1 of FIG. 6, the
ドキュメント解析結果3がすべてのドキュメントIDに対して生成されると、続くステップST2で、検索インデックス作成部4が、すべてのドキュメント解析結果3から検索インデックス5の作成に必要な形態素(キーワード)を抽出し、(ドキュメントID、キーワードリスト)のペアを作成し、すべてのペアを元にtf・idfによって重み付けした検索インデックス5を作成する。図22のドキュメント解析結果3−21から抽出した(ドキュメントID、キーワードリスト)のペアは、同じ図22の検索インデックス用データ3−22で表される。
When the
具体的な検索インデックス作成手順は、上記実施の形態1と同様であるため、説明を省略する。 The specific search index creation procedure is the same as that in the first embodiment, and a description thereof will be omitted.
次に、発話推定モデル9の作成処理について説明する。
収集発話データ6は、図23の収集発話データ6−21〜6−24に表したように、あらかじめユーザから集めた発話をその回答となるドキュメントIDに割り当てたデータである。収集発話データ6の作成方法は上記実施の形態1と同様であるため、説明を省略する。Next, a process for creating the
The collected
入力解析部2は、図7に示したステップST3において、先に説明したステップST1でドキュメント1を入力とした場合と同様に、収集発話データ6の形態素解析を行う。たとえば、図23の収集発話データ6−23を形態素解析した結果が、図24の収集発話解析結果7−21である。続くステップST4で発話推定モデル作成部8が、先に説明したステップST2と同様にドキュメントIDとキーワードのリストを発話推定モデル用データ7−22として抽出し、上記実施の形態1と同様にME法によって発話推定モデル9を学習する。すべての収集発話解析結果7からキーワードが抽出され、ME法によって学習して、発話推定モデル9が作成される。具体的には、図24の収集発話解析結果7−21に対して、同じ図24の発話推定モデル用データ7−22が抽出され、この発話推定モデル用データ7−22を元に上記学習が行われる。
In step ST3 shown in FIG. 7, the
次に、検索処理について説明する。
図25および図26は、ユーザ入力10の一例であるユーザ入力10−21の検索処理における遷移例を示す。ここではユーザ入力10はテキストでの入力を想定し、図25のユーザ入力10−21が入力されたとして説明する。入力解析部2は、図8に示したステップST11でまずユーザ入力10−21を受け取り、形態素解析してユーザ入力解析結果11−21を生成し、ユーザ入力解析結果11−21から代詞、助詞、介動詞を除外して自立語を抽出し、キーワードリスト11−22を作成する。続くステップST12では、発話内容推定部14がこのキーワードリスト11−22を入力に用いて、発話推定モデル9から図26のドキュメント推定結果15−21を得る。図26に示すように、ドキュメント推定結果15−21は、スコア順に並んでいる。Next, the search process will be described.
FIG. 25 and FIG. 26 show a transition example in the search process of the user input 10-21 which is an example of the
ドキュメント推定結果15−21が得られると、続くステップST13にて今度はドキュメント検索部12がキーワードリスト11−22を入力に用いて、検索インデックス5から図26のドキュメント検索結果13−21を得る。図26に示すように、ドキュメント検索結果13−21もスコア順に並んでいる。
When the document estimation result 15-21 is obtained, in the subsequent step ST13, the
続くステップST14では、結果統合部16がドキュメント推定結果15−21の最大スコアがここで定めた閾値X(たとえば、X=0.9)以上かどうかを判断する。ドキュメント推定結果15−21では最大スコアが閾値Xより小さいので(ステップST14“NO”)、結果統合部16はステップST16の処理に進む。ステップST16では、ドキュメントIDごとに、ドキュメント検索結果13−21のスコアとドキュメント推定結果15−21のスコアの重み付き加算を行い、最終検索結果17−21を作成する。図26では、(ドキュメント推定結果15−21のスコア):(ドキュメント検索結果13−21のスコア)=1:1で加算した結果が最終検索結果17−21となっている。
In subsequent step ST14, the
一方、ステップST14でドキュメント推定結果15−21の最大スコアが閾値Xを超えた場合には(ステップST14“YES”)、続くステップST15にて結果統合部16はドキュメント検索結果13−21を破棄して、ドキュメント推定結果15−21を最終検索結果(不図示)とする。
検索が終了すると、ドキュメント検索装置は画面にドキュメントIDのタイトルなどを表示して、ユーザに選択させることで、所望のドキュメント位置を提示する。On the other hand, when the maximum score of the document estimation result 15-21 exceeds the threshold value X in step ST14 (step ST14 “YES”), the
When the search is completed, the document search device displays the title of the document ID and the like on the screen and makes the user select, thereby presenting a desired document position.
以上より、実施の形態4によれば、ドキュメント検索装置は、日本語だけでなく中国語のドキュメント1についても上記実施の形態1と同様の処理を実施可能であり、中国語の入力の場合にも、上記実施の形態1と同様の効果を得ることができる。
なお、説明は省略するが、実施の形態4の構成を上記実施の形態2に適用してもよい。As described above, according to the fourth embodiment, the document search apparatus can perform the same processing as that of the first embodiment on not only Japanese but also the
Although not described, the configuration of the fourth embodiment may be applied to the second embodiment.
上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In addition to the above, within the scope of the invention, the invention of the present application can be freely combined with each embodiment, modified any component of each embodiment, or omitted any component in each embodiment. Is possible.
以上のように、この発明に係るドキュメント検索装置は、ユーザがどのような聞き方をするかを想定した質問とその回答になるドキュメント項目との対応関係を学習した発話推定モデルを用いて、ユーザの自然言語による入力に対するドキュメント内検索結果を提示するようにしたので、たとえば、家電製品および車載機器などの電子化された取扱説明書を検索および表示する情報機器などに用いるのに適している。 As described above, the document search apparatus according to the present invention uses the utterance estimation model in which the correspondence between the question assuming the user's way of listening and the document item as the answer is learned, Since the search result in the document with respect to the input in natural language is presented, it is suitable for use in, for example, an information device that searches and displays electronic instruction manuals such as home appliances and in-vehicle devices.
1 ドキュメント、2 入力解析部、3 ドキュメント解析結果、4 検索インデックス作成部、5 検索インデックス、6 収集発話データ、7 収集発話解析結果、8 発話推定モデル作成部、9 発話推定モデル、10 ユーザ入力、11 ユーザ入力解析結果、12 ドキュメント検索部、13 ドキュメント検索結果、14 発話内容推定部、15 ドキュメント推定結果、16 結果統合部、17 最終検索結果、18 検索対象限定部、19 ドキュメント限定リスト。 1 document, 2 input analysis unit, 3 document analysis result, 4 search index creation unit, 5 search index, 6 collected utterance data, 7 collected utterance analysis result, 8 utterance estimation model creation unit, 9 utterance estimation model, 10 user input, 11 user input analysis result, 12 document search unit, 13 document search result, 14 utterance content estimation unit, 15 document estimation result, 16 result integration unit, 17 final search result, 18 search target limiting unit, 19 document limited list.
Claims (6)
ユーザからの入力を受け、前記検索インデックスを用いて前記ドキュメント内から当該ユーザ入力に関連のある項目を検索するドキュメント検索部とを備えるドキュメント検索装置であって、
前記ドキュメントの内容を問う想定質問と当該想定質問の回答となる前記ドキュメント内の項目との対応関係を学習した発話推定モデルと、
前記発話推定モデルを基に前記ドキュメント内から前記ユーザ入力の回答に相当する項目を推定する発話内容推定部と、
前記ドキュメント検索部から得られたドキュメント検索結果および前記発話内容推定部から得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合部とを備えることを特徴とするドキュメント検索装置。 A search index created from documents prepared in advance,
A document search device comprising a document search unit that receives an input from a user and searches for an item related to the user input from within the document using the search index,
An utterance estimation model that learns the correspondence between an assumed question asking the content of the document and an item in the document that is an answer to the assumed question;
An utterance content estimation unit that estimates an item corresponding to the answer of the user input from within the document based on the utterance estimation model;
A document search apparatus comprising: a result integration unit that integrates a document search result obtained from the document search unit and a document estimation result obtained from the utterance content estimation unit to generate a final search result.
前記結果統合部は、前記発話内容推定部から得られたドキュメント推定結果のスコアがあらかじめ定めた値より大きい場合は、前記ドキュメント検索部から得られたドキュメント検索結果を無視して最終検索結果を生成することを特徴とする請求項1記載のドキュメント検索装置。 The utterance content estimation unit gives a score according to the degree of association with the user input to the estimated item in the document,
The result integration unit generates a final search result by ignoring the document search result obtained from the document search unit when the score of the document estimation result obtained from the utterance content estimation unit is larger than a predetermined value. The document search apparatus according to claim 1, wherein:
前記発話内容推定部は、推定した前記ドキュメント内の項目に、前記ユーザ入力との関連度合いに応じたスコアを付与し、
前記結果統合部は、前記ドキュメント検索部から得られたドキュメント検索結果のスコアと前記発話内容推定部から得られたドキュメント推定結果のスコアを一定の割合で加算して統合することを特徴とする請求項1記載のドキュメント検索装置。 The document search unit gives a score corresponding to the degree of association with the user input to the items in the searched document,
The utterance content estimation unit gives a score according to the degree of association with the user input to the estimated item in the document,
The result integration unit adds and integrates a score of a document search result obtained from the document search unit and a score of a document estimation result obtained from the utterance content estimation unit at a certain ratio. Item 2. The document search device according to Item 1.
前記発話内容推定部は、前記検索インデックスの検索の最小単位より大きな単位の項目と前記想定質問との対応関係を学習した発話推定モデルを基に推定し、
前記結果統合部は、前記発話内容推定部から得られたドキュメント推定結果のうちの前記検索対象限定部で抽出した項目を、前記ドキュメント検索部から得られたドキュメント検索結果と統合することを特徴とする請求項1記載のドキュメント検索装置。 Among the document estimation results obtained from the utterance content estimation unit, a search target limiting unit for extracting items satisfying a predetermined condition,
The utterance content estimation unit estimates based on an utterance estimation model in which a correspondence relationship between an item of a unit larger than the minimum unit of search of the search index and the assumed question is learned,
The result integration unit integrates the items extracted by the search target limiting unit from the document estimation results obtained from the utterance content estimation unit with the document search results obtained from the document search unit. The document search apparatus according to claim 1.
前記入力解析部から出力された前記ドキュメントの解析結果から前記検索インデックスを作成する検索インデックス作成部と、
前記入力解析部から出力された前記収集発話データの解析結果を用いて、前記想定質問と前記ドキュメント内の項目との対応関係を学習し、前記発話推定モデルを作成する発話推定モデル作成部とを備えることを特徴とする請求項1記載のドキュメント検索装置。 An input analysis unit that analyzes collected utterance data that defines a correspondence relationship between a prepared document and an assumed question asking the content of the document and an item in the document that is an answer to the question;
A search index creation unit for creating the search index from the analysis result of the document output from the input analysis unit;
Using the analysis result of the collected utterance data output from the input analysis unit, learning a correspondence relationship between the assumed question and the item in the document, and an utterance estimation model creation unit that creates the utterance estimation model; The document search apparatus according to claim 1, further comprising:
入力解析部が、ユーザからの入力を受け付けるユーザ入力ステップと、
ドキュメント検索部が、あらかじめ用意されたドキュメントから作成した検索インデックスを用いて、当該ドキュメント内から前記ユーザ入力に関連のある項目を検索するドキュメント検索ステップと、
発話内容推定部が、前記ドキュメントの内容を問う想定質問と当該想定質問の回答となる前記ドキュメント内の項目との対応関係を学習した発話推定モデルを基に、前記ドキュメント内から前記ユーザ入力の回答に相当する項目を推定する発話内容推定ステップと、
結果統合部が、前記ドキュメント検索ステップから得られたドキュメント検索結果および前記発話内容推定ステップから得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合ステップとを備えるドキュメント検索方法。 A document search method using a document search device,
A user input step in which the input analysis unit receives input from the user;
Document retrieval unit, using the search index created from previously prepared document, and document retrieval step of retrieving the items that are relevant to the user input from the document,
Based on the utterance estimation model in which the utterance content estimation unit has learned the correspondence between the assumed question asking the content of the document and the item in the document that is the answer to the assumed question, the answer of the user input from within the document An utterance content estimation step for estimating an item corresponding to
A document search method comprising: a result integration step in which a result integration unit generates a final search result by integrating a document search result obtained from the document search step and a document estimation result obtained from the utterance content estimation step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014504643A JP5847290B2 (en) | 2012-03-13 | 2012-12-27 | Document search apparatus and document search method |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012055841 | 2012-03-13 | ||
JP2012055841 | 2012-03-13 | ||
PCT/JP2012/083925 WO2013136634A1 (en) | 2012-03-13 | 2012-12-27 | Document search device and document search method |
JP2014504643A JP5847290B2 (en) | 2012-03-13 | 2012-12-27 | Document search apparatus and document search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013136634A1 JPWO2013136634A1 (en) | 2015-08-03 |
JP5847290B2 true JP5847290B2 (en) | 2016-01-20 |
Family
ID=49160587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014504643A Active JP5847290B2 (en) | 2012-03-13 | 2012-12-27 | Document search apparatus and document search method |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150112683A1 (en) |
JP (1) | JP5847290B2 (en) |
CN (1) | CN104221012A (en) |
DE (1) | DE112012006633T5 (en) |
WO (1) | WO2013136634A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102585545B1 (en) * | 2020-12-31 | 2023-10-05 | 채상훈 | Method for providing speech recognition based product guidance service using user manual |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170116180A1 (en) * | 2015-10-23 | 2017-04-27 | J. Edward Varallo | Document analysis system |
US10606815B2 (en) | 2016-03-29 | 2020-03-31 | International Business Machines Corporation | Creation of indexes for information retrieval |
JP6805927B2 (en) * | 2017-03-28 | 2020-12-23 | 富士通株式会社 | Index generator, data search program, index generator, data search device, index generation method, and data search method |
JP7192507B2 (en) * | 2019-01-09 | 2022-12-20 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and information processing program |
CN111339261A (en) * | 2020-03-17 | 2020-06-26 | 北京香侬慧语科技有限责任公司 | Document extraction method and system based on pre-training model |
US11386164B2 (en) | 2020-05-13 | 2022-07-12 | City University Of Hong Kong | Searching electronic documents based on example-based search query |
CN111783403B (en) * | 2020-06-11 | 2022-10-04 | 云账户技术(天津)有限公司 | Document providing method, device and medium |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0756933A (en) * | 1993-06-24 | 1995-03-03 | Xerox Corp | Method for retrieval of document |
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
JP3495912B2 (en) * | 1998-05-25 | 2004-02-09 | シャープ株式会社 | Search device with learning function |
JP2002073661A (en) * | 2000-08-31 | 2002-03-12 | Toshiba Corp | Intellectual information managing system and method for registering intellectual information |
JP2004302660A (en) * | 2003-03-28 | 2004-10-28 | Toshiba Corp | Question answer system, its method and program |
WO2007117334A2 (en) * | 2006-01-03 | 2007-10-18 | Kyos Systems Inc. | Document analysis system for integration of paper records into a searchable electronic database |
JP2007219955A (en) * | 2006-02-17 | 2007-08-30 | Fuji Xerox Co Ltd | Question and answer system, question answering processing method and question answering program |
CN101086843A (en) * | 2006-06-07 | 2007-12-12 | 中国科学院自动化研究所 | A sentence similarity recognition method for voice answer system |
US20090006358A1 (en) * | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Search results |
JP5229782B2 (en) * | 2007-11-07 | 2013-07-03 | 独立行政法人情報通信研究機構 | Question answering apparatus, question answering method, and program |
CN101593518A (en) * | 2008-05-28 | 2009-12-02 | 中国科学院自动化研究所 | The balance method of actual scene language material and finite state network language material |
JP2010282403A (en) * | 2009-06-04 | 2010-12-16 | Kansai Electric Power Co Inc:The | Document retrieval method |
EP2616927A4 (en) * | 2010-09-24 | 2017-02-22 | International Business Machines Corporation | Using ontological information in open domain type coercion |
-
2012
- 2012-12-27 CN CN201280067066.1A patent/CN104221012A/en active Pending
- 2012-12-27 JP JP2014504643A patent/JP5847290B2/en active Active
- 2012-12-27 WO PCT/JP2012/083925 patent/WO2013136634A1/en active Application Filing
- 2012-12-27 DE DE112012006633.2T patent/DE112012006633T5/en active Pending
- 2012-12-27 US US14/364,174 patent/US20150112683A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102585545B1 (en) * | 2020-12-31 | 2023-10-05 | 채상훈 | Method for providing speech recognition based product guidance service using user manual |
Also Published As
Publication number | Publication date |
---|---|
WO2013136634A1 (en) | 2013-09-19 |
US20150112683A1 (en) | 2015-04-23 |
CN104221012A (en) | 2014-12-17 |
JPWO2013136634A1 (en) | 2015-08-03 |
DE112012006633T5 (en) | 2015-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5847290B2 (en) | Document search apparatus and document search method | |
JP4966546B2 (en) | Automatically applying conceptual emphasis to electronic text | |
JP2018077858A (en) | System and method for conversation-based information search | |
CN103562919B (en) | Method for searching for information using the web and method for voice conversation using same | |
US20060235870A1 (en) | System and method for generating an interlinked taxonomy structure | |
JPH0424869A (en) | Document processing system | |
US11573989B2 (en) | Corpus specific generative query completion assistant | |
JP4967133B2 (en) | Information acquisition apparatus, program and method thereof | |
JPH11102377A (en) | Method and device for retrieving document from data base | |
CN116450883A (en) | Video moment retrieval method based on video content fine granularity information | |
CN109033066A (en) | A kind of abstract forming method and device | |
JP4065346B2 (en) | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method | |
KR100341396B1 (en) | 3-D clustering representation system and method using hierarchical terms | |
JPH10207910A (en) | Related word dictionary preparing device | |
JP4153843B2 (en) | Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium | |
JP2002169803A (en) | Device and method for browsing multiple documents | |
CN114625845A (en) | Information retrieval method, intelligent terminal and computer readable storage medium | |
JP5072651B2 (en) | Important phrase extractor | |
JP4452527B2 (en) | Document search device, document search method, and document search program | |
JP2970443B2 (en) | Document search device | |
JP2005158044A (en) | Apparatus, method and program for information retrieval, and computer-readable recording medium stored with this program | |
KR102429649B1 (en) | Keyword based phrase recommendation system and method of recommending the phrase | |
Reddy et al. | Cross lingual information retrieval using search engine and data mining | |
JP2000259627A (en) | Device and method for deciding relation between natural language sentences, retrieving device and method utilizing the deciding device and method and recording medium | |
Scutelnicu | Romanian Lexical Resources Interconnection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5847290 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |