JP5847290B2 - Document search apparatus and document search method - Google Patents

Document search apparatus and document search method Download PDF

Info

Publication number
JP5847290B2
JP5847290B2 JP2014504643A JP2014504643A JP5847290B2 JP 5847290 B2 JP5847290 B2 JP 5847290B2 JP 2014504643 A JP2014504643 A JP 2014504643A JP 2014504643 A JP2014504643 A JP 2014504643A JP 5847290 B2 JP5847290 B2 JP 5847290B2
Authority
JP
Japan
Prior art keywords
document
search
unit
result
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014504643A
Other languages
Japanese (ja)
Other versions
JPWO2013136634A1 (en
Inventor
洋一 藤井
洋一 藤井
石井 純
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2014504643A priority Critical patent/JP5847290B2/en
Publication of JPWO2013136634A1 publication Critical patent/JPWO2013136634A1/en
Application granted granted Critical
Publication of JP5847290B2 publication Critical patent/JP5847290B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Description

この発明は、電子化されたドキュメントの章、節、項などの細かい単位を検索するドキュメント検索装置およびドキュメント検索方法に関するものである。   The present invention relates to a document search apparatus and a document search method for searching for fine units such as chapters, sections, and sections of an electronic document.

家電製品および車載機器など、多くの機器に対し、操作方法およびトラブル時の対応方法などについて記載した紙の取扱説明書が添付されている。その中でも、画面を持つような情報機器においては、取扱説明書が電子化され、直接検索および閲覧が可能となっている。これにより、わざわざ紙のドキュメントを持ち歩いたりすることなく、閲覧することが可能となっている。一方で、電子化されたドキュメントは一覧性が低く、ユーザが確認したいと思う内容を探すことが難しく、検索機能を提供することが必須となる。   For many devices such as home appliances and in-vehicle devices, a paper instruction manual that describes operation methods and troubleshooting methods is attached. Among them, in an information device having a screen, an instruction manual is digitized and can be directly searched and browsed. This makes it possible to browse without having to carry a paper document. On the other hand, an electronic document has a low listability, and it is difficult to search for a content that a user wants to confirm, and it is essential to provide a search function.

従来の検索機能の典型的なものの中で一番単純な方式としては、キーワードにより検索を行い、ヒットした部分をドキュメントの先頭から出現順に表示するGREP検索方式がある。さらに、あらかじめドキュメントと抽出したキーワードから検索インデックスを作成し、その検索インデックスを利用して論理式による検索を行い候補を表示する論理型検索方式がある。また、論理型検索方式では入力キーワードと検索インデックスとの関連度を表すスコアが定義できないため、単純にキーワードを入力してその出現頻度をカウントすることでスコアを決定するベストマッチング検索方式がある。さらにキーワードからtf・idf(term frequency and inverse document frequency)などの統計的な重みを付けた検索インデックスを作成し、入力キーワードとのベクトル距離(内積)によって検索して候補を表示する統計型検索方式がある。これらの検索方式の提供により、電子化されたドキュメントを検索することが可能になり、ある程度ユーザが求める部分を閲覧することが可能である。   Among the typical conventional search functions, the simplest method is a GREP search method in which a search is performed using a keyword and hit portions are displayed in the order of appearance from the top of the document. Further, there is a logical search method in which a search index is created from a document and a keyword extracted in advance, and a search is performed using a logical expression using the search index to display candidates. Further, since the logical search method cannot define a score representing the degree of association between an input keyword and a search index, there is a best matching search method in which a score is determined by simply inputting a keyword and counting its appearance frequency. Further, a search index with a statistical weight such as tf.idf (term frequency and inverse document frequency) is created from the keyword, and a search is performed by a vector distance (inner product) with the input keyword to display candidates. There is. By providing these search methods, it is possible to search for an electronic document, and it is possible to browse a portion requested by the user to some extent.

論理型検索方式では、検索条件に厳密に一致するものだけを検索するため、複雑な検索条件を駆使すればユーザの検索意図に一致するものが見つかりやすいというメリットがある一方、検索条件が少しでも適切でないと検索漏れにつながりやすいというデメリットがある。また、複雑な検索式を構築することは一般ユーザにとってはハードルが高いというデメリットもある。従って、最も一般的な論理型検索はキーワードを複数入力させ、OR論理演算によって検索結果を求めて提示する方式である。
一方、ベストマッチング検索方式および統計型検索方式の場合には、キーワードに論理的な構造を入れる必要なく検索できるというメリットがある一方、ドキュメント中のキーワードの出現回数が単純にスコア化されたり、出現傾向に応じて重み付けされた値によってスコアが計算されたりするために、ユーザが制御することが難しいというデメリットがある。
The logical search method searches only those that exactly match the search conditions, so there is an advantage that using complex search conditions makes it easier to find a search that matches the user's search intention. There is a demerit that it is easy to lead to search omission if it is not appropriate. In addition, there is a demerit that building a complicated search expression is a high hurdle for general users. Therefore, the most common logical type search is a method in which a plurality of keywords are input and a search result is obtained and presented by an OR logical operation.
On the other hand, the best-matching search method and the statistical search method have the advantage of being able to search without the need for a logical structure in the keyword, while the number of occurrences of the keyword in the document is simply scored or There is a demerit that it is difficult for the user to control because the score is calculated by a value weighted according to the tendency.

これらの方式のメリットとデメリットを踏まえて、両方の良いところを活かす方法として、複数の検索エンジンを統合して処理するような方法が提案されている。たとえば特許文献1では、論理型検索方式と統計型検索方式、またはベストマッチング検索方式と統計型検索方式を別々に実行し、その結果を論理的に統合することで検索する方法が開示されている。   Based on the merits and demerits of these methods, a method that integrates and processes a plurality of search engines has been proposed as a method of taking advantage of both advantages. For example, Patent Document 1 discloses a method of performing a search by separately executing a logical search method and a statistical search method, or a best matching search method and a statistical search method, and logically integrating the results. .

具体的には、論理型検索方式の検索エンジンからは検索結果候補の情報だけが求まり、ベストマッチング検索方式と統計型検索方式の検索エンジンからは検索結果候補とそのスコアが情報として求まる。
論理型検索方式と統計型検索方式を合わせた場合には、たとえば、論理式型検索結果と統計型検索結果のうち文書IDの重なったものだけを最終結果候補としたり、論理式型検索結果と統計型検索結果の文書IDのすべてを最終結果候補とした上で、統計型検索結果のスコアを最終結果の順位付けに使ったりしている。
Specifically, only search result candidate information is obtained from a logical search method search engine, and search result candidates and their scores are obtained as information from best matching search method and statistical search method search engines.
When the logical type search method and the statistical type search method are combined, for example, only the result of the logical type search result and the statistical type search result with the document ID overlapping is set as the final result candidate, or the logical type search result and All the document IDs of the statistical search results are used as final result candidates, and the scores of the statistical search results are used for ranking the final results.

さらに、ベストマッチング検索方式と統計型検索方式を合わせた場合には、スコアの平均を使って最終結果の順位付けを行っている。   Furthermore, when the best matching search method and the statistical search method are combined, the final results are ranked using the average of scores.

また、従来の検索方式では、キーワードの表層的な違いによって検索できない場合を少なくするために、同義語および類義語のテーブルを作成しておき、検索条件中のキーワードを同義語および類義語に展開して検索する方法が提案されている。   In addition, in the conventional search method, a table of synonyms and synonyms is created and the keywords in the search conditions are expanded into synonyms and synonyms in order to reduce the case where the search cannot be performed due to differences in the surface layer of keywords. A search method has been proposed.

特開平10−143530号公報Japanese Patent Laid-Open No. 10-143530

従来のドキュメント検索装置およびドキュメント検索方法は以上のように構成されているので、単独の検索方式で検索するよりもユーザが所望する検索結果を得やすくなっている。しかしながら、これらの検索方式は、検索インデックスを作成するためのキーワードの抽出対象が検索対象のドキュメントそのものであるため、単独の検索方式を使う場合でも、複数の検索方式を組み合わせて使う場合でも、ドキュメント内に出現したキーワードを検索することが基本となる。   Since the conventional document search apparatus and document search method are configured as described above, it is easier to obtain a search result desired by the user than when searching by a single search method. However, in these search methods, the keyword extraction target for creating the search index is the search target document itself, so even if a single search method is used or a combination of multiple search methods is used, the document It is fundamental to search for keywords that appear inside.

また、実際の検索場面においては、検索する側はドキュメントで使われるキーワードが何か分からない状態で検索条件を入力しなくてはならないため、所望のドキュメントが引けないということが発生する。それらを解消するため、同義語および類義語展開による検索が行われ、それによって多少の改善が期待できる。しかしながら、取扱説明書などのドキュメントは、正確を期すため専門的な用語、および独自機能に対する特別な用語を使った説明が記載されることが多く、一般的なユーザおよび使い方を知りたい初心者ユーザにとっては、何をキーワードとして検索すれば所望の説明が得られるのか分からないという状況になってしまう場合が多い。具体的には、カーナビゲーションの地図向きを表す用語として「北基準」とか「自車基準」といった用語がカーナビ初心者には想像もできないキーワードであり、「走っていく方向がいつも上側になる地図にしたい」といった条件で検索しようとし、適切なキーワードが存在しないため所望の検索結果が得られないといったことが発生する。   Further, in the actual search scene, the search side must input the search condition in a state where the keyword used in the document is unknown, so that a desired document cannot be drawn. In order to eliminate them, a search by synonym and synonym expansion is performed, so that some improvement can be expected. However, manuals and other manuals often contain technical terms and explanations using special terms for unique functions to ensure accuracy, so it is recommended for general users and beginner users who want to know how to use them. In many cases, it is difficult to know what is searched for as a keyword to obtain a desired explanation. Specifically, terms such as “north reference” or “own vehicle reference” are terms that cannot be imagined by car navigation beginners as terms that indicate the direction of a map for car navigation. When a search is performed under a condition such as “I want to do”, an appropriate keyword does not exist and a desired search result cannot be obtained.

この発明は、上記のような課題を解決するためになされたもので、ユーザの自然言語による入力に対して、単純な検索方式による検索結果よりも、より適切な検索結果を提示することを目的とする。   The present invention has been made to solve the above-described problems, and it is an object of the present invention to present a more appropriate search result for a user's natural language input than a search result obtained by a simple search method. And

この発明に係るドキュメント検索装置は、あらかじめ用意されたドキュメントから作成した検索インデックスと、ユーザからの入力を受け、検索インデックスを用いてドキュメント内から当該ユーザ入力に関連のある項目を検索するドキュメント検索部と、ドキュメントの内容を問う想定質問と当該想定質問の回答となるドキュメント内の項目との対応関係を学習した発話推定モデルと、発話推定モデルを基にドキュメント内からユーザ入力の回答に相当する項目を推定する発話内容推定部と、ドキュメント検索部から得られたドキュメント検索結果および発話内容推定部から得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合部とを備えるものである。   A document search device according to the present invention receives a search index created from a document prepared in advance and an input from a user, and uses the search index to search an item related to the user input from the document. And an utterance estimation model that learns the correspondence between an assumed question that asks the contents of the document and an item in the document that is the answer to the assumed question, and an item that corresponds to a user input answer from the document based on the utterance estimation model Utterance content estimation unit, and a document search result obtained from the document search unit and a document estimation result obtained from the utterance content estimation unit are integrated to generate a final search result. is there.

この発明に係るドキュメント検索方法は、入力解析部が、ユーザからの入力を受け付けるユーザ入力ステップと、ドキュメント検索部が、あらかじめ用意されたドキュメントから作成した検索インデックスを用いて、当該ドキュメント内からユーザ入力に関連のある項目を検索するドキュメント検索ステップと、発話内容推定部が、ドキュメントの内容を問う想定質問と当該想定質問の回答となるドキュメント内の項目との対応関係を学習した発話推定モデルを基に、ドキュメント内からユーザ入力の回答に相当する項目を推定する発話内容推定ステップと、結果統合部が、ドキュメント検索ステップから得られたドキュメント検索結果および発話内容推定ステップから得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合ステップとを備えるものである。 In the document search method according to the present invention, a user input step in which an input analysis unit receives an input from a user, and a user input from within the document using a search index created from a document prepared in advance by the document search unit. The document search step for searching for items related to the utterance, and the utterance content estimation unit based on the utterance estimation model in which the correspondence between the assumed question that asks the document content and the item in the document that is the answer to the assumed question is learned. The utterance content estimation step for estimating an item corresponding to the user input answer from the document, and the result integration unit obtains the document search result obtained from the document search step and the document estimation result obtained from the utterance content estimation step. Result in a final search result It is intended and a consolidation step.

この発明によれば、ユーザがどのような聞き方をするかを想定した質問とその回答になるドキュメント項目との対応関係を学習した発話推定モデルを用いて、ドキュメント内からユーザ入力の回答に相当する項目を推定し、推定結果をインデックス検索の結果と統合するようにしたので、ユーザの自然言語による入力に対して、単純な検索方式による結果よりも、より適切な検索結果を提示することができる。   According to the present invention, using an utterance estimation model in which a correspondence between a question assuming a user's way of listening and a document item as an answer is learned, it corresponds to a user input answer from within a document. Since the estimated items are integrated with the index search results, it is possible to present more appropriate search results than the results of the simple search method to the user's natural language input. it can.

この発明の実施の形態1に係るドキュメント検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the document search device concerning Embodiment 1 of this invention. 実施の形態1に係るドキュメント検索装置のドキュメントの例を示す図である。3 is a diagram illustrating an example of a document of the document search device according to Embodiment 1. FIG. 実施の形態1に係るドキュメント検索装置のドキュメント解析結果および検索インデックス用のキーワードリストの例を示す図である。It is a figure which shows the example of the keyword list for the document analysis result and search index of the document search device concerning Embodiment 1. 実施の形態1に係るドキュメント検索装置の収集発話データの例を示す図である。It is a figure which shows the example of the collection speech data of the document search apparatus concerning Embodiment 1. FIG. 実施の形態1に係るドキュメント検索装置の収集発話解析結果および発話推定モデル用のキーワードリストの例を示す図である。It is a figure which shows the example of the keyword list for the collection speech analysis results and speech estimation model of the document search device concerning Embodiment 1. FIG. 実施の形態1に係るドキュメント検索装置のドキュメントから検索インデックスを作成する動作を示すフローチャートである。4 is a flowchart showing an operation of creating a search index from a document of the document search device according to the first embodiment. 実施の形態1に係るドキュメント検索装置の収集発話データから発話推定モデルを作成する動作を示すフローチャートである。4 is a flowchart illustrating an operation of creating an utterance estimation model from collected utterance data of the document search device according to the first embodiment. 実施の形態1に係るドキュメント検索装置のユーザ入力から最終検索結果を作成する動作を示すフローチャートである。6 is a flowchart illustrating an operation of creating a final search result from a user input of the document search device according to the first embodiment. 実施の形態1に係るドキュメント検索装置における、ユーザ入力の遷移例を示す図である。It is a figure which shows the example of transition of a user input in the document search device concerning Embodiment 1. FIG. 図9のユーザ入力の遷移例の続きを示す図である。FIG. 10 is a diagram showing a continuation of the user input transition example of FIG. この発明の実施の形態2に係るドキュメント検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the document search device based on Embodiment 2 of this invention. 実施の形態2に係るドキュメント検索装置のドキュメントの階層を表す図である。FIG. 10 is a diagram illustrating a document hierarchy of the document search device according to the second embodiment. 実施の形態2に係るドキュメント検索装置のユーザ入力から最終検索結果を作成する動作を示すフローチャートである。10 is a flowchart illustrating an operation of creating a final search result from a user input of the document search device according to the second embodiment. 実施の形態2に係るドキュメント検索装置における、ユーザ入力の遷移例を示す図である。It is a figure which shows the example of transition of a user input in the document search device concerning Embodiment 2. FIG. この発明の実施の形態3に係るドキュメント検索装置のドキュメントの例を示す図である。It is a figure which shows the example of the document of the document search device concerning Embodiment 3 of this invention. 実施の形態3に係るドキュメント検索装置のドキュメント解析結果および検索インデックス用のキーワードリストの例を示す図である。It is a figure which shows the example of the document analysis result of the document search device concerning Embodiment 3, and the keyword list for search indexes. 実施の形態3に係るドキュメント検索装置の収集発話データの例を示す図である。It is a figure which shows the example of the collection speech data of the document search device concerning Embodiment 3. FIG. 実施の形態3に係るドキュメント検索装置の収集発話解析結果および発話推定モデル用のキーワードリストの例を示す図である。It is a figure which shows the example of the keyword list for the collection speech analysis results and speech estimation model of the document search device concerning Embodiment 3. FIG. 実施の形態3に係るドキュメント検索装置における、ユーザ入力の遷移例を示す図である。FIG. 10 is a diagram illustrating a transition example of user input in the document search device according to the third embodiment. 図19のユーザ入力の遷移例の続きを示す図である。It is a figure which shows the continuation of the example of a transition of the user input of FIG. この発明の実施の形態4に係るドキュメント検索装置のドキュメントの例を示す図である。It is a figure which shows the example of the document of the document search device concerning Embodiment 4 of this invention. 実施の形態4に係るドキュメント検索装置のドキュメント解析結果および検索インデックス用のキーワードリストの例を示す図である。It is a figure which shows the example of the document analysis result of the document search device concerning Embodiment 4, and the keyword list for search indexes. 実施の形態4に係るドキュメント検索装置の収集発話データの例を示す図である。It is a figure which shows the example of the collection speech data of the document search device concerning Embodiment 4. FIG. 実施の形態4に係るドキュメント検索装置の収集発話解析結果および発話推定モデル用のキーワードリストの例を示す図である。It is a figure which shows the example of the keyword list for the collection speech analysis results and speech estimation model of the document search device concerning Embodiment 4. FIG. 実施の形態4に係るドキュメント検索装置における、ユーザ入力の遷移例を示す図である。FIG. 10 is a diagram illustrating a transition example of user input in the document search device according to the fourth embodiment. 図25のユーザ入力の遷移例の続きを示す図である。It is a figure which shows the continuation of the example of a transition of the user input of FIG.

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本実施の形態1に係るドキュメント検索装置の構成を示すブロック図である。
ドキュメント1は、製品の取扱説明書などを電子化したテキストデータである。このドキュメント1は、製品機能などに合わせて章、節、項などの項目にある程度階層化されているものとする。入力解析部2は、ドキュメント1のテキストなどを公知の技術である形態素解析などの方法により、形態素単位に分割する。ドキュメント解析結果3は、入力解析部2によってドキュメント1を形態素に分割したデータである。
Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiment 1 FIG.
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the document search apparatus according to the first embodiment.
Document 1 is text data obtained by digitizing an instruction manual of a product. This document 1 is assumed to be hierarchized to some extent into items such as chapters, sections, and sections according to product functions. The input analysis unit 2 divides the text of the document 1 into morpheme units by a known technique such as morpheme analysis. The document analysis result 3 is data obtained by dividing the document 1 into morphemes by the input analysis unit 2.

検索インデックス作成部4は、ドキュメント解析結果3から検索インデックス5を作成する。この検索インデックス5は、ドキュメント検索部12からのキーワードの入力に対してドキュメント1中の特定の章、節、項などの項目を検索結果として返す。
収集発話データ6は、ドキュメント1を利用する場合にあらかじめユーザアンケートなどの方法によって聞きたいことを収集した発話データである。収集発話データ6の作成方法は、あらかじめドキュメント1に書かれた製品機能から質問を生成し、それをアンケートなどの形で事前に集めたものを想定する。
収集発話解析結果7は、入力解析部2によって収集発話データ6を形態素に分割したデータである。
The search index creation unit 4 creates a search index 5 from the document analysis result 3. The search index 5 returns items such as specific chapters, sections, and items in the document 1 as search results in response to the keyword input from the document search unit 12.
The collected utterance data 6 is utterance data collected in advance by using a method such as a user questionnaire when the document 1 is used. The method of creating the collected utterance data 6 assumes that a question is generated from a product function written in the document 1 in advance and collected in advance in the form of a questionnaire or the like.
The collected utterance analysis result 7 is data obtained by dividing the collected utterance data 6 into morphemes by the input analysis unit 2.

発話推定モデル作成部8は、収集発話解析結果7の形態素単位を学習単位(素性)として統計的な学習を行い、発話推定モデル9を作成する。この発話推定モデル9は、収集発話解析結果7の形態素列を入力とし、発話内容推定結果として前記質問に対する回答に相当する項目をスコアつきで返すための学習結果データである。   The utterance estimation model creation unit 8 performs statistical learning using the morpheme unit of the collected utterance analysis result 7 as a learning unit (feature), and creates an utterance estimation model 9. This utterance estimation model 9 is learning result data for receiving a morpheme string of the collected utterance analysis result 7 as an input and returning an item corresponding to an answer to the question with a score as an utterance content estimation result.

ユーザ入力10は、ドキュメント検索装置へのユーザからの入力を表すデータである。ここでは、ユーザ入力10がテキスト入力であるものとして説明を行う。ユーザ入力解析結果11は、入力解析部2によってユーザ入力10を形態素に分割したデータである。   The user input 10 is data representing an input from the user to the document search apparatus. Here, description will be made assuming that the user input 10 is a text input. The user input analysis result 11 is data obtained by dividing the user input 10 into morphemes by the input analysis unit 2.

ドキュメント検索部12は、ユーザ入力解析結果11を入力として、検索インデックス5を利用して検索を行い、ドキュメント検索結果13を作成する。
発話内容推定部14は、ユーザ入力解析結果11を入力として、発話推定モデル9を使ってこの入力に対応する項目を推定し、その項目のドキュメントIDを取得する。ドキュメント推定結果15は、発話内容推定部14で推定したドキュメントIDとそのスコア(後述する)を含むデータである。
The document search unit 12 performs a search using the search index 5 with the user input analysis result 11 as an input, and creates a document search result 13.
The utterance content estimation unit 14 receives the user input analysis result 11 as an input, estimates an item corresponding to this input using the utterance estimation model 9, and acquires the document ID of the item. The document estimation result 15 is data including the document ID estimated by the utterance content estimation unit 14 and its score (described later).

結果統合部16は、ドキュメント検索結果13とドキュメント推定結果15を統合して1つの検索結果としてまとめ、最終検索結果17として出力する。   The result integration unit 16 integrates the document search result 13 and the document estimation result 15 into one search result and outputs it as a final search result 17.

図2は、ドキュメント1の例である。ドキュメント1は章、節、項のような階層構造を持っており、階層ごとに検索結果位置を示すドキュメントIDを持っている。図2の例では、ドキュメントID「Id_10_1」のドキュメント1−1が、下位のデータ構造内に含まれるテキストも含んでいる。たとえば「Id_10_1_1」のドキュメント1−2は、「Id_10_1」のドキュメント1−1にも含まれることを表している。   FIG. 2 is an example of the document 1. The document 1 has a hierarchical structure such as a chapter, a section, and an item, and has a document ID indicating a search result position for each hierarchy. In the example of FIG. 2, the document 1-1 with the document ID “Id — 10_1” also includes text included in the lower data structure. For example, the document 1-2 of “Id — 10_1 — 1” is included in the document 1-1 of “Id — 10_1”.

図3は、ドキュメント解析結果3、および検索インデックス5用のキーワードリストの例である。「Id_10_1_1」はドキュメント解析結果3−1の一例であり、図2の「Id_10_1_1」のドキュメント1−2に対して形態素解析による入力解析を行った結果を示している。このドキュメント解析結果3−1では、形態素解析結果の区切を「/」で区切っている。
検索インデックス用データ3−2は、「Id_10_1_1」のドキュメント解析結果3−1をもとにした、検索インデックス作成部4が使用するデータ例を示している。ここではドキュメントIDと自立語形態素の一般形(キーワード)のリストとが抽出されている。
FIG. 3 shows an example of the keyword analysis results for the document analysis result 3 and the search index 5. “Id — 10 — 1 — 1” is an example of the document analysis result 3-1, and shows the result of performing input analysis by morphological analysis on the document 1-2 of “Id — 10 — 1 — 1” in FIG. In the document analysis result 3-1, the morphological analysis result is delimited by “/”.
The search index data 3-2 indicates an example of data used by the search index creation unit 4 based on the document analysis result 3-1 of “Id — 10 — 1 — 1”. Here, a document ID and a list of general forms (keywords) of independent word morphemes are extracted.

図4は、収集発話データ6の例である。収集発話データ6−1は「Id_10」のドキュメントに対応する質問の例、収集発話データ6−2は「Id_10_1」のドキュメントに対応する質問の例、収集発話データ6−3は「Id_10_1_1」のドキュメントに対応する質問の例である。収集発話データ6−4は、地図種類の具体的変更方法を知りたいことを意図した質問であるが、ここで想定している製品では実現不可能な地図種類であるため、「Id_10_1_1」と同階層のドキュメントIDが選択できない収集発話データ例である。
なお、これら収集発話データ6−1〜6−4は、ユーザが製品の機能を確認するためにどのような聞き方をするかを想定した質問文例である。
FIG. 4 is an example of the collected utterance data 6. The collected utterance data 6-1 is an example of a question corresponding to a document “Id_10”, the collected utterance data 6-2 is an example of a question corresponding to a document of “Id_10_1”, and the collected utterance data 6-3 is a document of “Id_10_1_1”. It is an example of a question corresponding to. The collected utterance data 6-4 is a question intended to know a specific method of changing the map type. However, since it is a map type that cannot be realized with the product assumed here, it is the same as "Id_10_1_1". It is an example of the collection utterance data which cannot select document ID of a hierarchy.
Note that these collected utterance data 6-1 to 6-4 are examples of question sentences that are assumed to be heard by the user in order to confirm the function of the product.

図5は、収集発話解析結果7、および発話推定モデル9用のキーワードリストの例である。「Id_10_1_1」は収集発話解析結果7−1の一例であり、図4の「Id_10_1_1」の収集発話データ6−1のテキストを形態素解析による入力解析を行った結果を示している。
発話推定モデル用データ7−2は、「Id_10_1_1」の収集発話解析結果7−1をもとにした、発話推定モデル作成部8が使用するデータ例を示している。ここではドキュメントIDと自立語形態素の一般形(キーワード)のリストとが抽出されている。
FIG. 5 is an example of a keyword list for the collected utterance analysis result 7 and the utterance estimation model 9. “Id — 10 — 1 — 1” is an example of the collected utterance analysis result 7-1 and shows the result of performing input analysis by morphological analysis on the text of the collected utterance data 6-1 of “Id — 10 — 1 — 1” in FIG.
The utterance estimation model data 7-2 shows an example of data used by the utterance estimation model creation unit 8 based on the collected utterance analysis result 7-1 of “Id — 10_1 — 1”. Here, a document ID and a list of general forms (keywords) of independent word morphemes are extracted.

次に、ドキュメント検索装置の動作を説明する。
動作は大きく2つの処理に分かれる。1つは、ドキュメント1および収集発話データ6からそれぞれ検索インデックス5、発話推定モデル9を作成する作成処理であり、もう1つは、ユーザ入力10を受けて最終検索結果17を作成する検索処理である。まず、作成処理について説明する。
Next, the operation of the document search apparatus will be described.
The operation is roughly divided into two processes. One is a creation process for creating the search index 5 and the utterance estimation model 9 from the document 1 and the collected utterance data 6, respectively, and the other is a search process for creating a final search result 17 in response to the user input 10. is there. First, the creation process will be described.

まず、作成処理のうち、検索インデックス5の作成方法について説明する。ここでは、従来技術で開示されているtf・idfによる重み付けをするものとする。
図6は、ドキュメント1から検索インデックス5を作成するまでの動作を示すフローチャートである。図2に示したように、ドキュメント1はドキュメントIDとテキストとが対応付けられたペアになっているものとする。たとえば、ドキュメント1−2ではドキュメントID「Id_10_1_1」という名前に、「自車基準。自車の進行方向を上とした地図が表示されます。」というテキストが対応付けられている。ステップST1では、入力解析部2がこの構造のドキュメント1を順次読み込み、既知の技術である形態素解析によって形態素列に分割する。ドキュメント1−2を形態素解析した結果が、図3のドキュメント解析結果3−1である。このドキュメント解析結果3−1は、形態素の区切り「/」しか示していないが、実際には、品詞情報、活用語の原型、読みなどが含まれているものとする。
First, a method for creating the search index 5 in the creation process will be described. Here, weighting by tf · idf disclosed in the prior art is assumed.
FIG. 6 is a flowchart showing an operation from creation of the search index 5 from the document 1. As shown in FIG. 2, it is assumed that the document 1 is a pair in which the document ID and the text are associated with each other. For example, in document 1-2, a document ID “Id — 10 — 1 — 1” is associated with the text “vehicle reference. A map with the direction of travel of the vehicle up is displayed.” In step ST1, the input analysis unit 2 sequentially reads the document 1 having this structure, and divides it into morpheme strings by morphological analysis which is a known technique. The result of the morphological analysis of the document 1-2 is the document analysis result 3-1 in FIG. This document analysis result 3-1 shows only the morpheme delimiter “/”, but it actually includes part-of-speech information, a prototype of a utilization word, reading, and the like.

ドキュメント解析結果3がすべてのドキュメントIDに対して生成されると、続くステップST2で、検索インデックス作成部4が、すべてのドキュメント解析結果3から検索インデックス5の作成に必要な形態素(キーワード)を抽出し、(ドキュメントID、キーワードリスト)のペアを作成し、すべてのペアを元にtf・idfによって重み付けした検索インデックス5を作成する。図3のドキュメント解析結果3−1から抽出した(ドキュメントID、キーワードリスト)のペアは、同じ図3の検索インデックス用データ3−2で表される。   When the document analysis result 3 is generated for all document IDs, the search index creation unit 4 extracts morphemes (keywords) necessary for creating the search index 5 from all the document analysis results 3 in the subsequent step ST2. Then, a pair of (document ID, keyword list) is created, and a search index 5 weighted by tf · idf based on all pairs is created. A pair of (document ID, keyword list) extracted from the document analysis result 3-1 in FIG. 3 is represented by the same search index data 3-2 in FIG.

具体的な検索インデックス作成手順の説明は行わないが、簡単に説明する。まず、tf・idfは、すべてのドキュメントIDに含まれるキーワード数をベクトルの次元とし、各キーワードをベクトルの要素に割り当て、ベクトルの値を頻度で表す(tfの部分)。このベクトル値を「多くのドキュメントに出現するキーワード(一般的な語)は重要度が低く、特定のドキュメントにしか出現しないキーワードの重要度は高い」というヒューリスティックに適うように重み付けを行う(idfの部分)。この重み付きテーブルが検索インデックス5となる。   A specific search index creation procedure will not be described, but will be briefly described. First, tf · idf uses the number of keywords included in all document IDs as a vector dimension, assigns each keyword to a vector element, and represents the vector value as a frequency (tf portion). This vector value is weighted so as to meet the heuristic that “keywords that appear in many documents (general words) have low importance, and keywords that appear only in specific documents have high importance” (idf portion). This weighted table is the search index 5.

次に、発話推定モデル9の作成処理について説明する。
図7は、収集発話データ6から発話推定モデル9を作成するまでの動作を示すフローチャートである。収集発話データ6は、図4の収集発話データ6−1〜6−4に表したように、あらかじめユーザから集めた発話をその回答となるドキュメントIDに割り当てたデータである。収集発話データ6の作成方法は、アンケートなどでドキュメントIDごとの機能を説明した内容を提示して、その機能を探したい場合に何と言うかを表す文章を集めたデータである。たとえば、図4の「Id_10_1_1」の「自車基準。自車の進行方向を上とした地図が表示されます。」という具体的内容を提示した場合は、収集発話データ6−3のような発話が収集できることが期待でき、一方「Id_10」のような上位の概念を提示した場合には、収集発話データ6−1のようなデータを始め、収集発話データ6−2〜6−4のような発話も収集できることが期待できる。なお、収集発話データ6−4はドキュメント1の製品の機能外の内容の発話データであり、この場合は中間的な「Id_10_1」のドキュメントIDに割り当てることとなる。上記の作業は人手によってあらかじめ行い、図4の構造のデータを用意しておくこととなる。
Next, a process for creating the utterance estimation model 9 will be described.
FIG. 7 is a flowchart showing an operation until the utterance estimation model 9 is created from the collected utterance data 6. The collected utterance data 6 is data in which utterances collected in advance from the user are assigned to the document ID as a response, as shown in the collected utterance data 6-1 to 6-4 in FIG. The method of creating the collected utterance data 6 is data in which sentences describing what is said when a function for each document ID is presented in a questionnaire or the like and the function is to be searched is collected. For example, in the case of presenting the specific content of “Id_10_1_1” of “Id_10_1_1” in FIG. 4 that “the map is displayed with the traveling direction of the own vehicle up”, the utterance as the collected utterance data 6-3 On the other hand, when a high-level concept such as “Id_10” is presented, data such as collected utterance data 6-1 is started, and collected utterance data 6-2 to 6-4 is started. It can be expected that utterances can also be collected. The collected utterance data 6-4 is utterance data having contents outside the functions of the product of the document 1, and in this case, the collected utterance data 6-4 is assigned to an intermediate document ID “Id — 10_1”. The above operation is performed manually in advance, and data having the structure shown in FIG. 4 is prepared.

入力解析部2はステップST3において、ステップST1でドキュメント1を入力とした場合と同様に、収集発話データ6の形態素解析を行う。たとえば、図4の収集発話データ6−3を形態素解析した結果が、図5の収集発話解析結果7−1である。続くステップST4で発話推定モデル作成部8が、ステップST2と同様にドキュメントIDとキーワードのリストを発話推定モデル用データ7−2として抽出し、発話推定モデル9を作成するための処理を行う。発話推定モデル9は、ここでは最大エントロピ法(以下、ME法)によって学習するものとする。   In step ST3, the input analysis unit 2 performs morphological analysis of the collected utterance data 6 in the same manner as when the document 1 is input in step ST1. For example, the result of morphological analysis of the collected utterance data 6-3 in FIG. 4 is the collected utterance analysis result 7-1 in FIG. In the subsequent step ST4, the utterance estimation model creating unit 8 extracts a document ID and keyword list as the utterance estimation model data 7-2 and performs a process for creating the utterance estimation model 9 as in step ST2. It is assumed here that the speech estimation model 9 is learned by the maximum entropy method (hereinafter, ME method).

ME法の詳細な説明は行わないが、簡単に説明する。ME法は、(ドキュメントID、キーワードリスト)のペアを学習データとし、入力としてキーワードのリストを入力した場合にそのドキュメントIDを推定する方法である。キーワードのリストからドキュメントのIDを推定するときに学習したデータで最も起こりやすくなる(正解が多くなる)ように(ドキュメントID、キーワードリスト)のペアの重みを計算し、それを保存したものが発話推定モデル9である。
すべての収集発話解析結果7からキーワードが抽出され、ME法によって学習して、発話推定モデル9が作成される。具体的には、図5の収集発話解析結果7−1に対して、同じ図5の発話推定モデル用データ7−2が抽出され、この発話推定モデル用データ7−2を元に上記学習が行われる。
The ME method will not be described in detail, but will be described briefly. The ME method is a method of estimating a document ID when a pair of (document ID, keyword list) is used as learning data and a keyword list is input as an input. The weight of the pair of (document ID, keyword list) is calculated so that it is most likely to occur in the data learned when estimating the document ID from the keyword list (the number of correct answers increases), and the saved data is the utterance This is an estimation model 9.
Keywords are extracted from all the collected utterance analysis results 7 and learned by the ME method to create an utterance estimation model 9. Specifically, the same utterance estimation model data 7-2 in FIG. 5 is extracted from the collected utterance analysis result 7-1 in FIG. 5, and the above learning is performed based on the utterance estimation model data 7-2. Done.

次に、検索処理について説明する。
図8は、ユーザ入力10から最終検索結果17を作成するまでの動作を示すフローチャートである。図9および図10は、ユーザ入力10の一例であるユーザ入力10−1の検索処理における遷移例を示す。ここではユーザ入力10はテキストでの入力を想定し、図9のユーザ入力10−1が入力されたとして説明する。入力解析部2は、ステップST11でまずユーザ入力10−1を受け取り、形態素解析してユーザ入力解析結果11−1を生成し、ユーザ入力解析結果11−1から自立語を抽出してキーワードリスト11−2を作成する。続くステップST12では、発話内容推定部14がこのキーワードリスト11−2を入力に用いて、発話推定モデル9から図10のドキュメント推定結果15−1を得る。図10に示すように、ドキュメント推定結果15−1は、スコア順に並んでいる。このスコアは、発話推定モデル9に保存された(ドキュメントID、キーワードリスト)のぺアの重みから算出される値であり、ユーザ入力10との関連度合いが高いドキュメントID、即ち、ユーザ入力10の質問に対する回答として相応しいドキュメントIDに高いスコアが付与される。
Next, the search process will be described.
FIG. 8 is a flowchart showing the operation from the user input 10 until the final search result 17 is created. 9 and 10 show transition examples in the search process of the user input 10-1 which is an example of the user input 10. FIG. Here, it is assumed that the user input 10 is a text input and the user input 10-1 in FIG. 9 is input. In step ST11, the input analysis unit 2 first receives the user input 10-1, generates a user input analysis result 11-1 through morphological analysis, extracts an independent word from the user input analysis result 11-1, and extracts the keyword list 11 -2 is created. In subsequent step ST12, the utterance content estimation unit 14 uses the keyword list 11-2 as an input to obtain the document estimation result 15-1 of FIG. 10 from the utterance estimation model 9. As shown in FIG. 10, the document estimation results 15-1 are arranged in the order of scores. This score is a value calculated from the pair weight of (document ID, keyword list) stored in the utterance estimation model 9 and has a high degree of association with the user input 10, that is, the user input 10 A high score is given to the document ID suitable as an answer to the question.

ドキュメント推定結果15−1が得られると、続くステップST13にて今度はドキュメント検索部12がキーワードリスト11−2を入力に用いて、検索インデックス5から図10のドキュメント検索結果13−1を得る。図10に示すように、ドキュメント検索結果13−1もスコア順に並んでいる。このスコアは、検索インデックス5に保存されたtf・idfの重みから算出される値であり、ユーザ入力10との関連度合いが高いドキュメントIDに高いスコアが付与される。
なお、ドキュメント推定結果15のスコアおよびドキュメント検索結果13のスコアの算出方法には公知の技術を用いればよいため、ここでの説明は省略する。
When the document estimation result 15-1 is obtained, the document search unit 12 obtains the document search result 13-1 shown in FIG. 10 from the search index 5 by using the keyword list 11-2 as an input at the next step ST 13. As shown in FIG. 10, document search results 13-1 are also arranged in the order of score. This score is a value calculated from the weight of tf · idf stored in the search index 5, and a high score is given to a document ID having a high degree of association with the user input 10.
Note that a known technique may be used for the calculation method of the score of the document estimation result 15 and the score of the document search result 13, and thus description thereof is omitted here.

ステップST13の処理が終わると、続いてステップST14の処理に移り、結果統合部16がドキュメント推定結果15−1の最大スコアがここで定めた閾値X(たとえば、X=0.9)以上かどうかを判断する。ドキュメント推定結果15−1では最大スコアが閾値Xより小さいので(ステップST14“NO”)、結果統合部16はステップST16の処理に進む。ステップST16では、ドキュメントIDごとに、ドキュメント検索結果13−1のスコアとドキュメント推定結果15−1のスコアの重み付き加算を行い、最終検索結果17−1を作成する。図10では、(ドキュメント推定結果15−1のスコア):(ドキュメント検索結果13−1のスコア)=1:1で加算した結果が最終検索結果74となっている。   When the process of step ST13 ends, the process proceeds to the process of step ST14, and the result integration unit 16 determines whether the maximum score of the document estimation result 15-1 is equal to or greater than a threshold value X (for example, X = 0.9) determined here. Judging. Since the maximum score is smaller than the threshold value X in the document estimation result 15-1 (step ST14 “NO”), the result integrating unit 16 proceeds to the process of step ST16. In step ST16, for each document ID, the weighted addition of the score of the document search result 13-1 and the score of the document estimation result 15-1 is performed to create a final search result 17-1. In FIG. 10, a final search result 74 is obtained by adding (score of document estimation result 15-1) :( score of document search result 13-1) = 1: 1.

一方、ステップST14でドキュメント推定結果15−1の最大スコアが閾値Xを超えた場合には(ステップST14“YES”)、続くステップST15にて結果統合部16はドキュメント検索結果13−1を破棄して、ドキュメント推定結果15−1を最終検索結果(不図示)とする。
検索が終了すると、ドキュメント検索装置は画面にドキュメントIDのタイトルなどを表示して、ユーザに選択させることで、所望のドキュメント位置を提示する。
On the other hand, when the maximum score of the document estimation result 15-1 exceeds the threshold value X in step ST14 (step ST14 “YES”), the result integration unit 16 discards the document search result 13-1 in the subsequent step ST15. The document estimation result 15-1 is set as a final search result (not shown).
When the search is completed, the document search device displays the title of the document ID and the like on the screen and makes the user select, thereby presenting a desired document position.

以上より、実施の形態1によれば、ドキュメント検索装置は、あらかじめ用意されたドキュメント1から作成した検索インデックス5と、ユーザ入力10を解析したユーザ入力解析結果11を受け、検索インデックス5を用いてドキュメント1内からユーザ入力解析結果11に関連のあるドキュメントIDを検索するドキュメント検索部12と、ドキュメント1の内容を問う想定質問(ユーザ発話)とその回答となるドキュメントIDとの対応関係を定義した収集発話データ6を学習した発話推定モデル9と、発話推定モデル9を基にドキュメント1内からユーザ入力解析結果11の回答に相当するドキュメントIDを推定する発話内容推定部14と、ドキュメント検索部12から得られたドキュメント検索結果13と発話内容推定部14から得られたドキュメント推定結果15を統合して最終検索結果17を生成する結果統合部16とを備えるように構成した。このため、単純なドキュメント検索機能とは異なる、収集発話データ6に基づく発話内容推定を行って、従来のドキュメント検索機能では実現できなかった一般ユーザおよび初心者ユーザが入力するドキュメント1に出現しないような言い回しおよび一般用語での検索が可能となる。よって、ユーザの自然言語による入力に対して、単純な検索方式による結果よりも、より適切な検索結果を提示することができる。   As described above, according to the first embodiment, the document search apparatus receives the search index 5 created from the document 1 prepared in advance and the user input analysis result 11 obtained by analyzing the user input 10, and uses the search index 5. The correspondence between the document search unit 12 that searches the document ID related to the user input analysis result 11 from the document 1 and the assumed question (user utterance) that asks the contents of the document 1 and the document ID that is the answer is defined. The utterance estimation model 9 that has learned the collected utterance data 6, the utterance content estimation unit 14 that estimates the document ID corresponding to the answer to the user input analysis result 11 from the document 1 based on the utterance estimation model 9, and the document search unit 12 Document search result 13 obtained from, and utterance content estimation unit 14 Obtained by integrating the document estimation results 15 was configured with the result integration unit 16 that generates a final search result 17. For this reason, utterance content estimation based on the collected utterance data 6 is performed, which is different from the simple document search function, so that it does not appear in the document 1 input by general users and novice users that could not be realized by the conventional document search function. Search by wording and general terms is possible. Therefore, it is possible to present a more appropriate search result for the user's natural language input than the result of the simple search method.

また、実施の形態1によれば、発話内容推定部14は、推定したドキュメントIDにユーザ入力10との関連度合いに応じたスコアを付与し、結果統合部16は、発話内容推定部14から得られたドキュメント推定結果15のスコアがあらかじめ定めた閾値Xより大きい場合に、ドキュメント検索部12から得られたドキュメント検索結果13を無視して、最終検索結果17を生成する構成にした。このため、一般ユーザおよび初心者ユーザの入力がドキュメント1に出現しないような言い回しおよび一般用語の場合に、単純な検索方式では不適切な検索結果候補をたくさん含んでしまうのを避け、ユーザの入力に対してより適切な検索結果を提示することができる。   Further, according to the first embodiment, the utterance content estimation unit 14 gives a score according to the degree of association with the user input 10 to the estimated document ID, and the result integration unit 16 obtains from the utterance content estimation unit 14. When the score of the obtained document estimation result 15 is larger than a predetermined threshold value X, the document search result 13 obtained from the document search unit 12 is ignored and the final search result 17 is generated. For this reason, in the case of phrases and general terms that do not appear in the document 1 as input by general users and novice users, the simple search method avoids including a large number of inappropriate search result candidates. On the other hand, a more appropriate search result can be presented.

なお、実施の形態1では、ドキュメント推定結果15の最大スコアがあらかじめ定めた閾値Xより大きい場合には、ドキュメント推定結果15をそのまま最終検索結果17にする構成としたが、最初からドキュメント推定結果15のスコアとドキュメント検索結果13のスコアを所定の割合で重み付け加算するようにしてもよい。ドキュメント推定結果15のスコアは、ユーザの発話から直接推定されるドキュメントから計算されるのに対して、ドキュメント検索結果13のスコアとは、ドキュメント中のキーワードの有無から計算される。したがってそれぞれ一長一短があり、それらを重み付け加算することで、2つの方式でともによいスコアのものを提示することができる。   In the first embodiment, when the maximum score of the document estimation result 15 is larger than the predetermined threshold value X, the document estimation result 15 is used as the final search result 17 as it is. And the score of the document search result 13 may be weighted and added at a predetermined ratio. The score of the document estimation result 15 is calculated from the document directly estimated from the user's utterance, whereas the score of the document search result 13 is calculated from the presence / absence of the keyword in the document. Therefore, there are advantages and disadvantages, respectively, and by adding them by weighting, it is possible to present a score with a good score in both methods.

また、実施の形態1によれば、ドキュメント検索装置は、あらかじめ用意されたドキュメント1、および当該ドキュメント1の内容を問うユーザ発話とその回答になるドキュメントIDとの対応関係を定義した収集発話データ6を解析する入力解析部2と、入力解析部2から出力されたドキュメント解析結果3から検索インデックス5を作成する検索インデックス作成部4と、入力解析部2から出力された収集発話解析結果7を用いてユーザ発話とドキュメントIDとの対応関係を学習して発話推定モデル9を作成する発話推定モデル作成部8とを備えるように構成した。このため、従来のドキュメント検索機能では実現できなかった、一般ユーザおよび初心者ユーザが入力する、ドキュメント1に出現しないような言い回しおよび一般用語での検索が可能となる。   Further, according to the first embodiment, the document search apparatus collects the collected utterance data 6 that defines the correspondence between the document 1 prepared in advance and the user utterance that asks the contents of the document 1 and the document ID that is the answer. Using the input analysis unit 2 for analyzing the document, the search index creation unit 4 for creating the search index 5 from the document analysis result 3 output from the input analysis unit 2, and the collected utterance analysis result 7 output from the input analysis unit 2 The utterance estimation model creating unit 8 that learns the correspondence between the user utterance and the document ID and creates the utterance estimation model 9 is provided. For this reason, it is possible to search with words and general terms that do not appear in the document 1 and are input by general users and novice users, which could not be realized by the conventional document search function.

実施の形態2.
図11は、本実施の形態2に係るドキュメント検索装置の構成を示すブロック図である。なお、図11において図1と同一または相当の部分については同一の符号を付し説明を省略する。
上記実施の形態1との大きな違いは以下の2点である。
(1)収集発話データ6を割り当てるドキュメントIDの単位を細かい単位ではなく、より大きな単位にした発話推定モデル9を作成する。
(2)ドキュメント推定結果15は検索インデックス5による検索対象範囲を限定する目的で使用する。
Embodiment 2. FIG.
FIG. 11 is a block diagram showing the configuration of the document search apparatus according to the second embodiment. 11 that are the same as or equivalent to those in FIG. 1 are denoted by the same reference numerals and description thereof is omitted.
Major differences from the first embodiment are the following two points.
(1) Create an utterance estimation model 9 in which the unit of the document ID to which the collected utterance data 6 is assigned is not a fine unit but a larger unit.
(2) The document estimation result 15 is used for the purpose of limiting the search target range by the search index 5.

図11において、検索対象限定部18は、ドキュメント検索部12の検索対象を、ドキュメント推定結果15の下位ドキュメントIDに限定する。ドキュメント限定リスト19は、限定されたドキュメントIDを保持する。   In FIG. 11, the search target limiting unit 18 limits the search target of the document search unit 12 to the lower document ID of the document estimation result 15. The document limitation list 19 holds limited document IDs.

図12は、ドキュメント1のドキュメントIDの階層を表す図である。図12の例では、第2階層(四角で囲まれたドキュメントID)より下位層のドキュメントIDに収集発話データ6を割り付けることなく、第1階層と第2階層のドキュメントIDに割り当てることを表している。   FIG. 12 is a diagram illustrating a hierarchy of document IDs of document 1. In the example of FIG. 12, the collection utterance data 6 is not allocated to the document ID of the lower layer than the second layer (document ID surrounded by the square), but is allocated to the document IDs of the first layer and the second layer. Yes.

次に、ドキュメント検索装置の動作を説明する。
作成処理における動作は基本的に上記実施の形態1と同じである。但し、収集発話データ6のドキュメントIDへの割り当てを、図12に示すように第2階層以上とする。従って、図4において収集発話データ6−1はドキュメントID「Id_10」に割り当て、それ以外の収集発話データ6−2〜6−4はすべて「Id_10_1」に割り当てる。
Next, the operation of the document search apparatus will be described.
The operation in the creation process is basically the same as in the first embodiment. However, the allocation of the collected utterance data 6 to the document ID is set to the second hierarchy or higher as shown in FIG. Therefore, in FIG. 4, the collected utterance data 6-1 is assigned to the document ID “Id_10”, and all other collected utterance data 6-2 to 6-4 are assigned to “Id_10_1”.

続いて、検索処理について説明する。
図13は、ユーザ入力10から最終検索結果17を作成するまでの動作を示すフローチャートである。図14は、検索対象限定部18の動作を説明する図である。上記実施の形態1と同様に、ここでもユーザ入力10はテキストでの入力を想定し、図9のユーザ入力10−1が入力されたとして説明する。ステップST11で入力解析部2は、図8と同様にユーザ入力10−1を解析する。次にステップST12で、発話内容推定部14が発話内容推定を行う。推定結果は、図14のドキュメント推定結果15−2(ドキュメントID、スコア)になる。上述したように、収集発話データ6のドキュメントIDへの割り当てが第2階層以上に制限されているため、第3階層以下のドキュメントIDは無い。
Next, the search process will be described.
FIG. 13 is a flowchart showing the operation from the user input 10 until the final search result 17 is created. FIG. 14 is a diagram for explaining the operation of the search target limiting unit 18. As in the first embodiment, here, the user input 10 is assumed to be a text input, and the user input 10-1 in FIG. 9 is input. In step ST11, the input analysis unit 2 analyzes the user input 10-1 as in FIG. Next, in step ST12, the utterance content estimation unit 14 performs utterance content estimation. The estimation result is the document estimation result 15-2 (document ID, score) in FIG. As described above, since the allocation of the collected utterance data 6 to the document ID is limited to the second hierarchy or higher, there is no document ID in the third hierarchy or lower.

続くステップST21で検索対象限定部18が、ドキュメント推定結果15−2のスコアが閾値Y(たとえば、Y=0.6)以上になるドキュメントIDが1個以上か確認する。ドキュメント推定結果15−2では、「ID_10_1」のスコアが0.6以上なので(ステップST21“YES”)、処理をステップST22に移し、スコアが閾値Y以上のドキュメントIDの下位層を展開し、展開した各ドキュメントIDに同じスコアを付与する。また、ドキュメント推定結果15−2では「Id_10_1」だけが閾値Y以上なので、検索対象限定部18は「Id_10_1」の下位層の「Id_10_1_1」〜「Id_10_1_7」を検索対象として選択し、ドキュメント限定リスト19−1として設定する。   In subsequent step ST21, the search target limiting unit 18 confirms whether or not there is one or more document IDs for which the score of the document estimation result 15-2 is greater than or equal to a threshold Y (for example, Y = 0.6). In the document estimation result 15-2, since the score of “ID — 10_1” is 0.6 or more (step ST21 “YES”), the process moves to step ST22, and the lower layer of the document ID whose score is greater than or equal to the threshold Y is expanded and expanded. The same score is assigned to each document ID. Further, in the document estimation result 15-2, only “Id — 10_1” is equal to or greater than the threshold Y, so the search target limiting unit 18 selects “Id — 10_1 — 1” to “Id — 10 — 1_7” in the lower layer of “Id — 10_1” as search targets, and the document limitation list 19 Set as -1.

続くステップST23では、ドキュメント検索部12が図14のキーワードリスト11−2を使って検索インデックス5を検索し、ドキュメント検索結果13−1を得る。そして、ステップST24でこのドキュメント検索結果13−1のスコアにドキュメント限定リスト19−1のスコアを足し合わせた結果を最終検索結果17−2として出力する。 In subsequent step ST23, the document search unit 12 searches the search index 5 using the keyword list 11-2 of FIG. 14, and obtains a document search result 13-1. In step ST24, a result obtained by adding the score of the document restriction list 19-1 to the score of the document search result 13-1 is output as the final search result 17-2.

一方、ステップST21でドキュメント推定結果15−2に閾値Yを超えるスコアが存在しなかった場合(ステップST21“NO”)、検索対象限定部18はこのドキュメント推定結果15−2を破棄し(ステップST25)、続くステップST26にてドキュメント検索部12がすべてのドキュメントIDを検索対象にしたドキュメント検索結果(不図示)を得て、そのまま最終検索結果(不図示)として出力する。   On the other hand, if there is no score exceeding the threshold Y in the document estimation result 15-2 in step ST21 (step ST21 “NO”), the search target limiting unit 18 discards the document estimation result 15-2 (step ST25). In step ST26, the document search unit 12 obtains a document search result (not shown) with all document IDs as search targets, and outputs it as a final search result (not shown).

以上より、実施の形態2によれば、ドキュメント検索装置は、発話内容推定部14から得られたドキュメント推定結果15のうち、あらかじめ定めた閾値Y以上のスコアのドキュメントIDとその下位層のドキュメントIDを抽出する検索対象限定部18を備え、発話内容推定部14は、検索インデックス5の検索の最小単位となる階層より上位の階層のドキュメントIDと収集発話データ6との対応関係を学習した発話推定モデル9を基に推定し、結果統合部16は、発話内容推定部14から得られたドキュメント推定結果15のうちの検索対象限定部18で抽出したドキュメントIDを、ドキュメント検索部12から得られたドキュメント検索結果13と統合するように構成した。このため、収集発話データ6をより上位の階層のドキュメントIDに割り振れば、収集発話データ6を製品の機種による機能の細かな違いを考慮しなくてよいドキュメントIDへの対応付けが可能となる。よって、ドキュメントIDと収集発話データ6との対応付けが容易になると共に、データスパースネスによる検索の精度低下を抑制することができる。また、製品の機能を汎用的なレベルで定義できるため、多くの機種を抱える製品開発においても、共通の収集発話データ6として利用でき、新たな製品への対応が容易となる。   As described above, according to the second embodiment, the document search apparatus includes a document ID having a score equal to or higher than a predetermined threshold Y among the document estimation results 15 obtained from the utterance content estimation unit 14 and a document ID of a lower layer thereof. The utterance content estimation unit 14 includes a search target limiting unit 18 that extracts the utterance, and the utterance content estimation unit 14 learns the correspondence between the document ID of the higher hierarchy and the collected utterance data 6 as a minimum unit of search of the search index 5. Based on the model 9, the result integration unit 16 obtained from the document search unit 12 the document ID extracted by the search target limiting unit 18 in the document estimation result 15 obtained from the utterance content estimation unit 14. The document search result 13 is integrated. For this reason, if the collected utterance data 6 is assigned to a document ID of a higher hierarchy, it is possible to associate the collected utterance data 6 with a document ID that does not need to take into account fine differences in functions depending on the product model. . Therefore, it becomes easy to associate the document ID with the collected utterance data 6, and it is possible to suppress a decrease in search accuracy due to data sparseness. In addition, since product functions can be defined at a general-purpose level, it can be used as common collected utterance data 6 in product development with many models, and it becomes easy to deal with new products.

なお、上記実施の形態1,2では、検索インデックス5として、統計型検索方式の検索インデックスを用いて説明したが、論理型検索方式の検索インデックスを用いて、検索キーワードの出現回数の総和をもとに確率を設定してもよい。その場合、検索キーワード出現回数の総和が最大の場合をNとし、各ドキュメントでの検索キーワード出現回数の総和をNで割ったものをスコアとしたり、検索結果のすべてのドキュメントにおける検索キーワード出現回数の総和をMとして、各ドキュメントでの検索キーワード出現回数の総和をで割ったものをスコアとしたりする方法が考えられる。 In Embodiments 1 and 2 described above, the search index 5 is described using a search index of the statistical search method. However, the search index of the logical search method is used to calculate the total number of occurrences of the search keyword. A probability may be set for each. In this case, N is the case where the total number of search keyword appearances is the maximum, and a score obtained by dividing the total number of search keyword appearances in each document by N is used as a score, or the number of search keyword appearances in all documents in the search results. A method may be considered in which the sum is M , and the score obtained by dividing the total number of search keyword appearances in each document by M is used as a score.

さらに、上記実施の形態1,2では、検索インデックス5の作成単位および発話推定モデル9の作成単位として自立語単位で行った例を示したが、音素n−gramおよび音節n−gramなどを単位として検索インデックス5および発話推定モデル9を作成してもよい。また、高頻出単語と音素n−gram、または高頻出単語と音節n−gramを組み合わせて検索インデックス5および発話推定モデル9を作成してもよい。この場合、検索インデックス5および発話推定モデル9のサイズの削減が可能となる。   Furthermore, in the first and second embodiments, the example in which the search index 5 is created and the speech estimation model 9 is created in units of independent words has been described. However, the phoneme n-gram, syllable n-gram, etc. The search index 5 and the utterance estimation model 9 may be created. Alternatively, the search index 5 and the utterance estimation model 9 may be created by combining a frequently-occurring word and a phoneme n-gram, or a highly frequently-occurring word and a syllable n-gram. In this case, the size of the search index 5 and the utterance estimation model 9 can be reduced.

また、上記実施の形態1,2では、図4の収集発話データ6−4のような、該当する製品機能が無く適切な説明部分が無いためにドキュメント1のどこにも当てはめることのできない発話については、特別なドキュメントIDを付与して発話推定モデル9を作成しておき、ユーザ入力10に対するドキュメント推定結果15の最大スコアのものがその特別なドキュメントIDであった場合には、結果統合部16においてドキュメント検索結果13を利用せずに最終検索結果17を作成するようにしてもよい。また、この場合にドキュメント検索装置としては、特別なドキュメントIDに対応するメッセージを提示するように構成してもよい。   In Embodiments 1 and 2 described above, utterances that cannot be applied anywhere in document 1 because there is no relevant product function and no appropriate explanation part, such as collected utterance data 6-4 in FIG. When the utterance estimation model 9 is created by giving a special document ID, and the document with the maximum score of the document estimation result 15 with respect to the user input 10 is the special document ID, the result integrating unit 16 The final search result 17 may be created without using the document search result 13. In this case, the document search apparatus may be configured to present a message corresponding to a special document ID.

さらに、上記実施の形態1,2では、ユーザ入力10がテキスト入力の場合を例に説明したが、入力手段として音声認識を用いてもよい。その場合には、音声認識結果の第1候補のテキストをユーザ入力10として処理する方法、およびN番目の候補までをユーザ入力10として処理する方法などが考えられる。また、音声認識結果が形態素単位で生成される場合は、入力解析部2での処理を省略してそのままユーザ入力解析結果11として扱うようにしてもよい。   Furthermore, in the first and second embodiments, the case where the user input 10 is text input has been described as an example. However, voice recognition may be used as an input unit. In that case, a method of processing the first candidate text of the speech recognition result as the user input 10 and a method of processing up to the Nth candidate as the user input 10 are conceivable. If the speech recognition result is generated in units of morphemes, the processing in the input analysis unit 2 may be omitted and handled as the user input analysis result 11 as it is.

また、上記実施の形態1,2では、日本語の入力例について説明を行ったが、言語を限定するものではなく、英語、ドイツ語、中国語などでも、入力解析部2を言語ごとに差し替えることで同様の効果を得ることが可能である。   In the first and second embodiments, examples of Japanese input have been described. However, the language is not limited, and the input analysis unit 2 is replaced for each language in English, German, Chinese, and the like. It is possible to obtain the same effect.

実施の形態3.
以下では、英語の入力例について説明する。
本実施の形態3のドキュメント検索装置は、図1に示すドキュメント検索装置と図面上では同様の構成であるため、以下では図1を援用して説明する。
Embodiment 3 FIG.
In the following, an example of English input will be described.
Since the document search apparatus according to the third embodiment has the same configuration as that of the document search apparatus shown in FIG. 1, the following description will be given with reference to FIG.

図15は、本実施の形態3に係るドキュメント検索装置に入力されるドキュメント1の英語例である。ドキュメント1は、章、節、項のような階層構造を持っており、階層ごとに検索結果位置を示すドキュメントIDを持っている。図15の例では、ドキュメントID「Id_10_1」のドキュメント1−11が、下位のデータ構造内に含まれるテキストも含んでいる。たとえば「Id_10_1_1」のドキュメント1−12は、「Id_10_1」のドキュメント1−11にも含まれることを表している。   FIG. 15 is an English example of the document 1 input to the document search apparatus according to the third embodiment. The document 1 has a hierarchical structure such as a chapter, a section, and an item, and has a document ID indicating a search result position for each hierarchy. In the example of FIG. 15, the document 1-11 having the document ID “Id — 10_1” also includes text included in the lower data structure. For example, the document 1-12 of “Id_10_1_1” is included in the document 1-11 of “Id_10_1”.

図16は、ドキュメント解析結果3、および検索インデックス5用のキーワードリストの例である。「Id_10_1_1」はドキュメント解析結果の一例であり、図15の「Id_10_1_1」のドキュメント1−12に対して形態素解析による入力解析を行った結果を示している。このドキュメント解析結果3−11では、形態素解析結果の区切を「/」で区切った情報しか提示していないが、実際には品詞情報などの情報も生成される。
検索インデックス用データ3−12は、「Id_10_1_1」のドキュメント解析結果3−11をもとにした、検索インデックス作成部4が使用するデータ例を示している。ここではドキュメントIDと、前置詞、冠詞、be動詞、代名詞を除く自立語形態素とが抽出されている。
FIG. 16 is an example of a keyword list for the document analysis result 3 and the search index 5. “Id — 10 — 1 — 1” is an example of the document analysis result, and shows the result of performing input analysis by morphological analysis on the document 1-12 of “Id — 10 — 1 — 1” in FIG. In this document analysis result 3-11, only information obtained by dividing the morphological analysis result by “/” is presented, but actually information such as part-of-speech information is also generated.
The search index data 3-12 shows an example of data used by the search index creation unit 4 based on the document analysis result 3-11 of “Id — 10_1 — 1”. Here, document IDs and independent word morphemes excluding prepositions, articles, be verbs, and pronouns are extracted.

図17は、収集発話データ6の例である。収集発話データ6−11は「Id_10」のドキュメントに対応する質問の例、収集発話データ6−12は「Id_10_1」のドキュメントに対応する質問の例、収集発話データ6−13は「Id_10_1_1」のドキュメントに対応する質問の例である。収集発話データ6−14は、地図種類の具体的変更方法を知りたいことを意図した質問であるが、ここで想定している製品では実現不可能な地図種類であるため、「Id_10_1_1」と同階層のドキュメントIDが選択できない収集発話データ例である。   FIG. 17 is an example of the collected utterance data 6. The collected utterance data 6-11 is an example of a question corresponding to the document “Id_10”, the collected utterance data 6-12 is an example of a question corresponding to the document of “Id_10_1”, and the collected utterance data 6-13 is a document of “Id_10_1_1”. It is an example of a question corresponding to. The collected utterance data 6-14 is a question intended to know a specific method of changing the map type. However, since it is a map type that cannot be realized with the product assumed here, it is the same as “Id_10_1_1”. It is an example of the collection utterance data which cannot select document ID of a hierarchy.

図18は、収集発話解析結果7、および発話推定モデル9用のキーワードリストの例である。「Id_10_1_1」の収集発話解析結果7−11は、図17の「Id_10_1_1」の収集発話データ6−13の収集発話解析結果例、発話推定モデル用データ7−12は、「Id_10_1_1」の収集発話解析結果7−11をもとにした、発話推定モデル作成部8が使用するデータ例を示している。ここではドキュメントIDと、前置詞、冠詞、be動詞を除く自立語形態素とが抽出されている。   FIG. 18 is an example of the keyword list for the collected utterance analysis result 7 and the utterance estimation model 9. The collected utterance analysis result 7-11 of "Id_10_1_1" is the collected utterance analysis result example of the collected utterance data 6-13 of "Id_10_1_1" in FIG. The example of data which the speech estimation model preparation part 8 based on the result 7-11 uses is shown. Here, document IDs and independent word morphemes excluding prepositions, articles, and be verbs are extracted.

次に、ドキュメント検索装置の動作を説明する。
本実施の形態3に係るドキュメント検索装置の動作(作成処理、検索処理)は基本的に上記実施の形態1の図6〜図8と同じである。従って、ここでは異なる部分のみを説明する。まず、作成処理について説明する。
Next, the operation of the document search apparatus will be described.
The operation (creation process, search process) of the document search apparatus according to the third embodiment is basically the same as that in FIGS. 6 to 8 of the first embodiment. Therefore, only different parts will be described here. First, the creation process will be described.

まず、作成処理のうち、検索インデックス5の作成方法について説明する。ここでは、従来技術で開示されているtf・idfによる重み付けをするものとする。
図15に示したように、ドキュメント1は、ドキュメントIDとテキストとが対応付けられたペアになっているものとする。たとえば、ドキュメント1−12ではドキュメントID「Id_10_1_1」という名前に、「Heading up.Display the map which rotated to always face the direction you are travelling」というテキストが対応付けられている。図6のステップST1では、入力解析部2がこの構造のドキュメント1を順次読み込み、既知の技術である形態素解析によって形態素列に分割する。ドキュメント1−12を形態素解析した結果が、図16のドキュメント解析結果3−11である。このドキュメント解析結果3−11は、形態素の区切りしか示していないが、実際には、品詞情報、活用語の原形などが含まれているものとする。
First, a method for creating the search index 5 in the creation process will be described. Here, weighting by tf · idf disclosed in the prior art is assumed.
As shown in FIG. 15, it is assumed that the document 1 is a pair in which the document ID and the text are associated with each other. For example, in the document 1-12, the text “Heading up. Display the map when to face faces the direction you are traveling” is associated with the document ID “Id — 10 — 1 — 1”. In step ST1 of FIG. 6, the input analysis unit 2 sequentially reads the document 1 having this structure and divides it into morpheme strings by morphological analysis which is a known technique. The result of the morphological analysis of the document 1-12 is a document analysis result 3-11 in FIG. This document analysis result 3-11 shows only morpheme breaks, but in reality, it is assumed that part-of-speech information, the original form of the usage word, and the like are included.

ドキュメント解析結果3がすべてのドキュメントIDに対して生成されると、続くステップST2で、検索インデックス作成部4が、すべてのドキュメント解析結果3から検索インデックス5の作成に必要な形態素(キーワード)を抽出し、(ドキュメントID、キーワードリスト)のペアを作成し、すべてのペアを元にtf・idfによって重み付けした検索インデックス5を作成する。図16のドキュメント解析結果3−11から抽出した(ドキュメントID、キーワードリスト)のペアは、同じ図16の検索インデックス用データ3−12で表される。   When the document analysis result 3 is generated for all document IDs, the search index creation unit 4 extracts morphemes (keywords) necessary for creating the search index 5 from all the document analysis results 3 in the subsequent step ST2. Then, a pair of (document ID, keyword list) is created, and a search index 5 weighted by tf · idf based on all pairs is created. A pair of (document ID, keyword list) extracted from the document analysis result 3-11 in FIG. 16 is represented by the same search index data 3-12 in FIG.

具体的な検索インデックス作成手順は、上記実施の形態1と同様であるため、説明を省略する。   The specific search index creation procedure is the same as that in the first embodiment, and a description thereof will be omitted.

次に、発話推定モデル9の作成処理について説明する。
収集発話データ6は、図17の収集発話データ6−11〜6−14に表したように、あらかじめユーザから集めた発話をその回答となるドキュメントIDに割り当てたデータである。収集発話データ6の作成方法は上記実施の形態1と同様であるため、説明を省略する。
Next, a process for creating the utterance estimation model 9 will be described.
The collected utterance data 6 is data in which utterances collected from the user in advance are assigned to the document ID as the answer, as shown in the collected utterance data 6-11 to 6-14 in FIG. Since the method of creating the collected utterance data 6 is the same as that in the first embodiment, description thereof is omitted.

入力解析部2は、図7に示したステップST3において、先に説明したステップST1でドキュメント1を入力とした場合と同様に、収集発話データ6の形態素解析を行う。たとえば、図17の収集発話データ6−13を形態素解析した結果が、図18の収集発話解析結果7−11である。続くステップST4で発話推定モデル作成部8が、先に説明したステップST2と同様にドキュメントIDとキーワードのリストを発話推定モデル用データ7−12として抽出し、上記実施の形態1と同様にME法によって発話推定モデル9を学習する。すべての収集発話解析結果7からキーワードが抽出され、ME法によって学習して、発話推定モデル9が作成される。具体的には、図18の収集発話解析結果7−11に対して、同じ図18の発話推定モデル用データ7−12が抽出され、この発話推定モデル用データ7−12を元に上記学習が行われる。   In step ST3 shown in FIG. 7, the input analysis unit 2 performs morphological analysis on the collected utterance data 6 in the same manner as when the document 1 is input in step ST1 described above. For example, the result of morphological analysis of the collected utterance data 6-13 in FIG. 17 is the collected utterance analysis result 7-11 in FIG. In subsequent step ST4, the utterance estimation model creating unit 8 extracts a list of document IDs and keywords as utterance estimation model data 7-12 in the same manner as in step ST2 described above, and the ME method as in the first embodiment. To learn the utterance estimation model 9. Keywords are extracted from all the collected utterance analysis results 7 and learned by the ME method to create an utterance estimation model 9. Specifically, the same utterance estimation model data 7-12 of FIG. 18 is extracted from the collected utterance analysis result 7-11 of FIG. 18, and the above learning is performed based on the utterance estimation model data 7-12. Done.

次に、検索処理について説明する。
図19および図20は、ユーザ入力10の一例であるユーザ入力10−11の検索処理における遷移例を示す。ここではユーザ入力10はテキストでの入力を想定し、図19のユーザ入力10−11が入力されたとして説明する。入力解析部2は、図8に示したステップST11でまずユーザ入力10−11を受け取り、形態素解析してユーザ入力解析結果11−11を生成し、ユーザ入力解析結果11−11から前置詞、冠詞、be動詞、代名詞を除外して自立語を抽出し、キーワードリスト11−12を作成する。続くステップST12では、発話内容推定部14がこのキーワードリスト11−12を入力に用いて、発話推定モデル9から図20のドキュメント推定結果15−11を得る。図20に示すように、ドキュメント推定結果15−11は、スコア順に並んでいる。
Next, the search process will be described.
19 and 20 show a transition example in the search process of the user input 10-11 which is an example of the user input 10. FIG. Here, it is assumed that the user input 10 is a text input and the user input 10-11 in FIG. 19 is input. The input analysis unit 2 first receives the user input 10-11 in step ST11 shown in FIG. 8 and generates a user input analysis result 11-11 by performing morphological analysis. From the user input analysis result 11-11, a preposition, an article, Excludes be verbs and pronouns, extracts independent words, and creates a keyword list 11-12. In the subsequent step ST12, the utterance content estimation unit 14 uses the keyword list 11-12 as an input to obtain the document estimation result 15-11 of FIG. As shown in FIG. 20, the document estimation results 15-11 are arranged in the order of scores.

ドキュメント推定結果15−11が得られると、続くステップST13にて今度はドキュメント検索部12がキーワードリスト11−12を入力に用いて、検索インデックス5から図20のドキュメント検索結果13−11を得る。図20に示すように、ドキュメント検索結果13−11もスコア順に並んでいる。   When the document estimation result 15-11 is obtained, the document search unit 12 obtains the document search result 13-11 of FIG. 20 from the search index 5 by using the keyword list 11-12 as an input in the next step ST13. As shown in FIG. 20, the document search results 13-11 are also arranged in the order of score.

続くステップST14では、結果統合部16がドキュメント推定結果15−11の最大スコアがここで定めた閾値X(たとえば、X=0.9)以上かどうかを判断する。ドキュメント推定結果15−11では最大スコアが閾値Xより小さいので(ステップST14“NO”)、結果統合部16はステップST16の処理に進む。ステップST16では、ドキュメントIDごとに、ドキュメント検索結果13−11のスコアとドキュメント推定結果15−11のスコアの重み付き加算を行い、最終検索結果17−11を作成する。図20では、(ドキュメント推定結果15−11のスコア):(ドキュメント検索結果13−11のスコア)=1:1で加算した結果が最終検索結果17−11となっている。   In subsequent step ST14, the result integration unit 16 determines whether or not the maximum score of the document estimation result 15-11 is equal to or greater than a threshold value X (for example, X = 0.9) determined here. Since the maximum score is smaller than the threshold value X in the document estimation result 15-11 (step ST14 “NO”), the result integration unit 16 proceeds to the process of step ST16. In step ST16, for each document ID, the weighted addition of the score of the document search result 13-11 and the score of the document estimation result 15-11 is performed to create the final search result 17-11. In FIG. 20, the result obtained by adding (score of document estimation result 15-11) :( score of document search result 13-11) = 1: 1 is the final search result 17-11.

一方、ステップST14でドキュメント推定結果15−11の最大スコアが閾値Xを超えた場合には(ステップST14“YES”)、続くステップST15にて結果統合部16はドキュメント検索結果13−11を破棄して、ドキュメント推定結果15−11を最終検索結果(不図示)とする。
検索が終了すると、ドキュメント検索装置は画面にドキュメントIDのタイトルなどを表示して、ユーザに選択させることで、所望のドキュメント位置を提示する。
On the other hand, when the maximum score of the document estimation result 15-11 exceeds the threshold value X in step ST14 (step ST14 “YES”), the result integration unit 16 discards the document search result 13-11 in the next step ST15. Thus, the document estimation result 15-11 is set as a final search result (not shown).
When the search is completed, the document search device displays the title of the document ID and the like on the screen and makes the user select, thereby presenting a desired document position.

以上より、実施の形態3によれば、ドキュメント検索装置は、日本語だけでなく英語のドキュメント1についても上記実施の形態1と同様の処理を実施可能であり、英語の入力の場合にも、上記実施の形態1と同様の効果を得ることができる。
なお、説明は省略するが、実施の形態3の構成を上記実施の形態2に適用してもよい。
As described above, according to the third embodiment, the document search apparatus can perform the same processing as that of the first embodiment not only on the Japanese language but also on the English document 1. The same effect as in the first embodiment can be obtained.
Although not described, the configuration of the third embodiment may be applied to the second embodiment.

実施の形態4.
以下では、中国語の入力例について説明する。
本実施の形態4のドキュメント検索装置は、図1に示すドキュメント検索装置と図面上では同様の構成であるため、以下では図1を援用して説明する。
Embodiment 4 FIG.
In the following, an example of Chinese input will be described.
The document search apparatus according to the fourth embodiment has the same configuration as that of the document search apparatus shown in FIG. 1, and therefore will be described below with reference to FIG.

図21は、本実施の形態4に係るドキュメント検索装置に入力されるドキュメント1の中国語例である。ドキュメント1は、章、節、項のような階層構造を持っており、階層ごとに検索結果位置を示すドキュメントIDを持っている。図21の例では、ドキュメントID「Id_10_1」のドキュメント1−21が、下位のデータ構造内に含まれるテキストも含んでいる。たとえば「Id_10_1_1」のドキュメント1−22は、「Id_10_1」のドキュメント1−21にも含まれることを表している。   FIG. 21 is a Chinese example of the document 1 input to the document search apparatus according to the fourth embodiment. The document 1 has a hierarchical structure such as a chapter, a section, and an item, and has a document ID indicating a search result position for each hierarchy. In the example of FIG. 21, the document 1-21 having the document ID “Id — 10_1” also includes text included in the lower data structure. For example, the document 1-22 of “Id_10_1_1” is included in the document 1-21 of “Id_10_1”.

図22は、ドキュメント解析結果3、および検索インデックス5用のキーワードリストの例である。「Id_10_1_1」はドキュメント解析結果の一例であり、図21の「Id_10_1_1」のドキュメント1−22に対して形態素解析による入力解析を行った結果を示している。このドキュメント解析結果3−21では、形態素解析結果の区切を「/」で区切った情報しか提示していないが、実際には品詞情報などの情報も生成される。
検索インデックス用データ3−22は、「Id_10_1_1」のドキュメント解析結果3−22をもとにした、検索インデックス作成部4が使用するデータ例を示している。ここではドキュメントIDと、代詞、助詞、介詞を除く自立語形態素とが抽出されている。
FIG. 22 is an example of the keyword list for the document analysis result 3 and the search index 5. “Id — 10 — 1 — 1” is an example of the document analysis result, and shows the result of performing input analysis by morphological analysis on the document 1-22 of “Id — 10 — 1 — 1” in FIG. In this document analysis result 3-21, only information obtained by dividing the morphological analysis result by “/” is presented, but actually information such as part of speech information is also generated.
The search index data 3-22 is an example of data used by the search index creation unit 4 based on the document analysis result 3-22 of “Id — 10_1 — 1”. Here, the document ID and independent word morphemes excluding pronouns, particles, and interpositions are extracted.

図23は、収集発話データ6の例である。収集発話データ6−21は「Id_10」のドキュメントに対応する質問の例、収集発話データ6−22は「Id_10_1」のドキュメントに対応する質問の例、収集発話データ6−23は「Id_10_1_1」のドキュメントに対応する質問の例である。収集発話データ6−24は、地図種類の具体的変更方法を知りたいことを意図した質問であるが、ここで想定している製品では実現不可能な地図種類であるため、「Id_10_1_1」と同階層のドキュメントIDが選択できない収集発話データ例である。   FIG. 23 is an example of the collected utterance data 6. The collected utterance data 6-21 is an example of a question corresponding to the document “Id_10”, the collected utterance data 6-22 is an example of a question corresponding to the document of “Id_10_1”, and the collected utterance data 6-23 is a document of “Id_10_1_1”. It is an example of a question corresponding to. The collected utterance data 6-24 is a question intended to know a specific method of changing the map type. However, since it is a map type that cannot be realized with the product assumed here, it is the same as “Id — 10_1 — 1”. It is an example of the collection utterance data which cannot select document ID of a hierarchy.

図24は、収集発話解析結果7、および発話推定モデル9用のキーワードリストの例である。「Id_10_1_1」の収集発話解析結果7−21は、図23の「Id_10_1_1」の収集発話データ6−23の収集発話解析結果例、発話推定モデル用データ7−22は、「Id_10_1_1」の収集発話解析結果7−21をもとにした、発話推定モデル作成部8が使用するデータ例を示している。ここではドキュメントIDと、代詞、助詞、介詞を除く自立語形態素とが抽出されている。   FIG. 24 is an example of a keyword list for the collected utterance analysis result 7 and the utterance estimation model 9. The collected utterance analysis result 7-21 of "Id_10_1_1" is the collected utterance analysis result example of the collected utterance data 6-23 of "Id_10_1_1" in FIG. 23, and the utterance estimation model data 7-22 is the collected utterance analysis of "Id_10_1_1". The example of data which the speech estimation model preparation part 8 based on the result 7-21 uses is shown. Here, the document ID and independent word morphemes excluding pronouns, particles, and interpositions are extracted.

次に、ドキュメント検索装置の動作を説明する。
本実施の形態4に係るドキュメント検索装置の動作(作成処理、検索処理)は基本的に上記実施の形態1の図6〜図8と同じである。従って、ここでは異なる部分のみを説明する。まず、作成処理について説明する。
Next, the operation of the document search apparatus will be described.
The operations (creation processing and search processing) of the document search apparatus according to the fourth embodiment are basically the same as those in FIGS. 6 to 8 in the first embodiment. Therefore, only different parts will be described here. First, the creation process will be described.

まず、作成処理のうち、検索インデックス5の作成方法について説明する。ここでは、従来技術で開示されているtf・idfによる重み付けをするものとする。
図21に示したように、ドキュメント1は、ドキュメントIDとテキストとが対応付けられたペアになっているものとする。
First, a method for creating the search index 5 in the creation process will be described. Here, weighting by tf · idf disclosed in the prior art is assumed.
As shown in FIG. 21, it is assumed that the document 1 is a pair in which the document ID and the text are associated with each other.

Figure 0005847290
Figure 0005847290

図6のステップST1では、入力解析部2がこの構造のドキュメント1を順次読み込み、既知の技術である形態素解析によって形態素列に分割する。ドキュメント1−22を形態素解析した結果が、図22のドキュメント解析結果3−21である。このドキュメント解析結果3−21は、形態素の区切りしか示していないが、実際には、品詞情報などが含まれているものとする。   In step ST1 of FIG. 6, the input analysis unit 2 sequentially reads the document 1 having this structure and divides it into morpheme strings by morphological analysis which is a known technique. The result of the morphological analysis of the document 1-22 is a document analysis result 3-21 in FIG. This document analysis result 3-21 shows only morpheme breaks, but it is assumed that part of speech information is actually included.

ドキュメント解析結果3がすべてのドキュメントIDに対して生成されると、続くステップST2で、検索インデックス作成部4が、すべてのドキュメント解析結果3から検索インデックス5の作成に必要な形態素(キーワード)を抽出し、(ドキュメントID、キーワードリスト)のペアを作成し、すべてのペアを元にtf・idfによって重み付けした検索インデックス5を作成する。図22のドキュメント解析結果3−21から抽出した(ドキュメントID、キーワードリスト)のペアは、同じ図22の検索インデックス用データ3−22で表される。   When the document analysis result 3 is generated for all document IDs, the search index creation unit 4 extracts morphemes (keywords) necessary for creating the search index 5 from all the document analysis results 3 in the subsequent step ST2. Then, a pair of (document ID, keyword list) is created, and a search index 5 weighted by tf · idf based on all pairs is created. A pair of (document ID, keyword list) extracted from the document analysis result 3-21 in FIG. 22 is represented by the same search index data 3-22 in FIG.

具体的な検索インデックス作成手順は、上記実施の形態1と同様であるため、説明を省略する。   The specific search index creation procedure is the same as that in the first embodiment, and a description thereof will be omitted.

次に、発話推定モデル9の作成処理について説明する。
収集発話データ6は、図23の収集発話データ6−21〜6−24に表したように、あらかじめユーザから集めた発話をその回答となるドキュメントIDに割り当てたデータである。収集発話データ6の作成方法は上記実施の形態1と同様であるため、説明を省略する。
Next, a process for creating the utterance estimation model 9 will be described.
The collected utterance data 6 is data in which the utterances collected from the user in advance are assigned to the document ID as the answer, as shown in the collected utterance data 6-21 to 6-24 in FIG. Since the method of creating the collected utterance data 6 is the same as that in the first embodiment, description thereof is omitted.

入力解析部2は、図7に示したステップST3において、先に説明したステップST1でドキュメント1を入力とした場合と同様に、収集発話データ6の形態素解析を行う。たとえば、図23の収集発話データ6−23を形態素解析した結果が、図24の収集発話解析結果7−21である。続くステップST4で発話推定モデル作成部8が、先に説明したステップST2と同様にドキュメントIDとキーワードのリストを発話推定モデル用データ7−22として抽出し、上記実施の形態1と同様にME法によって発話推定モデル9を学習する。すべての収集発話解析結果7からキーワードが抽出され、ME法によって学習して、発話推定モデル9が作成される。具体的には、図24の収集発話解析結果7−21に対して、同じ図24の発話推定モデル用データ7−22が抽出され、この発話推定モデル用データ7−22を元に上記学習が行われる。   In step ST3 shown in FIG. 7, the input analysis unit 2 performs morphological analysis on the collected utterance data 6 in the same manner as when the document 1 is input in step ST1 described above. For example, the result of morphological analysis of the collected utterance data 6-23 in FIG. 23 is the collected utterance analysis result 7-21 in FIG. In subsequent step ST4, the utterance estimation model creating unit 8 extracts a list of document IDs and keywords as utterance estimation model data 7-22 in the same manner as in step ST2 described above, and the ME method as in the first embodiment. To learn the utterance estimation model 9. Keywords are extracted from all the collected utterance analysis results 7 and learned by the ME method to create an utterance estimation model 9. Specifically, the same utterance estimation model data 7-22 of FIG. 24 is extracted from the collected utterance analysis result 7-21 of FIG. 24, and the above learning is performed based on the utterance estimation model data 7-22. Done.

次に、検索処理について説明する。
図25および図26は、ユーザ入力10の一例であるユーザ入力10−21の検索処理における遷移例を示す。ここではユーザ入力10はテキストでの入力を想定し、図25のユーザ入力10−21が入力されたとして説明する。入力解析部2は、図8に示したステップST11でまずユーザ入力10−21を受け取り、形態素解析してユーザ入力解析結果11−21を生成し、ユーザ入力解析結果11−21から代詞、助詞、介動詞を除外して自立語を抽出し、キーワードリスト11−22を作成する。続くステップST12では、発話内容推定部14がこのキーワードリスト11−22を入力に用いて、発話推定モデル9から図26のドキュメント推定結果15−21を得る。図26に示すように、ドキュメント推定結果15−21は、スコア順に並んでいる。
Next, the search process will be described.
FIG. 25 and FIG. 26 show a transition example in the search process of the user input 10-21 which is an example of the user input 10. Here, it is assumed that the user input 10 is a text input and the user input 10-21 in FIG. 25 is input. The input analysis unit 2 first receives the user input 10-21 in step ST11 shown in FIG. 8, generates a user input analysis result 11-21 by performing morphological analysis, and generates a pronoun, particle, Independent words are extracted by excluding interverbs, and a keyword list 11-22 is created. In the subsequent step ST12, the utterance content estimation unit 14 uses the keyword list 11-22 as an input to obtain the document estimation result 15-21 of FIG. As shown in FIG. 26, the document estimation results 15-21 are arranged in the order of scores.

ドキュメント推定結果15−21が得られると、続くステップST13にて今度はドキュメント検索部12がキーワードリスト11−22を入力に用いて、検索インデックス5から図26のドキュメント検索結果13−21を得る。図26に示すように、ドキュメント検索結果13−21もスコア順に並んでいる。   When the document estimation result 15-21 is obtained, in the subsequent step ST13, the document search unit 12 obtains the document search result 13-21 of FIG. 26 from the search index 5 by using the keyword list 11-22 as an input. As shown in FIG. 26, the document search results 13-21 are also arranged in the order of score.

続くステップST14では、結果統合部16がドキュメント推定結果15−21の最大スコアがここで定めた閾値X(たとえば、X=0.9)以上かどうかを判断する。ドキュメント推定結果15−21では最大スコアが閾値Xより小さいので(ステップST14“NO”)、結果統合部16はステップST16の処理に進む。ステップST16では、ドキュメントIDごとに、ドキュメント検索結果13−21のスコアとドキュメント推定結果15−21のスコアの重み付き加算を行い、最終検索結果17−21を作成する。図26では、(ドキュメント推定結果15−21のスコア):(ドキュメント検索結果13−21のスコア)=1:1で加算した結果が最終検索結果17−21となっている。   In subsequent step ST14, the result integration unit 16 determines whether or not the maximum score of the document estimation result 15-21 is equal to or greater than a threshold value X (for example, X = 0.9) determined here. Since the maximum score is smaller than the threshold value X in the document estimation result 15-21 (step ST14 “NO”), the result integration unit 16 proceeds to the process of step ST16. In step ST16, for each document ID, the weighted addition of the score of the document search result 13-21 and the score of the document estimation result 15-21 is performed to create the final search result 17-21. In FIG. 26, the final search result 17-21 is obtained by adding (score of document estimation result 15-21) :( score of document search result 13-21) = 1: 1.

一方、ステップST14でドキュメント推定結果15−21の最大スコアが閾値Xを超えた場合には(ステップST14“YES”)、続くステップST15にて結果統合部16はドキュメント検索結果13−21を破棄して、ドキュメント推定結果15−21を最終検索結果(不図示)とする。
検索が終了すると、ドキュメント検索装置は画面にドキュメントIDのタイトルなどを表示して、ユーザに選択させることで、所望のドキュメント位置を提示する。
On the other hand, when the maximum score of the document estimation result 15-21 exceeds the threshold value X in step ST14 (step ST14 “YES”), the result integration unit 16 discards the document search result 13-21 in step ST15. Thus, the document estimation result 15-21 is set as a final search result (not shown).
When the search is completed, the document search device displays the title of the document ID and the like on the screen and makes the user select, thereby presenting a desired document position.

以上より、実施の形態4によれば、ドキュメント検索装置は、日本語だけでなく中国語のドキュメント1についても上記実施の形態1と同様の処理を実施可能であり、中国語の入力の場合にも、上記実施の形態1と同様の効果を得ることができる。
なお、説明は省略するが、実施の形態4の構成を上記実施の形態2に適用してもよい。
As described above, according to the fourth embodiment, the document search apparatus can perform the same processing as that of the first embodiment on not only Japanese but also the Chinese document 1. Also, the same effect as in the first embodiment can be obtained.
Although not described, the configuration of the fourth embodiment may be applied to the second embodiment.

上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。   In addition to the above, within the scope of the invention, the invention of the present application can be freely combined with each embodiment, modified any component of each embodiment, or omitted any component in each embodiment. Is possible.

以上のように、この発明に係るドキュメント検索装置は、ユーザがどのような聞き方をするかを想定した質問とその回答になるドキュメント項目との対応関係を学習した発話推定モデルを用いて、ユーザの自然言語による入力に対するドキュメント内検索結果を提示するようにしたので、たとえば、家電製品および車載機器などの電子化された取扱説明書を検索および表示する情報機器などに用いるのに適している。   As described above, the document search apparatus according to the present invention uses the utterance estimation model in which the correspondence between the question assuming the user's way of listening and the document item as the answer is learned, Since the search result in the document with respect to the input in natural language is presented, it is suitable for use in, for example, an information device that searches and displays electronic instruction manuals such as home appliances and in-vehicle devices.

1 ドキュメント、2 入力解析部、3 ドキュメント解析結果、4 検索インデックス作成部、5 検索インデックス、6 収集発話データ、7 収集発話解析結果、8 発話推定モデル作成部、9 発話推定モデル、10 ユーザ入力、11 ユーザ入力解析結果、12 ドキュメント検索部、13 ドキュメント検索結果、14 発話内容推定部、15 ドキュメント推定結果、16 結果統合部、17 最終検索結果、18 検索対象限定部、19 ドキュメント限定リスト。   1 document, 2 input analysis unit, 3 document analysis result, 4 search index creation unit, 5 search index, 6 collected utterance data, 7 collected utterance analysis result, 8 utterance estimation model creation unit, 9 utterance estimation model, 10 user input, 11 user input analysis result, 12 document search unit, 13 document search result, 14 utterance content estimation unit, 15 document estimation result, 16 result integration unit, 17 final search result, 18 search target limiting unit, 19 document limited list.

Claims (6)

あらかじめ用意されたドキュメントから作成した検索インデックスと、
ユーザからの入力を受け、前記検索インデックスを用いて前記ドキュメント内から当該ユーザ入力に関連のある項目を検索するドキュメント検索部とを備えるドキュメント検索装置であって、
前記ドキュメントの内容を問う想定質問と当該想定質問の回答となる前記ドキュメント内の項目との対応関係を学習した発話推定モデルと、
前記発話推定モデルを基に前記ドキュメント内から前記ユーザ入力の回答に相当する項目を推定する発話内容推定部と、
前記ドキュメント検索部から得られたドキュメント検索結果および前記発話内容推定部から得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合部とを備えることを特徴とするドキュメント検索装置。
A search index created from documents prepared in advance,
A document search device comprising a document search unit that receives an input from a user and searches for an item related to the user input from within the document using the search index,
An utterance estimation model that learns the correspondence between an assumed question asking the content of the document and an item in the document that is an answer to the assumed question;
An utterance content estimation unit that estimates an item corresponding to the answer of the user input from within the document based on the utterance estimation model;
A document search apparatus comprising: a result integration unit that integrates a document search result obtained from the document search unit and a document estimation result obtained from the utterance content estimation unit to generate a final search result.
前記発話内容推定部は、推定した前記ドキュメント内の項目に、前記ユーザ入力との関連度合いに応じたスコアを付与し、
前記結果統合部は、前記発話内容推定部から得られたドキュメント推定結果のスコアがあらかじめ定めた値より大きい場合は、前記ドキュメント検索部から得られたドキュメント検索結果を無視して最終検索結果を生成することを特徴とする請求項1記載のドキュメント検索装置。
The utterance content estimation unit gives a score according to the degree of association with the user input to the estimated item in the document,
The result integration unit generates a final search result by ignoring the document search result obtained from the document search unit when the score of the document estimation result obtained from the utterance content estimation unit is larger than a predetermined value. The document search apparatus according to claim 1, wherein:
前記ドキュメント検索部は、検索した前記ドキュメント内の項目に、前記ユーザ入力との関連度合いに応じたスコアを付与し、
前記発話内容推定部は、推定した前記ドキュメント内の項目に、前記ユーザ入力との関連度合いに応じたスコアを付与し、
前記結果統合部は、前記ドキュメント検索部から得られたドキュメント検索結果のスコアと前記発話内容推定部から得られたドキュメント推定結果のスコアを一定の割合で加算して統合することを特徴とする請求項1記載のドキュメント検索装置。
The document search unit gives a score corresponding to the degree of association with the user input to the items in the searched document,
The utterance content estimation unit gives a score according to the degree of association with the user input to the estimated item in the document,
The result integration unit adds and integrates a score of a document search result obtained from the document search unit and a score of a document estimation result obtained from the utterance content estimation unit at a certain ratio. Item 2. The document search device according to Item 1.
前記発話内容推定部から得られたドキュメント推定結果のうち、所定の条件を満たす項目を抽出する検索対象限定部を備え、
前記発話内容推定部は、前記検索インデックスの検索の最小単位より大きな単位の項目と前記想定質問との対応関係を学習した発話推定モデルを基に推定し、
前記結果統合部は、前記発話内容推定部から得られたドキュメント推定結果のうちの前記検索対象限定部で抽出した項目を、前記ドキュメント検索部から得られたドキュメント検索結果と統合することを特徴とする請求項1記載のドキュメント検索装置。
Among the document estimation results obtained from the utterance content estimation unit, a search target limiting unit for extracting items satisfying a predetermined condition,
The utterance content estimation unit estimates based on an utterance estimation model in which a correspondence relationship between an item of a unit larger than the minimum unit of search of the search index and the assumed question is learned,
The result integration unit integrates the items extracted by the search target limiting unit from the document estimation results obtained from the utterance content estimation unit with the document search results obtained from the document search unit. The document search apparatus according to claim 1.
あらかじめ用意されたドキュメント、および当該ドキュメントの内容を問う想定質問と当該質問の回答となる当該ドキュメント内の項目との対応関係を定義した収集発話データを解析する入力解析部と、
前記入力解析部から出力された前記ドキュメントの解析結果から前記検索インデックスを作成する検索インデックス作成部と、
前記入力解析部から出力された前記収集発話データの解析結果を用いて、前記想定質問と前記ドキュメント内の項目との対応関係を学習し、前記発話推定モデルを作成する発話推定モデル作成部とを備えることを特徴とする請求項1記載のドキュメント検索装置。
An input analysis unit that analyzes collected utterance data that defines a correspondence relationship between a prepared document and an assumed question asking the content of the document and an item in the document that is an answer to the question;
A search index creation unit for creating the search index from the analysis result of the document output from the input analysis unit;
Using the analysis result of the collected utterance data output from the input analysis unit, learning a correspondence relationship between the assumed question and the item in the document, and an utterance estimation model creation unit that creates the utterance estimation model; The document search apparatus according to claim 1, further comprising:
ドキュメント検索装置によるドキュメント検索方法であって、
入力解析部が、ユーザからの入力を受け付けるユーザ入力ステップと、
ドキュメント検索部が、あらかじめ用意されたドキュメントから作成した検索インデックスを用いて、当該ドキュメント内から前記ユーザ入力に関連のある項目を検索するドキュメント検索ステップと、
発話内容推定部が、前記ドキュメントの内容を問う想定質問と当該想定質問の回答となる前記ドキュメント内の項目との対応関係を学習した発話推定モデルを基に、前記ドキュメント内から前記ユーザ入力の回答に相当する項目を推定する発話内容推定ステップと、
結果統合部が、前記ドキュメント検索ステップから得られたドキュメント検索結果および前記発話内容推定ステップから得られたドキュメント推定結果を統合して、最終検索結果を生成する結果統合ステップとを備えるドキュメント検索方法。
A document search method using a document search device,
A user input step in which the input analysis unit receives input from the user;
Document retrieval unit, using the search index created from previously prepared document, and document retrieval step of retrieving the items that are relevant to the user input from the document,
Based on the utterance estimation model in which the utterance content estimation unit has learned the correspondence between the assumed question asking the content of the document and the item in the document that is the answer to the assumed question, the answer of the user input from within the document An utterance content estimation step for estimating an item corresponding to
A document search method comprising: a result integration step in which a result integration unit generates a final search result by integrating a document search result obtained from the document search step and a document estimation result obtained from the utterance content estimation step.
JP2014504643A 2012-03-13 2012-12-27 Document search apparatus and document search method Active JP5847290B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014504643A JP5847290B2 (en) 2012-03-13 2012-12-27 Document search apparatus and document search method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012055841 2012-03-13
JP2012055841 2012-03-13
PCT/JP2012/083925 WO2013136634A1 (en) 2012-03-13 2012-12-27 Document search device and document search method
JP2014504643A JP5847290B2 (en) 2012-03-13 2012-12-27 Document search apparatus and document search method

Publications (2)

Publication Number Publication Date
JPWO2013136634A1 JPWO2013136634A1 (en) 2015-08-03
JP5847290B2 true JP5847290B2 (en) 2016-01-20

Family

ID=49160587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014504643A Active JP5847290B2 (en) 2012-03-13 2012-12-27 Document search apparatus and document search method

Country Status (5)

Country Link
US (1) US20150112683A1 (en)
JP (1) JP5847290B2 (en)
CN (1) CN104221012A (en)
DE (1) DE112012006633T5 (en)
WO (1) WO2013136634A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102585545B1 (en) * 2020-12-31 2023-10-05 채상훈 Method for providing speech recognition based product guidance service using user manual

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
US10606815B2 (en) 2016-03-29 2020-03-31 International Business Machines Corporation Creation of indexes for information retrieval
JP6805927B2 (en) * 2017-03-28 2020-12-23 富士通株式会社 Index generator, data search program, index generator, data search device, index generation method, and data search method
JP7192507B2 (en) * 2019-01-09 2022-12-20 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
CN111339261A (en) * 2020-03-17 2020-06-26 北京香侬慧语科技有限责任公司 Document extraction method and system based on pre-training model
US11386164B2 (en) 2020-05-13 2022-07-12 City University Of Hong Kong Searching electronic documents based on example-based search query
CN111783403B (en) * 2020-06-11 2022-10-04 云账户技术(天津)有限公司 Document providing method, device and medium

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756933A (en) * 1993-06-24 1995-03-03 Xerox Corp Method for retrieval of document
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
JP3495912B2 (en) * 1998-05-25 2004-02-09 シャープ株式会社 Search device with learning function
JP2002073661A (en) * 2000-08-31 2002-03-12 Toshiba Corp Intellectual information managing system and method for registering intellectual information
JP2004302660A (en) * 2003-03-28 2004-10-28 Toshiba Corp Question answer system, its method and program
WO2007117334A2 (en) * 2006-01-03 2007-10-18 Kyos Systems Inc. Document analysis system for integration of paper records into a searchable electronic database
JP2007219955A (en) * 2006-02-17 2007-08-30 Fuji Xerox Co Ltd Question and answer system, question answering processing method and question answering program
CN101086843A (en) * 2006-06-07 2007-12-12 中国科学院自动化研究所 A sentence similarity recognition method for voice answer system
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
JP5229782B2 (en) * 2007-11-07 2013-07-03 独立行政法人情報通信研究機構 Question answering apparatus, question answering method, and program
CN101593518A (en) * 2008-05-28 2009-12-02 中国科学院自动化研究所 The balance method of actual scene language material and finite state network language material
JP2010282403A (en) * 2009-06-04 2010-12-16 Kansai Electric Power Co Inc:The Document retrieval method
EP2616927A4 (en) * 2010-09-24 2017-02-22 International Business Machines Corporation Using ontological information in open domain type coercion

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102585545B1 (en) * 2020-12-31 2023-10-05 채상훈 Method for providing speech recognition based product guidance service using user manual

Also Published As

Publication number Publication date
WO2013136634A1 (en) 2013-09-19
US20150112683A1 (en) 2015-04-23
CN104221012A (en) 2014-12-17
JPWO2013136634A1 (en) 2015-08-03
DE112012006633T5 (en) 2015-03-19

Similar Documents

Publication Publication Date Title
JP5847290B2 (en) Document search apparatus and document search method
JP4966546B2 (en) Automatically applying conceptual emphasis to electronic text
JP2018077858A (en) System and method for conversation-based information search
CN103562919B (en) Method for searching for information using the web and method for voice conversation using same
US20060235870A1 (en) System and method for generating an interlinked taxonomy structure
JPH0424869A (en) Document processing system
US11573989B2 (en) Corpus specific generative query completion assistant
JP4967133B2 (en) Information acquisition apparatus, program and method thereof
JPH11102377A (en) Method and device for retrieving document from data base
CN116450883A (en) Video moment retrieval method based on video content fine granularity information
CN109033066A (en) A kind of abstract forming method and device
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
KR100341396B1 (en) 3-D clustering representation system and method using hierarchical terms
JPH10207910A (en) Related word dictionary preparing device
JP4153843B2 (en) Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium
JP2002169803A (en) Device and method for browsing multiple documents
CN114625845A (en) Information retrieval method, intelligent terminal and computer readable storage medium
JP5072651B2 (en) Important phrase extractor
JP4452527B2 (en) Document search device, document search method, and document search program
JP2970443B2 (en) Document search device
JP2005158044A (en) Apparatus, method and program for information retrieval, and computer-readable recording medium stored with this program
KR102429649B1 (en) Keyword based phrase recommendation system and method of recommending the phrase
Reddy et al. Cross lingual information retrieval using search engine and data mining
JP2000259627A (en) Device and method for deciding relation between natural language sentences, retrieving device and method utilizing the deciding device and method and recording medium
Scutelnicu Romanian Lexical Resources Interconnection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151124

R150 Certificate of patent or registration of utility model

Ref document number: 5847290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250