JP2007004831A - Document retrieval system using word meaning-related network - Google Patents

Document retrieval system using word meaning-related network Download PDF

Info

Publication number
JP2007004831A
JP2007004831A JP2006268277A JP2006268277A JP2007004831A JP 2007004831 A JP2007004831 A JP 2007004831A JP 2006268277 A JP2006268277 A JP 2006268277A JP 2006268277 A JP2006268277 A JP 2006268277A JP 2007004831 A JP2007004831 A JP 2007004831A
Authority
JP
Japan
Prior art keywords
search
meaning
document
tank
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006268277A
Other languages
Japanese (ja)
Inventor
Osamu Konichi
修 今一
Hiroyuki Kaji
博行 梶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006268277A priority Critical patent/JP2007004831A/en
Publication of JP2007004831A publication Critical patent/JP2007004831A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To dissolve polysemy of a retrieval word entered by a user, and to retrieve a related document by using a general search engine. <P>SOLUTION: This document retrieval system has: a word meaning-related network exhibition part 301 exhibiting a word meaning of a retrieval key entered by the user and word meanings related to the word meaning like a network; a retrieval part 302 producing a retrieval key from the word meaning selected by the user and executing the retrieval; and a filtering part 304 selecting only the documents suitable for the word meanings from a result obtained by executing the retrieval. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、利用者の検索意図を表わす語義を用いて関連文書を検索する文書検索システムに関する。   The present invention relates to a document retrieval system that retrieves a related document using a meaning representing a user's retrieval intention.

コンピュータやインターネットの普及に伴い、文書情報の電子化が急速に進んでいる。入手可能な文書情報が増加するにつれ、その中から必要な情報を探し出すことが重要な課題となってくる。情報検索技術(文書検索技術ともいう)はこのような課題を解決するための技術であり、その技術を応用した検索エンジンを利用して必要とする文書情報を検索することが一般的に行われている。さらに、近年では、利用者が入力した検索キーとは異なる言語で記述された文書を検索するクロスリンガル文書検索技術(クロスランゲージ文書検索技術ともいう)に対する要求も高まっている。   With the spread of computers and the Internet, computerization of document information is rapidly progressing. As available document information increases, it becomes an important issue to search for necessary information. Information retrieval technology (also referred to as document retrieval technology) is a technology for solving such problems, and it is a common practice to retrieve necessary document information using a search engine that applies that technology. ing. Further, in recent years, there is an increasing demand for a cross-lingual document search technique (also referred to as a cross-language document search technique) for searching a document described in a language different from a search key input by a user.

利用者が入力した検索キーと同一の言語で記述された文書を検索するモノリンガル文書検索では、利用者が入力した検索キーを用いて、検索対象の文書を検索する。一方、クロスリンガル文書検索では、利用者が入力した検索キーと検索対象の文書が異なる言語で記述されているため、検索キーを検索対象の文書の言語に翻訳する必要がある。例えば、英語で記述された検索キーに対して、日本語で記述された文書を検索する英日のクロスリンガル文書検索の場合、利用者が英語で入力した検索キー(例えば「camera」)を日本語の検索キー(例えば「カメラ」)に翻訳してから日本語の文書を検索する。   In a monolingual document search in which a document described in the same language as the search key input by the user is searched, the search target document is searched using the search key input by the user. On the other hand, in the cross-lingual document search, since the search key input by the user and the search target document are described in different languages, it is necessary to translate the search key into the language of the search target document. For example, in the case of English-Japanese cross-lingual document search that searches a document written in Japanese with respect to a search key written in English, the search key (for example, “camera”) entered by the user in English is used in Japan. A Japanese document is searched after translation into a word search key (for example, “camera”).

特開2001−331484号公報JP 2001-331484 A

しかし、一般に語には複数の意味(語義)があるため、検索キーを検索対象の言語に一意に翻訳できるとは限らない。例えば、英語の「bank」を日本語に翻訳する場合を考えてみると、「bank」には、お金を預けたり引き出したりする機関としての語義(日本語の「銀行」に相当)と、水辺の場所としての語義(日本語の「岸」に相当)があるため、どちらの語義で翻訳すればよいかがわからず、利用者が意図しない語義に翻訳されてしまう可能性がある。その結果、利用者が意図しない文書が検索結果に含まれてしまうことになる。   However, since a word generally has a plurality of meanings (meanings), it is not always possible to uniquely translate a search key into a search target language. For example, consider the case of translating English “bank” into Japanese. “Bank” has a meaning as an institution that deposits and withdraws money (corresponding to “bank” in Japanese) and waterside. Since there is a meaning (corresponding to “Kishi” in Japanese) as the place of the place, it is not clear which one should be translated, and it may be translated into a meaning that the user does not intend. As a result, documents unintended by the user are included in the search results.

同様の問題はモノリンガル文書検索においても発生する。利用者が入力した検索キーが複数の語義を含む場合、利用者が意図しない語義に関連する文書が検索結果として得られてしまう。例えば、英語の「tank」を検索キーとして入力した場合を考えてみると、「tank」には日本語の「タンク」や「水槽」に相当する語義と「戦車」に相当する語義があるため、「tank」を検索キーとしてモノリンガル文書検索を実行した場合、利用者は日本語の「戦車」に相当する語義を検索意図としてもっていた場合でも、日本語の「タンク」や「水槽」の語義に関連する文書が検索結果に含まれてしまう。   A similar problem occurs in monolingual document retrieval. When the search key input by the user includes a plurality of meanings, a document related to the meaning not intended by the user is obtained as a search result. For example, if you enter English “tank” as a search key, “tank” has a meaning equivalent to Japanese “tank” or “aquarium” and a meaning equivalent to “tank”. , When performing a monolingual document search using “tank” as a search key, even if the user intends to search for the meaning of the Japanese “tank”, Documents related to meaning are included in the search results.

このように、検索キーが複数の語義をもつ場合、利用者が複数の語義のうちのどの語義を検索意図としてもっているかを同定しなければ、利用者の検索意図を反映した文書検索を行うことはできない。   In this way, when the search key has a plurality of meanings, if the user does not identify the meaning of the plurality of meanings as the search intention, a document search reflecting the user's search intention is performed. I can't.

本発明は、上記現状を鑑み、検索キーがもつ多義性を解消し、利用者の検索意図を反映した検索結果を得ることができる文書検索システムを提供することを目的とする。   An object of the present invention is to provide a document search system that can solve the ambiguity of a search key and obtain a search result reflecting a user's search intention.

上記目的を達成するため、本発明では、利用者が入力した検索キーがもつ語義とその語義に関連する語義をネットワーク状に配置した語義関連ネットワークを提示し、その中から検索意図を反映する語義を利用者に選択させることで、利用者の検索意図を明確化する。   In order to achieve the above object, the present invention presents a meaning-related network in which the meaning of a search key input by a user and the meaning related to the meaning are arranged in a network, and the meaning that reflects the search intention from the network. The user's search intention is clarified by letting the user select.

ここで、語義関連ネットワークで表示される語義は、異なる言語(例えば、英語と日本語)における語(ターム)の集合として定義されるものである。一例をあげると、英語の「bank」の語義には、お金を預けたり引き出したりする機関としての「bank」と、水辺の場所としての「bank」がある。この場合、「bank」の語義として「bank・銀行」と「bank・岸」が定義される。このように定義された語義をノードとし、語義間の関連度をリンクとするネットワーク構造が語義関連ネットワークである。語義関連ネットワークの作成方法は任意でよいが、例えば、特開2001−331484号公報「パラレルシソーラスの生成プログラムを記録した記録媒体、パラレルシソーラスを記録した記録媒体及びパラレルシソーラスナビゲーションプログラムを記録した記録媒体」に記載の方法を用いることができる。この方法でいうパラレルシソーラスが、本発明における語義関連ネットワークに相当する。   Here, the meaning displayed in the meaning-related network is defined as a set of words (terms) in different languages (for example, English and Japanese). For example, the meaning of English “bank” is “bank” as an institution for depositing and withdrawing money and “bank” as a waterside place. In this case, “bank” and “bank” are defined as the meaning of “bank”. A network structure in which the meaning defined in this way is a node and the degree of association between meanings is a link is a meaning-related network. The method for creating the semantic network may be arbitrary. For example, Japanese Patent Application Laid-Open No. 2001-331484 "Recording medium recording a parallel thesaurus generation program, recording medium recording a parallel thesaurus, and recording medium recording a parallel thesaurus navigation program" Can be used. The parallel thesaurus referred to in this method corresponds to the meaning-related network in the present invention.

語義関連ネットワークの中から語義を選択させることで、利用者の検索意図が明確化される。しかし、本発明で用いるのはキーワード検索機能を有する一般の検索エンジン(Google(http://www.google.com)やgoo(http://www.goo.ne.jp)などが代表的である)であり、それらが受け付けるのは語義ではなく語(ターム)である。つまり、利用者が指定した語義をキーとして検索することができない。そのため、語義を同定する前のタームをキーに検索を実行するしかなく、利用者が指定した語義に関連していない文書が検索結果に含まれてしまうことになる。そこで、本発明では、検索結果の文書中に含まれるタームについてその語義を判定し、利用者が指定した語義で、そのタームが使われている文書のみを選別するフィルタリング処理を行うことで、利用者の検索意図を反映した検索結果を提示する。   The user's search intention is clarified by selecting the meaning from the meaning-related network. However, typical search engines (Google (http://www.google.com), goo (http://www.goo.ne.jp), etc.) that have a keyword search function are used in the present invention. And they accept words (terms), not meanings. That is, it is impossible to search using the meaning specified by the user as a key. Therefore, the search must be executed using the term before identifying the meaning as a key, and a document not related to the meaning specified by the user is included in the search result. Therefore, in the present invention, the meaning of terms included in the search result document is determined, and filtering is performed by selecting only documents in which the terms are used in the meaning specified by the user. Search results that reflect the search intentions of the user.

すなわち、入力された検索キーに関連する文書を検索する本発明による文書検索システムは、検索キーがもつ語義と該語義に関連する語義をネットワーク状に提示する語義関連ネットワーク提示部と、検索キーを用いて検索を実行する検索部と、検索を実行して得られた文書集合から、選択された語義に適合する文書を選別するフィルタリング部とを備えることを特徴とする。語義関連ネットワーク提示部は、利用者に語義の選択を促すような形式で語義をネットワーク状に提示する。   That is, a document search system according to the present invention for searching for a document related to an input search key includes a meaning-related network presentation unit that presents the meaning of the search key and the meaning related to the meaning in a network form, and the search key. And a search unit that executes a search using a search unit, and a filtering unit that selects a document that matches the selected meaning from a set of documents obtained by executing the search. The meaning-related network presentation unit presents the meaning in a network form in a format that prompts the user to select a meaning.

検索部は、入力された検索キーで検索を実行してもよいし、選択された語義から検索キーを生成し、生成した検索キーを用いて検索を実行するようにしてもよい。また、検索部は入力された検索キーとは異なる言語で記述された文書を検索するクロスリンガル文書検索を行うものであってもよいし、入力された検索キーと同じ言語で記述された文書を検索するモノリンガル文書検索を行うものであってもよい。   The search unit may execute a search using the input search key, or may generate a search key from the selected meaning and execute the search using the generated search key. In addition, the search unit may perform a cross-lingual document search for searching for a document described in a language different from the input search key, or a document described in the same language as the input search key. A monolingual document search for searching may be performed.

本発明によると、語義関連ネットワーク上に表示された語義を選択して検索を実行することにより、利用者の検索意図を反映した検索結果を得ることができる。   According to the present invention, a search result reflecting a user's search intention can be obtained by selecting a meaning displayed on the meaning-related network and executing a search.

本発明の代表的な態様には、(1)利用者が入力した検索キーと同じ言語で記述された文書を検索するモノリンガル文書検索、(2)利用者が入力した検索キーと異なる言語で記述された文書を検索するクロスリンガル文書検索、がある。検索キーの言語と検索対象の文書の言語は任意の言語の組み合わせでよい。以下では、上記(1)の実施例として、英語の検索キーに対して、英語の文書を検索する場合と、上記(2)の実施例として、日本語の検索キーに対して、英語の文書を検索する場合を説明する。
以下、図面を参照しながら上記(1)の実施例について説明する。
A typical aspect of the present invention includes (1) a monolingual document search for searching a document described in the same language as the search key input by the user, and (2) a language different from the search key input by the user. There is a cross-lingual document search, which searches the described document. The language of the search key and the language of the document to be searched may be a combination of arbitrary languages. Hereinafter, as an example of the above (1), an English document is searched for an English search key, and as an example of the above (2), an English document is searched for a Japanese search key. The case of searching for will be described.
Hereinafter, the embodiment (1) will be described with reference to the drawings.

図1は、本発明を実現するためのシステムの構成例を示す概略図である。このシステムは、クライアント20、サーバ30、語義関連データベース40、検索エンジン501,502から構成され、クライアント20、サーバ30、検索エンジン501,502は通信ネットワーク10で接続されている。図に示した例では、2つの検索エンジンが通信ネットワークに接続されているが、用いる検索エンジンの数は任意でよい。クライアントの数も任意である。   FIG. 1 is a schematic diagram showing a configuration example of a system for realizing the present invention. This system includes a client 20, a server 30, a meaning-related database 40, and search engines 501 and 502, and the client 20, server 30, and search engines 501 and 502 are connected via a communication network 10. In the example shown in the figure, two search engines are connected to the communication network, but the number of search engines used may be arbitrary. The number of clients is also arbitrary.

クライアント20は、検索要求入力部201、検索エンジン選択部202、語義関連ネットワーク表示部203、検索結果表示部204を備える。各部の機能については後述する。   The client 20 includes a search request input unit 201, a search engine selection unit 202, a meaning-related network display unit 203, and a search result display unit 204. The function of each part will be described later.

サーバ30は、語義関連ネットワーク生成部301、検索部302、語義判定部303、フィルタリング部304を備える。各部の機能については後述する。   The server 30 includes a meaning-related network generation unit 301, a search unit 302, a meaning determination unit 303, and a filtering unit 304. The function of each part will be described later.

語義関連データベース40は、語義に関する情報を格納するデータベースであり、(a)ある語(ターム)がもつ語義に関する情報を保持するテーブル、(b)語義と語義の関連度に関する情報を保持するテーブル、(c)あるターム1が他のターム2と共起した場合、ターム1がどの語義をもちやすいかに関する情報を保持するテーブルを備える。   The meaning-related database 40 is a database that stores information about meaning, (a) a table that holds information about the meaning of a certain word (term), (b) a table that holds information about the degree of association between meaning and meaning, (C) When a certain term 1 co-occurs with another term 2, a table is provided for holding information about which term 1 is likely to have a meaning.

図2は語義関連データベース40が備えるテーブルの例を示す図である。図2の(a)、(b)、(c)は、それぞれ上記(a)、(b)、(c)に対応している。図2の(a)は、ターム「tank」が「tank・タンク/水槽」と「タンク・戦車」の2つの語義をもつことを表わしている。図2の(b)は、語義「tank・タンク/水槽」と語義「ammonia・アンモニア」の関連度が4.834であること、語義「tank・戦車」と語義「artillery・砲」の関連度が4.044であること、などを表わしている。図2の(c)は、ターム「tank」がターム「ammonia」と共起した場合は、「tank・戦車」という語義よりも、「tank・タンク/水槽」という語義をもちやすいこと(それぞれの語義をもつ関連度0.169と4.834を比較することでわかる)、ターム「artillery」と共起した場合は、「tank・タンク/水槽」という語義よりも、「tank・戦車」という語義をもちやすいこと(それぞれの語義をもつ関連度0.063と4.044を比較することでわかる)を表わしている。このテーブルは、語義判定部303において、注目するタームが文書中でとる語義を判定する際に用いる。語義判定部303の機能については後述する。   FIG. 2 is a diagram illustrating an example of a table provided in the meaning-related database 40. (A), (b), and (c) in FIG. 2 correspond to the above (a), (b), and (c), respectively. FIG. 2A shows that the term “tank” has two meanings “tank / tank / tank” and “tank / tank”. Fig. 2 (b) shows that the relationship between the meaning "tank tank / aquarium" and the meaning "ammonia ammonia" is 4.834, and the meaning between the meaning "tank tank" and the meaning "artillery gun" is 4.044. It means that it is. Figure 2 (c) shows that when the term “tank” co-occurs with the term “ammonia”, the term “tank / tank” is more likely to be used than the term “tank / tank”. (It can be found by comparing 0.169 and 4.834 with the meaning of meaning), and when it co-occurs with the term “artillery”, it is easier to have the meaning of “tank / tank” than the meaning of “tank / tank” (It can be found by comparing 0.063 and 4.044 for each word meaning). This table is used when the meaning determination unit 303 determines the meaning that the term of interest takes in the document. The function of the meaning determination unit 303 will be described later.

検索エンジン501,502は、キーワード検索機能を備えた検索エンジンであり、Google(http://www.google.com)やgoo(http://www.goo.ne.jp)などの一般の検索エンジンを利用することができる。   The search engines 501 and 502 are search engines having a keyword search function, and general search such as Google (http://www.google.com) and goo (http://www.goo.ne.jp). The engine can be used.

以下、上記各部の機能について、各部間のデータの流れ及び処理の流れを示すシーケンス図である図3、クライアントの画面の例を示す図である図4、図5、図6、語義関連データベースに含まれるテーブルの例を示す図である図2を用いて詳しく説明する。   Hereinafter, with respect to the function of each unit, FIG. 3 is a sequence diagram showing the flow of data and processing between the units, FIG. 4, FIG. 5, FIG. This will be described in detail with reference to FIG. 2 showing an example of the included table.

図4は、クライアント20における初期画面の例を示す図である。検索要求入力部201は、検索要求入力エリア2011、語義関連ネットワーク表示指示ボタン2012を備える。例えば、検索要求入力エリア2011に英語の検索キーとして「tank」を入力し、語義関連ネットワーク表示指示ボタン2012をクリックすると、入力された検索キー「tank」は、サーバ30の語義関連ネットワーク生成部301に送信される(図3のT1)。   FIG. 4 is a diagram illustrating an example of an initial screen in the client 20. The search request input unit 201 includes a search request input area 2011 and a meaning-related network display instruction button 2012. For example, when “tank” is input as an English search key in the search request input area 2011 and the meaning-related network display instruction button 2012 is clicked, the input search key “tank” is the meaning-related network generation unit 301 of the server 30. (T1 in FIG. 3).

語義関連ネットワーク生成部301は、検索キーである「tank」の語義とその語義と関連度の高い語義(関連語義)を語義関連データベース40の(a)、(b)を用いて検索し(図3のT2,T3)、語義関連ネットワークを生成する。検索する関連語義の数は任意でよいが、5個くらいが妥当である。   The meaning-related network generation unit 301 searches the meaning of the search key “tank” and the meaning (related meaning) having a high degree of association with the meaning using the meaning-related database 40 (a) and (b) (see FIG. 3 T2, T3), a meaning-related network is generated. The number of related meanings to be searched may be arbitrary, but about 5 is reasonable.

生成された語義関連ネットワークはクライアント20に送信され(図3のT4)、図5のように、クライアント20の語義関連ネットワーク表示部203に表示される。表示された語義関連ネットワークを見ることによって、利用者は、検索キー「tank」には、「tank・タンク/水槽」と「tank・戦車」という2つの語義があることと、語義「tank・タンク/水槽」には、「ammonia・アンモニア」、「fuel・燃料」などの語義が関連すること、語義「tank・戦車」には、「artillery・砲」、「ball・砲弾」などの語義が関連することを知ることができる。利用者は、語義関連ネットワーク表示部203における語義選択ボタン2031を用いて、検索キーがもつ語義の中から自分が検索したい語義を選択することができる。また、関連語義選択ボタン2032を用いて、検索キーがもつ語義と一緒に検索したい関連語義を選択することができる。   The generated meaning-related network is transmitted to the client 20 (T4 in FIG. 3) and displayed on the meaning-related network display unit 203 of the client 20 as shown in FIG. By looking at the displayed meaning-related network, the user can see that the search key “tank” has two meanings “tank tank / tank” and “tank tank”, and the meaning “tank tank”. / Aquarium is related to terms such as "ammonia / ammonia" and "fuel / fuel", and the meaning of "tank / tank" is related to terms such as "artillery" and "ball" You can know what to do. The user can use the meaning selection button 2031 in the meaning-related network display unit 203 to select the meaning that the user wants to search from the meanings of the search key. Further, by using the related meaning selection button 2032, it is possible to select the related meaning to be searched together with the meaning of the search key.

次に利用者は、語義関連ネットワーク表示部203が備える検索エンジン選択部202を用いて、検索対象とする検索エンジンを検索エンジン選択ボタン2022で選択し、検索指示ボタン2021をクリックする。選択された語義と関連語義の情報は、サーバ30の検索部302に送信される(図3のT5)。同時に、検索対象として選択された検索エンジン名も送信される。   Next, the user uses the search engine selection unit 202 provided in the meaning-related network display unit 203 to select a search engine to be searched with the search engine selection button 2022 and clicks the search instruction button 2021. The information on the selected meaning and related meaning is transmitted to the search unit 302 of the server 30 (T5 in FIG. 3). At the same time, the name of the search engine selected as the search target is also transmitted.

検索部302は、送信されてきた語義をもとに検索エンジンが受け付けることのできる検索キーを生成する。例えば、語義「tank・タンク/水槽」から検索キー「tank」を生成する。生成された検索キーを用いて検索エンジンを検索し(図3のT6)、検索キーに関連する文書を結果として得る(図3のT7)。得られた文書集合は、利用者が意図した語義「tank・タンク/水槽」で検索したわけではなく、ターム「tank」で検索した結果であるので、利用者の意図を満足しない結果も含まれている。つまり、検索結果として得られた文書集合の中から、利用者が意図した語義でターム「tank」が使われている文書を選別しなければならない。文書選別の前処理として、検索結果として得られた文書中に含まれるターム「tank」がどの語義で使われているかを語義判定部303が判定する。   The search unit 302 generates a search key that can be accepted by the search engine based on the transmitted meaning. For example, the search key “tank” is generated from the meaning “tank tank / water tank”. A search engine is searched using the generated search key (T6 in FIG. 3), and a document related to the search key is obtained as a result (T7 in FIG. 3). The obtained document set is not a search by the meaning “tank / tank / aquarium” intended by the user, but is a result of a search by the term “tank”, and therefore includes a result that does not satisfy the user's intention. ing. That is, it is necessary to select a document in which the term “tank” is used in the meaning intended by the user from the document set obtained as a search result. As preprocessing for document selection, the meaning determination unit 303 determines in which meaning the term “tank” included in the document obtained as a search result is used.

語義判定部303は、語義関連データベース40のテーブル(c)を用いて語義判定を行なう(図3のT8,T9)。例えば、検索結果として得られた文書中で、ターム「tank」がターム「ammonia」と共起していた場合、この文書中でのターム「tank」は「tank・タンク/水槽」の語義で使われている可能性が高い(関連度の値0.169と4.834を比較することでわかる)。同様に、ターム「tank」と共起するすべてのタームについて、それぞれとの関連度を考慮し、ターム「tank」の語義を決定する。この語義判定を検索結果として得られた個々の文書について実行する。   The meaning determination unit 303 performs the meaning determination using the table (c) of the meaning-related database 40 (T8 and T9 in FIG. 3). For example, if the term “tank” co-occurs with the term “ammonia” in a document obtained as a search result, the term “tank” in this document is used in the meaning of “tank / tank / aquarium”. (It can be found by comparing the relevance values of 0.169 and 4.834). Similarly, for all terms co-occurring with the term “tank”, the meaning of the term “tank” is determined in consideration of the degree of association with each term. This meaning determination is executed for each document obtained as a search result.

フィルタリング部304は、語義判定済みの文書集合の中から、利用者の検索意 図を満足する語義で「tank」が使われている文書のみを選び出し、その結果得られた文書集合をクライアント20に送信する(図3のT10)。   The filtering unit 304 selects only documents in which “tank” is used in the meaning satisfying the user's search intention from among the document sets whose meaning has been determined, and the document set obtained as a result is sent to the client 20. Transmit (T10 in FIG. 3).

送信された文書集合は、クライアント20における検索結果表示部204に表示される。図6は、検索結果の表示の例を示す図である。検索結果の表示形式は、単純に、検索結果として得られた文書のタイトル一覧でもよいが、図6のように、文書のタイトルに加えて、本文の一部を表示し、表示された本文中に含まれる検索キーや語義判定に用いたタームを強調表示してもよい。そうすることで、図6では、検索キー「tank」を斜体、語義判定に利用したターム「ammonia」、「fuel」、「toilet」を太字で強調表示している。   The transmitted document set is displayed on the search result display unit 204 in the client 20. FIG. 6 is a diagram illustrating an example of search result display. The display format of the search result may be simply the title list of the document obtained as the search result. However, as shown in FIG. 6, in addition to the document title, a part of the text is displayed and displayed in the displayed text. The search key and the term used for the meaning determination may be highlighted. By doing so, in FIG. 6, the search key “tank” is italicized, and the terms “ammonia”, “fuel”, and “toilet” used for meaning determination are highlighted in bold.

上記説明のシステムを用いることで、一般の検索エンジンを利用する場合にでも、利用者が入力した検索キーに対する関連文書の中から、その検索キーが利用者の意図した語義で使われている文書を得ることができる。   By using the system described above, even when using a general search engine, a document in which the search key is used in the meaning intended by the user from among the related documents for the search key entered by the user Can be obtained.

なお、サーバ30の検索部302は、検索エンジンの検索(図3のT6)において、クライアント20から送信されてきた語義の情報をもとに生成した検索キーを用いるのではなく、クライアント20から最初に送信されてきた検索キー(図3のT1)を用いて検索エンジンを検索してもよい。この場合においても、検索によって得られた文書集合に対して、語義判定部303によって各々の文書に含まれる検索キーの語義判定を行い、フィルタリング部304によって利用者の意図する語義で検索キーが使われている文書を選択する処理を行うことで利用者の検索意図を反映した検索結果を得ることができる。   Note that the search unit 302 of the server 30 does not use the search key generated based on the meaning information transmitted from the client 20 in the search of the search engine (T6 in FIG. 3). The search engine may be searched by using the search key (T1 in FIG. 3) transmitted to. Even in this case, the meaning determination unit 303 determines the meaning of the search key included in each document for the document set obtained by the search, and the filtering unit 304 uses the search key with the meaning intended by the user. A search result reflecting the user's search intention can be obtained by performing processing for selecting a document that has been read.

以上、英語の検索キーに対して英語の文書を検索する場合(モノリンガル文書検索)の実施の形態について説明した。次に、本発明の変形例として、(2)の態様の実施例である、日本語の検索キーに対して、英語の文書を検索する場合(クロスリンガル文書検索)について説明する。   In the above, the embodiment in the case of searching for an English document with respect to an English search key (monolingual document search) has been described. Next, as a modification of the present invention, a case where an English document is searched with respect to a Japanese search key (cross-lingual document search), which is an embodiment of the aspect (2), will be described.

(2)の態様の実施例を実現するためには、語義関連データベース40が備えるテーブルとして、日本語のタームに対する語義に関する情報を格納したテーブルが必要となる。例えば、日本語のターム「戦車」に対する語義は「tank・戦車」であり、日本語のターム「燃料」に対する語義は「fuel・燃料」であるなどの情報が格納されていればよい。このようなテーブルは、(1)の態様の実施例における、語義関連データベース40が備えるテーブル(a)を作成するのと同じ方法で作成することができる。   In order to realize the embodiment of the aspect of (2), a table storing information related to the meaning of Japanese terms is required as the table provided in the meaning-related database 40. For example, information such as “tank / tank” for the Japanese term “tank” and “fuel / fuel” for the Japanese term “fuel” may be stored. Such a table can be created in the same manner as the table (a) included in the meaning-related database 40 in the embodiment of the aspect (1).

(2)の態様の実施例の処理の流れは、(1)の態様の実施例とほぼ同一であるが、語義関連ネットワーク生成部301が、利用者が入力した検索キー(例えば「戦車」)に対する語義を検索する場合に、上記の日本語のタームに対する語義に関する情報を格納したテーブルを検索すればよい。すると、検索キーに対する語義(例えば「tank・戦車」)が得られる。その後は、(1)の態様の実施例と同様の処理が実行される。   The flow of processing in the embodiment of the aspect of (2) is almost the same as that of the embodiment of the aspect of (1), but the search key (for example, “tank”) entered by the user by the meaning-related network generation unit 301. When searching for the meaning of the word, the table storing the information about the meaning of the Japanese term above may be searched. Then, the meaning (for example, “tank / tank”) for the search key is obtained. Thereafter, the same processing as in the embodiment of the aspect (1) is executed.

(2)の態様の実施例の利点は、以下のとおりである。一般のクロスリンガル文書検索では、入力された検索キーを対訳辞書で翻訳してから文書を検索する。例えば,日本語の検索キー「戦車」を入力すると、その検索キーを対訳辞書を用いて「tank」に翻訳し、「tank」を用いて文書を検索する。しかし、上記の例でも述べてきたとおり、「tank」には複数の語義が含まれるため、利用者が意図した戦車の意味での「tank」以外の語義をもつ「tank」を含む文書が検索されてしまうことになる。しかし、(2)の態様の実施例では、「戦車」の語義が「tank・戦車」であることを同定しているため、「tank」の多義性に左右されることなく、利用者の意図どおりに「tank」が「戦車」の意味で使われている文書を利用者に提示することができる。   Advantages of the embodiment of the aspect (2) are as follows. In a general cross-lingual document search, an input search key is translated in a bilingual dictionary and then a document is searched. For example, when a Japanese search key “tank” is input, the search key is translated into “tank” using a bilingual dictionary, and a document is searched using “tank”. However, as mentioned in the above example, “tank” includes multiple meanings, so documents containing “tank” with meanings other than “tank” in the meaning of the tank intended by the user are searched. It will be done. However, in the embodiment of the aspect (2), since the meaning of “tank” is identified as “tank / tank”, the intention of the user is not affected by the ambiguity of “tank”. In the same way, a document in which “tank” is used to mean “tank” can be presented to the user.

本発明を実現するためのシステムの構成例を示す概略図。1 is a schematic diagram showing a configuration example of a system for realizing the present invention. 語義関連データベースに含まれるテーブルの例を示す図。The figure which shows the example of the table contained in a meaning-related database. クライアント、サーバ、語義関連データベース、検索エンジンの間のデータ及び処理の流れを示すシーケンス図。The sequence diagram which shows the data between a client, a server, a meaning-related database, and a search engine, and the flow of a process. クライアントにおける初期画面の例を示す図。The figure which shows the example of the initial screen in a client. クライアントにおける語義関連ネットワークの表示例を示す図。The figure which shows the example of a display of the meaning related network in a client. クライアントにおける検索結果の表示例を示す図。The figure which shows the example of a display of the search result in a client.

符号の説明Explanation of symbols

10:通信ネットワーク
20:クライアント
201:検索要求入力部
2011:検索要求入力エリア
2012:語義関連ネットワーク表示指示ボタン
202:検索エンジン選択部
2021:検索指示ボタン
2022:検索エンジン選択ボタン
203:語義関連ネットワーク表示部
2031:語義選択ボタン
2032:関連語義選択ボタン
204:検索結果表示部
30:サーバ
301:語義関連ネットワーク生成部
302:検索部
303:語義判定部
304:フィルタリング部
40:語義関連データベース
501、502:検索エンジン
10: communication network 20: client 201: search request input unit 2011: search request input area 2012: meaning-related network display instruction button 202: search engine selection unit 2021: search instruction button 2022: search engine selection button 203: meaning-related network display Unit 2031: Meaning selection button 2032: Related meaning selection button 204: Search result display unit 30: Server 301: Meaning related network generation unit 302: Search unit 303: Meaning determination unit 304: Filtering unit 40: Meaning related database 501, 502: Search engine

Claims (6)

検索キーに関連する文書を検索する文書検索システムにおいて、
タームとその語義、語義と語義との関連度、タームとタームとの語義毎の関連度を格納したデータベースと、
検索キーを入力させる検索キー入力部と、
入力された検索キーから、前記検索キーが持つ語義と前記語義に関連する語義を、前記データベースから抽出し、ネットワーク状に提示する語義関連ネットワーク提示部と、
前記語義関連ネットワーク提示部に提示された語義のうちいずれか一つ以上を選択させる語義選択手段と、
前記語義選択手段によって選択された語義に基づいて生成された検索キーを用いて検索を実行する検索部と、
前記検索部によって検索を実行して得られた文書集合の各文書について、前記データベースを用い、文書中のタームがどの語義で使われているかを判定する語義判定部と、
前記語義判定部によって判定された文書集合の中から、前記語義選択手段によって選択された語義が用いられている文書を選出するフィルタリング部とを備えることを特徴とする文書検索システム。
In a document search system that searches for documents related to a search key,
A database that stores terms and their meanings, the degree of association between meanings and meanings, and the degree of association between terms and terms;
A search key input unit for inputting a search key;
The meaning of the search key and the meaning related to the meaning are extracted from the database from the input search key, and the meaning-related network presentation unit presenting the meaning in a network form;
Meaning selection means for selecting any one or more of the meanings presented in the meaning-related network presenting unit;
A search unit that performs a search using a search key generated based on the meaning selected by the meaning selection means;
For each document of the document set obtained by performing a search by the search unit, using the database, a meaning determination unit that determines in which sense a term in the document is used,
A document search system comprising: a filtering unit that selects a document in which the meaning selected by the meaning selection means is used from the document set determined by the meaning determination unit.
請求項1記載の文書検索システムにおいて、前記検索部は選択された語義から検索キーを生成し、生成した検索キーを用いて検索を実行することを特徴とする文書検索システム。   The document search system according to claim 1, wherein the search unit generates a search key from the selected meaning and performs a search using the generated search key. 請求項1記載の文書検索システムにおいて、前記検索部は入力された検索キーとは異なる言語で記述された文書を検索するクロスリンガル文書検索を行うことを特徴とする文書検索システム。   The document search system according to claim 1, wherein the search unit performs a cross-lingual document search for searching for a document described in a language different from the input search key. 請求項1記載の文書検索システムにおいて、前記検索部は入力された検索キーと同じ言語で記述された文書を検索するモノリンガル文書検索を行うことを特徴とする文書検索システム。   2. The document search system according to claim 1, wherein the search unit performs a monolingual document search for searching for a document described in the same language as the input search key. 請求項2記載の文書検索システムにおいて、前記検索部は入力された検索キーとは異なる言語で記述された文書を検索するクロスリンガル文書検索を行うことを特徴とする文書検索システム。   3. The document search system according to claim 2, wherein the search unit performs a cross-lingual document search for searching for a document described in a language different from the input search key. 請求項2記載の文書検索システムにおいて、前記検索部は入力された検索キーと同じ言語で記述された文書を検索するモノリンガル文書検索を行うことを特徴とする文書検索システム。   3. The document search system according to claim 2, wherein the search unit performs a monolingual document search for searching for a document described in the same language as the input search key.
JP2006268277A 2006-09-29 2006-09-29 Document retrieval system using word meaning-related network Pending JP2007004831A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006268277A JP2007004831A (en) 2006-09-29 2006-09-29 Document retrieval system using word meaning-related network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006268277A JP2007004831A (en) 2006-09-29 2006-09-29 Document retrieval system using word meaning-related network

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003068505A Division JP3944102B2 (en) 2003-03-13 2003-03-13 Document retrieval system using semantic network

Publications (1)

Publication Number Publication Date
JP2007004831A true JP2007004831A (en) 2007-01-11

Family

ID=37690313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006268277A Pending JP2007004831A (en) 2006-09-29 2006-09-29 Document retrieval system using word meaning-related network

Country Status (1)

Country Link
JP (1) JP2007004831A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420026A (en) * 2019-08-23 2021-02-26 微软技术许可有限责任公司 Optimized keyword retrieval system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420026A (en) * 2019-08-23 2021-02-26 微软技术许可有限责任公司 Optimized keyword retrieval system

Similar Documents

Publication Publication Date Title
JP3944102B2 (en) Document retrieval system using semantic network
JP5264892B2 (en) Multilingual information search
RU2628200C2 (en) Supporting guidelines of thematic search
US7991608B2 (en) Multilingual data querying
US7853555B2 (en) Enhancing multilingual data querying
US9323827B2 (en) Identifying key terms related to similar passages
US8489385B2 (en) Use of lexical translations for facilitating searches
US7788262B1 (en) Method and system for creating context based summary
EP2347354B1 (en) Retrieval using a generalized sentence collocation
US20060195435A1 (en) System and method for providing query assistance
US8862595B1 (en) Language selection for information retrieval
US20080065621A1 (en) Ambiguous entity disambiguation method
WO2007133625A2 (en) Multi-lingual information retrieval
US9754022B2 (en) System and method for language sensitive contextual searching
US20160217181A1 (en) Annotating Query Suggestions With Descriptions
US8001138B2 (en) Word relationship driven search
KR20200125697A (en) Information retrieval system and information retrieval method using index
Pouliquen et al. Automatic construction of multilingual name dictionaries
Lazarinis Engineering and utilizing a stopword list in Greek web retrieval
JP2007004831A (en) Document retrieval system using word meaning-related network
Wu et al. Learning source-target surface patterns for web-based terminology translation
He et al. Cross‐Language Information Retrieval
JP5148583B2 (en) Machine translation apparatus, method and program
Kishida et al. Experiments on cross-language information retrieval using comparable corpora of chinese, japanese, and korean languages
JP5160120B2 (en) Information search apparatus, information search method, and information search program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080408