JP2013186766A - 情報検索方法、プログラムおよび情報検索装置 - Google Patents

情報検索方法、プログラムおよび情報検索装置 Download PDF

Info

Publication number
JP2013186766A
JP2013186766A JP2012052465A JP2012052465A JP2013186766A JP 2013186766 A JP2013186766 A JP 2013186766A JP 2012052465 A JP2012052465 A JP 2012052465A JP 2012052465 A JP2012052465 A JP 2012052465A JP 2013186766 A JP2013186766 A JP 2013186766A
Authority
JP
Japan
Prior art keywords
search
sentence
unit
minimum
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012052465A
Other languages
English (en)
Other versions
JP5915274B2 (ja
Inventor
Seiji Okura
清司 大倉
Akira Shioda
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012052465A priority Critical patent/JP5915274B2/ja
Publication of JP2013186766A publication Critical patent/JP2013186766A/ja
Application granted granted Critical
Publication of JP5915274B2 publication Critical patent/JP5915274B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】情報検索方法は、検索しようとするユーザが意図した文を抽出することを課題とする。
【解決手段】自然言語文の検索クエリーを受け付け、その自然言語文を意味解析し、意味解析結果から、検索キーとなる意味最小単位を特定する。意味最小単位は、2つの単語間の意味関係あるいは単語の役割を含む。予め検索対象文に含まれる意味最小単位が格納されている検索用インデックスから、検索キーと一致する意味最小単位を含む検索対象文を検索し、意味最小単位の評価値から文の評価値と文書の評価値を算出し、評価値によりランキングされた検索結果を出力する。
【選択図】図1

Description

本技術は、テキスト文書の検索技術に関する。
よく知られたキーワードによる検索では、キーワード単位のクエリーを用いるため、キーワード間の関係を検索条件に含めることができない。例えば、ユーザが「熱の放出を低減することにより、環境負荷を減らす技術」を検索したい場合に、キーワード「熱の放出、環境負荷、低減」を入力する。しかし、このキーワードのクエリーには、あいまい性が含まれている。この場合、「熱の放出を低減する」と「環境負荷を低減する」の両方の意味を含み、一方の意味に限定していない。また、熱の放出と環境負荷との関係も特定していない。
このようにクエリーにあいまい性が含まれているキーワード検索には、以下の問題がある。
(1)ユーザが意図した通りに検索されない。
(2)キーワードを含んでいても意図しない文書が検索される。
特に、(2)の問題は、抽出された文書中から、ユーザが意図した部分を見つけ出す手間が煩雑であるという欠点を含んでいる。例えば、3つのキーワードで検索してすべてのキーワードを含む文が検出された場合でも、その文は意図しない関係を含んでいるかもしれない。つまり、キーワードにヒットした部分を出力しても、必ずしもユーザが欲しい情報ではないことがある。従って、有用な文を抽出する判断に、ユーザは時間を費やすことになる。
特開平05−197758号公報
田中穗積、辻井潤一共編『自然言語理解』(オーム社、1988年) Steven Bird, Ewan Klein, Edward Loper著 萩原正人、中山敬広、水 貴明訳『入門 自然言語処理』 O'Reilly Japan, 2010. WEBサイト『Pythonによる日本語自然言語処理』(http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)
本技術の目的は、一側面では、検索しようとするユーザが意図した文を抽出することである。
本技術の一側面に係る情報検索方法は、(A)2つの単語及び当該単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定し、(B)検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部から、検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定し、特定した検索対象文についての検索結果を出力する処理を含む。
ユーザが意図した文を抽出できるようになる。
図1は、情報検索装置のモジュール構成の例を示す図である。 図2Aは、有効グラフの例を示す図である。 図2Bは、意味最小単位の例を示す図である。 図3Aは、原文の位置の例を示す図である。 図3Bは、検索インデックスの例を示す図である。 図4は、検索対象文書の準備処理のフローの例を示す図である。 図5は、検索対象文書の例を示す図である。 図6は、検索対象文書の例を示す図である。 図7は、検索対象文書の例を示す図である。 図8は、検索対象文書の例を示す図である。 図9は、評価値テーブルの例を示す図である。 図10Aは、検索処理のフローの例を示す図である。 図10Bは、検索処理のフローの例を示す図である。 図11は、クエリーと意味最小単位の例を示す図である。 図12は、コンピュータの機能ブロック図である。
図1は、情報検索装置のモジュール構成の例を示す。情報検索装置は、検索対象文書データベース11と検索用インデックス13と評価値テーブル15と入力部31と意味解析部33と意味最小単位生成部35と検索部37と評価値計算部39とランキング部41と出力部43とを有する。入力部31は、ユーザの操作により自然言語文の検索クエリーを受け付ける。意味解析部33は、入力部31により受け付けられた検索クエリーの意味解析を実施する。この処理は、自然言語文を解析し、その中の概念(単語の意味)間の関係を有向グラフで表現する。意味最小単位生成部35は、意味解析部33により出力された有向グラフから、意味最小単位を生成する。意味最小単位については、後述する。
検索用インデックス13は、検索対象文書に含まれる各文の意味最小単位を格納しているデータベースである。予め行う準備処理では、複数の検索対象文書に対して意味解析を行い、それらの文書中の各文について意味最小単位を生成し、検索用インデックス13を生成する。また、準備処理では、検索用インデックス13に含まれる各意味最小単位の文書頻度を計算する。文書頻度は、その意味最小単位が出現する検索対象文書の数である。準備処理は、更にこれらの文書頻度を用いて各意味最小単位のidf値を計算する。意味最小単位毎のidf値は、評価値テーブル15に格納される。
各意味最小単位のidf値は、log(総文書数/その意味最小単位を含む文書数)である。意味最小単位を含む検索対象文書の数がより少ない場合に、そのidf値はより大きい。idf値は、意味最小単位の評価値の一例である。意味最小単位の評価値は、他の値でもよい。その評価値は、意味最小単位の有用性を示すことが望ましい。
検索部37は、検索クエリーから生成された意味最小単位を条件として、検索用インデックス13を検索する。例えば、複数の意味最小単位はOR条件で用いられる。マッチした意味最小単位に対応する文書が、検索用インデックス13から選び出される。評価値計算部39は、評価値テーブル15と検索用インデックス13を参照し、マッチした意味最小単位に基づいて抽出した各文を含む文書の評価値を計算する。ランキング部41は、抽出した各文書をランク付けする。つまり、ランキング部41は、評価値計算部39により計算された文書の評価値をソートキーとしてソートする。出力部43は、ランク付けされた結果を出力する。出力の形態は、例えば表示、印刷、又は送信である。抽出された文書は、有用な順に並べられ、ユーザに提示される。例えば、抽出された文が表示される。
次に、有向グラフと意味最小単位について説明する。意味最小単位は、意味解析の結果として得られる有向グラフの部分構造を表す。有向グラフは、ノードとアークとを含む。図2Aは、有効グラフの例を示し、図2Bは、意味最小単位の例を示す。原文は、「太郎は花子に本をあげた。」である。図中の有向グラフは、この原文対して意味解析を行った結果である。
有向グラフについては、以下の文献などが参考になる。
・田中穗積、辻井潤一共編『自然言語理解』(オーム社、1988年)
・Steven Bird, Ewan Klein, Edward Loper著 萩原正人、中山敬広、水 貴明訳『入門 自然言語処理』 O'Reilly Japan, 2010.
・WEBサイト『Pythonによる日本語自然言語処理』(http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)
ノードは、入力文中の単語の概念(意味)を表す。「あげる」、「本」、「太郎」、及び「花子」は、ノードの例である。それぞれのノードには、その概念を表す記号(概念記号という。)が付加される。「GIVE」、「BOOK」、「TARO」、及び「HANAKO」は、概念記号の例である。
アークは、ノード間の関係又はノードの役割を表す。アークが2つのノード間にある場合には、そのアークは2つのノード間の関係を表す。例えば、図中「GIVE」ノードから「BOOK」ノードに引かれているアークは、「対象」と名付けられている。この表示は、「BOOK」は「GIVE」の対象であることを意味している。一方、終点のノードがないアークは、起点のノードが有する役割を表す。例えば、図中起点のノードが「GIVE」であり、かつ終点がノードのないアークの一方は、「過去」と名付けられている。「GIVE」は、過去の役割であることを意味している。
意味最小単位の生成では、有向グラフからアークを抽出し、以下のように処理する。
(1)アークが2つのノードをつないでいる場合には、意味最小単位として、それぞれのアークに対して、(アークが出る始点ノード、アークが向かう終点ノード、アークの名前)を出力する。
(2)アークが出る起点ノードがない場合には、意味最小単位として、(「NIL」、アークが向かう終点ノード、アークの名前)を出力する。
(3)アークが向かう終点ノードがない場合には、意味最小単位として、(アークが出る起点ノード,"NIL",アークの名前)を出力する。
このように、意味最小単位は、文中の2つの概念間の関係または概念の役割を表すものである。これを検索キーにしてデータベースを検索することにより、自然言語文に込められた検索者の意図を反映した検索が可能となる。
意味最小単位は、有向グラフの部分構造に基づくので、意味最小単位のマッチングによる検索は、有向グラフのマッチングによる検索に比べて、より柔軟である。また、検索対象文書に含まれる意味最小単位のidf値を予め準備し、マッチした意味最小単位のidf値を特定し、そのidf値を用いて、マッチした意味最小単位についての文を含む文書の評価値を計算することができる。文書の評価値は、ランク付けに役立つ。
以下、処理フローの例について説明する。この処理の特徴は、クエリー及び各検索対象文書に含まれる各文に関して意味解析を行い、それぞれの意味最小単位を得て、意味最小単位を検索キーとして検索することである。更に、意味最小単位のidf値を使って、抽出された文書の評価値を計算してランキングを行うことである。
この実施例では、自然言語文のクエリーを受け付け、自然言語文から自動的に意味最小単位を生成する。但し、意味最小単位のクエリーを受け付けることにより、意味最小単位を特定することもできる。
この実施例では、「翻訳家によって修正された単語を辞書に登録する手段をもつ。」というクエリー文で、特許データベースを検索する場合を想定している。この例の目的は、クエリー文と深い関係を持つ特許明細書を検索することである。
検索段階の前に、予め検索用インデックス13のデータベースを生成する。図3Aは、原文の位置の例を示し、図3Bは、検索インデックスの例を示す。検索インデックス13は、意味最小単位毎に、意味最小単位の内容と、元文書の文書IDと、元文の文IDと、始点ノードの位置と、始点ノードの文字列長と、終点ノードの位置と、終点ノードの文字列長を対応付けるレコードを記憶している。始点ノードの位置は、当該ノードに相当する文字列の文中開始位置である。終点ノードの位置も同様である。
図4は、検索対象文書の準備処理のフローの例を示す図である。この処理は、図示しない準備部により実行される。準備部は、検索対象文書データベース11に含まれる各検索対象文書について(S101)、文書を複数の文に分割する(S103)。準備部は、各文について(S105)、意味解析を行い、意味最小単位を生成し、新たなレコードを検索用インデックスに追加する(S107)。
図5乃至図8は、検索対象文書の例を示す図である。図5は、検索対象文書Aに含まれる文m「本発明による機械翻訳システムは,翻訳家が修正した単語あるいは修正または作成した翻訳文をそれぞれ前記辞書および例文データベースに登録する登録手段を持つ。」の例を示している。更に、図5は、文mの意味解析により生成された意味最小単位の例を示している。図中の意味最小単位が表す意味は、参考である。生成された意味最小単位は、元の文書Aと文mと関連付けて記憶される。この関連付けの情報は、例えば評価値の計算に使われる。図6は、同様に検索対象文書Bに含まれる文nと、その意味最小単位と意味最小単位が表す意味を示している。図7は、同様に検索対象文書Cに含まれる文pと、その意味最小単位と意味最小単位が表す意味を示している。図8は、同様に検索対象文書Dに含まれる文qと、その意味最小単位と意味最小単位が表す意味を示している。
図4の処理の説明に戻り、準備部は、意味最小単位の生成と検索インデックスの登録をすべて終了すると(S109,S111)、生成されたそれぞれの意味最小単位についてidf値を計算し、評価値テーブル15に格納する(S113)。図中のdfは、文書頻度を示す。図9は、評価値テーブルの例である。意味最小単位とidf値は、対応付けられる。
続いて、文書の検索について説明する。図10Aと図10Bは、検索処理のフローの例を示す図である。入力部31は、自然言語文のクエリーを受け付ける(S121)。例えば、クエリーは、文字入力装置から入力され、あるいはネットワークを介して受信される。複数の文を含むクエリーを受け付けた場合には、クエリーは一文ずつに分割される(S123)。この分割処理は、入力部31あるいは図示しない分割部により実行される。それぞれの文について(S125)、意味解析部33が意味解析を行い、意味最小単位生成部35が意味最小単位を生成する。意味解析部33は、生成した意味最小単位を検索キーの集合に追加する(S127)。クエリー内の全ての文について、上で述べたS125及びS127の処理が繰り返される(S129)。
図11は、クエリーと意味最小単位の例を示す図である。クエリーの原文「翻訳家によって修正された単語を辞書に登録する手段をもつ。」の例を示している。更に、図11は、クエリー文の意味解析により生成された意味最小単位の例を示している。図中の意味最小単位が表す意味は、参考である。
意味解析部33は、一又は複数の意味最小単位を含む検索キーを特定する(S131)。検索部37は、それぞれの意味最小単位について、以下の処理を行う(S133)。検索部37は、検索用インデックス13から一致する意味最小単位を抽出する。意味最小単位のマッチングは、ここでは完全一致か否かで判断される。つまり、意味最小単位に含まれる始点ノードと終点ノードとアークの名前のすべてが同じ場合のみ、一致したと判定する。この例では、図5乃至図8の文m、文n、文p、及び文qのいずれもマッチする。そして、意味解析部33は、一致した意味最小単位に対応する文を識別する情報(文書IDと文ID)を読み取り、マッチした文についてのデータとして一時的に記憶する(S135)。検索部37が、検索キー中のすべての意味最小単位について処理すると(S137)、文書の評価の処理に移る。
まず、評価値計算部39は、全文書の評価値を0に設定する(S139)。そして、評価値計算部39は、マッチした文毎に、以下の処理を繰り返す(S141)。評価値計算部39は、その文の評価値を算出する(S143)。そして、評価値計算部39は、その文を含む文書の評価値にその文の評価値を足す(S145)。評価値計算部39がマッチした文のすべてを処理することにより、文書の評価値が得られる(S147)。文書の評価値は、その文書に含まれる文の評価値の総和である。ランキング部41は、文書の評価値をソートキーとして文書をソートする(S149)。文書が、評価が高い順に並び替えられる。そして、出力部43は、並び替えられた文書のデータを出力する(S149)。例えば、出力部43は、文書に含まれるマッチした文を表示する。この場合、文書のランク付けは、間接的に文のランク付けとなる。出力部43は、文書IDに対応する文書を検索対象文書データベース11から取得し、マッチした文IDに対応する文を検索対象文書データベース11から取得する。
抽出された文の評価値をソートキーとして、抽出された文をソートして、ソート順に抽出された文を表示する形態も、有効である。
文の評価値の算出について説明する。文の評価値は、以下の式で表される。
文nの評価値(Sn)=[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文nにおけるKiの出現回数)の総和]×Mの二乗
ただし、M=文nに同時に出現するKの種類数
Mは、クエリーの全体を網羅していることを評価することに役立つ。また、Mの二乗値を用いることにより、その評価の程度が増す。
文nにおけるKiの出現回数は、一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数である。また、Mは、一つの検索対象文に含まれる意味最小単位のうちのいずれかと一致し且つ検索キーとして特定された意味最小単位の種類数である。
具体的な評価値算出の処理を説明する。まず、評価値計算部39は、クエリーの意味最小単位が算出対象の文に出現する場合に、その意味最小単位のidf値を評価値テーブル15から取得する。評価値計算部39は、更に検索用インデックス13からその文IDとその意味最小単位を含むレコード数をカウントして、前述の出現回数を得る。そして、評価値計算部39は、idf値と出現回数の積を算出する。評価値計算部39は、出現したすべての意味最小単位で得た積の総和を算出する。そして、評価値計算部39は、算出対象の文に出現した異なる意味最小単位の数をカウントし、Mを得る。更に、評価値計算部39は、Mの二乗を求めて、算出した積の総和に乗ずる。このようにして、評価値計算部39は、文の評価値を算出する。
評価値計算部39が、積を求める意味最小単位及びMにカウントする意味最小単位を特定の条件で選択してもよい。評価値計算部39は、例えば、idf値が閾値に満たない場合には、その意味最小単位に関する積は総和に加えないように処理してもよい。同様に、idf値が閾値に満たない意味最小単位については、Mの計数に入れないようにしてもよい。
このように、文の評価値は、その文に出現した意味最小単位(又はその一部)のその文における評価値の総和と、クエリーに対するその文に出現した意味最小単位(又はその一部)の網羅度との積として表される。
文書の評価値は、以下の式で表される。
文書の評価値(D)=文nの評価値(Sn)の総計
評価値計算部39は、図10Bに示した通り、文書に含まれる文の評価値を合算することにより文書の評価値を求める。
評価値の算出の例を示す。説明を簡略化するために、全ての意味最小単位のidf値を2.0と仮定する。例えば、文mは、6つの意味最小単位にマッチしている。各意味最小単位の文m中の出現回数は、すべて1回である。また、文mに出現する意味最小単位の数は6である。従って、文mの評価値は、
(2.0*1+2.0*1+2.0*1+2.0*1+2.0*1+2.0*1) * (6^2) = 432.0
となる。文nの評価値は、
(2.0*1+2.0*1) * (2^2) = 16.0
となる。文qの評価値は、
(2.0*1+2.0*1+2.0*1) * (3^2) = 54.0
となる。文pの評価値は、
(2.0*1) * (2^1) = 4.0
となる。このように、検索クエリーに係る意味最小単位をより多く含む文ほど、M2が大きくなり、高評価となる。
次に、文書の評価値を計算する。文書Aの評価値は、文書Aに含まれる全ての文の評価値の総和である。文書Aが文iと文mの2文からなると仮定する。文iの評価値が18.0であれば、文書Aの評価値は18.0+432.0=450.0となる。
文書B、文書C、文書Dの評価値も同様に算出し、それぞれ106.0, 253.0, 90.0であると仮定する。評価値で文書を降順にランキングする。結果は、以下のようになる。
検索結果1位: 文書A(評価値=450.0)
検索結果2位: 文書C(評価値=253.0)
検索結果3位: 文書B(評価値=106.0)
検索結果4位: 文書D(評価値=90.0)
この例では、表現が違う場合、あるいは単語間に別の表現が含まれる場合でも、同じ意味の情報を含む文書を上位にランキングする。
以下のように、同じ意味を持つ文同士は、表現が違う場合でもマッチする。また、文中の2つの単語が他の単語列によって切り離されていても、本来の意味を失わないので、そのような場合でもマッチングは成功する。
例えば、文mの「翻訳家が修正」の表現が、クエリーの「翻訳家によって修正」の表現にマッチする。意味最小単位は、共に(修正、翻訳家、動作主)である。文mの「単語あるいは修正または…をそれぞれ前記辞書および例文データベースに登録」の表現から導かれる意味最小単位は、 (登録,単語,目的語)である。従って、この場合も、クエリーにマッチする。文qの「単語は辞書3に登録してもよい」の表現から導かれる意味最小単位は、(登録,単語,目的語)である。この場合、「単語」は「登録」の主語ではなく、目的語として解釈される。従って、この場合も、クエリーにマッチする。
例えば、ユーザが文書を選択した場合に、出力部43は、その文書に含まれる評価値の高い文をハイライト表示してもよい。文ごとの評価値が計算されているため、このような表示も可能である。
本実施例は、例えば、以下の効果を奏する。
1.語の意味と意味の関係を指定して検索できる。
2.抽出された文書をクエリーに関係の深い順にランキングし、出力できる。
尚、文書の評価値の算出方法には、例えば、以下のバリエーションがある。
1.文nの評価値(Sn)の総計:上述の算出方法
2.文書Dに含まれる文を評価値順にソートし、評価値が高いものから上位m件の評価値を総計する。
3.ある値k以上の文の評価値のみを総計する。
4.文番号i〜i+hの評価値xをかけあわせたものを総計する(Σ_i(xi・xi+1・…・xi+h))。
この値は、複数の文による相乗的な価値を評価することに役立つ。
5.上記4.のバリエーションとして、文番号i〜i+hの評価値の平均値のh乗を総計する。
この値は、文書全体の価値の密度を強調して評価することに役立つ。
6.上記4.のバリエーションとして、文番号i〜i+hの評価値に関して、評価値がk以下のものは掛け合わせる対象外とし、i〜i+hの評価値を掛け合わせたものを総計する。
この値は、重要度の低い情報の集積による過大評価を防ぐことに役立つ。
更に、文の評価値の算出方法には、例えば、以下のバリエーションがある。
1.文nの評価値(Sn)=[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文nにおけるKiの出現回数)の総和] X Mの二乗
ただし、M=文nに同時に出現するKの数:上述の算出方法
2.上記1.に関して、意味最小単位の集合の中で、特定の条件(1つまたは複数)にあてはまる意味最小単位は計算の対象外とする。例えば、アークが「中心」である、アークが「過去」である、idf値が閾値以下の意味最小単位である、NILを含む、などの条件が考えられる。
3.上記1.の「M=文nに同時に出現する意味最小単位Kの数」に関して、特定の条件(1つまたは複数)にあてはまる意味最小単位は、数にカウントしない。
4.上記1.の「Mの二乗」のバリエーション:Mのべき乗(log(M))
5.上記1.の「意味最小単位」を「分割した意味最小単位」に置き換え
6.上記1.の「意味最小単位」を「意味最小単位と形態素」に置き換え
7.上記1.の「意味最小単位」を「意味最小単位と分割した意味最小単位」に置き換え
8.上記1.の「意味最小単位」を「意味最小単位と形態素と分割した意味最小単位」に置き換え
9.上記1.の「意味最小単位」を「分割した意味最小単位と形態素」に置き換え
10.上記2.乃至9.の任意の組み合わせ
上述の「分割した意味最小単位」について説明する。分割した意味最小単位は、意味最小単位(ノード1,ノード2,アーク)を、(ノード1,アーク)及び(アーク,ノード2)のように分割した単位である。ただし、アークがNILのものは、(ノード1,ノード2,アーク)とする。
例えば、意味最小単位(GIVE, BOOK, 対象)の分割した意味最小単位は、(GIVE,対象)および(対象,BOOK)である。また、意味最小単位(GIVE, NIL, 述語)の分割した意味最小単位は、 (GIVE, NIL, 述語)である。
「分割した意味最小単位」による検索は、「意味最小単位」による所定部分の一致検索に相当する。所定部分は、意味最小単位を構成するノード1とノード2とアークの要素のうち、(ノード1,アーク)及び(アーク,ノード2)のように所定の要素の組み合わせを意味する。
情報検索装置の機能は、1台のコンピュータではなく複数台のコンピュータで実現するようにしてもよい。
また、処理フローは一例であって、処理結果が変化しない限り変更してもよい。図1の機能ブロック分けは一例であり、実際のプログラムモジュール構成と一致していない場合もある。
なお、上で述べた情報検索装置は、コンピュータ装置であって、図12に示すように、メモリ1501とCPU(Central Processing Unit)1503とハードディスク・ドライブ(HDD:Hard Disk Drive)1505と表示装置1509に接続される表示制御部1507とリムーバブル・ディスク1511用のドライブ装置1513と入力装置1515とネットワークに接続するための通信制御部1517とがバス1519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD1505に格納されており、CPU1503により実行される際にはHDD1505からメモリ1501に読み出される。CPU1503は、アプリケーション・プログラムの処理内容に応じて表示制御部1507、通信制御部1517、ドライブ装置1513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ1501に格納されるが、HDD1505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク1511に格納されて頒布され、ドライブ装置1513からHDD1505にインストールされる。インターネットなどのネットワーク及び通信制御部1517を経由して、HDD1505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU1503、メモリ1501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本技術の実施の形態をまとめると、以下のようになる。
本実施の形態に係る情報検索方法は、(A)2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理と、(B)検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部から、検索キーの意味最小単位と一致する又は部分一致する意味最小単位を含む検索対象文を特定する第2の特定処理と、(C)特定した検索対象文についての検索結果を出力する出力処理とを含む。このように、キーワード検索では抽出できないようなユーザの意図に沿った検索結果が得られる。すなわち、単語以外の意味要素も、マッチングの対象となる。
また、データ格納部は、意味最小単位に関連付けて検索対象文の識別情報を格納するようにしてもよい。この場合、出力処理は、(c1)特定した検索対象文の当該識別情報に対応する検索対象文を、検索対象文を格納したデータベースから取得するようにしてもよい。このようにすれば、検索用インデックスを小さくし、検索処理負荷を軽減するとともに、確実に抽出した文を出力することができる。
また、第2の特定処理は、(b1)検索キーの意味最小単位に含まれるすべての要素が、検索対象文に含まれる意味最小単位に含まれるすべての要素と同一であるか判定する処理を含むようにしてもよい。このようにすれば、意味最小単位による概念が完全に担保されるので、検索の精度が向上する。
また、第2の特定処理は、(b2)検索キーの意味最小単位に含まれる一部の要素が、検索対象文に含まれる意味最小単位に含まれる一部の要素と同一であるか判定する処理を含むようにしてもよい。このようにすれば、意味最小単位による概念を生かして、類似の範疇の情報を抽出できるようになる。
また、更に、(D)自然言語文の検索クエリーを受け付け、(E)自然言語文を意味解析し、(F)自然言語文の意味解析結果から、検索キーとなる意味最小単位を生成するようにしてもよい。このようにすれば、自然言語文に込められた検索者の意図を反映した検索結果を、効率良く抽出することができる。
また、第1の特定処理で、検索キーとなる意味最小単位が複数特定された場合に、第2の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する意味最小単位を含む検索対象文を抽出する処理を含むようにしてもよい。このようにすれば、すべての意味最小単位が一致する文以外でも、部分的に関連の強い文を柔軟に検索することができる。
また、更に、(G)検索対象文に含まれる意味最小単位の評価値が格納されている評価値格納部から、検索キーの意味最小単位と一致した意味最小単位の評価値を取得し、当該評価値に基づいて特定した検索対象文の評価値を算出するようにしてもよい。このようにすれば、評価の高い意味最小単位を含む文を優先することができる。例えば、希少な情報が抽出されやすい。
また、算出処理は、(g1)一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数に基づいて、特定した検索対象文の評価値を算出する処理を含むようにしてもよい。このようにすれば、同一文内で繰り返される意味最小単位に着目した優先付けができる。例えば、特定のテーマに専門化した文が抽出されやすい。
また、算出処理は、(g2)一つの検索対象文に含まれる意味最小単位のうちのいずれかと一致し且つ検索キーとして特定された意味最小単位の種類数に基づいて、特定した検索対象文の評価値を算出する処理を含むようにしてもよい。このようにすれば、クエリー全体としての一致度に着目した優先付けができる。例えば、同じ論調の文章を探すことに役立つ。
また、算出処理では、(g3)以下の式に従って、文の評価値を算出するようにしてもよい。
文の評価値=[検索キーの意味最小単位(K1,K2,・・・Ki,・・・)のうち、(文に含まれる意味最小単位と一致する又は文に含まれる意味最小単位と一致し且つ所定の条件を満たす意味最小単位Kiの評価値×文における当該意味最小単位Kiの出現回数)の総和]×(文に含まれる意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
このようにすれば、検索対象文書全体に対する意味最小単位の評価と、意味最小単位の文中の出現態様を、総合的に加味した重み付けができる。
また、更に、(I)特定した検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、(J)当該検索対象文書の評価値をソートキーとして、特定した検索対象文を含む検索対象文書を順序付けるようにしてもよい。この場合、出力処理は、(c1)当該検索対象文書の順序に従って検索結果を出力する処理を含むようにしてもよい。このようにすれば、抽出された文のみならず、近傍の文も含む文書全体から所望の情報を読み取る場合に、有用性の高い文書を優先することができる。
また、(i1)検索対象文書の評価値は、特定した検索対象文の評価値の総和であるようにしてもよい。このようにすれば、全体としての適合度が高い文書を抽出することができる。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。
(付記2)
前記データ格納部は、前記意味最小単位に関連付けて前記検索対象文の識別情報を格納しており、
前記出力処理は、特定した前記検索対象文の当該識別情報に対応する検索対象文を、前記検索対象文を格納したデータベースから取得する
処理を含む付記1記載の情報検索方法。
(付記3)
前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
付記1又は2記載の情報検索方法。
(付記4)
前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
付記1又は2記載の情報検索方法。
(付記5)
自然言語文の検索クエリーを受け付け、
前記自然言語文を意味解析し、
前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
処理を、前記コンピュータが更に実行する付記1乃至4のいずれか1つ記載の情報検索方法。
(付記6)
前記第1の特定処理で、前記検索キーとなる意味最小単位が複数特定された場合に、
前記第2の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する前記意味最小単位を含む前記検索対象文を抽出する処理を含む
付記1乃至5のいずれか1つ記載の情報検索方法。
(付記7)
前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
処理を、前記コンピュータが更に実行する付記1乃至6のいずれか1つ記載の情報検索方法。
(付記8)
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうち、前記検索キーとして特定された前記意味最小単位と一致した前記意味最小単位の数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記7記載の情報検索方法。
(付記9)
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうちのいずれかと一致し且つ前記検索キーとして特定された前記意味最小単位の種類数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記7記載の情報検索方法。
(付記10)
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
付記7記載の情報検索方法。
(付記11)
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
処理を、前記コンピュータが更に実行し、
前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
付記1乃至10のいずれか1つ記載の情報検索方法。
(付記12)
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
付記11記載の情報検索方法。
(付記13)
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータに実行させるためのプログラム。
(付記14)
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。
11 検索対象文書データベース
13 検索用インデックス
15 評価値テーブル
31 入力部
33 意味解析部
35 意味最小単位生成部
37 検索部
39 評価値計算部
41 ランキング部
43 出力部
1501 メモリ
1503 CPU(Central Processing Unit)
1505 ハードディスク・ドライブ(HDD:Hard Disk Drive)
1507 表示制御部
1509 表示装置
1511 リムーバブル・ディスク
1513 ドライブ装置
1515 入力装置
1517 通信制御部
1519 バス

Claims (10)

  1. 2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
    検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
    特定した前記検索対象文についての検索結果を出力する出力処理
    を含み、コンピュータが実行する情報検索方法。
  2. 前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
    請求項1記載の情報検索方法。
  3. 前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
    請求項1記載の情報検索方法。
  4. 自然言語文の検索クエリーを受け付け、
    前記自然言語文を意味解析し、
    前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
    処理を、前記コンピュータが更に実行する請求項1乃至3のいずれか1つ記載の情報検索方法。
  5. 前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
    処理を、前記コンピュータが更に実行する請求項1乃至4のいずれか1つ記載の情報検索方法。
  6. 前記算出処理は、以下の式に従って、文の評価値を算出する処理である
    前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
    請求項5記載の情報検索方法。
  7. 特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
    当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
    処理を、前記コンピュータが更に実行し、
    前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
    請求項1乃至6のいずれか1つ記載の情報検索方法。
  8. 前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
    請求項7記載の情報検索方法。
  9. 2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
    検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
    特定した前記検索対象文についての検索結果を出力する出力処理
    を含み、コンピュータに実行させるためのプログラム。
  10. 2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
    検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
    特定した前記検索対象文についての検索結果を出力する出力部と、
    を有する情報検索装置。
JP2012052465A 2012-03-09 2012-03-09 情報検索方法、プログラムおよび情報検索装置 Active JP5915274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012052465A JP5915274B2 (ja) 2012-03-09 2012-03-09 情報検索方法、プログラムおよび情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012052465A JP5915274B2 (ja) 2012-03-09 2012-03-09 情報検索方法、プログラムおよび情報検索装置

Publications (2)

Publication Number Publication Date
JP2013186766A true JP2013186766A (ja) 2013-09-19
JP5915274B2 JP5915274B2 (ja) 2016-05-11

Family

ID=49388113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012052465A Active JP5915274B2 (ja) 2012-03-09 2012-03-09 情報検索方法、プログラムおよび情報検索装置

Country Status (1)

Country Link
JP (1) JP5915274B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138351A (ja) * 2014-01-21 2015-07-30 富士通株式会社 情報検索装置、情報検索方法および情報検索プログラム
JP2016134037A (ja) * 2015-01-20 2016-07-25 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP2017162190A (ja) * 2016-03-09 2017-09-14 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
CN108170689A (zh) * 2016-12-07 2018-06-15 富士通株式会社 对实体进行语义化的信息处理装置和信息处理方法
US10740562B2 (en) 2016-07-19 2020-08-11 Fujitsu Limited Search apparatus, encoding method, and search method based on morpheme position in a target document

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215035A (ja) * 1993-01-18 1994-08-05 Sanyo Electric Co Ltd テキスト検索装置
JPH06231178A (ja) * 1993-01-28 1994-08-19 Toshiba Corp 文書検索装置
JP2009075747A (ja) * 2007-09-19 2009-04-09 Toshiba Corp 類似文検索システム及びプログラム
JP2009199280A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd 部分構文木プロファイルを用いた類似性検索システム
JP2009271659A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2010092357A (ja) * 2008-10-09 2010-04-22 Intec Systems Institute Inc 施設関連情報検索方法および施設関連情報検索システム
JP2011113536A (ja) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd 情報検索プログラム及び情報検索装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215035A (ja) * 1993-01-18 1994-08-05 Sanyo Electric Co Ltd テキスト検索装置
JPH06231178A (ja) * 1993-01-28 1994-08-19 Toshiba Corp 文書検索装置
JP2009075747A (ja) * 2007-09-19 2009-04-09 Toshiba Corp 類似文検索システム及びプログラム
JP2009199280A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd 部分構文木プロファイルを用いた類似性検索システム
JP2009271659A (ja) * 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2010092357A (ja) * 2008-10-09 2010-04-22 Intec Systems Institute Inc 施設関連情報検索方法および施設関連情報検索システム
JP2011113536A (ja) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd 情報検索プログラム及び情報検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015034600; 麻生和昭、外2名: '単語間の係り受け関係を利用したWWW上での日本語テキスト検索システム' 第55回(平成9年後期)全国大会講演論文集(3) , 19970924, pp.3-129〜3-130, 社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138351A (ja) * 2014-01-21 2015-07-30 富士通株式会社 情報検索装置、情報検索方法および情報検索プログラム
JP2016134037A (ja) * 2015-01-20 2016-07-25 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
US11334609B2 (en) 2015-01-20 2022-05-17 Fujitsu Limited Semantic structure search device and semantic structure search method
JP2017162190A (ja) * 2016-03-09 2017-09-14 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
US10740562B2 (en) 2016-07-19 2020-08-11 Fujitsu Limited Search apparatus, encoding method, and search method based on morpheme position in a target document
CN108170689A (zh) * 2016-12-07 2018-06-15 富士通株式会社 对实体进行语义化的信息处理装置和信息处理方法

Also Published As

Publication number Publication date
JP5915274B2 (ja) 2016-05-11

Similar Documents

Publication Publication Date Title
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
US10108699B2 (en) Adaptive query suggestion
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
JP5915274B2 (ja) 情報検索方法、プログラムおよび情報検索装置
US8812504B2 (en) Keyword presentation apparatus and method
US20150081654A1 (en) Techniques for Entity-Level Technology Recommendation
US20140101162A1 (en) Method and system for recommending semantic annotations
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Kantorski et al. Automatic filling of hidden web forms: a survey
JP2009122807A (ja) 連想検索システム
US9940408B2 (en) Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium
JP6152711B2 (ja) 情報検索装置および情報検索方法
Iqbal et al. CURE: Collection for urdu information retrieval evaluation and ranking
TW201102842A (en) Word matching and information searching method and device thereof
US8117205B2 (en) Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric
JP2004192374A (ja) 文書検索装置、プログラムおよび記録媒体
JP3558267B2 (ja) 文書検索装置
JP2012104051A (ja) 文書インデックス作成装置
Schedl et al. Automatically detecting members and instrumentation of music bands via web content mining
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP4208402B2 (ja) 文書検索装置、文書検索方法および記録媒体
Iyad et al. Towards supporting exploratory search over the Arabic web content: The case of ArabXplore
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160321

R150 Certificate of patent or registration of utility model

Ref document number: 5915274

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150