JP6152711B2 - 情報検索装置および情報検索方法 - Google Patents

情報検索装置および情報検索方法 Download PDF

Info

Publication number
JP6152711B2
JP6152711B2 JP2013118248A JP2013118248A JP6152711B2 JP 6152711 B2 JP6152711 B2 JP 6152711B2 JP 2013118248 A JP2013118248 A JP 2013118248A JP 2013118248 A JP2013118248 A JP 2013118248A JP 6152711 B2 JP6152711 B2 JP 6152711B2
Authority
JP
Japan
Prior art keywords
search
sentence
unit
semantic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013118248A
Other languages
English (en)
Other versions
JP2014235664A (ja
Inventor
清司 大倉
清司 大倉
明 潮田
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013118248A priority Critical patent/JP6152711B2/ja
Priority to US14/286,434 priority patent/US20140358522A1/en
Publication of JP2014235664A publication Critical patent/JP2014235664A/ja
Application granted granted Critical
Publication of JP6152711B2 publication Critical patent/JP6152711B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Description

本発明は、情報検索装置および情報検索方法に関する。
例えば、インターネット上で何らかの情報を得たい場合に、検索サイトにおいてキーワードを入力して、入力したキーワードを含む文書を抽出する技術が知られている。また、このようなキーワード検索を行うための言語処理に関しては、様々な技術が知られている。(例えば、非特許文献1〜3参照)
「自然言語理解」、田中穗積、辻井潤一共編、オーム社、1988年 「入門 自然言語処理」、Steven Bird、 Ewan Klein、 Edward Loper 著、萩原正人、中山敬広、水野貴明 訳、O'Reilly Japan、2010年 Steven Bird、 Ewan Klein、 Edward Loper 著、萩原正人、中山敬広、水野貴明 訳、"Pythonによる日本語自然言語処理"、[online]、インターネット(http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)
ところで、上記のようなよく知られたキーワードによる検索では、キーワード単位のクエリを用いるため、複数のキーワード間の関係を検索条件に含めることができない。よって、キーワード単位のクエリには、あいまい性が含まれ、各キーワードを組み合わせて表される意味が特定されないことがある。このため、キーワード検索では、ユーザが意図したとおりに検索されない場合がある。また、キーワードを含んでいても意図しない文書が検索される場合がある。つまり、たとえ抽出された文書中のキーワードにヒットした部分を出力しても、必ずしもユーザが欲しい情報ではないことがある。従って、ユーザは、有用な情報を抽出する判断に時間を費やすことになる。
ひとつの側面によれば、本発明は、意図する検索結果を効率よく取得することが可能な情報検索装置および情報検索方法である。
ひとつの態様である情報検索装置は、入力部、演算処理部、出力部を有している。入力部は、複数の検索用単語を含む情報の入力を受け付ける。演算処理部は、受け付けた情報から2つの検索用単語を分離し、検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の前記検索対象文における関係を示す意味情報を検索対象文と関連付けて記憶した記憶部から、2つの検索用単語と対応する2つの単語とその意味情報を検索して抽出する。出力部は、抽出された意味情報を出力する。ここで、入力部は、少なくとも一つの文の入力の受け付けも行う。入力部が受け付けた入力が文の場合には、演算処理部は、文を意味解析することにより意味情報を生成し、記憶部から意味情報と関連付けて記憶された文を検索する。
別の態様である情報検索方法は、情報検索装置が、複数の検索用単語を含む情報の入力を受け付け、複数の検索用単語を含む情報から2つの検索用単語を分離する。また、情報検索装置が、記憶部から、2つの検索用単語と対応する2つの単語とその意味情報を検索して抽出し、抽出された意味情報を出力するこのとき、記憶部は、検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の検索対象文における関係を示す意味情報を検索対象文と関連付けて記憶している。複数の検索用単語を含む情報の入力の受け付けでは、少なくとも一つの文の入力の受け付けも行う。ここで、受け付けた入力が文の場合には、文を意味解析することにより意味情報を生成し、記憶部から意味情報と関連付けて記憶された文を検索する。
上述した態様の情報検索装置および情報検索方法によれば、意図する検索結果を効率よく取得することが可能となる。
情報検索装置の構成の一例を示すブロック図である。 文の解析例を示す図である。 文の解析例を示す図である。 文の解析例を示す図である。 文字オフセット例および意味記号の一例を示す図である。 インデックステーブルの一例を示す図である。 評価値テーブルの一例を示す図である。 クエリが文の場合の検索処理を示すフローチャートである。 クエリから分割された単語を含む単語テーブルの一例を示す図である。 辞書テーブルの一例を示す図である。 検索キーの一例を示す図である。 検索結果の一例を示す図である。 検索結果の表示例を示す図である。 検索結果を示す表の変換例を示す図である。 検索結果を示す表の変換例を示す図である。 検索結果を示す表の変換例を示す図である。 検索結果を示す表の変換例を示す図である。 選択例を示す図である。 キーワードによる検索処理を示すフローチャートである。 表の変換処理の一例を示すフローチャートである。 変形例1による検索結果の表示例を示す図である。 変形例1による検索結果の表示例を示す図である。 変形例1による検索結果の表示例を示す図である。 変形例1による検索結果の表示例を示す図である。 変形例1による検索結果の表示例を示す図である。 変形例1による検索結果の表示例を示す図である。 変形例2による文の解析例を示す図である。 変形例2による文の解析例を示す図である。 変形例2による文の解析例を示す図である。 変形例2による文字オフセット例および意味記号を示している。 変形例2による意味解析を説明する図である。 変形例2による辞書テーブルの一例を示す図である。 変形例2による意味解析を説明する図である。 変形例2による表示例を示す図である。 変形例2による検索結果の一例を示す図である。 標準的なコンピュータのハードウエア構成の一例を示す図である。
(第1の実施の形態)
以下、図面を参照しながら、第1の実施の形態による情報検索装置1について説明する。図1は、情報検索装置1の構成の一例を示すブロック図である。情報検索装置1は、クエリとして、少なくとも一つの単語、または文を入力することにより検索を行うシステムである。情報検索装置1は、対象文書Data Base(DB)11、検索用インデックス13、評価値テーブル15、評価値計算部39、ランキング部41を有している。また、情報検索装置1は、クエリ入力部23、キーワード入力部25、キーワード変換部27、検索キー生成部29、文章入力部31、意味解析部33、意味最小単位生成部35、検索部37、出力部43、辞書51、記憶部53を有している。検索部37は、キーワード検索部45、および自然文検索部47を備えている。
検索対象文書DB11、検索用インデックス13、評価値テーブル15は、検索を実行する前に準備処理として生成されるものとする。辞書51は、予め用意されているものとするが、必要に応じて追加記憶、または修正が可能であるようにしてもよい。検索対象文書DB11は、検索対象となる文書を記憶したデータベースである。例えば、検索対象文書DB11に記憶される各文書は、文書を識別する識別情報と関連付けて記憶されることが好ましい。
検索用インデックス13は、検索対象文書に含まれる各文の意味最小単位、ノードの位置等を格納しているデータベースである。意味最小単位は、文中の2つの概念間の関係または概念の役割を表すものである。ノードとは、文中の単語の概念を表すものである。予め行う準備処理では、複数の検索対象文書に対して意味解析を行い、それらの文書中の各文について意味最小単位を生成し、始点、終点の各ノードの位置および文字列長等を含む検索用インデックス13を生成する。意味最小単位については後述する。
評価値テーブル15は、検索用インデックス13に含まれる各意味最小単位に関する評価値を格納したテーブルである。評価値とは、例えば、各意味最小単位を含む文書の数を示す検索数に基づき計算される値とすることができる。一例としては、下記の式1のようなidf値を用いることができる。
idf=log(総文書数/当該意味最小単位を含む文書数)・・・(式1)
ここで、総文書数とは、検索対象文書DB11に記憶された文書の総数である。当該意味最小単位を含む文書数とは、総文書数の中で、idf値算出の対象の意味最小単位を含む文書の数である。idf値は、意味最小単位を含む検索対象文書の数がより少ない場合に、より大きい。意味最小単位の評価値は、他の値でもよいが、意味最小単位の有用性を示す値とすることが好ましい。評価値は、評価値計算部39により計算される。
上述したように、検索は、自然言語文(以下、単に文という)が入力される場合と、単語(以下、キーワードという)が入力される場合が想定される。クエリ21は、検索のための少なくとも一つのキーワード、または少なくとも一つの文、あるいはそれらの組み合わせ等である。クエリ入力部23は、ユーザのキーボード、マウス、タッチパネル等の操作、またはネットワークを介して入力されるクエリ21を受け付け、クエリ21が、文であるかキーワードであるかを判別する。文であるかキーワードであるかの判別は、例えば句点や読点の有無により行うようにしてもよい。
キーワード入力部25は、クエリ21が少なくとも一つのキーワードを含む場合に、クエリ21のキーワード文字列を受け付け、キーワードをスペースなどのデリミタで分割する。キーワード変換部27は、分割したそれぞれのキーワードに対し、辞書51を参照しながら、単語から意味記号へ変換する。辞書51は、単語と意味記号とを関連付けた情報である。意味記号とは、意味を表す記号である。
検索キー生成部29は、変換された意味記号から2つ組を生成し、検索キーとする。検索部37は、検索キーに基づいて検索対象文書DB11、検索用インデックス13等のデータベースを検索する。このとき、検索キーにマッチした意味最小単位についての頻度情報も検索する。検索結果表示部に検索結果が表示される。
文章入力部31は、クエリ入力部23に入力されたクエリ21が文の場合にクエリ21を受け付け、例えば、句点等により一文ずつに分割する。意味解析部33は、例えば、クエリ21の1文1文に関して意味解析を行う。意味解析の出力は、単語の意味(意味記号)をノード、2つの意味記号の関係をアークとした有向グラフである。
意味最小単位生成部35は、1文の意味を表す有向グラフから、2つの意味記号の関係を表す「意味最小単位」を抽出する。意味最小単位は、アークごとに、(アークが出発するノード(始点ノード)、アークが到達するノード(終点ノード)、アーク名とする。アークが出発・到達するノードがない場合は、“NIL”で示す。
検索部37のキーワード検索部45は、クエリ21がキーワードの場合に、クエリ21から生成された検索キーを条件として、検索用インデックス13を検索する。自然文検索部47は、クエリ21が文の場合に、クエリ21から生成された意味最小単位を条件として、検索用インデックス13を検索する。複数の意味最小単位が検索条件となっている場合には、いずれか少なくとも一つを含む場合に検索結果として抽出される。検索にマッチした意味最小単位に対応する文書が、検索用インデックス13から選び出される。
評価値計算部39は、評価値テーブル15と検索用インデックス13を参照し、マッチした意味最小単位に基づいて抽出した各文を含む文書の評価値を計算する。ランキング部41は、抽出した各文書をランク付けする。つまり、ランキング部41は、評価値計算部39により計算された文書の評価値をソートキーとしてソートする。
出力部43は、ランク付けされた結果、キーワード検索部45による後述する検索結果等を出力する。出力の形態は、例えば表示、印刷、又は送信である。抽出された文書は、例えば、有用な順、または分類された順等に並べられ、ユーザに提示される。例えば、抽出された文が表示される。辞書51は、単語と意味記号とを関連付けて記憶した情報である。記憶部53は、例えば、各種処理を行う際に必要に応じて情報を随時読み出し及び書き込み可能な記憶装置である。
ここで、準備処理として、検索対象文書DB11、検索用インデックス13、評価値テーブル15を生成する処理について、図2から図6を参照しながら説明する。この処理は、クエリ21として文が入力された場合の処理と類似しており、文章入力部31、意味解析部33、意味最小単位生成部35により実行することができるため、これらを用いて処理を行うとして説明する。なお、準備処理は、実際に情報検索装置1により検索実行前に行ってもよい。また、準備処理は、文章入力部31、意味解析部33、意味最小単位生成部35などを有する別の装置で行って、検索時には、準備処理を行った装置で生成された検索対象文書DB11、検索用インデックス13、評価値テーブル15を利用するようにしてもよい。
図2から図4は、文の解析例を示す図である。図5は、文字オフセット例、および意味記号の一例を示す図である。図6は、インデックステーブル81の一例を示す図である。文章入力部31は、検索対象文書DB11に記憶しようとする文書が入力されると、入力された文書を一文ずつに分割する。意味解析部33は、分割されたそれぞれの文に関して、意味解析を行う。このとき、意味解析部33は、文を単語に分割してノードとし、単語間の関係を解析することによりノード間の関係、始点ノード、終点ノード、および文におけるそれぞれのノードの位置および文字列長を抽出する。意味最小単位生成部35は、意味解析の結果に基づき意味最小単位を生成する。
図2の例で説明すると、入力された原文71が、「太郎は花子に本をあげた。」という文であるとすると、意味解析部33により、意味解析が行われ、有向グラフ73および意味最小単位75が生成される。
ここで、有向グラフと意味最小単位について説明する。意味最小単位は、意味解析の結果として得られる有向グラフの部分構造を表す。有向グラフは、ノードとアークとを含む。図2の有向グラフ73は、有効グラフの一例を示し、意味最小単位75は、意味最小単位の一例を示す。有向グラフの生成は、例えば、非特許文献1〜3等に記載されている技術を用いて行うことができる。
ノードは、入力文中の単語の概念(意味)を表す。「あげる」、「本」、「太郎」、及び「花子」は、ノードの例である。それぞれのノードには、その概念を表す記号(意味記号という。)が付加される。「GIVE」、「BOOK」、「TARO」、及び「HANAKO」は、意味記号の例である。
アークは、ノード間の関係又はノードの役割を表す。アークが2つのノード間にある場合には、そのアークは2つのノード間の関係を表す。例えば、図中「GIVE」ノードから「BOOK」ノードに引かれているアークは、「対象」と名付けられている。この表示は、「BOOK」は「GIVE」の対象であることを意味している。一方、終点のノードがないアークは、起点のノードが有する役割を表す。例えば、図中起点のノードが「GIVE」であり、かつ終点がノードのないアークの一方は、「過去」と名付けられている。「GIVE」は、過去の役割であることを意味している。なお、アークが出るノードを始点ノード、アークが向かうノードを終点ノードという。
意味解析部33は、意味最小単位の生成において、有向グラフからアークを抽出し、以下のように処理する。
(a)アークが2つのノードをつないでいる場合には、意味最小単位として、それぞれのアークに対して、(始点ノード、終点ノード、アークの名前)を出力する。
(b)始点ノードがない場合には、意味最小単位として、(「NIL」、終点ノード、アークの名前)を出力する。
(c)終点ノードがない場合には、意味最小単位として、(始点ノード、「NIL」、アークの名前)を出力する。
このように、例えば、原文71からは、意味最小単位75に記載の意味最小単位が抽出される。同様に、「花子は太郎に本をあげるだろう。」という原文に基づき、図3の解析例76が抽出され、「太郎は棚に本をあげた。」という原文に基づき、図4の解析例77が生成される。
図5は、文字オフセット例78および意味記号79を示している。この例は、検索対象文書DB11に格納する文の一例であり、文書ID=21、文番号=3の文の例である。オフセットとは、文の先頭から数えた文字数である。文の先頭のオフセットを「0」とし、1文字ごとにオフセットを増やしていくと、文字オフセット例78に示すように、1文字ごとにオフセットが対応付けられる。例えば意味解析部33により意味解析が行われた際、文字列と意味記号との対応がとれる。また、「太郎」に相当する意味記号は「TARO」、のようになる。
図6に示すように、インデックステーブル81は、意味最小単位を検索用インデックス13に格納した例である。インデックステーブル81は、意味最小単位83、文書ID85、文ID87、始点ノード位置89、始点ノード文字列長91、終点ノード位置93、終点ノード95を有している。文書ID85は、意味最小単位83が抽出された文書の識別情報である。文ID87は、意味最小単位83が抽出された文の識別情報である。
始点ノード位置89は、意味最小単位83における始点ノードのはじめの文字の、文ID87の先頭から数えた文字数を表す。始点ノード文字列長91は、始点ノードの文字数である。終点ノード位置93は、意味最小単位83における終点ノードのはじめの文字の、文ID87の先頭から数えた文字数を表す。終点ノード文字列長95は、終点ノードの文字数である。
インデックステーブル81において、最初の3行が、図3の意味最小単位75のうちの3つを格納した例である。(GIVE、HANAKO、目標)を例にとると、文書ID=23、文ID=3である。そして始点ノード(=「GIVE」)の位置は、図6を参照すると、始点ノード位置89=8であり、始点ノード文字列長91=2である。同様に、終点ノード(=「HANAKO」)の位置は終点ノード位置93=3、長さは、終点ノード文字列長95=2である。このようにして、解析した全ての意味最小単位等が、検索用インデックス13に格納される。
全ての意味最小単位が格納されると、例えば評価値計算部39により頻度情報が計算される。頻度情報とは、各意味最小単位がデータベース中に出現する回数である。頻度情報は、例えば、評価値テーブル15に格納される。さらに、頻度情報に基づき、上述したidf値が計算される。評価値計算部39は、算出したidf値を、意味最小単位と関連付けて評価値テーブル15に記憶するようにしてもよい。
図7は、評価値テーブル99の一例を示す図である。評価値テーブル99は、最小意味単位と、対応するidf値とを対応付けた情報である。さらに、最小意味単位ごとの頻度情報を記憶するようにしてもよい。
以上のように、準備処理においては、文章入力部31が、検索対象文書DB11に含まれる文書を文に分割する。意味解析部33は意味解析を行って有向グラフを生成し、有向グラフに基づき、例えば、インデックステーブル81のように、検索用インデックス13に情報を追加する。意味解析部33は、全ての文書および文について意味解析を行うとともに、検索用インデックス13へ解析結果を記憶させる。評価値計算部39は、頻度情報、idf値を計算する。これにより、検索対象文書DB11と、対応する検索用インデックス13、評価値テーブル15が生成される。検索用インデックス13によれば、意味最小単位から、文書ID85、文ID87、ノードの文中の位置が検索可能となる。
次に、図8を参照しながら、文による検索処理について説明する。この検索処理においては、クエリ及び各検索対象文書に含まれる各文に関して意味解析を行い、それぞれの意味最小単位を得て、意味最小単位を検索キーとして検索が行われる。また、意味最小単位のidf値を使って抽出された文書の評価値を計算することにより、ランク付けが行われる。
図8は、クエリが文の場合の検索処理を示すフローチャートである。図8に示すように、文章入力部31は、クエリとして入力された文を受付け(S111)、文が複数の場合には、一つずつの文に分割する(S112)。意味解析部33は、それぞれの文の意味解析を行い、例えば有向グラフを生成する。意味最小単位生成部35は、意味解析の結果に基づき、上記準備処理と同様に、意味最小単位を生成する(S113)。ただし、意味最小単位のクエリを受け付けることにより、意味最小単位を特定するようにしてもよい。自然文検索部47は、抽出された意味最小単位を検索キーとする。例えば、検索キーは、図2に示した意味最小単位75に含まれる意味最小単位(GIVE、TARO、目標)等とすることができる。
自然文検索部47は、検索用インデックス13において、検索キーに合致する意味最小単位83、その意味最小単位83を含む文の文ID87等を抽出し、例えば記憶部53に記憶する(S115)。すなわち、自然文検索部47は、始点ノード、終点ノード、アークが検索キーと一致する意味最小単位を検索用インデックス13から抽出する。
自然文検索部47は、S115の処理を、クエリ21から抽出された全ての検索キーについて行うまで繰り返す(S116:NO)。S115の処理が全ての検索キーについて行われると(S116:YES)、評価値計算部39は、抽出された文書ごとに、評価値テーブル15を参照しながら、文書の評価値を算出する(S117)。ランキング部41は、計算された評価値に基づき抽出された文書をソートし(S118)、出力部43により結果を出力する(ステップ119)。
ここで、クエリが文の場合の評価値計算の例について説明する。まず、評価値計算部39は、全文書の評価値を「0」に設定し、検索キーが検索用インデックス13に記憶された意味最小単位とマッチした場合に、文毎に評価値を算出する。評価値計算部39は、その文を含む文書の評価値にその文の評価値を足す。評価値計算部39がマッチした文のすべてを処理することにより、文書の評価値が得られる。文書の評価値は、その文書に含まれる文の評価値の総和である。
一つの検索対象文nの評価値は、例えば、下記の式2で表される。
文nの評価値Sn=(クエリの意味最小単位の集合(K1、K2、・・・Ki、・・・)のうち、(文nに出現するKiのidf値×文nにおけるKiの出現回数)の総和)
×M
ただし、Mは、文nにおいて検索キーとして特定された意味最小単位の種類数
・・・(式2)
種類数Mは、クエリの全体を網羅していることを評価することに役立つ。また、Mの二乗値を用いることにより、その評価の程度が増す。文nにおけるKiの出現回数は、一つの検索対象文に含まれる意味最小単位のうち、検索キーとして特定された意味最小単位と一致した意味最小単位の数である。
文書の評価値は、例えば、下記の式3で表される。
文書の評価値(D)=文nの評価値(Sn)の総計・・・(式3)
このように、評価値計算部39は、文書に含まれる文の評価値を合算する。
一例として、ある文mが、6つの意味最小単位を含んでおり、それぞれのidf値=2.0であり、それぞれの意味単位の出現回数が1回の場合、この文mの評価値(Sm)は、下記の式4で算出される。
評価値(Sm)=(2×1+2×1+2×1+2×1+2×1+2×1)×6
=432.0・・・(式4)
上記評価値は、クエリ21に応じた意味最小単位が多く含まれる文ほど、高評価となる。
文書の評価値の計算例は、以下のようになる。例えば、文書Aが文lと文mの2文からなると仮定する。文lの評価値(Sl)=18.0、文書Aの評価値は18.0+432.0=450.0となる。
ランキング部41は、例えば、文書の評価値で昇順または降順にランキングすることができる。出力部43は、並び替えられた文書のデータを出力する。このとき、抽出された文の評価値をソートキーとして、抽出された文をソートし、ソート順に表示するようにしてもよい。
以上のように、クエリ入力部23により、入力が文と判別された場合、文章入力部31は、クエリ21に含まれる少なくとも一つの文を文に分割する。意味解析部33は、それぞれの文に対して意味解析を行い、有向グラフを生成する。意味最小単位生成部35は、生成された有向グラフに基づき、意味最小単位を生成する。自然文検索部47は、生成された意味最小単位を検索キーとして、検索用インデックス13を対象に検索を行う。評価値計算部39は、検索結果に基づき文書の評価値を計算し、ランキング部41は、評価値に基づき文書をソートする。出力部43は、検索結果を出力する。
次に、キーワードがクエリ21として入力された場合について、図9から図18を参照しながら説明する。図9は、クエリ21から分割された単語を含む単語テーブル131の一例を示す図である。図10は、辞書テーブル133の一例を示す図である。図11は、検索キー135の一例を示す図である。
図9の例では、ユーザがクエリ21として「あげる 太郎 本」と入力し、検索を行う場合を示している。ユーザの意図は、「誰かが誰かに本をあげる(プレゼントする)」という文を検索することである。「誰か」、には「太郎」を含むとする。
図9に示すように、単語テーブル131は、上記クエリ21から分割された単語を示す例であり、「あげる」、「太郎」、「本」が含まれる。単語テーブル131は、例えば、キーワード入力部25において生成される。
図10に示すように、辞書テーブル133は、辞書51に含まれる情報の一例である。辞書テーブル133には、「あげる」に対応する意味記号「GIVE」、「LIFT」、「太郎」に対応する意味記号「TARO」等が含まれている。辞書テーブル133は、キーワード変換部27が、単語テーブル131に含まれる単語を辞書テーブル133に含まれる意味記号に変換する際に参照される。
図11に示すように、検索キー135は、抽出された単語に対応する意味記号の組み合わせにより生成される。すなわち、「あげる」、「太郎」、「本」の3つの単語から、対応する意味記号が4つ「GIVE」、「LIFT」、「TARO」、「BOOK」が検索された場合、4つの意味記号から異なる2つを選択した12個の検索キーが抽出される。このとき検索キーは、2つの意味記号と、一つのアークで表され、例えば、(GIVE、TARO、*)、(GIVE、BOOK、*)、・・・、である。なお、「*」は任意のアークを表す。
一般的に、検索キーは、(意味記号A、意味記号B、*)で表される。ただし、意味記号A≠意味記号Bである。また、検索時には、(意味記号A、意味記号B、*)および(意味記号B、意味記号A、*)について検索を行うものとする。このとき、名詞と動詞との組み合わせのみを抽出するようにしてもよい。検索キー135は、検索キー生成部29で生成される。
図12は、検索結果141の一例を示す図である。検索結果141は、検索結果の一例を示す情報である。検索結果141は、検索キー143、検索結果145、検索結果を含む文ID147、検索件数149を含んでいる。検索キー143は、検索キー生成部29で生成された例えば検索キー135である。検索結果145は、検索用インデックス13から抽出された、検索キー135のそれぞれと一致する意味最小単位である。検索結果145を含む文ID147は、検索結果145の意味最小単位が含まれる文書および文の識別情報である。検索件数149は、検索の結果抽出された文の数である。
例えば、検索キーとして(GIVE、TARO、*)を検索する場合、図6のインデックステーブル81において、検索結果97、検索結果98がマッチする。検索結果97、検索結果98を参照すると、文書ID85、文ID87に基づき以下の情報が抽出される。
すなわち、検索キー(GIVE、TARO、動作主)が含まれる文は、(文書ID21、文ID3)であり、検索キー(GIVE、TARO、目標)が含まれる文は、(文書ID32、文ID53)である。同様に他の全ての組み合わせについても検索が行われる。
図13は、検索結果の表示例151を示す図である。図13に示すように、表示例151は、検索結果141の検索結果を含む文ID147に重複して抽出されたものを排除することにより、3種類の文が検索結果として抽出されたことを示している。すなわち、(文書ID21、文ID3)、(文書ID32、文ID53)、(文書ID81、文ID3)である。
図12の検索結果141、および、図13に示した表示例151は、例えば、ユーザの意図とは異なる「LIFT」に相当する検索結果を含んでいる。そこで、よりユーザの意図に近い検出結果の表示、または意図する結果の絞込みを容易にする表示のための表変換について、図14から図17を参照しながら説明する。図14から図17は、検索結果を示す表の変換例を示す図である。
図14に示すように、表変換例153は、検索キー155、検索結果157、検索件数149、検索結果を含む文ID147、文例159を示している。検索キー155は、検索キー135の意味記号の部分を単語表示したものである。単語表示は、検索時にユーザが入力したクエリ21に含まれる各単語を意味記号に変換したときの対応をキーワード変換部27が例えば記憶部53に記憶させておき、意味記号を対応する単語に置換することにより可能である。それぞれの意味最小単位は、2つの単語に置換される。
検索結果157は、検索結果145を表層文字列に変換した文である。変換は、検索用インデックス13の始点ノード位置89、終点ノード位置93等に基づき行うことができる。文例159は、検索結果を含む文ID147における文IDに相当する文である。文IDが複数ある場合、その1文をある基準で選択してもよいし、ランダムに選択してもよい。なお、検索結果154は、ユーザの意図とは異なる「LIFT」に相当する検索結果である。
図15の表変換例161は、検索キー155で表変換例153をソートした例である。表変換例161は、検索キー155、検索結果157、検索件数149、文例159を含んでいる。検索結果を含む文ID147は、表変換例161からは削除されているが、対応は例えば記憶部53に記憶されることが好ましい。表変換例161では、同じ検索キー155を含む複数のセルを一つにまとめている。
図16は、表示例163を示している。表示例163は、表変換例161において、文例159を削除し、検索結果157毎にまとめて表示した例である。すなわち、同じ検索結果157が複数行ある場合、例えば、先頭行のみを残して他の行を削除されている。このとき検索件数149は、まとめた行に対応する数の合計数である。また、表示例163は、チェックボックス165および絞り込みボタン167を有している。チェックボックス165は、それぞれの行を選択する選択欄であり、絞り込みボタン167は、クリックやタッチなどにより選択を行うことで、チェックされたチェックボックス165に対応する行に絞り込むボタンである。
例えば、図15の検索結果157では、「太郎はあげる」に対応する行は2行あり、検索件数は1件ずつである。図16の表示例163の検索結果157では、検索件数149は合計して2件とし、1行にまとめられている。例えば、表示例163において、検索結果157に下線162で示したようにリンクをつけ、このリンクを選択すると、検索された文書中の文を表示するようにしてもよい。
図17は、表展開例171を示す図である。図17に示すように、表展開例171は、表示例163において、「本をあげる」の欄のチェックボックス165が選択され、絞り込みボタン167が押下された状態を示している。このとき、選択された行は2行に展開され、チェックボックス173、175は、展開された行毎に表示されるが、ともに選択された状態を示している。チェックボックスは展開した行数だけ表示するが、全て選択された状態にする。このように選択を行うことにより、より詳細な抽出結果が表示される。ここで、「本をあげる」に対応する検索キー155は「あげる 本」であり、表展開例171の例では、斜めの文字で表示されている。
図18は、選択例181を示す図である。本実施の形態では、ユーザの意図は、「誰かが誰かに本をあげる(プレゼントする)」という文を検索することなので、チェックボックス183により、「本をあげる」が選択されている。すなわちユーザは、「太郎は花子に本をあげた」、「太郎は棚に本をあげた」の2つの文例を見て、意図しているのは「太郎は花子に本をあげた」と判断する。そして、「太郎は花子に本をあげた」の行のチェックボックス183が選択され、絞り込みボタンが押下される。
以下、図19を参照しながら、クエリ21がキーワードの場合の検索処理について説明する。図19は、キーワードによる検索処理を示すフローチャートである。まず、クエリ入力部23は、クエリ21を受付ける。このときクエリ入力部23は、クエリ21が、少なくとも一つの単語を含む単語列であると判別する(S191)。
キーワード入力部25は、クエリ21の単語列を単語に分割する(S192)。また、キーワード入力部25は、辞書51を参照し、それぞれの単語を意味記号に変換する(S193)。検索キー生成部29は、変換された意味記号の組み合わせを生成し、検索キーを生成する(S194)。
キーワード検索部45は、検索用インデックス13から検索キーを含む文書および文の文書ID、文IDを取得する(S195)。キーワード検索部45は、全ての検索キーについてS195の処理が終了するまでS195を実行し(S196:NO)、終了すると(S196:YES)、検索結果の件数を計算する(S197)。
出力部43は、検索結果を検索件数順に表示する(S198)。キーワード検索部45は、出力結果において、ユーザによる絞込みが行われたことを検出すると(S199:YES)、S197に戻って処理を繰り返す。例えば、一定時間内に絞込みが行われない場合には(S199:NO)、キーワード検索部45は、処理を終了する。
以下、図20を参照しながら、表変換処理について説明する。図20は、表の変換処理の一例を示すフローチャートである。図20に示すように、出力部43は、表示結果の表において、検索キーの列をキーワードに変換する(S201)。例えば、出力部43は、図12の検索キー143を、図14の検索キー155のように変換する。出力部43は、検索結果の列を、表層文字列に変換する(S202)。例えば、出力部43は、図12の検索結果145を、図14の検索結果157に変換する。
出力部43は、表において、文例を追加する(S203)。例えば、出力部43は、図14の表変換例153における文例159を追加する。出力部43は、検索キーで表をソートする(S204)。例えば、出力部43は、図14の検索キー155を、図15の検索キー155のようにソートする。出力部43は、例えば、表変換例161において、同じ検索キーの行については、同じ検索キーを含む複数の行を一つにまとめる(S205)。また、出力部43は、表変換例161において、各行に付き、対応する文例を例えば、記憶部53に記憶させる(S206)。出力部43は、表変換例161において、文例を削除し(S207)、各検索キー155について、検索結果157によりソートする(S208)。出力部43は、同じ検索結果157について複数の行が存在している場合には、先頭行のみを残して、他の行を削除するとともに、検索件数149を合計する(S209)。さらに、出力部43は、必要なリンク、およびチェックボックスを追加し、例えば図16の表示例163を生成する。(S210)。
以上説明したように、本実施の形態による情報検索装置1によれば、クエリ入力部23が、入力されたクエリ21が、単語列であるか文であるかを判別し、それぞれに応じた処理を選択する。クエリ21が単語列である場合には、キーワード入力部25は、クエリ21の単語列を単語に分割する。キーワード変換部27は、辞書51を参照し、分割された単語をそれぞれ意味記号に変換する。検索キー生成部29は、変換された意味記号の組み合わせを生成し、検索キーを生成する。キーワード検索部45は、検索キーにマッチする意味最小単位を検索用インデックス13から抽出し、検索結果とする。出力部43は、検索結果を例えば表の形態にして出力する。出力部43は、ユーザが結果から絞込みが可能な形態で結果を出力し、ユーザの選択に基づき、結果の表示を変更する。
クエリ21が文章の場合には、文章入力部31は、クエリ21を文に分割する。意味解析部33は、分割されたそれぞれの文について意味解析を行う。意味最小単位生成部35は、意味解析の結果に基づき、それぞれの文について意味最小単位を生成する。自然文検索部47は、意味最小単位生成部35で生成された意味最小単位を検索用インデックス13において検索し、文書ID、文ID等の検索結果を抽出する。評価値計算部39は、抽出された結果および評価値テーブル15に基づき、抽出結果の文、または文書の評価値を算出する。ランキング部41は、算出された評価値に基づき抽出結果の文または文書をソートする。出力部43は、結果を出力する。
また、情報検索装置1は、検索対象文書DB11に新たな文書を登録し、登録した文書について意味解析を行って、意味最小単位を生成し、検索用インデックス13に登録するとともに評価値テーブル15に評価値を記憶させる機能を有する。
以上のように、情報検索装置1によれば、クエリ21が文であっても、単語であっても、自動的に判別して検索を行うことができる。情報検索装置1によれば、クエリ21の意味解析結果に応じて、意図した文書の検索が可能である。これにより、検索の精度が向上する。また、クエリ21に含まれるキーワードの数が増えたり、文が入力されたりすることにより、ユーザの意図があいまいになり、検索結果にユーザが意図しないものが入ってしまうことを防止できる。本実施の形態では単純な例を挙げたが、この構成、アルゴリズムにより、キーワードが増えても対応できる。
ユーザに検索結果として提示される表に、検索結果およびそれに対する検索件数が表示される。また、提示される表において、評価値や、検索件数を用いて検索結果をソートした上で表示を行うことができる。これにより、検索結果から意図した情報を抽出するためにかかる時間を削減でき、意図した情報がより簡易に検索可能となる。
また、文に関する評価値を導入することにより、例えば、同一文内で繰り返される意味最小単位に着目した優先付けができる。例えば、特定のテーマに専門化した文が抽出されやすい。また、文書単位の評価値を導入することにより、検索対象文書全体に対する意味最小単位の評価と、意味最小単位の文中の出現態様を、総合的に加味した重み付けができる。
意味最小単位は、有向グラフの部分構造に基づくので、意味最小単位のマッチングによる検索は、有向グラフのマッチングによる検索に比べて、より柔軟に行うことができる。よって、効率よく文書を絞り込むことができ、意味的に意図通りの文書を簡単に選択できる。なお、上記実施の形態による情報検索装置1は、例えば論文や特許の検索、あるいは一般のWebページの検索などに特に有用である。
(変形例1)
以下、図21から図26を参照しながら、変形例1について説明する。本変形例1は、検索結果の表示における変形例である。図21から図26は、検索結果の表示例を示す図である。本変形例1では、「低気圧を観測することにより、日本の気象を予測する」という文書を探したいとする。ユーザは、例えば「低気圧 観測 日本 気象 予測」というキーワードを入力する。
図21は、検索結果221を示す図である。検索結果221は、上記キーワードによる検索結果の一例である。図22は、別の検索結果223を示す図である。検索結果223は、検索結果221において、一つの検索キーに対して最も検索件数の多い抽出結果のみを表示した例である。これにより、ユーザが見る検索結果の量が削減される。検索結果223は、データベースに頻繁に出現するものを表示しているため、ユーザが欲するであろう情報をもれなく提示することができる。
図23は、検索結果225を示す図である。検索結果225は、検索結果221において、検索キー毎の検索件数が1000以上の結果のみを表示した例である。これによっても、ユーザが見る検索結果の項目数が削減される。
図24は、検索結果227を示す図である。検索結果227では、検索キー毎の検索件数が最も多く、かつ1000以上の項目のみを表示した例である。図25は、検索結果229を示す図である。検索結果229は、検索結果227において、全ての項目が選択された状態を示している。すなわちチェックボックス231が全て選択された状態である。検索結果229においては、ユーザは、選択を外すだけでよく、結果的にユーザの選択数が多い場合は、この表示の方が効率がよくなる。
図26は、表示例233を示す図である。表示例233は、ユーザの意図(「低気圧を観測することにより、日本の気象を予測する」)にそって、チェックボックス235のように選択が行われた例である。これにより、ユーザの意図が正しく反映された検索結果を取得することができる。
以上説明したように、変形例1によれば、ユーザにわかりやすく検索結果を表示し、絞り込みが容易になるような画面インタフェースが提供される。また、キーワード間の関係に基づく絞り込みが可能になり、意図する検索結果にさらに効率よくたどりつける。すなわち、単語間の意味関係に着目し、ユーザがその関係に基づいて画面インタフェースにより絞り込むことができるようになる。
(変形例2)
以下、図27から図35を参照しながら、他言語に本発明を適用した例について説明する。本変形例2では、英語を例にして説明する。変形例2による情報検索装置1の構成および動作については、上記一実施の形態および変形例1と同様であるので、重複説明を省略する。
図27から図29は、例えば、検索用インデックス13を生成するための準備処理としての文の解析例を示す図である。文章入力部31は、検索対象文書DB11に記憶しようとする文書が入力されると、入力された文書を一文ずつに分割する。意味解析部33は、分割されたそれぞれの文に関して、意味解析を行う。このとき、意味解析部33は、文を単語に分割してノードとし、単語間の関係を解析することによりノード間の関係、始点ノード、終点ノード、および文におけるそれぞれのノードの位置および文字列長を抽出する。意味最小単位生成部35は、意味解析の結果に基づき意味最小単位を生成する。
図27の例では、原文263は、「She took care of Mary.」という文である。意味解析部33は、意味解析を行い、有向グラフ265および意味最小単位267を生成する。図27の例では、「SHE」、「TAKE CARE OF」、「MARY」は、ノードの例である。英語の場合には、意味記号は、文中の単語と同一としてもよい。また、英語の場合には、2語以上で一つの意味を持つ場合があるので、文を単語へ変換する場合には、一語、または二語以上として変換を行う。
図27のように、「TAKE CARE OF」のノードから「SHE」のノードに引かれているアークは、「動作主」、「TAKE CARE OF」のノードから「MARY」のノードに引かれているアークは、「対象」である。起点のノードが「TAKE CARE OF」であり、終点のノードがないアークは、「過去」および「述語」である。起点のノードがなく、終点のノードが「TAKE CARE OF」のアークは、「中心」である。
意味解析部33は、意味最小単位の生成において、有向グラフからアークを抽出し、例えば、意味最小単位267を生成する。生成の方法は、上記一実施の形態における生成の方法と同様である。
このように、例えば、原文263からは、意味最小単位267に記載の意味最小単位が抽出される。同様に、「Mary took a bus for San Francisco.」という原文に基づき、図28の解析例268が抽出され、「He took Mary to the school.」という原文に基づき、図29の解析例269が生成される。
図30は、文字オフセット例271および意味記号273を示している。この例は、図27の原文263の解析例であり、例えば、文書ID=21、文番号=3の文の例である。文字オフセット例271では、「SHE」のオフセットは、「0」、文字列長は、「3」である。「TAKE CARE OF」のオフセットは、「4」、文字列長は「12」である。上記のようにして、英文についても和文と同様に、例えば原文263などを検索対象文書DB11に格納し、検索対象文書DB11に格納された文書を文毎に意味解析することにより、検索用インデックス13が作成される。
続いて、図31から図35を参照しながら、クエリ21として英語が入力された場合の検索処理について説明する。図31は、クエリ21として、「Mary take」が入力された場合の意味解析を説明する図である。図32は、辞書テーブル279の一例を示す図である。
図31に示すように、クエリ入力部23が、クエリ21がキーワードであることを判別すると、キーワード入力部25は、クエリ21を単語に分割する。このとき、英語の場合には、2語以上で一つの意味を持つ場合があるので、キーワード入力部25は、単語への変換を1単語または2単語以上として行う。図31の例では、キーワード入力部25は、「Mary take」を、「Mary」、「Mary take」、「take」の3つに展開する。キーワード変換部27は、展開された単語を辞書51に記憶された辞書テーブル279において参照する。参照の結果、「Mary take」は辞書テーブル279にないため、検索キー生成部29は、検索キー277のように「Mary」と「take」による意味最小単位を生成する。
図33は、クエリ21として、「Mary take care」が入力された場合の意味解析を説明する図である。図33に示すように、クエリ入力部23が、クエリ21がキーワードであることを判別すると、キーワード入力部25は、クエリ21を単語に分割する。図33の例では、キーワード入力部25は、「Mary take care」を、「Mary」、「Mary take」、「take」、「take care」、「care」の5つに展開する。キーワード変換部27は、展開された単語を辞書51に記憶された辞書テーブル279において参照する。参照の結果、「Mary take」は辞書テーブル279にないため、検索キー生成部29は、検索キー283のように意味最小単位を生成する。
図34は、検索結果285の一例を示す図である。図34に示すように、検索結果285は、クエリ21が「Mary take」の場合の検索結果を示している。キーワード検索部45が、検索キー277に対応する文を検索対象文書DB11から検索した結果を示している。検索結果285は、2つの文が抽出されたことを示している。図35は、表示例287を示す図である。図35に示すように、表示例287は、クエリ21と、検索結果、検索件数を示し、さらに絞込みを行うためのボタンを含んでいる。
以上説明したように、変形例2による情報検索装置1によれば、英語の少なくとも一つの単語を含むクエリ21により、英語の文書の検索が可能である。このとき、クエリ21が英語の文であっても、単語であっても自動的に判別し、和文の場合と同様に、クエリ21の意味解析を行うことにより検索が可能である。これにより、クエリ21に含まれるキーワードの数が増えたり、文が入力されたりすることにより、ユーザの意図があいまいになり、検索結果にユーザが意図しないものが入ってしまうことを防止できる。本実施の形態では単純な例を挙げたが、この構成、アルゴリズムにより、キーワードが増えても対応できる。
また、情報検索装置1により、英語の文書の意味解析を行い検索用インデックス13を生成することもできる。さらに、ユーザに検索結果として提示される表において、上記位置実施の形態による情報検索装置1と同様、評価値を用いて検索結果をソートした上で表示を行うことができる。これにより、意図した情報がより簡易に検索可能となる。
もよい。
ここで、上記実施の形態および変形例1、2による情報検索方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図36は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図36に示すように、コンピュータ300は、Central Processing Unit(CPU)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置等がバス310を介して接続されている。
CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。メモリ304は、コンピュータ300の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等である。入力装置306は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU302に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。
外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置314は、可搬記録媒体316に書き込みおよび読み出しを行うための装置である。CPU302は、可搬記録媒体316に記録されている所定の制御プログラムを、記録媒体駆動装置314を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体316は、例えばCompact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス310は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。
上記実施の形態および変形例1、2による情報検索方法をコンピュータに実行させるプログラムは、例えば外部記憶装置312に記憶させる。CPU302は、外部記憶装置312からプログラムを読み出し、コンピュータ300に情報検索の動作を行なわせる。このとき、まず、情報検索の処理をCPU302に行わせるための制御プログラムを作成して外部記憶装置312に記憶させておく。そして、入力装置306から所定の指示をCPU302に与えて、この制御プログラムを外部記憶装置312から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体316に記憶するようにしてもよい。
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、情報検索装置1の機能は、1台のコンピュータあるいは複数台のコンピュータで実現するようにしてもよい。処理フローは一例であって、処理結果が変化しない限り変更してもよい。
情報検索装置1の構成要素は、演算処理装置上で実行されるプログラムにより実現される、機能モジュールであってもよい。図1の機能ブロック分けは一例であり、実際のプログラムモジュール構成と一致していない場合もある。更に、これらの各構成要素は、一部若しくは全部が集積された集積回路として実装されてもよい。処理の少なくとも一部を専用のモジュールとして備えた装置として実現してもよい。
あるいは、情報検索装置1は、例えば、入出力部分をクライアント側に備え、処理および利用する情報をサーバ側に備え、ネットワークを介して接続されたシステムにより実現するようにしてもよい。さらに、サーバ側において、処理を行う装置と、情報を蓄積する装置とを別個に備えるようにしてもよい。また、情報検索装置1は、例えば、情報検索装置1の機能のそれぞれ一部を備えた複数の情報処理装置を備えたシステムでもよい。
検索対象文書DB11、検索用インデックス13等は、例えば、検索処理を行うコンピュータとは別に設けるようにしてもよい。また、検索対象文書DB11、検索用インデックス13を生成する装置を、検索装置とは別に設けるようにしてもよい。このように別々の構成にすることにより、それぞれの装置の構成を簡易にすることが可能になる。
上記実施の形態においては、クエリ21が文の場合に評価値を導入する例について説明したが、キーワードによる検索の場合にも、文書の評価値を算出し、ランク付けするようにしてもよい。
なお、上記実施の形態および変形例1、変形例2において、クエリ入力部23、入力装置306は、入力部の一例である。キーワード入力部25、キーワード変換部27、検索キー生成部29、文章入力部31、意味解析部33、意味最小単位生成部35、キーワード検索部45、自然文検索部47、CPU302は、演算処理部、またはその機能の一例である。記憶部53、外部記憶装置312、可搬記憶媒体316は、記憶部の一例である。意味最小単位は、意味情報の一例である。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の検索用単語を含む情報の入力を受け付ける入力部と、
前記複数の検索用単語を含む情報から2つの検索用単語を分離し、検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の前記検索対象文における関係を示す意味情報を前記検索対象文と関連付けて記憶した記憶部から、前記2つの検索用単語と対応する2つの単語とその意味情報を検索して抽出する演算処理部と、
抽出された前記意味情報を出力する出力部と、
を有することを特徴とする情報検索装置。
(付記2)
前記意味情報は、前記2つの単語のそれぞれに対応する意味記号を含み、
前記演算処理部は、
分離した前記検索用単語を意味記号に変換し、変換された前記意味記号のうちの2つを検索キーとし、前記検索キーを含む前記意味情報を前記記憶部において検索することを特徴とする付記1に記載の情報検索装置。
(付記3)
前記出力部は、前記意味情報を表層文字列に変換して出力することを特徴とする付記1または付記2のいずれかに記載の情報検索装置。
(付記4)
前記演算処理部は、
前記記憶部に前記意味情報と関連付けて記憶された前記検索対象文において、前記意味情報に含まれる前記2つの単語の少なくともいずれかが出現する出現位置を参照し、前記出現位置に基づき前記文の少なくとも一部を抽出し、
前記出力部は、
抽出された前記検索対象文の少なくとも一部を出力する
ことを特徴とする付記1から付記3に記載の情報検索装置。
(付記5)
前記入力部は、抽出された前記意味情報を絞り込むための指示を受け付け、
前記出力部は、前記入力部により受け付けられた指示に応じて絞り込まれた前記意味情報のみを出力することを特徴とする付記4に記載の情報検索装置。
(付記6)
前記入力部は、2つの検索用単語を含む情報、または少なくとも一つの文の入力を受付け、
前記演算処理部は、前記入力部が受け付けた入力が前記文の場合には、前記文を意味解析することにより意味情報を生成し、前記記憶部から前記意味情報と関連付けて記憶された文を検索する
ことを特徴とする付記1から付記5に記載の情報検索装置。
(付記7)
検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の前記検索対象文における関係を示す意味情報を前記検索対象文と関連付けて記憶した前記記憶部、
をさらに有し、
前記演算処理部は、入力された文を意味解析することにより、前記記憶部に、前記意味情報と前記文とを関連付けて記憶することを特徴とする付記1から付記6に記載の情報検索装置。
(付記8)
情報検索装置が、
複数の検索用単語を含む情報の入力を受け付け、
前記複数の検索用単語を含む情報から前記2つの検索用単語を分離し、
検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の前記検索対象文における関係を示す意味情報を前記検索対象文と関連付けて記憶した記憶部から、前記2つの検索用単語と対応する2つの単語とその意味情報を検索して抽出し、
抽出された前記意味情報を出力する、
を有することを特徴とする情報検索方法。
(付記9)
さらに、
前記意味情報は、前記2つの単語のそれぞれに対応する意味記号を含み、
分離した前記検索用単語を意味記号に変換し、
変換された前記意味記号のうちの2つを検索キーとし、
前記検索キーを含む前記意味情報を前記記憶部において検索する
ことを特徴とする付記8に記載の情報検索方法。
(付記10)
さらに、
前記意味情報を表層文字列に変換して出力する、
ことを特徴とする付記8または付記9に記載の情報検索方法。
(付記11)
さらに、
前記記憶部に、前記意味情報と関連付けて記憶された前記検索対象文において、前記意味情報に含まれる前記2つの単語の少なくともいずれかが出現する出現位置を参照し、前記出現位置に基づき前記文の少なくとも一部を抽出し、抽出された前記検索対象文の少なくとも一部を出力する
ことを特徴とする付記8または付記9に記載の情報検索方法。
(付記12)
さらに、
抽出された前記意味情報を絞り込むための指示を受け付け、
受け付けた前記指示に応じて絞り込まれた前記意味情報のみを出力する
ことを特徴とする付記11に記載の情報検索方法。
(付記13)
さらに、
2つの検索用単語を含む情報、または少なくとも一つの文の入力を受付け、
受け付けた入力が前記文の場合には、前記文を意味解析することにより意味情報を生成し、
前記記憶部から前記意味情報と関連付けて記憶された文を検索する
ことを特徴とする付記8から付記12に記載の情報検索方法。
(付記14)
さらに、
入力された文を意味解析し、前記意味解析により得られる前記文に含まれる複数の単語および前記複数の単語と他の単語間の前記文における関係を示す意味情報を前記文と関連付けて前記記憶部に記憶する
ことを特徴とする付記8から付記13に記載の情報検索方法。
1 情報検索装置
11 検索対象文書DB
13 検索用インデックス
15 評価値テーブル
21 クエリ
23 クエリ入力部
25 キーワード入力部
27 キーワード変換部
29 検索キー生成部
31 文章入力部
33 意味解析部
35 意味最小単位生成部
37 検索部
39 評価値計算部
41 ランキング部
43 出力部
45 キーワード検索部
47 自然文検索部
51 辞書
53 記憶部
71 原文
73 有向グラフ
75 意味最小単位
76 解析例
77 解析例
78 文字オフセット例
79 意味記号
81 インデックステーブル
83 意味最小単位
85 文書ID
87 文ID
89 始点ノード位置
91 始点ノード文字列長
93 終点ノード位置
95 終点ノード文字列長

Claims (7)

  1. 複数の検索用単語を含む情報の入力を受け付ける入力部と、
    前記複数の検索用単語を含む情報から2つの検索用単語を分離し、検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の前記検索対象文における関係を示す意味情報を前記検索対象文と関連付けて記憶した記憶部から、前記2つの検索用単語と対応する2つの単語とその意味情報を検索して抽出する演算処理部と、
    抽出された前記意味情報を出力する出力部と、
    を有し、
    前記入力部は、少なくとも一つの文の入力の受け付けも行い、
    前記入力部が受け付けた入力が前記文の場合には、前記演算処理部は、前記文を意味解析することにより意味情報を生成し、前記記憶部から前記意味情報と関連付けて記憶された文を検索する
    ことを特徴とする情報検索装置。
  2. 前記意味情報は、前記2つの単語のそれぞれに対応する意味記号を含み、
    前記演算処理部は、
    分離した前記検索用単語を意味記号に変換し、変換された前記意味記号のうちの2つを検索キーとし、前記検索キーを含む前記意味情報を前記記憶部において検索することを特徴とする請求項1に記載の情報検索装置。
  3. 前記出力部は、前記意味情報を表層文字列に変換して出力することを特徴とする請求項1または請求項2のいずれかに記載の情報検索装置。
  4. 前記演算処理部は、
    前記記憶部に前記意味情報と関連付けて記憶された前記検索対象文において、前記意味情報に含まれる前記2つの単語の少なくともいずれかが出現する出現位置を参照し、前記出現位置に基づき前記文の少なくとも一部を抽出し、
    前記出力部は、
    抽出された前記検索対象文の少なくとも一部を出力する
    ことを特徴とする請求項1から請求項3のいずれかに記載の情報検索装置。
  5. 前記入力部は、抽出された前記意味情報を絞り込むための指示を受け付け、
    前記出力部は、前記入力部により受け付けられた指示に応じて絞り込まれた前記意味情報のみを出力することを特徴とする請求項4に記載の情報検索装置。
  6. 前記演算処理部は、入力された文を意味解析することにより、前記記憶部に、前記意味情報と前記文とを関連付けて記憶させることを特徴とする請求項1から請求項5のいずれかに記載の情報検索装置。
  7. 情報検索装置が、
    複数の検索用単語を含む情報の入力を受け付け、
    前記複数の検索用単語を含む情報から前記2つの検索用単語を分離し、
    検索対象文に含まれる複数の単語および前記複数の単語と他の単語間の前記検索対象文における関係を示す意味情報を前記検索対象文と関連付けて記憶した記憶部から、前記2つの検索用単語と対応する2つの単語とその意味情報を検索して抽出し、
    抽出された前記意味情報を出力
    前記複数の検索用単語を含む情報の入力の受け付けでは、少なくとも一つの文の入力の受け付けも行い、
    前記受け付けた入力が前記文の場合には、前記文を意味解析することにより意味情報を生成し、前記記憶部から前記意味情報と関連付けて記憶された文を検索する
    ことを特徴とする情報検索方法。
JP2013118248A 2013-06-04 2013-06-04 情報検索装置および情報検索方法 Active JP6152711B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013118248A JP6152711B2 (ja) 2013-06-04 2013-06-04 情報検索装置および情報検索方法
US14/286,434 US20140358522A1 (en) 2013-06-04 2014-05-23 Information search apparatus and information search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013118248A JP6152711B2 (ja) 2013-06-04 2013-06-04 情報検索装置および情報検索方法

Publications (2)

Publication Number Publication Date
JP2014235664A JP2014235664A (ja) 2014-12-15
JP6152711B2 true JP6152711B2 (ja) 2017-06-28

Family

ID=51986105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013118248A Active JP6152711B2 (ja) 2013-06-04 2013-06-04 情報検索装置および情報検索方法

Country Status (2)

Country Link
US (1) US20140358522A1 (ja)
JP (1) JP6152711B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6447161B2 (ja) * 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP6638480B2 (ja) * 2016-03-09 2020-01-29 富士通株式会社 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法
JP7176233B2 (ja) * 2018-06-04 2022-11-22 富士通株式会社 検索方法、検索プログラムおよび検索装置
JP7326920B2 (ja) * 2019-06-25 2023-08-16 富士フイルムビジネスイノベーション株式会社 検索装置、検索システム、及び検索プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
US6108619A (en) * 1998-07-02 2000-08-22 Novell, Inc. Method and apparatus for semantic characterization of general content streams and repositories
JP4115048B2 (ja) * 1999-08-17 2008-07-09 株式会社リコー 文書検索システム
JP2003091541A (ja) * 2001-07-13 2003-03-28 Nippon Telegr & Teleph Corp <Ntt> 情報蓄積装置、そのプログラム及びそのプログラムを記録した媒体、並びに情報検索装置、そのプログラム及びそのプログラムを記録した媒体
JP4200834B2 (ja) * 2003-07-02 2008-12-24 沖電気工業株式会社 情報検索システム、情報検索方法及び情報検索プログラム
US8612208B2 (en) * 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
JP4650072B2 (ja) * 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search
US8959012B2 (en) * 2007-04-04 2015-02-17 Orville E. Easterly System and method for the automatic generation of patient-specific and grammatically correct electronic medical records
US8909654B2 (en) * 2007-11-19 2014-12-09 Nippon Telegraph And Telephone Corporation Information search method, apparatus, program and computer readable recording medium
JP2009199280A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd 部分構文木プロファイルを用いた類似性検索システム
JP5493779B2 (ja) * 2009-11-30 2014-05-14 富士ゼロックス株式会社 情報検索プログラム及び情報検索装置

Also Published As

Publication number Publication date
JP2014235664A (ja) 2014-12-15
US20140358522A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
US8533203B2 (en) Identifying synonyms of entities using a document collection
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
WO2007049792A1 (en) Apparatus, method, and storage medium storing program for determining naturalness of array of words
JP6152711B2 (ja) 情報検索装置および情報検索方法
JP2010128677A (ja) テキスト要約装置、その方法およびプログラム
JP2007219929A (ja) 感性評価システム及び方法
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JPWO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP5915274B2 (ja) 情報検索方法、プログラムおよび情報検索装置
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
JPWO2014002212A1 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JPH1185794A (ja) 検索語入力装置および検索語入力プログラムを記録した記録媒体
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2732661B2 (ja) テキスト型データベース装置
JP4573358B2 (ja) 評判情報検索装置、その方法およびプログラム
Malallah et al. Multi-document text summarization using fuzzy logic and association rule mining
JP2007026116A (ja) 概念検索システム及び概念検索方法
JP2004133510A (ja) 技術文献検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170515

R150 Certificate of patent or registration of utility model

Ref document number: 6152711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150