JP4967037B2 - 情報検索装置、情報検索方法、端末装置、およびプログラム - Google Patents

情報検索装置、情報検索方法、端末装置、およびプログラム Download PDF

Info

Publication number
JP4967037B2
JP4967037B2 JP2010025999A JP2010025999A JP4967037B2 JP 4967037 B2 JP4967037 B2 JP 4967037B2 JP 2010025999 A JP2010025999 A JP 2010025999A JP 2010025999 A JP2010025999 A JP 2010025999A JP 4967037 B2 JP4967037 B2 JP 4967037B2
Authority
JP
Japan
Prior art keywords
search
sentence
information
match
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010025999A
Other languages
English (en)
Other versions
JP2010267247A (ja
Inventor
達彦 岡田
健典 亘
敬司 溝渕
貞治 高井
隆光 石岡
世紀 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2010025999A priority Critical patent/JP4967037B2/ja
Publication of JP2010267247A publication Critical patent/JP2010267247A/ja
Application granted granted Critical
Publication of JP4967037B2 publication Critical patent/JP4967037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力されたテキストデータを解析した結果に応じた検索を行う情報検索装置、情報検索方法、端末装置、およびプログラムに関する。
例えば、電子メールによるユーザの意見や企業内の電子文書を収集し、テキストデータに変換してデータベース等に蓄積しておく。そして、オペレーターによるユーザからの問い合わせ対応や苦情対応の際に、オペレーターが入力した文章を検索キーとして、該当する対応方法をデータベースから検索し、オペレーターが使用する端末に送信する検索方法がある。
このようなオペレーターによる対応シーンでは、お客様を待たせないためにも、検索結果が分かりやすいように検索結果を表示する技術が求められている。
特に、このような対応シーンでの検索では、ユーザからの問い合わせや苦情等の、文の意味やユーザの意図を含む文章が検索キーとして利用されているため、このようなシーンでは、単語やキーワード等を検索キーとして検索する一般的な検索ではなく、検索キーである文章の意味やユーザの意図をより重視した検索を行う必要がある。
例えば、文書中の全文検索において、複数のキーワードと類似する類義語や同義語ごとに、グループ化して強調表示するものがある。これにより、検索キーワードの数が増えた場合でも、類似するグループを同様の強調表示とすることができるため、検索結果の閲覧時において、ユーザは類似するグループを迅速に判別することができる(例えば、特許文献1参照)。
また、文書に対して形態素解析や構文解析を行った後、それぞれの単語の出現頻度やカテゴリ(属性)を判断し、判断結果に基づいて強調表示を行うか否かを判断するものがある。これにより、ユーザ(読み手)が希望する部分(単語)を強調表示することができ、文章の迅速な理解を支援することができる(例えば、特許文献2参照)。
特開2005−84879号公報 特開2004−151882号公報
しかしながら、特許文献1のように、類義語等に基づきグループ化して強調表示したとしても、単に検索に使用された文字が強調表示されるだけでは、どの検索結果が検索キーの意味に近い検索結果なのかをユーザが理解し難いという問題がある。
例えば、「ネットワークが接続できない」という文章をキーとして検索を行った場合、複数の検索結果が得られる場合がある。この場合、例えば、「ネットワーク」や「接続」を含む全ての検索結果において、「ネットワーク」と「接続」の単語が強調表示されたとしても、検索に使用された文字が強調表示されているだけで、文章の意味が軽視されている。このため、「ネットワークが接続できない」という意味に近い検索結果を、強調して表示することが困難であるという問題がある。
また、特許文献2は、文書内における単語の属性を判断して、同じ単語であっても、ユーザが希望する部分を特定することができる。
これによれば、文章の意味やユーザの意図を重視した表示が可能な場合もあるが、単語の属性や意味を判断するため、形態素解析や構文解析により得られた解析結果や、辞書データが必要となる。よって、文章解析を行い辞書データを参照して検索を行う検索部と、検索結果を表示する表示部とが、例えば、検索サーバとクライアント端末装置のように異なる装置である場合、文章解析が繰り返し行われることとなり、作業効率が悪いという問題がある。つまり、検索時に、検索サーバによって文章解析が行われ、閲覧(結果表示)時に、クライアント端末装置によって検索結果に対して文章解析が行われることとなる。
本発明は、このような事情を考慮してなされたものであり、その目的は、文の意味合いを重視した検索結果を用いて、分かりやすい表示を効率よく実現するための情報検索装置、情報検索方法、端末装置、情報検索システム、およびプログラムを提供することにある。
上述した課題を解決するために、本発明の情報検索装置は、複数の単語から構成される検索キー文が入力される入力部と、前記検索キー文を解析して、前記検索キー文を構成する前記単語に関する解析結果を得る解析部と、少なくとも1つ以上の単語によって構成された文節からなる一文について、その文節を部分木ノードとして木構造に構成し、各ノードに関する情報を表すルール情報として、複数の文を記憶するマッチ辞書記憶部と、前記マッチ辞書記憶部に記憶されている前記マッチ辞書情報と前記検索キー文との関係性を照合するためのマッチング条件が1つ以上関連付けられているマッチプロファイル情報を記憶するマッチプロファイル記憶部と、前記マッチプロファイル情報に基づき、関連付けられている前記マッチング条件に応じた前記検索キー文と前記マッチ辞書情報との照合を行い、照合の結果として、少なくとも一つ以上の前記マッチング条件に適合する単語が、前記マッチ辞書情報の文中に出現する位置を表す情報であって、文の先頭を基点として数えられる文字の数で、前記文中における単語の位置を表すマッチ位置情報を得る検索処理部と、前記検索処理部によって得られた照合の結果を、前記マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記マッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、端末装置に送信する通信部と、を備えることを特徴とする。
また、この情報検索装置は、前記マッチプロファイル情報は、当該マッチング条件を満たす単語に対して前記検索キー文との照合の度合いを算出するルールである評価基準をさらに含み、前記検索処理部は、前記照合の結果、前記マッチング条件に適合する文に対して、前記マッチプロファイル情報に関連付けられている前記評価基準に従って、前記検索キー文とマッチング辞書情報との照合の度合いを表すスコアを全て適合したマッチング条件について算出することを特徴とする。
また、この情報検索装置は、前記評価基準は、前記マッチング条件を満たす単語に対して前記照合の度合いに応じた点数が定められており、前記検索処理部は、前記評価基準に従って、前記マッチング条件を満たす単語に対して与えられた前記点数を、少なくとも一つ以上の前記マッチング条件に適合した文毎に算出して、前記スコアを得ることを特徴とする。
また、上述した課題を解決するために、本発明は、複数のマッチング条件に従って検索を行う情報検索装置に対して、利用者によって入力された検索文を送信し、その結果を受信する端末装置であって、表示データを表示する表示部と、前記複数の単語から構成される検索キー文の入力を受け付ける入力部と、前記情報検索装置から受信した検索結果情報、強調表示のための表示ルールを記憶する端末装置記憶部と、前記情報検索装置から、マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記文内の前記単語の出現位置を表すマッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、受信し、前記端末装置記憶部に記憶する受信部と、検索結果情報を読み出し、検索結果として得られた文について、前記表示ルールに従って、前記マッチング条件と、前記マッチ位置情報に基づいて、文中の単語を強調して表示する表示データを作成するデータ処理部を有することを特徴とする。
また、本発明は、前記入力部はさらに、前記表示部に表示された検索結果情報の中から、単語の指定を受け付け、前記データ処理部は、前記入力部を介して前記指定された単語について、前記端末装置記憶部から読み出した前記検索結果情報に基づいて、該単語の位置情報とマッチング条件を等しくする単語を含む文を抽出し、再検索結果として、表示部に表示させる表示データを作成することを特徴とする。
また、本発明は、コンピュータの入力部が、複数の単語から構成される検索キー文が入力するステップと、コンピュータの解析部が、前記検索キー文を解析して、前記検索キー文を構成する前記単語に関する解析結果を得るステップと、コンピュータのマッチ辞書記憶部が、少なくとも1つ以上の単語によって構成された文節からなる一文について、その文節を部分木ノードとして木構造に構成し、各ノードに関する情報を表すルール情報として、複数の文を記憶するステップと、コンピュータのマッチプロファイル記憶部が、前記マッチ辞書記憶部に記憶されている前記マッチ辞書情報と前記検索キー文との関係性を照合するためのマッチング条件が1つ以上関連付けられているマッチプロファイル情報を記憶するステップと、コンピュータの検索処理部が、前記マッチプロファイル情報に基づき、関連付けられている前記マッチング条件に応じた前記検索キー文と前記マッチ辞書情報との照合を行い、照合の結果として、少なくとも一つ以上の前記マッチング条件に適合する単語が、前記マッチ辞書情報の文中に出現する位置を表す情報であって、文の先頭を基点として数えられる文字の数で、前記文中における単語の位置を表すマッチ位置情報を得るステップと、コンピュータの通信部が、前記検索処理部によって得られた照合の結果を、前記マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記マッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、端末装置に送信するステップと、を実行することを特徴とする。
また、本発明は、複数のマッチング条件に従って検索を行う情報検索装置に対して、利用者によって入力された検索文を送信し、その結果を受信する端末装置であるコンピュータを用いて実現するデータ処理方法であって、前記コンピュータの表示部が、表示データを表示するステップと、前記コンピュータの入力部が、前記複数の単語から構成される検索キー文の入力を受け付けるステップと、前記コンピュータの記憶部が、前記情報検索装置から受信した検索結果情報、強調表示のための表示ルールを記憶するステップと、前記コンピュータの受信部が、前記情報検索装置から、マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記文内の前記単語の出現位置を表すマッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、受信し、前記コンピュータの記憶部に記憶するステップと、前記コンピュータのデータ処理部が、検索結果情報を読み出し、検索結果として得られた文について、前記表示ルールに従って、前記マッチング条件と、前記マッチ位置情報に基づいて、文中の単語を強調して表示する表示データを作成するステップと、を実行することを特徴とする。
また、本発明は、コンピュータに、複数の単語から構成される検索キー文が入力される入力手段、前記検索キー文を解析して、前記検索キー文を構成する前記単語に関する解析結果を得る解析手段、少なくとも1つ以上の単語によって構成された文節からなる一文について、その文節を部分木ノードとして木構造に構成し、各ノードに関する情報を表すルール情報として、複数の文を記憶するマッチ辞書記憶手段、前記マッチ辞書記憶部に記憶されている前記マッチ辞書情報と前記検索キー文との関係性を照合するためのマッチング条件が1つ以上関連付けられているマッチプロファイル情報を記憶するマッチプロファイル記憶手段、前記マッチプロファイル情報に基づき、関連付けられている前記マッチング条件に応じた前記検索キー文と前記マッチ辞書情報との照合を行い、照合の結果として、少なくとも一つ以上の前記マッチング条件に適合する単語が、前記マッチ辞書情報の文中に出現する位置を表す情報であって、文の先頭を基点として数えられる文字の数で、前記文中における単語の位置を表すマッチ位置情報を得る検索処理手段、前記検索処理手段によって得られた照合の結果を、前記マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記マッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、端末装置に送信する通信手段、として機能させるためのプログラムである。
また、本発明は、複数のマッチング条件に従って検索を行う情報検索装置に対して、利用者によって入力された検索文を送信し、その結果を受信する端末装置のコンピュータに、表示データを表示する表示手段、前記複数の単語から構成される検索キー文の入力を受け付ける入力手段、前記情報検索装置から受信した検索結果情報、強調表示のための表示ルールを記憶する記憶手段、前記情報検索装置から、マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記文内の前記単語の出現位置を表すマッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、受信し、前記コンピュータの記憶部に記憶する受信手段、検索結果情報を読み出し、検索結果として得られた文について、前記表示ルールに従って、前記マッチング条件と、前記マッチ位置情報に基づいて、文中の単語を強調して表示する表示データを作成するデータ処理手段として機能させるためのプログラムである。
この発明によれば、文の意味合いを重視した検索結果を用いて、分かりやすい表示を効率よく実現することができる。
本実施の形態に係る情報検索システムの一例を示すブロック図である。 本実施の形態に係るクライアント端末装置の一例を示すブロック図である。 本実施の形態に係るWEBサーバの一例を示すブロック図である。 本実施の形態に係る日本語解析サーバの一例を示すブロック図である。 本実施の形態に係るマッチプロファイル記憶部に記憶されているマッチプロファイルの一例を示す概略図である。 本実施の形態に係るマッチ辞書記憶部に記憶されているマッチ辞書データの一例を示す概略図である。 本実施の形態に係る日本語解析サーバの一例を示すブロック図である。 本実施の形態に係る構文解析部によって作成される構造木の一例を示す概略図である。 単語要素マッチングについて説明するための概略図である。 係りうけマッチングについて説明するための概略図である。 属性マッチングについて説明するための概略図である。 本実施の形態に係る情報検索システムにおけるマッチ辞書データの作成方法の一例を示すフローチャートである。 本実施の形態に係る情報検索システムにおける検索方法の一例を示すフローチャートである。 本実施の形態に係る情報検索システムにおけるマッチング処理とスコアリング処理の一例について詳細に説明するフローチャートである。 本実施の形態に係る検索結果データの一例について説明する概略図である。 本実施の形態に係る検索結果について説明するための参考図である。 本実施の形態に係る情報検索システムにおける検索開始処理の一例を示すフローチャートである。 本実施の形態に係る情報検索システムにおける検索結果の表示方法の一例を示すフローチャートである。 本実施の形態に係るクライアント端末装置の表示部に表示される検索結果を表す画像の一例を示す概略図である。 図19に示す検索結果から、絞り込み検索を行った後に表示される画面の一例を示す概略図である。 検索キー文の一例を示す参考図である。 マッチした単文の一例を示す参考図である。 マッチプロファイルの設定の一例を説明するための参考図である。 マッチプロファイルAに基づき得られた検索結果を表示されている画面の一例を示す概略図である。 マッチプロファイルBに基づき得られた検索結果を表示されている画面の一例を示す概略図である。 マッチプロファイルCに基づき得られた検索結果を表示されている画面の一例を示す概略図である。 マッチプロファイルの設定の他の例を説明するための参考図である。 特定のマッチモードによって得られた検索結果の一例を示す概略図である。 特定のマッチモードによって得られた検索結果の他の例を示す概略図である。 特定のマッチモードによって得られた検索結果の他の例を示す概略図である。 特定のマッチモードによって得られた検索結果の他の例を示す概略図である。
以下、本発明の一実施形態を、図面を参照して説明する。図1は、本実施の形態に係る情報検索システムの一例を示すブロック図である。
図1に示す通り、情報検索システム1は、クライアント端末装置100と、WEBサーバ300と、日本語解析サーバ500と、データベースファイルサーバ700とを備える。
クライアント端末装置100は、例えば、パーソナルコンピュータ等の情報計算処理装置であって、検索キー文が入力される入力部と、入力部を介してユーザから入力された検索キー文を、ネットワークを介してWEBサーバ300に送信する。なお、詳細については図2を用いて後述する。
WEBサーバ300は、クライアント端末装置100と日本語解析サーバ500間の通信を行い、例えば、クライアント端末装置100から受信した検索キー文を日本語解析サーバ500に送信し、日本語解析サーバ500から受信した検索結果をクライアント端末装置100に送信する。なお、詳細については、図3を用いて後述する。
日本語解析サーバ500は、検索処理部501と、マッチプロファイル記憶部502と、マッチ辞書記憶部503と、辞書作成部504と、文書解析部505と、メモリ領域506を備える。日本語解析サーバ500は、WEBサーバ300から検索キー文を受信すると、この検索キー文に基づく検索を行い、検索結果をWEBサーバ300を介してクライアント端末装置100に送信する。なお、詳細については図4〜8を用いて後述する。
データベースファイルサーバ700は、日本語解析サーバ500の検索対象となる情報(以下、検索対象情報)を記憶する記憶部であって、例えば、問い合わせの対応履歴や、修理のマニュアルに関する情報、あるいは、電子メールによってユーザ等から取得された意見や苦情等の、企業や取扱い製品やサービスに関する情報を、テキストデータとして記憶する記憶装置であるデータソース701を備える。
また、データベースファイルサーバ700は、例えば、企業においてデータウェアハウスとして利用される蓄積装置が利用可能である。
次に、図2を用いて、クライアント端末装置100について詳細に説明する。図2は、本実施の形態に係るクライアント端末装置100の一例を示すブロック図である。
図2に示す通り、クライアント端末装置100は、ブラウザ(表示制御部)101と、表示部102と、入力部103と、通信部104とを備える。
表示部102、例えば、液晶表示装置等であって、操作画面や検索結果画面等の表示データを表示する。
入力部103は、例えば、キーボードやマウスからなる入力インターフェースであって、ユーザからの操作指示や検索キー文の入力を受け付ける。
通信部104は、入力部102を介して、ユーザから検索サービスの種類が指定された場合、指定された検索サービスによる検索の実行を要求するリクエスト制御信号を、WEBサーバ300を介して日本語解析サーバ500に送信する。また、通信部104は、入力部102を介してユーザから入力された検索キー文を、ネットワークを介してWEBサーバ300に送信する。
ブラウザ101は、例えば、WEBサーバ300から受信したウェブページを表示部102に表示させるためのプログラム(例えば、javascript(登録商標)等)をWEBサーバ300から受信して、このプログラムを実行する表示制御部である。また、ブラウザ101は、このプログラムとして機能し、表示部102によって表示される表示データを生成し、表示部102に出力する。
ブラウザ101は、記憶部111と、データ処理部112と、表示処理部113とを含み、各構成について以下説明する。
記憶部111は、データ処理部112や表示処理部113によって処理される際のプログラムや所定の設定値等を記憶する。また、記憶部111は、日本語解析サーバ500によって得られた検索結果(例えば、マッチした文章、マッチした単文、マッチした単語、これらのマッチングに用いられたマッチング条件、あるいはマッチ位置情報を含むマッチ情報等)や、絞り込み検索を実行する際の検索ルール情報(例えば、入力部103を介して指定されたマッチした単語を検索キーとして、検索結果から、絞り込み対象を検索するためのプログラムや設定値等)を記憶する。
データ処理部112は、WEBサーバ300から受信されるブラウザ101上のプログラムとして動作し、WEBサーバ300から受信される表示データを表示部102の画面に表示するための表示データに変換し、表示処理部113を制御して表示部102に表示データを表示させる。また、データ処理部112は、記憶部111に記憶されている検索結果に基づき、マッチング条件を満たす単語に対して強調表示を表すタグ情報を付与した結果表示データを作成する。
表示処理部113は、データ処理112によって制御され、データ処理部112が変換した表示データを表示部102に表示させる。
次に、図3を用いて、WEBサーバ300について詳細に説明する。図3は、本実施の形態に係るWEBサーバ300の一例を示すブロック図である。
図3に示す通り、WEBサーバ300は、通信部301と、リクエスト処理部302と、データ変換部303と、記憶部304とを備える。
通信部301は、例えば、ネットワークを介してクライアント端末装置100および日本語解析サーバ500と通信する。
リクエスト処理部302は、通信部301を介してクライアント端末装置100から受信したリクエスト制御信号に基づき、クライアント端末装置100の表示部102によって表示される表示データのウェブページのデータを作成するようデータ変換部303を制御する。また、リクエスト処理部302は、クライアント端末装置100からリクエスト制御信号を受信して、クライアント端末装置100によって実行されるコードファイルや、表示データの表示に関する設定データを作成し、クライアント端末装置100に送信する。
データ変換部303は、リクエスト処理部302によって制御され、日本語解析サーバ500から受信した検索結果等に基づき、クライアント端末装置100に対して送信するウェブページのデータを作成する。
記憶部304は、リクエスト処理部302やデータ変換部303によって利用される設定データ等や、日本語解析サーバ500の検索によって得られた検索結果を一時的に記憶する。
なお、WEBサーバ300は、例えば、社内LAN(Local area network)に接続され、コールセンターのオペレーターによってなされる、ユーザからの問い合わせの対応に適した情報を提供するWEBサーバであってよく、社内における知識共有用のデータを提供するためのWEBサーバであってもよい。このように、WEBサーバ300は、情報検索システム1の検索の目的に応じて、複数あってもよい。
次に、図4を用いて、日本語解析サーバ500について詳細に説明する。図4は、本実施の形態に係る日本語解析サーバ500の一例を示すブロック図である。
図4に示す通り、検索処理部501は、異なる検索サービスα、βをクライアント端末装置100に提供するためのプログラムを実行する機能を供え、ユーザによって指定された検索サービスαによる検索を実行するための制御信号をWEBサーバ300から受信した場合、検索サービスαのプログラムを起動させ、検索サービスαと関連付けられているマッチプロファイルをマッチプロファイル記憶部502から読み出す。また、検索処理部501は、マッチ辞書記憶部503に記憶されているマッチ辞書データを読み出す。さらに、検索処理部501は、読み出したマッチプロファイルおよびマッチ辞書データを、メモリ領域506に展開して辞書オブジェクトを作成する。
また、検索処理部501は、WEBサーバ300を介してクライアント端末装置100から検索キー文を受信すると、受信した検索キー文を文書解析部505に出力し、検索結果を書き込むための検索結果オブジェクト(空の状態)をメモリ領域506に生成する。これにより、検索結果を記録するためのメモリ領域を確保することができる。
さらに、検索処理部501は、マッチプロファイル記憶部502から読み出したマッチプロファイルにおいて予め決められているマッチモードに従って、解析された検索キー文と、メモリ領域506の辞書オブジェクトに展開されているマッチ辞書データとの照合(以下、マッチングという)を行い、マッチモードの条件を満たす文章等の検索を行う(以下、マッチング処理という)。
また、検索処理部501は、マッチプロファイルにおいて予め決められているスコアモードに従って、マッチングによって得られた文章(以下、マッチした文章という)における、検索キー文とのマッチングの程度を評価するスコアを算出する(以下、スコアリング処理という)。なお、詳細は後述するが、検索処理部501は、例えば、マッチングによって得られた単文(以下、マッチした単文という)に含まれる単語のスコアを算出し、この単語のスコアの和を算出することによって、マッチした文章のスコアやマッチした単文のスコアを算出する。
さらに、検索処理部501は、マッチングによって得られた文章等の文章ID等と、当該文章等のスコアを関連付けて、メモリ領域506の検索結果オブジェクトに検索結果として格納する。また、検索処理部501は、この検索結果オブジェクトの検索結果を、WEBサーバ300を介してクライアント端末装置100に送信する。
メモリ領域506は、一時的に情報を記憶する記憶領域であって、例えば、検索処理部501によって作成される辞書オブジェクトや検索結果オブジェクトが作成される領域である。
マッチプロファイル記憶部502には、例えば、各検索サービスα、β・・・に応じたマッチプロファイルA、B・・・が格納されている。ここで、マッチプロファイルとは、予め決定されているマッチモードを定義するマッチモード情報と、当該マッチモードで抽出された結果に適用されるスコアの算出手法を定義するスコアモード情報とを含む。例えば、マッチプロファイルAのマッチモード定義においては、検索サービスαとマッチプロファイルAとが予め関連づけられている。よって、ユーザによって検索サービスが指定されると、この検索サービスに応じて予め決定されているマッチプロファイルと、このマッチプロファイルにおいて予め決められているマッチモードやスコアモードが、決定される。
なお、本発明はこれに限られず、クライアント端末装置100が、これら検索サービスの種類、マッチプロファイルの種類、マッチモードの種類の組み合わせを表す情報をリクエスト制御信号とともにWEBサーバ300を介して日本語解析サーバ500に送信する場合、ユーザによって、これらの組み合わせが決定される構成であってもよい。
ここで、マッチプロファイルについて、図5を用いて詳細に説明する。図5は、本実施の形態に係るマッチプロファイル記憶部502に記憶されているマッチプロファイルの一例を示す概略図である。
図5に示す通り、マッチプロファイルAは、マッチモード情報として、マッチモード定義PA1を含み、スコアモード情報として、相対出現頻度フラグPA2と、相対出現頻度重視係数PA3と、文章出現位置PA4と、検索キー出現位置PA5と、述語属性マッチ係数PA6と、係りうけマッチ係数PA7と、品詞カテゴリPA8と、接続詞評価PA9と、同義語マッチ係数PA10と、を含む。
マッチモード定義PA1とは、検索サービスα、β・・・に応じて予め決定されているマッチモードの組み合わせに関する情報である。ここで、マッチモードとは、検索キー文とマッチ辞書データのマッチングを行う際の手法を表すものであって、例えば、図9〜11において後述するような、単語要素マッチング、係りうけマッチング、属性マッチングがあり、その組み合わせとして定義される。
スコアモード情報は、マッチモードに応じて得られた結果に対する、スコア条件や重みの付け方に関する情報を含み、マッチした文章や単文のスコアを算出する際に参照される情報である。
スコアモード情報は、相対出現頻度フラグPA2、相対出現頻度重視係数PA3、文章出現位置PA4、および検索キー出現位置PA5、述語属性マッチ係数PA6、係りうけマッチ係数PA7、品詞カテゴリPA8、接続詞評価PA9、および同義語マッチ係数PA10を含み、いずれのマッチモードにおいても利用可能なスコアモードに関する情報である。ここで、マッチモード情報とスコアモード情報は、マッチモード定義PA1において予め決められているマッチングモードに関わらず、任意に組み合わせが可能である。
また、スコアモード情報は、マッチした単語に対して付与されるスコアを算出するか否かを表す情報であって、算出することを表す情報が設定されている場合、それぞれにおいて付与される係数や得点が設定値として決められている。つまり、検索処理部501は、マッチングモード情報を利用して、マッチした文章や単文に対して、スコアモード情報を利用して、さらにマッチングした文章や単文と、検索キー文とのマッチングの度合いを評価するためのスコアを算出することができる。ここで、スコアは、マッチングした文章や単文と、検索キー文とのマッチングの度合いを示すものであって、例えば、マッチした文章等と検索キー文との関係において、文章構成や係りうけ関係が一致している、あるいは、述語属性が一致している等によって、文としての意味合いがどのくらい類似しているかを評価するための点数である。
相対出現頻度フラグPA2は、相対出現頻度(tf×idf)に基づく重み付けの利用を行うか否かを表す。フラグがオンとなっている状態では、この重み付けを行うことを表し、フラグがオフとなっている状態では行わないことを表す。
ここで、相対出現頻度(tf×idf)は、キーワード(重要語)抽出の手がかりとして一般的に用いられる相対値であって、以下の各系数(tf,idf)係数を乗じたものである。
なお、tf( term frequency )は、ある文章における、特定の単語の相対出現頻度であって、idf( inversed document frequency )は、特定の単語が含まれる文章数の逆数である。つまり、どの文章にも含まれるようなありふれた単語ほど、相対出現頻度は小さくなる。したがって、ある文章は、それに含まれ相対出現頻度(tf×idf)の高い単語によって特徴づけられる。
相対出現頻度重視係数PA3は、相対出現頻度フラグPA2がオンの状態で行われる、tf値のスコアに対する重み付けの係数である。
文章出現位置PA4は、文章や単文における文の出現位置に応じた重み付けを行うか否かを表す情報である。例えば、文章出現位置PA4が出現位置に応じた重み付けを行うことを表している状態で、マッチ辞書記憶部503に記憶されている文章の先頭に近い単語から傾斜的な係数を付与することを表している。ここでは、先頭に近い位置に出現する単語に対しては、重み付けを重くし、文末に近い位置に出現する単語ほど重み付けが軽くなるような係数が設定されている。なお、この係数は、任意に設定可能である。
検索キー出現位置PA5は、検索キー文における文の出現位置に応じた重み付けを行うか否かを表す情報である。例えば、検索キー出現位置PA5は、出現位置に応じた重み付けを行うことを表している状態で、検索キー文とマッチした単語が、検索キー文において出現する位置に応じて、先頭に近い位置に出現した単語等の文字列から傾斜的な係数を付与することを表している。ここでは、検索キー文の先頭に近い位置に出現する単語に対しては、重み付けを重くし、検索キー文の文末に近い位置に出現する単語ほど重み付けが軽くなるような係数が設定されている。なお、この係数は、任意に設定可能である。
述語属性マッチ係数PA6は、述語属性一致の際のノードのスコア係数を表す情報である。例えば、マッチした単語や係りうけ関係にある単語に対して、これらマッチした単語と検索キー文の対応する単語との述語属性がさらに一致した場合に、どれだけ重み付けを加算するかが規定されている。なお、単純に名詞など属性が無い場合は、重み付けの加算は行わず、否定などの属性が付与され、一致した場合の重み付けの加算は、乗数としてのスコア計数を任意に設定可能である。なお、単純な名詞文節などのように属性が無い場合は、重み付けの加算は行わない。属性が付与され一致した場合の重み付けの加算は、乗数としてのスコア計数を任意に設定可能である。
係りうけマッチ係数PA7は、係りうけ単位で一致した場合のスコア係数を表す情報である。例えば、マッチした単語同士が係りうけ関係にある単語(以下、係りうけペアという)に対して重み付けを行うか否かが規定されている。なお、スコア計数は、乗数として任意に設定可能である。
品詞カテゴリPA8は、品詞カテゴリごとの重み付けを表す情報であって、例えば、ユーザー単語 > 固有名詞 > 一般名詞 > 形容詞・形容動調 > 動詞といった優先順位に応じて、品詞ごとに傾斜的な係数を与えるか否かを表している。なお、品詞ごとに傾斜的な係数を任意に設定可能である。
接続詞評価PA9は、検索キー文とマッチした文章等において、特定の接続詞が含まれている場合、当該マッチした文全体を重視(または軽視)するか否かを表す情報である。例えば、接続詞評価PA9は、特定の接続詞がある場合に文全体を重視することを表す状態で、特定の接続詞が含まれているマッチした文章の各単語に乗じる係数や、特定の接続詞が含まれているマッチした文章のうちマッチした単語にのみ乗じられる係数等が規定されている。
同義語マッチ係数PA10は、後述する文書解析部505の類義語処理部による文字列置換が行われた文字列のスコアを何倍にするかを表す情報である。また、同義語マッチ係数PA10は、単語そのものが一致した場合に比較して、同義語や類義語との一致のスコア順位を落とすために用いる情報である。
マッチ辞書記憶部503は、マッチ辞書データを記憶し、このマッチ辞書データは、例えば、シンボルIDに置き換えられた単語情報との対応関係を表すシンボルマップMD1と、各文章に関することを表す文章情報MD2と、この文章に含まれる単文情報MD3とを含む。
ここで、マッチ辞書データについて、図6を用いて詳細に説明する。図6は、本実施の形態に係るマッチ辞書記憶部503に記憶されているマッチ辞書データの一例を示す概略図である。
シンボルマップMD1は、シンボルIDによって識別される単語情報のテキストデータと、単語情報を識別するためのシンボルIDとを対応付ける情報である。これにより、マッチ辞書記憶部503は、文章情報MD2および単文情報MD3において、単語情報をテキストデータで記憶することなく、シンボルマップMD1において対応付けられているシンボルIDに置き換えて格納することができる。
文章情報MD2は、解析された文章の構造木(詳細については後述する)をマッチ辞書記憶部503に登録するために必要な登録情報であって、文章ID21と、この文章ID21によって識別される文章の文章テキストデータ22と、当該文章が検索対象情報としてデータベースファイルサーバ700に格納された日時やデータソース701での格納場所を表すアドレス等の情報を含む文章付加情報23と、用語マップ24とを含む。ここで、用語マップ24は、文章内に含まれる単語情報の出現回数を表す情報であって、単語情報毎の出現回数とシンボルIDとが対応付けられている。
一方、単文情報MD3は、単文に含まれる文節毎に、構造木(図8参照にて、詳細は後述する)における部分木ノードの情報を表すルール(ルール情報)32を含み、各単文を識別するための単文ID31が付与されている。
単文情報MD3に含まれるルール32は、例えば、語情報321、述語属性322、親ルールID323、重み値324、接続詞種別325、カテゴリ326、子ノード有フラグ327等を含む。
語情報321は、例えば、シンボルIDや、単文内における単語情報の位置を表す位置情報等を含む。なお、語情報321は、単文内に含まれる単語の数に応じた数の語情報1、語情報2、・・・、語情報nを含み、例えば、単語情報のシンボルID、単文における単語の位置情報(開始位置と終了位置)を含む。
述語情報322は、例えば、語IDや、動詞形容詞等の句の属性、および句の意味(否定、否定の傾向、願望、肯定・・・等)を表す属性シンボルID等を含む。
親ルールID323は、親子の係りうけ関係にある親の部分木ノードの文節を表す情報である。
重み値324は、例えば、文章内での主語や述語に応じた重みを付与する係数等である。また、重み値324は、後述するスコアリングにおいて、当該ルール(ノード)がマッチした際に基準となる点数を規定する係数等である。通常は辞書全体で任意の一つの値に設定されるが、辞書の作成時に、文章内での主語や述語に応じた重みを付与する事ができる。
接続詞種別325は、ルール32に対応する文節(句)が、「したがって、だから、すなわち、・・・」等の接続詞である場合、その接続詞を表す情報である。
カテゴリ326は、動詞、名詞、副詞、接続詞・・・等の品詞の種類を表す情報である。
子ノード有フラグ327は、親子の係りうけ関係にある子の部分木ノードの文節の有無を表す情報であって、フラグがオンされている状態で、当該部分木ノードが親の部分木ノードであることを表す情報である。
次に、図7を用いて、検索処理部501、辞書作成部504、および文書解析部505について詳細に説明する。図7は、本実施の形態に係る日本語解析サーバ500の一例を示すブロック図である。
辞書作成部504は、データベースファイルサーバ700から、検索対象となる文章(検索対象情報)を読み出し、検索対象情報に含まれる文章を、例えば句点ごとに区切って単文の単位に変換し、文書解析部505に出力する。例えば、検索対象情報に含まれる文章Aのテキストデータが「PC内にある画像を送信したところ受信できませんでした。また、携帯内にある画像を送信したところ受信できました。」である場合、句点「。」で区切って2つの単文に分割し、単文A1「PC内にある画像を送信したところ受信できませんでした。」と、単文A2「また、携帯内にある画像を送信したところ受信できました。
」を文書解析部505に出力する。
また、辞書作成部504は、文書解析部505によって解析された結果を、文書解析部505から受け取った場合、マッチ辞書記憶部503に格納する。
なお、辞書作成部504は、データベースファイルサーバ700から読み出した検索対象情報を、適当な長さに区切るものであればよく、例えば、ピリオド、箇条書きの一文、スペースや改行によって一文と判断される一文で、区切るものであってもよい。
文書解析部505は、辞書作成部504によってマッチ辞書データが作成される際に、例えば、単文単位に区切られた検索対象情報を、辞書作成部504から受け取り、文書解析を行って、解析結果を辞書作成部504に出力する。
また、文書解析部505は、クライアント端末装置100から特定の検索サービスによる検索を実行するようなリクエスト制御信号を受信した場合、検索処理部501から受け取った検索キー文に対して文書解析を行い、解析結果を検索処理部501に出力する。以下、文書解析部505について詳細に説明する。
文書解析部505は、辞書部550と、解析部551とを備える。
辞書部550は、システム辞書5501と、ユーザ辞書5502と、類義語辞書5503とを備える。一方、解析部551は、形態素解析部5511と、構文解析部5512と、類義語処理部5513とを備える。
システム辞書5501は、例えば、形態素として意味を持つ最小単位の単語と、この単語の意味や品詞、属性情報等が対応付けられている辞書データである。
ユーザ辞書5502は、例えば、日本語解析サーバ500を利用する管理者等によって、システム辞書5501に追加される辞書データである。
類義語辞書は、複数の類義語や同義語を置き換えるため、単語とその類義語等とを対応付けている辞書データであって、例えば、マッチ辞書記憶部503のマッチ辞書データの単語情報と、その類義語が対応付けられている。
形態素解析部5511は、例えば、辞書作成部504によって、単文ごとに区切られた検索対象情報を受け取り、検索対象となる文章を複数の形態素(単語情報)に分解する。例えば、形態素解析部5511は、文章Aが入力されると、文章Aに含まれる単文A1を、複数の形態素(「PC」「内」「に」「ある」「画像」「を」「送信」「した」「ところ」「受信」「できませんでした」)に分解する。
このようにして、形態素解析部5511は、マッチ辞書データ作成の際に、検索対象情報を形態素に分解することができるが、これに限られず、検索キー文を入力して検索を行う際には、検索処理部501によって単文ごとに区切られた検索キー文を受け取り、形態素に分解する。
また、形態素解析部5511は、システム辞書5501やユーザ辞書5502を参照して、分解した形態素の品詞を検索し、得られた品詞情報に基づき、文章中の係りうけ関係や形態素の意味に応じた文節を作成する。例えば、構文解析部5512は、単文A1から分解された形態素に基づき、文節A101「PC内に」と、文節A102「ある」と、文節A103「画像を」と、文節A104「送信したところ」と、文節A105「受信できませんでした」とを作成する。なお、ここで、文節とは、少なくとも1つの単語を含む文字列の単位である。また、単文とは、少なくとも1つの文節を含み1つの文からなる文字列の単位であって、例えば、句点等で区切られる。さらに、文章とは、複数の単文を含む文の単位である。なお、文は、単文と文章の両方を含むものとする。
さらに、形態素解析部5511は、システム辞書5501およびユーザ辞書5502に記憶されている辞書データを参照して、それぞれ品詞のカテゴリ(例えば、動詞、名詞、副詞、接続詞・・・等)や、接続詞の種類(例えば、したがって、だから、といった・・・等)、動詞や形容詞等の句の意味を表す属性(例えば、否定、否定の傾向、願望、肯定・・・等)を検索し、検索によって得られた情報を形態素や文節に付与する。
例えば、形態素解析部5511は、文節A105「受信できません」を解析して、品詞は“名詞(サ変接続)”であって、句の意味は“否定”であることを解析結果として得て、この解析結果を文節A105に付与する。
構文解析部5512は、形態素解析部5511によって解析された情報に基づき、文章を構成する文節の品詞や意味、属性情報、文章内での位置、並び等を評価し、文章における文節どうしの係りうけ関係を解析し、解析結果を類義語処理部5513に出力する。
さらに、構文解析部5512は、検索対象情報を解析した際に、各文章を識別するための文章IDを付与し、この文章をマッチ辞書記憶部503に登録(記憶)する際に必要な登録情報を生成する。また、構文解析部5512は、単語情報や文節等の解析結果を利用して、文節同士の係りうけ関係に基づき、図8に示すような構造木を作成し、部分木ノード毎のルールを表す情報を生成して、類義語処理部5513に出力する。
なお、ルールとは、図8に示す構造木を構成する部分木ノード毎に対応付けられている情報であって、図6に示したように、語情報321、述語属性322、親ルールID323、重み値324、接続詞種別325、カテゴリ326、子ノード有フラグ327等を含む。
ここで、図8を用いて構文解析部5512によって作成される構造木について説明する。図8は、構文解析部5512によって作成される構造木の一例を示す概略図である。
図8に示す通り、部分木ノードに対応するルールは、形態素解析部5511によって区分された文節毎に作成されている。また、部分木ノードによって構成される構造木は、文章の前後関係に応じた係りうけ関係によって作成されている。
類義語処理部5513は、類義語辞書5503を参照して、分解された形態素や文節に対して、統一すべき類義語があるか否かを検索し、該当する類義語があれば、類義語辞書5503から検索によって得られた類義語への置換えを行う。
ここで、辞書作成部504が、データベースファイルサーバ700から検索対象情報を読み出して、単文に区切られた検索対象情報を文書解析部505に出力した場合、文書解析部505は、上述のような文書解析を行い、解析結果を辞書作成部504に出力する。
辞書作成部504は、文書解析部505から解析結果を受け取り、単文を構成する文節のルールとしての情報、例えば、単語情報、シンボルID、各単語語情報の述語属性、ルール(部分木ノード)間のつながりを表す親ルールIDや子ノード有フラグ、重み値、接続詞種別、カテゴリ、等のマッチ辞書記憶部503の登録に必要な情報を得る。
また、辞書作成部504は、マッチ辞書記憶部503から読み出したシンボルマップMD1を確認して、マッチ辞書記憶部503内で統一的に利用されている単語情報を、シンボルIDに置き換える。さらに辞書作成部504は、文章IDや、文章テキスト、文章付加情報や用語マップ等を含む文章情報MD2と、単語ID31とルール32とを含む単語情報MD3とを作成し、マッチ辞書登録用のデータを作成する。また、辞書作成部504は、このマッチ辞書登録用のデータを、マッチ辞書記憶部503のマッチ辞書データに追加する。
なお、辞書作成部504は、文書解析部505から受け取った解析結果の中に、シンボルマップMD1に対応するシンボルIDがない単語情報が存在した場合、当該単語情報に対して、新たなシンボルIDを付与して、当該単語情報と新たなシンボルIDとの対応関係をシンボルマップMD1に追加する。
次に、図9〜11を用いて、検索処理部501によって実行されるマッチモードについて詳細に説明する。図9は、単語要素マッチングについて説明するための概略図である。図10は、係りうけマッチングについて説明するための概略図である。図11は、属性マッチングについて説明するための概略図である。
図9(a)〜(c)に示す通り、単語要素マッチングは、積集合タイプと、全集合タイプと、部分集合タイプの3タイプがある。単語要素マッチングでは、検索処理部501が、マッチ辞書記憶部503に記憶されているマッチ辞書データのルール32と、検索キー文においてルール32と対応する文字列(例えば、文節)との照合を行う。なお、検索処理部501は、単語要素マッチングがマッチプロファイルのマッチモード定義PA1において、積集合タイプと、全集合タイプと、部分集合タイプのうち、いずれか1つのタイプを実行する。
ここで、積集合タイプとは、マッチ辞書記憶部503のマッチ辞書データのルールの文字列(部分木ノードに対応する文節)の少なくとも一部と、検索キー文に含まれる文字列(部分木ノードに対応する文節)の少なくとも一部とが一致する場合、この一致する文字列をマッチモードの条件を満たす単語として得るマッチモードである。なお、一部でも一致する単語がなかった場合、マッチモードの条件を満たす単文が得られなかったという結果となる。
例えば、図9(a)に示す通り、マッチ辞書記憶部503のマッチ辞書データのルールに対応する文節「サッカー 観戦」と、検索キー文に含まれる文節「サッカー 少年」、「観戦 ツアー」および「戦」とがそれぞれ照合された場合、検索キー文に含まれる文節「サッカー 少年」は、その一部である単語「サッカー」において、ルールに対応する文節「サッカー 観戦」の一部と一致している。この場合、ルールに対応する文節「サッカー 観戦」は、マッチモードの条件を満たす。
また、検索キー文に含まれる文節「観戦 ツアー」は、その一部である単語「観戦」が、ルールに対応する文節「サッカー 観戦」の一部と一致しており、マッチモードの条件を満たす。
このように、マッチモードの条件を満たす場合、マッチング処理の結果として、ルールに対応する文節「サッカー 観戦」が得られる。また、検索処理部501は、このマッチモードの条件を満たす単語をマッチした単語として検出する。
一方、検索キー文に含まれる文節「戦」は、ルールに対応する文節「サッカー 観戦」に含まれる単語の単位で、一致する部分がないため、マッチモードの条件を満たさない。このため、マッチング処理の結果としては、マッチモードの条件を満たす単文が得られなかったという結果となる。なお、単語「戦」は、文節「サッカー 観戦」の単語「観戦」の一部に含まれる文字であるが、単語単位で比較した場合、「戦」と「観戦」とは異なる文字列(単語)となるため、ここでは、一致しないと判断される。
次に、全集合タイプについて図9(b)を用いて説明する。
全集合タイプは、マッチ辞書記憶部503のマッチ辞書データのルールの文字列(部分木ノードに対応する文節)と、検索キー文に含まれる文字列(部分木ノードに対応する文節)の全てが一致する場合、一致した文字列がマッチモードの条件を満たす単語(マッチした単語)として得られるマッチモードである。この場合、上述の積集合と異なり、一部でも(単語1つでも)一致する文節があった場合であって、文節の全ての文字列が一致しなければ、マッチモードの条件を満たす単文が得られなかったという結果となる。
例えば、図9(b)に示す通り、マッチ辞書記憶部503のマッチ辞書データのルールに対応する文節「サッカー 観戦」と、検索キー文に含まれる文節「サッカー 観戦」「観戦」とが照合された場合、文節「サッカー 観戦」は、ルールに対応する文節と、検索キー文の両方ともが完全に一致しており、マッチモードの条件を満たすため、マッチング処理の結果として、文節「サッカー 観戦」(マッチした文節)が得られる。
一方、検索キー文の文節「観戦」は、ルールに対応する文節「サッカー 観戦」の一部とは一致するものの、全ての文字列が一致していなため、マッチモードの条件を満たさず、マッチング処理の結果としては、マッチモードの条件を満たす単文が得られなかったという結果となる。
次に、部分集合タイプについて図9(c)を用いて説明する。
部分集合タイプは、マッチ辞書記憶部503のマッチ辞書データのルールの文字列(部分木ノードに対応する文節)が、検索キー文に含まれる文字列(部分木ノードに対応する文節)の一部と完全に一致する場合、一致している文字列をマッチモードの条件を満たす単語として得るマッチモードである。この場合、上述の積集合タイプと異なり、少なくともルールに対応する文節の全てを含んでいれば、マッチモードの条件を満たし、一致する単語や文節をマッチした単語あるいはマッチした文節して得る。一方、検索キー文に含まれる文節が、ルールに対応する文節の全てを含むものでなければ、マッチモードの条件を満たす語情報が得られなかったという結果となる。
例えば、図9(c)に示す通り、マッチ辞書記憶部503のマッチ辞書データのルールに対応する文節「サッカー 観戦」と、検索キー文に含まれる文節「サッカー 観戦 ツアー」「観戦 ツアー」とが照合された場合、ルールに対応する文節「サッカー 観戦」は、検索キー文に含まれる文節「サッカー 観戦 ツアー」の一部であって、その文節を構成する全ての単語が、検索キー文に含まれる文節に含まれる単語として一致しているため、マッチモードの条件を満たす。このように、マッチモードの条件を満たす場合、マッチング処理の結果として、ルールに対応する文節「サッカー 観戦」(マッチした文節)が得られる。
一方、検索キー文の文節「観戦 ツアー」は、ルールに対応する文節「サッカー 観戦」の一部の単語「観戦」が一致するものの、ルールに対応する文節の全てが検索キー文の一部と一致していなため、マッチモードの条件を満たさず、マッチング処理の結果としては、マッチモードの条件を満たす単文が得られなかったという結果となる。
次に、係りうけマッチングの例について図10(a)〜(b)を用いて説明する。
図10(a)〜(b)に示す通り、係りうけマッチングは、係りうけの関係のあるものを抽出するノード親子関係タイプと、係り受けの評価を行わないノード単独タイプの2タイプがある。係りうけマッチングでは、検索処理部501によって、マッチ辞書記憶部503に記憶されているマッチ辞書データのルール32の文字列(部分木ノードに対応する文節)の係りうけ関係と、検索キー文に含まれる文字列(部分木ノードに対応する文節)の係りうけ関係との照合が行われる。なお、検索処理部501は、係りうけマッチングがマッチプロファイルのマッチモード定義PA1おいて、ノード親子関係タイプと、ノード単独タイプのうち、いずれか1つのタイプを実行する。
ここで、ノード親子関係タイプは、単語要素マッチングの集積合タイプによってマッチングした単語同士の係りうけ関係についての条件であって、マッチ辞書記憶部503のマッチ辞書データのルールの文字列(部分木ノードに対応する文節)の親子関係と、検索キー文に含まれる文字列のうち単語要素マッチングの集積合タイプによって得られたマッチした単語(部分木ノードに対応する文節)の親子関係が一致する場合、この一致する文字列をマッチモードの条件を満たす単語として得るマッチモードである。なお、親子関係が一致する文字列がなかった場合、マッチモードの条件を満たす単文が得られなかったという結果となる。
例えば、図10(a)に示す通り、マッチ辞書記憶部503のマッチ辞書データの親子関係において、親ルールに対応する文節が「行く」、子ルールに対応する文節が「サッカー 観戦」である場合、この親子関係と一致するパターンは、以下の2つである。つまり、親ルールに対応する文節が「行く」であって、子ルールに対応する文節が「サッカー」であるパターンと、親ルールに対応する文節が「行く」であって、子ルールに対応する文節が「観戦」であるパターンである。
よって、検索キー文に含まれる文字列として、親ルールに対応する文節が「行く」、子ルールに対応する文節が「サッカー」であるもの親子関係「(サッカー)−(行く)」は、マッチモードの条件を満たす。このように、マッチモードの条件を満たす場合、マッチング処理の結果として、ルールに対応する文節「サッカー 観戦」―「行く」の親子関係が得られる。
一方、検索キー文に含まれる文字列として、子ルールに対応する文節が「サッカー 観戦」であって、親ルールに対応する文節がないものや、子ルールに対応する文節が「行く」であって、親ルールに対応する文節がないものは、マッチモードの条件を満たさない。
次に、図10(b)を用いて、ノード単独タイプについて説明する。
ノード単独タイプは、マッチ辞書記憶部503のマッチ辞書データのルールの文字列(部分木ノードに対応する文節)の親子関係と、検索キー文に含まれる文字列(部分木ノードに対応する文節)の親子関係において、親ノードあるいは子ノードの少なくともいずれか一方が一致する場合、この一致する文字列をマッチモードの条件を満たす単語として得るマッチモードである。すなわち、実際には係り受けの評価は行われないことになる。なお、ノード内の文字列の比較は、単語要素マッチングに応じたタイプで行われるが、親ノードあるいは子ノードのいずれか一方でも一致する文字列がなかった場合、マッチモードの条件を満たす単文が得られなかったという結果となる。
例えば、図10(b)に示す通り、マッチ辞書記憶部503のマッチ辞書データの親子関係が、親ノードに対応する文節「サッカー 観戦」、子ノードに対応する文節が「行く」である場合、親ノードに対応する文節として「サッカー」を含む検索キー文は、マッチモードの条件を満たし、マッチング処理の結果として、ルールに対応する文節「サッカー 観戦」―「行く」の親子関係が得られる。
また、子ノードに対応する文節として「行く」を含む検索キー文は、マッチング条件を満たす。一方、子ノードに対応する文節として「する」を含む検索キー文は、親ノードあるいは子ノードのいずれか一方でも一致する文字列がないため、マッチモードの条件を満たさない。
例えば、マッチプロファイルのマッチモード定義PA1においては、係りうけマッチングを行うか否かが予め決められており、上述した複数のタイプのうち、いずれか一方が予め決められている。
次に、属性マッチングについて説明する。属性マッチングは、文属性一致タイプと、係り受けマッチングと同様に、実質的には属性のマッチを評価しない単語一致タイプがある。
ここでは、文属性一致タイプを図11に示す。
属性マッチングでは、検索処理部501によって、マッチ辞書記憶部503に記憶されているマッチ辞書データのルールの文字列(部分木ノードに対応する文節)の属性と、検索キー文における対応する文字列(部分木ノードに対応する文節)の属性との照合が行われる。
ここで、文属性の一致のタイプは、マッチ辞書記憶部503のマッチ辞書データのルールの文節の少なくとも一部と、検索キー文に含まれる文節のうち少なくとも一部(単語)が一致しており、この一致している部分の属性もそれぞれ一致する場合、この一致する文字列をマッチモードの条件を満たす単語として得られるマッチモードである。なお、文字列が一致していても、属性が異なる場合は、マッチモードの条件を満たす単文が得られなかったという結果となる。
例えば、マッチ辞書記憶部503のマッチ辞書データのルール32において、ルールと対応する文節「サッカー 観戦」の述語属性が「否定」であって、検索キー文に含まれる文節「観戦」の述語属性が「否定」である場合、マッチモードの条件を満たす。つまり、「サッカー 観戦しない」の場合、「サッカー(名詞)」+「観戦(名詞)」+「しない(助動詞)」に分解されるが、「しない(助動詞)」の属性が「否定」である。このため、「サッカー 観戦」の述語属性が「否定」となり、マッチモードの条件を満たす。
一方、検索キー文に含まれる文節「サッカー 観戦」の述語属性が「可能」である場合、文節「サッカー 観戦」の文字列は一致しているものの、属性が異なるため、マッチモードの条件を満たさない。つまり、「サッカー観戦できる」の場合、「サッカー(名詞)」+「観戦(名詞)」+「できる(助動詞)」に分解されるが、「できる(助動詞)」の属性が「可能」である。このため、「サッカー 観戦」の述語属性は「可能」となり、マッチモードの条件を満たさない。
ここでいう「属性」とは、助動詞の意味情報のことで、否定、疑問、可能などがある。例えば、「使えない」という語に対しては、「使う(動詞)」+「ない(助動詞)」に分解されるが、「ない(助動詞)」の属性は「否定」である。
なお、属性マッチングにおいては、名詞など「属性なし」同士でマッチしてもマッチモードの条件を満たすと判定する。
次に、図12を用いて、本実施の形態に係る情報検索システム1におけるマッチ辞書データの作成方法の一例について説明する。図12は、本実施の形態に係る情報検索システム1におけるマッチ辞書データの作成方法の一例を示すフローチャートである。
図12に示す通り、マッチ辞書データの作成が、例えば日本語解析サーバ500の操作部(図示せず)から指示された場合、辞書作成部504は、データベースファイルサーバ700のデータソース701から検索対象となる文章を読み出し、文章を句点等ごとに区切って単文の単位として、文書解析部505に出力する。例えば、検索対象となる文章Aのテキストデータが「PC内にある画像を送信したところ受信できませんでした。また、携帯内にある画像を送信したところ受信できました。」である場合、句点「。」で区切られている2つの単文に区切って、単文A1「PC内にある画像を送信したところ受信できませんでした。」と、単文A2「また、携帯内にある画像を送信したところ受信できました。」を文書解析部505に出力する(ステップST1)。
単文A1を受け取った文書解析部505の形態素解析部5511は、単文Aを形態素(例えば単語単位)に分離して、検索対象となる文章を複数の形態素に分解する。例えば、形態素解析部5511は、文章Aが入力されると、文章Aに含まれる単文A1を複数の単語「PC」「内」「に」「ある」「画像」「を」「送信」「した」「ところ」「受信」「できませんでした」に分解する。
そして、形態素解析部5511は、システム辞書5501やユーザ辞書5502を参照して、分解した形態素の品詞や属性、意味等を解析し、解析結果として得る(ステップST2)。
次いで、構文解析部5512は、少なくとも1つ以上の形態素を組み合わせて、構造木の部分木ノードに対応する文節を作成する。なお、ここでは、部分木ノードに対応する文字列として、文章を構成する構成要素の1つであって、文章を実際の言葉として不自然にならない程度に区切ったときに得られる最小のひとまとまりである文節を1つの単位とした例について説明する。しかし、本発明はこれに限られない。
そして、構文解析部5512は、形態素解析部5511によって解析された解析結果に基づき、文章を構成する単語の品詞や意味、属性情報、文章内での位置、並び等を評価し、文章における文節同士の係りうけ関係を解析し、文節どうしの係りうけ関係や、単語の出現位置、文章中での文の成分(主語や述語等)等を解析結果として得る。また、構文解析部5512は、各単文を識別するための単文IDを単文毎に付与する。
次いで、構文解析部5512は、解析結果に基づき、文節を部分木ノードとする構造木を作成し、解析結果を類義語処理部5513に出力する(ステップST3)。
類義語処理部5513は、類義語辞書5503を参照して、分解された単語に対して、統一すべき類義語や同意語があるか否かを検索し、該当する類義語等があれば、該当する単語を、類義語辞書5503から検索によって得られた類義語等に置換える(ステップST4)。そして、類義語処理部5513は、解析部551による解析結果を辞書作成部504に出力する。
解析結果を受け取った辞書作成部504は、この解析結果から、文節毎のルールとして、例えば、語情報テキストデータ、各語情報の述語属性、ルール(部分木ノード)間のつながりを表す親ルールIDや子ノード有フラグ、重み値、接続詞種別、カテゴリ、等のマッチ辞書記憶部503の登録に必要な情報を得る。そして、辞書作成部504は、これら文節によって構成される単文毎に、各文節のルールと単文IDとをまとめて、マッチ辞書データの単文情報MD3として登録可能な登録用データを作成する。
また、辞書作成部504は、マッチ辞書記憶部503からシンボルマップMD1を読み出して、検索対象である文章に、マッチ辞書記憶部503内で統一的に利用されている語情報があるか否かを確認し、単語情報と同一の単語があった場合は、この単語を、シンボルIDに置き換える。なお、シンボルマップMD1内に置き換えるべき同一の単語情報がない場合、辞書作成部504は、新たなシンボルIDを当該単語情報に与える。
そして、辞書作成部504は、文章IDや、文章テキスト、文章付加情報や用語マップ等を含む文章情報(文章の登録のために必要な情報)、および単文情報に基づくマッチ辞書の登録用データを作成する(ステップST5)。
次いで、辞書作成部504は、作成したマッチ辞書の登録用データをマッチ辞書記憶部503に書込み、解析結果をマッチ辞書データとして登録する(ステップST6)。
次に、図13を用いて、本実施の形態に係る情報検索システム1におけるマッチ辞書データの基づく検索方法の一例について説明する。図13は、本実施の形態に係る情報検索システム1における検索方法の一例を示すフローチャートである。
図13に示す通り、例えば、ユーザによってクライアント端末装置100の入力部103から検索サービスαが指定された場合、クライアント端末装置100は、指定された検索サービスαによる検索を実行するためのリクエスト制御信号を、WEBサーバ300を介して日本語解析サーバ500に送信する。
日本語解析サーバ500は、この検索リクエスト制御信号を受信すると、検索処理部501が検索サービスαのプログラムを起動させ、検索サービスαと関連付けられているマッチプロファイルをマッチプロファイル記憶部502から読み出す。ここでは、マッチプロファイルAのマッチモード定義において、予め検索サービスαとマッチプロファイルAとが関連づけられているため、検索プログラムαが起動されることにより、検索処理部501がマッチプロファイルAを読み出す。また、検索処理部501は、マッチ辞書記憶部503に記憶されているマッチ辞書データを読み出す(ステップST10)。
そして、検索処理部501は、例えば、読み出したマッチプロファイルAおよびマッチ辞書データとを、メモリ領域506に展開して辞書オブジェクトを作成する(ステップST11)。なお、検索処理部501は、マッチプロファイルAから、各文章に付与された用語マップ24を読み出し、単語情報の出現頻度情報を計算し、メモリ領域506に一時的に記憶させておいてもよい。このように、辞書オブジェクトを作成するメモリ展開時に、予め各単語情報の出現頻度情報を得て置くことにより、マッチング処理の際に、単語情報の出現頻度情報を計算する処理負荷が軽減される。
ここで、クライアント端末装置100の入力部103から、ユーザによって検索キー文が入力されると、クライアント端末装置100は、検索キー文を、WEBサーバ300を介して日本語解析サーバ500に送信する(ステップST12)。
そして、日本語解析サーバ500は、この検索キー文を受信すると(ステップST13)、以下に示す通り、この検索キー文に基づく検索を行う。
まず、検索処理部501は、検索サービスαに対する検索結果をクライアント端末装置100に返信するため、メモリ領域506に、空のオブジェクトである検索結果オブジェクトを生成し、結果記録用の記憶領域を確保する(ステップST14)。
そして、検索処理部501は、検索サービスαのプログラムに従って、検索キー文の解析を行う。すなわち、形態素解析部5511は、検索処理部501によって分割された単文の形態素解析を行い形態素に分割し、システム辞書5501およびユーザ辞書5502を参照して、品詞や属性等を検索する。そして、形態素解析部5511は、得られた品詞や属性等を表す情報に基づき、文章中の係りうけ関係や形態素の意味に応じた文節を作成する。
次いで、構文解析部5512は、形態素解析部5511による解析結果に基づき、文章を構成する文節の品詞や意味、属性情報、文章内での位置、並び等を評価し、文章における文節同士の係りうけ関係を解析し、解析結果を類義語処理部5513に出力する。
類義語処理部5513は、類義語辞書5503を参照して、分解された単語や文節に対して、統一すべき類義語や同義語があるか否かを検索し、該当する類義語等があれば、該当する単語や文節を、類義語辞書5503から検索によって得られた類義語等に置換える。そして、類義語処理部5513は、解析部551による解析結果を検索処理部501に出力する(ステップST15)。
そして、検索処理部501は、マッチプロファイルAにおいて予め決められているマッチモードに従って、解析された検索キー文と、メモリ領域506の辞書オプジェクトに展開されているマッチ辞書データとのマッチングを行い、各マッチングのどのタイプに属するかを判定し、マッチモード定義の条件を満たす文章等の検索(マッチング処理)を行う(ステップST16)。なお、詳細については、後述する。
さらに、検索処理部501は、ステップST16において、マッチプロファイルAにおいて予め決められているスコアモードに従って、マッチングによって得られた文章等における、検索キー文とのマッチングの程度を評価するスコアを算出する(スコアリング処理)。
そして、検索処理部501は、マッチング処理における検索によって得られたマッチモードの条件を満たす文章と、スコアリング処理によって得られたスコアとを、メモリ領域506の検索結果オブジェクトに書き込む(ステップST17)。
そして、検索処理部501は、WEBサーバ300を介してクライアント端末装置100に、検索結果オブジェクトの内容を送信する(ステップST18)。
次に、図14を用いて、本実施の形態に係る情報検索システム1におけるマッチング処理とスコアリング処理の一例について詳細に説明する。図14は、本実施の形態に係る情報検索システム1におけるマッチング処理とスコアリング処理の一例について詳細に説明するフローチャートである。なお、図14に示す処理は、図13のステップST16に対応する処理を詳細に記載したものである。
図14に示す通り、検索処理部501は、マッチ辞書データのシンボルマップMD1を参照して、図13のステップST15において文書解析部505によって解析された検索キー文の単語情報をシンボルIDに置き換える(ステップST20)。
そして、検索処理部501は、マッチプロファイルAにおいて予め決められているマッチモードに従ってマッチング処理を行う。本実施の形態において、検索処理部501は、単語要素マッチング、係りうけマッチング、属性マッチングについて、それぞれどのタイプに合致するかを判定し、マッチモード定義PA1によって定義された条件に合致する単文を抽出する(ステップST21)。これにより、検索処理部501は、マッチング処理によって検索キー文とマッチした文章を、マッチ辞書データから検索によって得ることができる。
検索処理部501はマッチング処理によって得られた結果に対し、各マッチングモードで判定されたマッチタイプの情報と、マッチプロファイルAによって定義されているスコアモードを利用してスコアを算出し、これらの和をメモリ領域506に一時的に記憶させる(ステップST22)。ここで、スコアの算出にあたっては、実際に結果の抽出に用いられたマッチモード定義とは関連なく行われる。これは、マッチモード定義を条件としたマッチングは、検索結果そのものの抽出である一方、スコア算出の処理は、抽出された結果の中で、より検索の意図に適した結果を得やすくするための評価を行う処理であり、抽出した結果に対して、マッチモード定義の条件にかかわらず再度、単語要素、係りうけ、属性の観点で結果を評価することが有用だからである。
例えば、係りうけマッチングにおいて、図10(b)のように、ノード単独タイプが行われていた場合、ルールに対応する文節が「(サッカー 観戦)−(行く)」であり、検索キー文に含まれる文節が「(サッカー)−(行く)」、「(サッカー)−(する)」であった場合、いずれもマッチング結果としては、一致すると判断されるが、マッチプロファイルにおける係りうけマッチ係数PA7は、検索キー文の係りうけとして一致する「(サッカー)−(行く)」に対して、係数を適用してスコアが算出される。
つまり、検索処理部501は、このような係りうけマッチングの条件を満たす文章や単文が得られた場合、このマッチした文章や単文と、検索キー文とを比較して、スコアモード情報が示すような関係であった場合、係数を適用してスコアを算出することができる。
そして、検索処理部501は、マッチした文章と、この文章のスコアに基づき、マッチした文章のマッチ情報(例えば、マッチング処理において利用したマッチモードの種類、マッチした単語やマッチした文節の文章内における出現位置(以下、マッチ位置情報という)、スコア)を生成する(ステップST23)。
次いで、検索処理部501は、例えば、ステップST22によって算出されたスコアの点数が高い順にマッチした文章を並び替える(ステップST24)。そして、検索処理部501は、検索キー文、マッチした文章、マッチした単文およびマッチ情報を関連付けて、メモリ領域506の検索結果オブジェクトに書き込む(ステップST25)。
そして、検索処理部501は、WEBサーバ300に検索結果オブジェクトの内容を送信する(ステップST26)。WEBサーバ300は、受信した検索結果オブジェクトを記憶部304に一時的に記憶させ、クライアント端末装置100の表示部102によって表示可能な検索結果の表示データ(ウェブページ)を作成しクライアント端末装置100に送信する。クライアント端末装置100は、この表示データに基づき、検索結果の表示データを表示部102に表示する。
なお、マッチ位置情報とは、マッチング条件を満たす単語(マッチした単語)が、このマッチした単語を含むマッチした単文や文章の文中に出現する文字位置を表す情報である。
ここで、図15を用いて、検索結果オブジェクトの内容である検索結果データの一例について説明する。図15は、検索結果データの一例について説明する概略図である。
図15に示す通り、検索結果データは、クライアント端末装置100においてユーザによって入力された“検索キー文”と、日本語解析サーバ500によるマッチング処理によって得られた検索キー文とマッチした“マッチした文章”と、検索キー文とマッチした単文であって、マッチした文章に含まれる単文であることを表す“マッチした単文”と、このマッチした単文に含まれる文節毎に生成される“マッチ情報”とが、それぞれ関連付けられている。
次に、図16を用いて、検索結果オブジェクトの内容として、クライアント端末装置100に送信される検索結果データの一例について、より詳細に説明する。
図16(a)に示す通り、検索キー文が「インターネットがつながらない」であって、日本語解析サーバ500によって、例えば、検索結果1として、単文ID「001−1」、テキスト「インターネットがつながらない場合でも操作は可能ですか?」と、検索結果2として、単文ID「002−3」、テキスト「突然、インターネットができなくなりました」が得られた場合について以下説明する。
図16(b)は、検索キー文や検索結果で得られた文章のマッチ位置情報を表す文字位置について説明する図である。図16(b)に示す通り、例えば、検索キー文は、文章の先頭から順番に、一文字ずつ「1,2,3,・・・,12」という文字位置を表す番号が付与されている。この文字位置を表す番号によって、マッチした単文や文章の文中に出現するマッチした単語の文字位置を表すことができる。
図16(c)は、検索結果の一例を示す。図16(c)に示す通り、検索結果1は、文章IDが「001」、単文IDが「001−1」であって、マッチモードが「係りうけマッチング」の場合では、スコアが「8.9」であって、マッチ位置情報が「key1:7,res1:7」「key9:12,res9:12」であることが示されている。ここで、マッチ位置は、当該マッチモードにおいてマッチングした単語を示しており、マッチ位置情報「key1:7,res1:7」は、検索キー文の「インターネット」を、マッチ位置情報「key9:12,res9:12」は、検索キー文の「つながらない」を、意味している。つまり、この「インターネット」と「つながらない」は、係りうけマッチングにおいて、検索キー文における親子関係と、検索結果1の文章における親子関係のマッチングの程度がスコア「8.9」と評価されていることを意味している。
ここで、マッチ位置情報「key1:7,res1:7」とは、マッチした単語の文中における位置を表す情報であって、「key1:7」は、検索キー文の先頭から数えて、1番目から7番目までの文字列が、マッチした単語に該当することを表している。また、「res1:7」は、マッチした単文(あるいはマッチした文章)の先頭から数えて、1番目から7番目までの文字列が、マッチした単語に該当することを表している。なお、この数字は、文の先頭を基点として数えられる文字の数であって、文中における文字の位置を表す情報である。
このように、検索結果は、マッチング条件を満たす単語を含む文と、当該文に含まれるマッチした単語のマッチ位置情報とが関連付けられている情報を含む。
次に、図17を用いて、本実施の形態に係る情報検索システム1における検索開始処理の一例について説明する。図17は、本実施の形態に係る情報検索システム1における検索開始処理の一例を示すフローチャートである。
図17に示す通り、例えば、クライアント端末装置100の入力部103が日本語解析サーバ500による検索サービスを利用するリクエストをユーザから受け付けると、クライアント端末装置100は、日本語解析サーバ500による検索用表示データを送信するよう、WEBサーバ300に対してリクエスト制御信号を送信する。
WEBサーバ300は、通信部301を介して、クライアント端末装置100からリクエスト制御信号を受信すると、リクエスト処理部302が、このリクエスト制御信号に基づき、クライアント端末装置100の表示部102によって表示される表示データのウェブページのデータを作成するようデータ変換部303を制御する。次いで、データ変換部303は、記憶部304から必要な設定データ等を読み出し、ユーザによって検索キー文が入力されるテキストボックスを表示する検索用表示データを作成する。そして、通信部301は、この検索用表示データを、クライアント端末装置100に送信する(ステップST30)。
例えば、データ変換部303は、クライアント端末装置100に対して検索用表示データを表示させるためのHTML文章等で構成された表示データを作成する。そして、リクエスト処理部302は、この表示データと、検索結果を表示するためのルールが記載されたルール情報(例えば、CSSファイルで構成されたもの)、あるいは、検索結果をクライアント端末装置100の表示部102に表示されるために利用されるプログラム(例えば、javascript等)であって、ブラウザ101上で動作するプログラムコードを、通信部301を介して、クライアント端末装置100に送信する。
クライアント端末装置100は、WEBサーバ300から表示データやプログラム等を受信すると、このプログラムを起動させる。そして、データ処理部112は、このプログラムに従って、WEBサーバ300から受信される検索用表示データを、表示部102によって表示される表示データを生成し、表示処理部113を制御する。そして、表示処理部113は、データ処理112によって生成された表示データを、表示部102に表示させる。
クライアント端末装置100の入力部103を介して、ユーザから特定の検索サービスが指定されると、クライアント端末装置100は、指定された検索サービスによる検索を実行するためのリクエスト制御信号を生成する。
また、ユーザによって検索キー文が入力されると、入力部103はこれを受け付ける(ステップST31)。
次いで、クライアント端末装置100は、ユーザによって指定された検索サービスの種類や、入力された検索キー文を、検索リクエストメッセージとともに、通信部104を介してWEBサーバ300に送信する。
WEBサーバ300は、クライアント端末装置100から検索リクエストメッセージを受信すると、この検索リクエストメッセージから検索キー文を取り出し、日本語解析サーバ500に、例えば、検索サービスαによる検索を要求する(ステップST32)。
次に、図18を用いて、本実施の形態に係る情報検索システム1における検索結果の表示方法の一例について説明する。図18は、本実施の形態に係る情報検索システム1における検索結果の表示方法の一例を示すフローチャートである。
図18に示す通り、WEBサーバ300は、日本語解析サーバ500から検索結果を受信すると、記憶部304に一時的に記憶させる。そして、データ変換部303が、クライアント端末装置100に表示させるためのルール情報を記憶部304から読み出す。次いで、データ変換部303は、このルール情報に基づき、検索結果をクライアント端末装置100の表示装置102において表示するためのウェブページの表示データを作成し、検索結果のメッセージとして、通信部301を介して、クライアント端末装置100に送信する(ステップST40)。
例えば、データ変換部303は、検索キー文ごとに、マッチした文章へのリンク情報、マッチした単文、適用したマッチモード、マッチ位置情報、スコア等のそれぞれに所定のタグを付与して、クライアント端末装置100側のデータ処理部112によって取り扱い可能なデータ(XMLファイル)を作成し、検索結果として送信する。
クライアント端末装置100のデータ処理部112は、この検索結果を受信すると、この検索結果(XMLファイル)を記憶部111に一時的に記憶させる。そして、データ処理部112は、記憶部111に記憶されているルール情報に基づき、このXMLファイルの電文に含まれるマッチ位置に該当する単語に対して、適用したマッチモードに対応した表示用のタグを挿入する(ステップST41)。
例えば、図16(c)に示すような検索結果の場合、データ処理部112は、マッチ位置情報の「key1:7、res1:7」に該当する「インターネット」に対して、適用したマッチモードとして「係りうけマッチング」であることを表す表示用のタグを、検索結果を表示するためのルールが記載されたルール情報(CSSファイル)を参照することで作成する。例えば、データ処理部112は、検索結果を表示するための情報として、特定の単語を強調して表示する強調表示設定情報をルール情報に基づき作成し、タグとしてマッチ位置情報に該当する単語に付与する。この強調表示設定情報としては、例えば、マッチした単語には下線を付加して表示するための設定情報や、あるいは、単語要素マッチングのマッチモードによってマッチした単語等を赤色で表示し、属性マッチングのマッチモードによってマッチした単語等を青色で表示することによって、マッチモードごとにユーザが視覚的に区別して認識することができるように表示するための設定情報が含まれている。
また、強調表示設定情報としては、マッチしたと判断されるマッチモードが複数ある場合、予めユーザによって設定されている優先順位に従って、優先的に表示させるように設定されているマッチモードとマッチした単語等を強調表示するようなものであってもよく、スコアの高い順に優先的に強調表示するようなものであってもよい。
さらに、検索結果として、上述のように予めユーザによってマッチモードの優先順位が決定されている場合、マッチした単文や文章が複数あれば、この優先順位に従って、マッチした単文等を表示させるものであってもよい。
また、検索キー文の文頭に近いマッチした単語から順番に、検索結果として、優先的に表示させるものであってもよい。
このような強調表示設定情報に基づき、検索結果をクライアント端末装置100の表示部102に表示させる。このとき、ユーザによって、検索結果として表示されているマッチした単文等の中から、強調して表示されているマッチした単語等が選択されると、入力部102は、これを受け付ける。そして、データ処理部112は、記憶部111に一時的に記憶されている検索結果のマッチ位置情報から、ユーザによって選択されたマッチした単語等の位置を特定し、このユーザによって選択されたマッチした単語等に応じた絞み込み検索をさらに行う(ステップST42)。
ここで、絞り込み検索について、図19、20を用いて、詳細に説明する。図19は、検索結果表示データに基づき、クライアント端末装置100の表示部102に表示される検索結果を表す画像の一例を示す概略図である。
図19に示す通り、クライアント端末装置100の表示部102は、検索結果表示データに基づき画面102Aを表示し、この画面102Aの左側には、検索キー文を表示するテキストボックス102Bが、右側には検索結果を表示するサジェスト画面102Cが表示されている。
テキストボックス102Bには、検索キー文「クレジットカードの支払方法を登録したのですが料金サポート窓口から請求書が届きます。」が表示されている。
サジェスト画面102Cには、この検索キー文102C1と、この検索キー文に基づき日本語解析サーバ500による検索が行われた検索結果であるマッチした単文102C2が表示されている。
例えば、サジェスト画面102Cでは、検索キー文102C1のマッチした単語が、それぞれマッチモードに応じた色ごとに強調表示されている。マッチした単文102C2では、複数の単文が表示されている場合、通常の検索結果として、マッチした単文が、スコアが高い順番で表示されている。また、マッチした単文102C2に含まれるマッチした単語(例えば、「クレジットカードで支払方法を登録したのですが、料金サポート窓口から請求書が届きます。」)は、検索キー文102C1に含まれるマッチした単語と同様な強調して表示されており、同じマッチモードによって検索された単語に対しては、同じ色で強調して表示されている。
なお、サジェスト画面102Cの検索キー文102C1において強調して表示されているマッチした単語は、クライアント端末装置100の入力部102からの選択指示を受け付け、ユーザによって選択可能である。
WEBサーバ300は、検索結果が得られた場合、図19に示すような検索結果の表示データを作成し、クライアント端末装置100に送信する。
次に、図20を用いて、図19に示す画面から絞込み検索を行う方法について説明する。図20は、図19に示す画面から、絞り込み検索を行った後に表示される画面の一例を示す概略図である。なお、クライアント端末装置100は、日本語検索サーバ500から受信した検索結果(例えば、マッチした文章、マッチした単文、マッチした単語、これらのマッチングに用いられたマッチング条件、あるいはマッチ位置情報を含むマッチ情報やスコア等)や、絞り込み検索を実行する際の検索ルール情報(例えば、入力部103を介して指定されたマッチした単語を検索キーとして、検索結果から、絞り込み対象を検索するためのプログラムや設定値等)を記憶部111に記憶しておく。 図20に示す通り、例えば、サジェスト画面102Cの検索キー文102C1のうち、強調して表示されているマッチした単語の「クレジットカード」が、ユーザによって選択された場合(例えば、マウスによって画面上のポインタが「クレジットカード」と表示されている部分を指示した状態で、ダブルクリック等の操作によって絞込み検索の対象として指定された場合)、クライアント端末装置100のデータ処理部112が、入力部103を介して、ユーザからの選択指示を受け付け、「クレジットカード」による絞り込み検索を実行する。
データ処理部112は、記憶部111に記憶されている検索結果や検索ルール情報を参照して、検索キー文の「クレジットカード」のマッチ位置情報を検出する。また、データ処理部112は、「クレジットカード」のマッチ位置情報に基づき、検索キー文の「クレジットカード」とマッチする単語としてマッチ位置情報において関連付けられているマッチした単語を含むマッチした単文や文章を検索する。
例えば、図19に示す場合、検索キー文内の「クレジットカード」は、マッチ位置が「1:8」であるため、検索結果において、マッチ位置情報が「key1:8,res1:8」であって、同じマッチモードによってマッチした単語を含むマッチした文章を検索する。
さらに、データ処理部112は、この検索によって得られたマッチした単文や文章を、検索結果表示データの検索結果の上位に表示する表示データ(画面102A−1、図20の上方に示す図を参照)を作成する。これにより、表示処理部112は、絞り込み検索によって得られたマッチした文章を上位に表示するような表示データを、表示部102に表示させる。
そして、表示部102は、図20の上部に示す検索結果の画面102A−1の通り、検索結果のマッチした単文102C2の最上位として「クレジットカード支払いへの変更について」(スコア:2.2)を、その次に、「クレジットカードで支払方法を登録したのですが、料金サポート窓口から請求書が届きます。」(スコア:1.4)を表示する。
これにより、クライアント端末装置100は、検索結果のマッチ位置情報を利用して、マッチした単語に基づく再検索を実行することができ、マッチした単語に関してマッチングの程度が高い順に、マッチした単文を表示することができる。
なお、ここでは、絞り込み検索として、検索キー文のマッチした単語が指定された場合、単語要素マッチングにおいてマッチした単語であって、かつ、マッチ位置情報が一致する単語を、データ処理部112が、記憶部111に記憶されている検索結果に基づき、再検索する一例について説明したが、本発明はこれに限られない。
例えば、サジェスト画面102Cの検索キー文102C1のうち、強調して表示されているマッチした単語の「請求書」が、ユーザによって選択された場合、データ処理部112は、入力部103を介して、ユーザからの選択指示を受け付け、「請求書」による絞り込み検索を実行する。
データ処理部112は、記憶部111に記憶されている検索結果や検索ルール情報を参照して、検索キー文の「請求書」のマッチ位置情報を検出する。また、データ処理部112は、「請求書」のマッチ位置情報に基づき、検索キー文の「請求書」とマッチする単語としてマッチ位置情報において関連付けられているマッチした単語を含むマッチした単文や文章を検索する。
例えば、図19に示す場合、検索キー文内の「請求書」は、マッチ位置が「33:35」であるため、検索結果において、マッチ位置情報が「key33:35,res33:35」であって、同じマッチモードによってマッチした単語を含むマッチした文章を検索する。
そして、データ処理部112は、この検索によって得られたマッチした文書を、検索結果表示データの検索結果の上位に表示する表示データ(画面102A−2、図20の下方に示す図を参照)を作成する。表示処理部113は、絞り込み検索によって得られたマッチした文章を上位に表示するような表示データを、表示部102に表示させる。
表示部102は、この表示データを表示し、図20の下部に示す検索結果の画面102A−2の通り、検索結果のマッチした単文102C2の最上位として「料金センタから請求書が届くのですが、請求書明細の内訳について確認したいです。」(スコア:4.0)を、その次に、「解約したにも関わらず、請求書が届いたのですが。」(スコア:2.5)・・・を表示する。
このように、検索結果をクライアント端末装置100の記憶部111に記憶させておき、マッチング位置情報を利用することで、データ処理部112は、マッチした単語に基づく再検索を行うことができる。これにより、クライアント端末装置100は、絞り込み検索がユーザによって指示(リクエスト)された場合、検索結果に対して、形態素分解や構文解析等の解析を行うことなく、文章内におけるマッチした単語の位置を、マッチ位置情報を利用して得ることができる。また、マッチ位置情報は、マッチモードごとに作成されているため、マッチモードに応じて異なる強調表示をするためのタグをマッチした単語に付与することできる。従って、クライアント端末装置100は、再検索された検索結果を、表示部102に表示することで、絞り込み検索の検索結果を得ることができる。
このように、マッチ位置や、マッチパターンを含む検索結果をクライアント端末装置100の記憶部111に記憶しておき、かつデータ処理部112による絞り込み検索のキーとなる単語が入力部103を介して指定されると、対応する単語の位置情報とマッチパターンのみから簡単に絞り込みの検索結果を得ることができる。このため、クライアント端末装置100は、絞り込み検索による再検索結果の表示データを再構築できる。
一方、本実施の形態と異なり、マッチ位置情報が検索結果として記憶部111に記憶されていない場合、クライアント端末装置100によって絞り込み検索が指定された単語が、マッチした文章やマッチした単文の何処に含まれているのかを、文章を解析しなければ検出することができない問題があったと考えられる。また、本実施の形態にように、マッチモードごとにマッチした単語のマッチ位置情報が検索結果としてクライアント端末装置100に記憶されていない場合、マッチモードごとに同じ色、あるいは同じフォント等で強調して表示できない問題があったと考えられる。本実施の形態に係る情報検索システム1は、上述のような構成とすることによって、上記問題を解決することができる。
また、本実施の形態に係るクライアント端末装置100は、マッチ位置情報を用いて、マッチした単文や文章の文中におけるマッチした単語の位置が分かるため、マッチした単語を文中から抽出することができる。このため、形態素解析や構文解析等の文書解析を行うことなく、再検索ができる。また、マッチした単語の位置が分かることにより、クライアント端末装置100は、マッチした単語を強調表示する表示データを作成し、表示することができる。
一方、マッチ位置情報がない場合、クライアント端末装置100は、検索結果に対して文書解析を行わない限り、強調表示するための単語が文中のどこにあるのかわからないため、強調表示することができない。また、マッチ条件に応じて異なる色で強調表示することもできない。
なお、上述の処理はクライアント端末装置100側のデータ処理部112で絞り込み検索を実施し、再表示を行ったが、クライアント端末装置100から、ユーザによって選択された単語情報をWEBサーバ300側に送信し、WEBサーバ300側に絞り込みの処理を実施させてもよい。この場合、検索結果や検索ルール情報は、日本語解析サーバからWEBサーバ300に送信され、記憶部304に記憶しておく。
次に、マッチング処理とスコアリング処理の一例について詳細に説明する。
なお、ここでは、検索サービスαがユーザによって指定されており、検索サービスαのマッチプロファイルとして予め決められているマッチプロファイルAがメモリ領域506の辞書オブジェクトに展開されている例について説明する。
図21は、検索キー文の一例を示す図である。
図21に示すように、検索キー文「ETCカードがお店で使えません。」が、日本語解析サーバ500に入力される。これにより、日本語解析サーバ500によって照合が行われると、図22に示すようなマッチした単文が得られる。図22には、マッチした単文が複数示されており、例えば「ETCカードが使えない」「クレジットカードが使えない」「ETCカードを使いたい」「クレジットカードを使いたい」「ETCカードは使いやすい」「ETCカードを無くした。」等のマッチした単文が検索によって得られている。
図23は、マッチプロファイル記憶部502に記憶されているマッチプロファイルA〜Cの設定を説明するための概略図である。図23に示す通り、マッチプロファイルA〜Cの設定は、図5に示したマッチプロファイル記憶部502に記憶されているマッチモードの組み合わせが決定されているマッチモード定義PA1を含むマッチモード情報と、相対出現頻度フラグPA2から同義語マッチ係数PA10に相当する情報を含むスコアモード情報である。なお、マッチモードは、図27を用いて後述するとおり、(1)〜(4)に示す組み合わせパターンが利用可能である。ここでは、(2)単語要素マッチング+属性マッチングがマッチプロファイルのマッチ情報として予め決められている例について説明する。
マッチプロファイルAは、マッチモード情報(マッチモード定義PA1)として、(2)単語要素マッチングと属性マッチングが行われることが予め決められており、マッチング処理の結果に対しての重み付けは実行されないこと(例えば、係数1.0)が予め決められている。また、マッチプロファイルBは、マッチモード情報(マッチモード定義PA1)として、単語要素マッチングと属性マッチングが行われることが予め決められており、マッチング処理の結果に対しての重み付けは、係りつけマッチ係数PA7に基づく係りうけマッチングにおける重み付けを実行すること(例えば、係数2.0)が予め決められている。さらに、マッチプロファイルCは、マッチモード情報(マッチモード定義PA1)として、単語要素マッチングと属性マッチングが行われることが予め決められており、マッチング処理の結果に対しての重み付けは、述語属性マッチ係数PA6に基づき、属性マッチングにおいてマッチした単文には述語属性マッチ係数に従った重み付けを実行すること(例えば、係数2.0)が予め決められている。
次に、図24を用いて、図21〜23に示した例において、マッチプロファイルAに基づき得られた検索結果について説明する。図24は、マッチプロファイルAに基づき得られた検索結呆をサジェスト画面102Cに表示されている画面の一例を示す概略図である。
ここで、マッチプロファイルAのマッチモード定義PA1は単語要素+属性であるから、図24にはこれらの条件に一致した結果(単文)が抽出されている。
図24に示すスコアリング処理において、スコアモード情報としては、特に重み付け等は設定されていない(例えば、係数0.0もしくは1.0)。また、各ノード(ルール)がマッチした場合は、基準点を付与し、さらに、スコアモード情報による重み付けの計算を行う。なお、本実施例では基準点は、マッチ辞書内に記憶された各ルール(ノード)の重み値が適用されるが、単純に装置全体で所定の値を設定してもよい。今回は基準点を1.2点として、説明する。
例えば、「ETCカードが使えない」は、「ETC」「カード」「使え」という単語がマッチし、さらに、「ETC」、「カード」は名詞なので、「属性なし」で、それぞれ1.2点、「使え」は「使う(否定)」の属性がマッチしているので、1.2点×1.0(述語属性マッチ係数)で、1.2点となり、3.6点である。また「ETC」と「使え」、「カード」と「使え」のそれぞれに係り受けペアが含まれる事から、係り受けマッチ係
数なし(1.0)が適用され1.2点×1.0×2で2.4点が加算され、合計で6.0点である。
以上のように、マッチモードでは係りうけマッチングは行われていないが、マッチプロファイルのスコアモードで、係り受けマッチ係数を定義しておけば、得られた結果に対して、スコアの算出において、柔軟に重み付けをする事ができる。
一方、「ETCカードを使いたい」は、「ETC」「カード」という単語・属性なしがマッチしている。この場合、1.2点+1.2点により、2.4点である。また、述語属性マッチ係数・係りうけマッチ係数が適用されるものはないため、その分の加点はない。
また、「クレジットカードが使えない」は、「使え」という単語と属性「使う(否定)」がマッチしている。この場合、1.2点×1.0で1.2点である。また、係り受けマッチ係数が適用されるものはないため、その分の加点はない。よって、図24に示す通り、スコア順に並べられた検索締果は、最上位が「ETCカードが使えない」(スコア6.0点)、その次が、「ETCカードを使いたい」(スコア2.4点)となる。
なお、本実施例では、「クレジットカード」と「ETCカード」は、「カード」の部分で共通しているが、「クレジット」単独での形で形態素解析をおこなう際のシステム辞書5501に登録がなければ、単語要マッチングにおいて、全要素のタイプが実行されているため、両者はマッチした文節として得られない。
次に、図25を用いて、図21〜23に示した例において、マッチプロファイルBに基づき得られた検索結果について説明する。図25は、マッチプロファイルBに基づき得られた検索結果をサジェスト画面102Cに表示されている画面の一例を示す概略図である。
図25に示すスコアリング処理において、スコアモード情報としては、係り受けマッチ係数が、“あり”(点数に2.0を乗じる)に予め決定している。例えば、「ETCカードが使えない」は、「ETC」「カード」「使え」という単語・属性がマッチし、プロファイルAと同様に3.6点である。また「ETC」と「使え」、「カード」と「使え」のそれぞれに係り受けペアが含まれる事から、係り受けマッチ係数あり(2.0)が適用され1.2点×2.0×2で4.8点が加算され、合計で7.2点である。なお、その他のマッチした単文に対してのスコア処理は図24での説明と同様であるために、詳細な説明は省略する。
次に、図26を用いて、図21〜23に示した例において、マッチプロファイルCに基づき得られた検索結果について説明する。図26は、マッチプロファイルCに基づき得られた検索結果をサジェスト画面102Cに表示されている画面の一例を示す概略図である。
図26に示すスコアリング処理において、スコアモード情報としては、述語属性マッチ係数があり(点数に2.0を乗じる)に予め決定している。例えば、「ETCカードが使えない」は、「ETC」「カード」という単語・属性なしがマッチし、1.2点+1.2点で2.4点、さらに「使え」が単語、「使う(否定)」の属性でマッチしているので述語属性マッチ係数あり(2.0)が適用され1.2点×2.0で2.4点である。
また、プロファイルAと同様に「ETC」と「使え」、「カード」と「使え」のそれぞれに係り受けペアが含まれる事から、係り受けマッチ係数なし(1.0)が適用され1.2点×1.0×2で2.4点が加算され、合計で7.2点である。一方、「クレジットカードが使えない」は「使え」が単語、「使う(否定)」の属性でマッチしているだけなので、述語属性マッチ係数あり(2.0)が適用され1.2点×2.0で2.4点である。
このように、異なるスコアモード情報が設定されているマッチプロファイルA〜Cを用いて、異なる検索結果を得ることができる。
これにより、利用するマッチモードに応じて、マッチ辞書データを作成したり、マッチ辞書データをマッチモードに応じて作成したりする必要がなく、1つのマッチ辞書データを利用して、複数のマッチモードやその組み合わせによる検索を行うことができる。
次に、マッチモードに応じた検索結果の特徴について、図27〜31を用いて、説明する。
図27は、検索結果を示し、マッチした単文と、このマッチした単文が得られたマッチモードの組み合わせを示す図である。
例えば、「ETCカードが使えない」は、(1)単語要素マッチング、(2)単語要素マッチングと属性マッチングの組み合わせ、(3)係りうけマッチング、(4)係りうけマッチングと属性マッチングの組み合わせの全てにおいて、マッチした単文として得られたものであることを示している。なお、検索キー文は「ETCカードがお店で使えません。」である。
図28は、マッチプロファイルのマッチモード定義PA1において、(1)単語要素マッチングによって得られた検索結果を示す概略図である。図28に示す通り、マッチした単文としては、「ETCカードが使えない」と「ETCカードを使いたい」のように、意味が正反対の文章もマッチしている。一方、「ETCカードを失くした。」等の「ETCカード」という単語だけマッチしている文章や、「クレジットカードが使えない」等の「使え」という単語だけマッチしている文章も、マッチした文章として検索によって得られる。
このように、このマッチプロファイルでは、広い範囲にわたって、類似文章も含めて集めてくる検索ができる。よって、複数のマッチした単文が得られる。ここで、複数のマッチした単文が膨大に得られる場合、却ってユーザの利便性が害される場合がある。しかし、日本語解析サーバ500は、マッチした単語の重み付けを行うことによって、スコアに基づき、評価されたマッチした単文を検索結果として表示することができる。よって、広い範囲にわたって複数の類似文章を検索した場合であっても、これら検索結果に優先順位を与え、スコアに基づき優先順位に応じた順番で表示することができる。
図29は、マッチプロファイルのマッチモード定義PA1において、(2)単語要素マッチングと属性マッチングの組み合わせによって得られた検索結果を示す概略図である。図29に示す通り、マッチした単文としては、「ETCカードが使えない」と「ETCカードを使いたい」のように、意味が正反対の文章もマッチしている。ただし、ここでは「使え」は「使う(否定)」の属性としてマッチするため、両者のスコアの差分は、図28に示した例に比べて大きくできる。このように、マッチする単文の属性に対してもスコアの重み付けを行うことによって、検索キー文と意味の近いマッチした単文を、上位に表示することができる。
図30は、マッチプロファイルのマッチモード定義PA1において、(3)係りうけマッチングによって得られた検索結果を示す概略図である。図30に示す通り、マッチした単文としては、「ETCカードが使えない」、「ETCカードを使いたい」、「ETCカードが使いやすい」といったように、意味は異なるが、“ETCカードを使うこと”に関連する単文がマッチしている。このようなマッチングモードを使用した場合、属性に係らず、係りうけ関係を重視した検索を行うことができる。
また、図31は、マッチプロファイルのマッチモード定義PA1において、(4)係りうけマッチングと属性マッチングの組み合わせによって得られた検索結果を示す概略図である。図31に示す通り、マッチした単文としては、「ETCカードが使えない」というような、検索キー結果に対してかなり近い意味の単文を検索により得ることができる。これは、係りうけマッチングのノードの親子関係のタイプで、係りうけ関係の親ノードと子ノードがそれぞれマッチし、かつ、係りうけ関係の親ノードあるいは子ノードに対応する単語に属性がマッチする場合にのみ検索結果が得られるものである。
よって、例えば、コールセンターにおけるオペレーターのように、お客様の問い合わせに対して的確な回答を短時間で検索し、回答する必要がある場合複数のマッチモードの組み合わせによって、係りうけ関係や単語に含まれる属性に応じた、より少ない数の検索結果に絞り込むことができ、例えば、どのような商品に対するどのような要望あるいはクレームなのか、どのようなことが分かり難いための問い合わせなのか等の、細かい意味の違いに応じた検索を行うことができる。
上述の通り、本実施の形態に係るクライアント端末装置100は、記憶部111に、日本語解析サーバ500によって得られた検索結果を記憶させておき、当該検索結果に含まれるマッチング位置情報を利用することで、マッチした単語に基づく再検索を行うことができるようにした。これにより、クライアント端末装置100は、マッチ位置情報に基づき、マッチした単語がマッチした文章や単文の何処にあるのかを把握することができるため、検索結果に対して形態素解析や構文解析等の文書解析を行うことなく、検索の際に文書解析された検索結果を用いて、再検索を行うことができる。よって、クライアント端末装置100の再検索の処理速度が向上し、効率的な再検索を行うことができる。
また、例えば、ユーザが、検索の目的や条件に応じて、特定の単語において関連性の高いマッチした文章を、検索結果から得たい場合、クライアント端末装置100は、マッチ位置情報を用いて再検索を行うことができるため、日本語解析サーバ500も、再度、形態素解析や構文解析等の文書解析を行うことなく、検索結果を用いて再検索を行うことができる。
また、本実施の形態のように、検索結果をクライアント端末装置100の記憶部111に記憶させておくことによって、例えば、絞り込み検索を日本語解析サーバ500に対して再度リクエスト信号を送信しなくて済むため、再検索の際にWEBサーバ300に対する通信を必要とせず、処理速度を向上させ、クライアント端末装置100の処理負担を軽減することができる。
さらに、クライアント端末装置100は、マッチ位置情報に基づき、マッチング条件によって得られたマッチした単語の文中における位置を把握できるようにした。これにより、再検索によって得られた結果を、マッチング条件に応じて表示することができ、ユーザに対して、検索キー文との関係において文の意味合いがより近い(重視された)文章や単語を理解しやすく表示することができる。
なお、本実施形態に係るクライアント端末装置100は、例えば、コールセンターなどでの入力業務に用いる入力端末装置であって、ワークステーションやパーソナルコンピュータなどの情報処理装置から構成されるものが好ましい。また、本実施形態に係るクライアント端末装置100にあっては、携帯電話のユーザサポート業務を行うコールセンターにおいて、ユーザに対する電話応答時に頻出する語彙を基に、マッチ辞書データが構成されているものであってもよい。
これにより、電話による応対の内容をリアルタイムに入力する必要のあるコールセンターの作業などにおいて、より効率的な文字入力を実現することができる。
また、上述の情報検索システム1における動作の過程は、コンピュータに実行させるためのプログラムや、このプログラムとしてコンピュータ読み取り可能な記録媒体として利用可能であり、コンピュータシステムが読み出して実行することによって、上記処理が行われる。なお、ここでいう「コンピュータシステム」とは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に記憶したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。

Claims (9)

  1. 複数の単語から構成される検索キー文が入力される入力部と、
    前記検索キー文を解析して、前記検索キー文を構成する前記単語に関する解析結果を得る解析部と、
    少なくとも1つ以上の単語によって構成された文節からなる一文について、その文節を部分木ノードとして木構造に構成し、各ノードに関する情報を表すルール情報として、複数の文を記憶するマッチ辞書記憶部と、
    前記マッチ辞書記憶部に記憶されている前記マッチ辞書情報と前記検索キー文との関係性を照合するためのマッチング条件が1つ以上関連付けられているマッチプロファイル情報を記憶するマッチプロファイル記憶部と、
    前記マッチプロファイル情報に基づき、関連付けられている前記マッチング条件に応じた前記検索キー文と前記マッチ辞書情報との照合を行い、照合の結果として、少なくとも一つ以上の前記マッチング条件に適合する単語が、前記マッチ辞書情報の文中に出現する位置を表す情報であって、文の先頭を基点として数えられる文字の数で、前記文中における単語の位置を表すマッチ位置情報を得る検索処理部と、
    前記検索処理部によって得られた照合の結果を、前記マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記マッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、端末装置に送信する通信部と、
    を備えることを特徴とする情報検索装置。
  2. 前記マッチプロファイル情報は、
    当該マッチング条件を満たす単語に対して前記検索キー文との照合の度合いを算出するルールである評価基準をさらに含み、
    前記検索処理部は、前記照合の結果、前記マッチング条件に適合する文に対して、前記マッチプロファイル情報に関連付けられている前記評価基準に従って、前記検索キー文とマッチング辞書情報との照合の度合いを表すスコアを全て適合したマッチング条件について算出することを特徴とする請求項1に記載の情報検索装置。
  3. 前記評価基準は、
    前記マッチング条件を満たす単語に対して前記照合の度合いに応じた点数が定められており、
    前記検索処理部は、前記評価基準に従って、前記マッチング条件を満たす単語に対して与えられた前記点数を、少なくとも一つ以上の前記マッチング条件に適合した文毎に算出して、前記スコアを得ることを特徴とする請求項2に記載の情報検索装置。
  4. 複数のマッチング条件に従って検索を行う情報検索装置に対して、利用者によって入力された検索文を送信し、その結果を受信する端末装置であって、
    表示データを表示する表示部と、
    前記複数の単語から構成される検索キー文の入力を受け付ける入力部と、
    前記情報検索装置から受信した検索結果情報、強調表示のための表示ルールを記憶する端末装置記憶部と、
    前記情報検索装置から、マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記文内の前記単語の出現位置を表すマッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、受信し、前記端末装置記憶部に記憶する受信部と、
    検索結果情報を読み出し、検索結果として得られた文について、前記表示ルールに従って、前記マッチング条件と、前記マッチ位置情報に基づいて、文中の単語を強調して表示する表示データを作成するデータ処理部を有することを特徴とする端末装置。
  5. 前記入力部はさらに、前記表示部に表示された検索結果情報の中から、単語の指定を受け付け、
    前記データ処理部は、前記入力部を介して前記指定された単語について、前記端末装置記憶部から読み出した前記検索結果情報に基づいて、該単語の位置情報とマッチング条件を等しくする単語を含む文を抽出し、再検索結果として、表示部に表示させる表示データを作成する
    ことを特徴とする請求項4に記載の端末装置。
  6. コンピュータの入力部が、複数の単語から構成される検索キー文が入力するステップと、
    コンピュータの解析部が、前記検索キー文を解析して、前記検索キー文を構成する前記単語に関する解析結果を得るステップと、
    コンピュータのマッチ辞書記憶部が、
    少なくとも1つ以上の単語によって構成された文節からなる一文について、その文節を部分木ノードとして木構造に構成し、各ノードに関する情報を表すルール情報として、複数の文を記憶するステップと、
    コンピュータのマッチプロファイル記憶部が、前記マッチ辞書記憶部に記憶されている前記マッチ辞書情報と前記検索キー文との関係性を照合するためのマッチング条件が1つ以上関連付けられているマッチプロファイル情報を記憶するステップと、
    コンピュータの検索処理部が、前記マッチプロファイル情報に基づき、関連付けられている前記マッチング条件に応じた前記検索キー文と前記マッチ辞書情報との照合を行い、照合の結果として、少なくとも一つ以上の前記マッチング条件に適合する単語が、前記マッチ辞書情報の文中に出現する位置を表す情報であって、文の先頭を基点として数えられる文字の数で、前記文中における単語の位置を表すマッチ位置情報を得るステップと、
    コンピュータの通信部が、前記検索処理部によって得られた照合の結果を、前記マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記マッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、端末装置に送信するステップと、
    を実行することを特徴とする情報検索方法。
  7. 複数のマッチング条件に従って検索を行う情報検索装置に対して、利用者によって入力された検索文を送信し、その結果を受信する端末装置であるコンピュータを用いて実現するデータ処理方法であって、
    前記コンピュータの表示部が、表示データを表示するステップと、
    前記コンピュータの入力部が、前記複数の単語から構成される検索キー文の入力を受け付けるステップと、
    前記コンピュータの記憶部が、前記情報検索装置から受信した検索結果情報、強調表示のための表示ルールを記憶するステップと、
    前記コンピュータの受信部が、前記情報検索装置から、マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記文内の前記単語の出現位置を表すマッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、受信し、前記コンピュータの記憶部に記憶するステップと、
    前記コンピュータのデータ処理部が、検索結果情報を読み出し、検索結果として得られた文について、前記表示ルールに従って、前記マッチング条件と、前記マッチ位置情報に基づいて、文中の単語を強調して表示する表示データを作成するステップと、を実行することを特徴とするデータ処理方法。
  8. コンピュータに、
    複数の単語から構成される検索キー文が入力される入力手段、
    前記検索キー文を解析して、前記検索キー文を構成する前記単語に関する解析結果を得る解析手段、
    少なくとも1つ以上の単語によって構成された文節からなる一文について、その文節を部分木ノードとして木構造に構成し、各ノードに関する情報を表すルール情報として、複数の文を記憶するマッチ辞書記憶手段、
    前記マッチ辞書記憶部に記憶されている前記マッチ辞書情報と前記検索キー文との関係性を照合するためのマッチング条件が1つ以上関連付けられているマッチプロファイル情報を記憶するマッチプロファイル記憶手段、
    前記マッチプロファイル情報に基づき、関連付けられている前記マッチング条件に応じた前記検索キー文と前記マッチ辞書情報との照合を行い、照合の結果として、少なくとも一つ以上の前記マッチング条件に適合する単語が、前記マッチ辞書情報の文中に出現する位置を表す情報であって、文の先頭を基点として数えられる文字の数で、前記文中における単語の位置を表すマッチ位置情報を得る検索処理手段、
    前記検索処理手段によって得られた照合の結果を、前記マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記マッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、端末装置に送信する通信手段、
    として機能させるためのプログラム。
  9. 複数のマッチング条件に従って検索を行う情報検索装置に対して、利用者によって入力された検索文を送信し、その結果を受信する端末装置のコンピュータに、
    表示データを表示する表示手段、
    前記複数の単語から構成される検索キー文の入力を受け付ける入力手段、
    前記情報検索装置から受信した検索結果情報、強調表示のための表示ルールを記憶する記憶手段、
    前記情報検索装置から、マッチング条件に適合する単語を含む文、前記単語に適合したマッチング条件および前記文内の前記単語の出現位置を表すマッチ位置情報、前記単語の検索キー文内における位置情報について、全て適合したマッチング条件毎に、関連付けられた検索結果情報として、受信し、前記コンピュータの記憶部に記憶する受信手段、
    検索結果情報を読み出し、検索結果として得られた文について、前記表示ルールに従って、前記マッチング条件と、前記マッチ位置情報に基づいて、文中の単語を強調して表示する表示データを作成するデータ処理手段
    として機能させるためのプログラム。
JP2010025999A 2010-02-08 2010-02-08 情報検索装置、情報検索方法、端末装置、およびプログラム Active JP4967037B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010025999A JP4967037B2 (ja) 2010-02-08 2010-02-08 情報検索装置、情報検索方法、端末装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010025999A JP4967037B2 (ja) 2010-02-08 2010-02-08 情報検索装置、情報検索方法、端末装置、およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009116026A Division JP4499179B1 (ja) 2009-05-12 2009-05-12 端末装置

Publications (2)

Publication Number Publication Date
JP2010267247A JP2010267247A (ja) 2010-11-25
JP4967037B2 true JP4967037B2 (ja) 2012-07-04

Family

ID=43364130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010025999A Active JP4967037B2 (ja) 2010-02-08 2010-02-08 情報検索装置、情報検索方法、端末装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4967037B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5710317B2 (ja) * 2011-03-03 2015-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、自然言語解析方法、プログラムおよび記録媒体
JP6447161B2 (ja) * 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP6926749B2 (ja) 2017-07-12 2021-08-25 富士フイルムビジネスイノベーション株式会社 文書管理装置、文書管理システム及びプログラム
JP7103763B2 (ja) 2017-07-20 2022-07-20 株式会社日立製作所 情報処理システムおよび情報処理方法
WO2020003355A1 (ja) * 2018-06-25 2020-01-02 株式会社フォーラムエンジニアリング マッチングスコア算出装置
EP3812984A4 (en) * 2018-06-25 2022-01-26 Forum Engineering Inc. DEFICIENT CAPACITY EXTRACTION DEVICE
CN110069610B (zh) * 2019-03-16 2024-03-19 平安科技(深圳)有限公司 基于Solr的检索方法、装置、设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3612769B2 (ja) * 1994-05-25 2005-01-19 富士ゼロックス株式会社 情報検索装置および情報検索方法
JPH10105555A (ja) * 1996-09-26 1998-04-24 Sharp Corp 対訳例文検索装置
JP4005343B2 (ja) * 2001-12-04 2007-11-07 東京ソフト株式会社 情報検索システム

Also Published As

Publication number Publication date
JP2010267247A (ja) 2010-11-25

Similar Documents

Publication Publication Date Title
US6662152B2 (en) Information retrieval apparatus and information retrieval method
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2004157981A (ja) 要約表現装置
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
US6985147B2 (en) Information access method, system and storage medium
JP4499179B1 (ja) 端末装置
WO2020079752A1 (ja) 文献検索方法および文献検索システム
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
JPH0962684A (ja) 情報検索方法及び情報検索装置と、情報案内方法及び情報案内装置
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2003108584A (ja) 情報検索システム及びプログラム
JP7238411B2 (ja) 情報処理装置及びプログラム
Eldin et al. Cross-language semantic web service discovery to improve the selection mechanism by using data mining techniques
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2000105769A (ja) 文書表示方法
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005234772A (ja) 文書管理装置および方法
JPH11195041A (ja) 文書検索装置、方法及び記録媒体
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001101207A (ja) 文書要約装置
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120402

R150 Certificate of patent or registration of utility model

Ref document number: 4967037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350