JP2007241635A - 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム - Google Patents

文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム Download PDF

Info

Publication number
JP2007241635A
JP2007241635A JP2006062846A JP2006062846A JP2007241635A JP 2007241635 A JP2007241635 A JP 2007241635A JP 2006062846 A JP2006062846 A JP 2006062846A JP 2006062846 A JP2006062846 A JP 2006062846A JP 2007241635 A JP2007241635 A JP 2007241635A
Authority
JP
Japan
Prior art keywords
search
document
search result
information
feature word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006062846A
Other languages
English (en)
Inventor
Junko Nakagawa
淳子 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006062846A priority Critical patent/JP2007241635A/ja
Publication of JP2007241635A publication Critical patent/JP2007241635A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】検索実行者が、検索結果相互の相違を短時間で容易に把握することを可能にする検索装置、情報処理装置、検索結果出力方法および検索結果表示方法を提供する。
【解決手段】検索実行部112が、検索条件にあう文書を検索し、各検索結果文書の各テキスト情報である各検索結果を、検索結果保持部12に格納する。特徴語分析部13は、各検索結果に偏って出現する特徴語を分析し、検索結果ごとに、他の検索結果との相違点を示す特徴語を選定する。そして、検索結果ごとに、検索結果保持部12は、検索結果を、特徴語分析部13は、その検索結果から分析され選定された特徴語を、表示生成部14に提供する。表示生成部14は、各検索結果に、各検索結果の特徴語を付加することにより、表示用情報を生成し、その表示用情報をユーザ端末18に出力する。
【選択図】図1

Description

本発明は、文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラムに関し、特に、検索結果の相互の相違をあらわす情報を検索結果に付加して検索結果とする、文書検索装置、文書情報処理装置、文書検索結果出力方法、文書検索結果表示方法およびプログラムに関する。
文書検索装置は、インターネット上のWWW検索サービス、イントラネット上のWWW検索、あるいは、文書管理システムなどの情報管理・共有システムの一機能として組み込まれて、広範囲に利用されている。
文書検索装置を利用することができる端末の種類も、PC(パーソナルコンピュータ)からTV、携帯電話機および特定用途向けなどのモバイル機器へと広がっている。
文書検索装置の仕組みの例を述べる。まず、検索実行者が、自分の検索目的を良くあらわす検索条件を考えて、その検索条件を利用するユーザ端末に入力する。検索条件としては、例えばキーワードが用いられる。ユーザ端末は、その検索条件を検索サーバに提供する。
検索サーバは、検索対象の文書を、その検索条件に基づいて検索して、検索結果文書を探し出す。そして、検索結果文書の情報をユーザ端末に提供する。ユーザ端末はその検索結果文書の情報を、検索結果として表示する。
一般的に、検索結果文書は複数件である。検索結果文書の情報としては、文書の表題、補助情報、文書格納先情報がある。検索結果文書の情報は、検索結果文書一件につき、一組生成することができ、検索結果文書一件をあらわす情報として、利用することができる。そして、検索結果文書の件数分の情報の組は、ユーザ端末に提供され、検索結果として表示される。
なお、補助情報としては、以下のようなものを利用することができる。
文書を検索対象の文書として検索サーバに登録する時に、文書に対して検索のためのインデックスがつけられるので、そのインデックス。
検索結果文書から、検索条件に関係のある部分、例えば、検索実行者の指定したキーワードが出現する部分を抜き出したもの。
文書検索装置の具体例を述べる。
インターネット上のWWW検索サービスでは、検索実行者が利用するユーザ端末からインターネット上にある検索サービス提供ホームページに接続して、自分の検索目的をあらわす検索条件を入力すると、検索対象となるデータに対して検索が実行され、検索結果ホームページまたはファイルが得られる。検索結果ホームページまたはファイルの情報としては、検索結果ホームページまたはファイルの表題、検索結果ホームページまたはファイルから概要記載部分や検索条件として入力したキーワードが出現する部分を抜き出したもの等の補助情報、検索結果ホームページまたはファイルの存在するURLがある。これらは、検索結果として、インターネットを経由してユーザ端末に表示される。検索実行者は、これらの検索結果を読み、自分の検索目的に合致していそうな検索結果ホームページまたはファイルを選択して開いて、検索目的が達成されたかどうかを確認する。検索目的が達成されていない場合は、検索条件入力から検索結果の確認までを繰り返す。
また、文書管理システムでは、検索対象の文書は登録され蓄積されている。文書を登録する時に、登録する文書を表す要約や単語群を文書と一緒に登録することが行われる。検索実行者により検索が実行された時には、検索結果文書一件につき、検索結果文書の表題、要約や単語群からなる補助情報、文書格納先情報などの情報一組が生成される。そして、検索結果文書の件数分の情報の組が、検索結果として表示される。検索実行者は、これらの検索結果から文書を選択する。文書はしばしば文書格納先からダウンロードし、ファイルを開いて読む必要がある。
一方、特徴語とは、カテゴリとカテゴリに属するテキストが与えられた場合に、テキスト中に出現する単位表現の中で、テキストが属するカテゴリにより出現状況に偏りがある単位表現のことである。
単位表現とは、テキストを言語解析して得られる、文節または単語のことである。言語解析については、後述の最良の形態において説明する。
テキストを言語解析して特徴語を算出する技術は、テキストマイニング、テキスト分析といった名称の製品に組み込まれて実用化されている。これらの製品は、アンケートの回答、コンタクトセンターのオペレータがキー入力した電話応対記録のようなテキストを分析する際に利用される。
たとえば、特許文献1の発明の名称は、アンケート回答分析システムである。これには、カテゴリとカテゴリに属するテキストが与えられた場合に、テキスト分類エンジンを用いることによって、テキスト中に出現する単語の中から、テキストへの出現状況が、そのテキストが属するカテゴリと深く関係する単語を、取り出す技術が記載されている。この技術により取り出された単語のテキストへの出現状況は、テキストが属するカテゴリによるので、取り出された単語は特徴語の一種と考えることができる。
文書検索装置の検索結果である、検索結果文書の情報については、検索結果文書一件ずつを各々カテゴリとみなすと、ある検索結果文書の情報は、ある検索結果文書のカテゴリに属するテキストと考えることができる。そして、検索結果文書の情報中に出現する単位表現の中で、それが属する検索結果文書カテゴリにより、出現状況に偏りがある単位表現は、前述の特徴語の一種と考えることができる。
特開2001−266060号公報
従来の文書検索装置には、以下の問題がある。
前述したように、検索実行者は検索結果文書の情報(文書の表題、補助情報、文書格納先情報)を読み、自分の検索目的に合致する候補の検索結果文書を選択したり、次の検索条件を考えたりする必要がある。その際、検索実行者が利用できる検索結果文書の情報からは、検索結果文書の情報の相互の相違を把握しにくい。これは、検索結果文書の情報は検索結果文書各々から個別に生成されるものであり、検索結果文書の情報の相互の相違を表すように生成されないためである。
そのため、検索実行者による検索結果文書の選択は、多数の検索結果が得られた場合には特に困難で、自分の検索目的に合致する候補として検索結果から選択した文書自体を読んでから、検索目的に合致しないことがわかる、などの試行錯誤が必要であった。
また、検索実行者が自分の検索目的に合致する候補として検索結果から選択した文書自体を読むには、検索実行に比べて時間と手間がかかる場合がある。たとえば、インターネット上のWWW検索サービスであれば、検索結果ホームページの存在するURLから検索結果ホームページを開く必要があり、文書管理システムであれば、文書格納先からダウンロードしてファイルを開いて読む必要がある。
これらには検索実行に比べて時間と手間がかかる。そして、検索実行者が検索結果から選択した文書自体を読んで、検索目的に合致しているか否かを判断するために費やす時間と手間が、検索全体の時間と手間を増大させている。
本発明の目的は、検索結果文書の情報に、相互の相違をあらわす情報を、付加することである。
上記目的を達成するために、本発明の文書検索装置は、入力された検索条件に基づいて、検索対象とする複数の文書を検索し、その検索結果表示を出力する文書検索装置であって、前記検索条件を受け付けると、前記検索対象とする複数の文書の中から、前記検索条件にあう文書を検索し、検索結果文書の情報を生成し出力する検索実行部と、前記検索実行部の生成した検索結果文書の情報を保持する検索結果保持部と、前記検索結果保持部に保持された検索結果文書の情報から、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析部と、前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し、出力する表示生成部と、を含むことを特徴とする。
このような構成を有する本発明の文書検索装置によれば、特徴語分析部において分析し出力する特徴語は、各検索結果文書の情報に偏って出現する。すなわち、ある検索結果文書の情報の特徴語は、他の検索結果文書の情報の特徴語にはなりにくい。また、すべての検索結果文書の情報に一様に出現する単位表現は、すべての検索結果について、特徴語にはなりにくい。よって、各検索結果文書の情報の特徴語は、各検索結果文書の情報の、相互の相違をあらわす情報といえる。
本発明の文書検索装置は、検索結果文書の情報に、検索結果文書自体の、相互の相違をあらわす情報を付加する必要はない。
このように、検索結果文書の情報から、各検索結果文書の情報の特徴語を分析して、検索結果文書の情報とともに出力することにより、本発明の目的を達成することができる。
なお、前記検索対象とする各文書は、表題、文書格納先情報および文書自体を有し、前記検索実行部は、前記検索結果文書の情報として、前記検索結果文書の表題、前記検索結果文書の文書格納先情報、または、前記検索結果文書の文書自体から前記検索条件が出現する部分を抜き出した補助情報を、生成し出力することが望ましい。
一般的に、テキストの特徴語を分析するには、テキストの量に応じて分析時間がかかる。一方、検索実行者は検索の結果を早く見たいと要求する場合が多い。そのため、検索の目的に特徴語分析を利用することは困難と考えられていた。本発明は、検索対象の文書自体の全テキストではなく、検索を実行して得られた検索結果文書の情報(表題、補助情報、文書格納先情報)のテキストに対して特徴語分析を行うことにより、特徴語を分析するテキストの量を減らす。そして、検索実行者の、早く検索結果が見たいという要求にもこたえつつ、特徴語分析を利用可能とするものである。
本発明によれば、文書検索結果表示に、各々の検索結果文書の情報の、相互の相違をあらわす特徴語を付加して表示する。そのため、検索実行者が検索結果表示から自分の検索目的に合致する候補の検索結果文書を選択する際に、従来の文書検索結果に加えて、特徴語を参照することにより、各々の検索結果相互の相違を容易に把握することができる。よって、検索目的に合致する検索結果文書を、試行錯誤が少なく、短時間に選択することができるという効果がある。
次に、本発明の実施の形態につき図面を参照して説明する。図1は本発明の一実施形態をあらわすブロック図である。図1において、本検索システムは、全体としてメモリを備えた、プログラム制御により動作するコンピュータからなり、文書検索装置1と、ディスプレイ装置とキーボード、マウス等を備えたユーザ端末18とを含む。そして、文書検索装置1とユーザ端末18は、通信回線の一例であるインターネット17を介して互いに接続する。
文書検索装置1は、検索部11と、検索結果保持部12と、特徴語分析部13と、表示生成部14と、記憶部15とを含む。
検索部11は、検索条件入力部111と、検索実行部112と、検索対象蓄積部113とを含む。特徴語分析部13は、分析条件入力部131と、言語解析部132と、尺度算出部133と、特徴語選択部134とを含む。
また、文書検索装置1で文書検索方法を実行させるためのプログラムは151として記憶部15に格納され、記録媒体16に記録あるいは記録媒体16から読み出されることができる。
図1の検索部11は、ユーザ端末18から入力された検索条件を検索条件入力部111で入力し、検索対象蓄積部113に蓄積された検索対象文書について、検索実行部112で検索を実行する。
図1の検索対象蓄積部113には、検索対象とする複数件の文書が蓄積される。文書の一件は、たとえば、表題と、文書格納先情報、文書自体からなる。文書を表す要約や単語群が付加される場合もある。
図1の検索条件入力部111で入力する検索条件とは、たとえば、キーワードである。他には、検索対象蓄積部113に蓄積された文書のうち、どの文書を検索対象とするか、また、一件の文書のどの部分を検索対象とするか、たとえば表題のみか、表題と文書自体を検索対象とするか、などである。
図1の検索実行部112は、検索条件入力部111で入力した検索条件に従い、検索対象蓄積部113に蓄積された検索対象文書のうち検索条件に合致する文書とその部分につき、文書検索を実行し、検索結果文書を探し出す。そして検索結果文書から、検索結果文書の情報を生成して、検索結果として検索結果保持部12に出力する。
図2は、検索実行部112において生成した、一件の検索結果文書の情報、すなわち一件の検索結果の、内容の一例を示す説明図である。図2において、一件の検索結果(i)は、検索結果文書の表題(i) 2i1、補助情報(i) 2i2、文書格納先情報(i) 2i3の情報からなる。補助情報(i)は、一例として、検索条件として入力したキーワードが出現する部分を検索結果文書から抜き出したものであり、検索実行部112で生成される。
図1の検索結果保持部12は、検索実行部112の検索結果、すなわち検索結果文書の情報を入力して保持する。検索結果としてn件が出力されたとして、それらを検索結果(1)〜(n)、すなわち121〜12nとあらわす。一件の検索結果は各々図2に示した内容である。
図1の特徴語分析部13は、ユーザ端末18から入力された分析条件を分析条件入力部131で入力し、検索結果保持部12の検索結果(1)〜(n)を参照して、そのテキストの特徴語を分析して出力する。
本実施の形態では以下とする。
特徴語とは、カテゴリとカテゴリに属するテキストが与えられた場合に、テキスト中に出現する単位表現の中で、テキストが属するカテゴリにより出現状況に偏りがある単位表現のことである。
単位表現とは、後述の言語解析部132でテキストを言語解析して得られる、文節または単語のことである。
カテゴリとテキストから特徴語を分析することは、単位表現の、カテゴリごとのテキスト中での出現状況から、統計的あるいは確率論的手法により偏り方を表す尺度を算出することによって行う。なお、本実施の形態では、カテゴリとして、検索結果文書一件ずつを用いる。各々のカテゴリに属するテキストとして、各々の検索結果文書の情報、すなわち検索結果(1)〜(n)を用いる。
図1の分析条件入力部131で入力する分析条件とは、たとえば、以下である。
・言語解析部132で使用する単位表現を文節にするか、単語にするか。
・尺度算出部133で使用する尺度算出方法。
・特徴語選択部134で使用する特徴語選択の基準。
・特徴語分析部13で特徴語を分析するのは、検索結果の内容のうちどの部分とするか、すなわち、表題、補助情報、文書格納先情報のうち、どの部分の特徴語を分析するか。なお、本実施の形態では、検索結果の補助情報の特徴語を分析することとする。
図1の言語解析部132は、検索結果(1)〜(n)について、検索結果に含まれる補助情報のテキストを言語解析し、どの検索結果の補助情報の言語解析結果かがわかるように対応づけて格納する。なお、本実施の形態では、言語解析とは、テキストを言語学的知見にもとづき解析して得られる文節または単語の単位表現を取り出し、それらの順序および品詞、活用形、係り受け関係を判定することとする。言語解析結果の格納方法は、検索結果(1)〜(n)ごとでも、単位表現ごとでもよい。単位表現を何にするか、たとえば単語にするか文節にするかは、図1の分析条件入力部131で入力する。
図3は日本語の言語解析結果の一例を示す説明図である。図3において、元のテキスト31について、文節を単位表現として区切り、係り受け関係を判定し、矢印で示した結果が32である。矢印の根元の文節が、矢印の先の文節にかかっていることを示している。文節の一つ「飛行機で」につき単語に区切り、単語の品詞を判定した結果が33である。これらは既知の技術で実現できる。
図1の尺度算出部133は、単位表現の、各検索結果文書カテゴリへの出現の偏り方を表すように、単位表現の尺度の数値を算出し、尺度を算出した単位表現を特徴語候補として出力するものである。まず尺度算出部133は言語解析部132の結果から単位表現ごとの出現頻度を集計する。具体的には、単位表現の、ある検索結果(i)の補助情報についての出現頻度である頻度と、全検索結果(1)〜(n)の補助情報についての出現頻度の合計である総頻度を集計する。
次に、すべての単位表現について、各検索結果(1)〜(n)の補助情報への出現状況の偏り方を表す尺度を、統計的あるいは確率論的手法により、算出する。尺度算出方法は図1の分析条件入力部131で入力する。
尺度算出部133における算出方法の例としては、ある単位表現について、
(検索結果(i)の補助情報における出現頻度)
/(全検索結果(1)〜(n)の補助情報における出現頻度の合計)
を、ある単位表現の、検索結果(i)についての尺度とする、としてもよい。これは、ある単位表現の、検索結果文書カテゴリ(i)への出現の偏り方を表す。
また、尺度算出部133における算出方法としては、特許文献1に開示された「アンケート回答分析システム」の方法、すなわち、テキスト分類エンジンを用いることによって、単位表現のテキストへの出現状況が、テキストが属するカテゴリ、すなわち検索結果文書カテゴリと深く関係する単位表現を取り出す技術を、利用してもよい。
そして尺度算出部133は、尺度を算出した単位表現を特徴語候補として、尺度、付属情報とともに出力する。
図4は、尺度算出部133の出力の一例を示す説明図である。図2に示した検索結果(i)の補助情報(i) 2i2について、言語解析の単位表現を単語とした場合の、尺度算出部133の出力の一部である。No.欄は特徴語候補の番号、順位欄は特徴語候補を尺度の降順に順位づけをして並べた順位、特徴語候補欄は特徴語候補の単語である。特徴語候補への付属情報として、頻度欄は特徴語候補の検索結果(i)の補助情報における出現頻度、総頻度欄は特徴語候補の検索結果(1)〜(n)の補助情報における出現頻度の合計、尺度欄は特徴語候補の尺度、品詞欄は特徴語候補の単語の品詞を示している。なお、尺度の数値自体は尺度算出部133の詳細により異なる。図4の場合は、特徴語の尺度の数値が大きいほど、その特徴語の検索結果(i)への出現の偏り方は大きい、すなわち、検索結果(i)に出現して他の検索結果には出現しない、というものである。
図4は単位表現を単語とした場合のため、特徴語候補の品詞が品詞欄に示されているが、単位表現を文節とした場合は、文節の種類(名詞句、など)を出力してもよい。
なお尺度算出部133は、全検索結果(1)〜(n)の各々について、図4に示したような出力を行う。
図1の特徴語選択部134は、各検索結果(1)〜(n)の特徴語候補と尺度、付属情報(例えば、頻度、総頻度、品詞)を入力し、検索結果(1)〜(n)ごとに、検索結果(1)〜(n)中の他の検索結果との相違を良く表す特徴語を、特徴語候補の中から選択して、表示生成部14に出力する。特徴語選択の基準は、図1の分析条件入力部131で入力する。
特徴語選択部134の特徴語選択の基準は、文書検索装置1の目的および検索対象蓄積部113の検索対象文書により、任意に決めることができる。たとえば、特徴語の尺度の数値は、単位表現の各検索結果への単位表現の出現の偏り方を表すものとなるよう算出したのだから、その値に注目して特徴語選択の基準を考えることができる。
・特徴語選択部134は、尺度がある大きさの偏り方以上の特徴語候補を特徴語として選択する。
・特徴語選択部134は、検索結果(1)〜(n)ごとに、偏り方の大きい順に、一定数の特徴語候補を特徴語として選択する。
他の特徴語選択の基準としては、検索実行者が特徴語の表示を見たときに、検索結果の相互の相違を見比べ、容易に把握しやすいかどうか、から考えることができる。
・特徴語選択部134は、ある品詞(たとえば、名詞のみ)の特徴語候補を特徴語として選択する。
・特徴語選択部134は、特定の文字種類の特徴語(たとえば、漢字)の特徴語候補を特徴語として選択する。
これらの特徴語選択の基準は、1つでも、または複数を組み合わせてもよい。たとえば、尺度が1以上で、かつ、品詞が名詞の特徴語候補を特徴語として選択する、としてもよい。
図1の表示生成部14は、検索結果保持部12に保持される全検索結果(1)〜(n)に、特徴語分析部13からの各検索結果(1)〜(n)ごとの特徴語を付加することにより、検索結果表示を生成し、インターネット17を介してそれをユーザ端末18に出力する。
図1のユーザ端末18は、表示生成部14の出力すなわち検索結果表示に従い、全検索結果(1)〜(n)とその検索結果から分析された特徴語を表示する。
図5は、表示生成部14の出力の一例、すなわちユーザ端末18の表示の一例を示す説明図である。
具体的には、図5は、検索実行者が「A」という地名を検索条件として入力した場合の文書検索装置1の表示生成部14の出力例である。図5において、511は検索結果(1)の表題、512は検索結果(1)の特徴語、513は検索結果(1)の補助情報、514は検索結果(1)の文書格納先情報である。以下、検索結果(2)、(3)、(4)、(5)、(6)、(7)につき表示生成部14の出力の一例を示している。すべての特徴語は、左から尺度の降順に表示されている。つまり、左側の特徴語のほうが、その検索結果への出現の偏り方が大きい特徴語である。尺度算出部133において、単位表現として単語を採用し、特徴語選択部134における特徴語選択の基準として、品詞が名詞で、かつ、尺度が正の特徴語を選択している。
検索実行者は、図5に示す検索結果表示から、自分の検索目的に合致する候補の検索結果文書を選択して文書を入手したり、次の検索条件を考えたりする必要がある。
たとえば、検索実行者が「A」という地名を検索条件として検索を行った目的が、「A」についての一人旅の下調べであれば、検索結果(3)の特徴語532を見ることにより、検索結果(3)を選択して文書を文書格先534から入手することができる。
また、検索実行者が「A」という地名を検索条件として検索を行った目的が、「A」についての格安航空券の検討であれば、検索結果(4)の特徴語542を見ることにより、検索結果(4)を選択して文書を文書格納先544から入手することができる。
これは、文書検索装置1で得られた特徴語は、検索結果一件ずつの相互の相違をあらわすものとなっているためである。すなわち、ある検索結果(i)の特徴語として上位になる(図5では左側に表示)特徴語は、他の検索結果には出現しにくく、下位になる(図5では右側に表示、あるいは表示されない)特徴語は、他の検索結果にも出現しやすい特徴語である。
背景技術として述べたように、従来の文書検索装置では検索結果には特徴語512〜572は出力されない。そのため、検索実行者は文書を入手する検索結果を選択するために、検索結果(1)〜(7)の表題511〜571に加えて、補助情報513〜573を各々見比べて検討していた。それに対し、本発明による特徴語512〜572を見比べる方が、検索結果(1)〜(7)の相互の相違を、容易に把握・検討することができる。このため、検索実行者は、より短い時間で検索目的に合致する検索結果文書に到達することができる。
次に、図6を参照して本実施の形態の動作を説明する。図6は、本実施の形態の処理のフローチャートである。図6のS1からS4のそれぞれのステップは、図1の検索部11、検索結果保持部12、特徴語分析部13、表示生成部14の処理に対応している。
図6を参照すると、まず検索部11は、検索条件入力部111が入力した検索条件を参照し、検索対象蓄積部113に蓄積された検索対象文書の中から、その検索条件にあう文書を検索する。そして検索結果文書の件数n件分の、図2に示したような検索結果文書の情報を、検索結果として生成し、出力する(ステップS1)。
検索結果保持部12は、検索結果文書の件数n件分の、検索結果(1)〜(n)すなわち検索結果文書の情報を入力し、保持する(ステップS2)。
次に特徴語分析部13は、分析条件入力部131が入力した分析条件を参照し、検索結果保持部12に保持された検索結果(1)〜(n)を参照して、検索結果文書一件ずつをカテゴリとした、各々のカテゴリに属するテキスト、すなわち各々の検索結果文書の情報ごと、すなわち検索結果(1)〜(n)ごとの特徴語を分析し、結果を出力する(ステップS3)。
次に表示生成部14は、検索結果保持部12の検索結果(1)〜(n)に、特徴語分析部13の検索結果(1)〜(n)ごとの特徴語を付加することにより、検索結果表示を生成し、出力する(ステップS4)。
このように本実施の形態によれば、文書検索の結果表示に、各々の検索結果の相互の相違をあらわす特徴語を付加して表示する。そのため、検索実行者が検索結果相互の相違を容易に把握することができる。よって、検索実行者自身の検索目的に合致する検索結果を、試行錯誤が少なく、短時間に選択することができる、という効果がある。
なお、本実施の形態は、上記に限らず適宜変更可能である。
例えば、文書検索装置の生成する表示の一例である図5では、各検索結果の特徴語は各検索結果文書の情報(表題、補助情報、文書格納先情報)に付加されるが、特徴語は本来、各検索結果文書の情報から言語解析により取り出されたものなので、各検索結果文書の情報に含まれる。そのため、特徴語は各検索結果文書の情報中に強調して表示(たとえば下線を引く、色を変える)されてもよい。
また、文書検索装置の生成する表示の一例である図5では、各検索結果の特徴語は各検索結果文書の情報に付加されるが、検索結果文書の情報である表題、補助情報および文書格納先情報をすべて表示しないで、その一部と特徴語を表示してもよい。たとえば検索結果文書の表題と特徴語のみを表示してもよい。このような表示の方法は、携帯電話端末等のように表示可能な部分が小さいユーザ端末向けには、有効となる。
また、検索結果保持部12には、検索結果文書自体も保持しても良い。
また、特徴語分析部13で特徴語を分析する場合に、検索結果文書自体の特徴語を分析してもよい。
また、検索対象蓄積部113に蓄積される情報は、文書情報以外の情報、たとえば画像あるいは音声といった情報に、テキストとして表題や補助情報が付加されたものであり、特徴語分析部13で特徴語を分析する場合には、検索結果のテキストの部分の特徴語を分析してもよい。
また、特徴語分析部13は辞書データを有し、その辞書データを参照しながら特徴語分析を行ってもよい。具体的には、言語解析部132および特徴語選択部134が、分析条件入力部131で入力した分析条件により指定される辞書データを参照して、言語解析および特徴語選択を行う。これはたとえば、ユーザ固有の組織名、製品名などの単位表現を特徴語として取り出したい場合に、予めそれらの単位表現を辞書データとして作成して利用する場合である。このような辞書の使用は言語解析において一般的である。
また、特徴語分析部13は、尺度算出部133の代わりに単位表現集計部を有してもよい。単位表現集計部は、言語解析部132の結果である単位表現から、単位表現毎の頻度の集計を行い、単位表現を特徴語候補として、その集計結果を頻度と総頻度として出力する。具体的には、図4に示した尺度算出部の出力から尺度欄を取り除いた出力となる。この場合、特徴語選択部134における特徴語選択の基準は、尺度を使用しない基準を使用することとなる。結果として選択される特徴語に違いはあるが、本発明の目的である検索結果の相互の相違をあらわす情報のための、特徴語分析部の結果として、利用可能な特徴語が得られることがある。
また、特徴語分析部13は、尺度算出部133の代わりに特定単位表現集計部を有してもよい。特定単位表現とは、言語解析部132の結果である単位表現のうち、特定の条件を満たす単位表現である。
特定単位表現の具体例としては、テキストの中で「主な話題」らしさを表す特定の条件を満たす単位表現を考えることができる。一般的に日本語では、文中の名詞句において、名詞に付属して名詞句をなす助詞の種類により、その名詞がその文中で「主な話題」らしいかどうかを判定するという理論が知られている(センタリングあるいは中心化理論。岩波講座、ソフトウェア科学、15「自然言語処理」長尾真:編、第一冊、p.279参照)。この理論に基づけば、特定単位表現集計部は、言語解析部132の結果である単位表現から、「主な話題」らしさを表す特定の条件を満たす単位表現を取り出し単位表現毎に頻度を集計することができる。さらに、特定単位表現集計部は、「主な話題」らしさを表す数々の特定の条件毎に重みが設定されれば、単位表現毎に頻度を重みづけして集計することができる。
特定単位表現集計部は、特定単位表現を特徴語候補として、その集計結果を頻度と総頻度として、条件毎の重みが設定された場合は重みづけした頻度の集計結果を尺度として、出力する。具体的には図4の尺度算出部の出力と同様となる。
また、検索結果保持部12に保持された検索結果(1)〜(n)を一旦ユーザ端末18に表示して、検索実行者に特徴語分析対象とする複数の検索結果を指定させ、指定された検索結果に対して特徴語分析部13が特徴語分析を行ってもよい。
図7は、本実施の形態の処理のフローチャートである。図7において図6と同様のステップS1ついては同一符号を、類似のステップS3からS4については“´”をつけた符号を付してある。
図7を参照すると、まず検索部11は、検索条件入力部111が入力した検索条件を参照し、検索対象蓄積部113に蓄積された検索対象文書の中から、その検索条件にあう文書を検索する。そして検索結果文書の件数n件分の、図2に示したような検索結果文書の情報を、検索結果として生成し、出力する(ステップS1)。
次に、表示生成部14は、検索結果文書の件数n件分の、検索結果(1)〜(n)をユーザ端末18に出力して表示する。そして、検索実行者が特徴語分析対象とする複数の検索結果の指定情報をユーザ端末18から入力する(ステップS10)。
検索結果保持部12は、検索実行者が特徴語分析対象とする複数の検索結果の指定情報を入力し、特徴語分析対象と指定されたm件分の検索結果(1)〜(m)、すなわち検索結果文書の情報を入力し、保持する(ステップS11)。
次に特徴語分析部13は、分析条件入力部131が入力した分析条件を参照し、検索結果保持部12に保持された検索結果(1)〜(m)を参照して、検索結果文書一件ずつをカテゴリとした、各々のカテゴリに属するテキスト、すなわち各々の検索結果文書の情報ごと、すなわち検索結果(1)〜(m)ごとの特徴語を分析し、結果を出力する(ステップS3´)。
次に表示生成部14は、検索結果保持部12の検索結果(1)〜(m)に、特徴語分析部13の検索結果(1)〜(m)ごとの特徴語を付加することにより、検索結果表示を生成し、出力する(ステップS4´)。
この実施の形態によれば、検索実行者は特徴語分析部13で特徴語を分析する検索結果を指定することができる。そして、検索実行者が必要としない検索結果については特徴語分析部の処理を行うことがないため、分析時間を短くすることが可能になる。
また、特徴語分析部13は、まず検索結果保持部12に保持された検索結果(1)〜(n)の一部につき特徴語分析を行い、表示生成部14が検索結果保持部12の検索結果(1)〜(n)の一部に、特徴語分析部13の分析結果の特徴語を付加することにより、検索結果表示を生成し、ユーザ端末18に出力してもよい。そののち、検索実行者は必要があれば、次の検索結果の一部につき特徴語分析の処理を指定し、特徴語分析からユーザ端末への出力を複数回繰り返してもよい。
背景技術として述べたインターネット上のWWW検索サービスでは、多数の検索結果が得られた場合にその一部を一旦表示し、検索実行者の指定により、次の検索結果の一部を表示することが行われる。この実施の形態は、本発明においても同様に、一旦表示する分の検索結果m件の特徴語を分析して表示し、次のm件の表示の際にも検索結果m件の特徴語を分析して表示するものである。
そして、この実施の形態によれば、一旦表示する検索結果m件につき検索結果の特徴語分析部の処理を行うため、すべての検索結果の特徴語分析を行う場合に比べて、一回の表示のための特徴語分析部の処理時間を短くすることができる。
また、図1では、文書検索装置1はインターネット17を介して、ユーザ端末18と接続していたが、インターネット17を介さずにユーザ端末18と接続してもよい。
また、図8に示すように、特徴語分析部は文書検索装置になく、ユーザ端末に存在してもよい。図8は本実施の形態をあらわすブロック図である。なお、図8において図1と同一のものには同一符号を付してある。
文書検索装置1aは、メモリを備えた、プログラム制御により動作するコンピュータからなり、検索部11と検索結果保持部12とを含む。一方、ユーザ端末18aは、メモリを備えた、プログラム制御により動作するコンピュータからなり、特徴語分析部13と、表示生成部14と、記憶部15とを含み、ディスプレイ装置とキーボード、マウス等を備え、通信回線の一例であるインターネット17を介して文書検索装置1aと互いに接続する。
また、ユーザ端末18aで文書検索方法を実行させるためのプログラムは151として記憶部15に格納され、記録媒体16に記録あるいは記録媒体16から読み出されることができる。
図8の検索部11は、ユーザ端末18aから入力された検索条件を検索条件入力部111で入力し、検索対象蓄積部113に蓄積された検索対象文書について、検索実行部112で検索を実行する。
図8の検索結果保持部12は、検索実行部112の検索結果を入力して保持する。検索結果としてn件が出力されたとして、それらを検索結果(1)〜(n)、すなわち121〜12nとする。一件の検索結果は各々図2に示した内容である。
図8の特徴語分析部13は、ユーザ端末18aから入力された分析条件を分析条件入力部131で入力し、文書検索装置1aの検索結果保持部12の検索結果(1)〜(n)を参照して、特徴語を分析し出力する。
図8の表示生成部14は、文書検索装置1aの検索結果保持部12に保持される検索結果(1)〜(n)に、特徴語分析部13からの検索結果(1)〜(n)ごとの特徴語を付加することにより、検索結果表示を生成し、ユーザ端末18aに出力する。ユーザ端末18aは、表示生成部14の出力すなわち検索結果表示に従い、検索結果(1)〜(n)とその検索結果から分析された特徴語を表示する。
この実施の形態によるユーザ端末18aは、特徴語分析部の処理が文書検索装置1aの検索性能へ悪影響を与えないようにしたい場合に、利用される可能性がある。
また、この実施の形態によるユーザ端末18aは、特定の文書検索装置だけでなく、複数の文書検索装置の検索結果に対して、特徴語分析を行う場合に、利用される可能性がある。
また、図9に示すように、検索対象蓄積部113に蓄積された文書のテキストの言語解析を予め行っておくために、検索部11bが言語解析部132を含んでもよい。図9は本実施の形態をあらわすブロック図である。なお、図9において図1と同一のものには同一符号を付してある。
図9の検索部11bは、検索対象蓄積部113に蓄積された検索対象文書について、まず、言語解析部132で言語解析を行い、言語解析結果を検索対象蓄積部113に追加する。次にユーザ端末18から入力された検索条件を検索条件入力部111で入力し、検索対象蓄積部113に蓄積された検索対象文書について、検索実行部112で検索を実行する。
図9の検索結果保持部12は、検索実行部112の検索結果を入力して保持する。図9の特徴語分析部13bは、ユーザ端末18から入力された分析条件を分析条件入力部131で入力し、検索結果保持部12の検索結果(1)〜(n)と、その言語解析結果を参照して、特徴語を分析し出力する。図9の表示生成部14は検索結果保持部12に保持される検索結果(1)〜(n)に、特徴語分析部13bからの検索結果(1)〜(n)ごとの特徴語を付加することにより、検索結果表示を生成し出力する。
この実施の形態では、検索対象文書は検索実行前に言語解析されているので、検索結果が得られてから言語解析を行う必要がない。このため、特徴語分析部の処理が文書検索装置1bの検索性能へ悪影響を与えないようにしたい場合や、検索対象とする文書自体の特徴語分析を行いたい場合に、利用される可能性がある。
本発明の一実施の形態のブロック図である。 本発明の一実施の形態における検索実行部の検索結果の一例を示す説明図である。 日本語の言語解析結果の一例を示す説明図である。 本発明の一実施の形態における尺度算出部の出力の一例を示す説明図である。 本発明の一実施の形態における表示生成部の出力の一例を示す説明図である。 本発明の一実施の形態における処理を示すフローチャートである。 本発明の他の実施の形態における処理を示すフローチャートである。 本発明のさらに他の実施の形態のブロック図である。 本発明のさらに他の実施の形態のブロック図である。
符号の説明
1 文書検索装置
1a 文書検索装置
1b 文書検索装置
11 検索部
11b 検索部
111 検索条件入力部
112 検索実行部
113 検索対象蓄積部
12 検索結果保持部
121 検索結果1
12n 検索結果n
13 特徴語分析部
13b 特徴語分析部
131 分析条件入力部
132 言語解析部
133 尺度算出部
134 特徴語選択部
14 表示生成部
15 記憶部
151 プログラム
16 記録媒体
17 インターネット
18 ユーザ端末
18a ユーザ端末

Claims (10)

  1. 入力された検索条件に基づいて、検索対象とする複数の文書を検索し、その検索結果表示を出力する文書検索装置であって、
    前記検索条件を受け付けると、前記検索対象とする複数の文書の中から、前記検索条件にあう文書を検索し、検索結果文書の情報を生成し出力する検索実行部と、
    前記検索実行部の生成した検索結果文書の情報を保持する検索結果保持部と、
    前記検索結果保持部に保持された検索結果文書の情報から、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析部と、
    前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し、出力する表示生成部と、
    を含むことを特徴とする文書検索装置。
  2. 請求項1に記載の文書検索装置において、
    前記検索対象とする各文書は、表題、文書格納先情報および文書自体を有し、
    前記検索実行部は、前記検索結果文書の情報として、前記検索結果文書の表題、前記検索結果文書の文書格納先情報、または、前記検索結果文書の文書自体から前記検索条件が出現する部分を抜き出した補助情報を、生成し出力する、文書検索装置。
  3. 請求項1に記載の文書検索装置において、
    前記検索結果保持部は、前記検索実行部の生成した検索結果文書の情報のうち、特徴語分析対象とする複数の検索結果の指定情報にて指定された複数の検索結果文書の情報を保持する、文書検索装置。
  4. 検索条件を受け付けると検索対象とする複数の文書の中から前記検索条件にあう文書を検索し検索結果文書の情報を生成する文書検索装置と接続された情報処理装置であって、
    前記文書検索装置にて生成された検索結果文書の情報を参照して、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析部と、
    前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し出力する表示生成部と、
    を含むことを特徴とする情報処理装置。
  5. 入力された検索条件に基づいて、検索対象とする複数の文書を検索し、その検索結果表示を出力する文書検索装置が行う検索結果出力方法であって、
    前記検索条件を受け付ける受付ステップと、
    前記検索対象とする複数の文書の中から、前記検索条件にあう文書を検索し、検索結果文書の情報を生成し出力する検索実行ステップと、
    前記検索結果文書の情報を保持する検索結果保持ステップと、
    前記保持された検索結果文書の情報から、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析ステップと、
    前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し、出力する表示生成ステップと、
    を含むことを特徴とする検索結果出力方法。
  6. 請求項5に記載の検索結果出力方法において、
    前記検索対象とする各文書は、表題、文書格納先情報および文書自体を有し、
    前記検索実行ステップでは、前記検索結果文書の情報として、前記検索結果文書の表題、前記検索結果文書の文書格納先情報、または、前記検索結果文書の文書自体から前記検索条件が出現する部分を抜き出した補助情報を生成し出力する、検索結果出力方法。
  7. 請求項5に記載の検索結果出力方法において、
    前記検索結果保持ステップでは、前記検索実行ステップで生成された検索結果文書の情報のうち、特徴語分析対象とする複数の検索結果の指定情報にて指定された複数の検索結果文書の情報を保持する、検索結果出力方法。
  8. 検索条件を受け付けると検索対象とする複数の文書の中から前記検索条件にあう文書を検索し検索結果文書の情報を生成する文書検索装置と接続された情報処理装置が行う検索結果表示方法であって、
    前記文書検索装置にて生成された検索結果文書の情報を参照して、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析ステップと、
    前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し、出力する表示生成ステップと、
    を含むことを特徴とする検索結果表示方法。
  9. 検索条件を受け付ける受付処理と、
    検索対象とする複数の文書の中から、前記検索条件にあう文書を検索し、検索結果文書の情報を生成し出力する検索実行処理と、
    前記検索結果文書の情報を保持する検索結果保持処理と、
    前記保持された検索結果文書の情報から、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析処理と、
    前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し、出力する表示生成処理と、
    を含む検索結果出力処理を、コンピュータに実行させるプログラム。
  10. 検索条件を受け付けると検索対象とする複数の文書の中から前記検索条件にあう文書を検索し検索結果文書の情報を生成する文書検索装置と接続されたコンピュータに、検索結果表示処理を実行させるプログラムであって、
    前記文書検索装置にて生成された検索結果文書の情報を参照して、各検索結果文書の情報に偏って出現する単位表現である特徴語を分析して出力する特徴語分析処理と、
    前記検索結果文書の情報に、各々の検索結果文書の情報の特徴語を付加することにより検索結果表示を生成し、出力する表示生成処理と、
    を含む検索結果表示処理を前記コンピュータに実行させるプログラム。
JP2006062846A 2006-03-08 2006-03-08 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム Pending JP2007241635A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006062846A JP2007241635A (ja) 2006-03-08 2006-03-08 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006062846A JP2007241635A (ja) 2006-03-08 2006-03-08 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2007241635A true JP2007241635A (ja) 2007-09-20

Family

ID=38587120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006062846A Pending JP2007241635A (ja) 2006-03-08 2006-03-08 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2007241635A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157865A (ja) * 2007-12-28 2009-07-16 Nifty Corp 情報検索装置,情報検索プログラム及び情報検索方法
JP2013171328A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> 偏り述部抽出装置、方法、及びプログラム
JP2023125592A (ja) * 2022-02-28 2023-09-07 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207414A (ja) * 1999-01-18 2000-07-28 Nippon Telegr & Teleph Corp <Ntt> インタ―ネット情報検索方法及びインタ―ネット情報検索プログラムを格納した記憶媒体
JP2004157965A (ja) * 2002-09-12 2004-06-03 Ricoh Co Ltd 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2004348768A (ja) * 2004-08-24 2004-12-09 Hitachi Ltd 文書検索方法
JP2005519396A (ja) * 2002-03-07 2005-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報検索要求に応じて検索結果を提供する方法及び装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207414A (ja) * 1999-01-18 2000-07-28 Nippon Telegr & Teleph Corp <Ntt> インタ―ネット情報検索方法及びインタ―ネット情報検索プログラムを格納した記憶媒体
JP2005519396A (ja) * 2002-03-07 2005-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報検索要求に応じて検索結果を提供する方法及び装置
JP2004157965A (ja) * 2002-09-12 2004-06-03 Ricoh Co Ltd 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2004348768A (ja) * 2004-08-24 2004-12-09 Hitachi Ltd 文書検索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157865A (ja) * 2007-12-28 2009-07-16 Nifty Corp 情報検索装置,情報検索プログラム及び情報検索方法
JP2013171328A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> 偏り述部抽出装置、方法、及びプログラム
JP2023125592A (ja) * 2022-02-28 2023-09-07 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム

Similar Documents

Publication Publication Date Title
US8082264B2 (en) Automated scheme for identifying user intent in real-time
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
US20070266020A1 (en) Information Retrieval
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
US9542474B2 (en) Forensic system, forensic method, and forensic program
JP2002245061A (ja) キーワード抽出
US10198497B2 (en) Search term clustering
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2005190284A (ja) 情報分類装置および情報分類方法
TWM423854U (en) Document analyzing apparatus
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP7167997B2 (ja) 文献検索方法および文献検索システム
JP4499179B1 (ja) 端末装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP7238411B2 (ja) 情報処理装置及びプログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP5137134B2 (ja) 感性情報抽出・検索装置、その方法およびプログラム
JP5187187B2 (ja) 体験情報検索システム
JP4208402B2 (ja) 文書検索装置、文書検索方法および記録媒体
JP7091295B2 (ja) 解析装置、解析方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110208