JP2008026967A - 文書検索システム及びプログラム - Google Patents

文書検索システム及びプログラム Download PDF

Info

Publication number
JP2008026967A
JP2008026967A JP2006195777A JP2006195777A JP2008026967A JP 2008026967 A JP2008026967 A JP 2008026967A JP 2006195777 A JP2006195777 A JP 2006195777A JP 2006195777 A JP2006195777 A JP 2006195777A JP 2008026967 A JP2008026967 A JP 2008026967A
Authority
JP
Japan
Prior art keywords
search
document
input
sentence
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006195777A
Other languages
English (en)
Other versions
JP4469817B2 (ja
Inventor
Tomoyuki Ishimaru
知之 石丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2006195777A priority Critical patent/JP4469817B2/ja
Publication of JP2008026967A publication Critical patent/JP2008026967A/ja
Application granted granted Critical
Publication of JP4469817B2 publication Critical patent/JP4469817B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】入力の手間を低減しながら、所望の文書を効率的に、かつ高い確度で検索できる文書検索システム及びプログラムを提供すること。
【解決手段】本発明の文書検索システムは、セッション毎に、入力部24に入力された検索文と、検索文に対して検索部26によって記憶装置34から検索された文書に対してなされた参照操作とを時系列的に記憶装置36に書き込む格納部28と、新たなセッションが開始され、入力部に新たな検索文が入力されると、記憶装置36に記憶されたセッションの中から、新たな検索文に含まれる用語を含む検索文が入力されたセッションを検索し、検索したセッションの中から、参照操作の直前に入力部に入力された検索文を取得する検索文生成部30と、この取得された検索文を、新たな検索文に対応する適切な文書が検索部によって検索される可能性の高い検索文として出力する出力部32とを備える。
【選択図】 図1

Description

本発明は、文書検索システム及びプログラムに関し、更に詳しくは、所望の文書を効率的に、かつ高い確度で検索することが可能な文書検索システム及びプログラムに関する。
従来、蓄積された多くの文書の中から、ユーザが所望する文書を検索する文書検索システムでは、ユーザが検索文を入力し、この検索文に基づいて検索された文書一覧から、文書の表題や、検索処理で作成されたダイジェスト等を見て、所望する文書の内容に近い文書があれば、それを出力させ、これでよければ検索処理が終了する。
一方、出力した文書が、所望する文書でないならば、文書一覧から、別の文書を出力させ、これでよければ検索処理が終了する。
また、検索文に基づいて検索された文書一覧の何れからも、所望する文書を検索できなかった場合には、検索文を変えながら上記検索処理が繰り返し行われる。そして最終的に、ユーザが、所望する文書を取得した時点で一連の検索処理が完了する。
この場合、繰り返しても、所望する文書を取得できない場合もある。その場合には、検索をあきらめることになる。
このように、文書検索において、少ない検索回数で所望の文書を取得するためには、所望の文書の内容を特定する可能性の高い、適切な検索文を入力することが必須となる。
不適切な検索文が入力されてしまうと、所望の文書に辿り着くまでの検索の回数が増えてしまい、余分な手間と時間とを費やすことになってしまう。
検索文の入力を支援する技術として、例えば、米マイクロソフト社製のブラウザであるインターネットエクスプローラのテキストボックス等において、意図する入力内容の一部が入力されたされた時点で、過去の入力履歴から一致するものをリストとして表示する技術がある。この技術により、ユーザは、表示されたリストから所望の情報を選択することによって、検索文の入力の手間を低減することができる。
また、特許文献1で開示されているように、前回になされた検索終了時における表示状態を再現する技術や、特許文献2で開示されているように、前回の検索実施者が有益であると判定した検索結果を、優先的に提示する技術がある。
特開2004−326220号公報 特開2003−108587号公報
しかしながら、このような従来の技術では、以下のような問題がある。
すなわち、上述した従来技術では、単に過去の履歴を参照し、入力された内容と合致するものを機械的に表示するだけであったり、過去に多く使われている検索文や、最近使われた検索文を機械的に表示するだけである。
したがって、ユーザが所望する文書の内容を特定する可能性の高い検索文が表示される保証はない。また、入力を間違ったものや、過去の検索などにおいて有効な結果が得られなかったものについても履歴として表示されてしまう。
更に、上述した従来技術では、単に前方一致により履歴を列挙するため、入力する単語の順番が異なる場合や、使用されている単語は同じであるが、先頭部分が異なる場合などは、履歴として表示されない場合がある。
周知の技術である形態素解析や意味解析といった自然言語処理の技術を使い、ユーザが望む文書を抽出しようとしても、ユーザが提示するものは検索文であり、検索文の多くは短い文字列であるため、それだけで、ユーザの意図を取り出すことはできない。
以上説明したように、文書検索のための適切な検索文を入力することは容易ではないという問題がある。
本発明はこのような事情に鑑みてなされたものであり、過去に文書検索のために入力された検索文の入力履歴を有効に活用し、入力の手間を低減しながら、所望の文書を効率的に、かつ高い確度で検索できるようにする文書検索システム及びプログラムを提供することを目的とする。
上記の目的を達成するために、本発明では、以下のような手段を講じる。
すなわち、請求項1の発明は、入力手段と、文書を記憶した第一の記憶装置と、文書検索手段とを備え、入力手段に入力された検索文に対応する文書を、文書検索手段によって第一の記憶装置から検索する文書検索システムであって、更に書込手段と、セッション検索手段と、取得手段と、出力手段とを備えている。
書込手段は、一つの文書の検索処理の開始から終了までの期間であるセッション毎に、入力手段に入力された検索文と、検索文に対して文書検索手段によって第一の記憶装置から検索された文書に対して入力手段を通じてなされた参照操作とを時系列的に第二の記憶装置に書き込む。セッション検索手段は、新たなセッションが開始され、入力手段に新たな検索文が入力されると、第二の記憶装置に記憶されたセッションの中から、新たな検索文に含まれる用語を含む検索文が入力されたセッションを検索する。取得手段は、セッション検索手段によって検索されたセッションの中から、参照操作の直前に入力手段に入力された検索文を取得する。出力手段は、取得手段によって取得された検索文を、新たな検索文に対応する適切な文書が文書検索手段によって検索される可能性の高い検索文、すなわち推奨検索文として出力する。
従って、請求項1の発明の文書検索システムにおいては、以上のように、過去になされた文書の参照操作の直前に入力された検索文を、推奨検索文としてユーザに出力することができる。この推奨検索文に基づいて検索された文書は、過去に参照された実績のある文書であることから、ユーザが所望する文書である可能性が高い。従って、ユーザは、新たな検索文を入力することなく、過去の入力履歴を有効に活用することにより、入力の手間を低減しながら、所望の文書を効率的に、かつ高い確度で検索することが可能となる。
請求項2の発明は、請求項1の発明の文書検索システムにおいて、書込手段は、検索文に対して文書検索手段によって第一の記憶装置から検索された文書の数、及び各文書に対する参照操作の実績を更に第二の記憶装置に書き込む。そして、この文書検索システムは、出力手段から出力される検索文が複数存在する場合、すなわち、推奨検索文が複数存在する場合、第二の記憶装置に書き込まれた、各検索文によって検索された文書の数、及び各文書に対する参照操作の実績に基づいて複数の検索文の優先順位を決定する優先順位決定手段を更に備えている。更に、出力手段は、複数存在する各検索文を、優先順位決定手段によって決定された優先順位の高い順に出力する。
従って、請求項2の発明の文書検索システムにおいては、以上のような手段を講じることにより、推奨検索文が複数存在する場合には、過去の実績に基づいて優先順位の高い順に出力することができる。したがって、複数の推奨検索文のうち、より有効なものから順にユーザに提示することができる。
また、請求項3及び4の発明は、請求項1及び2の発明の文書検索システムに適用されるプログラムである。
本発明の文書検索システム及びプログラムによれば、検索のためになされた過去の入力履歴を有効に活用し、入力の手間を低減しながら、所望の文書を効率的に、かつ高い確度で検索することが可能となる。
以下に、本発明を実施するための最良の形態について図面を参照しながら説明する。
図1は、本発明の実施の形態に係る文書検索システムの構成例を示す機能ブロック図である。
既に述べたように、少ない検索回数で所望の文書を取得するためには、所望の文書が検索される可能性の高い検索文を入力しなければならない。これを実現するために、同実施の形態に係る文書検索システムは、所望の文書が検索される可能性の高い検索文である推奨検索文をユーザに提供する。
すなわち、本発明の実施の形態に係る文書検索システムは、LAN10等の通信ネットワークに接続されたサーバコンピュータ(以下、単に「サーバ」と称する)20内に、本発明の実施の形態に係る文書検索プログラムをインストールすることによって構築されたインタフェース22と、入力部24と、文書データベース検索部26と、入力履歴格納部28と、推奨検索文生成部30と、出力部32とから構成している。そして、本発明の実施の形態に係る文書検索システムは、この文書検索プログラムによって制御される。
文書検索プログラムのインストールは、サーバ20が、例えば磁気ディスク等の図示しない記録媒体に記録された、又はインターネット等の通信ネットワークを介してダウンロードした文書検索プログラムを、サーバ20の記憶領域(図示せず)に読み込むことによってなされる。なお、この文書検索プログラムは、サーバ20に実行させるソフトウェア手段(実行プログラムのみならずテーブルやデータ構造も含む)をサーバ20内に構成させる設定プログラムをも含む。
サーバ20の記憶領域(図示せず)は、磁気ディスク、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(CD−ROM、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、本発明の実施の形態に係る文書検索プログラムを記憶でき、サーバ20が読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
一方、LAN10には、クライアントコンピュータ(以下、単に「クライアント」と称する)12が接続されている。クライアント12は、例えば、キーボードやマウス等の入力デバイスと、CPU等の処理デバイスと、ディスプレイ等の表示デバイスとを備えたパーソナルコンピュータ13等からなり、LAN10を介してサーバ20と通信するためのインタフェース14を備えている。また、クライアント12にはそれぞれ個別の識別番号が割り当てられている。ユーザは、クライアント12を操作することによって、サーバ20にアクセスし、検索文等の必要な情報を送ったり、サーバ20から送られる情報を参照すること等により文書検索を行う。
なお、図1には、簡略のため、一つのクライアント12のみが図示されているが、クライアント12は、一つのみに限定されるものではなく、LAN10に接続された複数のクライアント12が、サーバ20にアクセスし、同実施の形態に係る文書検索システムを利用することも可能である。
インタフェース22は、LAN10を介してクライアント12との種々のデータ授受を行う。例えば、クライアント12から、検索文が送られると、インタフェース22は、この検索文を入力部24に出力する。図2は、検索文を入力する場合に、クライアント12の表示デバイスから表示される画面の一例を示す。ユーザは、クライアント12の入力デバイスを用いて、検索文(例えば、「AAAについて」)を入力する。入力した検索文は、入力欄41から表示される。そして、検索ボタン42をマウス等のクリックにより押下すると、入力欄41に表示された検索文がインタフェース14からサーバ20側に送信される。閉じるボタン43をマウス等のクリックにより押下すると、画面40が閉じられる。なお、クライアント12は、インタフェース22に対してデータを送る場合、自己の識別番号を付して送る。
入力部24は、インタフェース22から識別番号と共に検索文が出力されると、この識別番号及び検索文を文書データベース検索部26に出力する。
文書データベース検索部26は、入力部24からの検索文を用いて、文書データ記憶装置34から、この検索文に対応する文書を、周知の自然言語検索やキーワード検索等の機能を用いて検索する。また、入力部24からの識別番号及び検索文を、入力履歴格納部28に出力する。すると、入力履歴格納部28は、出力された検索文にタイムスタンプを付し、一つの文書の検索処理の開始から終了までの期間であるセッション内に入力された履歴データとして、識別番号に関連付けて入力履歴データ記憶装置36に書き込む。このように、識別番号は、セッションを識別する番号としても用いている。また、セッションとは、一人のユーザが文書検索システムのサーバ20の利用を開始した時刻から、利用を終了する時刻までの間と理解することもできる。従って、セッションを識別する番号として用いるものはクライアント12の識別番号に限定されるものではなく、文書検索システムのサーバ20においてログイン管理している場合には、そのログイン番号を用いることも可能である。ログイン番号を用いる場合には、本明細書において用いている「識別番号」を「ログイン番号」と置き換えて理解されたい。
文書データ記憶装置34は、ハードディスク等のハードウェアからなり、多くの文書データを格納している。文書データベース検索部26は、このような文書データ記憶装置34から、検索文に対応する文書データを検索し、検索結果として、この文書データの表題と、この文書の内容のダイジェスト等を含む検索一覧を得る。そして、この検索一覧を出力部32に出力する。
出力部32は、文書データベース検索部26から検索一覧が出力されると、この検索一覧をインタフェース22に出力する。
インタフェース22は、出力部32から検索一覧が出力されると、識別番号を参照することにより、要求元のクライアント12を認識し、この検索一覧を、LAN10を介して、要求元のクライアント12に送信する。
このように送られた検索一覧は、要求元のクライアント12のインタフェース14が受信し、このクライアント12の表示デバイスから表示される。図3は、検索一覧44が表示された画面の例を示している。検索一覧44は、入力欄41の下に表示され、優先順位44(#1)の順に従って、サマリ表示部44(#2)に、表題及びダイジェスト等を表示している。図3に示す例では、優先順位として類似度の高い順に表示している。また、各表題毎に文書表示ボタン44(#3)がある。
類似度は、限定される訳ではないが、例えば以下に示す方法で、文書データベース検索部26において決定される。
文書データベース検索部26は、まず、類似度を決定する場合、検索文と、この検索文に対応して検索された文書データの該当箇所の文とを対象として形態素解析を実施する。例えば、検索文「AAAについて」と、該当箇所の文「AAAの取り扱い」という二つの文を対象に形態素解析を実行し、それぞれから名詞と動詞とを取り出す。
「AAAについて」

「AAA/に/ついて」

名詞「AAA」、動詞「ついて」。
「AAAの取り扱い」

「AAA/の/取り扱い」

名詞「AAA」、動詞「取り扱い」。
次に、名詞と動詞それぞれについて類似度を単語辞書等に基づいて評価関数を用いて計算する。このような方法で、表記のゆれは、動詞の活用ならば形態素解析の結果の評価のときに、名詞の言い換えならば、名詞の類似度を調べるときに吸収する。例えば、動詞「ついて」と「取り扱い」とは類似度0.5の如くである。評価関数は、(名詞の類似度×a+動詞の類似度×b)等と定義する(aとbとは使用目的によって調整可能な定数)。形態素解析で得られる名詞及び動詞は、通常複数であるので、同じ品詞についての総当りで類似度を求める。
ユーザは、このような類似度順に一覧表示された文書の中から、所望の文書の内容に近いと思われる文書を見つけると、その文書を選択する選択命令を、入力デバイスを用いて入力する。これは、マウス等を用いて、該当する表題に含まれる文書表示ボタン44(#3)の箇所でクリックすることによってなされる。このようにしてなされた選択命令は、クライアント12の識別番号と共にインタフェース14からサーバ20に向けて送信され、前述したようにインタフェース22によって受信される。
インタフェース22は、選択命令を識別番号と共に受信すると、入力部24に出力する。すると、入力部24は、この選択命令を、文書データベース検索部26に出力し、文書データベース検索部26が、この選択命令に対応する文書データを文書データ記憶装置34から取り出し、識別番号と共に出力部32に出力する。また、文書データベース検索部26は、この選択命令を、識別番号と共に入力履歴格納部28に出力する。
その後、この文書データ及び識別番号は、出力部32からインタフェース22へ送られ、更にインタフェース22からクライアント12へ送信され、クライアント12において識別番号が参照されることにより、要求元のクライアント12が認識され、このクライアント12に送信される。そして、クライアント12の表示デバイスから文書データが表示される。
図4は、表示デバイスから文書データが表示された画面の一例を示す図である。表題欄47に、選択された文書データの名称が表示され、その内容が文書内容表示欄48から表示される。
また、入力履歴格納部28は、出力された選択命令で指定された文書名にタイムスタンプを付し、現在のセッションに関連付けて、タイムスタンプに従って時系列的に入力履歴データ記憶装置36に書き込む。このようにして、入力履歴データ記憶装置36には、どの検索文に対して、どの文書がユーザによって選択され、参照されたかの実績が蓄積される。
表示デバイスから表示された文書は、ユーザによって参照され、この文書が、所望の文書であれば、一連の検索処理が完了する。すなわち、一つのセッションが完了する。一方、所望の文書でないならば、セッションが継続し、ユーザが、表示された検索一覧の中から、別の文書を選択する選択命令を入力デバイスから入力し、それに対応する文書を、前述したように表示デバイスから表示させて、所望の文書であるか否かを確認する。
一方、表示された検索一覧の中に、ユーザが所望する内容に近いと思われる文書がない場合にも、セッションが継続し、ユーザは、再び入力デバイスを用いて別の検索文を入力し、それに対してサーバ20から送信される検索一覧を、表示デバイスから表示させる。そして、一覧表示された文書の中から、所望の文書の内容に近いと思われる文書を見つけることができれば、その文書を選択する選択命令を、入力デバイスを用いて入力する。
以上説明したような検索処理を繰り返すことによって、ユーザは、検索文を入力することによって、所望の文書を取得するとともに、入力された検索文と、選択された文書名とからなる入力履歴がセッション毎に入力履歴データ記憶装置36に蓄積されて行く。このようにして、入力履歴データ記憶装置36には、どの検索文に対して、どの文書が何回選択され、参照されたかの実績が格納される。
このようにして、入力履歴データ記憶装置36に、少なくとも一つのセッションの入力履歴が格納されると、次回のセッションからは、以下のようにしてユーザに推奨検索文を提示することが可能となる。
すなわち、新たなセッションが開始され、クライアント12からの検索文が識別番号とともにインタフェース22に入力されると、入力部24は、この検索文及び識別番号を、推奨検索文生成部30に出力する。
これによって、先ず、既に述べたようにして、図3に示すような検索一覧がクライアント12の表示デバイスから表示される。図3に示すようにこの画面40には、推奨検索文取得ボタン45があり、ユーザが、推奨検索文の提示を求める場合には、マウスのクリック等によって推奨検索文取得ボタン45を押下する。
すると、推奨検索文生成部30は、入力履歴データ記憶装置36に記憶された何れかのセッションの中から、入力部24から出力された検索文に含まれる用語を含む検索文が入力されたセッションを検索する。このとき、自然言語処理の技術を使い、表記のゆれを吸収したり、類義語を置き換えたりして行っても良い。もちろん、検索文に含まれている名詞だけを単純に抜き出し、抜き出した名詞を用いて検索しても良い。また、例えば、最近1ヶ月以内に入力履歴データ記憶装置36に記憶されたセッションを対象とするように、検索する対象を限定しても良い。そして、検索したセッションの入力履歴に従って、文書名の選択がなされた直前に入力された検索文を取得する。そして、この取得した検索文を、推奨検索文として出力部32に出力する。
例えば、以下に示すセッション1において、以下に示す動作1から動作5までがなされた場合を仮定する。
(セッション1)
動作1 検索文入力「AAAは?」
動作2 検索文入力「AAAのBBBについて」
動作3 検索文入力「AAAのBBBの役割」
動作4 文書名選択 文書名「AABB」
動作5 検索文入力「CCCのBBBでの役割」
上記のようなセッション1の場合、動作4において文書名が選択されているので、推奨検索文生成部30は、動作4の直前である動作3において入力された検索文である「AAAのBBBの役割」を推奨検索文として出力部32に出力する。
なお、推奨検索文は、一つとは限らず、全く存在しない場合も、複数の場合もありうる。以下に示すセッション2のように、文書名が選択されていないセッションからは、推奨検索文は取得されない。
(セッション2)
動作1 検索文入力「AAAについて」
動作2 検索文入力「AAAとBBBの関係」
推奨検索文が複数存在する場合、推奨検索文生成部30は、各推奨検索文について、以下のようにして優先順位を決定し、この優先順位に従って推奨検索文を出力部32に出力する。すなわち、複数の推奨検索文のうち、検索された文書の数が多いものほど、優先順位を高くする。また、検索された文書の数が同じである場合には、参照された回数が多い文書を持つ推奨検索文ほど、優先順位を高くする。なお、このような優先順位の決定方法は、一例であって、その他の要因を考慮して優先順位を決定するようにしても良い。
あるいは、推奨検索文生成部30が取得する検索文は、検索したセッションの入力履歴に従って、文書名の選択がなされた直前に入力された検索文に限らず、推奨検索文を探索する元となった検索文に対して評価を行い、その評価結果に従って推奨検索文としても良い。
推奨検索文の評価は、例えば、推奨検索文の複雑さ(たとえば、自然言語検索では名詞と形容詞の合計数で表すことができ、キーワード検索ではキーワードの数で表すことができる)に着目して行う。複雑である検索文は、より絞り込んだ検索文であるとみなせ、検索結果の数が少なくなることが期待できる。
また、推奨検索文の評価は、推奨検索文の中で、言い換えた検索文であるかを調べることによっても可能である。言い換えは、類義語辞書を利用して、類義語に置き換えたかどうかで判断できる。文書検索システムが言い換え表現を吸収するときには、言い換えた検索文は、ほかの検索文で代えることができるため、評価を低くすることができる。
また、別の例として、前述したような類似度と、以下に示すような足きりロジックとを組み合わせた方法によって決定される優先順位に従って推奨検索文を取得しても良い。この方法では、推奨検索文生成部30は、取得した検索文をそのまま推奨検索文として出力部32に出力するのではなく、検索文を取得すると、その検索文が関連付けられているセッションにおいて、時間的に連続している検索文について類似度を計算する。例えば、このセッションに以下に示すような4つの検索文が蓄積されているものとする。
(タイムスタンプ) (検索文)
2004/6/10 15:48:12 検索文A
2004/6/10 15:48:22 検索文B
2004/6/10 15:52:12 検索文C
2004/6/10 16:01:33 検索文D
この場合、検索文Aと検索文B、検索文Bと検索文C、検索文Cと検索文Dとについてそれぞれ類似度を計算する。その結果、下記の通りであったものとする。
検索文Aと検索文Bとの類似度・・・80
検索文Bと検索文Cとの類似度・・・60
検索文Cと検索文Dとの類似度・・・20。
そして、この類似度に基づいて、予め定めた閾値を用いて、ある検索文とある検索文との間を線引きする。例えば、類似度50を閾値とすると、検索文Cと検索文Dとの類似度は20であるので、検索文Cと検索文Dとが線引きされる。これにより、検索文Aと検索文B、及び検索文Bと検索文Cは、それぞれ閾値よりも類似度が高く、内容がさほど変わっていないものの、検索文Cから検索文Dになると、その内容が大きく変わったものと判定する。つまり、検索文A乃至Cによる検索では、所望する文書に辿り着くことができず、利用されなかった検索文であると考えられるため、検索文A乃至Cは、推奨検索文とはしない。なお、閾値は、形態素解析、単語辞書、及び検索形態に応じて調整可能である。
出力部32は、このように推奨検索文生成部30によって決定された推奨検索文を、インタフェース22に出力する。複数の推奨検索文が推奨検索文生成部30から出力された場合には、優先順位に従ってインタフェース22に出力する。インタフェース22は、出力部32から推奨検索文が出力されると、LAN10を介して、識別番号に基づいて、要求先のクライアント12に送信する。
このように送られた推奨検索文は、クライアント12のインタフェース14が受信し、クライアント12の表示デバイスから表示される。推奨検索文が、複数存在する場合には、優先順位に従って表示デバイスから一覧表示される。
図5は、推奨検索文を表示した表示デバイスの画面の一例を示す。画面40には、推奨検索文一覧46に、優先順位46(#1)の順に、推奨検索文46(#2)が表示されている。
ユーザは、このように表示された推奨検索文、あるいは一覧表示された推奨検索文のうちの何れかを、そのまま、あるいは編集して、前述した検索文として利用することができる。推奨検索文のうちの何れかをそのまま検索文として利用する場合には、該当する推奨検索文46(#2)の検索ボタン46(#3)の部分を、マウスのクリック等によって押下する。また、推奨検索文のうちの何れかを編集して、検索文として利用する場合には、対象とする推奨検索文46(#2)を画面上で編集し、編集完了後、検索ボタン46(#3)の部分を、マウスのクリック等によって押下する。
次に、以上のように構成した本発明の実施の形態に係る文書検索システムの動作について説明する。
先ず、図6に示すフローチャートを用いて、ユーザが、検索文を入力することによって、所望の文書を取得するとともに、入力された検索文と、選択された文書名とからなる入力履歴をセッション毎に入力履歴データ記憶装置36に蓄積する処理について説明する。
この場合、先ず、図2に示すようにユーザが、クライアント12の入力デバイスを用いて、検索文(例えば、「AAAについて」)を入力する(S1)と、入力した検索文は、入力欄41から表示される。そして、検索ボタン42をマウス等のクリックにより押下すると、入力欄41に表示された検索文がインタフェース14からサーバ20側に、クライアント12の識別番号とともに送信される。
このようにして送信された検索文と識別番号とは、インタフェース22によって受信され、更にインタフェース22から入力部24に出力される。
入力部24では、インタフェース22から識別番号と共に検索文が出力されると、この識別番号及び検索文が文書データベース検索部26に出力される。
文書データベース検索部26では、入力部24からの検索文が用いられ、文書データ記憶装置34から、この検索文に対応する文書が、周知の自然言語検索やキーワード検索等の機能を用いて検索され、検索結果として、この文書データの表題と、この文書の内容のダイジェストや優先順位等を含む検索一覧が取得される。そして、この検索一覧は、出力部32に出力される(S2)。
また、入力部24からの識別番号及び検索文が、文書データベース検索部26から入力履歴格納部28へ出力される。すると、入力履歴格納部28では、出力された検索文にタイムスタンプが付され、新たなセッションにおける履歴データとして、識別番号に関連付けられて入力履歴データ記憶装置36に書き込まれる(S11)。識別番号は、セッションを識別する番号として使用される。
一方、ステップS2の後、出力部32では、文書データベース検索部26から検索一覧が出力されると、この検索一覧がインタフェース22へ出力される。そして、インタフェース22では、出力部32から検索一覧が出力されると、識別番号が参照されることにより要求元のクライアント12が認識され、この検索一覧が、LAN10を介して、要求元のクライアント12に送信される。このように送られた検索一覧は、要求元のクライアント12のインタフェース14によって受信され、図3に示すように、優先順位に従ってこのクライアント12の表示デバイスから表示される(S3)。
ユーザは、このように一覧表示された文書の中から、所望の文書の内容に近いと思われる文書を見つける(S4:Yes)と、その文書を選択する選択命令を、入力デバイスを用いて入力する(S5)。なされた選択命令は、クライアント12の識別番号と共にインタフェース14からサーバ20に向けて送信され、前述したようにインタフェース22によって受信される。
インタフェース22では、選択命令を識別番号と共に受信すると、入力部24へ出力される。すると、入力部24では、この選択命令が、文書データベース検索部26へ出力され、文書データベース検索部26によって、この選択命令に対応する文書データが文書データ記憶装置34から取り出され、識別番号と共に出力部32に出力される(S6)。また、文書データベース検索部26では、この選択命令が、識別番号と共に入力履歴格納部28に出力される(S12)。
ステップS6の後、この文書データ及び識別番号は、出力部32からインタフェース22へ送られ、更にインタフェース22からクライアント12へ送信され、クライアント12において識別番号が参照されることにより、要求元のクライアント12が認識され、このクライアント12に送信される。そして、図4に示すように、クライアント12の表示デバイスから文書データが表示される(S7)。
表示デバイスから表示された文書は、ユーザによって参照され(S8)、この文書が、所望の文書であれば(S9:Yes)、一連の検索処理が完了する。すなわち、一つのセッションが完了する。一方、所望の文書でないならば(S9:No)、セッションが継続し、ユーザが、表示された検索一覧の中から、別の文書を選択する選択命令を入力デバイスから入力し、それに対応する文書を、前述したように表示デバイスから表示させて、所望の文書であるか否かを確認する。
一方、表示された検索一覧の中に、ユーザが所望する内容に近いと思われる文書がない場合(S4:No)にも、セッションが継続し、ステップS1の処理に戻り、ユーザは、再び入力デバイスを用いて別の検索文を入力し、それに対してサーバ20から送信される検索一覧を、表示デバイスから表示させる。そして、一覧表示された文書の中から、所望の文書の内容に近いと思われる文書を見つけることができれば、その文書を選択する選択命令を、入力デバイスを用いて入力する。
一方、ステップS8の後、入力履歴格納部28では、参照された文書名にタイムスタンプが付され、現在のセッションに関連付けられて、タイムスタンプに従って時系列的に入力履歴データ記憶装置36に書き込まれる。このようにして、入力履歴データ記憶装置36には、どの検索文に対して、どの文書がユーザによって選択され、参照されたかの実績が蓄積される(S13)。
以上説明したような処理を繰り返すことによって、ユーザは、検索文を入力することによって、所望の文書を取得するとともに、入力された検索文と、選択された文書名とからなる入力履歴がセッション毎に入力履歴データ記憶装置36に蓄積されて行く。このようにして、入力履歴データ記憶装置36には、どの検索文に対して、どの文書が何回選択され、参照されたかの実績が格納される。このようにして、入力履歴データ記憶装置36に、少なくとも一つのセッションの入力履歴が格納されると、次回のセッションからは、以下のようにしてユーザに推奨検索文を提示することが可能となる。
次に、図7に示すフローチャートを用いて、ユーザに推奨検索文を提示する場合における処理について説明する。
すなわち、新たなセッションが開始され(S21)、クライアント12からの検索文が識別番号とともにインタフェース22に入力されると、入力部24では、この検索文及び識別番号が、推奨検索文生成部30に出力される(S22)。
これによって、図6に示すステップS1からステップS3、及びステップS11の処理が行われ、図3に示すような検索一覧がクライアント12の表示デバイスから表示される。この画面40には、推奨検索文取得ボタン45が設けられている(S23)。
ユーザが、推奨検索文の提示を求める場合(S24:Yes)には、マウスのクリック等によって推奨検索文取得ボタン45を押下する。一方、推奨検索文の提示を求めない場合(S24:No)には、図6に示すステップS5の処理に移行する。
ステップS24において、推奨検索文取得ボタン45が押下されると、推奨検索文生成部30では、入力履歴データ記憶装置36に記憶された何れかのセッションの中から、入力部24から出力された検索文に含まれる用語を含む検索文が入力されたセッションが検索される。すなわち、推奨検索文を含むセッションが検索される(S25)。
更に、検索したセッションの入力履歴に従って、文書名の選択がなされた直前に入力された検索文が取得される。このとき、自然言語処理の技術を使い、表記のゆれを吸収したり、類義語を置き換えたりして行っても良い。もちろん、検索文に含まれている名詞だけを単純に抜き出し、抜き出した名詞を用いて検索しても良い。また、例えば、最近1ヶ月以内に入力履歴データ記憶装置36に記憶されたセッションを対象とするように、検索する対象を限定しても良い。そして、この取得した検索文が、推奨検索文として決定され出力部32へ出力される(S26)。
なお、推奨検索文は、一つとは限らず、全く存在しない場合も、複数の場合もありうる。推奨検索文が複数存在する場合、推奨検索文生成部30では、各推奨検索文について、優先順位や、所定の評価結果に従って推奨検索文が出力部32に出力される。
出力部32では、このように推奨検索文生成部30から出力された推奨検索文が、インタフェース22へ出力される。インタフェース22では、出力部32から推奨検索文が出力されると、LAN10を介して、識別番号に基づいて、要求先のクライアント12へ送信される。
このように送られた推奨検索文は、クライアント12のインタフェース14が受信し、クライアント12の表示デバイスから表示される。推奨検索文が、複数存在する場合には、優先順位に従って表示デバイスから一覧表示される(S27)。
図5は、推奨検索文を表示した表示デバイスの画面の一例を示す。画面40には、推奨検索文一覧46に、優先順位46(#1)の順に、推奨検索文46(#2)が表示されている。
ユーザは、このように表示された推奨検索文、あるいは一覧表示された推奨検索文のうちの何れかを、そのまま、あるいは編集して、前述した検索文として利用することができる。推奨検索文のうちの何れかをそのまま検索文として利用する場合(S28:Yes)には、該当する推奨検索文46(#2)の検索ボタン46(#3)の部分を、マウス等をクリックすることによって押下する(S29)。
これは、図6におけるステップS1の処理に相当し、選択された推奨検索文が、ステップS1において入力された検索文として取り扱われ、その後は、ステップS1移行の処理がなされる。
一方、推奨検索文のうちの何れかを編集して、検索文として利用する場合(S28:No)には、対象とする推奨検索文46(#2)を画面上で編集し、編集完了後、検索ボタン46(#3)の部分を、マウス等をクリックすることによって押下する(S30)。
このようにして指定された編集後の推奨検索文もまた、ステップS1において入力された検索文として取り扱われ、その後は、ステップS1移行の処理がなされる。
本発明の実施の形態に係る文書検索システムにおいては、上記のように動作することにより、以下に示すような作用効果を奏することが可能となる。
すなわち、従来は、単に類似した検索文を提示するときには、その検索文での効果を評価しないで利用していたが、本発明の実施の形態に係る文書検索システムでは、履歴を利用して、過去に文書を実際に出力した実績を持つ検索文を推奨検索文として提示することができ、もって、ユーザが所望する文書に辿り着くことができる確率の高い推奨検索文を提示することが可能となる。
更に、過去の検索におけるヒット文書数や、スコア、ヒット状況を加味して検索文を評価することにより、推奨検索文を、有効性の高い順に提示することも可能となる。例えば、検索の意図の切り替わりを識別することにより、意味のない推奨検索文を提示しなくても済むようになる。或いは、推奨検索文の複雑度を調べることで、より限定的な検索文を上位に提示することも可能となる。更には、推奨検索文間の言い換えを調べることで、同じ内容の検索文を下位に提示することも可能となる。
以上により、本発明の文書検索システム及びプログラムによれば、検索のためになされた過去の入力履歴を有効に活用し、入力の手間を低減しながら、所望の文書を効率的に、かつ高い確度で検索することが可能となる。
以上、本発明を実施するための最良の形態について、添付図面を参照しながら説明したが、本発明はかかる構成に限定されない。特許請求の範囲の発明された技術的思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の技術的範囲に属するものと了解される。
本発明の実施の形態に係る文書検索システムの構成例を示す機能ブロック図。 検索文を入力する場合に、クライアントの表示デバイスから表示される画面の一例を示す図。 検索一覧が表示された画面の例を示す図。 表示デバイスから文書データが表示された画面の一例を示す図。 推奨検索文を表示した表示デバイスの画面の一例を示す図。 所望の文書を取得するとともに、入力履歴を蓄積する処理を示すフローチャート。 ユーザに推奨検索文を提示する処理を示すフローチャート。
符号の説明
10…LAN、12…クライアントコンピュータ、13…パーソナルコンピュータ、14…インタフェース、20…サーバコンピュータ、22…インタフェース、24…入力部、26…文書データベース検索部、28…入力履歴格納部、30…推奨検索文生成部、32…出力部、34…文書データ記憶装置、36…入力履歴データ記憶装置、40…画面、41…検索文入力欄、42…検索ボタン、43…閉じるボタン、44…検索一覧、44(#1)…優先順位、44(#2)…サマリ表示部、44(#3)…文書表示ボタン、45…推奨検索文取得ボタン、46…推奨検索文一覧、46(#1)…優先順位、46(#2)…推奨検索文、46(#3)…検索ボタン、47…表題欄、48…文書内容表示欄

Claims (4)

  1. 入力手段と、文書を記憶した第一の記憶装置と、文書検索手段とを備え、前記入力手段に入力された検索文に対応する文書を、前記文書検索手段によって前記第一の記憶装置から検索する文書検索システムであって、
    一つの文書の検索処理の開始から終了までの期間であるセッション毎に、前記入力手段に入力された検索文と、前記検索文に対して前記文書検索手段によって前記第一の記憶装置から検索された文書に対して前記入力手段を通じてなされた参照操作とを時系列的に第二の記憶装置に書き込む書込手段と、
    新たなセッションが開始され、前記入力手段に新たな検索文が入力されると、前記第二の記憶装置に記憶されたセッションの中から、前記新たな検索文に含まれる用語を含む検索文が入力されたセッションを検索するセッション検索手段と、
    前記セッション検索手段によって検索されたセッションの中から、前記参照操作の直前に前記入力手段に入力された検索文を取得する取得手段と、
    前記取得手段によって取得された検索文を、前記新たな検索文に対応する適切な文書が前記文書検索手段によって検索される可能性の高い検索文として出力する出力手段と
    を備えた文書検索システム。
  2. 請求項1に記載の文書検索システムにおいて、
    前記書込手段は、前記検索文に対して前記文書検索手段によって前記第一の記憶装置から検索された文書の数、及び前記各文書に対する参照操作の実績を更に前記第二の記憶装置に書き込み、
    前記出力手段から出力された検索文が複数存在する場合、前記第二の記憶装置に書き込まれた、前記各検索文によって検索された文書の数、及び前記各文書に対する参照操作の実績に基づいて前記複数の検索文の優先順位を決定する優先順位決定手段を更に備え、
    前記出力手段は、前記複数存在する各検索文を、前記優先順位決定手段によって決定された優先順位の高い順に出力する文書検索システム。
  3. 入力手段と、文書を記憶した第一の記憶装置と、出力手段とを備え、前記入力手段に入力された検索文に対応する文書を、前記第一の記憶装置から検索する文書検索システムに適用されるプログラムであって、
    前記入力手段に入力された検索文に対応する文書を、前記第一の記憶装置から検索する機能、
    一つの文書の検索処理の開始から終了までの期間であるセッション毎に、前記入力手段に入力された検索文と、前記検索文に対して前記第一の記憶装置から検索された文書に対して前記入力手段を通じてなされた参照操作とを時系列的に第二の記憶装置に書き込む機能、
    新たなセッションが開始され、前記入力手段に新たな検索文が入力されると、前記第二の記憶装置に記憶されたセッションの中から、前記新たな検索文に含まれる用語を含む検索文が入力されたセッションを検索する機能、
    前記検索されたセッションの中から、前記参照操作の直前に前記入力手段に入力された検索文を取得する機能、
    前記取得された検索文を、前記新たな検索文に対応する適切な文書が、前記第一の記憶装置から検索される可能性の高い検索文として前記出力手段から出力させる機能
    をコンピュータに実現させるためのプログラム。
  4. 請求項3に記載のプログラムにおいて、
    前記検索文に対して前記第一の記憶装置から検索された文書の数、及び前記各文書に対する参照操作の実績を前記第二の記憶装置に書き込む機能、
    前記出力手段から出力される検索文が複数存在する場合、前記第二の記憶装置に書き込まれた、前記各検索文によって検索された文書の数、及び前記各文書に対する参照操作の実績に基づいて前記複数の検索文の優先順位を決定し、前記決定された優先順位の高い順に前記出力手段から出力させる機能
    を更にコンピュータに実現させるためのプログラム。
JP2006195777A 2006-07-18 2006-07-18 文書検索システム及びプログラム Expired - Fee Related JP4469817B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006195777A JP4469817B2 (ja) 2006-07-18 2006-07-18 文書検索システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006195777A JP4469817B2 (ja) 2006-07-18 2006-07-18 文書検索システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2008026967A true JP2008026967A (ja) 2008-02-07
JP4469817B2 JP4469817B2 (ja) 2010-06-02

Family

ID=39117566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006195777A Expired - Fee Related JP4469817B2 (ja) 2006-07-18 2006-07-18 文書検索システム及びプログラム

Country Status (1)

Country Link
JP (1) JP4469817B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288260A (ja) * 2008-05-27 2009-12-10 Alpine Electronics Inc 音響情報提供システム及び車載音響装置
CN102246171A (zh) * 2008-12-11 2011-11-16 微软公司 提供具有搜索结果的最近历史
EP3093807A1 (en) 2015-05-12 2016-11-16 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and information processing program
JP7450096B1 (ja) 2023-06-30 2024-03-14 フリー株式会社 プログラム、情報処理装置及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288260A (ja) * 2008-05-27 2009-12-10 Alpine Electronics Inc 音響情報提供システム及び車載音響装置
CN102246171A (zh) * 2008-12-11 2011-11-16 微软公司 提供具有搜索结果的最近历史
JP2012511779A (ja) * 2008-12-11 2012-05-24 マイクロソフト コーポレーション 検索結果を伴う最近の履歴を提供すること
EP3093807A1 (en) 2015-05-12 2016-11-16 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and information processing program
JP7450096B1 (ja) 2023-06-30 2024-03-14 フリー株式会社 プログラム、情報処理装置及び方法

Also Published As

Publication number Publication date
JP4469817B2 (ja) 2010-06-02

Similar Documents

Publication Publication Date Title
US10169453B2 (en) Automatic document summarization using search engine intelligence
KR101554293B1 (ko) 교차 언어 정보 검색
US7890500B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
US20060122997A1 (en) System and method for text searching using weighted keywords
US20080294619A1 (en) System and method for automatic generation of search suggestions based on recent operator behavior
JP2004062893A (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
US11314930B2 (en) Generating and provisioning of additional content for source perspective(s) of a document
US9031949B1 (en) Creation of inferred queries for use as query suggestions
US20150339387A1 (en) Method of and system for furnishing a user of a client device with a network resource
JP4092933B2 (ja) 文書情報検索装置及び文書情報検索プログラム
JP4469817B2 (ja) 文書検索システム及びプログラム
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP4177070B2 (ja) 文書検索装置
JP4610543B2 (ja) 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
US7801723B2 (en) Systems and methods for user-interest sensitive condensation
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP6106489B2 (ja) 語義解析装置、及びプログラム
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP4452527B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2010146061A (ja) 例文表示装置、例文表示方法および例文表示プログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100301

R150 Certificate of patent or registration of utility model

Ref document number: 4469817

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees