JP4114462B2 - Information search device and information search system - Google Patents

Information search device and information search system Download PDF

Info

Publication number
JP4114462B2
JP4114462B2 JP2002329974A JP2002329974A JP4114462B2 JP 4114462 B2 JP4114462 B2 JP 4114462B2 JP 2002329974 A JP2002329974 A JP 2002329974A JP 2002329974 A JP2002329974 A JP 2002329974A JP 4114462 B2 JP4114462 B2 JP 4114462B2
Authority
JP
Japan
Prior art keywords
classification
document
unit
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002329974A
Other languages
Japanese (ja)
Other versions
JP2004164332A (en
Inventor
宏行 大沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2002329974A priority Critical patent/JP4114462B2/en
Publication of JP2004164332A publication Critical patent/JP2004164332A/en
Application granted granted Critical
Publication of JP4114462B2 publication Critical patent/JP4114462B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は,電子メールなどの文書(電子文書)を管理する文書管理システムにおける情報検索装置および情報検索システムに関する。
【0002】
【従来の技術】
従来より,電子メールなど文書を管理する文書管理システムには,本文の全文検索などの機能が提供されている。文書から,日時,場所などの表現や,会議への参加依頼などのアクションを抽出し,例えば,「開催地が○○ドームであるイベント」,「期限が今週中の回答依頼」に関する情報が書いてありそうな文書といった,文書中の単語の種類を利用して,様々な条件で検索することが可能である。
【0003】
さらに,ユーザの利便性向上のために,特開平10−69472では,電子メールを対象として,本文中の日付や時間などのうち,アクションを起こす期限を抽出し,期限が近い順にソートするなどの機能が提案されている。
【0004】
また,佐藤らの「電子ニュースのダイジェスト自動生成」(情報処理学会論文誌,Vol.36,No.10 pp.2371-2379)では,電子ニュースから,会議の開催期日,開催地,論文締切日などを抽出している。これらは,あらかじめ定まった情報のみを抽出するための技術として有効である。
【0005】
一方,特開平9−269940では,電子メールの本文から日付や時間などの情報を抽出し,日付などを検索キーにして,その日付を本文に含むメールを検索する機能が提案されている。さらに,場所,事柄なども抽出している。これらの機能により,メール本文中の,日付や時間,場所,事柄などを切り出して表示したり,メール中の日時が,現時点より前なのか後ろなのかによって,メールをソートして表示できる。しかし,例えば,その日付が開催日なのか締切日を表すのかを特定するまでの検索は行っていない。
【0006】
【特許文献1】
特開平10−69472号公報
【特許文献2】
特開平9−269940号公報
【非特許文献1】
「電子ニュースのダイジェスト自動生成」(情報処理学会論文誌,Vol.36,No.10 pp.2371-2379)
【0007】
【発明が解決しようとする課題】
ところで,現実の文書情報検索においては,例えば,「開催日を含んでいる文書」を検索する場合や,さらに具体的な日時を指定して,「開催日として2002年8月3日を含む文書」を検索する場合,さらには,開催日などを区別せず,「日時として2002年8月3日を含む文書」を検索する場合など,さまざまな条件にて検索可能であることが要求される。このような条件で検索できるようにするためには,特定の分野の文書に対してだけでなく,様々な文書に対して,単語の種類を特定する処理等が必要である。
【0008】
また,抽出誤りで,単語の種類が間違っていた場合にも,ある程度正しく検索できるようにする必要がある。例えば,「開催日」として抽出すべきところを,単に,「日時」としてしか抽出できなかった場合には正しく検索できないが,そのような場合でも,検索漏れがないように検索できるようにしなければならない。これらを実現しようとするとき,従来の技術のいずれの方法を組み合わせても,有効に検索することはできない。
【0009】
それは,次のような問題点があるからである。
[問題点1] 佐藤らの「電子ニュースのダイジェスト自動生成」の手法は,会議開催に関するニュースなど,分野を限定している場合に有効である。様々な分野の文書に,この手法を使う場合には,会議開催に関する情報を抽出するための規則,回答依頼の締切に関する情報を抽出するための規則など様々な規則を用意する必要がある。そして,前処理として,送信された電子メールが,会議開催に関する電子メールかどうかを選別する処理が必要となる。しかし,1つの電子メールに様々な情報を含んでいる場合もあり,必ずしも選別処理がうまくいくとは限らない。
【0010】
[問題点2] 佐藤らの「電子ニュースのダイジェスト自動生成」など,分野を限定して特定の情報を抽出する場合,抽出結果を表形式にするのが一般的である。しかし,この場合には,その抽出結果がどれくらい正しいかという情報が失われてしまう。従って,検索結果を信用していいのか判断できず,使いづらい場合がある。
【0011】
[問題点3] 特開平9−269940では,電子メールの本文から日付や時間などの情報を抽出しているが,その日付が締切日なのか,開催日なのかを区別していない。従って,イベントの開催日で検索するといった検索条件は設定できない。一方,日付が締切日なのか,開催日なのかまで抽出した場合には,抽出誤りなどが起こる可能性があり,検索漏れが起こることがある。
【0012】
本発明は,従来の情報検索装置あるいは情報検索システムが有する上記問題点に鑑みてなされたものであり,本発明の目的は,従来の情報検索装置あるいは情報検索システムが有する上記問題点を解決することの可能な,新規かつ改良された情報検索装置および情報検索システムを提供することである。
【0013】
【課題を解決するための手段】
上記課題を解決するため,本発明の第1の観点によれば,文書を検索する情報検索装置が提供される。本発明の情報提供装置は,請求項1に記載のように,文書を記憶する文書記憶部(6)と,文書を検索するための情報として,文書中の文字列をその分類ごとに格納する抽出情報記憶部(5)と,検索条件となる文字列が入力される条件入力部(7)と,検索条件として入力された文字列にもとづいて文書記憶部から文書を検索する検索部(9)とを備え,検索部(9)は,検索条件として入力された文字列の分類とは無関係に文書を検索するように,検索条件を緩めて文書を選択する候補選択部(10)と,選択された文書と検索条件となる文字列との適合度を計算する適合度計算部(11)とを備えたことを特徴とする。
【0014】
さらに,文書記憶部に格納される文書が入力される文書入力部(1)と,入力された文書から文字列を抽出するための抽出規則を格納する抽出規則記憶部(3)と,抽出規則記憶部に記憶されている抽出規則と照合して,文書入力部から入力された文書から文字列を抽出する抽出部(2)と,抽出部で抽出された文字列の分類を判断し,その文字列を抽出情報記憶部に登録する文書情報登録部(4)とを備えるようにしてもよい。
【0015】
この場合,抽出情報記憶部(5)における文字列の分類は,請求項6に記載のように,抽出規則記憶部(3)に記憶されている抽出規則に応じて定められる大分類と,その大分類を細分化した小分類とからなるようにしてもよい。また,請求項7に記載のように,大分類は,さらに,抽出規則記憶部(3)に格納されている抽出規則とは無関係に,抽出情報記憶部(5)に格納された文書中の名詞を登録するための分類を持つようにしてもよい。抽出規則の不備などで,本来,イベントや場所として抽出できなくても,名詞として単語情報記憶部に登録されていることで,検索漏れをなくすことができる。
【0016】
かかる情報検索装置によれば,上記[問題点1],[問題点2],[問題点3]を解決することが可能である。以下説明する。
【0017】
抽出情報記憶部(5)が,文書中の文字列を,「イベント」,「アクション」,「場所」,「日時」などの分類ごとに格納し,会議開催に関するニュースなど特定の分野ごとの抽出規則を持たない構成にしたことで,その文書がどのような分野であるのかを前もって選別する処理を不要にできる。こうして[問題点1]は解消された。さらに,抽出情報記憶部(5)が,文書中の文字列をその分類(大分類および小分類)ごとに格納することによって,詳細な検索を行うことができる。例えば,日時を検索するにあたり,その日時が「締切日」なのか「開催日」なのかを分類しておくことによって,「締切日」と「開催日」を区別して検索することができる。
【0018】
また,候補選択部(10)は,検索条件として入力された文字列の分類とは無関係に文書を検索するように,検索条件を緩めて文書を選択する。これは,抽出誤りを考慮して,選択可能な文書を増やすためである。具体的には,次のようにして検索条件を緩めることができる。
1:検索条件として入力された文字列が具体値である場合には,その具体値のみが一致するように検索条件を緩めて,文書を選択する
2:検索条件として入力された文字列が具体値である場合には,その具体値のみが一致するように検索条件を緩め,検索条件として入力された文字列が具体値でない場合には,大分類のみが一致するように検索条件を緩めて,文書を選択する
【0019】
このようにして,検索条件を緩めて文書を選択することによって,抽出規則を用いた抽出結果が間違っていても,検索漏れがないようにすることができる。こうして[問題点3]は解消された。
【0020】
そして,上記のようにして候補選択部により選択された文書について,適合度計算部(10)は適合度の計算を行う。具体的には,以下のように適合度の計算を行うことができる。
1:選択された文書と検索条件となる文字列との適合度を,選択された文書中の文字列の分類を利用して計算する
2:選択された文書と検索条件となる文字列との適合度を,選択された文書中の文字列の位置関係を利用して計算する
【0021】
特に▲2▼のように,文書を検索するための情報の抽出時に,文書中の日時,場所などを表す単語を表形式に格納しないようにし,それぞれの位置情報を記憶しておく。そして,検索時には,それぞれの単語の種類や単語間の位置関係を利用して,検索条件との適合度を計算する。適合度の高い順に整列してユーザに表示することで,検索結果を信用していいのかをユーザが判断できるようにする。こうして[問題点2]は解消された。
【0022】
また,上記課題を解決するため,本発明の第2の観点によればネットワーク(120)で接続されたサーバ部(100)と端末部(110)とを有し,文書を検索する情報検索システムが提供される。
【0023】
本発明の情報検索システムにおいて,サーバ部(100)は,検索条件および検索結果を送受信する通信部(13)と,文書を記憶する文書記憶部(6)と,文書を検索するための情報として,文書中の文字列をその分類ごとに格納する抽出情報記憶部(5)と,検索条件として入力された文字列にもとづいて文書記憶部から文書を検索する検索部(9)とを備えたことを特徴とする。
【0024】
また,本発明の情報検索システムにおいて,端末部(110)は,検索条件および検索結果を送受信する通信部(14)と,検索条件となる文字列が入力される条件入力部(7)とを備え,検索部(9)は,検索条件として入力された文字列の分類とは無関係に文書を検索するように,検索条件を緩めて文書を選択する候補選択部(10)と,選択された文書と検索条件となる文字列との適合度を計算する適合度計算部(11)とを備えたことを特徴とする。
【0025】
かかる情報検索システムによれば,上記本発明の第1の観点にかかる情報検索装置と実質的に同様の効果を有するほか,例えばインターネットなどのネットワークを経由して電子メールを受け取り,受け取った電子メールを順次登録し,ユーザの要求に応じて検索する場合に対しても適用できる。また,本発明のサーバ部(100)の機能を,いわゆるASP(Application Service Provider)サービスとして提供することができ,ビジネスとしても展開可能である。
【0026】
【発明の実施の形態】
以下に添付図面を参照しながら,本発明にかかる情報検索装置および情報検索システムの好適な実施の形態について詳細に説明する。なお,本明細書および図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
【0027】
(第1の実施の形態)
本実施の形態では,文書に含まれる日時,場所,イベントやアクションを登録し,また,それを利用して検索することの可能な情報処理装置について説明する。特に,上記の3つの問題点を解決するために,それぞれ次のようなアプローチをとる。
【0028】
[問題点1]に対しては,あらかじめ,分野ごとの抽出規則を持たない構成にする。これによって,その文書がどのような分野であるのかを前もって選別する処理を不要とする。
【0029】
[問題点2]に対しては,単語の抽出時に,文書中の日時,場所などを表す単語を表形式に格納しないようにし,それぞれの位置情報を記憶する。検索時に,それぞれの単語の種類や単語間の位置関係などを利用して,検索条件との適合度を計算する。適合度をユーザに表示したり,適合度の高い順に整列してユーザに表示したりすることで,検索結果をどの程度信用していいのかをユーザが判断できるようにする。
【0030】
[問題点3]に対しては,単語の種類を抽出する処理において,その日時が締切日なのか,開催日なのかを区別しておく。これによって,例えば,ユーザが,開催日と締切日を区別して検索できるようにする。一方,抽出結果が間違っている可能性を考慮して,検索漏れがないように,検索条件としてユーザが指定した単語の種類に関わらず,候補文書を検索するようにユーザが設定した検索条件より,検索条件を緩めるようにする。
【0031】
図1は,本実施の形態にかかる情報検索装置20のシステム構成を示す説明図である。情報検索装置20は,図1に示したように,文書入力部1と,抽出部2と,抽出規則記憶部3と,文書情報登録部4と,抽出情報記憶部5と,文書記憶部6と,条件入力部7と,表示部8と,検索部9を含んで構成されている。また,検索部9は,候補選択部10,適合度計算部11,候補整列部12を含んで構成されている。
【0032】
情報検索装置20の構成要素のうち,文書入力部1,抽出部2,抽出規則記憶部3,文書情報登録部4,抽出情報記憶部5,および文書記憶部6は,文書情報の登録を行うための構成要素である。また,条件入力部7,表示部8,および検索部9は,文書情報の検索を行うための構成要素である。以下に,各構成要素について詳細に説明する。
【0033】
(文書入力部1)
文書入力部1は,登録対象の文書を受け付ける。
【0034】
(抽出部2)
抽出部2は,文書入力部1から入力された文書に対して,抽出規則記憶部3に格納されている抽出規則と照合して適合する情報を抽出する。具体的には,入力された文書がメールの場合には,サブジェクトや本文に含まれる日時,イベント,場所,アクションなどを抽出する。これら日時,イベント,場所,アクションなどを「大分類」と称する。また,例えば,イベントに対して,そのイベントが,セミナーなのか会議なのかを細分化した情報も抽出する。これら細分化した情報を「小分類」と称する。
【0035】
(抽出規則記憶部3)
抽出規則記憶部3は,文書入力部から入力された文書から所定の情報を抽出するための抽出規則を格納している。図2は,抽出規則記憶部3に格納された抽出規則の一例を示す説明図である。例えば,図2(a)の規則A−1は,「イベント−会議」のための抽出規則で,「第9回環境フォーラム」などの文字列が一致する。規則A−2は,大分類がイベントで,小分類を特に規定していない抽出規則で,「祇園祭」,「サマーフェスティバル」などの文字列が一致する。規則A−3,A−4も同様である。
【0036】
また,抽出規則記憶部3は,図2(b)に示したように,見出し語に関する抽出規則も格納している。見出し語に関する抽出規則とは,例えば,図3(a)の文書の8行目の「日時:2002年8月6日(木)」の見出し語「日時:」のように,見出し語を抽出するための規則である。例えば,規則B−1は,「日時−開催日」の見出し語の抽出規則で,「日時:」,「開催日:」などの文字列が一致する。
【0037】
また,抽出規則記憶部3は,図2(c)に示したように,見出し語を利用した日時の分類規則も格納している。規則C−1からC−3までが見出し語を利用した日時の分類規則である。例えば,図3(a)の文書の8行目は,日付「2002年8月6日(木)」に<DATE>タグを設定し,見出し語「日時:」に</HD DATE OPEN>タグを設定すると,次のようになる。
<HD DATE OPEN>日時:</HD><DATE>2002年8月6日(木)</DATE>
ここで,「2002年8月6日(木)」は,見出し語「日時:」の後ろにあるので,開催日と考えられる。そこで,規則C−1を適用して,この日付を開催日に分類する。
【0038】
なお,以上説明した抽出規則記憶部3に格納される抽出規則は,図2に示された一例に限定されるものではない。例えば,特開平09−269940の図10に記載された正規表現や図11に記載された形式でもよい。
【0039】
図3(a)の文書に対して,図2の規則を用いて抽出処理をした結果は,図3(b)に示したようになる。図3(b)において,「日時−開催日」は<DATE OPEN>タグで,「日時−締切日」は<DATE LIMIT>タグで囲んでいる。また,「イベント−会議」は<EVT CONFERENCE>タグで,「アクション−参加依頼」は<ACT JOIN>タグで,「アクション−回答依頼」は<ACT ASK>タグで,「場所」は<POS>タグでそれぞれ囲んでいる。
【0040】
(文書情報登録部4)
文書情報登録部4は,抽出部2で抽出された文字列に対して,その日時が,「今日」や「明日」などの相対的な時間である場合に,その日時を絶対的な時間に変更する。また,形態素解析を行い,例えば,図3(a)の9行目の「第1会議室」を含む文の動詞が,「行う」であることを利用して,「第1会議室」が開催地であることを判断したりする。そして,これら文書の解析結果を抽出情報記憶部5に登録する。
【0041】
(抽出情報記憶部5)
抽出情報記憶部5は,文書の解析結果として文書中に出現する単語を,日時やイベントなどの分類とともに記憶する。図4に抽出情報記憶部5のデータの例を示す。図4では,図3(b)の抽出結果の分類例を示す。抽出情報記憶部5は,文書番号項目,連番項目,タイプ項目,外部表現項目,内部表現項目,行位置項目,文位置項目の各項目から構成される。
【0042】
文書番号項目は,個々の文書に付けられる識別番号である。連番項目は,抽出された個々の単語を識別する番号である。タイプ項目は,抽出された単語の分類であり,大分類と小分類にわけられる。外部表現項目は,抽出された単語が文書中に出現した表現である。内部表現項目は,「本日」などの相対的な時間を,「2002/8/3」などの絶対的な時間にした場合に値が入る。行位置項目は,文書中でその単語が出現した行番号が入る。文位置項目は,その単語が出現したのが,何番目の文であるかという情報が入る。ただし,対象文書がメールである場合,サブジェクトにある単語の行位置と文位置には,−1を設定する。
【0043】
(文書記憶部6)
文書記憶部6は,文書自体を,文書番号を付けて記憶しておく。文書番号は,抽出情報記憶部5の文書番号項目と対応付けられる。
【0044】
(条件入力部7)
条件入力部7は,ユーザからの検索条件の入力などの操作を受け付ける。
【0045】
(表示部8)
表示部8は,入力画面の表示や検索結果の出力などを行う。
【0046】
(検索部9)
検索部9は,条件入力部7から入力された検索条件に対して検索処理を行う。検索部9は,候補選択部10と,適合度計算部11と,候補整列部12を含んで構成されている。
【0047】
(候補選択部10)
候補選択部10は,ユーザの検索条件に一致する文書を候補文書として検索する。その際に,抽出部2や文書情報登録部4の抽出結果の誤りを考慮して,ユーザが設定した検索条件にヒットする文書よりも,多くの文書にヒットするように検索条件を補正する。
【0048】
(適合度計算部11)
適合度計算部11は,候補選択部10によって挙げられた文書から,抽出情報記憶部5のタイプ項目や行位置項目や文位置項目を利用して,検索条件との適合度を計算する。検索条件の大分類と小分類が,ヒットしたレコード間のそれらと一致しているレコードや,ヒットしたレコード間の行位置や文位置が近いものに高い適合度を与える。
【0049】
(候補整列部12)
候補整列部12は,適合度の高いものから順に整列を行う。
【0050】
本実施の形態にかかる情報検索装置20は以上のように構成されている。次いで,情報検索装置20の動作について説明する。まず,文書情報の登録処理について説明し,次いで,文書情報の検索処理について説明する。図5は,情報検索装置20の登録処理の動作を示すフローチャートである。ここでは,例として,図3(a)に示す文書の登録処理について説明する。
【0051】
<登録処理>
(ステップS100)
抽出部2は,文書入力部1から入力された文書に対して抽出処理を行う。図2に示す抽出規則を利用する。図3(a)のメールに対して,図3(b)に示す結果が得られる。
(ステップS110)
文書情報登録部4は,前処理として,文書番号を発番する。
(ステップS120)
文書情報登録部4は,文書入力部1から入力された文書を文書記憶部6に登録する。
(ステップS130)
文書情報登録部4は,ステップS100で得られた文書に対して,図6のフローチャートに示す処理を実行する。以下,図6のフローチャートを参照しながら説明する。
【0052】
(ステップS1000)
行番号を0にセットする。文番号を0にセットする。
(ステップS1010)
文書のすべての行に対して,ステップS1020からステップS1100までの処理を実行する。すべての行に対して処理が終われば処理を終了する。未処理の行があればステップS1020へ行く。
(ステップS1020)
未処理の行を処理対象とし,行番号を1増やす。文番号を1増やす。
(ステップS1030)
処理対象の行を形態素に区切る。例えば,図3(b)の9行目は,「<POS>」「第1会議室」「</POS>」「で」「行う(動詞)」「ます」「。」となる。ただし,タグで囲まれた範囲(例えば,「第1会議室」)は1つの形態素として扱う。
(ステップS1040)
すべての形態素に対して,ステップS1050からステップS1100までの処理を実行する。実行したらステップS1010へ戻る。
【0053】
(ステップS1050)
処理対象の形態素が,「。(句点)」ならステップS1060へ行く。<HD>タグ(見出しタグ)以外のタグならば,その終了タグを見つけ,ステップS1070へ行く。それ以外ならステップS1040へ戻る。例えば,図3(b)の9行目は,「<POS>」が見つかった時点で,その終了タグ「</POS>」まで進め,ステップS1070へ行く。「で」,「行う」,「ます」のときは,タグでも句点でもないので,何も処理せず,ステップS1040に戻る。「。」のときは,ステップS1060へ行く。
【0054】
(ステップS1060)
文番号を1増やす。ステップS1040へ戻る。
(ステップS1070)
そのタグに小分類が設定されているかどうかを調べる。設定されていないなら,小分類を決定するために,ステップS1080へ行く。設定されていたら,ステップS1090へ行く。
【0055】
(ステップS1080)
小分類を決定する。このタグ以降の形態素に,どのようなサ変名詞または動詞があるかを調べる。タグが<DATE>タグであり,その後の形態素に,「開催(サ変名詞)」,「行う(動詞)」,「開く(動詞)」があれば,小分類を開催日と判断する。「締切(サ変名詞)」があれば,締切日と判断する。タグが<POS>タグであり,その後の形態素に,「開催(サ変名詞)」,「行う(動詞)」,「開く(動詞)」があれば,小分類を開催地と判断する。ステップS1090へ行く。例えば,図3(b)の9行目は,「<POS>」〜「</POS>」の後に,「行う(動詞)」があるので,「<POS>」〜「</POS>」は開催地と判断する。
【0056】
(ステップS1090)
もし,タグが<DATE>タグであるならば,絶対的な時間を計算する。方法として,例えば,特開平10−69472に開示された方法を利用する。ステップS1100へ行く。
(ステップS1100)
抽出情報記憶部5にデータを登録する。登録したらステップS1040へ戻る。
【0057】
<検索処理>
次に,検索処理について説明する。図7は,本実施の形態にかかる情報検索装置20の検索処理の動作を示すフローチャートである。また,抽出情報記憶部5のデータを図9(a)に示したものとする。以下,このフローチャートを参照しながら説明する。
【0058】
本実施の形態では,様々な条件で検索するために,例えば,図8に示すような,検索条件入力画面をユーザに表示する。図8には,タイプ欄と具体値欄がある。タイプ欄は,検索する単語の種類を選択する欄である。タイプ欄には,「日時」,「イベント」,「場所」,「アクション」の大分類と,「開催日」,「締切日」などの小分類がある。「指定なし」は,特に小分類を指定せずに検索するための欄である。小分類欄には,その分類を検索条件として指定できるように,チェックボタンがある。以下の説明では,個々のチェックボタンを指し示すために,「日時−開催日」,「アクション−指定なし」という表記をする。
【0059】
「開催日を含んでいる文書」を検索する場合には,「日時−開催日」にチェックを付ける。「開催日として2002年8月3日を含む文書」を検索する場合には,「日時−開催日」にチェックを付け,その右にある具体値欄に,「2002/8/3」と入力する。特に具体値を検索条件にいれる必要がないなら,具体値欄は空白でもよい。
【0060】
また,締切日や開催日を区別せず,すべての日時を検索したい場合には,「日時−指定なし」にチェックを付ける。「日時として2002年8月3日を含む文書」を検索する場合は,「日時−すべて」にチェックを付け,その右にある具体値欄に,「2002/8/3」と入力する。
【0061】
複数のタイプにチェックを付けることでAND検索を行う。例えば,「開催地が○○ドームで,開催日が2002年8月3日のセミナーを含む文書」を検索する場合には,図8のように3箇所にチェックし,「日時−開催日」と「場所−開催地」に対して具体値を入力する。
【0062】
(ステップS200)
候補選択部10は,条件入力部7から入力された検索条件に対して,抽出誤りを考慮して条件を緩め,検索にヒットする文書を増やす。
次のようにして条件を緩める。
(1)ユーザが具体値を設定している場合には,大分類や小分類の抽出漏れに対応するために,具体値だけで検索する。
(2)ユーザが具体値を設定していない場合には,小分類の抽出漏れに対応するために,小分類が設定されていないレコードもヒットするように,大分類だけで検索する。
【0063】
例えば,図8で,「場所−開催地」=「○○ドーム」という条件が指定されているが,抽出情報記憶部5のデータの中から,外部表現が「○○ドーム」であるすべてのレコードがヒットするようにする。
【0064】
図8に示した検索条件では,抽出情報記憶部5のうち,次の(条件1),(条件2),(条件3)を満たす文書を指定している。
(条件1)タイプ項目が「日時−開催日」で,内部表現が「2002/8/3」であるレコードがある。
(条件2)タイプ項目が「イベント−セミナー」であるレコードがある。
(条件3)タイプ項目が「場所−開催地」で,外部表現が「○○ドーム」であるレコードがある。
【0065】
本実施の形態では,検索条件を緩め,次の検索条件で検索する。
(条件1’)内部表現が「2002/8/3」であるレコードがある。
(条件2’)大分類項目が「イベント」であるレコードがある。
(条件3’)外部表現が「○○ドーム」であるレコードがある。
【0066】
(ステップS210)
候補選択部10は,抽出情報記憶部5を検索する。例えば,図9(a)において,網掛け模様で示されたレコード(連番1,2,6,8,9,10,11)がヒットする。
【0067】
(ステップS220)
候補選択部10は,ヒットしたレコードの中で,文書番号が同じものごとにまとめ,すべての条件を満たしている文書番号を処理対象とする。例えば,図9において,文書番号1のデータでは,(条件3’)を満たさないため処理対象としない。文書番号2のデータは,すべての条件を満たすので処理対象とする。
【0068】
(ステップS230)
適合度計算部11は,ステップS220で処理対象とした文書に対して,検索条件との適合度を計算する。まず,各レコードと検索条件との適合度を計算する。これは,レコードの大分類や小分類が検索条件と一致したものほど高くなるように設定する。図10に,適合度の設定値を示す。検索条件に具体値が設定されている場合と,設定されていない場合で異なる計算をする。検索条件に具体値が設定されている場合には,検索されたレコードの大分類と小分類が,検索条件と一致していれば適合度を1とする。検索されたレコードの大分類のみが,検索条件と一致し,検索されたレコードの小分類が空白なら,適合度を0.9とする。検索されたレコードの大分類のみが,検索条件と一致していれば適合度を0.5とする。検索されたレコードの大分類と検索条件の大分類が異なっていれば適合度を0.1とする。
【0069】
一方,検索条件に具体値が設定されてない場合には,検索されたレコードの大分類と小分類が,検索条件と一致していれば適合度を1とする。検索されたレコードの大分類のみが,検索条件と一致し,検索されたレコードの小分類が空白なら,適合度を0.85とする。検索されたレコードの大分類のみが,検索条件と一致していれば適合度を0.5とする。
【0070】
例えば,図9の連番8は,(条件2’)で一致しており,具体値が設定されてない場合に該当する。大分類のみが検索条件と一致しており,小分類が検索条件と異なるので,適合度は0.5となる。連番10は,(条件1’)で一致しており,具体値が設定されている場合に該当する。大分類が検索条件と一致しており,小分類が空白なので,適合度は0.9となる。連番11は,(条件3’)で一致しており,具体値が設定されている場合に該当する。大分類が検索条件と一致しており,小分類が空白なので,適合度は0.9となる。この適合度の計算結果を,図9(b)の「S230の適合度」欄に示す。
【0071】
(ステップS240)
単語の出現位置の関係にもとづいて適合度を計算する。検索条件が複数ある場合に,一致したレコードの文位置の距離が近いものほど高い点数を与えるようにする。レコードの文位置が同じなら,適合度を1にする。複数のレコードの間で,文位置が異なるなら,一致した各レコードに対して,文位置の差が最小(距離が最小)の値αを計算し,
適合度=1−0.1α
として適合度を計算する。図9において,連番9は,連番10と文位置の差が,1(=3−2)で最小なので,適合度は,0.9(=1−0.1×(3−2))となる。この適合度の計算結果を,図9(b)の「S240の適合度」欄に示す。
【0072】
(ステップS250)
ステップS230,S240で計算した2つの適合度について,レコードごとに
β×(ステップS230で求めた適合度)+(1−β)×(ステップS240で求めた適合度)
を計算し,総計を計算する。図9において,β=0.5とすると,
連番8は,0.5×0.5+0.5×0.7=0.6
連番9は,0.5×0.5+0.5×0.9=0.7
連番10は,0.5×0.9+0.5×0.9=0.9
連番11は,0.5×0.9+0.5×0.8=0.85
となる。連番8と連番9は同じ(条件2’)に一致しているので,適合度が高い連番9だけを総計する。結果として文書番号2の適合度は,2.45(=0.7+0.9+0.85)となる。図8の検索条件の場合,条件が3つあるため,適合度の最大値は3であることを考えると,比較的条件に適合した文書である。
【0073】
(ステップS260)
候補整列部12は,ステップS250で計算した,各文書ごとの適合度を用いてソートする。
【0074】
(ステップS270)
表示部8は,検索結果を出力する。出力例を図11に示す。
【0075】
(第1の実施の形態の効果)
以上説明したように,本実施の形態によれば,あらかじめ,分野ごとの抽出規則を持たない構成にしたことで,その文書がどのような分野であるのかを前もって選別する処理を不要にできる。
【0076】
また,抽出時に,文書中の日時,場所などを表す単語を表形式に格納しないようにし,それぞれの位置情報を記憶する。検索時に,それぞれの単語の種類や単語間の位置関係などを利用して,検索条件との適合度を計算する。適合度の高い順に整列してユーザに表示することで,検索結果を信用していいのかをユーザが判断することができる。
【0077】
また,単語の種類を抽出する処理において,その日時が締切日なのか,開催日なのかを区別しておく。これによって,例えば,ユーザが,開催日と締切日を区別して検索できるようにする。一方,検索条件としてユーザが指定した単語の種類に関わらず,候補文書を検索するようにユーザが設定した検索条件より,検索条件を緩めるようにすることで,抽出結果が間違っていても,検索漏れがないようにすることができる。
【0078】
なお,本実施の形態では,文書から単語の種類を決定し,抽出情報記憶部5に登録する処理(登録処理)を,文書入力部1,抽出部2,抽出規則記憶部3,および文書情報登録部4で行っている。また,文書を検索する処理(検索処理)を,条件入力部7,表示部8,および検索部9で行っている。あらかじめ,抽出情報記憶部5と文書記憶部6が作成されている場合には,図12に示した情報検索装置30の構成を採用してもよい。すなわち,検索処理を行う構成要素である入力部7,表示部8,および検索部9と,抽出情報記憶部5と文書記憶部6だけから構成されるようにしてもよい。
【0079】
(第2の実施の形態)
上記第1の実施の形態では,一般的な文書の検索について説明した。本実施の形態では,インターネットなどのネットワークを経由して電子メールを受け取り,受け取った電子メールを順次登録し,ユーザの要求に応じて検索する場合について説明する。
【0080】
図13は,本実施の形態にかかる情報検索システム200のシステム構成を示す説明図である。上記第1の実施の形態の構成と比べて,通信部13,通信部14,サーバ100,クライアント110,ネットワーク120が追加されている。サーバ100とクライアント110は,ネットワーク120に接続されている。
【0081】
(サーバ100)
サーバ100は,図13に示したように,文書入力部1と,抽出部2と,抽出規則記憶部3と,文書情報登録部4と,抽出情報記憶部5と,文書記憶部6と,検索部9と,通信部13を含んで構成されている。また,検索部9は,候補選択部10,適合度計算部11,候補整列部12を含んで構成されている。サーバ100は,ネットワーク120を通して受信する電子メールに対して,メール情報の登録を行う。また,クライアント110から送られるユーザからの検索要求を受け取り,検索結果を発信する。通信部13は,ネットワーク120を通して,それらの情報を受発信する。なお,通信部13以外の各構成要素については,上記第1の実施の形態と実質的に同様であるため,重複説明を省略する。
【0082】
(クライアント110)
クライアント110は,図13に示したように,条件入力部7と,表示部8と,通信部14を含んで構成されている。クライアント110は,パソコンなどの計算機や,携帯電話をはじめとする携帯端末などであり,ユーザの検索条件を受け付け,通信部14からネットワーク120に接続し,サーバ100に問い合わせて検索結果を出力する。なお,通信部14以外の各構成要素については,上記第1の実施の形態と実質的に同様であるため,重複説明を省略する。
【0083】
(ネットワーク120)
ネットワーク120は,プロトコル,トポロジー,伝送媒体の種類などを問わない。ネットワーク120の典型的な例としては,インターネットが挙げられる。
【0084】
文書情報の登録処理は,通信部13が電子メールを受信したときに実行される。第1の実施の形態と同様に,ステップS100以降の処理が,受信した電子メールに対して実行されることで,電子メールの情報が,抽出情報記憶部5に登録される。また,文書情報の検索処理は,ユーザが,例えば,図8の入力画面に入力したときに実行される。図8の入力画面は,CGI(Common Gateway Interface)などを使って表示される。
【0085】
図14は,本実施の形態にかかる情報検索システム40の動作を示すフローチャートである。以下に,図14を参照しながら説明する。
(ステップS300)
クライアント110において,条件入力部7は,入力された検索条件を通信部14に伝える。
【0086】
(ステップS310)
通信部14は,入力された検索条件を,ネットワーク120を介してサーバ100に伝える。
【0087】
(ステップS320)
サーバ100は,通信部13によって,検索条件を受信し,第1の実施の形態のステップS200以降の処理を実行する。
【0088】
(ステップS330)
サーバ100において,通信部13は,検索結果を,ネットワーク120を介してクライアント110に伝える。
【0089】
(ステップS340)
表示部8は,検索結果を出力する。
【0090】
(第2の実施の形態の効果)
以上説明したように,本実施の形態によれば,インターネットなどのネットワークを経由して電子メールを受け取り,受け取った電子メールを順次登録し,ユーザの要求に応じて検索する場合に対しても適用できる。
【0091】
(第3の実施の形態)
上記第1の実施の形態では,抽出情報記憶部5に,タグで囲まれた単語しか登録していない。従って,抽出規則の不備などで,本来,イベントや場所として登録されるべき単語が登録されていない場合が考えられる。このような抽出漏れに対処するために,本実施の形態では,タグで囲まれた単語以外に,文書に出現する名詞など,大分類や小分類が具体的に付けられない単語も登録するようにする。
【0092】
本実施の形態にかかる情報検索装置50は,図15に示したように,上記第1の実施の形態にかかる情報検索装置20の抽出情報記憶部5を,単語情報記憶部15に置き換えて構成されている。単語情報記憶部15は,タグで囲まれた単語以外に,文書に出現する名詞など,大分類や小分類が具体的に付けられない単語も登録するようにする。他の構成要素については,上記情報検索装置20の各構成要素と実質的に同様であるので,重複説明を省略する。
【0093】
次いで,本実施の形態にかかる情報検索装置50の動作について説明する。
文書に出現する名詞も単語情報記憶部15に登録するために,ステップS1030の形態素解析の結果を利用する。図6に対する変更点を図16に示す。
【0094】
まず,第1の実施の形態のステップS1050の処理を次のように変更する。(ステップS1200)
処理対象の形態素が,「。(句点)」ならステップS1060へ行く。<HD>タグ(見出しタグ)以外のタグならば,その終了タグを見つけ,ステップS1070へ行く。その形態素が名詞ならば,ステップS1210へ行く。それ以外ならステップS1040へ戻る。例えば,図3(b)の3行目は「山田(名詞)」を,5行目は「以下(名詞)」,「日程(名詞)」を登録することになる。
【0095】
また,ステップS1210を次のようにする。
(ステップS1210)
大分類を「単語」として,単語情報記憶部15にデータを登録する。登録したらステップS1040へ戻る。
【0096】
また,第1の実施の形態のステップS1100の登録先を単語情報記憶部15に変更する。結果として,図3(b)の文書の単語情報記憶部15のデータは,図17のようになる。図17に示したように,大分類に「単語」が加わり,外部表現として,「皆様」,「山田」,「以下」,「日程」,「全員」,「参加」,「方」が,名詞として単語情報記憶部15に登録されている。
【0097】
(第3の実施の形態の効果)
以上説明したように,本実施の形態によれば,抽出規則の不備などで,本来,イベントや場所として抽出できなくても,名詞として単語情報記憶部15に登録されていることで,検索漏れをなくすことができる。
【0098】
以上,添付図面を参照しながら本発明にかかる情報検索装置および情報検索システムの好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0099】
例えば,以下のような応用例が考えられる。
(1)図10の適合度を,大分類に応じて設定することも可能である。また,ステップS240,S250の計算方法はこれに限らない。
(2)図7のステップS210で,具体値の部分一致で検索してもよい。また,図10の表中「検索条件に具体値がある場合」に,具体値が部分一致した場合の適合度を追加してもよい。
(3)大分類や小分類は上記実施の形態で挙げたものに限らない。例えば,人名や組織名などの大分類も可能である。
(4)候補整列部12において,必ずしも適合度順にソートする必要はない。日付順に現在に近いものから順にソートし,一覧表示する際に適合度を表示してもよい。
(5)図8のような入力画面のかわりに,音声入力を行ってもよい。
(6)図6のステップS1020で,各行ごとに文番号を1増やしているため,1文の途中で改行がある場合に,正しく文番号を計算できていない。そこで,ステップS100の前処理として,1文の途中で改行が入らないように処理してもよい。
(7)図8の日時の条件に対して,指定された日時の前後一週間の範囲に拡大して候補文書を検索してもよい。また,図8の入力方法も,期間を入力できるようにしてもよい。
(8)文書記憶部6の記憶対象は,文書自体でなくてもよく,例えば,文書の保存場所を指し示す情報(例えばURL)でもよい。
【0100】
【発明の効果】
以上説明したように,本発明によれば,あらかじめ,分野ごとの抽出規則を持たない構成にしたことで,その文書がどのような分野であるのかを前もって選別する処理を不要にできる。
【0101】
また,抽出時に,文書中の日時,場所などを表す単語を表形式に格納しないようにし,それぞれの位置情報を記憶する。検索時に,それぞれの単語の種類や単語間の位置関係などを利用して,検索条件との適合度を計算する。適合度の高い順に整列してユーザに表示することで,検索結果を信用していいのかをユーザが判断することができる。
【0102】
また,単語の種類を抽出する処理において,その日時が締切日なのか,開催日なのかを区別しておく。これによって,例えば,ユーザが,開催日と締切日を区別して検索できるようにする。一方,検索条件としてユーザが指定した単語の種類に関わらず,候補文書を検索するようにユーザが設定した検索条件より,検索条件を緩めるようにすることで,抽出結果が間違っていても,検索漏れがないようにすることができる。
【0103】
また,インターネットなどのネットワークを経由して電子メールを受け取り,受け取った電子メールを順次登録し,ユーザの要求に応じて検索する場合に対しても適用できる。
【0104】
また,抽出規則の不備などで,本来,イベントや場所として抽出できなくても,名詞として単語情報記憶部に登録されていることで,検索漏れをなくすことができる。
【図面の簡単な説明】
【図1】第1の実施の形態にかかる情報検索装置の構成を示す説明図である。
【図2】抽出規則記憶部のデータを示す説明図である。
【図3】文書の抽出結果の一例を示す説明図である。
【図4】抽出情報記憶部のデータを示す説明図である。
【図5】第1の実施の形態における登録処理の動作を示す流れ図である。
【図6】図5のステップS130の詳細を示す流れ図である。
【図7】第1の実施の形態における検索処理の動作を示す流れ図である。
【図8】検索条件入力画面の一例を示す説明図である。
【図9】抽出動作記憶部のデータを示す説明図である。
【図10】適合度の設定値を示す説明図である。
【図11】検索結果の出力の一例を示す説明図である。
【図12】第1の実施の形態にかかる情報検索装置の別の構成を示す説明図である。
【図13】第2の実施の形態にかかる情報検索システムの構成を示す説明図である。
【図14】第2の実施の形態における情報検索システムの動作を示す流れ図である。
【図15】第3の実施の形態にかかる情報検索装置の構成を示す説明図である。
【図16】図5のステップS130の詳細を示す流れ図である。
【図17】単語情報記憶部のデータを示す説明図である。
【符号の説明】
1 文書入力部
2 抽出部
3 抽出規則記憶部
4 文書情報登録部
5 抽出情報記憶部
6 文書記憶部
7 条件入力部
8 表示部
9 検索部
10 候補選択部
11 適合度計算部
12 候補整列部
13 通信部
14 通信部
15 単語情報記憶部
20 情報検索装置
30 情報検索装置
40 情報検索システム
50 情報検索装置
100 サーバ
110 クライアント
120 ネットワーク
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information retrieval apparatus and an information retrieval system in a document management system that manages documents (electronic documents) such as electronic mail.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, document management systems for managing documents such as e-mails have been provided with functions such as full-text search for text. Actions such as date and time, location, and meeting request are extracted from the document. For example, information related to "Event where the venue is XX Dome" and "Request for reply during this week" is written. It is possible to search under various conditions using the types of words in the document, such as likely documents.
[0003]
Furthermore, in order to improve user convenience, Japanese Patent Laid-Open No. 10-69472 extracts e-mail deadlines for action from among dates and times in the text, and sorts them in order of close deadlines. A function is proposed.
[0004]
Sato et al., “Automatic Digest Generation of Electronic News” (Journal of Information Processing Society of Japan, Vol.36, No.10 pp.2371-2379), from electronic news, conference dates, venues, and paper deadlines. Etc. are extracted. These are effective as techniques for extracting only predetermined information.
[0005]
On the other hand, Japanese Patent Laid-Open No. 9-269940 proposes a function of extracting information such as date and time from the text of an electronic mail and searching for mail including the date in the text using the date as a search key. In addition, locations and matters are also extracted. With these functions, you can cut out and display the date, time, place, matter, etc. in the mail text, and sort and display the mail according to whether the date and time in the mail is before or after the current time. However, for example, the search is not performed until it is specified whether the date represents an event date or a deadline date.
[0006]
[Patent Document 1]
Japanese Patent Laid-Open No. 10-69472
[Patent Document 2]
Japanese Patent Laid-Open No. 9-269940
[Non-Patent Document 1]
“Automatic digest generation of electronic news” (Journal of Information Processing Society of Japan, Vol.36, No.10 pp.2371-2379)
[0007]
[Problems to be solved by the invention]
By the way, in the actual document information search, for example, when searching for “documents including the date of the event”, or by specifying a more specific date and time, “documents including August 3, 2002 as the date of event” In addition, it is required to be searchable under various conditions, such as when searching for “documents including August 3, 2002 as date and time” without distinguishing the date of the event. . In order to be able to search under such conditions, not only a document in a specific field but also a process for specifying a word type for various documents is required.
[0008]
In addition, even if the word type is wrong due to an extraction error, it is necessary to be able to search correctly to some extent. For example, a place that should be extracted as “date” can not be searched correctly if it can only be extracted as “date and time”, but even in such a case, it is necessary to be able to search so that there is no omission. Don't be. When trying to realize these, it is impossible to search effectively by combining any of the conventional methods.
[0009]
This is because of the following problems.
[Problem 1] Sato et al.'S "automatic generation of electronic news digest" method is effective when the field is limited, such as news related to conferences. When this method is used for documents in various fields, it is necessary to prepare various rules such as a rule for extracting information on holding a meeting and a rule for extracting information on the deadline of response requests. As pre-processing, it is necessary to select whether or not the transmitted e-mail is an e-mail related to holding a conference. However, there are cases where various information is included in one e-mail, and the sorting process is not always successful.
[0010]
[Problem 2] When extracting specific information in a limited field, such as “Automatic digest generation of electronic news” by Sato et al., The extraction result is generally in the form of a table. However, in this case, information on how accurate the extraction result is lost. Therefore, it may be difficult to use the search result because it cannot be determined whether the search result can be trusted.
[0011]
[Problem 3] In Japanese Patent Laid-Open No. 9-269940, information such as date and time is extracted from the body of an e-mail, but it is not distinguished whether the date is a deadline or a date. Therefore, it is not possible to set search conditions such as searching by the date of event. On the other hand, when extracting whether the date is the deadline or the date of the event, an extraction error or the like may occur, and a search omission may occur.
[0012]
The present invention has been made in view of the above-mentioned problems of the conventional information search apparatus or information search system, and an object of the present invention is to solve the above-mentioned problems of the conventional information search apparatus or information search system. It is an object of the present invention to provide a new and improved information retrieval apparatus and information retrieval system capable of performing the above.
[0013]
[Means for Solving the Problems]
In order to solve the above problems, according to a first aspect of the present invention, an information search apparatus for searching for a document is provided. As described in claim 1, the information providing apparatus of the present invention stores a document storage unit (6) for storing a document and character strings in the document for each classification as information for searching the document. An extraction information storage unit (5), a condition input unit (7) for inputting a character string as a search condition, and a search unit (9) for searching a document from the document storage unit based on the character string input as the search condition The search unit (9) includes a candidate selection unit (10) that selects a document by loosening the search condition so that the document is searched regardless of the classification of the character string input as the search condition, A fitness level calculation unit (11) for calculating a fitness level between the selected document and a character string as a search condition is provided.
[0014]
Further, a document input unit (1) for inputting a document stored in the document storage unit, an extraction rule storage unit (3) for storing an extraction rule for extracting a character string from the input document, and an extraction rule The extraction unit (2) that extracts the character string from the document input from the document input unit by comparing with the extraction rule stored in the storage unit, and determines the classification of the character string extracted by the extraction unit, You may make it provide the document information registration part (4) which registers a character string into an extraction information storage part.
[0015]
In this case, the classification of the character strings in the extraction information storage unit (5) is, as described in claim 6, a major classification determined according to the extraction rules stored in the extraction rule storage unit (3), and You may make it consist of the small classification which subdivided the large classification. Further, as described in claim 7, the large classification is further stored in the document stored in the extraction information storage unit (5) regardless of the extraction rule stored in the extraction rule storage unit (3). You may make it have the classification for registering a noun. Even if it cannot be originally extracted as an event or place due to an incomplete extraction rule, it is possible to eliminate omissions by registering it as a noun in the word information storage unit.
[0016]
According to such an information retrieval apparatus, [Problem 1], [Problem 2], and [Problem 3] can be solved. This will be described below.
[0017]
Extraction information storage unit (5) stores character strings in documents for each category such as “event”, “action”, “location”, “date / time”, etc. By adopting a configuration having no rules, it is possible to eliminate the process of selecting in advance what field the document is in. Thus, [Problem 1] has been resolved. Further, the extraction information storage unit (5) stores the character string in the document for each classification (major classification and minor classification), so that a detailed search can be performed. For example, when searching for the date and time, by classifying whether the date and time is the “deadline date” or “the date of the event”, it is possible to perform a search by distinguishing the “date of deadline” and the “date of event”.
[0018]
  In addition, the candidate selection unit (10) selects the document by relaxing the search condition so that the document is searched regardless of the classification of the character string input as the search condition. This is to increase the number of selectable documents in consideration of extraction errors. Specifically, the search condition can be relaxed as follows.
  1:If the string entered as a search condition is a specific value, relax the search condition so that only the specific value matches and select the document.
  2:If the character string entered as a search condition is a concrete value, relax the search condition so that only the concrete value matches, and if the character string entered as a search condition is not a concrete value, only the major classification Select documents by loosening search conditions so that matches.
[0019]
In this way, by selecting a document by loosening the search condition, it is possible to prevent a search omission even if the extraction result using the extraction rule is wrong. Thus, [Problem 3] has been resolved.
[0020]
  For the document selected by the candidate selection unit as described above, the fitness level calculation unit (10) calculates the fitness level. Specifically, the fitness can be calculated as follows.
  1:Calculates the degree of matching between the selected document and the character string that is the search condition, using the classification of the character string in the selected document.
  2:Calculates the degree of matching between the selected document and the character string that is the search condition, using the positional relationship of the character string in the selected document.
[0021]
In particular, as shown in (2), when extracting information for searching a document, words representing the date, place, etc. in the document are not stored in a table format, and the respective position information is stored. At the time of retrieval, the degree of matching with the retrieval condition is calculated using the type of each word and the positional relationship between the words. By arranging and displaying to the user in descending order of relevance, the user can determine whether the search result can be trusted. Thus, [Problem 2] has been resolved.
[0022]
  In order to solve the above-mentioned problem, according to the second aspect of the present invention,,An information search system is provided that includes a server unit (100) and a terminal unit (110) connected via a network (120) and searches for a document.
[0023]
In the information search system of the present invention, the server unit (100) includes a communication unit (13) for transmitting / receiving search conditions and search results, a document storage unit (6) for storing documents, and information for searching for documents. And an extraction information storage unit (5) for storing character strings in the document for each classification, and a search unit (9) for searching the document from the document storage unit based on the character string input as a search condition. It is characterized by that.
[0024]
In the information search system of the present invention, the terminal unit (110) includes a communication unit (14) for transmitting / receiving a search condition and a search result, and a condition input unit (7) for inputting a character string as a search condition. The search unit (9) is selected with the candidate selection unit (10) that selects the document by relaxing the search condition so that the document is searched regardless of the classification of the character string input as the search condition. A fitness level calculation unit (11) that calculates the fitness level of a document and a character string as a search condition is provided.
[0025]
  According to such an information retrieval system, in addition to having substantially the same effect as the information retrieval device according to the first aspect of the present invention, for example,,The present invention can also be applied to a case where e-mails are received via a network such as the Internet, the received e-mails are sequentially registered, and searched according to a user request. Further, the function of the server unit (100) of the present invention can be provided as a so-called ASP (Application Service Provider) service, and can be developed as a business.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
Exemplary embodiments of an information search apparatus and an information search system according to the present invention will be described below in detail with reference to the accompanying drawings. In the present specification and drawings, components having substantially the same functional configuration are denoted by the same reference numerals, and redundant description is omitted.
[0027]
(First embodiment)
In the present embodiment, an information processing apparatus capable of registering a date and time, a place, an event, and an action included in a document and searching using the registered information will be described. In particular, the following approaches are taken to solve the above three problems.
[0028]
For [Problem 1], a configuration that does not have an extraction rule for each field in advance. This eliminates the need to select in advance what field the document is in.
[0029]
For [Problem 2], at the time of word extraction, words representing the date, place, etc. in the document are not stored in a table format, and each position information is stored. At the time of retrieval, the degree of matching with the retrieval condition is calculated using the type of each word and the positional relationship between the words. By displaying the relevance level to the user or arranging and displaying the relevance level to the user, the user can determine how much the search result can be trusted.
[0030]
For [Problem 3], in the process of extracting the word type, it is distinguished whether the date and time is the deadline or the date of the event. In this way, for example, the user can make a search by distinguishing the event date and the deadline date. On the other hand, considering the possibility that the extraction result is wrong, the search condition set by the user to search for candidate documents is used regardless of the type of word specified by the user as a search condition so that there are no omissions. , Try to relax the search conditions.
[0031]
FIG. 1 is an explanatory diagram showing a system configuration of the information search apparatus 20 according to the present embodiment. As shown in FIG. 1, the information retrieval device 20 includes a document input unit 1, an extraction unit 2, an extraction rule storage unit 3, a document information registration unit 4, an extraction information storage unit 5, and a document storage unit 6. And a condition input unit 7, a display unit 8, and a search unit 9. The search unit 9 includes a candidate selection unit 10, a fitness calculation unit 11, and a candidate alignment unit 12.
[0032]
Among the constituent elements of the information search device 20, the document input unit 1, the extraction unit 2, the extraction rule storage unit 3, the document information registration unit 4, the extraction information storage unit 5, and the document storage unit 6 register document information. It is a component for. The condition input unit 7, the display unit 8, and the search unit 9 are components for searching for document information. Each component will be described in detail below.
[0033]
(Document input part 1)
The document input unit 1 receives a document to be registered.
[0034]
(Extractor 2)
The extraction unit 2 extracts information that matches the document input from the document input unit 1 by matching with the extraction rules stored in the extraction rule storage unit 3. Specifically, when the input document is an email, the date and time, event, location, action, etc. included in the subject or text are extracted. These dates, events, places, actions, etc. are referred to as “major classification”. In addition, for example, for an event, information that subdivides whether the event is a seminar or a meeting is extracted. These subdivided information is referred to as “small classification”.
[0035]
(Extraction rule storage unit 3)
The extraction rule storage unit 3 stores an extraction rule for extracting predetermined information from the document input from the document input unit. FIG. 2 is an explanatory diagram showing an example of the extraction rules stored in the extraction rule storage unit 3. For example, rule A-1 in FIG. 2A is an extraction rule for “event-conference”, and matches a character string such as “9th Environmental Forum”. Rule A-2 is an extraction rule in which the major classification is an event and the minor classification is not specified, and character strings such as “Gion Festival” and “Summer Festival” match. The same applies to the rules A-3 and A-4.
[0036]
Further, as shown in FIG. 2B, the extraction rule storage unit 3 also stores extraction rules relating to headwords. The extraction rule related to the headword is, for example, the headword is extracted as the headword “Date:” of “Date: Thursday, August 6, 2002” on the 8th line of the document in FIG. It is a rule to do. For example, rule B-1 is a rule for extracting a headword of “date-time-date”, and character strings such as “date-time:” and “date-date:” match.
[0037]
The extraction rule storage unit 3 also stores date and time classification rules using headwords, as shown in FIG. Rules C-1 to C-3 are date and time classification rules using headwords. For example, in the 8th line of the document in FIG. 3A, the <DATE> tag is set for the date “August 6, 2002 (Thursday)”, and the </ HD DATE OPEN> tag is set for the headword “Date:”. If is set, it becomes as follows.
<HD DATE OPEN> Date: </ HD> <DATE> August 6, 2002 (Thursday) </ DATE>
Here, since “August 6, 2002 (Thursday)” is behind the headword “Date:”, it is considered to be the date of the event. Therefore, rule C-1 is applied to classify this date into the date of the event.
[0038]
The extraction rules stored in the extraction rule storage unit 3 described above are not limited to the example shown in FIG. For example, the regular expression described in FIG. 10 of Japanese Patent Laid-Open No. 09-269940 and the format described in FIG.
[0039]
The result of extracting the document of FIG. 3A using the rules of FIG. 2 is as shown in FIG. In FIG. 3B, “date-time-date” is enclosed in a <DATE OPEN> tag, and “date-time-deadline” is enclosed in a <DATE LIMIT> tag. Also, “Event-Conference” is an <EVT CONFERENCE> tag, “Action-Participation Request” is an <ACT JOIN> tag, “Action-Response Request” is an <ACT ASK> tag, and “Location” is <POS> Each is surrounded by tags.
[0040]
(Document Information Registration Unit 4)
When the date and time of the character string extracted by the extraction unit 2 is a relative time such as “today” or “tomorrow”, the document information registration unit 4 sets the date and time to an absolute time. change. Also, morphological analysis is performed. For example, the first verb of the sentence including “First Conference Room” on line 9 in FIG. Judge that it is a venue. Then, the analysis results of these documents are registered in the extracted information storage unit 5.
[0041]
(Extracted information storage unit 5)
The extracted information storage unit 5 stores words appearing in the document as a result of document analysis, together with classifications such as date and time. FIG. 4 shows an example of data in the extracted information storage unit 5. FIG. 4 shows an example of classification of the extraction results of FIG. The extracted information storage unit 5 includes document number items, serial number items, type items, external representation items, internal representation items, line position items, and sentence position items.
[0042]
The document number item is an identification number assigned to each document. The serial number item is a number for identifying each extracted word. The type item is a classification of extracted words, and is divided into a large classification and a small classification. The external expression item is an expression in which the extracted word appears in the document. The internal expression item has a value when the relative time such as “today” is set to an absolute time such as “2002/8/3”. The line position item contains the line number where the word appears in the document. The sentence position item contains information indicating what number sentence the word appears in. However, when the target document is mail, −1 is set as the line position and sentence position of the word in the subject.
[0043]
(Document storage unit 6)
The document storage unit 6 stores the document itself with a document number. The document number is associated with the document number item in the extraction information storage unit 5.
[0044]
(Condition input unit 7)
The condition input unit 7 receives operations such as input of search conditions from the user.
[0045]
(Display unit 8)
The display unit 8 displays an input screen and outputs search results.
[0046]
(Search unit 9)
The search unit 9 performs a search process on the search condition input from the condition input unit 7. The search unit 9 includes a candidate selection unit 10, a fitness calculation unit 11, and a candidate alignment unit 12.
[0047]
(Candidate selection unit 10)
The candidate selection unit 10 searches for documents that match the user search conditions as candidate documents. At this time, in consideration of errors in the extraction results of the extraction unit 2 and the document information registration unit 4, the search condition is corrected so that more documents are hit than the documents that hit the search condition set by the user.
[0048]
(Fitness calculation unit 11)
The fitness level calculation unit 11 calculates the level of fitness with the search condition using the type item, line position item, and sentence position item of the extracted information storage unit 5 from the document listed by the candidate selection unit 10. The major classification and minor classification of the search conditions give a high degree of conformity to records that match those between hit records and those that are close to the line position or sentence position between hit records.
[0049]
(Candidate alignment unit 12)
The candidate alignment unit 12 performs alignment in descending order of fitness.
[0050]
The information search device 20 according to the present embodiment is configured as described above. Next, the operation of the information search device 20 will be described. First, document information registration processing will be described, and then document information search processing will be described. FIG. 5 is a flowchart showing the registration processing operation of the information search apparatus 20. Here, as an example, the document registration process shown in FIG.
[0051]
<Registration process>
(Step S100)
The extraction unit 2 performs an extraction process on the document input from the document input unit 1. The extraction rule shown in FIG. 2 is used. The result shown in FIG. 3B is obtained for the mail in FIG.
(Step S110)
The document information registration unit 4 issues a document number as preprocessing.
(Step S120)
The document information registration unit 4 registers the document input from the document input unit 1 in the document storage unit 6.
(Step S130)
The document information registration unit 4 performs the process shown in the flowchart of FIG. 6 on the document obtained in step S100. Hereinafter, a description will be given with reference to the flowchart of FIG.
[0052]
(Step S1000)
Set the line number to 0. Set the sentence number to 0.
(Step S1010)
The processing from step S1020 to step S1100 is executed for all the lines of the document. When the process is completed for all the rows, the process is terminated. If there is an unprocessed line, the process goes to step S1020.
(Step S1020)
Unprocessed lines are processed and the line number is incremented by one. Increase the sentence number by one.
(Step S1030)
Divide the line to be processed into morphemes. For example, the ninth line in FIG. 3B is “<POS>”, “first conference room”, “</ POS>”, “de”, “do (verb)”, “mas”, and “.”. However, a range surrounded by tags (for example, “first meeting room”) is treated as one morpheme.
(Step S1040)
The processing from step S1050 to step S1100 is executed for all morphemes. If executed, the process returns to step S1010.
[0053]
(Step S1050)
If the morpheme to be processed is “. (Punctuation mark)”, go to step S1060. If it is a tag other than the <HD> tag (heading tag), the end tag is found, and the process goes to step S1070. Otherwise, the process returns to step S1040. For example, in the ninth line of FIG. 3B, when “<POS>” is found, the process proceeds to the end tag “</ POS>”, and the process goes to step S1070. If "de", "do", or "mas", it is neither a tag nor a punctuation mark, so nothing is processed and the process returns to step S1040. If ".", Go to step S1060.
[0054]
(Step S1060)
Increase the sentence number by one. The process returns to step S1040.
(Step S1070)
Check if a small classification is set for the tag. If not, go to step S1080 to determine the minor category. If set, go to step S1090.
[0055]
(Step S1080)
Determine the minor classification. Check what varieties or verbs exist in the morphemes after this tag. If the tag is a <DATE> tag, and the subsequent morpheme contains “held (sa variable noun)”, “do (verb)”, and “open (verb)”, the subclass is determined to be the date of the event. If there is a “Deadline”, it is judged as the deadline. If the tag is a <POS> tag, and the subsequent morpheme contains "hold (sa variable noun)", "do (verb)", and "open (verb)", the subclass is determined to be the venue. Go to step S1090. For example, the 9th line in FIG. 3B has “do (verb)” after “<POS>” to “</ POS>”, so “<POS>” to “</ POS>”. Is judged as the venue.
[0056]
(Step S1090)
If the tag is a <DATE> tag, calculate the absolute time. As a method, for example, the method disclosed in JP-A-10-69472 is used. Go to step S1100.
(Step S1100)
Data is registered in the extracted information storage unit 5. If registered, it will return to step S1040.
[0057]
<Search process>
Next, the search process will be described. FIG. 7 is a flowchart showing the search processing operation of the information search apparatus 20 according to this embodiment. The data in the extracted information storage unit 5 is assumed to be as shown in FIG. Hereinafter, description will be given with reference to this flowchart.
[0058]
In the present embodiment, in order to search under various conditions, for example, a search condition input screen as shown in FIG. 8 is displayed to the user. FIG. 8 includes a type column and a specific value column. The type column is a column for selecting the type of word to be searched. The type column includes major classifications such as “date and time”, “event”, “location”, and “action”, and minor classifications such as “date” and “deadline”. “Not specified” is a column for searching without specifying a small classification. The small category column has a check button so that the category can be designated as a search condition. In the following description, in order to indicate each check button, the notation “date-date-date” and “action-not specified” are used.
[0059]
When searching for “documents including the date of the event”, check “date and time-date of event”. To search for “documents that include August 3, 2002 as the date”, check “Date-Date” and enter “2002/8/3” in the value field to the right of it. To do. The concrete value field may be blank if it is not particularly necessary to include the concrete value in the search condition.
[0060]
In addition, if you want to search all dates and times without distinguishing the deadline date or the date of the event, check "Date and time-not specified". When searching for “documents including August 3, 2002 as date and time”, check “Date and time-all” and enter “2002/8/3” in the specific value column to the right of the check.
[0061]
An AND search is performed by checking multiple types. For example, when searching for “documents including seminars where the venue is XX dome and the date is August 3, 2002”, check three places as shown in FIG. Enter a specific value for “Location-Venue”.
[0062]
(Step S200)
The candidate selection unit 10 relaxes the conditions in consideration of extraction errors with respect to the search conditions input from the condition input unit 7 and increases the number of documents that hit the search.
Relax the conditions as follows:
(1) When the user has set a specific value, a search is performed using only the specific value in order to cope with omission of extraction of the large classification and the small classification.
(2) When the user has not set a specific value, in order to deal with the omission of extraction of the small category, the search is performed using only the large category so that the record without the small category is hit.
[0063]
For example, in FIG. 8, the condition “place-venue” = “XX dome” is specified, but from the data in the extracted information storage unit 5, all the external representations are “XX dome”. Make the record hit.
[0064]
In the search condition shown in FIG. 8, a document that satisfies the following (condition 1), (condition 2), and (condition 3) in the extracted information storage unit 5 is specified.
(Condition 1) There is a record whose type item is “date-time-date” and the internal representation is “2002/8/3”.
(Condition 2) There is a record whose type item is “event-seminar”.
(Condition 3) There is a record whose type item is “place-venue” and the external expression is “XX dome”.
[0065]
In this embodiment, the search condition is relaxed and the search is performed using the following search condition.
(Condition 1 ') There is a record whose internal representation is "2002/8/3".
(Condition 2 ') There is a record whose major classification item is "event".
(Condition 3 ') There is a record whose external expression is "XX dome".
[0066]
(Step S210)
The candidate selection unit 10 searches the extracted information storage unit 5. For example, in FIG. 9A, the records (serial numbers 1, 2, 6, 8, 9, 10, 11) indicated by the shaded pattern are hit.
[0067]
(Step S220)
The candidate selection unit 10 collects the hit records with the same document numbers and sets the document numbers satisfying all the conditions as the processing target. For example, in FIG. 9, the data of document number 1 does not satisfy (Condition 3 ') and is not processed. The data of document number 2 is a processing target because it satisfies all the conditions.
[0068]
(Step S230)
The fitness level calculation unit 11 calculates the fitness level with the search condition for the document to be processed in step S220. First, the degree of fitness between each record and the search condition is calculated. This is set so that the larger the major classification or minor classification of the record matches the search condition, the higher. FIG. 10 shows the set value of the fitness. Different calculations are performed when a specific value is set for the search condition and when it is not set. When a specific value is set in the search condition, the goodness of fit is set to 1 if the major classification and minor classification of the retrieved record match the retrieval condition. If only the major classification of the retrieved record matches the retrieval condition and the minor classification of the retrieved record is blank, the fitness is 0.9. If only the major classification of the retrieved record matches the retrieval condition, the fitness is set to 0.5. If the major classification of the retrieved record is different from the major classification of the search condition, the fitness is set to 0.1.
[0069]
On the other hand, if no specific value is set in the search condition, the fitness is set to 1 if the major and minor classifications of the retrieved records match the search condition. If only the major classification of the retrieved record matches the retrieval condition, and the minor classification of the retrieved record is blank, the fitness is 0.85. If only the major classification of the retrieved record matches the retrieval condition, the fitness is set to 0.5.
[0070]
For example, serial number 8 in FIG. 9 corresponds to the case where (condition 2 ') matches and no specific value is set. Since only the large classification matches the search condition and the small classification is different from the search condition, the fitness is 0.5. The serial number 10 corresponds to (condition 1 ') and corresponds to a case where a specific value is set. Since the major classification matches the search condition and the minor classification is blank, the fitness is 0.9. The serial number 11 corresponds to (condition 3 ') and corresponds to a case where a specific value is set. Since the major classification matches the search condition and the minor classification is blank, the fitness is 0.9. The calculation result of this fitness is shown in the “S230 fitness” column in FIG. 9B.
[0071]
(Step S240)
The fitness is calculated based on the relationship between the appearance positions of words. When there are multiple search conditions, the closer the sentence position of the matched record is, the higher the score is given. If the sentence position of the record is the same, the fitness is set to 1. If the sentence position is different among multiple records, the value α with the smallest sentence position difference (minimum distance) is calculated for each matched record.
Goodness of fit = 1-0.1α
The fitness is calculated as In FIG. 9, since the serial number 9 has the smallest difference between the serial number 10 and the sentence position of 1 (= 3-2), the fitness is 0.9 (= 1−0.1 × (3-2) ) The calculation result of this fitness is shown in the “S240 fitness” column in FIG. 9B.
[0072]
(Step S250)
For each record, the two goodnesses calculated in steps S230 and S240
β × (goodness determined in step S230) + (1−β) × (goodness determined in step S240)
And calculate the grand total. In FIG. 9, when β = 0.5,
Serial number 8 is 0.5 × 0.5 + 0.5 × 0.7 = 0.6
Serial number 9 is 0.5 × 0.5 + 0.5 × 0.9 = 0.7
Serial number 10 is 0.5 × 0.9 + 0.5 × 0.9 = 0.9
Serial number 11 is 0.5 × 0.9 + 0.5 × 0.8 = 0.85
It becomes. Since the serial number 8 and the serial number 9 match the same (condition 2 '), only the serial number 9 having a high degree of fitness is totaled. As a result, the fitness of document number 2 is 2.45 (= 0.7 + 0.9 + 0.85). In the case of the search condition of FIG. 8, since there are three conditions, considering that the maximum value of the fitness is 3, the document is relatively suitable for the condition.
[0073]
(Step S260)
The candidate sorting unit 12 sorts using the fitness for each document calculated in step S250.
[0074]
(Step S270)
The display unit 8 outputs the search result. An output example is shown in FIG.
[0075]
(Effects of the first embodiment)
As described above, according to the present embodiment, since the configuration does not have the extraction rule for each field in advance, it is possible to eliminate the process of selecting in advance what field the document is.
[0076]
Further, at the time of extraction, words representing the date, time, place, etc. in the document are not stored in a table format, and the respective position information is stored. At the time of retrieval, the degree of matching with the retrieval condition is calculated using the type of each word and the positional relationship between the words. By arranging and displaying to the user in descending order of the fitness, the user can determine whether the search result can be trusted.
[0077]
Also, in the process of extracting the type of word, it is distinguished whether the date and time is a deadline date or a holding date. In this way, for example, the user can make a search by distinguishing the event date and the deadline date. On the other hand, regardless of the type of word specified by the user as a search condition, the search condition is relaxed rather than the search condition set by the user to search for candidate documents. There can be no leakage.
[0078]
In the present embodiment, the processing for determining the type of word from the document and registering it in the extraction information storage unit 5 (registration processing) is performed by the document input unit 1, extraction unit 2, extraction rule storage unit 3, and document information. This is done by the registration unit 4. Further, a process for searching for a document (search process) is performed by the condition input unit 7, the display unit 8, and the search unit 9. When the extracted information storage unit 5 and the document storage unit 6 are created in advance, the configuration of the information search device 30 shown in FIG. 12 may be adopted. That is, the input unit 7, the display unit 8, and the search unit 9, which are components that perform the search process, and the extracted information storage unit 5 and the document storage unit 6 may be included.
[0079]
(Second Embodiment)
In the first embodiment, a general document search has been described. In the present embodiment, a case will be described in which electronic mail is received via a network such as the Internet, the received electronic mail is sequentially registered, and searched according to a user request.
[0080]
FIG. 13 is an explanatory diagram showing a system configuration of the information search system 200 according to the present embodiment. Compared to the configuration of the first embodiment, a communication unit 13, a communication unit 14, a server 100, a client 110, and a network 120 are added. Server 100 and client 110 are connected to network 120.
[0081]
(Server 100)
As shown in FIG. 13, the server 100 includes a document input unit 1, an extraction unit 2, an extraction rule storage unit 3, a document information registration unit 4, an extraction information storage unit 5, a document storage unit 6, The search unit 9 and the communication unit 13 are included. The search unit 9 includes a candidate selection unit 10, a fitness calculation unit 11, and a candidate alignment unit 12. The server 100 registers mail information for electronic mail received through the network 120. In addition, it receives a search request sent from the client 110 from the user, and sends a search result. The communication unit 13 receives and transmits such information through the network 120. In addition, since each component other than the communication unit 13 is substantially the same as that of the first embodiment, a duplicate description is omitted.
[0082]
(Client 110)
As illustrated in FIG. 13, the client 110 includes a condition input unit 7, a display unit 8, and a communication unit 14. The client 110 is a computer such as a personal computer or a mobile terminal such as a mobile phone. The client 110 accepts user search conditions, connects to the network 120 from the communication unit 14, inquires the server 100, and outputs search results. Note that the components other than the communication unit 14 are substantially the same as those in the first embodiment, and a duplicate description thereof is omitted.
[0083]
(Network 120)
The network 120 may be of any protocol, topology, type of transmission medium, etc. A typical example of the network 120 is the Internet.
[0084]
The document information registration process is executed when the communication unit 13 receives an electronic mail. As in the first embodiment, the processing after step S100 is executed for the received email, so that the email information is registered in the extracted information storage unit 5. The document information search process is executed when the user inputs, for example, the input screen shown in FIG. The input screen of FIG. 8 is displayed using CGI (Common Gateway Interface) or the like.
[0085]
FIG. 14 is a flowchart showing the operation of the information search system 40 according to this embodiment. This will be described below with reference to FIG.
(Step S300)
In the client 110, the condition input unit 7 transmits the input search condition to the communication unit 14.
[0086]
(Step S310)
The communication unit 14 transmits the input search condition to the server 100 via the network 120.
[0087]
(Step S320)
The server 100 receives the search condition by the communication unit 13 and executes the processes after step S200 in the first embodiment.
[0088]
(Step S330)
In the server 100, the communication unit 13 transmits the search result to the client 110 via the network 120.
[0089]
(Step S340)
The display unit 8 outputs the search result.
[0090]
(Effect of the second embodiment)
As described above, according to the present embodiment, the present invention is also applied to a case where an electronic mail is received via a network such as the Internet, the received electronic mail is sequentially registered, and searched according to a user request. it can.
[0091]
(Third embodiment)
In the first embodiment, only the words surrounded by the tags are registered in the extracted information storage unit 5. Therefore, there may be a case where a word that should originally be registered as an event or a place is not registered due to an incomplete extraction rule. In order to deal with such extraction omissions, in this embodiment, in addition to the words surrounded by tags, words such as nouns appearing in the document that cannot be specifically assigned a major classification or minor classification are also registered. To.
[0092]
As shown in FIG. 15, the information search device 50 according to the present embodiment is configured by replacing the extracted information storage unit 5 of the information search device 20 according to the first embodiment with a word information storage unit 15. Has been. In addition to the words surrounded by the tags, the word information storage unit 15 registers words such as nouns that appear in the document, such as no major classification or minor classification. Other constituent elements are substantially the same as the constituent elements of the information retrieval apparatus 20, and a duplicate description is omitted.
[0093]
Next, the operation of the information search device 50 according to this embodiment will be described.
In order to register the noun appearing in the document in the word information storage unit 15, the result of the morphological analysis in step S1030 is used. Changes to FIG. 6 are shown in FIG.
[0094]
First, the process of step S1050 of the first embodiment is changed as follows. (Step S1200)
If the morpheme to be processed is “. (Punctuation mark)”, go to step S1060. If it is a tag other than the <HD> tag (heading tag), the end tag is found, and the process goes to step S1070. If the morpheme is a noun, go to step S1210. Otherwise, the process returns to step S1040. For example, “Yamada (noun)” is registered in the third line of FIG. 3B, and “following (noun)” and “schedule (noun)” are registered in the fifth line.
[0095]
Step S1210 is performed as follows.
(Step S1210)
Data is registered in the word information storage unit 15 with the major classification as “word”. If registered, it will return to step S1040.
[0096]
In addition, the registration destination in step S1100 of the first embodiment is changed to the word information storage unit 15. As a result, the data in the word information storage unit 15 of the document in FIG. 3B is as shown in FIG. As shown in FIG. 17, “words” are added to the major classification, and “everyone”, “Yamada”, “below”, “schedule”, “everyone”, “participation”, “how”, It is registered in the word information storage unit 15 as a noun.
[0097]
(Effect of the third embodiment)
As described above, according to the present embodiment, a search omission is caused by being registered in the word information storage unit 15 as a noun even if it cannot be originally extracted as an event or place due to incomplete extraction rules. Can be eliminated.
[0098]
The preferred embodiments of the information retrieval apparatus and information retrieval system according to the present invention have been described above with reference to the accompanying drawings, but the present invention is not limited to such examples. It will be obvious to those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea described in the claims, and these are naturally within the technical scope of the present invention. It is understood that it belongs.
[0099]
For example, the following application examples can be considered.
(1) The degree of conformity shown in FIG. 10 can be set according to the large classification. Further, the calculation method of steps S240 and S250 is not limited to this.
(2) In step S210 of FIG. 7, a search may be made by partial matching of specific values. In addition, in the table of FIG. 10, the degree of suitability when the specific values partially match may be added to “when there is a specific value in the search condition”.
(3) Major classification and minor classification are not limited to those mentioned in the above embodiment. For example, a large classification such as a person name or an organization name is possible.
(4) The candidate sorting unit 12 does not necessarily need to sort in the order of suitability. Sorted in order from the date closest to the current date, the degree of fitness may be displayed when the list is displayed.
(5) Voice input may be performed instead of the input screen as shown in FIG.
(6) Since the sentence number is incremented by 1 for each line in step S1020 of FIG. 6, the sentence number cannot be calculated correctly when there is a line break in the middle of one sentence. Therefore, as pre-processing in step S100, processing may be performed so that line breaks do not occur in the middle of one sentence.
(7) With respect to the date and time conditions shown in FIG. 8, the candidate documents may be searched by expanding to a range of one week before and after the specified date and time. Also, the input method of FIG. 8 may be configured to allow the period to be input.
(8) The storage target of the document storage unit 6 may not be the document itself, but may be, for example, information (for example, URL) indicating the storage location of the document.
[0100]
【The invention's effect】
As described above, according to the present invention, it is possible to eliminate the process of selecting in advance what field the document is in by having a configuration that does not have an extraction rule for each field in advance.
[0101]
Further, at the time of extraction, words representing the date, time, place, etc. in the document are not stored in a table format, and the respective position information is stored. At the time of retrieval, the degree of matching with the retrieval condition is calculated using the type of each word and the positional relationship between the words. By arranging and displaying to the user in descending order of the fitness, the user can determine whether the search result can be trusted.
[0102]
Also, in the process of extracting the type of word, it is distinguished whether the date and time is a deadline date or a holding date. In this way, for example, the user can make a search by distinguishing the event date and the deadline date. On the other hand, regardless of the type of word specified by the user as a search condition, the search condition is relaxed rather than the search condition set by the user to search for candidate documents. There can be no leakage.
[0103]
The present invention can also be applied to a case where electronic mail is received via a network such as the Internet, the received electronic mail is sequentially registered, and searched according to a user request.
[0104]
In addition, even if it cannot be extracted as an event or place due to incomplete extraction rules, it is possible to eliminate omissions by registering it as a noun in the word information storage unit.
[Brief description of the drawings]
FIG. 1 is an explanatory diagram illustrating a configuration of an information search device according to a first embodiment;
FIG. 2 is an explanatory diagram showing data in an extraction rule storage unit;
FIG. 3 is an explanatory diagram illustrating an example of a document extraction result;
FIG. 4 is an explanatory diagram showing data in an extraction information storage unit;
FIG. 5 is a flowchart showing an operation of a registration process in the first embodiment.
6 is a flowchart showing details of step S130 in FIG. 5. FIG.
FIG. 7 is a flowchart showing an operation of search processing in the first embodiment.
FIG. 8 is an explanatory diagram showing an example of a search condition input screen.
FIG. 9 is an explanatory diagram showing data in an extraction operation storage unit;
FIG. 10 is an explanatory diagram showing a set value of fitness.
FIG. 11 is an explanatory diagram illustrating an example of search result output;
FIG. 12 is an explanatory diagram illustrating another configuration of the information search device according to the first embodiment;
FIG. 13 is an explanatory diagram showing a configuration of an information search system according to a second embodiment.
FIG. 14 is a flowchart showing the operation of the information search system in the second embodiment.
FIG. 15 is an explanatory diagram illustrating a configuration of an information search device according to a third embodiment;
FIG. 16 is a flowchart showing details of step S130 in FIG. 5;
FIG. 17 is an explanatory diagram showing data in a word information storage unit;
[Explanation of symbols]
1 Document input part
2 Extraction unit
3 Extraction rule storage
4 Document Information Registration Department
5 Extracted information storage unit
6 Document storage
7 Condition input part
8 Display section
9 Search part
10 Candidate selection section
11 Conformity calculator
12 Candidate alignment part
13 Communication Department
14 Communication Department
15 Word information storage
20 Information retrieval device
30 Information retrieval device
40 Information retrieval system
50 Information retrieval device
100 servers
110 clients
120 network

Claims (15)

文書を検索する情報検索装置において,
文書を記憶する文書記憶部と,
前記文書を検索するための情報として,前記文書中の文字列をその分類ごとに格納する抽出情報記憶部と,
文字列及び前記分類が入力されうる条件入力部と,
前記条件入力部に入力された文字列を検索条件として前記文書記憶部から文書を検索して候補文書を選択する候補選択部,及び,前記選択された候補文書と,前記条件入力部に入力された分類を利用して適合度を計算する適合度計算部を含む検索部と,
を備え,
前記適合度計算部は,前記候補文書の中で,前記分類が一致する候補文書に第1の適合度を付与し,前記分類が一致しない候補文書に前記第1の適合度よりも低い適合度を付与することを特徴とする,情報検索装置。
In an information retrieval device for retrieving a document,
A document storage unit for storing documents;
As information for searching the document, an extraction information storage unit that stores character strings in the document for each classification;
A condition input section in which a character string and the classification can be input;
A candidate selection unit that selects a candidate document by searching a document from the document storage unit using a character string input to the condition input unit as a search condition , and the selected candidate document and the condition input unit A search unit including a goodness-of-fit calculation unit for calculating goodness of fit using the classified classification ;
With
The fitness level calculation unit assigns a first fitness level to candidate documents with the same classification among the candidate documents, and a fitness level lower than the first fitness level for a candidate document with the classifications not matching. An information retrieval device characterized by providing
前記候補選択部は,前記条件入力部に文字列が入力されず,前記分類のみが入力された場合に,当該分類を検索条件として前記候補文書を選択し,
前記適合度計算部は,前記条件入力部に文字列が入力されず,前記分類のみが入力された場合に,前記候補選択部により選択された候補文書に前記第1の適合度よりも低い適合度を付与することを特徴とする,請求項1に記載の情報検索装置。
The candidate selection unit selects the candidate document using the classification as a search condition when only the classification is input without inputting a character string into the condition input unit,
The relevance level calculation unit applies a lower relevance to the candidate document selected by the candidate selection unit than the first relevance level when no character string is input to the condition input unit and only the classification is input. The information search device according to claim 1, wherein a degree is given .
前記分類は,少なくとも大分類と小分類とに分けられており,
前記適合度計算部は,前記選択された候補文書と前記条件入力部に入力された前記大分類及び小分類を利用し,前記候補文書の中で,前記大分類が一致し,かつ,前記小分類が一致する候補文書に第2の適合度を付与し,前記大分類のみが一致する候補文書に前記第2の適合度よりも低い適合度を付与することを特徴とする,請求項に記載の情報検索装置。
The classification is divided into at least a major classification and a minor classification,
The fitness calculation unit uses the selected candidate document and the major classification and minor classification input to the condition input unit, and the major classification matches in the candidate document , and the minor classification classification the second fit was applied to the candidate documents that match, the only major category is characterized by imparting a lower fitness than the second adaptation degree to the candidate documents that match, to claim 1 The information retrieval device described.
前記分類は,少なくとも大分類と小分類とに分けられており,
前記候補選択部は,前記条件入力部に文字列が入力されず,前記大分類と小分類とが入力された場合に,前記大分類を検索条件として前記候補文書を選択し,
前記適合度計算部は,前記選択された候補文書と前記条件入力部に入力された前記小分類を利用し,前記候補文書の中で,前記小分類が一致する候補文書に第3の適合度を付与し,前記小分類が一致しない候補文書に前記第3の適合度より低い適合度を付与することを特徴とする,請求項に記載の情報検索装置。
The classification is divided into at least a major classification and a minor classification,
The candidate selection unit selects the candidate document by using the major classification as a search condition when a character string is not input to the condition input unit and the major classification and minor classification are input .
The relevance calculation unit uses the selected candidate document and the small classification input to the condition input unit, and among the candidate documents, a third relevance degree is applied to a candidate document that matches the small classification. the grant, characterized in that said imparting less fit than the third adaptation degree to the candidate document the small classification do not coincide, the information retrieval apparatus according to claim 1.
前記文書中に含まれる所定の文字列を抽出する抽出部をさらに備え,
前記抽出部は,前記文書中に日付情報が含まれる場合に,当該日付情報と所定の文字列との間の出現位置関係に基づいて前記日付情報を開催日又は締切日のいずれかに分類して前記抽出情報記憶部に格納することを特徴とする,請求項1〜4のいずれかに記載の情報検索装置。
An extraction unit for extracting a predetermined character string included in the document;
When the date information is included in the document, the extraction unit classifies the date information as either an event date or a deadline date based on an appearance position relationship between the date information and a predetermined character string. The information retrieval device according to claim 1, wherein the information retrieval device is stored in the extracted information storage unit.
前記抽出情報記憶部における文字列の分類は,前記抽出規則記憶部に記憶されている抽出規則に応じて定められる大分類と,該大分類を細分化した小分類とからなることを特徴とする,請求項1〜5のいずれかに記載の情報検索装置。  The character string classification in the extraction information storage unit is composed of a large classification determined according to the extraction rules stored in the extraction rule storage unit and a small classification obtained by subdividing the large classification The information search device according to any one of claims 1 to 5. 前記大分類は,さらに,前記抽出規則記憶部に格納されている抽出規則とは無関係に,前記抽出情報記憶部に格納された文書中の名詞を登録するための分類を持つことを特徴とする,請求項3,4,6のいずれかに記載の情報検索装置。  The major classification further has a classification for registering a noun in the document stored in the extraction information storage unit regardless of the extraction rule stored in the extraction rule storage unit. An information retrieval device according to any one of claims 3, 4 and 6. 文書を検索する情報検索システムにおいて,
ネットワークで接続されたサーバ部と端末部とを有し,
前記サーバ部は,
前記端末部との間で,当該端末部の条件入力部に入力された文字列及び分類,および検索結果を送受信する通信部と,
文書を記憶する文書記憶部と,
前記文書を検索するための情報として,前記文書中の文字列をその分類ごとに格納する抽出情報記憶部と,
前記端末部の条件入力部に入力された文字列を検索条件として前記文書記憶部から文書を検索して候補文書を選択する候補選択部,及び,前記選択された候補文書と,前記分類を利用して適合度を計算する適合度計算部を含む検索部と,
を備え,
前記端末部は,
文字列及び前記分類が入力されうる条件入力部と,
前記条件入力部に入力された文字列及び分類,および検索結果を送受信する通信部と,
を備え,
前記適合度計算部は,前記候補文書の中で,前記分類が一致する候補文書に第1の適合度を付与し,前記分類が一致しない候補文書に前記第1の適合度よりも低い適合度を付与することを特徴とする,情報検索システム。
In an information retrieval system that retrieves documents,
A server unit and a terminal unit connected via a network;
The server part
A communication unit that transmits and receives a character string and classification input to the condition input unit of the terminal unit and a search result with the terminal unit ;
A document storage unit for storing documents;
As information for searching the document, an extraction information storage unit that stores character strings in the document for each classification;
A candidate selection unit that searches a document from the document storage unit and selects a candidate document by using a character string input to the condition input unit of the terminal unit as a search condition, and uses the selected candidate document and the classification A search unit including a fitness calculation unit that calculates the fitness by
With
The terminal part is
A condition input section in which a character string and the classification can be input;
A communication unit that transmits and receives a character string and classification input to the condition input unit, and a search result;
With
The fitness level calculation unit assigns a first fitness level to candidate documents with the same classification among the candidate documents, and a fitness level lower than the first fitness level for a candidate document with the classifications not matching. An information retrieval system characterized by providing
前記文書は,前記ネットワークを介してやりとりされる電子メールであることを特徴とする,請求項8に記載の情報検索システム。  9. The information retrieval system according to claim 8, wherein the document is an electronic mail exchanged via the network. 前記候補選択部は,前記条件入力部に文字列が入力されず,前記分類のみが入力された場合に,当該分類を検索条件として前記候補文書を選択し,
前記適合度計算部は,前記条件入力部に文字列が入力されず,前記分類のみが入力された場合に,前記候補選択部により選択された候補文書に前記第1の適合度よりも低い適合度を付与することを特徴とする,請求項8又は9に記載の情報検索システム。
The candidate selection unit selects the candidate document using the classification as a search condition when only the classification is input without inputting a character string into the condition input unit,
The relevance level calculation unit applies a lower relevance to the candidate document selected by the candidate selection unit than the first relevance level when no character string is input to the condition input unit and only the classification is input. The information search system according to claim 8 or 9, wherein a degree is given .
前記分類は,少なくとも大分類と小分類とに分けられており,
前記適合度計算部は,前記選択された候補文書と前記条件入力部に入力された前記大分類及び小分類を利用し,前記候補文書の中で,前記大分類が一致し,かつ,前記小分類が一致する候補文書に第2の適合度を付与し,前記大分類のみが一致する候補文書に前記第2の適合度よりも低い適合度を付与することを特徴とする,請求項8又は9に記載の情報検索システム。
The classification is divided into at least a major classification and a minor classification,
The fitness calculation unit uses the selected candidate document and the major classification and minor classification input to the condition input unit, and the major classification matches in the candidate document , and the minor classification classification the second fit was applied to the candidate documents that match, the only major category is characterized by imparting a lower fitness than the second adaptation degree to the candidate documents that match, claim 8 or 9. The information search system according to 9 .
前記分類は,少なくとも大分類と小分類とに分けられており,
前記候補選択部は,前記条件入力部に文字列が入力されず,前記大分類と小分類とが入力された場合に,前記大分類を検索条件として前記候補文書を選択し,
前記適合度計算部は,前記選択された候補文書と前記条件入力部に入力された前記小分類を利用し,前記候補文書の中で,前記小分類が一致する候補文書に第3の適合度を付与し,前記小分類が一致しない候補文書に前記第3の適合度よりも低い適合度を付与することを特徴とする,請求項8又は9に記載の情報検索システム。
The classification is divided into at least a major classification and a minor classification,
The candidate selection unit selects the candidate document by using the major classification as a search condition when a character string is not input to the condition input unit and the major classification and minor classification are input .
The relevance calculation unit uses the selected candidate document and the small classification input to the condition input unit, and among the candidate documents, a third relevance degree is applied to a candidate document that matches the small classification. The information retrieval system according to claim 8 , wherein a fitness level lower than the third fitness level is given to a candidate document that does not match the small classification .
前記文書中に含まれる所定の文字列を抽出する抽出部をさらに備え,
前記抽出部は,前記文書中に日付情報が含まれる場合に,当該日付情報と所定の文字列との間の出現位置関係に基づいて前記日付情報を開催日又は締切日のいずれかに分類して前記抽出情報記憶部に格納することを特徴とする,請求項8〜12のいずれかに記載の情報検索システム。
An extraction unit for extracting a predetermined character string included in the document;
When the date information is included in the document, the extraction unit classifies the date information as either an event date or a deadline date based on an appearance position relationship between the date information and a predetermined character string. The information search system according to claim 8, wherein the information search system is stored in the extracted information storage unit.
前記抽出情報記憶部における文字列の分類は,前記抽出規則記憶部に記憶されている抽出規則に応じて定められる大分類と,該大分類を細分化した小分類とからなることを特徴とする,請求項8〜13のいずれかに記載の情報検索システム。  The character string classification in the extraction information storage unit is composed of a large classification determined according to the extraction rules stored in the extraction rule storage unit and a small classification obtained by subdividing the large classification An information retrieval system according to any one of claims 8 to 13. 前記大分類は,さらに,前記抽出規則記憶部に格納されている抽出規則とは無関係に,前記抽出情報記憶部に格納された文書中の名詞を登録するための分類を持つことを特徴とする,請求項11,12,14のいずれかに記載の情報検索システム。  The major classification further has a classification for registering a noun in the document stored in the extraction information storage unit regardless of the extraction rule stored in the extraction rule storage unit. 15. An information retrieval system according to any one of claims 11, 12, and 14.
JP2002329974A 2002-11-13 2002-11-13 Information search device and information search system Expired - Fee Related JP4114462B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002329974A JP4114462B2 (en) 2002-11-13 2002-11-13 Information search device and information search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002329974A JP4114462B2 (en) 2002-11-13 2002-11-13 Information search device and information search system

Publications (2)

Publication Number Publication Date
JP2004164332A JP2004164332A (en) 2004-06-10
JP4114462B2 true JP4114462B2 (en) 2008-07-09

Family

ID=32807816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002329974A Expired - Fee Related JP4114462B2 (en) 2002-11-13 2002-11-13 Information search device and information search system

Country Status (1)

Country Link
JP (1) JP4114462B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4309818B2 (en) * 2004-07-15 2009-08-05 株式会社東芝 Structured document management device, search device, storage method, search method, and program
JP5362674B2 (en) * 2010-10-13 2013-12-11 日本電信電話株式会社 Document search apparatus, method, and program

Also Published As

Publication number Publication date
JP2004164332A (en) 2004-06-10

Similar Documents

Publication Publication Date Title
US7065483B2 (en) Computer method and apparatus for extracting data from web pages
JP5252725B2 (en) System, method, and software for hyperlinking names
US7899871B1 (en) Methods and systems for e-mail topic classification
US7657603B1 (en) Methods and systems of electronic message derivation
US7349896B2 (en) Query routing
KR101171680B1 (en) Searching messages in a conversation-based email system
US7272597B2 (en) Domain expert search
US6662178B2 (en) Apparatus for and method of searching and organizing intellectual property information utilizing an IP thesaurus
US20040249796A1 (en) Query classification
US20040249808A1 (en) Query expansion using query logs
US20130046782A1 (en) Method and system to provide subsequent history field for intellectual property document
US20070027672A1 (en) Computer method and apparatus for extracting data from web pages
US20060078862A1 (en) Answer support system, answer support apparatus, and answer support program
US20070136280A1 (en) Factoid-based searching
US20020194162A1 (en) Method and system for expanding search criteria for retrieving information items
US20040111386A1 (en) Knowledge neighborhoods
JPH07295994A (en) Information retrieval device
JP4114462B2 (en) Information search device and information search system
JP4557513B2 (en) Information search apparatus, information search method and program
US20040117357A1 (en) Method, system and program product for identifying similar user profiles in a collection
KR20180006518A (en) Automatically writing service system for sales material kit
JP2002215642A (en) Feedback type internet retrieval method, and system and program recording medium for carrying out the method
Kienreich et al. Plagiarism detection in large sets of press agency news articles
JP2002312389A (en) Information retrieving device and information retrieving method
JP2005157547A (en) Similar article extracting method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080407

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees