JP3562243B2 - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP3562243B2
JP3562243B2 JP19812097A JP19812097A JP3562243B2 JP 3562243 B2 JP3562243 B2 JP 3562243B2 JP 19812097 A JP19812097 A JP 19812097A JP 19812097 A JP19812097 A JP 19812097A JP 3562243 B2 JP3562243 B2 JP 3562243B2
Authority
JP
Japan
Prior art keywords
document
occurrence
word
level
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19812097A
Other languages
English (en)
Other versions
JPH1139337A (ja
Inventor
昌子 野本
直彦 野口
祐司 菅野
光弘 佐藤
光昭 稲葉
貴雄 福重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP19812097A priority Critical patent/JP3562243B2/ja
Publication of JPH1139337A publication Critical patent/JPH1139337A/ja
Application granted granted Critical
Publication of JP3562243B2 publication Critical patent/JP3562243B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、電子化された文書情報から、検索意図に適合する文書を検索する文書検索装置に関する。
【0002】
【従来の技術】
従来、単語および共起情報を利用して文書の検索をおこなう方法としては、例えば特開平7−56948号公報のように利用者が指定したキーワードの共起語を共起データベースから検索し、キーワードと、利用者が指定した共起語を検索語として文書の検索をおこなう方法が提案されている。
【0003】
図23は従来の文書検索装置の構成を示しており、キーワード指定部、共起語検索部、共起データベース、検索語指定部、テキスト検索部、テキストデータベース、テキスト表示部から構成されている。
【0004】
【発明が解決しようとする課題】
しかしながら、前記の文書検索装置においては、キーワードと利用者の選択した共起語が、検索結果の文書中で実際に共起関係として出現しているとは限らず、少なくとも一方の語が出現している文書ならば無条件に検索される。
【0005】
したがって、この方法では、検索条件を共起語により拡張し、検索もれを少なくするという効果がある一方で、不適切な文書が検索され、検索結果の精度を落とす可能性も高い。
【0006】
本発明は、上述した事情に鑑みてなされたもので、検索対象の文書中での単語および共起の出現傾向に注目し、あらかじめ文書から単語や共起とともに出現傾向に関する属性も抽出しておき、利用者から検索条件が指定された際に、各文書中での単語や共起の出現傾向を考慮して文書の検索をおこない、さらに、文書のランキングにおける単語や共起の影響力を利用者に提示することで、検索条件として指定された単語や共起の有効性を示し、より検索意図に近い文書を的確に検索することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するために、本発明は検索条件から抽出した各単語および共起について、全文書中でのランキングにおける平均的な影響力を算出し、この値をもとに定めた単語および共起の重みの初期値を利用者に提示し、提示された重みの初期値を参照して、利用者が単語および共起の重みの設定をおこなえるようにしたものである。
【0010】
これにより、利用者は検索条件中の単語および共起の、全文書中でのランキングにおける平均的な影響力を検索前に知り、この影響力を参考にして重みを設定してから、文書の検索をおこなうことができるという効果が得られる。
【0011】
また、本発明は第2に、検索条件から抽出した各単語および共起について、検索結果の文書全体でのランキングにおける影響力を算出して、利用者に提示するようにしたものである。
【0012】
これにより、利用者は検索条件中の単語および共起の、前回の検索で、実際に検索された文書中でのランキングにおける影響力を確認することができるという効果が得られる。
【0013】
また、本発明は第3に、検索条件から抽出した各単語および共起について、検索結果の文書全体でのランキングにおける影響力と、検索結果の文書のうち、利用者が指定した特定の文書における影響力を比較し、これらの比較結果を利用者に提示するようにしたものである。
【0014】
これにより、利用者は検索条件中の各単語および共起が、検索された文書のうち、特に利用者の指定した文書のランキングで大きな影響力をもち、利用者の指定した文書を特徴付けるものであったかどうかを確認することができる。
【0021】
以下、本発明の実施の形態について、図を用いて説明する。
【0022】
(実施の形態1)
図1は本発明の文書検索装置の機能構成を示すブロック図の例である。図1において11は文書格納手段、12は単語抽出手段、13は共起情報抽出手段、14は単語頻度算出手段、15は共起頻度算出手段、16は単語頻度格納手段、17は共起頻度格納手段、18は入出力制御手段、19は入力解析手段、20は利用者要求処理手段、21は単語照合手段、22は共起情報照合手段、23は文書順位決定手段を表す。
【0023】
上記のように構成された文書検索装置について、以下、その動作の一例を説明する。
【0024】
まず、文書格納手段11に格納された文書について、単語抽出手段12が各文書を解析して単語を切り出し、あらかじめ作成した不要な単語のリストと照合し、不要な単語を除いた残りの単語について、当該文書内での出現位置の重要度を、予め設定された情報に基づき判定し、出現した文書を識別するための文書IDと、出現位置の重要度を表す出現位置レベルとともに抽出する。
【0025】
なお、各文書から切り出された単語のうち不要な単語は、助詞・記号等の品詞に関する情報により判別してもよい。
【0026】
一方、共起情報抽出手段13は、文書格納手段11に格納された各文書を解析して共起を切り出し、あらかじめ作成した不要な共起のリストと照合し、不要な共起を除いた残りの共起について、当該文書内での出現位置の重要度と共起する単語間の統語的関係の強さを予め設定された情報に基づき判定し、共起する単語と出現した文書を識別するための文書IDと、出現位置の重要度を表す出現位置レベル属性と、共起する単語間の統語的関係の強さを表す共起レベル属性とを共起情報として抽出する。
【0027】
図3に特許明細書を例とした場合の単語および共起の文書中の出現位置レベル属性の設定の一例、図4に共起の共起レベル属性の設定の一例を示す。
【0028】
次に、単語頻度算出手段14が、抽出された各単語の各文書内および全文書中での出現位置レベル毎の出現傾向を算出し、単語頻度格納手段16に格納し、一方、共起頻度算出手段15は、抽出された各共起の各文書内および全文書中での出現位置レベル毎の出現傾向を算出し、共起頻度格納手段17に格納する。
【0029】
図5に単語頻度格納手段16に格納されたデータの例、図6に共起頻度格納手段17に格納されたデータの例を示す。
【0030】
図5の 語:「文書」において、”分布 250/1000”は、文書格納手段に格納されている全文書1000件に対し、単語「文書」が出現した文書が250件あることを示し、”位置レベル1 総出現頻度 50”は、全文書を通し、出現位置レベル1(例えば、図3の設定では「発明の名称」)に「文書」が出現した頻度が50回であることを示し、”文書0001 位置レベル1 頻度1”は、文書IDが0001の文書において、出現位置レベル1に「文書」が出現した頻度が1回であることを示す。
【0031】
また、図6の”共起:文書−検索”において、”分布 175/1000”は文書格納手段に格納されている全文書1000件に対し、共起”文書−検索”が同一文書内で出現した文書が175件であることを示し、”位置レベル1 共起レベル1 総出現頻度 20”は、全文書を通し、出現位置レベル1(例えば、図3の設定では「発明の名称」)に共起”文書−検索”が共起レベル1(図4の設定では、名詞連続として、または格関係として)出現した頻度が20回であることを示し、”文書0001 位置レベル1 共起レベル1 頻度1”は、文書IDが0001の文書において、出現位置レベル1に共起レベル1で”文書−検索”が出現した頻度が1回であることを示している。
【0032】
さて、利用者から入出力制御手段18を通じて検索条件が指定されると、入力解析手段19が検索条件を解析して単語を切り出し、あらかじめ作成した不要な単語のリストと照合し、不要語を除いた残りの単語と、それらの単語のうち特定の共起関係をもつ単語からなる共起を、入出力制御手段18を通じて利用者に提示する。
【0033】
図7に利用者の指定した検索条件と、検索条件から抽出した単語のうち不要語を除いた単語、これらの単語のうち図4に示した共起レベル1、2、3のいずれかの共起関係をもつ単語対からなる共起の例を示す。
【0034】
次に、利用者は、提示された各単語について、入出力制御手段18および利用者要求処理手段20を介して、単語の重みと、単語の出現位置レベルの重みを指定する。
【0035】
図8に利用者の指定した単語の重みおよび単語の出現位置レベルの重みの例を示す。
【0036】
単語照合手段21は、利用者から指定された単語の重みおよび単語の出現位置レベルの重みをもとに、検索条件から抽出された各単語と、単語頻度格納手段16に格納された各文書中の単語を照合し、各単語について得点付けをおこなう。
【0037】
以下、単語の得点付け方法の一例を説明する。
今、仮に、検索条件から抽出した単語wの文書dにおける評価値E(d,w)を以下の式1で求めることとする。
【0038】
式1:
E(d,w)= Σ (wwei(w)・pwei(pl)・wfreq(d,pl,w)・N/dfreq(S,w))
ただし、wwei(w) :単語wの重み
pwei(pl) :出現位置レベルplの重み
wfreq(d,pl,w):文書dの出現位置レベルplにおける単語wの出現頻度
N :全文書数
dfreq(S,w):全文書集合Sにおける単語wの出現文書数
図8のように単語「文書」の重みが5、単語「検索」の重みが5、単語「方法」の重みが0、出現位置レベル1、2、3の重みが各々5、3、1に設定されている場合、図5に示した文書0001および文書1000を例にとって、上記の式1による単語に関する得点の計算方法を説明する。
【0039】
Figure 0003562243
次に、利用者は、提示された各共起について、前記入出力制御手段18および利用者要求処理手段20を介して、共起の重みと、共起の出現位置レベルの重みおよび共起レベルの重みを指定する。
【0040】
図9に利用者の指定した共起の重みおよび共起の出現位置レベルの重みおよび共起レベルの重みの例を示す。
【0041】
共起情報照合手段22は、利用者から指定された各共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みをもとに、検索条件から抽出された共起と、共起頻度格納手段17に文書毎に格納された共起情報を照合し、共起の得点付けをおこなう。
【0042】
以下、共起の得点付けの一例を説明する。
今、仮に、検索条件から抽出した共起cの文書dにおける評価値E(d,c)を以下の式2で求めることとする。
【0043】
式2:
E(d,c)= Σ (cwei(c)・plwei(pl)・clwei(cl)・cfreq(d,pl,cl,c)・N/dfreq(S,c))
ただし、cwei(c) :共起cの重み
plwei(pl):出現位置レベルplの重み
clwei(cl):共起レベルclの重み
cfreq(d,pl,cl,c):文書dの出現位置レベルplかつ共起レベルclにおける共起cの出現頻度
N :全文書数
dfreq(S,c):
全文書集合Sにおける共起cの出現文書数
図9のように共起「文書−検索」の重みが10、共起「文書−方法」の重みが0、共起「検索−方法」の重みが5、出現位置レベル1、2、3の重みが各々5、3、1、共起レベル1、2、3の重みが各々10、5、1に設定されている場合、図6に示した文書0001および文書1000を例にとって、上記の式2による共起に関する得点の計算方法を説明する。
【0044】
Figure 0003562243
Figure 0003562243
Figure 0003562243
次に、文書順位決定手段23が、単語照合手段21による単語の照合結果と共起情報照合手段22による共起情報の照合結果を文書単位で総合し、文書単位の得点付けをおこなって、各文書の順位を決定し、入出力制御手段18を通じて結果を利用者に提示する。
【0045】
今、仮に文書dの得点を、式1によって求めた単語に関する得点と式2によって求めた共起に関する得点の和の値により求めることとすると、図5および図6に示した文書0001と文書1000の得点は以下のようになる。
【0046】
文書0001の得点は、 4150+25435=29585
文書1000の得点は、 3850+10900=14750
よって、これらの文書のランキングは、1位が文書0001,2位が文書1000となる。
【0047】
以上のように、本発明によれば、文書中に含まれる各単語を、出現した文書を識別する文書IDと、文書内の出現位置の重要度を表す出現位置レベルなる属性とともに抽出し、各単語の各文書内および全文書中での出現位置レベル毎の出現傾向をあらかじめ格納しておくとともに、文書中に含まれる各共起について、共起関係にある単語と、出現した文書を識別する文書IDと、文書内の出現位置の重要度を表す出現位置レベルなる属性、および共起する単語間の統合的関係の強さを表す共起レベルなる属性とを共起情報として抽出し、各共起の各文書内および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向をあらかじめ格納しておき、利用者が検索条件中の単語や共起に重みを付けるだけでなく、さらに、単語の出現位置レベル属性、共起の出現位置レベル属性および共起レベル属性に重みを付けて、検索対象の文書中の単語および共起情報との照合をおこなえるようにしたことにより、利用者は実際の文書中での単語や共起の現れ方についてきめ細かな指定が可能となり、結果としてより検索意図に近い文書を検索できる。
【0048】
(実施の形態2)
次に、本発明の実施の形態2について説明する。構成は実施の形態1と同様、図1の本発明の文書検索装置の機能構成を示すブロック図の例に示した通りである。
【0049】
上記のように構成された文書検索装置について、以下、その動作の一例を説明する。
【0050】
文書格納手段11に格納された各文書から単語および共起情報を抽出し、単語頻度格納手段16および共起頻度格納手段17にデータを格納するまでの動作と、入力解析手段19が検索条件から単語および共起を抽出するまでの動作は、実施の形態1と同様である。
【0051】
次に、単語照合手段21が、検索条件から抽出した単語について、前記単語頻度格納手段16に格納された各単語の全文書中での出現傾向をもとに、文書のランキングにおける平均的な影響力を算出し、この値をもとに定めた重みの初期値を、前記入出力制御手段18を通じて利用者に提示する。
【0052】
実際のランキングにおける単語の影響力は、利用者の指定する重みと統計的な情報に従って算出される。利用者の重みの指定が無い場合、各文書のランキングにおける単語の影響力は、一般に統計情報に基づき、例えば、単語の頻度と分布との積として求めることができる。
【0053】
本実施の形態では、文書集合全体に対する単語の影響力を平均的な影響力として求める。
【0054】
以下、検索条件から抽出した単語の、文書集合全体のランキングにおける平均的な影響力の算出方法の一例を説明する。
【0055】
今、仮に文書集合Sのランキングにおける単語wの平均的な影響力Pav(S,w)を以下の式で求めることとする。
【0056】
式3:
Pav(S,w)= (Tfreq(S,w)/dfreq(S,w))・(N/dfreq(S,w))
ただし、
Tfreq(S,w):文書集合Sにおける単語wの総出現頻度
dfreq(S,w):文書集合Sにおける単語wの出現文書数
N :全文書数
検索条件から抽出した図5の単語を例にとって、各単語の平均的な影響力の計算方法を説明する。
【0057】
単語「文書」のランキングにおける平均的な影響力:
(50+400+600)/250 × 1000/250
= 16.8
単語「検索」のランキングにおける平均的な影響力:
(100+1600+2400)/500 ×1000/500
= 16.4
単語「方法」のランキングにおける平均的な影響力:
(500+14000+18000)/1000 ×1000/1000
= 32.5
以上のようにして求めた各単語の文書のランキングにおける平均的な影響力Pav(S,w)を元に重みの初期値を算出する。
【0058】
今、仮に各単語の重みの初期値を、以下の式で求めた値を、小数点以下で四捨五入して求めることとする。
【0059】
式4:
(各単語の重みの初期値)=(各単語の影響力Pav(S,w))/(各単語の影響力Pav(S,w)の総和)×100
検索条件から抽出した図5の単語の重みの初期値を上記の式4により算出した値を図10に示す。
【0060】
利用者は提示された単語と重みの初期値を参照し、前記入出力制御手段18および利用者要求処理手段20を介して、単語の重みを変更したいときには新しい重みの値を指定し、また、単語の出現位置レベルの重みを指定する。
【0061】
図11に利用者の指定した各単語の重みと単語の出現位置レベルの重みの例を示す。
【0062】
単語照合手段21は、利用者の指定した各単語の重みと、単語の出現位置レベルの重みにもとづいて、単語頻度格納手段16に文書毎に格納された単語の照合をおこなう。
【0063】
図11のように単語の重みと単語の出現位置レベルの重みが設定された場合に、前記式1により計算した、文書0001および文書1000の単語に関する得点の合計は、以下のようになる。
【0064】
Figure 0003562243
一方、共起情報照合手段22は、検索条件から抽出した共起について、前記共起頻度格納手段17に格納された各共起の全文書中での出現傾向をもとに、文書のランキングにおける平均的な影響力を算出し、この値をもとに定めた重みの初期値を、前記入出力制御手段18を通じて利用者に提示する。
【0065】
以下、検索条件から抽出した共起の、文書集合全体のランキングにおける平均的な影響力の算出方法の一例を説明する。
【0066】
今、仮に文書集合Sのランキングにおける共起cの平均的な影響力Pav(S,c)を以下の式で求めることとする。
【0067】
式5:
Pav(S,c)= (Tfreq(S,c)/dfreq(S,c))・(N/dfreq(S,c))
ただし、
Tfreq(S,c):文書集合Sにおける共起cの総出現頻度
dfreq(S,c):文書集合Sにおける共起cの出現文書数
N :全文書数
検索条件から抽出した図6の共起を例にとって、各共起の平均的な影響力の計算方法を説明する。
【0068】
共起「文書−検索」のランキングにおける平均的な影響力:
(50+350+550)/175 × 1000/175
= 31.0
共起「文書−方法」のランキングにおける平均的な影響力:
(50+300+350)/225 × 1000/225
= 13.8
共起「検索−方法」のランキングにおける平均的な影響力:
(100+1500+2200)/ 450 ×1000/450
= 18.8
以上のようにして求めた各共起の文書のランキングにおける平均的な影響力Pav(S,c)を元に重みの初期値を算出する。
【0069】
今、仮に各共起の重みの初期値を、以下の式で求めた値を、小数点以下で四捨五入して求めることとする。
【0070】
式6:
(各共起の重みの初期値)=(各共起の影響力Pav(S,c))/(各共起の影響力Pav(S,c)の総和)×100
検索条件から抽出した図6の共起の重みの初期値を上記の式6により算出した値を図12に示す。
【0071】
利用者は提示された共起と重みの初期値を参照し、前記入出力制御手段18および利用者要求処理手段20を介して、共起の重みを変更したいときには新しい重みの値を指定し、また、共起の出現位置レベルの重み、および、共起レベルの重みを指定する。
【0072】
図13に利用者の指定した各共起の重みと共起の出現位置レベルの重み、および共起レベルの重みの例を示す。
【0073】
共起情報照合手段22は、利用者の指定した各共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みにもとづいて、共起頻度格納手段17に文書毎に格納された共起情報の照合をおこなう。
【0074】
図13のように共起の重みと共起の出現位置レベルの重みおよび共起レベルの重みが設定された場合に、前記式2により計算した、図6に示した文書0001および文書1000の共起に関する得点の合計は、以下のようになる。
【0075】
Figure 0003562243
Figure 0003562243
Figure 0003562243
次に、文書順位決定手段23が、実施の形態1と同様にして、各文書の順位を算出し、入出力制御手段18を通じて利用者に提示する。
【0076】
今、仮に文書dの得点を、式1によって求めた単語に関する得点と式2によって求めた共起に関する得点の和の値により求めることとすると、図5および図6に示した文書0001と文書1000の得点は以下のようになる。
【0077】
文書0001の得点は、2910+19581.5=22491.5
文書1000の得点は、2570+12776 =15346
以上のように、本発明によれば、検索条件から抽出した各単語および共起の全文書中での出現傾向をもとに、文書のランキングにおける平均的な影響力を算出し、この値をもとに単語および共起の重みの初期値を利用者に提示するようにしたことにより、利用者は検索条件中の単語および共起の、文書のランキングにおける全文書における平均的な影響度を検索前に知ることができ、この値を参考にして、単語および共起情報の重みを設定することができる。
【0078】
(実施の形態3)
次に、本発明の実施の形態3について説明する。構成は実施の形態1と同様、図1の本発明の文書検索装置の機能構成を示すブロック図の例に示した通りである。
【0079】
上記のように構成された文書検索装置について、以下、その動作を説明する。利用者から指定された条件をもとに文書格納手段11に格納された文書の検索をおこない、文書順位決定手段23が各文書の順位を決定するまでの動作は、実施の形態1と同様である。
【0080】
次に、単語照合手段21は、検索条件から抽出した単語の、検索結果の文書集合におけるランキングへの平均的な影響力を算出し、前記入出力制御手段18を通じて、検索結果とともに、利用者に提示する。
【0081】
本実施の形態では、検索結果の文書集合に対する単語の影響力を平均的な影響力として求める。
【0082】
以下、検索条件から抽出した単語の、検索結果の文書集合のランキングにおける平均的な影響力の算出方法の一例を説明する。
【0083】
今、仮に検索結果の文書集合Oのランキングにおける単語wの平均的な影響力Pav(O,w)を、以下の式により求めることとする。
【0084】
式7:
Pav(O,w)= (Tfreq(O,w)/dfreq(O,w))・(N/dfreq(S,w))
ただし、
Tfreq(O,w):検索結果の文書集合Oでの単語wの総出現頻度
dfreq(O,w):検索結果の文書集合Oでの単語wの出現文書数
dfreq(S,w):単語wの全文書S中での出現文書数
N :全文書数
なお、単語の平均的な影響力の算出には、上記の統計的な情報の他に、利用者からの重みの指定を用いてもよい。
【0085】
検索条件から抽出した図5の単語を例にとって、式7による各単語の平均的な影響力の計算方法を説明する。
【0086】
今、検索結果として図5に示した文書0001,文書1000の2文書が得られたとする。検索結果の文書0001,1000における、検索条件から抽出した単語「文書」「検索」「方法」の平均的な影響力は以下のようになる。
【0087】
単語「文書」の検索結果の文書のランキングにおける平均的な影響力:
((1+20+40)+(0+15+20))/2 ×1000/250
=192
単語「検索」の検索結果の文書のランキングにおける平均的な影響力:
((1+40+80)+(1+50+100))/2 ×1000/500
=272
単語「方法」の検索結果の文書のランキングにおける平均的な影響力:
((1+100+200)+(1+200+400))/2×1000/1000
=451
一方、共起情報照合手段22は、検索条件から抽出した共起の、検索結果の文書集合のランキングにおける平均的な影響力を算出し、前記入出力制御手段18を通じて利用者に提示する。
【0088】
以下、検索条件から抽出した共起の、検索結果の文書集合のランキングにおける平均的な影響力の算出方法の一例を説明する。
【0089】
今、仮に検索結果の文書集合Oのランキングにおける共起cの平均的な影響力Pav(O,c)を以下の式で求めることとする。
【0090】
式8:
Pav(O,c)= (Tfreq(O,c)/dfreq(O,c))・(N/dfreq(S,c))
ただし、
Tfreq(O,c):検索結果の文書集合Oでの共起cの総出現頻度
dfreq(O,c):検索結果の文書集合Oでの共起cの出現文書数
dfreq(S,c):共起cの全文書S中での出現文書数
N :全文書数
なお、共起の平均的な影響力の算出には、上記の統計的な情報の他に、利用者からの重みの指定を用いてもよい。
【0091】
検索条件から抽出した図6の共起情報を例にとって、式8による各共起の平均的な影響力の計算方法を説明する。
【0092】
今、検索結果として図6に示した文書0001,文書1000の2文書が得られたとする。検索条件から抽出した共起「文書−検索」「文書−方法」「検索−方法」の検索結果の文書0001,1000における平均的な影響力は以下のようになる。
【0093】
共起「文書−検索」の検索結果の文書のランキングにおける平均的な影響力:
(1+10+15+0+10+30)/2 ×1000/175
= 188.6
共起「文書−方法」の検索結果の文書のランキングにおける平均的な影響力:
(0+20+40+1+30+40)/2 ×1000/225
= 291.1
共起「検索−方法」の検索結果の文書のランキングにおける平均的な影響力:
(1+20+40+1+20+40)/2 ×1000/450
= 135.6
以上のように、本発明によれば、検索条件から抽出した各単語および共起について、検索結果の文書全体でのランキングにおける影響力を算出して、利用者に提示するようにしたことにより、利用者は検索条件中の単語および共起の、前回の検索で、実際に検索された文書中でのランキングにおける影響力を確認することができる。
【0094】
(実施の形態4)
次に、本発明の実施の形態4について説明する。構成は実施の形態1と同様、図1の本発明の文書検索装置の機能構成を示すブロック図の例に示した通りである。
【0095】
上記のように構成された文書検索装置について、以下、その動作を説明する。利用者から指定された条件をもとに文書格納手段11に格納された文書の検索をおこない、文書順位決定手段23が各文書の順位を決定し、入出力制御手段18を通じて結果を利用者に提示するまでの動作は、実施の形態1と同様である。
【0096】
次に、利用者は、提示された検索結果の文書のうち、入出力制御手段18および利用者要求処理手段20を介して、検索意図に適合する文書を1つまたは複数指定する。
【0097】
次に単語照合手段21が、検索条件から抽出された単語の検索結果の文書全体でのランキングにおける影響力と、利用者が指定した文書でのランキングにおける影響力の比較をおこない、これらの比較結果を、入出力制御手段18を通じて利用者に提示する。
【0098】
検索条件から抽出した単語の、検索結果全体における平均的な影響力は、前記実施の形態3と同様にして算出することとする。
【0099】
以下、検索条件から抽出した単語の、検索結果のうちで利用者が指定した文書における平均的な影響力の算出方法の一例を説明する。
【0100】
今、仮に検索結果の文書のうち利用者が選択した文書集合Uのランキングにおける単語wの平均的な影響力Pav(U,w)を以下の式で求めることとする。
【0101】
式9:
Pav(U,w)= (Tfreq(U,w)/dfreq(U,w))・(N/dfreq(S,w))
ただし、
Tfreq(U,w):検索結果のうち利用者が選択した文書集合Uでの単語wの総出現頻度
dfreq(U,w):検索結果のうち利用者が選択した文書集合Uでの単語wの出現文書数
dfreq(S,w):単語wの全文書S中での出現文書数
N :全文書数
なお、単語の平均的な影響力の算出には、上記の統計的な情報の他に、利用者からの重みの指定を用いてもよい。
【0102】
図5の検索条件から抽出した単語を例にとって、式9による検索結果のうち、利用者が指定した文書における各単語の平均的な影響力の計算方法を説明する。
【0103】
今、検索結果として図5に示した文書0001,文書1000の2文書が得られ、このうち、文書0001が利用者により選択されたとする。
【0104】
利用者に選択された文書0001における、検索条件から抽出した単語「文書」「検索」「方法」の平均的な影響力は以下のようになる。
【0105】
単語「文書」の利用者が選択した文書のランキングにおける平均的な影響力:
(1+20+40)/1 ×1000/250
=244
単語「検索」の利用者が選択した文書のランキングにおける平均的な影響力:
(1+40+80)/1 ×1000/500
=242
単語「方法」の利用者が選択した文書のランキングにおける平均的な影響力:
(1+100+200)/1 ×1000/1000
=301
一方、文書の検索結果全体のランキングにおける単語「文書」「検索」「方法」の平均的な影響力は、前記実施の形態3と同様にして、式7により、
単語「文書」の検索結果の文書のランキングにおける平均的な影響力:
((1+20+40)+(0+15+20))/2 ×1000/250
=192
単語「検索」の検索結果の文書のランキングにおける平均的な影響力:
((1+40+80)+(1+50+100))/2 ×1000/500
=272
単語「方法」の検索結果の文書のランキングにおける平均的な影響力:
((1+100+200)+(1+200+400))/2 ×1000/1000
=451
したがって、検索条件から抽出した単語の、検索結果の文書全体でのランキングにおける影響力と、利用者が指定した文書でのランキングにおける影響力を比較すると、
単語「文書」の影響力:
(検索結果全体) < (利用者が選択した文書)
単語「検索」の影響力:
(検索結果全体) > (利用者が選択した文書)
単語「方法」の影響力:
(検索結果全体) > (利用者が選択した文書)
となり、利用者が選択した文書をより特徴付けているのは、「文書」という単語であることが分かる。
【0106】
一方、共起情報照合手段22においても、同様にして、検索条件から抽出された共起の検索結果の文書全体でのランキングにおける影響力と、利用者が指定した文書でのランキングにおける影響力の比較をおこない、これらの比較結果を、入出力制御手段18を通じて利用者に提示し、利用者は、検索条件から抽出された共起が、選択した文書をより特徴付けているかどうかを確認することができる。
【0107】
以上のように、本発明によれば、検索条件から抽出した各単語および共起について、検索結果の文書全体でのランキングにおける影響力と、検索結果の文書のうち、利用者が指定した特定の文書における影響力を比較し、これらの比較結果を利用者に提示するようにしたことにより、利用者は検索条件中の各単語および共起が、検索された文書のうち、特に利用者の指定した文書のランキングでより大きな影響力をもち、利用者の指定した文書を特徴付けるものであったかどうかを確認することができる。
【0108】
(実施の形態5)
次に、本発明の実施の形態5について説明する。構成は実施の形態1と同様、図1の本発明の文書検索装置の機能構成を示すブロック図の例に示した通りである。
【0109】
上記のように構成された文書検索装置について、以下、その動作を説明する。文書格納手段11に格納された各文書から単語および共起情報を抽出し、単語頻度格納手段16および共起頻度格納手段17にデータを格納するまでの動作と、入力解析手段19が検索条件から単語および共起を抽出し、入出力制御手段18を通じて利用者に提示するまでの動作は、実施の形態1と同様である。
【0110】
次に、利用者は、提示された単語のうち、前記入出力制御手段18および利用者要求処理手段20を介して、関連語句を参照したい単語と、求める関連語句の出現位置レベルの重みおよび共起レベルの重みを指定する。
【0111】
前記共起情報照合手段22が、共起頻度格納手段17に格納された共起のうち、利用者に指定された単語を一方の構成語にもち、検索条件に含まれない単語を他の構成語にもつ共起について、共起情報の出現位置レベル毎かつ共起レベル毎の出現傾向を参照し、利用者の指定した位置情報レベルの重みと共起レベルの重みを勘案して、関連する共起から順にランキングし、関連する共起、およびその構成語で利用者に指定された単語と一致しない語を、関連語句として、入出力制御手段18を通じて、利用者に提示する。
【0112】
今、図7に示された検索条件から抽出した単語のうち、「文書」を利用者が指定したとする。文書集合Sの共起のうち、「文書」を構成語にもち、検索条件から抽出した単語以外をもう一方の構成語にもつ共起の共起情報の例を図14に示す。
【0113】
今、仮に、ある共起cの文書集合Sにおける関連度R(S,c)を以下の式により求めることとする。
【0114】
ここにいう関連度とは、共起cが、その出現位置レベル、共起レベル等を考慮してどれだけ当該文章集合を特徴付けているかを示すものである。
【0115】
式10:
R(S,c)= Σ (pwei(pl)・cwei(cl)・Cfreq(S,pl,cl,c)・N/dfreq(S,c))
ただし、pwei(pl):出現位置レベルplの重み
cwei(cl):共起レベルclの重み
Cfreq(S,pl,cl,c):全文書S中の出現位置レベルplかつ共起レベルclにおける共起cの総出現頻度
N :全文書数
dfreq(S,c):
:共起cの全文書S中での出現文書数
今、仮に、利用者から指定された共起の出現位置レベル1、2、3の重みが各々5、3、1、共起レベルの重みが10,5,1である場合、図14に示した共起の関連度の計算方法を説明する。
【0116】
Figure 0003562243
Figure 0003562243
以上の共起の関連度の計算結果をもとに、利用者に関連語句として提示する共起およびその構成語のランキングの例を図15に示す。
【0117】
次に、利用者は、元の検索条件から抽出された単語および共起、また関連語句として提示された共起およびその構成語について、前記入出力制御手段18および利用者要求処理手段20を通じて、単語の重みと、単語の出現位置レベルの重みと、共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みを指定する。
【0118】
関連語句として、図15の共起およびその構成語が提示された場合に、元の検索条件から抽出された単語および共起情報、また関連語句として提示された共起情報およびその構成語である単語について、利用者が、単語の重みと、単語の出現位置レベルの重みと、共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みを各々指定した例を図16に示す。
【0119】
以下、これらの単語および共起情報の照合、文書のランキングに関する動作は、前記実施の形態1と同様である。
【0120】
以上のように、本発明によれば、検索条件に含まれる単語の関連語句として、全文書中での出現傾向と指定された出現位置レベルの重みと共起レベルの重みを勘案してランキングした共起情報とその構成語を提示し、利用者が、提示された関連語句を参照して、新たに検索条件を指定できるようにしたことにより、利用者は、指定した単語の関連語句を、希望する出現位置や共起レベルをもつものから優先的に求めることができ、これらを参考に新たな検索条件を指定することで、より効果的に検索意図を表現することができる。
【0121】
(実施の形態6)
次に、本発明の実施の形態6について説明する。構成は実施の形態1と同様、図1の本発明の文書検索装置の機能構成を示すブロック図の例に示した通りである。
【0122】
上記のように構成された文書検索装置について、以下、その動作を説明する。文書のランキングをおこない、結果を利用者に提示するまでの動作は実施の形態1と同様である。
【0123】
次に、利用者が、検索結果として提示された文書のうち特定の文書と、元の検索条件から抽出した単語のうち特定の単語と、求める関連語句の出現位置レベルの重みおよび共起レベルの重みを指定すると、当該文書中で、利用者が指定した単語を構成語にもち、検索条件に含まれない単語を他の構成語とする共起について、前記共起情報照合手段22が、共起の出現位置レベル毎かつ共起レベル毎の出現傾向を参照し、利用者の指定した出現位置レベルの重みと、共起レべルの重みを勘案して、関連する共起から順にランキングし、ランキングされた共起、およびその構成語のうち、利用者から指定された単語ではないもの、を関連語句として前記入出力制御手段18を通じて利用者に提示する。
【0124】
今、仮に、共起cの利用者の指定した文書集合Dにおける関連度R(D,c)を以下の式により求めることとする。
【0125】
ここにいう関連度とは、共起cが、その出現位置レベル、共起レベル等を考慮してどれだけ当該文書集合を特徴付けているかを示すものである。
【0126】
式11:
R(D,c)= Σ (wpl(pl)・wcl(cl)・cfreq(d,pl,cl,c)・N/dfreq(S,c))
ただし、wpl(pl):出現位置レベルplの重み
wcl(cl):共起レベルclの重み
cfreq(d,pl,cl,c):利用者の指定した文書集合D中の文書dの出現位置
レベルplかつ共起レベルclにおける共起情報cの出現頻度
N :全文書数
dfreq(S,c):
:共起cの全文書S中での出現文書数
今、仮にランキング結果として、実施の形態1に示したように、1位が文書0001、2位が文書1000であり,これらのうち、文書0001が利用者により選択され、文書0001には図17に示すような共起情報が含まれているとする。
【0127】
さらに、元の検索条件には図5の単語が含まれており、このうち、利用者が関連語句を求める語として「検索」を選択し、また求める関連語句の出現位置レベル1、2、3の重みを各々5、3、1、共起レベル1、2、3の重みを各々10、5、1と指定したとする。
【0128】
文書0001に含まれる共起のうち、利用者の指定した単語「検索」を構成語にもち、検索条件に含まれない単語を他の構成語とする共起の、文書0001における関連度は、前記式11により、以下のようにして求められる。
【0129】
Figure 0003562243
Figure 0003562243
以上の共起の関連度の計算結果をもとに、利用者に関連語句として提示する共起のランキングおよびその構成語で利用者が指定した語以外のものの例を図18に示す。
【0130】
利用者は、入出力制御手段18を通じて、元の検索条件と、関連語句として提示された単語および共起を参照し、入出力制御手段18および利用者要求処理手段20を介して新たな検索条件を指定する。
【0131】
以上のように、本発明によれば、検索条件に含まれる単語の関連語句として、検索結果のうち特定の文書から、出現傾向と指定された出現位置レベルの重みと共起レベルの重みを勘案してランキングした共起とその構成語を提示し、利用者が、提示された関連語句を参照して、新たに検索条件を指定できるようにしたことにより、利用者は、指定した単語の関連語句を、希望する文書内で、希望する出現位置や共起レベルをもつものから優先的に求めることができ、これらを参考に新たな検索条件を指定することで、より効果的に検索意図を表現することができる。
【0132】
(実施の形態7)
次に、本発明の実施の形態7について説明する。
【0133】
図2は本発明の文書検索装置の機能構成を示すブロック図の一例である。図2において11は文書格納手段、12は単語抽出手段、13は共起情報抽出手段、14は単語頻度算出手段、15は共起頻度算出手段、16は単語頻度格納手段、17は共起頻度格納手段、18は入出力制御手段、19は入力解析手段、20は利用者要求処理手段、21は単語照合手段、22は共起情報照合手段、23は文書順位決定手段、24は文書キーワード抽出装置を表す。
【0134】
上記のように構成された文書検索装置について、以下、その動作を説明する。文書のランキングをおこない、結果を利用者に提示するまでの動作は実施の形態1と同様である。
【0135】
次に、利用者が前記入出力制御手段18および利用者要求処理手段20を通じて、検索結果として提示された文書のうち、特定の文書を指定して、文書キーワードの抽出を要求すると、文書キーワード抽出装置24が、利用者に指定された文書に含まれる単語および共起のうち、当該文書の内容の特徴を表すものを文書キーワードとして抽出し、入出力制御手段18を通じて提示する。
【0136】
今、仮に、文書キーワード抽出装置24が、利用者に指定された文書集合D中の単語や共起について、単語の重み付け手法として一般に知られるtf・idf法を用いた以下の評価関数によって各々評価をおこなうこととする。
【0137】
式12:
E(D,w)= Σ(wfreq(d,w)・N/dfreq(S,w)) ただし、wfreq(d,w):利用者の指定した文書集合D中の文書dにおける単語wの出現頻度
N :全文書数
dfreq(S,w):全文書Sにおける単語wの出現文書数
式13:
E(D,c)= Σ(cfreq(d,c)・N/dfreq(S,c))
ただし、wfreq(d,c):
利用者の指定した文書集合D中の文書dにおける共起cの出現頻度
N :全文書数
dfreq(S,c):全文書Sにおける共起cの出現文書数
なお、文書キーワード抽出装置24の文書キーワードの抽出方法として、ここではtf・idfによる評価法を採用したが、利用者に指定された文書中の単語や共起の出現位置に関する情報、品詞や構文に関する情報、頻度や分布に関する統計情報などを用いてもよい。
【0138】
今、検索結果として図5および図6に示した文書0001、文書1000が提示され、利用者がこのうち文書0001を指定して文書キーワードを求め、上記の式12および式13の評価値により文書キーワード抽出装置24が単語および共起をランキングし、図19に示す単語と図20に示す共起を文書キーワードとして入出力制御手段18を通じて利用者に提示したとする。
【0139】
次に、利用者は、入出力制御手段18および利用者要求処理手段20を介して、文書キーワードとして提示された単語、または共起の構成語と、検索結果として提示された文書のうち特定の文書と、求める関連語句の出現位置レベルの重みと共起レベルの重みを指定して、関連語句の提示を要求する。
【0140】
共起情報照合手段22は、共起頻度格納手段17に格納された共起のうち、利用者が指定した文書に含まれる共起で、利用者に指定された語を構成語にもつ共起のうち、検索条件や文書キーワードに含まれない単語をもう一方の構成語にもつ共起を対象とし、共起頻度格納手段17に格納された出現傾向を参照し、利用者の指定した出現位置レベルの重みと共起レべルの重みを勘案して、利用者の指定した単語または共起情報の構成語と関連する共起から順にランキングし、ランキングされた共起、およびその構成語のうち、利用者に指定された単語でないものを関連語句として前記入出力制御手段18を通じて利用者に提示する。
【0141】
今、仮に、利用者が、図19の単語および図20の共起の構成語のうちの単語「頻度」と、検索結果として提示された文書のうちの文書0001と、関連語句の出現位置レベル1、2、3の重み5、3、1と、共起レベル1、2、3の重み10、5、1を指定して、関連語句の提示を要求したとする。
【0142】
利用者の指定した文書0001に含まれる共起で、単語「頻度」を構成語にち、
検索条件や他の文書キーワードに含まれない単語を一方の構成語にもつものの共起情報の例を図21に示す。
【0143】
今、利用者の指定した文書0001において単語「頻度」を構成語にもつ共起の関連度を前記実施の形態6の式11により求めることとすると、図21の共起の文書0001における関連度は以下のようになる。
【0144】
Figure 0003562243
Figure 0003562243
以上の結果、利用者に関連語句のランキングとして提示する、図21の共起のランキングと共起の構成語の例を、図22に示す。
【0145】
利用者は、入出力制御手段18を通じて、元の検索条件と、文書キーワードと、以上のようにして提示された文書キーワードの関連語句を参照し、入出力制御手段18および利用者要求処理手段20を介して新たな検索条件を指定する。
【0146】
以上のように、本発明によれば、検索結果のうち特定の文書に含まれる単語または共起が文書キーワードとして提示された場合、利用者が、提示された文書キーワードのうちの特定の単語または共起情報の構成語と、特定の文書と、出現位置レベルの重みおよび共起レベルの重みを指定すると、指定された文書中の共起情報を、出現傾向と指定された出現位置レベルと共起レベルをもとに照合し、ランキングした共起とその構成語を関連語句として提示し、利用者が提示された関連語句を参照して、新たな検索条件を指定できるようにしたことにより、利用者は、検索された文書の一部から文書キーワードとして提示された単語や共起についても、その関連語句を、希望する文書内で、希望する出現位置や共起レベルをもつものから優先的に求めることができ、これらを参考に新たな検索条件を指定することで、より効果的に検索意図を表現することができる。
【0148】
【発明の効果】
以上のように、第1の発明では、検索条件から抽出した各単語および共起の全文書中での出現傾向をもとに、文書全体でのランキングにおける平均的な影響力を算出し、この値をもとに単語および共起の重みの初期値を利用者に提示するようにしたことにより、利用者は検索条件中の単語および共起の、文書のランキングにおける全文書における平均的な影響度を検索前に知ることができ、この値を参考にして、単語および共起の重みを設定することができるという有利な効果が得られる。
【0149】
また、第2の発明では、検索条件中の単語および共起の、検索結果の文書全体でのランキングにおける影響力を算出して、利用者に提示するようにしたことにより、利用者は検索条件中の単語および共起の、前回の検索で、実際に検索された文書中でのランキングにおける影響力を確認することができるという有利な効果が得られる。
【0150】
また、第3の発明では、検索条件から抽出した各単語および共起について、検索結果の文書全体でのランキングにおける影響力と、検索結果の文書のうち、利用者が指定した特定の文書における影響力を比較し、これらの比較結果を利用者に提示するようにしたことにより、利用者は検索条件中の各単語および共起が、検索された文書のうち、特に利用者の指定した文書のランキングでより大きな影響力をもち、利用者の指定した文書を特徴付けるものであったかどうかを確認することができるという有利な効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1〜6の実施形態における文書検索装置の機能構成を示すブロッ ク図
【図2】本発明の第7の実施形態における文書検索装置の機能構成を示すブロック図
【図3】本発明の第1の実施形態における単語および共起の文書中の出現位置レ ベル属性の設定の例図
【図4】本発明の第1の実施形態における共起の共起レベル属性の設定の例図
【図5】本発明の第1の実施形態における単語頻度格納手段のデータの例図
【図6】本発明の第1の実施形態における共起頻度格納手段のデータの例図
【図7】本発明の第1の実施形態における検索条件、および検索条件から抽出した単語および共起の例図
【図8】本発明の第1の実施形態における単語の重みおよび単語の出現位置レベルの重みの設定の例図
【図9】本発明の第1の実施形態における共起の重みおよび共起の出現位置レベルの重みおよび共起レベルの重みの設定の例図
【図10】本発明の第2の実施形態における単語の重みの初期値の例図
【図11】本発明の第2の実施形態における単語の重みと単語の出現位置レベルの重みの設定の例図
【図12】本発明の第2の実施形態における共起の重みの初期値の例図
【図13】本発明の第2の実施形態における共起の重みと共起の出現位置レベルの重みと共起レベルの重みの設定の例図
【図14】本発明の第5の実施形態における共起情報の例図
【図15】本発明の第5の実施形態における関連語句のランキングの例図
【図16】本発明の第5の実施形態における単語の重みと、単語の出現位置レベルの重みと、共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みの設定の例図
【図17】本発明の第6の実施形態における文書中の共起情報の例図
【図18】本発明の第6の実施形態における関連語句のランキングの例図
【図19】本発明の第7の実施形態における文書キーワード(単語)の例図
【図20】本発明の第7の実施形態における文書キーワード(共起)の例図
【図21】本発明の第7の実施形態における共起情報の例図
【図22】本発明の第7の実施形態における関連語句のランキングの例図
【図23】従来の文書検索装置の機能構成の一例を示すブロック図
【符号の説明】
11 文書格納手段
12 単語抽出手段
13 共起情報抽出手段
14 単語頻度算出手段
15 共起頻度算出手段
16 単語頻度格納手段
17 共起頻度格納手段
18 入出力制御手段
19 入力解析手段
20 利用者要求処理手段
21 単語照合手段
22 共起情報照合手段
23 文書順位決定手段
24 文書キーワード抽出装置

Claims (4)

  1. 文書を格納する文書格納手段と
    前記文書格納手段に格納された各文書中の単語を、出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性とともに抽出する単語抽出手段と
    前記文書格納手段に格納された各文書中の同一文書内に出現する単語と単語の共起に対し、共起関係にある単語と、共起が出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性、および共起する単語間の統語的関係を表す共起レベルなる属性とを共起情報として抽出する共起情報抽出手段と
    前記単語抽出手段により抽出された各単語について、各文書および全文書中での出現位置レベル毎の出現傾向を算出する単語頻度算出手段と
    前記共起情報抽出手段により抽出された各共起について、各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を算出する共起頻度算出手段と
    前記単語頻度算出手段によって算出された、各単語の各文書および全文書中での出現位置レベル毎の出現傾向を格納する単語頻度格納手段と
    前記共起頻度算出手段により算出された、各共起の各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を格納する共起頻度格納手段と
    利用者から検索条件として入力された入力文を解析し、単語および共起を抽出する入力解析手段と
    利用者から指定された単語の重みおよび単語の出現位置レベルの重みをもとに、検索条件から抽出された各単語と、前記単語頻度格納手段に格納された各文書中の単語を照合し、単語の得点付けを行う単語照合手段と
    利用者から指定された共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みをもとに、検索条件から抽出された各共起と、前記共起頻度格納手段に格納された文書中の共起情報を照合し、共起の得点付けを行う共起情報照合手段と
    前記単語照合手段による単語の得点付けと前記共起情報照合手段による共起の得点付けを文書単位で集計し、各文書のランキングを決定する文書順位決定手段とを備え
    前記単語抽出手段が、検索条件から抽出した単語に対し、前記単語頻度格納手段に格納された当該単語の出現傾向をもとに、前記文書格納手段に格納された文書全体でのランキングにおける平均的な影響力を算出し、この値をもとに定めた当該単語の重みの初期値を、入出力制御手段を通じて提示することを特徴とする文書検索装置
  2. 文書を格納する文書格納手段と
    前記文書格納手段に格納された各文書中の単語を、出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性とともに抽出する単語抽出手段と、
    前記文書格納手段に格納された各文書中の同一文書内に出現する単語と単語の共起に対し、共起関係にある単語と、共起が出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性、および共起する単語間の統語的関係を表す共起レベルなる属性とを共起情報として抽出する共起情報抽出手段と、
    前記単語抽出手段により抽出された各単語について、各文書および全文書中での出現位置レベル毎の出現傾向を算出する単語頻度算出手段と、
    前記共起情報抽出手段により抽出された各共起について、各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を算出する共起頻度算出手段と、
    前記単語頻度算出手段によって算出された、各単語の各文書および全文書中での出現位置レベル毎の出現傾向を格納する単語頻度格納手段と、
    前記共起頻度算出手段により算出された、各共起の各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を格納する共起頻度格納手段と、
    利用者から検索条件として入力された入力文を解析し、単語および共起を抽出する入力解析手段と、
    利用者から指定された単語の重みおよび単語の出現位置レベルの重みをもとに、検索条 件から抽出された各単語と、前記単語頻度格納手段に格納された各文書中の単語を照合し、単語の得点付けを行う単語照合手段と、
    利用者から指定された共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みをもとに、検索条件から抽出された各共起と、前記共起頻度格納手段に格納された文書中の共起情報を照合し、共起の得点付けを行う共起情報照合手段と、
    前記単語照合手段による単語の得点付けと前記共起情報照合手段による共起の得点付けを文書単位で集計し、各文書のランキングを決定する文書順位決定手段とを備え、
    前記共起情報照合手段が、検索条件から抽出された共起に対し、前記共起頻度格納手段に格納された当該共起情報の出現傾向をもとに、前記文書格納手段に格納された文書全体でのランキングにおける平均的な影響力を算出し、この値をもとに定めた当該共起の重みの初期値を、入出力制御手段を通じて提示することを特徴とする文書検索装置
  3. 文書を格納する文書格納手段と、
    前記文書格納手段に格納された各文書中の単語を、出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性とともに抽出する単語抽出手段と、
    前記文書格納手段に格納された各文書中の同一文書内に出現する単語と単語の共起に対し、共起関係にある単語と、共起が出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性、および共起する単語間の統語的関係を表す共起レベルなる属性とを共起情報として抽出する共起情報抽出手段と、
    前記単語抽出手段により抽出された各単語について、各文書および全文書中での出現位置レベル毎の出現傾向を算出する単語頻度算出手段と、
    前記共起情報抽出手段により抽出された各共起について、各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を算出する共起頻度算出手段と、
    前記単語頻度算出手段によって算出された、各単語の各文書および全文書中での出現位置レベル毎の出現傾向を格納する単語頻度格納手段と、
    前記共起頻度算出手段により算出された、各共起の各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を格納する共起頻度格納手段と、
    利用者から検索条件として入力された入力文を解析し、単語および共起を抽出する入力解析手段と、
    利用者から指定された単語の重みおよび単語の出現位置レベルの重みをもとに、検索条件から抽出された各単語と、前記単語頻度格納手段に格納された各文書中の単語を照合し
    、単語の得点付けを行う単語照合手段と、
    利用者から指定された共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みをもとに、検索条件から抽出された各共起と、前記共起頻度格納手段に格納された文書中の共起情報を照合し、共起の得点付けを行う共起情報照合手段と、
    前記単語照合手段による単語の得点付けと前記共起情報照合手段による共起の得点付けを文書単位で集計し、各文書のランキングを決定する文書順位決定手段とを備え
    文書順位決定手段が文書のランキングをおこない、検索結果の文書が確定した後、
    前記単語照合手段が、前記単語頻度格納手段に格納された出現傾向をもとに、検索条件から抽出された各単語の、検索結果の文書全体でのランキングにおける平均的な影響力を算出し、
    前記共起情報照合手段が、前記共起頻度格納手段に格納された出現傾向をもとに、検索条件から抽出した各共起の、検索結果の文書全体でのランキングにおける平均的な影響力を算出し、
    検索結果から抽出された単語および共起情報の、検索結果の文書全体でのランキングにおける平均的な影響力を、入出力制御手段を通じて提示することを特徴とする文書検索装置
  4. 文書を格納する文書格納手段と、
    前記文書格納手段に格納された各文書中の単語を、出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性とともに抽出する単語 抽出手段と、
    前記文書格納手段に格納された各文書中の同一文書内に出現する単語と単語の共起に対し、共起関係にある単語と、共起が出現した文書を識別する文書IDと、当該文書内での出現位置の重要度を表す出現位置レベルなる属性、および共起する単語間の統語的関係を表す共起レベルなる属性とを共起情報として抽出する共起情報抽出手段と、
    前記単語抽出手段により抽出された各単語について、各文書および全文書中での出現位置レベル毎の出現傾向を算出する単語頻度算出手段と、
    前記共起情報抽出手段により抽出された各共起について、各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を算出する共起頻度算出手段と、
    前記単語頻度算出手段によって算出された、各単語の各文書および全文書中での出現位置レベル毎の出現傾向を格納する単語頻度格納手段と、
    前記共起頻度算出手段により算出された、各共起の各文書および全文書中での出現位置レベル毎かつ共起レべル毎の出現傾向を格納する共起頻度格納手段と、
    利用者から検索条件として入力された入力文を解析し、単語および共起を抽出する入力解析手段と、
    利用者から指定された単語の重みおよび単語の出現位置レベルの重みをもとに、検索条件から抽出された各単語と、前記単語頻度格納手段に格納された各文書中の単語を照合し、単語の得点付けを行う単語照合手段と、
    利用者から指定された共起の重みと、共起の出現位置レベルの重みと、共起レベルの重みをもとに、検索条件から抽出された各共起と、前記共起頻度格納手段に格納された文書中の共起情報を照合し、共起の得点付けを行う共起情報照合手段と、
    前記単語照合手段による単語の得点付けと前記共起情報照合手段による共起の得点付けを文書単位で集計し、各文書のランキングを決定する文書順位決定手段とを備え
    単語照合手段が、単語頻度格納手段に格納された検索結果の文書中での出現傾向をもとに、検索条件から抽出された各単語の、検索結果の文書全体でのランキングにおける影響力と、利用者が検索結果から指定した特定の文書でのランキングにおける影響力の比較を行い
    共起情報照合手段が、共起頻度格納手段に格納された文書中での出現傾向をもとに、検索条件から抽出された各共起情報の、検索結果の文書全体でのランキングにおける影響力と、利用者が検索結果から指定した特定の文書でのランキングにおける影響力の比較を行い、
    これらの比較結果を、入出力制御手段を通じて提示することを特徴とする文書検索装置
JP19812097A 1997-07-24 1997-07-24 文書検索装置 Expired - Fee Related JP3562243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19812097A JP3562243B2 (ja) 1997-07-24 1997-07-24 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19812097A JP3562243B2 (ja) 1997-07-24 1997-07-24 文書検索装置

Publications (2)

Publication Number Publication Date
JPH1139337A JPH1139337A (ja) 1999-02-12
JP3562243B2 true JP3562243B2 (ja) 2004-09-08

Family

ID=16385794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19812097A Expired - Fee Related JP3562243B2 (ja) 1997-07-24 1997-07-24 文書検索装置

Country Status (1)

Country Link
JP (1) JP3562243B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0423879D0 (en) * 2004-10-28 2004-12-01 Koninkl Philips Electronics Nv Data processing system and method
KR20070047544A (ko) * 2005-11-02 2007-05-07 김정진 유사도를 적용하여 특허 문서를 검색하는 방법 및 그시스템
KR101241065B1 (ko) * 2011-10-17 2013-03-11 한국과학기술정보연구원 사용자 의도 인식 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221429A (ja) * 1995-02-16 1996-08-30 Canon Inc 文書自動分類装置

Also Published As

Publication number Publication date
JPH1139337A (ja) 1999-02-12

Similar Documents

Publication Publication Date Title
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
JP3040945B2 (ja) 文書検索装置
JP3607462B2 (ja) 関連キーワード自動抽出装置及びこれを用いた文書検索システム
EP0751469B1 (en) Automatic method of extracting summarization using feature probabilities
US9002764B2 (en) Systems, methods, and software for hyperlinking names
US7974963B2 (en) Method and system for retrieving confirming sentences
JP4726528B2 (ja) マルチセンスクエリについての関連語提案
US6286000B1 (en) Light weight document matcher
JPH11102374A (ja) データベースの文書表示方法およびその装置
WO2002080036A1 (en) Method of finding answers to questions
JPH03172966A (ja) 類似文書検索装置
US7181688B1 (en) Device and method for retrieving documents
JP3198932B2 (ja) 文書検索装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP3562243B2 (ja) 文書検索装置
Pai Text summarizer using abstractive and extractive method
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
AU607963B2 (en) Information retrieval system and method
Baruah et al. Text summarization in Indian languages: a critical review
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080611

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees