JP2000259643A - テキスト検索装置 - Google Patents

テキスト検索装置

Info

Publication number
JP2000259643A
JP2000259643A JP11057900A JP5790099A JP2000259643A JP 2000259643 A JP2000259643 A JP 2000259643A JP 11057900 A JP11057900 A JP 11057900A JP 5790099 A JP5790099 A JP 5790099A JP 2000259643 A JP2000259643 A JP 2000259643A
Authority
JP
Japan
Prior art keywords
text information
document frequency
text
word
information set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11057900A
Other languages
English (en)
Other versions
JP3028811B1 (ja
Inventor
Tsutomu Kuramochi
勉 倉持
Hiroshi Umeki
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP11057900A priority Critical patent/JP3028811B1/ja
Application granted granted Critical
Publication of JP3028811B1 publication Critical patent/JP3028811B1/ja
Publication of JP2000259643A publication Critical patent/JP2000259643A/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 語の重要度をより適切に計算することによ
り、高精度でテキスト情報を検索できるテキスト検索装
置を提供する。 【解決手段】 テキスト情報記憶部1に記憶されたテキ
スト情報に対して検索処理を行い、検索者が指定した種
テキスト情報集合に出現する語を語抽出処理部2が抽出
し、抽出語が出現する種テキスト情報集合及び検索対象
のテキスト集合中のテキスト情報の件数をそれぞれのテ
キスト情報集合における文書頻度として文書頻度計数処
理部3が計数し、種テキスト情報集合の文書頻度と検索
対象のテキスト情報集合の文書頻度の少なくとも一方を
文書頻度重み付け処理部4が重み付けする。文書頻度ま
たはその重み付けした値に基づいて、語重要度計算処理
部5が語の重要度を計算し、これに基づいてテキスト関
連度計算処理部6が種テキスト情報と検索対象に含まれ
る各テキスト情報との関連度を計算する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキスト検索装置に
関し、特に検索者が指定した少なくともひとつのテキス
ト情報からなるテキスト情報集合の内容に関連するテキ
スト情報を検索するテキスト情報検索装置に関する。
【0002】
【従来の技術】近年では、新聞、雑誌、文献、論文、公
的文書、私的文書等と言った種々なテキスト情報が膨大
な数電子化されてメモリ装置に格納されており、これら
膨大なテキスト情報中からユーザ(検索者)が意図する
ものを検索する技術の必要性が高まっている。その1つ
の方法として、或るテキスト情報の内容に基づいてそれ
に関連するテキスト情報を検索する技術が開発され、こ
のように検索者が指定した少なくとも1つのテキスト情
報からなるテキスト情報集合(以下、種テキスト情報集
合と略記する)の内容に関連するテキスト情報集合を検
索する方法として、種テキスト情報集合において出現す
る語の傾向が類似しているテキスト情報を抽出する手法
が考えられる。
【0003】テキスト情報に出現する語には、テキスト
情報の内容に強く関連する(すなわち、重要度が高い)
語と、そうでない語があると考えられる。したがって、
テキスト情報間の関連度を出現する語の傾向の類似性に
基づいて判定する場合、各語の重要度を計算し、その重
要度も加味して判定する方が望ましい。その一例として
は、まず種テキスト情報集合に出現する全ての語の重要
度を計算し、次に検索対象となる各テキスト情報にそれ
らの語が出現するかを調べ、出現した語の重要度の総和
をそのテキスト情報の種テキスト情報集合に対する関連
度として計算し、関連度が相対的に高いテキスト情報を
検索結果として出力する方法が考えられる。
【0004】ここで、上記のような検索方法において、
検索精度に大きく影響する処理の1つは、語の重要度の
計算方法であることは言うまでもない。語の重要度を計
算する方法には、例えば、「情報処理学会研究報告96
−NL−115、“動的な共起解析を用いた対話的文書
検索支援”、丹羽芳樹、99−106ページ」に記載さ
れている相対頻度を語の重要度とする方法が知られてい
る。ここで言う相対頻度とは、任意のテキスト情報集合
を対象に任意の語が出現するテキスト情報の件数をその
語の文書頻度と呼ぶとすると、種テキスト情報集合を対
象にした文書頻度を、検索対象となるテキスト情報集合
を対象にした文書頻度で割った値である。
【0005】この相対頻度の計算方法は、それぞれの種
テキスト情報に共通して出現する傾向にあるが、検索対
象となるテキスト情報集合における文書頻度が高くはな
い語の重要度が高くなるようにしたものである。しかし
ながら、上記の文献に記載されているように、検索対象
となるテキスト情報集合における文書頻度が低い語の重
要度が過度に高くなるという問題点がある。この問題
は、種テキスト情報の数は数件から数十件、検索対象と
なるテキスト情報の数は数千件から数百万件というよう
に、種テキスト情報の件数に比べて検索対象の件数がは
るかに多いという場合が多いために発生する。
【0006】そこで、上記の文献では、種テキスト情報
集合における文書頻度に応じてクラス分けを行い、それ
ぞれのクラスの中で相対頻度が上位の語に着目する方法
を提案している。この方法は種テキスト情報の件数が少
なくとも数十件程度あり、重要度が高いと判断すべき語
がクラス分けした各クラスの中に存在する場合は有効で
あると考えられる。しかしながら、種テキスト情報がほ
んの数件である場合には適当なクラス分けを行うことは
困難であり、また、必ずしも各クラスの中に重要度が高
いと判断すべき語が含まれているわけではないために重
要度が高くないと判断すべき語に着目してしまう恐れが
ある。
【0007】
【発明が解決しようとする課題】上記のように相対頻度
を利用した検索方法は、検索者が指定した種テキスト情
報集合の内容に関連するテキスト情報集合を検索する方
法として有効ではあるが、種テキスト情報の件数によっ
ては正しくない検索結果が得られてしまい、実用上十分
な検索性能を実現することができなかった。
【0008】本発明は上記従来の事情に鑑みなされたも
ので、語の重要度をより適切に計算することにより、高
精度でテキスト情報を検索できるテキスト検索装置を提
供することを目的とする。
【0009】
【課題を解決するための手段】本発明では、種テキスト
情報集合と検索対象集合に含まれる各テキスト情報との
関連度を計算するために用いる語の重要度(すなわち、
上記の相対頻度に相当する)を、重み付けした文書頻度
を用いて計算する。すなわち、重み付けすることによ
り、種テキスト情報集合については重要な語(文書頻度
が高い語)の重要度を高めてより際立たせ、また、検索
対象のテキスト情報については重要でない語(文書頻度
が高い語)の重要度を低くしてより際立たせ、種テキス
ト情報がほんの数件である場合にも高精度な検索結果が
得られるようにしている。
【0010】具体的には、本発明に係るテキスト検索装
置では、テキスト情報記憶部に記憶されたテキスト情報
に対して検索処理を行い、種テキスト情報集合に出現す
る語を語抽出処理部が抽出し、抽出された語が出現する
種テキスト情報集合及び検索対象のテキスト集合中のテ
キスト情報の件数をそれぞれのテキスト情報集合におけ
る文書頻度として文書頻度計数処理部が計数し、種テキ
スト情報集合における文書頻度と検索対象のテキスト情
報集合における文書頻度の少なくとも一方を文書頻度重
み付け処理部が重み付けする。
【0011】そして、文書頻度またはその重み付けした
値に基づいて、例えば語重要度計算処理部が種テキスト
情報集合における当該語の値を検索対象のテキスト情報
集合における当該語の値で除算することにより、当該語
の重要度を計算し、語の重要度に基づいて、テキスト関
連度計算処理部が種テキスト情報と検索対象に含まれる
各テキスト情報との関連度を計算する。すなわち、例え
ば関連度の高い順にテキスト情報名をリストとしてディ
スプレイに表示出力して、検索結果とする。
【0012】ここで、上記の重み付けは、種テキスト情
報集合における文書頻度に対しては得られた文書頻度値
が大きくなるに従って非線形特性でより大きくし、検索
対象のテキスト情報集合における文書頻度に対しては得
られた文書頻度値が大きくなるに従っても非線形特性で
あまり大きくならないようにすればよく、本発明では公
知の種々な演算を採用することができる。本発明ではそ
の内でも特に、種テキスト情報集合における文書頻度に
対してはそのn乗の値とすることにより文書頻度に重み
を付けるのが好ましく、また、検索対象となるテキスト
情報集合における文書頻度に対してはそのn乗根の値と
することにより文書頻度に重みを付けるのが好ましい。
【0013】
【発明の実施の形態】図1には本発明の一実施形態に係
るテキスト検索装置の機能的な構成を示してある。テキ
スト情報記憶部1はハードディスク装置等のメモリから
構成されており、少なくとも1件のテキスト情報を記憶
している。語抽出処理部2はプログラムモジュールであ
り、テキスト情報記憶部1に記憶されたテキスト情報の
内の種テキスト情報集合に出現する語を形態素解析等の
公知の手法を用いて抽出する。
【0014】文書頻度計数処理部3はプログラムモジュ
ールであり、語抽出処理部2で抽出した各語について、
種テキスト情報集合の中で当該語が出現するテキスト情
報の数、および、検索者が検索対象としたテキスト情報
集合の中で当該語が出現するテキスト情報の数を計数す
る。すなわち、種テキスト集合における文書頻度、およ
び、検索対象であるテキスト情報集合における文書頻度
を計数する。文書頻度重み付け処理部4はプログラムモ
ジュールであり、種テキスト情報集合における文書頻
度、または、検索対象であるテキスト情報集合における
文書頻度の少なくとも一方を重み付けする。
【0015】語重要度計算処理部5はプログラムモジュ
ールであり、文書頻度重み付け処理部4が出力した2種
類の値に基づいて語の重要度を計算する。テキスト情報
関連度計算処理部6はプログラムモジュールであり、語
重要度計算処理部5が出力した語とその重要度のリスト
に基づいて、種テキスト情報集合と検索対象の各テキス
ト情報との関連度を計算し、関連度が高いテキスト情報
を出力する。なお、本実施形態では上記の各機能手段を
プロセッサが所定のプログラムを実行することにより構
成されるプログラムモジュールとしたが、これら各機能
手段をハードウエアにより構成するようにしてもよい。
【0016】次に、語抽出処理部2で種テキスト情報集
合に出現する語を抽出する処理が終わった時点から検索
処理を完了するまでの一連の処理を詳細に説明する。図
2には、その一連の処理の手順を示してある。まず、語
抽出処理部2で抽出した種テキスト情報集合から抽出し
た各語について、文書頻度計数処理部3がテキスト情報
記憶部1を参照して、種テキスト情報における文書頻
度、および、検索対象であるテキスト情報集合における
文書頻度を計数する(ステップS1、S2)。
【0017】次いで、計数した2種類の文書頻度の内の
少なくとも一方を文書頻度重み付け部4が重み付けし
(ステップS3)、この重み付け処理を抽出した各語の
文書頻度に対して実行する(ステップS4)。この重み
付けする方法としては、例えば、種テキスト情報集合に
おける文書頻度をn乗する、検索対象であるテキスト情
報集合における文書頻度のn乗根を計算する、その両方
の重み付けを実行する方法などがある。
【0018】ここで、図3には、重み付けの方法とし
て、種テキスト情報集合における文書頻度を2乗する場
合の、語および2種類の文書頻度とその一方を重み付け
した値の対応の一例を表形式で示してある。この例で
は、種テキスト情報は8件、検索対象のテキスト情報は
10万件であり、種テキスト情報の内容はカラー複写機
に関するもので、その内の1件のテキスト情報に「花の
写真をコピーした」というテキスト内容が含まれてい
て、語「出力」は全てのテキスト情報に出現するものと
する。したがって、種テキスト情報集合における語
「花」の文書頻度は“1”、検索対象のテキスト情報集
合における語「出力」の文書頻度は“100000”と
なっている。
【0019】このように検索対象集合の全てのテキスト
情報に出現する語「出力」は、種集合の全てのテキスト
情報に出現するとしても、テキスト情報の内容を特徴付
ける語ではないので、重要な語ではないと判断した方が
よいと考えられる。また、検索対象集合中の1000件
程度(すなわち、1/100)のテキスト情報にしか出
現しない語「花」は、種集合中の1件のテキスト情報に
しか出現しないので、テキスト情報の内容を特徴付ける
語ではないので、重要な語ではないと判断した方がよい
と考えられる。これに対して、種集合中の6件或いは8
件のテキスト情報に出現する語「カラー」或いは「複写
機」は、検索対象集合中の20000件或いは1000
0件程度(すなわち、1/5或いは1/10)のテキスト
情報にしか出現しないので、上記の語「出力」や「花」
に比べて重要な語であると判断した方がよいと考えられ
る。
【0020】本例では、種テキスト情報集合における文
書頻度を2乗したことにより、図3に示すように、文書
頻度が高いほど強く重みが付けられて際立つこととな
る。例えば、「花」と「複写機」の文書頻度の比が1:
8であるのに対し、重み付けされた値では1:64とな
り、両語間の重要度の要素となる文書頻度の差が顕著と
なる。次いで、上記のステップで得られた2種類の値
(図3の例では、種テキスト情報集合における重み付け
した文書頻度と、検索対象テキスト情報集合における重
み付けしていない文書頻度)に基づいて、語重要度計算
処理部5が各語の重要度を計算する(ステップS5、S
6)。ここで、語の重要度を計算する方法としては、例
えば、前記2種類の値の比を計算する方法などが考えら
れる。
【0021】ここで、図4には、図3に示した例におい
て、語、前記2種類の値、語の重要度の対応の一例を表
形式で示してある。この例では、語の重要度は種テキス
ト情報集合の文書頻度に重み付けした値を検索対象であ
るテキスト情報集合の文書頻度で割った値としており、
同図に示すように、語「花」や「出力」に比べて、語
「カラー」や「複写機」の重要度の方が高い値となり、
適切な重要度を得ることができている。したがって、種
テキスト情報集合においては相対的に高い文書頻度を示
すが、検索対象テキスト情報集合では相対的にあまり高
くない文書頻度を示す語の重要度を相対的に高いものと
することができている。すなわち、全テキストの集合中
において、種テキスト情報集合の内容を特徴付けている
語の重要度を相対的に高くすることができる。
【0022】次いで、上記のステップで得られた各語と
その重要度に基づいて、テキスト情報関連度計算処理部
6が、検索対象に含まれている各テキスト情報の種テキ
スト情報集合に対する関連度を計算する(ステップS
7、S8)。この関連度を計算する方法としては、テキ
スト情報記憶部1を参照して、或る1つのテキスト情報
に出現する語の重要度の総和をそのテキスト情報の関連
度とする方法などが考えられる。なお、この計算方法に
おいて、1つのテキスト情報に同じ語が複数回出現した
場合には、関連度に語の重要度を1度だけしか加算しな
い方法も考えられる。
【0023】すなわち、重要度の高い語を含むテキスト
情報は種テキスト情報集合に関連性が高くなる傾向にあ
ることから、この関連度によって、検索対象に含まれて
いる各テキスト情報がそれぞれ種テキスト情報集合に対
してどの程度関連しているかが示される。次いで、上記
のステップで計算した関連度が高い順にテキスト情報を
ソートし、その上位のテキスト情報を検索結果として出
力し(ステップS9)、検索者に検索結果を提示して、
テキスト検索処理を終了する。
【0024】なお、上記の実施形態では、種テキスト情
報集合における文書頻度にのみ重み付けをしたが、検索
対象のテキスト情報集合にのみn乗根の重み付けをして
もよく、また、両者に重み付けをしても上記と同様な作
用効果を得ることができる。
【0025】
【発明の効果】以上説明したように、本発明のテキスト
検索装置によると、種テキスト情報集合に出現した各語
について、種テキスト情報集合における文書頻度と、検
索対象のテキスト情報集合における文書頻度を計数し、
その少なくとも一方を重み付けして重要度を際立たせる
ようにしたため、種テキスト情報がほんの数件である場
合にも高い精度でテキスト情報を検索することができ
る。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係るテキスト検索装置
の機能構成図である。
【図2】 本発明の一実施形態に係る検索処理の主要部
分の手順を示したフローチャートである。
【図3】 語、文書頻度、重み付けした値の対応の一例
を示す図である。
【図4】 語、文書頻度または重み付けした値、重要度
の対応の一例を示す図である。
【符号の説明】
1:テキスト情報記憶部、 2: 語抽出処理部、3:
文書頻度計数処理部、 4:文書頻度重み付け処理部、
5:語重要度計算処理部、 6:テキスト情報関連度計
算処理部、
【手続補正書】
【提出日】平成11年11月25日(1999.11.
25)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項4
【補正方法】変更
【補正内容】

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 テキスト情報を蓄積し、検索者が指定し
    た少なくとも1つのテキスト情報からなるテキスト情報
    集合の内容に関連するテキスト情報を検索するテキスト
    検索装置において、 テキスト情報を記憶するテキスト情報記憶部と、 検索者が指定したテキスト情報集合に出現する語を抽出
    する語抽出処理部と、 抽出された語が出現する任意のテキスト情報集合中のテ
    キスト情報の件数を当該テキスト情報集合における文書
    頻度として計数する文書頻度計数処理部と、 検索者が指定したテキスト情報集合における文書頻度と
    検索対象となるテキスト情報集合における文書頻度の少
    なくとも一方を重み付けする文書頻度重み付け処理部
    と、 文書頻度またはその重み付けした値に基づいて語の重要
    度を計算する語重要度計算処理部と、 語の重要度に基づいて検索者が指定したテキスト情報と
    検索対象に含まれる各テキスト情報との関連度を計算す
    るテキスト関連度計算処理部と、 を備えることを特徴とするテキスト検索装置。
  2. 【請求項2】 請求項1に記載のテキスト検索装置にお
    いて、 文書頻度重み付け処理部は、検索者が指定したテキスト
    情報集合における文書頻度をそのn乗の値とすることに
    より文書頻度に重みを付けることを特徴とするテキスト
    検索装置。
  3. 【請求項3】 請求項1に記載のテキスト検索装置にお
    いて、 文書頻度重み付け処理部は、検索対象となるテキスト情
    報集合における文書頻度をそのn乗根の値とすることに
    より文書頻度に重みを付けることを特徴とするテキスト
    検索装置。
  4. 【請求項4】 請求項1に記載のテキスト検索装置にお
    いて、 文書頻度重み付け処理部は、検索者が指定したテキスト
    情報集合における文書頻度をn乗そのn乗の値とし、検
    索対象となるテキスト情報集合における文書頻度をその
    n乗根の値とすることにより文書頻度に重みを付けるこ
    とを特徴とするテキスト検索装置。
JP11057900A 1999-03-05 1999-03-05 テキスト検索装置 Expired - Lifetime JP3028811B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11057900A JP3028811B1 (ja) 1999-03-05 1999-03-05 テキスト検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11057900A JP3028811B1 (ja) 1999-03-05 1999-03-05 テキスト検索装置

Publications (2)

Publication Number Publication Date
JP3028811B1 JP3028811B1 (ja) 2000-04-04
JP2000259643A true JP2000259643A (ja) 2000-09-22

Family

ID=13068882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11057900A Expired - Lifetime JP3028811B1 (ja) 1999-03-05 1999-03-05 テキスト検索装置

Country Status (1)

Country Link
JP (1) JP3028811B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678541A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种翻译能力数据的关联规则的挖掘方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678541A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种翻译能力数据的关联规则的挖掘方法

Also Published As

Publication number Publication date
JP3028811B1 (ja) 2000-04-04

Similar Documents

Publication Publication Date Title
US9092488B2 (en) Determination of a desired repository for retrieving search results
CN106547871B (zh) 基于神经网络的搜索结果的召回方法和装置
US6904560B1 (en) Identifying key images in a document in correspondence to document text
US7783629B2 (en) Training a ranking component
JP3041268B2 (ja) 中国語誤り検査(cec)システム
CA2750609C (en) Methods and systems for matching records and normalizing names
CN110795627B (zh) 信息推荐方法及装置、电子设备
BRPI0614274A2 (pt) funções classificação usando uma distáncia de clique desviada de um documento em uma rede
WO2011130008A2 (en) Automatic query suggestion generation using sub-queries
WO2017215242A1 (zh) 简历搜索方法及装置
KR100645614B1 (ko) 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치
CN110968789A (zh) 电子书推送方法、电子设备及计算机存储介质
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP5629976B2 (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
Kato et al. Query by analogical example: relational search using web search engine indices
JPH1049543A (ja) 文書検索装置
CN107577667B (zh) 一种实体词处理方法和装置
JP3028811B1 (ja) テキスト検索装置
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JP2003016106A (ja) 関連度値算出装置
US10606875B2 (en) Search support apparatus and method
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
JP2003016105A (ja) 関連度値算出装置
JP3880534B2 (ja) 文書分類方法及び文書分類プログラム
US20090132478A1 (en) Data processing system and method