JP3006526B2 - 類似文書検索方法および類似文書検索装置 - Google Patents

類似文書検索方法および類似文書検索装置

Info

Publication number
JP3006526B2
JP3006526B2 JP9002748A JP274897A JP3006526B2 JP 3006526 B2 JP3006526 B2 JP 3006526B2 JP 9002748 A JP9002748 A JP 9002748A JP 274897 A JP274897 A JP 274897A JP 3006526 B2 JP3006526 B2 JP 3006526B2
Authority
JP
Japan
Prior art keywords
word
case
document
dictionary
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9002748A
Other languages
English (en)
Other versions
JPH10198691A (ja
Inventor
直毅 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9002748A priority Critical patent/JP3006526B2/ja
Publication of JPH10198691A publication Critical patent/JPH10198691A/ja
Application granted granted Critical
Publication of JP3006526B2 publication Critical patent/JP3006526B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、事例としての文書
を格納している事例データベースの中から利用者が作成
したいと思っている文書に類似した文書を検索するため
の類似文書検索装置に関し、特に、検索手段としてベク
トル空間法を用いて類似文書を検索する類似文書検索装
置に関する。
【0002】
【従来の技術】類似した文書を検索する方法としては、
検索対象の文書から抽出したキーワードをそれぞれ異な
るベクトルに対応させ、検索対象の文書をこれらのベク
トルの線形結合によって表現するベクトル空間法が知ら
れている。
【0003】このようなベクトル空間法は、例えば、特
開平6−4584号公報に開示されているように、多数
のキーワードを含む検索質問(ブール検索式)の作成が
困難な全文検索の欠点を解消する方法として提案されて
いる。
【0004】これに関連する技術として、例えば、特開
平8−55136号公報に開示されているように、類似
度の計算をファジー推論として定式化し、これをVLS
Iハードウエアアルゴリズムで実行させる高速化手法
や、特開平7−44570号公報に開示されているよう
に、対象となるベクトルが階層構造をなす場合にも適用
可能とする拡張等が考えられている。
【0005】また、特開平7−262217号公報に開
示されているように、検索精度の一層の向上を課題とし
て、キーワードの共起性の情報を利用する方法が提案さ
れている。しかし、この方法は、検索対象の文書内の単
語を類似語として利用するのみに留まっており、キーワ
ードの共起性の情報を充分に利用しているとは言えない
ものである。
【0006】
【発明が解決しようとする課題】上述したような従来の
類似文書検索装置は、文書内の単語を文脈と切り離して
から文書間の類似度を計算しているため、同じ意味を有
する複数の単語の処理ができないという問題点を有して
いる。
【0007】また、文書内の単語の出現順序や近接する
単語を無視して文書間の類似度を計算しているため、一
つの文書が他の文書の一部分となっているような場合
や、一つの文書と他の文書とが文書の一部を共有してい
るような場合に、それらの二つの文書間の類似度が期待
するほどには高くならないという問題点も有している。
例えば、異なる二つの文書でキーワードの出現頻度が同
じときは、検索質問文書に対する類似度は二つの文書共
同じとなり、検索質問文書と同じ文章を多く含む方の文
書の方を類似度が高いと判定することができないという
問題点も有している。
【0008】本発明の目的は、上述のような従来の類似
文書検索装置の欠点を解消するため、同義語を検索に利
用でき、また、キーワードの相互間の位置情報を検索に
利用できるようにして検索精度の向上を図り、類似文書
の検索の精度を向上させることができる類似文書検索方
法および類似文書検索装置を提供することにある。
【0009】
【課題を解決するための手段】本発明の第1の類似文書
検索方法は、事例データベースに事例となる文書を格納
しておき、検索のときにキーワードとなる単語を単語辞
書に登録しておき、事例データベースの全事例文書のそ
れぞれの事例文書の同一文中に出現する単語のうちで前
記単語に隣接する所定の複数個の単語のなかに存在する
前記単語を単語対として単語対辞書に登録しておき、前
記事例データベース中の全事例文書のそれぞれの事例文
書における前記単語の出現頻度と前記単語対の出現頻度
と前記単語または前記単語対の出現する事例文書の頻度
とを出現頻度データとして事例頻度データ部に記憶して
おき、前記事例データベースに格納されている全事例文
書中のそれぞれの事例文書に対して前記単語辞書および
前記単語対辞書を参照して前記単語および前記単語対を
抽出して抽出した前記単語および前記単語対について前
記事例頻度データ部の出現頻度データからあらかじめ事
例ベクトルを生成しておき、マウスおよびキーボードお
よびディスプレイを有する検索質問入力部から入力した
検索質問文書について前記単語辞書および前記単語対辞
書を参照して抽出した前記単語および前記単語対につい
て前記事例頻度データ部の出現頻度データから検索質問
ベクトルを生成し、前記検索質問ベクトルと前記事例ベ
クトルとから所定の計算式によって前記事例データベー
スの全事例文書のそれぞれの事例文書について類似度を
計算することを含む。 本発明の第2の類似文書検索方法
は、事例データベースに事例となる文書を格納してお
き、検索のときにキーワードとなる単語およびその同義
語を正表記単語および異表記単語として単語辞書に登録
しておき、事例データベースの全事例文書のそれぞれの
事例文書中の同一文中に出現する前記異表記単語のうち
で前記正表記単語に隣接する所定の複数個の単語のなか
に存在する前記正表記単語または前記異表記単語を単語
対として単語対辞書に登録しておき、前記事例データベ
ース中の全事例文書における前記異表記単語を前記正表
記単語に変換したときの前記正表記単語の出現頻度と前
記単語対の出現頻度と前記異表記単語を含む前記正表記
単語または前記単語対の出現する事例文書の頻度とを出
現頻度データとして事例頻度データ部に記憶しておき、
前記事例データベースに格納されている全事 例文書のそ
れぞれの事例文書に対して前記単語辞書および前記単語
対辞書を参照して前記異表記単語を含む前記正表記単語
および前記単語対を抽出して抽出した前記正表記単語お
よび前記単語対について前記事例頻度データ部の出現頻
度データからあらかじめ事例ベクトルを生成しておき、
マウスおよびキーボードおよびディスプレイを有する検
索質問入力部から入力した検索質問文書について前記単
語辞書および前記単語対辞書を参照して抽出した前記異
表記単語を含む前記正表記単語および前記単語対につい
て前記事例頻度データ部の出現頻度データから検索質問
ベクトルを生成し、前記検索質問ベクトルと前記事例ベ
クトルとから所定の計算式によって前記事例データベー
スの全事例文書のそれぞれの事例文書について類似度を
計算することを含む。
【0010】本発明の第1の類似文書検索装置は、事例
としての文書を格納している事例データベースと、検索
のときのキーワードとなる単語を登録している単語辞書
と、前記事例データベースの全事例文書のそれぞれの事
例文書中の同一文中に出現する単語のうちで前記単語に
隣接する所定の複数個の単語のなかに存在する前記単語
を単語対として登録する単語対辞書と、前記事例データ
ベース中の全事例文書のそれぞれの事例文書における前
記単語の出現頻度と前記単語対の出現頻度と前記単語ま
たは前記単語対の出現する事例文書の頻度とを出現頻度
データとして記憶している事例頻度データ部と、前記事
例データベースに格納されている全事例文書のそれぞれ
の事例文書に対して前記単語辞書および前記単語対辞書
を参照して前記単語および前記単語対を抽出した前記単
語および前記単語対について前記事例頻度データ部の出
現頻度データからあらかじめ事例ベクトルを生成する事
例ベクトル生成部と、マウスおよびキーボードおよびデ
ィスプレイを有し検索質問文書を入力する検索質問入力
部と、前記検索質問入力部から入力した前記検索質問文
書について前記単語辞書および前記単語対辞書を参照し
て単語および単語対を抽出して抽出した前記単語および
前記単語対について前記事例頻度データ部の出現頻度デ
ータから検索質問ベクトルを生成する検索質問ベクトル
生成部と、前記検索質問ベクトル生成部の生成した前記
検索質問ベクトルと前記事例ベクトル生成部の生成した
前記事例ベクトルとの類似度を所定の計算式によって前
記事例データベースの全事例文書のそれぞれの事例文書
について計算する類似度計算部とを備える。 本発明の第
2の類似文書検索装置は、事例としての文書を格納して
いる事例データベースと、検索のときのキーワードとな
る単語およびその同義語をそれぞれ正表記単語および異
表記単語としてを登録している単語辞書と、前記事例デ
ータベースの全事例文書のそれぞれの事例文書中の同一
文中に出現する単語のうちで前記正表記単語に隣接する
所定の複数個の単語のなかに存在する前記正表記単語ま
たは前記異表記単語を単語対として登録する単語対辞書
と、前記事例データベース中の全事例文書における前記
異表記単語を前記正表記単語に変換したときの前記正表
記単語の出現頻度と前記単語対の出現頻度と前記異表記
単語を含む前記 正表記単語または前記単語対の出現する
事例文書の頻度とを出現頻度データとして記憶している
事例頻度データ部と、前記事例データベースに格納され
ている全事例文書のそれぞれの事例文書に対して前記単
語辞書および前記単語対辞書を参照して前記異表記単語
を含む前記正表記単語および前記単語対を抽出して抽出
した前記正表記単語および前記単語対について前記事例
頻度データ部の出現頻度データからあらかじめ事例ベク
トルを生成する事例ベクトル生成部と、マウスおよびキ
ーボードおよびディスプレイを有し検索質問文書を入力
する検索質問入力部と、前記検索質問入力部から入力し
た前記検索質問文書について前記単語辞書および前記単
語対辞書を参照して抽出した前記単語および前記単語対
について前記事例頻度データ部の前記出現頻度データか
ら検索質問ベクトルを生成する検索質問ベクトル生成部
と、前記検索質問ベクトル生成部の生成した前記検索質
問ベクトルと前記事例ベクトル生成部の生成した前記事
例ベクトルとの類似度を所定の計算式によって前記事例
データベースの全事例文書のそれぞれの事例文書につい
て計算する類似度計算部とを備える。
【0011】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0012】図1は本発明の類似文書検索装置の一実施
形態を示すブロック図、図2は図1の実施形態における
単語対辞書の作成手順を示すフローチャート、図3は図
1の実施形態における類似文書検索手順を示すフローチ
ャート、図4は図1の実施形態における単語辞書および
単語対辞書および事例頻度データ部の内容の一例を示す
模式図で、(a)は単語辞書、(b)は単語対辞書、
(c)は事例頻度データ部を示す図である。
【0013】図1の類似文書検索装置は、検索質問入力
部1と、事例データベース2と、単語辞書・単語対辞書
3と、事例頻度データ部4と、検索質問ベクトル生成部
6と、事例ベクトル生成部7と、類似度計算部4とを備
えている。
【0014】検索質問入力部1は、マウスおよびキーボ
ードおよびディスプレイを使用して検索質問文書を入力
し、検索質問ベクトル生成部6に送る。
【0015】事例データベース2は、事例としての各種
の文書(事例文書)を格納している。
【0016】単語辞書・単語対辞書3は、同義語を含む
単語を登録した単語辞書3a(図4参照)と、所定の条
件を満たす単語または同義語を単語対として登録した単
語対辞書3b(図4参照)とから構成されている。
【0017】事例頻度データ部4は、単語辞書・単語対
辞書3にある単語または単語対が、事例データベース2
中の全事例文書に出現する回数(出現頻度)と、その単
語または単語対の出現する事例文書の数(事例頻度)と
を、出現頻度データとして記憶する。
【0018】事例ベクトル生成部7は、事例データベー
ス2の中の各事例文書に対して単語辞書・単語対辞書3
を参照してキーワードを抽出し、抽出したキーワードに
ついて事例頻度データ部6の出現頻度データから所定の
計算式(詳細は後述)によって事例ベクトル9をあらか
じめ生成しておく。
【0019】検索質問ベクトル生成部6は、検索質問入
力部1から入力した検索質問文書について、単語辞書・
単語対辞書3を参照してキーワードを抽出し、抽出した
キーワードについて事例頻度データ部4の出現頻度デー
タから所定の計算式(詳細は後述)によって検索質問ベ
クトル8を生成する。
【0020】類似度計算部4は、検索質問ベクトル生成
部6が生成した検索質問ベクトル8と、事例ベクトル生
成部7が生成した事例ベクトル9との類似度を所定の計
算式(詳細は後述)によって計算する。1回の検索動作
で検索質問ベクトルと全事例文書の事例ベクトルとの類
似度の計算を行なう。
【0021】次に、上述のように構成した類似文書検索
装置の動作について、図2〜図4を参照して説明する。
【0022】類似文書検索装置は、図2に示すように、
あらかじめ事例データベース2から事例文書を1件ずつ
読み出し(ステップ21)、形態素解析または手作業に
よってキーワードとなる単語を抽出し(ステップ2
2)、抽出した単語を単語辞書・単語対辞書3の単語辞
書3aに登録する(ステップ23)。このとき、抽出し
た単語と同義の単語(同義語)は、図4(a)に示すフ
ォーマットで登録する。例えば、単語「PC」と同義語
として単語「パソコン」および単語「パーソナルコンピ
ュータ」があるとすると、単語「PC」が正表記単語で
あり、同義語「パソコン」および同義語「パーソナルコ
ンピュータ」は異表記単語である。正表記単語「PC」
を左端に記録し、異表記単語「パソコン」「パーソナル
コンピュータ」をその右側に記録する。次に、抽出した
単語について、事例データベース2中の全事例文書に正
表記単語が出現する回数(出現頻度)を求め(ステップ
24)、事例頻度データ部4に出力する(ステップ2
5)。このとき、異表記単語は、すべて正表記単語に変
換して出現頻度を求める。事例頻度データ部4には、図
4(c)に示すフォーマットで出現頻度を登録する。例
えば、「PC 5620」と登録されている場合は、左
側の「PC」が正表記単語「PC」を意味し、右側の
「5620」が、すべての事例文書の中に異表記単語
「パソコン」「パーソナルコンピュータ」を含む単語
「PC」が出現した回数、すなわち出現頻度である。
【0023】次に、上記の作業によって抽出した単語を
基に単語対を抽出する(ステップ26)。単語対とは、
同一文中に出現する正表記単語および異表記単語のうち
で、正表記単語に隣接する複数個(例えば5個)の単語
のなかに存在する正表記単語および異表記単語のことで
ある。抽出した単語対は、図4(b)に示すフォーマッ
トで単語辞書・単語対辞書3の単語対辞書3bに登録す
る(ステップ27)。例えば、単語「NOTEPC」と
同義の単語として単語「ノートパソコン」「ノートP
C」があり、「ノートパソコン」または「ノートPC」
が「NOTEPC」に隣接した5個の単語の中に存在す
るとすると、単語「ノートパソコン」「ノートPC」は
「NOTEPC」に対する単語対である。正表記単語
「PC」を左端に記録し、単語対「ノートパソコン」
「ノートPC」をその右側に記録する。抽出した単語対
についてその出現頻度を次の式(1)の計算式によって
求め(ステップ28)、事例頻度データ部4に出力する
(ステップ29)。
【0024】
【0025】すべての事例文書について以上の作業を行
うことによって単語辞書3aおよび単語辞書対3bの生
成処理を終了する。
【0026】続いて類似文書検索装置は、事例データベ
ース2から事例文書を1件ずつ読み出し、事例ベクトル
生成部7によって、単語辞書3aおよび単語辞書対3b
を参照して事例頻度データ部4の出現頻度データから次
の式(2)の計算式によって事例ベクトル9を生成して
おく。事例ベクトル9は、事例データベース2の全事例
文書について生成する。
【0027】
【0028】さて、図3に示すように、検索質問入力部
1により検索質問文書を入力すると(ステップ31)、
検索質問ベクトル生成部6は、単語辞書・単語対辞書3
を参照してキーワードとなる単語および単語対を抽出し
(ステップ32および33)、抽出した単語および単語
対について事例頻度データ部6の出現頻度データから式
(2)の計算式によって検索質問ベクトル8を生成する
(ステップ34)。
【0029】続いて類似文書検索装置は、類似度計算部
5により、検索質問ベクトル8と事例ベクトル9との類
似度を次の式(3)の計算式によって計算し(ステップ
35)、その計算結果から事例文書を類似度の高い順序
に並べ、上位の事例文書を表示して検索処理を終了する
(ステップ36)。
【0030】
【0031】
【発明の効果】以上説明したように、本発明の類似文書
検索方法および類似文書検索装置は、正表記単語の同義
語も異表記単語として単語辞書に登録しておき、抽出し
た単語についてその出現頻度を求めるとき、異表記単語
も正表記単語に変換して出現頻度を求めて事例頻度デー
タ部に登録しておくことにより、同義語も含んだ検索を
行うことができるため、検索の精度を向上させることが
できるという効果がある。また、事例文書中に正表記単
語に近接して現われる正表記単語および異表記単語を単
語対として登録した単語対辞書をあらかじめ作成してお
き、この単語対の出現頻度を含めて類似度を計算するこ
とによりた、一つの文書が他の文書の一部分となってい
るような場合や、一つの文書と他の文書とが文書の一部
を共有しているような場合に、それらの二つの文書間の
類似度の値を高くすることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の類似文書検索装置の一実施形態を示す
ブロック図である。
【図2】図1の実施形態における単語対辞書の作成手順
を示すフローチャートである。
【図3】図1の実施形態における類似文書検索手順を示
すフローチャートである。
【図4】図1の実施形態における単語辞書および単語対
辞書および事例頻度データ部の内容の一例を示す模式図
で、(a)は単語辞書、(b)は単語対辞書、(c)は
事例頻度データ部を示す図である。
【符号の説明】
1 検索質問入力部 2 事例データベース 3 単語辞書・単語対辞書 3a 単語辞書 3b 単語対辞書 4 事例頻度データ部 5 類似度計算部 6 検索質問ベクトル生成部 7 事例ベクトル生成部 8 検索質問ベクトル 9 事例ベクトル 21〜29・31〜36 ステップ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−4582(JP,A) 特開 平8−249341(JP,A) 特開 平5−342255(JP,A) 特開 平7−56948(JP,A) 特開 平6−282587(JP,A) 特開 平6−274541(JP,A) 特開 平8−161343(JP,A) 特開 平6−68152(JP,A) 特開 平8−249346(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 事例データベースに事例となる文書を格
    納しておき、検索のときにキーワードとなる単語を単語
    辞書に登録しておき、事例データベースの全事例文書の
    それぞれの事例文書の同一文中に出現する単語のうちで
    前記単語に隣接する所定の複数個の単語のなかに存在す
    る前記単語を単語対として単語対辞書に登録しておき、
    前記事例データベース中の全事例文書のそれぞれの事例
    文書における前記単語の出現頻度と前記単語対の出現頻
    度と前記単語または前記単語対の出現する事例文書の頻
    度とを出現頻度データとして事例頻度データ部に記憶し
    ておき、前記事例データベースに格納されている全事例
    文書中のそれぞれの事例文書に対して前記単語辞書およ
    び前記単語対辞書を参照して前記単語および前記単語対
    を抽出して抽出した前記単語および前記単語対について
    前記事例頻度データ部の出現頻度データからあらかじめ
    事例ベクトルを生成しておき、マウスおよびキーボード
    およびディスプレイを有する検索質問入力部から入力し
    た検索質問文書について前記単語辞書および前記単語対
    辞書を参照して抽出した前記単語および前記単語対につ
    いて前記事例頻度データ部の出現頻度データから検索質
    問ベクトルを生成し、前記検索質問ベクトルと前記事例
    ベクトルとから所定の計算式によって前記事例データベ
    ースの全事例文書のそれぞれの事例文書について類似度
    を計算することを含むことを特徴とする類似文書検索方
    法。
  2. 【請求項2】 事例データベースに事例となる文書を格
    納しておき、検索のときにキーワードとなる単語および
    その同義語を正表記単語および異表記単語として単語辞
    書に登録しておき、事例データベースの全事例文書のそ
    れぞれの事例文書中の同一文中に出現する前記異表記単
    語のうちで前記正表記単語に隣接する所定の複数個の単
    語のなかに存在する前記正表記単語または前記異表記単
    語を単語対として単語対辞書に登録しておき、前記事例
    データベース中の全事例文書における前記異表記単語を
    前記正表記単語に変換したときの前記正表記単語の出現
    頻度と前記単語対の出現頻度と前記異表記単語を含む前
    記正表記単語または前記単語対の出現する事例文書の頻
    度とを出現頻度データとして事例頻度データ部に記憶し
    ておき、前記事例データベースに格納されている全事例
    文書のそれぞれの事例文書に対して前記単語辞書および
    前記単語対辞書を参照して前記異表記単語を 含む前記正
    表記単語および前記単語対を抽出して抽出した前記正表
    記単語および前記単語対について前記事例頻度データ部
    の出現頻度データからあらかじめ事例ベクトルを生成し
    ておき、マウスおよびキーボードおよびディスプレイを
    有する検索質問入力部から入力した検索質問文書につい
    て前記単語辞書および前記単語対辞書を参照して抽出し
    た前記異表記単語を含む前記正表記単語および前記単語
    対について前記事例頻度データ部の出現頻度データから
    検索質問ベクトルを生成し、前記検索質問ベクトルと前
    記事例ベクトルとから所定の計算式によって前記事例デ
    ータベースの全事例文書のそれぞれの事例文書について
    類似度を計算することを含むことを特徴とする類似文書
    検索方法。
  3. 【請求項3】 事例としての文書を格納している事例デ
    ータベースと、検索のときのキーワードとなる単語を登
    録している単語辞書と、前記事例データベースの全事例
    文書のそれぞれの事例文書中の同一文中に出現する単語
    のうちで前記単語に隣接する所定の複数個の単語のなか
    に存在する前記単語を単語対として登録する単語対辞書
    と、前記事例データベース中の全事例文書のそれぞれの
    事例文書における前記単語の出現頻度と前記単語対の出
    現頻度と前記単語または前記単語対の出現する事例文書
    の頻度とを出現頻度データとして記憶している事例頻度
    データ部と、前記事例データベースに格納されている全
    事例文書のそれぞれの事例文書に対して前記単語辞書お
    よび前記単語対辞書を参照して前記単語および前記単語
    対を抽出した前記単語および前記単語対について前記事
    例頻度データ部の出現頻度データからあらかじめ事例ベ
    クトルを生成する事例ベクトル生成部と、マウスおよび
    キーボードおよびディスプレイを有し検索質問文書を入
    力する検索質問入力部と、前記検索質問入力部から入力
    した前記検索質問文書について前記単語辞書および前記
    単語対辞書を参照して単語および単語対を抽出して抽出
    した前記単語および前記単語対について前記事例頻度デ
    ータ部の出現頻度データから検索質問ベクトルを生成す
    る検索質問ベクトル生成部と、前記検索質問ベクトル生
    成部の生成した前記検索質問ベクトルと前記事例ベクト
    ル生成部の生成した前記事例ベクトルとの類似度を所定
    の計算式によって前記事例データベースの全事例文書の
    それぞれの事例文書について計算する類似度計算部とを
    備えることを特徴とする類似文書検索装置。
  4. 【請求項4】 事例としての文書を格納している事例デ
    ータベースと、検索のときのキーワードとなる単語およ
    びその同義語をそれぞれ正表記単語および異表記単語と
    してを登録している単語辞書と、前記事例データベース
    の全事例文書のそれぞれの事例文書中の同一文中に出現
    する単語のうちで前記正表記単語に隣接する所定の複数
    個の単語のなかに存在する前記正表記単語または前記異
    表記単語を単語対として登録する単語対辞書と、前記事
    例データベース中の全事例文書における前記異表記単語
    を前記正表記単語に変換したときの前記正表記単語の出
    現頻度と前記単語対の出現頻度と前記異表記単語を含む
    前記正表記単語または前記単語対の出現する事例文書の
    頻度とを出現頻度データとして記憶している事例頻度デ
    ータ部と、前記事例データベースに格納されている全事
    例文書のそれぞれの事例文書に対して前記単語辞書およ
    び前記単語対辞書を参照して前記異表記単語を含む前記
    正表記単語および前記単語対を抽出して抽出した前記正
    表記単語および前記単語対について前記事例頻度データ
    部の出現頻度データからあらかじめ事例ベクトルを生成
    する事例ベクトル生成部と、マウスおよびキーボードお
    よびディスプレイを有し検索質問文書を入力する検索質
    問入力部と、前記検索質問入力部から入力した前記検索
    質問文書について前記単語辞書および前記単語対辞書を
    参照して抽出した前記単語および前記単語対について前
    記事例頻度データ部の前記出現頻度データから検索質問
    ベクトルを生成する検索質問ベクトル生成部と、前記検
    索質問ベクトル生成部の生成した前記検索質問ベクトル
    と前記事例ベクトル生成部の生成した前記事例ベクトル
    との類似度を所定の計算式によって前記事例データベー
    スの全事例文書のそれぞれの事例文書について計算する
    類似度計算部とを備えることを特徴とする類似文書検索
    装置。
JP9002748A 1997-01-10 1997-01-10 類似文書検索方法および類似文書検索装置 Expired - Lifetime JP3006526B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9002748A JP3006526B2 (ja) 1997-01-10 1997-01-10 類似文書検索方法および類似文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9002748A JP3006526B2 (ja) 1997-01-10 1997-01-10 類似文書検索方法および類似文書検索装置

Publications (2)

Publication Number Publication Date
JPH10198691A JPH10198691A (ja) 1998-07-31
JP3006526B2 true JP3006526B2 (ja) 2000-02-07

Family

ID=11537978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9002748A Expired - Lifetime JP3006526B2 (ja) 1997-01-10 1997-01-10 類似文書検索方法および類似文書検索装置

Country Status (1)

Country Link
JP (1) JP3006526B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
JP7377524B2 (ja) * 2019-12-06 2023-11-10 アイビーリサーチ株式会社 入力支援装置、入力支援システム及びプログラム
CN111310421B (zh) * 2020-03-12 2023-08-01 掌阅科技股份有限公司 一种文本批量标记方法、终端及计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342255A (ja) * 1992-06-11 1993-12-24 Hitachi Ltd 自然言語の構文情報を利用した文書検索方法および文書検索システム
JPH064582A (ja) * 1992-06-24 1994-01-14 Matsushita Electric Ind Co Ltd 中央演算装置
JPH08249341A (ja) * 1995-03-08 1996-09-27 Nec Corp 文書データベースの文書格納・検索装置

Also Published As

Publication number Publication date
JPH10198691A (ja) 1998-07-31

Similar Documents

Publication Publication Date Title
JP3067966B2 (ja) 画像部品を検索する装置及びその方法
JP3691844B2 (ja) 文書処理方法
JP2783558B2 (ja) 要約生成方法および要約生成装置
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH03172966A (ja) 類似文書検索装置
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3006526B2 (ja) 類似文書検索方法および類似文書検索装置
JP3123836B2 (ja) テキスト型データベース装置
JP2000148780A (ja) 文書検索方法、装置および文書検索プログラムを記録した記録媒体
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2007122525A (ja) 言い換え処理方法及び装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2003085181A (ja) 事典システム
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2002189754A (ja) 文書検索装置及び文書検索方法
JP2007164462A (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JP3816680B2 (ja) 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体
Reddy et al. Cross lingual information retrieval using search engine and data mining
JP4812811B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004178351A (ja) 数量表現検索装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991026