JPH08137895A - 類似文書検索システム - Google Patents

類似文書検索システム

Info

Publication number
JPH08137895A
JPH08137895A JP6273269A JP27326994A JPH08137895A JP H08137895 A JPH08137895 A JP H08137895A JP 6273269 A JP6273269 A JP 6273269A JP 27326994 A JP27326994 A JP 27326994A JP H08137895 A JPH08137895 A JP H08137895A
Authority
JP
Japan
Prior art keywords
word
document
search
words
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6273269A
Other languages
English (en)
Inventor
Tadahiro Kiyama
忠博 木山
Hisao Mase
久雄 間瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6273269A priority Critical patent/JPH08137895A/ja
Publication of JPH08137895A publication Critical patent/JPH08137895A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文書データベースを検索して原文書に類似した
文書を抽出する類似文書検索システムにおいて、原文書
から検索式を生成するときの条件を設定できるようにす
る。 【構成】単語分割部3はテキストデータ43を読み込
み、単語に分割する。単語出現頻度抽出部4はテキスト
データ43を検索して単語出現頻度テーブルを作成す
る。検索式生成条件設定部2は選択された条件に基づい
て検索式生成条件テーブルを生成する。検索式生成部5
は単語出現テーブルと検索式生成条件とに基づいて検索
式を生成する。テキストサーチ部7は与えられた検索式
に基づいて文書データベース44を検索し、テキストデ
ータ43に類似する文書を抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、類似文書を検索するシ
ステムに係り、特に検索に先立って検索式を生成する類
似文書の検索システムに関する。
【0002】
【従来の技術】従来の類似文書検索システムは、例えば
情報処理学会第47回全国大会p3−161〜p3−1
62「文字認識と形態素解析を用いた類似文書検索の試
み」に記載されている。これは類似文書検索の対象とな
るテキストを文字認識し、その結果を形態素解析により
単語分割し、単語の出現頻度を基に検索式を生成し、類
似文書検索を行うものである。
【0003】
【発明が解決しようとする課題】従来の類似文書検索シ
ステム、例えば情報処理学会第47回全国大会p3−1
61〜p3−162「文字認識と形態素解析を用いた類
似文書検索の試み」に記載されている類似文書検索シス
テムは、検索式の生成方法について具体的に検討が成さ
れておらず、どのように検索式を生成するか技術的に示
されていない。またキーワードとして採用する単語は名
詞と未知語(辞書に未登録の単語)のみであり、キーワ
ードの条件としては不充分であるとともに検索式を生成
する条件があらかじめ定まっており、利用者が自由に検
索式生成条件を設定できないという問題がある。例えば
キーワードとして文書中の出現頻度が高い単語のみを検
索式に採用しており、利用者がキーワードを自由に選択
できないという問題がある。
【0004】本発明の目的は、検索式生成条件を自由に
設定できるようにした類似文書検索システムを提供する
ことにある。また本発明の他の目的は、検索のキーワー
ドとして単語の他に複合語も使用できるようにした類似
文書検索システムを提供することにある。
【0005】
【課題を解決するための手段】本発明は、対象となるテ
キストデータを単語に分割し、単語の種類ごとに出現頻
度を計数して単語出現テーブルを作成し、この単語出現
テーブルに基づいて検索式を生成し、この検索式に基づ
いて文書データベースを検索して類似文書を抽出するシ
ステムにおいて、単語の出現回数に関する条件を検索式
生成条件として設定し、この検索式生成条件に合致する
単語を単語出現テーブルから選択して検索式を生成する
類似文書検索システムを特徴とする。
【0006】本発明は、更に複数の単語を連接して複合
語を生成し、複合語についてもその出現頻度を計数して
複合語出現テーブルを作成し、この複合語出現テーブル
に基づいて検索式を生成するよう構成した類似文書検索
システムを特徴とする。
【0007】
【作用】本発明は、単語出現テーブルから出現頻度の高
いもの数個を機械的に選択してこれらをキーワードとす
る検索式を生成するのではなく、この単語出現テーブル
を基にしてどのようにキーワードを選択するかについて
の条件を設定できるので、この検索式生成条件によって
キーワードの選択の幅が広がり、対象とするテキストデ
ータに適合する検索式を生成することができる。また複
合語出現テーブルを設け、このテーブルの中から複合語
をキーワードとして選択できるので、更に利用者の選択
肢が広がることになる。
【0008】
【実施例】以下、本発明の一実施例について図面により
詳細に説明する。
【0009】図1は、本発明の類似文書検索システムの
一実施例を示す機能ブロック図である。テキストデータ
43は対象となる文書のテキストデータであり、文書デ
ータベース44はテキストデータ43と類似の文書を含
む多数の文書が格納された文書データベースである。単
語分割条件設定部1は、テキストデータ43内の複数の
単語を一つの複合語として認識する条件を設定するよう
に利用者に促し、利用者により設定された単語分割条件
を単語分割条件テーブル41に格納する。検索式生成条
件設定部2は、検索式を生成する条件を設定するように
利用者に促し、利用者により設定された検索式生成条件
を検索式条件テーブル42に格納する。単語分割部3
は、テキストデータ43を参照して形態素解析により単
語分割した結果と形態素情報をワークエリア内の単語テ
ーブルに格納し、更に単語分割条件が利用者により設定
されている場合は単語分割条件テーブル41を参照して
単語分割条件に従い複数の連接する単語を一つの複合語
としてワークエリア内の複合語テーブルに格納する。単
語出現頻度抽出部4は、テキストデータ43中に出現す
る単語の出現頻度を抽出してワークエリア内の単語出現
頻度テーブルに格納し、更に単語分割部3により抽出さ
れた複合語の出現頻度をワークエリア内の複合語出現頻
度テーブルに格納する。検索式生成部5は、利用者によ
り検索式生成条件が設定され自動的に類似文書検索を行
う場合に検索式生成条件テーブル42を参照して設定さ
れた検索式生成条件に従って検索式を生成する。検索式
ユーザ生成部6は、上記各処理により抽出した単語及び
複合語を基に利用者が検索式を生成した後に類似文書検
索を行う場合に抽出した単語及び複合語の中から検索式
に採用するキーワードを利用者に選択させることにより
検索式を生成する。テキストサーチ部7は、検索式生成
部5又は検索式ユーザ生成部6により生成された検索式
を基に例えばフルテキストサーチ技術を使って文書デー
タベース44の検索を行い、検索結果を利用者に通知す
る。
【0010】図1から明らかなように、単語分割条件設
定部1,検索式生成条件設定部2,単語分割部3,単語
出現頻度抽出部4,検索式生成部5,検索式ユーザ生成
部6及びテキストサーチ部7は処理部を示し、単語分割
条件テーブル41,検索式生成条件テーブル42,テキ
ストデータ43及び文書データベース44は記憶装置上
に格納されるファイル又はテーブルである。
【0011】図2は、図1に示す類似文書検索システム
のハードウェア構成を示すブロック図である。入出力装
置8は、プロセッサ9に接続され、データを入力する装
置及び各種情報を表示する表示装置から構成される。プ
ロセッサ9は、電子計算機,パソコン,ワークステーシ
ョン等のプロセッサの部分であり、プログラムに従って
図1に示す各処理部の処理を実行する。記憶装置68
は、プロセッサ9に接続される記憶装置であり、図1に
示す各処理部のプログラム及び上記のファイル/テーブ
ルを格納する。すなわち記憶装置68は、プロセッサ9
が各処理を実行するときの作業領域であるワーキングエ
リア69,単語分割条件設定部格納エリア10,検索式
生成条件設定部格納エリア20,単語分割部格納エリア
30,単語出現頻度抽出部格納エリア40,検索式生成
部格納エリア50,検索式ユーザ生成部格納エリア6
0,テキストサーチ部格納エリア70,単語分割条件テ
ーブル格納エリア61,検索式生成条件テーブル格納エ
リア62,テキストデータ格納エリア63及び文書デー
タベース格納エリア64を持っている。
【0012】図3は、単語分割条件設定部1の処理を表
すPAD図(ProblemAnalysis Dia
gram)である。単語分割条件設定部1は、入力され
たテキストデータ43内の複数の連接する単語を一つの
複合語として抽出する条件を設定するように利用者に促
し、利用者により設定された単語分割条件を単語分割条
件テーブル41に格納する。まず一つの複合語として抽
出すべき条件(構文情報や品詞の並び等)の候補を入出
力装置8を介して利用者に提示し(ステップ11)、利
用者が設定したい条件の選択を促す(ステップ12)。
次に提示した候補のどれかが選択されたか否か判別し
(ステップ13)、選択された場合に選択された単語分
割条件を単語分割条件テーブル41に格納する(ステッ
プ14)。次にこれらの候補以外の条件を設定したいと
入出力装置8を介して利用者から指示された場合に(ス
テップ15)、入力された単語分割条件を単語分割条件
テーブル41に格納する(ステップ16)。
【0013】図4は、単語分割条件設定部1が提示する
条件の候補の表示例であり、どのような表現の場合に複
数の単語を一つの複合語として認識するかという条件の
候補を示している。
【0014】図5は、単語分割条件設定部1によって利
用者固有の単語分割条件が設定される場合の表示例であ
る。
【0015】図6は、単語分割条件テーブル41に格納
された単語分割条件の例である。本テーブルは、第1単
語71,第2単語72及び複合語73の3つの項目から
構成されている。第1単語71及び第2単語72は、複
合語として認識する連続する単語の構文情報を表してお
り、それぞれ「品詞」及び「活用形/助詞」から構成さ
れている。例えば、項番1の条件は図4の第1の候補、
項番2は第2の候補、項番3は第3の候補及び項番4は
第4の候補を表し、項番5は図5に示す利用者が設定し
た固有な条件を表している。複合語73は、各々の条件
を満たす複合語の品詞を表している。なお本実施例では
第1単語71と第2単語72の二つの単語から成る複合
語の例を示しているが、条件の対象となる単語数はいく
つでもよい。
【0016】図7は、検索式生成条件設定部2の処理を
表すPAD図である。検索式生成条件設定部2は、検索
式として採用するキーワードに関する各種条件(出現位
置条件、出現回数条件、論理演算子等)を設定するよう
に利用者に促し、利用者により設定された検索式生成条
件を検索式条件テーブル42に格納する。まず検索式と
して採用するキーワードの条件の設定を入出力装置8を
介して利用者に促す(ステップ21)。次に検索式とし
て採用すべきキーワードの出現位置条件が利用者により
設定されたか否か判別し(ステップ22)、設定された
場合はその出現位置条件を検索式生成条件テーブル42
に格納する(ステップ23)。次に検索式として採用す
べきキーワードの出現回数条件が利用者により設定され
たか否か判別し(ステップ24)、設定された場合にそ
の出現回数条件を検索式生成条件テーブル42に格納す
る(ステップ25)。最後に検索式として採用したキー
ワードの論理演算関係を表す論理演算子が設定されたか
否か判別し(ステップ26)、設定された場合にその論
理演算子を検索式生成条件テーブル42に格納する(ス
テップ27)。
【0017】図8は、設定された検索式生成条件の例を
表しており、図8(a)は、利用者による設定条件とし
て設定可能な条件を示す例である。「キーワード出現位
置条件設定」は、キーワードを文書全体から選択する
か、特定の構成項目に限って選択するかの条件を設定す
る。図8(b)は、設定条件のうち「キーワード出現位
置条件設定」として「文書構成項目」が選択された場合
に対象となる文書データを構成する項目ごとに選択する
例を表している。本例では文書データの構成を表す項目
が「題名」〜「まとめ」の6つの項目があることを表
し、「要旨」「主内容」「まとめ」の3つの項目につい
て出現する単語であるという出現位置条件を利用者が設
定した例を表している。図8(a)の「キーワード出現
回数条件設定」は、単語の出現回数の条件として出現頻
度の高いものから上位N1個を選択するのか、N2個以
上出現する単語を選択するのか又は出現回数がN3個以
下の単語を選択するのかの条件を設定する。N1,N2
及びN3は整数である。「検索式論理演算子」は、キー
ワードを論理和で結合するのか論理積で結合するかの条
件を設定する。
【0018】図9は、設定条件のうち「キーワード出現
回数条件設定」として「出現回数上位N1個」が選択さ
れた場合に文書中に出現する単語の出現回数条件を利用
者が設定する例を表している。本例では出現回数が高い
上位3単語であるという出現回数条件を利用者が設定し
た例を表している。
【0019】図10は、上記のようにして検索式生成条
件が設定され登録された検索式生成条件テーブル42の
例である。本テーブルは、出現回数条件74、出現位置
条件75および検索式論理演算子76の3つの項目から
構成されている。本例では「要旨」「主内容」および
「まとめ」の3つの項目に共通して出現する単語であ
り、出現回数の上位3位までの単語をキーワードとして
採用し、各々のキーワードを論理積「and」で結合した
式を検索式とするという検索式生成条件を表している。
【0020】図11は、単語分割部3の処理を表すPA
D図である。単語分割部3は、テキストデータ43を入
力し形態素解析により単語分割してワーキングエリア6
9内の単語テーブルに格納し、単語分割条件が設定され
ていれば単語分割条件に従い複合語を生成してワーキン
グエリア69内の複合語テーブルに格納するまでの処理
を表している。まずテキストデータ43をテキストデー
タ格納エリア63から入力する(ステップ31)。次に
テキストデータを形態素解析し、単語分割結果を単語テ
ーブルに格納する(ステップ32)。次に入力したテキ
ストデータ中に文書の構成を表す項目が存在するか否か
判別し(ステップ33)、存在する場合には各単語が出
現した項目名を単語テーブルに格納する(ステップ3
4)。最後に単語分割条件が設定されている場合に単語
分割条件テーブル41と単語テーブルとを参照し、連接
する単語の品詞と活用形または助詞が一致するか否か比
較照合し(ステップ35)、一致する場合に一致する範
囲の単語テーブル中の単語の語幹(見出し文字列)をま
とめた一つの複合語と文書の構成を表す項目が存在する
場合には単語が出現する項目名とを複合語テーブルに格
納する(ステップ36)。なお単語分割に使用する形態
素解析は従来の機械翻訳やキーワード抽出の技術により
容易に実現可能な技術である。
【0021】図12は、テキストデータ43の例であ
り、本テキストデータは「題名」「要旨」「目的」「主
内容」「今後の課題」および「まとめ」の6つの項目か
ら構成されたテキストデータであることを示している。
【0022】図13は、生成された単語テーブルの例で
ある。このテーブルは、単語の語幹を表す見出し文字列
81,品詞82,活用形又は助詞を表す活用形/助詞8
3及び単語が出現する文書中の項目名を表す項目84の
4つの項目から構成されている。これら4つの項目から
成るデータが1つのレコードである。
【0023】図14は、生成された複合語テーブルの例
である。本テーブルは、複合語の語幹を表す見出し文字
列101,品詞102および複合語が出現する文書中の
項目名を表す項目103の3つの項目から構成されてい
る。これら3つの項目から成るデータが1つのレコード
である。例えば項番1の見出し文字列101である「辞
書生成方法」は、図13に示す単語テーブルの項番1〜
3の3つの単語が図6に示す単語分割条件テーブルの項
番4の条件(名詞の連接)と合致するため一つにまとめ
て複合語「辞書生成方法」を生成したことを表してお
り、項番2の「一考察」及び項番3の「自然語インタフ
ェース」も同じ単語分割条件が適用されて生成した複合
語である。また項番4の見出し文字列101である「参
照辞書情報生成処理システム」は、図13に示す単語テ
ーブルの項番9〜14の6つの単語が図6に示す単語分
割条件テーブルの項番4と項番2と項番3の3つの条件
と合致するため一つにまとめて複合語「参照辞書情報生
成処理システム」を生成したことを表している。他の複
合語も単語分割条件に合致することにより複合語として
生成されている。なお本実施例中の「サ変動詞」は「〜
する」という動詞に成り得る名詞という意味で使用して
いる。
【0024】図15は、単語出現頻度抽出部4の処理を
表すPAD図である。単語出現頻度抽出部4は、単語分
割部2が生成した単語及び複合語の出現回数を抽出し、
単語の出現回数を単語出現頻度テーブルに格納し、複合
語の出現回数を複合語出現頻度テーブルに格納する。単
語出現頻度抽出部4は、単語テーブルを参照し単語テー
ブルの先頭見出し文字列から末尾文字列まで、ステップ
402〜ステップ407の処理を行う(ステップ40
1)。まず単語テーブルから1レコード分の情報を取得
し(ステップ402)、見出し文字列及び品詞が同じレ
コードが存在するか検索し、存在する場合に該当するレ
コードを取得する(ステップ403)。次に単語テーブ
ルを参照し項目が存在するか否か判別し(ステップ40
4)、各項目別の単語の出現回数を求めてワーキングエ
リア69内の単語出現頻度テーブルに格納する(ステッ
プ405)。次にテキストデータ全体における各単語の
出現回数を求めて単語出現頻度テーブルに格納し(ステ
ップ406)、処理対象を次のレコードに移動する(ス
テップ407)。
【0025】次に複合語テーブルを参照し複合語テーブ
ルの先頭見出し文字列から末尾文字列までステップ40
9〜ステップ414の処理を行う(ステップ408)。
まず複合語テーブルから1レコード分の情報を取得し
(ステップ409)、見出し文字列及び品詞が同じレコ
ードが存在するか検索し、存在する場合に該当するレコ
ードを取得する(ステップ410)。次に複合語テーブ
ルを参照し項目が存在するか否か判別し(ステップ41
1)、各項目別の複合語の出現回数を求めてワーキング
エリア69内の複合語出現頻度テーブルに格納する(ス
テップ412)。次にテキストデータ全体における複合
語の出現回数を求めて複合語出現頻度テーブルに格納し
(ステップ413)、処理対象を次のレコードに移動す
る(ステップ414)。
【0026】図16(a)は、生成された単語出現頻度
テーブルの例であり、図16(b)は、生成された複合
語出現頻度テーブルの例である。単語出現頻度テーブル
は、単語の語幹を表す見出し文字列85,文書を構成す
る項目別の単語の出現頻度を表す題名86〜まとめ91
及び文書全体の単語の出現頻度を表す合計92の8つの
項目から構成されている。複合語出現頻度テーブルは、
複合語の語幹を表す見出し文字列93,文書を構成する
項目別の複合語の出現頻度を表す題名94〜まとめ99
及び文書全体の複合語の出現頻度を表す合計100の8
つの項目から構成されている。
【0027】図17は、検索式生成部5の処理を表すP
AD図である。検索式生成部5は、検索式生成条件テー
ブル42に設定された条件に従い検索式を生成する。ま
ず検索式生成条件テーブル42を参照し検索式生成条件
(出現位置条件,出現回数条件,論理演算子等)を取得
する(ステップ51)。次に単語出現頻度テーブルを参
照しステップ51で取得した出現位置条件及び出現回数
条件と合致する単語を検索し取得する(ステップ5
2)。最後にステップ52で取得した単語をステップ5
1で取得した論理演算子で結合して検索式を生成し、テ
キストサーチ部7へ引き渡す(ステップ53)。ステッ
プ51〜ステップ53により図16(a)に示す単語出
現頻度テーブルを基に「辞書and生成and単語」と
いう検索式が生成され、テキストサーチ部7へ引き渡さ
れる。
【0028】図18は、検索式ユーザ生成部6の処理を
表すPAD図である。検索式ユーザ生成部6は、単語分
割部3及び単語出現頻度抽出部4の各処理により抽出し
た単語及び複合語の中から検索式に採用するキーワード
を利用者に選択させることにより検索式を生成する。ま
ず単語分割部3により生成した単語又は複合語を表示
し、その中から検索式中のキーワードとして採用するキ
ーワードの選択を利用者に促す(ステップ601)。次
に「検索開始」が利用者に指示されるまで以下の処理を
行う(ステップ602)。「単語表示」が選択されたか
否か判別し(ステップ603)、選択された場合は単語
出現頻度抽出部4が生成した単語出現頻度テーブルを表
示し(ステップ604)、表示中の単語が選択されたら
該当する単語を検索式エリアに表示する(ステップ60
5)。次に「複合語表示」が利用者により選択されたか
否か判別し(ステップ606)、選択された場合に複合
語出現頻度テーブルを表示し(ステップ607)、複合
語が選択されたら該当する複合語を検索式エリアに表示
する(ステップ608)。次に「論理演算子」が利用者
により選択されたか否か判別し(ステップ609)、選
択された論理演算子「and」又は「or」を検索式エ
リアに表示する(ステップ610)。次に「検索開始」
が利用者により選択されたか否か判別し(ステップ61
1)、選択された場合に検索式中に複合語が存在するか
否か判別し(ステップ612)、存在する場合に複合語
を分割して論理積「and」で連結し検索式に挿入する
(ステップ613)。最後に生成した検索式をテキスト
サーチ部7に引き渡す(ステップ614)。
【0029】図19は、検索式ユーザ生成部6により利
用者が検索式を作成するときの表示例である。図19
(a)は、利用者が「単語表示」を選択した場合の例で
ある。図19(b)は、利用者が「複合語表示」を選択
し、表示された複合語の中から「辞書生成」と「自然
語」を選択し、かつ論理積「and」により検索式を作
成した例を表している。図19に示すようにシステムと
利用者が対話しながら検索式を作成することが可能とな
る。この例では利用者は「辞書生成」と「自然語」を選
択しているが、自動的に「辞書」「生成」「自然」
「語」に分割し、分割範囲の単語を更に「and」で結
合して検索式を作成している。単語のみが表示されてい
るならば利用者は「辞書」「生成」「自然」及び「語」
の4つの単語を選択しなければならないが、複合語を選
択することにより「辞書生成」及び「自然語」の2つの
複合語のみを選択するだけでよく使い勝手が向上する。
更に複合語を選択することにより単語のみを選択する場
合と比較して検索結果の漏れを防ぐことが可能となる。
【0030】
【発明の効果】本発明によれば、システムの利用者が検
索式を生成する条件を設定できるので、単語出現テーブ
ルとこの検索式生成条件とによってより利用者の目的に
合った検索式を生成できる。また複合語を生成し検索式
作成時に複合語を利用することにより使い勝手が向上す
るとともに単語のみを選択する場合と比較して検索結果
の漏れを防ぐことが可能となる。また複合語の生成条件
を利用者に設定させることにより利用者の意図に合った
複合語を生成することが可能となり、使い勝手が向上す
る。
【図面の簡単な説明】
【図1】類似文書検索システムの一実施例を示す機能ブ
ロック図である。
【図2】実施例の全体的なハードウェア構成を示すブロ
ック図である。
【図3】単語分割条件設定部の処理を表すPAD図であ
る。
【図4】利用者による単語分割条件の設定のための表示
例を示す図である。
【図5】利用者による単語分割条件の設定のための表示
例を示す図である。
【図6】単語分割条件テーブルの例を示す図である。
【図7】検索式生成条件設定部の処理を表すPAD図で
ある。
【図8】利用者による検索式生成条件の設定のための表
示例を示す図である。
【図9】利用者による検索式生成条件の設定のための表
示例を示す図である。
【図10】検索式生成条件テーブルの例を示す図であ
る。
【図11】単語分割部の処理を表すPAD図である。
【図12】テキストデータの例を示す図である。
【図13】単語分割テーブルの例を示す図である。
【図14】複合語テーブルの例を示す図である。
【図15】単語出現頻度抽出部の処理を表すPAD図で
ある。
【図16】単語出現頻度テーブル及び複合語出現頻度テ
ーブルの例を示す図である。
【図17】検索式生成部の処理を表すPAD図である。
【図18】検索式ユーザ生成部の処理を表すPAD図で
ある。
【図19】ユーザが検索式を生成するときの表示例を示
す図である。
【符号の説明】
1・・・単語分割条件設定部 2・・・検索式生成条件設定部 3・・・単語分割部 4・・・単語出現頻度抽出部 5・・・検索式生成部 6・・・検索式ユーザ生成部 7・・・テキストサーチ部 41・・・単語分割条件テーブル 42・・・検索式生成条件テーブル 43・・・テキストデータ 44・・・文書データベース

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】文書を構成するテキストデータを単語に分
    割する手段と、該テキストデータについて該単語の種類
    ごとに単語の出現頻度を算出して単語出現テーブルを作
    成する手段と、該単語の出現回数に関する条件を設定す
    る検索式生成条件テーブルと、該検索式生成条件テーブ
    ルに設定された条件に合致する単語を該単語出現テーブ
    ルから選択して検索式を生成する手段と、該検索式に基
    づいて文書データベースを検索し該文書に類似の文書を
    抽出する手段とを有することを特徴とする類似文書検索
    システム。
  2. 【請求項2】文書を構成するテキストデータを単語に分
    割する手段と、得られた該単語から複数の単語を連接し
    て複合語を作成する手段と、該テキストデータについて
    該単語の種類ごとに単語の出現頻度を算出して単語出現
    テーブルを作成する手段と、該テキストデータについて
    該複合語の種類ごとに複合語の出現頻度を算出して複合
    語出現テーブルを作成する手段と、該単語出現テーブル
    中の単語が指定されたとき該指定された単語を論理演算
    子で結合して検索式を生成し、該複合語出現テーブル中
    の複合語が指定されたとき該指定された複合語を論理演
    算子で結合して検索式を生成する手段と、該検索式に従
    って文書データベースを検索し該文書に類似の文書を抽
    出する手段とを有することを特徴とする類似文書検索シ
    ステム。
JP6273269A 1994-11-08 1994-11-08 類似文書検索システム Pending JPH08137895A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6273269A JPH08137895A (ja) 1994-11-08 1994-11-08 類似文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6273269A JPH08137895A (ja) 1994-11-08 1994-11-08 類似文書検索システム

Publications (1)

Publication Number Publication Date
JPH08137895A true JPH08137895A (ja) 1996-05-31

Family

ID=17525490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6273269A Pending JPH08137895A (ja) 1994-11-08 1994-11-08 類似文書検索システム

Country Status (1)

Country Link
JP (1) JPH08137895A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100588739B1 (ko) * 1999-11-23 2006-06-13 주식회사 케이티 문서처리시스템에서 문서의 중복 방지 방법
JP2008276769A (ja) * 2007-04-26 2008-11-13 Nhn Corp キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム
US7526554B1 (en) 2008-06-12 2009-04-28 International Business Machines Corporation Systems and methods for reaching resource neighborhoods
US8515994B2 (en) 2008-06-12 2013-08-20 International Business Machines Corporation Reaching resource neighborhoods
JP2017037442A (ja) * 2015-08-07 2017-02-16 株式会社日本デジタル研究所 会計処理システム、方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100588739B1 (ko) * 1999-11-23 2006-06-13 주식회사 케이티 문서처리시스템에서 문서의 중복 방지 방법
JP2008276769A (ja) * 2007-04-26 2008-11-13 Nhn Corp キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム
US7526554B1 (en) 2008-06-12 2009-04-28 International Business Machines Corporation Systems and methods for reaching resource neighborhoods
US8515994B2 (en) 2008-06-12 2013-08-20 International Business Machines Corporation Reaching resource neighborhoods
JP2017037442A (ja) * 2015-08-07 2017-02-16 株式会社日本デジタル研究所 会計処理システム、方法およびプログラム

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JPH0778182A (ja) キーワード付与システム
JPH0418673A (ja) テキスト情報抽出方法および装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2005251115A (ja) 連想検索システムおよび連想検索方法
JP2001075966A (ja) データ分析システム
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JP2005043977A (ja) 文書間の類似度算出方法および装置
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH04274557A (ja) フルテキストサーチ方法
JPH08137895A (ja) 類似文書検索システム
JPH11272680A (ja) 文書データ提供装置およびそのプログラム記録媒体
JP3222193B2 (ja) 情報検索装置
JPH09185632A (ja) 情報検索・編集方法及び装置
JP3177593B2 (ja) 語句の絞込検索方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004133510A (ja) 技術文献検索システム
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001142897A (ja) 文書検索装置、文書検索方法、文書検索システム及び文書検索方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050222