JP2002163291A - 類似文書検索装置、類似文書検索方法及び記録媒体 - Google Patents

類似文書検索装置、類似文書検索方法及び記録媒体

Info

Publication number
JP2002163291A
JP2002163291A JP2000363455A JP2000363455A JP2002163291A JP 2002163291 A JP2002163291 A JP 2002163291A JP 2000363455 A JP2000363455 A JP 2000363455A JP 2000363455 A JP2000363455 A JP 2000363455A JP 2002163291 A JP2002163291 A JP 2002163291A
Authority
JP
Japan
Prior art keywords
word
document
search
words
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000363455A
Other languages
English (en)
Inventor
Tsutomu Kobayashi
勉 小林
Shigemi Nakazato
茂美 中里
Yukio Nakamoto
幸夫 中本
Hiroshi Yamazaki
弘 山崎
Kunihiro Sakamoto
国博 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000363455A priority Critical patent/JP2002163291A/ja
Publication of JP2002163291A publication Critical patent/JP2002163291A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】複数の部分単語から構成される単語を辞書に登
録した場合でも、その単語の部分単語による複合語の抽
出を可能とし、また、意味のない単語生成を抑制する。 【解決手段】形態素解析辞書に登録された単語にどのよ
うな部分単語から構成されているのかを示す単語構成情
報および上記部分単語からの特定の単語の生成を抑制す
る抑制情報を付与しておく。この形態素解析辞書を参照
して検索キー文書および検索対象文書から単語を抽出し
た際に(D11,D12)、その部分単語を単語構成情
報に基づいて取得し、上記部分単語から所定数以下の単
語の組み合わせからなる複合語を生成する(D13〜1
5)。また、この複合語の中から上記抑制情報に基づい
て上記特定の単語を除外する(D16)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索キーとして与
えられた文書の内容に類似している文書を予めカテゴリ
ー分けされた検索対象文書データベースから抽出する類
似文書検索装置と、類似文書を検索するための類似文書
検索方法及び記録媒体に関する。
【0002】
【従来の技術】例えば、特許の引用文献等として用いら
れる各種文書をデータベース化しておき、その中から検
索キーとして与えられた文書(以下、検索キー文書と称
す)に類似する文書を自動検索するシステムがある。こ
のようなシステムでは、検索キー文書に含まれている単
語と検索対象となる文書(以下、検索対象文書と称す)
に含まれている単語とを比較し、共通する単語の種類、
出現場所、出現回数などからベクトル空間法などにより
類似度を算出して、類似度の高い文書を検索結果として
出力している。
【0003】このようなシステムにおいて、類似文書の
検索精度を向上させるには、検索キー文書と検索対象文
書との間で共通な単語を如何にして正しく抽出するかが
ポイントになってくる。文書からの単語抽出には形態素
解析を用いる場合が多いが、その形態素解析の解析ミス
を防ぐためには辞書(形態素解析辞書)の拡充が必要に
なってくる。
【0004】例えば、「相加平均」という文字列を正し
く単語切りするためには、「相加平均」という単語その
ものを辞書に登録しておくことで「相加平均」という単
語を抽出するか、あるいは、「相加」及び「平均」とい
う2つの単語を辞書に登録しておくことで「相加」及び
「平均」の2単語に分けて抽出する。
【0005】前者の方法は、様々な分野の様々な文章中
に出てくる単語総てを網羅した辞書を作成する必要があ
るが、1つの意味を表す単位で単語を抽出できるという
利点がある。後者の方法は、単語を構成する部品を登録
しておけば、それらを組み合わせて作成される単語につ
いては辞書登録の必要がなくなるが、単語抽出結果が1
つの意味を表す単位ではなく、単語の部品毎にばらばら
に分かれてしまうという問題がある。この問題を解決す
るために、後者の方法に加えて、複合語を生成する技術
が併用して用いられている。複合語生成技術を用いれ
ば、「相加」と「平均」を結合して「相加平均」といっ
た単語を抽出できる。
【0006】このように、複合語生成技術は、辞書への
登録数増加を抑えつつ、新たな専門用語等にも対応でき
るといった特徴を持つが、類似文書検索に応用した場合
には、以下のような問題点がある。
【0007】例えば、検索キー文書に、「筆文字宛名印
刷機能を中心とするソフトウェア」といった文章が含ま
れており、検索対象文書に、「筆文字で宛名印刷をする
機能を加えたソフトウェア」といった文章が含まれてい
たとする。
【0008】これらの文章から複合語生成技術を用いて
単語抽出を行うと、検索キー文書からは「筆文字宛名印
刷機能」、「中心」、「ソフトウェア」といった単語が
抽出され、検索対象文書からは「筆文字」、「宛名印
刷」、「機能」、「加える」、「ソフトウェア」といっ
た単語が抽出される。このため、両者から抽出された単
語に共通部分が少ないため両者の類似度は低くなってし
まう。これは、検索キー文書からは「筆」、「文字」、
「宛名」、「印刷」、「機能」を結合した「筆文字宛名
印刷機能」のみが抽出されたことによる。
【0009】このような問題に対し、特開平11−25
9487号公報では、予め指定された上限値以下の単語
から構成されるすべての複合語を抽出するといった方法
を提案している。例えば上限値を2とすると、検索キー
文書からは「筆」、「筆文字」、「文字」、「文字宛
名」、「宛名」、「宛名印刷」、「印刷」、「印刷機
能」、「機能」、「中心」、「ソフトウェア」といった
単語が抽出され、検索対象文書からは「筆文字」、
「筆」、「文字」、「宛名印刷」、「宛名」、「印
刷」、「機能」、「加える」、「ソフトウェア」という
単語が抽出されることになり、両者の共通単語を増やす
ことができる。
【0010】
【発明が解決しようとする課題】上述したように複合語
生成技術を用いれば、効果的に機能することがある反
面、場合によっては問題が生じることもある。そのうち
の最も大きな問題として、辞書の語彙拡充の影響を受け
やすいという問題が挙げられる。
【0011】すなわち、上記の例で、「筆文字宛名印刷
機能」といった単語を辞書に追加登録したとする。この
ような場合、形態素解析のルールでは文字数の多い単語
を優先するように定められているため、上記検索キー文
書からは、「筆文字宛名印刷機能」、「中心」、「ソフ
トウェア」といった単語しか抽出されない。つまり、辞
書に「筆文字宛名印刷機能」を登録したことで、今まで
出力されていた部分単語による複合語が出力されなくな
り、検索対象文書との共通単語が減ってしまうことにな
る。このように、辞書に新たな単語を追加しただけで単
語抽出に影響が生じるため、辞書への単語の拡充は慎重
に行わなければならないといった問題があった。
【0012】また、上記公報のように指定の単語数の範
囲内で複数の複合語を作成する方法では、すべての組み
合わせからなる複合語が抽出されるため、例えば「文字
宛名」のような意味不明な単語までも抽出されることに
なり、類似文書の検索精度に影響を与えるといった問題
があった。
【0013】本発明は上記の問題を解決するためになさ
れたものであり、複数の部分単語から構成される単語を
辞書に登録した場合でも、その単語の部分単語による複
合語の抽出を可能とし、また、意味のない単語生成を抑
制することのできる類似文書検索装置、類似文書検索方
法及び記録媒体を提供することを目的とする。
【0014】
【課題を解決するための手段】本発明は、検索キーとし
て与えられた文書に類似する文書を複数の検索対象文書
の中から検索する類似文書検索装置において、複数の部
分単語から構成された単語がその単語の構成を示す単語
構成情報と共に登録された形態素解析辞書と、この形態
素解析辞書を参照して上記検索キー文書及び上記検索対
象文書から単語を抽出する単語抽出手段と、この単語抽
出手段によって抽出された単語の部分単語を上記単語構
成情報に基づいて取得する部分単語取得手段と、この部
分単語取得手段によって得られた部分単語から所定数以
下の単語の組み合わせからなる複合語を生成する複合語
生成手段と、この複合語生成手段によって生成された複
合語を上記単語抽出手段による単語抽出結果に加え、こ
れらの単語の情報に基づいて上記検索キー文書と上記検
索対象文書情報との類似度を算出する類似度算出手段
と、この類似度算出手段によって算出された類似度に基
づいて上記複数の検索対象文書の中から上記検索キー文
書と類似する文書を検索する文書検索手段とを具備して
構成される。
【0015】このような構成によれば、形態素解析辞書
に登録された単語にどのような部分単語から構成されて
いるのかを示す単語構成情報を付与しておくことで、検
索キー文書及び検索対象文書から単語を抽出する際に、
その単語の部分単語による複合語も合わせて抽出するこ
とができる。
【0016】また、上記部分単語からの特定の単語の生
成を抑制する抑制情報を上記形態素解析辞書に登録され
た単語に付与しておくことで、複合語を生成する際に意
味不明な単語の生成を抑制して類似文書の検索精度を高
めることができる。
【0017】
【発明の実施の形態】以下、図面を参照しながら本実施
形態を説明する。
【0018】図1は本発明の一実施形態に係る類似文書
検索装置のハードウェア構成を示す図である。なお、本
装置は、例えば磁気ディスク等の記録媒体に記録された
プログラムを読み込み、このプログラムによって動作が
制御されるコンピュータによって実現される。
【0019】図1に示すように、本実施形態である類似
文書検索装置は、制御装置11、入力装置12、表示装
置13、メモリ14、外部記憶装置15から構成され、
各装置は互いにバスを介して結合されている。
【0020】制御装置11は中央演算処理装置(CP
U)からなり、メモリ14に予め記録されたプログラム
あるいは外部記憶装置15を介して記録媒体に記録され
たプログラムを読み込むことで本装置に関わる各種の処
理を実行する。
【0021】入力装置12はキーボード、ペン、マウ
ス、タブレットあるいはタッチパネル等からなり、文字
列、各種データの入力や指示を行う。
【0022】表示装置13はCRT(Cathode-ray tub
e)やLCD(Liquid Crystal Display)などのディス
プレイと表示コントローラからなり、検索結果やシステ
ムからユーザへの指示を表示する。
【0023】メモリ14はROM、RAM等からなり、
図2に示すように制御装置11が各種制御や処理を実行
するためのプログラム部21と、処理の際に必要なデー
タを格納するためのバッファ部22とからなる。
【0024】外部記憶装置15はハードディスク装置、
光磁気ディスク装置、フラッシュメモリ等の記憶装置と
そのコントローラからなり、装置の電源断の後に永続的
保存が必要なデータを格納する。具体的には図5に示す
ように、複数の検索対象文書をデータベース化した検索
対象文書データベース15aと、不要語とするパターン
を指定した不要語情報15bと、抽出対象となる品詞を
指定した抽出品詞情報15cと、文を形態素解析するた
めに必要な各単語の情報を収容した形態素解析辞書15
dと、複合語を生成するときの単語の最大接続数を示す
合成語最大接続数15eとを含む。
【0025】また、図3に示すように、メモリ14のプ
ログラム部21は、類似文献を検索するための検索キー
となる文書(検索キー文書)を入力するための検索キー
入力手段21aと、検索結果等を表示装置13に表示す
るための表示手段21bと、検索キー文書と検索対象文
書との類似度を算出する類似度算出手段21cと、不要
語情報15bを読み込むための不要語情報読み込み手段
21dと、抽出品詞情報15cを読み込むための抽出品
詞情報読み込み手段21eと、検索キー文書から単語情
報を抽出すると共に検索対象文書から単語情報を抽出す
る単語抽出手段21fと、検索キー文書と検索対象文書
との類似度に基づいて類似文書を選択するための類似文
書選択手段21gからなっている。
【0026】また、図4に示すように、メモリ14のバ
ッファ部22は、検索キー文書から得られた単語情報と
検索対象文書から得られた単語情報との類似度算出結果
を複数格納するための類似度格納バッファ22aと、外
部記憶装置15上に格納された不要語情報15bを読み
込むための不要語情報格納バッファ22bと、外部記憶
装置15上に格納された抽出品詞情報5dを読み込むた
めの抽出品詞情報格納バッファ22cと、形態素解析辞
書15dに収容された構成単語情報を読み込むための構
成単語情報格納バッファ22dと、形態素解析辞書15
dに収容された生成単語抑制情報を読み込むための生成
単語抑制情報格納バッファ22eと、検索キー文書を格
納するための検索キー格納バッファ22fと、検索キー
文書から抽出された単語情報を格納するための検索キー
抽出単語情報格納バッファ22gと、検索対象文書から
抽出された単語情報を格納するための検索対象文書抽出
単語情報格納バッファ22iと、各処理に必要なローカ
ル変数などを格納するための一時変数格納バッファ22
jと、合成語最大接続数を格納するための合成語最大接
続数格納バッファ22kとからなる。
【0027】また、図5に示す外部記憶装置15におい
て、検索対象文書データベース15aには検索対象とな
る各種の文書が分類分けされて格納されている。例えば
特許引用文献の調査であれば、各種の引用文献がその技
術分野毎にデータベース化されて登録されている。
【0028】不要語情報15bは、複合語の生成結果の
中で不要語として除去するものを指定した情報であり、
図6に示すようにワイルドカード「*」を用いて表現さ
れている。図6における「上記*」は「上記」という文
字列で始まる語はすべて不要語として扱うという意味で
あり、「本*」は「本」という文字列で始まる語はすべ
て不要語として扱うという意味である。
【0029】抽出品詞情報15cは、図7に示すように
複合語を合成する際に抽出対象とする品詞を指定した情
報である。図7の例は、名詞のみを抽出するという意味
である。
【0030】形態素解析辞書15dは、図8に示すよう
な構造を有しており、1レコードは「単語」、「品
詞」、「構成単語情報」、「生成単語抑制情報」の4項
目からなる。「単語」項目は単語の表記、「品詞」項目
は単語の品詞を示す。「構成単語情報」項目および「生
成単語抑制情報」項目は本発明の特徴部分であり、「構
成単語情報」項目は単語がどのような部分単語から構成
されているのかを示し、「生成単語抑制情報」は構成単
語情報を用いて複合語の合成をした際に生成を抑制する
単語を示す。
【0031】1レコード中、「単語」および「品詞」の
2項目は必須項目であり省略はできないが、「構成単語
情報」および「生成単語抑制情報」の2項目は記述の省
略ができる。図8の例で1レコード目の「本」という単
語の品詞は「名詞」であり、その単語に関する構成単語
情報および単語生成抑制情報は省略されている。また、
8レコード目の「筆文字宛名印刷機能」という単語の品
詞は「名詞」であって、この単語は「筆」、「文字」、
「宛名」、「印刷」、「機能」の5つの部分単語から構
成され、それぞれの単語の品詞はすべて名詞であり、
「文字宛名」という複合語は抑制するということを意味
している。本実施形態では、上記「筆文字宛名印刷機
能」を新たに辞書登録された単語(複数の部分単語から
なる単語)としている。
【0032】図9は検索キー文書の内容を示す図、図1
0は検索対象文書1の内容を示す図であり、検索キー文
書には「筆文字宛名印刷機能」といった単語が含まれて
いるものとする。
【0033】図11は図9の検索キー文書から単語を抽
出した場合の結果を示す図であり、「筆文字宛名印刷機
能」といった単語が辞書登録される前の単語抽出結果
と、辞書登録後の従来方式の単語抽出結果と本発明の方
式の単語抽出結果とを比較して示してある。
【0034】図12は図10の検索対象文書1から単語
を抽出した場合の結果を示す図であり、「筆文字宛名印
刷機能」といった単語が辞書登録される前の単語抽出結
果と、辞書登録後の単語抽出結果とを比較して示してあ
る。
【0035】図13は図9の検索キー文書と図10の検
索対象文書1との共通単語を示す図であり、「筆文字宛
名印刷機能」といった単語が辞書登録される前の共通単
語と、辞書登録後の従来方式の共通単語と本発明の方式
の共通単語とを比較して示してある。
【0036】図14は検索キー文書の形態素解析結果を
示す図であり、右側が「筆文字宛名印刷機能」を登録す
る前の形態素解析結果、左側が「筆文字宛名印刷機能」
を登録した後の形態素解析結果を示している。
【0037】図15は単語構成情報の読み込み結果を示
す図である。この例では、図9に示す検索キー文書から
抽出された「筆文字宛名印刷機能」の単語構成情報が示
されており、「筆」、「文字」、「宛名」、「印刷」、
「機能」といった部分単語とそれらの品詞(名詞)が単
語構成情報格納バッファ22dに格納されている。
【0038】図16は生成単語抑制情報の読み込み結果
を示す図である。この例では、図9に示す検索キー文書
から抽出された「筆文字宛名印刷機能」の生成単語抑制
情報が示されており、「文字宛名」といった単語が生成
単語抑制情報格納バッファ22eに格納されている。
【0039】図17は単語生成処理の過程を説明するた
めの図であり、図中のIとJは単語生成時に参照される
ローカル変数を示している。なお、詳しい説明は後に図
22を参照して行う。
【0040】次に、本装置の動作を図18乃至23に示
すフローチャートを参照して説明する。
【0041】図18は本装置の類似文書処理の動作を示
すフローチャートである。
【0042】本実施形態における類似文献検索装置の電
源が投入されると、ブートストラップ等の起動処理を経
て図18に示す処理を記述したプログラムがメモリ14
中のプログラム部21にロードされた後、実行される。
【0043】この処理では、まず、各バッファを初期化
するなどの初期化処理が行われた後(ステップA1
1)、外部記憶装置15から不要語情報15bおよび抽
出品詞情報15cが読み出されて、それぞれ不要語情報
格納バッファ22bおよび抽出品詞情報格納バッファ2
2cに格納される(ステップA12,A13)。不要語
情報15bは不要語として扱う単語を示す情報であり、
ここでは図6に示すように、「上記」という文字列で始
まる語と「本」という文字列で始まる語をすべて不要語
として扱うものとする。また、抽出品詞情報15cは抽
出対象とする品詞を示す情報であり、ここでは図7に示
すように「名詞」を対象とする。
【0044】続いて、外部記憶装置15に保存されてい
る合成語最大接続数15eが合成語最大接続数格納バッ
ファ22kに読み込まれる(ステップA14)。ここで
は、合成語最大接続数を2とする。これは、最大で2単
語を組み合わせた複合語を生成することを意味する。
【0045】このような処理を終えた後、制御装置11
は入力装置12を介して検索キーとして指定された文書
(検索キー文書)の入力処理を行い(ステップA1
5)、終了かどうかを判定し(ステップA16)、終了
でなければ類似文書検索処理を実行した後(ステップA
17)、再び検索キー入力処理に戻る。終了であれば、
終了処理を行って(ステップA18)、装置の動作は終
了する。
【0046】上記ステップA15で実行される検索キー
入力処理について図19を用いて説明する。
【0047】図19は本装置の検索キー入力処理の動作
を示すフローチャートである。
【0048】まず、制御装置11は検索キー入力手段2
1aを用いて入力装置12から検索キー文書を取得する
(ステップB11)。ここで、制御装置11は入力装置
12から終了ボタン等の押下による終了指示が送られた
かどうかを判定する(ステップB12)。終了指示がな
ければ(ステップB12のNo)、制御装置11は上記
検索キー文書を検索キー格納バッファ22fに格納した
後(ステップB13)、その内容を表示手段1bを通じ
て表示装置13に表示する(ステップB14)。
【0049】一方、終了指示があれば(ステップB12
のYes)、制御装置11は終了であることを表す値を
検索キー格納バッファ22fに格納し(ステップB1
5)、コール元にリターンする。本実施形態では、図9
に示すように、「本報告書は、筆文字宛名印刷機能を中
心とするソフトウェアに関するものである。」といった
文書が検索キーとして入力されたものとする。
【0050】なお、検索キー文書の入力は、予め検索キ
ーとして用意されている各種文書の中でユーザが選択し
た文書を入力する方法などがあるが、その入力方法につ
いては限定されるものではない。
【0051】次に、上記ステップA17で実行される類
似文書検索処理について図20を用いて説明する。
【0052】図20は本装置の類似文書検索処理の動作
を示すフローチャートである。
【0053】制御装置11は、まず、単語抽出手段21
fを用いて検索キー格納バッファ22fに格納された検
索キー文書から単語情報の抽出を行い、その単語抽出結
果を検索キー単語情報格納バッファ22gに入れる(ス
テップC11)。
【0054】ここで、制御装置11は、ローカル変数I
に初期値の1をセットすると共に、ローカル変数Nに検
索対象文書数をセットして(ステップC12)、I≦<
N(Iの値がN以下)という条件が満たされている間、
ステップC14〜C17の処理を繰り返す(ステップC
13)。
【0055】すなわち、制御装置11は、まず、予め検
索時に指定されている分類を対象として、検索対象文書
データベース15aの中からI番目の検索対象文書を検
索対象文書格納バッファ22hに読み込み(ステップC
14)、単語抽出手段21fを用いて検索対象文書格納
バッファ22hに格納した検索対象文書から単語情報の
抽出を行い、その単語抽出結果を検索対象文書単語情報
格納バッファ22iに格納する(ステップC15)。
【0056】次に、制御装置11は、類似度算出手段2
1cを用いて検索キー単語情報格納バッファ22fに格
納された検索キー文書の単語情報と検索対象文書単語情
報格納バッファ22iに格納された検索対象文書の単語
情報との類似度を算出し、その結果をI番目の文書類似
度として類似度格納バッファ22aに格納する(ステッ
プC16)。そして、ローカル変数Iの値を+1更新し
(ステップC17)、ステップC13の判断処理に戻
る。
【0057】このようにして、検索対象文書の数Nだけ
上記の処理が繰り返して実行されると、類似度格納バッ
ファ22aには検索キー文書に対する各検索対象文書毎
の類似度がセットされる。そこで、制御装置11は類似
文書選択手段21gを用いて類似度格納バッファ22a
に格納されたN個の検索対象文書との類似度から最も類
似の高い文書を類似文書として選択し(ステップC1
8)、その選択した文書を検索結果として表示手段21
bを用いて所定の形式で表示装置13に表示し(ステッ
プC19)、コール元にリターンする。
【0058】なお、類似文書の検索結果の表示は、例え
ば該当する文書の識別番号等を一覧形式で表示する方法
などがあるが、その表示方法については特に限定される
ものではない。
【0059】次に、上記ステップC11およびステップ
C15で実行される単語抽出処理について図21を用い
て説明する。
【0060】図21は本装置の単語抽出処理の動作を示
すフローチャートである。
【0061】制御装置11は、まず、形態素解析辞書1
5dに格納されている情報を用いて、文書の中から単語
を抽出するための形態素解析処理を行う。その際、形態
素解析した結果、抽出された単語に構成単語情報および
生成単語抑制情報が付与されていれば、それらの情報を
構成単語情報格納バッファ22dおよび生成単語抑制情
報格納バッファ22eにそれぞれ格納しておく(ステッ
プD11)。
【0062】ここでは例として、図9に示す検索キー文
書を図8に示す形態素解析辞書15dを用いて形態素解
析した結果を図14に示す。本発明の効果を確認するた
めに「筆文字宛名印刷機能」という単語を形態素解析辞
書15dに登録しない状態と登録した状態の両方の結果
を対比させて示してある。また、「筆文字宛名印刷機
能」といった単語が形態素解析辞書15dに登録されて
いる場合において、この単語には単語構成情報および生
成単語抑制情報が付与されているため、その情報が構成
単語情報格納バッファ22dおよび生成単語抑制情報格
納バッファ22eにそれぞれ読み込まれる。その様子を
図15および図16に示す。
【0063】次に、制御装置11は、上記形態素解析処
理によって得られた各単語を対象として単語抽出手段2
1fを用いて単語生成処理を行う(ステップD12)。
【0064】また、制御装置11は、構成単語情報の総
数をローカル変数nにセットすると共にローカル変数I
に初期値の1をセットした後(ステップD13)、I≦
Nの条件が成立する間、ステップD15〜ステップD1
8の処理を繰り返し行う(ステップD14)。ここでは
構成単語情報は「筆文字宛名印刷機能」のみについてい
るのでは構成単語情報の総数n=1であり、1回のルー
プでここでの処理を抜けることになる。
【0065】すなわち、I≦Nであるとき、制御装置1
1は構成単語情報(つまり、構成単語情報で示される部
分単語)に対して単語抽出手段21fを用いて単語生成
処理を行い(ステップD15)、その単語生成結果の中
に生成単語抑制情報で示された抑制単語が存在する場合
には(ステップD16のYes)、該当する単語を除外
する(ステップD17)。
【0066】このような処理を行った後、ローカル変数
Iの値を+1更新して、ステップD14に戻る。n回分
のループ処理を終えた後、コール元にリターンする。
【0067】次に、上記ステップD12およびステップ
D15で実行される単語生成処理について図22を用い
て説明する。
【0068】図22は本装置の単語生成処理の動作を示
すフローチャートである。
【0069】制御装置11は、まず、図18のステップ
A14で合成語最大接続数格納バッファ22kに読み込
んでおいた合成語最大接続数15eをローカル変数Mに
セットすると共に、処理対象となる単語の数をローカル
変数Pにセットする(ステップE11)。本実施形態で
は、合成語最大接続数15eを2としているので、ロー
カル変数Mには2がセットされる。処理対象単語の数P
は形態素解析の結果により得られた単語数であり、図1
4の右側の例(「筆文字宛名印刷機能」を登録した後の
解析結果)の場合には、ローカル変数Pには15がセッ
トされる。また、図21のステップD15の構成単語情
報からの単語生成時には図15に示すようにP=5とな
る。
【0070】ここで、制御装置11はローカル変数Iに
初期値の1をセットした後(ステップE12)、I≦P
の条件が成立する間、ステップE13〜E20の処理を
繰り返し行う(ステップE13)。
【0071】すなわち、制御装置11は、形態素解析結
果のI番目の単語の品詞が図18のステップA13cで
抽出品詞情報格納バッファ22bに読み込んだ抽出品詞
か否かを調べる(ステップE14)。本実施形態では、
図7に示すように抽出品詞は名詞のみなので、名詞であ
れば真となる。I番目の単語が抽出品詞であった場合に
は(ステップE14のYes)、制御装置11はローカ
ル変数Jに初期値の0をセットした後(ステップE1
5)、形態素解析結果により得られたI+J番目の単語
が抽出品詞I+J番目が抽出品詞が否かを調べ(ステッ
プE16)、抽出品詞であればステップE17の処理に
進み、抽出品詞でなければステップE20の処理に進
む。
【0072】I+J番目の単語が抽出品詞であった場合
(ステップE16のYes)、制御装置11はI番目か
らI+J番目までの単語を合成したものを作成し、それ
が不要語情報格納バッファ22bに格納されている不要
語情報に示される単語にマッチしない場合に単語抽出結
果に加え(ステップE17)、ローカル変数Jの値を+
1更新する(ステップE18)。本実施形態では、図6
に示すように、「上記」という文字列で始まる語と、
「本」という文字列で始まる語はすべて不要語として扱
われる。
【0073】ここで、ローカル変数Jの値を+1更新し
たとき、J<MかつI+J≦Pの条件を満たす場合には
(ステップE19のYes)、制御装置11は上記ステ
ップE16からの処理に戻って上記同様の処理を繰り返
す。一方、J<MかつI+J≦Pの条件を満たさない場
合には(ステップE19のYes)、ローカル変数Iの
値を+1更新して次の単語の処理に移る。また、上記ス
テップE14でI番目の単語が抽出品詞でなかった場合
または上記ステップE16でI+J番目の単語が抽出品
詞でなかった場合には、ローカル変数Iの値を+1更新
して次の単語の処理に移る。
【0074】ここで、図14の右側の形態素解析結果を
単語生成処理にかけた場合には、図17に示すような順
番で単語が生成されることになる。
【0075】すなわち、図17に示すように、まず、I
=1、J=0のとき、「本」といった単語が得られる
が、これは図7に示す抽出品詞(名詞)に該当するが、
図6に示す不要語に該当するため棄却される。また、I
=1、J=1のとき、「本報告書」といった単語が得ら
れるが、これも不要語に該当するため棄却される。ここ
で、J=2のときに、合成語最大接続数M=2(最大2
単語以下で複合語を生成する)の条件に一致するため、
次の単語生成に移る(I=I+1)。
【0076】I=2、J=0のとき、「報告書」が生成
される。この単語は抽出品詞と不要語の条件を満たすた
め、抽出単語として検索対象文書抽出単語情報格納バッ
ファ22iに格納される。次に、I=2、J=1のと
き、「報告書は」といった単語が得られるが、「報告書
は」の「は」は抽出品詞でないので次の単語生成に移る
(I=I+1)。
【0077】以下、同様にして、合成語最大接続数M=
2の範囲内で各単語を結合した複合語が生成されるが、
その際に抽出品詞でないものや、不要語であるものに関
しては除外されることになる。
【0078】その結果、図9に示す検索キー文書からは
「報告書」、「筆文字宛名印刷機能」、「中心」、「ソ
フトウェア」といった4つの単語が生成される。この場
合、「筆文字宛名印刷機能」には図15に示すような構
成単語情報があるので、これも単語生成処理にかけら
れ、この「筆文字宛名印刷機能」を構成する部分単語か
ら「筆」、「筆文字」、「文字」、「文字宛名」、「宛
名」、「宛名印刷」、「印刷」、「印刷機能」、「機
能」といった単語が生成される。ただし、このうちの
「文字宛名」といった単語については、生成単語抑制情
報で示された単語(意味不明な単語)に該当するため、
図21のステップD17の処理で除外される。
【0079】以上の処理をまとめると、図9の検索キー
文書からは図11に示すような単語が抽出され、図10
に示す検索対象文書1からは図12に示すような単語が
抽出されることになる。また、検索キー文書と検索対象
文書1との共通単語は図13に示すようになる。ここ
で、「登録前」とは「筆文字宛名印刷機能」を形態素解
析辞書15dに登録する前であり、「登録後」とは「筆
文字宛名印刷機能」を形態素解析辞書15dに登録した
後である。「登録後(旧)」とあるのは単語構成情報お
よび生成単語抑制情報を持たない従来方式による単語抽
出結果であり、「登録後(新)」とあるのは単語構成情
報および生成単語抑制情報を持った本方式による単語抽
出結果である。
【0080】次に、上記図20のステップC16で実行
される類似度算出処理について図23を用いて説明す
る。
【0081】図23は本装置の類似度算出処理の動作を
示すフローチャートである。
【0082】類似度算出処理には、一般的に単語ベクト
ル空間法等を用いることもできるが、ここでは簡便のた
めに単純な方法を使用する。
【0083】図23に示すように、検索キー文書と検索
対象文書の両者から抽出された単語種数をQ、両者の共
通単語数をRとした場合に(ステップF11)、R/Q
を検索キー文書と検索対象文書との類似度として計算す
る(ステップF12)。
【0084】ここで、図9に示した検索キー文書と図1
0に示した検索対象文書1との類似度を従来方式と本方
式とで比較すると、以下のようになる。
【0085】「筆文字宛名印刷機能」を形態素解析辞書
15dに登録する前は本方式を適用した場合としない場
合とで差異はない。この場合、検索キー文書からは図1
1の1段目に示すような単語が抽出され、検索対象文書
1からは図12の1段目に示すような単語が抽出され
る。
【0086】したがって、検索キー文書と検索対象文書
1との共通単語は図13の1段目のようになり、登録前
における両者の類似度は以下のようになる。
【0087】単語種数Qは「報告書」、「筆文字」、
「文字宛名」、「宛名印刷」、「印刷機能」、「筆」、
「文字」、「宛名」、「印刷」、「機能」、「中心」、
「ソフトウェア」の12個であり、共通単語数Rは「筆
文字」、「筆」、「文字」、「宛名印刷」、「宛名」、
「印刷」、「機能」、「ソフトウェア」の8個である。
よって、類似度R/Q=8/12=0.67となる。
【0088】一方、「筆文字宛名印刷機能」を形態素解
析辞書15dに登録した場合において、検索キー文書か
らの抽出単語は従来方式では図11の2段目のようにな
り、本方式では図11の3段目のようになる。また、検
索対象文書1からの抽出単語については、従来方式と本
方式共に、図12の2段目のようになる(検索対象文書
1には「筆文字宛名印刷機能」が存在しないため)。し
たがって、検索キー文書と検索対象文書1との共通単語
は図13の1段目のようになる。
【0089】したがって、従来方式では、検索キー文書
と検索対象文書1との共通単語は図13の2段目のよう
になり、両者の類似度は以下のようになる。
【0090】単語種数Qは「報告書」、「筆文字宛名印
刷機能」、「中心」、「ソフトウェア」、「筆文字」、
「筆」、「文字」、「宛名印刷」、「宛名」、「印
刷」、「機能」の11個であり、共通単語数Rは「ソフ
トウェア」のみで1である。よって、類似度R/Q=1
/11=0.09となり、従来方式では大幅に下がって
しまうことが分かる。
【0091】また、本方式を適用した場合には、検索キ
ー文書と検索対象文書1との共通単語は図13の3段目
のようになり、両者の類似度は以下のようになる。
【0092】単語種数Qは「報告書」、「筆文字宛名印
刷機能」、「中心」、「ソフトウェア」、「筆文字」、
「筆」、「文字」、「宛名印刷」、「宛名」、「印
刷」、「印刷機能」、「機能」の12となり、共通単語
数は「筆文字」、「筆」、「文字」、「宛名」、「印
刷」、「機能」、「ソフトウェア」の8となる。よっ
て、類似度R/Q=8/12=0.67となり、両者の
類似度を高くすることができる。
【0093】さらに、本方式では、「筆文字宛名印刷機
能」といった単語から最大接続数以下の単語数からなる
複合語を生成する際に、図11の3段目に示すように、
「文字宛名」といった意味不明の単語は排除される。し
たがって、このような意味不明の単語によって類似度の
値が乱れることもない。
【0094】以上のように本方式の適用することで、複
数の部分単語から構成される単語を辞書に登録した場合
でもその部分単語による複合語を抽出できる。これによ
り、従来困難であった形態素解析辞書への単語拡充が可
能となり、また、生成単語抑制情報を利用して意味不明
な単語生成を抑制することにより生成単語の品質を向上
させて類似文書の検索精度を高めることが可能となる。
【0095】なお、上述した実施形態において記載した
手法は、コンピュータに実行させることのできるプログ
ラムとして、例えば磁気ディスク(フロッピー(登録商
標)ディスク、ハードディスク等)、光ディスク(CD
−ROM、DVD等)、半導体メモリなどの記録媒体に
書き込んで各種装置に適用したり、通信媒体により伝送
して各種装置に適用することも可能である。本装置を実
現するコンピュータは、記録媒体に記録されたプログラ
ムを読み込み、このプログラムによって動作が制御され
ることにより、上述した処理を実行する。
【0096】
【発明の効果】以上詳記したように本発明によれば、形
態素解析辞書に登録された単語にどのような部分単語か
ら構成されているのかを示す単語構成情報を付与してお
くようにしたため、検索キー文書および検索対象文書か
ら単語を抽出する際に、その単語の部分単語による複合
語も合わせて抽出し、その複合語を単語抽出結果に加え
て類似文書を検索することができる。
【0097】また、上記部分単語からの特定の単語の生
成を抑制する抑制情報を上記形態素解析辞書に登録され
た単語に付与しておくことで、複合語を生成する際に意
味不明な単語の生成を抑制して類似文書の検索精度を高
めることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る類似文書検索装置の
ハードウェア構成を示す図。
【図2】上記類似文書検索装置に設けられたメモリの構
成を示す図。
【図3】上記メモリのプログラム部の構成を示す図。
【図4】上記メモリのバッファ部の構成を示す図。
【図5】上記類似文書検索装置に設けられた外部記憶装
置の構成を示す図。
【図6】不要語情報の内容を示す図。
【図7】抽出品詞情報の内容を示す図。
【図8】形態素解析辞書の構成を示す図。
【図9】検索キー文書の内容を示す図。
【図10】検索対象文書1の内容を示す図。
【図11】上記検索キー文書から単語を抽出した場合の
結果を示す図。
【図12】上記検索対象文書1から単語を抽出した場合
の結果を示す図。
【図13】上記検索キー文書と上記検索対象文書1との
共通単語を示す図。
【図14】上記検索キー文書の形態素解析結果を示す
図。
【図15】単語構成情報の読み込み結果を示す図。
【図16】生成単語抑制情報の読み込み結果を示す図。
【図17】単語生成処理の過程を説明するための図。
【図18】本装置の類似文書処理の動作を示すフローチ
ャート。
【図19】本装置の検索キー入力処理の動作を示すフロ
ーチャート。
【図20】本装置の類似文書検索処理の動作を示すフロ
ーチャート。
【図21】本装置の単語抽出処理の動作を示すフローチ
ャート。
【図22】本装置の単語生成処理の動作を示すフローチ
ャート。
【図23】本装置の類似度算出処理の動作を示すフロー
チャート。
【符号の説明】
11…制御装置 12…入力装置 13…表示装置 14…メモリ 15…外部記憶装置 15a…検索対象文書データベース 15b…不要語情報 15c…抽出品詞情報 15d…形態素解析辞書 15e…合成語最大接続数
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 坂本 国博 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 Fターム(参考) 5B075 ND03 NK31 PP02 PP03 PQ02 PR06 QM08

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 検索キーとして与えられた文書に類似す
    る文書を複数の検索対象文書の中から検索する類似文書
    検索装置において、 複数の部分単語から構成された単語がその単語の構成を
    示す単語構成情報と共に登録された形態素解析辞書と、 この形態素解析辞書を参照して上記検索キー文書および
    上記検索対象文書から単語を抽出する単語抽出手段と、 この単語抽出手段によって抽出された単語の部分単語を
    上記単語構成情報に基づいて取得する部分単語取得手段
    と、 この部分単語取得手段によって得られた部分単語から所
    定数以下の単語の組み合わせからなる複合語を生成する
    複合語生成手段と、 この複合語生成手段によって生成された複合語を上記単
    語抽出手段による単語抽出結果に加え、これらの単語の
    情報に基づいて上記検索キー文書と上記検索対象文書情
    報との類似度を算出する類似度算出手段と、 この類似度算出手段によって算出された類似度に基づい
    て上記複数の検索対象文書の中から上記検索キー文書と
    類似する文書を検索する文書検索手段とを具備したこと
    を特徴とする類似文書検索装置。
  2. 【請求項2】 検索キーとして与えられた文書に類似す
    る文書を複数の検索対象文書の中から検索する類似文書
    検索装置において、 複数の部分単語から構成された単語がその単語の構成を
    示す単語構成情報および上記部分単語からの特定の単語
    の生成を抑制する抑制情報と共に登録された形態素解析
    辞書と、 この形態素解析辞書を参照して上記検索キー文書および
    上記検索対象文書から単語を抽出する単語抽出手段と、 この単語抽出手段によって抽出された単語の部分単語を
    上記単語構成情報に基づいて取得する部分単語取得手段
    と、 この部分単語取得手段によって得られた部分単語から所
    定数以下の単語の組み合わせからなる複合語を生成する
    複合語生成手段と、 この複合語生成手段によって生成された複合語の中から
    上記抑制情報に基づいて上記特定の単語を除外する特定
    単語除外手段と、 この特定単語除外手段によって上記特定の単語が除外さ
    れた複合語を上記単語抽出手段による単語抽出結果に加
    え、これらの単語の情報に基づいて上記検索キー文書と
    上記検索対象文書情報との類似度を算出する類似度算出
    手段と、 この類似度算出手段によって算出された類似度に基づい
    て上記複数の検索対象文書の中から上記検索キー文書と
    類似する文書を検索する文書検索手段とを具備したこと
    を特徴とする類似文書検索装置。
  3. 【請求項3】 抽出対象となる品詞を指定する品詞指定
    手段を有し、 上記単語抽出手段は、上記品詞指定手段によって指定さ
    れた品詞の条件を満足する単語を上記検索キー文書およ
    び上記検索対象文書から抽出することを特徴とする請求
    項1または請求項2記載の類似文書検索装置。
  4. 【請求項4】 不要語を指定する不要語指定手段と、 上記単語抽出手段は、上記不要語指定手段によって指定
    された不要語を除いた単語を抽出することを特徴とする
    請求項1または請求項2記載の類似文書検索装置。
  5. 【請求項5】 検索キーとして与えられた文書と検索対
    象文書から形態素解析辞書を参照して単語の抽出を行
    い、その単語抽出結果から上記検索キー文書と上記検索
    対象文書との類似度を計算する類似文書検索方法であっ
    て、 上記形態素解析辞書に登録された単語にどのような部分
    単語から構成されているのかを示す単語構成情報を付与
    しておき、 上記形態素解析辞書を参照して上記検索キー文書および
    上記検索対象文書から単語を抽出した際に、その部分単
    語を上記単語構成情報に基づいて取得し、 上記部分単語から所定数以下の単語の組み合わせからな
    る複合語を生成し、 この生成された複合語を単語抽出結果に加え、これらの
    単語の情報に基づいて上記検索キー文書と上記検索対象
    文書情報との類似度を算出し、 この算出された類似度に基づいて上記複数の検索対象文
    書の中から上記検索キー文書と類似する文書を検索する
    ことを特徴とする類似文書検索方法。
  6. 【請求項6】 検索キーとして与えられた文書と検索対
    象文書から形態素解析辞書を参照して単語の抽出を行
    い、その単語抽出結果から上記検索キー文書と上記検索
    対象文書との類似度を計算する類似文書検索方法であっ
    て、 上記形態素解析辞書に登録された単語にどのような部分
    単語から構成されているのかを示す単語構成情報および
    上記部分単語からの特定の単語の生成を抑制する抑制情
    報を付与しておき、 上記形態素解析辞書を参照して上記検索キー文書および
    上記検索対象文書から単語を抽出した際に、その部分単
    語を上記単語構成情報に基づいて取得し、 上記部分単語から所定数以下の単語の組み合わせからな
    る複合語を生成し、 この生成された複合語の中から上記抑制情報に基づいて
    上記特定の単語を除外し、 上記特定の単語を除外した複合語を単語抽出結果に加
    え、これらの単語の情報に基づいて上記検索キー文書と
    上記検索対象文書情報との類似度を算出し、 この算出された類似度に基づいて上記複数の検索対象文
    書の中から上記検索キー文書と類似する文書を検索する
    ことを特徴とする類似文書検索方法。
  7. 【請求項7】 検索キーとして与えられた文書に類似す
    る文書を複数の検索対象文書の中から検索する類似文書
    検索機能を備えたコンピュータに、 複数の部分単語から構成された単語がその単語の構成を
    示す単語構成情報と共に登録された形態素解析辞書を参
    照して上記検索キー文書および上記検索対象文書から単
    語を抽出する単語抽出処理と、 この単語抽出処理によって抽出された単語の部分単語を
    上記単語構成情報に基づいて取得する部分単語取得処理
    と、 この部分単語取得処理によって得られた部分単語から所
    定数以下の単語の組み合わせからなる複合語を生成する
    複合語生成処理と、 この複合語生成処理によって生成された複合語を上記単
    語抽出手段による単語抽出結果に加え、これらの単語の
    情報に基づいて上記検索キー文書と上記検索対象文書情
    報との類似度を算出する類似度算出処理と、 この類似度算出処理によって算出された類似度に基づい
    て上記複数の検索対象文書の中から上記検索キー文書と
    類似する文書を検索する文書検索処理とを実行させるプ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体。
  8. 【請求項8】 検索キーとして与えられた文書に類似す
    る文書を複数の検索対象文書の中から検索する類似文書
    検索機能を備えたコンピュータに、 複数の部分単語から構成された単語がその単語の構成を
    示す単語構成情報および上記部分単語からの特定の単語
    の生成を抑制する抑制情報と共に登録された形態素解析
    辞書を参照して上記検索キー文書および上記検索対象文
    書から単語を抽出する単語抽出処理と、 この単語抽出処理によって抽出された単語の部分単語を
    上記単語構成情報に基づいて取得する部分単語取得処理
    と、 この部分単語取得処理によって得られた部分単語から所
    定数以下の単語の組み合わせからなる複合語を生成する
    複合語生成処理と、 この複合語生成処理によって生成された複合語の中から
    上記抑制情報に基づいて上記特定の単語を除外する特定
    単語除外処理と、 この特定単語除外処理によって上記特定の単語が除外さ
    れた複合語を上記単語抽出手段による単語抽出結果に加
    え、これらの単語の情報に基づいて上記検索キー文書と
    上記検索対象文書情報との類似度を算出する類似度算出
    処理と、 この類似度算出処理によって算出された類似度に基づい
    て上記複数の検索対象文書の中から上記検索キー文書と
    類似する文書を検索する文書検索処理とを実行させるプ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体。
JP2000363455A 2000-11-29 2000-11-29 類似文書検索装置、類似文書検索方法及び記録媒体 Pending JP2002163291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000363455A JP2002163291A (ja) 2000-11-29 2000-11-29 類似文書検索装置、類似文書検索方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000363455A JP2002163291A (ja) 2000-11-29 2000-11-29 類似文書検索装置、類似文書検索方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2002163291A true JP2002163291A (ja) 2002-06-07

Family

ID=18834569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000363455A Pending JP2002163291A (ja) 2000-11-29 2000-11-29 類似文書検索装置、類似文書検索方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2002163291A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141733A (ja) * 2003-10-15 2005-06-02 Tohoku Ricoh Co Ltd 類似文書検索システム、プログラム及び記憶媒体
JP2008210206A (ja) * 2007-02-27 2008-09-11 Shizuoka Prefecture 類似文章検索プログラム
JP2010231766A (ja) * 2009-03-02 2010-10-14 Fujitsu Ltd 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141733A (ja) * 2003-10-15 2005-06-02 Tohoku Ricoh Co Ltd 類似文書検索システム、プログラム及び記憶媒体
JP4557214B2 (ja) * 2003-10-15 2010-10-06 東北リコー株式会社 類似文書検索システム、プログラム及び記憶媒体
JP2008210206A (ja) * 2007-02-27 2008-09-11 Shizuoka Prefecture 類似文章検索プログラム
JP2010231766A (ja) * 2009-03-02 2010-10-14 Fujitsu Ltd 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法

Similar Documents

Publication Publication Date Title
TWI475406B (zh) 取決於上下文之輸入方法
JP2001043246A (ja) マルチメディア・データに対するユーザの認識を理解するための対話型フレームワーク
US20200285808A1 (en) Synonym dictionary creation apparatus, non-transitory computer-readable recording medium storing synonym dictionary creation program, and synonym dictionary creation method
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP2001318948A (ja) 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
US5864789A (en) System and method for creating pattern-recognizing computer structures from example text
WO2002021324A1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2991178B2 (ja) 音声ワープロ
CN111428503A (zh) 同名人物的识别处理方法及处理装置
WO2017193472A1 (zh) 一种东巴经典古籍数字化释读库的建立方法
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP3022539B1 (ja) 文書検索装置
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JPH07110845A (ja) 手書き入力情報処理管理システム
JP2002163291A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2002132789A (ja) 文書検索方法
JP3470930B2 (ja) 自然語解析方法及び装置
US20240168987A1 (en) Document retrieving apparatus and document retrieving method
EP1072986A2 (en) System and method for extracting data from semi-structured text
JPH0743728B2 (ja) 要約文生成方式