JPH09297766A - 類似文書検索装置 - Google Patents

類似文書検索装置

Info

Publication number
JPH09297766A
JPH09297766A JP8110870A JP11087096A JPH09297766A JP H09297766 A JPH09297766 A JP H09297766A JP 8110870 A JP8110870 A JP 8110870A JP 11087096 A JP11087096 A JP 11087096A JP H09297766 A JPH09297766 A JP H09297766A
Authority
JP
Japan
Prior art keywords
document
group
keyword
evaluation value
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8110870A
Other languages
English (en)
Inventor
Hiroyuki Nakajima
浩之 中島
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP8110870A priority Critical patent/JPH09297766A/ja
Publication of JPH09297766A publication Critical patent/JPH09297766A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の参照用文書から入力文書に類似する類
似文書候補を高い確度で特定し得る類似文書検索装置を
提供する。 【解決手段】 形態素解析部10により認識された入力
文書中のキーワードの個数を計数するキーワードカウン
ト部11、文書に含まれるキーワードを意味分類毎に仕
訳するキーワード意味分類決定部12、意味分類に応じ
た重要度と各意味分類に属するキーワードの個数に依存
する評価値を付与する意味分類評価値決定部14、及び
評価値に基づいて各参照用文書毎に類似度を付与する文
書類似度決定部16とを含んで類似文書検索装置を構成
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば種々の情報
検索システムや文書作成支援システム等に使用される文
書検索技術に係り、特に複数の参照用文書から入力文書
に含まれる語句に関連する文書候補を検索する類似文書
検索装置に関する。
【0002】
【従来の技術】類似文書検索装置は、予め蓄積されてい
る複数の参照用文書から入力文書の文章内容により合致
する、即ち類似する文書候補を検索する装置である。従
来より、この種の類似文書検索装置では、入力文書の所
定領域を形態素解析して文字、数字、記号、語、語句
(以下、この明細書では語句と称して説明する)を認識
するとともに、該入力文書に含まれる文章を特定の意味
表現を有するいくつかのキーワードに分解した上で、例
えば検索目的に応じた重要度のキーワードを含む度合い
が高い少なくとも一つの文書候補を複数の参照用文書か
ら選び出している。
【0003】具体例を図7から図9を参照して説明す
る。図7は、従来のこの種の類似文書検索装置の構成例
を示す図である。この類似文書検索装置は、形態素解析
部71、キーワードカウント部72、キーワード評価値
決定部74、文書類似度決定部76、及びキーワード重
要度辞書73のほか、キーワードカウント辞書75など
の辞書類を含んで構成される。
【0004】いま、この類似文書検索装置に、図9
(ト)に例示する文章「類似した文書を検索する装置を
開発・・・・」が記述されている入力文書が入力された
とする。形態素解析部71は、この文章の所定領域を形
態素解析してキーワードを認識するとともに各キーワー
ドにその品詞情報「類似(サ変名詞)」,「文書(名
詞)」・・・付する。図9(チ)は形態素解析部71の
出力例を示すものである。
【0005】キーワードカウント部72は、形態素解析
部71の出力から上記文章に含まれる各々のキーワード
の個数をカウントするとともに、キーワード別にその個
数を出力する。図9(リ)は、キーワードカウント部7
2の出力例を示すものである。キーワード評価値決定部
74は、キーワードカウント部72からの出力(キーワ
ードの個数)と、図8(a)に例示されるように予めキ
ーワード毎に定められた重要度「類似:100」,「検
索:50」・・・が記録されているキーワード重要度辞
書73とを参照しながら各キーワードに対する評価値を
計算するとともに、この評価値を出力する。
【0006】評価値は、各キーワードに対して与えられ
た重要度と入力文書に含まれるキーワードの個数の積で
得られる数、あるいは、重要度と個数の対数の積で得ら
れる数とする方法が考えられている。この方法は、TF
/IDF法と呼ばれているもので、Mc-Graw-Hill Publi
shing Company から出版されているGerard Salton等に
よる著書“Introduction to Modern Information Retri
eval”の記載が参考になる。図9(ヌ)は、前者の手法
を用いたキーワード評価値決定部74の出力例を示すも
のである。
【0007】文書類似度決定部76は、キーワード評価
値決定部74からの出力と、図8(b)に例示されるよ
うにどのキーワードがどの参照用文書に何個含まれてい
るかが記録されたキーワードカウント辞書75とを参照
して、各参照用文書のそれぞれに対して類似度を付与す
る。また、類似度の高い順に類似文書候補とする。この
文書類似度決定部76における参照用文書の類似度は、
キーワードの重要度と各参照用文書中のキーワードの個
数から上記TF/IDF法などによって決定される。実
際には、検索処理時間の短縮のために相対的に評価値の
高いキーワードを適当に取り出して類似度の計算に使用
する。図9(ル)は、この文書類似度決定部76の出力
例であり、各参照用文書に対応する文書識別コード、例
えば文書番号を類似度の高い順に類似文書候補とした場
合の例が示されている。
【0008】
【発明が解決しようとする課題】上述の類似文書検索装
置では、予め固定的に与えられたキーワード重要度辞書
73を参照しているため、複数の意味が派生するキーワ
ードに対して入力文書中における本来の意味を考慮され
ることなく不当な重要度が与えられる可能性が高い。そ
のため、不当な重要度に基づいて評価値及び類似度の決
定を行った場合に、確度の高い類似検索ができないとい
った問題があった。
【0009】このことを簡単な例を挙げて説明する。上
述の類似文書検索装置のキーワード重要度辞書73にお
いて、例えばキーワードAの重要度が”10”、キーワ
ードBの重要度が”100”、キーワードCの重要度
が”10”で与えられており、キーワードCは、それぞ
れ意味内容の異なるキーワードA及びキーワードBの共
通の短縮表現で使われるものとする。この場合に、入力
文書に含まれるキーワードBがキーワードCに置き換え
られていると、キーワード重要度辞書73を使用する際
に、その文書は、キーワードB”100”に関してはそ
れと同義のキーワードCの重要度”10”をもって評価
されて、不当に低いものとなる。そのため、キーワード
文書類似度決定部76における類似度の決定精度が悪く
なる。
【0010】逆に、キーワード重要度辞書73において
キーワードAが重要度”10”であるのに対し、キーワ
ードCがキーワードBと同様の重要度”100”が与え
られている場合、キーワードAがその短縮表現であるキ
ーワードCに置き換えられている入力文書を扱うと、そ
の入力文書中のキーワードA”10”に関してはそれと
同義のキーワードCの重要度”100”をもって評価さ
れて、不当に高いものとなる。この場合も、文書類似度
決定部76における類似度の決定精度が悪くなる。
【0011】本発明の課題は、入力文書に含まれる各キ
ーワードに正当な重みを付与して文書間の類似度を正し
く決定する類似文書検索装置を提供することにある。
【0012】
【課題を解決するための手段】上記課題を解決するた
め、本発明は、入力文書の所定領域を形態素解析して該
入力文書に記述された語句を自動認識する文字認識手段
と、複数の参照用文書から前記認識された語句に関連す
る少なくとも一つの類似文書候補を特定する類似文書特
定手段とを備えた類似文書検索装置を提供する。この類
似文書検索装置において、類似文書特定手段は、文字認
識手段で認識された語句群をそれぞれ相異なる値に重み
付けられた複数のグループ、例えば語句の利用目的に応
じた重み係数が付された意味グループに分類仕訳する第
1手段、個々のグループに分類された語句の数に応じて
各グループの重み評価値を演算する第2手段、及び複数
の参照用文書に含まれるグループの各々に前記演算手段
より算出された重み評価値を付与して各参照用文書を差
別化する第3手段を含んで構成することを特徴としてい
る。
【0013】本発明の類似文書検索装置における好まし
い態様として、前記第1手段ないし第3手段を以下のよ
うに構成する。第1手段を、例えば単一グループに属す
る語句名と当該グループ名、及び複数グループに属する
可能性のある語句名と各グループ名がそれぞれ対応付け
られた第1辞書と、前記文字認識手段で認識された語句
が属するグループを前記第1辞書を照合して決定するグ
ループ決定部とを備えて構成し、該グループ決定部は、
複数グループに属する可能性のある語句については対応
関係にある各単一グループに属している語句数に応じて
いずれか一のグループを決定するようにする。第2手段
を、個々のグループに属する語句数の増加に伴い当該グ
ループについての重み評価値を高くするように構成す
る。第3手段を、複数の参照用文書の各々の文書識別コ
ードと各参照用文書に含まれるグループ別の語句数とを
対応付けて蓄積した第2辞書と、第2辞書に蓄積されて
いる各グループにそれぞれ前記算出された重み評価値を
付与して文書識別コード毎の総合評価値を導出するとと
もに、この総合評価値の相対的大小に応じて参照用文書
の前記入力文書への類似度を決定する類似度決定部と、
を備えて構成する。
【0014】
【発明の実施の形態】以下、複数の参照用文書から入力
文書に含まれる文章の意味表現に類似するものを索出す
る類似文書検索装置を例に挙げて本発明の実施形態を説
明する。図1は、本発明の一実施形態に係る類似文書検
索装置の構成図であり、語句としてキーワード、グルー
プとしてキーワードの意味を表す意味分類を用い、さら
に第1辞書として、類義語を各キーワードがそれぞれ属
する意味分類と対応付けて蓄積したシソーラス辞書を用
いる場合の例を示すものである。
【0015】図1に示されるように、本実施形態の類似
文書検索装置は、形態素解析部10、キーワードカウン
ト部11、キーワード意味分類決定部12、意味分類評
価値決定部14、文書類似度決定部16のほか、キーワ
ード意味分類決定部12が参照するシソーラス辞書13
と、意味分類評価値決定部14が参照する意味分類重要
度辞書15と、文書類似度決定部16が参照する意味分
類カウント辞書17とを含んで構成される。辞書13〜
15を除く各部10,11,12,14,16は、例え
ばプログラムされたコンピュータ内に実現される機能モ
ジュールである。この場合、辞書13〜15及び各機能
モジュールを各々独立した装置構成体ないしシステム構
成体として存在させてもよく、あるいはコンピュータに
諸機能を付与し得るようにするため、コンピュータが読
み取り可能な態様で共通の情報記憶媒体に固定させるよ
うにしてもよい。要は、コンピュータが稼働したとき
に、上記各機能モジュールが該コンピュータ内に形成さ
れればよい。本実施形態では、従来例との相違を明確に
するため、便宜上、各々独立した装置構成体として各機
能モジュールが存在するものとして説明する。
【0016】この類似文書検索装置の動作例を図2ない
し図6を参照して説明する。いま、図3(イ)に例示す
る文章「マッキントッシュをマックと呼ぶことが流行し
ている。・・・」が記述されている文書が入力されたと
する。ここにマッキントッシュはアップル社のコンピュ
ータの商標であり、「マック」はその愛称である。形態
素解析部10は、この入力文書の所定領域を形態素解析
して文章中の語句を認識するとともに、文章からキーワ
ード単位「マッキントッシュ」,「マック」・・・を抽
出してそれぞれ品詞情報を付する。図3(ロ)は形態素
解析部10の出力例を示すものである。
【0017】キーワードカウント部11は、形態素解析
部10の出力に基づいて入力文書中の各キーワードの個
数をカウントする。図3(ハ)は、キーワードカウント
部12の出力例であり、ここでは、入力文書中に「マッ
ク」が2個、「マッキントッシュ」が10個・・・が含
まれていたことが示されている。キーワード意味分類決
定部12は、シソーラス辞書13を参照して、キーワー
ドカウント部11の出力結果を分類仕訳し、キーワード
個数を意味分類毎に出力する。
【0018】シソーラス辞書13の内容例を図2(a)
に示す。図示の例では、キーワード「マッキントッシ
ュ」が意味分類「1」、キーワード「マクドナルド(マ
クドナルド社の商標:以下同じ)」が意味分類「2」、
キーワード「マック」が意味表現「1,2」、キーワー
ド「流行」が意味分類「3」に属している。なお、「マ
ック」の意味分類「1,2」は、「マック」のキーワー
ドが「マッキントッシュ」と「マクドナルド」の双方に
属する可能性があることを意味している。上記シソーラ
ス辞書13を参照した場合の意味分類の特定と各意味分
類毎のキーワード個数のカウント処理の概要を示したも
のが図4である。
【0019】図4を参照すると、まず、「マッキントッ
シュ」や「マクドナルド」のように一つの意味分類のみ
に属するキーワードについて、その意味分類毎にキーワ
ード個数を加算する。次に、「マック」のように複数の
意味分類に属しているキーワードについては、最も合計
個数の多い意味分類に属する一のキーワードを決定する
ことで、それが属する意味分類を一つに絞る。例えば図
4の例では、キーワード「マッキントッシュ」が10個
であるのに対し、キーワード「マクドナルド」は0個で
ある。従って、「マック」のキーワードは、「マッキン
トッシュ」の意味分類「1」に属すると決定し、その個
数”2”を意味分類「1」に加算する。その結果、キー
ワード意味分類決定部12では、意味分類「1」に属す
るキーワードが12個、意味分類「3」に属するキーワ
ードが5個のように決定する。このキーワード意味分類
決定部12の出力例を図3(二)に示す。なお、キーワ
ード意味分類決定部12において、全てのキーワードを
処理する代わりに、個数の多いキーワードを選択的に処
理することも可能である。
【0020】意味分類評価値決定部14は、意味分類重
要度辞書15を参照して、上記キーワード意味分類決定
部12から出力された意味分類毎のキーワード個数を用
いて各意味分類についての評価値を決定する。図2
(b)は意味分類重要度辞書15の内容例であり、各意
味分類に予め語句の利用目的に応じた重み付け、例えば
従来装置と同様の重要度が付与されている様子が示され
ている。図示の例では、意味分類「1」に重要度”1
0”、意味分類「2」に重要度”4”、意味分類「3」
に重要度”2”・・・が付与されている。
【0021】この意味分類評価値決定部14における評
価値の決定手順は図5に示すとおりであり、キーワード
意味分類決定部12から出力された意味分類毎のキーワ
ード個数と、意味分類重要度辞書15において与えられ
た当該意味分類の重要度との積で与えられる。なお、こ
れ以外にも、意味分類の重要度とその意味分類に属する
キーワードの個数の対数をとったものとの積をその意味
分類の評価値とする方法もある。図3(ホ)は意味分類
評価値決定部14の出力例であり、意味分類「1」の評
価値が”120”、意味分類「3」の評価値が”10”
となる様子が示されている。
【0022】文書類似度決定部16では、意味分類カウ
ント辞書17を参照し、意味分類評価値決定部14の出
力結果に基づいて入力文書に類似する度合い、即ち類似
度の高い文書候補を特定する。意味分類カウント辞書1
7は、蓄積中の各文書においてどの意味分類に何個のキ
ーワードが含まれているかを個々の文書に対応した文書
番号と共に記憶したものである。図2(c)はその内容
例を示すものであり、図示の例では、意味分類「1」に
ついては文書番号「12」に4個、文書番号「24」に
5個・・・対応付けられており、意味分類「2」につい
ては文書番号「8」に6個・・・が対応付けられてい
る。
【0023】参照用文書における類似度の尺度として
は、例えば、入力文書中に登場する意味分類の評価値
と、その意味分類に属するキーワードが文書中で使われ
ている回数の対数をとったものとの積を全ての意味分類
について足し合わせたものなどが用いられる。図3
(ヘ)は、このような尺度を用いた場合の文書類似度決
定部16の出力例であり、入力文書に対する類似度の高
い順に、文書番号「24」,「12」,「1002」,
「64」・・・に対応する参照用文書が候補になる様子
が示されている。なお、文書間の類似度の決定に際して
は、全ての意味分類でなく、評価値の大きい意味分類の
みを選んで処理することも可能である。
【0024】次に、上記意味分類カウント辞書17への
意味分類の登録ないし削除手順について説明する。上述
の入力文書は、それを次の参照用文書として利用するこ
とができる。図6は、上述の入力文書についての処理結
果を意味分類カウント辞書17へ登録する例を示すもの
である。
【0025】図6に示されるように、入力文書を形態素
解析部10、キーワードカウント部11、及びキーワー
ド意味分類決定部12の順に処理することは上述の実施
形態の場合と同様である。即ち入力文書に含まれる意味
分類「1」,「3」・・・と各意味分類に属するキーワ
ードの個数とを抽出し、これを新たな文書識別コードで
ある文書番号「100」と共に意味分類カウント辞書1
7に登録する。登録内容を削除する場合は、文書番号
「100」を削除するとともに、各意味分類の数値を減
算する。
【0026】このように、本実施形態の類似文書検索装
置では、シソーラス辞書13を用いて類義のキーワード
についての重要度を正しく決定しているので、確度の高
い類似文書検索を行うことができ、従来の問題点が解消
される。
【0027】
【発明の効果】上述の説明から明らかなように、本発明
によれば、入力文書に正当な重みが付与されるので、文
書間の類似度が語句正しく決定され、参照用文書からの
類似文書候補の決定精度が高まる、という特有の効果が
ある。
【図面の簡単な説明】
【図1】本発明の一実施形態による類似文書検索装置の
ブロック構成図。
【図2】(a)はシソーラス辞書の内容例、(b)は意
味分類重要度辞書の内容例、(c)は意味分類カウント
辞書の内容例を示す説明図。
【図3】(イ)は本実施形態による入力文書中の文章
例、(ロ)は形態素解析部の出力例、(ハ)はキーワー
ドカウント部の出力例、(ニ)はキーワード意味分類決
定部の出力例、(ホ)は意味分類評価値決定部の出力
例、(ヘ)は文書類似度決定部の出力例を示す説明図。
【図4】本実施形態によるキーワード意味分類決定部の
処理概要の説明図。
【図5】本実施形態による意味分類評価値決定部の評価
値決定過程の説明図。
【図6】本実施形態による意味分類カウント辞書への登
録処理の説明図。
【図7】従来の類似文書検索装置のブロック構成図。
【図8】(a)は従来装置によるキーワード重要度辞書
の内容例、(b)はキーワードカウント辞書の内容例を
示す説明図。
【図9】(ト)は従来装置における入力文書中の文章
例、(チ)は形態素解析部の出力例、(リ)はキーワー
ドカウント部の出力例、(ヌ)はキーワード評価値決定
部の出力例、(ル)は文書類似度決定部の出力例を示す
説明図。
【符号の説明】
10,71 形態素解析部 11,72 キーワードカウント部 12 キーワード意味分類決定部 13 シソーラス辞書 14 意味分類評価値決定部 15 意味分類重要度辞書 16,76 文書類似度決定部 17 意味分類カウント辞書 73 キーワード重要度辞書 74 キーワード評価値決定部 75 キーワードカウント辞書

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力文書の所定領域を形態素解析して該
    入力文書に記述された語句を自動認識する文字認識手段
    と、 複数の参照用文書から前記認識された語句に関連する少
    なくとも一つの類似文書候補を特定する類似文書特定手
    段とを備え、 前記類似文書特定手段は、前記文字認識手段で認識され
    た語句群をそれぞれ相異なる値に重み付けられた複数の
    グループに分類仕訳する第1手段、個々のグループに分
    類された語句の数に応じて各グループの重み評価値を演
    算する第2手段、及び前記複数の参照用文書に含まれる
    グループの各々に前記演算手段より算出された重み評価
    値を付与して各参照用文書を差別化する第3手段を含ん
    で構成されていることを特徴とする類似文書検索装置。
  2. 【請求項2】 前記第1手段は、単一グループに属する
    語句名と当該グループ名、及び複数グループに属する可
    能性のある語句名と各グループ名がそれぞれ対応付けら
    れた第1辞書と、前記文字認識手段で認識された語句が
    属するグループを前記第1辞書を照合して決定するグル
    ープ決定部とを有し、該グループ決定部は、複数グルー
    プに属する可能性のある語句については対応関係にある
    各単一グループに属している語句数に応じていずれか一
    のグループを決定することを特徴とする請求項1記載の
    類似文書検索装置。
  3. 【請求項3】 前記第2手段は、個々のグループに属す
    る語句数の増加に伴い当該グループについての重み評価
    値を高くするように構成されていることを特徴とする請
    求項1または2記載の類似文書検索装置。
  4. 【請求項4】 前記第3手段は、複数の参照用文書の各
    々の文書識別コードと各参照用文書に含まれるグループ
    別の語句数とを対応付けて蓄積した第2辞書と、 第2辞書に蓄積されている各グループにそれぞれ前記算
    出された重み評価値を付与して文書識別コード毎の総合
    評価値を導出するとともに、この総合評価値の相対的大
    小に応じて参照用文書の前記入力文書への類似度を決定
    する類似度決定部と、を有することを特徴とする請求項
    1ないし3のいずれかの項記載の類似文書検索装置。
  5. 【請求項5】 前記グループは、語句の利用目的に応じ
    た重み係数が付与された意味グループであることを特徴
    とする請求項1ないし4のいずれかの項記載の類似文書
    検索装置。
JP8110870A 1996-05-01 1996-05-01 類似文書検索装置 Pending JPH09297766A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8110870A JPH09297766A (ja) 1996-05-01 1996-05-01 類似文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8110870A JPH09297766A (ja) 1996-05-01 1996-05-01 類似文書検索装置

Publications (1)

Publication Number Publication Date
JPH09297766A true JPH09297766A (ja) 1997-11-18

Family

ID=14546794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8110870A Pending JPH09297766A (ja) 1996-05-01 1996-05-01 類似文書検索装置

Country Status (1)

Country Link
JP (1) JPH09297766A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2004501421A (ja) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド 文書用メタデータ生成のための方法と装置
JP2008251025A (ja) * 2008-05-02 2008-10-16 Sharp Corp 情報閲覧装置および情報処理装置
JP2008287324A (ja) * 2007-05-15 2008-11-27 Just Syst Corp 検索方法、検索プログラム、および検索装置
JP2018124617A (ja) * 2017-01-30 2018-08-09 三菱重工業株式会社 教師データ収集装置、教師データ収集方法、及びプログラム
US11829719B2 (en) 2018-10-17 2023-11-28 Nippon Telegraph And Telephone Corporation Data processing device, data processing method, and data processing program
US11900051B2 (en) 2019-06-24 2024-02-13 Nippon Telegraph And Telephone Corporation Data processing device, data processing method, and data processing program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322416A (ja) * 1999-05-06 2000-11-24 Ntt Data Corp 文書検索装置
JP2004501421A (ja) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド 文書用メタデータ生成のための方法と装置
JP2008287324A (ja) * 2007-05-15 2008-11-27 Just Syst Corp 検索方法、検索プログラム、および検索装置
JP2008251025A (ja) * 2008-05-02 2008-10-16 Sharp Corp 情報閲覧装置および情報処理装置
JP2018124617A (ja) * 2017-01-30 2018-08-09 三菱重工業株式会社 教師データ収集装置、教師データ収集方法、及びプログラム
US11829719B2 (en) 2018-10-17 2023-11-28 Nippon Telegraph And Telephone Corporation Data processing device, data processing method, and data processing program
US11900051B2 (en) 2019-06-24 2024-02-13 Nippon Telegraph And Telephone Corporation Data processing device, data processing method, and data processing program

Similar Documents

Publication Publication Date Title
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
US7899816B2 (en) System and method for the triage and classification of documents
Al-Hashemi Text Summarization Extraction System (TSES) Using Extracted Keywords.
JP2742115B2 (ja) 類似文書検索装置
JPH096799A (ja) 文書分類装置及び文書検索装置
JPS6330648B2 (ja)
JP3198932B2 (ja) 文書検索装置
JPH01112331A (ja) キーワード重要度自動評価装置
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
JPH09297766A (ja) 類似文書検索装置
JPH11120183A (ja) キーワード抽出方法及び装置
JPH06314297A (ja) 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JPH05282367A (ja) 関連キーワード自動生成装置
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
Junker et al. Evaluating ocr and non-ocr text representations for learning document classifiers
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法
JP3368301B2 (ja) 文書処理装置および方法
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
JP2004280316A (ja) 分野判定装置及び言語処理装置
JP2003271616A (ja) 文書分類装置、文書分類方法及び記録媒体