JPH0378872A - 文書の分野推定システム - Google Patents

文書の分野推定システム

Info

Publication number
JPH0378872A
JPH0378872A JP1216328A JP21632889A JPH0378872A JP H0378872 A JPH0378872 A JP H0378872A JP 1216328 A JP1216328 A JP 1216328A JP 21632889 A JP21632889 A JP 21632889A JP H0378872 A JPH0378872 A JP H0378872A
Authority
JP
Japan
Prior art keywords
field
document
degree
fields
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1216328A
Other languages
English (en)
Inventor
Sachiko Monma
門馬 佐知子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1216328A priority Critical patent/JPH0378872A/ja
Publication of JPH0378872A publication Critical patent/JPH0378872A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文書の分野推定システムに関するものである。
〔従来の技術〕
文書の分野とは、主として技術文書に記述された技術内
容の属する分野であり、例えば「電気」。
「情報処理」といったものである。
ところで、文書を機械翻訳する際には、訳語品質を向上
させるため、一般辞書の他に分野別辞書を併用すること
が行われており、その際に分野を推定する必要が生じる
。また、論文等のキーワードの抽出や抄録執筆の担当者
を選定したりする場合等にも文書の分野を推定する必要
が生じる。
従来、このような文書の分野推定は専ら人間が行ってお
り、担当者が文書を読んで分野を推定していた。
〔発明が解決しようとする課題〕
上述したように、従来の文書の分野推定は人間によって
行われていたため、次のような欠点があった。
■人間の作業であるため非常に手間がかかり、時間もか
かる。
■人間の作業であるためミスの生じる可能性が高い。
■その文書の属する分野の専門家でないと推定できない
場合があり、柔軟性に欠ける。
本発明は上記の点に鑑み提案されたものであり、その目
的とするところは、充分な精度で機械的に文書の分野を
推定することのできる文書の分野推定システムを提供す
ることにある。
〔課題を解決するための手段〕
本発明は上記の目的を達成するため、 分野推定の対象となる文書から一部分を入力する入力部
と、 入力された文書を語切りして辞書引きする語を決定し、
1つ以上の分野別辞書を引くことによりその語の属する
分野およびその分野での出現の度合を示す特化度を得る
と共に、属する分野の全ての組み合わせをキーとして知
識ベースから分野間の関連度を示す分野関連度を得、こ
れらより総合的に文書の分野を推定する分野推定部と、
推定した結果を出力する出力部とを備えるようにしてい
る。
〔作用〕
本発明の文書の分野推定システムにあっては、人力部が
分野推定の対象となる文書から一部分を入力し、分野推
定部が、入力された文書を語切りして辞書引きする語を
決定し、1つ以上の分野別辞書を引くことによりその語
の属する分野およびその分野での出現の度合を示す特化
度を得ると共に、属する分野の全ての組み合わせをキー
として知識ベースから分野間の関連度を示す分野関連度
を得、これらより総合的に文書の分野を推定し、出力部
が推定した結果を出力する。
〔実施例〕
以下、本発明の実施例につき図面を参照して説明する。
第1図は本発明の文書の分野推定システムの一実施例を
示す構成図である。第1図において、本実施例は、機能
部として入力部1と分野推定部2と出力部5とを備えて
おり、分野別辞書31〜3nおよび知識ベース4は分野
推定部2における処理で使用される情報である。各部の
詳細は次の通りである。
入力部1;分野推定の対象となる文書から一部分を入力
する機能を有している。
分野別辞書31〜3n:第2図に例示するように、各分
野毎に使用される語と統語情報と意味情報とその語のそ
の分野での出現の度合を示す特化度とを対応して格納し
たものである。
知識ベース4;第3図に例示するように、2つの分野の
組み合わせに対して、それらの分野間の関係の強さを示
す分野関連度を格納したものである。
分野推定部2;大入力1によって入力された文書を語切
りして辞書引きする語を決定し、1つ以上の分野別辞書
31〜3nを引くことによりその語の属する分野および
特化度を得ると共に、属する分野の全ての組み合わせを
キーとして知識ベース4から分野関連度を得、これらよ
り総合的に文書の分野を推定する機能を有している。
出力部5;分野推定部2が推定した結果を出力する機能
を有している。
第4図は上記の実施例の動作を示したフローチャートで
あり、以下、具体例を用いて上記の実施例の動作を説明
する。
入力部1は予め指定された規則に従って文書の一部分を
入力する(ステップ31)。この規則とは、例えば、題
名と要約のみ、あるいは、最初の10文を読み込む等で
ある。ここでは、題名と要約のみを読み込むことにする
。なお、文書の一部分のみを入力するのは、推定におい
て全ての文書は必要でないことと、処理を短時間で終了
させるためとである。
分野推定部2は、先ず、人力された文書を語切りし、予
め指定された規則に従って辞書引きする語を決める(ス
テップS2)。この規則とは、例えば、助詞、助動詞で
ない語、あるいは、名詞のみ等である。ここでは、名詞
のみを辞書引きの対象語とすると、第5図(a)の入力
文書に対して第5図fblのような語が対象語として抽
出される。
分野推定部2は決定された語を1つずつキーとし、予め
指定された規則に従って分野別辞書31〜3nを引き、
各部が属する分野および特化度を得る(ステップ33)
。この規則とは、例えば、「電気」、「情報処理」、・
・・の順に分野別辞書を引く等である。第5図fblの
語をキーとして辞書引きした結果を示せば第5図(cl
のようになる。
分野推定部2は辞書引きの結果として得られた各分野の
全゛ての組み合わせをキーとし、分野関連度を格納して
いる知識ベース4から各組み合わせ毎の分野関連度を得
る(ステップS4)。第5図(C)の結果からは ・電気、情報処理 ・電気、工学 ・情報処理、建築 等の組み合わせができ、それぞれの分野関連度は第5図
+d+のようになる。なお、時化度の他に分野関連度を
考慮に入れているのは、たまたま時化度の高い語が存在
する場合に、それのみによって分野を推定してしまうと
誤りが発生する場合があるからであり、分野関連度を考
慮することにより、分野推定を一層精度の高いものとす
ることができる。
分野推定部2は以上のようにして求めた分野、時化度お
よび分野関連度から、予め指定された規則に従って分野
を推定する(ステップS5)。この規則とは、例えば、
分野毎に時化度を加算し、更に関連のある各分野に分野
関連度を加算し、計算結果の大きい方から3個あるいは
計算結果が7以上の分野をその文書の分野として推定す
る等である。第5図の例において、分野毎に時化度を加
算した結果は第5図telのようになり、更に関連のあ
る各分野に分野関連度を加算した結果は第5図(nのよ
うになる。そして、計算結果の大きい方から3個をその
文書の分野として推定するものとすると、第5図(幻の
ような分野が出力される。
出力部5は分野推定部2の出力した分野を所定の形式で
出力しくステップS6)、全ての処理を終了する。
〔発明の効果〕
以上説明したように、本発明の文書の分野推定システム
にあっては、文書中から適当な規則に基づいて抽出した
語から、分野、特化度1分野関速度を求め、これらを総
合的に判断して分野を推定するため、充分な精度で文書
の分野推定が行え、従来のように人間によって行われて
いたのに比べて、作業者の負担の軽減、処理時間の短縮
化、ミスの低減、推定の均質化等の効果がある。
【図面の簡単な説明】
第1図は本発明の文書の分野推定システムの一実施例を
示す構成図、 第2図は第1図における分野別辞書の例を示す図、 第3図は第1図における知識ベースの例を示す図、 第4図は実施例の動作を示すフローチャートおよび、 第5図は分野推定の具体例を示す図である。 図において、 1・・・・・・・・・・・・・・・入力部2・・・・・
・・・・・・・・・・分野推定部31〜3n・・・分野
別辞書

Claims (1)

  1. 【特許請求の範囲】 分野推定の対象となる文書から一部分を入力する入力部
    と、 入力された文書を語切りして辞書引きする語を決定し、
    1つ以上の分野別辞書を引くことによりその語の属する
    分野およびその分野での出現の度合を示す特化度を得る
    と共に、属する分野の全ての組み合わせをキーとして知
    識ベースから分野間の関連度を示す分野関連度を得、こ
    れらより総合的に文書の分野を推定する分野推定部と、 推定した結果を出力する出力部とを備えたことを特徴と
    する文書の分野推定システム。
JP1216328A 1989-08-23 1989-08-23 文書の分野推定システム Pending JPH0378872A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1216328A JPH0378872A (ja) 1989-08-23 1989-08-23 文書の分野推定システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1216328A JPH0378872A (ja) 1989-08-23 1989-08-23 文書の分野推定システム

Publications (1)

Publication Number Publication Date
JPH0378872A true JPH0378872A (ja) 1991-04-04

Family

ID=16686812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1216328A Pending JPH0378872A (ja) 1989-08-23 1989-08-23 文書の分野推定システム

Country Status (1)

Country Link
JP (1) JPH0378872A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
US6150518A (en) * 1997-10-16 2000-11-21 Orient Chemical Industries, Ltd. Process for preparing χ-form metal free phthalocyanine
US7089493B2 (en) 2001-09-25 2006-08-08 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
US6150518A (en) * 1997-10-16 2000-11-21 Orient Chemical Industries, Ltd. Process for preparing χ-form metal free phthalocyanine
US7089493B2 (en) 2001-09-25 2006-08-08 International Business Machines Corporation Method, system and program for associating a resource to be translated with a domain dictionary

Similar Documents

Publication Publication Date Title
JPH0424869A (ja) 文書処理システム
US5132901A (en) System and method for input of target language equivalents and determination of attribute data associated therewith
JPH0378872A (ja) 文書の分野推定システム
JPH03191475A (ja) 文書要約方式
JPH08329108A (ja) テキストのハイパーテキスト化方法
JP3652086B2 (ja) 速読支援装置
JP2778025B2 (ja) 共起関係辞書の学習方法
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JPH0776971B2 (ja) 文書抄録作成装置
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP3036005B2 (ja) かな漢字変換装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH1145236A (ja) 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2871300B2 (ja) 機械翻訳装置
JP3222173B2 (ja) 日本語構文解析システム
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JP3244286B2 (ja) 翻訳処理装置
JPH0715692B2 (ja) 文脈処理装置
JPH08153096A (ja) 文書読み上げ装置
JPH07192014A (ja) 日本語活用形吸収機構つき辞書検索装置
JPH0589166A (ja) 機械翻訳装置
JPH04243477A (ja) 自然言語処理システムによる索引語抽出方法
JPH06195384A (ja) データベース検索方式
JPH0736898A (ja) 日中機械翻訳における定語処理方式
JPH05113993A (ja) 辞書登録方式