JPH0619968A - 専門用語自動抽出装置 - Google Patents

専門用語自動抽出装置

Info

Publication number
JPH0619968A
JPH0619968A JP3234607A JP23460791A JPH0619968A JP H0619968 A JPH0619968 A JP H0619968A JP 3234607 A JP3234607 A JP 3234607A JP 23460791 A JP23460791 A JP 23460791A JP H0619968 A JPH0619968 A JP H0619968A
Authority
JP
Japan
Prior art keywords
words
technical term
word
dictionary
technical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3234607A
Other languages
English (en)
Inventor
Takashi Hibi
孝 日比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3234607A priority Critical patent/JPH0619968A/ja
Publication of JPH0619968A publication Critical patent/JPH0619968A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 膨大な単語の中から専門用語を容易に抽出で
きるようにし、専門用語辞書の構築を短時間で容易に行
うことができるようにする。 【構成】 入力文を単語に区切って品詞情報を付与し、
各単語を標準形に直す単語分割装置1と、各分野に用い
られる専門用語をそれぞれの分野別に収録する分野別用
語辞書3と、専門用語に含まれにくい語を含む例外語辞
書4と、前記各辞書3,4を参照して前記単語分割装置
1からのデータの評価を行い、その評価に従って専門用
語の候補を抽出する専門用語判定装置2とから構成し、
単語分割装置1で入力文を単語に区切る等の正規化を行
い、専門用語判定装置2で前記各辞書3,4を参照しな
がら各単語の評価を行い、この評価に従って専門用語の
候補を抽出する。抽出した候補からユーザーが最終的に
専門用語を選択する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、自然言語の文書から
専門用語を抽出する専門用語自動抽出装置に関する。
【0002】
【従来の技術】従来、専門用語を抽出するには、人手に
より、文書中から選択した単語の一つ一つを判断して行
う必要があった。また、専門用語の自動抽出の試みも行
われており、その例としては、「専門用語の自動抽出
ー英単語頻度辞書を用いてー情報処理学会 自然言語処
理研究会(1982)」に記載されたようなものがある。これ
は、特定の専門分野の文書中の語の頻度と、一般の語の
頻度表との異なり具合から、専門用語を抽出するもので
ある。
【0003】
【発明が解決しようとする課題】しかしながら、人手に
よる専門用語抽出の場合には、文書の内容をすべてみる
必要があるため、手間がかかり非常の面倒であると共に
見落しが起こりやすい。しかも、専門用語抽出作業は、
内容が専門的なためその分野の専門家でないと適切には
行えない。このため、専門用語辞書の作成には多大な時
間と労力がかかるという問題点がある。
【0004】また、専門用語の自動抽出の場合は、大量
の文書データを必要とし、さらに目的が限定されてい
る。このため、マニュアル等の独自の用語が多く用いら
れるような文書用の辞書を作るには適用し難いという問
題点がある。
【0005】本発明は以上述べた問題点に鑑みなされた
もので、各種の入力文書中から専門用語の候補を自動的
に選択して抜き出し、辞書開発の時間を大幅に削減でき
る専門用語自動抽出装置を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に本発明は、入力文を単語に区切って品詞情報を付与
し、各単語を標準形に直す単語分割装置と、各分野に用
いられる専門用語をそれぞれの分野別に収録する分野別
用語辞書と、専門用語に含まれにくい語を含む例外語辞
書と、前記各辞書を参照して前記単語分割装置からのデ
ータの評価を行い、その評価に従って専門用語の候補を
抽出する専門用語判定装置とから構成されたことを特徴
とする。
【0007】
【作用】前記構成により、単語分割装置で入力文が単語
に区切られて品詞情報が付与される等の正規化が行われ
る。単語分割装置で正規化された入力データは専門用語
判定装置に出力され、この専門用語判定装置で前記各辞
書を参照しながら各単語の評価が行われ、この評価に従
って専門用語の候補が抽出される。
【0008】
【実施例】以下、本発明の一実施例を図面を参照しなが
ら詳述する。
【0009】図1は本実施例の専門用語自動抽出装置を
示す概略構成図である。
【0010】図中、1は単語分割装置で、入力文書を単
語に区切って品詞情報を付与し、各単語を標準形に直す
等の正規化を行う。この一例を図2に示す。図2におい
ては単語分割装置1に入力文として「国際化が進むにつ
れて、海外に進出する企業が増えてきた。」が入力さ
れ、この入力文が図のように分割され、正規化処理が施
される。
【0011】2は専門用語判定装置で、単語分割装置1
で処理されたデータが入力され、後述の分野別用語辞書
3、例外語辞書4及び基本語辞書5を参照しながらこの
データ中の専門用語の評価を行い、その評価に従って入
力された語に得点を与え、専門用語の候補を抽出する。
この処理を図3のフローチャートに示す。なお、入力時
のデータで、名詞の連続したものは複合名詞とみなし、
一語として扱う。また、付属語(助詞、助動詞、補助動
詞、接続助詞等)は処理の対象としない。
【0012】3は分野別用語辞書で、各分野に用いられ
る専門用語をそれぞれの分野別に収録する。
【0013】4は例外語辞書で、専門用語に含まれにく
い語(例えば、形式名詞や非常に一般的な名詞)を含
む。この例外語辞書4に含まれる語は頻度のカウント
(使用頻度に応じてその使用回数を対象に行うカウン
ト)の対象としない。
【0014】5は基本語辞書で、各種の単語のうち基本
語を収録する。
【0015】6は補助記憶装置で、専門用語判定装置2
での評価による計算結果を記憶する。
【0016】前記専門用語判定装置2では、以下の規定
を基準に文書中の各単語に得点を与える。
【0017】(a)構成語数 構成語(複合名詞の1つ1つの名詞等)の場合、その数
に応じて得点(例えば、各語にそれぞれ1点)を与え
る。これにより、複合名詞になっている派生的な専門用
語の得点が多くなり、専門用語の候補として抽出でき
る。
【0018】(b)頻度 単語の使用頻度により、1回の使用に1点づつ与える。
複合語の場合は、それに含まれている構成語の使用頻度
の合計になる。但し、例外語辞書に含まれる単語は頻度
カウントの対象としない。
【0019】(c)分野別用語 入力文書内容に関連した分野の分野別用語辞書3を参照
し、その辞書3の語を含む場合に点を与える。
【0020】(d)カタカナ語彙(日本語の場合のみ) カタカナ語で基本語辞書5にないものに得点を与える。
専門用語は外来語であることが多く、このような外来語
の専門用語を候補として抽出することができる。
【0021】以上のように構成された専門用語自動抽出
装置では、文書が単語分割装置1に入力されると、この
単語分割装置1で入力文書が単語に区切られて品詞情報
が付与され、さらに単語を標準形に直す等の正規化が行
われ、図2に示す出力データとして専門用語判定装置2
に出力される。
【0022】この専門用語判定装置2では、図3に示す
処理が施される。
【0023】まず、単語分割装置1からの出力データに
対して読み出す情報(付属語を除く名詞等)があるか否
かを判断し(ステップ1)、読み出す情報がなければ後
述のステップ8に進む。読み出す情報があれば、出力デ
ータから1語を読み出し(ステップ2)、この読み出し
た語が既に記憶領域に登録されているか否かを判断する
(ステップ3)。読み出した語が登録されていれば、後
述のステップ7に進む。登録されていなければ、構成語
数を調べ、構成語の数及び分野別用語辞書3に含まれる
語か否かによって点数を与える(ステップ4)。次にカ
タカナ語数を調べ、カタカナ語の数によって点数を与え
る(ステップ5)。その後、調べた語を記憶域(図示せ
ず)に登録する(ステップ6)。次いで、登録した語
(複合語の場合、構成語の一つ一つ)に頻度情報として
1点を加えて頻度情報更新を行う(ステップ7)。この
場合、例外語辞書4を参照し、この例外語辞書4に含ま
れている場合には、頻度情報としての点数は加えない。
【0024】この頻度情報更新処理が終了すると、ステ
ップ1に戻って出力データから読み出す情報があるか否
かを判断し(ステップ1)、読み出す情報があれば、前
記ステップ2からステップ7までの処理を繰り返す。読
み出す情報がなければステップ8に進み、各語の得点を
計算する。この場合、分野別用語辞書3に含まれる用語
については、重みを高くして(例えば、1語について2
点というように得点数を多くして)頻度に関する得点を
計算する。
【0025】計算結果は、補助記憶装置6に出力され、
予め設定されたしきい値と比較されてこのしきい値より
高い値をとった語が専門用語の候補として画面等に出力
される(ステップ9)。ユーザーは出力された専門用語
の候補から適切なものを選択し、最終的な専門用語の抽
出を行う(ステップ10)。
【0026】以上により、膨大な単語の中から専門用語
を容易に抽出することができるようになる。
【0027】また、単語の処理量が膨大なために従来大
変な時間と労力を要した専門用語辞書の構築を、短時間
で容易に行うことができるようになる。
【0028】さらに、機械翻訳用の辞書等の作成を短時
間で行うことができるようになる。
【0029】なお、前記実施例では、日本語についての
専門用語選択処理について説明したが、カタカナ語の部
分を除けば、日本語に限らず他の言語でも適用すること
が可能である。
【0030】
【発明の効果】以上、詳細に説明したように、この発明
によれば、単語分割装置で入力文が単語に区切られて品
詞情報が付与される等の正規化が行われ、正規化された
入力データの各単語が専門用語判定装置で各辞書を参照
しながら評価され、この評価に従って専門用語の候補を
抽出するようにしたので、膨大な単語の中から専門用語
を容易に抽出することができるようになる。
【0031】また、専門用語辞書の構築を短時間で容易
に行うことができる。
【図面の簡単な説明】
【図1】本発明の専門用語自動抽出装置を示す概略構成
図である。
【図2】単語分割装置1の出力データ形式の一例を示す
説明図である。
【図3】専門用語判定装置での専門用語選択処理動作を
示すフローチャートである。
【符号の説明】
1 単語分割装置 2 専門用語判定装置 3 分野別用語辞書 4 例外語辞書 5 基本語辞書 6 補助記憶装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力文を単語に区切って品詞情報を付与
    し、各単語を標準形に直す単語分割装置と、各分野に用
    いられる専門用語をそれぞれの分野別に収録する分野別
    用語辞書と、専門用語に含まれにくい語を含む例外語辞
    書と、前記各辞書を参照して前記単語分割装置からのデ
    ータの評価を行い、その評価に従って専門用語の候補を
    抽出する専門用語判定装置とから構成されたことを特徴
    とする専門用語自動抽出装置。
JP3234607A 1991-09-13 1991-09-13 専門用語自動抽出装置 Pending JPH0619968A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3234607A JPH0619968A (ja) 1991-09-13 1991-09-13 専門用語自動抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3234607A JPH0619968A (ja) 1991-09-13 1991-09-13 専門用語自動抽出装置

Publications (1)

Publication Number Publication Date
JPH0619968A true JPH0619968A (ja) 1994-01-28

Family

ID=16973690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3234607A Pending JPH0619968A (ja) 1991-09-13 1991-09-13 専門用語自動抽出装置

Country Status (1)

Country Link
JP (1) JPH0619968A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475005B2 (en) 2003-03-17 2009-01-06 International Business Machines Corporation Translation system, dictionary updating server, translation method, and program and recording medium for use therein
US7905382B2 (en) 2006-04-26 2011-03-15 Senju Metal Industry Co., Ltd. Wave soldering tank
US7959055B2 (en) 2006-04-05 2011-06-14 Senju Metal Industry Co., Ltd. Wave soldering tank
US8091758B2 (en) 2005-02-07 2012-01-10 Senju Metal Industry Co., Ltd. Wave soldering bath
US9956633B2 (en) 2003-10-10 2018-05-01 Senju Metal Industry Co., Ltd. Wave soldering tank
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475005B2 (en) 2003-03-17 2009-01-06 International Business Machines Corporation Translation system, dictionary updating server, translation method, and program and recording medium for use therein
US9956633B2 (en) 2003-10-10 2018-05-01 Senju Metal Industry Co., Ltd. Wave soldering tank
US8091758B2 (en) 2005-02-07 2012-01-10 Senju Metal Industry Co., Ltd. Wave soldering bath
US7959055B2 (en) 2006-04-05 2011-06-14 Senju Metal Industry Co., Ltd. Wave soldering tank
US7905382B2 (en) 2006-04-26 2011-03-15 Senju Metal Industry Co., Ltd. Wave soldering tank
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统
CN116702786B (zh) * 2023-08-04 2023-11-17 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统

Similar Documents

Publication Publication Date Title
US7197449B2 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
EP0180888A2 (en) Method and apparatus for natural language processing
JPH0242572A (ja) 共起関係辞書生成保守方法
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JPH0619968A (ja) 専門用語自動抽出装置
JPS58192173A (ja) 機械翻訳装置
JP2883153B2 (ja) キーワード抽出装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JPH0877196A (ja) 文書情報抽出装置
JP2812511B2 (ja) キーワード抽出装置
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JP3416918B2 (ja) キーワード自動抽出方法および装置
JP2002245062A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH09319768A (ja) 要点抽出方法
JPH0668070A (ja) 複合語辞書登録装置
JPH0561902A (ja) 機械翻訳システム
JP3216725B2 (ja) 文章構造解析装置
JPH05282360A (ja) 多国語入力装置
JPS63163956A (ja) 文書作成・校正支援装置
JP2004265014A (ja) 個人環境頻度記憶装置及び個人環境言語変換装置及び個人環境差分強調装置及びプログラム
JPH06139274A (ja) テキスト自動前編集装置
JPH05181900A (ja) 固有名詞処理装置
JPH1091628A (ja) 構文解析システム