JP2812509B2 - 専門用語抽出システム - Google Patents

専門用語抽出システム

Info

Publication number
JP2812509B2
JP2812509B2 JP1254577A JP25457789A JP2812509B2 JP 2812509 B2 JP2812509 B2 JP 2812509B2 JP 1254577 A JP1254577 A JP 1254577A JP 25457789 A JP25457789 A JP 25457789A JP 2812509 B2 JP2812509 B2 JP 2812509B2
Authority
JP
Japan
Prior art keywords
word
technical term
base
compound
technical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1254577A
Other languages
English (en)
Other versions
JPH03116374A (ja
Inventor
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1254577A priority Critical patent/JP2812509B2/ja
Publication of JPH03116374A publication Critical patent/JPH03116374A/ja
Application granted granted Critical
Publication of JP2812509B2 publication Critical patent/JP2812509B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、ワードプロセッサ、検索システムなどの専
門用語辞書を必要とするものの辞書作成や、キーワード
抽出や要約システムなどの用語の抽出に関連した専門用
語抽出システムに関する。
従来の技術 一般に、キーワード抽出や知識ベース構築においては
処理対象における専門用語の抽出が重要である。これま
で専門用語を抽出したものとして専門用語辞書などがあ
るが、これらは分野に依存するもので、人手により作成
するしかなく、膨大な時間と労力を必要とする。また、
技術の進展とともに新製品や新技術を表す新しい語が造
られていくため、辞書を常に更新しなければならない。
これは、自動化するにしてもある程度のベースとなる語
は人手により作成しなければならない。
この点、専門用語辞書を効率的に作成するものとして
は特開平1−137366号公報に示されるものがある。これ
は、その分野のキーワードとなる語を接辞として持つ語
を自動的に収集するようにしたものである。
発明が解決しようとする課題 このようなキーワード方式によっても、その分野のキ
ーワードとなる語を人間が予め設定しておくことが必要
であるが、分野特徴語は文書の頻度や品詞情報だけでは
抽出が難しく、キーワード設定は難しい。また、分野に
よっても全く違うので、分野毎にキーワードを用意する
必要がある。特に、シソーラスや意味素性はその設定の
難しさと多大な労力の割に精度のよいものを作成するの
はかなり難しい。
課題を解決するための手段 入力文書の語の単位と品詞とを認定する形態素解析部
と、形態素解析部による解析結果から前記入力文書中の
複合語を抽出する複合語抽出部と、抽出された複合語の
構成語の頻度と単語結合数とから専門用語特徴語基を抽
出する専門用語特徴語基抽出部と、抽出された専門用語
特徴語基に基づき前記入力文書中から専門用語を抽出す
る専門用語抽出部とにより構成した。
作用 専門用語の特徴を考えると、その分野の新製品や新技
術を表すものが多く、専門用語の名称として既存の語を
組合せる場合が多く、必然的に複合語が多くなる。よっ
て、専門用語を抽出する際には、まず、入力文書中から
全ての複合語を専門用語の候補として抽出することが有
効である。このような複合語の抽出は形態素解析結果に
より可能である。ここに、複合語解析に関しては、複合
語の内部構造から上位−下位関係を抽出するものとして
は、「複合語の解析による語の上位−下位関係の自動構
築」(1989.1.20情報処理学会自然言語処理研究会)に
示されるものがある。これは、複合語の主語基(複合語
の主要部となる語であり、主に語末にある)の持つ意味
を上位語、一般語とすると、語基に修飾語が結合してい
くことで、より下位の概念を表すようになることを利用
したものである。このような複合語解析のみでは、専門
用語であるかどうかは認定できないが、複合語の解析に
おいて複合語の構成語の頻度、さらには単語結合数から
専門用語特徴語基を抽出することにより、この専門用語
特徴語基を含む複合語を入力文書の分野に適した専門用
語として自動的に抽出できる。即ち、全て入力文書の解
析によるものであり、キーワード設定といった人為的な
操作を要せず、任意分野の専門用語の抽出が自動的に可
能となる。
実施例 本発明の一実施例を図面に基づいて説明する。
第1図は、本実施例の専門用語抽出システム構成を示
すもので、入力文書1を入力とする形態素解析部2と、
複合語抽出部3と、専門用語特徴語基抽出部4と、専門
用語抽出部5による処理を順に行うように構成されてい
る。
ここに、形態素解析部2は任意の分野の入力文書1に
ついて、語の単位と品詞を認定する形態素解析を行う。
複合語抽出部3は形態素解析結果に対して名詞、形容動
詞、接辞の連続を複合語として抽出する複合語抽出を行
い、入力文書1中の複合語を全て抽出する。専門用語特
徴語基抽出部4では抽出された複合語に対してその構成
語なる主語基(前述した文献に示されるように、複合語
の主要部となる語)が専門用語をなす語基であるかどう
かを評価値(後述する)を用いて判断し、専門用語をな
す語基だけを抽出する専門用語特徴語基抽出処理を行
う。ついで、専門用語抽出部5では、抽出された複合語
中から、専門用語特徴語基と判定された語を語基とする
ものだけを専門用語として抽出する処理を行う。
ここに、専門用語特徴語基抽出部4による処理の概要
を第2図により説明する。前述した複合語抽出部3によ
り抽出された複合語リスト6中の複合語に対して、ま
ず、語末に位置する主語基の頻度を算出する。次に、各
主語基の入力文書1内での平均結合数を計算する。これ
は、ある語を主語基とする時に、その前に付く修飾語の
数を、1つの語基当たりについて計算するものである。
主語基の頻度と平均結合数から評価値を算出し、ある閾
値以上であればその語を専門用語特徴語基と判定するも
のである。
具体例により説明する。例えば、情報処理分野の入力
文書1の場合を考える。入力文書1について形態素解析
を行い、複合語を抽出する。第3図は入力文書1中から
抽出された複合語リスト6の内容の一例を示す。この複
合語リスト6中には、複合語の表記と、その複合語を構
成する単位を表す分割位置、品詞を情報として持つ。こ
のような複合語リスト6に基づいてその語基が専門用語
の語基であるかどうかを判定する。まず、主語基の頻度
を算出すると、「プロセッサ」「コンピュータ」を主語
基とする複合語は各々6回、3回出現しているので、頻
度を各々6、3とする。また、「プロセッサ」を主語基
とする複合語「マルチプロセッサ」「マイクロプロセッ
サ」「数値演算プロセッサ」等の結合数、即ち、修飾語
の数は、「マルチ」「マイクロ」「数値」「演算」「分
数」「処理」「ファジー」「マイクロ」「高速」「画
像」「処理」の11となる。同様に、「コンピュータ」を
主語基とする複合語の結合数は6となる。平均結合数
(=評価値)は、頻度、修飾する語の数(=結合数)か
ら、(結合数)/(頻度)により算出され、「プロセッ
サ」の場合は1.8、「コンピュータ」の場合は2とな
る。このような計算結果は、主語基毎に第4図に示すよ
うに処理結果メモリ7に格納される。
このような結果につき、例えば、頻度が3以上で平均
結合数が1.5以上のものを(このような閾値は実験に基
づき適宜設定される)、専門用語特徴語基とすると、本
例の場合、「プロセッサ」「コンピュータ」はともに専
門用語特徴語基なる主語基と判定される。よって、これ
らの「プロセッサ」「コンピュータ」を主語基とする複
合語(第3図に例示したもの)は全て専門用語として抽
出される。
発明の効果 本発明は、上述したように専門用語として複合語が多
い点に着目し、入力文書中から抽出した複合語につき、
その構成語の頻度と単語結合数とから専門用語のベース
となる専門用語特徴基を抽出するようにしたので、任意
の分野についてその分野に適した専門用語を、キーワー
ド入力等の人為的操作を要せず、自動的に抽出すること
ができるものである。
【図面の簡単な説明】 図面は本発明の一実施例を示すもので、第1図はブロッ
ク図、第2図は専門用語特徴語基抽出処理を示すフロー
チャート、第3図は複合語リストの記憶内容を示す説明
図、第4図は処理結果メモリの記憶内容を示す説明図で
ある。 1……入力文書、2……形態素解析部、3……複合語抽
出部3、4……専門用語特徴語基抽出部、5……専門用
語抽出部

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力文書の語の単位と品詞とを認定する形
    態素解析部と、形態素解析部による解析結果から前記入
    力文書中の複合語を抽出する複合語抽出部と、抽出され
    た複合語の構成語の頻度と単語結合数とから専門用語特
    徴語基を抽出する専門用語特徴語基抽出部と、抽出され
    た専門用語特徴語基に基づき前記入力文書中から専門用
    語を抽出する専門用語抽出部とよりなることを特徴とす
    る専門用語抽出システム。
JP1254577A 1989-09-29 1989-09-29 専門用語抽出システム Expired - Fee Related JP2812509B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1254577A JP2812509B2 (ja) 1989-09-29 1989-09-29 専門用語抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1254577A JP2812509B2 (ja) 1989-09-29 1989-09-29 専門用語抽出システム

Publications (2)

Publication Number Publication Date
JPH03116374A JPH03116374A (ja) 1991-05-17
JP2812509B2 true JP2812509B2 (ja) 1998-10-22

Family

ID=17266973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1254577A Expired - Fee Related JP2812509B2 (ja) 1989-09-29 1989-09-29 専門用語抽出システム

Country Status (1)

Country Link
JP (1) JP2812509B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3361563B2 (ja) * 1993-04-13 2003-01-07 松下電器産業株式会社 形態素解析装置及びキーワード抽出装置
JP3609252B2 (ja) * 1998-03-23 2005-01-12 沖電気工業株式会社 文字列自動分類装置およびその方法
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP4747752B2 (ja) * 2005-09-14 2011-08-17 日本電気株式会社 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP4961869B2 (ja) * 2006-07-11 2012-06-27 沖電気工業株式会社 専門用語判別装置および専門用語判別方法
JP5073349B2 (ja) * 2007-04-05 2012-11-14 ヤフー株式会社 専門用語抽出装置、方法及びプログラム
JP4985096B2 (ja) * 2007-05-22 2012-07-25 富士ゼロックス株式会社 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP5863537B2 (ja) 2012-03-30 2016-02-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム
CN104572758B (zh) * 2013-10-24 2017-10-24 山东大学 一种电力领域专业词汇自动抽取方法及系统
JP6190405B2 (ja) * 2015-02-27 2017-08-30 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
CN109033071B (zh) * 2018-06-27 2022-11-25 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法

Also Published As

Publication number Publication date
JPH03116374A (ja) 1991-05-17

Similar Documents

Publication Publication Date Title
KR970004100B1 (ko) 일문 문서용 키 워드 추출 장치
Al-Hashemi Text Summarization Extraction System (TSES) Using Extracted Keywords.
Wacholder et al. Disambiguation of proper names in text
JP2812509B2 (ja) 専門用語抽出システム
US20040073874A1 (en) Device for retrieving data from a knowledge-based text
JPS58175074A (ja) 構文分析方式
CN102915299A (zh) 一种分词方法及装置
Putra et al. Text mining for Indonesian translation of the Quran: A systematic review
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Heid A linguistic bootstrapping approach to the extraction of term candidates from German text
JP3594701B2 (ja) キーセンテンス抽出装置
JP2883153B2 (ja) キーワード抽出装置
KR100886687B1 (ko) 중국어 미등록어 자동 추출 방법 및 장치
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP2914988B2 (ja) 日本語自動翻訳システムにおける日本語名詞複合語翻訳方式
JP2812511B2 (ja) キーワード抽出装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
Park et al. A Quantitative Discourse Analysis of Asian Workers in the US Historical Newspapers
JPH0773200A (ja) キーワード抽出方法
JP3161660B2 (ja) キーワード検索方法
JPH1040253A (ja) 文章中の単語の観点生成方法及び装置
JP2001344256A (ja) 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
JPH0460718A (ja) 日本語文統語分類方式
JPH0262668A (ja) 文章情報解析技法を用いた文章情報検索方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees