JPH03116374A - 専門用語抽出システム - Google Patents

専門用語抽出システム

Info

Publication number
JPH03116374A
JPH03116374A JP1254577A JP25457789A JPH03116374A JP H03116374 A JPH03116374 A JP H03116374A JP 1254577 A JP1254577 A JP 1254577A JP 25457789 A JP25457789 A JP 25457789A JP H03116374 A JPH03116374 A JP H03116374A
Authority
JP
Japan
Prior art keywords
word
technical term
base
extracted
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1254577A
Other languages
English (en)
Other versions
JP2812509B2 (ja
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1254577A priority Critical patent/JP2812509B2/ja
Publication of JPH03116374A publication Critical patent/JPH03116374A/ja
Application granted granted Critical
Publication of JP2812509B2 publication Critical patent/JP2812509B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、ワードプロセッサ、検索システムなどの専門
用語辞書を必要とするものの辞書作成や、キーワード抽
出や要約システムなどの用語の抽出に関連した専門用語
抽出システムに関する。
従来の技術 一般に、キーワード抽出や知識ベース構築においては処
理対象における専門用語の抽出が重要である。これまで
専門用語を抽出したものとして専門用語辞書などがある
が、これらは分野に依存するもので、人手により作成す
るしかなく、膨大な時間と労力を必要とする。また、技
術の進展とともに新製品や新技術を表す新しい語が造ら
れていくため、辞書を常に更新しなければならない。こ
れは、自動化するにしてもある程度のベースとなる語は
人手により作成しなければならない。
この点、専門用語辞書を効率的に作成するものとしては
特開平1−137366号公報に示されるものがある。
これは、その分野のキーワードとなる語を接辞として持
つ語を自動的に収集するようにしたものである。
発明が解決しようとする課題 このようなキーワード方式によっても、その分野のキー
ワードとなる語を人間が予め設定しておくことが必要で
あるが、分野特徴語は文書の頻度や品詞情報だけでは抽
出が難しく、キーワード設定は難しい。また、分野によ
っても全く違うので、分野毎にキーワードを用意する必
要がある。特に、シソーラスや意味素性はその設定の難
しさと多大な労力の割に精度のよいものを作成するのは
かなり烈しい。
課題を解決するための手段 入力文書の語の単位と品詞とを認定する形態素解析部と
、形態素解析部による解析結果から前記入力文書中の複
合語を抽出する複合語抽出部と、抽出された複合語の構
成語の頻度と単語結合数とから専門用語特徴語基を抽出
する専門用語特徴語基抽出部と、抽出された専門用語特
徴語基に基づき前記入力文書中から専門用語を抽出する
専門用語抽出部とにより構成した。
作用 専門用語の特徴を考えると、その分野の新製品や新技術
を表すものが多く、専門用語の名称として既存の語を組
合せる場合が多く、必然的に複合語が多くなる。よって
、専門用語を抽出する際には、まず、入力文書中から全
ての複合語を専門用語の候補として抽出することが有効
である。このような複合語の抽出は形態素解析結果によ
り可能である。ここに、複合語解析に関しては、複合語
の内部構造から上位−下位関係を抽出するものとしては
、「複合語の解析による語の上位−下位関係の自動構築
J  (1989,1,20情報処理学会自然言語処理
研究会)に示されるものがある。
これは、複合語の主語基(複合語の主要部となる語であ
り、主に語末にある)の持つ意味を上位語、一般語とす
ると、語基に修飾語が結合していくことで、より下位の
概念を表すようになることを利用したものである。この
ような複合語解析のみでは、専門用語であるかどうかは
認定できないが、複合語の解析において複合語の構成語
の頻度、さらには単語結合数から専門用語特徴語基を抽
出することにより、この専門用語特徴語基を含む複合語
を入力文書の分野に適した専門用語として自動的に抽出
できる。即ち、全て入力文書の解析によるものであり、
キーワード設定といった人為的な操作を要せず、任意分
野の専門用語の抽出が自動的に可能となる。
実施例 本発明の一実施例を図面に基づいて説明する。
第1図は、本実施例の専門用語抽出システム構成を示す
もので、入力文書lを入力とする形態素解析部2と、複
合語抽出部3と、専門用語特徴語基抽出部4と、専門用
語抽出部5による処理を順に行うように構成されている
ここに、形態素解析部2は任意の分野の入力文書lにつ
いて、語の単位と品詞を認定する形態素解析を行う。複
合語抽出部3は形態素解析結果に対して名詞、形容動詞
、接辞の連続を複合語として抽出する複合語抽出を行い
、入力文書1中の複合語を全て抽出する。専門用語特徴
語基抽出部4では抽出された複合語に対してその構成語
なる主語基(前述した文献に示されるように、複合語の
主要部となる語)が専門用語をなす語基であるかどうか
を評価値(後述する)を用いて判断し、専門用語をなす
語基だけを抽出する専門用語特徴語基抽出処理を行う。
ついで、専門用語抽出部5では、抽出された複合語中か
ら、専門用語特徴語基と判定された語を語基とするもの
だけを専門用語として抽出する処理を行う。
ここに、専門用語特徴語基抽出部4による処理の概要を
第2図により説明する。前述した複合語抽出部3により
抽出された複合語リスト6中の複合語に対して、まず、
語末に位置する主語基の頻度を算出する。次に、各主語
基の入力文書1内での平均結合数を計算する。これは、
ある語を主語基とする時に、その前に付く修飾語の数を
、1つの語基当たりについて計算するものである。主語
基の頻度と平均結合数から評価値を算出し、ある閾値以
上であればその語を専門用語特徴語基と判定するもので
ある。
具体例により説明する。例えば、情報処理分野の入力文
書1の場合を考える。入力文書lについて形態素解析を
行い、複合語を抽出する。第3図は入力文書1中から抽
出された複合語りストロの内容の一例を示す。この複合
語りストロ中には、複合語の表記と、その複合語を構成
する単位を表す分割位置、品詞を情報として持つ。この
ような複合語りストロに基づいてその語基が専門用語の
語基であるかどうかを判定する。まず、主語基の頻度を
算出すると、「プロセッサ」 「コンピュータ」を主語
基とする複合語は各々6回、3回出現しているので、頻
度を各々6.3とする。また、「プロセッサ」を主語基
とする複合語[マルチプロセッサJ 「マイクロプロセ
ッサJ 「数値演算プロセッサ」等の結合数、即ち、修
飾語の数は、「マルチ」 「マイクロ」 「数値」 「
演算」 「分数」「処理」 「ファジー」 「マイクロ
」 「高速」 「画像」 「処理」の11となる。同様
に、「コンピュータ」を主語基とする複合語の結合数は
6となる。
平均結合数(=評価値)は、頻度、修飾する語の数(=
結合数)から、(結合数)/(頻度)により算出され、
「プロセッサ」の場合は1.8、「コンピュータ」の場
合は2となる。このような計算結果は、主語基毎に第4
図に示すように処理結果メモリ7に格納される。
このような結果につき、例えば、頻度が3以上で平均結
合数が1.5以上のものを(このような閾値は実験に基
づき適宜設定される)、専門用語特徴語基とすると、本
例の場合、「プロセッサ」「コンピュータ」はともに専
門用語特徴語基なる主語基と判定される。よって、これ
らの「プロセッサ」 「コンピュータ」を主語基とする
複合語(第3図に例示したもの)は全て専門用語として
抽出される。
発明の効果 本発明は、上述したように専門用語として複合語が多い
点に着目し、入力文書中から抽出した複合語につき、そ
の構成語の頻度と単語結合数とから専門用語のベースと
なる専門用語特徴基を抽出するようにしたので、任意の
分野についてその分野に適した専門用語を、キーワード
入力等の人為的操作を要せず、自動的に抽出することが
できるものである。
【図面の簡単な説明】
図面は本発明の一実施例を示すもので、第1図はブロッ
ク図、第2図は専門用語特徴語基抽出処理を示すフロー
チャート、第3図は複合語リストの記憶内容を示す説明
図、第4図は処理結果メモリの記憶内容を示す説明図で
ある。 l・・・入力文書、2・・・形態素解析部、3・・・複
合語抽出部3.4・・・専門用語特徴語基抽出部、5・
・・専門用語抽出部

Claims (1)

    【特許請求の範囲】
  1. 入力文書の語の単位と品詞とを認定する形態素解析部と
    、形態素解析部による解析結果から前記入力文書中の複
    合語を抽出する複合語抽出部と、抽出された複合語の構
    成語の頻度と単語結合数とから専門用語特徴語基を抽出
    する専門用語特徴語基抽出部と、抽出された専門用語特
    徴語基に基づき前記入力文書中から専門用語を抽出する
    専門用語抽出部とよりなることを特徴とする専門用語抽
    出システム。
JP1254577A 1989-09-29 1989-09-29 専門用語抽出システム Expired - Fee Related JP2812509B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1254577A JP2812509B2 (ja) 1989-09-29 1989-09-29 専門用語抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1254577A JP2812509B2 (ja) 1989-09-29 1989-09-29 専門用語抽出システム

Publications (2)

Publication Number Publication Date
JPH03116374A true JPH03116374A (ja) 1991-05-17
JP2812509B2 JP2812509B2 (ja) 1998-10-22

Family

ID=17266973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1254577A Expired - Fee Related JP2812509B2 (ja) 1989-09-29 1989-09-29 専門用語抽出システム

Country Status (1)

Country Link
JP (1) JP2812509B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH11272702A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 文字列自動分類装置およびその方法並びにその制御プログラムを記録した媒体
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP2008021016A (ja) * 2006-07-11 2008-01-31 Oki Electric Ind Co Ltd 専門用語判別装置および専門用語判別方法
JP2008257511A (ja) * 2007-04-05 2008-10-23 Yahoo Japan Corp 専門用語抽出装置、方法及びプログラム
JP2008293070A (ja) * 2007-05-22 2008-12-04 Fuji Xerox Co Ltd 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2013210712A (ja) * 2012-03-30 2013-10-10 Internatl Business Mach Corp <Ibm> 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム
CN104572758A (zh) * 2013-10-24 2015-04-29 山东大学 一种电力领域专业词汇自动抽取方法及系统
JP2016162116A (ja) * 2015-02-27 2016-09-05 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
CN109033071A (zh) * 2018-06-27 2018-12-18 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH11272702A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 文字列自動分類装置およびその方法並びにその制御プログラムを記録した媒体
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2007079948A (ja) * 2005-09-14 2007-03-29 Nec Corp 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP2008021016A (ja) * 2006-07-11 2008-01-31 Oki Electric Ind Co Ltd 専門用語判別装置および専門用語判別方法
JP2008257511A (ja) * 2007-04-05 2008-10-23 Yahoo Japan Corp 専門用語抽出装置、方法及びプログラム
JP2008293070A (ja) * 2007-05-22 2008-12-04 Fuji Xerox Co Ltd 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2013210712A (ja) * 2012-03-30 2013-10-10 Internatl Business Mach Corp <Ibm> 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム
US9158756B2 (en) 2012-03-30 2015-10-13 International Business Machines Corporation Computer-implemented method, program, and system for identifying non-self-descriptive terms in electronic documents
CN104572758A (zh) * 2013-10-24 2015-04-29 山东大学 一种电力领域专业词汇自动抽取方法及系统
CN104572758B (zh) * 2013-10-24 2017-10-24 山东大学 一种电力领域专业词汇自动抽取方法及系统
JP2016162116A (ja) * 2015-02-27 2016-09-05 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
CN109033071A (zh) * 2018-06-27 2018-12-18 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN109033071B (zh) * 2018-06-27 2022-11-25 北京中电普华信息技术有限公司 一种汉语专业术语的识别方法及装置
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法

Also Published As

Publication number Publication date
JP2812509B2 (ja) 1998-10-22

Similar Documents

Publication Publication Date Title
US10296584B2 (en) Semantic textual analysis
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
Stamatatos et al. Automatic authorship attribution
JPH0424869A (ja) 文書処理システム
JPS58175074A (ja) 構文分析方式
JPH03116374A (ja) 専門用語抽出システム
Al Khatib et al. Automatic extraction of arabic multi-word terms
Putra et al. Text mining for Indonesian translation of the Quran: A systematic review
Zechner A literature survey on information extraction and text summarization
Ismail et al. Extracting knowledge from English translated Quran using NLP pattern
JP3596210B2 (ja) 関連語辞書作成装置
KR100341396B1 (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
JP2883153B2 (ja) キーワード抽出装置
Al_Janabi et al. Pragmatic text mining method to find the topics of citation network
JP2914988B2 (ja) 日本語自動翻訳システムにおける日本語名詞複合語翻訳方式
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Moruz et al. Interlinking and Extending Large Lexical Resources for Romanian
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
Halabi et al. Graph-based arabic key-phrases extraction
JPH1074207A (ja) 情報検索装置及び情報検索方法
Murzin et al. Development and Analysis of Technologies of Searching Information Relevant to the Search Query Using Linguistic Support
Pogorilyy et al. Analysis of Decision Trees for Coreference Resolution Task in Ukrainian Language
JPH0519187B2 (ja)
Khalfallah et al. A platform based anlp tools for the construction of an arabic historical dictionary
Anizi et al. Improving information retrieval in arabic through a multi-agent approach and a rich lexical resource

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees