JPH01102638A - 特異単語抽出処理方法 - Google Patents

特異単語抽出処理方法

Info

Publication number
JPH01102638A
JPH01102638A JP62260709A JP26070987A JPH01102638A JP H01102638 A JPH01102638 A JP H01102638A JP 62260709 A JP62260709 A JP 62260709A JP 26070987 A JP26070987 A JP 26070987A JP H01102638 A JPH01102638 A JP H01102638A
Authority
JP
Japan
Prior art keywords
word
words
frequency
unique
peculiar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62260709A
Other languages
English (en)
Inventor
Hiroko Fujimori
冨士盛 弘子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62260709A priority Critical patent/JPH01102638A/ja
Publication of JPH01102638A publication Critical patent/JPH01102638A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 機械翻訳システムにおける辞書作成にあたっての専門用
語の抽出や、情報検索システムにおけるキーワードの抽
出などに用いるため、計算機により、電子化された文章
中から特異単語を抽出する処理を行う特異単語抽出処理
方法に関し。
与えられた電子化された文章中から、特別な意味を持つ
と考えられる単語または重要な意味を持つと思われる単
語などの特異単語を、自動的に。
かつ精度よく抽出する手段を提供することを目的とし。
標準的文章を単語に分割し、各単語毎の出現回数をカウ
ントして、各単語の頻度情報を持つ単語頻度表を作成し
ておく単語頻度表作成処理過程と。
特異単語の抽出対象となる文章を単語に分割し。
各単語毎の出現回数をカウントして、該文章における各
単語の頻度を求める単語頻度算出処理過程と、求めた単
語の頻度と、上記単語頻度表から得られた該当する単語
の頻度とを比較し、相対的に高い頻度で出現する単語を
、特異単語として抽出し出力する特異単語決定処理過程
とを備えるように構成する。
〔産業上の利用分野〕
本発明は1機械翻訳システムにおける辞書作成にあたっ
ての専門用語の抽出や、情報検索システムにおけるキー
ワードの抽出などに用いるため。
計算機により、電子化された文章中から特異単語を抽出
する処理を行う特異単語抽出処理方法に関する。
〔従来の技術〕
例えば、英語を日本語に翻訳する機械翻訳システムで用
いる辞書を作成する場合に、特定の分野で特別な意味を
持つような専門用語などの特異単語を抽出し、その特異
単語に対して、そり分野に適した単語の訳を与える必要
がある。
また、技術文献などを収録するデータベースを持つ情報
検索システムにおいて、各技術文献において重要な意味
を持つと考えられる特異単語を。
キーワードとして予め抽出しておけば、そのキーワード
による検索を効率よく行うことができる。
従来、このような特異単語を抽出する場合9人間が各分
野に応じて経験的判断により抽出するようにされていた
。そのため、多大な時間と労力がかかるという問題があ
り、計算機によって、電子化された文章中から特異単語
を自動的に抽出する方法が考えられている。
この従来考えられている方法では、電子化された文章中
から専門用語やキーワードとなる単語を抽出する際に、
計算機により、その文章に現れる各単語の出現回数をカ
ウントし、出現回数の多い単語を求め、その中から、い
わゆるストップワードを一律に除去して、残ったものを
特異単語とする。なお、ストップワードは、英語を例に
すると。
@a”、”the”、・・・などの冠詞、”is″。
are”、・・・などのBE助動詞“to”、”ins
、・・・などの前置詞のように、頻繁に用いられるが特
異単語とはならないことが明確である単語である。
〔発明が解決しようとする問題点〕
単純に出現回数によって特異単語を選択する従来の方法
によれば、ストップワード以外によく使われる一般的な
単語でも、出現回数が多いときには、特異単語として抽
出されてしまうという問題がある。従って、最終的に抽
出結果について1人間が、再度特異単語を選択しなおす
必要があった。
本発明は上記問題点の解決を図り、与えられた電子化さ
れた文章中から、特別な意味を持つと考えられる単語ま
たは重要な意味を持つと思われる単語などの特異単語を
、自動的に、かつ精度よく抽出する手段を提供すること
を目的としている。
〔問題点を解決するための手段〕
第1図は本発明の原理説明図である。
第1図において、10はキーボードなどの入力装置、1
1はCPUおよびメモリなどからなる計算機、12は一
般文書フアイル、13は特異単語の抽出対象となる文章
が格納された特定文書ファイル、14は標準的な単語の
頻度情報を持つ単語頻度表、15は特異単語の抽出の精
度を制御する抽出係数、16はプリンタや外部記憶装置
などの出力装置を表す。
一般文書フアイル12は、特定の分野に限定されない一
般的分野で用いられる標準的な文章、または情報処理分
野9石油化学分野などというような特定分野で用いられ
る標準的な文章が格納されたファイルである。特定文書
ファイル13は、これから特異単語を抽出しよ−うとす
る文章が格納されたファイルである。
入力処理PLでは、これらの一般文書フアイル12、特
定文書ファイル13を、入力装置10から9例えばワー
ドプロセッサの処理と同様に入力し作成する。一般文書
フアイル12の作成と、特定文書ファイル13の作成と
は、同時に行う必要はなく、一般文書フアイル12は、
単語頻度表14を作成するときに、予め一度だけ用意す
ればよい、一般文書フアイル12としては、できるだけ
多くの文章を用意することが望ましく、これに基づいて
作成された単語頻度表14は、特定文書ファイル13の
各種文章に共通に使用できる。
単語頻度表作成処理P2では、一般文書フアイル12か
ら入力した文章について、単語に分割し。
各単語毎の出現回数をカウントして、各単語の頻度情報
を持つ単語頻度表14を作成する。単語出現回数算出処
理P21は、単語頻度表作成処理P2において1文章を
単語に分割し、各単語毎の出現回数をカウントする補助
処理である。
特定文書ファイル13に格納された文章から特異単語を
抽出する場合、まず単語頻度算出処理P3を起動する。
単語頻度算出処理P3は、特定文書ファイル13から入
力した文章を単語に分割し。
各単語毎の出現回数をカウントして、該文章における各
単語の頻度を求める処理を行う、なお、ここで単語分割
および単語の出現回数のカウントのために、単語頻度表
作成処理P2と同様に単語出現回数算出処理P21を呼
び出す。
次に特異単語決定処理P4により、単語頻度算出処理P
3で求めた単語の頻度と、単語頻度表14から得られた
該当する単語の頻度とを比較し。
単語頻度表14にある頻度に比べ相対的に高い頻度で出
現する単語を、特異単語として抽出し、出力装置16に
出力する。この例では、頻度の比較処理P41にあたっ
て、指定された抽出係数15により、単語頻度表14の
頻度を調整したうえで。
単語頻度算出処理P3が求めた単語頻度と比較を行うよ
うにしている。
〔作用〕
本発明では、標準的な文章から作成された単語頻度表1
4に基づき、その−船釣な頻度との比較によって、特異
単語であるか、そうではないかの判断がなされる。単語
頻度表14は、特異単語の用途に応じて、新聞記事や雑
誌その他の一般的な文章により作成してもよく、また情
報処理分野の文献2石油化学分野の文献等というように
、各特定分野における文章から作成してもよい、特に。
単語頻度表14を、特異単語の抽出対象となる文章の分
野と同一分野の文章により作成している場合には、抽出
結果は、その分野における特異単語ということになる。
本発明では1例えば、単語“BOOK”が、単語頻度表
14の頻度に比べ、非常に高い頻度で出現する場合には
、−船釣な単語でも、特異単語として抽出される。これ
は、単語“BOOK”が。
何か特別な意味を持っている可能性が大きいと考えられ
るからである。また、出現回数が2回や3回と数が少な
くても、単語頻度表14の頻度に比べ、頻度の高い単語
は、特異単語として抽出されることになる。
〔実施例〕
第2図は本発明の一実施例処理説明図、第3図は本発明
の詳細な説明図、第4図は本発明の詳細な説明図である
第2図(イ)は、第1図に示す単語頻度表作成処理P2
の例を示している。以下の説明における■〜■は、第2
図(イ)に示す処理■〜■に対応する。
■ 第1図に示す一般文書フアイル12から、1文を読
み出す。
■ 読み出しが成功したか否かにより9文があるかどう
かを判定する。文が終了した場合、処理■へ制御を移す
■ 文を単語に分割する。英語では、空白またはカンマ
等により分割することができる0日本語では1例えばワ
ードプロセッサにおける一括漢字変換等で用いられてい
る方法で分割すればよい。
■ 全単語数の累計を計算し、記憶しておく。
■ 各単語をテーブル化して記憶し、各々の単語ごとに
、その出現回数を累計する。
■ 一般文書フアイル12から1次の1文を読み出し、
処理■へ制御を戻して、同様に処理を繰り返す。
■ 全文についての処理が終了したならば、各々の単語
ごとに、出現の頻度を計算する。ここで頻度は、 (出
現回数÷全単語数)で計算されるが9例えば百分率や1
0万語につき何回出現したかというような割合でもよい
、計算結果を。
第1図に示す単語頻度表14とする。
以上の処理を、できるだけ多数の一般または特定分野の
標準的文章について、操り返す。
第1図に示す単語頻度算出処理P3.特異単語決定処理
P4では1例えば第2図(ロ)に示す処理を行い、特定
文書ファイル13の文章中における特異単語を抽出する
。以下の説明における■〜[相]は、第2図(ロ)に示
す処理■〜[相]に対応する。
■ まず、特定文書ファイル13中の文章について、第
2図(イ)において点線枠で示した単語出現回数算出処
理P21の処理■〜■を行い。
特定文書ファイル13中の文章に現れる各車0語の出現
回数を算出する。
■ 求めた単語出現回数の表から、1単語を読む。
[株] 未処理単語があるかどうかを判定し、全単語に
ついての以下に述べる処理が終了したならば。
特異単語の抽出を終了する。
■ 読み出した単語が、゛例えば英語であれば、冠詞、
BE動詞、前置詞、・・・などの特異単語にはなり得な
いストップワードであるかどうかを判定する。ストップ
ワードである場合には、処理[相]へ移る。
@ ストップワードでない場合、各単語の出現回数を全
単語数で割って、各単語の頻度を求める。
0 現在着目している単語と同じ単語を、単語頻度表1
4中から探し出す。その頻度Aが0である場合、すなわ
ち、単語頻度表14に該当する単語がなかった場合、そ
れを特異単語とするため、処理■へ制御を移す。
[相] 単語頻度表14中の頻度Aが、0でない場合2
処理0で求めた頻度Bを、頻度Aで割り、その結果と、
所定の抽出係数にとの大小を比較する。
頻度Bを頻度Aで割った結果が抽出係数により大きい場
合、処理■を実行し、小さい場合、処理[相]へ移る。
■ 現在着目している単語を特異単語として抽出する。
[相] 処理■で作成した単語出現回数の表から2次の
1単語を読み、処理[相]へ制御を戻して、同様に処理
を操り返す。
以上のようにして抽出した特異単語は、アルファベット
順、頻度順または出現順にソーティングして、プリンタ
や磁気ディスクのような外部記憶装置に出力する。
第3図は1本発明の一実施例に係る処理内容の具体例を
示している。
第3図(A)は、第1図に示す単語頻度表作成処理P2
により作成した単語頻度表14であり。
第3図(B)は、第1図に示す単語頻度算出処理P3に
より求めた特異単語の抽出対象となっている文章に係る
単語の頻度表である。
例えば、単語″COMPUTER”について。
これが特異単語であるかどうかを決定する場合。
比較処理P41により、頻度blが、単語頻度表14中
の頻度a2のに倍(Kは抽出係数)より大きいかどうか
を判定する。大きい場合には、特異単語とし、小さい場
合には9通常の単語と判断する。他の単語についても、
同様に、それぞれ単語頻度表14における該当する単語
の頻度との比較を行い、特異単語であるかどうかを判断
する。
ここでは、この特異単語の抽出により、単語“MOUS
E″、”WINDOW”、・・・が抽出され、これらの
単語が、抽出結果30として、その頻度情報と共に出力
されている。
この例では、抽出係数15のKの値により、特異単語の
抽出の精度を制御することができる。にの値を大きくす
ると、抽出した特異単語の精度が高くなるが、抽出され
ない特異単語も多くなる。
反対に、にの値を小さくす−ると、抽出した特異単語の
精度は低くなるが、抽出されない特異単語は少なくなる
。従って、このKの値を、特異単語抽出の処理実行時に
、指定することができるようにしておけば、所望する精
度1個数の特異単語を抽出することができる。
第4図は1本発明によって抽出した特異単語を利用する
システムの例を示している。
第4図(イ)では9本発明に係る特異単語抽出処理40
によって、特異単語の一覧表が格納され゛た特異単語フ
ァイル41を作成し、これを9機械翻訳用の辞書を作成
する辞書作成処理43のプログラムに渡す。辞書作成処
理43では、特異単語ファイル41中の単語が、専門用
語であって1通常用いられる意味とは異なる何か特別な
意味を持つことがあることを考慮し、その訳をキーボー
ド42等から必要に応じて入力して、翻訳辞書44を作
成または更新する。
機械翻訳システム45は、翻訳辞書44を参照し、特異
単語を抽出した分野に適した翻訳を実行することが可能
になる。
第4図(ロ)では1本発明に係る特異単語抽出処理40
によって、特異単語の一覧表が格納された特異単語ファ
イル41を作成し、これを、データベースのキーワード
を登録するキーワード登録処理46のプログラムに渡す
。キーワード登録処理46では、特異単語ファイル41
中の単語が。
データベース47に格納された技術文献等のデータ中で
重要な意味を持つキーワードであるとして。
その登録処理を行う、情報検索システム48により、デ
ータベース47のデータを検索するときに。
キーワード登録処理46で登録したキーワードを指定す
ることにより、該当する技術文献等を、迅速にリストア
ツブすることができる。なお、その技術文献等は、第1
図に示す特定文書ファイル13と同じ内容を持つデータ
である。
〔発明の効果〕
以上説明したように9本発明によれば、電子化された文
章中から、特別な意味を持つと考えられる単語または重
要な意味を持つと思われる単語などの特異単語を、自動
的に精度よく抽出することが可能になり、*械翻訳にお
ける辞書の開発、情報検索におけるキーワードの抽出な
どに役立てることができるようになる。
【図面の簡単な説明】
第1図は本発明の原理説明図。 第2図は本発明の一実施例処理説明図。 第3図は本発明の詳細な説明図。 第4図は本発明の詳細な説明図である。 図中、ptは人力処理、P2は単語頻度表作成処理、P
21は単語出現回数算出処理、P3は単語頻度算出処理
、P4は特異単語決定処理、P41は比較処理、10は
入力装置、11は計算機。 12は一般文書フアイル、13は特定文書ファイル、1
4は単語頻度表、15は抽出係数、16は出力装置を表
す。

Claims (1)

  1. 【特許請求の範囲】 計算機により、電子化された文章中から特異単語を抽出
    する処理を行う特異単語抽出処理方法であって、 一般的分野または特定分野で用いられる標準的文章を単
    語に分割し、各単語毎の出現回数をカウントして、各単
    語の頻度情報を持つ単語頻度表を作成しておく単語頻度
    表作成処理過程(P2)と、特異単語の抽出対象となる
    文章を単語に分割し、各単語毎の出現回数をカウントし
    て、該文章における各単語の頻度を求める単語頻度算出
    処理過程(P3)と、 求めた単語の頻度と、上記単語頻度表から得られた該当
    する単語の頻度とを比較し、上記単語頻度表にある頻度
    に比べ相対的に高い頻度で出現する単語を、特異単語と
    して抽出し出力する特異単語決定処理過程(P4)とを
    備えたことを特徴とする特異単語抽出処理方法。
JP62260709A 1987-10-15 1987-10-15 特異単語抽出処理方法 Pending JPH01102638A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62260709A JPH01102638A (ja) 1987-10-15 1987-10-15 特異単語抽出処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62260709A JPH01102638A (ja) 1987-10-15 1987-10-15 特異単語抽出処理方法

Publications (1)

Publication Number Publication Date
JPH01102638A true JPH01102638A (ja) 1989-04-20

Family

ID=17351677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62260709A Pending JPH01102638A (ja) 1987-10-15 1987-10-15 特異単語抽出処理方法

Country Status (1)

Country Link
JP (1) JPH01102638A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778165A (ja) * 1993-07-12 1995-03-20 Internatl Business Mach Corp <Ibm> テキスト中のエラーストリングを検出する方法及びコンピュータシステム
JPH08305710A (ja) * 1995-04-28 1996-11-22 Toshiba Corp 文書のキーワード抽出方法及び文書検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778165A (ja) * 1993-07-12 1995-03-20 Internatl Business Mach Corp <Ibm> テキスト中のエラーストリングを検出する方法及びコンピュータシステム
JPH08305710A (ja) * 1995-04-28 1996-11-22 Toshiba Corp 文書のキーワード抽出方法及び文書検索装置

Similar Documents

Publication Publication Date Title
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2019016181A (ja) テキスト要約システム
Zhang et al. A trainable method for extracting Chinese entity names and their relations
Manaf et al. Comparison of carp rabin algorithm and Jaro-Winkler distance to determine the equality of Sunda languages
Fatima et al. New graph-based text summarization method
JPH08147311A (ja) 構造化文書検索方法及び装置
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JPH01102638A (ja) 特異単語抽出処理方法
JP2008234049A (ja) 要約文生成装置及び要約文生成プログラム
JP2002132789A (ja) 文書検索方法
JPH06274546A (ja) 情報量一致度計算方式
JPS61248160A (ja) 文書情報登録方式
JP2590141B2 (ja) 連語抽出処理方法
CN113268973B (zh) 一种人机多轮对话方法及装置
Banasiak et al. Extended N-Gram Model for Analysis of Polish Texts
JPH0668159A (ja) 検索装置
JPH0561902A (ja) 機械翻訳システム
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
Zhu et al. A New Algorithm for Component Decomposition and Type Recognition of Tibetan Syllable
JP3508312B2 (ja) キーワード抽出装置
JP3884001B2 (ja) 言語解析システムおよび方法
JPH07152778A (ja) 文書検索装置
JPH05189485A (ja) キーワード検索方式
Sadiqi et al. Sequential and Recursive Structure Searching Algorithms for Arabic and English Texts
Junco A Literature Review of Query Relevant Summary Generation Using Machine Learning Algorithms to Generate Highlighted Version with The Most Relevant Information