JPH03127176A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH03127176A
JPH03127176A JP1265952A JP26595289A JPH03127176A JP H03127176 A JPH03127176 A JP H03127176A JP 1265952 A JP1265952 A JP 1265952A JP 26595289 A JP26595289 A JP 26595289A JP H03127176 A JPH03127176 A JP H03127176A
Authority
JP
Japan
Prior art keywords
keyword
affix
word
composite word
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1265952A
Other languages
English (en)
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1265952A priority Critical patent/JPH03127176A/ja
Publication of JPH03127176A publication Critical patent/JPH03127176A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語文書についてのキーワード抽出装置に
関する。
従来の技術 従来、文書から自動的にキーワードを抽出する技術とし
て言語現象に着目した手法がある。これは頻度などによ
る統計的手法に比べ、文書の内容を反映させることがで
きると考えられている。このような言語現象に着目した
手法として諸特徴評価法(例えば「キーワード自動抽出
と需要度評価」情報処理学会自然言語処理研究会、19
87.11.20)がある。これは、抽出した語に対し
て必要なキーワードであるかどうかを評価するものであ
る。この評価法にシソーラス上の位置、文書中の出現位
置、頻度、並列表現かどうが、連体修飾語か、などの幾
つかの観点からキーワード候補の評価を行い、適切な語
をキーワードとするものである。
しかし、文書中のキーワードとなる語は、その分野の専
門用語である場合が多い。また、専門用語は新技術や新
概念であることが多く、このため造語力のある漢字によ
□ズ造られた複合語であることが多い。
発明が解決しようとする課題 従来は、このようにキーワードとなることの多い複合語
に対する処理が殆どなされていないのが現状である。
ちなみに、複合語を扱ったものとしては、F日本語文章
からのキーワード自動抽出」 (情報処理学会第35開
会国大会、1987.9)がある。
これは漢字複合語を単語単位に分割し、それらを組合せ
るというものである。しかし、複合語自体のキーワード
としての評価については言及されていない。特に、接尾
辞や接頭辞の付いたものに対しての処理が考慮されてお
らず、例えば「各製品」「需要量」なとのキーワーどに
なり得ない語もキーワードとしてしまうものである。
また、「情報検索システムHappiness」(@平
和情報センター 1989.7)やrJIC3TTファ
イルのタイトル自動抽出 キーワードの特徴と利用法」
(「情報管理J 、Vol、 25. Na9.198
2、.12)では、特定の接辞の前後で複合語内を分割
するようにしているが、接辞による語の意味やキーワー
ドとしての重要度については考慮されていない。よって
、例えば+11報処理分野では「不揮発性RAMJなど
の語はむしろ一語とすべきであるが、例えば「性」とい
う接辞の後で複合語を分割してしまうものである。これ
は、「性」という接尾辞が、専門用語の分野な、とでは
、例えば複合語内途中に位置して末に位置する語を修飾
する機能を持つことがある点を考慮しないためである。
課題を解決するための手段 日本語文章中から接辞を含む複合語を検出する複合語検
出手段と、予め設定された接辞の評価値に基づき前記複
合語のキーワードとしての重要度を算出する複合語評価
手段と、所定の閾値以上の重要度を持つ複合語をキーワ
ードと判定するキーワード判定手段とにより構成した。
作用 接辞からなる複合語に対して、接辞の語の意味を考慮し
た評価値を用いて算出されたキーワードとしての重要度
により、その複合語がキーワードとして適切かどうか判
定するので、より精度の高いキーワード抽出が可能とな
る。
実施例 本発明の一実施例を図面に基づいて説明する。
本システムは第1図に示すように、複合語検出手段1と
複合語評価手段2とキーワード判定手段3とよりなる。
複合語検出手段1は処理対象となる日本語文章中から接
辞を含む複合語を検出するものである。複合語評価手段
2は検出された接辞を含む複合語について、予め設定さ
れたその接辞の評価値を参照してその複合語のキーワー
ドとしての重要度を算出するものである。この際、第2
図に示すような接辞テーブルが参照される。同図(a)
は接頭辞テーブル4aの例を示し、「各」「不」なとの
表記と、その接頭辞の評価埴との対からなる。ここに、
評価値は結合する自立語数が1語の複合語(片仮名、英
字は字種の変り目で1自立語とする)である場合と、結
合する自立語数が2語以上の複合語の場合とで2種類が
設定されている。また、同図(b)は接尾辞テーブル4
bの例を示し、「性」 1間」などの表記と、その接尾
辞の評価値との対からなる。この場合も評価値は、結合
する自立語数が1語の複合語〈片仮名、英字は字種の変
り目で1自立語とする)である場合と、結合する自立語
数が2語以上の複合語でその末にある場合(自立語数2
語・末と表示)と、結合する自立語数が2語以上の複合
語でその末以外にある場合(自立語数2語・中と表示)
との3種類が設定されている。このように、接辞につい
ての評価イ直は、その接辞の複合語内での位置を考慮す
ることにより、その接辞の複合語内での機能に応じた位
を設定されている。なお、本実施例の評価値は「o」を
標準として3段階とされており、重要度の高い順にNJ
rOJr−IJとされている。
具体的には、対象分野の専門用語などでよく使用される
ものは評価値が高く設定され、また、キーワードにはな
り得ないものは評価値が低く設定される。
キーワード判定手段3は複合語評価手段2により算出さ
れた重要度(評価値)が所定の閾値以上であればその複
合語をキーワードと判定するものである。
第3図はこのような構成における全体の処理の流れを示
すフローチャートである。まず、日本語文字列について
接頭辞、接尾辞、漢字、片仮名、英字の並びがあるかど
うかをチエツクする。あれば、接頭辞、接尾辞各々の評
価値をテーブル4a。
4bを参照し、その評価値に基づき接辞部分の評価(直
をキーワードとしての重要度として算出する。
この評価値が閾値よりも大きければ、この接頭辞、接尾
辞と漢字、片仮名、英字の並びなる複合語をキーワード
と判定する。
具体例を挙げて説明する。
具体例1  「不揮発性RAMの開発を行い、]「不揮
発性RAMJは「不」が接頭辞、「性」が接尾辞なので
該当する文字列並びとなり、この並びについてキーワー
ドかどうか判定する。まず、「不」は結合自立語数が2
4’f以上の場合には評価値がrlJ、「性」は結合自
立語数が2語以上で末にはないので評価(1aはrlJ
である。これより、算出式を(評価値の合計)/(接辞
の数)とすると、この場合、結果は「lJとなる。閾値
を0゜5とすると、閾値より大きいので、接辞を含む「
不揮発性RAMJなる複合語をキーワードと判定する。
具体例2 F各会社間を結ぶネットワークが」「各会社
間」は「各」が接頭辞、1間」が接尾辞なので該当する
文字列並びとなり、この並びについてキーワードかどう
か判定する。まず、「各」は結合自立語数が2語以上の
場合には(1語でも同じであるが)評価値が「−1」、
1間」は結合自立語数が2語以上で末にあるので評価値
は「−1」である。これより、接辞の重要度を具体例1
と同様に算出すると、結果はr −I Jとなる。閾値
を0.5とすると、閾値より小さいので、接辞を含む「
各会社間」なる複合語をキーワードとしない。
具体例3 「不必要な機械を廃棄する時は」「不必要」
は「不」が接頭辞なので該当する並びとなり、この並び
についてキーワードかどうか判定する。「不]は結合自
立語数が1語では評価値がr −I Jである。接辞の
重要度を算出すると、r−IJ となる。閾値を0.5
とすると、閾値より小さいので、「不必要」はキーワー
ドとしない。
具体例4  「可能性がある」 「可能性」は「性Jが接尾辞なので該当する並びとなり
、この並びについてキーワードかどうか判定する。「性
」は結合自立語数が1では評価値が「0」である。よっ
て、閾値0.5より小さいので、「可能性Jはキーワー
ドとしない。
具体例5 「企業間通信を行うJ 「企業間通信」は「間」が接尾辞なので該当する並びと
なり、この並びについてキーワードかどうか判定する。
「間」−は結合自立語数が2語で末尾にない場合には評
価値が「l」である。よって、閾値0.5以上であるの
で、「企業間通信Jをキーワードとする。
発明の効果 本発明は、上述したように複合語検出手段により検出さ
れる接辞を含む複合語について、予め設定された接辞の
評価値に基づき複合語のキーワードとしての重要度を複
合語評価手段により算出してキーワード判定に供するよ
うにしたので、接辞の語の意味を考慮したキーワード判
定となり、よリ精度の高いキーワード抽出が可能となる
ものである。
【図面の簡単な説明】
図面は本発明の一実施例を示し、第1図はブロック図、
第2図は接辞テーブルの構成図、第3図はフローチャー
トである。 1・・・複合語検出手段、2・・・複合語評価手段、3
・・・キーワード判定手段 ;a) :b)

Claims (1)

    【特許請求の範囲】
  1. 日本語文章中から接辞を含む複合語を検出する複合語検
    出手段と、予め設定された接辞の評価値に基づき前記複
    合語のキーワードとしての重要度を算出する複合語評価
    手段と、所定の閾値以上の重要度を持つ複合語をキーワ
    ードと判定するキーワード判定手段とよりなることを特
    徴とするキーワード抽出装置。
JP1265952A 1989-10-12 1989-10-12 キーワード抽出装置 Pending JPH03127176A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1265952A JPH03127176A (ja) 1989-10-12 1989-10-12 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1265952A JPH03127176A (ja) 1989-10-12 1989-10-12 キーワード抽出装置

Publications (1)

Publication Number Publication Date
JPH03127176A true JPH03127176A (ja) 1991-05-30

Family

ID=17424346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1265952A Pending JPH03127176A (ja) 1989-10-12 1989-10-12 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JPH03127176A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JP2008021016A (ja) * 2006-07-11 2008-01-31 Oki Electric Ind Co Ltd 専門用語判別装置および専門用語判別方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JP2008021016A (ja) * 2006-07-11 2008-01-31 Oki Electric Ind Co Ltd 専門用語判別装置および専門用語判別方法

Similar Documents

Publication Publication Date Title
US6438543B1 (en) System and method for cross-document coreference
KR940022316A (ko) 일문 문서용 키 워드 추출장치
Yerra et al. A sentence-based copy detection approach for web documents
Vani et al. Investigating the impact of combined similarity metrics and POS tagging in extrinsic text plagiarism detection system
Chen et al. Named entity extraction for information retrieval
JP3594701B2 (ja) キーセンテンス抽出装置
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
WO2008086378A1 (en) Document clustering based on entity association rules
CN107229611B (zh) 一种基于词对齐的历史典籍分词方法
JPH03127176A (ja) キーワード抽出装置
JP2883153B2 (ja) キーワード抽出装置
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
Jassem et al. Automatic summarization of polish news articles by sentence selection
El-Shayeb et al. Comparative analysis of different text segmentation algorithms on Arabic news stories
Sindhu et al. Plagiarism detection in Malayalam language text using a composition of similarity measures
JP3464055B2 (ja) キーワード抽出装置
Iacobelli et al. Finding new information via robust entity detection
Chow Argument identification in chinese editorials
Khan et al. MRST: A New Technique For Information Summarization.
Fluhr et al. Parallel text alignment using crosslingual information retrieval techniques
Nobata et al. Evaluation of features for sentence extraction on different types of corpora
Turell et al. Computational approaches to plagiarism detection and authorship attribution in real forensic cases
Enemouh et al. Morph-inflected word detection in igbo via bitext
JPH03116376A (ja) キーワード・マッチング装置
JP2004280323A (ja) 質問文書要約装置、質問応答検索装置、質問文書要約プログラム