JPH0228769A - キーワード自動生成装置 - Google Patents

キーワード自動生成装置

Info

Publication number
JPH0228769A
JPH0228769A JP63179802A JP17980288A JPH0228769A JP H0228769 A JPH0228769 A JP H0228769A JP 63179802 A JP63179802 A JP 63179802A JP 17980288 A JP17980288 A JP 17980288A JP H0228769 A JPH0228769 A JP H0228769A
Authority
JP
Japan
Prior art keywords
key
dictionary
concept
keywords
conception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63179802A
Other languages
English (en)
Inventor
Masaaki Nagata
昌明 永田
Haruo Kimoto
木本 晴夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63179802A priority Critical patent/JPH0228769A/ja
Publication of JPH0228769A publication Critical patent/JPH0228769A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は文書データベース作成のため(:、データベ
ース(二蓄積される文書C二対して、文章の内容を適切
(二表現するキーワードを文章中から自動的に生成する
キーワード自動生成装置に関するものである。
「従来の技術」 新聞記事、特許明細書、技術論文などの大量の文書を含
むデータベースを作成する場合、データベースへの人力
の際(二番文書(二対して検索用のキーワードを付与し
なければならない。従来、この目的のため(二次のよう
な方法が用いられていた。
〔a〕単語の頻度(二よる方法 [b]不要語辞書を用いる方法 [rClキーワード辞書を用いる方法 cl)完全一致法 C2)部分一致法 しかし、これらの従来の方法にはそれぞれ次のような欠
点がある。
[a)の方法では、対象文章中の単語の出現頻度を調べ
、出現頻度が中程度の語が文章の特徴を最もよく表して
いると考え、これをキーワードとする。この方法では高
頻度語は一般的な用語とみなして除去し、低頻度語は特
殊な用語とみなして除去する。このためキーワードとし
て抽出された語には統計的な文書識別能力が作証される
という利点がある。しかし文章を統語的あるいは意味的
には解析しないので、抽出されたキーワードは必ずしも
文章の主題を表現する語ではない。従って人手(二より
キーワードを抽出する場合(二比べると、キーワードと
なり得ない語を抽出すること(二よる適合率の低下、キ
ーワードとなり得る語を除去すること(二よる再現率の
低下が問題となる。
〔b〕の方法では、形容詞、形容動詞、副詞やキーワー
ド(二なり得ない動詞、名詞などを収集した不要語辞書
を予め用意し、対象文章中の単語とこの不要語辞書とを
照合して、一致しなかった詔をすべてキーワードとする
。このため文章中に現れたキーワードとなり得る語を除
去することにより再現率が低下することはない。しかし
人手によりキーワードを抽出する場合に比べると、文章
の主題とは余り関係のない語が大量にキーワードとして
抽出されてしまうため(二適合率が大きく低下するとい
う問題がある。またキーワードとして用いられる用語が
統制されていないので、表記の違いや同義語(二よる再
現率の低下も問題となる。
〔C1〕の方法では、キーワードになり得る語を収集し
たキーワード辞訂を予め用意し、対象文章中の単語とこ
のキーワード辞書を照合して、一致した語をキーワード
とする。このためキーワードになり得ない語が抽出され
ること(二より適合率が低下することはない。またこの
方法ではキーワードとして用いられる用語が統制できる
という利点がある。しかしキーワード辞書中の語が文章
中(二出現すれば自動的(二抽出されるので、人手(二
よりキーワードを抽出する場合に比べると、文章の主題
(二余り関係のない語が抽出されること(二より適合率
が低下するという問題がある。さら(ニキーワド辞書中
の語と文章中の語が文字列として完全(ニ一致しないと
抽出されないので、対象とする文章の主題を表現するの
に適切なキーワードがキーワード辞書中(二存在しても
キーワードとして抽出されないという問題がある。
〔C2〕の方法では、キーワード辞書を用いる点は〔C
1〕と同様であるが、対象文章中の単語とキーワード辞
書を照合する際に、完全に一致する語の他(二部公的に
一致する語もキーワード候補として抽出し、その中で一
致度の高い語をキーワードとする。このため〔C1〕と
比べると、キーワード辞書に収録されている語が変形し
た形(#生、省略、複合語化、分割など)で対象文章中
(二出現する場合でもキーワードを生成できるという利
点がある。しかし文字列上の一致度は必ずしも意味的な
類似度に対応していないので、文章の主題とは全く無関
係なキーワードを生成してしまうことがあるという問題
点がある。
これらをまとめれば、[a) (bl [C1の方法及
びこれらを組み合わせた方法では、文章全体の意味的な
解釈を行わないので、主題を表現するの(二適切なキー
ワードを生成できない、主題と余り関係のないキーワー
ドを生成してしまうという問題がある。特に〔a〕〔b
〕〔C〕の方法では、文章中c二出現しない語をキーワ
ードとして生成することができない。また〔C1〕の方
法では、文章中(二出現しない語もキーワードとして生
成できるが意味的な根拠が希薄である。
この発明の目的は、従来の方法では、文章の主題を表現
するのに適切でない語が文章中からキーワードとして抽
出されるという問題点や文章の主題を表現するの(二適
切な語が文章中に出現しなければ、キーワード辞書中(
二適切な語がある場合でも、キーワードとして生成され
ることはないという問題点を解決したキーワード自動生
成装置を提供することにある。
「課題を解決するための手段」 この発明は、キーワード辞書中のキーワードは一つの概
念を表す幾つかの用語の中から一つの用語だけを代表と
して選んで収録したものであるという性質、及び実際の
文章中におけるこの概念の表層的な表現形態は、キーワ
ード自身(二よる場合、キーワードの同義語や厳密な意
味では同義語ではないがキーワードが表す概念と同じ概
念を喚起する能力を持つ語(広義の同義語)による場合
、キーワードの表す概念を直接的(二指示しないが、こ
の概念を強く連想させる能力を持つ語(広義の関連語)
による場合、(二分類できるという性質を利用して、文
章中の表層語とキーワードが表す概念(またはこれを構
成する基本概念)の関係をギ概念辞書中(二記述したこ
と、 文章の主題を表現する語としであるキーワードが選ばれ
る場合、そのキーワードが表す概念(またはこれを構成
する基本概念)が上述のいずれかの形で文章中(二出現
するという性質を利用して、キー概念辞書を用いて、文
章中から抽出した名詞を調べることにより、文章中に出
現する重要な概念(キー概念)を抽出すること、 キーワードが表現する概念が複合概念である場合、これ
を基本概念(キー概念)の組み合わせとして表すことが
できるという性質を利用して、キーワードとキー概念の
関係を索引規則辞書中(二記述したこと、 複合概念を表現するキーワードが文章の主題を表現する
のに適切であるとき(二は、複合概念を構成する各基本
概念が文章中(二出現するという性質を利用して、索引
規則辞書を用いて、文章中から抽出した概念の組み合わ
せを調べること(−より、文章全体の主題を表現するキ
ーワードを生成すること、 を最も主要な特徴とする。
従来の技術とは、広義の同義語及び広義の関連語からな
るキー概念辞書を用いているので、文章中にキーワード
辞書と完全に一致する語が出現しない場合でも、概念を
抽出して適切なキーワードを生成できること、 キーワードが表現する概念が、文または文章全体の内容
の解析を必要とするような複合概念である場合でも、個
々の基本概念を抽出しその組み合わせを調べること(二
より適切なキーワードを生成できること、 が異なる。
「実施例」 第1図はこの発明の一実施例のシステム構成図である。
同図において1は磁気記憶装置に文字コードで記録され
ている文書データを読み込む人力装置、2は生成された
キーワードを磁気記憶装置(二出力する出力装置、3は
キーワード生I戊のプログラムを実行するプロセッサ(
CPU)、4はキーワード生成のプログラムを格納する
プログラムメモリ、5は入力装置1により読み込まれた
文書データを格納する文書メモリ、6はキーワード生成
のプログラムを実行する際(二使用する作業メモリ、7
は文章から抽出した名詞を格納する名詞テーブル、8は
名詞から抽出したキー概念を格納するキー概念テーブル
、9はキー概念から生成したキーワードを格納するキー
ワードテーブル、10は文章から名詞を抽出する際(二
必要な語案情報と文法情報を格納した日本語辞書、11
は名詞とキー概念の関係を格納したキー概念辞書、12
はキー概念とキーワードの関係を記述した索引規則辞書
である。
第2図はこの発明の一実施例の機能ブロック図である。
入力装置1は処理対象となる文書ファイル18を文書メ
モリ5に読み込む。次に名詞抽出部14は日本語辞書1
0を用いて対象とする文章から名詞を抽出し、名詞テー
ブル7に格納する。
次にキー概念抽出部15はキー概念辞書11を照合し、
名詞テーブル7(二格納されている名詞から同義語また
は関連語の関係により導出可能なキー概念をすべて列挙
する。列挙されたキー概念は次の3つの基桑を用いて得
点性が行われる。
1)キー概念を導出した名詞とキー概念の関連の強さ(
同義語または関連語) 2)キー概念を導出した名詞の入力文章中の出現位置 3)キー概念を導出した名詞の入力文章中の出現頻度 異なる名詞から同じキー概念が導出される場合には、こ
れらの得点を合計する。こうして各キー概念C二対して
得点が与えられ、この得点が予め決めたしきい値を越え
たキー概念を入力文章から抽出されたキー概念としてキ
ー概念テーブル8に格納する。次にキーワード生成部1
6は索引規則辞書12を照合し、キー概念テーブル8に
格納されているキー概念を構成要素として持つキーワー
ドをすべて列挙する。列挙されたキーワード(二ついて
次の条件が満たされたとき、そのキーワードを人力文章
(′″一対するキーワードとしてキーワードテーブル9
(−格納する。
1)キーワードが単一のキー概念から構成されている 2)キーワードが複数のキー概念から構成され、構成要
素となる全てのキー概念がキー概念テーブル8中(二格
納されている 最後(二出力装置2はキーワードテーブル9(−格納さ
れているキーワードを外部記障装置上のキーワードファ
イル23に格納する。
第3図はキー概念辞書及び索引規則辞書の内容の一例で
ある。キー概念は通常の名詞と区別するため(二//で
囲んである。第3図aはキー概念/アメリカ合衆国/の
同義語として「アメリカ」、「米国」、「合衆国」など
の名詞が記憶され、関連語として「ワシントン」、「レ
ーガン」などの名詞が記録されていることなどを示す。
第3図すはキーワード「米ソ関係」は、3つのキー概念
/アメリカ合衆国/、/ソ連/、/関係/から構成され
ることを示す。
第4図はこの発明の一動作例である。人力装置1(二よ
り文書メモリ5に読み込まれた入力文章27は名詞抽出
部14(二より名詞が抽出される。28は名詞テーブル
7の一部である。この例では冒頭の一文「ソ連のゴルバ
チョフ書記長は三十−日、モスクワで開かれたマシエル
・モザンビーク大統領歓迎宴で演説し、・・・」という
部分から、「ソ連」、「プルバテヨフ」、「書記長4な
どの名詞が抽出されることを示す。次に名詞テーブル7
の名詞からキー概念抽出部15(:よりキー概念が抽出
される。29はキー概念テーブル8の内容である。この
例では/ソ連/、/関係/、/アメリカ合衆国/などの
キー概念が、第3図aに不したようなキー概念辞書11
を用いて抽出されることをボす。
さらにキー概念テーブル8のキー概念からキーワード生
成部16によりキーワードが生成される。
30はキーワードテーブル9の内容である。この例では
「米ソ関係」などのキーワードが、第3図すに示したよ
うな索引規則辞書12を用いて生成されることを示す。
比較のためにこの文章に対して人手(二より付けられた
キーワードを31に示す。
ここで左端に「hJを付けた語は自動生成されたキーワ
ードである。
このような構成及び動作となっているから、文章中に現
れるキーワードの同義語や関連語からキーワードが表す
概念あるいはそれを構成する基本概念を文章中からキー
概念として抽出し、キー概念の組み合わせを調べること
(二より文章全体の主題を表すキーワードを生成するこ
とができる。その効果としては従来の技術(1比べて、
文章中に出現しない語をキーワードとして生成すること
ができ、また文章中C1現れた概念の抽象化や組み合わ
せにより生ずる概念を表すキーワードを生成することが
できるという改善があった。
「発明の効果」 思−ヒ説明したように、キーワードが表す概念あるいは
それを構成する基本概念を対象とする文章中に現れるキ
ーワードの同義語や関連語からキー概念として抽出し、
キー概念の組み合わせを調べることにより文章全体の主
題を表すキーワードを生成するのであるから、文章中(
−現れた概念を表すキーワードと同形の語が文章中に出
現しない場合でも、キー概念辞書を用いて文章中の表層
語から概念を抽出することC′″−よりキーワードを生
成することができ、また文章中(1現れた概念の抽象化
や組み合わせを表すキーワードが必要な場合には、索引
規則辞書を用いてキー概念の組み合わせを調べることに
より生成することができるという利点がおる。
【図面の簡単な説明】
第1図はこの発明の一実施例のシステム構成図、第2図
はこの発明の一実施例の機能ブロック図、第3図はこの
発明で用いられる辞書内容の一例を示し、第3図aはキ
ー概念辞書の一部を示す図、第3図すは索引規則辞書の
一部を示す図、第4図はこの発明の一動作例を示す図で
ある。

Claims (1)

    【特許請求の範囲】
  1. (1)キーワードが表現する概念とこの構成要素となる
    基本概念(これをキー概念と呼ぶ)との関係を記憶する
    索引規則辞書と、 キー概念を想起させる能力を持つ単語集合を記憶するキ
    ー概念辞書と、 文章中から名詞を抽出する名詞抽出部と、 この名詞抽出部により抽出された単語に対応するキー概
    念を上記キー概念辞書を用いて抽出するキー概念抽出部
    と、 このキー概念抽出部により抽出されたキー概念から上記
    索引規則辞書を用いてキーワードを生成するキーワード
    生成部とを備えたキーワード自動生成装置。
JP63179802A 1988-07-18 1988-07-18 キーワード自動生成装置 Pending JPH0228769A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63179802A JPH0228769A (ja) 1988-07-18 1988-07-18 キーワード自動生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63179802A JPH0228769A (ja) 1988-07-18 1988-07-18 キーワード自動生成装置

Publications (1)

Publication Number Publication Date
JPH0228769A true JPH0228769A (ja) 1990-01-30

Family

ID=16072152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63179802A Pending JPH0228769A (ja) 1988-07-18 1988-07-18 キーワード自動生成装置

Country Status (1)

Country Link
JP (1) JPH0228769A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05234338A (ja) * 1992-02-19 1993-09-10 Sony Corp 音声認識装置
JPH06187373A (ja) * 1992-12-16 1994-07-08 Sanyo Electric Co Ltd キーワード抽出装置
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
WO2001069854A1 (fr) * 2000-03-16 2001-09-20 Sony Corporation Dispositif de commande de communication et procede associe, dispositif de communication, systeme de communication et procede associe, et mise en oeuvre de media
JP2005346486A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd ドキュメント検索装置
JP2005346485A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd 分類符号処理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05234338A (ja) * 1992-02-19 1993-09-10 Sony Corp 音声認識装置
JPH06187373A (ja) * 1992-12-16 1994-07-08 Sanyo Electric Co Ltd キーワード抽出装置
JPH06282572A (ja) * 1993-03-29 1994-10-07 Nec Corp キーワード自動抽出装置
WO2001069854A1 (fr) * 2000-03-16 2001-09-20 Sony Corporation Dispositif de commande de communication et procede associe, dispositif de communication, systeme de communication et procede associe, et mise en oeuvre de media
JP2005346486A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd ドキュメント検索装置
JP2005346485A (ja) * 2004-06-03 2005-12-15 Fuji Xerox Co Ltd 分類符号処理装置
JP4569178B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 分類符号処理装置
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置

Similar Documents

Publication Publication Date Title
Perkins Python text processing with NLTK 2.0 cookbook
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
KR100546743B1 (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20040117352A1 (en) System for answering natural language questions
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2012520528A (ja) 自然言語テキストの自動的意味ラベリングのためのシステム及び方法
Dubremetz et al. Rhetorical figure detection: Chiasmus, epanaphora, epiphora
JP2011118689A (ja) 検索方法及びシステム
JP3198932B2 (ja) 文書検索装置
Nwesri et al. Stemming Arabic conjunctions and prepositions
Polus et al. Development for performance of Porter Stemmer algorithm
Kumar et al. RETRACTED: A Comparative Analysis of Pre-Processing Time in Summary of Hindi Language using Stanza and Spacy
JPH0228769A (ja) キーワード自動生成装置
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
Malema et al. Parts of speech tagging: A Setswana relative
Tanaka et al. Acquiring and generalizing causal inference rules from deverbal noun constructions
Lodhi et al. Detecting Urdu Text Plagiarism Using Similarity Matching Techniques
Silvester Computer supported indexing: A history and evaluation of NASA's MAI system
JP4059501B2 (ja) 自然語辞書更新装置
JP2008204010A (ja) 質問内容抽出装置と質問内容抽出方法
Colton Text classification using Python
JPH0561902A (ja) 機械翻訳システム
KR100401466B1 (ko) 자연어 검색 시스템을 위한 한글 스태머와 그 스태밍 방법
JP2002366556A (ja) 情報検索方法