JP3573572B2 - キーワード抽出装置及びキーワード表示装置 - Google Patents
キーワード抽出装置及びキーワード表示装置 Download PDFInfo
- Publication number
- JP3573572B2 JP3573572B2 JP15171296A JP15171296A JP3573572B2 JP 3573572 B2 JP3573572 B2 JP 3573572B2 JP 15171296 A JP15171296 A JP 15171296A JP 15171296 A JP15171296 A JP 15171296A JP 3573572 B2 JP3573572 B2 JP 3573572B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- candidate
- frequency
- character
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、キーワード抽出装置及びキーワード表示装置、より詳細には、文書からキーワードを抽出する技術に関し、例えば、文書登録装置等に使用できるものである。
【0002】
【従来の技術】
文書中からキーワードを抽出することは、文書の検索や分類のために重要な技術である。通常、文書中からキーワードを抽出するためには、形態素解析技術により、単語分割し品詞付けを行い、そのうちの特定の品詞(特に名詞)の単語について、そのキーワードとするか否かを評価する。これは、対象分野での専門用語であるとか、単語のキーワード性(例えば、特開昭62−287337号公報には、キーワード辞書とキーワード優先順位判定手段とキーワード自動登録手段とを用いることにより、大量の文章に対する検索を容易にする検索装置が提案されている)、あるいは、複合語であれば、それを構成する単語のキーワード性や複合語構成上の役割に基づき判定する(例えば、短単位キーワードに基づくテキストデータベースシステムがある:小川 他;情報処理学会 データベース研究会90−6,1992)。
【0003】
しかしながら、こうした判定に用いる情報は、基本的には、辞書にそれらの情報を格納することを前提とするが、こうした情報を設定・保守することは容易ではない。そこで、こうしたキーワードのための情報を必要とせずに、キーワード候補を文字種により判別したり(例えば、特開平1−28770号公報には、日本語文章を漢字及びカタカナをキーとして分解し熟語を判別して使用頻度を記録することで重要熟語を選択することにより、汎用小規模管理システムでも簡単にキーワード候補を選出可能にするキーワード選出装置が提案されている)、単語の長さとその使用頻度に基づいてキーワード性を計算する抽出装置が考案されている(例えば、特開昭63−244259号公報には、キーワード候補単語の長さ情報と頻度計数部で計数された単語使用頻度をもとにキーワード候補単語のゆう度を計算することにより、キーワード抽出処理が高精度に行うるようにするキーワード抽出装置が提案されている)。
【0004】
キーワード候補の評価に、特開平1−28770号公報や特開昭63−244259号公報で行っているような単語の出現頻度を考慮する場合、同一の単語候補については、それぞれ計数されるが、類似の単語が出現する場合は、それぞれ別個に計数されるため、各々の出現頻度は小さくなってしまう。このように、類似の単語の出現を考慮して、本出願人は先に単語の複合度あるいは類似単語を出現頻度に反映した疑似出現頻度を用いて、キーワード候補の評価を改善し、また、単語長から単語複合度、重複文字列の割合から疑似出現頻度を簡易に得る方法を提案した。
【0005】
【発明が解決しようとする課題】
本出願人が先に提案した評価方法は、キーワード候補の組み合わせ数の計算量(文書サイズの二乗のオーダ)があり、大きな文書になると計算量が大きくなる。
【0006】
本発明は、上述のごとき実情に鑑みてなされたもので、請求項1の発明は、文字の頻度を利用し、文字の重複使用を簡易的に求めるより計算量を小さく(文書サイズのオーダに)すること、
請求項2の発明は、頻度の計数を文書全体に対して行うのでなく、文書中のキーワード候補についてのみ行うことにより、キーワード候補間の文字列の重複を簡易的に求めることにより、キーワード性の評価を改善すること、
請求項3の発明は、長い単語が過剰に評価される問題を、単語長に基づき、正規化するとともに、単語の複合度を加算的に考慮することで、キーワード性の評価を改良すること、
請求項4の発明は、得られたキーワード性の評価の高い順にキーワード(候補)を並べて表示することにより、当該文書の特徴を的確に表示すること、
請求項5の発明は、キーワード候補の表示の冗長性を排除して表示することにより、当該文書の特徴をより的確に表示すること、
を目的とする。
【0007】
【課題を解決するための手段】
請求項1の発明は、電子化された文書から抽出されたキーワード候補を評価するキーワード候補評価手段を有するキーワード抽出装置において、前記文書中の文字ごとに出現頻度を計数して、文字と出現頻度とを対応させた文字頻度テーブルへ記憶させる出現頻度計算手段を有し、前記キーワード候補評価手段は、前記文字頻度テーブルを参照して、前記キーワード候補を構成する文字に対応する出現頻度に基づいて該キーワード候補の評価値を算出することを特徴とし、もって、キーワード用の辞書等によらず、また極めて簡便にキーワードの評価を行うことができ、文字の重複によるキーワード性の評価計算の処理量を少なくすることができるようにしたものである。
【0008】
請求項2の発明は、請求項1の発明において、前記出現頻度計数手段が文書中の文字ごとの出現頻度ではなく、すべての前記抽出されたキーワード候補中の文字ごとに出現頻度を計数することを特徴とし、もって、キーワード評価の値を改善することができるようにしたものである。
【0009】
請求項3の発明は、請求項1又は2の発明において、前記キーワード候補評価手段は、前記キーワード候補の評価値(F)、前記キーワード候補の文字数(L)、キーワードの平均構成単語長(w)および重み係数(k)を用いた下記式
V=k×(F/L)+(L/w)
で計算される値Vを、該キーワード候補の評価値とすることを特徴とし、もって、キーワード評価の値を改善することができるようにしたものである。
【0010】
請求項4の発明は、請求項1乃至3のいずれかの発明のキーワード抽出装置により抽出されたキーワード候補を表示するキーワード候補表示手段を備えたキーワード表示装置において、前記キーワード候補表示手段は、前記キーワード候補評価手段による評価値が高い順に前記キーワード候補を並べて表示することを特徴とし、もって、文書の内容の特性を容易に認識でき、キーワード候補の評価値を、文書の内容を人間が把握する支援にするだけでなく、文書の内容を機械処理によって評価する場合にも有用にしたものである。
【0011】
請求項5の発明は、請求項4の発明において、前記キーワード候補表示手段は、他のキーワード候補の部分文字列に一致するキーワード候補を削除して評価値の高い順で表示することを特徴とし、もって、文書内容の特性をより適確に認識できるようにしたものである。
【0012】
【発明の実施の形態】
図1は、以下の説明に用いるキーワード抽出対象の文書の内容の一例を示す図である。
(請求項1の発明)
図2(A)は、本発明を説明するための構成図で、図中、1はキーワード候補抽出手段、2は電子化文書、3は出現頻度計数手段、4はキーワード候補評価手段で(以下、全図を通して同様の作用をする部分には同一の参照番号が付してある)、キーワード候補抽出手段1は、電子化された対象文書2からキーワード候補を抽出する。
図3は、キーワード候補抽出手段1により抽出されたキーワード候補の例を示した図で、ここでは、キーワード候補を出現順に重複も含めて並べてある。
キーワード候補の抽出方法は、漢字やカタカナ、英数字の同一文字種の文字列の並びで検出したり、単語分割及び品詞付与を行う形態素解析系によることができるが、その方法は特に問わない。
【0013】
出現頻度計数手段3は、対象文書2の文字ごとの頻度を計数する。
図4(A)は文字ごとの頻度表の一部を示した図で、これは、対象文書2から1文字切り出し、文字の表に頻度を加算していくことで、容易に得ることができる。キーワード候補手段4は、キーワード候補抽出手段1で抽出された各候補につき、それを構成する文字ごとに、出現頻度計数手段3で得られた頻度をもとに評価する。最も単純な方法として、頻度値を加算する。たとえば、「輸出規制」であれば、これを構成する文字の頻度は各々、
[輸]:9 [出]:9 [規]:7 [制]:9
であるので、34が加算値となる。
【0014】
図5(A)は、上記のように各キーワード候補について計数した結果を示した図で、重複する候補は1つのみ表示してある。この評価値によって、
対共産圏輸出統制委員会 44
輸出規制 34
朝鮮民主主義共和国 29
規制品目 24
輸出貿易管理令 23
規制品 22
といったキーワード候補を上位に得ることができる。
【0015】
(請求項2の発明)
図2(B)は、本発明の他の例を説明するための構成図で、請求項2では、前記請求項1の出現頻度計数手段3が文書中の全文字を対象とする代わりに、全キーワード候補の文字を対象にする。これにより、キーワード候補以外に現れた頻度の計数が抑止することができる。
図4(B)は、上記方法で行なった場合の文字頻度表である。この方法によると、図5(B)から、次のキーワード候補が上位に挙げられる。
対共産圏輸出統制委員会 38
輸出規制 29
規制対象 25
規制品目 24
規制品 22
朝鮮民主主義共和国 20
【0016】
(請求項3の発明)
キーワード性は、複合単語になる程、その専門性、特殊性が高まることから、単語長がキーワード性に寄与するのがよいと考えられ、請求項1,2の発明は、構成文字数が多い程、頻度の加算機会が多くなるので、その値が高まるので、単語長が反映しているといえる。しかし、単語長が過剰に反映する場合がある。そこで、本請求項3の発明では、頻度による寄与は単位単語長により正規化するとともに、単語長の寄与をこれに加算する方法を提供する。
図6は、請求項3の発明によるキーワード候補評価結果を示した図で、単語列の最右端に、i番目のキーワード候補ごとの評価値Viを、請求項3の評価値(頻度和)Fi,キーワード候補の単語長(文字数)Li、平均構成単語長l(エル)及び、重み係数kにより次のように計算した値を示す。
Vi=k×Fi/Li+Li/l
【0017】
ここで、Fi/Liは単位長さ当たりの平均頻度、Li/lは構成単語数のおおまかな見積もり値とみることができる。図6では、kを10、lを2とした。請求項1,2の発明では、平均頻度と構成単語数を積で評価していたのを、請求項3の発明では和に代えていると考えることができる。
【0018】
(請求項4の発明)
図2(C)は、本発明の更に他の例を説明するための構成図で、この例は、図2(B)の構成にキーワード候補表示手段5を付加したものである。
図7は、請求項3で得られたキーワード候補の評価値Viを、高い順に順次に表示した例である。
【0019】
(請求項5の発明)
図7の表示では、次のように、他のキーワード候補に含まれるキーワード候補が上位に現れている。
規制 81
輸出規制 74
規制品 74
輸出 66
規制対象 64
規制品目 62
対象 46
イラン 44
イラク 44
品目 41
対共産圏輸出統制委員会 39
【0020】
これらは、対象文書の基本的なキーワード要素である一方、概要把握のために提示する場合は、冗長性を増すと考えられる。
請求項5の発明は、他のキーワード候補に包含されるキーワード候補の表示を抑止するようにしたものである。上記の場合は、「規制」、「規制品」、「輸出」、「対象」が削除される。
図8は、上記表示を削除した上位10キーワードを並べて表示した例を示した図である。
【0021】
【発明の効果】
請求項1の発明によると、キーワード用の辞書等によらず、また極めて簡便にキーワードの評価を行うことができ、文字の重複によるキーワード性の評価計算の処理量を少なくすることができる。
【0022】
請求項2の発明によると、請求項1の発明のキーワード評価の値を改善することができる。
【0023】
請求項3の発明によると、請求項2の発明のキーワード評価の値を改善することができる。
【0024】
請求項4の発明によると、請求項1乃至3の発明の効果に加え、キーワード性の順にキーワードを表示することにより、文書の内容の特性を容易に認識でき、このキーワード候補の評価値を利用すると文書の内容を人間が把握する支援になるだけでなく、文書の内容を機械処理によって評価する場合にも有用である。
【0025】
請求項5の発明によると、請求項4の発明の効果に加え、表示キーワードの冗長性を排除して表示することで、文書内容の特性をより適確に認識できる。
【図面の簡単な説明】
【図1】本発明が適用されるキーワード抽出対象の文書の内容の一例を示す図である。
【図2】本発明の構成を説明するための図である。
【図3】キーワード候補抽出手段により抽出されたキーワード候補の例を示した図である。
【図4】文字ごとの頻度表の一部を示した図である。
【図5】請求項1,2の発明によるキーワード候補評価結果を示した図である。
【図6】請求項2の発明によるキーワード候補評価結果を示す図である。
【図7】請求項4の発明によるキーワード候補の表示例を示す図である。
【図8】請求項5の発明によるキーワード候補の表示例を示す図である。
【符号の説明】
1…キーワード候補抽出手段、2…電子化文書、3…出現頻度計数手段、4…キーワード候補評価手段、5…キーワード候補表示手段。
Claims (5)
- 電子化された文書から抽出されたキーワード候補を評価するキーワード候補評価手段を有するキーワード抽出装置において、前記文書中の文字ごとに出現頻度を計数して、文字と出現頻度とを対応させた文字頻度テーブルへ記憶させる出現頻度計算手段を有し、前記キーワード候補評価手段は、前記文字頻度テーブルを参照して、前記キーワード候補を構成する文字に対応する出現頻度に基づいて該キーワード候補の評価値を算出することを特徴とするキーワード抽出装置。
- 請求項1に記載のキーワード抽出装置において、前記出現頻度計数手段が文書中の文字ごとの出現頻度ではなく、すべての前記抽出されたキーワード候補中の文字ごとに出現頻度を計数することを特徴とするキーワード抽出装置。
- 請求項1又は2に記載のキーワード抽出装置において、前記キーワード候補評価手段は、前記キーワード候補の評価値(F)、前記キーワード候補の文字数(L)、キーワードの平均構成単語長(w)および重み係数(k)を用いた下記式
V=k×(F/L)+(L/w)
で計算される値Vを、該キーワード候補の評価値とすることを特徴とするキーワード抽出装置。 - 請求項1乃至3のいずれかに記載のキーワード抽出装置により抽出されたキーワード候補を表示するキーワード候補表示手段を備えたキーワード表示装置において、前記キーワード候補表示手段は、前記キーワード候補評価手段による評価値が高い順に前記キーワード候補を並べて表示することを特徴とするキーワード表示装置。
- 請求項4のキーワード表示装置において、前記キーワード候補表示手段は、他のキーワード候補の部分文字列に一致するキーワード候補を削除して評価値の高い順で表示することを特徴とするキーワード表示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15171296A JP3573572B2 (ja) | 1996-05-23 | 1996-05-23 | キーワード抽出装置及びキーワード表示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15171296A JP3573572B2 (ja) | 1996-05-23 | 1996-05-23 | キーワード抽出装置及びキーワード表示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09311871A JPH09311871A (ja) | 1997-12-02 |
JP3573572B2 true JP3573572B2 (ja) | 2004-10-06 |
Family
ID=15524634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15171296A Expired - Fee Related JP3573572B2 (ja) | 1996-05-23 | 1996-05-23 | キーワード抽出装置及びキーワード表示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3573572B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3622503B2 (ja) | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP2000132553A (ja) * | 1998-10-22 | 2000-05-12 | Sharp Corp | キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002215647A (ja) * | 2001-01-24 | 2002-08-02 | Nec Corp | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム |
JP4985096B2 (ja) * | 2007-05-22 | 2012-07-25 | 富士ゼロックス株式会社 | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
CN103646074B (zh) * | 2013-12-11 | 2017-06-23 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
-
1996
- 1996-05-23 JP JP15171296A patent/JP3573572B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09311871A (ja) | 1997-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101219366B1 (ko) | 명백한 지리적 언급의 분류 | |
AU2005203237B2 (en) | Phrase-based generation of document description | |
Wilkinson | Effective retrieval of structured documents | |
US8626492B1 (en) | Semantic unit recognition | |
US8306987B2 (en) | System and method for matching search requests and relevant data | |
AU2005203238B2 (en) | Phrase-based searching in an information retrieval system | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
CN107045496A (zh) | 语音识别后文本的纠错方法及纠错装置 | |
JPH096799A (ja) | 文書分類装置及び文書検索装置 | |
KR100818553B1 (ko) | 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체 | |
US20040236730A1 (en) | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval | |
KR20010015368A (ko) | 정보 검색 방법과 정보 검색 장치 | |
WO2008042752A1 (en) | Method and system for identifying and displaying images in response to search queries | |
JPH07114572A (ja) | 文書分類装置 | |
US20160203131A1 (en) | Supplementing Search Results with Information of Interest | |
CN101350027A (zh) | 内容检索设备和内容检索方法 | |
CN105808739A (zh) | 基于Borda算法的搜索结果排序方法 | |
JP3573572B2 (ja) | キーワード抽出装置及びキーワード表示装置 | |
Goldsmith et al. | Automatic language-specific stemming in information retrieval | |
JP3428068B2 (ja) | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 | |
EP0822503A1 (en) | Document retrieval system | |
JP3361563B2 (ja) | 形態素解析装置及びキーワード抽出装置 | |
JPH04205560A (ja) | 情報検索処理方式および検索ファイル作成装置 | |
JP2000163437A (ja) | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 | |
JP2002073680A (ja) | 技術情報検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040629 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070709 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080709 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080709 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090709 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090709 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100709 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110709 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120709 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120709 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |