JP3442214B2 - キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置 - Google Patents

キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置

Info

Publication number
JP3442214B2
JP3442214B2 JP05437696A JP5437696A JP3442214B2 JP 3442214 B2 JP3442214 B2 JP 3442214B2 JP 05437696 A JP05437696 A JP 05437696A JP 5437696 A JP5437696 A JP 5437696A JP 3442214 B2 JP3442214 B2 JP 3442214B2
Authority
JP
Japan
Prior art keywords
concept
word
activity value
identifier
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05437696A
Other languages
English (en)
Other versions
JPH09245059A (ja
Inventor
夏樹 湯浅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP05437696A priority Critical patent/JP3442214B2/ja
Publication of JPH09245059A publication Critical patent/JPH09245059A/ja
Application granted granted Critical
Publication of JP3442214B2 publication Critical patent/JP3442214B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書や電子メール
等に自動的にキーワードを付けたり、文章が表す概念を
示したりすることで、文章の内容を把握しやすくする文
書処理装置、パソコン、ワープロ、電子手帳、その他文
書や電子メール関連装置などに応用されるキーワード抽
出方法、概念抽出方法、キーワード抽出装置、及び概念
抽出装置に関するものである。
【0002】
【従来の技術】文書からキーワードを抽出する方法とし
ては、例えば、木本晴夫の「日本語新聞記事からのキー
ワード自動抽出と重要度評価」(電子情報通信学会論文
誌 D-IVol.J74-D-I No.8 pp.556-566 1991年8月)や、
特開平5−120345号公報の「キーワード抽出装
置」などがあげられる。
【0003】木本の方法は、システムが抽出したキーワ
ード候補語について、個々の語の文章中やシソーラスに
おける特徴を抽出して、その特徴によってキーワード候
補語が文献の内容をよく代表しているかどうかを評価
し、不要語をできるだけ除去する方法である。
【0004】また、特開平5−120345号公報の
「キーワード抽出装置」は、「は」や主題化を示す複合
辞の前の単語を抽出することで、キーワード辞書をほと
んど使用せずにキーワードの自動抽出ができる方法であ
る。入力文中にない単語でも過去の関係する記事データ
ベースのキーワード群中からキーワードとして抽出する
ことで、入力文中にない単語をキーワードとして抽出す
る手段を有する。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来のキーワード抽出方法では、基本的には入力文中に含
まれる単語のみをキーワードとして出力する方法であっ
た。例えば、特開平5−120345号公報の「キーワ
ード抽出装置」は、過去の記事データベースを参照する
ことで、入力文中に含まれていない単語でもキーワード
にすることができるが、この方法も、過去の入力文中に
も含まれていない単語をキーワードとして出力すること
はできない。これに対し、実際には、例えば「国際関
係」の記事には「国際関係」という単語は含まれていな
いことが多いし、「新製品紹介」の記事には「新製品紹
介」という単語が含まれていないことが多い。つまり、
たいていの文章中ではこのような単語は、記述する必要
のない前提条件とみなされるため、文中には出現しない
ことが多い。したがって、このような前提条件的な単語
をキーワードとして出力したい場合には、どうしても人
手による作業が必要となってしまう。
【0006】本発明は、上記のような課題を解決するた
めになされたものであって、単語をそのままキーワード
として用いるだけではなく、単語を概念に変換し、概念
間の関係をもとに、関連する単語を検索していくこと
で、文中にはない単語もキーワードとして出力可能なキ
ーワード抽出方法、概念抽出方法、キーワード抽出装
置、及び概念抽出装置を提供することを目的としてい
る。
【0007】
【課題を解決するための手段】上記課題を解決するた
め、本発明では、入力文章から単語を抜き出す単語抽出
工程と、単語の活性値を計算する単語活性値計算工程
と、各単語を概念識別子に変換する単語概念変換工程
と、各概念識別子を関連している概念識別子に変換する
概念概念変換工程と、各概念識別子を関連している単語
に変換する概念単語変換工程と、活性値の高い順に単語
を順位付けする単語順位算出工程と、活性値の順位が上
位の単語をキーワードとして出力する出力工程とを含む
キーワード抽出方法において、前記単語活性値計算工程
では、前記単語抽出工程で得られる単語の出現回数と、
前記単語概念変換工程又は前記概念概念変換工程で得ら
れる概念変換回数とをもとに、単語の活性値を算出する
ことを特徴とする。
【0008】さらに、本発明では、上記のキーワード抽
出方法において、単語活性値計算工程直後で、その時活
性値を増やした単語と、その時点で活性値の高い単語に
ついてだけ、単語の活性値の順位付けを行なっておくこ
とにより、後から単語の活性値の順位付けをしないで済
むようになり、処理が高速化されるようにしている。
【0009】さらに、本発明では、上記のキーワード抽
出方法において、単語の頻度を先に求めてしまい、最後
にまとめて単語の活性値を計算することで、単語と概念
識別子との変換の回数を減らし、処理が高速化されるよ
うにしている。
【0010】また、本発明では、入力文章から単語を抜
き出す単語抽出工程と、各単語を概念識別子に変換する
単語概念変換工程と、概念識別子の活性値を計算する概
念活性値計算工程と、各概念識別子を関連している概念
識別子に変換する概念概念変換工程と、活性値の高い順
に概念識別子を順位付けする概念順位算出工程と、活性
値の順位が上位の概念識別子を入力文章の代表概念とし
て出力する出力工程とを含む概念抽出方法において、前
記概念活性値計算工程では、前記単語抽出工程及び単語
概念変換工程から得られる概念識別子の出現回数と、前
記概念概念変換工程で得られる概念変換回数とをもと
に、概念識別子の活性値を算出することを特徴とする。
【0011】さらに、本発明では、上記の概念抽出方法
において、概念活性値計算工程直後で、その時活性値を
増やした概念識別子と、その時点で活性値の高い概念識
別子についてだけ、概念識別子の活性値の順位付けを行
なっておくことにより、後から概念識別子の活性値の順
位付けをしないで済むようになり、処理が高速化される
ようにしている。
【0012】さらに、本発明では、上記の概念抽出方法
において、単語の頻度を先に求めてしまい、最後にまと
めて概念識別子の活性値を計算することで、単語と概念
識別子との変換の回数を減らし、処理が高速化されるよ
うにしている。
【0013】また、本発明では、入力文章を入力する入
力部と、該入力部により入力された入力文章から単語を
抜き出す単語抽出部と、単語の活性値を計算する単語活
性値計算部と、各単語を概念識別子に変換する単語概念
変換部と、各概念識別子を関連している概念識別子に変
換する概念概念変換部と、各概念識別子を関連している
単語に変換する概念単語変換部と、活性値の高い順に単
語を順位付けする単語順位算出部と、活性値の順位が上
位の単語をキーワードとして出力する出力部と、単語や
その単語の概念識別子が記述されている単語辞書と、概
念識別子間の関係が記述されている概念辞書とを備える
キーワード抽出装置において、前記単語活性値計算部
は、前記単語抽出部で得られる単語の出現回数と、前記
単語概念変換部又は前記概念概念変換部で得られる概念
変換回数とをもとに、単語の活性値を算出する仕組みを
持つことを特徴とする。
【0014】さらに、本発明では、上記のキーワード抽
出装置において、単語活性値算出部の直後に単語順位算
出部を配置し、活性値を計算した直後に活性値の高い単
語を調査しておくことにより、後から単語の活性値の順
位付けをしないで済むようになり、処理が高速化される
ように構成している。
【0015】また、本発明では、入力文章を入力する入
力部と、該入力部により入力された入力文章から単語を
抜き出す単語抽出部と、各単語を概念識別子に変換する
単語概念変換部と、概念識別子の活性値を計算する概念
活性値計算部と、各概念識別子を関連している概念識別
子に変換する概念概念変換部と、活性値の高い順に概念
識別子を順位付けする概念順位算出部と、活性値の順位
が上位の概念識別子を入力文章の代表概念として出力す
る出力部と、単語やその単語の概念識別子が記述されて
いる単語辞書と、概念識別子間の関係が記述されている
概念辞書とを備える概念抽出装置において、前記概念活
性値計算部では、前記単語抽出部及び単語概念変換部か
ら得られる概念識別子の出現回数と、前記概念概念変換
部で得られる概念変換回数とをもとに、概念識別子の活
性値を算出する仕組みを持つことを特徴とする。
【0016】さらに、本発明では、上記の概念抽出装置
において、概念活性値計算部の直後に概念順位算出部を
配置し、活性値を計算した直後に活性値の高い概念識別
子を調査しておくことにより、後から概念識別子の活性
値の順位付けをしないで済むようになり、処理が高速化
されるように構成している。
【0017】請求項1に記載のキーワード抽出方法又は
請求項7のキーワード抽出装置は以下のような作用を有
する。入力文中から抽出された単語の活性値を増やし、
その単語に関連している概念識別子の活性値を上げる。
次に、その概念識別子に関連している単語や概念識別子
の活性値を増やす操作を定められた回数行なう。以上の
操作を入力文中から単語をすべて抽出してしまうまで繰
り返した後に、活性値が大きくなっている単語をキーワ
ードとして出力する。このように関連する概念識別子の
活性値や、その概念識別子に関連する単語の活性値も増
やしていくため、入力文中に含まれていなくても入力文
の話題に関連する単語の活性値は大きくなり、キーワー
ドとして出力することができるようになる。
【0018】請求項2に記載のキーワード抽出方法又は
請求項8のキーワード抽出装置は以下のような作用を有
する。入力文中から抽出された単語の活性値を増やすと
同時に、単語の活性値の順位を計算する。もし単語の活
性値の順位の計算を最後にまとめて行なおうとすると、
全単語について活性値を調べなくてはならないが、実際
には単語の活性値の順位が上がる可能性のある時は、活
性値が増えた時だけであるから、単語の活性値を増やす
と同時に、その単語の活性値の順位を調査するだけで、
順位の計算は完了する。したがって、このような計算方
法を取ることで、単語の活性値の順位の計算の処理は非
常に高速化される。
【0019】さらに、請求項3に記載のキーワード抽出
方法によれば、最初に入力文中の単語の出現頻度を求め
てしまってから、概念識別子に変換することで、単語辞
書や概念辞書の参照回数を減らすことができ、処理が高
速化される。
【0020】請求項4に記載の概念抽出方法又は請求項
9の概念抽出装置は以下のような作用を有する。入力文
中から抽出された単語に関連している概念識別子の活性
値を増やす。次に、その概念識別子に関連している概念
識別子の活性値を増やす操作を定められた回数行なう。
以上の操作を入力文中から単語をすべて抽出してしまう
まで繰り返した後に、活性値が大きくなっている概念を
入力文の概念として出力する。このように入力文中の単
語に関連する概念識別子の活性値やその概念識別子に関
連する概念識別子の活性値を増やしていくため、入力文
中に直接含まれていなくても入力文の話題に関連する概
念識別子の活性値は大きくなり、文の概念として出力す
ることができるようになる。
【0021】請求項5に記載の概念抽出方法又は請求項
10の概念抽出装置は以下のような作用を有する。入力
文中から抽出された単語に関連している概念識別子の活
性値を上げると同時に、概念識別子の活性値の順位を計
算する。もし概念識別子の活性値の順位の計算を最後に
まとめて行なおうとすると、全概念識別子について活性
値を調べなくてはならないが、実際には概念識別子の活
性値の順位が上がる可能性のある時は、それらの活性値
が増えた時だけであるから、概念識別子の活性値を増や
すと同時に、その概念識別子の活性値の順位を調査する
だけで、順位の計算は完了する。したがって、このよう
な計算方法を取ることで、概念識別子の活性値の順位の
計算の処理は非常に高速化される。
【0022】さらに、請求項6に記載の概念抽出方法に
よれば、最初に入力文中の単語の出現頻度を求めてしま
ってから、概念識別子に変換することで、単語辞書や概
念辞書の参照回数を減らすことができ、処理が高速化さ
れる。
【0023】
【発明の実施の形態】以下、本発明による実施の形態に
ついて、図面を参照して説明する。本発明による第1の
実施形態として、請求項1記載の発明によるキーワード
抽出方法の一実施形態について、図1のフローチャート
を用いて説明する。
【0024】図1に示すように、まず、入力文を全部読
み切ったかどうかを判定し(ステップ101)、読み切
っていないなら、単語辞書121を参照して入力文から
単語を抽出し(ステップ102)、抽出した単語の活性
値を増やす(ステップ103)。次に抽出した単語を、
単語辞書121を参照して関連する概念識別子に変換す
る(ステップ104)。その後、必要に応じて、その時
注目している概念識別子を、概念辞書122を参照して
関連する概念識別子に変換し(ステップ105)、その
概念識別子を単語辞書121を参照して関連する単語に
変換し(ステップ106)、その単語の活性値を増やす
(ステップ107)操作を何回か(0回でも良い。0回
の場合はステップ104の処理を省くことができる。)
繰り返してから、ステップ101に戻る。
【0025】ステップ101にて、入力文を全部読み切
ったことが判定されたら、単語の活性値の高いものを抽
出するために、単語の活性値の順位付けを行ない(ステ
ップ108)、順位の高い単語をキーワードとして出力
する(ステップ109)。
【0026】単語辞書121には、その単語自身とその
単語に関連している概念識別子(同じ概念は同じ番号と
なるように番号付けされた数値)とが記述されている。
従って、単語辞書を参照することによって、ある単語に
関連する概念識別子がわかるし、逆方向から参照するこ
とで、ある概念識別子に関連する単語を調べることがで
きる。
【0027】また、概念辞書122には概念識別子同士
の関連が記述されている。これにより、ある概念識別子
に関連する概念識別子を調べることができる。
【0028】これらのステップ102〜107は人間の
キーワード連想過程に沿っていると考えられ、この手順
をふむことで、人間が思いつくキーワードに近いキーワ
ードを抽出することができる。
【0029】より具体的な例で説明する。ここでは、入
力文章の一例として、図2に示すようなものが入力され
たとする。
【0030】なお、単語辞書121には、「創立(1)」
「周年(2)」「コンサート(3)」「絵画(4)」「お知らせ
(5)」「当社(6)」「管弦楽団(7)」「シューベルト(8)」
「交響曲(9)」「演奏(10)」「ピカソ(11)」「音楽(1
2)」「芸術(13)」「通知(14)」「会社(15)」「作曲家(1
6)」「画家(17)」の各単語が登録されているとする(括
弧内()が概念識別子)。また、概念辞書122に登録
されている概念識別子は1〜17で、各概念識別子は、そ
れぞれ次のように各単語と1対1対応しているとする
(括弧内()が概念識別子)。「創立(1)」「周年(2)」
「コンサート(3)」「絵画(4)」「お知らせ(5)」「当社
(6)」「管弦楽団(7)」「シューベルト(8)」「交響曲
(9)」「演奏(10)」「ピカソ(11)」「音楽(12)」「芸術
(13)」「通知(14)」「会社(15)」「作曲家(16)」「画家
(17)」。
【0031】そして、概念辞書122に記述されている
概念間の関係は、以下のペアが「関連した概念識別子」
として登録されているとする(括弧内()が概念識別
子)。
【0032】「コンサート(3)」と「演奏(10)」 「音楽(12)」と「芸術(13)」 「絵画(4)」と「画家(17)」 「お知らせ(5)」と「通知(14)」 「当社(6)」と「会社(15)」 「管弦楽団(7)」と「演奏(10)」 「演奏(10)」と「音楽(12)」 「シューベルト(8)」と「作曲家(16)」 「芸術(13)」と「作曲家(16)」 「交響曲(9)」と「音楽(12)」 「ピカソ(11)」と「画家(17)」 「芸術(13)」と「画家(17)」 すると、まず、上記の入力文章からの単語抽出におい
て、「創立」「周年」「コンサート」「絵画」「お知ら
せ」「当社」「創立」「周年」「管弦楽団」「シューベ
ルト」「交響曲」「演奏」「ピカソ」が抽出される。つ
まり、単純に単語を抽出して、その頻度でキーワードを
抽出するシステムでは、上記の入力文章からは「創立」
と「周年」が2回抽出され、他の単語は1回しか抽出さ
れないので、この文章のキーワードとしては、「創立」
「周年」がまず選出されることになる。
【0033】しかし、本実施形態の方法では、単語概念
変換工程、概念概念変換工程及び概念単語変換工程を経
ながら単語の活性値を加算して行き、活性値の大きい単
語をキーワードとするため、頻度が低い単語や文中に存
在しない単語もキーワードになり得る。
【0034】また、活性値の加算方法であるが、入力文
中に存在する単語は、1回の出現につき活性値を1増や
し、概念間の連想過程を経るたびに、活性値の加算値を
減らしていくようにするのが一般的である。また、連想
過程は何回行なっても良いが、あまり回数を増やすと処
理速度が遅くなるという問題がある。ここでは、連想過
程を1回経るたびに活性値の加算値を0.7倍し、連想
過程は2回まで行なう(ただし、本実施形態では、概念
概念変換工程において、もう新たな概念や単語に変換で
きない場合は連想過程はそこで打ち切ることにする。も
ちろん、打ち切らない方法を取ることもできる。)こと
として、以下のように、活性値の計算をしてみる(「」
の右にある数値が活性値の加算量である。)。
【0035】1. 「創立(1)」が抽出 「創立(1)」と関連のある概念は存在しないので、「創
立(1)」の活性値が1になるだけである。
【0036】2. 「周年(2)」が抽出 「周年(2)」と関連のある概念は存在しないので、「周
年(2)」の活性値が1になるだけである。
【0037】3. 「コンサート(3)」が抽出 「コンサート(3)」(1)→「演奏(10)」(0.7)→
「管弦楽団(7)」(0.49),「音楽(12)」(0.4
9)という連想過程が生じ、「コンサート(3)」の活性
値が1、「演奏(10)」の活性値が0.7、「管弦楽団(7)」
の活性値が0.49、「音楽(12)」の活性値が0.49になる。
【0038】4. 「絵画(4)」が抽出 「絵画(4)」(1)→「画家(17)」(0.7)→「ピカ
ソ(11)」(0.49),「芸術(13)」(0.49)とい
う連想過程が生じ、「絵画(4)」の活性値が1になり、
「画家(17)」の活性値が0.7になり、「ピカソ(11)」の
活性値が0.49になり、「芸術(13)」の活性値が0.49にな
る。
【0039】5. 「お知らせ(5)」が抽出 「お知らせ(5)」(1)→「通知(14)」(0.7)とい
う連想過程が生じ、「お知らせ(5)」の活性値が1、「通
知(14)」の活性値が0.7になる。
【0040】6. 「当社(6)」が抽出 「当社(6)」(1)→「会社(15)」(0.7)という連
想過程が生じ、「当社(6)」の活性値が1、「会社(15)」
の活性値が0.7になる。
【0041】7. 「創立(1)」が抽出 「創立(1)」と関連のある概念は存在しないので、「創
立(1)」の活性値が1加算されて2になる。
【0042】8. 「周年(2)」が抽出 「周年(2)」と関連のある概念は存在しないので、「周
年(2)」の活性値が1加算されて2になる。
【0043】9. 「管弦楽団(7)」が抽出 「管弦楽団(7)」(1)→「演奏(10)」(0.7)→
「コンサート(3)」(0.49),「音楽(12)」(0.
49)という連想過程が生じ、「管弦楽団(7)」の活性
値は1加算されて1.49に、「演奏(10)」の活性値は0.7加
算されて1.4に、「コンサート(3)」の活性値は0.49加算
されて1.49に、「音楽(12)」の活性値は0.49加算されて
0.98になる。
【0044】10. 「シューベルト(8)」が抽出 「シューベルト(8)」(1)→「作曲家(16)」(0.
7)→「芸術(13)」(0.49)という連想過程が生
じ、「シューベルト(8)」の活性値が1、「作曲家(16)」
の活性値が0.7になり、「芸術(13)」の活性値は0.49加
算されて0.98になる。
【0045】11. 「交響曲(9)」が抽出 「交響曲(9)」(1)→「音楽(12)」(0.7)→「芸
術(13)」(0.49),「演奏(10)」(0.49)とい
う連想過程が生じ、「交響曲(9)」の活性値が1、「音楽
(12)」の活性値は0.7加算されて1.68になり、「芸術(1
3)」の活性値は0.49加算されて1.47になり、「演奏(1
0)」の活性値は0.49加算されて1.89になる。
【0046】12. 「演奏(10)」が抽出 「演奏(10)」(1)→「コンサート(3)」(0.7),
「管弦楽団(7)」(0.7),「音楽(12)」(0.7)
→「芸術(13)」(0.49),「交響曲(9)」(0.4
9)という連想過程が生じ、「演奏(10)」の活性値は1
加算されて2.89に、「コンサート(3)」の活性値は0.7加
算されて2.19に、「管弦楽団(7)」の活性値は0.7加算さ
れて2.19に、「音楽(12)」の活性値は0.7加算されて2.3
8に、「芸術(13)」の活性値は0.49加算されて1.96に、
「交響曲(9)」の活性値は0.49加算されて1.49になる。
【0047】13. 「ピカソ(11)」が抽出 「ピカソ(11)」(1)→「画家(17)」(0.7)→「絵
画(4)」(0.49),「芸術(13)」(0.49)とい
う連想過程が生じ、「ピカソ(11)」の活性値は1加算さ
れて1.49になり、「画家(17)」の活性値は0.7加算され
て1.4になり、「絵画(4)」の活性値は0.49加算されて1.
49になり、「芸術(13)」の活性値は0.49加算されて2.45
になる。
【0048】そして、各単語の活性値を大きい順にソー
トすると、以下のようになる。
【0049】「演奏(10)」2.89 「芸術(13)」2.45 「音楽(12)」2.38 「コンサート(3)」2.19 「管弦楽団(7)」2.19 「創立(1)」2 「周年(2)」2 「絵画(4)」1.49 「交響曲(9)」1.49 「ピカソ(11)」1.49 「画家(17)」1.4 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 以上より、活性値の上位2単語をキーワードとして選出
すると「演奏」と「芸術」が選出される。
【0050】キーワードとしては、「創立」「周年」よ
り「演奏」「芸術」の方がより内容を表していると考え
ることができ、「文章の内容を把握しやすくする」とい
う目的には、より適切なキーワードが得られたと言え
る。
【0051】なお、本実施形態で利用するのに好適な単
語辞書としては、(株)日本電子化辞書研究所のEDR
電子化辞書の単語辞書があげられる。この辞書には単語
と、その単語に対応する概念識別子(各概念に付けられ
た番号)が記述されている。このような辞書が利用でき
ない場合でも、辞書に登録されている単語を(例えばコ
ードの小さい順に)ソートして各単語に番号を割り振り
(ソートした場合に何行目にくるかをその単語の番号に
すれば良い)、「その単語の番号」=「その単語に関連
している概念識別子」とすることで、本発明を用いるこ
とができる。
【0052】また、本実施形態で利用するのに好適な概
念辞書としては、(株)日本電子化辞書研究所のEDR
電子化辞書の概念辞書があげられる。この辞書には各概
念識別子と関係のある概念識別子が記述されている。こ
のような辞書が利用できない場合でも、辞書に登録され
ている単語とその単語の説明文中に含まれている単語か
ら、各単語の概念識別子を上記の単語辞書を用いて求
め、その概念識別子同士が関連しているとすることで、
本発明を用いることができる。
【0053】また、上記の連想過程の説明においては、
説明をわかりやすくするため、各単語は各概念識別子と
1対1対応していることとしたが、実際の辞書では多対
多の場合が多い。この場合でも本実施形態の連想過程
は、問題なく生じさせることができることは明らかであ
る。
【0054】次に、本発明による第2の実施形態とし
て、請求項2に記載の発明によるキーワード抽出装置の
一実施形態について、図3のフローチャートを用いて説
明する。
【0055】図3に示すように、まず、入力文を全部読
み切ったかどうかを判定し(ステップ201)、読み切
っていないなら、単語辞書221を参照して入力文から
単語を抽出し(ステップ202)、抽出した単語の活性
値を増やし(ステップ203)、単語の活性値の順位付
けを行なう(ステップ204)。次に抽出した単語を、
単語辞書221を参照して関連する概念識別子に変換す
る(ステップ205)。その後、必要に応じて、その時
注目している概念識別子を、概念辞書222を参照して
関連する概念識別子に変換し(ステップ206)、その
概念識別子を単語辞書221を参照して関連する単語に
変換し(ステップ207)、その単語の活性値を増やし
(ステップ208)、単語の活性値の順位付けを行なう
(ステップ209)操作を何回か(0回でも良い。0回
の場合はステップ205の処理を省くことができる。)
繰り返してから、ステップ201に戻る。
【0056】ステップ201にて、入力文を全部読み切
ったことが判定されたら、単語の活性値の高いものをキ
ーワードとして出力する(ステップ210)。
【0057】なお、単語辞書221は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
222も上記第1の実施形態の概念辞書122と同じも
のである。
【0058】本実施形態では、単語の活性値を増やした
直後に活性値の順位付けを調査することによって、活性
値の調査対象を最小限に抑えることができる(その時活
性値を増やした単語と、その時活性値の高い単語だけに
ついて調べれば良い)ので、処理を高速化できる。
【0059】ここで、具体例として、上記第1の実施形
態で示した入力文章(図2)を入力した場合の処理を説
明する。
【0060】単語辞書221や概念辞書222の内容
も、上記第1の実施形態で示した単語辞書121や概念
辞書122の内容と同一とする。
【0061】また、今回はキーワードとしては活性値の
上位2語を出力するものとする。
【0062】1. 「創立(1)」が抽出 「創立(1)」と関連のある概念は存在しないので、「創
立(1)」の活性値が1になるだけである。
【0063】単語の活性値を順位付けしたものは以下の
通り。
【0064】「創立(1)」1 2. 「周年(2)」が抽出 「周年(2)」と関連のある概念は存在しないので、「周
年(2)」の活性値が1になるだけである。
【0065】単語の活性値を順位付けしたものは以下の
通り。
【0066】「創立(1)」1 「周年(2)」1 3. 「コンサート(3)」が抽出 「コンサート(3)」(1)→「演奏(10)」(0.7)→
「管弦楽団(7)」(0.49),「音楽(12)」(0.4
9)という連想過程が生じ、「コンサート(3)」の活性
値が1、「演奏(10)」の活性値が0.7、「管弦楽団(7)」
の活性値が0.49、「音楽(12)」の活性値が0.49になる。
【0067】単語の活性値を順位付けしたものは以下の
通り。
【0068】「創立(1)」1 「周年(2)」1 「コンサート(3)」1 「演奏(10)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 4. 「絵画(4)」が抽出 「絵画(4)」(1)→「画家(17)」(0.7)→「ピカ
ソ(11)」(0.49),「芸術(13)」(0.49)とい
う連想過程が生じ、「絵画(4)」の活性値が1になり、
「画家(17)」の活性値が0.7になり、「ピカソ(11)」の
活性値が0.49になり、「芸術(13)」の活性値が0.49にな
る。
【0069】単語の活性値を順位付けしたものは以下の
通り。
【0070】「創立(1)」1 「周年(2)」1 「コンサート(3)」1 「絵画(4)」1 「演奏(10)」0.7 「画家(17)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 5. 「お知らせ(5)」が抽出 「お知らせ(5)」(1)→「通知(14)」(0.7)とい
う連想過程が生じ、「お知らせ(5)」の活性値が1、「通
知(14)」の活性値が0.7になる。
【0071】単語の活性値を順位付けしたものは以下の
通り。
【0072】「創立(1)」1 「周年(2)」1 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「演奏(10)」0.7 「画家(17)」0.7 「通知(14)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 6. 「当社(6)」が抽出 「当社(6)」(1)→「会社(15)」(0.7)という連
想過程が生じ、「当社(6)」の活性値が1、「会社(15)」
の活性値が0.7になる。
【0073】単語の活性値を順位付けしたものは以下の
通り。
【0074】「創立(1)」1 「周年(2)」1 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「演奏(10)」0.7 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 7. 「創立(1)」が抽出 「創立(1)」と関連のある概念は存在しないので、「創
立(1)」の活性値が1加算されて2になる。
【0075】単語の活性値を順位付けしたものは以下の
通り。
【0076】「創立(1)」2 「周年(2)」1 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「演奏(10)」0.7 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 8. 「周年(2)」が抽出 「周年(2)」と関連のある概念は存在しないので、「周
年(2)」の活性値が1加算されて2になる。
【0077】単語の活性値を順位付けしたものは以下の
通り。
【0078】「創立(1)」2 「周年(2)」2 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「演奏(10)」0.7 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 9. 「管弦楽団(7)」が抽出 「管弦楽団(7)」(1)→「演奏(10)」(0.7)→
「コンサート(3)」(0.49),「音楽(12)」(0.
49)という連想過程が生じ、「管弦楽団(7)」の活性
値は1加算されて1.49に、「演奏(10)」の活性値は0.7加
算されて1.4に、「コンサート(3)」の活性値は0.49加算
されて1.49に、「音楽(12)」の活性値は0.49加算されて
0.98になる。
【0079】単語の活性値を順位付けしたものは以下の
通り。
【0080】「創立(1)」2 「周年(2)」2 「管弦楽団(7)」1.49 「コンサート(3)」1.49 「演奏(10)」1.4 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「音楽(12)」0.98 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7「ヒ゜カソ (11)」0.49 「芸術(13)」0.49 10. 「シューベルト(8)」が抽出 「シューベルト(8)」(1)→「作曲家(16)」(0.
7)→「芸術(13)」(0.49)という連想過程が生
じ、「シューベルト(8)」の活性値が1、「作曲家(16)」
の活性値が0.7になり、「芸術(13)」の活性値は0.49加
算されて0.98になる。
【0081】単語の活性値を順位付けしたものは以下の
通り。
【0082】「創立(1)」2 「周年(2)」2 「管弦楽団(7)」1.49 「コンサート(3)」1.49 「演奏(10)」1.4 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「音楽(12)」0.98 「芸術(13)」0.98 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 「ピカソ(11)」0.49 11. 「交響曲(9)」が抽出 「交響曲(9)」(1)→「音楽(12)」(0.7)→「芸
術(13)」(0.49),「演奏(10)」(0.49)とう
連想過程が生じ、「交響曲(9)」の活性値が1、「音楽(1
2)」の活性値は0.7加算されて1.68になり、「芸術(1
3)」の活性値は0.49加算されて1.47になり、「演奏(1
0)」の活性値は0.49加算されて1.89になる。
【0083】単語の活性値を順位付けしたものは以下の
通り。
【0084】「創立(1)」2 「周年(2)」2 「演奏(10)」1.89 「音楽(12)」1.68 「管弦楽団(7)」1.49 「コンサート(3)」1.49 「芸術(13)」1.47 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「交響曲(9)」1 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 「ピカソ(11)」0.49 12. 「演奏(10)」が抽出 「演奏(10)」(1)→「コンサート(3)」(0.7),
「管弦楽団(7)」(0.7),「音楽(12)」(0.7)
→「芸術(13)」(0.49),「交響曲(9)」(0.4
9)という連想過程が生じ、「演奏(10)」の活性値は1
加算されて2.89に、「コンサート(3)」の活性値は0.7加
算されて2.19に、「管弦楽団(7)」の活性値は0.7加算さ
れて2.19に、「音楽(12)」の活性値は0.7加算されて2.3
8に、「芸術(13)」の活性値は0.49加算されて1.96に、
「交響曲(9)」の活性値は0.49加算されて1.49になる。
【0085】単語の活性値を順位付けしたものは以下の
通り。
【0086】「演奏(10)」2.89 「音楽(12)」2.38 「コンサート(3)」2.19 「管弦楽団(7)」2.19 「創立(1)」2 「周年(2)」2 「芸術(13)」1.96 「交響曲(9)」1.49 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 「ピカソ(11)」0.49 13. 「ピカソ(11)」が抽出 「ピカソ(11)」(1)→「画家(17)」(0.7)→「絵
画(4)」(0.49),「芸術(13)」(0.49)とい
う連想過程が生じ、「ピカソ(11)」の活性値は1加算さ
れて1.49になり、「画家(17)」の活性値は0.7加算され
て1.4になり、「絵画(4)」の活性値は0.49加算されて1.
49になり、「芸術(13)」の活性値は0.49加算されて2.45
になる。
【0087】単語の活性値を順位付けしたものは以下の
通り。
【0088】「演奏(10)」2.89 「芸術(13)」2.45 「音楽(12)」2.38 「コンサート(3)」2.19 「管弦楽団(7)」2.19 「創立(1)」2 「周年(2)」2 「交響曲(9)」1.49 「ピカソ(11)」1.49 「絵画(4)」1.49 「画家(17)」1.4 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 以上より、活性値の上位2単語をキーワードとして選出
すると「演奏」と「芸術」が選出される。
【0089】以上でわかるように、ステップ204での
単語の活性値の順位付けは、それまでに得られている順
位リストについて、上記の下線を付して示した単語(単
語の活性値が加算された単語)についてだけ順位を調査
すれば良いことになり、処理が高速化される。
【0090】また、記憶容量の制限などで、全ての単語
の活性値を保存することができない場合でも、このよう
に常に順位を計算しながら、活性値の順位が上位の単語
の活性値のみ、活性値を保存していけば実用上は問題な
くキーワード抽出ができる。
【0091】次に、本発明による第3の実施形態とし
て、請求項3に記載の発明によるキーワード抽出装置の
一実施形態について、図4のフローチャートを用いて説
明する。
【0092】図4に示すように、まず、入力文を全部読
み切ったかどうかを判定し(ステップ301)、読み切
っていないなら、単語辞書321を参照して入力文から
単語を抽出し(ステップ302)、抽出した単語の頻度
を数える(ステップ303)操作を入力文を全部読み切
るまで繰り返す。そして、単語の頻度を元に単語の活性
値を計算し(ステップ304)、単語の活性値の活性値
の順位付けを行う(ステップ305)。
【0093】その後、必要に応じて、単語を、単語辞書
321を参照して関連する概念識別子に変換し(ステッ
プ306)、その概念識別子を概念辞書322を参照し
て関連する概念識別子に変換し(ステップ307)、そ
の概念識別子を単語辞書321を参照して関連する単語
に変換し(ステップ308)てから、再度ステップ30
4に戻ってその単語の活性値の計算を行なう操作を何回
か(0回でも良い)繰り返してから、ステップ303へ
進む。
【0094】ステップ303では、単語の活性値の高い
ものをキーワードとして出力する。
【0095】なお、単語辞書321は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
322も上記第1の実施形態の概念辞書122と同じも
のである。
【0096】本実施形態では、最初に単語の頻度を求め
てしまい、最後にまとめて活性値の計算を行なうこと
で、単語辞書や概念辞書を参照する回数を減らすことが
でき、処理を高速化できるというものである。
【0097】ここで、具体例として、上記第1の実施形
態で示した入力文章(図2)を入力した場合の処理を説
明する。
【0098】単語辞書321や概念辞書322の内容
も、上記第1の実施形態で示した単語辞書121や概念
辞書122の内容と同一とする。また、今回はキーワー
ドとしては活性値の上位2語を出力するものとする。
【0099】まず、最初に入力文章の頻度を求めると、
以下の頻度が得られる(なお「」内の()内の数は概念
識別子である)。
【0100】「創立(1)」2 「周年(2)」2 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「管弦楽団(7)」1 「シューベルト(8)」1 「交響曲(9)」1 「演奏(10)」1 「ピカソ(11)」1 ステップ304では、上記の頻度がそのまま単語の活性
値となる。ステップ306〜308の処理では、各単語
毎に連想過程を生成して活性値を計算していく。
【0101】ここでは、ステップ304〜308での活
性値の計算をまとめて、各単語ごとに説明する。なお、
連想過程の「」の右に書いてある括弧内()の数値は活
性値の頻度に対する倍率(活性値倍率)である。本実施
形態では、上記第1の実施形態に示した例の値をそのま
ま使用することにする。
【0102】1. 「創立(1)」頻度 2 「創立(1)」と関連のある概念は存在しないので、「創
立(1)」の頻度である2がそのまま「創立(1)」の活性値
となる。
【0103】単語の活性値を順位付けしたものは以下の
通り。
【0104】「創立(1)」2 2. 「周年(2)」頻度 2 「周年(2)」と関連のある概念は存在しないので、「周
年(2)」の頻度である2がそのまま「周年(2)」の活性値
となる。
【0105】単語の活性値を順位付けしたものは以下の
通り。
【0106】「創立(1)」2 「周年(2)」2 3. 「コンサート(3)」頻度 1 「コンサート(3)」(1)→「演奏(10)」(0.7)→
「管弦楽団(7)」(0.49), 「音楽(12)」(0.49)という連想過程が生じ、「コ
ンサート(3)」の頻度1を、この連想過程に出現する全て
の単語の活性値倍率に掛けたものを各単語の活性値に加
算することにより、「コンサート(3)」の活性値は1、
「演奏(10)」の活性値は0.7、「管弦楽団(7)」の活性値
は0.49、「音楽(12)」の活性値は0.49になる。
【0107】単語の活性値を順位付けしたものは以下の
通り。
【0108】「創立(1)」2 「周年(2)」2 「コンサート(3)」1 「演奏(10)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 4. 「絵画(4)」頻度 1 「絵画(4)」(1)→「画家(17)」(0.7)→「ピカ
ソ(11)」(0.49),「芸術(13)」(0.49)とい
う連想過程が生じ、「絵画(4)」の頻度1を、この連想過
程に出現する全ての単語の活性値倍率に掛けたものを各
単語の活性値に加算することにより、「絵画(4)」の活
性値が1になり、「画家(17)」の活性値が0.7になり、
「ピカソ(11)」の活性値が0.49になり、「芸術(13)」の
活性値が0.49になる。
【0109】単語の活性値を順位付けしたものは以下の
通り。
【0110】「創立(1)」2 「周年(2)」2 「コンサート(3)」1 「絵画(4)」1 「演奏(10)」0.7 「画家(17)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 5. 「お知らせ(5)」頻度 1 「お知らせ(5)」(1)→「通知(14)」(0.7)とい
う連想過程が生じ、「お知らせ(5)」の頻度1を、この連
想過程に出現する全ての単語の活性値倍率に掛けたもの
を各単語の活性値に加算することにより、「お知らせ
(5)」の活性値が1、「通知(14)」の活性値が0.7にな
る。
【0111】単語の活性値を順位付けしたものは以下の
通り。
【0112】「創立(1)」2 「周年(2)」2 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「演奏(10)」0.7 「画家(17)」0.7 「通知(14)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 6. 「当社(6)」頻度 1 「当社(6)」(1)→「会社(15)」(0.7)という連
想過程が生じ、「当社(6)」の頻度1を、この連想過程に
出現する全ての単語の活性値倍率に掛けたものを各単語
の活性値に加算することにより、「当社(6)」の活性値
が1、「会社(15)」の活性値が0.7になる。
【0113】単語の活性値を順位付けしたものは以下の
通り。
【0114】「創立(1)」2 「周年(2)」2 「コンサート(3)」1 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「演奏(10)」0.7 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「管弦楽団(7)」0.49 「音楽(12)」0.49 「ピカソ(11)」0.49 「芸術(13)」0.49 7. 「管弦楽団(7)」頻度 1 「管弦楽団(7)」(1)→「演奏(10)」(0.7)→
「コンサート(3)」(0.49),「音楽(12)」(0.
49)という連想過程が生じ、「管弦楽団(7)」の頻度1
を、この連想過程に出現する全ての単語の活性値倍率に
掛けたものを各単語の活性値に加算することにより、
「管弦楽団(7)」の活性値は1加算されて1.49に、「演奏
(10)」の活性値は0.7加算されて1.4に、「コンサート
(3)」の活性値は0.49加算されて1.49に、「音楽(12)」
の活性値は0.49加算されて0.98になる。
【0115】単語の活性値を順位付けしたものは以下の
通り。
【0116】「創立(1)」2 「周年(2)」2 「管弦楽団(7)」1.49 「コンサート(3)」1.49 「演奏(10)」1.4 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「音楽(12)」0.98 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「ピカソ(11)」0.49 「芸術(13)」0.49 8. 「シューベルト(8)」頻度 1 「シューベルト(8)」(1)→「作曲家(16)」(0.
7)→「芸術(13)」(0.49)という連想過程が生
じ、「シューベルト(8)」の頻度1を、この連想過程に出
現する全ての単語の活性値倍率に掛けたものを各単語の
活性値に加算することにより、「シューベルト(8)」の
活性値が1、「作曲家(16)」の活性値が0.7になり、「芸
術(13)」の活性値は0.49加算されて0.98になる。
【0117】単語の活性値を順位付けしたものは以下の
通り。
【0118】「創立(1)」2 「周年(2)」2 「管弦楽団(7)」1.49 「コンサート(3)」1.49 「演奏(10)」1.4 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「音楽(12)」0.98 「芸術(13)」0.98 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 「ピカソ(11)」0.49 9. 「交響曲(9)」頻度 1 「交響曲(9)」(1)→「音楽(12)」(0.7)→「芸
術(13)」(0.49), 「演奏(10)」(0.49)とう連想過程が生じ、「交響
曲(9)」の頻度1を、この連想過程に出現する全ての単語
の活性値倍率に掛けたものを各単語の活性値に加算する
ことにより、「交響曲(9)」の活性値が1、「音楽(12)」
の活性値は0.7加算されて1.68になり、「芸術(13)」の
活性値は0.49加算されて1.47になり、「演奏(10)」の活
性値は0.49加算されて1.89になる。
【0119】単語の活性値を順位付けしたものは以下の
通り。
【0120】「創立(1)」2 「周年(2)」2 「演奏(10)」1.89 「音楽(12)」1.68 「管弦楽団(7)」1.49 「コンサート(3)」1.49 「芸術(13)」1.47 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「交響曲(9)」1 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 「ピカソ(11)」0.49 10. 「演奏(10)」頻度 1 「演奏(10)」(1)→「コンサート(3)」(0.7),
「管弦楽団(7)」(0.7),「音楽(12)」(0.7)
→「芸術(13)」(0.49),「交響曲(9)」(0.4
9)という連想過程が生じ、「演奏(10)」の頻度1を、
この連想過程に出現する全ての単語の活性値倍率に掛け
たものを各単語の活性値に加算することにより、「演奏
(10)」の活性値は1加算されて2.89に、「コンサート
(3)」の活性値は0.7加算されて2.19に、「管弦楽団
(7)」の活性値は0.7加算されて2.19に、「音楽(12)」の
活性値は0.7加算されて2.38に、「芸術(13)」の活性値
は0.49加算されて1.96に、「交響曲(9)」の活性値は0.4
9加算されて1.49になる。
【0121】単語の活性値を順位付けしたものは以下の
通り。
【0122】「演奏(10)」2.89 「音楽(12)」2.38 「コンサート(3)」2.19 「管弦楽団(7)」2.19 「創立(1)」2 「周年(2)」2 「芸術(13)」1.96 「交響曲(9)」1.49 「絵画(4)」1 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「画家(17)」0.7 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 「ピカソ(11)」0.49 11. 「ピカソ(11)」頻度 1 「ピカソ(11)」(1)→「画家(17)」(0.7)→「絵
画(4)」(0.49),「芸術(13)」(0.49)とい
う連想過程が生じ、「ピカソ(11)」の頻度1を、この連
想過程に出現する全ての単語の活性値倍率に掛けたもの
を各単語の活性値に加算することにより、「ピカソ(1
1)」の活性値は1加算されて1.49になり、「画家(17)」
の活性値は0.7加算されて1.4になり、「絵画(4)」の活
性値は0.49加算されて1.49になり、「芸術(13)」の活性
値は0.49加算されて2.45になる。
【0123】単語の活性値を順位付けしたものは以下の
通り。
【0124】「演奏(10)」2.89 「芸術(13)」2.45 「音楽(12)」2.38 「コンサート(3)」2.19 「管弦楽団(7)」2.19 「創立(1)」2 「周年(2)」2 「交響曲(9)」1.49 「ピカソ(11)」1.49 「絵画(4)」1.49 「画家(17)」1.4 「お知らせ(5)」1 「当社(6)」1 「シューベルト(8)」1 「通知(14)」0.7 「会社(15)」0.7 「作曲家(16)」0.7 以上より、活性値の上位2単語をキーワードとして選出
すると「演奏」と「芸術」が選出される。なお、上記の
下線を付して示した単語は、前述の第2の実施形態と同
様、単語の活性値が加算された単語である。
【0125】以上でわかるように、単語や概念の関係を
利用して連想過程を生成するのは、全単語の頻度を求め
終わった後にまとめて行なうので、単語辞書や概念辞書
を参照する回数が減り、処理が高速化される。
【0126】また、記憶容量の制限などで、全ての単語
の活性値を保存することができない場合でも、上記のよ
うに常に順位を計算しながら、活性値の順位が上位の単
語の活性値のみ、活性値を保存していけば実用上は問題
なくキーワード抽出ができる。 次に、本発明による第
4の実施形態として、請求項4に記載の発明による概念
抽出装置の一実施形態について、図5のフローチャート
を用いて説明する。
【0127】図5に示すように、まず、入力文を全部読
み切ったかどうかを判定し(ステップ401)、読み切
っていないなら、単語辞書421を参照して入力文から
単語を抽出し(ステップ402)、この抽出単語を、単
語辞書421を参照して関連する概念識別子に変換し
(ステップ403)、その概念識別子の活性値を増やす
(ステップ404)。その後、必要に応じて、その時注
目している概念識別子を、概念辞書422を参照して関
連する概念識別子に変換し(ステップ405)、その概
念識別子の活性値を増やす(ステップ406)操作を何
回か(0回でも良い)繰り返してからステップ401に
戻る。
【0128】ステップ401にて、入力文を全部読み切
ったことが判定されたら、概念識別子の活性値の高いも
のを抽出するために、概念識別子の活性値の順位付けを
行ない(ステップ407)、順位の高い概念識別子を人
間にわかりやすい言葉に変換したものを入力文章の代表
概念として出力する(ステップ408)。
【0129】なお、単語辞書421は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
422も上記第1の実施形態の概念辞書122と同じも
のである。
【0130】これらのステップ402〜406は人間が
文を読む時の連想過程に沿っていると考えられ、これら
の手順をふむことで、人間が思いつく概念に近い概念を
入力文から得ることができる。
【0131】なお、本実施形態の概念抽出の具体例とし
ては、上記第1の実施形態に示した具体例の単語を概念
識別子で置き換えたものと同様になるため、ここでは省
略するが、最終的に出力される代表概念は概念識別子
(数値)を人間にわかりやすい言葉に変換したものとな
る。例えば、概念辞書として(株)日本電子化辞書研究
所のEDR電子化辞書の概念辞書を使用している場合
は、「概念見出し」を使用すれば良い。
【0132】次に、本発明による第5の実施形態とし
て、請求項5に記載の発明による概念抽出装置の一実施
形態について、図6のフローチャートを用いて説明す
る。
【0133】図6に示すように、まず、入力文を全部読
み切ったかどうかを判定し(ステップ501)、読み切
っていないなら、単語辞書521を参照して入力文から
単語を抽出し(ステップ502)、抽出した単語を単語
辞書521を参照して関連する概念識別子に変換し(ス
テップ503)、その概念識別子の活性値を増やし(ス
テップ504)、概念識別子の活性値の順位付けを行な
う(ステップ505)。その後、必要に応じて、その時
注目している概念識別子を、概念辞書522を参照して
関連する概念識別子に変換し(ステップ506)、その
概念識別子の活性値を増やし(ステップ507)、概念
識別子の活性値の順位付けを行なう(ステップ508)
操作を何回か(0回でも良い)繰り返してから、ステッ
プ501に戻る。
【0134】ステップ501にて、入力文を全部読み切
ったことが判定されたら、概念識別子の活性値の高いも
のを、入力文の概念として出力する(ステップ50
9)。
【0135】なお、単語辞書521は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
522も上記第1の実施形態の概念辞書122と同じも
のである。
【0136】本実施形態では、概念識別子の活性値を増
やした直後に活性値の順位付けを調査することによっ
て、活性値の調査対象を最小限に抑えることができる
(その時活性値を増やした概念識別子と、その時活性値
の高い概念識別子だけについて調べれば良い)ので、処
理を高速化できるというものである。
【0137】なお、本実施形態の概念抽出の具体例とし
ては、上記第2の実施形態において示した具体例の単語
を概念識別子で置き換えたものと同様になるため、ここ
では省略するが、最終的に出力される代表概念は概念識
別子(数値)を人間にわかりやすい言葉に変換したもの
となる。例えば、概念辞書として(株)日本電子化辞書
研究所のEDR電子化辞書の概念辞書を使用している場
合は、「概念見出し」を使用すれば良い。
【0138】次に、本発明による第6の実施形態とし
て、請求項6に記載の発明による概念抽出装置の一実施
形態について、図7のフローチャートを用いて説明す
る。
【0139】図7に示すように、まず、入力文を全部読
み切ったかどうかを判定し(ステップ601)、読み切
っていないなら、単語辞書621を参照して入力文から
単語を抽出し(ステップ602)、抽出した単語の頻度
を数える(ステップ603)操作を入力文を全部読み切
るまで繰り返す。そして、抽出単語を概念識別子に変換
し(ステップ604)、概念識別子の活性値を計算し
(ステップ605)、概念識別子の活性値を順位付けを
行う(ステップ606)。
【0140】その後、必要に応じて、概念識別子を概念
辞書622を参照して関連する概念識別子に変換して
(ステップ607)から、再度ステップ605に戻って
その概念識別子の活性値の計算を行なう操作を何回か
(0回でも良い)繰り返してから、ステップ608へ進
む。ステップ608では、概念識別子の活性値の高いも
のを、入力文の概念として出力する。
【0141】なお、単語辞書621は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
622も上記第1の実施形態の概念辞書122と同じも
のである。
【0142】本実施形態では、最初に単語の頻度を求め
てしまい、最後にまとめて活性値の計算を行なうこと
で、単語辞書や概念辞書を参照する回数を減らすことが
でき、処理を高速化できるというものである。
【0143】なお、本実施形態の概念抽出の具体例とし
ては、前述の第3の実施形態において示した具体例の単
語を概念識別子で置き換えたものと同様になるため、こ
こでは省略するが、最終的に出力される代表概念は概念
識別子(数値)を人間にわかりやすい言葉に変換したも
のとなる。例えば、概念辞書として(株)日本電子化辞
書研究所のEDR電子化辞書の概念辞書を使用している
場合は、「概念見出し」を使用すれば良い。
【0144】次に、本発明による第7の実施形態とし
て、請求項7に記載の発明によるキーワード抽出装置の
一実施形態について、図8の機能ブロック図を用いて説
明する。
【0145】図8において、701は入力文章を入力す
る入力部、702は入力部701により入力された入力
文章から単語を抜き出す単語抽出部、703は単語の活
性値を計算する単語活性値計算部、704は各単語を概
念識別子に変換する単語概念変換部、705は各概念識
別子を関連している概念識別子に変換する概念概念変換
部、706は各概念識別子を関連している単語に変換す
る概念単語変換部、707は活性値の高い順に単語を順
位付する単語順位算出部、708は活性値の順位が上位
の単語を出力する出力部、721は単語やその単語の概
念識別子が記述されている単語辞書、722は概念識別
子間の関係が記述されている概念辞書である。
【0146】そして、単語抽出部702は、単語辞書7
21を参照して、入力部701により入力された入力文
章中から単語を抜き出す。単語活性値計算部703は、
単語抽出部702により抽出された単語の活性値を計算
して増やす。単語概念変換部704は、単語辞書721
を参照して、単語抽出部702により抽出された単語を
関連する概念識別子に変換する。概念概念変換部705
は、概念辞書722を参照して、概念識別子を関連する
概念識別子に変換する。概念単語変換部706は単語辞
書721を参照して、概念識別子を関連する単語に変換
する。単語順位算出部707は単語の活性値の順位付け
を行なう。出力部708は活性値の高い単語をキーワー
ドとして出力する。単語辞書721には単語とその単語
に関連している概念識別子(同じ概念は同じ番号となる
ように番号付けされた数値)とが記述されている。概念
辞書722には概念識別子同士の関連が記述されてい
る。
【0147】本実施形態のより詳細な動作を、前述の第
1の実施形態の説明に用いた図1のフローチャートに基
づいて説明する。
【0148】図1に示すように、まず、入力部701か
ら入力文が入力されてくる。入力文を全部読み切ったか
どうかを判定し(ステップ101)、読み切っていない
なら、単語抽出部702が単語辞書721を参照して入
力文から単語を抽出し(ステップ102)、単語活性値
計算部703は単語抽出部702が抽出した単語の活性
値を増やす(ステップ103)。次に、単語抽出部70
2が抽出した単語を、単語概念変換部704が単語辞書
721を参照して関連する概念識別子に変換する(ステ
ップ104)。
【0149】その後、必要に応じて、概念概念変換部7
05が、その時注目している概念識別子を、概念辞書7
22を参照して関連する概念識別子に変換し(ステップ
105)、概念単語変換部706が、その概念識別子を
単語辞書721を参照して関連する単語に変換し(ステ
ップ106)、単語活性値計算部703がその単語の活
性値を増やす(ステップ107)操作を何回か(0回で
も良い。0回の場合はステップ104の処理を省くこと
ができる。)繰り返してから、ステップ101に戻る。
【0150】ステップ101にて、入力部701が、入
力文を全部読み切ったことを判定したら、単語の活性値
の高いものを抽出するために、単語順位算出部707が
単語の活性値の順位付けを行ない(ステップ108)、
出力部708が活性値の順位の高い単語をキーワードと
して出力する(ステップ109)。
【0151】なお、単語辞書721は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
722も上記第1の実施形態の概念辞書122と同じも
のである。また、図8において、単語概念変換部704
には、単語活性値計算部703を介して、単語抽出部7
02により抽出された単語が入力されるように記載され
ているが、実際には単語抽出部702から直接単語概念
変換部704に単語が入力されるように構成しても良い
ものである。
【0152】本実施形態のキーワード抽出の具体例とし
ては、前述の第1の実施形態と同様なので、ここでは説
明を省略する。
【0153】次に、本発明による第8の実施形態とし
て、請求項8に記載の発明によるキーワード抽出装置の
一実施形態について、図9の機能ブロック図を用いて説
明する。
【0154】図9において、801は入力文章を入力す
る入力部、802は入力部801により入力された入力
文章から単語を抜き出す単語抽出部、803は単語の活
性値を計算する単語活性値計算部、804は各単語を概
念識別子に変換する単語概念変換部、805は各概念識
別子を関連している概念識別子に変換する概念概念変換
部、806は各概念識別子を関連している単語に変換す
る概念単語変換部、807は活性値の高い順に単語を順
位付する単語順位算出部、808は活性値の順位が上位
の単語を出力する出力部、821は単語やその単語の概
念識別子が記述されている単語辞書、822は概念識別
子間の関係が記述されている概念辞書である。
【0155】そして、単語抽出部802は、単語辞書8
21を参照して、入力部801により入力された入力文
章中から単語を抜き出す。単語活性値計算部803は、
単語抽出部802により抽出された単語の活性値を計算
して増やす。単語概念変換部804は、単語辞書821
を参照して、単語抽出部802により抽出された単語を
関連する概念識別子に変換する。概念概念変換部805
は、概念辞書822を参照して、概念識別子を関連する
概念識別子に変換する。概念単語変換部806は単語辞
書821を参照して、概念識別子を関連する単語に変換
する。単語順位算出部807は単語の活性値の順位付け
を行なう。出力部808は活性値の高い単語をキーワー
ドとして出力する。単語辞書821には単語とその単語
に関連している概念識別子(同じ概念は同じ番号となる
ように番号付けされた数値)とが記述されている。概念
辞書822には概念識別子同士の関連が記述されてい
る。
【0156】本実施形態のより詳細な動作を、前述の第
2の実施形態の説明に用いた図3のフローチャートに基
づいて説明する。
【0157】図3に示すように、まず、入力部801か
ら入力文が入力されてくる。入力文を全部読み切ったか
どうかを判定し(ステップ201)、読み切っていない
なら、単語抽出部802が単語辞書821を参照して入
力文から単語を抽出し(ステップ202)、単語活性値
計算部803は単語抽出部802が抽出した単語の活性
値を増やす(ステップ203)。次に、単語順位算出部
807は単語活性値計算部803が計算した単語の活性
値を順位付けする(ステップ204)。次に、単語抽出
部802が抽出した単語を、単語概念変換部804が単
語辞書821を参照して関連する概念識別子に変換する
(ステップ205)。
【0158】その後、必要に応じて、概念概念変換部8
05が、その時注目している概念識別子を、概念辞書8
22を参照して関連する概念識別子に変換し(ステップ
206)、概念単語変換部806が、その概念識別子を
単語辞書821を参照して関連する単語に変換し(ステ
ップ207)、単語活性値計算部803がその単語の活
性値を増やし(ステップ208)、単語順位算出部80
7が単語の活性値の順位付けをする操作を何回か(0回
でも良い。0回の場合はステップ205の処理を省くこ
とができる。)繰り返してから、ステップ201に戻
る。
【0159】ステップ201にて、入力部801が、入
力文を全部読み切ったことを判定したら、出力部808
が活性値の順位の高い単語をキーワードとして出力する
(ステップ210)。
【0160】なお、単語辞書821は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
822も上記第1の実施形態の概念辞書122と同じも
のである。また、図9において、単語概念変換部804
には、単語活性値計算部803及び単語準位算出部80
7を介して、単語抽出部802により抽出された単語が
入力されるように記載されているが、単語抽出部802
から直接単語概念変換部804に単語が入力されるよう
に構成しても良いものである。
【0161】本実施形態のキーワード抽出の具体例とし
ては、前述の第2の実施形態と同様なので、ここでは説
明を省略する。
【0162】本実施形態では、単語の活性値を増やした
直後に活性値の順位付けを調査することによって、活性
値の調査対象を最小限に抑えることができる(その時活
性値を増やした単語と、その時活性値の高い単語だけに
ついて調べれば良い)ので、処理を高速化できるという
ものである。
【0163】なお、本実施形態のキーワード抽出の具体
例としては、前述の第2の実施形態と同様なので、ここ
では説明を省略する。
【0164】次に、本発明による第9の実施形態とし
て、請求項9に記載の発明による概念抽出装置の一実施
形態について、図10の機能ブロック図を用いて説明す
る。
【0165】図10において、901は入力文章を入力
する入力部、902は入力部901により入力された入
力文章から単語を抜き出す単語抽出部、904は単語抽
出部902により抽出された各単語を概念識別子に変換
する単語概念変換部、909は概念識別子の活性値を計
算する概念活性値計算部、905は各概念識別子を関連
している概念識別子に変換する概念概念変換部、910
は活性値の高い順に概念識別子を順位付する概念順位算
出部、908は活性値の順位が上位の概念識別子を入力
文章の代表概念として出力する出力部、921は単語や
その単語の概念識別子が記述されている単語辞書、92
2は概念識別子間の関係が記述されている概念辞書であ
る。
【0166】そして、単語抽出部902は、単語辞書9
21を参照して、入力部901により入力された入力文
章中から単語を抜き出す。単語概念変換部904は、単
語辞書921を参照して、単語抽出部902により抽出
された単語を関連する概念識別子に変換する。概念活性
値計算部909は、概念識別子の活性値を計算して増や
す。概念概念変換部905は、概念辞書922を参照し
て、概念識別子を関連する概念識別子に変換する。概念
順位算出部910は単語の活性値の順位付けを行なう。
出力部908は活性値の高い概念識別子を入力文章の代
表概念として出力する。単語辞書921には単語とその
単語に関連している概念識別子(同じ概念は同じ番号と
なるように番号付けされた数値)とが記述されている。
概念辞書922には概念識別子同士の関連が記述されて
いる。
【0167】本実施形態のより詳細な動作を、前述の第
4の実施形態の説明に用いた図5のフローチャートに基
づいて説明する。
【0168】図5に示すように、まず、入力部901か
ら入力文が入力されてくる。入力文を全部読み切ったか
どうかを判定し(ステップ401)、読み切っていない
なら、単語抽出部902が単語辞書921を参照して入
力文から単語を抽出し(ステップ402)、この抽出単
語を、単語概念変換部904は単語辞書921を参照し
て関連する概念識別子に変換し(ステップ403)、概
念活性値計算部909はその概念識別子の活性値を増や
す(ステップ404)。その後、必要に応じて、概念概
念変換部905が、その時注目している概念識別子を、
概念辞書922を参照して関連する概念識別子に変換し
(ステップ405)、概念活性値計算部909がその概
念識別子の活性値を増やす(ステップ406)操作を何
回か(0回でも良い)繰り返してからステップ401に
戻る。
【0169】ステップ401にて、入力部901が、入
力文を全部読み切ったことを判定したら、概念順位算出
部910は、概念識別子の活性値の順位付けを行ない
(ステップ407)、出力部908は活性値の順位の高
い概念識別子を入力文章の代表概念として出力する(ス
テップ408)。
【0170】なお、単語辞書921は上記第1の実施形
態の単語辞書121と同じものであり、また、概念辞書
922も上記第1の実施形態の概念辞書122と同じも
のである。
【0171】なお、本実施形態による概念抽出の具体例
は、前述の第1の実施形態において説明した一実施例の
具体例の単語を概念識別子で置き換えたものと同様にな
るため、ここでは省略するが、最終的に出力される代表
概念は概念識別子(数値)を人間にわかりやすい言葉に
変換したものとなる。例えば、概念辞書として(株)日
本電子化辞書研究所のEDR電子化辞書の概念辞書を使
用している場合は、「概念見出し」を使用すれば良い。
【0172】次に、本発明による第10の実施形態とし
て、請求項10に記載の発明による概念抽出装置の一実
施形態について、図11の機能ブロック図を用いて説明
する。
【0173】図11において、1001は入力文章を入
力する入力部、1002は入力部1001により入力さ
れた入力文章から単語を抜き出す単語抽出部、1004
は単語抽出部1002により抽出された各単語を概念識
別子に変換する単語概念変換部、1009は概念識別子
の活性値を計算する概念活性値計算部、1005は各概
念識別子を関連している概念識別子に変換する概念概念
変換部、1010は活性値の高い順に概念識別子を順位
付する概念順位算出部、1008は活性値の順位が上位
の概念識別子を入力文章の代表概念として出力する出力
部、1021は単語やその単語の概念識別子が記述され
ている単語辞書、1022は概念識別子間の関係が記述
されている概念辞書である。
【0174】そして、単語抽出部1002は、単語辞書
1021を参照して、入力部1001により入力された
入力文章中から単語を抜き出す。単語概念変換部100
4は、単語辞書1021を参照して、単語抽出部100
2により抽出された単語を関連する概念識別子に変換す
る。概念活性値計算部1009は、概念識別子の活性値
を計算して増やす。概念順位算出部1010は単語の活
性値の順位付けを行なう。概念概念変換部1005は、
概念辞書1022を参照して、概念識別子を関連する概
念識別子に変換する。出力部1008は活性値の高い概
念識別子を入力文章の代表概念として出力する。単語辞
書1021には単語とその単語に関連している概念識別
子(同じ概念は同じ番号となるように番号付けされた数
値)とが記述されている。概念辞書1022には概念識
別子同士の関連が記述されている。
【0175】本実施形態のより詳細な動作を、前述の第
5の実施形態の説明に用いた図6のフローチャートに基
づいて説明する。
【0176】図6に示すように、まず、入力部1001
から入力文が入力されてくる。入力文を全部読み切った
かどうかを判定し(ステップ501)、読み切っていな
いなら、単語抽出部1002が単語辞書1021を参照
して入力文から単語を抽出し(ステップ502)、抽出
した単語を単語概念変換部1004が単語辞書1021
を参照して関連する概念識別子に変換し(ステップ50
3)、概念活性値計算部1009がその概念識別子の活
性値を増やし(ステップ504)、概念順位算出部10
10が概念識別子の活性値の順位付けを行なう(ステッ
プ505)。
【0177】その後、必要に応じて、概念概念変換部1
005が、その時注目している概念識別子を、概念辞書
1022を参照して関連する概念識別子に変換し(ステ
ップ506)、概念活性値計算部1009がその概念識
別子の活性値を増やし(ステップ507)、概念順位算
出部1010が概念識別子の活性値の順位付けを行なう
(ステップ508)操作を何回か(0回でも良い)繰り
返してから、ステップ501に戻る。
【0178】ステップ501にて、入力部1001が、
入力文を全部読み切ったことを判定したら、出力部10
08は活性値の高い概念識別子を入力文章の代表概念と
して出力する(ステップ509)。
【0179】なお、単語辞書1021は上記第1の実施
形態の単語辞書121と同じものであり、また、概念辞
書1022も上記第1の実施形態の概念辞書122と同
じものである。
【0180】本実施形態では、概念識別子の活性値を増
やした直後に活性値の順位付けを調査することによっ
て、活性値の調査対象を最小限に抑えることができる
(その時活性値を増やした概念識別子と、その時活性値
の高い概念識別子だけについて調べれば良い)ので、処
理を高速化できるというものである。
【0181】なお、本実施形態による概念抽出の具体例
は、前述の第2のの実施形態において説明した一実施例
の具体例の単語を概念識別子で置き換えたものと同様に
なるため、ここでは省略するが、最終的に出力される代
表概念は概念識別子(数値)を人間にわかりやすい言葉
に変換したものとなる。例えば、概念辞書として(株)
日本電子化辞書研究所のEDR電子化辞書の概念辞書を
使用している場合は、「概念見出し」を使用すれば良
い。
【0182】
【発明の効果】以上のように、本発明によれば、文書デ
ータからその文章に含まれるキーワードや代表概念を抽
出することができ、ユーザは文書データを読む前にキー
ワードや代表概念を見ることで、その文章の内容を把握
しやすくなる。
【0183】請求項1に記載の発明によれば、文書デー
タからキーワードを抽出することができる。これは、関
連する概念の活性値を増やしていくことで、人間のキー
ワード連想過程を模倣しており、単に文書データ中の単
語を抽出するのに比較すると、より適切なキーワード
や、文章中にないキーワードを抽出することができる。
【0184】請求項2に記載の発明によれば、請求項1
に記載の発明での単語の活性値順位の計算を最適化する
ことで、より高速にキーワードを抽出することができ
る。
【0185】請求項3に記載の発明によれば、請求項1
又は2に記載の発明での単語の活性値の計算を最適化す
ることで、より高速にキーワードを抽出することができ
る。
【0186】請求項4に記載の発明によれば、文書デー
タから、その文書の代表概念を抽出することができる。
これは、関連する概念の活性値を増やしていくことで、
人間の概念連想過程を模倣しており、単に文書データ中
の単語を抽出するのに比較すると、より適切な概念を抽
出することができる。
【0187】請求項5に記載の発明によれば、請求項4
に記載の発明での概念識別子の活性値順位の計算を最適
化することで、より高速に概念を抽出することができ
る。
【0188】請求項6に記載の発明によれば、請求項5
又は6に記載の発明での概念識別子の活性値の計算を最
適化することで、より高速に概念を抽出することができ
る。
【0189】請求項7に記載の発明によれば、文書デー
タからキーワードを抽出することができる。これは、関
連する概念の活性値を増やしていくことで、人間のキー
ワード連想過程を模倣しており、単に文書データ中の単
語を抽出するのに比較すると、より適切なキーワード
や、文章中にないキーワードを抽出することができる。
【0190】請求項8に記載の発明によれば、請求項7
に記載の発明での単語の活性値順位の計算を最適化する
ことで、より高速にキーワードを抽出することができ
る。
【0191】請求項9に記載の発明によれば、文書デー
タから、その文書の代表概念を抽出することができる。
これは、関連する概念の活性値を増やしていくことで、
人間の概念連想過程を模倣しており、単に文書データ中
の単語を抽出するのに比較すると、より適切な概念を抽
出することができる。
【0192】請求項10では、請求項9での概念識別子
の活性値順位の計算を最適化することで、より高速に概
念を抽出することができる。
【図面の簡単な説明】
【図1】本発明による第1の実施形態の処理フローの一
実施例を示すフローチャートである。
【図2】本発明による実施形態でのキーワード抽出又は
概念抽出の対象とする入力文章を示す図である。
【図3】本発明による第2の実施形態の処理フローの一
実施例を示すフローチャートである。
【図4】本発明による第3の実施形態の処理フローの一
実施例を示すフローチャートである。
【図5】本発明による第4の実施形態の処理フローの一
実施例を示すフローチャートである。
【図6】本発明による第5の実施形態の処理フローの一
実施例を示すフローチャートである。
【図7】本発明による第6の実施形態の処理フローの一
実施例を示すフローチャートである。
【図8】本発明による第7の実施形態の基本構成を示す
機能ブロック図である。
【図9】本発明による第8の実施形態の基本構成を示す
機能ブロック図である。
【図10】本発明による第9の実施形態の基本構成を示
す機能ブロック図である。
【図11】本発明による第10の実施形態の基本構成を
示す機能ブロック図である。
【符号の説明】 121,221,321,421,521,621,7
21,821,921,1021 単語辞書 122,222,322,422,522,622,7
22,822,922,1022 概念辞書 701,801,901,1001 入力部 702,802,902,1002 単語抽出部 703,803 単語活性値計算部 704,804,904,1004 単語概念変換部 705,805.905,1005 概念概念変換部 706,806 概念単語変換部 707,807 単語順位算出部 708,808,908,1008 出力部 909,1009 概念活性値計算部 910,1010 概念順位算出部
フロントページの続き (56)参考文献 特開 平5−120345(JP,A) 特開 平7−129593(JP,A) 特開 平7−152771(JP,A) 特開 平7−21197(JP,A) 特開 平7−249045(JP,A) 特開 平5−257979(JP,A) 木元晴夫,日本語新聞記事からのキー ワード自動抽出と重要度評価,電子情報 通信学会論文誌(J74−D−I),1991 年 8月25日,第J74−D−I巻,第8 号,pp.556−566 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力文章から単語を抜き出す単語抽出工
    程と、 単語の活性値を計算する単語活性値計算工程と、 各単語を概念識別子に変換する単語概念変換工程と、 各概念識別子を関連している概念識別子に変換する概念
    概念変換工程と、 各概念識別子を関連している単語に変換する概念単語変
    換工程と、 活性値の高い順に単語を順位付けする単語順位算出工程
    と、 活性値の順位が上位の単語をキーワードとして出力する
    出力工程とを含むキーワード抽出方法において、 前記単語活性値計算工程では、前記単語抽出工程で得ら
    れる単語の出現回数と、前記単語概念変換工程又は前記
    概念概念変換工程で得られる概念変換回数とをもとに、
    単語の活性値を算出する ことを特徴とするキーワード抽
    出方法。
  2. 【請求項2】 請求項1に記載のキーワード抽出方法に
    おいて、前記単語活性値計算工程直後で、該単語活性値
    計算により時活性値が増えた単語と、その時点で活性値
    の高い単語についてだけ、単語の活性値の順位付けを行
    なうことを特徴とするキーワード抽出方法。
  3. 【請求項3】 請求項1又は2に記載のキーワード抽出
    方法において、単語の頻度を先に求めてしまい、最後に
    まとめて単語の活性値を計算することを特徴とするキー
    ワード抽出方法。
  4. 【請求項4】 入力文章から単語を抜き出す単語抽出工
    程と、 各単語を概念識別子に変換する単語概念変換工程と、 概念識別子の活性値を計算する概念活性値計算工程と、 各概念識別子を関連している概念識別子に変換する概念
    概念変換工程と、 活性値の高い順に概念識別子を順位付けする概念順位算
    出工程と、 活性値の順位が上位の概念識別子を入力文章の代表概念
    として出力する出力工程とを含む概念抽出方法におい
    て、 前記概念活性値計算工程では、前記単語抽出工程及び単
    語概念変換工程から得られる概念識別子の出現回数と、
    前記概念概念変換工程で得られる概念変換回数とをもと
    に、概念識別子の活性値を算出する ことを特徴とする概
    念抽出方法。
  5. 【請求項5】 請求項4に記載の概念抽出方法におい
    て、前記概念活性値計算工程直後で、該概念活性値計算
    により活性値が増えた概念識別子と、その時点で活性値
    の高い概念識別子についてだけ、概念識別子の活性値の
    順位付けを行なうことを特徴とする概念抽出方法。
  6. 【請求項6】 請求項4又は5に記載の概念抽出方法に
    おいて、単語の頻度を先に求めてしまい、最後にまとめ
    て概念識別子の活性値を計算することで、単語と概念識
    別子との変換の回数を減らし、処理が高速化されること
    を特徴とする概念抽出方法。
  7. 【請求項7】 入力文章を入力する入力部と、 該入力部により入力された入力文章から単語を抜き出す
    単語抽出部と、 単語の活性値を計算する単語活性値計算部と、 各単語を概念識別子に変換する単語概念変換部と、 各概念識別子を関連している概念識別子に変換する概念
    概念変換部と、 各概念識別子を関連している単語に変換する概念単語変
    換部と、 活性値の高い順に単語を順位付けする単語順位算出部
    と、 活性値の順位が上位の単語をキーワードとして出力する
    出力部と、 単語やその単語の概念識別子が記述されている単語辞書
    と、 概念識別子間の関係が記述されている概念辞書とを備え
    キーワード抽出装置において、 前記単語活性値計算部は、前記単語抽出部で得られる単
    語の出現回数と、前記単語概念変換部又は前記概念概念
    変換部で得られる概念変換回数とをもとに、単語の活性
    値を算出する仕組みを持つ ことを特徴とするキーワード
    抽出装置。
  8. 【請求項8】 請求項7に記載のキーワード抽出装置に
    おいて、前記単語順位算出部が、前記単語活性値算出部
    による活性値算出直後に活性値の高い単語を調査するこ
    とを特徴とするキーワード抽出装置。
  9. 【請求項9】 入力文章を入力する入力部と、 該入力部により入力された入力文章から単語を抜き出す
    単語抽出部と、 各単語を概念識別子に変換する単語概念変換部と、 概念識別子の活性値を計算する概念活性値計算部と、 各概念識別子を関連している概念識別子に変換する概念
    概念変換部と、 活性値の高い順に概念識別子を順位付けする概念順位算
    出部と、 活性値の順位が上位の概念識別子を入力文章の代表概念
    として出力する出力部と、 単語やその単語の概念識別子が記述されている単語辞書
    と、 概念識別子間の関係が記述されている概念辞書とを備え
    概念抽出装置において、 前記概念活性値計算部では、前記単語抽出部及び単語概
    念変換部から得られる概念識別子の出現回数と、前記概
    念概念変換部で得られる概念変換回数とをもとに、概念
    識別子の活性値を算出する仕組みを持つ ことを特徴とす
    る概念抽出装置。
  10. 【請求項10】 請求項9に記載の概念抽出装置におい
    て、前記概念順位算出部が、前記概念活性値計算部の活
    性値算出直後に活性値の高い概念識別子を調査しておく
    ことを特徴とする概念抽出装置。
JP05437696A 1996-03-12 1996-03-12 キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置 Expired - Fee Related JP3442214B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05437696A JP3442214B2 (ja) 1996-03-12 1996-03-12 キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05437696A JP3442214B2 (ja) 1996-03-12 1996-03-12 キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置

Publications (2)

Publication Number Publication Date
JPH09245059A JPH09245059A (ja) 1997-09-19
JP3442214B2 true JP3442214B2 (ja) 2003-09-02

Family

ID=12968967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05437696A Expired - Fee Related JP3442214B2 (ja) 1996-03-12 1996-03-12 キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置

Country Status (1)

Country Link
JP (1) JP3442214B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157516A (ja) * 2000-11-17 2002-05-31 Hitachi Ltd 広告情報提供方法及びその装置
JP5388038B2 (ja) * 2009-12-28 2014-01-15 独立行政法人情報通信研究機構 文書要約装置、文書処理装置、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2572314B2 (ja) * 1991-05-31 1997-01-16 株式会社テレマティーク国際研究所 キーワード抽出装置
JPH05257979A (ja) * 1992-03-11 1993-10-08 Toshiba Corp キーワード候補抽出機能付きデータベースシステム
JPH0721197A (ja) * 1993-06-15 1995-01-24 Nippon Telegr & Teleph Corp <Ntt> キーワード付与装置
JP3469302B2 (ja) * 1993-09-08 2003-11-25 株式会社東芝 テキスト選定装置
JP3315781B2 (ja) * 1993-11-30 2002-08-19 株式会社東芝 利用者情報管理装置、情報フィルタ、情報分類装置、情報再生装置、情報検索装置及び仮名漢字変換装置
JPH07249045A (ja) * 1994-03-08 1995-09-26 Oki Electric Ind Co Ltd 情報検索方法および情報検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
木元晴夫,日本語新聞記事からのキーワード自動抽出と重要度評価,電子情報通信学会論文誌(J74−D−I),1991年 8月25日,第J74−D−I巻,第8号,pp.556−566

Also Published As

Publication number Publication date
JPH09245059A (ja) 1997-09-19

Similar Documents

Publication Publication Date Title
US9773055B2 (en) Query rewriting with entity detection
US6665661B1 (en) System and method for use in text analysis of documents and records
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
RU2236699C1 (ru) Способ поиска и выборки информации с повышенной релевантностью
US7519588B2 (en) Keyword characterization and application
JP3266586B2 (ja) データ分析システム
US20030163454A1 (en) Subject specific search engine
CN108319627A (zh) 关键词提取方法以及关键词提取装置
JP2009505292A (ja) ネットワーク上の文書のバイアスクリック距離を使用するランキング関数
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
CN107315735B (zh) 用于笔记整理的方法及设备
JP3442214B2 (ja) キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置
Qi et al. Measuring similarity to detect qualified links
JP2001188802A (ja) 情報検索装置及び情報検索方法
JPH01145721A (ja) 文献の検索妥当性判定方式
JP2003006221A (ja) 予測分析型検索システム、予測分析型検索方法およびコンピュータプログラム
JP2773682B2 (ja) 適合フィードバック装置
CN114780491A (zh) 文件检索方法及装置
JP2005032193A (ja) 単語間意味関係測定装置、単語間意味関係測定方法、単語間意味関係測定プログラム及びプログラム記録媒体
US20090132478A1 (en) Data processing system and method
JP2000035964A (ja) 関連度算出装置および関連度算出プログラムを記録した記憶媒体並びに情報検索システム
CN112269946B (zh) 一种协同过滤并权衡数据信息的api推荐方法与装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090620

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100620

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100620

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees