JP6584361B2

JP6584361B2 - キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Info

Publication number: JP6584361B2
Application number: JP2016088358A
Authority: JP
Inventors: 苗村　昌秀; 昌秀苗村; 藤沢　寛; 寛藤沢
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2019-10-02
Anticipated expiration: 2036-04-26
Also published as: JP2017199139A

Description

本発明は、テキストからキーワードを抽出する装置、方法及びプログラムに関する。

従来、番組の字幕、又はツイッター（登録商標）などのテキストからキーワードを抽出する処理は、情報解析の過程で頻繁に行われている。例えば、入力されたテキストに形態素解析及び構文解析を施し、コーパスデータとのマッチング処理、又は対象文書について暗黙的あるいは明示的に定められたルールに従って所望の名詞部分を抽出する手法が採られている。

ところが、抽出されたキーワードは、単なる文字列に過ぎず、意味的な内容をシステム的に判断することは難しかった。そこで、テキストから表層的に抽出された意味が一意に特定されていないキーワード（表層ＫＷ）から、意味を一意に特定できるキーワード（意味ＫＷ）に変換する処理（語義曖昧性解消処理）が行われる。通常の語義曖昧性解消処理では、表層ＫＷと意味ＫＷとの関係性と、表層ＫＷが出現する文脈から抽出した特徴と意味ＫＷとの関係性とを確率モデルを用いて統合的に計算し、表層ＫＷに対する意味ＫＷの信頼度合を求めて意味ＫＷを特定する方法が採られている。このとき、表層ＫＷと意味ＫＷとの関係性を記述したコーパスデータが用いられる。

例えば、特許文献１では、表層ＫＷと意味ＫＷとの関係を詳細に記述した言語辞書を用意し、文章単位で表層ＫＷと意味ＫＷとの共起確率を計算し、確率の大きさで意味ＫＷを特定する処理を採用している。また、特許文献２では、表層ＫＷと意味ＫＷとの関係辞書とは別に、事前に意味ＫＷの上位下位概念を記述したオントロジー辞書を用意し、関係辞書と複合的にオントロジー辞書を利用することにより、抽出範囲を拡大した語義曖昧性解消手法が提案されている。特許文献３では、表層ＫＷと意味ＫＷとの関係をガウシアンミクチャーモデルでモデル化した頑健な語義曖昧性解消手法が提案されている。

また、ウィキペディアなどの半構造化データを用いた、見出し語を意味ＫＷとするＥＳＡ（ＥｘｐｌｉｃｉｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）と呼ばれるコーパス（例えば、非特許文献１参照）、見出し語に関連させてコーパスを拡張させる技術（例えば、非特許文献２参照）が提案されている。

特開２０１０−１１７８９０号公報特許第５０７８１７３号公報特許第５７３４５０３号公報

Ｅ．Ｇａｂｒｉｌｏｖｉｃｈ，Ｓ．Ｍａｒｋｏｖｉｔｃｈ，"Ｗｉｋｉｐｅｄｉａ−ｂａｓｅｄＳｅｍａｎｔｉｃＩｎｔｅｒｐｒｅｔａｔｉｏｎｆｏｒＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，" ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅｓｅａｒｃｈ３４（２００９）４４３−４９８．苗村昌秀，山内結子，"ウィキペディアデータを利用した意味的キーワード抽出手法，" 電子情報通信学会研究報告ＮＬＣ言語理解とコミュニケーション，ｖｏｌ．１１４，ｎｏ．２１１，ＮＬＣ２０１４−３１，２０１４，ｐｐ．６３−６８

ところで、語義曖昧性解消処理の結果は、利用するコーパスの内容に大きく依存する。しかしながら、テキストの文脈に応じたキーワードの重要度を適切に設定することは難しく、特に番組の字幕又はツイッターなどの自由文が入力となる場合、関係の薄いキーワードの影響を受けやすい。また、テキストの時間的な文脈の変化に動的に対応することは難しかった。

本発明は、テキストから抽出したキーワードの語義曖昧性を解消できるキーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラムを提供することを目的とする。

本発明に係るキーワード抽出装置は、第１のキーワードと、当該第１のキーワードにより表現される１以上の対象それぞれを一意に示す第２のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得部と、入力されたテキストから複数の前記第１のキーワードを抽出する抽出部と、前記関係行列から、前記抽出部により抽出された前記第１のキーワードに対応する確率分布を含む部分関係行列を生成する生成部と、前記第１のキーワードに対応付けられている前記第２のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出部と、前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第２のキーワードを特定する特定部と、を備える。

前記生成部は、順次入力される複数のテキストのそれぞれに対して、前記部分関係行列を生成した後、直前のテキストに基づいて生成された前記部分関係行列に所定の減衰係数を乗じた行列を足し合わせて調整してもよい。

前記生成部は、一連のテキストの境界を判別し、当該境界の次に入力された最初のテキストに対して生成した前記部分関係行列を調整するための前記減衰係数をゼロにしてもよい。

前記関係行列は、ウェブサイトにおけるリンク構造に基づく、リンク元のキーワードとリンク先のキーワードとの関係を含んでもよい。

前記関係行列は、前記リンク元のキーワード及び前記第１のキーワードが対応付けられる確率を要素とする変換行列を乗ずることにより拡張されてもよい。

本発明に係るキーワード抽出方法は、第１のキーワードと、当該第１のキーワードにより表現される１以上の対象それぞれを一意に示す第２のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、入力されたテキストから複数の前記第１のキーワードを抽出する抽出ステップと、前記関係行列から、前記抽出ステップにおいて抽出された前記第１のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、前記第１のキーワードに対応付けられている前記第２のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第２のキーワードを特定する特定ステップと、をコンピュータが実行する。

本発明に係るキーワード抽出プログラムは、第１のキーワードと、当該第１のキーワードにより表現される１以上の対象それぞれを一意に示す第２のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、入力されたテキストから複数の前記第１のキーワードを抽出する抽出ステップと、前記関係行列から、前記抽出ステップにおいて抽出された前記第１のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、前記第１のキーワードに対応付けられている前記第２のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第２のキーワードを特定する特定ステップと、をコンピュータに実行させる。

本発明によれば、テキストから抽出したキーワードの語義曖昧性が解消される。

実施形態に係る処理システムの機能構成を示すブロック図である。実施形態に係る関係行列を算出する行列演算を示す模式図である。実施形態に係る部分関係行列の生成手順を例示する模式図である。実施形態に係る意味ＫＷの信頼度の算出手順を示す模式図である。実施形態に係る語義曖昧性解消処理の具体例を示す図である。

以下、本発明の実施形態の一例について説明する。
本実施形態に係るキーワード抽出装置１は、記憶部及び制御部の他、通信部及び入出力デバイスなどの各種インタフェースを備えたサーバ装置又はＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などの情報処理装置（コンピュータ）である。

キーワード抽出装置１は、記憶部に記憶された所定のソフトウェア（キーワード抽出プログラム）を制御部が実行することにより、本実施形態に係る各種機能を実現する。これにより、キーワード抽出装置１は、番組の字幕又はツイッターなどのテキストからキーワードを抽出する際に、抽出したキーワードの意味の曖昧性を解消する。
具体的には、キーワード抽出装置１は、テキストから抽出した表層ＫＷに対して、事前に構築した大量のキーワード集合から意味を表す概念へのリンクを記述したコーパスデータ（概念リンクコーパス）を利用して、複数の意味ＫＷ候補それぞれの信頼度を計算する。キーワード抽出装置１は、この信頼度に基づいて、表層ＫＷに対応する意味ＫＷを特定する。

図１は、本実施形態に係るキーワード抽出装置１を含む処理システムの機能構成を示すブロック図である。
キーワード抽出装置１は、概念リンクコーパスとして、後述の関係行列を格納した記憶装置２と接続されている。また、記憶装置２は、解析装置３と接続され、解析装置３により関係行列が構築される。
なお、本処理システムの構成は一例であり、キーワード抽出装置１は、記憶装置２及び解析装置３のいずれか一方又は両方を含む構成であってもよい。

本実施形態のキーワード抽出方法では、事前に準備した大規模な概念リンクコーパス（関係行列）を利用して、入力テキストから抽出した表層ＫＷに対して、語義曖昧性を解消した意味ＫＷが特定される。キーワード抽出方法は、事前準備としてのコーパス構築処理と、このコーパスを利用して語義曖昧性を解消する意味ＫＷ抽出処理とに分けられる。

解析装置３は、コーパス構築処理を担い、ウィキペディアなどの半構造化データを解析することにより、表層ＫＷ（第１のキーワード）と、この表層ＫＷにより表現される１以上の対象（概念）それぞれを一意に示す意味ＫＷ（第２のキーワード）とが対応付けられる確率を要素とする関係行列を生成し、記憶装置２に格納する。

概念リンクコーパスは、ウェブ空間に存在するオープンな半構造化データを利用して構築されてよい。解析装置３は、半構造化データの内容を分析して、出現するキーワードを表層ＫＷとし、半構造化データで記述されている概念に結びつけることにより表層ＫＷと意味ＫＷとの関係付けを行う。例えば、ウィキペディアの場合、タイトルが意味ＫＷに相当し、タイトル内に出現するタイトルに関係する複数のキーワードが表層ＫＷに相当する。これにより、ページ内に記述されている意味ＫＷのニックネーム又は略称などの言い換え語が表層ＫＷとして登録される。

ここで、概念リンクコーパスとしての関係行列の構築処理を例示する。
解析装置３は、まず、リンク先である見出し語（意味ＫＷ）と、リンク元である言い換え語（関係ＫＷ）との関連度合いを数値化した関係マトリクスを生成する。代表的な関係マトリクスとしては、非特許文献１で説明されているＥＳＡマトリクスがある。以後、この関係マトリクスにＥＳＡマトリクスを採用した例を説明するが、意味ＫＷと関係ＫＷとの関連度を記載したマトリクスであれば、他のマトリクスも関係マトリクスとして採用可能である。具体的には、ＥＳＡマトリクスを生成する解析装置３は、例えばウィキペディアなどのウェブサイトであれば、サイト内のリンク構造に基づいて、文書内に存在するリンク関係を表現する語句を抜き出す。リンク関係は、見出し語とこの見出し語の言い換え語との対になっている。さらに、解析装置３では、言い換え語の頻度情報に基づくＴＦ−ＩＤＦ値が計算され、この値に基づいて、意味ＫＷと、関係ＫＷとの関連度合いを要素としたＥＳＡマトリクスが生成される。
ここで、ＥＳＡマトリクスにおける各関係ＫＷの行は、意味ＫＷ毎の確率分布として正規化されてよい。

次に、解析装置３は、ＥＳＡマトリクスにおける関係ＫＷを表層ＫＷに拡張した関係行列（ｍｏｄＥＳＡマトリクス）を生成する。
（関係行列生成例１）
解析装置３は、見出し語と見出し語の内容説明とが対になっている表層−意味ＫＷｓコーパス辞書を作成し、ＥＳＡマトリクスに統合すなわち表層ＫＷの行を追加し、関係ＫＷと追加した表層ＫＷとを合わせて新たな表層ＫＷとする。

具体的には、オープンデータであるウィキペディアの場合、解析装置３は、見出し語に対して、本文中に出現する言い換え語を抽出し、見出し語を意味ＫＷ、言い換え語を表層ＫＷとする。

ここで、言い換え語は、所定の記述ルールに基づいて抽出される。解析装置３は、例えば、説明冒頭パラグラフにおいて言い換え語が太字で表現されている、あるいは、インフォボックスで愛称又は別名の定義があるなど、言い換え語に対する各種の記述パターンを利用することにより複数の言い換え語を収集できる。
また、解析装置３は、言語解析処理で構文解析を行い、意味的に同等である箇所を同定して抜き出してもよい。
解析装置３は、このようにして収集した表層ＫＷと意味ＫＷとの対応関係を、対応付けの確からしさを表す確率値と共に表層−意味ＫＷｓコーパス辞書として準備する。

（関係行列生成例２）
解析装置３は、ＥＳＡマトリクスにおける関係ＫＷと関連する表層ＫＷを抽出し、表層ＫＷ（第１のキーワード）と関係ＫＷとの対応確率を要素とする変換行列Ｒｍａｔを生成する。対応確率は、共起頻度又は表層ＫＷの重要度などの指標に基づいて算出されてよい。
そして、解析装置３は、関係行列（ｍｏｄＥＳＡマトリクス）を、次の行列演算により算出する。
ｍｏｄＥＳＡ＝ＲＭａｔ＊ＥＳＡ

図２は、本実施形態に係る関係行列を算出する行列演算を示す模式図である。
ＥＳＡマトリクスの行は関係ＫＷに、列は意味ＫＷに対応している。これに対して、ＲＭａｔの行は表層ＫＷに、列は関係ＫＷに対応している。ＥＳＡマトリクスにＲＭａｔを乗ずることにより、ＥＳＡマトリクスの関係ＫＷが表層ＫＷに拡張されたｍｏｄＥＳＡマトリクスが生成される。

以上の事前準備で生成されたｍｏｄＥＳＡマトリクスの一部を利用して、キーワード抽出装置１は、表層ＫＷの語義曖昧性を解消して意味ＫＷを特定する。
キーワード抽出装置１の制御部は、取得部１１と、抽出部１２と、生成部１３と、算出部１４と、特定部１５とを備える。

取得部１１は、記憶装置２から関係行列（ｍｏｄＥＳＡマトリクス）を取得する。
抽出部１２は、番組の字幕などの処理対象として入力されたテキストから、関係行列に登録されている複数の表層ＫＷを抽出する。

生成部１３は、関係行列の全体から、抽出部１２により抽出された表層ＫＷ（第１のキーワード）に対応する確率分布を含む部分関係行列（ｐａｒｔ−ｍｏｄＥＳＡマトリクス）を生成する。

また、生成部１３は、番組の字幕などのように順次入力される複数のテキストのそれぞれに対して部分関係行列を生成する。このとき、生成部１３は、ある時点でのテキストに基づいて部分関係行列を生成した後、直前のテキストに基づいて生成された部分関係行列を、確率に所定の減衰係数を乗じることで減衰させた上で足しあわせて調整する。
ここで、生成部１３は、一連のテキストの境界、例えば番組の切れ目を判別し、この境界の次に入力された最初のテキストに対して生成した部分関係行列を調整するための減衰係数をゼロとすることにより、過去の文脈の影響をリセットする。

図３は、本実施形態に係る部分関係行列の生成手順を例示する模式図である。
（手順１）抽出部１２は、入力テキストから表層ＫＷを抽出する。なお、抽出手法には、例えば前述の非特許文献２の提案手法が採用可能である。

（手順２）生成部１３は、抽出した表層ＫＷに対応した意味ＫＷ候補の確率分布をｍｏｄＥＳＡマトリクスから選択して、部分行列（Ａ）を作成する。

（手順３）生成部１３は、過去の文脈に基づくｐａｒｔ−ｍｏｄＥＳＡマトリクスが反映された行列（Ｃ）を足しあわせ、現在までの複数のテキストに基づくｐａｒｔ−ｍｏｄＥＳＡマトリクス（Ｂ）を生成する。
なお、文脈の始まり（番組の始まり）では、行列（Ｃ）は存在せず、手順２で選択された部分行列（Ａ）がそのままｐａｒｔ−ｍｏｄＥＳＡマトリクス（Ｂ）となる。

（手順４）生成部１３は、ｐａｒｔ−ｍｏｄＥＳＡマトリクス（Ｂ）に対して、所定の減衰係数αを乗じ、次の部分行列（Ａ）を調整するための行列（Ｃ）を生成する。
手順１から４が繰り返されることにより、ｐａｒｔ−ｍｏｄＥＳＡマトリクス（Ｂ）が更新されていく。

算出部１４は、表層ＫＷ（第１のキーワード）に対応付けられている意味ＫＷ（第２のキーワード）の候補それぞれに対して、部分関係行列（ｐａｒｔ−ｍｏｄＥＳＡマトリクス）の要素（確率）を列毎に総和し、信頼度を算出する。

特定部１５は、算出された列（意味ＫＷの候補）毎の信頼度に基づいて、テキストにより表現されている対象を示す、語義曖昧性を解消した意味ＫＷ（第２のキーワード）を特定する。
特定部１５は、例えば、最も信頼度の高い意味ＫＷを特定してよい。あるいは、信頼度の上位所定数が信頼度の値と共にソートされて出力されてもよい。

図４は、本実施形態に係る意味ＫＷの信頼度の算出手順を示す模式図である。
まず、算出部１４は、テキストから抽出された表層ＫＷに該当するｐａｒｔ−ｍｏｄＥＳＡマトリクスの行において、対応する意味ＫＷの集合、すなわち所定以上の対応確率を有する意味ＫＷの集合（Ｗ１，Ｗ２，Ｗ３）を特定する。
次に、算出部１４は、特定された意味ＫＷ毎に、列方向にｐａｒｔ−ｍｏｄＥＳＡマトリクスの構成要素である確率の和計算を行う。

図５は、本実施形態に係る語義曖昧性解消処理の具体例を示す図である。
この例では、入力字幕例から表層ＫＷとして、「スターティングメンバー」、「×××国」、「選手」、「Ｎ村」、「Ｆ沢」が抽出されている。
これらの表層ＫＷそれぞれについて、対応する関係行列の行（網掛け）が選択されている。

ここで、表層ＫＷの１つである「Ｎ村」について、意味ＫＷを特定する場合、対応する行（Ｓ）において、所定以上の対応確率がある列、すなわち意味ＫＷの候補（Ｗ１，Ｗ２，Ｗ３，Ｗ４）が選択される。

これらの候補キーワードのそれぞれについて、列方向に全ての行の値を合計すると、行（Ｓ）以外の行の値が加味されることにより、文脈の中で最も関係する候補Ｗ１の信頼度が最も大きくなる。
このように、表層ＫＷ単独では複数の意味ＫＷの候補が存在する場合にも、文脈の中に現れる他の表層ＫＷと候補それぞれとの関わりが信頼度として反映され、語義曖昧性が解消される。

本実施形態によれば、キーワード抽出装置１は、表層ＫＷに対応する意味ＫＷの候補それぞれについて、他の表層ＫＷを含む複数のキーワードとの対応確率を合計することにより、意味ＫＷそれぞれの信頼度を算出する。したがって、キーワード抽出装置１は、テキストから抽出した表層ＫＷについて、他の表層ＫＷとの関連性を加味して、高い精度で語義曖昧性を解消できる。
さらに、キーワード抽出装置１は、概念リンクコーパスとしての関係行列（ｍｏｄＥＳＡマトリクス）のうち一部の関係する表層ＫＷに対応する行、及び関連する意味ＫＷの候補のみを抽出して処理するので、演算対象のデータ量を削減して処理負荷を低減できる。

これにより、テキストからキーワードを抽出する際に語義の曖昧性を解消した意味的に一意なキーワード抽出が実現できる。この結果、抽出したキーワードの意味的な概念を基にした情報ナビゲーションが可能となり、情報の検索又は推薦などのアプリケーションの性能向上が期待できる。
また、文章から意味的なキーワードが抽出されるので、コンテンツの内容に沿ったユーザインターフェースが実現できる。例えば、テレビ番組の視聴中に登場する選手又は場所などを不完全な字幕情報から特定できるので、視聴者は、興味のあるキーワードに関する情報を自然な形で取得できる。

また、キーワード抽出装置１は、関係行列（ｍｏｄＥＳＡマトリクス）の要素を、過去の同じテーマを扱う文脈情報を減衰させた値で更新し、文脈依存の概念リンクコーパスを構築する。このように、キーワード抽出装置１は、現時点までに出現した文章を解析して獲得したキーワードの統計的分布に基づいて、概念リンクコーパスをダイナミックに更新するので、テキストの時間変化に動的に対応でき、処理時点で確率的に最適な表層ＫＷと意味ＫＷとの対応関係を導き出すことができる。
このとき、キーワード抽出装置１は、番組の切り替わりなど、一連のテキストの境界を判定するので、減衰係数を一旦ゼロにすることにより関係の薄い過去の文脈の影響を排除できる。

また、キーワード抽出装置１は、表層ＫＷと意味ＫＷとを関連付けた概念リンクコーパスとして、ＥＳＡを活用し、効率的に語義曖昧性を解消できる。さらに、キーワード抽出装置１は、ＥＳＡの表層ＫＷを統計的に含めるように拡張されたｍｏｄＥＳＡを利用することにより、文脈の特徴と意味ＫＷとの関係性を明確にスコア化でき、頑健な語義曖昧性解消処理を実現できる。
さらに、概念リンクコーパスの要素となる、表層ＫＷの拡張に際しては、既存の言語資源データから頻度特徴を分析することにより行われる。このとき、ＥＳＡの関係ＫＷと表層ＫＷとの関係性が定義された変換行列を用いることにより、利用する言語資源の性質に応じて効率的に関係行列が構築される。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。

さらに、キーワード抽出装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１キーワード抽出装置
２記憶装置
３解析装置
１１取得部
１２抽出部
１３生成部
１４算出部
１５特定部

Claims

第１のキーワードと、当該第１のキーワードにより表現される１以上の対象それぞれを一意に示す第２のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得部と、
入力されたテキストから複数の前記第１のキーワードを抽出する抽出部と、
前記関係行列から、前記抽出部により抽出された前記第１のキーワードに対応する確率分布を含む部分関係行列を生成する生成部と、
前記第１のキーワードに対応付けられている前記第２のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出部と、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第２のキーワードを特定する特定部と、を備えるキーワード抽出装置。
前記生成部は、順次入力される複数のテキストのそれぞれに対して、前記部分関係行列を生成した後、直前のテキストに基づいて生成された前記部分関係行列に所定の減衰係数を乗じた行列を足し合わせて調整する請求項１に記載のキーワード抽出装置。
前記生成部は、一連のテキストの境界を判別し、当該境界の次に入力された最初のテキストに対して生成した前記部分関係行列を調整するための前記減衰係数をゼロにする請求項２に記載のキーワード抽出装置。
前記関係行列は、ウェブサイトにおけるリンク構造に基づく、リンク元のキーワードとリンク先のキーワードとの関係を含む請求項１から請求項３のいずれかに記載のキーワード抽出装置。
前記関係行列は、前記リンク元のキーワード及び前記第１のキーワードが対応付けられる確率を要素とする変換行列を乗ずることにより拡張されている請求項４に記載のキーワード抽出装置。
第１のキーワードと、当該第１のキーワードにより表現される１以上の対象それぞれを一意に示す第２のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、
入力されたテキストから複数の前記第１のキーワードを抽出する抽出ステップと、
前記関係行列から、前記抽出ステップにおいて抽出された前記第１のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、
前記第１のキーワードに対応付けられている前記第２のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第２のキーワードを特定する特定ステップと、をコンピュータが実行するキーワード抽出方法。
第１のキーワードと、当該第１のキーワードにより表現される１以上の対象それぞれを一意に示す第２のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、
入力されたテキストから複数の前記第１のキーワードを抽出する抽出ステップと、
前記関係行列から、前記抽出ステップにおいて抽出された前記第１のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、
前記第１のキーワードに対応付けられている前記第２のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第２のキーワードを特定する特定ステップと、をコンピュータに実行させるためのキーワード抽出プログラム。