JP2015060581A

JP2015060581A - キーワード抽出装置、方法およびプログラム

Info

Publication number: JP2015060581A
Application number: JP2013196232A
Authority: JP
Inventors: 布目　光生; Mitsuo Nunome; 光生布目; 昌之岡本; Masayuki Okamoto; 尚義永江; Hisayoshi Nagae
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-20
Filing date: 2013-09-20
Publication date: 2015-03-30
Also published as: US20150088491A1; CN104462170A

Abstract

【課題】ユーザの意向を反映したキーワードを提示できる。【解決手段】本実施形態に係る文書作成支援装置は、分離部、第１抽出部、第２抽出部、生成部、計算部、第１更新部および第２更新部を含む。分離部は、ユーザの意図を表現する第１アノテーションが文字列に付与された複数の文書のそれぞれについて、第１アノテーションと該文書とを分離する。第１抽出部は、文書から一般用語を抽出する。第２抽出部は、文書からユーザ用語として抽出する。生成部は、文書どうしをクラスタリングして、１以上の文書クラスタを生成する。計算部は、文書クラスタに含まれるキーワードに対するユーザからの第２アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する。第１更新部は、前記特徴量から前記第２アノテーションが付与されたキーワードの前記スコアを更新する。第２更新部は、更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る。【選択図】図１

Description

本発明の実施形態は、キーワード抽出装置、方法およびプログラムに関する。

近年、電子化文書の利用機会が増えている。電子化文書の利用形態や対象コンテンツも、従来の机上ＰＣによる企業内文書内の閲覧などに留まらず、可搬性のあるタブレットやスマートフォンなどで、一般公開されているブログやレビューサイト、掲示板など、様々な情報に簡単にアクセスできる。

一方で、膨大な文書の中から、自分が探している文書やコンテンツにアクセスするための工夫が必要となる。例えば、カレンダー表示と連動して時系列で文書へのリンクを提示したり、タグクラウドと呼ばれるキーワードをいくつか提示することで読み手の興味を惹いたり、さらには、ユーザコメントや関連記事を併記することで、別文書や参考リンク先への導入を図る手段などがある。

特開２０１２−７３８０４号公報

特に、キーワードを提示する場合において、検索の手がかり語や要約的な表示のために、ユーザが閲覧したウェブ文書や、ユーザが作成および管理しているオフィス文書などからキーワードを提示する手段がいくつか知られており、例えば文書中の一般用語および専門用語のそれぞれについてキーワードと抽出する手法がある。
しかし、下線や囲みといったユーザからの指示を示すアノテーションが明示的になされた場合は、これらのアノテーションを反映することができない。また、このようなユーザがアクセスした文書集合を対象とする場合には、大規模なウェブ文書集合を扱う場合と異なり、絞り込みのキーワードや、閲覧時には気づかなかったキーワードを発見的に提示することが、単純な頻度情報の活用では困難である。
文書数が少ないため、ユーザの嗜好や興味と異なるキーワードが提示された場合に、その差分が目立つほか、提示されるキーワードが追加または削除される文書集合の内容に強く依存して更新されるために、検索起点としてのキーワードが不定となり、アクセスしたい文書へのパスが失われてしまう場合がある。

本開示は、上述の課題を解決するためになされたものであり、ユーザの意向を反映したキーワードを提示できるキーワード抽出装置、方法およびプログラムを提供することを目的とする。

本実施形態に係るコンテンツ作成支援装置は、分離部、第１抽出部、第２抽出部、生成部、計算部、第１更新部および第２更新部を含む。分離部は、ユーザの意図を表現する第１アノテーションが文字列に付与された複数の文書のそれぞれについて、該第１アノテーションと該文書とを分離する。第１抽出部は、前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する。第２抽出部は、前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する。生成部は、前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、１以上の文書クラスタを生成する。計算部は、前記文書クラスタに含まれるキーワードに対するユーザからの第２アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する。第１更新部は、前記特徴量から前記第２アノテーションが付与されたキーワードの前記スコアを更新する。第２更新部は、更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る。

本実施形態に係るキーワード抽出装置を示すブロック図。本実施形態に係るキーワード抽出装置の動作を示すフローチャート。文書に付与されるアノテーションの一例を示す図。文書とキーワードとの対応関係の一例を示す図。本実施形態に係る文書クラスタの代表語の一例を示す図。キーワード出力部から出力されるキーワードリストの一例を示す図。ユーザにより入力されるアノテーションの一例を示す図。キーワードスコア更新部のキーワード更新処理の一例を示す図。更新された文書クラスタの代表語の一例を示す図。キーワード出力部から出力される更新されたキーワードリストの一例を示す図。

以下、図面を参照しながら本実施形態に係るキーワード抽出装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

本実施形態に係るキーワード抽出装置について図１のブロック図を参照して説明する。
本実施形態に係るキーワード抽出装置１００は、分離部１０１、形態素解析部１０２、一般用語抽出部１０３、アノテーション特徴抽出部１０４、ユーザ語彙抽出部１０５、クラスタ生成部１０６、ユーザ指示取得部１０７、キーワードスコア更新部１０８、クラスタ更新部１０９およびキーワード出力部１１０を含む。

分離部１０１は、入力文書を受け取り、文書と入力文書に付与されたユーザからのアノテーション（第１アノテーションともいう）とを分離する。入力文書は、ｗｅｂ上から収集したｗｅｂ文書にユーザがアノテーションを付した文書でもよいし、文書作成ソフトなどで作成した文書にユーザがアノテーションを付した文書でもよい。

アノテーションとは、ユーザが主に手書きした下線や囲み、削除線、コメントなどユーザの意図を表現するストロークである。下線や囲みの場合は重要度を高くする強調指示であり、削除線の場合は重要度を低くする削除指示であると想定できる。なお、手書きに限らずアプリケーションにより囲みや下線などを付与する場合も同様に処理することができる。

また、アノテーションの指定方法は、ペンやポインティングデバイスによる操作に限らず、タブレット型機器などでのタッチパネル上での操作として、該当単語に対するダブルタップや長押しによる強調、スワイプによる削除、といった手段によっても同様に処理することができる。

形態素解析部１０２は、分離部１０１から入力文書を受け取り、入力文書中の文字列に対して形態素解析を行う。

一般用語抽出部１０３は、形態素解析部１０２から形態素解析された入力文書を受け取り、入力文書から一般用語を抽出する。一般用語の抽出処理は、例えば、予め品詞情報などが定義された辞書を参照して、名詞のうち特定の属性が付与されている形態素、およびカナ未知語などを一般用語として抽出すればよい。

アノテーション特徴抽出部１０４は、分離部１０１からアノテーションを受け取り、文書中のどこにどのようなアノテーションが付与されているかを、アノテーションの種類に応じてそれぞれ特徴量を抽出する。また、後述のユーザ指示取得部１０７から、後述のキーワードリストに対して付与されたユーザからのアノテーション（第２アノテーションともいう）を受け取る場合は、このアノテーションに対しても同様に特徴量を抽出する。

ユーザ語彙抽出部１０５は、形態素解析部１０２から形態素解析された入力文書を受け取り、形態素パターンの出現頻度を算出し、出現頻度に基づいて抽出した複合語をユーザ用語として取得する。ユーザ用語は、例えばユーザが所属する組織で共通して用いられる造語や略語を含む。また、入力文書において文字列にアノテーションが付されていた場合は、アノテーションが付された文字列や、追記されたコメントの文字列もユーザ用語として抽出する。

クラスタ生成部１０６は、一般用語抽出部１０３から一般用語を、ユーザ語彙抽出部１０５からユーザ用語をそれぞれ取得し、一般用語とユーザ用語とをキーワードとして、文書クラスタリングを行い、１以上の文書クラスタを生成する。文書クラスタリングの詳細については後述する。

ユーザ指示取得部１０７は、ユーザインタフェースを介してユーザからのアノテーションを取得する。

キーワードスコア更新部１０８は、クラスタ生成部１０６から文書クラスタを、アノテーション特徴抽出部１０４からアノテーションの特徴量をそれぞれ受け取る。キーワードスコア更新部１０８は、アノテーションの特徴量に基づいて、文書クラスタの文書に含まれるキーワードのスコアを更新する。

クラスタ更新部１０９は、キーワードスコア更新部１０８から文書クラスタと更新されたキーワードのスコアを受け取り、更新されたスコアに応じて文書クラスタを更新し、更新クラスタを得る。
キーワード出力部１１０は、クラスタ生成部１０６で生成された文書クラスタに基づいてキーワードリストを出力する。また、ユーザによりキーワードリストにアノテーションが付与された場合、キーワード出力部１１０は、クラスタ更新部１０９から更新された文書クラスタを受け取り、文書クラスタに対応するキーワードを出力する。キーワードの出力例については図４を参照して後述する。

次に、キーワード抽出装置１００の動作について図２のフローチャートを参照して説明する。
ステップＳ２０１では、分離部１０１が、複数の入力文書のそれぞれについて、文書とアノテーションとを分離する。
ステップＳ２０２では、形態素解析部１０２が、文書に対して形態素解析を行う。形態素解析を行なった結果、形態素単位の文字列に品詞情報が付与される。
ステップＳ２０３では、一般用語抽出部１０３が、一般用語辞書として予め登録される一般用語のリストを参照し、品詞情報が付された文字列から一般用語を抽出する。

ステップＳ２０４では、ユーザ語彙抽出部１０５が、形態素解析された結果に基づいて、名詞および未知語が隣接する組み合わせの文字列を複合語とみなして、複合語のそれぞれ出現頻度をカウントし、各複合語をユーザ用語として判定するための判定値を算出する。
具体的には、複合語の判定値として式（１）を用いてＭＣ−Ｖａｌｕｅを計算する。
ＭＣ−Ｖａｌｕｅ（ＣＮ）＝ｌｅｎｇｔｈ（ＣＮ）×（ｎ（ＣＮ）−ｔ（ＣＮ）／ｃ（ＣＮ））・・・（１）
ＣＮ：複合名詞
ｌｅｎｇｔｈ（ＣＮ）：ＣＮの長さ（構成単名詞数）
ｎ（ＣＮ）：コーパスにおけるＣＮの出現回数
ｔ（ＣＮ）：ＣＮを含む、現在対象のＣＮより長い複合名詞の出現回数
ｃ（ＣＮ）：ＣＮを含む、現在対象のＣＮより長い複合名詞の異なり出現回数
なお、ＭＣ−ｖａｌｕｅの代わりに、Ｃ−ｖａｌｕｅの値を判定値として用いてもよい。

ステップＳ２０５では、ユーザ語彙抽出部１０５が、式（１）により算出された判定値の高い順に、複合語をユーザ用語として得る。

ステップＳ２０６では、アノテーション特徴抽出部１０４が、入力文書にアノテーションが付与されているかどうかを判定する。入力文書にアノテーションが付与されている場合、ステップＳ２０７に進み、入力文書にアノテーションが付与されていない場合、ステップＳ２０８に進む。

ステップＳ２０７では、アノテーション特徴抽出部１０４が、アノテーションが付された文字列を、ユーザ用語に追加する。例えば、文書中に手書きインターフェースにより描かれた丸または四角などの囲みがある場合、囲みの内部にある文字列をユーザ用語とすればよく、マーカーや下線が引かれている場合は、マーカーまたは下線が重畳された文章または単語等の文字列をユーザ用語とすればよい。また、文書にオーバーラップして描かれたコメントがあれば、コメントを文字認識してユーザ用語としてもよい。

ステップＳ２０８では、クラスタ生成部１０６が、一般用語とユーザ用語とに基づいて、文書をクラスタリングし、文書クラスタを生成する。文書をクラスタリングする手法としては、例えば、一般用語とユーザ用語とをキーワードとして、キーワードのスコアを算出する。その後、キーワードのスコアに基づいて、文書間の相関度が閾値以上となる文書どうしをクラスタリングして、文書を分類すればよい。なお、文書をクラスタリングについては、一般的なクラスタリングの手法を用いればよい。

ステップＳ２０９では、キーワード出力部１１０が、文書クラスタに含まれるキーワードのうち、代表的なキーワードとしてキーワードリストを提示する。

ステップＳ２１０では、ユーザ指示取得部１０７が、キーワードに対して、ユーザからの指示があるかどうかを判定する。ユーザからの指示、すなわちアノテーションがある場合、ステップＳ２１１に進み、ユーザからアノテーションがない場合、ステップＳ２１２に進む。

ステップＳ２１１では、キーワードスコア更新部１０８が、アノテーションに基づいて、キーワードのスコアを更新する。

ステップＳ２１３では、クラスタ更新部１０９が、更新されたキーワードのスコアに応じて文書クラスタを更新する。

ステップＳ２１４では、キーワード出力部１１０が、更新されたキーワードを含むキーワードリストを出力する。以上でキーワード抽出装置１００の動作を終了する。
次に、文書に付与されるアノテーションの一例について図３を参照して説明する。
図３は、アノテーションの一例であり、ウェブ文書上の記事に対して、下線を引いた結果である。図３では、「ストリーマ」に下線を引いた例である。また、Ｗｅｂ文書に対して、「Ｉｎａｚｕｍａ」という複合語に丸を囲んだり、「ＨＤＤ＋ＳＤＤデュアルドライブ」に下線を引いたり、「オーガニック」や「ロハス雑貨」に下線を引いた例である。このようにアノテーションが付与された文字列も、ユーザ用語とする。

次に、文書とキーワードとの対応関係の一例について図４を参照して説明する。
図４の例では、文書Ａから文書Ｇまでの文書についてクラスタリングする場合であり、テーブル４００は、キーワード４０１と文書４０２との対応関係を示す。キーワード４０１は、一般用語とユーザ用語とに含まれる文字列である。文書４０２は、アノテーションを含む文書である。

具体的には、文書４０２「文書Ａ」には、キーワード４０１として「ダウンロード」、「インストール」および「バックアップ」が対応付けられる。また、それぞれのキーワードの文書Ａ中のスコアが「３」、「２」および「１」である。

スコアは、例えば以下の式（２）に基づいて計算すればよい。
スコア＝出現統計量＋アノテーションバイアス値・・・（２）
なお、出現統計量は、単に文書中の出現回数でもよいし、ＴＦ／ＩＤＦ値などを用いてもよい。アノテーションバイアス値は、アノテーションの種類に応じて設定される特徴量である。ここでは、文書中の出現回数とする。すなわち、文書Ａには、ダウンロードが３回、インストールが２回、バックアップが１回出現したことがわかる。

これらの値を基づいて文書間の類似度を算出する。類似度の算出は、例えばコサイン類似度を用いて算出すればよく、具体的には、文書Ａと文書Ｂとの類似度を算出する場合は、文書Ａおよび文書Ｂに含まれるキーワードをベクトル表記することで、コサイン類似度を算出する。

文書Ａのベクトルは、Ｖｅｃ（Ａ）＝｛３，２，０，０，０，０，０，０，０，０，１，０，０，０，０｝と表すことができ、文書Ｂのベクトルは、Ｖｅｃ（Ａ）＝｛０，０，３，２，２，０，０，０，０，０，１，０，０，０，０｝と表すことができる。よって、コサイン類似度は、ｃｏｓ（ｖｅｃ（Ａ），ｖｅｃ（Ｂ））＝ｖｅｃ（Ａ）・ｖｅｃ（Ｂ）／｜Ａ｜｜Ｂ｜を用いて計算すればよい。ここで、「・」は内積を示し、「｜｜」は、絶対値を示す。

この場合は、コサイン類似度として、１／（ｓｑｒｔ（９＋４＋１）＊ｓｑｒｔ（９＋４＋４＋１））＝１／ｓｑｒｔ（１４）＊ｓｑｒｔ（１８）≒０．０６３を得ることができる。

上述のようにコサイン類似度を各文書間で算出し、ｋ−ｍｅａｎｓ法などによりクラスタとしてまとめることで文書のクラスタを生成することができる。

なお、複数の文書クラスタから、スコアの値が大きい順に取り出したキーワードを、そのクラスタの代表語として設定する。

次に、文書クラスタの一例について図５を参照して説明する。
図５は、キーワードやスコアに応じて、文書間の距離を定義し、文書間の類似度に基づいてクラスタリングした結果を示すテーブル５００であり、ＩＤ５０１と代表語５０２とを含む。

ＩＤ５０１は、文書クラスタの識別子である。代表語５０２は、各文書クラスタに含まれるキーワードの代表語を示す。

具体的には、｛ダウンロード、インストール｝、｛シングルチャネル動作、デュアルチャネル動作、メモリ｝、｛バッテリー充電、ステレオスピーカー、抗菌コーティング、タイルキーボード｝、｛アメリカ合衆国｝、｛バックアップ、磁気テープ、ストリーマ｝、｛ナチュラル、キャビネット｝がそれぞれ、文書クラスタを代表する代表語となる。

次に、キーワード出力部１１０から出力されるキーワードリストの一例について図６を参照して説明する。
図６は、キーワードの代表語をタグクラウド６００として表示した表示例である。このタグクラウド６００の表示では、スコアの大きい順に文字の大きさを変えて表示する。

なお、ユーザ語彙抽出部１０５におけるユーザ用語の抽出結果によって得られたユーザ用語については、スコアを式（１）に基づき算定すればよいが、一般用語抽出部１０３から出力された単語に関しては、スコアが明示的に得られていない。そこで、一般用語の抽出手法に応じたスコアを事前定義しておく。ここでは、例えば「名詞」としてさらに詳細なプロパティ情報（人名、組織名等）が付与されている場合に、一般的な「名詞」よりも高いスコアを付与するなどの前処理を適用したものとする。

または、ユーザ語彙抽出部１０５で得られたスコア情報を考慮して、固定数の一般用語が含まれるように調整した値を、一般用語の抽出結果から得られるキーワードに対して付与するといった前処理を適用すればよい。

次に、ユーザ指示取得部が取得するアノテーションの一例について図７を参照して説明する。
図７は、文書クラスタの代表語のタグクラウド７００を表示した一例であり、文書クラスタごとに代表語が区別されて表示される。ここでは、横１列に表示される代表語が、１つの文書クラスタから得られる代表語である。

また、タグクラウド表示されている代表語に対して、ユーザが囲みや「×（バツ）」記号のアノテーションを付与される。

図７の例では、代表語「ＨＤＤ＋ＳＤＤデュアルドライブ」に対してバツ記号が付けられている。この場合は、ユーザがこのキーワードが不要であると考えている場合が想定されるので、バツ記号が付けられた「ＨＤＤ＋ＳＤＤデュアルドライブ」は、該当するクラスタの代表語から削除したり、またはスコアを低下させる、例えば、最低値にしたり、0や負値にするなどのバイアスをかけたり、表示には出さないなどのフラグを立てるといったデータを内部的に持たせればよい。

また、代表語「放電主雷撃」に対して囲みがある。この場合は、ユーザがこのキーワードが重要であると考えている場合が想定されるので、囲まれたキーワードのスコアを上昇させたり、アンカー的な用途として、特定のフラグを立てたり、スコアを該当クラスタ内で表示用の閾値を下回らないような値に設定するなどの処理を行えばよい。また、タグクラウド上で囲まれたキーワードを、いわゆるピン留めすることで、常時表示させるようにしてもよい。

さらに、代表語「ダウンロード」「メモリ」「アメリカ合衆国」に対して囲みがある。このように文書クラスタが異なる複数の代表語が囲まれている場合は、代表語どうしを関連付ける関連付け指示であると考えられるので、同じ文書クラスタとして選択されるように、単語の共起度を上昇させるといった処理をしてもよい。

以下、図７に示す代表語「ストリーマ」が、他の文書クラスタの代表語「落雷」と関連付けられた場合を例に、文書クラスタの更新処理の具体例を説明する。

キーワードスコア更新部１０８のキーワード更新処理の一例について図８を参照して説明する。
図８は、更新された文書ごとのキーワードの関係を示すテーブル８００である。図３の文書に加え、新たに文書Ｇおよび文書Ｈを追加し、２種類の異なるアノテーションがキーワードに付された場合を想定する。

ここで、アノテーションが付与されたキーワードのスコアは、式（２）のように、アノテーションバイアス値が加わって算出される。図７の例では、アノテーションバイアス値（特徴量）として、「Ａｎｎ（ｐ）」が乗算される。ここでｐは、正の整数である。アノテーションバイアス値は、アノテーションの違いに応じて異なる値が割り当てられる。

例えば、“文字列を丸で囲む”というアノテーション操作に対して“１０”が、また、“アンダーラインを引く”（＝Ａｎｎ（２））の操作に対して“５”が割り当てられるとする。

この結果、文書Ｃ中に出現する単語「Ｉｎａｚｕｍａ」のスコアが１×１０＝１０であるので「１０」となり、また、文書Ｇ中に出現する単語「ストリーマ」のスコアは「５」に、更に、文書Ｈに出現する「オーガニック」および「ロハス」のスコアは、それぞれ「５」に更新される。

これらの値は事前に固定してもよいし、蓄積された文書集合から得られる単語の統計情報によって、動的に更新されてもよい。

次に、更新された文書クラスタの代表語の一例について図９を参照して説明する。
図９に示すテーブル９００では、更新された特徴量に基づいて、代表語が更新される。例えば、新たに「Ｉｎａｚｕｍａ」や「ＨＤＤ＋ＳＤＤデュアルドライブ」が追加されている他、ＩＤ５にも新たに、「オーガニック」、「ロハス」といった単語が新規追加された状況を示している。

ＩＤ４に存在していた「ストリーマ」というキーワードが、今回のアノテーションにより、文書クラスタ内のキーワードのスコアが更新され、「ストリーマ」が新たにＩＤ６の文書クラスタに紐付けられる。

次に、キーワード出力部１１０から出力される更新されたキーワードリストの一例について図１０を参照して説明する。
図１０は、更新された文書クラスタに基づいて代表語をタグクラウド１０００で表示する一例である。

図１０に示すタグクラウド１０００は、クラスタの特徴を、視覚的に横のつながりとしてもたせている。また、アノテーションの違いにより、その他のキーワードとフォントカラーを変更するなどの効果を付与している。

また、これらの代表語は、更に、常に表示される（表示上のピン留め）などの機能と連動するなどの区別もあるものとする。また、新規にされたクラスタに関しては、より詳しいコンテキスト情報を示すため、表示されるキーワードの閾値を下げて多めに表示するなどの効果が施されている。

以上に示した本実施形態によれば、ユーザがアノテーションを付与した文書に基づいて、文書をクラスタリングし、文書群の代表語を表示することで、ユーザが収集および閲覧した文書の傾向に応じたキーワードを提示することができ、新規文書の登録傾向に応じた新しいキーワードだけではなく、ユーザが重要としたキーワードを明示的に保持することができる。また、キーワードに対するユーザのアノテーションを参照し、キーワードの特徴量を更新して更新したキーワードを表示することで、ユーザの意向を反映したキーワードリストを出力することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したキーワード抽出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のキーワード抽出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・キーワード抽出装置、１０１・・・分離部、１０２・・・形態素解析部、１０３・・・一般用語抽出部、１０４・・・アノテーション特徴抽出部、１０５・・・ユーザ語彙抽出部、１０６・・・クラスタ生成部、１０７・・・ユーザ指示取得部、１０８・・・キーワードスコア更新部、１０９・・・クラスタ更新部、１１０・・・キーワード出力部、４００，５００，８００，９００・・・テーブル、４０１・・・キーワード、４０２・・・文書、５０１・・・ＩＤ、５０２・・・代表語、６００，７００，１０００・・・タグクラウド。

Claims

ユーザの意図を表現する第１アノテーションが文字列に付与された複数の文書のそれぞれについて、該第１アノテーションと該文書とを分離する分離部と、
前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する第１抽出部と、
前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する第２抽出部と、
前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、１以上の文書クラスタを生成する生成部と、
前記文書クラスタに含まれるキーワードに対するユーザからの第２アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する計算部と、
前記特徴量から前記第２アノテーションが付与されたキーワードの前記スコアを更新する第１更新部と、
更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る第２更新部と、を具備することを特徴とするキーワード抽出装置。
前記更新クラスタの文書クラスタごとに代表的なキーワードである代表語を抽出し、該代表語を前記文書クラスタごとに分類して提示する出力部を、さらに具備し、
前記第２アノテーションは、前記キーワードに対して、重要度を低くする削除指示、該重要度を高くする強調指示、前記代表語どうしを関連付ける関連付け指示を含む指示を含み、
前記第１更新部は、前記指示に応じた前記特徴量を用いて前記スコアを更新することを特徴とする請求項１に記載のキーワード抽出装置。
前記計算部は、前記第１アノテーションの種類に応じて前記特徴量を計算し、
前記生成部は、前記スコアを算出する場合に、前記第１アノテーションの種類に応じた前記特徴量を用いて前記スコアを算出することを特徴とする請求項１または請求項２に記載のキーワード抽出装置。
前記出力部は、前記第２アノテーションが前記強調指示である場合、該第２アノテーションが付与された代表語を強調表示するか、または常に表示する表示方式とすることを特徴とする請求項２に記載のキーワード抽出装置。
ユーザの意図を表現する第１アノテーションが文字列に付与された複数の文書のそれぞれについて、該第１アノテーションと該文書とを分離し、
前記文書から、予め定義された品詞情報に基づいて一般用語を抽出し、
前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出し、
前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、１以上の文書クラスタを生成し、
前記文書クラスタに含まれるキーワードに対するユーザからの第２アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算し、
前記特徴量から前記第２アノテーションが付与されたキーワードの前記スコアを更新し、
更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得ることを特徴とするキーワード抽出方法。
コンピュータを、
ユーザの意図を表現する第１アノテーションが文字列に付与された複数の文書のそれぞれについて、該第１アノテーションと該文書とを分離する分離手段と、
前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する第１抽出手段と、
前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する第２抽出手段と、
前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、１以上の文書クラスタを生成する生成手段と、
前記文書クラスタに含まれるキーワードに対するユーザからの第２アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する計算手段と、
前記特徴量から前記第２アノテーションが付与されたキーワードの前記スコアを更新する第１更新手段と、
更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る第２更新手段として機能させるためのキーワード抽出プログラム。