JP2012221431A

JP2012221431A - 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム

Info

Publication number: JP2012221431A
Application number: JP2011089567A
Authority: JP
Inventors: Takayuki Adachi; 貴行足立; Toshiro Uchiyama; 俊郎内山; Takashi Fujimura; 考藤村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-04-13
Filing date: 2011-04-13
Publication date: 2012-11-12
Anticipated expiration: 2031-04-13
Also published as: JP5542729B2

Abstract

【課題】意味の曖昧性のある対象語から特定の意味の関連語を抽出する。
【解決手段】関連語抽出装置１００が、テキスト集合から共起単語データを作成し、共起単語データを用いて、所定の各単語について、その単語と共起する単語を求めてグループ化し、単語グループデータから、対象語４００に対するグループデータを抽出し、単語グループデータから、支持語リスト５００に記載の支持語毎にグループデータを抽出し、支持語リスト５００と、支持語グループデータから、支持語との関係の深いグループに属する共起語（支持共起語）と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、支持共起語データとし、関連語グループデータと支持共起語データから、対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択する。
【選択図】図１

Description

本発明は、ある単語に対する関連語の抽出を行う関連語抽出技術に関するものである。

世の中には様々な内容の電子テキストが大量に存在している。その中から欲しい情報を探すため、情報検索システムが利用されている。このシステムでは、ユーザは欲しい情報に関する検索語を入力すれば、その検索語に関する電子テキストの情報を得ることができる。その検索語の集合を考えた場合、多くの人々の検索意図が反映されているので、システム提供者は検索語集合を分析することで、人々が必要としている検索対象の拡充や、情報へのアクセス方法の改善に役立てることができる。また、人々に共通する関心が反映されたものだと捉えることができるので、マーケティング分析にも役立つ。

従来技術として、情報検索システムにおいて、所定期間内に使用された検索語同士の関連度の強さを求めて、互いに強い関連を持つ語は同一の情報を得るために使用された語であるとみなすことで、例えば、年始における"年賀状"と"当選番号"のように一時的に関連の強くなった検索語同士の関連付けを行う情報関連づけ装置が開示されている（特許文献１参照）。

また、情報検索システムのクエリログからクエリ内の単語の共起頻度を基に関連付けを行う従来技術がある。例えば、"銀座"と同時に出現する単語（共起語）の共起頻度の高い順に単語を並べると "ランチ"や"映画館"などの関連語を得ることができる。

特許第３５４７０６９号

しかしながら、例えば、"ワンピース"の意味が服の種類やアニメのタイトルのように、利用する背景によって同じ表記の単語が異なる意味として扱われることがある。このような単語に対する関連語を抽出した場合、従来技術では異なる意味の関連語を区別できない。

また、例えば、"ワンピース"を服の意味に限定するため"ワンピース"に"洋服"を追加して、いずれの単語とも共起した単語を関連語とする方法が考えられる。しかしながら、いずれの単語とも共起しなければならないため、"ワンピース"のみに共起する服の意味を持った単語があっても関連語として抽出できない。

また、逆に、例えば、"ワンピース"を服の意味に限定するため"ワンピース"に"−アニメ"を追加して、"ワンピース"と共起したもののうち、"アニメ"とは共起しない単語を関連語とする方法が考えられる。しかしながら、"ワンピース"のみに共起するアニメの意味を持った単語があっても関連語から除くことができない。

本発明は上記のような課題を解決するものであり、意味の曖昧性のある対象語から特定の意味の関連語を抽出するため、対象語の共起語をグループ化し、他の語と関係の深い共起語の共起頻度を用いて、対象語の共起語の支持度を加算や減算して集計し、支持度の高いグループを選択して、そのグループに属する共起語を対象語の関連語とすることで、他の語と関係の深い特定の意味の関連語を出力する関連語抽出技術を提供することを目的とする。

上記の課題を解決するために、本発明は、単語に対する関連語を抽出する関連語抽出装置であって、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と、を備えたことを特徴とする関連語抽出装置として構成される。

また、本発明は、単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
前記外部装置は、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成手段を備え、
前記関連語抽出装置は、
前記外部装置により作成された共起単語データを格納する共起単語データ記憶手段と、
当該共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と、を備えることを特徴とする関連語抽出装置として構成することもできる。

また、本発明は、単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
前記外部装置は、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成手段と、を備え、
前記関連語抽出装置は、
前記外部装置により作成された単語グループデータを格納する単語グループ記憶手段と、
当該単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と、を備えることを特徴とする関連語抽出装置として構成してもよい。

前記支持共起語抽出手段において、前記支持語リストの支持語に対して選択か除外かの支持方法を判断する情報が記されており、その情報に基づいて、全ての支持語に対してその共起頻度を集計する際に、選択する支持方法では加算を行い、除外する支持方法では減算を行って集計するようにしてもよい。

また、前記対象語は例えば検索式の形式で入力され、その場合、前記関連語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを抽出し、前記関連語グループデータ記憶手段へ出力し、また、前記関連語抽出手段において、前記検索式に含まれる各単語に対して各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を抽出して、前記検索式の条件を満たした共起語を関連語として選択する。

また、前記支持語リストは例えば検索式の形式で入力され、その場合、前記支持語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを探し、前記支持語グループデータ記憶手段へ出力し、また、前記支持共起語抽出手段において、前記検索式の条件を満たした共起語を支持共起語として選択する。

また、関連語抽出装置において、前記単語グループ作成手段の処理を関連語グループ抽出手段及び／又は支持語グループ抽出手段の中で行うことで、前記対象語や前記支持語リストの入力後に逐次的に処理を行って、前記対象語や前記支持語の単語グループデータを作成するように構成してもよい。

また、本発明は、前記関連語抽出装置が実行する関連語抽出方法として構成してもよい。更に、本発明は、コンピュータを、前記関連語抽出装置における各手段として機能させるための関連語抽出プログラムとして構成してもよい。

本発明によれば、意味の曖昧性のある対象語から特定の意味の関連語を抽出するため、対象語の共起語をグループ化し、他の語と関係の深い共起語の共起頻度を用いて、対象語の共起語の支持度を加算や減算して集計し、支持度の高いグループを選択して、そのグループに属する共起語を対象語の関連語とすることで、他の語と関係の深い特定の意味の関連語を高精度で抽出できる。

本発明の一実施形態に係る関連語抽出装置の構成図である。図１に示す関連語抽出装置の処理の流れを表すフローチャートである。各種データの一例（１）である。各種データの一例（２）である。各種データの一例（３）である。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態に限定されるものではない。

（装置構成、動作概要）
図１は本発明の一実施形態の関連語抽出装置１００の構成図、図２は図１の関連語抽出装置１００の処理の流れを表すフローチャートである。図２のＳ１００〜Ｓ１５０は各処理のステップを各々示している。

図１に示すように、本実施形態の関連語抽出装置１００は、共起単語データ作成部１１０、単語グループ作成部１２０、関連語グループ抽出部１３０、支持語グループ抽出部１４０、支持共起語抽出部１５０、関連語抽出部１６０、共起単語データベース１７０、単語グループデータベース１８０、関連語グループデータベース１９０、支持語グループデータベース２００、支持共起語データベース２１０を備える。関連語抽出装置１００は、テキスト集合３００、対象語４００、及び支持語リスト５００を入力とし、関連語抽出部１６０により抽出された関連語を関連語データベース６００に出力する。

関連語抽出装置１００は、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、関連語抽出装置１００の全機能部もしくは一部の機能部ついて、各部が有する機能は、当該装置を構成するコンピュータに内蔵されるＣＰＵやメモリなどのハードウェア資源を用いて、各部で実施される処理に対応するプログラムを実行することによって実現することが可能である。また、関連語抽出装置１００における各データベースは、メモリなどの記憶手段により実現される。また、上記プログラムは、コンピュータが読み取り可能な記録媒体、例えばＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）や、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、メモリカード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）−ＲＯＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｋ）−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＢＤ−Ｒ、ＢＤ−ＲＥ、ＨＤＤ、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

次に、図２のフローチャートを参照して、関連語抽出装置１００の動作概要を説明する。

ステップ１００）共起単語データ作成部１１０は、テキスト集合３００を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データベース１７０へ出力する。

ステップ１１０）単語グループ作成部１２０は、共起単語データベース１７０に格納された共起単語を用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータベース１８０へ出力する。

ステップ１２０）関連語グループ抽出部１３０は、単語グループデータベース１８０から、対象語４００に対するグループデータを探し、関連語グループデータベース１９０へ出力する。

ステップ１３０）支持語グループ抽出部１４０は、単語グループデータベース１８０から、支持語リスト４００に記載の支持語毎にグループデータを探し、支持語グループデータベース２００へ出力する。

ステップ１４０）支持共起語抽出部１５０は、支持語リスト５００と、支持語グループデータベース２００から、支持語との関係の深いグループに属する共起語（支持共起語）と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、支持共起語データベース２１０へ出力する。

ステップ１５０）関連語抽出部１６０は、関連語グループデータベース１９０と支持共起語データベース２１０に格納されたデータを用いて、対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、関連語データベース６００へ出力する。

（動作詳細）
次に、本実施形態における関連語抽出装置１００の一連の動作をより詳細に、具体例を用いながら説明する。なお、以下で説明に用いる具体例は一例に過ぎない。

共起単語データ作成部１１０は、テキスト集合３００を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データベース１７０へ出力する。例えば、情報検索システムの検索クエリログをテキスト集合とした場合のテキスト集合を図３（Ａ）に示す。図３（Ａ）のテキスト集合は１行が１つのクエリを表すテキストとなっている。このテキスト集合から、テキスト中のある単語と共起する単語の組を求めて、その組の数（共起頻度）を集計し、高頻度順に並べたデータを作成したものが図３（Ｂ）の共起単語データとなる。なお、テキスト集合が通常の文章でも、形態素解析によって自立語を取り出して１文もしくは１文節を１つのテキストと扱うことで、同様に処理できる。

単語グループ作成部１２０は、共起単語データベース１７０に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータベース１８０へ出力する。

例えば、まず、所定の単語集合については、図３（Ｂ）の共起単語データの各単語について共起語の数の多い順に並べた図３（Ｃ）の共起単語数データの上位Ｎ件と定める。なお、別の方法として、テキスト集合中の単語の頻度に基づく関数によって計算された値の大きなものから上位Ｎ件と定めたり、事前準備した単語リストに記載の単語集合を所定の単語集合と定めてもよい。

次に、所定の単語集合の単語毎の処理について説明する。例えば、所定の単語が"ワンピース"であれば、"ワンピース"の共起語を図３（Ｂ）の共起単語データから求めて、図３（Ｄ）の共起語データを抽出する。その際"ワンピース"と共起する単語との共起頻度も図３（Ｂ）から分かるので、共起頻度が所定の閾値未満のものは抽出しない。

次に、図３（Ｄ）の共起語データの各共起語の特徴を表すため、各共起語に対して共起した語と共起頻度を図３（Ｂ）の共起単語データから求め、得られた単語に対する共起頻度を要素とする図３（Ｅ）の特徴ベクトルデータを作成する。なお、特徴ベクトルは共起頻度を基にして単語の特徴が表せられれば良いので、共起頻度の代わりにその値に任意の関数を適用した値を用いてもよい。最後に、作成された特徴ベクトルを用いて"ワンピース"の共起語をクラスタリングした結果、図３（Ｆ）のように４つのグループからなるグループデータが得られ、単語グループデータベース１７０へ出力する。なお、クラスタリング手法は、特徴ベクトルを用いるものであればその手法は問わない。また、クラスタ数はあらかじめ定めた数とする。例えば、図３（Ｆ）では、クラスタ数を４として処理した結果である。以上が、所定の単語集合の単語毎の処理であり、所定の単語集合の全ての単語について同様に処理される。

関連語グループ抽出部１３０は、単語グループデータベース１８０から、対象語４００に対するグループデータを探し、関連語グループデータベース１９０へ出力する。例えば、対象語が"ワンピース"であった場合、単語グループデータから、グループデータ名が"ワンピース"である図３（Ｆ）のグループデータを探し、関連語グループデータベース１８０へ出力する。

支持語グループ抽出部１４０は、単語グループデータベース１８０から、支持語リスト４００に記載の支持語毎にグループデータを探し、支持語グループデータベース２００へ出力する。例えば、支持語リストが図４（Ｇ）に示すものであるとした場合、この支持語リストは、"洋服"と関連の深い共起語を選択することを意図し、単語の前に"−"が付いている"−アニメ"は"アニメ"と関連の深い共起語を除外することを意図している。この場合、単語グループデータベースから、支持語"洋服"と"アニメ"のグループデータである図４（Ｈ）と図４（Ｉ）に示すグループデータがグループデータ名から見つかるので、これらを支持語グループデータベース２００へ出力する。

支持共起語抽出部１５０は、支持語リスト５００と、支持語グループデータベース２００から、支持語との関係の深いグループに属する共起語（支持共起語）と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、支持共起語データベース２１０へ出力する。例えば、図４（Ｇ）に示す支持語リストに記載の"洋服"に対しては、支持語グループデータベース２００には、図４（Ｈ）の"洋服"のグループデータがあるので、その中から"洋服"との関係の深い共起語のグループのみを抽出する。抽出方法は、各グループに対し、グループに含まれている共起語と支持語との共起頻度を集計し、各グループの共起頻度が高い順に全体割合の累積値を求めたときに、所定の閾値に初めて達したときの該当グループとする。

例えば、図４（Ｈ）の各グループの共起語の後述された括弧内の数値が支持語"洋服"と各単語との共起頻度であるので、当該共起頻度をグループ毎に集計（加算）し、全体割合とその累積値を求めると、図４（Ｊ）の"洋服"のグループ集計データとなる。なお、図４（Ｈ）と図４（Ｊ）のグループ番号は対応している。所定の閾値が０．９であった場合、各グループの共起頻度の全体割合の累積が０．９９となった時に初めて閾値以上となるので、グループ番号１〜３が該当グループとなる。そして、グループ番号１〜３に属する共起語と支持語との共起頻度を図４（Ｈ）のグループデータの共起語に後述された括弧内の数値から求めると、図４（Ｋ）が"洋服"との関連が深い単語データとなる。同様に、支持語リストに記載の"−アニメ"に対しては、"−"を除いた支持語"アニメ"のグループデータとして図４（Ｉ）があり、グループ毎に集計した図５（Ｌ）の"アニメ"のグループ集計データから、"アニメ"との関係の深い共起語グループは、各グループの共起頻度の全体割合の累積が閾値０．９４となった時に初めて閾値以上となるので、グループ番号１が該当グループとなる。そして、グループ番号１に属する共起語と支持語との共起頻度を図４（Ｉ）のグループデータから求めると図５（Ｍ）が"アニメ"との関連が深い単語データとなる。なお、支持語との関係の深いグループに属する共起語を、各グループの共起頻度の全体割合の累積が初めて閾値に達する時の該当グループに属する共起語から求めたが、同様な結果が得られるのであればこの方法に限定されない。

支持語リストに記載されている全ての単語に対して同様の処理を行い、最後に、支持語との関連が深い単語データを集計して、支持語グループデータベース２１０へ出力する。例えば、支持語リストに記載の"洋服"は、支持語と関連の深い単語の選択に使われるので、対応する図４（Ｋ）を加算し、支持語リストに記載の"−アニメ"は先頭の"−"があることから、支持語と関連の深い単語の除外に使われるので、"−"を除いた"アニメ"に対応する図５（Ｍ）を減算し、集計した図５（Ｎ）の支持語との関連が深い単語データを支持共起語グループデータベース２１０へ出力する。

関連語抽出部１６０は、関連語グループデータベース１９０と支持共起語データベース２１０から、対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持語との関係の深い共起語を関連語として選択し、関連語データベース６００へ出力する。

例えば、関連語グループデータベース１８０にある図３（Ｆ）の"ワンピース"のグループデータのグループ番号４の共起語"通販"に対し、支持共起語データベース２１０にある図５（Ｎ）の支持語との関係が深い単語データには、"通販"の共起頻度が１２００である事が分かる。その共起頻度を図３（Ｆ）のグループ番号４に加算する。図３（Ｆ）の"ワンピース"のグループデータの全ての共起語に対して図５（Ｎ）から共起頻度を求め、図３（Ｆ）のグループ毎に集計し、支持度の高い順に並べた結果、図５（Ｏ）の結果が得られる。次に、図５（Ｏ）の支持度の高い順に求めた全体割合の累積から、閾値が所定の値以上に初めて達した際の該当グループを選択する。なお、支持度が負の値のときの全体割合は0としている。所定の閾値が０．９であった場合、図５（Ｏ）の全体割合の累積値は１．０の時に初めて閾値以上になるので、グループ番号３と４が該当グループとなり、そのグループに含まれる単語を関連語データとして関連語データベース６００へ出力する。

この出力された単語は、支持語との関係の深いものに意味が特定化された対象語の関連語となる。なお、支持語との関係の深いグループに属する共起語を、各グループの共起頻度の全体割合の累積が初めて閾値に達する時の該当グループに属する共起語から求めたが、同様な結果が得られるのであればこの方法に限定されない。

本実施の形態では、例えば、対象語である"ワンピース"から服に関係する関連語のみを抽出したい際に、"ワンピース"の共起語である「服の意味でのワンピースのブランド名」があった場合、共起語をグループ化することで、その単語が服に関係するグループに含まれる。一方、選択対象とする支持語である"洋服"と「服の意味でのワンピースのブランド名」が共起していない場合でも、"洋服"と関連の深い共起語が"ワンピース"の服に関係するグループを支持するので、「服の意味でのワンピースのブランド名」が関連語として抽出できる。

また、本実施の形態では、例えば、対象語である"ワンピース"から服に関係する関連語のみを抽出したい際に、"ワンピース"の共起語である「アニメでの登場人物名」があった場合、共起語をグループ化することで、その単語がアニメに関係するグループに含まれる。一方、除外対象とする支持語である"アニメ"と「アニメでの登場人物名」が共起していない場合でも、"アニメ"と関連の深い共起語が"ワンピース"のアニメに関係するグループを支持しないようにするので、「アニメでの登場人物名」が関連語から除外される。

本実施の形態とは別の方法として、図１の関連グループ抽出部１３０によって作成された関連語グループデータベース１９０に対して、選択対象である支持語を含むクラスタを直接求めて、そのクラスタに属する検索語を関連語として選択する方法が考えられる。この方法では、例えば、支持語が"洋服"である場合、図３（Ｆ）のワンピースのグループデータのグループ番号４に"洋服"が含まれているとすると、グループ番号４の共起語が関連語として抽出できるが、グループ番号３にも"ファッション"といった洋服と関係のある共起語が抽出できない。一方、本実施の形態では支持語を直接含むか含まないかではなく、支持語の共起語を用いることで、グループ番号３も４も抽出可能な方法となっている。

なお、上記の実施形態では、図１の関連語抽出装置１００において、対象語４００が１つの単語であったが、対象語４００を検索式で表現してもよく、例えば"(ワンピース OR スーツ) AND NOT 春物"というように指定すれば、"ワンピース"の共起語または"スーツ"の共起語であり、"春物"の共起語を除外したものが関連語として抽出される。具体的には、図１の関連語グループ抽出部１３０で、単語グループデータベース１８０から"ワンピース"、"スーツ"、"春物"のグループデータを探して、関連語グループデータ１９０に格納し、関連語抽出部１６０において、"ワンピース"、"スーツ"、"春物"のグループ集計データを作成し、全体割合の累積が初めて閾値を超えた際の該当グループの共起語をそれぞれ抽出し、最後に"ワンピース"と"スーツ"のいずれかに含まれており、"春物"に含まれているものを除いた共起語を関連語として抽出すればよい。

また、上記の実施形態では、図１の関連語抽出装置１００において、支持語リスト５００が単語のリストであるが、支持語リスト５００を検索式で表現してもよい。例えば"(洋服 OR 服) AND NOT アニメ"というように指定すれば、"洋服"または"服"の共起語であり、"アニメ"の共起語を除外したものが支持共起語として抽出される。具体的には図１の支持語グループ抽出部１４０で、単語グループデータベース１８０から"服"、"洋服"、"アニメ"のグループデータを探して、支持語グループデータ２００に格納し、支持共起語抽出部１５０において、"服"、"洋服"、"アニメ"のグループ集計データを作成し、全体割合の累積が初めて閾値を超えた際の該当グループの共起語をそれぞれ抽出し、最後に"服"と"洋服"のいずれかに含まれており、かつ"アニメ"に含まれているものを除いた共起語を支持語として処理すればよい。

また、上記の実施形態では、図１の単語グループ作成部１２０は、共起単語データベース１７０を用いて、あらかじめ任意の単語に対する単語グループデータを作成するものであるが、単語グループ作成部１２０の処理を関連語グループ抽出部１３０及び支持語グループ抽出部１４０（もしくは、関連語グループ抽出部１３０及び支持語グループ抽出部１４０のいずれか）の中で行うことで、対象語４００や支持語リスト５００の入力後に逐次的に処理して対象語や支持語の単語グループデータを作成することも可能である。このとき、対象語や支持語の違いもしくは単語毎にクラスタリングの際のクラスタ数を変えてもよい。

また、上記の実施形態では、図１の関連語抽出装置１００において、テキスト集合３００を入力して処理が行われているが、共起単語データ作成部１１０や単語グループ作成部１２０を外部装置の機能として実現し、共起単語データベース１７０のデータや単語グループデータベース１８０のデータを外部装置の処理によって作成しておき、それを入力として処理してもよい。

すなわち、例えば、コンピュータにより実現される外部装置が、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成部１１０を備える。そして、関連語抽出装置１００が、外部装置により作成された共起単語データを格納する共起単語データ記憶手段（データベース）と、当該共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成部１２０と、前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出部１３０と、前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出部１４０と、前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出部１５０と、前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出部１６０とを備える。

また、他の例として、外部装置が、テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成部１１０と、前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成部１２０とを備える。そして、関連語抽出装置１００が、前記単語グループデータを格納する単語グループ記憶手段と、当該単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出部１３０と、前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出部１４０と、前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出部１５０と、前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出部１６０とを備える。

なお、これらの場合において、例えば、外部装置と関連語抽出装置１００とを通信ネットワークで接続し、当該外部装置で作成されたデータを関連語抽出装置１００に通信ネットワークを介して入力する構成をとるようにしてもよい。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１００…関連語抽出装置
１１０…共起単語データ作成部
１２０…単語グループ作成部
１３０…関連語グループ抽出部
１４０…支持語グループ抽出部
１５０…関連語抽出部
１６０…共起単語データベース
１７０…単語グループデータベース
１８０…関連語グループデータベース
１９０…支持語グループデータベース
３００…テキスト集合
４００…対象語
５００…支持語リスト
６００…関連語データベース

Claims

単語に対する関連語を抽出する関連語抽出装置であって、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と
を備えたことを特徴とする関連語抽出装置。
単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
前記外部装置は、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成手段を備え、
前記関連語抽出装置は、
前記外部装置により作成された共起単語データを格納する共起単語データ記憶手段と、
当該共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成手段と、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と
を備えることを特徴とする関連語抽出装置。
単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置であって、
前記外部装置は、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成手段と、を備え、
前記関連語抽出装置は、
前記外部装置により作成された単語グループデータを格納する単語グループ記憶手段と、
当該単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出手段と、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出手段と、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出手段と、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出手段と
を備えることを特徴とする関連語抽出装置。
前記支持共起語抽出手段において、前記支持語リストの支持語に対して選択か除外かの支持方法を判断する情報が記されており、その情報に基づいて、全ての支持語に対してその共起頻度を集計する際に、選択する支持方法では加算を行い、除外する支持方法では減算を行って集計する
ことを特徴とする請求項１ないし３のうちいずれか１項に記載の関連語抽出装置。
前記対象語は検索式の形式で入力され、前記関連語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを抽出し、前記関連語グループデータ記憶手段へ出力し、また、前記関連語抽出手段において、前記検索式に含まれる各単語に対して各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を抽出して、前記検索式の条件を満たした共起語を関連語として選択する
ことを特徴とする請求項１ないし４のうちいずれか１項に記載の関連語抽出装置。
前記支持語リストは検索式の形式で入力され、前記支持語グループ抽出手段において、当該検索式に含まれる各単語に対するグループデータを探し、前記支持語グループデータ記憶手段へ出力し、また、前記支持共起語抽出手段において、前記検索式の条件を満たした共起語を支持共起語として選択する
ことを特徴とする請求項１ないし５のうちいずれか１項に記載の関連語抽出装置。
前記単語グループ作成手段の処理を関連語グループ抽出手段及び／又は支持語グループ抽出手段の中で行うことで、前記対象語や前記支持語リストの入力後に逐次的に処理を行って、前記対象語や前記支持語の単語グループデータを作成する
ことを特徴とする請求項１ないし６のうちいずれか１項に記載の関連語抽出装置。
単語に対する関連語を抽出する関連語抽出装置が実行する関連語抽出方法であって、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成ステップと、
前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成ステップと、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出ステップと、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出ステップと、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出ステップと、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出ステップと
を備えたことを特徴とする関連語抽出方法。
単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置が実行する関連語抽出方法であって、
前記外部装置は、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データとして出力する共起単語データ作成手段を備え、
前記関連語抽出方法は、
前記外部装置により作成された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループ記憶手段へ出力する単語グループ作成ステップと、
前記単語グループ記憶手段に格納された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出ステップと、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出ステップと、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出ステップと、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出ステップと
を備えることを特徴とする関連語抽出方法。
単語に対する関連語を抽出する関連語抽出装置と、外部装置とを有する関連語抽出システムにおける前記関連語抽出装置が実行する関連語抽出方法であって、
前記外部装置は、
テキスト集合を入力し、テキスト中の単語と共起する単語との共起頻度を求め、共起単語データ記憶手段へ出力する共起単語データ作成手段と、
前記共起単語データ記憶手段に格納された共起単語データを用いて、所定の単語集合の各単語について、その単語と共起する単語を求めてグループ化し、その結果を単語グループデータとして出力する単語グループ作成手段と、を備え、
前記関連語抽出方法は、
前記外部装置により作成された単語グループデータから、入力された対象語に対するグループデータを抽出し、関連語グループデータ記憶手段へ出力する関連語グループ抽出ステップと、
前記単語グループデータから、入力された支持語リストに記載の支持語毎にグループデータを抽出し、支持語グループデータ記憶手段へ出力する支持語グループ抽出ステップと、
前記支持語リストと、前記支持語グループデータ記憶手段に格納された支持語グループデータから、支持語との関係の深いグループに属する共起語である支持共起語と支持語との共起頻度を求めて、全ての支持語に対してその共起頻度を集計し、集計結果を支持共起語データ記憶手段へ出力する支持共起語抽出ステップと、
前記関連語グループデータ記憶手段に格納された関連語グループデータと、前記支持共起語データ記憶手段に格納された支持共起語データから、前記対象語の各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を関連語として選択し、出力する関連語抽出ステップと
を備えることを特徴とする関連語抽出方法。
前記支持共起語抽出ステップにおいて、前記支持語リストの支持語に対して選択か除外かの支持方法を判断する情報が記されており、前記関連語抽出装置は、その情報に基づいて、全ての支持語に対してその共起頻度を集計する際に、選択する支持方法では加算を行い、除外する支持方法では減算を行って集計する
ことを特徴とする請求項８ないし１０のうちいずれか１項に記載の関連語抽出方法。
前記対象語は検索式の形式で入力され、前記関連語グループ抽出ステップにおいて、前記関連語抽出装置は、当該検索式に含まれる各単語に対するグループデータを抽出し、前記関連語グループデータ記憶手段へ出力し、また、前記関連語抽出ステップにおいて、前記関連語抽出装置は、前記検索式に含まれる各単語に対して各関連語グループに属する共起語と一致する支持共起語の支持度を求め、対象語の関連語グループ毎に集計し、支持共起語と関係の深い共起語を抽出して、前記検索式の条件を満たした共起語を関連語として選択する
ことを特徴とする請求項８ないし１１のうちいずれか１項に記載の関連語抽出方法。
前記支持語リストは検索式の形式で入力され、前記支持語グループ抽出ステップにおいて、前記関連語抽出装置は、当該検索式に含まれる各単語に対するグループデータを探し、前記支持語グループデータ記憶手段へ出力し、また、前記支持共起語抽出ステップにおいて、前記関連語抽出装置は、前記検索式の条件を満たした共起語を支持共起語として選択する
ことを特徴とする請求項８ないし１２のうちいずれか１項に記載の関連語抽出方法。
前記単語グループ作成の処理を関連語グループ抽出ステップ及び／又は支持語グループ抽出ステップの中で行うことで、前記対象語や前記支持語リストの入力後に逐次的に処理を行って、前記対象語や前記支持語の単語グループデータを作成する
ことを特徴とする請求項８ないし１３のうちいずれか１項に記載の関連語抽出方法。
コンピュータを、請求項１ないし７のうちいずれか１項に記載の関連語抽出装置の各手段として機能させるための関連語抽出プログラム。