JP2015036892A

JP2015036892A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2015036892A
Application number: JP2013168259A
Authority: JP
Inventors: 正典宮原; Masanori Miyahara; 一憲荒木; Kazunori Araki; 勝吉金本; Katsuyoshi Kanemoto; 亮中橋; Ryo Nakahashi; 和樹吉山; Kazuki Yoshiyama; 友博高木; Tomohiro Takagi
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-08-13
Filing date: 2013-08-13
Publication date: 2015-02-23
Also published as: CN104376034A; US10380151B2; CN104376034B; US20150052140A1

Abstract

【課題】関連語句の検索結果の利便性を向上させる。
【解決手段】情報処理装置は、複数の文書から複数の語句を抽出する語句抽出部と、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、与えられた入力語句と帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、関連語句及び関連語句を識別するための識別情報を出力する出力部とを備える。本技術は、例えば、関連語句の検索を行うシステムに適用できる。
【選択図】図１

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、関連語句の検索を行う情報処理装置、情報処理方法、及び、プログラムに関する。

従来、コンテンツに付与されているメタデータに基づいて、ユーザの嗜好に合うコンテンツを検索して推薦する技術が知られている（例えば、特許文献１参照）。このような推薦技術では、例えば、各語句の特徴を表す特徴量ベクトルの類似度に基づいて、メタデータに含まれる語句に関連する関連語句を検索することが行われる。

特開２００７−２６４２５号公報

しかしながら、従来の技術では、複数の意味を有していても同じ表記の語句は１つの語句として扱われる。そのため、例えば、メタデータに関連する語句として検索された関連語句が、ユーザの嗜好に合う意味と嗜好に合わない意味を含んでいたとしても、それらを区別して処理することができない。

そこで、本技術は、関連語句の検索結果の利便性を向上させるようにするものである。

本技術の一側面の情報処理装置は、複数の文書から複数の語句を抽出する語句抽出部と、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部とを備える。

前記出力部には、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力させることができる。

同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部をさらに設けることができる。

前記類義語抽出部には、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分けさせることができる。

ユーザにアイテムを推薦する推薦部をさらに設け、前記関連語句抽出部には、推薦するアイテムに関するキーワードの関連語句を抽出させ、前記推薦部には、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示させることができる。

前記推薦部には、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示させることができる。

ユーザにアイテムを推薦する推薦部をさらに設け、前記関連語句抽出部には、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出させ、前記推薦部には、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加させることができる。

前記推薦部には、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加させることができる。

前記関連語句抽出部には、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出させることができる。

前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表すようにすることができる。

前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含むようにすることができる。

本技術の一側面の情報処理方法は、複数の文書から複数の語句を抽出する語句抽出ステップと、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップとを含む。

本技術の一側面のプログラムは、複数の文書から複数の語句を抽出する語句抽出ステップと、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップとを含む処理をコンピュータに実行させる。

本技術の一側面においては、複数の文書から複数の語句が抽出され、抽出された各語句の特徴量の抽出が同じ表記の語句を区別したまま行われ、抽出された各語句のクラスタリングが同じ表記の語句を区別したまま行われ、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルが算出され、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出が同じ表記の語句を区別したまま行われ、前記関連語句及び前記関連語句を識別するための識別情報が出力される。

本技術の一側面によれば、同じ表記の語句を区別して関連語句の検索を行うことができる。その結果、関連語句の検索結果の利便性が向上する。

本技術を適用した情報処理装置の一実施の形態を示すブロック図である。語句データ収集処理を説明するためのフローチャートである。文書の例を示す図である。単語特徴量ＤＢの構成例を示す図である。クラスタリング結果ＤＢの構成例を示す図である。関連語句検索処理の第１の実施の形態を説明するためのフローチャートである。関連語句の検索結果の例を示す図である。関連語句検索処理の第２の実施の形態を説明するためのフローチャートである。関連語句検索処理の第３の実施の形態を説明するためのフローチャートである。同じ表記の関連語句をまとめた例を示す図である。類義語抽出処理を説明するためのフローチャートである。類義語抽出処理の具体例を説明するための図である。推薦処理を説明するためのフローチャートである。推薦処理の具体例を説明するための図である。特徴量拡充処理を説明するためのフローチャートである。推薦処理の例を説明するための図である、特徴量拡充処理の具体例を説明するための図である。コンピュータの構成例を示すブロック図である。

以下、本技術を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［情報処理装置１１の構成例］
図１は、本技術を適用した情報処理装置１１の一実施の形態を示すブロック図である。

情報処理装置１１は、複数の文書を含む文書群から抽出した複数の語句をクラスタリングして保持する。また、情報処理装置１１は、保持している語句の中から、与えられた入力語句に関連するする関連語句を検索する。さらに、情報処理装置１１は、関連語句の検索結果を用いて、各種の処理を行う。

なお、情報処理装置１１の処理対象となる語句は、文字や記号等からなる語句であり、１つの単語だけではなく、複数の単語を組み合わせた句（フレーズ）等も含む。

情報処理装置１１は、検索処理部２１及びアプリケーション部２２を含むように構成される。

検索処理部２１は、文書群から抽出した語句をクラスタリングして保持し、保持している語句の中から、入力語句に関連する関連語句を検索し、その検索結果をアプリケーション部２２に出力する。

検索処理部２１は、語句抽出部３１、特徴抽出部３２、語句特徴量データベース（ＤＢ）３３、クラスタリング部３４、クラスタリング結果データベース（ＤＢ）３５、関連語句抽出部３６、及び、出力部３７を含むように構成される。

語句抽出部３１は、文書群に含まれる語句を抽出し、語句の抽出結果と抽出元の文書群を特徴抽出部３２に供給する。なお、語句抽出部３１の語句の抽出対象となる文書は、特に限定されるものではなく、例えば、インターネット上のサイト等に入手可能な状態で公開されている各種の文書とされる。

特徴抽出部３２は、語句抽出部３１により抽出された各語句の特徴量を求め、各語句及び特徴量を語句特徴量ＤＢ３３に格納する。

クラスタリング部３４は、語句特徴量ＤＢ３３に格納されている各語句のクラスタリングを行う。そして、クラスタリング部３４は、各語句の所定の２以上のクラスタへの帰属度からなる帰属度ベクトルを算出し、クラスタリング結果ＤＢ３５に格納する。

関連語句抽出部３６は、クラスタリング結果ＤＢ３５を用いて、入力語句又は複数の入力語句を含む入力語句群に関連する関連語句を抽出し、出力部３７に供給する。

出力部３７は、抽出された関連語句群を含む関連語句の検索結果をアプリケーション部２２に出力する。

なお、後述するように、検索処理部２１の各部は、同じ表記の語句をそれぞれ区別して異なる語句として扱う。

アプリケーション部２２は、後述するように、関連語句の検索結果、及び、語句特徴量ＤＢ３３を用いて各種の処理を行う。アプリケーション部２２は、類義語抽出部４１及び推薦部４２を含むように構成される。

類義語抽出部４１は、関連語句の検索結果に基づいて、ある語句に対する類義語の抽出を行い、類義語辞書に登録する。

推薦部４２は、図示せぬインターネット等のネットワークを介して、ユーザが利用するクライアントに対してアイテムの推薦を行う。また、推薦部４２は、検索処理部２１による関連語句の検索結果を利用して、推薦アイテムとともに関連するキーワードを提示したり、アイテム及びユーザの特徴量の拡張を行ったりする。

なお、推薦部４２が推薦するアイテムは、特定の種類に限定されるものではない。例えば、動画、静止画、書籍、文書、楽曲、テレビジョン番組、ソフトウエア、ニュース記事、ブログ記事、マイクロブログ文、情報などの各種のコンテンツや商品、並びに、コミュニティサイトのユーザ、コミュニティ等が想定される。

［情報処理装置１１の処理］
次に、情報処理装置１１の処理について説明する。なお、以下では、説明を分かりやすくするために、情報処理装置１１が扱う語句が、基本的に１つの単語により構成される場合について説明する。

（語句データ収集処理）
まず、図２のフローチャートを参照して、情報処理装置１１により実行される語句データ収集処理について説明する。なお、この処理は、例えば、定期的にオフラインで実行される。

ステップＳ１において、語句抽出部３１は、文書群から語句を抽出する。具体的には、語句抽出部３１は、各所から複数の文書を取得する。図３は、語句抽出部３１が取得する文書の一例を示している。

語句抽出部３１は、所定の手法を用いて、取得した文書群から語句を抽出する。なお、語句の抽出方法には、形態素解析等の任意の方法を採用することができる。

また、語句抽出部３１は、所定のルールに従って、抽出した語句の絞り込みを行う。例えば、語句抽出部３１は、特定の品詞の語句やストップワード等の検索対象から除外する語句を、抽出した語句の中から除去する。語句抽出部３１は、語句の抽出結果及び文書群を特徴抽出部３２に供給する。

ステップＳ２において、特徴抽出部３２は、各語句の特徴量（以下、語句特徴量と称する）を抽出する。例えば、特徴抽出部３２は、特徴量の抽出対象となる語句（以下、抽出対象語句と称する）が抽出された文書において、抽出対象語句の近傍にある語句を語句特徴量として抽出する。より具体的には、例えば、特徴抽出部３２は、抽出対象語句が抽出された文書から抽出された語句のうち、抽出対象語句を中心にして前後ｎ個（例えばｎ＝１０）の範囲内にある２ｎ個の語句を、抽出対象語句の語句特徴量として抽出する。或いは、例えば、抽出対象語句と同じ文書から抽出された語句を全て抽出対象語句の語句特徴量とするようにしてもよい。

なお、他にも、各語句の特徴、抽出元の文書の特徴、各語句が抽出された部分の文脈の特徴等を表す任意の特徴量を語句特徴量として採用することが可能である。例えば、文書の作者、種類、タイトル、文書が存在するサイト、文書を過去に閲覧したユーザ（のユーザＩＤ）等を語句特徴量として採用することが可能である。なお、以下では、上述した各語句の近傍にある語句を語句特徴量として抽出する場合について説明する。

ステップＳ３において、特徴抽出部３２は、各語句及び特徴量（語句特徴量）を語句特徴量ＤＢ３３に格納する。

図４は、語句特徴量ＤＢ３３の構成例を示している。この語句特徴量ＤＢ３３は、語句出現位置ＩＤ、語句、及び、語句特徴量の３つの項目（フィールド）を含む。

語句出現位置ＩＤのフィールドには、各語句を出現位置により識別するための識別情報である語句出現位置ＩＤが登録される。すなわち、この語句出現位置ＩＤにより、各語句が出現した文書及びその文書内の位置を認識することができる。また、この語句出現位置ＩＤにより、同じ表記の語句を区別してそれぞれ異なる語句として扱うことが可能になる。

語句のフィールドには、各語句の具体的な内容が登録される。

語句特徴量のフィールドには、各語句の語句特徴量の具体的な内容が登録される。

図４の例では、例えば、語句出現位置ＩＤ"12454"の語句"Michael"の語句特徴量として、"drama", "actor", "TV",…が登録され、語句出現位置ＩＤ"15635"の語句"Mike"の語句特徴量として、"star", "perform", "character",…が登録されている。また、同じ表記の語句（例えば、"Michael"、"Mike"）が区別され、それぞれ異なる語句として登録されている。

ステップＳ４において、クラスタリング部３４は、各語句のクラスタリングを行い、各語句の各クラスタへの帰属度を求める。具体的には、クラスタリング部３４は、例えば、Fuzzy c-means法やPLSA（Probabilistic Latent Semantic Analysis：確率的潜在意味解析）などのソフトクラスタリングの手法を用いて、各語句の語句特徴量に基づいて、各語句の所定の２以上のクラスタへの帰属度を算出する。なお、クラスタの数や種類は、実験等により予め設定される。

そして、クラスタリング部３４は、各語句の各クラスタへの帰属度をベクトル化した帰属度ベクトルを求める。すなわち、帰属度ベクトルは、各語句の各クラスタへの帰属度を成分とするベクトルである。また、各帰属度ベクトルは、例えば、各成分の値を足しあわせた値が１になるように正規化される。

ステップＳ５において、クラスタリング部３４は、クラスタリングの結果をクラスタリング結果ＤＢ３５に格納する。すなわち、クラスタリング部３４は、各語句の帰属度ベクトルをクラスタリング結果ＤＢ３５に格納する。

図５は、クラスタリング結果ＤＢ３５の構成例を示している。このクラスタリング結果ＤＢ３５は、語句出現位置ＩＤ、語句、及び、語句特徴量の３つの項目（フィールド）を含む。

語句出現位置ＩＤのフィールドには、図４の語句特徴量ＤＢ３３と同様に、語句出現位置ＩＤが登録される。

語句のフィールドには、図４の語句特徴量ＤＢ３３と同様に、各語句の具体的な内容が登録される。

語句特徴量のフィールドには、各語句の帰属度ベクトルが登録される。なお、この例では、各帰属度ベクトルの成分のうち、値が最大となる成分を太字で示している。

図５の例では、例えば、語句出現位置ＩＤ"15816"の語句"stadium"の帰属度ベクトルとして、（0.62, 0.05, 0.12, …）が登録され、語句出現位置ＩＤ"73525"の語句"Michael"の帰属度ベクトルとして、（0.74, 0.02, 0.17, …）が登録されている。また、同じ表記の語句（例えば、"Michael"）が区別され、それぞれ異なる語句として登録されている。

その後、語句データ収集処理は終了する。

（関連語句検索処理の第１の実施の形態）
次に、図６のフローチャートを参照して、情報処理装置１１により実行される関連語句検索処理の第１の実施の形態について説明する。なお、この処理は、例えば、関連語句の検索対象となる入力語句が関連語句抽出部３６に与えられたとき開始される。

ステップＳ１０１において、関連語句抽出部３６は、入力語句に対する帰属度ベクトルを求める。具体的には、関連語句抽出部３６は、入力語句と同じ表記の語句が登録されているレコードをクラスタリング結果ＤＢ３５から抽出する。関連語句抽出部３６は、抽出したレコードに含まれる帰属度ベクトルを足し合わせるとともに、足し合わせたベクトルを大きさが１になるように正規化することにより、入力語句に対する帰属度ベクトを算出する。すなわち、算出した帰属度ベクトルは、入力語句と同じ表記の語句の帰属度ベクトルを平均化したベクトルとなる。

ステップＳ１０２において、関連語句抽出部３６は、入力語句を用いて所定のフィルタリングを行い、関連語句候補を抽出する。具体的には、例えば、関連語句抽出部３６は、入力語句と同じ表記の語句と同じ文書から抽出された語句を関連語句候補として抽出する。或いは、例えば、関連語句抽出部３６は、入力語句と同じ表記の語句を語句特徴量に含む語句を関連語句候補として語句特徴量ＤＢ３３から抽出する。そして、関連語句抽出部３６は、抽出した関連語句候補が登録されているレコードをクラスタリング結果ＤＢ３５から抽出する。

ステップＳ１０３において、関連語句抽出部３６は、入力語句との類似度に基づいて、各関連語句候補のスコアを算出する。例えば、関連語句抽出部３６は、各関連語句候補の入力語句との類似度として、各関連語句候補の帰属度ベクトルと入力語句に対する帰属度ベクトルとの内積を算出し、各関連語句候補のスコアに設定する。

図７の上には、入力語句が"Michael"の場合に、帰属度ベクトルの内積により各関連語句候補のスコアを算出した例が示されている。例えば、語句出現位置ＩＤが"15816"の関連語句候補"stadium"のスコアは0.21となり、語句出現位置ＩＤが"74789"の関連語句候補"Mike"のスコアは0.26となっている。

ステップＳ１０４において、関連語句抽出部３６は、算出したスコアに基づいて関連語句を抽出する。例えば、関連語句抽出部３６は、関連語句候補の中からスコアが所定の閾値以上の語句を関連語句として抽出する。或いは、例えば、関連語句抽出部３６は、関連語句候補の中からスコアが高いものから順に所定の数の語句を関連語句として抽出する。そして、関連語句抽出部３６は、関連語句の抽出結果を出力部３７に供給する。この抽出結果には、例えば、入力語句、関連語句、関連語句の語句出現位置ＩＤ、帰属度ベクトル及びスコアが含まれる。

例えば、図７の下には、上のスコアの算出結果に基づいて抽出された関連語句の例が示されている。具体的には、語句出現位置ＩＤ"92467"の語句"Mike"、語句出現位置ＩＤ"16357"の語句"drama"、語句出現位置ＩＤ"28479"の語句"Mike"、語句出現位置ＩＤ"74789"の語句"Mike"、語句出現位置ＩＤ"25736"の語句"actor"が、関連語句として抽出されている。また、各関連語句のスコア及び帰属度ベクトルが検索結果に含まれている。

ステップＳ１０５において、出力部３７は、関連語句を出力する。すなわち、出力部３７は、関連語句抽出部３６により抽出された関連語句とともに、入力語句、各関連語句の語句出現位置ＩＤ、帰属度ベクトル及びスコアをアプリケーション部２２に出力する。

その後、関連語句検索処理は終了する。

以上のようにして、入力語句に関連する関連語句を検索することができる。また、同じ表記の関連語句を区別してそれぞれ異なる語句として検索することができる。従って、関連語句の検索結果を利用する後段のシステム（例えば、アプリケーション部２２）において、検索結果の利便性が向上する。例えば、同じ表記の関連語句を異なる語句として扱うことも、同じ語句として扱うことも可能になる。また、例えば、帰属度ベクトルや語句特徴量を用いることにより、各関連語句がどのような文脈で用いられる語句であるかを区別して扱うことが可能になる。その結果、例えば、後段のシステムにおける処理のバリエーションを増やしたり、処理の精度を向上させたりすることができる。

（関連語句検索処理の第２の実施の形態）
次に、図８のフローチャートを参照して、情報処理装置１１により実行される関連語句検索処理の第２の実施の形態について説明する。この第２の実施の形態は、複数の語句を含む入力語句群に対する関連語句を抽出できるようにするものである。

なお、この処理は、例えば、入力語句群が関連語句抽出部３６に与えられたとき開始される。

ステップＳ１３１において、関連語句抽出部３６は、各入力語句に対する帰属度ベクトルを求める。すなわち、関連語句抽出部３６は、入力語句群に含まれる各入力語句に対して、図６のステップＳ１０１と同様の処理により、帰属度ベクトルを求める。

ステップＳ１３２において、関連語句抽出部３６は、入力語句群に対する帰属度ベクトルを求める。例えば、関連語句抽出部３６は、ステップＳ１３１の処理で求めた各入力語句の帰属度ベクトルを足し合わせ、さらに正規化することにより、入力語句群（すなわち、入力語句全体）に対する帰属度ベクトルを求める。この帰属度ベクトルは、特に入力語句群のいずれかの語句が有する特徴を表すベクトルとなる。

或いは、例えば、関連語句抽出部３６は、ステップＳ１３１の処理で求めた各入力語句の帰属度ベクトルを対応する成分毎に掛け合わせ、さらに正規化することにより、入力語句群（すなわち、入力語句全体）に対する帰属度ベクトルを求める。この帰属度ベクトルは、特に入力語句群の全ての語句が共通に有する特徴を表すベクトルとなる。

ステップＳ１３３において、関連語句抽出部３６は、入力語句群を用いて所定のフィルタリングを行い、関連語句候補を抽出する。具体的には、例えば、関連語句抽出部３６は、入力語句群のいずれかの語句と同じ表記の語句と同じ文書から抽出された語句を関連語句候補として抽出する。或いは、例えば、関連語句抽出部３６は、入力語句群のいずれかの語句と同じ表記の語句を語句特徴量に含む語句を関連語句候補として語句特徴量ＤＢ３３から抽出する。そして、関連語句抽出部３６は、抽出した関連語句候補が登録されているレコードをクラスタリング結果ＤＢ３５から抽出する。

ステップＳ１３４において、関連語句抽出部３６は、入力語句群との類似度に基づいて、各関連語句候補のスコアを算出する。例えば、関連語句抽出部３６は、各関連語句候補の入力語句群との類似度として、各関連語句候補の帰属度ベクトルと入力語句群に対する帰属度ベクトルとの内積を算出し、各関連語句候補のスコアに設定する。

ステップＳ１３５及びステップＳ１３６において、図６のステップＳ１０４及びステップＳ１０５と同様の処理が実行される。

その後、関連語句検索処理は終了する。

このようにして、複数の入力語句に関連する関連語句を検索することができる。また、同じ表記の関連語句を区別してそれぞれ異なる語句として検索することができる。

（関連語句検索処理の第３の実施の形態）
次に、図９のフローチャートを参照して、情報処理装置１１により実行される関連語句検索処理の第３の実施の形態について説明する。この第３の実施の形態は、同じ表記の関連語句をまとめて出力するようにするものである。

なお、この処理は、例えば、入力語句が関連語句抽出部３６に与えられたとき開始される。

ステップＳ１６１乃至Ｓ１６４において、図６のステップＳ１０１乃至Ｓ１０４と同様の処理が実行される。これにより、入力語句に対する関連語句が抽出される。

ステップＳ１６５において、出力部３７は、同じ表記の関連語句をまとめる。具体的には、出力部３７は、抽出された関連語句のうち同じ表記の関連語句のスコアを足し合わせることにより、その表記の関連語句全体のスコア（以下、合成スコアと称する）を算出する。

また、出力部３７は、抽出された関連語句のうち同じ表記の関連語句の帰属度ベクトルの各成分を、スコアに応じて重み付けて足し合わせることにより、その表記の関連語句全体の帰属度ベクトル（以下、合成帰属度ベクトルと称する）を生成する。

図１０は、同じ表記の関連語句をまとめた結果の例を示している。図１０のスコアの算出結果と関連語句の検索結果の例は、図７の例と同様であり、関連語句の検索結果には、同じ表記の語句である"Mike"が３つ含まれている。

従って、この３つの"Mike"が１つにまとめられる。すなわち、３つの"Mike"のスコアを足し合わせた値（0.34＋0.29＋0.26＝0.89）が、"Mike"全体に対する合成スコアとして求められる。また、３つの"Mike"の帰属度ベクトルの各成分を、スコアに応じて重み付けて足し合わせることにより、"Mike"全体に対する合成帰属度ベクトルが生成される。例えば、"Mike"全体に対する合成帰属度ベクトルの第１成分の値は、0.34×0.12＋0.29×0.16＋0.26×0.82＝0.30となる。これにより、図１０の右下に示されるように、３つの"Mike"を１つにまとめた関連語句の検索結果を得ることができる。

ステップＳ１６６において、出力部３７は、関連語句を出力する。すなわち、出力部３７は、同じ表記の語句をまとめた後の関連語句とともに、入力語句、各関連語句の語句出現位置ＩＤ、帰属度ベクトル（又は合成帰属度ベクトル）及びスコア（又は合成スコア）をアプリケーション部２２に出力する。

その後、関連語句検索処理は終了する。

このように、同じ表記の関連語句を区別せずに、まとめて出力することも可能である。

なお、図８の関連語句検索処理においても、同じ表記の関連語句をまとめて出力することも可能である。

次に、関連語句の検索結果を利用した処理について説明する。

（類義語抽出処理）
まず、図１１のフローチャートを参照して、情報処理装置１１により実行される類義語抽出処理について説明する。

なお、この処理は、例えば、類義語の検索対象となる入力語句が関連語句抽出部３６に与えられたとき開始される。また、この処理において、類義語は、同義語を含む概念であり、１つの単語だけでなく、複数の単語を組み合わせた句（フレーズ）等も含む。

ステップＳ２０１において、図６又は図９を参照して上述した関連語句検索処理が実行され、入力語句の関連語句が検索される。そして、入力語句の関連語句の検索結果が出力部３７からアプリケーション部２２の類義語抽出部４１に供給される。

ステップＳ２０２において、類義語抽出部４１は、図９のステップＳ１６５と同様の処理により、同じ表記の関連語句をまとめる。これにより、同じ表記の関連語句全体の合成スコアと合成帰属度ベクトルが求められる。そして、以降の処理で、同じ表記の関連語句を１つの語句にまとめた状態で類義語の抽出が行われる。

なお、ステップＳ２０１において、図９の関連語句検索処理が実行され、すでに同じ表記の関連語句がまとめられている場合、ステップＳ２０２の処理を省略することができる。

ステップＳ２０３において、類義語抽出部４１は、スコアに基づいて、関連語句の中から類義語を抽出する。具体的には、類義語抽出部４１は、例えば、スコア（同じ表記の語句をまとめた関連語句については合成スコア）が一定以上の関連語句を入力語句の類義語として抽出する。

例えば、図１２は、入力語句"Michael"の類義語を抽出する場合の例を示している。なお、図１２の上の関連語句をまとめた結果は、図１０の例と同じものである。そして、この例において、スコア又は合成スコアが一定以上である"Mike"が、入力語句"Michael"の類義語として抽出される。

ステップＳ２０４において、類義語抽出部４１は、抽出した類義語を、帰属度ベクトルの成分の値に基づいて分ける。具体的には、類義語抽出部４１は、抽出した各類義語について、対応する帰属度ベクトル（同じ表記の語句をまとめた類義語については合成帰属度ベクトル）が、所定の閾値以上となる成分を複数含んでいるか否かを調べる。そして、類義語抽出部４１は、所定の閾値以上の成分を複数含む帰属度ベクトル又は合成帰属度ベクトルを有する類義語については、閾値以上の各成分に対応するクラスタ毎に類義語を分ける。すなわち、類義語抽出部４１は、抽出した類義語のうち複数のクラスタに属する可能性の高い類義語を、それらのクラスタ毎に異なる類義語として区別する。

例えば、図１２の例において、入力語句"Michael"の類義語として抽出された"Mike"の合成帰属度ベクトルにおいて、２つの成分が高い値（0.30及び0.43）を示している。例えば、この２つの成分に対応するクラスタが野球及び映画である場合、野球選手の"Mike"と俳優の"Mike"の２つの類義語に分けることができる。

ステップＳ２０５において、類義語抽出部４１は、抽出した類義語を類義語辞書（不図示）に登録する。すなわち、類義語抽出部４１は、抽出した類義語を入力語句の類義語として類義語辞書に登録する。このとき、ステップＳ２０３の処理で複数に分けられた同じ表記の類義語は、それぞれ異なる類義語として登録される。

その後、類義語抽出処理は終了する。

このようにして、入力語句の類義語を抽出し、類義語辞書に登録することができる。また、同じ表記で属するカテゴリが異なる類義語（例えば、互いに意味が異なる類義語）を、それぞれ異なる類義語として抽出することができる。

（推薦処理）
次に、図１３のフローチャートを参照して、情報処理装置１１により実行される推薦処理について説明する。

なお、この処理は、例えば、アプリケーション部２２の推薦部４２に、アイテムの推薦の指令が入力されたとき開始される。

ステップＳ２３１において、推薦部４２は、ユーザに推薦するアイテムを抽出する。なお、推薦アイテムを抽出する手法には、任意の手法を採用することが可能である。

ステップＳ２３２において、情報処理装置１１は、推薦するアイテムに関するキーワードの関連語句を検索する。具体的には、例えば、推薦部４２は、推薦アイテムの抽出に用いたキーワードを入力語句として関連語句抽出部３６に与える。

このキーワードは、例えば、推薦アイテムを抽出する際に条件として明示的にユーザにより与えられたキーワードとされる。或いは、このキーワードは、例えば、推薦アイテムの抽出処理において、ユーザの嗜好を表すものとして抽出されたキーワードとされる。なお、キーワードの数は１つでも、複数でもよい。また、キーワードは１つの単語でもよいし、複数の単語を組み合わせた句でもよい。

そして、与えられたキーワードが１つの場合、図６を参照して上述した関連語句検索処理が実行され、与えられたキーワードが複数の場合、図８を参照して上述した関連語句検索処理が実行される。これにより、与えられたキーワードに対する関連語句が検索され、検索結果が出力部３７からアプリケーション部２２の推薦部４２に供給される。

ステップＳ２３３において、推薦部４２は、推薦アイテムをキーワードの関連語句とともに提示する。例えば、推薦部４２は、検索されたキーワードの関連語句の語句特徴量（すなわち、関連語句の抽出元の文書における関連語句の近傍の語句）を語句特徴量ＤＢ３３から読み出す。そして、推薦部４２は、読み出した語句特徴量に基づいて、検索された関連語句の中からユーザの嗜好に近い語句を抽出する。また、推薦部４２は、推薦アイテム、キーワード、抽出した関連語句、及び、関連語句の語句特徴量を含む情報を、例えば、ユーザが利用するクライアント（不図示）に送信する。

そして、例えば、図１４に示されるように、ユーザが利用するクライアントにおいて、推薦アイテムとともに、抽出した関連語句及びその語句特徴量が提示される。なお、図１４の左は、俳優のMichaelが好きなユーザＡにテレビ番組を推薦する場合の提示画面の例を示し、右は、野球選手のMichaelが好きなユーザＢにテレビ番組を推薦する場合の提示画面の例を示している。

すなわち、ユーザＡに対しては、俳優のMichaelに関連するテレビ番組が推薦される。また、俳優のMichaelに対する関連語句"Mike"及びその語句特徴量が、ユーザＡが興味を持つ可能性があるキーワード及び推薦理由として提示される。

一方、ユーザＢに対しては、野球選手のMichaelに関連するテレビ番組が推薦される。また、野球選手のMichaelに対する関連語句"Mike"及びその語句特徴量が、ユーザＢが興味を持つ可能性があるキーワード及び推薦理由として提示される。

このように、情報処理装置１１では、同じ表記の関連語句を区別して扱うことができるため、同じ表記の関連語句"Mike"だけでなく、各ユーザの嗜好に応じて、"Mike"の意味やコンテキスト等を表す他のキーワードを提示することが可能になる。

なお、キーワードに対する関連語句の語句特徴量を提示せずに、キーワードに対する関連語句を複数提示するようにしてもよい。すなわち、例えば、図１４の例において、キーワード"Michael"に対する関連語句を複数提示するようにしてもよい。この場合も、同じ表記のキーワードを区別して扱うことができるため、同じ表記のキーワードに対して、ユーザの嗜好に応じて異なる関連語句を提示することができる。

（特徴量拡充処理）
次に、図１５のフローチャートを参照して、情報処理装置１１により実行される特徴量拡充処理について説明する。

ユーザにアイテムを推薦する場合、例えば、図１６に示されるように、ユーザの嗜好を表すUP（User preference）と各アイテムの特徴を表すCP（Content Profile）の類似度が算出され、類似度が大きいアイテムが推薦される。ここで、図１６のUP及びCPの四角の各マスは特徴量を示しており、各特徴量はキーワード等により構成される。そして、この処理は、このCP又はUPの特徴量を構成するキーワードを、関連語句を用いて拡張するものである。

ステップＳ２６１において、情報処理装置１１は、キーワードの関連語句を検索する。具体的には、推薦部４２は、拡張対象となるUP又はCPを１つ選択する。また、推薦部４２は、選択したUP又はCPの特徴量に含まれるキーワードを１つ又は複数選択し、選択したキーワードを入力語句として関連語句抽出部３６に与える。

ステップＳ２６２において、推薦部４２は、特徴量を拡充する。例えば、推薦部４２は、検索されたキーワードの関連語句の語句特徴量（すなわち、関連語句の抽出元の文書における関連語句の近傍の語句）を語句特徴量ＤＢ３３から読み出す。

次に、推薦部４２は、UPを拡充する場合、読み出した語句特徴量に基づいて、検索された関連語句の中からユーザの嗜好に近い語句を抽出する。一方、推薦部４２は、CPを拡充する場合、読み出した語句特徴量に基づいて、検索された関連語句の中からアイテムの特徴に近い語句を抽出する。

そして、推薦部４２は、抽出した関連語句及びその語句特徴量をUP又はCPに追加する。

例えば、図１７の例の場合、まず、UP又はCPの特徴量に含まれるキーワード"Michael"の関連語句が検索される。次に、検索された関連語句の語句特徴量が読み出される。次に、語句特徴量に基づいて、検索された関連語句の中からUP又はCPに追加する関連語句が抽出される。そして、抽出した関連語句及びその語句特徴量がUP又はCPに追加され、UP又はCPが拡張される。そして、この処理が、拡張対象となるUP又はCPの全ての特徴量について行われ、UP又はCPが拡張される。

例えば、従来の技術では、同じキーワードに対して同じ関連語句しかUP又はCPに追加することができなかった。これに対して、情報処理装置１１では、同じ表記の関連語句を区別することができ、同じ表記の関連語句の中から適切な関連語句を選択し、関連語句及びその語句特徴量をUP又はCPに追加することができる。従って、より効果的かつ広範にUP又はCPを拡張することができる。その結果、アイテムの推薦精度を向上させることができる。

なお、関連語句の語句特徴量を追加せずに、複数の関連語句のみをUP又はCPに追加するようにしてもよい。この場合も、同じ表記のキーワードを区別して扱うことができるため、同じ表記のキーワードに対して、UP又はCPの特徴に応じた異なる関連語句を追加することができる。

＜２．変形例＞
以下、上述した本技術の実施の形態の変形例について説明する。

以上の説明では、関連語句の検索結果として、関連語句とともに、入力語句、各関連語句の語句出現位置ＩＤ、帰属度ベクトル及びスコアを出力部３７から出力する例を示したが、入力語句、帰属度ベクトル及びスコアは、後段の処理で必要がない場合は、それぞれ適宜省略することが可能である。

また、例えば、帰属度ベクトルの代わりに、帰属度ベクトルの成分が所定の閾値以上の成分に対応するクラスタ、すなわち、関連語句が属する可能性が高いクラスタを示す情報を出力するようにしてもよい。

さらに、例えば、関連語句の語句特徴量を出力部３７から出力するようにしてもよい。

また、検索処理部２１とアプリケーション部２２は、必ずしも同じ装置内に設ける必要はなく、異なる装置に設けることも可能である。

さらに、以上の説明では、英語の文書の処理を行う場合の例を示したが、本技術は、日本語等の他の任意の言語の文書の処理を行う場合にも適用することが可能である。

［コンピュータの構成例］
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、例えば、本技術は以下のような構成も取ることができる。

（１）
複数の文書から複数の語句を抽出する語句抽出部と、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部と
を備える情報処理装置。
（２）
前記出力部は、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力する
前記（１）に記載の情報処理装置。
（３）
同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部を
さらに備える前記（２）に記載の情報処理装置。
（４）
前記類義語抽出部は、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分ける
前記（３）に記載の情報処理装置。
（５）
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、推薦するアイテムに関するキーワードの関連語句を抽出し、
前記推薦部は、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示する
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記推薦部は、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示する
前記（５）に記載の情報処理装置。
（７）
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出し、
前記推薦部は、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加する
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記推薦部は、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加する
前記（７）に記載の情報処理装置。
（９）
前記関連語句抽出部は、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出する
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表す
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含む
前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む情報処理方法。
（１３）
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む処理をコンピュータに実行させるためのプログラム。

１１情報処理装置，２１検索処理部，２２アプリケーション部，３１語句抽出部，３２特徴抽出部，３３語句特徴量ＤＢ，３４クラスタリング部，３５クラスタリング結果ＤＢ，３６関連語句抽出部，３７出力部，４１類語語抽出部，４２推薦部

Claims

複数の文書から複数の語句を抽出する語句抽出部と、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部と
を備える情報処理装置。
前記出力部は、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力する
請求項１に記載の情報処理装置。
同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部を
さらに備える請求項２に記載の情報処理装置。
前記類義語抽出部は、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分ける
請求項３に記載の情報処理装置。
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、推薦するアイテムに関するキーワードの関連語句を抽出し、
前記推薦部は、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示する
請求項１に記載の情報処理装置。
前記推薦部は、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示する
請求項５に記載の情報処理装置。
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出し、
前記推薦部は、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加する
請求項１に記載の情報処理装置。
前記推薦部は、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加する
請求項７に記載の情報処理装置。
前記関連語句抽出部は、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出する
請求項１に記載の情報処理装置。
前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表す
請求項１に記載の情報処理装置。
前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含む
請求項１に記載の情報処理装置。
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む情報処理方法。
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の２以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む処理をコンピュータに実行させるためのプログラム。