JP2015036892A - 情報処理装置、情報処理方法、及び、プログラム - Google Patents
情報処理装置、情報処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP2015036892A JP2015036892A JP2013168259A JP2013168259A JP2015036892A JP 2015036892 A JP2015036892 A JP 2015036892A JP 2013168259 A JP2013168259 A JP 2013168259A JP 2013168259 A JP2013168259 A JP 2013168259A JP 2015036892 A JP2015036892 A JP 2015036892A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- phrases
- extracted
- unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】関連語句の検索結果の利便性を向上させる。
【解決手段】情報処理装置は、複数の文書から複数の語句を抽出する語句抽出部と、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、与えられた入力語句と帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、関連語句及び関連語句を識別するための識別情報を出力する出力部とを備える。本技術は、例えば、関連語句の検索を行うシステムに適用できる。
【選択図】図1
【解決手段】情報処理装置は、複数の文書から複数の語句を抽出する語句抽出部と、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、与えられた入力語句と帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、関連語句及び関連語句を識別するための識別情報を出力する出力部とを備える。本技術は、例えば、関連語句の検索を行うシステムに適用できる。
【選択図】図1
Description
本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、関連語句の検索を行う情報処理装置、情報処理方法、及び、プログラムに関する。
従来、コンテンツに付与されているメタデータに基づいて、ユーザの嗜好に合うコンテンツを検索して推薦する技術が知られている(例えば、特許文献1参照)。このような推薦技術では、例えば、各語句の特徴を表す特徴量ベクトルの類似度に基づいて、メタデータに含まれる語句に関連する関連語句を検索することが行われる。
しかしながら、従来の技術では、複数の意味を有していても同じ表記の語句は1つの語句として扱われる。そのため、例えば、メタデータに関連する語句として検索された関連語句が、ユーザの嗜好に合う意味と嗜好に合わない意味を含んでいたとしても、それらを区別して処理することができない。
そこで、本技術は、関連語句の検索結果の利便性を向上させるようにするものである。
本技術の一側面の情報処理装置は、複数の文書から複数の語句を抽出する語句抽出部と、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部とを備える。
前記出力部には、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力させることができる。
同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部をさらに設けることができる。
前記類義語抽出部には、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分けさせることができる。
ユーザにアイテムを推薦する推薦部をさらに設け、前記関連語句抽出部には、推薦するアイテムに関するキーワードの関連語句を抽出させ、前記推薦部には、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示させることができる。
前記推薦部には、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示させることができる。
ユーザにアイテムを推薦する推薦部をさらに設け、前記関連語句抽出部には、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出させ、前記推薦部には、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加させることができる。
前記推薦部には、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加させることができる。
前記関連語句抽出部には、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出させることができる。
前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表すようにすることができる。
前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含むようにすることができる。
本技術の一側面の情報処理方法は、複数の文書から複数の語句を抽出する語句抽出ステップと、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップとを含む。
本技術の一側面のプログラムは、複数の文書から複数の語句を抽出する語句抽出ステップと、抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップとを含む処理をコンピュータに実行させる。
本技術の一側面においては、複数の文書から複数の語句が抽出され、抽出された各語句の特徴量の抽出が同じ表記の語句を区別したまま行われ、抽出された各語句のクラスタリングが同じ表記の語句を区別したまま行われ、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルが算出され、与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出が同じ表記の語句を区別したまま行われ、前記関連語句及び前記関連語句を識別するための識別情報が出力される。
本技術の一側面によれば、同じ表記の語句を区別して関連語句の検索を行うことができる。その結果、関連語句の検索結果の利便性が向上する。
以下、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
1.実施の形態
2.変形例
<1.実施の形態>
[情報処理装置11の構成例]
図1は、本技術を適用した情報処理装置11の一実施の形態を示すブロック図である。
[情報処理装置11の構成例]
図1は、本技術を適用した情報処理装置11の一実施の形態を示すブロック図である。
情報処理装置11は、複数の文書を含む文書群から抽出した複数の語句をクラスタリングして保持する。また、情報処理装置11は、保持している語句の中から、与えられた入力語句に関連するする関連語句を検索する。さらに、情報処理装置11は、関連語句の検索結果を用いて、各種の処理を行う。
なお、情報処理装置11の処理対象となる語句は、文字や記号等からなる語句であり、1つの単語だけではなく、複数の単語を組み合わせた句(フレーズ)等も含む。
情報処理装置11は、検索処理部21及びアプリケーション部22を含むように構成される。
検索処理部21は、文書群から抽出した語句をクラスタリングして保持し、保持している語句の中から、入力語句に関連する関連語句を検索し、その検索結果をアプリケーション部22に出力する。
検索処理部21は、語句抽出部31、特徴抽出部32、語句特徴量データベース(DB)33、クラスタリング部34、クラスタリング結果データベース(DB)35、関連語句抽出部36、及び、出力部37を含むように構成される。
語句抽出部31は、文書群に含まれる語句を抽出し、語句の抽出結果と抽出元の文書群を特徴抽出部32に供給する。なお、語句抽出部31の語句の抽出対象となる文書は、特に限定されるものではなく、例えば、インターネット上のサイト等に入手可能な状態で公開されている各種の文書とされる。
特徴抽出部32は、語句抽出部31により抽出された各語句の特徴量を求め、各語句及び特徴量を語句特徴量DB33に格納する。
クラスタリング部34は、語句特徴量DB33に格納されている各語句のクラスタリングを行う。そして、クラスタリング部34は、各語句の所定の2以上のクラスタへの帰属度からなる帰属度ベクトルを算出し、クラスタリング結果DB35に格納する。
関連語句抽出部36は、クラスタリング結果DB35を用いて、入力語句又は複数の入力語句を含む入力語句群に関連する関連語句を抽出し、出力部37に供給する。
出力部37は、抽出された関連語句群を含む関連語句の検索結果をアプリケーション部22に出力する。
なお、後述するように、検索処理部21の各部は、同じ表記の語句をそれぞれ区別して異なる語句として扱う。
アプリケーション部22は、後述するように、関連語句の検索結果、及び、語句特徴量DB33を用いて各種の処理を行う。アプリケーション部22は、類義語抽出部41及び推薦部42を含むように構成される。
類義語抽出部41は、関連語句の検索結果に基づいて、ある語句に対する類義語の抽出を行い、類義語辞書に登録する。
推薦部42は、図示せぬインターネット等のネットワークを介して、ユーザが利用するクライアントに対してアイテムの推薦を行う。また、推薦部42は、検索処理部21による関連語句の検索結果を利用して、推薦アイテムとともに関連するキーワードを提示したり、アイテム及びユーザの特徴量の拡張を行ったりする。
なお、推薦部42が推薦するアイテムは、特定の種類に限定されるものではない。例えば、動画、静止画、書籍、文書、楽曲、テレビジョン番組、ソフトウエア、ニュース記事、ブログ記事、マイクロブログ文、情報などの各種のコンテンツや商品、並びに、コミュニティサイトのユーザ、コミュニティ等が想定される。
[情報処理装置11の処理]
次に、情報処理装置11の処理について説明する。なお、以下では、説明を分かりやすくするために、情報処理装置11が扱う語句が、基本的に1つの単語により構成される場合について説明する。
次に、情報処理装置11の処理について説明する。なお、以下では、説明を分かりやすくするために、情報処理装置11が扱う語句が、基本的に1つの単語により構成される場合について説明する。
(語句データ収集処理)
まず、図2のフローチャートを参照して、情報処理装置11により実行される語句データ収集処理について説明する。なお、この処理は、例えば、定期的にオフラインで実行される。
まず、図2のフローチャートを参照して、情報処理装置11により実行される語句データ収集処理について説明する。なお、この処理は、例えば、定期的にオフラインで実行される。
ステップS1において、語句抽出部31は、文書群から語句を抽出する。具体的には、語句抽出部31は、各所から複数の文書を取得する。図3は、語句抽出部31が取得する文書の一例を示している。
語句抽出部31は、所定の手法を用いて、取得した文書群から語句を抽出する。なお、語句の抽出方法には、形態素解析等の任意の方法を採用することができる。
また、語句抽出部31は、所定のルールに従って、抽出した語句の絞り込みを行う。例えば、語句抽出部31は、特定の品詞の語句やストップワード等の検索対象から除外する語句を、抽出した語句の中から除去する。語句抽出部31は、語句の抽出結果及び文書群を特徴抽出部32に供給する。
ステップS2において、特徴抽出部32は、各語句の特徴量(以下、語句特徴量と称する)を抽出する。例えば、特徴抽出部32は、特徴量の抽出対象となる語句(以下、抽出対象語句と称する)が抽出された文書において、抽出対象語句の近傍にある語句を語句特徴量として抽出する。より具体的には、例えば、特徴抽出部32は、抽出対象語句が抽出された文書から抽出された語句のうち、抽出対象語句を中心にして前後n個(例えばn=10)の範囲内にある2n個の語句を、抽出対象語句の語句特徴量として抽出する。或いは、例えば、抽出対象語句と同じ文書から抽出された語句を全て抽出対象語句の語句特徴量とするようにしてもよい。
なお、他にも、各語句の特徴、抽出元の文書の特徴、各語句が抽出された部分の文脈の特徴等を表す任意の特徴量を語句特徴量として採用することが可能である。例えば、文書の作者、種類、タイトル、文書が存在するサイト、文書を過去に閲覧したユーザ(のユーザID)等を語句特徴量として採用することが可能である。なお、以下では、上述した各語句の近傍にある語句を語句特徴量として抽出する場合について説明する。
ステップS3において、特徴抽出部32は、各語句及び特徴量(語句特徴量)を語句特徴量DB33に格納する。
図4は、語句特徴量DB33の構成例を示している。この語句特徴量DB33は、語句出現位置ID、語句、及び、語句特徴量の3つの項目(フィールド)を含む。
語句出現位置IDのフィールドには、各語句を出現位置により識別するための識別情報である語句出現位置IDが登録される。すなわち、この語句出現位置IDにより、各語句が出現した文書及びその文書内の位置を認識することができる。また、この語句出現位置IDにより、同じ表記の語句を区別してそれぞれ異なる語句として扱うことが可能になる。
語句のフィールドには、各語句の具体的な内容が登録される。
語句特徴量のフィールドには、各語句の語句特徴量の具体的な内容が登録される。
図4の例では、例えば、語句出現位置ID"12454"の語句"Michael"の語句特徴量として、"drama", "actor", "TV",…が登録され、語句出現位置ID"15635"の語句"Mike"の語句特徴量として、"star", "perform", "character",…が登録されている。また、同じ表記の語句(例えば、"Michael"、"Mike")が区別され、それぞれ異なる語句として登録されている。
ステップS4において、クラスタリング部34は、各語句のクラスタリングを行い、各語句の各クラスタへの帰属度を求める。具体的には、クラスタリング部34は、例えば、Fuzzy c-means法やPLSA(Probabilistic Latent Semantic Analysis:確率的潜在意味解析)などのソフトクラスタリングの手法を用いて、各語句の語句特徴量に基づいて、各語句の所定の2以上のクラスタへの帰属度を算出する。なお、クラスタの数や種類は、実験等により予め設定される。
そして、クラスタリング部34は、各語句の各クラスタへの帰属度をベクトル化した帰属度ベクトルを求める。すなわち、帰属度ベクトルは、各語句の各クラスタへの帰属度を成分とするベクトルである。また、各帰属度ベクトルは、例えば、各成分の値を足しあわせた値が1になるように正規化される。
ステップS5において、クラスタリング部34は、クラスタリングの結果をクラスタリング結果DB35に格納する。すなわち、クラスタリング部34は、各語句の帰属度ベクトルをクラスタリング結果DB35に格納する。
図5は、クラスタリング結果DB35の構成例を示している。このクラスタリング結果DB35は、語句出現位置ID、語句、及び、語句特徴量の3つの項目(フィールド)を含む。
語句出現位置IDのフィールドには、図4の語句特徴量DB33と同様に、語句出現位置IDが登録される。
語句のフィールドには、図4の語句特徴量DB33と同様に、各語句の具体的な内容が登録される。
語句特徴量のフィールドには、各語句の帰属度ベクトルが登録される。なお、この例では、各帰属度ベクトルの成分のうち、値が最大となる成分を太字で示している。
図5の例では、例えば、語句出現位置ID"15816"の語句"stadium"の帰属度ベクトルとして、(0.62, 0.05, 0.12, …)が登録され、語句出現位置ID"73525"の語句"Michael"の帰属度ベクトルとして、(0.74, 0.02, 0.17, …)が登録されている。また、同じ表記の語句(例えば、"Michael")が区別され、それぞれ異なる語句として登録されている。
その後、語句データ収集処理は終了する。
(関連語句検索処理の第1の実施の形態)
次に、図6のフローチャートを参照して、情報処理装置11により実行される関連語句検索処理の第1の実施の形態について説明する。なお、この処理は、例えば、関連語句の検索対象となる入力語句が関連語句抽出部36に与えられたとき開始される。
次に、図6のフローチャートを参照して、情報処理装置11により実行される関連語句検索処理の第1の実施の形態について説明する。なお、この処理は、例えば、関連語句の検索対象となる入力語句が関連語句抽出部36に与えられたとき開始される。
ステップS101において、関連語句抽出部36は、入力語句に対する帰属度ベクトルを求める。具体的には、関連語句抽出部36は、入力語句と同じ表記の語句が登録されているレコードをクラスタリング結果DB35から抽出する。関連語句抽出部36は、抽出したレコードに含まれる帰属度ベクトルを足し合わせるとともに、足し合わせたベクトルを大きさが1になるように正規化することにより、入力語句に対する帰属度ベクトを算出する。すなわち、算出した帰属度ベクトルは、入力語句と同じ表記の語句の帰属度ベクトルを平均化したベクトルとなる。
ステップS102において、関連語句抽出部36は、入力語句を用いて所定のフィルタリングを行い、関連語句候補を抽出する。具体的には、例えば、関連語句抽出部36は、入力語句と同じ表記の語句と同じ文書から抽出された語句を関連語句候補として抽出する。或いは、例えば、関連語句抽出部36は、入力語句と同じ表記の語句を語句特徴量に含む語句を関連語句候補として語句特徴量DB33から抽出する。そして、関連語句抽出部36は、抽出した関連語句候補が登録されているレコードをクラスタリング結果DB35から抽出する。
ステップS103において、関連語句抽出部36は、入力語句との類似度に基づいて、各関連語句候補のスコアを算出する。例えば、関連語句抽出部36は、各関連語句候補の入力語句との類似度として、各関連語句候補の帰属度ベクトルと入力語句に対する帰属度ベクトルとの内積を算出し、各関連語句候補のスコアに設定する。
図7の上には、入力語句が"Michael"の場合に、帰属度ベクトルの内積により各関連語句候補のスコアを算出した例が示されている。例えば、語句出現位置IDが"15816"の関連語句候補"stadium"のスコアは0.21となり、語句出現位置IDが"74789"の関連語句候補"Mike"のスコアは0.26となっている。
ステップS104において、関連語句抽出部36は、算出したスコアに基づいて関連語句を抽出する。例えば、関連語句抽出部36は、関連語句候補の中からスコアが所定の閾値以上の語句を関連語句として抽出する。或いは、例えば、関連語句抽出部36は、関連語句候補の中からスコアが高いものから順に所定の数の語句を関連語句として抽出する。そして、関連語句抽出部36は、関連語句の抽出結果を出力部37に供給する。この抽出結果には、例えば、入力語句、関連語句、関連語句の語句出現位置ID、帰属度ベクトル及びスコアが含まれる。
例えば、図7の下には、上のスコアの算出結果に基づいて抽出された関連語句の例が示されている。具体的には、語句出現位置ID"92467"の語句"Mike"、語句出現位置ID"16357"の語句"drama"、語句出現位置ID"28479"の語句"Mike"、語句出現位置ID"74789"の語句"Mike"、語句出現位置ID"25736"の語句"actor"が、関連語句として抽出されている。また、各関連語句のスコア及び帰属度ベクトルが検索結果に含まれている。
ステップS105において、出力部37は、関連語句を出力する。すなわち、出力部37は、関連語句抽出部36により抽出された関連語句とともに、入力語句、各関連語句の語句出現位置ID、帰属度ベクトル及びスコアをアプリケーション部22に出力する。
その後、関連語句検索処理は終了する。
以上のようにして、入力語句に関連する関連語句を検索することができる。また、同じ表記の関連語句を区別してそれぞれ異なる語句として検索することができる。従って、関連語句の検索結果を利用する後段のシステム(例えば、アプリケーション部22)において、検索結果の利便性が向上する。例えば、同じ表記の関連語句を異なる語句として扱うことも、同じ語句として扱うことも可能になる。また、例えば、帰属度ベクトルや語句特徴量を用いることにより、各関連語句がどのような文脈で用いられる語句であるかを区別して扱うことが可能になる。その結果、例えば、後段のシステムにおける処理のバリエーションを増やしたり、処理の精度を向上させたりすることができる。
(関連語句検索処理の第2の実施の形態)
次に、図8のフローチャートを参照して、情報処理装置11により実行される関連語句検索処理の第2の実施の形態について説明する。この第2の実施の形態は、複数の語句を含む入力語句群に対する関連語句を抽出できるようにするものである。
次に、図8のフローチャートを参照して、情報処理装置11により実行される関連語句検索処理の第2の実施の形態について説明する。この第2の実施の形態は、複数の語句を含む入力語句群に対する関連語句を抽出できるようにするものである。
なお、この処理は、例えば、入力語句群が関連語句抽出部36に与えられたとき開始される。
ステップS131において、関連語句抽出部36は、各入力語句に対する帰属度ベクトルを求める。すなわち、関連語句抽出部36は、入力語句群に含まれる各入力語句に対して、図6のステップS101と同様の処理により、帰属度ベクトルを求める。
ステップS132において、関連語句抽出部36は、入力語句群に対する帰属度ベクトルを求める。例えば、関連語句抽出部36は、ステップS131の処理で求めた各入力語句の帰属度ベクトルを足し合わせ、さらに正規化することにより、入力語句群(すなわち、入力語句全体)に対する帰属度ベクトルを求める。この帰属度ベクトルは、特に入力語句群のいずれかの語句が有する特徴を表すベクトルとなる。
或いは、例えば、関連語句抽出部36は、ステップS131の処理で求めた各入力語句の帰属度ベクトルを対応する成分毎に掛け合わせ、さらに正規化することにより、入力語句群(すなわち、入力語句全体)に対する帰属度ベクトルを求める。この帰属度ベクトルは、特に入力語句群の全ての語句が共通に有する特徴を表すベクトルとなる。
ステップS133において、関連語句抽出部36は、入力語句群を用いて所定のフィルタリングを行い、関連語句候補を抽出する。具体的には、例えば、関連語句抽出部36は、入力語句群のいずれかの語句と同じ表記の語句と同じ文書から抽出された語句を関連語句候補として抽出する。或いは、例えば、関連語句抽出部36は、入力語句群のいずれかの語句と同じ表記の語句を語句特徴量に含む語句を関連語句候補として語句特徴量DB33から抽出する。そして、関連語句抽出部36は、抽出した関連語句候補が登録されているレコードをクラスタリング結果DB35から抽出する。
ステップS134において、関連語句抽出部36は、入力語句群との類似度に基づいて、各関連語句候補のスコアを算出する。例えば、関連語句抽出部36は、各関連語句候補の入力語句群との類似度として、各関連語句候補の帰属度ベクトルと入力語句群に対する帰属度ベクトルとの内積を算出し、各関連語句候補のスコアに設定する。
ステップS135及びステップS136において、図6のステップS104及びステップS105と同様の処理が実行される。
その後、関連語句検索処理は終了する。
このようにして、複数の入力語句に関連する関連語句を検索することができる。また、同じ表記の関連語句を区別してそれぞれ異なる語句として検索することができる。
(関連語句検索処理の第3の実施の形態)
次に、図9のフローチャートを参照して、情報処理装置11により実行される関連語句検索処理の第3の実施の形態について説明する。この第3の実施の形態は、同じ表記の関連語句をまとめて出力するようにするものである。
次に、図9のフローチャートを参照して、情報処理装置11により実行される関連語句検索処理の第3の実施の形態について説明する。この第3の実施の形態は、同じ表記の関連語句をまとめて出力するようにするものである。
なお、この処理は、例えば、入力語句が関連語句抽出部36に与えられたとき開始される。
ステップS161乃至S164において、図6のステップS101乃至S104と同様の処理が実行される。これにより、入力語句に対する関連語句が抽出される。
ステップS165において、出力部37は、同じ表記の関連語句をまとめる。具体的には、出力部37は、抽出された関連語句のうち同じ表記の関連語句のスコアを足し合わせることにより、その表記の関連語句全体のスコア(以下、合成スコアと称する)を算出する。
また、出力部37は、抽出された関連語句のうち同じ表記の関連語句の帰属度ベクトルの各成分を、スコアに応じて重み付けて足し合わせることにより、その表記の関連語句全体の帰属度ベクトル(以下、合成帰属度ベクトルと称する)を生成する。
図10は、同じ表記の関連語句をまとめた結果の例を示している。図10のスコアの算出結果と関連語句の検索結果の例は、図7の例と同様であり、関連語句の検索結果には、同じ表記の語句である"Mike"が3つ含まれている。
従って、この3つの"Mike"が1つにまとめられる。すなわち、3つの"Mike"のスコアを足し合わせた値(0.34+0.29+0.26=0.89)が、"Mike"全体に対する合成スコアとして求められる。また、3つの"Mike"の帰属度ベクトルの各成分を、スコアに応じて重み付けて足し合わせることにより、"Mike"全体に対する合成帰属度ベクトルが生成される。例えば、"Mike"全体に対する合成帰属度ベクトルの第1成分の値は、0.34×0.12+0.29×0.16+0.26×0.82=0.30となる。これにより、図10の右下に示されるように、3つの"Mike"を1つにまとめた関連語句の検索結果を得ることができる。
ステップS166において、出力部37は、関連語句を出力する。すなわち、出力部37は、同じ表記の語句をまとめた後の関連語句とともに、入力語句、各関連語句の語句出現位置ID、帰属度ベクトル(又は合成帰属度ベクトル)及びスコア(又は合成スコア)をアプリケーション部22に出力する。
その後、関連語句検索処理は終了する。
このように、同じ表記の関連語句を区別せずに、まとめて出力することも可能である。
なお、図8の関連語句検索処理においても、同じ表記の関連語句をまとめて出力することも可能である。
次に、関連語句の検索結果を利用した処理について説明する。
(類義語抽出処理)
まず、図11のフローチャートを参照して、情報処理装置11により実行される類義語抽出処理について説明する。
まず、図11のフローチャートを参照して、情報処理装置11により実行される類義語抽出処理について説明する。
なお、この処理は、例えば、類義語の検索対象となる入力語句が関連語句抽出部36に与えられたとき開始される。また、この処理において、類義語は、同義語を含む概念であり、1つの単語だけでなく、複数の単語を組み合わせた句(フレーズ)等も含む。
ステップS201において、図6又は図9を参照して上述した関連語句検索処理が実行され、入力語句の関連語句が検索される。そして、入力語句の関連語句の検索結果が出力部37からアプリケーション部22の類義語抽出部41に供給される。
ステップS202において、類義語抽出部41は、図9のステップS165と同様の処理により、同じ表記の関連語句をまとめる。これにより、同じ表記の関連語句全体の合成スコアと合成帰属度ベクトルが求められる。そして、以降の処理で、同じ表記の関連語句を1つの語句にまとめた状態で類義語の抽出が行われる。
なお、ステップS201において、図9の関連語句検索処理が実行され、すでに同じ表記の関連語句がまとめられている場合、ステップS202の処理を省略することができる。
ステップS203において、類義語抽出部41は、スコアに基づいて、関連語句の中から類義語を抽出する。具体的には、類義語抽出部41は、例えば、スコア(同じ表記の語句をまとめた関連語句については合成スコア)が一定以上の関連語句を入力語句の類義語として抽出する。
例えば、図12は、入力語句"Michael"の類義語を抽出する場合の例を示している。なお、図12の上の関連語句をまとめた結果は、図10の例と同じものである。そして、この例において、スコア又は合成スコアが一定以上である"Mike"が、入力語句"Michael"の類義語として抽出される。
ステップS204において、類義語抽出部41は、抽出した類義語を、帰属度ベクトルの成分の値に基づいて分ける。具体的には、類義語抽出部41は、抽出した各類義語について、対応する帰属度ベクトル(同じ表記の語句をまとめた類義語については合成帰属度ベクトル)が、所定の閾値以上となる成分を複数含んでいるか否かを調べる。そして、類義語抽出部41は、所定の閾値以上の成分を複数含む帰属度ベクトル又は合成帰属度ベクトルを有する類義語については、閾値以上の各成分に対応するクラスタ毎に類義語を分ける。すなわち、類義語抽出部41は、抽出した類義語のうち複数のクラスタに属する可能性の高い類義語を、それらのクラスタ毎に異なる類義語として区別する。
例えば、図12の例において、入力語句"Michael"の類義語として抽出された"Mike"の合成帰属度ベクトルにおいて、2つの成分が高い値(0.30及び0.43)を示している。例えば、この2つの成分に対応するクラスタが野球及び映画である場合、野球選手の"Mike"と俳優の"Mike"の2つの類義語に分けることができる。
ステップS205において、類義語抽出部41は、抽出した類義語を類義語辞書(不図示)に登録する。すなわち、類義語抽出部41は、抽出した類義語を入力語句の類義語として類義語辞書に登録する。このとき、ステップS203の処理で複数に分けられた同じ表記の類義語は、それぞれ異なる類義語として登録される。
その後、類義語抽出処理は終了する。
このようにして、入力語句の類義語を抽出し、類義語辞書に登録することができる。また、同じ表記で属するカテゴリが異なる類義語(例えば、互いに意味が異なる類義語)を、それぞれ異なる類義語として抽出することができる。
(推薦処理)
次に、図13のフローチャートを参照して、情報処理装置11により実行される推薦処理について説明する。
次に、図13のフローチャートを参照して、情報処理装置11により実行される推薦処理について説明する。
なお、この処理は、例えば、アプリケーション部22の推薦部42に、アイテムの推薦の指令が入力されたとき開始される。
ステップS231において、推薦部42は、ユーザに推薦するアイテムを抽出する。なお、推薦アイテムを抽出する手法には、任意の手法を採用することが可能である。
ステップS232において、情報処理装置11は、推薦するアイテムに関するキーワードの関連語句を検索する。具体的には、例えば、推薦部42は、推薦アイテムの抽出に用いたキーワードを入力語句として関連語句抽出部36に与える。
このキーワードは、例えば、推薦アイテムを抽出する際に条件として明示的にユーザにより与えられたキーワードとされる。或いは、このキーワードは、例えば、推薦アイテムの抽出処理において、ユーザの嗜好を表すものとして抽出されたキーワードとされる。なお、キーワードの数は1つでも、複数でもよい。また、キーワードは1つの単語でもよいし、複数の単語を組み合わせた句でもよい。
そして、与えられたキーワードが1つの場合、図6を参照して上述した関連語句検索処理が実行され、与えられたキーワードが複数の場合、図8を参照して上述した関連語句検索処理が実行される。これにより、与えられたキーワードに対する関連語句が検索され、検索結果が出力部37からアプリケーション部22の推薦部42に供給される。
ステップS233において、推薦部42は、推薦アイテムをキーワードの関連語句とともに提示する。例えば、推薦部42は、検索されたキーワードの関連語句の語句特徴量(すなわち、関連語句の抽出元の文書における関連語句の近傍の語句)を語句特徴量DB33から読み出す。そして、推薦部42は、読み出した語句特徴量に基づいて、検索された関連語句の中からユーザの嗜好に近い語句を抽出する。また、推薦部42は、推薦アイテム、キーワード、抽出した関連語句、及び、関連語句の語句特徴量を含む情報を、例えば、ユーザが利用するクライアント(不図示)に送信する。
そして、例えば、図14に示されるように、ユーザが利用するクライアントにおいて、推薦アイテムとともに、抽出した関連語句及びその語句特徴量が提示される。なお、図14の左は、俳優のMichaelが好きなユーザAにテレビ番組を推薦する場合の提示画面の例を示し、右は、野球選手のMichaelが好きなユーザBにテレビ番組を推薦する場合の提示画面の例を示している。
すなわち、ユーザAに対しては、俳優のMichaelに関連するテレビ番組が推薦される。また、俳優のMichaelに対する関連語句"Mike"及びその語句特徴量が、ユーザAが興味を持つ可能性があるキーワード及び推薦理由として提示される。
一方、ユーザBに対しては、野球選手のMichaelに関連するテレビ番組が推薦される。また、野球選手のMichaelに対する関連語句"Mike"及びその語句特徴量が、ユーザBが興味を持つ可能性があるキーワード及び推薦理由として提示される。
このように、情報処理装置11では、同じ表記の関連語句を区別して扱うことができるため、同じ表記の関連語句"Mike"だけでなく、各ユーザの嗜好に応じて、"Mike"の意味やコンテキスト等を表す他のキーワードを提示することが可能になる。
なお、キーワードに対する関連語句の語句特徴量を提示せずに、キーワードに対する関連語句を複数提示するようにしてもよい。すなわち、例えば、図14の例において、キーワード"Michael"に対する関連語句を複数提示するようにしてもよい。この場合も、同じ表記のキーワードを区別して扱うことができるため、同じ表記のキーワードに対して、ユーザの嗜好に応じて異なる関連語句を提示することができる。
(特徴量拡充処理)
次に、図15のフローチャートを参照して、情報処理装置11により実行される特徴量拡充処理について説明する。
次に、図15のフローチャートを参照して、情報処理装置11により実行される特徴量拡充処理について説明する。
ユーザにアイテムを推薦する場合、例えば、図16に示されるように、ユーザの嗜好を表すUP(User preference)と各アイテムの特徴を表すCP(Content Profile)の類似度が算出され、類似度が大きいアイテムが推薦される。ここで、図16のUP及びCPの四角の各マスは特徴量を示しており、各特徴量はキーワード等により構成される。そして、この処理は、このCP又はUPの特徴量を構成するキーワードを、関連語句を用いて拡張するものである。
ステップS261において、情報処理装置11は、キーワードの関連語句を検索する。具体的には、推薦部42は、拡張対象となるUP又はCPを1つ選択する。また、推薦部42は、選択したUP又はCPの特徴量に含まれるキーワードを1つ又は複数選択し、選択したキーワードを入力語句として関連語句抽出部36に与える。
そして、与えられたキーワードが1つの場合、図6を参照して上述した関連語句検索処理が実行され、与えられたキーワードが複数の場合、図8を参照して上述した関連語句検索処理が実行される。これにより、与えられたキーワードに対する関連語句が検索され、検索結果が出力部37からアプリケーション部22の推薦部42に供給される。
ステップS262において、推薦部42は、特徴量を拡充する。例えば、推薦部42は、検索されたキーワードの関連語句の語句特徴量(すなわち、関連語句の抽出元の文書における関連語句の近傍の語句)を語句特徴量DB33から読み出す。
次に、推薦部42は、UPを拡充する場合、読み出した語句特徴量に基づいて、検索された関連語句の中からユーザの嗜好に近い語句を抽出する。一方、推薦部42は、CPを拡充する場合、読み出した語句特徴量に基づいて、検索された関連語句の中からアイテムの特徴に近い語句を抽出する。
そして、推薦部42は、抽出した関連語句及びその語句特徴量をUP又はCPに追加する。
例えば、図17の例の場合、まず、UP又はCPの特徴量に含まれるキーワード"Michael"の関連語句が検索される。次に、検索された関連語句の語句特徴量が読み出される。次に、語句特徴量に基づいて、検索された関連語句の中からUP又はCPに追加する関連語句が抽出される。そして、抽出した関連語句及びその語句特徴量がUP又はCPに追加され、UP又はCPが拡張される。そして、この処理が、拡張対象となるUP又はCPの全ての特徴量について行われ、UP又はCPが拡張される。
例えば、従来の技術では、同じキーワードに対して同じ関連語句しかUP又はCPに追加することができなかった。これに対して、情報処理装置11では、同じ表記の関連語句を区別することができ、同じ表記の関連語句の中から適切な関連語句を選択し、関連語句及びその語句特徴量をUP又はCPに追加することができる。従って、より効果的かつ広範にUP又はCPを拡張することができる。その結果、アイテムの推薦精度を向上させることができる。
なお、関連語句の語句特徴量を追加せずに、複数の関連語句のみをUP又はCPに追加するようにしてもよい。この場合も、同じ表記のキーワードを区別して扱うことができるため、同じ表記のキーワードに対して、UP又はCPの特徴に応じた異なる関連語句を追加することができる。
<2.変形例>
以下、上述した本技術の実施の形態の変形例について説明する。
以下、上述した本技術の実施の形態の変形例について説明する。
以上の説明では、関連語句の検索結果として、関連語句とともに、入力語句、各関連語句の語句出現位置ID、帰属度ベクトル及びスコアを出力部37から出力する例を示したが、入力語句、帰属度ベクトル及びスコアは、後段の処理で必要がない場合は、それぞれ適宜省略することが可能である。
また、例えば、帰属度ベクトルの代わりに、帰属度ベクトルの成分が所定の閾値以上の成分に対応するクラスタ、すなわち、関連語句が属する可能性が高いクラスタを示す情報を出力するようにしてもよい。
さらに、例えば、関連語句の語句特徴量を出力部37から出力するようにしてもよい。
また、検索処理部21とアプリケーション部22は、必ずしも同じ装置内に設ける必要はなく、異なる装置に設けることも可能である。
さらに、以上の説明では、英語の文書の処理を行う場合の例を示したが、本技術は、日本語等の他の任意の言語の文書の処理を行う場合にも適用することが可能である。
[コンピュータの構成例]
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、例えば、本技術は以下のような構成も取ることができる。
(1)
複数の文書から複数の語句を抽出する語句抽出部と、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部と
を備える情報処理装置。
(2)
前記出力部は、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力する
前記(1)に記載の情報処理装置。
(3)
同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部を
さらに備える前記(2)に記載の情報処理装置。
(4)
前記類義語抽出部は、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分ける
前記(3)に記載の情報処理装置。
(5)
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、推薦するアイテムに関するキーワードの関連語句を抽出し、
前記推薦部は、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記推薦部は、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示する
前記(5)に記載の情報処理装置。
(7)
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出し、
前記推薦部は、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記推薦部は、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加する
前記(7)に記載の情報処理装置。
(9)
前記関連語句抽出部は、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出する
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表す
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含む
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む情報処理方法。
(13)
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む処理をコンピュータに実行させるためのプログラム。
複数の文書から複数の語句を抽出する語句抽出部と、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部と
を備える情報処理装置。
(2)
前記出力部は、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力する
前記(1)に記載の情報処理装置。
(3)
同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部を
さらに備える前記(2)に記載の情報処理装置。
(4)
前記類義語抽出部は、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分ける
前記(3)に記載の情報処理装置。
(5)
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、推薦するアイテムに関するキーワードの関連語句を抽出し、
前記推薦部は、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記推薦部は、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示する
前記(5)に記載の情報処理装置。
(7)
ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出し、
前記推薦部は、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記推薦部は、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加する
前記(7)に記載の情報処理装置。
(9)
前記関連語句抽出部は、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出する
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表す
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含む
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む情報処理方法。
(13)
複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む処理をコンピュータに実行させるためのプログラム。
11 情報処理装置, 21 検索処理部, 22 アプリケーション部, 31 語句抽出部, 32 特徴抽出部, 33 語句特徴量DB, 34 クラスタリング部, 35 クラスタリング結果DB, 36 関連語句抽出部, 37 出力部, 41 類語語抽出部, 42 推薦部
Claims (13)
- 複数の文書から複数の語句を抽出する語句抽出部と、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出部と、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリング部と、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出部と、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力部と
を備える情報処理装置。 - 前記出力部は、前記関連語句の前記帰属度ベクトル、及び、前記入力語句との間の前記帰属度ベクトルの類似度を表すスコアのうち少なくとも一方をさらに出力する
請求項1に記載の情報処理装置。 - 同じ表記の前記関連語句の前記スコアを足し合わせた上で、前記スコアが高い前記関連語句を前記入力語句の類義語として抽出する類義語抽出部を
さらに備える請求項2に記載の情報処理装置。 - 前記類義語抽出部は、同じ表記の前記関連語句の前記帰属度ベクトルを前記スコアに応じて重み付けて足し合わせた上で、抽出した前記類義語の前記帰属度ベクトルにおいて所定の閾値以上の成分が複数ある場合、前記閾値以上の成分にそれぞれ対応する前記クラスタ毎に前記類義語を分ける
請求項3に記載の情報処理装置。 - ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、推薦するアイテムに関するキーワードの関連語句を抽出し、
前記推薦部は、前記推薦するアイテムとともに前記キーワードの前記関連語句をユーザに提示する
請求項1に記載の情報処理装置。 - 前記推薦部は、さらに前記推薦するアイテムとともに前記キーワードの前記関連語句の特徴量をユーザに提示する
請求項5に記載の情報処理装置。 - ユーザにアイテムを推薦する推薦部を
さらに備え、
前記関連語句抽出部は、前記ユーザの特徴量又は前記アイテムの特徴量に含まれるキーワードの前記関連語句を抽出し、
前記推薦部は、前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句を追加する
請求項1に記載の情報処理装置。 - 前記推薦部は、さらに前記ユーザの特徴量又は前記アイテムの特徴量に前記キーワードの前記関連語句の特徴量を追加する
請求項7に記載の情報処理装置。 - 前記関連語句抽出部は、複数の前記入力語句が与えられた場合、複数の前記入力語句の前記帰属度ベクトルを足し合わせたベクトル、又は、複数の前記入力語句の前記帰属度ベクトルを成分毎に掛け合わせたベクトルのうち一方と前記帰属度ベクトルが類似する語句を前記関連語句として抽出する
請求項1に記載の情報処理装置。 - 前記識別情報は、前記関連語句が抽出された文書及び文書内の位置を表す
請求項1に記載の情報処理装置。 - 前記語句の特徴量は、当該語句が抽出された文書において当該語句の近傍から抽出された語句を含む
請求項1に記載の情報処理装置。 - 複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む情報処理方法。 - 複数の文書から複数の語句を抽出する語句抽出ステップと、
抽出された各語句の特徴量の抽出を同じ表記の語句を区別したまま行う特徴抽出ステップと、
抽出された各語句のクラスタリングを同じ表記の語句を区別したまま行い、各語句の2以上の各クラスタへの帰属度を成分とする帰属度ベクトルを算出するクラスタリングステップと、
与えられた入力語句と前記帰属度ベクトルが類似する語句である関連語句の抽出を同じ表記の語句を区別したまま行う関連語句抽出ステップと、
前記関連語句及び前記関連語句を識別するための識別情報を出力する出力ステップと
を含む処理をコンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013168259A JP2015036892A (ja) | 2013-08-13 | 2013-08-13 | 情報処理装置、情報処理方法、及び、プログラム |
US14/450,403 US10380151B2 (en) | 2013-08-13 | 2014-08-04 | Information processing to search for related expressions |
CN201410382233.2A CN104376034B (zh) | 2013-08-13 | 2014-08-06 | 信息处理设备,信息处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013168259A JP2015036892A (ja) | 2013-08-13 | 2013-08-13 | 情報処理装置、情報処理方法、及び、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015036892A true JP2015036892A (ja) | 2015-02-23 |
Family
ID=52467580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013168259A Pending JP2015036892A (ja) | 2013-08-13 | 2013-08-13 | 情報処理装置、情報処理方法、及び、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10380151B2 (ja) |
JP (1) | JP2015036892A (ja) |
CN (1) | CN104376034B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138512A (zh) * | 2015-08-12 | 2015-12-09 | 小米科技有限责任公司 | 词组推荐方法及装置 |
CN108345605B (zh) * | 2017-01-24 | 2022-04-05 | 苏宁易购集团股份有限公司 | 一种文本搜索方法及装置 |
US11557284B2 (en) | 2020-01-03 | 2023-01-17 | International Business Machines Corporation | Cognitive analysis for speech recognition using multi-language vector representations |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
US7243092B2 (en) * | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7366705B2 (en) * | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
JP4752623B2 (ja) * | 2005-06-16 | 2011-08-17 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US7685201B2 (en) * | 2006-09-08 | 2010-03-23 | Microsoft Corporation | Person disambiguation using name entity extraction-based clustering |
JP2011150450A (ja) * | 2010-01-20 | 2011-08-04 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2012027845A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、関連文提供方法、及びプログラム |
CN102567409A (zh) * | 2010-12-31 | 2012-07-11 | 珠海博睿科技有限公司 | 一种提供检索关联词的方法及装置 |
CN102880623B (zh) * | 2011-07-13 | 2015-09-09 | 富士通株式会社 | 同名人物搜索方法及系统 |
JP6039287B2 (ja) * | 2011-08-01 | 2016-12-07 | ネイバー コーポレーションNAVER Corporation | ブログを推薦するシステム及び方法 |
CN102999538B (zh) * | 2011-09-08 | 2015-09-30 | 富士通株式会社 | 人物搜索方法和设备 |
CN102360358B (zh) * | 2011-09-28 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 关键词推荐方法及系统 |
US9286391B1 (en) * | 2012-03-19 | 2016-03-15 | Amazon Technologies, Inc. | Clustering and recommending items based upon keyword analysis |
CN103207899B (zh) * | 2013-03-19 | 2016-12-07 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
-
2013
- 2013-08-13 JP JP2013168259A patent/JP2015036892A/ja active Pending
-
2014
- 2014-08-04 US US14/450,403 patent/US10380151B2/en active Active
- 2014-08-06 CN CN201410382233.2A patent/CN104376034B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20150052140A1 (en) | 2015-02-19 |
CN104376034A (zh) | 2015-02-25 |
CN104376034B (zh) | 2019-06-25 |
US10380151B2 (en) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN104885081B (zh) | 搜索系统和相应方法 | |
US10229190B2 (en) | Latent semantic indexing in application classification | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
US20160070803A1 (en) | Conceptual product recommendation | |
JP6093200B2 (ja) | 情報検索装置及び情報検索プログラム | |
US10936806B2 (en) | Document processing apparatus, method, and program | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
JP2007241888A (ja) | 情報処理装置および方法、並びにプログラム | |
Ahlgren | Research on sentiment analysis: the first decade | |
US20130211820A1 (en) | Apparatus and method for interpreting korean keyword search phrase | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
JP5740228B2 (ja) | 代表的なコメント抽出方法およびプログラム | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
JP2013003663A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
D'Addio et al. | A collaborative filtering approach based on user's reviews | |
JP6446987B2 (ja) | 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム | |
US10380151B2 (en) | Information processing to search for related expressions | |
CN111737523A (zh) | 一种视频标签、搜索内容的生成方法及服务器 | |
CN108304453B (zh) | 一种视频相关搜索词的确定方法及装置 | |
US20170075999A1 (en) | Enhanced digital media indexing and retrieval | |
WO2017135889A1 (en) | Ontology determination methods and ontology determination devices | |
Hoxha et al. | Towards a modular recommender system for research papers written in albanian | |
CN110147488B (zh) | 页面内容的处理方法、处理装置、计算设备及存储介质 |