JP2006285418A

JP2006285418A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2006285418A
Application number: JP2005101963A
Authority: JP
Inventors: Hiroshi Tateno; 啓舘野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19
Anticipated expiration: 2025-03-31
Also published as: US20060230036A1; JP4524640B2; CN1855102A

Abstract

【課題】軸単語を利用して特徴単語を抽出するようにする。
【解決手段】ユーザより入力されたドメイン知識としての軸単語を利用して、テキスト（例えば、ドメインとしての１つの分野に係るテキスト）から、特徴的な特徴単語を抽出する。例えば、音楽の分野のテキストとしての音楽ＣＤの音楽レビュー文から、楽曲やアーティストの音楽性を表す単語（特徴単語）を抽出したい場合、それ自体は具体的な音楽性を表さないが、例えば、「澄んだ」、「立体的」などのそれ自体が音楽性を表す単語で修飾されることが期待できる、「サウンド」、「スタイル」、「声」などの単語を軸単語として入力することで、元のテキストからその軸単語を修飾する単語が抽出される。軸単語を修飾する単語としてテキストから抽出された単語は、音楽レビュー文の内容、すなわち音楽ＣＤの音楽性を表すのに適した単語である。
【選択図】図１

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、テキストから、テキストの内容において特徴的な単語を適切に抽出することができるようにする情報処理装置および方法、並びにプログラムに関する。

文章（テキストデータ）の中から、文章の内容において重要な役割を持つ単語を選び出す特徴単語抽出技術は、テキストの効率的な分類やクラスタリングにおいて極めで重要である。

この特徴単語抽出技術には、単語重み付けに基づくヒューリスティックな手法としてのTF・IDF法(非特許文献１参照)や、統計的な手法としての文書に対するχ²値を利用する方法(非特許文献２参照)や特許文献１に紹介されている方法がある。また、学習用データとして文書とその分類クラスが与えられている場合、クラスに対するχ²値を利用する方法(非特許文献３参照)や情報利得を利用する方法(非特許文献４参照)などが知られている。

Salton, G., McGill, M.J., "Introduction to Modern Information Retrieval," McGraw-Hill, 1983. 長尾 et al, "日本語文献における重要語の自動抽出," 情報処理, Vol.17, No.2, 1976. Yang, Y., Pedersen, J.O., "A Comparative Study on Feature Selection in Text Categorization," Proc. of ICML-97, pp.412-420, 1997. Quinlan, J.R., "Induction of Decision Trees," Machine Leaning, 1(1), pp.81-106, 1986. 特開2001-67362号公報

しかしながら、これらの手法は、一般的なコーパスを対象としたものであり、純粋に単語の統計的な性質を利用するだけなので、文章の内容の専門性や話題の偏りに応じた単語を抽出することはできなかった。

例えば「音楽ＣＤ（Compact Disk）の音楽レビュー文（ＣＤに記録された楽曲やアーティストを紹介する文章など）から、楽曲やアーティストの音楽性を表す単語を抽出する」といった、文章の内容に応じた分野（音楽分野）に依存した単語（音楽性を表す単語）を適切に抽出するができなかった。

本発明の情報処理装置は、軸単語を取得する取得手段と、軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段とを備えることを特徴とする。

抽出手段は、軸単語と近接する単語を、近接単語としてテキストから抽出し、近接単語から、軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、特徴単語とすることができる。

抽出手段は、軸類似単語を、軸単語として利用することができる。

本発明の情報処理方法は、軸単語を取得する取得ステップと、軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップとを含むことを特徴とする。

本発明のプログラムは、軸単語を取得する取得ステップと、軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップとを含むことを特徴とする。

本発明の情報処理装置および方法、並びにプログラムにおいては、軸単語が取得され、軸単語を修飾する単語が、特徴単語としてテキストから抽出される。

本発明によれば、テキストから、テキストの内容において特徴的な単語を抽出することができる。

以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。

請求項１に記載の情報処理装置は、
軸単語を取得する取得手段（例えば、図１の特徴単語抽出部２７）と、
軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段（例えば、図１の特徴単語抽出部２７）と
を備えることを特徴とする。

請求項２に記載の情報処理装置は、
抽出手段は、軸単語と近接する単語を、近接単語としてテキストから抽出し（例えば、図４のステップＳ２）、近接単語から、軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、特徴単語とする（例えば、図４のステップＳ４）
ことを特徴とする。

請求項３に記載の情報処理装置は、
抽出手段は、軸類似単語を、軸単語として利用する（例えば、図７の特徴単語抽出部３１）
ことを特徴とする。

請求項４に記載の情報処理方法は、
軸単語を取得する取得ステップ（例えば、図４のステップＳ１）と、
軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップ（例えば、図４のステップＳ２乃至ステップＳ５）と
を含むことを特徴とする。

請求項５に記載のプログラムの各ステップの具体例も、請求項４に記載の情報処理方法の各ステップの発明の実施の形態における具体例と同様である。

図１は、本発明の情報処理装置１の構成例を示している。この情報処理装置１は、ユーザより入力されたドメイン知識としての軸単語を利用して、テキスト（例えば、ドメインとしての１つの分野に関するテキスト）から、特徴的な単語（以下、特徴単語と称する）を抽出する。

例えば、音楽の分野に関するテキストとしての音楽ＣＤの音楽レビュー文から、楽曲やアーティストの音楽性を表す単語（特徴単語）を抽出したい場合、それ自体は具体的な音楽性を表さないが、例えば、「澄んだ」、「立体的」などのそれ自体が音楽性を表す単語により修飾されることが期待できる（例えば、そのような単語と共起しやすい）、「サウンド」、「スタイル」、「声」などといった単語を軸単語として入力することで、元のテキストからその軸単語を修飾する単語が抽出される。

軸単語を修飾する単語としてテキストから抽出された単語は、「澄んだ」、「立体的」など、音楽レビュー文の内容、すなわち音楽ＣＤの音楽性（例えば、澄んだ楽曲で構成されているＣＤである等）を表すのに適した単語であるので、このように軸単語を入力して、その軸単語に応じた特徴単語を抽出することで、音楽レビュー文という音楽の分野に関するテキストから、その分野の特徴的な単語（音楽性を表す単語）を抽出することができる。

従来においては、例えば、「めったに出現しない単語」を特徴単語として抽出したい場合、その単語の条件を抽出手法そのものに組み入れる必要があったが、本発明によれば、軸単語を適宜選択することで、軸単語に応じた、ある特定の意味傾向を有する特徴単語を抽出することができる。

情報処理装置１の構成例を説明する。文書記憶部２１には、特徴単語が抽出される文章（テキストデータ）が記憶されている。この例の場合、音楽ＣＤのレビュー文が記憶されている。

形態素解析部２２は、文書記憶部２１に記憶されているテキストデータ（文章）を、単語（例えば、「サウンド」、「音像」、「硬貨」、「立体的」、「アルバム」、「する」など）に切り分けて、単語モデル生成部２３に供給する。

単語モデル生成部２３は、形態素解析部２２から供給された各単語を、単語間の関連性をみるために数理モデル化し、その結果得られた単語モデルを単語モデル記憶部２４に記憶する。

単語モデルとしては、PLSA(Probabilistic Latent Semantic Analysis)やSAM(Semantic Aggregate Model)などの確率モデルがある。これらは、文章と単語または単語と単語の共起の背後に潜在的な変数が存在し、その確率的な生起によって個々の表出が決定される。

PLSAは、「Hofmann, T., “Probabilistic Latent Semantic Analysis,” Proc. of Uncertainty in Artificial Intelligence, 1999.」に、SAMは、「持橋大地, 松本裕治, “意味の確率的表現,” 情処研報2002-NL-147, pp.77-84, 2002.」に紹介されている。

例えばSAMの場合、単語ｗ_iと単語ｗ_jの共起確率は、潜在的な確率変数ｃ（予め決められたｋ個のｃ₀，ｃ₁,・・・ｃ_k-1の値を取りうる変数）を用いて、式（１）で表され、式（１）から式（２）に示すように、単語ｗに対する確率分布P(ｃ|ｗ)を定義することができ、それが単語モデルとなる。式（１）中、確率変数ｃは潜在的な変数であり、確率分布P(ｗ|ｃ)および確率分布P(ｃ)は、EMアルゴリズムによって求められる。

例えば、「サウンド」、「音像」、「硬貨」、「立体的」、「アルバム」、および「する」の単語ｗからは、図２に示すような単語モデル（P(ｃ_i|ｗ)（i＝0,1,2,3））が得られる。

なおSAMでは、単語との共起傾向（例えば、１つの文章でともに使用される回数）が似ている場合には、確率分布も類似するようになる。図３に示すように、「サウンド」、「音像」、「硬貨」、および「立体的」の単語１乃至単語３との共起傾向は類似するが（単語１と単語３との共起頻度が高く、単語２との共起頻度が低い傾向を有するが）、この場合「サウンド」、「音像」、「硬貨」、および「立体的」の確率分布は、図２に示すように同じような傾向を有する（P(ｃ₀|ｗ)とP(ｃ₂|ｗ)が大きく、P(ｃ₁|ｗ)とP(ｃ₃|ｗ)が小さい傾向を有する）。

一方、「サウンド」、「音像」、「硬貨」、および「立体的」は、「アルバム」および「する」と共起傾向が似ていないので（図３）、確率分布の傾向も、それらとは異なる（図２）。なお「する」のような一般的な単語は、離散一様分布に近づくことが知られている。

単語モデルとしては、PLSAやSAMなどの確率モデルの他、文書ベクトルや共起ベクトル、LSA(Latent Semantic Analysis)などで次元圧縮された意味ベクトルなどがあり、いずれを採用するかは任意である。なおPLSAやSAMは、このように潜在的な確率変数の空間で単語が表現されるので、通常の共起ベクトルなどを利用するよりも、意味的な傾向を把握しやすいとされている。

LSAは、「Deerwester, S. et al, "Indexing by latent semantic analysis," Journal of the Society for Information Science, 41(6), pp.391-407, 1990.」に紹介されている。

図１に戻り、軸単語記憶部２５には、この例の場合、例えば「サウンド」、「スタイル」、「声」などの単語が、軸単語として記憶されている。

軸単語の収集は、いまの場合、ユーザが図示せぬ操作部を操作して入力するものとし、軸単語取得部２６が、操作部を介して軸単語を取得し、軸単語記憶部２５に記憶する。

なお軸単語の選定は、それ自体がドメインの特徴を表さないが、特徴単語で修飾されることが期待できる単語（共起しやすい単語）であれば任意であり、例えばある使用頻度以上の単語を軸単語とすることができる。

また軸単語のバリエーションは多い方が、幅広い特徴単語を抽出することができる。例えば、後述するように「音像」も軸単語となり得るが、意味的に「サウンド」と類似するので（両者とも音質に係る単語であるので）、「サウンド」を軸単語とすれば、「音像」を新たな軸単語とする必要性は低い。しかしながら例えば「テンポ」や「展開」といった「サウンド」に直交するような概念を表す単語を軸単語とすることで、「サウンド」等を利用して抽出できる特徴単語とは異なる特徴単語を抽出することができる。

特徴単語抽出部２７は、単語モデル記憶部２４に記憶された単語モデルを利用して、軸単語記憶部２５に記憶されている軸単語を修飾するような単語（共起しやすい単語など）を、特徴単語として抽出し、特徴単語記憶部２８に記憶する。

次に、特徴単語抽出処理を、図４のフローチャートを参照して説明する。

ステップＳ１において、特徴単語抽出部２７は、軸単語記憶部２５に記憶されている軸単語を１個選択する。

ステップＳ２において、特徴単語抽出部２７は、単語モデル記憶部２４に記憶されている単語モデルを利用して、ステップＳ１で選択した軸単語と近接する単語（以下、近接単語と称する）を選択する。

具体的には、特徴単語抽出部２７は、単語モデルに応じた距離尺度を用いて、軸単語との単語間の距離を求め、その距離が一定値よりも小さい単語をその軸単語の近接単語とする。

距離尺度として、単語モデルが確率モデルである場合、Kullback-Leibler Divergence距離（以下、KL距離と称する）を用いることができ、単語モデルがベクトル空間法である場合、Euclid距離やコサイン距離を用いることができる。

単語モデルがSAMである場合、例えば図５に示すように、軸単語としての「サウンド」と、「音像」、「硬貨」、「立体的」、「アルバム」、および「する」とのそれぞれのKL距離は、0.015、0.012、0.040、0.147、および0.069となる。そして近接とみなす閾値を0.05とした場合は「音像」、「硬質」、および「立体的」が「サウンド」（軸単語）に対する近接単語となる。なおKL距離は、例えば、「サウンド」と「音像」間の場合、「サウンド」から「音像」への距離と、「音像」から「サウンド」への距離が異なるという方向性を有しているが、図５では、両者の距離の平均をKL距離としている。

次にステップＳ３において、特徴単語抽出部２７は、ステップＳ１で選択した軸単語の軸類似単語を検出する。軸類似単語とは、軸単語と意味的に似ている単語である。

近接単語を選択する際に用いた単語モデルに応じた距離尺度は、一般的に、共起しやすい単語間または意味的に似た単語間において小さくなる。すなわち「軸単語と共起しやすい単語」または「軸単語と意味的に似た単語」がその軸単語の近接単語として選択される。

共起の度合いの指標としては、相互情報量、χ²値、Dice係数などがよく知られている。

ここでは軸単語と共起しやすい単語を抽出したいので、特徴単語抽出部２７は、相互情報量、χ²値、Dice係数などを利用して、ステップＳ１で選択した軸単語と、ステップＳ２で選択した近接単語それぞれとの共起の度合いを算出し、その度合いが一定以下の単語を、軸単語と意味的に似ている結果近接単語として選択されたものとして、それを軸類似単語とする。

例えば、軸単語としての「サウンド」と、近接単語としての「音像」、「硬貨」、および「立体的」間の相互情報量は、図６に示すようになる。この例の場合、「サウンド」と「音像」の相互情報量は、「硬貨」および「立体的」との相互情報量に比べ小さく、「音像」は「サウンド」との共起がほとんどないことがわかる。すなわち「音像」は、「サウンド」と意味に似ている単語として近接単語として選択されており、「サウンド」の軸類似単語となる。

実際に、「音像」と「サウンド」は、音質にかかる単語で、同じような意味を有し、「サウンドが立体的である。」または「音像が立体的である。」のようにそれぞれ独立して利用され、それらが共起する場合はあまりない。

なお軸類似単語は、軸単語と意味的に類似する単語であるが、これは、軸単語（それ自体でドメインの特徴を表す単語ではなく、特徴単語により修飾されることが期待できる単語）になり得る単語であることを意味している。

次にステップＳ４において、特徴単語抽出部２７は、ステップＳ２で選択した近接単語から、ステップＳ３で検出した軸類似単語を削除し、残った近接単語を、特徴単語として、特徴単語記憶部２８に記憶する。

ステップＳ５において、特徴単語抽出部２７は、すべての軸単語を選択したか否かを判定し、まだ選択していない軸単語が残っていると判定した場合、ステップＳ１に戻り、次の軸単語を選択し、ステップＳ２以降の処理を同様に実行する。

ステップＳ５で、すべての軸単語を選択したと判定された場合、処理は終了する。

以上のように軸単語を修飾するような単語（軸単語と共起する単語）を、特徴単語として抽出するようにしたので、例えば、「サウンド」を軸単語として入力しておけば、その軸単語を修飾する、「硬質」、「立体的」などの特徴単語（音楽性に関する単語）を、音楽レビュー文から抽出することができる。

すなわち、例えば音楽ＣＤの音楽レビュー文を、以上のようにしてそれから抽出した特徴単語を強調して表示すれば、ユーザが、音楽性を表す単語を容易に認識することができる、音楽ＣＤ紹介画面をユーザに提示することができる。

また以上のようにして抽出された特徴単語をメタデータとして利用して、ユーザの嗜好を表す情報とのマッチングをとるようにすれば、音楽性においてよりユーザの嗜好に合う楽曲を推薦することができる。

通常メタデータには、音楽性とは関連の薄い単語（例えば、販売地域に関する単語、アーティストのアイドル性に関連する単語など）も含まれるので、これらの単語を含めてマッチングを取る場合に比べ、本発明により抽出された音楽性に関する特徴単語のみを利用してマッチングをとることにより、音楽性の観点からよりユーザの嗜好にあった楽曲を推薦することができる。なお当然、「容姿」、「アイドル」などを軸単語とし、アーティストのアイドル性に関する特徴単語を抽出しておけば、アイドル性の観点から楽曲推薦を行うこともできる。

また例えば、ＡＢＣ株式会社の企業名を表す、「ＡＢＣ」、「エビシ」、「ＡＢＣ（株）」などのいずれか１つの単語を軸単語とすれば、新聞記事からＡＢＣ株式会社の特徴を表す特徴単語（例えば、財務状況を表す「好調」、「順調」など）を抽出することができる。すなわち換言すれば、ＡＢＣ株式会社に関連するドメイン知識を、１つの軸単語（「ＡＢＣ」、「エビシ」、「ＡＢＣ（株）」などのいずれか１つの単語）に代表させておくことができる。

このように本発明により抽出された特徴単語を利用することができる。

また以上においては、軸単語記憶部２５に予め記憶された軸単語のみを利用したが、近接単語から削除した軸類似単語は、上述したように軸単語となり得るので、それを軸単語として追加して利用することもできる。

図７は、軸類似単語を軸単語として追加して利用する場合の情報処理装置１の構成例を示している。この情報処理装置１は、図１の特徴単語抽出部２７に代えて、特徴単語抽出部３１が設けられている。他の部分は、図１における場合と同様である。

この場合の特徴単語抽出処理を、図８のフローチャートを参照して説明する。

ステップＳ１１乃至ステップＳ１４においては、図４のステップＳ１乃至ステップＳ４における場合と同様の処理が行われるので、その説明は省略する。

ステップＳ１５において、特徴単語抽出部３１は、ステップＳ１３で検出した軸類似単語を、軸単語として軸単語記憶部２５に記憶する。

ステップＳ１６において、特徴単語抽出部３１は、ステップＳ１５で追加された軸単語を含めて、すべての軸単語を選択したか否かを判定し、選択していない軸単語がまだ残っていると判定した場合、ステップＳ１１に戻り、次の軸単語を選択し、ステップＳ２以降の処理を同様に実行する。

上述した特徴単語抽出処理などの一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアによって行う場合、例えば、その一連の処理は、図９に示されるような（パーソナル）コンピュータにプログラムを実行させることにより実現することができる。

図９において、CPU（Central Processing Unit）１１１は、ROM（Read Only Memory）１１２に記憶されているプログラム、またはハードディスク１１４からRAM（Random Access Memory）１１３にロードされたプログラムに従って各種の処理を実行する。RAM１１３にはまた、CPU１１１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU１１１、ROM１１２、およびRAM１１３は、バス１１５を介して相互に接続されている。このバス１１５にはまた、入出力インタフェース１１６も接続されている。

入出力インタフェース１１６には、キーボード、マウス、入力端子などよりなる入力部１１８、CRT(Cathode Ray Tube)，LCD(Liquid Crystal display)などよりなるディスプレイ、出力端子、並びにスピーカなどよりなる出力部１１７、ターミナルアダプタ、ADSL（Asymmetric Digital Subscriber Line）モデムや、LAN (Local Area Network)カード等より構成される通信部１１９が接続されている。通信部１１９は、インターネットなどの各種のネットワークを介しての通信処理を行う。

入出力インタフェース１１６にはまた、ドライブ１２０が接続され、磁気ディスク（フロッピディスクを含む）１３１、光ディスク（CD-ROM(Compact Disk-Read Only Memory) DVD Digital Versatile Disk）を含む）１３２、光磁気ディスク（MD（Mini-Disk）を含む）１３３、或いは半導体メモリなどのリムーバブルメディア（記録媒体）１３４が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じてハードディスク１１４にインストールされる。

なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明の情報処理装置の構成例を示すブロック図である。単語モデルの例を示す図である。共起頻度の例を示す図である。特徴単語抽出処理を説明するフローチャートである。単語間のKL距離を示す図である。単語間の相互情報量の例を示す図である。本発明の情報処理装置の他の構成例を示すブロック図である。他の特徴単語抽出処理を説明するフローチャートである。パーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１情報処理装置，２１文書記憶部，２２形態素解析部，２３単語モデル記憶部，２４単語モデル記憶部，２５軸単語記憶部，２６軸単語取得部，２７特徴単語抽出部，２８特徴単語記憶部

Claims

軸単語を取得する取得手段と、
前記軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段と
を備えることを特徴とする情報処理装置。
前記抽出手段は、前記軸単語と近接する単語を、近接単語として前記テキストから抽出し、前記近接単語から、前記軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、前記特徴単語とする
ことを特徴とする請求項１に記載の情報処理装置。
前記抽出手段は、前記軸類似単語を、前記軸単語として利用する
ことを特徴とする請求項２に記載の情報処理装置。
軸単語を取得する取得ステップと、
前記軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップと
を含むことを特徴とする情報処理方法。
テキストから所定の単語を抽出する処理を行うプロセッサに実行させるプログラムにおいて、
軸単語を取得する取得ステップと、
前記軸単語を修飾する単語を、特徴単語として前記テキストから抽出する抽出ステップと
を含むことを特徴とするプログラム。