JP2006285418A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2006285418A
JP2006285418A JP2005101963A JP2005101963A JP2006285418A JP 2006285418 A JP2006285418 A JP 2006285418A JP 2005101963 A JP2005101963 A JP 2005101963A JP 2005101963 A JP2005101963 A JP 2005101963A JP 2006285418 A JP2006285418 A JP 2006285418A
Authority
JP
Japan
Prior art keywords
word
axis
words
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005101963A
Other languages
English (en)
Other versions
JP4524640B2 (ja
Inventor
Hiroshi Tateno
啓 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005101963A priority Critical patent/JP4524640B2/ja
Priority to US11/390,290 priority patent/US20060230036A1/en
Priority to CNA2006100898585A priority patent/CN1855102A/zh
Publication of JP2006285418A publication Critical patent/JP2006285418A/ja
Application granted granted Critical
Publication of JP4524640B2 publication Critical patent/JP4524640B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 軸単語を利用して特徴単語を抽出するようにする。
【解決手段】 ユーザより入力されたドメイン知識としての軸単語を利用して、テキスト(例えば、ドメインとしての1つの分野に係るテキスト)から、特徴的な特徴単語を抽出する。例えば、音楽の分野のテキストとしての音楽CDの音楽レビュー文から、楽曲やアーティストの音楽性を表す単語(特徴単語)を抽出したい場合、それ自体は具体的な音楽性を表さないが、例えば、「澄んだ」、「立体的」などのそれ自体が音楽性を表す単語で修飾されることが期待できる、「サウンド」、「スタイル」、「声」などの単語を軸単語として入力することで、元のテキストからその軸単語を修飾する単語が抽出される。軸単語を修飾する単語としてテキストから抽出された単語は、音楽レビュー文の内容、すなわち音楽CDの音楽性を表すのに適した単語である。
【選択図】 図1

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、テキストから、テキストの内容において特徴的な単語を適切に抽出することができるようにする情報処理装置および方法、並びにプログラムに関する。
文章(テキストデータ)の中から、文章の内容において重要な役割を持つ単語を選び出す特徴単語抽出技術は、テキストの効率的な分類やクラスタリングにおいて極めで重要である。
この特徴単語抽出技術には、単語重み付けに基づくヒューリスティックな手法としてのTF・IDF法(非特許文献1参照)や、統計的な手法としての文書に対するχ2値を利用する方法(非特許文献2参照)や特許文献1に紹介されている方法がある。また、学習用データとして文書とその分類クラスが与えられている場合、クラスに対するχ2値を利用する方法(非特許文献3参照)や情報利得を利用する方法(非特許文献4参照)などが知られている。
Salton, G., McGill, M.J., "Introduction to Modern Information Retrieval," McGraw-Hill, 1983. 長尾 et al, "日本語文献における重要語の自動抽出," 情報処理, Vol.17, No.2, 1976. Yang, Y., Pedersen, J.O., "A Comparative Study on Feature Selection in Text Categorization," Proc. of ICML-97, pp.412-420, 1997. Quinlan, J.R., "Induction of Decision Trees," Machine Leaning, 1(1), pp.81-106, 1986. 特開2001-67362号公報
しかしながら、これらの手法は、一般的なコーパスを対象としたものであり、純粋に単語の統計的な性質を利用するだけなので、文章の内容の専門性や話題の偏りに応じた単語を抽出することはできなかった。
例えば「音楽CD(Compact Disk)の音楽レビュー文(CDに記録された楽曲やアーティストを紹介する文章など)から、楽曲やアーティストの音楽性を表す単語を抽出する」といった、文章の内容に応じた分野(音楽分野)に依存した単語(音楽性を表す単語)を適切に抽出するができなかった。
本発明の情報処理装置は、軸単語を取得する取得手段と、軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段とを備えることを特徴とする。
抽出手段は、軸単語と近接する単語を、近接単語としてテキストから抽出し、近接単語から、軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、特徴単語とすることができる。
抽出手段は、軸類似単語を、軸単語として利用することができる。
本発明の情報処理方法は、軸単語を取得する取得ステップと、軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップとを含むことを特徴とする。
本発明のプログラムは、軸単語を取得する取得ステップと、軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップとを含むことを特徴とする。
本発明の情報処理装置および方法、並びにプログラムにおいては、軸単語が取得され、軸単語を修飾する単語が、特徴単語としてテキストから抽出される。
本発明によれば、テキストから、テキストの内容において特徴的な単語を抽出することができる。
以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。
さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。
請求項1に記載の情報処理装置は、
軸単語を取得する取得手段(例えば、図1の特徴単語抽出部27)と、
軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段(例えば、図1の特徴単語抽出部27)と
を備えることを特徴とする。
請求項2に記載の情報処理装置は、
抽出手段は、軸単語と近接する単語を、近接単語としてテキストから抽出し(例えば、図4のステップS2)、近接単語から、軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、特徴単語とする(例えば、図4のステップS4)
ことを特徴とする。
請求項3に記載の情報処理装置は、
抽出手段は、軸類似単語を、軸単語として利用する(例えば、図7の特徴単語抽出部31)
ことを特徴とする。
請求項4に記載の情報処理方法は、
軸単語を取得する取得ステップ(例えば、図4のステップS1)と、
軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップ(例えば、図4のステップS2乃至ステップS5)と
を含むことを特徴とする。
請求項5に記載のプログラムの各ステップの具体例も、請求項4に記載の情報処理方法の各ステップの発明の実施の形態における具体例と同様である。
図1は、本発明の情報処理装置1の構成例を示している。この情報処理装置1は、ユーザより入力されたドメイン知識としての軸単語を利用して、テキスト(例えば、ドメインとしての1つの分野に関するテキスト)から、特徴的な単語(以下、特徴単語と称する)を抽出する。
例えば、音楽の分野に関するテキストとしての音楽CDの音楽レビュー文から、楽曲やアーティストの音楽性を表す単語(特徴単語)を抽出したい場合、それ自体は具体的な音楽性を表さないが、例えば、「澄んだ」、「立体的」などのそれ自体が音楽性を表す単語により修飾されることが期待できる(例えば、そのような単語と共起しやすい)、「サウンド」、「スタイル」、「声」などといった単語を軸単語として入力することで、元のテキストからその軸単語を修飾する単語が抽出される。
軸単語を修飾する単語としてテキストから抽出された単語は、「澄んだ」、「立体的」など、音楽レビュー文の内容、すなわち音楽CDの音楽性(例えば、澄んだ楽曲で構成されているCDである等)を表すのに適した単語であるので、このように軸単語を入力して、その軸単語に応じた特徴単語を抽出することで、音楽レビュー文という音楽の分野に関するテキストから、その分野の特徴的な単語(音楽性を表す単語)を抽出することができる。
従来においては、例えば、「めったに出現しない単語」を特徴単語として抽出したい場合、その単語の条件を抽出手法そのものに組み入れる必要があったが、本発明によれば、軸単語を適宜選択することで、軸単語に応じた、ある特定の意味傾向を有する特徴単語を抽出することができる。
情報処理装置1の構成例を説明する。文書記憶部21には、特徴単語が抽出される文章(テキストデータ)が記憶されている。この例の場合、音楽CDのレビュー文が記憶されている。
形態素解析部22は、文書記憶部21に記憶されているテキストデータ(文章)を、単語(例えば、「サウンド」、「音像」、「硬貨」、「立体的」、「アルバム」、「する」など)に切り分けて、単語モデル生成部23に供給する。
単語モデル生成部23は、形態素解析部22から供給された各単語を、単語間の関連性をみるために数理モデル化し、その結果得られた単語モデルを単語モデル記憶部24に記憶する。
単語モデルとしては、PLSA(Probabilistic Latent Semantic Analysis)やSAM(Semantic Aggregate Model)などの確率モデルがある。これらは、文章と単語または単語と単語の共起の背後に潜在的な変数が存在し、その確率的な生起によって個々の表出が決定される。
PLSAは、「Hofmann, T., “Probabilistic Latent Semantic Analysis,” Proc. of Uncertainty in Artificial Intelligence, 1999.」に、SAMは、「持橋大地, 松本裕治, “意味の確率的表現,” 情処研報2002-NL-147, pp.77-84, 2002.」に紹介されている。
例えばSAMの場合、単語wiと単語wjの共起確率は、潜在的な確率変数c(予め決められたk個のc0,c1,・・・ck-1の値を取りうる変数)を用いて、式(1)で表され、式(1)から式(2)に示すように、単語wに対する確率分布P(c|w)を定義することができ、それが単語モデルとなる。式(1)中、確率変数cは潜在的な変数であり、確率分布P(w|c)および確率分布P(c)は、EMアルゴリズムによって求められる。
Figure 2006285418
Figure 2006285418
例えば、「サウンド」、「音像」、「硬貨」、「立体的」、「アルバム」、および「する」の単語wからは、図2に示すような単語モデル(P(ci|w)(i=0,1,2,3))が得られる。
なおSAMでは、単語との共起傾向(例えば、1つの文章でともに使用される回数)が似ている場合には、確率分布も類似するようになる。図3に示すように、「サウンド」、「音像」、「硬貨」、および「立体的」の単語1乃至単語3との共起傾向は類似するが(単語1と単語3との共起頻度が高く、単語2との共起頻度が低い傾向を有するが)、この場合「サウンド」、「音像」、「硬貨」、および「立体的」の確率分布は、図2に示すように同じような傾向を有する(P(c0|w)とP(c2|w)が大きく、P(c1|w)とP(c3|w)が小さい傾向を有する)。
一方、「サウンド」、「音像」、「硬貨」、および「立体的」は、「アルバム」および「する」と共起傾向が似ていないので(図3)、確率分布の傾向も、それらとは異なる(図2)。なお「する」のような一般的な単語は、離散一様分布に近づくことが知られている。
単語モデルとしては、PLSAやSAMなどの確率モデルの他、文書ベクトルや共起ベクトル、LSA(Latent Semantic Analysis)などで次元圧縮された意味ベクトルなどがあり、いずれを採用するかは任意である。なおPLSAやSAMは、このように潜在的な確率変数の空間で単語が表現されるので、通常の共起ベクトルなどを利用するよりも、意味的な傾向を把握しやすいとされている。
LSAは、「Deerwester, S. et al, "Indexing by latent semantic analysis," Journal of the Society for Information Science, 41(6), pp.391-407, 1990.」に紹介されている。
図1に戻り、軸単語記憶部25には、この例の場合、例えば「サウンド」、「スタイル」、「声」などの単語が、軸単語として記憶されている。
軸単語の収集は、いまの場合、ユーザが図示せぬ操作部を操作して入力するものとし、軸単語取得部26が、操作部を介して軸単語を取得し、軸単語記憶部25に記憶する。
なお軸単語の選定は、それ自体がドメインの特徴を表さないが、特徴単語で修飾されることが期待できる単語(共起しやすい単語)であれば任意であり、例えばある使用頻度以上の単語を軸単語とすることができる。
また軸単語のバリエーションは多い方が、幅広い特徴単語を抽出することができる。例えば、後述するように「音像」も軸単語となり得るが、意味的に「サウンド」と類似するので(両者とも音質に係る単語であるので)、「サウンド」を軸単語とすれば、「音像」を新たな軸単語とする必要性は低い。しかしながら例えば「テンポ」や「展開」といった「サウンド」に直交するような概念を表す単語を軸単語とすることで、「サウンド」等を利用して抽出できる特徴単語とは異なる特徴単語を抽出することができる。
特徴単語抽出部27は、単語モデル記憶部24に記憶された単語モデルを利用して、軸単語記憶部25に記憶されている軸単語を修飾するような単語(共起しやすい単語など)を、特徴単語として抽出し、特徴単語記憶部28に記憶する。
次に、特徴単語抽出処理を、図4のフローチャートを参照して説明する。
ステップS1において、特徴単語抽出部27は、軸単語記憶部25に記憶されている軸単語を1個選択する。
ステップS2において、特徴単語抽出部27は、単語モデル記憶部24に記憶されている単語モデルを利用して、ステップS1で選択した軸単語と近接する単語(以下、近接単語と称する)を選択する。
具体的には、特徴単語抽出部27は、単語モデルに応じた距離尺度を用いて、軸単語との単語間の距離を求め、その距離が一定値よりも小さい単語をその軸単語の近接単語とする。
距離尺度として、単語モデルが確率モデルである場合、Kullback-Leibler Divergence距離(以下、KL距離と称する)を用いることができ、単語モデルがベクトル空間法である場合、Euclid距離やコサイン距離を用いることができる。
単語モデルがSAMである場合、例えば図5に示すように、軸単語としての「サウンド」と、「音像」、「硬貨」、「立体的」、「アルバム」、および「する」とのそれぞれのKL距離は、0.015、0.012、0.040、0.147、および0.069となる。そして近接とみなす閾値を0.05とした場合は「音像」、「硬質」、および「立体的」が「サウンド」(軸単語)に対する近接単語となる。なおKL距離は、例えば、「サウンド」と「音像」間の場合、「サウンド」から「音像」への距離と、「音像」から「サウンド」への距離が異なるという方向性を有しているが、図5では、両者の距離の平均をKL距離としている。
次にステップS3において、特徴単語抽出部27は、ステップS1で選択した軸単語の軸類似単語を検出する。軸類似単語とは、軸単語と意味的に似ている単語である。
近接単語を選択する際に用いた単語モデルに応じた距離尺度は、一般的に、共起しやすい単語間または意味的に似た単語間において小さくなる。すなわち「軸単語と共起しやすい単語」または「軸単語と意味的に似た単語」がその軸単語の近接単語として選択される。
共起の度合いの指標としては、相互情報量、χ2値、Dice係数などがよく知られている。
ここでは軸単語と共起しやすい単語を抽出したいので、特徴単語抽出部27は、相互情報量、χ2値、Dice係数などを利用して、ステップS1で選択した軸単語と、ステップS2で選択した近接単語それぞれとの共起の度合いを算出し、その度合いが一定以下の単語を、軸単語と意味的に似ている結果近接単語として選択されたものとして、それを軸類似単語とする。
例えば、軸単語としての「サウンド」と、近接単語としての「音像」、「硬貨」、および「立体的」間の相互情報量は、図6に示すようになる。この例の場合、「サウンド」と「音像」の相互情報量は、「硬貨」および「立体的」との相互情報量に比べ小さく、「音像」は「サウンド」との共起がほとんどないことがわかる。すなわち「音像」は、「サウンド」と意味に似ている単語として近接単語として選択されており、「サウンド」の軸類似単語となる。
実際に、「音像」と「サウンド」は、音質にかかる単語で、同じような意味を有し、「サウンドが立体的である。」または「音像が立体的である。」のようにそれぞれ独立して利用され、それらが共起する場合はあまりない。
なお軸類似単語は、軸単語と意味的に類似する単語であるが、これは、軸単語(それ自体でドメインの特徴を表す単語ではなく、特徴単語により修飾されることが期待できる単語)になり得る単語であることを意味している。
次にステップS4において、特徴単語抽出部27は、ステップS2で選択した近接単語から、ステップS3で検出した軸類似単語を削除し、残った近接単語を、特徴単語として、特徴単語記憶部28に記憶する。
ステップS5において、特徴単語抽出部27は、すべての軸単語を選択したか否かを判定し、まだ選択していない軸単語が残っていると判定した場合、ステップS1に戻り、次の軸単語を選択し、ステップS2以降の処理を同様に実行する。
ステップS5で、すべての軸単語を選択したと判定された場合、処理は終了する。
以上のように軸単語を修飾するような単語(軸単語と共起する単語)を、特徴単語として抽出するようにしたので、例えば、「サウンド」を軸単語として入力しておけば、その軸単語を修飾する、「硬質」、「立体的」などの特徴単語(音楽性に関する単語)を、音楽レビュー文から抽出することができる。
すなわち、例えば音楽CDの音楽レビュー文を、以上のようにしてそれから抽出した特徴単語を強調して表示すれば、ユーザが、音楽性を表す単語を容易に認識することができる、音楽CD紹介画面をユーザに提示することができる。
また以上のようにして抽出された特徴単語をメタデータとして利用して、ユーザの嗜好を表す情報とのマッチングをとるようにすれば、音楽性においてよりユーザの嗜好に合う楽曲を推薦することができる。
通常メタデータには、音楽性とは関連の薄い単語(例えば、販売地域に関する単語、アーティストのアイドル性に関連する単語など)も含まれるので、これらの単語を含めてマッチングを取る場合に比べ、本発明により抽出された音楽性に関する特徴単語のみを利用してマッチングをとることにより、音楽性の観点からよりユーザの嗜好にあった楽曲を推薦することができる。なお当然、「容姿」、「アイドル」などを軸単語とし、アーティストのアイドル性に関する特徴単語を抽出しておけば、アイドル性の観点から楽曲推薦を行うこともできる。
また例えば、ABC株式会社の企業名を表す、「ABC」、「エビシ」、「ABC(株)」などのいずれか1つの単語を軸単語とすれば、新聞記事からABC株式会社の特徴を表す特徴単語(例えば、財務状況を表す「好調」、「順調」など)を抽出することができる。すなわち換言すれば、ABC株式会社に関連するドメイン知識を、1つの軸単語(「ABC」、「エビシ」、「ABC(株)」などのいずれか1つの単語)に代表させておくことができる。
このように本発明により抽出された特徴単語を利用することができる。
また以上においては、軸単語記憶部25に予め記憶された軸単語のみを利用したが、近接単語から削除した軸類似単語は、上述したように軸単語となり得るので、それを軸単語として追加して利用することもできる。
図7は、軸類似単語を軸単語として追加して利用する場合の情報処理装置1の構成例を示している。この情報処理装置1は、図1の特徴単語抽出部27に代えて、特徴単語抽出部31が設けられている。他の部分は、図1における場合と同様である。
この場合の特徴単語抽出処理を、図8のフローチャートを参照して説明する。
ステップS11乃至ステップS14においては、図4のステップS1乃至ステップS4における場合と同様の処理が行われるので、その説明は省略する。
ステップS15において、特徴単語抽出部31は、ステップS13で検出した軸類似単語を、軸単語として軸単語記憶部25に記憶する。
ステップS16において、特徴単語抽出部31は、ステップS15で追加された軸単語を含めて、すべての軸単語を選択したか否かを判定し、選択していない軸単語がまだ残っていると判定した場合、ステップS11に戻り、次の軸単語を選択し、ステップS2以降の処理を同様に実行する。
上述した特徴単語抽出処理などの一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアによって行う場合、例えば、その一連の処理は、図9に示されるような(パーソナル)コンピュータにプログラムを実行させることにより実現することができる。
図9において、CPU(Central Processing Unit)111は、ROM(Read Only Memory)112に記憶されているプログラム、またはハードディスク114からRAM(Random Access Memory)113にロードされたプログラムに従って各種の処理を実行する。RAM113にはまた、CPU111が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU111、ROM112、およびRAM113は、バス115を介して相互に接続されている。このバス115にはまた、入出力インタフェース116も接続されている。
入出力インタフェース116には、キーボード、マウス、入力端子などよりなる入力部118、CRT(Cathode Ray Tube),LCD(Liquid Crystal display)などよりなるディスプレイ、出力端子、並びにスピーカなどよりなる出力部117、ターミナルアダプタ、ADSL(Asymmetric Digital Subscriber Line)モデムや、LAN (Local Area Network)カード等より構成される通信部119が接続されている。通信部119は、インターネットなどの各種のネットワークを介しての通信処理を行う。
入出力インタフェース116にはまた、ドライブ120が接続され、磁気ディスク(フロッピディスクを含む)131、光ディスク(CD-ROM(Compact Disk-Read Only Memory) DVD Digital Versatile Disk)を含む)132、光磁気ディスク(MD(Mini-Disk)を含む)133、或いは半導体メモリなどのリムーバブルメディア(記録媒体)134が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じてハードディスク114にインストールされる。
なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
本発明の情報処理装置の構成例を示すブロック図である。 単語モデルの例を示す図である。 共起頻度の例を示す図である。 特徴単語抽出処理を説明するフローチャートである。 単語間のKL距離を示す図である。 単語間の相互情報量の例を示す図である。 本発明の情報処理装置の他の構成例を示すブロック図である。 他の特徴単語抽出処理を説明するフローチャートである。 パーソナルコンピュータの構成例を示すブロック図である。
符号の説明
1 情報処理装置, 21 文書記憶部, 22 形態素解析部, 23 単語モデル記憶部, 24 単語モデル記憶部, 25 軸単語記憶部, 26 軸単語取得部, 27 特徴単語抽出部, 28 特徴単語記憶部

Claims (5)

  1. 軸単語を取得する取得手段と、
    前記軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出手段と
    を備えることを特徴とする情報処理装置。
  2. 前記抽出手段は、前記軸単語と近接する単語を、近接単語として前記テキストから抽出し、前記近接単語から、前記軸単語と意味的に類似する軸類似単語を削除し、残った近接単語を、前記特徴単語とする
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記抽出手段は、前記軸類似単語を、前記軸単語として利用する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 軸単語を取得する取得ステップと、
    前記軸単語を修飾する単語を、特徴単語としてテキストから抽出する抽出ステップと
    を含むことを特徴とする情報処理方法。
  5. テキストから所定の単語を抽出する処理を行うプロセッサに実行させるプログラムにおいて、
    軸単語を取得する取得ステップと、
    前記軸単語を修飾する単語を、特徴単語として前記テキストから抽出する抽出ステップと
    を含むことを特徴とするプログラム。
JP2005101963A 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム Expired - Fee Related JP4524640B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005101963A JP4524640B2 (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム
US11/390,290 US20060230036A1 (en) 2005-03-31 2006-03-28 Information processing apparatus, information processing method and program
CNA2006100898585A CN1855102A (zh) 2005-03-31 2006-03-31 信息处理装置,信息处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005101963A JP4524640B2 (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2006285418A true JP2006285418A (ja) 2006-10-19
JP4524640B2 JP4524640B2 (ja) 2010-08-18

Family

ID=37084275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005101963A Expired - Fee Related JP4524640B2 (ja) 2005-03-31 2005-03-31 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20060230036A1 (ja)
JP (1) JP4524640B2 (ja)
CN (1) CN1855102A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013214239A (ja) * 2012-04-03 2013-10-17 Nippon Telegr & Teleph Corp <Ntt> 重要語句抽出装置、方法、及びプログラム
JP2015121858A (ja) * 2013-12-20 2015-07-02 ヤフー株式会社 データ処理装置、及びデータ処理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249871B2 (en) * 2005-11-18 2012-08-21 Microsoft Corporation Word clustering for input data
US20110044447A1 (en) * 2009-08-21 2011-02-24 Nexidia Inc. Trend discovery in audio signals
CN102375848B (zh) * 2010-08-17 2016-03-02 富士通株式会社 评价对象聚类方法和装置
JP5605083B2 (ja) * 2010-08-25 2014-10-15 富士ゼロックス株式会社 映像再生装置及び映像再生プログラム
JP2013054796A (ja) * 2011-09-02 2013-03-21 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137898A (ja) * 1994-11-08 1996-05-31 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
JPH11203311A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法
JP2004054882A (ja) * 2002-05-27 2004-02-19 Ricoh Co Ltd 類義語検索装置、方法、プログラム及び記憶媒体

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
BR9606931A (pt) * 1995-01-23 1997-11-11 British Telecomm Sistema de acesso de informações e processo para monitoração de inserção de informações para um armazenamento de dados
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US6442540B2 (en) * 1997-09-29 2002-08-27 Kabushiki Kaisha Toshiba Information retrieval apparatus and information retrieval method
US6330576B1 (en) * 1998-02-27 2001-12-11 Minolta Co., Ltd. User-friendly information processing device and method and computer program product for retrieving and displaying objects
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
JP2002215659A (ja) * 2001-01-18 2002-08-02 Noriaki Kawamae 情報検索支援方法および情報検索支援システム
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
CA2373568C (en) * 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US7598509B2 (en) * 2004-11-01 2009-10-06 Cymer, Inc. Laser produced plasma EUV light source
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP3921523B2 (ja) * 2001-12-27 2007-05-30 独立行政法人情報通信研究機構 テキスト生成方法及びテキスト生成装置
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
GB2391967A (en) * 2002-08-16 2004-02-18 Canon Kk Information analysing apparatus
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
JP3944102B2 (ja) * 2003-03-13 2007-07-11 株式会社日立製作所 語義関連ネットワークを用いた文書検索システム
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
JP2005266198A (ja) * 2004-03-18 2005-09-29 Pioneer Electronic Corp 音響情報再生装置および音楽データのキーワード作成方法
JP2006099388A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びテキストマイニングシステム
JP2006099423A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
US20060085181A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Keyword extraction apparatus and keyword extraction program
US7529765B2 (en) * 2004-11-23 2009-05-05 Palo Alto Research Center Incorporated Methods, apparatus, and program products for performing incremental probabilistic latent semantic analysis
GB2442650A (en) * 2005-07-12 2008-04-09 Gsi Group Corp System and method for high power laser processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137898A (ja) * 1994-11-08 1996-05-31 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法
JPH11203311A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP2004054882A (ja) * 2002-05-27 2004-02-19 Ricoh Co Ltd 類義語検索装置、方法、プログラム及び記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013214239A (ja) * 2012-04-03 2013-10-17 Nippon Telegr & Teleph Corp <Ntt> 重要語句抽出装置、方法、及びプログラム
JP2015121858A (ja) * 2013-12-20 2015-07-02 ヤフー株式会社 データ処理装置、及びデータ処理方法

Also Published As

Publication number Publication date
US20060230036A1 (en) 2006-10-12
JP4524640B2 (ja) 2010-08-18
CN1855102A (zh) 2006-11-01

Similar Documents

Publication Publication Date Title
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
CN101526938B (zh) 文档处理装置
JP5391632B2 (ja) ワードと文書の深さの決定
JP2008542951A (ja) 関連性ネットワーク
CN111813930B (zh) 相似文档检索方法及装置
JP7272060B2 (ja) 生成方法、学習方法、生成プログラム、及び生成装置
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
WO2020172649A1 (en) System and method for text categorization and sentiment analysis
JPWO2010041420A1 (ja) 情報分析装置、情報分析方法、及びプログラム
JP2009151390A (ja) 情報分析装置、及び情報分析プログラム
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
JP2006285419A (ja) 情報処理装置および方法、並びにプログラム
JP2009140263A (ja) 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
Khan et al. Multimodal rule transfer into automatic knowledge based topic models
JP4938515B2 (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
KR100837797B1 (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
WO2020004401A1 (ja) 回答文選択装置、方法、およびプログラム
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP6114980B2 (ja) 楽曲処理装置および楽曲処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100506

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100519

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees