JP5982174B2 - 類似度算出装置、類似番組検索装置、およびそのプログラム - Google Patents

類似度算出装置、類似番組検索装置、およびそのプログラム Download PDF

Info

Publication number
JP5982174B2
JP5982174B2 JP2012113602A JP2012113602A JP5982174B2 JP 5982174 B2 JP5982174 B2 JP 5982174B2 JP 2012113602 A JP2012113602 A JP 2012113602A JP 2012113602 A JP2012113602 A JP 2012113602A JP 5982174 B2 JP5982174 B2 JP 5982174B2
Authority
JP
Japan
Prior art keywords
expression
similarity
text data
program
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012113602A
Other languages
English (en)
Other versions
JP2013239132A (ja
Inventor
山田 一郎
一郎 山田
宮崎 勝
勝 宮崎
田中 英輝
英輝 田中
弘智 古宮
弘智 古宮
住吉 英樹
英樹 住吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012113602A priority Critical patent/JP5982174B2/ja
Publication of JP2013239132A publication Critical patent/JP2013239132A/ja
Application granted granted Critical
Publication of JP5982174B2 publication Critical patent/JP5982174B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然言語処理に関する。特に、本発明は、テキスト間の類似性を算出する類似度算出装置に関する。
ある動画コンテンツ(放送番組等)に類似した他の動画コンテンツを探し出す際に、コンテンツに関する番組の概要文を用いて類似性を評価する技術が存在する。この技術の基礎となるのは、自然言語で書かれたテキスト間の類似性を客観的な数値で評価する手法である。例えば、特許文献1には、番組の概要文において使われている単語を抽出し、抽出された2つの単語集合の重複の度合いを指標として類似性を評価する技術が開示されている。なお、放送番組に関する概要文は、例えば、放送波で伝送されるEPG(電子番組表)のデータから取得することができる。
特開2011−043908号公報
しかしながら、特許文献1等に記載されている従来技術では、表層的な単語の出現状況のみによって類似性を評価していた。つまり、従来技術では、表層的に同じ表記の単語のみを一致していると判断し、類似しているものの表記が異なる単語は別の単語と判断されるため、類似性を正当に評価するのに充分ではない場合もあった。使われる単語にも揺れがある場合に類似性を正当に評価できないことがある。使われる単語に揺れがある場合がその典型であり、例えば「地震」と「震災」は類似した単語だが、これらの2つの単語は、表層としては別の単語として扱われていた。また、テレビ等の放送番組の概要文に関しても、その他の一般的なテキストに関しても、テキスト全体の長さが短い場合には、表層に出現する単語の量が不十分であり、またテキスト長が短いが故に統計的に単語の出現傾向の揺れが生じ易い。
これらのため、表記の揺れなどにより、テキスト間の類似性を正当に評価できない場合があるという問題があった。
本発明は、上記のような事情に鑑みて為されたものであり、テキスト長が短かったり、テキスト中に含まれる表記の揺れがあったりする場合(つまり、表層に出現する表現の傾向に偏りがある場合)にも、テキスト間の類似度を正当に評価することのできる類似度算出装置を提供する。また、そのような類似度算出装置を用いて特定の番組に類似する番組を、多数の番組から検索する類似番組検索装置を提供する。
上記の課題を解決するため、本発明は、あらかじめ獲得した言語表現間の関係(ここでの関係とは、例えば、類似関係、因果関係、上位下位関係、属性関係など)を利用して、テキスト中の表現傾向を増幅する手段を用いる。また、増幅後の表現傾向同士を比較することにより、元のテキストの類似度を算出する手段を用いる。また、増幅後の表現傾向の精度を良くするために、元のテキストとの間の類似性が低い要素が増幅後の表現傾向に影響しないようにするためのフィルタリング手段を用いるようにしても良い。これらの手段を用いた複数の態様は、下記の通りである。
[1]本発明の一態様による類似度算出装置は、テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部とを具備する。
ここで、表現とは、原語による表現の要素である。表現とは、例えば、文字や、単語や、文節や、文字のNグラム(N個の連鎖)や、単語のNグラムなどである。
また、表現傾向情報とは、あるテキストデータ内でいかなる表現が出現する傾向があるかを表わすデータである。例えば、あるテキストデータ内に出現する表現をすべて列挙したデータは表現傾向情報である。また例えば、あるテキストデータ内に出現する表現ごとの出現頻度(回数)を表わすデータは表現傾向情報である。具体例としては、あるテキストデータ内に出現する単語をすべて抽出してコンマ「,」等で区切って列挙したデータは表現傾向情報である。
また、表現傾向情報を増幅するということは、次のようなデータの操作である。即ち、表現が出現する傾向を表わす情報の空間内で、元の表現傾向を維持したまま、あるいは元の表現傾向情報からのブレを所定範囲内に留めたまま、表現傾向情報に含まれる表現の種類を増やしたり表現の出現頻度の値を全体的に上げたりすることである。
上記の構成によれば、類似性算出部は、第1および第2の増幅後表現傾向情報の間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する。つまり、類似性算出部が算出する類似度として、元のテキストデータの短さや、表層に出現する表記の揺れの影響を排除した値を得ることができる。
[2]また、本発明の一態様は、上記の類似度算出装置において、前記表現増幅部は、抽出された前記関連表現に関連する関連表現を抽出することによって前記表現傾向情報を増幅するとともに、前記表現増幅部は、前記第1のテキストデータを元に増幅した前記第1の増幅後表現傾向情報に含まれる表現と、前記第2のテキストデータを元に増幅した前記第2の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに前記第1のテキストデータに対応するノードと、前記第2のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わす関連性データを生成し、前記類似性算出部は、前記関連性データに基づいて算出される前記第1のテキストデータと前記第2のテキストデータとの間の関連性の強さを、前記類似度として算出する、ことを特徴とする。
この構成により、表現増幅部は、表現抽出部によって抽出された表現に関連する関連表現を抽出するとともに、その関連表現に関連する関連表現をも抽出する。言い換えれば、表現増幅部が、再帰的に関連情報を抽出するようにして良い。関連性データは、典型例としては、ノード間の関連の有無を表わすグラフ構造のデータとして表現される。関連性データにおいて、特定の2つのノード間の関連の有無は、当該2つのノード間のエッジの有無で表わされる。そして、上記の構成に基づき、一般には、第1のテキストデータを元に増幅した結果得られるノードと、第2のテキストデータを元に増幅した結果得られるノードとの間に、共通のノードが存在し得る。これは、第1のテキストデータに含まれる表現に関連する関連表現(多段階の関連の結果として得られる関連表現も含む)と、第1のテキストデータに含まれる表現に関連する関連表現(同様)とが、同一の表現になり得ることと同じことである。つまり、関連性データがグラフ構造で表わされる場合、第1のテキストデータに対応するノードと第2のテキストデータに対応するノードとが、0個以上のノードを介して連結される状態となる。また、第1および第2のテキストデータは、それぞれ複数の表現を含んで成るものであるので、一般に、第1のテキストデータに対応するノードと第2のテキストデータに対応するノードとは、複数のパスを経て連結される状態となり得る。そして、類似性算出部は、このような関連性データを元に、言い換えればグラフ構造におけるノード間の連結の態様に応じて、第1のテキストデータと第2のテキストデータとの間の関連性の強さを、類似度として算出する。
[3]また、本発明の一態様は、上記[2]の類似度算出装置において、前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから、前記第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、前記関連度スコアの総和を、前記類似度として算出する、ことを特徴とする。
その一態様として、ノード間の関連性(遷移確率の値)を要素とする遷移行列を用いて、その関連性に基づくノード間のランダムな(言い換えれば、確率変数に基づく)遷移を複数回繰り返したときの、あるノードから他のノードへの遷移確率値を当該ノード間の関連性の強さとする。さらにその一態様として、上記のようなノード間の遷移を無限回繰り返したときの、あるノードから他のノードへの遷移確率の収束値を当該ノード間の関連性の強さとする。
また、第1のテキストデータに対応するノードから、第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、それぞれの関連度スコアの総和を、両テキストデータ間の類似度として算出することにより、良好な結果が得られる。
[4]また、本発明の一態様は、上記[2]の類似度算出装置において、前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから前記第2のテキストデータに対応するノードまでの前記関連度スコアを、前記類似度として算出する、ことを特徴とする。
この構成では、第1のテキストデータに対応するノードから第2のテキストデータに対応するノードまでの関連度スコアを、両テキストデータ間の類似度として算出する。この場合、類似度を算出するための計算量を少なく済ませることができる。
[5]また、本発明の一態様は、上記[1]の類似度算出装置において、前記類似性算出部は、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の類似度を算出するものであり、前記第1の増幅後表現傾向情報は、前記第1のテキストデータに含まれる表現と、前記第1のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報であり、前記第2の増幅後表現傾向情報は、前記第2のテキストデータに含まれる表現と、前記第2のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報である、ことを特徴とする。
この構成による類似度算出装置は、[1]に記した類似度算出装置の構成を前提とする。よって、関連表現抽出部は、「表現と前記表現に関連する関連表現との関係を用いて」関連表現を抽出する。表現増幅部は、抽出された関連表現によって表現傾向情報を増幅する。一態様としては、表現抽出部が抽出した表現傾向情報に、関連表現のリストを付加することによって、増幅後表現傾向情報とする。別の例としては、得られた関連表現のリストそのものを、増幅後表現傾向情報とする。
[6]また、本発明の一態様は、上記[5]の類似度算出装置において、前記表現増幅部は、抽出された前記関連表現のうち、前記テキストデータとの間の類似性が所定の閾値未満である前記関連表現を除外する関連表現フィルタリング部をさらに備えることを特徴とする。
この構成により、関連表現フィルタリング部は、関連表現のうち、テキストデータとの間の関係が薄いものを除外する。これにより、関連表現を用いて増幅された増幅後表現傾向情報の精度がより高まる。一態様としては、関連表現フィルタリング部は、関連表現抽出部によって抽出された関連表現の各々が、当該関連表現との間で直接関係を有する表現以外の、元のテキストデータに含まれる表現との間での類似度が所定の閾値よりも高いか否かに応じて、その関連表現を除外するかどうかを決定する。
[7]また、本発明の一態様による類似番組検索装置は、上記の類似度算出装置を備え、指定された番組に関する番組概要文テキストデータを前記第1のテキストデータとして前記類似度算出装置に入力するとともに、他の番組に関する番組概要文テキストデータを前記第2のテキストデータとして前記類似度算出装置に入力し、前記類似度算出装置によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、ことを特徴とする。
[8]また、本発明の一態様は、コンピューターを、テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部と、を具備する類似度算出装置として機能させるプログラムである。
本発明によれば、テキストデータが十分に長くない場合や、テキストデータの表層に出現する表現に偏りがある場合などにも、テキストデータ間の類似性を正当に評価できるようになる。また、そのような正当な評価を、放送番組等の概要文に適用することにより、番組間の類似性を正当に評価することができるようになる。そして、指定された番組に対する正当な類似度に基づいて、比較対象である他の番組を検索することができるようになる。
本発明の第1の実施形態による類似番組検索装置の機能構成を示すブロック図である。 同実施形態による番組情報記憶部のデータ構成の例を示す概略図である。 同実施形態による類似番組検索装置の全体的な処理の手順を示したフローチャートである。 同実施形態による関連単語フィルタリング部が関連単語をフィルタリングする処理の手順を示すフローチャートである。 本発明の第2の実施形態による類似番組検索装置の構成を示すブロック図である。 同実施形態による関連グラフ構築部が構築するグラフのデータ例を示す概略図である。 同実施形態による関連グラフ構築部が構築するグラフのデータにおいて、「手法1」を用いて文書ノード間の類似度を算出する際に用いる、関連度スコアの範囲を示す概略図である。 同実施形態による関連グラフ構築部が構築するグラフのデータにおいて、「手法2」を用いて文書ノード間の類似度を算出する際に用いる、関連度スコアの範囲を示す概略図である。
[第1の実施形態]
本発明の一実施形態について、以下で、図面を参照しながら説明する。
図1は、本実施形態による類似番組検索装置の機能構成を示すブロック図である。図示するように、類似番組検索装置2は、類似度算出装置1と、番組情報記憶部11と、ランキング部17と、検索結果出力部18とを含んで構成される。また、類似度算出装置1は、文書読込部12と、単語抽出部13(表現抽出部)と、関連単語抽出部14(関連表現抽出部)と、関連単語フィルタリング部15(関連表現フィルタリング部)と、類似性算出部16とを含んで構成される。なお、関連単語抽出部14と、関連単語フィルタリング部15とを合わせたものが、表現増幅部25である。
類似度算出装置1は、テキスト間の類似度を算出するものである。
番組情報記憶部11は、放送等の番組に関する情報を記憶する。番組情報記憶部11は、番組のコンテンツそのもののデータ(映像、音声等)と、その番組を説明した番組概要文のテキストデータとを記憶する。なお、番組情報記憶部11やその他の情報記憶手段としては、磁気ディスク装置や半導体メモリなどを用いる。
文書読込部12は、番組情報記憶部11に記憶されている番組概要文のテキストを順次読み込む。
単語抽出部13は、テキストデータから単語(表現)を抽出することによって表現の種類の出現傾向を表わす表現傾向情報を求める。具体的には、単語抽出部13は、文書読込部12によって読み込まれた番組概要文のテキストの形態素解析処理を行い、番組概要文に含まれる単語(名詞や動詞等の表現)を抽出する。なお、単語抽出部13が抽出した単語のリスト(例えば、コンマで区切られた単語を列挙したデータ)は、上記の表現傾向情報である。形態素解析処理は既存の技術を利用することにより、実行可能である。例えば、形態素解析器MeCab(Yet Another Part-of-Speech and Morphological Analyzer)を利用できる(参考URL:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html)。
関連単語抽出部14は、単語抽出部13が抽出した単語のうちの名詞に対して、関連する単語(関連表現)の抽出を行なう。このために、関連単語抽出部14は、予め単語間の関係を獲得して内部の記憶手段(不図示)に保持しておく。ここで、単語間の関係とは、類似関係や、因果関係や、上位下位関係や、属性関係や、あるものとその材料との関係や、ある場所とその場所の名物との関係などである。単語間の関係を予め獲得しておくためには、例えば、ウェブから得られるテキストなどを元として、単語間関係獲得ツールなどを利用する。単語間関係獲得ツール自体は既存技術を利用して実現できる。一例として、上位下位関係は、日本語で「XはYである」あるいは「XはYの一種である」などと言えるときにXとYとの間で成り立つ関係であり、この場合にXは下位概念であり、Yは上位概念である。上位下位関係の単語を獲得するには、参考URL[http://alaginrc.nict.go.jp/hyponymy/]にも記載された手法を利用することができる。この手法では、インターネットを介して、ウェブ上の事典等からXML(Extensible Markup Language)形式のデータを取得し、予め機械学習した結果を用いて、上位概念の単語と下位概念の単語とのペアを獲得する。この手法により数百万組の関係を獲得できる。また、意味的関係抽出ツールを利用して、因果関係や、場所と名物との関係や、音楽家と曲名との関係など、様々な意味的関係を獲得する。意味的関係抽出ツール自体は、参考URL[http://alaginrc.nict.go.jp/resources/nictmastar/resource-info/abstract.html]などにも記載されているように、既存技術を利用して獲得できる。なお、これらのツールを使わず、手作業で単語間の関係を獲得・蓄積して、関連単語抽出部14で用いるようにしても良い。
関連単語フィルタリング部15は、関連単語抽出部14が獲得した関連単語(名詞)のフィルタリングを行なう。言い換えれば、関連単語フィルタリング部15は、関連単語抽出部14によって抽出された関連単語のうち、番組概要文との間の類似性が所定の閾値未満(つまり、類似度が低い)である関連単語を除外する。即ち、関連単語フィルタリング部15は、関連単語抽出部14が獲得した関連単語のうち、元の番組概要文の文脈と関係のない関連単語を削除する。このフィルタリング処理の詳細については、後述する。
つまり、関連単語抽出部14と関連単語フィルタリング部15とを含んでなる表現増幅部25は、単語(表現)とその単語と関連単語(関連表現)との間の所定の関係(類似関係など)を用いて、単語抽出部13によって抽出された表現傾向情報を増幅し、増幅後表現傾向情報を出力する。つまり、単語抽出部13によって抽出された表現傾向情報を基とし、関連単語抽出部14が抽出した関連単語のうち、関連単語フィルタリング部15によって除外されなかった関連単語のリストを加えたものが、増幅後表現傾向情報である。
類似性算出部16は、番組概要文dに関連して得られた関連単語フィルタリングの結果と、他の番組概要文dからdMまでのそれぞれに関連して得られた関連単語フィルタリングの結果との間の類似性を計算する。類似性算出部16が算出するこの類似性は、即ち、番組概要文dと、番組概要文dからdMまでのそれぞれとの間の類似性を表わす。
ランキング部17は、類似性算出部16が算出した、番組概要文dと、番組概要文dからdMまでのそれぞれとの間の類似性に基づき、番組概要文dからdMをランキングして出力する。このランキングは、即ち、それぞれの番組概要文dからdMに対応する番組コンテンツのランキングである。
検索結果出力部18は、ランキング部17が出力するランキング情報(ランキングされる個々の番組のスコア(類似度)も含む)を、指定された番組(番組概要文dに対応)に類似する検索結果として出力する。ランキング部は、この検索結果を、テキストデータの形式やHTML(Hypertext Markup Language)データの形式で出力する。
図2は、番組情報記憶部11のデータ構成の例を示す概略図である。図示するように、番組情報記憶部11は、表形式のデータ構造を有しており、番組概要文と番組コンテンツの各項目を備える。この表の1行が、1番組に相当する。番組概要文の項目は、番組内容等を表わすテキストデータを格納する。番組コンテンツの項目は、テレビ番組の場合の映像データや、ラジオ番組の場合の音声データ等を格納する。図示する例では、番組情報記憶部11は、d,d,・・・,dの(M+1)個の番組概要文を記憶している。
次に、類似番組検索装置2の動作について説明する。
図3は、類似番組検索装置2の処理の手順を示したフローチャートである。以下、このフローチャートに沿って、説明する。
まず、ステップS01において、文書読込部12は、番組情報記憶部11に記憶されている番組概要文の中から、ユーザー等によって指定された一つの番組概要文(d)を読み込む。ここで読み込まれる番組概要文の具体例は、下の表1に示す通りである。表1に示すように、番組概要文は、テキストデータであり、番組のタイトルおよびサブタイトルと、番組内容を説明する概要文とを含んでいる。
Figure 0005982174
次に、ステップS02において、単語抽出部13が、上記の番組概要文に含まれる単語を抽出する。この際、抽出対象の単語の品詞として、(1)名詞のみ、(2)名詞と動詞、(3)名詞と動詞と形容詞など、複数の組合せであっても良い。なお、助詞や助動詞等は、あまり文章の特徴を表わすものではないため、抽出対象に含めない場合が多い。ここでは、名詞のみを抽出した場合の単語リストを、下の表2に示す。
Figure 0005982174
次に、ステップS03において、関連単語抽出部14が、単語抽出部13によって抽出された単語に関連する単語(関連単語)を抽出する。ここで、関連する単語とは、上位下位関係、因果関係、場所と名物の関係、モノとその素材の関係など、様々な関係を利用することができる。関連単語抽出部14が関連単語を抽出する際には、一種類だけ(例えば上位下位関係だけ)に限定された関係を利用しても良いし、あるいは、複数種類の関係の組み合わせ(例えば、上位下位関係、因果関係、場所と名物の関係、モノとその素材の関係)を全て利用しても良い。表2に列挙された単語群に対して、全ての関係を利用して取り出した場合の関連単語の一部分の例を表3から表6までに示す。
Figure 0005982174
表3は、上位下位関係により抽出された関連単語のリストである。なお、表3では、「くさや菌」、「秘密」、「新島」、「干物」、「スタジオパーク」という単語に関連する関連単語の一部のみを示し、その他を省略している。
Figure 0005982174
表4は、因果関係により抽出された関連単語のリストである。なお、表4では、「塩」、「微生物」、「塩水」という単語に関連する関連単語の一部のみを示し、その他を省略している。
Figure 0005982174
表5は、あるものとその材料という関係により抽出された関連単語のリストである。なお、表5では、「魚」、「干物」、「塩」という単語に関連する関連単語の一部のみを示し、その他を省略している。
Figure 0005982174
表6は、場所とその場所の名物という関係により抽出された関連単語のリストである。なお、表5では、「東京」という単語に関連する関連単語の一部のみを示し、その他を省略している。
次に、ステップS04において、関連単語フィルタリング部15が、関連単語抽出部14によって抽出された関連単語について、元の番組概要文との関連性を評価することにより、その番組概要文における文脈とは関係のないものを除外する。このフィルタリング処理の詳細な手順については、後で別の図を参照しながら説明する。
次のステップS05からS08までの処理は、それぞれ、既に述べたステップS01からS04までの処理と同様の処理である。但し、ステップS01からS04までの処理の対象が番組概要文dであったのに対し、ステップS05からS08までの処理の対象は、d以外、即ち、dからdまでのいずれかである。
次のステップS09において、類似性算出部16は、番組概要文間の類似性を算出する。具体的には、類似性算出部16は、指定された対象番組の番組概要文dから単語抽出部13によって抽出された単語のリストと、比較対象となる番組の番組概要文(dからdまでのいずれか)から単語抽出部13によって抽出された単語のリストとを入力とする。また、類似性算出部16は、番組概要文dを元に抽出された関連単語フィルタリング結果と、比較対象となる番組の番組概要文(dからdまでのいずれか)を元に抽出された関連単語フィルタリング結果をも入力とする。そして、類似性算出部16は、既存技術による手法を用いて、両方の単語集合の間の類似度を計算する。類似度の計算方法としては様々な手法を利用可能であるが、一例としては、単語の出現状況を表わす単語出現ベクトル間のコサイン類似度を計算する方法を利用できる。この方法の概要は次の通りである。即ち、ある文書を元に抽出される関連単語の種類数をN(Nは、例えば、数万から数十万程度の値)としたとき、そのうちの第i番目(1≦i≦N)の関連単語の出現頻度の値を要素とするN次元のベクトルを求める。ここで、出現頻度は、0か1のいずれかの値に限定しても良いし、関連単語のリストにおける出現回数をカウントした値としても良い。このように求めた2つのN次元ベクトルvとvの間のコサイン類似度は、次の式で算出される。なお、番組概要文dを元に抽出された単語およびその関連単語(第1の増幅後表現傾向情報)がvに対応し、番組概要文d〜dMのいずれかを元に抽出された単語およびその関連単語(第2の増幅後表現傾向情報)がvに対応する。
(コサイン類似度)=(v・v)/(|v|・|v|)
但し、上式において、分子における(v・v)は、両ベクトルの内積である。また、分母における|v|と|v|は、それぞれのベクトルのノルム(大きさ)である。
そして、類似性算出部16は、現在の比較対象番組に関して算出された類似度を、データベース(不図示)に格納する。
ステップS10において、類似番組検索装置2は、番組概要文d〜dの全てについて、ステップS05からS09までの処理を終えたか同かを判定する。そして、終えていた場合(ステップS10:YES)には次のステップS11に進み、終えていなかった場合(ステップS10:NO)には未処理の番組概要文を処理するためにステップS05に戻る。
ステップS11に進んだ場合には、ランキング部17が、類似性算出部16によって算出された類似度に基づき、類似度の大きい順に番組概要文d〜dをランキングする。これは、番組概要文d〜dにそれぞれ対応する番組コンテンツをランキングすることと同じ意味を持つ。また、検索結果出力部18は、ランキング部17から出力された番組関連文ごとの類似度の情報およびランキングの情報に基づき、番組概要文をランキングした形式で出力する。検索結果出力部18は、例えば、HTML形式のランキングページを出力し、ユーザーがそのページから番組コンテンツデータにリンクをたどってアクセスできるようにする。
図4は、関連単語フィルタリング部15によるフィルタリング処理の詳細な手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップS21において、関連単語フィルタリング部15は、関連単語抽出部14によって抽出された関連単語の中から1つを選択する。
次にステップS22において、関連単語フィルタリング部15は、ステップS21において選択した関連単語を、暫定的に、除外対象として設定する。
次にステップS23において、関連単語フィルタリング部15は、番組概要文内の単語のうち未処理のものを一つ選択する。但し、このとき、ステップS21において直近で選択した関連単語に直接関連している番組概要文内の単語を除外する。言い換えれば、関連単語フィルタリング部15は、単語抽出部13が当該番組概要文から抽出した単語リストから、ステップS21において直近で選択した関連単語に直接関連している単語を除外し、残りの単語の中の一つを選択する。
次にステップS24において、関連単語フィルタリング部15は、ステップS21で選択した関連単語と、ステップS23で選択した番組概要文内の一単語との間の類似性が所定の閾値以上であるかどうかを判定する。両単語間の類似度が閾値以上である(即ち、類似している度合いが高い)場合(ステップS24:YES)には次のステップS25に進み、類似度が閾値未満である(即ち、類似している度合いが低い)場合(ステップS24:NO)にはステップS26に飛ぶ。
ここでの単語間の類似性評価は、既存の分布類似度などの指標を利用できる。一例としては、実際のテキスト等における出現頻度に基づいて大量の種類の単語をクラスタリングし、そのクラスタリングの結果から、単語のクラスへの所属確率の分布を求める。そしてこの確率分布間の距離から単語間の類似度を計算することが出来る。例えば、係り受けに基づいた単語のクラスタリングについては、下記の文献を参考とすることができる。
参考文献:風間淳一,Stijn De Saeger,鳥澤健太郎,村田真樹,“係り受けの確率的クラスタリングを用いた大規模類似語リストの作成”,言語処理学会第15回年次大会,pp. 84-87,2009年
ステップS25に進んだ場合、関連単語フィルタリング部15は、ステップS21において選択した関連単語を、除外対象から取り除く。
次にステップS26において、関連単語フィルタリング部15は、番組概要文内の全単語について、ステップS23からS25までの処理を終えたかどうかを判定する。番組概要文内の全単語の処理を終えた場合(ステップS26:YES)には、次のステップS27に進む。番組概要文内の全単語の処理をまだ終えていない場合(ステップS26:NO)には、次の単語を処理するためにステップS23に戻る。
次にステップS27において、関連単語フィルタリング部15は、当該番組概要文に関して関連単語抽出部14から出力された全ての関連単語について、ステップS21からS26までの処理を終えたかどうかを判定する。全ての関連単語についての処理を終えた場合(ステップS27:YES)には、このフローチャート全体の処理を終了する。全ての関連単語についての処理を終えておらず、まだ関連単語が残っている場合(ステップS27:NO)には、次の関連単語の処理のためにステップS21に戻る。
つまり、ステップS21において選択した関連単語が、ステップS23で選択される単語のうちの1個以上に関して、ステップS24において類似度が所定閾値以上であると判定された場合には、その関連単語は、関連単語のリストからは除外されずに残る。逆に、ステップS21において選択した関連単語が、ステップS23で選択される単語のいずれとの間でも、所定閾値以上の類似度とはならない場合には、その関連単語は関連単語のリストから除外される。これにより、関連単語による増幅の際に、元の番組概要文の文脈に合わない関連単語が除外される。よって、類似性の算出の際の精度が上がる。
一例として、表1で示した番組概要文に含まれる「秘密」という単語は、干物である「くさや」の独特の味がなぜ生じるかという興味を引くために「味の秘密」という表現において用いられている。一方で、表3では、この単語「秘密」との間で上位下位関係を有する単語がリストされている。単語「秘密」のうち、例えば「リリース作品」や「開局記念番組」という関連単語は、表1の番組概要文の中に含まれる「秘密」以外の単語との間では、定められた閾値以上の類似度を持たない。従って、関連単語フィルタリング部15は、図4に示したフィルタリング処理の結果として、これら「リリース作品」や「開局記念番組」といった関連単語を除外する。つまり、除外された関連単語は、類似性算出部16による番組概要文間の類似度の算出には用いられない。
以上述べたように、類似番組検索装置2は、指定された番組に関する番組概要文テキストデータ(d)を第1のテキストデータとして類似度算出装置1に入力するとともに、他の番組に関する番組概要文テキストデータ(d〜dM)の各々を第2のテキストデータとして類似度算出装置1に入力する。そして、類似度算出装置1によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、
[第2の実施形態]
次に、第2の実施形態について説明する。なお、前述した実施形態と共通する機能については、図面において同一の符号を付与する。また、前述した実施形態と共通する事項については説明を省略し、本実施形態に特有の事項を中心に説明する。
図5は、同実施形態による類似番組検索装置の構成を示すブロック図である。図示するように、類似番組検索装置102は、類似度算出装置101を含んで構成される。類似度算出装置101は、文書読込部12と、単語抽出部13と、関連単語抽出部114と、関連グラフ構築部119と、類似性算出部116とを含んで構成される。
類似度算出装置101の特徴的な構成は、次の通りである。
第1の実施形態における関連単語抽出部14は、単語抽出部13によって抽出された単語に直接関連する関連単語のみを抽出していた。これに対して、本実施形態の関連単語抽出部114は、単語抽出部13によって抽出された単語に直接関連する関連単語を抽出するだけではなく、それらの関連単語に関連する関連単語をも、関連単語として抽出する。つまり、関連単語抽出部114は、元の文書に含まれていた単語に対して複数の段階の関連を持つ関連単語をも抽出する。
また、本実施形態における関連グラフ構築部119は、単語抽出部13によって抽出される単語と、関連単語抽出部114によって抽出される関連単語の、関連を表わすグラフ(関連性データ)を構築する。このグラフにおいて、ノードは抽出される個々の単語であり、エッジは単語間の関連(関係)である。このグラフの詳細については後述する。
また、第1の実施形態における類似性算出部16は、表現増幅部25によって出力された増幅後表現傾向情報(関連単語を含んだ単語のリスト)同士から、類似性を算出した。これに対して、本実施形態の類似性算出部116は、関連グラフ構築部119が構築したグラフに基づき、2つの文書間の類似性を算出する。この類似性の算出方法については後述する。
図6は、関連グラフ構築部119が構築するグラフのデータ例を示す概略図である。図示するように、関連グラフ構築部119が生成するデータは、ノードと、ノード間を結ぶエッジによって構成される。
ノードには3つの種類がある。第1の種類は、文書に対応するノードである。図中では、dおよびdと書かれたノードが、文書に対応するノードである。第2の種類は、文書に出現する単語に対応するノードである。図中では、n,n,n,・・・,nと書かれたノード、およびn´,n´,n´,・・・,n´と書かれたノードである。文書に対応するノードdからエッジによって結ばれているのは、その文書dに出現する単語n,n,n,・・・,nのノードである。文書に対応するノードdからエッジによって結ばれているのは、その文書dに出現する単語n´,n´,n´,・・・,n´のノードである。第3の種類は、関連単語に対応するノードである。関連単語に対応するノードは、図中では丸印で示している。
関連グラフ構築部119が構築するグラフのデータにおいて、文書に対応するノードと、その文書において出現する単語に対応するノードとの間には、両者を直接結ぶエッジが存在する。また、単語(関連単語も含む)と単語(関連単語も含む)の間では、両単語が関連する場合に、且つその場合にのみ、両者を直接結ぶエッジが存在する。なお、このエッジは、無向エッジである。言い換えれば、ある単語Aが別の単語Bに関連するとき、逆に単語Bが単語Aに関連する。単語Aが単語Bに関連しないとき、単語Bは単語Aに関連しない。
例えば、文書dの中に「生活習慣病」という単語が含まれており、文書dの中に「たばこ」という単語が含まれている場合、関連単語抽出部114はこれらそれぞれの単語の関連単語を抽出する。そして、関連単語抽出部114が、単語間の関連性として「生活習慣病−高血圧」、「高血圧−喫煙」、「喫煙−たばこ」という関係を獲得すると、関連グラフ構築部119は、これらの単語のノードを順に結ぶエッジを生成する。つまり、「生活習慣病−高血圧」、「高血圧−喫煙」、「喫煙−たばこ」というエッジが生成される。このようにして、両文書間を連結するグラフが構築される。
グラフを表わすデータの表現方法は様々であるが、一例としてはリレーショナルデータベースを用いる。第1のテーブルは、ノードID(主キー)と、ノード種別と、そのノードに対応する単語の、各列を含む。第1のテーブルでは、ノードごとに行が存在する。第2のテーブルは、エッジID(主キー)と、エッジ始端のノードIDと、エッジ終端のノードIDの、各列を含む。第2のテーブルでは、エッジごとに行が存在する。
このようなグラフのデータを構築するため、次の処理を行う。即ち、ある文書のペア(例えば、文書dとd)が与えられ、単語抽出部13がそれぞれの文書に含まれる単語を抽出すると、関連単語抽出部114は、単語抽出部13が抽出した単語のうちの名詞に対して、関連する単語(関連表現)の抽出を行なう。関連単語抽出部114は、文書に含まれる単語に直接関連する関連単語だけではなく、関連単語に関連する関連単語をも抽出する。言い換えれば、関連単語抽出部114は、文書に含まれる単語に直接的または間接的に関連するすべての関連単語を抽出する。但し、設定等に応じて、関連の段階数に上限を設けて、その段階数の範囲内で関連する関連単語のみを関連単語抽出部114が抽出するようにしても良い。関連グラフ構築部119は、両文書のそれぞれの側からの関連単語を調べて、図6に示したグラフのデータを生成する。
つまり、表現増幅部125は、表現と、前記表現に関連する関連表現との関係を用いて、単語抽出部13(表現抽出部)によって抽出された表現に関連する関連表現を抽出することによって、単語抽出部13によって抽出された表現傾向情報を増幅し、増幅後表現傾向情報を出力する。ここで、表現傾向情報は、単語抽出部13が抽出した単語のリスト(図6において、「文書に出現する単語」として示されている単語)である。また、増幅後表現傾向情報は、図6において、関連単語をも含んだすべてのノードの情報である。
また、表現増幅部125は、第1のテキストデータ(dに相当)を元に増幅した第1の増幅後表現傾向情報に含まれる表現と、第2のテキストデータ(dに相当)を元に増幅した第2の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに第1のテキストデータに対応するノードと、第2のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わすグラフデータ(関連性データ)を生成するものである。
つまり、第1の実施形態における表現増幅部25が一段階のみの関連性に基づいて表現傾向情報を増幅したのに対して、本実施形態の表現増幅部125は複数段階(段階数に特に上限を設けないこととしても良い)の関連性に基づいて表現傾向情報を増幅している。
関連グラフ構築部119が生成したグラフを元に、類似性算出部116は、その2つの文書がどの程度強く連結されているかを評価することによって、2つの文書の類似性を算出する。その手順を以下に述べる。なお、類似性算出部116は、例えば、Green Measures(グリーン・メジャーズ)のアルゴリズムを利用する。Green Measuresのアルゴリズムに関する文献は、次の通りである。参考文献 Oliver Yann,Senellart Pierre,Finding Related Pages Using Green Measures: An Illustration with Wikipedia,Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence,pp.1427-1433,2007年.
文書間の結びつきを表わすグラフが与えられたとき、あるノードから他のノードへ遷移する確率を行列Mで表現する。行列Mの行および列は、それぞれグラフ内のノードに対応する。そして、ノードpに対応する行で且つノードqに対応する列の行列要素は、ノードpからノードqへ遷移する確率の値である。この行列Mを用いて、下の式(1)でGreen Matrix(グリーン行列)を定義する。
Figure 0005982174
式(1)において、Mは、t回目のランダムウォークのステップにおける遷移行列を示す。つまり、行列Mの、ノードpに対応する行で且つノードqに対応する列の要素は、t回のランダムウォークの後に、ノードpからノードqへ遷移する確率の値である。また、Mは、ランダムウォークを無限回繰り返したときに収束する遷移行列の極限値である。式(1)で定義した行列Gの、ノードpに対応する行で且つノードqに対応する列の要素は、ノードpがノードqにどの程度関連するかを示す値である。ノード間の最終的な関連度スコアは、Green Matrixを利用して、下の式(2)により定義される。
Figure 0005982174
式(2)において、Gpqは、行列において、ノードpに対応する行で且つノードqに対応する列の要素である。またνは、ベクトルνにおいて、ノードqに対応する要素である。そのベクトルνは、均衡尺度(equilibrium measure)であり、任意のベクトルμを出発点として、無限回の遷移を繰り返したときに収束する先のベクトルである。つまりμM=νであり、νは、最終的にどのノードに遷移しやすいかを確率値として表わすベクトルである。そして、log(1/ν)は、補正のためのファクターである。つまり、νの値は、任意のベクトルμから遷移を繰り返した後に収束する可能性の高さを表わす。よって、そのような可能性の高さに応じて、そのノードに関するスコアを補正する。0<ν<1であるから、言うまでも無く、0<log(1/ν)であり、また、νの値が大きいほど、log(1/ν)の値は小さい。喩えるなら、このlog(1/ν)は、情報検索で用いられるtf−idf(term frequency - inverse document frequency)値におけるidf値と似た作用をする係数である。つまり、S(q)は、ノードpからノードqにどの程度遷移しやすいかを表わす値であり、ノードpとノードqとの関連性の強さを表わすものと見なせる。
そして、上記の式(2)を利用して、類似性算出部116は、次に説明する、Sdirect(d,d)またはSrelated(d,d)のいずれかを用いて、文書dとdとの間の類似度を算出する(1≦m≦M)。
[類似度算出手法1 : dに与えられる値のみを利用]
この手法では、グラフにおけるノードd,dに関して、式(2)を直接用いることにより、2つの文書d,dの類似度Sdirect(d,d)を算出する。つまり、類似性算出部116は、下の式(3)により文書dとdの間の類似度(つまり、文書のノードdとdの間の類似度)を算出する。
Figure 0005982174
なお、ノード間を結ぶエッジに与えられる重みは、次の通りである。即ち、文書のノードから単語のノードへのエッジについては下の式(4)で重みが与えられ、単語のノード相互間のエッジについては下の式(5)で重みが与えられる。
Figure 0005982174
Figure 0005982174
なお、式(4)において、dは文書のノード(0≦m≦M)であり、nは文書dに出現する単語のノードである。また、tf(n)は、文書dにおけるノードnに該当する単語の出現頻度であり、idf(n)は全文書におけるノードnに該当する単語の逆文書頻度である。
また、式(5)において、Znpとしては、例えば、単語ノードnと他のノードとを結んでいるエッジの総数を用いる。あるいは、単語ノードnに関して総和が1となるように、適宜、エッジの重みe(n,n)を定めても良い。
式(4)および式(5)で与えられるエッジの重みを、前出の行列Mの要素の値とする。但し、ノード同士がエッジで直接結ばれていない場合には、そのノード間に相当する行列要素の値は0である。
つまり、この「手法1」では、類似性算出部116は、式(3)を用いて、グラフデータに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、第1のテキストデータに対応するノードから第2のテキストデータに対応するノードまでの関連度スコアを、類似度として算出する。
[類似度算出手法2 : dからdへのパス上の全ノードでの関連度スコアを利用]
この手法では、グラフにおけるノードdからdへのパス上にある全ノードに与えられた関連度スコアの値の合計を利用して、2つの文書d,dの類似度Srelated(d,d)を算出する。つまり、類似性算出部116は、下の式(6)により文書dとdの間の類似度を算出する。
Figure 0005982174
式(6)において、vertex(d,d)は、ノードdからノードdへのパス上にあるすべてのノード(ノードdを含む)の集合である。なお、この「手法2」においても、「手法1」の場合と同様に、ノードを結ぶエッジの重みは、式(4)および式(5)で与えられる。また、エッジによって直接結ばれないノード間に相当する行列Mの要素の値は0である。
つまり、この「手法2」では、類似性算出部116は、式(6)を用いて、グラフデータに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、第1のテキストデータに対応するノードから、第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、関連度スコアの総和を、類似度として算出する。
図7は、図6に示したグラフにおいて、手法1を用いてノードdとdとの間の類似度を算出する際に用いる関連度スコアの範囲を示す概略図である。図中の太線枠が、その範囲を示す。つまり、手法1では、類似性算出部116は、ノードdから、太線枠に含まれるノードdへの関連度スコアのみを用いて、ノードdとdとの間の類似度を算出する。
図8は、図6に示したグラフにおいて、手法2を用いてノードdとdとの間の類似度を算出する際に用いる関連度スコアの範囲を示す概略図である。図中の太線枠が、その範囲を示す。つまり、手法2では、類似性算出部116は、ノードdから、太線枠に含まれる全てのノードへの関連度スコアを用いて、ノードdとdとの間の類似度を算出する。
なお、類似度を算出する際に、手法1を用いるか、手法2を用いるかは、任意であり、適宜決めれば良い。
なお、上述した実施形態における類似番組検索装置の全部または一部の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
<変形例>
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、可能な組合せにおいて、下に列挙する複数の変形例を組み合わせて実施しても良い。
変形例1:上記実施形態では、番組概要文から単語を抽出し、それらの単語の関連単語をさらに抽出して、番組概要文間の類似性を算出した。この変形例では、単語の代わりに、文節や、単語Nグラム(N個の単語の連鎖)や、文字Nグラム(N個の文字の連鎖)などといった言語による表現を用いて、上記実施形態と同様の計算を行なう。
変形例2:上記実施形態では、番組概要文から抽出された単語の集合と、それらの単語の関連単語(但し、フィルタリング処理によって除外された関連単語を除く)の集合との、和集合を用いて、番組概要文間の類似性を算出した。この変形例では、番組概要文から直接抽出された単語の集合を用いず、関連単語(但し、フィルタリング処理によって除外された関連単語を除く)の集合(これもまた、増幅後表現傾向情報である)のみを用いて、番組概要文間の類似性を算出する。
変形例3:上記実施形態では、類似番組検索装置2または102それぞれの内部に類似度算出装置1または101を設ける構成とした。この変形例では、類似度算出装置1または101のみの構成を実施する。なお、この類似度算出装置1または101に入力されるテキストデータは、番組の概要文に限らず、一般のテキストデータで良い。そのような場合にも、類似度算出装置1は、上記実施形態に記載した場合と同様の作用および効果を有する。
変形例4:上記実施形態では、表現増幅部25の一部として、関連単語フィルタリング部15を設けた。この変形例では、関連単語フィルタリング部15を設けず、フィルタリング処理を行なわない。つまり、関連単語抽出部14が出力する関連単語をフィルタリングせずに、増幅後表現傾向情報に用いる。
変形例5:第2の実施形態では、ノード間の関連性の強さを表わす尺度として、Green Measuresを用いたが、代わりに、ノード間の関連性の強さを表わす他の尺度を用いても良い。例えば、下記の参考文献に記載されているページランクのアルゴリズムを利用しても良い。参考文献 Sergey Brin,Lawrence Page,The Anatomy of a Large-Scale Hypertextual Web Search Engine,[URL http://infolab.stanford.edu/~backrub/google.html],2012年5月1日ダウンロード
変形例6:第2の実施形態では、文書dから文書d(1≦m≦M)への類似度を算出した。第2の実施形態で用いる方法では、類似度の定義からも明らかなように、ノードaからノードbへの類似度と、ノードbからノードaへの類似度とは、異なる値を取り得る。変形例6では、第2の実施形態による数式を用いて、但し方向のみを逆転させて、文書dから文書dへの類似度を算出し、両文書間の類似度とする。さらに、両方向の類似度をそれぞれ計算してそれらの平均値または加重平均値を取っても良い。
変形例7:第2の実施形態では、文書ノードから単語ノードへの重みとして、tf−idf値を用いた(式(4))。変形例7では、tf−idf値の代わりに、予め単語ごとに定義された重要度のスコア(あるいはそれらのスコアそれぞれをスコアの合計値で除してスケーリングした値)を、文書ノードから単語ノードへの重みとして用いる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
第1の実施形態による類似番組検索装置2を実施し、NHKのテレビ番組に関する番組概要文を用いて、指定番組に対する、各比較対象番組の類似度の算出と、比較対象番組のランキングを行なった。
指定番組のタイトルは「プラネットベービーズ タンザニア 彫刻の民の子育て」であり、その番組概要文(dに相当)は、「東アフリカを代表する伝統芸術マコンデ彫刻の彫刻家の一家を取材。時代の変化を感じながらも伝統を守ろうとする彫刻の民の子育てを紹介します。」であった。
8種類の比較対象番組の概要文の各々について、算出された類似度およびランキングは次の通りであった。なお、第5位に4つの番組の概要文がランキングされ、これらの類似度はいずれも0.001であった。
ランキング1位。類似度は、0.321。番組タイトルは「新日曜美術館 彫刻家・舟越桂」。この番組の概要文は、「現代に生きる人々の姿を彫り続けている彫刻家・舟越桂。従来の人物彫刻にはない独特の存在感を放つ舟越の彫刻は、見る人に、今にも語りかけてきそうな印象を与えます。誰もが胸の内に抱える喜びや悲しみ、そして不安。一人の人間として感じることを、舟越は彫刻に彫り込みます。舟越本人の登場を通して、彫刻家・舟越桂の世界をたどります。」である。
ランキング2位。類似度は、0.141。番組タイトルは「世界ふれあい街歩き ラグーサ」。この番組の概要文は「ラグーサは新市街と旧市街が、谷を挟んで2つの山に広がっています。新市街の碁盤の目のように整った道沿いには、飾り窓や彫刻が美しい後期バロック様式の建物が並びます。旧市街イブラは、迷宮のように入り組んだ街です。人の顔の彫刻が支える不思議なベランダを眺めたり、バロック建築のサン・ジョルジョ大聖堂の鐘の音を聞いたりします。まるで中世にタイムスリップしたかような不思議な感覚を味わう街歩きです。」である。
ランキング3位。類似度は、0.092。番組タイトルは「美の壺 能面」。この番組の概要文は「一見、無表情でどこか恐ろしげな印象を受ける「能面」。しかし、よく見ると、角度によってその表情が多様に変化していくことが分かります。能面には喜怒哀楽を生み出すための彫刻の技や、奥深さを表現するための彩色法など、さまざまな匠(たくみ)の技が込められています。美術品にもまさる神秘性を放つ能面。600年以上にわたって培われてきた能面づくりの技とその美しさを鑑賞するツボを紹介します。」である。
ランキング4位。類似度は、0.037。番組タイトルは「直伝 和の極意 第7回 茶の湯 裏千家」。この番組の概要文は「一服のお茶を仲立ちとして、亭主と客が心を通わせる「茶の湯」。400年以上にわたる伝統を誇る“和”の趣味の代表選手のひとつだ。千利休の伝統を受け継ぐ三千家(表千家、裏千家、武者小路千家)のなかから、裏千家の“茶の湯の極意”に迫る9回シリーズ。第7回は、家庭で簡単に和菓子を作る方法について、伝える。」である。
ランキング5位の第1番目。類似度は、0.001。番組タイトルは「BS世界ドキュ 前編 石油支配OPEC50年の闘い」。この番組の概要文は「前編は1960年のOPEC結成の背景から、七大石油会社(メジャー)が握っていた“石油支配”をOPECが、いかにして奪い取ったのかを探る。1973年10月、OPECは石油の価格決定権を握り、世界最強のカルテルを形成し絶頂期を迎える。しかし急激な価格高騰は、世界にオイルショックを引き起こし、OPECのその後の運命を変えてしまう。」である。
ランキング5位の第2番目。類似度は、0.001。番組タイトルは「アジアンスマイル 四つ子ナースの物語 韓国」。この番組の概要文は「21年前、韓国インチョンの病院で誕生した四つ子の姉妹が、2010年の看護師国家試験にそろって合格。全員が生まれた病院で働き始めた。当時の韓国で、四つ子はきわめて例が少ないなかでの出産だった。4人の中でも小さく生まれたため、ただ1人集中治療室に入れられた三女ソル。新米ナースとして、新生児集中治療室で赤ちゃんの看護を担当することになった。生まれたばかりの小さな命を守ろうと奮闘する、ソルの日々に密着。」である。
ランキング5位の第3番目。類似度は、0.001。番組タイトルは「ハイビジョン特集 日本人イヌイット親子三代」。この番組の概要文は「極北のグリーンランドに住みついた日本人、大島育雄さん(63)。イヌイットとして生きる親子三代の狩猟の暮らしと孫の成長を、家族の目線で記録した貴重なビデオ日記。」である。
ランキング5位の第4番目。類似度は、0.001。番組タイトルは「ニューヨークウエーブ 砂漠に出現!巨大なアートの祭典」。この番組の概要文は「毎年夏、アメリカのネバダ州の砂漠に巨大なアート作品が出現する。野外で開かれる世界最大のアートの祭典「バーニングマン」だ。地上6メートルのタンポポなど、巨大なアート作品が200点あまり。ダンスや音楽のパフォーマンスが、夜通し開かれる。5万人を超える参加者がテントで共同生活をしながら、最新のアートを楽しむ1週間。そんな不思議な世界に、番組リポーターのはなが潜入。砂漠で繰り広げられる、真夏の夢を追う。」である。
第2の実施形態による類似番組検索装置102を実施し、その評価実験を行なった。まず、2010年9月から2011年5月までに「NHKオンデマンド」(番組のオンデマンド配信サービス)に登録されていた25,769番組から、以下の制約のもとで352番組をランダムにサンプルした。
制約1:番組タイトルが同じ番組は取り出さない(例えば、「NHKスペシャル」は1番組のみサンプル)。
制約2:関連番組を2番組以上持つ。
次に、NHKオンデマンドで提示された352番組の関連番組を対象として、3名のアノテータにより、サンプルした番組とその関連番組との間での類似性をランキングする作業を行なった。各番組に関する関連番組はOkapi−BM25の指標を利用した手法で抽出され、一つの番組に対して平均10.4個の関連番組が提示されていた。上記3名のアノテータが付与したランキング結果は、その順位相関(Spearman’s rank correlation)の平均が0.565であった。これは、一定の一致度であったと解釈できる。最終的に3名のアノテータが付けた類似性のランクを平均し、平均ランクの昇順に類似すると判断したデータを基準として、このデータと、各々の手法によるランクとを比較することにより、評価を行なった。
ベースライン手法: 文書pに出現する単語nに対してtf−idfによる重みを与えて文書を単語のベクトルで表現する。2つの文書間の類似性を、これら2つの文書に対応するベクトル間のコサイン類似度により評価する。
第1の実施形態による手法: 単語間関係を用いて文書に出現する単語を拡張(単語集合を増幅)し、増幅後の単語を要素とするベクトルで文書を表現する。2つの文書間の類似性を、これら2つの文書に対応するベクトル間のコサイン類似度により評価する。
第2の実施形態による「手法1」:図7に示した範囲のノードへの関連性スコアを用いて、文書間の類似性を評価する。
第2の実施形態による「手法2」:図8に示した範囲の全てのノードへの関連性スコアの総和を用いて、文書間の類似性を評価する。
ランダムサンプルした352番組とその関連番組に対して、上記の各手法を適用して関連番組のリランキング処理を行ない、これらの結果と、アノテータにより生成した基準データとの相関を、Spearman’s rank correlationにより評価した。その結果、ベースライン手法の相関値は、0.350であった。第1の実施形態による手法の相関値は、0.371であった。第2の実施形態による「手法1」の相関値は、0.351であった。第2の実施形態による「手法2」の相関値は、0.425であった。実施形態による手法は、いずれも、ベースライン手法よりも、人手によるランキング結果に近い結果が得られた。特に、第2の実施形態による「手法2」で、良い結果が得られた。
本発明は、一般的な自然言語処理において、テキスト同士の類似度を算出するために利用できる。また、インターネット等の通信を介して、テキストを用いた情報を提示するために利用できる。また、番組コンテンツの推薦のために利用できる。そのような番組推薦の技術を、番組のランキング処理や、放送等の受信装置や、ビデオオンデマンドのサービスなどに利用できる。
1,101 類似度算出装置
2,102 類似番組検索装置
11 番組情報記憶部
12 文書読込部
13 単語抽出部(表現抽出部)
14,114 関連単語抽出部(関連表現抽出部)
15 関連単語フィルタリング部(関連表現フィルタリング部)
16,116 類似性算出部
17 ランキング部
18 検索結果出力部
25,125 表現増幅部
119 関連グラフ構築部

Claims (7)

  1. テキストデータから表現を抽出することによって前記表現の種類の出現傾向を表わす表現傾向情報を求める表現抽出部と、
    表現と前記表現に関連する関連表現との関係を用いて、前記表現抽出部によって抽出された表現に関連する前記関連表現を抽出することによって前記表現抽出部によって抽出された前記表現傾向情報を増幅し、増幅後表現傾向情報を出力する表現増幅部と、
    前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の関係に基づく、前記第1のテキストデータと前記第2のテキストデータとの間の類似度を算出する類似性算出部と、
    を具備す類似度算出装置であって、
    前記表現増幅部は、抽出された前記関連表現に関連する関連表現を抽出することによって前記表現傾向情報を増幅するとともに、
    前記表現増幅部は、前記第1のテキストデータを元に増幅した前記第1の増幅後表現傾向情報に含まれる表現と、前記第2のテキストデータを元に増幅した前記第2の増幅後表現傾向情報に含まれる表現とに対応するノードと、さらに前記第1のテキストデータに対応するノードと、前記第2のテキストデータに対応するノードとに関して、ノード間の関連の有無を表わす関連性データを生成し、
    前記類似性算出部は、前記関連性データに基づいて算出される前記第1のテキストデータと前記第2のテキストデータとの間の関連性の強さを、前記類似度として算出する、
    ことを特徴とす類似度算出装置。
  2. 前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから、前記第2のテキストデータに対応するノードまでのパス上に含まれる全てのノードまでの、前記関連度スコアの総和を、前記類似度として算出する、
    ことを特徴とする請求項に記載の類似度算出装置。
  3. 前記類似性算出部は、前記関連性データに基づく、ノードからノードへの遷移のし易さを表わすデータを当該ノード間の関連度スコアとするとともに、前記第1のテキストデータに対応するノードから前記第2のテキストデータに対応するノードまでの前記関連度スコアを、前記類似度として算出する、
    ことを特徴とする請求項に記載の類似度算出装置。
  4. 前記類似性算出部は、前記表現抽出部に入力される第1のテキストデータを元に前記表現増幅部から出力される第1の増幅後表現傾向情報と、前記表現抽出部に入力される第2のテキストデータを元に前記表現増幅部から出力される第2の増幅後表現傾向情報との間の類似度を算出するものであり、
    前記第1の増幅後表現傾向情報は、前記第1のテキストデータに含まれる表現と、前記第1のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報であり、
    前記第2の増幅後表現傾向情報は、前記第2のテキストデータに含まれる表現と、前記第2のテキストデータに含まれる表現に直接関連する関連表現との分布を表わす情報である、
    ことを特徴とする請求項1に記載の類似度算出装置。
  5. 前記表現増幅部は、抽出された前記関連表現のうち、前記テキストデータとの間の類似性が所定の閾値未満である前記関連表現を除外する関連表現フィルタリング部をさらに備える
    ことを特徴とする請求項に記載の類似度算出装置。
  6. 請求項1からまでのいずれか一項に記載の類似度算出装置を備え、
    指定された番組に関する番組概要文テキストデータを前記第1のテキストデータとして前記類似度算出装置に入力するとともに、他の番組に関する番組概要文テキストデータを前記第2のテキストデータとして前記類似度算出装置に入力し、前記類似度算出装置によって算出された、前記指定された番組と前記他の番組との間の類似度を取得し、複数の前記他の番組に関して算出される前記指定された番組との間の類似度に基づいて、複数の前記他の番組の中から前記指定された番組に類似する前記他の番組を検索する、
    ことを特徴とする類似番組検索装置。
  7. コンピューターを、請求項1から5までのいずれか一項に記載の類似度算出装置として機能させるためのプログラム。
JP2012113602A 2012-05-17 2012-05-17 類似度算出装置、類似番組検索装置、およびそのプログラム Active JP5982174B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012113602A JP5982174B2 (ja) 2012-05-17 2012-05-17 類似度算出装置、類似番組検索装置、およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012113602A JP5982174B2 (ja) 2012-05-17 2012-05-17 類似度算出装置、類似番組検索装置、およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013239132A JP2013239132A (ja) 2013-11-28
JP5982174B2 true JP5982174B2 (ja) 2016-08-31

Family

ID=49764087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012113602A Active JP5982174B2 (ja) 2012-05-17 2012-05-17 類似度算出装置、類似番組検索装置、およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5982174B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质
JP7536558B2 (ja) * 2020-09-03 2024-08-20 株式会社日立製作所 文書情報抽出装置及び文書情報抽出方法
CN117275655A (zh) * 2023-11-15 2023-12-22 中国人民解放军总医院第六医学中心 一种基于人工智能的病案统计整理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108579A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 文書検索装置及び文書検索方法
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
JP5478146B2 (ja) * 2009-08-19 2014-04-23 日本放送協会 番組検索装置および番組検索プログラム

Also Published As

Publication number Publication date
JP2013239132A (ja) 2013-11-28

Similar Documents

Publication Publication Date Title
Parikh et al. ToTTo: A controlled table-to-text generation dataset
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
EP2511869A2 (en) Method and system for providing user-customized content
WO2015175931A1 (en) Language modeling for conversational understanding domains using semantic web resources
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
JP2018032213A (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN109271518A (zh) 用于对微博信息进行分类显示的方法和设备
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
JP6165068B2 (ja) ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
JP2009217802A (ja) 文書処理装置、文書処理プログラムおよび記録媒体
CN108780439A (zh) 用于内容丰富且用于教导阅读并实现理解的系统和方法
CN104408115A (zh) 一种电视平台上基于语义链接的异构资源推荐方法和装置
CN115470344A (zh) 一种基于文本聚类的视频弹幕与评论主题融合的方法
JP5982174B2 (ja) 類似度算出装置、類似番組検索装置、およびそのプログラム
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
JP6773585B2 (ja) 文書処理装置、文書処理方法及びプログラム
JP2006106970A (ja) 情報検索装置、情報検索方法およびコンピュータプログラム
KR102335408B1 (ko) 영화 속성 언어 관리 방법 및 장치
Karsdorp et al. The love equation: Computational modeling of romantic relationships in french classical drama
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
Nio et al. Improving the robustness of example-based dialog retrieval using recursive neural network paraphrase identification
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
JP6694217B2 (ja) シナリオプロット生成装置及びシナリオプロット生成方法
KR102279125B1 (ko) 취향필터에 기반한 추천 정보 제공 단말 및 장치
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R150 Certificate of patent or registration of utility model

Ref document number: 5982174

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250