以下に本発明の実施の形態を説明するが、本明細書に記載の発明と、発明の実施の形態との対応関係を例示すると、次のようになる。この記載は、本明細書に記載されている発明をサポートする実施の形態が本明細書に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。
さらに、この記載は、本明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、本明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現、追加される発明の存在を否定するものではない。
即ち、本発明の一側面の情報処理装置は、コンテンツのメタデータを取得する取得手段(例えば、図1のEPG取得部12またはiEPG取得部14)と、前記コンテンツのメタデータに含まれるテキスト情報を形態素解析する形態素解析手段(例えば、図1の形態素解析部15)と、、前記形態素解析手段の形態素解析結果より、記載されている内容毎のレイアウトを認識するレイアウト認識手段(例えば、図1のレイアウト認識部20)と、前記形態素解析手段の形態素解析結果から前記レイアウトに基づいて得られる情報と、複数の所定の出演者名の羅列パターンとを比較する比較手段(例えば、図1のパターン比較部42)と、前記比較手段の比較結果に基づいて、前記形態素解析結果のうち、少なくとも1個所以上で一致した所定の出演者名の羅列パターンが存在する場合、前記一致した所定の出演者名の羅列パターンで出演者名を抽出する抽出手段(例えば、図1の出演者名抽出部43)とを含む。
前記比較手段(例えば、図1のパターン比較部42)には、前記レイアウト認識手段により認識された前記形態素解析手段の形態素解析結果のレイアウトのうち、出演者名欄外の情報と、複数の所定の出演者名の羅列パターンとを比較させるようにすることができる。
前記レイアウト認識手段により認識された前記形態素解析手段の形態素解析結果のレイアウトのうち、出演者名欄内の情報と、複数の所定の出演者名の羅列パターンとの類似度の距離を計算する類似度距離計算手段(例えば、図1の類似性距離計算部33)と、前記類似度距離計算手段の類似度距離計算結果に基づいて、前記形態素解析結果のうち、類似度距離が最小となる所定の出演者名の羅列パターンで出演者名を抽出する第2の抽出手段(例えば、図1の出演者名抽出部35)とをさらに含ませるようにすることができる。
本発明の一側面の情報処理方法は、コンテンツのメタデータを取得するEPG取得ステップ(例えば、図3のステップS2)と、前記コンテンツのメタデータに含まれるテキスト情報を形態素解析する形態素解析ステップ(例えば、図3のステップS4)と、前記形態素解析ステップの処理による形態素解析結果より、記載されている内容毎のレイアウトを認識するレイアウト認識ステップ(例えば、図3のステップS5)と、前記形態素解析ステップの処理での形態素解析結果から前記レイアウトに基づいて得られる情報と、複数の所定の出演者名の羅列パターンとを比較する比較ステップ(例えば、図10のステップS53)と、前記比較ステップの処理での比較結果に基づいて、前記形態素解析結果のうち、少なくとも1個所以上で一致した所定の出演者名の羅列パターンが存在する場合、前記一致した所定の出演者名の羅列パターンで出演者名を抽出する抽出ステップ(例えば、図10のステップS55)とを含む。
図1は、本発明を適用した一実施の形態の構成を示す情報処理装置である。
情報処理装置1は、インターネットなどに代表されるネットワークや、放送波などにより配信されるコンテンツのメタデータから構成されたEPG(電子番組表)を取得し、電子番組表の中に含まれる番組(コンテンツ)の情報より、出演者名をキーワードとして抽出し、抽出された出演者名のうち、操作ボタン、またはキーボードなどからなるリモートコントローラなどの操作部5により選択された出演者名に対応する番組を表示する。
受信部11は、アンテナ2を介して放送波を受信して、EPG取得部12およびチューナ26に供給する。EPG取得部12は、受信部11より供給されてきた信号のうち、EPG(電子番組表)情報を取得してEPGテキストデータ抽出部13、レイアウト認識部20、および番組検索部25に供給する。
iEPG取得部14は、インターネットに代表されるネットワーク3を介して、所定のURL(Uniform Resource Locator )などにより指定されるEPG配信サーバ4にアクセスし、EPG情報を取得し、EPGテキストデータ抽出部13、レイアウト認識部20、および番組検索部25に供給する。
EPGテキストデータ抽出部13は、EPG取得部12より供給されてくるEPG情報、または、iEPG取得部14より供給されてくるEPG情報のそれぞれよりテキストデータを抽出して形態素解析部15に供給する。
形態素解析部15は、EPG情報のテキストデータを、言葉の最小単位(以降においては、これを単語と称するものとする)に分割し、それぞれの単語について、辞書記憶部16に登録されている情報と照合して、品詞を特定することにより、形態素解析処理を実行し、その結果を形態素解析結果バッファ17に記憶させる。
レイアウト認識部20は、EPG取得部12またはiEPG取得部14より供給されたEPG情報に基づいて、EPGとして表示される情報毎のレイアウトを認識し、認識したレイアウトの情報を分別抽出部21に供給する。
分別抽出部21は、出演者名が記載されている出演者欄の配置を認識し、レイアウト認識部20より供給されたレイアウト情報に基づいて、出演者欄内の情報を形態素解析結果バッファ17より読み出して、出演者欄内判定部24に供給すると共に、出演者欄外の情報を形態素解析結果バッファ17より読み出して、出演者欄外判定部18に供給する。尚、出演者欄については詳細を後述する。
出演者欄外判定部18は、EPGとして表示される情報のうち、出演者欄のレイアウト以外の領域に含まれている形態素解析結果に基づいて、出演者名を抽出して出演者名抽出結果記憶部22に記憶させる。
出演者欄外判定部18のパターン抽出部41は、パターン記憶部19に記憶されている、複数の属性の羅列パターンのいずれかを順次読み出し、その羅列パターンで形態素解析結果バッファ17に記憶されている出演者欄外の領域に存在する単語と、対応する属性の情報を抽出してパターン比較部42に供給する。
ここでいう、属性のパターンとは、属性が出演者名、役名、外人出演者、日本人声、外人役名、読仮名、およびグループ名の羅列パターンであり、例えば、図2で示されるような、第1パターン乃至第8パターンである。
第1パターンは、例えば、「出演者名,出演者名」、「出演者名、出演者名」、「出演者名・出演者名」、「出演者名 出演者名」、「出演者名/出演者名」、および「出演者名(改行)出演者名」であり、出演者名と出演者名との間に、何らかの記号(スペースおよび改行を含む)があり、出演者名が連続的に羅列されるパターンである。
また、第2パターンは、例えば、「出演者名(役名)」、および「出演者名→役名」であり、出演者名の次に役名が配置され、何らかの記号(スペースおよび改行を含む)があるものが連続的に羅列されるパターンである。
さらに、第3パターンは、例えば、「役名:出演者名」、「役名・・・出演者名」、「役名____出演者名」、「役名_出演者名」、および「役名・・出演者名」であり、役名の次に出演者名が配置され、何らかの記号(スペースおよび改行を含む)で挟まれ、それらが連続的に羅列されるパターンである。
また、第4パターンは、例えば、「出演者名(グループ名)」であり、出演者名の次に、出演者が属しているグループ名が配置され、それらが連続的に羅列されるパターンである。
さらに、第5パターンは、例えば、「外人出演者...日本人声」、および「外人出演者(日本人声)」であり、外人の出演者名の次に吹き替えの日本人名が配置され、何らかの記号で挟まれ、それらが連続的に羅列されるパターンである。ここでいう外人出演者名は、カタカナやアルファベットにより表記されている人名からなるものである。
また、第6パターンは、例えば、「外人役名=外人出演者(日本人声)」であり、外人役名の次に、記号が配置され、その次に外人出演者名が配置され、さらに引き続いて括弧内に吹き替えの日本人名が配置され、それらが連続的に羅列されるパターンである。
さらに、第7パターンは、例えば、「外人出演者 読仮名」であり、外人の出演者名の次に読仮名が配置され、それらが連続的に羅列されるパターンである。
また、第8パターンは、例えば、「外人役名(読仮名)・・・外人出演者(読仮名)であり、外人役名の次に、括弧内に読仮名が配置され、その次に何らかの記号が配置され、さらに、外人出演者名が配置され、さらに引き続いて括弧内に読仮名が配置され、それらが連続的に羅列されるパターンである。
第1乃至第8パターンにおける出演者名には、品詞として人物名はもちろんのこと、さらに、女優名、俳優名、歌手名など著名の人物を識別する属性についても含まれる。また、役名は、属性として「司会」、および「プロデューサ」などの役職を示す言葉はもちろんのこと、物語に登場する人物名も含まれるものである。
パターン比較部42は、パターン抽出部41が、形態素解析結果バッファ17より、パターン記憶部19に記憶されている、上述した第1乃至第8パターンのいずれかの羅列パターンであると仮定して抽出してきた属性の羅列パターンと、仮定された羅列パターンとを比較して一致するか否かを判定する。
出演者名抽出部43は、パターン比較部42の比較結果に基づいて、一致した羅列パターンで出演者名の情報を抽出して、出演者名抽出結果記憶部22に記憶させる。
出演者欄内判定部24は、EPGとして表示される情報のうち、出演者欄内の領域に含まれている形態素解析結果に基づいて、出演者名を抽出して出演者名抽出結果記憶部22に記憶させる。
属性判定部31は、分別抽出部21より供給される単語についてそれぞれ属性を判定し、パターン抽出部32に供給する。パターン抽出部32は、属性判定部31より供給されてくる属性の判定結果に基づいて、属性のパターンを抽出して類似性距離計算部33に供給する。類似性距離計算部33は、パターン抽出部32より供給されてくるパターンと、パターン記憶部19に記憶されているパターンとの類似性を示す類似性距離を計算し、順次パターン決定部34に供給する。パターン決定部34は、類似性距離計算部33より供給されてくる類似性距離の情報に基づいて、類似性距離が最も小さいパターンをパターン抽出部32により抽出されたパターンであるものとして認識し、抽出されたパターンを決定すると共に、決定したパターンを演出者名抽出部35に供給する。演出者名抽出部35は、パターン決定部34より供給されてくるパターンに基づいて、分別抽出部21より供給されてくる単語より出演者名のみを抽出して出演者名抽出結果記憶部22に記憶させる。
出力部23は、出演者名抽出結果記憶部22に記憶されている出演者名を出力する。
次に、図3のフローチャートを参照して、出演者名抽出処理について説明する。
ステップS1において、EPG取得部12またはiEPG取得部14は、操作部5が操作されて、出演者名の表示が指示されたか否かを判定し、指示されたと判定されるまで同様の処理を繰り返す。例えば、図4で示されるようなオプションタブ101が表示され、出演者名を人名として表示させるように指示する「人名」と記述されたボタン116が操作された場合、出演者名の表示が指示されたものとみなし、処理は、ステップS2に進む。
尚、図4は、表示部6に表示されている画像例を示しており、チューナ26により選局されている通常の放送番組の表示欄102がオプションタブ101の左側に設けられており、オプションタブ101には、上から「HDD情報」、「DVD情報」、「画音質設定」、「番組録画」、「番組説明」、「人名」、および「キーワード」と表示されたボタン111乃至117が表示されている。ボタン111は、図示せぬHDD(Hard Disk Drive)に記録されている番組の情報を表示するとき操作される。ボタン112は、図示せぬDVD(Digital Versatile Disk)ドライブに挿入されているDVDに記録されている番組情報を表示するとき操作される。ボタン113は、画音質設定を実行するとき操作される。ボタン114は、番組録画を実行するとき操作される。ボタン115は、EPGに含まれている表示欄102で表示されている番組の番組説明を表示させるとき操作される。ボタン116は、EPGに含まれている表示欄102で表示されている番組の出演者名を人名として表示させるとき操作される。ボタン117は、EPGに含まれている表示欄102で表示されている番組のキーワードを表示させるとき操作される。
ステップS2において、EPG取得部12は、受信部11を介してアンテナ2により受信される放送波に含まれる所定の番組のEPG情報を取得してEPGテキストデータ抽出部13およびレイアウト認識部20に供給する。または、iEPG取得部14は、所定のURLで指定されるネットワーク3上のEPG配信サーバ4にアクセスして、所定の番組のEPG情報を取得してEPGテキストデータ抽出部13およびレイアウト認識部20に供給する。
ステップS3において、EPGテキストデータ抽出部13は、供給されてきたEPG情報よりテキストデータを抽出して形態素解析部15に供給する。
ステップS4において、形態素解析部15は、辞書記憶部16に記憶されている情報に基づいて、供給されてきたEPG情報のテキストデータを単語に分割して、それぞれの単語の品詞を特定し、形態素解析結果バッファ17に記憶させる。辞書記憶部16を用いた形態素解析部15の形態素解析においては、品詞として、名詞のうち、人物名であれば、品詞として人物名を指定することも可能であるし、人物名のうち、例えば、有名俳優名、有名女優名、有名歌手名などについては、その人物名が、それぞれ俳優名、女優名、歌手名であることを指定した属性とすることも可能である。従って、形態素解析部15は、各単語について、文法上の品詞を特定するのみならず、名詞である場合には、人物名であるか、商品名であるか、地名であるかなどを分類したり、さらには、人物名であるときには、俳優名、女優名、または、歌手名であるかなどを含めて属性として分類する。
ステップS5において、レイアウト認識部20は、EPG取得部12またはiEPG取得部14より供給されてきたEPGの表示情報に基づいてレイアウトを認識し、認識結果を分別抽出部21に供給する。例えば、図5で示されるようにEPG情報が表示されるとき、レイアウト認識部20は、以下のようにレイアウトを認識する。
図5の場合、レイアウト認識部20は、最上段の「タコの瞳に恋してる〜あなたは運命の出会...」と表示されている領域Z1については、タイトル表示欄として認識する。また、レイアウト認識部20は、中段の「主人公山田おさむ(稲田吾郎)が出会った天使のような女性はなんとタコだった...。同僚の竹内武(大林南朋)は、・・・」と表示されている領域Z2は、ストーリー説明欄であると認識する。さらにレイアウト認識部20は、最下段の「出演者 稲田吾郎(山田おさむ) 村下知子(太口美幸) 蟹原友里(蟹原友美) MEGUMU(代々木翔子) 脚本 マザー 監督 三上義重 橋本圭太 ほか 音楽 三菱紀人 主題歌:「恋の花」倖田未来(リズムゾンビ) 番組説明 今から3年前、一組の夫婦が誕生した。昔から変わらぬオトコの評価基準である”仕事ができる”を、大幅にクリアしている・・・」と表示されている領域Z3を番組詳細説明欄として認識する。EPG表示画面は、上述した領域Z1乃至Z3で示されるような領域の配置順序が異なることがあっても、ほぼ同様な構造の領域を備えているため、レイアウト認識部20は、これらの領域を属性から認識(推定)する。
さらに、レイアウト認識部20は、この領域Z3において、特に、「出演者 稲田吾郎(山田おさむ) 村下知子(太口美幸) 蟹原友里(蟹原友美) MEGUMU(代々木翔子)」の記述欄(後述する領域Z3’)を出演者欄として認識する。すなわち、図5の場合、レイアウト認識部20は、「出演者」との記述を含む単語の塊となる領域を出演者欄として認識する。
ステップS6において、分別抽出部21は、レイアウト情報に基づいて、出演者欄内の単語を形態素解析結果バッファ17より抽出して出演者欄内判定部24に供給する。
ステップS7において、分別抽出部21は、レイアウト情報に基づいて、出演者欄外の単語を形態素解析結果バッファ17より抽出して出演者欄外判定部18に供給する。
ステップS8において、出演者欄内判定部24は、出演者欄内判定処理を実行し、出演者欄内の単語より出演者の単語を抽出して出演者名抽出結果記憶部22に記憶させる。
ここで、図6のフローチャートを参照して、出演者欄内判定処理について説明する。
ステップS31において、属性判定部31は、分離抽出部21より供給されてきた全ての単語について、それぞれ俳優や女優などの属性に登録されている単語であるか否かを判定し、判定結果をパターン抽出部32に供給する。すなわち、属性判定部31は、供給されてきた出演者欄内の単語について、役名などの実在しない人物を示す属性の人名ではなく、実在する俳優や女優などの人名として登録された属性の人名であるか否かを判定する。
ステップS32において、パターン抽出部32は、属性判定部31より供給されてきた判定結果に基づいて、人名としての登録の有無を示すパターンから判定パターンを生成する。すなわち、例えば、図7の上段で示されるように、出演者欄が、領域Z3’で示されるような場合、「稲田吾郎」、「村下知子」、「MEGUMU」の単語が俳優や女優などの実在する人名として認識され、それ以外の「山田おさむ」、「太口美幸」、「蟹原友里」、「蟹原友美」、「代々木翔子」が実在しない人名として認識されたとき、登録の有無を示すパターンは、図7の下段で示されるように、「有」、「無」、「有」、「無」、「無」、「無」、「有」、「無」となる。この判定結果から、出演者名が実在する人名であるので、「有」との判定結果は、出演者名であることを示し、「無」との判定結果は、役名であることを示すものであるので、パターン抽出部32は、判定パターンとして、「出」、「役」、「出」、「役」、「役」、「役」、「出」、「役」を生成して類似性距離計算部33に供給する。ここで、「出」は、出演者名を示し、「役」は、役名を示す。
ステップS33において、類似性距離計算部33は、パターンを識別するための図示せぬカウンタiを1に初期化する。
ステップS34において、類似性距離計算部33は、判定パターンとパターン記憶部19に記憶されている第iパターンとを比較して、正否の数をカウントする。すなわち、例えば、図7の下段で示されるように、判定パターンが「出」、「役」、「出」、「役」、「役」、「役」、「出」、「役」である場合、カウンタi=1のとき、図8の上段で示されるように、第1パターンであるパターンP1は、「出」、「出」、「出」、「出」、「出」、「出」、「出」、「出」となり、判定パターンにおける「出」は全て正とカウントされ、「役」は否とカウントされるため、今の場合、正が5であり、否が3となる。
また、カウンタi=2のとき、図8の中段で示されるように第2パターンであるパターンP2は、「出」、「役」、「出」、「役」、「出」、「役」、「出」、「役」となるため、正が7であり、否が1となる。
さらに、カウンタi=3のとき、図8の下段で示されるように第3パターンであるパターンP3は、「役」、「出」、「役」、「出」、「役」、「出」、「役」、「出」となるため、正が1であり、否が7となる。
ステップS35において、類似性距離計算部33は、正否のカウント結果に基づいて、判定パターンと第iパターンとの類似性距離を計算し、パターン決定部34に供給する。より具体的には、例えば、類似性距離計算部33は、例えば、カウンタiが1のとき、判定パターンは、8個の要素からなり、そのうち正しくない要素は3個であるので、類似性距離計算部33は、類似性距離を37.5%(=3/8×100)であると計算する。類似性距離は、類似しているほど0%に近い値となる。同様に、カウンタiが2のとき、類似性距離計算部33は、類似性距離を12.5%(=1/8×100)であると計算する。さらに、カウンタiが3のとき、類似性距離計算部33は、類似性距離を87.5%(=7/8×100)であると計算する。尚、第4乃至第8パターンについても同様の処理であるので、その説明は省略する。
また、類似性距離は、上述した定義に限るものではなく、類似性の定量的な値が示せればその他のものでもよく、例えば、エディトグラフアルゴリズムなどを用いるようにしても良い。
ここで、エディトグラフアルゴリズムとは、例えば、図9で示されるようなものである。すなわち、図9においては、左から順にカウンタiが1,2,3の場合であり、X軸およびY軸上のそれぞれに第iパターンと判定パターンとをそれぞれ1の間隔毎に配置する。そして、原点より順次X座標とY座標が一致する部分のパターンを比較し、一致する場合、対角線を引き、一致しない場合、X方向およびY方向にそれぞれ1ずつ水平方向に線を引く。同様の処理により、出来上がったグラフに対して、対角線の数を0として水平方向および垂直方向の線の数をそれぞれ1としたときの総和がエディトグラフアルゴリズムによる類似性距離である。
したがって、カウンタiが1の場合、図9の左部で示されるように、判別パターンにおける「役」に対応する個数について、それぞれ否となるので、(0,0)乃至(1,1)において、対角線であり、(1,1)乃至(2,2)において、X方向およびY方向に1ずつの2直線となり、(2,2)乃至(3,3)において、対角線であり、(3,3)乃至(6,6)において、X方向およびY方向にそれぞれ1ずつの2直線となり、(6,6)乃至(7,7)において、対角線であり、(7,7)乃至(8,8)において、X方向およびY方向に1ずつの2直線となる。結果として、カウンタiが1の場合、エディトグラフアルゴリズムを用いた類似性距離は10となる。同様にして、カウンタiが2の場合、図9の中央部で示されるように、(4,4)乃至(5,5)において、2直線である以外は、いずれも対角線となるので、類似性距離は2となる。さらに、同様にして、カウンタiが3の場合、図9の右部で示されるように、(4,4)乃至(5,5)において対角線である以外は、いずれも2直線となるので、類似性距離は14となる。
ステップS36において、類似性距離計算部33は、パターン記憶部19に記憶されている全てのパターンと判定パターンとの類似性距離を計算したか否かを判定し、例えば、全てのパターンについて類似性距離を計算していない場合、ステップS37に進み、カウンタiを1インクリメントした後、処理は、ステップS34に戻る。すなわち、全てのパターンとの類似性距離が計算されるまで、ステップS34乃至S37の処理が繰り返される。そして、ステップS37において、全てのパターンとの類似性距離が求められた場合、ステップS38において、パターン決定部34は、計算された類似性距離のうち、最小となる値が、所定の閾値よりも小さいか否かを判定する。すなわち、最小の類似性距離が信頼できる値であるか否かが判定される。ステップS38において、最小の類似性距離が所定の閾値よりも小さい、すなわち、信頼できる値であると判定された場合、処理は、ステップS39に進む。
ステップS39において、パターン決定部34は、最小の類似性距離となるパターンを出演者名の抽出に用いるパターンとして決定し、そのパターンの情報を出演者名抽出部35に供給する。出演者名抽出部35は、パターン決定部34より供給されてきたパターンに基づいて、分別抽出部21より供給されてくる単語より出演者名を抽出する。すなわち、例えば、出演者欄内の領域として、図7の領域Z3’が供給されてきた場合、第1パターン乃至第3パターンのとき、第2パターンが類似性距離が最小となるので、出演者名抽出部35は、「稲田吾郎」、「村下知子」、「蟹原友里」、「MEGUMU」を順次出演者名として抽出し、ステップS40において、出演者名抽出結果記憶部22に記憶させる。
一方、ステップS38において、最小の類似性距離が所定の値よりも大きく、信頼できる値ではないと判定された場合、ステップS41において、パターン決定部34は、第1パターンにより、全ての人名を出演者であるものとして抽出し、ステップS40において、出演者名抽出結果記憶部22に記憶させる。
以上の処理により、EPG表示画面の中から出演者欄内を特定して、出演者名のパターンを決定して、出演者名を抽出するようにしたので、出演者欄という出演者名が比較的規則的に配置されている可能性の高い領域内で出演者名の配置されるパターンを類似性距離を用いて決定することができる。結果として、出演者名の配置パターンの認識精度を向上させることが可能となる。また、類似性距離の信頼性が低い場合、出演者欄内の全ての人物名を出演者名として抽出することにより、出演者名の抽出漏れを抑制することが可能となる。
ここで、図3のフローチャートの説明に戻る。
ステップS8において、出演者欄内判定処理が終了すると、ステップS9において、出演者欄外判定部18は、出演者欄外判定処理を実行し、出演者欄以外の単語より出演者の単語を抽出して出演者名抽出結果記憶部22に記憶させる。
ここで、図10のフローチャートを参照して、出演者欄外判定処理について説明する。
ステップS51において、パターン抽出部41は、パターンを識別するための図示せぬカウンタiを1に初期化する。
ステップS52において、パターン抽出部41は、第iパターンに対応する属性の羅列パターンであると仮定して、順次、分別抽出部21より供給されてきた出演者欄以外の形態素解析結果より抽出し、パターン比較部42に供給する。このとき、パターン抽出部41は、第iパターンで抽出していることをパターン比較部42に通知する。
ステップS53において、パターン比較部42は、分別抽出部21より供給されてきた出演者欄以外の形態素解析結果より順次、パターン抽出部41により抽出されてきた単語の属性と、第iパターンにおける属性の羅列パターンとを比較する。
すなわち、例えば、EPGテキストデータ抽出部13より、図11で示されるようなテキストデータが抽出された場合、以下のような比較がなされる。図11においては、「今回は新婚演技派俳優・鳥見辰吾、酒豪のベテラン女優・藤川弓子がMr.ミリオネアにチャレンジ。注目はセンターシートをいきなり獲得した鳥見。3度目の正直でようやくMr.ミリオネアのみたんもと直接対決が実現。1000万円の夢は『仲間に豪華な自転車をプレゼントしてサイクリングに行く』。鳥見の挑戦が始まる。
しかしながらクイズもそっちのけで話題は『3年C組金九先生』の撮影秘話へ。“恩師”武川鉄矢は14問目まで行った。ライフラインをうまいタイミングで使い何とか恩師と同じ14問目まで来た。鳥見に襲い掛かるのはスポーツ問題。果たして鳥見は恩師を超えることができるのか!?その他、“のみさんと見つめ合うために来た”藤川の1000万円の夢は『劇団の東京公演の資金』。出演者 司会:のみたんもゲスト挑戦者:鳥見辰吾藤川弓子他」で示されるようなテキストデータが抽出されている。
このうち、例えば、「新婚演技派俳優・鳥見辰吾、酒豪のベテラン女優・藤川弓子」については、形態素解析により「新婚」、「演技」、「派」、「俳優」、「・」、「鳥見辰吾」「、」「酒豪」、「の」、「ベテラン」、「女優」「・」、および「藤川弓子」と分解される。i=1の場合、すなわち、第1パターンの場合、パターン抽出部41は、「出演者名」、「記号」、「出演者名」であることを想定し、順次、最初に「新婚」、「演技」、「派」を抽出し、次に、「演技」、「派」、「俳優」を抽出し、さらに、「派」、「俳優」、「・」を抽出し、順次、3個の連続する単語をパターンとして抽出し、パターン比較部42に供給する。
パターン比較部42は、パターン抽出部41より供給されてきた、この3個の単語に対する属性の羅列パターンと、第1パターンにおける属性の羅列パターンとを比較する。
ステップS54において、パターン比較部42は、羅列パターンが一致するか否かを判定する。すなわち、例えば、「新婚演技派俳優・鳥見辰吾、酒豪のベテラン女優・藤川弓子」の場合、人物名は、「鳥見辰吾」および「藤川弓子」のみであり、「鳥見辰吾」および「藤川弓子」が、それぞれ俳優名および女優名として認識されたとしても、「出演者名」、「記号」、「出演者名」のパターンは成立しないので、一致しないものと判定され、処理は、ステップS55に進む。
ステップS55において、パターン比較部42は、パターン記憶部19に記憶されているパターンが全て試されたか否かを判定し、全て試されていない場合、ステップS56において、パターン抽出部41は、カウンタiを1インクリメントして、処理は、ステップS52に戻る。
一方、例えば、テキストデータの後段において、「出演者 司会:のみたんもゲスト挑戦者:鳥見辰吾藤川弓子他」の部位については、「出演者」、「司会」、「:」、「のみたんも」、「ゲスト」、「挑戦者」、「:」、「鳥見辰吾」、「藤川弓子」、および「他」と単語が抽出されるが、カウンタi=2の場合、パターン抽出部41は、「役名」、「記号」、「出演者名」を想定して、最初に「出演者」、「司会」、「:」を抽出し、次に、「司会」、「:」、「のみたんも」を抽出し、さらに、「:」、「のみたんも」、「ゲスト」を抽出し、順次、3個の単語を抽出して、パターン比較部42に供給する。
すると、この場合、抽出された「司会」、「:」、「のみたんも」の属性が、「司会」は役名であり、「:」は記号であり、「のみたんも」が著名人として登録されていたとすると、ステップS54において、パターン比較部42は、第3パターンと一致するものとみなし、処理は、ステップS55に進む。
ステップS55において、パターン比較部42は、一致したパターンで出演者名を抽出するように出演者名抽出部43を指示する。そこで、出演者名抽出部43は、第3パターンである「役名」、「記号」、「出演者名」のパターンに基づいて、出演者名を抽出して、出演者名抽出結果記憶部22に記憶させる。そして、処理は、ステップS56に進む。
すなわち、図11のテキストデータの後段の場合、「記号」の後に配置される単語は、出演者名であることになるので、「司会」、「:」、「のみたんも」の配置より属性の配置パターンが、「役名」、「記号」、「出演者名」となるので「のみたんも」が、「挑戦者」、「:」、「鳥見辰吾」の配置より同様に「鳥見辰吾」が、それぞれ出演者として抽出されて、出演者名抽出結果記憶部22に記憶される。
ステップS56において、全てのパターンについて試されたと判定された場合、すなわち、今の場合、羅列パターン数を示すカウンタiは8までであるので、カウンタiが8より大きい場合、ステップS58において、パターン比較部42は、全てのパターンにおいて一致するパターンが存在しないか否かを判定する。今の場合、第3パターンにおいて、一致したので、ステップS59の処理がスキップされる。
一方、ステップS58において、いずれのパターンにも一致しなかった場合、ステップS59において、パターン比較部42は、第1パターンで出演者名を抽出するように出演者名抽出部43を指示する。すなわち、いずれのパターンにも一致しない場合、出演者として人物名が抽出されないことになるので、人物名として読み出せるものについては、いずれかの記号を挟んで、羅列されているパターンに限り、全て読み出される。
また、例えば、図12で示されるように、EPGデータよりテキストデータが抽出された場合、後段の「黒石鈴子:谷川京子葛山春樹:小田恵介島中沙織:大林麻央大河外民雄:東村雅彦深倉ミチル:サチコ柏本マキ:大池栄子大河外孝信:岩井正則黒石徹:天野ひろき葛山道造:中爪功」の表示により、第1パターンである「出演者名」、「記号」、「出演者名」であるか、第2パターンである「役名」、「記号」、「出演者名」であるかのいずれかのパターンとなる。すなわち、ドラマなどの場合、人物名は、「役名」とも、「出演者名」とも認識され得る。例えば、実際には、第3パターンであったとすると、「小田恵介」が俳優名として形態素解析処理で認識される有名俳優の人物名であることが認識できていれば、少なくとも、「葛山春樹」、「:」、「小田恵介」は、「役名」、「記号」、「出演者名」であることが認識されるので、少なくとも1は、第3パターンで一致するものとみなされることになるので、「谷川京子」、「小田恵介」、「大林麻央」、「東村雅彦」、「サチコ」、「大池栄子」、「岩井正則」、「天野ひろき」、および「中爪功」が出演者名として抽出されることになる。
また、図12における後段で、全ての名称が人物名としてしか認識できないような場合、ステップS58において、いずれのパターンにも認識されないことになるので、ステップS59において、全ての人物名である、「黒石鈴子」、「谷川京子」、「葛山春樹」、「小田恵介」、「島中沙織」、「大林麻央」、「大河外民雄」、「東村雅彦」、「深倉ミチル」、「サチコ」、「柏本マキ」、「大池栄子」、「大河外孝信」、「岩井正則」、「黒石徹」、「天野ひろき」、「葛山道造」、「中爪功」が出演者名として抽出されることになる。この場合、出演者名としては、誤りを含む可能性があるが、少なくとも全ての出演者名が表示されることになる。
以上のような処理により、出演者が表示される属性の羅列パターンを予め設定し、形態素解析結果に対して、設定された属性の羅列パターンと比較して、一致する属性の羅列パターンに基づいて、出演者の抽出することにより、効率良く出演者を抽出することが可能となる。
ここで、図3のフローチャートの説明に戻る。
ステップS9において、出演者欄外判定処理が終了すると、ステップS10において、出力部23は、出演者名抽出結果記憶部22に記憶されている出演者の名前を読み出し、表示部6に表示する。
この処理により、表示部6は、例えば、図13で示されるような画面により人名として出演者名を表示する。図13においては、通常の放送番組の表示欄102の右側に人名表示欄121が設けられ、抽出された人名を選択するとき操作されるボタン131乃至133が、抽出された出演者名に対応して設けられている。図13においては、「社長部長」の出演者名に対してボタン131が設けられており、「ベキ男」の出演者名に対してボタン132が設けられており、「変奈えみり」の出演者名に対してボタン133が設けられている。
ステップS11において、番組検索部25は、操作部5が操作されて、ボタン131乃至133のいずれかが操作されて、出演者名である人名が選択されたか否かを判定する。例えば、図13において、ボタン131が操作部5により操作されて、「社長部長」のキーワードが選択された場合、ステップS12において、番組検索部25は、EPG取得部12またはiEPG取得部14より供給されてくるEPG情報に基づいて、「社長部長」のキーワードにより番組を検索し(EPG情報の番組情報に「社長部長」のキーワードを含む番組を検索し)、ステップS13において、検索結果を、例えば、図14で示されるように表示部6に表示させる。また、ステップS11において、選択されなかった場合、ステップS12,S13の処理はスキップされる。
図14においては、選択キーワードタブ151が設けられており、選択されたキーワードが示されており、図14においては、選択されたキーワードである「社長部長」が示されている。その下には、検索結果表示欄152が設けられており、選択されたキーワードで検索された番組が表示されている。図14においては、最上段に、「明日 1:05 AM 映画劇場「台の向こうに」」が表示され、第2段目には、「2:30 AM Howbiz Extra #201」が表示され、第3段目には、「9:30 PM 木曜洋画劇場 「インディアン・ゲーム」が表示され、第4段目には、「0:00 AM インディーズムービーフェスティバル〜自主制作」が表示され、第5段目には、「050 AM 映画劇場「マイ・ホーム」」が表示され、第6段目には、「2:30 AM ビリーさん自らを語る」が表示され、第7段目には、「11:00 PM 映画『お墓と結婚』(無料放送)」が表示されており、それぞれの番組名と放送時間が表示される。これらの番組の表示欄は選択することにより、例えば、録画予約ができるようにしてもよい。検索結果表示欄の下には、右側に「戻る」と表示されたボタン153が設けられている。ボタン153は、選択キーワードタブ151による表示を終了して元に戻すとき操作される。また、ボタン153の左側には「オプション」と表示されたボタン154が設けられている。ボタン154は、オプション操作を実行させるとき操作される。
ステップS14において、番組検索部25は、操作部5が操作されて語句登録が指示されたか否かを判定する。例えば、ボタン154が操作部5により操作され、図15で示されるようにオプション操作ダイアログボックス171が表示され、さらに、オプション操作ダイアログボックス171上の「語句登録」と表示されたボタン181が押下されて、語句登録が指示された場合、ステップS15において、番組検索部25は、今現在選択されている語句である「社長部長」を出演者名抽出結果記憶部22に記憶させる。この処理により、語句登録が指示された出演者名は、EPGデータに含まれていなくても、常に人名表示欄121に表示される。
尚、図15のオプション操作ダイアログボックス171には、「語句登録」が指示されるとき操作されるボタン181およびオプション操作をキャンセルするとき操作されるボタン182が設けられている。
一方、ステップS14において、語句登録が指示されなかった場合、ステップS15の処理は、スキップされる。
そして、ステップS16において、終了が指示されたか否かが判定され、終了が指示されていない場合、処理は、ステップS11に戻り、終了が指示された場合、処理は、終了する。
以上の処理によれば、電子番組表(EPG)に含まれる情報に基づいて、レイアウトの情報から出演者欄の領域を特定し、出演者欄内の情報については、出演者名が規則的に配置されている可能性が高いため、出演者名および役名といった記号を含まない情報の配置によりパターンを解析し、解析したパターンに基づいて出演者名を抽出するようにしたので、より高い精度で出演者名を抽出することが可能となる。
また、出演者欄外の情報については、出演者名が出演者欄内よりも規則的には配置されていない可能性があるので、出演者名、役名に加えて、記号の配置に基づいて、パターンを解析し、解析したパターンに基づいて出演者名を抽出するようにしたので、より高い精度で出演者名を抽出することが可能となる。
結果として、出演者欄内と出演者欄外とを区別して出演者名を抽出する方法を切り替えるようにすることで、高精度で、かつ、効率良く出演者名を抽出することが可能となる。
また、以上においては、コンテンツのメタデータがEPGである例について説明してきたが、コンテンツの付加情報としてのメタデータであれば、EPG以外のものであってもよく、例えば、ECG(Electronic Contents Guide)などであってもよい。
さらに、以上においては、コンテンツがテレビジョン番組である例について説明してきたが、メタデータを備えたコンテンツであれば、テレビジョン番組以外であってもよく、例えば、ネットワークを介してダウンロードされる動画像コンテンツや音楽コンテンツであってもよいし、DVD(Digital Versatile Disc)やBD(Blu-Ray Disc)などのデータ格納媒体に格納された動画像コンテンツや音楽コンテンツであってもよい。
本発明の一側面によれば、コンテンツのメタデータに含まれる情報のうち、コンテンツの出演者名の情報を効率良く抽出することが可能となる。
ところで、上述した一連のテキスト処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
図16は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブルメディア1011に対してデータを読み書きするドライブ1010が接続されている。
CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア1011から読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
尚、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理は、もちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理を含むものである。
1 情報処理装置, 13 EPGテキストデータ抽出部, 15 形態素解析部, 16 辞書記憶部, 17 形態素解析結果バッファ, 18 出演者欄外判定部, 19 パターン記憶部, 20 レイアウト認識部, 21 分別抽出部, 22 出演者名抽出記憶部, 23 出力部, 24 出演者欄内判定部, 25 番組検索部, 26 チューナ, 31 属性判定部, 32 パターン抽出部, 33 類似性距離計算部, 34 パターン決定部, 35 出演者名抽出部, 41 パターン抽出部, 42 パターン比較部, 43 出演者名抽出部