JP4909200B2 - 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム - Google Patents

人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム Download PDF

Info

Publication number
JP4909200B2
JP4909200B2 JP2007185161A JP2007185161A JP4909200B2 JP 4909200 B2 JP4909200 B2 JP 4909200B2 JP 2007185161 A JP2007185161 A JP 2007185161A JP 2007185161 A JP2007185161 A JP 2007185161A JP 4909200 B2 JP4909200 B2 JP 4909200B2
Authority
JP
Japan
Prior art keywords
content
human
relationship
graph
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007185161A
Other languages
English (en)
Other versions
JP2008112432A (ja
Inventor
淳 後藤
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2007185161A priority Critical patent/JP4909200B2/ja
Publication of JP2008112432A publication Critical patent/JP2008112432A/ja
Application granted granted Critical
Publication of JP4909200B2 publication Critical patent/JP4909200B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、コンテンツの内容を表すグラフを生成する人間関係グラフ生成装置、そのプログラムと、当該グラフを用いて、所望のコンテンツを検索するコンテンツ検索装置、そのプログラムに関する。
現在、ハードディスクレコーダの普及に伴い、当該ハードディスクレコーダに長時間にわたって蓄積した番組の中から、当該レコーダのユーザが視聴したい番組(所望の番組)を検索する際に、番組名、出演者名等の単語データを基にした、いわゆるキーワード検索(キーワードマッチング)が一般的に行われている(例えば、特許文献1、2参照)。通常、キーワード検索では、ユーザが思いついたキーワードを逐次入力することで、複数のキーワードにより、所望のコンテンツの候補を絞り込んでいくことが行われている。
また、ネットワーク上に無数に存在する番組や映画等のコンテンツ(ネットワークに接続されているサーバの中で、コンテンツを蓄積しているサーバにアクセスしてダウンロード可能なもの)の中から、所望のコンテンツを検索する場合に、同様のキーワード検索が行われている。
特許第2809341号公報 特許第3408998号公報
しかしながら、従来のキーワード検索では、ユーザが視聴したいと考えているコンテンツが漠然としている場合や、以前視聴したコンテンツを再度視聴したいと思いついた際に、キーワードに該当することをほとんど覚えていない場合に、所望のコンテンツを検索することができないという問題がある。例えば、ユーザが視聴したいと考えているコンテンツが三角関係を題材にした恋愛ドラマや、第二次世界大戦を背景にした対立する陣営を描く戦争映画といったものである場合、キーワード検索だけでは、このような人間関係などの内容を手がかりに、様々な多数のコンテンツから所望のコンテンツをうまく絞り込めず、結果として検索することができない。
そこで、本発明では、前記した問題を解決し、コンテンツの詳細な内容を簡略化して示すことができる人間関係グラフ生成装置、そのプログラムと、当該コンテンツの詳細な内容を手がかりに、所望のコンテンツを検索することができるコンテンツ検索装置、そのプログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の人間関係グラフ生成装置は、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成する人間関係グラフ生成装置であって、コンテンツ取得手段と、テキストデータ解析手段と、人間関係グラフ生成手段と、表示手段と、を備える構成とした。
かかる構成によれば、人間関係グラフ生成装置は、コンテンツ取得手段によって、コンテンツを取得する。続いて、人間関係グラフ生成装置は、テキストデータ解析手段によって、コンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析する。人間関係グラフ生成装置は、人間関係グラフ生成手段によって、テキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、人物を示す単語をノードのラベルとし、人物を示す単語同士の関係を、人物同士の関係を示したエッジのラベルとして表したノードとエッジとからなる人物の人間関係グラフを生成する。そして、人間関係グラフ生成装置は、表示手段によって、人間関係グラフ生成手段で生成した人間関係グラフを表示させる。この人間関係グラフは、ノードとして、人物の姓名、性別、年齢、当該人物を演じる俳優の過去の出演番組等を、エッジとして、当該人物の人間関係、例えば、恋愛関係、敵対関係、友人関係、血縁関係等を記述したものである。
請求項2に記載の人間関係グラフ生成装置は、請求項1に記載の人間関係グラフ生成装置において、前記テキストデータ解析手段が、前記テキストデータに含まれる単語の中で、固有表現を示している単語を抽出する固有表現抽出手段を備えることを特徴とする。
かかる構成によれば、人間関係グラフ生成装置は、固有表現抽出手段によって、テキストデータに含まれる単語の中で固有表現、例えば、人名や地名等を示す単語を抽出する。
請求項3に記載の人間関係グラフ生成装置は、請求項1又は2に記載の人間関係グラフ生成装置において、前記テキストデータ解析手段が、文字列若しくは当該文字列の一部、品詞、当該品詞に活用がある場合の標準形、読み、文字列長、文字種、特定文字の有無の少なくとも1つを人物の名前の特報量として学習したモデルを用いて、当該人物の性別を判定する性別判定手段を備えることを特徴とする。
かかる構成によれば、人間関係グラフ生成装置は、性別判定手段によって、人物の性別を判定している。
請求項4に記載の人間関係グラフ生成装置は、請求項3に記載の人間関係グラフ生成装置において、前記表示手段が、前記性別判定手段で性別が判定された結果に従って、前記ノードを、予め設定した表示色に色分けして表示することを特徴とする。
かかる構成によれば、人間関係グラフ生成装置は、表示手段によって、人間関係グラフを表示する際に、人物の性別に従って、ノードの表示色を変えて表示する。
請求項5に記載の人間関係グラフ生成装置は、請求項1から4のいずれか一項に記載の人間関係グラフ生成装置において、ネットワークに接続し、当該ネットワークを介して、前記コンテンツの内容を説明したテキストデータである補完データを取得するテキストデータ取得手段を備えることを特徴とする。
かかる構成によれば、人間関係グラフ生成装置は、テキストデータ取得手段によって、ネットワーク上に存在しているコンテンツの内容を説明したテキストデータである補完データを取得することで、コンテンツに予め付加されているテキストデータでは記述されていなかった人物の関係を補完することが可能となる。
請求項6に記載のコンテンツ検索装置は、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するコンテンツ検索装置であって、人間関係グラフ蓄積手段と、入力手段と、表示手段と、を備える構成とした。
かかる構成によれば、コンテンツ検索装置は、人間関係グラフ蓄積手段に、コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係から、予め設定した規則に従って、人物を示す単語をクラスタリングした結果をノードのラベルとし、人物を示す単語同士の関係をクラスタリングした結果を、人物同士の関係を示したエッジのラベルとして表したノードとエッジとからなる人間関係グラフを蓄積している。そして、コンテンツ検索装置は、入力手段によって、所望のコンテンツを特定する特定データを入力し、入力された特定データから所望のコンテンツの人間関係グラフを生成する。この特定データは、例えば、登場人物の性別、年齢、職業、俳優の情報、登場人物間の人間関係に関する情報である。そして、コンテンツ検索装置は、検索手段によって、入力手段で生成された人間関係グラフと、人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する。その後、コンテンツ検索装置は、表示手段によって、検索手段で検索した検索結果を表示させる。
請求項7に記載のコンテンツ検索装置は、請求項6に記載のコンテンツ検索装置において、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフ及び生成した人間関係グラフのそれぞれのノードに、前記人物を示す単語について性別を示すラベルが含まれていることを特徴とする。
かかる構成によれば、コンテンツ検索装置は、人間関係グラフに、人物の性別を示すラベルが含まれることで、性別による人間関係が反映され、所望のコンテンツを検索する精度を向上させることができる。
請求項8に記載のコンテンツ検索装置は、請求項6又は7に記載のコンテンツ検索装置において、前記入力手段が、前記特定データを入力していくためのテンプレートを提示するテンプレート提示手段を備えることを特徴とする。
かかる構成によれば、コンテンツ検索装置は、当該装置のユーザが入力手段によって、特定データを入力する際にテンプレートを示し、このテンプレートに従った特定データを得ることで、蓄積している人間関係グラフと同様の人間関係グラフを生成することができ、検索する際の検索効率が向上する。
請求項9に記載のコンテンツ検索装置は、請求項6から8のいずれか一項に記載のコンテンツ検索装置において、前記検索手段が、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとから前記人間関係グラフの一部である、少なくとも2つのノードと1つのエッジとを含む部分グラフについて、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとの間で共通している共通部分グラフの数、前記共通部分グラフのエッジ数が最大となる最大エッジ数、又は、前記人間関係グラフが共有しているノードとエッジの種類の数に基づいて、当該数が多い順に前記人間関係グラフ蓄積手段で蓄積している人間関係グラフを抽出することで、前記所望のコンテンツを検索することを特徴とする。
かかる構成によれば、コンテンツ検索装置は、検索手段によって、共通部分グラフの数、最大エッジ数、ノードとエッジの種類の数のいずれかの数に基づいて、蓄積している人間関係グラフの中から当該数が多い順に人間関係グラフを抽出することで、所望のコンテンツを検索することができる。
請求項10に記載の人間関係グラフ生成プログラムは、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成するために、コンピュータを、コンテンツ取得手段、テキストデータ解析手段、人間関係グラフ生成手段、表示手段、として機能させる構成とした。
かかる構成によれば、人間関係グラフ生成プログラムは、コンテンツ取得手段によって、コンテンツを取得し、テキストデータ解析手段によって、コンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析する。人間関係グラフ生成プログラムは、人間関係グラフ生成手段によって、テキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、人物を示す単語をノードのラベルとし、人物を示す単語同士の関係を、人物同士の関係を示したエッジのラベルとして表したノードとエッジとからなる人物の人間関係グラフを生成し、表示手段によって、人間関係グラフ生成手段で生成した人間関係グラフを表示させる。
請求項11に記載のコンテンツ検索プログラムは、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するために、前記コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語をクラスタリングした結果を前記ノードのラベルとし、前記人物を示す単語同士の関係をクラスタリングした結果を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを蓄積する人間関係グラフ蓄積手段を備えたコンピュータを、入力手段、検索手段、表示手段、として機能させる構成とした。
かかる構成によれば、コンテンツ検索プログラムは、入力手段によって、所望のコンテンツを特定する特定データを入力し、入力された特定データから所望のコンテンツの人間関係グラフを生成して、検索手段によって、生成した人間関係グラフと、人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する。そして、コンテンツ検索プログラムは、表示手段によって、検索手段で検索した検索結果を表示させる。
請求項1、10に記載の発明によれば、人間関係グラフにより、コンテンツの内容を説明する際に用いられる人物の人間関係が明確に示されるので、コンテンツの詳細な内容を簡略化して示すことができる。
請求項2に記載の発明によれば、テキストデータに含まれる単語の中で固有表現を抽出することで、この固有表現を用いた人間関係グラフにより、コンテンツの詳細な内容を簡略化して示すことができる。
請求項3に記載の発明によれば、テキストデータに含まれる単語の中で、当該単語が人物を示す場合に、この人物の性別を判定しており、この性別を人間関係グラフに反映させることができる。
請求項4に記載の発明によれば、人物の性別に従って表示色を変えて表示することができる。
請求項5に記載の発明によれば、ネットワーク上に存在しているコンテンツの内容を説明したテキストデータである補完データを取得することで、コンテンツに予め付加されているテキストデータでは記述されていなかった人物の関係を補完することができ、これにより、より充実した人間関係グラフを得ることができる。
請求項6、11に記載の発明によれば、人間関係グラフによって、コンテンツの詳細な内容が簡略化して表され、このコンテンツの詳細な内容を手がかりに、所望のコンテンツを検索することができる。
請求項7に記載の発明によれば、人間関係グラフに、人物の性別を示すラベルが含まれることで、性別による人間関係が反映され、所望のコンテンツを検索する精度を向上させることができる。また、人物の性別を示すラベルのみをノードの情報として選択することにより、人物の性別のみの関係で人間関係グラフを検索することができる。
請求項8に記載の発明によれば、テンプレートに従った特定データを得ることで、蓄積している人間関係グラフと同様の人間関係グラフを生成することができ、検索する際の検索効率を向上させることができる。
請求項9に記載の発明によれば、部分グラフの数、最大エッジ数、ノードとエッジの種類の数のいずれかのスコア又は数に基づいて、蓄積している人間関係グラフの中から、生成した人間関係グラフに似ているものを検索することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(人間関係グラフ生成装置の構成)
図1は人間関係グラフ生成装置のブロック図である。この図1に示すように、人間関係グラフ生成装置1は、取得したコンテンツの内容を説明する際に用いられる人物の相関関係を表した人間関係グラフを生成するもので、コンテンツ取得手段3と、テキストデータ解析手段5と、人間関係グラフ生成手段7と、表示手段9と、テキストデータ取得手段11と、を備えている。
コンテンツ取得手段3は、コンテンツ(番組、映画、アニメ等)に付加されているテキストデータを取得するものである。ここで取得とは、入力と受信とを含む概念を指している。例えば、入力の場合、コンテンツに付加されているテキストデータの代わりに、書籍等をデジタル化した電子データを入力することも可能である。この実施形態では、デジタル放送から(デジタル放送波を受信して)デジタルコンテンツを取得することとしている。そして、このコンテンツ取得手段3で取得されるコンテンツ(番組)には、予め当該コンテンツの内容を説明したテキストデータ(番組情報)が放送局等により付加されている。
デジタル放送におけるテキストデータ(番組情報)は、コンテンツ名(番組名、タイトル)、コンテンツのジャンル情報(恋愛、コメディ、SF、戦争、ヒューマンドラマ、ドキュメンタリー、報道、アクション、ホラー、ミステリー等を指定した情報)、時間情報(所要時間等、放送番組であれば、放送開始時刻、放送終了時刻を含む)等の構造化データと、コンテンツのあらすじや、登場人物の紹介等のコンテンツの内容を説明した説明データとから構成されている。
テキストデータは、コンテンツの内容を説明する際に用いられる人物、時代背景、出来事、風景等の様々な対象について、具体的なこと、つまり、固有表現を含むものである。例えば、「コンテンツの内容を説明する際に用いられる人物」とは、出演者、監督、脚本家等のことを指し、「コンテンツの内容を説明する際に用いられる時代背景」とは、○○時代、××末期、△△初頭等を指し、「コンテンツの内容を説明する際に用いられる出来事」とは、□□事件、●●裁判等を指し、「コンテンツの内容を説明する際に用いられる風景」とは、◇◇山脈、▽▽湖等を指している。
そして、「コンテンツの内容を説明する」とは、これら人物、時代背景、出来事、風景等の固有表現を使って、コンテンツの特徴を端的に述べることであり、具体的には、「出演者Aがでている映画」、「K監督の作品」、「戦国時代のドラマ」、「2001年9月11日に起きた事件を取り扱ったドキュメント」、「アルプス山脈を舞台にしたサスペンス」である。
また、「コンテンツの内容を説明する際に用いられる対象」のその他の例として、特定の生き物(犬、猫、魚、ライオン、熊等)、特定のキャラクタ(ドラキュラ、狼男、何々マン等)、特定の音楽(曲名、作曲者、演奏者、指揮者等)が挙げられる。ただし、本願では、当該対象を人物としているが、擬人化された動物や怪物などのキャラクタも人物の相関関係である人間関係に含めることとしている。
構造化データは、コンテンツ制作者、放送事業者、評論家等、誰が記述しても大差がない普遍的なものであり、どの様なコンテンツであるかを示す情報として客観性(或いは信頼性)が高いと言える。そして、この構造化データの中のジャンル情報は、説明データから人間関係が得られる可能性が高いコンテンツ(映画、ドラマ、アニメ等)を特定するのに使用できる。
また、構造化データの中のコンテンツ名(番組名、タイトル)は、後記するテキストデータ取得手段11により、ネットワーク(ここではインターネット)を介して、当該ネットワーク上に存在する、該当するコンテンツのテキストデータ(以下、補完データという)を取得する際のキーワードとして用いられる。
説明データは、構造化データに比べ、記述する人によって、ばらつきがあるものであり、客観性が低い可能性があり、コンテンツの内容を説明するのに十分でない場合がある。それゆえ、テキストデータ取得手段11によって補完データを得ることとしている。
また、説明データは、当該説明データを読んだ視聴者がコンテンツの内容を大まかに推測できる程度に記述されたものである。コンテンツの具体的な内容に関わることとして、登場人物の役柄の詳細や大まかなストーリー展開を記述しておくことができる。
登場人物の役柄の記述(主人公情報)は、俳優Aさんが主人公、俳優Bさんが脇役、俳優Cさんがちょい役等であり、役柄のランク付けも含まれる。なお、この登場人物の役柄のランク付けについては、後記するテキストデータ解析手段5によって、俳優名の記述されている順番によって、推測可能である。例えば、人間関係グラフにおいて、α役とβ役とが敵対関係にあり、人間関係グラフを一見しただけでは、どちらが悪役か不明の場合にも、主人公情報からβ役が悪役であると推測できる。また、ストーリー展開の説明からα役とβ役とがどのような関係かも取得できる場合がある。
なお、このコンテンツ取得手段3で取得されるコンテンツは、当該コンテンツに登場する登場人物について、登場人物が織りなすストーリー性のあるものの方が後記する人間関係グラフを得やすいので、好適であると言える。
テキストデータ解析手段5は、コンテンツ取得手段3で取得したコンテンツに付加されているテキストデータと、テキストデータ取得手段11で取得される補完データとに含まれている単語及び当該単語同士の関係を解析するもので、自然文リスト形式文分離手段5aと、固有表現抽出手段5bと、係り受け解析手段5cと、性別判定手段5dと、人物重要度判定手段5eと、照応解析手段5fとを備えている。
自然文リスト形式文分離手段5aは、テキストデータ又は補完データを、自然文とリスト形式文とに分離するものである。この自然文リスト形式文分離手段5aは、テキストデータ又は補完データ中の特定の記号(ここでは、墨付き括弧)が含まれている場合に、特定の記号が検出される前の部分を自然文とし、検出された後の部分をリスト形式文として分離している。ここで、テキストデータの例と、このテキストデータが自然文リスト形式文分離手段5aで分離された例とを図2に示す。なお、図2に示したデータは、実際に放送されたNHKの番組データの一部である(固有名詞に若干の変更を加えている)。
この図2(a)に示すように、テキストデータが「20世紀初頭、かつての恋人、・・・・中略・・・、TXO ターナショナル制作〜」である場合に、図2(b)に示すように、墨付き括弧を区切りとして、Aの部分「20世紀初頭、・・・中略・・・、マギーだった。」とBの部分「墨付き括弧 出演 墨付き括弧、・・・中略・・・、TXO ターナショナル制作〜」とに分離される。このように、Aに部分ではコンテンツの概要、あらすじが自然文で記述されており、Bの部分ではコンテンツの出演者、監督、制作会社等の情報が記述されている。
なお、この自然文リスト形式文分離手段5aによる自然文とリスト形式文との分離は、特定の記号を区切りとする以外に、助詞の有無や読点「。」の有無によって分離する仕方や、人名が連続する箇所をリスト形式文とみなすといった予め設定したヒューリスティックなルールに基づいて行うことも可能である。または、SVM(Support Vector Machine)やCRF(Conditional Random Field)等の機械学習アルゴリズムにより分離を行うことも可能である。図2では、自然文とリスト形式文との分離を一箇所だけで行っているが、複数箇所で分離することも可能である。図1に戻る。
固有表現抽出手段5bは、自然文リスト形式文分離手段5aで分離したリスト形式文から人名を抽出し、当該人名が記述されている順序を取得し、続いて、自然文リスト形式文分離手段5aで自然文から人名と人に関する関連情報を抽出するものである。図2に示した例では、図2(b)のBの部分から「ユア・サーマン」を1番目の人名として、「ジェミレー・ノーサム」を2番目の人名として抽出する。この順序の情報は、人物重要度判定手段5eで、人物の重要度を測る際に使用する。
なお、人物を示す表現には、人名だけではなく、職業名(政治家、医師、弁護士等)、役職名(社長、所長、部長等)や代名詞等を用いる表現や、組織(警察、NHK、国税庁等)や動物(犬、豚、たこ等)等を擬人化して取り扱う表現がある。このため、この固有表現抽出手段5bは、SVMやCRF等の機械学習アルゴリズムで、人名、地名、組織名、職業等の固有表現を学習したモデルを用いて、自然文から必要とする固有表現結果を得る。また、この機械学習アルゴリズムで、固有表現だけでなく、人名を表す代名詞や、男、女等の一般名詞を学習しておき、固有表現抽出手段5bで、固有表現以外の人物表現を得ることができる。ただし、代名詞や一般名詞は語彙数が限られているため、辞書を用いて抽出することもできる。
なお、組織や動物を擬人化して取り扱う表現とは、例えば、「ジムは警察に追われている。」といった自然文の場合、警察は組織であるが、擬人化されて、ジムを追っている主体となっている。
この固有表現抽出手段5bでは、自然文から固有表現を得る際の特徴量、すなわち、素性(素性)として、形態素の情報を使用している。形態素の情報として、表層(自然文中で使用されたそのままの表現)、基本形、読み、品詞、活用形、文字種(漢字、カタカナ、平仮名、これらの混合の場合)、文字情報(最初の文字、最後の文字、前から数文字、後から数文字)等が挙げられる。なお、この固有表現抽出手段5bは、この他に必要があれば、形態素のシソーラスにおける位置、構文解析時の係り受けの関係の情報を、特徴量(素性)に付加することができる。
なお、この固有表現抽出手段5bは、テキストデータ又は補完データに含まれる単語の中で、予め設定した固有表現を示しているものを特定している。この固有表現タグには、人名、地名(出身地)、日付(誕生日)、年齢、職業等が含まれており、この固有表現タグは人間を説明する際に用いられる固有表現から選択されたものである。ちなみに、自然文から固有表現を抽出することに関する先行研究として、約200種類の固有表現を抽出しようとする研究(S.Sekine:”Extended Named Entity Hierarchy”,LREC 2002)が行われている。
また、人間を説明する固有表現以外に、時代設定やロケーションなど物語の背景(背景データ)を抽出しておくことで、後記する人間関係グラフを利用したコンテンツ検索時に背景データを指定することができ、人物の相関関係だけでなく、当該背景データを効果的に活用した検索を行うことができる。
係り受け解析手段5cは、固有表現抽出手段5bによって抽出された固有表現結果から、1つの文に人名が2つ以上含まれている文を対象文として選択し、この対象文について係り受け解析を行うものである。これにより、人名が人名に係る際の表現を関係表現として抽出することができる。また、係り受け解析手段5cは、登場人物に関する属性(職業や年齢等)の固有表現が文中にある場合には、同時に取得する。この係り受け解析手段5cによる係り受けの解析の例を図3に示す。
図3に示すように、「その女性とは、大富豪ヴァーヴァーの令嬢でシャーロットの親友でもあるマギーだった。」という対象文から“マギーはヴァーヴァーの令嬢であり”と“マギーはシャーロットの親友である”という2つの関係表現を得ることができる。また、「大富豪ヴァーヴァー」から“大富豪”という表現を得ることができる。このように、係り受け解析手段5cでは、テキストデータ又は補完データの関係表現として抽出する。
また、係り受け解析手段5cは、解析に悪影響を及ぼす丸括弧等の挿入表現を削除して解析を行っている。ただし、丸括弧内にある文字列は、直前の名詞を説明する重要な情報を含んでいる場合があるので、削除を行う際には、正規表現によるパターンマッチングすることで、挿入表現を取得することとしている。例えば、「長女のジョージア(ダイアン・キートン)は・・・」という表現からは、“人名1(人名2)”というパターンとパターンマッチングが成立するため、予め定義した人名2の人物が人名1の役を演じているというヒューリスティックを用いることで、俳優“ダイアン・キートン”と役名“ジョージア”との関係を取得することができる。図1に戻る。
性別判定手段5dは、固有表現抽出手段5bによって抽出された固有表現結果から、図示を省略した辞書データを用いて、表層的文字列若しくは当該文字列の一部、読み若しくは当該読みによる文字列の一部、文字列長、文字種、特定の文字の有無の少なくとも1つを人物の名前の特報量として、サポートベクターマシン等による機械学習により学習し、この学習した学習モデルを用いて、人物の性別を判定するものである。
辞書データは、少なくとも単語の読み(平仮名の文字列、カタカナの文字列)を記憶したもので、形態素解析等に使用される辞書を採用している。なお、単語の読みの中には、人名特有の読み方(人名表現の読み)が含まれている。たとえ、単語の読みが間違っていた場合でも、表層的文字列若しくは当該文字列の一部の素性や読みによる文字列の一部等を用いて他の素性から性別の判定が成功する場合がある。
名前データは、性別と名前に該当する文字列とを対応付けたものである。例えば、女性の名前として、「田中○○子」、「△美」等が挙げられ、男性の名前として、「鈴木○雄」、「△夫」、「×郎」等が挙げられる。また、外国人の女性の名前として、「マギー・スミス」、「メアリー・ポートマン」、「ジュリア」等が挙げられ、外国人の男性の名前として、「ジャック・ディヴィス」、「トム」等が挙げられる。
なお、西洋人(=外国人)の姓と名との順序は、日本人のものとは異なるが、素性に利用した文字種等を手掛かりに、機械学習により判別することができる。また、西洋人の姓と名の間に用いられる「・」の有無も有効な素性となる。
この性別判定手段5dは、判定結果として、「男性」、「女性」、「Unknown」、「苗字のみ」の4つを出力する。「Unknown」は、人が単語を見ても区別がつかない名前であり、例えば、優(ゆう、まさる)、博美(ひろみ)、光(ひかる)等が挙げられる。
ここで、性別判定手段5dによって、コンテンツに付加されているテキストデータについて、当該テキストデータに含まれている人名の性別を判定した例について説明する。
まず、性別判定手段5dは、固有表現結果から読みを生成し、この生成した読みと元の表現とから特徴量を生成する。例えば、「佐藤凉子」の場合、この単語の前から1文字ずつ3文字目までの特徴量をf1〜f3とすると、f1=佐、f2=藤、f3=凉となり、この単語の後から1文字ずつ3文字目までの特徴量をe1〜e3とすると、e1=子、e2=涼、e3=藤となる。また、単語の前から2文字ずつ3文字目までの特徴量をfc1、fc2とすると、fc1=佐藤、fc2=藤凉となり、単語の後から2文字ずつ3文字目までの特徴量をec1、ec2とすると、ec1=子凉、ec2=涼藤となる。ここで扱う素性は、表層的文字列から取り出せる文字情報であれば制限はない。
さらに、「佐藤凉子」の読みが「さとうりょうこ」であり、この単語の読みについて前から1文字ずつ4文字目までの特徴量をhf1〜hf4とすると、hf1=さ、hf2=と、hf3=う、hf4=りとなり、この単語の読みについて後から1文字ずつ4文字目までの特徴量をhe1〜he4とすると、he1=こ、he2=う、he3=ょ、he4=りとなる。また、単語の読みについて前から2文字ずつ4文字目までの特徴量をhfc1、hfc2、hfc3とすると、hfc1=さと、hfc2=とう、hfc3=うりとなり、単語の読みについて後から2文字ずつ4文字目までの特徴量をhec1、hec2、hec3とすると、hec1=こう、hec2=うょ、hec3=ょりとなる。ここで扱う素性は、読みの表層的文字列から取り出せる文字情報であれば制限はない。
さらに、文字種、文字列長が素性として有効に作用する。例えば、文字列長は、人名として取り出された文字列の長さであり、例えば、「トム」の場合は、「2」である。文字種は、カタカナ、ひらがな、漢字、アルファベッド、漢数字、アラビア数字とその組み合わせである。「トム」の場合は、「カタカナ(KATAKANA)」となる。「田中トム」の場合は、「漢字−カタカナ(KANJI−KATAKANA)」となる。
そして、性別判定手段5dでは、サポートベクターマシンで前記した素性を学習しモデルを作成する。「佐藤凉子」から同様の素性を抽出し、学習モデルに基づき判別を行うと、女性であるという結果が得られる。
性別判定手段5dによる性別判定は、固有表現抽出手段5bで用いる学習モデルをCRFやSVMで作成する際に、人名のタグを、人名−男、人名−女、人名−不明、人名−苗字等に細分化して学習しておくことで、固有表現抽出の結果を出力する際に行われる。この場合、性別判定手段5dでは、人名のタグが付された文の周辺の文脈を考慮した性別判定を行うことができる。
人物重要度判定手段5eは、自然文中に出現したキャラクタの人名の回数や順序及びリスト形式に出現する俳優の順序に基づいて、主役、準主役の重み付けを行うことができる。つまり、この重み付けは、最も多く出てきた人名について、その重みが最大となるように設定され、又は、一番はじめに出てきた人名について、その重みが最大となるように設定される。なお、出現するキャラクタの人名の回数を数える場合、照応解析手段5fによる解析結果を使用することもできる。例えば、照応解析手段5fによる解析結果により、代名詞の“彼”が人名の“トム”を指すと判定された場合は、“彼”の出現回数を“トム”の出現回数に含める。
照応解析手段5fは、複数文に分かれて人間関係や人物を説明する固有表現が出現する場合、照応解析を行い、代名詞や省略された名詞句(ゼロ代名詞)等を補完し、それぞれの文における単語の関係を抽出するものである。照応解析とは、代名詞や指示詞の指示対象を推定したり、ゼロ代名詞を補完したりする処理である。この照応解析を複数文に行うことにより、1文内に人物表現が2つ以上出現しないような場合にも、当該人物の関係や当該人物の特徴を抽出できる場合がある。ここで用いる照応解析では、全ての名詞を対象にせず、解析対象を人物表現に限定し、当該解析対象の候補を絞り込むこととしている。また、照応解析に使用する素性には、語彙の一致率、係り受け関係、固有表現解析結果、出現位置、代名詞の有無、人物表現の性別を用いることができる。
照応解析に使用する素性に、語彙の一致率を用いると、例示した“佐藤凉子”と名前だけの“凉子”とは表層的文字列からすると、“佐藤凉子”が“凉子”を完全に含んでおり、この場合、照応関係になる可能性が高くなる。
また、照応解析に使用する素性に、係り受け関係及び固有表現解析結果を用いると、例えば、“先生の四郎は・・・”という表現から職業名の“先生”が人名の“四郎”を修飾している結果が得られ、“四郎”と“先生”とが同一人物であることがわかる。ただし、“四郎の先生は・・・”という表現のように、人名が職業名を修飾している場合、“四郎”と“先生”とは別人となる。
さらに、照応解析に使用する素性に、出現位置を用いると、“彼”等の代名詞がある場合、“彼”が出現する前の人物を指すことが自明となる。この場合、性別の素性を用い、代名詞“彼”の性別が男性であるため、照応関係が成立する照応先は、男性の人名に限定されることとなる。
このように、照応解析手段5fでは、素性を使って、設定したルールを用い、照応解析を行って、照応関係の有無を判定することができる。さらに、照応解析手段5fでは、素性をSVC等の機械学習アルゴリズムで学習し、候補の人物表現同士が照応関係にあるか否かを判定することができる。
ここで、テキストデータとして「太郎と花子は親友だ。彼女には次郎という弟がいる。」という2文が入力された際に、性別判定手段5dによる性別の判定結果を、照応解析手段5eによる照応関係の解析に役立てる場合について説明する。
これら2文からでは、太郎と花子の性別及び代名詞「彼女」の性別情報を(性別の判定結果)を用いない限り、照応関係を推定することは難しく、太郎と花子のどちらに弟がいるのか把握することができない。
このように、照応関係には、代名詞や一般名詞等の性別についても、辞書若しくは機械学習により性別を判定する必要がある。例えば、性別を表す代名詞として、「彼」、「彼女」、一般名詞として、男性では「大男」、「山男」、「男優」、「兄」、「父」、「弟」、「祖父」、「息子」等が挙げられ、女性では、「看護婦」、「女優」、「婦警」、「娘」、「祖母」、「妹」、「姉」、「母」等が挙げられる。
人間関係グラフ生成手段7は、テキストデータ解析手段5で解析された解析結果(テキストデータ又は補完データに含まれる人物表現について、当該単語の固有表現及び単語同士の関係)に基づいて、人間関係グラフを生成するものである。
人間関係グラフは、テキストデータ又は補完データに含まれる人物(人物表現)を“ノード”とし、これらノードの関係を“エッジ”として表したラベル付きグラフである。
なお、人間関係グラフ生成手段7では、リスト形式文で出てきた人名の順序が参照され、人名の順序が早いものほど、コンテンツの主人公等の重要人物であるとし、この人名の順序が早いものを中心に当該人間関係グラフが生成される。この人間関係グラフの例を図4に示す。
この図4は、図3に示した対象文について、人間関係グラフを表したものである。この図4に示すように、“シャーロット”と“マギー”と“ヴァーヴァー”という3つのノードがあり、ノード“シャーロット”とノード“マギー”とが“親友”というエッジで結ばれ、ノード“マギー”とノード“ヴァーヴァー”とが“令嬢”というエッジで結ばれている。また、ノード“ヴァーヴァー”を示す特徴として当該ノードに“大富豪”が格納される。
なお、人間関係グラフ生成手段7は、ノードとエッジのラベルをクラス化しており、後記する検索時に、人間関係グラフ同士が適合しやすいように当該人間関係グラフを生成している。テキストデータ又は補完データで出現する表現をそのままラベルにすると、検索時に適合(類似)する人間関係グラフがほとんど得られない状態が想定される。そこで、この人間関係グラフ生成手段7では、ノードとエッジをいくつかのクラスに分類することで、検索時に、検索効率を向上させている。ここで、図5(a)にエッジに使用されるラベルの例について示す。
図5(a)に示すように、エッジに使用されるラベルを、恋愛関係(恋人、ボーイフレンド、ガールフレンド)、敵対関係(敵、ライバル)、友人関係(親友、友達、同僚)、血縁関係(父、母、姉、妹、兄、弟、祖母、祖父、叔父、叔母)、社会的関係(上司、部下、取引先、先生)、その他の6つに分類している。
なお、この関係の分類(カテゴライズ)は必要に応じて適宜変更可能である。ノードやエッジをクラス化する際のクラスへの分類方法は、予めクラスの名前であるクラス名と、当該クラスに含める要素であるメンバーとを登録しておく辞書ベースの方法と、関係表現に使用されている文字情報や形態素情報の特徴量を抽出して、当該特徴量からクラスタリングを行う方法がある。関係の分類におけるクラスタの数は、K−平均法等のアルゴリズムでクラス数を指定したり、SVM等の機械学習ベースの方法で学習させるクラスのラベルを変更したりすることで、増減させることが可能である。
また、図5(b)では、ノード(人間)の素性として、演じている俳優に関する特徴(姓名、性別、年齢、過去の映画等での主役回数)、キャラクタに関する特徴(姓名、職業、活躍する場所、主役かどうか)等を使用することができることを示している。ノードのラベルとして、キャラクタ名だけを用いた場合、ノードのラベル数が多くなりすぎてしまうため、ノードの素性に従ってクラスタリングした結果を、ノードのラベル(クラスA等)として使用する。例えば、クラスタリングには、図4で示した“大富豪”等の経済状況を示す単語、肩書き及び職業もノードの素性として使用される。また、俳優に関する特徴の情報がテキストデータ又は補完データから十分に取得できない場合には、既存の俳優データベース等を適宜参照して当該情報を取得してもよい。
なお、ノードの素性に、主役級であるか否かを付加する場合、リスト形式文に出てくる順序を参照する。つまり、リスト形式文で最初に出てくる俳優を主役級として扱うこととしている。さらに、テキストデータ取得手段11で取得される補完データを参照して、当該補完データにおける出現頻度TF(Term Frequency、該当する人名が検出された回数)に従って設定することもできる。このノードの素性の分類(カテゴライズ)は必要に応じて適宜変更可能である。このカテゴライズの方法としては、ノードのラベルを数種類のクラス(主役級、脇役級等)に分け、関係の分類と同様のアルゴリズムによって行うことができる。図1に戻る。
そして、人間関係グラフ生成手段7は、生成した人間関係グラフを、図示を省略した蓄積手段に蓄積する。この場合、後記するコンテンツ検索装置21において、コンテンツを検索する場合に備え、検索スピードを向上させるために、gSpanアルゴリズム(X.Yan and J.Han,gSpan:Graph-Based Substructure Pattern Mining,(ICDM’02)を用いて、当該人間関係グラフから部分グラフを生成しておく。
gSpanアルゴリズムでは、人間関係グラフを、複数の部分グラフの木構造として管理し、DFS(Depth First Search)を用いて、頻出する部分グラフを列挙することが可能である。また、gSpanアルゴリズムでは、Minimum DFS Codeと呼ばれる表記によって、一意に部分グラフを表すことが可能である。また、このgSpanアルゴリズムを用いて、共通する部分グラフである共通グラフの有無を高速に調べることが可能である。
図6は、人間関係グラフとエッジを一つ以上持つ部分グラフを例示したものである。図6(a)に人間関係グラフを示し、図6(b)に素性(ノード)が2つの場合の部分グラフを示し、図6(c)に素性(ノード)が3つの場合の部分グラフを示し、図6(d)に素性(ノード)が4つの場合の部分グラフを示している。これらの部分グラフは、後記する部分グラフ間の類似度の計算を行う際に使用するため、Minimum DFS Codeを利用して、昇順にソートしておく。
表示手段9は、人間関係グラフ生成手段7で生成された人間関係グラフや、図示を省略した蓄積手段に蓄積されている部分グラフを表示するものである。この人間関係グラフや部分グラフを表示する際に、ノードやエッジのラベルとして、クラスタリングした結果の他に、例えば、図8に示したような素性(キャラクタ名、俳優名)を表示することができる。また、ノードは、性別判定した結果により色分けして表示される。例えば、男性を示すノードは青色に、女性を示すノードは赤色に、性別が不明のノードは灰色に色分けされる。なお、図8のシャーロットとアメリーゴとの関係は、かつての恋人、義母−娘婿、不倫といったように、物語の展開によって変化している。このような場合、表示手段9は、関係を物語の展開によって変化した順(時間順)に併記したり、若しくは、アニメーション等を用い、一定時間で表示を変更したりしていくことが可能である。この場合、アニメーションは、エッジに使用されるラベルにあわせて用意しておいたキャラクタ(例えば、恋愛関係を表す男女のキャラクタが向かい合っているもの)を、物語の展開によって変化した順に順次表示していくものである。
テキストデータ取得手段11は、ネットワーク(例えば、インターネット)に常時又は適時接続し、当該ネットワークを介して、コンテンツの内容を説明したテキストデータ(補完データ)を取得するものである。このテキストデータ取得手段11で取得された補完データは、テキストデータ解析手段5で解析され、人間関係グラフ生成手段7で人間関係グラフを生成する際に用いられる。
ここで、テキストデータ取得手段11で取得した補完データ(インターネットの検索結果の情報http://movie.goo.ne.jp/movies/PMVWKPD32588/story.html、固有名詞に若干の変更を加えたもの)を図7に示す。この図7に示したインターネットの情報は、図2〜図4に示したコンテンツに関連するものである。このインターネットの情報から、“シャーロット”を演じている女優名が“ユア・サーマン”であり、“ヴァーヴァー”を演じている俳優名が“ニップ・ノベルティ”であり、“マギー”を演じている女優名が“ケイト・ベッキーセイラ”であることが分かる。
これら人物の相関関係を人間関係グラフに示すと、図8に示したようになり、コンテンツに予め付加されていたテキストデータのみから人間関係グラフを作成する場合に比べ、人物及び人間関係の数が増え、より詳細にコンテンツの内容を表すことができる。図1に戻る。
この人間関係グラフ生成装置1によれば、人間関係グラフ生成手段7によって作成した人間関係グラフにより、コンテンツの内容を説明する際に用いられる人物の相関関係が明確に示されるので、コンテンツの詳細な内容を示すことができる。
また、人間関係グラフ生成装置1によれば、テキストデータ解析手段5の固有表現抽出手段5bによって、テキストデータに含まれる単語の中で固有表現を抽出することで、この固有表現を用いた人間関係グラフを作成することができる。
さらに、人間関係グラフ生成装置1によれば、テキストデータ取得手段11によって、ネットワーク上に存在しているコンテンツの内容を説明したテキストデータを取得することで、コンテンツに予め付加されているテキストデータでは記述されていなかった対象の関係を補完することができ、これにより、より詳細な人間関係グラフを得ることができる。
(人間関係グラフ生成装置の動作)
次に、図9に示すフローチャートを参照して、人間関係グラフ生成装置1の動作を説明する(適宜、図1参照)。
まず、人間関係グラフ生成装置1は、コンテンツ取得手段3によって、テキストデータが付加されているコンテンツを取得する(ステップS1)。続いて、人間関係グラフ生成装置1は、テキストデータ解析手段5の自然文テキスト形式文分離手段5aによって、テキストデータを自然文と、リスト形式文とに分離する(ステップS2)。
そして、人間関係グラフ生成装置1は、テキストデータ解析手段5の固有表現抽出手段5bによって、リスト形式文から出演者等の情報を抽出し、自然文から固有表現(ここでは、人名表現及び人物の特徴表現)を抽出し、係り受け解析手段5cによって、係り受けを解析する(ステップS3)。
そして、人間関係グラフ生成装置1は、人間関係グラフ生成手段7によって、テキストデータ解析手段5で解析された解析結果に基づいて、人間関係グラフを生成する(ステップS4)。さらに、人間関係グラフ生成装置1は、生成した人間関係グラフを、図示を省略した蓄積手段に蓄積するか表示手段9によって、表示する(ステップS5)。
(コンテンツ検索装置の構成)
図10はコンテンツ検索装置のブロック図である。この図10に示すように、コンテンツ検索装置21は、人間関係グラフを用いて、所望のコンテンツを検索するもので、人間関係グラフ蓄積手段23と、入力手段25と、検索手段27と、表示手段29と、を備えている。
人間関係グラフ蓄積手段23は、図1に示した人間関係グラフ生成装置1で生成された人間関係グラフ又は当該人間関係グラフから生成した部分グラフを蓄積するもので、一般的なハードディスクやメモリ等によって構成されている。また、格納方法として、既存技術のRDB(Relational Database)などを利用してもよい。
入力手段25は、当該装置21のユーザが所望のコンテンツを特定する特定データを入力するもので、テンプレート提示手段25aと、テンプレート作成手段25bと、テキストデータ解析手段25cと、人間関係グラフ生成手段25dとを備えている。ユーザが視聴したいと考えているコンテンツについて、コンテンツ名、出演者名、監督名等が具体的に分かる場合には、従来技術のキーワード検索等によって所望のコンテンツを得ることができる。このため、入力手段25では、主に、キーワード検索において単純にキーワード化することが難しいもの、すなわち、ストーリーにおける人間関係そのものを入力としており、当該装置21では、この人間関係を検索キーとして使用している。なお、テキストデータ解析手段25c及び人間関係グラフ生成手段25dは図1に示したテキストデータ解析手段5及び人間関係グラフ生成手段7と同様の動作をするので、説明を省略する。
テンプレート提示手段25aは、所望のコンテンツを特定するための特定データを入力するテンプレートを提示するものである。このテンプレートは、表示手段29に表示され、ユーザに特定データの入力を促すこととなる。まず、テンプレート提示手段25aでは、代表的な人間関係グラフ(ノードとエッジの組み合わせ)を予め用意しておき、GUI(グラフィカルユーザーインターフェース)を用いて、ユーザに選択させることとしている。そして、提示されたテンプレートをもとに、ユーザはこの人間関係グラフに新たなエッジやノードを追加していくこともできる。
テンプレート作成手段25bは、ユーザが入力した特定データに基づいて、新たな人間関係グラフを、テンプレートとして作成するものである。テンプレート作成手段25bを用いて、ユーザが独自に検索する人間関係グラフを作成したい場合には、視聴したいと考えているコンテンツの主人公の性別と年齢、主人公及び出演者の役柄等のノードに関する情報と、血縁関係や恋愛関係等エッジに関する情報とを入力する。さらに、当該コンテンツで描かれている時代背景、当該コンテンツで扱われている出来事、当該コンテンツで表示される風景等を、選択項目として、ユーザが選択することで、人間関係グラフ以外の情報によって、コンテンツを絞り込むことも可能である。
さらに、テンプレート作成手段25bは、コンテンツのコンテンツ名(映画やドラマ等のタイトル)を入力することにより、このコンテンツ名をキーワードとし、過去のコンテンツに関するテキストデータ又は補完データを取得することができる。そして、テンプレート作成手段25bは、取得したテキストデータ又は補完データをテキストデータ解析手段25cに出力する。そして、テキストデータ解析手段25c及び人間関係グラフ生成手段25dによって人間関係グラフが生成される。
検索手段27は、入力手段25によって作成された人間関係グラフ(以下、検索側人間関係グラフという)を検索キーとして利用し、人間関係グラフ蓄積手段23に蓄積されている人間関係グラフ(以下、蓄積側人間関係グラフという)の中で、類似(完全一致、部分一致)するものを検索するもので、部分グラフ数スコアカウント手段27aと、最大エッジ数スコアカウント手段27bと、種類数スコアカウント手段27cとを備えている。なお、この実施形態では、これら部分グラフ数スコアカウント手段27a、最大エッジ数スコアカウント手段27b及び種類数スコアカウント手段27cのいずれか1つから算出(カウント)されたスコア(数)に基づいて、蓄積側人間関係グラフを検索することとしている。
ちなみに、性別情報はノードの一つの特徴量となり、例えば、性別のみの特徴量をノードのラベルとして用いると、性別のみのラベルをノードに持った人間関係グラフが生成できることとなる。そして、類似度計算は、これまでの計算と同じように計算することができる。
部分グラフ数スコアカウント手段27aは、検索側人間関係グラフと、蓄積側人間関係グラフとで共通の部分グラフの数を、類似度スコアとして算出するものである。この実施形態では、部分グラフ数スコアカウント手段27aは、部分グラフの有無を“0”(無い場合)及び“1”(有る場合)で表した、検索側人間関係グラフの部分グラフベクトルと蓄積側人間関係グラフの部分グラフベクトルとを生成し、内積を算出することで類似度スコアを求めている。つまり、最も類似するグラフを求める場合には、共通の部分グラフの数が最も多いものとなる。
最大エッジ数スコアカウント手段27bは、共通の部分グラフの中で、最もエッジ数が大きい部分グラフのエッジの数をカウントするものである。つまり、共通の部分グラフが1つしかない場合にでも、当該部分グラフが最大数のエッジを持っていた場合、スコアはこの数となる。
種類数スコアカウント手段27cは、検索側人間関係グラフと蓄積側人間関係グラフとについて、共通のノードとエッジの種類の数をカウントするものである。すなわち、種類数スコアカウント手段27cでカウントする数は、共通のノードとエッジの種類数が最も大きいものとなる。なお、共通のノード数がn個、共通のエッジ数がm個であった場合、合計はn+mであるが、それぞれに重みα、βを設定し、αn+βmで表すこともできる。これにより、α>βの場合は人物に重きを置き、α<βの場合は関係に重きを置いた検索が可能となる。特に、α=0の場合には、関係のみでの検索も可能である。
そして、検索手段27は、検索結果として、これら部分グラフ数スコアカウント手段27a、最大エッジ数スコアカウント手段27b及び種類数スコアカウント手段27cのいずれか1つから算出(カウント)されたスコア(数)に基づいて、人間関係グラフ蓄積手段23に蓄積されている人間関係グラフによって関連付けられるコンテンツ名を表示手段29に出力する。なお、この実施形態では、検索手段27から出力する検索結果は、スコアの高い順に一覧表形式で出力することとしている。
ここで、図11を参照して、2つの人間関係グラフのスコアを算出する場合の仕方について説明する(適宜、図6を参照)。図11(a)と(b)に示した人間関係グラフの類似度を、部分グラフ数スコアカウント手段27a、最大エッジ数スコアカウント手段27b及び種類数スコアカウント手段27cの各手段で求めた場合について説明する。なお、図11(c)と(d)に示した部分グラフは、(b)のエッジを1つ以上持つものである。また、図11(a)は、図6に示したものと同様のものである。
部分グラフ数スコアカウント手段27aでは、部分グラフの数を数えるため、図11(c)に示した3つの部分グラフが共通の部分グラフとなる。すなわち、この場合のスコアは“3”となる。最大エッジ数スコアカウント手段27bでは、共通の部分グラフのエッジの数がカウントされるため、“2”となる。種類数スコアカウント手段27cでは、共通のノードとエッジの種類の数がカウントされるため、ノードスコアは“4”、エッジスコアは“2”となる。なお、それぞれの手段でカウントしたスコアは、異なる方法で算出したものであるので、互いに比較することができない。
表示手段29は、入力手段25のテンプレート提示手段25aで提示されるテンプレートと、検索手段27で検索された検索結果とを表示するものである。この表示手段29では、テンプレートとして、予め代表的な人間関係グラフを提示することができ、ユーザは、入力手段25により、表示された人間関係グラフに、検索したいエッジ(関係)やノード(人物のクラス)を追加することができる。なお、入力手段25は、検索結果が表示された後に、当該検索結果に絞り込みを行う際にも使用することができる。
このコンテンツ検索装置21によれば、検索手段27によって、入力された特定データから生成された人間関係グラフにより、コンテンツの詳細な内容が簡略化して表され、このコンテンツの詳細な内容を手がかりに、所望のコンテンツを検索することができる。
また、コンテンツ検索装置21によれば、テンプレート提示手段25aによって、テンプレートに従った特定データを得ることで、検索手段27によって、人間関係グラフ蓄積手段23に蓄積している人間関係グラフと同様の人間関係グラフを効率よく生成することができ、検索する際の検索効率を向上させることができる。
さらに、コンテンツ検索装置21によれば、検索手段27の部分グラフ数スコアカウント手段27a、最大エッジ数スコアカウント手段27b及び種類数スコアカウント手段27cによって、部分グラフの数、最大エッジ数、ノードとエッジの種類の数のいずれかのスコア(数)に基づいて、蓄積している人間関係グラフの中から、生成した人間関係グラフに似ているものを検索することができる。
(コンテンツ検索装置の動作)
次に、図12に示すフローチャートを参照して、コンテンツ検索装置21の動作を説明する(適宜、図10参照)。
まず、コンテンツ検索装置21は、入力手段25によって、コンテンツ名(番組名)又はテンプレートとして提示される人間関係グラフをそのまま、若しくは、エッジやノードを加えて入力する。或いは、新たに生成した人間関係グラフを入力する(ステップS11)。なお、コンテンツ名を入力した場合には、人間関係グラフ生成手段25dを用いて、人間関係グラフを生成する。
続いて、コンテンツ検索装置21は、検索手段27によって、入力手段25で入力された特定データに基づいて、人間関係グラフ(検索側人間関係グラフ)を生成し、部分グラフ数スコアカウント手段27a、最大エッジ数スコアカウント手段27b及び種類数スコアカウント手段27cのいずれかからスコア(数)を得る(ステップS12)。そして、コンテンツ検索装置21は、検索手段27で得たスコアを検索結果として、当該スコア(数)の高い順に一覧表形式で表示する(ステップS13)。
さらに、コンテンツ検索装置21は、入力手段25によって、検索結果から所望のコンテンツを絞り込むか否かを判定し(ステップS14)、絞り込むと判定した場合(ステップS14でYes)、ステップS11に戻り、絞り込むと判定しなかった場合(ステップS14でNo)、動作を終了する。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、人間関係グラフ生成装置1及びコンテンツ検索装置21として説明したが、これらの装置の各構成の処理を実施可能に、一般的又は特殊なコンピュータ言語によって記述した人間関係グラフ生成プログラム及びコンテンツ検索プログラムとして構成することも可能である。
また、コンテンツ検索装置21は、人間関係グラフを用いた情報により、デジタル放送のコンテンツを検索するだけではなく、人間関係グラフ蓄積手段23の代わりに、書籍に関するデータベース(書籍に登場する人物の人間関係グラフを蓄積したもの)を用意しておけば、人間関係グラフが類似する書籍等のストーリー性があるテキストの検索にも適用することができる。また、コンテンツ検索装置21に、入力として書籍の人間関係グラフを入力することで、当該人間関係グラフが類似したコンテンツ(映画や放送番組)を検索することもできる。
本発明の実施形態に係る人間関係グラフ生成装置のブロック図である。 コンテンツに付加されているテキストデータの例を示した図である。 係り受け解析手段による解析結果の例を示した図である。 人間関係グラフを生成した例を示した図である。 ノード(人物)の素性とエッジ(関係)の素性の例を示した図である。 人間関係グラフと部分グラフとを示した図である。 ネットワークから得た情報(補完データ)の例を示した図である。 ネットワークから得た情報(補完データ)を付加して人間関係グラフを生成した例を示した図である。 図1に示した人間関係グラフ生成装置の動作を示したフローチャートである。 本発明の実施形態に係るコンテンツ検索装置のブロック図である。 2つの人間関係グラフについてスコアを算出する例を示した図である。 図10に示したコンテンツ検索装置の動作を示したフローチャートである。
符号の説明
1 人間関係グラフ生成装置
3 コンテンツ取得手段
5、25c テキストデータ解析手段
5a 自然文リスト形式文分離手段
5b 固有表現抽出手段
5c 係り受け解析手段
5d 性別判定手段
5e 人物重要度判定手段
5f 照応解析手段
7、25d 人間関係グラフ生成手段
9、29 表示手段
11 テキストデータ取得手段
21 コンテンツ検索装置
23 人間関係グラフ蓄積手段
25 入力手段
25a テンプレート提示手段
27 検索手段
27a 部分グラフ数スコアカウント手段
27b 最大エッジ数スコアカウント手段
27c 種類数スコアカウント手段

Claims (11)

  1. コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成する人間関係グラフ生成装置であって、
    前記コンテンツを取得するコンテンツ取得手段と、
    このコンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析するテキストデータ解析手段と、
    このテキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語を前記ノードのラベルとし、前記人物を示す単語同士の関係を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを生成する人間関係グラフ生成手段と、
    この人間関係グラフ生成手段で生成した人間関係グラフを表示させる表示手段と、
    を備えることを特徴とする人間関係グラフ生成装置。
  2. 前記テキストデータ解析手段は、前記テキストデータに含まれる単語の中で、固有表現を示している単語を抽出する固有表現抽出手段を備えることを特徴とする請求項1に記載の人間関係グラフ生成装置。
  3. 前記テキストデータ解析手段は、文字列若しくは当該文字列の一部、品詞、当該品詞に活用がある場合の標準形、読み、文字列長、文字種、特定文字の有無の少なくとも1つを人物の名前の特報量として学習したモデルを用いて、当該人物の性別を判定する性別判定手段を備えることを特徴とする請求項1又は2に記載の人間関係グラフ生成装置。
  4. 前記表示手段は、前記性別判定手段で性別が判定された結果に従って、前記ノードを、予め設定した表示色に色分けして表示することを特徴とする請求項3に記載の人間関係グラフ生成装置。
  5. ネットワークに接続し、当該ネットワークを介して、前記コンテンツの内容を説明したテキストデータである補完データを取得するテキストデータ取得手段を備えることを特徴とする請求項1から4のいずれか一項に記載の人間関係グラフ生成装置。
  6. コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するコンテンツ検索装置であって、
    前記コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語をクラスタリングした結果を前記ノードのラベルとし、前記人物を示す単語同士の関係をクラスタリングした結果を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを蓄積する人間関係グラフ蓄積手段と、
    前記所望のコンテンツを特定する特定データを入力し、当該特定データに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、前記所望のコンテンツにおける人物の人間関係グラフを生成する入力手段と、
    この入力手段で生成した人間関係グラフと、前記人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する検索手段と、
    この検索手段で検索した検索結果を表示させる表示手段と、
    を備えることを特徴とするコンテンツ検索装置。
  7. 前記人間関係グラフ蓄積手段で蓄積している人間関係グラフ及び生成した人間関係グラフのそれぞれのノードに、前記人物を示す単語について性別を示すラベルが含まれていることを特徴とする請求項6に記載のコンテンツ検索装置。
  8. 前記入力手段は、前記特定データを入力していくためのテンプレートを提示するテンプレート提示手段を備えることを特徴とする請求項6又は7に記載のコンテンツ検索装置。
  9. 前記検索手段は、
    前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとから前記人間関係グラフの一部である、少なくとも2つのノードと1つのエッジとを含む部分グラフについて、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとの間で共通している共通部分グラフの数、
    前記共通部分グラフのエッジ数が最大となる最大エッジ数、又は、
    前記人間関係グラフが共有しているノードとエッジの種類の数に基づいて、
    当該数が多い順に前記人間関係グラフ蓄積手段で蓄積している人間関係グラフを抽出することで、前記所望のコンテンツを検索することを特徴とする請求項6から8のいずれか一項に記載のコンテンツ検索装置。
  10. コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成するために、コンピュータを、
    前記コンテンツを取得するコンテンツ取得手段、
    このコンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析するテキストデータ解析手段、
    このテキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語を前記ノードのラベルとし、前記人物を示す単語同士の関係を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを生成する人間関係グラフ生成手段、
    この人間関係グラフ生成手段で生成した人間関係グラフを表示させる表示手段、
    として機能させることを特徴とする人間関係グラフ生成プログラム。
  11. コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するために、前記コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語をクラスタリングした結果を前記ノードのラベルとし、前記人物を示す単語同士の関係をクラスタリングした結果を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを蓄積する人間関係グラフ蓄積手段を備えたコンピュータを、
    前記所望のコンテンツを特定する特定データを入力し、当該特定データに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、前記所望のコンテンツにおける人物の人間関係グラフを生成する入力手段、
    この入力手段で生成した人間関係グラフと、前記人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する検索手段、
    この検索手段で検索した検索結果を表示させる表示手段、
    として機能させることを特徴とするコンテンツ検索プログラム。
JP2007185161A 2006-10-06 2007-07-17 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム Expired - Fee Related JP4909200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007185161A JP4909200B2 (ja) 2006-10-06 2007-07-17 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006275026 2006-10-06
JP2006275026 2006-10-06
JP2007185161A JP4909200B2 (ja) 2006-10-06 2007-07-17 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム

Publications (2)

Publication Number Publication Date
JP2008112432A JP2008112432A (ja) 2008-05-15
JP4909200B2 true JP4909200B2 (ja) 2012-04-04

Family

ID=39444893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007185161A Expired - Fee Related JP4909200B2 (ja) 2006-10-06 2007-07-17 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム

Country Status (1)

Country Link
JP (1) JP4909200B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4934090B2 (ja) * 2008-04-09 2012-05-16 日本放送協会 番組登場人物抽出装置及び番組登場人物抽出プログラム
JP5210970B2 (ja) * 2009-05-28 2013-06-12 日本電信電話株式会社 共通クエリグラフパターン生成方法、共通クエリグラフパターン生成装置及び共通クエリグラフパターン生成プログラム
JP2012242859A (ja) * 2011-05-13 2012-12-10 Nippon Hoso Kyokai <Nhk> グラフ生成装置およびプログラム
JP6645879B2 (ja) * 2016-03-16 2020-02-14 株式会社東芝 関係可視化装置、方法およびプログラム
JP6370961B2 (ja) * 2017-05-10 2018-08-08 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
EP3714382A4 (en) * 2018-01-11 2021-01-20 End Cue, LLC CONTENT GENERATION AND SCRIPT WRITING TOOLS AND THEIR IMPROVED ORDERING PROCESS
CN109254973A (zh) * 2018-08-29 2019-01-22 北京百度网讯科技有限公司 用于更新信息的方法及装置
CN111414459B (zh) * 2018-12-18 2023-07-04 北京嘀嘀无限科技发展有限公司 人物关系获取方法、装置、电子设备及存储介质
CN111813948A (zh) * 2019-04-11 2020-10-23 阿里巴巴集团控股有限公司 信息处理方法、装置及电子设备
CN110659392B (zh) * 2019-09-29 2022-05-06 北京市商汤科技开发有限公司 检索方法及装置、存储介质
JP7378001B1 (ja) 2023-03-09 2023-11-10 株式会社 日立産業制御ソリューションズ マッピング装置、マッピング方法及びマッピングプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066970A (ja) * 1998-08-19 2000-03-03 Nec Corp 人脈情報管理システム、人脈情報管理方法および記録媒体
JP4215738B2 (ja) * 2001-01-12 2009-01-28 有限会社築城ソフト研究所 関係付け情報管理システム
JP2002259730A (ja) * 2001-02-28 2002-09-13 Fuji Xerox Co Ltd 情報提供システム及び方法
JP4482680B2 (ja) * 2003-05-19 2010-06-16 独立行政法人産業技術総合研究所 人間関係データの作成方法、人間関係データの作成プログラム及び人間関係データの作成プログラムを記録したコンピュータ読取可能な記録媒体

Also Published As

Publication number Publication date
JP2008112432A (ja) 2008-05-15

Similar Documents

Publication Publication Date Title
JP4909200B2 (ja) 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム
Oueslati et al. A review of sentiment analysis research in Arabic language
Singh et al. Text stemming: Approaches, applications, and challenges
US10282389B2 (en) NLP-based entity recognition and disambiguation
Grishman Information extraction
US9535901B2 (en) Automatic semantic rating and abstraction of literature
US8312025B2 (en) Information processing device, information processing method, and information processing program
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
Tonkin Searching the long tail: Hidden structure in social tagging
Serigos Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish
Gupta et al. Songs recommendation using context-based semantic similarity between lyrics
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
Anwar et al. Video classification and retrieval using arabic closed caption
Friedland et al. Joke retrieval: recognizing the same joke told differently
Okumura et al. Automatic labelling of documents based on ontology
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Bhargava et al. High-throughput and language-agnostic entity disambiguation and linking on user generated data
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition
Gonsalves et al. ML-Based Indexing of Media Libraries for Insights and Search
Moreno Arboleda et al. On the Use of Minhash and Locality Sensitive Hashing for Detecting Similar Lyrics.
Yang et al. A study on music mood detection in online digital music database
Figueroa et al. Using Dependency Paths for Answering Definition Questions on the Web.
Bílek Characterizing Literature Using Machine Learning Methods
Bawi Evaluation of state-of-the-art machine learning approaches on the detection of variations for entity mentions
Ali et al. Emotion Detection and Sentiment Analysis in Regional Languages-A Review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111220

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4909200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees