JP4909200B2

JP4909200B2 - 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム

Info

Publication number: JP4909200B2
Application number: JP2007185161A
Authority: JP
Inventors: 淳後藤; 伸行八木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-10-06
Filing date: 2007-07-17
Publication date: 2012-04-04
Anticipated expiration: 2027-07-17
Also published as: JP2008112432A

Description

本発明は、コンテンツの内容を表すグラフを生成する人間関係グラフ生成装置、そのプログラムと、当該グラフを用いて、所望のコンテンツを検索するコンテンツ検索装置、そのプログラムに関する。

現在、ハードディスクレコーダの普及に伴い、当該ハードディスクレコーダに長時間にわたって蓄積した番組の中から、当該レコーダのユーザが視聴したい番組（所望の番組）を検索する際に、番組名、出演者名等の単語データを基にした、いわゆるキーワード検索（キーワードマッチング）が一般的に行われている（例えば、特許文献１、２参照）。通常、キーワード検索では、ユーザが思いついたキーワードを逐次入力することで、複数のキーワードにより、所望のコンテンツの候補を絞り込んでいくことが行われている。

また、ネットワーク上に無数に存在する番組や映画等のコンテンツ（ネットワークに接続されているサーバの中で、コンテンツを蓄積しているサーバにアクセスしてダウンロード可能なもの）の中から、所望のコンテンツを検索する場合に、同様のキーワード検索が行われている。
特許第２８０９３４１号公報特許第３４０８９９８号公報

しかしながら、従来のキーワード検索では、ユーザが視聴したいと考えているコンテンツが漠然としている場合や、以前視聴したコンテンツを再度視聴したいと思いついた際に、キーワードに該当することをほとんど覚えていない場合に、所望のコンテンツを検索することができないという問題がある。例えば、ユーザが視聴したいと考えているコンテンツが三角関係を題材にした恋愛ドラマや、第二次世界大戦を背景にした対立する陣営を描く戦争映画といったものである場合、キーワード検索だけでは、このような人間関係などの内容を手がかりに、様々な多数のコンテンツから所望のコンテンツをうまく絞り込めず、結果として検索することができない。

そこで、本発明では、前記した問題を解決し、コンテンツの詳細な内容を簡略化して示すことができる人間関係グラフ生成装置、そのプログラムと、当該コンテンツの詳細な内容を手がかりに、所望のコンテンツを検索することができるコンテンツ検索装置、そのプログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の人間関係グラフ生成装置は、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成する人間関係グラフ生成装置であって、コンテンツ取得手段と、テキストデータ解析手段と、人間関係グラフ生成手段と、表示手段と、を備える構成とした。

かかる構成によれば、人間関係グラフ生成装置は、コンテンツ取得手段によって、コンテンツを取得する。続いて、人間関係グラフ生成装置は、テキストデータ解析手段によって、コンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析する。人間関係グラフ生成装置は、人間関係グラフ生成手段によって、テキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、人物を示す単語をノードのラベルとし、人物を示す単語同士の関係を、人物同士の関係を示したエッジのラベルとして表したノードとエッジとからなる人物の人間関係グラフを生成する。そして、人間関係グラフ生成装置は、表示手段によって、人間関係グラフ生成手段で生成した人間関係グラフを表示させる。この人間関係グラフは、ノードとして、人物の姓名、性別、年齢、当該人物を演じる俳優の過去の出演番組等を、エッジとして、当該人物の人間関係、例えば、恋愛関係、敵対関係、友人関係、血縁関係等を記述したものである。

請求項２に記載の人間関係グラフ生成装置は、請求項１に記載の人間関係グラフ生成装置において、前記テキストデータ解析手段が、前記テキストデータに含まれる単語の中で、固有表現を示している単語を抽出する固有表現抽出手段を備えることを特徴とする。

かかる構成によれば、人間関係グラフ生成装置は、固有表現抽出手段によって、テキストデータに含まれる単語の中で固有表現、例えば、人名や地名等を示す単語を抽出する。

請求項３に記載の人間関係グラフ生成装置は、請求項１又は２に記載の人間関係グラフ生成装置において、前記テキストデータ解析手段が、文字列若しくは当該文字列の一部、品詞、当該品詞に活用がある場合の標準形、読み、文字列長、文字種、特定文字の有無の少なくとも１つを人物の名前の特報量として学習したモデルを用いて、当該人物の性別を判定する性別判定手段を備えることを特徴とする。

かかる構成によれば、人間関係グラフ生成装置は、性別判定手段によって、人物の性別を判定している。

請求項４に記載の人間関係グラフ生成装置は、請求項３に記載の人間関係グラフ生成装置において、前記表示手段が、前記性別判定手段で性別が判定された結果に従って、前記ノードを、予め設定した表示色に色分けして表示することを特徴とする。

かかる構成によれば、人間関係グラフ生成装置は、表示手段によって、人間関係グラフを表示する際に、人物の性別に従って、ノードの表示色を変えて表示する。

請求項５に記載の人間関係グラフ生成装置は、請求項１から４のいずれか一項に記載の人間関係グラフ生成装置において、ネットワークに接続し、当該ネットワークを介して、前記コンテンツの内容を説明したテキストデータである補完データを取得するテキストデータ取得手段を備えることを特徴とする。

かかる構成によれば、人間関係グラフ生成装置は、テキストデータ取得手段によって、ネットワーク上に存在しているコンテンツの内容を説明したテキストデータである補完データを取得することで、コンテンツに予め付加されているテキストデータでは記述されていなかった人物の関係を補完することが可能となる。

請求項６に記載のコンテンツ検索装置は、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するコンテンツ検索装置であって、人間関係グラフ蓄積手段と、入力手段と、表示手段と、を備える構成とした。

かかる構成によれば、コンテンツ検索装置は、人間関係グラフ蓄積手段に、コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係から、予め設定した規則に従って、人物を示す単語をクラスタリングした結果をノードのラベルとし、人物を示す単語同士の関係をクラスタリングした結果を、人物同士の関係を示したエッジのラベルとして表したノードとエッジとからなる人間関係グラフを蓄積している。そして、コンテンツ検索装置は、入力手段によって、所望のコンテンツを特定する特定データを入力し、入力された特定データから所望のコンテンツの人間関係グラフを生成する。この特定データは、例えば、登場人物の性別、年齢、職業、俳優の情報、登場人物間の人間関係に関する情報である。そして、コンテンツ検索装置は、検索手段によって、入力手段で生成された人間関係グラフと、人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する。その後、コンテンツ検索装置は、表示手段によって、検索手段で検索した検索結果を表示させる。

請求項７に記載のコンテンツ検索装置は、請求項６に記載のコンテンツ検索装置において、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフ及び生成した人間関係グラフのそれぞれのノードに、前記人物を示す単語について性別を示すラベルが含まれていることを特徴とする。

かかる構成によれば、コンテンツ検索装置は、人間関係グラフに、人物の性別を示すラベルが含まれることで、性別による人間関係が反映され、所望のコンテンツを検索する精度を向上させることができる。

請求項８に記載のコンテンツ検索装置は、請求項６又は７に記載のコンテンツ検索装置において、前記入力手段が、前記特定データを入力していくためのテンプレートを提示するテンプレート提示手段を備えることを特徴とする。

かかる構成によれば、コンテンツ検索装置は、当該装置のユーザが入力手段によって、特定データを入力する際にテンプレートを示し、このテンプレートに従った特定データを得ることで、蓄積している人間関係グラフと同様の人間関係グラフを生成することができ、検索する際の検索効率が向上する。

請求項９に記載のコンテンツ検索装置は、請求項６から８のいずれか一項に記載のコンテンツ検索装置において、前記検索手段が、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとから前記人間関係グラフの一部である、少なくとも２つのノードと１つのエッジとを含む部分グラフについて、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとの間で共通している共通部分グラフの数、前記共通部分グラフのエッジ数が最大となる最大エッジ数、又は、前記人間関係グラフが共有しているノードとエッジの種類の数に基づいて、当該数が多い順に前記人間関係グラフ蓄積手段で蓄積している人間関係グラフを抽出することで、前記所望のコンテンツを検索することを特徴とする。

かかる構成によれば、コンテンツ検索装置は、検索手段によって、共通部分グラフの数、最大エッジ数、ノードとエッジの種類の数のいずれかの数に基づいて、蓄積している人間関係グラフの中から当該数が多い順に人間関係グラフを抽出することで、所望のコンテンツを検索することができる。

請求項１０に記載の人間関係グラフ生成プログラムは、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成するために、コンピュータを、コンテンツ取得手段、テキストデータ解析手段、人間関係グラフ生成手段、表示手段、として機能させる構成とした。

かかる構成によれば、人間関係グラフ生成プログラムは、コンテンツ取得手段によって、コンテンツを取得し、テキストデータ解析手段によって、コンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析する。人間関係グラフ生成プログラムは、人間関係グラフ生成手段によって、テキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、人物を示す単語をノードのラベルとし、人物を示す単語同士の関係を、人物同士の関係を示したエッジのラベルとして表したノードとエッジとからなる人物の人間関係グラフを生成し、表示手段によって、人間関係グラフ生成手段で生成した人間関係グラフを表示させる。

請求項１１に記載のコンテンツ検索プログラムは、コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するために、前記コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語をクラスタリングした結果を前記ノードのラベルとし、前記人物を示す単語同士の関係をクラスタリングした結果を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを蓄積する人間関係グラフ蓄積手段を備えたコンピュータを、入力手段、検索手段、表示手段、として機能させる構成とした。

かかる構成によれば、コンテンツ検索プログラムは、入力手段によって、所望のコンテンツを特定する特定データを入力し、入力された特定データから所望のコンテンツの人間関係グラフを生成して、検索手段によって、生成した人間関係グラフと、人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する。そして、コンテンツ検索プログラムは、表示手段によって、検索手段で検索した検索結果を表示させる。

請求項１、１０に記載の発明によれば、人間関係グラフにより、コンテンツの内容を説明する際に用いられる人物の人間関係が明確に示されるので、コンテンツの詳細な内容を簡略化して示すことができる。

請求項２に記載の発明によれば、テキストデータに含まれる単語の中で固有表現を抽出することで、この固有表現を用いた人間関係グラフにより、コンテンツの詳細な内容を簡略化して示すことができる。

請求項３に記載の発明によれば、テキストデータに含まれる単語の中で、当該単語が人物を示す場合に、この人物の性別を判定しており、この性別を人間関係グラフに反映させることができる。

請求項４に記載の発明によれば、人物の性別に従って表示色を変えて表示することができる。

請求項５に記載の発明によれば、ネットワーク上に存在しているコンテンツの内容を説明したテキストデータである補完データを取得することで、コンテンツに予め付加されているテキストデータでは記述されていなかった人物の関係を補完することができ、これにより、より充実した人間関係グラフを得ることができる。

請求項６、１１に記載の発明によれば、人間関係グラフによって、コンテンツの詳細な内容が簡略化して表され、このコンテンツの詳細な内容を手がかりに、所望のコンテンツを検索することができる。

請求項７に記載の発明によれば、人間関係グラフに、人物の性別を示すラベルが含まれることで、性別による人間関係が反映され、所望のコンテンツを検索する精度を向上させることができる。また、人物の性別を示すラベルのみをノードの情報として選択することにより、人物の性別のみの関係で人間関係グラフを検索することができる。

請求項８に記載の発明によれば、テンプレートに従った特定データを得ることで、蓄積している人間関係グラフと同様の人間関係グラフを生成することができ、検索する際の検索効率を向上させることができる。

請求項９に記載の発明によれば、部分グラフの数、最大エッジ数、ノードとエッジの種類の数のいずれかのスコア又は数に基づいて、蓄積している人間関係グラフの中から、生成した人間関係グラフに似ているものを検索することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
（人間関係グラフ生成装置の構成）
図１は人間関係グラフ生成装置のブロック図である。この図１に示すように、人間関係グラフ生成装置１は、取得したコンテンツの内容を説明する際に用いられる人物の相関関係を表した人間関係グラフを生成するもので、コンテンツ取得手段３と、テキストデータ解析手段５と、人間関係グラフ生成手段７と、表示手段９と、テキストデータ取得手段１１と、を備えている。

コンテンツ取得手段３は、コンテンツ（番組、映画、アニメ等）に付加されているテキストデータを取得するものである。ここで取得とは、入力と受信とを含む概念を指している。例えば、入力の場合、コンテンツに付加されているテキストデータの代わりに、書籍等をデジタル化した電子データを入力することも可能である。この実施形態では、デジタル放送から（デジタル放送波を受信して）デジタルコンテンツを取得することとしている。そして、このコンテンツ取得手段３で取得されるコンテンツ（番組）には、予め当該コンテンツの内容を説明したテキストデータ（番組情報）が放送局等により付加されている。

デジタル放送におけるテキストデータ（番組情報）は、コンテンツ名（番組名、タイトル）、コンテンツのジャンル情報（恋愛、コメディ、ＳＦ、戦争、ヒューマンドラマ、ドキュメンタリー、報道、アクション、ホラー、ミステリー等を指定した情報）、時間情報（所要時間等、放送番組であれば、放送開始時刻、放送終了時刻を含む）等の構造化データと、コンテンツのあらすじや、登場人物の紹介等のコンテンツの内容を説明した説明データとから構成されている。

テキストデータは、コンテンツの内容を説明する際に用いられる人物、時代背景、出来事、風景等の様々な対象について、具体的なこと、つまり、固有表現を含むものである。例えば、「コンテンツの内容を説明する際に用いられる人物」とは、出演者、監督、脚本家等のことを指し、「コンテンツの内容を説明する際に用いられる時代背景」とは、○○時代、××末期、△△初頭等を指し、「コンテンツの内容を説明する際に用いられる出来事」とは、□□事件、●●裁判等を指し、「コンテンツの内容を説明する際に用いられる風景」とは、◇◇山脈、▽▽湖等を指している。

そして、「コンテンツの内容を説明する」とは、これら人物、時代背景、出来事、風景等の固有表現を使って、コンテンツの特徴を端的に述べることであり、具体的には、「出演者Ａがでている映画」、「Ｋ監督の作品」、「戦国時代のドラマ」、「２００１年９月１１日に起きた事件を取り扱ったドキュメント」、「アルプス山脈を舞台にしたサスペンス」である。
また、「コンテンツの内容を説明する際に用いられる対象」のその他の例として、特定の生き物（犬、猫、魚、ライオン、熊等）、特定のキャラクタ（ドラキュラ、狼男、何々マン等）、特定の音楽（曲名、作曲者、演奏者、指揮者等）が挙げられる。ただし、本願では、当該対象を人物としているが、擬人化された動物や怪物などのキャラクタも人物の相関関係である人間関係に含めることとしている。

構造化データは、コンテンツ制作者、放送事業者、評論家等、誰が記述しても大差がない普遍的なものであり、どの様なコンテンツであるかを示す情報として客観性（或いは信頼性）が高いと言える。そして、この構造化データの中のジャンル情報は、説明データから人間関係が得られる可能性が高いコンテンツ（映画、ドラマ、アニメ等）を特定するのに使用できる。

また、構造化データの中のコンテンツ名（番組名、タイトル）は、後記するテキストデータ取得手段１１により、ネットワーク（ここではインターネット）を介して、当該ネットワーク上に存在する、該当するコンテンツのテキストデータ（以下、補完データという）を取得する際のキーワードとして用いられる。

説明データは、構造化データに比べ、記述する人によって、ばらつきがあるものであり、客観性が低い可能性があり、コンテンツの内容を説明するのに十分でない場合がある。それゆえ、テキストデータ取得手段１１によって補完データを得ることとしている。

また、説明データは、当該説明データを読んだ視聴者がコンテンツの内容を大まかに推測できる程度に記述されたものである。コンテンツの具体的な内容に関わることとして、登場人物の役柄の詳細や大まかなストーリー展開を記述しておくことができる。

登場人物の役柄の記述（主人公情報）は、俳優Ａさんが主人公、俳優Ｂさんが脇役、俳優Ｃさんがちょい役等であり、役柄のランク付けも含まれる。なお、この登場人物の役柄のランク付けについては、後記するテキストデータ解析手段５によって、俳優名の記述されている順番によって、推測可能である。例えば、人間関係グラフにおいて、α役とβ役とが敵対関係にあり、人間関係グラフを一見しただけでは、どちらが悪役か不明の場合にも、主人公情報からβ役が悪役であると推測できる。また、ストーリー展開の説明からα役とβ役とがどのような関係かも取得できる場合がある。

なお、このコンテンツ取得手段３で取得されるコンテンツは、当該コンテンツに登場する登場人物について、登場人物が織りなすストーリー性のあるものの方が後記する人間関係グラフを得やすいので、好適であると言える。

テキストデータ解析手段５は、コンテンツ取得手段３で取得したコンテンツに付加されているテキストデータと、テキストデータ取得手段１１で取得される補完データとに含まれている単語及び当該単語同士の関係を解析するもので、自然文リスト形式文分離手段５ａと、固有表現抽出手段５ｂと、係り受け解析手段５ｃと、性別判定手段５ｄと、人物重要度判定手段５ｅと、照応解析手段５ｆとを備えている。

自然文リスト形式文分離手段５ａは、テキストデータ又は補完データを、自然文とリスト形式文とに分離するものである。この自然文リスト形式文分離手段５ａは、テキストデータ又は補完データ中の特定の記号（ここでは、墨付き括弧）が含まれている場合に、特定の記号が検出される前の部分を自然文とし、検出された後の部分をリスト形式文として分離している。ここで、テキストデータの例と、このテキストデータが自然文リスト形式文分離手段５ａで分離された例とを図２に示す。なお、図２に示したデータは、実際に放送されたＮＨＫの番組データの一部である（固有名詞に若干の変更を加えている）。

この図２（ａ）に示すように、テキストデータが「２０世紀初頭、かつての恋人、・・・・中略・・・、ＴＸＯターナショナル制作〜」である場合に、図２（ｂ）に示すように、墨付き括弧を区切りとして、Ａの部分「２０世紀初頭、・・・中略・・・、マギーだった。」とＢの部分「墨付き括弧出演墨付き括弧、・・・中略・・・、ＴＸＯターナショナル制作〜」とに分離される。このように、Ａに部分ではコンテンツの概要、あらすじが自然文で記述されており、Ｂの部分ではコンテンツの出演者、監督、制作会社等の情報が記述されている。

なお、この自然文リスト形式文分離手段５ａによる自然文とリスト形式文との分離は、特定の記号を区切りとする以外に、助詞の有無や読点「。」の有無によって分離する仕方や、人名が連続する箇所をリスト形式文とみなすといった予め設定したヒューリスティックなルールに基づいて行うことも可能である。または、ＳＶＭ（Support Vector Machine）やＣＲＦ（Conditional Random Field）等の機械学習アルゴリズムにより分離を行うことも可能である。図２では、自然文とリスト形式文との分離を一箇所だけで行っているが、複数箇所で分離することも可能である。図１に戻る。

固有表現抽出手段５ｂは、自然文リスト形式文分離手段５ａで分離したリスト形式文から人名を抽出し、当該人名が記述されている順序を取得し、続いて、自然文リスト形式文分離手段５ａで自然文から人名と人に関する関連情報を抽出するものである。図２に示した例では、図２（ｂ）のＢの部分から「ユア・サーマン」を１番目の人名として、「ジェミレー・ノーサム」を２番目の人名として抽出する。この順序の情報は、人物重要度判定手段５ｅで、人物の重要度を測る際に使用する。

なお、人物を示す表現には、人名だけではなく、職業名（政治家、医師、弁護士等）、役職名（社長、所長、部長等）や代名詞等を用いる表現や、組織（警察、ＮＨＫ、国税庁等）や動物（犬、豚、たこ等）等を擬人化して取り扱う表現がある。このため、この固有表現抽出手段５ｂは、ＳＶＭやＣＲＦ等の機械学習アルゴリズムで、人名、地名、組織名、職業等の固有表現を学習したモデルを用いて、自然文から必要とする固有表現結果を得る。また、この機械学習アルゴリズムで、固有表現だけでなく、人名を表す代名詞や、男、女等の一般名詞を学習しておき、固有表現抽出手段５ｂで、固有表現以外の人物表現を得ることができる。ただし、代名詞や一般名詞は語彙数が限られているため、辞書を用いて抽出することもできる。

なお、組織や動物を擬人化して取り扱う表現とは、例えば、「ジムは警察に追われている。」といった自然文の場合、警察は組織であるが、擬人化されて、ジムを追っている主体となっている。

この固有表現抽出手段５ｂでは、自然文から固有表現を得る際の特徴量、すなわち、素性（素性）として、形態素の情報を使用している。形態素の情報として、表層（自然文中で使用されたそのままの表現）、基本形、読み、品詞、活用形、文字種（漢字、カタカナ、平仮名、これらの混合の場合）、文字情報（最初の文字、最後の文字、前から数文字、後から数文字）等が挙げられる。なお、この固有表現抽出手段５ｂは、この他に必要があれば、形態素のシソーラスにおける位置、構文解析時の係り受けの関係の情報を、特徴量（素性）に付加することができる。

なお、この固有表現抽出手段５ｂは、テキストデータ又は補完データに含まれる単語の中で、予め設定した固有表現を示しているものを特定している。この固有表現タグには、人名、地名（出身地）、日付（誕生日）、年齢、職業等が含まれており、この固有表現タグは人間を説明する際に用いられる固有表現から選択されたものである。ちなみに、自然文から固有表現を抽出することに関する先行研究として、約２００種類の固有表現を抽出しようとする研究（S.Sekine:”Extended Named Entity Hierarchy”,LREC 2002）が行われている。

また、人間を説明する固有表現以外に、時代設定やロケーションなど物語の背景（背景データ）を抽出しておくことで、後記する人間関係グラフを利用したコンテンツ検索時に背景データを指定することができ、人物の相関関係だけでなく、当該背景データを効果的に活用した検索を行うことができる。

係り受け解析手段５ｃは、固有表現抽出手段５ｂによって抽出された固有表現結果から、１つの文に人名が２つ以上含まれている文を対象文として選択し、この対象文について係り受け解析を行うものである。これにより、人名が人名に係る際の表現を関係表現として抽出することができる。また、係り受け解析手段５ｃは、登場人物に関する属性（職業や年齢等）の固有表現が文中にある場合には、同時に取得する。この係り受け解析手段５ｃによる係り受けの解析の例を図３に示す。

図３に示すように、「その女性とは、大富豪ヴァーヴァーの令嬢でシャーロットの親友でもあるマギーだった。」という対象文から“マギーはヴァーヴァーの令嬢であり”と“マギーはシャーロットの親友である”という２つの関係表現を得ることができる。また、「大富豪ヴァーヴァー」から“大富豪”という表現を得ることができる。このように、係り受け解析手段５ｃでは、テキストデータ又は補完データの関係表現として抽出する。

また、係り受け解析手段５ｃは、解析に悪影響を及ぼす丸括弧等の挿入表現を削除して解析を行っている。ただし、丸括弧内にある文字列は、直前の名詞を説明する重要な情報を含んでいる場合があるので、削除を行う際には、正規表現によるパターンマッチングすることで、挿入表現を取得することとしている。例えば、「長女のジョージア（ダイアン・キートン）は・・・」という表現からは、“人名１（人名２）”というパターンとパターンマッチングが成立するため、予め定義した人名２の人物が人名１の役を演じているというヒューリスティックを用いることで、俳優“ダイアン・キートン”と役名“ジョージア”との関係を取得することができる。図１に戻る。

性別判定手段５ｄは、固有表現抽出手段５ｂによって抽出された固有表現結果から、図示を省略した辞書データを用いて、表層的文字列若しくは当該文字列の一部、読み若しくは当該読みによる文字列の一部、文字列長、文字種、特定の文字の有無の少なくとも１つを人物の名前の特報量として、サポートベクターマシン等による機械学習により学習し、この学習した学習モデルを用いて、人物の性別を判定するものである。

辞書データは、少なくとも単語の読み（平仮名の文字列、カタカナの文字列）を記憶したもので、形態素解析等に使用される辞書を採用している。なお、単語の読みの中には、人名特有の読み方（人名表現の読み）が含まれている。たとえ、単語の読みが間違っていた場合でも、表層的文字列若しくは当該文字列の一部の素性や読みによる文字列の一部等を用いて他の素性から性別の判定が成功する場合がある。

名前データは、性別と名前に該当する文字列とを対応付けたものである。例えば、女性の名前として、「田中○○子」、「△美」等が挙げられ、男性の名前として、「鈴木○雄」、「△夫」、「×郎」等が挙げられる。また、外国人の女性の名前として、「マギー・スミス」、「メアリー・ポートマン」、「ジュリア」等が挙げられ、外国人の男性の名前として、「ジャック・ディヴィス」、「トム」等が挙げられる。

なお、西洋人（＝外国人）の姓と名との順序は、日本人のものとは異なるが、素性に利用した文字種等を手掛かりに、機械学習により判別することができる。また、西洋人の姓と名の間に用いられる「・」の有無も有効な素性となる。

この性別判定手段５ｄは、判定結果として、「男性」、「女性」、「Ｕｎｋｎｏｗｎ」、「苗字のみ」の４つを出力する。「Ｕｎｋｎｏｗｎ」は、人が単語を見ても区別がつかない名前であり、例えば、優（ゆう、まさる）、博美（ひろみ）、光（ひかる）等が挙げられる。

ここで、性別判定手段５ｄによって、コンテンツに付加されているテキストデータについて、当該テキストデータに含まれている人名の性別を判定した例について説明する。
まず、性別判定手段５ｄは、固有表現結果から読みを生成し、この生成した読みと元の表現とから特徴量を生成する。例えば、「佐藤凉子」の場合、この単語の前から１文字ずつ３文字目までの特徴量をｆ１〜ｆ３とすると、ｆ１＝佐、ｆ２＝藤、ｆ３＝凉となり、この単語の後から１文字ずつ３文字目までの特徴量をｅ１〜ｅ３とすると、ｅ１＝子、ｅ２＝涼、ｅ３＝藤となる。また、単語の前から２文字ずつ３文字目までの特徴量をｆｃ１、ｆｃ２とすると、ｆｃ１＝佐藤、ｆｃ２＝藤凉となり、単語の後から２文字ずつ３文字目までの特徴量をｅｃ１、ｅｃ２とすると、ｅｃ１＝子凉、ｅｃ２＝涼藤となる。ここで扱う素性は、表層的文字列から取り出せる文字情報であれば制限はない。

さらに、「佐藤凉子」の読みが「さとうりょうこ」であり、この単語の読みについて前から１文字ずつ４文字目までの特徴量をｈｆ１〜ｈｆ４とすると、ｈｆ１＝さ、ｈｆ２＝と、ｈｆ３＝う、ｈｆ４＝りとなり、この単語の読みについて後から１文字ずつ４文字目までの特徴量をｈｅ１〜ｈｅ４とすると、ｈｅ１＝こ、ｈｅ２＝う、ｈｅ３＝ょ、ｈｅ４＝りとなる。また、単語の読みについて前から２文字ずつ４文字目までの特徴量をｈｆｃ１、ｈｆｃ２、ｈｆｃ３とすると、ｈｆｃ１＝さと、ｈｆｃ２＝とう、ｈｆｃ３＝うりとなり、単語の読みについて後から２文字ずつ４文字目までの特徴量をｈｅｃ１、ｈｅｃ２、ｈｅｃ３とすると、ｈｅｃ１＝こう、ｈｅｃ２＝うょ、ｈｅｃ３＝ょりとなる。ここで扱う素性は、読みの表層的文字列から取り出せる文字情報であれば制限はない。

さらに、文字種、文字列長が素性として有効に作用する。例えば、文字列長は、人名として取り出された文字列の長さであり、例えば、「トム」の場合は、「２」である。文字種は、カタカナ、ひらがな、漢字、アルファベッド、漢数字、アラビア数字とその組み合わせである。「トム」の場合は、「カタカナ（ＫＡＴＡＫＡＮＡ）」となる。「田中トム」の場合は、「漢字−カタカナ（ＫＡＮＪＩ−ＫＡＴＡＫＡＮＡ）」となる。

そして、性別判定手段５ｄでは、サポートベクターマシンで前記した素性を学習しモデルを作成する。「佐藤凉子」から同様の素性を抽出し、学習モデルに基づき判別を行うと、女性であるという結果が得られる。

性別判定手段５ｄによる性別判定は、固有表現抽出手段５ｂで用いる学習モデルをＣＲＦやＳＶＭで作成する際に、人名のタグを、人名−男、人名−女、人名−不明、人名−苗字等に細分化して学習しておくことで、固有表現抽出の結果を出力する際に行われる。この場合、性別判定手段５ｄでは、人名のタグが付された文の周辺の文脈を考慮した性別判定を行うことができる。

人物重要度判定手段５ｅは、自然文中に出現したキャラクタの人名の回数や順序及びリスト形式に出現する俳優の順序に基づいて、主役、準主役の重み付けを行うことができる。つまり、この重み付けは、最も多く出てきた人名について、その重みが最大となるように設定され、又は、一番はじめに出てきた人名について、その重みが最大となるように設定される。なお、出現するキャラクタの人名の回数を数える場合、照応解析手段５ｆによる解析結果を使用することもできる。例えば、照応解析手段５ｆによる解析結果により、代名詞の“彼”が人名の“トム”を指すと判定された場合は、“彼”の出現回数を“トム”の出現回数に含める。

照応解析手段５ｆは、複数文に分かれて人間関係や人物を説明する固有表現が出現する場合、照応解析を行い、代名詞や省略された名詞句（ゼロ代名詞）等を補完し、それぞれの文における単語の関係を抽出するものである。照応解析とは、代名詞や指示詞の指示対象を推定したり、ゼロ代名詞を補完したりする処理である。この照応解析を複数文に行うことにより、１文内に人物表現が２つ以上出現しないような場合にも、当該人物の関係や当該人物の特徴を抽出できる場合がある。ここで用いる照応解析では、全ての名詞を対象にせず、解析対象を人物表現に限定し、当該解析対象の候補を絞り込むこととしている。また、照応解析に使用する素性には、語彙の一致率、係り受け関係、固有表現解析結果、出現位置、代名詞の有無、人物表現の性別を用いることができる。

照応解析に使用する素性に、語彙の一致率を用いると、例示した“佐藤凉子”と名前だけの“凉子”とは表層的文字列からすると、“佐藤凉子”が“凉子”を完全に含んでおり、この場合、照応関係になる可能性が高くなる。
また、照応解析に使用する素性に、係り受け関係及び固有表現解析結果を用いると、例えば、“先生の四郎は・・・”という表現から職業名の“先生”が人名の“四郎”を修飾している結果が得られ、“四郎”と“先生”とが同一人物であることがわかる。ただし、“四郎の先生は・・・”という表現のように、人名が職業名を修飾している場合、“四郎”と“先生”とは別人となる。

さらに、照応解析に使用する素性に、出現位置を用いると、“彼”等の代名詞がある場合、“彼”が出現する前の人物を指すことが自明となる。この場合、性別の素性を用い、代名詞“彼”の性別が男性であるため、照応関係が成立する照応先は、男性の人名に限定されることとなる。

このように、照応解析手段５ｆでは、素性を使って、設定したルールを用い、照応解析を行って、照応関係の有無を判定することができる。さらに、照応解析手段５ｆでは、素性をＳＶＣ等の機械学習アルゴリズムで学習し、候補の人物表現同士が照応関係にあるか否かを判定することができる。

ここで、テキストデータとして「太郎と花子は親友だ。彼女には次郎という弟がいる。」という２文が入力された際に、性別判定手段５ｄによる性別の判定結果を、照応解析手段５ｅによる照応関係の解析に役立てる場合について説明する。

これら２文からでは、太郎と花子の性別及び代名詞「彼女」の性別情報を（性別の判定結果）を用いない限り、照応関係を推定することは難しく、太郎と花子のどちらに弟がいるのか把握することができない。
このように、照応関係には、代名詞や一般名詞等の性別についても、辞書若しくは機械学習により性別を判定する必要がある。例えば、性別を表す代名詞として、「彼」、「彼女」、一般名詞として、男性では「大男」、「山男」、「男優」、「兄」、「父」、「弟」、「祖父」、「息子」等が挙げられ、女性では、「看護婦」、「女優」、「婦警」、「娘」、「祖母」、「妹」、「姉」、「母」等が挙げられる。

人間関係グラフ生成手段７は、テキストデータ解析手段５で解析された解析結果（テキストデータ又は補完データに含まれる人物表現について、当該単語の固有表現及び単語同士の関係）に基づいて、人間関係グラフを生成するものである。

人間関係グラフは、テキストデータ又は補完データに含まれる人物（人物表現）を“ノード”とし、これらノードの関係を“エッジ”として表したラベル付きグラフである。

なお、人間関係グラフ生成手段７では、リスト形式文で出てきた人名の順序が参照され、人名の順序が早いものほど、コンテンツの主人公等の重要人物であるとし、この人名の順序が早いものを中心に当該人間関係グラフが生成される。この人間関係グラフの例を図４に示す。

この図４は、図３に示した対象文について、人間関係グラフを表したものである。この図４に示すように、“シャーロット”と“マギー”と“ヴァーヴァー”という３つのノードがあり、ノード“シャーロット”とノード“マギー”とが“親友”というエッジで結ばれ、ノード“マギー”とノード“ヴァーヴァー”とが“令嬢”というエッジで結ばれている。また、ノード“ヴァーヴァー”を示す特徴として当該ノードに“大富豪”が格納される。

なお、人間関係グラフ生成手段７は、ノードとエッジのラベルをクラス化しており、後記する検索時に、人間関係グラフ同士が適合しやすいように当該人間関係グラフを生成している。テキストデータ又は補完データで出現する表現をそのままラベルにすると、検索時に適合（類似）する人間関係グラフがほとんど得られない状態が想定される。そこで、この人間関係グラフ生成手段７では、ノードとエッジをいくつかのクラスに分類することで、検索時に、検索効率を向上させている。ここで、図５（ａ）にエッジに使用されるラベルの例について示す。

図５（ａ）に示すように、エッジに使用されるラベルを、恋愛関係（恋人、ボーイフレンド、ガールフレンド）、敵対関係（敵、ライバル）、友人関係（親友、友達、同僚）、血縁関係（父、母、姉、妹、兄、弟、祖母、祖父、叔父、叔母）、社会的関係（上司、部下、取引先、先生）、その他の６つに分類している。

なお、この関係の分類（カテゴライズ）は必要に応じて適宜変更可能である。ノードやエッジをクラス化する際のクラスへの分類方法は、予めクラスの名前であるクラス名と、当該クラスに含める要素であるメンバーとを登録しておく辞書ベースの方法と、関係表現に使用されている文字情報や形態素情報の特徴量を抽出して、当該特徴量からクラスタリングを行う方法がある。関係の分類におけるクラスタの数は、Ｋ−平均法等のアルゴリズムでクラス数を指定したり、ＳＶＭ等の機械学習ベースの方法で学習させるクラスのラベルを変更したりすることで、増減させることが可能である。

また、図５（ｂ）では、ノード（人間）の素性として、演じている俳優に関する特徴（姓名、性別、年齢、過去の映画等での主役回数）、キャラクタに関する特徴（姓名、職業、活躍する場所、主役かどうか）等を使用することができることを示している。ノードのラベルとして、キャラクタ名だけを用いた場合、ノードのラベル数が多くなりすぎてしまうため、ノードの素性に従ってクラスタリングした結果を、ノードのラベル（クラスＡ等）として使用する。例えば、クラスタリングには、図４で示した“大富豪”等の経済状況を示す単語、肩書き及び職業もノードの素性として使用される。また、俳優に関する特徴の情報がテキストデータ又は補完データから十分に取得できない場合には、既存の俳優データベース等を適宜参照して当該情報を取得してもよい。

なお、ノードの素性に、主役級であるか否かを付加する場合、リスト形式文に出てくる順序を参照する。つまり、リスト形式文で最初に出てくる俳優を主役級として扱うこととしている。さらに、テキストデータ取得手段１１で取得される補完データを参照して、当該補完データにおける出現頻度ＴＦ（Term Frequency、該当する人名が検出された回数）に従って設定することもできる。このノードの素性の分類（カテゴライズ）は必要に応じて適宜変更可能である。このカテゴライズの方法としては、ノードのラベルを数種類のクラス（主役級、脇役級等）に分け、関係の分類と同様のアルゴリズムによって行うことができる。図１に戻る。

そして、人間関係グラフ生成手段７は、生成した人間関係グラフを、図示を省略した蓄積手段に蓄積する。この場合、後記するコンテンツ検索装置２１において、コンテンツを検索する場合に備え、検索スピードを向上させるために、ｇＳｐａｎアルゴリズム（X.Yan and J.Han,ｇＳｐａｎ：Graph-Based Substructure Pattern Mining,(ICDM’02)を用いて、当該人間関係グラフから部分グラフを生成しておく。

ｇＳｐａｎアルゴリズムでは、人間関係グラフを、複数の部分グラフの木構造として管理し、ＤＦＳ（Depth First Search）を用いて、頻出する部分グラフを列挙することが可能である。また、ｇＳｐａｎアルゴリズムでは、ＭｉｎｉｍｕｍＤＦＳＣｏｄｅと呼ばれる表記によって、一意に部分グラフを表すことが可能である。また、このｇＳｐａｎアルゴリズムを用いて、共通する部分グラフである共通グラフの有無を高速に調べることが可能である。

図６は、人間関係グラフとエッジを一つ以上持つ部分グラフを例示したものである。図６（ａ）に人間関係グラフを示し、図６（ｂ）に素性（ノード）が２つの場合の部分グラフを示し、図６（ｃ）に素性（ノード）が３つの場合の部分グラフを示し、図６（ｄ）に素性（ノード）が４つの場合の部分グラフを示している。これらの部分グラフは、後記する部分グラフ間の類似度の計算を行う際に使用するため、ＭｉｎｉｍｕｍＤＦＳＣｏｄｅを利用して、昇順にソートしておく。

表示手段９は、人間関係グラフ生成手段７で生成された人間関係グラフや、図示を省略した蓄積手段に蓄積されている部分グラフを表示するものである。この人間関係グラフや部分グラフを表示する際に、ノードやエッジのラベルとして、クラスタリングした結果の他に、例えば、図８に示したような素性（キャラクタ名、俳優名）を表示することができる。また、ノードは、性別判定した結果により色分けして表示される。例えば、男性を示すノードは青色に、女性を示すノードは赤色に、性別が不明のノードは灰色に色分けされる。なお、図８のシャーロットとアメリーゴとの関係は、かつての恋人、義母−娘婿、不倫といったように、物語の展開によって変化している。このような場合、表示手段９は、関係を物語の展開によって変化した順（時間順）に併記したり、若しくは、アニメーション等を用い、一定時間で表示を変更したりしていくことが可能である。この場合、アニメーションは、エッジに使用されるラベルにあわせて用意しておいたキャラクタ（例えば、恋愛関係を表す男女のキャラクタが向かい合っているもの）を、物語の展開によって変化した順に順次表示していくものである。

テキストデータ取得手段１１は、ネットワーク（例えば、インターネット）に常時又は適時接続し、当該ネットワークを介して、コンテンツの内容を説明したテキストデータ（補完データ）を取得するものである。このテキストデータ取得手段１１で取得された補完データは、テキストデータ解析手段５で解析され、人間関係グラフ生成手段７で人間関係グラフを生成する際に用いられる。

ここで、テキストデータ取得手段１１で取得した補完データ（インターネットの検索結果の情報http://movie.goo.ne.jp/movies/PMVWKPD32588/story.html、固有名詞に若干の変更を加えたもの）を図７に示す。この図７に示したインターネットの情報は、図２〜図４に示したコンテンツに関連するものである。このインターネットの情報から、“シャーロット”を演じている女優名が“ユア・サーマン”であり、“ヴァーヴァー”を演じている俳優名が“ニップ・ノベルティ”であり、“マギー”を演じている女優名が“ケイト・ベッキーセイラ”であることが分かる。

これら人物の相関関係を人間関係グラフに示すと、図８に示したようになり、コンテンツに予め付加されていたテキストデータのみから人間関係グラフを作成する場合に比べ、人物及び人間関係の数が増え、より詳細にコンテンツの内容を表すことができる。図１に戻る。

この人間関係グラフ生成装置１によれば、人間関係グラフ生成手段７によって作成した人間関係グラフにより、コンテンツの内容を説明する際に用いられる人物の相関関係が明確に示されるので、コンテンツの詳細な内容を示すことができる。

また、人間関係グラフ生成装置１によれば、テキストデータ解析手段５の固有表現抽出手段５ｂによって、テキストデータに含まれる単語の中で固有表現を抽出することで、この固有表現を用いた人間関係グラフを作成することができる。

さらに、人間関係グラフ生成装置１によれば、テキストデータ取得手段１１によって、ネットワーク上に存在しているコンテンツの内容を説明したテキストデータを取得することで、コンテンツに予め付加されているテキストデータでは記述されていなかった対象の関係を補完することができ、これにより、より詳細な人間関係グラフを得ることができる。

（人間関係グラフ生成装置の動作）
次に、図９に示すフローチャートを参照して、人間関係グラフ生成装置１の動作を説明する（適宜、図１参照）。
まず、人間関係グラフ生成装置１は、コンテンツ取得手段３によって、テキストデータが付加されているコンテンツを取得する（ステップＳ１）。続いて、人間関係グラフ生成装置１は、テキストデータ解析手段５の自然文テキスト形式文分離手段５ａによって、テキストデータを自然文と、リスト形式文とに分離する（ステップＳ２）。

そして、人間関係グラフ生成装置１は、テキストデータ解析手段５の固有表現抽出手段５ｂによって、リスト形式文から出演者等の情報を抽出し、自然文から固有表現（ここでは、人名表現及び人物の特徴表現）を抽出し、係り受け解析手段５ｃによって、係り受けを解析する（ステップＳ３）。

そして、人間関係グラフ生成装置１は、人間関係グラフ生成手段７によって、テキストデータ解析手段５で解析された解析結果に基づいて、人間関係グラフを生成する（ステップＳ４）。さらに、人間関係グラフ生成装置１は、生成した人間関係グラフを、図示を省略した蓄積手段に蓄積するか表示手段９によって、表示する（ステップＳ５）。

（コンテンツ検索装置の構成）
図１０はコンテンツ検索装置のブロック図である。この図１０に示すように、コンテンツ検索装置２１は、人間関係グラフを用いて、所望のコンテンツを検索するもので、人間関係グラフ蓄積手段２３と、入力手段２５と、検索手段２７と、表示手段２９と、を備えている。

人間関係グラフ蓄積手段２３は、図１に示した人間関係グラフ生成装置１で生成された人間関係グラフ又は当該人間関係グラフから生成した部分グラフを蓄積するもので、一般的なハードディスクやメモリ等によって構成されている。また、格納方法として、既存技術のＲＤＢ（Relational Database）などを利用してもよい。

入力手段２５は、当該装置２１のユーザが所望のコンテンツを特定する特定データを入力するもので、テンプレート提示手段２５ａと、テンプレート作成手段２５ｂと、テキストデータ解析手段２５ｃと、人間関係グラフ生成手段２５ｄとを備えている。ユーザが視聴したいと考えているコンテンツについて、コンテンツ名、出演者名、監督名等が具体的に分かる場合には、従来技術のキーワード検索等によって所望のコンテンツを得ることができる。このため、入力手段２５では、主に、キーワード検索において単純にキーワード化することが難しいもの、すなわち、ストーリーにおける人間関係そのものを入力としており、当該装置２１では、この人間関係を検索キーとして使用している。なお、テキストデータ解析手段２５ｃ及び人間関係グラフ生成手段２５ｄは図１に示したテキストデータ解析手段５及び人間関係グラフ生成手段７と同様の動作をするので、説明を省略する。

テンプレート提示手段２５ａは、所望のコンテンツを特定するための特定データを入力するテンプレートを提示するものである。このテンプレートは、表示手段２９に表示され、ユーザに特定データの入力を促すこととなる。まず、テンプレート提示手段２５ａでは、代表的な人間関係グラフ（ノードとエッジの組み合わせ）を予め用意しておき、ＧＵＩ（グラフィカルユーザーインターフェース）を用いて、ユーザに選択させることとしている。そして、提示されたテンプレートをもとに、ユーザはこの人間関係グラフに新たなエッジやノードを追加していくこともできる。

テンプレート作成手段２５ｂは、ユーザが入力した特定データに基づいて、新たな人間関係グラフを、テンプレートとして作成するものである。テンプレート作成手段２５ｂを用いて、ユーザが独自に検索する人間関係グラフを作成したい場合には、視聴したいと考えているコンテンツの主人公の性別と年齢、主人公及び出演者の役柄等のノードに関する情報と、血縁関係や恋愛関係等エッジに関する情報とを入力する。さらに、当該コンテンツで描かれている時代背景、当該コンテンツで扱われている出来事、当該コンテンツで表示される風景等を、選択項目として、ユーザが選択することで、人間関係グラフ以外の情報によって、コンテンツを絞り込むことも可能である。

さらに、テンプレート作成手段２５ｂは、コンテンツのコンテンツ名（映画やドラマ等のタイトル）を入力することにより、このコンテンツ名をキーワードとし、過去のコンテンツに関するテキストデータ又は補完データを取得することができる。そして、テンプレート作成手段２５ｂは、取得したテキストデータ又は補完データをテキストデータ解析手段２５ｃに出力する。そして、テキストデータ解析手段２５ｃ及び人間関係グラフ生成手段２５ｄによって人間関係グラフが生成される。

検索手段２７は、入力手段２５によって作成された人間関係グラフ（以下、検索側人間関係グラフという）を検索キーとして利用し、人間関係グラフ蓄積手段２３に蓄積されている人間関係グラフ（以下、蓄積側人間関係グラフという）の中で、類似（完全一致、部分一致）するものを検索するもので、部分グラフ数スコアカウント手段２７ａと、最大エッジ数スコアカウント手段２７ｂと、種類数スコアカウント手段２７ｃとを備えている。なお、この実施形態では、これら部分グラフ数スコアカウント手段２７ａ、最大エッジ数スコアカウント手段２７ｂ及び種類数スコアカウント手段２７ｃのいずれか１つから算出（カウント）されたスコア（数）に基づいて、蓄積側人間関係グラフを検索することとしている。

ちなみに、性別情報はノードの一つの特徴量となり、例えば、性別のみの特徴量をノードのラベルとして用いると、性別のみのラベルをノードに持った人間関係グラフが生成できることとなる。そして、類似度計算は、これまでの計算と同じように計算することができる。

部分グラフ数スコアカウント手段２７ａは、検索側人間関係グラフと、蓄積側人間関係グラフとで共通の部分グラフの数を、類似度スコアとして算出するものである。この実施形態では、部分グラフ数スコアカウント手段２７ａは、部分グラフの有無を“０”（無い場合）及び“１”（有る場合）で表した、検索側人間関係グラフの部分グラフベクトルと蓄積側人間関係グラフの部分グラフベクトルとを生成し、内積を算出することで類似度スコアを求めている。つまり、最も類似するグラフを求める場合には、共通の部分グラフの数が最も多いものとなる。

最大エッジ数スコアカウント手段２７ｂは、共通の部分グラフの中で、最もエッジ数が大きい部分グラフのエッジの数をカウントするものである。つまり、共通の部分グラフが１つしかない場合にでも、当該部分グラフが最大数のエッジを持っていた場合、スコアはこの数となる。

種類数スコアカウント手段２７ｃは、検索側人間関係グラフと蓄積側人間関係グラフとについて、共通のノードとエッジの種類の数をカウントするものである。すなわち、種類数スコアカウント手段２７ｃでカウントする数は、共通のノードとエッジの種類数が最も大きいものとなる。なお、共通のノード数がｎ個、共通のエッジ数がｍ個であった場合、合計はｎ＋ｍであるが、それぞれに重みα、βを設定し、αｎ＋βｍで表すこともできる。これにより、α＞βの場合は人物に重きを置き、α＜βの場合は関係に重きを置いた検索が可能となる。特に、α＝０の場合には、関係のみでの検索も可能である。

そして、検索手段２７は、検索結果として、これら部分グラフ数スコアカウント手段２７ａ、最大エッジ数スコアカウント手段２７ｂ及び種類数スコアカウント手段２７ｃのいずれか１つから算出（カウント）されたスコア（数）に基づいて、人間関係グラフ蓄積手段２３に蓄積されている人間関係グラフによって関連付けられるコンテンツ名を表示手段２９に出力する。なお、この実施形態では、検索手段２７から出力する検索結果は、スコアの高い順に一覧表形式で出力することとしている。

ここで、図１１を参照して、２つの人間関係グラフのスコアを算出する場合の仕方について説明する（適宜、図６を参照）。図１１（ａ）と（ｂ）に示した人間関係グラフの類似度を、部分グラフ数スコアカウント手段２７ａ、最大エッジ数スコアカウント手段２７ｂ及び種類数スコアカウント手段２７ｃの各手段で求めた場合について説明する。なお、図１１（ｃ）と（ｄ）に示した部分グラフは、（ｂ）のエッジを１つ以上持つものである。また、図１１（ａ）は、図６に示したものと同様のものである。

部分グラフ数スコアカウント手段２７ａでは、部分グラフの数を数えるため、図１１（ｃ）に示した３つの部分グラフが共通の部分グラフとなる。すなわち、この場合のスコアは“３”となる。最大エッジ数スコアカウント手段２７ｂでは、共通の部分グラフのエッジの数がカウントされるため、“２”となる。種類数スコアカウント手段２７ｃでは、共通のノードとエッジの種類の数がカウントされるため、ノードスコアは“４”、エッジスコアは“２”となる。なお、それぞれの手段でカウントしたスコアは、異なる方法で算出したものであるので、互いに比較することができない。

表示手段２９は、入力手段２５のテンプレート提示手段２５ａで提示されるテンプレートと、検索手段２７で検索された検索結果とを表示するものである。この表示手段２９では、テンプレートとして、予め代表的な人間関係グラフを提示することができ、ユーザは、入力手段２５により、表示された人間関係グラフに、検索したいエッジ（関係）やノード（人物のクラス）を追加することができる。なお、入力手段２５は、検索結果が表示された後に、当該検索結果に絞り込みを行う際にも使用することができる。

このコンテンツ検索装置２１によれば、検索手段２７によって、入力された特定データから生成された人間関係グラフにより、コンテンツの詳細な内容が簡略化して表され、このコンテンツの詳細な内容を手がかりに、所望のコンテンツを検索することができる。

また、コンテンツ検索装置２１によれば、テンプレート提示手段２５ａによって、テンプレートに従った特定データを得ることで、検索手段２７によって、人間関係グラフ蓄積手段２３に蓄積している人間関係グラフと同様の人間関係グラフを効率よく生成することができ、検索する際の検索効率を向上させることができる。

さらに、コンテンツ検索装置２１によれば、検索手段２７の部分グラフ数スコアカウント手段２７ａ、最大エッジ数スコアカウント手段２７ｂ及び種類数スコアカウント手段２７ｃによって、部分グラフの数、最大エッジ数、ノードとエッジの種類の数のいずれかのスコア（数）に基づいて、蓄積している人間関係グラフの中から、生成した人間関係グラフに似ているものを検索することができる。

（コンテンツ検索装置の動作）
次に、図１２に示すフローチャートを参照して、コンテンツ検索装置２１の動作を説明する（適宜、図１０参照）。
まず、コンテンツ検索装置２１は、入力手段２５によって、コンテンツ名（番組名）又はテンプレートとして提示される人間関係グラフをそのまま、若しくは、エッジやノードを加えて入力する。或いは、新たに生成した人間関係グラフを入力する（ステップＳ１１）。なお、コンテンツ名を入力した場合には、人間関係グラフ生成手段２５ｄを用いて、人間関係グラフを生成する。

続いて、コンテンツ検索装置２１は、検索手段２７によって、入力手段２５で入力された特定データに基づいて、人間関係グラフ（検索側人間関係グラフ）を生成し、部分グラフ数スコアカウント手段２７ａ、最大エッジ数スコアカウント手段２７ｂ及び種類数スコアカウント手段２７ｃのいずれかからスコア（数）を得る（ステップＳ１２）。そして、コンテンツ検索装置２１は、検索手段２７で得たスコアを検索結果として、当該スコア（数）の高い順に一覧表形式で表示する（ステップＳ１３）。

さらに、コンテンツ検索装置２１は、入力手段２５によって、検索結果から所望のコンテンツを絞り込むか否かを判定し（ステップＳ１４）、絞り込むと判定した場合（ステップＳ１４でＹｅｓ）、ステップＳ１１に戻り、絞り込むと判定しなかった場合（ステップＳ１４でＮｏ）、動作を終了する。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、人間関係グラフ生成装置１及びコンテンツ検索装置２１として説明したが、これらの装置の各構成の処理を実施可能に、一般的又は特殊なコンピュータ言語によって記述した人間関係グラフ生成プログラム及びコンテンツ検索プログラムとして構成することも可能である。

また、コンテンツ検索装置２１は、人間関係グラフを用いた情報により、デジタル放送のコンテンツを検索するだけではなく、人間関係グラフ蓄積手段２３の代わりに、書籍に関するデータベース（書籍に登場する人物の人間関係グラフを蓄積したもの）を用意しておけば、人間関係グラフが類似する書籍等のストーリー性があるテキストの検索にも適用することができる。また、コンテンツ検索装置２１に、入力として書籍の人間関係グラフを入力することで、当該人間関係グラフが類似したコンテンツ（映画や放送番組）を検索することもできる。

本発明の実施形態に係る人間関係グラフ生成装置のブロック図である。コンテンツに付加されているテキストデータの例を示した図である。係り受け解析手段による解析結果の例を示した図である。人間関係グラフを生成した例を示した図である。ノード（人物）の素性とエッジ（関係）の素性の例を示した図である。人間関係グラフと部分グラフとを示した図である。ネットワークから得た情報（補完データ）の例を示した図である。ネットワークから得た情報（補完データ）を付加して人間関係グラフを生成した例を示した図である。図１に示した人間関係グラフ生成装置の動作を示したフローチャートである。本発明の実施形態に係るコンテンツ検索装置のブロック図である。２つの人間関係グラフについてスコアを算出する例を示した図である。図１０に示したコンテンツ検索装置の動作を示したフローチャートである。

符号の説明

１人間関係グラフ生成装置
３コンテンツ取得手段
５、２５ｃテキストデータ解析手段
５ａ自然文リスト形式文分離手段
５ｂ固有表現抽出手段
５ｃ係り受け解析手段
５ｄ性別判定手段
５ｅ人物重要度判定手段
５ｆ照応解析手段
７、２５ｄ人間関係グラフ生成手段
９、２９表示手段
１１テキストデータ取得手段
２１コンテンツ検索装置
２３人間関係グラフ蓄積手段
２５入力手段
２５ａテンプレート提示手段
２７検索手段
２７ａ部分グラフ数スコアカウント手段
２７ｂ最大エッジ数スコアカウント手段
２７ｃ種類数スコアカウント手段

Claims

コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成する人間関係グラフ生成装置であって、
前記コンテンツを取得するコンテンツ取得手段と、
このコンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析するテキストデータ解析手段と、
このテキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語を前記ノードのラベルとし、前記人物を示す単語同士の関係を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを生成する人間関係グラフ生成手段と、
この人間関係グラフ生成手段で生成した人間関係グラフを表示させる表示手段と、
を備えることを特徴とする人間関係グラフ生成装置。
前記テキストデータ解析手段は、前記テキストデータに含まれる単語の中で、固有表現を示している単語を抽出する固有表現抽出手段を備えることを特徴とする請求項１に記載の人間関係グラフ生成装置。
前記テキストデータ解析手段は、文字列若しくは当該文字列の一部、品詞、当該品詞に活用がある場合の標準形、読み、文字列長、文字種、特定文字の有無の少なくとも１つを人物の名前の特報量として学習したモデルを用いて、当該人物の性別を判定する性別判定手段を備えることを特徴とする請求項１又は２に記載の人間関係グラフ生成装置。
前記表示手段は、前記性別判定手段で性別が判定された結果に従って、前記ノードを、予め設定した表示色に色分けして表示することを特徴とする請求項３に記載の人間関係グラフ生成装置。
ネットワークに接続し、当該ネットワークを介して、前記コンテンツの内容を説明したテキストデータである補完データを取得するテキストデータ取得手段を備えることを特徴とする請求項１から４のいずれか一項に記載の人間関係グラフ生成装置。
コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するコンテンツ検索装置であって、
前記コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語をクラスタリングした結果を前記ノードのラベルとし、前記人物を示す単語同士の関係をクラスタリングした結果を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを蓄積する人間関係グラフ蓄積手段と、
前記所望のコンテンツを特定する特定データを入力し、当該特定データに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、前記所望のコンテンツにおける人物の人間関係グラフを生成する入力手段と、
この入力手段で生成した人間関係グラフと、前記人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する検索手段と、
この検索手段で検索した検索結果を表示させる表示手段と、
を備えることを特徴とするコンテンツ検索装置。
前記人間関係グラフ蓄積手段で蓄積している人間関係グラフ及び生成した人間関係グラフのそれぞれのノードに、前記人物を示す単語について性別を示すラベルが含まれていることを特徴とする請求項６に記載のコンテンツ検索装置。
前記入力手段は、前記特定データを入力していくためのテンプレートを提示するテンプレート提示手段を備えることを特徴とする請求項６又は７に記載のコンテンツ検索装置。
前記検索手段は、
前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとから前記人間関係グラフの一部である、少なくとも２つのノードと１つのエッジとを含む部分グラフについて、前記人間関係グラフ蓄積手段で蓄積している人間関係グラフと、生成した人間関係グラフとの間で共通している共通部分グラフの数、
前記共通部分グラフのエッジ数が最大となる最大エッジ数、又は、
前記人間関係グラフが共有しているノードとエッジの種類の数に基づいて、
当該数が多い順に前記人間関係グラフ蓄積手段で蓄積している人間関係グラフを抽出することで、前記所望のコンテンツを検索することを特徴とする請求項６から８のいずれか一項に記載のコンテンツ検索装置。
コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを生成するために、コンピュータを、
前記コンテンツを取得するコンテンツ取得手段、
このコンテンツ取得手段で取得したコンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析するテキストデータ解析手段、
このテキストデータ解析手段で解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語を前記ノードのラベルとし、前記人物を示す単語同士の関係を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを生成する人間関係グラフ生成手段、
この人間関係グラフ生成手段で生成した人間関係グラフを表示させる表示手段、
として機能させることを特徴とする人間関係グラフ生成プログラム。
コンテンツの内容を説明する際に用いられる当該コンテンツ内における人物の相関関係を、当該人物をノードのラベルとし、当該人物同士の関係を、当該ノードを結ぶエッジとして表した、前記ノードと前記エッジとからなる人間関係グラフを使って、所望のコンテンツを検索するために、前記コンテンツに予め付加されている、当該コンテンツの内容を説明したテキストデータについて、当該テキストデータに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、予め設定した規則に従って、前記人物を示す単語をクラスタリングした結果を前記ノードのラベルとし、前記人物を示す単語同士の関係をクラスタリングした結果を、前記人物同士の関係を示した前記エッジのラベルとして表した前記ノードと前記エッジとからなる前記人物の人間関係グラフを蓄積する人間関係グラフ蓄積手段を備えたコンピュータを、
前記所望のコンテンツを特定する特定データを入力し、当該特定データに含まれる単語及び当該単語同士の関係を解析した単語及び単語同士の関係から、前記所望のコンテンツにおける人物の人間関係グラフを生成する入力手段、
この入力手段で生成した人間関係グラフと、前記人間関係グラフ蓄積手段に蓄積されている人間関係グラフの中で完全一致又は部分一致するものを検索する検索手段、
この検索手段で検索した検索結果を表示させる表示手段、
として機能させることを特徴とするコンテンツ検索プログラム。