JP4934090B2

JP4934090B2 - 番組登場人物抽出装置及び番組登場人物抽出プログラム

Info

Publication number: JP4934090B2
Application number: JP2008101243A
Authority: JP
Inventors: 淳後藤; 伸行八木; 正啓柴田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-04-09
Filing date: 2008-04-09
Publication date: 2012-05-16
Anticipated expiration: 2028-04-09
Also published as: JP2009253798A

Description

本発明は、番組に登場する人物を抽出する番組登場人物抽出装置及び番組登場人物抽出プログラムに関する。

従来、番組に登場（出演）する人物（登場人物、出演者、役者、タレント等）を抽出する技術として、当該番組の映像から人物の顔画像を取得する技術が開示されている（例えば、非特許文献１参照）。この開示されている技術では、顔画像のクラスタリングを行い、番組の映像から登場人物の顔画像一覧を自動生成して提示する、すなわち、番組に出演している出演者、役者、タレント等の顔画像を提示している。これにより、番組を視聴する視聴者は、提示された顔画像を参考にして、視聴する番組を選択することができる。
毎日新聞「映像から登場人物の顔画像一覧を自動生成する技術を開発」平成２０年１月１１日ＮＥＣ

しかしながら、非特許文献１に開示されている技術では、登場人物の顔画像一覧を提示することができるものの、番組中の役名（キャラクタの名前）、人物名（本名、俳優名）等を付加して提示することができないという問題がある。
この結果、視聴者は、登場人物の顔画像一覧のみを参考にして、番組を視聴するか否かの選択を行わなければならず、この顔画像一覧に、既知の顔画像が含まれている場合には、その顔画像を頼りに、番組の内容を推測したりすることができ、有益な情報となりうるが、既知の顔画像が含まれていない場合には、あまり有益な情報となり得ない可能性がある。例えば、視聴者は、俳優の顔を知らないものの、この俳優の俳優名に聞き覚えがあり、この俳優が出演している番組を視聴したいと思っていても、この俳優の顔を知らないために、番組の登場人物の顔画像一覧のみでは、当該番組を選択するきっかけにはなり得ない。

なお、従来技術を用いても、顔画像と、役名や人物名とを同時に提示することは可能であるが、各人物の顔画像が誰であるのかを判別するための学習データとして、人物名を付与した顔画像が必要であり、この学習データを作成するコストが非常に大きくなってしまうという問題がある。また、放送される番組のあらゆる人物に対して、学習データを用意することは実用的ではない。

そこで、本発明では、前記した問題を解決し、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる番組登場人物抽出装置及び番組登場人物抽出プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の番組登場人物抽出装置は、番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出する番組登場人物抽出装置であって、字幕解析手段と、話者分類手段と、話者ＩＤ決定手段と、顔画像検出手段と、顔画像ＩＤ決定手段と、代表顔画像選択手段と、を備える構成とした。

かかる構成によれば、番組登場人物抽出装置は、字幕解析手段によって、クローズドキャプションから固有表現抽出によって役名を抽出してクローズドキャプションに付されている時刻と当該役名とを対応付ける。なお、クローズドキャプションに付されている時刻は、デジタル放送による番組の場合、ＰＴＳ（ＰｒｏｇｒａｍＴｉｍｅＣｏｄｅ）であり、音声や映像との同期を図るためのものである。また、番組登場人物抽出装置は、話者分類手段によって、クラスタリング手法を用いて、番組の音声を人物のいずれかが属していると予測されるクラスタに分類する。続いて、番組登場人物抽出装置は、話者ＩＤ決定手段によって、話者分類手段で分類された話者が同一の音声区間と、字幕解析手段で抽出された役名とをクローズドキャプションに付されている時刻に基づいて対応付けて、話者を特定する識別子である話者ＩＤを決定する。そして、番組登場人物抽出装置は、顔画像検出手段によって、予め設定した顔画像検出処理によって、番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける。そして、番組登場人物抽出装置は、顔画像ＩＤ決定手段によって、顔画像検出手段で時刻と対応付けた顔画像と、話者ＩＤ決定手段で決定した話者ＩＤとを、クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、顔画像を特定する識別子である顔画像ＩＤを決定する。そして、番組登場人物抽出装置は、代表顔画像選択手段によって、顔画像ＩＤ決定手段で顔画像ＩＤが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像ＩＤの代表画像として選択する。

請求項２に記載の番組登場人物抽出装置は、番組の映像、音声、クローズドキャプション及び当該番組を紹介したＥＰＧから、前記番組に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出する番組登場人物抽出装置であって、字幕解析手段と、ＥＰＧ解析手段と、話者分類手段と、話者ＩＤ決定手段と、顔画像検出手段と、顔画像ＩＤ決定手段と、代表顔画像選択手段と、を備える構成とした。

かかる構成によれば、番組登場人物抽出装置は、字幕解析手段によって、クローズドキャプションから固有表現抽出によって役名を抽出してクローズドキャプションに付されている時刻と当該役名とを対応付け、ＥＰＧ解析手段によって、ＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ；電子番組表）から固有表現抽出によって役名と人物名とを抽出して当該役名と当該人物名とを対応付ける。続いて、番組登場人物抽出装置は、話者分類手段によって、クラスタリング手法を用いて、番組の音声を人物のいずれかが属していると予測されるクラスタに分類する。そして、番組登場人物抽出装置は、話者ＩＤ決定手段によって、話者分類手段で分類された話者が同一の音声区間と、字幕解析手段で抽出された役名とをクローズドキャプションに付されている時刻に基づいて対応付けて、話者を特定する識別子である話者ＩＤを決定する。また、番組登場人物抽出装置は、顔画像検出手段によって、予め設定した顔画像検出処理によって、番組の映像から人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける。そして、番組登場人物抽出装置は、顔画像ＩＤ決定手段によって、顔画像検出手段で時刻と対応付けた顔画像と、話者ＩＤ決定手段で決定した話者ＩＤとを、クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、顔画像を特定する識別子である顔画像ＩＤを決定する。そして、番組登場人物抽出装置は、代表顔画像選択手段によって、顔画像ＩＤ決定手段で顔画像ＩＤが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像ＩＤの代表画像として選択する。

請求項３に記載の番組登場人物抽出装置は、請求項２に記載の番組登場人物抽出装置において、前記ＥＰＧ解析手段が、前記役名と前記役名間の関係を特定する語句とを、係り受け解析の結果を用いて、前記ＥＰＧから抽出し、相関図作成手段を備えることを特徴とする。

かかる構成によれば、番組登場人物抽出装置は、相関図作成手段によって、役名を指す人物表現がＥＰＧに記述されている複数の文に出現する場合の照応関係を解析し、ＥＰＧから抽出した役名と役名間の関係を特定する語句とを用いて、番組に登場する人物の相関図を作成する。

請求項４に記載の番組登場人物抽出プログラムは、番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出するために、コンピュータを、字幕解析手段、話者分類手段、話者ＩＤ決定手段、顔画像検出手段、顔画像ＩＤ決定手段、代表顔画像選択手段、として機能させる構成とした。

かかる構成によれば、番組登場人物抽出プログラムは、字幕解析手段によって、クローズドキャプションから固有表現抽出によって役名を抽出してクローズドキャプションに付されている時刻と当該役名とを対応付け、話者分類手段によって、クラスタリング手法を用いて、番組の音声を人物のいずれかが属していると予測されるクラスタに分類する。続いて、番組登場人物抽出プログラムは、話者ＩＤ決定手段によって、話者分類手段で分類された話者が同一の音声区間と、字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者ＩＤを決定する。また、番組登場人物抽出プログラムは、顔画像検出手段によって、予め設定した顔画像検出処理により、番組の映像から人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付け、顔画像ＩＤ決定手段によって、顔画像検出手段で時刻と対応付けた顔画像と、話者ＩＤ決定手段で決定した話者ＩＤとを、クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、顔画像を特定する識別子である顔画像ＩＤを決定する。そして、番組登場人物抽出プログラムは、代表顔画像選択手段によって、顔画像ＩＤ決定手段で顔画像ＩＤが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像ＩＤの代表画像として選択する。

請求項１、４に記載の発明によれば、番組のクローズドキャプションを参照し、役名を対応付けて番組の音声から話者を決定した上で、映像から当該番組に登場した人物の顔画像を決定しているので、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる。

請求項２に記載の発明によれば、番組のクローズドキャプションやＥＰＧを参照し、役名及び人物名を対応付けて番組の音声から話者を決定した上で、映像から当該番組に登場した人物の顔画像を決定しているので、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる。

請求項３に記載の発明によれば、役名と役名間の関係を特定する語句との係り受けに基づいて、番組に登場する人物の相関図を作成することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
（番組登場人物抽出装置の構成）
図１は、番組登場人物抽出装置のブロック図である。この図１に示すように、番組登場人物抽出装置１は、放送番組（番組）に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出するものであって、ＥＰＧ解析手段３と、字幕解析手段５と、話者分類手段７と、話者ＩＤ決定手段９と、顔画像検出手段１１と、顔画像ＩＤ決定手段１３と、代表顔画像選択手段１５と、相関図作成手段１７とを備えている。

ＥＰＧ解析手段３は、ＥＰＧ（電子番組表）から固有表現抽出及び予め設定した表現パターンによって、役名と人物名（俳優名）とを対応付けて抽出するものである。

また、このＥＰＧ解析手段３は、ＥＰＧから役名間の関係を特定する語句を長出することができる。例えば、親子、兄弟姉妹、師匠と弟子、先生と生徒等の語句が役名間の関係を特定する語句である。
また、ＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ；電子番組ガイド）は、放送番組の放送開始時刻及び放送終了時刻や、番組の概要、出演者（人物名）を紹介したものである。

字幕解析手段５は、番組に付加されているクローズドキャプション（字幕、ＣｌｏｓｅｄＣａｐｔｉｏｎ、ＣＣ）から固有表現抽出によって、役名（キャラクタ名）を抽出して、当該クローズドキャプションに付されている時刻データと当該役名とを対応付けるものである。

クローズドキャプションは、聴覚障害者の方々のために、番組に登場する人物のセリフを、当該番組の進行に沿って映像と共に表示するためのテキストデータである。そして、このクローズドキャプションには、番組に登場する人物の人物名と役名とを含んでいることが多い。

なお、人物名は、人物の本名、俳優名（役者名）又は芸名を指しており、役名は番組における役の名前（キャラクタの名前）を指している。

この番組登場人物抽出装置１において、ＥＰＧで番組を紹介しているテキストデータが必要な理由は、ＥＰＧから役名と人物名との関係を得て、人物名と顔画像とを対応付けるためである。役名と顔画像とを対応付けるだけであれば、クローズドキャプションのみを解析すればよい。

固有表現抽出は、自然言語処理技術の一つであり、固有名詞（人物名、地名等）や日付、時間表現を抽出する技術である。ここでは、クローズドキャプションから役名を、ＥＰＧから役名及び人物名を抽出するのに用いている。

予め設定した表現パターンとは、ここでは、「役名（人物名）」カッコ書きのカッコの前にある名詞（役名）と、カッコの中にある名詞（人物名）とが対応している、或いは、「（役名）文章」カッコ書きのカッコの中にある名詞（役名）とこのカッコの直後の文章とが対応している（カッコ中の役名の人が直後の文章を発話している）とするものである。そして、この予め設定した表現パターンによって、クローズドキャプションにおいて、役名と発話していることとの対応関係を抽出すると共に、ＥＰＧにおいて、役名と人物名との対応関係を抽出している。

時刻データは、番組の映像において、当該映像のフレーム毎に予め付されているタイムコードである。

ここで、図２に、ある番組の概要を紹介したＥＰＧの一例を示す。このＥＰＧの一例では、「喜代美（○○しほり）」、「草々（△△崇高）」、「清海（□□めぐみ）」、「友晴（××雄亮）」、「順子（○×麻衣）」の５個の役名と役者名（人物名）との対応付が存在している。

具体的に述べると、このＥＰＧの一例では、「２度目の高座で、ようやく客に笑ってもらうことができた喜代美（○○しほり）。」のように、「喜代美」が「○○しほり」であり、固有表現抽出を用いると共に予め設定した表現パターンを設けておくことで、役名と人物名とを取得することができる。以下、適宜、このＥＰＧの一例を参照することとする。

そして、これら役名と役者名とを対応させて示すと、図３のようになる。この図３において、役名をキャラクタ名とし、役者名を俳優名としている。キャラクタ名「喜代美」は、俳優名「○○しほり」であり、キャラクタ名「草々」は俳優名「△△崇高」であり、キャラクタ名「清海」は俳優名「□□めぐみ」である。

また、図４に、図２に示したＥＰＧで紹介している番組のクローズドキャプションの一部を示す。このクローズドキャプションから例えば、「（喜代美）そんで？そんで？いつから？」というセリフは「（役名）文章」のパターンにより、このセリフの話者が喜代美であることが得られる。

さらに、この図４において、「時刻」（時刻データ：タイムコード）は、クローズドキャプションの開始時刻を示している。例えば、１行目は、「０８：１６：１０」（８時１６分１０秒）に「（清海）草々さんの事．．．→」というクローズドキャプションが表示されたことを示している。この時刻データにより、クローズドキャプションと、映像や音声との同期を取ることができる。

そして、この図４に示したＳＩＤ（ＳｐｅａｋｅｒＩＤ）が話者を識別するための話者ＩＤ（話者名＝役名）である。また、図４に示したように、クローズドキャプションに含まれている話者名は、当該クローズドキャプションのどの区間にも含まれているわけではない。

話者名が含まれないクローズドキャプションが連続している例を図５に示す。この図５では、時刻（タイムコード）とクローズドキャプションとの対応がなされているものの、話者名がクローズドキャプションに含まれていないものが連続しているので、タイムコード「０８：２５：１０」のクローズドキャプション「呼んだらすぐに来んかい教科書そろったぞ。」と、タイムコード「０８：２５：１５」のクローズドキャプション「すみません。」との話者が誰であるのかが明確にわからない。

また、このクローズドキャプションに話者名があるからといって、この話者名に該当する人物の顔画像が番組の映像に現れないことも多い。そこで、この番組登場人物抽出装置１では、次に説明する話者決定手段５を用いている。

この図６（ａ）に示したように、タイムコード「０７：３３：５４」のクローズドキャプション「（清海）友達の順子ちゃんです。」に対し、ＳＩＤが「清海」となっている。確かに、このセリフを発しているのは「清海」であるが、図６（ｂ）に示したように、顔画像検出手段１１で特定された画像は「清海」ではなく、後記する「順子」に該当している。

この図６（ａ）、（ｂ）に示した例、つまり、セリフを発している話者と、表示されている顔とが一致していないにも拘わらず、音声を聞き取ることができない聴覚障害者の方々にとって、話者と表示されている顔とが異なっていることが判断できない。このため、番組を放送している放送局では、このような事態を解消するために、クローズドキャプションの各セリフに話者名を可能な限り対応付けて表示している。そこで、この番組登場人物抽出装置１では、クローズドキャプションの各セリフに表示される話者名を用いて、顔画像に話者名を付与している。以下、話者名と顔画像とを対応させる手段について説明する。

話者分類手段７は、クラスタリング手法を用いて、番組の音声を当該番組に登場する人物のいずれかが属していると予測されるクラスタに分類するものである。まず、話者分類手段７は、番組の音声が無音となっている無音部分（所定時間、所定ｄＢ未満の部分）を閾値処理によって検出し、この無音部分と、何らかの音がしている音部分とに、番組の音声を分断する。

続いて、話者分類手段７は、音部分について、番組に登場する人物（登場人物）のいずれかが発した音声の区間である音声区間と音楽や効果音等の音声区間（音声区間以外の非音声区間）とを分割する。なお、話者分類手段７は、登場人物が発した音声の区間である音声区間のみを対象として以降の処理を行う。

次に、話者分類手段７は、音声区間から、メルケプストラム係数及びパワー（対数パワー）を計算し、それらのデルタ（差分）とデルタデルタ（差分の差分）の音声特徴量から３９次元の素性ベクトルを作成し、ＢＩＣ（ＢａｙｅｓｉａｎＩｎｆｏｒｍａｔｉｏｎＣｒｉｔｅｒｉｏｎ）基準等を用いて、番組中に人物から発せられた全音声を、複数のクラスタに分類する。
ここでは、話者分類手段７は、クラスタリング手法を用いる際に、予め教師データを用意していない、すなわち、教師あり学習を用いていないため、音声区間において、話者名を識別するわけではなく、この音声区間をいくつかのクラスに分割するだけである。教師あり学習を用いないのは、様々な番組に出演し、入れ替わりの激しい俳優に対して学習データを作成することは現実的ではないためである（コストが大きくなりすぎるためである）。

そして、同一のクラスに分類された音声区間の時刻を参照することで、同一の話者が発話している区間（時刻）を得ることができる。図１に戻る。

なお、ＢＩＣ基準を用いる手法以外によく用いられるクラスタリング手法として、ガウシアンミクスチャーモデルを使用する手法がある。ガウシアンミクスチャーモデルは、ガウス混合モデルであり、複数の正規分布を足し合わせて密度関数を表現し、パラメータ推定にＥＭアルゴリズムを適用する方法に用いられるものである。なお、話者分類手段７で用いるクラスタリング手法は、これらに限定されず、教師データを必要としないものであれば、どんなものでもよい。

話者ＩＤ決定手段９は、話者分類手段７で音声区間における話者の相違が決定された場合、字幕解析手段５で抽出した役名とクローズドキャプションに付されていた時刻データとに基づいて、話者と役名とを対応付けて、話者を特定する識別子である話者ＩＤを決定するものである。なお、役名と話者ＩＤ（ＳｐｅａｋｅｒＩＤ）とは同じものである（図４参照）。

次に、話者ＩＤ決定手段９は、クラスタリングした各クラスタに話者ＩＤを含んでいるクローズキャプションであれば、当該クラスタのＩＤとして格納する。

例えば、図４に示したクローズドキャプションであれば、（１）「（喜代美）そんで？そんで？いつから？」と、（２）「何で？どこら辺が好きになったん」という２つのセリフがあった場合、（１）には、「（喜代美）」が含まれていることから話者名が得られるが、（２）には話者名がない。そこで、話者ＩＤ決定手段９は、話者分類手段７のクラスタリングの結果、すなわち（１）と（２）の音声が同一のクラスタに分類された結果を用いて、（１）と（２）が同一話者であると判断し、（２）の話者を「喜代美」と決定する。図１に戻る。

すなわち、この話者ＩＤ決定手段９は、話者分類手段７のクラスタリングの少なくとも一つの要素に話者ＩＤを付与しているクローズドキャプションがあれば、他の音声区間にも同一の話者ＩＤを付与する。

なお、クラスタの全要素（音声区間）に対応するクローズドキャプションが話者ＩＤを含んでいない場合、当該クラスタには話者ＩＤは付与されない。つまり、話者ＩＤ決定手段９は、話者分類手段７で分類されたすべてのクラスタに話者ＩＤを付与するわけではない。

そして、この話者ＩＤ決定手段９は、区間に話者ＩＤを付したものを、顔画像ＩＤ決定手段１３に出力する。

顔画像検出手段１１は、番組の映像から既存の顔画像処理（予め設定した顔画像処理）によって、人物の顔画像が含まれている映像の区間を特定し、人物の顔画像を検出するものである。そして、この顔画像検出手段１１は、検出した顔画像を顔画像ＩＤ決定手段１３に出力する。

なお、この既存の顔画像処理として、例えば、「ベイズ的手法に基づく自律的再初期化機構を有する動画像顔検出装置、特願２００７−２６０３６５号」を用いて、顔画像が含まれている映像の区間を特定することができる。この顔画像処理は、映像中の顔画像の領域を特定し、当該顔画像が含まれるフレームを特定している。

また、顔画像処理は、検出した顔画像がどの人物であるのかを判別する必要がない。このため、この番組登場人物抽出装置１では、顔画像がどの人物であるのかを判別するための人物ごとの顔画像データを学習する必要がない。つまり、顔画像検出手段１１では、音声の話者ＩＤを特定する際と同様に、様々な番組に出演し、入れ替わりの激しい俳優に対して学習データを作成しておいて、用いることは現実的ではないからである。

顔画像ＩＤ決定手段１３は、話者ＩＤ決定手段９から出力された音声区間に話者ＩＤが付されたデータと、顔画像検出手段１１から出力された顔画像の領域が特定されたフレームとに基づいて、顔画像に話者ＩＤを付して、顔画像がどの人物であるのかを決定するものである。

なお、顔画像ＩＤ決定手段１３では、顔画像ＩＤが付された顔画像のクラスタリングを行うことが可能である。つまり、顔画像ＩＤが付されている複数の顔画像の中で少数の誤った顔画像が含まれていた場合、顔画像から特徴量を抽出し、同一ＩＤとされている顔画像群をクラスタリングし、少数のクラスタに分類されたデータを削除することで、誤った顔画像を除去することができる。

例えば、映像から人物の顔画像を検出する場合において、人物の顔を表現する特徴量として、目や口等の顔の特徴を示す９点の特徴点が正規化された座標と、当該特徴点ごとに５解像度で８方位のＧａｂｏｒウェーブレット係数とを用いることができる。このＧａｂｏｒウェーブレット係数は、複素数値であるため、この場合、顔を表現する特徴量によって示される顔全体の特徴ベクトルの次元数は、９×２（ｘ，ｙ）＋９×５（解像度）×８（方位）×２（実数、複素数）＝７３８次元となる。また、解像度の間隔は０．５オクターブとする。

また、顔画像ＩＤ決定手段１３において顔画像のクラスタリングを行う場合、クラスタリング手法には、ＬｏｃａｌＣｅｎｔｒｏｉｄＣｌｕｓｔｅｒｉｎｇを用いている。このクラスタリング手法は、特徴空間上で、各顔全体の特徴ベクトルの起点を中心とした窓（半径＝Ｒ）において、重心を計算する。そして、起点を重心の方向にずらして、収束するまで繰り返す。そして、Ｒを複数の値に設定して得られたクラスタリングの結果がＲの広い範囲に安定したら、それをクラスタリングの結果とする。

この顔画像ＩＤ決定手段１３では、顔画像検出手段１１で特定された顔画像に対して、この顔画像を含む映像を構成する各フレームのタイムコードと、クローズドキャプションの時刻データ（タイムコード）とは合致するはずなので、それに基づいて、各顔画像の顔画像ＩＤ（話者ＩＤと同じ）を決定している。

代表顔画像選択手段１５は、顔画像ＩＤ決定手段１３で顔画像ＩＤが付された複数の顔画像の中から、当該顔画像ＩＤの代表画像を、予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔画像の画像サイズが最も大きいもの（顔の領域となる画素の数が最も多いもの）を選択するものである。なお、代表画像は、条件に合致している画像が連続で複数の区間にある場合、合致する区間をすべて切り出し、代表画像の代わりに代表動画として用いることも可能である。

この代表顔画像選択手段１５において、代表動画を選択する場合は、例えば、３０枚（３０フレーム）連続して顔画像が得られた際である。そして、代表顔画像選択手段１５は、この３０枚の静止画を動画とし、代表動画として出力する。これにより、代表顔画像選択手段１５は、代表画像を検出する条件を満たした静止画が複数ある場合、１枚を選択することなく出力することができる。例えば、顔の領域となる画素の数がもっとも多い画像において、偶然、目をつぶった画像であった場合、この画像を代表画像としてしまうと、人物がどの様な顔であるかを示す代表画像として相応しくなくない。このように、代表顔画像選択手段１５では、代表画像として相応しくない１枚の画像を出力することなく、一連の動きを含んだ人物の顔画像の動画を出力することができる。

また、代表顔画像選択手段１５は、代表画像を選択する最終的な条件として、「顔の領域となる画素の数が設定した画素の数以上」を採用することができる。この場合、代表画像が複数検出される場合があり、代表画像を１枚に絞り込むために、当該画像の輝度に着目することとしている。すなわち、代表顔画像選択手段１５は、顔の領域となる画素の輝度が所定範囲にあるものを、代表画像として選択する。

また、代表顔画像選択手段１５は、人物の顔の向きが正面であるものを、代表画像として優先して選択する。この顔の向きの推定についても、顔画像のクラスタリングで用いた特徴量を用いることができる。つまり、代表顔画像選択手段１５は、顔画像をクラスタリングする際に、正面顔のクラスタを予め与えておくことにより、人物の正面顔を特定することができる。

さらに、代表顔画像選択手段１５は、「顔画像」を検出するフレーム上の位置（範囲）を設定することができる。そして、代表顔画像選択手段１５は、代表画像を選択する条件として、予め設定したフレーム数以上、ほぼ同じ位置に顔画像が検出できた場合に、検出できた顔画像の中から代表画像を選択する事も可能である。

この代表顔画像選択手段１５から選択されるものとして、図７を参照して説明する。
この図７に示したように、番組を紹介したＥＰＧと共に、「顔画像」と「役名」と「人物名」とが対応付けられて出力される。

相関図作成手段１７は、ＥＰＧ解析手段３で抽出された役名と、役の特徴及び役間の関係と特定する語句（役名間の関係を特定する語句）とを、構文解析（係り受け解析）の結果を用いて、クローズドキャプションから抽出し、この抽出した役名と役名間の関係を特定する語句（関係表現）とに従って、番組に登場する人物の相関図を作成するものである。この相関図作成手段１７は、特願２００７−１８１５６１の人間関係グラフ生成装置の結果を応用したものであり、人間関係の相関図の各ノードに顔画像を表示可能したものである。

この相関図作成手段１７では、主にＥＰＧ解析手段３によって解析された番組を紹介するＥＰＧ（番組の概要）から、人間関係の相関図を生成している。この人間関係の相関図を生成するのには、まず、番組の概要から、登場人物を表す情報を特定する必要がある。そして、番組の概要では、登場人物を表す表現として、人物名以外に、職業名や代名詞等が用いられる場合がある。

そこで、この相関図作成手段１７では、人物を示す一般名詞（男、女性等）や代名詞（彼、彼女等）については、予め作成した辞書（辞書記憶手段（不図示））を参照して、これらの一般名詞や代名詞（人物表現）を抽出している（人物表現抽出）。また、この相関図作成手段１７では、固有表現を抽出する際には、ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ（ＣＲＦ）を使用している。

また、相関図作成手段１７において、相関図を生成する際の学習の素性には、形態素単位での表層、品詞、意味属性、前後の形態素特徴を用いている。

ここで、相関図作成手段１７において、人間関係の相関図を作成する場合、まず、相関図作成手段１７は、人物表現抽出と構文解析（係り受け解析）の結果を用いて、ＥＰＧに記述されている複数の文の中の１つの文について、人物表現の間にある構文木のノードを関係表現として抽出する。

なお、相関図作成手段１７では、１つの文から人間関係の相関図を作成するのではなく、ＥＰＧに記述されている複数の文から、番組に登場するすべての登場人物の人間関係の相関図を作成しているため、複数の文から導き出した関係を統合する必要がある。この複数の文から導き出した関係を統合する場合、複数の文に出現する人物表現の照応を解析し（照応解析）、同一指示の人物表現を１つに纏めることとしている。なお、この相関図作成手段１７では、同一指示の候補は、人物表現に限定しており、照応解析に使用する素性には、語彙の一致率、係り受け関係、固有表現タグ、出現位置、代名詞の有無、人物表現の性別を用いている。

そして、相関図作成手段１７では、人物表現抽出と照応解析との結果を用いて、照応関係にある人物表現を１つのノードに統合し、人間関係の相関図を作成する。この人間関係の相関図は、ノードに人物名、エッジに関係を持つラベル付きグラフとすることができる。

さらにここで、この相関図作成手段１７で作成される相関図の例と、抽出される役の特徴及び役間の関係とについて図８、図９を参照して説明する。図８は役名と俳優と顔画像と特徴とを関連付けて表示したものである。この図８に示したように、相関図作成手段１７では、役の特徴を特定する語句として「主人公」、「人気者」、役間の関係を特定する語句として「弟子」、「同級生」、「兄弟子」を抽出している。なお、この図８をキャラクタの特徴表示として、これだけをそのまま出力表示してもよい。

図９に示したように、図９（ａ）に番組を紹介したＥＰＧを示し、図９（ｂ）に人間関係の相関図の例を示している。そして、この図９（ｂ）に示したように、図９（ａ）の内容と対応しており、「喜代美」は客に笑ってもらうことができ、「喜代美」と「順子」とは再会しており、「順子」と「友晴」（図９（ｂ）中、枠囲いの部分）は、「草々」と「清海」の関係を疑っている。

この番組登場人物抽出装置１によれば、従来、ＥＰＧでは番組に登場する人物を紹介するのに文字だけであり、従来の技術では顔画像のみであったが、番組のクローズドキャプションやＥＰＧを参照し、役名及び人物名を対応付けて番組の音声から話者を決定した上で、映像から当該番組に登場した人物の顔画像を決定しているので、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる。

なお、この番組登場人物抽出装置１では、ＥＰＧ解析手段３と字幕解析手段５とを別々の構成としているが、これらを一体的に構成することもできる。この場合、役名と人物名との対応付けのなされたものが、代表顔画像選択手段１５及び相関図作成手段１７に入力されることとなる。

（番組登場人物抽出装置の動作）
次に、図１０に示すフローチャートを参照して、番組登場人物抽出装置１の全体動作を説明する。
図１０に示すように、まず、番組登場人物抽出装置１は、ＥＰＧ解析手段３によって、クローズドキャプション（ＣｌｏｓｅｄＣａｐｔｉｏｎ：ＣＣ）からキャラクタ名（役名）を抽出し、ＣＣに付されている時刻データ（タイムコード）と共に抽出する（ステップＳ１、キャラクタ抽出処理）。なお、この番組登場人物抽出装置１は、字幕解析手段５によって、ＥＰＧとＣＣから、キャラクタ名（役名）と俳優名（人物名）とを対応付けも行っている。

続いて、番組登場人物抽出装置１は、話者分類手段７によって、クラスタリング手法により、番組の音声のクラスタリング、話者ごとのクラスタを取得し、このクラスごとに時刻データ（タイムコード）を取得する。そして、番組登場人物抽出装置１は、当該音声区間における話者を分類した後、話者ＩＤ決定手段９によって、字幕解析手段５で対応付けたキャラクタ名と、話者分類手段７で分類された話者とに基づいて、音声区間における各話者と話者ＩＤとを対応付ける（ステップＳ２、音声クラスタリング処理）。

また、番組登場人物抽出装置１は、顔画像検出手段１１によって、番組の映像から顔画像を検出し、この顔画像が含まれていた映像に付されていた時刻データ（タイムコード）と共に、顔画像ＩＤ決定手段１３に出力する。そして、番組登場人物抽出装置１は、顔画像ＩＤ決定手段１３によって、クローズドキャプションから得られたキャラクタ名と対応付けられている音声区間の時刻データと、この顔画像が含まれていた映像に付されていた時刻データとが一致する場合に、検出した顔画像に顔画像ＩＤを付す（ステップＳ３、顔画像検出処理）。

そして、番組登場人物抽出装置１は、代表顔画像選択手段１５によって、顔画像ＩＤが付された複数の顔画像の中から、当該顔画像が予め設定したフレーム数以上連続して検出され、顔の領域となる画素の数が最も多いものを代表顔画像として選択する（ステップＳ４、代表顔画像選択処理）。

（話者分類手段におけるクラスタリングについて）
次に、図１１に示すフローチャートを参照して、番組登場人物抽出装置１の話者分類手段７におけるクラスタリングについて説明する（適宜、図１参照）。
話者分類手段７は、まず、番組の音声（音声データ）を、登場する人物のいずれかが発した音声区間と音楽や効果音等の非音声区間とに分割する（ステップＳ１１）。

続いて、話者分類手段７は、分割した音声区間から、対数パワー（パワー）及びメルケプストラム係数を計算し、そのデルタ（差分）とデルタデルタ（差分の差分）の音声特徴量から素性ベクトルを作成する（ステップＳ１２）。

そして、話者分類手段７は、ＢＩＣ基準、ＧＭＭ等を用いて、番組中に人物から発せられた全音声を、複数のクラスタに分類する（ステップＳ１３）。そして、話者分類手段７は、話者ごとに分割された音声データを分類する（ステップＳ１４）。

（顔画像ＩＤ決定手段におけるクラスタリングについて）
次に、図１２に示すフローチャートを参照して、番組登場人物抽出装置１の顔画像ＩＤ決定手段１３におけるクラスタリングについて説明する（適宜、図１参照）。
顔画像ＩＤ決定手段１３は、同一の顔画像ＩＤが付された顔画像（顔画像データ）に、ノイズ（人物の顔を示していない画像や、別人の顔画像）の含まれているものが入力される（ステップＳ２１）と、人物の顔の表現する特徴量として、目や口等の顔の特徴を示す特徴点（ここでは、９点の特徴点）と、当該特徴点ごとのＧａｂｏｒウェーブレット係数との抽出を行う（ステップＳ２２）。

続いて、顔画像ＩＤ決定手段１３は、ＬｏｃａｌＣｅｎｔｒｏｉｄＣｌｕｓｔｅｒｉｎｇ等を用いて、顔画像のクラスタリングを行う（ステップＳ２３）。そして、顔画像ＩＤ決定手段１３は、クラスタリングした顔画像のデータ数の少ないクラスタをノイズと判定し、人物の顔画像とノイズとを分離（判別）し（ステップＳ２４）、ノイズを除去した正確な人物の顔画像を出力する。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、番組登場人物抽出装置１として説明したが、コンピュータを機能させる番組登場人物抽出プログラムとして構成することも可能である。

本発明の実施形態に係る番組登場人物抽出装置のブロック図である。番組を紹介したＥＰＧの一例を示した図である。キャラクタ名と俳優名との対応を示した図である。クローズドキャプションの一例を示した図である。クローズドキャプションの一例（ＳＩＤなし）を示した図である。顔画像ＩＤ決定手段によって決定する各顔画像と話者ＩＤとが異なる場合の例について示した図である。代表顔画像選択手段から出力される結果の一例を示した図である。相関図作成手段で作成される人物の特徴の一例を示した図である。相関図作成手段で作成される相関図の一例を示した図である。図１に示した番組登場人物抽出装置の全体動作を示したフローチャートである。話者分類手段のクラスタリングについて示したフローチャートである。顔画像ＩＤ決定手段のクラスタリングについて示したフローチャートである。

符号の説明

１番組登場人物抽出装置
３ＥＰＧ解析手段
５字幕解析手段
７話者分類手段
９話者ＩＤ決定手段
１１顔画像検出手段
１３顔画像ＩＤ決定手段
１５代表顔画像選択手段
１７相関図作成手段

Claims

番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出する番組登場人物抽出装置であって、
前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段と、
クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段と、
前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者ＩＤを決定する話者ＩＤ決定手段と、
予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段と、
この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ＩＤ決定手段で決定した話者ＩＤとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像ＩＤを決定する顔画像ＩＤ決定手段と、
この顔画像ＩＤ決定手段で顔画像ＩＤが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像ＩＤの代表画像として選択する代表顔画像選択手段と、
を備えることを特徴とする番組登場人物抽出装置。
番組の映像、音声、クローズドキャプション及び当該番組を紹介したＥＰＧから、前記番組に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出する番組登場人物抽出装置であって、
前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段と、
前記ＥＰＧから前記固有表現抽出によって前記役名と前記人物名とを抽出して当該役名と当該人物名とを対応付けるＥＰＧ解析手段と、
クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段と、
前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者ＩＤを決定する話者ＩＤ決定手段と、
予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段と、
この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ＩＤ決定手段で決定した話者ＩＤとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像ＩＤを決定する顔画像ＩＤ決定手段と、
この顔画像ＩＤ決定手段で顔画像ＩＤが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像ＩＤの代表画像として選択する代表顔画像選択手段と、
を備えることを特徴とする番組登場人物抽出装置。
前記ＥＰＧ解析手段が、前記役名と前記役名間の関係を特定する語句とを、係り受け解析の結果を用いて、前記ＥＰＧから抽出し、
前記役名を指す人物表現が前記ＥＰＧに記述されている複数の文に出現する場合の照応関係を解析し、前記ＥＰＧから抽出した役名と役名間の関係を特定する語句とを用いて、前記番組に登場する人物の相関図を作成する相関図作成手段を備えることを特徴とする請求項２に記載の番組登場人物抽出装置。
番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出するために、コンピュータを、
前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段、
クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段、
前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者ＩＤを決定する話者ＩＤ決定手段、
予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段、
この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ＩＤ決定手段で決定した話者ＩＤとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像ＩＤを決定する顔画像ＩＤ決定手段、
この顔画像ＩＤ決定手段で顔画像ＩＤが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像ＩＤの代表画像として選択する代表顔画像選択手段、
として機能させることを特徴とする番組登場人物抽出プログラム。