JP4934090B2 - 番組登場人物抽出装置及び番組登場人物抽出プログラム - Google Patents

番組登場人物抽出装置及び番組登場人物抽出プログラム Download PDF

Info

Publication number
JP4934090B2
JP4934090B2 JP2008101243A JP2008101243A JP4934090B2 JP 4934090 B2 JP4934090 B2 JP 4934090B2 JP 2008101243 A JP2008101243 A JP 2008101243A JP 2008101243 A JP2008101243 A JP 2008101243A JP 4934090 B2 JP4934090 B2 JP 4934090B2
Authority
JP
Japan
Prior art keywords
face image
program
speaker
name
closed caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008101243A
Other languages
English (en)
Other versions
JP2009253798A (ja
Inventor
淳 後藤
伸行 八木
正啓 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008101243A priority Critical patent/JP4934090B2/ja
Publication of JP2009253798A publication Critical patent/JP2009253798A/ja
Application granted granted Critical
Publication of JP4934090B2 publication Critical patent/JP4934090B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、番組に登場する人物を抽出する番組登場人物抽出装置及び番組登場人物抽出プログラムに関する。
従来、番組に登場(出演)する人物(登場人物、出演者、役者、タレント等)を抽出する技術として、当該番組の映像から人物の顔画像を取得する技術が開示されている(例えば、非特許文献1参照)。この開示されている技術では、顔画像のクラスタリングを行い、番組の映像から登場人物の顔画像一覧を自動生成して提示する、すなわち、番組に出演している出演者、役者、タレント等の顔画像を提示している。これにより、番組を視聴する視聴者は、提示された顔画像を参考にして、視聴する番組を選択することができる。
毎日新聞 「映像から登場人物の顔画像一覧を自動生成する技術を開発」 平成20年1月11日 NEC
しかしながら、非特許文献1に開示されている技術では、登場人物の顔画像一覧を提示することができるものの、番組中の役名(キャラクタの名前)、人物名(本名、俳優名)等を付加して提示することができないという問題がある。
この結果、視聴者は、登場人物の顔画像一覧のみを参考にして、番組を視聴するか否かの選択を行わなければならず、この顔画像一覧に、既知の顔画像が含まれている場合には、その顔画像を頼りに、番組の内容を推測したりすることができ、有益な情報となりうるが、既知の顔画像が含まれていない場合には、あまり有益な情報となり得ない可能性がある。例えば、視聴者は、俳優の顔を知らないものの、この俳優の俳優名に聞き覚えがあり、この俳優が出演している番組を視聴したいと思っていても、この俳優の顔を知らないために、番組の登場人物の顔画像一覧のみでは、当該番組を選択するきっかけにはなり得ない。
なお、従来技術を用いても、顔画像と、役名や人物名とを同時に提示することは可能であるが、各人物の顔画像が誰であるのかを判別するための学習データとして、人物名を付与した顔画像が必要であり、この学習データを作成するコストが非常に大きくなってしまうという問題がある。また、放送される番組のあらゆる人物に対して、学習データを用意することは実用的ではない。
そこで、本発明では、前記した問題を解決し、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる番組登場人物抽出装置及び番組登場人物抽出プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の番組登場人物抽出装置は、番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出する番組登場人物抽出装置であって、字幕解析手段と、話者分類手段と、話者ID決定手段と、顔画像検出手段と、顔画像ID決定手段と、代表顔画像選択手段と、を備える構成とした。
かかる構成によれば、番組登場人物抽出装置は、字幕解析手段によって、クローズドキャプションから固有表現抽出によって役名を抽出してクローズドキャプションに付されている時刻と当該役名とを対応付ける。なお、クローズドキャプションに付されている時刻は、デジタル放送による番組の場合、PTS(Program Time Code)であり、音声や映像との同期を図るためのものである。また、番組登場人物抽出装置は、話者分類手段によって、クラスタリング手法を用いて、番組の音声を人物のいずれかが属していると予測されるクラスタに分類する。続いて、番組登場人物抽出装置は、話者ID決定手段によって、話者分類手段で分類された話者が同一の音声区間と、字幕解析手段で抽出された役名とをクローズドキャプションに付されている時刻に基づいて対応付けて、話者を特定する識別子である話者IDを決定する。そして、番組登場人物抽出装置は、顔画像検出手段によって、予め設定した顔画像検出処理によって、番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける。そして、番組登場人物抽出装置は、顔画像ID決定手段によって、顔画像検出手段で時刻と対応付けた顔画像と、話者ID決定手段で決定した話者IDとを、クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、顔画像を特定する識別子である顔画像IDを決定する。そして、番組登場人物抽出装置は、代表顔画像選択手段によって、顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する。
請求項2に記載の番組登場人物抽出装置は、番組の映像、音声、クローズドキャプション及び当該番組を紹介したEPGから、前記番組に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出する番組登場人物抽出装置であって、字幕解析手段と、EPG解析手段と、話者分類手段と、話者ID決定手段と、顔画像検出手段と、顔画像ID決定手段と、代表顔画像選択手段と、を備える構成とした。
かかる構成によれば、番組登場人物抽出装置は、字幕解析手段によって、クローズドキャプションから固有表現抽出によって役名を抽出してクローズドキャプションに付されている時刻と当該役名とを対応付け、EPG解析手段によって、EPG(Electric Program Guide;電子番組表)から固有表現抽出によって役名と人物名とを抽出して当該役名と当該人物名とを対応付ける。続いて、番組登場人物抽出装置は、話者分類手段によって、クラスタリング手法を用いて、番組の音声を人物のいずれかが属していると予測されるクラスタに分類する。そして、番組登場人物抽出装置は、話者ID決定手段によって、話者分類手段で分類された話者が同一の音声区間と、字幕解析手段で抽出された役名とをクローズドキャプションに付されている時刻に基づいて対応付けて、話者を特定する識別子である話者IDを決定する。また、番組登場人物抽出装置は、顔画像検出手段によって、予め設定した顔画像検出処理によって、番組の映像から人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける。そして、番組登場人物抽出装置は、顔画像ID決定手段によって、顔画像検出手段で時刻と対応付けた顔画像と、話者ID決定手段で決定した話者IDとを、クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、顔画像を特定する識別子である顔画像IDを決定する。そして、番組登場人物抽出装置は、代表顔画像選択手段によって、顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する。
請求項3に記載の番組登場人物抽出装置は、請求項2に記載の番組登場人物抽出装置において、前記EPG解析手段が、前記役名と前記役名間の関係を特定する語句とを、係り受け解析の結果を用いて、前記EPGから抽出し、相関図作成手段を備えることを特徴とする。
かかる構成によれば、番組登場人物抽出装置は、相関図作成手段によって、役名を指す人物表現がEPGに記述されている複数の文に出現する場合の照応関係を解析し、EPGから抽出した役名と役名間の関係を特定する語句とを用いて、番組に登場する人物の相関図を作成する。
請求項4に記載の番組登場人物抽出プログラムは、番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出するために、コンピュータを、字幕解析手段、話者分類手段、話者ID決定手段、顔画像検出手段、顔画像ID決定手段、代表顔画像選択手段、として機能させる構成とした。
かかる構成によれば、番組登場人物抽出プログラムは、字幕解析手段によって、クローズドキャプションから固有表現抽出によって役名を抽出してクローズドキャプションに付されている時刻と当該役名とを対応付け、話者分類手段によって、クラスタリング手法を用いて、番組の音声を人物のいずれかが属していると予測されるクラスタに分類する。続いて、番組登場人物抽出プログラムは、話者ID決定手段によって、話者分類手段で分類された話者が同一の音声区間と、字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する。また、番組登場人物抽出プログラムは、顔画像検出手段によって、予め設定した顔画像検出処理により、番組の映像から人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付け、顔画像ID決定手段によって、顔画像検出手段で時刻と対応付けた顔画像と、話者ID決定手段で決定した話者IDとを、クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、顔画像を特定する識別子である顔画像IDを決定する。そして、番組登場人物抽出プログラムは、代表顔画像選択手段によって、顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する。
請求項1、4に記載の発明によれば、番組のクローズドキャプションを参照し、役名を対応付けて番組の音声から話者を決定した上で、映像から当該番組に登場した人物の顔画像を決定しているので、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる。
請求項2に記載の発明によれば、番組のクローズドキャプションやEPGを参照し、役名及び人物名を対応付けて番組の音声から話者を決定した上で、映像から当該番組に登場した人物の顔画像を決定しているので、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる。
請求項3に記載の発明によれば、役名と役名間の関係を特定する語句との係り受けに基づいて、番組に登場する人物の相関図を作成することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(番組登場人物抽出装置の構成)
図1は、番組登場人物抽出装置のブロック図である。この図1に示すように、番組登場人物抽出装置1は、放送番組(番組)に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出するものであって、EPG解析手段3と、字幕解析手段5と、話者分類手段7と、話者ID決定手段9と、顔画像検出手段11と、顔画像ID決定手段13と、代表顔画像選択手段15と、相関図作成手段17とを備えている。
EPG解析手段3は、EPG(電子番組表)から固有表現抽出及び予め設定した表現パターンによって、役名と人物名(俳優名)とを対応付けて抽出するものである。
また、このEPG解析手段3は、EPGから役名間の関係を特定する語句を長出することができる。例えば、親子、兄弟姉妹、師匠と弟子、先生と生徒等の語句が役名間の関係を特定する語句である。
また、EPG(Electric Program Guide;電子番組ガイド)は、放送番組の放送開始時刻及び放送終了時刻や、番組の概要、出演者(人物名)を紹介したものである。
字幕解析手段5は、番組に付加されているクローズドキャプション(字幕、Closed Caption、CC)から固有表現抽出によって、役名(キャラクタ名)を抽出して、当該クローズドキャプションに付されている時刻データと当該役名とを対応付けるものである。
クローズドキャプションは、聴覚障害者の方々のために、番組に登場する人物のセリフを、当該番組の進行に沿って映像と共に表示するためのテキストデータである。そして、このクローズドキャプションには、番組に登場する人物の人物名と役名とを含んでいることが多い。
なお、人物名は、人物の本名、俳優名(役者名)又は芸名を指しており、役名は番組における役の名前(キャラクタの名前)を指している。
この番組登場人物抽出装置1において、EPGで番組を紹介しているテキストデータが必要な理由は、EPGから役名と人物名との関係を得て、人物名と顔画像とを対応付けるためである。役名と顔画像とを対応付けるだけであれば、クローズドキャプションのみを解析すればよい。
固有表現抽出は、自然言語処理技術の一つであり、固有名詞(人物名、地名等)や日付、時間表現を抽出する技術である。ここでは、クローズドキャプションから役名を、EPGから役名及び人物名を抽出するのに用いている。
予め設定した表現パターンとは、ここでは、「役名(人物名)」カッコ書きのカッコの前にある名詞(役名)と、カッコの中にある名詞(人物名)とが対応している、或いは、「(役名)文章」カッコ書きのカッコの中にある名詞(役名)とこのカッコの直後の文章とが対応している(カッコ中の役名の人が直後の文章を発話している)とするものである。そして、この予め設定した表現パターンによって、クローズドキャプションにおいて、役名と発話していることとの対応関係を抽出すると共に、EPGにおいて、役名と人物名との対応関係を抽出している。
時刻データは、番組の映像において、当該映像のフレーム毎に予め付されているタイムコードである。
ここで、図2に、ある番組の概要を紹介したEPGの一例を示す。このEPGの一例では、「喜代美(○○しほり)」、「草々(△△崇高)」、「清海(□□めぐみ)」、「友晴(××雄亮)」、「順子(○×麻衣)」の5個の役名と役者名(人物名)との対応付が存在している。
具体的に述べると、このEPGの一例では、「2度目の高座で、ようやく客に笑ってもらうことができた喜代美(○○しほり)。」のように、「喜代美」が「○○しほり」であり、固有表現抽出を用いると共に予め設定した表現パターンを設けておくことで、役名と人物名とを取得することができる。以下、適宜、このEPGの一例を参照することとする。
そして、これら役名と役者名とを対応させて示すと、図3のようになる。この図3において、役名をキャラクタ名とし、役者名を俳優名としている。キャラクタ名「喜代美」は、俳優名「○○しほり」であり、キャラクタ名「草々」は俳優名「△△崇高」であり、キャラクタ名「清海」は俳優名「□□めぐみ」である。
また、図4に、図2に示したEPGで紹介している番組のクローズドキャプションの一部を示す。このクローズドキャプションから例えば、「(喜代美)そんで? そんで? いつから?」というセリフは「(役名)文章」のパターンにより、このセリフの話者が喜代美であることが得られる。
さらに、この図4において、「時刻」(時刻データ:タイムコード)は、クローズドキャプションの開始時刻を示している。例えば、1行目は、「08:16:10」(8時16分10秒)に「(清海)草々さんの事...→」というクローズドキャプションが表示されたことを示している。この時刻データにより、クローズドキャプションと、映像や音声との同期を取ることができる。
そして、この図4に示したSID(Speaker ID)が話者を識別するための話者ID(話者名=役名)である。また、図4に示したように、クローズドキャプションに含まれている話者名は、当該クローズドキャプションのどの区間にも含まれているわけではない。
話者名が含まれないクローズドキャプションが連続している例を図5に示す。この図5では、時刻(タイムコード)とクローズドキャプションとの対応がなされているものの、話者名がクローズドキャプションに含まれていないものが連続しているので、タイムコード「08:25:10」のクローズドキャプション「呼んだらすぐに来んかい教科書そろったぞ。」と、タイムコード「08:25:15」のクローズドキャプション「すみません。」との話者が誰であるのかが明確にわからない。
また、このクローズドキャプションに話者名があるからといって、この話者名に該当する人物の顔画像が番組の映像に現れないことも多い。そこで、この番組登場人物抽出装置1では、次に説明する話者決定手段5を用いている。
この図6(a)に示したように、タイムコード「07:33:54」のクローズドキャプション「(清海)友達の順子ちゃんです。」に対し、SIDが「清海」となっている。確かに、このセリフを発しているのは「清海」であるが、図6(b)に示したように、顔画像検出手段11で特定された画像は「清海」ではなく、後記する「順子」に該当している。
この図6(a)、(b)に示した例、つまり、セリフを発している話者と、表示されている顔とが一致していないにも拘わらず、音声を聞き取ることができない聴覚障害者の方々にとって、話者と表示されている顔とが異なっていることが判断できない。このため、番組を放送している放送局では、このような事態を解消するために、クローズドキャプションの各セリフに話者名を可能な限り対応付けて表示している。そこで、この番組登場人物抽出装置1では、クローズドキャプションの各セリフに表示される話者名を用いて、顔画像に話者名を付与している。以下、話者名と顔画像とを対応させる手段について説明する。
話者分類手段7は、クラスタリング手法を用いて、番組の音声を当該番組に登場する人物のいずれかが属していると予測されるクラスタに分類するものである。まず、話者分類手段7は、番組の音声が無音となっている無音部分(所定時間、所定dB未満の部分)を閾値処理によって検出し、この無音部分と、何らかの音がしている音部分とに、番組の音声を分断する。
続いて、話者分類手段7は、音部分について、番組に登場する人物(登場人物)のいずれかが発した音声の区間である音声区間と音楽や効果音等の音声区間(音声区間以外の非音声区間)とを分割する。なお、話者分類手段7は、登場人物が発した音声の区間である音声区間のみを対象として以降の処理を行う。
次に、話者分類手段7は、音声区間から、メルケプストラム係数及びパワー(対数パワー)を計算し、それらのデルタ(差分)とデルタデルタ(差分の差分)の音声特徴量から39次元の素性ベクトルを作成し、BIC(Bayesian Information Criterion)基準等を用いて、番組中に人物から発せられた全音声を、複数のクラスタに分類する。
ここでは、話者分類手段7は、クラスタリング手法を用いる際に、予め教師データを用意していない、すなわち、教師あり学習を用いていないため、音声区間において、話者名を識別するわけではなく、この音声区間をいくつかのクラスに分割するだけである。教師あり学習を用いないのは、様々な番組に出演し、入れ替わりの激しい俳優に対して学習データを作成することは現実的ではないためである(コストが大きくなりすぎるためである)。
そして、同一のクラスに分類された音声区間の時刻を参照することで、同一の話者が発話している区間(時刻)を得ることができる。図1に戻る。
なお、BIC基準を用いる手法以外によく用いられるクラスタリング手法として、ガウシアンミクスチャーモデルを使用する手法がある。ガウシアンミクスチャーモデルは、ガウス混合モデルであり、複数の正規分布を足し合わせて密度関数を表現し、パラメータ推定にEMアルゴリズムを適用する方法に用いられるものである。なお、話者分類手段7で用いるクラスタリング手法は、これらに限定されず、教師データを必要としないものであれば、どんなものでもよい。
話者ID決定手段9は、話者分類手段7で音声区間における話者の相違が決定された場合、字幕解析手段5で抽出した役名とクローズドキャプションに付されていた時刻データとに基づいて、話者と役名とを対応付けて、話者を特定する識別子である話者IDを決定するものである。なお、役名と話者ID(Speaker ID)とは同じものである(図4参照)。
次に、話者ID決定手段9は、クラスタリングした各クラスタに話者IDを含んでいるクローズキャプションであれば、当該クラスタのIDとして格納する。
例えば、図4に示したクローズドキャプションであれば、(1)「(喜代美)そんで?そんで? いつから?」と、(2)「何で?どこら辺が 好きになったん」という2つのセリフがあった場合、(1)には、「(喜代美)」が含まれていることから話者名が得られるが、(2)には話者名がない。そこで、話者ID決定手段9は、話者分類手段7のクラスタリングの結果、すなわち(1)と(2)の音声が同一のクラスタに分類された結果を用いて、(1)と(2)が同一話者であると判断し、(2)の話者を「喜代美」と決定する。図1に戻る。
すなわち、この話者ID決定手段9は、話者分類手段7のクラスタリングの少なくとも一つの要素に話者IDを付与しているクローズドキャプションがあれば、他の音声区間にも同一の話者IDを付与する。
なお、クラスタの全要素(音声区間)に対応するクローズドキャプションが話者IDを含んでいない場合、当該クラスタには話者IDは付与されない。つまり、話者ID決定手段9は、話者分類手段7で分類されたすべてのクラスタに話者IDを付与するわけではない。
そして、この話者ID決定手段9は、区間に話者IDを付したものを、顔画像ID決定手段13に出力する。
顔画像検出手段11は、番組の映像から既存の顔画像処理(予め設定した顔画像処理)によって、人物の顔画像が含まれている映像の区間を特定し、人物の顔画像を検出するものである。そして、この顔画像検出手段11は、検出した顔画像を顔画像ID決定手段13に出力する。
なお、この既存の顔画像処理として、例えば、「ベイズ的手法に基づく自律的再初期化機構を有する動画像顔検出装置、特願2007−260365号」を用いて、顔画像が含まれている映像の区間を特定することができる。この顔画像処理は、映像中の顔画像の領域を特定し、当該顔画像が含まれるフレームを特定している。
また、顔画像処理は、検出した顔画像がどの人物であるのかを判別する必要がない。このため、この番組登場人物抽出装置1では、顔画像がどの人物であるのかを判別するための人物ごとの顔画像データを学習する必要がない。つまり、顔画像検出手段11では、音声の話者IDを特定する際と同様に、様々な番組に出演し、入れ替わりの激しい俳優に対して学習データを作成しておいて、用いることは現実的ではないからである。
顔画像ID決定手段13は、話者ID決定手段9から出力された音声区間に話者IDが付されたデータと、顔画像検出手段11から出力された顔画像の領域が特定されたフレームとに基づいて、顔画像に話者IDを付して、顔画像がどの人物であるのかを決定するものである。
なお、顔画像ID決定手段13では、顔画像IDが付された顔画像のクラスタリングを行うことが可能である。つまり、顔画像IDが付されている複数の顔画像の中で少数の誤った顔画像が含まれていた場合、顔画像から特徴量を抽出し、同一IDとされている顔画像群をクラスタリングし、少数のクラスタに分類されたデータを削除することで、誤った顔画像を除去することができる。
例えば、映像から人物の顔画像を検出する場合において、人物の顔を表現する特徴量として、目や口等の顔の特徴を示す9点の特徴点が正規化された座標と、当該特徴点ごとに5解像度で8方位のGaborウェーブレット係数とを用いることができる。このGaborウェーブレット係数は、複素数値であるため、この場合、顔を表現する特徴量によって示される顔全体の特徴ベクトルの次元数は、9×2(x,y)+9×5(解像度)×8(方位)×2(実数、複素数)=738次元となる。また、解像度の間隔は0.5オクターブとする。
また、顔画像ID決定手段13において顔画像のクラスタリングを行う場合、クラスタリング手法には、Local Centroid Clusteringを用いている。このクラスタリング手法は、特徴空間上で、各顔全体の特徴ベクトルの起点を中心とした窓(半径=R)において、重心を計算する。そして、起点を重心の方向にずらして、収束するまで繰り返す。そして、Rを複数の値に設定して得られたクラスタリングの結果がRの広い範囲に安定したら、それをクラスタリングの結果とする。
この顔画像ID決定手段13では、顔画像検出手段11で特定された顔画像に対して、この顔画像を含む映像を構成する各フレームのタイムコードと、クローズドキャプションの時刻データ(タイムコード)とは合致するはずなので、それに基づいて、各顔画像の顔画像ID(話者IDと同じ)を決定している。
代表顔画像選択手段15は、顔画像ID決定手段13で顔画像IDが付された複数の顔画像の中から、当該顔画像IDの代表画像を、予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔画像の画像サイズが最も大きいもの(顔の領域となる画素の数が最も多いもの)を選択するものである。なお、代表画像は、条件に合致している画像が連続で複数の区間にある場合、合致する区間をすべて切り出し、代表画像の代わりに代表動画として用いることも可能である。
この代表顔画像選択手段15において、代表動画を選択する場合は、例えば、30枚(30フレーム)連続して顔画像が得られた際である。そして、代表顔画像選択手段15は、この30枚の静止画を動画とし、代表動画として出力する。これにより、代表顔画像選択手段15は、代表画像を検出する条件を満たした静止画が複数ある場合、1枚を選択することなく出力することができる。例えば、顔の領域となる画素の数がもっとも多い画像において、偶然、目をつぶった画像であった場合、この画像を代表画像としてしまうと、人物がどの様な顔であるかを示す代表画像として相応しくなくない。このように、代表顔画像選択手段15では、代表画像として相応しくない1枚の画像を出力することなく、一連の動きを含んだ人物の顔画像の動画を出力することができる。
また、代表顔画像選択手段15は、代表画像を選択する最終的な条件として、「顔の領域となる画素の数が設定した画素の数以上」を採用することができる。この場合、代表画像が複数検出される場合があり、代表画像を1枚に絞り込むために、当該画像の輝度に着目することとしている。すなわち、代表顔画像選択手段15は、顔の領域となる画素の輝度が所定範囲にあるものを、代表画像として選択する。
また、代表顔画像選択手段15は、人物の顔の向きが正面であるものを、代表画像として優先して選択する。この顔の向きの推定についても、顔画像のクラスタリングで用いた特徴量を用いることができる。つまり、代表顔画像選択手段15は、顔画像をクラスタリングする際に、正面顔のクラスタを予め与えておくことにより、人物の正面顔を特定することができる。
さらに、代表顔画像選択手段15は、「顔画像」を検出するフレーム上の位置(範囲)を設定することができる。そして、代表顔画像選択手段15は、代表画像を選択する条件として、予め設定したフレーム数以上、ほぼ同じ位置に顔画像が検出できた場合に、検出できた顔画像の中から代表画像を選択する事も可能である。
この代表顔画像選択手段15から選択されるものとして、図7を参照して説明する。
この図7に示したように、番組を紹介したEPGと共に、「顔画像」と「役名」と「人物名」とが対応付けられて出力される。
相関図作成手段17は、EPG解析手段3で抽出された役名と、役の特徴及び役間の関係と特定する語句(役名間の関係を特定する語句)とを、構文解析(係り受け解析)の結果を用いて、クローズドキャプションから抽出し、この抽出した役名と役名間の関係を特定する語句(関係表現)とに従って、番組に登場する人物の相関図を作成するものである。この相関図作成手段17は、特願2007−181561の人間関係グラフ生成装置の結果を応用したものであり、人間関係の相関図の各ノードに顔画像を表示可能したものである。
この相関図作成手段17では、主にEPG解析手段3によって解析された番組を紹介するEPG(番組の概要)から、人間関係の相関図を生成している。この人間関係の相関図を生成するのには、まず、番組の概要から、登場人物を表す情報を特定する必要がある。そして、番組の概要では、登場人物を表す表現として、人物名以外に、職業名や代名詞等が用いられる場合がある。
そこで、この相関図作成手段17では、人物を示す一般名詞(男、女性等)や代名詞(彼、彼女等)については、予め作成した辞書(辞書記憶手段(不図示))を参照して、これらの一般名詞や代名詞(人物表現)を抽出している(人物表現抽出)。また、この相関図作成手段17では、固有表現を抽出する際には、Conditional Random Field(CRF)を使用している。
また、相関図作成手段17において、相関図を生成する際の学習の素性には、形態素単位での表層、品詞、意味属性、前後の形態素特徴を用いている。
ここで、相関図作成手段17において、人間関係の相関図を作成する場合、まず、相関図作成手段17は、人物表現抽出と構文解析(係り受け解析)の結果を用いて、EPGに記述されている複数の文の中の1つの文について、人物表現の間にある構文木のノードを関係表現として抽出する。
なお、相関図作成手段17では、1つの文から人間関係の相関図を作成するのではなく、EPGに記述されている複数の文から、番組に登場するすべての登場人物の人間関係の相関図を作成しているため、複数の文から導き出した関係を統合する必要がある。この複数の文から導き出した関係を統合する場合、複数の文に出現する人物表現の照応を解析し(照応解析)、同一指示の人物表現を1つに纏めることとしている。なお、この相関図作成手段17では、同一指示の候補は、人物表現に限定しており、照応解析に使用する素性には、語彙の一致率、係り受け関係、固有表現タグ、出現位置、代名詞の有無、人物表現の性別を用いている。
そして、相関図作成手段17では、人物表現抽出と照応解析との結果を用いて、照応関係にある人物表現を1つのノードに統合し、人間関係の相関図を作成する。この人間関係の相関図は、ノードに人物名、エッジに関係を持つラベル付きグラフとすることができる。
さらにここで、この相関図作成手段17で作成される相関図の例と、抽出される役の特徴及び役間の関係とについて図8、図9を参照して説明する。図8は役名と俳優と顔画像と特徴とを関連付けて表示したものである。この図8に示したように、相関図作成手段17では、役の特徴を特定する語句として「主人公」、「人気者」、役間の関係を特定する語句として「弟子」、「同級生」、「兄弟子」を抽出している。なお、この図8をキャラクタの特徴表示として、これだけをそのまま出力表示してもよい。
図9に示したように、図9(a)に番組を紹介したEPGを示し、図9(b)に人間関係の相関図の例を示している。そして、この図9(b)に示したように、図9(a)の内容と対応しており、「喜代美」は客に笑ってもらうことができ、「喜代美」と「順子」とは再会しており、「順子」と「友晴」(図9(b)中、枠囲いの部分)は、「草々」と「清海」の関係を疑っている。
この番組登場人物抽出装置1によれば、従来、EPGでは番組に登場する人物を紹介するのに文字だけであり、従来の技術では顔画像のみであったが、番組のクローズドキャプションやEPGを参照し、役名及び人物名を対応付けて番組の音声から話者を決定した上で、映像から当該番組に登場した人物の顔画像を決定しているので、作成コストを大きくすることなく、番組に登場した人物の顔画像に、役名や人物名を付加したものを当該番組から抽出することができる。
なお、この番組登場人物抽出装置1では、EPG解析手段3と字幕解析手段5とを別々の構成としているが、これらを一体的に構成することもできる。この場合、役名と人物名との対応付けのなされたものが、代表顔画像選択手段15及び相関図作成手段17に入力されることとなる。
(番組登場人物抽出装置の動作)
次に、図10に示すフローチャートを参照して、番組登場人物抽出装置1の全体動作を説明する。
図10に示すように、まず、番組登場人物抽出装置1は、EPG解析手段3によって、クローズドキャプション(Closed Caption:CC)からキャラクタ名(役名)を抽出し、CCに付されている時刻データ(タイムコード)と共に抽出する(ステップS1、キャラクタ抽出処理)。なお、この番組登場人物抽出装置1は、字幕解析手段5によって、EPGとCCから、キャラクタ名(役名)と俳優名(人物名)とを対応付けも行っている。
続いて、番組登場人物抽出装置1は、話者分類手段7によって、クラスタリング手法により、番組の音声のクラスタリング、話者ごとのクラスタを取得し、このクラスごとに時刻データ(タイムコード)を取得する。そして、番組登場人物抽出装置1は、当該音声区間における話者を分類した後、話者ID決定手段9によって、字幕解析手段5で対応付けたキャラクタ名と、話者分類手段7で分類された話者とに基づいて、音声区間における各話者と話者IDとを対応付ける(ステップS2、音声クラスタリング処理)。
また、番組登場人物抽出装置1は、顔画像検出手段11によって、番組の映像から顔画像を検出し、この顔画像が含まれていた映像に付されていた時刻データ(タイムコード)と共に、顔画像ID決定手段13に出力する。そして、番組登場人物抽出装置1は、顔画像ID決定手段13によって、クローズドキャプションから得られたキャラクタ名と対応付けられている音声区間の時刻データと、この顔画像が含まれていた映像に付されていた時刻データとが一致する場合に、検出した顔画像に顔画像IDを付す(ステップS3、顔画像検出処理)。
そして、番組登場人物抽出装置1は、代表顔画像選択手段15によって、顔画像IDが付された複数の顔画像の中から、当該顔画像が予め設定したフレーム数以上連続して検出され、顔の領域となる画素の数が最も多いものを代表顔画像として選択する(ステップS4、代表顔画像選択処理)。
(話者分類手段におけるクラスタリングについて)
次に、図11に示すフローチャートを参照して、番組登場人物抽出装置1の話者分類手段7におけるクラスタリングについて説明する(適宜、図1参照)。
話者分類手段7は、まず、番組の音声(音声データ)を、登場する人物のいずれかが発した音声区間と音楽や効果音等の非音声区間とに分割する(ステップS11)。
続いて、話者分類手段7は、分割した音声区間から、対数パワー(パワー)及びメルケプストラム係数を計算し、そのデルタ(差分)とデルタデルタ(差分の差分)の音声特徴量から素性ベクトルを作成する(ステップS12)。
そして、話者分類手段7は、BIC基準、GMM等を用いて、番組中に人物から発せられた全音声を、複数のクラスタに分類する(ステップS13)。そして、話者分類手段7は、話者ごとに分割された音声データを分類する(ステップS14)。
(顔画像ID決定手段におけるクラスタリングについて)
次に、図12に示すフローチャートを参照して、番組登場人物抽出装置1の顔画像ID決定手段13におけるクラスタリングについて説明する(適宜、図1参照)。
顔画像ID決定手段13は、同一の顔画像IDが付された顔画像(顔画像データ)に、ノイズ(人物の顔を示していない画像や、別人の顔画像)の含まれているものが入力される(ステップS21)と、人物の顔の表現する特徴量として、目や口等の顔の特徴を示す特徴点(ここでは、9点の特徴点)と、当該特徴点ごとのGaborウェーブレット係数との抽出を行う(ステップS22)。
続いて、顔画像ID決定手段13は、Local Centroid Clustering等を用いて、顔画像のクラスタリングを行う(ステップS23)。そして、顔画像ID決定手段13は、クラスタリングした顔画像のデータ数の少ないクラスタをノイズと判定し、人物の顔画像とノイズとを分離(判別)し(ステップS24)、ノイズを除去した正確な人物の顔画像を出力する。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、番組登場人物抽出装置1として説明したが、コンピュータを機能させる番組登場人物抽出プログラムとして構成することも可能である。
本発明の実施形態に係る番組登場人物抽出装置のブロック図である。 番組を紹介したEPGの一例を示した図である。 キャラクタ名と俳優名との対応を示した図である。 クローズドキャプションの一例を示した図である。 クローズドキャプションの一例(SIDなし)を示した図である。 顔画像ID決定手段によって決定する各顔画像と話者IDとが異なる場合の例について示した図である。 代表顔画像選択手段から出力される結果の一例を示した図である。 相関図作成手段で作成される人物の特徴の一例を示した図である。 相関図作成手段で作成される相関図の一例を示した図である。 図1に示した番組登場人物抽出装置の全体動作を示したフローチャートである。 話者分類手段のクラスタリングについて示したフローチャートである。 顔画像ID決定手段のクラスタリングについて示したフローチャートである。
符号の説明
1 番組登場人物抽出装置
3 EPG解析手段
5 字幕解析手段
7 話者分類手段
9 話者ID決定手段
11 顔画像検出手段
13 顔画像ID決定手段
15 代表顔画像選択手段
17 相関図作成手段

Claims (4)

  1. 番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出する番組登場人物抽出装置であって、
    前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段と、
    クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段と、
    前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する話者ID決定手段と、
    予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段と、
    この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ID決定手段で決定した話者IDとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像IDを決定する顔画像ID決定手段と、
    この顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する代表顔画像選択手段と、
    を備えることを特徴とする番組登場人物抽出装置。
  2. 番組の映像、音声、クローズドキャプション及び当該番組を紹介したEPGから、前記番組に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出する番組登場人物抽出装置であって、
    前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段と、
    前記EPGから前記固有表現抽出によって前記役名と前記人物名とを抽出して当該役名と当該人物名とを対応付けるEPG解析手段と、
    クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段と、
    前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する話者ID決定手段と、
    予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段と、
    この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ID決定手段で決定した話者IDとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像IDを決定する顔画像ID決定手段と、
    この顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する代表顔画像選択手段と、
    を備えることを特徴とする番組登場人物抽出装置。
  3. 前記EPG解析手段が、前記役名と前記役名間の関係を特定する語句とを、係り受け解析の結果を用いて、前記EPGから抽出し、
    前記役名を指す人物表現が前記EPGに記述されている複数の文に出現する場合の照応関係を解析し、前記EPGから抽出した役名と役名間の関係を特定する語句とを用いて、前記番組に登場する人物の相関図を作成する相関図作成手段を備えることを特徴とする請求項2に記載の番組登場人物抽出装置。
  4. 番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出するために、コンピュータを、
    前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段、
    クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段、
    前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する話者ID決定手段、
    予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段、
    この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ID決定手段で決定した話者IDとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像IDを決定する顔画像ID決定手段、
    この顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する代表顔画像選択手段、
    として機能させることを特徴とする番組登場人物抽出プログラム。
JP2008101243A 2008-04-09 2008-04-09 番組登場人物抽出装置及び番組登場人物抽出プログラム Expired - Fee Related JP4934090B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008101243A JP4934090B2 (ja) 2008-04-09 2008-04-09 番組登場人物抽出装置及び番組登場人物抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008101243A JP4934090B2 (ja) 2008-04-09 2008-04-09 番組登場人物抽出装置及び番組登場人物抽出プログラム

Publications (2)

Publication Number Publication Date
JP2009253798A JP2009253798A (ja) 2009-10-29
JP4934090B2 true JP4934090B2 (ja) 2012-05-16

Family

ID=41314005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008101243A Expired - Fee Related JP4934090B2 (ja) 2008-04-09 2008-04-09 番組登場人物抽出装置及び番組登場人物抽出プログラム

Country Status (1)

Country Link
JP (1) JP4934090B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986981A (zh) * 2014-04-14 2014-08-13 百度在线网络技术(北京)有限公司 多媒体文件的情节片段的识别方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011142546A (ja) * 2010-01-08 2011-07-21 Sharp Corp 映像処理装置
KR101009973B1 (ko) * 2010-04-07 2011-01-21 김덕훈 미디어 컨텐츠 제공 방법, 그리고 그를 위한 장치
CN104038772B (zh) * 2014-06-30 2017-08-25 北京奇艺世纪科技有限公司 生成铃声文件的方法及装置
US10497382B2 (en) 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007214708A (ja) * 2006-02-08 2007-08-23 Funai Electric Co Ltd 映像機器及びそれを用いた番組情報作成方法
JP4940712B2 (ja) * 2006-03-14 2012-05-30 ソニー株式会社 番組受信装置、番組受信方法、番組受信方法のプログラム及び番組受信方法のプログラムを記録した記録媒体
JP2008022292A (ja) * 2006-07-13 2008-01-31 Sony Corp 出演者情報検索システム、出演者情報取得装置、出演者情報検索装置、および、その方法ならびにプログラム
JP4909200B2 (ja) * 2006-10-06 2012-04-04 日本放送協会 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム
JP4831623B2 (ja) * 2007-03-29 2011-12-07 Kddi株式会社 動画像の顔インデックス作成装置およびその顔画像追跡方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986981A (zh) * 2014-04-14 2014-08-13 百度在线网络技术(北京)有限公司 多媒体文件的情节片段的识别方法及装置
CN103986981B (zh) * 2014-04-14 2018-01-05 百度在线网络技术(北京)有限公司 多媒体文件的情节片段的识别方法及装置

Also Published As

Publication number Publication date
JP2009253798A (ja) 2009-10-29

Similar Documents

Publication Publication Date Title
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
US20020069055A1 (en) Apparatus and method for automatically generating punctuation marks continuous speech recognition
US20170278525A1 (en) Automatic smoothed captioning of non-speech sounds from audio
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2015212732A (ja) 音喩認識装置、及びプログラム
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
US11735203B2 (en) Methods and systems for augmenting audio content
Sharma et al. A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows
JP2012512424A (ja) 音声合成のための方法および装置
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
CN110992984B (zh) 音频处理方法及装置、存储介质
Chiţu¹ et al. Automatic visual speech recognition
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Sahrawat et al. " Notic My Speech"--Blending Speech Patterns With Multimedia
KR102011595B1 (ko) 청각 장애인을 위한 소통 지원 장치 및 방법
KR102657353B1 (ko) 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법
JP4219129B2 (ja) テレビジョン受像機
US20230362451A1 (en) Generation of closed captions based on various visual and non-visual elements in content
Rao Audio-visual interaction in multimedia
Parsodkar et al. Movie Captioning For Differently Abled People
Gallagher et al. Captions based on speaker identification
Arunachalam et al. An automated effective communication system in a VR based environment for hearing impaired

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4934090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees