JP4934090B2 - 番組登場人物抽出装置及び番組登場人物抽出プログラム - Google Patents
番組登場人物抽出装置及び番組登場人物抽出プログラム Download PDFInfo
- Publication number
- JP4934090B2 JP4934090B2 JP2008101243A JP2008101243A JP4934090B2 JP 4934090 B2 JP4934090 B2 JP 4934090B2 JP 2008101243 A JP2008101243 A JP 2008101243A JP 2008101243 A JP2008101243 A JP 2008101243A JP 4934090 B2 JP4934090 B2 JP 4934090B2
- Authority
- JP
- Japan
- Prior art keywords
- face image
- program
- speaker
- name
- closed caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
毎日新聞 「映像から登場人物の顔画像一覧を自動生成する技術を開発」 平成20年1月11日 NEC
この結果、視聴者は、登場人物の顔画像一覧のみを参考にして、番組を視聴するか否かの選択を行わなければならず、この顔画像一覧に、既知の顔画像が含まれている場合には、その顔画像を頼りに、番組の内容を推測したりすることができ、有益な情報となりうるが、既知の顔画像が含まれていない場合には、あまり有益な情報となり得ない可能性がある。例えば、視聴者は、俳優の顔を知らないものの、この俳優の俳優名に聞き覚えがあり、この俳優が出演している番組を視聴したいと思っていても、この俳優の顔を知らないために、番組の登場人物の顔画像一覧のみでは、当該番組を選択するきっかけにはなり得ない。
(番組登場人物抽出装置の構成)
図1は、番組登場人物抽出装置のブロック図である。この図1に示すように、番組登場人物抽出装置1は、放送番組(番組)に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出するものであって、EPG解析手段3と、字幕解析手段5と、話者分類手段7と、話者ID決定手段9と、顔画像検出手段11と、顔画像ID決定手段13と、代表顔画像選択手段15と、相関図作成手段17とを備えている。
また、EPG(Electric Program Guide;電子番組ガイド)は、放送番組の放送開始時刻及び放送終了時刻や、番組の概要、出演者(人物名)を紹介したものである。
ここでは、話者分類手段7は、クラスタリング手法を用いる際に、予め教師データを用意していない、すなわち、教師あり学習を用いていないため、音声区間において、話者名を識別するわけではなく、この音声区間をいくつかのクラスに分割するだけである。教師あり学習を用いないのは、様々な番組に出演し、入れ替わりの激しい俳優に対して学習データを作成することは現実的ではないためである(コストが大きくなりすぎるためである)。
この図7に示したように、番組を紹介したEPGと共に、「顔画像」と「役名」と「人物名」とが対応付けられて出力される。
次に、図10に示すフローチャートを参照して、番組登場人物抽出装置1の全体動作を説明する。
図10に示すように、まず、番組登場人物抽出装置1は、EPG解析手段3によって、クローズドキャプション(Closed Caption:CC)からキャラクタ名(役名)を抽出し、CCに付されている時刻データ(タイムコード)と共に抽出する(ステップS1、キャラクタ抽出処理)。なお、この番組登場人物抽出装置1は、字幕解析手段5によって、EPGとCCから、キャラクタ名(役名)と俳優名(人物名)とを対応付けも行っている。
次に、図11に示すフローチャートを参照して、番組登場人物抽出装置1の話者分類手段7におけるクラスタリングについて説明する(適宜、図1参照)。
話者分類手段7は、まず、番組の音声(音声データ)を、登場する人物のいずれかが発した音声区間と音楽や効果音等の非音声区間とに分割する(ステップS11)。
次に、図12に示すフローチャートを参照して、番組登場人物抽出装置1の顔画像ID決定手段13におけるクラスタリングについて説明する(適宜、図1参照)。
顔画像ID決定手段13は、同一の顔画像IDが付された顔画像(顔画像データ)に、ノイズ(人物の顔を示していない画像や、別人の顔画像)の含まれているものが入力される(ステップS21)と、人物の顔の表現する特徴量として、目や口等の顔の特徴を示す特徴点(ここでは、9点の特徴点)と、当該特徴点ごとのGaborウェーブレット係数との抽出を行う(ステップS22)。
3 EPG解析手段
5 字幕解析手段
7 話者分類手段
9 話者ID決定手段
11 顔画像検出手段
13 顔画像ID決定手段
15 代表顔画像選択手段
17 相関図作成手段
Claims (4)
- 番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出する番組登場人物抽出装置であって、
前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段と、
クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段と、
前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する話者ID決定手段と、
予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段と、
この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ID決定手段で決定した話者IDとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像IDを決定する顔画像ID決定手段と、
この顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する代表顔画像選択手段と、
を備えることを特徴とする番組登場人物抽出装置。 - 番組の映像、音声、クローズドキャプション及び当該番組を紹介したEPGから、前記番組に登場する人物の顔画像と、役名及び人物名とを対応付けて抽出する番組登場人物抽出装置であって、
前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段と、
前記EPGから前記固有表現抽出によって前記役名と前記人物名とを抽出して当該役名と当該人物名とを対応付けるEPG解析手段と、
クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段と、
前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する話者ID決定手段と、
予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段と、
この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ID決定手段で決定した話者IDとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像IDを決定する顔画像ID決定手段と、
この顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する代表顔画像選択手段と、
を備えることを特徴とする番組登場人物抽出装置。 - 前記EPG解析手段が、前記役名と前記役名間の関係を特定する語句とを、係り受け解析の結果を用いて、前記EPGから抽出し、
前記役名を指す人物表現が前記EPGに記述されている複数の文に出現する場合の照応関係を解析し、前記EPGから抽出した役名と役名間の関係を特定する語句とを用いて、前記番組に登場する人物の相関図を作成する相関図作成手段を備えることを特徴とする請求項2に記載の番組登場人物抽出装置。 - 番組の映像、音声、クローズドキャプションから、前記番組に登場する人物の顔画像と、役名とを対応付けて抽出するために、コンピュータを、
前記クローズドキャプションから固有表現抽出によって前記役名を抽出して前記クローズドキャプションに付されている時刻と当該役名とを対応付ける字幕解析手段、
クラスタリング手法を用いて、前記番組の音声を前記人物のいずれかが属していると予測されるクラスタに分類する話者分類手段、
前記話者分類手段で分類されたクラスタと、前記字幕解析手段で抽出された役名とを前記クローズドキャプションに付されている時刻に基づいて対応付けて、前記話者を特定する識別子である話者IDを決定する話者ID決定手段、
予め設定した顔画像検出処理によって、前記番組の映像から前記人物の顔画像を検出し、当該顔画像を検出した映像に付されている時刻と対応付ける顔画像検出手段、
この顔画像検出手段で時刻と対応付けた顔画像と、前記話者ID決定手段で決定した話者IDとを、前記クローズドキャプションに付されている時刻と当該顔画像を検出した映像に付されている時刻とが一致した場合に対応付けて、前記顔画像を特定する識別子である顔画像IDを決定する顔画像ID決定手段、
この顔画像ID決定手段で顔画像IDが決定された顔画像の中で、当該顔画像が予め設定したフレーム数以上連続若しくは予め設定したフレーム数における割合が所定以上検出され、顔の領域となる画素の数が最も多いものを、当該顔画像IDの代表画像として選択する代表顔画像選択手段、
として機能させることを特徴とする番組登場人物抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008101243A JP4934090B2 (ja) | 2008-04-09 | 2008-04-09 | 番組登場人物抽出装置及び番組登場人物抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008101243A JP4934090B2 (ja) | 2008-04-09 | 2008-04-09 | 番組登場人物抽出装置及び番組登場人物抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009253798A JP2009253798A (ja) | 2009-10-29 |
JP4934090B2 true JP4934090B2 (ja) | 2012-05-16 |
Family
ID=41314005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008101243A Expired - Fee Related JP4934090B2 (ja) | 2008-04-09 | 2008-04-09 | 番組登場人物抽出装置及び番組登場人物抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4934090B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103986981A (zh) * | 2014-04-14 | 2014-08-13 | 百度在线网络技术(北京)有限公司 | 多媒体文件的情节片段的识别方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011142546A (ja) * | 2010-01-08 | 2011-07-21 | Sharp Corp | 映像処理装置 |
KR101009973B1 (ko) * | 2010-04-07 | 2011-01-21 | 김덕훈 | 미디어 컨텐츠 제공 방법, 그리고 그를 위한 장치 |
CN104038772B (zh) * | 2014-06-30 | 2017-08-25 | 北京奇艺世纪科技有限公司 | 生成铃声文件的方法及装置 |
US10497382B2 (en) | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007214708A (ja) * | 2006-02-08 | 2007-08-23 | Funai Electric Co Ltd | 映像機器及びそれを用いた番組情報作成方法 |
JP4940712B2 (ja) * | 2006-03-14 | 2012-05-30 | ソニー株式会社 | 番組受信装置、番組受信方法、番組受信方法のプログラム及び番組受信方法のプログラムを記録した記録媒体 |
JP2008022292A (ja) * | 2006-07-13 | 2008-01-31 | Sony Corp | 出演者情報検索システム、出演者情報取得装置、出演者情報検索装置、および、その方法ならびにプログラム |
JP4909200B2 (ja) * | 2006-10-06 | 2012-04-04 | 日本放送協会 | 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム |
JP4831623B2 (ja) * | 2007-03-29 | 2011-12-07 | Kddi株式会社 | 動画像の顔インデックス作成装置およびその顔画像追跡方法 |
-
2008
- 2008-04-09 JP JP2008101243A patent/JP4934090B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103986981A (zh) * | 2014-04-14 | 2014-08-13 | 百度在线网络技术(北京)有限公司 | 多媒体文件的情节片段的识别方法及装置 |
CN103986981B (zh) * | 2014-04-14 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 多媒体文件的情节片段的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2009253798A (ja) | 2009-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101990023B1 (ko) | 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템 | |
JP5104762B2 (ja) | コンテンツ要約システムと方法とプログラム | |
US20020069055A1 (en) | Apparatus and method for automatically generating punctuation marks continuous speech recognition | |
US20170278525A1 (en) | Automatic smoothed captioning of non-speech sounds from audio | |
WO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
JP2015212732A (ja) | 音喩認識装置、及びプログラム | |
JP4934090B2 (ja) | 番組登場人物抽出装置及び番組登場人物抽出プログラム | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
US11735203B2 (en) | Methods and systems for augmenting audio content | |
Sharma et al. | A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows | |
JP2012512424A (ja) | 音声合成のための方法および装置 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
JP2009278202A (ja) | 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
Chiţu¹ et al. | Automatic visual speech recognition | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
Sahrawat et al. | " Notic My Speech"--Blending Speech Patterns With Multimedia | |
KR102011595B1 (ko) | 청각 장애인을 위한 소통 지원 장치 및 방법 | |
KR102657353B1 (ko) | 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법 | |
JP4219129B2 (ja) | テレビジョン受像機 | |
US20230362451A1 (en) | Generation of closed captions based on various visual and non-visual elements in content | |
Rao | Audio-visual interaction in multimedia | |
Parsodkar et al. | Movie Captioning For Differently Abled People | |
Gallagher et al. | Captions based on speaker identification | |
Arunachalam et al. | An automated effective communication system in a VR based environment for hearing impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4934090 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |