JP2008079018A - 字幕生成装置、字幕生成方法および字幕生成プログラム - Google Patents
字幕生成装置、字幕生成方法および字幕生成プログラム Download PDFInfo
- Publication number
- JP2008079018A JP2008079018A JP2006256032A JP2006256032A JP2008079018A JP 2008079018 A JP2008079018 A JP 2008079018A JP 2006256032 A JP2006256032 A JP 2006256032A JP 2006256032 A JP2006256032 A JP 2006256032A JP 2008079018 A JP2008079018 A JP 2008079018A
- Authority
- JP
- Japan
- Prior art keywords
- video
- sound
- information
- audio
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
Abstract
【解決手段】字幕生成装置200において、映像認識部3aにより、入力される映像信号V1の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部3bにより、入力される音声信号A1の音声認識処理が行われる。これにより、音声源の位置が推定される。制御部4は、映像認識処理により識別された動作物体の情報と、音声認識処理により推定された音声源の位置情報とを比較することにより紐付け処理を行う。それにより、音声信号A1に基づいて生成された字幕の位置が、映像上の動作物体の近傍に設定される。
【選択図】図1
Description
図1は、本発明の一実施の形態に係る字幕生成装置の構成を説明するためのブロック図である。図1に示すように、本発明の一実施の形態に係る字幕生成装置200には、映像音声入力装置100、映像出力装置300および音声出力装置400が接続される。
図2は、図1の字幕生成装置200が行う一連の動作を示すフローチャートである。字幕生成装置200は、初めに図1の映像音声入力装置100から与えられる映像信号V1および音声信号A1から時間情報SYを取得する(ステップS11)。
図3は、音声認識情報IF2および音声分類情報CT2を説明するための図である。
図1の音声認識部3bによる音声認識処理および音声分類部5bによる音声分類処理の一例を説明する。図5は、図1の音声認識部3bによる音声認識処理および音声分類部5bによる音声分類処理の一例を示す図である。
図6〜図11は、複数の人物が台詞を発声する際に図1の字幕生成装置200で行われる音声認識処理および音声分類処理の一例を説明するための図である。なお、以下の説明では、台詞を発声する人物の識別時に用いられる一致率のしきい値は70%に設定されているものとする。
臨場感のある音声を出力するために、3個以上の複数のスピーカを備える音声出力装置400が開発されている。この音声出力装置400には、例えば各スピーカから独立の音声を出力させることができる音声信号A1が与えられる。以下の説明では、3チャンネル以上の音声信号A1をサラウンド音声信号と総称する。
映像認識処理および映像分類処理の一例について説明する。図13は、映像認識処理および映像分類処理の一例を説明するための図である。
図1の制御部4は、例えば次のように字幕位置を設定する。図14は、図1の文章生成部6による字幕位置の設定例を説明するための図である。
図15は、字幕生成装置200による音声分類テーブル、映像分類テーブルおよび文章生成テーブルの生成例を示す図である。
図16は、図1の文字合成部7による字幕映像信号WSの生成例を示す図である。図16(a)に文章生成テーブルの一例が示されている。図1の文字合成部7は、文章生成部6により生成された文章生成テーブルから時間情報SYを抽出する。
図17は、図1の映像信号V1、音声信号A1および字幕映像信号WSが図1のバッファ部1に蓄積される様子を示す概念図である。
上述のように、字幕合成部9には、バッファ部1から映像信号V1および字幕映像信号WSがフレーム単位で入力される。字幕合成部9は、映像信号V1に字幕映像信号WSを重畳し、字幕合成映像信号WVをフレーム単位で生成する。
上記では、音声認識処理、音声分類処理、映像認識処理および映像分類処理について、それぞれ具体例を説明したが、制御部4は、ユーザが視聴する番組ごとに各処理の設定を調整してもよい。
本実施の形態に係る字幕生成装置200においては、映像認識部3aにより、入力される映像信号V1の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部3bにより、入力される音声信号A1の音声認識処理が行われれる。これにより、音声源の位置が推定される。
本実施の形態においては、映像音声入力装置100がデジタル放送を受信することにより、字幕生成装置200にデジタルの映像信号V1および音声信号A1が入力される例を説明した。これに限らず、映像音声入力装置100がアナログ放送を受信することにより、字幕生成装置200にアナログの映像信号V1および音声信号A1が入力されてもよい。
本実施の形態において、図1で示す字幕生成装置200の構成部の一部がソフトウェアにより機能的に実現され、他の部分が電気回路等のハードウェア資源により実現されてもよい。あるいは、字幕生成装置200の構成部の全てがハードウェア資源により実現されてもよい。
以下、請求項の各構成要素と実施の形態の各要素との対応の例について説明するが、本発明は下記の例に限定されない。
3 映像/音声認識部
3a 映像認識部
3b 音声認識部
4 制御部
4R 記憶装置
5 映像/音声分類部
5a 映像分類部
5b 音声分類部
6 文章生成部
7 文字合成部
8 ビデオメモリ
9 字幕合成部
100 映像音声入力装置
200 字幕生成装置
300 映像出力装置
400 音声出力装置
V1 映像信号
A1 音声信号
P1,P2,P3,A,B,C 人物
HC ヘリコプター
WV 字幕合成映像信号
IF1 映像認識情報
CT1 映像分類情報
IF2 音声認識情報
CT2 音声分類情報
SY 時間情報
Claims (13)
- 映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成装置であって、
前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得する映像認識手段と、
前記映像認識手段により取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出する映像位置検出手段と、
前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得する音声認識手段と、
前記音声認識手段により取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定する音声位置推定手段と、
前記音声認識手段により取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成する字幕生成手段と、
前記映像位置検出手段により検出された前記音声発生物体の映像の表示位置と、前記音声位置推定手段により推定された前記音声発生物体の音声の発生位置とを関連付ける関連付け手段と、
前記関連付け手段により関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、前記映像位置検出手段により検出された前記映像の表示位置に対応する位置に、前記字幕生成手段により生成された前記字幕を配置することにより合成映像を生成する合成映像生成手段とを備えることを特徴とする字幕生成装置。 - 前記音声発生物体は、複数の動作物体を含み、
前記映像認識手段は、前記映像信号に基づいて各動作物体の映像に関する情報を映像情報として取得し、
前記映像位置検出手段は、前記映像認識手段により取得された前記映像情報に基づいて各動作物体の映像の表示位置を検出し、
前記音声認識手段は、各動作物体を識別し、取得した前記音声情報を識別された各動作物体に関連付け、
前記音声位置推定手段は、前記音声認識手段により各動作物体に関連付けられた前記音声情報に基づいて各動作物体の音声の発生位置を推定し、
前記字幕生成手段は、前記音声認識手段により取得された前記音声情報に基づいて、各動作物体から発生される音声を文字で表現した字幕を生成し、
前記関連付け手段は、前記映像位置検出手段により検出された各動作物体の映像の表示位置と、前記音声位置推定手段により推定された各動作物体の音声の発生位置とを関連付け、
前記合成映像生成手段は、前記関連付け手段により関連付けられた各動作物体の映像の表示位置および各動作物体の音声の発生位置に基づいて、前記映像位置検出手段により検出された各動作物体の映像の表示位置に対応する位置に、前記字幕生成手段により生成された各動作物体から発生される音声の字幕を配置することにより合成映像を生成することを特徴とする請求項1記載の字幕生成装置。 - 各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の映像の表示位置に対応する位置が設定されることを特徴とする請求項2記載の字幕生成装置。
- 前記複数の動作物体は複数の人物を含み、前記音声情報は、各人物から発生される音声の周波数特性に関する情報を含み、
前記音声認識手段は、前記音声の周波数特性に関する情報に基づいて、その音声を発生する各人物を識別することを特徴とする請求項2または3記載の字幕生成装置。 - 前記音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報とを比較することにより、音声を発生する各人物を識別することを特徴とする請求項4記載の字幕生成装置。
- 前記音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報との一致の度合いを示す一致度が予め定められた基準値を超えるか否かを判定することにより音声を発生する各人物を識別することを特徴とする請求項5記載の字幕生成装置。
- 前記映像情報は、各動作物体の映像の形状および大きさに関する情報を含み、
前記映像認識手段は、各動作物体の映像の形状および大きさに関する情報に基づいて各動作物体を識別し、取得した前記映像情報を識別された各動作物体に関連付けることを特徴とする請求項2〜6のいずれかに記載の字幕生成装置。 - 前記映像情報は、各動作物体の映像の速度に関する情報を含み、
前記映像認識手段は、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置を推定し、
前記合成映像生成手段は、推定された各動作物体の所定時間経過後の映像の表示位置に対応する位置に、前記字幕生成手段により生成された各動作物体の音声の字幕を配置することにより合成映像を生成する7記載の字幕生成装置。 - 前記字幕生成手段は、前記複数の動作物体から発生される音声を各動作物体で異なる色の文字で表現した字幕を生成する請求項2〜8のいずれかに記載の字幕生成装置。
- 前記映像信号および前記音声信号はそれぞれ時間情報を含み、
前記合成映像生成手段は、前記映像信号および前記音声信号の時間情報に基づいて、前記音声発生物体から音声が発生されるタイミングで、生成した前記字幕を映像に配置することにより、前記音声信号による音声の出力タイミングと前記字幕の表示タイミングとが一致するように前記合成映像を生成する請求項1〜9のいずれかに記載の字幕生成装置。 - 前記映像信号および音声信号は、映像および音声により構成される番組のジャンルを示すジャンル情報を含み、
前記ジャンル情報を検出することにより前記番組のジャンルを判定するジャンル判定手段と、
前記ジャンル判定手段により判定された番組のジャンルに応じて、前記映像認識手段による前記映像情報の取得動作、前記映像位置検出手段による前記音声発生物体の映像の表示位置の検出動作、前記音声認識手段による前記音声発生物体の前記音声情報の取得動作、および前記音声位置推定手段による前記音声発生物体の音声の発生位置の推定動作を調整する調整手段とをさらに備えることを特徴とする請求項1〜10のいずれかに記載の字幕生成装置。 - 映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成方法であって、
前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得するステップと、
取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出するステップと、
前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得するステップと、
取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定するステップと、
取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成するステップと、
検出された前記音声発生物体の映像の表示位置と、推定された前記音声発生物体の音声の発生位置とを関連付けるステップと、
関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、検出された前記映像の表示位置に対応する位置に、生成された前記字幕を配置することにより合成映像を生成するステップとを備えることを特徴とする字幕生成方法。 - 映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する処理装置読み取り可能な字幕生成プログラムであって、
前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得する処理と、
取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出する処理と、
前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得する処理と、
取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定する処理と、
取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成する処理と、
検出された前記音声発生物体の映像の表示位置と、推定された前記音声発生物体の音声の発生位置とを関連付ける処理と、
関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、検出された前記映像の表示位置に対応する位置に、生成された前記字幕を配置することにより合成映像を生成する処理とを、前記処理装置に実行させることを特徴とする字幕生成プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006256032A JP4980018B2 (ja) | 2006-09-21 | 2006-09-21 | 字幕生成装置 |
CNA200780034822XA CN101518055A (zh) | 2006-09-21 | 2007-09-19 | 字幕生成装置、字幕生成方法及字幕生成程序 |
PCT/JP2007/068169 WO2008035704A1 (fr) | 2006-09-21 | 2007-09-19 | Dispositif de génération de sous-titre, procédé de génération de sous-titre, et programme de génération de sous-titre |
US12/441,819 US8223269B2 (en) | 2006-09-21 | 2007-09-19 | Closed caption production device, method and program for synthesizing video, sound and text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006256032A JP4980018B2 (ja) | 2006-09-21 | 2006-09-21 | 字幕生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008079018A true JP2008079018A (ja) | 2008-04-03 |
JP4980018B2 JP4980018B2 (ja) | 2012-07-18 |
Family
ID=39200529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006256032A Expired - Fee Related JP4980018B2 (ja) | 2006-09-21 | 2006-09-21 | 字幕生成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8223269B2 (ja) |
JP (1) | JP4980018B2 (ja) |
CN (1) | CN101518055A (ja) |
WO (1) | WO2008035704A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012153475A1 (ja) * | 2011-05-11 | 2012-11-15 | パナソニック株式会社 | 描画合成装置 |
CN113692619A (zh) * | 2019-05-02 | 2021-11-23 | 谷歌有限责任公司 | 在计算设备上自动为内容的可听部分加字幕 |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9049431B2 (en) * | 2009-12-31 | 2015-06-02 | Cable Television Laboratories, Inc. | Method and system for generation of captions over stereoscopic 3D images |
US10462414B2 (en) | 2009-12-31 | 2019-10-29 | Cable Television Laboratories, Inc. | Method and system for generation of captions over stereoscopic 3D images |
US9132352B1 (en) | 2010-06-24 | 2015-09-15 | Gregory S. Rabin | Interactive system and method for rendering an object |
US9053562B1 (en) * | 2010-06-24 | 2015-06-09 | Gregory S. Rabin | Two dimensional to three dimensional moving image converter |
CN102739986A (zh) * | 2011-05-06 | 2012-10-17 | 新奥特(北京)视频技术有限公司 | 一种底拉字幕中自定义图元标志的显示方法 |
CN103312863A (zh) * | 2012-03-08 | 2013-09-18 | 中兴通讯股份有限公司 | 移动终端视频的呈现方法及装置 |
CN102802044A (zh) * | 2012-06-29 | 2012-11-28 | 华为终端有限公司 | 视频处理方法、终端及字幕服务器 |
US8564721B1 (en) * | 2012-08-28 | 2013-10-22 | Matthew Berry | Timeline alignment and coordination for closed-caption text using speech recognition transcripts |
CN103853705A (zh) * | 2012-11-28 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语语音与外语语音实时语音字幕翻译方法 |
CN103853704A (zh) * | 2012-11-28 | 2014-06-11 | 上海能感物联网有限公司 | 计算机外语有声影像资料自动加注中外文字幕的方法 |
CN103853708A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语有声影像资料自动加注汉语字幕的方法 |
CN103853709A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语有声影像资料自动加注中外文字幕的方法 |
CN103854648A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 汉语外语有声影像资料双向可逆语音转换并加注字幕方法 |
CN103905743A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语自动实时标注汉语字幕音像录播方法 |
CN103902530A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语自动实时标注中外文字幕音像录播方法 |
CN103902529A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 外语自动实时标注中外文字幕音像录播方法 |
CN103902531A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语与外语自动实时语音翻译并标注字幕的音像录播方法 |
US9173004B2 (en) | 2013-04-03 | 2015-10-27 | Sony Corporation | Reproducing device, reproducing method, program, and transmitting device |
JP6016277B2 (ja) * | 2014-05-02 | 2016-10-26 | 日本電気株式会社 | 映像音響処理システム、映像音響処理方法及びプログラム |
US10419718B2 (en) | 2014-07-11 | 2019-09-17 | Lg Electronics Inc. | Method and device for transmitting and receiving broadcast signal |
US10582269B2 (en) | 2014-07-11 | 2020-03-03 | Lg Electronics Inc. | Method and device for transmitting and receiving broadcast signal |
KR20170007764A (ko) | 2014-07-29 | 2017-01-20 | 엘지전자 주식회사 | 방송 신호 송수신 방법 및 장치 |
WO2016060415A1 (ko) * | 2014-10-12 | 2016-04-21 | 엘지전자 주식회사 | Xml 서브타이틀의 트릭 플레이를 위한 방송 신호 송수신 방법 및 장치 |
CN105848006A (zh) * | 2016-03-30 | 2016-08-10 | 苏州合欣美电子科技有限公司 | 一种影音播放器自适应字幕调整的方法 |
FR3052007A1 (fr) * | 2016-05-31 | 2017-12-01 | Orange | Procede et dispositif de reception de contenu audiovisuel et programme d'ordinateur correspondant |
US10555051B2 (en) | 2016-07-21 | 2020-02-04 | At&T Mobility Ii Llc | Internet enabled video media content stream |
CN106791926A (zh) * | 2016-12-14 | 2017-05-31 | 传线网络科技(上海)有限公司 | 一种信息视频文件的播放方法、系统和终端 |
CN107241616B (zh) * | 2017-06-09 | 2018-10-26 | 腾讯科技(深圳)有限公司 | 视频台词提取方法、装置及存储介质 |
CN107454255B (zh) * | 2017-07-28 | 2020-07-17 | 维沃移动通信有限公司 | 一种歌词显示方法、移动终端及计算机可读存储介质 |
CN107295401A (zh) * | 2017-08-10 | 2017-10-24 | 四川长虹电器股份有限公司 | 一种检测自媒体音视频内容中的违规信息的方法 |
GB201715753D0 (en) * | 2017-09-28 | 2017-11-15 | Royal Nat Theatre | Caption delivery system |
US10299008B1 (en) * | 2017-11-21 | 2019-05-21 | International Business Machines Corporation | Smart closed caption positioning system for video content |
US10657380B2 (en) * | 2017-12-01 | 2020-05-19 | At&T Mobility Ii Llc | Addressable image object |
CN108259971A (zh) * | 2018-01-31 | 2018-07-06 | 百度在线网络技术(北京)有限公司 | 字幕添加方法、装置、服务器及存储介质 |
CN109862422A (zh) * | 2019-02-28 | 2019-06-07 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机可读存储介质和计算机设备 |
CN110379428A (zh) * | 2019-07-16 | 2019-10-25 | 维沃移动通信有限公司 | 一种信息处理方法及终端设备 |
CN112752130A (zh) * | 2019-10-29 | 2021-05-04 | 上海海思技术有限公司 | 一种数据显示方法及媒体处理装置 |
CN111836062A (zh) * | 2020-06-30 | 2020-10-27 | 北京小米松果电子有限公司 | 视频播放方法、装置及计算机可读存储介质 |
CN112383809A (zh) * | 2020-11-03 | 2021-02-19 | Tcl海外电子(惠州)有限公司 | 字幕显示方法、装置和存储介质 |
CN113326844B (zh) * | 2021-06-18 | 2023-04-18 | 咪咕数字传媒有限公司 | 视频字幕添加方法、装置、计算设备及计算机存储介质 |
CN114007145A (zh) * | 2021-10-29 | 2022-02-01 | 青岛海信传媒网络技术有限公司 | 一种字幕显示方法及显示设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11261890A (ja) * | 1998-03-11 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体 |
JP2004056286A (ja) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | 画像表示方法 |
JP2007027990A (ja) * | 2005-07-13 | 2007-02-01 | Canon Inc | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05176232A (ja) | 1991-12-19 | 1993-07-13 | Fujitsu General Ltd | 字幕重畳装置 |
JPH07264545A (ja) | 1994-03-17 | 1995-10-13 | Matsushita Electric Ind Co Ltd | 動画再生装置 |
JPH1022278A (ja) | 1996-07-05 | 1998-01-23 | Nippon Steel Corp | 半導体装置の製造方法 |
JP3252282B2 (ja) * | 1998-12-17 | 2002-02-04 | 松下電器産業株式会社 | シーンを検索する方法及びその装置 |
DE60142967D1 (de) * | 2000-06-09 | 2010-10-14 | British Broadcasting Corp | Erzeugung von untertiteln für bewegte bilder |
US7117231B2 (en) * | 2000-12-07 | 2006-10-03 | International Business Machines Corporation | Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data |
KR20030007706A (ko) * | 2001-04-02 | 2003-01-23 | 마츠시타 덴끼 산교 가부시키가이샤 | 디지털 영상 콘텐츠의 영상재생 장치, 영상재생 방법,영상재생 프로그램, 패키지 미디어 |
US7054804B2 (en) * | 2002-05-20 | 2006-05-30 | International Buisness Machines Corporation | Method and apparatus for performing real-time subtitles translation |
JP4219129B2 (ja) | 2002-08-09 | 2009-02-04 | シャープ株式会社 | テレビジョン受像機 |
JP3873926B2 (ja) | 2003-05-16 | 2007-01-31 | 日本電気株式会社 | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム |
JP4113059B2 (ja) * | 2003-07-28 | 2008-07-02 | 株式会社東芝 | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム |
JP4128916B2 (ja) * | 2003-08-15 | 2008-07-30 | 株式会社東芝 | 字幕制御装置および方法ならびにプログラム |
US20050086702A1 (en) * | 2003-10-17 | 2005-04-21 | Cormack Christopher J. | Translation of text encoded in video signals |
JPWO2006077882A1 (ja) * | 2005-01-19 | 2008-06-19 | 松下電器産業株式会社 | 放送受信装置 |
-
2006
- 2006-09-21 JP JP2006256032A patent/JP4980018B2/ja not_active Expired - Fee Related
-
2007
- 2007-09-19 US US12/441,819 patent/US8223269B2/en not_active Expired - Fee Related
- 2007-09-19 CN CNA200780034822XA patent/CN101518055A/zh active Pending
- 2007-09-19 WO PCT/JP2007/068169 patent/WO2008035704A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11261890A (ja) * | 1998-03-11 | 1999-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体 |
JP2004056286A (ja) * | 2002-07-17 | 2004-02-19 | Fuji Photo Film Co Ltd | 画像表示方法 |
JP2007027990A (ja) * | 2005-07-13 | 2007-02-01 | Canon Inc | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012153475A1 (ja) * | 2011-05-11 | 2012-11-15 | パナソニック株式会社 | 描画合成装置 |
CN113692619A (zh) * | 2019-05-02 | 2021-11-23 | 谷歌有限责任公司 | 在计算设备上自动为内容的可听部分加字幕 |
JP2022530201A (ja) * | 2019-05-02 | 2022-06-28 | グーグル エルエルシー | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
JP7348957B2 (ja) | 2019-05-02 | 2023-09-21 | グーグル エルエルシー | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
Also Published As
Publication number | Publication date |
---|---|
US8223269B2 (en) | 2012-07-17 |
JP4980018B2 (ja) | 2012-07-18 |
WO2008035704A1 (fr) | 2008-03-27 |
US20090278986A1 (en) | 2009-11-12 |
CN101518055A (zh) | 2009-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4980018B2 (ja) | 字幕生成装置 | |
US7015934B2 (en) | Image displaying apparatus | |
JP4599244B2 (ja) | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 | |
EP3226245B1 (en) | System and method to insert visual subtitles in videos | |
KR20070034462A (ko) | 비디오-오디오 동기화 | |
JP2002300495A (ja) | 発話認識に基づいたキャプションシステム | |
JP2007156493A (ja) | 音声区間検出装置及び方法並びに音声認識システム | |
Tao et al. | Aligning audiovisual features for audiovisual speech recognition | |
JP2011250100A (ja) | 画像処理装置および方法、並びにプログラム | |
US20040107103A1 (en) | Assessing consistency between facial motion and speech signals in video | |
US20130300934A1 (en) | Display apparatus, server, and controlling method thereof | |
JP6716300B2 (ja) | 議事録生成装置、及び議事録生成プログラム | |
KR20140146965A (ko) | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 | |
KR20150021258A (ko) | 디스플레이장치 및 그 제어방법 | |
JP2004056286A (ja) | 画像表示方法 | |
US20130218570A1 (en) | Apparatus and method for correcting speech, and non-transitory computer readable medium thereof | |
Huang et al. | Audio-visual speech recognition using an infrared headset | |
KR20160147556A (ko) | 영상표시장치의 동작 방법 | |
CN110996163B (zh) | 用于自动字幕显示的系统和方法 | |
Tapu et al. | DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people | |
US20110243447A1 (en) | Method and apparatus for synthesizing speech | |
US20090304088A1 (en) | Video-sound signal processing system | |
JP4734446B2 (ja) | テレビジョン受像装置及びテレビジョン受像方法 | |
JPH1141538A (ja) | 音声認識文字表示装置 | |
Schabus et al. | Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120418 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |