JP2008079018A

JP2008079018A - 字幕生成装置、字幕生成方法および字幕生成プログラム

Info

Publication number: JP2008079018A
Application number: JP2006256032A
Authority: JP
Inventors: Isao Ikegami; 功池上
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-09-21
Filing date: 2006-09-21
Publication date: 2008-04-03
Anticipated expiration: 2026-09-21
Also published as: US8223269B2; JP4980018B2; WO2008035704A1; US20090278986A1; CN101518055A

Abstract

【課題】ユーザが音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することができる字幕生成装置、字幕生成方法および字幕生成プログラムを提供する。
【解決手段】字幕生成装置２００において、映像認識部３ａにより、入力される映像信号Ｖ１の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部３ｂにより、入力される音声信号Ａ１の音声認識処理が行われる。これにより、音声源の位置が推定される。制御部４は、映像認識処理により識別された動作物体の情報と、音声認識処理により推定された音声源の位置情報とを比較することにより紐付け処理を行う。それにより、音声信号Ａ１に基づいて生成された字幕の位置が、映像上の動作物体の近傍に設定される。
【選択図】図１

Description

本発明は、字幕を生成する字幕生成装置、字幕生成方法および字幕生成プログラムに関する。

従来より、聴覚障害者等のユーザのためにテレビジョン番組の映像および音声とともに字幕を表示する字幕放送が行われている。

この字幕放送は、各放送局が編成した特定のテレビジョン番組にのみ適用される。したがって、ユーザは、字幕放送に対応しないテレビジョン番組では、字幕の提示を受けることができない。

そこで、映像信号および音声信号に基づいて字幕が付加された映像を表示する字幕重畳装置が特許文献１に開示されている。この字幕重畳装置は、放送信号を受信することにより音声信号を取得するとともに、音声認識によりその音声信号を文字コードに変換する。そして、字幕重畳装置は、変換した文字コードから字幕（文字パターンデータ）を生成し、生成した字幕を映像信号に重畳する。

これにより、ユーザは、字幕放送のテレビジョン番組であるか否かに関わらず全てのテレビジョン番組について字幕の提示を受けることができる。
特開平５−１７６２３２号公報

しかしながら、特許文献１の字幕重畳装置により音声信号から字幕を生成する場合、以下に説明する課題が生じる。

図２０は、従来の字幕重畳装置における課題を説明するための図である。図２０（ａ）に、複数の人物Ｐ１，Ｐ２，Ｐ３が表示された画面ＳＣ１と、各人が発声する台詞Ｓ１，Ｓ２，Ｓ３とが示されている。

図２０（ａ）に示すように、複数の人物Ｐ１，Ｐ３，Ｐ２は、この符号の順で画面ＳＣ１の左側から並んでいる。また、図２０（ａ）において、台詞Ｓ１，Ｓ２，Ｓ３は、この符号の順で図示しない音声出力装置から出力される。

すなわち、初めに左端の人物Ｐ１が台詞Ｓ１として「こんにちわ」と発声し、次に右端の人物Ｐ２が台詞Ｓ２として「私はＰ２です」と発声し、最後に中央の人物Ｐ３が台詞Ｓ３として「初めまして」と発声する。

このとき、上記の字幕重畳装置では、３人の人物Ｐ１，Ｐ２，Ｐ３と各人が発声する台詞Ｓ１，Ｓ２，Ｓ３とを関連付けて認識することはできない。

この場合、図２０（ｂ）に示すように、画面上には、人物Ｐ１，Ｐ２，Ｐ３の位置関係に関わらず台詞Ｓ１，Ｓ２，Ｓ３から字幕として生成された文字列Ｃ１，Ｃ２，Ｃ３が、この順（符号の順）で画面左側から並ぶ。

したがって、ユーザが画面ＳＣ１を視認すると、ユーザは画面に並ぶ人物Ｐ１，Ｐ２，Ｐ３の位置関係と文字列Ｃ１，Ｃ２，Ｃ３との位置関係とが異なるため、人物Ｐ１，Ｐ２，Ｐ３と文字列Ｃ１，Ｃ２，Ｃ３との対応関係を認識することが困難である。

例えば、ユーザは、図２０（ｂ）に示される画面ＳＣ１を視認することにより、人物Ｐ１が「こんにちわ」と発声し、人物Ｐ３が「私はＰ２です」と発声し、人物Ｐ２が「初めまして」と発声したと誤って認識してしまう場合がある。

このように、特許文献１の字幕重畳装置では、ユーザは、音声源と字幕として表示される文字列との対応関係を正確に認識することが困難である。

本発明の目的は、ユーザが音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することができる字幕生成装置、字幕生成方法および字幕生成プログラムを提供することである。

（１）第１の発明に係る字幕生成装置は、映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成装置であって、映像信号に基づいて音声発生物体の映像に関する情報を映像情報として取得する映像認識手段と、映像認識手段により取得された映像情報に基づいて音声発生物体の映像の表示位置を検出する映像位置検出手段と、音声信号に基づいて音声発生物体の音声に関する情報を音声情報として取得する音声認識手段と、音声認識手段により取得された音声情報に基づいて音声発生物体の音声の発生位置を推定する音声位置推定手段と、音声認識手段により取得された音声情報に基づいて、音声発生物体から発生される音声を文字で表現した字幕を生成する字幕生成手段と、映像位置検出手段により検出された音声発生物体の映像の表示位置と、音声位置推定手段により推定された音声発生物体の音声の発生位置とを関連付ける関連付け手段と、関連付け手段により関連付けられた映像の表示位置および音声の発生位置に基づいて、映像位置検出手段により検出された映像の表示位置に対応する位置に、字幕生成手段により生成された字幕を配置することにより合成映像を生成する合成映像生成手段とを備えるものである。

この字幕生成装置においては、音声発生物体の映像に関する情報が映像情報として映像信号から取得され、音声発生物体の映像の表示位置が取得された映像情報に基づいて検出される。

また、音声発生物体の音声に関する情報が音声情報として音声信号から取得され、音声発生物体の音声の発生位置が取得された音声情報に基づいて推定される。さらに、音声発生物体から発生される音声の字幕が、取得された音声情報に基づいて生成される。

ここで、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付け手段により関連付けられる。

関連付けられた映像の表示位置および音声の発生位置に基づいて、音声発生物体の映像の表示位置に対応する位置に、その音声発生物体から発生される音声の字幕が配置されることにより、合成映像が生成される。

これにより、字幕生成装置のユーザは、合成映像を視認することにより、音声発生物体の映像と、その音声発生物体から発生される音声の字幕とを、容易かつ確実に認識することができる。

（２）音声発生物体は、複数の動作物体を含み、映像認識手段は、映像信号に基づいて各動作物体の映像に関する情報を映像情報として取得し、映像位置検出手段は、映像認識手段により取得された映像情報に基づいて各動作物体の映像の表示位置を検出し、音声認識手段は、各動作物体を識別し、取得した音声情報を識別された各動作物体に関連付け、音声位置推定手段は、音声認識手段により各動作物体に関連付けられた音声情報に基づいて各動作物体の音声の発生位置を推定し、字幕生成手段は、音声認識手段により取得された音声情報に基づいて、各動作物体から発生される音声を文字で表現した字幕を生成し、関連付け手段は、映像位置検出手段により検出された各動作物体の映像の表示位置と、音声位置推定手段により推定された各動作物体の音声の発生位置とを関連付け、合成映像生成手段は、関連付け手段により関連付けられた各動作物体の映像の表示位置および各動作物体の音声の発生位置に基づいて、映像位置検出手段により検出された各動作物体の映像の表示位置に対応する位置に、字幕生成手段により生成された各動作物体から発生される音声の字幕を配置することにより合成映像を生成してもよい。

この場合、複数の動作物体の映像に関する情報が映像情報として映像信号から取得され、各動作物体の映像の表示位置が取得された映像情報に基づいて検出される。

また、音声認識手段により各動作物体が識別され、取得された音声情報が識別された各動作物体に関連付けられ、各動作物体の音声の発生位置が各動作物体に関連付けられた音声情報に基づいて推定される。さらに、各動作物体から発生される音声の字幕が、取得された音声情報に基づいて生成される。

ここで、検出された各動作物体の映像の表示位置と、推定された各動作物体の音声の発生位置とが、関連付け手段により関連付けられる。

関連付けられた映像の表示位置および音声の発生位置に基づいて、各動作物体の映像の表示位置に対応する位置に、各動作物体から発生される音声の字幕が配置されることにより、合成映像が生成される。

これにより、字幕生成装置のユーザは、合成映像を視認することにより、複数の動作物体から音声が発生される場合でも、各動作物体の映像に対応する音声の字幕を容易かつ確実に識別することができる。

（３）各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の映像の表示位置に対応する位置が設定されてもよい。

この場合、合成映像生成手段により生成される合成映像においては、各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の音声の字幕が表示される。

これにより、字幕生成装置のユーザは、合成映像を視認することにより、各動作物体の映像に対応する音声の字幕を容易かつ確実に識別することができる。

（４）複数の動作物体は複数の人物を含み、音声情報は、各人物から発生される音声の周波数特性に関する情報を含み、音声認識手段は、音声の周波数特性に関する情報に基づいて、その音声を発生する各人物を識別してもよい。

この場合、音声認識手段により各人物から発生される音声の周波数特性が音声情報として取得される。各人物は、固有の音声の周波数特性を有する。したがって、音声の周波数特性に関する情報を用いることにより、その音声を発生する各人物を正確に識別することができる。

（５）音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報とを比較することにより、音声を発生する各人物を識別してもよい。

この場合、新たに取得された音声の周波数特性に関する情報と過去に取得された音声の周波数特性に関する情報とが比較される。この比較結果に基づいて音声を発生する各人物が識別されるので、各人物の識別が容易となる。

（６）音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報との一致の度合いを示す一致度が予め定められた基準値を超えるか否かを判定することにより、音声を発生する各人物を識別してもよい。

この場合、新たに取得された音声の周波数特性に関する情報と過去に取得された音声の周波数特性に関する情報との一致の度合いが一致度により示される。

一致度が予め定められた基準値を超えるか否かが判定されることにより、新たに取得された音声の周波数特性に関する情報が過去に取得された音声の周波数特性に関する情報と一致するか否かが判別される。したがって、基準値を調整することにより、各人物の識別精度を調整することが可能となる。

（７）映像情報は、各動作物体の映像の形状および大きさに関する情報を含み、映像認識手段は、各動作物体の映像の形状および大きさに関する情報に基づいて各動作物体を識別し、取得した映像情報を識別された各動作物体に関連付けてもよい。

この場合、映像認識手段により、各動作物体が各動作物体の映像の形状および大きさに関する情報に基づいて識別される。

このように、各動作物体の映像の形状および大きさに関する情報を用いることにより、各動作物体が正確に識別される。それにより、取得された映像情報が識別された各動作物体に正確に関連付けられる。

（８）映像情報は、各動作物体の映像の速度に関する情報を含み、映像認識手段は、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置を推定し、合成映像生成手段は、推定された各動作物体の所定時間経過後の映像の表示位置に対応する位置に、字幕生成手段により生成された各動作物体の音声の字幕を配置することにより合成映像を生成してもよい。

この場合、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置が推定される。そして、推定された映像の表示位置に対応する位置に、その動作物体の音声の字幕が配置された合成映像が生成される。

これにより、字幕生成装置のユーザは、合成映像において、複数の動作物体が移動しても、予め各動作物体の推定される移動位置に対応する位置に字幕が表示されるので、各動作物体の映像に対応する音声の字幕を容易かつ確実に識別することができる。

（９）字幕生成手段は、複数の動作物体から発生される音声を各動作物体で異なる色の文字で表現した字幕を生成してもよい。この場合、字幕生成装置のユーザは、合成映像を視認することにより、各動作物体から発生される音声がそれぞれ異なる色で表現されているので、各動作物体の映像に対応する音声の字幕をさらに容易かつ確実に識別することができる。

（１０）映像信号および音声信号はそれぞれ時間情報を含み、合成映像生成手段は、映像信号および音声信号の時間情報に基づいて、音声発生物体から音声が発生されるタイミングで、生成した字幕を映像に配置することにより、音声信号による音声の出力タイミングと字幕の表示タイミングとが一致するように合成映像を生成してもよい。

この場合、映像信号および音声信号の時間情報に基づいて、生成された字幕が映像に配置されることにより、音声信号による音声の出力タイミングと、字幕の表示タイミングとが一致した合成映像が生成される。これにより、字幕生成装置のユーザは、音声発生物体から音声が発生されるタイミングで確実に字幕を視認することができる。

（１１）映像信号および音声信号は、映像および音声により構成される番組のジャンルを示すジャンル情報を含み、字幕生成装置は、ジャンル情報を検出することにより番組のジャンルを判定するジャンル判定手段と、ジャンル判定手段により判定された番組のジャンルに応じて、映像認識手段による映像情報の取得動作、映像位置検出手段による音声発生物体の映像の表示位置の検出動作、音声認識手段による音声発生物体の音声情報の取得動作、および音声位置推定手段による音声発生物体の音声の発生位置の推定動作を調整する調整手段とをさらに備えてもよい。

この場合、ジャンル判定手段により、ジャンル情報に基づいて番組のジャンルを示すジャンル情報が判定される。判定されたジャンルに応じて、調整手段により映像認識手段による映像情報の取得動作、映像位置検出手段による音声発生物体の映像の表示位置の検出動作、音声認識手段による音声発生物体の音声情報の取得動作、および音声位置推定手段による音声発生物体の音声の発生位置の推定動作が調整される。

このように、番組を構成する映像および音声の特徴は、その番組のジャンルに応じて異なる。したがって、番組のジャンルに応じて映像情報の取得動作を調整することにより、高い精度で映像情報を取得することができる。

また、番組のジャンルに応じて映像位置検出手段による音声発生物体の映像の表示位置の検出動作を調整することにより、高い精度で音声発生物体の映像の表示位置の検出することができる。

さらに、番組のジャンルに応じて音声認識手段による音声発生物体の音声情報の取得動作を調整することにより、高い精度で音声情報を取得することができる。

また、番組のジャンルに応じて音声位置推定手段による音声発生物体の音声の発生位置の推定動作を調整することにより、高い精度で音声発生物体の音声の発生位置を推定することができる。

（１２）第２の発明に係る字幕生成方法は、映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成方法であって、映像信号に基づいて音声発生物体の映像に関する情報を映像情報として取得するステップと、取得された映像情報に基づいて音声発生物体の映像の表示位置を検出するステップと、音声信号に基づいて音声発生物体の音声に関する情報を音声情報として取得するステップと、取得された音声情報に基づいて音声発生物体の音声の発生位置を推定するステップと、取得された音声情報に基づいて、音声発生物体から発生される音声を文字で表現した字幕を生成するステップと、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とを関連付けるステップと、関連付けられた映像の表示位置および音声の発生位置に基づいて、検出された映像の表示位置に対応する位置に、生成された字幕を配置することにより合成映像を生成するステップとを備えるものである。

この字幕生成方法によれば、音声発生物体の映像に関する情報が映像情報として映像信号から取得され、音声発生物体の映像の表示位置が取得された映像情報に基づいて検出される。

ここで、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付けられる。

（１３）第３の発明に係る字幕生成プログラムは、映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および音声発生物体から発生された音声の字幕を含む合成映像を生成する処理装置読み取り可能な字幕生成プログラムであって、映像信号に基づいて音声発生物体の映像に関する情報を映像情報として取得する処理と、取得された映像情報に基づいて音声発生物体の映像の表示位置を検出する処理と、音声信号に基づいて音声発生物体の音声に関する情報を音声情報として取得する処理と、取得された音声情報に基づいて音声発生物体の音声の発生位置を推定する処理と、取得された音声情報に基づいて、音声発生物体から発生される音声を文字で表現した字幕を生成する処理と、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とを関連付ける処理と、関連付けられた映像の表示位置および音声の発生位置に基づいて、検出された映像の表示位置に対応する位置に、生成された字幕を配置することにより合成映像を生成する処理とを、処理装置に実行させるものである。

この字幕生成プログラムによれば、音声発生物体の映像に関する情報が映像情報として映像信号から取得され、音声発生物体の映像の表示位置が取得された映像情報に基づいて検出される。

この発明に係る字幕生成装置、字幕生成方法および字幕生成プログラムによれば、映像信号に基づいて音声発生物体の映像の表示位置が検出され、音声信号に基づいて音声発生物体の音声の発生位置が推定される。そして、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付けられる。

以下、本発明の一実施の形態に係る字幕生成装置について説明する。

（１）字幕生成装置の構成
図１は、本発明の一実施の形態に係る字幕生成装置の構成を説明するためのブロック図である。図１に示すように、本発明の一実施の形態に係る字幕生成装置２００には、映像音声入力装置１００、映像出力装置３００および音声出力装置４００が接続される。

映像音声入力装置１００は、例えばチューナを備える放送受信装置である。この場合、映像音声入力装置１００は、デジタル放送を受信することにより、選局された放送局の放送信号を抽出し、その放送信号から映像信号Ｖ１および音声信号Ａ１を分離する。なお、映像音声入力装置１００はアナログ放送を受信してもよい。

映像音声入力装置１００は、映像信号Ｖ１および音声信号Ａ１を字幕生成装置２００に与える。字幕生成装置２００は、与えられた映像信号Ｖ１および音声信号Ａ１に基づいて字幕映像信号ＷＳを生成し、映像信号Ｖ１に重畳する。これにより、字幕合成映像信号ＷＶが生成される。

字幕生成装置２００は、字幕合成映像信号ＷＶを映像出力装置３００へ出力する。また、字幕生成装置２００は、字幕合成映像信号ＷＶと同期する音声信号Ａ１を音声出力装置４００へ出力する。

映像出力装置３００は、例えば液晶ディスプレイパネルまたはプラズマディスプレイパネルにより構成される。これにより、映像出力装置３００が備える画面上に、字幕合成映像信号ＷＶに基づいて字幕が付加された映像が表示される。音声出力装置４００は、例えばスピーカにより構成される。これにより、音声信号Ａ１に基づく音声が音声出力装置４００から出力される。

字幕生成装置２００の構成を説明する。図１に示すように、字幕生成装置２００は、バッファ部１、同期信号検出部２、映像／音声認識部３、制御部４、映像／音声分類部５、文章生成部６、文字合成部７、ビデオメモリ８および字幕合成部９を含む。

字幕生成装置２００において、映像音声入力装置１００から与えられる映像信号Ｖ１および音声信号Ａ１は、ともにバッファ部１、同期信号検出部２および映像／音声認識部３に与えられる。

バッファ部１は、フレームメモリ等からなり、与えられた映像信号Ｖ１および音声信号Ａ１をフレーム単位で一時的に蓄積する。同期信号検出部２は、映像信号Ｖ１および音声信号Ａ１に含まれるヘッダからフレームごとの同期信号を時間情報ＳＹとして抽出し、制御部４へ与える。

映像／音声認識部３は、映像認識部３ａおよび音声認識部３ｂを備える。映像認識部３ａは、与えられた映像信号Ｖ１に基づいて後述する映像認識処理を行う。これにより、映像認識情報ＩＦ１が得られる。また、音声認識部３ｂは、与えられた音声信号Ａ１に基づいて後述する音声認識処理を行う。これにより、音声認識情報ＩＦ２が得られる。映像認識情報ＩＦ１および音声認識情報ＩＦ２は制御部４に与えられる。

映像認識情報ＩＦ１とは、映像信号Ｖ１に基づいて映像出力装置３００の画面上に表示される映像に関する情報をいい、映像中の背景ならびに動作物体の位置および表示面積等の情報が含まれる。

また、音声認識情報ＩＦ２とは、音声信号Ａ１に基づいて音声出力装置４００から出力される音声に関する情報をいい、音声種類（台詞、効果音、騒音およびノイズ等）、および音声源の推定位置等の情報が含まれる。

音声種類が台詞である場合には、音声認識処理により音声信号Ａ１が音声を一文字単位で表す文字コードに変換される。そして、連続する文字コードは、音声認識処理により文章（または文節）単位で区切られる。

さらに、音声認識処理時には、一文字単位の文字コードの音声に関して周波数特性も取得される。映像認識情報ＩＦ１および音声認識情報ＩＦ２の詳細は後述する。

制御部４は、例えばＣＰＵ（中央演算処理装置）およびメモリ等の記憶装置４Ｒから構成される。制御部４は、字幕生成装置２００の各構成部の動作を制御する。なお、記憶装置４Ｒは制御部４の外部に設けられてもよい。

制御部４において、同期信号検出部２から与えられる時間情報ＳＹならびに映像／音声認識部３から与えられる映像認識情報ＩＦ１および音声認識情報ＩＦ２が記憶装置４Ｒに記憶される。

映像／音声分類部５は、映像分類部５ａおよび音声分類部５ｂを備える。映像分類部５ａは、記憶装置４Ｒに記憶された映像認識情報ＩＦ１に基づいて映像分類処理を行う。

映像分類処理では、認識された動作物体ごとに映像認識情報ＩＦ１が分類されることにより映像分類情報ＣＴ１が生成される。映像分類情報ＣＴ１は、記憶装置４Ｒ内に設けられた映像分類テーブルに格納される。映像分類処理の詳細は後述する。

音声分類部５ｂは、記憶装置４Ｒに記憶された音声認識情報ＩＦ２に基づいて後述する音声分類処理を行う。

音声分類処理では、認識された音声源ごとに音声認識情報ＩＦ２が分類されることにより音声分類情報ＣＴ２が生成される。音声分類情報ＣＴ２は、記憶装置４Ｒ内に設けられた音声分類テーブルに格納される。音声分類処理の詳細は後述する。

制御部４は、映像分類情報ＣＴ１および音声分類情報ＣＴ２に基づいて、動作物体と音声源とを関連付ける紐付け処理を行う。

この紐付け処理は、例えば映像認識処理により認識された映像上の動作物体の位置を空間座標系に展開したときの座標値と、音声認識処理により認識された音声源の推定位置を空間座標系に展開したときの座標値とを比較することにより行う。

制御部４は、映像上の動作物体から得られる座標値と、推定される音声源の座標値とが近い場合、すなわち所定のしきい値以下である場合に、それらの動作物体と音声源とが同一であると認識する。

このようにして、制御部４は、紐付け処理により、映像認識処理により認識された映像上の動作物体と、音声認識処理により認識された音声源とを関連付けする。そして、音声源ごとに分類された文字コードが、各動作物体に関連付けされる。詳細は後述する。

文章生成部６は、記憶装置４Ｒの音声分類テーブルから文字コードを取得するとともに、連続する文字コードについて仮名漢字変換を行うことにより字幕文章信号ＷＣを生成し、制御部４に与える。

記憶装置４Ｒ内には、字幕の文章、その表示時間および表示位置等の情報を格納する文章生成テーブルが設けられている。制御部４は、時間情報ＳＹ、字幕文章信号ＷＣ、映像分類情報ＣＴ１および音声分類情報ＣＴ２から、字幕の映像をフレーム単位で生成するための情報を抽出し、文章生成テーブルに格納する。詳細は後述する。

文字合成部７は、文章生成テーブルに格納された情報に基づいて字幕映像信号ＷＳを生成し、制御部４に与える。制御部４は、与えられた字幕映像信号ＷＳをビデオメモリ８に記憶する。

ビデオメモリ８は、例えば２フレーム分の字幕映像信号ＷＳを保持できるフレームメモリを備え（ダブルバッファ構造）、制御部４から与えられる字幕映像信号ＷＳをフレーム単位で一時的に記憶する。

ビデオメモリ８に記憶されたフレーム単位の字幕映像信号ＷＳは、制御部４によりバッファ部１へ送られる。これにより、バッファ部１には、フレーム単位の映像信号Ｖ１および音声信号Ａ１に加えて字幕映像信号ＷＳが蓄積される。

制御部４は、時間情報ＳＹに基づいて映像信号Ｖ１、音声信号Ａ１および字幕映像信号ＷＳの出力をバッファ部１に指令する。これにより、映像信号Ｖ１および字幕映像信号ＷＳが字幕合成部９に入力される。

字幕合成部９は、映像信号Ｖ１に字幕映像信号ＷＳを重畳することにより字幕が付加された映像を示す字幕合成映像信号ＷＶをフレーム単位で生成する。上述のように、生成された字幕合成映像信号ＷＶは映像出力装置３００に出力される。また、字幕合成映像信号ＷＶに同期する音声信号Ａ１が音声出力装置４００に出力される。

（２）字幕生成装置の動作フロー
図２は、図１の字幕生成装置２００が行う一連の動作を示すフローチャートである。字幕生成装置２００は、初めに図１の映像音声入力装置１００から与えられる映像信号Ｖ１および音声信号Ａ１から時間情報ＳＹを取得する（ステップＳ１１）。

次に、字幕生成装置２００は、フレーム単位で映像信号Ｖ１を蓄積する（ステップＳ２１）。また、字幕生成装置２００は、フレーム単位で音声信号Ａ１を蓄積する（ステップＳ３１）。さらに、字幕生成装置２００は、映像信号Ｖ１に対して、音声信号Ａ１に基づく字幕を重畳するための字幕生成処理を行う（ステップＳ４０）。これらのステップＳ２１，Ｓ３１，Ｓ４０の動作は並行して行われる。

字幕生成処理の詳細な動作フローは次の通りである。字幕生成装置２００は、与えられた映像信号Ｖ１に基づいて映像認識処理を行った後（ステップＳ４１）、映像分類処理を行う（ステップＳ４２）。これにより、上述の映像分類情報ＣＴ１が得られる。

ステップＳ４１，Ｓ４２の動作と並行して、字幕生成装置２００は、与えられた音声信号Ｖ２に基づいて音声認識処理を行った後（ステップＳ５１）、音声分類処理を行う（ステップＳ５２）。これにより、上述の音声分類情報ＣＴ２が得られる。ステップＳ４１，Ｓ５１およびステップＳ４２，Ｓ５２の動作は、それぞれ並行して行われる。

その後、字幕生成装置２００は、映像分類情報ＣＴ１および音声分類情報ＣＴ２に基づいて、紐付け処理を行い、映像上の動作物体と音声源とを関連付ける（ステップＳ４３）。

なお、字幕生成装置２００による紐付け処理は、ステップＳ４１，Ｓ４２，Ｓ５１，Ｓ５２の動作と並行して行われてもよい。

例えば、字幕生成装置２００は、映像認識情報ＩＦ１に含まれる動作物体の情報と、音声認識情報ＩＦ２に含まれる音声源の情報とを紐付け処理により関連付ける。

その後、字幕生成装置２００は、音声分類情報ＣＴ２に基づいて画面に表示する字幕の文章を生成する（ステップＳ４４）。すなわち、字幕生成装置２００は、連続する文字コードを漢字および仮名に変換する。

続いて、字幕生成装置２００は、画面上に表示すべき字幕の映像（字幕映像信号ＷＳ）をフレーム単位で作成し（ステップＳ４５）、蓄積する（ステップＳ４６）。

上記のステップＳ４１〜ステップＳ４６およびステップＳ５１，Ｓ５２の動作がステップＳ４０の字幕生成処理を構成する。

次に、字幕生成装置２００は、映像信号Ｖ１および音声信号Ａ１から得られる時間情報ＳＹの同期信号に基づいて、蓄積された映像信号Ｖ１、音声信号Ａ１および字幕映像信号ＷＳの出力タイミングを決定し、決定したタイミングで各信号を出力する（ステップＳ４７）。

字幕生成装置２００は、各信号を出力するとともに、その出力時に映像信号Ｖ１および字幕映像信号ＷＳの合成を行う（ステップＳ６１）。これにより、上述の字幕合成映像信号ＷＶが生成され、出力される。ステップＳ４７およびステップＳ６１の動作後、字幕生成装置２００は、ステップＳ１１の動作に戻る。

なお、図２に示すように、字幕生成装置２００に与えられる映像信号Ｖ１および音声信号Ａ１が、デジタル信号である場合には、それぞれの信号Ｖ１，Ａ１に含まれるヘッダから、時間情報ＳＹが取得される。それにより、映像信号Ｖ１および音声信号Ａ１の各々の時間情報ＳＹが取得される。

これに対して、字幕生成装置２００に与えられる映像信号Ｖ１および音声信号Ａ１がアナログ信号である場合、字幕生成装置２００は映像信号Ｖ１に含まれる同期信号を取得する。

そして、字幕生成装置２００は制御部４に内蔵されるタイマをオンする。これにより、字幕生成装置２００は、映像信号Ｖ１から入力される同期信号および制御部４のタイマで計測される時間に基づいて音声信号Ａ１の時間情報ＳＹを取得する。時間情報ＳＹは、紐付け処理、ならびに映像信号Ｖ１、音声信号Ａ１および字幕映像信号ＷＳの出力タイミング等を算出するために用いられる。

なお、図２のフローチャートは、字幕生成装置２００内の各構成部の動作を示しているが、上記のフローチャートで示されるプログラムを記憶装置４Ｒに記憶させることにより、制御部４のＣＰＵが記憶装置４Ｒに記憶されたプログラムに基づいて各構成部の動作を制御してもよい。

以下、映像認識処理、音声認識処理、映像分類処理および音声分類処理の詳細について、具体例を示しつつ説明する。

（３）字幕生成装置の動作例
図３は、音声認識情報ＩＦ２および音声分類情報ＣＴ２を説明するための図である。

図３（ａ）に、映像出力装置３００の画面ＳＣ１に複数の人物Ｐ１，Ｐ２，Ｐ３およびヘリコプターＨＣが表示され、複数の人物Ｐ１，Ｐ２，Ｐ３により台詞Ｓ１，Ｓ２，Ｓ３がそれぞれ発声され、ヘリコプターＨＣから飛行音Ｅ１が発生される様子が示されている。このような番組の映像信号Ｖ１および音声信号Ａ１が字幕生成装置２００に入力される場合を説明する。

図３（ａ）の番組では、複数の人物Ｐ１，Ｐ３，Ｐ２がこの符号の順に画面ＳＣ１の左端から中央にかけて並ぶとともに、画面ＳＣ１の右端にヘリコプターＨＣが位置している。台詞Ｓ１，Ｓ２，Ｓ３は、この符号の順で複数の人物Ｐ１，Ｐ２，Ｐ３から発声される。

図３（ａ）の番組の映像信号Ｖ１および音声信号Ａ１が字幕生成装置２００に入力される。この場合、音声認識部３ｂにより音声認識処理が行われ、例えば図３（ｂ）に示す音声認識情報ＩＦ２が生成される。

図３（ｂ）に示すように、本例では、音声認識情報ＩＦ２に、音声の種類が含まれる。図３（ｂ）では、音声の種類として「効果音」、「騒音」、「台詞」および「ノイズ」が例示されている。

音声の種類は、音声信号Ａ１から得られる音声の周波数特性および音量（振幅）等に基づいて図１の音声認識部３ｂにより識別される。本例では、音声認識部３ｂにより、人物Ｐ１，Ｐ２，Ｐ３から発せられる音声が台詞と識別され、ヘリコプターＨＣから発せられる音声が騒音と識別される。

そして、音声認識部３ｂは、台詞と識別された音声の文字コードへの変換とともに、連続する文字コードを文章ごとに区切る作業を行う。また、音声認識部３ｂは、台詞と識別された音声について、文字コードの一文字単位で周波数特性等を取得する。詳細は後述する。

なお、音声認識部３ｂは、台詞以外の種類に識別された音声について、文字コードへの変換を行ってもよい。

さらに、映像音声入力装置１００によりステレオ放送が受信される場合、音声認識部３ｂは、２チャンネルのステレオ音声信号に基づいて音声源の位置を推定する。例えば、一方のチャンネルと他方のチャンネルとで同じ周波数特性を有する音声信号の振幅を比較することにより音声源の位置を推定する。

それにより、図３（ｂ）に示すように、「騒音：バリバリ・・・」の音声源が画面ＳＣ１の右端に位置し、「台詞：こんにちは」の音声源が画面ＳＣ１の左端に位置し、「台詞：わたしはぴーつーです」の音声源が画面ＳＣ１のやや左側に位置し、「台詞：はじめまして」の音声源が画面ＳＣ１の中央に位置することが推定される。

このように、音声認識部３ｂによる音声認識処理が行われることにより、図３（ｂ）の音声認識情報ＩＦ２が記憶装置４Ｒに記憶される。その後、音声分類部５ｂにより音声分類処理が行われる。

図３（ｃ）に、図３（ｂ）の音声認識情報ＩＦ２に基づいて生成される音声分類情報ＣＴ２の一例が示されている。

音声分類部５ｂは、音声信号Ａ１から得られる音声の周波数特性、または推定される音声源の位置情報に基づいて、音声認識情報ＩＦ２により識別された「台詞：こんにちは」、「台詞：わたしはぴーつーです」および「台詞：はじめまして」を、それぞれ異なる人物により発声された台詞であると識別する。この識別方法の具体例は後述する。

そこで、音声分類部５ｂは、上記の台詞に対応する人物を仮に人物Ｑ１，Ｑ２，Ｑ３として認識し、これらの人物に種々の情報を対応付ける。

例えば、音声分類部５ｂは、音声認識処理により得られた「台詞：こんにちは」の文字コード、「台詞：わたしはぴーつーです」の文字コード、および「台詞：はじめまして」の文字コードを人物Ｑ１，Ｑ２，Ｑ３に対応付けるとともに、各台詞に対応する音声源の推定位置を人物Ｑ１，Ｑ２，Ｑ３に対応付ける。

さらに、音声分類部５ｂは、各台詞の字幕の表示時間を時間情報ＳＹに基づいて人物Ｑ１，Ｑ２，Ｑ３ごとに設定し、分類する。また、音声分類部５ｂは、各台詞の字幕の表示色を、人物Ｑ１，Ｑ２，Ｑ３ごとに設定し、分類する。

このようにして音声分類処理が行われ、音声分類情報ＣＴ２が生成される。音声分類情報ＣＴ２は記憶装置４Ｒの音声分類テーブルに格納される。

ここで、図１の制御部４による紐付け処理が行われる。このときの紐付け処理について説明する。

本例では、映像認識処理により、図３（ａ）に示したように、複数の人物Ｐ１，Ｐ３，Ｐ２がこの順で画面ＳＣ１の左端から中央にかけて並ぶ旨が認識される。これにより、制御部４は、映像認識処理により認識される人物Ｐ１，Ｐ２，Ｐ３の画面上での位置と、音声分類情報ＣＴ２として記憶された仮の人物Ｑ１，Ｑ２，Ｑ３の推定位置とを比較する。

それにより、制御部４は、映像上の動作物体として認識した人物Ｐ１，Ｐ２，Ｐ３と、仮の人物Ｑ１，Ｑ２，Ｑ３とを関連付ける。このようにして、紐付け処理により、映像上の動作物体である人物Ｐ１，Ｐ２，Ｐ３と、各人物の台詞である音声とが関連付けされる。

図４は、文章生成テーブル、字幕映像信号ＷＳに基づく映像および字幕合成映像を説明するための図である。

上述のように、図１の文章生成部６は、音声認識処理により変換された文字コードの仮名漢字変換を行い、字幕文章信号ＷＣを生成する。生成された字幕文章信号ＷＣは、図４（ａ）に示すように、記憶装置４Ｒの文章生成テーブルに格納される。

ここで、制御部４は、字幕を表示すべき画面上の位置（字幕位置）を設定する。図４（ａ）では、映像出力装置３００の画面上に２次元座標系を定義することにより、字幕位置が座標値で表示されている。

なお、制御部４は、上記の紐付け処理を行う際に、図３（ａ）の画面右端に表示されるヘリコプターＨＣと図３（ｂ）の「騒音：バリバリ・・・」の音声源との紐付け処理を行ってもよい。この場合、制御部４は、騒音の字幕位置を設定することができる。

図４（ｂ）に、字幕映像信号ＷＳに基づく映像の一例が示されている。なお、本例では、字幕の表示時間は考慮しない。図４（ｂ）では、字幕文章信号ＷＣに基づく字幕が文字列Ｃ１，Ｃ２，Ｃ３で示されている。これらの文字列Ｃ１，Ｃ２，Ｃ３は、図３の台詞Ｓ１，Ｓ２，Ｓ３から生成されたものであり、図３の人物Ｐ１，Ｐ２，Ｐ３に関連付けされている。

また、図３のヘリコプターＨＣの飛行音Ｅ１から生成された字幕文章信号ＷＣに基づく字幕が文字列ＣＸで示されている。なお、各文字列Ｃ１，Ｃ２，Ｃ３，ＣＸは、それぞれ文章生成テーブルで設定された表示色で表示される。

図４（ｂ）の字幕映像信号ＷＳと映像信号Ｖ１とが合成されることにより、字幕合成映像信号ＷＶが生成され、映像出力装置３００の画面ＳＣ１上に図４（ｃ）に示すような字幕合成映像が表示される。

（４）音声認識処理および音声分類処理の一例
図１の音声認識部３ｂによる音声認識処理および音声分類部５ｂによる音声分類処理の一例を説明する。図５は、図１の音声認識部３ｂによる音声認識処理および音声分類部５ｂによる音声分類処理の一例を示す図である。

以下の説明では、音声認識部３ｂに図３および図４で説明した人物Ｐ１，Ｐ２，Ｐ３の台詞Ｓ１，Ｓ２，Ｓ３を含む音声信号Ａ１が与えられるものとする。

音声認識部３ｂは、音声信号Ａ１が与えられることにより音声認識処理として、例えば以下の処理を行う。

図５（ａ）に示すように、音声認識部３ｂは、与えられた音声信号Ａ１を文字コードに変換する。

ここで、音声認識部３ｂは、さらに文字コードの一文字単位で音声の周波数特性を取得する。そして、取得した周波数特性に基づいて、連続する文字コードに変換された音声の種類を識別する。本例では、連続する文字コード「は、じ、め、ま、し、て、わ、た、・・」に変換された音声の種類が「台詞」であると識別される。

上述のように、音声認識部３ｂの音声認識処理により得られた文字コード、周波数特性および音声の種類は、音声認識情報ＩＦ２として図１の記憶装置４Ｒに記憶される。

音声分類部５ｂは、記憶装置４Ｒに記憶された音声認識情報ＩＦ２に基づく音声分類処理として、例えば以下の処理を行う。

初めに、音声分類部５ｂは、連続する文字コードから文章を識別し、文章ごとに文字コードを分離する。文章の識別は、日本語入力プログラム等により一般的に用いられる方法により行われる。

図５（ｂ）に音声分類部５ｂによる音声分類処理の一例が示されている。図５（ｂ）に示すように、音声分類部５ｂは、初めの文章を表す文字コード「はじめまして」と次の文章を表す文字コード「わたしはぴーつーです」とを分離する。

このように、音声分類部５ｂは、文章ごとに文字コードを分離し、分離した各文章の文字コードに同じ文字が存在するか否かを判別する。

図５（ｂ）の例では、初めの文章の文字コードと次の文章の文字コードとの間で、文字「し」が共通して用いられている。

このとき、音声分類部５ｂは、初めの文章の文字「し」に対応する周波数特性（声紋）と、次の文章の文字「し」に対応する周波数特性とを記憶装置４Ｒに記憶された音声認識情報ＩＦ２から抽出する。

なお、音声分類部５ｂは各文章の文字コードに同じ文字が存在しない場合でも、初めの文章の文字コードと次の文章の文字コードとの間で共通の母音を有する文字が存在する場合には、それらの文字に対応する周波数特性を抽出してもよい。

そして、音声分類部５ｂは、初めの文章の文字から抽出した周波数特性を基準として、次の文章の文字から抽出した周波数特性を対比する。

周波数特性の対比は、例えば、周波数分布の対比、中心周波数の対比等により行われる。音声分類部５ｂは、基準となる周波数特性（以下、基準周波数特性と呼ぶ）と対比の対象となる周波数特性（以下、対比周波数特性と呼ぶ）との間での一致の度合いを示すパラメータを一致率として定義する。

そこで、音声分類部５ｂは、さらに一致率についてしきい値を設定する。例えば、基準周波数特性と対比周波数特性とが完全に一致するときの一致率が１００％であり、基準周波数特性と対比周波数特性とがほぼ一致するとみなすことが可能な一致率が７０％である場合に、しきい値を７０％に設定する。

この場合、音声分類部５ｂは、基準周波数特性と対比周波数特性との間の一致率が７０％以上である場合に、初めの文章の文字コードと次の文章の文字コードとが同一の人物の台詞から取得されたものであると判別する。

また、音声分類部５ｂは、一致率が７０％よりも低い場合に、初めの文章の文字コードと次の文章の文字コードとが異なる人物の台詞から取得されたものであると判別する。

図５（ｂ）の例では、基準周波数特性と対比周波数特性との比較の結果、一致率が４０％となっている。この場合、音声分類部５ｂは、初めの文章の文字コードと次の文章の文字コードとが異なる人物の台詞から取得されたものであると判別する。

図５（ｂ）の例に示すように、初めの文章と次の文章とで発声する人物が異なると判別された場合、音声分類部５ｂは、初めの文章の文字コードおよびその周波数特性を例えば第１の人物に属する第１の文字コードおよび第１の周波数特性として音声分類テーブルに記憶し、次の文章の文字コードおよびその周波数特性を例えば第２の人物に属する第２の文字コードおよび第２の周波数特性として音声分類テーブルに記憶する。

音声分類部５ｂは、さらに次の文章が存在する場合、その文章の文字コードおよび周波数特性を、第１の文字コードおよび第１の周波数特性と比較し、第２の文字コードおよび第２の周波数特性と比較する。

音声分類部５ｂは、その文章がさらに他の人物の台詞から取得されたと判別することにより、その文章の文字コードおよびその周波数特性を例えば第３の人物に属する第３の文字コードおよび第３の周波数特性として音声分類テーブルに記憶する。

このようにして、音声分類部５ｂは、文章の文字コードおよびその周波数特性を、その文章を発声する人物とともに音声分類テーブルに記憶し、記憶した文字コードおよびその周波数特性に基づいて、台詞を発声する人物を識別する。

（５）複数の人物が発声する際の音声認識処理および音声分類処理の一例
図６〜図１１は、複数の人物が台詞を発声する際に図１の字幕生成装置２００で行われる音声認識処理および音声分類処理の一例を説明するための図である。なお、以下の説明では、台詞を発声する人物の識別時に用いられる一致率のしきい値は７０％に設定されているものとする。

図６（ａ）に、人物Ａが表示された映像出力装置３００（図１）の画面ＳＣ１と人物Ａが発声する台詞とが示されている。上述のように、映像信号Ｖ１および音声信号Ａ１が与えられることにより字幕生成装置２００の音声認識部３ｂは、音声信号Ａ１を文字コードに変換し、文字コードの一文字ごとに音声の周波数特性を取得する。

そして、音声分類部５ｂは、初めの文章を表す文字コード「びいさんしいさん・・・」およびその周波数特性を人物Ａにより発声された台詞として一文字ごとに音声分類テーブルに記憶する。

そして、映像信号Ｖ１により得られる人物Ａの映像と、音声分類テーブルに記憶された人物Ａとが、制御部４により紐付けされる。その結果、映像出力装置３００の画面ＳＣ１には、図６（ｂ）に示すように、人物Ａの映像の近傍に人物Ａの発声した台詞の字幕が表示される。

なお、紐付け処理は音声分類部５ｂにより行われてもよい。この場合、音声分類テーブルに画面上の人物Ａの位置、または字幕位置が記憶される。

続いて、図７（ｃ）に、人物Ａに加えて人物Ｂが登場するときの映像出力装置３００の画面ＳＣ１と人物Ａが発声する台詞とが示されている。この場合、音声認識部３ｂにより、人物Ａに属する文章の文字コードおよびその周波数特性が取得される。

そこで、音声分類部５ｂは、音声分類テーブルに人物Ａの台詞として記憶された文章の文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びいさんこんにちは」およびその周波数特性を一文字ずつ対比する。

本例では、音声分類部５ｂは、初めの文章および新たな文章に共通して用いられる文字「び」について、周波数特性の比較を行う。この比較は、初めの文章から取得される周波数特性を基準周波数特性とし、新たな文章から取得される周波数特性を対比周波数特性として行う。

その結果、同じ一文字の一致率がしきい値（７０％）よりも大きい８０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びいさんこんにちは」およびその周波数特性が人物Ａの台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ａにより発声されたものと判別する。

この場合、映像出力装置３００の画面ＳＣ１には、図７（ｄ）に示すように、人物Ａの映像の近傍に人物Ａの発声した新たな台詞の字幕が表示される。

図８（ｅ）に、人物Ａおよび人物Ｂが表示された映像出力装置３００の画面ＳＣ１と人物Ｂが発声する台詞とが示されている。この場合、音声認識部３ｂにより、人物Ｂに属する文章の文字コードおよびその周波数特性が取得される。

そこで、音声分類部５ｂは、音声分類テーブルに人物Ａの台詞として記憶された文章の文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びいです」およびその周波数特性を一文字ずつ対比する。

同じ一文字の一致率がしきい値（７０％）よりも小さい３０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びいさんこんにちは」およびその周波数特性が人物Ａと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ａにより発声されたものではないと判別する。

この場合、音声分類部５ｂは、図８（ｆ）に示すように、新たに取得された文章の文字コード「びいです」およびその周波数特性を人物Ｂにより発声された台詞として音声分類テーブルに記憶する。

これにより、音声分類テーブルに人物Ａおよび人物Ｂの２人の音声に基づく文字コードおよびその周波数特性が記憶される。

そして、映像信号Ｖ１により得られる人物Ｂの映像と、音声分類テーブルに記憶された人物Ｂとが、制御部４により紐付けされる。その結果、映像出力装置３００の画面ＳＣ１には、図８（ｇ）に示すように、人物Ｂの映像の近傍に人物Ｂの発声した台詞の字幕が表示される。

ここでも、紐付け処理は音声分類部５ｂにより行われてもよい。この場合、音声分類テーブルに画面上の人物Ｂの位置、または字幕位置が記憶される。

図９（ｈ）に、人物Ａおよび人物Ｂが表示された映像出力装置３００の画面ＳＣ１と画面ＳＣ１に表示されない人物Ｃが発声する台詞とが示されている。この場合、音声認識部３ｂにより、人物Ｃに属する文章の文字コードおよびその周波数特性が取得される。

そこで、音声分類部５ｂは、音声分類テーブルに人物Ａの台詞として記憶された文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文字コード「びいさんまつ・・・」およびその周波数特性を一文字ずつ対比する。

同じ一文字の一致率がしきい値（７０％）よりも小さい５０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びいさんまつ・・・」およびその周波数特性が人物Ａと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ａにより発声されたものではないと判別する。

また、音声分類部５ｂは、音声分類テーブルに人物Ｂの台詞として記憶された文字コード「びいです」およびその周波数特性を基準として、新たに取得された文字コード「びいさんまつ・・・」およびその周波数特性を一文字ずつ対比する。

同じ一文字の一致率がしきい値（７０％）よりも小さい２０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びいさんまつ・・・」およびその周波数特性が人物Ｂと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ｂにより発声されたものではないと判別する。

この場合、音声分類部５ｂは、図９（ｉ）に示すように、新たに取得された文章の文字コード「びいさんまつ・・・」およびその周波数特性を人物Ｃにより発声された台詞として音声分類テーブルに記憶する。

これにより、音声分類テーブルに人物Ａ、人物Ｂおよび人物Ｃの３人の音声に基づく文字コードおよびその周波数特性が記憶される。

その後、紐付け処理が行われるが、本例では、音声分類テーブルで記憶される人物Ｃが画面上に存在しない。この場合、文章生成部６は、音声分類テーブルに記憶された文字コードの音声源が画面上に存在しないと判別する。そして、文章生成部６は、字幕位置を画面上の所定の領域（標準位置）に決定する。

これにより、図１０（ｊ）に示すように、画面上に存在しない人物Ｃにより発声された台詞の字幕は画面上の標準位置ＮＰに表示される。紐付け処理が音声分類部５ｂにより行われる場合には、音声分類部５ｂが字幕位置を標準位置ＮＰに決定する。

図１０（ｋ）に、人物Ａおよび人物Ｂに加えて人物Ｃが登場するときの映像出力装置３００の画面ＳＣ１と人物Ｃが発声する台詞とが示されている。この場合、音声認識部３ｂにより、人物Ｃに属する文章の文字コードおよびその周波数特性が取得される。

そこで、音声分類部５ｂは、音声分類テーブルに人物Ａの台詞として記憶された文章の文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性を一文字ずつ対比する。

同じ一文字の一致率がしきい値（７０％）よりも小さい５０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性が人物Ａと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ａにより発声されたものではないと判別する。

また、音声分類部５ｂは、音声分類テーブルに人物Ｂの台詞として記憶された文章の文字コード「びいです」およびその周波数特性を基準として、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性を一文字ずつ対比する。

同じ一文字の一致率がしきい値（７０％）よりも小さい２０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性が人物Ｂと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ｂにより発声されたものではないと判別する。

さらに、音声分類部５ｂは、音声分類テーブルに人物Ｃの台詞として記憶された文章の文字コード「びいさんまつ・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性を一文字ずつ対比する。

同じ一文字の一致率がしきい値（７０％）よりも大きい９０％である場合、音声分類部５ｂは、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性が人物Ｃの台詞から取得されたと判別する。すなわち、音声分類部５ｂは、新たな台詞が人物Ｃにより発声されたものと判別する。

その結果、映像出力装置３００の画面ＳＣ１には、図１１（ｌ）に示すように、人物Ｃの映像の近傍に人物Ｃの発声した新たな台詞の字幕が表示される。

なお、人物ごとに、音声分類部５ｂは、複数の文章の文字コードおよびその周波数特性を記憶装置４Ｒに記憶してもよい。このように、人物ごとに記憶される文字コードおよびその周波数特性を蓄積することにより、音声源となる人物の誤認識が蓄積とともに徐々に低減される。

（６）音声認識処理および音声分類処理の他の例
臨場感のある音声を出力するために、３個以上の複数のスピーカを備える音声出力装置４００が開発されている。この音声出力装置４００には、例えば各スピーカから独立の音声を出力させることができる音声信号Ａ１が与えられる。以下の説明では、３チャンネル以上の音声信号Ａ１をサラウンド音声信号と総称する。

図１２は、サラウンド音声信号を生成するための音声の収録方法の一例を説明するための図である。図１２に示すように、番組を収録する際に、例えば番組の収録現場で分散するように複数のマイクＭ１〜Ｍ５が配置される。

ここで、図１２の左上に、３つの矢印で示すように、番組の収録現場内で互いに直交する３方向をＸ方向、Ｙ方向およびＺ方向と定義する。

分散するようにマイクＭ１〜Ｍ５が配置されることにより、各マイクＭ１〜Ｍ５で収録される音声（例えば、音量等）は異なる。

図１２では、Ｘ方向における一方側（紙面左側）から順に人物Ａ，Ｃ，Ｂが並ぶとともに、人物Ａが台詞Ｓ１として「剣道です」と発声し、人物Ｂが台詞Ｓ２として「いきますね」と発声し、人物Ｃが台詞Ｓ３として「さあこい」と発声する様子が示されている。各人の発声音量はともに同じであるものとする。

図１２において、人物Ａは、マイクＭ４の近傍に位置する。この場合、マイクＭ４は人物Ａの台詞Ｓ１を高い音量で取得する。一方、人物Ｃは、人物ＡよりもマイクＭ４から離れた場所に位置する。この場合、マイクＭ４は人物Ｃの台詞Ｓ３を人物Ａの台詞Ｓ１よりも低い音量で取得する。

また、人物Ｂは、人物Ａおよび人物ＣよりもマイクＭ４から離れた場所に位置する。この場合、マイクＭ４は人物Ｂの台詞Ｓ２を人物Ａおよび人物Ｃの台詞Ｓ１および台詞Ｓ３よりも低い音量で取得する。

これに対して、人物Ｂの近傍に位置するマイクＭ５は人物Ｂの台詞Ｓ２を高い音量で取得し、人物Ｃの台詞Ｓ３を人物Ｂの台詞Ｓ２よりも低い音量で取得し、人物Ａの台詞Ｓ１を人物Ｂおよび人物Ｃの台詞Ｓ２および台詞Ｓ３よりも低い音量で取得する。

このように収録されたサラウンド音声信号が、字幕生成装置２００に入力される。このとき、図１の音声認識部３ｂは、例えば、複数のマイクＭ１〜Ｍ５で取得される個々の音声源からの音声の差異をサラウンド音声信号から取得する。これにより、音声認識部３ｂは、音声の差異に基づいて音声源の位置を正確に推定することが可能となる。

それにより、推定される音声源の位置をＸ方向、Ｙ方向およびＺ方向からなる３次元座標系に展開し、展開により得られた座標値を音声分類情報ＣＴ２として音声分類テーブルに格納することができる。

その結果、音声認識処理により推定される音声源の位置精度が向上されるとともに、音声源の位置を正確に取得することができるので、図１の制御部４または音声分類部５ｂによる紐付け処理がより正確に行われる。

（７）映像認識処理および映像分類処理の一例
映像認識処理および映像分類処理の一例について説明する。図１３は、映像認識処理および映像分類処理の一例を説明するための図である。

図１３に示す収録現場がビデオカメラにより撮影される。この場合、撮影により取得された映像信号Ｖ１（図１）が映像認識部３ａ（図１）に与えられる。映像認識部３ａは、映像信号Ｖ１に基づいて動作物体と背景とを識別する。

なお、動作物体の識別は、物体の移動速度等により判別することができる。

図１３の収録現場においては、人物Ａ，Ｂ，Ｃのみが移動している。この場合、映像認識部３ａは、人物Ａ，Ｂ，Ｃが動作物体である旨を認識し、その旨を映像認識情報ＩＦ１として図１の記憶装置４Ｒに記憶する。

また、映像認識部３ａは、壁の輪郭８２，８３および木８４が静止物体である旨を認識するとともに、その旨を映像認識情報ＩＦ１として記憶装置４Ｒに記憶する。

このように、映像分類部５ａは、動作物体である人物Ａ，Ｂ，Ｃの画面上の表示領域ＭＡ，ＭＢ，ＭＣを認識することにより、それらの表示面積ならびに収録現場における動作物体および静止物体の位置を推定することが可能となる。

本例においても、図１２の例と同様に、図１３の３つの矢印で示すように、互いに直交する３方向をＸ方向、Ｙ方向およびＺ方向と定義する。

それにより、映像分類部５ａは、動作物体の位置をＸ方向、Ｙ方向およびＺ方向からなる３次元座標系に展開し、展開により得られた座標値を映像分類情報ＣＴ１として映像分類テーブルに格納することができる。

その結果、動作物体の位置を正確に取得することができるので、図１の制御部４による紐付け処理がより正確に行われる。また、図１２で示したように、音声認識処理および音声分類処理により音声源の位置が空間座標系で正確に推定される場合、制御部４による紐付け処理がさらに容易かつ正確に行われる。

（８）字幕位置の設定例
図１の制御部４は、例えば次のように字幕位置を設定する。図１４は、図１の文章生成部６による字幕位置の設定例を説明するための図である。

図１４（ａ）に映像中の動作物体として、人物Ｂおよび人物Ｃが示されている。ここで、人物Ｂの表示領域ＭＢが矢印ＢＢで示される速度で移動し、人物Ｃの表示領域ＭＣが矢印ＣＢで示される速度で移動する場合を想定する。

このとき、映像認識部３ａ（図１）は、一のフレームにおける人物Ｂ，Ｃの表示領域ＭＢ，ＭＣを認識するとともに、各表示領域ＭＢ，ＭＣの重心位置を算出する。また、映像認識部３ａは、さらに次のフレームにおける人物Ｂ，Ｃの表示領域ＭＢ，ＭＣを認識するとともに、各表示領域ＭＢ，ＭＣの重心位置を算出する。

それにより、映像認識部３ａは、人物Ｂおよび人物Ｃのフレーム間の移動距離を算出する。また、映像認識部３ａは、算出した移動距離に基づいて人物Ｂ，Ｃの重心位置の速度（速さの大きさおよび向き）を算出する。

そして、映像認識部３ａは、人物Ｂ，Ｃの移動距離および速度を映像認識情報ＩＦ１として制御部４へ与える。これらの情報は、制御部４の記憶装置４Ｒに記憶される。

ここで、図１４（ｂ）では、図１４（ａ）から１秒後のフレームの映像が示されている。

人物Ｂ，Ｃが移動とともに発声する場合、制御部４は、人物Ｂ，Ｃの速度に基づいて、さらに次のフレームにおける人物Ｂ，Ｃの表示領域を算出し、字幕位置の座標を決定する。

または、制御部４は、人物Ｂ，Ｃの速度に基づいて、所定時間経過後における人物Ｂ，Ｃの到達位置を予測し、予測された到達位置の近傍に字幕位置の座標を決定してもよい。

特に、制御部４は、字幕位置を設定する際に、動作物体である人物Ｂ，Ｃが重なりあうと予測した場合には、人物Ｂ，Ｃの「台詞Ｓ２：いきますね」および「台詞Ｓ３：さあこい」の字幕位置が重なりあわないように、各台詞Ｓ２，Ｓ３の字幕位置を調整する。

このように、制御部４が各人物Ｂ，Ｃの字幕位置を調整することにより、ユーザは、音声源と字幕として表示される文字列との対応関係を正確に認識することができる。

また、上述のように、音声分類部５ｂでは、各台詞の字幕の表示色が人物Ｂ，Ｃごとに設定されている。図１４（ｂ）の例では、人物Ｂの台詞Ｓ２に基づく文字列２Ｃおよび人物Ｃの台詞Ｓ３に基づく文字列３Ｃが、それぞれ黄色および青色で表示される例が示されている。

このように、字幕の表示色が人物Ｂ，Ｃごとに設定されることにより、ユーザは、音声源と字幕として表示される文字列との対応関係をさらに正確に認識することができる。

上記に加えて、例えば映像中に複数の動作物体が存在し、各動作物体から音声が発生される場合、各動作物体の字幕位置は、各動作物体の映像の重心位置とその動作物体の音声の字幕の重心位置との距離が、その動作物体の映像の重心位置と他の動作物体の字幕の重心位置との距離よりも短くなるように設定することが好ましい。この場合、複数の動作物体の映像と複数の動作物体から発生される音声の字幕との対応関係を容易かつ確実に認識することができる。

なお、各動作物体の字幕位置は、各動作物体の映像の重心位置と各動作物体の音声の字幕の重心位置との距離に基づいて設定する代わりに、各動作物体の映像の表示領域（輪郭）と各動作物体の音声の字幕の表示領域（輪郭）との最短距離に基づいて設定してもよい。

この場合、例えば、各動作物体の字幕位置は、各動作物体の映像の表示領域とその動作物体の音声の字幕の表示領域との最短距離が、その動作物体の映像の表示領域と他の動作物体の字幕の表示領域との最短距離よりも短くなるように設定する。

（９）各テーブルの具体的な生成例
図１５は、字幕生成装置２００による音声分類テーブル、映像分類テーブルおよび文章生成テーブルの生成例を示す図である。

図１５（ａ）に音声分類テーブルの一例が示されている。この音声分類テーブルにおいては、文字コード、音声の出力時間、字幕の表示色および音声源の推定位置が、人物Ａ，Ｂ，Ｃにより分類されている。

一方、図１５（ｂ）に映像分類テーブルの一例が示されている。この映像分類テーブルにおいては、表示領域の面積、表示領域の重心位置および速度が人物Ａ，Ｂ，Ｃにより分類されている。

上述のように、制御部４による紐付け処理では、音声分類テーブルに記憶されている音声源の位置と、映像分類テーブルに記憶されている人物Ａ，Ｂ，Ｃの表示領域の重心位置とが比較される。

それにより、音声認識処理で認識された人物Ａ，Ｂ，Ｃと、映像認識処理により動作物体として認識された人物Ａ，Ｂ，Ｃとの関連付けが行われる。

このようにして、図１の制御部４により音声分類テーブルの人物Ａ，Ｂ，Ｃと映像分類テーブルの人物Ａ，Ｂ，Ｃとが関連付けされることにより、文章生成部６は文章生成テーブルを生成する。

具体的には、文章生成部６は、文字コードの仮名漢字変換を行うことにより、字幕の文章を作成する。

そして、文章生成部６は、図１５（ｃ）に示すように、人物Ａについて、字幕の文章、その表示時間および字幕の表示色を文章生成テーブルに格納する。また、制御部４により設定された人物Ａの字幕位置を文章生成テーブルに格納する。文章生成部６は、同様の動作を他の人物Ｂ，Ｃについても行う。

（１０）字幕映像信号の生成例
図１６は、図１の文字合成部７による字幕映像信号ＷＳの生成例を示す図である。図１６（ａ）に文章生成テーブルの一例が示されている。図１の文字合成部７は、文章生成部６により生成された文章生成テーブルから時間情報ＳＹを抽出する。

図１６（ａ）の文章生成テーブルにおいては、人物Ａの音声に１０秒の時間情報ＳＹが分類されている。これにより、文字合成部７は、例えば番組の開始から１０秒経過時に人物Ａの台詞が映像出力装置３００の画面ＳＣ１（図３）上に表示されるように、人物Ａの台詞を示す字幕映像信号ＷＳを生成する。

同様に、文字合成部７は、文章生成テーブルに格納された各情報に基づいて、番組の開始から１５秒経過時に人物Ｂの台詞が映像出力装置３００の画面ＳＣ１上に表示されるように、人物Ｂの台詞を示す字幕映像信号ＷＳを生成する。

また、文字合成部７は、文章生成テーブルに格納された各情報に基づいて、番組の開始から２０秒経過時に人物Ｃの台詞が映像出力装置３００の画面ＳＣ１上に表示されるように、人物Ｃの台詞を示す字幕映像信号ＷＳを生成する。

図１６（ｂ）に、図１６（ａ）の文章生成テーブルから生成された字幕映像信号ＷＳに基づく映像が時間とともに変化する様子が示されている。

図１６（ａ）の文章生成テーブルから生成された字幕映像信号ＷＳにより、ユーザは、番組の開始から１０秒後に、文字列「剣道です」が画面左端に赤色で表示されたフレームの映像ＦＶ１を得ることができる。

また、ユーザは、番組の開始から１５秒後に、文字列「いきますね」が画面中央に青色で表示されたフレームの映像ＦＶ２を得ることができる。さらに、ユーザは、番組の開始から２０秒後に、文字列「さあこい」が画面中央に黄色で表示されたフレームの映像ＦＶ３を得ることができる。

（１１）バッファ部における信号の蓄積および出力例
図１７は、図１の映像信号Ｖ１、音声信号Ａ１および字幕映像信号ＷＳが図１のバッファ部１に蓄積される様子を示す概念図である。

図１７に示されるように、バッファ部１には、映像記憶領域ＲＶ、音声記憶領域ＲＡおよび字幕記憶領域ＲＳが設けられている。

上述のように、バッファ部１においては、映像音声入力装置１００から字幕生成装置２００に入力される映像信号Ｖ１および音声信号Ａ１が制御部４によりフレーム単位で記憶される。

図１７では、映像信号Ｖ１のフレームごとの映像ＶＶ１，ＶＶ２，ＶＶ３〜ＶＶＮが、バッファ部１の映像記憶領域ＲＶに蓄積される様子が示されている（映像の書き込み）。

また、音声信号Ａ１のフレームごとの音声ＡＡ１，ＡＡ２，ＡＡ３〜ＡＡＮが、バッファ部１の音声記憶領域ＲＡに蓄積される様子が示されている（音声の書き込み）。

ここで、上述のように、字幕生成装置２００では、映像信号Ｖ１および音声信号Ａ１に基づいて生成された字幕映像信号ＷＳが図１のビデオメモリ８に記憶される。制御部４は、ビデオメモリ８に記憶されたフレーム単位の字幕映像信号ＷＳをバッファ部１に蓄積させる。

図１７では、字幕映像信号ＷＳのフレームごとの字幕映像ＳＳ１，ＳＳ２，ＳＳ３〜ＳＳＮが、バッファ部１の字幕記憶領域ＲＳに蓄積される様子が示されている（字幕映像の書き込み）。

ここで、制御部４は、同期信号検出部２から得られる時間情報ＳＹに基づいてバッファ部１内に格納されるフレームごとの映像ＶＶ１〜ＶＶＮ、音声ＡＡ１〜ＡＡＮおよび字幕映像ＳＳ１〜ＳＳＮを同期させる。

バッファ部１は、制御部４から各信号の出力を指令する再生信号ＰＢに応答して、同期された映像信号Ｖ１（映像ＶＶ１〜ＶＶＮ）、音声信号Ａ１（音声ＡＡ１〜ＡＡＮ）および字幕映像信号ＷＳ（字幕映像ＳＳ１〜ＳＳＮ）を順次出力する。換言すれば、バッファ部１内に格納された映像信号Ｖ１（映像ＶＶ１〜ＶＶＮ）、音声信号Ａ１（音声ＡＡ１〜ＡＡＮ）および字幕映像信号ＷＳ（字幕映像ＳＳ１〜ＳＳＮ）が制御部４により順次読み出される。

（１２）字幕合成部による字幕合成映像信号の生成例
上述のように、字幕合成部９には、バッファ部１から映像信号Ｖ１および字幕映像信号ＷＳがフレーム単位で入力される。字幕合成部９は、映像信号Ｖ１に字幕映像信号ＷＳを重畳し、字幕合成映像信号ＷＶをフレーム単位で生成する。

図１８は、図１の字幕合成部９による字幕合成映像信号ＷＶの生成例を示す図である。

図１８（ａ）に、バッファ部１から出力される映像信号Ｖ１および音声信号Ａ１に基づくフレームごとの映像および台詞Ｓ１〜Ｓ３が示されている。

図１８（ａ）に示すように、バッファ部１においては、映像信号Ｖ１および音声信号Ａ１が入力された時刻ＩＮから所定期間（バッファ期間ＢＦ）経過することにより映像信号Ｖ１および音声信号Ａ１が出力される。

この場合、図１８（ａ）の例では、時刻ＩＮからバッファ期間ＢＦ経過後のＸ秒において、人物Ａが画面上に登場するとともに台詞Ｓ１を発声している。その５秒後に、人物Ｂが画面上に登場するとともに台詞Ｓ２を発声している。さらにその５秒後に、人物Ｃが画面上に登場するとともに台詞Ｓ３を発声している。

図１８（ｂ）にバッファ部１から出力される映像信号Ｖ１のフレームの映像が示され、図１８（ｃ）にバッファ部１から出力される字幕映像信号ＷＳのフレームの映像が示されている。

上述のように、バッファ部１からの各信号の出力は、制御部４により制御されている。制御部４は、時間情報ＳＹに基づいてバッファ部１内の各信号の同期を取るとともに、各信号の出力を制御している。

その結果、図１８（ｄ）に示すように、字幕合成部９では、正確に同期された映像信号Ｖ１および字幕映像信号ＷＳが合成され、字幕合成映像信号ＷＶが生成される。

（１３）番組に応じた処理設定
上記では、音声認識処理、音声分類処理、映像認識処理および映像分類処理について、それぞれ具体例を説明したが、制御部４は、ユーザが視聴する番組ごとに各処理の設定を調整してもよい。

映像音声入力装置１００がデジタル放送の番組を受信する場合、字幕生成装置２００には、ＥＰＧ（電子番組ガイド）データも与えられる。ＥＰＧには、番組のジャンルに関する情報も含まれる。

図１９は、ＥＰＧデータの一例を示す図である。図１９に示すように、ＥＰＧデータによれば、番組ごとに、その名称およびジャンルを識別することが可能となる。

そこで、例えば制御部４は、字幕生成装置２００にＥＰＧデータが与えられることにより、そのＥＰＧデータに基づいて現在視聴する番組のジャンルを識別し、番組のジャンルに応じて音声認識処理、音声分類処理、映像認識処理および映像分類処理の設定を調整する。

具体例を説明する。例えば、ユーザが視聴する番組のジャンルがニュースである場合、その音声信号Ａ１には、一般にサラウンド音声信号は用いられず、ステレオ音声信号が用いられる。

この場合、制御部４は、音声認識部３ｂを制御することにより、ステレオ音声信号による音声源の推定を行う。

サラウンド音声信号に基づく音声源の推定では詳細な位置を推定することが可能であるが、ニュース番組等の登場人物が小なく、登場人物の動きが小さい番組では、大まかな登場人物の場所がステレオ音声信号に基づいて推定できればよい。

また、上述のように、映像認識処理において、動作物体は、フレーム間で動作する物体の速度の大きさが所定の値（速度しきい値）を超えることにより識別される。したがって、例えばニュース番組等、登場人物の動作が非常に小さい番組では、速度しきい値を小さく設定する。これにより、登場人物の動作が非常に小さい番組でも映像上の各人物の識別が正確に行われる。

一方、スポーツ中継等の番組では、観客の動き等のこまやかな動きが映像の全体に渡って生じる場合がある。したがって、この場合、速度しきい値を大きく設定する。それにより、動作物体の誤認識が低減される。

また、制御部４は、番組のジャンルに応じて図５で説明した一致率のしきい値を調整してもよい。このように、番組に応じた音声認識処理を行うことができる。

さらに、制御部４は、紐付け処理時に、映像分類情報ＣＴ１から得られる動作物体の位置と、音声分類情報ＣＴ２から得られる音声源の推定位置とを比較することにより、それらの動作物体と音声源とが同一であるか否かを判別する。ここで、制御部４は、このときに用いるしきい値を番組のジャンルに応じて変更してもよい。それにより、番組のジャンルに応じた最適な紐付け処理を行うことができる。

なお、上記のような各処理の設定は、番組のジャンルに限らず、番組の名称に基づいて調整してもよいし、使用者が自己の嗜好に応じて手動で調整してもよい。また、放送局がＥＰＧ（電子番組ガイド）データとして、各番組に対応する音声認識処理、音声分類処理、映像認識処理、映像分類処理および紐付け処理の設定条件を放送し、字幕生成装置２００が受信した条件に基づいて各処理の設定を行ってもよい。

（１４）効果
本実施の形態に係る字幕生成装置２００においては、映像認識部３ａにより、入力される映像信号Ｖ１の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部３ｂにより、入力される音声信号Ａ１の音声認識処理が行われれる。これにより、音声源の位置が推定される。

制御部４は、映像認識処理により識別された動作物体の情報と、音声認識処理により推定された音声源の位置情報とを比較することにより紐付け処理を行う。

それにより、音声信号Ａ１に基づいて生成された字幕の位置が、映像上の動作物体の近傍に設定される。その結果、ユーザは、音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することが可能となる。

（１５）変形例
本実施の形態においては、映像音声入力装置１００がデジタル放送を受信することにより、字幕生成装置２００にデジタルの映像信号Ｖ１および音声信号Ａ１が入力される例を説明した。これに限らず、映像音声入力装置１００がアナログ放送を受信することにより、字幕生成装置２００にアナログの映像信号Ｖ１および音声信号Ａ１が入力されてもよい。

映像音声入力装置１００は放送受信装置であるが、映像音声入力装置１００は番組または映画等のコンテンツが記録された記録媒体の駆動装置であってもよい。このような駆動装置としては、例えばＤＶＤ（デジタルバーサタイルディスク）ドライブ等がある。

この場合においても、字幕生成装置２００は、映像音声入力装置１００から入力される映像信号Ｖ１および音声信号Ａ１に基づいて上記と同様の処理を行う。

上記のように、本実施の形態に係る字幕生成装置２００は、映像信号Ｖ１および音声信号Ａ１からなる全てのコンテンツに適用できる。

（１６）各構成部の実現方法
本実施の形態において、図１で示す字幕生成装置２００の構成部の一部がソフトウェアにより機能的に実現され、他の部分が電気回路等のハードウェア資源により実現されてもよい。あるいは、字幕生成装置２００の構成部の全てがハードウェア資源により実現されてもよい。

（１７）請求項の各構成要素と実施の形態の各要素との対応
以下、請求項の各構成要素と実施の形態の各要素との対応の例について説明するが、本発明は下記の例に限定されない。

上記実施の形態では、人物Ｐ１，Ｐ２，Ｐ３，Ａ，Ｂ，ＣおよびヘリコプターＨＣが音声発生物体、動作物体の例であり、人物Ｐ１，Ｐ２，Ｐ３，Ａ，Ｂ，Ｃが複数の人物の例であり、制御部４、映像認識部３ａおよび映像分類部５ａが映像認識手段および映像位置検出手段の例であり、制御部４、音声認識部３ｂおよび音声分類部５ｂが音声認識手段および音声位置推定手段の例である。

また、映像認識情報ＩＦ１および映像分類情報ＣＴ１が映像情報の例であり、音声認識情報ＩＦ２および音声分類情報ＣＴ２が音声情報の例であり、制御部４および文章生成部６が字幕生成手段の例であり、制御部４、映像／音声認識部３および映像／音声分類部５が関連付け手段の例であり、制御部４、文字合成部７、ビデオメモリ８、バッファ部１および字幕合成部９が合成映像生成手段の例である。

本発明は、字幕を表示するために利用することができる。

本発明の一実施の形態に係る字幕生成装置の構成を説明するためのブロック図図１の字幕生成装置が行う一連の動作を示すフローチャート音声認識情報および音声分類情報を説明するための図文章生成テーブル、字幕映像信号に基づく映像および字幕合成映像を説明するための図図１の音声認識部による音声認識処理および音声分類部による音声分類処理の一例を示す図複数の人物が台詞を発声する際に図１の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図複数の人物が台詞を発声する際に図１の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図複数の人物が台詞を発声する際に図１の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図複数の人物が台詞を発声する際に図１の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図複数の人物が台詞を発声する際に図１の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図複数の人物が台詞を発声する際に図１の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図サラウンド音声信号を生成するための音声の収録方法の一例を説明するための図映像認識処理および映像分類処理の一例を説明するための図図１の文章生成部による字幕位置の設定例を説明するための図字幕生成装置による音声分類テーブル、映像分類テーブルおよび文章生成テーブルの生成例を示す図図１の文字合成部による字幕映像信号の生成例を示す図図１の映像信号、音声信号および字幕映像信号が図１のバッファ部１に蓄積される様子を示す概念図図１の字幕合成部による字幕合成映像信号の生成例を示す図ＥＰＧデータの一例を示す図従来の字幕重畳装置における課題を説明するための図

符号の説明

１バッファ部
３映像／音声認識部
３ａ映像認識部
３ｂ音声認識部
４制御部
４Ｒ記憶装置
５映像／音声分類部
５ａ映像分類部
５ｂ音声分類部
６文章生成部
７文字合成部
８ビデオメモリ
９字幕合成部
１００映像音声入力装置
２００字幕生成装置
３００映像出力装置
４００音声出力装置
Ｖ１映像信号
Ａ１音声信号
Ｐ１，Ｐ２，Ｐ３，Ａ，Ｂ，Ｃ人物
ＨＣヘリコプター
ＷＶ字幕合成映像信号
ＩＦ１映像認識情報
ＣＴ１映像分類情報
ＩＦ２音声認識情報
ＣＴ２音声分類情報
ＳＹ時間情報

Claims

映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成装置であって、
前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得する映像認識手段と、
前記映像認識手段により取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出する映像位置検出手段と、
前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得する音声認識手段と、
前記音声認識手段により取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定する音声位置推定手段と、
前記音声認識手段により取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成する字幕生成手段と、
前記映像位置検出手段により検出された前記音声発生物体の映像の表示位置と、前記音声位置推定手段により推定された前記音声発生物体の音声の発生位置とを関連付ける関連付け手段と、
前記関連付け手段により関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、前記映像位置検出手段により検出された前記映像の表示位置に対応する位置に、前記字幕生成手段により生成された前記字幕を配置することにより合成映像を生成する合成映像生成手段とを備えることを特徴とする字幕生成装置。
前記音声発生物体は、複数の動作物体を含み、
前記映像認識手段は、前記映像信号に基づいて各動作物体の映像に関する情報を映像情報として取得し、
前記映像位置検出手段は、前記映像認識手段により取得された前記映像情報に基づいて各動作物体の映像の表示位置を検出し、
前記音声認識手段は、各動作物体を識別し、取得した前記音声情報を識別された各動作物体に関連付け、
前記音声位置推定手段は、前記音声認識手段により各動作物体に関連付けられた前記音声情報に基づいて各動作物体の音声の発生位置を推定し、
前記字幕生成手段は、前記音声認識手段により取得された前記音声情報に基づいて、各動作物体から発生される音声を文字で表現した字幕を生成し、
前記関連付け手段は、前記映像位置検出手段により検出された各動作物体の映像の表示位置と、前記音声位置推定手段により推定された各動作物体の音声の発生位置とを関連付け、
前記合成映像生成手段は、前記関連付け手段により関連付けられた各動作物体の映像の表示位置および各動作物体の音声の発生位置に基づいて、前記映像位置検出手段により検出された各動作物体の映像の表示位置に対応する位置に、前記字幕生成手段により生成された各動作物体から発生される音声の字幕を配置することにより合成映像を生成することを特徴とする請求項１記載の字幕生成装置。
各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の映像の表示位置に対応する位置が設定されることを特徴とする請求項２記載の字幕生成装置。
前記複数の動作物体は複数の人物を含み、前記音声情報は、各人物から発生される音声の周波数特性に関する情報を含み、
前記音声認識手段は、前記音声の周波数特性に関する情報に基づいて、その音声を発生する各人物を識別することを特徴とする請求項２または３記載の字幕生成装置。
前記音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報とを比較することにより、音声を発生する各人物を識別することを特徴とする請求項４記載の字幕生成装置。
前記音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報との一致の度合いを示す一致度が予め定められた基準値を超えるか否かを判定することにより音声を発生する各人物を識別することを特徴とする請求項５記載の字幕生成装置。
前記映像情報は、各動作物体の映像の形状および大きさに関する情報を含み、
前記映像認識手段は、各動作物体の映像の形状および大きさに関する情報に基づいて各動作物体を識別し、取得した前記映像情報を識別された各動作物体に関連付けることを特徴とする請求項２〜６のいずれかに記載の字幕生成装置。
前記映像情報は、各動作物体の映像の速度に関する情報を含み、
前記映像認識手段は、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置を推定し、
前記合成映像生成手段は、推定された各動作物体の所定時間経過後の映像の表示位置に対応する位置に、前記字幕生成手段により生成された各動作物体の音声の字幕を配置することにより合成映像を生成する７記載の字幕生成装置。
前記字幕生成手段は、前記複数の動作物体から発生される音声を各動作物体で異なる色の文字で表現した字幕を生成する請求項２〜８のいずれかに記載の字幕生成装置。
前記映像信号および前記音声信号はそれぞれ時間情報を含み、
前記合成映像生成手段は、前記映像信号および前記音声信号の時間情報に基づいて、前記音声発生物体から音声が発生されるタイミングで、生成した前記字幕を映像に配置することにより、前記音声信号による音声の出力タイミングと前記字幕の表示タイミングとが一致するように前記合成映像を生成する請求項１〜９のいずれかに記載の字幕生成装置。
前記映像信号および音声信号は、映像および音声により構成される番組のジャンルを示すジャンル情報を含み、
前記ジャンル情報を検出することにより前記番組のジャンルを判定するジャンル判定手段と、
前記ジャンル判定手段により判定された番組のジャンルに応じて、前記映像認識手段による前記映像情報の取得動作、前記映像位置検出手段による前記音声発生物体の映像の表示位置の検出動作、前記音声認識手段による前記音声発生物体の前記音声情報の取得動作、および前記音声位置推定手段による前記音声発生物体の音声の発生位置の推定動作を調整する調整手段とをさらに備えることを特徴とする請求項１〜１０のいずれかに記載の字幕生成装置。
映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成方法であって、
前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得するステップと、
取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出するステップと、
前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得するステップと、
取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定するステップと、
取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成するステップと、
検出された前記音声発生物体の映像の表示位置と、推定された前記音声発生物体の音声の発生位置とを関連付けるステップと、
関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、検出された前記映像の表示位置に対応する位置に、生成された前記字幕を配置することにより合成映像を生成するステップとを備えることを特徴とする字幕生成方法。
映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する処理装置読み取り可能な字幕生成プログラムであって、
前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得する処理と、
取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出する処理と、
前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得する処理と、
取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定する処理と、
取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成する処理と、
検出された前記音声発生物体の映像の表示位置と、推定された前記音声発生物体の音声の発生位置とを関連付ける処理と、
関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、検出された前記映像の表示位置に対応する位置に、生成された前記字幕を配置することにより合成映像を生成する処理とを、前記処理装置に実行させることを特徴とする字幕生成プログラム。