JP2008079018A - 字幕生成装置、字幕生成方法および字幕生成プログラム - Google Patents

字幕生成装置、字幕生成方法および字幕生成プログラム Download PDF

Info

Publication number
JP2008079018A
JP2008079018A JP2006256032A JP2006256032A JP2008079018A JP 2008079018 A JP2008079018 A JP 2008079018A JP 2006256032 A JP2006256032 A JP 2006256032A JP 2006256032 A JP2006256032 A JP 2006256032A JP 2008079018 A JP2008079018 A JP 2008079018A
Authority
JP
Japan
Prior art keywords
video
sound
information
audio
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006256032A
Other languages
English (en)
Other versions
JP4980018B2 (ja
Inventor
Isao Ikegami
功 池上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2006256032A priority Critical patent/JP4980018B2/ja
Priority to CNA200780034822XA priority patent/CN101518055A/zh
Priority to PCT/JP2007/068169 priority patent/WO2008035704A1/ja
Priority to US12/441,819 priority patent/US8223269B2/en
Publication of JP2008079018A publication Critical patent/JP2008079018A/ja
Application granted granted Critical
Publication of JP4980018B2 publication Critical patent/JP4980018B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs

Abstract

【課題】ユーザが音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することができる字幕生成装置、字幕生成方法および字幕生成プログラムを提供する。
【解決手段】字幕生成装置200において、映像認識部3aにより、入力される映像信号V1の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部3bにより、入力される音声信号A1の音声認識処理が行われる。これにより、音声源の位置が推定される。制御部4は、映像認識処理により識別された動作物体の情報と、音声認識処理により推定された音声源の位置情報とを比較することにより紐付け処理を行う。それにより、音声信号A1に基づいて生成された字幕の位置が、映像上の動作物体の近傍に設定される。
【選択図】図1

Description

本発明は、字幕を生成する字幕生成装置、字幕生成方法および字幕生成プログラムに関する。
従来より、聴覚障害者等のユーザのためにテレビジョン番組の映像および音声とともに字幕を表示する字幕放送が行われている。
この字幕放送は、各放送局が編成した特定のテレビジョン番組にのみ適用される。したがって、ユーザは、字幕放送に対応しないテレビジョン番組では、字幕の提示を受けることができない。
そこで、映像信号および音声信号に基づいて字幕が付加された映像を表示する字幕重畳装置が特許文献1に開示されている。この字幕重畳装置は、放送信号を受信することにより音声信号を取得するとともに、音声認識によりその音声信号を文字コードに変換する。そして、字幕重畳装置は、変換した文字コードから字幕(文字パターンデータ)を生成し、生成した字幕を映像信号に重畳する。
これにより、ユーザは、字幕放送のテレビジョン番組であるか否かに関わらず全てのテレビジョン番組について字幕の提示を受けることができる。
特開平5−176232号公報
しかしながら、特許文献1の字幕重畳装置により音声信号から字幕を生成する場合、以下に説明する課題が生じる。
図20は、従来の字幕重畳装置における課題を説明するための図である。図20(a)に、複数の人物P1,P2,P3が表示された画面SC1と、各人が発声する台詞S1,S2,S3とが示されている。
図20(a)に示すように、複数の人物P1,P3,P2は、この符号の順で画面SC1の左側から並んでいる。また、図20(a)において、台詞S1,S2,S3は、この符号の順で図示しない音声出力装置から出力される。
すなわち、初めに左端の人物P1が台詞S1として「こんにちわ」と発声し、次に右端の人物P2が台詞S2として「私はP2です」と発声し、最後に中央の人物P3が台詞S3として「初めまして」と発声する。
このとき、上記の字幕重畳装置では、3人の人物P1,P2,P3と各人が発声する台詞S1,S2,S3とを関連付けて認識することはできない。
この場合、図20(b)に示すように、画面上には、人物P1,P2,P3の位置関係に関わらず台詞S1,S2,S3から字幕として生成された文字列C1,C2,C3が、この順(符号の順)で画面左側から並ぶ。
したがって、ユーザが画面SC1を視認すると、ユーザは画面に並ぶ人物P1,P2,P3の位置関係と文字列C1,C2,C3との位置関係とが異なるため、人物P1,P2,P3と文字列C1,C2,C3との対応関係を認識することが困難である。
例えば、ユーザは、図20(b)に示される画面SC1を視認することにより、人物P1が「こんにちわ」と発声し、人物P3が「私はP2です」と発声し、人物P2が「初めまして」と発声したと誤って認識してしまう場合がある。
このように、特許文献1の字幕重畳装置では、ユーザは、音声源と字幕として表示される文字列との対応関係を正確に認識することが困難である。
本発明の目的は、ユーザが音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することができる字幕生成装置、字幕生成方法および字幕生成プログラムを提供することである。
(1)第1の発明に係る字幕生成装置は、映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成装置であって、映像信号に基づいて音声発生物体の映像に関する情報を映像情報として取得する映像認識手段と、映像認識手段により取得された映像情報に基づいて音声発生物体の映像の表示位置を検出する映像位置検出手段と、音声信号に基づいて音声発生物体の音声に関する情報を音声情報として取得する音声認識手段と、音声認識手段により取得された音声情報に基づいて音声発生物体の音声の発生位置を推定する音声位置推定手段と、音声認識手段により取得された音声情報に基づいて、音声発生物体から発生される音声を文字で表現した字幕を生成する字幕生成手段と、映像位置検出手段により検出された音声発生物体の映像の表示位置と、音声位置推定手段により推定された音声発生物体の音声の発生位置とを関連付ける関連付け手段と、関連付け手段により関連付けられた映像の表示位置および音声の発生位置に基づいて、映像位置検出手段により検出された映像の表示位置に対応する位置に、字幕生成手段により生成された字幕を配置することにより合成映像を生成する合成映像生成手段とを備えるものである。
この字幕生成装置においては、音声発生物体の映像に関する情報が映像情報として映像信号から取得され、音声発生物体の映像の表示位置が取得された映像情報に基づいて検出される。
また、音声発生物体の音声に関する情報が音声情報として音声信号から取得され、音声発生物体の音声の発生位置が取得された音声情報に基づいて推定される。さらに、音声発生物体から発生される音声の字幕が、取得された音声情報に基づいて生成される。
ここで、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付け手段により関連付けられる。
関連付けられた映像の表示位置および音声の発生位置に基づいて、音声発生物体の映像の表示位置に対応する位置に、その音声発生物体から発生される音声の字幕が配置されることにより、合成映像が生成される。
これにより、字幕生成装置のユーザは、合成映像を視認することにより、音声発生物体の映像と、その音声発生物体から発生される音声の字幕とを、容易かつ確実に認識することができる。
(2)音声発生物体は、複数の動作物体を含み、映像認識手段は、映像信号に基づいて各動作物体の映像に関する情報を映像情報として取得し、映像位置検出手段は、映像認識手段により取得された映像情報に基づいて各動作物体の映像の表示位置を検出し、音声認識手段は、各動作物体を識別し、取得した音声情報を識別された各動作物体に関連付け、音声位置推定手段は、音声認識手段により各動作物体に関連付けられた音声情報に基づいて各動作物体の音声の発生位置を推定し、字幕生成手段は、音声認識手段により取得された音声情報に基づいて、各動作物体から発生される音声を文字で表現した字幕を生成し、関連付け手段は、映像位置検出手段により検出された各動作物体の映像の表示位置と、音声位置推定手段により推定された各動作物体の音声の発生位置とを関連付け、合成映像生成手段は、関連付け手段により関連付けられた各動作物体の映像の表示位置および各動作物体の音声の発生位置に基づいて、映像位置検出手段により検出された各動作物体の映像の表示位置に対応する位置に、字幕生成手段により生成された各動作物体から発生される音声の字幕を配置することにより合成映像を生成してもよい。
この場合、複数の動作物体の映像に関する情報が映像情報として映像信号から取得され、各動作物体の映像の表示位置が取得された映像情報に基づいて検出される。
また、音声認識手段により各動作物体が識別され、取得された音声情報が識別された各動作物体に関連付けられ、各動作物体の音声の発生位置が各動作物体に関連付けられた音声情報に基づいて推定される。さらに、各動作物体から発生される音声の字幕が、取得された音声情報に基づいて生成される。
ここで、検出された各動作物体の映像の表示位置と、推定された各動作物体の音声の発生位置とが、関連付け手段により関連付けられる。
関連付けられた映像の表示位置および音声の発生位置に基づいて、各動作物体の映像の表示位置に対応する位置に、各動作物体から発生される音声の字幕が配置されることにより、合成映像が生成される。
これにより、字幕生成装置のユーザは、合成映像を視認することにより、複数の動作物体から音声が発生される場合でも、各動作物体の映像に対応する音声の字幕を容易かつ確実に識別することができる。
(3)各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の映像の表示位置に対応する位置が設定されてもよい。
この場合、合成映像生成手段により生成される合成映像においては、各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の音声の字幕が表示される。
これにより、字幕生成装置のユーザは、合成映像を視認することにより、各動作物体の映像に対応する音声の字幕を容易かつ確実に識別することができる。
(4)複数の動作物体は複数の人物を含み、音声情報は、各人物から発生される音声の周波数特性に関する情報を含み、音声認識手段は、音声の周波数特性に関する情報に基づいて、その音声を発生する各人物を識別してもよい。
この場合、音声認識手段により各人物から発生される音声の周波数特性が音声情報として取得される。各人物は、固有の音声の周波数特性を有する。したがって、音声の周波数特性に関する情報を用いることにより、その音声を発生する各人物を正確に識別することができる。
(5)音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報とを比較することにより、音声を発生する各人物を識別してもよい。
この場合、新たに取得された音声の周波数特性に関する情報と過去に取得された音声の周波数特性に関する情報とが比較される。この比較結果に基づいて音声を発生する各人物が識別されるので、各人物の識別が容易となる。
(6)音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報との一致の度合いを示す一致度が予め定められた基準値を超えるか否かを判定することにより、音声を発生する各人物を識別してもよい。
この場合、新たに取得された音声の周波数特性に関する情報と過去に取得された音声の周波数特性に関する情報との一致の度合いが一致度により示される。
一致度が予め定められた基準値を超えるか否かが判定されることにより、新たに取得された音声の周波数特性に関する情報が過去に取得された音声の周波数特性に関する情報と一致するか否かが判別される。したがって、基準値を調整することにより、各人物の識別精度を調整することが可能となる。
(7)映像情報は、各動作物体の映像の形状および大きさに関する情報を含み、映像認識手段は、各動作物体の映像の形状および大きさに関する情報に基づいて各動作物体を識別し、取得した映像情報を識別された各動作物体に関連付けてもよい。
この場合、映像認識手段により、各動作物体が各動作物体の映像の形状および大きさに関する情報に基づいて識別される。
このように、各動作物体の映像の形状および大きさに関する情報を用いることにより、各動作物体が正確に識別される。それにより、取得された映像情報が識別された各動作物体に正確に関連付けられる。
(8)映像情報は、各動作物体の映像の速度に関する情報を含み、映像認識手段は、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置を推定し、合成映像生成手段は、推定された各動作物体の所定時間経過後の映像の表示位置に対応する位置に、字幕生成手段により生成された各動作物体の音声の字幕を配置することにより合成映像を生成してもよい。
この場合、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置が推定される。そして、推定された映像の表示位置に対応する位置に、その動作物体の音声の字幕が配置された合成映像が生成される。
これにより、字幕生成装置のユーザは、合成映像において、複数の動作物体が移動しても、予め各動作物体の推定される移動位置に対応する位置に字幕が表示されるので、各動作物体の映像に対応する音声の字幕を容易かつ確実に識別することができる。
(9)字幕生成手段は、複数の動作物体から発生される音声を各動作物体で異なる色の文字で表現した字幕を生成してもよい。この場合、字幕生成装置のユーザは、合成映像を視認することにより、各動作物体から発生される音声がそれぞれ異なる色で表現されているので、各動作物体の映像に対応する音声の字幕をさらに容易かつ確実に識別することができる。
(10)映像信号および音声信号はそれぞれ時間情報を含み、合成映像生成手段は、映像信号および音声信号の時間情報に基づいて、音声発生物体から音声が発生されるタイミングで、生成した字幕を映像に配置することにより、音声信号による音声の出力タイミングと字幕の表示タイミングとが一致するように合成映像を生成してもよい。
この場合、映像信号および音声信号の時間情報に基づいて、生成された字幕が映像に配置されることにより、音声信号による音声の出力タイミングと、字幕の表示タイミングとが一致した合成映像が生成される。これにより、字幕生成装置のユーザは、音声発生物体から音声が発生されるタイミングで確実に字幕を視認することができる。
(11)映像信号および音声信号は、映像および音声により構成される番組のジャンルを示すジャンル情報を含み、字幕生成装置は、ジャンル情報を検出することにより番組のジャンルを判定するジャンル判定手段と、ジャンル判定手段により判定された番組のジャンルに応じて、映像認識手段による映像情報の取得動作、映像位置検出手段による音声発生物体の映像の表示位置の検出動作、音声認識手段による音声発生物体の音声情報の取得動作、および音声位置推定手段による音声発生物体の音声の発生位置の推定動作を調整する調整手段とをさらに備えてもよい。
この場合、ジャンル判定手段により、ジャンル情報に基づいて番組のジャンルを示すジャンル情報が判定される。判定されたジャンルに応じて、調整手段により映像認識手段による映像情報の取得動作、映像位置検出手段による音声発生物体の映像の表示位置の検出動作、音声認識手段による音声発生物体の音声情報の取得動作、および音声位置推定手段による音声発生物体の音声の発生位置の推定動作が調整される。
このように、番組を構成する映像および音声の特徴は、その番組のジャンルに応じて異なる。したがって、番組のジャンルに応じて映像情報の取得動作を調整することにより、高い精度で映像情報を取得することができる。
また、番組のジャンルに応じて映像位置検出手段による音声発生物体の映像の表示位置の検出動作を調整することにより、高い精度で音声発生物体の映像の表示位置の検出することができる。
さらに、番組のジャンルに応じて音声認識手段による音声発生物体の音声情報の取得動作を調整することにより、高い精度で音声情報を取得することができる。
また、番組のジャンルに応じて音声位置推定手段による音声発生物体の音声の発生位置の推定動作を調整することにより、高い精度で音声発生物体の音声の発生位置を推定することができる。
(12)第2の発明に係る字幕生成方法は、映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成方法であって、映像信号に基づいて音声発生物体の映像に関する情報を映像情報として取得するステップと、取得された映像情報に基づいて音声発生物体の映像の表示位置を検出するステップと、音声信号に基づいて音声発生物体の音声に関する情報を音声情報として取得するステップと、取得された音声情報に基づいて音声発生物体の音声の発生位置を推定するステップと、取得された音声情報に基づいて、音声発生物体から発生される音声を文字で表現した字幕を生成するステップと、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とを関連付けるステップと、関連付けられた映像の表示位置および音声の発生位置に基づいて、検出された映像の表示位置に対応する位置に、生成された字幕を配置することにより合成映像を生成するステップとを備えるものである。
この字幕生成方法によれば、音声発生物体の映像に関する情報が映像情報として映像信号から取得され、音声発生物体の映像の表示位置が取得された映像情報に基づいて検出される。
また、音声発生物体の音声に関する情報が音声情報として音声信号から取得され、音声発生物体の音声の発生位置が取得された音声情報に基づいて推定される。さらに、音声発生物体から発生される音声の字幕が、取得された音声情報に基づいて生成される。
ここで、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付けられる。
関連付けられた映像の表示位置および音声の発生位置に基づいて、音声発生物体の映像の表示位置に対応する位置に、その音声発生物体から発生される音声の字幕が配置されることにより、合成映像が生成される。
これにより、字幕生成装置のユーザは、合成映像を視認することにより、音声発生物体の映像と、その音声発生物体から発生される音声の字幕とを、容易かつ確実に認識することができる。
(13)第3の発明に係る字幕生成プログラムは、映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および音声発生物体から発生された音声の字幕を含む合成映像を生成する処理装置読み取り可能な字幕生成プログラムであって、映像信号に基づいて音声発生物体の映像に関する情報を映像情報として取得する処理と、取得された映像情報に基づいて音声発生物体の映像の表示位置を検出する処理と、音声信号に基づいて音声発生物体の音声に関する情報を音声情報として取得する処理と、取得された音声情報に基づいて音声発生物体の音声の発生位置を推定する処理と、取得された音声情報に基づいて、音声発生物体から発生される音声を文字で表現した字幕を生成する処理と、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とを関連付ける処理と、関連付けられた映像の表示位置および音声の発生位置に基づいて、検出された映像の表示位置に対応する位置に、生成された字幕を配置することにより合成映像を生成する処理とを、処理装置に実行させるものである。
この字幕生成プログラムによれば、音声発生物体の映像に関する情報が映像情報として映像信号から取得され、音声発生物体の映像の表示位置が取得された映像情報に基づいて検出される。
また、音声発生物体の音声に関する情報が音声情報として音声信号から取得され、音声発生物体の音声の発生位置が取得された音声情報に基づいて推定される。さらに、音声発生物体から発生される音声の字幕が、取得された音声情報に基づいて生成される。
ここで、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付けられる。
関連付けられた映像の表示位置および音声の発生位置に基づいて、音声発生物体の映像の表示位置に対応する位置に、その音声発生物体から発生される音声の字幕が配置されることにより、合成映像が生成される。
これにより、字幕生成装置のユーザは、合成映像を視認することにより、音声発生物体の映像と、その音声発生物体から発生される音声の字幕とを、容易かつ確実に認識することができる。
この発明に係る字幕生成装置、字幕生成方法および字幕生成プログラムによれば、映像信号に基づいて音声発生物体の映像の表示位置が検出され、音声信号に基づいて音声発生物体の音声の発生位置が推定される。そして、検出された音声発生物体の映像の表示位置と、推定された音声発生物体の音声の発生位置とが、関連付けられる。
関連付けられた映像の表示位置および音声の発生位置に基づいて、音声発生物体の映像の表示位置に対応する位置に、その音声発生物体から発生される音声の字幕が配置されることにより、合成映像が生成される。
これにより、字幕生成装置のユーザは、合成映像を視認することにより、音声発生物体の映像と、その音声発生物体から発生される音声の字幕とを、容易かつ確実に認識することができる。
以下、本発明の一実施の形態に係る字幕生成装置について説明する。
(1) 字幕生成装置の構成
図1は、本発明の一実施の形態に係る字幕生成装置の構成を説明するためのブロック図である。図1に示すように、本発明の一実施の形態に係る字幕生成装置200には、映像音声入力装置100、映像出力装置300および音声出力装置400が接続される。
映像音声入力装置100は、例えばチューナを備える放送受信装置である。この場合、映像音声入力装置100は、デジタル放送を受信することにより、選局された放送局の放送信号を抽出し、その放送信号から映像信号V1および音声信号A1を分離する。なお、映像音声入力装置100はアナログ放送を受信してもよい。
映像音声入力装置100は、映像信号V1および音声信号A1を字幕生成装置200に与える。字幕生成装置200は、与えられた映像信号V1および音声信号A1に基づいて字幕映像信号WSを生成し、映像信号V1に重畳する。これにより、字幕合成映像信号WVが生成される。
字幕生成装置200は、字幕合成映像信号WVを映像出力装置300へ出力する。また、字幕生成装置200は、字幕合成映像信号WVと同期する音声信号A1を音声出力装置400へ出力する。
映像出力装置300は、例えば液晶ディスプレイパネルまたはプラズマディスプレイパネルにより構成される。これにより、映像出力装置300が備える画面上に、字幕合成映像信号WVに基づいて字幕が付加された映像が表示される。音声出力装置400は、例えばスピーカにより構成される。これにより、音声信号A1に基づく音声が音声出力装置400から出力される。
字幕生成装置200の構成を説明する。図1に示すように、字幕生成装置200は、バッファ部1、同期信号検出部2、映像/音声認識部3、制御部4、映像/音声分類部5、文章生成部6、文字合成部7、ビデオメモリ8および字幕合成部9を含む。
字幕生成装置200において、映像音声入力装置100から与えられる映像信号V1および音声信号A1は、ともにバッファ部1、同期信号検出部2および映像/音声認識部3に与えられる。
バッファ部1は、フレームメモリ等からなり、与えられた映像信号V1および音声信号A1をフレーム単位で一時的に蓄積する。同期信号検出部2は、映像信号V1および音声信号A1に含まれるヘッダからフレームごとの同期信号を時間情報SYとして抽出し、制御部4へ与える。
映像/音声認識部3は、映像認識部3aおよび音声認識部3bを備える。映像認識部3aは、与えられた映像信号V1に基づいて後述する映像認識処理を行う。これにより、映像認識情報IF1が得られる。また、音声認識部3bは、与えられた音声信号A1に基づいて後述する音声認識処理を行う。これにより、音声認識情報IF2が得られる。映像認識情報IF1および音声認識情報IF2は制御部4に与えられる。
映像認識情報IF1とは、映像信号V1に基づいて映像出力装置300の画面上に表示される映像に関する情報をいい、映像中の背景ならびに動作物体の位置および表示面積等の情報が含まれる。
また、音声認識情報IF2とは、音声信号A1に基づいて音声出力装置400から出力される音声に関する情報をいい、音声種類(台詞、効果音、騒音およびノイズ等)、および音声源の推定位置等の情報が含まれる。
音声種類が台詞である場合には、音声認識処理により音声信号A1が音声を一文字単位で表す文字コードに変換される。そして、連続する文字コードは、音声認識処理により文章(または文節)単位で区切られる。
さらに、音声認識処理時には、一文字単位の文字コードの音声に関して周波数特性も取得される。映像認識情報IF1および音声認識情報IF2の詳細は後述する。
制御部4は、例えばCPU(中央演算処理装置)およびメモリ等の記憶装置4Rから構成される。制御部4は、字幕生成装置200の各構成部の動作を制御する。なお、記憶装置4Rは制御部4の外部に設けられてもよい。
制御部4において、同期信号検出部2から与えられる時間情報SYならびに映像/音声認識部3から与えられる映像認識情報IF1および音声認識情報IF2が記憶装置4Rに記憶される。
映像/音声分類部5は、映像分類部5aおよび音声分類部5bを備える。映像分類部5aは、記憶装置4Rに記憶された映像認識情報IF1に基づいて映像分類処理を行う。
映像分類処理では、認識された動作物体ごとに映像認識情報IF1が分類されることにより映像分類情報CT1が生成される。映像分類情報CT1は、記憶装置4R内に設けられた映像分類テーブルに格納される。映像分類処理の詳細は後述する。
音声分類部5bは、記憶装置4Rに記憶された音声認識情報IF2に基づいて後述する音声分類処理を行う。
音声分類処理では、認識された音声源ごとに音声認識情報IF2が分類されることにより音声分類情報CT2が生成される。音声分類情報CT2は、記憶装置4R内に設けられた音声分類テーブルに格納される。音声分類処理の詳細は後述する。
制御部4は、映像分類情報CT1および音声分類情報CT2に基づいて、動作物体と音声源とを関連付ける紐付け処理を行う。
この紐付け処理は、例えば映像認識処理により認識された映像上の動作物体の位置を空間座標系に展開したときの座標値と、音声認識処理により認識された音声源の推定位置を空間座標系に展開したときの座標値とを比較することにより行う。
制御部4は、映像上の動作物体から得られる座標値と、推定される音声源の座標値とが近い場合、すなわち所定のしきい値以下である場合に、それらの動作物体と音声源とが同一であると認識する。
このようにして、制御部4は、紐付け処理により、映像認識処理により認識された映像上の動作物体と、音声認識処理により認識された音声源とを関連付けする。そして、音声源ごとに分類された文字コードが、各動作物体に関連付けされる。詳細は後述する。
文章生成部6は、記憶装置4Rの音声分類テーブルから文字コードを取得するとともに、連続する文字コードについて仮名漢字変換を行うことにより字幕文章信号WCを生成し、制御部4に与える。
記憶装置4R内には、字幕の文章、その表示時間および表示位置等の情報を格納する文章生成テーブルが設けられている。制御部4は、時間情報SY、字幕文章信号WC、映像分類情報CT1および音声分類情報CT2から、字幕の映像をフレーム単位で生成するための情報を抽出し、文章生成テーブルに格納する。詳細は後述する。
文字合成部7は、文章生成テーブルに格納された情報に基づいて字幕映像信号WSを生成し、制御部4に与える。制御部4は、与えられた字幕映像信号WSをビデオメモリ8に記憶する。
ビデオメモリ8は、例えば2フレーム分の字幕映像信号WSを保持できるフレームメモリを備え(ダブルバッファ構造)、制御部4から与えられる字幕映像信号WSをフレーム単位で一時的に記憶する。
ビデオメモリ8に記憶されたフレーム単位の字幕映像信号WSは、制御部4によりバッファ部1へ送られる。これにより、バッファ部1には、フレーム単位の映像信号V1および音声信号A1に加えて字幕映像信号WSが蓄積される。
制御部4は、時間情報SYに基づいて映像信号V1、音声信号A1および字幕映像信号WSの出力をバッファ部1に指令する。これにより、映像信号V1および字幕映像信号WSが字幕合成部9に入力される。
字幕合成部9は、映像信号V1に字幕映像信号WSを重畳することにより字幕が付加された映像を示す字幕合成映像信号WVをフレーム単位で生成する。上述のように、生成された字幕合成映像信号WVは映像出力装置300に出力される。また、字幕合成映像信号WVに同期する音声信号A1が音声出力装置400に出力される。
(2) 字幕生成装置の動作フロー
図2は、図1の字幕生成装置200が行う一連の動作を示すフローチャートである。字幕生成装置200は、初めに図1の映像音声入力装置100から与えられる映像信号V1および音声信号A1から時間情報SYを取得する(ステップS11)。
次に、字幕生成装置200は、フレーム単位で映像信号V1を蓄積する(ステップS21)。また、字幕生成装置200は、フレーム単位で音声信号A1を蓄積する(ステップS31)。さらに、字幕生成装置200は、映像信号V1に対して、音声信号A1に基づく字幕を重畳するための字幕生成処理を行う(ステップS40)。これらのステップS21,S31,S40の動作は並行して行われる。
字幕生成処理の詳細な動作フローは次の通りである。字幕生成装置200は、与えられた映像信号V1に基づいて映像認識処理を行った後(ステップS41)、映像分類処理を行う(ステップS42)。これにより、上述の映像分類情報CT1が得られる。
ステップS41,S42の動作と並行して、字幕生成装置200は、与えられた音声信号V2に基づいて音声認識処理を行った後(ステップS51)、音声分類処理を行う(ステップS52)。これにより、上述の音声分類情報CT2が得られる。ステップS41,S51およびステップS42,S52の動作は、それぞれ並行して行われる。
その後、字幕生成装置200は、映像分類情報CT1および音声分類情報CT2に基づいて、紐付け処理を行い、映像上の動作物体と音声源とを関連付ける(ステップS43)。
なお、字幕生成装置200による紐付け処理は、ステップS41,S42,S51,S52の動作と並行して行われてもよい。
例えば、字幕生成装置200は、映像認識情報IF1に含まれる動作物体の情報と、音声認識情報IF2に含まれる音声源の情報とを紐付け処理により関連付ける。
その後、字幕生成装置200は、音声分類情報CT2に基づいて画面に表示する字幕の文章を生成する(ステップS44)。すなわち、字幕生成装置200は、連続する文字コードを漢字および仮名に変換する。
続いて、字幕生成装置200は、画面上に表示すべき字幕の映像(字幕映像信号WS)をフレーム単位で作成し(ステップS45)、蓄積する(ステップS46)。
上記のステップS41〜ステップS46およびステップS51,S52の動作がステップS40の字幕生成処理を構成する。
次に、字幕生成装置200は、映像信号V1および音声信号A1から得られる時間情報SYの同期信号に基づいて、蓄積された映像信号V1、音声信号A1および字幕映像信号WSの出力タイミングを決定し、決定したタイミングで各信号を出力する(ステップS47)。
字幕生成装置200は、各信号を出力するとともに、その出力時に映像信号V1および字幕映像信号WSの合成を行う(ステップS61)。これにより、上述の字幕合成映像信号WVが生成され、出力される。ステップS47およびステップS61の動作後、字幕生成装置200は、ステップS11の動作に戻る。
なお、図2に示すように、字幕生成装置200に与えられる映像信号V1および音声信号A1が、デジタル信号である場合には、それぞれの信号V1,A1に含まれるヘッダから、時間情報SYが取得される。それにより、映像信号V1および音声信号A1の各々の時間情報SYが取得される。
これに対して、字幕生成装置200に与えられる映像信号V1および音声信号A1がアナログ信号である場合、字幕生成装置200は映像信号V1に含まれる同期信号を取得する。
そして、字幕生成装置200は制御部4に内蔵されるタイマをオンする。これにより、字幕生成装置200は、映像信号V1から入力される同期信号および制御部4のタイマで計測される時間に基づいて音声信号A1の時間情報SYを取得する。時間情報SYは、紐付け処理、ならびに映像信号V1、音声信号A1および字幕映像信号WSの出力タイミング等を算出するために用いられる。
なお、図2のフローチャートは、字幕生成装置200内の各構成部の動作を示しているが、上記のフローチャートで示されるプログラムを記憶装置4Rに記憶させることにより、制御部4のCPUが記憶装置4Rに記憶されたプログラムに基づいて各構成部の動作を制御してもよい。
以下、映像認識処理、音声認識処理、映像分類処理および音声分類処理の詳細について、具体例を示しつつ説明する。
(3) 字幕生成装置の動作例
図3は、音声認識情報IF2および音声分類情報CT2を説明するための図である。
図3(a)に、映像出力装置300の画面SC1に複数の人物P1,P2,P3およびヘリコプターHCが表示され、複数の人物P1,P2,P3により台詞S1,S2,S3がそれぞれ発声され、ヘリコプターHCから飛行音E1が発生される様子が示されている。このような番組の映像信号V1および音声信号A1が字幕生成装置200に入力される場合を説明する。
図3(a)の番組では、複数の人物P1,P3,P2がこの符号の順に画面SC1の左端から中央にかけて並ぶとともに、画面SC1の右端にヘリコプターHCが位置している。台詞S1,S2,S3は、この符号の順で複数の人物P1,P2,P3から発声される。
図3(a)の番組の映像信号V1および音声信号A1が字幕生成装置200に入力される。この場合、音声認識部3bにより音声認識処理が行われ、例えば図3(b)に示す音声認識情報IF2が生成される。
図3(b)に示すように、本例では、音声認識情報IF2に、音声の種類が含まれる。図3(b)では、音声の種類として「効果音」、「騒音」、「台詞」および「ノイズ」が例示されている。
音声の種類は、音声信号A1から得られる音声の周波数特性および音量(振幅)等に基づいて図1の音声認識部3bにより識別される。本例では、音声認識部3bにより、人物P1,P2,P3から発せられる音声が台詞と識別され、ヘリコプターHCから発せられる音声が騒音と識別される。
そして、音声認識部3bは、台詞と識別された音声の文字コードへの変換とともに、連続する文字コードを文章ごとに区切る作業を行う。また、音声認識部3bは、台詞と識別された音声について、文字コードの一文字単位で周波数特性等を取得する。詳細は後述する。
なお、音声認識部3bは、台詞以外の種類に識別された音声について、文字コードへの変換を行ってもよい。
さらに、映像音声入力装置100によりステレオ放送が受信される場合、音声認識部3bは、2チャンネルのステレオ音声信号に基づいて音声源の位置を推定する。例えば、一方のチャンネルと他方のチャンネルとで同じ周波数特性を有する音声信号の振幅を比較することにより音声源の位置を推定する。
それにより、図3(b)に示すように、「騒音:バリバリ・・・」の音声源が画面SC1の右端に位置し、「台詞:こんにちは」の音声源が画面SC1の左端に位置し、「台詞:わたしはぴーつーです」の音声源が画面SC1のやや左側に位置し、「台詞:はじめまして」の音声源が画面SC1の中央に位置することが推定される。
このように、音声認識部3bによる音声認識処理が行われることにより、図3(b)の音声認識情報IF2が記憶装置4Rに記憶される。その後、音声分類部5bにより音声分類処理が行われる。
図3(c)に、図3(b)の音声認識情報IF2に基づいて生成される音声分類情報CT2の一例が示されている。
音声分類部5bは、音声信号A1から得られる音声の周波数特性、または推定される音声源の位置情報に基づいて、音声認識情報IF2により識別された「台詞:こんにちは」、「台詞:わたしはぴーつーです」および「台詞:はじめまして」を、それぞれ異なる人物により発声された台詞であると識別する。この識別方法の具体例は後述する。
そこで、音声分類部5bは、上記の台詞に対応する人物を仮に人物Q1,Q2,Q3として認識し、これらの人物に種々の情報を対応付ける。
例えば、音声分類部5bは、音声認識処理により得られた「台詞:こんにちは」の文字コード、「台詞:わたしはぴーつーです」の文字コード、および「台詞:はじめまして」の文字コードを人物Q1,Q2,Q3に対応付けるとともに、各台詞に対応する音声源の推定位置を人物Q1,Q2,Q3に対応付ける。
さらに、音声分類部5bは、各台詞の字幕の表示時間を時間情報SYに基づいて人物Q1,Q2,Q3ごとに設定し、分類する。また、音声分類部5bは、各台詞の字幕の表示色を、人物Q1,Q2,Q3ごとに設定し、分類する。
このようにして音声分類処理が行われ、音声分類情報CT2が生成される。音声分類情報CT2は記憶装置4Rの音声分類テーブルに格納される。
ここで、図1の制御部4による紐付け処理が行われる。このときの紐付け処理について説明する。
本例では、映像認識処理により、図3(a)に示したように、複数の人物P1,P3,P2がこの順で画面SC1の左端から中央にかけて並ぶ旨が認識される。これにより、制御部4は、映像認識処理により認識される人物P1,P2,P3の画面上での位置と、音声分類情報CT2として記憶された仮の人物Q1,Q2,Q3の推定位置とを比較する。
それにより、制御部4は、映像上の動作物体として認識した人物P1,P2,P3と、仮の人物Q1,Q2,Q3とを関連付ける。このようにして、紐付け処理により、映像上の動作物体である人物P1,P2,P3と、各人物の台詞である音声とが関連付けされる。
図4は、文章生成テーブル、字幕映像信号WSに基づく映像および字幕合成映像を説明するための図である。
上述のように、図1の文章生成部6は、音声認識処理により変換された文字コードの仮名漢字変換を行い、字幕文章信号WCを生成する。生成された字幕文章信号WCは、図4(a)に示すように、記憶装置4Rの文章生成テーブルに格納される。
ここで、制御部4は、字幕を表示すべき画面上の位置(字幕位置)を設定する。図4(a)では、映像出力装置300の画面上に2次元座標系を定義することにより、字幕位置が座標値で表示されている。
なお、制御部4は、上記の紐付け処理を行う際に、図3(a)の画面右端に表示されるヘリコプターHCと図3(b)の「騒音:バリバリ・・・」の音声源との紐付け処理を行ってもよい。この場合、制御部4は、騒音の字幕位置を設定することができる。
図4(b)に、字幕映像信号WSに基づく映像の一例が示されている。なお、本例では、字幕の表示時間は考慮しない。図4(b)では、字幕文章信号WCに基づく字幕が文字列C1,C2,C3で示されている。これらの文字列C1,C2,C3は、図3の台詞S1,S2,S3から生成されたものであり、図3の人物P1,P2,P3に関連付けされている。
また、図3のヘリコプターHCの飛行音E1から生成された字幕文章信号WCに基づく字幕が文字列CXで示されている。なお、各文字列C1,C2,C3,CXは、それぞれ文章生成テーブルで設定された表示色で表示される。
図4(b)の字幕映像信号WSと映像信号V1とが合成されることにより、字幕合成映像信号WVが生成され、映像出力装置300の画面SC1上に図4(c)に示すような字幕合成映像が表示される。
(4) 音声認識処理および音声分類処理の一例
図1の音声認識部3bによる音声認識処理および音声分類部5bによる音声分類処理の一例を説明する。図5は、図1の音声認識部3bによる音声認識処理および音声分類部5bによる音声分類処理の一例を示す図である。
以下の説明では、音声認識部3bに図3および図4で説明した人物P1,P2,P3の台詞S1,S2,S3を含む音声信号A1が与えられるものとする。
音声認識部3bは、音声信号A1が与えられることにより音声認識処理として、例えば以下の処理を行う。
図5(a)に示すように、音声認識部3bは、与えられた音声信号A1を文字コードに変換する。
ここで、音声認識部3bは、さらに文字コードの一文字単位で音声の周波数特性を取得する。そして、取得した周波数特性に基づいて、連続する文字コードに変換された音声の種類を識別する。本例では、連続する文字コード「は、じ、め、ま、し、て、わ、た、・・」に変換された音声の種類が「台詞」であると識別される。
上述のように、音声認識部3bの音声認識処理により得られた文字コード、周波数特性および音声の種類は、音声認識情報IF2として図1の記憶装置4Rに記憶される。
音声分類部5bは、記憶装置4Rに記憶された音声認識情報IF2に基づく音声分類処理として、例えば以下の処理を行う。
初めに、音声分類部5bは、連続する文字コードから文章を識別し、文章ごとに文字コードを分離する。文章の識別は、日本語入力プログラム等により一般的に用いられる方法により行われる。
図5(b)に音声分類部5bによる音声分類処理の一例が示されている。図5(b)に示すように、音声分類部5bは、初めの文章を表す文字コード「はじめまして」と次の文章を表す文字コード「わたしはぴーつーです」とを分離する。
このように、音声分類部5bは、文章ごとに文字コードを分離し、分離した各文章の文字コードに同じ文字が存在するか否かを判別する。
図5(b)の例では、初めの文章の文字コードと次の文章の文字コードとの間で、文字「し」が共通して用いられている。
このとき、音声分類部5bは、初めの文章の文字「し」に対応する周波数特性(声紋)と、次の文章の文字「し」に対応する周波数特性とを記憶装置4Rに記憶された音声認識情報IF2から抽出する。
なお、音声分類部5bは各文章の文字コードに同じ文字が存在しない場合でも、初めの文章の文字コードと次の文章の文字コードとの間で共通の母音を有する文字が存在する場合には、それらの文字に対応する周波数特性を抽出してもよい。
そして、音声分類部5bは、初めの文章の文字から抽出した周波数特性を基準として、次の文章の文字から抽出した周波数特性を対比する。
周波数特性の対比は、例えば、周波数分布の対比、中心周波数の対比等により行われる。音声分類部5bは、基準となる周波数特性(以下、基準周波数特性と呼ぶ)と対比の対象となる周波数特性(以下、対比周波数特性と呼ぶ)との間での一致の度合いを示すパラメータを一致率として定義する。
そこで、音声分類部5bは、さらに一致率についてしきい値を設定する。例えば、基準周波数特性と対比周波数特性とが完全に一致するときの一致率が100%であり、基準周波数特性と対比周波数特性とがほぼ一致するとみなすことが可能な一致率が70%である場合に、しきい値を70%に設定する。
この場合、音声分類部5bは、基準周波数特性と対比周波数特性との間の一致率が70%以上である場合に、初めの文章の文字コードと次の文章の文字コードとが同一の人物の台詞から取得されたものであると判別する。
また、音声分類部5bは、一致率が70%よりも低い場合に、初めの文章の文字コードと次の文章の文字コードとが異なる人物の台詞から取得されたものであると判別する。
図5(b)の例では、基準周波数特性と対比周波数特性との比較の結果、一致率が40%となっている。この場合、音声分類部5bは、初めの文章の文字コードと次の文章の文字コードとが異なる人物の台詞から取得されたものであると判別する。
図5(b)の例に示すように、初めの文章と次の文章とで発声する人物が異なると判別された場合、音声分類部5bは、初めの文章の文字コードおよびその周波数特性を例えば第1の人物に属する第1の文字コードおよび第1の周波数特性として音声分類テーブルに記憶し、次の文章の文字コードおよびその周波数特性を例えば第2の人物に属する第2の文字コードおよび第2の周波数特性として音声分類テーブルに記憶する。
音声分類部5bは、さらに次の文章が存在する場合、その文章の文字コードおよび周波数特性を、第1の文字コードおよび第1の周波数特性と比較し、第2の文字コードおよび第2の周波数特性と比較する。
音声分類部5bは、その文章がさらに他の人物の台詞から取得されたと判別することにより、その文章の文字コードおよびその周波数特性を例えば第3の人物に属する第3の文字コードおよび第3の周波数特性として音声分類テーブルに記憶する。
このようにして、音声分類部5bは、文章の文字コードおよびその周波数特性を、その文章を発声する人物とともに音声分類テーブルに記憶し、記憶した文字コードおよびその周波数特性に基づいて、台詞を発声する人物を識別する。
(5) 複数の人物が発声する際の音声認識処理および音声分類処理の一例
図6〜図11は、複数の人物が台詞を発声する際に図1の字幕生成装置200で行われる音声認識処理および音声分類処理の一例を説明するための図である。なお、以下の説明では、台詞を発声する人物の識別時に用いられる一致率のしきい値は70%に設定されているものとする。
図6(a)に、人物Aが表示された映像出力装置300(図1)の画面SC1と人物Aが発声する台詞とが示されている。上述のように、映像信号V1および音声信号A1が与えられることにより字幕生成装置200の音声認識部3bは、音声信号A1を文字コードに変換し、文字コードの一文字ごとに音声の周波数特性を取得する。
そして、音声分類部5bは、初めの文章を表す文字コード「びいさんしいさん・・・」およびその周波数特性を人物Aにより発声された台詞として一文字ごとに音声分類テーブルに記憶する。
そして、映像信号V1により得られる人物Aの映像と、音声分類テーブルに記憶された人物Aとが、制御部4により紐付けされる。その結果、映像出力装置300の画面SC1には、図6(b)に示すように、人物Aの映像の近傍に人物Aの発声した台詞の字幕が表示される。
なお、紐付け処理は音声分類部5bにより行われてもよい。この場合、音声分類テーブルに画面上の人物Aの位置、または字幕位置が記憶される。
続いて、図7(c)に、人物Aに加えて人物Bが登場するときの映像出力装置300の画面SC1と人物Aが発声する台詞とが示されている。この場合、音声認識部3bにより、人物Aに属する文章の文字コードおよびその周波数特性が取得される。
そこで、音声分類部5bは、音声分類テーブルに人物Aの台詞として記憶された文章の文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びいさんこんにちは」およびその周波数特性を一文字ずつ対比する。
本例では、音声分類部5bは、初めの文章および新たな文章に共通して用いられる文字「び」について、周波数特性の比較を行う。この比較は、初めの文章から取得される周波数特性を基準周波数特性とし、新たな文章から取得される周波数特性を対比周波数特性として行う。
その結果、同じ一文字の一致率がしきい値(70%)よりも大きい80%である場合、音声分類部5bは、新たに取得された文章の文字コード「びいさんこんにちは」およびその周波数特性が人物Aの台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Aにより発声されたものと判別する。
この場合、映像出力装置300の画面SC1には、図7(d)に示すように、人物Aの映像の近傍に人物Aの発声した新たな台詞の字幕が表示される。
図8(e)に、人物Aおよび人物Bが表示された映像出力装置300の画面SC1と人物Bが発声する台詞とが示されている。この場合、音声認識部3bにより、人物Bに属する文章の文字コードおよびその周波数特性が取得される。
そこで、音声分類部5bは、音声分類テーブルに人物Aの台詞として記憶された文章の文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びいです」およびその周波数特性を一文字ずつ対比する。
同じ一文字の一致率がしきい値(70%)よりも小さい30%である場合、音声分類部5bは、新たに取得された文章の文字コード「びいさんこんにちは」およびその周波数特性が人物Aと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Aにより発声されたものではないと判別する。
この場合、音声分類部5bは、図8(f)に示すように、新たに取得された文章の文字コード「びいです」およびその周波数特性を人物Bにより発声された台詞として音声分類テーブルに記憶する。
これにより、音声分類テーブルに人物Aおよび人物Bの2人の音声に基づく文字コードおよびその周波数特性が記憶される。
そして、映像信号V1により得られる人物Bの映像と、音声分類テーブルに記憶された人物Bとが、制御部4により紐付けされる。その結果、映像出力装置300の画面SC1には、図8(g)に示すように、人物Bの映像の近傍に人物Bの発声した台詞の字幕が表示される。
ここでも、紐付け処理は音声分類部5bにより行われてもよい。この場合、音声分類テーブルに画面上の人物Bの位置、または字幕位置が記憶される。
図9(h)に、人物Aおよび人物Bが表示された映像出力装置300の画面SC1と画面SC1に表示されない人物Cが発声する台詞とが示されている。この場合、音声認識部3bにより、人物Cに属する文章の文字コードおよびその周波数特性が取得される。
そこで、音声分類部5bは、音声分類テーブルに人物Aの台詞として記憶された文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文字コード「びいさんまつ・・・」およびその周波数特性を一文字ずつ対比する。
同じ一文字の一致率がしきい値(70%)よりも小さい50%である場合、音声分類部5bは、新たに取得された文章の文字コード「びいさんまつ・・・」およびその周波数特性が人物Aと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Aにより発声されたものではないと判別する。
また、音声分類部5bは、音声分類テーブルに人物Bの台詞として記憶された文字コード「びいです」およびその周波数特性を基準として、新たに取得された文字コード「びいさんまつ・・・」およびその周波数特性を一文字ずつ対比する。
同じ一文字の一致率がしきい値(70%)よりも小さい20%である場合、音声分類部5bは、新たに取得された文章の文字コード「びいさんまつ・・・」およびその周波数特性が人物Bと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Bにより発声されたものではないと判別する。
この場合、音声分類部5bは、図9(i)に示すように、新たに取得された文章の文字コード「びいさんまつ・・・」およびその周波数特性を人物Cにより発声された台詞として音声分類テーブルに記憶する。
これにより、音声分類テーブルに人物A、人物Bおよび人物Cの3人の音声に基づく文字コードおよびその周波数特性が記憶される。
その後、紐付け処理が行われるが、本例では、音声分類テーブルで記憶される人物Cが画面上に存在しない。この場合、文章生成部6は、音声分類テーブルに記憶された文字コードの音声源が画面上に存在しないと判別する。そして、文章生成部6は、字幕位置を画面上の所定の領域(標準位置)に決定する。
これにより、図10(j)に示すように、画面上に存在しない人物Cにより発声された台詞の字幕は画面上の標準位置NPに表示される。紐付け処理が音声分類部5bにより行われる場合には、音声分類部5bが字幕位置を標準位置NPに決定する。
図10(k)に、人物Aおよび人物Bに加えて人物Cが登場するときの映像出力装置300の画面SC1と人物Cが発声する台詞とが示されている。この場合、音声認識部3bにより、人物Cに属する文章の文字コードおよびその周波数特性が取得される。
そこで、音声分類部5bは、音声分類テーブルに人物Aの台詞として記憶された文章の文字コード「びいさんしいさん・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性を一文字ずつ対比する。
同じ一文字の一致率がしきい値(70%)よりも小さい50%である場合、音声分類部5bは、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性が人物Aと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Aにより発声されたものではないと判別する。
また、音声分類部5bは、音声分類テーブルに人物Bの台詞として記憶された文章の文字コード「びいです」およびその周波数特性を基準として、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性を一文字ずつ対比する。
同じ一文字の一致率がしきい値(70%)よりも小さい20%である場合、音声分類部5bは、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性が人物Bと異なる人物の台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Bにより発声されたものではないと判別する。
さらに、音声分類部5bは、音声分類テーブルに人物Cの台詞として記憶された文章の文字コード「びいさんまつ・・・」およびその周波数特性を基準として、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性を一文字ずつ対比する。
同じ一文字の一致率がしきい値(70%)よりも大きい90%である場合、音声分類部5bは、新たに取得された文章の文字コード「びつくりしま・・・」およびその周波数特性が人物Cの台詞から取得されたと判別する。すなわち、音声分類部5bは、新たな台詞が人物Cにより発声されたものと判別する。
その結果、映像出力装置300の画面SC1には、図11(l)に示すように、人物Cの映像の近傍に人物Cの発声した新たな台詞の字幕が表示される。
なお、人物ごとに、音声分類部5bは、複数の文章の文字コードおよびその周波数特性を記憶装置4Rに記憶してもよい。このように、人物ごとに記憶される文字コードおよびその周波数特性を蓄積することにより、音声源となる人物の誤認識が蓄積とともに徐々に低減される。
(6) 音声認識処理および音声分類処理の他の例
臨場感のある音声を出力するために、3個以上の複数のスピーカを備える音声出力装置400が開発されている。この音声出力装置400には、例えば各スピーカから独立の音声を出力させることができる音声信号A1が与えられる。以下の説明では、3チャンネル以上の音声信号A1をサラウンド音声信号と総称する。
図12は、サラウンド音声信号を生成するための音声の収録方法の一例を説明するための図である。図12に示すように、番組を収録する際に、例えば番組の収録現場で分散するように複数のマイクM1〜M5が配置される。
ここで、図12の左上に、3つの矢印で示すように、番組の収録現場内で互いに直交する3方向をX方向、Y方向およびZ方向と定義する。
分散するようにマイクM1〜M5が配置されることにより、各マイクM1〜M5で収録される音声(例えば、音量等)は異なる。
図12では、X方向における一方側(紙面左側)から順に人物A,C,Bが並ぶとともに、人物Aが台詞S1として「剣道です」と発声し、人物Bが台詞S2として「いきますね」と発声し、人物Cが台詞S3として「さあこい」と発声する様子が示されている。各人の発声音量はともに同じであるものとする。
図12において、人物Aは、マイクM4の近傍に位置する。この場合、マイクM4は人物Aの台詞S1を高い音量で取得する。一方、人物Cは、人物AよりもマイクM4から離れた場所に位置する。この場合、マイクM4は人物Cの台詞S3を人物Aの台詞S1よりも低い音量で取得する。
また、人物Bは、人物Aおよび人物CよりもマイクM4から離れた場所に位置する。この場合、マイクM4は人物Bの台詞S2を人物Aおよび人物Cの台詞S1および台詞S3よりも低い音量で取得する。
これに対して、人物Bの近傍に位置するマイクM5は人物Bの台詞S2を高い音量で取得し、人物Cの台詞S3を人物Bの台詞S2よりも低い音量で取得し、人物Aの台詞S1を人物Bおよび人物Cの台詞S2および台詞S3よりも低い音量で取得する。
このように収録されたサラウンド音声信号が、字幕生成装置200に入力される。このとき、図1の音声認識部3bは、例えば、複数のマイクM1〜M5で取得される個々の音声源からの音声の差異をサラウンド音声信号から取得する。これにより、音声認識部3bは、音声の差異に基づいて音声源の位置を正確に推定することが可能となる。
それにより、推定される音声源の位置をX方向、Y方向およびZ方向からなる3次元座標系に展開し、展開により得られた座標値を音声分類情報CT2として音声分類テーブルに格納することができる。
その結果、音声認識処理により推定される音声源の位置精度が向上されるとともに、音声源の位置を正確に取得することができるので、図1の制御部4または音声分類部5bによる紐付け処理がより正確に行われる。
(7) 映像認識処理および映像分類処理の一例
映像認識処理および映像分類処理の一例について説明する。図13は、映像認識処理および映像分類処理の一例を説明するための図である。
図13に示す収録現場がビデオカメラにより撮影される。この場合、撮影により取得された映像信号V1(図1)が映像認識部3a(図1)に与えられる。映像認識部3aは、映像信号V1に基づいて動作物体と背景とを識別する。
なお、動作物体の識別は、物体の移動速度等により判別することができる。
図13の収録現場においては、人物A,B,Cのみが移動している。この場合、映像認識部3aは、人物A,B,Cが動作物体である旨を認識し、その旨を映像認識情報IF1として図1の記憶装置4Rに記憶する。
また、映像認識部3aは、壁の輪郭82,83および木84が静止物体である旨を認識するとともに、その旨を映像認識情報IF1として記憶装置4Rに記憶する。
このように、映像分類部5aは、動作物体である人物A,B,Cの画面上の表示領域MA,MB,MCを認識することにより、それらの表示面積ならびに収録現場における動作物体および静止物体の位置を推定することが可能となる。
本例においても、図12の例と同様に、図13の3つの矢印で示すように、互いに直交する3方向をX方向、Y方向およびZ方向と定義する。
それにより、映像分類部5aは、動作物体の位置をX方向、Y方向およびZ方向からなる3次元座標系に展開し、展開により得られた座標値を映像分類情報CT1として映像分類テーブルに格納することができる。
その結果、動作物体の位置を正確に取得することができるので、図1の制御部4による紐付け処理がより正確に行われる。また、図12で示したように、音声認識処理および音声分類処理により音声源の位置が空間座標系で正確に推定される場合、制御部4による紐付け処理がさらに容易かつ正確に行われる。
(8) 字幕位置の設定例
図1の制御部4は、例えば次のように字幕位置を設定する。図14は、図1の文章生成部6による字幕位置の設定例を説明するための図である。
図14(a)に映像中の動作物体として、人物Bおよび人物Cが示されている。ここで、人物Bの表示領域MBが矢印BBで示される速度で移動し、人物Cの表示領域MCが矢印CBで示される速度で移動する場合を想定する。
このとき、映像認識部3a(図1)は、一のフレームにおける人物B,Cの表示領域MB,MCを認識するとともに、各表示領域MB,MCの重心位置を算出する。また、映像認識部3aは、さらに次のフレームにおける人物B,Cの表示領域MB,MCを認識するとともに、各表示領域MB,MCの重心位置を算出する。
それにより、映像認識部3aは、人物Bおよび人物Cのフレーム間の移動距離を算出する。また、映像認識部3aは、算出した移動距離に基づいて人物B,Cの重心位置の速度(速さの大きさおよび向き)を算出する。
そして、映像認識部3aは、人物B,Cの移動距離および速度を映像認識情報IF1として制御部4へ与える。これらの情報は、制御部4の記憶装置4Rに記憶される。
ここで、図14(b)では、図14(a)から1秒後のフレームの映像が示されている。
人物B,Cが移動とともに発声する場合、制御部4は、人物B,Cの速度に基づいて、さらに次のフレームにおける人物B,Cの表示領域を算出し、字幕位置の座標を決定する。
または、制御部4は、人物B,Cの速度に基づいて、所定時間経過後における人物B,Cの到達位置を予測し、予測された到達位置の近傍に字幕位置の座標を決定してもよい。
特に、制御部4は、字幕位置を設定する際に、動作物体である人物B,Cが重なりあうと予測した場合には、人物B,Cの「台詞S2:いきますね」および「台詞S3:さあこい」の字幕位置が重なりあわないように、各台詞S2,S3の字幕位置を調整する。
このように、制御部4が各人物B,Cの字幕位置を調整することにより、ユーザは、音声源と字幕として表示される文字列との対応関係を正確に認識することができる。
また、上述のように、音声分類部5bでは、各台詞の字幕の表示色が人物B,Cごとに設定されている。図14(b)の例では、人物Bの台詞S2に基づく文字列2Cおよび人物Cの台詞S3に基づく文字列3Cが、それぞれ黄色および青色で表示される例が示されている。
このように、字幕の表示色が人物B,Cごとに設定されることにより、ユーザは、音声源と字幕として表示される文字列との対応関係をさらに正確に認識することができる。
上記に加えて、例えば映像中に複数の動作物体が存在し、各動作物体から音声が発生される場合、各動作物体の字幕位置は、各動作物体の映像の重心位置とその動作物体の音声の字幕の重心位置との距離が、その動作物体の映像の重心位置と他の動作物体の字幕の重心位置との距離よりも短くなるように設定することが好ましい。この場合、複数の動作物体の映像と複数の動作物体から発生される音声の字幕との対応関係を容易かつ確実に認識することができる。
なお、各動作物体の字幕位置は、各動作物体の映像の重心位置と各動作物体の音声の字幕の重心位置との距離に基づいて設定する代わりに、各動作物体の映像の表示領域(輪郭)と各動作物体の音声の字幕の表示領域(輪郭)との最短距離に基づいて設定してもよい。
この場合、例えば、各動作物体の字幕位置は、各動作物体の映像の表示領域とその動作物体の音声の字幕の表示領域との最短距離が、その動作物体の映像の表示領域と他の動作物体の字幕の表示領域との最短距離よりも短くなるように設定する。
(9) 各テーブルの具体的な生成例
図15は、字幕生成装置200による音声分類テーブル、映像分類テーブルおよび文章生成テーブルの生成例を示す図である。
図15(a)に音声分類テーブルの一例が示されている。この音声分類テーブルにおいては、文字コード、音声の出力時間、字幕の表示色および音声源の推定位置が、人物A,B,Cにより分類されている。
一方、図15(b)に映像分類テーブルの一例が示されている。この映像分類テーブルにおいては、表示領域の面積、表示領域の重心位置および速度が人物A,B,Cにより分類されている。
上述のように、制御部4による紐付け処理では、音声分類テーブルに記憶されている音声源の位置と、映像分類テーブルに記憶されている人物A,B,Cの表示領域の重心位置とが比較される。
それにより、音声認識処理で認識された人物A,B,Cと、映像認識処理により動作物体として認識された人物A,B,Cとの関連付けが行われる。
このようにして、図1の制御部4により音声分類テーブルの人物A,B,Cと映像分類テーブルの人物A,B,Cとが関連付けされることにより、文章生成部6は文章生成テーブルを生成する。
具体的には、文章生成部6は、文字コードの仮名漢字変換を行うことにより、字幕の文章を作成する。
そして、文章生成部6は、図15(c)に示すように、人物Aについて、字幕の文章、その表示時間および字幕の表示色を文章生成テーブルに格納する。また、制御部4により設定された人物Aの字幕位置を文章生成テーブルに格納する。文章生成部6は、同様の動作を他の人物B,Cについても行う。
(10) 字幕映像信号の生成例
図16は、図1の文字合成部7による字幕映像信号WSの生成例を示す図である。図16(a)に文章生成テーブルの一例が示されている。図1の文字合成部7は、文章生成部6により生成された文章生成テーブルから時間情報SYを抽出する。
図16(a)の文章生成テーブルにおいては、人物Aの音声に10秒の時間情報SYが分類されている。これにより、文字合成部7は、例えば番組の開始から10秒経過時に人物Aの台詞が映像出力装置300の画面SC1(図3)上に表示されるように、人物Aの台詞を示す字幕映像信号WSを生成する。
同様に、文字合成部7は、文章生成テーブルに格納された各情報に基づいて、番組の開始から15秒経過時に人物Bの台詞が映像出力装置300の画面SC1上に表示されるように、人物Bの台詞を示す字幕映像信号WSを生成する。
また、文字合成部7は、文章生成テーブルに格納された各情報に基づいて、番組の開始から20秒経過時に人物Cの台詞が映像出力装置300の画面SC1上に表示されるように、人物Cの台詞を示す字幕映像信号WSを生成する。
図16(b)に、図16(a)の文章生成テーブルから生成された字幕映像信号WSに基づく映像が時間とともに変化する様子が示されている。
図16(a)の文章生成テーブルから生成された字幕映像信号WSにより、ユーザは、番組の開始から10秒後に、文字列「剣道です」が画面左端に赤色で表示されたフレームの映像FV1を得ることができる。
また、ユーザは、番組の開始から15秒後に、文字列「いきますね」が画面中央に青色で表示されたフレームの映像FV2を得ることができる。さらに、ユーザは、番組の開始から20秒後に、文字列「さあこい」が画面中央に黄色で表示されたフレームの映像FV3を得ることができる。
(11) バッファ部における信号の蓄積および出力例
図17は、図1の映像信号V1、音声信号A1および字幕映像信号WSが図1のバッファ部1に蓄積される様子を示す概念図である。
図17に示されるように、バッファ部1には、映像記憶領域RV、音声記憶領域RAおよび字幕記憶領域RSが設けられている。
上述のように、バッファ部1においては、映像音声入力装置100から字幕生成装置200に入力される映像信号V1および音声信号A1が制御部4によりフレーム単位で記憶される。
図17では、映像信号V1のフレームごとの映像VV1,VV2,VV3〜VVNが、バッファ部1の映像記憶領域RVに蓄積される様子が示されている(映像の書き込み)。
また、音声信号A1のフレームごとの音声AA1,AA2,AA3〜AANが、バッファ部1の音声記憶領域RAに蓄積される様子が示されている(音声の書き込み)。
ここで、上述のように、字幕生成装置200では、映像信号V1および音声信号A1に基づいて生成された字幕映像信号WSが図1のビデオメモリ8に記憶される。制御部4は、ビデオメモリ8に記憶されたフレーム単位の字幕映像信号WSをバッファ部1に蓄積させる。
図17では、字幕映像信号WSのフレームごとの字幕映像SS1,SS2,SS3〜SSNが、バッファ部1の字幕記憶領域RSに蓄積される様子が示されている(字幕映像の書き込み)。
ここで、制御部4は、同期信号検出部2から得られる時間情報SYに基づいてバッファ部1内に格納されるフレームごとの映像VV1〜VVN、音声AA1〜AANおよび字幕映像SS1〜SSNを同期させる。
バッファ部1は、制御部4から各信号の出力を指令する再生信号PBに応答して、同期された映像信号V1(映像VV1〜VVN)、音声信号A1(音声AA1〜AAN)および字幕映像信号WS(字幕映像SS1〜SSN)を順次出力する。換言すれば、バッファ部1内に格納された映像信号V1(映像VV1〜VVN)、音声信号A1(音声AA1〜AAN)および字幕映像信号WS(字幕映像SS1〜SSN)が制御部4により順次読み出される。
(12) 字幕合成部による字幕合成映像信号の生成例
上述のように、字幕合成部9には、バッファ部1から映像信号V1および字幕映像信号WSがフレーム単位で入力される。字幕合成部9は、映像信号V1に字幕映像信号WSを重畳し、字幕合成映像信号WVをフレーム単位で生成する。
図18は、図1の字幕合成部9による字幕合成映像信号WVの生成例を示す図である。
図18(a)に、バッファ部1から出力される映像信号V1および音声信号A1に基づくフレームごとの映像および台詞S1〜S3が示されている。
図18(a)に示すように、バッファ部1においては、映像信号V1および音声信号A1が入力された時刻INから所定期間(バッファ期間BF)経過することにより映像信号V1および音声信号A1が出力される。
この場合、図18(a)の例では、時刻INからバッファ期間BF経過後のX秒において、人物Aが画面上に登場するとともに台詞S1を発声している。その5秒後に、人物Bが画面上に登場するとともに台詞S2を発声している。さらにその5秒後に、人物Cが画面上に登場するとともに台詞S3を発声している。
図18(b)にバッファ部1から出力される映像信号V1のフレームの映像が示され、図18(c)にバッファ部1から出力される字幕映像信号WSのフレームの映像が示されている。
上述のように、バッファ部1からの各信号の出力は、制御部4により制御されている。制御部4は、時間情報SYに基づいてバッファ部1内の各信号の同期を取るとともに、各信号の出力を制御している。
その結果、図18(d)に示すように、字幕合成部9では、正確に同期された映像信号V1および字幕映像信号WSが合成され、字幕合成映像信号WVが生成される。
(13) 番組に応じた処理設定
上記では、音声認識処理、音声分類処理、映像認識処理および映像分類処理について、それぞれ具体例を説明したが、制御部4は、ユーザが視聴する番組ごとに各処理の設定を調整してもよい。
映像音声入力装置100がデジタル放送の番組を受信する場合、字幕生成装置200には、EPG(電子番組ガイド)データも与えられる。EPGには、番組のジャンルに関する情報も含まれる。
図19は、EPGデータの一例を示す図である。図19に示すように、EPGデータによれば、番組ごとに、その名称およびジャンルを識別することが可能となる。
そこで、例えば制御部4は、字幕生成装置200にEPGデータが与えられることにより、そのEPGデータに基づいて現在視聴する番組のジャンルを識別し、番組のジャンルに応じて音声認識処理、音声分類処理、映像認識処理および映像分類処理の設定を調整する。
具体例を説明する。例えば、ユーザが視聴する番組のジャンルがニュースである場合、その音声信号A1には、一般にサラウンド音声信号は用いられず、ステレオ音声信号が用いられる。
この場合、制御部4は、音声認識部3bを制御することにより、ステレオ音声信号による音声源の推定を行う。
サラウンド音声信号に基づく音声源の推定では詳細な位置を推定することが可能であるが、ニュース番組等の登場人物が小なく、登場人物の動きが小さい番組では、大まかな登場人物の場所がステレオ音声信号に基づいて推定できればよい。
また、上述のように、映像認識処理において、動作物体は、フレーム間で動作する物体の速度の大きさが所定の値(速度しきい値)を超えることにより識別される。したがって、例えばニュース番組等、登場人物の動作が非常に小さい番組では、速度しきい値を小さく設定する。これにより、登場人物の動作が非常に小さい番組でも映像上の各人物の識別が正確に行われる。
一方、スポーツ中継等の番組では、観客の動き等のこまやかな動きが映像の全体に渡って生じる場合がある。したがって、この場合、速度しきい値を大きく設定する。それにより、動作物体の誤認識が低減される。
また、制御部4は、番組のジャンルに応じて図5で説明した一致率のしきい値を調整してもよい。このように、番組に応じた音声認識処理を行うことができる。
さらに、制御部4は、紐付け処理時に、映像分類情報CT1から得られる動作物体の位置と、音声分類情報CT2から得られる音声源の推定位置とを比較することにより、それらの動作物体と音声源とが同一であるか否かを判別する。ここで、制御部4は、このときに用いるしきい値を番組のジャンルに応じて変更してもよい。それにより、番組のジャンルに応じた最適な紐付け処理を行うことができる。
なお、上記のような各処理の設定は、番組のジャンルに限らず、番組の名称に基づいて調整してもよいし、使用者が自己の嗜好に応じて手動で調整してもよい。また、放送局がEPG(電子番組ガイド)データとして、各番組に対応する音声認識処理、音声分類処理、映像認識処理、映像分類処理および紐付け処理の設定条件を放送し、字幕生成装置200が受信した条件に基づいて各処理の設定を行ってもよい。
(14) 効果
本実施の形態に係る字幕生成装置200においては、映像認識部3aにより、入力される映像信号V1の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部3bにより、入力される音声信号A1の音声認識処理が行われれる。これにより、音声源の位置が推定される。
制御部4は、映像認識処理により識別された動作物体の情報と、音声認識処理により推定された音声源の位置情報とを比較することにより紐付け処理を行う。
それにより、音声信号A1に基づいて生成された字幕の位置が、映像上の動作物体の近傍に設定される。その結果、ユーザは、音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することが可能となる。
(15) 変形例
本実施の形態においては、映像音声入力装置100がデジタル放送を受信することにより、字幕生成装置200にデジタルの映像信号V1および音声信号A1が入力される例を説明した。これに限らず、映像音声入力装置100がアナログ放送を受信することにより、字幕生成装置200にアナログの映像信号V1および音声信号A1が入力されてもよい。
映像音声入力装置100は放送受信装置であるが、映像音声入力装置100は番組または映画等のコンテンツが記録された記録媒体の駆動装置であってもよい。このような駆動装置としては、例えばDVD(デジタルバーサタイルディスク)ドライブ等がある。
この場合においても、字幕生成装置200は、映像音声入力装置100から入力される映像信号V1および音声信号A1に基づいて上記と同様の処理を行う。
上記のように、本実施の形態に係る字幕生成装置200は、映像信号V1および音声信号A1からなる全てのコンテンツに適用できる。
(16) 各構成部の実現方法
本実施の形態において、図1で示す字幕生成装置200の構成部の一部がソフトウェアにより機能的に実現され、他の部分が電気回路等のハードウェア資源により実現されてもよい。あるいは、字幕生成装置200の構成部の全てがハードウェア資源により実現されてもよい。
(17) 請求項の各構成要素と実施の形態の各要素との対応
以下、請求項の各構成要素と実施の形態の各要素との対応の例について説明するが、本発明は下記の例に限定されない。
上記実施の形態では、人物P1,P2,P3,A,B,CおよびヘリコプターHCが音声発生物体、動作物体の例であり、人物P1,P2,P3,A,B,Cが複数の人物の例であり、制御部4、映像認識部3aおよび映像分類部5aが映像認識手段および映像位置検出手段の例であり、制御部4、音声認識部3bおよび音声分類部5bが音声認識手段および音声位置推定手段の例である。
また、映像認識情報IF1および映像分類情報CT1が映像情報の例であり、音声認識情報IF2および音声分類情報CT2が音声情報の例であり、制御部4および文章生成部6が字幕生成手段の例であり、制御部4、映像/音声認識部3および映像/音声分類部5が関連付け手段の例であり、制御部4、文字合成部7、ビデオメモリ8、バッファ部1および字幕合成部9が合成映像生成手段の例である。
本発明は、字幕を表示するために利用することができる。
本発明の一実施の形態に係る字幕生成装置の構成を説明するためのブロック図 図1の字幕生成装置が行う一連の動作を示すフローチャート 音声認識情報および音声分類情報を説明するための図 文章生成テーブル、字幕映像信号に基づく映像および字幕合成映像を説明するための図 図1の音声認識部による音声認識処理および音声分類部による音声分類処理の一例を示す図 複数の人物が台詞を発声する際に図1の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図 複数の人物が台詞を発声する際に図1の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図 複数の人物が台詞を発声する際に図1の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図 複数の人物が台詞を発声する際に図1の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図 複数の人物が台詞を発声する際に図1の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図 複数の人物が台詞を発声する際に図1の字幕生成装置で行われる音声認識処理および音声分類処理の一例を説明するための図 サラウンド音声信号を生成するための音声の収録方法の一例を説明するための図 映像認識処理および映像分類処理の一例を説明するための図 図1の文章生成部による字幕位置の設定例を説明するための図 字幕生成装置による音声分類テーブル、映像分類テーブルおよび文章生成テーブルの生成例を示す図 図1の文字合成部による字幕映像信号の生成例を示す図 図1の映像信号、音声信号および字幕映像信号が図1のバッファ部1に蓄積される様子を示す概念図 図1の字幕合成部による字幕合成映像信号の生成例を示す図 EPGデータの一例を示す図 従来の字幕重畳装置における課題を説明するための図
符号の説明
1 バッファ部
3 映像/音声認識部
3a 映像認識部
3b 音声認識部
4 制御部
4R 記憶装置
5 映像/音声分類部
5a 映像分類部
5b 音声分類部
6 文章生成部
7 文字合成部
8 ビデオメモリ
9 字幕合成部
100 映像音声入力装置
200 字幕生成装置
300 映像出力装置
400 音声出力装置
V1 映像信号
A1 音声信号
P1,P2,P3,A,B,C 人物
HC ヘリコプター
WV 字幕合成映像信号
IF1 映像認識情報
CT1 映像分類情報
IF2 音声認識情報
CT2 音声分類情報
SY 時間情報

Claims (13)

  1. 映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成装置であって、
    前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得する映像認識手段と、
    前記映像認識手段により取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出する映像位置検出手段と、
    前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得する音声認識手段と、
    前記音声認識手段により取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定する音声位置推定手段と、
    前記音声認識手段により取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成する字幕生成手段と、
    前記映像位置検出手段により検出された前記音声発生物体の映像の表示位置と、前記音声位置推定手段により推定された前記音声発生物体の音声の発生位置とを関連付ける関連付け手段と、
    前記関連付け手段により関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、前記映像位置検出手段により検出された前記映像の表示位置に対応する位置に、前記字幕生成手段により生成された前記字幕を配置することにより合成映像を生成する合成映像生成手段とを備えることを特徴とする字幕生成装置。
  2. 前記音声発生物体は、複数の動作物体を含み、
    前記映像認識手段は、前記映像信号に基づいて各動作物体の映像に関する情報を映像情報として取得し、
    前記映像位置検出手段は、前記映像認識手段により取得された前記映像情報に基づいて各動作物体の映像の表示位置を検出し、
    前記音声認識手段は、各動作物体を識別し、取得した前記音声情報を識別された各動作物体に関連付け、
    前記音声位置推定手段は、前記音声認識手段により各動作物体に関連付けられた前記音声情報に基づいて各動作物体の音声の発生位置を推定し、
    前記字幕生成手段は、前記音声認識手段により取得された前記音声情報に基づいて、各動作物体から発生される音声を文字で表現した字幕を生成し、
    前記関連付け手段は、前記映像位置検出手段により検出された各動作物体の映像の表示位置と、前記音声位置推定手段により推定された各動作物体の音声の発生位置とを関連付け、
    前記合成映像生成手段は、前記関連付け手段により関連付けられた各動作物体の映像の表示位置および各動作物体の音声の発生位置に基づいて、前記映像位置検出手段により検出された各動作物体の映像の表示位置に対応する位置に、前記字幕生成手段により生成された各動作物体から発生される音声の字幕を配置することにより合成映像を生成することを特徴とする請求項1記載の字幕生成装置。
  3. 各動作物体の映像の表示位置とその動作物体の音声の字幕の表示位置との距離が、その動作物体の映像の表示位置と他の動作物体の音声の字幕の表示位置との距離よりも短くなるように、各動作物体の映像の表示位置に対応する位置が設定されることを特徴とする請求項2記載の字幕生成装置。
  4. 前記複数の動作物体は複数の人物を含み、前記音声情報は、各人物から発生される音声の周波数特性に関する情報を含み、
    前記音声認識手段は、前記音声の周波数特性に関する情報に基づいて、その音声を発生する各人物を識別することを特徴とする請求項2または3記載の字幕生成装置。
  5. 前記音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報とを比較することにより、音声を発生する各人物を識別することを特徴とする請求項4記載の字幕生成装置。
  6. 前記音声認識手段は、新たに取得した音声の周波数特性に関する情報と過去に取得した音声の周波数特性に関する情報との一致の度合いを示す一致度が予め定められた基準値を超えるか否かを判定することにより音声を発生する各人物を識別することを特徴とする請求項5記載の字幕生成装置。
  7. 前記映像情報は、各動作物体の映像の形状および大きさに関する情報を含み、
    前記映像認識手段は、各動作物体の映像の形状および大きさに関する情報に基づいて各動作物体を識別し、取得した前記映像情報を識別された各動作物体に関連付けることを特徴とする請求項2〜6のいずれかに記載の字幕生成装置。
  8. 前記映像情報は、各動作物体の映像の速度に関する情報を含み、
    前記映像認識手段は、各動作物体の映像の速度に関する情報に基づいて、各動作物体の所定時間経過後の映像の表示位置を推定し、
    前記合成映像生成手段は、推定された各動作物体の所定時間経過後の映像の表示位置に対応する位置に、前記字幕生成手段により生成された各動作物体の音声の字幕を配置することにより合成映像を生成する7記載の字幕生成装置。
  9. 前記字幕生成手段は、前記複数の動作物体から発生される音声を各動作物体で異なる色の文字で表現した字幕を生成する請求項2〜8のいずれかに記載の字幕生成装置。
  10. 前記映像信号および前記音声信号はそれぞれ時間情報を含み、
    前記合成映像生成手段は、前記映像信号および前記音声信号の時間情報に基づいて、前記音声発生物体から音声が発生されるタイミングで、生成した前記字幕を映像に配置することにより、前記音声信号による音声の出力タイミングと前記字幕の表示タイミングとが一致するように前記合成映像を生成する請求項1〜9のいずれかに記載の字幕生成装置。
  11. 前記映像信号および音声信号は、映像および音声により構成される番組のジャンルを示すジャンル情報を含み、
    前記ジャンル情報を検出することにより前記番組のジャンルを判定するジャンル判定手段と、
    前記ジャンル判定手段により判定された番組のジャンルに応じて、前記映像認識手段による前記映像情報の取得動作、前記映像位置検出手段による前記音声発生物体の映像の表示位置の検出動作、前記音声認識手段による前記音声発生物体の前記音声情報の取得動作、および前記音声位置推定手段による前記音声発生物体の音声の発生位置の推定動作を調整する調整手段とをさらに備えることを特徴とする請求項1〜10のいずれかに記載の字幕生成装置。
  12. 映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する字幕生成方法であって、
    前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得するステップと、
    取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出するステップと、
    前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得するステップと、
    取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定するステップと、
    取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成するステップと、
    検出された前記音声発生物体の映像の表示位置と、推定された前記音声発生物体の音声の発生位置とを関連付けるステップと、
    関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、検出された前記映像の表示位置に対応する位置に、生成された前記字幕を配置することにより合成映像を生成するステップとを備えることを特徴とする字幕生成方法。
  13. 映像信号および音声信号に基づいて、音声を発生する音声発生物体の映像および前記音声発生物体から発生された音声の字幕を含む合成映像を生成する処理装置読み取り可能な字幕生成プログラムであって、
    前記映像信号に基づいて前記音声発生物体の映像に関する情報を映像情報として取得する処理と、
    取得された前記映像情報に基づいて前記音声発生物体の映像の表示位置を検出する処理と、
    前記音声信号に基づいて前記音声発生物体の音声に関する情報を音声情報として取得する処理と、
    取得された前記音声情報に基づいて前記音声発生物体の音声の発生位置を推定する処理と、
    取得された前記音声情報に基づいて、前記音声発生物体から発生される音声を文字で表現した字幕を生成する処理と、
    検出された前記音声発生物体の映像の表示位置と、推定された前記音声発生物体の音声の発生位置とを関連付ける処理と、
    関連付けられた前記映像の表示位置および前記音声の発生位置に基づいて、検出された前記映像の表示位置に対応する位置に、生成された前記字幕を配置することにより合成映像を生成する処理とを、前記処理装置に実行させることを特徴とする字幕生成プログラム。
JP2006256032A 2006-09-21 2006-09-21 字幕生成装置 Expired - Fee Related JP4980018B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006256032A JP4980018B2 (ja) 2006-09-21 2006-09-21 字幕生成装置
CNA200780034822XA CN101518055A (zh) 2006-09-21 2007-09-19 字幕生成装置、字幕生成方法及字幕生成程序
PCT/JP2007/068169 WO2008035704A1 (fr) 2006-09-21 2007-09-19 Dispositif de génération de sous-titre, procédé de génération de sous-titre, et programme de génération de sous-titre
US12/441,819 US8223269B2 (en) 2006-09-21 2007-09-19 Closed caption production device, method and program for synthesizing video, sound and text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006256032A JP4980018B2 (ja) 2006-09-21 2006-09-21 字幕生成装置

Publications (2)

Publication Number Publication Date
JP2008079018A true JP2008079018A (ja) 2008-04-03
JP4980018B2 JP4980018B2 (ja) 2012-07-18

Family

ID=39200529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006256032A Expired - Fee Related JP4980018B2 (ja) 2006-09-21 2006-09-21 字幕生成装置

Country Status (4)

Country Link
US (1) US8223269B2 (ja)
JP (1) JP4980018B2 (ja)
CN (1) CN101518055A (ja)
WO (1) WO2008035704A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012153475A1 (ja) * 2011-05-11 2012-11-15 パナソニック株式会社 描画合成装置
CN113692619A (zh) * 2019-05-02 2021-11-23 谷歌有限责任公司 在计算设备上自动为内容的可听部分加字幕

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9049431B2 (en) * 2009-12-31 2015-06-02 Cable Television Laboratories, Inc. Method and system for generation of captions over stereoscopic 3D images
US10462414B2 (en) 2009-12-31 2019-10-29 Cable Television Laboratories, Inc. Method and system for generation of captions over stereoscopic 3D images
US9132352B1 (en) 2010-06-24 2015-09-15 Gregory S. Rabin Interactive system and method for rendering an object
US9053562B1 (en) * 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
CN102739986A (zh) * 2011-05-06 2012-10-17 新奥特(北京)视频技术有限公司 一种底拉字幕中自定义图元标志的显示方法
CN103312863A (zh) * 2012-03-08 2013-09-18 中兴通讯股份有限公司 移动终端视频的呈现方法及装置
CN102802044A (zh) * 2012-06-29 2012-11-28 华为终端有限公司 视频处理方法、终端及字幕服务器
US8564721B1 (en) * 2012-08-28 2013-10-22 Matthew Berry Timeline alignment and coordination for closed-caption text using speech recognition transcripts
CN103853705A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机汉语语音与外语语音实时语音字幕翻译方法
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103853708A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注汉语字幕的方法
CN103853709A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN103905743A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语自动实时标注汉语字幕音像录播方法
CN103902530A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语自动实时标注中外文字幕音像录播方法
CN103902529A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 外语自动实时标注中外文字幕音像录播方法
CN103902531A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
US9173004B2 (en) 2013-04-03 2015-10-27 Sony Corporation Reproducing device, reproducing method, program, and transmitting device
JP6016277B2 (ja) * 2014-05-02 2016-10-26 日本電気株式会社 映像音響処理システム、映像音響処理方法及びプログラム
US10419718B2 (en) 2014-07-11 2019-09-17 Lg Electronics Inc. Method and device for transmitting and receiving broadcast signal
US10582269B2 (en) 2014-07-11 2020-03-03 Lg Electronics Inc. Method and device for transmitting and receiving broadcast signal
KR20170007764A (ko) 2014-07-29 2017-01-20 엘지전자 주식회사 방송 신호 송수신 방법 및 장치
WO2016060415A1 (ko) * 2014-10-12 2016-04-21 엘지전자 주식회사 Xml 서브타이틀의 트릭 플레이를 위한 방송 신호 송수신 방법 및 장치
CN105848006A (zh) * 2016-03-30 2016-08-10 苏州合欣美电子科技有限公司 一种影音播放器自适应字幕调整的方法
FR3052007A1 (fr) * 2016-05-31 2017-12-01 Orange Procede et dispositif de reception de contenu audiovisuel et programme d'ordinateur correspondant
US10555051B2 (en) 2016-07-21 2020-02-04 At&T Mobility Ii Llc Internet enabled video media content stream
CN106791926A (zh) * 2016-12-14 2017-05-31 传线网络科技(上海)有限公司 一种信息视频文件的播放方法、系统和终端
CN107241616B (zh) * 2017-06-09 2018-10-26 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN107454255B (zh) * 2017-07-28 2020-07-17 维沃移动通信有限公司 一种歌词显示方法、移动终端及计算机可读存储介质
CN107295401A (zh) * 2017-08-10 2017-10-24 四川长虹电器股份有限公司 一种检测自媒体音视频内容中的违规信息的方法
GB201715753D0 (en) * 2017-09-28 2017-11-15 Royal Nat Theatre Caption delivery system
US10299008B1 (en) * 2017-11-21 2019-05-21 International Business Machines Corporation Smart closed caption positioning system for video content
US10657380B2 (en) * 2017-12-01 2020-05-19 At&T Mobility Ii Llc Addressable image object
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN109862422A (zh) * 2019-02-28 2019-06-07 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机可读存储介质和计算机设备
CN110379428A (zh) * 2019-07-16 2019-10-25 维沃移动通信有限公司 一种信息处理方法及终端设备
CN112752130A (zh) * 2019-10-29 2021-05-04 上海海思技术有限公司 一种数据显示方法及媒体处理装置
CN111836062A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 视频播放方法、装置及计算机可读存储介质
CN112383809A (zh) * 2020-11-03 2021-02-19 Tcl海外电子(惠州)有限公司 字幕显示方法、装置和存储介质
CN113326844B (zh) * 2021-06-18 2023-04-18 咪咕数字传媒有限公司 视频字幕添加方法、装置、计算设备及计算机存储介质
CN114007145A (zh) * 2021-10-29 2022-02-01 青岛海信传媒网络技术有限公司 一种字幕显示方法及显示设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261890A (ja) * 1998-03-11 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05176232A (ja) 1991-12-19 1993-07-13 Fujitsu General Ltd 字幕重畳装置
JPH07264545A (ja) 1994-03-17 1995-10-13 Matsushita Electric Ind Co Ltd 動画再生装置
JPH1022278A (ja) 1996-07-05 1998-01-23 Nippon Steel Corp 半導体装置の製造方法
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
DE60142967D1 (de) * 2000-06-09 2010-10-14 British Broadcasting Corp Erzeugung von untertiteln für bewegte bilder
US7117231B2 (en) * 2000-12-07 2006-10-03 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
KR20030007706A (ko) * 2001-04-02 2003-01-23 마츠시타 덴끼 산교 가부시키가이샤 디지털 영상 콘텐츠의 영상재생 장치, 영상재생 방법,영상재생 프로그램, 패키지 미디어
US7054804B2 (en) * 2002-05-20 2006-05-30 International Buisness Machines Corporation Method and apparatus for performing real-time subtitles translation
JP4219129B2 (ja) 2002-08-09 2009-02-04 シャープ株式会社 テレビジョン受像機
JP3873926B2 (ja) 2003-05-16 2007-01-31 日本電気株式会社 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP4113059B2 (ja) * 2003-07-28 2008-07-02 株式会社東芝 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
JP4128916B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 字幕制御装置および方法ならびにプログラム
US20050086702A1 (en) * 2003-10-17 2005-04-21 Cormack Christopher J. Translation of text encoded in video signals
JPWO2006077882A1 (ja) * 2005-01-19 2008-06-19 松下電器産業株式会社 放送受信装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261890A (ja) * 1998-03-11 1999-09-24 Nippon Telegr & Teleph Corp <Ntt> 映像字幕挿入方法および装置並びに該映像字幕挿入方法を記録した記録媒体
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012153475A1 (ja) * 2011-05-11 2012-11-15 パナソニック株式会社 描画合成装置
CN113692619A (zh) * 2019-05-02 2021-11-23 谷歌有限责任公司 在计算设备上自动为内容的可听部分加字幕
JP2022530201A (ja) * 2019-05-02 2022-06-28 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JP7348957B2 (ja) 2019-05-02 2023-09-21 グーグル エルエルシー コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Also Published As

Publication number Publication date
US8223269B2 (en) 2012-07-17
JP4980018B2 (ja) 2012-07-18
WO2008035704A1 (fr) 2008-03-27
US20090278986A1 (en) 2009-11-12
CN101518055A (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
JP4980018B2 (ja) 字幕生成装置
US7015934B2 (en) Image displaying apparatus
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
EP3226245B1 (en) System and method to insert visual subtitles in videos
KR20070034462A (ko) 비디오-오디오 동기화
JP2002300495A (ja) 発話認識に基づいたキャプションシステム
JP2007156493A (ja) 音声区間検出装置及び方法並びに音声認識システム
Tao et al. Aligning audiovisual features for audiovisual speech recognition
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
US20040107103A1 (en) Assessing consistency between facial motion and speech signals in video
US20130300934A1 (en) Display apparatus, server, and controlling method thereof
JP6716300B2 (ja) 議事録生成装置、及び議事録生成プログラム
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
KR20150021258A (ko) 디스플레이장치 및 그 제어방법
JP2004056286A (ja) 画像表示方法
US20130218570A1 (en) Apparatus and method for correcting speech, and non-transitory computer readable medium thereof
Huang et al. Audio-visual speech recognition using an infrared headset
KR20160147556A (ko) 영상표시장치의 동작 방법
CN110996163B (zh) 用于自动字幕显示的系统和方法
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
US20110243447A1 (en) Method and apparatus for synthesizing speech
US20090304088A1 (en) Video-sound signal processing system
JP4734446B2 (ja) テレビジョン受像装置及びテレビジョン受像方法
JPH1141538A (ja) 音声認識文字表示装置
Schabus et al. Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120418

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees