JP2005045503A

JP2005045503A - 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム

Info

Publication number: JP2005045503A
Application number: JP2003202554A
Authority: JP
Inventors: Kazuhiko Abe; 一彦阿部; Yasuyuki Masai; 康之正井; Masato Yajima; 真人矢島; Kohei Momozaki; 浩平桃崎; Koichi Yamamoto; 幸一山本; Munehiko Sasajima; 宗彦笹島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-07-28
Filing date: 2003-07-28
Publication date: 2005-02-17
Anticipated expiration: 2023-07-28
Also published as: US20050060145A1; US7299183B2; JP4113059B2

Abstract

【課題】音声に対する字幕の提示タイミングのずれを適切に検出することを可能とする。
【解決手段】音声認識部１４１は、音声信号から発話内容を音声認識するとともに、この発話内容の発話タイミングを検出する。字幕解析部１４２は、字幕信号から字幕内容を認識するとともに、この字幕内容の提示タイミングを検出する。一致検索部１４３は、発話内容と字幕内容との一致を検出する。ここで一致が検出された場合にずれ量判定部１４４は、この一致する発話内容および字幕内容についてそれぞれ検出された発話タイミングおよび提示タイミングの時間差を算出する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、互いに関連した内容を示す音声信号と字幕信号とに基づいての音声再生と字幕提示とを適正なタイミング関係で行うことを可能とするための技術に関する。
【０００２】
【従来の技術】
放送局側で番組放送時間に対応して作成されている、例えばニュース原稿のようなテキストデータを利用し、字幕提示時間を調整し、放送電波で送信する仕組みが提案されている（例えば、特許文献１を参照）。
【０００３】
また、話し手の話す区切りを検知し、この区切りの間隔から決定される遅延量で映像データを遅延させることで、映像と同期のとれた字幕提示を行うことが提案されている（例えば、特許文献２を参照）。
【０００４】
また、番組のメタデータ付与において、映像内の文字情報であるテロップの文字を認識し、形態素解析を行うことで取得した重要な概念をメタデータとして付与方法が考案されている（例えば、特許文献３を参照）。この技術により、テロップ認識能力の範囲内で番組の要約情報を取得することが可能となる。
【０００５】
また、字幕文より取得した形態素情報の中で予め用意された語との一致を利用したメタ情報を取得する技術が考案されている（例えば、特許文献４を参照）。この技術により、予め用意された語を利用した、話題の転換点などのインデックス化が可能となっている。
【０００６】
【特許文献１】
特開２０００−３２４３９５公報
【０００７】
【特許文献２】
特開２００２−１０２２２公報
【０００８】
【特許文献３】
特開平１０−４０２６０号公報
【０００９】
【特許文献４】
特開平１１−２３４６１１号公報
【００１０】
【発明が解決しようとする課題】
特許文献１の技術によると、放送局側での字幕制作時に、正確なタイミング情報を付与する技術であるために、例えば生番組などにおいて、リアルタイムで字幕を付与しなければならないなどの事情がある場合には、字幕が遅延してしまうことを防ぎ得ない。
【００１１】
特許文献２の技術によると、音声の有無の変化に基づいて同期を図っているため、字幕が音声の内容の概略のみを示すなどの事情により、字幕の内容と音声の内容とに相違が少なからず存在する場合には、音声の有無が変化するタイミングと字幕の提示タイミングとの間には関係が無く、適切な字幕提示が行えない。
【００１２】
このように従来は、字幕制作の段階にて字幕と音声とのタイミングのずれが生じてしまった場合には、このようなずれの量を受信側にて判定することは困難である。従って、字幕の提示タイミングを音声のタイミングに適切に同期させるようなことは困難であり、視聴者は不自然なタイミングで提示される字幕の視聴を余儀なくされている。
【００１３】
また、特許文献３や特許文献４の技術のように、字幕の情報を用いてメタ情報を生成することが考えられる。そして、このメタ情報にタイミングの情報を含ませて、例えば情報検索などのために利用することが考えられる。この場合、上述のようにずれた字幕に基づくと、ずれたタイミングの情報しか得られないため、正確なサーチを行うことができない。
【００１４】
本発明はこのような事情を考慮してなされたものであり、その目的とするところは、音声に対する字幕の提示タイミングのずれを適切に検出することを可能とすることにある。
【００１５】
【課題を解決するための手段】
以上の目的を達成するために本発明は、音声信号から発話内容を認識する音声認識手段と、前記発話内容の発話タイミングを検出する発話タイミング検出手段と、前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、前記発話内容と前記字幕内容との一致を検出する一致検出手段と、一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段とを備えた。
【００１６】
このような手段を講じたことにより、音声信号からは発話内容が音声認識されるとともに、この発話内容の発話タイミングが検出される。字幕信号からは、字幕内容が認識されるとともに、この字幕内容の提示タイミングが検出される。発話内容と字幕内容との一致が検出された場合に、この一致する発話内容および字幕内容についてそれぞれ検出された発話タイミングおよび提示タイミングの時間差が算出される。従って、同一内容に関する発話タイミングと字幕の提示タイミングとの実際の時間差が算出され、これに基づいて字幕のずれが検出可能となる。
【００１７】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態につき説明する。
図１は本実施形態に係るハードディスクレコーダ（以下、ＨＤＤレコーダと称する）１の構成を示すブロック図である。
図１に示すようにＨＤＤレコーダ１は、テレビ受信回路１１、録画制御部１２、ハードディスクドライブ（以下、ＨＤＤと称する）１３、字幕ずれ量判定部１４、ずれ情報記憶部１５、メタデータ記憶部１６、再生制御部１７、字幕信号補正部１８および字幕合成部１９を含む。
【００１８】
テレビ受信回路１１は、アンテナ２を介してテレビジョン放送を受信する。このＨＤＤレコーダ１が受信対象とするテレビジョン放送は如何なる方式であっても良いが、ここではＮＴＳＣ方式であることとする。従ってテレビ受信回路１１は、ＮＴＳＣ方式に準拠した信号（以下、ＮＴＳＣ信号と称する）を出力する。
【００１９】
録画制御部１２は、テレビ受信回路１１から出力されるベースバンド信号が示す映像情報や音声情報を所定の記録方式に従って圧縮などの処理を施した上でＨＤＤ１３へ書き込む。録画制御部１２は、ＮＴＳＣ信号の垂直帰線期間に多重されている字幕情報を抽出し、ＨＤＤ１３へ書き込む。
【００２０】
字幕ずれ量判定部１４は、音声認識部１４１、字幕解析部１４２、一致検索部１４３、ずれ量判定部１４４、ずれ情報生成部１４５およびメタデータ生成部１４６を含む。
【００２１】
なお、この字幕ずれ量判定部１４は、例えばプロセッサを主体として構成できる。そして上記の音声認識部１４１、字幕解析部１４２、一致検索部１４３、ずれ量判定部１４４、ずれ情報生成部１４５およびメタデータ生成部１４６は、上記のプロセッサにプログラムを実行させることにより実現することができる。このときに字幕ずれ量判定部１４は、内蔵された図示しないメモリに上記のプログラムが予めインストールされて実現されても良いし、ＣＤ−ＲＯＭなどのようなリムーバブルな記録媒体に記録して、あるいはネットワークを介して上記のプログラムを配布し、このプログラムを字幕ずれ量判定部１４に内蔵された図示しないメモリに適宜インストールして実現されても良い。
【００２２】
音声認識部１４１は、ＨＤＤ１３に保存された音声情報に対して音声認識を行い、発話内容（表記データ、発音データ及び各種形態素情報）と、その発話内容が発話されたタイミングを示す発話タイミング情報とを取得する。
【００２３】
字幕解析部１４２は、ＨＤＤ１３に保存された字幕情報をデコードし、字幕の文字列を示したテキストデータを取得する。字幕解析部１４２は、字幕の提示タイミングを表わす提示タイミング情報を取得する。字幕解析部１４２は、上記のテキストデータの形態素解析を行い、テキストデータ内に含まれる各形態素の読みおよび品詞情報を取得する。
【００２４】
一致検索部１４３は、音声認識部１４１により取得された発話内容と、字幕解析部１４２により取得されたテキストデータとの一致を検索する。そして一致検索部１４３は、発話内容と一致したテキストデータ、このテキストデータの提示タイミング情報、ならびにこのテキストデータと一致した発話内容の発話タイミング情報をずれ量判定部１４４へ出力する。
【００２５】
ずれ量判定部１４４は、一致検索部１４３から与えられるテキストデータの提示タイミングのずれ量を、同時に与えられる発話タイミング情報および提示タイミング情報がそれぞれ示すタイミングの時間差として判定する。ずれ量判定部１４４は、判定したずれ量を、テキストデータおよび提示タイミング情報とともにずれ情報生成部１４５およびメタデータ生成部１４６へ出力する。
【００２６】
ずれ情報生成部１４５は、ずれ量判定部１４４から出力されるずれ量を反映させたずれ情報を生成し、このずれ情報をずれ情報記憶部１５に書き込む。
【００２７】
メタデータ生成部１４６は、ずれ量判定部１４４から出力されるテキストデータが所定のメタ登録条件に合致する場合に、ずれ量判定部１４４から出力されるずれ量を反映させたメタデータを生成し、このメタデータをメタデータ記憶部１６へ書き込む。
【００２８】
ずれ情報記憶部１５は、大容量でアクセスしやすいことが望ましく、例えば半導体メモリやＨＤＤを用いて構成されている。ずれ情報記憶部１５は、ずれ情報を蓄積記憶する。
【００２９】
メタデータ記憶部１６は、大容量でアクセスしやすいことが望ましく、例えば半導体メモリやＨＤＤを用いて構成される。メタデータ記憶部１６は、メタデータを蓄積記憶する。
【００３０】
再生制御部１７は、ＨＤＤ１３に記憶されている映像情報、音声情報および字幕情報を読み出し、これらの情報を示したＮＴＳＣ信号やＡＶ信号を再生する。再生制御部１７は、上記ベースバンド信号は字幕信号補正部１８へと出力し、上記ＡＶ信号のうちの映像信号と字幕情報とを字幕合成部１９へ出力する。
【００３１】
字幕信号補正部１８は、再生制御部１７から出力されるＮＴＳＣ信号に含まれた字幕情報を、ずれ情報記憶部１５に記憶されたずれ情報を参照して補正する。字幕信号補正部１８が出力するＮＴＳＣ信号は、ＮＴＳＣ端子Ｔ１よりＨＤＤレコーダ１の外部へ出力される。ＮＴＳＣ端子Ｔ１には、例えば字幕放送に対応したテレビジョン受像機（以下、字幕対応ＴＶと称する）が接続される。
【００３２】
字幕合成部１９は、再生制御部１７から出力される映像信号に、同じく再生制御部１７から出力される字幕情報に応じた字幕を合成する。このときに字幕合成部１９は、ずれ情報記憶部１５に記憶されたずれ情報を参照して、映像信号に対する字幕情報の合成タイミングをずらすことができる。字幕合成部１９が出力する映像信号は、映像端子Ｔ２よりＨＤＤレコーダ１の外部へ出力される。映像端子Ｔ２には、例えばＡＶ端子を備えたテレビジョン受像機（以下、ＴＶと称する）が接続される。
【００３３】
図２は音声認識部１４１の内部構造を示すブロック図である。
図２に示すように音声認識部１４１は、音声特徴量抽出部１４１ａ、発音情報推定部１４１ｂおよび発話内容推定部１４１ｃを含む。
【００３４】
音声認識部１４１は、音声信号の入力から、音声特徴量抽出部１４１ａにて音声特有の特徴量を抽出する。次に音声認識部１４１は、発音情報推定部１４１ｂにて、上記の特徴量と予め用意した音声のモデルとのマッチングを行い、発音情報を推定する。さらに音声認識部１４１は、発話内容推定部１４１ｃにて、上記の発音情報を元に、言語的に意味のある発話内容として推定する。漢字表記とひらがな表記との違いや、同音異義語、その他の認識候補も同時に取得し、これらを音声認識結果として出力する。
【００３５】
次に以上のように構成されたＨＤＤレコーダ１の動作につき説明する。なお、通常の録画や再生のための動作は既存の同種の機械と同様であるのでその説明は省略する。そしてここでは、字幕の処理に関わる動作について詳細に説明する。
【００３６】
このＨＤＤレコーダ１では、放送される番組をＨＤＤ１３に一旦記録した上で、ユーザが希望する任意のタイミングで、あるいはほぼリアルタイムで上記の番組を再生することができる。
【００３７】
このときに字幕ずれ量判定部１４では、ＨＤＤ１３に記録された番組が字幕情報を含んでいる場合、この字幕情報と映像情報とを参照して、ずれ情報およびメタデータの生成を以下のようにして行う。
【００３８】
図３は字幕ずれ量判定部１４の処理のフローチャートである。
ステップＳＴ１では音声認識部１４１が、ＨＤＤ１３に保存された音声情報に対して音声認識を行い、発話内容と、その発話内容が発話されたタイミングを示す発話タイミング情報とを取得する。音声認識部１４１は、発話内容としては、表記データと発音データとをそれぞれ取得する。音声認識部１４１は、例えば番組の先頭を基準時刻とした相対的時刻を発話タイミング情報とする。なお、音声信号の絶対的な位置を示すタイムコードなどの情報が付与されているならば、この情報を発話タイミング情報として用いることもできる。一連の音声のなかで１つの発話内容をどのレベルで区切るかは任意であるが、本実施形態では形態素毎とする。具体的には、「明日は雨です」との発音を示した音声データから音声認識部１４１は、例えば図４に示すように「明日」「は」「雨」「です」という４つの発話内容を取得する。また音声認識部１４１は、これら発話内容のそれぞれの発話タイミング情報として、図４に示すｔ１，ｔ２，ｔ３，ｔ４をそれぞれ取得する。
【００３９】
ステップＳＴ２では字幕解析部１４２が、ＨＤＤ１３に保存された字幕情報を解析する。字幕解析部１４２はここで、ＨＤＤ１３に保存された字幕情報をデコードし、字幕文を示したテキストデータを取得する。そして字幕解析部１４２はさらに、上記のテキストデータの形態素解析を行い、テキストデータ内に含まれる各形態素の読みおよび品詞情報を取得する。また字幕解析部１４２は、上記のテキストデータが示す字幕文の提示タイミングを表わす提示タイミング情報を取得する。字幕文の提示タイミングは、例えば字幕情報を取得したタイミングとする。従って字幕解析部１４２は、ＮＴＳＣ信号にて字幕情報が多重化されていた位置を、例えば番組の先頭を基準時刻とした相対的時刻を提示タイミング情報とする。なお、字幕文の提示タイミングがＮＴＳＣ信号に重畳された制御情報により指定される場合には、この制御情報を提示タイミング情報として用いることもできる。図４の例では「明日は雨です」の発話の後に「明日は雨です」という字幕文を示したテキストデータが到来した例を示している。この場合に字幕解析部１４２は、「明日は雨です」というテキストデータを取得するとともに、このテキストデータの到来タイミングであるｔ５を提示タイミング情報として取得する。また字幕解析部１４２は、このテキストデータから、「明日」「は」「雨」「です」なる４つの形態素の読みおよび品詞情報を取得する。
【００４０】
ステップＳＴ３では一致検索部１４３が、音声認識部１４１により取得された１つまたは複数の発話内容が示す文字列と、字幕解析部１４２により取得されたテキストデータが示す文字列との一致を検索する。また一致検索部１４３は、ひらがな表記と漢字表記の違いなど、発話内容とテキストデータとが表層的な文字で一致しない場合は、音声認識の次候補のデータおよび発音データとテキストデータおよび形態素解析によって取得した読みのデータとの比較を行う。また一致検索部１４３は、発話タイミングと提示タイミングとが同一である発話内容とテキストデータとに基づく比較のみを行うのではなく、一定の範囲内でタイミングがずれた発話内容とテキストデータとに基づく比較を行う。図４の例では、発話内容が示す文字列とテキストデータが示す文字列とには、ともに「明日は雨です」という文字列が含まれている。このような文字列が一致検索部１４３により検出されることになる。なお、文字列一致検索を行なう際に、各種形態素情報、例えば品詞情報などを利用することにより、より正確な一致を行なうことも可能である。
【００４１】
ステップＳＴ４では一致検索部１４３が、上記の検索により一致する文字列が１つ見つかったか否かを確認する。そして一致する文字列が見つかったならば、ステップＳＴ５へ進む。
【００４２】
ステップＳＴ５では、ずれ量判定部１４４が、上記の見つかった文字列に対応するテキストデータ、このテキストデータの形態素情報、提示タイミング情報、ならびに上記の見つかった文字列を含む各発話内容の発話タイミング情報を一致検索部１４３から入力する。そしてずれ量判定部１４４はステップＳＴ５にて、上記発話タイミング情報が示す先頭の発話時刻と上記提示タイミング情報が示す提示時刻との時間差を算出し、これを上記のテキストデータが示す字幕文のずれ量として判定する。またずれ量判定部１４４は、テキストデータに含まれた形態素のそれぞれについても、一致する発話内容の発話タイミング情報が示す発話時刻と上記提示タイミング情報が示す提示時刻との時間差としてずれ量を判定する。図４の例では、「明日は雨です」なる字幕文に一致する発話内容の発話タイミング情報が示す発話時刻はｔ１，ｔ２，ｔ３，ｔ４であり、その先頭はｔ１であるから、ずれ量判定部１４４は「明日は雨です」なる字幕文のずれ量は［ｔ５−ｔ１］と判定する。また「明日」「は」「雨」「です」なる形態素のそれぞれのずれ量をずれ量判定部１４４は、［ｔ５−ｔ１］、［ｔ５−ｔ２］、［ｔ５−ｔ３］、［ｔ５−ｔ４］としてそれぞれ判定する。
【００４３】
ステップＳＴ６では、ずれ情報生成部１４５が、テキストデータ、形態素情報、提示タイミング情報、ならびに上記テキストデータおよび形態素情報に関して判定されたずれ量をずれ量判定部１４４から入力する。そしてずれ情報生成部１４５はステップＳＴ６にて、これらのテキストデータ、提示タイミング情報およびそのずれ量を対応付けるとともに、形態素情報とそのずれ量とを対応付けたずれ情報を生成し、このずれ情報をずれ情報記憶部１５に格納する。
【００４４】
ステップＳＴ７ではメタデータ生成部１４６が、形態素情報、提示タイミング情報、ならびに上記形態素情報に関して判定されたずれ量をずれ量判定部１４４から入力する。そしてメタデータ生成部１４６はステップＳＴ７にて、入力した形態素情報により示される形態素に、予め定められたメタ登録条件に合致するものが有るか否かを確認する。なお、メタ登録条件は任意であって良いが、例えば「名詞である」などが考えられる。そして該当する形態素があるならば、ステップＳＴ８へ進む。
【００４５】
ステップＳＴ８ではメタデータ生成部１４６が、メタ登録条件に合致した形態素に、提示タイミング情報と、その形態素のずれ量とを対応付けたメタデータを生成し、このメタデータをメタデータ記憶部１６に格納する。
【００４６】
字幕ずれ量判定部１４は、ステップＳＴ８が終了したなら、ステップＳＴ３に戻る。メタ登録条件に合致する形態素が無かったなら、字幕ずれ量判定部１４はステップＳＴ８をパスしてステップＳＴ３に戻る。そして字幕ずれ量判定部１４は、ステップＳＴ４にて一致する文字列が１つも見つからないと判断できるまで、ステップＳＴ３乃至ステップＳＴ８を繰り返す。そして、ステップＳＴ４にて一致する文字列が１つも見つからないと判断できたならば、字幕ずれ量判定部１４は処理を終了する。
【００４７】
さて、ＨＤＤ１３に記録された番組を再生する場合、字幕信号補正部１８は、再生制御部１７から出力されるＮＴＳＣ信号に含まれた字幕情報を、ずれ情報記憶部１５に記憶されたずれ情報を参照して補正する。また字幕合成部１９は、再生制御部１７から出力される映像信号に、同じく再生制御部１７から出力される字幕情報に応じた字幕を合成するが、このときに字幕合成部１９は、ずれ情報記憶部１５に記憶されたずれ情報を参照して、映像信号に対する字幕情報の合成タイミングをずらす。
【００４８】
ところで字幕信号補正部１８および字幕合成部１９は、それぞれ４つの補正モードを備える。第１の補正モードにて字幕信号補正部１８および字幕合成部１９は、字幕文のずれ量を減少し、一致する発話の先頭のタイミングに字幕の提示タイミングが近づくように補正する。例えば、図４に示す状態であった字幕の提示タイミングを、図５に示すような提示タイミングに補正する。
【００４９】
第２の補正モードにて字幕信号補正部１８および字幕合成部１９は、字幕文に含まれた形態素毎のずれ量を減少し、一致する形態素の発話のタイミングに各形態素の提示タイミングが近づくように補正する。例えば、図４に示す状態であった字幕の提示タイミングを、図６に示すような提示タイミングに補正する。
【００５０】
第３の補正モードにて字幕信号補正部１８および字幕合成部１９は、一致する発話の先頭のタイミングに対して一定時間がずれたタイミングが字幕の提示タイミングとなるように補正する。例えば、図５の状態からさらに一定時間をずらしたタイミングに字幕の提示タイミングを再設定する。このとき、例えば「３秒遅く、名詞のみ提示」といった、予め定義した規則にしたがって、上記の一定時間を決定する。
【００５１】
第４の補正モードにて字幕信号補正部１８および字幕合成部１９は、一致する形態素の発話のタイミングに対して一定時間がずれたタイミングが字幕文の各形態素の提示タイミングとなるように補正する。例えば、図６の状態からさらに一定時間をずらしたタイミングに字幕の提示タイミングを再設定する。このとき、例えば「３秒遅く、名詞のみ提示」といった、予め定義した規則にしたがって、上記の一定時間を決定する。
【００５２】
以上のように本実施形態によれば、発話タイミングに対する字幕の提示タイミングのずれ量を判定することができる。
【００５３】
また本実施形態によれば、上記の判定したずれ量を考慮して、発話タイミングに対する字幕の提示タイミングのずれを減少するように字幕信号の補正や字幕の合成タイミングの調整を行うことで、適切なタイミングでの字幕提示を実現できるようになる。
【００５４】
また本実施形態によれば、上記の判定したずれ量を考慮して、発話タイミングに対する字幕の提示タイミングのずれを一定時間とするように字幕信号の補正や字幕の合成タイミングの調整を行うことで、一律なずれでの字幕提示を実現できるようになる。これは、例えば外国語番組による外国語のヒアリングの訓練を行う場合などに便利な機能となる。
【００５５】
また本実施形態によれば、上記の判定したずれ量を反映させたメタデータが生成される。従って、このメタデータを参照することで、ある語句を含む字幕が提示されるべき適切な番組の箇所を識別可能となる。このため、このメタデータを例えば再生制御部１７が再生開始箇所の検索のために利用するようにすれば、適切な頭出しを行うことが可能となる。
【００５６】
また、メタデータより重要と思われる語句を選択提示することにより番組の情報を理解する一助となる。例えば、早送り再生時に、こうした重要語を提示することにより、内容を確認しながら早送りすることが可能となるなど、様々な利用方法が考えられる。
【００５７】
また本実施形態によれば、メタデータに登録する形態素は、発話内容に含まれた形態素と一致するもののみとしているので、音声および字幕の双方に示される重要な語句が抽出されてメタデータとされる。このため、無意味な情報を含まない適正なメタデータを生成することが可能である。
【００５８】
この実施形態は、次のような種々の変形実施が可能である。
字幕ずれ量判定部１４は、独立したモジュールとして実現され、独立して流通されても良い。
【００５９】
字幕ずれ量判定部１４は、ずれ情報生成部１４５やメタデータ生成部１４６を含まなくても良い。この場合、ずれ量判定部１４４により判定されたずれ量を外部のコンピュータなどに出力するようにし、判定したずれ量をそのコンピュータにて利用させるなどの運用形態が考えられる。
【００６０】
ずれ情報記憶部１５に記憶されたずれ情報や、メタデータ記憶部１６に記憶されたメタデータを外部のコンピュータに出力するようにし、これらのずれ情報やメタデータをそのコンピュータにて利用させるようにしても良い。
【００６１】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【００６２】
【発明の効果】
本発明によれば、音声に対する字幕の提示タイミングのずれを適切に検出することが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係るハードディスクレコーダの構成を示すブロック図。
【図２】図１中の音声認識部１４１の内部構造を示すブロック図。
【図３】図１中の字幕ずれ量判定部１４の処理のフローチャート。
【図４】音声認識および字幕解析の具体例を示す図。
【図５】字幕の提示タイミングの補正の一例を示す図。
【図６】字幕の提示タイミングの補正の一例を示す図。
【符号の説明】
１…ハードディスクレコーダ（ＨＤＤレコーダ）、２…アンテナ、１１…テレビ受信回路、１２…録画制御部、１３…ハードディスクドライブ（ＨＤＤ）、１４…ずれ量判定部、１５…ずれ情報記憶部、１６…メタデータ記憶部、１７…再生制御部、１８…字幕信号補正部、１９…字幕合成部、１４１…音声認識部、１４２…字幕解析部、１４３…一致検索部、１４４…ずれ量判定部、１４５…ずれ情報生成部、１４６…メタデータ生成部。

Claims

音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段とを具備したことを特徴とする字幕信号処理装置。
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
前記字幕内容から語句を抽出する語句抽出手段と、
前記語句と、この語句を含んだ前記字幕内容について検出された前記提示タイミングおよび前記時間差を反映したタイミング情報とを含むメタデータを生成するメタデータ生成手段とを具備したことを特徴とする字幕信号処理装置。
前記語句抽出手段は、前記発話内容に一致するとして検出された前記字幕内容から前記語句を抽出することを特徴とする請求項２に記載の字幕信号処理装置。
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
前記時間差を減少するように前記字幕信号を補正する字幕補正手段とを具備したことを特徴とする字幕信号処理装置。
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
前記時間差を、予め定められた規定時間差に合わせるように前記字幕信号を補正する字幕補正手段とを具備したことを特徴とする字幕信号処理装置。
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
前記音声信号に同期した映像信号が示す映像へ、前記時間差を減少するようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成する字幕合成手段とを具備したことを特徴とする字幕信号処理装置。
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
前記音声信号に同期した映像信号が示す映像へ、前記時間差を予め定められた規定時間差に合わせるようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成する字幕合成手段とを具備したことを特徴とする字幕信号処理装置。
コンピュータを、
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段として機能させることを特徴とする字幕信号処理プログラム。
コンピュータを、
音声信号から発話内容を認識する音声認識手段と、
前記発話内容の発話タイミングを検出する発話タイミング検出手段と、
前記音声信号に関連した字幕信号から字幕内容を取得する字幕内容取得手段と、
前記字幕内容の提示タイミングを検出する提示タイミング検出手段と、
前記発話内容と前記字幕内容との一致を検出する一致検出手段と、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出する時間差算出手段と、
前記字幕内容から語句を抽出する語句抽出手段と、
前記語句と、この語句を含んだ前記字幕内容について検出された前記提示タイミングおよび前記時間差を反映したタイミング情報とを含むメタデータを生成するメタデータ生成手段として機能させることを特徴とする字幕信号処理プログラム。
音声信号から発話内容を音声認識し、
前記発話内容の発話タイミングを検出し、
前記音声信号に関連した字幕信号から字幕内容を取得し、
前記字幕内容の提示タイミングを検出し、
前記発話内容と前記字幕内容との一致を検出し、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出することを特徴とする字幕信号処理方法。
音声信号から発話内容を音声認識し、
前記発話内容の発話タイミングを検出し、
前記音声信号に関連した字幕信号から字幕内容を取得し、
前記字幕内容の提示タイミングを検出し、
前記発話内容と前記字幕内容との一致を検出し、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
前記字幕内容から語句を抽出し、
前記語句と、この語句を含んだ前記字幕内容について検出された前記提示タイミングおよび前記時間差を反映したタイミング情報とを含むメタデータを生成することを特徴とする字幕信号処理方法。
音声信号から発話内容を音声認識し、
前記発話内容の発話タイミングを検出し、
前記音声信号に関連した字幕信号から字幕内容を取得し、
前記字幕内容の提示タイミングを検出し、
前記発話内容と前記字幕内容との一致を検出し、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
前記時間差を減少するように前記字幕信号を補正することを特徴とする字幕信号処理方法。
音声信号から発話内容を音声認識し、
前記発話内容の発話タイミングを検出し、
前記音声信号に関連した字幕信号から字幕内容を取得し、
前記字幕内容の提示タイミングを検出し、
前記発話内容と前記字幕内容との一致を検出し、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
前記時間差を、予め定められた規定時間差に合わせるように前記字幕信号を補正することを特徴とする字幕信号処理方法。
音声信号から発話内容を音声認識し、
前記発話内容の発話タイミングを検出し、
前記音声信号に関連した字幕信号から字幕内容を取得し、
前記字幕内容の提示タイミングを検出し、
前記発話内容と前記字幕内容との一致を検出し、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
前記音声信号に同期した映像信号が示す映像へ、前記時間差を減少するようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成することを特徴とする字幕信号処理方法。
音声信号から発話内容を音声認識し、
前記発話内容の発話タイミングを検出し、
前記音声信号に関連した字幕信号から字幕内容を取得し、
前記字幕内容の提示タイミングを検出し、
前記発話内容と前記字幕内容との一致を検出し、
一致が検出された前記発話内容および前記字幕内容についてそれぞれ検出された前記発話タイミングおよび前記提示タイミングの時間差を算出し、
前記音声信号に同期した映像信号が示す映像へ、前記時間差を予め定められた規定時間差に合わせるようにタイミングをずらしながら前記字幕信号が示す字幕内容を合成することを特徴とする字幕信号処理方法。