JP5074941B2

JP5074941B2 - 字幕出力装置、字幕出力方法、及びプログラム

Info

Publication number: JP5074941B2
Application number: JP2008021656A
Authority: JP
Inventors: 裕一中澤; 定樹粟田; 博吉川
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2008-01-31
Filing date: 2008-01-31
Publication date: 2012-11-14
Anticipated expiration: 2028-01-31
Also published as: JP2009182859A

Description

本発明は、テレビ番組の出演者（ニュース番組のアナウンサー等）が予め用意された原稿（以下、"テキスト"と称する）を読むことにより発せられる発話にタイミングを合わせて、その発話の内容を表す字幕をテレビ番組の映像に挿入するための技術に関するものである。

図１に、テレビ番組の出演者が予め用意されたテキストを読むことにより発せられる発話に対応する字幕を作成し、出力する字幕出力システム１の機能構成の一例を示す。

図１に示すように、この字幕出力システム１は、音声入力部２と、音声認識部３と、テキスト格納部４と、字幕決定部５と、字幕送出部６とを備える。音声入力部２は、テレビ番組の出演者により発せられた発話音声の信号を入力する機能部であり、音声認識部３は、音声入力部１により入力された音声に対して音声認識を行い、音声認識結果を出力する機能部である。

テキスト格納部４は、テレビ番組の出演者が読む予定のテキストを格納するものである。字幕決定部５は、音声認識部３から受信する音声認識結果とテキスト格納部４に格納されたテキストとを照合することにより、字幕として送出すべきテキストを決定する機能部である。字幕送出部６は、字幕決定部５により決定された字幕を、テレビ番組の映像に字幕を挿入する機器等に送出する機能部である。

本例において、テキスト格納部４に格納されるテキストにおける各文章は、テレビ番組の出演者が読む順番に沿って並べられているものとし、テレビ番組の出演者は、テキストの内容以外の発話は基本的に行わないことを前提とする。なお、テキスト内の各文章のように、所定の方法で区切られた区間のテキストを区間テキストと呼ぶ。

この字幕出力システム１における字幕決定処理の概念を図１に加えて図２を参照して説明する。この例では、字幕決定部５は、現在までに字幕であるとして出力したテキストの位置から、次の出力すべき字幕かどうかを判定する対象であるテキストの位置を推定できる。例えば、図２に示すテキストＡが字幕として出力され、認識結果Ｂに対応する発話が終了した後に、字幕決定部５は、認識結果Ｂを音声認識部３から受信し、テキストＡの直後にあるテキストＢと認識結果Ｂとを照合する。

そして、字幕決定部５は、照合結果に基づき、テキストＢをテキストＡの次に出力すべき字幕Ｂであると決定し、それを字幕送出部６を介して出力する。字幕Ｃについても同様である。本願に関連する先行技術文献として、特許文献１、２がある。
特開２００２−３４２３１１号公報特開２００２−３５１４９０号公報

上述した技術では、ある程度の長さを持つ認識結果を取得し、その認識結果とテキストとの照合が終わった後に字幕が送出されることから、実際の発話よりも字幕の表示が時間的に遅れるという問題がある。また、この問題に関連して、図２に示すテキストＣの場合のように、テキストに対応する発話が終了した後にＣＭ（広告放送）が始まる場合においては、字幕の表示がＣＭの時間帯にずれ込んでしまうという問題がある。

字幕の表示がＣＭの時間帯にずれ込んで表示されることを防止するために、テキストＣの直後にＣＭが始まる旨の情報を含めておき、字幕決定部５がこの情報を検出した場合に字幕を出力しないようにすることも考えられる。しかし、この方法では表示すべき字幕Ｃが表示されなくなってしまうという問題が生じる。

さて、実際の発話よりも字幕の送出が遅れるという問題を解決するために、認識結果の冒頭部分と、その認識結果に対応するテキストの冒頭部分との照合が取れた段階で、認識結果の長さに対応するテキスト部分を当該認識結果に対応する字幕であると判定し、それを出力することが考えられる。この方法を図３を用いて説明する。

図３に示すように、認識結果Ａの冒頭部分（例えば、予め定めた文字数に相当する長さの部分）と、認識結果Ａの長さに対応するテキストＡの冒頭部分とを照合し、対応すると判定した場合に、テキストＡ全体を認識結果Ａに対応する字幕Ａとして出力する。字幕Ｂ、字幕Ｃについても同様である。この方法では、冒頭部分の音声認識がうまく行われている限りにおいては、発話に遅れることなく字幕を表示することが可能である。

しかしながら、音声認識では全体の認識率がよくても、上記冒頭部分のような短い区間で誤認識が集中して発生する場合がある。また、発話の冒頭部分は一般的に他の部分に比べて誤認識が発生しやすい。

例えば、図３の認識結果Ｃの冒頭部分で誤認識が発生しており、テキストＣの冒頭部分との照合に失敗したとする。その場合、認識結果ＣはテキストＣに対応するものであると判断することはできず、このタイミングで字幕Ｃを出力することができなくなり、字幕Ｃが表示されることなくＣＭが放送されてしまうことになる。また、ＣＭから離れた部分で照合に失敗した場合でも、リカバリ処理に時間がかかり、字幕を出力できたとしてもそれに対応する発話から遅れたタイミングとなってしまう。

本発明は上記の点に鑑みてなされたものであり、１つの認識結果全体と、テキストとを照合することにより字幕を決定する技術において、字幕の出力がＣＭの時間にずれ込まず、字幕を確実に出力することを可能にする技術を提供することを本発明の第１の目的とする。

また、区間テキストの冒頭部分を用いて字幕を決定する技術において、字幕を発話に対して遅れることなく確実に出力することを可能にする技術を提供することを本発明の第２の目的とする。

上記の課題を解決するために、本発明は、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置において、前記テキストを格納するテキスト格納手段と、前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、前記音声認識結果と前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定手段と、前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定手段と、前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力手段とを備えるものである。

上記の字幕出力装置において、前記テキスト照合区間内に前記番組の中断を示す情報がないと判定された場合には、前記字幕出力手段は、前記音声認識結果と前記テキスト照合区間におけるテキストとを照合することにより、前記音声認識結果に対応する区間テキストを決定し、当該区間テキストの終わりより前のテキストであって字幕として未出力のテキストを字幕として出力することとしてもよい。

また、前記字幕出力手段は、前記音声認識結果の前記区間テキストに対する認識率を算出し、当該認識率が所定の閾値未満である場合には、前記音声認識結果に対応する時点での字幕の出力を行わないこととしてもよい。

また、上記の課題を解決するために、本発明は、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、所定の方法で区切られた複数の区間テキストを含むテキストを格納するテキスト格納手段と、前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認手段と、前記発話位置確認手段により前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断手段と、前記発話開始判断手段により発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力手段とを備えたことを特徴とする字幕出力装置として構成してもよい。

上記字幕出力装置において、前記発話開始判断手段は、発話の進行により順次取得される前記音声認識結果に基づき、予め定めた長さの発話を検出した場合に、発話が開始されたと判断することとしてもよい。

また、本発明は、上記字幕出力装置が実行する方法として構成してもよい。更に本発明は、上記字幕出力装置の各手段をコンピュータに実現させるためのプログラムとして構成することもできる。

本発明によれば、１つの認識結果全体と、テキストとを照合することにより字幕を決定する技術において、字幕の出力がＣＭの時間にずれ込まず、字幕を確実に出力することを可能にする技術を提供できる。また、区間テキストの冒頭部分を用いて字幕を決定する技術において、字幕を発話に対して遅れることなく確実に出力することを可能にする技術を提供することができる。

以下、図面を参照して、本発明の実施の形態について説明する。

（第１の実施の形態）
まず、本発明の第１の目的に対応する第１の実施の形態について説明する。第１の実施の形態における字幕出力システムの全体構成は図１に示したものと同じである。また、テキスト格納部４に格納されるテキストにおける各区間テキストは、テレビ番組の出演者が読む順番に沿って並べられているものとし、テレビ番組の出演者は、テキストの内容以外の発話は行わないものとする。

また、本実施の形態では、音声認識部３から出力される認識結果は、あるまとまった長さを持つ発話区間（例えば、無発声区間の終わりから無発声区間の始まりまでの区間、文章にしたときに句読点で区切られるような文法上のまとまった区間、等）に対応するものであるとする。なお、音声認識部３から出力される認識結果があるまとまった長さを持つ発話区間であるとする代わりに、音声認識部３からはより短い単位（一文字分、あるいは一文字分に相当する時間長）の認識結果が順次出力され、字幕決定部５側である長さを持つ認識結果を組み立てることとしてもよい。

本実施の形態の字幕決定部５における処理の概要を図４を参照して説明する。本実施の形態における字幕決定部５は、ある認識結果に対するテキストの照合範囲を、その認識結果の長さよりも長くとる。例えば、ある認識結果の長さがＬ（文字数、時間長等）である場合において、照合の開始部分からＬ×Ｎ＋Ｗの長さの範囲を照合範囲にとる。ここで、Ｎは予め定めた自然数であるが、あまり大きな数ではなく、例えば、Ｎ＝１、２、３、４、５、６等である。また、Ｗは、予め定めた文字数（例えば数文字分）や時間長（例えば数文字分に対応する時間長）である。

図４に示す例では、例えば認識結果Ａについてのテキストの照合範囲は、テキストＡの開始部分から、認識結果Ａの２倍の長さに数文字分（あるいは所定時間分）の長さを加えた長さの範囲である。

また、本実施の形態における字幕決定部５は、照合範囲の中にテキストの終端が含まれているかどうかの判定を行い、終端を検出した場合には、当該終端の前のテキストであって、字幕として未出力のテキストを現時点で出力すべき字幕であると決定し、それを字幕送出部６を介して出力する。ここで終端とは、テレビ番組の中断を示す情報であり、例えばＣＭをはさまない番組の１コーナー毎に原稿テキストのファイルが作成される場合においてはファイルの終端を示す情報である。また、テキストに"次はＣＭ"を示す文字列や記号を記載する場合は、当該文字列や記号のことである。

図４に示す例で、字幕決定部５が認識結果Ｂを音声認識部３から受信した段階で、テキストＡまで字幕として出力されており、テキストＢ照合範囲の最後の部分にテキストの終端が含まれている場合において、字幕決定部５はテキストＢ照合範囲の最後の部分にテキストの終端を検出した時点で、未出力であるテキストＢとテキストＣを出力する。

このような処理を行うことにより、ＣＭの直前にあるテキストを字幕として確実に、ＣＭの時間帯にずれ込むことなく出力することができる。

＜字幕決定部の構成＞
本実施の形態における字幕決定部５の機能構成を図５に示す。図５に示すように、本実施の形態における字幕決定部５は、認識結果取得部５１、照合範囲決定部５２、テキスト終端判定部５３、照合部５４、字幕出力部５５を有する。

認識結果取得部５１は、音声認識部３から認識結果を取得する機能部である。照合範囲決定部５２は、認識結果の長さに基づきテキストの照合範囲を決定する機能部である。テキスト終端判定部５３は、照合範囲決定部５２により決定された照合範囲内のテキストの中に終端が含まれるかどうかを判定し、終端が含まれる場合に、終端前のテキストであって、字幕として未送出のテキストを出力する機能部である。

照合部５４は、認識結果と、照合範囲内のテキストとを照合し、認識結果に対応するテキストの区間を推定する（つまり、発話が終了した位置を推定する）とともに、推定した区間のテキストと認識結果とから認識率を算出する機能部である。また、照合部５４は、認識率に応じてテキストを字幕として出力するかどうかを判定し、出力する場合には発話が終了した区間までで未出力のテキストを字幕として出力する機能も有している。字幕出力部５５は、字幕送出部６に対して字幕を出力する機能部である。

＜字幕決定部の処理の詳細＞
次に、本実施の形態における字幕決定部５の処理の詳細を図６のフローチャートを参照して説明する。

まず、認識結果取得部５１が音声認識部３から認識結果を取得し、当該認識結果を照合範囲決定部５２に送信する（ステップ１）。認識結果を受信した照合範囲決定部５２は、当該認識結果の長さに基づいて、認識結果と照合を行う対象となるテキストの長さを決定する（ステップ２）。この長さの決定にあたっては、前述した方法を用いる。

テキスト格納部４に格納されるテキストのデータには、現時点で字幕として出力済であるテキストの最後の位置、言い換えると、次に字幕として出力されると推定できるテキストの開始位置が記録されている。ステップ２において、照合範囲決定部５２は、この開始位置から上記の照合を行う対象となるテキストの長さの範囲をテキストの照合範囲として決定する。

そして、照合範囲決定部５２は、照合範囲を示す情報（照合範囲を示すテキストの位置情報等）及び認識結果をテキスト終端判定部５３に送る。テキスト終端判定部５３は、テキスト格納部４を参照し、照合範囲内の領域を検索して、テキストの終端があるかどうかを判定する（ステップ３）。

ステップ３においてテキストの終端があった場合、テキスト終端判定部５３は、テキスト格納部４に格納された終端前のテキストのうちの字幕として未送出であるテキストを取得し、字幕として字幕出力部５５に渡し、字幕出力部５５はその字幕を出力する（ステップ４）。

ステップ３において照合範囲内にテキストの終端がなかった場合、テキスト終端判定部５３は、照合範囲を示す情報と認識結果とを照合部５４に渡す。そして、照合範囲を示す情報と認識結果を受信した照合部５４は、テキスト格納部４に格納されたテキストのうち、当該照合範囲の開始部分から始まるテキストと認識結果との照合を行い、照合範囲のテキストにおいて認識結果に対応する発話に対応するテキストの区間を推定する。つまり、当該認識結果に対応する発話が終了した位置を推定する（ステップ５）。

また、照合部５４は、推定された区間のテキストと、認識結果とから認識率を算出し（ステップ６）、認識率が予め定めた閾値以上であるかどうかを判定する（ステップ７）。認識率が予め定めた閾値以上であれば、照合部５４は、ステップ５において推定された発話が終了した位置までのテキストであって、現在までに字幕として未出力であるテキストをテキスト格納部４から取得し、それを現時点で表示すべき字幕として字幕出力部５５に出力するとともに、出力済みのテキストの終わりの位置をテキスト格納部４に記録する（ステップ８）。そして、処理はステップ１に戻る。

ステップ７において、認識率が予め定めた閾値未満であった場合には、照合部５４が字幕としてのテキストを出力することなく、処理はステップ１に戻る。

なお、本実施の形態では、このようにステップ７の判定がＮｏで次の認識結果の処理に移る場合においては、テキストの照合範囲の開始位置として、ステップ５において発話の終了位置として推定された位置を用いることができる。また、前回と同様に、未送出テキストの開始位置をテキストの照合範囲の開始位置とし、照合範囲の長さを前回よりも長くしてもよい。

（第２の実施の形態）
次に、本発明の第２の目的に対応する第２の実施の形態について説明する。第２の実施の形態における字幕出力システムの全体構成は図１に示したものと同じである。また、テキスト格納部４に格納されるテキストにおける各区間テキストは、テレビ番組の出演者が読む順番に沿って並べられているものとし、テレビ番組の出演者は、テキストの内容以外の発話は行わないものとする。

また、本実施の形態では、字幕決定部５は、音声認識部３から短い単位（一文字分、一単語分、あるいは一文字分や一単語分に相当する時間長等）の認識結果を順次受信するものとする。また、テキスト格納部４に格納されるテキストは、予め定めた方法で区切られているものとし、区切られた各区間を区間テキストと呼ぶ。区切りとしては、例えば句読点、改行、予め定めた文字数等を用いることができる。区切られた各区間が後述するテキストＡ、テキストＢ等に対応する。

次に、本実施の形態の字幕決定部５における処理の概要を図７を参照して説明する。なお、図７中の番号は処理の順番を示している。図７に示すように、本実施の形態の字幕決定部５は、テキストＡを字幕Ａとして出力するとともに、音声認識部３から取得される認識結果（一文字単位等）とテキストの認識結果の長さに対応する部分とを照合しながら、テキストにおける現在の発話位置を順次把握する。そして、発話におけるテキストＡの終わりを確認できた後、字幕決定部５は、発話（テキストＢに対応する発話に相当）の開始がなされたかどうかを順次受信する認識結果に基づき判断する。そして、発話が開始されたと判断した時点で、テキストＢを字幕Ｂとして出力する。以降の処理も同様である。

上記の発話開始判断においては、順次受信する認識結果に基づき、予め定められた文字数（例えば、５文字、１０文字等）もしくは時間長に相当する発話がなされたことを検知した場合に、発話が開始されたと判断しており、テキストとの照合は行っていない。

発話冒頭部分に多少の誤認識があったとしても、発話であるかどうか（雑音や、咳払い等でないこと）の判定はできるので、本実施の形態における手法を用いることにより、字幕を発話に遅れることなく確実に出力することが可能となる。

＜字幕決定部の構成＞
次に、本実施の形態における字幕決定部５の機能構成を図８に示す。図８に示すように、本実施の形態における字幕決定部５は、認識結果取得部７１、発話開始判断部７２、テキスト取得部７３、発話位置確認部７４、及び字幕出力部７５を有する。

認識結果取得部７１は、音声認識部３から認識結果を取得する機能部である。発話開始判断部７２は、既に字幕として出力したテキストの終わりに対応する発話の後に、前述した方法により発話が開始されたかどうかを判断する機能部である。テキスト取得部７３は、発話開始判断部７２において発話が開始されたと判断された場合に、前回出力した区間テキストの次の区間テキスト、つまり、未出力のテキストのうちの最初の区間テキストをテキスト格納部４から取得し、字幕出力部７５に出力する機能部である。

発話位置確認部７４は、認識結果取得部７１が順次取得する認識結果と、テキストとを順次照合しながら、テキストにおいて現在発話がなされている位置を順次確認する機能部である。字幕出力部７５は、テキスト取得部７３により取得されたテキストを字幕として出力する機能部である。

＜字幕決定部の処理の詳細＞
次に、本実施の形態における字幕決定部５の処理の詳細を図９のフローチャートを参照して説明する。なお、図９のフローチャートのステップ１１の開始時点は、全体の発話の開始時点、もしくはある区間テキストが字幕として送出された後に、その区間テキストに対応する発話が終了し、次の発話が開始される時点である。

認識結果取得部７１が音声認識部３から認識結果を取得し、発話開始判断部７２が認識結果を受信する（ステップ１１）。この処理では、認識結果取得部７１は、短い文字数の単位（例えば１文字単位）、もしくは予め定めた短い時間（例えば０．５秒）単位に順次認識結果を取得しているものとする。

発話開始判断部７１は、順次受信する認識結果が発話に相当するものであるかどうかを判断する（ステップ１２）。本実施の形態では、認識結果から所定の文字数（例えば５文字、１０文字等）の発話がなされたと検知した場合に発話が開始されたと判断している。この判断においては認識結果とテキストとの照合を行わないが、全体の発話の開始の場合には、テキストの冒頭部分との照合を行うこととしてもよい。

発話開始判断における上記所定の文字数が短かすぎると、原稿に基づかない音（咳払いや、原稿に記載していない短いあいさつ等）を発話であると判定してしまう可能性があり、所定の文字数が長すぎると、字幕を迅速に送出できるという効果が低減することになる。

発話開始判断部７２が発話が開始されたと判断すると、その旨がテキスト取得部７３に伝えられる。そして、テキスト取得部７２は、テキスト格納部４から、未出力のテキストの中の最初の区間テキストを取得する。つまり、全体の発話の開始時点であれば、テキスト取得部７３が全体の中の最初の区間テキストを取得し、前回の区間テキストが字幕として出力された後であれば、テキスト取得部７３は、前回の区間テキストの次の区間テキストを取得する。

テキスト取得部７３は、取得した区間テキストを字幕出力部７５に送信し、字幕出力部７５は、当該区間テキストを字幕として出力する（ステップ１３）。

一方、発話位置確認部７４は、認識結果取得部７１から認識結果を順次受信し、当該認識結果と、テキスト格納部４のテキストとを照合し、認識結果（現在の発話に対応）がテキストのどの位置の文字に対応するかを順次確認している（ステップ１４）。そして、発話位置確認部７４は、ある区間テキストの区切りを検知することにより、当該区間テキストに対応する発話が終了したと判断し（ステップ１５のＹｅｓ）、続いてテキスト全体の処理が終了したかどうかを判断する（ステップ１６）。テキスト全体の処理が終了していなければ、上記区間テキストに対応する発話が終了した旨を発話開始判断部７２に伝える。そして、発話開始判断部７２はステップ１１からの処理を行う。ステップ１６において、テキストが終了したと判断された場合には、処理は終了する。

上述した第１の実施の形態及び第２の実施の形態で説明した字幕決定部５は、ＣＰＵ及び記憶装置等を有するコンピュータに、上記処理を実行させるプログラムをインストールすることにより実現可能である。このコンピュータは、字幕決定部５を含む字幕出力装置に相当するものである。この場合、コンピュータの記憶装置によりテキスト格納部４を実現することができる。当該プログラムは可搬メモリ等の記録媒体からコンピュータにインストールしてもよいし、ネットワークを介して外部サーバからダウンロードしてインストールしてもよい。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

字幕出力システム１の機能構成の一例を示す図である。字幕出力システム１における字幕決定処理の例を説明するための図である。字幕出力システム１における字幕決定処理の他の例を説明するための図である。本発明の第１の実施の形態における字幕決定部５の処理の概要を説明するための図である。本発明の第１の実施の形態における字幕決定部５の機能構成図である。本発明の第１の実施の形態における字幕決定部５の処理のフローチャートである。本発明の第２の実施の形態における字幕決定部５の処理の概要を説明するための図である。本発明の第２の実施の形態における字幕決定部５の機能構成図である。本発明の第２の実施の形態における字幕決定部５の処理のフローチャートである。

符号の説明

１字幕出力システム
２音声入力部
３音声認識部
４テキスト格納部
５字幕決定部
６字幕送出部
５１認識結果取得部
５２照合範囲決定部
５３テキスト終端判定部
５４照合部
５５字幕出力部
７１認識結果取得部
７２発話開始判断部
７３テキスト取得部
７４発話位置確認部
７５字幕出力部

Claims

番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、
前記テキストを格納するテキスト格納手段と、
前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、
前記音声認識結果と前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定手段と、
前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定手段と、
前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力手段と
を備えたことを特徴とする字幕出力装置。
前記テキスト照合区間内に前記番組の中断を示す情報がないと判定された場合には、前記字幕出力手段は、前記音声認識結果と前記テキスト照合区間におけるテキストとを照合することにより、前記音声認識結果に対応する区間テキストを決定し、当該区間テキストの終了より前のテキストであって字幕として未出力のテキストを字幕として出力することを特徴とする請求項１に記載の字幕出力装置。
前記字幕出力手段は、前記音声認識結果の前記区間テキストに対する認識率を算出し、当該認識率が所定の閾値未満である場合には、前記音声認識結果に対応する時点での字幕の出力を行わないことを特徴とする請求項２に記載の字幕出力装置。
番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、
所定の方法で区切られた複数の区間テキストを含むテキストを格納するテキスト格納手段と、
前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、
発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認手段と、
前記発話位置確認手段により前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断手段と、
前記発話開始判断手段により発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力手段と
を備えたことを特徴とする字幕出力装置。
前記発話開始判断手段は、発話の進行により順次取得される前記音声認識結果に基づき、予め定めた長さの発話を検出した場合に、発話が開始されたと判断することを特徴とする請求項４に記載の字幕出力装置。
番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力するための字幕出力装置が実行する字幕出力方法であって、
前記発話音声に対する音声認識結果を取得する音声認識結果取得ステップと、
前記音声認識結果と、前記字幕出力装置のテキスト格納手段が格納する前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定ステップと、
前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定ステップと、
前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力ステップと
を有することを特徴とする字幕出力方法。
番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、所定の方法で区切られた複数の区間テキストを含むテキストを格納するテキスト格納手段を備えた字幕出力装置が実行する字幕出力方法であって、
前記発話音声に対する音声認識結果を取得する音声認識結果取得ステップと、
発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認ステップと、
前記発話位置確認ステップにより前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断ステップと、
前記発話開始判断ステップにより発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力ステップと
を有することを特徴とする字幕出力方法。
コンピュータを、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置として機能させるプログラムであって、コンピュータを、
前記発話音声に対する音声認識結果を取得する音声認識結果取得手段、
前記音声認識結果と、前記コンピュータの記憶手段に格納される前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定手段、
前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定手段、
前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力手段、
として機能させるプログラム。
所定の方法で区切られた複数の区間テキストを含む、番組放送用に予め用意されたテキストを格納する記憶手段を備えたコンピュータを、前記テキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置として機能させるプログラムであって、コンピュータを、
前記発話音声に対する音声認識結果を取得する音声認識結果取得手段、
発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認手段、
前記発話位置確認手段により前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断手段、
前記発話開始判断手段により発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力手段、
として機能させるプログラム。