JP5074941B2 - 字幕出力装置、字幕出力方法、及びプログラム - Google Patents

字幕出力装置、字幕出力方法、及びプログラム Download PDF

Info

Publication number
JP5074941B2
JP5074941B2 JP2008021656A JP2008021656A JP5074941B2 JP 5074941 B2 JP5074941 B2 JP 5074941B2 JP 2008021656 A JP2008021656 A JP 2008021656A JP 2008021656 A JP2008021656 A JP 2008021656A JP 5074941 B2 JP5074941 B2 JP 5074941B2
Authority
JP
Japan
Prior art keywords
text
utterance
recognition result
section
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008021656A
Other languages
English (en)
Other versions
JP2009182859A (ja
Inventor
裕一 中澤
定樹 粟田
博 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2008021656A priority Critical patent/JP5074941B2/ja
Publication of JP2009182859A publication Critical patent/JP2009182859A/ja
Application granted granted Critical
Publication of JP5074941B2 publication Critical patent/JP5074941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、テレビ番組の出演者(ニュース番組のアナウンサー等)が予め用意された原稿(以下、"テキスト"と称する)を読むことにより発せられる発話にタイミングを合わせて、その発話の内容を表す字幕をテレビ番組の映像に挿入するための技術に関するものである。
図1に、テレビ番組の出演者が予め用意されたテキストを読むことにより発せられる発話に対応する字幕を作成し、出力する字幕出力システム1の機能構成の一例を示す。
図1に示すように、この字幕出力システム1は、音声入力部2と、音声認識部3と、テキスト格納部4と、字幕決定部5と、字幕送出部6とを備える。音声入力部2は、テレビ番組の出演者により発せられた発話音声の信号を入力する機能部であり、音声認識部3は、音声入力部1により入力された音声に対して音声認識を行い、音声認識結果を出力する機能部である。
テキスト格納部4は、テレビ番組の出演者が読む予定のテキストを格納するものである。字幕決定部5は、音声認識部3から受信する音声認識結果とテキスト格納部4に格納されたテキストとを照合することにより、字幕として送出すべきテキストを決定する機能部である。字幕送出部6は、字幕決定部5により決定された字幕を、テレビ番組の映像に字幕を挿入する機器等に送出する機能部である。
本例において、テキスト格納部4に格納されるテキストにおける各文章は、テレビ番組の出演者が読む順番に沿って並べられているものとし、テレビ番組の出演者は、テキストの内容以外の発話は基本的に行わないことを前提とする。なお、テキスト内の各文章のように、所定の方法で区切られた区間のテキストを区間テキストと呼ぶ。
この字幕出力システム1における字幕決定処理の概念を図1に加えて図2を参照して説明する。この例では、字幕決定部5は、現在までに字幕であるとして出力したテキストの位置から、次の出力すべき字幕かどうかを判定する対象であるテキストの位置を推定できる。例えば、図2に示すテキストAが字幕として出力され、認識結果Bに対応する発話が終了した後に、字幕決定部5は、認識結果Bを音声認識部3から受信し、テキストAの直後にあるテキストBと認識結果Bとを照合する。
そして、字幕決定部5は、照合結果に基づき、テキストBをテキストAの次に出力すべき字幕Bであると決定し、それを字幕送出部6を介して出力する。字幕Cについても同様である。本願に関連する先行技術文献として、特許文献1、2がある。
特開2002−342311号公報 特開2002−351490号公報
上述した技術では、ある程度の長さを持つ認識結果を取得し、その認識結果とテキストとの照合が終わった後に字幕が送出されることから、実際の発話よりも字幕の表示が時間的に遅れるという問題がある。また、この問題に関連して、図2に示すテキストCの場合のように、テキストに対応する発話が終了した後にCM(広告放送)が始まる場合においては、字幕の表示がCMの時間帯にずれ込んでしまうという問題がある。
字幕の表示がCMの時間帯にずれ込んで表示されることを防止するために、テキストCの直後にCMが始まる旨の情報を含めておき、字幕決定部5がこの情報を検出した場合に字幕を出力しないようにすることも考えられる。しかし、この方法では表示すべき字幕Cが表示されなくなってしまうという問題が生じる。
さて、実際の発話よりも字幕の送出が遅れるという問題を解決するために、認識結果の冒頭部分と、その認識結果に対応するテキストの冒頭部分との照合が取れた段階で、認識結果の長さに対応するテキスト部分を当該認識結果に対応する字幕であると判定し、それを出力することが考えられる。この方法を図3を用いて説明する。
図3に示すように、認識結果Aの冒頭部分(例えば、予め定めた文字数に相当する長さの部分)と、認識結果Aの長さに対応するテキストAの冒頭部分とを照合し、対応すると判定した場合に、テキストA全体を認識結果Aに対応する字幕Aとして出力する。字幕B、字幕Cについても同様である。この方法では、冒頭部分の音声認識がうまく行われている限りにおいては、発話に遅れることなく字幕を表示することが可能である。
しかしながら、音声認識では全体の認識率がよくても、上記冒頭部分のような短い区間で誤認識が集中して発生する場合がある。また、発話の冒頭部分は一般的に他の部分に比べて誤認識が発生しやすい。
例えば、図3の認識結果Cの冒頭部分で誤認識が発生しており、テキストCの冒頭部分との照合に失敗したとする。その場合、認識結果CはテキストCに対応するものであると判断することはできず、このタイミングで字幕Cを出力することができなくなり、字幕Cが表示されることなくCMが放送されてしまうことになる。また、CMから離れた部分で照合に失敗した場合でも、リカバリ処理に時間がかかり、字幕を出力できたとしてもそれに対応する発話から遅れたタイミングとなってしまう。
本発明は上記の点に鑑みてなされたものであり、1つの認識結果全体と、テキストとを照合することにより字幕を決定する技術において、字幕の出力がCMの時間にずれ込まず、字幕を確実に出力することを可能にする技術を提供することを本発明の第1の目的とする。
また、区間テキストの冒頭部分を用いて字幕を決定する技術において、字幕を発話に対して遅れることなく確実に出力することを可能にする技術を提供することを本発明の第2の目的とする。
上記の課題を解決するために、本発明は、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置において、前記テキストを格納するテキスト格納手段と、前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、前記音声認識結果と前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定手段と、前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定手段と、前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力手段とを備えるものである。
上記の字幕出力装置において、前記テキスト照合区間内に前記番組の中断を示す情報がないと判定された場合には、前記字幕出力手段は、前記音声認識結果と前記テキスト照合区間におけるテキストとを照合することにより、前記音声認識結果に対応する区間テキストを決定し、当該区間テキストの終わりより前のテキストであって字幕として未出力のテキストを字幕として出力することとしてもよい。
また、前記字幕出力手段は、前記音声認識結果の前記区間テキストに対する認識率を算出し、当該認識率が所定の閾値未満である場合には、前記音声認識結果に対応する時点での字幕の出力を行わないこととしてもよい。
また、上記の課題を解決するために、本発明は、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、所定の方法で区切られた複数の区間テキストを含むテキストを格納するテキスト格納手段と、前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認手段と、前記発話位置確認手段により前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断手段と、前記発話開始判断手段により発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力手段とを備えたことを特徴とする字幕出力装置として構成してもよい。
上記字幕出力装置において、前記発話開始判断手段は、発話の進行により順次取得される前記音声認識結果に基づき、予め定めた長さの発話を検出した場合に、発話が開始されたと判断することとしてもよい。
また、本発明は、上記字幕出力装置が実行する方法として構成してもよい。更に本発明は、上記字幕出力装置の各手段をコンピュータに実現させるためのプログラムとして構成することもできる。
本発明によれば、1つの認識結果全体と、テキストとを照合することにより字幕を決定する技術において、字幕の出力がCMの時間にずれ込まず、字幕を確実に出力することを可能にする技術を提供できる。また、区間テキストの冒頭部分を用いて字幕を決定する技術において、字幕を発話に対して遅れることなく確実に出力することを可能にする技術を提供することができる。
以下、図面を参照して、本発明の実施の形態について説明する。
(第1の実施の形態)
まず、本発明の第1の目的に対応する第1の実施の形態について説明する。第1の実施の形態における字幕出力システムの全体構成は図1に示したものと同じである。また、テキスト格納部4に格納されるテキストにおける各区間テキストは、テレビ番組の出演者が読む順番に沿って並べられているものとし、テレビ番組の出演者は、テキストの内容以外の発話は行わないものとする。
また、本実施の形態では、音声認識部3から出力される認識結果は、あるまとまった長さを持つ発話区間(例えば、無発声区間の終わりから無発声区間の始まりまでの区間、文章にしたときに句読点で区切られるような文法上のまとまった区間、等)に対応するものであるとする。なお、音声認識部3から出力される認識結果があるまとまった長さを持つ発話区間であるとする代わりに、音声認識部3からはより短い単位(一文字分、あるいは一文字分に相当する時間長)の認識結果が順次出力され、字幕決定部5側である長さを持つ認識結果を組み立てることとしてもよい。
本実施の形態の字幕決定部5における処理の概要を図4を参照して説明する。本実施の形態における字幕決定部5は、ある認識結果に対するテキストの照合範囲を、その認識結果の長さよりも長くとる。例えば、ある認識結果の長さがL(文字数、時間長等)である場合において、照合の開始部分からL×N+Wの長さの範囲を照合範囲にとる。ここで、Nは予め定めた自然数であるが、あまり大きな数ではなく、例えば、N=1、2、3、4、5、6等である。また、Wは、予め定めた文字数(例えば数文字分)や時間長(例えば数文字分に対応する時間長)である。
図4に示す例では、例えば認識結果Aについてのテキストの照合範囲は、テキストAの開始部分から、認識結果Aの2倍の長さに数文字分(あるいは所定時間分)の長さを加えた長さの範囲である。
また、本実施の形態における字幕決定部5は、照合範囲の中にテキストの終端が含まれているかどうかの判定を行い、終端を検出した場合には、当該終端の前のテキストであって、字幕として未出力のテキストを現時点で出力すべき字幕であると決定し、それを字幕送出部6を介して出力する。ここで終端とは、テレビ番組の中断を示す情報であり、例えばCMをはさまない番組の1コーナー毎に原稿テキストのファイルが作成される場合においてはファイルの終端を示す情報である。また、テキストに"次はCM"を示す文字列や記号を記載する場合は、当該文字列や記号のことである。
図4に示す例で、字幕決定部5が認識結果Bを音声認識部3から受信した段階で、テキストAまで字幕として出力されており、テキストB照合範囲の最後の部分にテキストの終端が含まれている場合において、字幕決定部5はテキストB照合範囲の最後の部分にテキストの終端を検出した時点で、未出力であるテキストBとテキストCを出力する。
このような処理を行うことにより、CMの直前にあるテキストを字幕として確実に、CMの時間帯にずれ込むことなく出力することができる。
<字幕決定部の構成>
本実施の形態における字幕決定部5の機能構成を図5に示す。図5に示すように、本実施の形態における字幕決定部5は、認識結果取得部51、照合範囲決定部52、テキスト終端判定部53、照合部54、字幕出力部55を有する。
認識結果取得部51は、音声認識部3から認識結果を取得する機能部である。照合範囲決定部52は、認識結果の長さに基づきテキストの照合範囲を決定する機能部である。テキスト終端判定部53は、照合範囲決定部52により決定された照合範囲内のテキストの中に終端が含まれるかどうかを判定し、終端が含まれる場合に、終端前のテキストであって、字幕として未送出のテキストを出力する機能部である。
照合部54は、認識結果と、照合範囲内のテキストとを照合し、認識結果に対応するテキストの区間を推定する(つまり、発話が終了した位置を推定する)とともに、推定した区間のテキストと認識結果とから認識率を算出する機能部である。また、照合部54は、認識率に応じてテキストを字幕として出力するかどうかを判定し、出力する場合には発話が終了した区間までで未出力のテキストを字幕として出力する機能も有している。字幕出力部55は、字幕送出部6に対して字幕を出力する機能部である。
<字幕決定部の処理の詳細>
次に、本実施の形態における字幕決定部5の処理の詳細を図6のフローチャートを参照して説明する。
まず、認識結果取得部51が音声認識部3から認識結果を取得し、当該認識結果を照合範囲決定部52に送信する(ステップ1)。認識結果を受信した照合範囲決定部52は、当該認識結果の長さに基づいて、認識結果と照合を行う対象となるテキストの長さを決定する(ステップ2)。この長さの決定にあたっては、前述した方法を用いる。
テキスト格納部4に格納されるテキストのデータには、現時点で字幕として出力済であるテキストの最後の位置、言い換えると、次に字幕として出力されると推定できるテキストの開始位置が記録されている。ステップ2において、照合範囲決定部52は、この開始位置から上記の照合を行う対象となるテキストの長さの範囲をテキストの照合範囲として決定する。
そして、照合範囲決定部52は、照合範囲を示す情報(照合範囲を示すテキストの位置情報等)及び認識結果をテキスト終端判定部53に送る。テキスト終端判定部53は、テキスト格納部4を参照し、照合範囲内の領域を検索して、テキストの終端があるかどうかを判定する(ステップ3)。
ステップ3においてテキストの終端があった場合、テキスト終端判定部53は、テキスト格納部4に格納された終端前のテキストのうちの字幕として未送出であるテキストを取得し、字幕として字幕出力部55に渡し、字幕出力部55はその字幕を出力する(ステップ4)。
ステップ3において照合範囲内にテキストの終端がなかった場合、テキスト終端判定部53は、照合範囲を示す情報と認識結果とを照合部54に渡す。そして、照合範囲を示す情報と認識結果を受信した照合部54は、テキスト格納部4に格納されたテキストのうち、当該照合範囲の開始部分から始まるテキストと認識結果との照合を行い、照合範囲のテキストにおいて認識結果に対応する発話に対応するテキストの区間を推定する。つまり、当該認識結果に対応する発話が終了した位置を推定する(ステップ5)。
また、照合部54は、推定された区間のテキストと、認識結果とから認識率を算出し(ステップ6)、認識率が予め定めた閾値以上であるかどうかを判定する(ステップ7)。認識率が予め定めた閾値以上であれば、照合部54は、ステップ5において推定された発話が終了した位置までのテキストであって、現在までに字幕として未出力であるテキストをテキスト格納部4から取得し、それを現時点で表示すべき字幕として字幕出力部55に出力するとともに、出力済みのテキストの終わりの位置をテキスト格納部4に記録する(ステップ8)。そして、処理はステップ1に戻る。
ステップ7において、認識率が予め定めた閾値未満であった場合には、照合部54が字幕としてのテキストを出力することなく、処理はステップ1に戻る。
なお、本実施の形態では、このようにステップ7の判定がNoで次の認識結果の処理に移る場合においては、テキストの照合範囲の開始位置として、ステップ5において発話の終了位置として推定された位置を用いることができる。また、前回と同様に、未送出テキストの開始位置をテキストの照合範囲の開始位置とし、照合範囲の長さを前回よりも長くしてもよい。
(第2の実施の形態)
次に、本発明の第2の目的に対応する第2の実施の形態について説明する。第2の実施の形態における字幕出力システムの全体構成は図1に示したものと同じである。また、テキスト格納部4に格納されるテキストにおける各区間テキストは、テレビ番組の出演者が読む順番に沿って並べられているものとし、テレビ番組の出演者は、テキストの内容以外の発話は行わないものとする。
また、本実施の形態では、字幕決定部5は、音声認識部3から短い単位(一文字分、一単語分、あるいは一文字分や一単語分に相当する時間長等)の認識結果を順次受信するものとする。また、テキスト格納部4に格納されるテキストは、予め定めた方法で区切られているものとし、区切られた各区間を区間テキストと呼ぶ。区切りとしては、例えば句読点、改行、予め定めた文字数等を用いることができる。区切られた各区間が後述するテキストA、テキストB等に対応する。
次に、本実施の形態の字幕決定部5における処理の概要を図7を参照して説明する。なお、図7中の番号は処理の順番を示している。図7に示すように、本実施の形態の字幕決定部5は、テキストAを字幕Aとして出力するとともに、音声認識部3から取得される認識結果(一文字単位等)とテキストの認識結果の長さに対応する部分とを照合しながら、テキストにおける現在の発話位置を順次把握する。そして、発話におけるテキストAの終わりを確認できた後、字幕決定部5は、発話(テキストBに対応する発話に相当)の開始がなされたかどうかを順次受信する認識結果に基づき判断する。そして、発話が開始されたと判断した時点で、テキストBを字幕Bとして出力する。以降の処理も同様である。
上記の発話開始判断においては、順次受信する認識結果に基づき、予め定められた文字数(例えば、5文字、10文字等)もしくは時間長に相当する発話がなされたことを検知した場合に、発話が開始されたと判断しており、テキストとの照合は行っていない。
発話冒頭部分に多少の誤認識があったとしても、発話であるかどうか(雑音や、咳払い等でないこと)の判定はできるので、本実施の形態における手法を用いることにより、字幕を発話に遅れることなく確実に出力することが可能となる。
<字幕決定部の構成>
次に、本実施の形態における字幕決定部5の機能構成を図8に示す。図8に示すように、本実施の形態における字幕決定部5は、認識結果取得部71、発話開始判断部72、テキスト取得部73、発話位置確認部74、及び字幕出力部75を有する。
認識結果取得部71は、音声認識部3から認識結果を取得する機能部である。発話開始判断部72は、既に字幕として出力したテキストの終わりに対応する発話の後に、前述した方法により発話が開始されたかどうかを判断する機能部である。テキスト取得部73は、発話開始判断部72において発話が開始されたと判断された場合に、前回出力した区間テキストの次の区間テキスト、つまり、未出力のテキストのうちの最初の区間テキストをテキスト格納部4から取得し、字幕出力部75に出力する機能部である。
発話位置確認部74は、認識結果取得部71が順次取得する認識結果と、テキストとを順次照合しながら、テキストにおいて現在発話がなされている位置を順次確認する機能部である。字幕出力部75は、テキスト取得部73により取得されたテキストを字幕として出力する機能部である。
<字幕決定部の処理の詳細>
次に、本実施の形態における字幕決定部5の処理の詳細を図9のフローチャートを参照して説明する。なお、図9のフローチャートのステップ11の開始時点は、全体の発話の開始時点、もしくはある区間テキストが字幕として送出された後に、その区間テキストに対応する発話が終了し、次の発話が開始される時点である。
認識結果取得部71が音声認識部3から認識結果を取得し、発話開始判断部72が認識結果を受信する(ステップ11)。この処理では、認識結果取得部71は、短い文字数の単位(例えば1文字単位)、もしくは予め定めた短い時間(例えば0.5秒)単位に順次認識結果を取得しているものとする。
発話開始判断部71は、順次受信する認識結果が発話に相当するものであるかどうかを判断する(ステップ12)。本実施の形態では、認識結果から所定の文字数(例えば5文字、10文字等)の発話がなされたと検知した場合に発話が開始されたと判断している。この判断においては認識結果とテキストとの照合を行わないが、全体の発話の開始の場合には、テキストの冒頭部分との照合を行うこととしてもよい。
発話開始判断における上記所定の文字数が短かすぎると、原稿に基づかない音(咳払いや、原稿に記載していない短いあいさつ等)を発話であると判定してしまう可能性があり、所定の文字数が長すぎると、字幕を迅速に送出できるという効果が低減することになる。
発話開始判断部72が発話が開始されたと判断すると、その旨がテキスト取得部73に伝えられる。そして、テキスト取得部72は、テキスト格納部4から、未出力のテキストの中の最初の区間テキストを取得する。つまり、全体の発話の開始時点であれば、テキスト取得部73が全体の中の最初の区間テキストを取得し、前回の区間テキストが字幕として出力された後であれば、テキスト取得部73は、前回の区間テキストの次の区間テキストを取得する。
テキスト取得部73は、取得した区間テキストを字幕出力部75に送信し、字幕出力部75は、当該区間テキストを字幕として出力する(ステップ13)。
一方、発話位置確認部74は、認識結果取得部71から認識結果を順次受信し、当該認識結果と、テキスト格納部4のテキストとを照合し、認識結果(現在の発話に対応)がテキストのどの位置の文字に対応するかを順次確認している(ステップ14)。そして、発話位置確認部74は、ある区間テキストの区切りを検知することにより、当該区間テキストに対応する発話が終了したと判断し(ステップ15のYes)、続いてテキスト全体の処理が終了したかどうかを判断する(ステップ16)。テキスト全体の処理が終了していなければ、上記区間テキストに対応する発話が終了した旨を発話開始判断部72に伝える。そして、発話開始判断部72はステップ11からの処理を行う。ステップ16において、テキストが終了したと判断された場合には、処理は終了する。
上述した第1の実施の形態及び第2の実施の形態で説明した字幕決定部5は、CPU及び記憶装置等を有するコンピュータに、上記処理を実行させるプログラムをインストールすることにより実現可能である。このコンピュータは、字幕決定部5を含む字幕出力装置に相当するものである。この場合、コンピュータの記憶装置によりテキスト格納部4を実現することができる。当該プログラムは可搬メモリ等の記録媒体からコンピュータにインストールしてもよいし、ネットワークを介して外部サーバからダウンロードしてインストールしてもよい。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
字幕出力システム1の機能構成の一例を示す図である。 字幕出力システム1における字幕決定処理の例を説明するための図である。 字幕出力システム1における字幕決定処理の他の例を説明するための図である。 本発明の第1の実施の形態における字幕決定部5の処理の概要を説明するための図である。 本発明の第1の実施の形態における字幕決定部5の機能構成図である。 本発明の第1の実施の形態における字幕決定部5の処理のフローチャートである。 本発明の第2の実施の形態における字幕決定部5の処理の概要を説明するための図である。 本発明の第2の実施の形態における字幕決定部5の機能構成図である。 本発明の第2の実施の形態における字幕決定部5の処理のフローチャートである。
符号の説明
1 字幕出力システム
2 音声入力部
3 音声認識部
4 テキスト格納部
5 字幕決定部
6 字幕送出部
51 認識結果取得部
52 照合範囲決定部
53 テキスト終端判定部
54 照合部
55 字幕出力部
71 認識結果取得部
72 発話開始判断部
73 テキスト取得部
74 発話位置確認部
75 字幕出力部

Claims (9)

  1. 番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、
    前記テキストを格納するテキスト格納手段と、
    前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、
    前記音声認識結果と前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定手段と、
    前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定手段と、
    前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力手段と
    を備えたことを特徴とする字幕出力装置。
  2. 前記テキスト照合区間内に前記番組の中断を示す情報がないと判定された場合には、前記字幕出力手段は、前記音声認識結果と前記テキスト照合区間におけるテキストとを照合することにより、前記音声認識結果に対応する区間テキストを決定し、当該区間テキストの終了より前のテキストであって字幕として未出力のテキストを字幕として出力することを特徴とする請求項1に記載の字幕出力装置。
  3. 前記字幕出力手段は、前記音声認識結果の前記区間テキストに対する認識率を算出し、当該認識率が所定の閾値未満である場合には、前記音声認識結果に対応する時点での字幕の出力を行わないことを特徴とする請求項2に記載の字幕出力装置。
  4. 番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、
    所定の方法で区切られた複数の区間テキストを含むテキストを格納するテキスト格納手段と、
    前記発話音声に対する音声認識結果を取得する音声認識結果取得手段と、
    発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認手段と、
    前記発話位置確認手段により前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断手段と、
    前記発話開始判断手段により発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力手段と
    を備えたことを特徴とする字幕出力装置。
  5. 前記発話開始判断手段は、発話の進行により順次取得される前記音声認識結果に基づき、予め定めた長さの発話を検出した場合に、発話が開始されたと判断することを特徴とする請求項4に記載の字幕出力装置。
  6. 番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力するための字幕出力装置が実行する字幕出力方法であって、
    前記発話音声に対する音声認識結果を取得する音声認識結果取得ステップと、
    前記音声認識結果と、前記字幕出力装置のテキスト格納手段が格納する前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定ステップと、
    前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定ステップと、
    前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力ステップと
    を有することを特徴とする字幕出力方法。
  7. 番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置であって、所定の方法で区切られた複数の区間テキストを含むテキストを格納するテキスト格納手段を備えた字幕出力装置が実行する字幕出力方法であって、
    前記発話音声に対する音声認識結果を取得する音声認識結果取得ステップと、
    発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認ステップと、
    前記発話位置確認ステップにより前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断ステップと、
    前記発話開始判断ステップにより発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力ステップと
    を有することを特徴とする字幕出力方法。
  8. コンピュータを、番組放送用に予め用意されたテキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置として機能させるプログラムであって、コンピュータを、
    前記発話音声に対する音声認識結果を取得する音声認識結果取得手段、
    前記音声認識結果と、前記コンピュータの記憶手段に格納される前記テキストとを照合するためのテキスト照合区間として、前記音声認識結果の長さに基づき当該音声認識結果の長さよりも長い区間を決定するテキスト照合区間決定手段、
    前記テキスト照合区間内に前記番組の中断を示す情報があるか否かを判定する番組中断情報判定手段、
    前記テキスト照合区間内に前記番組の中断を示す情報があると判定された場合に、前記中断前のテキストのうち字幕として未出力であるテキストを字幕として出力する字幕出力手段、
    として機能させるプログラム。
  9. 所定の方法で区切られた複数の区間テキストを含む、番組放送用に予め用意されたテキストを格納する記憶手段を備えたコンピュータを、前記テキストに基づき発せられる発話音声に対応した字幕を出力する字幕出力装置として機能させるプログラムであって、コンピュータを、
    前記発話音声に対する音声認識結果を取得する音声認識結果取得手段、
    発話の進行により順次取得される前記音声認識結果と前記テキストとを順次照合することにより、発話に対応する前記テキスト内の位置を確認する発話位置確認手段、
    前記発話位置確認手段により前記テキストの中のある区間テキストに対応する発話が終了したと判定された後に、発話が開始されたか否かを判断する発話開始判断手段、
    前記発話開始判断手段により発話が開始されたと判断された場合に、前記ある区間テキストの次の区間テキストを字幕として出力する字幕出力手段、
    として機能させるプログラム。
JP2008021656A 2008-01-31 2008-01-31 字幕出力装置、字幕出力方法、及びプログラム Active JP5074941B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008021656A JP5074941B2 (ja) 2008-01-31 2008-01-31 字幕出力装置、字幕出力方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008021656A JP5074941B2 (ja) 2008-01-31 2008-01-31 字幕出力装置、字幕出力方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2009182859A JP2009182859A (ja) 2009-08-13
JP5074941B2 true JP5074941B2 (ja) 2012-11-14

Family

ID=41036444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008021656A Active JP5074941B2 (ja) 2008-01-31 2008-01-31 字幕出力装置、字幕出力方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5074941B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5500980B2 (ja) * 2009-12-28 2014-05-21 クラリオン株式会社 テレビ受信装置、テレビ受信装置の制御方法及び制御プログラム
JP7216771B2 (ja) * 2021-06-09 2023-02-01 西日本電信電話株式会社 台本へのメタデータ付与装置、方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3873926B2 (ja) * 2003-05-16 2007-01-31 日本電気株式会社 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP4113059B2 (ja) * 2003-07-28 2008-07-02 株式会社東芝 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
JP3884016B2 (ja) * 2004-02-13 2007-02-21 ダイキン工業株式会社 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP4079096B2 (ja) * 2004-02-18 2008-04-23 日本電信電話株式会社 映像音声とシナリオとの整合状態の修正支援方法及び整合修正支援装置及び整合修正プログラム

Also Published As

Publication number Publication date
JP2009182859A (ja) 2009-08-13

Similar Documents

Publication Publication Date Title
CN110085261B (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
US6442518B1 (en) Method for refining time alignments of closed captions
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US11900932B2 (en) Determining a system utterance with connective and content portions from a user utterance
JP5246948B2 (ja) 字幕ずれ補正装置、再生装置および放送装置
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
US20080270134A1 (en) Hybrid-captioning system
WO2008050649A1 (fr) Système, procédé et programme de récapitulation de contenu
WO2009122779A1 (ja) テキストデータ処理装置、方法、プログラムが格納された記録媒体
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
US20160314116A1 (en) Interpretation apparatus and method
CN105931641B (zh) 字幕数据生成方法和装置
JP2010157241A (ja) Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP5074941B2 (ja) 字幕出力装置、字幕出力方法、及びプログラム
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
JP4538618B2 (ja) 字幕番組制作システムにおける表示単位字幕文の自動生成方法
JP4210723B2 (ja) 自動字幕番組制作システム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5022193B2 (ja) 字幕監視装置及び字幕監視プログラム
JP5243886B2 (ja) 字幕出力装置、字幕出力方法及びプログラム
KR101705228B1 (ko) 전자문서생성장치 및 그 동작 방법
JP4140744B2 (ja) 字幕文テキストの自動分割方法
JP4595098B2 (ja) 字幕送出タイミング検出装置
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120824

R150 Certificate of patent or registration of utility model

Ref document number: 5074941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150831

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250