JP2010044171A - 字幕出力装置、字幕出力方法及びプログラム - Google Patents
字幕出力装置、字幕出力方法及びプログラム Download PDFInfo
- Publication number
- JP2010044171A JP2010044171A JP2008207407A JP2008207407A JP2010044171A JP 2010044171 A JP2010044171 A JP 2010044171A JP 2008207407 A JP2008207407 A JP 2008207407A JP 2008207407 A JP2008207407 A JP 2008207407A JP 2010044171 A JP2010044171 A JP 2010044171A
- Authority
- JP
- Japan
- Prior art keywords
- subtitle
- unit
- sentence
- recognition
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【解決手段】字幕単位文生成部14は、入力されたテキスト文を字幕の出力単位に分割することにより、複数の字幕単位文を生成する。音声認識単位文生成部13は、入力されたテキスト文を音声認識の処理単位に分割することにより、複数の音声認識単位文を生成する。ビタビネットワーク生成部15は、各音声認識単位文の音声認識用のビタビネットワークと、字幕先頭検出用ネットワークとを生成する。音声認識部16は、テキスト文が発声された音声とビタビネットワークを構成する各認識候補文節とを逐次照合を行うことにより音声認識処理を行う。字幕単位文出力部17は、字幕先頭検出用ネットワークを構成する認識候補文節全体の音声認識処理が終了した時点で、対応する字幕単位文を出力する。
【選択図】図1
Description
図12は、ニュース等のリアルタイム放送番組において従来一般的に行われている字幕送出の仕組みを示す図である。同図に示すように、アナウンサーがマイクロホンに向かってニュース原稿を読み上げている時に、字幕担当者がアナウンサーの音声を聞いて字幕の表示タイミングを判断し、表示タイミングとなった時に字幕切替装置のボタンを押す等の操作を行う。これにより、カメラで撮影された映像と、マイクロホンで収集された音声と、字幕切替装置において予め用意されている字幕とが、多重化機で多重化され、通信回線を介して受信機に送出される。
これに対して、ドラマなどの録画番組の場合には、音声と字幕との同期をとったデータを予め作成しておくことができるため、放送時に字幕表示の遅延や誤表示を防ぐことができる(例えば、特許文献1参照)。特許文献1に記載の自動字幕番組制作システムは、テキスト文から提示単位字幕文を生成し、提示単位字幕文毎にアナウンス音声との音声認識を行い、始点/終点タイミング情報を同期点として検出し、当該検出した始点/終点タイミング情報を提示単位字幕文毎に付与しておく。これにより、放送時には、付与したタイミング情報に基づいて音声と字幕との同期をとることが可能となる。
また、特許文献1に記載の技術では、アナウンサーの息継ぎ等の無音区間(ポーズ、間)が想定通りに発生しなかった場合、アナウンサーが原稿を読み間違えた場合、読み飛ばした場合、雑音がはいった場合等を想定していないため、音声に対応する提示単位字幕文が正しく認識されない場合が発生する。この場合、録画放送の場合には、放送前に修正することができるが、リアルタイム放送の場合には、修正する間もなく誤った提示単位字幕文が表示されてしまうという不具合が発生する。
また、音声に対応した字幕を誤りなく正確に出力することを可能とする字幕出力装置、字幕出力方法及びプログラムを提供する。
本発明によれば、字幕出力装置は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との照合が完了した時点で前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することが可能となる。
本発明によれば、字幕単位文の先頭の文節に対応する認識候補単位を含む所定数の認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することができる。
請求項3に記載の発明は、請求項1又は2に記載の字幕出力装置において、前記音声認識処理手段は、前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行うことを特徴とする。
本発明によれば、発話者の読み飛ばし等による誤認識を防ぎ、精度の高い音声認識結果に基づいて、音声に対応した字幕を少ない遅延で正確に出力することができる。
本発明によれば、字幕の先頭文節が発声されたことを正確に検出するための字幕先頭検出用ネットワークを生成して音声認識を行うことで、字幕の出力タイミングの判定を正確かつ容易に行うことができる。
本発明によれば、各認識候補文節間に、誤認識を防ぐための特殊認識候補を挿入することで、発話者の息継ぎの違い、読み間違い、言い直し、咳払い、雑音等に影響されずに、正確に音声認識を行うことができる。
本発明によれば、認識候補単位に特殊認識候補が含まれることにより、発話者の読み間違い、雑音等に影響されずに、音声認識の誤認識を防ぐことができる。
請求項7に記載の発明は、請求項5又は6に記載の字幕出力装置において、前記特殊認識候補には、ポーズがないことを表すNULLと、無音のポーズがあることを表すSILと、任意の音を表すGarbageと、の少なくとも1つが含まれることを特徴とする。
本発明によれば、字幕出力装置は、テキスト文が発声された音声の音声認識処理を、2以上の音声認識ネットワークを用いて並列に行うため、発話者の読み飛ばし等による音声の誤認識を防ぐことができ、音声に対応した字幕を正確に出力することが可能となる。
また、字幕出力装置は、テキスト文が発声された音声の音声認識処理を、2以上の音声認識ネットワークを用いて並列に行うため、発話者の読み飛ばし等による音声の誤認識を防ぐことができ、音声に対応した字幕を正確に出力することができる。
図1は、本発明の実施形態に係る字幕出力装置10の機能構成を示すブロック図である。本実施形態では、ニュース等のリアルタイム放送番組の原稿が電子化された連続テキスト文と、当該原稿がアナウンサーにより読み上げられた音声とが、字幕出力装置10に入力されるものとする。これにより、字幕出力装置10から字幕単位文が出力され、当該字幕単位文は、図12に示す従来の方法で音声や映像と多重化された後に、受信機に送出されて表示されるものとする。
図1に示すように、本実施形態に係る字幕出力装置10は、形態素解析部11、文節推定部12、音声認識単位文生成部13、字幕単位文生成部14、ビタビネットワーク生成部15、音声認識部16、及び、字幕単位文出力部17を含んで構成される。これらの機能は、字幕出力装置10が備える図示せぬCPU(Central Processing Unit)が、ハードディスクやROM(Read Only Memory)等の記憶装置に記憶されたプログラムやデータ等のソフトウェアを読み出して実行することにより実現される機能である。
形態素解析部11は、光ディスク等の記録媒体や通信回線を介して字幕出力装置10に入力された連続テキスト文を、予め記憶装置に記憶されている文法のルールや品詞、読み仮名等の辞書データベースを用いて、形態素(Morpheme:品詞、単語等の言語で意味を持つ最小単位)に分割し、それぞれの品詞、読み等を判別する。
図2は、形態素解析結果の具体例を示す図である。同図には、連続テキスト文「民主党、社民党、国民新党の野党3党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。」を入力とした場合に、形態素解析により出力される表層語(連続テキスト文が分割された結果である各形態素)、基本形(活用語の終止形)、読み(表記上の仮名)、発音(表音上の仮名)、品詞名、活用形が示されている。
なお、図2においては、各表層語に対応する読みは1つずつ表示されているが、複数の読みを持つ表層語については、複数の読みを得ることができる。例えば、図2では、「3」の読みは「サン」のみが示されているが、「ミ」、「スリー」の読みも得ることもできる。
文節推定部12は、連続テキスト文中の句読点や形態素解析部11の解析結果による単語・品詞情報を、予め記憶装置に記憶されている文節推定ルールと照合することで、文節の単位(区切り位置)を推定する。なお、文節推定ルールとは、助詞、助動詞等の品詞種類や句読点の並び条件に基づいて、文節の単位を推定する公知のロジックである。なお、文節とは、名詞、動詞等の自立語に接語が接続された発音上の単位である。例えば、「あの人は私の甥です。」というテキスト文の文節は、「あの」、「人は」、「私の」、「甥です。」の4つとなる。
字幕単位文生成部14は、所望の字幕単位文生成条件(例えば、画面に表示する字幕の文字数は30文字以内とする等の条件)に適合するように、入力された連続テキスト文を文節の区切りで分割することで、自然な箇所で区切られた字幕単位文を生成する。
音声認識単位文生成部13は、連続テキスト文の句読点や形態素解析部11による単語・品詞情報を、予め記憶装置に記憶されている公知の息継ぎ推定ルールと照合することによって、息継ぎによる無音区間を推定し、連続テキスト文を無音区間で区切ることにより、音声認識に適した処理単位である音声認識単位文を生成する。
図3は、形態素解析部11による解析結果に基づいて、文節推定部12により推定される文節と、字幕単位文生成部14により生成される字幕単位文と、音声認識単位文生成部13により生成される音声認識単位文の具体例を示す図である。
図3に示す原稿の連続テキスト文「民主党、社民党、国民新党の野党3党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。」は、形態素解析部11により形態素解析され、当該形態素解析された結果としての句読点や単語・品詞に基づいて、文節推定部12により図3に示す文節が推定され、字幕単位文生成部14により図3に示す字幕文単位文が生成され、音声認識単位文生成部13により図3に示す音声認識単位文が生成されることとなる。
ビタビネットワーク生成部15は、原稿の連続テキスト文がアナウンサーにより読み上げられた場合の音声を認識するためのビタビネットワーク(Viterbi Network)を生成する。このビタビネットワークは、音声認識単位文生成部13により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、当該音声認識単位文の先頭の文節に対応するものから順に連結したものである。ここで、「認識候補」とは、文節が発声された音声を音声認識可能とするために、1つの文節に対して形態素解析部11により得られた1又は複数の読みの発音記号列を例えば音素HMM(Hidden Markov Model)に変換したものである。また、「認識候補単位」とは、1つの文節に対する認識候補の集合である。したがって、「文節」と「認識候補単位」とは1対1に対応する。1つの文節に対して得られた読みが複数の場合には、「文節」と「認識候補」、及び、「認識候補単位」と「認識候補」とは、1対多の関係となる。1つの文節に対して得られた読みが1つの場合には、「認識候補」と「認識候補単位」とは一致する。ビタビネットワーク生成部15は、このビタビネットワークを、音声認識単位文生成部13により生成された音声認識単位文の数だけ生成する。
音声認識部16は、原稿の連続テキスト文がアナウンサーにより発声された音声を、ビタビネットワーク生成部15で生成されたビタビネットワークを用いて音声認識する。
図6は、音声認識処理部16の詳細な機能構成を示すブロック図である。同図に示すように、音声認識処理部16は、音声特徴量抽出部161と、ビタビネットワーク比較評価部162と、事象発生判定部163とを含んで構成される。
音声特徴量抽出部161は、入力音声から音声特徴量を求める。
ビタビネットワーク比較評価部162は、ビタビネットワークを構成する各認識候補単位を構成する各認識候補及び各認識候補単位の間に挿入された特殊認識候補の音声特徴量と、音声特徴量抽出部161で得られた音声特徴量との比較照合を逐次行い、ビタビネットワークで表される時系列的な音声特徴量変化が起こった尤度(確率)を逐次算出する。
事象発生判定部163は、ビタビネットワーク比較評価部162で算出された尤度に基づいて、複数のビタビネットワークで表される事象の何れか、もしくは、どれも発生していないことを任意の時点で判定し、事象検出結果を出力する。
字幕単位文出力部17は、音声認識部16から得られた事象検出結果に基づいて所定の字幕単位文の出力タイミングを検出した時に、その字幕単位文を出力する。本実施形態では、字幕単位文出力部17は、字幕先頭検出用ネットワーク生成機能151で生成された字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に、当該字幕先頭検出用ネットワークに対応する字幕単位文を出力する。
なお、音声認識部16は、字幕先頭検出用ネットワークで表される事象が発生したことを検出した後も、当該字幕先頭検出用ネットワークを構成する認識候補単位を先頭部分に有するビタビネットワークを続けて最後まで音声認識するため、次の字幕文が不要なタイミングを出力されるのを防ぐことができる。
次に、図7に示すフローチャートを参照して、本実施形態に係る字幕出力装置10が実行する字幕出力処理について説明する。
まず、字幕単位文生成部14は、形態素解析部11及び文節推定部12による処理結果に基づいて、入力された原稿の連続テキスト文を字幕の出力単位に分割することにより、複数の字幕単位文を生成する(ステップS101)。
次に、音声認識単位文生成部13は、形態素解析部11による処理結果に基づいて、入力された原稿の連続テキスト文を音声認識の処理単位に分割することにより、複数の音声認識単位文を生成する(ステップS102)。
次に、生放送中に、原稿の連続テキスト文がアナウンサーにより読み上げられて、リアルタイム音声が字幕出力装置10に入力されると、音声認識部16は、入力音声と、ビタビネットワーク生成部15により生成された字幕先頭検出用ネットワークを含む複数の各ビタビネットワークを構成する認識候補単位とを、先頭から逐次並列に照合することにより、並列認識処理を行う(ステップS104)。
字幕単位文出力部17は、字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に、当該字幕先頭検出用ネットワークに対応する字幕単位文を出力する(ステップS105)。
次に、図8に示すフローチャートを参照して、ビタビネットワーク生成部15の字幕先頭検出用ネットワーク生成機能151が実行する字幕先頭検出用ネットワークの生成処理について説明する。
前提として、「ネットワーク間距離」の算出方法を定義する。このネットワーク間距離は、ビタビネットワーク同士の類似度を表す指標となり、ネットワーク間距離が小さいほど2つのビタビネットワークを形成する音素同士が類似しており、誤認識が起こる確率が高いことを表す。例えば、ネットワーク間距離は、各ビタビネットワークに含まれる認識候補単位を形成する音素間距離を積算した値として定義できる。なお、ビタビネットワークが複数の経路を有する(つまり、ビタビネットワークに含まれる認識候補単位の中に複数の認識候補を含むものがある)場合は、例えば、比較対象となっているビタビネットワーク間の最近接部分の距離をネットワーク間距離として定義できる。
次に、字幕先頭検出用ネットワーク生成機能151が、図9に示す音声認識単位文に基づいて、同図に示す字幕単位文の先頭を認識するための字幕先頭検出用ネットワークを決定する処理の具体例について説明する。
この例では、現在発声中の文節を含む音声認識単位文に対応するビタビネットワークと、当該ビタビネットワークに後続するビタビネットワークと、の2つを並行して用いて音声認識処理を行うものとする。また、実際には、音声認識単位文に対応するビタビネットワークを構成する認識候補単位を用いて字幕先頭検出用ネットワークが生成されるが、ここでは、「ビタビネットワーク」及び「認識候補単位」の代わりに、対応する「音声認識単位文」及び「文節」を用いて説明することとする。
次の字幕単位文3)は、音声認識単位文(B)の「チップを」+「渡した」まででは、音声認識単位文(C)の「チップを渡す」と十分な距離がとれないため、「ものか」までが接続され、音声認識単位文(B)の先頭文節から「チップを」+「渡した」+「ものか」までが、字幕単位文3)の字幕先頭検出用ネットワークとなる。
次に、図10及び図11を参照して、並列認識処理の具体例について説明する。
図10(a)は、原稿の連続テキスト文「民主党、社民党、国民新党の野党3党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。自民公明両党は対抗措置として・・・」から生成されたビタビネットワーク、(b)は上記連続テキスト文から生成された字幕単位文、(c)は(b)の字幕単位文1)、2)各々の下線部分を音声認識した時点で各字幕単位文を出力するための字幕先頭検出用ネットワークである。
まず、音声認識部16は、ビタビネットワーク生成部15が生成した図10(a),(c)に示すビタビネットワークのうち、先頭のビタビネットワーク1Aと、並列認識処理対象となる次のビタビネットワーク2Aと、字幕先頭検出用ネットワーク1Bとを検出対象として入力する(ステップS301)。
音声1「みんしゅとうしゃみんとう」がアナウンサーにより発声された時に、音声認識部16は、字幕先頭検出用ネットワーク1Bの事象を検出する(ステップS302)。そして、音声認識部16は、検出対象から検出済みの字幕先頭検出用ネットワーク1Bを除外し、次の字幕先頭検出用ネットワーク2Bを追加する(ステップS303)。
次に、音声2「こくみんしんとうのやとうさんとうがていしゅつした」が発声されると、音声認識部16は、ビタビネットワーク1Aの事象を検出する(ステップS305)。音声認識部16は、検出対象からビタビネットワーク1Aを除外し、次の並列認識対象のビタビネットワーク3Aを追加する(ステップS306)。
次に、音声3「ふくだそうりだいじんにたいするもんせきけつぎが」が発声されると、音声認識部16は、ビタビネットワーク2A及び字幕先頭検出用ネットワーク2Bの事象を検出する(ステップS307)。音声認識部16は、検出対象からビタビネットワーク2A及び字幕先頭検出用ネットワーク2Bを除外し、次の並列認識対象のビタビネットワーク4Aを追加する(ステップS308)。
なお、ビタビネットワーク2A及び字幕先頭検出用ネットワーク2Bは同一であるため、一方を他方で兼用することも可能である。
以上説明したように、字幕出力装置10は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との音声の照合が完了した時点で字幕単位文を出力するため、リアルタイム放送において少ない遅延で字幕を出力することが可能となる。また、NULL、SIL、SIL、Garbage等の特殊認識候補をビタビネットワークの構成要素とすることで、アナウンサーの読み間違いや間のおき方の違いを吸収し、高精度の音声認識を行うことが可能となる。
また、字幕出力装置10は、音声認識処理を、2以上のビタビネットワークを用いて並列に行うため、アナウンサーの読み飛ばし等による音声の誤認識を防いだり、発声タイミングのずれを回復することができ、音声と対応した字幕を正確に出力することができる。
例えば、上述した実施形態では、字幕単位文出力部17は、字幕先頭検出用ネットワークを用いて字幕単位文の出力タイミングを判定したが、これに限らず、例えば、字幕先頭検出用ネットワークを用いずに、字幕単位文に対応する音声の認識が開始されてからの時間で出力タイミングを判定してもよい。また、字幕単位文の先頭の数文節に対応する認識候補単位と入力音声との照合が完了した時点で字幕単位文を出力してもよい。「数文節」は予め定められた数であってもよいし、並列認識される他のビタビネットワークとの尤度の差が大きくなり事象発生が検出されるまでの数であってもよい。また、文節の代わりに音節や文字数を用いてもよい。
また、上述した実施形態では、音声認識の性能を高めるために、字幕単位文と音声認識単位文とを別々に生成し、音声認識単位文を字幕単位文と一致させなかったが、音声認識単位文を字幕単位文と一致させることも可能である。
また、上述した実施形態では、生放送のニュース番組でアナウンサーのリアルタイム音声に合わせて字幕を出力する例について説明したが、共通の原稿をアナウンス用と字幕用との双方に利用するリアルタイム放送であれば、スポーツ中継であっても、生講演であってもよい。
11 形態素解析部
12 文節推定部
13 音声認識単位文生成部
14 字幕単位文生成部
15 ビタビネットワーク生成部
151 字幕先頭検出用ネットワーク生成機能
16 音声認識部
161 音声特徴量抽出部
162 ビタビネットワーク比較評価部
163 事象発生判定部
17 字幕単位文出力部
Claims (12)
- 音声に合わせて字幕を出力する字幕出力装置であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、
前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識手段と、
前記字幕単位文生成手段により生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力手段と
を備えたことを特徴とする字幕出力装置。 - 前記字幕単位文出力手段は、
前記字幕単位文の先頭の文節に対応する認識候補単位を含む所定数の認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする請求項1に記載の字幕出力装置。 - 前記音声認識処理手段は、
前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された2以上の音声認識ネットワークを用いて並列に行うことを特徴とする請求項1又は2に記載の字幕出力装置。 - 前記音声認識ネットワーク生成手段は、
前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成手段を備え、
前記字幕先頭検出用ネットワーク生成手段は、
前記字幕先頭検出用ネットワークと、該字幕先頭検出用ネットワークと並列に音声認識処理を行う対象となる音声認識ネットワークと、の間のネットワーク間距離が所定の閾値以上となるように、前記字幕先頭検出用ネットワークを生成し、
前記字幕単位文出力手段は、
前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする請求項3に記載の字幕出力装置。 - 前記音声認識ネットワーク生成手段は、
前記連結された各認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入した上で、前記音声認識ネットワークを生成することを特徴とする請求項1から4の何れか1項に記載の字幕出力装置。 - 前記音声認識ネットワーク生成手段は、
前記認識候補単位に、誤認識を防ぐための特殊認識候補を含めた上で、前記音声認識ネットワークを生成することを特徴とする請求項1から5の何れか1項に記載の字幕出力装置。 - 前記特殊認識候補には、ポーズがないことを表すNULLと、無音のポーズがあることを表すSILと、任意の音を表すGarbageと、の少なくとも1つが含まれることを特徴とする請求項5又は6に記載の字幕出力装置。
- 音声に合わせて字幕を出力する字幕出力装置であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、
前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、
前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークのうち2以上の音声認識ネットワークを用いて、並列に行う音声認識手段と、
前記音声認識手段による音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力手段と
を備えたことを特徴とする字幕出力装置。 - 音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、
前記字幕単位文生成ステップにおいて生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力ステップと
を備えたことを特徴とする字幕出力方法。 - 音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークのうち2以上の音声認識ネットワークを用いて、並列に行う音声認識ステップと、
前記音声認識ステップにおける音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力ステップと
を備えたことを特徴とする字幕出力方法。 - コンピュータに、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、
前記字幕単位文生成ステップにおいて生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力ステップと
を実行させるためのプログラム。 - コンピュータに、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークのうち2以上の音声認識ネットワークを用いて、並列に行う音声認識ステップと、
前記音声認識ステップにおける音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力ステップと
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008207407A JP5243886B2 (ja) | 2008-08-11 | 2008-08-11 | 字幕出力装置、字幕出力方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008207407A JP5243886B2 (ja) | 2008-08-11 | 2008-08-11 | 字幕出力装置、字幕出力方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010044171A true JP2010044171A (ja) | 2010-02-25 |
JP5243886B2 JP5243886B2 (ja) | 2013-07-24 |
Family
ID=42015616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008207407A Expired - Fee Related JP5243886B2 (ja) | 2008-08-11 | 2008-08-11 | 字幕出力装置、字幕出力方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5243886B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011146227A3 (en) * | 2010-05-21 | 2012-04-05 | Microsoft Corporation | Voice stream augmented note taking |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
WO2019244385A1 (ja) * | 2018-06-18 | 2019-12-26 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000270263A (ja) * | 1999-03-17 | 2000-09-29 | Telecommunication Advancement Organization Of Japan | 自動字幕番組制作システム |
JP2001175280A (ja) * | 1999-12-17 | 2001-06-29 | Nippon Hoso Kyokai <Nhk> | 字幕表示装置および字幕制御用記憶媒体 |
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2004302175A (ja) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP2004343488A (ja) * | 2003-05-16 | 2004-12-02 | Nec Corp | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム |
JP2005534983A (ja) * | 2002-08-01 | 2005-11-17 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | 自動音声認識の方法 |
JP2007256714A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 字幕修正装置 |
-
2008
- 2008-08-11 JP JP2008207407A patent/JP5243886B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000270263A (ja) * | 1999-03-17 | 2000-09-29 | Telecommunication Advancement Organization Of Japan | 自動字幕番組制作システム |
JP2001175280A (ja) * | 1999-12-17 | 2001-06-29 | Nippon Hoso Kyokai <Nhk> | 字幕表示装置および字幕制御用記憶媒体 |
JP2002244694A (ja) * | 2001-02-15 | 2002-08-30 | Telecommunication Advancement Organization Of Japan | 字幕送出タイミング検出装置 |
JP2005534983A (ja) * | 2002-08-01 | 2005-11-17 | テレフォンアクチーボラゲット エル エム エリクソン(パブル) | 自動音声認識の方法 |
JP2004302175A (ja) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP2004343488A (ja) * | 2003-05-16 | 2004-12-02 | Nec Corp | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム |
JP2007256714A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 字幕修正装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011146227A3 (en) * | 2010-05-21 | 2012-04-05 | Microsoft Corporation | Voice stream augmented note taking |
US9236047B2 (en) | 2010-05-21 | 2016-01-12 | Microsoft Technology Licensing, Llc | Voice stream augmented note taking |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
WO2019244385A1 (ja) * | 2018-06-18 | 2019-12-26 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5243886B2 (ja) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6718303B2 (en) | Apparatus and method for automatically generating punctuation marks in continuous speech recognition | |
CN109635270B (zh) | 双向概率性的自然语言重写和选择 | |
US5333275A (en) | System and method for time aligning speech | |
Hori et al. | A new approach to automatic speech summarization | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
JP4885160B2 (ja) | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 | |
JP2010230695A (ja) | 音声の境界推定装置及び方法 | |
Levin et al. | Automated closed captioning for Russian live broadcasting | |
Lease et al. | Recognizing disfluencies in conversational speech | |
Hori et al. | A statistical approach to automatic speech summarization | |
Lanchantin et al. | The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge | |
Bang et al. | Automatic construction of a large-scale speech recognition database using multi-genre broadcast data with inaccurate subtitle timestamps | |
Prazák et al. | Novel Approach to Live Captioning Through Re-speaking: Tailoring Speech Recognition to Re-speaker's Needs. | |
Batista et al. | Recovering capitalization and punctuation marks on speech transcriptions | |
JP5243886B2 (ja) | 字幕出力装置、字幕出力方法及びプログラム | |
JP5273844B2 (ja) | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 | |
Batista et al. | Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation | |
Bang et al. | Improving Speech Recognizers by Refining Broadcast Data with Inaccurate Subtitle Timestamps. | |
KR101677530B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
Razik et al. | Frame-synchronous and local confidence measures for automatic speech recognition | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
Saz et al. | Lightly supervised alignment of subtitles on multi-genre broadcasts | |
Amaral et al. | Automatic vs. manual topic segmentation and indexation in broadcast news | |
Pellegrini et al. | Extension of the lectra corpus: classroom lecture transcriptions in european portuguese | |
Wambacq et al. | Efficiency of speech alignment for semi-automated subtitling in Dutch |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130405 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
LAPS | Cancellation because of no payment of annual fees |