JP2010044171A

JP2010044171A - 字幕出力装置、字幕出力方法及びプログラム

Info

Publication number: JP2010044171A
Application number: JP2008207407A
Authority: JP
Inventors: Ken Ishihara; 憲石原; Makoto Shosakai; 誠庄境
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2008-08-11
Filing date: 2008-08-11
Publication date: 2010-02-25
Anticipated expiration: 2028-08-11
Also published as: JP5243886B2

Abstract

【課題】リアルタイム放送において、少ない遅延で字幕を出力することができる字幕出力装置、字幕出力方法及びプログラムを提供する。
【解決手段】字幕単位文生成部１４は、入力されたテキスト文を字幕の出力単位に分割することにより、複数の字幕単位文を生成する。音声認識単位文生成部１３は、入力されたテキスト文を音声認識の処理単位に分割することにより、複数の音声認識単位文を生成する。ビタビネットワーク生成部１５は、各音声認識単位文の音声認識用のビタビネットワークと、字幕先頭検出用ネットワークとを生成する。音声認識部１６は、テキスト文が発声された音声とビタビネットワークを構成する各認識候補文節とを逐次照合を行うことにより音声認識処理を行う。字幕単位文出力部１７は、字幕先頭検出用ネットワークを構成する認識候補文節全体の音声認識処理が終了した時点で、対応する字幕単位文を出力する。
【選択図】図１

Description

本発明は、共通の原稿をアナウンス用と字幕用との双方に利用してリアルタイム放送を行う場合に、アナウンスの音声に合わせて字幕を出力する字幕出力装置、字幕出力方法及びプログラムに関する。

近年、放送業界ではデジタル放送番組に字幕を表示することが推奨されていることもあり、字幕放送番組が増えつつある。字幕放送番組が録画番組の場合には、予め字幕を付加した放送番組データを作成して記録媒体に記録しておくことができるが、ニュース番組等のリアルタイム放送（生放送）番組である場合には、アナウンサーの発声するタイミングに合わせて字幕をリアルタイムで送出する必要がある。
図１２は、ニュース等のリアルタイム放送番組において従来一般的に行われている字幕送出の仕組みを示す図である。同図に示すように、アナウンサーがマイクロホンに向かってニュース原稿を読み上げている時に、字幕担当者がアナウンサーの音声を聞いて字幕の表示タイミングを判断し、表示タイミングとなった時に字幕切替装置のボタンを押す等の操作を行う。これにより、カメラで撮影された映像と、マイクロホンで収集された音声と、字幕切替装置において予め用意されている字幕とが、多重化機で多重化され、通信回線を介して受信機に送出される。

このような字幕送出の仕組みでは、字幕担当者の技量に応じて、音声に対する字幕表示タイミングの遅延が少なくとも３〜５秒程度発生する。このため、視聴者は音声を聴いてからかなりの間をおいた後に対応する字幕を見ることとなり、違和感を覚えてしまう。また、人手で字幕表示を行うため、操作ミスにより字幕が誤表示される危険性がある。
これに対して、ドラマなどの録画番組の場合には、音声と字幕との同期をとったデータを予め作成しておくことができるため、放送時に字幕表示の遅延や誤表示を防ぐことができる（例えば、特許文献１参照）。特許文献１に記載の自動字幕番組制作システムは、テキスト文から提示単位字幕文を生成し、提示単位字幕文毎にアナウンス音声との音声認識を行い、始点／終点タイミング情報を同期点として検出し、当該検出した始点／終点タイミング情報を提示単位字幕文毎に付与しておく。これにより、放送時には、付与したタイミング情報に基づいて音声と字幕との同期をとることが可能となる。
特開２０００−２７０２６３号公報

特許文献１に記載の録画番組の技術をリアルタイム放送番組に適用した場合には、提示単位字幕文全体とアナウンス音声との音声認識を行い、始点／終点タイミング情報を同期点として検出した後に、提示単位字幕文を送出することとなる。つまり、提示単位字幕文に対応する音声アナウンスが終了してから当該提示単位字幕文が表示されることとなり、原理上、提示単位字幕文単位での大幅な遅延が生じることとなる。
また、特許文献１に記載の技術では、アナウンサーの息継ぎ等の無音区間（ポーズ、間）が想定通りに発生しなかった場合、アナウンサーが原稿を読み間違えた場合、読み飛ばした場合、雑音がはいった場合等を想定していないため、音声に対応する提示単位字幕文が正しく認識されない場合が発生する。この場合、録画放送の場合には、放送前に修正することができるが、リアルタイム放送の場合には、修正する間もなく誤った提示単位字幕文が表示されてしまうという不具合が発生する。

本発明は、上述した従来の問題点に鑑みてなされたものであり、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することができる字幕出力装置、字幕出力方法及びプログラムを提供する。
また、音声に対応した字幕を誤りなく正確に出力することを可能とする字幕出力装置、字幕出力方法及びプログラムを提供する。

上記問題を解決するために、請求項１に記載の発明は、音声に合わせて字幕を出力する字幕出力装置であって、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、前記テキスト文が発声された音声と、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識手段と、前記字幕単位文生成手段により生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力手段とを備えたことを特徴とする字幕出力装置を提供する。
本発明によれば、字幕出力装置は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との照合が完了した時点で前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することが可能となる。

請求項２に記載の発明は、請求項１に記載の字幕出力装置において、前記字幕単位文出力手段は、前記字幕単位文の先頭の文節に対応する認識候補単位を含む所定数の認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする。
本発明によれば、字幕単位文の先頭の文節に対応する認識候補単位を含む所定数の認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することができる。
請求項３に記載の発明は、請求項１又は２に記載の字幕出力装置において、前記音声認識処理手段は、前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された２以上の音声認識ネットワークを用いて並列に行うことを特徴とする。
本発明によれば、発話者の読み飛ばし等による誤認識を防ぎ、精度の高い音声認識結果に基づいて、音声に対応した字幕を少ない遅延で正確に出力することができる。

請求項４に記載の発明は、請求項３に記載の字幕出力装置において、前記音声認識ネットワーク生成手段は、前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成手段を備え、前記字幕先頭検出用ネットワーク生成手段は、前記字幕先頭検出用ネットワークと該字幕先頭検出用ネットワークと並列に音声認識処理を行う対象となる音声認識ネットワークとの間のネットワーク間距離が所定の閾値以上となるように、前記字幕先頭検出用ネットワークを生成し、前記字幕単位文出力手段は、前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする。
本発明によれば、字幕の先頭文節が発声されたことを正確に検出するための字幕先頭検出用ネットワークを生成して音声認識を行うことで、字幕の出力タイミングの判定を正確かつ容易に行うことができる。

請求項５に記載の発明は、請求項１から４の何れか１項に記載の字幕出力装置において、前記音声認識ネットワーク生成手段は、前記連結された各認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入した上で、前記音声認識ネットワークを生成することを特徴とする。
本発明によれば、各認識候補文節間に、誤認識を防ぐための特殊認識候補を挿入することで、発話者の息継ぎの違い、読み間違い、言い直し、咳払い、雑音等に影響されずに、正確に音声認識を行うことができる。

請求項６に記載の発明は、請求項１から５の何れか１項に記載の字幕出力装置において、前記音声認識ネットワーク生成手段は、前記認識候補単位に、誤認識を防ぐための特殊認識候補を含めた上で、前記音声認識ネットワークを生成することを特徴とする。
本発明によれば、認識候補単位に特殊認識候補が含まれることにより、発話者の読み間違い、雑音等に影響されずに、音声認識の誤認識を防ぐことができる。
請求項７に記載の発明は、請求項５又は６に記載の字幕出力装置において、前記特殊認識候補には、ポーズがないことを表すＮＵＬＬと、無音のポーズがあることを表すＳＩＬと、任意の音を表すＧａｒｂａｇｅと、の少なくとも１つが含まれることを特徴とする。

請求項８に記載の発明は、音声に合わせて字幕を出力する字幕出力装置であって、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークのうち２以上の音声認識ネットワークを用いて、並列に行う音声認識手段と、前記音声認識手段による音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力手段とを備えたことを特徴とする字幕出力装置を提供する。
本発明によれば、字幕出力装置は、テキスト文が発声された音声の音声認識処理を、２以上の音声認識ネットワークを用いて並列に行うため、発話者の読み飛ばし等による音声の誤認識を防ぐことができ、音声に対応した字幕を正確に出力することが可能となる。

請求項９に記載の発明は、音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、前記字幕単位文生成ステップにおいて生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力ステップとを備えたことを特徴とする字幕出力方法を提供する。

請求項１０に記載の発明は、音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークのうち２以上の音声認識ネットワークを用いて、並列に行う音声認識ステップと、前記音声認識ステップにおける音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力ステップとを備えたことを特徴とする字幕出力方法を提供する。

請求項１１に記載の発明は、コンピュータに、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、前記字幕単位文生成ステップにおいて生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力ステップとを実行させるためのプログラムを提供する。

請求項１２に記載の発明は、コンピュータに、入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークのうち２以上の音声認識ネットワークを用いて、並列に行う音声認識ステップと、前記音声認識ステップにおける音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力ステップとを実行させるためのプログラムを提供する。

本発明によれば、字幕出力装置は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との照合が完了した時点で前記字幕単位文を出力するため、リアルタイム放送において、音声に対して少ない遅延で字幕を出力することが可能となる。
また、字幕出力装置は、テキスト文が発声された音声の音声認識処理を、２以上の音声認識ネットワークを用いて並列に行うため、発話者の読み飛ばし等による音声の誤認識を防ぐことができ、音声に対応した字幕を正確に出力することができる。

以下、本発明の実施形態について、図面を参照しつつ説明する。
図１は、本発明の実施形態に係る字幕出力装置１０の機能構成を示すブロック図である。本実施形態では、ニュース等のリアルタイム放送番組の原稿が電子化された連続テキスト文と、当該原稿がアナウンサーにより読み上げられた音声とが、字幕出力装置１０に入力されるものとする。これにより、字幕出力装置１０から字幕単位文が出力され、当該字幕単位文は、図１２に示す従来の方法で音声や映像と多重化された後に、受信機に送出されて表示されるものとする。
図１に示すように、本実施形態に係る字幕出力装置１０は、形態素解析部１１、文節推定部１２、音声認識単位文生成部１３、字幕単位文生成部１４、ビタビネットワーク生成部１５、音声認識部１６、及び、字幕単位文出力部１７を含んで構成される。これらの機能は、字幕出力装置１０が備える図示せぬＣＰＵ（Central Processing Unit）が、ハードディスクやＲＯＭ（Read Only Memory）等の記憶装置に記憶されたプログラムやデータ等のソフトウェアを読み出して実行することにより実現される機能である。

（形態素解析部）
形態素解析部１１は、光ディスク等の記録媒体や通信回線を介して字幕出力装置１０に入力された連続テキスト文を、予め記憶装置に記憶されている文法のルールや品詞、読み仮名等の辞書データベースを用いて、形態素（Morpheme：品詞、単語等の言語で意味を持つ最小単位）に分割し、それぞれの品詞、読み等を判別する。
図２は、形態素解析結果の具体例を示す図である。同図には、連続テキスト文「民主党、社民党、国民新党の野党３党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。」を入力とした場合に、形態素解析により出力される表層語（連続テキスト文が分割された結果である各形態素）、基本形（活用語の終止形）、読み（表記上の仮名）、発音（表音上の仮名）、品詞名、活用形が示されている。
なお、図２においては、各表層語に対応する読みは１つずつ表示されているが、複数の読みを持つ表層語については、複数の読みを得ることができる。例えば、図２では、「３」の読みは「サン」のみが示されているが、「ミ」、「スリー」の読みも得ることもできる。

（文節推定部）
文節推定部１２は、連続テキスト文中の句読点や形態素解析部１１の解析結果による単語・品詞情報を、予め記憶装置に記憶されている文節推定ルールと照合することで、文節の単位（区切り位置）を推定する。なお、文節推定ルールとは、助詞、助動詞等の品詞種類や句読点の並び条件に基づいて、文節の単位を推定する公知のロジックである。なお、文節とは、名詞、動詞等の自立語に接語が接続された発音上の単位である。例えば、「あの人は私の甥です。」というテキスト文の文節は、「あの」、「人は」、「私の」、「甥です。」の４つとなる。

（字幕単位文生成部）
字幕単位文生成部１４は、所望の字幕単位文生成条件（例えば、画面に表示する字幕の文字数は３０文字以内とする等の条件）に適合するように、入力された連続テキスト文を文節の区切りで分割することで、自然な箇所で区切られた字幕単位文を生成する。

（音声認識単位文生成部）
音声認識単位文生成部１３は、連続テキスト文の句読点や形態素解析部１１による単語・品詞情報を、予め記憶装置に記憶されている公知の息継ぎ推定ルールと照合することによって、息継ぎによる無音区間を推定し、連続テキスト文を無音区間で区切ることにより、音声認識に適した処理単位である音声認識単位文を生成する。
図３は、形態素解析部１１による解析結果に基づいて、文節推定部１２により推定される文節と、字幕単位文生成部１４により生成される字幕単位文と、音声認識単位文生成部１３により生成される音声認識単位文の具体例を示す図である。
図３に示す原稿の連続テキスト文「民主党、社民党、国民新党の野党３党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。」は、形態素解析部１１により形態素解析され、当該形態素解析された結果としての句読点や単語・品詞に基づいて、文節推定部１２により図３に示す文節が推定され、字幕単位文生成部１４により図３に示す字幕文単位文が生成され、音声認識単位文生成部１３により図３に示す音声認識単位文が生成されることとなる。

（ビタビネットワーク生成部）
ビタビネットワーク生成部１５は、原稿の連続テキスト文がアナウンサーにより読み上げられた場合の音声を認識するためのビタビネットワーク（Viterbi Network）を生成する。このビタビネットワークは、音声認識単位文生成部１３により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、当該音声認識単位文の先頭の文節に対応するものから順に連結したものである。ここで、「認識候補」とは、文節が発声された音声を音声認識可能とするために、１つの文節に対して形態素解析部１１により得られた１又は複数の読みの発音記号列を例えば音素ＨＭＭ（Hidden Markov Model）に変換したものである。また、「認識候補単位」とは、１つの文節に対する認識候補の集合である。したがって、「文節」と「認識候補単位」とは１対１に対応する。１つの文節に対して得られた読みが複数の場合には、「文節」と「認識候補」、及び、「認識候補単位」と「認識候補」とは、１対多の関係となる。１つの文節に対して得られた読みが１つの場合には、「認識候補」と「認識候補単位」とは一致する。ビタビネットワーク生成部１５は、このビタビネットワークを、音声認識単位文生成部１３により生成された音声認識単位文の数だけ生成する。

また、ビタビネットワーク生成部１５は、連結された認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入する。ここで、「特殊認識候補」としては、「ＳＩＬ」、「ＮＵＬＬ」、「Ｇａｒｂａｇｅ」等が存在する。「ＮＵＬＬ」は、ポーズ（間）がないことを意味しており、無音区間も不要語も発生しなかった場合を表現している。「ＳＩＬ」は、無音のポーズ（無音区間）を意味しており、アナウンサーが発声の間を任意に取ることによって、ビタビネットワークの音声認識の尤度が低下するのを防ぐ機能を有する。「Ｇａｒｂａｇｅ」は、音声認識において期待していない語を意味し、不要語を吸収する機能を有する。不要語が挿入される場合としては、例えば、「福田そーり、ゲホ、総理大臣に対する・・・」といった咳き込みや、「もん、問責決議が」のような言い直しが発生した場合である。このように、認識候補単位の間にＮＵＬＬ、ＳＩＬ、Ｇａｒｂａｇｅ等の特殊認識候補を挿入することで、読み間違いや間のおき方の違いを吸収し、高精度の音声認識を行うことが可能となる。

さらに、各認識候補単位を構成する認識候補中に特殊認識候補を含めることも可能である。例えば、形態素解析時に、読み仮名候補がない、或いは、英文字・記号などで読み方が不明又は不明瞭であると判定された文節については、Ｇａｒｂａｇｅを並列な認識候補として、認識候補単位中に含めることができる。また、雑音などの理由による音声認識誤りを避けるためにＧａｒｂａｇｅを認識候補単位中に含めることもできる。さらに、アナウンサーの読み飛ばし等による誤認識を避けるためには、ＮＵＬＬを並列な認識候補として認識候補単位中に含めることができる。なお、Ｇａｒｂａｇｅは、全音素ＨＭＭの並列な枝として構成される。

図４には、３つの音声認識単位文及び文節から生成される３つのビタビネットワークの例を示す。なお、この例では、連続テキスト文の形態素解析時において、「３」の読み候補は、「サン」、「ミ」、「スリー」の３通りが存在し、「福田」の読み候補は「フクタ」、「フクダ」、「フグダ」の３通りが存在したため、同図に示すように、文節「３党が」の認識候補単位は認識候補「サン」、「ミ」、「スリー」で構成されており、文節「福田」の認識候補単位は認識候補「フクタ」、「フクダ」、「フグダ」で構成されている。また、この例では、文節「民主党」の認識候補単位は認識候補「ミンシュトー」、「ＮＵＬＬ」、「Ｇａｒｂａｇｅ」で構成されている。また、図４に示すビタビネットワークを構成する各認識候補単位を連結する矢印は、図５に示すように、ＮＵＬＬ、ＳＩＬ、Ｇａｒｂａｇｅを経由したビタビ状態遷移を表している。

さらに、ビタビネットワーク生成部１５は、図１に示すように字幕先頭検出用ネットワーク生成機能１５１を備えている。字幕先頭検出用ネットワーク生成機能１５１は、各字幕単位文の先頭の文節が発声されたことを検出するための字幕先頭検出用のビタビネットワーク（以下、「字幕先頭検出用ネットワーク」という）を、字幕単位文生成部１４により生成された字幕単位文の数だけ生成する。この字幕先頭検出用ネットワークは、先頭部分が所定のビタビネットワークの先頭部分で構成され、終端部分が所定の字幕単位文の先頭部分に対応する認識候補単位で構成されている。なお、この字幕先頭検出用ネットワークの生成方法の詳細は後述する。

（音声認識部）
音声認識部１６は、原稿の連続テキスト文がアナウンサーにより発声された音声を、ビタビネットワーク生成部１５で生成されたビタビネットワークを用いて音声認識する。
図６は、音声認識処理部１６の詳細な機能構成を示すブロック図である。同図に示すように、音声認識処理部１６は、音声特徴量抽出部１６１と、ビタビネットワーク比較評価部１６２と、事象発生判定部１６３とを含んで構成される。
音声特徴量抽出部１６１は、入力音声から音声特徴量を求める。
ビタビネットワーク比較評価部１６２は、ビタビネットワークを構成する各認識候補単位を構成する各認識候補及び各認識候補単位の間に挿入された特殊認識候補の音声特徴量と、音声特徴量抽出部１６１で得られた音声特徴量との比較照合を逐次行い、ビタビネットワークで表される時系列的な音声特徴量変化が起こった尤度（確率）を逐次算出する。

なお、ビタビネットワーク比較評価部１６２は、複数のビタビネットワークを並列に評価し、各ビタビネットワークの尤度を同時並行に算出する並列認識処理を行うことが可能である。並列評価を行う場合に並列評価対象となるビタビネットワークは、並列評価を行わない場合に認識対象となるビタビネットワーク（すなわち、現在アナウンサーが発声中の文節を含む音声認識単位文に対応するビタビネットワーク）に後続する１つ又は２つのビタビネットワークとしてもよいし、前後に隣接するビタビネットワークとしてもよい。また、並列評価対象となる字幕先頭検出用ネットワークは、上記認識対象となるビタビネットワークの先頭部分を含むネットワークとすることができる。これらの並列評価対象となるビタビネットワークの決定ルールは、予めプログラムやデータベースで定義しておくことができる。
事象発生判定部１６３は、ビタビネットワーク比較評価部１６２で算出された尤度に基づいて、複数のビタビネットワークで表される事象の何れか、もしくは、どれも発生していないことを任意の時点で判定し、事象検出結果を出力する。

（字幕単位文出力部）
字幕単位文出力部１７は、音声認識部１６から得られた事象検出結果に基づいて所定の字幕単位文の出力タイミングを検出した時に、その字幕単位文を出力する。本実施形態では、字幕単位文出力部１７は、字幕先頭検出用ネットワーク生成機能１５１で生成された字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に、当該字幕先頭検出用ネットワークに対応する字幕単位文を出力する。
なお、音声認識部１６は、字幕先頭検出用ネットワークで表される事象が発生したことを検出した後も、当該字幕先頭検出用ネットワークを構成する認識候補単位を先頭部分に有するビタビネットワークを続けて最後まで音声認識するため、次の字幕文が不要なタイミングを出力されるのを防ぐことができる。

（字幕出力処理）
次に、図７に示すフローチャートを参照して、本実施形態に係る字幕出力装置１０が実行する字幕出力処理について説明する。
まず、字幕単位文生成部１４は、形態素解析部１１及び文節推定部１２による処理結果に基づいて、入力された原稿の連続テキスト文を字幕の出力単位に分割することにより、複数の字幕単位文を生成する（ステップＳ１０１）。
次に、音声認識単位文生成部１３は、形態素解析部１１による処理結果に基づいて、入力された原稿の連続テキスト文を音声認識の処理単位に分割することにより、複数の音声認識単位文を生成する（ステップＳ１０２）。

次に、ビタビネットワーク生成部１５は、音声認識単位文生成部１３により生成された複数の音声認識単位文毎に、各文節に対応する認識候補単位を連結してビタビネットワークを生成する。また、ビタビネットワーク生成部１５は、字幕先頭検出用ネットワーク生成機能１５１により字幕先頭検出用ネットワークを生成する（ステップＳ１０３）。
次に、生放送中に、原稿の連続テキスト文がアナウンサーにより読み上げられて、リアルタイム音声が字幕出力装置１０に入力されると、音声認識部１６は、入力音声と、ビタビネットワーク生成部１５により生成された字幕先頭検出用ネットワークを含む複数の各ビタビネットワークを構成する認識候補単位とを、先頭から逐次並列に照合することにより、並列認識処理を行う（ステップＳ１０４）。
字幕単位文出力部１７は、字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に、当該字幕先頭検出用ネットワークに対応する字幕単位文を出力する（ステップＳ１０５）。

（字幕先頭検出用ネットワークの生成処理）
次に、図８に示すフローチャートを参照して、ビタビネットワーク生成部１５の字幕先頭検出用ネットワーク生成機能１５１が実行する字幕先頭検出用ネットワークの生成処理について説明する。
前提として、「ネットワーク間距離」の算出方法を定義する。このネットワーク間距離は、ビタビネットワーク同士の類似度を表す指標となり、ネットワーク間距離が小さいほど２つのビタビネットワークを形成する音素同士が類似しており、誤認識が起こる確率が高いことを表す。例えば、ネットワーク間距離は、各ビタビネットワークに含まれる認識候補単位を形成する音素間距離を積算した値として定義できる。なお、ビタビネットワークが複数の経路を有する（つまり、ビタビネットワークに含まれる認識候補単位の中に複数の認識候補を含むものがある）場合は、例えば、比較対象となっているビタビネットワーク間の最近接部分の距離をネットワーク間距離として定義できる。

まず、字幕単位文生成部１４で生成された字幕単位文のうち、字幕先頭検出用ネットワークの生成対象となる字幕単位文を１つ選択し、当該字幕単位文の先頭文節に対応する認識候補単位を含むビタビネットワーク（以下、「対象ビタビネットワーク」という）に対して、仮の字幕先頭検出用ネットワークを設定する。具体的には、対象ビタビネットワークの先頭の認識候補単位から字幕単位文の先頭文節に対応する認識候補単位までを、仮の字幕先頭検出用ネットワークとする（ステップＳ２０１）。

仮の字幕先頭検出用ネットワークと、対象ビタビネットワークと並列に音声認識されるビタビネットワークのうち字幕単位文の先頭文節に対応する認識候補単位を含まない各ビタビネットワークとの間のネットワーク間距離を各々算出する。算出したネットワーク間距離の中に予め定められた所定の閾値未満のものがある場合（ステップＳ２０２：Ｎｏ）、仮の字幕先頭検出用ネットワークに対して、字幕単位文の次の文節に対応する認識候補単位を追加していき（ステップＳ２０３）、ビタビネットワーク間距離が所定の閾値以上となり、他のビタビネットワークと十分な距離を確保できた場合に（ステップＳ２０２；Ｙｅｓ）、字幕先頭検出用ネットワークを決定する（ステップＳ２０５）。なお、仮の字幕先頭検出用ネットワークに認識候補単位を追加したときに、対象ビタビネットワークの終端に到達した場合、すなわち、仮の字幕先頭検出用ネットワークと対象ビタビネットワークとが同一となった場合は（ステップＳ２０４；Ｙｅｓ）、対象ビタビネットワーク全体を字幕先頭検出用ネットワークとして採用する。以上の字幕先頭検出用ネットワーク生成処理を、字幕単位文生成部１４で生成された字幕単位文の数だけ行う。

以上のような手順で字幕単位文の先頭数文節を含む字幕先頭検出用ネットワークを生成し、字幕先頭検出用ネットワークで表される事象が発生したことを検出した時に当該字幕先頭検出用ネットワークに対応する字幕単位文を出力することで、字幕単位文の先頭数文節が発声された時に字幕単位文の出力を行うことができ、必要最小限の遅延で字幕単位文を出力することができる。また、並列に認識される他のビタビネットワークとのネットワーク間距離を十分にとることで、認識間違いをなくすことができる。

（字幕先頭検出用ネットワーク決定処理の具体例）
次に、字幕先頭検出用ネットワーク生成機能１５１が、図９に示す音声認識単位文に基づいて、同図に示す字幕単位文の先頭を認識するための字幕先頭検出用ネットワークを決定する処理の具体例について説明する。
この例では、現在発声中の文節を含む音声認識単位文に対応するビタビネットワークと、当該ビタビネットワークに後続するビタビネットワークと、の２つを並行して用いて音声認識処理を行うものとする。また、実際には、音声認識単位文に対応するビタビネットワークを構成する認識候補単位を用いて字幕先頭検出用ネットワークが生成されるが、ここでは、「ビタビネットワーク」及び「認識候補単位」の代わりに、対応する「音声認識単位文」及び「文節」を用いて説明することとする。

まず、字幕単位文１）の字幕先頭検出用ネットワークを決定するために、音声認識単位文（Ａ）の先頭文節「別府へ」を、仮の字幕先頭検出用ネットワークとして設定する（図８のステップＳ２０１に対応）。この仮の字幕先頭検出用ネットワーク「別府へ」と、音声認識単位文（Ｂ）の先頭の文節「切符を」とのネットワーク間距離を計算すると、「ベップヘ」と「キップオ」とのネットワーク間距離はかなり近いので（ステップＳ２０２；Ｎｏ）、音声認識単位文（Ａ）の次の文節「行く」を仮の字幕先頭検出用ネットワークに追加する（ステップＳ２０３）。これにより、仮の字幕先頭検出用ネットワーク（音声認識単位文（Ａ）の先頭から２文節「別府へ」+「行く」）と、音声認識単位文（Ｂ）の先頭から２文節「切符を」+「買う」とのネットワーク間距離を十分に保つことができるため（ステップＳ２０２；Ｙｅｓ）、「別府へ」+「行く」を字幕単位文１）の字幕先頭検出用ネットワークとすることにより（ステップＳ２０５）、先頭２文節の発声で、音声認識単位文（Ａ）が発声されていることを高精度に判定することができる。

次の字幕単位文２）の字幕先頭検出用ネットワークは、上記と同様の処理手順により、「切符を」+「買う」となる。
次の字幕単位文３）は、音声認識単位文（Ｂ）の「チップを」+「渡した」まででは、音声認識単位文（Ｃ）の「チップを渡す」と十分な距離がとれないため、「ものか」までが接続され、音声認識単位文（Ｂ）の先頭文節から「チップを」+「渡した」+「ものか」までが、字幕単位文３）の字幕先頭検出用ネットワークとなる。

（並列認識処理の具体例）
次に、図１０及び図１１を参照して、並列認識処理の具体例について説明する。
図１０（ａ）は、原稿の連続テキスト文「民主党、社民党、国民新党の野党３党が提出した福田総理大臣に対する問責決議が参議院本会議で初めて可決されました。自民公明両党は対抗措置として・・・」から生成されたビタビネットワーク、（ｂ）は上記連続テキスト文から生成された字幕単位文、（ｃ）は（ｂ）の字幕単位文１）、２）各々の下線部分を音声認識した時点で各字幕単位文を出力するための字幕先頭検出用ネットワークである。

図１１は、図１０（ａ）に示すビタビネットワーク及び図１０（ｃ）に示す字幕先頭検出用ネットワークに基づいて音声認識部１６が行う音声認識処理、及び、音声認識処理による事象検出結果に基づいて字幕単位文出力部１７が行う字幕単位文の出力処理の具体例を示す図である。
まず、音声認識部１６は、ビタビネットワーク生成部１５が生成した図１０（ａ），（ｃ）に示すビタビネットワークのうち、先頭のビタビネットワーク１Ａと、並列認識処理対象となる次のビタビネットワーク２Ａと、字幕先頭検出用ネットワーク１Ｂとを検出対象として入力する（ステップＳ３０１）。
音声１「みんしゅとうしゃみんとう」がアナウンサーにより発声された時に、音声認識部１６は、字幕先頭検出用ネットワーク１Ｂの事象を検出する（ステップＳ３０２）。そして、音声認識部１６は、検出対象から検出済みの字幕先頭検出用ネットワーク１Ｂを除外し、次の字幕先頭検出用ネットワーク２Ｂを追加する（ステップＳ３０３）。

字幕単位文出力部１７は、音声認識部１６による事象検出結果に基づいて、字幕単位文１）を出力する（ステップＳ３０４）。
次に、音声２「こくみんしんとうのやとうさんとうがていしゅつした」が発声されると、音声認識部１６は、ビタビネットワーク１Ａの事象を検出する（ステップＳ３０５）。音声認識部１６は、検出対象からビタビネットワーク１Ａを除外し、次の並列認識対象のビタビネットワーク３Ａを追加する（ステップＳ３０６）。
次に、音声３「ふくだそうりだいじんにたいするもんせきけつぎが」が発声されると、音声認識部１６は、ビタビネットワーク２Ａ及び字幕先頭検出用ネットワーク２Ｂの事象を検出する（ステップＳ３０７）。音声認識部１６は、検出対象からビタビネットワーク２Ａ及び字幕先頭検出用ネットワーク２Ｂを除外し、次の並列認識対象のビタビネットワーク４Ａを追加する（ステップＳ３０８）。

字幕単位文出力部１７は、音声認識部１６による字幕先頭検出用ネットワーク２Ｂの事象検出に基づいて、字幕単位文２）を出力する（ステップＳ３０９）。
なお、ビタビネットワーク２Ａ及び字幕先頭検出用ネットワーク２Ｂは同一であるため、一方を他方で兼用することも可能である。
以上説明したように、字幕出力装置１０は、字幕単位文の少なくとも先頭の文節に対応する認識候補単位との音声の照合が完了した時点で字幕単位文を出力するため、リアルタイム放送において少ない遅延で字幕を出力することが可能となる。また、ＮＵＬＬ、ＳＩＬ、ＳＩＬ、Ｇａｒｂａｇｅ等の特殊認識候補をビタビネットワークの構成要素とすることで、アナウンサーの読み間違いや間のおき方の違いを吸収し、高精度の音声認識を行うことが可能となる。
また、字幕出力装置１０は、音声認識処理を、２以上のビタビネットワークを用いて並列に行うため、アナウンサーの読み飛ばし等による音声の誤認識を防いだり、発声タイミングのずれを回復することができ、音声と対応した字幕を正確に出力することができる。

なお、本発明は、上述した実施形態に限定されることなく、特許請求の範囲に記載の技術的範囲内において、上述した実施形態に適宜の変形を加えて実施可能であることは言うまでもない。
例えば、上述した実施形態では、字幕単位文出力部１７は、字幕先頭検出用ネットワークを用いて字幕単位文の出力タイミングを判定したが、これに限らず、例えば、字幕先頭検出用ネットワークを用いずに、字幕単位文に対応する音声の認識が開始されてからの時間で出力タイミングを判定してもよい。また、字幕単位文の先頭の数文節に対応する認識候補単位と入力音声との照合が完了した時点で字幕単位文を出力してもよい。「数文節」は予め定められた数であってもよいし、並列認識される他のビタビネットワークとの尤度の差が大きくなり事象発生が検出されるまでの数であってもよい。また、文節の代わりに音節や文字数を用いてもよい。

また、字幕先頭検出用ネットワークの決定方法は、上述した実施形態に限定されることはなく、最低限、字幕単位文の先頭文節が発声されたことを検出できるように、字幕単位文の先頭文節に対応する認識候補単位を少なくとも含むネットワークとなるように決定すればよい。
また、上述した実施形態では、音声認識の性能を高めるために、字幕単位文と音声認識単位文とを別々に生成し、音声認識単位文を字幕単位文と一致させなかったが、音声認識単位文を字幕単位文と一致させることも可能である。

また、形態素解析以外の解析ルール、分割ルール等を用いて、字幕単位文や音声認識単位文を生成してもよい。また、ビタビネットワーク以外の音声認識のためのネットワークを用いて音声認識処理を行ってもよい。
また、上述した実施形態では、生放送のニュース番組でアナウンサーのリアルタイム音声に合わせて字幕を出力する例について説明したが、共通の原稿をアナウンス用と字幕用との双方に利用するリアルタイム放送であれば、スポーツ中継であっても、生講演であってもよい。

本発明の実施形態に係る字幕出力装置の機能構成を示すブロック図である。形態素解析結果の具体例を示す図である。形態素解析結果に基づいて、推定される文節及び生成される字幕単位文・音声認識単位文の具体例を示す図である。３つの音声認識単位文及び文節から生成される３つのビタビネットワークの具体例を示す図である。図４に示すビタビネットワークを構成する各認識候補単位を連結する矢印が意味する内容を説明するための図である。同実施形態に係る音声認識部の詳細な機能構成を示すブロック図である。同実施形態に係る字幕出力装置が実行する字幕出力処理の流れを示すフローチャートである。同実施形態に係る字幕先頭検出用ネットワーク生成機能が実行する字幕先頭検出用ネットワーク生成処理の流れを示すフローチャートである。同実施形態に係る字幕先頭検出用ネットワークを決定する処理の具体例を説明するための音声認識単位文及び字幕単位文を示す図である。同実施形態に係る並列認識処理の具体例を説明するための図である。同実施形態に係る並列認識処理の具体例を説明するための図である。従来におけるリアルタイム放送番組において一般的に行われている字幕送出の仕組みを示す図である。

符号の説明

１０字幕出力装置
１１形態素解析部
１２文節推定部
１３音声認識単位文生成部
１４字幕単位文生成部
１５ビタビネットワーク生成部
１５１字幕先頭検出用ネットワーク生成機能
１６音声認識部
１６１音声特徴量抽出部
１６２ビタビネットワーク比較評価部
１６３事象発生判定部
１７字幕単位文出力部

Claims

音声に合わせて字幕を出力する字幕出力装置であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、
前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識手段と、
前記字幕単位文生成手段により生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力手段と
を備えたことを特徴とする字幕出力装置。
前記字幕単位文出力手段は、
前記字幕単位文の先頭の文節に対応する認識候補単位を含む所定数の認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする請求項１に記載の字幕出力装置。
前記音声認識処理手段は、
前記音声認識処理を、前記音声認識ネットワーク生成手段により生成された２以上の音声認識ネットワークを用いて並列に行うことを特徴とする請求項１又は２に記載の字幕出力装置。
前記音声認識ネットワーク生成手段は、
前記字幕単位文の先頭の文節に対応する認識候補単位を少なくとも含む字幕先頭検出用ネットワークを生成する字幕先頭検出用ネットワーク生成手段を備え、
前記字幕先頭検出用ネットワーク生成手段は、
前記字幕先頭検出用ネットワークと、該字幕先頭検出用ネットワークと並列に音声認識処理を行う対象となる音声認識ネットワークと、の間のネットワーク間距離が所定の閾値以上となるように、前記字幕先頭検出用ネットワークを生成し、
前記字幕単位文出力手段は、
前記字幕先頭検出用ネットワークを構成する全ての認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力することを特徴とする請求項３に記載の字幕出力装置。
前記音声認識ネットワーク生成手段は、
前記連結された各認識候補単位間に、誤認識を防ぐための特殊認識候補を挿入した上で、前記音声認識ネットワークを生成することを特徴とする請求項１から４の何れか１項に記載の字幕出力装置。
前記音声認識ネットワーク生成手段は、
前記認識候補単位に、誤認識を防ぐための特殊認識候補を含めた上で、前記音声認識ネットワークを生成することを特徴とする請求項１から５の何れか１項に記載の字幕出力装置。
前記特殊認識候補には、ポーズがないことを表すＮＵＬＬと、無音のポーズがあることを表すＳＩＬと、任意の音を表すＧａｒｂａｇｅと、の少なくとも１つが含まれることを特徴とする請求項５又は６に記載の字幕出力装置。
音声に合わせて字幕を出力する字幕出力装置であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成手段と、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成手段と、
前記音声認識単位文生成手段により生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成手段と、
前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成手段により生成された音声認識ネットワークのうち２以上の音声認識ネットワークを用いて、並列に行う音声認識手段と、
前記音声認識手段による音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力手段と
を備えたことを特徴とする字幕出力装置。
音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、
前記字幕単位文生成ステップにおいて生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力ステップと
を備えたことを特徴とする字幕出力方法。
音声に合わせて字幕を出力する字幕出力装置が実行する字幕出力方法であって、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークのうち２以上の音声認識ネットワークを用いて、並列に行う音声認識ステップと、
前記音声認識ステップにおける音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力ステップと
を備えたことを特徴とする字幕出力方法。
コンピュータに、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声と、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークを構成する認識候補単位との照合を先頭から逐次行うことにより、音声認識処理を行う音声認識ステップと、
前記字幕単位文生成ステップにおいて生成された字幕単位文の少なくとも先頭の文節に対応する認識候補単位との前記照合が完了した時点で、前記字幕単位文を出力する字幕単位文出力ステップと
を実行させるためのプログラム。
コンピュータに、
入力されたテキスト文を字幕の出力単位に分割することにより、字幕単位文を生成する字幕単位文生成ステップと、
前記テキスト文を音声認識の処理単位に分割することにより、音声認識単位文を生成する音声認識単位文生成ステップと、
前記音声認識単位文生成ステップにおいて生成された音声認識単位文の文節を音声認識するための認識候補の集合である認識候補単位を、前記音声認識単位文の先頭の文節に対応するものから順に連結することにより、音声認識ネットワークを生成する音声認識ネットワーク生成ステップと、
前記テキスト文が発声された音声の音声認識処理を、前記音声認識ネットワーク生成ステップにおいて生成された音声認識ネットワークのうち２以上の音声認識ネットワークを用いて、並列に行う音声認識ステップと、
前記音声認識ステップにおける音声認識処理の結果に基づいて字幕単位文を出力する字幕単位文出力ステップと
を実行させるためのプログラム。