JP4158937B2

JP4158937B2 - 字幕修正装置

Info

Publication number: JP4158937B2
Application number: JP2006082126A
Authority: JP
Inventors: 晃太郎宮本; 健一荒川; 俊也大鐘
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-03-24
Filing date: 2006-03-24
Publication date: 2008-10-01
Anticipated expiration: 2026-03-24
Also published as: US20080040111A1; CN101094330A; US7729917B2; JP2007256714A; CN100539649C

Description

本発明は、字幕修正装置に関する。さらに詳しくは、プレゼンテーション等の音声認識結果に対する字幕をリアルタイムに修正する装置、方法、プログラム等に関する。

昨今、聴覚障害者や高齢者等に対してアクセシビリティを確保するため、音声で発信される情報に字幕を付与することが盛んに行われるようになってきた。例えば、放送を通じて発信される情報については、字幕付与可能な全ての放送番組に２００７年までに字幕を付与するという具体的な目標が掲げられている。こういった背景から、プレゼンテーション等の音声に字幕を付与する必要性も高いと考えられる。このような字幕を付与するための従来方法として代表的なものは、以下の２つがあげられる。

＜リスピーク＞
中間にいる話者が、実際の話者が発した音声を聞きながら同時に音声認識のシステムに向けて復唱する方式である。中間に入る復唱者は特殊な訓練を受けているためこのような厳しい状況においても認識率９０％以上で復唱できる。

＜要約筆記＞
話者が発した内容を、一般に３人程度の人が代わる代わる要約しながら入力を行う方式である。３人２組、またはスキルレベルが低い場合には４人２組が必要であるといわれている。

しかしながら、このような人手による字幕の付与は単位時間あたりのコストが高いために普及度は低いとされている。そこで、音声認識技術を用いてリアルタイムに字幕を作成する方法が多く提案されている。例えば、特許文献１には、テレビジョン番組生成時に、最適な仮説を決定するなどの方法により、音声認識によって字幕スーパを生成する技術が開示されている。また、特許文献２には、２パス処理によって音声認識率を向上させるための技術が開示されている。一方、音声認識単体に頼らず音声認識された結果をチェッカー（判定員）によって人間が手動でチェックしたり、修正したりする作業を支援する技術も開示されている（例えば、特許文献３〜５）。

特開平６−１４１２４０号公報特開２００１−０９２４９６号公報特開２００３−３１６３８４号公報特開２００４−１５１６１４号公報特開２００５−２５８１９８号公報

一般に、音声認識においては、実際には必ずしも期待どおりの認識率が得られるわけではない。例えば、ある実証実験現場からの情報によると、リアルタイム字幕には最低でも８５％の認識率、できれば９０％の認識率が必要であるといわれている。音声認識単体でも８５％の認識率を実現できる可能性はあるが、実際には諸々の条件に大きく依存し、多くの場合十分な認識率を達成できないのが実情である。

例えば、ある実証実験の結果では、平均認識率は８１．８％（レンジ：７３．４％−８９．２％）、であり、８５％を超える確率は２７％、９０％を超える確率は０％であった。（ここで、音声認識エンジンはＩＢＭ（登録商標）ＶｉａＶｏｉｃｅ（登録商標）Ｖ１０を使用した。）

さらに、認識率とは違う問題として、同じく音声認識によって話者が意図していない差別的な表現や刺激的な表現などに誤って変換されてしまい（例えば、「実体」を[自遺体]に誤変換するなど）、そのまま字幕として表示することに問題がある場合も多々ある。

また、音声認識にとって固有名詞の取り扱いは非常に重要である。そのため多くのシステムでは辞書登録機能が存在するが、同じ読みを複数登録した場合等、どちらが意図した用語なのかは判断がつかない場合も多いのでそのようなケースでは誤って変換される。例えば、「やすこ」という名前に対して同じ読みで違う固有名詞として「康子」、「靖子」、「泰子」、「保子」など複数の候補が登録されることは決して珍しくない。同様に、数値等書式についても登録や設定機能は必ず存在するが、一律の登録となってしまっている。自由発話において話者がどの書式を意図したかその都度判断する術はない。

上述の特許文献１や特許文献２のような方法では、音声認識の結果だけに依存し、人間によるチェック方法や誤認識の修正方法等は含まれないので、話者が意図していない刺激的表現、差別的表現に対する効果は低いと考えられる。

また、特許文献３には、発話が行われ、それをチェッカーが誤りか否かを判断し、誤りと判断されると話者に提示されて、結果的に催促されて再び発話して正しく認識されるまで繰り返す方法が開示されている。しかしこの方法は、話者に負担を強いるものであり、さらに、技術的には認識されなかった単語の発話をいくら繰り返しても正しく認識されるとは限らず、話者へのオーバーヘッドが大きいためリアルタイム性にも課題が残る。

さらに、特許文献４のような方法では、チェック、修正共にすべて手動で行うためリアルタイム性、コストに課題が残ることが考えられる。

一方、特許文献５の方法では、内容があらかじめ定められた音声の再生に同期してその音声の内容を表示するタイミングを設定する装置が開示されているが、リアルタイムに字幕表示を実現する方法自体は開示されていない。

以上のように、リアルタイム字幕の生成や修正には多くの課題が存在するが、本発明により解決しようとする課題は以下のとおりである。

すなわち、音声を文字化した字幕をリアルタイム（言い換えると最大遅延許容時間内）に表示し、かつ、リスピークや要約筆記など従来方法に比べて安価な方法で字幕表示システムを提供すること。また、音声認識単体に比べてより理解度が向上するようなキーワードマッチングを行い、音声認識単体に比べて話者が意図していない差別的や刺激的な表現、固有名詞、書式に誤って変換されてしまうことをできる限り回避することである。

本発明は、これらの課題を解決し、プレゼンテーション等の音声認識によって得られる文字列をリアルタイム字幕としての精度を向上させる安価な装置、方法、プログラム等を提供することを目的とする。

本発明では、一つの形態として以下のような装置を提供する。

プレゼンテーションの音声に対する字幕をリアルタイムに修正する字幕修正装置であって、
プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識部と、
確信度ならびにジョブ処理情報、および、あらかじめ定められた最大遅延許容時間を用いて、文字列候補のうちから確信度の最も高い第１文字列候補に対して自動判定または手動判定させることを選択する判定振り分け部と、
判定振り分け部が自動判定を選択したことに応じて、第１文字列候補に対して自動で確定文字列を判定する自動判定部と、
判定振り分け部が手動判定を選択したことに応じて、第１文字列候補に対して手動で確定文字列を判定させる手動判定部と、
を備える字幕修正装置を提供する。

但し、ここでいう「プレゼンテーション」には、ＰＣなどでプレゼンテーション用ソフトを用いた発表に限定されず、テレビジョン放送など音声で発信される情報伝達を含むものとする。

上記の字幕修正装置には、手動判定部によって確定されなかった文字列に対して、プレゼンテーションのキーワードリストと確定されなかった文字列とを比較することによって得られるマッチングスコアに基づいて該キーワードを修正結果の文字列として出力する自動修正部と、出力された確定文字列と修正結果の文字列を区別して表示する字幕表示部と、をさらに備えることができる。このキーワードリストは、ページ単位プレゼンキーワードＤＢ（後述）から動的に生成される。

前記のジョブ処理情報には、現在の遅延時間、および音声認識部の未処理ジョブ数と平均ジョブ処理時間が含まれる。ここで、ジョブとは音声認識が処理する最小単位、あるいは確信度を決定する最小単位である。また、平均ジョブ処理時間とは、一つのジョブあたりの音声認識部の処理時間と手動判定部の処理時間（または自動判定部の処理時間）の合計を平均したものである。

さらに、本字幕修正装置の判定振り分け部は、確信度が平均から離れた度合いに応じて自動判定か手動判定かに振り分ける。

また、本字幕修正装置の手動判定部は、後述するように、話速変換手段、無音部分除去手段、のりしろ付き強調再生手段、繰り返し再生による自動催促手段、自動停止手段のうち少なくとも一つの手段を含むことができる。この手動判定部は、手動による判断をするチェッカー（判断員）の数だけ備えることも可能である。

本字幕修正装置の自動修正部は、前記のマッチングスコアが所定の基準値以上であれば該キーワードに修正し、その文字列を未確定文字列として出力し、マッチングスコアが所定の基準値未満であれば次候補の文字列を修正後の文字列を未確定文字として出力する。次候補が、あらかじめ定められた条件に基づき、修正結果として適切でないと判断した場合には、次々候補を順に修正候補として適切かを判断する。このとき、前記の条件判断において、次候補または次々候補があらかじめ定められた差別用語または攻撃的用語（通常はデータベースから得られる）である場合には、修正結果として適切でないと判断する。

また、本字幕修正装置の字幕表示部は、前記確定文字列と修正後の文字列のフォント属性（斜体、強調、色、下線等）を変更して表示したり、修正後の文字列に対して、別の文字種（例えば日本語の場合、ローマ字、ひらがな等に変換した文字種）を併記して表示することができる。

本装置の特徴は、まず音声認識部から１または複数のテキストと、その音声認識結果としての音声認識が出力する確信度（信頼度）の情報を得て、次にこの情報を元に、リアルタイム性を損なわないためにあらかじめ定められたように最大遅延許容時間内にすべての処理が収まるように現在の処理状況を判断しながら、第１候補のテキストに対して自動または手動によって動的にチェックさせることである。さらに、手動チェックで誤りと判断された文字列を、第２候補以降のテキスト、またはプレゼンテーションの補助情報のキーワードを用いて自動修正させることである。こうすることでチェッカーによる手動チェックで誤りと判断されたもののみが自動修正にかけられることになり、自動修正のみを無条件に行う方法に比べて自動修正の効率が大きく改善する。しかもこの方式は、音声認識エンジンに依存せず、逆に音声認識エンジンの特徴を生かすように最大遅延許容時間やジョブ処理可能数などを最適化することが可能である。

以上、本発明を代表的な形態である単一装置として説明したが、本発明は、同等な機能を備えた複数の装置、コンピュータを組み合わせたコンピュータ・システム、またはそのコンピュータ・システムにおける処理方法としてもとらえることができる。具体的には後述の実施形態で説明する。

また本発明は、本装置の機能を備えたプログラム、またはそのプログラムを記憶したコンピュータ可読の記録媒体を含むプログラム製品としても提供できる。プログラムは記録媒体で提供される他、ネットワークによりコンピュータにダウンロードして提供されてもよい。

本発明によれば、音声認識を用いた字幕修正システムにおいて、認識率の向上、リアルタイム性の向上、および人手による字幕生成に比べて大きくコスト削減が図ることができる。

以下、本発明を実施形態に基づいて図を参照しながら具体的に説明する。

図１は、本発明の好適な実施形態として、字幕修正装置１０の概略を示したものである。字幕修正装置１０は、音声認識部１、判定振り分け部２、手動判定部３、自動修正部５、字幕表示部６を備える。ただし、これらの構成に限定されるものでなく機能的に同等であれば別の構成であってもよいし、そのサブ・コンビネーションであってもよい。

音声認識部１は、話者の音声をテキストに変換する。このとき、変換されたテキストに対する確信度（信頼度または認識スコアとも呼ぶ）を出力する。変換されたテキストは、一つに限らず、次候補、次々候補をそれぞれの確信度と共に出力する。音声認識自体については公知の技術を用いてよい。

判定振り分け部２は、音声認識部１から得られる音声認識の確信度、リアルタイムとして許容されるためにあらかじめ定義された最大遅延許容時間、現在の遅延時間（処理時間）、未処理ジョブ数、平均ジョブ処理時間によって、リアルタイムに自動判定手段または手動判定手段を用いるかを自動的に割り振るようにする。すなわち、未処理ジョブ数が少なく、かつ遅延時間が最大許容遅延時間にまだ遠い場合は、判定対象の文字列の確信度が大きく平均値から外れている場合に自動判定とする。平均値から大きく外れている場合は、音声認識結果の信頼度が高いと考えられるからである。さらに、判定振り分け部２においては、平均ジョブ処理時間、未処理ジョブ数にかんがみて遅延時間が最大遅延許容時間に近づくにつれて自動判定へ割り振る度合いを動的に変更することができる。

この割り振りを判定する概念を図２に示した。図２の例では、最大許容遅延時間として８秒を設定している。仮に現在の遅延時間４１が３秒、平均ジョブ処理時間（４２ａ、４２ｂ、４２ｃ）が２秒とすると、残り処理可能なジョブ数は２となる。ここでジョブとは、音声認識が処理する単位、あるいは確信度を決定する単位であると考えてよい。例えば、後述の図４に示すような音声認識結果の判定画面の例では、各行がひとつのジョブである。

図２の例では、未処理ジョブが仮に２以下の場合には、平均ジョブ処理時間(４２ａ、４２ｂ)に比べ最大許容遅延時間までまだ余裕がある。この場合、判定振り分け部２は、音声認識の結果得られた文字列の確信度が平均値から大きく離れていれば、つまりあらかじめ定められた閾値以上に大きいか小さいかによって、自動判定によって高い信頼度が得られると判断する。逆に、平均ジョブ処理時間や、未処理ジョブ数が多い場合は、確信度によっては手動判定にチェックをゆだねる方がよいと判断する。

ここで、手動判定とする条件は、以下の数１の式のように定義してもよい。ただし、手動判定または自動判定とする条件式はこれに限定するものではない。実施例３においては別の条件式を示した。

図３は、この判定の際に用いる閾値αを概念的に示したものである。ここで、確信度Ｘの分布は、図示するように、ある確率密度関数（ここでは正規分布関数）に従うものとする。図３（ａ）、図３（ｂ）、図３（ｃ）では、それぞれ平均μからα以上に確信度Ｘが離れたときを自動判定とする領域を斜線で示したものである。ただし、自動判定には、正しいと判定する場合と、誤りと判定する場合がある。仮に、αをゼロに設定すると、図３（ｄ）で示すようにすべてが自動判定で処理されることになる。

図１に戻り、手動判定部３と自動判定部４は両者合わせて、既に述べたように、自動・手動の両チェック機能を備えるハイブリッドチェック装置であるともいえる。手動チェックの場合は、チェッカー（判断員）の作業を支援するために、話速変換、無音部分の除去、のりしろ付き強調再生、繰り返し再生による自動催促、自動停止などの機能を備える。図４は、この手動チェックを行う画面例を示したものである。ここでは選択ボタン○をチェッカーが押すことによって音声認識によって得られた結果を確定する処理を示している。チェッカーが確定できない場合は（誤りと判断した場合）、選択ボタン×を押して未確定文字として自動修正部５に処理を渡す。

ここで話速変換について説明すると、一般に話す速度は読む速度よりも速いといわれている。よって、一般に字幕候補を読んで音声と比較を行うためには話速を調整する必要がある。ピッチをそのまま選択速度に応じて変動させる方法やピッチを変動させずに速度だけを変更する方法などがある。無音部分の除去は話者が音声を発しないときに、その部分を自動除去してチェック時間を短縮するための処置である。

また、のりしろ付き強調再生とは、前１行（または前の単語）を「フェードイン」で再生し、後ろ１行（または後ろの単語）を「フェードアウト」で再生することをいう。図５にそのイメージ図を示した。ここでは、「フェードイン」する文字を段階的に大きく、「フェードアウト」する文字を段階的に小さくして表している。このようにすることで、単語の手動チェックを支援することができる。

また、繰り返し再生による自動催促とは、繰り返し音を再生し、チェッカーからの入力を催促することをいう。さらに、自動停止とは、チェッカーがマウスやキーボードなどで入力をしたときに、催促を停止することをいう。

なお、字幕修正装置１０において、手動判定部３の手動チェック機能は、チェッカーの人数分だけ備えることができる。これについては後述する。

図１の自動修正部５においては、プレゼンテーションの補助資料から動的に生成されたキーワードリストと誤りと判定された文字列とマッチングを行うことで自動的に修正する。補助資料とは、例えば、プレゼンテーションページ、スピーカーノーツ、台本等の補助テキスト資料である。

自動修正部５において、キーワードリストからのいずれのキーワードもマッチング結果が閾値を超えない場合は、音声認識から得られる２番目の候補より修正結果を得る。この２番目以降の候補は、音声認識部１によって認識された文字列のうち確信度が第１の候補より低い文字列である。マッチングは文字列比較において一般的なＤＰマッチング（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇＭａｔｃｈｉｎｇ：動的計画法）の手法を用いる。さらに文字列レベルでマッチングしない場合は音素レベルでもマッチングを行う。

ここで、単純なマッチングでは多くの場合マッチングによって認識率が逆に下がってしまうことに注意する必要がある。つまり、誤っている箇所が修正されて認識があがる率をＲｅとし、逆に正しい箇所を誤って修正してしまい下がる確率をＲｃとする。ここでＲｅとＲｃを比較した場合Ｒｅ＞Ｒｃとは限らない。図６に単純マッチングの実際にひとつの実験データを参考までに示している。本発明のマッチング手法では、あらかじめ自動判定または手動判定によってチェック後にマッチングを行っているので認識率が逆に下がる危険性は少ない。

再び図１に戻り、自動修正部５において音声認識から得られた２番目の候補が与えられた条件により適切な修正結果となりえない場合は、３番目以降の候補により修正結果を得る。いずれの候補も適切な修正結果となりえない場合は、元の１番目の候補をそのまま修正せずに出力する。

一般にプレゼンテーション・アプリケーションを使った発表では、複数のプレゼンのページがスライドショーとして使用される。したがって、このプレゼンの発表者が実際に発表した各プレゼンページに含まれる文字列からキーワードリストを生成することが可能である。このプレゼンページごとのキーワードが格納されたものをページ単位プレゼンキーワードＤＢと呼び、図１中でページ単位プレゼンキーワードＤＢ７として示す。例えば、発表者のマウスやキーボードの操作によりページ切り替イベント４が発生し、ページの切り替わりが認識できる。ここで、プレゼンキーワードとは、プレゼンテーションページ、スピーカーノーツ、台本等補助テキストから得られた単語、文節等キーワードのリストである。基本的にはキーワードのリストには形態素解析、およびプレゼンのエレメント属性による重み付けを使用したＴＦ・ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ・ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）の手法が使われる。ＴＦ・ＩＤＦについては公知の手法であるのでここでは説明を省略する。自動修正部５では、ページ単位プレゼンキーワードＤＢ７を備えることにより、字幕を後編集するためにそれを使用し、キーワードとの自動マッチングすることによってリアルタイムに字幕表示することを可能とする。

最後に、字幕表示部６は、自動判定部４、手動判定部３と自動修正部５から得られた文字列（確定文字列と未確定文字列）を自動的にマージし、正誤によってフォント属性などにおいて別々な表示方法を行う。ここでは、誤判定された文字列に対して通常の文字種に加え、Ｐｈｏｎｅｍｅ（音素）、ひらがな等の別文字種によって併記した表現を行う。

以上、図１で示す実施形態では、本発明に係る字幕修正装置１０を単一の装置として説明したが、それぞれの機能を別々の装置としてとらえ、システム構成とする形態をとることも可能である。チェッカーが一人の場合のこのシステム構成を図７に示す。ここで、図１の各機能部がそれぞれ対応する装置とその内部処理として示している。

図７の字幕修正システム１００の処理のフローは以下のとおりである。ただし、各装置の構成については、図１の装置とほぼ対応するので重複する説明は省略する。

１）音声認識装置１１により認識結果文字列を得る。ここでは認識結果文字列のみならず、その認識結果文字列に対する確信度、認識結果文字列の次候補として認識結果文字列に比べて確信度のより低い次候補（第２候補、第３候補など）を得る。この次候補の文字列は、図に示すように次候補ＤＢ１６に記憶するようにしてもよい。

２）判定振り分け装置１２によって手動判定か自動判定かのいずれかに振り分けられる（処理Ｓ１０）。手動判定の方が自動判定に比べて結果として得られる確信度が高い、よって十分に空き時間がある時は手動判定と判断する。一方、音声認識による確信度が平均値（例えば５０％）から大きく離れているときは（例えば９５％ならば正しいと判断、５％ならば誤りと判断するなど）、自動的に判断できる可能性が高い。よって、リアルタイムの字幕を実現させるためにはジョブ状況、最大遅れ時間、実経過時間にかんがみて遅れが発生している状況においては音声認識による確信度が平均から離れた度合いに応じて動的に自動判定に振り分けられる。判定振り分け装置１２の実施例は実施例３として後述する。

３）手動判定の場合は、話速変換（処理Ｓ１１）、不要な無音部分除去（処理Ｓ１２）、および音声再生方法（のりしろ付き強調再生、繰り返し再生による自動催促、自動停止）により、自動再生された音声と音声認識結果を実施例４で記述する方法で比べることによって手動でチェッカーに判定させる（処理Ｓ１３）。チェッカーの判定用のＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）については後述の実施例２で述べる。Ｓ１０の判断処理において、自動判定とされた場合は、自動判定（処理Ｓ１４）がそのまま実行される。また、確定の判定処理Ｓ１５の際に、判定振り分け装置１２が管理するジョブキュー１８を更新する。

４）確定されなかった文字列について（判定処理Ｓ１５がＮＯの場合）前述ページ単位プレゼンキーワードＤＢ１７との前述マッチング手法を用いてマッチングを行う。Ｓ１７の処理において、そのマッチングによるスコアＳｐ（ＳｃｏｒｅＰｏｉｎｔ）を算出する（Ｓ１６の処理）。Ｓｐがあらかじめ定められた基準値以上であれば、それを修正後の文字列を未確定文字列とし（処理Ｓ１９）、逆に低ければ第２候補を修正後の文字列を未確定文字列として出力する（処理Ｓ１８）。

５）差別用語などあらかじめ与えられた条件によって第２候補が修正結果としてふさわしくないと判断できる場合は、次候補ＤＢ１６から順に３番目候補を得て、その候補によって修正を行う。

６）音声認識装置１１によって得られたいずれの候補も修正結果となりえない場合は、修正せずにそのまま第１候補を出力する。

７）確定文字列と（マッチングされた）未確定の文字列については両者が明確に区別できるようにフォントの属性を変更する。これについては実施例１として後述する。

前述のとおりチェッカーは通常は１人でよいが、２人以上のチェッカーがいる場合も本システムは対応できる。このような場合は、その人数分だけ手動判定装置１３を備えることでさらに認識率の向上や字幕の表示が改良される。図８にチェッカーが２人の場合の字幕修正システム２００を示す。

複数のチェッカーがいる場合の特徴は以下のとおりである。
１）チェッカーの数と同じ数の手動判定装置１３ａ、１３ｂが備えられる。
２）判定振り分け装置１２によって手の空いている手動判定装置１３ａ、１３ｂへジョブが割り振られる。
３）手動判定装置１３ａ、１３ｂにより確定しなかった文字列に対しては一旦自動修正装置１５によって修正を加えられた後判定振り分け装置１２に戻される。判定振り分け装置１２は手動判定装置１３ａ、１３ｂが空いていれば手動判定のジョブを割り振る。逆に空いていなければそのまま未確定表示を行う。
４）手動判定装置１３ａ、１３ｂ→自動修正装置１５→手動判定装置１３ａ、１３ｂ→自動修正装置１５といった具合に同じ文字列に対して２度目の自動修正装置１５によるマッチングが行われては意味がない。つまりこのような場合については、一度目の自動修正装置で利用された同じキーワードや第２候補を利用しないようにする。よって、一度目に利用したキーワードを除外したキーワードもしくは第２候補を除外した第３候補によってマッチングを行うものとする。

＜確定・未確定文字列表示方法＞
図９に、本発明の実施例を示す。ここでは、スピーカ（発表者）の映像が６４で示されるウィンドウ画面に表示されている。画面６４には、スピーカが発した音声を認識した結果を示している。また、音声認識によって得られた認識文字列に対して手動判定装置１３が手動または自動でチェックした結果がウィンドウ画面６０に示されている。ただし、音声認識の確信度については非表示としてもよい。手動判定装置１３のチェックを確定または非確定とする表示を行うためにＳ６１で示すようにチェッカーにより確定判断が行われる。誤っていると判断された文字列は未確定文字として、処理６２（自動修正装置１５）でマッチングが行われ、その結果として修正後の文字列がウィンドウ６３で、確定文字と未確定文字として区別して表示される。ここでは確定文字列を黒字で表し、未確定文字列を斜体（実際には別の色で表示したほうがさらによい）で表した場合の表示方法の例を示している。この図からもわかるように未確定表示であっても、例えばＰＰＴファイルやその他テキストのプレゼン補助資料によって正しく表示されているケースもある。また、確定された文字列にも自動判定によって確定した場合と、手動判定によって確定した場合があるので、両者を別のフォント属性で区別して表示することもできる。

＜手動判定装置１３の中の手動操作＞
手動判定装置１３におけるユーザによる手動操作のＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）について実施例をここであげる。

１）対象文字列が正しい時はエンターキー、間違っているときはスペースキーなどいずれの場合もキー操作（またはマウスクリックなど）を行う。

２）１）と同様に選択を行うが、タイムアウト時間を設けてその時間内にキーを押さなければ強制的にデフォルトの選択が行われる。一般に認識結果が正しいことの方が多いのでデフォルトを正しいとする方がパフォーマンスの向上が期待できる。

＜判定振り分け装置１２＞
自動判定の条件について、許容遅れ時間、平均ジョブ時間、経過時間をかんがみて平均から大きく離れた確信度ほど高い確率で自動判定とし、許容遅れ時間が迫るにつれ、平均に近い確信度についても自動判定に委ねる確率を高めていくものとする。

具体的に確信度Ｃｉに関して正規分布を仮定した場合の計算方法を述べる。平均μ、分散σ^２の正規分布の確率密度関数ｆ（ｘ）は以下の式で与えられる。

これを元に、確率変数Ｘがａ以下になる確率は以下の式で与えられる。

一般にこの積分の計算は容易ではないが、確率密度関数の線形関係と既知の値を利用することによって、許容遅れ時間をＴｗｍａｘ、平均ジョブ処理時間をＴａｖｅ、進行時間をＴｉとすることによって以下の条件式を満たしたときに自動判定が必要、逆に満たさないときは手動判定とみなすことができる。そして、自動判定の場合は確信度が平均μ以下であれば未確定、逆にμより大きければ確定表示と判定できる。

ただし、ｎｏｒｍｓｉｎｖは、標準正規累積分布の逆関数を表す。ここで、Ｎｊは残りの仕事数なので、以下の式で与えられるＮｉを超えないで一番近い自然数に切り上げた値とする。

なお、手動判定装置が複数あっても同様に求めることができる。

＜音声認識結果と音声の比較方法＞
チェッカーによる音声認識結果と音声の一般的な比較方法として文字列を目で読みながら、音声を耳で聞いて比較を行うことが一般的である。ただし、例えば視覚障害者等が文字列を音声合成によって文字列を再生しながら同時に入力音声と比較することは可能である。

＜音を利用しないチェッカー＞
本発明の手段として音声認識結果と入力の音声を比較する方法で述べた。ただし、多くの場合において音声認識結果は大きな誤りを示すので入力の音声をなしにしても単純にチェックが可能である。つまり、聴覚障害者などにももちろんチェックは可能である。

＜実施効果＞
本発明の実施効果として、コスト、認識率の向上、理解度の向上、リアルタイム性についてまとめると以下のようになる。

＜コスト削減効果＞
まず、本発明の手法は、人手による字幕修正に比べると大きくコスト削減が期待できる。なお、リアルタイムからの遅延時間についてはリスピーク、要約筆記、本発明の実施とも顕著な差は見られなかった。

＜認識率の向上効果＞
［発明が解決しようとする課題］で紹介した某大学での実証実験の結果を元にマッチングの実験を行った結果を図１０に示す。繰り返しになるが、一般にリアルタイム字幕には８５％以上の認識率、望ましくは９０％以上の認識率が必要だといわれている。８５％以上を超える確率が２７％から８２％に向上し、９０％を超える確率が０％から２７％へ向上した。

＜その他の効果＞
定量化するのは難しいが、重要なキーワードについて特に顕著な認識率の向上がみられるため音声認識単体と比べた場合理解度の向上に大きく寄与するといえる。又話者が意図しない差別的表現、書式設定についてもページ単位プレゼンキーワードのマッチングにより大きく改善された。

以上、本発明を一つの実施形態である字幕装置またはシステムとして説明したが、本発明の装置またはシステムは、ハードウエア、ソフトウエア、またはハードウエアおよびソフトウエアの組み合わせとして実現可能である。ハードウエアとソフトウエアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定プログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、または表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、または（１）他の言語、コード、もしくは表記への変換、（２）他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハード・ディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。

なお、本明細書で使用するコンピュータまたはコンピュータ・システムには、一般的なバーソナル・コンピュータや汎用コンピュータのみならず、マイクロ・プロセッサ（ＣＰＵまたはＭＰＵ）を搭載した様々な装置を指すものとする。

以上、本発明を好適な実施形態、および実施例に則して説明したが、本発明の技術的範囲は上記実施形態等に記載の範囲に限定されるものではない。上記実施形態に多様な変更または改良を加えることが可能である。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

本発明の好適な実施形態における字幕修正装置１０の概略を示した図である。判定振り分け部２の振り分けの判定の概念を示した図である。判定振り分け部２が自動判定は手動判定かを振り分けるために使用する閾値についての概念を示した図である。音声認識結果のジョブの手動判定を示す画面例である。のりしろ付き強調再生のイメージ図を示したものである。単純マッチングの認識率の実験例を示した図である。本発明の好適な実施形態におけるチェッカーが１人の場合の字幕修正システム１００の概略を示した図である。本発明の好適な実施形態におけるチェッカーが２人の場合の字幕修正システム２００の概略を示した図である。本発明のアプリケーションにおける実施画面の例を示した図である。本発明の実施例における音声認識率の改善効果を示した図である。

符号の説明

１音声認識部
２判定振り分け部
３手動判定部
４自動判定部
５自動修正部
６字幕表示部
７ページ単位プレゼンキーワードＤＢ
８ページ切り替えイベント
１１音声認識装置
１２判定振り分け装置
１３、１３ａ、１３ｂ手動判定装置
１５自動修正装置
１６次候補ＤＢ
１７ページ単位プレゼンキーワードＤＢ
１８ジョブキュー
１９自動判定装置
４１遅延時間
４２ａ、４２ｂ、４２ｃ平均ジョブ処理時間
６０手動判定のウィンドウ画面
６２マッチング処理
６３確定文字列・未確定文字列の表示ウィンドウ
６４プレゼンテータの画像ウィンドウと字幕表示
１００字幕修正システム（チェッカーが１人の場合）
２００字幕修正システム（チェッカーが２人の場合）

Claims

プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正装置であって、
前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識部と、
現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第１文字列候補の確信度があらかじめ定められた閾値より大きいことを振り分け条件として自動判定とし、前記振り分け条件を満たさない場合は手動判定とすることを選択する判定振り分け部と、
前記判定振り分け部が前記自動判定を選択したことに応じて、前記第１文字列候補を確定文字列として確定する自動判定部と、
前記判定振り分け部が前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定する手動判定部と、
前記確定文字列を前記字幕として表示する字幕表示部と、
を備える字幕修正装置。
前記手動判定部が受付けた指示に基づいて確定文字列を確定しなかった場合には、前記プレゼンテーションのキーワード・リストと前記文字列候補とを比較することによって得られるマッチングスコアに基づいて、前記マッチングスコアが最も高いキーワードを確定文字列と確定し、修正結果の文字列として出力する自動修正部と、をさらに備え、
前記字幕表示部は、前記手動判定部が前記受付けた指示に基づいて確定した確定文字列と、前記自動修正部が確定した前記修正結果の文字列とを区別して表示する、
請求項１に記載の字幕修正装置。
前記判定振り分け部は、与えられたジョブに対する前記確信度から得られる確率密度が最大遅延許容時間内に処理を終えるために処理可能なジョブ数の逆数以下となる場合に手動判定とする、請求項１に記載の字幕修正装置。
前記判定振り分け部は、前記確信度が平均から離れた度合いに応じて自動判定に振り分ける、請求項１に記載の字幕修正装置。
前記手動判定部が前記チェッカーに出力する前記音声は、話速変換手段、無音部分除去手段、のりしろ付き強調再生手段、繰返し再生による自動催促手段、自動停止手段のうち少なくとも一つの手段を含む処理により出力される、請求項１に記載の字幕修正装置。
前記手動判定部が出力し、前記チェッカーから指示を受付ける装置は、前記チェッカーの数だけ備える、請求項１に記載の字幕修正装置。
前記キーワード・リストは、前記プレゼンテーションに関するデータから動的に生成される、請求項２に記載の字幕修正装置。
前記自動修正部は、前記マッチングスコアが所定の基準値以上である前記キーワードを修正結果として出力する、請求項２に記載の字幕修正装置。
前記自動修正部は、前記マッチングスコアが所定の基準値以上であり、かつ、あらかじめ定められた条件に基づき修正結果として適切であると判断した場合に、前記キーワードを修正結果として出力する、請求項８に記載の字幕修正装置。
前記条件に基づく判断において、あらかじめ定められた差別用語または攻撃的用語でない場合に修正結果として適切であると判断する、請求項９に記載の字幕修正装置。
前記字幕表示部は、前記確定文字列と前記修正結果の文字列のフォント属性または文字種を変更して表示する、請求項２に記載の字幕修正装置。
コンピュータが、プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正のための方法であって、
前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識ステップと、
現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第１文字列候補の確信度があらかじめ定められた閾値より大きいことを条件として自動判定とし、前記条件を満たさない場合は手動判定とすることを選択する判定振り分けステップと、
前記判定振り分けステップにおいて前記自動判定を選択したことに応じて、前記第１文字列候補を確定文字列として確定する自動判定ステップと、
前記判定振り分けステップにおいて前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定する手動判定ステップと、
前記確定文字列を前記字幕として表示するステップと、
を含む字幕修正のための方法。
前記手動判定ステップにおいて、受付けた指示に基づいて確定文字列を確定しなかった場合には、前記プレゼンテーションのキーワードのリストと前記文字列候補とを比較することによって得られるマッチングスコアに基づいて、前記マッチングスコアが最も高いキーワードを確定文字列と確定し、修正結果の文字列として出力する自動修正するステップと、
前記手動判定ステップにおいて前記受付けた指示に基づいて確定した確定文字列と、前記自動修正するステップにおいて確定した前記修正結果の文字列とを区別して表示する字幕表示を行うステップと、
をさらに含む、請求項１２に記載の方法。
前記判定振り分けステップは、前記確信度が平均から離れた度合いに応じて自動判定に振り分ける、請求項１２記載の方法。
請求項１２から１４いずれかに記載の方法の各ステップをコンピュータに実行させるコンピュータ・プログラム。
プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正のためのコンピュータ・プログラムであって、
前記コンピュータ・プログラムは、
前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識ステップと、
現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第１文字列候補の確信度があらかじめ定められた閾値より大きいことを条件として自動判定とし、前記条件を満たさない場合は手動判定とすることを選択するステップと、
前記選択するステップにおいて前記自動判定を選択したことに応じて、前記第１文字列候補を確定文字列として確定するステップと、
前記選択するステップにおいて前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定するステップと、
前記確定文字列を前記字幕として表示するステップと、
をコンピュータに、実行させるコンピュータ・プログラム。