JP4158937B2 - 字幕修正装置 - Google Patents

字幕修正装置 Download PDF

Info

Publication number
JP4158937B2
JP4158937B2 JP2006082126A JP2006082126A JP4158937B2 JP 4158937 B2 JP4158937 B2 JP 4158937B2 JP 2006082126 A JP2006082126 A JP 2006082126A JP 2006082126 A JP2006082126 A JP 2006082126A JP 4158937 B2 JP4158937 B2 JP 4158937B2
Authority
JP
Japan
Prior art keywords
character string
determination
automatic
correction
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006082126A
Other languages
English (en)
Other versions
JP2007256714A (ja
Inventor
晃太郎 宮本
健一 荒川
俊也 大鐘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006082126A priority Critical patent/JP4158937B2/ja
Priority to CNB2007100881288A priority patent/CN100539649C/zh
Priority to US11/688,939 priority patent/US7729917B2/en
Publication of JP2007256714A publication Critical patent/JP2007256714A/ja
Application granted granted Critical
Publication of JP4158937B2 publication Critical patent/JP4158937B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Description

本発明は、字幕修正装置に関する。さらに詳しくは、プレゼンテーション等の音声認識結果に対する字幕をリアルタイムに修正する装置、方法、プログラム等に関する。
昨今、聴覚障害者や高齢者等に対してアクセシビリティを確保するため、音声で発信される情報に字幕を付与することが盛んに行われるようになってきた。例えば、放送を通じて発信される情報については、字幕付与可能な全ての放送番組に2007年までに字幕を付与するという具体的な目標が掲げられている。こういった背景から、プレゼンテーション等の音声に字幕を付与する必要性も高いと考えられる。このような字幕を付与するための従来方法として代表的なものは、以下の2つがあげられる。
<リスピーク>
中間にいる話者が、実際の話者が発した音声を聞きながら同時に音声認識のシステムに向けて復唱する方式である。中間に入る復唱者は特殊な訓練を受けているためこのような厳しい状況においても認識率90%以上で復唱できる。
<要約筆記>
話者が発した内容を、一般に3人程度の人が代わる代わる要約しながら入力を行う方式である。3人2組、またはスキルレベルが低い場合には4人2組が必要であるといわれている。
しかしながら、このような人手による字幕の付与は単位時間あたりのコストが高いために普及度は低いとされている。そこで、音声認識技術を用いてリアルタイムに字幕を作成する方法が多く提案されている。例えば、特許文献1には、テレビジョン番組生成時に、最適な仮説を決定するなどの方法により、音声認識によって字幕スーパを生成する技術が開示されている。また、特許文献2には、2パス処理によって音声認識率を向上させるための技術が開示されている。一方、音声認識単体に頼らず音声認識された結果をチェッカー(判定員)によって人間が手動でチェックしたり、修正したりする作業を支援する技術も開示されている(例えば、特許文献3〜5)。
特開平6−141240号公報 特開2001−092496号公報 特開2003−316384号公報 特開2004−151614号公報 特開2005−258198号公報
一般に、音声認識においては、実際には必ずしも期待どおりの認識率が得られるわけではない。例えば、ある実証実験現場からの情報によると、リアルタイム字幕には最低でも85%の認識率、できれば90%の認識率が必要であるといわれている。音声認識単体でも85%の認識率を実現できる可能性はあるが、実際には諸々の条件に大きく依存し、多くの場合十分な認識率を達成できないのが実情である。
例えば、ある実証実験の結果では、平均認識率は81.8%(レンジ:73.4%−89.2%)、であり、85%を超える確率は27%、90%を超える確率は0%であった。(ここで、音声認識エンジンはIBM(登録商標) ViaVoice(登録商標) V10を使用した。)
さらに、認識率とは違う問題として、同じく音声認識によって話者が意図していない差別的な表現や刺激的な表現などに誤って変換されてしまい(例えば、「実体」を[自遺体]に誤変換するなど)、そのまま字幕として表示することに問題がある場合も多々ある。
また、音声認識にとって固有名詞の取り扱いは非常に重要である。そのため多くのシステムでは辞書登録機能が存在するが、同じ読みを複数登録した場合等、どちらが意図した用語なのかは判断がつかない場合も多いのでそのようなケースでは誤って変換される。例えば、「やすこ」という名前に対して同じ読みで違う固有名詞として「康子」、「靖子」、「泰子」、「保子」など複数の候補が登録されることは決して珍しくない。同様に、数値等書式についても登録や設定機能は必ず存在するが、一律の登録となってしまっている。自由発話において話者がどの書式を意図したかその都度判断する術はない。
上述の特許文献1や特許文献2のような方法では、音声認識の結果だけに依存し、人間によるチェック方法や誤認識の修正方法等は含まれないので、話者が意図していない刺激的表現、差別的表現に対する効果は低いと考えられる。
また、特許文献3には、発話が行われ、それをチェッカーが誤りか否かを判断し、誤りと判断されると話者に提示されて、結果的に催促されて再び発話して正しく認識されるまで繰り返す方法が開示されている。しかしこの方法は、話者に負担を強いるものであり、さらに、技術的には認識されなかった単語の発話をいくら繰り返しても正しく認識されるとは限らず、話者へのオーバーヘッドが大きいためリアルタイム性にも課題が残る。
さらに、特許文献4のような方法では、チェック、修正共にすべて手動で行うためリアルタイム性、コストに課題が残ることが考えられる。
一方、特許文献5の方法では、内容があらかじめ定められた音声の再生に同期してその音声の内容を表示するタイミングを設定する装置が開示されているが、リアルタイムに字幕表示を実現する方法自体は開示されていない。
以上のように、リアルタイム字幕の生成や修正には多くの課題が存在するが、本発明により解決しようとする課題は以下のとおりである。
すなわち、音声を文字化した字幕をリアルタイム(言い換えると最大遅延許容時間内)に表示し、かつ、リスピークや要約筆記など従来方法に比べて安価な方法で字幕表示システムを提供すること。また、音声認識単体に比べてより理解度が向上するようなキーワードマッチングを行い、音声認識単体に比べて話者が意図していない差別的や刺激的な表現、固有名詞、書式に誤って変換されてしまうことをできる限り回避することである。
本発明は、これらの課題を解決し、プレゼンテーション等の音声認識によって得られる文字列をリアルタイム字幕としての精度を向上させる安価な装置、方法、プログラム等を提供することを目的とする。
本発明では、一つの形態として以下のような装置を提供する。
プレゼンテーションの音声に対する字幕をリアルタイムに修正する字幕修正装置であって、
プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識部と、
確信度ならびにジョブ処理情報、および、あらかじめ定められた最大遅延許容時間を用いて、文字列候補のうちから確信度の最も高い第1文字列候補に対して自動判定または手動判定させることを選択する判定振り分け部と、
判定振り分け部が自動判定を選択したことに応じて、第1文字列候補に対して自動で確定文字列を判定する自動判定部と、
判定振り分け部が手動判定を選択したことに応じて、第1文字列候補に対して手動で確定文字列を判定させる手動判定部と、
を備える字幕修正装置を提供する。
但し、ここでいう「プレゼンテーション」には、PCなどでプレゼンテーション用ソフトを用いた発表に限定されず、テレビジョン放送など音声で発信される情報伝達を含むものとする。
上記の字幕修正装置には、手動判定部によって確定されなかった文字列に対して、プレゼンテーションのキーワードリストと確定されなかった文字列とを比較することによって得られるマッチングスコアに基づいて該キーワードを修正結果の文字列として出力する自動修正部と、出力された確定文字列と修正結果の文字列を区別して表示する字幕表示部と、をさらに備えることができる。このキーワードリストは、ページ単位プレゼンキーワードDB(後述)から動的に生成される。
前記のジョブ処理情報には、現在の遅延時間、および音声認識部の未処理ジョブ数と平均ジョブ処理時間が含まれる。ここで、ジョブとは音声認識が処理する最小単位、あるいは確信度を決定する最小単位である。また、平均ジョブ処理時間とは、一つのジョブあたりの音声認識部の処理時間と手動判定部の処理時間(または自動判定部の処理時間)の合計を平均したものである。
さらに、本字幕修正装置の判定振り分け部は、確信度が平均から離れた度合いに応じて自動判定か手動判定かに振り分ける。
また、本字幕修正装置の手動判定部は、後述するように、話速変換手段、無音部分除去手段、のりしろ付き強調再生手段、繰り返し再生による自動催促手段、自動停止手段のうち少なくとも一つの手段を含むことができる。この手動判定部は、手動による判断をするチェッカー(判断員)の数だけ備えることも可能である。
本字幕修正装置の自動修正部は、前記のマッチングスコアが所定の基準値以上であれば該キーワードに修正し、その文字列を未確定文字列として出力し、マッチングスコアが所定の基準値未満であれば次候補の文字列を修正後の文字列を未確定文字として出力する。次候補が、あらかじめ定められた条件に基づき、修正結果として適切でないと判断した場合には、次々候補を順に修正候補として適切かを判断する。このとき、前記の条件判断において、次候補または次々候補があらかじめ定められた差別用語または攻撃的用語(通常はデータベースから得られる)である場合には、修正結果として適切でないと判断する。
また、本字幕修正装置の字幕表示部は、前記確定文字列と修正後の文字列のフォント属性(斜体、強調、色、下線等)を変更して表示したり、修正後の文字列に対して、別の文字種(例えば日本語の場合、ローマ字、ひらがな等に変換した文字種)を併記して表示することができる。
本装置の特徴は、まず音声認識部から1または複数のテキストと、その音声認識結果としての音声認識が出力する確信度(信頼度)の情報を得て、次にこの情報を元に、リアルタイム性を損なわないためにあらかじめ定められたように最大遅延許容時間内にすべての処理が収まるように現在の処理状況を判断しながら、第1候補のテキストに対して自動または手動によって動的にチェックさせることである。さらに、手動チェックで誤りと判断された文字列を、第2候補以降のテキスト、またはプレゼンテーションの補助情報のキーワードを用いて自動修正させることである。こうすることでチェッカーによる手動チェックで誤りと判断されたもののみが自動修正にかけられることになり、自動修正のみを無条件に行う方法に比べて自動修正の効率が大きく改善する。しかもこの方式は、音声認識エンジンに依存せず、逆に音声認識エンジンの特徴を生かすように最大遅延許容時間やジョブ処理可能数などを最適化することが可能である。
以上、本発明を代表的な形態である単一装置として説明したが、本発明は、同等な機能を備えた複数の装置、コンピュータを組み合わせたコンピュータ・システム、またはそのコンピュータ・システムにおける処理方法としてもとらえることができる。具体的には後述の実施形態で説明する。
また本発明は、本装置の機能を備えたプログラム、またはそのプログラムを記憶したコンピュータ可読の記録媒体を含むプログラム製品としても提供できる。プログラムは記録媒体で提供される他、ネットワークによりコンピュータにダウンロードして提供されてもよい。
本発明によれば、音声認識を用いた字幕修正システムにおいて、認識率の向上、リアルタイム性の向上、および人手による字幕生成に比べて大きくコスト削減が図ることができる。
以下、本発明を実施形態に基づいて図を参照しながら具体的に説明する。
図1は、本発明の好適な実施形態として、字幕修正装置10の概略を示したものである。字幕修正装置10は、音声認識部1、判定振り分け部2、手動判定部3、自動修正部5、字幕表示部6を備える。ただし、これらの構成に限定されるものでなく機能的に同等であれば別の構成であってもよいし、そのサブ・コンビネーションであってもよい。
音声認識部1は、話者の音声をテキストに変換する。このとき、変換されたテキストに対する確信度(信頼度または認識スコアとも呼ぶ)を出力する。変換されたテキストは、一つに限らず、次候補、次々候補をそれぞれの確信度と共に出力する。音声認識自体については公知の技術を用いてよい。
判定振り分け部2は、音声認識部1から得られる音声認識の確信度、リアルタイムとして許容されるためにあらかじめ定義された最大遅延許容時間、現在の遅延時間(処理時間)、未処理ジョブ数、平均ジョブ処理時間によって、リアルタイムに自動判定手段または手動判定手段を用いるかを自動的に割り振るようにする。すなわち、未処理ジョブ数が少なく、かつ遅延時間が最大許容遅延時間にまだ遠い場合は、判定対象の文字列の確信度が大きく平均値から外れている場合に自動判定とする。平均値から大きく外れている場合は、音声認識結果の信頼度が高いと考えられるからである。さらに、判定振り分け部2においては、平均ジョブ処理時間、未処理ジョブ数にかんがみて遅延時間が最大遅延許容時間に近づくにつれて自動判定へ割り振る度合いを動的に変更することができる。
この割り振りを判定する概念を図2に示した。図2の例では、最大許容遅延時間として8秒を設定している。仮に現在の遅延時間41が3秒、平均ジョブ処理時間(42a、42b、42c)が2秒とすると、残り処理可能なジョブ数は2となる。ここでジョブとは、音声認識が処理する単位、あるいは確信度を決定する単位であると考えてよい。例えば、後述の図4に示すような音声認識結果の判定画面の例では、各行がひとつのジョブである。
図2の例では、未処理ジョブが仮に2以下の場合には、平均ジョブ処理時間(42a、42b)に比べ最大許容遅延時間までまだ余裕がある。この場合、判定振り分け部2は、音声認識の結果得られた文字列の確信度が平均値から大きく離れていれば、つまりあらかじめ定められた閾値以上に大きいか小さいかによって、自動判定によって高い信頼度が得られると判断する。逆に、平均ジョブ処理時間や、未処理ジョブ数が多い場合は、確信度によっては手動判定にチェックをゆだねる方がよいと判断する。
ここで、手動判定とする条件は、以下の数1の式のように定義してもよい。ただし、手動判定または自動判定とする条件式はこれに限定するものではない。実施例3においては別の条件式を示した。
Figure 0004158937
図3は、この判定の際に用いる閾値αを概念的に示したものである。ここで、確信度Xの分布は、図示するように、ある確率密度関数(ここでは正規分布関数)に従うものとする。図3(a)、図3(b)、図3(c)では、それぞれ平均μからα以上に確信度Xが離れたときを自動判定とする領域を斜線で示したものである。ただし、自動判定には、正しいと判定する場合と、誤りと判定する場合がある。仮に、αをゼロに設定すると、図3(d)で示すようにすべてが自動判定で処理されることになる。
図1に戻り、手動判定部3と自動判定部4は両者合わせて、既に述べたように、自動・手動の両チェック機能を備えるハイブリッドチェック装置であるともいえる。手動チェックの場合は、チェッカー(判断員)の作業を支援するために、話速変換、無音部分の除去、のりしろ付き強調再生、繰り返し再生による自動催促、自動停止などの機能を備える。図4は、この手動チェックを行う画面例を示したものである。ここでは選択ボタン○をチェッカーが押すことによって音声認識によって得られた結果を確定する処理を示している。チェッカーが確定できない場合は(誤りと判断した場合)、選択ボタン×を押して未確定文字として自動修正部5に処理を渡す。
ここで話速変換について説明すると、一般に話す速度は読む速度よりも速いといわれている。よって、一般に字幕候補を読んで音声と比較を行うためには話速を調整する必要がある。ピッチをそのまま選択速度に応じて変動させる方法やピッチを変動させずに速度だけを変更する方法などがある。無音部分の除去は話者が音声を発しないときに、その部分を自動除去してチェック時間を短縮するための処置である。
また、のりしろ付き強調再生とは、前1行(または前の単語)を「フェードイン」で再生し、後ろ1行(または後ろの単語)を「フェードアウト」で再生することをいう。図5にそのイメージ図を示した。ここでは、「フェードイン」する文字を段階的に大きく、「フェードアウト」する文字を段階的に小さくして表している。このようにすることで、単語の手動チェックを支援することができる。
また、繰り返し再生による自動催促とは、繰り返し音を再生し、チェッカーからの入力を催促することをいう。さらに、自動停止とは、チェッカーがマウスやキーボードなどで入力をしたときに、催促を停止することをいう。
なお、字幕修正装置10において、手動判定部3の手動チェック機能は、チェッカーの人数分だけ備えることができる。これについては後述する。
図1の自動修正部5においては、プレゼンテーションの補助資料から動的に生成されたキーワードリストと誤りと判定された文字列とマッチングを行うことで自動的に修正する。補助資料とは、例えば、プレゼンテーションページ、スピーカーノーツ、台本等の補助テキスト資料である。
自動修正部5において、キーワードリストからのいずれのキーワードもマッチング結果が閾値を超えない場合は、音声認識から得られる2番目の候補より修正結果を得る。この2番目以降の候補は、音声認識部1によって認識された文字列のうち確信度が第1の候補より低い文字列である。マッチングは文字列比較において一般的なDPマッチング(Dynamic Programming Matching:動的計画法)の手法を用いる。さらに文字列レベルでマッチングしない場合は音素レベルでもマッチングを行う。
ここで、単純なマッチングでは多くの場合マッチングによって認識率が逆に下がってしまうことに注意する必要がある。つまり、誤っている箇所が修正されて認識があがる率をReとし、逆に正しい箇所を誤って修正してしまい下がる確率をRcとする。ここでReとRcを比較した場合Re>Rcとは限らない。図6に単純マッチングの実際にひとつの実験データを参考までに示している。本発明のマッチング手法では、あらかじめ自動判定または手動判定によってチェック後にマッチングを行っているので認識率が逆に下がる危険性は少ない。
再び図1に戻り、自動修正部5において音声認識から得られた2番目の候補が与えられた条件により適切な修正結果となりえない場合は、3番目以降の候補により修正結果を得る。いずれの候補も適切な修正結果となりえない場合は、元の1番目の候補をそのまま修正せずに出力する。
一般にプレゼンテーション・アプリケーションを使った発表では、複数のプレゼンのページがスライドショーとして使用される。したがって、このプレゼンの発表者が実際に発表した各プレゼンページに含まれる文字列からキーワードリストを生成することが可能である。このプレゼンページごとのキーワードが格納されたものをページ単位プレゼンキーワードDBと呼び、図1中でページ単位プレゼンキーワードDB7として示す。例えば、発表者のマウスやキーボードの操作によりページ切り替イベント4が発生し、ページの切り替わりが認識できる。ここで、プレゼンキーワードとは、プレゼンテーションページ、スピーカーノーツ、台本等補助テキストから得られた単語、文節等キーワードのリストである。基本的にはキーワードのリストには形態素解析、およびプレゼンのエレメント属性による重み付けを使用したTF・IDF(Term Frequency・Inverse Document Frequency)の手法が使われる。TF・IDFについては公知の手法であるのでここでは説明を省略する。自動修正部5では、ページ単位プレゼンキーワードDB7を備えることにより、字幕を後編集するためにそれを使用し、キーワードとの自動マッチングすることによってリアルタイムに字幕表示することを可能とする。
最後に、字幕表示部6は、自動判定部4、手動判定部3と自動修正部5から得られた文字列(確定文字列と未確定文字列)を自動的にマージし、正誤によってフォント属性などにおいて別々な表示方法を行う。ここでは、誤判定された文字列に対して通常の文字種に加え、Phoneme(音素)、ひらがな等の別文字種によって併記した表現を行う。
以上、図1で示す実施形態では、本発明に係る字幕修正装置10を単一の装置として説明したが、それぞれの機能を別々の装置としてとらえ、システム構成とする形態をとることも可能である。チェッカーが一人の場合のこのシステム構成を図7に示す。ここで、図1の各機能部がそれぞれ対応する装置とその内部処理として示している。
図7の字幕修正システム100の処理のフローは以下のとおりである。ただし、各装置の構成については、図1の装置とほぼ対応するので重複する説明は省略する。
1)音声認識装置11により認識結果文字列を得る。ここでは認識結果文字列のみならず、その認識結果文字列に対する確信度、認識結果文字列の次候補として認識結果文字列に比べて確信度のより低い次候補(第2候補、第3候補など)を得る。この次候補の文字列は、図に示すように次候補DB16に記憶するようにしてもよい。
2)判定振り分け装置12によって手動判定か自動判定かのいずれかに振り分けられる(処理S10)。手動判定の方が自動判定に比べて結果として得られる確信度が高い、よって十分に空き時間がある時は手動判定と判断する。一方、音声認識による確信度が平均値(例えば50%)から大きく離れているときは(例えば95%ならば正しいと判断、5%ならば誤りと判断するなど)、自動的に判断できる可能性が高い。よって、リアルタイムの字幕を実現させるためにはジョブ状況、最大遅れ時間、実経過時間にかんがみて遅れが発生している状況においては音声認識による確信度が平均から離れた度合いに応じて動的に自動判定に振り分けられる。判定振り分け装置12の実施例は実施例3として後述する。
3)手動判定の場合は、話速変換(処理S11)、不要な無音部分除去(処理S12)、および音声再生方法(のりしろ付き強調再生、繰り返し再生による自動催促、自動停止)により、自動再生された音声と音声認識結果を実施例4で記述する方法で比べることによって手動でチェッカーに判定させる(処理S13)。チェッカーの判定用のUI(User Interface)については後述の実施例2で述べる。S10の判断処理において、自動判定とされた場合は、自動判定(処理S14)がそのまま実行される。また、確定の判定処理S15の際に、判定振り分け装置12が管理するジョブキュー18を更新する。
4)確定されなかった文字列について(判定処理S15がNOの場合)前述ページ単位プレゼンキーワードDB17との前述マッチング手法を用いてマッチングを行う。S17の処理において、そのマッチングによるスコアSp(Score Point)を算出する(S16の処理)。Spがあらかじめ定められた基準値以上であれば、それを修正後の文字列を未確定文字列とし(処理S19)、逆に低ければ第2候補を修正後の文字列を未確定文字列として出力する(処理S18)。
5)差別用語などあらかじめ与えられた条件によって第2候補が修正結果としてふさわしくないと判断できる場合は、次候補DB16から順に3番目候補を得て、その候補によって修正を行う。
6)音声認識装置11によって得られたいずれの候補も修正結果となりえない場合は、修正せずにそのまま第1候補を出力する。
7)確定文字列と(マッチングされた)未確定の文字列については両者が明確に区別できるようにフォントの属性を変更する。これについては実施例1として後述する。
前述のとおりチェッカーは通常は1人でよいが、2人以上のチェッカーがいる場合も本システムは対応できる。このような場合は、その人数分だけ手動判定装置13を備えることでさらに認識率の向上や字幕の表示が改良される。図8にチェッカーが2人の場合の字幕修正システム200を示す。
複数のチェッカーがいる場合の特徴は以下のとおりである。
1)チェッカーの数と同じ数の手動判定装置13a、13bが備えられる。
2)判定振り分け装置12によって手の空いている手動判定装置13a、13bへジョブが割り振られる。
3)手動判定装置13a、13bにより確定しなかった文字列に対しては一旦自動修正装置15によって修正を加えられた後判定振り分け装置12に戻される。判定振り分け装置12は手動判定装置13a、13bが空いていれば手動判定のジョブを割り振る。逆に空いていなければそのまま未確定表示を行う。
4)手動判定装置13a、13b→自動修正装置15→手動判定装置13a、13b→自動修正装置15といった具合に同じ文字列に対して2度目の自動修正装置15によるマッチングが行われては意味がない。つまりこのような場合については、一度目の自動修正装置で利用された同じキーワードや第2候補を利用しないようにする。よって、一度目に利用したキーワードを除外したキーワードもしくは第2候補を除外した第3候補によってマッチングを行うものとする。
<確定・未確定文字列表示方法>
図9に、本発明の実施例を示す。ここでは、スピーカ(発表者)の映像が64で示されるウィンドウ画面に表示されている。画面64には、スピーカが発した音声を認識した結果を示している。また、音声認識によって得られた認識文字列に対して手動判定装置13が手動または自動でチェックした結果がウィンドウ画面60に示されている。ただし、音声認識の確信度については非表示としてもよい。手動判定装置13のチェックを確定または非確定とする表示を行うためにS61で示すようにチェッカーにより確定判断が行われる。誤っていると判断された文字列は未確定文字として、処理62(自動修正装置15)でマッチングが行われ、その結果として修正後の文字列がウィンドウ63で、確定文字と未確定文字として区別して表示される。ここでは確定文字列を黒字で表し、未確定文字列を斜体(実際には別の色で表示したほうがさらによい)で表した場合の表示方法の例を示している。この図からもわかるように未確定表示であっても、例えばPPTファイルやその他テキストのプレゼン補助資料によって正しく表示されているケースもある。また、確定された文字列にも自動判定によって確定した場合と、手動判定によって確定した場合があるので、両者を別のフォント属性で区別して表示することもできる。
<手動判定装置13の中の手動操作>
手動判定装置13におけるユーザによる手動操作のUI(User Interface)について実施例をここであげる。
1)対象文字列が正しい時はエンターキー、間違っているときはスペースキーなどいずれの場合もキー操作(またはマウスクリックなど)を行う。
2)1)と同様に選択を行うが、タイムアウト時間を設けてその時間内にキーを押さなければ強制的にデフォルトの選択が行われる。一般に認識結果が正しいことの方が多いのでデフォルトを正しいとする方がパフォーマンスの向上が期待できる。
<判定振り分け装置12>
自動判定の条件について、許容遅れ時間、平均ジョブ時間、経過時間をかんがみて平均から大きく離れた確信度ほど高い確率で自動判定とし、許容遅れ時間が迫るにつれ、平均に近い確信度についても自動判定に委ねる確率を高めていくものとする。
具体的に確信度Ciに関して正規分布を仮定した場合の計算方法を述べる。平均μ、分散σの正規分布の確率密度関数f(x)は以下の式で与えられる。
Figure 0004158937
これを元に、確率変数Xがa以下になる確率は以下の式で与えられる。
Figure 0004158937
一般にこの積分の計算は容易ではないが、確率密度関数の線形関係と既知の値を利用することによって、許容遅れ時間をTwmax、平均ジョブ処理時間をTave、進行時間をTiとすることによって以下の条件式を満たしたときに自動判定が必要、逆に満たさないときは手動判定とみなすことができる。そして、自動判定の場合は確信度が平均μ以下であれば未確定、逆にμより大きければ確定表示と判定できる。
Figure 0004158937
ただし、normsinvは、標準正規累積分布の逆関数を表す。ここで、Njは残りの仕事数なので、以下の式で与えられるNiを超えないで一番近い自然数に切り上げた値とする。
Figure 0004158937
なお、手動判定装置が複数あっても同様に求めることができる。
<音声認識結果と音声の比較方法>
チェッカーによる音声認識結果と音声の一般的な比較方法として文字列を目で読みながら、音声を耳で聞いて比較を行うことが一般的である。ただし、例えば視覚障害者等が文字列を音声合成によって文字列を再生しながら同時に入力音声と比較することは可能である。
<音を利用しないチェッカー>
本発明の手段として音声認識結果と入力の音声を比較する方法で述べた。ただし、多くの場合において音声認識結果は大きな誤りを示すので入力の音声をなしにしても単純にチェックが可能である。つまり、聴覚障害者などにももちろんチェックは可能である。
<実施効果>
本発明の実施効果として、コスト、認識率の向上、理解度の向上、リアルタイム性についてまとめると以下のようになる。
<コスト削減効果>
まず、本発明の手法は、人手による字幕修正に比べると大きくコスト削減が期待できる。なお、リアルタイムからの遅延時間についてはリスピーク、要約筆記、本発明の実施とも顕著な差は見られなかった。
<認識率の向上効果>
[発明が解決しようとする課題]で紹介した某大学での実証実験の結果を元にマッチングの実験を行った結果を図10に示す。繰り返しになるが、一般にリアルタイム字幕には85%以上の認識率、望ましくは90%以上の認識率が必要だといわれている。85%以上を超える確率が27%から82%に向上し、90%を超える確率が0%から27%へ向上した。
<その他の効果>
定量化するのは難しいが、重要なキーワードについて特に顕著な認識率の向上がみられるため音声認識単体と比べた場合理解度の向上に大きく寄与するといえる。又話者が意図しない差別的表現、書式設定についてもページ単位プレゼンキーワードのマッチングにより大きく改善された。
以上、本発明を一つの実施形態である字幕装置またはシステムとして説明したが、本発明の装置またはシステムは、ハードウエア、ソフトウエア、またはハードウエアおよびソフトウエアの組み合わせとして実現可能である。ハードウエアとソフトウエアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定プログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、または表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、または(1)他の言語、コード、もしくは表記への変換、(2)他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハード・ディスク装置、ROM、MRAM、RAM等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。
なお、本明細書で使用するコンピュータまたはコンピュータ・システムには、一般的なバーソナル・コンピュータや汎用コンピュータのみならず、マイクロ・プロセッサ(CPUまたはMPU)を搭載した様々な装置を指すものとする。
以上、本発明を好適な実施形態、および実施例に則して説明したが、本発明の技術的範囲は上記実施形態等に記載の範囲に限定されるものではない。上記実施形態に多様な変更または改良を加えることが可能である。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
本発明の好適な実施形態における字幕修正装置10の概略を示した図である。 判定振り分け部2の振り分けの判定の概念を示した図である。 判定振り分け部2が自動判定は手動判定かを振り分けるために使用する閾値についての概念を示した図である。 音声認識結果のジョブの手動判定を示す画面例である。 のりしろ付き強調再生のイメージ図を示したものである。 単純マッチングの認識率の実験例を示した図である。 本発明の好適な実施形態におけるチェッカーが1人の場合の字幕修正システム100の概略を示した図である。 本発明の好適な実施形態におけるチェッカーが2人の場合の字幕修正システム200の概略を示した図である。 本発明のアプリケーションにおける実施画面の例を示した図である。 本発明の実施例における音声認識率の改善効果を示した図である。
符号の説明
1 音声認識部
2 判定振り分け部
3 手動判定部
4 自動判定部
5 自動修正部
6 字幕表示部
7 ページ単位プレゼンキーワードDB
8 ページ切り替えイベント
11 音声認識装置
12 判定振り分け装置
13、13a、13b 手動判定装置
15 自動修正装置
16 次候補DB
17 ページ単位プレゼンキーワードDB
18 ジョブキュー
19 自動判定装置
41 遅延時間
42a、42b、42c 平均ジョブ処理時間
60 手動判定のウィンドウ画面
62 マッチング処理
63 確定文字列・未確定文字列の表示ウィンドウ
64 プレゼンテータの画像ウィンドウと字幕表示
100 字幕修正システム(チェッカーが1人の場合)
200 字幕修正システム(チェッカーが2人の場合)

Claims (16)

  1. プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正装置であって、
    前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識部と、
    現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第1文字列候補の確信度があらかじめ定められた閾値より大きいことを振り分け条件として自動判定とし、前記振り分け条件を満たさない場合は手動判定とすることを選択する判定振り分け部と、
    前記判定振り分け部が前記自動判定を選択したことに応じて、前記第1文字列候補確定文字列として確定する自動判定部と、
    前記判定振り分け部が前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定する手動判定部と、
    前記確定文字列を前記字幕として表示する字幕表示部と、
    を備える字幕修正装置。
  2. 前記手動判定部が受付けた指示に基づいて確定文字列を確定しなかった場合には、前記プレゼンテーションのキーワード・リストと前記文字列候補とを比較することによって得られるマッチングスコアに基づいて、前記マッチングスコアが最も高いキーワードを確定文字列と確定し、修正結果の文字列として出力する自動修正部と、をさらに備え、
    前記字幕表示部は、前記手動判定部が前記受付けた指示に基づいて確定した確定文字列と、前記自動修正部が確定した前記修正結果の文字列を区別して表示する、
    請求項1に記載の字幕修正装置。
  3. 前記判定振り分け部は、与えられたジョブに対する前記確信度から得られる確率密度が最大遅延許容時間内に処理を終えるために処理可能なジョブ数の逆数以下となる場合に手動判定とする、請求項1に記載の字幕修正装置。
  4. 前記判定振り分け部は、前記確信度が平均から離れた度合いに応じて自動判定に振り分ける、請求項1に記載の字幕修正装置。
  5. 前記手動判定部が前記チェッカーに出力する前記音声は、話速変換手段、無音部分除去手段、のりしろ付き強調再生手段、繰返し再生による自動催促手段、自動停止手段のうち少なくとも一つの手段を含む処理により出力される、請求項1に記載の字幕修正装置。
  6. 前記手動判定部が出力し、前記チェッカーから指示を受付ける装置は、前記チェッカーの数だけ備える、請求項1に記載の字幕修正装置。
  7. 前記キーワード・リストは、前記プレゼンテーションに関するデータから動的に生成される、請求項2に記載の字幕修正装置。
  8. 前記自動修正部は、前記マッチングスコアが所定の基準値以上である前記キーワードを修正結果として出力する、請求項2に記載の字幕修正装置。
  9. 前記自動修正部は、前記マッチングスコアが所定の基準値以上であり、かつ、あらかじめ定められた条件に基づき修正結果として適切であると判断した場合に、前記キーワードを修正結果として出力する、請求項に記載の字幕修正装置。
  10. 前記条件に基づく判断において、あらかじめ定められた差別用語または攻撃的用語でない場合に修正結果として適切であると判断する、請求項に記載の字幕修正装置。
  11. 前記字幕表示部は、前記確定文字列と前記修正結果の文字列のフォント属性または文字種を変更して表示する、請求項2に記載の字幕修正装置。
  12. コンピュータが、プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正のための方法であって、
    前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識ステップと、
    現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第1文字列候補の確信度があらかじめ定められた閾値より大きいことを条件として自動判定とし、前記条件を満たさない場合は手動判定とすることを選択する判定振り分けステップと、
    前記判定振り分けステップにおいて前記自動判定を選択したことに応じて、前記第1文字列候補確定文字列として確定する自動判定ステップと、
    前記判定振り分けステップにおいて前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定する手動判定ステップと、
    前記確定文字列を前記字幕として表示するステップと、
    を含む字幕修正のための方法。
  13. 前記手動判定ステップにおいて、受付けた指示に基づいて確定文字列を確定しなかった場合には、前記プレゼンテーションのキーワードのリストと前記文字列候補とを比較することによって得られるマッチングスコアに基づいて、前記マッチングスコアが最も高いキーワードを確定文字列と確定し、修正結果の文字列として出力する自動修正するステップと、
    前記手動判定ステップにおいて前記受付けた指示に基づいて確定した確定文字列と、前記自動修正するステップにおいて確定した前記修正結果の文字列を区別して表示する字幕表示を行うステップと、
    をさらに含む、請求項12に記載の方法。
  14. 前記判定振り分けステップは、前記確信度が平均から離れた度合いに応じて自動判定に振り分ける、請求項12記載の方法。
  15. 請求項12から14いずれかに記載の方法の各ステップをコンピュータに実行させるコンピュータ・プログラム。
  16. プレゼンテーションの音声に対する文字列をリアルタイムに修正し、字幕として表示する字幕修正のためのコンピュータ・プログラムであって、
    前記コンピュータ・プログラムは、
    前記プレゼンテーションの音声を認識し、音声認識結果として一または複数の文字列候補のテキストと該文字列候補に対する音声認識の確信度を出力する音声認識ステップと、
    現在の処理時間と、前記確信度を決定する単位であるジョブのうち未処理のジョブを処理する平均時間との合計があらかじめ定められた最大許容遅延時間より小さい場合であって、前記文字列候補のうちから前記確信度の最も高い第1文字列候補の確信度があらかじめ定められた閾値より大きいことを条件として自動判定とし、前記条件を満たさない場合は手動判定とすることを選択するステップと、
    前記選択するステップにおいて前記自動判定を選択したことに応じて、前記第1文字列候補確定文字列として確定するステップと、
    前記選択するステップにおいて前記手動判定を選択したことに応じて、チェッカーに前記音声と前記文字列候補とを出力し、前記チェッカーから受付けた指示に基づいて前記文字列候補の中から確定文字列を確定すステップと、
    前記確定文字列を前記字幕として表示するステップと、
    をコンピュータに、実行させるコンピュータ・プログラム。
JP2006082126A 2006-03-24 2006-03-24 字幕修正装置 Expired - Fee Related JP4158937B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006082126A JP4158937B2 (ja) 2006-03-24 2006-03-24 字幕修正装置
CNB2007100881288A CN100539649C (zh) 2006-03-24 2007-03-15 用于校正字幕的字幕校正设备和方法
US11/688,939 US7729917B2 (en) 2006-03-24 2007-03-21 Correction of a caption produced by speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006082126A JP4158937B2 (ja) 2006-03-24 2006-03-24 字幕修正装置

Publications (2)

Publication Number Publication Date
JP2007256714A JP2007256714A (ja) 2007-10-04
JP4158937B2 true JP4158937B2 (ja) 2008-10-01

Family

ID=38631003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006082126A Expired - Fee Related JP4158937B2 (ja) 2006-03-24 2006-03-24 字幕修正装置

Country Status (3)

Country Link
US (1) US7729917B2 (ja)
JP (1) JP4158937B2 (ja)
CN (1) CN100539649C (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
JP4743686B2 (ja) * 2005-01-19 2011-08-10 京セラ株式会社 携帯端末装置、およびその音声読み上げ方法、並びに音声読み上げプログラム
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
JP4926000B2 (ja) * 2007-10-31 2012-05-09 富士通株式会社 確認支援装置及びコンピュータプログラム
JP2009157050A (ja) * 2007-12-26 2009-07-16 Hitachi Omron Terminal Solutions Corp 発話検証装置及び発話検証方法
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
US9077933B2 (en) 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
JP5243886B2 (ja) * 2008-08-11 2013-07-24 旭化成株式会社 字幕出力装置、字幕出力方法及びプログラム
US8707381B2 (en) 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
US8364463B2 (en) * 2009-09-25 2013-01-29 International Business Machines Corporation Optimizing a language/media translation map
US9236047B2 (en) 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
US8965545B2 (en) 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio
US8826354B2 (en) 2010-12-01 2014-09-02 At&T Intellectual Property I, L.P. Method and system for testing closed caption content of video assets
JP5478478B2 (ja) * 2010-12-15 2014-04-23 日本放送協会 テキスト修正装置およびプログラム
CN102122506B (zh) * 2011-03-08 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
US9026446B2 (en) * 2011-06-10 2015-05-05 Morgan Fiumi System for generating captions for live video broadcasts
US8749618B2 (en) 2011-06-10 2014-06-10 Morgan Fiumi Distributed three-dimensional video conversion system
US8532469B2 (en) 2011-06-10 2013-09-10 Morgan Fiumi Distributed digital video processing system
CN102662794A (zh) * 2012-03-09 2012-09-12 无锡华御信息技术有限公司 一种备份文档数据的系统及方法
US8909534B1 (en) * 2012-03-09 2014-12-09 Google Inc. Speech recognition training
KR101292563B1 (ko) * 2012-11-13 2013-08-09 주식회사 한글과컴퓨터 자막 출력 기반의 프레젠테이션 장치 및 방법
RU2530268C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
KR20150126027A (ko) 2013-03-07 2015-11-10 엔이씨 솔루션 이노베이터 가부시키가이샤 이해 지원 시스템, 이해 지원 서버, 이해 지원 방법, 및 컴퓨터 판독가능 기록 매체
WO2014148190A1 (ja) 2013-03-19 2014-09-25 Necソリューションイノベータ株式会社 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びコンピュータ読み取り可能な記録媒体
US20150098018A1 (en) * 2013-10-04 2015-04-09 National Public Radio Techniques for live-writing and editing closed captions
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
JP6364775B2 (ja) * 2014-01-09 2018-08-01 サクサ株式会社 電子会議システム及びそのプログラム
US20190312973A1 (en) * 2014-02-28 2019-10-10 Ultratec, Inc. Semiautomated relay method and apparatus
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
KR101789221B1 (ko) * 2015-07-16 2017-10-23 네이버 주식회사 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
CN105244022B (zh) * 2015-09-28 2019-10-18 科大讯飞股份有限公司 音视频字幕生成方法及装置
JP6517718B2 (ja) * 2016-03-11 2019-05-22 株式会社東芝 会議支援装置、会議支援方法、及び会議支援プログラム
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
JP6596373B6 (ja) * 2016-03-24 2019-12-11 株式会社アドバンスト・メディア 表示処理装置及び表示処理プログラム
CN105895085B (zh) * 2016-03-30 2019-10-18 讯飞智元信息科技有限公司 一种多媒体转写方法和系统
JP6678545B2 (ja) * 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム
JP6936318B2 (ja) * 2016-09-30 2021-09-15 ロヴィ ガイズ, インコーポレイテッド キャプションテキストにおける間違いを訂正するためのシステムおよび方法
US20180144747A1 (en) * 2016-11-18 2018-05-24 Microsoft Technology Licensing, Llc Real-time caption correction by moderator
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
JP6499228B2 (ja) * 2017-06-20 2019-04-10 株式会社東芝 テキスト生成装置、方法、及びプログラム
GB201715753D0 (en) * 2017-09-28 2017-11-15 Royal Nat Theatre Caption delivery system
KR102452644B1 (ko) * 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
EP3489952A1 (en) * 2017-11-23 2019-05-29 Sorizava Co., Ltd. Speech recognition apparatus and system
JP6485977B2 (ja) * 2017-12-25 2019-03-20 株式会社フェイス 字幕制作装置および字幕制作方法
KR101996551B1 (ko) * 2018-01-02 2019-07-04 중앙대학교 산학협력단 음성인식 및 대본을 이용하는 자막 생성 장치 및 방법
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
KR102468214B1 (ko) * 2018-02-19 2022-11-17 삼성전자주식회사 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
CN108735200B (zh) * 2018-06-27 2020-05-29 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
WO2020053862A1 (en) * 2018-09-13 2020-03-19 Ichannel.Io Ltd. A system and computerized method for subtitles synchronization of audiovisual content using the human voice detection for synchronization
JP7172351B2 (ja) * 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
KR102345625B1 (ko) 2019-02-01 2021-12-31 삼성전자주식회사 자막 생성 방법 및 이를 수행하는 장치
CN109754783B (zh) * 2019-03-05 2020-12-25 百度在线网络技术(北京)有限公司 用于确定音频语句的边界的方法和装置
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
JP6758732B1 (ja) * 2020-01-06 2020-09-23 株式会社インタラクティブソリューションズ プレゼンテーション支援システム
JP7237378B2 (ja) * 2020-01-06 2023-03-13 株式会社インタラクティブソリューションズ システム
KR20210100368A (ko) * 2020-02-06 2021-08-17 삼성전자주식회사 전자장치 및 그 제어방법
US11032620B1 (en) * 2020-02-14 2021-06-08 Sling Media Pvt Ltd Methods, systems, and apparatuses to respond to voice requests to play desired video clips in streamed media based on matched close caption and sub-title text
JP6781492B2 (ja) * 2020-04-07 2020-11-04 株式会社インタラクティブソリューションズ 音声解析システム
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
WO2022056596A1 (en) * 2020-09-21 2022-03-24 Wang Alan Jiahao An electronic transcription system and a method for use by the electronic transcription system
US20230360635A1 (en) * 2021-04-23 2023-11-09 Meta Platforms, Inc. Systems and methods for evaluating and surfacing content captions
US11683558B2 (en) * 2021-06-29 2023-06-20 The Nielsen Company (Us), Llc Methods and apparatus to determine the speed-up of media programs using speech recognition
US11785278B1 (en) * 2022-03-18 2023-10-10 Comcast Cable Communications, Llc Methods and systems for synchronization of closed captions with content output
KR102642029B1 (ko) * 2023-09-11 2024-02-28 주식회사 인프랩 인공지능 기반의 자막 관리 장치, 방법 및 프로그램

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3162832B2 (ja) 1992-10-28 2001-05-08 日本放送協会 字幕スーパー画面作成装置
US6567503B2 (en) * 1997-09-08 2003-05-20 Ultratec, Inc. Real-time transcription correction system
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
JP3834169B2 (ja) 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US7191117B2 (en) * 2000-06-09 2007-03-13 British Broadcasting Corporation Generation of subtitles or captions for moving pictures
WO2002009093A1 (en) * 2000-07-20 2002-01-31 Koninklijke Philips Electronics N.V. Feedback of recognized command confidence level
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
JP2002162992A (ja) 2000-11-28 2002-06-07 Nippon Hoso Kyokai <Nhk> 音声認識誤り処理装置および記憶媒体
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
JP3682922B2 (ja) * 2002-04-24 2005-08-17 日本放送協会 リアルタイム文字修正装置およびリアルタイム文字修正プログラム
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
JP3986009B2 (ja) 2002-11-01 2007-10-03 日本放送協会 文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法
JP3986015B2 (ja) 2003-01-27 2007-10-03 日本放送協会 音声認識誤り修正装置、音声認識誤り修正方法および音声認識誤り修正プログラム
JP2004302175A (ja) 2003-03-31 2004-10-28 Fuji Television Network Inc 音声認識システム、音声認識方法及び音声認識プログラム
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP3945778B2 (ja) 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法

Also Published As

Publication number Publication date
US20080040111A1 (en) 2008-02-14
CN101094330A (zh) 2007-12-26
US7729917B2 (en) 2010-06-01
JP2007256714A (ja) 2007-10-04
CN100539649C (zh) 2009-09-09

Similar Documents

Publication Publication Date Title
JP4158937B2 (ja) 字幕修正装置
US6446041B1 (en) Method and system for providing audio playback of a multi-source document
US8515755B2 (en) Replacing text representing a concept with an alternate written form of the concept
RU2441287C2 (ru) Универсальные орфографические мнемосхемы
US7693717B2 (en) Session file modification with annotation using speech recognition or text to speech
US20180143956A1 (en) Real-time caption correction by audience
US9412370B2 (en) Method and system for dynamic creation of contexts
US9588967B2 (en) Interpretation apparatus and method
US7742920B2 (en) Variable voice rate apparatus and variable voice rate method
JP2006178087A (ja) 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
JP5044783B2 (ja) 自動回答装置および方法
JP4811557B2 (ja) 音声再生装置及び発話支援装置
JPH11194793A (ja) 音声ワープロ
JP4189336B2 (ja) 音声情報処理システム、音声情報処理方法及びプログラム
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP4538618B2 (ja) 字幕番組制作システムにおける表示単位字幕文の自動生成方法
Yu Boosting speech-to-text software potential
JP2006018028A (ja) 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体
JP2001013992A (ja) 音声理解装置
JP2007156888A (ja) 情報提示装置及び情報提示プログラム
Bahng et al. CAC: Content-Aware Captioning for Professional Online Lectures in Korean Language
JP5528252B2 (ja) タイムコード付与装置及びプログラム
JP3253753B2 (ja) 文書読み上げ対象テキストの整形方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071205

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071218

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20071226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080709

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130725

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees