JP2005517216A

JP2005517216A - 話されたおよび書かれたことばの高速かつパターン認識に支援された書き起こし方法および装置

Info

Publication number: JP2005517216A
Application number: JP2003566843A
Authority: JP
Inventors: テーレン，エリック; クラコフ，ディートリッヒ; ショル，ホルガー; ヴァイベル，ウルリッヒ; ライジンガー，ヨーゼフ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-02-07
Filing date: 2003-01-30
Publication date: 2005-06-09
Also published as: EP1479070B1; US20060167685A1; AU2003205955A1; EP1479070A1; DE60312963D1; ATE358869T1; DE10204924A1; DE60312963T2; WO2003067573A1

Abstract

本発明は話されたおよび書かれたことばの書き起こしのための方法および装置に関する。これにより、そのことばは音声またはテキスト認識をかけられ、書き起こしを得るため、認識結果（ME）はそのことばの人手により生成された書き起こしと組み合わされる。認識結果（ME）の結果として組み合わせにより使用可能となった追加的情報は、書き起こし者が比較的粗雑に、それゆえに速く人手による書き起こしをできるようにする。キーボードを使用しているとき、１つの行のキーを叩くよう制限したり、いくつかのキーストロークを完全に省略することができる。また、人手による書き起こしは、それまでに入力されたテキスト（３０）のつづき（３１）の示唆により加速される。そのつづきは認識結果（ME）により予測される。

Description

本発明は、話されたおよび書かれた言葉の書き起こしのための方法および装置に関する。この種の書き起こしは、ビジネスおよび私生活の多くの分野で必要となる。例えば、放射線医師は発見したことを口述し、法律家はその主張を口述し、学生はしばしばそのエッセイや論文を最初は手書きする。会議の議事録は、はじめは速記の形を採用して書き取られるだけのことがしばしばある。

さらに処理するために、これらの話されたおよび書かれた言葉を書き起こさなければならない。すなわち、それらからきれいなコピーを作らなければならない。そのため、例えば、タイピスト集団の従業員は、オーディオテープまたはコンピュータファイルとして録音された放射線部門の発見を、文書処理システムに手で入力する。また、秘書は、最初に速記で書き取った上司により口述された手紙を、タイプライターでタイプする。しかし、現代技術のおかげで、今日では、機械処理可能な書き起こしを得るため、テキストを直接コンピュータに入力することは重要ではない。代わりにテキストを、例えばブロック体できれいに手書きしたり、または、例えば一つ一つの単語の間に短いポーズを入れてはっきりと口述したりすることができる。ダウンストリームのテキストまたはスピーチ認識システムが、手で修正する必要がある少しのエラーを例外として、きれいに作られたドラフトを処理することができる。

話されたまたは書かれた元の言葉を直接パターン認識システムに入力するという選択肢もある。このために、様々なメーカからのスピーチおよびテキスト認識システムが、市場で入手可能である。例えば、フィリップス社のFreeSpeechプログラムがある。しかし、これらのパターン認識システムは、話されたおよび書かれた入力がきれいで明瞭であり、システムのパターン認識パラメータが執筆者、言葉の性質、および使用条件に合わせて調整され、または少なくとも合わせられているときにのみ、最適な動作をする。多くの場合はこれと異なり、手書きの文字が明瞭でないとかノイズレベルが高い等の状況においては執筆者によっては問題があるので、パターン認識システムを用いて自動的に作成した書き起こしには、普通、修正の必要なエラーがある。

この種のシステムの認識結果は、一般には、人間によって手で修正される。スピーチ認識システムのいくつかは、この手修正を支援する修正エディタを提供する。例えば、FreeSpeechの修正エディタによると、音声再生と画面上のテキストのマーキングを同期することができる。すなわち、音声信号を再生するとき、その点で認識された単語を画面上でマークする。エラーが見つかったとき、キーボードやマウスにより入力することで、人間の書き起こし者がそのエラーを修正する。

米国特許第US5,855,000号には、特殊バージョンの修正エディターが開示されている。認識のエラーが発見されると、人間の書き起こし者が第２の入力信号でそれを修正する。その第２の入力信号は、パターン認識システムにより修正仮説に変換される。この修正仮説は、新しい仮説を形成するため、元の認識仮説と組み合わされる（新しい仮説を作成するため、認識仮説の少なくとも一部を前記修正仮説と相関させる）。この新しい仮説が最終的に元の認識仮説と置き換わる（新しい仮説で前記発見されたエラーを置き換える）。

話された言葉の書き起こし者が第２の入力信号として使用できる選択肢の一つは、正しく認識されなかったテキストの一節をシステムマイクに向かって（再度）話すことである（言葉の少なくとも一部を再度話すことから作成した修正仮説）。米国特許第5,855,000号の一実施形態は、認識エラーが適切な一節を再話する書き起こし者により発見させる。この繰り返しの認識仮説は、元の認識仮説中に自動的に配置され、書き起こし者による確認に供される（第２のｎベストリスト中の各仮説が、主認識の第１の仮説のサブストリングであるかどうかを判断するために、評価される）。

修正仮説を元の認識仮説と組み合わせることによる第２の入力信号の提供と情報の利用によって、米国特許第5,855,000号は、キーボードとマウスを用いる従来の修正入力選択に加えて、書き起こし者にさらなる入力のモダリティを提供する。この入力のモダリティは最初のパターン認識の結果の修正における書き起こし者の生産性を上げることを意図している。

修正エディターとパターン認識システム自体へのこれらのおよび他の知られた改良にもかかわらず、話されたまたは書かれたことばのパターン認識結果を修正する過程は、そのことばを直接人手で書き起こすよりも時間と手間がかかるという問題は、今日でも解決されていない。その理由は、とりわけ、修正過程に必要な高度な注意深さと、修正過程の不連続な構造の両方にある。例えばドイツ語には「ein」と「kein」（英語で「a/one」および「no/none」の意味）ということばがあり、音声認識システムに関する限りこれらのことばは非常に似かよっており、書き起こし者にとっては外観上の違いを見過ごしやすい。正しい一節を追うだけであるが、正しくない一節が見つかったとき、その一節がマークされるかカーソルが置かれ、文字が削除および／または新しく入力される。これにより、パターン認識結果の誤り率が限度を超えると、利用価値がなくなるだけでなく、書き起こし者の作業方法を非効率的にする。そのことばを直接人手で書き起こしていた方がよいかもしれない。

それゆえ、本発明の目的は、人間の書き起こし者が直接人手で書き起こす場合と少なくとも同じ効率で作業できるという意味で、話されたまたは書かれたことばのパターン認識をことばの書き起こしに使用可能とする方法および装置を提供することである。

この目的は、請求項１、２、８、９、１０に記載した方法および装置により達成される。これらの方法と装置は、従来技術とは対照的に、パターン認識結果を人手で修正するのではなく、話されたまたは書かれたことばの人手による書き起こしの過程そのものを保持し、パターン認識により支援するという基本的アイデアに基づいている。

これは、例えば、請求項１、８、１０に記載した人手による書き起こしとパターン認識結果の組み合わせにより起こる。ことばは、後でそのパターン認識結果と組み合わせるために人手により書き起こされる。パターン認識結果は人手による書き起こしに付加的な情報を加えるので、人間の書き起こし者は人手による書き起こしを、例えばより早くまたはより便利にするため、このパターン認識結果を作業方法で斟酌できる。

例えば、請求項６に記載したように、人手により書き起こされたテキストを手書きの形で作成したり、速記を使用することもできる。スペリングの間違いは、修正しないで残しておくことができる。請求項７に記載したように、キーボードを使用するとき、タイピングスピードを高めるため、いくつかのキーストロークを省略したり、より早くアクセスできるキーを叩いてもよい。ここで特に興味深いことは、例えば、単一の行のキーを叩くことを制限することである。例えばドイツ語のキーボードにおいて、文字「４」、「ｅ」、「ｄ」、「ｃ」の各々について、「ｄ」のみしか叩く必要がない（左手の中指で）。シフトキーの使用も省略すれば、タイピング中の手の動きは完全に排除することができ、タイピングスピードがかなり早くなる。

この種の作業方法は、特別に設計したキーボードによりさらに支援することができる。タイピングスタイルおよびキーボードの設計において、人手による書き起こしおよびパターン認識結果はできる限り互いに補完的であるべきであるという事実を斟酌することができる。例えば、人手による書き起こしは、「ｍ」と「ｎ」や「ｂ」と「ｐ」などの似ていて間違いやすい音を異なった文字で表す点において、人手による書き起こしは音声認識結果を補完することができる。ドイツ語のキーボードにおける上述のキーの列の例において、例えば「ｍ」と「ｎ」はキー「ｊ」と「ｈ」で表され、異なる。逆に、手のレストポジションの１０個のキー（左手の「ａ」、「ｓ」、「ｄ」、「ｆ」、「スペースバー」および右手の「ｊ」、「ｋ」、「ｌ」、「oe」）に制限すると、「ｍ」と「ｎ」はともに「ｊ」で表され、異ならない。この結果、この種のタイピングスタイルとそれを支援するキーボードは、人手による書き起こしにはあまり好適ではない。

話されたまたは書かれたことばのパターン認識は、人手による書き起こしとは独立に実行することができる。この場合、パターン認識と人手による書き起こしとは互いに独立であり、事後的にそれらの結果を組み合わせることができる。しかし、動作中に一方の過程が他方を直接支援することはできる。

例えば、人手により書き起こされたテキストによりパターン認識が支援される実施形態が、請求項２に記載されている。認識語彙と認識音声モデルの選択が、この種の支援の例として従属項５に記載されている。例えば、単語「ｗｒｄ」は、母音を省略した結果としての短縮形である。この単語「ｗｒｄ」が人手による書き起こしに出てきたとき、ドイツ語の単語「ward」・「werd」・「werde」・「wird」・「wurde」・「wuerde」・「Wuerde」が、パターン認識の語彙としてアクティベートされる。したがって、人手による書き起こしに現れる単語選択のシーケンスに、音声モデルが制限される。

特定の仕方による人手による書き起こしによる追加的支援がパターン認識のために所望されるとき、その後のパターン認識のための特殊な制御指示を人手による書き起こしテキストに書き起こし者が挿入することもできる。例えば、書き起こし者は、適当であれば、話者の変化をその話者のアイデンティティについての情報をつけてマークすることができる。まったく同様に、テキストの一節の文法的および／または形式的構造についての情報を与えることもできる。文法的および／または形式的構造についての情報とは、例えば、レターヘッド、タイトル、または挨拶形式等のトピック情報またはセクション情報である。認識品質を高めるため、異なる話者、言語構造等のための好適なパターン認識モデルを使用することにより、パターン認識ではそのようなメタ情報を利用することもできる。書き起こし者の追加的入力が、高められたパターン認識品質により正当化されるように、この追加的情報は控えめに使用しなければならない。

そのような場合、パターン認識の適当な構成において、人手により書き起こされたテキストに含まれた情報はすでに斟酌されているので、パターン認識の結果がことばの書き起こしとして直接受け入れられていることを本発明の実施形態は規定している。これにより、人手により書き起こされたテキストとさらに組み合わせる手間が省ける。

逆に、パターン認識結果が人手による書き起こしを支援する実施形態が請求項９に記載されている。これにより、人間の書き起こし者は人手による書き起こし過程においてテキストのつづきを提供される。例えばタブキーなどの特殊キーを押すことにより書き起こし者はこのテキストのつづきを受け入れることができ、またはタイピングを継続することによりこのテキストのつづきを拒絶することもできる。

例えばドイツ語のテキスト「Es liegt」（英語で「There is」を意味する）を人間の書き起こし者がすでに入力したとき、パターン認識結果は２つの可能なつづきを表示するであろう。２つのつづきとはすなわち別のドイツ語の単語「ein」（英語の「a/one」）と「kein」（英語の「no/none」）である。書き起こし装置はこれらの選択肢を提供することができ、書き起こし者はこれらのうちひとつを特別な動作により選択することができる。この特別な動作とは、例えば米国特許第5,027,406号に記載されているように、「F1」と「F2」の２つのファンクションキーのうちひとつを押すことなどである。米国特許第5,027,406号は、この出願に参照により援用されている。しかし、書き起こし者の書く流れをできるだけ妨げないように、次の文字が入力されるのを待ってもよい。書き起こし者が「ｋ」を入力したとき、ドイツ語の単語「kein」をその装置が提供できる。そして、書き起こし者が「TAB」を押すことによりこれを受け入れたり、または単にタイピングを続けることができる。

「kein」の入力を完了すると、音声認識結果はドイツ語の単語「Gehirntumor」（英語の「brain tumor」）と曖昧さなく続ける。この単語は「kein」の入力後すぐに提供される。しかし、「kein」の「ｋ」の入力後、音声認識結果は曖昧ではないので、「ｋ」が入力された後すぐに、完全な「kein Gehirntumor」（英語の「no brain tumor」）を提供することができる。当然、２つの選択肢「ein Gehirntumor」（英語の「a brain tumor」）と「kein Gehirntumor」（英語の「no brain tumor」）を表示することも可能である。

請求項２と９に記載したように、人手によるテキストの生成とパターン認識との相互作用に加えて、本発明の範囲内においてさらなる相互作用の選択肢も考えられる。上述の仕方でのテキストの生成をさらに支援するために、例えば、テキストの最初の部分を入力し、この入力を斟酌しながらパターン認識過程を繰り返す。

最も単純な場合において、人手で書き起こされたテキストとパターン認識結果との組み合わせは、書き起こしのために２つの選択肢の一方を受け入れることにより実行される。例えば、パターン認識結果が非常に高い信頼性を示したとき、そのパターン認識結果の受け入れは論理的である。人手により書き起こされたテキストに明らかにエラーがないとき、すなわち、例えば、単語がすべて辞書にあり文法規則にも反していないとき、そのテキストが受け入れられる。

逆に、２つの選択肢の確率的組み合わせが従属項３に記載されている。パターン認識のための入力信号をO、可能な書き起こしをT、人手により書き起こされたテキストをMT、パターン認識結果をME、確率モデルをP(...)、条件付確率をP(...|...)と呼ぶこととする。最も確からしい書き起こしは、ベイズの規則により次のようになる。

人手による書き起こしとパターン認識はそれぞれ別々に実行される。人手による書き起こしが実際の書き起こしを介してのみ入力信号Oに依存するとき、すなわちP(MT|T,O)=P(MT|T)であるとき、これは次の段落でも仮定されるが、次を得る。

ここで、一方、人手により書き起こされたテキストを斟酌してパターン認識を行うと（請求項２）、次を得る。

または、パターン認識により人手による書き起こしを支援すると(請求項９)、次を得る。

パターン認識の確率モデルP(ME,O|T)またはP(ME,O|T,MT)について、例えば既知の隠れたマルコフモデルを使ってもよい。例えば、P(ME,O|T)は次のようになる。

パターン認識結果MEは、曖昧さなく入力信号Oに由来するから、ME=ME(O)であり、よって、確率には影響を与えない。しかし、後者の確率は既知のプロダクションモデルP(O|T)以外のなにものでもない。これはトレーニングコーパスを用いて調整することができる。

人手による書き起こしの確率モデルP(MT|T)またはP(MT|T,ME)において、最も単純な場合には、書き起こしTに関する人手による書き起こしMTが一様に分布していると仮定することができる。ここで、スペルエラー、上述のキーストロークの省略または挿入、その他同様の動作により、TからMTが取得可能であれば、MTはTと“一致する”。しかし、一様に分布していない場合、書き起こし中にこれらの個々の過程の統計をとってもよい。もし望めば、より精密な確率モデルを得るために、この統計は各書き起こし者ごとにとってもよい。最後に、例えば、パターン認識から知られる音声モデリング技術を、P(T)のモデリングに使用することができる。

得点付けされたｎベストリストの形または単語グラフの形によるパターン認識結果の計算、および人手により書き起こされたテキストとの組み合わせにおいて、ｎベストリストの再得点化の実行または人手により書き起こされたテキストを用いた単語グラフが従属項４に記載されている。これにより、例えば、ｎベストリストの各選択肢と人手により書き起こされたテキストの間にどのくらい大きな隔たりがあるかについての評価を行うことができる。例えば、選択肢を人手による書き起こしと一致させるために省略され、補足され、または置換されるべきキーストロークの数をカウントする。さらに、省略、補足、置換の過程は別の方法で得点付けされてもよい。再度得点付けするため、これらの得点の合計を別の選択肢のパターン認識得点とともに要約する。確率モデルが確率の対数として入手可能なとき、得点の合計がその要約のために使用される。しかし、他の選択肢も考え得る。

人手により書き起こされたテキストおよびパターン認識結果の組み合わせの設計についてのさらなる選択肢を、エキスパートは考え得るであろう。特に、すでに触れた米国特許第5,855,000号を挙げておく。これは本出願に援用されている。

人手による書起こし、パターン認識、および人手により書き起こされたテキストとパターン認識結果の組み合わせは、話されたおよび／または書かれたことばの書き起こしのためのシステム全体の構成要素である。システム設計によって、これらの構成要素はひとつの結合装置に実装されてもよいし、個別の装置に実装されてもよい。例えば、請求項９に記載したように、パターン認識を専用サーバで実行し、その結果を支援として対応するステーションで人手による書き起こしをしてもよい。両方を専用サーバで実行することも可能である。しかし、パターン認識は、請求項２に記載したように、人手により書き起こされたテキストを斟酌することもできる。人手による書き起こし、パターン認識、およびその組み合わせを単一のステーションで実行してもよい。

パターン認識の後に人手による書き起こしをする構成は、例えば、認識品質の信頼性ゲージのような、実行されたパターン認識の品質のものさしを人間の書き起こし者に示す選択肢を規定する。書き起こし者はこのゲージに自分の書き起こしスタイルを合わせることができる。パターン認識結果が信頼できない場合、書き起こし者はより注意深く書き起こすことがきる。パターン認識品質が高い場合、書き起こし者はいくつかのエラーやキーストロークの省略または置換を許容することができる。パターン認識結果が人手による書き起こしにまだ使えない構成においては、例えばことばの信号雑音比等の、同様の情報能力をもつ他の変数によりこの品質ゲージを代替することができる。

本発明による書き起こし方法は、従来の方法と組み合わせることもできる。例えば、パターン認識結果が入手可能なとき、従来の技術により高品質の書き起こしが可能である。すなわち、書き起こし者にパターン認識結果を示し、それを修正させることが可能である。この種の表現において、低品質の部分は白いエリアとして表示され、書き起こし者が自由に、すなわち制限なく、書き起こすことができる。人手によるテキストは、本発明による方法でパターン認識結果と組み合わせられる。

放射線医師の観察記録等の話されたことばの書き起こしのための上述のアプリケーションに加えて、さらに他のアプリケーションも考えることができる。請求項１１において、SMS（Short Message Service、例えばGSMモバイルテレフォニー）通信およびビデオサブタイトルの生成が特に言及されている。

例えば、SMSは、携帯電話でテキストを話し、キーパッドでテキストを入力することにより生成することができる。ここでは、タイプライターのキーボードと比較して小型の電話のキーパッドで曖昧さ無しに文字を入力するのは、意味がない。そこで、標準的な携帯電話のキーパッドで、例えば、ドイツ語の単語「dein」（英語の「your」）を数字のシーケンス「３、３、４、６」と入力し、可能な文字のシーケンス「[d,e,f][d,e,f][g,h,i][m,n,o]」から単語「dein」の正確な選択を、音声認識結果との組み合わせに残せば十分である。タッチスクリーンとテキスト入力を備えた携帯電話を持っていれば、キーパッドを使わずに手書きすることももちろんできる。

本発明による方法は、ビデオフィルムのサブタイトル付けに用いることもできる。ここで再度、必要となるのは話されたことばの書き起こしである。同様に、テレビまたはラジオ放送をテキストに変換し、そのテキストをテキストデータベースに、例えば、検索のために記憶することもできる。バックグラウンドノイズ若しくはバックグラウンド音楽、または音楽若しくはフィルムノイズ等の純粋に音声でないぱっセージを取り扱うために、必要なら、例えば非線形スベクトル差分またはセグメンテーション法などのエキスパートに知られた適当な音声認識技術をしようすることができる。

図面に示された実施形態を参照して本発明を詳細に説明する。しかし、本発明はこれらの実施形態に限定されるものではない。

図１ａは概略的に単語グラフの形で、ドイツ語の話されたことば「Es liegt kein Gehirntumor vor」（英語で「There is no brain tumor present」）の音声認識の結果ＭＥを示す。この図において、時間は右に進み、単語グラフＭＥのノードは音声信号の瞬間をマークしている。ノード間の矢印はノードの瞬間の間に位置する信号セクションの認識の選択肢を示す。図１ａにおいては、明瞭にするため、ノード１と２、およびその間の矢印５と６だけに参照番号を付した。矢印には、各場合に認識された単語を言語に依存しない仕方で示す記号、すなわち１００以上の数字が付されている。次の表は、これらの番号と、認識されたドイツ語の単語、およびそのドイツ語の単語の英語による翻訳が与える。

よって、例えば、矢印５には認識されたドイツ語「liegt」（英語のis）を示す記号１０６があり、矢印６にはドイツ語「luegt」（英語のlies（a liar liesの意味で））を示す記号１０２がある。

これが得点付けされた単語グラフMEであるとき、認識された単語を示す記号に加えて、矢印には得点が付される。その得点は、通常の実務と調和して、得点が低いものが好ましい認識の選択肢を示す。図１ａにおいて、この得点は、矢印５と６だけに付けられており、矢印５の得点は「４０」、矢印６の得点は「５０」である。ここで、図１ａの得点は、話されたことばの関連付けられた瞬間で各場合に認識された単語の音声的類似度のみに関係する。すなわち、この得点は上述の式において音声得点P(O|T)に対応する。

認識された選択肢は、単語グラフMEのすべての可能な経路が決定されるこの種の単語グラフMEから導かれる。すなわち、グラフMEの左側からスタートして、右側へすべての可能な矢印を通る。実際に話されたドイツ語のセンテンス「Es liegt kein Gehirntumor vor」（英語のThere is no brain tumor present）に加えて、グラフMEは選択肢「Es luegt enge Hirntumoren」（There lies narrow brain tumors）もつくる。最もよい認識の選択肢は、得点が最も低いものである。この得点は、音声的類似度の得点とさらなる情報源を用いた得点の合計から導かれる。この情報源は、例えば上述の式の変数P(T)に対応するスピーチモデルである。

この後者の認識の選択肢「Es luegt enge Hirntumoren」は明らかに意味がなく、スピーチモデルによる得点は低いであろうが、例えば、バックグラウンドノイズのレベルが高いなど、アコースティック得点が大きく歪められているわずかな場合にのみ、最良の認識の選択肢として選択されるであろう。しかし、グラフMEに含まれている選択肢「Es liegt ein Gehirntumor vor」（英語のThere is a brain tumor present）は、すなわち、「kein」（英語のno/none）ではなく「ein」（英語のa/one）、音声的にもスピーチモデルを用いても、実際に話された単語のシーケンスとははっきりと区別できない。一方、「ein」と「kein」の違いは、すなわち脳腫瘍の有無は、このセンテンスの決定的な情報を当然表している。

図１ｂは、同一の話されたことばの可能な人手による書き起こしを示す。ここで、再度、音声認識結果のつながりを明瞭にするために選択された表現の形式は単語グラフである。この単語グラフはもちろん線形であり、すなわち１つの経路のみを有する。明瞭にするため、図１ｂにはノード１０と１１、および矢印１５のみが示されている。単語グラフの矢印に付した記号は、言語から独立した仕方で、書き起こしのドイツ語の単語を表す。次の表は、これらの記号とドイツ語、およびこれらの単語がどのようにタイプされたかの備考を示している。

例として、この人手による書き起こしの加速された作業方法から生じる結果を示す。２つのドイツ語の単語で「タイピングエラー」が起きている。「ligt」、すなわちドイツ語「liegt」（英語のis）の人手による書き起こしにおいて、「e」のキーストロークが省略されている。「keim」、すなわちドイツ語「kein」（英語のno）の人手による書き起こしにおいてタイピングエラーがあり（人手により修正されていない）、「n」が「m」となっている。「gdhkfhgjjlf」（ドイツ語「Gehirntumor」（英語のbrain tumor）でなく）において、レストポジションにある列のキーだけを使用するという指示が厳しく守られている（その結果、大文字も使用されていない）。「G」は「g」に、「e」は「d」に、「i」は「k」に、「r」は「f」に、「n」は「h」に、「t」は「g」に、「u」と「m」は「j」に、「o」は「l」になっている。

ここでは示さないが、この人手による書き起こしMTは、知られた仕方により、例えば図１ａの単語グラフMEの再得点付け等に使用可能である。この種の再得点付けにおいて、タイピング時に文字の追加は、キーボードのすぐ隣の間違ったキーをたたくことよりも確からしくはないという事実を参酌することができる。それゆえ、「keim」は「ein」（英語のa）よりも「kein」（英語のno）とよりよく一致する。同様に、キーストロークの省略は、「ue」を「ie」で置き換えること、すなわち異なる指で叩くキーを叩くことよりも確からしい。その結果、「ligt」は「luegt」（英語のlies）よりも「liegt」（英語のis）とよりよく一致する。この例における人手による書き起こしMTのパターン認識結果との組み合わせは、「kein」（英語のno）を「ein」（英語のa）から区別し、正しいドイツ語のフレーズ「Es liegt kein Gehirntumor vor」（英語のThere is no brain tumor present）を生成するという異なった目的を達成する。

図２は、話されたことばの、音声認識により支援された人手による書き起こしのための本発明による装置を示す。データ記憶装置２１、マイクロホン２２、ラウドスピーカ２３、キーボード２５、フットスイッチ２６、および画面２７が処理部２０と接続されている。話されたことばは、マイクロホン２２を介してデータ記憶部２１にオーディオファイルとして直接記録および記憶される。これとは別に、話されたことばは、図示しないデータ担体を介して、または電話ネットワークまたはインターネットなどのネットワークを介して、処理部２０に転送することもできる。ラウドスピーカ２３は、人手による書き起こしのために話されたことばを再生するために使用される。例えば、マイクロホン２２とラウドスピーカ２３の代わりに、ヘッドセットを使用してもよい。

処理部２０は、話されたことばの音声認識を実行でき、その認識結果をデータ記憶部２１に記憶させる。ネットワークを介してこの認識結果を受信することもできる。キーボード２５は、フットスイッチ２６とともに人手による書き起こしを入力するために使用され、画面２７は、人手により入力されたテキストおよび人手による入力を音声認識結果と組み合わせることにより示唆された単語またはその完成を表示するために使用される。

画面２７は、話されたドイツ語のことば「Es liegt kein Gehirntumor vor」（英語でThere is no brain tumor present）において、「Es liegt k」を含むテキスト３０が事前に人手で入力されていた状況を示している。音声認識結果が図１ａに示した単語グラフの形式でデータ記憶部２１に記憶されている。この音声認識結果との組み合わせにより、例えば、処理部２０が「ein Gehirntumor vor」を内容とするテキストのつづき３１を示唆する。このつづき３１はこの単語グラフME内で明らかであり、ドイツ語のテキスト「Es liegt kein Gehirntumor vor」が画面上に現れる。人手により入力されたテキスト３０からつづきの示唆３１を区別するため、異なった方法で表示される。ここでは、例えば反転して、すなわち、黒いバックグラウンドに白い文字で表示されている。フットスイッチ２６を操作することにより、人間の書き起こし者はこのテキストのつづき３１を受け入れることができる。このつづき３１に合意しないときは、キーボード２５をタイピングし続ければよい。

再度、図２の言語から独立した表現をするため、図１ａで使用した記号が再度使用されている。すなわち、テキスト３０は記号シーケンス「１０５１０６１」で、テキスト３１は「０７１０８１０９」で示されている。上で導入した対応を使用しており、関係する部分をここに繰り返す。

すでに述べたとおり、図２において、「kein」の「k」はタイプされたテキスト３０の最後の部分として入力され、「kein」の「ein」は提案されたタイピングのつづき３１の最初の部分として提案されたと仮定している。図２において、テキスト３０の最後の部分として記号１０７の「１」を、テキスト３１の最初の部分として記号１０７の「０７」を示すことによりこの状況を表している。

人間の書き起こし者がテキストのつづき３１を、例えばタイピングを継続することにより拒絶したとき、音声認識結果が入力された人手による書き起こしとコンパチブルな経路をもはや含まないことがある。図１ａの単語グラフMEを音声認識結果の基礎とするが、話されたことばはドイツ語のセンテンス「Es liegt keine hirnbluetung vor」（英語でThere is no cerebral hemorrhage present）であると仮定しよう。処理部２０は、先の人手による書き起こしは音声認識結果MEと組み合わせることがもはやできないことを認識し、適当な修正手続きを開始することができる。例えば、話されたことばの新しい音声認識を先と後の人手による入力とさらに組み合わせるために、その新しい音声認識を開始することを検討することにより先の人手による入力を使用することができる。

話されたことばの音声認識結果と人手により作られたテキストを示す図である。話されたことばの音声認識結果と人手により作られたテキストを示す図である。本発明による、話されたことばの音声認識に支援された人手による書き起こしのための装置を示す図である。

Claims

話されたことばの人手で書き起こされたテキストと音声認識結果とがあり、前記人手で書き起こされたテキストと前記音声認識結果とを組み合わせることにより、前記話されたことばを書き起こす方法。
人手で書き起こされたテキストがある話されたことばを書き起こす方法であって、前記方法は、
前記人手で書き起こされたテキストを斟酌して、前記話されたことばの音声認識をするステップと、
前記人手で書き起こされたテキストと前記音声認識結果の組み合わせにより、または書き起こしのための前記音声認識結果の採用により、前記話されたことばの書き起こしを生成するステップとを含む方法。
請求項１または２に記載の方法であって、
前記人手で書き起こされたテキストと前記音声認識結果とを組み合わせることは、人手による書き起こしおよび音声認識の過程の確率的モデルにより、最も確からしい前記話されたことばの書き起こしを決定することからなることを特徴とする方法。
請求項１または２に記載の方法であって、
前記音声認識結果は得点付けされたNベストリストまたは得点付けされた単語グラフであり、
前記人手で書き起こされたテキストと前記音声認識結果との組み合わせは、前記人手で書き起こされたテキストを斟酌した前記Nベストリストまたは前記単語グラフの再得点付けにあることを特徴とする方法。
請求項２に記載の方法であって、
前記話されたことばの音声認識における前記人手で書き起こされたテキストの斟酌は、前記音声認識の語彙および／またはモデルを選択することにあることを特徴とする方法。
請求項１または２に記載の方法であって、
前記人手で書き起こされたテキストは、手書きの形式でおよび／または速記の形式であることを特徴とする方法。
請求項１または２に記載の方法であって、
前記人手で書き起こされたテキストは、一般に適用可能な人手による書き起こしの生成と比較して指および／または手の動きの程度を削減するために、キーストロークの省略および／または異なるキーを叩くことにより、そのテキストの生成に要する時間を短縮するようにキーボード入力により生成されたものであることを特徴とする方法。
音声認識結果がある話されたことばを書き起こす装置であって、
前記話されたことばの人手による書き起こしのための手段と、
前記人手で書き起こされたテキストと前記音声認識結果とを組み合わせることにより、前記話されたことばの書き起こしを生成するための手段とを含む装置。
音声認識結果がある話されたことばを音声認識支援を受けて人手で書き起こす装置であって、
前記話されたことばの人手による書き起こしの連続的な入力のための手段と、
前記人手による入力と前記音声認識結果の連続的組み合わせのための手段と、
前記連続的組み合わせおよび前記音声認識結果によって予測される程度まで、テキスト入力を続けることを示唆するための手段と、
前記示唆されたテキストの継続を受け入れるかまたは拒絶するための手段とを含む装置。
書かれたことばの人手で書き起こされたテキストとテキスト認識結果とがあり、前記人手で書き起こされたテキストと前記テキスト認識結果とを組み合わせることにより、前記書かれたことばを書き起こす方法。
SMS通信またはビデオの副題の生成をするための、請求項１ないし７いずれか一項記載の方法の使用。