JP2006243575A

JP2006243575A - 音声書き起こし支援装置およびその方法ならびにプログラム

Info

Publication number: JP2006243575A
Application number: JP2005061955A
Authority: JP
Inventors: Takafumi Koshinaka; 孝文越仲; Akitoshi Okumura; 明俊奥村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-03-07
Filing date: 2005-03-07
Publication date: 2006-09-14
Anticipated expiration: 2025-03-07
Also published as: JP4736478B2

Abstract

【課題】音声認識結果に含まれる認識誤りを正確に検出し、検出箇所を修正あるいは修正案を修正作業者に提示することにより、修正作業者の負担を軽減できる音声書き起こし支援装置を提供する。
【解決手段】入力音声の認識結果に対して、修正作業者が認識誤りを発見した際に、これを修正するために正しい文字列を入力する修正事例教示手段104と、認識誤りに対する正しい文字列と、認識誤りに対応する箇所の音声信号とを対にした誤り事例を生成する事例パタン生成手段107と、誤り事例に含まれる音声信号と類似した音声区間を入力音声から検出する類似パタン検出手段106と、類似パタン検出手段106が検出した音声区間に対応する認識結果を、正しい文字列に置き換える認識結果修正手段105とを備え、過去の認識誤り事例と音声信号が類似する区間を検出して、その区間に対応する認識結果を正しい文字列に置き換えるよう動作する。
【選択図】図1

Description

本発明は音声書き起こし支援装置およびその方法に関し、特に、音声波形を認識し、その結果得られる認識結果に含まれる認識誤りを自動または半自動的に修正することによりテキスト化を行う音声書き起こし支援装置およびその方法に関する。

従来の音声書き起こし支援装置の一例が、特許文献1、特許文献2に記載されている。図14に示すように、この従来の音声書き起こし支援装置は、音声認識手段1402と、提示手段1403と、操作手段1404と、エラーパタン記憶手段1406と、判定手段1407とから構成されている。

このような構成を有する従来の音声書き起こし支援装置はつぎのように動作する。

すなわち、音声認識手段1402によって音声入力1401がテキスト化された際に、修正作業者は操作手段1404および提示手段1403を介して認識誤りを修正する。このときの動作の流れを、例を用いて説明する。

例えば、音声認識手段1402が生成した音声認識結果に、「(正)勧告→(誤)韓国」なる誤りがあり、修正作業者がこれを発見し、操作手段1404を介して「(誤)韓国→(正)勧告」という修正を行ったとする。このとき、修正内容であるところの誤った文字列と正しい文字列の対、すなわちエラーパタン「(誤)韓国→(正)勧告」は、エラーパタン記憶手段1406に事例として記憶される。一度エラーパタンが記憶されれば、以降に同様の認識誤りが発生したとしても、判定手段1407が音声認識手段1402の出力から当該文字列、この場合は「韓国」を検出し、提示手段1403を介して、修正作業者に認識誤りの可能性があることを通知する。修正作業者は、通知された箇所が本当に認識誤りであるかどうかを確認し、認識誤りであれば操作手段1404から修正の操作を行う。

また、従来の音声書き起こし支援装置の別の一例が、特許文献3に記載されている。図15に示すように、この従来の音声書き起こし支援装置は、音声認識手段1402と、提示手段1403と、操作手段1404と、音韻系列抽出手段1501と、エラーパタン記憶手段1406と、判定手段1407とから構成されている。この例にある音声書き起こし支援装置は、図14の従来例と同様の動作をするが、音韻系列抽出手段1501を備えることにより、エラーパタン記憶手段1406に記憶するエラーパタンを、音韻系列という形式で保持する点に特徴がある。ここで音韻系列とは、音声を、音声を構成する最小単位としての音素記号a, i, u, e, o, k, s, t, n, …の並びで表した記号列のことである。この従来例ではまた、隠れマルコフモデル(HMM)の状態と呼ばれる、音素をその内部構造に基づいてさらに細分化した単位によって記号表現したような形式で、エラーパタンを保持することも可能との記載がある。
特開2000-339412号公報 (第4頁、図2) 特開平10-063295号公報 (第6頁、図1) 特開平8-171396号公報 (第9頁、図1)

第1の問題点は、修正作業を真に効率化するためには、エラーパタンすなわち認識誤りの事例が大量に蓄積されねばならない、ということである。

その理由は、音声認識手段が一定の認識誤りをくり返すという保証がないためである。特許文献1および特許文献2に記載の従来技術は、上述したような、勧告/韓国のような同音異義語に関する認識誤りに対しては、ある程度効果があると考えられる。しかしながらそのような認識誤りは、音声認識手段が生ずる多種多様な認識誤りのうちの、ごくわずかの部分を占めるに過ぎない。さらには、音声認識手段が単純な離散単語認識を行うのではなく、大語彙連続音声認識を行うような場合は、誤りは連続する複数個の単語にまたがって起こり得るため、誤りのパタンはよりいっそう多岐にわたる。図16は、認識誤りの多様性についての具体例を示す図であるが、「ＨＴＭＬ」という語から、幾種類もの認識結果が生じ得ることが明らかである。このような状況では、誤った文字列と正しい文字列の対というような形式でエラーパタンすなわち事例を記憶・蓄積しても、以後その事例が活用される可能性は低く、場合によっては事例の記憶・蓄積にかかる手間が無視できないほど肥大化するため、認識誤りの修正作業効率化という当初の目的を達成することは困難である。

一方、特許文献3に記載の従来技術は、同音異義語に関する誤り以外の、音韻的な誤りを検出、修正することに関してある程度の効果があるが、音素記号の系列でエラーパタンを保持する以上、多種多様な認識誤りに対応するためには、やはり膨大な事例が必要である。

第2の問題点は、音声認識の対象となる音声の話者や雑音環境の変動に対する頑健性が乏しい、ということである。

その理由は、エラーパタンすなわち事例を文字列あるいはそれに準ずる記号列のレベルまで落として記憶するためである。誤った文字列と正しい文字列の対という形式で認識誤りの事例を記憶する場合、その認識誤りがどのような話者により、どのような雑音環境下で発声されたものなのかが一切記録に残らない。しかしながら、話者や雑音環境に関する情報が、認識誤りの発生頻度や傾向を左右する大きな要因であることは周知の事実である。従来技術のように、話者や雑音環境に関する情報を考慮しない場合、実際に起こっている認識誤りを検出できない、あるいは、正しく認識されている箇所を認識誤りとして検出する、といった好ましくない動作が起こるため、認識誤りの修正作業を効率的に行うという目的を達成する際の困難となり得る。

本発明の目的は、音声認識手段を用いて音声をテキスト化する際に、音声認識結果に含まれる認識誤りを正確に検出し、検出箇所を修正あるいは修正案を修正作業者に提示することにより、修正作業者の負担を軽減できる音声書き起こし支援装置を提供することにある。

本発明の第1の音声書き起こし支援装置は、音声信号を記憶する音声信号記憶手段(図1の102)と、前記音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段(図1の103)と、修正作業者から認識結果の修正指示を受け付けて修正を実行する修正事例教示手段(図1の104)と、前記修正事例教示手段が受け付けた修正指示から、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成する事例パタン生成手段(図1の107)と、前記該当誤り箇所の音声信号を用いて前記音声信号記憶手段に記憶された音声信号から音声信号的に類似した箇所を検出する類似パタン検出手段(図1の106)と、前記類似した箇所に対応する認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促す認識結果修正手段(図1の105)とを備えたことを特徴とする。

本発明の第2の音声書き起こし支援装置は、第1の音声書き起こし支援装置において、前記類似パタン検出手段が音声信号間の類似度を判定する際に使用する閾値を、類似度計算対象の音声信号に応じて変更する検出パラメータ制御手段(図11の1101)を備えたことを特徴とする。

本発明の第3の音声書き起こし支援装置は、第2の音声書き起こし支援装置において、音声信号間の話者あるいは雑音環境に関する類似度を計算する話者・環境類似度計算手段(図11の1102）を備え、前記検出パラメータ制御手段は、前記話者・環境類似度計算手段が出力する音声信号間の話者あるいは雑音環境に関する類似度を用いて、前記閾値を変更するものであることを特徴とする。

本発明の第4の音声書き起こし支援装置は、第1の音声書き起こし支援装置において、不特定話者の音声標準パタンを記憶する標準パタン記憶手段(図9の901)を備え、前記事例パタン生成手段は、前記誤り箇所の音声信号と前記修正後文字列に対応する前記不特定話者の音声標準パタンとを足し合わせたパタンを該当誤り箇所の音声信号として有する事例パタンを生成するものであることを特徴とする。

本発明の第5の音声書き起こし支援装置は、第4の音声書き起こし支援装置において、前記標準パタン記憶手段が過去の修正事例を用いた話者・環境適応化により、前記音声標準パタンを随時更新することを特徴とする。

本発明の音声書き起こし支援方法は、修正事例教示手段が、修正作業者から認識結果の修正指示を受け付けて記憶部に記憶し、かつ、音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段に対して修正を実行するステップと、事例パタン生成手段が、前記記憶部に記憶された修正指示を読み出し、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成して前記記憶部に記憶するステップと、類似パタン検出手段が、前記記憶部に記憶された修正事例中の該当誤り箇所の音声信号と音声信号的に類似した箇所を前記音声信号記憶手段に記憶された音声信号から検出し、検出結果を前記記憶部に記憶するステップと、認識結果修正手段が、前記記憶部に記憶された検出結果を読み出し、類似した箇所に対応する前記認識結果記憶手段中の認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促すステップとを含むことを特徴とする。

『作用』
本発明にあっては、音声信号記憶手段がテキスト化しようとする入力音声を記憶すると共に、認識結果記憶手段が何らかの音声認識手段によって前記入力音声を認識した結果を記憶し、修正作業者が前記認識結果中の認識誤りを発見した際に、修正事例教示手段が認識誤りを修正するための正しい文字列を修正作業者から入力して修正を行うと共に、事例パタン生成手段が前記認識誤りに対する正しい文字列と認識誤りに対応する部分の音声信号とを対にした誤り事例を生成する。そして、類似パタン検出手段が、前記誤り事例に含まれる音声信号と類似した音声区間を前記音声信号記憶手段に記憶された音声信号から検出し、認識結果修正手段が、前記類似パタン検出手段が検出した音声区間に対応する認識結果を、正しい文字列に置き換える、もしくは正しい文字列に置き換えるかどうか修正作業者に確認する。これによって、過去の認識誤り事例と音声信号が類似する区間が自動的に検出され、その区間に対応する認識結果が正しい文字列に置き換えられる。

また、類似性を測る2つの音声信号間の話者や雑音環境の類似性を計算する話者・環境類似度計算手段において2つの音声信号間の話者や雑音環境の類似性が高いと判断された場合は、類似パタン検出手段において類似パタンが検出されやすくなるように、検出パラメータ制御手段が閾値を小さくし、逆に2つの音声信号間の話者や雑音環境の類似性が低いと判断された場合は、類似パタン検出手段において類似パタンが検出されにくくなるように、検出パラメータ制御手段が閾値を大きくする。これにより、音声信号の大小や形状に基づく類似性に加えて、話者や雑音環境の類似性も勘案して誤り箇所が検出される。

本発明によれば、認識誤りの多様性に応じて膨大な数となる認識誤り事例を準備しなくても、認識誤りを効率的に検出し、修正できる、もしくは修正候補として修正作業者に提示できる効果がある。

その理由は、認識誤りを生じた部分の音声信号データを認識誤り事例として事例パタン生成手段が生成し、なおかつ類似パタン検出手段が前記音声信号データをテキスト化対象音声信号と比較して類似箇所を検出することにより、音声信号レベルで真に事例と類似した認識誤りを正確に検出することが可能となるためである。

次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。

図1を参照すると、本発明の第1の実施の形態にかかる音声書き起こし支援装置は、テキスト化対象となる音声信号を記憶する音声信号記憶手段102と、テキスト化対象となる音声信号に対して音声認識手段101による音声認識処理を施した結果を記憶する認識結果記憶手段103と、作業者が認識誤りを発見して修正指示を出すための修正事例教示手段104と、修正指示から認識誤り事例としての事例パタンを生成する事例パタン生成手段107と、生成された事例パタンが示す認識誤り事例と類似する箇所を音声信号記憶手段102に記憶される音声信号から1個ないし複数個検出する類似パタン検出手段106と、類似パタン検出手段106が検出した箇所に対して認識誤りの修正を行う、もしくは認識誤り候補として作業者に提示し、確認を求める認識結果修正手段105とから構成されている。

これらの手段は、それぞれ概略次のように動作する。

音声信号記憶手段102は、磁気ディスク装置や半導体メモリ等の記憶装置で構成され、テキスト化対象である音声信号を記憶する。音声信号は、例えば、アナログの音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング値を所定ビットのビット列でデジタル化したものである。先頭のサンプリング値の時刻を基準時刻とすると、後の任意のサンプリング値の時刻はサンプリング周波数とサンプル数とによって一意に決定される。

音声認識手段101は、音声信号記憶手段102から音声信号を読み出して周知の音声認識処理を行い、認識結果を認識結果記憶手段103に書き込む。この際、音声認識手段101は、認識結果そのものであるテキストデータ、すなわち文字列だけでなく、その認識結果と音声信号を対応付けるための時刻情報を付随して出力する。この時刻情報は、認識結果文字列の各単語、または各音節、または各音素について、その始終端時刻を十分な精度、例えばミリ秒単位で特定するためのものである。

例えば、図2(a)に示す波形が音声信号記憶手段102に記憶された音声信号で、その音声信号に対する音声認識手段101の認識結果が「ことしのほうじんきぎょうとうせいによりますと…」であったとし、先頭の「こ」が、音声信号の先頭の時刻をt0として、時刻t1〜t2間の音声信号に対する認識結果であった場合、「こ」の認識結果に付随して時刻情報t1〜t2を出力し、認識結果記憶手段103に書き込む。次の認識結果「と」以降の各音節についても同様である。上記の例では、認識結果文字列の音節ごとの時刻情報を記憶したが、単位の取り方には幾つかの選択肢があり、例えば図2(b)に示すように単語ごとに時刻情報を記憶するようにしてもよい。なお、一般に音声認識手段101は、かな漢字まじりで表記された単語とその発音を対にした辞書を備えているので、音節ごとに時刻情報を出すことも、単語ごとに時刻情報を出すことも可能である。

認識結果記憶手段103は、磁気ディスク装置や半導体メモリ等の記憶装置で構成され、音声認識手段101が音声信号に認識処理を施した結果得られる認識結果およびそれに付随する時刻情報を記憶する。

修正事例教示手段104は、認識誤りを修正する作業者が、認識結果に誤りを見つけた際にその誤りを修正するための、システムとのインタフェースである。修正事例教示手段104は、例えばコンピュータ上で動作するGUIプログラムであって、認識結果文字列を表示する表示部と、作業者がキーボードなどによって文字列を入力することができる入力部とを有し、表示部では、表示された文字列の任意の範囲（ここでは、作業者が認識誤りと判断した範囲）をマウス操作などにより指定でき、かつ、指定された範囲を入力部から入力した文字列に置換することができるようになっている。修正事例教示手段104が表示装置の画面に表示する画面の一例を図3に示す。

図3の画面上において、再生ボタン301をオンすると、修正事例教示手段104は、音声信号記憶手段102に記憶された音声信号を読み出して再生し、図示しないスピーカから再生した音声を出力すると同時に、この音声出力と同期して、再生中の音声信号の認識結果を認識結果記憶手段103から読み出して認識結果表示部302に表示する。停止ボタン303は音声再生の停止を指示するボタン、巻き戻しボタン304は巻き戻しを指示するボタン、ボリューム調整スライダ305は再生音量の調整用である。また、表示部302に表示された認識結果文字列の任意の範囲はカーソルなどによって指定することができ、入力部306に文字列を入力して置換ボタン307をオンすれば、修正事例教示手段104が、表示部302上において指定された範囲の認識結果部分を入力部306に入力された文字列に置換すると同時に、認識結果記憶手段103に記憶された認識結果も同様に更新する。図3の例では、認識結果「統制」を「統計」に修正している場面を示す。なお、修正事例教示手段104は、削除ボタン308がオンされると、表示部302上で範囲指定された認識結果部分を認識結果記憶手段103から削除し、挿入ボタン309がオンされると、入力部306に入力された文字列を表示部302上で指定された箇所に挿入するように認識結果記憶手段103の認識結果を更新する。

事例パタン生成手段107は、修正事例教示手段104から、作業者の操作内容に関して情報を受け取り、修正事例パタンを生成して記憶する。ここで、修正事例パタンは、本実施の形態の場合、修正後の正しい文字列とこの文字列に対応する音声信号(短時間音声信号)との組である。

図4を参照すると、事例パタン生成手段107は、記憶部401、第1入力部402、第2入力部403および出力部404で構成される。第1入力部402は、修正事例教示手段104から、修正後の正しい文字列405とこの文字列で置換される認識結果文字列の始終端時刻情報406を受け取り、記憶部401に記憶する。例えば図2および図3の例において、作業者によって認識結果中の「統制」が「統計」に置換された場合、修正事例教示手段104は、表示部306に表示されている「統計」を正しい文字列405として、置き換え対象となる「統制」に対応する音声信号の始終端時刻t13-t17を始終端時刻情報406として事例パタン生成手段107へ出力し、第1入力部402はこれらを記憶部401に記憶する。第2入力部403は、記憶部410から始終端時刻情報406を読み出し、音声信号記憶手段102から始終端時刻情報406で示される範囲の音声信号を短時間音声信号407として読み出し、記憶部401へ記憶する。出力部404は、記憶部401から正しい文字列405と短時間音声信号407とを読み出し、それらを含む事例パタン408を作成して、記憶部401へ記憶する。

類似パタン検出手段106は、事例パタン生成手段107で生成された事例パタンに含まれる短時間音声信号と音声信号記憶手段102に記憶された音声信号の各部分とを比較し、短時間音声信号と類似する箇所を音声信号記憶手段102の音声信号の中から検出し、その検出結果を記憶する。

図5を参照すると、類似パタン検出手段106は、記憶部501、第1入力部502、第2入力部503および区間決定部504で構成される。第1入力部502は、事例パタン生成手段107の記憶部401から事例パタン408を読み出し、事例パタン505として記憶部501に記憶する。第2入力部503は、事例パタン505中の短時間音声信号と比較するための音声信号506を音声信号記憶手段102から読み出し、記憶部501に記憶する。区間決定部504は、記憶部501から事例パタン505中の短時間音声信号と音声信号506とを読み出し、音声信号506上の或る時刻tsから或る時刻teまでの区間に対応する部分音声信号を切り出し、公知のDPマッチング法などの方法を用いて、部分音声信号と短時間音声信号との類似度(距離)を計算し、計算した類似度が記憶部501に予め記憶されている閾値以上であれば、今回の時刻tsと時刻teとの組を区間情報(ts,te)として、記憶部501の区間情報リスト508に出力する。区間決定部504は、あらゆる時刻tsおよび時刻teの組み合わせについて、上記一連の処理を反復し、類似度が閾値以下となるような区間情報(ts,te)を区間情報リスト508に順次出力する。

認識結果修正手段105は、類似パタン検出手段106が検出した、音声信号記憶手段102に記憶された音声信号上の1個または複数個の箇所について、認識誤りが生じている箇所として、事例パタンに含まれる正しい文字列をもって、認識結果文字列の該当箇所を置き換える。あるいは、認識誤りが生じている可能性の高い箇所として、修正作業者にその箇所を提示し、認識結果の確認および修正を促す。

図6を参照すると、認識結果修正手段105は、記憶部601、第1入力部602、第2入力部603、修正案提示部604および区間変換部605で構成される。第1入力部602は、類似パタン検出手段106の記憶部501から事例パタン505中の正しい文字列と区間情報リスト508を読み出し、事例パタンの文字列606および区間情報リスト607として記憶部601に記憶する。以下、区間情報リスト607に記録されている個々の区間情報ごとに以下のような処理が繰り返される。

第2入力部603は、区間情報リスト607から1つの区間情報(ts,te)を読み出し、この区間情報に対応する音声信号の認識結果とその前後の認識結果とを含む認識結果文字列608を認識結果記憶手段103から検索して記憶部601に記憶する。このとき、マークを付ける等により区間情報に対応する音声信号の認識結果とその前後の認識結果とを明確に区別して記憶する。次に修正案提示部604は、記憶部601から認識結果文字列608および事例パタンの文字列606を読み出し、図示しない表示装置の画面に両者を表示して、認識結果文字列608中の当該区間情報に対応する音声信号の認識結果を、事例パタンの文字列606に修正するかどうかを修正作業者に問い合わせる。このときの表示画面は修正事例教示手段104の表示する図3の画面と兼用することもできる。すなわち、図3の表示部302に認識結果文字列608を表示し、入力部306に事例パタンの文字列606を表示し、置換ボタン307がオンされた場合に修正を行い、他のボタン、例えば再生ボタン301がオンされたら修正不要の指示があったものと見做して、次の区間情報の処理に進む。

修正作業者から修正する旨の指示があった場合には、修正案提示部604は修正指示を区間変換部605に出す。区間変換部605は、記憶部601から事例パタンの文字列606および区間情報リスト607中の今回の区間情報(ts,te)を読み出し、認識結果記憶手段103に記憶されている認識結果のうち当該区間情報(ts,te)に対応する文字列を、事例パタンの文字列606に書き換える。そして、今回の区間情報に関する処理を終える。

なお、修正作業者による確認手順を省略する形態も可能であり、その場合には第2入力部603および修正案提示部604が省略され、区間変換部605は、区間情報リスト607に記録された区間情報毎に、認識結果記憶手段103に記憶されている認識結果のうち当該区間情報(ts,te)に対応する文字列を、事例パタンの文字列606に書き換える。

次に、図1のブロック図、図7の概念図および図8の流れ図を参照して、本実施の形態の全体の動作について詳細に説明する。

まず、音声信号記憶手段102に格納された音声信号は、音声認識手段101によって音声認識処理を施され、結果として得られる認識結果は、音声信号と対応付けるための時刻情報が付加されて認識結果記憶手段103に記憶される(図8の801および802)。

作業者は、修正事例教示手段104により、音声信号記憶手段102に記憶された音声信号を再生し、図3の画面の表示部302に表示される認識結果記憶手段103に記憶された認識結果と照合し、認識誤りの有無を調べる。そして認識誤りを発見した場合には、修正事例教示手段104を通じて、正しい文字列への修正を行う(図7の［A］、および図8の803、804)。このとき、作業者から図3の入力部306に入力された正しい文字列は、認識誤りの修正事例を作成するために修正箇所の始終端時刻の情報と共に事例パタン生成手段107に送られ、事例パタン生成手段107が、始終端時刻を元に音声信号記憶手段102から短時間音声信号を読み出し、前記正しい文字列と組み合わせて修正事例パタンを作成し保持する(図7の［B］、および図8の805、806)。

ここでは、修正事例は認識結果の修正後の正しい文字列と修正箇所に対応する短時間音声信号のデータ系列であるとしたが、短時間音声信号のデータ系列の代わりに、これに対応する元の長時間音声信号上の始終端時刻情報を保持しておいて、後のステップで時刻情報から音声信号データ系列を取得してもよい。また、音声信号のデータ形式は、音声信号の本来の形式である音声波形データであってもよいし、それに類する他の形式でもよい。他の形式とは、例えば音声波形を周波数領域に変換したスペクトル系列、または音声認識でよく用いられる種々の音声特徴量、すなわちスペクトルパワー、線形予測係数、ケプストラム係数等からなるベクトルの系列、等を含む。その際、スペクトル減算(SS)やケプストラム平均正規化(CMN)等の特徴量正規化処理は適宜行ってよい。また、データ系列の中で似た値が連続する部分については間引き、すなわち圧縮を行ってもよく、さらにはデータ系列を適当な確率モデルに圧縮することも可能である。ここで確率モデルとは、音声認識でよく用いられるガウス混合モデル(GMM)、隠れマルコフモデル(HMM)等を指す。確率モデルでデータ系列を表現する場合の好適な実施の形態については後述する。

事例パタン生成手段107が保持する修正事例パタンは、類似パタン検出手段106に送られ、類似パタン検出手段106は、音声信号記憶手段102に記憶された音声信号の全体、もしくは修正事例が生成された位置より後方を走査し(図7の［C］、および図8の807〜814)、事例パタン生成手段107から与えられた修正事例パタンと類似する箇所がないかどうかを調べる(図8の808、809)。類似する箇所を見つける方法については、例えばワードスポッティング法を適用することができる。ワードスポッティング法の詳細については、音声情報処理関連の文献が多くあるが、例えば参考文献1には、音声信号の局所的伸縮変形を許容しつつ類似度を計算する、DPマッチングをベースとした実現方法についての記載がある。また、参考文献2には、修正事例の短時間音声信号を確率モデル(HMM)で表現した場合の効率的なワードスポッティング法が記載されている。
○参考文献1：1995年、NTTアドバンストテクノロジ株式会社、ラビナー他著、古井他訳、音声認識の基礎(上)、第242〜278頁
○参考文献2：1990年、プロシーディングズ・オブ・インターナショナル・カンファレンス・オン・アクースティックス・スピーチ・アンド・シグナル・プロセッシング、ローズ他、ア・ヒドゥン・マルコフ・モデル・ベースト・キーワード・レコグニション・システム (Rose et al., A hidden Markov model based keyword recognition system, Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1990)

いずれの方法を採るにせよ、ワードスポッティング法では、修正事例の短時間音声信号と、音声信号記憶手段102に記憶された音声信号の各部分との類似度が計算される。類似パタン検出手段106では、類似度が閾値以上であったときに、その部分を修正事例と類似するケースであると判断し、検出、出力する(図7の［D1］、［D2］、［D3］、…、および図8の809)。

最後に、認識結果修正手段105が、類似パタン検出手段106から検出結果を受け取り、修正事例と類似した音声信号上の箇所に対応する認識結果を、認識結果に付随する時間情報から特定し、認識結果の該当部分を修正事例に含まれる情報の一つである正しい文字列に置き換える(図7の［E1］、［E2］、［E3］、…、および図8の812)。前述したように、自動的に置き換える前に、修正作業者に修正案を提示し確認を求めることは可能であるし有効である(図8の810、811)。また、修正作業者に修正案を提示するタイミングは、類似パタン検出手段106が類似パタンを検出するのと同時でもよいし、あるいは、修正作業者の作業の進捗に合わせて、作業者が該当箇所の作業に取り掛かったタイミングで提示してもよい。

音声信号記憶手段102に記憶された音声信号の終端まで走査が完了すると、音声信号走査終了となり、ステップS803の処理に戻る(図8の813、814)。

次に、本実施の形態の効果について説明する。

本実施の形態では、以前の事例に基づいて音声認識誤りを修正する際に、事例を音声信号もしくはそれに類するデータ形式を含んだ形で保持し、音声信号の類似性に基づいて認識誤りを検出、修正するので、事例を文字列のみの形式で保持する場合に比べて、多様な認識誤りを、少ない事例で効率的に検出でき、したがって、音声のテキスト化における認識誤り修正作業の効率改善が実現できる。

次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。

図9を参照すると、本発明の第2の実施の形態にかかる音声書き起こし支援装置は、確率モデルでデータ系列を表現する構成にした点と、標準パタン記憶手段901を備えている点で、図1の第1の実施の形態と相違する。

第1の実施の形態の説明箇所でも触れたように、修正事例パタンに含める短時間音声信号のデータ系列は、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)等の適当な確率モデルに圧縮することも可能である。本実施の形態は、確率モデルでデータ系列を表現する場合に、標準パタン記憶手段901を用いる。

標準パタン記憶手段901には、不特定多数の話者の声のデータを統計処理することにより予め作成された音素ごとの不特定話者の音声標準パタンが記憶されており、事例パタン生成手段902は、修正事例教示手段104から受け取った短時間音声信号から作った確率モデルと、標準パタン記憶手段901に記憶された不特定話者標準パタンとを一定の比率で足し合わせて平均を取ったものを、修正事例パタン中の短時間音声信号のデータ系列として用いる。なお、単純な加算平均でなく、音声認識でよく用いられる話者・環境適応化手法を用いて、不特定話者標準パタンに短時間音声信号の情報を加味するような方法で、修正事例のパタンを作成してもよい。話者・環境適応化に関する文献は数多くあり、例えば参考文献3には最尤推定に基づく話者・環境適応化方法の例が記載されている。
○参考文献3： 1995年、コンピュータ・スピーチ・アンド・ランゲージ、第9巻、171〜185頁、レゲッター他、マキシマム・ライクリフッド・リニア・リグレッション・フォー・スピーカー・アダプテーション・オブ・コンティニュアス・デンシティ・ヒドゥン・マルコフ・モデルズ (Leggetter et al., Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models, Computer speech & language, Vol.9, pp.171--185, 1995)

上述したような、誤り箇所の短時間音声信号と不特定話者標準パタンを足し合わせる手続きは、修正事例に対応する音声信号が極端に短時間である場合に、類似パタン検出手段106において誤検出が多発することを防ぐのに有効である。

図10を参照すると、事例パタン生成手段902は、記憶部1001、第1入力部1002、第2入力部1003、モデル生成部1004、モデル適応部1005および出力部1006で構成される。第1入力部1002は、修正事例教示手段104から、修正後の正しい文字列1007とこの文字列で置換される認識結果文字列の始終端時刻情報1008を受け取り、記憶部1001に記憶する。第2入力部1003は、記憶部1001から始終端時刻情報1008を読み出し、音声信号記憶手段102から始終端時刻情報1008で示される範囲の音声信号を短時間音声信号1009として読み出し、記憶部1001へ記憶する。モデル生成部1004は、記憶部1001から修正後の正しい文字列1007を読み出し、その文字列を音素列に変換し、その音素列の先頭の音素から最終の音素まで順に、その音素に対応する不特定話者標準パタンを標準パタン記憶手段901から読み出し、標準パタンの列1010として記憶部1001に記憶する。例えば、文字列1007が「あさひ」の場合、その音素は「asahi」なので、音素aに対応する不特定話者標準パタンから音素ｉに対応する不特定話者標準パタンまでを標準パタン記憶手段901から読み出し、標準パタンの列1010として記憶部1001に記憶する。

次にモデル適応部1005は、記憶部1001から標準パタンの列1010と短時間音声信号1009と文字列1007とを読み出し、その文字列を音素列に変換し、参考文献3に示される話者適応化法などを用いて、不特定話者の標準パタンの列1010を短時間音声信号1009に適応化させ、結果として得られる適応化済み標準パタン列1011を記憶部1001に出力する。最後に出力部1006は、記憶部1001から正しい文字列1007と適応化済み標準パタン列1011とを読み出し、それらを含む事例パタン1012を作成して、記憶部1001へ記憶する。

なお、上述の標準パタン記憶手段901に記憶された不特定話者標準パタンに、獲得された修正事例を順次学習させる、話者・環境適応化処理を行ってもよい。すなわち、事例パタン生成手段902から修正事例パタン、つまり音声信号データとこれに対応する修正後の正しい文字列を受け取り、これらを用いることにより、前出の参考文献3に記載された方法に基づき、不特定話者標準パタンをテキスト化対象の音声信号に適したものに逐次更新することができる。こうすることによって、以下のような効果が期待できる。

テキスト化対象音声信号が、長時間にわたって一人の話者が話し続ける講演や講義のような場面での音声である場合、標準パタン記憶手段901に記憶された不特定話者標準パタンと、話者の声とが大きく異なっていると、事例パタンが話者の声と大きく異なってしまうため、類似パタン検出手段106が類似パタンを正確に検出することが難しくなる。そのような場合は、音声信号に含まれる一人の話者の声、およびこれに対応する正しい文字列を集めて、不特定話者標準パタンを学習しなおす(もしくは適応化させる)ことにより、より適切な事例パタンを生成することができる。

次に本実施の形態の効果を説明する。本実施の形態によれば、第１の実施の形態と同様の効果が得られるのに加えて、不特定話者音声の標準パタンを併用して、認識誤りの事例を音声信号と不特定話者音声の標準パタンとの加算平均として表現したことにより、より安定して認識誤りの検出を行うことができるようになり、音声のテキスト化における認識誤り修正作業効率をさらに改善できる効果がある。

次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。

図11を参照すると、本発明の第3の実施の形態にかかる音声書き起こし支援装置は、検出パラメータ制御手段1101と話者・環境類似度計算手段1102とを備えている点で、図1の第1の実施の形態と相違する。

本実施の形態では、類似パタン検出手段106が事例パタン生成手段107で生成された事例パタン中の短時間音声信号と音声信号記憶手段102中の音声信号から切り出した或る区間の音声信号との間の類似度を閾値と比較して類似パタンを検出する際に使用する前記類似度を、前記双方の音声信号間の話者あるいは雑音環境に応じて適切に決定する。すなわち、話者・環境類似度計算手段1102は、類似性を測る2つの音声信号間の話者や雑音環境の類似性を計算し、検出パラメータ制御手段1101は、話者・環境類似度計算手段1102において2つの音声信号間の話者や雑音環境の類似性が高いと判断された場合は、類似パタン検出手段106において類似パタンが検出されやすくなるように閾値を小さくし、逆に2つの音声信号間の話者や雑音環境の類似性が低いと判断された場合は、類似パタン検出手段106において類似パタンが検出されにくくなるように閾値を大きくする。

図12を参照すると、検出パラメータ制御手段1101は、記憶部1201、入力部1202および閾値決定部1203で構成される。入力部1202は、類似パタン検出手段106の図5の記憶部501から事例パタン505中の短時間音声信号と、この短時間音声信号と比較するために音声信号記憶手段102から読み出された音声信号506とを読み出し、事例パタン中の音声信号1204および音声信号1205として記憶部1201に記憶する。話者・環境類似度計算手段1102は、この記憶部1201から事例パタン中の音声信号1204と音声信号1205とを読み出し、双方の音声信号間の、話者および雑音環境に起因する類似度Sを計算し、記憶部1206に記憶する。類似度S(もしくは相違度)の定義は、例えば参考文献4に記載があるように、両者をガウス分布と仮定して、それぞれの音声信号の平均値と分散を求め、ガウス分布間のカルバック・ライブラ(KL)距離や対数尤度比とすればよい。
○参考文献4： 1997年、プロシーディングズ・オブ・ザ・ダーパ・スピーチ・レコグニション・ワークショップ、シーグラー他、オートマティック・セグメンテーション・クラシフィケーション・アンド・クラスタリング・オブ・ブロードキャスト・ニュース・オーディオ、97〜99頁 (Siegler et al., Automatic segmentation, classification and clustering of broadcast news audio, Proceedings of the DARPA Speech Recognition Workshop, pp.97--99, 1997)

次に検出パラメータ制御手段1101の閾値決定部1203は、記憶部1201から話者および雑音環境に起因する類似度Sを読み出し、その値に応じて、類似パタン検出手段106が使用する閾値Tを計算する。その計算式は、例えばa、ｂを定数として、以下の式を使用することができる。
T = -a × S + b …(1)

計算式(1)の代わりに、a、ｂ、cを定数として、シグモイド関数を用いて、次式(2)を使用してもよいし、他にもあらゆる単調減少関数や任意の関数を使用してよい。
T = c/{ 1 + exp(a × S - b) } …(2)

閾値決定部1203は、計算した閾値Tを類似パタン検出手段106の記憶部に記憶する。類似パタン検出手段106は、この閾値Tを修正事例と類似した箇所の検出に使用する。

次に、本実施の形態の効果について説明する。

本実施の形態によれば、本発明の第1の実施の形態の効果に加えて、テキスト化対象音声中の話者や雑音環境が時々刻々と変化するような場合に、異なる話者や雑音環境で話されたまったく内容の異なる発声がたまたま似ているとして検出されてしまうような誤検出を防ぐことができ、結果として、音声のテキスト化における認識誤り修正作業の効率改善が実現できる。

その理由は、話者・環境類似度計算手段1102が、認識誤り事例の音声信号とテキスト化対象音声信号の各部との話者や雑音環境の類似性を計算し、その計算結果に応じて検出パラメータ制御手段1101が類似パタン検出手段106が使用する類似度判定の閾値を調整するため、話者や雑音環境が類似している場合には事例と似た箇所を正確に検出でき、逆に話者や雑音環境が異なる場合の誤検出を抑制することが可能となるためである。

次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。

図13を参照すると、本発明の第4の実施の形態にかかる音声書き起こし支援装置は、MPU等を含んで構成されるデータ処理装置1301と、磁気ディスクや半導体メモリなどの記憶装置1302と、LCD等の表示装置およびキーボードやマウス等の入力装置を備えた利用者入出力装置1303と、音声テキスト化用プログラム1304とで構成される。記憶装置1302は、テキスト化の対象である音声信号を記憶する音声信号記憶手段1305およびこの音声信号に対して図示しない音声認識手段によって音声認識処理を施し、結果として得られた音声認識結果を記憶する認識結果記憶手段1306などとして使用される。

音声テキスト化プログラム1304は、CDROMなどのコンピュータ可読記録媒体に記録されて提供されるか、Webサーバなどから通信回線を通じてダウンロードされる。この音声テキスト化用プログラム1304は、データ処理装置1301に読み込まれ、データ処理装置1301の動作を制御することにより、データ処理装置1301上に前述した各実施の形態における機能手段を実現する。すなわち、図1の第1の実施の形態にあっては、修正事例教示手段104、事例パタン生成手段107、類似パタン検出手段106および認識結果修正手段105を実現し、図9の第2の実施の形態にあっては、修正事例教示手段104、事例パタン生成手段902、類似パタン検出手段106および認識結果修正手段105を実現し、図11の第3の実施の形態にあっては、修正事例教示手段104、事例パタン生成手段107、類似パタン検出手段106、認識結果修正手段105、検出パラメータ制御手段1101および話者・環境類似度計算手段1102を実現する。

本発明は、講演や講義の書き起こし作業、あるいは映画やテレビ番組の字幕作成などの業務において、作業者を助ける業務支援システムのような用途に適用できる。また、映像データや音声データからなるデータベースから、任意のキーワードを用いて所望の映像や音声を検索する情報検索装置や情報検索プログラム、あるいは、長い映像データや音声データを短い時間に要約して提供する情報閲覧システムなどにも適用可能である。

本発明の第1の実施の形態のブロック図である。認識結果記憶手段に記憶される音声認識結果と元となる音声信号の時刻情報との関係を示す図である。修正事例教示手段が表示装置の画面に表示する画面の一例を示す図である。事例パタン生成手段の構成例を示すブロック図である。類似パタン検出手段の構成例を示すブロック図である。認識結果修正手段105の構成例を示すブロック図である。本発明の第1の実施の形態の動作を模式的に示す概念図である。本発明の第1の実施の形態の動作を示す流れ図である。本発明の第2の実施の形態のブロック図である。事例パタン生成手段の他の構成例を示すブロック図である。本発明の第3の実施の形態のブロック図である。検出パラメータ制御手段1101の構成例を示すブロック図である。本発明の第4の実施の形態のブロック図である。従来技術のブロック図である。他の従来技術のブロック図である。認識誤りの多様性についての具体例を示す図である。

符号の説明

101…音声認識手段
102…音声信号記憶手段
103…認識結果記憶手段
104…修正事例教示手段
105…認識結果修正手段
106…類似パタン検出手段
107…事例パタン生成手段
301…再生ボタン
302…表示部
303…停止ボタン
304…巻き戻しボタン
305…ボリューム調整スライダ
306…入力部
307…置換ボタン
308…削除バタン
309…挿入ボタン

Claims

音声信号を記憶する音声信号記憶手段と、
前記音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段と、
修正作業者から認識結果の修正指示を受け付けて修正を実行する修正事例教示手段と、
前記修正事例教示手段が受け付けた修正指示から、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成する事例パタン生成手段と、
前記該当誤り箇所の音声信号を用いて前記音声信号記憶手段に記憶された音声信号から音声信号的に類似した箇所を検出する類似パタン検出手段と、
前記類似した箇所に対応する認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促す認識結果修正手段と、
を備えたことを特徴とする音声書き起こし支援装置。
前記類似パタン検出手段が音声信号間の類似度を判定する際に使用する閾値を、類似度計算対象の音声信号に応じて変更する検出パラメータ制御手段を備えたことを特徴とする請求項1記載の音声書き起こし支援装置。
音声信号間の話者あるいは雑音環境に関する類似度を計算する話者・環境類似度計算手段を備え、前記検出パラメータ制御手段は、前記話者・環境類似度計算手段が出力する音声信号間の話者あるいは雑音環境に関する類似度を用いて、前記閾値を変更するものであることを特徴とする請求項2記載の音声書き起こし支援装置。
不特定話者の音声標準パタンを記憶する標準パタン記憶手段を備え、前記事例パタン生成手段は、前記誤り箇所の音声信号と前記修正後文字列に対応する前記不特定話者の音声標準パタンとを足し合わせたパタンを該当誤り箇所の音声信号として有する事例パタンを生成するものであることを特徴とする請求項1記載の音声書き起こし支援装置。
前記標準パタン記憶手段が過去の修正事例を用いた話者・環境適応化により、前記音声標準パタンを随時更新することを特徴とする請求項4記載の音声書き起こし支援装置。
修正事例教示手段が、修正作業者から認識結果の修正指示を受け付けて記憶部に記憶し、かつ、音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段に対して修正を実行するステップと、
事例パタン生成手段が、前記記憶部に記憶された修正指示を読み出し、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成して前記記憶部に記憶するステップと、
類似パタン検出手段が、前記記憶部に記憶された修正事例中の該当誤り箇所の音声信号と音声信号的に類似した箇所を前記音声信号記憶手段に記憶された音声信号から検出し、検出結果を前記記憶部に記憶するステップと、
認識結果修正手段が、前記記憶部に記憶された検出結果を読み出し、類似した箇所に対応する前記認識結果記憶手段中の認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促すステップと、
を含むことを特徴とする音声書き起こし支援方法。
音声信号を記憶する音声信号記憶手段と、前記音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段とを有するコンピュータを、
修正作業者から認識結果の修正指示を受け付けて修正を実行する修正事例教示手段、
前記修正事例教示手段が受け付けた修正指示から、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成する事例パタン生成手段、
前記該当誤り箇所の音声信号を用いて前記音声信号記憶手段に記憶された音声信号から音声信号的に類似した箇所を検出する類似パタン検出手段、
前記類似した箇所に対応する認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促す認識結果修正手段、
として機能させるためのプログラム。
前記コンピュータを、さらに、前記類似パタン検出手段が音声信号間の類似度を判定する際に使用する閾値を、類似度計算対象の音声信号に応じて変更する検出パラメータ制御手段、として機能させるための請求項7記載のプログラム。
前記コンピュータを、さらに、音声信号間の話者あるいは雑音環境に関する類似度を計算する話者・環境類似度計算手段、として機能させ、かつ、前記検出パラメータ制御手段は、前記話者・環境類似度計算手段が出力する音声信号間の話者あるいは雑音環境に関する類似度を用いて、前記閾値を変更するものであることを特徴とする請求項8記載のプログラム。
前記事例パタン生成手段は、前記誤り箇所の音声信号と、標準パタン記憶手段に記憶された不特定話者の音声標準パタンのうち前記修正後文字列に対応する音声標準パタンとを足し合わせたパタンを、該当誤り箇所の音声信号として有する事例パタンを生成するものであることを特徴とする請求項7記載のプログラム。