本発明は音声書き起こし支援装置およびその方法に関し、特に音声を認識し、その結果得られる認識結果に含まれる認識誤りをキーボードから入力された正解文字列で修正することによりテキスト化を行う音声書き起こし支援装置およびその方法に関する。
近年の音声認識技術の向上により音声認識精度が格段に向上しているものの、周囲の雑音などの影響により誤認識を完全になくすことはできない。このため、音声認識結果を利用した書き起こし作業においては、音声認識結果に含まれる誤認識部分を修正する作業が必要になる。
音声認識結果を修正する従来技術の一例が特許文献1に記載されている。この従来技術では、第1の入力音声の認識結果を訂正する際に、利用者は同じフレーズを第2の音声として発声する。例えば、第1の入力音声「チケットを買いたいのですか」に対して「ラケットがカウントなのです」と認識された際、ユーザは同じフレーズ「チケットを買いたいのですか」を繰り返す。装置側では、第1と第2の音声の間で特徴情報の類似する部分と類似しない部分とを検出すると同時に、強調して発声された部分を検出し、類似部分については第2入力音声の認識候補から第1入力音声の認識結果を除外し、第1入力音声と非類似部分で強調されて発声された第2入力音声部分はこの第2入力音声の第1認識候補を採用する。この結果、例えば上記第2入力音声で、「買いたい」の部分を話者が強調して発声した場合に、第2入力音声の認識結果が「チケットを買いたいのですか」になると説明されている。
音声認識結果を修正する他の従来技術が特許文献2に記載されている。この従来技術では、第1の入力音声の認識結果に誤認識部分がある場合、利用者はその誤認識部分と置換するための1語または複数語を第2の入力音声として発声する。装置側では、第1の入力音声の認識結果のそれぞれ異なる箇所を第2の入力音声の認識結果の1語または複数語で網羅的に置換した複数の修正認識結果の中から、音声認識辞書に記載されているものだけを利用者に提示してその一つを選択させることで、誤認識部分の修正を行う。
音声認識結果を修正する別の従来技術が特許文献3に記載されている。この従来技術では、音声認識誤りの発見と修正の作業を複数の修正端末で実施する。個々の修正端末の利用者は、音声認識の誤り部分をタッチパネルをタッチすることで指摘し、キーボードから正解文字列を入力して修正する。
特開2003-316386号公報
特開2001−92493号公報
特開2004−226910号公報
音声認識結果の誤り部分を利用者が修正する作業を支援する技術として前述したように各種の技術が提案されているが、特許文献1および特許文献2に見られるように修正を音声入力で行う方法の場合、正しく修正するのが困難であるという課題がある。その理由は、修正する文字列の正解を音声入力で与えているため、たとえ強調して発声しても誤認識によって正解文字列を正しく入力できない場合があること、および認識辞書にない単語(列)はそもそも音声認識では入力できないからである。
このため正確な修正を行う場合には、特許文献3に見られるようにキーボードから正解文字列を入力せざるを得ないが、その場合、誤認識箇所の指定と正しい文字列の入力の双方を行う必要があり、手間がかかるという課題がある。
本発明はこのような事情に鑑みて提案されたものであり、その目的は、音声認識結果の誤認識部分を正しく且つ効率良く修正することのできる音声書き起こし支援装置およびその方法を提供することにある。
本発明の第1の音声書き起こし支援装置は、音声信号に対して音声認識処理を施して得られる音声認識結果を記憶する記憶手段と、前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力する正解入力手段と、前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索する修正箇所決定手段と、前記決定された修正箇所を前記正解文字列で置換する認識結果修正手段とを備えたことを特徴とする。
本発明の第2の音声書き起こし支援装置は、第1の音声書き起こし支援装置において、前記修正箇所決定手段は、前記正解文字列から作成した音声データと前記音声認識結果に対応する音声データとの間でマッチングをとることにより、前記正解文字列と発音が類似する文字列部分を検索するものであることを特徴とする。
本発明の第3の音声書き起こし支援装置は、第2の音声書き起こし支援装置において、前記正解文字列の音声データとして前記正解文字列から生成した音声標準パタンを使用し、前記音声認識結果の音声データとして前記音声認識結果に対応する前記音声信号の分析結果を使用することを特徴とする。
本発明の第4の音声書き起こし支援装置は、第2の音声書き起こし支援装置において、前記正解文字列の音声データとして前記正解文字列から音声合成で生成した音声信号を使用し、前記音声認識結果の音声データとして前記音声認識結果に対応する音声信号を使用することを特徴とする。
本発明の第5の音声書き起こし支援装置は、第1の音声書き起こし支援装置において、前記修正箇所決定手段は、前記正解文字列から作成した音素列または音節列である文字列と前記音声認識結果から作成した音素列または音節列である文字列との間でマッチングをとることにより、前記正解文字列と発音が類似する文字列部分を検索するものであることを特徴とする。
本発明の第6の音声書き起こし支援装置は、第1の音声書き起こし支援装置において、前記修正箇所決定手段は、前記正解文字列と発音が類似する文字列部分が前記音声認識結果に存在しない場合に、単語の接続制約を記述した言語モデルを用いて前記正解文字列が挿入される確率の高い位置を挿入位置として検索するものであり、前記認識結果修正手段は前記決定された挿入位置に前記正解文字列を挿入するものであることを特徴とする。
本発明の第7の音声書き起こし支援装置は、第1の音声書き起こし支援装置において、前記修正箇所決定手段は、キーボード入力された正解文字列の順序に従って修正箇所の検索を行い、前記認識結果修正手段で修正された修正位置に基づき検索範囲を逐次狭めるものであることを特徴とする。
本発明の音声書き起こし支援方法は、表示再生部が、音声信号に対して音声認識処理を施して得られる音声認識結果を表示装置に表示し、正解入力手段が、前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力し、修正箇所決定手段が、前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索し、認識結果修正手段が、前記決定された修正箇所を前記正解文字列で置換することを特徴とする。
本発明の第1の修正箇所決定装置は、音声信号に対して音声認識処理を施して得られる音声認識結果の認識誤り部分を修正するためにキーボードから入力された正解文字列を音素列に変換して記憶部に記憶する音素列変換手段と、前記記憶部から前記正解文字列の音素列を読み出し、各音素毎の標準パタンを記憶する標準パタン記憶部を検索して前記音素列を音声の標準パタンに変換し、前記記憶部に記憶する音素標準パタン変換手段と、前記音声認識結果に対応する前記音声信号の分析結果上の修正箇所となる候補を網羅的に求め、各修正箇所候補の位置情報を前記記憶部に記憶する位置決定手段と、前記記憶部から前記正解文字列の標準パタン、前記分析結果および前記各修正箇所候補の位置情報を読み出し、前記正解文字列の標準パタンが修正箇所候補の位置情報で特定される前記分析結果上の分析結果部分を出力する確率を各修正箇所候補毎に計算し、前記記憶部に記憶する確率計算手段と、前記記憶部から各修正箇所候補毎に計算された前記確率を読み出して比較し、前記複数の修正箇所候補の中から修正箇所を選択して出力する選択手段とを備えたことを特徴とする。
本発明の第2の修正箇所決定装置は、音声信号に対して音声認識処理を施して得られる音声認識結果の認識誤り部分を修正するためにキーボードから入力された正解文字列および前記音声認識結果の文字列のそれぞれを音素列または音節列に変換して記憶部に記憶する音素列変換手段と、前記記憶部から前記音声認識結果の音素列または音節列を読み出し、その音素列または音節列上の修正箇所となる候補を網羅的に求め、各修正箇所候補の位置情報を前記記憶部に記憶する位置決定手段と、前記記憶部から前記正解文字列および前記音声認識結果の音素列または音節列と前記各修正箇所候補の位置情報とを読み出し、修正箇所候補の位置情報で特定される前記音声認識結果の音素列または音節列上の部分と前記正解文字列の音素列または音節列との類似度を計算し、前記記憶部に記憶する類似度計算手段と、前記記憶部から各修正箇所候補毎に計算された前記類似度を読み出して比較し、前記複数の修正箇所候補の中から修正箇所を選択して出力する選択手段とを備えたことを特徴とする。
『作用』
音声認識装置の認識結果に含まれる誤認識部分は、正解と全くかけ離れた内容になることは少なく、正解と似かよった内容になる。すなわち、誤認識部分と正解とは発音的に似ているケースが多い。本発明はこの点に着目し、音声認識結果のうち正解文字列と発音が類似する文字列部分を修正箇所として検索する。正解文字列と発音的に類似する認識結果部分の検出は、音声信号的な類似検出や音韻的な類似検出によって可能である。前者の音声信号的な類似検出は、正解文字列から作成した音声標準パタンや音声波形信号などの音声信号と、音声認識結果が得られる過程で音声認識装置で得られる分析結果や元の音声信号とを比較することで可能である。また、後者の音韻的な類似検出は、正解文字列および音声認識結果の文字列をそれぞれ音素列や音節列に変換して比較することで可能である。
本発明によれば、音声認識結果を利用した書き起こし作業において誤認識部分の正しい文字列をキーボード入力すると、誤認識部分が自動的に検出され、正しい文字列に修正できるため、作業効率を向上させることができる。
次に本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態にかかる音声書き起こし支援装置は、音声101に対して音声認識処理を行う音声認識装置102と、この音声認識装置102の音声認識結果などを記憶する記憶装置103と、音声認識結果などを利用者に表示する表示装置104と、音声認識対象となった音声101を利用者による確認のために再生して出力するスピーカ105と、音声認識結果に含まれる誤り箇所を修正するために正解の文字列を入力するキーボード106と、これらに接続された処理装置107とから構成されている。
音声認識装置102は、音声入力手段111、分析手段112および照合手段113を備え、また、辞書121、言語モデル122および音響モデル123を記憶する記憶装置124を備えている。辞書121には、認識対象の単語およびその発音が登録されている。言語モデル122には、認識対象の単語間の接続制約が記述されている。言語モデルの例としては、音声認識に広く用いられている単語N-gramモデルがある。音響モデル123には、認識単位の音響的特徴が記述されている。音響モデルの例としては、音声認識に広く用いられているHMM(Hidden Markov Model)がある。
音声入力手段111は、マイクロフォンなどを用いて音声101を取り込み、分析手段112による分析が行えるような形に処理した音声信号(音声波形のディジタルデータ)131を記憶装置103に記憶する。
分析手段112は、音声信号131を記憶装置103から入力し、音声信号131に対し分析処理を行って周波数スペクトルに関連した特徴の抽出を行う。具体的には、時間窓をかけ高速フーリエ変換のアルゴリズムを用いて離散フーリエ変換を行い、短時間スペクトルを求める。分析手段112で得られた分析結果132は、音声信号131のどの部分の分析結果であるかが明確にわかるように時刻データなどによって音声信号131と対応付けられて記憶装置103に記憶される。
照合手段113は、記憶装置124に記憶された辞書121、言語モデル122および音響モデル123を用いて、記憶装置103から入力した音声信号の分析結果132に対し、候補単語列との間で確率計算を行い、最も尤度の高かった単語列を認識結果として出力する。照合手段113で得られた認識結果133は、分析結果132と対応付けられて記憶装置103に記憶される。具体的には、個々の単語あるいは単語の構成要素である個々の音節または音素について、分析結果132との対応関係、すなわち、どの単語が分析結果のどの部分から出たものかを示す情報が付加されて記憶装置103に記憶される。
処理装置107は、記憶装置103に記憶された音声101の認識結果133に含まれる誤り箇所を利用者が発見し且つ修正するための装置であり、表示再生部141、正解入力手段142、修正箇所決定手段143および認識結果修正手段144を備えている。
表示再生部141は、記憶装置103に記憶された認識結果133を表示装置104に表示する認識結果表示手段145と、記憶装置103に記憶された音声信号131を再生してスピーカ105から出力する音声再生手段146とを有する。
正解入力手段142は、誤認識を修正するための正解文字列をキーボード106から取り込む。
修正箇所決定手段143は、正解入力手段142により取り込まれた正解文字列と発音が似ている箇所を修正箇所として記憶装置103に記憶されている認識結果133から検索する。正解文字列と発音的に類似する認識結果部分の検索は、後述するように音声信号的な類似検出や音韻的な類似検出によって行われる。
認識結果修正手段144は、記憶装置103に記憶されている認識結果133を正解入力手段142により取り込まれた正解文字列と修正箇所決定手段143により決定された修正箇所とに基づいて自動的に修正するか、もしくは利用者に修正を促す。
処理装置107が表示装置104に表示する画面の一例を図2に示す。図2の画面において、再生ボタン201をオンすると、表示再生部141は、音声再生手段146により記憶装置103に記憶された音声信号131を読み出して再生し、スピーカ105から再生音声を出力すると同時に、この音声出力と同期して、認識結果表示手段145により、再生中の音声信号の認識結果133を認識結果表示欄202に表示する。再生ボタン201は停止ボタンを兼ねており、もう一度オンすると、再生動作が停止する。
認識結果表示欄202は複数行からなり、現在再生されている行は破線で示されるように強調されると共に、注目行表示欄203に拡大表示され、またその音声波形のイメージが波形表示欄204に表示される。再生ボタン201の周囲には、巻き戻しボタン205、早送りボタン206、ボリューム調整スライダ207があり、それぞれ再生位置の巻き戻し、早送り、音量調整が可能になっている。時刻表示欄208に表示される時刻は、注目行表示欄203に表示される音声認識結果に対応する音声信号の始終端時刻を示す。映像表示欄209は、音声に付随する映像がある場合に、再生された映像を表示する欄である。
また、認識結果を修正するためのGUI部品として、正解文字列入力欄210、OKボタン211、注目行を一つ前の行あるいは一つ後の行に進める戻りボタン212および送りボタン213、注目行全体の認識結果を削除する削除ボタン214がある。また、注目行表示欄203に表示される認識結果中、修正箇所決定手段143で決定された修正箇所が破線215で示されるように強調して表示されるようになっている。
図2の画面には、注目行表示欄203に「フセイン大統領の故郷低い一度から」なる認識結果が表示されているが、この認識結果は「フセイン大統領の故郷ティクリットから」という音声101を音声認識装置102で認識した際に、「ティクリット」の部分が「低い一度」に誤認識された結果である。このような誤認識部分は、利用者が再生ボタン201をオンして元の音声信号131を自分の耳で聞き取り、注目行表示欄203に表示されている認識結果と比べることで容易に発見することができる。
従来、このような誤認識箇所の修正は、修正箇所を利用者自身が指定しなければならなかったが、本実施の形態では、正解文字列として「ティクリット」が正解文字列入力欄210に入力されると、修正箇所決定手段143が、注目行表示欄203に表示されている認識結果の文字列の中から正解文字列の「ティクリット」と発音的に似ている箇所「低い一度」を検出し、この検出部分を修正箇所として利用者に提示する。このため、利用者は修正箇所を自ら指定する手間が省け、修正作業を効率良く進めることが可能となる。なお、若し検出された修正箇所が間違っていれば、マウスカーソルなどで正しい修正箇所を注目行表示欄203上で指定すれば良く、その場合の労力は利用者自身が最初から修正箇所を指定する場合と変わらない。
次に、修正箇所決定手段143および認識結果修正手段144を中心に本実施の形態の幾つかの実施例について詳細に説明する。
図3を参照すると、本実施例における修正箇所決定手段143は、正解文字列入力欄210に入力された正解文字列301と、注目行表示欄203に表示された認識結果に対応して記憶装置103に記憶されている分析結果132とを入力し、分析結果132上に網羅的に設定した修正箇所候補毎に、その修正箇所候補の分析結果部分と正解文字列301との音声信号的な類似度を示すスコアを計算する検索手段302と、この検索手段302で求められた複数の修正箇所候補の内から1または複数の修正箇所を類似度スコアに基づいて選択し、認識結果修正手段144に認識結果上での修正箇所を通知する選択手段303とで構成されている。
検索手段302は、標準パタン作成手段311およびスコア計算・位置検出手段312で構成される。
標準パタン作成手段311は、正解文字列301に対応する音声の標準パタンを作成する。具体的には、正解文字列301を音素列に変換し、予め用意しておいた音素標準パタンをその順に並べ、その文字列の標準パタンを作成する。標準パタン作成手段311の構成例を図4に示す。
図4を参照すると、標準パタン作成手段311は、第1記憶部401、第2記憶部402、入力部403、音素列変換部404、音素標準パタン変換部405および第3記憶部406で構成される。入力部403は、正解文字列301を入力し、第1記憶部401に記憶する。音素列変換部404は、第1記憶部401から正解文字列301中の文字をその先頭より順に入力し、単語とその発音すなわち音素列を記述した辞書を予め記憶する第3記憶部406を検索して各文字を音素列に変換し、第1記憶部401に音素列411として記憶する。音素標準パタン変換部405は、第1記憶部401から音素列411中の音素をその先頭より順に入力し、各音素毎の標準パタンを記憶している第2記憶部402から当該音素に対応する音素標準パタンを検索し、第1記憶部401に出力する処理を繰り返すことにより、正解文字列301に対応する標準パタン412を第1記憶部401上に生成する。ここで、第2記憶部402に予め記憶される音素標準パタンは、分析結果132との類似度が計算できるように分析結果132と同じ種類のパタン(例えば前述したHMMなど)が使用される。
例えば図2の正解文字列入力欄210に入力された「ティクリット」の場合、図5に示されるように、「ティクリット」が音素列「t i k u r i Qt t o」に変換され、次いで予め用意された音素標準パタンをその順に並べ、「ティクリット」を表す標準パタンが作成される。
スコア計算・位置検出手段312は、標準パタン作成手段311で作成された正解文字列の標準パタン412と、注目行表示欄203に表示された認識結果に対応して記憶装置103に記憶されている分析結果132とを入力とし、或る分析結果部分を与えたときに標準パタンが正解文字列を出力する確率(スコア)を計算して出力する。スコア計算・位置検出手段312の構成例を図6に示す。
図6を参照すると、スコア計算・位置検出手段312は、記憶部601、第1入力部602、第2入力部603、位置決定部604および確率計算部605で構成される。第1入力部602は、標準パタン作成手段311により作成された正解文字列の標準パタン412を図4の第1記憶部401から読み出して、記憶部601に記憶する。第2入力部603は、注目行表示欄203に表示された認識結果に対応する分析結果132を記憶装置103から読み出して記憶部601に記憶する。位置決定部604は、記憶部601から分析結果132を読み出し、分析結果132上の修正箇所となる候補を網羅的に求め、各行に修正箇所候補の位置611とスコア612と処理済フラグ613との組を設定したリスト614を生成して記憶部601に記憶する。この時点では各スコア612はNULLであり、処理済フラグ613は未処理を示す。確率計算部605は、記憶部601からリスト614の各行を1行ずつ読み出し、読み出した行の修正箇所候補の位置611で示される分析結果部分を記憶部601の分析結果132から読み出し、記憶部601から読み出した標準パタン412が前記読み出した分析結果部分を出力する確率(スコア)を計算し、スコア612に書き込むと共に、処理済フラグ613を処理済に設定する。リスト614の全フラグ613が処理済になった時点で処理が終了する。
選択手段303は、図3に示されるようにスコア比較手段313と位置変換部314とで構成される。
スコア比較手段313は、検索手段302で作成されたリスト614を記憶部601から読み出し、各行毎に、そのスコア612を予め設定された閾値と比較し、閾値以上のスコアを持つ行の修正箇所候補の位置611を修正箇所として選択し、位置変換部314に出力する。ここでは、予め設定された閾値以上のスコアを持つ修正箇所候補の位置611を修正箇所として選択したが、リスト614中で最もスコアの大きい行の修正箇所候補の位置611を修正箇所として選択するようにしてもよい。
位置変換部314は、記憶装置103における分析結果132と認識結果133との対応関係に基づいて、スコア比較手段313から出力された分析結果132上での修正箇所を認識結果133上での修正箇所に変換し、認識結果修正手段144に出力する。
認識結果修正手段144の構成例を図7に示す。図7を参照すると、認識結果修正手段144は、記憶部701、第1入力部702、第2入力部703、第3入力部704、修正箇所提示手段705および文字列操作部706で構成される。第1入力部702は、正解文字列301を例えば図4の第1記憶部401から読み出し、記憶部701に記憶する。第2入力部703は、図2の注目行表示欄203に表示されている認識結果133を記憶装置103から読み出し、記憶部701に記憶する。第3入力部704は、修正箇所決定手段143の選択手段303における位置変換部314から出力された認識結果上での修正位置711を入力して記憶部701に記憶する。修正箇所提示手段705は、記憶部701から修正箇所711を読み出し、図2の注目行表示欄203に表示されている認識結果中の修正箇所711が示す部分を強調して表示することにより、利用者に修正箇所を提示する。文字列操作部706は、図2のOKボタン211がオンされた場合に、記憶部701から正解文字列301、認識結果133および修正位置711を読み出し、修正位置711が示す認識結果133上の修正箇所の文字列を正解文字列301で置換し、置換後の認識結果を記憶装置103に書き戻すと同時に図2の注目行表示欄203の表示を更新する。なお、利用者が注目行表示欄203上で修正位置をマウス操作などによって変更した場合、第3入力部703が変更後の修正位置で記憶部701の修正位置711を更新する。
次に、例えば「フセイン大統領の故郷ティクリットから」という音声の書き起こしを作成する際に使用する音声認識結果が、図2の注目行表示欄203に表示されるように「フセイン大統領の故郷低い一度から」となっており、利用者が”低い一度”を”ティクリット”に直すために、正解文字列入力欄210に”ティクリット”を入力した以降の動作を、図8のフローチャートを参照して説明する。
処理装置107の正解入力手段142は、正解文字列入力欄210に正解文字列が入力されると、それを取り込み、修正箇所決定手段143に伝達する(図8のステップS801)。修正箇所決定手段143の検索手段302における標準パタン作成手段311は、図5に示したように、”ティクリット”を音素列”t i k u r i Qt t o”に変換し、予め用意しておいた音素標準パタンをその順に並べて、”ティクリット”を表現する標準パタンを作成する(ステップS802)。次に、スコア計算・位置検出手段312は、”ティクリット”の標準パタンと、記憶装置103に保持されていた分析結果132中の認識結果「フセイン大統領の故郷低い一度から」に対応する分析結果を入力とし、各分析結果部分を標準パタンに与えたときに正解文字列(ティクリット)を出力する確率(スコア)を計算する(ステップS803)。この場合、標準パタンは”ティクリット”と発声されている部分(認識結果では”低い一度”と誤認識されている部分)の分析結果のところで最も高いスコアとなり、他の部分は低いスコアとなる。
次に、選択手段303のスコア比較手段313は、予め閾値として用意しておいたスコアと比較を行い、位置変換部314は閾値以上のスコアだった分析結果部分に対応する認識結果上の位置を修正位置として出力する。閾値は、その値以上のスコアであればその部分が正解文字列とみなせるという値を設定しておく。あるいはスコアの高かった順にその部分の位置情報を出力するようにしてもよい。ここでは、閾値を満たすスコアは1つだけで、”ティクリット”と発声された部分(誤認識”低い一度”部分)のみだったとする。
認識結果修正手段144は、注目行表示欄203に表示した認識結果のうち、選択手段303が出力した修正位置に相当する認識結果部分”低い一度”の部分にフォーカスを当て、利用者に修正位置を提示する(ステップS804、S805)。そして、利用者がOKボタン211をオンすると、認識結果修正手段144は、フォーカスの当たっている認識結果の部分(誤認識結果”低い一度”)を正解文字列”ティクリット”に置換する(ステップS806)。
なお、閾値を満たすスコアのものが複数あった場合やスコアの高かった順に並べる場合についても、スコアの高い順に逐次変換してよいかどうかを利用者に確認しながら変換を行うようにすればよい。
次に本実施例の効果を説明する。
正解文字列を入力すれば、その正解文字列と発音が類似している認識結果部分が修正箇所に自動的に設定されるため、利用者自身が修正箇所を指定する手間が省け、利用者の負担を軽減することができる。
正解文字列を音声入力でなくキーボードから入力するため、誤認識箇所の正解文字列を正確に与えることができると共に、正解文字列が認識辞書にない単語(列)でも正しく正解を与えることができる。また、元の音声の発話者に限らず誰でも修正作業が行える。
正解文字列と発音が類似する箇所の探索を、認識結果全体でなくその一部分(注目行表示欄203に表示されている部分)に限定したため、修正箇所の検出を迅速かつ正確に行うことができる。
本実施例の修正箇所決定手段143は、正解文字列を音声の標準パタンに変換し、この標準パタンと記憶装置103上の分析結果132との音声信号的な類似性を判定したが、音声合成によって正解文字列から音声波形を生成し、これと記憶装置103上の音声信号131との音韻的な類似性を判定することにより修正箇所を決定することもできる。
また本実施例の修正箇所決定手段143は、正解文字列の標準パタンと比較する分析結果を記憶装置103から読み出したが、記憶装置103に記憶されている音声信号131から分析手段112と同様の処理で分析結果を修正箇所決定手段143自身が生成して利用することもできる。あるいは、正解文字列から標準パタンを作成したように、音声認識結果の文字列から音声の標準パタンを作成して利用することもできる。これらの構成によれば、音声認識装置102は音声認識処理の途中結果である分析結果132を記憶装置103に出力する必要がない。
また本実施例の認識結果修正手段144は、修正箇所決定手段143で決定された修正箇所を利用者に提示し、利用者の確認を得てから認識結果の修正を行ったが、修正箇所の提示や利用者による確認を省略し、認識結果修正手段144が、決定された修正箇所を正解文字列に自動的に置換するようにしてもよい。
また本実施例では、利用者は誤認識部分のみの正解を入力する例を示したが、誤認識部分とその前あるいは後の文字とから構成される文字列を正解文字列として入力することもできる。例えば前述した例では、「故郷ティクリットから」などのように正しく認識していた部分も付けて入力することもできる。こうすると、修正箇所の決定がより正確になる利点がある。なお、この場合、認識結果修正手段144が、「故郷低い一度から」全体を「故郷ティクリットから」に修正するか、正解文字列のうち認識結果と一致しない部分「低い一度」を「ティクリット」に修正するかは任意である。
図9を参照すると、本実施例における修正箇所決定手段143は、正解文字列入力欄210に入力された正解文字列301と、注目行表示欄203に表示された認識結果133とを入力とし、認識結果133上に網羅的に設定した修正箇所候補毎に、その修正箇所候補の認識結果部分と正解文字列301との音韻的な類似度を示すスコアを計算する検索手段902と、この検索手段902で求められた複数の修正箇所候補の内から1または複数の修正箇所を類似度スコアに基づいて選択し、認識結果修正手段144に認識結果上での修正箇所を通知する選択手段903とで構成されている。
検索手段902は、文字列作成手段911およびスコア計算・位置検出手段912で構成される。
文字列作成手段911は、正解文字列301と認識結果133を入力とし、正解文字列301と認識結果133とのマッチングがとれるようにどちらも音素列に変換する。文字列作成手段911の構成例を図10に示す。
図10を参照すると、文字列作成手段911は、第1記憶部1001、第2記憶部1002、第1入力部1003、第2入力部1004および音素列変換部1005で構成される。第1入力部1003は、正解文字列301を入力し、第1記憶部1001に記憶する。第2入力部1004は、注目行表示欄203に表示された認識結果133を入力し、第1記憶部1001に記憶する。音素列変換部1005は、第1記憶部1001から正解文字列301中の文字をその先頭より順に入力し、単語とその発音すなわち音素列を記述した辞書を予め記憶する第2記憶部1002を検索して各文字を音素列に変換し、第1記憶部1001に正解文字列の音素列1011として記憶する。また、音素列変換部1005は、第1記憶部1001から認識結果133中の文字をその先頭より順に入力し、第2記憶部1002の辞書を検索して各文字を音素列に変換し、第1記憶部1001に認識結果の音素列1012として記憶する。
スコア計算・位置検出手段912は、文字列作成手段911で作成された正解文字列の音素列1011と認識結果の音素列1012とを入力とし、認識結果の音素列1012の各部分毎に正解文字列の音素列1011との類似度(スコア)を計算して出力する。スコア計算・位置検出手段912の構成例を図11に示す。
図11を参照すると、スコア計算・位置検出手段912は、記憶部1101、第1入力部1102、第2入力部1103、位置決定部1104および類似度計算部1105で構成される。第1入力部1102は、文字列作成手段911により作成された正解文字列の音素列1011を図10の第1記憶部1001から読み出して、記憶部1101に記憶する。第2入力部1103は、文字列作成手段911により作成された認識結果の音素列1012を図10の第1記憶部1001から読み出して記憶部1101に記憶する。位置決定部1104は、記憶部1101から認識結果の音素列1012を読み出し、この音素列1012上の修正箇所となる候補を網羅的に求め、各行に修正箇所候補の位置1111とスコア1112と処理済フラグ1113との組を設定したリスト1114を生成して記憶部1101に記憶する。この時点では各スコア1112はNULLであり、処理済フラグ1113は未処理を示す。類似度計算部1105は、記憶部1101からリスト1114の各行を1行ずつ読み出し、読み出した行の修正箇所候補の位置1111で示される音素列の部分を記憶部1101の認識結果の音素列1012から読み出し、記憶部1101から読み出した正解文字列の音素列1011との類似度(スコア)をDPマッチング法などで計算し、スコア1112に書き込むと共に、処理済フラグ1113を処理済に設定する。リスト1114の全フラグ1113が処理済になった時点で処理が終了する。
選択手段903は、図9に示されるようにスコア比較手段913および位置変換部914で構成される。
スコア比較手段913は、検索手段902で作成されたリスト1114を記憶部1101から読み出し、各行毎に、そのスコア1112を予め設定された閾値と比較し、閾値以上のスコアを持つ行の修正箇所候補の位置1111を修正箇所として選択し、位置変換部914に出力する。ここでは、予め設定された閾値以上のスコアを持つ修正箇所候補の位置1111を修正箇所として選択したが、リスト1114中で最もスコアの大きい行の修正箇所候補の位置1111を修正箇所として選択するようにしてもよい。
位置変換部914は、認識結果133を構成する文字列と認識結果133の音素列との対応関係に基づいて、スコア比較手段913から出力された認識結果133の音素列上での修正箇所を認識結果133の文字列上での修正箇所に変換し、認識結果修正手段144に出力する。
認識結果修正手段144などの他の構成要素は第1実施例と同じである。
次に、例えば「日本と韓国は」という音声の書き起こしを作成する際に使用する音声認識結果が「日本と勧告は」となっており、利用者が”勧告”を”韓国”に直すために、正解文字列として”韓国”を入力した以降の動作を、図12のフローチャートを参照して説明する。
処理装置107の正解入力手段142は、正解文字列入力欄210に正解文字列が入力されると、それを取り込んで修正箇所決定手段143に伝達する(図12のステップS1201)。修正箇所決定手段143の検索手段902における文字列作成手段911は、正解文字列の”韓国”を音素列”k a N k o k u”に、認識結果の”日本と勧告は”を音素列n i h o N / t o / k a N k o k u / w a”にそれぞれ変換する(ステップS1202)。次に、スコア計算・位置検出手段912は、”韓国”の音素列と、”日本と勧告は”の音素列を入力とし、後者の音素列の各部分と前者の音素列とのマッチングをとり、類似度を示すスコアを計算する(ステップS1203)。この場合、”日本と勧告は”の音素列における”kaNkoku”の部分(認識結果では”勧告”と誤認識されている部分)とのスコアが最も高くなり、他の部分は低いスコアとなる。
次に、選択手段903のスコア比較手段913は、予め閾値として用意しておいたスコアと比較を行い(ステップS1204)、位置変換部914は閾値以上のスコアだった認識結果の音素列部分に対応する認識結果の文字列上の位置を修正位置として出力する。以降、第1実施例と同様の動作が行われる(ステップS1205、S1206)。
上述の例は同音異義語に誤認識していたものを修正する場合についての例で正解文字列と誤認識の音素列が同じであったが、DPマッチングなどの方法を用いることにより、多少の挿入、脱落、置換のある誤認識部分も自動検出することができる。例えば「昨日小泉首相は選挙の」という音声の書き起こしを作成する際の音声認識結果が「昨日小泉受賞は選挙の」となっており、”受賞”を”首相”に直す場合、正解文字列の音素列は”sh u sh o o”、認識結果の音素列は”k i n o o / k o i z u m i / j u sh o o / w a / s e N ky o / n o”であり、DPマッチングの結果”j u sh o o”の部分のマッチングスコアが他の部分と比べて最も高くなるので”受賞”と誤認識していた部分を”首相”の誤認識部分、つまり修正箇所として検出することができる。
このように本実施例によれば、正解文字列の音素列と認識結果の音素列とのマッチングをとることによって、正解文字列で置換すべき修正箇所を自動検出しており、第1実施例と同様の効果が得られる。
なお、本実施例では、正解文字列と発音が類似する箇所を認識結果中から検出するために、正解文字列の音素列と認識結果の音素列とのマッチングをとったが、正解文字列と認識結果とをそれぞれ音節列に変換し、音節列間でマッチングをとるようにしてもよい。例えば「フセイン大統領の故郷」を例にすれば、その音素列と音節列は以下のようになる。
○音素列…h u s e i N d a i t o o ry o o n o k o ky o o
○音節列…ふせいんだいとーりょーのこきょー
図13を参照すると、本実施例における修正箇所決定手段143は、選択手段303に推定手段1301を備えている点で、第1実施例のものと相違する。
本実施例において、選択手段303のスコア比較手段313は、スコア計算・位置検出手段312が出力したスコアの中に閾値以上のものがあった場合には第1実施例と同様に位置変換部314を通じて修正位置を認識結果修正手段144に通知するが、閾値以上のスコアが存在しなかった場合、推定手段1301を起動する。
推定手段1301は、正解入力手段142から入力された正解文字列と予め用意された言語モデルとを用いて、正解文字列と認識結果中の単語との単語間の接続制約を調べ、正解文字列が挿入される確率の高い位置を認識結果上で検出する。そして、推定手段1301は、検出した挿入位置を認識結果修正手段144に通知する。認識結果修正手段144は、図2の注目行表示欄203に表示された認識結果中の前記通知された挿入位置に例えばカーソルを表示するなどの方法で、挿入位置を利用者に提示する。そして、利用者がOKボタン211をオンすると、認識結果修正手段144は、カーソルの当たっている認識結果の挿入箇所に正解文字列を挿入する。
推定手段1301の構成例を図14に示す。図14を参照すると、推定手段1301は、第1記憶部1401、第2記憶部1402、第1入力部1403、第2入力部1404、位置決定部1405、接続可能性計算部1406および選択部1407で構成される。第1入力部1403は、正解文字列入力欄210に入力された正解文字列を例えば図4の第1記憶部401から読み出して、第1記憶部1401に記憶する。第2入力部1404は、注目行表示欄203に表示された認識結果133を記憶装置103から読み出して、第1記憶部1401に記憶する。位置決定部1405は、第1記憶部1401から認識結果133を読み出し、この認識結果133上で挿入箇所となる候補を網羅的に求め、各行に挿入箇所候補の位置1411とスコア1412と処理済フラグ1413との組を設定したリスト1414を生成して第1記憶部1401に記憶する。一般に単語境界位置が挿入箇所の候補になる。この時点では各スコア1412はNULLであり、処理済フラグ1413は未処理を示す。
接続可能性計算部1406は、第1記憶部1401からリスト1414の各行を1行ずつ読み出し、第1記憶部1401から読み出した認識結果133における前記読み出した行の挿入箇所候補の位置1411で示される位置に、第1記憶部1401から読み出した正解文字列301を挿入した場合の、挿入位置の前後の単語との接続可能性を示すスコアを、第2記憶部1402に予め記憶されている言語モデル1421から算出し、スコア1412に書き込むと共に、処理済フラグ1413を処理済に設定する。リスト1414の全フラグ1413が処理済になった時点で接続可能性計算部1406の処理が終了する。
言語モデル1421としては、bigramやtrigramあるいはもっと距離の長い連鎖確率を使用することができる。ここで、bigramは、単語Aが観測されたという条件の下で、その次に単語Bが出現する確率であり、trigramは、単語A、単語Bが続けて観測されたという条件の下で、その次に単語Cが出現する確率である。上記スコアの値としては、この確率が使用される。
最後に選択部1407は、第1記憶部1401からリスト1414中の挿入箇所候補の位置1411とスコア1412の対を順次読み出し、スコア最大となる挿入箇所候補の位置1411とスコア1412の対を特定し、この対のスコアが予め定められた閾値より高い場合に、この対の挿入箇所候補の位置1411を挿入位置1431として認識結果修正手段144に通知する。
その他の構成要素は第1実施例と同じである。
次に、例えば「ほんの少しだけでも飲酒運転に」という音声の書き起こしを作成する際に使用する音声認識結果が「ほんの少しだけでも運転に」となっており、脱落誤り(”飲酒”が脱落)を直すために、利用者が図2の正解文字列入力欄210に脱落している”飲酒”を入力した以降の動作を、図15のフローチャートを参照して説明する。
処理装置107の正解入力手段142は、正解文字列入力欄210に正解文字列が入力されると、それを取り込んで修正箇所決定手段143に伝達する(図15のステップS1501)。修正箇所決定手段143の検索手段302における標準パタン作成手段311は、”飲酒”を音素列”i N sh u”に変換し、予め用意しておいた音素標準パタンをその順に並べて、”飲酒”を表現する標準パタンを作成する(ステップS1502)。次に、スコア計算・位置検出手段312は、”飲酒”の標準パタンと、記憶装置103に保持されていた分析結果132中の認識結果「ほんの少しだけでも運転に」に対応する分析結果を入力とし、各分析結果部分を標準パタンに与えたときに正解文字列(飲酒)を出力する確率(スコア)を計算し(ステップS1503)、選択手段303のスコア比較手段313は、予め閾値として用意しておいたスコアと比較を行う(ステップS1504)。しかし、この場合は閾値以上のスコアを持つ分析結果部分は存在しない。
このような場合に選択手段303は脱落誤りが起きていた可能性を調べるために、推定手段1301により、言語モデル1421を用いて、認識結果中の各挿入位置候補毎に、正解文字列の”飲酒”が挿入されるスコア(確率)を計算し(ステップS1505)、その最大スコアが予め定められた閾値以上であるかどうかを判定する(ステップS1506)。若し、閾値以上であれば、その最大スコアを持つ挿入位置候補が挿入位置に決定され、認識結果修正手段144に通知される。今の場合、”運転”の直前の位置が挿入位置として決定され、認識結果修正手段144に通知されたとする。
認識結果修正手段144は、注目行表示欄203に表示した認識結果のうち、選択手段303が出力した挿入位置の部分にカーソルを表示するなどして、利用者に挿入位置を提示する(ステップS1507)。そして、利用者がOKボタン211をオンすると、認識結果修正手段144は、カーソルの当たっている認識結果の部分(”運転”の直前)に正解文字列”飲酒”を挿入する(ステップS1508)。
本実施例は、第1実施例と同様に正解文字列の標準パタンを用いて修正箇所を検出したが、第2実施例と同様に正解文字列の音素列などの文字列を用いて修正箇所を検索することも可能である。
本実施例によれば、第1および第2の実施例による効果に加え、標準パタンや文字列を用いた検索では検出できなかった修正箇所について、言語モデルの情報を用いて正解文字列が挿入されるべき位置を推測することができる。
次に本発明の第2の実施の形態について図面を参照して詳細に説明する。
図16を参照すると、本発明の第2の実施の形態にかかる音声書き起こし支援装置は、処理装置107の正解入力手段142、修正箇所決定手段143および認識結果修正手段144に代えて複数正解入力手段1602、複数修正箇所決定手段1603、認識結果修正手段1604を備えている点で、図1に示した第1の実施の形態と相違する。
複数正解入力手段1602は、キーボード106から複数の誤認識部分のそれぞれの正解文字列をまとめて取り込み、1つずつ複数修正箇所決定手段1603へ送出する。具体的には、図2の注目行表示欄203に表示されている認識結果中に複数の誤認識部分があったために、利用者が、出現した誤認識の順にそれぞれの正解文字列を例えば空白で区切って正解文字列入力欄210に一度に入力すると、その先頭の正解文字列から順に1つずつ複数修正箇所決定手段1603に送出する。
複数修正箇所決定手段1603は、複数正解入力手段1602から正解文字列が送られてくる毎に、第1の実施の形態の各実施例と同様の方法で、図2の注目行表示欄203に表示されている認識結果のうち、正解文字列と発音が最も類似する箇所を修正箇所に決定し、認識結果修正手段1604に通知する。
認識結果修正手段1604は、記憶装置103に記憶されている認識結果133を複数正解入力手段1602により取り込まれた正解文字列と複数修正箇所決定手段1603により決定された修正箇所とに基づいて自動的に修正するか、もしくは利用者に修正を促す。そして、1つの誤認識部分の修正を完了する毎に、修正した最終位置を示す修正完了通知1601を複数修正箇所決定手段1603に送出する。
複数修正箇所決定手段1603は、修正完了通知1601を受信すると、複数正解入力手段1602から送られる次の正解文字列を元に修正箇所を決定する。その際、複数修正箇所決定手段1603は、注目行表示欄203に表示されている認識結果における修正完了通知1601で通知された修正最終位置より後ろの部分に限定して、正解文字列とのマッチングをとる。
本実施の形態によれば、第1の実施の形態と同様の効果が得られると共に、複数の誤認識のそれぞれに対する正解を出現した誤認識の順に並べてまとめて入力することができ、しかも、複数修正箇所決定手段1603において、正解入力の順番が後ろの正解は、正解入力の順番が先で認識結果修正手段1604で修正が確定した位置より後ろの部分についてのみ正解文字列とのマッチングを行うので、マッチングに要する処理時間を削減することができる効果がある。
次に、複数修正箇所決定手段1603および認識結果修正手段1604を中心に本実施の形態の実施例について詳細に説明する。
図17を参照すると、本実施例における複数修正箇所決定手段1603は、複数正解入力手段1602から1つずつ送られる正解文字列入力欄210に入力された正解文字列301と、注目行表示欄203に表示された認識結果に対応して記憶装置103に記憶されている分析結果132と、認識結果修正手段1604からの修正完了通知1601とを入力し、修正完了通知1601が示す最終修正位置以降の分析結果132上に網羅的に設定した修正箇所候補毎に、その修正箇所候補の分析結果部分と正解文字列301との音声信号的な類似度を示すスコアを計算する検索手段1702と、この検索手段1702で求められた複数の修正箇所候補の内から1または複数の修正箇所を類似度スコアに基づいて選択し、認識結果修正手段1604に認識結果上での修正箇所を通知する選択手段1703とで構成されている。
検索手段1702は、標準パタン作成手段1711およびスコア計算・位置検出手段1712で構成される。
標準パタン作成手段1711は、図4に示した実施例1の標準パタン作成手段311と基本的な構成は同じであるが、認識結果修正手段1604から修正完了通知1601を受ける毎に、複数正解入力手段1602から次の順番の正解文字列301を受け取ってその標準パタンを作成する点が相違する。
スコア計算・位置検出手段1702は、標準パタン作成手段1711で作成された正解文字列の標準パタンと、注目行表示欄203に表示された認識結果に対応して記憶装置103に記憶されている分析結果132と、修正完了通知1601とを入力とし、修正完了通知1601で示される最終修正位置以降の或る分析結果部分を与えたときに標準パタンが正解文字列を出力する確率(スコア)を計算して出力する。スコア計算・位置検出手段1712の構成例を図18に示す。
図18を参照すると、スコア計算・位置検出手段1712は、第3入力部1801が追加されている点と、位置決定部1802の機能が変更されている点で、図6に示した実施例1のスコア計算・位置検出手段312と相違する。第3入力部1801は、認識結果修正手段1604から送出される修正完了通知1601を入力し、この通知に含まれる最終修正位置1811を記憶部601に記憶する。位置決定部1802は、記憶部601から最終修正位置1811を読み出し、記憶部601の分析結果132のうちの最終修正位置1811以降の分析結果部分を読み出し、この分析結果部分上の修正箇所となる候補を網羅的に求め、各行に修正箇所候補の位置611とスコア612と処理済フラグ613との組を設定したリスト614を生成して記憶部601に記憶する。その他の構成と動作は図6のスコア計算・位置検出手段312と同じである。
選択手段1703は、図17に示されるようにスコア比較手段1713と位置変換部1714とで構成される。これらの手段は図3に示した実施例1の選択手段303内のスコア比較手段313、位置変換部314と同じである。
認識結果修正手段1604の構成例を図19に示す。図19を参照すると、認識結果修正手段1604は、修正完了通知部1901が追加されている点で、図7に示した実施例1の認識結果修正手段144と相違する。修正完了通知部1901は、文字列操作部706から認識結果の修正位置を受け取り、認識結果133と分析結果132との対応関係に従って、認識結果上の修正位置を分析結果132上の修正位置に変換し、この変換後の修正位置を含む修正完了通知1601を複数修正箇所決定手段1603に送出する。その他の部分の構成と動作は図7の認識結果修正手段144と同じである。
次に、例えば「手に入らなかった滋養強壮剤や外用風邪薬」という音声の書き起こしを作成する際に使用する音声認識結果が、「手に入らなかった需要強壮ダイヤ外用風邪薬」となっており、利用者が”需要”を”滋養”に、”ダイヤ”を”剤や”に直すために、図2の正解文字列入力欄210に”滋養 剤や”を入力した以降の動作を、図20のフローチャートを参照して説明する。
処理装置107の複数正解入力手段1602は、正解文字列入力欄210に正解文字列が入力されると、それを取り込み(図20のステップS2001)、空白を区切りとして先頭の正解文字列”滋養”を最初の処理対象に設定し、複数修正箇所決定手段1603に伝達する(ステップS2002)。複数修正箇所決定手段1603の検索手段1702における標準パタン作成手段1711は、”滋養”を音素列”j i y o o”に変換し、予め用意しておいた音素標準パタンをその順に並べて、”滋養”を表現する標準パタンを作成する(ステップS2003)。次に、スコア計算・位置検出手段1712は、”滋養”の標準パタンを入力し、この時点では修正完了通知1601で通知された最終修正位置はないので、記憶装置103に保持されていた分析結果132中の認識結果「手に入らなかった需要強壮ダイヤ外用風邪薬」のすべてを入力とし、この入力した分析結果の各部分を標準パタンに与えたときに正解文字列(滋養)を出力する確率(スコア)を計算する(ステップS2004)。この場合、標準パタンは”滋養”と発声されている部分(認識結果では”需要”と誤認識されている部分)の分析結果のところで最も高いスコアとなり、他の部分は低いスコアとなる。次に、選択手段1703のスコア比較手段1713は、予め閾値として用意しておいたスコアと比較を行い(ステップS2005)、位置変換部1714は閾値以上のスコアだった分析結果部分に対応する認識結果上の位置を修正位置として出力する。ここでは、閾値を満たすスコアは1つだけで、”滋養”と発声された部分(誤認識”需要”部分)のみだったとする。
認識結果修正手段1604は、注目行表示欄203に表示した認識結果のうち、選択手段1703が出力した修正位置に相当する認識結果部分”需要”の部分にフォーカスを当て、利用者に修正位置を提示する(ステップS2006)。そして、利用者がOKボタン211をオンすると、フォーカスの当たっている認識結果の部分(誤認識結果”需要”)を正解文字列”滋養”に置換する(ステップS2007)。そして、認識結果修正手段1604は、置換後の”滋養”の直後の位置(”強”の直前)に対応する分析結果132上の位置を含む修正完了通知1601を複数修正箇所決定手段1603に送出し、複数修正箇所決定手段1603のスコア計算・位置検出手段1712は最終修正位置を更新する(ステップS2008)。
複数正解入力手段1602は、次の順番の正解文字列”ダイヤ”を処理対象に設定し(ステップS2009、S2010)、複数修正箇所決定手段1603の検索手段1702における標準パタン作成手段1711は、”ダイヤ”を音素列”d a i y a”に変換してその標準パタンを作成する(ステップS2003)。次に、スコア計算・位置検出手段1712は、”ダイヤ”の標準パタンと、記憶装置103に保持されていた分析結果132中の認識結果「手に入らなかった需要強壮ダイヤ外用風邪薬」のうち修正完了通知1601によって通知された最終修正位置以降の「強壮ダイヤ外用風邪薬」を分析結果対象として、各分析結果部分を標準パタンに与えたときに正解文字列(滋養)を出力する確率(スコア)を計算する(ステップS2004)。この場合、標準パタンは”剤や”と発声されている部分(認識結果では”ダイヤ”と誤認識されている部分)の分析結果のところで最も高いスコアとなり、他の部分は低いスコアとなる。次に、選択手段1703のスコア比較手段1713は、閾値との比較を行い、位置変換部1714は閾値以上のスコアだった分析結果部分に対応する認識結果上の位置を修正位置として出力する。ここでは、”剤や”と発声された部分(誤認識”ダイヤ”部分)が修正位置として出力されたものとする。
認識結果修正手段1604は、注目行表示欄203に表示した認識結果のうち、選択手段1703が出力した修正位置に相当する認識結果部分”ダイヤ”の部分にフォーカスを当て、利用者に修正位置を提示する(ステップS2006)。そして、利用者がOKボタン211をオンすると、認識結果修正手段1604は、フォーカスの当たっている認識結果の部分(誤認識結果”ダイヤ”)を正解文字列”剤や”に置換する(ステップS2007)。そして、置換後の”剤や”の直後の位置(”外”の直前)に対応する分析結果132上の位置を含む修正完了通知1601を複数修正箇所決定手段1603に送出する(ステップS2008)。この時点で、複数正解入力手段1602が入力した全ての正解文字列”滋養”と”剤や”の処理が完了したので、図20の処理が終了する。この時点でスコア計算・位置検出手段1712が保持する最終修正位置はNULLにされる。
次に本実施例の効果を説明する。
注目行表示欄203に表示された認識結果中に複数の誤認識部分がある場合、出現した誤認識の順にそれぞれの正解文字列を入力すれば、先頭の正解文字列から順番に、正解文字列と発音が類似している認識結果部分が修正箇所に自動的に設定されるため、利用者自身が修正箇所を指定する手間が省け、利用者の負担を軽減することができる。また、2番目以降の正解文字列による修正箇所の検索は、その直前の修正で確定した修正箇所以降を対象に行われるため、修正箇所を精度よく且つ短時間で決定することができる。
本実施例の複数修正箇所決定手段1603は、正解文字列を音声の標準パタンに変換し、この標準パタンと記憶装置103上の分析結果132との音響的な類似性を判定したが、第1実施例の箇所で説明したものと同様の各種の変形が可能である。
また本実施例は、標準パタンを用いたマッチングにより修正箇所を決定したが、第2実施例と同様に正解文字列および認識結果を音素列や音節列に変換してマッチングをとることにより修正箇所を決定するようにしてもよい。
以上本発明の実施の形態および実施例について説明したが、本発明は以上の例に限定されず、その他各種の付加変更が可能である。また、処理装置107あるいはそれを構成する修正箇所決定手段143や認識結果修正手段144などは、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態および実施例における処理装置107あるいはそれを構成する修正箇所決定手段143や認識結果修正手段144などの各機能手段として機能させる。
本発明の第1の実施の形態のブロック図である。
本発明の第1の実施の形態において表示装置に表示される画面の一例を示す図である。
本発明の実施例1における修正箇所決定手段のブロック図である。
本発明の実施例1における修正箇所決定手段内の標準パタン作成手段のブロック図である。
正解文字列の音声標準パタンの作成例を示す図である。
本発明の実施例1における修正箇所決定手段内のスコア計算・位置検出手段のブロック図である。
本発明の実施例1における認識結果修正手段のブロック図である。
本発明の実施例1の動作を示すフローチャートである。
本発明の実施例2における修正箇所決定手段のブロック図である。
本発明の実施例2における修正箇所決定手段内の文字列作成手段のブロック図である。
本発明の実施例2における修正箇所決定手段内のスコア計算・位置検出手段のブロック図である。
本発明の実施例2の動作を示すフローチャートである。
本発明の実施例3における修正箇所決定手段のブロック図である。
本発明の実施例3における修正箇所決定手段内の推定手段のブロック図である。
本発明の実施例3の動作を示すフローチャートである。
本発明の第2の実施の形態のブロック図である。
本発明の実施例4における複数修正箇所決定手段のブロック図である。
本発明の実施例4における複数修正箇所決定手段内のスコア計算・位置検出手段のブロック図である。
本発明の実施例4における認識結果修正手段のブロック図である。
本発明の実施例4の動作を示すフローチャートである。
符号の説明
101…音声
102…音声認識装置
103…記憶装置
104…表示装置
105…スピーカ
106…キーボード
107…処理装置
111…音声入力手段
112…分析手段
113…照合手段
121…辞書
122…言語モデル
123…音響モデル
124…記憶装置
131…音声信号
132…分析結果
133…認識結果
141…表示再生部
142…正解入力手段
143…修正箇所決定手段
144…認識結果修正手段
145…認識結果表示手段
146…音声再生手段