JP4784120B2

JP4784120B2 - 音声書き起こし支援装置及びその方法ならびにプログラム

Info

Publication number: JP4784120B2
Application number: JP2005083055A
Authority: JP
Inventors: 亮子今井; 健一磯; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2011-10-05
Anticipated expiration: 2025-03-23
Also published as: JP2006267319A

Description

本発明は音声書き起こし支援装置およびその方法に関し、特に音声を認識し、その結果得られる認識結果に含まれる認識誤りをキーボードから入力された正解文字列で修正することによりテキスト化を行う音声書き起こし支援装置およびその方法に関する。

近年の音声認識技術の向上により音声認識精度が格段に向上しているものの、周囲の雑音などの影響により誤認識を完全になくすことはできない。このため、音声認識結果を利用した書き起こし作業においては、音声認識結果に含まれる誤認識部分を修正する作業が必要になる。

音声認識結果を修正する従来技術の一例が特許文献１に記載されている。この従来技術では、第１の入力音声の認識結果を訂正する際に、利用者は同じフレーズを第２の音声として発声する。例えば、第１の入力音声「チケットを買いたいのですか」に対して「ラケットがカウントなのです」と認識された際、ユーザは同じフレーズ「チケットを買いたいのですか」を繰り返す。装置側では、第１と第２の音声の間で特徴情報の類似する部分と類似しない部分とを検出すると同時に、強調して発声された部分を検出し、類似部分については第２入力音声の認識候補から第１入力音声の認識結果を除外し、第１入力音声と非類似部分で強調されて発声された第２入力音声部分はこの第２入力音声の第１認識候補を採用する。この結果、例えば上記第２入力音声で、「買いたい」の部分を話者が強調して発声した場合に、第２入力音声の認識結果が「チケットを買いたいのですか」になると説明されている。

音声認識結果を修正する他の従来技術が特許文献２に記載されている。この従来技術では、第１の入力音声の認識結果に誤認識部分がある場合、利用者はその誤認識部分と置換するための１語または複数語を第２の入力音声として発声する。装置側では、第１の入力音声の認識結果のそれぞれ異なる箇所を第２の入力音声の認識結果の１語または複数語で網羅的に置換した複数の修正認識結果の中から、音声認識辞書に記載されているものだけを利用者に提示してその一つを選択させることで、誤認識部分の修正を行う。

音声認識結果を修正する別の従来技術が特許文献３に記載されている。この従来技術では、音声認識誤りの発見と修正の作業を複数の修正端末で実施する。個々の修正端末の利用者は、音声認識の誤り部分をタッチパネルをタッチすることで指摘し、キーボードから正解文字列を入力して修正する。
特開２００３-３１６３８６号公報特開２００１−９２４９３号公報特開２００４−２２６９１０号公報

音声認識結果の誤り部分を利用者が修正する作業を支援する技術として前述したように各種の技術が提案されているが、特許文献１および特許文献２に見られるように修正を音声入力で行う方法の場合、正しく修正するのが困難であるという課題がある。その理由は、修正する文字列の正解を音声入力で与えているため、たとえ強調して発声しても誤認識によって正解文字列を正しく入力できない場合があること、および認識辞書にない単語（列）はそもそも音声認識では入力できないからである。

このため正確な修正を行う場合には、特許文献３に見られるようにキーボードから正解文字列を入力せざるを得ないが、その場合、誤認識箇所の指定と正しい文字列の入力の双方を行う必要があり、手間がかかるという課題がある。

本発明はこのような事情に鑑みて提案されたものであり、その目的は、音声認識結果の誤認識部分を正しく且つ効率良く修正することのできる音声書き起こし支援装置およびその方法を提供することにある。

本発明の第１の音声書き起こし支援装置は、音声信号に対して音声認識処理を施して得られる音声認識結果を記憶する記憶手段と、前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力する正解入力手段と、前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索する修正箇所決定手段と、前記決定された修正箇所を前記正解文字列で置換する認識結果修正手段とを備えたことを特徴とする。

本発明の第２の音声書き起こし支援装置は、第１の音声書き起こし支援装置において、前記修正箇所決定手段は、前記正解文字列から作成した音声データと前記音声認識結果に対応する音声データとの間でマッチングをとることにより、前記正解文字列と発音が類似する文字列部分を検索するものであることを特徴とする。

本発明の第３の音声書き起こし支援装置は、第２の音声書き起こし支援装置において、前記正解文字列の音声データとして前記正解文字列から生成した音声標準パタンを使用し、前記音声認識結果の音声データとして前記音声認識結果に対応する前記音声信号の分析結果を使用することを特徴とする。

本発明の第４の音声書き起こし支援装置は、第２の音声書き起こし支援装置において、前記正解文字列の音声データとして前記正解文字列から音声合成で生成した音声信号を使用し、前記音声認識結果の音声データとして前記音声認識結果に対応する音声信号を使用することを特徴とする。

本発明の第５の音声書き起こし支援装置は、第１の音声書き起こし支援装置において、前記修正箇所決定手段は、前記正解文字列から作成した音素列または音節列である文字列と前記音声認識結果から作成した音素列または音節列である文字列との間でマッチングをとることにより、前記正解文字列と発音が類似する文字列部分を検索するものであることを特徴とする。

本発明の第６の音声書き起こし支援装置は、第１の音声書き起こし支援装置において、前記修正箇所決定手段は、前記正解文字列と発音が類似する文字列部分が前記音声認識結果に存在しない場合に、単語の接続制約を記述した言語モデルを用いて前記正解文字列が挿入される確率の高い位置を挿入位置として検索するものであり、前記認識結果修正手段は前記決定された挿入位置に前記正解文字列を挿入するものであることを特徴とする。

本発明の第７の音声書き起こし支援装置は、第１の音声書き起こし支援装置において、前記修正箇所決定手段は、キーボード入力された正解文字列の順序に従って修正箇所の検索を行い、前記認識結果修正手段で修正された修正位置に基づき検索範囲を逐次狭めるものであることを特徴とする。

本発明の音声書き起こし支援方法は、表示再生部が、音声信号に対して音声認識処理を施して得られる音声認識結果を表示装置に表示し、正解入力手段が、前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力し、修正箇所決定手段が、前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索し、認識結果修正手段が、前記決定された修正箇所を前記正解文字列で置換することを特徴とする。

本発明の第１の修正箇所決定装置は、音声信号に対して音声認識処理を施して得られる音声認識結果の認識誤り部分を修正するためにキーボードから入力された正解文字列を音素列に変換して記憶部に記憶する音素列変換手段と、前記記憶部から前記正解文字列の音素列を読み出し、各音素毎の標準パタンを記憶する標準パタン記憶部を検索して前記音素列を音声の標準パタンに変換し、前記記憶部に記憶する音素標準パタン変換手段と、前記音声認識結果に対応する前記音声信号の分析結果上の修正箇所となる候補を網羅的に求め、各修正箇所候補の位置情報を前記記憶部に記憶する位置決定手段と、前記記憶部から前記正解文字列の標準パタン、前記分析結果および前記各修正箇所候補の位置情報を読み出し、前記正解文字列の標準パタンが修正箇所候補の位置情報で特定される前記分析結果上の分析結果部分を出力する確率を各修正箇所候補毎に計算し、前記記憶部に記憶する確率計算手段と、前記記憶部から各修正箇所候補毎に計算された前記確率を読み出して比較し、前記複数の修正箇所候補の中から修正箇所を選択して出力する選択手段とを備えたことを特徴とする。

本発明の第２の修正箇所決定装置は、音声信号に対して音声認識処理を施して得られる音声認識結果の認識誤り部分を修正するためにキーボードから入力された正解文字列および前記音声認識結果の文字列のそれぞれを音素列または音節列に変換して記憶部に記憶する音素列変換手段と、前記記憶部から前記音声認識結果の音素列または音節列を読み出し、その音素列または音節列上の修正箇所となる候補を網羅的に求め、各修正箇所候補の位置情報を前記記憶部に記憶する位置決定手段と、前記記憶部から前記正解文字列および前記音声認識結果の音素列または音節列と前記各修正箇所候補の位置情報とを読み出し、修正箇所候補の位置情報で特定される前記音声認識結果の音素列または音節列上の部分と前記正解文字列の音素列または音節列との類似度を計算し、前記記憶部に記憶する類似度計算手段と、前記記憶部から各修正箇所候補毎に計算された前記類似度を読み出して比較し、前記複数の修正箇所候補の中から修正箇所を選択して出力する選択手段とを備えたことを特徴とする。

『作用』
音声認識装置の認識結果に含まれる誤認識部分は、正解と全くかけ離れた内容になることは少なく、正解と似かよった内容になる。すなわち、誤認識部分と正解とは発音的に似ているケースが多い。本発明はこの点に着目し、音声認識結果のうち正解文字列と発音が類似する文字列部分を修正箇所として検索する。正解文字列と発音的に類似する認識結果部分の検出は、音声信号的な類似検出や音韻的な類似検出によって可能である。前者の音声信号的な類似検出は、正解文字列から作成した音声標準パタンや音声波形信号などの音声信号と、音声認識結果が得られる過程で音声認識装置で得られる分析結果や元の音声信号とを比較することで可能である。また、後者の音韻的な類似検出は、正解文字列および音声認識結果の文字列をそれぞれ音素列や音節列に変換して比較することで可能である。

本発明によれば、音声認識結果を利用した書き起こし作業において誤認識部分の正しい文字列をキーボード入力すると、誤認識部分が自動的に検出され、正しい文字列に修正できるため、作業効率を向上させることができる。

次に本発明の第１の実施の形態について図面を参照して詳細に説明する。

図１を参照すると、本発明の第１の実施の形態にかかる音声書き起こし支援装置は、音声１０１に対して音声認識処理を行う音声認識装置１０２と、この音声認識装置１０２の音声認識結果などを記憶する記憶装置１０３と、音声認識結果などを利用者に表示する表示装置１０４と、音声認識対象となった音声１０１を利用者による確認のために再生して出力するスピーカ１０５と、音声認識結果に含まれる誤り箇所を修正するために正解の文字列を入力するキーボード１０６と、これらに接続された処理装置１０７とから構成されている。

音声認識装置１０２は、音声入力手段１１１、分析手段１１２および照合手段１１３を備え、また、辞書１２１、言語モデル１２２および音響モデル１２３を記憶する記憶装置１２４を備えている。辞書１２１には、認識対象の単語およびその発音が登録されている。言語モデル１２２には、認識対象の単語間の接続制約が記述されている。言語モデルの例としては、音声認識に広く用いられている単語N-gramモデルがある。音響モデル１２３には、認識単位の音響的特徴が記述されている。音響モデルの例としては、音声認識に広く用いられているHMM(Hidden Markov Model)がある。

音声入力手段１１１は、マイクロフォンなどを用いて音声１０１を取り込み、分析手段１１２による分析が行えるような形に処理した音声信号（音声波形のディジタルデータ）１３１を記憶装置１０３に記憶する。

分析手段１１２は、音声信号１３１を記憶装置１０３から入力し、音声信号１３１に対し分析処理を行って周波数スペクトルに関連した特徴の抽出を行う。具体的には、時間窓をかけ高速フーリエ変換のアルゴリズムを用いて離散フーリエ変換を行い、短時間スペクトルを求める。分析手段１１２で得られた分析結果１３２は、音声信号１３１のどの部分の分析結果であるかが明確にわかるように時刻データなどによって音声信号１３１と対応付けられて記憶装置１０３に記憶される。

照合手段１１３は、記憶装置１２４に記憶された辞書１２１、言語モデル１２２および音響モデル１２３を用いて、記憶装置１０３から入力した音声信号の分析結果１３２に対し、候補単語列との間で確率計算を行い、最も尤度の高かった単語列を認識結果として出力する。照合手段１１３で得られた認識結果１３３は、分析結果１３２と対応付けられて記憶装置１０３に記憶される。具体的には、個々の単語あるいは単語の構成要素である個々の音節または音素について、分析結果１３２との対応関係、すなわち、どの単語が分析結果のどの部分から出たものかを示す情報が付加されて記憶装置１０３に記憶される。

処理装置１０７は、記憶装置１０３に記憶された音声１０１の認識結果１３３に含まれる誤り箇所を利用者が発見し且つ修正するための装置であり、表示再生部１４１、正解入力手段１４２、修正箇所決定手段１４３および認識結果修正手段１４４を備えている。

表示再生部１４１は、記憶装置１０３に記憶された認識結果１３３を表示装置１０４に表示する認識結果表示手段１４５と、記憶装置１０３に記憶された音声信号１３１を再生してスピーカ１０５から出力する音声再生手段１４６とを有する。

正解入力手段１４２は、誤認識を修正するための正解文字列をキーボード１０６から取り込む。

修正箇所決定手段１４３は、正解入力手段１４２により取り込まれた正解文字列と発音が似ている箇所を修正箇所として記憶装置１０３に記憶されている認識結果１３３から検索する。正解文字列と発音的に類似する認識結果部分の検索は、後述するように音声信号的な類似検出や音韻的な類似検出によって行われる。

認識結果修正手段１４４は、記憶装置１０３に記憶されている認識結果１３３を正解入力手段１４２により取り込まれた正解文字列と修正箇所決定手段１４３により決定された修正箇所とに基づいて自動的に修正するか、もしくは利用者に修正を促す。

処理装置１０７が表示装置１０４に表示する画面の一例を図２に示す。図２の画面において、再生ボタン２０１をオンすると、表示再生部１４１は、音声再生手段１４６により記憶装置１０３に記憶された音声信号１３１を読み出して再生し、スピーカ１０５から再生音声を出力すると同時に、この音声出力と同期して、認識結果表示手段１４５により、再生中の音声信号の認識結果１３３を認識結果表示欄２０２に表示する。再生ボタン２０１は停止ボタンを兼ねており、もう一度オンすると、再生動作が停止する。

認識結果表示欄２０２は複数行からなり、現在再生されている行は破線で示されるように強調されると共に、注目行表示欄２０３に拡大表示され、またその音声波形のイメージが波形表示欄２０４に表示される。再生ボタン２０１の周囲には、巻き戻しボタン２０５、早送りボタン２０６、ボリューム調整スライダ２０７があり、それぞれ再生位置の巻き戻し、早送り、音量調整が可能になっている。時刻表示欄２０８に表示される時刻は、注目行表示欄２０３に表示される音声認識結果に対応する音声信号の始終端時刻を示す。映像表示欄２０９は、音声に付随する映像がある場合に、再生された映像を表示する欄である。

また、認識結果を修正するためのＧＵＩ部品として、正解文字列入力欄２１０、ＯＫボタン２１１、注目行を一つ前の行あるいは一つ後の行に進める戻りボタン２１２および送りボタン２１３、注目行全体の認識結果を削除する削除ボタン２１４がある。また、注目行表示欄２０３に表示される認識結果中、修正箇所決定手段１４３で決定された修正箇所が破線２１５で示されるように強調して表示されるようになっている。

図２の画面には、注目行表示欄２０３に「フセイン大統領の故郷低い一度から」なる認識結果が表示されているが、この認識結果は「フセイン大統領の故郷ティクリットから」という音声１０１を音声認識装置１０２で認識した際に、「ティクリット」の部分が「低い一度」に誤認識された結果である。このような誤認識部分は、利用者が再生ボタン２０１をオンして元の音声信号１３１を自分の耳で聞き取り、注目行表示欄２０３に表示されている認識結果と比べることで容易に発見することができる。

従来、このような誤認識箇所の修正は、修正箇所を利用者自身が指定しなければならなかったが、本実施の形態では、正解文字列として「ティクリット」が正解文字列入力欄２１０に入力されると、修正箇所決定手段１４３が、注目行表示欄２０３に表示されている認識結果の文字列の中から正解文字列の「ティクリット」と発音的に似ている箇所「低い一度」を検出し、この検出部分を修正箇所として利用者に提示する。このため、利用者は修正箇所を自ら指定する手間が省け、修正作業を効率良く進めることが可能となる。なお、若し検出された修正箇所が間違っていれば、マウスカーソルなどで正しい修正箇所を注目行表示欄２０３上で指定すれば良く、その場合の労力は利用者自身が最初から修正箇所を指定する場合と変わらない。

次に、修正箇所決定手段１４３および認識結果修正手段１４４を中心に本実施の形態の幾つかの実施例について詳細に説明する。

図３を参照すると、本実施例における修正箇所決定手段１４３は、正解文字列入力欄２１０に入力された正解文字列３０１と、注目行表示欄２０３に表示された認識結果に対応して記憶装置１０３に記憶されている分析結果１３２とを入力し、分析結果１３２上に網羅的に設定した修正箇所候補毎に、その修正箇所候補の分析結果部分と正解文字列３０１との音声信号的な類似度を示すスコアを計算する検索手段３０２と、この検索手段３０２で求められた複数の修正箇所候補の内から１または複数の修正箇所を類似度スコアに基づいて選択し、認識結果修正手段１４４に認識結果上での修正箇所を通知する選択手段３０３とで構成されている。

検索手段３０２は、標準パタン作成手段３１１およびスコア計算・位置検出手段３１２で構成される。

標準パタン作成手段３１１は、正解文字列３０１に対応する音声の標準パタンを作成する。具体的には、正解文字列３０１を音素列に変換し、予め用意しておいた音素標準パタンをその順に並べ、その文字列の標準パタンを作成する。標準パタン作成手段３１１の構成例を図４に示す。

図４を参照すると、標準パタン作成手段３１１は、第１記憶部４０１、第２記憶部４０２、入力部４０３、音素列変換部４０４、音素標準パタン変換部４０５および第３記憶部４０６で構成される。入力部４０３は、正解文字列３０１を入力し、第１記憶部４０１に記憶する。音素列変換部４０４は、第１記憶部４０１から正解文字列３０１中の文字をその先頭より順に入力し、単語とその発音すなわち音素列を記述した辞書を予め記憶する第３記憶部４０６を検索して各文字を音素列に変換し、第１記憶部４０１に音素列４１１として記憶する。音素標準パタン変換部４０５は、第１記憶部４０１から音素列４１１中の音素をその先頭より順に入力し、各音素毎の標準パタンを記憶している第２記憶部４０２から当該音素に対応する音素標準パタンを検索し、第１記憶部４０１に出力する処理を繰り返すことにより、正解文字列３０１に対応する標準パタン４１２を第１記憶部４０１上に生成する。ここで、第２記憶部４０２に予め記憶される音素標準パタンは、分析結果１３２との類似度が計算できるように分析結果１３２と同じ種類のパタン（例えば前述したHMMなど）が使用される。

例えば図２の正解文字列入力欄２１０に入力された「ティクリット」の場合、図５に示されるように、「ティクリット」が音素列「t i k u r i Qt t o」に変換され、次いで予め用意された音素標準パタンをその順に並べ、「ティクリット」を表す標準パタンが作成される。

スコア計算・位置検出手段３１２は、標準パタン作成手段３１１で作成された正解文字列の標準パタン４１２と、注目行表示欄２０３に表示された認識結果に対応して記憶装置１０３に記憶されている分析結果１３２とを入力とし、或る分析結果部分を与えたときに標準パタンが正解文字列を出力する確率（スコア）を計算して出力する。スコア計算・位置検出手段３１２の構成例を図６に示す。

図６を参照すると、スコア計算・位置検出手段３１２は、記憶部６０１、第１入力部６０２、第２入力部６０３、位置決定部６０４および確率計算部６０５で構成される。第１入力部６０２は、標準パタン作成手段３１１により作成された正解文字列の標準パタン４１２を図４の第１記憶部４０１から読み出して、記憶部６０１に記憶する。第２入力部６０３は、注目行表示欄２０３に表示された認識結果に対応する分析結果１３２を記憶装置１０３から読み出して記憶部６０１に記憶する。位置決定部６０４は、記憶部６０１から分析結果１３２を読み出し、分析結果１３２上の修正箇所となる候補を網羅的に求め、各行に修正箇所候補の位置６１１とスコア６１２と処理済フラグ６１３との組を設定したリスト６１４を生成して記憶部６０１に記憶する。この時点では各スコア６１２はNULLであり、処理済フラグ６１３は未処理を示す。確率計算部６０５は、記憶部６０１からリスト６１４の各行を１行ずつ読み出し、読み出した行の修正箇所候補の位置６１１で示される分析結果部分を記憶部６０１の分析結果１３２から読み出し、記憶部６０１から読み出した標準パタン４１２が前記読み出した分析結果部分を出力する確率（スコア）を計算し、スコア６１２に書き込むと共に、処理済フラグ６１３を処理済に設定する。リスト６１４の全フラグ６１３が処理済になった時点で処理が終了する。

選択手段３０３は、図３に示されるようにスコア比較手段３１３と位置変換部３１４とで構成される。

スコア比較手段３１３は、検索手段３０２で作成されたリスト６１４を記憶部６０１から読み出し、各行毎に、そのスコア６１２を予め設定された閾値と比較し、閾値以上のスコアを持つ行の修正箇所候補の位置６１１を修正箇所として選択し、位置変換部３１４に出力する。ここでは、予め設定された閾値以上のスコアを持つ修正箇所候補の位置６１１を修正箇所として選択したが、リスト６１４中で最もスコアの大きい行の修正箇所候補の位置６１１を修正箇所として選択するようにしてもよい。

位置変換部３１４は、記憶装置１０３における分析結果１３２と認識結果１３３との対応関係に基づいて、スコア比較手段３１３から出力された分析結果１３２上での修正箇所を認識結果１３３上での修正箇所に変換し、認識結果修正手段１４４に出力する。

認識結果修正手段１４４の構成例を図７に示す。図７を参照すると、認識結果修正手段１４４は、記憶部７０１、第１入力部７０２、第２入力部７０３、第３入力部７０４、修正箇所提示手段７０５および文字列操作部７０６で構成される。第１入力部７０２は、正解文字列３０１を例えば図４の第１記憶部４０１から読み出し、記憶部７０１に記憶する。第２入力部７０３は、図２の注目行表示欄２０３に表示されている認識結果１３３を記憶装置１０３から読み出し、記憶部７０１に記憶する。第３入力部７０４は、修正箇所決定手段１４３の選択手段３０３における位置変換部３１４から出力された認識結果上での修正位置７１１を入力して記憶部７０１に記憶する。修正箇所提示手段７０５は、記憶部７０１から修正箇所７１１を読み出し、図２の注目行表示欄２０３に表示されている認識結果中の修正箇所７１１が示す部分を強調して表示することにより、利用者に修正箇所を提示する。文字列操作部７０６は、図２のＯＫボタン２１１がオンされた場合に、記憶部７０１から正解文字列３０１、認識結果１３３および修正位置７１１を読み出し、修正位置７１１が示す認識結果１３３上の修正箇所の文字列を正解文字列３０１で置換し、置換後の認識結果を記憶装置１０３に書き戻すと同時に図２の注目行表示欄２０３の表示を更新する。なお、利用者が注目行表示欄２０３上で修正位置をマウス操作などによって変更した場合、第３入力部７０３が変更後の修正位置で記憶部７０１の修正位置７１１を更新する。

次に、例えば「フセイン大統領の故郷ティクリットから」という音声の書き起こしを作成する際に使用する音声認識結果が、図２の注目行表示欄２０３に表示されるように「フセイン大統領の故郷低い一度から」となっており、利用者が”低い一度”を”ティクリット”に直すために、正解文字列入力欄２１０に”ティクリット”を入力した以降の動作を、図８のフローチャートを参照して説明する。

処理装置１０７の正解入力手段１４２は、正解文字列入力欄２１０に正解文字列が入力されると、それを取り込み、修正箇所決定手段１４３に伝達する（図８のステップＳ８０１）。修正箇所決定手段１４３の検索手段３０２における標準パタン作成手段３１１は、図５に示したように、”ティクリット”を音素列”t i k u r i Qt t o”に変換し、予め用意しておいた音素標準パタンをその順に並べて、”ティクリット”を表現する標準パタンを作成する（ステップＳ８０２）。次に、スコア計算・位置検出手段３１２は、”ティクリット”の標準パタンと、記憶装置１０３に保持されていた分析結果１３２中の認識結果「フセイン大統領の故郷低い一度から」に対応する分析結果を入力とし、各分析結果部分を標準パタンに与えたときに正解文字列(ティクリット)を出力する確率(スコア)を計算する（ステップＳ８０３）。この場合、標準パタンは”ティクリット”と発声されている部分(認識結果では”低い一度”と誤認識されている部分)の分析結果のところで最も高いスコアとなり、他の部分は低いスコアとなる。

次に、選択手段３０３のスコア比較手段３１３は、予め閾値として用意しておいたスコアと比較を行い、位置変換部３１４は閾値以上のスコアだった分析結果部分に対応する認識結果上の位置を修正位置として出力する。閾値は、その値以上のスコアであればその部分が正解文字列とみなせるという値を設定しておく。あるいはスコアの高かった順にその部分の位置情報を出力するようにしてもよい。ここでは、閾値を満たすスコアは１つだけで、”ティクリット”と発声された部分(誤認識”低い一度”部分)のみだったとする。

認識結果修正手段１４４は、注目行表示欄２０３に表示した認識結果のうち、選択手段３０３が出力した修正位置に相当する認識結果部分”低い一度”の部分にフォーカスを当て、利用者に修正位置を提示する（ステップＳ８０４、Ｓ８０５）。そして、利用者がＯＫボタン２１１をオンすると、認識結果修正手段１４４は、フォーカスの当たっている認識結果の部分(誤認識結果”低い一度”)を正解文字列”ティクリット”に置換する（ステップＳ８０６）。

なお、閾値を満たすスコアのものが複数あった場合やスコアの高かった順に並べる場合についても、スコアの高い順に逐次変換してよいかどうかを利用者に確認しながら変換を行うようにすればよい。

次に本実施例の効果を説明する。

正解文字列を入力すれば、その正解文字列と発音が類似している認識結果部分が修正箇所に自動的に設定されるため、利用者自身が修正箇所を指定する手間が省け、利用者の負担を軽減することができる。

正解文字列を音声入力でなくキーボードから入力するため、誤認識箇所の正解文字列を正確に与えることができると共に、正解文字列が認識辞書にない単語(列)でも正しく正解を与えることができる。また、元の音声の発話者に限らず誰でも修正作業が行える。

正解文字列と発音が類似する箇所の探索を、認識結果全体でなくその一部分（注目行表示欄２０３に表示されている部分）に限定したため、修正箇所の検出を迅速かつ正確に行うことができる。

本実施例の修正箇所決定手段１４３は、正解文字列を音声の標準パタンに変換し、この標準パタンと記憶装置１０３上の分析結果１３２との音声信号的な類似性を判定したが、音声合成によって正解文字列から音声波形を生成し、これと記憶装置１０３上の音声信号１３１との音韻的な類似性を判定することにより修正箇所を決定することもできる。

また本実施例の修正箇所決定手段１４３は、正解文字列の標準パタンと比較する分析結果を記憶装置１０３から読み出したが、記憶装置１０３に記憶されている音声信号１３１から分析手段１１２と同様の処理で分析結果を修正箇所決定手段１４３自身が生成して利用することもできる。あるいは、正解文字列から標準パタンを作成したように、音声認識結果の文字列から音声の標準パタンを作成して利用することもできる。これらの構成によれば、音声認識装置１０２は音声認識処理の途中結果である分析結果１３２を記憶装置１０３に出力する必要がない。

また本実施例の認識結果修正手段１４４は、修正箇所決定手段１４３で決定された修正箇所を利用者に提示し、利用者の確認を得てから認識結果の修正を行ったが、修正箇所の提示や利用者による確認を省略し、認識結果修正手段１４４が、決定された修正箇所を正解文字列に自動的に置換するようにしてもよい。

また本実施例では、利用者は誤認識部分のみの正解を入力する例を示したが、誤認識部分とその前あるいは後の文字とから構成される文字列を正解文字列として入力することもできる。例えば前述した例では、「故郷ティクリットから」などのように正しく認識していた部分も付けて入力することもできる。こうすると、修正箇所の決定がより正確になる利点がある。なお、この場合、認識結果修正手段１４４が、「故郷低い一度から」全体を「故郷ティクリットから」に修正するか、正解文字列のうち認識結果と一致しない部分「低い一度」を「ティクリット」に修正するかは任意である。

図９を参照すると、本実施例における修正箇所決定手段１４３は、正解文字列入力欄２１０に入力された正解文字列３０１と、注目行表示欄２０３に表示された認識結果１３３とを入力とし、認識結果１３３上に網羅的に設定した修正箇所候補毎に、その修正箇所候補の認識結果部分と正解文字列３０１との音韻的な類似度を示すスコアを計算する検索手段９０２と、この検索手段９０２で求められた複数の修正箇所候補の内から１または複数の修正箇所を類似度スコアに基づいて選択し、認識結果修正手段１４４に認識結果上での修正箇所を通知する選択手段９０３とで構成されている。

検索手段９０２は、文字列作成手段９１１およびスコア計算・位置検出手段９１２で構成される。

文字列作成手段９１１は、正解文字列３０１と認識結果１３３を入力とし、正解文字列３０１と認識結果１３３とのマッチングがとれるようにどちらも音素列に変換する。文字列作成手段９１１の構成例を図１０に示す。

図１０を参照すると、文字列作成手段９１１は、第１記憶部１００１、第２記憶部１００２、第１入力部１００３、第２入力部１００４および音素列変換部１００５で構成される。第１入力部１００３は、正解文字列３０１を入力し、第１記憶部１００１に記憶する。第２入力部１００４は、注目行表示欄２０３に表示された認識結果１３３を入力し、第１記憶部１００１に記憶する。音素列変換部１００５は、第１記憶部１００１から正解文字列３０１中の文字をその先頭より順に入力し、単語とその発音すなわち音素列を記述した辞書を予め記憶する第２記憶部１００２を検索して各文字を音素列に変換し、第１記憶部１００１に正解文字列の音素列１０１１として記憶する。また、音素列変換部１００５は、第１記憶部１００１から認識結果１３３中の文字をその先頭より順に入力し、第２記憶部１００２の辞書を検索して各文字を音素列に変換し、第１記憶部１００１に認識結果の音素列１０１２として記憶する。

スコア計算・位置検出手段９１２は、文字列作成手段９１１で作成された正解文字列の音素列１０１１と認識結果の音素列１０１２とを入力とし、認識結果の音素列１０１２の各部分毎に正解文字列の音素列１０１１との類似度（スコア）を計算して出力する。スコア計算・位置検出手段９１２の構成例を図１１に示す。

図１１を参照すると、スコア計算・位置検出手段９１２は、記憶部１１０１、第１入力部１１０２、第２入力部１１０３、位置決定部１１０４および類似度計算部１１０５で構成される。第１入力部１１０２は、文字列作成手段９１１により作成された正解文字列の音素列１０１１を図１０の第１記憶部１００１から読み出して、記憶部１１０１に記憶する。第２入力部１１０３は、文字列作成手段９１１により作成された認識結果の音素列１０１２を図１０の第１記憶部１００１から読み出して記憶部１１０１に記憶する。位置決定部１１０４は、記憶部１１０１から認識結果の音素列１０１２を読み出し、この音素列１０１２上の修正箇所となる候補を網羅的に求め、各行に修正箇所候補の位置１１１１とスコア１１１２と処理済フラグ１１１３との組を設定したリスト１１１４を生成して記憶部１１０１に記憶する。この時点では各スコア１１１２はNULLであり、処理済フラグ１１１３は未処理を示す。類似度計算部１１０５は、記憶部１１０１からリスト１１１４の各行を１行ずつ読み出し、読み出した行の修正箇所候補の位置１１１１で示される音素列の部分を記憶部１１０１の認識結果の音素列１０１２から読み出し、記憶部１１０１から読み出した正解文字列の音素列１０１１との類似度（スコア）をDPマッチング法などで計算し、スコア１１１２に書き込むと共に、処理済フラグ１１１３を処理済に設定する。リスト１１１４の全フラグ１１１３が処理済になった時点で処理が終了する。

選択手段９０３は、図９に示されるようにスコア比較手段９１３および位置変換部９１４で構成される。

スコア比較手段９１３は、検索手段９０２で作成されたリスト１１１４を記憶部１１０１から読み出し、各行毎に、そのスコア１１１２を予め設定された閾値と比較し、閾値以上のスコアを持つ行の修正箇所候補の位置１１１１を修正箇所として選択し、位置変換部９１４に出力する。ここでは、予め設定された閾値以上のスコアを持つ修正箇所候補の位置１１１１を修正箇所として選択したが、リスト１１１４中で最もスコアの大きい行の修正箇所候補の位置１１１１を修正箇所として選択するようにしてもよい。

位置変換部９１４は、認識結果１３３を構成する文字列と認識結果１３３の音素列との対応関係に基づいて、スコア比較手段９１３から出力された認識結果１３３の音素列上での修正箇所を認識結果１３３の文字列上での修正箇所に変換し、認識結果修正手段１４４に出力する。

認識結果修正手段１４４などの他の構成要素は第１実施例と同じである。

次に、例えば「日本と韓国は」という音声の書き起こしを作成する際に使用する音声認識結果が「日本と勧告は」となっており、利用者が”勧告”を”韓国”に直すために、正解文字列として”韓国”を入力した以降の動作を、図１２のフローチャートを参照して説明する。

処理装置１０７の正解入力手段１４２は、正解文字列入力欄２１０に正解文字列が入力されると、それを取り込んで修正箇所決定手段１４３に伝達する（図１２のステップＳ１２０１）。修正箇所決定手段１４３の検索手段９０２における文字列作成手段９１１は、正解文字列の”韓国”を音素列”k a N k o k u”に、認識結果の”日本と勧告は”を音素列n i h o N / t o / k a N k o k u / w a”にそれぞれ変換する（ステップＳ１２０２）。次に、スコア計算・位置検出手段９１２は、”韓国”の音素列と、”日本と勧告は”の音素列を入力とし、後者の音素列の各部分と前者の音素列とのマッチングをとり、類似度を示すスコアを計算する（ステップＳ１２０３）。この場合、”日本と勧告は”の音素列における”kaNkoku”の部分(認識結果では”勧告”と誤認識されている部分)とのスコアが最も高くなり、他の部分は低いスコアとなる。

次に、選択手段９０３のスコア比較手段９１３は、予め閾値として用意しておいたスコアと比較を行い（ステップＳ１２０４）、位置変換部９１４は閾値以上のスコアだった認識結果の音素列部分に対応する認識結果の文字列上の位置を修正位置として出力する。以降、第１実施例と同様の動作が行われる（ステップＳ１２０５、Ｓ１２０６）。

上述の例は同音異義語に誤認識していたものを修正する場合についての例で正解文字列と誤認識の音素列が同じであったが、DPマッチングなどの方法を用いることにより、多少の挿入、脱落、置換のある誤認識部分も自動検出することができる。例えば「昨日小泉首相は選挙の」という音声の書き起こしを作成する際の音声認識結果が「昨日小泉受賞は選挙の」となっており、”受賞”を”首相”に直す場合、正解文字列の音素列は”sh u sh o o”、認識結果の音素列は”k i n o o / k o i z u m i / j u sh o o / w a / s e N ky o / n o”であり、DPマッチングの結果”j u sh o o”の部分のマッチングスコアが他の部分と比べて最も高くなるので”受賞”と誤認識していた部分を”首相”の誤認識部分、つまり修正箇所として検出することができる。

このように本実施例によれば、正解文字列の音素列と認識結果の音素列とのマッチングをとることによって、正解文字列で置換すべき修正箇所を自動検出しており、第１実施例と同様の効果が得られる。

なお、本実施例では、正解文字列と発音が類似する箇所を認識結果中から検出するために、正解文字列の音素列と認識結果の音素列とのマッチングをとったが、正解文字列と認識結果とをそれぞれ音節列に変換し、音節列間でマッチングをとるようにしてもよい。例えば「フセイン大統領の故郷」を例にすれば、その音素列と音節列は以下のようになる。
○音素列…h u s e i N d a i t o o ry o o n o k o ky o o
○音節列…ふせいんだいとーりょーのこきょー

図１３を参照すると、本実施例における修正箇所決定手段１４３は、選択手段３０３に推定手段１３０１を備えている点で、第１実施例のものと相違する。

本実施例において、選択手段３０３のスコア比較手段３１３は、スコア計算・位置検出手段３１２が出力したスコアの中に閾値以上のものがあった場合には第１実施例と同様に位置変換部３１４を通じて修正位置を認識結果修正手段１４４に通知するが、閾値以上のスコアが存在しなかった場合、推定手段１３０１を起動する。

推定手段１３０１は、正解入力手段１４２から入力された正解文字列と予め用意された言語モデルとを用いて、正解文字列と認識結果中の単語との単語間の接続制約を調べ、正解文字列が挿入される確率の高い位置を認識結果上で検出する。そして、推定手段１３０１は、検出した挿入位置を認識結果修正手段１４４に通知する。認識結果修正手段１４４は、図２の注目行表示欄２０３に表示された認識結果中の前記通知された挿入位置に例えばカーソルを表示するなどの方法で、挿入位置を利用者に提示する。そして、利用者がＯＫボタン２１１をオンすると、認識結果修正手段１４４は、カーソルの当たっている認識結果の挿入箇所に正解文字列を挿入する。

推定手段１３０１の構成例を図１４に示す。図１４を参照すると、推定手段１３０１は、第１記憶部１４０１、第２記憶部１４０２、第１入力部１４０３、第２入力部１４０４、位置決定部１４０５、接続可能性計算部１４０６および選択部１４０７で構成される。第１入力部１４０３は、正解文字列入力欄２１０に入力された正解文字列を例えば図４の第１記憶部４０１から読み出して、第１記憶部１４０１に記憶する。第２入力部１４０４は、注目行表示欄２０３に表示された認識結果１３３を記憶装置１０３から読み出して、第１記憶部１４０１に記憶する。位置決定部１４０５は、第１記憶部１４０１から認識結果１３３を読み出し、この認識結果１３３上で挿入箇所となる候補を網羅的に求め、各行に挿入箇所候補の位置１４１１とスコア１４１２と処理済フラグ１４１３との組を設定したリスト１４１４を生成して第１記憶部１４０１に記憶する。一般に単語境界位置が挿入箇所の候補になる。この時点では各スコア１４１２はNULLであり、処理済フラグ１４１３は未処理を示す。

接続可能性計算部１４０６は、第１記憶部１４０１からリスト１４１４の各行を１行ずつ読み出し、第１記憶部１４０１から読み出した認識結果１３３における前記読み出した行の挿入箇所候補の位置１４１１で示される位置に、第１記憶部１４０１から読み出した正解文字列３０１を挿入した場合の、挿入位置の前後の単語との接続可能性を示すスコアを、第２記憶部１４０２に予め記憶されている言語モデル１４２１から算出し、スコア１４１２に書き込むと共に、処理済フラグ１４１３を処理済に設定する。リスト１４１４の全フラグ１４１３が処理済になった時点で接続可能性計算部１４０６の処理が終了する。

言語モデル１４２１としては、bigramやtrigramあるいはもっと距離の長い連鎖確率を使用することができる。ここで、bigramは、単語Aが観測されたという条件の下で、その次に単語Bが出現する確率であり、trigramは、単語A、単語Bが続けて観測されたという条件の下で、その次に単語Cが出現する確率である。上記スコアの値としては、この確率が使用される。

最後に選択部１４０７は、第１記憶部１４０１からリスト１４１４中の挿入箇所候補の位置１４１１とスコア１４１２の対を順次読み出し、スコア最大となる挿入箇所候補の位置１４１１とスコア１４１２の対を特定し、この対のスコアが予め定められた閾値より高い場合に、この対の挿入箇所候補の位置１４１１を挿入位置１４３１として認識結果修正手段１４４に通知する。

その他の構成要素は第１実施例と同じである。

次に、例えば「ほんの少しだけでも飲酒運転に」という音声の書き起こしを作成する際に使用する音声認識結果が「ほんの少しだけでも運転に」となっており、脱落誤り（”飲酒”が脱落）を直すために、利用者が図２の正解文字列入力欄２１０に脱落している”飲酒”を入力した以降の動作を、図１５のフローチャートを参照して説明する。

処理装置１０７の正解入力手段１４２は、正解文字列入力欄２１０に正解文字列が入力されると、それを取り込んで修正箇所決定手段１４３に伝達する（図１５のステップＳ１５０１）。修正箇所決定手段１４３の検索手段３０２における標準パタン作成手段３１１は、”飲酒”を音素列”i N sh u”に変換し、予め用意しておいた音素標準パタンをその順に並べて、”飲酒”を表現する標準パタンを作成する（ステップＳ１５０２）。次に、スコア計算・位置検出手段３１２は、”飲酒”の標準パタンと、記憶装置１０３に保持されていた分析結果１３２中の認識結果「ほんの少しだけでも運転に」に対応する分析結果を入力とし、各分析結果部分を標準パタンに与えたときに正解文字列(飲酒)を出力する確率(スコア)を計算し（ステップＳ１５０３）、選択手段３０３のスコア比較手段３１３は、予め閾値として用意しておいたスコアと比較を行う（ステップＳ１５０４）。しかし、この場合は閾値以上のスコアを持つ分析結果部分は存在しない。

このような場合に選択手段３０３は脱落誤りが起きていた可能性を調べるために、推定手段１３０１により、言語モデル１４２１を用いて、認識結果中の各挿入位置候補毎に、正解文字列の”飲酒”が挿入されるスコア（確率）を計算し（ステップＳ１５０５）、その最大スコアが予め定められた閾値以上であるかどうかを判定する（ステップＳ１５０６）。若し、閾値以上であれば、その最大スコアを持つ挿入位置候補が挿入位置に決定され、認識結果修正手段１４４に通知される。今の場合、”運転”の直前の位置が挿入位置として決定され、認識結果修正手段１４４に通知されたとする。

認識結果修正手段１４４は、注目行表示欄２０３に表示した認識結果のうち、選択手段３０３が出力した挿入位置の部分にカーソルを表示するなどして、利用者に挿入位置を提示する（ステップＳ１５０７）。そして、利用者がＯＫボタン２１１をオンすると、認識結果修正手段１４４は、カーソルの当たっている認識結果の部分(”運転”の直前)に正解文字列”飲酒”を挿入する（ステップＳ１５０８）。

本実施例は、第１実施例と同様に正解文字列の標準パタンを用いて修正箇所を検出したが、第２実施例と同様に正解文字列の音素列などの文字列を用いて修正箇所を検索することも可能である。

本実施例によれば、第１および第２の実施例による効果に加え、標準パタンや文字列を用いた検索では検出できなかった修正箇所について、言語モデルの情報を用いて正解文字列が挿入されるべき位置を推測することができる。

次に本発明の第２の実施の形態について図面を参照して詳細に説明する。

図１６を参照すると、本発明の第２の実施の形態にかかる音声書き起こし支援装置は、処理装置１０７の正解入力手段１４２、修正箇所決定手段１４３および認識結果修正手段１４４に代えて複数正解入力手段１６０２、複数修正箇所決定手段１６０３、認識結果修正手段１６０４を備えている点で、図１に示した第１の実施の形態と相違する。

複数正解入力手段１６０２は、キーボード１０６から複数の誤認識部分のそれぞれの正解文字列をまとめて取り込み、１つずつ複数修正箇所決定手段１６０３へ送出する。具体的には、図２の注目行表示欄２０３に表示されている認識結果中に複数の誤認識部分があったために、利用者が、出現した誤認識の順にそれぞれの正解文字列を例えば空白で区切って正解文字列入力欄２１０に一度に入力すると、その先頭の正解文字列から順に１つずつ複数修正箇所決定手段１６０３に送出する。

複数修正箇所決定手段１６０３は、複数正解入力手段１６０２から正解文字列が送られてくる毎に、第１の実施の形態の各実施例と同様の方法で、図２の注目行表示欄２０３に表示されている認識結果のうち、正解文字列と発音が最も類似する箇所を修正箇所に決定し、認識結果修正手段１６０４に通知する。

認識結果修正手段１６０４は、記憶装置１０３に記憶されている認識結果１３３を複数正解入力手段１６０２により取り込まれた正解文字列と複数修正箇所決定手段１６０３により決定された修正箇所とに基づいて自動的に修正するか、もしくは利用者に修正を促す。そして、１つの誤認識部分の修正を完了する毎に、修正した最終位置を示す修正完了通知１６０１を複数修正箇所決定手段１６０３に送出する。

複数修正箇所決定手段１６０３は、修正完了通知１６０１を受信すると、複数正解入力手段１６０２から送られる次の正解文字列を元に修正箇所を決定する。その際、複数修正箇所決定手段１６０３は、注目行表示欄２０３に表示されている認識結果における修正完了通知１６０１で通知された修正最終位置より後ろの部分に限定して、正解文字列とのマッチングをとる。

本実施の形態によれば、第１の実施の形態と同様の効果が得られると共に、複数の誤認識のそれぞれに対する正解を出現した誤認識の順に並べてまとめて入力することができ、しかも、複数修正箇所決定手段１６０３において、正解入力の順番が後ろの正解は、正解入力の順番が先で認識結果修正手段１６０４で修正が確定した位置より後ろの部分についてのみ正解文字列とのマッチングを行うので、マッチングに要する処理時間を削減することができる効果がある。

次に、複数修正箇所決定手段１６０３および認識結果修正手段１６０４を中心に本実施の形態の実施例について詳細に説明する。

図１７を参照すると、本実施例における複数修正箇所決定手段１６０３は、複数正解入力手段１６０２から１つずつ送られる正解文字列入力欄２１０に入力された正解文字列３０１と、注目行表示欄２０３に表示された認識結果に対応して記憶装置１０３に記憶されている分析結果１３２と、認識結果修正手段１６０４からの修正完了通知１６０１とを入力し、修正完了通知１６０１が示す最終修正位置以降の分析結果１３２上に網羅的に設定した修正箇所候補毎に、その修正箇所候補の分析結果部分と正解文字列３０１との音声信号的な類似度を示すスコアを計算する検索手段１７０２と、この検索手段１７０２で求められた複数の修正箇所候補の内から１または複数の修正箇所を類似度スコアに基づいて選択し、認識結果修正手段１６０４に認識結果上での修正箇所を通知する選択手段１７０３とで構成されている。

検索手段１７０２は、標準パタン作成手段１７１１およびスコア計算・位置検出手段１７１２で構成される。

標準パタン作成手段１７１１は、図４に示した実施例１の標準パタン作成手段３１１と基本的な構成は同じであるが、認識結果修正手段１６０４から修正完了通知１６０１を受ける毎に、複数正解入力手段１６０２から次の順番の正解文字列３０１を受け取ってその標準パタンを作成する点が相違する。

スコア計算・位置検出手段１７０２は、標準パタン作成手段１７１１で作成された正解文字列の標準パタンと、注目行表示欄２０３に表示された認識結果に対応して記憶装置１０３に記憶されている分析結果１３２と、修正完了通知１６０１とを入力とし、修正完了通知１６０１で示される最終修正位置以降の或る分析結果部分を与えたときに標準パタンが正解文字列を出力する確率（スコア）を計算して出力する。スコア計算・位置検出手段１７１２の構成例を図１８に示す。

図１８を参照すると、スコア計算・位置検出手段１７１２は、第３入力部１８０１が追加されている点と、位置決定部１８０２の機能が変更されている点で、図６に示した実施例１のスコア計算・位置検出手段３１２と相違する。第３入力部１８０１は、認識結果修正手段１６０４から送出される修正完了通知１６０１を入力し、この通知に含まれる最終修正位置１８１１を記憶部６０１に記憶する。位置決定部１８０２は、記憶部６０１から最終修正位置１８１１を読み出し、記憶部６０１の分析結果１３２のうちの最終修正位置１８１１以降の分析結果部分を読み出し、この分析結果部分上の修正箇所となる候補を網羅的に求め、各行に修正箇所候補の位置６１１とスコア６１２と処理済フラグ６１３との組を設定したリスト６１４を生成して記憶部６０１に記憶する。その他の構成と動作は図６のスコア計算・位置検出手段３１２と同じである。

選択手段１７０３は、図１７に示されるようにスコア比較手段１７１３と位置変換部１７１４とで構成される。これらの手段は図３に示した実施例１の選択手段３０３内のスコア比較手段３１３、位置変換部３１４と同じである。

認識結果修正手段１６０４の構成例を図１９に示す。図１９を参照すると、認識結果修正手段１６０４は、修正完了通知部１９０１が追加されている点で、図７に示した実施例１の認識結果修正手段１４４と相違する。修正完了通知部１９０１は、文字列操作部７０６から認識結果の修正位置を受け取り、認識結果１３３と分析結果１３２との対応関係に従って、認識結果上の修正位置を分析結果１３２上の修正位置に変換し、この変換後の修正位置を含む修正完了通知１６０１を複数修正箇所決定手段１６０３に送出する。その他の部分の構成と動作は図７の認識結果修正手段１４４と同じである。

次に、例えば「手に入らなかった滋養強壮剤や外用風邪薬」という音声の書き起こしを作成する際に使用する音声認識結果が、「手に入らなかった需要強壮ダイヤ外用風邪薬」となっており、利用者が”需要”を”滋養”に、”ダイヤ”を”剤や”に直すために、図２の正解文字列入力欄２１０に”滋養剤や”を入力した以降の動作を、図２０のフローチャートを参照して説明する。

処理装置１０７の複数正解入力手段１６０２は、正解文字列入力欄２１０に正解文字列が入力されると、それを取り込み（図２０のステップＳ２００１）、空白を区切りとして先頭の正解文字列”滋養”を最初の処理対象に設定し、複数修正箇所決定手段１６０３に伝達する（ステップＳ２００２）。複数修正箇所決定手段１６０３の検索手段１７０２における標準パタン作成手段１７１１は、”滋養”を音素列”j i y o o”に変換し、予め用意しておいた音素標準パタンをその順に並べて、”滋養”を表現する標準パタンを作成する（ステップＳ２００３）。次に、スコア計算・位置検出手段１７１２は、”滋養”の標準パタンを入力し、この時点では修正完了通知１６０１で通知された最終修正位置はないので、記憶装置１０３に保持されていた分析結果１３２中の認識結果「手に入らなかった需要強壮ダイヤ外用風邪薬」のすべてを入力とし、この入力した分析結果の各部分を標準パタンに与えたときに正解文字列(滋養)を出力する確率(スコア)を計算する（ステップＳ２００４）。この場合、標準パタンは”滋養”と発声されている部分(認識結果では”需要”と誤認識されている部分)の分析結果のところで最も高いスコアとなり、他の部分は低いスコアとなる。次に、選択手段１７０３のスコア比較手段１７１３は、予め閾値として用意しておいたスコアと比較を行い（ステップＳ２００５）、位置変換部１７１４は閾値以上のスコアだった分析結果部分に対応する認識結果上の位置を修正位置として出力する。ここでは、閾値を満たすスコアは１つだけで、”滋養”と発声された部分(誤認識”需要”部分)のみだったとする。

認識結果修正手段１６０４は、注目行表示欄２０３に表示した認識結果のうち、選択手段１７０３が出力した修正位置に相当する認識結果部分”需要”の部分にフォーカスを当て、利用者に修正位置を提示する（ステップＳ２００６）。そして、利用者がＯＫボタン２１１をオンすると、フォーカスの当たっている認識結果の部分(誤認識結果”需要”)を正解文字列”滋養”に置換する（ステップＳ２００７）。そして、認識結果修正手段１６０４は、置換後の”滋養”の直後の位置（”強”の直前）に対応する分析結果１３２上の位置を含む修正完了通知１６０１を複数修正箇所決定手段１６０３に送出し、複数修正箇所決定手段１６０３のスコア計算・位置検出手段１７１２は最終修正位置を更新する（ステップＳ２００８）。

複数正解入力手段１６０２は、次の順番の正解文字列”ダイヤ”を処理対象に設定し（ステップＳ２００９、Ｓ２０１０）、複数修正箇所決定手段１６０３の検索手段１７０２における標準パタン作成手段１７１１は、”ダイヤ”を音素列”d a i y a”に変換してその標準パタンを作成する（ステップＳ２００３）。次に、スコア計算・位置検出手段１７１２は、”ダイヤ”の標準パタンと、記憶装置１０３に保持されていた分析結果１３２中の認識結果「手に入らなかった需要強壮ダイヤ外用風邪薬」のうち修正完了通知１６０１によって通知された最終修正位置以降の「強壮ダイヤ外用風邪薬」を分析結果対象として、各分析結果部分を標準パタンに与えたときに正解文字列(滋養)を出力する確率(スコア)を計算する（ステップＳ２００４）。この場合、標準パタンは”剤や”と発声されている部分(認識結果では”ダイヤ”と誤認識されている部分)の分析結果のところで最も高いスコアとなり、他の部分は低いスコアとなる。次に、選択手段１７０３のスコア比較手段１７１３は、閾値との比較を行い、位置変換部１７１４は閾値以上のスコアだった分析結果部分に対応する認識結果上の位置を修正位置として出力する。ここでは、”剤や”と発声された部分(誤認識”ダイヤ”部分)が修正位置として出力されたものとする。

認識結果修正手段１６０４は、注目行表示欄２０３に表示した認識結果のうち、選択手段１７０３が出力した修正位置に相当する認識結果部分”ダイヤ”の部分にフォーカスを当て、利用者に修正位置を提示する（ステップＳ２００６）。そして、利用者がＯＫボタン２１１をオンすると、認識結果修正手段１６０４は、フォーカスの当たっている認識結果の部分(誤認識結果”ダイヤ”)を正解文字列”剤や”に置換する（ステップＳ２００７）。そして、置換後の”剤や”の直後の位置（”外”の直前）に対応する分析結果１３２上の位置を含む修正完了通知１６０１を複数修正箇所決定手段１６０３に送出する（ステップＳ２００８）。この時点で、複数正解入力手段１６０２が入力した全ての正解文字列”滋養”と”剤や”の処理が完了したので、図２０の処理が終了する。この時点でスコア計算・位置検出手段１７１２が保持する最終修正位置はNULLにされる。

次に本実施例の効果を説明する。

注目行表示欄２０３に表示された認識結果中に複数の誤認識部分がある場合、出現した誤認識の順にそれぞれの正解文字列を入力すれば、先頭の正解文字列から順番に、正解文字列と発音が類似している認識結果部分が修正箇所に自動的に設定されるため、利用者自身が修正箇所を指定する手間が省け、利用者の負担を軽減することができる。また、２番目以降の正解文字列による修正箇所の検索は、その直前の修正で確定した修正箇所以降を対象に行われるため、修正箇所を精度よく且つ短時間で決定することができる。

本実施例の複数修正箇所決定手段１６０３は、正解文字列を音声の標準パタンに変換し、この標準パタンと記憶装置１０３上の分析結果１３２との音響的な類似性を判定したが、第１実施例の箇所で説明したものと同様の各種の変形が可能である。

また本実施例は、標準パタンを用いたマッチングにより修正箇所を決定したが、第２実施例と同様に正解文字列および認識結果を音素列や音節列に変換してマッチングをとることにより修正箇所を決定するようにしてもよい。

以上本発明の実施の形態および実施例について説明したが、本発明は以上の例に限定されず、その他各種の付加変更が可能である。また、処理装置１０７あるいはそれを構成する修正箇所決定手段１４３や認識結果修正手段１４４などは、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態および実施例における処理装置１０７あるいはそれを構成する修正箇所決定手段１４３や認識結果修正手段１４４などの各機能手段として機能させる。

本発明の第１の実施の形態のブロック図である。本発明の第１の実施の形態において表示装置に表示される画面の一例を示す図である。本発明の実施例１における修正箇所決定手段のブロック図である。本発明の実施例１における修正箇所決定手段内の標準パタン作成手段のブロック図である。正解文字列の音声標準パタンの作成例を示す図である。本発明の実施例１における修正箇所決定手段内のスコア計算・位置検出手段のブロック図である。本発明の実施例１における認識結果修正手段のブロック図である。本発明の実施例１の動作を示すフローチャートである。本発明の実施例２における修正箇所決定手段のブロック図である。本発明の実施例２における修正箇所決定手段内の文字列作成手段のブロック図である。本発明の実施例２における修正箇所決定手段内のスコア計算・位置検出手段のブロック図である。本発明の実施例２の動作を示すフローチャートである。本発明の実施例３における修正箇所決定手段のブロック図である。本発明の実施例３における修正箇所決定手段内の推定手段のブロック図である。本発明の実施例３の動作を示すフローチャートである。本発明の第２の実施の形態のブロック図である。本発明の実施例４における複数修正箇所決定手段のブロック図である。本発明の実施例４における複数修正箇所決定手段内のスコア計算・位置検出手段のブロック図である。本発明の実施例４における認識結果修正手段のブロック図である。本発明の実施例４の動作を示すフローチャートである。

符号の説明

１０１…音声
１０２…音声認識装置
１０３…記憶装置
１０４…表示装置
１０５…スピーカ
１０６…キーボード
１０７…処理装置
１１１…音声入力手段
１１２…分析手段
１１３…照合手段
１２１…辞書
１２２…言語モデル
１２３…音響モデル
１２４…記憶装置
１３１…音声信号
１３２…分析結果
１３３…認識結果
１４１…表示再生部
１４２…正解入力手段
１４３…修正箇所決定手段
１４４…認識結果修正手段
１４５…認識結果表示手段
１４６…音声再生手段

Claims

音声信号に対して音声認識処理を施して得られる音声認識結果を記憶する記憶手段と、
前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力する正解入力手段と、
前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索し、前記正解文字列と発音が類似する文字列部分が前記音声認識結果に存在しない場合に、単語の接続制約を記述した言語モデルを用いて前記正解文字列が挿入される確率の高い位置を挿入位置として検索する修正箇所決定手段と、
前記検索された修正箇所を前記正解文字列で置換し、前記検索された挿入位置に前記正解文字列を挿入する認識結果修正手段とを備えたことを特徴とする音声書き起こし支援装置。
前記修正箇所決定手段は、キーボード入力された正解文字列の順序に従って修正箇所の検索を行い、該修正箇所の検索では前記音声認識結果のうち前記認識結果修正手段によって最後に修正された箇所以降を検索範囲とすることを特徴とする請求項１記載の音声書き起こし支援装置。
音声信号に対して音声認識処理を施して得られる音声認識結果を記憶する記憶手段と、正解入力手段と、修正箇所決定手段と、認識結果修正手段とを有する音声書き起こし支援装置が実行する音声書き起こし支援方法であって、
前記正解入力手段が、前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力し、
前記修正箇所決定手段が、前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索し、前記正解文字列と発音が類似する文字列部分が前記音声認識結果に存在しない場合に、単語の接続制約を記述した言語モデルを用いて前記正解文字列が挿入される確率の高い位置を挿入位置として検索し、
前記認識結果修正手段が、前記検索された修正箇所を前記正解文字列で置換し、前記検索された挿入位置に前記正解文字列を挿入する
ことを特徴とする音声書き起こし支援方法。
前記修正箇所決定手段が、キーボード入力された正解文字列の順序に従って修正箇所の検索を行い、該修正箇所の検索では前記音声認識結果のうち前記認識結果修正手段によって最後に修正された箇所以降を検索範囲とする
ことを特徴とする請求項３記載の音声書き起こし支援方法。
音声信号に対して音声認識処理を施して得られる音声認識結果を記憶する記憶手段を備えたコンピュータを、
前記音声認識結果の認識誤り部分を修正するための正解文字列をキーボードから入力する正解入力手段と、
前記音声認識結果のうち前記正解文字列と発音が類似する文字列部分を修正箇所として検索し、前記正解文字列と発音が類似する文字列部分が前記音声認識結果に存在しない場合に、単語の接続制約を記述した言語モデルを用いて前記正解文字列が挿入される確率の高い位置を挿入位置として検索する修正箇所決定手段と、
前記検索された修正箇所を前記正解文字列で置換し、前記検索された挿入位置に前記正解文字列を挿入する認識結果修正手段と
して機能させるためのプログラム。
前記修正箇所決定手段は、キーボード入力された正解文字列の順序に従って修正箇所の検索を行い、該修正箇所の検索では前記音声認識結果のうち前記認識結果修正手段によって最後に修正された箇所以降を検索範囲とすることを特徴とする請求項５記載のプログラム。