JP5478478B2 - テキスト修正装置およびプログラム - Google Patents
テキスト修正装置およびプログラム Download PDFInfo
- Publication number
- JP5478478B2 JP5478478B2 JP2010279647A JP2010279647A JP5478478B2 JP 5478478 B2 JP5478478 B2 JP 5478478B2 JP 2010279647 A JP2010279647 A JP 2010279647A JP 2010279647 A JP2010279647 A JP 2010279647A JP 5478478 B2 JP5478478 B2 JP 5478478B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- recognition result
- word string
- string data
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims description 150
- 238000000034 method Methods 0.000 claims description 91
- 230000008569 process Effects 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 64
- 238000013500 data storage Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 description 65
- 238000012986 modification Methods 0.000 description 26
- 230000004048 modification Effects 0.000 description 26
- 238000003780 insertion Methods 0.000 description 17
- 230000037431 insertion Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
このとき、音声認識処理の精度を100%にすることは困難であるため、音声認識結果を何らかの方法で修正することが求められる。
例えば、特許文献1には、音声認識結果を発話単位で修正するための装置が記載されている。ここで、発話単位とは、発話開始から発話終了までの区間などの単位である。
また、非特許文献1には、音声認識誤りを人手で修正するための装置が記載されている。この装置は、タッチパネルモニタに音声認識結果を提示するものであり、オペレータが提示された認識結果を一字一句目視でチェックし、誤りを発見したらその単語をタッチして選択し、キーボードで修正を行うものである。
特許文献1に記載された技術では、文単位でのマッチングによって認識結果の修正を行うため、一つの文の発話終了後にしか修正結果を得ることができない。つまり、リアルタイムな修正ができない。
また、本発明の一態様によれば、音声認識結果を修正する装置において、利用者が音声認識結果のテキストを逐一目視する必要がなく、提示された修正候補が適切な習性化否かを判断するだけで、音声認識結果の修正を行える。
次に、図面を参照しながら、本発明の実施形態について説明する。
図1は、第1の実施形態によるテキスト修正装置の機能構成を示すブロック図である。図示するように、テキスト修正装置1は、認識結果受信部10と、認識結果記憶部20(認識結果単語列データ記憶部)と、テキスト記憶部30と、テキストNグラム取得部40と、テキストNグラム記憶部50(テキスト単語列データ記憶部)と、テキスト区間推定部60と、誤り修正部80と、テキスト出力部90とを備えて構成される。また、テキスト修正装置1は、外部の音声認識装置200から、音声認識結果を受信するように構成される。
認識結果記憶部20は、認識結果受信部10が受信した音声認識結果に基づいて得られる認識結果Nグラム(認識結果単語列データ)を記憶する。
テキストNグラム取得部40は、テキスト記憶部30に記憶されているテキストデータを元に、テキストNグラム(テキスト単語列データ)を取得し、テキストNグラム記憶部50に書き込む。
テキストNグラム記憶部50は、テキストデータに基づいて得られるテキストNグラムを記憶する。
テキスト区間推定部60は、認識結果記憶部20に書き込まれた認識結果Nグラムの長さ(単語数)が予め定められた所定値N(Nは正整数)以上であるか否かを判定するとともに、その長さがN以上であると判定されると、テキストNグラム記憶部50に記憶されている複数のテキストNグラムのそれぞれと、長さNの認識結果Nグラムとのマッチング処理を行って、そのテキストNグラムと認識結果Nグラムとの間の類似度を算出し、算出された類似度に基づいて、類似度の高いテキストNグラムを修正候補として選択する。
テキスト出力部90は、認識結果記憶部20に記憶されている認識結果Nグラムのうちの前方の少なくとも一部分(例えば、単語数が(N/2)に相当する部分)を出力するとともに、その認識結果Nグラムのうち出力した部分を認識結果記憶部20から削除する。
図5は、テキストNグラム取得部40が、テキスト記憶部30に記憶されているテキストが含む情報を予め単語Nグラムの形式でテキストNグラム記憶部50に格納するための処理手順を示すフローチャートである。なお、認識結果受信部10が音声認識装置200から音声認識結果の受信を開始する前に、テキストNグラム取得部40はこのフローチャートに示す処理を行う。以下、フローチャートに沿って説明する。
次にステップS2で、テキストNグラム取得部40は、読み込んだテキストに対して形態素解析処理を行う。そして、その結果、単語単位に分割されたテキストを得る。
次にステップS4で、テキストNグラム取得部40は、ステップS3で得られたNグラムの各々にNグラムIDを付与する。NグラムIDとしては、例えば、1から始まる整数値を順次用いる。そして、テキストNグラム取得部40は、各テキストNグラムの出現順に、NグラムIDを付与している。つまりNグラムIDは、コンテンツごとに、元のテキストデータにおけるそのテキストNグラムの位置を表している。
次にステップS5で、テキストNグラム取得部40は、NグラムIDと単語Nグラムとを関連付けて、テキストNグラム記憶部50に書き込む。
まずステップS11において、認識結果受信部10が、音声認識装置200から認識結果のデータを受信する。音声認識装置200は、前述した最尤単語列を逐次出力する。認識結果受信部10は、単語単位で、あるいは所定数のまとまった単語の単位で、その単語列のデータを受信する。そして、認識結果受信部10は、受信したデータを逐次、認識結果記憶部20に書き込む。
次にステップS12において、テキスト区間推定部60は、認識結果記憶部20に所定の長さの単語列(N単語)が既に格納されているか否かを判断する。ここで所定の長さNとは、予め設定された長さであり、例えばN=4である。なお、ここで認識結果記憶部20から取り出す単語の長さと、テキストNグラム取得部40が取得した単語Nグラムの長さとは、等しい。具体的には、認識結果記憶部20は前述の通りFIFOとして構成されているので、テキスト区間推定部60は、そのFIFOの先頭からの単語数が所定の長さ以上であるか否かを判断する。そして、所定の長さの単語列が既に格納されている場合(ステップS12:YES)には次のステップS13に進み、単語列の長さがまだ所定の長さに達していない場合(ステップS12:NO)にはさらに音声認識結果を受信するためにステップS11に戻る。
この代わりに、第1の代替処理として、ステップS13において認識結果Nグラムと完全に一致するテキストNグラムが見つかった場合に、この認識結果を正解とみなして、直ちにステップS17の処理に移る手順としても良い。この場合、ステップS17では、Nグラム長の半分の単語列を出力する。このようにすることにより、認識結果NグラムとテキストNグラムとの間のDPマッチングの処理量を減らすことができ、全体の処理時間を短縮することができる。
またさらに、第2の代替処理として、ステップS13において認識結果Nグラムと完全に一致するテキストNグラムが見つかった場合に、この認識結果を正解とみなして、直ちに、当該認識結果Nグラムに相当するテキストの全体を出力するとともに、認識結果記憶部20から当該認識結果Nグラムの全体を削除して、ステップS11の処理に戻るようにしても良い。これにより全体の処理時間をさらに短縮することができる。
単語列や文字列や音素列などは、それぞれ1次元のパターンである。このとき、単語列の要素は単語であり、文字列の要素は文字であり、音素列の要素は音素である。ある1次元パターンから一部の要素を脱落させたり、ある1次元パターンに一部の要素を挿入したり、ある1次元パターンにおける一部の要素を他の要素で置換したりすると、別のパターンが得られる。このとき、元のパターンと、新たに得られたパターンとの間には、共通の部分列が存在する。共通の部分列の割合が大きいほど、概ね、両者間の類似度が高いと言える。DPマッチングは、これらのような複数の1次元パターンについて、効率よく共通部分列をマッチングさせ、パターン間の類似度を求める手法である。DPマッチングは、動的計画法を用いて2つのパターンの要素間の対応付けを行う。なお、DPマッチングの処理自体は、既存の技術である。
また、パターンB「abzdef」は、リファレンスパターンにおける「c」を「z」で置換したパターンであり、その他の「ab」および「def」は一致している。よって、置換数S=1、ヒット数H=5である。脱落数Dと挿入数Iはともに0である。
また、パターンC「abdef」は、リファレンスパターンにおける「c」が脱落しており、その他の「ab」および「def」は一致している。よって、脱落数D=1、ヒット数H=5である。置換数Sと挿入数Iはともに0である。
また、パターンE「acdzef」は、リファレンスパターンから「b」が脱落し、「z」が挿入されているパターンである。そして、「a」と「cd」と「ef」は一致している。よって、脱落数D=1、挿入数I=1、ヒット数H=5である。また、置換数S=0である。
また、パターンF「abzdf」は、リファレンスパターンにおける「c」を「z」で置換し、「e」が脱落したパターンである。そして、「ab」と「d」と「f」は一致している。よって、置換数S=1、脱落数D=1、ヒット数H=4である。また、挿入数I=0である。
一致率:%Corr=(H/N)×100=((N−S−D)/N)×100・・・(1)
一致精度:%Acc=((H−I)/N)×100=((N−S−D−I)/N)×100・・・(2)
脱落率:%Del=(D/N)×100・・・(3)
挿入率:%Ins=(I/N)×100・・・(4)
一方で、このままの処理では、音声認識結果が終了した場合や、長い無音区間(ポーズ)が挿入された場合に、即ち、バッファにN単語格納する前に認識結果の逐次受信が停止した場合に、最後まで修正結果の出力がなされないまま、待ち状態となってしまうケース(つまり、ステップS12の判定結果が常に「NO」となるケース)が生じ得る。これを回避するため、実際の処理手順では、所定時間(予め設定されたT秒間。一例としてT=3など。)音声認識装置200からの音声認識結果が到着しない状況が検知された直後に、下記の処理を実行する。
このような処理により、認識途中の無音区間において速やかに認識結果を出力することができ、また、認識結果のデータが全て終了したときにも正しく全体の処理を終了することができる。
次に、本発明の第2の実施形態について説明する。なお、既に述べた実施形態と共通する事項については説明を省略し、本実施形態特有の事項についてのみ説明する。
図8は、第2の実施形態によるテキスト修正装置の機能構成を示すブロック図である。図示するように、テキスト修正装置2は、認識結果受信部10と、認識結果記憶部20と、テキスト記憶部30と、テキストNグラム取得部40と、テキストNグラム記憶部50と、テキスト区間推定部60と、誤り修正部80と、テキスト出力部90とを備える。これらの各部の構成および機能は、第1実施形態におけるそれらと同様である。
この発音マッチング部70は、認識結果記憶部20に記憶された認識結果Nグラム内における、テキスト区間推定部60によって修正候補として選択されたテキストNグラムとの間の不一致区間における、認識結果Nグラムの側の発音とそのテキストNグラム側の発音との間のマッチング処理を行って、両者間の発音類似度を算出し、算出された発音類似度が予め設定された発音類似度閾値より高いか否かを判定する。なお、発音マッチング部70は、音素ラベルの列(音素列)同士のマッチング処理を行うことによって、上記の発音と発音との間のマッチング処理を行う。
また、発音辞書データ記憶部71は、単語と発音との対応関係を保持するデータである。このようなデータは、既存技術による音声認識装置が備えているものであり、本実施形態においても、音声認識装置200が備えている発音辞書データをコピーすることによって予め発音辞書データ記憶部71に発音辞書を書き込んでおく。
図10は、テキストNグラムが既にテキストNグラム記憶部50に書き込まれている状態での、テキスト修正装置2による処理の手順を示すフローチャートである。
ステップS21からS25までの処理は、図6で説明したステップS11からS15までの処理と、それぞれ、同様である。
次にステップS28において、発音マッチング部70は、ステップS27のDPマッチング処理によって算出された音素列間の類似度が予め設定された所定の閾値よりも高いか否かを判定する。類似度が高い場合(ステップS28:YES)には次のステップS29へ進む。類似度が低い場合(ステップS28:NO)には、ステップS30へ飛ぶ。
次にステップS30では、テキスト出力部90が、認識結果Nグラムの前半を出力するとともに、認識結果Nグラムを前にシフトする処理を行う。この処理の詳細は、図6のステップS17と同様である。
認識結果受信部10は、上記の単語列を逐次受信した場合、これを順次、認識結果記憶部20のバッファ(FIFO)に書き込む。そして、4単語(N単語)分蓄積された段階で、その4単語を認識結果Nグラム(4−グラム)として取り扱う。
つまり最初の認識結果Nグラムは、「ニュース−です−京都市−の」である。
テキスト区間推定部60は、図3に示した、コンテンツIDが「1012345」であるテキストNグラムのそれぞれと、認識結果Nグラム「ニュース−です−京都市−の」とのDPマッチングを行い、類似度を算出する(ステップS23)。しかし、テキストNグラムの中で類似度が最高のものについても、その類似度は設定された閾値を超えるものではない。よってテキスト出力部90は、認識結果Nグラムの前半の2単語(4単語の半分)である「ニュース−です」を出力する。さらにテキスト出力部90は、認識結果Nグラムの後半の「京都市−の」をシフトして前半に移す(ステップS30)。
従って、次の認識結果Nグラムは、「京都市−の−河浦−市長」となる。
テキスト区間推定部60は、同様に、コンテンツIDが「1012345」であるテキストNグラムのそれぞれと、認識結果Nグラム「京都市−の−河浦−市長」とのDPマッチングを行い、類似度を算出する(ステップS23)。その結果、NグラムIDが「1」である「京都市−の−川村−市長」が、類似度最高のテキストNグラムとして判定される(ステップS24)。
そして、選択されたテキストNグラム「京都市−の−川村−市長」は、認識結果Nグラムとの類似度が閾値より高いと判定される(ステップS25)。
そして、音素列間の類似度が閾値よりも高いため、誤り修正部80は、認識結果Nグラム中の「河浦」を、テキストNグラム中の「川村」で置き換える修正を行う(ステップS29)。
テキスト出力部90は、認識結果Nグラムの前半の2単語である「京都市−の」を出力する。さらにテキスト出力部90は、認識結果Nグラムの後半の「川村−市長」(既に修正済み)をシフトして前半に移す(ステップS30)。
次の認識結果Nグラムは、「川村−市長−は−会見」である。これは、前回処理で「河浦」が「川村」に既に修正されているためである。この認識結果Nグラムに対して類似度最大で選択されるテキストNグラムは、「川村−市長−は−記者」である。ここで、置換候補となるのは、認識結果Nグラム側の「会見」とテキストNグラム側の「記者」である。そして、発音マッチング部70が両者の発音の類似度を算出するが、類似度は閾値より高くないため、この置換(修正)は行われない。よって「川村−市長」が出力され、「は−記者」がシフトされる。
前述した処理手順(図6および図10)では、無音区間(ポーズ)の直前を除いて、N単語を受信するのを待ってから以後の処理を行っていた(図6のステップS12および図10のステップS22での判定)。しかしながら、N単語の到着を常に待ってからその後の処理を行うと、修正結果の出力は、N単語を受信する時間分だけ常に遅延してしまう。この遅延時間を極力短くするため、この変形例1では、次のようにする。
即ち、長さNの単語Nグラムを予めテキストNグラム記憶部50に書き込んでおくとともに、テキストNグラム取得部40による図5と同様の処理により、長さM(0<M<N)のテキストNグラムを予め取得しておく。そして、長さMのテキストNグラムも、テキストNグラム記憶部50に予め書き込んでおく。
そして、長さNの単語列が既に受信されていない場合も、認識結果Nグラムのうちの先頭のM単語と、上記の長さMのテキストNグラムとの間で一致するものがある場合には、バッファの先頭のL単語(0<L≦M)のみを出力し、残りの単語をシフトする処理を行う。
ステップS42において、認識結果記憶部20のFIFOにまだN単語が格納されていないとき(ステップS42:NO)には、ステップS51に進む。
そして、ステップS51では、テキスト区間推定部60が、認識結果記憶部20にM単語以上が格納されている場合に、先頭のM単語が、当該コンテンツIDに該当する長さMのテキストNグラムのいずれかと一致するか否かを判定する。そして、一致する場合(ステップS51:YES)にはステップS52に進む。一致しない場合(ステップS51:NO)にはそのままステップS41に戻る。
ステップS52に進んだ場合には、テキスト出力部90が、認識結果記憶部20のFIFOに格納されている先頭のL単語のみを出力し、残りの単語列をL単語分、前にシフトする。そして、ステップS52の処理が終了すると、ステップS41に戻る。
なお、ステップS43に進んだ場合、ステップS43におけるDPマッチングを実行した後の処理は、図6や図10の場合と同様である。
そして、本例におけるテキスト出力部90は、認識結果Nグラムのうちの先頭の長さMの部分が、テキストデータから予め得られた長さMの単語列のいずれかと一致した場合には、認識結果Nグラムにおける一致部分の少なくとも一部分(例えば、1単語分など)を出力するとともに、認識結果Nグラムのうち出力した部分を認識結果記憶部20から削除する。
なお、発明者が行った実証実験によれば、M≧4のときに、良い結果が得られることがわかっている。また、L=Mとしても良いが、Mと比べてLを小さくするほうが、出力されるテキストの修正精度が上がり、良い結果が得られる。特に、L=1とするときに良い結果が得られることが、発明者が行った実証実験によってわかっている。
この変形例においては、テキスト区間推定部60が行うDPマッチングの処理に特徴がある。前提として、既に述べたように、テキストNグラム取得部40がテキストNグラムを取得してテキストNグラム記憶部50に書き込む際に、当該コンテンツ内においてテキストの前から順に1、2、3、・・・というNグラムIDを付与している。図3に示したデータ例では、そのように、テキストの前方ほどNグラムIDの数値が小さく、テキストの後方ほどNグラムIDの数値が大きくなっている。
そして、テキスト区間推定部60は、図6のステップS14や図10のステップS24において、認識結果Nグラムとの類似度が最大のテキストNグラムを選択した際に、選択されたテキストNグラムのNグラムID(位置情報)をメモリに保存しておく。
そして、テキスト区間推定部60は、次回、図6のステップS13や図10のステップS23の処理を行う際には、前回保存したNグラムIDをメモリから読み出し、そのNグラムIDを基準として、−Jから+Kまでの位置の範囲内のNグラムIDを有するテキストNグラムのみを対象として、DPマッチングの処理を行う。
なお、JおよびKは、適宜設定される正整数であり、N=20のとき、一例としては、J=150、K=100などとする。
本例では、テキスト区間推定部60が、認識結果NグラムとテキストNグラムとのDPマッチングを行う際に、比較対象とするコンテンツIDを拡張する。
具体的には、テキスト区間推定部60は、図6のステップS13や図10のステップS23の処理を行う際に、現在のコンテンツと同一のコンテンツに含まれるテキストNグラムのみをDPマッチングの対象とするのではなく、他のコンテンツのテキストに含まれる最初の所定数文に相当するテキストNグラムをも、DPマッチングの対象とする。
例えば、現在のコンテンツのコンテンツIDが「1012345」であるとき、テキスト区間推定部60は、コンテンツIDが「1012345」である全てのテキストNグラムと、コンテンツIDが「1012345」以外であって且つNグラムIDが1以上でP以下(Pは適宜設定される正整数であり、例えばP=10)であるようなテキストNグラムとを、認識結果NグラムとのDPマッチングの対象とする。NグラムIDが1以上でP以下という範囲には、当該コンテンツにおける最初のP個のNグラムが含まれる。
本例は、既に述べた変形例2と変形例3の組み合わせである。
本例では、具体的には、テキスト区間推定部60は、図6のステップS13や図10のステップS23の処理を行う際に、現コンテンツにおける前回の類似度最高のテキストNグラムの位置の近傍と、他のコンテンツのテキストに含まれる最初の所定数文に相当するテキストNグラムとを、DPマッチングの対象とする。
本例による処理では、変形例2と変形例3の両方の効果を得ることができる。
本例は、図6のステップS15や図10のステップS25での判定に用いる類似度(認識結果NグラムとテキストNグラムとの間の類似度)の閾値(パラメータ)を変更することを可能とする。この類似度の閾値を低くすると、選択されたテキストNグラムを用いて認識結果Nグラムを修正する場合がより多くなる。この類似度の閾値を高くすると、選択されたテキストNグラムを用いて認識結果Nグラムを修正する場合がより少なくなる。
また、本例では、図10のステップS28での判定に用いる類似度(置換される単語の発音と、置換する単語候補の発音との間の類似度)の閾値(パラメータ)を変更することを可能とする。この類似度の閾値を低くすると、候補の単語を用いて認識結果Nグラムを修正する場合がより多くなる。この類似度の閾値を高くすると、候補の単語を用いて認識結果Nグラムを修正する場合がより少なくなる。
このように、本変形例では、利用者が自動修正の度合いを変更することができ、与えられるテキストデータの性質に応じて調整することができる。
本例では、誤り修正部80は、利用者(オペレータ)に対して修正を実行するか否かを確認し、利用者が肯定的な回答を入力した場合のみに実際に修正を実行し、その他の場合には修正処理を回避する。
図13は、本例における誤り修正部80の詳細な処理手順を示すフローチャートである。このフローチャート全体の処理が、図6のステップS16や図10のステップS29の処理に相当する。
これに対応して、利用者は、キーボードやマウス等の手段を用いて、「YES」または「NO」を選択できる。
次に、ステップS72において、誤り修正部80は、利用者からの入力が「修正する」ことを表わすものであるか否かを判定する。利用者からの入力が「修正する」ことを示すものである場合(ステップS72:YES)は、次のステップS73に進む。利用者からの入力が「修正しない」ことを示すものである場合(ステップS72:NO)、ステップS73の処理をスキップして、このフローチャート全体の処理を終了する。
そして、ステップS73に進んだ場合、誤り修正部80は、実際に修正を行なう。つまり、認識結果記憶部20を書き換えることにより、修正を行なう。
変形例7は、第2の実施形態に適用する変形例である。
発音マッチング部70が、置換される単語の音素列と置換する単語の音素列との間の類似度が閾値より高いか否かに応じて、この置換を行なうかどうかを決定することを、既に述べた(図10のステップS28における判断)。変形例7では、発音マッチング部70が、置換される単語の音素列の長さ(音素数)に応じて異なる閾値を用いることができるようにしている。なお、音素数は、音素列の文字数をカウントすることにより得られる。例えば、単語「河浦」に対応する音素列は「kawaura」であり、その音素数は7である。
(a)から(d)までの各グラフにおいて、縦軸は、類似度として用いた数値(それぞれ、一致率、一致精度、脱落率、挿入率)である。また、横軸は、音素数である。
また、これらの図に示す分布は、テキスト修正装置2を用いて、実データに基づいて単語修正候補を求めたときに、各々の候補ごとに、その置換を行なうべきであるか否かを人が判断した結果に基づく。
また、同図(b)が示すように、音素数に応じた所定の閾値よりも一致精度が高い領域(つまり類似度が高い領域)に、単語を置換すべき(置換OK)であるサンプルが多く分布し、その閾値よりも一致精度が低い領域(つまり類似度が低い領域)に、単語を置換すべきでない(置換NG)サンプルが多く分布している。
また、同図(c)が示すように、音素数に応じた所定の閾値よりも脱落率が低い領域(つまり類似度が高い領域)に、単語を置換すべき(置換OK)であるサンプルが多く分布し、その閾値よりも脱落率が高い領域(つまり類似度が低い領域)に、単語を置換すべきでない(置換NG)サンプルが多く分布している。
また、同図(d)が示すように、音素数に応じた所定の閾値よりも挿入率が低い領域(つまり類似度が高い領域)に、単語を置換すべき(置換OK)であるサンプルが多く分布し、その閾値よりも挿入率が高い領域(つまり類似度が低い領域)に、単語を置換すべきでない(置換NG)サンプルが多く分布している。
これにより、その置換を行なうべきか否かの判定をより良好に行い、テキスト修正の精度をよりいっそう向上させることができる。
変形例8は、上記の変形例7において、音素数ごとの類似度の閾値を決定する際に、機械学習処理を利用する。
具体的には、テキスト修正装置2を用いて、実データに基づいて単語修正候補を求めたときに、各々の候補ごとに、その置換を行なうべきであるか否かを人が判断し、人による判断結果を含んだデータを、教師データとして予め準備する。この教師データは、図14に示した各サンプルの集合に相当する。
そして、発音マッチング部70は機械学習処理手段を備えている。そして、類似度を算出するために一致率(%Corr)を用いる場合、上記の教師データに基づき、置換OKか置換NGかを判定するときの正解率を評価関数として、機械学習処理手段が機械学習処理を行なうことにより、単語発音の音素数ごとに一致率の最適閾値を求める。なお、機械学習処理手段としては、例えば、既存技術であるSVM(サポート・ベクタ・マシン)などを用いる。
一致率以外を用いて類似度を算出する場合も、上記と同様である。
そして、発音マッチング部70は、学習処理手段によって設定された発音類似度閾値を用いた判定を行う。
例えば、上述した実施形態では、認識結果NグラムとテキストNグラムとの間、あるいは単語の発音相互間でのマッチングにDPマッチングを用いて、類似度を算出したが、他のアルゴリズムによりマッチング処理を行うようにしても良い。
10 認識結果受信部
20 認識結果記憶部(認識結果単語列データ記憶部)
30 テキスト記憶部
40 テキストNグラム取得部
50 テキストNグラム記憶部(テキスト単語列データ記憶部)
60 テキスト区間推定部
70 発音マッチング部
71 発音辞書データ記憶部
80 誤り修正部
90 テキスト出力部
200 音声認識装置
Claims (9)
- テキストデータに基づいて得られるテキスト単語列データを記憶するテキスト単語列データ記憶部と、
音声認識結果に基づいて得られる認識結果単語列データを記憶する認識結果単語列データ記憶部と、
音声認識結果を逐次受信して前記認識結果単語列データ記憶部に書き込む認識結果受信部と、
前記認識結果単語列データ記憶部に書き込まれた認識結果単語列データの長さが予め定められた所定値N(Nは正整数)以上であるか否かを判定するとともに、当該長さがN以上であると判定されると、前記テキスト単語列データ記憶部に記憶されている前記テキスト単語列データと前記認識結果単語列データとのマッチング処理を行って前記テキスト単語列データと前記認識結果単語列データとの間の類似度を算出し、算出された前記類似度に基づいて前記テキスト単語列データを修正候補として選択するテキスト区間推定部と、
前記認識結果単語列データ内における、前記テキスト区間推定部によって選択された前記テキスト単語列データとの間の不一致区間について、前記テキスト区間推定部によって選択された前記テキスト単語列データに基づく修正を行う誤り修正部と、
前記認識結果単語列データの少なくとも一部分を出力するとともに、前記認識結果単語列データのうち出力した部分を前記認識結果単語列データ記憶部から削除するテキスト出力部と、
を具備することを特徴とするテキスト修正装置。 - 前記認識結果単語列データ内における、前記テキスト区間推定部によって選択された前記テキスト単語列データとの間の不一致区間における、前記認識結果単語列データの側の発音と選択された前記テキスト単語列データ側の発音との間のマッチング処理を行って、前記認識結果単語列データの側の発音と選択された前記テキスト単語列データ側の発音との間の発音類似度を算出し、算出された前記発音類似度が、予め設定された発音類似度閾値より高いか否かを判定する発音マッチング部、をさらに具備し、
前記誤り修正部は、前記発音類似度が前記発音類似度閾値より高い場合にのみ、実際に前記修正を行う、
ことを特徴とする請求項1に記載のテキスト修正装置。 - 前記テキスト区間推定部は、修正候補として選択した前記テキスト単語列データの前記テキストデータ内における位置情報を記憶するとともに、前記認識結果単語列データと前記テキスト単語列データのマッチング処理を行う際には前回選択した前記テキスト単語列データの前記位置情報を読み出して、読み出した前記位置情報に基づいて限定された範囲の前記テキスト単語列データを、前記認識結果単語列データとのマッチング処理の対象とする、
ことを特徴とする請求項1または2のいずれか一項に記載のテキスト修正装置。 - 前記テキスト単語列データ記憶部は、複数のコンテンツに対応する前記テキストデータに基づいて得られる前記テキスト単語列データを、前記コンテンツを識別する情報と関連付けて記憶するものであり、
前記テキスト区間推定部は、現コンテンツとは異なるコンテンツに対応する前記テキストデータの先頭から所定の範囲内に該当する前記テキスト単語列データを、さらに、前記認識結果単語列データとのマッチング処理の対象とする、
ことを特徴とする請求項3に記載のテキスト修正装置。 - 前記テキスト区間推定部は、前記認識結果単語列データ記憶部に書き込まれた認識結果単語列データの長さがN以上でない場合であっても、前記認識結果単語列データの長さが所定値M(Mは正整数であり且つ、M<N)以上である場合には、そのときの前記認識結果単語列データの先頭の長さMの部分が、前記テキストデータから予め得られた長さMの単語列のいずれかと一致するか否かを判定し、
前記テキスト出力部は、前記認識結果単語列データの先頭の長さMの部分が、前記テキストデータから予め得られた長さMの単語列のいずれかと一致した場合には、前記認識結果単語列データにおける一致部分の少なくとも一部分を出力するとともに、前記認識結果単語列データのうち出力した部分を前記認識結果単語列データ記憶部から削除する、
ことを特徴とする請求項1から4までのいずれか一項に記載のテキスト修正装置。 - 前記誤り修正部は、前記認識結果単語列データと、前記テキスト区間推定部によって選択された前記テキスト単語列データに基づく修正候補とを表示し、当該修正を行うことを表す指示が入力された場合にのみ、前記修正を行う、
ことを特徴とする請求項1から請求項5までのいずれか一項に記載のテキスト修正装置。 - 置換候補の単語ペアと、前記単語ペアのうちの一方の単語の発音音素数と、前記単語ペアに関する発音類似度と、前記単語ペアが置換可能か否かを表すデータとから、学習処理により、前記単語ペアが置換可能か否かを決定するための発音類似度閾値を求め、求められた前記発音類似度閾値を設定する学習処理手段を、さらに具備し、
前記発音マッチング部は、前記学習処理手段によって設定された前記発音類似度閾値を用いた判定を行う、
ことを特徴とする請求項2に記載のテキスト修正装置。 - 前記発音類似度閾値の設定を書き換える閾値変更手段、をさらに具備することを特徴とする請求項2に記載のテキスト修正装置。
- テキストデータに基づいて得られるテキスト単語列データを記憶するテキスト単語列データ記憶部と、
音声認識結果に基づいて得られる認識結果単語列データを記憶する認識結果単語列データ記憶部と、
音声認識結果を逐次受信して前記認識結果単語列データ記憶部に書き込む認識結果受信部と、
前記認識結果単語列データ記憶部に書き込まれた認識結果単語列データの長さが予め定められた所定値N(Nは正整数)以上であるか否かを判定するとともに、当該長さがN以上であると判定されると、前記テキスト単語列データ記憶部に記憶されている前記テキスト単語列データと前記認識結果単語列データとのマッチング処理を行って前記テキスト単語列データと前記認識結果単語列データとの間の類似度を算出し、算出された前記類似度に基づいて前記テキスト単語列データを修正候補として選択するテキスト区間推定部と、
前記認識結果単語列データ内における、前記テキスト区間推定部によって選択された前記テキスト単語列データとの間の不一致区間について、前記テキスト区間推定部によって選択された前記テキスト単語列データに基づく修正を行う誤り修正部と、
前記認識結果単語列データの少なくとも一部分を出力するとともに、前記認識結果単語列データのうち出力した部分を前記認識結果単語列データ記憶部から削除するテキスト出力部と、
を具備するテキスト修正装置としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010279647A JP5478478B2 (ja) | 2010-12-15 | 2010-12-15 | テキスト修正装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010279647A JP5478478B2 (ja) | 2010-12-15 | 2010-12-15 | テキスト修正装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012128188A JP2012128188A (ja) | 2012-07-05 |
JP5478478B2 true JP5478478B2 (ja) | 2014-04-23 |
Family
ID=46645280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010279647A Active JP5478478B2 (ja) | 2010-12-15 | 2010-12-15 | テキスト修正装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5478478B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614170B2 (en) | 2016-09-26 | 2020-04-07 | Samsung Electronics Co., Ltd. | Method of translating speech signal and electronic device employing the same |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5956913B2 (ja) * | 2012-11-14 | 2016-07-27 | 日本電信電話株式会社 | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 |
KR101381101B1 (ko) * | 2013-11-13 | 2014-04-02 | 주식회사 큐키 | 문자열 사이의 연관성 판단을 통한 오타 수정 방법 |
JP6232282B2 (ja) * | 2013-12-26 | 2017-11-15 | 日本放送協会 | 音声認識誤り修正装置 |
KR101990929B1 (ko) * | 2014-03-12 | 2019-06-20 | 네이버 주식회사 | 문자열 사이의 연관성 판단을 통한 오타 수정 방법 |
JP6358744B2 (ja) * | 2014-08-25 | 2018-07-18 | 日本放送協会 | 音声認識誤り修正装置 |
JP6426971B2 (ja) * | 2014-10-16 | 2018-11-21 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
JP6406988B2 (ja) * | 2014-11-21 | 2018-10-17 | 日本放送協会 | 音声認識誤り修正装置 |
CN106067302B (zh) * | 2016-05-27 | 2019-06-25 | 努比亚技术有限公司 | 降噪装置及方法 |
CN106448675B (zh) * | 2016-10-21 | 2020-05-01 | 科大讯飞股份有限公司 | 识别文本修正方法及系统 |
JP7107228B2 (ja) * | 2017-01-18 | 2022-07-27 | ソニーグループ株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP6578049B2 (ja) * | 2018-09-18 | 2019-09-18 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
KR102166446B1 (ko) * | 2018-09-28 | 2020-10-15 | 우석대학교 산학협력단 | 음성을 이용한 키워드 추출 방법 및 서버 |
CN112989073A (zh) * | 2021-03-11 | 2021-06-18 | 读书郎教育科技有限公司 | 一种课本扫读及查询匹配的方法 |
CN113257227B (zh) * | 2021-04-25 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音识别模型性能检测方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089786A (ja) * | 1998-09-08 | 2000-03-31 | Nippon Hoso Kyokai <Nhk> | 音声認識結果の修正方法および装置 |
JP2001343994A (ja) * | 2000-06-01 | 2001-12-14 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り検出装置および記憶媒体 |
JP2004302175A (ja) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP4158937B2 (ja) * | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
-
2010
- 2010-12-15 JP JP2010279647A patent/JP5478478B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614170B2 (en) | 2016-09-26 | 2020-04-07 | Samsung Electronics Co., Ltd. | Method of translating speech signal and electronic device employing the same |
Also Published As
Publication number | Publication date |
---|---|
JP2012128188A (ja) | 2012-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5478478B2 (ja) | テキスト修正装置およびプログラム | |
CN110164435B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN107622054B (zh) | 文本数据的纠错方法及装置 | |
US9311913B2 (en) | Accuracy of text-to-speech synthesis | |
JP3880163B2 (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
US9747893B2 (en) | Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability | |
CN110740275B (zh) | 一种非线性编辑系统 | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
CN106484131B (zh) | 一种输入纠错方法和输入法装置 | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
CN104205215B (zh) | 自动实时言语障碍矫正 | |
CN111326144B (zh) | 语音数据处理方法、装置、介质和计算设备 | |
US20130191125A1 (en) | Transcription supporting system and transcription supporting method | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
CN113053390B (zh) | 基于语音识别的文本处理方法、装置、电子设备及介质 | |
JP2018033048A (ja) | メタデータ生成システム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2015158582A (ja) | 音声認識装置、及びプログラム | |
JP2006243575A (ja) | 音声書き起こし支援装置およびその方法ならびにプログラム | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
JP2013050742A (ja) | 音声認識装置および音声認識方法 | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
JP2008241970A (ja) | 話者適応装置、話者適応方法及び話者適応プログラム | |
JP7107228B2 (ja) | 情報処理装置および情報処理方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5478478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |