JP6325770B2 - Speech recognition error correction apparatus and program thereof - Google Patents
Speech recognition error correction apparatus and program thereof Download PDFInfo
- Publication number
- JP6325770B2 JP6325770B2 JP2013019376A JP2013019376A JP6325770B2 JP 6325770 B2 JP6325770 B2 JP 6325770B2 JP 2013019376 A JP2013019376 A JP 2013019376A JP 2013019376 A JP2013019376 A JP 2013019376A JP 6325770 B2 JP6325770 B2 JP 6325770B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition
- score
- branch
- recognition error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、番組音声の音声認識結果を示す単語列に含まれる音声認識誤りを修正する音声認識誤り修正装置及びそのプログラムに関する。 The present invention relates to a speech recognition error correcting apparatus and a program for correcting a speech recognition error included in a word string indicating a speech recognition result of program sound.
従来から、音声認識技術は、放送番組の字幕制作に利用されている。その音声認識結果には、認識誤りが含まれるため、その認識誤りを修正する修正者(オペレータ)を配置し、認識誤りを修正した文字列を字幕として放送している。 Conventionally, voice recognition technology has been used for the production of captions for broadcast programs. Since the speech recognition result includes a recognition error, a corrector (operator) that corrects the recognition error is arranged and a character string in which the recognition error is corrected is broadcast as subtitles.
この認識誤りを修正する従来技術として、認識誤りをポイントする者とポイントされた単語を修正する者との2人のペアが数組で修正する発明が提案されている(特許文献1)。また、前記従来技術のように役割を分けずに、認識結果の文章を1人から数名で分担し、担当した文章の誤りを修正していく発明も提案されている(特許文献2)。この特許文献1,2に記載の発明では、タッチパネルを利用して、画面上に表示される認識結果の誤り部分をタッチして特定し、認識誤りの種別に応じて、必要があれば修正のための文字列を、キーボードを用いて入力している。
As a conventional technique for correcting this recognition error, an invention has been proposed in which two pairs of a person who points to a recognition error and a person who corrects the pointed word are corrected in several sets (Patent Document 1). In addition, an invention has been proposed in which a sentence as a recognition result is shared by one to several persons and an error in the sentence in charge is corrected without dividing roles as in the prior art (Patent Document 2). In the inventions described in
この修正のための操作は、画面のタッチとキーボード操作とを行き来するため、修正手順だけでなくその動きにも習熟していないと、迅速な修正作業が困難である。そこで、この操作を練習するための発明が提案されている(特許文献3)。さらに、置換誤りや脱落誤りを修正するために必要な文字入力は、標準的なキーボードを用いて入力する場合が多く、修正者には、前記した修正操作に慣れるだけでなく、迅速にキーボードから日本語を入力できる技術が求められている。 Since the operation for the correction is performed between the touch on the screen and the keyboard operation, it is difficult to perform a quick correction operation unless the user has mastered not only the correction procedure but also its movement. Then, the invention for practicing this operation is proposed (patent document 3). Furthermore, the character input necessary to correct substitution errors and omission errors is often input using a standard keyboard, and the corrector not only gets used to the correction operation described above, but also quickly enters the keyboard. There is a need for technology that can input Japanese.
また、このキーボードの入力負担を軽減するために、同音異義語の修正候補を提示し、認識対象に関連する原稿を提示するパレットを用意し、認識誤りの修正にパレット上の文字列を利用する発明が提案されている(特許文献4)。しかし、この特許文献4に記載の発明では、すべての認識誤りをカバーすることはできない。
In addition, to reduce the input burden on the keyboard, a correction palette for homonyms is presented, a palette is presented to present the manuscript related to the recognition target, and character strings on the palette are used to correct recognition errors. An invention has been proposed (Patent Document 4). However, the invention described in
この他、リスピーク方式の字幕制作において、誤り部分をリスピーカーに再度発話してもらうことで修正する方式も提案されている。この場合、修正者は、認識結果を適切に言い直して得られた文字列が適切な場所に挿入されるように編集しなければならず、リスピーカーと連携してこの作業を行う熟練した技量が求められる。 In addition, a method for correcting the error part by having the re-speaker speak again in the lispeaking subtitle production has also been proposed. In this case, the corrector must edit the recognition result appropriately so that the character string obtained is inserted at the appropriate place, and has a skilled skill to perform this work in cooperation with the re-speaker. Is required.
ここで、必要な修正文字列を効率良く得るために、修正が指定されていない確定区間を拘束条件として、修正区間又は修正区間周辺を再評価する発明が提案されている(特許文献5)。また、修正が必要な区間を、詳細なユーザー辞書を用いて再度認識する発明も提案されている(特許文献6,7)。この特許文献6,7に記載の発明では、認識対象音声自体が不明瞭であったり、誤った発話であったりする場合には、精度良く修正することが困難である。
Here, in order to efficiently obtain a necessary correction character string, an invention has been proposed in which a correction section or a vicinity of a correction section is reevaluated using a fixed section in which correction is not specified as a constraint condition (Patent Document 5). There has also been proposed an invention in which a section that needs to be corrected is recognized again using a detailed user dictionary (
また、修正文字列をキーボードから入力し、認識結果から得られる仮説ラティスの当該修正区間を修正文字列で拘束して再度認識することで、当該修正区間以外の認識誤りを自動で修正する発明が提案されている(特許文献8)。この特許文献8に記載の発明では、依然キーボードからの文字列入力という負担が残されている。
Also, an invention is provided in which a correction character string is input from a keyboard, and the correction section of the hypothesis lattice obtained from the recognition result is constrained by the correction character string and recognized again, thereby automatically correcting recognition errors other than the correction section. It has been proposed (Patent Document 8). In the invention described in
また、修正部分を、修正者が言い直した音声を認識して修正箇所を特定する発明も提案されている(特許文献9)。この特許文献9に記載の発明では、修正箇所を音声で特定しても、キーボードを用いて修正文字列を入力する必要があり、修正作業を容易に行うことができない。そこで、修正者が誤りの含まれる文章をまるごと言い直し、その際に、認識誤り部分を強調して発声することで、修正箇所を特定し、その部分を言い直した音声の認識結果に置き換える方式が提案されている(特許文献10)。さらに、修正者が誤認識部分を再度言い直した音声を用いて、網羅的な修正候補を提示し、修正者が望みの修正候補を選択する発明も提案されている(特許文献11)。さらに、音声認識結果を用いて、手書き文字の入力を補完する発明も提案されている(特許文献12)。
In addition, an invention has also been proposed in which a corrected portion is recognized by recognizing the voice restated by the corrector to identify a corrected portion (Patent Document 9). In the invention described in
しかし、特許文献10,11に記載の発明では、音声認識誤り部分の修正に言い直し音声を利用しているが、言い直し音声だけを用いてそれを音声認識したのでは、認識誤りが含まれ、正しい修正単語列を高精度に推定できず、修正者の追加入力が必要になる。ここで、音声認識誤り部分の音声認識に用いる音響モデルを、その修正者に最適化することが考えられる。この場合、音声認識誤り部分の音声認識結果は、不特定話者用の音響モデルを用いた番組音声の認識結果と誤りの傾向が異なる。
However, in the inventions described in
また、特許文献12に記載の発明では、音声認識結果と手書き文字の認識結果が相補的に働いておらず、手書き文字の入力を補助するに留まっている。この修正者の手書き文字の認識結果は、音声認識とモーダル(態様)が異なるため、番組音声の認識結果と誤りの傾向が異なる。
Further, in the invention described in
以上より、異なる誤り傾向を有する音声認識誤り部分の音声認識結果と手書き文字の認識結果とを、番組音声の認識結果に相補的に統合すれば、正しい修正単語列を高精度に推定することができる。 From the above, if the speech recognition result of the speech recognition error part having different error tendency and the recognition result of the handwritten character are complementarily integrated with the recognition result of the program sound, a correct corrected word string can be estimated with high accuracy. it can.
そこで、本発明は、修正作業が容易で、正しい修正単語列を高精度に推定できる音声認識誤り修正装置及びそのプログラムを提供することを課題とする。 Therefore, an object of the present invention is to provide a speech recognition error correction apparatus and a program thereof that can be easily corrected and can accurately estimate a correct correction word string.
前記した課題に鑑みて、本願第1発明に係る音声認識誤り修正装置は、番組音声の音声認識結果を示す単語列に含まれる音声認識誤りを、正しい修正単語列で修正する音声認識誤り修正装置であって、音声認識誤り部分認識手段と、仮説ラティス統合手段と、音声認識誤り部分修正手段と、を備えることを特徴とする。 In view of the above-described problems, the speech recognition error correction apparatus according to the first invention of the present application corrects a speech recognition error included in a word string indicating a speech recognition result of program sound with a correct correction word string. The speech recognition error part recognition means, hypothesis lattice integration means, and speech recognition error part correction means are provided.
かかる構成によれば、音声認識誤り修正装置は、修正者の発話による音声認識誤り部分の音声認識を行う音声認識手段と、修正者による音声認識誤り部分の手書き文字認識を行う手書き文字認識手段と、音声認識又は手書き文字認識の何れかを予め選択するスイッチとを備える。そして、修正者が、番組音声の音声認識が誤った理由に応じて、音声認識又は手書き文字認識の何れかを手動で選択する。例えば、番組音声の不明瞭な発声や言い間違いといった音響的な理由の場合、より素早く正確な修正が可能となるため、音声認識が選択され、音声認識誤り部分の発話が入力される。また、同音異義語といった理由の場合、より素早く正確な修正が可能となるため、手書き文字認識が選択され、音声認識誤り部分の手書き文字が入力される。 According to such a configuration, the speech recognition error correcting device includes speech recognition means for performing speech recognition of a speech recognition error portion caused by the corrector's utterance, and handwritten character recognition means for performing handwriting character recognition of the speech recognition error portion by the corrector. And a switch for selecting in advance either voice recognition or handwritten character recognition. Then, the corrector manually selects either speech recognition or handwritten character recognition depending on the reason why the speech recognition of the program sound is incorrect. For example, in the case of an acoustic reason such as an unclear utterance of a program sound or a wrong word, voice correction is selected because speech correction is selected and an utterance of a voice recognition error portion is input. In addition, in the case of a homonym, the handwritten character recognition is selected and the handwritten character of the voice recognition error portion is input because correction can be performed more quickly and accurately.
また、音声認識誤り修正装置は、音声認識誤り部分認識手段によって、予め選択した音声認識又は手書き文字認識の結果として、正しい修正単語列の候補である修正単語列候補、及び、修正単語列候補毎の認識スコアを出力する。 The speech recognition error correction apparatus, the speech recognition errors partial recognition means, as a result of the speech recognition or handwriting recognition preselected correct Modify word sequence candidates and a modified word sequence candidates, and, for each corrected word sequence candidates and it outputs a recognition score.
ここで、修正者による音声認識及び手書き文字認識は、番組音声の音声認識と誤りの傾向が異なる。そこで、音声認識誤り修正装置は、仮説ラティス統合手段によって、入力された仮説ラティスの音声認識誤り部分の始点及び終点に位置する枝の節点に、修正単語列候補及び認識スコアが対応付けられた枝を接続することで、仮説ラティスを統合する。 Here, the voice recognition and handwritten character recognition by the corrector are different in the tendency of error from the voice recognition of the program voice. Therefore, the speech recognition error correction device uses the hypothesis lattice integration unit to link the corrected word string candidate and the recognition score to the nodes of the branches located at the start point and end point of the speech recognition error part of the input hypothesis lattice. Connect hypotheses lattices by connecting.
この仮説ラティスは、番組音声の音声認識で評価された各単語及び各単語の音響スコアを対応付けた枝と、各単語の位置を示す枝の節点とで構成されており、番組音声の音声認識の評価内容を表している。 This hypothesis lattice is composed of a branch in which each word evaluated in the speech recognition of the program sound and the acoustic score of each word are associated, and a node of the branch indicating the position of each word. Represents the evaluation contents of.
また、音声認識誤り修正装置は、音声認識誤り部分修正手段によって、統合された仮説ラティスの音声認識誤り部分で始点から終点までの枝の経路毎に、音響スコア及び認識スコアを用いて統合スコアを算出し、算出した統合スコアが最高になる枝の経路を正しい修正単語列として推定する。
また、音声認識誤り修正装置は、音声認識誤り部分認識手段が、手書き文字認識の結果が全てひらがな又はカタカナの場合、番組音声の音声認識に用いる発音辞書、又は、音声認識誤り部分の音声認識に用いる発音辞書から、ひらがな又はカタカナの表記に該当する音素列の単語を読みだして、修正単語列候補とする。
これにより、音声認識誤り修正装置は、ひらがな又はカタカナの表記に該当する音素列の全単語を、そのひらがな又はカタカナに該当する漢字表記も含め、修正単語列候補として扱う。これによって、音声認識誤り修正装置は、修正者が即座に音声認識誤り部分の漢字表記を思い出せない場合でも、その音声認識誤り部分をひらがな又はカタカナで入力し、迅速な修正が可能となる。
Further, the speech recognition error correction device uses the acoustic score and the recognition score to calculate the integrated score for each branch path from the start point to the end point in the speech recognition error part of the integrated hypothesis lattice by the speech recognition error part correction unit. The branch path with the highest calculated integrated score is estimated as a correct corrected word string.
Further, the speech recognition error correction device is adapted to recognize a pronunciation dictionary used for speech recognition of program speech or speech recognition error portions when the speech recognition error portion recognition means is all hiragana or katakana. A phoneme string word corresponding to the hiragana or katakana notation is read out from the pronunciation dictionary to be used, and set as a corrected word string candidate.
As a result, the speech recognition error correcting apparatus treats all words of the phoneme string corresponding to the hiragana or katakana notation as the corrected word string candidates including the kanji notation corresponding to the hiragana or katakana. As a result, even when the corrector cannot immediately remember the kanji notation of the voice recognition error portion, the voice recognition error correction device can input the voice recognition error portion in hiragana or katakana and quickly correct it.
また、本願第2発明に係る音声認識誤り修正装置は、修正者に固有の特定話者用音響モデルを用いて、音声認識を行うことを特徴とする。
かかる構成によれば、音声認識誤り修正装置は、修正者の発話を正確に音声認識し、正しい修正単語列をより高精度に推定することができる。
Moreover, the speech recognition error correction apparatus according to the second invention of the present application is characterized in that speech recognition is performed using an acoustic model for a specific speaker unique to the corrector.
According to such a configuration, the speech recognition error correction device can accurately recognize the corrector's utterance and estimate a correct corrected word string with higher accuracy.
また、本願第3発明に係る音声認識誤り修正装置は、音声認識誤り部分修正手段が、枝の経路毎に、音響スコア及び認識スコアの重み付け総和を、統合スコアとして算出することを特徴とする。
かかる構成によれば、音声認識誤り修正装置は、重み付け総和により統合スコアを正確に算出し、正しい修正単語列をより高精度に推定することができる。
The speech recognition error correction device according to the third invention of the present application is characterized in that the speech recognition error partial correction means calculates the weighted sum of the acoustic score and the recognition score as an integrated score for each branch path.
According to such a configuration, the speech recognition error correction device can accurately calculate the integrated score by the weighted sum, and can estimate a correct corrected word string with higher accuracy.
また、本願第4発明に係る音声認識誤り修正装置は、音声認識誤り部分修正手段が、枝の経路毎に、音響スコアの事後確率と、予め設定された対数尤度算出式により算出した認識スコアの事後確率との総和を、統合スコアとして算出することを特徴とする。
かかる構成によれば、音声認識誤り修正装置は、対数尤度算出式により統合スコアを正確に算出し、正しい修正単語列をより高精度に推定することができる。
Further, the speech recognition error correction device according to the fourth invention of the present application is the recognition score calculated by the speech recognition error partial correction means for each branch path by the posterior probability of the acoustic score and the logarithmic likelihood calculation formula set in advance. The total with the posterior probability is calculated as an integrated score.
According to such a configuration, the speech recognition error correction apparatus can accurately calculate the integrated score using the log likelihood calculation formula, and can estimate a correct corrected word string with higher accuracy.
なお、本願発明に係る音声認識誤り修正装置は、CPU(Central Processing Unit)、記憶手段(例えば、メモリ、ハードディスク)等のハードウェア資源を備えるコンピュータを、前記した各手段として協調動作させるための音声認識誤り修正プログラムによって実現することもできる(本願第5発明)。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 Note that the speech recognition error correction apparatus according to the present gun onset Ming, CPU (Central Processing Unit), storage means (e.g., memory, hard disk) a computer comprising hardware resources such, in order to work together as each means described above The voice recognition error correction program can also be realized (the fifth invention of the present application). This program may be distributed through a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.
本願発明によれば、以下のような優れた効果を奏する。
本願第1,5発明によれば、修正者の発話の音声認識又は修正者の手書き文字の認識の結果と仮説ラティスとを相補的に統合し、統合した仮説ラティスから統合スコアを算出するため、正しい修正単語列を高精度に推定することができる。さらに、本願第1,5発明によれば、修正者がキーボードを用いる必要がなく、修正作業を容易に行うことができる。
本願第1,5発明によれば、修正者が即座に漢字表記を思い出せない場合でも、音声認識誤りを迅速に修正することができる。
According to the present invention, the following excellent effects can be obtained.
According to the first and fifth inventions of the present application, the result of speech recognition of the corrector's utterance or recognition of the corrector's handwritten character and the hypothetical lattice are complementarily integrated, and an integrated score is calculated from the integrated hypothetical lattice. A correct corrected word string can be estimated with high accuracy. Furthermore, according to the first and fifth inventions of the present application, it is not necessary for the corrector to use the keyboard, and the correction work can be easily performed.
According to the first and fifth inventions of the present application, it is possible to quickly correct a speech recognition error even when the corrector cannot immediately remember the kanji notation.
本願第2発明によれば、修正者の発話を正確に音声認識し、正しい修正単語列をより高精度に推定することができる。
本願第3,4発明によれば、統合スコアを正確に算出し、正しい修正単語列をより高精度に推定することができる。
According to the second invention of the present application, it is possible to accurately recognize a corrector's utterance and to estimate a correct corrected word string with higher accuracy.
According to the third and fourth aspects of the present invention, it is possible to accurately calculate an integrated score and estimate a correct corrected word string with higher accuracy .
[字幕生成システムの概略]
図1を参照し、本願発明の実施形態に係る字幕生成システム1の概略ついて、詳細に説明する。
字幕生成システム1は、番組音声を音声認識すると共に、音声認識の結果に誤りがある場合、この音声認識誤りを修正者が修正するものである。図1に示すように、字幕生成システム1は、音声認識装置10と、音声認識誤り修正装置20と、表示装置30とを備える。
[Outline of caption generation system]
With reference to FIG. 1, the outline of the
The
音声認識装置10は、放送番組の音声である番組音声が入力され、入力された番組音声を音声認識することで音声認識結果を示す単語列(音声認識結果単語列)を生成するものであり、音声認識手段11と、音響モデル13と、言語モデル15と、発音辞書17とを備える。
The
音声認識手段11は、後記する音響モデル13と、言語モデル15と、発音辞書17とを用いて、番組音声を音声認識し、音声認識結果単語列(最尤単語列)と、認識仮説のラティスとを生成するものである。例えば、音声認識手段11は、各単語に現れる音素の音響的な特徴を示した統計モデル(音響モデル13)を用いて番組音声を評価し、単語と単語との繋がりやすさを示す統計モデル(言語モデル15)を用いて、認識結果の日本語文章らしさを評価する音声認識手法を利用する。
The speech recognition means 11 recognizes program speech by using an
ここで、音声認識手段11は、音声認識により生成した音声認識結果単語列を、音声認識誤り修正装置20及び表示装置30に出力する。また、音声認識手段11は、音声認識の評価結果を示す仮説ラティスを、音声認識誤り修正装置20に出力する。
なお、仮説ラティスの詳細は、後記する(図2)。
Here, the
Details of the hypothesis lattice will be described later (FIG. 2).
音響モデル13は、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)といった、各単語に現れる音素の音響的な特徴を示した統計モデルである。
言語モデル15は、例えば、バイグラム又はトライグラムといった、単語と単語との繋がりやすさを示す統計モデルである。
発音辞書17は、例えば、各単語がどのような音素列になるのかを示した発音モデルであり、音響モデル13及び言語モデル15を関係付けている。
The
The
The
音声認識誤り修正装置20は、音声認識装置10から入力された音声認識結果単語列が誤っている場合、修正者が音声認識結果単語列の誤りを修正するものである。この音声認識誤り修正装置20は、誤りが修正された音声認識結果単語列を字幕として、例えば、放送送出装置(不図示)に出力する。
表示装置30は、修正者が音声認識誤りを目視するために、音声認識装置10から入力された音声認識結果単語列を表示するディスプレイである。
In the speech recognition
The
[音声認識誤り修正装置の構成]
続いて、音声認識誤り修正装置20の構成ついて、詳細に説明する。
図1に示すように、音声認識誤り修正装置20は、修正指示入力手段21と、音声認識誤り部分認識手段22と、認識仮説統合手段(仮説ラティス統合手段)26と、仮説リスコアリング手段(音声認識誤り部分修正手段)27とを備える。
[Configuration of speech recognition error correction device]
Next, the configuration of the speech recognition
As shown in FIG. 1, the speech recognition
修正指示入力手段21は、修正者が、音声認識装置10から入力された音声認識結果単語列に対する修正指示を入力するものである。この修正指示入力手段21は、例えば、表示装置30に表示された単語のタッチ、又は、ポインティングデバイスを用いたジェスチャーにより、修正者が、音声認識誤り部分の位置を特定し、音声認識誤りの種類を選択する。
なお、ジェスチャーとは、音声認識誤りの種類毎に定められた記号をポインティングデバイスで描くことである。
The correction instruction input means 21 is used by the corrector to input a correction instruction for the speech recognition result word string input from the
The gesture is to draw a symbol determined for each type of speech recognition error with a pointing device.
ここで、音声認識誤りの種類が脱落誤り又は置換誤りの場合、修正単語列を音声認識結果単語列に挿入又は置換するために、音声認識誤り部分を特定する必要がある。より具体的には、修正指示入力手段21は、音声認識装置10から入力された音声認識結果単語列において、修正者が指示した音声認識誤り部分の開始時刻(始点)から終了時刻(終点)までを特定し、認識仮説統合手段26に出力する。
Here, when the type of the speech recognition error is a drop error or a replacement error, it is necessary to specify a speech recognition error part in order to insert or replace the corrected word string in the speech recognition result word string. More specifically, the correction instruction input means 21 includes from the start time (start point) to the end time (end point) of the voice recognition error part specified by the corrector in the voice recognition result word string input from the
音声認識誤り部分認識手段22は、修正者が入力した発話の音声認識、又は、修正者が入力した手書き文字の認識により、正しい修正単語列の候補である修正単語列候補と、修正単語列候補毎の認識スコアとを求めるものである。図1に示すように、音声認識誤り部分認識手段22は、音声認識手段23と、手書き文字認識手段24と、スイッチ25とを備える。
The voice recognition error partial recognition means 22 is a correct word string candidate and a correction word string candidate that are correct correction word string candidates by voice recognition of an utterance input by the corrector or recognition of a handwritten character input by the corrector. Each recognition score is obtained. As shown in FIG. 1, the speech recognition error
音声認識手段23は、音声認識装置10と同様、図示を省略した音響モデル、言語モデル及び発音辞書を備え、音声認識誤り部分に対する発話を音声認識するものである。この音声認識手段23は、例えば、修正者の発話を入力するためのマイク(不図示)を備える。また、音声認識手段23の言語モデル及び発音辞書は、音声認識装置10と同一であってもよい。そして、音声認識手段23は、音声認識の結果として、修正単語列候補と、修正単語列候補毎の認識スコアとをスイッチ25に出力する。
Similar to the
ここで、音声認識手段23は、修正者に固有の特定話者用音響モデル(不図示)を用いて、修正者の発話を音声認識することが好ましい。これによって、音声認識手段23は、修正者の発話を正確に音声認識することができる。 Here, it is preferable that the speech recognition means 23 recognizes the speech of the corrector by using a specific speaker-specific acoustic model (not shown). Thereby, the voice recognition means 23 can correctly recognize the speech of the corrector.
手書き文字認識手段24は、音声認識誤り部分に対する手書き文字を認識するものである。この手書き文字認識手段24は、例えば、修正者の手書き文字を認識するためのタブレット端末及びスタイラスペン(不図示)を備える。そして、手書き文字認識手段24は、手書き文字認識の結果として、修正単語列候補と、修正単語列候補毎の認識スコアとをスイッチ25に出力する。
The handwritten character recognizing means 24 recognizes a handwritten character with respect to the voice recognition error part. The handwritten character recognition means 24 includes, for example, a tablet terminal and a stylus pen (not shown) for recognizing a corrector's handwritten character. And the handwritten character recognition means 24 outputs the correction word sequence candidate and the recognition score for every correction word sequence candidate to the
ここで、手書き文字認識の結果が、全てひらがな又はカタカナの場合が考えられる。この場合、手書き文字認識手段24は、音声認識装置10が備える発音辞書17、又は、音声認識手段23が備える発音辞書から、ひらがな又はカタカナの表記に該当する音素列の単語を読みだして、修正単語列候補とすることが好ましい。これによって、手書き文字認識手段24は、修正者が即座に漢字表記を思い出せない場合でも、音声認識誤りを迅速に修正することができる。
なお、発音辞書17又は音声認識手段23の発音辞書の何れを利用するか、修正者が手動で設定できる。
Here, the case where the result of handwritten character recognition is all hiragana or katakana is considered. In this case, the handwritten character recognizing means 24 reads out the phoneme string words corresponding to the hiragana or katakana notation from the
Note that the corrector can manually set which of the
スイッチ25は、音声認識手段23又は手書き文字認識手段24から入力された修正単語列候補及び認識スコアの一方を、認識仮説統合手段26に出力するものである。
ここで、修正者は、音声認識誤りの理由に応じて、音声認識又は手書き文字認識の何れか一方を手動で選択する。
例えば、音声認識誤りが番組音声の不明瞭な発声や言い間違いといった音響的な理由の場合、より素早く正確に修正を行うには、音声認識が好ましい、この場合、修正者は、スイッチ25で音声認識手段23の側を選択し、音声認識誤り部分に対する発話を音声認識手段23に入力する。
また、例えば、音声認識誤りが同音異義語といった理由の場合、より素早く正確に修正を行うには、手書き文字認識が好ましい。この場合、修正者は、スイッチ25で手書き文字認識手段24の側を選択し、音声認識誤り部分に対する手書き文字を手書き文字認識手段24に入力する。
The
Here, the corrector manually selects either speech recognition or handwritten character recognition depending on the reason for the speech recognition error.
For example, when the voice recognition error is an acoustic reason such as an unclear utterance or misrepresentation of the program sound, the voice recognition is preferable to correct it more quickly and accurately. The recognition means 23 side is selected, and the speech for the speech recognition error part is input to the speech recognition means 23.
In addition, for example, in the case where the voice recognition error is a homonym, handwritten character recognition is preferable in order to correct more quickly and accurately. In this case, the corrector selects the handwritten character recognizing means 24 side with the
このように、音声認識手段23及び手書き文字認識手段24が共に、修正単語列候補と、認識スコアとを出力する。従って、修正者が音声認識又は手書き文字認識の何れを選択して場合であっても、認識仮説統合手段26の処理を共通化し、音声認識誤り修正装置20の構成を簡素化することができる。
Thus, both the speech recognition means 23 and the handwritten character recognition means 24 output the corrected word string candidate and the recognition score. Therefore, even if the corrector selects either speech recognition or handwritten character recognition, the processing of the recognition hypothesis integrating means 26 can be made common, and the configuration of the speech recognition
認識仮説統合手段26は、音声認識装置10から入力された仮説ラティスの音声認識誤り部分の始点及び終点に位置する枝の節点に、修正単語列候補及び認識スコアが対応付けられた枝を接続することで、仮説ラティスを統合するものである。また、認識仮説統合手段26は、統合された仮説ラティスを、仮説リスコアリング手段27に出力する。
The recognition
<仮説ラティスの統合>
図2,図3を参照し、認識仮説統合手段26による仮説ラティスの統合について、詳細に説明する(適宜図1参照)。
ここで、図2(a)に示す単語を一例として説明する。つまり、単語w1=“多く”、単語w2=“思い出す”、単語w3=“淘汰”、単語w4=“する”、単語w5=“似通って”、単語w6=“います”、単語w7=“した”、単語w8=“を”であることとする。
図2(b)に示すように、この音声認識誤り部分の前に“ビデオを見て”という単語列があり、音声認識誤り部分の後に“ことができた”という単語列が続くこととする。
<Integration of hypothesis lattice>
The hypothesis lattice integration by the recognition hypothesis integration means 26 will be described in detail with reference to FIGS. 2 and 3 (see FIG. 1 as appropriate).
Here, the word shown in FIG. 2A will be described as an example. That is, word w 1 = “many”, word w 2 = “remember”, word w 3 = “淘汰”, word w 4 = “to do”, word w 5 = “similar”, word w 6 = “ It is assumed that the word w 7 = “do” and the word w 8 = “do”.
As shown in FIG. 2B, the word string “Watch the video” is preceded by the voice recognition error part, and the word string “I was able to follow” follows the voice recognition error part. .
図2(b)の上段には、音声認識誤り部分認識手段22から入力された修正単語列候補w1〜w6と、認識スコアP1〜P3とが対応付けられた枝10〜12を図示した。つまり、枝10は、修正単語列候補{w1,w2}=“多く思い出す”の認識スコアがP1であることを示す。また、枝11は、修正単語列候補{w1,w3,w4}=“多く淘汰する”の認識スコアがP2であることを示す。また、枝12は、修正単語列候補{w5,w6}=“似通っています”の認識スコアがP3であることを示す。
In the upper part of FIG. 2B,
図2(b)の下段には、音声認識装置10から入力された仮説ラティスを図示した。
この仮説ラティスは、番組音声の音声認識での評価内容を表している。つまり、仮説ラティスは、番組音声の音声認識で評価された単語及び単語毎の音響スコアを対応付けた枝と、単語の開始時刻(位置)を示す枝の節点とで構成された有向グラフである。この音響スコアLは、入力された番組音声がどれぐらい単語らしいかを示したスコアである。
A hypothesis lattice input from the
This hypothesis lattice represents the evaluation contents in the speech recognition of the program sound. In other words, the hypothesis lattice is a directed graph composed of a branch that associates a word evaluated by voice recognition of program audio and an acoustic score for each word, and a node of a branch that indicates the start time (position) of the word. The acoustic score L is a score indicating how much the input program sound seems to be a word.
この図2(b)では、仮説ラティスの枝を矢印で図示し、節点を黒丸で図示した。また、図2(b)の仮説ラティスにおいて、音声認識誤り部分の開始時刻がTSであり、終了時刻がTEである。また、開始時刻TSを示す節点及び終了時刻TEを示す節点には、最尤経路を表す枝(太線で図示)と、最尤経路以外の枝(破線で図示)とが接続されている。 In FIG. 2 (b), the branches of the hypothetical lattice are indicated by arrows, and the nodes are indicated by black circles. Further, in the hypothesis lattice of FIG. 2 (b), the start time of speech recognition errors moiety is a T S, the end time is T E. Further, the node representing the nodes and end time T E indicating the starting time T S, the branch representing the maximum likelihood path (shown by a bold line), and the branch other than the most likely path (shown by broken lines) are connected .
図2(b)の仮説ラティスにおいて、枝毎に、枝を一意に識別する枝番号と、枝に対応付けられた単語w及び音響スコアLとを図示した。つまり、枝1は、単語w1=“多く”の音響スコアがL1であることを示す。また、枝2は、単語w2=“思い出す”の音響スコアがL2であることを示す。また、枝3は、単語w1=“多く”の音響スコアがL3であることを示す。また、枝4は、単語w3=“淘汰”の音響スコアがL4であることを示す。また、枝5は、単語w4=“する”の音響スコアがL5であることを示す。また、枝6は、単語w7=“した”の音響スコアがL6であることを示す。また、枝7は、単語w8=“を”の音響スコアがL7であることを示す。
In the hypothesis lattice of FIG. 2B, for each branch, a branch number that uniquely identifies the branch, a word w and an acoustic score L associated with the branch are illustrated. That is,
すなわち、図2(b)の仮説ラティスにおいて、開始時刻TSを示す節点には、3つの枝が入力される。また、開始時刻TSを示す節点から、枝1,3が分岐する。また、枝3の先端にある節点から、枝4,7が分岐する。枝1,7は同じ節点に合流し、この節点から枝2が出力され、枝2の先端が終了時刻TEを示す節点に合流する。また、枝4の先端にある節点から、枝5,6が分岐する。また、枝5は、終了時刻TEを示す節点に合流する。従って、図2(b)の仮説ラティスにおいて、開始時刻TSから終了時刻TEまでの間には、枝1−2の経路H1と、枝3−4−5の経路H2と、枝3−7−2の経路H3という、3つの経路が存在する。
That is, in the hypothesis lattice of FIG. 2 (b), the node indicating the
認識仮説統合手段26は、図2(b)上段の枝10〜12を、図2(b)下段の仮説ラティスに統合する。まず、認識仮説統合手段26は、枝10〜12に対応付けられた修正単語列候補が、経路H1〜H3の各枝に対応付けられた単語列に一致するか否かを判定する。
The recognition
ここで、認識仮説統合手段26は、修正単語列候補が経路H1〜H3の単語列に一致する場合、一致する修正単語列候補の認識スコアPを経路H1〜H3に対応付ける。
例えば、枝10の修正単語列候補{w1,w2}=“多く思い出す”であり、枝1−2の経路H1の単語列{w1,w2}と一致する。このため、認識仮説統合手段26は、修正単語列候補{w1,w2}の認識スコアP1を枝1−2の経路H1に対応付ける。
また、例えば、枝11の修正単語列候補{w1,w3,w4}=“多く淘汰する”であり、枝3−4−5の経路H2の単語列{w1,w3,w4}と一致する。このため、認識仮説統合手段26は、修正単語列候補{w1,w3,w4}の認識スコアP2を枝3−4−5の経路H2に対応付ける。
Here, when the corrected word string candidate matches the word string of the paths H 1 to H 3 , the recognition
For example, the modified word string candidate {w 1 , w 2 } of the
In addition, for example, the modified word string candidate of the branch 11 {w 1 , w 3 , w 4 } = “is hesitant”, and the word string {w 1 , w 3 , w of the path H 2 of the branch 3-4-5 matches w 4 }. For this reason, the recognition
一方、認識仮説統合手段26は、修正単語列候補が枝の経路H1〜H3の単語列に一致しない場合、この修正単語列候補が得られる枝の経路を仮説ラティスに追加し、追加した枝の経路に認識スコアPを対応付ける。
例えば、枝12の修正単語列候補{w5,w6}=“似通っています“は、枝1−2の経路H1の単語列{w1,w2}=“多く思い出す”、枝3−4−5の経路H2の単語列{w1,w3,w4}=“多く淘汰する”、枝3−7−2の経路H3の単語列{w1,w8,w2}=“多くを思い出す”の何れにも一致しない。
On the other hand, when the corrected word string candidate does not match the word paths of the branch paths H 1 to H 3 , the recognition
For example, the modified word string candidate {w 5 , w 6 } = “similar” of the
従って、認識仮説統合手段26は、枝12の修正単語列候補{w5,w6}に含まれる単語w5,w6がそれぞれ対応付けられた枝8,9を新たに生成する。このとき、単語w5,w6の音響スコアL8,L9が存在しないため、認識仮説統合手段26は、この音響スコアL8,L9の計算を音声認識装置10に要求する。そして、認識仮説統合手段26は、この要求に応じて、音声認識装置10から入力された音響スコアL8,L9を、枝8,9に対応付ける。
Therefore, the recognition
さらに、認識仮説統合手段26は、図3(a)に示すように、生成した枝8−9の経路H4を仮説ラティスに接続する。具体的には、認識仮説統合手段26は、開始時刻TSを示す節点から、枝8を分岐させる。また、認識仮説統合手段26は、枝8の先端にある節点に枝9を接続し、終了時刻TEの節点まで伸ばす。そして、認識仮説統合手段26は、枝8−9の経路H4に、この経路H4の単語列に一致する修正単語列候補{w5,w6}の認識スコアP3を対応付ける。
Furthermore, the recognition
なお、枝3−7−2の経路H3の単語列に一致する修正単語列候補{w1,w8,w2}の認識スコアP4が存在しない。この場合、認識仮説統合手段26は、この認識スコアP4を対応付けるための枝13を生成し、この認識スコアP4の計算を音声認識誤り部分認識手段22に要求する。そして、認識仮説統合手段26は、この要求に応じて、音声認識誤り部分認識手段22から入力された認識スコアP4を枝13に対応付ける。
また、枝3−4−6については、枝6が最尤経路の節点に接続されないため、認識スコアを対応付ける必要がない。
その結果、図3(b)に示すように、統合された仮説ラティスの経路H1〜H4には、認識スコアP1〜P4が対応付けられることになる。
It should be noted that there is no recognition score P 4 of the modified word string candidate {w 1 , w 8 , w 2 } that matches the word string of the path H 3 of the branch 3-7-2. In this case, the recognition
Further, regarding the branch 3-4-6, since the
As a result, as shown in FIG. 3B, recognition scores P 1 to P 4 are associated with the paths H 1 to H 4 of the integrated hypothesis lattice.
図1に戻り、音声認識誤り修正装置20の構成について、説明を続ける。
仮説リスコアリング手段27は、認識仮説統合手段26から入力された仮説ラティスにおける枝の経路H毎に、音響スコアL及び認識スコアPを用いて統合スコアL´を算出し、仮説ラティスをリスコアリングするものである。そして、仮説リスコアリング手段27は、算出した統合スコアが最高になる枝の経路を正しい修正単語列として推定し、推定した修正単語列で音声認識誤り部分を修正する。
Returning to FIG. 1, the description of the configuration of the speech recognition
The hypothesis rescoring means 27 calculates an integrated score L ′ using the acoustic score L and the recognition score P for each branch path H in the hypothesis lattice input from the recognition hypothesis integration means 26, and rescores the hypothesis lattice. It is something to ring. Then, the hypothesis rescoring means 27 estimates the path of the branch having the highest calculated integrated score as a correct corrected word string, and corrects the speech recognition error part with the estimated corrected word string.
<仮説ラティスのリスコアリング>
図3を参照し、仮説リスコアリング手段27によるリスコアリングについて、詳細に説明する(適宜図1参照)。
仮説リスコアリング手段27は、枝の経路H毎に、音響スコアL及び認識スコアPの重み付け総和を、統合スコアL´として算出する。つまり、仮説リスコアリング手段27は、各枝の音響スコアLと、各枝の重みa(n)とを乗じた値の合計値を算出する。また、仮説リスコアリング手段27は、各経路Hの単語列に一致する修正単語列候補の認識スコアPと、この認識スコアPが対応付けられた枝の重みb(m)を乗じ、前記した合計値に加算する。
なお、nは音響スコアLが対応付けられた枝番号であり(本実施形態では、1≦n≦9)、mは認識スコアPが対応付けられた枝番号である(本実施形態では、10≦m≦13)。
<Rescoring Hypothesis Lattice>
With reference to FIG. 3, the rescoring by the hypothesis rescoring means 27 will be described in detail (see FIG. 1 as appropriate).
The hypothesis rescoring means 27 calculates, for each branch path H, the weighted sum of the acoustic score L and the recognition score P as an integrated score L ′. That is, the hypothesis rescoring means 27 calculates the total value of the values obtained by multiplying the acoustic score L of each branch and the weight a (n) of each branch. Further, the hypothesis rescoring means 27 multiplies the recognition score P of the modified word string candidate that matches the word string of each path H and the weight b (m) of the branch associated with this recognition score P, as described above. Add to the total value.
Note that n is a branch number associated with the acoustic score L (in this embodiment, 1 ≦ n ≦ 9), and m is a branch number associated with the recognition score P (in this embodiment, 10 ≦ m ≦ 13).
図3(a)では、仮説リスコアリング手段27は、枝1−2の経路H1について、下記の式(1)に示すように、枝1の音響スコアL1に重みa(1)を乗じた値と、枝2の音響スコアL2に重みa(2)を乗じた値と、枝1−2の経路H1の認識スコアP1に重みb(10)を乗じた値との和を、統合スコアL´(H1)として算出する。
In FIG. 3A, the hypothesis rescoring means 27 assigns a weight a (1) to the acoustic score L 1 of the
また、仮説リスコアリング手段27は、枝3−4−5の経路H2について、下記の式(2)に示すように、枝3の音響スコアL3に重みa(3)を乗じた値と、枝4の音響スコアL4に重みa(4)を乗じた値と、枝5の音響スコアL5に重みa(5)を乗じた値と、枝3−4−5の経路H2の認識スコアP2に重みb(11)を乗じた値との和を、統合スコアL´(H2)として算出する。
Moreover, the
また、仮説リスコアリング手段27は、枝3−7−2の経路H3について、下記の式(3)に示すように、枝3の音響スコアL3に重みa(3)を乗じた値と、枝7の音響スコアL7に重みa(7)を乗じた値と、枝2の音響スコアL2に重みa(2)を乗じた値と、枝3−7−2の経路H3の認識スコアP4に重みb(13)を乗じた値との和を、統合スコアL´(H3)として算出する。
Moreover, the
また、仮説リスコアリング手段27は、枝8−9の経路H4について、下記の式(4)に示すように、枝8の音響スコアL8に重みa(8)を乗じた値と、枝9の音響スコアL9に重みa(9)を乗じた値と、枝8−9の経路H4の認識スコアP3に重みb(12)を乗じた値との和を、統合スコアL´(H4)として算出する。
Moreover, the
ここで、重みa(n)及びb(m)は、番組音声の認識仮説(音響スコア)の信頼度をa ̄とし、音声認識誤り部分認識手段22の認識仮説(認識スコア)の信頼度をb ̄とすると、それぞれ、下記の式(5)及び式(6)で表すことができる。
Here, the weights a (n) and b (m) represent the reliability of the recognition hypothesis (recognition score) of the speech recognition error partial recognizing
番組音声の認識仮説に比べ、音声認識誤り部分認識手段22の認識仮説の方が信頼できるため、信頼度a ̄よりも信頼度b ̄が高くなるように予め設定されることが多い。また、C(n)及びC(m)は、音響スコアLと認識スコアPのダイナミックレンジを揃えるために予め設定される重みであり、音声認識や手書き文字認識の入力複雑さやパラメータ数を示す。一般的に、音声認識の入力複雑さは、その単語の専有時間(フレーム数)に重みをつけた量で評価される。また、手書き文字認識の場合、文字数や画数に重みをつけた量で評価される。 Since the recognition hypothesis of the speech recognition error partial recognition means 22 is more reliable than the recognition hypothesis of program audio, it is often set in advance so that the reliability b 信 頼 is higher than the reliability a ̄. Further, C (n) and C (m) are weights set in advance to align the dynamic range of the acoustic score L and the recognition score P, and indicate the input complexity and the number of parameters for speech recognition and handwritten character recognition. In general, the input complexity of speech recognition is evaluated by an amount obtained by weighting the exclusive time (number of frames) of the word. Further, in the case of handwritten character recognition, evaluation is performed with an amount weighted to the number of characters and the number of strokes.
前記したように、仮説リスコアリング手段27は、仮説を展開して統合スコアL´を算出することができる。 As described above, the hypothesis rescoring means 27 can calculate the integrated score L ′ by expanding the hypothesis.
その後、仮説リスコアリング手段27は、仮説ラティスで音声認識誤り部分以外の最尤経路を制約して、音声認識装置10の言語モデルから算出される仮説文章全体の文章らしさを示す言語スコアと、統合スコアL´とを用いて再度評価を行い、この両者の合計スコアが最も高くなる仮説を正しい修正単語列として推定する。図3の例では、仮説リスコアリング手段27は、音声認識誤り部分の単語候補を、その前後の単語列“ビデオを見て”及び“ことができた”とつなげた上で言語スコアを算出し、統合スコアL´とともに再度評価する。その後、仮説リスコアリング手段27は、音声認識装置10から入力された音声認識結果単語列の誤り部分を、正しい修正単語列に修正する。
Thereafter, the hypothesis rescoring means 27 constrains the maximum likelihood path other than the speech recognition error part in the hypothesis lattice, and indicates a language score indicating the sentence-likeness of the entire hypothesis sentence calculated from the language model of the
[音声認識誤り修正装置の動作]
図4を参照し、音声認識誤り修正装置20の動作について、詳細に説明する。
音声認識誤り修正装置20は、音声認識装置10から、仮説ラティスが入力される(ステップS1)。
音声認識誤り修正装置20は、修正指示入力手段21によって、音声認識誤り部分を特定し(ステップS2)、音声認識誤りの種類を選択する(ステップS3)。
[Operation of voice recognition error correction device]
With reference to FIG. 4, the operation of the speech recognition
The speech recognition
The speech recognition
音声認識誤り修正装置20は、音声認識誤り部分認識手段22によって、修正者が発話又は手書き文字を入力し、修正単語列候補毎の認識スコアを算出する(ステップS4)。
音声認識誤り修正装置20は、認識仮説統合手段26によって、ステップS1で入力された仮説ラティスの音声認識誤り部分に、修正単語列候補毎の認識スコアが対応付けられた枝を統合する(ステップS5)。
In the speech recognition
The speech recognition
音声認識誤り修正装置20は、仮説リスコアリング手段27によって、仮説ラティスにおける枝の経路毎に統合スコアを算出し、言語スコア及び統合スコアL´を用いてリスコアリングを行い、両者の合計スコアが最も高くなる仮説を正しい修正単語列として推定する(仮説リスコアリング:ステップS6)。
音声認識誤り修正装置20は、仮説リスコアリング手段27によって、推定した修正単語列で音声認識誤り部分を修正し、修正結果として出力する(ステップS7)。
The speech recognition
The speech recognition
以上のように、本願発明の実施形態に係る音声認識誤り修正装置20は、異なる誤り傾向を有する音声認識結果と手書き文字の認識結果とを仮説ラティスの音声認識誤り部分に相補的に統合し、統合した仮説ラティスから統合スコアを算出するため、正しい修正単語列を高精度に推定することができる。
As described above, the speech recognition
さらに、音声認識誤り修正装置20は、音声認識誤りを修正者が簡単に修正することが可能になり、修正者が修正操作に煩わされることなく、音声認識誤りの発見及び修正に専念することができる。
さらに、音声認識誤り修正装置20は、手書き文字や発話など特殊な技能を必要としない入力方法を利用できるようになり、修正作業を行うにあたり、修正操作を熟知する手間が低減される。これにより、音声認識誤り修正装置20は、より多くの人が修正作業に携われるようになり、字幕番組の拡充及び制作コストの低減が可能となる。
Furthermore, the speech recognition
Furthermore, the speech recognition
(変形例)
なお、音声認識誤り修正装置20は、前記した実施形態に限定されず、その趣旨を逸脱しない範囲で種々の変形を加えることができる。
仮説リスコアリング手段27は、枝の経路毎に、音響スコアLに相当する事後確率と、認識スコアPに相当する事後確率との総和を、統合スコアL´として算してもよい。
(Modification)
Note that the speech recognition
The hypothesis rescoring means 27 may calculate the sum of the posterior probability corresponding to the acoustic score L and the posterior probability corresponding to the recognition score P for each branch path as the integrated score L ′.
具体的には、仮説リスコアリング手段27は、音響スコアLに相当する事後確率L(i)を、フォワードバックワードアルゴリズムを用いて算出できる。また、仮説リスコアリング手段27は、音響スコアLと同様に認識スコアPが対数尤度に相当する場合、この認識スコアPに相当する事後確率P´(m)を、下記の式(7)で定義された対数尤度算出式を用いて算出できる。 Specifically, the hypothesis rescoring means 27 can calculate the posterior probability L (i) corresponding to the acoustic score L using a forward backward algorithm. Also, the hypothesis rescoring means 27, when the recognition score P corresponds to the log likelihood as in the case of the acoustic score L, the posterior probability P ′ (m) corresponding to the recognition score P is expressed by the following equation (7). It can be calculated using the log likelihood calculation formula defined in.
このように事後確率を求めた場合、仮説リスコアリング手段27は、枝1−2の経路H1について、下記の式(8)に示すように、枝1の音響スコアL1に相当する事後確率L(1)と、枝2の音響スコアL2に相当する事後確率L(2)と、枝1−2の経路H1の認識スコアP1に相当する事後確率P´(10)との総和を、統合スコアL´(H1)として算出する。
When the posterior probability is obtained in this way, the hypothesis rescoring means 27 performs the posterior corresponding to the acoustic score L 1 of the
なお、仮説リスコアリング手段27は、他の経路Hについても同様に統合スコアL´を算出できるため、詳細な説明を省略する。
また、仮説リスコアリング手段27は、フォワードバックワードアルゴリズム以外、事後確率L(i)を近似的に算出する手法も利用できる。
The hypothesis rescoring means 27 can calculate the integrated score L ′ in the same way for the other routes H, and thus detailed description thereof is omitted.
Further, the hypothesis rescoring means 27 can use a method of approximately calculating the posterior probability L (i) other than the forward backward algorithm.
1 字幕生成システム
10 音声認識装置
11 音声認識手段
13 音響モデル
15 言語モデル
17 発音辞書
20 音声認識誤り修正装置
21 修正指示入力手段
22 音声認識誤り部分認識手段
23 音声認識手段
24 手書き文字認識手段
25 スイッチ
26 認識仮説統合手段(仮説ラティス統合手段)
27 仮説リスコアリング手段(音声認識誤り部分修正手段)
30 表示装置
DESCRIPTION OF
27 Hypothesis rescoring means (speech recognition error partial correction means)
30 Display device
Claims (5)
修正者の発話による音声認識誤り部分の音声認識を行う音声認識手段と、前記修正者による音声認識誤り部分の手書き文字認識を行う手書き文字認識手段と、音声認識又は手書き文字認識の何れかを予め選択し、予め選択した前記音声認識又は前記手書き文字認識の結果として、前記正しい修正単語列の候補である修正単語列候補、及び、前記修正単語列候補毎の認識スコアを出力するスイッチと、を備える音声認識誤り部分認識手段と、
前記番組音声の音声認識で評価された各単語及び当該各単語の音響スコアを対応付けた枝と、当該各単語の位置を示す前記枝の節点とで構成された仮説ラティスが入力され、入力された当該仮説ラティスの音声認識誤り部分の始点及び終点に位置する枝の節点に、前記修正単語列候補及び前記認識スコアが対応付けられた枝を接続することで、前記仮説ラティスを統合する仮説ラティス統合手段と、
統合された前記仮説ラティスの音声認識誤り部分で前記始点から前記終点までの枝の経路毎に、前記音響スコア及び前記認識スコアを用いて統合スコアを算出し、算出した前記統合スコアが最高になる枝の経路を前記正しい修正単語列として推定する音声認識誤り部分修正手段と、
を備え、
前記音声認識誤り部分認識手段は、前記手書き文字認識の結果が全てひらがな又はカタカナの場合、前記番組音声の音声認識に用いる発音辞書、又は、前記音声認識誤り部分の音声認識に用いる発音辞書から、前記ひらがな又はカタカナの表記に該当する音素列の単語を読みだして、前記修正単語列候補とすることを特徴とする音声認識誤り修正装置。 A speech recognition error correction device that corrects a speech recognition error included in a word string indicating a speech recognition result of a program sound with a correct correction word string,
Speech recognition means for performing speech recognition of a speech recognition error portion due to the corrector's utterance, handwritten character recognition means for recognizing handwritten character recognition of the speech recognition error portion by the corrector, and either speech recognition or handwritten character recognition in advance selected, and a switch in advance as a result of the selected the voice recognition or the handwriting recognition was the correct modification word sequence candidates and a modified word sequence candidates, and, for outputting a recognition score for each of the modified word sequence candidates, A speech recognition error partial recognition means comprising:
A hypothesis lattice composed of each word evaluated in the speech recognition of the program sound and a branch in which the acoustic score of each word is associated and a node of the branch indicating the position of each word is input and input. A hypothesis lattice that integrates the hypothesis lattice by connecting a branch associated with the corrected word string candidate and the recognition score to the node of the branch located at the start point and the end point of the speech recognition error part of the hypothesis lattice. Integration means,
An integrated score is calculated using the acoustic score and the recognition score for each branch path from the start point to the end point in the integrated speech recognition error part of the hypothesis lattice, and the calculated integrated score is the highest. Speech recognition error portion correcting means for estimating a branch path as the correct corrected word string;
Equipped with a,
The speech recognition error part recognition means, when the result of the handwritten character recognition is all hiragana or katakana, from the pronunciation dictionary used for speech recognition of the program sound, or the pronunciation dictionary used for speech recognition of the speech recognition error part, A speech recognition error correcting apparatus, wherein a word of a phoneme string corresponding to the hiragana or katakana notation is read out and used as the corrected word string candidate.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013019376A JP6325770B2 (en) | 2013-02-04 | 2013-02-04 | Speech recognition error correction apparatus and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013019376A JP6325770B2 (en) | 2013-02-04 | 2013-02-04 | Speech recognition error correction apparatus and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014149490A JP2014149490A (en) | 2014-08-21 |
JP6325770B2 true JP6325770B2 (en) | 2018-05-16 |
Family
ID=51572493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013019376A Active JP6325770B2 (en) | 2013-02-04 | 2013-02-04 | Speech recognition error correction apparatus and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6325770B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803422B (en) * | 2015-11-26 | 2020-05-12 | 中国科学院声学研究所 | Language model reestimation method based on long-time and short-time memory network |
CN111276130A (en) * | 2020-01-21 | 2020-06-12 | 河南优德医疗设备股份有限公司 | MFCC cepstrum coefficient calculation method for computer language knowledge education system |
KR20230156125A (en) | 2021-03-24 | 2023-11-13 | 구글 엘엘씨 | Lookup table recursive language model |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002052394A1 (en) * | 2000-12-27 | 2002-07-04 | Intel Corporation | A method and system for concurrent use of two or more closely coupled communication recognition modalities |
JP2003308094A (en) * | 2002-02-12 | 2003-10-31 | Advanced Telecommunication Research Institute International | Method for correcting recognition error place in speech recognition |
JP3682922B2 (en) * | 2002-04-24 | 2005-08-17 | 日本放送協会 | Real-time character correction device and real-time character correction program |
JP4542974B2 (en) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP4796460B2 (en) * | 2006-09-05 | 2011-10-19 | 日本放送協会 | Speech recognition apparatus and speech recognition program |
US8077975B2 (en) * | 2008-02-26 | 2011-12-13 | Microsoft Corporation | Handwriting symbol recognition accuracy using speech input |
WO2010024052A1 (en) * | 2008-08-27 | 2010-03-04 | 日本電気株式会社 | Device for verifying speech recognition hypothesis, speech recognition device, and method and program used for same |
JP5271299B2 (en) * | 2010-03-19 | 2013-08-21 | 日本放送協会 | Speech recognition apparatus, speech recognition system, and speech recognition program |
-
2013
- 2013-02-04 JP JP2013019376A patent/JP6325770B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014149490A (en) | 2014-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (en) | Utterance analysis device, voice dialogue control device, method, and program | |
US10037758B2 (en) | Device and method for understanding user intent | |
US8275618B2 (en) | Mobile dictation correction user interface | |
EP0840289B1 (en) | Method and system for selecting alternative words during speech recognition | |
US8077975B2 (en) | Handwriting symbol recognition accuracy using speech input | |
US9224386B1 (en) | Discriminative language model training using a confusion matrix | |
JP5478478B2 (en) | Text correction apparatus and program | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
US20090228273A1 (en) | Handwriting-based user interface for correction of speech recognition errors | |
JP2011002656A (en) | Device for detection of voice recognition result correction candidate, voice transcribing support device, method, and program | |
Ogata et al. | Speech repair: quick error correction just by using selection operation for speech input interfaces. | |
JP2006351028A (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
JP5276610B2 (en) | Language model generation apparatus, program thereof, and speech recognition system | |
JP2008051895A (en) | Speech recognizer and speech recognition processing program | |
JP6325770B2 (en) | Speech recognition error correction apparatus and program thereof | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2015099253A (en) | Voice recognizing apparatus, voice recognizing method, voice recognizing program | |
KR101283271B1 (en) | Apparatus for language learning and method thereof | |
JP2008241970A (en) | Speaker adaptation device, speaker adaptation method and speaker adaptation program | |
JP6527000B2 (en) | Pronunciation error detection device, method and program | |
JP2006259641A (en) | Voice recognition device and program | |
JP2009031328A (en) | Speech recognition device | |
JP2000352993A (en) | Voice recognition system and learning method of hidden markov model | |
KR101677530B1 (en) | Apparatus for speech recognition and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6325770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |