JP2015099253A - Voice recognizing apparatus, voice recognizing method, voice recognizing program - Google Patents
Voice recognizing apparatus, voice recognizing method, voice recognizing program Download PDFInfo
- Publication number
- JP2015099253A JP2015099253A JP2013238873A JP2013238873A JP2015099253A JP 2015099253 A JP2015099253 A JP 2015099253A JP 2013238873 A JP2013238873 A JP 2013238873A JP 2013238873 A JP2013238873 A JP 2013238873A JP 2015099253 A JP2015099253 A JP 2015099253A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- recognition
- voice
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この明細書に記載の実施形態は、音声により入力された文字列を認識する音声認識技術に関する。 The embodiment described in this specification relates to a speech recognition technique for recognizing a character string input by speech.
従来から、入力された音声発話と予め記憶された音声解析情報とをパターン照合することにより、音声情報を文字情報に変換する音声認識技術が開発されている。現状の音声認識技術では、誤認識の発生を完全に排除することはできないため、適切な認識結果を得るための様々な技術が提案され、広く利用されている。 2. Description of the Related Art Conventionally, a speech recognition technology has been developed that converts speech information into character information by pattern matching between an input speech utterance and speech analysis information stored in advance. Since current speech recognition technology cannot completely eliminate the occurrence of misrecognition, various technologies for obtaining appropriate recognition results have been proposed and widely used.
音声認識技術としては、例えば、複数の認識候補から最も確からしい候補を認識結果として利用者に提示し、提示する認識結果が誤りである場合には、利用者が発話全体を再入力し、その際に元の認識結果を除外することにより、正しい認識結果を効率的に取得する技術が知られる。しかしながら、該方法では発話全体を再入力するため、利用者の操作負担が増大するという問題がある。 As voice recognition technology, for example, the most probable candidate from a plurality of recognition candidates is presented to the user as a recognition result, and when the presented recognition result is incorrect, the user re-enters the entire utterance, A technique for efficiently acquiring a correct recognition result by excluding the original recognition result is known. However, in this method, since the entire utterance is re-input, there is a problem that the operation burden on the user increases.
これに対し、特許文献1には、提示する認識結果が誤りである場合には、利用者が装置の誤認識部分のみを再発話すると、該再発話に基づいて誤認識部分を修正して認識結果を再提示する技術が開示される。特許文献1では、これにより、全文を言い直す負担を軽減でき、利便性を向上できる。
On the other hand, in
また、特許文献1では、住所や電話番号等の階層構造を有する情報が入力されることを前提とし、再入力された発話がいずれの階層に相当するかを判定して認識結果を修正する。この際、特許文献1では、誤認識されている階層下のパターンだけを照合の対象にできるため、認識処理の効率化および高精度化を実現できる。
Further, in
特許文献2では、利用者が誤認識部分のみを再発話し、再発話した部分の認識候補から、元の発話時に選択した認識候補を削除することにより、再度誤った候補を選択して提示することを回避する技術が提案されている。
In
しかしながら、特許文献1、2では、原則として全体を発話して修正するか、または、一部を再発話して修正するかのいずれか一方のみでしか適切な認識結果を得ることができず、誤認識の内容に応じた修正を行うことができないという問題がある。
However, in
また、特許文献2では、全体修正および部分修正の両方を行えるが、それぞれの修正で修正方法は同一であるため、利用者が全体を再発話したか、一部のみを発話したかという利用者の発話方法に応じた修正を行うことができない。
Moreover, in
これらの問題に対し、特許文献3の装置は、利用者の発話に基づいてまず複数の認識候補から最も確からしい候補を認識結果として利用者に提示する。装置の提示する認識結果が誤りである場合、利用者は、再発話することにより装置に再度の認識結果を提示させる。利用者は、装置が提示する認識結果が正しい場合に、OKボタンを入力すること等により装置の音声認識処理を終了させる。
With respect to these problems, the apparatus of
この利用者の再発話により装置が認識結果を修正する際に、装置は、最初の発話である直前発話と、修正するために直前発話の後に行う現発話とを比較し、類似部分および不一致部分を算出する。そして、装置は、現発話が、「部分修正発話」、「全体修正発話」、「新規発話」のいずれかであるかを判別する。 When the device corrects the recognition result due to the user's recurrent utterance, the device compares the first utterance immediately before utterance with the current utterance after the immediately preceding utterance to correct, and similar and inconsistent portions. Is calculated. Then, the apparatus determines whether the current utterance is any one of “partially corrected utterance”, “overall corrected utterance”, and “new utterance”.
「部分修正発話」は、装置の誤認識部分のみを利用者が再発話する場合の発話である。「全体修正発話」は、利用者が発話したい内容のほぼ全体を再発話し、その内容が直前発話と末尾のみが異なる場合等の発話である。「新規発話」は、利用者が発話したい内容のほぼ全体を再発話し、その内容の大部分が直前発話と異なる場合の発話である。 “Partial correction utterance” is an utterance when the user re-utters only the misrecognized portion of the apparatus. The “whole correction utterance” is an utterance when the user wants to utter almost the entire content that the user wants to utter and the content differs only in the last utterance. The “new utterance” is an utterance in which almost the entire content that the user wants to utter is re-uttered and most of the content is different from the previous utterance.
特許文献3の装置は、このように利用者の再発話を「部分修正発話」、「全体修正発話」、「新規発話」のいずれであるかを判定するとともに、該発話の種類に応じた修正方法で認識結果を修正し、該修正した認識結果を利用者に提示する。
In this way, the device of
これにより、特許文献3では、利用者は、最初の発話で装置の誤認識が軽微な場合、該誤認識部分のみを発話することで、または該誤認識部分を修正して再度全体を発話することで、装置に「部分修正発話」または「全体修正発話」に対応する修正方法で該誤認識部分を修正させることができる。また、最初の発話でバースト誤りのように誤認識が集中発生する場合、利用者は発話全体を再度繰り返し行うことで、「新規発話」として装置に音声認識させることができる。
Thereby, in
このように、特許文献3の装置は、利用者の発話方法に応じた修正を実行できるので、利便性が高く、高精度な音声認識結果を出力できる。
As described above, since the apparatus disclosed in
ところで、装置に誤認識が生じる理由は、周辺環境のノイズや認識手法の不備ばかりでなく、発話自体が不完全な場合にも生じる。例えば、利用者が噛んでしまう場合、利用者は本来意図した内容を伝えきれないため発話を中断する場合があり、このような場合、装置は、利用者の発話したい全体を認識できず、誤認識が生じる。 By the way, the reason why erroneous recognition occurs in the apparatus is caused not only by noise in the surrounding environment and incomplete recognition method, but also when the utterance itself is incomplete. For example, if the user bites, the user may not be able to convey the intended content and may interrupt the utterance. In such a case, the device cannot recognize the entire user's utterance and cannot recognize the error. Recognition occurs.
利用者が発話を中断する場合、装置の誤認識を修正するためには、利用者は再発話を行い、該再発話(現発話)により装置に直前発話に対する認識結果の修正を行わせる必要がある。しかしながら、従来の装置では、利用者は、該中断部分を含む全体を発話し、装置に「全体修正発話」または「新規発話」に対応する修正を行わせる必要があり不便である。 When the user interrupts the utterance, in order to correct the misrecognition of the device, the user needs to perform the re-utterance and cause the device to correct the recognition result for the previous utterance by the re-utterance (current utterance). is there. However, the conventional apparatus is inconvenient because it is necessary for the user to speak the entirety including the interrupted portion and to cause the apparatus to perform a correction corresponding to the “totally modified utterance” or “new utterance”.
本発明は、利用者が発話を中断した場合における音声認識の修正に利便性のある技術を提供することを目的とする。 An object of the present invention is to provide a technique that is convenient for correcting speech recognition when a user interrupts speech.
一般に、実施形態によれば、音声認識装置は、認識出力部と、発話関係判定部と、認識連結部と、を備える。認識出力部は、入力される音声発話の認識を出力する。発話関係判定部は、後に入力される第2音声発話が、先に入力される第1音声発話に継続する継続発話か否かを判定する。認識連結部は、第2音声発話が継続発話であると判定される場合、第1音声発話の認識である第1認識と、第2音声発話の認識である第2認識とを連結させる。 In general, according to the embodiment, the speech recognition apparatus includes a recognition output unit, an utterance relationship determination unit, and a recognition connection unit. The recognition output unit outputs recognition of the input voice utterance. The utterance relationship determination unit determines whether or not the second voice utterance input later is a continuous utterance continuing from the first voice utterance input earlier. When it is determined that the second voice utterance is a continuous utterance, the recognition connection unit connects the first recognition, which is the recognition of the first voice utterance, and the second recognition, which is the recognition of the second voice utterance.
一般に、実施形態によれば、音声認識方法は、入力される音声発話を認識し、後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、第2音声発話が継続発話であると判定する場合、第1音声発話の認識と、第2音声発話の認識とを連結させる。 In general, according to the embodiment, the speech recognition method recognizes an input speech utterance, and the second speech utterance input later is an utterance from the middle of the first speech utterance input earlier. If it is determined whether the second voice utterance is a continuous utterance, the recognition of the first voice utterance and the recognition of the second voice utterance are coupled.
一般に、実施形態によれば、入力される音声発話を認識し、後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、第2音声発話が継続発話であると判定する場合、第1音声発話の認識結果と、第2音声発話の認識結果とを連結させることを行わせることを音声認識装置に行わせることをコンピュータに実行させる音声認識プログラム。 In general, according to the embodiment, an input voice utterance is recognized, and it is determined whether or not a second voice utterance input later is a continuous utterance that is an utterance from the middle of the first voice utterance input first. When determining that the second voice utterance is a continuous utterance, the voice recognition apparatus is caused to cause the recognition result of the first voice utterance to be connected to the recognition result of the second voice utterance. A speech recognition program to be executed by a computer.
以下、実施形態について図面を参照しつつ説明する。
図1は、音声認識装置の構成を示すブロック図である。
音声認識装置100は、ハードウェア構成として、マイク111と、ディスプレイ112と、スピーカ113と、発話情報記憶部121とを備える。
Hereinafter, embodiments will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus.
The
音声認識装置100は、ソフトウェア構成として、入力受付部101と、認識候補生成部102(認識出力部)と、発話関係判定部103と、部分修正部104aと、全体修正部104bと、認識候補選択部105と、出力制御部106と、認識連結部107とを備える。
The
以下、各要素の説明を、装置100による音声認識処理を示す図2のフローチャートを参照しながら行う。
マイク111は、利用者の発話を受け付ける。
入力受付部101は、マイク111にて受け付ける利用者の発話をA/D(Analogue to Digital)変換する(Act1)。
Hereinafter, each element will be described with reference to the flowchart of FIG.
The
The
認識候補生成部102は、利用者の発話を音声認識処理し、認識候補を生成する(Act2)。
認識候補生成部102は、FFT(Fast Fourier Transform)による周波数分析等を行って、入力音声の所定区間毎に、各区間についての音声認識のために必要な特徴情報(例えばスペクトル等)を時系列に出力する。所定区間とは、例えば単語等の文字列、アクセント句等の音素列、音素、音節等の単位をいう。
The recognition
The recognition
認識候補生成部102は、特徴情報と、不図示の音声認識用辞書が格納する音声解析パターンとを照合して類似度を表すスコアを算出し、ラティス形式で認識候補を出力する。
The recognition
図3は、認識候補生成部102が出力する認識候補のデータ構造を示す図である。
認識候補生成部102は、新規発話として「私は公園に行きたい」を意味する「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」が入力されると、認識候補として図3のラティスを出力する。図3の上部では、入力された音声に含まれる各音素と、各音素の入力位置を表す数値を対応づけて表してある。
FIG. 3 is a diagram illustrating a data structure of recognition candidates output from the recognition
When “WA-TA-SHI-WA-KO-UEN-NI-I-KI-TA-I”, which means “I want to go to the park”, is input as a new utterance, The lattice shown in FIG. 3 is output as a recognition candidate. In the upper part of FIG. 3, each phoneme included in the input speech is associated with a numerical value indicating the input position of each phoneme.
ラティスは、認識結果を左から右へ時系列に並べたノードを、不図示の音声認識用辞書が格納する音声解析パターンと照合した時の類似度合いを表すスコアを付したアークで結ぶことにより生成される。ノードに対して入力するアーク(以下、入力アークという。)に当該ノードのスコアを付す。スコアは、認識候補の確からしさ(尤度)を示す。 Lattice is generated by connecting nodes with recognition results arranged in chronological order from left to right with arcs with scores that indicate the degree of similarity when collated with speech analysis patterns stored in a speech recognition dictionary (not shown). Is done. A score of the node is attached to an arc input to the node (hereinafter referred to as an input arc). The score indicates the likelihood (likelihood) of the recognition candidate.
ノードは、単語等の文字列、アクセント句等の音素列、音素、音節等の入力音声の所定区間ごとに生成される。例えば図3のノード201は、入力位置が0から2までの区間に発話された3つの音素「WA」「TA」「SHI」からなる日本語の単語「私」を表す。記号“/”の部分は単語の品詞を表す。ノード201における“/n”は単語が名詞(noun)であることを表す。
A node is generated for each predetermined section of input speech such as a character string such as a word, a phoneme string such as an accent phrase, a phoneme, and a syllable. For example, the
認識候補生成部102は、認識候補が複数存在する場合、対応するノードを複数生成する。図3の例では、認識候補生成部102は、入力位置の区間が4から7のノード、および、入力位置の区間が9から10のノードとして、それぞれ3つの認識候補を生成する。各ノードのスコアはそれぞれ5,3,2および6,2,2である。
The recognition
認識候補生成部102が生成する認識候補は、発話情報記憶部121に格納される。発話情報記憶部121は、また、後述する認識候補選択部105が生成する認識結果や、後述する認識連結部107が生成する認識候補も格納する。
The recognition candidates generated by the recognition
利用者の発話「私は公園に行きたい」が新規な発話である場合、詳しくは後述するが、発話関係判定部103は、利用者の該発話を新規発話と判定する(図2のAct3:新規発話)。
When the user's utterance “I want to go to the park” is a new utterance, the utterance
この場合、認識候補選択部105は、認識候補生成部102が生成する図3の認識候補において、スコアが最大となるノード「公演」「生き」を選択し、各ノードを連結した日本語「私は公演に生きたい」を認識結果として出力する(Act4)。
出力制御部106は、認識候補選択部105が出力する「私は公演に生きたい」等の認識結果をディスプレイ112に表示する(Act5)。
In this case, the recognition
The
装置100は、このようにして新規発話の認識結果をディスプレイ112に表示するが、認識結果に誤りが含まれる場合、利用者は該誤りを発話により修正する。
装置100の認識結果の修正方法として、従来、部分修正発話、全体修正発話、新規発話による修正方法がある。
The
As a method for correcting the recognition result of the
部分修正発話による修正方法は、直前発話の誤りのある部分のみを再度発話することで、誤り部分のみを装置100に修正させる方法である。
全体修正発話による修正方法は、一部分のみを異ならせて全体を再度発話し、装置100に、直前発話と現発話のラティスを統合させて再度の認識結果を出力させる方法である。
The correction method based on the partial correction utterance is a method in which the
The correction method based on the overall correction utterance is a method in which only a part is changed and the entire utterance is again uttered, and the
新規発話による修正方法は、直前発話と不一致部分を多くした発話を行うことで、装置100に直前発話と切り離して音声認識させることにより修正を図る方法である。例えば、利用者が途中で噛んでしまい、発話を中断する場合、再び最初から全文を発話することで、装置100に新規発話として音声認識させる。
The correction method based on a new utterance is a method in which correction is performed by causing the
本実施形態では、これら従来の3つの発話による修正方法に加え、継続発話により修正方法がある点が特徴の1つとなっている。 In the present embodiment, one of the features is that in addition to the conventional three utterance correction methods, there is a correction method using continuous utterances.
継続発話による修正方法とは、簡略に述べると、利用者が途中で噛んでしまい、発話を中断する場合、例えば「私たちは、よき企業市民として、高い倫理観とそ」で発話を中断した場合に、「倫理観と尊法の精神をもち、各国及び・・・」と中断部分から発話することで、装置100に現発話と直前発話とを連結させて音声認識させる方法である。
Briefly speaking, the correction method based on continuous utterance means that if the user bites in the middle and interrupts the utterance, the utterance was interrupted, for example, "We are good corporate citizens and have high ethical standards." In this case, it is a method of causing the
部分修正発話による修正方法および全体修正発話による修正方法は特許文献3(特開2007−93789号公報)に開示されるので、以下では簡略に説明する。これら従来の修正方法の説明をした後に、継続発話による修正方法について具体的に説明する。 Since the correction method by partial correction utterance and the correction method by whole correction utterance are disclosed in Patent Document 3 (Japanese Patent Laid-Open No. 2007-93789), they will be briefly described below. After describing these conventional correction methods, the correction method based on continuous speech will be specifically described.
<部分修正発話による修正方法について>
まず、部分修正発話による装置100の誤認識の修正方法について図4および図5のフローチャートを参照して説明する。
<About correction method using partial correction utterance>
First, a method for correcting misrecognition of the
「私は公園に行きたい」を意味する新規発話「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」に対し、上述したように、装置100が図4(a)に示すように「私は公演に生きたい」を認識結果として出力する場合を考える。
For the new utterance “WA-TA-SHI-WA-KO-UEN-NI-I-KI-TA-I” meaning “I want to go to the park”, as described above, the
この場合、利用者は、認識結果の誤りを装置100に修正させるため、「公園」を意味する発話「KO-U-E-N」のみを再入力することにより、装置100の誤認識の修正を図ることができる(図2のAct1)。
In this case, the user can correct the erroneous recognition of the
認識候補生成部102は、直前発話の後にされた現発話「KO-U-E-N」の認識候補として、図4(b)に示すように、4つの認識候補「公演」、「公園」、「後援」、「好演」を出力する(Act2)。各認識候補のスコアは7,7,5,1であるものとする。
As shown in FIG. 4B, the recognition
発話関係判定部103は、直前発話と現発話とを比較し、類似部分と不一致部分とを算出する(図5のAct31)。類似部分の算出は、例えば特許文献2の方法を採用できる。すなわち、発話関係判定部103は、直前発話と現発話の入力音声の所定区間毎に生成された認識候補である複数の音素列または文字列のうち、両者で共通する音素列あるいは文字列の割合が予め定められた閾値以上である場合、当該所定区間を類似部分と判定する。類似部分と判定されなかった区間が不一致部分となる。
The utterance
発話関係判定部103は、直前発話の一部と現発話の全ての部分が類似するか否かを判定する(Act32)。
The utterance
本例の場合、現発話のすべての部分「KO-U-E-N」が直前発話「WA-TA-SHI-WA-KO-U-E-N-NI-I-KI-TA-I」の一部「KO-U-E-N」と類似するので(Act32:YES)、発話関係判定部103は、現発話が部分修正発話であると判定する。
部分修正部104aは、部分修正処理を行う(図2のAct6)。すなわち、部分修正部104aは、図4(b)に示すように、直前発話において、現発話に対応する単語「公演」のスコアを、4つの認識候補のうち最低のスコアである1から1を減算した値である0に設定する。
In this example, all parts of the current utterance "KO-UEN" are part of the previous utterance "WA-TA-SHI-WA-KO-UEN-NI-I-KI-TA-I""KO-UEN" (Act 32: YES), the utterance
The
この結果、認識候補選択部105は、スコアが7でありスコアが最大となるノード「公園」を選択し、選択したノードを連結した「私は公園に生きたい」を認識候補として出力する(図2のAct4)。
出力制御部106は、認識結果「私は公園に生きたい」をディスプレイ112に表示する(Act5)。
As a result, the recognition
The
そして、利用者は、次に、上記と同様にして今度は「行きたい」を意味する「I-KI-TA-I」のみを発話することで、装置100の認識結果「私は公園に生きたい」における誤認識部分「生きたい」を「行きたい」に修正させることができる。
Then, the user next speaks only “I-KI-TA-I” which means “I want to go” in the same way as above, and the recognition result “I live in the park” of the
装置100が認識結果「私は公園に行きたい」を表示し、利用者が該認識結果を正しいと判断して例えばOKボタンをクリックすることで、装置100(出力制御部106)は、スピーカ113にて「私は公園に行きたい」と音声出力し、音声認識処理を終了させる。
When the
<全体修正発話による修正方法について>
全体修正発話による修正方法は、一部分のみを異ならせて全体を再度発話することで、装置100に誤認識の修正を図らせる。
<About the correction method by the whole correction utterance>
The correction method based on the overall correction utterance causes the
図6は、全体修正処理を説明するための図である。図6では入力位置が8から15までの区間のノードを省略している。
利用者が例えば「映画を見たいのですがどこへ行けばよいですか」を意味する「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-DE-SU-KA」を発話した際に、装置100が図6の(a)に示すラティスを生成するとともに、スコアが最大となるノードを連結した「名画生みたいのですがどこへ行けばよいですか」を認識結果として出力する場合に、利用者は全体修正発話による修正方法を利用できる。
FIG. 6 is a diagram for explaining the overall correction process. In FIG. 6, nodes in the section where the input position is from 8 to 15 are omitted.
For example, "EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-EI-" means that the user wants to see a movie, but where should I go? When “KE-BA-YO-I-DE-SU-KA” is spoken, the
この場合、利用者は語尾「DE-SU-KA」を「I-KA」に変えた全体修正発話「E-I-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO-E-I-KE-BA-YO-I-I-KA」を再度入力できる(Act1)。 In this case, the user changes the ending "DE-SU-KA" to "I-KA" and the entire modified utterance "EI-GA-WO-MI-TA-I-NO-DE-SU-GA-DO-KO" -EI-KE-BA-YO-II-KA "can be entered again (Act 1).
認識候補生成部102は、図6(b)に示すラティスを生成する(Act2)。
発話関係判定部103は、直前発話と全体修正発話である現発話とを比較し、類似部分を算出する(Act31)。図6(a)のラティスと図6(b)のラティスとでは、語尾の表現が相違するのみであるため、入力位置が0から18までの区間が類似部分となる。
The
The utterance
直前発話と現発話の音素の不一致部分の割合は約14%(=(22−19)×100/22)である。閾値が15%に設定されていたとすると、不一致部分の割合が閾値より小さい。これにより、発話関係判定部103は、現発話の全ての部分が直前発話の一部と類似するわけではなく(図5のAct32:NO)、かつ、不一致部分の割合が閾値より小さいので(Act33:NO)、再入力された現発話は全体修正発話であると判定する。
The proportion of phoneme mismatches between the immediately preceding utterance and the current utterance is about 14% (= (22-19) × 100/22). If the threshold is set to 15%, the proportion of mismatched parts is smaller than the threshold. As a result, the utterance
これにより、全体修正部104bが全体修正処理を実行する(図2のAct7)。
全体修正処理では、直前発話の図6(a)のラティスと、現発話の図6(b)のラティスとを統合し、図6(c)のラティスを出力する。
Thereby, the overall correction unit 104b executes the overall correction process (
In the overall correction process, the lattice of FIG. 6A for the previous utterance and the lattice of FIG. 6B for the current utterance are integrated, and the lattice of FIG. 6C is output.
例えば、図6(a)の入力位置が4から6の区間のノード1201に対し、図6(b)に同じノード1202が存在するため、ノード1201のスコア10とノード1202のスコア10とを加算した値である20が、図6(c)のノード1203のスコアとして算出される。
For example, since the
また、例えば、図6(a)の入力位置が0から3の区間に対応するノード1204は図6(b)には存在しないため、図6(b)のラティスに当該ノードが追加され、図6(c)のノード1205が出力される。
Further, for example, since the
このような全体修正処理により統合された図6(c)のラティスにおいて、認識候補選択部105が、スコアが最大となるノードを連結して認識結果「映画を見たいのですがどこへ行けばよいですか」を生成し(Act4)、出力制御部106が該認識結果をディスプレイ112に表示する(Act5)。このように、装置100は直前発話と現発話のラティスを統合させてノードを選択する結果、正しい認識結果を生成することとなる。
In the lattice of FIG. 6C integrated by such an overall correction process, the recognition
<継続発話による修正方法について>
図7は、利用者の発話例を示す図である。
利用者が「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」と発話したいところ、直前発話(第1音声発話)にて噛んでしまい、「私たちは、よき企業市民として、高い倫理観とそっ」と発話を途中で中断する場合がある。この場合、装置100は、認識結果を「私たちは、よき企業市民として、高い倫理観とそ」と出力する。
<About correction method by continuous utterance>
FIG. 7 is a diagram illustrating an example of a user's utterance.
When a user wants to say, “As a good corporate citizen, we have high ethical standards and a law-abiding spirit and fulfill our responsibility to each country and local community.” Eventually, we may interrupt the speech “We are good corporate citizens and have high ethical standards”. In this case, the
このような場合に、利用者は、直前発話に継続する継続発話(第2音声発話)「倫理観と遵法(じゅんぽう)の精神をもち、各国及び地域社会に対する責任を果たす。」を装置100に入力することにより、装置100に利用者が発話したい全文の認識を図らせることができる(Act1,2)。
In such a case, the user makes the apparatus 100 a continuous utterance (second voice utterance) that continues to the immediately preceding utterance “has an ethical and legal spirit and fulfills responsibility to each country and community”. By inputting, the
なお、発話関係判定処理や、直前発話の認識結果に連結させる認識連結処理においては、現発話「倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」は、選択候補であるノードを複数含んだラティスであり、複数生成されるノードの選択は済んでいない状態であるが、以下では、説明を分かりやすくするため、ラティスの状態で認識される現発話を、正しいノードの選択が済んだ認識結果のような記載、すなわち、図7の現発話に示すように、利用者が発話したい内容で表記し、各説明を行う。 In the utterance relation determination process and the recognition linking process for linking to the recognition result of the immediately preceding utterance, the current utterance “has a spirit of ethics and legal compliance and fulfills responsibility to each country and community” is a selection candidate. The lattice contains multiple nodes, and the selection of multiple generated nodes has not been completed. However, in the following, for the sake of easy understanding, the correct utterance is selected from the current utterance recognized in the lattice state. A description such as a recognition result after completion, that is, as shown in the current utterance in FIG.
図8は、直前発話と現発話の音素を示す図である。
発話関係判定部103は、直前発話「私たちは、よき企業市民として、高い倫理観とそ」と現発話「倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」の一致部分、不一致部分を算出する(Act31)。発話関係判定部103は、例えば直前発話と現発話の音素から、直前発話の入力位置が18から23の区間の「倫理観と」の部分と、現発話の入力位置が1から6の区間の「倫理観と」の部分が類似し、他の部分は不一致と算出する。
FIG. 8 is a diagram showing phonemes of the immediately preceding utterance and the current utterance.
The utterance
そして、発話関係判定部103は、直前発話の一部と現発話の全てが類似するわけではなく(Act32:NO)、直前発話と現発話は不一致部分の割合が高く、不一致部分の割合が閾値15%を超えるが(Act33:YES)、直前発話の一部「倫理観と」と現発話の一部「倫理観と」が一致するので、現発話を直前発話に継続する継続発話と判定する(Act34:YES)。
そこで、認識連結部107が、直前発話の認識結果と現発話の認識候補とを連結させる認識連結処理を行う。
Then, the utterance
Therefore, the
まず、認識連結部107は、直前発話(の認識結果)と現発話(の認識候補)の一致部分が1つであるか否かを判定する(図2のAct8)。認識連結部107は、本例のように一致部分が1つの場合(Act8:YES)、該一致部分「倫理観と」を直前発話と現発話の連結部分と判定する(Act9)。
First, the
そして、認識連結部107は、直前発話に対し現発話を対応させ、直前発話を上書きする。すなわち、認識連結部107は、直前発話の連結部分「倫理観と」より前側「私たちは、よき企業市民として、高い」と、現発話の連結部分「倫理観と」より後側「遵法の精神をもち、各国及び地域社会に対する責任を果たす。」とを連結部分「倫理観と」を挟んで連結させる(Act10)。
Then, the
このようにして連結させた認識候補は、本来前述したように選択候補であるノードを複数含んだラティスである。例えば現発話における「SE-I-SI-N」は、ノードとして「精神」「清真」「政審」等を含む。 The recognition candidates connected in this way are lattices including a plurality of nodes that are selection candidates as described above. For example, “SE-I-SI-N” in the current utterance includes “mind”, “cleanness”, “political tribunal”, and the like as nodes.
そこで、認識候補選択部105が、スコアが最大となるノードを連結して認識結果として例えば「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たす。」を生成し(Act4)、出力制御部106が該認識結果をディスプレイ112に表示する(Act5)。認識結果において誤認識が含まれる場合、利用者は、誤認識部分を部分修正発話または全体修正発話により装置100に修正させればよい。
Therefore, the recognition
以下、図9を参照して、直前発話と現発話の一致部分が複数ある場合の認識連結処理を説明する。
利用者が、「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会にっ」と発話し、装置100が認識結果を「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に」と出力する場合を考える。
Hereinafter, with reference to FIG. 9, a recognition and connection process in the case where there are a plurality of matching portions between the immediately preceding utterance and the current utterance will be described.
The user said, “As a good corporate citizen, we have a high ethical sense and a law-abiding spirit, and to each country and local community.” The
この場合、利用者は、継続発話「社会に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」を装置100に入力できる(Act1,2)。
In this case, the user can input the continuous utterance “Contribute to the development of the global society by fulfilling the responsibility to society and respecting its culture and history” (
発話関係判定部103は、直前発話と現発話の一致部分、不一致部分を算出する(Act31)。発話関係判定部103は、前述と同様、直前発話と現発話の不一致部分の割合が閾値以上であるが(Act32、33:NO)、直前発話の一部「社会」と現発話の一部「社会」が一致するので、現発話を継続発話と判定する(Act34:YES)。
The utterance
続いて、認識連結部107は、直前発話と現発話の一致部分が1つであるか否かを判定する(Act8)。本例の場合、現発話「社会に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」において、前方にある「社会に対する」の「社会」と、後方にある「地球社会」の「社会」が、直前発話の「各国及び地域社会に」における「社会」と一致するので、認識連結部107は、一致部分は現発話に複数あると判定する(Act8:NO)。
Subsequently, the
このように、直前発話と現発話において一致部分が、少なくとも直前発話と現発話のいずれかに複数含まれる場合(本例の場合、現発話に一致部分「社会」が2つ含まれる)、認識連結部107は、直前発話の後方にある一致部分と、現発話の前方にある一致部分とが、直前発話と現発話の連結部分と判定する(Act11)。
As described above, when a plurality of matching parts are included in at least one of the immediately preceding utterance and the current utterance in the immediately preceding utterance and the current utterance (in this example, two matching parts “society” are included in the current utterance). The connecting
そして、認識連結部107は、直前発話における後方の連結部分「社会」より前側「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域」と、現発話における前方の連結部分「社会」から後側「に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」とを連結部分「社会」を挟んで連結させる(Act12)。
The recognizing connecting
このようにして連結させた認識候補は前述したように本来ノードを複数含んだラティスである。 The recognition candidates connected in this way are lattices originally including a plurality of nodes as described above.
そこで、認識候補選択部105が、スコアが最大となるノードを連結して認識結果として例えば「私たちは、よき企業市民として、高い倫理観と遵法の精神をもち、各国及び地域社会に対する責任を果たすと共に、その文化・歴史を尊重し、地球社会の発展に貢献します。」を生成し(Act4)、出力制御部106が該認識結果をディスプレイ112に表示する(Act5)。認識結果において誤認識が含まれる場合、利用者は、誤認識部分を部分修正発話または全体修正発話により装置100に修正させればよい。
Therefore, the recognition
なお、直前発話と現発話の一致部分は、設定により、音素が閾値以上に連続している場合(例えば音素が3つ以上連続)に限定したり、ノードあるいは特徴情報が閾値以上連続している場合等に限定したりできるものとする。 Note that the matching part between the immediately preceding utterance and the current utterance is limited to cases where phonemes are continuous beyond the threshold (for example, three or more phonemes are continuous), or nodes or feature information continues beyond the threshold depending on the setting. It can be limited to cases.
<新規発話の判定方法について>
発話関係判定部103は、直前発話の一部と現発話の全てが類似するわけではなく(Act32:NO)、直前発話と現発話は不一致部分の割合が高く閾値15%を超えるが(Act33:YES)、直前発話の一部と現発話の一部が一致しない場合、現発話を新規発話と判定する(Act34:NO)。
<New utterance judgment method>
The utterance
本実施形態によれば、利用者に再入力された音声が全体を修正するための発話か、一部を修正するための発話かを判定するだけでなく、継続的な入力を目的とする発話かどうかを判断でき、判定結果に応じて修正方法を変更できる。そのため、本実施形態は、利用者が修正方法を指示する必要がなく、自動で入力方法に応じて最適な修正方法を適用できるので、利便性が高く、高精度な音声認識結果を出力できる。 According to this embodiment, it is not only determined whether the voice re-input to the user is an utterance for correcting the whole or an utterance for correcting a part of the voice, but an utterance intended for continuous input Whether the correction method can be changed according to the determination result. For this reason, the present embodiment does not require the user to instruct the correction method, and the optimum correction method can be automatically applied according to the input method, so that it is highly convenient and can output a highly accurate speech recognition result.
(変形例)
前記実施形態では、認識連結部107は、直前発話の認識結果(認識)と、ノードの選択が済んでいない現発話のラティスである認識候補(認識)とを連結させた。前記実施形態では、入力される音声発話の認識を出力する認識出力部は、直前発話においては認識候補生成部102および認識候補選択部105を含んで構成され、現発話においては認識候補生成部102を含んで構成される。
(Modification)
In the embodiment, the
しかしながら、発話関係判定部103が現発話を継続発話と判定する場合、ラティスである認識候補に対して認識候補選択部105がノードを選択して認識結果を生成した後に、認識連結部107が、直前発話の認識結果(認識)と、現発話の前記認識結果(認識)とを連結させてもよい。この場合、認識出力部は、認識候補生成部および認識候補選択部を含んで構成される。
However, when the utterance
前記実施形態における各処理の順序は、前記実施形態で例示した順序と異なっていてもよい。
本発明は、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施の形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には、なんら拘束されない。さらに、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、すべて本発明の範囲内のものである。
The order of the processes in the embodiment may be different from the order exemplified in the embodiment.
The present invention can be implemented in various other forms without departing from the spirit or main features thereof. Therefore, the above-described embodiment is merely an example in all respects and should not be interpreted in a limited manner. The scope of the present invention is indicated by the scope of claims, and is not restricted by the text of the specification. Further, all modifications, various improvements, alternatives and modifications belonging to the equivalent scope of the claims are all within the scope of the present invention.
100…音声認識装置、102…認識候補出力部(認識出力部)、103…発話関係判定部、105…認識候補連結部(認識出力部)、107…認識連結部。
DESCRIPTION OF
Claims (5)
後に入力される第2音声発話が、先に入力される第1音声発話に継続する継続発話か否かを判定する発話関係判定部と、
前記第2音声発話が継続発話であると判定される場合、前記第1音声発話の認識である第1認識と、前記第2音声発話の認識である第2認識とを連結させる認識連結部と、
を備える音声認識装置。 A recognition output unit that outputs recognition of an input speech utterance;
An utterance relation determination unit that determines whether or not the second voice utterance input later is a continuous utterance continued from the first voice utterance input first;
A recognition linking unit that connects the first recognition, which is the recognition of the first voice utterance, and the second recognition, which is the recognition of the second voice utterance, when it is determined that the second voice utterance is a continuous utterance; ,
A speech recognition apparatus comprising:
前記発話関係判定部は、前記第2認識全体が前記第1認識に含まれないとともに、前記第1、第2認識の不一致部分の割合が閾値以上であり、かつ、前記第1認識の一部と前記第2認識の一部とが一致する場合、前記第2音声発話が継続発話であると判定する音声認識装置。 The apparatus of claim 1.
The utterance relation determination unit is configured such that the entire second recognition is not included in the first recognition, the ratio of the mismatched portions of the first and second recognitions is equal to or greater than a threshold, and a part of the first recognition And a part of the second recognition, a speech recognition device that determines that the second speech utterance is a continuous utterance.
前記第1、第2認識の一致部分が、少なくとも前記第1、第2認識のいずれかに複数含まれる場合、前記発話関係判定部は、前記第1認識の後方にある一致部分と、前記第2認識の前方にある一致部分とが前記第1、第2認識の連結部分と判定し、
前記認識連結部は、前記第1認識における後方の前記連結部分より前側と、前記第2認識における前方の前記連結部分から後側とを前記連結部分を挟んで連結させる音声認識装置。 The apparatus of claim 2.
In a case where a plurality of matching parts of the first and second recognitions are included in at least one of the first and second recognitions, the utterance relationship determination unit includes a matching part located behind the first recognition, A matching part in front of the two recognitions is determined as the connection part of the first and second recognitions,
The recognition connection unit is a speech recognition device that connects the front side of the rear connection part in the first recognition and the front connection part to the rear side of the second recognition with the connection part interposed therebetween.
後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、
前記第2音声発話が継続発話であると判定する場合、前記第1音声発話の認識と、前記第2音声発話の認識とを連結させる音声認識方法。 Recognize incoming speech utterances
It is determined whether the second voice utterance input later is a continuous utterance that is an utterance from the middle of the first voice utterance input first,
A speech recognition method for connecting recognition of the first speech utterance and recognition of the second speech utterance when it is determined that the second speech utterance is a continuous utterance.
後に入力される第2音声発話が、先に入力される第1音声発話の途中からの発話である継続発話か否かを判定し、
前記第2音声発話が継続発話であると判定する場合、前記第1音声発話の認識と、前記第2音声発話の認識とを連結させる
ことを音声認識装置に行わせることをコンピュータに実行させる音声認識プログラム。 Recognize incoming speech utterances
It is determined whether the second voice utterance input later is a continuous utterance that is an utterance from the middle of the first voice utterance input first,
When determining that the second voice utterance is a continuous utterance, a voice that causes a computer to cause the voice recognition device to connect the recognition of the first voice utterance and the recognition of the second voice utterance. Recognition program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013238873A JP2015099253A (en) | 2013-11-19 | 2013-11-19 | Voice recognizing apparatus, voice recognizing method, voice recognizing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013238873A JP2015099253A (en) | 2013-11-19 | 2013-11-19 | Voice recognizing apparatus, voice recognizing method, voice recognizing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015099253A true JP2015099253A (en) | 2015-05-28 |
Family
ID=53375900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013238873A Pending JP2015099253A (en) | 2013-11-19 | 2013-11-19 | Voice recognizing apparatus, voice recognizing method, voice recognizing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015099253A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018079294A1 (en) * | 2016-10-27 | 2018-05-03 | ソニー株式会社 | Information processing device and information processing method |
JP2019023674A (en) * | 2017-07-24 | 2019-02-14 | 株式会社システック | Voice input device dealing with excess sound mixture |
CN112585674A (en) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | Information processing apparatus, information processing method, and program |
JP2021140134A (en) * | 2020-03-04 | 2021-09-16 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method, device, electronic apparatus, computer readable storage medium, and computer program for recognizing speech |
-
2013
- 2013-11-19 JP JP2013238873A patent/JP2015099253A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018079294A1 (en) * | 2016-10-27 | 2018-05-03 | ソニー株式会社 | Information processing device and information processing method |
JP2019023674A (en) * | 2017-07-24 | 2019-02-14 | 株式会社システック | Voice input device dealing with excess sound mixture |
CN112585674A (en) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | Information processing apparatus, information processing method, and program |
JP2021140134A (en) * | 2020-03-04 | 2021-09-16 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method, device, electronic apparatus, computer readable storage medium, and computer program for recognizing speech |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4542974B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
JP3762327B2 (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US20080319743A1 (en) | ASR-Aided Transcription with Segmented Feedback Training | |
JP6284462B2 (en) | Speech recognition method and speech recognition apparatus | |
US9240181B2 (en) | Automatic collection of speaker name pronunciations | |
JP2010020102A (en) | Speech recognition apparatus, speech recognition method and computer program | |
JP2006267319A (en) | Support system for converting voice to writing, method thereof, and system for determination of correction part | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
US10665227B2 (en) | Voice recognition device and voice recognition method | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2015099253A (en) | Voice recognizing apparatus, voice recognizing method, voice recognizing program | |
JP7326931B2 (en) | Program, information processing device, and information processing method | |
JP2014206642A (en) | Voice recognition device and voice recognition program | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2012003090A (en) | Speech recognizer and speech recognition method | |
JP6325770B2 (en) | Speech recognition error correction apparatus and program thereof | |
JP2014134640A (en) | Transcription device and program | |
JP2009031328A (en) | Speech recognition device | |
KR20120046627A (en) | Speaker adaptation method and apparatus | |
KR101677530B1 (en) | Apparatus for speech recognition and method thereof | |
WO2012150658A1 (en) | Voice recognition device and voice recognition method | |
JP6527000B2 (en) | Pronunciation error detection device, method and program | |
KR100622019B1 (en) | Voice interface system and method |