JP2009015148A - Speech recognition device, speech recognition method and speech recognition program - Google Patents
Speech recognition device, speech recognition method and speech recognition program Download PDFInfo
- Publication number
- JP2009015148A JP2009015148A JP2007178671A JP2007178671A JP2009015148A JP 2009015148 A JP2009015148 A JP 2009015148A JP 2007178671 A JP2007178671 A JP 2007178671A JP 2007178671 A JP2007178671 A JP 2007178671A JP 2009015148 A JP2009015148 A JP 2009015148A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- reception time
- word
- speech
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識装置、音声認識方法、及び音声認識プログラムに関し、より特定的には、誤認識された発話内容を認識されるべき発話内容に訂正する音声認識装置、音声認識方法、及び音声認識プログラムに関する。 The present invention relates to a voice recognition apparatus, a voice recognition method, and a voice recognition program, and more specifically, a voice recognition apparatus, a voice recognition method, and a voice that correct a misrecognized utterance content to an utterance content to be recognized. It relates to recognition programs.
従来の音声認識装置は、ユーザが単語を発話すると、あらかじめ保持している辞書の中に格納されている単語(以後、辞書内単語と呼ぶ)と発話した単語(以後、発話単語と呼ぶ)を確率統計処理等を用いて比較し、その中から確からしい単語を認識結果としてユーザに報知する。この際に、ユーザが発話した単語と報知した単語が異なってしまう(以後、このような現象を誤認識という)場合が発生する。これは様々原因が考えられるが、100%正しく認識することは非常に困難である。 In a conventional speech recognition apparatus, when a user utters a word, a word (hereinafter referred to as a word in the dictionary) stored in a dictionary held in advance and a word (hereinafter referred to as an utterance word) that are spoken are stored. Comparison is made using probability statistical processing or the like, and a probable word is notified to the user as a recognition result. At this time, there may occur a case where the word spoken by the user is different from the informed word (hereinafter, such phenomenon is referred to as misrecognition). There are various causes for this, but it is very difficult to recognize 100% correctly.
一方、確率統計処理を用いた音声認識処理では、発話単語と辞書内単語とを比較したときに、発話単語がどれだけ辞書内単語と音響的に似ているかを表す自信度(単語信頼度、尤度等と呼ばれる場合もある)を算出することができる。 On the other hand, in speech recognition processing using probability statistical processing, when comparing an utterance word with a word in the dictionary, a confidence level (word reliability, which indicates how much the utterance word is acoustically similar to the word in the dictionary) May be called likelihood etc.).
このような自信度を用いて、自信度が90%であれば、単語が正しく認識されたとしてそのまま受付け、自信度が50%程度であれば、認識された単語をユーザに問い合わせ、再度正しい単語の音声入力を受付ける(例えば特許文献1参照)。
しかしながら、従来の音声認識では、自信度が低い場合、認識された単語をユーザに問い合わせ、ユーザは、再度正しい単語を音声入力するために、更に再入力ボタンを押下する等の操作を行わなくてはならない。 However, in the conventional voice recognition, when the degree of confidence is low, the user is inquired about the recognized word, and the user does not need to perform an operation such as pressing a re-input button again to input the correct word again. Must not.
このため、再入力ボタン等を押下する等の更なる1ステップの操作を経なくては、再度正しい単語を音声入力することができず、音声入力そのものが本来有する入力の容易性を損なうため、ユーザ利便性に欠ける。 For this reason, the correct word cannot be input again without further one-step operation such as pressing the re-input button or the like, and the ease of input inherent in the voice input itself is impaired. It lacks user convenience.
そこで、本発明は、上記問題に鑑みてなされた。すなわち、再度正しい単語を音声入力する際に、音声入力そのものが本来有する入力の容易性を損なわず、ユーザ利便性に富んだ音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。 Therefore, the present invention has been made in view of the above problems. That is, an object of the present invention is to provide a speech recognition device, a speech recognition method, and a speech recognition program that are rich in user convenience without impairing the ease of input inherent in speech input itself when a correct word is input again. And
本発明の第1の局面は、音声認識装置に向けられている。本発明は、単語データを記憶する記憶部と、入力された音声の表す単語データと記憶部内に記憶された単語データとを比較して、比較時のマッチング度合いを表す認識スコアを算出し、算出した認識スコアに基づいて、認識した単語を出力する音声認識部と、音声認識部が算出した認識スコアに基づいて、音声による再入力を受付け可能な受付け時間を決定する受付時間決定部と、受付時間決定部が決定した受付け時間内に再入力された音声の表す単語を再認識し、再認識した単語を出力する音声再認識部とを備える。 The first aspect of the present invention is directed to a voice recognition device. The present invention compares a storage unit that stores word data, word data represented by input speech and word data stored in the storage unit, and calculates a recognition score that represents a matching degree at the time of comparison. A speech recognition unit that outputs the recognized word based on the recognition score, a reception time determination unit that determines a reception time that can accept re-input by speech based on the recognition score calculated by the speech recognition unit, and a reception A speech re-recognition unit that re-recognizes a word represented by the speech re-input within the reception time determined by the time determination unit and outputs the re-recognized word.
この構成により、再度正しい単語を音声入力する際に、音声入力そのものが本来有する入力の容易性を損なわず、ユーザ利便性に富んだ音声認識装置を提供することができる。 With this configuration, it is possible to provide a speech recognition device that is rich in user convenience without impairing the ease of input inherent in speech input itself when inputting correct words again.
また、受付け時間決定部が決定した受付け時間の変化と共に変化する表示オブジェクトによってユーザに報知する受付け時間報知部を更に備えることが好ましい。 In addition, it is preferable to further include an acceptance time notification unit that notifies the user by a display object that changes with a change in the acceptance time determined by the acceptance time determination unit.
この構成により、機器側の認識の自信度によって、ユーザが認識結果を正しく変更できる時間が報知されるため、ユーザは訂正操作にあわてることなく誤認識を訂正できる。 According to this configuration, since the time when the user can correctly change the recognition result is notified according to the degree of confidence of recognition on the device side, the user can correct the erroneous recognition without performing the correction operation.
また、受付け時間報知部は、受付時間決定部が決定した受付け時間内に音声が再入力された場合、表示オブジェクトの変化を停止させることが好ましい。 Moreover, it is preferable that the reception time notification unit stops the change of the display object when the voice is re-input within the reception time determined by the reception time determination unit.
この構成により、ユーザは機器側が自分の発話した内容を処理(認識)していることを直感的に理解することができる。 With this configuration, the user can intuitively understand that the device side is processing (recognizing) the content spoken by itself.
また、受付け時間報知部は、受付け時間決定部が決定した受付け時間を表す表示オブジェクトの表示領域上での位置を当該受付け時間の変化と共に変化させることが好ましい。 Moreover, it is preferable that an acceptance time alerting | reporting part changes the position on the display area of the display object showing the acceptance time which the acceptance time determination part determined with the change of the said acceptance time.
この構成により、オブジェクトの移動が開始する位置と、終了する位置の間の距離を見るだけで、再入力可能な残り時間を直感的に把握することができる。 With this configuration, it is possible to intuitively grasp the remaining time that can be input again only by looking at the distance between the position where the movement of the object starts and the position where it ends.
また、受付け時間報知部は、受付け時間決定部が決定した受付け時間を表す表示オブジェクトの目盛りの量を当該受付け時間の変化と共に変化させることが好ましい。 Moreover, it is preferable that the reception time notification unit changes the amount of the scale of the display object representing the reception time determined by the reception time determination unit together with the change in the reception time.
この構成により、ユーザは、修正する時間の緊急度を直感的に把握することができる。 With this configuration, the user can intuitively grasp the urgency of the time to be corrected.
また、受付け時間報知部は、受付け時間決定部が決定した受付け時間を表す表示オブジェクトの大きさを当該受付け時間の変化と共に変化させることが好ましい。 Moreover, it is preferable that an acceptance time alerting | reporting part changes the magnitude | size of the display object showing the acceptance time which the acceptance time determination part determined with the change of the said acceptance time.
この構成により、ユーザは最初の文字の小ささから機器側の自信度を直感的に推し量ることができる。 With this configuration, the user can intuitively estimate the degree of confidence on the device side from the smallness of the first character.
また、受付け時間報知部は、受付け時間決定部が決定した受付け時間を表す表示オブジェクトの透明度を当該受付け時間の変化と共に変化させることが好ましい。 Moreover, it is preferable that an acceptance time alerting | reporting part changes the transparency of the display object showing the acceptance time which the acceptance time determination part determined with the change of the said acceptance time.
この構成により、ユーザは最初の文字の透明度から機器側の自信度を直感的に推し量ることができる。 With this configuration, the user can intuitively estimate the degree of confidence on the device side from the transparency of the first character.
また、音声再認識部は、前記受付け時間報知部が決定した時間の間、前記音声認識部が認識した単語を前記記憶部内から除外して再認識することが好ましい。 In addition, it is preferable that the voice re-recognition unit removes words recognized by the voice recognition unit from the storage unit and re-recognizes during the time determined by the reception time notification unit.
この構成により、時間内に今回認識された結果を訂正するべく音声が入力されても、再度、前回と同じ単語が認識されることがなくなるため、認識率が高くなる。 With this configuration, even when a voice is input to correct the result recognized this time, the same word as the previous one is not recognized again, and the recognition rate is increased.
また、音声再認識部は、受付け時間決定部が決定した時間の間、音声認識部が認識した単語に所定の単語を付加した単語を再認識することが好ましい。 The speech re-recognition unit preferably re-recognizes a word in which a predetermined word is added to the word recognized by the speech recognition unit during the time determined by the reception time determination unit.
この構成により、ユーザは、時間内に今回認識された結果を訂正するべく単語を発話しようとしたときに、誤った結果を見て動揺し、単語と一緒に不要語を発話しても、ユーザが所望する単語を認識結果として出力できる。 With this configuration, when a user tries to utter a word to correct the result recognized this time, he / she is upset when he / she sees an incorrect result and utters an unnecessary word along with the word. Can output a desired word as a recognition result.
本発明の第2の局面は、音声認識方法に向けられている。本発明は、入力された音声の表す単語データと記憶部内に記憶された単語データとを比較して、比較時のマッチング度合いを表す認識スコアを算出し、算出した認識スコアに基づいて、認識した単語を出力する音声認識ステップと、音声認識ステップで算出した認識スコアに基づいて、音声による再入力を受付け可能な受付け時間を決定する受付時間決定ステップと、受付時間決定ステップで決定した受付け時間内に再入力された音声の表す単語を再認識し、再認識した単語を出力する音声再認識ステップとを備える。 The second aspect of the present invention is directed to a speech recognition method. The present invention compares the word data represented by the input speech with the word data stored in the storage unit, calculates a recognition score representing the matching degree at the time of comparison, and recognizes based on the calculated recognition score A speech recognition step for outputting a word, a reception time determination step for determining a reception time for accepting re-input by voice based on the recognition score calculated in the speech recognition step, and a reception time determined in the reception time determination step A speech re-recognition step of re-recognizing the word represented by the speech re-input to and outputting the re-recognized word.
この構成により、再度正しい単語を音声入力する際に、音声入力そのものが本来有する入力の容易性を損なわず、ユーザ利便性に富んだ音声認識方法を提供することができる。 With this configuration, when a correct word is input again by voice, it is possible to provide a voice recognition method that is rich in user convenience without impairing the ease of input inherent in the voice input itself.
本発明の第3の局面は、音声認識装置のコンピュータで実行される音声認識プログラムに向けられている。本発明は、コンピュータに、入力された音声の表す単語データと記憶部内に記憶された単語データとを比較して、比較時のマッチング度合いを表す認識スコアを算出し、算出した認識スコアに基づいて、認識した単語を出力する音声認識ステップと、音声認識ステップで算出した認識スコアに基づいて、音声による再入力を受付け可能な受付け時間を決定する受付時間決定ステップと、受付時間決定ステップで決定した受付け時間内に再入力された音声の表す単語を再認識し、再認識した単語を出力する音声再認識ステップとを実行させる。 The third aspect of the present invention is directed to a voice recognition program executed by a computer of a voice recognition device. The present invention compares the word data represented by the input speech with the word data stored in the storage unit in a computer, calculates a recognition score representing the matching degree at the time of comparison, and based on the calculated recognition score The speech recognition step that outputs the recognized word, the reception time determination step that determines the reception time that can accept re-input by voice based on the recognition score calculated in the speech recognition step, and the reception time determination step A speech re-recognition step of re-recognizing a word represented by the speech re-input within the reception time and outputting the re-recognized word is executed.
この構成により、再度正しい単語を音声入力する際に、音声入力そのものが本来有する入力の容易性を損なわず、ユーザ利便性に富んだ音声認識プログラムを提供することができる。 With this configuration, when a correct word is input again by voice, it is possible to provide a voice recognition program which is rich in user convenience without impairing the ease of input inherent in the voice input itself.
以上説明したように、本発明の各局面によれば、再度正しい単語を音声入力する際に、音声入力そのものが本来有する入力の容易性を損なわず、ユーザ利便性に富んだ音声認識装置、音声認識方法、及び音声認識プログラムを提供することができる。 As described above, according to each aspect of the present invention, when a correct word is input again by speech, the speech recognition device and the speech that are rich in user convenience without impairing the input ease inherent in the speech input itself. A recognition method and a speech recognition program can be provided.
以下、本発明の実施の携帯の音声認識装置について、図面を用いて説明する。 Hereinafter, a portable speech recognition apparatus according to an embodiment of the present invention will be described with reference to the drawings.
図1は、本発明の実施の形態に係る音声認識装置の全体構成を表すブロック図である。図1において、音声認識装置は、音声入力部100、認識部200、認識対象単語格納部300、修正タイミング制御部400、報知内容制御部500、及び報知部600を備える。そして音声入力部100は認識開始終了部110を更に備え、認識部200は更に認識スコア算出部210を備える。
FIG. 1 is a block diagram showing the overall configuration of a speech recognition apparatus according to an embodiment of the present invention. In FIG. 1, the speech recognition apparatus includes a
音声入力部100はユーザが発話した音声を取り込む、例えばマイクである。この音声を取り込む際に、認識部200にこれから音声データを入力することを事前に通知する認識開始終了部110をユーザは操作する。この認識開始終了部110は、ユーザによって操作される場合は、例えばボタン操作であったり、特別な単語を発話することをトリガーとして動作する。
The
認識開始終了部110から通知を受けると、認識部200は、この入力された音声データの取込を開始し、認識対象単語格納部300に格納されている単語(以後、辞書内単語と呼ぶ)と比較し、辞書内単語の中で音響的に近い単語を抽出する。なお、上記の比較処理を実現する技術としては、多くの音声認識処理で適用されているHMM(隠れマルコフモデル)等の確率統計処理技術を適用すればよい。この音響的に近い単語を抽出する際に、認識スコア算出部210は、単語同士がどれほど近いか(似ているか)をスコアとして算出する。このようなスコアとしては、一般的な尤度や単語信頼度等が用いればよい。なお、本実施の形態では、このスコアを仮に0から10までの範囲で、最も音響的に近い場合を0とし、遠い場合を10とする。
Upon receiving a notification from the recognition start /
ここで、ユーザが「見る」と単語を発話した時を例として各処理について説明する。 Here, each process will be described by taking as an example the time when the user utters the word “see”.
認識部200は「見る」の音声データを受け取り、認識対象単語格納部300に格納されている辞書内単語の中から、発話された「見る」に近い単語を抽出してくる。この際、認識対象単語格納部300には、「見る」と「地図」いう単語があらかじめ登録されていたとし、認識部200は音響的に最も近い単語として「地図」を抽出し、認識した結果とする。そして、認識した「地図」という単語に対して、認識スコア算出部210が算出したスコアが“6”だったとする。
The recognizing
ここで、図2を用いて処理の流れを説明する。認識部200は認識単語(“地図”)と算出スコア(“6”)を修正タイミング制御部400に送信する(ステップS200)。
Here, the flow of processing will be described with reference to FIG. The
修正タイミング制御部400は、通知された算出スコアを用いて、認識単語の修正が可能な時間を決定する(ステップS201)。例えば今回の場合、スコアが“6”なので、6秒間というタイミングを設定するが、この設定方法は、認識結果に自信があればあるほど修正できる時間が短くなり、自信がないほど修正できる時間が長くなるように設定すればよい。なお、このときの時間は認識部200が算出したスコアに対して、離散的な値でも連続的な値でも構わない。
The correction
次に修正タイミング制御部400は、認識開始終了部110に対して、認識を開始するようにトリガーを通知する(ステップS203)。この通知を受けた認識開始終了部110は認識部200に認識処理ができるように開始トリガーを通知する(ステップS204)。
Next, the correction
ここで、修正可能な時間内にユーザが発話したかどうかで処理が分岐する。つまり、今回の例の場合、6秒以内にユーザが単語を発話したかどうかである。 Here, the process branches depending on whether the user speaks within the correctable time. That is, in the case of this example, it is whether the user has spoken a word within 6 seconds.
時間内にユーザが発話した場合、認識部200は認識対象単語格納部300を参照して音声認識処理を行い、認識単語を抽出する(ステップS205,ステップS206)。その後に、認識単語とスコアを通知された修正タイミング制御部400は、前回の認識した単語を、今回通知された単語に修正して再認識する。
When the user speaks within the time, the
これにより、例えば、今回ユーザが再度「見る」と発話したとして、認識部200が「見る」と認識したとすると、前回認識された単語(“地図”)を、今回発話した単語(“見る”)に置き換えて、前回の単語を修正して再認識できるようになる。そのため、ユーザは前回発話した単語を修正して再認識する際に、認識開始終了部110の操作や前回の認識結果を訂正するだけの操作を必要とせずに、再度認識してもらいたい単語を発話するだけで訂正操作が可能になる。そして、スコアが低いとき(認識の自信度が低いとき)は修正できる時間が長くとられるため、ユーザに修正できる機会を多く与えることができる。逆に、スコアが高いとき(認識の自信度が低いとき)は、修正の時間が短いため、ユーザにとって待ち時間が少なく、次の操作に支障が出ない。
Thus, for example, if the user utters “see” again this time, and the
また、ステップS202にて、前回の認識単語(本例の場合、“地図”という単語)を一時的に認識部200が参照する認識対象単語格納部300から削除している。これは、再度ユーザが発話したときに、音響的に似通った単語が認識対象とならなくなるため誤認識が生じにくくなり、認識率を高める効果がある。
In step S202, the previous recognized word (in this example, the word “map”) is temporarily deleted from the recognition target
そしてステップS213にて、認識対象単語格納部300に格納されている各単語の前に、「え〜っと」や「あの〜」などの不要語を追加した単語を一時的に認識対象単語格納部300に追加している。これは、ユーザが思いもよらない認識結果を報知されたときに思わず発声してしまう不要語に対して、認識部200が誤認識をしないようにするためである。
In step S 213, a word in which an unnecessary word such as “Ett” or “That” is added before each word stored in the recognition target
そして、これらステップS202,ステップS213の処理はスコアによって、処理をするかしないかを判定してもよい。特に、認識部200の算出したスコアが、非常に信頼性の高い値であった場合に、単語の登録などの処理負荷は高いため省略し、負荷を軽減することができる。
Then, whether or not to perform the processes in steps S202 and S213 may be determined based on the score. In particular, when the score calculated by the recognizing
また、図2には記載していないが、ステップS202、ステップS213の処理が終わった後に、認識部200にて認識が終了、もしくは、修正可能時間が過ぎたときに、認識対象単語格納部300に対してステップS202とステップS213で処理した内容を元に戻すこととする。
Although not shown in FIG. 2, when the
次に、修正可能時間を経過しても、ユーザからの発話がなかった場合について説明する。これは、今回の例の場合、6秒を過ぎても音声データが音声入力部100から入力されなかった場合であり、このときは、修正可能時間経過後すぐに修正タイミング制御部600は認識開始終了部110に認識を終了するトリガーを通知する。そして、認識開始終了部110はこの通知を受けて、終了トリガーを認識部200に通知することにより、認識部200は次のユーザ操作による開始トリガーが入力されない限り認識処理を行わない。
Next, a case where there is no utterance from the user even after the correctable time has elapsed will be described. In the case of this example, this is a case where the voice data is not input from the
このように処理することにより、ユーザが発話した単語の認識スコアが低くても、正しく認識された場合は、ユーザは何も操作をすることないため、余計な操作をする必要がない。 By processing in this way, even if the recognition score of the word spoken by the user is low, if the word is correctly recognized, the user does not need to perform any operation, so there is no need to perform an extra operation.
一方、修正タイミング制御部400は、算出した修正可能時間と認識単語を報知内容制御部500に通知する。
On the other hand, the correction
報知内容制御部500は、認識した単語が修正可能である旨をユーザに報知するために報知方法を制御し、報知部600に通知する。この報知部600は、例として液晶ディスプレイや有機ELなどのGUIを表示する形態のものや、スピーカーなどの音(音声、ビープ音)をならすことができる形態のものや、モータなどの触覚を報知することができる形態のものなどが考えられる。ここで、報知方法としては、図3Aから図6のような方法が考えられる。なお、これらの例として、認識部200が「地図」と認識し、修正可能時間が6秒だったときとする。
The notification
図3Aと図3Bには、移動量が変化する場合の例を示す。 3A and 3B show an example in which the movement amount changes.
図3Aと図3Bは認始結果を出力する報知するディスプレイD300上に、修正可能時間内の変化を状態1(開始)から状態3(終了)までを表したものである。なお、本例では、3つの状態に分割しているが、状態間は連続的に変化していても良い。 FIG. 3A and FIG. 3B show the change in the correctable time from state 1 (start) to state 3 (end) on the display D300 for notifying which outputs the authentication result. In this example, the state is divided into three states, but the state may change continuously.
まず、図3Aは、認識部200が認識した単語W300が、ディスプレイD300内を修正可能時間の間、一定の速度(もしくは加速度)で移動している様子を表している。この例では、領域D301の示す位置に単語W300が移動すると修正時間は終了し、認識結果であるW300は認識結果として確定するとしている。本例では、修正時間が6秒(状態1から状態3までにかかる時間)としていたが、仮に修正可能時間が3秒であった場合は、単語W300の初期位置を状態2の位置に置くことができる。つまり、ユーザは単語W300と領域D301の間の距離を見て、後どれくらいの修正時間が残っているかを感覚で捉えることができる。
First, FIG. 3A shows a state in which the word W300 recognized by the
また、図3Bは、目盛りD303が、時間が経過するに従って増えていき、領域D302を徐々に満たすことを表している図である。このような目盛りを表示することで、ユーザは直感的に残りの修正時間を捉えることができる。また、修正時間に応じて、目盛りD303や領域D302の幅を変更しても良い。これにより、1目盛り増える時間を変えずに修正時間を変化させることができる。なお、図3Bの状態1(開始)にて、目盛りD303が増えているが、目盛りD303を0としても構わない。 FIG. 3B is a diagram showing that the scale D303 increases as time passes and gradually fills the region D302. By displaying such a scale, the user can intuitively grasp the remaining correction time. Further, the width of the scale D303 or the region D302 may be changed according to the correction time. As a result, the correction time can be changed without changing the time to increase one scale. In addition, although the scale D303 is increased in the state 1 (start) in FIG. 3B, the scale D303 may be set to 0.
次に図4を用いて、大きさが変化する場合の例を示す。 Next, an example in which the size changes will be described with reference to FIG.
図4においても、修正可能時間の間の状態を、状態1(開始)から状態3(終了)を用いて説明する。認識部200が認識した単語W300は、修正が開始できる状態(状態1)では、文字の大きさを小さくして、それを徐々に大きくし、最終的に一番大きくなったところで、修正時間を終了する。このようにすることで、ユーザは最初の文字の小ささから機器側の自信度を直感的に推し量ることができ、修正できる時間が長くとられることも理解することができる。またその場での変化であるため、ユーザの視線の移動量も少なくて、車などの機器にとって適していると考えられる。
In FIG. 4 as well, the state during the correctable time will be described using state 1 (start) to state 3 (end). In the state where the
また、図4の様な形態で、文字の大きさではなく、単語W300の文字点滅等の速度を変化させる場合も考えられる(図面なし)。 Further, in the form as shown in FIG. 4, it may be possible to change not the size of characters but the speed of flashing characters of the word W300 (not shown).
このような場合、点滅の速度(周期)を状態1では早く(短く)し、その後徐々に速度をゆっくり(長く)して、状態3では点滅しないとすることで、ユーザは点滅の速度を見るだけで、残り時間を推し量ることができ、ユーザが最も注目すべき内容(認識結果)が点滅することで、誤認識の可能性があることを機器側から示唆することができる。なお、速度を変化させる対象は、単語の大きさや、単語の移動する速度等が考えられる。
In such a case, the user sees the blinking speed by making the blinking speed (cycle) fast (short) in
さらに、図5のように、認識単語を表示する透明度を変化させる場合も考えられる。 Further, as shown in FIG. 5, the transparency for displaying the recognized word may be changed.
この場合も認識単語W300の自信度をユーザに直感的に提示することができ、かつ修正できる残りの時間も感覚的に推し量ることができる。 Also in this case, the degree of confidence of the recognized word W300 can be intuitively presented to the user, and the remaining time that can be corrected can be estimated in a sense.
また、図6のように時間表示領域D304に、修正可能時間の残り時間を表示する場合が考えられる。 In addition, as shown in FIG. 6, it is conceivable that the remaining time of the correctable time is displayed in the time display area D304.
この場合は、ユーザに、直接修正可能時間を表示するため、残り時間が非常に端的に表されており、わかりやすい。 In this case, since the correctable time is directly displayed to the user, the remaining time is expressed very simply and is easy to understand.
なお、上記に記述した図3Aから図6までの例は、それぞれ有機的に組み合わせて表示しても良い。 Note that the examples shown in FIGS. 3A to 6 described above may be displayed in organic combination.
これら変化をしている最中に、ユーザは新たに単語を修正する際は、修正したい単語を発話することができる。例えば、「見る」と発話した場合は、認識開始終了部110を操作することなく、認識部200が認識を開始する。この認識部200が認識処理を開始し始めたときに、報知内容制御部500は上記図3Aから図6で示したような各種変化を止める。
While making these changes, the user can utter the word he / she wants to correct when newly correcting the word. For example, when “speak” is spoken, the
これにより、変化がなくなったことにより、ユーザは機器側が自分の発話した内容を処理(認識)していることが直感的に理解することができる。なお、その他の表示方法としては、アイコンの表示や変更をしたり、画面の色を変更したり、文字により状態を表すガイダンスを設けたりしても良い。 As a result, the user can intuitively understand that the device side processes (recognizes) the content of its own utterance when the change is eliminated. As other display methods, icons may be displayed or changed, the color of the screen may be changed, or guidance indicating the state with characters may be provided.
本発明は、上述した実施の形態を実現するソフトウェアのプログラム(実施の形態では図に示すフロー図に対応したプログラム)が装置に供給され、その装置のコンピュータが、供給されたプログラムを読出して、実行することによっても達成させる場合を含む。したがって、本発明の機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラム自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現させるための音声認識プログラムも含む。 In the present invention, a software program for realizing the above-described embodiment (in the embodiment, a program corresponding to the flowchart shown in the figure) is supplied to the apparatus, and the computer of the apparatus reads the supplied program, Including the case where it is also achieved by executing. Therefore, in order to implement the functional processing of the present invention on a computer, the program itself installed in the computer also implements the present invention. That is, the present invention also includes a speech recognition program for realizing the functional processing of the present invention.
このように、再度正しい単語を音声入力する際に、音声入力そのものが本来有する入力の容易性を損なわず、ユーザ利便性に富んだ音声認識装置、音声認識方法、及び音声認識プログラムを提供することができる。 Thus, when a correct word is input again by voice, a voice recognition device, a voice recognition method, and a voice recognition program that are rich in user convenience without impairing the ease of input inherent in the voice input itself are provided. Can do.
上記実施の形態で説明した構成は、単に具体例を示すものであり、本願発明の技術的範囲を制限するものではない。本願の効果を奏する範囲において、任意の構成を採用することができる。 The configuration described in the above embodiment is merely a specific example and does not limit the technical scope of the present invention. Any configuration can be adopted as long as the effects of the present application are achieved.
以上のように、本発明にかかる音声認識装置は、ユーザは訂正操作にあわてることなく誤認識を訂正でき、誤認識を訂正するためのステップが短縮できるという効果を有し、誤認識された発話内容を認識されるべき発話内容に訂正する音声認識装置等として有用である。 As described above, the speech recognition apparatus according to the present invention has the effect that the user can correct misrecognition without performing a correction operation, and the steps for correcting the misrecognition can be shortened. It is useful as a speech recognition device or the like that corrects the content to the utterance content to be recognized.
100 音声入力部
110 認識開始終了部
200 認識部
210 認識スコア算出部
300 認識対象単語格納部
400 修正タイミング制御部
500 報知内容制御部
600 報知部
D300 ディスプレイ
D301 表示領域
D302 表示領域
D303 目盛り
D304 時間表示領域
W300 認識単語
100
Claims (11)
単語データを記憶する記憶部と、
入力された音声の表す単語データと前記記憶部内に記憶された単語データとを比較して、比較時のマッチング度合いを表す認識スコアを算出し、算出した認識スコアに基づいて、認識した単語を出力する音声認識部と、
前記音声認識部が算出した認識スコアに基づいて、音声による再入力を受付け可能な受付け時間を決定する受付時間決定部と、
前記受付時間決定部が決定した受付け時間内に再入力された音声の表す単語を再認識し、再認識した単語を出力する音声再認識部とを備える、音声認識装置。 A speech recognition device,
A storage unit for storing word data;
The word data represented by the input speech is compared with the word data stored in the storage unit, a recognition score representing the matching degree at the time of comparison is calculated, and the recognized word is output based on the calculated recognition score A voice recognition unit that
Based on the recognition score calculated by the voice recognition unit, a reception time determination unit that determines a reception time in which re-input by voice can be received;
A speech recognition apparatus comprising: a speech re-recognition unit that re-recognizes a word represented by speech re-input within an acceptance time determined by the reception time determination unit and outputs the re-recognized word.
入力された音声の表す単語データと記憶部内に記憶された単語データとを比較して、比較時のマッチング度合いを表す認識スコアを算出し、算出した認識スコアに基づいて、認識した単語を出力する音声認識ステップと、
前記音声認識ステップで算出した認識スコアに基づいて、音声による再入力を受付け可能な受付け時間を決定する受付時間決定ステップと、
前記受付時間決定ステップで決定した受付け時間内に再入力された音声の表す単語を再認識し、再認識した単語を出力する音声再認識ステップとを備える、音声認識方法。 A speech recognition method,
The word data represented by the input speech is compared with the word data stored in the storage unit, a recognition score representing the degree of matching at the time of comparison is calculated, and the recognized word is output based on the calculated recognition score. A speech recognition step;
Based on the recognition score calculated in the voice recognition step, a reception time determination step for determining a reception time in which re-input by voice can be received;
A speech recognition method comprising: a speech re-recognition step of re-recognizing a word represented by speech re-input within the reception time determined in the reception time determination step and outputting the re-recognized word.
前記コンピュータに、
入力された音声の表す単語データと記憶部内に記憶された単語データとを比較して、比較時のマッチング度合いを表す認識スコアを算出し、算出した認識スコアに基づいて、認識した単語を出力する音声認識ステップと、
前記音声認識ステップで算出した認識スコアに基づいて、音声による再入力を受付け可能な受付け時間を決定する受付時間決定ステップと、
前記受付時間決定ステップで決定した受付け時間内に再入力された音声の表す単語を再認識し、再認識した単語を出力する音声再認識ステップとを実行させる、音声認識プログラム。 A speech recognition program executed by a computer of a speech recognition device,
In the computer,
The word data represented by the input voice is compared with the word data stored in the storage unit, a recognition score representing the degree of matching at the time of comparison is calculated, and the recognized word is output based on the calculated recognition score. A speech recognition step;
Based on the recognition score calculated in the voice recognition step, a reception time determination step for determining a reception time in which re-input by voice can be received;
A speech recognition program for executing a speech re-recognition step of re-recognizing a word represented by speech re-input within the reception time determined in the reception time determination step and outputting the re-recognized word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007178671A JP2009015148A (en) | 2007-07-06 | 2007-07-06 | Speech recognition device, speech recognition method and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007178671A JP2009015148A (en) | 2007-07-06 | 2007-07-06 | Speech recognition device, speech recognition method and speech recognition program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009015148A true JP2009015148A (en) | 2009-01-22 |
Family
ID=40356082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007178671A Pending JP2009015148A (en) | 2007-07-06 | 2007-07-06 | Speech recognition device, speech recognition method and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009015148A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012124027A1 (en) * | 2011-03-11 | 2012-09-20 | 三菱電機株式会社 | Elevator call registration device |
JP2014115446A (en) * | 2012-12-10 | 2014-06-26 | Nippon Seiki Co Ltd | Voice recognition remote control |
JP2016180917A (en) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | Correction speech detection device, voice recognition system, correction speech detection method, and program |
WO2018135303A1 (en) * | 2017-01-18 | 2018-07-26 | ソニー株式会社 | Information processing device, information processing method, and program |
JPWO2017061149A1 (en) * | 2015-10-08 | 2018-08-02 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
KR20180107909A (en) * | 2017-03-23 | 2018-10-04 | 네이버랩스 주식회사 | Method and system for voice control of notifications |
JP2019144310A (en) * | 2018-02-16 | 2019-08-29 | キヤノンマーケティングジャパン株式会社 | Information processor, information processing system, control method and program |
KR20200062392A (en) * | 2013-02-07 | 2020-06-03 | 애플 인크. | Voice trigger for a digital assistant |
KR20210031344A (en) * | 2019-09-11 | 2021-03-19 | 넷마블 주식회사 | Computer programs for providing startup language recognition technology |
-
2007
- 2007-07-06 JP JP2007178671A patent/JP2009015148A/en active Pending
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012124027A1 (en) * | 2011-03-11 | 2012-09-20 | 三菱電機株式会社 | Elevator call registration device |
CN103328364A (en) * | 2011-03-11 | 2013-09-25 | 三菱电机株式会社 | Elevator call registration device |
JP5668838B2 (en) * | 2011-03-11 | 2015-02-12 | 三菱電機株式会社 | Elevator call registration device |
JP2014115446A (en) * | 2012-12-10 | 2014-06-26 | Nippon Seiki Co Ltd | Voice recognition remote control |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
KR102380145B1 (en) * | 2013-02-07 | 2022-03-29 | 애플 인크. | Voice trigger for a digital assistant |
KR102423670B1 (en) * | 2013-02-07 | 2022-07-22 | 애플 인크. | Voice trigger for a digital assistant |
KR20200062392A (en) * | 2013-02-07 | 2020-06-03 | 애플 인크. | Voice trigger for a digital assistant |
KR20220044855A (en) * | 2013-02-07 | 2022-04-11 | 애플 인크. | Voice trigger for a digital assistant |
JP2016180917A (en) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | Correction speech detection device, voice recognition system, correction speech detection method, and program |
JPWO2017061149A1 (en) * | 2015-10-08 | 2018-08-02 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
WO2018135303A1 (en) * | 2017-01-18 | 2018-07-26 | ソニー株式会社 | Information processing device, information processing method, and program |
US11308951B2 (en) | 2017-01-18 | 2022-04-19 | Sony Corporation | Information processing apparatus, information processing method, and program |
JPWO2018135303A1 (en) * | 2017-01-18 | 2019-11-07 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP7107229B2 (en) | 2017-01-18 | 2022-07-27 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
KR102011036B1 (en) * | 2017-03-23 | 2019-08-14 | 네이버랩스 주식회사 | Method and system for voice control of notifications |
KR20180107909A (en) * | 2017-03-23 | 2018-10-04 | 네이버랩스 주식회사 | Method and system for voice control of notifications |
JP2019144310A (en) * | 2018-02-16 | 2019-08-29 | キヤノンマーケティングジャパン株式会社 | Information processor, information processing system, control method and program |
JP7231806B2 (en) | 2018-02-16 | 2023-03-02 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing system, control method, and program |
KR102243325B1 (en) | 2019-09-11 | 2021-04-22 | 넷마블 주식회사 | Computer programs for providing startup language recognition technology |
KR20210031344A (en) * | 2019-09-11 | 2021-03-19 | 넷마블 주식회사 | Computer programs for providing startup language recognition technology |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009015148A (en) | Speech recognition device, speech recognition method and speech recognition program | |
CN106796786B (en) | Speech recognition system | |
US10706853B2 (en) | Speech dialogue device and speech dialogue method | |
US9916826B1 (en) | Targeted detection of regions in speech processing data streams | |
JP6227209B2 (en) | In-vehicle voice recognition device and in-vehicle device | |
JP6233650B2 (en) | Operation assistance device and operation assistance method | |
KR101598948B1 (en) | Speech recognition apparatus, vehicle having the same and speech recongition method | |
JP5677650B2 (en) | Voice recognition device | |
WO2010084881A1 (en) | Voice conversation device, conversation control method, and conversation control program | |
US9812129B2 (en) | Motor vehicle device operation with operating correction | |
JP6350903B2 (en) | Operation assistance device and operation assistance method | |
US20120078622A1 (en) | Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue | |
JP2010128015A (en) | Device and program for determining erroneous recognition in speech recognition | |
JP5189858B2 (en) | Voice recognition device | |
JP2006208486A (en) | Voice inputting device | |
JP6716968B2 (en) | Speech recognition device, speech recognition program | |
JP2007127896A (en) | Voice recognition device and voice recognition method | |
JP2009031328A (en) | Speech recognition device | |
JP6966374B2 (en) | Speech recognition system and computer program | |
KR101875440B1 (en) | Vehicle and control method for the same | |
JP6999236B2 (en) | Speech recognition system | |
JP2015172848A (en) | lip reading input device, lip reading input method and lip reading input program | |
JP2006337963A (en) | Voice dialog system and corrective speech recognition method | |
JP2007272123A (en) | Voice operation system | |
JP2014149490A (en) | Voice recognition error correction device and program of the same |