JP5658641B2 - Terminal device, voice recognition program, voice recognition method, and voice recognition system - Google Patents
Terminal device, voice recognition program, voice recognition method, and voice recognition system Download PDFInfo
- Publication number
- JP5658641B2 JP5658641B2 JP2011202064A JP2011202064A JP5658641B2 JP 5658641 B2 JP5658641 B2 JP 5658641B2 JP 2011202064 A JP2011202064 A JP 2011202064A JP 2011202064 A JP2011202064 A JP 2011202064A JP 5658641 B2 JP5658641 B2 JP 5658641B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- speech recognition
- voice
- recognition result
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 48
- 238000012795 verification Methods 0.000 claims description 64
- 230000005540 biological transmission Effects 0.000 claims description 51
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 183
- 230000008569 process Effects 0.000 description 38
- 238000004364 calculation method Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Description
本発明は、音声認識結果を処理する端末装置、音声認識プログラム、音声認識方法および音声認識システムに関する。 The present invention relates to a terminal device that processes a speech recognition result, a speech recognition program, a speech recognition method, and a speech recognition system.
マイクから入力された音声の内容を認識し、認識した結果をコマンドとして実行する技術がある。例えば、下記の特許文献1および特許文献2には、端末内音声認識を行い、端末内音声認識の結果をコマンドに変換する技術が開示されている。
There is a technique for recognizing the content of voice input from a microphone and executing the recognized result as a command. For example,
しかしながら、上記特許文献1および特許文献2に記載の発明では、以下のような問題がある。すなわち、上記特許文献1および特許文献2に記載の発明では、音声認識の結果がコマンド辞書に登録されていればそのコマンドが実行され、登録されていなければエラーが通知される。端末内音声認識では、認識可能な語彙が限られるため、端末内音声認識の語彙外の単語がコマンドに含まれる場合、コマンドが正しく発話されても端末内の音声認識によって正しく認識されず、そのコマンドが実行されない場合がある。
However, the inventions described in
そこで本発明は、このような問題点を解決するために、音声により入力されたコマンドを高速かつ確実に実行する端末装置、音声認識プログラム、音声認識方法および音声認識システムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a terminal device, a speech recognition program, a speech recognition method, and a speech recognition system that execute a command inputted by speech at high speed and in order to solve such problems. To do.
上記課題を解決するため、本発明の端末装置は、音声信号の入力を受け付ける音声入力手段と、音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、複数のコマンドが登録されたコマンド辞書と、音声信号を音声認識サーバに送信する音声送信手段と、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、音声認識手段によって認識された音声認識結果である端末内音声認識結果をコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合手段と、コマンド照合手段によって特定されたコマンドを実行するコマンド実行手段と、を備えることを特徴とする。 In order to solve the above problems, a terminal device of the present invention has a voice input unit that receives an input of a voice signal, a voice recognition unit that performs voice recognition on a voice signal received by the voice input unit, and a plurality of commands registered. A command dictionary, a voice transmitting means for sending a voice signal to a voice recognition server, a server voice recognition result receiving means for receiving a server voice recognition result as a voice recognition result for the voice signal by the voice recognition server, and a voice recognition means. The in-terminal speech recognition result, which is the recognized speech recognition result, is checked against the command dictionary to determine which of the in-terminal speech recognition result and the server speech recognition result to use, and the determined speech recognition A command verification unit that identifies a command indicated by the voice signal based on the result, and a command verification unit Characterized in that it and a command executing means for executing the identified command.
また、本発明の音声認識システムは、端末装置と、音声認識サーバと、を含む音声認識システムであって、端末装置は、音声信号の入力を受け付ける音声入力手段と、音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、複数のコマンドが登録されたコマンド辞書と、音声信号を音声認識サーバに送信する音声送信手段と、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、音声認識手段によって認識された音声認識結果である端末内音声認識結果をコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合手段と、コマンド照合手段によって特定されたコマンドを実行するコマンド実行手段と、を備え、音声認識サーバは、音声送信手段から送信された音声信号を受信する音声受信手段と、端末装置よりも多くの語彙を含むサーバ辞書と、音声受信手段によって受信された音声信号を、サーバ辞書に基づいて音声認識するサーバ音声認識手段と、サーバ音声認識結果を端末装置に送信するサーバ音声認識結果送信手段と、を備えることを特徴とする。 The voice recognition system of the present invention is a voice recognition system including a terminal device and a voice recognition server, and the terminal device is received by a voice input unit that receives an input of a voice signal and a voice input unit. Voice recognition means for performing voice recognition on a voice signal, a command dictionary in which a plurality of commands are registered, voice transmission means for sending a voice signal to a voice recognition server, and a server that is a voice recognition result for the voice signal by the voice recognition server The server speech recognition result receiving means for receiving the speech recognition result, the in-terminal speech recognition result that is the speech recognition result recognized by the speech recognition means is checked against the command dictionary, and the in-terminal speech recognition result and the server speech recognition result Decide which voice recognition result to use and indicate it by the voice signal based on the determined voice recognition result. And a command execution unit that executes the command specified by the command verification unit, and the voice recognition server includes a voice reception unit that receives a voice signal transmitted from the voice transmission unit, A server dictionary that includes more vocabulary than the terminal device, a server speech recognition unit that recognizes speech signals received by the speech receiving unit based on the server dictionary, and a server that transmits a server speech recognition result to the terminal device Voice recognition result transmission means.
本発明によれば、端末内音声認識結果をコマンド辞書と照合し、照合した結果に基づいて端末内音声認識結果およびサーバ音声認識結果のいずれの音声認識結果を利用するか決定することによって、例えば、端末内音声認識結果がコマンドとして受理される場合は、端末内音声認識結果を利用してコマンドの実行を行い、端末内音声認識結果がコマンドとして受理できない場合には、サーバ音声認識結果を利用することができる。すなわち、端末内の語彙で認識可能なコマンドが音声入力された際には、端末内音声認識結果を利用することで高速に応答でき、端末内の語彙で認識不可能なコマンドが音声入力された際には、サーバ音声認識結果を利用することで音声入力されたコマンドを確実に認識し、実行することができる。 According to the present invention, the in-terminal speech recognition result is collated with the command dictionary, and based on the collation result, by determining which of the in-terminal speech recognition result and the server speech recognition result to use, for example, If the in-terminal speech recognition result is accepted as a command, the command is executed using the in-terminal speech recognition result. If the in-terminal speech recognition result cannot be accepted as a command, the server speech recognition result is used. can do. In other words, when a command that can be recognized by the vocabulary in the terminal is input by voice, a command that cannot be recognized by the vocabulary in the terminal can be input by using the result of speech recognition in the terminal. In this case, the command inputted by voice can be surely recognized and executed by using the server voice recognition result.
また、コマンド照合手段は、端末内音声認識結果をコマンド辞書と照合して、コマンドに該当する可能性を示す確信度を算出し、確信度が所定の閾値以上である場合に、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定することが好ましい。これによれば、端末内音声認識結果の信頼度が低くても正しく音声認識された場合に、端末内音声認識結果を利用することができる。その結果、端末内の語彙で認識可能なコマンドを、端末内音声認識結果の信頼度が低くても高速に実行することが可能となる。 Further, the command collating means collates the in-terminal speech recognition result with the command dictionary, calculates a certainty factor indicating the possibility of corresponding to the command, and when the certainty factor is equal to or greater than a predetermined threshold, the in-terminal speech recognition Preferably, the use of the result is determined, and a command having a certainty level equal to or greater than a threshold is specified as the command indicated by the voice signal. According to this, when the speech recognition is correctly performed even if the reliability of the speech recognition result in the terminal is low, the speech recognition result in the terminal can be used. As a result, a command that can be recognized by the vocabulary in the terminal can be executed at high speed even if the reliability of the speech recognition result in the terminal is low.
また、コマンド辞書は、複数のコマンドの各々に対して、複数のキーワードと、複数のキーワードに対応付けられたスコアとが登録されたキーワードリストを記憶し、コマンド照合手段は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて確信度を算出することが好ましい。これによれば、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。 The command dictionary stores a keyword list in which a plurality of keywords and scores associated with the plurality of keywords are registered for each of the plurality of commands. For each of the words included in the keyword, it is determined whether it corresponds to any of a plurality of keywords registered in the keyword list, and the certainty factor is calculated based on the command and score associated with the corresponding keyword. Is preferred. According to this, it can be determined whether or not the command can be recognized by the vocabulary in the terminal, and the command indicated by the voice signal can be more reliably recognized.
また、コマンド照合手段は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに単語の音声認識の信頼度に基づいて、確信度を算出することが好ましい。これによれば、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。 In addition, the command matching unit determines whether each of the words included in the in-terminal speech recognition result corresponds to any of a plurality of keywords registered in the keyword list, and is associated with the corresponding keyword. It is preferable to calculate the certainty factor based on the command and the score and the reliability of speech recognition of the word. According to this, it can be determined whether or not the command can be recognized by the vocabulary in the terminal, and the command indicated by the voice signal can be more reliably recognized.
また、コマンド照合手段は、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、サーバ音声認識結果の利用を決定することが好ましい。これによれば、端末内機能の実行を指示するコマンドについては端末内音声認識結果を用いて高速に実行することができ、それ以外のコマンドについてはサーバ音声認識結果を用いて確実に実行することができる。 In addition, when the command with the certainty level equal to or greater than the threshold is a command for instructing the execution of the in-terminal function, the command matching unit determines use of the in-terminal speech recognition result, and the command with the certainty level equal to or greater than the threshold is When the command is a command other than a command for instructing execution of the in-terminal function, it is preferable to determine use of the server speech recognition result. According to this, it is possible to execute a command for instructing execution of an in-terminal function at high speed using the in-terminal speech recognition result, and reliably execute other commands using the server speech recognition result. Can do.
また、音声送信手段は、音声認識手段によって端末内音声認識結果が得られる前に、音声信号を音声認識サーバに送信することが好ましい。これによれば、サーバ音声認識結果をより早く受信することができる。このため、サーバ音声認識結果を利用することが決定された場合に、高速にコマンドを実行することができる。 Further, it is preferable that the voice transmission means transmits the voice signal to the voice recognition server before the voice recognition means obtains the in-terminal voice recognition result. According to this, the server speech recognition result can be received earlier. For this reason, when it is determined to use the server speech recognition result, the command can be executed at high speed.
また、サーバ音声認識結果受信手段は、コマンド照合手段によって端末内音声認識結果に基づいてコマンドが特定された後にサーバ音声認識結果を受信した場合、サーバ音声認識結果を破棄することが好ましい。これによれば、サーバ音声認識結果の受信を待つことなく、端末内音声認識結果に基づいてコマンドを特定することができる。このため、端末内の語彙で認識可能なコマンドを高速に実行することが可能となる。 The server speech recognition result receiving unit preferably discards the server speech recognition result when the command verification unit receives the server speech recognition result after the command is specified based on the in-terminal speech recognition result. According to this, a command can be specified based on the in-terminal speech recognition result without waiting for the reception of the server speech recognition result. For this reason, it becomes possible to execute a command recognizable by the vocabulary in the terminal at high speed.
ところで、本発明は、上記のように端末装置の発明として記述できる他に、以下のように音声認識プログラムおよび音声認識方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用および効果を奏する。 By the way, the present invention can be described as an invention of a terminal device as described above, and can also be described as an invention of a speech recognition program and a speech recognition method as follows. This is substantially the same invention only in different categories, and has the same operations and effects.
すなわち、本発明の音声認識プログラムは、音声信号の入力を受け付ける音声入力モジュールと、音声入力モジュールによって受け付けられた音声信号に対する音声認識を行う音声認識モジュールと、音声信号を音声認識サーバに送信する音声送信モジュールと、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信モジュールと、音声認識モジュールによって認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合モジュールと、コマンド照合モジュールによって特定されたコマンドを実行するコマンド実行モジュールと、を備えることを特徴とする。 That is, the speech recognition program of the present invention includes a speech input module that accepts an input of a speech signal, a speech recognition module that performs speech recognition on the speech signal received by the speech input module, and a speech that transmits the speech signal to a speech recognition server. A transmission module, a server speech recognition result receiving module that receives a server speech recognition result that is a speech recognition result for a speech signal by a speech recognition server, and a plurality of in-terminal speech recognition results that are speech recognition results recognized by the speech recognition module Are compared with the registered command dictionary to determine which of the in-terminal speech recognition results and server speech recognition results to use, and is indicated by the speech signal based on the determined speech recognition results. A command matching module that identifies the command Characterized in that it comprises a command execution module for executing the command specified by command verification module.
また、コマンド照合モジュールは、端末内音声認識結果をコマンド辞書と照合して、コマンドに該当する可能性を示す確信度を算出し、確信度が所定の閾値以上である場合に、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定することが好ましい。 Further, the command verification module compares the in-terminal speech recognition result with the command dictionary, calculates a certainty factor indicating the possibility of corresponding to the command, and when the certainty factor is equal to or greater than a predetermined threshold, the in-terminal speech recognition Preferably, the use of the result is determined, and a command having a certainty level equal to or greater than a threshold is specified as the command indicated by the voice signal.
また、コマンド辞書は、複数のコマンドの各々に対して、複数のキーワードと、複数のキーワードの各々に対応付けられたスコアとが登録されたキーワードリストを記憶し、コマンド照合モジュールは、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて確信度を算出することが好ましい。 The command dictionary stores a keyword list in which a plurality of keywords and a score associated with each of the plurality of keywords are registered for each of a plurality of commands. For each word included in the recognition result, determine whether it corresponds to one of a plurality of keywords registered in the keyword list, and calculate the certainty factor based on the command and score associated with the corresponding keyword It is preferable to do.
また、コマンド照合モジュールは、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに単語の音声認識の信頼度に基づいて、確信度を算出することが好ましい。 In addition, the command matching module determines whether each of the words included in the in-terminal speech recognition result corresponds to any of a plurality of keywords registered in the keyword list, and is associated with the corresponding keyword. It is preferable to calculate the certainty factor based on the command and the score and the reliability of speech recognition of the word.
また、コマンド照合モジュールは、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、サーバ音声認識結果の利用を決定することが好ましい。 In addition, when the command with the certainty level equal to or higher than the threshold is a command for instructing the execution of the function within the terminal, the command verification module determines the use of the in-terminal speech recognition result, and the command with the certainty level equal to or higher than the threshold is When the command is a command other than a command for instructing execution of the in-terminal function, it is preferable to determine use of the server speech recognition result.
また、音声送信モジュールは、音声認識モジュールによって端末内音声認識結果が得られる前に、音声信号を音声認識サーバに送信することが好ましい。 Moreover, it is preferable that the voice transmission module transmits the voice signal to the voice recognition server before the voice recognition result is obtained by the voice recognition module.
サーバ音声認識結果受信モジュールは、コマンド照合モジュールによって端末内音声認識結果に基づいてコマンドが特定された後にサーバ音声認識結果を受信した場合、サーバ音声認識結果を破棄することが好ましい。 The server speech recognition result receiving module preferably discards the server speech recognition result when the command verification module receives the server speech recognition result after the command is specified based on the in-terminal speech recognition result.
また、本発明の音声認識方法は、音声信号の入力を受け付ける音声入力ステップと、音声入力ステップにおいて受け付けられた音声信号に対する音声認識を行う音声認識ステップと、音声信号を音声認識サーバに送信する音声送信ステップと、音声認識サーバによる音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信ステップと、音声認識ステップにおいて認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合ステップと、コマンド照合ステップにおいて特定されたコマンドを実行するコマンド実行ステップと、を備えることを特徴とする。 In addition, the speech recognition method of the present invention includes a speech input step for receiving an input of a speech signal, a speech recognition step for performing speech recognition on the speech signal received in the speech input step, and a speech for transmitting the speech signal to a speech recognition server. A transmission step, a server speech recognition result receiving step for receiving a server speech recognition result that is a speech recognition result for a speech signal by the speech recognition server, and a plurality of in-terminal speech recognition results that are speech recognition results recognized in the speech recognition step. Are compared with the registered command dictionary to determine which of the in-terminal speech recognition results and server speech recognition results to use, and is indicated by the speech signal based on the determined speech recognition results. Command verification step to identify the command to be Characterized in that it and a command execution step of executing a command specified Te.
本発明によれば、音声により入力されたコマンドを高速かつ確実に実行することができる。 ADVANTAGE OF THE INVENTION According to this invention, the command input with the audio | voice can be performed reliably at high speed.
以下、添付図面を参照して、本発明の実施形態を詳細に説明する。なお、図面の説明において同一または相当要素には同一の符号を付し、重複する説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same or equivalent elements will be denoted by the same reference numerals, and redundant description will be omitted.
図1は、本実施形態に係る音声認識システムの機能構成を示す図である。図1に示されるように、音声認識システム10は、端末装置1に入力された音声信号を、端末内音声認識またはネットワーク型音声認識により音声認識するシステムであって、端末装置1および音声認識サーバ2を含んで構成されている。端末装置1は、マイクなどの音声入力装置から入力された音声信号が示すコマンドに応じて、端末装置1が備える機能の起動および外部からの情報の取得などを実行する装置である。音声認識サーバ2は、端末装置1から送信された音声信号を音声認識してサーバ音声認識結果を取得し、そのサーバ音声認識結果を端末装置1に送信する装置である。なお、端末装置1と音声認識サーバ2とは、ネットワークNWを介して通信接続されている。
FIG. 1 is a diagram illustrating a functional configuration of the speech recognition system according to the present embodiment. As shown in FIG. 1, a
ここで、端末内音声認識とは、端末装置1内で行われる音声認識を意味し、ネットワークNWを介した通信が不要であることから高速に応答できるが、認識対象の語彙が少ないことから正確な音声認識が行えない場合がある。ネットワーク型音声認識とは、音声認識サーバ2によって行われる音声認識を意味し、端末内音声認識よりも認識対象の語彙が多く、音声認識の精度は高いが、ネットワークNWを介した通信を行うため、通信遅延等で応答が遅くなる場合がある。
Here, intra-terminal speech recognition means speech recognition performed in the
端末装置1は、機能的には、音声入力部11(音声入力手段)と、音声認識部12(音声認識手段)と、ユーザ辞書13と、音声送信部14(音声送信手段)と、サーバ音声認識結果受信部15(サーバ音声認識結果受信手段)と、コマンド照合部16(コマンド照合手段)と、コマンド辞書17と、コマンド実行部18(コマンド実行手段)と、を備えている。この端末装置1は、例えば、携帯電話、スマートフォン、PDA(Personal Digital Assistants)、カーナビゲーションシステム、ノートPC等の音声入力装置を備える装置であって、図2に示されるハードウェアにより構成される。
Functionally, the
図2は、端末装置1のハードウェア構成を示す図である。図2に示されるように、端末装置1は、物理的には、CPU(Central Processing Unit)101、主記憶装置であるRAM(Random Access Memory)102、ROM(Read Only Memory)103、ハードディスクなどの補助記憶装置104、ネットワークカードなどのデータ送受信デバイスである通信モジュール105、マイクなどの音声入力デバイスである音声入力装置106、キーボードやマウスなどの入力デバイスである入力装置107、液晶ディスプレイなどの出力デバイスである出力装置108などのハードウェアにより構成されている。図1において説明した端末装置1の各機能は、図2に示すCPU101、RAM102などのハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで音声入力装置106、入力装置107、出力装置108などを動作させるとともに、RAM102や補助記憶装置104におけるデータの読み出しおよび書き込みを行うことで実現される。
FIG. 2 is a diagram illustrating a hardware configuration of the
引き続いて、図1を参照して、端末装置1の機能について説明する。音声入力部11は、音声信号の入力を受け付ける音声入力手段として機能する。具体的には、音声入力部11は、マイクなどの音声入力装置106を介して入力されたユーザの発話内容に基づく音声信号を受け付ける。そして、音声入力部11は、受け付けた音声信号を音声認識部12および音声送信部14に送信する。
Subsequently, the function of the
音声認識部12は、音声入力部11によって受け付けられた音声信号に対する音声認識を行う音声認識手段として機能する。音声認識部12は、予め記憶された音響モデルおよび言語モデルと、後述のユーザ辞書13とを参照して、端末装置1の音声認識結果である端末内音声認識結果を取得する。この端末内音声認識結果には、音声信号を音声認識した結果の文字列である、複数の単語から構成される文字列データと、文字列データ全体または文字列データを構成する各単語の認識結果の尤もらしさを示す信頼度とが含まれる。そして、音声認識部12は、端末内音声認識結果をコマンド照合部16に送信する。なお、音声認識部12は、ユーザ辞書13に登録されていない端末内音声認識の語彙外の単語が発話内容に含まれている場合、正しく音声認識することができない。
The
ユーザ辞書13は、認識対象の単語が登録されてリスト化されたものである。このユーザ辞書13には、一般に用いられる単語の他、端末装置1のユーザ固有の単語が含まれてもよい。例えば、端末装置1の電話帳に登録された氏名、端末装置1内に保存された音楽および動画などのコンテンツ名などはそれぞれ、ユーザ辞書13に単語として登録されている。なお、地名、駅名、商品名、飲食店名、アプリ名などの固有名詞は、多岐にわたるため、ユーザ辞書13に登録されていないことがある。
The
音声送信部14は、音声信号を音声認識サーバ2に送信する音声送信手段として機能する。具体的には、音声送信部14は、音声入力部11によって送信された音声信号を受信し、受信した音声信号をネットワークNWを介して音声認識サーバ2に送信する。このとき、音声送信部14は、音声信号を非圧縮または圧縮して送信する。また、音声送信部14は、音声入力部11から受信した音声信号を一時的に記憶しておき、後述のコマンド照合部16からの指示により音声信号を音声認識サーバ2に送信してもよい。また、音声送信部14は、コマンド照合部16の指示を待つことなく、音声入力部11から受信した音声信号を音声認識サーバ2に送信してもよい。
The
サーバ音声認識結果受信部15は、音声認識サーバ2による音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段として機能する。サーバ音声認識結果受信部15は、ネットワークNWを介して音声認識サーバ2からサーバ音声認識結果を受信する。そして、サーバ音声認識結果受信部15は、受信したサーバ音声認識結果をコマンド照合部16に送信する。
The server speech recognition
コマンド照合部16は、端末内音声認識結果を後述のコマンド辞書17と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定するコマンド照合手段として機能する。具体的に説明すると、コマンド照合部16は、まず、端末内音声認識結果をコマンド辞書17と照合して、コマンドに該当する可能性を示す確信度を算出する。この確信度の算出方法については、後述する。
The
そして、確信度が所定の閾値以上の場合に、コマンド照合部16は、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定する。一方、確信度が閾値未満である場合、すなわち、端末内音声認識結果をコマンドとして受理できなかった場合、コマンド照合部16は、サーバ音声認識結果の利用を決定し、音声入力部11から受信した音声信号を音声認識サーバ2に送信するよう音声送信部14に対して指示する。なお、閾値は、コマンド照合部16に予め設定された固定値であって、例えば2.5に設定されている。
When the certainty factor is equal to or greater than a predetermined threshold value, the
コマンド照合部16は、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンド以外のコマンドである場合には、サーバ音声認識結果の利用を決定するようにしてもよい。ここで、端末内機能とは、端末装置1が備える機能(例えば、電話機能、メール機能、カメラ機能、スケジュール機能など)であって、ネットワークNW上の他の装置を利用することなく、端末装置1内で実行可能な機能を意味する。コマンド照合部16は、例えば後述のキーワードリストに基づいて、端末内機能であるか否かの判断を行ってもよい。この場合、コマンド照合部16は、端末内機能の実行を指示するコマンドについては端末内音声認識結果を用いて高速に実行することができ、それ以外のコマンドについてはサーバ音声認識結果を用いて確実に実行することができる。
When the command with the certainty level equal to or greater than the threshold is a command for instructing the execution of the in-terminal function, the
コマンド辞書17は、端末装置1において使用可能なコマンドをリスト化したものである。このコマンド辞書17には、端末内機能の実行を指示するためのコマンドの他、外部のサーバ等を利用する端末外機能の実行を指示するためのコマンドが含まれていてもよい。端末内機能の実行を指示するためのコマンドには、例えば、電話をかける、メール機能起動、カメラ起動および端末内アプリ起動などがある。また、端末外機能の実行を指示するためのコマンドには、乗換検索、飲食店検索、ショッピングサイト検索、天気予報閲覧およびアプリ検索などがある。
The
図3は、コマンド辞書17が記憶するキーワードリストの一例を示す図である。図3に示されるように、キーワードリストには、「キーワード」と「機能」と「スコア」と「端末内機能」とが対応付けて記憶されている。「キーワード」に記憶される情報は、各機能に対して一定の関連性を有するキーワードを示す情報であって、例えば「電話」、「メール」、「読む」、「買う」などである。「機能」に記憶される情報は、端末装置1が実行可能な機能を示す情報であって、例えば「電話」、「メール」、「カメラ」、「乗換検索」、「ショッピング検索」などである。この機能には、端末内機能の他、端末外機能も含まれる。「スコア」に記憶される情報は、当該情報に対応付けられたキーワードと機能との関連性の高さを示す値(スコア)であって、関連性が高いほど大きな値が割り当てられる。また、スコアは、後述するように確信度の算出に用いられる情報である。「端末内機能」に記憶される情報は、当該情報に対応付けられた機能が端末内機能であるか否かを示す情報である。
FIG. 3 is a diagram illustrating an example of a keyword list stored in the
例えば、キーワード「電話」には、電話機能、2.0のスコア、端末内機能であることを示す「Yes」が対応付けられている。すなわち、音声認識結果に「電話」という単語が含まれている場合には、電話機能の実行を指示するためのコマンドである可能性が高いと考えられるため、電話機能として2.0のスコアが割り当てられている。 For example, the keyword “phone” is associated with a telephone function, a score of 2.0, and “Yes” indicating an in-terminal function. That is, when the word “telephone” is included in the speech recognition result, it is highly likely that the command is a command for instructing execution of the telephone function. Assigned.
また、人名を示すキーワードには、電話機能およびメール機能が対応付けられている。そして、電話機能に対して0.5のスコア、メール機能に対して0.5のスコアがそれぞれ割り当てられている。このように、一つのキーワードに対して複数の異なる機能が対応付けられることもある。この場合、一つのキーワードに対応付けられた機能が複数存在するため、音声認識結果にこのキーワードが含まれているだけではどの機能の実行を指示するコマンドであるかを特定することができない。したがって、複数の機能と対応付けられるキーワードには小さい値のスコアが割り当てられてもよい。また、複数の機能と対応付けられるキーワードにはスコアが割り当てられないようにしてもよい。なお、人名を示すキーワードには、端末装置1の電話帳機能に登録された氏および名を含めてもよい。また、人名を示すキーワードは、音声認識結果に含まれる品詞などの付加情報に基づいて設定されてもよく、固定の人名辞書に登録された名前を用いてもよい。
The keyword indicating the person name is associated with the telephone function and the mail function. A score of 0.5 is assigned to the telephone function, and a score of 0.5 is assigned to the mail function. Thus, a plurality of different functions may be associated with one keyword. In this case, since there are a plurality of functions associated with one keyword, it is not possible to specify which function is instructed to execute if the keyword is included in the speech recognition result. Therefore, a small score may be assigned to keywords associated with a plurality of functions. Further, a score may not be assigned to a keyword associated with a plurality of functions. The keyword indicating the person name may include a name and a name registered in the telephone directory function of the
コマンド実行部18は、コマンド照合部16によって特定されたコマンドを実行するコマンド実行手段として機能する。そして、コマンド照合部16は、コマンドを実行した結果を、例えば出力装置108に出力する。
The
引き続いて、図1を参照して、音声認識サーバ2の機能について説明する。音声認識サーバ2は、機能的には、音声受信部21(音声受信手段)と、サーバ音声認識部22(サーバ音声認識手段)と、大語彙辞書23(サーバ辞書)と、サーバ音声認識結果送信部24(サーバ音声認識結果送信手段)と、を備えている。 Subsequently, the function of the voice recognition server 2 will be described with reference to FIG. The voice recognition server 2 functionally includes a voice receiver 21 (voice receiver), a server voice recognizer 22 (server voice recognizer), a large vocabulary dictionary 23 (server dictionary), and a server voice recognition result transmission. Unit 24 (server voice recognition result transmission means).
音声受信部21は、端末装置1から送信された音声信号を受信する音声受信手段として機能する。具体的には、音声受信部21は、ネットワークNWを介して端末装置1の音声送信部14から音声信号を受信し、受信した音声信号をサーバ音声認識部22に送信する。
The
サーバ音声認識部22は、音声受信部21によって受信された音声信号を、大語彙辞書23に基づいて音声認識するサーバ音声認識手段として機能する。具体的に説明すると、サーバ音声認識部22は、予め記憶された音響モデルおよび言語モデルと、後述の大語彙辞書23とを参照して、サーバ音声認識結果を取得する。このサーバ音声認識結果には、音声信号を音声認識した結果の文字列である、複数の単語から構成される文字列データと、文字列データを構成する各単語の信頼度とが含まれる。このサーバ音声認識部22は、音声認識部12よりも高精度の音声認識を行うことができる。
The server
大語彙辞書23は、ユーザ辞書13よりも多くの語彙を含む。大語彙辞書23には、地名、駅名、商品名、飲食店名、アプリ名などの固有名詞を含む多岐にわたった単語が登録されてリスト化されている。
The
サーバ音声認識結果送信部24は、サーバ音声認識結果を端末装置1に送信するサーバ音声認識結果送信手段として機能する。具体的には、サーバ音声認識結果送信部24は、音声受信部21によって受信された音声信号に対するサーバ音声認識結果をサーバ音声認識部22から受信し、受信したサーバ音声認識結果をネットワークNWを介して端末装置1のサーバ音声認識結果受信部15に送信する。
The server speech recognition
次に、図4に示す例を用いて確信度の算出方法について説明する。図4は、音声認識結果に基づく確信度の算出方法を説明するための図である。図4に示されるように、ユーザが音声入力装置106を使用して発話内容(a)「やまださんにでんわをかける」との音声を入力し、音声認識部12によって端末内音声認識結果(b)「山田 さん に 電話 を かける」が取得されたとする。コマンド照合部16は、キーワードリストを参照し、端末内音声認識結果(b)の各単語がキーワードリストに登録されたキーワードに一致するか否かを判定する。そして、コマンド照合部16は、端末内音声認識結果(b)に含まれる単語がキーワードリストに登録されたキーワードに一致する場合、そのキーワードに対応付けられた機能と、その機能に対して割り当てられたスコアとをキーワードリストから取得する。
Next, a certainty factor calculation method will be described with reference to an example shown in FIG. FIG. 4 is a diagram for explaining a certainty factor calculation method based on a speech recognition result. As shown in FIG. 4, the user inputs the speech content (a) “call phone to Yamada-san” using the
この場合、「山田」は人名に該当することから、キーワードリストに登録されたキーワードに一致すると判定される。そして、コマンド照合部16は、キーワードリストに基づいて、電話機能に対して0.5のスコアを取得し、メール機能に対して0.5のスコアを取得する。また、「電話」がキーワードリストに登録されたキーワードに一致することから、コマンド照合部16は、キーワード「電話」に対応付けられた電話機能に対して2.0のスコアを取得する。さらに、「かける」がキーワードリストに登録されたキーワードに一致することから、コマンド照合部16は、キーワード「かける」に対応付けられた電話機能に対して0.5のスコアを取得する。
In this case, since “Yamada” corresponds to a personal name, it is determined that the keyword matches the keyword registered in the keyword list. Then, based on the keyword list, the
<第1の確信度算出方法>
ここで、コマンド照合部16は、各機能に対して取得したスコアの合計を機能ごとに算出し、そのうち最大の値を、その最大の値を有する機能の実行を指示するコマンドの確信度とする。図4の例では、電話機能のスコアの合計が0.5+2.0+0.5=3.0、メール機能のスコアの合計が0.5であるから、電話機能の実行を指示するためのコマンドの確信度が、3.0と算出される。
<First confidence calculation method>
Here, the
<第2の確信度算出方法>
コマンド照合部16は、各機能に対して取得したスコアの合計を機能ごとに算出し、最大の値と2番目に大きい値の差を、最大の値を有する機能の実行を指示するコマンドの確信度とする。図4の例では、電話機能のスコアの合計が3.0、メール機能のスコアの合計が0.5であるから、電話機能の実行を指示するためのコマンドの確信度が、3.0−0.5=2.5と算出される。
<Second confidence calculation method>
The
また、単語ごとの音声認識結果の信頼度が得られる場合には、以下の第3の確信度算出方法、または、第4の確信度算出方法を用いてもよい。
<第3の確信度算出方法>
コマンド照合部16は、各機能に対して取得したスコアと、単語ごとの音声認識結果の信頼度とに基づいて、確信度を算出する。例えば、音声認識部12によって認識された「山田 さん に 電話 を かける」の各単語について、「山田」の信頼度が0.9、「さん」の信頼度が0.8、「に」の信頼度が0.8、「電話」の信頼度が1.0、「を」の信頼度が0.5、「かける」の信頼度が0.5であったとする。なお、この信頼度は、音声認識部12により取得された端末内音声認識結果に含まれる。この場合、コマンド照合部16は、端末内音声認識結果の単語がキーワードリストに登録されたキーワードに一致すると判断すると、そのキーワードに対応付けられた機能に割り当てられたスコアに、その単語の信頼度を加える。そして、コマンド照合部16は、信頼度を加えたスコアの合計を機能ごとに算出し、そのうちの最大の値を、その最大の値を有する機能の実行を指示するコマンドの確信度とする。図4の例では、電話機能に対する信頼度を加えたスコアの合計が0.5+0.9+2.0+1.0+0.5+0.5=5.4、メール機能に対する信頼度を加えたスコアの合計が0.5+0.9=1.4であるから、電話機能の実行を指示するためのコマンドの確信度が、5.4と算出される。
Moreover, when the reliability of the speech recognition result for each word is obtained, the following third certainty factor calculation method or fourth certainty factor calculation method may be used.
<Third confidence calculation method>
The
<第4の確信度算出方法>
コマンド照合部16は、端末内音声認識結果の単語がキーワードリストに登録されたキーワードに一致した場合に、そのキーワードに割り当てられたスコアに、その単語の信頼度を掛ける。そして、コマンド照合部16は、信頼度を掛けたスコアの合計を機能ごとに算出し、そのうちの最大値を、その最大の値を有する機能の実行を指示するコマンドの確信度とする。端末内音声認識結果の各単語の信頼度が第3の確信度算出方法において説明したものと同じとすると、図4の例では、電話機能に対する信頼度を掛けたスコアの合計が0.5×0.9+2.0×1.0+0.5×0.5=2.7、メール機能に対する信頼度を掛けたスコアの合計が0.5×0.9=0.45であるから、電話機能の実行を指示するためのコマンドの確信度が、2.7と算出される。
<Fourth certainty factor calculation method>
When the word in the terminal speech recognition result matches the keyword registered in the keyword list, the
続いて、端末装置1で実行されるコマンド判別実行処理(音声認識方法)について説明する。
Next, a command determination execution process (voice recognition method) executed by the
<第1のコマンド判別実行処理>
図5は、端末装置1のコマンド判別実行処理の一例を示すフローチャートである。本処理は、端末装置1のユーザが音声入力装置106を介して音声入力することにより開始される。
<First command determination execution process>
FIG. 5 is a flowchart illustrating an example of command determination execution processing of the
音声入力部11は、音声入力装置106から音声信号の入力を受け付ける(S01,音声入力ステップ)。そして、音声入力部11は、受け付けた音声信号を音声認識部12および音声送信部14に送信する。次に、音声認識部12は、音声入力部11によって送信された音声信号を受信し、ユーザ辞書13を参照して受信した音声信号を音声認識する(S02,音声認識ステップ)。音声認識部12は、音声信号を音声認識した結果の文字列である文字列データ、文字列データを構成する各単語の信頼度情報を含む端末内音声認識結果をコマンド照合部16に送信する。
The
次に、コマンド照合部16は、端末内音声認識結果をコマンド辞書17と照合する(S03,コマンド照合ステップ)。具体的に説明すると、コマンド照合部16は、コマンド辞書17に記憶されたキーワードリストを参照し、端末内音声認識結果に含まれる単語のそれぞれがキーワードリストに登録されたキーワードに一致するか否かを判定する。そして、端末内音声認識結果に含まれる単語がキーワードに一致した場合、コマンド照合部16は、そのキーワードに対応付けられた機能およびその機能に割り当てられたスコアをキーワードリストから取得する。そして、コマンド照合部16は、上述の確信度算出方法のいずれかによりコマンドの確信度を算出する。
Next, the
次に、コマンド照合部16は、端末内音声認識結果がコマンドとして受理されるか否かを判定する(S04,コマンド照合ステップ)。すなわち、コマンド照合部16は、確信度が閾値以上か否かを判定する。端末内音声認識結果がコマンドとして受理されたと判定された場合、すなわち、確信度が閾値以上であると判定された場合(S04;Yes)、コマンド照合部16は、受理されたコマンドが端末内機能の実行を指示するためのコマンドであるか否かを判定する(S05)。この判定は、例えばキーワードリストの端末内機能であるか否かを示す情報に基づいて行われる。
Next, the
受理されたコマンドが端末内機能の実行を指示するためのコマンドであると判定された場合(S05;Yes)、コマンド照合部16は、そのコマンドを音声信号によって示されるコマンドとして特定し、コマンド実行部18にそのコマンドの実行を指示する。続いて、コマンド実行部18は、コマンド照合部16によって特定されたコマンドを実行する(S06,コマンド実行ステップ)。そして、端末装置1は、コマンド判別実行処理を終了する。
When it is determined that the accepted command is a command for instructing execution of the in-terminal function (S05; Yes), the
一方、S04の判定において、端末内音声認識結果がコマンドとして受理されなかったと判定された場合、すなわち、確信度が閾値未満であると判定された場合(S04;No)、または、S05の判定において、受理されたコマンドが端末内機能の実行を指示するためのコマンド以外のコマンドであると判定された場合(S05;No)、コマンド照合部16は、音声送信部14に対して、音声入力部11から受信した音声信号を音声認識サーバ2に送信するよう指示する。そして、音声送信部14は、音声信号を音声認識サーバ2に送信する(S07,音声送信ステップ)。
On the other hand, if it is determined in S04 that the in-terminal speech recognition result is not accepted as a command, that is, if it is determined that the certainty factor is less than the threshold (S04; No), or in the determination of S05. When it is determined that the accepted command is a command other than a command for instructing execution of the in-terminal function (S05; No), the
音声認識サーバ2は、音声送信部14によって送信された音声信号を受信すると、その音声信号に対して音声認識を行いサーバ音声認識結果を取得する。この音声認識は、ユーザ辞書13よりも大語彙の大語彙辞書23が用いられるため、音声認識部12によって行われる端末内音声認識よりも高精度である。そして、音声認識サーバ2は、サーバ音声認識結果を端末装置1に送信する。
When the voice recognition server 2 receives the voice signal transmitted by the
その後、サーバ音声認識結果受信部15は、音声認識サーバ2からサーバ音声認識結果を受信する(S08,サーバ音声認識結果受信ステップ)。そして、サーバ音声認識結果受信部15は、受信したサーバ音声認識結果をコマンド照合部16に送信する。次に、コマンド照合部16は、サーバ音声認識結果をコマンド辞書17と照合する(S09)。具体的に説明すると、コマンド照合部16は、コマンド辞書17に記憶されたキーワードリストを参照し、サーバ音声認識結果に含まれる単語のそれぞれがキーワードリストに登録されたキーワードに一致するか否かを判定する。そして、サーバ音声認識結果に含まれる単語がキーワードに一致した場合、コマンド照合部16は、そのキーワードに対応付けられた機能およびその機能に割り当てられたスコアをキーワードリストから取得する。そして、コマンド照合部16は、上述の確信度算出方法によりコマンドの確信度を算出する。
Thereafter, the server voice recognition
次に、コマンド照合部16は、サーバ音声認識結果がコマンドとして受理されるか否かを判定する(S10)。すなわち、コマンド照合部16は、確信度が閾値以上か否かを判定する。確信度が閾値以上であると判定された場合、すなわち、サーバ音声認識結果がコマンドとして受理されたと判定された場合(S10;Yes)、コマンド照合部16は、そのコマンドを音声信号によって示されるコマンドとして特定し、コマンド実行部18にそのコマンドの実行を指示する。続いて、コマンド実行部18は、コマンド照合部16によって特定されたコマンドを実行する(S06,コマンド実行ステップ)。そして、端末装置1は、コマンド判別実行処理を終了する。なお、端末内音声認識よりもサーバ音声認識の方が高精度であるため、S10の判定における閾値をS04の判定における閾値よりも小さくしてもよい。
Next, the
一方、S10の判定において、確信度が閾値未満であると判定された場合、すなわち、サーバ音声認識結果がコマンドとして受理されなかったと判定された場合(S10;No)、端末装置1は、コマンド判別実行処理を終了する。このとき、端末装置1は、音声の再入力を促すメッセージ等を出力装置108に表示してもよい。
On the other hand, if it is determined in S10 that the certainty factor is less than the threshold value, that is, if it is determined that the server speech recognition result has not been accepted as a command (S10; No), the
<第2のコマンド判別実行処理>
図6は、端末装置1のコマンド判別実行処理の他の例を示すフローチャートである。本処理は、端末装置1のユーザが音声入力装置106を介して音声入力することにより開始される。なお、本処理におけるS21〜S29の各ステップはそれぞれ、図5のS01〜S09の各ステップと同様であるため、S21〜S29の説明を省略する。
<Second command discrimination execution process>
FIG. 6 is a flowchart illustrating another example of the command determination execution process of the
S29の処理後、コマンド照合部16は、再度、端末内音声認識結果をコマンド辞書17と照合する(S30)。そして、コマンド照合部16は、S29において算出したコマンドの確信度と、S30において算出したコマンドの確信度とを比較し、最も確信度の高いコマンドを選択する(S31)。そして、コマンド照合部16は、選択したコマンドを音声信号によって示されるコマンドとして特定し、コマンド実行部18にそのコマンドの実行を指示する。コマンド実行部18は、コマンド照合部16によって特定されたコマンドが存在するか否かを判定する(S32)。コマンドが存在すると判定された場合(S32;Yes)、コマンド実行部18は、そのコマンドを実行する(S26,コマンド実行ステップ)。そして、端末装置1は、コマンド判別実行処理を終了する。一方、S32の判定において、コマンドが存在しないと判定された場合(S32;No)、コマンド実行部18はコマンドの実行を行わない。そして、端末装置1は、コマンド判別実行処理を終了する。このとき、端末装置1は、音声の再入力を促すメッセージ等を出力装置108に表示してもよい。
After the process of S29, the
なお、コマンド照合部16は、S29において、サーバ音声認識結果を端末内機能に該当しないコマンド群とのみ照合してもよく、S30において、端末内音声認識結果を端末内機能に該当するコマンド群とのみ照合してもよい。また、S31において、コマンド照合部16は、最も確信度の高いコマンドを選択しているが、確信度が閾値以上のコマンドの中で最も確信度が高いコマンドを選択するようにしてもよい。この場合、コマンド照合部16は、コマンドを受理する基準となる閾値をS04における閾値よりも小さくして照合するのが好ましい。
In S29, the
<第3のコマンド判別実行処理>
図7は、端末装置1のコマンド判別実行処理の他の例を示すフローチャートである。本処理は、端末装置1のユーザが音声入力装置106を介して音声入力することにより開始される。なお、本処理におけるS41〜S47の各ステップはそれぞれ、図5のS01〜S07の各ステップと同様であるため、S41〜S47の説明を省略する。
<Third command discrimination execution process>
FIG. 7 is a flowchart showing another example of command determination execution processing of the
音声認識サーバ2では、S47において送信された音声信号を音声受信部21が受信すると、サーバ音声認識部22は、大語彙辞書23を参照し、音声受信部21によって受信された音声信号の音声認識を行ってサーバ音声認識結果を取得する。そして、サーバ音声認識部22は、さらにサーバ音声認識結果を音声認識サーバ2に設けられたコマンド辞書(不図示)と照合する。具体的に説明すると、サーバ音声認識部22は、コマンド辞書に記憶されたキーワードリストを参照し、サーバ音声認識結果に含まれる単語のそれぞれがキーワードリストに登録されたキーワードに一致するか否かを判定する。
In the voice recognition server 2, when the
なお、キーワードリストは、コマンド辞書17に記憶されたキーワードリストよりもさらに多くのコマンドに対応したキーワードを含むものであってもよい。そして、サーバ音声認識結果に含まれる単語がキーワードに一致した場合、サーバ音声認識部22は、そのキーワードに対応付けられた機能およびその機能に割り当てられたスコアをキーワードリストから取得する。そして、サーバ音声認識部22は、上述の確信度算出方法のいずれかによりコマンドの確信度を算出する。
The keyword list may include keywords corresponding to more commands than the keyword list stored in the
次に、サーバ音声認識部22は、確信度が閾値以上か否かを判定する。確信度が閾値以上であると判定された場合、すなわち、サーバ音声認識結果がコマンドとして受理されたと判定された場合、音声認識サーバ2のサーバ音声認識結果送信部24は、閾値以上の確信度のコマンドの実行を端末装置1に指示する。そして、サーバ音声認識結果受信部15は、音声認識サーバ2による指示を受信し(S48)、その指示をコマンド実行部18に送信する。続いて、コマンド実行部18は、指示されたコマンドを実行する(S46,コマンド実行ステップ)。そして、端末装置1は、コマンド判別実行処理を終了する。
Next, the server
上記第1〜第3のコマンド判別実行処理において、音声認識サーバ2への音声送信(S07,S27,またはS47,音声送信ステップ)は、端末内音声認識(S02,S22,またはS42,音声認識ステップ)と端末内音声認識結果のコマンド照合(S03,S23,またはS43,コマンド照合ステップ)の完了後に行われているが、音声認識サーバ2への音声送信は、音声入力後の任意のタイミングで、端末内音声認識や端末内音声認識結果のコマンド照合に先立って、もしくはこれらのステップと並行して行ってもよい。これにより、サーバ音声認識結果受信までの遅延時間を短縮することができる。 In the first to third command determination execution processes, the voice transmission to the voice recognition server 2 (S07, S27, or S47, voice transmission step) is performed in the terminal voice recognition (S02, S22, or S42, voice recognition step). ) And the command verification of the in-terminal speech recognition result (S03, S23 or S43, command verification step), the voice transmission to the voice recognition server 2 is performed at an arbitrary timing after the voice input. Prior to in-terminal speech recognition or command verification of in-terminal speech recognition results, or in parallel with these steps. Thereby, the delay time until receiving the server speech recognition result can be shortened.
続いて、図4、図8、図9を用いて、入力された発話内容に基づいてコマンドが特定され、実行されるまで処理を具体的に説明する。 Next, the processing will be specifically described with reference to FIGS. 4, 8, and 9 until a command is specified and executed based on the input utterance content.
上述したように、図4に示す例では、まず、ユーザにより音声入力装置106を介して、発話内容(a)「やまださんにでんわをかける」が入力される。そして、音声入力部11は、発話内容(a)に対応する音声信号を受け付けて、その音声信号を音声認識部12および音声送信部14に送信する。次に、音声認識部12は、ユーザ辞書13を参照して端末内音声認識を行い、端末内音声認識結果(b)「山田 さん に 電話 を かける」を取得する。音声認識部12は、端末内音声認識結果(b)をコマンド照合部16に送信する。
As described above, in the example illustrated in FIG. 4, first, the user inputs the utterance content (a) “call phone call to Yamada-san” via the
次に、コマンド照合部16は、端末内音声認識結果(b)をコマンド辞書17と照合する。コマンド照合部16は、「山田」を人名であると判断し、キーワードリストのキーワード「<人名>」に対応付けられた電話機能およびメール機能に対して、それぞれ0.5のスコアを加算する。また、コマンド照合部16は、「電話」がキーワードリストのキーワード「電話」に一致することから、キーワード「電話」に対応付けられた電話機能に対して、2.0のスコアを加算する。さらに、コマンド照合部16は、「かける」がキーワードリストのキーワード「かける」に一致することから、キーワード「かける」に対応付けられた電話機能に対して、0.5のスコアを加算する。そして、コマンド照合部16は、照合結果に基づいて確信度を算出する。ここで、確信度は、上述の第2の確信度算出方法により算出され、閾値は、2.0に設定されているものとする。この場合、電話機能が最大のスコアを有し、その確信度は3.0−0.5=2.5である。
Next, the
そして、コマンド照合部16は、確信度を閾値と比較し、電話機能を実行するためのコマンドを受理するか否かを判定する。確信度が閾値以上であることから、コマンド照合部16は、電話機能を実行するためのコマンドを受理する。次に、コマンド照合部16は、電話機能が端末内機能であるか否かを判断する。電話機能は端末内機能であることから、コマンド照合部16は、発生内容(a)が示すコマンドを電話機能を実行するためのコマンドとして特定し、そのコマンドの実行をコマンド実行部18に指示する。そして、コマンド実行部18は、電話機能を実行するためのコマンドを実行する。
Then, the
図8は、音声認識システム10におけるコマンド判別実行処理を説明するための一例を示す図である。まず、ユーザにより音声入力装置106を介して、発話内容(a)「かさをかう」が入力される。そして、音声入力部11は、発話内容(a)に対応する音声信号を受け付けて、その音声信号を音声認識部12および音声送信部14に送信する。次に、音声認識部12は、ユーザ辞書13を参照して端末内音声認識を行い、端末内音声認識結果(b)「笹尾 買う」を取得する。音声認識部12は、端末内音声認識結果(b)をコマンド照合部16に送信する。
FIG. 8 is a diagram illustrating an example for explaining command determination execution processing in the
次に、コマンド照合部16は、端末内音声認識結果(b)をコマンド辞書17と照合する。コマンド照合部16は、「笹尾」を人名であると判断し、キーワードリストのキーワード「<人名>」に対応付けられた電話機能およびメール機能に対して、それぞれ0.5のスコアを加算する。さらに、コマンド照合部16は、「買う」がキーワードリストのキーワードに一致することから、キーワード「買う」に対応付けられたショッピング機能に対して、2.0のスコアを加算する。そして、コマンド照合部16は、照合結果に基づいて確信度を算出する。ここで、確信度は、上述の第2の確信度算出方法により算出され、閾値は、2.0に設定されているものとする。この場合、ショッピング機能が最大のスコアを有し、その確信度は2.0−0.5=1.5である。
Next, the
そして、コマンド照合部16は、確信度を閾値と比較し、ショッピング機能を実行するためのコマンドを受理するか否かを判定する。確信度が閾値よりも小さいことから、コマンド照合部16は、ショッピング機能を実行するためのコマンドを受理しない。次に、コマンド照合部16は、音声送信部14に発話内容(a)に対応する音声信号を音声認識サーバ2に送信するよう指示する。そして、音声送信部14は、発話内容(a)に対応する音声信号を音声認識サーバ2に送信する。その後、サーバ音声認識結果受信部15は、音声認識サーバ2からサーバ音声認識結果(c)「傘 を 買う」を受信する。そして、サーバ音声認識結果受信部15は、サーバ音声認識結果(c)をコマンド照合部16に送信する。
And the
次に、コマンド照合部16は、サーバ音声認識結果(c)をコマンド辞書17と照合する。コマンド照合部16は、「買う」がキーワードリストのキーワードに一致することから、キーワード「買う」に対応付けられたショッピング機能に対して、2.0のスコアを加算する。コマンド照合部16は、照合結果に基づいて確信度を算出する。この場合、ショッピング機能が最大のスコアを有し、その確信度は2.0である。そして、コマンド照合部16は、確信度を閾値と比較し、ショッピング機能を実行するためのコマンドを受理するか否かを判定する。
Next, the
ここで、閾値は、端末内音声認識結果がコマンドとして受理されるか否かの判定に用いた値と同じであってもよいが、それよりも小さい方が好ましい。ここでは、閾値を0.5とする。コマンド照合部16は、確信度が閾値以上であることから、ショッピング機能を実行するためのコマンドを受理する。そして、コマンド照合部16は、発話内容(a)が示すコマンドをショッピング機能を実行するためのコマンドとして特定し、そのコマンドの実行をコマンド実行部18に指示する。そして、コマンド実行部18は、ショッピング機能を実行するためのコマンドを実行する。
Here, the threshold value may be the same as the value used for determining whether or not the in-terminal speech recognition result is accepted as a command, but is preferably smaller. Here, the threshold is set to 0.5. Since the certainty factor is greater than or equal to the threshold, the
なお、端末内音声認識結果(b)が「傘 を 買う」であり、端末内音声認識結果(b)がコマンドとして受理されるか否かの判定に用いた閾値を1.5とした場合、端末内音声認識結果(b)の照合結果に基づく確信度が閾値以上となることから、コマンド照合部16は、ショッピング機能を実行するためのコマンドを受理する。しかし、ショッピング機能は端末内機能に該当しないため、この場合も、コマンド照合部16は、音声送信部14に発話内容(a)に対応する音声信号を音声認識サーバ2に送信するよう指示することになる。
If the intra-terminal speech recognition result (b) is “buy an umbrella” and the threshold used to determine whether the intra-terminal speech recognition result (b) is accepted as a command is 1.5, Since the certainty factor based on the collation result of the in-terminal speech recognition result (b) is equal to or greater than the threshold value, the
図9は、音声認識システム10におけるコマンド判別実行処理を説明するための他の例を示す図である。まず、ユーザにより音声入力装置106を介して、発話内容(a)「やまださんにかける」が入力される。そして、音声入力部11は、発話内容(a)に対応する音声信号を受け付けて、その音声信号を音声認識部12および音声送信部14に送信する。次に、音声認識部12は、ユーザ辞書13を参照して端末内音声認識を行い、端末内音声認識結果(b)「山田 さん に かける」を取得する。音声認識部12は、端末内音声認識結果(b)をコマンド照合部16に送信する。
FIG. 9 is a diagram illustrating another example for explaining command determination execution processing in the
次に、コマンド照合部16は、端末内音声認識結果(b)をコマンド辞書17と照合する。コマンド照合部16は、「山田」を人名であると判断し、キーワードリストのキーワード「<人名>」に対応付けられた電話機能およびメール機能に対して、それぞれ0.5のスコアを加算する。さらに、コマンド照合部16は、「かける」がキーワードリストのキーワードに一致することから、キーワード「かける」に対応付けられた電話機能に対して、0.5のスコアを加算する。そして、コマンド照合部16は、照合結果に基づいて確信度を算出する。ここで、確信度は、第2の確信度算出方法により算出され、閾値は、2.0に設定されているものとする。この場合、電話機能が最大のスコアを有し、その確信度は1.0−0.5=0.5である。
Next, the
そして、コマンド照合部16は、確信度を閾値と比較し、電話機能を実行するためのコマンドを受理するか否かを判定する。確信度が閾値よりも小さいことから、コマンド照合部16は、電話機能を実行するためのコマンドを受理しない。次に、コマンド照合部16は、音声送信部14に発話内容(a)に対応する音声信号を音声認識サーバ2に送信するよう指示する。そして、音声送信部14は、発話内容(a)に対応する音声信号を音声認識サーバ2に送信する。その後、サーバ音声認識結果受信部15は、音声認識サーバ2からサーバ音声認識結果(c)「山田 さん に かける」を受信する。そして、サーバ音声認識結果受信部15は、サーバ音声認識結果(c)をコマンド照合部16に送信する。
Then, the
次に、コマンド照合部16は、サーバ音声認識結果(c)をコマンド辞書17と照合する。コマンド照合部16は、「山田」を人名であると判断し、キーワードリストのキーワード「<人名>」に対応付けられた電話機能およびメール機能に対して、それぞれ0.5のスコアを加算する。さらに、コマンド照合部16は、「かける」がキーワードリストのキーワードに一致することから、キーワード「かける」に対応付けられた電話機能に対して、0.5のスコアを加算する。そして、コマンド照合部16は、照合結果に基づいて確信度を算出する。この場合、電話機能が最大のスコアを有し、その確信度は1.0−0.5=0.5である。そして、コマンド照合部16は、確信度を閾値と比較し、電話機能を実行するためのコマンドを受理するか否かを判定する。
Next, the
ここで、閾値は、端末内音声認識結果がコマンドとして受理されるか否かの判定に用いた値よりも小さい値0.5とする。コマンド照合部16は、確信度が閾値以上であることから、電話機能を実行するためのコマンドを受理する。そして、コマンド照合部16は、発生内容(a)が示すコマンドを電話機能を実行するためのコマンドとして特定し、そのコマンドの実行をコマンド実行部18に指示する。そして、コマンド実行部18は、電話機能を実行するためのコマンドを実行する。
Here, the threshold is set to 0.5, which is smaller than the value used for determining whether or not the in-terminal speech recognition result is accepted as a command. The
以上のように、例えば、ユーザが、端末内機能を実行するためのコマンドを発話した場合、端末内音声認識により正しく音声認識され、サーバ音声認識を行うことなくコマンドが実行される。一方、ユーザが、ネットワークからの情報取得を意図したコマンドを発話した場合、そのコマンド内には地名、駅名、商品名、飲食店名、アプリ名などの固有名詞が含まれることがある。このような場合には、端末内音声認識では正しく音声認識できないため、サーバ音声認識により確実に認識されてコマンドが実行される。 As described above, for example, when the user utters a command for executing the in-terminal function, the voice is correctly recognized by the in-terminal voice recognition, and the command is executed without performing the server voice recognition. On the other hand, when a user utters a command intended to acquire information from a network, proper names such as place names, station names, product names, restaurant names, and application names may be included in the commands. In such a case, since the voice recognition cannot be performed correctly by the in-terminal voice recognition, the command is executed after being reliably recognized by the server voice recognition.
次に、端末装置1のコマンド判別実行処理を、機能・アプリ判別呼出処理に応用した例について説明する。この処理は、ユーザが端末装置1に向けて発話を行うことにより、端末装置1内の機能(電話、メール、スケジューラなど)または端末装置1にインストールされたアプリの呼出を行う処理である。図10および図11は、音声認識システム10における機能・アプリ判別呼出処理の一例を説明するためのフローチャートである。本処理は、端末装置1のユーザが音声入力装置106を介して音声入力することにより開始される。なお、本処理におけるS51〜S52の各ステップはそれぞれ、図5のS01〜S02の各ステップと同様であるため、S51〜S52の説明を省略する。
Next, an example in which the command determination execution process of the
S52の処理後、音声認識部12は、S52において取得した端末内音声認識結果をコマンド照合部16に送信する。次に、コマンド照合部16は、端末内音声認識結果をコマンド辞書17と照合する(S53)。具体的に説明すると、コマンド照合部16は、コマンド辞書17に記憶されたキーワードリストを参照し、端末内音声認識結果がキーワードリストに登録されたキーワードに一致するか否かを判定する(S54)。なお、キーワードリストには、端末装置1において使用可能なコマンドに加えて、複数のアプリが予め登録されている。また、キーワードリストには、少なくともキーワードを示す情報と、機能またはアプリを示す情報と、が対応付けられて記憶されている。このキーワードとしては、機能名またはアプリ名が登録されている。キーワードリストに登録されたアプリは、端末装置1にインストールされているアプリに限らず、人気アプリなど端末装置1にインストール可能なアプリが含まれる。
After the process of S52, the
S54の判定において、端末内音声認識結果がキーワードに一致した場合(S54;Yes)、コマンド照合部16は、そのキーワードに対応付けられた機能またはアプリの呼出であると判断し、出力装置108に「(機能名またはアプリ名)でよろしいですか? Yes/他候補」を表示する(S55)。そして、コマンド照合部16は、ユーザによって「Yes」が選択されたか否かを判定する(S56)。ユーザによって「他候補」が選択されたと判定された場合(S56;No)、コマンド照合部16は、音声送信部14に対して、音声入力部11から受信した音声信号を音声認識サーバ2に送信するよう指示する。また、S54の判定において、端末内音声認識結果がキーワードに一致しなかった場合(S54;No)も、コマンド照合部16は、音声送信部14に対して、音声入力部11から受信した音声信号を音声認識サーバ2に送信するよう指示する。
If it is determined in S54 that the in-terminal speech recognition result matches the keyword (S54; Yes), the
そして、音声送信部14は、音声信号を音声認識サーバ2に送信する(S57)。音声認識サーバ2は、S57において送信された音声信号を受信すると、音声認識を行って、サーバ音声認識結果を端末装置1に送信する。その後、サーバ音声認識結果受信部15は、音声認識サーバ2からサーバ音声認識結果を受信する(S58)。そして、サーバ音声認識結果受信部15は、受信したサーバ音声認識結果をコマンド照合部16に送信する。次に、コマンド照合部16は、サーバ音声認識結果をコマンド辞書17と照合する(S59)。具体的に説明すると、コマンド照合部16は、コマンド辞書17に記憶されたキーワードリストを参照し、サーバ音声認識結果がキーワードリストに登録されたキーワードに一致するか否かを判定する。さらに、コマンド照合部16は、端末内音声認識結果を再度コマンド辞書17と照合する(S60)。
Then, the
そして、コマンド照合部16は、S59およびS60における照合の結果、サーバ音声認識結果および端末内音声認識結果と一致したキーワード(機能名またはアプリ名)の一覧を取得する。そして、コマンド照合部16は、取得した機能名またはアプリ名の一覧を候補として出力装置108に表示する(S61)。その後、コマンド照合部16は、ユーザによっていずれかの候補が選択されたか否かを判定する(S62)。候補が選択されなかったと判定された場合(S62;No)、端末装置1は、機能・アプリ判別呼出処理を終了する。このとき、端末装置1は、音声の再入力を促すメッセージ等を出力装置108に表示してもよい。
Then, the
一方、S62の判定において、候補が選択されたと判定された場合(S62;Yes)、または、S56の判定において、ユーザによって「Yes」が選択されたと判定された場合(S56;Yes)、コマンド照合部16は、選択された候補が機能であるかアプリであるかを、コマンド辞書17に記憶されたキーワードリストを参照して判定する(S63)。選択された候補が機能であると判定された場合(S63;機能)、コマンド照合部16は、当該機能を実行するためのコマンドを音声信号によって示されるコマンドとして特定し、そのコマンドの実行をコマンド実行部18に指示する。そして、コマンド実行部18は、選択された機能を実行するためのコマンドを実行し(S64)、端末装置1は、機能・アプリ判別呼出処理を終了する。
On the other hand, if it is determined in S62 that a candidate is selected (S62; Yes), or if it is determined in S56 that “Yes” is selected by the user (S56; Yes), command verification is performed. The
一方、S63の判定において、選択された候補がアプリであると判定された場合(S63;アプリ)、コマンド照合部16は、当該アプリが端末装置1にインストールされているか否かの判定を行う(S65)。選択されたアプリがインストールされていると判定された場合には(S65;Yes)、コマンド照合部16は、そのアプリを音声信号によって示されるアプリとして特定し、そのアプリの起動をコマンド実行部18に指示する。そして、コマンド実行部18は、選択されたアプリを起動し(S66)、端末装置1は、機能・アプリ判別呼出処理を終了する。一方、S65の判定において、選択されたアプリがインストールされていないと判定された場合には(S65;No)、コマンド照合部16は、出力装置108に「アプリ検索を行いますか? Yes/No」を表示する(S67)。
On the other hand, if it is determined in S63 that the selected candidate is an application (S63; application), the
そして、コマンド照合部16は、ユーザによって「Yes」が選択されたか否かを判定する(S68)。ユーザによって「Yes」が選択されたと判定された場合(S68;Yes)、コマンド照合部16は、通信モジュール105を介して、インターネット上のアプリ検索サイトであるアプリマーケットにおいて、選択されたアプリの検索を行う(S69)。そして、コマンド照合部16は、検索結果を出力装置108に表示することによって、ユーザが当該アプリをインストールできるようにする。そして、端末装置1は、機能・アプリ判別呼出処理を終了する。一方、S68の判定において、ユーザによって「No」が選択されたと判定された場合(S68;No)、端末装置1は、機能・アプリ判別呼出処理を終了する。
Then, the
なお、上述のコマンド判別実行処理と同様に、キーワードリストに、キーワードを示す情報と、機能名またはアプリ名を示す情報と、スコアを示す情報と、機能であるかアプリであるかを示す情報と、が対応付けられて記憶されてもよい。この場合、端末内音声認識結果およびサーバ音声認識結果の照合は、上述のコマンド判別実行処理と同様に、音声認識結果に含まれる単語と、キーワードリストに登録されたキーワードとを比較し、上述の確信度算出方法のいずれかにより確信度を算出することによって行われてもよい。 Similar to the above-described command determination execution process, the keyword list includes information indicating a keyword, information indicating a function name or an application name, information indicating a score, and information indicating whether the function is an application. , May be stored in association with each other. In this case, the collation of the in-terminal speech recognition result and the server speech recognition result is performed by comparing the word included in the speech recognition result with the keyword registered in the keyword list, as in the above-described command determination execution process. It may be performed by calculating the certainty factor by any one of the certainty factor calculation methods.
続いて、図12を用いて、入力された発話内容に基づいてアプリが特定される処理を具体的に説明する。図12は、音声認識システム10における機能・アプリ判別呼出処理を説明するための一例を示す図である。
Next, a process for identifying an application based on the input utterance content will be specifically described with reference to FIG. FIG. 12 is a diagram illustrating an example for explaining the function / application discrimination call processing in the
まず、ユーザにより音声入力装置106を介して、発話内容(a)「ふらっどいっと」が入力される。そして、音声入力部11は、発話内容(a)に対応する音声信号を受け付けて、その音声信号を音声認識部12および音声送信部14に送信する。次に、音声認識部12は、ユーザ辞書13を参照して端末内音声認識を行い、端末内音声認識結果(b)「風呂 糸」を取得する。音声認識部12は、端末内音声認識結果(b)をコマンド照合部16に送信する。
First, the utterance content (a) “Flat Todo” is input by the user via the
次に、コマンド照合部16は、端末内音声認識結果(b)をコマンド辞書17と照合する。具体的には、コマンド照合部16は、端末内音声認識結果(b)がキーワードリストに登録されたキーワード(機能名およびアプリ名)に一致するか否かを判定する。端末内音声認識結果がキーワードに一致しないため、コマンド照合部16は、音声送信部14に発話内容(a)に対応する音声信号を音声認識サーバ2に送信するよう指示する。そして、音声送信部14は、発話内容(a)に対応する音声信号を音声認識サーバ2に送信する。
Next, the
音声認識サーバ2では、受信した音声信号に対し、市中のアプリ名などが登録された大語彙辞書23を用いて音声認識が行われる。その後、サーバ音声認識結果受信部15は、音声認識サーバ2からサーバ音声認識結果(c)「flood it」を受信する。そして、サーバ音声認識結果受信部15は、サーバ音声認識結果(c)をコマンド照合部16に送信する。
In the voice recognition server 2, voice recognition is performed on the received voice signal using the
次に、コマンド照合部16は、サーバ音声認識結果(c)をコマンド辞書17と照合する。具体的には、コマンド照合部16は、サーバ音声認識結果(c)がキーワードリストに登録されたキーワード(機能名およびアプリ名)に一致するか否かを判定する。その結果、サーバ音声認識結果(c)がキーワード「Flood−It」に一致すると判定される。そして、コマンド照合部16は、「Flood−It」を候補として出力装置108に表示する。その後、コマンド照合部16は、ユーザによって候補が選択されたか否かを判定し、「Flood−It」が選択されたと判定する。
Next, the
続いて、コマンド照合部16は、選択された候補「Flood−It」が機能であるか、アプリであるかをキーワードリストを参照して判定する。キーワード「Flood−It」は、キーワードリストにアプリとして登録されているため、コマンド照合部16は、アプリであると判定する。そして、コマンド照合部16は、アプリ「Flood−It」が端末装置1にインストールされているか否かを判定する。判定の結果、アプリ「Flood−It」は端末装置1にインストールされていないので、コマンド照合部16は、出力装置108にアプリ検索を行うか否かを表示する。
Subsequently, the
そして、ユーザによってアプリ検索を行うことが選択された場合、コマンド照合部16は、通信モジュール105を介して、アプリマーケットでアプリ「Flood−It」の検索を行い、検索結果を出力装置108に表示する。そして、ユーザによって当該アプリのインストールが指示されると、端末装置1にアプリ「Flood−It」がインストールされる。このように、ユーザは、アプリ名の発話、音声認識結果の確認、アプリ検索の指示およびアプリのインストールの指示という簡単な操作だけで、端末装置1に所望のアプリをインストールすることができる。
If the user selects to perform an application search, the
次に、端末装置1の作用効果について説明する。端末装置1は、音声入力部11が音声信号の入力を受け付け、音声認識部12が音声信号に対する音声認識を行う。また、音声送信部14が音声信号を音声認識サーバ2に送信し、サーバ音声認識結果受信部15がサーバ音声認識結果を受信する。そして、コマンド照合部16が、端末内音声認識結果をコマンド辞書17と照合して、端末内音声認識結果およびサーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された音声認識結果に基づいて音声信号によって示されるコマンドを特定する。そして、コマンド実行部18がコマンド照合部16によって特定されたコマンドを実行する。
Next, the effect of the
これにより、例えば、端末内音声認識結果がコマンドとして受理される場合は、端末内音声認識結果を利用してコマンドの実行を行い、端末内音声認識結果がコマンドとして受理できない場合には、サーバ音声認識結果を利用することができる。すなわち、端末内の語彙で認識可能なコマンドが音声入力された際には、端末内音声認識結果を利用することで高速に応答でき、端末内の語彙で認識不可能なコマンドが音声入力された際には、サーバ音声認識結果を利用することで音声入力されたコマンドを確実に認識し、実行することができる。 Thus, for example, if the in-terminal speech recognition result is accepted as a command, the command is executed using the in-terminal speech recognition result, and if the in-terminal speech recognition result cannot be accepted as a command, the server speech The recognition result can be used. In other words, when a command that can be recognized by the vocabulary in the terminal is input by voice, a command that cannot be recognized by the vocabulary in the terminal can be input by using the result of speech recognition in the terminal. In this case, the command inputted by voice can be surely recognized and executed by using the server voice recognition result.
また、コマンド照合部16は、端末内音声認識結果をコマンド辞書17と照合して、確信度を算出し、確信度が所定の閾値以上である場合に、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドを音声信号によって示されるコマンドとして特定する。
In addition, the
これにより、周囲の雑音などにより端末内音声認識結果の信頼度が低くなったが、正しく音声認識されている場合に、端末内音声認識結果を利用することができる。その結果、端末内の語彙で認識可能なコマンドを、端末内音声認識結果の信頼度が低くても高速に実行することが可能となる。 Thereby, although the reliability of the in-terminal speech recognition result is lowered due to ambient noise or the like, the in-terminal speech recognition result can be used when the speech is recognized correctly. As a result, a command that can be recognized by the vocabulary in the terminal can be executed at high speed even if the reliability of the speech recognition result in the terminal is low.
また、コマンド辞書17は、複数のコマンドの各々に対して、複数のキーワードと、複数のキーワードに対応付けられたスコアとが登録されたキーワードリストを記憶し、コマンド照合部16は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて確信度を算出する。これにより、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。
The
また、コマンド照合部16は、端末内音声認識結果に含まれる単語の各々について、キーワードリストに登録された複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコア並びに単語の音声認識の信頼度に基づいて、確信度を算出することが好ましい。これにより、端末内の語彙で認識可能なコマンドであるか否かを判定することができ、音声信号によって示されるコマンドをより確実に認識することができる。
Further, the
また、コマンド照合部16は、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドである場合には、端末内音声認識結果の利用を決定し、閾値以上の確信度のコマンドが、端末内機能の実行を指示するコマンドでない場合には、サーバ音声認識結果の利用を決定する。これにより、端末内機能の実行を指示するコマンドについては端末内音声認識結果を用いて高速に実行することができ、それ以外のコマンドについてはサーバ音声認識結果を用いて確実に実行することができる。
In addition, when the command with the certainty level equal to or greater than the threshold is a command for instructing the execution of the in-terminal function, the
音声送信部14は、音声認識部12によって端末内音声認識結果が得られる前に、音声信号を音声認識サーバ2に送信する。これにより、サーバ音声認識結果をより早く受信することができる。このため、サーバ音声認識結果を利用することが決定された場合に、高速にコマンドを実行することができる。
The
サーバ音声認識結果受信部15は、コマンド照合部16によって端末内音声認識結果に基づいてコマンドが特定された後にサーバ音声認識結果を受信した場合、サーバ音声認識結果を破棄する。これにより、サーバ音声認識結果の受信を待つことなく、端末内音声認識結果に基づいてコマンドを特定することができる。このため、端末内の語彙で認識可能なコマンドを高速に実行することが可能となる。
The server speech recognition
以上のように、端末装置1は、端末内音声認識と音声認識サーバ2を用いたネットワーク型音声認識とを協調させて利用することができる。この端末内音声認識は、ネットワークNWを介した通信が不要であることから高速に応答できるが、ユーザ辞書13に登録されている語彙が少ないことから正確な音声認識が行えない場合がある。一方、ネットワーク型音声認識は、大語彙辞書23に登録されている語彙がユーザ辞書13よりも多いことから音声認識の精度は端末内音声認識よりも高いが、ネットワークNWを介した通信を行うため、通信遅延等で応答が遅くなる場合がある。したがって、端末装置1に対して端末装置1内の認識対象の語彙(ユーザ依存語彙を含む)で認識可能な音声コマンドが入力された場合には、端末内音声認識により高速な応答を可能とし、端末装置1内の認識対象の語彙では認識不可能な音声コマンドが入力された場合には、音声認識サーバ2を用いたネットワーク型音声認識により大語彙・高精度な音声認識を可能とする。
As described above, the
なお、本実施形態においては、装置として端末装置1を例示したが、これに限るものではなく、例えば、端末装置1における各機能を実行するためのプログラムモジュールとして構成してもよい。すなわち、音声入力部11に相当する音声入力モジュール、音声認識部12に相当する音声認識モジュール、音声送信部14に相当する音声送信モジュール、サーバ音声認識結果受信部15に相当するサーバ音声認識結果受信モジュール、コマンド照合部16に相当するコマンド照合モジュール、コマンド実行部18に相当するコマンド実行モジュールを備えた音声認識プログラムであって、携帯端末などのコンピュータシステムに当該プログラムを読み込ませることにより、上述の端末装置1と同等の機能を実現することができる。なお、上述の音声認識プログラムは、例えば、フレキシブルディスク、CD−ROM、DVDもしくはROM等の記憶媒体または半導体メモリに格納されて提供される。また、上述の音声認識プログラムは、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。
In addition, in this embodiment, although the
また、音声送信部14は、音声信号として非圧縮の音声波形または圧縮された音声波形を音声認識サーバ2に送信してもよく、あるいは、音声認識に利用される特徴量を音声認識サーバ2に送信してもよい。
In addition, the
また、音声送信部14は、音声入力部11から音声信号を受信後、端末内音声認識結果を利用するか否かの決定がされる前に、音声認識サーバ2に音声信号を送信してもよい。この場合、音声認識部12による端末内音声認識およびコマンド照合部16による端末内音声認識結果のコマンド照合と並行して、音声認識サーバ2においてサーバ音声認識を行うことができ、サーバ音声認識結果を早く取得することが可能となる。その結果、コマンド照合部16によってサーバ音声認識結果の利用が決定された場合の処理時間を短縮することができる。このとき、コマンド照合部16は、サーバ音声認識結果を端末内音声認識結果よりも先に取得した場合、端末内音声認識結果を待っていずれの音声認識結果を利用するかを決定することが望ましいが、サーバ音声認識結果を優先して利用してもよい。
In addition, after receiving the voice signal from the
また、音声送信部14が端末内音声認識結果を利用するか否かの判断がされる前に音声認識サーバ2に音声信号を送信し、サーバ音声認識結果受信部15が音声認識サーバ2からサーバ音声認識結果を受信する前に、コマンド照合部16が端末内音声認識結果を利用することを決定した場合、コマンド照合部16は、音声送信部14に対して音声認識サーバ2での音声認識処理を取り消すための信号を音声認識サーバ2に送信するように指示してもよい。このとき、音声送信部14は、コマンド照合部16からの指示に基づいて、音声認識サーバ2に音声認識サーバ2での音声認識処理を取り消すための信号を送信してもよい。このように、端末内音声認識により認識可能なコマンドが入力された場合には、音声認識サーバ2からのサーバ音声認識結果を待つことなく、端末内音声認識結果を利用することを決定することで、コマンド実行部18は高速にコマンドを実行できる。
Further, the
また、確信度の閾値は、固定値に限られず、端末内音声認識結果に含まれる単語数に対して、所定の割合(例えば0.2)を掛けた値とすることもできる。このようにすることで、単語数に応じて閾値を動的に変更することができ、より正確にコマンドを特定することが可能となる。 In addition, the certainty threshold is not limited to a fixed value, and may be a value obtained by multiplying the number of words included in the in-terminal speech recognition result by a predetermined ratio (for example, 0.2). In this way, the threshold value can be dynamically changed according to the number of words, and the command can be specified more accurately.
また、コマンド照合部16は、受理されたコマンドが、端末内機能に相当する場合に限られず、例えば、限られた単語しか使われない機能、すなわち音声認識サーバ2による大語彙認識が必要ない機能に相当する場合に、当該コマンドを特定してもよい。
In addition, the
また、コマンド辞書17は、機能名などのキーワードと、機能とを対応付け、スコアを有しないキーワードリストを記憶してもよい。この場合、コマンド照合部16は、音声認識結果に含まれる単語または部分文字列が、キーワードリストに登録されたキーワードに一致するか否かを判断し、いずれかのキーワードに一致した場合に、そのキーワードに対応付けられた機能を実行するためのコマンドを、音声信号によって示されるコマンドとして特定してもよい。
The
1…端末装置、2…音声認識サーバ、10…音声認識システム、11…音声入力部(音声入力手段)、12…音声認識部(音声認識手段)、13…ユーザ辞書、14…音声送信部(音声送信手段)、15…サーバ音声認識結果受信部(サーバ音声認識結果受信手段)、16…コマンド照合部(コマンド照合手段)、17…コマンド辞書、18…コマンド実行部(コマンド実行手段)、21…音声受信部(音声受信手段)、22…サーバ音声認識部(サーバ音声認識手段)、23…大語彙辞書(サーバ辞書)、24…サーバ音声認識結果送信部(サーバ音声認識結果送信手段)。
DESCRIPTION OF
Claims (16)
前記音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、
前記音声信号を音声認識サーバに送信する音声送信手段と、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、
複数のコマンドが登録されたコマンド辞書と、
前記音声認識手段によって認識された音声認識結果である端末内音声認識結果を前記コマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合手段と、
前記コマンド照合手段によって特定された前記コマンドを実行するコマンド実行手段と、
を備えることを特徴とする端末装置。 An audio input means for receiving an input of an audio signal;
Voice recognition means for performing voice recognition on the voice signal received by the voice input means;
Voice transmitting means for transmitting the voice signal to a voice recognition server;
Server speech recognition result receiving means for receiving a server speech recognition result which is a speech recognition result for the speech signal by the speech recognition server;
A command dictionary in which multiple commands are registered;
Which speech recognition result is used, that is, the speech recognition result in the terminal, which is the speech recognition result recognized by the speech recognition means, is collated with the command dictionary and the speech recognition result in the terminal or the server speech recognition result is used. Command collating means for determining and identifying a command indicated by the voice signal based on the determined voice recognition result;
Command execution means for executing the command specified by the command verification means;
A terminal device comprising:
前記コマンド照合手段は、前記端末内音声認識結果に含まれる単語の各々について、前記キーワードリストに登録された前記複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて前記確信度を算出することを特徴とする請求項2に記載の端末装置。 The command dictionary stores a keyword list in which a plurality of keywords and scores associated with the plurality of keywords are registered for each of the plurality of commands.
The command matching unit determines whether each of the words included in the in-terminal speech recognition result corresponds to any of the plurality of keywords registered in the keyword list, and associates with the corresponding keyword. The terminal device according to claim 2, wherein the certainty factor is calculated based on the received command and score.
前記音声入力モジュールによって受け付けられた音声信号に対する音声認識を行う音声認識モジュール、
前記音声信号を音声認識サーバに送信する音声送信モジュールと、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信モジュールと、
前記音声認識モジュールによって認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合モジュールと、
前記コマンド照合モジュールによって特定された前記コマンドを実行するコマンド実行モジュールと、
を備えることを特徴とする音声認識プログラム。 A voice input module that accepts input of voice signals,
A voice recognition module for performing voice recognition on a voice signal received by the voice input module;
A voice transmission module for transmitting the voice signal to a voice recognition server;
A server speech recognition result receiving module for receiving a server speech recognition result that is a speech recognition result for the speech signal by the speech recognition server;
The in-terminal speech recognition result, which is the speech recognition result recognized by the speech recognition module, is checked against a command dictionary in which a plurality of commands are registered, and any one of the in-terminal speech recognition result and the server speech recognition result A command verification module that determines whether to use a recognition result and identifies a command indicated by the voice signal based on the determined voice recognition result;
A command execution module for executing the command specified by the command verification module;
A speech recognition program comprising:
前記コマンド照合モジュールは、前記端末内音声認識結果に含まれる単語の各々について、前記キーワードリストに登録された前記複数のキーワードのいずれかに該当するか否かを判定し、該当するキーワードに対応付けられたコマンドおよびスコアに基づいて前記確信度を算出することを特徴とする請求項9に記載の音声認識プログラム。 The command dictionary stores a keyword list in which a plurality of keywords and a score associated with each of the plurality of keywords are registered for each of the plurality of commands.
The command verification module determines whether each of the words included in the in-terminal speech recognition result corresponds to any of the plurality of keywords registered in the keyword list, and associates with the corresponding keyword The speech recognition program according to claim 9, wherein the certainty factor is calculated based on the received command and score.
前記音声入力ステップにおいて受け付けられた音声信号に対する音声認識を行う音声認識ステップと、
前記音声信号を音声認識サーバに送信する音声送信ステップと、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信ステップと、
前記音声認識ステップにおいて認識された音声認識結果である端末内音声認識結果を複数のコマンドが登録されたコマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合ステップと、
前記コマンド照合ステップにおいて特定された前記コマンドを実行するコマンド実行ステップと、
を備えることを特徴とする音声認識方法。 An audio input step for receiving an input of an audio signal;
A voice recognition step for performing voice recognition on the voice signal received in the voice input step;
A voice transmission step of transmitting the voice signal to a voice recognition server;
A server speech recognition result receiving step for receiving a server speech recognition result which is a speech recognition result for the speech signal by the speech recognition server;
The in-terminal speech recognition result, which is the speech recognition result recognized in the speech recognition step, is collated with a command dictionary in which a plurality of commands are registered, and any one of the in-terminal speech recognition result and the server speech recognition result A command matching step for determining whether to use a recognition result, and for identifying a command indicated by the voice signal based on the determined voice recognition result;
A command execution step for executing the command specified in the command verification step;
A speech recognition method comprising:
前記端末装置は、
音声信号の入力を受け付ける音声入力手段と、
前記音声入力手段によって受け付けられた音声信号に対する音声認識を行う音声認識手段と、
複数のコマンドが登録されたコマンド辞書と、
前記音声信号を前記音声認識サーバに送信する音声送信手段と、
前記音声認識サーバによる前記音声信号に対する音声認識結果であるサーバ音声認識結果を受信するサーバ音声認識結果受信手段と、
前記音声認識手段によって認識された音声認識結果である端末内音声認識結果を前記コマンド辞書と照合して、前記端末内音声認識結果および前記サーバ音声認識結果のうちいずれの音声認識結果を利用するか決定し、決定された前記音声認識結果に基づいて前記音声信号によって示されるコマンドを特定するコマンド照合手段と、
前記コマンド照合手段によって特定された前記コマンドを実行するコマンド実行手段と、
を備え、
前記音声認識サーバは、
前記音声送信手段から送信された前記音声信号を受信する音声受信手段と、
前記端末装置よりも多くの語彙を含むサーバ辞書と、
前記音声受信手段によって受信された前記音声信号を、前記サーバ辞書に基づいて音声認識するサーバ音声認識手段と、
前記サーバ音声認識結果を前記端末装置に送信するサーバ音声認識結果送信手段と、
を備えることを特徴とする音声認識システム。 A speech recognition system including a terminal device and a speech recognition server,
The terminal device
An audio input means for receiving an input of an audio signal;
Voice recognition means for performing voice recognition on the voice signal received by the voice input means;
A command dictionary in which multiple commands are registered;
Voice transmitting means for transmitting the voice signal to the voice recognition server;
Server speech recognition result receiving means for receiving a server speech recognition result which is a speech recognition result for the speech signal by the speech recognition server;
Which speech recognition result is used, that is, the speech recognition result in the terminal, which is the speech recognition result recognized by the speech recognition means, is collated with the command dictionary and the speech recognition result in the terminal or the server speech recognition result is used. Command collating means for determining and identifying a command indicated by the voice signal based on the determined voice recognition result;
Command execution means for executing the command specified by the command verification means;
With
The voice recognition server
Voice receiving means for receiving the voice signal transmitted from the voice transmitting means;
A server dictionary containing more vocabulary than the terminal device;
Server voice recognition means for recognizing the voice signal received by the voice reception means based on the server dictionary;
Server speech recognition result transmitting means for transmitting the server speech recognition result to the terminal device;
A speech recognition system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011202064A JP5658641B2 (en) | 2011-09-15 | 2011-09-15 | Terminal device, voice recognition program, voice recognition method, and voice recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011202064A JP5658641B2 (en) | 2011-09-15 | 2011-09-15 | Terminal device, voice recognition program, voice recognition method, and voice recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013064777A JP2013064777A (en) | 2013-04-11 |
JP5658641B2 true JP5658641B2 (en) | 2015-01-28 |
Family
ID=48188360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011202064A Active JP5658641B2 (en) | 2011-09-15 | 2011-09-15 | Terminal device, voice recognition program, voice recognition method, and voice recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5658641B2 (en) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140087717A (en) * | 2012-12-31 | 2014-07-09 | 삼성전자주식회사 | Display apparatus and controlling method thereof |
JP5753212B2 (en) * | 2013-03-19 | 2015-07-22 | シャープ株式会社 | Speech recognition system, server, and speech processing apparatus |
JP6416752B2 (en) * | 2013-04-19 | 2018-10-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Home appliance control method, home appliance control system, and gateway |
JP6281202B2 (en) * | 2013-07-30 | 2018-02-21 | 株式会社デンソー | Response control system and center |
CN103474068B (en) * | 2013-08-19 | 2016-08-10 | 科大讯飞股份有限公司 | Realize method, equipment and system that voice command controls |
CN105793923A (en) * | 2013-09-20 | 2016-07-20 | 亚马逊技术股份有限公司 | Local and remote speech processing |
JP6054283B2 (en) * | 2013-11-27 | 2016-12-27 | シャープ株式会社 | Speech recognition terminal, server, server control method, speech recognition system, speech recognition terminal control program, server control program, and speech recognition terminal control method |
JP2015141226A (en) * | 2014-01-27 | 2015-08-03 | パイオニア株式会社 | Information processing device |
WO2015118578A1 (en) * | 2014-02-10 | 2015-08-13 | 三菱電機株式会社 | Multimodal input device, and method for controlling timeout in terminal device and multimodal input device |
CN104978965B (en) | 2014-04-07 | 2019-04-26 | 三星电子株式会社 | The speech recognition of electronic device and utilization electronic device and server executes method |
JP6440513B2 (en) * | 2014-05-13 | 2018-12-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Information providing method and device control method using voice recognition function |
JP6670364B2 (en) * | 2014-05-13 | 2020-03-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Information providing method and device control method using voice recognition function |
KR102300415B1 (en) * | 2014-11-17 | 2021-09-13 | 주식회사 엘지유플러스 | Event Practicing System based on Voice Memo on Mobile, Mobile Control Server and Mobile Control Method, Mobile and Application Practicing Method therefor |
JP6754184B2 (en) | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Voice recognition device and voice recognition method |
US10636414B2 (en) * | 2016-03-10 | 2020-04-28 | Sony Corporation | Speech processing apparatus and speech processing method with three recognizers, operation modes and thresholds |
US10282218B2 (en) * | 2016-06-07 | 2019-05-07 | Google Llc | Nondeterministic task initiation by a personal assistant module |
JP6452826B2 (en) * | 2016-08-26 | 2019-01-16 | 三菱電機株式会社 | Factory automation system and remote server |
EP3511931A4 (en) * | 2016-09-09 | 2019-08-21 | Sony Corporation | Speech processing device, information processing device, speech processing method, and information processing method |
KR101700099B1 (en) | 2016-10-11 | 2017-01-31 | 미디어젠(주) | Hybrid speech recognition Composite Performance Auto Evaluation system |
US10950230B2 (en) | 2016-10-28 | 2021-03-16 | Panasonic Intellectual Property Corporation Of America | Information processing device and information processing method |
JP6751658B2 (en) * | 2016-11-15 | 2020-09-09 | クラリオン株式会社 | Voice recognition device, voice recognition system |
JP6838464B2 (en) * | 2017-03-31 | 2021-03-03 | サクサ株式会社 | Telephone system |
BR112019002636A2 (en) * | 2017-08-02 | 2019-05-28 | Panasonic Ip Man Co Ltd | information processing apparatus, speech recognition system and information processing method |
US10515637B1 (en) | 2017-09-19 | 2019-12-24 | Amazon Technologies, Inc. | Dynamic speech processing |
JP7130201B2 (en) * | 2018-01-18 | 2022-09-05 | 株式会社ユピテル | Equipment and programs, etc. |
CN108538291A (en) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | Sound control method, terminal device, cloud server and system |
JP2018194849A (en) * | 2018-07-12 | 2018-12-06 | パイオニア株式会社 | Information processing device |
JP2020134903A (en) * | 2019-02-26 | 2020-08-31 | コニカミノルタ株式会社 | System, image formation device, method, and program |
KR102026479B1 (en) * | 2019-03-06 | 2019-09-30 | 주식회사 다이얼로그디자인에이전시 | System for providing parallel processing platform based artificial intelligence speech recognition service |
JP2020129130A (en) * | 2020-04-27 | 2020-08-27 | パイオニア株式会社 | Information processing device |
CN117275470A (en) * | 2022-06-13 | 2023-12-22 | 华为技术有限公司 | Man-machine conversation method, device and system |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10222337A (en) * | 1997-02-13 | 1998-08-21 | Meidensha Corp | Computer system |
JP3997459B2 (en) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | Voice input system, voice portal server, and voice input terminal |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
JP2005249829A (en) * | 2004-03-01 | 2005-09-15 | Advanced Media Inc | Computer network system performing speech recognition |
JP5283947B2 (en) * | 2008-03-28 | 2013-09-04 | Kddi株式会社 | Voice recognition device for mobile terminal, voice recognition method, voice recognition program |
JP2009288630A (en) * | 2008-05-30 | 2009-12-10 | Denso Corp | Voice recognition system for vehicle |
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
JP4902617B2 (en) * | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | Speech recognition system, speech recognition method, speech recognition client, and program |
-
2011
- 2011-09-15 JP JP2011202064A patent/JP5658641B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013064777A (en) | 2013-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5658641B2 (en) | Terminal device, voice recognition program, voice recognition method, and voice recognition system | |
US10553216B2 (en) | System and method for an integrated, multi-modal, multi-device natural language voice services environment | |
US20210166699A1 (en) | Methods and apparatus for hybrid speech recognition processing | |
US8589161B2 (en) | System and method for an integrated, multi-modal, multi-device natural language voice services environment | |
US9959863B2 (en) | Keyword detection using speaker-independent keyword models for user-designated keywords | |
US9495956B2 (en) | Dealing with switch latency in speech recognition | |
US8635243B2 (en) | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application | |
US9171541B2 (en) | System and method for hybrid processing in a natural language voice services environment | |
US8949266B2 (en) | Multiple web-based content category searching in mobile search application | |
US8762156B2 (en) | Speech recognition repair using contextual information | |
CN108648750B (en) | Hybrid model speech recognition | |
US10628483B1 (en) | Entity resolution with ranking | |
US20050049870A1 (en) | Open vocabulary speech recognition | |
US20110060587A1 (en) | Command and control utilizing ancillary information in a mobile voice-to-speech application | |
US20110054894A1 (en) | Speech recognition through the collection of contact information in mobile dictation application | |
US20110054900A1 (en) | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application | |
US20110054895A1 (en) | Utilizing user transmitted text to improve language model in mobile dictation application | |
US20110054899A1 (en) | Command and control utilizing content information in a mobile voice-to-speech application | |
US20110054896A1 (en) | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application | |
KR20180064504A (en) | Personalized entity pronunciation learning | |
JP2016095383A (en) | Voice recognition client device and server-type voice recognition device | |
CN116888663A (en) | Streaming action implementation based on partial assumptions | |
CN110809796B (en) | Speech recognition system and method with decoupled wake phrases | |
CN118661220A (en) | Electronic apparatus and control method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5658641 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |