JP2009122598A - Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program - Google Patents
Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program Download PDFInfo
- Publication number
- JP2009122598A JP2009122598A JP2007299309A JP2007299309A JP2009122598A JP 2009122598 A JP2009122598 A JP 2009122598A JP 2007299309 A JP2007299309 A JP 2007299309A JP 2007299309 A JP2007299309 A JP 2007299309A JP 2009122598 A JP2009122598 A JP 2009122598A
- Authority
- JP
- Japan
- Prior art keywords
- sound data
- volume level
- voice
- voice recognition
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、周囲の環境音から音声を認識する電子機器等に関する。 The present invention relates to an electronic device or the like that recognizes sound from ambient environmental sounds.
近年の電子機器においては、ユーザが外部から音声により所望の操作内容を与え、その音声を認識して把握された所望の操作内容に応じた動作を実行する形態のものが存在している。このような電子機器としては、そのような音声認識を開始させるにあたり、例えば操作者が発話ボタンを操作したことを契機とする方法も考えられるが、操作を希望する度に逐一発話ボタンを操作する必要があると使用意欲などが低下してしまうおそれがある。 In recent electronic devices, there is a form in which a user gives a desired operation content from the outside by voice, and performs an operation according to the desired operation content recognized by recognizing the voice. As such an electronic device, in order to start such voice recognition, for example, a method triggered by an operator operating the utterance button may be considered, but the utterance button is operated every time the operation is desired. If necessary, the willingness to use may be reduced.
そこで従来の電子機器においては、例えば常時音声認識の待ち受け状態とすることも考えられるが、このようにするとCPU(Central Processing Unit)やDSP(Digital Signal Processor)といったリソースを不要に占有してしまいリソースの利用効率が悪くなってしまう。 Therefore, in a conventional electronic device, for example, it may be possible to always enter a standby state for voice recognition. However, in this case, resources such as a CPU (Central Processing Unit) and a DSP (Digital Signal Processor) are unnecessarily occupied. The use efficiency of will become worse.
そこで従来の電子機器では、音声認識装置が、採取した音からユーザの音声を識別し、その音声信号が所定の閾値となったことを契機にその音声の内容を認識する技術を採用している(特許文献1参照)。 Therefore, in a conventional electronic device, the voice recognition device adopts a technology that recognizes the user's voice from the collected sounds and recognizes the contents of the voice when the voice signal reaches a predetermined threshold. (See Patent Document 1).
具体的には、従来の音声認識装置は、次のようなレベル検出部及び音声認識部を有する。レベル検出部は、例えばマイクロフォンで採取した音の入力信号が所定レベル以上であるか否かを検出する。また音声認識部は、レベル検出部によって入力信号が所定レベル以上であり音声であることが検出された場合、その音に含まれる音声を識別して音声認識を行う。 Specifically, the conventional speech recognition apparatus has the following level detection unit and speech recognition unit. For example, the level detection unit detects whether or not an input signal of sound collected by a microphone is equal to or higher than a predetermined level. In addition, when the level detection unit detects that the input signal is equal to or higher than the predetermined level and is a voice, the voice recognition unit recognizes the voice included in the sound and performs voice recognition.
このとき音声認識部は、レベル検出部によって検出されてからその音について音声認識を開始すると、その最初の部分が音声認識の対象から欠落してしまい(以下、「頭切れ」と呼ぶ)、その音声部分が全体として何を表しているのかを正しく認識することができない。 At this time, when the voice recognition unit starts voice recognition for the sound after being detected by the level detection unit, the first part is lost from the target of voice recognition (hereinafter referred to as “head cut”). It is not possible to correctly recognize what the voice part represents as a whole.
そこで従来の音声認識装置においては、上述した構成に加えてさらに次のような遅延部を内蔵している。この遅延部は、音声を採取するマイクロフォンと音声認識部との間に設けられており、例えば音声部分の開始を表すスタート信号の入力を契機として入力信号自体を遅延させ、その入力信号の頭切れを防止する手法が採用されている。 Therefore, the conventional speech recognition apparatus further includes the following delay unit in addition to the above-described configuration. This delay unit is provided between the microphone that collects the voice and the voice recognition unit. For example, the input signal itself is delayed when the start signal indicating the start of the voice part is input, and the input signal is cut off. A technique to prevent this is adopted.
上記従来技術によれば、確かに、入力信号の頭切れを防止することができるものの入力信号を遅延させていることに伴って当然ながら音声認識処理自体の開始が遅れてしまう。このように音声認識処理が遅れると、電子機器を操作しようとした操作者は、音声を発してから電子機器が実際に動作を開始するまでに多少の時間が空くことから動作の反応に対して違和感を生じてしまい、結果として操作性が良いとはいえなかった。 According to the above prior art, although it is possible to prevent the head of the input signal from being cut off, the start of the speech recognition processing itself is naturally delayed as the input signal is delayed. If the voice recognition process is delayed in this way, an operator who tries to operate the electronic device will have some time to wait until the electronic device actually starts operating after making a voice. A sense of incongruity was produced, and as a result, the operability was not good.
本発明が解決しようとする課題には、上記した問題が一例として挙げられる。 The problem to be solved by the present invention includes the above-described problem as an example.
上記課題を解決するために、請求項1記載の発明は、採取された音に基づく音データが継続的に上書き記録される上書き記録手段と、前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知手段と、前記検知手段によって前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知手段による検知時刻よりも所定時間前に遡って記録済の音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識手段と、前記音声認識手段によって識別された前記音声部分が表す制御内容に基づいて動作を制御する制御手段と、を有する。
In order to solve the above problem, the invention according to
上記課題を解決するために、請求項7記載の発明は、採取された音に基づく音データを上書き記録手段に継続的に上書き記録している状態で、前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知ステップと、前記検知ステップにて前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知ステップでの検知時刻よりも所定時間前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、前記音声認識ステップにて識別された前記音声部分が表す制御内容に基づいて動作を制御する制御ステップと、を有する。
In order to solve the above-mentioned problem, the invention according to
上記課題を解決するために、請求項8記載の発明は、採取された音に基づく音データが継続的に上書き記録される上書き記録手段と、前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知手段と、前記検知手段によって前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知手段による検知時刻よりも所定時間前に遡って記録済の音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識手段と、を有する。 In order to solve the above-mentioned problem, the invention according to claim 8 is characterized in that overwriting recording means for continuously overwriting recording sound data based on the collected sound, and the volume level of the sound data exceeds a threshold volume level. Detection means for detecting this, and when the detection means detects that the volume level of the sound data exceeds the threshold volume level, detection by the detection means among the sound data recorded in the overwrite recording means Voice recognition means for identifying a voice part from recorded sound data by going back a predetermined time before the time and performing voice recognition on the voice part.
上記課題を解決するために、請求項9記載の発明は、採取された音に基づく音データを上書き記録手段に継続的に上書き記録している状態で、前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知ステップと、前記検知ステップにて前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知ステップでの検知時刻よりも所定時間前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、を有する。
In order to solve the above-mentioned problem, the invention according to
上記課題を解決するために、請求項10記載の発明は、採取された音に基づく音データを上書き記録手段に継続的に上書き記録している状態で、前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知ステップと、前記検知ステップにて前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知ステップでの検知時刻よりも所定時間前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、をコンピュータにて実行させる。 In order to solve the above-mentioned problem, the invention according to claim 10 is characterized in that the sound data based on the collected sound is continuously overwritten and recorded in the overwrite recording means, and the sound data volume level is a threshold volume level. And when detecting that the volume level of the sound data exceeds the threshold volume level in the detection step, the sound data recorded in the overwrite recording means A computer recognizes a voice part from recorded sound data by a predetermined time before the detection time in the detection step, and performs voice recognition on the voice part.
以下、本発明の一実施の形態を図面を参照しつつ説明する。
<第1実施形態>
図1は、第1実施形態における電子機器を適用した一例としてのロボット100の構成例を示すブロック図である。なおこの電子機器は、このようなロボット100以外であっても、ユーザの発声に反応して動作する様々な装置に適用することができる。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
<First Embodiment>
FIG. 1 is a block diagram illustrating a configuration example of a
ロボット100は、例えば車両に搭載され、運転者又は搭乗者であるユーザが乗り込んだときに挨拶したりユーザの呼びかけに応じて愛らしい反応をすることで、例えば運転者の安全運転に寄与したり運転者や搭乗者の疲労感や不安感を和らげる機能を有する。
The
このロボット100は、ユーザの発声により指示された操作内容を音声認識し、その操作内容に応じた動作を行う。ユーザは、例えばこのロボット100に名称が付されている場合、所定の動作を行わせるべく、このロボット100の名称を呼びかけるとともに、所望の動作を指示する命令語としての音声部分、そのような音声部分を含む文章、会話などを発声により投げかける。
The
このロボット100は次のような音声認識装置1を内蔵している。なお、この音声認識装置1はロボット100に内蔵されている形態のみならず、独立した装置として音声認識を行う形態であっても良い。この音声認識装置1は、デジタイズ部5、上書きメモリ7、検知部9及び音声認識部11を備えており、さらにマイクロフォン3を備えていても良い。
The
マイクロフォン3は音採取手段に相当し、周囲の環境で生じている音を採取して音データ4を出力する機能を有する。なおこのマイクロフォン3は内蔵されている形態のみならず着脱可能な形態であっても良い。この場合、音声認識装置1にはマイクロフォン3が採取した周囲の音に基づく音データ4が入力される形態となる。なお本実施形態では、マイクロフォン3が出力する音データ4は例えばアナログデータであるものとする。
The
デジタイズ部5は、マイクロフォン3及び上書き用メモリ16に接続されており、アナログデータである音データ4をデジタルデータの音データ4に変換し、上書きメモリ7に出力する。上書きメモリ7は、デジタイズ部5からの音データ4を所定のバファリング単位で繰り返し上書き記録される情報記録媒体である。
The digitizing
検知部9は検知手段に相当し、上述した音データ4の特定周波数帯域の音量レベルが規定の閾値音量レベルを超えたことを検知する機能を有する。具体的には、検知部9は、この音データ4の音量レベルが規定の閾値音量レベルを超えたことを契機として音声認識部11に対してトリガーTGを出力する。
The
ここで、この検知部9は、採取された音に含まれるノイズレベルを考慮した上で、その音データ4の特定周波数帯域の音量レベルが所定の閾値音量レベルを超えたか否かを検知する。ここでこの特定周波数帯域とはユーザの音声周波数帯域を表している。以下の説明では、特に必要がない限り、音データ4の特定周波数帯域の音量レベルを「音データ4の音量レベル」と表現する。
Here, the
この検知部9は、図示しない車両センサに接続されており、エンジンが作動している状態ではこの車両センサから恒常的に車両のエンジン回転数などの車両情報を取得している。
The
音声認識部11は音声認識手段に相当し、検知部9によって音データ4の特定周波数帯域の音量レベルがそのような閾値以上を超えたことが検知された場合、つまり検知部9から上述したトリガーを受け取った場合、例えばトリガーTGを受け取った時刻を管理しておくとともに次のように動作する。なお本実施形態では、音声認識部11が検知部9からトリガーTGを受け取った時刻を「検知時刻」と呼んでいる。
The
すなわち音声認識部11は、上書きメモリ7に記録済の音データ4のうち検知部9による検知時刻よりも所定時間前に遡って記録済の音データ4から音声部分を識別し、その音声部分について音声認識を行う。またこの音声認識部11は、上昇していた音データ4の音量レベルがノイズレベルにまで下がり所定時間が経過すると、音声認識処理を停止する。ここでいうノイズレベルとは、ロボット100の周囲に恒常的に生じている音声を含まない音の音量レベルを表している。
That is, the
上述した制御部10は、その音声認識部11によって音声識別された音声部分が表す制御内容に基づいて動作を制御する。この制御部10は、その制御内容に従って音声部分を発したユーザに対して反応するよう動作を制御する。つまりこの制御部10は、このように音声認識によって把握された制御内容に従って後述するようにロボット100の動作を制御している。
The control part 10 mentioned above controls operation | movement based on the control content which the audio | voice part identified by the audio |
音声認識装置1を内蔵するロボット100は以上のような一構成例であり、次に図1を参照しつつ当該一構成例によるロボット100の制御方法の一例について説明する。このロボット100の制御方法は、音声認識装置1において実行される音声認識方法の各ステップを含んでいる。この音声認識方法は、音声認識プログラムが音声認識装置1の音声認識部11及び検知部9などにおいて実行させる各ステップによって構成されている。
The
図2は、ロボット100の処理の手順例を示すフローチャートである。なお、音声認識部11は通常時に作動しておらず、後述するように必要に応じて動作するようになっている。
FIG. 2 is a flowchart illustrating an example of a processing procedure of the
まずステップS1では、制御部10が図示しない車両センサによってエンジン回転数を検知し、エンジンが始動しているか否かを判断する。次にステップS2では、音声認識装置1が周囲の環境にて生じている音の上書き記録を開始する。
First, in step S1, the control unit 10 detects the engine speed by a vehicle sensor (not shown) and determines whether or not the engine is started. Next, in step S2, the
具体的には、デジタイズ部5は、マイクロフォン3によって採取された音に基づくアナログの音データ4を2値化し、デジタルの音データ4を上書きメモリ7に出力する。この上書きメモリ7には、この音データ4が所定の単位で上書き記録されている。
Specifically, the digitizing
次にステップS3では、検知部9が、例えばユーザが発する音声の周波数帯を基に、音声認識部11を用いて音声認識を行うべき周波数を特定する。以下の説明では、このように特定した周波数を「特定周波数」と呼んでいる。ここで本実施形態では、採取された音のうち音声であるか否かの判定方法としては、例えば運転者などの人間の声(上述した音声に相当)であることの周波数特性上の特徴などを基に判定している。なお、この音声のユーザとしては車両の搭乗者であっても良い。
Next, in step S3, the
次にステップS4では、検知部9が周囲の環境に恒常的に生じているノイズレベルを特定する。このノイズレベルは採取された音のうち環境音に該当する。以下の説明では、このように特定したノイズレベルを「特定ノイズレベル」と呼ぶ。次にステップS5では、検知部9がこの特定周波数の音量レベルに関してモニタリングを開始する。
Next, in step S4, the
次にステップS6では、検知部9が、図示しない車両センサからの車両情報に含まれるエンジン回転数に基づいて車両のエンジンが停止しているか否かを判断する。車両のエンジンが停止している場合にはこのドライブレコード処理が終了する一方、車両のエンジンが停止していない場合には検知部9が次のステップS7を実行する。
Next, in step S6, the
<検知ステップ>
このステップS7では、検知部9が、特定ノイズレベルを超える音量レベルの音データ4が入力されたか否かを判断する。この検知部9は、そのような音量レベルの音が入力されなかった場合には上述したステップS6に戻り、そのような音量レベルの音が入力された場合にはトリガーを音声認識部11に対して出力する。
<Detection step>
In step S7, the
次にステップS8では、音声認識部11が検知部9からトリガーを受け取ったか否かを判断し、受け取っていない場合には上述したステップS6に戻って実行される。
Next, in step S8, it is determined whether or not the
<音声認識ステップ>
一方、音声認識部11が検知部9からトリガーを受け取った場合にはここから音声認識を開始する。次にステップS9では、音声認識部11が上書きメモリ7に記録済の音データ4を取得する。次にステップS10では、詳細は後述するが、音声認識部11が音声認識処理を実行する。
<Voice recognition step>
On the other hand, when the
次にステップS11では、音声認識部11は一連の音声認識処理が終了したか否かを判断し、終了すると、所定時間が経過するまで待ち、所定時間が経過すると、上記ステップS6に戻る(ステップS12)。なお、音声認識処理が終了した場合でも、車両の走行又は乗車が継続していたときは、音データ4の上書きメモリ7への記録及び検知部9による検知は継続し、車両の走行又は乗車が終了したときは、上書きメモリ7への記録及び検知部9による検知も終了する。
Next, in step S11, the
<制御ステップ>
制御部10は、このように音声認識された音声部分が示す制御内容に基づいて動作を制御する。従って電子機器100は、制御部10がこの制御内容によって制御することでユーザの音声に反応するように動作する。このとき上述した音声部分は先頭部分が欠けることなく音声認識されるため、電子機器100は確実にユーザの希望に沿って反応することができる。
<Control step>
The control unit 10 controls the operation based on the control content indicated by the voice part that has been voice-recognized in this way. Therefore, the
図3は、図2に示す音声認識処理を行っている様子の一例を示す図である。なお図示の例においては横軸が時間tを表しており縦軸が音量レベルLを表している。
この例においては、図示のような波形を示す音データ4が上書きメモリ7に記録されている。この音データ4においては、時刻Tsから時刻Teにわたりユーザの発声による音量レベルLの変化が生じている。
FIG. 3 is a diagram illustrating an example of a state in which the voice recognition process illustrated in FIG. 2 is performed. In the illustrated example, the horizontal axis represents time t and the vertical axis represents volume level L.
In this example,
<音声認識処理の開始>
検知部9は、上述したように音データ4の音量レベルLがノイズレベルL0から上昇して閾値音量レベルL1を超えたときにトリガーTGを出力する。この検知部9は、定常的な走行ノイズレベルL0を計測しておき、その定常的な走行ノイズレベルL0を所定量以上超える音量レベルL1である場合にトリガーTGを出力する。
<Start of voice recognition processing>
As described above, the
図示の例では、この音量レベルLがノイズレベルL0から上昇するのは時刻Tsであるが、閾値音量レベルL1を超えるのは時刻Tpである。従って検知部9は、この音量レベルLが上昇し始めてから実際にトリガーTGを出力するまでに時間差Twが生じている。上述した音声認識部11は、検知部9からトリガーTGを受け取った場合、まず検知時刻Tpを管理しておくとともに次のように動作する。
In the illustrated example, the volume level L increases from the noise level L0 at time Ts, but exceeds the threshold volume level L1 at time Tp. Accordingly, the
さらに音声認識部11は、上書きメモリ7に記録済の音データ4のうち検知部9による検知時刻TpよりもTw1を含む所定時間Tw0前以降、つまり時刻Ts以降に記録された特定部分の音データ4から音声部分を判定し、その音声部分について音声認識を行っている。この時間Tw0は、例えばTw1を含むのに十分な時間に予め設定しておくようにする。なおTw1はその都度変動する時間であるが、理想的な仕組みを採用した場合においては正確に判定することができる。
Further, the
<音声認識処理の終了>
一方、音声認識部11は、このように上昇していた音データ4の音量レベルLがノイズレベルL0にまで下がり所定時間Tw2が経過すると、この音声認識処理を停止する。
<End of voice recognition processing>
On the other hand, the
図4〜図10は、上述した音声認識処理における音データ4の処理の流れを示すイメージ図である。なおこれら図4〜図10においては、それぞれ上書きメモリ7内の音データ4が時刻軸tに沿って左から右に進むにつれて古く保存したデータとなるものとする。つまり図示した上書きメモリ7内の音データ4は、左側の部分が新しく記録されたデータであることを表している。なおこれら図4などにおいてはデジタイズ部5の図示を省略している。
4-10 is an image figure which shows the flow of a process of the
まず図4に示すように音データ4は時間の経過とともに上書きメモリ7に徐々に蓄積され、図5に示すように音声認識部11は、検知部9からトリガーTGを受け取ったことを契機としてこの時点までに上書きメモリ7に記憶済の音データ4を取得する。この時点は上述した検知時刻Tpを表している。
First, as shown in FIG. 4, the
音声認識部11は、この取得した音データ4に基づいて音声認識処理を実行するが、その間でも、図6に示すように上書きメモリ7には、徐々に音データ4が上書き記録されていく。
The
音声認識部11は、図7に示すように取得した音データ4に関する音声認識処理が終了すると、上書きメモリ7には経過時間に応じてさらに多くの音データ4が上書き記録されている。
When the
検知部9は、図8に示すように音データ4の音量レベルLが閾値音量レベルL1を超えた時刻にてトリガーTGを音声認識部11に対して出力する。この時刻は上述した検知時刻Tpに相当する。すると、上書きメモリ7は、まだ記憶容量に余裕があってもその検知時刻Tpまでに記憶済の音データ4が図9に示すように音声認識部11に引き渡される。
As shown in FIG. 8, the
ここで音声認識部11に引き渡された音データ4は、上述した音声部分開始時刻Tsから検知時刻Tpまでの音データ4の一部を表す音データ4a及びその前の余白のみを含んでいる。その後も新たな音データ4の記録が進んでおり、図10に示すように上書きメモリ7には、その新たな音データ4が上書き記録されている。この音データ4は、例えば短い所定時間単位で小刻みに音声認識部11に引き渡される。従ってこの音声認識部11には、上述した音データ4a及び余白に加えてさらに、音データ4b及び音データ4が蓄積される。この音データ4bは、検出時刻Tpから音声部分終了時刻Teまでの音データ4の一部を表しており、音データ4cは、音声部分終了時刻Teから終了判断時刻Txまでの音データ4の一部を表している。本実施形態では、このような音データ4cが引き渡されるまでこのような音データ4の引き渡し処理を続けている。このように引き渡すタイミングは、音データ4が上書きメモリ7に全部蓄積されてからでも良いし、音声認識処理を早く実行するために、連続的に引き渡すようにしても良い。なおこの音声部分は、例えばユーザの音声によるコマンドを表している。この音声認識部11は、これら音データ4a〜4cのうち時刻Tsから時刻Teまでに該当する音声部分の音データ4a,4bを音声認識の対象部分とし、上述のような音声認識処理を行う。
Here, the
上記実施形態における電子機器100は、採取された音に基づく音データ4が継続的に上書き記録される上書き記録手段7(上書きメモリに相当)と、前記音データ4の音量レベルLが閾値音量レベルL1を超えたことを検知する検知手段9(検知部に相当)と、前記検知手段9によって前記音データ4の音量レベルLが前記閾値音量レベルL1を超えたことが検知された場合、前記上書き記録手段7に記録済の音データ4のうち前記検知手段9による検知時刻Tsよりも所定時間Tw1前に遡って記録済の音データ4から音声部分を識別し、前記音声部分について音声認識を行う音声認識手段11(音声認識部に相当)と、前記音声認識手段11によって識別された前記音声部分が表す制御内容に基づいて動作を制御する制御手段10(制御部に相当)と、を有することを特徴とする。
The
このようにすると、音声認識手段11は、音声認識の対象とすべき音声部分の先頭が欠けないようにするために、検知手段9による検知時刻Tsから所定時間Tw1前に遡って記録済の音データ4を利用していることから、音データ4自体の入力タイミングを遅延させる必要がない。
In this way, the
このため音声認識手段11は、対象とすべき音声部分の先頭が欠けることなく音声認識を行うべきタイミングにおいてほぼリアルタイムに、この音声部分についての音声認識を行うことができる。従って制御手段10は、この音声認識によって把握された制御内容に基づいてリアルタイムで電子機器100の動作を制御することができ、この電子機器100は、上記音声部分の制御内容に対して機敏に反応して動作することができる。
For this reason, the
しかもこの電子機器100では、音声認識部11が恒常的に動作している必要がなく必要に応じて動作を開始したり停止すればよいため、恒常的に音声認識処理を実行させている場合に比べてリソースの負担を軽減することができる。
Moreover, in this
上記実施形態における電子機器100の制御方法は、採取された音に基づく音データ4を上書き記録手段7に継続的に上書き記録している状態で、前記音データ4の音量レベルLが閾値音量レベルL0を超えたことを検知する検知ステップと、前記検知ステップにて前記音データ4の音量レベルLが前記閾値音量レベルL0を超えたことが検知された場合、前記上書き記録手段7に記録済の音データのうち前記検知ステップでの検知時刻Tpよりも所定時間Tw1前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、前記音声認識ステップにて識別された前記音声部分が表す制御内容に基づいて動作を制御する制御ステップと、を有することを特徴とする。
In the control method of the
このようにすると、音声認識ステップでは、音声認識の対象とすべき音声部分の先頭が欠けないようにするために、検知ステップでの検知時刻Tsから所定時間Tw1前に遡って記録済の音データ4を利用していることから、音データ4自体の入力タイミングを遅延させる必要がない。
In this way, in the voice recognition step, the recorded sound data is traced back to the predetermined time Tw1 from the detection time Ts in the detection step so that the head of the voice part to be subjected to voice recognition is not lost. 4 is used, it is not necessary to delay the input timing of the
このため音声認識ステップでは、対象とすべき音声部分の先頭が欠けることなく音声認識を行うべきタイミングにおいてほぼリアルタイムに、この音声部分についての音声認識を行うことができる。従って制御ステップでは、この音声認識によって把握された制御内容に基づいてリアルタイムで電子機器100の動作を制御することができ、この電子機器100は、上記音声部分の制御内容に対して俊敏に反応して動作することができる。
For this reason, in the speech recognition step, speech recognition can be performed for this speech portion almost in real time at the timing at which speech recognition should be performed without missing the beginning of the speech portion to be processed. Therefore, in the control step, the operation of the
しかもこの電子機器100では、音声認識を恒常的に動作させている必要がなく必要に応じて動作を開始したり停止すればよいため、恒常的に音声認識処理を実行させている場合に比べてリソースの負担を軽減することができる。
Moreover, in this
上記実施形態における電子機器100は、上述した構成に加えてさらに、前記音データの音量レベルは、前記音データの特定周波数帯域の音量レベルである。
In the
上記実施形態における電子機器100は、上述した構成に加えてさらに、前記制御手段11は、前記制御内容に従って前記音声部分を発したユーザに対して反応するよう動作を制御することを特徴とする。
In addition to the above-described configuration, the
このようにすると、電子機器100は、この音声認識によって把握された制御内容に基づいてリアルタイムで動作することができ、上記音声部分の制御内容に対して俊敏に反応して動作することができる。このため電子機器は、ユーザに違和感を与えることなく機敏に反応して動作することができる。
In this way, the
上記実施形態における電子機器100は、上述した構成に加えてさらに、前記検知手段9(検知部に相当)は、採取された音に含まれるノイズレベルL0を考慮した上で、前記音データ4の音量レベルLが閾値音量レベルL1となったか否かを検知することを特徴とする。
In addition to the above-described configuration, the
このようにすると、検知手段9は採取された音に音声部分が含まれていることを正確に検知することができる。 If it does in this way, the detection means 9 can detect correctly that the audio | voice part is contained in the extract | collected sound.
上記実施形態における電子機器100は、上述した構成に加えてさらに、周囲の環境から音を採取して前記音に基づく音データを出力する音採取手段3(マイクロフォンに相当)を有することを特徴とする。
In addition to the above-described configuration, the
このようにすると、音採取手段3を好適な方向に向ければ、音声認識部11は音声が含まれる様々な音から音声部分を区別して音声認識を行うことができる。
In this way, if the sound sampling means 3 is directed in a suitable direction, the
上記実施形態における音声認識装置1は、採取された音に基づく音データ4が継続的に上書き記録される上書き記録手段7と、前記音データ4の音量レベルLが閾値音量レベルL1を超えたことを検知する検知手段9と、前記検知手段9によって前記音データ4の音量レベルLが前記閾値音量レベルL1を超えたことが検知された場合、前記上書き記録手段7に記録済の音データ4のうち前記検知手段9による検知時刻Tpよりも所定時間Tw1前に遡って記録済の音データ4から音声部分を識別し、前記音声部分について音声認識を行う音声認識手段11と、を有することを特徴とする。
The
このようにすると、音声認識手段11は、音声認識の対象とすべき音声部分の先頭が欠けないようにするために、検知手段9による検知時刻Tsから所定時間Tw1前に遡って記録済の音データ4を利用していることから、音データ4自体の入力タイミングを遅延させる必要がない。
In this way, the
このため音声認識手段11は、対象とすべき音声部分の先頭が欠けることなく音声認識を行うべきタイミングにおいてほぼリアルタイムに、この音声部分についての音声認識を行うことができる。また音声認識部11は、恒常的に動作している必要がなく必要に応じて動作を開始したり停止すればよいため、恒常的に音声認識処理を実行させている場合に比べてリソースの負担を軽減することができる。
For this reason, the
上記実施形態における音声認識方法は、採取された音に基づく音データ4を上書き記録手段7に継続的に上書き記録している状態で、前記音データ4の音量レベルLが閾値音量レベルL1を超えたことを検知する検知ステップと、前記検知ステップにて前記音データ4の音量レベルLが前記閾値音量レベルL1を超えたことが検知された場合、前記上書き記録手段7に記録済の音データ4のうち前記検知ステップでの検知時刻Tpよりも所定時間Tw1前に遡って記録済みの音データ4から音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、を有することを特徴とする。
In the speech recognition method in the above embodiment, the sound volume level L of the
上記実施形態における音声認識プログラムは、採取された音に基づく音データ4を上書き記録手段7に継続的に上書き記録している状態で、前記音データ4の音量レベルLが閾値音量レベルL0を超えたことを検知する検知ステップと、前記検知ステップにて前記音データ4の音量レベルLが前記閾値音量レベルL0を超えたことが検知された場合、前記上書き記録手段7に記録済の音データ4のうち前記検知ステップでの検知時刻Tpよりも所定時間Tw1前に遡って記録済みの音データ4から音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、前記音声認識ステップにて識別された前記音声部分が表す制御内容に基づいて動作を制御する制御ステップと、を電子機器100にて実行させていることを特徴とする。
In the voice recognition program in the above embodiment, the sound volume level L of the
これらのようにすると、音声認識ステップでは、音声認識の対象とすべき音声部分の先頭が欠けないようにするために、検知ステップでの検知時刻Tsから所定時間Tw1前に遡って記録済の音データ4を利用していることから、音データ4自体の入力タイミングを遅延させる必要がない。
In this manner, in the voice recognition step, the recorded sound is traced back to the predetermined time Tw1 from the detection time Ts in the detection step so that the head of the voice part to be subjected to voice recognition is not lost. Since the
このため音声認識ステップでは、対象とすべき音声部分の先頭が欠けることなく音声認識を行うべきタイミングにおいてほぼリアルタイムに、この音声部分についての音声認識を行うことができる。また音声認識ステップは、恒常的に動作している必要がなく必要に応じて動作を開始したり停止すればよいため、恒常的に音声認識処理を実行させている場合に比べてリソースの負担を軽減することができる。 For this reason, in the speech recognition step, speech recognition can be performed for this speech portion almost in real time at the timing at which speech recognition should be performed without missing the beginning of the speech portion to be processed. In addition, since the voice recognition step does not need to be constantly operating and can be started or stopped as necessary, it is less resource intensive than when the voice recognition process is constantly executed. Can be reduced.
<第2実施形態>
図11は、第2実施形態における電子機器100aの構成例を示すブロック図である。
第2実施形態における電子機器100aは、第1実施形態における電子機器100とほぼ同様の構成でありほぼ同様の動作を行う。このため第2実施形態では、同一の構成及び動作については第1実施形態における図1乃至図10と同一の符号を用いるとともに、その説明を省略し、以下の説明では異なる点を中心として説明する。
Second Embodiment
FIG. 11 is a block diagram illustrating a configuration example of the
The
第2実施形態では、デジタイズ部5と音声認識部11が接続されている点が異なっている。具体的には、音声認識部11は、上述した音声部分に関する音声認識の進行に応じて、上書きメモリ7を経由せずに音データ4を直接デジタイズ部5から取得している。
The second embodiment is different in that the digitizing
第1実施形態では、音声認識部11は、検知部9による検知時刻Tpから所定時間Tw1前に遡った音データ4から音声部分を取得しており、この遡った分の所定時間Tw1分だけごく僅かにリアルタイム処理とはならない。
In the first embodiment, the
音声認識部11による音声認識処理の方が新たな音データ4の上書きメモリ7への記録よりも速いことから、音声認識部11は、このように遡った音データ4の音声部分に関して音声認識を行い、このごく僅かな遅れを取り戻すことができる。
Since the voice recognition process by the
そこで第2実施形態では、音声認識部11が、この音声部分に関する音声認識の進行に応じて、例えばこのような遅れを取り戻した後は、上書きメモリ7から音データ4を取得する代わりに、直接デジタイズ部5から音データ4を取得している。すると、音声認識部11は、上書きメモリ7に音データ4を記録する書き込み時間を省き、さらに早い段階で音データ4を取得して音声認識処理を実行することができる。
Therefore, in the second embodiment, the
上記実施形態における電子機器100は、上述した構成に加えてさらに、前記音声認識手段11(音声認識部に相当)は、前記音声部分に関する音声認識の進行に応じて、前記上書き記録手段7を経由せずに前記音データ4を直接取得することを特徴とする。
In addition to the above-described configuration, the
このようにすると、音声認識手段11は、上書き記録手段7を経由しないで音データ4を取得することから、例えば音声認識処理に余裕がある場合には早めに音データ4を取得し、第1実施形態よりも早く音声認識処理を完了することができる。
In this way, since the
なお、本実施形態は、上記に限られず、種々の変形が可能である。以下、そのような変形例を順を追って説明する。
上述した実施形態では、音声認識装置1の機能について検知部9及び音声認識部11の機能については、上述した音声認識プログラムを用いてソフトウェアにより構成しても良いし、回路などを用いてハードウェアにより構成しても良い。なおデジタイズ部5についても、音声認識プログラムの一部としてソフトウェアにより構成しても良い。
In addition, this embodiment is not restricted above, A various deformation | transformation is possible. Hereinafter, such modifications will be described in order.
In the embodiment described above, the functions of the
上述した実施形態では、検知部9が音データ4の音量レベルLに基づいてトリガーTGを出力しているが、これに限られず、その代わりに、例えば発話するユーザのジェスチャを画像認識により検知してトリガーTGを出力するようにしても良い。
In the embodiment described above, the
上述した実施形態では、マイクロフォン3が運転者又は搭乗者の居る座席方向を向いており、音声認識部11がそのようなマイクロフォン3で取得した音データ4に基づいて、例えば音声の周波数帯に限定して音声の有無を判断するようにしても良い。
In the above-described embodiment, the
上記実施形態では、検知部9が検知すべき特定周波数は、例えば一般的な実験データ又は統計データから取得しても良い。取得場所としては、例えば図示しない所定の端末内のメモリでも良いし、図示しないネットワーク上のサーバでも良い。またこの特定周波数は、そのロボット100などの機器又は車両のオーナーの声の計測データから取得しても良い。
In the above embodiment, the specific frequency to be detected by the
この計測データは、予めオーナーが登録しても良いし、例えば仮に音声認識装置1がオーナーの声を識別する機能を備える場合、オーナーの過去の発話音がどの周波数帯に分布したのかのデータを取得し、その累積データを用いて周波数帯を決定しても良い。
The measurement data may be registered in advance by the owner. For example, if the
この決定は、一度でも分布したことのある周波全て含んでも良いし、累積データから統計的に意味のあるデータのみを抜き出して決定しても良い。またこの決定は、過去に、この車内で発話された発話音がどの周波数帯に分布したのかに関する累積データを取得し、その累積データを用いて決定しても良い。 This determination may include all frequencies that have been distributed even once, or may be determined by extracting only statistically meaningful data from the accumulated data. In addition, this determination may be performed by acquiring accumulated data relating to which frequency band the uttered sound uttered in the vehicle has been distributed in the past and using the accumulated data.
また、この決定は、乗車している運転者、前席の搭乗者又は全搭乗者の性別や年齢を取得し、性別や年齢に特有の周波数帯データを基に決定するようにしても良い。この決定にあたっては、例えば男女が共に乗車していた場合には両者の周波数帯を合わせた周波数帯に決定したり、又は、様々な年齢の搭乗者がいた場合にも同様に両者の周波数帯を合わせた周波数帯に決定するようにしても良い。 Further, this determination may be made based on the frequency band data specific to the gender and age by acquiring the gender and age of the driver, the front seat passenger, or all the passengers. In this determination, for example, when both men and women are on board, the frequency band is determined by combining both frequency bands, or when there are passengers of various ages, the frequency bands of both are similarly set. You may make it determine to the combined frequency band.
また、上記決定にあたっては、現在登場している搭乗者の発話する発話音がどの周波数帯に分布したのかに関するデータを取得し、その累積データを用いて周波数帯を決定しても良い。例えば当日車両に登場して最初の発話の認識に際しては、前回乗車時などの過去のデータから周波数帯を決定し、今回乗車の発話データが累積されることによって逐次見直していっても良い。 Further, in the above determination, data regarding to which frequency band the utterance sound uttered by the currently appearing passenger is distributed may be acquired, and the frequency band may be determined using the accumulated data. For example, when recognizing the first utterance appearing on the vehicle of the day, the frequency band may be determined from past data such as the previous boarding time, and the utterance data of the current boarding may be accumulated to be reviewed sequentially.
また、上記実施形態では、検知部9が定常的なノイズレベルL0を取得しているが、次のような手法を用いても良い。すなわち検知部9は、例えば一般的な実験データ又は統計データからノイズレベルL0を取得しても良いし、過去にこの車両内の騒音レベルを計測し蓄積しておいたデータを取得しても良い。また検知部9は、例えば今回乗車した車両内の騒音レベルを計測してノイズレベルL0を決定しても良い。
Moreover, in the said embodiment, although the
さらに検知部9は、搭乗中に継続的にノイズレベルL0を計測しておき、リアルタイムにノイズレベルL0を見直しても良い。つまり検知部9は、例えば直前の騒音レベルを基にして常にノイズレベルL0が適正であるか否かを判定するようにしても良い。また検知部9は、採取した音から音声部分を除いてノイズレベルL0を用いても良い。また検知部9は、例えばオーディオ再生時とそうでないときのノイズレベルを分けて取得し、現在オーディオ再生時か否かを判定してどちらのノイズレベルを使用するかどうかを決定しても良い。また検知部9は、特定周波数の音量レベルLをモニタリングし、特定したノイズレベルL0を超える音量レベルLの音が入力された否かを判定するようにしても良い。
Furthermore, the
また上記実施形態においては、音声認識部11は、音声認識処理を終了すべきであるか否かに関して、例えば音データ4のうち音声の入力が時間Tw2に渡りなかった場合に音声認識処理を終了すべきであると判断しているが、これに限られず、次のような判断を行っても良い。
Moreover, in the said embodiment, the
すなわち音声認識部11は、音声認識処理を起動した結果、例えば音声又は、文章や単語に該当する音声部分があった場合に音声認識処理を実行し、これら音声又は、文章や単語に該当する音声部分の終端を検知したら音声認識処理を終了することにしても良い。また。音声認識部11は、音声認識処理を起動した結果、例えば音声又は、文章や単語に該当する音声部分があった場合に音声認識処理を実行し、これら文章や単語の終端を検知した以降所定時間経過して次の音声又は、文章や単語に該当する次の音声部分と判定される音声が検知されなければ終了することにしても良い。
That is, the
3 マイクロフォン(音採取手段に相当)
4 音データ
7 上書きメモリ(上書き記録手段に相当)
11 音声認識部(音声認識手段に相当)
13 制御部(制御手段に相当)
100 電子機器
L0 ノイズレベル
Ts 検知時刻
Tw1 所定時間
3 Microphone (equivalent to sound collection means)
4
11 Voice recognition unit (equivalent to voice recognition means)
13 Control unit (equivalent to control means)
100 Electronic device L0 Noise level Ts Detection time Tw1 Predetermined time
Claims (10)
前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知手段と、
前記検知手段によって前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知手段による検知時刻よりも所定時間前に遡って記録済の音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識手段と、
前記音声認識手段によって識別された前記音声部分が表す制御内容に基づいて動作を制御する制御手段と、
を有することを特徴とする電子機器。 Overwrite recording means for continuously overwriting and recording sound data based on the collected sound;
Detecting means for detecting that the volume level of the sound data exceeds a threshold volume level;
When the detection means detects that the volume level of the sound data exceeds the threshold volume level, the sound data recorded in the overwrite recording means goes back a predetermined time before the detection time by the detection means. A voice recognition means for identifying a voice part from the recorded sound data and performing voice recognition on the voice part;
Control means for controlling the operation based on the control content represented by the voice portion identified by the voice recognition means;
An electronic device comprising:
前記音データの音量レベルは、前記音データの特定周波数帯域の音量レベルであることを特徴とする電子機器。 The electronic device according to claim 1,
The volume level of the sound data is a volume level of a specific frequency band of the sound data.
前記制御手段は、
前記制御内容に従って前記音声部分を発したユーザに対して反応するよう動作を制御することを特徴とする電子機器。 The electronic device according to claim 1 or 2,
The control means includes
An electronic apparatus that controls an operation so as to react to a user who has emitted the voice portion according to the control content.
前記検知手段は、採取された音に含まれるノイズレベルを考慮した上で、前記音データの音量レベルが閾値音量レベルとなったか否かを検知することを特徴とする電子機器。 The electronic device according to any one of claims 1 to 3,
The electronic device is characterized by detecting whether or not the volume level of the sound data has reached a threshold volume level in consideration of a noise level included in the collected sound.
周囲の環境から音を採取して前記音に基づく音データを出力する音採取手段を有することを特徴とする電子機器。 The electronic device according to any one of claims 1 to 4,
An electronic apparatus comprising sound collection means for collecting sound from a surrounding environment and outputting sound data based on the sound.
前記音声認識手段は、
前記音声部分に関する音声認識の進行に応じて、前記上書き記録手段を経由せずに前記音データを直接取得することを特徴とする電子機器。 The electronic device according to any one of claims 1 to 5,
The voice recognition means
An electronic apparatus characterized in that the sound data is directly acquired without going through the overwrite recording means in accordance with the progress of voice recognition relating to the voice portion.
前記検知ステップにて前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知ステップでの検知時刻よりも所定時間前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、
前記音声認識ステップにて識別された前記音声部分が表す制御内容に基づいて動作を制御する制御ステップと、
を有することを特徴とする電子機器の制御方法。 A detection step of detecting that the volume level of the sound data exceeds a threshold volume level in a state where the sound data based on the collected sound is continuously overwritten and recorded in the overwrite recording means;
When it is detected in the detection step that the volume level of the sound data exceeds the threshold volume level, a predetermined time before the detection time in the detection step of the sound data recorded in the overwrite recording means A voice recognition step of identifying a voice part from recorded sound data retroactively and performing voice recognition on the voice part;
A control step for controlling the operation based on the control content represented by the voice portion identified in the voice recognition step;
A method for controlling an electronic device, comprising:
前記音データの音量レベルが閾値音量レベルを超えたことを検知する検知手段と、
前記検知手段によって前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知手段による検知時刻よりも所定時間前に遡って記録済の音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識手段と、
を有することを特徴とする音声認識装置。 Overwrite recording means for continuously overwriting and recording sound data based on the collected sound;
Detecting means for detecting that the volume level of the sound data exceeds a threshold volume level;
When the detection means detects that the volume level of the sound data exceeds the threshold volume level, the sound data recorded in the overwrite recording means goes back a predetermined time before the detection time by the detection means. A voice recognition means for identifying a voice part from the recorded sound data and performing voice recognition on the voice part;
A speech recognition apparatus comprising:
前記検知ステップにて前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知ステップでの検知時刻よりも所定時間前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、
を有することを特徴とする音声認識方法。 A detection step of detecting that the volume level of the sound data exceeds a threshold volume level in a state where the sound data based on the collected sound is continuously overwritten and recorded in the overwrite recording means;
When it is detected in the detection step that the volume level of the sound data exceeds the threshold volume level, a predetermined time before the detection time in the detection step of the sound data recorded in the overwrite recording means A voice recognition step of identifying a voice part from recorded sound data retroactively and performing voice recognition on the voice part;
A speech recognition method comprising:
前記検知ステップにて前記音データの音量レベルが前記閾値音量レベルを超えたことが検知された場合、前記上書き記録手段に記録済の音データのうち前記検知ステップでの検知時刻よりも所定時間前に遡って記録済みの音データから音声部分を識別し、前記音声部分について音声認識を行う音声認識ステップと、
をコンピュータにて実行させることを特徴とする音声認識プログラム。 A detection step of detecting that the volume level of the sound data exceeds a threshold volume level in a state where the sound data based on the collected sound is continuously overwritten and recorded in the overwrite recording means;
When it is detected in the detection step that the volume level of the sound data exceeds the threshold volume level, a predetermined time before the detection time in the detection step of the sound data recorded in the overwrite recording means A voice recognition step of identifying a voice part from recorded sound data retroactively and performing voice recognition on the voice part;
Is executed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299309A JP2009122598A (en) | 2007-11-19 | 2007-11-19 | Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299309A JP2009122598A (en) | 2007-11-19 | 2007-11-19 | Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009122598A true JP2009122598A (en) | 2009-06-04 |
Family
ID=40814773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007299309A Pending JP2009122598A (en) | 2007-11-19 | 2007-11-19 | Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009122598A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015524934A (en) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | Robot capable of incorporating natural dialogue with a user into the behavior of the robot, and method for programming and using the robot |
JP2017097206A (en) * | 2015-11-26 | 2017-06-01 | マツダ株式会社 | Vehicle-purposed voice recognition device |
WO2018019181A1 (en) * | 2016-07-29 | 2018-02-01 | 腾讯科技(深圳)有限公司 | Method and device for determining delay of audio |
CN107833578A (en) * | 2016-09-15 | 2018-03-23 | 东芝泰格有限公司 | Voice recognition device, sound identification method and computer-readable recording medium |
JP2018185401A (en) * | 2017-04-25 | 2018-11-22 | トヨタ自動車株式会社 | Voice interactive system and voice interactive method |
WO2020187050A1 (en) * | 2019-03-15 | 2020-09-24 | 海信视像科技股份有限公司 | Display device |
WO2023062817A1 (en) * | 2021-10-15 | 2023-04-20 | パイオニア株式会社 | Voice recognition device, control method, program, and storage medium |
JP7473325B2 (en) | 2019-11-12 | 2024-04-23 | 株式会社シーイーシー | Audio information generating device, audio information generating method, and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
JPH07253237A (en) * | 1994-03-16 | 1995-10-03 | Sanyo Electric Co Ltd | Air conditioner |
JPH0950288A (en) * | 1995-08-10 | 1997-02-18 | Ricoh Co Ltd | Device and method for recognizing voice |
JP2000029486A (en) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | Speech recognition system and method therefor |
JP2001056696A (en) * | 1999-08-18 | 2001-02-27 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for voice storage and reproduction |
JP2007121579A (en) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | Operation device |
-
2007
- 2007-11-19 JP JP2007299309A patent/JP2009122598A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56135898A (en) * | 1980-03-26 | 1981-10-23 | Sanyo Electric Co | Voice recognition device |
JPH07253237A (en) * | 1994-03-16 | 1995-10-03 | Sanyo Electric Co Ltd | Air conditioner |
JPH0950288A (en) * | 1995-08-10 | 1997-02-18 | Ricoh Co Ltd | Device and method for recognizing voice |
JP2000029486A (en) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | Speech recognition system and method therefor |
JP2001056696A (en) * | 1999-08-18 | 2001-02-27 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for voice storage and reproduction |
JP2007121579A (en) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | Operation device |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10052769B2 (en) | 2012-04-04 | 2018-08-21 | Softbank Robotics Europe | Robot capable of incorporating natural dialogues with a user into the behaviour of same, and methods of programming and using said robot |
JP2015524934A (en) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | Robot capable of incorporating natural dialogue with a user into the behavior of the robot, and method for programming and using the robot |
JP2017097206A (en) * | 2015-11-26 | 2017-06-01 | マツダ株式会社 | Vehicle-purposed voice recognition device |
WO2018019181A1 (en) * | 2016-07-29 | 2018-02-01 | 腾讯科技(深圳)有限公司 | Method and device for determining delay of audio |
CN107666638A (en) * | 2016-07-29 | 2018-02-06 | 腾讯科技(深圳)有限公司 | A kind of method and terminal device for estimating tape-delayed |
US10599387B2 (en) | 2016-07-29 | 2020-03-24 | Tencent Technology (Shenzhen) Company Limited | Method and device for determining delay of audio |
CN107833578B (en) * | 2016-09-15 | 2021-11-23 | 东芝泰格有限公司 | Voice recognition device, voice recognition method, and computer-readable storage medium |
CN107833578A (en) * | 2016-09-15 | 2018-03-23 | 东芝泰格有限公司 | Voice recognition device, sound identification method and computer-readable recording medium |
US10600422B2 (en) | 2016-09-15 | 2020-03-24 | Toshiba Tec Kabushiki Kaisha | Voice recognition device configured to start voice recognition in response to user instruction |
US11468902B2 (en) | 2016-09-15 | 2022-10-11 | Toshiba Tec Kabushiki Kaisha | Voice recognition device and voice recognition method |
JP2018185401A (en) * | 2017-04-25 | 2018-11-22 | トヨタ自動車株式会社 | Voice interactive system and voice interactive method |
WO2020187050A1 (en) * | 2019-03-15 | 2020-09-24 | 海信视像科技股份有限公司 | Display device |
JP7473325B2 (en) | 2019-11-12 | 2024-04-23 | 株式会社シーイーシー | Audio information generating device, audio information generating method, and program |
WO2023062817A1 (en) * | 2021-10-15 | 2023-04-20 | パイオニア株式会社 | Voice recognition device, control method, program, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009122598A (en) | Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program | |
JP4557919B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP3676969B2 (en) | Emotion detection method, emotion detection apparatus, and recording medium | |
EP2261893B1 (en) | Audio playback for text edition in a speech recognition system | |
CN109964270B (en) | System and method for key phrase identification | |
US11164584B2 (en) | System and method for uninterrupted application awakening and speech recognition | |
US8521525B2 (en) | Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data | |
WO2008069187A1 (en) | Presentation support device, method, and program | |
CN111475206B (en) | Method and apparatus for waking up wearable device | |
US6876964B1 (en) | Apparatus for detecting fatigue and doze by voice, and recording medium | |
JP2008256802A (en) | Voice recognition device and voice recognition method | |
JP6897677B2 (en) | Information processing device and information processing method | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
KR20100032140A (en) | Method of interactive voice recognition and apparatus for interactive voice recognition | |
CN110689887A (en) | Audio verification method and device, storage medium and electronic equipment | |
US10930283B2 (en) | Sound recognition device and sound recognition method applied therein | |
JP2009025579A (en) | Voice recognition device and method | |
JP6748565B2 (en) | Voice dialogue system and voice dialogue method | |
JP2004317822A (en) | Feeling analysis/display device | |
JP2004272048A (en) | Driver's condition discriminating device, and program for the driver's condition discriminating device | |
CN113348502A (en) | Voice recognition method, voice recognition device, storage medium and electronic equipment | |
JP2009175178A (en) | Speech recognition device, program and utterance signal extraction method | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP7394192B2 (en) | Audio processing device, audio processing method, and program | |
JP3360978B2 (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120919 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130315 |