JP2009109523A - Voice recognition system and voice recognizer - Google Patents
Voice recognition system and voice recognizer Download PDFInfo
- Publication number
- JP2009109523A JP2009109523A JP2007278312A JP2007278312A JP2009109523A JP 2009109523 A JP2009109523 A JP 2009109523A JP 2007278312 A JP2007278312 A JP 2007278312A JP 2007278312 A JP2007278312 A JP 2007278312A JP 2009109523 A JP2009109523 A JP 2009109523A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- mode
- command signal
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識システム及び音声認識装置に関する。 The present invention relates to a voice recognition system and a voice recognition device.
近年、ユーザからの発話音声を入力し、入力した発話音声に基づいて制御機器を制御する音声認識システムが知られている。このような音声認識システムは、予め標準パターン信号を記憶している。そして、音声認識システムは、入力した発話音声を音声信号に変換して標準パターン信号と照合し、両者の一致度が一定値以上であれば、標準パターンに基づく語彙(「照明オフ」など)の発話があったと判断する。これにより、音声認識システムは、標準パターンに基づく語彙の指示通りに、制御機器を制御することとなる。 2. Description of the Related Art In recent years, a speech recognition system has been known in which utterance speech from a user is input and a control device is controlled based on the input utterance speech. Such a speech recognition system stores a standard pattern signal in advance. Then, the voice recognition system converts the input utterance voice into a voice signal and collates it with a standard pattern signal. If the degree of coincidence between both is a certain value or more, a vocabulary based on the standard pattern (such as “illumination off”) Judge that there was an utterance. As a result, the speech recognition system controls the control device as instructed by the vocabulary based on the standard pattern.
また、このような音声認識システムには、ユーザの利便性を考慮して、ガイダンス音声を流して操作方法を説明するなど、補助的な処理を実行して利便性を向上させたものがある(例えば特許文献1参照)。
しかし、従来の音声認識システムでは、未だ利便性の面で向上の余地があるものであった。 However, the conventional speech recognition system still has room for improvement in terms of convenience.
本発明は、上記問題点を解決するために成されたものであり、その目的とするところは、より利便性を向上させることが可能な音声認識システム及び音声認識装置を提供することにある。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition system and a speech recognition apparatus that can further improve convenience.
本発明に係る音声認識システムは、ユーザからの発話音声を入力し、入力した発話音声に基づいて制御機器を制御するものであって、再生信号に基づいてコンテンツを再生する再生機器と、再生機器により出力された音声とユーザの発話による音声とを入力して、これらに基づく音声信号を出力する音声入力手段と、音声入力手段からの音声信号と、予め記憶された標準パターン信号との照合処理を行う認識照合処理手段と、認識照合処理手段による照合結果に基づいて制御機器を制御する制御手段と、処理方法を決定する複数の制御モードから1のモードを選択可能なモード選択手段と、モード選択手段により特定モードが選択されている場合に、再生機器から再生信号を入力し、入力した再生信号のうち、制御機器を制御するために予め再生信号内に含まれるコマンド信号を選択して出力する第1信号処理手段と、モード選択手段により特定モードが選択されている場合に、音声入力手段からの音声信号と第1信号処理手段からのコマンド信号とを入力し、これら信号のうちコマンド信号のみを認識照合処理手段に出力する第2信号処理手段と、を備え、認識照合処理手段は、モード選択手段により特定モードが選択されている場合、第2信号処理手段からのコマンド信号と標準パターンとの照合処理を行う。 A speech recognition system according to the present invention inputs speech speech from a user, controls a control device based on the input speech speech, and plays back content based on a playback signal, and playback device The voice input means for inputting the voice output by the user and the voice by the user's utterance and outputting the voice signal based on the voice, the voice signal from the voice input means, and the collation processing of the standard pattern signal stored in advance Recognition control processing means for performing control, control means for controlling the control device based on the result of verification by the recognition verification processing means, mode selection means capable of selecting one mode from a plurality of control modes for determining the processing method, mode When a specific mode is selected by the selection means, a playback signal is input from the playback device, and, in order to control the control device among the input playback signals, in advance First signal processing means for selecting and outputting a command signal included in the raw signal, and when the specific mode is selected by the mode selection means, the voice signal from the voice input means and the first signal processing means Second signal processing means for inputting a command signal and outputting only the command signal of these signals to the recognition / collation processing means, and the recognition / collation processing means is selected when the specific mode is selected by the mode selection means The command signal from the second signal processing means is compared with the standard pattern.
この音声認識システムによれば、特定モードが選択されている場合、音声信号とコマンド信号とを入力し、これら信号のうちコマンド信号のみを認識照合処理手段に出力し、認識照合処理手段は、コマンド信号と標準パターン信号との照合処理を行う。このため、音声認識システムは、認識照合処理手段によりコマンド信号と標準パターン信号とが照合された場合、コマンド信号に基づいて制御機器を制御することとなる。すなわち、再生機器において再生されるコンテンツのデータ内にコマンド信号を組み込んでおけば、再生機器による再生に伴って制御機器を制御することができる。これにより、例えば擬似的に森林浴を楽しむための音楽データを記録したCDやDVD等を再生するだけで、森林浴環境に似た静かな音楽を流しながら照明装置を森林浴に似たやわらかな照明に変化させることができる。また、操作説明するためのCDやDVD等を再生してガイダンス音声を流しながら、実際に制御機器を制御してガイダンス音声による操作説明を一層わかりやすくすることができる。従って、より利便性を向上させることができる。 According to this speech recognition system, when a specific mode is selected, a speech signal and a command signal are input, and only the command signal among these signals is output to the recognition verification processing means. The recognition verification processing means The signal is compared with the standard pattern signal. For this reason, the speech recognition system controls the control device based on the command signal when the command signal and the standard pattern signal are verified by the recognition verification processing means. That is, if a command signal is incorporated in content data to be played back by a playback device, the control device can be controlled along with playback by the playback device. This makes it possible to change the lighting system to soft lighting similar to a forest bath while playing quiet music that resembles a forest bath environment simply by playing a CD or DVD that records music data for enjoying a forest bath in a simulated manner, for example. Can be made. In addition, it is possible to make the operation explanation by the guidance voice easier to understand by actually controlling the control device while playing the guidance voice by playing a CD or DVD for explaining the operation. Therefore, convenience can be further improved.
また、本発明に係る音声認識システムにおいて、第1信号処理手段は、モード選択手段により特定モード以外の制御モードが選択されている場合、再生機器からのコンテンツの再生信号からコマンド信号のみを選択して出力せず、当該再生信号を出力し、第2信号処理手段は、モード選択手段により特定モード以外の制御モードが選択されている場合、第1信号処理手段からの再生信号に基づいて、音声入力手段により入力された音声信号からエコー成分を除去することが好ましい。 In the speech recognition system according to the present invention, the first signal processing unit selects only the command signal from the playback signal of the content from the playback device when the control mode other than the specific mode is selected by the mode selection unit. And the second signal processing means outputs the reproduction signal based on the reproduction signal from the first signal processing means when a control mode other than the specific mode is selected by the mode selection means. It is preferable to remove the echo component from the audio signal input by the input means.
この音声認識システムによれば、第2信号処理手段はモード選択手段により特定モード以外の制御モードが選択されている場合、音声入力手段により入力された音声信号からエコー成分を除去する。このため、第2信号処理手段はエコーキャンセル機能を備えることとなり、特定モード以外の制御モードが選択され、ユーザが発話音声により制御機器を制御しようとする場合、発話音声の認識率を向上させることができる。 According to this voice recognition system, the second signal processing means removes an echo component from the voice signal input by the voice input means when a control mode other than the specific mode is selected by the mode selection means. For this reason, the second signal processing means has an echo cancellation function, and when a control mode other than the specific mode is selected and the user intends to control the control device by the uttered voice, the recognition rate of the uttered voice is improved. Can do.
また、本発明に係る音声認識システムにおいて、認識照合処理手段は、音声入力手段からの音声信号と照合処理を行うための第1標準パターン信号と、第1信号処理手段からのコマンド信号と照合処理を行うための第2標準パターン信号とを有することが好ましい。 In the speech recognition system according to the present invention, the recognition / collation processing means includes a speech signal from the speech input means and a first standard pattern signal for performing collation processing, and a command signal from the first signal processing means and collation processing. It is preferable to have a second standard pattern signal for performing.
この音声認識システムによれば、認識照合処理手段は、音声信号と照合処理を行うための第1標準パターン信号と、コマンド信号と照合処理を行うための第2標準パターン信号とを有するため、両者の標準パターン信号を共通とすることなく、それぞれの専用の標準パターン信号を用いることで、音声認識性能を向上させることができる。 According to this speech recognition system, the recognition / collation processing means includes the first standard pattern signal for performing collation processing with the speech signal, and the second standard pattern signal for performing collation processing with the command signal. The voice recognition performance can be improved by using each standard pattern signal without using the standard pattern signal in common.
また、本発明に係る音声認識システムにおいて、再生機器から出力されるコマンド信号に基づく音声の音量のみを調整可能な音量調整手段をさらに備え、音量調整手段は、モード選択手段により特定モードが選択されている場合、コマンド信号に基づく音声の出力を禁止することが好ましい。 The speech recognition system according to the present invention further includes volume adjusting means capable of adjusting only the sound volume based on the command signal output from the playback device, and the sound volume adjusting means selects the specific mode by the mode selecting means. In such a case, it is preferable to prohibit the output of sound based on the command signal.
この音声認識システムによれば、モード選択手段により特定モードが選択されている場合、コマンド信号に基づく音声の出力を禁止する。ここで、コマンド信号は再生信号の一部であるため、再生機器から音声出力されてしまう。このため、コマンド信号に基づく音声の出力を禁止することで、コマンド信号に基づく音声がユーザに認識されることによる不快感を抑制することができる。 According to this voice recognition system, when the specific mode is selected by the mode selection unit, the output of voice based on the command signal is prohibited. Here, since the command signal is a part of the reproduction signal, sound is output from the reproduction device. For this reason, the discomfort caused by the user recognizing the sound based on the command signal can be suppressed by prohibiting the output of the sound based on the command signal.
また、本発明に係る音声認識システムにおいて、再生機器は、映像を再生出力し、再生信号は、出力映像のシーンに対応してコマンド信号が含まれており、認識照合処理手段が第2信号処理手段からのコマンド信号と標準パターンとの照合処理を行うことにより、制御機器の制御内容が変更されることが好ましい。 In the voice recognition system according to the present invention, the playback device plays back and outputs video, the playback signal includes a command signal corresponding to the scene of the output video, and the recognition / collation processing means performs the second signal processing. It is preferable that the control content of the control device is changed by performing a collation process between the command signal from the means and the standard pattern.
この音声認識システムによれば、再生信号は、出力映像のシーンに対応してコマンド信号が含まれており、認識照合処理手段が第2信号処理手段からのコマンド信号と標準パターンとの照合処理を行うことにより、制御機器の制御内容が変更される。このため、映画のDVD等を再生している場合において、映画のシーン毎に照明の明るさを変更することなどが可能となり、映像出力の演出効果を高めることができる。 According to this voice recognition system, the reproduction signal includes a command signal corresponding to the scene of the output video, and the recognition / collation processing means performs the collation processing between the command signal from the second signal processing means and the standard pattern. As a result, the control content of the control device is changed. For this reason, when a movie DVD or the like is being reproduced, the brightness of the illumination can be changed for each scene of the movie, and the effect of producing the video output can be enhanced.
また、本発明に係る音声認識システムにおいて、再生機器は、5.1チャンネルにより音声出力し、0.1チャンネルがコマンド信号の再生チャンネルに割り当てられていることが好ましい。 In the voice recognition system according to the present invention, it is preferable that the playback device outputs voice by 5.1 channel, and 0.1 channel is assigned to the playback channel of the command signal.
この音声認識システムによれば、再生機器は、5.1チャンネルにより音声出力し、0.1チャンネルがコマンド信号の再生チャンネルに割り当てられているため、残りの5チャンネルを出力音声等に費やせ、コンテンツ自体の演出効果の減退を抑制することができる。 According to this voice recognition system, the playback device outputs the voice by 5.1 channel, and 0.1 channel is assigned to the playback channel of the command signal. Therefore, the remaining 5 channels can be used for the output voice, etc. It is possible to suppress a decrease in the effect of the content itself.
また、本発明に係る音声認識装置は、ユーザからの発話音声を入力し、入力した発話音声に基づいて制御機器を制御する制御信号を出力するものであって、再生信号に基づいてコンテンツを再生する再生機器により出力された音声とユーザの発話による音声とを入力して、これらに基づく音声信号を出力する音声入力手段と、音声入力手段からの音声信号と、予め記憶された標準パターン信号との照合処理を行う認識照合処理手段と、認識照合処理手段による照合結果に基づいて制御信号の出力制御を行う制御手段と、処理方法を決定する複数の制御モードから1のモードを選択可能なモード選択手段と、モード選択手段により特定モードが選択されている場合に、再生機器から再生信号を入力し、入力した再生信号のうち、制御機器を制御するために予め再生信号内に含まれるコマンド信号を選択して出力する第1信号処理手段と、音声入力手段からの音声信号と第1信号処理手段からのコマンド信号とを入力し、これら信号のうちコマンド信号のみを認識照合処理手段に出力する第2信号処理手段と、を備え、認識照合処理手段は、モード選択手段により特定モードが選択されている場合、第2信号処理手段からのコマンド信号と標準パターンとの照合処理を行う。 In addition, the speech recognition apparatus according to the present invention inputs speech speech from a user and outputs a control signal for controlling the control device based on the input speech speech, and reproduces content based on the playback signal. Voice input means for inputting the voice output by the playback device and the voice of the user's utterance and outputting a voice signal based on the voice, the voice signal from the voice input means, and the standard pattern signal stored in advance A mode in which one mode can be selected from a plurality of control modes for determining a processing method When a specific mode is selected by the selection means and the mode selection means, a playback signal is input from the playback device, and the control device is controlled from the input playback signal. Therefore, first signal processing means for selecting and outputting a command signal included in the reproduction signal in advance, a voice signal from the voice input means, and a command signal from the first signal processing means are input, A second signal processing unit that outputs only the command signal to the recognition / collation processing unit, and the recognition / collation processing unit receives the command signal from the second signal processing unit when the specific mode is selected by the mode selection unit. And the standard pattern.
この音声認識装置によれば、特定モードが選択されている場合、音声信号とコマンド信号とを入力し、これら信号のうちコマンド信号のみを認識照合処理手段に出力し、認識照合処理手段は、コマンド信号と標準パターン信号との照合処理を行う。このため、音声認識システムは、認識照合処理手段によりコマンド信号と標準パターン信号とが照合された場合、コマンド信号に基づいて制御機器を制御することとなる。すなわち、再生機器において再生されるコンテンツのデータ内にコマンド信号を組み込んでおけば、再生機器による再生に伴って制御機器を制御することができる。これにより、例えば擬似的に森林浴を楽しむための音楽データを記録したCDやDVD等を再生するだけで、森林浴環境に似た静かな音楽を流しながら照明装置を森林浴に似たやわらかな照明に変化させることができる。また、操作説明するためのCDやDVD等を再生してガイダンス音声を流しながら、実際に制御機器を制御してガイダンス音声による操作説明を一層わかりやすくすることができる。従って、より利便性を向上させることができる。 According to this speech recognition apparatus, when the specific mode is selected, the speech signal and the command signal are input, and only the command signal among these signals is output to the recognition verification processing unit. The signal is compared with the standard pattern signal. For this reason, the speech recognition system controls the control device based on the command signal when the command signal and the standard pattern signal are verified by the recognition verification processing means. That is, if a command signal is incorporated in content data to be played back by a playback device, the control device can be controlled along with playback by the playback device. This makes it possible to change the lighting system to soft lighting similar to a forest bath while playing quiet music that resembles a forest bath environment simply by playing a CD or DVD that records music data for enjoying a forest bath in a simulated manner, for example. Can be made. In addition, it is possible to make the operation explanation by the guidance voice easier to understand by actually controlling the control device while playing the guidance voice by playing a CD or DVD for explaining the operation. Therefore, convenience can be further improved.
本発明によれば、より利便性を向上させることが可能な音声認識システム及び音声認識装置を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the speech recognition system and speech recognition apparatus which can improve the convenience more can be provided.
以下、図面を参照して、本発明の実施の形態を説明する。図1は、本発明の実施形態に係る音声認識システムを示す構成図である。音声認識システム1は、ユーザからの発話音声を入力し、入力した発話音声に基づいて制御機器20を制御するものであって、音声認識装置10と、制御機器20とからなっている。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a configuration diagram showing a speech recognition system according to an embodiment of the present invention. The
音声認識装置10は、ユーザから音声及びスイッチ操作による入力を受け付け、受け付けた入力内容に応じて制御機器20を制御するための制御信号を出力するものである。この音声認識装置10は、音声により制御機器20を制御できる音声入力モードと、スイッチ操作により制御機器20を制御できるボタン操作入力モードとが選択可能となっている。音声入力モードにおいて、音声認識装置10は、ユーザからの発話音声を入力して、入力した発話音声が所定の標準パターンに該当すると認識した場合に、認識した標準パターンに応じて制御機器20を制御する制御信号を出力する。また、ボタン操作入力モードにおいて、音声認識装置10は、ユーザからのスイッチ操作を入力し、スイッチ操作に該当する内容で制御機器20を制御する制御信号を出力する。
The
制御機器20は、音声認識装置10からの制御信号の内容に応じて動作する外部機器である。具体的に制御機器20は、DVDプレーヤ21、テレビ22、浴室装置23、換気扇24及び照明装置25の5機器からなっており、音声認識装置10からの制御信号に応じて運転したり、運転を停止したりなどする。一例を挙げると、制御機器20の1つであるテレビ22は、音声認識装置10からの制御信号によって、電源がオンされたり、チャンネルが変えられたりする。なお、制御機器20のうちDVDプレーヤ21は、DVDからの再生信号に基づいてコンテンツを再生し、テレビ22から音声出力及び映像出力する。このため、DVDプレーヤ21とテレビ22とは、両者によって再生機器を構成することとなる。また、本実施形態においてテレビ22は2チャンネル音声出力を行う構成となっている。
The
図2は、図1に示した音声認識装置10の設置例を示す外観図である。図2に示すように、音声認識装置10は、例えば浴室に設けられる。浴室には、DVDプレーヤ21(図2において図示せず)、テレビ22、浴室装置23(図2において図示せず)、換気扇24及び照明装置25が設けられている。さらに、浴室の浴槽30付近には、音声認識装置10の構成要素である後述のコントローラ11が設置されている。
FIG. 2 is an external view showing an installation example of the
なお、図1及び図2では、DVDプレーヤ21、テレビ22、浴室装置23、換気扇24及び照明装置25を制御機器20の一例として挙げたが、これに限らず、制御機器20は、床暖房機器やパーソナルコンピュータなど他の機器であってもよい。また、音声認識装置10は浴室に設けられていなくともよく、寝室、リビング、会社のデスク付近及び会議室など、他の箇所に設けられていてもよい。
1 and 2, the
再度、図1を参照する。図1に示すように、音声認識装置10は、コントローラ11と、ミキサー部(第1信号処理手段)12、エコーキャンセル部(第2信号処理手段)13と、認識照合処理部(認識照合処理手段)14と、制御部(制御手段)15とを備えている。コントローラ11は、ユーザから音声及びスイッチ操作による入力を受け付けるものである。図3は、図1に示したコントローラ11の詳細を示す正面図である。図3に示すように、コントローラ11は、音声入力部(音声入力手段)11aと、操作ボタン(モード選択手段)11bと、表示部11cと、LEDランプ11dとを備えている。なお、LEDランプ11dは他の部分12〜15,20との接続関係がないため、図1におけるLEDランプ11dの図示は省略した。
Reference is again made to FIG. As shown in FIG. 1, the
図3に示す音声入力部11aは、マイク等によって構成されており、DVDプレーヤ21によって再生されテレビ22から出力された音声と、ユーザの発話による音声とを入力して、これらに基づく音声信号Saを出力するものである。操作ボタン11bは、ユーザによるスイッチ操作を受け付けるものである。表示部11cは、LCDなどによって構成され、各種制御機器20の動作状況等(例えばふろの温度や現在時刻など)を表示するものである。LEDランプ11dは、現在音声入力モードであるか、ボタン操作入力モードであるかをユーザに提示するものである。このLEDランプ11dは、3つのLEDによって構成され、例えば1つが点灯しているときには音声入力モードであり、他の1つが点灯しているときにはボタン操作入力モードであり、残り1つが点灯しているときには双方のモードの併用状態であることを示す構成となっている。
The
具体的に各種操作ボタン11bを説明する。各種操作ボタン11bは、優先ボタン11b1、追いだきボタン11b2、ふろ自動ボタン11b3、通話ボタン11b4、コントローラオンオフボタン11b5、メニューボタン11b6、確定ボタン11b7、戻るボタン11b8、及び十字キー11b9からなっている。
The
優先ボタン11b1は、浴室で給湯温度やシャワー温度を設定したいときに使用するボタンである。一般的に水や湯は、浴室以外にも台所等で用いられる。このため、浴室装置23の給湯温度やシャワー温度を設定しても他の箇所で水や湯を使用されると、実際の給湯温度やシャワー温度にズレが生じる可能性がある。そこで、優先ボタン11b1を押下することにより、他の箇所よりも浴室を優先し、実際の給湯温度やシャワー温度にズレが生じ難いようにすることができる。また、優先ボタン11b1が押下されると、表示部11cに優先マーク(不図示)が表示される。
The priority button 11b1 is a button used when it is desired to set a hot water supply temperature or a shower temperature in the bathroom. In general, water and hot water are used not only in the bathroom but also in the kitchen. For this reason, even if the hot water supply temperature and the shower temperature of the
追いだきボタン11b2は、浴槽30内で冷たくなった湯水の温度を高くするときに使用されるボタンである。また、追いだきボタン11b2が押下されると、表示部11cに追いだきマーク(不図示)が表示される。
The chasing button 11b2 is a button used when raising the temperature of hot water that has become cold in the
ふろ自動ボタン11b3は、設定した湯量と温度とで浴槽30内にお湯をはるときに使用されるボタンである。また、ふろ自動ボタン11b3が押下されると、表示部11cに自動マーク(不図示)が表示される。
The bath automatic button 11b3 is a button used when hot water is poured into the
通話ボタン11b4は、浴室外、例えば台所などに設置される台所用リモコンと通話するときに使用されるボタンである。また、通話ボタン11b4が押下されると、表示部11cに通話マーク(不図示)が表示される。
The call button 11b4 is a button used when talking with a kitchen remote controller installed outside the bathroom, for example, in a kitchen. When the call button 11b4 is pressed, a call mark (not shown) is displayed on the
コントローラオンオフボタン11b5は、コントローラ11自体の電源をオンオフするためのボタンである。コントローラオンオフボタン11b5により電源がオフされた場合、表示部11cの表示は消去することとなる。
The controller on / off button 11b5 is a button for turning on / off the power of the
メニューボタン11b6は、手入力により制御機器20の動作を設定するためのボタンである。このボタン11b6が押下されると、各制御機器20の動作項目(例えば照明オフ、換気扇オフ、テレビ電源オン、テレビチャンネル+1など)が表示部11cに複数個表示される。ユーザは、これら複数の動作項目から十字キー11b9を操作して1つの動作項目を選択することとなる。
The menu button 11b6 is a button for setting the operation of the
確定ボタン11b7は、十字キー11b9を操作して選択された動作項目の動作を制御機器20に実行させる際に押下されるボタンである。戻るボタン11b8は、表示部11cに表示される画面を1つ前の状態に戻すときなどに使用されるボタンである。例えば、表示部11c上に動作項目を3つ程度しか表示できない場合、十字キー11b9を操作することにより、表示画面を次の画面に移行させて新たな動作項目を表示させることができる。この状態において、戻るボタン11b8を押下すれば、移行した画面を元に戻して、前回画面の動作項目を表示部11cに表示させることができる。
The confirmation button 11b7 is a button that is pressed when the
十字キー11b9は、給湯温度やシャワー温度の温度設定、及び湯量の設定などに用いられるボタンである。また、十字キー11b9は、表示部11cにより表示される動作項目の選択にも用いられる。
The cross key 11b9 is a button used for setting the temperature of the hot water supply temperature or shower temperature, setting the amount of hot water, and the like. The cross key 11b9 is also used to select an operation item displayed on the
さらに、本実施形態では、コントローラ11の操作ボタン11bを操作することにより、音声入力モードと、ボタン操作入力モードとを選択可能となっている。具体的にユーザは、メニューボタン11b6を操作し、表示部11cに表示される入力モードを選択することによって、音声入力モードとボタン操作入力モードとを切り替えることができる。
Furthermore, in this embodiment, by operating the
再度、図1を参照する。ミキサー部12は、テレビ22からの再生信号Sb,Scを入力し、エコーキャンセル部13に出力するものであり、テレビ22からの再生信号Sb,Scをミキシングしたミキシング信号Sdを出力するものである。
Reference is again made to FIG. The
エコーキャンセル部13は、テレビ22からの再生信号Sb,Sc、すなわちミキサー部12からのミキシング信号Sdを入力し、入力したミキシング信号Sdに基づいて、エコーを除去するものである。すなわち、音声入力部11aに入力される音声には、ユーザの発話音声と、テレビ22などの機器からのエコーの双方が含まれている。エコーキャンセル部13は、発話音声とエコーとからなる音声信号Saから、ミキシング信号Sdに基づいてエコーに相当する信号成分を除去する構成となっている。なお、エコーキャンセル部13は、性能に限界があり、エコーを完全には除去できず、ある程度除去する構成が一般的である。
The echo cancel
認識照合処理部14は、音声入力部11aからの音声信号Sa、より詳細にはエコーキャンセル部13によってエコーがある程度除去された音声信号Se(以下、エコー除去信号Seという)と、予め記憶される標準パターン信号との照合を行うものである。また、認識照合処理部14は、エコー除去信号Seが標準パターン信号とマッチングした場合、その旨の認識結果信号Sfを制御部15に出力する。具体的に説明すると、例えばユーザからの発話内容が「テレビ電源オン」であった場合、認識照合処理部14は、発話内容に基づくエコー除去信号Seが予め登録される「テレビ電源オン」の標準パターン信号にマッチングするか否かを判断する。そして、認識照合処理部14は、「テレビ電源オン」の標準パターン信号にマッチングすると判断した場合、テレビ22の電源をオンする旨の認識結果信号Seを制御部15に出力する。
The recognition /
制御部15は、制御機器20の動作を制御するものである。制御部15は、例えば認識照合処理部14からテレビ22の電源をオンする旨の認識結果信号Seを受信した場合、テレビ22に対して電源をオンする制御信号Sgを出力する。これにより、テレビ22の電源はオンすることとなる。
The
ここで、本実施形態において操作ボタン11b6は、音声認識装置10の処理方法を決定する複数の制御モードから1の制御モードを選択可能となっている。具体的に制御モードは、デモモード(特定モード)と、癒しモード(特定モード)と、通常モードとからなっており、ユーザは、操作ボタン11bを操作することにより、これら3つの制御モードから1の制御モードを選択することができる。具体的に、ユーザは、メニューボタン11b6を押圧し、表示部11cに表示される、各モードから1つを選択して、確定ボタン11b7を押圧することにより、1の制御モードを選択することができる。なお、上記デモモードとは、音声認識装置10の操作説明をするためにガイダンス音声やガイダンス映像を流すためのモードであり、癒しモードとは、癒し効果を得るために浴室内の環境設定をするモードである。
Here, in the present embodiment, the operation button 11b6 can select one control mode from a plurality of control modes for determining the processing method of the
さらに、本実施形態において、デモモード、又は癒しモードが選択され、所定のDVDが再生された場合、以下の動作を行うこととなる。図4は、デモモード、又は癒しモードが選択され、所定のDVDが再生された場合における音声認識システム1の動作を示す図である。なお、この場合において、テレビ22から再生信号Sb,Scのうち一方の再生信号Sb(例えば2チャンネルの音声信号のうちR側の音声信号)は、制御機器20を制御するためのコマンド信号Shにより構成されているものとする。
Further, in the present embodiment, when the demo mode or the healing mode is selected and a predetermined DVD is reproduced, the following operation is performed. FIG. 4 is a diagram showing the operation of the
まず、図4に示すように、デモモード、又は癒しモードが選択された場合、制御部15は、ミキサー部12に対して切替信号Siを出力すると共に、エコーキャンセル部13に対して切替信号Sjを出力する。これにより、ミキサー部12及びエコーキャンセル部13は以下の動作を行うこととなる。
First, as shown in FIG. 4, when the demo mode or the healing mode is selected, the
すなわち、ミキサー部12は、音声信号Scとコマンド信号Shとをミキシングすることなく、音声信号Scをカットし、コマンド信号Shのみを選択して出力する。これにより、エコーキャンセル部13には、コマンド信号Shのみが出力される。
That is, the
次いで、エコーキャンセル部13は、音声入力部11aにより入力した音声信号Saと、ミキサー部12からのコマンド信号Shとを入力し、これら信号のみコマンド信号Shのみを認識照合処理部14に出力する。
Next, the echo cancel
これにより、認識照合処理部14は、コマンド信号Shと標準パターン信号との照合処理を行うこととなる。なお、コマンド信号Shは、予め制御機器20に所定の制御を行わせるようにされている。すなわち、癒しモード用のDVDには、「ライトを暗くして」などの発話音声に相当するコマンド信号Shが記録されている。このため、認識照合処理部14は、コマンド信号Shと標準パターン信号との照合処理を行うことにより、コマンド信号Shが「ライトを暗くして」の標準パターン信号とマッチングしたと判断して、その旨の認識結果信号Sfを出力することとなる。これにより、照明装置25は、暗く点灯することとなり、単にテレビ22からの癒し効果がある映像や音声が流れる場合よりも、周囲環境を整えて、一層癒し向きとすることができる。
Thereby, the recognition /
また、デモモード用のDVDには、「換気扇オフ」などの発話音声に相当するコマンド信号Shが記録されている。このため、認識照合処理部14は、コマンド信号Shと標準パターン信号との照合処理を行うことにより、コマンド信号Shが「換気扇オフ」の標準パターン信号とマッチングしたと判断して、その旨の認識結果信号Sfを出力することとなる。これにより、換気扇24は運転を停止することとなり、換気扇24をオフするガイダンス音声やガイダンス映像を流しながら実際に換気扇24をオフさせることができ、ユーザには印象深い操作説明を行うことができる。
The demonstration mode DVD records a command signal Sh corresponding to an utterance voice such as “ventilator fan off”. For this reason, the recognition /
さらに、本実施形態において、テレビ22は、ユーザに向けて出力される音声のうち、コマンド信号Shに基づく音声の音量のみを調整可能な音量調整手段を備えている。すなわち、DVDには、コマンド信号Shが含まれており、テレビ22においてそのまま音声出力すると、「ライトを暗くして」などの音声がテレビ22から流れてしまい、癒し効果が減殺されてしまうこととなる。ところが、コマンド信号Shに基づく音声の音量のみをカットしたり、極めて小さくしたりすることができる音量調整手段を備えることで、コマンド信号Shに基づく音声がユーザに認識されて、不快感を与えてしまう事態を抑制することができる。
Furthermore, in the present embodiment, the
具体的に、音量調整手段は、2チャンネル音声出力の場合、以下のように構成される。例えばL側から音楽が出力され、R側からコマンド信号Shが音声出力される場合、音量調整手段は、L側からのみ音声出力し、R側からの音声出力をカットする構成とされる。5.1チャンネル音声出力や6.1チャンネル音声出力の場合も同様に、コマンド信号Shを或るチャンネル割り当てておく。そして、音量調整手段は、コマンド信号Shが割り当てられるチャンネルからの音声出力をカットする。 Specifically, the volume adjusting means is configured as follows in the case of 2-channel audio output. For example, when music is output from the L side and a command signal Sh is output from the R side, the sound volume adjusting unit is configured to output the sound only from the L side and cut the audio output from the R side. Similarly, in the case of 5.1 channel audio output or 6.1 channel audio output, a command signal Sh is assigned to a certain channel. Then, the sound volume adjusting means cuts the sound output from the channel to which the command signal Sh is assigned.
なお、上記動作が行われる場合において、認識照合処理部14は、音声入力部11aからの音声信号Sa(詳細にはエコー除去信号Sd)と照合処理を行うための第1標準パターン信号と、ミキサー部12からのコマンド信号Shと照合処理を行うための第2標準パターン信号とを有することが望ましい。これにより、両者の標準パターン信号を共通とすることなく、それぞれの専用の標準パターン信号を用いることで、音声認識性能を向上させることができるためである。
In the case where the above operation is performed, the recognition /
すなわち、専用の標準パターン信号がなく、共通の標準パターン信号によって照合処理を行う場合、ユーザによる発話音声に基づく音声信号Saとコマンド信号Shとの双方にマッチする標準パターン信号を用意しておくことが必要となる。ここで、音声信号Saとコマンド信号Shとは全く同じでないため、マッチする標準パターン信号は、両者の中間的な性質を有することとなる。これにより、音声信号Saと標準パターン信号のマッチング率及びコマンド信号Shと標準パターン信号とのマッチング率は、それぞれ低下してしまうこととなる。ところが、専用の標準パターン信号を有する場合には、上記マッチング率の低下を防止でき、音声認識性能を向上させることができる。 That is, when there is no dedicated standard pattern signal and collation processing is performed using a common standard pattern signal, a standard pattern signal that matches both the voice signal Sa and the command signal Sh based on the uttered voice by the user is prepared. Is required. Here, since the audio signal Sa and the command signal Sh are not exactly the same, the matched standard pattern signal has an intermediate property between them. As a result, the matching rate between the audio signal Sa and the standard pattern signal and the matching rate between the command signal Sh and the standard pattern signal are reduced. However, in the case of having a dedicated standard pattern signal, it is possible to prevent the matching rate from being lowered and improve speech recognition performance.
次に、フローチャートを参照して音声認識システム1の詳細動作を説明する。図5は、図1に示した音声認識システム1の動作の詳細を示すフローチャートである。なお、図5に示す処理は音声認識装置10の電源がオフされるまで繰り返される。
Next, detailed operation of the
図5に示すように、まず、制御部15は、デモモードが選択されて開始されたか否かを判断する(S1)。そして、デモモードが開始されたと判断した場合(S1:YES)、処理はステップS3に移行する。
As shown in FIG. 5, first, the
一方、デモモードが開始されていないと判断した場合(S1:NO)、制御部15は、癒しモードが選択されて開始されたか否かを判断する(S2)。癒しモードが開始されたと判断した場合(S2:YES)、処理はステップS3に移行する。一方、癒しモードが開始されていないと判断した場合(S2:NO)、処理はステップS1に移行する。
On the other hand, when determining that the demo mode has not been started (S1: NO), the
ステップS3において、制御部15は、表示部11cの現在のモード(すなわち、デモモード又は癒しモード)を表示させる(S3)。そして、制御部15は、ミキサー部12に切替信号Siを送信する(S4)。これにより、ミキサー部12は、音声信号Sb,Scをミキシングして出力せず、コマンド信号Shのみを選択して出力することとなる。
In step S3, the
次いで、制御部15は、エコーキャンセル部13に切替信号Sjを送信する(S5)。これにより、エコーキャンセル部13は、エコーキャンセル処理を実行することなく、入力したコマンド信号Shを、そのまま認識照合処理部14に出力することとなる。
Next, the
さらに、制御部15は、テレビ22に対して制御信号Sgを送信し、コマンド信号Shの音声が出力されないように切り替える(S6)。これにより、コマンド信号Shに基づく音声出力を防止して、癒し効果等の減殺を防止することとなる。
Further, the
次いで、制御部15は、デモモード又は癒しモードのキャンセル操作があったか否かを判断する(S7)。すなわち、制御部15は、通常モードへの移行操作があったか否かを判断する。通常モードへの移行操作があったと判断した場合(S7:YES)、制御モードは通常モードに移行し、処理はステップS9に移行する。一方、通常モードへの移行操作がなかったと判断した場合(S7:NO)、制御部15は、DVD再生が終了したか否かを判断する(S8)。DVD再生が終了していないと判断した場合(S8:NO)、処理はステップS7に移行する。
Next, the
一方、DVD再生が終了したと判断した場合(S8:YES)、処理はステップS9に移行する。ステップS9において、制御部15は、表示部11cの現在のモード(すなわち、通常モード)を表示させる(S9)。そして、制御部15は、ミキサー部12に切替信号Siを送信する(S4)。これにより、ミキサー部12は、コマンド信号Shのみを選択して出力することなく、音声信号Sb,Scをミキシングして出力することとなる。
On the other hand, if it is determined that the DVD playback has ended (S8: YES), the process proceeds to step S9. In step S9, the
次いで、制御部15は、エコーキャンセル部13に切替信号Sjを送信する(S5)。これにより、エコーキャンセル部13は、コマンド信号Shのみを出力せず、エコーキャンセル処理を実行することとなる。
Next, the
さらに、制御部15は、テレビ22に対して制御信号Sgを送信し、音声出力を通常の状態に戻す(S6)。その後、図5に示す処理は終了する。
Furthermore, the
このようにして、本実施形態に係る音声認識システム1及び音声認識装置10によれば、特定モードが選択されている場合、音声信号Scとコマンド信号Shとを入力し、これら信号Sc,Shのうちコマンド信号Shのみを認識照合処理部14に出力し、認識照合処理部14は、コマンド信号Shと標準パターン信号との照合処理を行う。このため、音声認識システム1は、認識照合処理部14によりコマンド信号Shと標準パターン信号Scとが照合された場合、コマンド信号Shに基づいて制御機器20を制御することとなる。すなわち、再生機器において再生されるコンテンツのデータ内にコマンド信号Shを組み込んでおけば、再生機器による再生に伴って制御機器20を制御することができる。これにより、例えば擬似的に森林浴を楽しむための音楽データを記録したCDやDVD等を再生するだけで、森林浴環境に似た静かな音楽を流しながら照明装置を森林浴に似たやわらかな照明に変化させることができる。また、操作説明するためのCDやDVD等を再生してガイダンス音声を流しながら、実際に制御機器20を制御してガイダンス音声による操作説明を一層わかりやすくすることができる。従って、より利便性を向上させることができる。
Thus, according to the
また、エコーキャンセル部13は、操作ボタン11bによりデモモード及び癒しモード以外の通常モードが選択されている場合、音声入力部11aにより入力された音声信号Saからエコー成分を除去する。このように、エコーキャンセル部13はコーキャンセル機能を備えることとなり、デモモード及び癒しモード以外の通常モードが選択され、ユーザが発話音声により制御機器20を制御しようとする場合、発話音声の認識率を向上させることができる。
In addition, when the normal mode other than the demo mode and the healing mode is selected by the
また、認識照合処理部14は、音声信号Scと照合処理を行うための第1標準パターン信号と、コマンド信号Shと照合処理を行うための第2標準パターン信号とを有するため、両者の標準パターン信号を共通とすることなく、それぞれの専用の標準パターン信号を用いることで、音声認識性能を向上させることができる。
Further, since the recognition /
また、操作ボタン11bによりデモモード又は癒しモードが選択されている場合、コマンド信号Shに基づく音声の出力を禁止する。ここで、コマンド信号Shは再生信号Sbの一部であるため、テレビ22から音声出力されてしまう。このため、コマンド信号Shに基づく音声の出力を禁止することで、コマンド信号Shに基づく音声がユーザに認識されることによる不快感を抑制することができる。
Further, when the demo mode or the healing mode is selected by the
以上、本発明に係る音声認識システム及び音声認識装置を実施形態に基づいて説明したが、本発明はこれに限定されるものではなく、本発明の趣旨を逸脱しない範囲で、変更を加えてもよい。 As mentioned above, although the speech recognition system and the speech recognition apparatus according to the present invention have been described based on the embodiments, the present invention is not limited thereto, and modifications may be made without departing from the spirit of the present invention. Good.
例えば、本実施形態では、DVDプレーヤ21及びテレビ22を再生機器の一例としてあげているが、これに限らず、再生機器はCDプレーヤなど音楽や音声のみを再生するものであってもよいし、パーソナルコンピュータ等の他の機器であってもよい。
For example, in the present embodiment, the
また、本実施形態において、再生信号Sbは、出力映像のシーンに対応してコマンド信号Shが含まれており、認識照合処理部14がエコーキャンセル部13からのコマンド信号Shと標準パターンとの照合処理を行うことにより、制御機器20の制御内容が変更される。このため、映画のDVD等を再生している場合において、映画のシーン毎に照明の明るさを変更することなどが可能となり、映像出力の演出効果を高めることができる。
In the present embodiment, the reproduction signal Sb includes the command signal Sh corresponding to the scene of the output video, and the recognition /
また、本実施形態では、2チャンネル音声出力の場合における音声認識システム1を説明したが、これに限らず、再生機器が5.1チャンネルにより音声出力し、そのうちの0.1チャンネルにコマンド信号Shが割り当てられていることが望ましい。これにより、残りの5チャンネルを出力音声等に費やせ、コンテンツ自体の演出効果の減退を抑制することができるためである。
In the present embodiment, the
また、本実施形態では、エコーキャンセル部13を備え、デモモード及び癒しモードにおいて、エコーキャンセル部13が音声入力部11aからの音声信号Saとミキサー部12からのコマンド信号Shとを入力し、コマンド信号Shのみを出力する構成となっているが、音声信号Saとコマンド信号Shとを入力し、コマンド信号Shのみを出力できるものであれば、特にエコーキャンセル部13に限られるものではない。なお、エコーキャンセル部13を備えない場合、通常モードにおいてエコーを除去できず、音声認識率が低下してしまうおそれがあるため、コントローラ11に発話ボタンを設け、発話ボタン押下時にはテレビ22からの音声出力がカットされる(すなわちミュート状態となる)ように構成することが好ましい。これにより、テレビ22からの音声による音声認識率の低下を防止できるからである。
Further, in the present embodiment, the
また、本実施異形態において、デモモード及び癒しモードでは、図4を参照して説明したように、ユーザの発話音声の信号が認識照合処理部14に送信されることがないため、発話による制御機器20の操作ができなくなっている。このため、コントローラ11に発話ボタンを備える場合、デモモード及び癒しモードにおいて発話ボタンが押下することにより、デモモード及び癒しモードが一時停止又は停止し、通常モードに戻る構成とすることが好ましい。これにより、デモモード及び癒しモードにおいても発話による制御機器20の操作が可能となるからである。
Further, in the present embodiment, in the demo mode and the healing mode, as described with reference to FIG. 4, since the signal of the user's speech is not transmitted to the recognition
さらに、本実施形態では、操作ボタン11b6を操作することにより、複数の制御モードから1の制御モードを選択可能となっているが、これに限らず、音声によって制御モードを選択可能となっていてもよい。さらには、DVDやCDなどに制御モードを選択するコマンド信号Shを記録しておき、DVDプレーヤ21や音楽プレーヤにてDVDやCD等を再生したときに、自動的に1の制御モードが選択されるようになっていてもよい。
Furthermore, in the present embodiment, one control mode can be selected from a plurality of control modes by operating the operation button 11b6. However, the present invention is not limited to this, and the control mode can be selected by voice. Also good. Furthermore, when a command signal Sh for selecting a control mode is recorded on a DVD or CD, and the DVD or CD is played on the
また、本実施形態では、操作ボタン11bを操作することにより音声入力モードとボタン操作入力モードと切り替え可能となっているが、これに限らず、音声入力モード中には、発話によりボタン操作入力モードへ移行させるようにしてもよい。
Further, in the present embodiment, the voice input mode and the button operation input mode can be switched by operating the
1 音声認識システム
10 音声認識装置
11 コントローラ
11a 音声入力部
11b 操作ボタン(モード選択手段)
11c 表示部
12 ミキサー部(第1信号処理手段)
13 エコーキャンセル部(第2信号処理手段)
14 認識照合処理部(認識照合処理手段)
15 制御部(制御手段)
20 制御機器
21 DVDプレーヤ(再生機器)
22 テレビ(再生機器)
23 浴室装置
24 換気扇
25 照明装置
DESCRIPTION OF
13 Echo cancellation unit (second signal processing means)
14 recognition / collation processing unit (recognition / collation processing means)
15 Control unit (control means)
20
22 Television (playback equipment)
23
Claims (7)
再生信号に基づいてコンテンツを再生する再生機器と、
前記再生機器により出力された音声とユーザの発話による音声とを入力して、これらに基づく音声信号を出力する音声入力手段と、
前記音声入力手段からの音声信号と、予め記憶された標準パターン信号との照合処理を行う認識照合処理手段と、
前記認識照合処理手段による照合結果に基づいて前記制御機器を制御する制御手段と、
処理方法を決定する複数の制御モードから1のモードを選択可能なモード選択手段と、
前記モード選択手段により特定モードが選択されている場合に、前記再生機器からのコンテンツの再生信号のうち、前記制御機器を制御するために予め再生信号内に含まれるコマンド信号を選択して出力する第1信号処理手段と、
前記モード選択手段により特定モードが選択されている場合に、前記音声入力手段からの音声信号と前記第1信号処理手段からのコマンド信号とを入力し、これら信号のうちコマンド信号のみを前記認識照合処理手段に出力する第2信号処理手段と、を備え、
前記認識照合処理手段は、前記第2信号処理手段からのコマンド信号と前記標準パターンとの照合処理を行う
ことを特徴とする音声認識システム。 A speech recognition system that inputs speech speech from a user and controls a control device based on the speech speech input,
A playback device for playing back content based on the playback signal;
Voice input means for inputting the voice output by the playback device and the voice of the user's utterance and outputting a voice signal based on the voice;
Recognition collation processing means for performing collation processing between a voice signal from the voice input means and a standard pattern signal stored in advance;
Control means for controlling the control device based on the collation result by the recognition collation processing means;
Mode selection means capable of selecting one mode from a plurality of control modes for determining a processing method;
When a specific mode is selected by the mode selection means, a command signal included in the playback signal is selected and output in advance to control the control device from the playback signal of the content from the playback device. First signal processing means;
When a specific mode is selected by the mode selection means, a voice signal from the voice input means and a command signal from the first signal processing means are input, and only the command signal among the signals is recognized and verified. Second signal processing means for outputting to the processing means,
The speech recognition system, wherein the recognition / collation processing means performs collation processing between the command signal from the second signal processing means and the standard pattern.
前記第2信号処理手段は、前記モード選択手段により特定モード以外の制御モードが選択されている場合、前記第1信号処理手段からの再生信号に基づいて、前記音声入力手段により入力された音声信号からエコー成分を除去する
ことを特徴とする請求項1に記載の音声認識システム。 When the control mode other than the specific mode is selected by the mode selection unit, the first signal processing unit does not select and output only the command signal from the playback signal of the content from the playback device, but the playback Output signal,
When the control mode other than the specific mode is selected by the mode selection unit, the second signal processing unit is an audio signal input by the audio input unit based on a reproduction signal from the first signal processing unit. The speech recognition system according to claim 1, wherein an echo component is removed from the speech recognition system.
ことを特徴とする請求項1または請求項2のいずれかに記載の音声認識システム。 The recognition collation processing means includes a first standard pattern signal for performing collation processing with the voice signal from the voice input means, and a second standard pattern for performing collation processing with the command signal from the first signal processing means. The speech recognition system according to claim 1, further comprising: a signal.
前記音量調整手段は、前記モード選択手段により特定モードが選択されている場合、コマンド信号に基づく音声の出力を禁止する
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識システム。 A volume adjusting means capable of adjusting only the volume of the sound based on the command signal output from the playback device;
4. The sound volume adjusting unit according to claim 1, wherein, when a specific mode is selected by the mode selecting unit, the sound output based on the command signal is prohibited. 5. Speech recognition system.
前記再生信号は、出力映像のシーンに対応して前記コマンド信号が含まれており、
前記認識照合処理手段が前記第2信号処理手段からのコマンド信号と前記標準パターンとの照合処理を行うことにより、前記制御機器の制御内容が変更される
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識システム。 The playback device plays back and outputs video,
The playback signal includes the command signal corresponding to an output video scene,
The control content of the control device is changed when the recognition / collation processing unit performs a collation process between the command signal from the second signal processing unit and the standard pattern. 5. The speech recognition system according to any one of 4 above.
0.1チャンネルが前記コマンド信号の再生チャンネルに割り当てられている
ことを特徴とする請求項1から請求項5のいずれか1項に記載の音声認識システ The playback device outputs audio through 5.1 channel,
The voice recognition system according to any one of claims 1 to 5, wherein 0.1 channel is assigned to a reproduction channel of the command signal.
再生信号に基づいてコンテンツを再生する再生機器により出力された音声とユーザの発話による音声とを入力して、これらに基づく音声信号を出力する音声入力手段と、
前記音声入力手段からの音声信号と、予め記憶された標準パターン信号との照合処理を行う認識照合処理手段と、
前記認識照合処理手段による照合結果に基づいて前記制御機器を制御する制御手段と、
処理方法を決定する複数の制御モードから1のモードを選択可能なモード選択手段と、
前記モード選択手段により特定モードが選択されている場合に、前記再生機器からのコンテンツの再生信号のうち、前記制御機器を制御するために予め再生信号内に含まれるコマンド信号を選択して出力する第1信号処理手段と、
前記音声入力手段からの音声信号と前記第1信号処理手段からのコマンド信号とを入力し、これら信号のうちコマンド信号のみを前記認識照合処理手段に出力する第2信号処理手段と、を備え、
前記認識照合処理手段は、前記認識照合処理手段は、前記モード選択手段により特定モードが選択されている場合、第2信号処理手段からのコマンド信号と前記標準パターンとの照合処理を行う
ことを特徴とする音声認識装置。 A speech recognition device for inputting a speech voice from a user and outputting a control signal for controlling a control device based on the inputted speech voice,
A voice input means for inputting a voice output by a playback device that plays back content based on a playback signal and a voice of a user's utterance and outputting a voice signal based on the voice;
Recognition collation processing means for performing collation processing between a voice signal from the voice input means and a standard pattern signal stored in advance;
Control means for controlling the control device based on the collation result by the recognition collation processing means;
Mode selection means capable of selecting one mode from a plurality of control modes for determining a processing method;
When a specific mode is selected by the mode selection unit, a command signal included in the reproduction signal is selected and output in advance to control the control device from the content reproduction signal from the reproduction device. First signal processing means;
A second signal processing means for inputting a voice signal from the voice input means and a command signal from the first signal processing means, and outputting only the command signal of these signals to the recognition verification processing means,
The recognition / collation processing means performs a collation process between a command signal from a second signal processing means and the standard pattern when the specific mode is selected by the mode selection means. Voice recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007278312A JP2009109523A (en) | 2007-10-26 | 2007-10-26 | Voice recognition system and voice recognizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007278312A JP2009109523A (en) | 2007-10-26 | 2007-10-26 | Voice recognition system and voice recognizer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009109523A true JP2009109523A (en) | 2009-05-21 |
Family
ID=40778110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007278312A Pending JP2009109523A (en) | 2007-10-26 | 2007-10-26 | Voice recognition system and voice recognizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009109523A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020116166A (en) * | 2019-01-24 | 2020-08-06 | Toto株式会社 | Bathroom system |
US10861448B2 (en) | 2018-09-20 | 2020-12-08 | Hyundai Motor Company | In-vehicle voice recognition apparatus and method of controlling the same |
-
2007
- 2007-10-26 JP JP2007278312A patent/JP2009109523A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10861448B2 (en) | 2018-09-20 | 2020-12-08 | Hyundai Motor Company | In-vehicle voice recognition apparatus and method of controlling the same |
JP2020116166A (en) * | 2019-01-24 | 2020-08-06 | Toto株式会社 | Bathroom system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6647515B2 (en) | Gaming machine | |
JP2009104020A (en) | Voice recognition device | |
JP5380804B2 (en) | Audio signal output device | |
JP2009109587A (en) | Voice recognition control device | |
JPH10277213A (en) | Sound controlling system and game machine | |
JP5748078B2 (en) | Music performance apparatus and music performance program | |
JP2009109523A (en) | Voice recognition system and voice recognizer | |
JP2009101056A (en) | Voice recognition controller for bathroom | |
JP2009109536A (en) | Voice recognition system and voice recognizer | |
JP2009104025A (en) | Voice recognition controller | |
JP6562303B2 (en) | Karaoke equipment | |
JP5067240B2 (en) | Delay control device | |
JP5120206B2 (en) | Karaoke system, remote control for karaoke | |
JP2007158619A (en) | Operating unit, system, and operating method | |
JP5327725B2 (en) | Musical performance device | |
JP2010032704A (en) | Karaoke machine | |
JP4179233B2 (en) | Data reproducing apparatus and control method thereof | |
JP6647517B2 (en) | Gaming machine | |
JP5488478B2 (en) | Audio processing device | |
JP2013222007A (en) | Karaoke system | |
JP6651926B2 (en) | Karaoke device and volume control program | |
JP2005148627A (en) | Karaoke device having feature in volume control of model vocal | |
JP2009036866A (en) | Karaoke machine | |
JP5262017B2 (en) | Audio signal output device | |
JP5067242B2 (en) | Delay control device |