JP2006023773A - Voice processing system - Google Patents
Voice processing system Download PDFInfo
- Publication number
- JP2006023773A JP2006023773A JP2005248484A JP2005248484A JP2006023773A JP 2006023773 A JP2006023773 A JP 2006023773A JP 2005248484 A JP2005248484 A JP 2005248484A JP 2005248484 A JP2005248484 A JP 2005248484A JP 2006023773 A JP2006023773 A JP 2006023773A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- signal
- headset
- recognition
- wireless communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声処理システムに関し、特に音声認識機能や音声伝送機能を搭載しつつ、これら機能の操作の簡便化と消費電力の低減を実現できる無線通信機能付きヘッドセットと、このようなヘッドセットと音声認識機能を搭載した機器との間で必要とされる音声処理技術に関する。 The present invention relates to a voice processing system, and in particular, a headset with a wireless communication function capable of simplifying operation of these functions and reducing power consumption while mounting a voice recognition function and a voice transmission function, and such a headset. The present invention relates to a voice processing technology required between a computer and a device equipped with a voice recognition function.
従来、機器を操作するには、スイッチやキーボード等の操作を当然に必要としていた。機器の操作が複雑になるほど、スイッチの個数が増える、操作シーケンスが複雑になるなど、操作性の低下を引き起こすという問題があった。また、両手がふさがっている場合に、スイッチやキーボードの操作ができないという不便もあった。 Conventionally, in order to operate a device, it has been naturally necessary to operate a switch, a keyboard, and the like. As the operation of the device becomes more complicated, the number of switches increases and the operation sequence becomes complicated. In addition, there is an inconvenience that the switch and keyboard cannot be operated when both hands are occupied.
近年、これらの問題を解決するための有力な手段として、音声認識技術が利用され始めている。 In recent years, speech recognition technology has begun to be used as an effective means for solving these problems.
音声認識技術を用いた機器は、機器のユーザが発した音声の内容に呼応して機器の動作を制御できるため、機器の操作を大幅に簡略化できる。さらには、音声により、離れた位置にある家電機器や機械、ロボットなどを制御することが、いつでもどこでも可能になり、機械的(物理的)スイッチを低減できるので、その経済的効果が大きく、ユビキタス時代の重要技術として注目されてきた。 The device using the voice recognition technology can control the operation of the device in response to the content of the voice uttered by the user of the device, so that the operation of the device can be greatly simplified. In addition, it is possible to control home appliances, machines, robots, etc. at remote locations by voice anytime and anywhere, and the mechanical (physical) switches can be reduced, so the economic effect is great and ubiquitous. Has attracted attention as an important technology of the times.
一般に、入力音声を認識する音声認識機能を搭載した機器では、機器に備え付けられたマイクや、ケーブルで接続されたマイクを用いて、ユーザの音声を採取する。機器には、その機器で認識対象となる語彙(認識語彙)の読みが保持されており、その読みに基づいて対応する認識語彙を構成する単語音声モデルをあらかじめ作成し、入力音声の認識のために記憶しておく。この種の音声認識装置での入力音声の認識は、次のように行われる。 Generally, in a device equipped with a voice recognition function for recognizing input voice, a user's voice is collected using a microphone provided in the device or a microphone connected by a cable. The device holds a reading of the vocabulary (recognition vocabulary) that is to be recognized by the device, and based on the reading, a word speech model that composes the corresponding recognition vocabulary is created in advance to recognize the input speech. Remember it. Recognition of input speech by this type of speech recognition apparatus is performed as follows.
まずマイクで検出した音声信号を音響分析して、特徴パラメータ系列を求める。次に、求めた音声信号の特徴パラメータ系列を、あらかじめ作成しておいた各認識語彙を構成する単語音声モデルと照合して、入力音声を認識する。 First, the sound signal detected by the microphone is acoustically analyzed to obtain a feature parameter series. Next, the input speech is recognized by comparing the feature parameter series of the obtained speech signal with a word speech model that forms each recognized vocabulary.
音声認識装置において、機器自体にマイクが設置されている場合、ユーザが機器から離れたままで発声すると、マイクで検出した音声信号に雑音が重畳し、認識性能が低下してしまう。したがって、高精度で認識させるためには、ユーザは機器に近づいて発声しなければならない。マイクがケーブルで機器に接続されている場合も、ユーザから離れた場所にマイクが設置されている場合は、結局マイクロホンまで近づいて発声しなければならない。 In the speech recognition apparatus, when a microphone is installed in the device itself, if the user utters while leaving the device, noise is superimposed on the speech signal detected by the microphone, and the recognition performance deteriorates. Therefore, in order to recognize with high accuracy, the user must approach the device and speak. Even when the microphone is connected to the device via a cable, if the microphone is installed at a location away from the user, the microphone must be approached to speak after all.
機器に接続したマイクが、ユーザの口近くに配置される接話型マイクもあるが、機器とマイクを接続するケーブルがユーザの行動範囲を狭めてしまうという問題がある。ワイヤレス型の接話マイクを使用した場合には、ユーザの行動は制限されないが、マイクロホンで検出した音声信号に電気的ノイズが重畳してしまい、音声認識性能が低下する。 Although there is a close-talking microphone in which a microphone connected to the device is arranged near the user's mouth, there is a problem that a cable connecting the device and the microphone narrows the user's action range. When a wireless close-talking microphone is used, the user's behavior is not limited, but electrical noise is superimposed on the voice signal detected by the microphone, and voice recognition performance is degraded.
通常、音声認識技術では、多量の信号処理と照合処理を行った後に、認識結果が出力される。これらの処理をほぼリアルタイムで行わなければ、機器はユーザの発声完了後に速やかに対応の動作を行うことができない。このため、音声認識技術を搭載した機器は十分な計算能力を持っている必要があり、安価な機器や小型化が必要な機器には搭載しにくいという問題もある。 Usually, in the speech recognition technique, a recognition result is output after performing a large amount of signal processing and collation processing. If these processes are not performed almost in real time, the device cannot perform a corresponding operation promptly after the user's utterance is completed. For this reason, it is necessary for a device equipped with a speech recognition technology to have sufficient calculation capability, and there is a problem that it is difficult to install in a device that is inexpensive or needs to be downsized.
近年、携帯型電子録音装置が利用され始めている。これは、装置が内蔵する音声信号を装置内の記憶領域に保存し、保存した音声を再生するものであり、メモ代わりに音声を記録する用途等に用いられている。また保存した音声を、パーソナルコンピュータ等の機器にケーブルを介して転送して、パーソナルコンピュータに搭載された大容量のハードディスクに音声データを蓄積することができる。 In recent years, portable electronic recording devices have begun to be used. This is for storing an audio signal built in the apparatus in a storage area in the apparatus and reproducing the stored audio, and is used for recording audio instead of a memo. Further, the stored voice can be transferred to a device such as a personal computer via a cable, and the voice data can be stored in a large-capacity hard disk mounted on the personal computer.
パーソナルコンピュータに音声認識機能が搭載されている場合には、蓄積した音声データを音声認識技術で認識して、テキストファイルに変換できる。 When the personal computer has a voice recognition function, the stored voice data can be recognized by voice recognition technology and converted into a text file.
音声メモにおいて、発声された文章の音声認識は、上述した通常の音声認識技術で行われる。すなわち、あらかじめ文章で使用される可能性のある単語を選択しておき、これらの単語を認識語彙とする。このような単語として、数万〜10万単語程度を選択することが多いが、話題が限定される場合は、これより少なくても構わない。認識語彙の読みから対応する単語の音声モデルをあらかじめ作成しておき、入力音声の認識のために記憶しておく。さらに、これらの単語間のつながりやすさをあらわす言語モデルをあらかじめ作成しておき、入力音声の認識のために記憶しておく。 In a voice memo, voice recognition of a spoken sentence is performed by the normal voice recognition technique described above. That is, words that may be used in a sentence are selected in advance, and these words are used as a recognition vocabulary. In many cases, tens of thousands to 100,000 words are selected as such words, but if the topic is limited, the number may be smaller. A speech model of the corresponding word is created in advance from the reading of the recognized vocabulary and stored for the recognition of the input speech. Furthermore, a language model representing the ease of connection between these words is created in advance and stored for recognition of the input speech.
音声認識は、蓄積された音声データを音響分析して特徴パラメータ系列を求める。次に、求めた音声の特徴パラメータ系列をあらかじめ作成しておいた各認識単語の単語音声モデル及び言語モデルと照合して、入力音声を認識する。 In speech recognition, the accumulated speech data is acoustically analyzed to obtain a feature parameter series. Next, the input speech is recognized by comparing the obtained speech feature parameter series with the word speech model and language model of each recognition word created in advance.
しかし、携帯型電子録音装置では、携帯性を高めるために、内部の記憶領域は半導体メモリで構成されていることが多く、内部に保存できる音声の量は制限される。また、保存された音声をパーソナルコンピュータ等に転送する際には、ケーブルで接続するか、取り外し可能な記録メディアを経由する必要があり、リアルタイムで他機器に音声情報を転送することはできない。 However, in the portable electronic recording device, in order to improve portability, the internal storage area is often configured by a semiconductor memory, and the amount of audio that can be stored inside is limited. In addition, when the stored voice is transferred to a personal computer or the like, it is necessary to connect with a cable or via a removable recording medium, and voice information cannot be transferred to other devices in real time.
また、手がふさがった状態で装置を使用する場合には、ヘッドセット型マイクロホンやクリップ付きマイクロホンを、ケーブルで携帯型電子録音装置に接続する必要がある。ケーブルは行動の妨げになるうえに、その都度の接続が面倒である。 Further, when the device is used in a state where the hand is blocked, it is necessary to connect a headset type microphone or a microphone with a clip to the portable electronic recording device with a cable. In addition to obstructing behavior, cables are troublesome to connect each time.
このように、従来の音声認識技術を用いた機器では、正確に音声を認識するために、常にユーザとマイクの位置関係に注意して使用し、必要に応じてマイクに近寄って発声する必要があった。 As described above, in a device using the conventional voice recognition technology, it is necessary to always pay attention to the positional relationship between the user and the microphone in order to recognize the voice accurately, and to speak near the microphone as necessary. there were.
また、ヘッドセット型マイクロホンを使用する場合には、マイクロホンと機器を接続するケーブルで行動が妨げられるという問題があった。音声認識技術が必要とする計算容量を持たないヘッドセットでは、音声による操作そのものが不可能である。 In addition, when using a headset type microphone, there is a problem that the action is hindered by a cable connecting the microphone and the device. With a headset that does not have the computational capacity required by voice recognition technology, voice operation itself is not possible.
また、携帯型の電子録音装置では、内部に保存できる音声データの量が制限され、保存したデータをリアルタイムで他機器に転送できない。また、マイクをケーブルで接続する必要があり、ケーブルが行動の妨げになる、接続が面倒であるなどの問題があった。 Moreover, in the portable electronic recording device, the amount of audio data that can be stored inside is limited, and the stored data cannot be transferred to other devices in real time. In addition, it is necessary to connect the microphone with a cable, which causes problems such as the cable obstructing the action and the connection is troublesome.
本発明は、上述した問題を克服するために、ユーザの行動を妨げることなく高精度な音声認識技術を実現することのできる音声処理システムを提供する。 The present invention provides a speech processing system capable of realizing a highly accurate speech recognition technique without interfering with user behavior in order to overcome the above-described problems.
また、音声データをリアルタイムで他機器に転送することのできる無線通信機能付きヘッドセットを含む音声処理システムを提供する。 Also provided is a voice processing system including a headset with a wireless communication function that can transfer voice data to other devices in real time.
さらに、機能選択手段によって不要なときに音声認識機能や音声伝達機能を停止する手段を設け、消費電力を低減することのできる無線通信機能付きヘッドセットを含む音声処理システムを提供する。 Furthermore, a voice processing system including a headset with a wireless communication function capable of reducing power consumption by providing means for stopping the voice recognition function and voice transmission function when unnecessary by the function selection means is provided.
さらに、ヘッドセットから音声データをリアルタイムで第2の装置に転送して、第2の装置でその音声を認識することのできる音声処理システムを提供する。さらに第2の装置から第3の装置へと音声認識結果を無線送信することによって、第3の装置の動作を制御する音声処理システムを提供する。 Furthermore, the present invention provides an audio processing system capable of transferring audio data from a headset to a second device in real time and recognizing the audio by the second device. Furthermore, a speech processing system for controlling the operation of the third device by wirelessly transmitting the speech recognition result from the second device to the third device is provided.
上記課題を達成するために、本発明の第1の側面では、無線機能付きヘッドセットは、
(a)音声を検出して音声信号を生成するマイクロホン
(b)生成された音声信号を認識する音声認識手段
(c)音声認識手段による認識結果を、無線通信により外部の機器へ送出する認識結果伝送手段
(d)生成された音声信号を音声認識手段で処理するか否かを切り替える機能選択手段
を備える。
In order to achieve the above object, according to the first aspect of the present invention, a headset with a wireless function includes:
(A) Microphone for detecting voice and generating a voice signal (b) Voice recognition means for recognizing the generated voice signal (c) Recognition result for sending the recognition result by the voice recognition means to an external device by wireless communication Transmission means (d) comprises function selection means for switching whether or not the generated voice signal is processed by the voice recognition means.
ヘッドセットと他の機器とをケーブル等で接続する必要がないので、ユーザの行動が制限されることはない。また、ユーザは機能選択手段により、任意で音声認識処理を選択することができる。音声認識処理が選択された場合は、無線通信機能付きヘッドセット内で、簡便かつ低消費電力で認識処理を行う。ヘッドセットと無線通信できる外部の機器に音声認識技術を搭載しなくとも、これらの機器をたとえば音声コマンドにより操作することが可能となる。また、ヘッドセット内部において、簡単な話者認識、文認識、対話理解等を行うことが可能になる。 Since there is no need to connect the headset to another device with a cable or the like, the user's action is not limited. Further, the user can arbitrarily select the voice recognition process by the function selection means. When the voice recognition process is selected, the recognition process is performed easily and with low power consumption in the headset with the wireless communication function. Even if voice recognition technology is not installed in an external device that can communicate wirelessly with the headset, these devices can be operated by voice commands, for example. In addition, simple speaker recognition, sentence recognition, dialogue understanding, and the like can be performed inside the headset.
本発明の第2の側面では、無線通信機能付きヘッドセットは、
(a)音声を検出して音声信号を生成するマイクロホン
(b)生成された音声信号を認識する音声認識手段
(c)音声認識手段による認識結果を無線通信により外部の機器へ送出する認識結果伝送手段
(d)生成された音声信号を、無線通信により外部の機器へ送信する音声伝送手段
(e)音声信号を、音声認識手段と音声伝送手段のいずれで処理するかを選択する機能選択手段
を備える。
In the second aspect of the present invention, a headset with a wireless communication function is:
(A) Microphone for detecting voice and generating a voice signal (b) Voice recognition means for recognizing the generated voice signal (c) Recognition result transmission for sending the recognition result by the voice recognition means to an external device by wireless communication Means (d) Voice transmission means for transmitting the generated voice signal to an external device by wireless communication (e) Function selection means for selecting whether the voice signal is processed by the voice recognition means or the voice transmission means Prepare.
好ましくは、機能選択手段は、音声信号を、音声認識手段と音声伝送手段のいずれでも処理しないモードと、音声認識手段と音声伝送手段の双方で処理するモードの少なくとも一方をさらに有する。 Preferably, the function selection unit further includes at least one of a mode in which the voice signal is not processed by either the voice recognition unit or the voice transmission unit, and a mode in which both the voice recognition unit and the voice transmission unit are processed.
ユーザは、機能選択手段を操作することによって、音声認識処理と音声伝送処理を任意で選択することができる。音声認識を選択した場合は、第1の側面で説明したヘッドセットと同様に、ヘッドセット内で少ない演算量で簡便に音声を認識し、たとえば認識した音声コマンドによって遠隔の機器を操作する、音声を文章として認識する、等を行うことができる。一方、音声伝送を選択した場合は、マイクロホンで検出した音声信号を無線伝送した後に、伝送先の機器において詳細な音声認識を行うことができる。この場合、より正確な文認識や、意図理解、話者認識、対話理解を行うことができる。また、音声データの送信先の機器が大容量の記憶装置を有する場合、長時間にわたる音声データを常時蓄積し、それを再生することができ、有用性が増す。 The user can arbitrarily select voice recognition processing and voice transmission processing by operating the function selection means. When voice recognition is selected, the voice is simply recognized with a small amount of calculation in the headset, for example, operating the remote device by the recognized voice command, as in the headset described in the first aspect. Can be recognized as a sentence. On the other hand, when audio transmission is selected, detailed audio recognition can be performed in the transmission destination device after the audio signal detected by the microphone is wirelessly transmitted. In this case, more accurate sentence recognition, intent understanding, speaker recognition, and dialogue understanding can be performed. In addition, when the audio data transmission destination device has a large-capacity storage device, the audio data over a long period of time can be constantly stored and played back, increasing usefulness.
本発明の第3の側面では、無線通信機能付きヘッドセットと、このヘッドセットと無線通信可能な外部装置とを含む音声処理システムを提供する。このシステムを構成する無線通信機能付きヘッドセットは、ヘッドセット装着者の音声を検出して音声信号を生成するマイクロホンと、生成された音声信号を認識し、認識した音声信号の内容に対応する識別信号を生成する音声認識手段と、音声認識手段によって生成された識別信号を無線通信により前記外部装置へ送出する認識結果伝送手段とを備える。一方、外部装置は、ヘッドセットから識別信号を受信したときに、この識別信号に対応する動作を開始する。 According to a third aspect of the present invention, there is provided a voice processing system including a headset with a wireless communication function and an external device capable of wireless communication with the headset. The headset with a wireless communication function constituting this system includes a microphone that detects a voice of a headset wearer and generates an audio signal, an identification corresponding to the content of the recognized audio signal, recognizing the generated audio signal Voice recognition means for generating a signal, and recognition result transmission means for sending the identification signal generated by the voice recognition means to the external device by wireless communication. On the other hand, when the external device receives the identification signal from the headset, the external device starts an operation corresponding to the identification signal.
外部装置は、例えば、複数の識別信号と、これらの識別信号のそれぞれに対応する動作とを関連づけて格納するテーブルを有し、このテーブルを検索することによって、所望の動作を開始する。 The external device has, for example, a table that stores a plurality of identification signals and operations corresponding to the respective identification signals in association with each other, and starts a desired operation by searching this table.
この音声処理システムにより、ヘッドセットと無線通信可能な外部装置は、対応テーブルを格納するだけでよく、構成的な変更をほとんど要さない。ヘッドセットを装着したユーザは、音声コマンドにより、外部装置を操作することができる。 With this voice processing system, an external device capable of wireless communication with the headset need only store the correspondence table, and hardly requires a structural change. A user wearing the headset can operate the external device using a voice command.
本発明の第4の側面では、音声処理システムは、無線通信機能付きヘッドセットと、音声認識機能を有しヘッドセットと無線通信可能な外部装置とを含む。無線通信機能付きヘッドセットは、ヘッドセットの装着者の音声を検出して音声信号を生成するマイクロホンと、音声信号を無線通信により外部装置器へ送信する音声伝送手段とを備える。一方、外部装置は、ヘッドセットから送信された音声信号を受信する音声受信手段と、受信した音声信号を認識する音声認識手段とを備える。 In a fourth aspect of the present invention, a speech processing system includes a headset with a wireless communication function and an external device having a speech recognition function and capable of wireless communication with the headset. The headset with a wireless communication function includes a microphone that detects a voice of a wearer of the headset and generates an audio signal, and an audio transmission unit that transmits the audio signal to an external device by wireless communication. On the other hand, the external device includes a voice receiving unit that receives a voice signal transmitted from the headset, and a voice recognition unit that recognizes the received voice signal.
外部装置の音声認識手段は、たとえば、受信した音声信号の内容に対応する識別信号を生成し、外部装置は、生成された識別信号に対応する動作を行う。 For example, the voice recognition unit of the external device generates an identification signal corresponding to the content of the received voice signal, and the external device performs an operation corresponding to the generated identification signal.
あるいは、音声認識手段は、生成した識別信号を文字列に変換して出力する。この場合、外部装置は、表示部をさらに有し、音声認識結果としての文字列を表示する。 Alternatively, the voice recognition means converts the generated identification signal into a character string and outputs it. In this case, the external device further includes a display unit, and displays a character string as a voice recognition result.
このシステムでは、外部装置に音声認識機能を持たせる。外部装置が十分な容量と演算能力を有する場合、より難易度の高い音声認識を行うことが可能になる。 In this system, an external device has a voice recognition function. When the external device has a sufficient capacity and computing capacity, it is possible to perform voice recognition with a higher degree of difficulty.
また、外部装置にテキスト変換機能と表示機能を持たせることにより、ヘッドセットからの受信信号を受信しながら、ほとんどリアルタイムで音声を文字認識し、認識結果を画面に表示することが可能になる。 Further, by providing the external device with a text conversion function and a display function, it is possible to recognize characters in speech almost in real time while receiving a reception signal from the headset and display the recognition result on the screen.
本発明の第5の側面では、音声処理システムは、無線通信機能付きヘッドセットと、音声認識機能を有してヘッドセットと無線通信可能な第1の外部装置と、第1の外部装置と無線通信可能な第2の外部装置とを含む。無線通信機能付きヘッドセットは、ヘッドセットの装着者の音声を検出して音声信号を生成するマイクロホンと、この音声信号を無線通信により第1の外部装置へ送信する音声伝送手段とを備える。第1の外部装置は、ヘッドセットから送信された音声信号を受信する音声受信手段と、受信した音声を認識し、認識した音声信号の内容に対応する識別信号を特定する音声認識手段と、特定した識別信号を無線通信により第2の外部装置へ送信する認識結果伝送手段とを備える。第2の外部装置は、第1の外部装置から受信した単語IDに対応する動作を行う。 In a fifth aspect of the present invention, a speech processing system includes a headset with a wireless communication function, a first external device having a speech recognition function and capable of wireless communication with the headset, and a wireless communication with the first external device. A second external device capable of communication. The headset with a wireless communication function includes a microphone that detects a voice of a wearer of the headset and generates an audio signal, and an audio transmission unit that transmits the audio signal to the first external device by wireless communication. The first external device includes: a voice receiving unit that receives a voice signal transmitted from the headset; a voice recognition unit that recognizes the received voice and identifies an identification signal corresponding to the content of the recognized voice signal; And a recognition result transmission means for transmitting the identified signal to the second external device by wireless communication. The second external device performs an operation corresponding to the word ID received from the first external device.
このシステムによれば、ヘッドセットで採取したユーザの音声を、容量と演算能力の高い第1の外部装置を用いて音声認識し、この第1の外部装置を介して、第2の外部装置の操作を制御する。これにより、より複雑な音声処理が可能になる。 According to this system, the user's voice collected by the headset is recognized by using the first external device having a high capacity and computing capacity, and the second external device is connected via the first external device. Control the operation. As a result, more complicated audio processing can be performed.
本発明によれば、無線通信機能付きヘッドセットに、音声認識手段、音声伝送手段、それらを切り替えるための機能選択手段を備えることによって、ユーザの行動を妨げることなく、ユーザの意図に応じた音声認識をすることのできるヘッドセットが提供される。 According to the present invention, the headset with wireless communication function is provided with voice recognition means, voice transmission means, and function selection means for switching between them, so that the voice according to the user's intention can be obtained without disturbing the user's action. A headset capable of recognition is provided.
ヘッドセット内部において、簡便で低消費電力の音声認識を行うとともに、ヘッドセット外部の機器に音声データを伝送した場合は、難易度の高いより正確な音声認識を行うことができる。 In the headset, simple and low power consumption voice recognition is performed, and when voice data is transmitted to a device outside the headset, more accurate voice recognition with high difficulty can be performed.
また、音声認識処理機能と、音声伝送処理機能をユーザの選択により任意で一時停止することができ、無線通信機能付きヘッドセットの消費電力を節減することが可能となる。 Further, the voice recognition processing function and the voice transmission processing function can be arbitrarily paused by the user's selection, and the power consumption of the headset with the wireless communication function can be reduced.
さらに、ヘッドセットから音声データを大容量の第2の装置に転送した場合は、第2の装置においてリアルタイムで受信音声を認識し、テキスト変換、編集、保存、再生などを可能にする。これにより、システムの利便性がいっそう向上する。 Furthermore, when the voice data is transferred from the headset to the second device having a large capacity, the second device recognizes the received voice in real time and enables text conversion, editing, storage, reproduction, and the like. This further improves the convenience of the system.
本発明では音声認識機能を搭載した無線機能付ヘッドセットをウェアラブルおよびユビキタス時代最も人間に身近な機器として位置付けており、音声認識の高性能化と応用を拡大するとともに、ヘッドセットの小型低価格化を可能とする。 In the present invention, a wireless headset equipped with a voice recognition function is positioned as the most human-friendly device in the wearable and ubiquitous era, expanding the performance and application of voice recognition, and reducing the size and cost of the headset. Is possible.
また、人間にとって最も身近なヘッドセットと音声入力を利用することにより、高齢者や障害者の情報機器システムやネットワーク利用が加速され、さらには、各種機器システムとのインタラクションや、各種サービス・コンテンツとの利用が可能となる。結果として、各種機器システム産業、情報通信メディア産業、サービス産業の活性化に貢献できる。 In addition, the use of headsets and voice input that are most familiar to humans will accelerate the use of information equipment systems and networks for the elderly and persons with disabilities, as well as interaction with various equipment systems and various services and content. Can be used. As a result, it can contribute to the activation of various equipment system industries, information and communication media industries, and service industries.
以下、本発明の実施形態について図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
(第1実施形態)
図1および2は、本発明の第1実施形態に係る無線通信機能付きヘッドセット10の外観と、その概略システム構成を示す。無線通信機能付きヘッドセット10は、ヘッドセット10の装着者(ユーザ)の発する音声を検出して電気的な音声信号を生成するマイクロホン13と、この音声信号をデジタル変換を経て音声認識する音声認識部23と、音声認識部23による認識結果を無線通信モジュール17から外部の機器に送信する認識結果伝送手段25と、マイクロホン13で検出した音声信号を音声認識処理するか否かを選択する機能選択手段20を備える。機能選択手段は機能選択スイッチ14を含み、ユーザは、機能選択スイッチ14を操作することによって、任意で音声認識処理を選択できる。
(First embodiment)
1 and 2 show an appearance of a
無線通信機能付きヘッドセット(以下、場合に応じて単に「ヘッドセット」と称する)10は、左右の耳あて11を柔軟なフレームで接続した形状をしており、ユーザの頭部に装着して使用する。一方の耳あてからはアーム15が伸びており、その先端にマイクロホン13がついている。マイクロホンは、ユーザがヘッドセット10を装着したときに、ユーザのほぼ口元に位置し、周囲ノイズの重畳が少ない音声を検出する。
A headset with wireless communication function (hereinafter, simply referred to as “headset” in some cases) 10 has a shape in which left and right earpieces 11 are connected by a flexible frame, and is attached to a user's head. use. An arm 15 extends from one of the ears, and a
耳あて11の中には、スピーカ(左右)17、CPUボード16、無線通信モジュール17、バッテリー12が内蔵されている。いずれか一方の耳あての外側に機能選択スイッチ14が配置され、上述したように、ユーザの意思で音声認識処理を行うか否かを選択できる構成となっている。なお、図示はしないが各要素は必要に応じてケーブルで接続されている。
In the ear pad 11, speakers (left and right) 17, a
CPUボード16には、CPUとその周辺回路、メモリ(不図示)、A/D変換器21、機能選択部19などが搭載されている。A/D変換器21は、マイクロホン13で検出したアナログ音声信号をデジタル音声信号に変換し、変換結果をCPUに入力する。機能選択部19は、機能選択スイッチ14の状態を検出してCPUに通知する。
The
無線通信モジュール17は、外部の機器とデジタル無線通信を行う。より具体的には、CPUボード16から送られてきた信号を、外部の他の機器(不図示)に送信し、他の機器から発信された信号を受信してCPUボード16に転送する送受信機能を持つ。
The wireless communication module 17 performs digital wireless communication with an external device. More specifically, a transmission / reception function for transmitting a signal sent from the
音声認識手段はCPUボード16上のA/D 変換器21および音声認識部23を含む。音声伝送手段25は、CPUボード16上のCPU及びその周辺回路と、無線通信モジュール17とで実現される。機能選択手段20は機能選択スイッチ14と、CPUボード16上のCPU及び周辺回路で実現され、その出力が音声認識部23に接続される。上述したように、ユーザが機能選択スイッチ14を操作することにより、音声認識部の処理動作を制御することができる。
The voice recognition means includes an A /
図1および2に示すヘッドセット10の概観およびシステム構成は本発明の技術思想を実現するための一例に過ぎず、このような構成に限定されるわけではない。例えば、音声認識手段として、専用の音声認識処理を行う回路を備えていてもよい。また、例えば、信号処理を高速で行うためのDSPを備えていてもよい。さらに、例えば、機能選択スイッチ14は2個に分割して両耳あてに配置してもよい。
The overview and system configuration of the
図3は、機能選択スイッチ14の一例を示す。ユーザは必要に応じて、機能選択スイッチ14を操作して、2つの状態を切り替えることができる。ここでは、ユーザが、マイクロホン13で検出した音声信号を音声認識部23で処理することを選択した場合には状態1、処理しないことを選択した場合には状態2とする。
FIG. 3 shows an example of the
機能選択スイッチ14は、たとえば2個の押しボタンスイッチを有し、常にいずれか一方のみがON になるタイプのスイッチとする。ユーザが押しボタンスイッチ31を押してONにした場合には、機能選択スイッチ14は状態1になる。これに連動して、押しボタンスイッチ32は自動的にOFFになる。逆に、ユーザが押しボタンスイッチ32を押してONにした場合には、機能選択スイッチ14は状態2になり、他方の押しボタンスイッチ31は自動的にOFFになる。機能選択部20は機能選択スイッチ14の状態に応じて、状態1であれば音声認識動作信号を音声認識部23に出力し、状態2であれば音声認識停止信号を音声認識部23に出力する。
The
音声認識部23は、機能選択部19の出力が音声認識動作信号の場合には、マイクロホンで検出した音声信号を認識して、その出力を認識結果伝送手段25に送る。機能選択部19の出力が音声認識停止信号の場合には、その動作を停止する。
When the output of the
図4は、音声認識部23の内部構成を示す。A/D変換器21の出力は、まず認識用信号遮断機41に入力される。認識用信号遮断機41の動作は、機能選択部19の出力信号によって制御される。機能選択部19の出力が音声認識動作信号である場合は、A/D変換器21から出力される信号を音響分析部に入力する。機能選択部の出力信号が音声認識停止信号の場合には、A/D変換器21からの出力を遮断する。
FIG. 4 shows the internal configuration of the
より具体的には、機能選択部19の出力が音声認識動作信号である場合、認識用信号遮断機41が閉じられ、A/D変換器21から出力されるデジタル音声信号は、音響分析部43に入力される。音響分析部43は、入力された音声を特徴パラメータに変換する。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換で求めることができるパワースペクトルや、LPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。音響分析部43は、一定時間ごとに入力音声を特徴パラメータに変換する。したがってその出力は特徴パラメータの時系列(特徴パラメータ系列)となる。この特徴パラメータ系列はモデル照合部45に供給される。
More specifically, when the output of the
一方、認識語彙記憶部47には、認識語彙を構成する各単語の音声モデルを作成するために必要な単語の読み情報と、各単語が認識されたときに認識結果に対応する識別子、たとえばコマンドIDが記憶されている。なお、本実施形態では、ヘッドセット内の音声認識として、単語認識による音声制御を例にとって説明するが、本発明はこれに限定されるものではない。ヘッドセット内の音声認識部23は、連続単語認識、文認識、単語スポッティング、音声意図理解など、演算量、メモリ容量、消費電力が少ない音声認識を行い、その結果を無線通信により外部機器システムに伝送することができる。
On the other hand, in the recognized
認識モデル作成・記憶部49は、認識語彙記憶部47に記憶された認識語彙にしたがって、各単語の音声モデルと、各単語が認識結果となったときに認識結果として照合部45から出力される識別信号としての単語IDをあらかじめ記憶しておく。もちろん、単語認識以外の認識を行う場合は、それに応じた識別信号を格納する。
The recognition model creation /
モデル照合部45は、音声モデル作成・記憶部49に記憶しておいた認識対象とする単語の各音声モデルと、上記入力音声の特徴パラメータ系列との類似度あるいは距離を求め、類似度が最大(あるいは距離が最小)の音声モデルと対応付けられた単語IDを認識結果として出力する。
The
モデル照合部45の照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画法)で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める方法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する手法などが広く使用されているが、特に手法は問わない。
As a matching method of the
モデル照合部45から出力された単語IDは、そのまま音声認識部23の出力となり、認識結果伝送手段25(図2参照)に入力される。認識結果伝送部25は、無線通信モジュール17の送信機能を用いて、他の機器に単語IDを無線送信する。
The word ID output from the
機能選択部19の出力が音声認識停止信号である場合は、認識用信号遮断機41は開いており、A/D信号は音響分析部43に入力されない。したがって、音響分析部43からの出力はない。同様に、モデル照合部45への入力も無いため、モデル照合部45からの出力もない。
When the output of the
このように、ヘッドセット10のユーザが、音声認識手段で処理をしないことを選択した場合(すなわち機能選択スイッチ14の状態が状態2の場合)、音響分析部43、モデル照合部45、認識結果伝送手段25による一連の処理は行われない。この場合、演算量は大きく減少する。音響分析部43、モデル照合部45、認識結果伝送手段25を実現しているCPUが演算能力および使用電力を一時的に低減する省電力モードを持っている場合には、機能選択スイッチ14の状態が状態2になったとき、あるいは音声認識停止信号を検出したときに、CPUを省電力モードに移行させることが可能である。ユーザが音声信号を音声認識手段で処理しないことを選択している間は、CPUが省電力モードで動作するため、バッテリーに対する負荷が減少し、無線通信機能付きヘッドセットの動作時間を延長することができる。機能選択スイッチ14が状態2を脱した時(すなわち音声認識動作信号が出力されたとき)には、速やかにCPUを通常モードに移行させ、本来の演算能力が発揮できる状態とする。
As described above, when the user of the
図5は、ヘッドセット内に設けられた認識語彙記憶部47の記憶内容の一例を示す。この例では、ヘッドセット10を装着したユーザが、音声コマンドでエアコンの制御を行う。従って、ユーザの発した音声を音声認識部23が認識した結果は、無線通信によりエアコンに送信される。
FIG. 5 shows an example of the stored contents of the recognized
図5の例では、認識語彙として、「えあこんつける」、「えあこんとめる」、「おんどあげる」、「おんどさげる」を格納し、各語彙にそれぞれ「01」、「02」、「03」、「04」の単語IDが与えられている。ユーザが発した「エアコンつける」という音声がヘッドセット10の音声認識部23で認識された場合、ID「01」がエアコンに対して無線送信されることになる。
In the example of FIG. 5, “Eakontsu”, “Eatontome”, “Ondo Rae”, and “Ondo Sagaru” are stored as recognition vocabulary, and “01” and “02” are stored in each vocabulary. , “03”, “04”. When the
認識語彙記憶部47の記憶内容にしたがって、音声モデル作成・記憶部49の記憶内容が作成される。図5の記憶内容の例では、「えあこんつける」、「えあこんとめる」、「おんどあげる」、「おんどさげる」の各言葉に対応する音響モデルが作成され、それぞれの言葉の識別信号(単語ID)と組になって記憶される。
In accordance with the stored content of the recognized
一方、エアコンは、図6に示すように、それぞれの単語IDを、それに対応する動作と組にして記憶している。したがって、ヘッドセットから音声認識結果(すなわち単語ID)を受信すると、その単語IDに対応した動作を行う。 On the other hand, as shown in FIG. 6, the air conditioner stores each word ID in combination with the corresponding operation. Therefore, when a voice recognition result (ie, word ID) is received from the headset, an operation corresponding to the word ID is performed.
図7(a)は、ヘッドセットのユーザが、機能切り替えスイッチ14によって音声認識処理モードを選択している状態で、「エアコンつける」と発声したところを示している。ユーザが発声した音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。機能選択スイッチ14の状態が状態1であるため、機能選択手段19は音声認識動作信号を出力している。したがって認識用信号遮断機41は閉になっており、デジタル信号は音声分析部43に入力されて特徴量パラメータ系列に変換され、照合部45に入力される。照合部45は入力された特徴パラメータ系列と、音響モデル作成・記憶部49に記憶された各単語の音声モデルを照合する。その結果、「えあこんつける」に対応する音声モデルの類似度がもっとも高くなった場合には、照合部45は認識結果として単語ID「01」を出力する。
FIG. 7A shows a case where the user of the headset utters “turn on the air conditioner” in a state where the voice recognition processing mode is selected by the
単語ID「01」は認識結果伝送手段25に入力され、エアコンに単語ID「01」が送信される。 The word ID “01” is input to the recognition result transmission means 25, and the word ID “01” is transmitted to the air conditioner.
エアコンは単語ID「01」を受信すると、図6の対応テーブルにしたがって、エアコン機能の動作を開始する。図7(b)は、ヘッドセットのユーザが、機能切り替えスイッチ14で音声認識処理しないモードを選択している状態で、「エアコンつける」と発声したところを示している。ユーザが発声した音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。機能選択スイッチ14が状態2であるため、機能選択手段19は音声認識停止信号を出力している。したがって認識用信号遮断機41は開になっており、デジタル信号は音声分析部43に入力されない。この場合、認識結果は得られず、エアコンに認識結果は送信されない。エアコンは動作を開始しない。
When the air conditioner receives the word ID “01”, the operation of the air conditioner function is started according to the correspondence table of FIG. FIG. 7B shows a case where the user of the headset utters “turn on air conditioner” in a state where the
上述した無線通信機能付きヘッドセット10は、付属のマイクロホン13を使ってユーザの音声を検出する。付属マイクロホン13は、ユーザの口付近に配置されるため、マイクロホンで検出した音声信号は周辺ノイズの重畳が少なく、その音声を認識する場合に高い認識性能を得ることができる。
The above-described
認識された音声コマンドを無線通信により他の機器に送信するので、ケーブルを必要とせず、ユーザの行動が妨げられることはない。 Since the recognized voice command is transmitted to another device by wireless communication, a cable is not required and the user's action is not hindered.
ヘッドセット10の側で音声の認識を行うため、このヘッドセットと無線通信できる機能を持つ機器は、音声認識技術を搭載しなくても、ユーザが発する音声で操作することが可能になる。
Since voice recognition is performed on the
さらに、音声認識手段で処理するか否かを選択する機能選択手段を備えているため、ユーザは自分の意思で、自分が発した音声を音声認識処理しないことが選択できる。音声認識手段の動作中は大量の計算をリアルタイムで行って検出した音声信号を処理するために、高速な動作クロックで演算装置を駆動する必要があるが、音声認識手段で音声を処理しない場合には音声認識にかかわる計算をする必要がなくなり、演算装置の動作クロックを低下させることが可能である。演算装置は、動作クロックが高いほどその消費電力が高くなるため、音声認識手段での処理を停止させることによって、無線通信機能付きヘッドセットの消費電力を大幅に低下させることが可能となる。無線通信機能付きヘッドセットは、外部から電力の供給を受けられず、電池もしくは蓄電池により動作する。したがって、消費電力が低下することは、無線通信機能付きヘッドセットの動作時間を延長できることになり、無線通信機能付きヘッドセットの有用性が向上する。 Further, since the function selection means for selecting whether or not to process by the voice recognition means is provided, the user can select not to perform the voice recognition process on the voice he / she made by his / her own intention. While the voice recognition means is operating, it is necessary to drive the arithmetic unit with a high-speed operation clock in order to process a large amount of calculation in real time and process the detected voice signal, but when the voice recognition means does not process the voice Can eliminate the need for calculations related to speech recognition, and can reduce the operation clock of the arithmetic unit. Since the arithmetic device has higher power consumption as the operation clock is higher, it is possible to significantly reduce the power consumption of the headset with the wireless communication function by stopping the processing in the voice recognition means. The headset with a wireless communication function cannot be supplied with power from the outside, and operates with a battery or a storage battery. Therefore, when the power consumption is reduced, the operation time of the headset with the wireless communication function can be extended, and the usefulness of the headset with the wireless communication function is improved.
(第2実施形態)
図8は本発明の第2実施形態に係るヘッドセットのシステム構成例を示す。第1実施形態では、音声信号は、音声認識部で簡便に分析、照合され、ユーザが発した語彙に対応する識別(ID)信号が、制御対象である外部の機器に無線送信される構成を示した。第2実施形態では、ヘッドセット内での音声認識に加え、音声認識前の音声データをリアルタイムで他の機器に無線送信する構成例を説明する。
(Second embodiment)
FIG. 8 shows a system configuration example of a headset according to the second embodiment of the present invention. In the first embodiment, a voice signal is simply analyzed and verified by a voice recognition unit, and an identification (ID) signal corresponding to a vocabulary issued by a user is wirelessly transmitted to an external device to be controlled. Indicated. In the second embodiment, a configuration example in which voice data before voice recognition is wirelessly transmitted to other devices in real time in addition to voice recognition in the headset will be described.
まず、マイクロホン13で検出した音声信号は、A/D変換器21に入力され、アナログ信号からデジタル音声信号に変換される。デジタル音声信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53に入力される。
First, an audio signal detected by the
機能選択手段50は、機能選択スイッチ51と機能選択部19とで構成される。機能選択スイッチ51を操作して、ユーザは必要に応じて2つの状態を切り替えることができる。ここでは、マイクロホンで検出した音声信号を音声認識部23で処理することを選択した場合には状態1、マイクロホンで検出した音声信号を音声伝送手段53で処理することを選択した場合には状態2となることにする。
The
図9は、機能選択スイッチ51の一例を示す。機能選択スイッチ51には、2個の押しボタンスイッチがついている。この2個の押しボタンスイッチは常にいずれか一方のみがONになるようになっている。ユーザが押しボタンスイッチ51を押してONにした場合には、機能選択スイッチは状態1になる。これに連動して押しボタンスイッチ101は自動的にOFFになる。ユーザが押しボタンスイッチ102を押してONにした場合には、機能選択スイッチは状態2になる。これに連動して押しボタンスイッチ101は自動的にOFFになる。機能選択部19は、機能選択スイッチ51が状態1にある場合は、音声認識部23に音声認識動作信号を出力すると同時に、音声伝送手段53に対しては音声伝送停止信号を出力する。機能選択スイッチ51が状態2の場合は、音声認識部23に音声認識停止信号を出力すると同時に、音声伝送手段53に音声伝送動作信号を出力する。音声認識部23の動作は、第1実施形態で説明したのと同様である。
FIG. 9 shows an example of the
図10は、音声伝送部手段53の内部構成を示す。
FIG. 10 shows an internal configuration of the
A/D変換器21でデジタル信号に変換された音声信号は、まず伝送用信号遮断機55に入力される。伝送用信号遮断機55は、機能選択部19から出力信号が伝送動作信号の場合には閉じられ、A/D変換器21から出力される信号を、音声符号化部57に入力する。機能選択部19の出力信号が伝送停止信号の場合には、伝送信号遮断器55は開き、A/D変換器21からの出力を遮断する。
The audio signal converted into a digital signal by the A /
音声符号化部57は、伝送用遮断器55を介して入力されたデジタル音声信号を、あらかじめ定められた方法で符号化する。デジタル音声信号を符号化するための処理として、ADPCM等による圧縮処理、符号化パラメータや伝送誤りを訂正するための情報付加などが考えられるが、ここでは具体的な処理内容は問わない。
The
符号化されたデータは、音声伝送部59へ入力される。音声伝送部59は無線モジュール17(図1)の送信機能を利用して、符号化データを他機器へ無線送信する。
The encoded data is input to the
図11は、第2実施形態に係る無線通信機能付きヘッドセットの具体的動作を示す。ここでは、ユーザが無線通信機能付きヘッドセットを使用して、室内にあるエアコンとパーソナルコンピュータの双方を無線制御する例を説明する。マイクロホンで採取されたユーザの音声は、ひとつには、ヘッドセットの認識結果送信手段25の出力としてエアコンに無線送信され、他方では、音声伝送手段53の出力(符号化データ)としてパーソナルコンピュータに無線送信される。 FIG. 11 shows a specific operation of the headset with a wireless communication function according to the second embodiment. Here, an example will be described in which a user wirelessly controls both an air conditioner and a personal computer in a room using a headset with a wireless communication function. The user's voice collected by the microphone is wirelessly transmitted to the air conditioner as an output of the headset recognition result transmission means 25, and on the other hand, to the personal computer as an output (encoded data) of the voice transmission means 53. Sent.
ヘッドセット内の音声認識部23の認識語彙記憶部47と音声モデル作成・記憶部49の記憶内容、およびエアコン側の設定記憶内容は、第1実施形態と同様のものとする。また、パーソナルコンピュータには、大容量のハードディスクが接続されており、無線通信機能付きヘッドセットから受信した音声データは、すべてこのハードディスクに蓄積されるものとする。
The storage contents of the recognition
図11(a)の例では、ユーザが、機能切り替えスイッチ51によって音声認識モードに設定した状態で、「えあこんつける」と音声コマンドを発声したところを示している。ユーザが発声した音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。デジタル信号は二分され、上述したように、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。
In the example of FIG. 11A, the user has uttered a voice command “Electrify” with the
このとき、機能選択スイッチ51の状態1であるため、機能選択部19は音声認識動作信号を音声認識部23に出力し、また、音声伝送停止信号を音声伝送手段53に出力する。
At this time, since the
音声認識部23に入力されるデジタル信号は、まず認識用信号遮断機41に入力される。機能選択部19からの音声認識動作信号によって認識用信号遮断機41が閉になっているため、デジタル信号はそのまま音響分析部43に入力される。照合以降の処理は第1実施形態と同様である。すなわち、モデル照合部45から認識結果として識別信号「01」が出力され、認識結果伝送手段25から信号「01」がエアコンに無線送信される。
The digital signal input to the
一方、音声伝送手段53に入力されるデジタル信号は、伝送用信号遮断機55に入力される。機能選択部19が音声伝送停止信号を出力しているため、伝送用信号遮断機は開である。したがって、デジタル信号は音声符号化部に入力されず、以降の処理は行われない。
On the other hand, the digital signal input to the voice transmission means 53 is input to the transmission signal blocker 55. Since the
図11(b)は、ユーザが、機能切り替えスイッチ51で声伝送手段処理モードを選択している状態で、「今日は音楽について話します」と発声したところである。ユーザが発声した音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。デジタル信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。
FIG. 11 (b) shows that the user uttered “I will talk about music today” in the state where the voice transmission means processing mode is selected with the
機能選択スイッチ51が状態2であるため、機能選択部19は音声認識停止信号を音声認識部23に出力し、また、音声伝送動作信号を音声伝送手段53に出力する。
Since the
音声認識部23に入力されるデジタル信号は、まず認識用信号遮断機41に入力されるが、機能選択部19が音声認識停止信号を出力しているため、認識用信号遮断機41は開である。したがって、デジタル信号は音響分析部43には入力されず、以降の処理は行われない。
The digital signal input to the
一方、音声伝送手段53に入力されるデジタル信号は、まず伝送用信号遮断機55に入力される。機能選択部が音声伝送動作信号を出力しているため、伝送用信号遮断機55は閉である。したがって、デジタル信号は音声符号化部57で符号化され、音声伝送部59から無線通信モジュール17を介して、パーソナルコンピュータに無線送信される。
On the other hand, the digital signal input to the audio transmission means 53 is first input to the transmission signal blocker 55. Since the function selection unit outputs the audio transmission operation signal, the transmission signal blocker 55 is closed. Therefore, the digital signal is encoded by the
パーソナルコンピュータは、ヘッドセットから送られてきた符号化音声を復号して、デジタル音声信号に戻し、ハードディスクに記録する。すなわち、ユーザが喋った内容が、ヘッドセットから無線通信により、パーソナルコンピュータに記録される。パーソナルコンピュータの容量は十分にあるので、ユーザの話した内容は、音声としてでも、テキスト変換した状態ででも格納することができる。また、記録された音声は、適宜検索、再生することができる。 The personal computer decodes the encoded audio sent from the headset, returns it to a digital audio signal, and records it on the hard disk. That is, the content that the user has spoken is recorded in the personal computer by wireless communication from the headset. Since the capacity of the personal computer is sufficient, the content spoken by the user can be stored as speech or in a text-converted state. The recorded voice can be searched and reproduced as appropriate.
また、後述するように、パーソナルコンピュータに音声認識機能を設けた場合は、ヘッドセットから送信された音声信号により難易度の高い正確な音声認識処理を施すことができる。 Further, as will be described later, when a voice recognition function is provided in a personal computer, it is possible to perform an accurate voice recognition process with a high degree of difficulty using a voice signal transmitted from a headset.
このような構成により、無線機能付きヘッドセットを着用したユーザは、ハンズフリーの状態で、自己の選択に応じて、複数の機器を対象に、音声の処理を行うことができる。たとえば、音声コマンドによる他の機器の制御のみならず、自分が話した内容をリアルタイムで記録することも可能になる。 With such a configuration, a user wearing a headset with a wireless function can perform audio processing on a plurality of devices in a hands-free state according to his / her selection. For example, it is possible not only to control other devices by voice commands, but also to record the content of what you have spoken in real time.
(第3の実施形態)
図12および13は、本発明の第3実施形態に係る無線機能付きヘッドセットのシステム構成の概略を示す。
(Third embodiment)
12 and 13 schematically show the system configuration of a headset with a wireless function according to the third embodiment of the present invention.
第3実施形態では、第2実施形態同様に、音声信号は、音声コマンドのための音声認識処理と、音声データの無線送信のための伝送処理の双方で処理可能である。第3実施形態では、機能選択スイッチにこれらの2つの処理モードに加え、どちらでも処理しないOFFモードを追加する。 In the third embodiment, as in the second embodiment, the voice signal can be processed by both voice recognition processing for voice commands and transmission processing for wireless transmission of voice data. In the third embodiment, in addition to these two processing modes, an OFF mode that does not process either is added to the function selection switch.
図12および13に示すように、機能選択手段60は、機能選択スイッチ61と機能選択部19とで構成される。ユーザは必要に応じて、機能選択スイッチ61で3つの状態を切り替えることができる。ユーザが、自分が発した音声の音声認識処理を選択した場合には状態1、音声を音声伝送処理することを選択した場合は状態2、音声を音声認識手段でも音声伝送手段でも処理しないことを選択した場合は状態3とする。
As shown in FIGS. 12 and 13, the function selection means 60 includes a
機能選択スイッチ61の一例を図13に示す。機能選択スイッチ61には、3つの押しボタンスイッチが設けられており、これら3つのボタンは、常にいずれか1つだけがON状態であるように構成される。ユーザが押しボタンスイッチ101を押して音声認識をONにした場合、機能選択スイッチ61は状態1になる。これに連動して押しボタンスイッチ102、103は自動的にOFFになる。ユーザが押しボタンスイッチ102を押して音声伝送をONにした場合には、機能選択スイッチ61は状態2になり、これに連動して押しボタンスイッチ101、103は自動的にOFFになる。押しボタンスイッチ103が押された時は、機能選択スイッチ61は状態3になり、これに連動して、押しボタンスイッチ101、102は自動的にOFFになる。
An example of the
機能選択部19は、機能選択スイッチ61の状態が状態1の場合には、音声認識部23に音声認識動作信号を出力すると同時に、音声伝送手段53に音声伝送停止信号を出力する。機能選択スイッチ61の状態が状態2の場合には、音声認識部23に音声認識停止信号を出力すると同時に、音声伝送手段53に音声伝送動作信号を出力する。機能選択スイッチ61の状態が状態3の場合には、音声認識部23に音声認識停止信号を出力すると同時に、音声伝送手段53にも音声伝送停止信号を出力する。
When the state of the
音声認識部23の動作は、第1および第2実施形態と同様であり、音声伝送手段53の動作は、第2実施形態と同様である。
The operation of the
ユーザが、音声認識部23でも音声伝送手段53でも処理をしないことを選択した場合、すなわち機能選択スイッチ61が状態3の場合、音声認識停止信号及び音声伝送停止信号によって、認識用遮断機41、伝送用遮断機55の双方が開になっている。したがって、音響分析部43、モデル照合部45、認識結果伝送手段25、音声符号化部57、音声伝送部59の処理は行われず、演算量は大きく低減する。
When the user selects not to perform processing in either the
音響分析部43、モデル照合部45、音声符号化部57、音声伝送部59を実現するCPUが省電力モードを有する場合には、ユーザがOFFモードを選択した場合(すなわち、機能選択スイッチ61が状態3になったとき、もしくは音声認識停止信号と音声伝送停止信号が検出されたとき)、CPUを省電力モードに移行させることが可能である。省電力モードでは、CPUの演算能力と使用電力を低減させて電力を節約することができる。したがって、バッテリーに対する負荷が減少し、ヘッドセットの動作時間を延長することができる。機能選択スイッチ61が状態3から脱したとき、あるいは音声認識動作信号と音声伝送動作信号の少なくとも一方が出力されたときは、速やかにCPUを本来の演算能力が発揮できる通常モードに移行させればよい。
When the CPU that implements the
図14および15は、第3実施形態に係る無線通信機能付きヘッドセットの具体的動作を例示する。第2実施形態と同様に、ヘッドセットを着用したユーザが、室内のエアコンとパーソナルコンピュータに対して、音声コマンドによる制御、または音声データの伝送を行う場面を想定する。 14 and 15 illustrate specific operations of the headset with the wireless communication function according to the third embodiment. As in the second embodiment, it is assumed that a user wearing a headset performs control by voice commands or transmission of voice data to an indoor air conditioner and a personal computer.
音声認識部23の認識語彙記憶部47と音声モデル作成・記憶部49の記憶内容およびエアコンのテーブル設定は、第1、第2の実施形態と同様である。また、第2実施形態と同様に、パーソナルコンピュータには大容量のハードディスクが接続されており、無線通信機能付きヘッドセットから受信した音声データはすべてこのハードディスクに蓄積されるものとする。
The storage contents of the recognition
図14(a)は、ユーザが機能選択スイッチ61で音声認識モードを選択して、マイクロホンに向かって「えあこんつける」と音声コマンドを発声したところを示す。ユーザの音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。デジタル信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。機能選択スイッチ61が状態1であるため、機能選択部19は音声認識動作信号を音声認識部23に出力し、音声伝送停止信号を音声伝送手段53に出力する。この場合、第2実施形態(図11(a))と同様に、エアコンに対してコマンド「01」が無線送信され、エアコンは動作を開始する。一方、パーソナルコンピュータに音声データは転送されない。
FIG. 14A shows a state where the user selects the voice recognition mode with the
図14(b)は、ユーザが、機能切り替えスイッチ61で音声伝送モードを選択した状態で「今日は音楽について話します」と発声したところを示している。ユーザが発声した音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。デジタル信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。
FIG. 14B shows a state where the user utters “I will talk about music today” in a state where the audio transmission mode is selected with the
機能選択スイッチ61は状態2にあるため、機能選択部19は音声認識停止信号を音声認識部23に出力し、音声伝送動作信号を音声伝送手段53に出力する。このとき、第2実施形態(図11(b))と同様に、エアコンに対してはなにも送信されないが、パーソナルコンピュータに符号化された音声信号が送信される。これにより、ユーザは自分が話した内容を、たとえばPC内のメモリに記録することができる。パーソナルコンピュータ側にも、コマンド語彙と単語IDのテーブルが設定されている場合には、記録に際して、ユーザはパーソナルコンピュータに対して音声認識処理済みの音声コマンドを無線送信し、コンピュータをONにすることも可能である。
Since the
図15は、機能切り替えスイッチ61がOFFモード、すなわち音声認識も音声伝送処理もしないことを選択している状態で、ユーザが「今日は音楽について話します」と発声したところを示している。ユーザが発声した音声はマイクロホンで検出され、A/D変換部21でデジタル信号に変換される。デジタル信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。
FIG. 15 shows a state in which the user utters “Today I will talk about music” in a state where the
機能選択スイッチ61が状態3であるため、機能選択部19は、音声認識停止信号を音声認識部23に出力し、音声伝送停止信号を音声伝送手段53に出力する。
Since the
音声認識手段23に入力されるデジタル信号は、まず認識用信号遮断機41に入力されるが、機能選択部19が音声認識停止信号を出力しているため、認識用信号遮断機41は開である。したがって、デジタル信号は音響分析部43に入力されず、以降の処理は行われない。
The digital signal input to the voice recognition means 23 is first input to the recognition signal blocker 41. However, since the
同様に、音声伝送手段53に入力されるデジタル信号は、まず伝送用信号遮断機55に入力されるが、機能選択部19が音声伝送停止信号を出力しているため、伝送用信号遮断機55も開である。したがって、デジタル信号は音声符号化部57に入力されず、以降の処理は行われない。
Similarly, the digital signal input to the voice transmission means 53 is first input to the transmission signal blocker 55. However, since the
したがってエアコンに音声制御信号は送られず、パーソナルコンピュータにも音声データは送信されない。しかしユーザは、音声の認識処理やそれにともなう動作、たとえば他機器の制御やディクテーションを目的としない機能を使用することは可能である。したがって、ユーザはヘッドセットに内蔵されたスピーカで音楽や第三者の音声を聞くことができる。 Therefore, no audio control signal is sent to the air conditioner, and no audio data is sent to the personal computer. However, the user can use functions that are not intended for voice recognition processing and operations associated therewith, for example, control or dictation of other devices. Therefore, the user can listen to music or a third party's voice through the speaker built in the headset.
(第4実施形態)
図16および17は、本発明の第4実施形態に係る無線通信機能付きヘッドセットのシステム構成の概略を示す。
(Fourth embodiment)
16 and 17 schematically show the system configuration of a headset with a wireless communication function according to the fourth embodiment of the present invention.
マイクロホン13で検出された音声はA/D変換器21に入力され、アナログ信号からデジタル音声信号に変換される。デジタル音声信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。
The sound detected by the
機能選択手段70は、機能選択スイッチ71と機能選択部19とで構成される。機能選択スイッチ71は、ユーザの操作により3状態を切り替えることができる。ユーザが、マイクロホン13で検出した音声信号を音声認識部23で処理することを選択した場合には状態1、マイクロホン13で検出した音声信号を音声伝送手段53で処理することを選択した場合は状態2、マイクロホン13で検出した音声信号を音声認識部23と音声伝送手段53の両方で処理することを選択した場合には状態3とする。
The
図17は、機能選択スイッチ71の一例を示す。機能選択スイッチ71は、音声認識ボタン101、音声伝送ボタン102、両モードボタン104の3つの押しボタンスイッチを有する。これらの押しボタンスイッチは、常にいずれか1つのみがONになるように構成される。ユーザが押しボタンスイッチ101をONにした場合には、機能選択スイッチ71は状態1になり、これに連動して押しボタンスイッチ102,104は自動的にOFFになる。同様に、ユーザが押しボタンスイッチ102をONにした場合には、機能選択スイッチ71は状態2になり、これに連動して押しボタンスイッチ101,104は自動的にOFFになる。押しボタンスイッチ104がONにされた場合には、機能選択スイッチ71は状態3になり、これに連動して押しボタンスイッチ101、102は自動的にOFFになる。
FIG. 17 shows an example of the
機能選択部19は、機能選択スイッチ71が状態1の場合には、音声認識部23に音声認識動作信号を出力し、音声伝送手段53に音声伝送停止信号を出力する。機能選択スイッチ71が状態2の場合は、音声認識部23に音声認識停止信号を出力し、音声伝送手段53に音声伝送動作信号を出力する。機能選択スイッチ71が状態3の場合は、音声認識部23に音声認識動作信号を出力すると同時に、音声伝送手段53に音声伝送動作信号を出力する。
When the
音声認識部23および音声伝送手段53の動作は、先に述べた実施形態と同様である。
The operations of the
図18は、図16の無線通信機能付きヘッドセットの具体的動作を説明するための図である。図18(a)および18(b)に示す例では、第3実施形態と同様、無線通信機能付きヘッドセットを着用したユーザが、機能選択スイッチ71で音声認識モードと音声伝送モードとを切り替え選択して、エアコンの音声制御と、パーソナルコンピュータへの音声データの送信、記録を行う。ヘッドセットの認識語彙記憶部およびの音声モデル作成・記憶部の記憶内容は、第1実施形態の例と同様である。エアコン側の設定も第1の実施形態の例と同様であり、また、パーソナルコンピュータには大容量のハードディスクが接続されており、無線通信機能付きヘッドセットから受信した音声データはすべてこのハードディスクに蓄積されるものとする。
FIG. 18 is a diagram for explaining a specific operation of the headset with the wireless communication function of FIG. In the example shown in FIGS. 18A and 18B, as in the third embodiment, the user wearing the headset with the wireless communication function switches and selects the voice recognition mode and the voice transmission mode with the
図19は、ユーザが機能切り替えスイッチ71で、音声認識と音声伝送の双方で音声を処理することを選択している状態である。ヘッドセットを着用したユーザは、「エアコンいれて」と発声したところである。ユーザが発声した音声はマイクロホン13で検出され、A/D変換部21でデジタル信号に変換される。デジタル信号は二分され、一方は音声認識部23へ入力され、もう一方は音声伝送手段53へ入力される。
FIG. 19 shows a state in which the user has selected to process the voice in both voice recognition and voice transmission with the
機能選択スイッチ71が状態3であるため、機能選択部19は音声認識動作信号を音声認識部23に出力し、かつ、伝送動作信号を音声伝送手段53に出力する。
Since the
音声認識部23に入力されるデジタル信号は、まず認識用信号遮断機41に入力される。機能選択部19が音声認識動作信号を出力しているため、認識用信号遮断機41は閉である。デジタル音声信号は音響分析部に入力され、認識結果「01」がエアコンに無線送信され、エアコンは動作を開始する。
The digital signal input to the
一方、音声伝送手段53に入力されるデジタル信号は、まず伝送用信号遮断機55に入力される。機能選択部19が音声伝送動作信号を出力しているため、伝送用信号遮断機55も閉になる。デジタル音声信号は音声符号化部に入力され、符号化された音声信号がパーソナルコンピュータに無線送信される。
On the other hand, the digital signal input to the audio transmission means 53 is first input to the transmission signal blocker 55. Since the
この場合、パーソナルコンピュータに蓄積された音声データには、無線通信機能付きヘッドセットの音声認識部23で認識されることが期待されて発声された音声成分も含まれている。したがって、パーソナルコンピュータの中に蓄積された音声を再生することで、音声認識部23の操作履歴を調べることが可能である。
In this case, the voice data stored in the personal computer includes a voice component uttered in expectation of being recognized by the
第4実施形態では、ユーザが発声した音声が、機器制御のための音声コマンドとして認識されると同時に、パーソナルコンピュータに記録、蓄積される音声データとしても処理される。このような構成のヘッドセットは、例えば、研究室や工場等で、装置、機器をキー操作なしに音声コマンドで遠隔制御しつつ、同時にその操作制御記録をコンピュータ等に記録することが可能になる。また、ヘッドセット内での音声認識処理は、単語認識に基づいた音声コマンドの処理を例にとっているが、上述したように、本発明のヘッドセットの音声認識はこれに限定されない。 In the fourth embodiment, a voice uttered by a user is recognized as a voice command for device control, and at the same time, processed as voice data recorded and stored in a personal computer. A headset having such a configuration, for example, in a laboratory or factory can remotely control devices and equipment with voice commands without key operations, and simultaneously record the operation control records on a computer or the like. . The voice recognition processing in the headset is exemplified by voice command processing based on word recognition. However, as described above, the voice recognition of the headset of the present invention is not limited to this.
(第5実施形態)
図20は、本発明の第5実施形態に係る無線通信機能付きヘッドセットのシステム構成の概略を示す。第5実施形態は、上述した第3実施形態と第4実施形態を組み合わせたものであり、機能選択スイッチが、音声認識モード、音声伝送モード、OFFモード、音声認識/伝送モードの4つのモードを有する。
(Fifth embodiment)
FIG. 20 shows an outline of the system configuration of a headset with a wireless communication function according to the fifth embodiment of the present invention. The fifth embodiment is a combination of the third embodiment and the fourth embodiment described above, and the function selection switch has four modes: a voice recognition mode, a voice transmission mode, an OFF mode, and a voice recognition / transmission mode. Have.
第3および第4実施形態と同様に、マイクロホン13で検出された音声はA/D変換器21に入力され、アナログ信号からデジタル音声信号に変換される。デジタル音声信号は二分され、一方は音声認識部23に入力され、もう一方は音声伝送手段53に入力される。
As in the third and fourth embodiments, the sound detected by the
機能選択手段80は、機能選択スイッチ81と機能選択部19とで構成される。機能選択スイッチ81はユーザの選択により、4状態を切り替えることができる。ユーザが、マイクロホン13で検出した音声信号を音声認識部23で処理することを選択した場合は状態1、音声伝送手段53で処理することを選択した場合は状態2、音声認識部23と音声伝送手段53の双方で処理することを選択した場合には状態3、いずれでも処理しないことを選択した場合には状態4となる。
The
図21は、機能選択スイッチ81の一例を示す。機能選択スイッチ81は、4個の押しボタンスイッチを有し、これら4個の押しボタンスイッチは、常にいずれか1つのみがONになるように構成されている。ユーザが押しボタンスイッチ101をONにした場合は、機能選択スイッチ81は状態1になり、これに連動して他の3つの押しボタンスイッチ102,103,104は自動的にOFFになる。同様に、いずれの1つを選択しても、他の3つは自動的にOFFになる。
FIG. 21 shows an example of the
機能選択スイッチ81の状態(モード)に呼応する機能選択部19の信号出力状態と、それに応じた信号遮断器41,55の動作、無線送出される単語IDは、第3および第4実施形態と同じなので、ここでは説明を省略する。
The signal output state of the
図22および23は、図20に示す無線通信機能付きヘッドセットの具体的動作の例を示す。ヘッドセットを着用したユーザは、機能選択スイッチ81を操作することにより、4つのモードを適宜選択することができる。図22(a)および22(b)では、音声認識モードと音声伝送モードを切り替えて、音声コマンドによるエアコンの制御と、パーソナルコンピュータへの音声データの送信、格納を切り替える例を示す。23(a)および23(b)では、音声認識と音声伝送の双方を同時に行うモードと、いずれも行わないモードの例を示す。第3および第4実施形態で述べたのと同様に、両方を行うモードでは、音声コマンドでエアコンを制御すると同時に、その音声を符号化データとしてパーソナルコンピュータへも無線送信し、格納する。格納されたデータは、後に再生、分析可能である。OFFモードでは、音声認識も音声伝送も行われないが、ユーザは、ヘッドセットに内蔵されたスピーカで音楽や第三者の音声を聞くことができる。
22 and 23 show examples of specific operations of the headset with the wireless communication function shown in FIG. The user wearing the headset can select the four modes as appropriate by operating the
なお、ヘッドセット内の認識語彙記憶部や、音声モデル作成・記憶部の記憶内容、およびエアコンの記憶、設定は、第1実施形態と同様とする。パーソナルコンピュータには大容量のハードディスクが接続されており、無線通信機能付きヘッドセットから受信した音声データはすべてこのハードディスクに蓄積されるものとする。 The recognized vocabulary storage unit in the headset, the storage contents of the voice model creation / storage unit, and the storage and setting of the air conditioner are the same as in the first embodiment. A large-capacity hard disk is connected to the personal computer, and all audio data received from the headset with the wireless communication function is stored in this hard disk.
(第6実施形態)
図24は、本発明の第6実施形態に係る音声処理システムの概略を示す。この音声処理システムは、第1〜第5実施形態で述べてきた無線通信機能付きヘッドセット110と、音声認識機能付き装置130とで構成される。このシステムでは、ヘッドセットの機能選択スイッチ114で、音声伝送モードを選択している場合には、マイクロホンで検出した音声信号はヘッドセットの音声伝送手段153を介して、音声認識機能付き装置130に無線送信され、装置側で音声認識処理される。ヘッドセットで音声認識モードが選択されている場合は、ヘッドセット内で音声認識処理される。
(Sixth embodiment)
FIG. 24 shows an outline of a speech processing system according to the sixth embodiment of the present invention. This voice processing system includes the
すなわち、無線通信機能付きヘッドセット110は、ユーザの音声を検出するマイクロホン113と、マイクロホン113で検出された音声の認識処理を行う音声認識手段と、認識結果を無線送出する認識結果伝送手段125と、マイクロホン113で検出された音声信号を符号化された音声データとして無線送出する音声伝送手段153と、音声認識と音声伝送のいずれかの処理を選択する機能選択スイッチ114とを有する。
That is, the
一方、音声認識機能付き装置130は、ヘッドセットから無線送信された音声データを受信する音声受信手段140と、受信された音声を認識処理する音声認識エンジン150とを有する。
On the other hand, the
図25は、図24に示す音声認識機能付き装置130の音声受信手段140を示す。ヘッドセットから無線通信で送られてきた符号化された音声信号は、符号化音声受信部141で受信され、符号化音声復号部143に入力される。
FIG. 25 shows the voice receiving means 140 of the
符号化音声復号部143は、符号化音声の復号処理を行い、デジタル音声信号を音声認識エンジン150に出力する。
The encoded
音声認識エンジン150は、単語音声認識技術、大語彙文音声認識技術のいずれを利用してもよい。ここでは大語彙文音声認識技術を用いた場合の構成を説明する。
The
図26は、文音声認識技術を使用した音声認識エンジン150の概略図である。音声認識エンジン150では、あらかじめ入力音声の中で使われる可能性のある語彙を収集してある。たとえば、単語単位の語彙とする場合は、各単語の表記、読み、単語IDを認識語彙記憶部157に記憶しておく。通常、このような単語として数万〜10万単語程度を記憶させるが、話題や文型を制限できる場合などは、単語数を絞り込んで記憶容量を削減することも可能である。
FIG. 26 is a schematic diagram of a
また、あらかじめ認識語彙記憶部157に記憶された各単語間の接続し易さを表す言語モデルを作成しておき、言語モデル記憶部161に記憶しておく。言語モデルとしては、例えば、大量に集めた文データベース中の単語の出現頻度、2単語組み、3単語組みの出現頻度を元に作成した確率値を用いることができる。
In addition, a language model representing ease of connection between the words stored in the recognized
音声モデル作成・記憶部159は、認識語彙記憶部157に記憶されている各単語の読みから単語音声モデルを生成し、その単語の単語IDと組にして記憶しておく。ここで単語音声モデルは一般によく知られているHMM(Hidden Markov Model)が用いられることが多いが、これに限定されるものではない。
The speech model creation /
音響分析部151では、入力された音声を特徴パラメータに変換する。音声認識に使用される代表的な特徴パラメータとしては、バンドパスフィルタやフーリエ変換によって求めることができるパワースペクトル、あるいはLPC(線形予測)分析によって求めたケプストラム係数などがよく用いられるが、ここではその特徴パラメータの種類は問わない。音響分析部では、一定時間ごとに入力音声の特徴パラメータに変換する。したがってその出力は特徴パラメータの時系列(特徴パラメータ系列)となる。
The
モデル照合部155は、音声モデル作成・記憶部159に記憶された単語の各音声モデルと連結した連続単語音声モデルと、入力された特徴パラメータ系列との類似度あるいは距離を求め、音響的類似度(距離)を計算する。また、連続単語音声モデルを構成する各単語の並びと、言語モデル記憶部161に記憶された各言語モデルとを照合し、言語的な確からしさを計算する。モデル照合部155は、音響的類似度と、言語的な確からしさとを勘案して、入力された特徴パラメータ系列ともっともよく照合する単語系列を求め、その単語系列を構成する単語の単語ID系列を構成する単語の単語ID系列を認識結果として、単語ID表記変換部163に出力する。
The
単語ID表記変換部163は、単語ID系列と、認識語彙記憶部157に記憶されている単語ID、表記とを照合し、表記を連結することによって単語ID系列に対応する文字列に変換する。
The word ID
図27は、図24,25に示す音声処理システムの具体的動作を例示する。図27の例では、無線通信機能付きヘッドセットを着用したユーザが、機能選択スイッチ114で音声伝送モードを選択し、自分が話す音声を、音声認識機能付き装置(パーソナルコンピュータ)へ転送する。
FIG. 27 illustrates a specific operation of the voice processing system shown in FIGS. In the example of FIG. 27, a user wearing a headset with a wireless communication function selects the voice transmission mode with the
ユーザが発声した「今日は音楽について話します」という音声は、マイクロホン113で検出され、符号化されて、音声伝達手段153からパーソナルコンピュータに転送される。パーソナルコンピュータは受信した信号を復号化して、音声認識処理を行う。コンピュータ側では、音声認識エンジン150の認識語彙記憶部157にあらかじめ単語の表記と読みと単語IDとを対応づけて格納している。
The voice “speaking about music today” uttered by the user is detected by the
図28は、認識語彙記憶部157の記憶内容例を示す。例えば、表記「音楽」に対応して、読み「おんがく」と、単語ID「00811」が登録されている。音声モデル作成・記憶部159は、認識語彙記憶部157の記憶内容にしたがって、「音楽」等に対応する単語音声モデルを作成し、記憶する。
FIG. 28 shows an example of stored contents of the recognized
図29は、言語モデル記憶部161の記憶内容例を示す。図29に示す記憶内容例では、第1の単語IDと、その直後に連続する第2の単語IDと、第1の単語IDで示される単語に直接後続して第2の単語IDで示される単語が出現する度合い(出現し易さ)を対応づけて格納する。例えば、単語IDが00712の単語と、単語IDが00811の単語が連続して用いられる度合い(出現し易さ)は0.012である。また、単語IDが00712の単語に引き続いて単語IDが02155の単語が用いられる度合い(出現し易さ)は0.584である。
FIG. 29 shows an example of the contents stored in the language
認識語彙記憶部157の記憶内容を照合すれば、上述したそれぞれの単語IDの組み合わせが、「を」「音楽」と、「を」「します」を表すことがわかる。また、出現し易さを参照するなら、後者の組み合わせのほうが、前者に比べて連続して出現する確率が高いことがわかる。したがって、文字列「をします」が優先的に選択されることになる。
If the stored contents of the recognized
図25、26に戻ると、ヘッドセットから転送された音声は、まずパーソナルコンピュータの符号化音声受信部141で受信され、符号化音声復号部143で音声信号に復号された後、音声認識エンジン150に入力される。
25 and 26, the voice transferred from the headset is first received by the coded
復号された音声信号は、音響分析部151で特徴パラメータ系列に変換されて、モデル照合部155に入力される。モデル照合部155では、音声モデル作成・記憶部159に記憶された各単語の音声モデルと、言語モデル記憶部161に記憶された言語モデルにもとづいて、パラメータ系列に対応する単語IDの系列を求める。この場合、得られる単語ID系列は「01211、12322、00811、08211、12596、00712、02155」となる。
The decoded speech signal is converted into a feature parameter series by the
単語ID表記変換部163では、上記単語ID系列の各単語IDに対応する表記を求め、さらにそれを連結することによって、「今日は音楽の話をします」という文字列を得る。
The word ID
音声認識機能付き装置130が文字を表示する機能を持つ場合、モデル照合部155で変換された文字列を音声認識機能付き装置130上に表示することによって、ユーザは自分が話した内容を文字としてその場で確認することができる。図30は、このようにしてパーソナルコンピュータが文字列をテキストとして表示した例を示す。
In the case where the device with
また、音声認識機能付き装置130が編集機能を有する場合、その場でリアルタイムの編集を行うことができる。この場合、音声信号を蓄積しておいて、それを後から文字列に変換し、編集する場合に比較して、作業効率が格段に向上する。
Further, when the
さらに、無線通信機能付きヘッドセット110の機能選択スイッチ114を、ヘッドセット自体が有する音声認識部123で認識するように切り替え、そこで編集用のコマンド音声を認識し、認識結果を音声認識機能付き装置130に無線送信するようにすれば、編集作業を音声で行うことも可能である。機能選択スイッチ114がヘッドセットに設けられているので、処理モードの切り替えの手間はここでは問題にならない。音声認識機能付き装置130に、コマンド音声を認識する機能を追加することによってスイッチの切り替えを省略することも可能であるが、この場合は、音声認識機能付き装置130に、文字列を表示するための音声なのか、編集用コマンドなのかを判定する機能をさらに追加する必要がある。
Further, the
また、音声認識機能付き装置130が文字列を記憶する機能を有する場合、文字列に変換した結果をその場で蓄積することができる。この構成により、音声を記憶するよりも小さい記憶容量で発声した内容を記録することができる。また、文字列に変換されているため、検索等が容易になる。復号した音声を文字列と組にして記憶すると、さらに有用性が増す。具体的には、検索用文字列で文字列を検索し、検索された文字列に対応する音声を再生することが可能となる。
Further, when the
また、認識機能付き装置130の音声認識エンジン150が、単語音声認識技術を用いたものである場合、その認識結果を使用して音声認識機能付き装置130の操作を行うことが可能である。例えば、音声認識機能付き装置がパーソナルコンピュータであり、その上でアプリケーションソフトを起動している場合、そのアプリケーションの操作を音声で行うことが可能となる。
In addition, when the
(第7実施形態)
図31は、本発明の第7実施形態に係る音声処理システムを示す。このシステムは、無線通信機能付きヘッドセット170と、第1の装置としての音声認識機能付き装置200と、無線機能付き装置200と無線通信可能な第2の装置(不図示)で構成される。音声認識機能付き装置200は、音声受信手段210、音声認識エンジン220に加え、認識結果伝送手段230を有し、認識結果を第2の装置へ無線送信する。
(Seventh embodiment)
FIG. 31 shows an audio processing system according to the seventh embodiment of the present invention. This system includes a
音声受信手段210は図24の音声受信手段140と同様である。音声認識エンジン220は単語音声認識技術、大語彙文音声認識技術のいずれを利用してもよい。ここでは単語音声認識技術を使用するものとする。
The voice receiving means 210 is the same as the voice receiving means 140 in FIG. The
図32は、単語音声技術を利用した場合の音声認識エンジン220の構成を示す。音響分析部223、モデル照合部225、認識語彙記憶部227、音声モデル作成・記憶部229は、第1実施形態の無線通信機能付きヘッドセット10に設けられた音声認識部で用いられるのと同様の構成である。
FIG. 32 shows a configuration of the
音声認識エンジン220から認識結果として出力される単語IDは、認識結果伝送手段230に入力される。認識結果伝送手段230は、受け取った単語IDを、他の機器に送信する。他の機器への送信方法として、無線通信、有線通信等が考えられるが、ここではその手段は問わない。
The word ID output as a recognition result from the
図33は、図31の音声処理システムの具体的動作を例示する。無線通信機能付きヘッドセット170を着用したユーザが、第1の装置としての音声認識機能付きパーソナルコンピュータを介して、第2の装置としてのエアコンを音声制御する。
FIG. 33 illustrates a specific operation of the speech processing system of FIG. A user wearing the
ユーザは、ヘッドセットの機能選択スイッチ174で、音声伝送モードを選択している。したがって、マイクロホン173で検出された「エアコンつける」という音声は、音声伝送手段183で符号化処理され、パーソナルコンピュータに無線通信により転送される。
The user selects the audio transmission mode with the
図34は、パーソナルコンピュータ内の認識語彙記憶部227の記憶内容例を示す。認識語彙記憶部227は、「えあこんつける」、「えあこんとめる」、「おんどあげる」、「おんどさげる」という語彙に対応して、それぞれ単語ID「01」、「02」、「03」、「04」を与えて格納する。パーソナルコンピュータが「えあこんつける」という語彙を認識した場合、単語ID「01」がエアコンに対して無線送信されることになる。
FIG. 34 shows an example of stored contents of the recognized
認識語彙記憶部227の記憶内容にしたがって、音声モデル作成・記憶部229で新たな記憶内容が作成され記憶される。この例の場合、「えあこんつける」、「えあこんとめる」、「おんどあげる」、「おんどさげる」の各単語に対応する音響モデルが作成され、各単語の単語IDと組になって記憶される。
According to the stored contents of the recognized
一方、エアコンは、図35に示すように、それぞれの単語IDと、それに対応する動作とを組にして記憶し、特定の単語IDを受信したときに、その単語IDに対応した動作を行う。 On the other hand, as shown in FIG. 35, the air conditioner stores each word ID and the corresponding operation as a set, and performs an operation corresponding to the word ID when a specific word ID is received.
パーソナルコンピュータの音声受信手段210で受信された符号化音声は符号化音声復号部で音声信号に変換され、音声認識エンジン220に入力される。音声信号は音響分析部223で特徴パラメータ系列に変換され、モデル照合部225に入力される。モデル照合部225は、入力された特徴パラメータ系列と、音響モデル作成・記憶部229に記憶された各単語の音声モデルを照合する。「えあこんつける」に対応する音声モデルの類似度がもっとも高くなった場合に、照合部225は認識結果として単語ID「01」を出力する。
The coded speech received by the speech receiving means 210 of the personal computer is converted into a speech signal by the coded speech decoding unit and input to the
単語ID「01」は認識結果伝送手段230に入力され、無線通信により、エアコンに対して単語ID「01」が送信される。エアコンは単語ID「01」を受信すると、図35のテーブルにしたがって、単語IDに対応するエアコン機能の動作を開始する。
The word ID “01” is input to the recognition
この構成により、無線通信機能付きヘッドセット170のマイクロホン173で検出されたユーザの音声は、ほぼリアルタイムで音声認識機能付き装置200で音声認識され、その認識結果を別の機器に送信することが可能となる。
With this configuration, the user's voice detected by the
音声認識機能付き装置200がパーソナルコンピュータのように演算能力が大きい場合には、その音声認識エンジン220は、ヘッドセットの音声認識部177よりも機能的な制限が少なくなり、例えば認識語彙を大幅に増やすことができる。また、音声認識機能付き装置200の音声認識機能がなんらかの理由で使用できなくなった場合でも、ヘッドセットの音声認識部177で処理するように機能選択スイッチ174を切り替えれば、音声を用いた機器操作を続行することが可能である。
When the
音声認識エンジン220に、図24の音声認識エンジン150と同様に大語彙文音声認識技術を用いた場合には、文字列に変換した結果を直ちに他の機器に転送することが可能になる。文字列を転送するのに必要な通信量は、音声を転送するのに必要な通信量と比べて小さいため、通信量を削減することができる。本システムでは発声とほぼ同時に、その音声の認識を行うことができる。従来のように、蓄積した音声を認識して、その結果を転送する技術では、すべての発声が終わった後で音声認識技術を使用し、その後転送するので、時間的な遅れがどうしても生じるが、第6実施形態のシステムでは、ユーザの発声と平行して音声を認識するため、時間的な遅れを削減することができる。
When the large vocabulary speech recognition technology is used for the
以上、上述した実施形態では、ヘッドセット内、あるいは外部機器側の音声認識として単語認識を例にとって説明したが、本発明はこれに限定されない。特に、ヘッドセット内部では、連続単語認識、文認識、単語スポッティング、音声意図理解などの、演算量、メモリ、消費電力の少ない簡便な音声認識であれば、任意の音声認識を行うことができる。 As described above, in the above-described embodiment, the word recognition is described as an example of the voice recognition in the headset or on the external device side, but the present invention is not limited to this. In particular, in the headset, any speech recognition can be performed as long as it is a simple speech recognition with a small amount of calculation, memory, and power consumption, such as continuous word recognition, sentence recognition, word spotting, and speech intent understanding.
10、110、170 ヘッドセット
13、113、173 マイクロホン
14、51、61、71、81、114、174 機能選択スイッチ
17 スピーカ
16 CPUボード
17 無線通信モジュール
19、119、181 機能選択部
20、50、60、70、80 機能選択手段
21、121、75 A/D変換器
23、123、177 音声認識部
25、125、178、230 認識結果伝送手段
41 認識用信号遮断機
43、151、223 音響分析部
45、155、225 モデル照合部
47、157、227 認識語彙記憶部
49、159、229 音声モデル作成・記憶部
53、153、183 音声伝送手段
55 伝送用信号遮断機
57 音声符号化部
59 音声伝送部
130、200 音声認識機能付き装置
140、210 音声受信手段
141 符号化音声受信部
143 符号化音声復号部
150、220 音声認識エンジン
161 言語モデル記憶部
163 単語ID表記変換
10, 110, 170
47, 157, 227 Recognition
Claims (8)
前記ヘッドセットと無線通信可能な外部装置と
を含み、前記無線通信機能付きヘッドセットは、
前記ヘッドセットの装着者の音声を検出して音声信号を生成するマイクロホンと、
前記音声信号を認識し、認識した音声信号の内容に対応する識別信号を生成する音声認識手段と、
前記音声認識手段によって生成された識別信号を、無線通信により前記外部装置へ送出する認識結果伝送手段と
を備え、前記外部装置は、前記受信した識別信号に対応する動作を行う音声処理システム。 A headset with wireless communication function;
An external device capable of wireless communication with the headset, and the headset with the wireless communication function includes:
A microphone that detects a voice of a wearer of the headset and generates an audio signal;
Voice recognition means for recognizing the voice signal and generating an identification signal corresponding to the content of the recognized voice signal;
A speech processing system comprising: recognition result transmission means for sending the identification signal generated by the voice recognition means to the external device by wireless communication, wherein the external device performs an operation corresponding to the received identification signal.
前記ヘッドセットと無線通信可能な音声認識機能付き外部装置と
を含み、前記無線通信機能付きヘッドセットは、
前記ヘッドセットの装着者の音声を検出して音声信号を生成するマイクロホンと、
前記音声信号を無線通信により前記外部装置器へ送信する音声伝送手段と
を備え、前記外部装置は、
前記ヘッドセットから送信された音声信号を受信する音声受信手段と、
前記受信した音声信号を認識する音声認識手段と
を備える音声処理システム。 A headset with wireless communication function;
An external device with a voice recognition function capable of wireless communication with the headset, the headset with a wireless communication function,
A microphone that detects a voice of a wearer of the headset and generates an audio signal;
Audio transmission means for transmitting the audio signal to the external device by wireless communication, the external device,
Audio receiving means for receiving an audio signal transmitted from the headset;
A speech processing system comprising speech recognition means for recognizing the received speech signal.
前記音声認識手段は、前記受信した音声信号を認識して、認識した音声信号の内容に対応する識別信号を生成し、当該識別信号を文字に変換して出力し、
前記表示部は、認識結果である文字を表示する請求項4に記載の音声処理システム。 The external device further includes a display unit,
The voice recognition means recognizes the received voice signal, generates an identification signal corresponding to the content of the recognized voice signal, converts the identification signal into a character, and outputs it.
The voice processing system according to claim 4, wherein the display unit displays a character that is a recognition result.
音声認識機能を有し前記ヘッドセットと無線通信可能な第1の外部装置と、
前記第1の外部装置と無線通信可能な第2の外部装置と
を含み、前記無線通信機能付きヘッドセットは、
前記ヘッドセットの装着者の音声を検出して音声信号を生成するマイクロホンと、
前記音声信号を無線通信により前記第1の外部装置へ送信する音声伝送手段と
を備え、前記第1の外部装置は、
前記ヘッドセットから送信された音声信号を受信する音声受信手段と、
前記受信した音声信号を認識し、認識した音声信号の内容に対応する識別信号を生成する音声認識手段と、
前記識別信号を無線通信により前記第2の外部装置へ送信する認識結果伝送手段と
を備え、前記第2の外部装置は、前記第1の外部装置から受信した単語IDに対応する動作を行う音声処理システム。 A headset with wireless communication function;
A first external device having a voice recognition function and capable of wireless communication with the headset;
A second external device capable of wireless communication with the first external device, and the headset with the wireless communication function includes:
A microphone that detects a voice of a wearer of the headset and generates an audio signal;
Audio transmission means for transmitting the audio signal to the first external device by wireless communication, and the first external device comprises:
Audio receiving means for receiving an audio signal transmitted from the headset;
Voice recognition means for recognizing the received voice signal and generating an identification signal corresponding to the content of the recognized voice signal;
Recognition result transmission means for transmitting the identification signal to the second external device by wireless communication, wherein the second external device performs an operation corresponding to the word ID received from the first external device. Processing system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005248484A JP2006023773A (en) | 2005-08-29 | 2005-08-29 | Voice processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005248484A JP2006023773A (en) | 2005-08-29 | 2005-08-29 | Voice processing system |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002000895A Division JP2003202888A (en) | 2002-01-07 | 2002-01-07 | Headset with radio communication function and voice processing system using the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006023773A true JP2006023773A (en) | 2006-01-26 |
Family
ID=35797031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005248484A Pending JP2006023773A (en) | 2005-08-29 | 2005-08-29 | Voice processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006023773A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080170A1 (en) * | 2011-09-27 | 2013-03-28 | Fuji Xerox Co., Ltd. | Audio analysis apparatus and audio analysis system |
US9129611B2 (en) | 2011-12-28 | 2015-09-08 | Fuji Xerox Co., Ltd. | Voice analyzer and voice analysis system |
US9153244B2 (en) | 2011-12-26 | 2015-10-06 | Fuji Xerox Co., Ltd. | Voice analyzer |
JP2016081003A (en) * | 2014-10-22 | 2016-05-16 | 株式会社大林組 | Underwater work support system |
JP2017029306A (en) * | 2015-07-30 | 2017-02-09 | 井関農機株式会社 | Automatic rice washing and cooking machine |
US10749916B2 (en) | 2017-08-25 | 2020-08-18 | International Business Machines Corporation | Cognitive headset awareness with external voice interruption detection |
-
2005
- 2005-08-29 JP JP2005248484A patent/JP2006023773A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080170A1 (en) * | 2011-09-27 | 2013-03-28 | Fuji Xerox Co., Ltd. | Audio analysis apparatus and audio analysis system |
US9014395B2 (en) * | 2011-09-27 | 2015-04-21 | Fuji Xerox Co., Ltd. | Audio analysis apparatus and audio analysis system |
US9153244B2 (en) | 2011-12-26 | 2015-10-06 | Fuji Xerox Co., Ltd. | Voice analyzer |
US9129611B2 (en) | 2011-12-28 | 2015-09-08 | Fuji Xerox Co., Ltd. | Voice analyzer and voice analysis system |
JP2016081003A (en) * | 2014-10-22 | 2016-05-16 | 株式会社大林組 | Underwater work support system |
JP2017029306A (en) * | 2015-07-30 | 2017-02-09 | 井関農機株式会社 | Automatic rice washing and cooking machine |
US10749916B2 (en) | 2017-08-25 | 2020-08-18 | International Business Machines Corporation | Cognitive headset awareness with external voice interruption detection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20030130852A1 (en) | Headset with radio communication function for speech processing system using speech recognition | |
JP4086280B2 (en) | Voice input system, voice input method, and voice input program | |
JP3479691B2 (en) | Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method | |
US6711543B2 (en) | Language independent and voice operated information management system | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
JP2019117623A (en) | Voice dialogue method, apparatus, device and storage medium | |
KR20140089863A (en) | Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof | |
CN107527614B (en) | Voice control system and method thereof | |
WO2017154282A1 (en) | Voice processing device and voice processing method | |
US6185537B1 (en) | Hands-free audio memo system and method | |
JP2006023773A (en) | Voice processing system | |
JP3000999B1 (en) | Speech recognition method, speech recognition device, and recording medium recording speech recognition processing program | |
JP2004198831A (en) | Method, program, and recording medium for speech recognition | |
Comerford et al. | The IBM personal speech assistant | |
JP2002268681A (en) | System and method for voice recognition, information processor used for the same system, and method thereof | |
JP3837061B2 (en) | Sound signal recognition system, sound signal recognition method, dialogue control system and dialogue control method using the sound signal recognition system | |
CN101242440A (en) | A mobile phone with voice repeating function | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof | |
WO2002001550A1 (en) | Method and system for controlling device | |
McLoughlin et al. | Speech recognition for smart homes | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP2003131682A (en) | Equipment control system using voice command | |
US11763814B2 (en) | Hybrid voice command processing | |
JP3050232B2 (en) | Speech recognition method, speech recognition device, and recording medium recording speech recognition processing program | |
JP2004004182A (en) | Device, method and program of voice recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |