JP2006098534A - Device and method for speech processing - Google Patents
Device and method for speech processing Download PDFInfo
- Publication number
- JP2006098534A JP2006098534A JP2004282410A JP2004282410A JP2006098534A JP 2006098534 A JP2006098534 A JP 2006098534A JP 2004282410 A JP2004282410 A JP 2004282410A JP 2004282410 A JP2004282410 A JP 2004282410A JP 2006098534 A JP2006098534 A JP 2006098534A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- specific frequency
- voice
- frequency region
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、人と装置との対話等の音声処理を行う音声処理装置及び音声処理方法に関する。 The present invention relates to a voice processing apparatus and a voice processing method for performing voice processing such as dialogue between a person and a device.
近年、カーナビゲーションにおける目的地設定や個人向けロボットとのコミュニケーション等において、そのユーザと対話しながら各種処理を行うようなシステムが開発されている。このようなシステムでは、マイクから入力された音声を認識し、その認識した音声に応じて構成した会話内容をスピーカから出力し、ユーザとの対話を行う。 2. Description of the Related Art In recent years, systems have been developed that perform various processes while interacting with a user in setting a destination in car navigation, communicating with a personal robot, and the like. In such a system, a voice input from a microphone is recognized, a conversation content configured according to the recognized voice is output from a speaker, and a dialogue with the user is performed.
このような対話形式において音声認識を行う場合、システムから出力する音声も、ユーザが発する音声と共にマイクに入力される。そのため、システムとユーザが同時に音声を発すると、音声認識の精度が低下し、ユーザの音声を正確に認識することができなくなる。そこで、システムでの音声出力が終わるのを待ってユーザが喋り始めたりあるいはユーザが喋り始める前にスイッチを押してシステムの音声出力を中断するなど、システムによる音声とユーザによる音声が重ならないようにする必要があった。また、スピーカからの音声がマイクに入力されないように、ヘッドセットのような別の装置が必要であった。 When performing speech recognition in such an interactive format, the sound output from the system is also input to the microphone together with the sound emitted by the user. For this reason, if the system and the user utter the voice at the same time, the accuracy of the voice recognition is lowered, and the user's voice cannot be accurately recognized. Therefore, wait for the audio output in the system to end, the user will start speaking, or before the user starts speaking, press the switch to interrupt the system's audio output, so that the system voice and the user's voice do not overlap There was a need. In addition, another device such as a headset is required so that sound from the speaker is not input to the microphone.
また、特許文献1には、ユーザが発した音声と装置から出力した音信号が重複した場合でもユーザが発した音声のみを抽出する入力音声抽出装置が開示されている。この入力音声抽出装置では、マイクに入力された音声信号から装置側で予め用意された音信号を差し引くことにより、ユーザの音声のみを抽出する。
しかしながら、上記した入力音声抽出装置の場合、ユーザによる音声と装置が出力する音信号とで周波数成分が重複している場合、その重複している周波数成分についてはユーザの音声のみを抽出することができないので、音声の認識精度が低下する。これを回避するために、ユーザの音声の周波数特性に応じて装置から出力する音信号の周波数成分を制限した場合、部分的に周波数成分を使用できないので、出力する音声に違和感が生じる。また、入力音声抽出装置において、常時、マイクに入力された音声信号から装置側で予め用意した音信号を引くアルゴリズム的な処理が必要となるので、処理が煩雑になる。さらに、入力音声抽出装置では、出力する音信号が予め判っていなければ処理を行うことができない。 However, in the case of the input voice extraction device described above, if the frequency component overlaps between the user's voice and the sound signal output from the device, only the user's voice can be extracted for the overlapping frequency component. Since this is not possible, the speech recognition accuracy is reduced. In order to avoid this, when the frequency component of the sound signal output from the device is limited in accordance with the frequency characteristics of the user's voice, the frequency component cannot be partially used, so that the output voice is uncomfortable. In addition, in the input voice extraction device, an algorithmic process for subtracting a sound signal prepared in advance on the device side from a voice signal input to the microphone is necessary, so the process becomes complicated. Furthermore, the input speech extraction device cannot perform processing unless the sound signal to be output is known in advance.
そこで、本発明は、簡単な構成により、人が発した音声のみを確実に抽出することができる音声処理装置及び音声処理方法を提供することを課題とする。 Therefore, an object of the present invention is to provide a voice processing device and a voice processing method that can reliably extract only a voice uttered by a person with a simple configuration.
本発明に係る音声処理装置は、集音手段と、集音手段で集音した音声の特定周波数領域を通過させる特定周波数通過手段と、特定周波数通過手段を通過した音声に基づいて音声処理を行う音声処理手段と、音発生制御装置からの信号に基づいて音を発生させる音発生手段とを備え、特定周波数通過手段における特定周波数領域は、音発生手段から発生される音の周波数領域とは異なる周波数領域に設定されることを特徴とする。 The sound processing apparatus according to the present invention performs sound processing based on the sound collecting means, the specific frequency passing means that passes the specific frequency region of the sound collected by the sound collecting means, and the sound that has passed through the specific frequency passing means. Sound processing means and sound generation means for generating sound based on a signal from the sound generation control device, and the specific frequency region in the specific frequency passing means is different from the frequency region of the sound generated from the sound generation device It is set in the frequency domain.
この音声処理装置は、人が発した音声に対して音声認識等の各種音声処理を施すとともに、人に対して会話形式の音声等の各種音を発生する。そのために、音声処理装置では、集音手段で人の発した音声を集音するとともに、音発生手段から音発生制御手段からの信号に基づく音を発生させる。集音する際、音発生手段から発生した音を集音する場合もある。そして、音声処理装置では、特定周波数通過手段により、集音した音声のうち音発生手段から発生される音の周波数領域とは異なる特定周波数領域だけを通過させる。したがって、人による音声と音発生手段による音が同時に発生している場合、集音手段で集音した音声には人による音声と音発生手段による音の両方の周波数成分が含まれるが、特定周波数通過手段を通過した音声には音発生手段による音が含まれない。つまり、人の発した音声の周波数成分のみが抽出される。そこで、音声処理装置では、音声処理手段により、この特定周波数通過手段を通過した音声に基づいて音声認識等の音声処理を施す。この際、人が発した音声の周波数成分に対してのみ音声処理を施すことになるので、処理精度が向上する。特に、音声処理として音声認識を行う場合、音声認識精度が向上し、人の音声を正確に認識することができる。このように、この音声処理装置によれば、集音手段で集音した音声から音発生手段から発生する音の周波数領域とは異なる周波数領域のみを通過させるだけの簡単な構成により、人の発した音声だけを確実に抽出することができる。その結果、音発生手段から音を発生している間に人が音声を発した場合でも、人が単独で音声を発している場合と同等にその人の発した音声に対する処理を行うことができる。 This voice processing device performs various voice processing such as voice recognition on voice uttered by a person and generates various sounds such as conversational voice for the person. For this purpose, the sound processing device collects the sound produced by the person by the sound collecting means and generates sound based on the signal from the sound generation control means from the sound generating means. When collecting sound, the sound generated from the sound generating means may be collected. In the sound processing device, the specific frequency passing means passes only the specific frequency region different from the frequency region of the sound generated from the sound generating means in the collected sound. Therefore, when the sound generated by the person and the sound generated by the sound generating means are simultaneously generated, the sound collected by the sound collecting means includes both frequency components of the sound generated by the person and the sound generated by the sound generating means. The sound that has passed through the passage means does not include sound generated by the sound generation means. That is, only the frequency component of the voice uttered by a person is extracted. Therefore, in the voice processing apparatus, the voice processing unit performs voice processing such as voice recognition based on the voice that has passed through the specific frequency passing unit. At this time, since the sound processing is performed only on the frequency component of the sound uttered by a person, the processing accuracy is improved. In particular, when performing speech recognition as speech processing, speech recognition accuracy is improved and human speech can be accurately recognized. As described above, according to this sound processing device, the human speech is generated with a simple configuration in which only the frequency region different from the frequency region of the sound generated from the sound generating unit is allowed to pass from the sound collected by the sound collecting unit. It is possible to reliably extract only the voice that has been played. As a result, even when a person utters a sound while generating sound from the sound generating means, it is possible to perform processing on the sound uttered by the person as if the person uttered the sound alone. .
本発明の上記音声処理装置では、音発生制御装置と音発生手段との間に、音発生制御装置からの信号に基づく音の第2の特定周波数領域を通過させる第2特定周波数通過手段を備え、特定周波数通過手段における特定周波数領域と第2特定周波数通過手段における第2の特定周波数領域とは異なる周波数領域に設定される構成としてもよい。 In the audio processing apparatus of the present invention, the second specific frequency passing means for passing the second specific frequency region of the sound based on the signal from the sound generation control apparatus is provided between the sound generation control apparatus and the sound generation means. The specific frequency region in the specific frequency passing means and the second specific frequency region in the second specific frequency passing means may be set to different frequency regions.
この音声処理装置では、第2特定周波数通過手段により、音発生制御装置からの信号に基づく音のうち特定周波数通過手段における特定周波数領域とは異なる第2の特定周波数領域だけを通過させる。そして、音声処理装置では、音発生手段により、この第2特定周波数通過手段を通過した音だけを発生する。この音発生手段から発生される音の周波数成分は第2の特定周波数領域しか含んでいないが、人が発する音声の周波数成分には低周波から高周波までの全ての周波数領域を含んでいる。したがって、人による音声と音発生手段による音が同時に発生している場合、第2の特定周波数領域には人による音声と音声発生手段による音が重複するが、第2の特定周波数領域と異なる周波数領域(特定周波数領域が含まれる)には人による音声のみが存在する。そのため、特定周波数通過手段を通過した音声には音発生手段で発生した音が含まれることはないので、人の発した音声だけを更に確実に抽出することができる。 In this sound processing apparatus, only the second specific frequency region different from the specific frequency region in the specific frequency passing means among the sound based on the signal from the sound generation control device is passed by the second specific frequency passing means. In the sound processing apparatus, only the sound that has passed through the second specific frequency passing means is generated by the sound generating means. The frequency component of the sound generated from the sound generating means includes only the second specific frequency region, but the frequency component of the sound emitted by a person includes all frequency regions from low frequency to high frequency. Therefore, when the sound from the person and the sound from the sound generation means are generated simultaneously, the sound from the person and the sound from the sound generation means overlap in the second specific frequency region, but the frequency is different from that of the second specific frequency region. In a region (including a specific frequency region), only human speech exists. For this reason, since the sound that has passed through the specific frequency passing means does not include the sound generated by the sound generating means, it is possible to extract only the sound emitted by a person more reliably.
本発明の上記音声処理装置では、特定周波数通過手段における特定周波数領域と第2特定周波数通過手段における第2の特定周波数領域とは交互に設定されると好適である。 In the audio processing apparatus of the present invention, it is preferable that the specific frequency region in the specific frequency passing means and the second specific frequency region in the second specific frequency passing means are alternately set.
この音声処理装置では、集音した音声を通過させる特定周波数領域と音発生制御装置からの信号に基づく音を通過させる第2の特定周波数領域とを交互に設定することにより、低周波から高周波に至る広い周波数領域にわたって特定周波数領域及び第2の特定周波数領域を設定することができる。つまり、特定周波数領域、第2の特定周波数領域を所定の周波数帯に纏めて配置させるのでなく、広い周波数領域に飛び飛びで配置させることができる。そのため、人の発した音声の周波数成分として広い周波数領域に対して音声処理を施すことができるので、その処理精度が向上する(音声処理として音声認識を行う場合には音声認識の精度が向上する)。一方、音発生手段から発生する音の周波数成分も広い周波数領域の成分からなるので、多種多様の音を発生することができる(音声を発生する場合には違和感のない音声を発生することができる)。 In this sound processing device, the specific frequency region for allowing the collected sound to pass through and the second specific frequency region for allowing the sound based on the signal from the sound generation control device to pass alternately are set to change from a low frequency to a high frequency. The specific frequency region and the second specific frequency region can be set over a wide frequency region. That is, the specific frequency region and the second specific frequency region are not arranged in a predetermined frequency band, but can be arranged in a wide frequency region. Therefore, since it is possible to perform speech processing on a wide frequency range as frequency components of speech uttered by a person, the processing accuracy is improved (when speech recognition is performed as speech processing, the accuracy of speech recognition is improved. ). On the other hand, since the frequency component of the sound generated from the sound generating means is also composed of components in a wide frequency range, it is possible to generate a wide variety of sounds (when generating sound, it is possible to generate sound with no sense of incongruity). ).
本発明の上記音声処理装置では、集音手段で集音した音声を発した人物を特定する人物特定手段を備え、特定周波数通過手段における特定周波数領域は、人物特定手段で特定した人物の音声の特徴に応じて変更される構成としてもよい。 The sound processing apparatus of the present invention includes person specifying means for specifying a person who has emitted the sound collected by the sound collecting means, and the specific frequency region in the specific frequency passing means is the sound of the person specified by the person specifying means. It is good also as a structure changed according to a characteristic.
この音声処理装置では、人物特定手段により、音声を発した人物を特定する。そして、音声処理装置では、特定周波数通過手段で通過させる特定周波数領域をその特定した人物の音声の特徴に応じて設定する。つまり、個人差により、発話音声の周波数特性は人によって異なっているので(例えば、高音の方がよく出る人と低音の方がよく出る人とでその周波数特性が明らかに異なる)、音声認識等の音声処理を施す場合にその人の持っている特徴的な周波数領域を中心にして処理を行うようにし、音声処理精度を向上させる。全ての周波数領域ではなく、特定周波数領域の音声を用いるので、音声処理を行う際の情報量が少なくなるが、特徴のある周波数領域を処理対象とするので、音声処理精度(特に、音声認識精度)が低下しない。 In this sound processing device, the person who has uttered the sound is specified by the person specifying means. In the sound processing device, the specific frequency region to be passed by the specific frequency passing means is set according to the characteristics of the sound of the specified person. In other words, the frequency characteristics of uttered voices vary from person to person due to individual differences (for example, the frequency characteristics are clearly different between people with high frequency and those with low frequency). When the voice processing is performed, the processing is performed mainly on the characteristic frequency region of the person, and the voice processing accuracy is improved. Since the sound in the specific frequency region is used instead of the entire frequency region, the amount of information when performing the sound processing is reduced, but since the characteristic frequency region is processed, the sound processing accuracy (particularly, the speech recognition accuracy) ) Does not decrease.
本発明の上記音声処理装置では、人物特定手段は、集音手段で集音した音声の特徴を検出する特徴検出手段としてもよい。 In the voice processing apparatus according to the present invention, the person specifying means may be a feature detecting means for detecting a feature of the sound collected by the sound collecting means.
この音声処理装置では、集音手段で集音した音声の特徴を検出することにより、その音声を発している人物を特定する。なお、集音手段で集音した音声から特徴を直接検出してもよいし、あるいは、特定周波数通過手段によりこの集音した音声のうち特定周波数領域を通過させた音声成分から特徴を検出してもよい。 In this sound processing apparatus, the person who is emitting the sound is specified by detecting the characteristics of the sound collected by the sound collecting means. The feature may be detected directly from the sound collected by the sound collecting means, or the feature may be detected from the sound component that has passed through the specific frequency region of the collected sound by the specific frequency passing means. Also good.
本発明の上記音声処理装置では、特定周波数通過手段における特定周波数領域と第2の特定周波数通過手段における第2の特定周波数領域とを時間経過に応じて切り替えると好適である。 In the sound processing apparatus of the present invention, it is preferable to switch between the specific frequency region in the specific frequency passing means and the second specific frequency region in the second specific frequency passing means according to the passage of time.
この音声処理装置では、集音した音声を通過させる特定周波数領域と音発生制御装置からの信号に基づく音を通過させる第2の特定周波数領域とを時間経過に応じて切り替える。つまり、ある周波数領域をAとし、Aとは異なる周波数領域をBとした場合、ある時刻では特定周波数領域をAとするとともに第2の特定周波数領域をBとし、その次の時刻では特定周波数領域をBとするとともに第2の特定周波数領域をAとし、更にその次の時刻では特定周波数領域をAとするとともに第2の特定周波数領域をBとする。この切り替える時間間隔を極短時間にすると、ある時刻で間引かれた周波数成分が極短時間後に補われることとなり、極短時間の間に全ての周波数成分が得られる。そのため、音発生手段から発生される音が音発生制御装置からの信号に基づく音の全ての周波数成分を含む音となり、人が聞いていて違和感を感じない音(特に、音声)を出力することができる。また、音声処理手段で処理される音声が人が発した音声の全ての周波数成分を含む音声となり、音声処理精度(特に、音声認識精度)も向上する。 In this sound processing device, a specific frequency region for allowing the collected sound to pass through and a second specific frequency region for allowing the sound based on the signal from the sound generation control device to pass are switched over time. That is, when a certain frequency region is A and a frequency region different from A is B, the specific frequency region is A at a certain time and the second specific frequency region is B, and the specific frequency region is the next time. And B, the second specific frequency region is A, and at the next time, the specific frequency region is A and the second specific frequency region is B. When this switching time interval is set to a very short time, the frequency components thinned out at a certain time are supplemented after a very short time, and all frequency components can be obtained in a very short time. Therefore, the sound generated from the sound generation means becomes a sound including all frequency components of the sound based on the signal from the sound generation control device, and outputs a sound (particularly a sound) that is heard by a person and does not feel uncomfortable. Can do. Further, the sound processed by the sound processing means becomes a sound including all frequency components of the sound uttered by a person, and the sound processing accuracy (particularly, the sound recognition accuracy) is improved.
本発明に係る音声処理方法は、集音ステップと、集音ステップで集音した音声の特定周波数領域を通過させる特定周波数通過ステップと、特定周波数通過ステップを通過した音声に基づいて音声処理を行う音声処理ステップと、音発生制御装置からの信号に基づいて音を発生させる音発生ステップとを含み、特定周波数通過ステップにおける特定周波数領域は、音発生ステップで発生される音声の周波数領域と異なる周波数領域に設定されることを特徴とする。 The sound processing method according to the present invention performs sound processing based on a sound collecting step, a specific frequency passing step that passes a specific frequency region of the sound collected in the sound collecting step, and a sound that has passed the specific frequency passing step. Including a sound processing step and a sound generation step for generating sound based on a signal from the sound generation control device, wherein the specific frequency region in the specific frequency passing step is different from the frequency region of the sound generated in the sound generation step It is set to an area.
本発明の上記音声処理方法では、音発生制御装置からの信号に基づく音の第2の特定周波数領域を通過させる第2特定周波数通過ステップを含み、特定周波数通過ステップにおける特定周波数領域と第2特定周波数通過ステップにおける第2の特定周波数領域とは異なる周波数領域に設定される構成としてもよい。 The audio processing method of the present invention includes a second specific frequency passing step for passing a second specific frequency region of sound based on a signal from the sound generation control device, and the specific frequency region and the second specific frequency in the specific frequency passing step. It is good also as a structure set to the frequency area | region different from the 2nd specific frequency area | region in a frequency passage step.
本発明の上記音声処理方法では、特定周波数通過ステップにおける特定周波数領域と第2特定周波数通過ステップにおける第2の特定周波数領域とは交互に設定されると好適である。 In the audio processing method of the present invention, it is preferable that the specific frequency region in the specific frequency passing step and the second specific frequency region in the second specific frequency passing step are alternately set.
本発明の上記音声処理方法では、集音ステップで集音した音声を発した人物を特定する人物特定ステップを含み、特定周波数通過ステップにおける特定周波数領域は、人物特定ステップで特定した人物の音声の特徴に応じて変更される構成としてもよい。 The sound processing method of the present invention includes a person specifying step for specifying a person who has emitted the sound collected in the sound collecting step, and the specific frequency region in the specific frequency passing step is the voice of the person specified in the person specifying step. It is good also as a structure changed according to a characteristic.
本発明の上記音声処理方法では、人物特定ステップは、集音ステップで集音した音声の特徴を検出するように構成してもよい。 In the voice processing method of the present invention, the person specifying step may be configured to detect a feature of the voice collected in the sound collecting step.
本発明の上記音声処理方法では、特定周波数通過ステップにおける特定周波数領域と第2の特定周波数通過ステップにおける第2の特定周波数領域とを時間経過に応じて切り替えると好適である。 In the audio processing method of the present invention, it is preferable to switch between the specific frequency region in the specific frequency passing step and the second specific frequency region in the second specific frequency passing step according to the passage of time.
なお、上記した各音声処理方法は、上記した各音声処理装置と同様の作用及び効果を有する。 Each voice processing method described above has the same operations and effects as each voice processing apparatus described above.
本発明によれば、集音した音声から出力する音の周波数領域とは異なる周波数領域のみを通過させ、その通過させた音声に基づいて音声処理を行うだけの簡単な構成により、人が発した音声のみを確実に抽出することができる。 According to the present invention, a person uttered by a simple configuration in which only a frequency region different from the frequency region of the sound output from the collected sound is passed and the sound processing is performed based on the passed sound. Only voice can be reliably extracted.
以下、図面を参照して、本発明に係る音声処理装置及び音声処理方法の実施の形態を説明する。 Hereinafter, embodiments of a sound processing apparatus and a sound processing method according to the present invention will be described with reference to the drawings.
本実施の形態では、本発明を、目的地設定等においてユーザとの対話形式のコミュニケーションが可能なカーナビゲーションシステムにおける音声処理装置に適用する。本実施の形態に係る音声処理装置は、マイクで集音した音声を認識し、その認識した音声に応じて構成した会話内容の音声をスピーカから出力し、ユーザとの対話を行う。特に、本実施の形態に係る音声処理装置では、マイクで集音した音声の周波数成分のうち第1特定周波領域(特定周波数領域に相当)の音声成分で音声認識を行い、会話内容の音声の周波数成分うち第2特定周波数領域の音声成分のみをスピーカから発生させる。本実施の形態には、3つの形態があり、第1の実施の形態が音声処理装置の基本的な構成であり、第2の実施の形態がユーザの音声の特徴に応じて第1特定周波数領域を変更する機能を有する構成であり、第3の実施の形態が極短時間毎に第1特定周波数領域と第2特定周波数領域とを切り替える機能を有する構成である。 In the present embodiment, the present invention is applied to a voice processing device in a car navigation system capable of interactive communication with a user in destination setting or the like. The voice processing apparatus according to the present embodiment recognizes voice collected by a microphone, outputs voice of conversation content configured according to the recognized voice from a speaker, and performs dialogue with the user. In particular, in the speech processing apparatus according to the present embodiment, speech recognition is performed using speech components in the first specific frequency region (corresponding to the specific frequency region) out of the frequency components of speech collected by a microphone, and the speech content of the conversation content is recorded. Of the frequency components, only the sound component in the second specific frequency region is generated from the speaker. In this embodiment, there are three forms, the first embodiment is a basic configuration of the speech processing apparatus, and the second embodiment is a first specific frequency according to the characteristics of the user's speech. This is a configuration having a function of changing the region, and the third embodiment is a configuration having a function of switching between the first specific frequency region and the second specific frequency region every extremely short time.
図1を参照して、本実施の形態に係る音声処理装置1の全体構成について説明する。図1は、本実施の形態に係る音声処理装置の全体構成図である。
With reference to FIG. 1, the overall configuration of a
音声処理装置1は、カーナビゲーションシステムにおける1つの装置として構成され、目的地設定等をするためにユーザと対話を行うために用いられる。ちなみに、音声処理装置1は、経路案内の案内音声等の音声出力手段として用いられてもよい。音声処理装置1は、主に、マイク10、スピーカ11及び音声処理ユニット12からなる。音声処理装置1では、マイク10でユーザが発する音声等を集音し、音声処理ユニット12においてその集音した音声からユーザの発した音声を認識する。さらに、音声処理装置1では、音声処理ユニット12においてその認識した音声の内容に応じて発生する会話内容を構成するとともにその会話内容の発話音声を生成し、スピーカ11からその発話音声を出力する。なお、本実施の形態では、マイク10が特許請求の範囲に記載する集音手段に相当し、スピーカ11が特許請求の範囲に記載する音発生手段に相当する。
The
図2〜図5を参照して、第1の実施の形態に係る音声処理装置1Aの構成について説明する。図2は、第1の実施の形態に係る音声処理装置の構成図である。図3は、ユーザのみが音声を発する場合の図1の音声処理装置における処理の説明図である。図4は、ユーザが発する音声と音声処理装置が出力する音声とが重複する場合にマイクで集音される音声信号を示す図である。図5は、ユーザが発する音声と音声処理装置が出力する音声とが重複する場合の図1の音声処理装置における処理の説明図である。
With reference to FIGS. 2 to 5, the configuration of the
音声処理装置1Aは、本実施の形態に係る音声処理装置の基本となる構成である。音声処理装置1Aは、ユーザと対話を行うために、音声認識機能、会話構成機能、発話音声生成機能及び音声出力機能等を有する。特に、音声処理装置1Aは、ユーザの音声と出力する音声とが同時に発している場合でも、ユーザの音声のみを確実に抽出し、ユーザの音声を確実に認識することができる。そのために、音声処理装置1Aは、マイク10、スピーカ11及び音声処理ユニット12Aを備えており、音声処理ユニット12Aには第1フィルタ20、第2フィルタ21及び音声制御装置22を有している。
なお、第1の実施の形態では、第1フィルタ20が特許請求の範囲に記載する特定周波数通過手段に相当し、第2フィルタ21が特許請求の範囲に記載する第2特定周波数通過手段に相当し、音声制御装置22が特許請求の範囲に記載する音声処理手段及び音発生制御装置に相当する。
In the first embodiment, the
マイク10では、空気の振動からなる音声(人の発する音声や装置で出力する音声)を集音する。そして、マイク10では、その集音した音声を高速フーリエ変換等により周波数変換し、周波数毎の電気的な強度からなる原入力音声信号を第1フィルタ20に送信する。スピーカ11には、第2フィルタ21から出力音声信号が入力される。そして、スピーカ11では、周波数毎の電気的な強度からなる出力音声信号を逆高速フーリエ変換等により変換し、出力音声信号に応じた音声を出力する。なお、図3等に示すユーザの音声や装置の音声を示すグラフは、横軸が周波数であり、縦軸が強度であり、各音声のある瞬間での周波数特性を表している。この周波数特性は、時間の経過と共に変化し、人物が異なれば異なる周波数特性となり、発する内容により周波数特性も変化する。
The
第1フィルタ20、第2フィルタ21は、低周波から高周波にわたって通過させる周波数帯と通過させない周波数帯とが一定の狭い周波数間隔で配置されるバンドパスフィルタの一種であり、図3に示すようにくし型の周波数特性を有している。第1フィルタ20の通過させる周波数帯と第2フィルタ21の通過させる周波数帯とは、同じ幅であり、交互に重ならないように配置される。つまり、第1フィルタ20と第2フィルタ21とは、周波数全域にわたって一方の通過させる周波数帯に他方の通過させない周波数帯が配置され、通過させる周波数帯が異なっている。この通過させる周波数帯の幅及び通過させない周波数帯の幅は、実験によって求められ、音声認識する際に十分に認識可能でありかつ出力音声が違和感のない音声となるように設定される。なお、図3等に示す各フィルタの周波数特性は、横軸が周波数であり、縦軸が0(対応する周波数成分を通過させない)と1(対応する周波数成分を通過させる)で表される。
The
第1フィルタ20では、マイク10から原入力音声信号が入力されると、図3に示すくし状の第1特定周波数領域の周波数成分のみを通過させる。そして、第1フィルタ20では、その第1特定周波数領域の周波数成分からなる入力音声信号を音声制御装置22に送信する。一方、第2フィルタ21では、音声制御装置22から原出力音声信号が入力されると、図3に示すくし状の第2特定周波数領域の周波数成分のみを通過させる。そして、第2フィルタ21では、その第2特定周波数領域の周波数成分からなる出力音声信号をスピーカ11に送信する。
When the original input audio signal is input from the
音声制御装置22は、CPU[Central Processing Unit]、ROM[Read Only Memory]、RAM[Random Access Memory]等からなる。音声制御装置22は、ユーザが発した音声に応じた入力音声信号が入力され、ユーザの発した音声に応じた適切な音声を出力するための原出力音声信号を出力する装置である。そのために、音声制御装置22は、ROMに各機能を実現するための各種プログラムが記憶されており、その各種プログラムがRAMにロードされ、CPUによって実行される。
The
音声制御装置22では、第1フィルタ20からの入力音声信号を受信すると、この入力音声信号に基づいて音声認識処理を行う。この入力音声信号は、第1フィルタ20の第1特定周波数領域を通過しているので、くし状に間引かれた周波数成分からなる。そのため、音声制御装置22には、第1特定周波数領域で間引かれた各言語情報の音声信号によって予め学習して作成された辞書データが格納されている。音声制御装置22では、この辞書データに基づいて入力音声信号を言語情報に変換し、ユーザの音声を認識する。
When the
さらに、音声制御装置22では、認識した言語情報に応じて会話を構成する。そのために、音声制御装置22には、ユーザの発した言葉に含まれる特定の単語に対して装置側で出力する会話内容が対応付けられたデータベースが格納されている。例えば、目的地設定の場合、ユーザが「目的地」という単語を発すると、「目的地の住所を教えて下さい」、「目的地の電話番号を入力して下さい」という会話内容が対応付けられている。
Furthermore, the
続いて、音声制御装置22では、構成した会話に対して音声合成を行い、原出力音声信号を生成する。この原出力音声信号は、低周波から高周波まで全周波の周波数成分を含んでいる。なお、装置において音声合成を行うのでなく、会話内容に応じた原出力音声信号を予め装置内に格納しておいてもよい。
Subsequently, the
次に、ユーザが目的地を設定する場合の音声処理装置1Aにおける動作について説明する。ここでは、図3を参照してユーザの音声のみが発せられた場合と図5を参照してユーザの音声と装置の音声が同時に発せられた場合について説明する。
Next, an operation in the
まず、ユーザのみが音声を発した場合について説明する。例えば、ユーザが目的地を設定するために「目的地設定」と発すると、マイク10でその音声を集音する。集音された音声は、周波数変換され、原入力音声信号として第1フィルタ20を通される。第1フィルタ20の第1特定周波数領域を通過した入力音声信号は、音声制御装置22に送信される。この入力音声信号は、ユーザが発した音声の周波数成分だけを含んでおり、周波数成分としてはくし状に間引かれている。
First, a case where only the user utters voice will be described. For example, when the user issues “destination setting” to set the destination, the
音声制御装置22では、入力音声信号から辞書データに基づいて言語情報を取得し、音声を認識する。入力音声信号は原入力音声信号から周波数成分が間引かれているが、その間引かれた音声信号で作成した辞書データを用いるので、十分に音声認識が可能である。さらに、音声制御装置22では、この言語情報に応じて会話内容を設定する。ここでは、「目的地」に応じて、例えば、「目的地の住所を教えて下さい」という会話内容が設定される。続いて、音声制御装置22では、その会話内容に応じて原出力音声信号を生成する。
The
この原出力音声信号は、第2フィルタ21を通される。第2フィルタ21の第2特定周波数領域を通過した出力音声信号は、スピーカ11に送信される。スピーカ11では、その出力音声信号を変換し、音声として出力する。出力音声信号は、くし状に周波数成分が間引かれた信号であるが、その間引かれる間隔が狭くかつ低周波から高周波まで全周波数にわたって周波数成分が分布しているので、ユーザと対話する際に違和感のない音声となる。
This original output audio signal is passed through the
次に、ユーザと音声処理装置1Aとが同時に音声を発した場合について説明する。図4に示すように、ユーザと音声処理装置1Aとが同時に音声を発すると、ユーザによる音声の周波数成分に装置による音声の周波数成分が重なり、ユーザの音声のみの周波数成分から変化する。この際、音声処理装置1Aから出力される周波数成分は間引かれたくし状なので、重なる部分は一定の周波数帯毎に飛び飛びになる。
Next, a case where the user and the
例えば、音声処理装置1Aから「目的地の住所を教えて下さい」と出力している間に、ユーザが「東京都中央区・・・」と喋り始めたとすると、2つの音声の周波数成分が重なってマイク10に入る。マイク10では、その重なった音声を集音し、その音声を周波数変換する。そして、その音声の原入力音声信号は、第1フィルタ20を通され、第1特定周波数領域を通過した周波数成分からなる入力音声信号が音声制御装置22に送信される。この入力音声信号は、第1特定周波数領域の周波数成分のみからなるので、第2特定周波数領域の周波数成分は含まれない。つまり、音声処理装置1Aから出力された音声(すなわち、第2フィルタ21を通過した出力音声信号)の周波数成分は第1フィルタ20を通過できないので、入力音声信号には音声処理装置1Aからの出力音声が含まれない。したがって、入力音声信号は、ユーザが発した音声の周波数成分だけを含んでいる。そのため、音声制御装置22では、上記したユーザのみが音声を発した場合と同等の精度で音声認識を行うことができる。なお、音声制御装置22以降の動作については、上記と同様の動作なので、その説明を省略する。
For example, if the user starts speaking “Chuo-ku, Tokyo ...” while outputting “Please tell me the address of the destination” from the
音声処理装置1Aによれば、ユーザと装置とが同時に音声を発している場合でも、ユーザの発した音声のみを抽出することができるので、ユーザの音声を高精度に認識することができる。これにより、ユーザと音声処理装置1Aとによる円滑な対話を行うことができる。このユーザの発する音声のみを確実に抽出するために、音声処理装置1Aは、マイク10と音声制御装置22との間に第1フィルタ20を配置させ、音声制御装置22とスピーカ11との間に第2フィルタ21を配置させ、第1フィルタ20の第1特定周波数領域と第2フィルタ21の第2特定周波数領域とを重複しないようにするだけの簡単な構成である。
According to the
さらに、音声処理装置1Aによれば、フィルタ20,21の各特定周波数領域の通過させる周波数帯を全周波数にわたって交互に配置させたので、音声認識を行う場合にはその認識精度を向上させることができ、音声を出力する場合には違和感のない音声を出力することができる。
Furthermore, according to the
図6及び図7を参照して、第2の実施の形態に係る音声処理装置1Bの構成について説明する。図6は、第2の実施の形態に係る音声処理装置の構成図である。図7は、ユーザの音声の特徴に応じたフィルタの周波数特性の一例であり、(a)が第1フィルタの周波数特性であり、(b)が第2フィルタの周波数特性である。
With reference to FIG.6 and FIG.7, the structure of the audio |
音声処理装置1Bは、第1の実施の形態に係る音声処理装置1Aとほぼ同様の装置であるが、対話するユーザに応じて第1特定周波数領域及び第2特定周波数領域を設定する。そのために、音声処理装置1Bは、マイク10、スピーカ11及び音声処理ユニット12Bを備えており、音声処理ユニット12Bには第1可変フィルタ30、第2可変フィルタ31、音声特徴検出装置32、特定周波数領域データベース33、特定周波数領域選択装置34及び音声制御装置35を有している。
The
なお、第2の実施の形態では、第1可変フィルタ30が特許請求の範囲に記載する特定周波数通過手段に相当し、第2可変フィルタ31が特許請求の範囲に記載する第2特定周波数通過手段に相当し、音声特徴検出装置32が特許請求の範囲に記載する人物特定手段及び特徴検出装置に相当し、音声制御装置35が特許請求の範囲に記載する音声処理手段及び音発生制御装置に相当する。
In the second embodiment, the first
人は、発する音声に個人差があり、人によって音声の周波数特性が異なる。例えば、声の低い人は低周波域に周波数成分が偏り、声の高い人は高周波域に周波数成分が偏る。そのため、音声を認識する際、その音声の特徴を有する周波数域の成分を主な対象として認識処理を行う方が情報量が多くなり、認識精度が高くなる。そこで、音声処理装置1Bでは、音声の特徴からユーザを特定し、その特定したユーザに応じて第1特定周波数領域と第2特定周波数領域を設定する。
Humans have individual differences in voices to be uttered, and the frequency characteristics of voices vary from person to person. For example, a person with a low voice tends to have a frequency component biased toward a low frequency range, and a person with a high voice tends to have a frequency component biased toward a high frequency range. Therefore, when the speech is recognized, the amount of information increases and the recognition accuracy increases when the recognition processing is performed mainly on the frequency domain component having the features of the speech. In view of this, in the
第1可変フィルタ30、第2可変フィルタ31は、特定周波数領域選択装置34からの第1選択信号、第2選択信号に応じて、低周波から高周波にわたって通過させる周波数帯を変化させることができるフィルタである。第1可変フィルタ30で通過させる周波数帯と第2可変フィルタ31で通過させる周波数帯とは、交互に重ならないように配置されるが、その幅はユーザに応じて変わる。
The first
第1可変フィルタ30では、マイク10から入力音声信号が入力されると第1特定周波数領域の音声成分のみを通過させ、その第1特定周波数領域からなる入力音声信号を音声制御装置35に送信する。一方、第2可変フィルタ31では、音声制御装置35から原出力音声信号が入力されると第2特定周波数領域の音声成分のみを通過させ、その第2特定周波数領域からなる出力音声信号をスピーカ11に送信する。なお、ユーザが特定されるまで、第1可変フィルタ30、第2可変フィルタ31は、初期状態の各特定周波数領域(例えば、第1の実施の形態の第1フィルタ20、第2フィルタ21の各特定周波数領域)に設定されている。
In the first
音声特徴検出装置32は、第1可変フィルタ30における初期状態の第1特定周波数領域を通過した入力音声信号が入力され、その入力音声信号に基づいて音声の特徴を検出し、ユーザを特定する。そのために、音声特徴検出装置32には、このカーナビゲーションシステムが搭載する車両を使用する可能性のある各ユーザが発した音声の音声信号から初期状態の第1特定周波数領域で間引かれた音声信号に対して予め周波数解析され、その周波数解析による各ユーザの音声の特徴(周波数特性)が格納されている。音声特徴検出装置32では、その予め格納されている各ユーザの音声の特徴と入力音声信号との周波数特性を比較し、音声を発したユーザを特定する。音声特徴検出装置32では、ユーザを特定すると、そのユーザの情報をユーザ信号として特定周波数領域選択装置34及び音声制御装置35に送信する。
The voice
特定周波数領域データベース33には、このカーナビゲーションシステムが搭載する車両を使用する可能性のある各ユーザに応じた第1特定周波数領域及び第2特定周波数領域が格納されている。各ユーザに応じた第1特定周波数領域は、各ユーザが発した音声の音声信号が周波数解析され、その解析結果に基づいて各ユーザの音声の特徴を有する周波数域に広い幅の通過させる周波数帯が配置され、それ以外の周波数域に狭い幅の周波数域が配置される。例えば、低音に特徴を持つユーザの場合、図7(a)に示すように、低周波域に広い幅の通過させる周波数帯が設定され、高周波域に狭い幅の通過させる周波数帯が設定される。一方、第2特定周波数領域は、第1特定周波数領域における通過させる周波数帯に通過させない周波数帯が配置され、第1特定周波数領域における通過させない周波数帯に通過させる周波数帯が配置される。例えば、低音に特徴を持つユーザの場合、図7(b)に示すように、低周波域に狭い幅の通過させる周波数帯が設定され、高周波域に広い幅の通過させる周波数帯が設定される。なお、特定周波数領域データベース33には各ユーザに応じた第1特定周波数領域のみを格納する構成としてもよい。 The specific frequency region database 33 stores a first specific frequency region and a second specific frequency region corresponding to each user who may use the vehicle mounted on the car navigation system. The first specific frequency region corresponding to each user is a frequency band in which the sound signal of the sound emitted by each user is subjected to frequency analysis, and a wide frequency band is passed through the frequency region having the characteristics of each user's sound based on the analysis result. Is arranged, and a narrow frequency range is arranged in other frequency ranges. For example, in the case of a user who has a characteristic of bass, as shown in FIG. 7A, a wide frequency band is set in the low frequency range, and a narrow frequency band is set in the high frequency range. . On the other hand, in the second specific frequency region, a frequency band that is not allowed to pass in the first specific frequency region is disposed, and a frequency band that is not allowed to pass in the first specific frequency region is disposed. For example, in the case of a user having a characteristic of bass, as shown in FIG. 7B, a narrow frequency band is set in the low frequency range, and a wide frequency band is set in the high frequency range. . The specific frequency region database 33 may be configured to store only the first specific frequency region corresponding to each user.
ちなみに、低音に特徴を持つユーザの場合でも、低周波域だけでなく、高周波域にも通過させる周波数帯を設けるのは、そのユーザからは低周波域の音が主に発せられるが、高音域の音も多少発せられるからである。このように、第1特定周波数領域によって低周波域から高周波域までを音声の認識対象とすることにより、音声の認識精度を向上させることができるからである。また、第2特定周波数領域によって低周波域から高周波域まで出力する音声で使用できるようにすることにより、出力音声に違和感がなくなるからである。 By the way, even in the case of a user who is characterized by low frequencies, providing a frequency band that passes not only in the low frequency range but also in the high frequency range is that the user mainly emits the low frequency range, but the high frequency range This is because some of the sound is emitted. This is because the speech recognition accuracy can be improved by setting the first specific frequency region as the speech recognition target from the low frequency region to the high frequency region. In addition, since the second specific frequency region can be used for sound output from a low frequency region to a high frequency region, the output sound does not feel uncomfortable.
特定周波数領域選択装置34は、音声特徴検出装置32からのユーザ信号を受信すると、そのユーザ信号に示されるユーザをキーとして特定周波数領域データベース33を参照し、特定周波数領域データベース33からそのユーザに応じた第1特定周波数領域及び第2特定周波数領域を選択する。そして、特定周波数領域選択装置34では、第1特定周波数領域(複数の通過させる周波数帯の情報)を示した第1選択信号を第1可変フィルタ30に送信するとともに、第2特定周波数領域(複数の通過させる周波数帯の情報)を示した第2選択信号を第2可変フィルタ31に送信する。なお、特定周波数領域データベース33に各ユーザに応じた第1特定周波数領域のみを格納している場合、特定周波数領域選択装置34では、ユーザに応じた第1特定周波数領域を選択すると、その第1特定周波数領域に基づいて第2特定周波数領域を設定する。
When the specific frequency
音声制御装置35は、第1の実施の形態に係る音声制御装置22とほぼ同様の構成であるが、特定したユーザに応じて一部処理が異なる。音声制御装置35には、初期状態の第1特定周波数領域で間引かれた各言語情報の音声信号によって予め学習して作成された辞書データ及び各ユーザに応じた第1特定周波数領域で間引かれた各言語情報の音声信号によって予め学習して作成された辞書データが格納されている。音声制御装置35では、ユーザ信号を受信するまで、初期状態の第1特定周波数領域による辞書データに基づいて入力音声信号を言語情報に変換し、ユーザの音声を認識する。また、音声制御装置35では、ユーザ信号を受信すると、ユーザ信号に示されるユーザに応じた辞書データに基づいて入力音声信号を言語情報に変換し、ユーザの音声を認識する。
The voice control device 35 has substantially the same configuration as the
さらに、音声制御装置35では、ユーザ信号を受信すると、そのユーザ信号に示されるユーザに応じた会話内容を構成するようにしてもよい。そのために、音声制御装置35には、ユーザに応じて設定されている対話時の要望(例えば、女性の音声での対話、大阪弁での対話)、ユーザに応じた会話内容(例えば、目的地が食事する店の場合には和食店、目的地が宿泊施設の場合には旅館、目的地がガソリンスタンドの場合には指定された系列のガソリンスタンド)等のデータが予め格納されている。 Furthermore, when receiving the user signal, the voice control device 35 may constitute the conversation content corresponding to the user indicated by the user signal. For this purpose, the voice control device 35 has a request at the time of dialogue set according to the user (for example, dialogue with female voice, dialogue with Osaka dialect), conversation content according to the user (for example, destination) Stores data such as a Japanese restaurant in the case of a restaurant, a Japanese inn if the destination is an accommodation facility, and a designated series of gas stations if the destination is a gas station.
図6を参照して、音声処理装置1Bの動作について説明する。ユーザと音声処理装置1Bとの対話が開始する前に、第1可変フィルタ30には初期状態の第1特定周波数領域が設定され、第2可変フィルタ31には初期状態の第2特定周波数領域が設定されている。例えば、ユーザが目的地を設定するために「目的地設定」と発すると、マイク10でその音声を集音する。集音された音声は、周波数変換され、原入力音声信号として第1可変フィルタ30を通される。第1可変フィルタ30の初期状態の第1特定周波数領域を通過した入力音声信号は、音声制御装置35及び音声特徴検出装置32に送信される。この際、音声制御装置35では、この初期状態の第1特定周波数領域を通過した入力音声信号と初期状態の辞書データにより、第1の実施の形態と同様の動作を行う。そして、音声制御装置35から送信された原出力音声信号が第2可変フィルタ31を通され、第2可変フィルタ31の初期状態の第2特定周波数領域を通過した出力音声信号がスピーカ11に送信される。スピーカ11では、その出力音声信号を変換し、音声として出力する。
With reference to FIG. 6, the operation of the
音声特徴検出装置32では、この初期状態の第1特定周波数領域を通過した入力音声信号の周波数特性と保持している各ユーザの音声の特徴の周波数特性とをそれぞれ比較し、その周波数特性が類似するものを検出する。そして、音声特徴検出装置32では、その検出結果からユーザを特定し、そのユーザを示すユーザ信号を特定周波数領域選択装置34及び音声制御装置35に送信する。
The voice
特定周波数領域選択装置34では、ユーザ信号に基づいて、特定周波数領域データベース33から特定されたユーザに応じて第1特定周波数領域及び第2特定周波数領域を選択する。そして、特定周波数領域選択装置34では、その選択した第1特定周波数領域を示す第1選択信号を第1可変フィルタ30に送信するとともに、第2特定周波数領域を示す第2選択信号を第2可変フィルタ31に送信する。
The specific frequency
第1可変フィルタ30では、第1選択信号に基づいて、通過させる周波数帯を初期状態の第1特定周波数領域からユーザに応じた第1特定周波数領域に変化させる。原入力音声信号は、この第1可変フィルタ30を通され、ユーザに応じた第1特定周波数領域を通過した入力音声信号が音声制御装置35に送信される。この入力音声信号は、原入力音声信号から間引かれた信号であるが、ユーザの音声の特徴となる周波数域の周波数成分を主に含んでいる。この際、音声制御装置35では、このユーザに応じた第1特定周波数領域を通過した入力音声信号とユーザに応じた辞書データにより、第1の実施の形態と同様の動作を行う。音声制御装置35における音声の認識精度は、ユーザの特徴となる周波数成分に基づいて音声認識を行うので、初期状態の第1特定周波数領域を通過した入力音声信号を用いた場合より向上する。
The first
また、第2可変フィルタ31では、第2選択信号に基づいて、通過させる周波数帯を初期状態の第2特定周波数領域からユーザに応じた第2特定周波数領域に変化させている。音声制御装置35から送信された原出力音声信号が第2可変フィルタ31を通され、ユーザに応じた第2特定周波数領域を通過した出力音声信号がスピーカ11に送信される。スピーカ11では、その出力音声信号を変換し、音声として出力する。この出力される音声は、低周波から高周波まで全周波数数にわたる周波数成分を含んでいるので、違和感は殆ど感じない。
In the second
この音声処理装置1Bによれば、音声処理装置1Aと同様の効果を有する上に、ユーザの音声の特徴を考慮して音声認識を行うので、音声認識精度が更に高くなる。
According to the
図8〜図11を参照して、第3の実施の形態に係る音声処理装置1Cの構成について説明する。図8は、第3の実施の形態に係る音声処理装置の構成図である。図9は、第1フィルタが集音側、第2フィルタが音声出力側に切り替わった場合の図8の音声処理装置における処理の説明図である。図10は、第2フィルタが集音側、第1フィルタが音声出力側に切り替わった場合の図8の音声処理装置における処理の説明図である。図11は、図8の音声処理装置から出力される音声の周波数特性の一例である。
With reference to FIGS. 8 to 11, the configuration of a
音声処理装置1Cは、第1の実施の形態に係る音声処理装置1Aとほぼ同様の装置であるが、第1フィルタと第2フィルタとを極短時間毎に切り替える。そのために、音声処理装置1Cは、マイク10、スピーカ11及び音声処理ユニット12Cを備えており、音声処理ユニット12Cには第1フィルタ40、第2フィルタ41、切替タイミング発生装置42、第1切替制御装置43、第2切替制御装置44及び音声制御装置45を有している。
The
なお、第3の実施の形態では、第1フィルタ40又は第2フィルタ41が特許請求の範囲に記載する特定周波数通過手段に相当し、第1フィルタ40又は第2フィルタ41が特許請求の範囲に記載する第2特定周波数通過手段に相当し、音声制御装置45が特許請求の範囲に記載する音声処理手段及び音発生制御装置に相当する。
In the third embodiment, the
第1フィルタ40、第2フィルタ41は、第1の実施の形態に係る第1フィルタ20、第2フィルタ21と同様のフィルタである。第1フィルタ40は、入力側に第1切替制御装置43が接続し、出力側に第2切替制御装置44が接続する。一方、第2フィルタ41は、入力側に第2切替制御装置44が接続し、出力側に第1切替制御装置43が接続する。
The
切替タイミング発生装置42は、一定時間毎に切替タイミング信号を第1切替制御装置43、第2切替制御装置44及び音声制御装置45に送信する。切替タイミング信号は、第1フィルタ40と第2フィルタ41を集音側と音声出力側のいずれに接続するかを指示すための信号である。切替タイミング信号を送信する一定時間としては、実験によって求められ、音声処理装置1Cから出力する音声に違和感が生じない程度の極短時間が設定される。
The switching
第1切替制御装置43は、マイク10及びスピーカ11と第1フィルタ40及び第2フィルタ41の間に配置され、一方側にマイク10及びスピーカ11が接続され、他方側に第1フィルタ40及び第2フィルタ41が接続される。第1切替制御装置43では、切替タイミング信号に第1フィルタ40を集音側(及び/又は第2フィルタ41を音声出力側)に接続と指示されている場合には第1フィルタ40をマイク10に接続するとともに第2フィルタ41をスピーカ11に接続し(図9参照)、切替タイミング信号に第1フィルタ40を音声出力側(及び/又は第2フィルタ41を集音側)に接続と指示されている場合には第2フィルタ41をマイク10に接続するとともに第1フィルタ40をスピーカ11に接続する(図10参照)。
The first
第2切替制御装置44は、第1フィルタ40及び第2フィルタ41と音声制御装置45の間に配置され、一方側に第1フィルタ40及び第2フィルタ41が接続され、他方側に音声制御装置45の入力端及び出力端が接続される。第2切替制御装置44では、切替タイミング信号に第1フィルタ40を集音側に接続と指示されている場合には第1フィルタ40を音声制御装置45の入力端に接続するとともに第2フィルタ41を音声制御装置45の出力端に接続し(図9参照)、切替タイミング信号に第1フィルタ40を音声出力側に接続と指示されている場合には第2フィルタ41を音声制御装置45の入力端に接続するとともに第1フィルタ40を音声制御装置45の出力端に接続する(図10参照)。
The second
音声制御装置45は、第1の実施の形態に係る音声制御装置22とほぼ同様の構成であるが、音声認識をする際に一部処理が異なる。音声処理装置1Cでは第1フィルタ40と第2フィルタ41とが切り替わるので、音声制御装置45に入力される入力音声信号は、原入力音声信号をくし状に間引きした信号であるが、その間引かれる周波数帯が一定時間毎に変わる。したがって、入力音声信号から言語情報に変換する際の辞書データも切り替える必要がある。そのために、音声制御装置45には、第1フィルタ40の第1特定周波数領域で間引かれた各言語情報の音声信号によって予め学習して作成された第1辞書データ及び第2フィルタ41の第2特定周波数領域で間引かれた各言語情報の音声信号によって予め学習して作成された第2辞書データが格納されている。音声制御装置45では、切替タイミング信号に第1フィルタ40を集音側に接続と指示されている場合には第1辞書データに基づいて入力音声信号を言語情報に変換し、切替タイミング信号に第1フィルタ40を音声出力側に接続と指示されている場合には第2辞書データに基づいて入力音声信号を言語情報に変換し、ユーザの音声を認識する。
The
図8〜図11を参照して、音声処理装置1Cの動作について説明する。初期状態の場合、第1切替制御装置43では第1フィルタ40をマイク10に接続するとともに第2フィルタ41をスピーカ11に接続し、第2切替制御装置44では第1フィルタ40を音声制御装置45の入力端に接続するとともに第2フィルタ41を音声制御装置45の出力端に接続している(図9参照)。
With reference to FIGS. 8 to 11, the operation of the
ユーザと音声処理装置1Cとの対話が開始すると、切替タイミング発生装置42では、極短時間毎に、第1フィルタ40、第2フィルタ41の接続先を示した切替タイミング信号を生成し、第1切替制御装置43、第2切替制御装置44及び音声制御装置45に送信する。
When the conversation between the user and the
切替タイミング信号として第1フィルタ40を集音側に接続と指示されている場合、第1切替制御装置43では第1フィルタ40の接続先をマイク10からスピーカ11に切り替えるとともに第2フィルタ41の接続先をスピーカ11からマイク10に切り替え、第2切替制御装置44では第1フィルタ40の接続先を音声制御装置45の入力端から出力端に切り替えるとともに第2フィルタ41の接続先を音声制御装置45の出力端から入力端に切り替える(図10参照)。
When it is instructed to connect the
マイク10で集音され、周波数変換された原入力音声信号は、第1切替制御装置43に送信され、第1切替制御装置43を介して第2フィルタ41を通される。第2フィルタ41の第2特定周波数領域を通過した入力音声信号は、第2切替制御装置44を介して音声制御装置45に送信される。
The original input audio signal collected by the
この際、音声制御装置45では、この第2特定周波数領域を通過した入力音声信号と第2辞書データにより音声認識を行う。さらに、音声制御装置45では、第1の実施の形態と同様の動作を行い、原出力音声信号を第2切替制御装置44に送信する。
At this time, the
音声制御装置45から送信された原出力音声信号は、第2切替制御装置44を介して第1フィルタ40を通される。第1フィルタ40の第1特定周波数領域を通過した出力音声信号が、スピーカ11に送信される。スピーカ11では、その出力音声信号を変換し、音声として出力する。
The original output audio signal transmitted from the
切替タイミング信号として第1フィルタ40を集音側に接続と指示されている場合、第1切替制御装置43では第1フィルタ40の接続先をスピーカ11からマイク10に切り替えるとともに第2フィルタ41の接続先をマイク10からスピーカ11に切り替え、第2切替制御装置44では第1フィルタ40の接続先を音声制御装置45の出力端から入力端に切り替えるとともに第2フィルタ41の接続先を音声制御装置45の入力端から出力端に切り替える(図9参照)。
When it is instructed to connect the
マイク10で集音され、周波数変換された原入力音声信号は、第1切替制御装置43に送信され、第1切替制御装置43を介して第1フィルタ40を通される。第1フィルタ40の第1特定周波数領域を通過した入力音声信号は、第2切替制御装置44を介して音声制御装置45に送信される。
The original input audio signal collected by the
この際、音声制御装置45では、この第1特定周波数領域を通過した入力音声信号と第1辞書データにより音声認識を行う。さらに、音声制御装置45では、第1の実施の形態と同様の動作を行い、原出力音声信号を第2切替制御装置44に送信する。
At this time, the
音声制御装置45から送信された原出力音声信号は、第2切替制御装置44を介して第2フィルタ41を通される。第2フィルタ41の第2特定周波数領域を通過した出力音声信号が、スピーカ11に送信される。スピーカ11では、その出力音声信号を変換し、音声として出力する。
The original output audio signal transmitted from the
音声処理装置1Cでは、以上の動作が極短時間毎に繰り返し行われる。したがって、音声制御装置45から出力される原出力音声信号は、極短時間毎に、第1フィルタ40と第2フィルタ41との切り替えに応じて、第1フィルタ40と第2フィルタ41とを交互に通過する。この際、この切り替えるタイミングが十分に速い速度で実行されると、音声制御装置45で生成する原出力音声信号の周波数成分があまり変化しないうちに第1フィルタ40と第2フィルタ41とが切り替わる。そのため、図11に示すように、ある瞬間に出力される原出力音声信号OSは、第2フィルタ41を通過し、第2特定周波数領域によって間引かれた出力音声信号OS2となる。そして、スピーカ11からは出力音声信号OS2に応じた音声が出力される。次の瞬間に出力される原出力音声信号は、ある瞬間に出力される原出力音声信号OSから殆ど変化しておらず、第1フィルタ40を通過し、第1特定周波数領域によって間引かれた出力音声信号OS1となる。そして、スピーカ11からは出力音声信号OS1に応じた音声が出力される。その結果、ユーザに聞こえる音声としては、出力音声信号OS1と出力音声信号OS2とが合成された音声信号OS3に応じた音声となる。この音声信号OS3は、全周波数成分を含む原出力音声信号とほぼ同じ信号となる。
In the
なお、入力側についても第1特定周波数領域によって間引かれた入力音声信号と第2特定周波数領域によって間引かれた入力音声信号の両方に対して交互に音声認識を行うことになるので、全周波数成分を含む原入力音声信号に対して音声認識を行うのとほぼ同等となる。 Since the input side also performs voice recognition alternately for both the input voice signal thinned out by the first specific frequency region and the input voice signal thinned out by the second specific frequency region, This is almost equivalent to performing speech recognition on the original input speech signal including frequency components.
この音声処理装置1Cによれば、音声処理装置1Aと同様の効果を有する上に、ユーザにとって違和感のない音声を出力することができるとともに、音声認識精度も向上する。
According to the
以上、本発明に係る実施の形態について説明したが、本発明は上記実施の形態に限定されることなく様々な形態で実施される。 As mentioned above, although embodiment which concerns on this invention was described, this invention is implemented in various forms, without being limited to the said embodiment.
例えば、本実施の形態ではカーナビゲーションシステムに適用したが、ユーザとの対話を行うことができるロボットなどの対話形式の音声処理を行う他のシステムにも適用可能である。また、本実施の形態では音声制御装置において音声認識、会話構成、発話音声生成の各処理を行う構成としたが、適用するシステムの目的に応じて行う処理内容を変えてもよい。また、システム側において1種類の音声を出力する場合だけでなく、複数のパーソナルロボットがそれぞれ異なる声色を持つ場合やカーナビゲーション上にエージェントが複数存在し、それぞれ異なる声色を持つような複数の種類の音声を出力する場合にも適用可能である。 For example, although the present embodiment is applied to a car navigation system, the present invention can also be applied to other systems that perform interactive voice processing, such as a robot that can interact with a user. Further, in the present embodiment, the voice control device is configured to perform each process of voice recognition, conversation configuration, and utterance voice generation. However, the processing content to be performed may be changed according to the purpose of the system to be applied. Also, not only when one type of voice is output on the system side, but also when multiple personal robots have different timbres, or when there are multiple agents on the car navigation system, The present invention can also be applied when outputting sound.
また、本実施の形態では音声制御装置とスピーカとの間に第2フィルタを設ける構成としたが、第2フィルタを設けずに、音声制御装置において第2フィルタを通した場合と同等の第2特定周波数領域の周波数成分からなる音声を生成するように構成してもよい。 In the present embodiment, the second filter is provided between the sound control device and the speaker. However, the second filter is not provided, and the second filter is the same as when the second filter is passed through the sound control device. You may comprise so that the audio | voice which consists of a frequency component of a specific frequency area | region may be produced | generated.
また、本実施の形態では音声処理装置から出力する音としてはユーザと対話を行うための会話音声を適用したが、「ブー」、「ピー」などの機械音や音楽など、様々な音に適用可能である。 Also, in this embodiment, the speech output for speech from the speech processing device is applied to the conversation, but applied to various sounds such as mechanical sounds such as “boo” and “pea” and music. Is possible.
また、本実施の形態では第1特定周波数領域と第2特定周波数領域とを所定の周波数間隔で交互に配置させる構成としたが、第1特定周波数領域や第2特定周波数領域を特定の周波数帯に纏めて配置させる構成としてもよい。例えば、「ブー」、「ピー」などの機械音の場合、発生させる音としては特定の狭い範囲の周波数帯となるので、この周波数帯に第2特定周波数領域を配置させ、これ以外の周波数帯に第1特定周波数領域を配置させる。 In the present embodiment, the first specific frequency region and the second specific frequency region are alternately arranged at a predetermined frequency interval. However, the first specific frequency region and the second specific frequency region are arranged in a specific frequency band. It is good also as a structure arrange | positioned collectively. For example, in the case of mechanical sounds such as “boo” and “pea”, the generated sound is in a specific narrow frequency band, so the second specific frequency region is arranged in this frequency band, and other frequency bands The first specific frequency region is arranged in
また、第1の実施の形態では第1フィルタ、第2フィルタにおいて通過させる周波数帯と通過させない周波数帯とを同じ幅で交互に配置させたが、異なる幅としてもよいし、あるいは、通過させる周波数帯が重ならないように配置されているなら、通過させない周波数帯が重なっていてもよい。 Further, in the first embodiment, the frequency bands that are allowed to pass through and the frequency bands that are not allowed to pass in the first filter and the second filter are alternately arranged with the same width, but they may have different widths or may be passed through. If the bands are arranged so as not to overlap, the frequency bands not allowed to pass may overlap.
また、第2の実施の形態では集音される音声の特徴を検出し、人物を特定する構成としたが、個人毎に割り当てたID番号を入力させ、そのID番号を照合することにより人物を特定する構成、人物の顔を撮像し、顔画像を認識することにより人物を特定する構成、あるいは、指紋や虹彩から人物を特定する構成などの様々な手法によって人物を特定してよい。 Further, in the second embodiment, the characteristics of the collected voice are detected and the person is specified. However, the ID number assigned to each individual is input and the person is identified by collating the ID number. The person may be specified by various methods such as a configuration for specifying, a configuration for specifying a person by capturing a face of a person and recognizing the face image, or a configuration for specifying a person from a fingerprint or an iris.
1,1A,1B,1C…音声処理装置、10…マイク、11…スピーカ、12,12A,12B,12C…音声処理ユニット、20,40…第1フィルタ、21,41…第2フィルタ、22,35,45…音声制御装置、30…第1可変フィルタ、31…第2可変フィルタ、32…音声特徴検出装置、33…特定周波数領域データベース、34…特定周波数領域選択装置、42…切替タイミング発生装置、43…第1切替制御装置、44…第2切替制御装置
DESCRIPTION OF
Claims (12)
前記集音手段で集音した音声の特定周波数領域を通過させる特定周波数通過手段と、
前記特定周波数通過手段を通過した音声に基づいて音声処理を行う音声処理手段と、
音発生制御装置からの信号に基づいて音を発生させる音発生手段と
を備え、
前記特定周波数通過手段における特定周波数領域は、前記音発生手段から発生される音の周波数領域とは異なる周波数領域に設定されることを特徴とする音声処理装置。 Sound collecting means,
Specific frequency passing means for passing a specific frequency region of the sound collected by the sound collecting means;
Sound processing means for performing sound processing based on the sound that has passed through the specific frequency passing means;
Sound generating means for generating sound based on a signal from the sound generation control device,
The audio processing apparatus according to claim 1, wherein the specific frequency region in the specific frequency passing unit is set to a frequency region different from the frequency region of the sound generated from the sound generating unit.
前記特定周波数通過手段における特定周波数領域と前記第2特定周波数通過手段における第2の特定周波数領域とは異なる周波数領域に設定されることを特徴とする請求項1に記載の音声処理装置。 Between the sound generation control device and the sound generation means, a second specific frequency passage means for passing a second specific frequency region of the sound based on a signal from the sound generation control device,
The audio processing apparatus according to claim 1, wherein the specific frequency region in the specific frequency passing unit and the second specific frequency region in the second specific frequency passing unit are set to different frequency regions.
前記特定周波数通過手段における特定周波数領域は、前記人物特定手段で特定した人物の音声の特徴に応じて変更されることを特徴とする請求項1〜請求項3のいずれか1項に記載の音声処理装置。 Comprising a person specifying means for specifying a person who has emitted the sound collected by the sound collecting means,
The sound according to any one of claims 1 to 3, wherein the specific frequency region in the specific frequency passing means is changed according to the characteristics of the voice of the person specified by the person specifying means. Processing equipment.
前記集音ステップで集音した音声の特定周波数領域を通過させる特定周波数通過ステップと、
前記特定周波数通過ステップを通過した音声に基づいて音声処理を行う音声処理ステップと、
音発生制御装置からの信号に基づいて音を発生させる音発生ステップと
を含み、
前記特定周波数通過ステップにおける特定周波数領域は、前記音発生ステップで発生される音声の周波数領域と異なる周波数領域に設定されることを特徴とする音声処理方法。 Collecting steps;
A specific frequency passing step for passing the specific frequency region of the sound collected in the sound collecting step;
A voice processing step for performing voice processing based on the voice that has passed through the specific frequency passing step;
A sound generation step for generating sound based on a signal from the sound generation control device,
The specific frequency region in the specific frequency passage step is set to a frequency region different from the frequency region of the sound generated in the sound generation step.
前記特定周波数通過ステップにおける特定周波数領域と前記第2特定周波数通過ステップにおける第2の特定周波数領域とは異なる周波数領域に設定されることを特徴とする請求項7に記載の音声処理方法。 Including a second specific frequency passing step of passing a second specific frequency region of sound based on a signal from the sound generation control device;
The audio processing method according to claim 7, wherein the specific frequency region in the specific frequency passing step and the second specific frequency region in the second specific frequency passing step are set to different frequency regions.
前記特定周波数通過ステップにおける特定周波数領域は、前記人物特定ステップで特定した人物の音声の特徴に応じて変更されることを特徴とする請求項7〜請求項9のいずれか1項に記載の音声処理方法。 Including a person specifying step of specifying a person who has emitted the sound collected in the sound collecting step,
The sound according to any one of claims 7 to 9, wherein the specific frequency region in the specific frequency passing step is changed according to the characteristics of the voice of the person specified in the person specifying step. Processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004282410A JP2006098534A (en) | 2004-09-28 | 2004-09-28 | Device and method for speech processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004282410A JP2006098534A (en) | 2004-09-28 | 2004-09-28 | Device and method for speech processing |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006098534A true JP2006098534A (en) | 2006-04-13 |
Family
ID=36238443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004282410A Pending JP2006098534A (en) | 2004-09-28 | 2004-09-28 | Device and method for speech processing |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006098534A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60214144A (en) * | 1984-03-21 | 1985-10-26 | エヌ・ベー・フイリツプス・フルーイランペンフアブリケン | Loudspeaking telephone set |
JPH08508384A (en) * | 1993-08-11 | 1996-09-03 | ベル コミュニケーションズ リサーチ,インコーポレイテッド | Audio processing system for point-to-point and multipoint teleconference |
JP2004101901A (en) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
-
2004
- 2004-09-28 JP JP2004282410A patent/JP2006098534A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60214144A (en) * | 1984-03-21 | 1985-10-26 | エヌ・ベー・フイリツプス・フルーイランペンフアブリケン | Loudspeaking telephone set |
JPH08508384A (en) * | 1993-08-11 | 1996-09-03 | ベル コミュニケーションズ リサーチ,インコーポレイテッド | Audio processing system for point-to-point and multipoint teleconference |
JP2004101901A (en) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3674990B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
US10485049B1 (en) | Wireless device connection handover | |
US9293134B1 (en) | Source-specific speech interactions | |
JPH096390A (en) | Voice recognition interactive processing method and processor therefor | |
JP4667085B2 (en) | Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP2009178783A (en) | Communication robot and its control method | |
JP2004199053A (en) | Method for processing speech signal by using absolute loudness | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JPH1152976A (en) | Voice recognition device | |
JP4483450B2 (en) | Voice guidance device, voice guidance method and navigation device | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
CN110737422B (en) | Sound signal acquisition method and device | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP2006098534A (en) | Device and method for speech processing | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JP2007286376A (en) | Voice guide system | |
JP2004318026A (en) | Security pet robot and signal processing method related to the device | |
JP7172120B2 (en) | Speech recognition device and speech recognition method | |
JP2007267331A (en) | Combination microphone system for speaking voice collection | |
JP6539940B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2007086592A (en) | Speech output device and method therefor | |
JP7429107B2 (en) | Speech translation device, speech translation method and its program | |
KR20190123120A (en) | Hologram speaker |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100513 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110201 |