JP2006215206A - Speech processor and control method therefor - Google Patents
Speech processor and control method therefor Download PDFInfo
- Publication number
- JP2006215206A JP2006215206A JP2005026878A JP2005026878A JP2006215206A JP 2006215206 A JP2006215206 A JP 2006215206A JP 2005026878 A JP2005026878 A JP 2005026878A JP 2005026878 A JP2005026878 A JP 2005026878A JP 2006215206 A JP2006215206 A JP 2006215206A
- Authority
- JP
- Japan
- Prior art keywords
- output
- masking signal
- voice
- party
- masking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/80—Jamming or countermeasure characterized by its function
- H04K3/82—Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
- H04K3/825—Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/1752—Masking
- G10K11/1754—Speech masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/40—Jamming having variable characteristics
- H04K3/45—Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K2203/00—Jamming of communication; Countermeasures
- H04K2203/10—Jamming or countermeasure used for a particular application
- H04K2203/12—Jamming or countermeasure used for a particular application for acoustic communication
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
本発明は、利用者のプライバシー保護を考慮した音声処理装置およびその制御方法に関する。 The present invention relates to an audio processing apparatus and a control method thereof in consideration of user privacy protection.
これまで、音声認識技術は音声認識の性能の向上を主眼とした開発が進められ、カーナビゲーションシステムや音声応答システム(Interactive Voice Response:IVR)などにおいては、既に実用化されている。しかしながら、その一方で、パーソナルコンピュータ、複写機やファクシミリ装置などのオフィス機器、テレビや電話機などの家電製品に対しては、音声認識技術はほとんど浸透していない状況である。この理由としては、音声を使わなくとも、キーボード、リモコン、ボタンなどの他の入力手段を用いた入力・設定が可能であることが考えられるが、これらの機器は年々多機能化、複合化しており、特に、一般にキーボードを持たないパーソナルコンピュータ以外の機器に対する入力・設定は、更に複雑化していくと考えられる。すなわち、今後は、ますます直感的で分かりやすいユーザインタフェースが求められてくる。音声は、このような要求を満たすユーザインタフェースの一つ、もしくは、既存のユーザインタフェースと組み合わせたマルチモーダルユーザインタフェースにおける一つのモダリティとして期待されている。このように、音声を用いたユーザインタフェースは、直感的であり、正しく認識されれば、既存の入力手段を用いるよりも素早く入力・設定できる有用なインタフェースであると考えられる。 Up to now, voice recognition technology has been developed mainly for improving the performance of voice recognition, and has already been put into practical use in car navigation systems, voice response systems (Interactive Voice Response: IVR) and the like. However, on the other hand, voice recognition technology is hardly permeated for office equipment such as personal computers, copiers and facsimile machines, and home appliances such as televisions and telephones. The reason for this is that input / setting using other input means such as a keyboard, remote control, buttons, etc., is possible without using voice, but these devices are becoming increasingly multifunctional and complex year by year. In particular, it is considered that input and setting for devices other than personal computers that do not have a keyboard generally become more complicated. That is, in the future, a user interface that is more intuitive and easy to understand will be required. Voice is expected as one modality in a multimodal user interface combined with an existing user interface or one of user interfaces satisfying such requirements. As described above, the user interface using sound is intuitive and is considered to be a useful interface that can be input and set more quickly than when using the existing input means if correctly recognized.
しかしながら、このような音声を用いたユーザインタフェースの普及を阻む要因として、たとえ100%に近い音声認識性能が得られたとしても、周辺に第三者が存在する場合に、機器に向かって発声している音声を聞かれるのが恥かしい、内容を聞かれたくないといったことも考えられる。また、特に、オフィスなどの状況では、機器の利用者の周辺にいる第三者にとって、機器に向かって発せられる音声は言語的(verbal)なものであるため、利用者の発声が気になって、業務に集中できないことも考えられる。 However, as a factor that hinders the spread of user interfaces using such voices, even if voice recognition performance close to 100% is obtained, when a third party exists in the vicinity, the voice is spoken toward the device. You may be embarrassed to hear the voice you are listening to or do not want to hear the content. Also, particularly in office situations, for a third party in the vicinity of the user of the device, the voice uttered toward the device is verbal, so the user's utterance is worrisome. Therefore, it may be impossible to concentrate on business.
以上のような状況は、利用者が発する音声に限らず、機器からの音声出力においても同様に生じ得る。すなわち、リモコンやボタンで入力した設定内容を音声出力によっても確認できることは便利であるが、第三者にはその内容を聞かれたくないといったことや、第三者にとっても、利用者の発声と同様に、言語的な情報は気になるといった問題がある。 The situation as described above can occur not only in the voice uttered by the user but also in the voice output from the device. In other words, it is convenient to be able to confirm the settings entered with the remote control and buttons by voice output, but the third party does not want to hear the contents, and for the third party, Similarly, there is a problem that linguistic information is a concern.
このように、音声を用いたユーザインタフェースを利用した機器では、利用者の入力音声や機器の出力音声が周辺の第三者に聞かれない仕組みを提供することが必要な場合がある。このような音声を外部に漏らさないという目的に対しては、音声入力もしくは音声出力に対して逆位相の音声波形を発生させることによって、波形をキャンセルすることが原理的には可能であるが、複数点の任意の方向、距離に対して音声をキャンセルすることは極めて困難であり、現実的にはこの方法は用いることはできない。したがって実際には、(1)設備的に工夫する、(2)利用者へ負担を強いる、(3)第三者へ負担を強いる、のいずれかの方法によって対処する必要がある。 As described above, in a device using a user interface using sound, it may be necessary to provide a mechanism in which a user's input sound and a device's output sound are not heard by surrounding third parties. For the purpose of not leaking such voice to the outside, it is possible in principle to cancel the waveform by generating a voice waveform in reverse phase with respect to voice input or voice output, It is extremely difficult to cancel a sound with respect to an arbitrary direction and distance of a plurality of points, and this method cannot be used in practice. Therefore, in practice, it is necessary to deal with any of the following methods: (1) devise equipment, (2) impose a burden on the user, and (3) impose a burden on a third party.
(1)の設備的な工夫としては、例えば、機器の周囲に防音壁を用意するなどの方法が考えられるが、オフィスや家庭にこのような設備を設けることはスペースやコストの面で非実現的である。一方、(2)の利用者への負担を強いる方法としては、音声入力をささやき声で行う、機器の出力を確認する際にイヤホンや骨伝導スピーカを利用する方法が考えられるが、利用者にこれらの負担を強いることは、音声インタフェースの利点を損なうことになる。また、(3)の第三者へ負担を強いる方法としては、音声入力や音声出力時に別のマスキング信号をスピーカから出力することによって、利用者の発声や装置の音声出力を第三者に聞かれないようにする方法が考えられる。この方法は、コスト的には(1)の方法よりもはるかに安価であり、また、適切にマスキングがなされれば、利用者は普通に発声することができるため、(2)のように利用者への負担が生じないという特長がある。しかし、この方法によっても、マスキング信号の出力を適切に制御できない場合には、利用者の発声や装置の音声出力が第三者に聞かれたり(マスキング信号のレベルが小さい、マスキング信号の継続時間長が短い)、第三者がマスキング信号によって音声が聞こえてくる以上に不快なる(マスキング信号のレベルが大きすぎる、マスキング信号の継続時間長が長すぎる)などの問題が生じる。 For example, the equipment of (1) may be a sound barrier around the equipment, but it is not possible to install such equipment in offices and homes because of space and cost. Is. On the other hand, as a method of forcing the burden on the user in (2), a method of using an earphone or a bone conduction speaker when confirming the output of a device in which voice input is performed by whispering can be considered. Forcing this burden detracts from the advantages of the voice interface. Also, (3) as a method of imposing a burden on a third party, by outputting another masking signal from the speaker at the time of voice input or voice output, the voice of the user or the voice output of the device is heard from the third party. There is a way to prevent it. This method is much cheaper than the method (1) in terms of cost, and if it is masked appropriately, the user can speak normally. There is a feature that the burden on the person does not occur. However, even if this method cannot control the output of the masking signal properly, the voice of the user or the sound output of the device is heard by a third party (the masking signal level is low, the duration of the masking signal The problem is that the third person is uncomfortable (or the masking signal level is too high, or the duration of the masking signal is too long).
利用者の発声に対してマスキング信号を生成する方法として、特開平9−305196号公報(特許文献1)は、音声の母音に含まれるフォルマント周波数成分を主体とする楽音信号を発声者の音声の平均レベルよりも大きな平均パワーで放射する方法を開示している。 As a method for generating a masking signal for a user's utterance, Japanese Patent Laid-Open No. 9-305196 (Patent Document 1) discloses a musical sound signal mainly composed of a formant frequency component contained in a vowel of speech as a voice signal of the speaker. A method of radiating with an average power greater than the average level is disclosed.
しかしながら、上記の特許文献1で開示された技術には以下のような問題点がある。
However, the technique disclosed in
まず、特許文献1では、マスキング信号として放射される楽音信号は、その平均パワーが発声者の音声の平均レベルよりも大きくなるように制御される。しかし、マイクロフォンから観測される音声の平均レベルはマイクロフォンのゲインによって変動するし、また、スピーカから放射されるマスキング信号の平均パワーもスピーカのゲインによって変動する。すなわち、マイクロフォンより取り込まれる音声の平均レベルやスピーカから放射されるマスキング信号の平均パワーの大小が、第三者に聞こえる信号レベルの大小に一致するわけではない。つまり、この制御方法によって、適切なマスキングがなされるという保証はない。
First, in
また、特許文献1では、第三者が存在する位置に関しては、利用者の背後に存在することが仮定されており、そのため、マスキング信号を出力するスピーカが1台だけ用意されている。しかしながら、実際のオフィスや家庭において第三者の存在位置を予め仮定することはそもそも困難であるから、1台のスピーカでは必ずしも十分とは言えない。
In
また、特許文献1では、周辺の騒音レベルに対する考慮がなされておらず、騒がしい環境、静かな環境にかかわらず、一様にマスキング信号が出力されることになる。そうすると、同様の装置が近傍に多く存在する場合や周辺の騒音レベルが高い場合には、非常に騒々しい状況となるため、利用者の入力音声がマスキングされたとしても、第三者に対して多大な不快感を与えてしまうという問題がある。
Moreover, in
さらに、特許文献1では、マスキング信号の出力のタイミングについては、利用者が音声入力装置の前の所定の位置に立った場合に楽音を出力するという点が説明されるに留まっており、出力を終了するタイミングについては記載されていない。また、この方法によれば、音声を入力する/しないに関わらず絶えず楽音が出力されるため、不必要なマスキング信号が出力されるという問題もある。さらにいうと、音声入力の内容に応じてマスキング信号のレベルを変化させる点についても示唆されていない。
Further,
加えて、特許文献1では、音声出力に対するマスキングについては全く言及されていない。
In addition,
本発明は上述した問題の少なくともいずれかを解決すべくなされたもので、音声入力および/または音声出力機能を有する機器において、利用者の入力音声や機器の出力音声が周辺の第三者に聞かれず、かつ、第三者に不快感を与えないように、マスキング信号の出力を適切に制御する技術を提供することを目的としている。 The present invention has been made to solve at least one of the problems described above, and in a device having a voice input and / or voice output function, the user's input voice and the output voice of the equipment are heard from a nearby third party. It is an object of the present invention to provide a technique for appropriately controlling the output of a masking signal so as not to cause discomfort to a third party.
上記した課題を解決するために、例えば本発明の音声処理装置は、以下の構成を備える。すなわち、利用者が発声した音声を入力する入力手段から受信した音声情報を処理する音声処理装置であって、周辺環境について測定を行う測定手段と、前記測定手段による測定結果に基づいて、第三者に対して前記入力手段に入力される利用者の音声をマスクするためのマスキング信号を決定する決定手段と、前記入力手段の動作状態に基づいて、前記マスキング信号決定手段により決定されたマスキング信号の出力を制御する制御手段を備える。 In order to solve the above-described problem, for example, a speech processing apparatus of the present invention has the following configuration. That is, a speech processing apparatus for processing speech information received from an input means for inputting speech uttered by a user, wherein a measurement means for measuring a surrounding environment, and a third result based on a measurement result by the measurement means Determining means for determining a masking signal for masking a user's voice input to the input means for a person, and a masking signal determined by the masking signal determining means based on an operating state of the input means The control means which controls the output of this is provided.
本発明によれば、利用者の入力音声や機器の出力音声が周辺の第三者に聞かれず、かつ、第三者に不快感を与えないように、マスキング信号の出力が適切に制御される。 According to the present invention, the output of the masking signal is appropriately controlled so that the input voice of the user and the output voice of the device are not heard by a nearby third party and the third party is not uncomfortable. .
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明が適用される音声処理装置のハードウェア構成を示すブロック図である。 FIG. 1 is a block diagram showing a hardware configuration of a speech processing apparatus to which the present invention is applied.
101は本装置全体の制御をつかさどるCPU、102は各種パラメータやブートプログラム等を記憶しているROM、103は、CPU101に作業領域を提供するとともに、主記憶装置として機能するRAMである。104はハードディスク、CD−ROM、DVD−ROM、メモリカード等の外部記憶装置であり、ここに、録音/再生を行うための録音再生プログラム111、音声認識処理を行うための音声認識プログラム112、音声合成を行うための音声合成プログラム112、マスキング信号114、そして、これらのプログラムおよびデータを統括的に処理するための制御プログラム110が保持されうる。なお、この外部記憶装置104がハードディスクの場合には、CD−ROM等からインストールされた各種プログラムが記憶されている。外部記憶装置104に格納されているこれらのプログラムは、RAM103にロードされ、CPU101によって実行されることになる。もっとも、これらのプログラムおよびデータは外部記憶装置104に記憶させるのではなく、あらかじめROM102に記憶させた構成であってもよい。
A
105はマイクロフォンであり、利用者が発声する音声の取り込みを行う。この音声の取り込みの際、マイクロフォン105で収集された音声信号はマイクアンプ105aで増幅される。106は音声出力用スピーカであり、第1のスピーカアンプ106aを介して、利用者に対して録音音声、合成音声等の出力を行う。107はマスキング信号出力用スピーカであり、第2のスピーカアンプ107aを介して、この音声入出力装置の周辺に存在する第三者に対してマスキング信号を出力する。
108はディスプレイ、ボタン、テンキー、タッチパネル、マウス、キーボード、マイクロフォン、ビデオカメラ、赤外線センサ等の補助入出力装置であり、音声取り込みを開始する際のボタン押下、周辺の騒音レベルの集音、装置の周辺に存在する第三者のビデオカメラによる撮像・赤外線センサによるセンシング、メニューのディスプレイへの表示などを行う。
109は上記各部を接続するバスである。
以下では、第1の実施形態として、上記した音声処理装置を音声入力装置として機能させる場合について説明する。また、第2の実施形態として、上記音声処理装置を音声出力装置として機能させる場合について説明するとともに、第3の実施形態で、その変形例を説明する。さらに、第4の実施形態として、音声入力機能と音声出力機能を協働させることで上記音声処理装置を音声対話装置として機能させる場合について説明する。また、以下の説明では、利用者の音声入力装置としてマイクロフォンを、音声出力装置としてスピーカを用いているが、本発明はこれに限らず、例えば、音声入出力機能を備えるハンドセットなどを用いてもよい。 Hereinafter, as the first embodiment, a case will be described in which the above-described voice processing device is caused to function as a voice input device. Further, as the second embodiment, a case where the above-described sound processing device is caused to function as a sound output device will be described, and a modification thereof will be described in the third embodiment. Furthermore, as a fourth embodiment, a case will be described in which the voice processing device is caused to function as a voice interaction device by cooperating a voice input function and a voice output function. In the following description, a microphone is used as the user's voice input device and a speaker is used as the voice output device. However, the present invention is not limited thereto, and for example, a handset having a voice input / output function may be used. Good.
(第1の実施形態)
第1の実施形態では、音声処理装置を音声入力装置として機能させる場合について説明する。ここで実現される音声入力機能は例えば、録音の際あるいは音声認識の際に使用される。
(First embodiment)
In the first embodiment, a case where a voice processing device functions as a voice input device will be described. The voice input function realized here is used for recording or voice recognition, for example.
図2は、本実施形態に係る音声入力装置の機能構成を示すブロック図である。 FIG. 2 is a block diagram illustrating a functional configuration of the voice input device according to the present embodiment.
205は、利用者の音声を入力する音声入力部である。203は、音声入力部205の動作状態を管理する音声入力状況管理部で、ここで音声入力に関する操作等をトリガとして発行されるイベントが監視される。201は、音声入力装置105の周辺の騒音レベル、この音声入出力装置の周辺に存在する第三者の有無、第三者の位置を測定する周辺環境測定部である。202は、音声入力状況管理部203および周辺環境測定部201からの情報に基づき、第三者に対して入力音声をマスクするマスキング信号を決定するマスキング信号決定部である。そして、204は、マスキング信号決定部202で決定されたマスキング信号の出力を制御するマスキング信号制御部である。
次に、本実施形態における音声入力処理の例を、図3から図5までのフローチャートを用いて説明する。なお、本実施形態では、音声入力部205およびマスキング信号制御部204の処理をイベント駆動型の処理として説明する。対象となるイベントは、音声取り込みが開始されたことを示す「音声入力開始」イベントと、音声取り込みが終了したことを示す「音声入力終了」イベントである。
Next, an example of voice input processing in the present embodiment will be described using the flowcharts of FIGS. In the present embodiment, the processing of the
図3は、周辺環境測定部201およびマスキング信号決定部202の処理フローを示すフローチャートである。
FIG. 3 is a flowchart showing a processing flow of the surrounding
まず、ステップS301において、マイクロフォン105を用いて、本装置の周辺の騒音を取り込む。なおここでは、マイクロフォン105ではなく、補助入力装置108として周辺環境測定用に用意したマイクロフォンを用いて、本装置の周辺の騒音を取り込んでもよい。取り込むタイミングとしては、システムが所定の間隔で自動的に取り込むものであってもよいし、利用者の操作に関する何らかのイベントに応じて取り込むものであってもよい。あるいは、騒音の取り込み専用に用意された操作指示に応じて騒音を取り込むようにしてもよい。
First, in step S <b> 301, noise around the apparatus is captured using the
次に、ステップS302において、マスキング信号のレベルを決定する。このレベルの決定方法には様々な方法が考えられるが、最も好適な方法の一つとして、ステップS301で取り込まれた周辺の騒音信号xE(t)の平均対数パワーPEを用いて、マスキング信号xM(t)の振幅を次式によって変更することができる。 Next, in step S302, the level of the masking signal is determined. Various methods can be considered for determining this level. As one of the most preferable methods, masking is performed using the average logarithmic power P E of the ambient noise signal x E (t) captured in step S301. The amplitude of the signal x M (t) can be changed by the following equation.
x’M(t)=f(PE)・xM(t) (1) x ′ M (t) = f (P E ) · x M (t) (1)
ここで、f(・)は、周辺の騒音信号xE(t)の平均対数パワーPEに対するマスキング信号xM(t)の増幅の増減を制御する関数であり、任意のものを用いることが可能である。例えば、図6に示されるようなものを用いればよい。同図に示される関数fは、周辺の騒音信号の平均対数パワーが大きい場合にはマスキング信号を小さくし、反対に周辺の騒音信号が小さい場合にはマスキング信号を大きくするという制御を行うものである。なお、この関数は、マスキング信号xM(t)の平均対数パワーPM、マイクロフォン105の取り付け位置および方向やマイクアンプ105aのマイクゲイン、マスキング信号出力用スピーカ107の取り付け位置および方向や第2のスピーカアンプ107aのアンプゲイン、スピーカの指向特性(例えば、指向性スピーカか無指向性スピーカか)、周辺環境測定用のマイクロフォンのマイクゲインや取り付け位置および方向、第三者が存在すると想定される位置および方向などを考慮して設計する必要がある。
Here, f (•) is a function for controlling the increase / decrease in the amplification of the masking signal x M (t) with respect to the average logarithmic power P E of the surrounding noise signal x E (t), and any function can be used. Is possible. For example, what is shown in FIG. 6 may be used. The function f shown in the figure is a control that reduces the masking signal when the average log power of the surrounding noise signal is large, and conversely increases the masking signal when the surrounding noise signal is small. is there. This function includes the average logarithmic power P M of the masking signal x M (t), the mounting position and direction of the
他にも、マスキング信号が複数ある場合には、周辺環境の状況に応じて、出力するマスキング信号を変更することも可能である。具体的には、平均的な音声スペクトルから周辺の騒音スペクトルを減じたスペクトルに最も近いマスキング信号を選択することが可能である。なお、マスキング信号はいかなるものであってもよいが、この音声入力装置が音声認識の目的に使用する場合には音声認識性能が低下しにくいもの、周辺の第三者や利用者に対して心地よいものが望ましい。 In addition, when there are a plurality of masking signals, it is possible to change the masking signal to be output according to the situation of the surrounding environment. Specifically, it is possible to select the masking signal closest to the spectrum obtained by subtracting the surrounding noise spectrum from the average speech spectrum. Any masking signal may be used, but when this voice input device is used for voice recognition, the voice recognition performance is not easily deteriorated, and it is comfortable for third parties and users in the vicinity. Things are desirable.
図4は、音声入力部205と音声入力状況管理部203の処理フローを示すフローチャートである。
FIG. 4 is a flowchart showing a processing flow of the
まず、ステップS401において、イベント待機を行う。次に、イベントが検出された場合には、ステップS402に進み、検出したイベントの種別を判断する。ここで、音声取り込みが開始されたことを示す「音声入力開始」イベントを検出した場合にはステップS403へ進み、音声取り込みが終了したことを示す「音声入力終了」イベントを検出した場合にはステップS404へ進む。 First, in step S401, event standby is performed. Next, when an event is detected, the process proceeds to step S402, and the type of the detected event is determined. If a “voice input start” event indicating that voice capture has started is detected, the process proceeds to step S403. If a “voice input end” event indicating that voice capture has been completed is detected, step S403 is performed. The process proceeds to S404.
ステップS403では、マイクロフォン105から利用者の音声の取り込みを開始し、ステップS401へ戻る。なお、ステップS401に処理が戻った後も、音声の取り込みは続けているものとする。一方のステップS404では、マイクロフォン105からの利用者の音声の取り込みを終了し、処理を終える。
In step S403, capturing of the user's voice from the
ここで、「音声入力開始」および「音声入力終了」の各イベントは、利用者のボタン押下、ハンドセットを取る/置くなど利用者によって与えられるものであってもよいし、本装置が所定のタイミングや音声区間検出法における状態遷移のイベントとして発生するものであってもよい。 Here, each event of “speech input start” and “speech input end” may be given by the user, such as a user pressing a button, taking a handset, or placing the handset. It may occur as an event of state transition in the voice interval detection method.
図5は、マスキング信号制御部204の処理フローを示すフローチャートである。
FIG. 5 is a flowchart showing a processing flow of the masking
ここでは、図4に示した処理において利用者が発声する音声を第三者に聞かれないようにするためのマスキング信号をマスキング信号出力用スピーカ107から出力する。まず、ステップS501において、イベント待機を行う。次に、イベントが検出された場合には、ステップS502に進み、検出したイベントの種別を判断する。ここで、音声取り込みが開始されたことを示す「音声入力開始」イベントを検出した場合にはステップS503へ進み、音声取り込みが終了したことを示す「音声入力終了」イベントを検出した場合にはステップS504へ進む。
Here, in the process shown in FIG. 4, a masking signal for preventing a third party from hearing the voice uttered by the user is output from the masking
ステップS503では、ステップS302で決定されたマスキング信号の出力を開始し、ステップS501へ戻る。なお、ステップS501に処理が戻った後も、マスキング信号の出力は続けているものとする。また、ステップS504では、マスキング信号の出力を終了し、処理を終える。 In step S503, output of the masking signal determined in step S302 is started, and the process returns to step S501. Note that it is assumed that the masking signal continues to be output after the processing returns to step S501. In step S504, the masking signal output ends and the process ends.
以上の処理例では、マスキング信号の出力レベルは、利用者の音声が発声される前に、ステップS301およびステップS302で決定していたが、利用者の音声の発声レベルは予め分からないため、利用者の発声レベルを予測してマスキング信号のレベルを決定する必要がある。しかしながら、その予測よりも実際の利用者の発声レベルが小さい場合には、不必要に大きなレベルでマスキング信号を出力していることになる。また、逆に、予測よりも実際の利用者の発声レベルが大きい場合には、十分なマスキング信号が出力されておらず、第三者に利用者の発声内容を聞かれてしまう可能性が生じる。この問題を緩和するためには、利用者の発声の入力レベルに応じて動的にマスキング信号のレベルを決定すればよい。 In the above processing example, the output level of the masking signal is determined in step S301 and step S302 before the user's voice is uttered. However, since the utterance level of the user's voice is not known in advance, It is necessary to determine the level of the masking signal by predicting the voice level of the person. However, when the utterance level of the actual user is lower than the prediction, the masking signal is output at an unnecessarily large level. On the other hand, if the actual user's utterance level is higher than predicted, a sufficient masking signal is not output, and there is a possibility that the content of the user's utterance will be heard by a third party. . In order to alleviate this problem, the level of the masking signal may be determined dynamically according to the input level of the user's utterance.
図7は、音声の入力レベルを利用して動的にマスキング信号レベルを決定する処理フローを示すフローチャートである。 FIG. 7 is a flowchart showing a processing flow for dynamically determining the masking signal level using the voice input level.
ステップS701からステップS704は、それぞれステップS401からステップS404と同じであるため説明を省略する。ステップS705では、音声取り込みが開始された後、取り込み音声の信号レベルを所定の時間単位で計測し、このレベルと予測された利用者の発話レベルと比較して、マスキング信号のレベルを適応的に変更する。具体的には、予想された利用者の発話レベルの対数パワーをPS、ステップS705で計測された時刻t(所定の短時間区間の対数パワー)における利用者の発話レベルの対数パワーをP’Sとすると、式(1)で得られるx’M(t)を次式によって変更すればよい。 Steps S701 to S704 are the same as steps S401 to S404, respectively, and thus description thereof is omitted. In step S705, after the voice capture is started, the signal level of the captured voice is measured in a predetermined time unit, and the level of the masking signal is adaptively compared with the predicted speech level of the user. change. Specifically, the logarithmic power of the predicted utterance level of the user is P S , and the logarithmic power of the utterance level of the user at the time t (logarithmic power of a predetermined short time interval) measured in step S705 is P ′. Assuming that S , x ′ M (t) obtained by Expression (1) may be changed by the following expression.
x”M(t)=g(P’S/PS)・x’M(t) (2) x ″ M (t) = g (P ′ S / P S ) · x ′ M (t) (2)
ここで、g(・)は、対数パワーの比に対するマスキング信号x’M(t)の増幅の程度を求める関数であり、例えば、図20に示されるようなものを用いればよい。この関数は、P’S/PS>1の場合、つまりステップS705で計測された対数パワーが予想発話レベルよりも大きい場合、マスキング信号を大きくし、小さい場合はマスキング信号を小さくするものである。 Here, g (•) is a function for obtaining the degree of amplification of the masking signal x ′ M (t) with respect to the ratio of the logarithmic power. For example, a function as shown in FIG. 20 may be used. This function is to increase the masking signal when P ′ S / P S > 1, that is, when the logarithmic power measured in step S705 is larger than the expected speech level, and to decrease the masking signal when it is small. .
図8は、本実施形態における音声入力装置の外観構成の一例を示す図である。 FIG. 8 is a diagram illustrating an example of an external configuration of the voice input device according to the present embodiment.
801は、図1に示したハードウェアを収容する音声入力装置の本体である。803は、第三者に対してマスキング信号を出力するためのマスキング信号出力用スピーカで、図1のマスキング信号出力用スピーカ107に相当する。この例のように、マスキング信号用スピーカが一つしかない場合や、予め第三者の存在する方向が分からない場合などでは、無指向性のスピーカを用いることが望ましい。802は、利用者の音声入力および周辺の騒音環境を測定するためのマイクロフォンで、図1のマイクロフォン105に相当する。マスキング信号用スピーカ803から出力される信号によって、音声入力が適切に行えるようにするために、マイクロフォン802はマスキング信号出力用スピーカ803よりも利用者に近い位置に設置することが望ましい。
図9は、図8の変形例を示しており、所定の方向に対するマスキング信号の出力機能を備えるものである。 FIG. 9 shows a modification of FIG. 8, which has a masking signal output function for a predetermined direction.
901は、図1に示したハードウェアを収容する音声入力装置の本体である。902は、利用者の音声入力を行うためのマイクロフォンで、図1のマイクロフォン105に相当する。また、906、907、908は、第三者に対してマスキング信号を出力するためのマスキング信号出力用スピーカで、図1のマスキング信号出力用スピーカ107に相当する。903、904、905は、本装置の周辺の騒音レベルを3点で測定するためのマイクロフォンである。このように、周辺環境を測定するためのマイクロフォンやマスキング信号を出力するためのスピーカを複数設けたので、マイクロフォン903、904、905によって測定された個々の騒音レベル、方向、位置に応じて、マスキング信号出力用スピーカ906、907、908から出力する個々のマスキング信号のレベルを変化させることが可能となる。具体的には、例えば、騒音レベルの小さな方向に対しては大き目のマスキング信号を出力し、騒音レベルの大きな方向に対しては小さ目のマスキング信号を出力するといった制御を行うことができる。
また、この例のように、周辺環境を測定するためのマイクロフォンおよびマスキング信号用のスピーカを複数設けた場合は、指向性のマイクロフォンおよびスピーカを用いることが望ましい。また、マスキング信号用スピーカ906、907、908から出力される信号によって、音声入力が適切に行えるようにするために、マイクロフォン902はマスキング信号出力用スピーカ906、907、908よりも利用者に近い位置に設置することが望ましい。
Also, as in this example, when a plurality of microphones for measuring the surrounding environment and a plurality of masking signal speakers are provided, it is desirable to use directional microphones and speakers. The
図10は、周辺環境測定部201とマスキング信号決定部202の処理フローの一例を示すフローチャートである。
FIG. 10 is a flowchart illustrating an example of a processing flow of the surrounding
ステップS1001では、本装置の周辺に存在する第三者の有無、第三者の方向、第三者の位置の少なくともいずれか一つを測定する。測定の方法は様々であるが、好適な方法としては赤外線センサを用いればよい。赤外線センサを設置する位置や個数は、測定精度や第三者の想定される数や方向や位置に応じて設定する。赤外線センサに替わるその他の方法としては、ビデオカメラを用いる方法がある。この場合には、装置周辺の様子をビデオカメラによって撮像し、この画像を用いた人物判定を行ったり、第三者が存在しない場合の画像との差分画像を用いることによって、第三者の有無、第三者の方向、第三者の位置を測定することが可能となる。他にも、無線ICタグや非接触ICカードなど、装置周辺に存在する第三者が検知できれば、いかなる方法を用いてもよい。 In step S1001, at least one of the presence / absence of a third party around the apparatus, the direction of the third party, and the position of the third party is measured. There are various measurement methods, but an infrared sensor may be used as a suitable method. The position and number of infrared sensors are set according to the measurement accuracy and the number, direction, and position assumed by a third party. As another method for replacing the infrared sensor, there is a method using a video camera. In this case, whether or not there is a third party by taking a picture of the surroundings of the device with a video camera, making a person determination using this image, or using a difference image from the image when there is no third party It becomes possible to measure the direction of the third party and the position of the third party. In addition, any method such as a wireless IC tag or a non-contact IC card may be used as long as a third party existing around the apparatus can be detected.
次に、ステップS1002では、第三者の存在状況に応じて、マスキング信号のレベルを決定する。第三者の存在状況とは、第三者の有無、第三者の数、本装置から第三者までの距離、本装置に対する第三者の方向である。この際、図9で示したように、複数のマスキング信号出力スピーカがある場合には、それぞれのスピーカの向きに存在する第三者の存在状況に応じて、マスキング信号のレベルをスピーカごとに決定する。また、本装置の周辺の騒音状況と第三者の存在状況の両方を考慮してマスキング信号の決定、制御を行うこともできる。例えば、騒音測定用のマイク、第三者位置測定用の赤外線センサ、マスキング信号出力用のスピーカがそれぞれ同一の方向に対して4つ(向きA,B,C,Dとする)ある場合について説明する。今,Aでは騒音レベルが大きく、第三者がいない、Bでは、騒音レベルが小さく、第三者がいない、Cでは、騒音レベルが大きく、第三者がいる、Dでは、騒音レベルが小さく、第三者がいるという状況であったとする。この場合、各スピーカから出力されるマスキング信号のレベルを、A<B<C<Dと設定することによって、適切にマスキング信号出力を行うことができる。 Next, in step S1002, the level of the masking signal is determined according to the presence status of the third party. The presence of a third party is the presence or absence of the third party, the number of third parties, the distance from the device to the third party, and the direction of the third party with respect to the device. At this time, as shown in FIG. 9, when there are a plurality of masking signal output speakers, the level of the masking signal is determined for each speaker according to the presence of a third party existing in the direction of each speaker. To do. In addition, the masking signal can be determined and controlled in consideration of both the noise situation around this apparatus and the presence of third parties. For example, a case where there are four microphones (directions A, B, C, and D) in the same direction each for a noise measurement microphone, a third party position measurement infrared sensor, and a masking signal output speaker will be described. To do. Now, A has a high noise level and no third party, B has a low noise level and no third party, C has a high noise level and has a third party, and D has a low noise level. Suppose you have a third party. In this case, the masking signal level can be appropriately output by setting the level of the masking signal output from each speaker as A <B <C <D.
以上の説明から明らかなように、本実施形態によれば、音声入力装置において、利用者の入力音声が周辺の第三者に聞かれず、かつ、第三者が不快にならないように、マスキング信号の出力を適切に制御することが可能となる。 As is clear from the above description, according to the present embodiment, in the voice input device, the masking signal is used so that the voice input by the user is not heard by a nearby third party and the third party is not uncomfortable. Can be appropriately controlled.
(第2の実施形態)
第2の実施形態では、図1の音声処理装置を音声出力装置として機能させる場合について説明する。ここでいう音声出力とは、録音された音声の再生だけでなく音声合成処理によって合成された音声の出力も含む。
(Second Embodiment)
In the second embodiment, a case will be described in which the voice processing apparatus in FIG. 1 is functioned as a voice output apparatus. The voice output here includes not only the reproduction of the recorded voice but also the output of the voice synthesized by the voice synthesis process.
図11は、本実施形態に係る音声出力装置の機能構成を示すブロック図である。 FIG. 11 is a block diagram illustrating a functional configuration of the audio output device according to the present embodiment.
1101は、音声を出力する音声出力部である。1103は、音声出力部1101の動作状態を管理する音声出力状況管理部で、ここで音声出力に関する操作等をトリガとして発行されるイベントが監視される。1102は、音声出力状況管理部1103からの情報に基づき、第三者に対して出力音声をマスクするマスキング信号を決定するマスキング信号決定部である。1104は、マスキング信号決定部1102で決定されたマスキング信号の出力を制御するマスキング信号制御部である。
次に、本実施形態における音声出力処理の例を、図12および図13のフローチャートを用いて説明する。なお、本実施形態では、音声出力部1101およびマスキング信号制御部1104の処理をイベント駆動型の処理として説明する。対象となるイベントは、音声出力が開始されたことを示す「音声出力開始」イベントと、音声出力が終了したことを示す「音声出力終了」イベントである。
Next, an example of audio output processing in the present embodiment will be described using the flowcharts of FIGS. In the present embodiment, the processing of the
図12は、音声出力部1101および音声出力状況管理部1103の処理フローを示すフローチャートである。
FIG. 12 is a flowchart showing a processing flow of the
まず、ステップS1201において、イベント待機を行う。次に、イベントが検出された場合には、ステップS1202に進み、検出したイベントの種別を判断する。ここで、音声出力が開始されたことを示す「音声出力開始」イベントを検出した場合にはステップS1203へ進み、音声出力が終了したことを示す「音声出力終了」イベントを検出した場合にはステップS1204へ進む。 First, in step S1201, event waiting is performed. If an event is detected, the process advances to step S1202 to determine the type of event detected. If an “audio output start” event indicating that audio output has started is detected, the process proceeds to step S1203. If an “audio output end” event indicating that audio output has ended is detected, step S1203 is performed. The process proceeds to S1204.
ステップS1203では、音声出力用スピーカ106から音声出力を開始し、ステップS1201へ戻る。なお、ステップS1201に処理が戻った後も、音声出力は続けているものとする。一方のステップS1204では、音声出力用スピーカ106からの音声出力を終了し、処理を終える。
In step S1203, audio output is started from the
ここで、「音声出力開始」および「音声出力終了」の各イベントは、利用者のボタン押下など利用者によって与えられるものであっても、音声出力装置が所定のタイミングとして発生するものであってもよい。 Here, each event of “sound output start” and “sound output end” is generated by the sound output device as a predetermined timing even if it is given by the user such as a user pressing a button. Also good.
図13は、マスキング信号制御部1104の処理フローを示すフローチャートである。
FIG. 13 is a flowchart showing a processing flow of the masking
ここでは、図12に示した処理において出力音声を第三者に聞かれないようにするためのマスキング信号をマスキング信号出力用スピーカ107から出力する。まず、ステップS1301において、イベント待機を行う。次に、イベントが検出された場合には、ステップS1302に進み、検出したイベントの種別を判断する。ここで、音声出力が開始されたことを示す「音声出力開始」イベントを検出した場合にはステップS1303へ進み、音声出力が終了したことを示す「音声出力終了」イベントを検出した場合にはステップS1304へ進む。 Here, a masking signal for preventing the output sound from being heard by a third party in the process shown in FIG. First, in step S1301, event waiting is performed. Next, if an event is detected, the process advances to step S1302 to determine the type of the detected event. If an “audio output start” event indicating that audio output has started is detected, the process proceeds to step S1303. If an “audio output end” event indicating that audio output has ended is detected, step S1303 is performed. The process proceeds to S1304.
ステップS1303では、マスキング信号出力用スピーカ107から予め定められたマスキング信号の出力を開始し、ステップS1301へ戻る。なお、ステップS1301に処理が戻った後も、マスキング信号の出力は続けているものとする。また、ステップS1304では、マスキング信号の出力を終了し、処理を終える。
In step S1303, the masking
ここでマスキング信号のレベルは、マスキング信号xM(t)の平均対数パワーPM、第1のスピーカアンプ106aのアンプゲインや音声出力用スピーカ106の取り付け位置および方向、第2のスピーカアンプ107aのアンプゲインやマスキング信号出力用スピーカ107の取り付け位置および方向、スピーカの指向特性(例えば、指向性スピーカか無指向性スピーカか)、第三者が存在すると想定される位置および方向などを考慮して設計する必要がある。
Here, the level of the masking signal includes the average logarithmic power P M of the masking signal x M (t), the amplifier gain of the
なお、マスキング信号はいかなるものであってもよいが、利用者に対する出力音声が聞き取りにくくならないもの、周辺の第三者や利用者に対して心地よいものが望ましい。 Any masking signal may be used, but a masking signal that does not make it difficult to hear the output sound to the user, or that is comfortable to a third party or a user in the vicinity is desirable.
図14は、本実施形態における音声出力装置の外観構成の一例を示す図である。 FIG. 14 is a diagram illustrating an example of an external configuration of the audio output device according to the present embodiment.
1401は、図1に示したハードウェアを収容する音声出力装置の本体である。1403は、第三者に対してマスキング信号を出力するためのマスキング信号出力用スピーカで、図1のマスキング信号出力用スピーカ107に相当する。この例のように、マスキング信号用のスピーカが一つしかない場合や、予め第三者の存在する方向が分からない場合などでは、無指向性のスピーカを用いることが望ましい。1402は、利用者に対して音声出力を行うための音声出力用スピーカで、図1の音声出力用スピーカ106に相当する。マスキング信号用スピーカ1403から出力される信号によって、出力音声が利用者に聞こえにくくならないようにするために、音声出力用スピーカ1402はマスキング信号出力用スピーカ1403よりも利用者の耳に近い位置に設置することが望ましい。
以上の説明から明らかなように、本実施形態によれば、音声出力装置において、出力音声が周辺の第三者に聞かれず、かつ、第三者が不快にならないように、マスキング信号の出力を適切に制御することが可能となる。 As is clear from the above description, according to the present embodiment, in the audio output device, the output of the masking signal is performed so that the output audio is not heard by a nearby third party and the third party is not uncomfortable. It becomes possible to control appropriately.
(第3の実施形態)
上述の第2の実施形態は、出力音声に対するマスキング信号の生成、出力を、音声出力に関する操作により発行されるイベントのみに基づき行うものであったが、音声入力機能に係る第1の実施形態で説明したように、周辺環境を測定し、この情報も用いて、マスキング信号を生成、出力することもできる。
(Third embodiment)
In the second embodiment described above, the generation and output of the masking signal for the output sound is performed only based on the event issued by the operation related to the sound output. However, the second embodiment is related to the sound input function. As described, the surrounding environment can be measured, and this information can also be used to generate and output a masking signal.
図15は、本実施形態に係る音声出力装置の機能構成を示すブロック図である。これは、第2の実施形態に係る図11の構成に、周辺環境測定部1505を付加した構成である。この周辺環境測定部1505は、この音声出力装置の周辺の騒音レベル、騒音方向、騒音位置、本装置の周辺に存在する第三者の有無、第三者の方向および位置を測定する。その他の構成要素は図11と同様であるから、同じ参照番号を付して説明を省略する。
FIG. 15 is a block diagram illustrating a functional configuration of the audio output device according to the present embodiment. This is a configuration in which a surrounding
図16は、本実施形態における音声出力装置の外観構成の一例を示す図である。 FIG. 16 is a diagram illustrating an example of an external configuration of the audio output device according to the present embodiment.
1601は、図1に示したハードウェアを収容する音声出力装置の本体である。1602は、利用者に対して音声出力を行うための音声出力用スピーカで、図1の音声出力用スピーカ106に相当する。また、1606、1607、1608は、第三者に対してマスキング信号を出力するためのマスキング信号出力用スピーカで、図1のマスキング信号出力用スピーカ107に相当する。
1603、1604、1605は、本装置の周辺の騒音レベルを3点で測定するためのマイクロフォンである。このように、周辺環境を測定するためのマイクロフォンやマスキング信号を出力するためのスピーカを複数設けたので、マイクロフォン1603、1604、1605によって測定された個々の騒音レベルに応じて、マスキング信号出力用スピーカ1606、1607、1608から出力する個々のマスキング信号のレベルを変化させることが可能となる。
また、この例のように、周辺環境を測定するためのマイクロフォンやマスキング信号用のスピーカを複数設ける場合には、指向性のマイクロフォンおよびスピーカを用いることが望ましい。また、マスキング信号用スピーカ1606、1607、1608から出力される信号によって、1602の音声出力が利用者に聞こえにくくならないようにするために、マスキング信号出力用スピーカ1606、1607、1608は、スピーカ1602よりも利用者から離れた位置に設置することが望ましい。
In addition, as in this example, when a plurality of microphones for measuring the surrounding environment and speakers for masking signals are provided, it is desirable to use directional microphones and speakers. Further, the masking
また、周辺環境の測定は、騒音に関するもののほか、本装置の周辺に存在する第三者の有無、第三者の方向および位置など利用者以外の人に関する測定を行うこと、あるいはそれらを組み合わせることもできる。この場合は、音声入力機能に係る第1の実施形態で説明した図10のフローチャートと同様な方法によって実現が可能である。 In addition to measuring noise, the measurement of the surrounding environment should be done for people other than users, such as the presence or absence of third parties around the device, the direction and position of third parties, or a combination of these. You can also. This case can be realized by a method similar to the flowchart of FIG. 10 described in the first embodiment related to the voice input function.
以上の説明から明らかなように、本実施形態によれば、音声出力装置において、周辺環境の測定結果を考慮することによって、出力音声が周辺の第三者に聞かれず、かつ、第三者が不快にならないように、マスキング信号の出力を適切に制御することが可能となる。 As is clear from the above description, according to the present embodiment, in the audio output device, the output sound is not heard by the surrounding third party by considering the measurement result of the surrounding environment, and the third party It is possible to appropriately control the output of the masking signal so as not to be uncomfortable.
(第4の実施形態)
第4の実施形態では、音声入力機能と音声出力機能を協働させることで図1の音声処理装置を音声対話装置として機能させる場合について説明する。
(Fourth embodiment)
In the fourth embodiment, a case will be described in which the voice processing apparatus of FIG. 1 is made to function as a voice dialogue apparatus by cooperating a voice input function and a voice output function.
図17は、本実施形態に係る音声対話装置の機能構成を示すブロック図である。 FIG. 17 is a block diagram showing a functional configuration of the voice interactive apparatus according to the present embodiment.
1705は、利用者の入力音声の認識を行う音声認識部である。1703は、音声認識部1705の動作状態を管理する音声入力状況管理部で、ここで音声認識に関するイベントが監視される。1701は、本装置周辺の騒音レベル、騒音方向、騒音位置、本装置の周辺に存在する第三者の有無、第三者の方向および位置を測定する周辺環境測定部である。1702は、音声入力状況管理部1703および周辺環境測定部1701からの情報に基づき、第三者に対して入力音声または出力音声をマスクするマスキング信号を決定するマスキング信号決定部である。1704は、マスキング信号決定部1702で決定されたマスキング信号の出力を制御するマスキング信号制御部である。1709は、合成音声を出力する音声出力部である。1707は、音声出力部1707の動作状態を管理する音声出力状況管理部で、ここで音声合成に関するイベントが監視される。1706は、音声認識部1705の結果を解釈する認識結果解釈部である。1708は、利用者との対話の状態を管理する対話管理部である。そして、1710は、対話状態に応じて利用者に音声出力する内容を生成する応答生成部である。
図18は、本実施形態における音声対話装置の外観構成の一例を示す図である。 FIG. 18 is a diagram illustrating an example of an external configuration of the voice interaction apparatus according to the present embodiment.
1801は、図1に示したハードウェアを収容する音声対話装置の本体である。1804は、第三者に対してマスキング信号を出力するためのマスキング信号出力用スピーカで、図1のマスキング信号出力用スピーカ107に相当する。この例のように、マスキング信号用のスピーカが一つしかない場合や、予め第三者の存在する方向が分からない場合などでは、無指向性のスピーカを用いることが望ましい。1802は、利用者の音声入力および周辺の騒音環境を測定するためのマイクロフォンで、図1のマイクロフォン105に相当する。マスキング信号用スピーカ1804から出力されるマスキング信号によって、音声入力が適切に行えるようにするために、マイクロフォン1802はマスキング信号出力用スピーカ1804よりも利用者に近い位置に設置することが望ましい。
1803は、利用者に対して音声出力を行うための音声出力用スピーカで、図1の音声出力用スピーカ106に相当する。マスキング信号用スピーカ1804から出力されるマスキング信号によって、出力音声が利用者に聞こえにくくならないようにするために、音声出力用スピーカ1803はマスキング信号出力用スピーカ1804よりも利用者の耳に近い位置に設置することが望ましい。
図19は、本実施形態の音声対話装置におけるマスキング信号出力のタイミングの一例を示している。横軸は経過時間を表わしており、縦軸は、上から順に、音声対話装置の応答(System)、利用者の発声(User)、マスキング信号の出力(Mask)である。この例では、まず、Systemが時刻t1から時刻t3にかけて、「それでは氏名を入力してください」と音声出力し、これに続いて、時刻t4から時刻t5にかけて、Userによって「山田太郎」と発声され、さらにその後、Systemが時刻t8から時刻t9にかけて、「山田太郎さんですね」と確認の音声出力を行っている場面が示されている。 FIG. 19 shows an example of the timing of masking signal output in the voice interactive apparatus of this embodiment. The abscissa represents the elapsed time, and the ordinate represents the response (System) of the voice interactive device, the user's utterance (User), and the output of the masking signal (Mask) in order from the top. In this example, the system first outputs a voice saying “Please enter your name” from time t1 to time t3, and then the user says “Taro Yamada” from time t4 to time t5. Further, after that, a scene is shown in which the system performs a sound output of “Taro Yamada” from time t8 to time t9.
このとき、マスキング信号は以下のタイミングで出力されている。まず、最初のSystemの「それでは氏名を入力してください」という時刻t1〜t3での音声出力は、第三者に聞かれても構わないと考えられるため、この音声出力に対するマスキング信号は出力されない。次に、Userの「山田太郎」という発声に対しては、マスキング信号を出力する必要がある。このとき、利用者はSystemの音声出力の終了を待たずに発声を開始することが考えられるため、図示のように、マスキング信号は、Systemの音声出力の終了時刻t3よりも早い時刻t2から出力を開始することが好ましい。また、このマスキング信号の終了時刻は、Userの「山田太郎」という発声の終了時刻t5に若干のマージンを加えた時刻t6としている。 At this time, the masking signal is output at the following timing. First, since it is considered that the voice output at the time t1 to t3 in the first system, “Please enter your name”, may be heard by a third party, no masking signal for this voice output is output. . Next, it is necessary to output a masking signal for the user's “Taro Yamada” utterance. At this time, since the user may start speaking without waiting for the end of the system sound output, the masking signal is output from the time t2 earlier than the end time t3 of the system sound output as shown in the figure. It is preferable to start. The end time of the masking signal is set to a time t6 obtained by adding a slight margin to the end time t5 of the utterance “Taro Yamada” of User.
次に、Systemの「山田太郎さんですね」という音声出力も、第三者に聞かれて欲しくない情報であると考えられるため、この出力の開始時刻t8と終了時刻t9に若干のマージンを考慮した時刻t7から時刻t10の間でマスキング信号を出力している。 Next, the system's voice output “Taro Yamada-san” is also considered to be information that is not wanted to be heard by a third party, so a slight margin is taken into consideration for the output start time t8 and end time t9. The masking signal is output between time t7 and time t10.
なお、マスキング信号の出力のタイミングはこの例に限ったものでないことは言うまでもない。他にも、利用者が装置を使用している間や装置の電源がオンになっている際には、常にマスキング信号を出力しておき、第三者に聞かせたくないと考えられる入出力のタイミングにおいて、マスキング信号のレベルを大きくしてもよい。他にも、利用者に発声を求める際のプライバシー度の高低に応じてマスキング信号のレベルを変化させてもよい。また、周辺環境を測定するためのマイクロフォンの取り付け位置や個数、マスキング信号を出力するためのスピーカの取り付け位置や個数は図18に示したものに限らないことは言うまでもない。 Needless to say, the output timing of the masking signal is not limited to this example. In addition, when a user is using the device or when the device is turned on, always output a masking signal and input / output At the timing, the level of the masking signal may be increased. In addition, the level of the masking signal may be changed according to the level of privacy when the user is asked to speak. Needless to say, the position and number of microphones for measuring the surrounding environment and the position and number of speakers for outputting a masking signal are not limited to those shown in FIG.
また、前述のように、周辺環境として、赤外線センサやビデオカメラなどを用いて第三者に関する情報を測定し、これを用いてマスキング信号を決定、制御するようにしてもよい。 Further, as described above, information relating to a third party may be measured using an infrared sensor, a video camera, or the like as the surrounding environment, and a masking signal may be determined and controlled using the measured information.
以上の説明から明らかなように、本実施形態の音声対話装置によれば、利用者の入力音声や機器の出力音声が周辺の第三者に聞かれず、かつ、第三者が不快にならないように、マスキング信号の出力を適切に制御することが可能となる。 As is clear from the above description, according to the voice interaction apparatus of the present embodiment, the input voice of the user and the output voice of the device are not heard by a nearby third party, and the third party is not uncomfortable. In addition, the masking signal output can be appropriately controlled.
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
(Other embodiments)
As mentioned above, although embodiment of this invention was explained in full detail, this invention may be applied to the system comprised from several apparatuses, and may be applied to the apparatus which consists of one apparatus.
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。 In the present invention, a software program that realizes the functions of the above-described embodiments is directly or remotely supplied to a system or apparatus, and the computer of the system or apparatus reads and executes the supplied program code. Is also achieved. In that case, as long as it has the function of a program, the form does not need to be a program.
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。 Therefore, in order to realize the functional processing of the present invention with a computer, the program code itself installed in the computer and the storage medium storing the program also constitute the present invention. In other words, the claims of the present invention include the computer program itself for realizing the functional processing of the present invention and a storage medium storing the program.
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。 In this case, the program may be in any form as long as it has a program function, such as an object code, a program executed by an interpreter, or script data supplied to the OS.
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。 As a storage medium for supplying the program, for example, flexible disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD-R).
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。 As another program supply method, a client computer browser is used to connect to an Internet homepage, and the computer program of the present invention itself or a compressed file including an automatic installation function is downloaded from the homepage to a storage medium such as a hard disk. Can also be supplied. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the claims of the present invention.
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。 In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to execute the encrypted program by using the key information and install the program on a computer.
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。 In addition to the functions of the above-described embodiments being realized by the computer executing the read program, the OS running on the computer based on the instruction of the program is a part of the actual processing. Alternatively, the functions of the above-described embodiment can be realized by performing all of them and performing the processing.
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。 Furthermore, after the program read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion board or The CPU or the like provided in the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
Claims (15)
周辺環境について測定を行う測定手段と、
前記測定手段による測定結果に基づいて、第三者に対して前記利用者が発声した音声をマスクするためのマスキング信号を決定する決定手段と、
前記入力手段の動作状態に基づいて、前記マスキング信号決定手段により決定されたマスキング信号の出力を制御する制御手段と
を備えることを特徴とする音声処理装置。 A voice processing device for processing voice information received from an input means for inputting voice uttered by a user,
Measuring means for measuring the surrounding environment;
Determining means for determining a masking signal for masking the voice uttered by the user to a third party based on the measurement result by the measuring means;
And a control means for controlling the output of the masking signal determined by the masking signal determination means based on the operating state of the input means.
周辺環境について測定を行う測定手段と、
前記測定手段による測定結果に基づいて、第三者に対して前記出力手段より出力される音声をマスクするためのマスキング信号を決定する決定手段と、
前記出力手段の動作状態に基づいて、前記マスキング信号決定手段により決定されたマスキング信号の出力を制御する制御手段と
を備えることを特徴とする音声処理装置。 An audio processing device comprising output means for outputting audio,
Measuring means for measuring the surrounding environment;
Determining means for determining a masking signal for masking the sound output from the output means to a third party based on the measurement result by the measuring means;
And a control means for controlling the output of the masking signal determined by the masking signal determination means on the basis of the operating state of the output means.
周辺環境について測定を行う測定手段と、
前記測定手段による測定結果に基づいて、第三者に対して前記入力手段に入力される利用者の音声をマスクするとともに前記出力手段より出力される音声をマスクするためのマスキング信号を決定する決定手段と、
前記入力手段および前記出力手段の動作状態に基づいて、前記マスキング信号決定手段により決定されたマスキング信号の出力を制御する制御手段と
を備えることを特徴とする音声処理装置。 A speech processing apparatus comprising: reception means for receiving voice information from input means for inputting voice uttered by a user; and output means for outputting voice,
Measuring means for measuring the surrounding environment;
A decision to mask a user's voice input to the input means for a third party and to determine a masking signal for masking the voice output from the output means based on a measurement result by the measuring means Means,
And a control means for controlling the output of the masking signal determined by the masking signal determination means on the basis of the operating states of the input means and the output means.
周辺環境について測定を行う測定ステップと、
前記測定ステップによる測定結果に基づいて、第三者に対して前記利用者が発声した音声をマスクするためのマスキング信号を決定する決定ステップと、
前記入力手段の動作状態に基づいて、前記マスキング信号決定ステップにより決定されたマスキング信号の出力を制御する制御ステップと
を有することを特徴とする音声処理装置の制御方法。 A control method of a voice processing device for processing voice information received from an input means for inputting voice uttered by a user,
A measurement step for measuring the surrounding environment;
A determination step of determining a masking signal for masking the voice uttered by the user to a third party based on the measurement result of the measurement step;
And a control step of controlling the output of the masking signal determined by the masking signal determination step based on the operating state of the input means.
周辺環境について測定を行う測定ステップと、
前記測定ステップによる測定結果に基づいて、第三者に対して前記出力手段より出力される音声をマスクするためのマスキング信号を決定する決定ステップと、
前記出力手段の動作状態に基づいて、前記マスキング信号決定ステップにより決定されたマスキング信号の出力を制御する制御ステップと
を有することを特徴とする音声処理装置の制御方法。 A method for controlling a speech processing apparatus comprising output means for outputting speech,
A measurement step for measuring the surrounding environment;
A determination step of determining a masking signal for masking the sound output from the output means to a third party based on the measurement result of the measurement step;
And a control step of controlling the output of the masking signal determined by the masking signal determination step based on the operating state of the output means.
周辺環境について測定を行う測定ステップと、
前記測定ステップによる測定結果に基づいて、第三者に対して前記入力手段に入力される利用者の音声をマスクするとともに前記出力手段より出力される音声をマスクするためのマスキング信号を決定する決定ステップと、
前記入力手段および前記出力手段の動作状態に基づいて、前記マスキング信号決定ステップにより決定されたマスキング信号の出力を制御する制御ステップと
を有することを特徴とする音声処理装置の制御方法。 A control method for a voice processing device comprising: a receiving means for receiving voice information from an input means for inputting voice uttered by a user; and an output means for outputting voice,
A measurement step for measuring the surrounding environment;
A decision for masking a user's voice input to the input means for a third party and determining a masking signal for masking the voice output from the output means based on the measurement result of the measurement step. Steps,
And a control step for controlling the output of the masking signal determined by the masking signal determination step based on the operating states of the input means and the output means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005026878A JP2006215206A (en) | 2005-02-02 | 2005-02-02 | Speech processor and control method therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005026878A JP2006215206A (en) | 2005-02-02 | 2005-02-02 | Speech processor and control method therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006215206A true JP2006215206A (en) | 2006-08-17 |
Family
ID=36978503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005026878A Withdrawn JP2006215206A (en) | 2005-02-02 | 2005-02-02 | Speech processor and control method therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006215206A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010019935A (en) * | 2008-07-08 | 2010-01-28 | Toshiba Corp | Device for protecting speech privacy |
JP2011170113A (en) * | 2010-02-18 | 2011-09-01 | Glory Ltd | Conversation protection degree evaluation system and conversation protection degree evaluation method |
JP2011211266A (en) * | 2010-03-29 | 2011-10-20 | Hitachi Omron Terminal Solutions Corp | Speaker array device |
JP2013007911A (en) * | 2011-06-24 | 2013-01-10 | Daifuku Co Ltd | Voice masking system |
WO2014050842A1 (en) * | 2012-09-25 | 2014-04-03 | ヤマハ株式会社 | Method, device, and program for voice masking |
JP2019114296A (en) * | 2014-05-15 | 2019-07-11 | ソニー株式会社 | System and device |
CN110942770A (en) * | 2018-09-25 | 2020-03-31 | 丰田自动车株式会社 | Sound recognition device, sound recognition method, and non-transitory computer-readable medium storing sound recognition program |
JP2020062796A (en) * | 2018-10-17 | 2020-04-23 | コニカミノルタ株式会社 | Image processing device, operation control method, and operation control program |
JP2020187169A (en) * | 2019-05-10 | 2020-11-19 | コニカミノルタ株式会社 | Image formation apparatus and method of controlling image formation apparatus |
-
2005
- 2005-02-02 JP JP2005026878A patent/JP2006215206A/en not_active Withdrawn
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010019935A (en) * | 2008-07-08 | 2010-01-28 | Toshiba Corp | Device for protecting speech privacy |
JP2011170113A (en) * | 2010-02-18 | 2011-09-01 | Glory Ltd | Conversation protection degree evaluation system and conversation protection degree evaluation method |
JP2011211266A (en) * | 2010-03-29 | 2011-10-20 | Hitachi Omron Terminal Solutions Corp | Speaker array device |
JP2013007911A (en) * | 2011-06-24 | 2013-01-10 | Daifuku Co Ltd | Voice masking system |
WO2014050842A1 (en) * | 2012-09-25 | 2014-04-03 | ヤマハ株式会社 | Method, device, and program for voice masking |
JP2014066804A (en) * | 2012-09-25 | 2014-04-17 | Yamaha Corp | Method, device, and program for sound masking |
JP2019114296A (en) * | 2014-05-15 | 2019-07-11 | ソニー株式会社 | System and device |
US11216153B2 (en) | 2014-05-15 | 2022-01-04 | Sony Corporation | Information processing device, display control method, and program |
US11693530B2 (en) | 2014-05-15 | 2023-07-04 | Sony Corporation | Information processing device, display control method, and program |
CN110942770A (en) * | 2018-09-25 | 2020-03-31 | 丰田自动车株式会社 | Sound recognition device, sound recognition method, and non-transitory computer-readable medium storing sound recognition program |
CN110942770B (en) * | 2018-09-25 | 2023-07-28 | 丰田自动车株式会社 | Voice recognition device, voice recognition method, and non-transitory computer-readable medium storing voice recognition program |
JP2020062796A (en) * | 2018-10-17 | 2020-04-23 | コニカミノルタ株式会社 | Image processing device, operation control method, and operation control program |
JP7187965B2 (en) | 2018-10-17 | 2022-12-13 | コニカミノルタ株式会社 | Image processing device, operation control method and operation control program |
JP2020187169A (en) * | 2019-05-10 | 2020-11-19 | コニカミノルタ株式会社 | Image formation apparatus and method of controlling image formation apparatus |
US11055042B2 (en) | 2019-05-10 | 2021-07-06 | Konica Minolta, Inc. | Image forming apparatus and method for controlling image forming apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
JP2006215206A (en) | Speech processor and control method therefor | |
JP4837917B2 (en) | Device control based on voice | |
KR101913888B1 (en) | Control device, control method and program | |
US20210243528A1 (en) | Spatial Audio Signal Filtering | |
KR20070026452A (en) | Method and apparatus for voice interactive messaging | |
CN105210364A (en) | Dynamic audio perspective change during video playback | |
KR20140126153A (en) | Electronic device for preventing leakage of received sound | |
JP7406874B2 (en) | Electronic devices, their control methods, and their programs | |
US9472176B2 (en) | Performance recording system, performance recording method, and musical instrument | |
CN105706427A (en) | Determination of ambient sound processed audio information | |
KR101659895B1 (en) | Method And Apparatus for Noise Reduction And Inducement thereto | |
US11227423B2 (en) | Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system | |
JP2023501536A (en) | Control method and system for artificial intelligence type multimedia device | |
JP6678315B2 (en) | Voice reproduction method, voice interaction device, and voice interaction program | |
JP2022016997A (en) | Information processing method, information processing device, and information processing program | |
WO2019207912A1 (en) | Information processing device and information processing method | |
JP2015056676A (en) | Sound processing device and program | |
JP2020086129A (en) | Information processor, information processing method, information processing system and program | |
KR102594683B1 (en) | Electronic device for speech recognition and method thereof | |
KR101592114B1 (en) | Real-time interpretation by bone conduction speaker and microphone | |
KR102359163B1 (en) | Electronic device for speech recognition and method thereof | |
JP2004134942A (en) | Mobile phone | |
JP7293863B2 (en) | Speech processing device, speech processing method and program | |
JP2005140860A (en) | Speech recognizing device and its control method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080513 |