JP2013183315A - Hands-free speech apparatus - Google Patents

Hands-free speech apparatus Download PDF

Info

Publication number
JP2013183315A
JP2013183315A JP2012046229A JP2012046229A JP2013183315A JP 2013183315 A JP2013183315 A JP 2013183315A JP 2012046229 A JP2012046229 A JP 2012046229A JP 2012046229 A JP2012046229 A JP 2012046229A JP 2013183315 A JP2013183315 A JP 2013183315A
Authority
JP
Japan
Prior art keywords
speaker
voice
hands
unit
microphone array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012046229A
Other languages
Japanese (ja)
Inventor
Daisuke Sugii
大介 杉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Casio Mobile Communications Ltd
Original Assignee
NEC Casio Mobile Communications Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Casio Mobile Communications Ltd filed Critical NEC Casio Mobile Communications Ltd
Priority to JP2012046229A priority Critical patent/JP2013183315A/en
Publication of JP2013183315A publication Critical patent/JP2013183315A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

PROBLEM TO BE SOLVED: To selectively send voices of a speaking person to a speech partner through simple arithmetic processing.SOLUTION: A hands-free speech apparatus 100 comprises a receiver 110, an ultrasonic speaker 120, a microphone array 130, a BSS (Blind Source Separation) processor 140 and a transmitter 150. The receiver 110 receives a reception voice. The ultrasonic speaker 120 outputs the reception voice received by the receiver 110. The microphone array 130 collects sounds. The BSS processor 140 extracts a transmission voice from the sounds collected by the microphone array 130. The transmitter 150 transmits the transmission voice extracted by the BSS processor 140.

Description

本発明は、ハンズフリー通話装置に関する。   The present invention relates to a hands-free call device.

装置と話者とが近接していなくても通話が可能なハンズフリー通話装置としては、例えば、特許文献1及び2の技術がある。   As a hands-free call device capable of making a call even if the device and the speaker are not close to each other, for example, there are technologies of Patent Documents 1 and 2.

特許文献1のハンズフリー通話装置では、画像認識により話者の位置を検出し、その検出結果を、マイクロホン及びスピーカの指向性制御に利用する。マイクロホンの指向性制御は、複数のマイクロホンのうち話者の方向に対応するマイクロホンを選択的に使用すること、又は、駆動部によりマイクロホンの向きを変えることにより行う。   In the hands-free call device of Patent Document 1, the position of a speaker is detected by image recognition, and the detection result is used for directivity control of a microphone and a speaker. The directivity control of the microphone is performed by selectively using a microphone corresponding to the direction of the speaker among a plurality of microphones, or by changing the direction of the microphone by the driving unit.

特許文献2のハンズフリー通話装置では、超音波センサにより話者の位置を検出し、その検出結果を、マイクロホン及びスピーカの指向性制御に利用する。特許文献2の技術では、複数のマイクロホンの音声入力の位相と振幅を制御することによって、特定した方向にマイクロホンの指向性を高める。   In the hands-free call device of Patent Document 2, the position of a speaker is detected by an ultrasonic sensor, and the detection result is used for directivity control of a microphone and a speaker. In the technique of Patent Document 2, the directivity of the microphone is increased in the specified direction by controlling the phase and amplitude of the sound input of a plurality of microphones.

なお、特許文献3には、画像認識により話者の位置を認識し、パラメトリックスピーカアレイにより特定の方向に音声を出力し、前方に向かって指向性を有するマイクロホンにより集音する移動体(ロボット等)について記載されている。   In Patent Document 3, a moving body (a robot or the like) that recognizes the position of a speaker by image recognition, outputs a sound in a specific direction by a parametric speaker array, and collects sound by a microphone having directivity toward the front. ).

また、特許文献4には、電話端末における着信時に、電話端末に設けた複数のマイクロホンで集音して音声信号を得て、この音声信号から着信音成分を除去したものを雑音信号と推定する技術が記載されている。   Further, in Patent Document 4, when an incoming call is received at a telephone terminal, a sound signal is obtained by collecting sound from a plurality of microphones provided in the telephone terminal, and a signal obtained by removing the ringing tone component from the sound signal is estimated as a noise signal. The technology is described.

特開2010−232755号公報JP 2010-232755 A 特開2001−359187号公報JP 2001-359187 A 国際公開第2005/076661号パンフレットInternational Publication No. 2005/076661 Pamphlet 特開2009−153053号公報JP 2009-153053 A

ハンズフリー通話装置において、話者の声を選択的に通話相手へ送話するためには、多くのマイクロホンを用いる必要がある。しかし、携帯通信端末装置などにおいては、実装スペースが限られているため、多くのマイクロホンを実装することが困難な場合もある。特許文献1において、駆動部によりマイクロホンの向きを変える場合も、駆動部が必要となるため、実装スペースが大型化する。   In a hands-free call device, it is necessary to use many microphones in order to selectively transmit a speaker's voice to a call partner. However, since a mounting space is limited in a mobile communication terminal device or the like, it may be difficult to mount many microphones. In Patent Document 1, when the direction of the microphone is changed by the drive unit, the drive unit is required, so that the mounting space is increased.

また、ハンズフリー通話装置における演算処理が複雑であると、消費電力が多くなるなどの弊害があるため、演算処理がなるべく簡単であることが望まれる。   In addition, if the arithmetic processing in the hands-free call device is complicated, there is an adverse effect such as an increase in power consumption. Therefore, it is desirable that the arithmetic processing is as simple as possible.

本発明は、以下の何れかの課題を解決することが可能なハンズフリー通話装置を提供することにある。
1つ目の課題は、簡単な演算処理で、話者の声を選択的に通話相手へ送話することである。
2つ目の課題は、なるべく少ない数のマイクロホンを用いて、話者の声を選択的に通話相手へ送話することである。
An object of the present invention is to provide a hands-free call device capable of solving any of the following problems.
The first problem is to selectively transmit the voice of the speaker to the other party with a simple arithmetic process.
The second problem is to selectively transmit the speaker's voice to the other party using as few microphones as possible.

本発明は、受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するマイクロホンアレーと、
前記マイクロホンアレーにより集音された音声から、送話音声を抽出するBSS(Blind Source Separation)処理部と、
前記BSS処理部により抽出される送話音声を送信する送話部と、
を有することを特徴とするハンズフリー通話装置を提供する。
The present invention includes a receiver that receives a received voice;
An ultrasonic speaker for outputting the received voice received by the receiver;
A microphone array that collects audio,
A BSS (Blind Source Separation) processing unit for extracting a transmitted voice from the voice collected by the microphone array;
A transmission unit for transmitting the transmission voice extracted by the BSS processing unit;
There is provided a hands-free communication device characterized by comprising:

また、本発明は、受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するAMNOR(Adaptive Microphone−array for NOise Reduction)方式のマイクロホンアレーと、
前記マイクロホンアレーにより集音される音声に基づいて送話音声を生成し、該送話音声を送話する送話部と、
を有することを特徴とするハンズフリー通話装置を提供する。
In addition, the present invention provides a receiver that receives a received voice;
An ultrasonic speaker for outputting the received voice received by the receiver;
An AMNOR (Adaptive Microphone-array for NOISE Reduction) microphone array that collects sound;
A transmission unit that generates a transmission voice based on the voice collected by the microphone array, and transmits the transmission voice;
There is provided a hands-free communication device characterized by comprising:

本発明によれば、簡単な演算処理で、話者の声を選択的に通話相手へ送話することができる。または、本発明によれば、なるべく少ない数のマイクロホンを用いて、話者の声を選択的に通話相手へ送話することができる。   According to the present invention, the voice of the speaker can be selectively transmitted to the other party with a simple arithmetic process. Alternatively, according to the present invention, the voice of the speaker can be selectively transmitted to the other party using as few microphones as possible.

第1の実施形態に係るハンズフリー通話装置の構成を示すブロック図である。It is a block diagram which shows the structure of the hands-free call device which concerns on 1st Embodiment. 第1の実施形態に係るハンズフリー通話装置のより具体的な構成を示すブロック図である。It is a block diagram which shows the more concrete structure of the hands-free call apparatus which concerns on 1st Embodiment. 超音波スピーカの構成を示す模式的な平面図である。It is a typical top view which shows the structure of an ultrasonic speaker. 超音波スピーカの個々の超音波振動子の構成を示す模式的な断面図である。It is typical sectional drawing which shows the structure of each ultrasonic transducer | vibrator of an ultrasonic speaker. 第1の実施形態の動作を説明するための模式図である。It is a schematic diagram for demonstrating operation | movement of 1st Embodiment. 超音波スピーカの超音波振動子の共振周波数の特性を示す図である。It is a figure which shows the characteristic of the resonant frequency of the ultrasonic transducer | vibrator of an ultrasonic speaker. 超音波スピーカの指向性制御の例を説明するための模式図である。It is a schematic diagram for demonstrating the example of directivity control of an ultrasonic speaker. 話者が複数人の場合のハンズフリー通話装置の動作を説明するためのフローチャートである。It is a flowchart for demonstrating operation | movement of the hands-free call apparatus in case a speaker is plural. 第2の実施形態に係るハンズフリー通話装置の構成を示すブロック図である。It is a block diagram which shows the structure of the hands-free call apparatus which concerns on 2nd Embodiment. 第2の実施形態に係るハンズフリー通話装置のより具体的な構成を示すブロック図である。It is a block diagram which shows the more concrete structure of the hands-free call apparatus which concerns on 2nd Embodiment. 第2の実施形態の動作を説明するための模式図である。It is a schematic diagram for demonstrating operation | movement of 2nd Embodiment.

以下、本発明の実施形態について、図面を用いて説明する。なお、すべての図面において、同様の構成要素には同一の符号を付し、適宜に説明を省略する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same components are denoted by the same reference numerals, and description thereof will be omitted as appropriate.

〔第1の実施形態〕
図1は第1の実施形態に係るハンズフリー通話装置100の構成を示すブロック図である。
[First Embodiment]
FIG. 1 is a block diagram showing a configuration of a hands-free communication device 100 according to the first embodiment.

本実施形態に係るハンズフリー通話装置100は、受話部110と、超音波スピーカ120と、マイクロホンアレー130と、BSS(Blind Source Separation)処理部140と、送話部150と、を有する。受話部110は、受話音声を受信する。超音波スピーカ120は、受話部110が受信した受話音声を出力する。マイクロホンアレー130は、音声を集音する。BSS処理部140は、マイクロホンアレー130により集音された音声から送話音声を抽出する。送話部150は、BSS処理部140により抽出される送話音声を送信する。   The hands-free communication device 100 according to the present embodiment includes a receiver 110, an ultrasonic speaker 120, a microphone array 130, a BSS (Blind Source Separation) processor 140, and a transmitter 150. The receiver 110 receives the received voice. The ultrasonic speaker 120 outputs the reception voice received by the reception unit 110. The microphone array 130 collects sound. The BSS processing unit 140 extracts the transmitted voice from the voice collected by the microphone array 130. The transmitter 150 transmits the transmitted voice extracted by the BSS processor 140.

BSS処理部140は、ブラインド信号源分離(ブラインド音源分離)と呼ばれる処理を行う。この処理は、複数の音源が混在する環境下で集音された音声データから、それぞれの音源に由来する音声データを分離する処理である。   The BSS processing unit 140 performs a process called blind signal source separation (blind sound source separation). This process is a process of separating audio data derived from each sound source from the audio data collected in an environment where a plurality of sound sources are mixed.

ハンズフリー通話装置100の使用者である話者の声以外に、何らかの雑音源が存在する場合、マイクロホンアレー130は、話者の声以外に、雑音源からの雑音を集音する。BSS処理部140は、マイクロホンアレー130により集音された音声(音声データ)を、話者の声と、雑音と、に分離する。更に、BSS処理部140は、分離した音声から、話者の声を送話音声として抽出する。送話部150は、BSS処理部140により抽出された話者の声を送話音声として、通話の相手方の通話装置へ送信する。   If there is any noise source other than the voice of the speaker who is the user of the hands-free communication device 100, the microphone array 130 collects noise from the noise source in addition to the voice of the speaker. The BSS processing unit 140 separates the voice (voice data) collected by the microphone array 130 into a speaker's voice and noise. Further, the BSS processing unit 140 extracts the speaker's voice as the transmitted voice from the separated voice. The transmitting unit 150 transmits the voice of the speaker extracted by the BSS processing unit 140 to the calling device of the other party as the transmitted voice.

このように、本実施形態に係るハンズフリー通話装置100によれば、マイクロホンアレー130により集音された音声から、BSS処理部140により送話音声を抽出する。よって、話者の声を選択的に通話相手へ送話することができる。   Thus, according to the hands-free call device 100 according to the present embodiment, the BSS processing unit 140 extracts the transmitted voice from the voice collected by the microphone array 130. Therefore, the voice of the speaker can be selectively transmitted to the other party.

ここで、ハンズフリー通話装置100においては、超音波スピーカ120により受話音声を出力する。このため、超音波スピーカ120から(ひいてはハンズフリー通話装置100から)ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー130が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、BSS処理部140は、受話音声の音響エコーを分離する処理と、その音響エコーを雑音と判定する処理と、の何れも行う必要がない。つまり、BSS処理部140の処理が簡単になる。
要するに、簡単な演算処理で、話者の声を選択的に通話相手へ送話することができる。
Here, in the hands-free communication device 100, the received voice is output by the ultrasonic speaker 120. For this reason, the received voice is demodulated at a certain distance from the ultrasonic speaker 120 (and hence from the hands-free call device 100), and the received voice is reproduced as an audible sound. Therefore, it can be suppressed that the microphone array 130 picks up the acoustic echo of the received voice. As a result, the BSS processing unit 140 does not need to perform either the process of separating the acoustic echo of the received voice or the process of determining the acoustic echo as noise. That is, the processing of the BSS processing unit 140 is simplified.
In short, the voice of the speaker can be selectively transmitted to the other party with a simple arithmetic process.

以下、第1の実施形態をより詳細に説明する。   Hereinafter, the first embodiment will be described in more detail.

図2は第1の実施形態に係るハンズフリー通話装置100のより具体的な構成を示すブロック図である。   FIG. 2 is a block diagram showing a more specific configuration of the hands-free communication device 100 according to the first embodiment.

ハンズフリー通話装置100は、無線通信又は有線通信により、他の通話装置との間で通話を行うための装置である。受話部110は、他の通話装置から送信された受話音声を受信する。送話部150は、他の通話装置へ送話音声を送信する。   The hands-free call device 100 is a device for making a call with another call device by wireless communication or wired communication. The receiving unit 110 receives a received voice transmitted from another call device. The transmitter 150 transmits the transmitted voice to another communication device.

ハンズフリー通話装置100は、携帯電話機或いはその他の携帯通信端末装置であることが好ましい例であるが、固定電話などであっても良い。   The hands-free call device 100 is preferably a mobile phone or other mobile communication terminal device, but may be a landline phone or the like.

図2に示すように、ハンズフリー通話装置100は、上記の構成に加えて、入力部20と、撮像部170と、位置特定部180と、画像判定部190と、を有している。   As shown in FIG. 2, the hands-free call device 100 includes an input unit 20, an imaging unit 170, a position specifying unit 180, and an image determination unit 190 in addition to the above configuration.

入力部20は、超音波スピーカ120にパラメトリックスピーカ用の変調信号を入力することによって、超音波スピーカ120より超音波を発振(出力)させる。超音波スピーカ120より出力された超音波は、ハンズフリー通話装置100からある程度離れた位置で復調し、可聴音として再生される。これにより、話者は、ハンズフリー状態、すなわち話者の口をハンズフリー通話装置100に近接させない状態(典型的には、ハンズフリー通話装置100を手で持たない状態)で、通話相手の通話装置(図示略)から送信された音声を聞くことができる。   The input unit 20 oscillates (outputs) ultrasonic waves from the ultrasonic speaker 120 by inputting a modulation signal for a parametric speaker to the ultrasonic speaker 120. The ultrasonic wave output from the ultrasonic speaker 120 is demodulated at a position somewhat away from the hands-free call device 100 and reproduced as an audible sound. As a result, the speaker is in a hands-free state, that is, in a state where the speaker's mouth is not brought close to the hands-free call device 100 (typically, the hands-free call device 100 is not held by hand). The sound transmitted from the device (not shown) can be heard.

入力部20は、超音波スピーカ120の指向性の制御を行う指向性制御部21を有している。   The input unit 20 includes a directivity control unit 21 that controls the directivity of the ultrasonic speaker 120.

撮像部170は、話者等の画像を撮像するカメラである。   The imaging unit 170 is a camera that captures an image of a speaker or the like.

位置特定部180は、撮像部170による撮像結果に基づいて、話者の位置を特定する。すなわち、位置特定部180は、撮像部170により撮像された画像について、顔認識等の所定の画像認識処理を行うことによって、ハンズフリー通話装置100を基準とした話者の位置(方向及び距離)を判定する。   The position specifying unit 180 specifies the position of the speaker based on the imaging result obtained by the imaging unit 170. That is, the position specifying unit 180 performs predetermined image recognition processing such as face recognition on the image captured by the image capturing unit 170, so that the position (direction and distance) of the speaker based on the hands-free call device 100 is determined. Determine.

入力部20の指向性制御部21は、位置特定部180により特定された話者の位置で音声が再生されるように超音波スピーカ120の指向性を制御する。   The directivity control unit 21 of the input unit 20 controls the directivity of the ultrasonic speaker 120 so that the sound is reproduced at the position of the speaker specified by the position specifying unit 180.

画像判定部190は、撮像部170による撮像結果に基づいて、話者の発声タイミングを判定する。より具体的には、画像判定部190は、位置特定部180により特定された位置における画像(つまり話者の画像)について、口の動きを判定する。口が所定の動作を行っているタイミング(開閉を繰り返している場合など)を、話者の発声タイミングであると判定する。   The image determination unit 190 determines the speaker's utterance timing based on the imaging result obtained by the imaging unit 170. More specifically, the image determination unit 190 determines the movement of the mouth for the image (that is, the speaker's image) at the position specified by the position specifying unit 180. The timing at which the mouth performs a predetermined operation (such as when opening and closing is repeated) is determined to be the speaker's utterance timing.

BSS処理部140は、画像判定部190により判定された話者の発声タイミングにてマイクロホンアレー130により集音された音声から、送話音声を抽出する。このため、送話音声、つまり話者の音声を効率的に抽出することができる。   The BSS processing unit 140 extracts the transmitted voice from the voice collected by the microphone array 130 at the utterance timing of the speaker determined by the image determination unit 190. For this reason, the transmitted voice, that is, the voice of the speaker can be extracted efficiently.

マイクロホンアレー130は、複数のマイクロホン131を備えて構成されている(図5参照)。   The microphone array 130 includes a plurality of microphones 131 (see FIG. 5).

図3は超音波スピーカ120の構成を示す模式的な平面図である。   FIG. 3 is a schematic plan view showing the configuration of the ultrasonic speaker 120.

図3に示すように、超音波スピーカ120は、それぞれ超音波を出力する複数の超音波振動子30を有している。つまり、超音波スピーカ120は、複数の超音波振動子30からなる振動子アレーを含んで構成されている。入力部20は、各超音波振動子30にそれぞれ変調信号を入力することにより、各超音波振動子30からそれぞれ超音波を放射させる。   As shown in FIG. 3, the ultrasonic speaker 120 includes a plurality of ultrasonic transducers 30 that output ultrasonic waves. That is, the ultrasonic speaker 120 includes a transducer array including a plurality of ultrasonic transducers 30. The input unit 20 causes each ultrasonic transducer 30 to emit ultrasonic waves by inputting a modulation signal to each ultrasonic transducer 30.

複数の超音波振動子30は、例えば、マトリクス状に配置されている。図3の例では、縦4列、横4列で合計16個の超音波振動子30がマトリクス状に配置されている。ただし、超音波スピーカ120が有する超音波振動子30の数や配置は、この例に限らない。   The plurality of ultrasonic transducers 30 are arranged in a matrix, for example. In the example of FIG. 3, a total of 16 ultrasonic transducers 30 are arranged in a matrix in 4 columns and 4 columns. However, the number and arrangement of the ultrasonic transducers 30 included in the ultrasonic speaker 120 are not limited to this example.

超音波スピーカ120は、例えば、複数の超音波振動子30を支持する枠状の支持部70を有している。   The ultrasonic speaker 120 includes, for example, a frame-shaped support unit 70 that supports the plurality of ultrasonic transducers 30.

図4は超音波スピーカ120の個々の超音波振動子30の構成を示す模式的な断面図である。   FIG. 4 is a schematic cross-sectional view showing the configuration of each ultrasonic transducer 30 of the ultrasonic speaker 120.

超音波振動子30は、例えば、シート状の振動部材62と、振動子63と、を備えている。振動子63は圧電振動子であり、振動部材62の一方の面に取り付けられている。振動子63は、振動部材62に対向する面の全面が接着剤によって振動部材62に固定されている。これにより、振動子63の片面の全面が振動部材62によって拘束されている。
振動部材62の縁は支持部70により支持されている。
The ultrasonic transducer 30 includes, for example, a sheet-like vibrating member 62 and a transducer 63. The vibrator 63 is a piezoelectric vibrator and is attached to one surface of the vibration member 62. The entire surface of the vibrator 63 facing the vibration member 62 is fixed to the vibration member 62 with an adhesive. As a result, the entire surface of one surface of the vibrator 63 is restrained by the vibration member 62.
The edge of the vibration member 62 is supported by the support portion 70.

振動部材62を構成する材料は、金属や樹脂など、脆性材料である振動子63に対して高い弾性率を持つ材料であれば特に限定されないが、加工性やコストの観点からリン青銅やステンレスなどが好ましい。振動部材62は、振動子63から発生した振動によって振動し、例えば周波数が20kHz以上の音波を発振する。振動子63も、自身が振動することによって、例えば周波数が20kHz以上の音波を発振する。   The material constituting the vibration member 62 is not particularly limited as long as it is a material having a high elastic modulus with respect to the vibrator 63 which is a brittle material such as metal or resin, but phosphor bronze, stainless steel, etc. from the viewpoint of workability and cost. Is preferred. The vibration member 62 vibrates due to vibration generated from the vibrator 63, and oscillates a sound wave having a frequency of 20 kHz or more, for example. The vibrator 63 also oscillates, for example, a sound wave having a frequency of 20 kHz or more by vibrating itself.

振動子63は、圧電セラミック(図示略)と、圧電セラミックの両方の面にそれぞれ形成された電極膜と、からなる。   The vibrator 63 includes a piezoelectric ceramic (not shown) and electrode films respectively formed on both surfaces of the piezoelectric ceramic.

入力部20は、各超音波振動子30の振動子63を発振させる発振器として機能する。入力部20は、振動子63に入力する電気信号、すなわちパラメトリックスピーカ用の変調信号(発振信号)を生成する。変調信号の輸送波は、例えば、周波数が20kHz以上の超音波であり、具体的には、例えば100kHzの超音波である。入力部20は、所定の発振出力となるように超音波振動子30を制御する。   The input unit 20 functions as an oscillator that oscillates the transducer 63 of each ultrasonic transducer 30. The input unit 20 generates an electric signal input to the vibrator 63, that is, a modulation signal (oscillation signal) for a parametric speaker. The transport wave of the modulation signal is, for example, an ultrasonic wave having a frequency of 20 kHz or higher, and specifically, an ultrasonic wave having a frequency of 100 kHz, for example. The input unit 20 controls the ultrasonic transducer 30 so that a predetermined oscillation output is obtained.

パラメトリックスピーカは、複数の発振源それぞれからAM変調やDSB変調、SSB変調、FM変調をかけた超音波(輸送波)を空気中に放射し、超音波が空気中に伝播する際の非線形特性により、可聴音を出現させるものである。ここでの非線形とは、流れの慣性作用と粘性作用の比で示されるレイノルズ数が大きくなると、層流から乱流に推移することを示す。音波は、流体内で微少にじょう乱しているため、非線形で伝播している。特に超音波周波数帯では音波の非線形性が容易に観察できる。そして超音波を空気中に放射した場合、音波の非線形性に伴う高調波が顕著に発生する。また音波は、空気中において分子密度に濃淡が生じる疎密状態である。そして空気分子が圧縮よりも復元するのに時間が生じた場合、圧縮後に復元できない空気が、連続的に伝播する空気分子と衝突し、衝撃波が生じる。この衝撃波により可聴音が発生する。可聴音、すなわち受話音声は、超音波スピーカ120から(ひいてはハンズフリー通話装置100から)ある程度の距離だけ離れた位置で再生される。   A parametric speaker emits ultrasonic waves (transport waves) subjected to AM modulation, DSB modulation, SSB modulation, and FM modulation from each of a plurality of oscillation sources into the air, and due to nonlinear characteristics when the ultrasonic waves propagate into the air. , To make an audible sound appear. Non-linear here means that the flow changes from laminar flow to turbulent flow when the Reynolds number indicated by the ratio between the inertial action and the viscous action of the flow increases. Since the sound wave is slightly disturbed in the fluid, it propagates nonlinearly. Particularly in the ultrasonic frequency band, the nonlinearity of the sound wave can be easily observed. And when an ultrasonic wave is radiated in the air, harmonics accompanying the nonlinearity of the sound wave are remarkably generated. The sound wave is a dense state where the density of the molecular density is generated in the air. When it takes time for air molecules to recover from compression, air that cannot be recovered after compression collides with air molecules that continuously propagate, and a shock wave is generated. An audible sound is generated by this shock wave. The audible sound, that is, the received voice, is reproduced at a position away from the ultrasonic speaker 120 (and thus from the hands-free communication device 100) by a certain distance.

入力部20は、例えば、複数の超音波振動子30が互いに個別の位相で発振するように、複数の超音波振動子30を制御することができる。複数の超音波振動子30を互いに個別の位相で発振させることにより、指向性を高めたり、指向性を任意に制御したりすることができる。ただし、入力部20は、複数の超音波振動子30を互いに同一の位相で発振させても良い。   For example, the input unit 20 can control the plurality of ultrasonic transducers 30 such that the plurality of ultrasonic transducers 30 oscillate at individual phases. Directivity can be enhanced or directivity can be arbitrarily controlled by causing the plurality of ultrasonic transducers 30 to oscillate at individual phases. However, the input unit 20 may oscillate a plurality of ultrasonic transducers 30 with the same phase.

図5は第1の実施形態の動作を説明するための模式図である。   FIG. 5 is a schematic diagram for explaining the operation of the first embodiment.

例えば図5に示すように、話者として第1話者210及び第2話者220の2人の話者が存在するものとする。また、ハンズフリー通話装置100の外部に、他のスピーカ50が存在し、このスピーカ50から雑音が放音されているものとする。   For example, as shown in FIG. 5, it is assumed that there are two speakers, a first speaker 210 and a second speaker 220, as speakers. Further, it is assumed that another speaker 50 exists outside the hands-free call device 100 and noise is emitted from the speaker 50.

先ず、撮像部170が第1話者210及び第2話者220を含む画像を撮像する。位置特定部180は、撮像部170による撮像結果に基づいて、第1話者210及び第2話者220の位置を特定する。入力部20の指向性制御部21は、位置特定部180により特定された第1話者210及び第2話者220の位置で受話音声が再生されるように超音波スピーカ120の指向性を制御する。つまり、第1話者210及び第2話者220の近傍でのみ受話音声が再生されるように、超音波スピーカ120の指向性を制御する。その結果、図5に示す可聴領域40にて受話音声を聴くことが可能となる。   First, the imaging unit 170 captures an image including the first speaker 210 and the second speaker 220. The position specifying unit 180 specifies the positions of the first speaker 210 and the second speaker 220 based on the imaging result obtained by the imaging unit 170. The directivity control unit 21 of the input unit 20 controls the directivity of the ultrasonic speaker 120 so that the received voice is reproduced at the positions of the first speaker 210 and the second speaker 220 specified by the position specifying unit 180. To do. That is, the directivity of the ultrasonic speaker 120 is controlled so that the received voice is reproduced only in the vicinity of the first speaker 210 and the second speaker 220. As a result, it is possible to listen to the received voice in the audible area 40 shown in FIG.

また、マイクロホンアレー130は、第1話者210及び第2話者220の発声と、スピーカ50からの雑音と、を含む音声(音声データ)を集音する。   The microphone array 130 collects sound (voice data) including the utterances of the first speaker 210 and the second speaker 220 and noise from the speaker 50.

BSS処理部140は、マイクロホンアレー130により集音された音声から、各音源(第1話者210、第2話者220及びスピーカ50)に由来する音声を分離する。   The BSS processing unit 140 separates sound originating from each sound source (first speaker 210, second speaker 220, and speaker 50) from the sound collected by the microphone array 130.

更に、BSS処理部140は、相互に分離された複数の音声から、雑音を判定し、雑音を除く音声を送話音声として抽出する。よって、送話部150は、第1話者210及び第2話者220の声を選択的に、通話相手の通話装置へ送信することができる。   Further, the BSS processing unit 140 determines noise from a plurality of voices separated from each other, and extracts a voice excluding the noise as a transmission voice. Therefore, the transmitter 150 can selectively transmit the voices of the first speaker 210 and the second speaker 220 to the telephone device of the other party.

ここで、BSS処理部140は、例えば、着信時にマイクロホンアレー130により集音された音声から着信音を除去した音声を雑音として認識するように構成されている。これにより、着信以前からスピーカ50から音声が放音されている場合に、その音声を容易に雑音と認識することができる。   Here, the BSS processing unit 140 is configured to recognize, for example, a sound obtained by removing a ringtone from a sound collected by the microphone array 130 at the time of an incoming call as noise. Thereby, when the sound is emitted from the speaker 50 before the incoming call, the sound can be easily recognized as noise.

また、画像判定部190は、撮像部170による撮像結果に基づいて、第1話者210及び第2話者220の発声タイミングを判定する。そして、BSS処理部140は、画像判定部190により判定された発声タイミングにて集音された音声から、送話音声を抽出する。このため、送話音声を効率的に抽出することができる。   Further, the image determination unit 190 determines the utterance timing of the first speaker 210 and the second speaker 220 based on the imaging result by the imaging unit 170. Then, the BSS processing unit 140 extracts the transmitted voice from the voice collected at the utterance timing determined by the image determination unit 190. For this reason, transmission voice can be extracted efficiently.

次に、図6及び図7を参照して、超音波スピーカ120の指向性制御の一例を説明する。図6は超音波スピーカ120の超音波振動子30の共振周波数の特性を示す図である。図7(a)、(b)及び(c)は超音波スピーカ120の指向性制御の例を説明するための模式図である。   Next, an example of directivity control of the ultrasonic speaker 120 will be described with reference to FIGS. 6 and 7. FIG. 6 is a diagram showing the characteristic of the resonance frequency of the ultrasonic transducer 30 of the ultrasonic speaker 120. FIGS. 7A, 7 </ b> B, and 7 </ b> C are schematic diagrams for explaining an example of directivity control of the ultrasonic speaker 120.

本実施形態の場合、指向性制御部21は、例えば、入力部20から超音波スピーカ120に入力される変調信号を調節することによって、超音波スピーカ120の共振周波数を変化させることにより、超音波スピーカ120の指向性を制御する。すなわち、入力部20から各超音波振動子30に入力される変調信号を調節することによって、各超音波振動子30の共振周波数を変化させることにより、超音波スピーカ120の指向性を制御する。   In the case of the present embodiment, the directivity control unit 21 changes the resonance frequency of the ultrasonic speaker 120 by adjusting a modulation signal input from the input unit 20 to the ultrasonic speaker 120, for example. The directivity of the speaker 120 is controlled. That is, the directivity of the ultrasonic speaker 120 is controlled by changing the resonance frequency of each ultrasonic transducer 30 by adjusting the modulation signal input from the input unit 20 to each ultrasonic transducer 30.

図6に示すように、超音波振動子30は、複数の共振周波数をもつ。すなわち、超音波振動子30は、キャリア周波数a1(例えば20kHz)、キャリア周波数a1の2倍の周波数の倍波周波数a2(例えば40kHz)、及び、キャリア周波数a1の3倍の周波数の3倍波周波数a3(例えば60kHz)を持つ。   As shown in FIG. 6, the ultrasonic transducer 30 has a plurality of resonance frequencies. That is, the ultrasonic transducer 30 includes a carrier frequency a1 (for example, 20 kHz), a harmonic frequency a2 that is twice the carrier frequency a1 (for example, 40 kHz), and a third harmonic frequency that is three times the carrier frequency a1. a3 (for example, 60 kHz).

超音波スピーカ120の指向性は、共振周波数が高域となるほど、つまり搬送波の周波数が高域となるほど高くなる。また、超音波スピーカ120の指向性は、共振周波数及び搬送波の周波数が低域となるほど低くなる。図7(a)は超音波振動子30の共振周波数をキャリア周波数a1としたときの指向性(可聴音が復調される領域の角度範囲)を模式的に示す。同様に、図7(b)は超音波振動子30の共振周波数を倍波周波数a2としたときの指向性を模式的に示し、図7(c)は超音波振動子30の共振周波数を3倍波周波数a3としたときの指向性を模式的に示す。図7(a)〜(c)において、θ1>θ2>θ3である。   The directivity of the ultrasonic speaker 120 becomes higher as the resonance frequency becomes higher, that is, as the frequency of the carrier wave becomes higher. In addition, the directivity of the ultrasonic speaker 120 becomes lower as the resonance frequency and the frequency of the carrier wave become lower. FIG. 7A schematically shows the directivity (angle range of the region where the audible sound is demodulated) when the resonance frequency of the ultrasonic transducer 30 is the carrier frequency a1. Similarly, FIG. 7B schematically shows the directivity when the resonance frequency of the ultrasonic transducer 30 is the harmonic frequency a2, and FIG. 7C shows the resonance frequency of the ultrasonic transducer 30 3. The directivity when the harmonic frequency is a3 is schematically shown. 7A to 7C, θ1> θ2> θ3.

従って、ハンズフリー通話装置100と話者との位置関係や話者の数に応じて、共振周波数をキャリア周波数a1、倍波周波数a2及び3倍波周波数a3の中から適宜選択することによって、超音波スピーカ120の指向性を適切に制御することができる。   Therefore, by appropriately selecting the resonance frequency from the carrier frequency a1, the harmonic frequency a2, and the third harmonic frequency a3 according to the positional relationship between the hands-free communication device 100 and the speaker and the number of speakers, The directivity of the sound wave speaker 120 can be appropriately controlled.

次に、上記のように複数の話者が存在する場合のBSS処理部140の処理について、より詳細に説明する。   Next, the processing of the BSS processing unit 140 when there are a plurality of speakers as described above will be described in more detail.

上記のように、BSS処理部140は、マイクロホンアレー130により集音された音声から、各音源に由来する音声を分離する。このため、BSS処理部140は、第1話者210の声と、第2話者220の声も、相互に分離する。このため、第1話者210の声と第2話者220の声とを合成(同期加算)することにより、送話音声を生成する。   As described above, the BSS processing unit 140 separates the sound originating from each sound source from the sound collected by the microphone array 130. For this reason, the BSS processing unit 140 also separates the voice of the first speaker 210 and the voice of the second speaker 220 from each other. For this reason, the voice of the first speaker 210 and the voice of the second speaker 220 are synthesized (synchronized and added) to generate a transmission voice.

図8は話者が複数人の場合のハンズフリー通話装置100の動作を説明するためのフローチャートである。   FIG. 8 is a flowchart for explaining the operation of the hands-free call device 100 when there are a plurality of speakers.

先ず、マイクロホンアレー130により音声を集音する(ステップS11)。次に、BSS処理部140により、各音源に由来する音声を分離する(ステップS12)。次に、BSS処理部140は、話者が複数であるか否かを判定する(ステップS13)。この処理は、相互に分離された複数の音声の中に、複数の声が存在するか否かを判定することにより行う。更に、この処理の補助として、撮像部170により撮像された画像中に複数の人物が存在するか否かの判定結果を利用しても良い。   First, sound is collected by the microphone array 130 (step S11). Next, the BSS processing unit 140 separates the sound originating from each sound source (step S12). Next, the BSS processing unit 140 determines whether there are a plurality of speakers (step S13). This process is performed by determining whether or not there are a plurality of voices among a plurality of voices separated from each other. Furthermore, as an aid to this processing, a determination result as to whether or not there are a plurality of persons in the image captured by the imaging unit 170 may be used.

話者が複数の場合(ステップS13のY)、複数の話者の音声(声)を合成することにより、送話音声を生成する(ステップS14)。一方、話者が1人だけの場合、その話者の音声(声)を送話音声とする(ステップS15)。   If there are a plurality of speakers (Y in step S13), a voice to be transmitted is synthesized by synthesizing the voices (voices) of the plurality of speakers (step S14). On the other hand, when there is only one speaker, the voice (voice) of the speaker is set as the transmitted voice (step S15).

以上のような第1の実施形態によれば、ハンズフリー通話装置100は、受話部110と、受話部110が受信した受話音声を出力する超音波スピーカ120を有する。更に、ハンズフリー通話装置100は、音声を集音するマイクロホンアレー130と、マイクロホンアレー130により集音された音声から送話音声を抽出するBSS処理部140と、BSS処理部140により抽出される送話音声を送信する送話部150と、を有する。
よって、話者の声を選択的に通話相手へ送話することができる。
ここで、ハンズフリー通話装置100においては、超音波スピーカ120により受話音声を出力する。このため、超音波スピーカ120から(ひいてはハンズフリー通話装置100から)ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー130が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、BSS処理部140は、受話音声の音響エコーを分離する処理と、その音響エコーを雑音と判定する処理と、の何れも行う必要がない。つまり、BSS処理部140の処理が簡単になる。
要するに、簡単な演算処理で、話者の声を選択的に通話相手へ送話することができる。
According to the first embodiment as described above, the hands-free call device 100 includes the receiving unit 110 and the ultrasonic speaker 120 that outputs the received voice received by the receiving unit 110. Furthermore, the hands-free call device 100 includes a microphone array 130 that collects voice, a BSS processing unit 140 that extracts transmitted voice from the voice collected by the microphone array 130, and a transmission that is extracted by the BSS processing unit 140. And a transmitter 150 for transmitting speech.
Therefore, the voice of the speaker can be selectively transmitted to the other party.
Here, in the hands-free communication device 100, the received voice is output by the ultrasonic speaker 120. For this reason, the received voice is demodulated at a certain distance from the ultrasonic speaker 120 (and hence from the hands-free call device 100), and the received voice is reproduced as an audible sound. Therefore, it can be suppressed that the microphone array 130 picks up the acoustic echo of the received voice. As a result, the BSS processing unit 140 does not need to perform either the process of separating the acoustic echo of the received voice or the process of determining the acoustic echo as noise. That is, the processing of the BSS processing unit 140 is simplified.
In short, the voice of the speaker can be selectively transmitted to the other party with a simple arithmetic process.

ハンズフリー通話装置100は、画像を撮像する撮像部170と、撮像部170による撮像結果に基づいて話者の発声タイミングを判定する画像判定部190と、を有している。そして、BSS処理部140は画像判定部190により判定された発声タイミングに集音された音声から、送話音声を抽出する。よって、送話音声の抽出処理を効率的に行うことができる。   The hands-free call device 100 includes an imaging unit 170 that captures an image, and an image determination unit 190 that determines a speaker's utterance timing based on an imaging result obtained by the imaging unit 170. Then, the BSS processing unit 140 extracts the transmitted voice from the voice collected at the utterance timing determined by the image determination unit 190. Therefore, the transmission voice extraction process can be performed efficiently.

BSS処理部140は、複数の話者による発声をそれぞれ送話音声の一部分ずつとして抽出し、抽出した複数の話者による発声を合成することにより、送話音声を生成する。よって、話者が複数の場合には、複数の話者の声を選択的に通話相手へ送話することができる。   The BSS processing unit 140 extracts utterances by a plurality of speakers as a part of each transmitted speech, and generates the transmitted speech by synthesizing the extracted utterances by the plurality of speakers. Therefore, when there are a plurality of speakers, the voices of the plurality of speakers can be selectively transmitted to the other party.

ハンズフリー通話装置100は、撮像部170と、撮像部170による撮像結果に基づいて話者の位置を特定する位置特定部180と、指向性制御部21と、を有している。指向性制御部21は、位置特定部180により特定された話者の位置で音声が再生されるように超音波スピーカの指向性を制御する。よって、話者の位置において選択的に、音声を再生することができる。   The hands-free call device 100 includes an imaging unit 170, a position specifying unit 180 that specifies the position of a speaker based on an imaging result obtained by the imaging unit 170, and a directivity control unit 21. The directivity control unit 21 controls the directivity of the ultrasonic speaker so that sound is reproduced at the position of the speaker specified by the position specifying unit 180. Therefore, the voice can be selectively reproduced at the position of the speaker.

〔第2の実施形態〕
図9は第2の実施形態に係るハンズフリー通話装置200の構成を示すブロック図である。図10は第2の実施形態に係るハンズフリー通話装置200のより具体的な構成を示すブロック図である。図11は第2の実施形態の動作を説明するための模式図である。
[Second Embodiment]
FIG. 9 is a block diagram showing a configuration of the hands-free call device 200 according to the second embodiment. FIG. 10 is a block diagram showing a more specific configuration of the hands-free call device 200 according to the second embodiment. FIG. 11 is a schematic diagram for explaining the operation of the second embodiment.

本実施形態に係るハンズフリー通話装置100は、受話部110と、超音波スピーカ120と、マイクロホンアレー230と、送話部150と、を有する。受話部110は、受話音声を受信する。超音波スピーカ120は、受話部110が受信した受話音声を出力する。マイクロホンアレー230は、音声を集音する。マイクロホンアレー230は、AMNOR(Adaptive Microphone−array for NOise Reduction)方式のものである。送話部150は、マイクロホンアレー230により集音される音声に基づいて送話音声を生成し、該送話音声を送話する。   The hands-free communication device 100 according to the present embodiment includes a receiver 110, an ultrasonic speaker 120, a microphone array 230, and a transmitter 150. The receiver 110 receives the received voice. The ultrasonic speaker 120 outputs the reception voice received by the reception unit 110. The microphone array 230 collects sound. The microphone array 230 is of an AMPOR (Adaptive Microphone-array for Noise Reduction) system. The transmitter 150 generates a transmission voice based on the voice collected by the microphone array 230 and transmits the transmission voice.

AMNOR方式のマイクロホンアレー230は、雑音の方向に対するマイクロホンアレー230の指向性を低くする。雑音の方向に指向性の谷を形成する。その結果、話者の声を選択的に、送話部150より通話相手へ送話することができる。なお、AMNOR方式のマイクロホンアレー230は、目的音方向に感度は高い。ただし、AMNOR方式のマイクロホンアレー230は、目的音方向に鋭い指向性を形成する訳ではない。   The AMNOR type microphone array 230 reduces the directivity of the microphone array 230 with respect to the direction of noise. A directivity valley is formed in the noise direction. As a result, the voice of the speaker can be selectively transmitted from the transmitter 150 to the other party. The AMNOR microphone array 230 has high sensitivity in the target sound direction. However, the AMNOR microphone array 230 does not form a sharp directivity in the target sound direction.

ここで、AMNOR方式のマイクロホンアレー230においては、雑音の音源数が多いほど、多くのマイクロホン131(図11参照)が必要となる。形成可能な指向性の谷の数は、(マイクロホン131の個数−1)となるためである。   Here, in the AMNOR microphone array 230, the more noise sources, the more microphones 131 (see FIG. 11) are required. This is because the number of directivity valleys that can be formed is (the number of microphones 131 minus 1).

これに対し、本実施形態に係るハンズフリー通話装置200においては、超音波スピーカ120により受話音声を出力する。このため、超音波スピーカ120から(ひいてはハンズフリー通話装置200から)ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー230が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、マイクロホンアレー230は、その音響エコーを雑音として判定する処理と、音響エコーの方向に対する指向性を低くする処理と、の何れも行う必要がない。つまり、マイクロホンアレー230の処理が簡単になる。
また、スピーカとして可聴音を出力する通常のスピーカを用いる場合と比べて、雑音の音源数が減るため、マイクロホンアレー230が必要とするマイクロホン131の数を低減することができる。
要するに、なるべく少ない数のマイクロホンを用いて、簡単な演算処理で、且つ、話者の声を選択的に通話相手へ送話することができる。
On the other hand, in the hands-free call device 200 according to the present embodiment, the received voice is output by the ultrasonic speaker 120. For this reason, the received voice is demodulated at a position away from the ultrasonic speaker 120 (and thus from the hands-free call device 200) by a certain distance, and the received voice is reproduced as an audible sound. Therefore, it can be suppressed that the microphone array 230 picks up the acoustic echo of the received voice. As a result, the microphone array 230 need not perform either the process of determining the acoustic echo as noise or the process of reducing the directivity with respect to the direction of the acoustic echo. That is, the processing of the microphone array 230 is simplified.
Further, since the number of noise sound sources is reduced as compared with the case of using a normal speaker that outputs an audible sound as the speaker, the number of microphones 131 required by the microphone array 230 can be reduced.
In short, it is possible to selectively transmit the voice of the speaker to the other party with a simple arithmetic process using as few microphones as possible.

以下、第2の実施形態についてのより詳細な説明を、第1の実施形態との相違点を中心に行う。   Hereinafter, a more detailed description of the second embodiment will be given focusing on differences from the first embodiment.

ハンズフリー通話装置200は、ハンズフリー通話装置100と同様に、無線通信又は有線通信により、他の通話装置との間で通話を行うための装置である。受話部110は、他の通話装置から送信された受話音声を受信する。送話部150は、他の通話装置へ送話音声を送信する。ハンズフリー通話装置200は、携帯電話機或いはその他の携帯通信端末装置であることが好ましい例であるが、固定電話などであっても良い。   Similar to the hands-free call device 100, the hands-free call device 200 is a device for making a call with another call device by wireless communication or wired communication. The receiving unit 110 receives a received voice transmitted from another call device. The transmitter 150 transmits the transmitted voice to another communication device. The hands-free call device 200 is preferably a mobile phone or other mobile communication terminal device, but may be a landline phone or the like.

図10に示すように、本実施形態に係るハンズフリー通話装置200は、上記の第1の実施形態における画像判定部190及びBSS処理部140を有していない。   As shown in FIG. 10, the hands-free call device 200 according to the present embodiment does not have the image determination unit 190 and the BSS processing unit 140 in the first embodiment.

マイクロホンアレー230は、複数のマイクロホン131(図11)と、AMNOR処理部235(図10)と、を備えて構成されている。AMNOR処理部235は、雑音の音源(以下、雑音源)の方向に対して、マイクロホンアレー230の指向性を低くする処理を行う。すなわち、雑音源の方向に指向性の谷241、242(図11)を形成する。   The microphone array 230 includes a plurality of microphones 131 (FIG. 11) and an AMNOR processing unit 235 (FIG. 10). The AMNOR processing unit 235 performs a process of reducing the directivity of the microphone array 230 with respect to the direction of the noise source (hereinafter referred to as noise source). That is, directivity valleys 241 and 242 (FIG. 11) are formed in the direction of the noise source.

以下、図11を参照して、本実施形態の動作を説明する。   Hereinafter, the operation of the present embodiment will be described with reference to FIG.

AMNORにおいては、目的音方向が既知である事、及び、雑音のみを含んだ信号の受音が可能な事が必要(前提条件)である。   In AMNOR, it is necessary (precondition) that the target sound direction is known and that a signal containing only noise can be received.

本実施形態の場合も、撮像部170は、第1話者210及び第2話者220を含む画像を撮像する。位置特定部180は、撮像部170による撮像結果に基づいて、第1話者210及び第2話者220の位置を目的音方向として特定する。AMNOR処理部235は、目的音方向については、マイクロホンアレー230の指向性を低くせず、目的音方向以外の方向について、マイクロホンアレー230の指向性を低くする。   Also in this embodiment, the imaging unit 170 captures an image including the first speaker 210 and the second speaker 220. The position specifying unit 180 specifies the positions of the first speaker 210 and the second speaker 220 as the target sound direction based on the imaging result by the imaging unit 170. The AMNOR processing unit 235 does not decrease the directivity of the microphone array 230 for the target sound direction, and decreases the directivity of the microphone array 230 for directions other than the target sound direction.

マイクロホンアレー230は、位置特定部180により特定された第1話者210及び第2話者220の方向とは異なる方向からの音声を雑音と判定する。例えば、撮像部170の視野に写らない人物(図11の話者以外の発声者250)が存在する場合、AMNOR処理部235は、その人物(その方向の音源)については、雑音源と判定することができる。   The microphone array 230 determines that a voice from a direction different from the directions of the first speaker 210 and the second speaker 220 specified by the position specifying unit 180 is noise. For example, when there is a person who is not captured in the field of view of the imaging unit 170 (a speaker 250 other than the speaker in FIG. 11), the AMNOR processing unit 235 determines that the person (the sound source in that direction) is a noise source. be able to.

なお、AMNOR処理部235は、予め顔の画像情報が登録されている人物(例えば第1話者210及び第2話者220)のみを話者と判定し、それ以外の人物(話者以外の発声者250)については、雑音源と判定するようにしても良い。   Note that the AMNOR processing unit 235 determines only persons (for example, the first speaker 210 and the second speaker 220) for which facial image information is registered in advance as speakers, and other persons (other than the speakers). The speaker 250) may be determined as a noise source.

また、AMNOR処理部235は、着信時にマイクロホンアレー230により集音された音声から着信音を除去した音声を雑音として認識するように構成されている。これにより、着信以前からスピーカ50から音声が放音されている場合、AMNOR処理部235は、そのスピーカ50を雑音源と判定することができる。   In addition, the AMNOR processing unit 235 is configured to recognize, as noise, a sound obtained by removing the ringtone from the sound collected by the microphone array 230 at the time of the incoming call. Thereby, when the sound is emitted from the speaker 50 before the incoming call, the AMNOR processing unit 235 can determine the speaker 50 as a noise source.

これにより、AMNOR処理部235は、スピーカ50の方向、及び、話者以外の発声者250の方向に、それぞれ指向性の谷241、242が形成されるように、マイクロホンアレー230を制御する。その結果、第1話者210及び第2話者220の発声を含む音声が、送話音声として送話部150より通話相手の通話装置へ送信される。   Thereby, the AMNOR processing unit 235 controls the microphone array 230 so that directivity valleys 241 and 242 are formed in the direction of the speaker 50 and the direction of the speaker 250 other than the speaker, respectively. As a result, the sound including the utterances of the first speaker 210 and the second speaker 220 is transmitted from the transmitter 150 to the other party's communication device as the transmitted sound.

以上のような第2の実施形態によれば、ハンズフリー通話装置200は、受話部110と、受話部110が受信した受話音声を出力する超音波スピーカ120と、を有する。ハンズフリー通話装置200は、更に、音声を集音するAMNOR方式のマイクロホンアレー230と、マイクロホンアレー230により集音される音声に基づいて送話音声を生成し、該送話音声を送話する送話部150と、を有する。
AMNOR方式のマイクロホンアレー230は、雑音の方向に対するマイクロホンアレー230の指向性を低くする。その結果、話者の声を選択的に、送話部150より通話相手へ送話することができる。
また、超音波スピーカ120により受話音声を出力するため、超音波スピーカ120から(ひいてはハンズフリー通話装置100から)ある程度の距離だけ離れた位置で受話音声が復調し、受話音声が可聴音として再生される。よって、マイクロホンアレー230が受話音声の音響エコーを収音してしまうことを抑制できる。その結果、マイクロホンアレー230は、その音響エコーを雑音として判定する処理と、音響エコーの方向に対する指向性を低くする処理と、の何れも行う必要がない。つまり、AMNOR処理部235の処理が簡単になる。
また、スピーカとして可聴音を出力する通常のスピーカを用いる場合と比べて、雑音の音源数が減るため、マイクロホンアレー230が必要とするマイクロホン131の数を低減することができる。よって、限られた実装スペースにマイクロホンアレー230を容易に実装できるため、本実施形態に係るハンズフリー通話装置200は、携帯通信端末装置としても容易に実現することができる。
According to the second embodiment as described above, the hands-free call device 200 includes the receiving unit 110 and the ultrasonic speaker 120 that outputs the received voice received by the receiving unit 110. The hands-free call device 200 further generates an AMNOR-type microphone array 230 that collects voices, a transmission voice based on the voices collected by the microphone array 230, and a transmission that transmits the transmission voices. And a talk unit 150.
The AMNOR type microphone array 230 reduces the directivity of the microphone array 230 with respect to the direction of noise. As a result, the voice of the speaker can be selectively transmitted from the transmitter 150 to the other party.
In addition, since the received voice is output from the ultrasonic speaker 120, the received voice is demodulated at a certain distance from the ultrasonic speaker 120 (and hence from the hands-free call device 100), and the received voice is reproduced as an audible sound. The Therefore, it can be suppressed that the microphone array 230 picks up the acoustic echo of the received voice. As a result, the microphone array 230 need not perform either the process of determining the acoustic echo as noise or the process of reducing the directivity with respect to the direction of the acoustic echo. That is, the processing of the AMNOR processing unit 235 is simplified.
Further, since the number of noise sound sources is reduced as compared with the case of using a normal speaker that outputs an audible sound as the speaker, the number of microphones 131 required by the microphone array 230 can be reduced. Therefore, since the microphone array 230 can be easily mounted in a limited mounting space, the hands-free call device 200 according to the present embodiment can be easily realized as a mobile communication terminal device.

20 入力部
21 指向性制御部
30 超音波振動子
40 可聴領域
50 スピーカ
62 振動部材
63 振動子
70 支持部
100 ハンズフリー通話装置
110 受話部
120 超音波スピーカ
130 マイクロホンアレー
131 マイクロホン
140 BSS処理部
150 送話部
170 撮像部
180 位置特定部
190 画像判定部
200 ハンズフリー通話装置
210 第1話者(話者)
220 第2話者(話者)
230 マイクロホンアレー
235 AMNOR処理部
241 指向性の谷
242 指向性の谷
250 話者以外の発声者
a1 キャリア周波数
a2 倍波周波数
a3 3倍波周波数
20 Input unit 21 Directivity control unit 30 Ultrasonic transducer 40 Audible region 50 Speaker 62 Vibrating member 63 Vibrator 70 Support unit 100 Hands-free communication device 110 Reception unit 120 Ultrasonic speaker 130 Microphone array 131 Microphone 140 BSS processing unit 150 Talking section 170 Imaging section 180 Position specifying section 190 Image determining section 200 Hands-free call device 210 First speaker (speaker)
220 Second speaker (speaker)
230 Microphone array 235 AMNOR processing unit 241 Directional valley 242 Directional valley 250 Speaker other than speaker a1 Carrier frequency a2 Harmonic frequency a3 Third harmonic frequency

Claims (7)

受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するマイクロホンアレーと、
前記マイクロホンアレーにより集音された音声から、送話音声を抽出するBSS(Blind Source Separation)処理部と、
前記BSS処理部により抽出される送話音声を送信する送話部と、
を有することを特徴とするハンズフリー通話装置。
A receiver for receiving the received voice;
An ultrasonic speaker for outputting the received voice received by the receiver;
A microphone array that collects audio,
A BSS (Blind Source Separation) processing unit for extracting a transmitted voice from the voice collected by the microphone array;
A transmission unit for transmitting the transmission voice extracted by the BSS processing unit;
A hands-free communication device comprising:
画像を撮像する撮像部と、
前記撮像部による撮像結果に基づいて、話者の発声タイミングを判定する画像判定部と、
を有し、
前記BSS処理部は、前記画像判定部により判定された前記発声タイミングに集音された音声から、前記送話音声を抽出することを特徴とする請求項1に記載のハンズフリー通話装置。
An imaging unit that captures an image;
An image determination unit for determining a speaker's utterance timing based on a result of imaging by the imaging unit;
Have
The hands-free call device according to claim 1, wherein the BSS processing unit extracts the transmitted voice from a voice collected at the utterance timing determined by the image determination unit.
前記BSS処理部は、複数の話者による発声をそれぞれ前記送話音声の一部分ずつとして抽出し、抽出した前記複数の話者による発声を合成することにより、前記送話音声を生成することを特徴とする請求項1又は2に記載のハンズフリー通話装置。   The BSS processing unit extracts utterances by a plurality of speakers as a part of the transmitted speech, and generates the transmitted speech by synthesizing the extracted utterances by the plurality of speakers. The hands-free call device according to claim 1 or 2. 受話音声を受信する受話部と、
前記受話部が受信した受話音声を出力する超音波スピーカと、
音声を集音するAMNOR(Adaptive Microphone−array for NOise Reduction)方式のマイクロホンアレーと、
前記マイクロホンアレーにより集音される音声に基づいて送話音声を生成し、該送話音声を送話する送話部と、
を有することを特徴とするハンズフリー通話装置。
A receiver for receiving the received voice;
An ultrasonic speaker for outputting the received voice received by the receiver;
An AMNOR (Adaptive Microphone-array for NOISE Reduction) microphone array that collects sound;
A transmission unit that generates a transmission voice based on the voice collected by the microphone array, and transmits the transmission voice;
A hands-free communication device comprising:
画像を撮像する撮像部と、
前記撮像部による撮像結果に基づいて、話者の位置を特定する位置特定部と、
を有し、
前記マイクロホンアレーは、前記位置特定部により特定された前記話者の方向とは異なる方向に対する指向性を、前記話者の方向の指向性よりも低くすることを特徴とする請求項4に記載のハンズフリー通話装置。
An imaging unit that captures an image;
A position specifying unit for specifying the position of the speaker based on the imaging result of the imaging unit;
Have
The said microphone array makes the directivity with respect to the direction different from the direction of the said speaker specified by the said position specific | specification part lower than the directivity of the direction of the said speaker. Hands-free call device.
画像を撮像する撮像部と、
前記撮像部による撮像結果に基づいて、話者の位置を特定する位置特定部と、
前記位置特定部により特定された前記話者の位置で音声が再生されるように前記超音波スピーカの指向性を制御する指向性制御部と、
を有することを特徴とする請求項1乃至5の何れか一項に記載のハンズフリー通話装置。
An imaging unit that captures an image;
A position specifying unit for specifying the position of the speaker based on the imaging result of the imaging unit;
A directivity control unit that controls directivity of the ultrasonic speaker so that sound is reproduced at the position of the speaker specified by the position specifying unit;
The hands-free call device according to claim 1, wherein the hands-free call device is provided.
前記指向性制御部は、前記超音波スピーカに入力する変調信号を調節することによって、前記超音波スピーカの共振周波数を変化させることにより、前記超音波スピーカの指向性を制御することを特徴とする請求項6に記載のハンズフリー通話装置。   The directivity control unit controls the directivity of the ultrasonic speaker by changing a resonance frequency of the ultrasonic speaker by adjusting a modulation signal input to the ultrasonic speaker. The hands-free call device according to claim 6.
JP2012046229A 2012-03-02 2012-03-02 Hands-free speech apparatus Pending JP2013183315A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012046229A JP2013183315A (en) 2012-03-02 2012-03-02 Hands-free speech apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012046229A JP2013183315A (en) 2012-03-02 2012-03-02 Hands-free speech apparatus

Publications (1)

Publication Number Publication Date
JP2013183315A true JP2013183315A (en) 2013-09-12

Family

ID=49273682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012046229A Pending JP2013183315A (en) 2012-03-02 2012-03-02 Hands-free speech apparatus

Country Status (1)

Country Link
JP (1) JP2013183315A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170044393A (en) * 2015-10-15 2017-04-25 현대모비스 주식회사 Apparatus and method for controlling handsfree of vehicle
WO2017208820A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Video sound processing device, video sound processing method, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170044393A (en) * 2015-10-15 2017-04-25 현대모비스 주식회사 Apparatus and method for controlling handsfree of vehicle
KR102157811B1 (en) 2015-10-15 2020-09-18 현대모비스 주식회사 Apparatus and method for controlling handsfree of vehicle
WO2017208820A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Video sound processing device, video sound processing method, and program
US11184579B2 (en) 2016-05-30 2021-11-23 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
US11902704B2 (en) 2016-05-30 2024-02-13 Sony Corporation Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object

Similar Documents

Publication Publication Date Title
JP6041382B2 (en) Audio equipment and oscillation unit
JP5741580B2 (en) Oscillator
EP1775988A1 (en) Speaker system, mobile terminal device, and electronic device
JP5952092B2 (en) Electronics
WO2013164999A1 (en) Electronic device, control method, and control program
US7929725B2 (en) Acoustic apparatus and telephone conversation apparatus
US20140205134A1 (en) Electronic device
CN102165791A (en) Dual-mode loudspeaker
JP6535743B2 (en) Composite structure of piezoelectric receiver and ultrasonic generator
CN103283259A (en) Electronic apparatus
CN103339962A (en) Electronic device
WO2012105254A1 (en) Electronic device
JP5821241B2 (en) Speaker device and electronic device
JP2012015758A (en) Oscillator, method for manufacturing the same and electronic device
JP2013183315A (en) Hands-free speech apparatus
EP2661099B1 (en) Electroacoustic transducer
WO2013024573A1 (en) Electronic device
JP2012029099A (en) Acoustic equipment
JP6099320B2 (en) Electronic device, control method, and control program
JP2013058896A (en) Electronic device
JP5943046B2 (en) Speaker device and electronic device
JP2012029094A (en) Mobile terminal device
WO2014041587A1 (en) Speaker device and electronic equipment
JP2012029102A (en) Acoustic system and acoustic equipment
JP5671945B2 (en) Oscillator and electronic device