JP2007329702A - Sound-receiving device and voice-recognition device, and movable object mounted with them - Google Patents
Sound-receiving device and voice-recognition device, and movable object mounted with them Download PDFInfo
- Publication number
- JP2007329702A JP2007329702A JP2006159365A JP2006159365A JP2007329702A JP 2007329702 A JP2007329702 A JP 2007329702A JP 2006159365 A JP2006159365 A JP 2006159365A JP 2006159365 A JP2006159365 A JP 2006159365A JP 2007329702 A JP2007329702 A JP 2007329702A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- microphone
- robot
- sound receiving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Measurement Of Optical Distance (AREA)
- Manipulator (AREA)
Abstract
Description
本発明は、音源が発した音を受音する受音装置に関する。 The present invention relates to a sound receiving device that receives sound emitted from a sound source.
マイクで受音した音の伝播方向を検出できる受音装置が知られている。そのための一つの方法に、複数のマイクを等間隔で直線上に配置する方法が知られている。例えば図11に示すように、複数のマイク20a〜20fを間隔dで直線L上に配置する。
音源Mがマイク群から十分に離れた位置に存在していれば(図示の都合によって、音源Mがマイク群に接近した位置に図示されているが、実際には充分に離れている。逆に、図11では間隔dが実際よりも拡大して図示されているといってもよい)、音源Mが発した音は、マイク群の近傍ではほぼ平面波として伝播する。例えばマイク20cに到達する音は経路610に沿って伝播してきており、マイク20dに到達する音は経路612に沿って伝播してきている。平面波として伝播してくる音は、波面616や波面618において、同一の位相を備えている。従って、音源Mがマイク20c,20dから見て角度θの方向にある場合、ある時点で経路610に沿って伝播してマイク20cに到達した音は、その時点では経路612に沿って点620まで到達しており、その後さらにd・cosθの長さだけ伝播してから、マイク20dに到達する。従って、隣接するマイク20cと20dの間では、受音時間差Δtがd・cosθ/λで計算される値となる。ここで、λは音の伝播速度である。したがって、受音時間差Δtを検出することによって、音源Mが存在する方向を示す角度θを算出することができる。角度θは、直線Lを基準とする角度であり、直線Lは受音装置に固定されている。図11のマイク対20c,20dを利用すると、受音した音の伝播方向を受音装置を基準にして検出することができる。上記説明は、マイク20cと20dのマイク対に限られず、任意のマイク対について成立する。
A sound receiving device that can detect the propagation direction of sound received by a microphone is known. As one method for that purpose, a method of arranging a plurality of microphones on a straight line at equal intervals is known. For example, as shown in FIG. 11, a plurality of
If the sound source M exists at a position sufficiently away from the microphone group (for convenience of illustration, the sound source M is illustrated at a position close to the microphone group, but in reality, it is sufficiently far away. In FIG. 11, it may be said that the interval d is illustrated as being larger than the actual distance), and the sound emitted by the sound source M propagates as a substantially plane wave in the vicinity of the microphone group. For example, the sound reaching the
受音装置の中には、良好な指向性(強い受音感受性)を持つ方向を切換えることができるものが存在する。その一つの方法に、各マイクが受音した音信号を、良好な指向性を実現したい方向から決定される時間だけ遅延させてから重ね合わせる方法が知られている。 Some sound receiving devices can switch the direction having good directivity (strong sound receiving sensitivity). As one of the methods, a method is known in which sound signals received by the microphones are overlapped after being delayed by a time determined from a direction in which good directivity is desired.
図12に示すように、マイク20bが受音する音信号は、マイク20aが受音する音信号からd・cosθ/λ時間だけ遅延している。マイク20cが受音する音信号は、マイク20aが受音する音信号から2・d・cosθ/λ時間だけ遅延している。マイク20dが受音する音信号は、マイク20aが受音する音信号から3・d・cosθ/λ時間だけ遅延している。マイク20eが受音する音信号は、マイク20aが受音する音信号から4・d・cosθ/λ時間だけ遅延している。マイク20fが受音する音信号は、マイク20aが受音する音信号から5・d・cosθ/λ時間だけ遅延している。
As shown in FIG. 12, the sound signal received by the
そこで、マイク20aで受音した音信号については[5・d・cosθ/λ]時間だけ遅延させ、マイク20bで受音した音信号については[4・d・cosθ/λ]時間だけ遅延させ、マイク20cで受音した音信号については[3・d・cosθ/λ]時間だけ遅延させ、マイク20dで受音した音信号については[2・d・cosθ/λ]時間だけ遅延させ、マイク20eで受音した音信号については[d・cosθ/λ]時間だけ遅延させ、マイク20fで受音した音信号については遅延させなければ、それらの音信号の位相が一致する。
すなわち、図12に示す音源Mが発した音の音信号a1,b1,c1,d1,e1,f1の受音量が最大となる部分(音信号の最大振幅値[A]の部分)は、上記の遅延処理を実行すると、一致する。
上記の処理によって遅延した音信号を重ね合わせると、角度θの方向から伝播する音については、重ね合わせる音信号の位相が一致していることから、大きな強度の音信号が得られる。
Therefore, the sound signal received by the
That is, the portion (the portion of the maximum amplitude value [A] of the sound signal) where the sound receiving volume of the sound signals a1, b1, c1, d1, e1, f1 of the sound emitted by the sound source M shown in FIG. When the delay processing is executed, they match.
When the sound signals delayed by the above processing are superimposed, a sound signal having a large intensity can be obtained for the sound propagating from the direction of the angle θ because the phases of the sound signals to be superimposed are the same.
例えば図11に示すように、マイク20a〜20fの正面方向(角度θ=90度)にも音源Nが存在するものとする。この場合、図12に示すように、音源Nが発した音は、マイク20a〜20fに同時に到達する。
この場合、マイク20aで受音した音信号については[5・d・cosθ/λ]時間だけ遅延させ、マイク20bで受音した音信号については[4・d・cosθ/λ]時間だけ遅延させ、マイク20cで受音した音信号については[3・d・cosθ/λ]時間だけ遅延させ、マイク20dで受音した音信号については[2・d・cosθ/λ]時間だけ遅延させ、マイク20eで受音した音信号については[d・cosθ/λ]時間だけ遅延させ、マイク20fで受音した音信号については遅延させなければ、それらの音信号の位相がずれてしまう。
すなわち、図12に示す音源Nが発した音の音信号a2,b2,c2,d2,e2,f2の受音量が最大の部分(音信号の最大振幅値[B]の部分)は、上記の遅延処理を実行すると、ずれてしまう。
上記の処理によって遅延した音信号を重ね合わせると、重ね合わせる音信号の位相が一致していないことから、大きな強度の音信号は得られない。
すなわち、上記の遅延処理を実施してから重ね合わせると、角度θ方向から伝播する音からは大きな強度の音信号が得られ、それ以外の方向から伝播する音からは大きな強度の音信号が得られない。角度θの方向に強い指向性を有する受音装置が実現される。
For example, as shown in FIG. 11, it is assumed that the sound source N exists also in the front direction (angle θ = 90 degrees) of the
In this case, the sound signal received by the
That is, the portion where the received sound volume of the sound signals a2, b2, c2, d2, e2, f2 of the sound emitted by the sound source N shown in FIG. When the delay process is executed, it is shifted.
When the sound signals delayed by the above processing are superimposed, the sound signals with high strength cannot be obtained because the phases of the sound signals to be superimposed do not match.
That is, when the above delay processing is performed and then superimposed, a sound signal having a high intensity is obtained from the sound propagating from the angle θ direction, and a sound signal having a high intensity is obtained from the sound propagating from other directions. I can't. A sound receiving device having strong directivity in the direction of the angle θ is realized.
遅延時間を決定するために用いる角度θの値を変えれば、強い指向性を有する方向を切換えることができる。角度θを90度として遅延時間を決定すれば、90度の角度に強い指向性を持つ受音装置が得られる。この場合、90度の方向に存在する音源Nが発生する音については感度よく受音する一方、それ以外の角度に存在する音源Mが発生する音についてはほとんど受音しないこととなる。同様に、遅延時間を決定するために用いる角度θの値を音源Mが存在する角度に変えれば、音源Mが発生する音については感度よく受音する一方、それ以外の角度に存在する音源Nが発生する音についてはほとんど受音しないこととなる。 By changing the value of the angle θ used for determining the delay time, the direction having strong directivity can be switched. If the delay time is determined by setting the angle θ to 90 degrees, a sound receiving device having strong directivity at an angle of 90 degrees can be obtained. In this case, the sound generated by the sound source N existing in the direction of 90 degrees is received with high sensitivity, while the sound generated by the sound source M existing at other angles is hardly received. Similarly, if the value of the angle θ used for determining the delay time is changed to an angle where the sound source M exists, the sound generated by the sound source M is received with high sensitivity, while the sound source N existing at other angles is received. Sounds that occur are hardly received.
音源M,Nが人であり、同時に音声を発している場合、それらを同時に受音して同時に音声認識することは難しい。この場合、強い指向性を有する方向を切換えることが有意義である。人Nが存在する方向に指向性を合わせれば、人Mが発生する音声はほとんど受音されず、人Nが発した音声を認識することが可能となる。人Mが存在する方向に指向性を合わせれば、人Nが発生する音声はほとんど受音されず、人Mが発した音声を認識することが可能となる。 When the sound sources M and N are people and are simultaneously producing sound, it is difficult to receive them simultaneously and recognize them simultaneously. In this case, it is meaningful to switch the direction having strong directivity. If the directivity is matched with the direction in which the person N exists, the voice generated by the person M is hardly received, and the voice generated by the person N can be recognized. If the directivity is matched with the direction in which the person M exists, the voice generated by the person N is hardly received, and the voice generated by the person M can be recognized.
マイクで受音した音の伝播方向を検出する技術と、良好な指向性を持つ方向を切換える技術を組み合わせて用いると、音源が存在する方向を見つけ出し、その方向に指向性を向けることが可能なる。
例えば、音の伝播方向を検出する技術によって90度の方向に音源が存在することを知って指向性を90度に合わせれば、人Nが発生する音声を集中的に受音して音声認識することが可能となる。θ方向に音源が存在することを知って指向性をθに合わせれば、人Mが発生する音声を集中的に受音して音声認識することが可能となる。
Using a technique that detects the propagation direction of sound received by a microphone and a technique that switches the direction with good directivity, it is possible to find the direction in which the sound source exists and direct the directivity to that direction. .
For example, if the technology for detecting the sound propagation direction knows that a sound source exists in the direction of 90 degrees and adjusts the directivity to 90 degrees, the sound generated by the person N is received intensively and recognized. It becomes possible. Knowing that there is a sound source in the θ direction and adjusting the directivity to θ, it is possible to receive the voice generated by the person M intensively and recognize the voice.
しかしながら、この技術では、受音装置の指向性の方向が外部からはわからない。例えば車両に搭載されているナビゲーション装置に、音の伝播方向を検出する技術と、良好な指向性を持つ方向を切換える技術を組み込めば、ドライバーが発声したときにはドライバーの音声を集中的に受音して音声認識することができ、助手席が発声したときには助手席での発声を集中的に受音して音声認識することができる。しかしながら、ドライバー席と助手席で同時に発声した場合には、どちらの音声を集中的に受音して音声認識しているのかがわからない。
受音装置が向けている受音方向(強い指向性を有する方向)を周囲に存在する人にわからせる技術が必要とされている。
However, with this technique, the direction of directivity of the sound receiving device is not known from the outside. For example, if a technology for detecting the direction of sound propagation and a technology for switching the direction with good directivity are incorporated into a navigation device mounted on a vehicle, the driver's voice is received intensively when the driver speaks. When the passenger seat utters, the utterance at the passenger seat can be received intensively and recognized. However, when the driver seat and the passenger seat are uttered at the same time, it is not clear which voice is received intensively and recognized.
There is a need for a technique that allows a person existing in the vicinity to know the sound receiving direction (the direction having strong directivity) directed by the sound receiving device.
受音装置がロボット等の回転可能な物体に搭載されている場合、受音装置が向けている受音方向を、ロボットの顔の向きによって周囲に存在する人にわからせることができる。
特許文献1には、受音装置の指向性の高い方向とロボットの顔の向きを一致させることによって、受音装置の指向性の高い方向を周囲に存在する人にわからせる技術が記載されている。
When the sound receiving device is mounted on a rotatable object such as a robot, the sound receiving direction to which the sound receiving device is directed can be made known to a person existing around by the orientation of the face of the robot.
Japanese Patent Application Laid-Open No. 2004-228561 describes a technique that allows a person around to know the direction of the sound receiving device having high directivity by matching the direction of the sound receiving device having high directivity with the direction of the face of the robot. Yes.
受音装置がロボット等の可動体に搭載されている場合には、顔の向き等によって指向性の高い方向を周囲に存在する人にわからせることができるが、ナビゲーション装置等のように動かない受音装置の場合には、指向性の高い方向を周囲に存在する人にわからせることができない。 When the sound receiving device is mounted on a movable body such as a robot, a person with a high directivity can recognize the surrounding direction depending on the orientation of the face, but it does not move like a navigation device. In the case of a sound receiving device, it is impossible for a person existing in the vicinity to know a direction having high directivity.
顔の向き等によって指向性の高い方向を示す技術でも、問題はある。例えば、ロボットに音声で指示しながら配電盤に配置されているスイッチ群の操作をさせたい場合がある。この場合、ロボットは配電盤に顔を向けて作業を続ける必要があり、指向性が高い方向に顔を向けることができない。顔の方位とは別に、ロボットに搭載されている受音装置の指向性が指示者に向けられているのか、あるいはそれ以外に向けられているのかを表示する技術が必要とされている。 There is a problem even in the technique that indicates a direction having high directivity depending on the orientation of the face. For example, there is a case where it is desired to operate a switch group arranged on the switchboard while instructing the robot by voice. In this case, it is necessary for the robot to continue working with its face facing the switchboard, and the face cannot be directed in a direction with high directivity. In addition to the orientation of the face, there is a need for a technique for displaying whether the directivity of the sound receiving device mounted on the robot is directed toward the instructor or the other direction.
(請求項1に記載の発明)
本願発明の受音装置は、マイクと、マイクで受音した音の伝播方向を受音装置を基準にして検出する音源方向検出手段と、音源方向検出手段で検出した方向を受音装置の周囲から視認可能に表示する表示手段を備えている。
音源方向検出手段は、例えば閾値以上の音量の音がマイクで受音されるときに、音の伝播方向を判別する。音源方向検出手段は、受音装置に固定されている基準方向を基準にして音の伝播方向を検出する。音源方向検出手段は、受音装置を基準にして音源が存在する方向を判別する。音源方向検出手段は、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。音源が2以上存在する場合には、各々の音源の存在方向を検出する。
表示手段には、受音装置に固定されている基準方向に対する音源の存在方向が表示される。音源が2以上存在する場合には、各々の音源の存在方向を表示する。
(Invention of Claim 1)
The sound receiving device of the present invention includes a microphone, sound source direction detecting means for detecting a propagation direction of sound received by the microphone with reference to the sound receiving device, and a direction detected by the sound source direction detecting means around the sound receiving device. Display means for displaying in a visible manner.
The sound source direction detection means determines the sound propagation direction when, for example, a sound having a volume equal to or higher than a threshold is received by a microphone. The sound source direction detecting means detects a sound propagation direction with reference to a reference direction fixed to the sound receiving device. The sound source direction detecting means determines the direction in which the sound source exists with reference to the sound receiving device. The sound source direction detection means may be configured by software or hardware. When there are two or more sound sources, the direction of presence of each sound source is detected.
The display means displays the direction of the sound source relative to the reference direction fixed to the sound receiving device. When there are two or more sound sources, the direction of each sound source is displayed.
本発明の受音装置を用いれば、周囲の人が、受音装置が受音している音源の存在方向を知ることができる。ナビゲーション装置に対してドライバー席と助手席で同時に発声している場合には、両者の音声を受音しているのか、一方の音声しか受音していないのかを知ることができる。後者の場合には、どちらの音声を受音しているのかを知ることができる。
特定方位に顔を向けて作業を続けるロボットに音声で指示する場合には、ロボットが指示者に指向性を合わせているのか、それ以外の音源に指向性を合わせているのかを知ることができる。周囲に存在する雑音源に指向性を合わせているために指示者の音声が認識されていなければそのことを知ることができ、雑音を小さくするなどの対策が有効であるといったことを知ることができる。あるいは、指向性を合わせていないロボットに音声指示を続けるといったことを防止できる。
また複数の人がロボットを取り囲んで同時に発声している場合には、ロボットが誰の音声を認識しているのかが明らかとされ、混乱が避けられる。
By using the sound receiving device of the present invention, surrounding people can know the direction of the sound source that the sound receiving device is receiving. If the navigation device is uttering at the driver seat and the passenger seat at the same time, it is possible to know whether both voices are received or only one voice is received. In the latter case, it is possible to know which voice is being received.
When you give a voice to a robot that keeps its face facing a specific direction, you can know whether the robot has directionality to the instructor or other sound source. . Because the directivity is matched to the surrounding noise sources, it is possible to know if the voice of the instructor is not recognized, and know that measures such as reducing noise are effective. it can. Alternatively, it is possible to prevent a voice instruction from being continued to a robot whose directionality is not matched.
Also, when a plurality of people surround the robot and speak at the same time, it becomes clear who the robot is recognizing, and confusion can be avoided.
(請求項2に記載の発明)
表示手段が、マイクの受音量を音源別に表示するようにしてもよい。
この場合、周囲の人が、受音装置が検出している音源の存在方向と、方向別の受音量を知ることができる。
(Invention of Claim 2)
The display means may display the received sound volume of the microphone for each sound source.
In this case, the surrounding people can know the direction of the sound source detected by the sound receiving device and the sound receiving volume for each direction.
(請求項3に記載の発明)
マイクで受音した音の周波数成分に基づいて、受音した音の音源の種類を判別する音源種類判別手段が付加されており、音源種類判別手段で判別した音源の種類を表示手段で表示することが好ましい。
音源種類判別手段は、人の音声とそれ以外の音とを判別することができればよく、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。
本発明の受音装置を用いれば、周囲の人が、受音装置が認識している音源の存在方向と音源種類を知ることができる。例えば、テレビやラジオが音を発している環境でロボットに音声で指示する場合、ロボットがテレビやラジオの音を受音しているのか、肉声のみを受音しているのかを知ることができる。
(Invention of Claim 3)
Sound source type discriminating means for discriminating the type of sound source of the received sound is added based on the frequency component of the sound received by the microphone, and the type of the sound source discriminated by the sound source type discriminating means is displayed on the display means. It is preferable.
The sound source type discriminating unit only needs to be able to discriminate between human voices and other sounds, and may be configured by software or hardware.
By using the sound receiving device of the present invention, surrounding people can know the direction of the sound source and the type of sound source recognized by the sound receiving device. For example, if you give a voice to the robot in an environment where the TV or radio is emitting sound, you can know whether the robot is receiving the sound of the TV or radio or only the real voice. .
(請求項4に記載の発明)
受音装置に、複数のカメラと音源距離計算手段が付加されていてもよい。複数のカメラは、マイクが音を受音する範囲を撮像する。音源距離計算手段は、複数のカメラで撮像した画像群に基づいて、受音装置と音源の距離を計算する。音源距離計算手段は、ソフトウエアで構成されていてもハードウエアで構成されていてもよい。この場合、表示手段に、音源距離計算手段で計算した距離を併せて表示するとよい。
表示手段に受音装置と音源がマークで表示される場合、受音装置と音源の距離が、マーク間の長さによって表示されてもよい。また、受音装置と音源の距離が、「○○cm」のようにテキスト表示されてもよい。
本発明の受音装置を用いれば、周囲の人が、受音装置が認識している音源の存在方向と音源までの距離を知ることができ、受音装置の受音状況を一層把握し易い。
(Invention of Claim 4)
A plurality of cameras and sound source distance calculation means may be added to the sound receiving device. The plurality of cameras capture an area where the microphone receives sound. The sound source distance calculation means calculates the distance between the sound receiving device and the sound source based on a group of images captured by a plurality of cameras. The sound source distance calculation means may be configured by software or hardware. In this case, the distance calculated by the sound source distance calculating means may be displayed together on the display means.
When the sound receiving device and the sound source are displayed as marks on the display means, the distance between the sound receiving device and the sound source may be displayed according to the length between the marks. Further, the distance between the sound receiving device and the sound source may be displayed as text such as “OOcm”.
By using the sound receiving device of the present invention, surrounding people can know the direction of the sound source recognized by the sound receiving device and the distance to the sound source, making it easier to grasp the sound receiving status of the sound receiving device. .
(請求項5に記載の発明)
本願発明は、請求項1〜4のいずれかの受音装置を利用して音声認識装置を実現することもできる。この場合の音声認識装置は、請求項1〜4のいずれかの受音装置と、音源方向固定手段と、音声認識手段を備えている。音源方向固定手段は、音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する。
マイクの「受音方向」とは、強い指向性を持つ方向をいう。「受音方向を固定する」態様には複数の態様が存在する。指向性マイクを物理的に回転させて指向性の方向を変える場合には、マイクを物理的に固定して受音方向を固定することができる。静止している複数のマイクの出力を処理して指向性を実現する場合には、処理内容を固定することによって受音方向を固定することができる。
従来の技術では、音声を発している人が音声認識装置で認識している音源の存在方向を知ることができず、音声指示に従った結果が得られない場合に、その原因を知ることが困難であった。本装置によると、受音装置の受音方向が表示され、音声指示に従った結果が得られない場合にその理由が把握しやすくなる。
(Invention of Claim 5)
This invention can also implement | achieve a speech recognition apparatus using the any one of Claims 1-4. The voice recognition apparatus in this case includes the sound receiving apparatus according to any one of
The “sound receiving direction” of the microphone means a direction having strong directivity. There are a plurality of modes in the mode of “fixing the sound receiving direction”. When the directionality direction is changed by physically rotating the directional microphone, the sound receiving direction can be fixed by physically fixing the microphone. When the directivity is realized by processing the outputs of a plurality of stationary microphones, the sound receiving direction can be fixed by fixing the processing content.
In the prior art, when the person who is speaking cannot know the direction of the sound source recognized by the voice recognition device and cannot obtain the result according to the voice instruction, the cause can be known. It was difficult. According to this device, the sound receiving direction of the sound receiving device is displayed, and when the result according to the voice instruction cannot be obtained, the reason can be easily understood.
(請求項6に記載の発明)
表示手段が、受音方向固定手段で固定したマイクの受音方向を併せて表示するのが好ましい。
表示手段には、少なくともマイクの受音方向が固定された場合にその方向が表示されればよく、受音方向が固定されない間も受音方向が表示され続けてもよい。例えば、マイクが受音方向を時間とともに切替ながら受音している間、時間ともに変化する表示が示されてもよい。
これによって、ユーザーは、強い指向性を持つ受音方向を知ることができる。表示された受音方向が自身を向いていなければ、自身の音声が受音されないことを認識できる。マイクの受音方向に存在する雑音源を排除する等、必要な対策が講じやすい。
(Invention of Claim 6)
It is preferable that the display means also displays the sound receiving direction of the microphone fixed by the sound receiving direction fixing means.
The display means only needs to display at least the direction of sound reception of the microphone, and the direction of sound reception may continue to be displayed while the direction of sound reception is not fixed. For example, a display that changes with time may be displayed while the microphone receives sound while switching the sound receiving direction with time.
Thereby, the user can know the sound receiving direction having a strong directivity. If the displayed sound receiving direction does not face itself, it can be recognized that the user's own sound is not received. It is easy to take necessary measures such as eliminating noise sources that exist in the microphone receiving direction.
(請求項7に記載の発明)
本願発明は、可動体に搭載する場合に特に有効である。ここいう可動体は、少なくとも鉛直軸の周りに回転できるものであり、請求項1〜4のいずれかの受音装置を搭載している。可動体には表示手段が設けられており、可動体に固定されている基準方向と音源が存在する方向がなす角度を表示する。
本発明の可動体を用いれば、周囲の人が、可動体に搭載されている受音装置が認識している音源の存在方向を知ることができ、受音装置の受音状況を把握し易い。
また、可動体が鉛直軸の周りに回転しても、表示手段には、基準方向と音源が存在する方向がなす角度、すなわち可動体に対する音源の相対的な方向を表示することができる。
(Invention of Claim 7)
The present invention is particularly effective when mounted on a movable body. The movable body here can rotate at least around the vertical axis, and is mounted with the sound receiving device according to any one of
If the movable body of the present invention is used, the surrounding people can know the direction of the sound source recognized by the sound receiving device mounted on the movable body, and can easily grasp the sound reception status of the sound receiving device. .
Even if the movable body rotates around the vertical axis, the display means can display the angle formed by the reference direction and the direction in which the sound source exists, that is, the relative direction of the sound source with respect to the movable body.
(請求項8に記載の発明)
可動体を床面に対して鉛直軸の周りに回転させる回転機構と、音源方向検出手段が複数の方向を検出する場合に受音量が最大となる方向にマイクの受音方向を固定する手段と、受音方向が固定されたマイクで受音した音を音声認識する音声認識手段と、音声認識手段で認識した情報に基づいて、回転機構を制御する制御手段が付加されていることが好ましい。
ユーザーは、可動体に搭載されている受音装置が自身が位置している方向に指向性を向けているか否かを知ることができる。ユーザー以外の音源に指向性が向けられていればそれを知ることができる。ユーザーは、マイクの指向性を自身に向けておくための対策を知ることができる。
(Invention of Claim 8)
A rotating mechanism for rotating the movable body around the vertical axis with respect to the floor, and a means for fixing the sound receiving direction of the microphone in a direction in which the sound receiving volume becomes maximum when the sound source direction detecting means detects a plurality of directions. It is preferable that voice recognition means for recognizing sound received by a microphone whose sound receiving direction is fixed and control means for controlling the rotation mechanism based on information recognized by the voice recognition means are added.
The user can know whether or not the sound receiving device mounted on the movable body is directed in the direction in which the sound receiving device is located. If the directivity is directed to a sound source other than the user, it can be known. The user can know a measure for keeping the microphone directivity at the user.
(請求項9に記載の発明)
可動体が備える表示手段は、受音方向固定手段で固定したマイクの受音方向を併せて表示することが好ましい。
これによって、ユーザーは、マイクの受音方向を知ることができる。表示された受音方向が自身を向いていなければ、自身の音声が受音されないことを知ることができる。マイクの受音方向に存在する雑音源を排除する等、音声入力の障害に対処し易くなる。
(Invention of Claim 9)
The display means included in the movable body preferably displays the sound receiving direction of the microphone fixed by the sound receiving direction fixing means.
Thereby, the user can know the sound receiving direction of the microphone. If the displayed sound receiving direction does not face itself, it is possible to know that its own sound is not received. It becomes easy to deal with a failure in voice input, such as eliminating a noise source present in the sound receiving direction of the microphone.
本発明の受音装置を用いれば、周囲の人が、受音装置が受音している音源の存在方向を知ることができ、受音装置の受音状況を把握し易い。 If the sound receiving device of the present invention is used, surrounding people can know the direction of the sound source that the sound receiving device is receiving, and can easily understand the sound receiving status of the sound receiving device.
以下に説明する実施例の主要な特徴を列記しておく。
(第1形態) 音源方向検出手段は、マイクが受音方向を切り替えながら受音した音量値が極大値を示す方向を、音源が存在する方向として認識する。
(第2形態) 音源方向検出手段が認識した音源方向群の中から、受音した音量値が最大値を示す音源方向を決定する手段が付加されている。マイクは、決定した音源方向に受音方向を固定する。表示装置は、固定した受音方向を併せて表示する。
(第3形態)音源方向検出手段が検出した音源方向からマイクが受音した音声の言語内容を認識する手段が付加されており、表示手段は、言語内容認識手段が認識した言語内容を併せて表示する。
(第4形態)音源方向検出手段が検出した音源方向からマイクが受音した音声の言語内容を認識する手段が付加されており、表示手段は、言語内容認識手段が言語内容を認識することができたか否かを示す結果を併せて表示する。
(第5形態) 言語内容認識手段で認識した言語内容に対応する対話音声を生成する手段が付加されており、表示手段は、対話生成手段が生成した対話音声を併せて表示する。
(第6形態) 言語内容認識手段で認識した言語内容に対応する対話音声を生成する手段が付加されており、表示手段は、対話生成手段が対話音声を生成することができたか否かを示す結果を併せて表示する。
The main features of the embodiments described below are listed.
(First Form) The sound source direction detecting means recognizes the direction in which the volume value received by the microphone while switching the sound receiving direction shows the maximum value as the direction in which the sound source exists.
(2nd form) The means to determine the sound source direction in which the received sound volume value shows the maximum value is added from the sound source direction group recognized by the sound source direction detecting means. The microphone fixes the sound receiving direction to the determined sound source direction. The display device also displays the fixed sound receiving direction.
(Third embodiment) Means for recognizing the language content of the sound received by the microphone from the sound source direction detected by the sound source direction detecting means is added, and the display means also combines the language contents recognized by the language content recognizing means. indicate.
(Fourth Mode) Means for recognizing the language content of the sound received by the microphone from the sound source direction detected by the sound source direction detection means is added, and the display means can recognize the language content by the language content recognition means. The result indicating whether or not it has been completed is also displayed.
(5th form) The means to produce | generate the dialog sound corresponding to the language content recognized by the language content recognition means is added, and a display means displays the dialog sound produced | generated by the dialog production | generation means collectively.
(6th form) The means to generate | occur | produce the dialog sound corresponding to the language content recognized by the language content recognition means is added, and a display means shows whether the dialog generation means was able to generate | occur | produce the dialog sound The result is also displayed.
(第1実施例)
図1〜図8を参照して、音声入力装置を組み込んだ対話型ロボットの第1実施例を説明する。対話型ロボットの前面には、ロボットの周囲に位置している人が視認可能な表示器が設けられている。表示器には、ロボットが受音している音源の存在方向が表示される。表示器には、ロボットに固定されている基準方向と、音源の存在方向が示される。それを見ることによって、ロボットの周囲に位置している人は、ロボットから見た音源の存在方向を知ることができる。第1実施例では、表示器に、ロボットから見た音源の存在方向の他に、音源の種類、受音している音量レベル、音声入力装置で受音している方向(指向性を合わせている方向)が表示される。
図1は、ロボットが対話可能なエリア内に存在する音源とロボットの概要を示す。図2は、ロボットの構成を示すブロック図である。図3は、音源の存在方向を特定する過程を説明する図である。図4は、ロボットの制御手段が実行するプログラムのフローチャート図である。図5〜図8は、表示器に表示される画面の例を示す。
(First embodiment)
A first embodiment of an interactive robot incorporating a voice input device will be described with reference to FIGS. On the front side of the interactive robot, there is provided a display that can be visually recognized by people located around the robot. The direction of the sound source received by the robot is displayed on the display. The display shows the reference direction fixed to the robot and the direction in which the sound source exists. By looking at it, a person located around the robot can know the direction of the sound source as seen from the robot. In the first embodiment, in addition to the direction in which the sound source is seen from the robot, the type of sound source, the volume level at which sound is received, and the direction at which sound is received by the sound input device (directivity is matched) Direction) is displayed.
FIG. 1 shows an outline of a sound source and a robot that exist in an area where the robot can interact. FIG. 2 is a block diagram showing the configuration of the robot. FIG. 3 is a diagram for explaining the process of specifying the direction in which the sound source exists. FIG. 4 is a flowchart of a program executed by the robot control means. 5 to 8 show examples of screens displayed on the display.
図1に示すように、人型で対話型のロボット1の周囲には、人間2〜4、テレビ5、携帯電話6等の音源が存在する。ロボット1の真横を0度、その反対方向の真横を180度とすると、0度と180度を境界とするロボット1の前面が、ロボット1で対応することができる応対可能角度範囲である。ここで、人間2はロボット1に「トイレはどこですか?」と話しかけている。人間3と人間4は大声で話をしている。TV5は大音量を発している。携帯電話6は着信音を発している。
ロボット1の前面には表示器10が設けられている。表示器10の上方には、6個のマイク20a〜20fを備えたマイクアレイ20(請求項に記載の”マイク”の実施例)が設けられている。マイク20a〜20fは、ロボット1の前面において、間隔dで直線上に配置されている。ロボット1の口に相当する部分にはスピーカ30が設けられている。ロボット1には車輪状の移動手段40が設けられており、床面上で鉛直軸の周りに回転したり、床面上を移動したりすることができる。また、ロボット1はコントローラ300が内蔵されている。コントローラ300によって、ロボット1の動作が制御されている。
ロボット1は、対話者に話しかけられた言語内容を認識して応対する。対話者に「トイレはどこですか?」と聞かれたら、ロボット1はトイレの場所まで移動して案内をすることができる。
As shown in FIG. 1, sound sources such as
A
The
図2に示すように、コントローラ300は、制御手段100、音声入力インターフェース21、表示出力インターフェース11、音声出力インターフェース31、移動手段駆動部41を備えている。
制御手段100は、音声入力インターフェース21を介してマイクアレイ20に接続されており、表示出力インターフェース11を介して表示器10に接続されており、音声出力インターフェース31を介してスピーカ30に接続されており、移動手段駆動部41を介して移動手段40に接続されている。
制御手段100には、音源方向検出部101、音源種類判別部102、指向性制御部103、言語内容認識部104、対話生成処理部105が設けられている。
音声入力インターフェース21には、音源方向検出部101の入力側と、音源種類判別部102の入力側と、言語内容認識部104の入力側が接続されている。音源方向検出部101の出力側は、指向性制御部103の入力側と、表示出力インターフェース11に接続されている。音源種類判別部102の出力側は、指向性制御部103の入力側と、表示出力インターフェース11に接続されている。指向性制御部103の出力側は、表示出力インターフェース11と、言語内容認識部104の入力側に接続されている。言語内容認識部104の出力側は、対話生成処理部105の入力側と、移動手段駆動部41に接続されている。対話生成処理部105の出力側は、音声出力インターフェース31に接続されている。
As shown in FIG. 2, the
The control means 100 is connected to the
The
The
音源方向検出部101は、マイクアレイ20で得た音信号に基づいて、音源がロボット1に対してどの方向に位置しているかを示す音源方向を検出する。音源方向の検出には、図11を参照して説明した従来方法を用いることができる。任意のマイク対から受音時間差Δtを検出することによって、音源方向を検出することができる。
The sound source
音源が1個しか存在しない場合には、任意のマイク対の受音時間差Δtから音源方向を検出することができるが、複数の音源が存在する場合には、受音時間差Δtを特定することが困難となる。
そこで、図11と図12を参照して説明した指向性を利用して、音源の存在方向を検出する。指向性θを時間的に0度〜180度の間で変化させ、その間の受音量を検出し続ける。図3は、こうして得られる受音量の変化を例示している。横軸は指向性θの大きさであり、縦軸はその指向性において受音された音量レベルを示している。図3に例示するグラフの場合、ロボット1から見たときの角度が、5度、45度、90度、135度の方向に、音量の極大値x1〜x4(dB)が観測されたことを例示している。音源方向検出部101が音源であると認識可能な音量レベルの閾値がA(dB)であれば、x1,x3,x4(dB)>A(dB)であり、x2<A(dB)であるので、ロボット1から見て5度、90度、135度の方向に、何らかの音源が存在していることがロボット1によって検出される。図3の場合、45度の角度に存在する携帯電話6の音量が小さく、ロボット1は音源として認識しない。
When there is only one sound source, the direction of the sound source can be detected from the sound reception time difference Δt between any pair of microphones. However, when there are a plurality of sound sources, the sound reception time difference Δt can be specified. It becomes difficult.
Therefore, the direction of the sound source is detected using the directivity described with reference to FIGS. The directivity θ is temporally changed between 0 degrees and 180 degrees, and the received sound volume is continuously detected. FIG. 3 illustrates the change in the received sound volume thus obtained. The horizontal axis represents the magnitude of the directivity θ, and the vertical axis represents the volume level received by the directivity. In the case of the graph illustrated in FIG. 3, the maximum values x1 to x4 (dB) of the sound volume are observed in the directions of 5 degrees, 45 degrees, 90 degrees, and 135 degrees when viewed from the
音源種類判別部102は、受音した音信号の周波数成分に基づいて、音源の種類を特定する。音源の種類は、HMM(Hidden Markov Model)等を用いたパターンマッチングによって特定される。音源種類判別部102によって、音源が人間の音声であるのか、テレビの音声であるのか、あるいはCDからの音であるのかが特定される。
The sound source
指向性制御部103は、音源方向検出部101で特定した各音源の存在方向を示す情報と、音源種類判別部102が特定した各音源の種類を示す情報に基づいて、マイクアレイ20の指向性を調整する。ここでは、音源方向検出部101で特定した方向に存在する音源であって種類が人間の音声で音源の中から音量が最も大きい音源を選択し、その音源に指向性を合わせる。音源方向検出部101で、図3に例示した角度−音量レベルの特性が得られた場合には、人間3が存在する5度の方向に指向性を合わせる。
The
言語内容認識部104は、指向性を合わせた音源が発した音声の言語内容を判別する。例えば、人間3が発した音声である「さっきのテレビ番組を見た?」という言語内容を認識する。音声の言語内容を認識する方法は、一般的な技術であるので詳細な説明は省略する。
対話生成処理部105では、言語内容認識部104で認識した言語内容に対応して、スピーカ30から出力する音声(返事)の内容を示す音信号を組み立てる。例えば、「申し訳ございませんが、見ていません。」という内容の音声を出力する音信号を組み立てる。
音声出力インターフェース31は、対話生成処理部105から入力された音信号によってスピーカ30から音声を発声させる。
表示出力インターフェース11は、音源方向検出部101から入力された音源の存在方向と、音源種類判別部102から入力された音源種類と、指向性制御部103から入力された指向性を合わせている受音方向の情報を、表示器10に出力する。表示器10は、これらの情報を表示する。
移動手段駆動部41は、言語内容認識部104で認識した音声の内容に対応して、移動手段40を駆動する。言語内容認識部104で認識した音声が「トイレはどこですか?」であれば、移動手段40によってロボット1はトイレまで移動し、質問者をトイレに案内をする。
The language
The dialogue
The
The
The moving means driving
次に、図4を参照して、コントローラ300がロボット1を制御する手順を説明する。図4のフローチャートは、コントローラ300が実行するプログラムの処理内容を示す。このプログラムは、コントローラ300の制御手段100に設けられているROM等の記憶手段(特に図示していない。)に記憶されており、制御手段100に設けられているCPU等の制御装置(特に図示していない。)に適宜読み出されて実行される。
Next, a procedure in which the
ステップS10では、コントローラ300が、マイクアレイ20の指向性(受音方向)を角度範囲0度〜180度の範囲内で時間的に切替えながら(走査しながら)受音する。この際、表示器10には、図5に示すようなサーチ画面200が表示される。サーチ画面200には、ロボット1の応対可能角度範囲が表示される。応対可能角度範囲には、ロボット1の位置を示す位置表示201が表示されている。また、ロボット1の真横方向を0度の方向、反対側の真横方向を180度の方向とし、45度方向、90度方向、135度の方向を示す補助ライン202〜206が表示されている。また、良好な指向性を持つ方向を走査中であることを示すサーチ表示207が表示される。サーチ表示207は、ロボット1の位置表示201を中心に、矢印が補助ライン202から補助ライン206までの範囲を、時計回りあるいは反時計回りに往来し、この範囲に含まれる音源をサーチ中であることを示す。
In step S10, the
上記のサーチによって、音源が存在方向が検出される。音源の存在方向は、ロボット1に固定されている角度(例えば、0度あるいは180度の方向はロボット1に固定されており、ロボット1が回転しなければその方向は変わらないが、ロボット1が回転すればそれに伴って回転する)で検出される。ロボット1が回転すれば、音源の存在位置は不動であっても、音源の存在方向は回転する。図4のステップS10を実行することによって、図2に示す音源方向検出部101が実現される。
The direction in which the sound source exists is detected by the above search. The direction in which the sound source exists is an angle fixed to the robot 1 (for example, a direction of 0 degrees or 180 degrees is fixed to the
図4のステップS12では、コントローラ300が、マイクアレイ20から入力された音信号に基づいて、音源方向にある音源の種類を特定する。各音源の種類が特定されたら、表示器10には、図6に例示するように、音源の存在方向と、音源の種類と、受音した音量を表示する。図6に示す画面210では、ロボット1から見て5度の方向に、人間3が存在していると検出した結果を示す人のマーク218が表示されている。また、ロボット1から見て90度の方向に、人間2が存在していると検出した結果を示す人のマーク217が表示されている。また、ロボット1から見て135度の方向に、テレビが存在していると検出した結果を示すマーク216が表示されている。各マークは、音量に比例する大きさで表示される。図8に示した画面210では、マーク217で示される人間2が発する音量よりも、マーク218で示される人間3が発する音量の方が大きい。なお、音源の種類に対応するマークは、コントローラ300の記憶手段(特に図示していない。)に記憶されており、音源の種類が判別されたら、種類に対応するマークが記憶手段から読み出され、表示出力インターフェース11を介して表示器10に出力され、各画面に表示される。図4のステップS12を実行することによって、図2に示す音源種類判別部102が実現される。
In step S <b> 12 of FIG. 4, the
図4のステップS14では、コントローラ300が対話者を選択し、対話者である人間に受音方向(指向性)を合わせる。図7に示す画面220では、良好な指向性を持つ方向を示す指向性アンテナ221が表示されている。指向性アンテナ221が5度の方向を向いており、5度の方向に存在する人間3(併せて図1参照)に指向性を向けている状態を図示している。図8に示す画面230では、指向性アンテナ231が90度の方向に位置している人間2を向いている状態を表している。
コントローラ300は、マイク20a〜20fから出力される音信号を、向けている指向性の方向から計算される時間差だけ遅延させてから重ね合わせることによって、その方向から伝播する音を集中的に受音する。言語内容認識部は、人間に向けて指向性を合わせている状態で受音する音信号に基づいて、音声で示される言語の内容を認識する。指向性を合わせている方向以外から伝播する音についてはほとんど受音しないので、雑音の少ない音声信号から言語の内容を認識することができる。図4のステップS14を実行することによって、図2の指向性制御部103が実現される。
In step S14 of FIG. 4, the
The
次に、コントローラ300は、図4のステップS18の処理に進む。ステップS18では、音声によって示されている言語内容を認識する。この際に、ステップS14で指向性が固定された状態で受音した音声信号を利用するために、言語内容を認識する音源方向以外の方向に存在する音源から伝播する雑音によって、言語内容の認識が妨害される可能性が低く抑えられる。ステップS18を実行することによって、図2の言語内容認識部104が実現される。
Next, the
次に、コントローラ300は、図4のステップS20の処理に進む。ステップS20では、コントローラ300が、ステップS18で認識した言語内容に対応して、スピーカ30から出力する言語内容を決定し、決定した音声を発声するための情報を音声出力インターフェース31に出力する。また、コントローラ300は、ステップS18で認識した言語内容に対応して、移動手段駆動部41を制御する。図4のステップS20を実行することによって、図2の対話生成処理部105が実現される。
Next, the
次に、コントローラ300は、図4のステップS22の処理に進む。ステップS22では、コントローラ300が、ロボット1の電源がオフになっているか否かを判別する。電源がオフになっていれば(ステップS22のYes)、処理を終了する。電源がオフになっていなければ(ステップS22のNo)、ステップS10の処理に戻ってそれ以降の処理を繰り返す。
Next, the
以上では、人間3と人間4(図1参照)が話をしている声が大きく、ロボット1が5度の方向に位置している人間3に指向性を合わせている場合について説明した。この場合、人間3は、ロボット1と対話しているわけではないが、人間4がロボット1の後ろ側に存在するので、ロボット1が自身に話しかけられていると認識し、人間3の存在する方向に指向性を合わせている。そこで、人間3が「さっきのテレビ番組を見た?」と人間4に向かって発話したことに反応して、「申し訳ございませんが、見ていません。」という内容の音声を出力している。
ところが、ロボット1との対話を希望しているのは、実際は、人間2であって、人間2はロボット1に「トイレはどこですか?」と聞いているものとする。しかしながら、ロボット1は、「申し訳ございませんが、見ていません。」と返事をしているので、対話が成立していない。そこで、人間2が、ロボット1の前面の表示器10を見ると、図7に示す画面220が表示されており、人間3が大声を発しているので、ロボット1が人間3の方向に指向性を合わせていることが分かる。ロボット1が自分の発声内容に対応しない返事をしたとしても、その原因がわかることから不快感を感じることが少ない。ロボット1が故障しているわけでないことを認識することができる。ロボット1に自分の発話を認識してもらうために、人間3に小さい声で話をしてもらう等の対策を講じることができる。
In the above description, a case has been described in which the
However, it is assumed that the person who desires the dialogue with the
前記した一連の処理は繰り返し実行される。図4のステップS10、S12を繰り返すと、コントローラ300がロボット1の応対可能角度範囲0度〜180度を再度走査し、音源の存在方向、音源の種類、受音した音量を再び検出する。この結果、表示器10の表示画面が、例えば図8に示すように変化する。画面230から、人間3が発する音量が小さくなっており、指向性アンテナ231が人間2の方向に向いていることから、ロボット1が人間2の存在方向にその指向性を合わせていることが分かる。
音量が最大の方向に指向性を固定する場合、過去の所定期間内の平均的音量が最大の音源方向に指向性を固定することが好ましい。平均的音量によって指向性を固定すると、一人の発声者に指向性を合わせ続けることが可能となる。
The series of processes described above are repeatedly executed. When steps S10 and S12 in FIG. 4 are repeated, the
When the directivity is fixed in the direction in which the sound volume is maximum, it is preferable to fix the directivity in the sound source direction in which the average sound volume in the past predetermined period is maximum. If the directivity is fixed by the average sound volume, it becomes possible to keep the directivity matched to one speaker.
本実施例のロボット1によれば、人間2が、表示器10の表示内容から、ロボット1が認識している音源の存在方向、ロボット1が認識している音源の種類、ロボット1が受音している音量を把握することができる。人間2は、マイクの受音方向(指向性)が自分以外の方向に向けられたこと、ならびにそれがいずれの音源の影響によるものなのかを明確に知ることができる。また、現時点ではマイクの受音方向が自分の方向に向けられていても、今後、いずれの音源が雑音源となって自己の音声入力を阻む可能性があるのかを予測することができる。例えば、別の人間がロボット1の応対可能角度範囲の中に存在し、今は音声の音量が小さくてマイクの受音方向が向いていないものの、ロボット1は音源の方向として認識しており、その音量が大きくなるとロボット1がマイクの受音方向を切換えるために、人間2の音声入力が拒まれることになりそうであるといったことを知ることができる。したがって、人間2は、ロボット1のマイクの受音方向を確実に自分に向けておくために、どの音源を排除すればよいのかを明確に知ることができる。
According to the
(第2実施例)
本実施例の表示器では、音源の存在方向、音源の種類、受音した音量に加え、ロボットと音源の距離が表示される。図9、図10を参照して説明する。
図9は、ロボット1aの構成を示すブロック図である。図10は、表示器に表示される画面の例を示す。
(Second embodiment)
In the display of this embodiment, the distance between the robot and the sound source is displayed in addition to the direction of the sound source, the type of the sound source, and the received sound volume. This will be described with reference to FIGS.
FIG. 9 is a block diagram showing the configuration of the robot 1a. FIG. 10 shows an example of a screen displayed on the display.
図9に示すように、ロボット1aには、図2に示すロボット1の構成要素に加え、ステレオカメラ50が設けられている。また、ロボット1aに内蔵されているコントローラ300aには、ロボット1のコントローラ300の構成要素に加え、画像入力インターフェース51が設けられている。また、コントローラ300aの制御手段100aには、ロボット1の制御手段100の構成要素に加え、音源距離計算部106が設けられている。
ステレオカメラ50は、コントローラ300aの画像入力インターフェース51を介して、制御手段100aの音源距離計算部106の入力側に接続されている。音源距離認識部106の出力側は、指向性制御部103の入力側と表示出力インターフェース11に接続されている。その他のコントローラ300aの構成要素及びそれらの接続は、コントローラ300と同様であるので、説明を省略する。
As shown in FIG. 9, the robot 1a is provided with a
The
ステレオカメラ50は2個のカメラで構成されており、それぞれがロボット1aの右目と左目に配設されている。2個のカメラで撮像される画像は、対象物を微小な角度差をもって撮像したものである。撮像された画像は其々画像信号に変換されて画像入力インターフェース51に出力される。画像入力インターフェース51に接続された音源距離計算部106では、入力された画像信号に基づいて、ロボット1aと音源との距離を算出する。例えば、特定のポイントに着目して一方のカメラと他方のカメラで撮像した場合の”ずれ”を算出する。そして、その”ずれ”の原因となる各カメラから対象物を見た際の角度の違いと、2個のカメラの間隔(固定)とから、ロボット1aと音源との距離を算出する。このようにして距離を算出する方法は公用の技術であるので、詳しい説明は省略する。
The
指向性制御部103aでは、音源方向検出部101で特定された各音源の存在方向と、音源種類判別部102で特定された各音源の種類を示す情報と、受音した音量を示す情報と、音源距離計算部106で認識されたロボットと各音源の距離を示す情報に基づいて、指向性を合わせる方向(受音方向)を特定する。ここでは、音源方向検出部101で認識した音源の存在方向の中から、種類が人間の音声である音源を選択し、なおかつロボット1aからの距離が最も近い音源を選択する。これによって、人間2〜4の中からロボット1aに話しかけている人間2を対話者として特定する。そして、その人間2の方向に指向性を合わせる。なお、距離が同じ場合には、受音した音量の大きい方の音源を選択し、選択した音源の方向に指向性を合わせる。
In the
表示出力インターフェース11には、音源の存在方向、音源の種類、受音した音量、ロボットと音源の距離、受音装置の指向性が向いている方向に関する情報が入力されているので、それらの情報を表示器10に表示する。例えば、図10に例示する画面240を表示する。画面240は、各音源に存在する人間が、ロボットと音源間の距離の大小を認識できるように表示している。図12に示す一番外側の半円241は、ロボットからの距離が1.5mであることを表し、半円242は、ロボットからの距離が1.0mであることを表し、半円243は、ロボットからの距離が0.5mであることを表す。
画面240には、ロボット1から5度の方向であって距離が1.5m(d1=1.5)の位置に人間3(図1参照)の存在を示す人のマークが表示されている。また、ロボット1から90度の方向であって距離が1m(d2=1)の位置に人間2の存在を示す人のマークが表示されている。また、ロボット1から135度の方向であって1.5m(d3=1.5)の位置にテレビの存在を示すマークが表示されている。そして、音源の種類が人間であり、かつロボット1aからの距離が最も近い人間2の方向に指向性が合わせられているので、指向性アンテナが人間2に向いて表示されている。
The
On the
本実施例のロボット1aによれば、表示器10に、ロボットと各音源の距離を表示することができるので、表示器を見た人が音源の位置を把握し易い。
According to the robot 1a of the present embodiment, since the distance between the robot and each sound source can be displayed on the
ロボット1aは、カメラ50で撮像した画像に基づいて、人間の顔の特徴を抽出し、人を区別して対応するように構成してもよい。この場合、カメラ50は、画像入力インターフェース51を介して、音源種類判別部102の入力側にも接続される。また、音源種類判別部102の出力側は対話生成部105の入力側にも接続される。そして、制御手段100aの記憶手段(特に図示していない。)には、顔の特徴に対応する人間の個人情報データベースが記憶されている。そして、音源種類判別部102で、撮像した画像の顔の特徴を抽出し、抽出した特徴に対応して個人情報データベースに記憶されている個人情報を読み出す。対話生成部105では、読み出された個人情報に基づいて適切な対話を生成する。例えば、人間がロボット1aに「おはよう」と話しかけると、ロボットは誰であるかを認識して、「○○さん、おはようございます」と返答をする。
これによれば、ロボット1aは、同じ問いかけがあった場合でも、発声者によって相違する細やかな対応をすることができる。
The robot 1a may be configured to extract features of a human face based on an image captured by the
According to this, even when the robot 1a has the same question, the robot 1a can take a fine response that differs depending on the speaker.
第2実施例では、音声入力インターフェース21から出力される音信号を音源方向検出部101で処理することによって音源の存在方向を認識する場合を説明したが、画像入力インターフェース51から出力される画像信号に基づいて音源の存在方向を認識してもよい。この場合、画像入力インターフェース51と音源方向検出部101の入力側が接続される。音源方向検出部101では、画像によって音源となる物体の存在方向を特定する。
In the second embodiment, the case where the sound source output direction is recognized by processing the sound signal output from the
第1、第2実施例では、音声入力インターフェース21から出力される音信号を音源種類判別部102で処理することによって音源の種類を判別する場合を説明したが、画像入力インターフェース51から出力される画像信号から音源の種類を判別してもよい。この場合、画像入力インターフェース51と音源種類判別部101の入力側が接続される。そして、音源種類判別部102では、画像から音源となる物体の種類を特定する。
In the first and second embodiments, the case where the sound source type is determined by processing the sound signal output from the
第2実施例では、ステレオカメラ50から入力される画像信号を音源距離計算部106で処理することによって音源までの距離を計算する場合を説明したが、マイク20で受音する音信号から計算しもよい。この場合、音源距離計算部106の入力側は音声入力インターフェース21に接続される。また、カメラ50と画像入力インターフェース51は必要ではない。
In the second embodiment, the case where the distance to the sound source is calculated by processing the image signal input from the
第1、第2実施例では、本発明の音声入力装置を対話型のロボットに適用した場合について説明したが、本発明は他の機器に適用してもよい。例えば、カーナビゲーションシステム(以降、カーナビと省略する。)に適用してもよい。カーナビは、車内の限られた空間の中の音源の音声を認識する。複数の人が乗車している場合には、雑音源の音声に影響され易い。このため、カーナビは言語内容の誤認識を起こして誤作動などを引き起こし易い。本発明を適用すれば、カーナビが認識している音源方向を表示器に表示することができ、対話者がこれを把握することができる。これによって、対話者がカーナビに向けて発話したにもかかわらず適切に音声入力されなかった場合(不適切な応答があった場合等)に、適切に入力されなかった原因となっている雑音源を把握して対処することができる。例えば、表示器に、音源位置が後部座席に表示されており、後部座席に座っている人同士が大声で話し合っていた場合、雑音源となっている後部座席の人に、話し声を小さくしてもらうように対処することができる。 In the first and second embodiments, the case where the voice input device of the present invention is applied to an interactive robot has been described. However, the present invention may be applied to other devices. For example, the present invention may be applied to a car navigation system (hereinafter abbreviated as “car navigation”). Car navigation recognizes the sound of a sound source in a limited space in the car. When a plurality of people are on board, it is easily affected by the sound of the noise source. For this reason, the car navigation system easily causes erroneous recognition of the language content and malfunction. If the present invention is applied, the sound source direction recognized by the car navigation system can be displayed on the display device, and the dialog person can grasp this. As a result, when a conversation person speaks to the car navigation system and the voice is not input properly (for example, when there is an inappropriate response), the noise source that is not input properly Can be understood and dealt with. For example, if the sound source position is displayed on the rear seat on the display and people sitting in the rear seat are talking loudly, the voice of the rear seat that is the source of noise is reduced. Can be dealt with.
第1、第2実施例の表示器に、言語内容認識部104で、人間2が発した音声の認識結果(例えば、「トイレはどこですか?」)をテキスト表示するように構成してもよい。これによれば、対話者は実際に認識された音声を目視によって確認することができるので、対話者の安心度が向上する。
また、言語内容認識部104で、人間2が発した音声の内容が認識できたか否かを示す結果(認識OK、認識NG等)をテキスト表示するように構成してもよい。これによれば、対話者は実際に音声が認識されたか否かを目視によって確認することができるので、対話者の安心度が向上する。
また、対話生成処理部105で、認識した音声の内容に対応してスピーカ30から出力する音声(返事)の内容を決定できたか否かを示す結果(対話生成OK、対話生成NG等)をテキスト表示するように構成してもよい。これによれば、対話者は返事が生成されたか否かを目視によって確認することができるので、対話者の安心度が向上する。
第1実施例と第2実施例の表示器に、対話生成処理部105で決定したスピーカ30から出力する音声(例えば、「トイレをご案内します。」)をテキスト表示するように構成してもよい。これによれば、対話者は返事を目視によって確認することができるので、対話者の安心度が向上する。
The display unit of the first and second embodiments may be configured such that the language
In addition, the language
In addition, the dialog
The display of the first embodiment and the second embodiment is configured to display the voice (for example, “I will guide you to the toilet”) output from the
また、第1、第2実施例では、マイクの受音方向は、静止している複数個のマイクの出力を処理することによって切り替える場合について説明したが、マイクを物理的に回転させることによってマイクの受音方向を切り替えるマイクを用いてもよい。
なお、音源方向検出部101、音源種類判別部102、指向性制御部103、言語内容認識部104、対話生成処理部105、及び音源距離計算部106は、ハードウエアで構成されていてもよいし、ソフトウエアで構成されていてもよい。ソフトウエアで構成される場合には、各部101〜106は、プログラムの各機能(音源方向検出機能、音源種類判別機能、指向性制御機能、言語内容認識処理機能、対話生成処理機能、音源距離計算機能)を実行する各ステップに相当する。
In the first and second embodiments, the case where the sound receiving direction of the microphone is switched by processing the outputs of a plurality of stationary microphones has been described. However, the microphone is rotated by physically rotating the microphone. A microphone that switches the sound receiving direction may be used.
The sound source
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
Specific examples of the present invention have been described in detail above, but these are merely examples and do not limit the scope of the claims. The technology described in the claims includes various modifications and changes of the specific examples illustrated above.
In addition, the technical elements described in the present specification or the drawings exhibit technical usefulness alone or in various combinations, and are not limited to the combinations described in the claims at the time of filing. In addition, the technology illustrated in the present specification or the drawings achieves a plurality of objects at the same time, and has technical utility by achieving one of the objects.
1,1a ロボット
2,3,4 人間
5 テレビ
6 携帯電話
10 表示器
20 マイク
30 スピーカ
40 移動手段
50 カメラ
100,100a 制御手段
300,300a コントローラ
DESCRIPTION OF
Claims (9)
マイクと、
マイクで受音した音の伝播方向を受音装置を基準にして検出する音源方向検出手段と、
音源方向検出手段で検出した方向を、受音装置の周囲から視認可能に表示する表示手段を備えていることを特徴とする受音装置。 A sound receiving device,
With a microphone,
Sound source direction detecting means for detecting the propagation direction of the sound received by the microphone with reference to the sound receiving device;
A sound receiving device comprising: display means for displaying the direction detected by the sound source direction detecting means so as to be visible from the periphery of the sound receiving device.
表示手段が、音源種類判別手段で判別した音源の種類を併せて表示することを特徴とする請求項1又は2の受音装置。 A sound source type discriminating means for discriminating the type of the sound source of the received sound based on the frequency component of the sound received by the microphone is added,
The sound receiving device according to claim 1 or 2, wherein the display means also displays the type of the sound source determined by the sound source type determining means.
その複数のカメラで撮像した画像群に基づいて、受音装置と音源の距離を計算する音源距離計算手段が付加されており、
表示手段が、音源距離計算手段で計算した距離を併せて表示することを特徴とする請求項1〜3のいずれかの受音装置。 A plurality of cameras that capture the range in which the microphone receives sound;
Sound source distance calculation means for calculating the distance between the sound receiving device and the sound source is added based on the image group captured by the plurality of cameras,
The sound receiving apparatus according to claim 1, wherein the display means displays the distance calculated by the sound source distance calculating means together.
音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する手段と、
受音方向が固定されたマイクで受音した音を音声認識する音声認識手段を有することを特徴とする音声認識装置。 A sound receiving device according to any one of claims 1 to 4,
Means for fixing the sound receiving direction of the microphone in the direction in which the sound receiving volume is maximized when the sound source direction detecting means detects a plurality of directions;
A speech recognition apparatus comprising speech recognition means for recognizing a sound received by a microphone having a fixed sound receiving direction.
請求項1〜4のいずれかの受音装置を搭載しており、
表示手段が、可動体に固定されている基準方向と音源が存在する方向がなす角度を表示することを特徴とする可動体。 It is a movable body that can rotate at least around the vertical axis,
The sound receiving device according to claim 1 is mounted,
A movable body, wherein the display means displays an angle formed by a reference direction fixed to the movable body and a direction in which the sound source exists.
音源方向検出手段が複数の方向を検出する場合に、受音量が最大となる方向にマイクの受音方向を固定する手段と、
受音方向が固定されたマイクで受音した音を音声認識する音声認識手段と、
音声認識手段で認識した情報に基づいて、回転機構を制御する制御手段が付加されていることを特徴とする請求項7の可動体。 A rotation mechanism that rotates a movable body around a vertical axis with respect to the floor surface;
Means for fixing the sound receiving direction of the microphone in the direction in which the sound receiving volume is maximized when the sound source direction detecting means detects a plurality of directions;
Speech recognition means for recognizing sound received by a microphone having a fixed sound receiving direction;
8. The movable body according to claim 7, further comprising control means for controlling the rotation mechanism based on information recognized by the voice recognition means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006159365A JP2007329702A (en) | 2006-06-08 | 2006-06-08 | Sound-receiving device and voice-recognition device, and movable object mounted with them |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006159365A JP2007329702A (en) | 2006-06-08 | 2006-06-08 | Sound-receiving device and voice-recognition device, and movable object mounted with them |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007329702A true JP2007329702A (en) | 2007-12-20 |
Family
ID=38929874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006159365A Pending JP2007329702A (en) | 2006-06-08 | 2006-06-08 | Sound-receiving device and voice-recognition device, and movable object mounted with them |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007329702A (en) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008197650A (en) * | 2007-02-14 | 2008-08-28 | Honda Motor Co Ltd | Sound data recording and reproducing device and sound data recording and reproducing method |
JP2010010857A (en) * | 2008-06-25 | 2010-01-14 | Oki Electric Ind Co Ltd | Voice input robot, remote conference support system, and remote conference support method |
JP2010236939A (en) * | 2009-03-30 | 2010-10-21 | Chubu Electric Power Co Inc | Method and apparatus for estimating sound source |
JP2011165056A (en) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | Information processor and program |
JP2013083751A (en) * | 2011-10-07 | 2013-05-09 | Denso Corp | Device for vehicle |
JP2013240000A (en) * | 2012-05-17 | 2013-11-28 | Kyocera Corp | Electronic apparatus, recording control program, and recording control method |
JP2014086759A (en) * | 2012-10-19 | 2014-05-12 | Jvc Kenwood Corp | Voice information display device, voice information display method, and program |
JP2015211331A (en) * | 2014-04-25 | 2015-11-24 | Smk株式会社 | Remote control system and remote controller |
WO2016088410A1 (en) * | 2014-12-02 | 2016-06-09 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2017126895A (en) * | 2016-01-14 | 2017-07-20 | トヨタ自動車株式会社 | robot |
JPWO2016132729A1 (en) * | 2015-02-17 | 2017-11-30 | 日本電気株式会社 | Robot control apparatus, robot, robot control method and program |
KR20180049471A (en) * | 2016-11-02 | 2018-05-11 | 엘지전자 주식회사 | Air Purifier and method for controlling the same |
JP2018156050A (en) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | Signal processor, signal processing method, and voice association presentation device |
JP2019009770A (en) * | 2017-06-26 | 2019-01-17 | フェアリーデバイセズ株式会社 | Sound input/output device |
JP2019123055A (en) * | 2018-01-18 | 2019-07-25 | 株式会社ユピテル | apparatus |
JP2019215393A (en) * | 2018-06-11 | 2019-12-19 | シャープ株式会社 | Image display device and television receiver |
CN111033611A (en) * | 2017-03-23 | 2020-04-17 | 乔伊森安全系统收购有限责任公司 | System and method for associating mouth images with input instructions |
JP2020522171A (en) * | 2017-07-12 | 2020-07-27 | グーグル エルエルシー | Ambisonics sound field navigation using directional decomposition and path-distance estimation |
WO2020170489A1 (en) * | 2019-02-19 | 2020-08-27 | パナソニックIpマネジメント株式会社 | Unmanned aerial vehicle, information processing method, and program |
JP2021520141A (en) * | 2018-04-13 | 2021-08-12 | ボーズ・コーポレーションBose Corporation | Intelligent beam steering in a microphone array |
-
2006
- 2006-06-08 JP JP2006159365A patent/JP2007329702A/en active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008197650A (en) * | 2007-02-14 | 2008-08-28 | Honda Motor Co Ltd | Sound data recording and reproducing device and sound data recording and reproducing method |
JP2010010857A (en) * | 2008-06-25 | 2010-01-14 | Oki Electric Ind Co Ltd | Voice input robot, remote conference support system, and remote conference support method |
JP2010236939A (en) * | 2009-03-30 | 2010-10-21 | Chubu Electric Power Co Inc | Method and apparatus for estimating sound source |
JP2011165056A (en) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | Information processor and program |
JP2013083751A (en) * | 2011-10-07 | 2013-05-09 | Denso Corp | Device for vehicle |
US8885847B2 (en) | 2011-10-07 | 2014-11-11 | Denso Corporation | Vehicular apparatus |
JP2013240000A (en) * | 2012-05-17 | 2013-11-28 | Kyocera Corp | Electronic apparatus, recording control program, and recording control method |
JP2014086759A (en) * | 2012-10-19 | 2014-05-12 | Jvc Kenwood Corp | Voice information display device, voice information display method, and program |
JP2015211331A (en) * | 2014-04-25 | 2015-11-24 | Smk株式会社 | Remote control system and remote controller |
WO2016088410A1 (en) * | 2014-12-02 | 2016-06-09 | ソニー株式会社 | Information processing device, information processing method, and program |
JPWO2016088410A1 (en) * | 2014-12-02 | 2017-09-14 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
US10642575B2 (en) | 2014-12-02 | 2020-05-05 | Sony Corporation | Information processing device and method of information processing for notification of user speech received at speech recognizable volume levels |
JPWO2016132729A1 (en) * | 2015-02-17 | 2017-11-30 | 日本電気株式会社 | Robot control apparatus, robot, robot control method and program |
JP2017126895A (en) * | 2016-01-14 | 2017-07-20 | トヨタ自動車株式会社 | robot |
KR20180049471A (en) * | 2016-11-02 | 2018-05-11 | 엘지전자 주식회사 | Air Purifier and method for controlling the same |
KR102550358B1 (en) * | 2016-11-02 | 2023-07-03 | 엘지전자 주식회사 | Artificial intelligence Air Purifier and method for controlling the same |
JP2018156050A (en) * | 2017-03-21 | 2018-10-04 | 株式会社東芝 | Signal processor, signal processing method, and voice association presentation device |
CN111033611A (en) * | 2017-03-23 | 2020-04-17 | 乔伊森安全系统收购有限责任公司 | System and method for associating mouth images with input instructions |
JP2020518844A (en) * | 2017-03-23 | 2020-06-25 | ジョイソン セイフティ システムズ アクイジション エルエルシー | System and method for correlating mouth images with input commands |
JP7337699B2 (en) | 2017-03-23 | 2023-09-04 | ジョイソン セイフティ システムズ アクイジション エルエルシー | Systems and methods for correlating mouth images with input commands |
JP2019197550A (en) * | 2017-06-26 | 2019-11-14 | フェアリーデバイセズ株式会社 | Sound input/output device |
JP2019009770A (en) * | 2017-06-26 | 2019-01-17 | フェアリーデバイセズ株式会社 | Sound input/output device |
JP2020522171A (en) * | 2017-07-12 | 2020-07-27 | グーグル エルエルシー | Ambisonics sound field navigation using directional decomposition and path-distance estimation |
JP2019123055A (en) * | 2018-01-18 | 2019-07-25 | 株式会社ユピテル | apparatus |
JP2021520141A (en) * | 2018-04-13 | 2021-08-12 | ボーズ・コーポレーションBose Corporation | Intelligent beam steering in a microphone array |
JP7119117B2 (en) | 2018-04-13 | 2022-08-16 | ボーズ・コーポレーション | Intelligent beam steering in microphone arrays |
JP2019215393A (en) * | 2018-06-11 | 2019-12-19 | シャープ株式会社 | Image display device and television receiver |
JP7041589B2 (en) | 2018-06-11 | 2022-03-24 | シャープ株式会社 | Image display device and television receiver |
WO2020170489A1 (en) * | 2019-02-19 | 2020-08-27 | パナソニックIpマネジメント株式会社 | Unmanned aerial vehicle, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007329702A (en) | Sound-receiving device and voice-recognition device, and movable object mounted with them | |
US20230317094A1 (en) | Personalized, real-time audio processing | |
US10529360B2 (en) | Speech enhancement method and apparatus for same | |
US11348581B2 (en) | Multi-modal user interface | |
US8204248B2 (en) | Acoustic localization of a speaker | |
EP2817801B1 (en) | User dedicated automatic speech recognition | |
US9076450B1 (en) | Directed audio for speech recognition | |
US20080253589A1 (en) | Ultrasound Imaging System with Voice Activated Controls Using Remotely Positioned Microphone | |
US20150346845A1 (en) | Hands free device with directional interface | |
KR101491354B1 (en) | Apparatus and Method for Recognize of Voice | |
JPH01195499A (en) | Sound input device | |
KR20030077797A (en) | Orthogonal circular microphone array system and method for detecting 3 dimensional direction of sound source using thereof | |
JP2007221300A (en) | Robot and control method of robot | |
JP2009222969A (en) | Speech recognition robot and control method for speech recognition robot | |
RU2004136294A (en) | DIALOGUE CONTROL FOR ELECTRICAL DEVICE | |
TW200809768A (en) | Method of driving a speech recognition system | |
JP4410378B2 (en) | Speech recognition method and apparatus | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JP2017204231A (en) | Information processor, information processing method, and information processing program | |
Nakadai et al. | Towards new human-humanoid communication: listening during speaking by using ultrasonic directional speaker | |
JP4138680B2 (en) | Acoustic signal processing apparatus, acoustic signal processing method, and adjustment method | |
US11157738B2 (en) | Audio-visual perception system and apparatus and robot system | |
Otsuka et al. | Voice-awareness control for a humanoid robot consistent with its body posture and movements | |
JP2022189035A (en) | Control device, control method, and control program | |
KR20230006339A (en) | Apparatus and method for processing commands by recognizing driver's voice and lips |