JP2012029209A - Audio processing system - Google Patents
Audio processing system Download PDFInfo
- Publication number
- JP2012029209A JP2012029209A JP2010168203A JP2010168203A JP2012029209A JP 2012029209 A JP2012029209 A JP 2012029209A JP 2010168203 A JP2010168203 A JP 2010168203A JP 2010168203 A JP2010168203 A JP 2010168203A JP 2012029209 A JP2012029209 A JP 2012029209A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- position information
- unit
- processing system
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音源情報の処理技術に関し、特に、映像処理技術を活用した音声などの処理に有効な技術に関する。 The present invention relates to a processing technique for sound source information, and more particularly, to a technique effective for processing audio or the like using a video processing technique.
複数のマイクを用いてビームフォーミングを行い、特定の範囲の音を強調し処理するシステムが存在する。この種の音声処理システムとしては、たとえば、ある角度に定位している音源のみを抽出したり調整したりするもの(たとえば、特許文献1参照)や、音源の方向を記憶し、推定し、その推定に基づいて処理を行うもの(たとえば、特許文献2参照)などが知られている。 There are systems that perform beamforming using a plurality of microphones to emphasize and process a specific range of sounds. As this type of speech processing system, for example, only the sound source localized at a certain angle is extracted or adjusted (for example, refer to Patent Document 1), the direction of the sound source is stored and estimated, A device that performs processing based on estimation (see, for example, Patent Document 2) is known.
また、映像として注目している部分の音源を強調する装置として、視線位置を検出し当該視線位置の被写体にピントを合わせる視線位置AF(Auto Focus)機能を持つビデオカメラにおいて、視線位置の方向に収音手段の指向性を合わせる機能を有するものが知られている(たとえば、特許文献3参照)。 In addition, as a device that emphasizes the sound source of the part of interest as an image, in a video camera having a line-of-sight position AF (Auto Focus) function that detects the line-of-sight position and focuses on the subject at the line-of-sight position, One having a function of matching the directivity of the sound collecting means is known (for example, see Patent Document 3).
ところが、上記のような音声処理技術では、次のような問題点があることが本発明者により見い出された。 However, the present inventors have found that the above-described voice processing technology has the following problems.
上記した技術では、注目が必要な音源の位置を正確に追従し続け、選択的に音声処理を行うには課題がある。たとえば、特許文献3に示された技術では、常に注目すべき映像を人間が注視し続ける必要があり、ビデオカメラの画角から外れた場合には指向性を合わせることが困難になってしまうという問題がある。
In the above-described technique, there is a problem in selectively following the position of a sound source that needs attention and selectively performing sound processing. For example, in the technique disclosed in
また、特許文献2に示された技術では、推定が含まれるために正確な音源位置の追従が困難であり、特に対象物の無音の状態が長く続いた場合には、追従が極めて困難となってしまう。
Further, in the technique disclosed in
さらに、特許文献1に示す技術の場合には、選択的に音声の処理を行う上で有効な技術ではあるが、音源位置の追従を行うことができないという問題がある。 Furthermore, in the case of the technique disclosed in Patent Document 1, although it is an effective technique for selectively performing speech processing, there is a problem that it is impossible to follow the sound source position.
本発明の目的は、注目が必要な音源の位置変化に自動的に追従し、注目した音源に対し、選択的に必要な音声処理を継続することのできる技術を提供することにある。 An object of the present invention is to provide a technique capable of automatically following a change in the position of a sound source that needs attention and selectively continuing necessary sound processing for the sound source of interest.
本発明の前記ならびにそのほかの目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。 Of the inventions disclosed in the present application, the outline of typical ones will be briefly described as follows.
本発明は、対象物の音源から音を取得する音源取得部と、利用者の視線を監視して対象物を検出し、前記対象物の方向、および距離を検出する視線監視検出部と、周囲を監視するカメラと、前記カメラで撮影された映像から対象物を検出し、画像位置の変化の連続性から前記対象物の移動を検出し、移動情報として出力する移動検出部と、前記移動検出部、および前記視線監視検出部が検出したそれぞれの検出結果から、前記対象物を追跡して位置情報を検出する位置情報検出部と、前記位置情報検出部が検出した位置情報に基づいて、前記位置情報に対応する位置の音が増強されるように前記音源取得部の指向性を調整して音信号を出力する指向性音源調整部と、前記指向性音源調整部から出力された音信号を出力する音出力部とを備えたものである。 The present invention includes a sound source acquisition unit that acquires sound from a sound source of an object, a line-of-sight monitoring detection unit that detects the object by monitoring the user's line of sight, and detects the direction and distance of the object, A movement detection unit that detects an object from video captured by the camera, detects movement of the object from continuity of image position change, and outputs the movement information, and the movement detection And a position information detection unit that detects the position information by tracking the object from the detection results detected by the line-of-sight monitoring detection unit, and the position information detected by the position information detection unit, A directional sound source adjustment unit that outputs a sound signal by adjusting directivity of the sound source acquisition unit so that sound at a position corresponding to the position information is enhanced, and a sound signal output from the directional sound source adjustment unit. With a sound output section to output Than is.
また、本発明は、前記視線監視検出部が、利用者の視線を監視する監視カメラ部と、前記監視カメラ部の監視結果から、黒目部分、および角膜反射像から左眼、右眼それぞれの視線方向を検出する視線検出部と、前記視線検出部が検出した視線情報から視線に対応する直線が空間上で最も接近する位置の中間点座標を求め、利用者が見ている対象物の方向と距離を検出する視線対象検出部とを備え、前記位置情報検出部は、前記移動検出部と前記視線検出部との検出結果から、対象物に視線が任意の時間以上とどまった際、前記対象物の位置情報を注目すべき位置として出力し、前記移動検出部が検出した移動情報に基づき、前記対象物の位置情報を更新する位置情報更新部と、前記位置情報更新部から出力される位置情報を格納する位置情報記憶部とを備えたものである。 Further, according to the present invention, the line-of-sight monitoring and detecting unit monitors a user's line of sight, and from the monitoring result of the monitoring camera unit, the line of sight of each of the left eye and the right eye from the black eye portion and the cornea reflection image A line-of-sight detection unit that detects a direction, and obtains an intermediate point coordinate of a position where a straight line corresponding to the line of sight closest in space from the line-of-sight information detected by the line-of-sight detection unit, and the direction of the object the user is looking at A line-of-sight object detection unit that detects a distance, and the position information detection unit detects the object when the line-of-sight remains for an arbitrary time or longer from the detection results of the movement detection unit and the line-of-sight detection unit. The position information is output as a position to be noted, and based on the movement information detected by the movement detection unit, the position information update unit that updates the position information of the object, and the position information output from the position information update unit Storing location information It is obtained and a storage unit.
さらに、本発明は、前記位置情報更新部が、位置情報を検出した際に、前記対象物が任意の距離以上離れていると判断すると、前記対象物から除外するものである。 Furthermore, according to the present invention, when the position information update unit detects position information and determines that the object is separated by an arbitrary distance or more, the position information update unit excludes the object from the object.
また、本発明は、前記移動検出部が、前記カメラで撮影された映像から人物の顔を検出して顔の特徴量を検出し、該特徴量に基づいて同一人物を判定し、画像位置の変化の連続性から顔の移動を検出し、前記音源取得部は、前記指向性音源調整部の制御に基づいて、音声を取得するものである。 Further, according to the present invention, the movement detection unit detects a person's face from the video captured by the camera, detects a face feature amount, determines the same person based on the feature amount, and determines an image position. The movement of the face is detected from the continuity of the change, and the sound source acquisition unit acquires sound based on the control of the directional sound source adjustment unit.
さらに、本発明は、前記音源取得部が、複数のマイクから構成されているものである。 Furthermore, in the present invention, the sound source acquisition unit includes a plurality of microphones.
また、本発明は、前記音出力部が、ノイズを打ち消す信号を発生し、ノイズキャンセルを行うノイズキャンセリング部を備えたものである。 According to the present invention, the sound output unit includes a noise canceling unit that generates a signal for canceling noise and performs noise cancellation.
さらに、本願のその他の発明の概要を簡単に示す。 Furthermore, the outline | summary of the other invention of this application is shown briefly.
音源が存在し得る方向の画像を監視し、注視対象になる可能性の部分を候補点としてマークする。候補点としてマークした部分に対し、あるいはマークした部分でイベントが発生したら、そのマークを注目音源として取り扱うためにその位置を記憶する。その位置に対応する画像の移動を画像処理により監視し、位置情報を適宜更新する。この位置情報に従い複数のマイクによるビームフォーミング特性を調整し、ビームフォーミングにより収音・抽出した音声に対して必要な処理を行う。 An image in a direction in which a sound source can exist is monitored, and a portion that may be a gaze target is marked as a candidate point. When an event occurs for a portion marked as a candidate point or at the marked portion, the position is stored to handle the mark as a target sound source. The movement of the image corresponding to the position is monitored by image processing, and the position information is updated as appropriate. The beam forming characteristics of a plurality of microphones are adjusted in accordance with this position information, and necessary processing is performed on the sound collected and extracted by beam forming.
また、本発明は、映像を表示する表示部と、音を出力する音出力部と、周囲を監視するカメラと、対象物の音源から音を取得する音源取得部と、前記カメラから入力される画像から人物の顔を抽出し、抽出した顔の位置、および距離を検出して前記人物の顔を追跡し、位置情報として出力する顔移動検出部と、前記カメラの画像、および前記顔移動検出部が出力した位置情報に基づいて、検出した顔画像の中から眼の部分を抽出し、前記人物が見ている方向が前記表示部に表示されている何らかの処理をすべき箇所である特定表示部であるかを判断する注視状態検出部と、前記注視状態検出部が前記人物が前記特定表示部を見ていると判断した際に、対応する人物の位置情報を取得する位置情報更新部と、前記位置情報更新部が取得した位置情報に基づいて、前記人物の位置に対応する音声をビームフォーミングにより増強するパラメータを計算し、その計算結果に基づいて、前記位置情報に対応する位置の音声が増強されるように前記音源取得部の指向性を調整して音信号を出力する指向性音源調整部と、前記指向性音源調整部から出力された音声信号に含まれる音声を認識し、その認識結果に基づいて、双方向コミュニケーション対象者であるかを判断し、対象者と判断すると、該人物に対応する位置情報に基づいて、前記表示部に情報を表示する音声認識表示制御部と、前記音声認識表示制御部から出力された位置情報に基づいて、前記対象者のみに音が伝達されるように指向性を持たせる指向性演算処理を行い、演算結果に基づいて、前記音出力部から音声を出力する発音指向性調整演算部とを備えたものである。 The present invention is also input from a display unit that displays video, a sound output unit that outputs sound, a camera that monitors the surroundings, a sound source acquisition unit that acquires sound from a sound source of an object, and the camera A face movement detection unit that extracts a human face from an image, detects the position and distance of the extracted face, tracks the face of the person, and outputs it as position information; an image of the camera; and the face movement detection Based on the positional information output by the unit, the eye part is extracted from the detected face image, and the specific display that is the place where the direction in which the person is viewed is displayed on the display unit is to be performed A gaze state detection unit that determines whether the person is a part, a position information update unit that acquires position information of a corresponding person when the gaze state detection unit determines that the person is looking at the specific display unit, The position acquired by the position information update unit Based on the information, the sound source acquisition unit calculates a parameter for enhancing the sound corresponding to the position of the person by beam forming, and based on the calculation result, the sound at the position corresponding to the position information is enhanced. A directivity sound source adjustment unit that adjusts the directivity of the sound and outputs a sound signal, and recognizes the voice included in the sound signal output from the directivity sound source adjustment unit, and based on the recognition result, the target of bidirectional communication When the target person is determined, the voice recognition display control unit that displays information on the display unit based on the position information corresponding to the person and the voice recognition display control unit output the information. Based on the position information, a directivity calculation process is performed to provide directivity so that sound is transmitted only to the target person, and sound is output from the sound output unit based on the calculation result Those having a tropism adjustment computing unit.
さらに、本発明は、前記位置情報更新部が、前記注視状態検出部が、前記人物が特定表示部を注視していると判断した際に、前記人物の顔の位置情報が変化する毎に前記位置情報を更新して追跡するものである。 Further, according to the present invention, the position information update unit changes the position information of the person's face whenever the gaze state detection unit determines that the person is gazing at the specific display unit. The location information is updated and tracked.
また、本発明は、前記音声認識表示制御部が、双方向コミュニケーション対象者の位置情報に基づいて、前記表示部に小画面の映像情報を表示するものである。 Further, according to the present invention, the voice recognition display control unit displays small screen video information on the display unit based on position information of a person to be interactively communicated.
さらに、本発明は、前記位置情報更新部が複数の人物の位置情報を取得し、複数の前記人物の位置情報を追跡して更新するものである。 Further, according to the present invention, the position information update unit acquires position information of a plurality of persons, and tracks and updates the position information of the plurality of persons.
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.
(1)ユーザと音源の相互の位置関係が刻々と変化する環境下において聞き取る必要のある人の音声を選択的に精度よく増幅することができる。 (1) It is possible to selectively amplify the voice of a person who needs to be heard in an environment where the mutual positional relationship between the user and the sound source changes every moment.
(2)上記(1)により、騒音下などの状況にあっても、最適な会話の補助を行うことができる。 (2) According to the above (1), it is possible to assist optimal conversation even in a situation of noise.
(3)また、ビームフォーミング可能なスピーカを組み合わせることで、双方向コミュニケーション可能なデジタルサイネージ機器を実現することができる。 (3) A digital signage device capable of two-way communication can be realized by combining a beam-forming speaker.
(4)上記(3)により、複数人で会話が行われている状況において、特定の人にズームを行った際にも注目した人の音声を収音することができる。 (4) According to the above (3), in a situation where a conversation is performed by a plurality of people, it is possible to pick up the voice of the person who has paid attention even when zooming on a specific person.
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.
(実施の形態1)
図1は、本発明の実施の形態1による音声処理システムにおける構成の一例を示すブロック図、図2は、図1の音声処理システムの外観の一例を示す説明図、図3は、図2の音声処理システムに示した外観監視カメラによる監視領域の一例を示す説明図である。
(Embodiment 1)
1 is a block diagram showing an example of the configuration of a voice processing system according to Embodiment 1 of the present invention, FIG. 2 is an explanatory diagram showing an example of the appearance of the voice processing system of FIG. 1, and FIG. 3 is a diagram of FIG. It is explanatory drawing which shows an example of the monitoring area | region by the external appearance monitoring camera shown to the audio | voice processing system.
本実施の形態1において、音声処理システム1は、会話中に会話相手の音声を選択的に強調して、該音声処理システム1の装着者に伝達するシステムである。 In the first embodiment, the voice processing system 1 is a system that selectively emphasizes the voice of the conversation partner during the conversation and transmits the voice to the wearer of the voice processing system 1.
音処理システムである音声処理システム1は、図1に示すように、外界監視カメラ21〜28、顔移動検出器3、左眼監視カメラ4、右眼監視カメラ5、近赤外線LED6(図2に示す)、両眼視線検出器7、視線対象検出器8、位置情報更新器9、位置情報記憶器10、指向性調整器111〜118、複数のマイクから構成されるマイクアレイ12、ステレオ対応指向性演算器131〜138、加算器14,15、左耳イヤフォン16、右耳イヤフォン17、左耳マイク18、右耳マイク19、左ノイズキャンセル装置20、および右ノイズキャンセル装置21から構成されている。
As shown in FIG. 1, an audio processing system 1 which is a sound processing system includes an
これら左眼監視カメラ4、右眼監視カメラ5、両眼視線検出器7、および視線対象検出器8により、視線監視検出部が構成されており、位置情報更新器9と位置情報記憶器10とによって位置情報検出部が構成されている。
The left
また、指向性調整器111〜118、およびステレオ対応指向性演算器131〜138によって指向性音源調整部が構成されており、左耳マイク18、右耳マイク19、左ノイズキャンセル装置20、および右ノイズキャンセル装置21により、ノイズキャンセリング部が構成されている。
Further, the directivity adjusters 11 1 to 11 8 and the stereo-compatible directivity calculators 13 1 to 13 8 constitute a directivity sound source adjustment unit, and the
外界監視カメラ21〜28は、周囲を監視するカメラであり、周囲のどの位置に音源となりうる物があるか、また注目した音源がどこに移動しているかを監視するためのカメラ群である。
The
外界監視カメラ21〜28で撮影された映像は、顔移動検出器3へ出力され、人物の顔を検出する。顔移動検出器3は、入力された映像から人物の顔を検出する機能、および検出した顔の特徴量を検出する機能を有し、特徴量を元に同一人物を判定し、画像位置の変化の連続性から顔の移動を検出する。
Images taken by the
顔検出アルゴリズムについては、デジタルカメラなどで既に多く実装されている技術のため説明を省略するが、たとえば、Haarタイプの特徴量を用い、AdaBoostアルゴリズムを用いる手法が広く知られている。 Description of the face detection algorithm is omitted because it is already implemented in many digital cameras and the like, but, for example, a method using an AdaBoost algorithm using Haar type feature values is widely known.
また、同一の顔を複数の外界監視カメラ21〜28で撮影し、特徴量、および各外界監視カメラ21〜28で撮影した画像における顔画像の位置関係を用い、複数の外界監視カメラ21〜28で撮影した画像間で同一の顔画像を対応付けることにより、顔移動検出器3は、顔の方向だけでなく顔までの距離も検出可能である。
Further, by photographing the same face with a plurality of
監視カメラ部である左眼監視カメラ4は、音声処理システム1の装着者の左眼の視線を監視する近赤外線カメラであり、監視カメラ部である右眼監視カメラ5は、機器装着者の右眼の視線を監視する近赤外線カメラである。
The left-
また、左眼監視カメラ4、および右眼監視カメラ5の近傍には、近赤外線LED6(図2に示す)が備えられている。左眼監視カメラ4、ならびに右眼監視カメラ5によって撮影された映像は、視線検出部である両眼視線検出器7において2値化された上、黒目部分、および角膜反射像から装着者の左眼、右眼それぞれの視線方向を検出する。
Further, near-infrared LEDs 6 (shown in FIG. 2) are provided in the vicinity of the left-
視線対象検出部となる視線対象検出器8は、両眼視線検出器7が検出した視線情報に基づいて、両眼の視線に対応する直線が空間上で最も接近する位置の中間点座標を求め、装着者が見ている対象物の方向と距離を検出する。
The line-of-
位置情報更新部となる位置情報更新器9は、顔移動検出器3と視線対象検出器8との出力から、顔の存在する場所に視線が任意の時間以上とどまった場合、当該顔画像の位置情報を注目すべき位置として、位置情報更新部となる位置情報記憶器10に格納する。
The position
この際、位置情報記憶器10で記憶可能な数より注目数が多くなった場合は、最も過去に視線により注目された顔画像の位置情報を消去し、新しく注目した顔画像の位置情報に入れ替える。
At this time, when the number of attentions is larger than the number that can be stored in the position
注目すべき位置として顔画像を判別する場合、用途によっては顔までの距離を用いて一定距離以下であった場合に注目対象とする方法も考えられる。たとえば、通常の会話を中心とした用途であれば、約2メートル、ないし3メートル以内を対象とするなど考えられる。 When a face image is discriminated as a position to be noticed, depending on the application, there may be a method of using a distance to the face as a target of attention when the distance is not more than a certain distance. For example, if it is an application centered on normal conversation, it is possible to target about 2 meters or 3 meters or less.
また、位置情報更新器9は、顔移動検出器3が検出した顔移動情報に基づき、位置情報記憶器10に記憶されている注目対象の位置情報を更新する機能も有する。この機能により、注目した顔画像の動きだけでなく、装着者自身が移動したり顔を動かしたりした場合であっても、装着者と注目した顔画像の相対位置情報を正しく更新することが可能である。
The
位置情報記憶器10に記憶されている注目している顔画像に対応するそれぞれの位置情報は、指向性調整器111〜118のいずれかに割り当てられている。指向性調整器111〜118のうち、位置情報が割り当てられた指向性調整器は、音源取得部となるマイクアレイ12を用いて位置情報に対応する位置の音声をビームフォーミングにより増強するために必要なデジタルフィルタのパラメータを計算する。
Each position information corresponding to the face image of interest stored in the
なお、これらの係数を求める方法としては、音源の位置とマイクアレイ12を構成する各マイクまでの距離の差を補償するように各マイクからの入力信号を遅延して合計を求めるなどの手法がある。
As a method for obtaining these coefficients, there is a method of delaying the input signal from each microphone so as to compensate for the difference between the position of the sound source and the distance to each microphone constituting the
ステレオ対応指向性演算器131〜138のうち、デジタルフィルタのパラメータを計算した指向性調整器に対応するステレオ対応指向性演算器は、該指向性調整器の計算結果に基づき、マイクアレイ12を構成する各マイクから、たとえば、A/D(Analog/Digital)変換入力されたデジタル音声信号のフィルタ処理を行う。
Among the stereo-compatible directivity calculators 13 1 to 13 8 , the stereo-compatible directivity calculator corresponding to the directivity adjuster that has calculated the digital filter parameters is based on the calculation result of the directivity adjuster, and the
また、装着者に対して音源、すなわち顔画像の方向に応じた定位感を再現するため、ステレオ対応指向性演算器131〜138は、対象音源の相対位置に応じて左側、右側それぞれのゲインを調整し、左音声、および右音声として出力する。 In addition, in order to reproduce the sense of localization according to the direction of the sound source, that is, the face image, to the wearer, the stereo correspondence directivity calculators 13 1 to 13 8 are respectively provided on the left side and the right side according to the relative position of the target sound source. The gain is adjusted and output as left audio and right audio.
ステレオ対応指向性演算器131〜138からの音声出力信号は、加算器14,15によって左側、右側それぞれ加算され、左耳イヤフォン16と右耳イヤフォン17を通して装着者の耳に伝える。
Audio output signals from the stereo-compatible directivity calculators 13 1 to 13 8 are added by the
左耳マイク18は、左耳イヤフォン16から出力される左側音声のノイズキャンセル用のマイクであり、右耳マイク19は、右耳イヤフォン17から出力される右側音声のノイズキャンセル用のマイクである。
The
左耳マイク18では、外部から左耳に直接届く音を入力し、この音を打ち消す信号(基本的には逆位相の信号)を左ノイズキャンセル装置20で生成し、左耳イヤフォン16で再生する音にゲインを調整し、加算器14にて加える。右側も同様の処理を行う。この処理により、外部から直接耳に届くノイズなどを抑制でき、機器内部で生成した音を騒音下でも聞きやすくすることが可能である。
The
なお、左ノイズキャンセル装置20、および右ノイズキャンセル装置21は、必要な外部音が完全に遮断されるのを防止するために、特定の周波数帯の音に関してはキャンセルしないよう、打ち消す信号を生成しない場合もある。また、注目すべき音源が存在しない状態では、左ノイズキャンセル装置20、および右ノイズキャンセル装置21の動作を停止、あるいは左耳マイク18、ならびに右耳マイク19と同位相の信号を生成するモードに変更し、未装着に近い状態を再現することも考えられる。
Note that the left noise cancellation device 20 and the right
図2は、音声処理システム1における外観構成の一例を示す説明図である。 FIG. 2 is an explanatory diagram showing an example of an external configuration in the voice processing system 1.
音声処理システム1は、図示するように、たとえば、メガネ22に備えられたメガネ型デバイスからなる。マイクアレイ12は、マイク121〜1210からなる。マイク121〜123は、メガネ22の左側のテンプル部における耳あて部側からレンズ側にかけてそれぞれ等間隔で設けられている。
As shown in the figure, the sound processing system 1 is composed of, for example, a glasses-type device provided in the
マイク124,125は、左側のレンズ上方、または左側レンズ縁上方などにそれぞれ等間隔で設けられており、マイク126,127は、右側のレンズ上方、あるいは右側レンズ縁上方などにそれぞれ等間隔で設けられている。
The
マイク128〜1210は、メガネ22の右側のテンプル部におけるレンズ側から耳あて部側にかけてそれぞれ等間隔で設けられている。マイク121〜123は、主として左側の音を収音する。マイク124〜127は、主として前面の音を収音し、マイク128〜1210は、主として右側の音を収音する。左前方の収音を行うには、左側、および前面のマイク121〜125を、右前方の収音を行うには、右側、および前面のマイク126〜1210を用いる。
The
ただし、左の音源の収音には右側のマイクの信号を用いないなど、音源から見て装着者の影になる部分に存在するマイクは用いない。この制御は指向性調整器111〜118がそれぞれ注目している位置に応じたパラメータを生成し、当該パラメータに従ってステレオ対応指向性演算器131〜138が動作することで実現できる。 However, the microphone that is in the shadow of the wearer when viewed from the sound source is not used, such as the right microphone signal is not used to collect the left sound source. This control can be realized by generating parameters according to the positions to which the directivity adjusters 11 1 to 11 8 are paying attention, and operating the stereo correspondence directivity calculators 13 1 to 13 8 according to the parameters.
すなわち、使用しないマイクからのゲインを0にするようなパラメータを生成することにより、使用しないマイクからの入力をマスクする。装着者の影になる部分に存在するマイクは用いないことで、音源からの直接音より、外界で反射した音や装置そのもの、および機器使用者を介して伝わる音が中心である音声入力をフィルタ処理から排除でき、指向性演算処理への悪影響を抑制できる。 That is, by generating a parameter that makes the gain from the unused microphone zero, the input from the unused microphone is masked. By not using the microphone that is in the shadow of the wearer, the sound input reflected mainly from the sound reflected from the outside world, the device itself, and the sound transmitted through the device user is filtered rather than the direct sound from the sound source. It can be excluded from processing, and adverse effects on directivity calculation processing can be suppressed.
外界監視カメラ21は、メガネ22の左側のテンプル部における耳あて部側に設けられており、外界監視カメラ22は、メガネ22の左側のテンプル部におけるレンズ側に設けられている。
外界監視カメラ25は、メガネ22の右側のテンプル部における耳あて部側に設けられており、外界監視カメラ26は、メガネ22の右側のテンプル部におけるレンズ側に設けられている。
The outside world monitoring camera 25 is provided on the ear contact side of the right temple part of the
外界監視カメラ27は、メガネ22の左側のテンプル部における耳あて部側の端部に設けられており、外界監視カメラ28は、メガネ22の右側のテンプル部における耳あて部側の端部に設けられている。
この外界監視カメラ27,28は、装着者のやや後方に位置するよう、耳あて部分より後ろ設けられるようにアームなどを少々伸ばして配置する。このように配置することで装着者の後頭部による影の影響を極力避けることができ、前方と同様の監視を可能とすることができる。
The external
外界監視カメラ23は、左側のレンズの左上方、または左側レンズ縁の左上方に設けられており、外界監視カメラ24は、右側のレンズの右上方、または右側レンズ縁の右上方に設けられている。
外界監視カメラ21,23は、左側方向の画像監視、外界監視カメラ22,25は、前方向の画像監視、外界監視カメラ27,28は後ろ方向の画像監視、外界監視カメラ24,26は右側方向の画像監視をそれぞれ行う。それぞれの方向に対して2個のカメラで監視することで、対象物までの距離も検出することが可能である。
The outside
また、メガネ22の左側のテンプル部には、左耳イヤフォン16がワイヤを介して接続されており、メガネ22の右側のテンプル部には、右耳イヤフォン17がワイヤを接続されている。左耳イヤフォン16には、ノイズキャンセリング用の左耳マイク18を備えた構造となっており、右耳イヤフォン17には、ノイズキャンセリング用の右耳マイク19を備えた構造となっている。
The
左眼監視カメラ4は、メガネ22の左側のレンズ下方、または左側レンズ縁下方に設けられており、右眼監視カメラ5は、メガネ22の右側のレンズ下方、または右側レンズ縁下方に設けられている。これら左眼監視カメラ4、右眼監視カメラ5の近傍には、撮影用光源となる近赤外線LED6がそれぞれ設けられている。
The left
メガネ22において、左側のテンプルのレンズ側には、左収納ボックス23が設けられており、右側のテンプルのレンズ側には、右収納ボックス24が設けられている。左収納ボックス23、および右収納ボックス24には、顔移動検出器3、両眼視線検出器7、視線対象検出器8、位置情報更新器9、位置情報記憶器10、指向性調整器111〜118、ステレオ対応指向性演算器131〜138、加算器14,15、左ノイズキャンセル装置20、および右ノイズキャンセル装置21などの回路ブロックや音声処理システム1を動作させる電源となるバッテリなどが収納される。
In the
また、左収納ボックス23、あるいは右収納ボックス24に、たとえば、無線通信回路などを搭載し、無線接続により一部の処理を離れた装置で行う構成としてもよい。
Further, the
図3は、図2の音声処理システム1における外界監視カメラ21〜28によって監視可能な領域の一例を示した説明図である。なお、図3においては、主として前半分の領域を示しており、後ろ半分は前半分と対称になるため領域の図示を一部省略している。
FIG. 3 is an explanatory diagram showing an example of a region that can be monitored by the
図3において、領域Aは、左側方向の外界監視カメラ21,23のいずれでも監視することができない領域、領域Bは、右側方向の外界監視カメラ24,26のいずれでも監視することができない領域、領域Cは、前方向の外界監視カメラ22,25のいずれでも監視ができない領域、領域Dは、後ろ方向の外界監視カメラ27,28のいずれでも監視ができない領域を示している。
In FIG. 3, an area A is an area that cannot be monitored by any of the left-side
また、領域Eは、外界監視カメラ23による監視、領域Fは、外界監視カメラ22よる監視、領域Gは、外界監視カメラ25による監視、ならびに領域Hは、外界監視カメラ24による監視のみが可能な領域であり、2つの外界監視カメラによる監視ができない領域を示している。
The region E is monitored by the
領域Iは、外界監視カメラ22,23の2個のカメラで監視可能な領域であり、向きの異なるカメラを用いて監視画像から距離を含めた情報を取得可能である。領域Jは、外界監視カメラ24,25の2個のカメラで監視可能な領域であり、同様に監視画像から距離を含めた情報を取得可能である。すなわち、前方向の外界監視カメラ23,24と、左または右方向の外界監視カメラ22,25の双方の信号を用いて対象物の方向、ならびに距離を検出することもあり得る。
The area I is an area that can be monitored by two cameras, the
さらに、領域Kは、前方向用の外界監視カメラ22、および左側方向用の外界監視カメラ23の2個のカメラを用いた監視が可能で、領域Lは、前方向用の外界監視カメラ25、および右側方向用の外界監視カメラ24の2個のカメラを用いた監視が可能である。
Furthermore, the region K is capable of prior
すなわち、領域K,ならびに領域Lを、左右方向と前方向の接続領域として用い、双方で同時に顔検出を行い、位置関係と特徴量などから同一人物の対応付けを行い、監視に用いるカメラを適宜変更することで、装着者の周囲全体を移動も含めて連続的に監視することができる。 That is, the region K and the region L are used as connection regions in the left and right directions and the front direction, both face detection is performed simultaneously, the same person is associated from the positional relationship and the feature amount, and the camera used for monitoring is appropriately selected. By changing, it is possible to continuously monitor the entire circumference of the wearer including movement.
それにより、本実施の形態1では、装着者が注目した会話相手の音声のみを選択的に増幅して、該装着者に強調して伝達することができるので、騒音下などの環境であっても、会話の支障をきたすことなく、会話をすることが可能となる。 Accordingly, in the first embodiment, only the voice of the conversation partner focused on by the wearer can be selectively amplified and transmitted to the wearer with emphasis. However, it is possible to have a conversation without disturbing the conversation.
なお、本実施の形態1では、人間の会話を対象とすることを仮定しているため、顔移動検出器3を用いた構成としたが、機器の目的に応じ違う物体を検出する検出器を用いることも考えられる。
In the first embodiment, since it is assumed that the target is human conversation, the
たとえば、バードウオッチング用途であれば鳥の映像を検出する検出器を用いることにより、鳥の鳴き声などを選択的に強調することできる。また、人の顔と鳥の両方を検出可能な検出器を用いることも考えられる。 For example, in birdwatching applications, a bird's cry can be selectively emphasized by using a detector that detects bird images. It is also conceivable to use a detector that can detect both human faces and birds.
また、本実施の形態1では、人間の聴覚を補助する構成としたが、たとえば、前方向用のカメラで撮影している映像を録画可能にし、ステレオ対応指向性演算器の出力を通常の左右のマイクで捉えた音を加えて記録することで、映像として記録していない位置の音声であっても、一度注目して注目対象として記憶されれば、当該位置の音声を大きい音で記録することが可能である。 In the first embodiment, the human hearing is assisted. However, for example, the video captured by the forward camera can be recorded, and the output of the stereo-compatible directivity calculator is changed to the normal left and right. By adding the sound captured by the microphone and recording, even if the sound is not recorded as a video, if it is recorded as a target of attention once, the sound at that position is recorded with a loud sound It is possible.
この場合、再生時に立体的な映像を再生可能にするために、外界監視カメラ22で撮影した画像を左眼画像、外界監視カメラ25で撮影した画像を右眼画像として記録する。ただし、記録量を抑制するために、どちらかの画像のみを記録したい場合は、機器使用者が記録対象を左眼画像、または右眼画像のいずれかから選択可能にする。本機能により、装着者が各自の効き眼に合わせ、記録すべき画像を選択することができる。
In this case, in order to allow play stereoscopic image at the time of reproduction, and records eye images taken at
さらに、本実施の形態1においては、外界監視カメラ21〜28、指向性調整器111〜118、およびステレオ対応指向性演算器131〜138がそれぞれ8個ずつ設けられた構成としたが、これらの回路ブロックにおける個数は、これに限定されるものではない。
Furthermore, in the first embodiment, a configuration in which eight
(実施の形態2)
図4は、本発明の実施の形態2によるデジタルサイネージシステムにおける構成の一例を示すブロック図、図5は、図4のデジタルサイネージシステムの外観の一例を示す説明図である。
(Embodiment 2)
FIG. 4 is a block diagram showing an example of the configuration of the digital signage system according to
本実施の形態1において、デジタルサイネージシステム25は、公共施設や店舗などに設置したディスプレイに映像や情報を表示する電子看板である。
In the first embodiment, the
デジタルサイネージシステム25は、図4に示すように、外界監視カメラ2a,2b、顔移動検出器3、位置情報更新器9、位置情報記憶器10、指向性調整器111〜118、マイク121〜マイク1214(図5に示す)から構成されるマイクアレイ12からなる前記実施の形態1の図1と同じ回路ブロックに、指向性演算器261〜268、音声認識器271〜278、全体制御装置28、表示制御装置29、表示装置30、発音指向性調整演算器311〜318、音声合成器321〜328、複数のスピーカ331〜3318(図5に示す)から構成されたスピーカアレイ33、注視状態検出器34,および加算器35が新たに設けられた構成となっている。
As shown in FIG. 4, the
外界監視カメラ2a,2bは、デジタルサイネージシステム25の周囲を監視するカメラであり、周囲のどの位置に音源となりうる物があるかを監視し、また注目している人物の追跡を行うためのカメラである。
The
顔移動検出器3は、外界監視カメラ2a,2bから入力されるそれぞれの画像から人物の顔を抽出し、その特徴量を検出する。外界監視カメラ2a,2bで撮影されたそれぞれ画像から抽出された顔の部分は、特徴量、および各画像における位置情報を基に対応付けを行う。
The
対応付けの結果を用いることで、人物の顔の位置だけでなく、複数の画像それぞれにおける位置の違いから顔までの距離も検出する。また、一度検出した顔は監視可能エリア外に出るまで画像の動き情報、ならびに顔画像の特徴量を基に移動の追跡を行うことが可能である。 By using the result of the association, not only the position of the person's face but also the distance to the face is detected from the difference in position in each of the plurality of images. Further, it is possible to track the movement of the face once detected until it moves out of the monitorable area based on the motion information of the image and the feature amount of the face image.
外界監視カメラ2a(、または外界監視カメラ2b)の監視画像、および顔移動検出器3が該外界監視カメラ2a(、または外界監視カメラ2b)の監視画像から抽出した顔画像位置情報とその識別番号は、注視状態検出器34に送られる。
The monitoring image of the
注視状態検出器34は、検出した顔画像の中から眼の部分を抽出、解析し、その人物が見ている方向を検出する。見ている部分が当該デジタルサイネージシステム25の表示装置30に提示されている特定の画像、すなわち画像の中で予め注目された場合は何らかの処理をすべきように記録されている箇所であった場合、その人物の顔の識別番号を位置情報更新器9に送る。
The
位置情報更新器9は、注視状態検出器34から注視している顔の識別番号を受け取ると、その識別番号に対応する位置情報がまだ未記憶状態であれば、位置情報記憶器10に記憶する。
When the
位置情報記憶器10に記憶されている位置情報のうち、外界監視カメラ2a,2bによる追跡が困難になった人物の顔は記憶から消去し、注視状態を解除し一定時間経過した人物の顔の位置情報も消去する。
Of the position information stored in the position
また、位置情報記憶器10で記憶可能な数より位置情報が多くなった場合には、注視状態を解除が早い人物の顔に関する位置情報を消去し、新しく注目している人物の顔の位置情報に入れ替える。
When the position information becomes larger than the number that can be stored in the position
しかし、位置情報の消去が全く困難な場合には、新規位置情報の追加は一時中止し、行わない。これは、既にデジタルサイネージシステム25が応対している人物の位置情報を失わないためである。
However, if it is difficult to delete the position information, the addition of new position information is temporarily stopped and not performed. This is because the position information of the person who is already responding to the
デジタルサイネージの用途によって、デジタルサイネージシステム25へ注目していると判断する顔までの距離を一定距離以下に制限可能である。すなわち、顔移動検出器3で求めた顔画像までの距離情報に基づき、デジタルサイネージシステム25が対応する範囲か否かを判定し、対応すべき範囲であった場合に限り顔移動検出器3から注視状態検出器34へ対応する位置情報を送り、デジタルサイネージシステム25へ注目している人物を抽出する。
Depending on the use of the digital signage, the distance to the face determined to be paying attention to the
また、位置情報更新器9は、顔移動検出器3で検出した顔移動情報に基づき、位置情報記憶器10に記憶されている位置情報を更新する。これにより、デジタルサイネージシステム25を注目している人物の顔が移動した場合でも、当該顔の位置情報を正しく更新することが可能である。
Further, the
位置情報記憶器10に記憶されている注目している顔画像に対応する位置情報は、指向性調整器111〜118のいずれかに割り当てられる。指向性調整器111〜118のうち、位置情報が入力された指向性調整器は、マイクアレイ12を用いて位置情報に対応する位置の音声をビームフォーミングにより増強するために必要なデジタルフィルタのパラメータを実施の形態1と同様の手法を用いて計算する。
Position information corresponding to the face image of interest stored in the
但し、マイクアレイ12を構成するマイクの配置や個数が前記実施の形態1と異なるため、それに応じて具体的な計算方法は変更する必要がある。
However, since the arrangement and number of microphones constituting the
パラメータを計算した指向性調整器の計算結果は、指向性調整器261〜268のうち、パラメータを計算した指向性調整器に対応する後段の指向性調整器に入力される。指向性調整器261〜268のうち、パラメータの計算結果が入力された指向性調整器は、該パラメータを用いて、マイクアレイ12を構成する各マイクからA/D変換入力されたデジタル音声信号のフィルタ処理を行う。
The calculation result of the directivity adjuster that has calculated the parameter is input to the subsequent directivity adjuster corresponding to the directivity adjuster that has calculated the parameter among the
フィルタ処理を行った指向性演算器からの音声出力信号は、音声認識器271〜278のいずれかの対応する音声認識器に送られる。フィルタ処理された音声信号が入力された音声認識器では、音声信号に含まれる音声を認識する。 The voice output signal from the directivity calculator that has been subjected to the filter processing is sent to any one of the voice recognizers 27 1 to 27 8 . The speech recognizer to which the filtered speech signal is input recognizes speech included in the speech signal.
尚、用途によっては全ての音声認識器271〜278の機能、性能が対象である必要はなく、デジタルサイネージシステム25が同時にk人と双方向コミュニケーション可能であれば、n個のうち、k個の音声認識器のみを高機能、高性能なものとし、他の音声認識器は、デジタルサイネージシステムへの最初の話しかけを検出だけできる低機能な構成も考えられる。
Depending on the application, the functions and performances of all the
位置情報記憶器10では、現在デジタルサイネージシステムが双方向コミュニケーション対象としている人物の顔の位置情報が記憶しているどの位置情報に対応するのか管理するため、当該位置情報を高機能、高性能な音声認識器に送られる指向性演算器の指向性調整器に送られるよう制御する。
Since the
音声認識器で認識した結果は、全体制御装置28に送られる。全体制御装置28は、新規に双方向コミュニケーションを行う余裕がデジタルサイネージシステム25にある状態で、最初の話しかけに相当する言葉、たとえば「すみません」「教えてください」などを検出したり、あるいは表示装置30に表示している画像で、予め注目された場合は何らかの処理をすべきように記録されている箇所に対しての注視を検出したりした場合は、当該人物との双方向コミュニケーション状態に入る。
The result recognized by the speech recognizer is sent to the
双方向コミュニケーション状態に入った場合は、位置情報記憶器10に記録されている当該人物に対応する位置情報に対し、双方向コミュニケーション対象であることを示すフラグを立てる。
When the two-way communication state is entered, a flag indicating that it is a target for two-way communication is set for the position information corresponding to the person recorded in the position
双方向コミュニケーション向けに必要であれば、適宜子画面30a,30b,30c(図5に示す)を割り当てるために、全体制御装置28は、表示制御装置29を設定し、表示装置30に任意の子画面30a,30b,30cのいずれかを出す。この子画面を用いて、双方向コミュニケーション対象に対して情報を表示する。
If necessary for two-way communication, the
双方向コミュニケーション対象としてフラグが立っている位置情報は、発音指向性調整演算器311〜318に送られる。これら発音指向性調整演算器311〜318は、各音声合成器321〜328において合成された音声を特定の位置でのみ良く聞こえるように、スピーカアレイ33を駆動するための指向性調整演算を行う。
Position information flag as a two-way communication target is set, is sent to the sound directivity adjustment calculator 31 1-31 8. These sound directivity adjustment calculator 31 1-31 8, the speech synthesized in the
すなわち、スピーカアレイ33における駆動する各スピーカの位置と双方向コミュニケーション対象の人物の顔の位置関係から、発生した音声が双方向コミュニケーション対象の人物位置付近で位相が合うように遅延を調整し、また複数スピーカで駆動されることを考慮してゲインを落とす演算を行う。 That is, from the positional relationship between the position of each speaker to be driven in the speaker array 33 and the face of the person who is the object of bidirectional communication, the delay is adjusted so that the generated sound is in phase near the position of the person who is the object of bidirectional communication, An operation for reducing the gain is performed in consideration of being driven by a plurality of speakers.
発音指向性調整演算器311〜318によって演算された指向性調整の演算結果は、加算器35によって加算された後、スピーカアレイ33出力される。
Pronunciation directivity adjustment calculator 31 1-31 8 operation result of the computed directivity adjustment by are summed by the
尚、双方向対象人物の顔付近でのみ良く聞こえる音を生成できれば、スピーカアレイ33の制御は他の方法でも構わない。また、超音波を搬送波として用いる超指向性スピーカをスピーカアレイの代わりに用い、当該スピーカの向きを機械的に調整するなどの方法も考えられる。 Note that the speaker array 33 may be controlled by other methods as long as a sound that can be heard well only near the face of the bidirectional target person can be generated. In addition, a method of using a super-directional speaker that uses ultrasonic waves as a carrier wave instead of the speaker array and mechanically adjusting the direction of the speaker may be considered.
図5は、デジタルサイネージシステム25の外観の一例を示す説明図である。
FIG. 5 is an explanatory diagram showing an example of the appearance of the
デジタルサイネージシステム25は、中央部に表示装置30が設けられており、該表示装置30の左側には、マイクアレイ12を構成するマイク121〜123が下方から上方にかけてそれぞれ設けられている。
The
また、表示装置30の上部には、左から右にかけて、マイク124〜1211がそれぞれ設けられており、該表示装置30の右側には、マイク1212〜1214が上方から下方にかけてそれぞれ設けられている。
Further,
表示装置30の下方には、スピーカアレイ33を構成するスピーカ331〜3318が、上下2段に配列されている。マイク125とマイク126との間、およびマイク129とマイク1210との間には、外界監視カメラ2a,2bがそれぞれ設けられている。
Below the
デジタルサイネージシステム25の実際の設置を考慮した場合、デジタルサイネージシステム25と人物の位置関係は、縦方向には人間の身長差程度しか変化しないが、横方向は双方向コミュニケーション対象とする人物の立ち位置に依存するため、縦方向に比べて横方向に多くのマイクを配置し、横方向の指向性をより高められるようにしている。
When the actual installation of the
また、外界監視カメラ2a,2bは、デジタルサイネージシステム25の上部に配置することで、少しでも高い位置からの監視を行い、双方向コミュニケーション対象となっている人物の前を他の人物が横切った場合でも、双方向コミュニケーションに必要な画像追跡の妨げにならないようにしている。
In addition, the outside
但し、実際に他の人物の影になり2台の外界監視カメラ2a,2bでの画像追跡が困難になった場合であっても、片方の外界監視カメラ2で画像追跡できる場合はそちらのカメラで追跡を行い、両方の外界監視カメラ2a,2b共に追跡不可能になった場合には、一時的に移動予測を行い、さらに画像を再度捉えた際には、移動の予測情報と画像の特徴量を基に、位置情報記憶器10に記録されている位置との対応付けを試み、対応付け可能であれば追跡を再開する。対応付けに失敗した場合には、その人物に対応する双方向コミュニケーションを中止する。
However, even if it is actually a shadow of another person and it becomes difficult to track the image with the two
スピーカアレイ33を構成するスピーカ331〜3318は、マイク121〜1214と同様に、デジタルサイネージシステム25と人物の位置関係を考慮し、縦方向には2段構成とし、横方向に多くのスピーカを配置している。
The speakers 33 1 to 33 18 constituting the speaker array 33 are configured in a two-stage configuration in the vertical direction and a large number in the horizontal direction in consideration of the positional relationship between the
また、表示装置30には、子画面30a、子画面30b、子画面30cが表示可能である。これらの子画面30a,30b,30cは、双方向コミュニケーション人物に対し、個別対応が必要な情報の提示に用いる。
Further, the
子画面30a,30b,30cは、不要な時は消去してもよいし、常に表示しておき、双方向コミュニケーションに用いていない場合は別の情報を提示するようにしてもよいし、「ご質問のある方はこの部分を見てお話しください」と表示するなどして、双方向コミュニケーションの開始を促してもよい。 The sub-screens 30a, 30b, and 30c may be deleted when they are unnecessary, or may be always displayed, and other information may be presented when not used for two-way communication. If you have any questions, please look at this part and speak. "
それにより、本実施の形態2においては、デジタルサイネージシステム25が、双方向コミュニケーション対象者付近の音を抽出し、また当該対象者付近でのみ良く聞こえる音を出力するため、街頭のような騒音の多い場所であっても、単純に画像を表示するだけでなく、画像に注目した人物へより積極的な案内を行い、また人物からの要求や質問に対応することを可能にすることができる。また、1台のデジタルサイネージシステム25で複数の双方向コミュニケーションを実現できる。
As a result, in the second embodiment, the
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.
本発明は、会話相手の音声を選択に強調する音声処理技術に適している。 The present invention is suitable for a voice processing technique that emphasizes the voice of a conversation partner in selection.
1 音声処理システム
21〜28 外界監視カメラ
2a 外界監視カメラ
2b 外界監視カメラ
3 顔移動検出器
4 左眼監視カメラ
5 右眼監視カメラ
6 近赤外線LED
7 両眼視線検出器
8 視線対象検出器
9 位置情報更新器
10 位置情報記憶器
111〜1118 指向性調整器
12 マイクアレイ
121〜1214 マイク
131〜138 ステレオ対応指向性演算器
14,15 加算器
16 左耳イヤフォン
17 右耳イヤフォン
18 左耳マイク
19 右耳マイク
20 左ノイズキャンセル装置
21 右ノイズキャンセル装置
22 メガネ
23 左収納ボックス
24 右収納ボックス
25 デジタルサイネージシステム
261〜268 指向性演算器
271〜278 音声認識器
28 全体制御装置
29 表示制御装置
30 表示装置
30a 子画面
30b 子画面
30c 子画面
311〜318 発音指向性調整演算器
321〜328 音声合成器
33 スピーカアレイ
331〜3318 スピーカ
34 注視状態検出器
35 加算器
1
7
Claims (10)
利用者の視線を監視して対象物を検出し、前記対象物の方向、および距離を検出する視線監視検出部と、
周囲を監視するカメラと、
前記カメラで撮影された映像から対象物を検出し、画像位置の変化の連続性から前記対象物の移動を検出し、移動情報として出力する移動検出部と、
前記移動検出部、および前記視線監視検出部が検出したそれぞれの検出結果から、前記対象物を追跡して位置情報を検出する位置情報検出部と、
前記位置情報検出部が検出した位置情報に基づいて、前記位置情報に対応する位置の音が増強されるように前記音源取得部の指向性を調整して音信号を出力する指向性音源調整部と、
前記指向性音源調整部から出力された音信号を出力する音出力部とを備えたことを特徴とする音処理システム。 A sound source acquisition unit for acquiring sound from the sound source of the object;
A line-of-sight monitoring detection unit that detects the object by monitoring the user's line of sight, and detects the direction and distance of the object;
A camera that monitors the surroundings,
A movement detection unit that detects an object from video captured by the camera, detects movement of the object from continuity of changes in image position, and outputs movement information;
From the respective detection results detected by the movement detection unit and the line-of-sight monitoring detection unit, a position information detection unit that detects the position information by tracking the object;
A directional sound source adjustment unit that adjusts the directivity of the sound source acquisition unit and outputs a sound signal based on the position information detected by the position information detection unit so that sound at a position corresponding to the position information is enhanced. When,
A sound processing system comprising: a sound output unit that outputs a sound signal output from the directional sound source adjustment unit.
前記視線監視検出部は、
利用者の視線を監視する監視カメラ部と、
前記監視カメラ部の監視結果から、黒目部分、および角膜反射像から左眼、右眼それぞれの視線方向を検出する視線検出部と、
前記視線検出部が検出した視線情報から視線に対応する直線が空間上で最も接近する位置の中間点座標を求め、利用者が見ている対象物の方向と距離を検出する視線対象検出部とを備え、
前記位置情報検出部は、
前記移動検出部と前記視線検出部との検出結果から、対象物に視線が任意の時間以上とどまった際、前記対象物の位置情報を注目すべき位置として出力し、前記移動検出部が検出した移動情報に基づき、前記対象物の位置情報を更新する位置情報更新部と、
前記位置情報更新部から出力される位置情報を格納する位置情報記憶部とを備えたことを特徴とする音処理システム。 The sound processing system according to claim 1,
The line-of-sight monitoring detector
A surveillance camera unit for monitoring the user's line of sight;
From the monitoring result of the monitoring camera unit, a gaze detection unit that detects the gaze direction of the left eye and the right eye from the black eye part and the cornea reflection image, and
A line-of-sight target detection unit for detecting a direction point and a distance of an object viewed by a user, by obtaining an intermediate point coordinate of a position where a straight line corresponding to the line of sight closest in space from the line-of-sight information detected by the line-of-sight detection unit; With
The position information detector
From the detection results of the movement detection unit and the line-of-sight detection unit, when the line of sight stays for an arbitrary time or longer, the position information of the object is output as a position to be noticed, and the movement detection unit detects A position information update unit that updates the position information of the object based on movement information;
A sound processing system comprising: a position information storage unit that stores position information output from the position information update unit.
前記位置情報更新部は、
位置情報を検出した際に、前記対象物が任意の距離以上離れていると判断すると、前記対象物から除外することを特徴とする音処理システム。 The sound processing system according to claim 1 or 2,
The location information update unit
When the position information is detected, if it is determined that the object is more than an arbitrary distance, the sound processing system is excluded from the object.
前記移動検出部は、
前記カメラで撮影された映像から人物の顔を検出して顔の特徴量を検出し、該特徴量に基づいて同一人物を判定し、画像位置の変化の連続性から顔の移動を検出し、
前記音源取得部は、
前記指向性音源調整部の制御に基づいて、音声を取得することを特徴とする音処理システム。 The sound processing system according to any one of claims 1 to 3,
The movement detector is
Detecting the face of a person from the video taken by the camera to detect the feature amount of the face, determining the same person based on the feature amount, detecting the movement of the face from the continuity of image position changes,
The sound source acquisition unit
A sound processing system that acquires sound based on control of the directional sound source adjustment unit.
前記音源取得部は、
複数のマイクから構成されていることを特徴とする音処理システム。 The sound processing system according to any one of claims 1 to 4,
The sound source acquisition unit
A sound processing system comprising a plurality of microphones.
前記音出力部は、
ノイズを打ち消す信号を発生し、ノイズキャンセルを行うノイズキャンセリング部を備えたことを特徴とする音処理システム。 The sound processing system according to any one of claims 1 to 5,
The sound output unit is
A sound processing system comprising a noise canceling unit that generates a signal that cancels noise and cancels noise.
音を出力する音出力部と、
周囲を監視するカメラと、
音声を取得する音源取得部と、
前記カメラから入力される画像から人物の顔を抽出し、抽出した顔の位置、および距離を検出して前記人物の顔を追跡し、位置情報として出力する顔移動検出部と、
前記カメラの画像、および前記顔移動検出部が出力した位置情報に基づいて、検出した顔画像の中から眼の部分を抽出し、前記人物が見ている方向が前記表示部に表示されている何らかの処理をすべき箇所である特定表示部であるかを判断する注視状態検出部と、
前記注視状態検出部が前記人物が前記特定表示部を見ていると判断した際に、対応する人物の位置情報を取得する位置情報更新部と、
前記位置情報更新部が取得した位置情報に基づいて、前記人物の位置に対応する音声をビームフォーミングにより増強するパラメータを計算し、その計算結果に基づいて、前記位置情報に対応する位置の音声が増強されるように前記音源取得部の指向性を調整して音信号を出力する指向性音源調整部と、
前記指向性音源調整部から出力された音声信号に含まれる音声を認識し、その認識結果に基づいて、双方向コミュニケーション対象者であるかを判断し、対象者と判断すると、該人物に対応する位置情報に基づいて、前記表示部に情報を表示する音声認識表示制御部と、
前記音声認識表示制御部から出力された位置情報に基づいて、前記対象者のみに音が伝達されるように指向性を持たせる指向性演算処理を行い、演算結果に基づいて、前記音出力部から音声を出力する発音指向性調整演算部とを備えたことを特徴とする音処理システム。 A display unit for displaying images;
A sound output unit for outputting sound;
A camera that monitors the surroundings,
A sound source acquisition unit for acquiring sound;
A face movement detection unit that extracts the face of a person from an image input from the camera, detects the position and distance of the extracted face, tracks the face of the person, and outputs the position information;
Based on the image of the camera and the position information output by the face movement detection unit, an eye part is extracted from the detected face image, and the viewing direction of the person is displayed on the display unit. A gaze state detection unit that determines whether the specific display unit is a place to perform some processing;
A position information update unit that acquires position information of a corresponding person when the gaze state detection unit determines that the person is looking at the specific display unit;
Based on the position information acquired by the position information update unit, a parameter for enhancing the sound corresponding to the position of the person by beam forming is calculated, and based on the calculation result, the sound at the position corresponding to the position information is calculated. A directional sound source adjustment unit that outputs a sound signal by adjusting the directivity of the sound source acquisition unit to be enhanced;
The voice included in the voice signal output from the directional sound source adjustment unit is recognized, and based on the recognition result, it is determined whether or not the person is a two-way communication target. A voice recognition display control unit that displays information on the display unit based on position information;
Based on the position information output from the voice recognition display control unit, directivity calculation processing is performed to provide directivity so that sound is transmitted only to the target person, and based on the calculation result, the sound output unit A sound processing system comprising a pronunciation directivity adjustment calculation unit that outputs sound from
前記位置情報更新部は、
前記注視状態検出部が、前記人物が特定表示部を注視していると判断した際に、前記人物の顔の位置情報が変化する毎に前記位置情報を更新して追跡することを特徴とする音処理システム。 The sound processing system according to claim 7,
The location information update unit
When the gaze state detection unit determines that the person is gazing at the specific display unit, the gaze state detection unit updates and tracks the position information each time the position information of the person's face changes. Sound processing system.
前記音声認識表示制御部は、
双方向コミュニケーション対象者の位置情報に基づいて、前記表示部に小画面の映像情報を表示することを特徴とする音処理システム。 The sound processing system according to claim 7,
The voice recognition display control unit
A sound processing system that displays video information of a small screen on the display unit based on position information of a person who is an object of bidirectional communication.
前記位置情報更新部が取得する位置情報は、複数の人物であり、複数の前記人物の位置情報を追跡して更新することを特徴とする音処理システム。 The sound processing system according to claim 8, wherein
The position information acquired by the position information update unit is a plurality of persons, and the position information of the plurality of persons is tracked and updated.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010168203A JP2012029209A (en) | 2010-07-27 | 2010-07-27 | Audio processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010168203A JP2012029209A (en) | 2010-07-27 | 2010-07-27 | Audio processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012029209A true JP2012029209A (en) | 2012-02-09 |
Family
ID=45781592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010168203A Pending JP2012029209A (en) | 2010-07-27 | 2010-07-27 | Audio processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012029209A (en) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103491397A (en) * | 2013-09-25 | 2014-01-01 | 歌尔声学股份有限公司 | Method and system for achieving self-adaptive surround sound |
WO2014103732A1 (en) * | 2012-12-26 | 2014-07-03 | ソニー株式会社 | Image processing device, and image processing method and program |
KR20150008968A (en) * | 2013-06-28 | 2015-01-26 | 엘지전자 주식회사 | Mobile terminal and controlling method thereof |
JP2017521902A (en) * | 2014-05-26 | 2017-08-03 | シャーマン, ウラディミールSHERMAN, Vladimir | Circuit device system for acquired acoustic signals and associated computer-executable code |
CN107333200A (en) * | 2017-07-24 | 2017-11-07 | 歌尔科技有限公司 | One kind translation earphone storage box, wireless translation earphone and wireless translation system |
JP2018007256A (en) * | 2016-07-04 | 2018-01-11 | イーエム−テック・カンパニー・リミテッドEM−TECH.Co.,Ltd. | Voice amplifier with audio focusing function |
US9875410B2 (en) | 2014-11-26 | 2018-01-23 | Hanwha Techwin Co., Ltd. | Camera system for transmitting and receiving an audio signal and operating method of the same |
JP2018511212A (en) * | 2015-02-13 | 2018-04-19 | ヌープル, インコーポレーテッドNoopl, Inc. | System and method for improving hearing |
WO2018081412A1 (en) * | 2016-10-27 | 2018-05-03 | Bose Corporation | Facial recognition system |
US10075624B2 (en) | 2016-04-28 | 2018-09-11 | Bose Corporation | Wearable portable camera |
CN108604439A (en) * | 2016-02-04 | 2018-09-28 | 奇跃公司 | The technology of directional audio in augmented reality system |
US10225670B2 (en) | 2014-09-12 | 2019-03-05 | Sonova Ag | Method for operating a hearing system as well as a hearing system |
JP2019046482A (en) * | 2018-10-09 | 2019-03-22 | 日本電信電話株式会社 | Voice video tracking device |
JP2019054385A (en) * | 2017-09-14 | 2019-04-04 | カシオ計算機株式会社 | Sound collecting device, hearing aid, and sound collecting device set |
WO2019078338A1 (en) * | 2017-10-19 | 2019-04-25 | ソニー株式会社 | Electronic apparatus |
WO2019078339A1 (en) * | 2017-10-19 | 2019-04-25 | ソニー株式会社 | Electronic apparatus |
CN111402912A (en) * | 2020-02-18 | 2020-07-10 | 云知声智能科技股份有限公司 | Voice signal noise reduction method and device |
US10725729B2 (en) | 2017-02-28 | 2020-07-28 | Magic Leap, Inc. | Virtual and real object recording in mixed reality device |
JP6773990B1 (en) * | 2019-12-26 | 2020-10-21 | 富士通クライアントコンピューティング株式会社 | Information processing system and information processing equipment |
CN113099158A (en) * | 2021-03-18 | 2021-07-09 | 广州市奥威亚电子科技有限公司 | Method, device, equipment and storage medium for controlling pickup device in shooting site |
EP3982363A1 (en) | 2020-10-09 | 2022-04-13 | Yamaha Corporation | Audio signal processing method and audio signal processing apparatus |
EP3982361A1 (en) | 2020-10-09 | 2022-04-13 | Yamaha Corporation | Talker prediction method, talker prediction device, and communication system |
EP3989222A1 (en) | 2020-10-09 | 2022-04-27 | Yamaha Corporation | Audio signal processing method and audio signal processing apparatus |
US11445305B2 (en) | 2016-02-04 | 2022-09-13 | Magic Leap, Inc. | Technique for directing audio in augmented reality system |
EP4227888A1 (en) | 2022-02-10 | 2023-08-16 | Yamaha Corporation | Image processing method and image processing apparatus |
WO2023164814A1 (en) * | 2022-03-01 | 2023-09-07 | 深圳市大疆创新科技有限公司 | Media apparatus and control method and device therefor, and target tracking method and device |
CN116760499A (en) * | 2023-07-07 | 2023-09-15 | 恩平市天悦音响科技有限公司 | Sound console sound tuning management system and method based on big data |
US11887617B2 (en) | 2018-07-17 | 2024-01-30 | Samsung Electronics Co., Ltd. | Electronic device for speech recognition and control method thereof |
-
2010
- 2010-07-27 JP JP2010168203A patent/JP2012029209A/en active Pending
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014103732A1 (en) * | 2012-12-26 | 2014-07-03 | ソニー株式会社 | Image processing device, and image processing method and program |
KR20150008968A (en) * | 2013-06-28 | 2015-01-26 | 엘지전자 주식회사 | Mobile terminal and controlling method thereof |
KR102019129B1 (en) * | 2013-06-28 | 2019-09-06 | 엘지전자 주식회사 | Mobile terminal and controlling method thereof |
WO2015043264A1 (en) * | 2013-09-25 | 2015-04-02 | 歌尔声学股份有限公司 | Method and system for achieving self-adaptive surrounding sound |
CN103491397A (en) * | 2013-09-25 | 2014-01-01 | 歌尔声学股份有限公司 | Method and system for achieving self-adaptive surround sound |
US10097921B2 (en) | 2014-05-26 | 2018-10-09 | Insight Acoustic Ltd. | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals |
JP2017521902A (en) * | 2014-05-26 | 2017-08-03 | シャーマン, ウラディミールSHERMAN, Vladimir | Circuit device system for acquired acoustic signals and associated computer-executable code |
EP3149960A4 (en) * | 2014-05-26 | 2018-01-24 | Vladimir Sherman | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals |
EP3195618B1 (en) * | 2014-09-12 | 2019-04-17 | Sonova AG | A method for operating a hearing system as well as a hearing system |
US10225670B2 (en) | 2014-09-12 | 2019-03-05 | Sonova Ag | Method for operating a hearing system as well as a hearing system |
US9875410B2 (en) | 2014-11-26 | 2018-01-23 | Hanwha Techwin Co., Ltd. | Camera system for transmitting and receiving an audio signal and operating method of the same |
JP2018511212A (en) * | 2015-02-13 | 2018-04-19 | ヌープル, インコーポレーテッドNoopl, Inc. | System and method for improving hearing |
EP3411873A4 (en) * | 2016-02-04 | 2019-01-23 | Magic Leap, Inc. | Technique for directing audio in augmented reality system |
US10536783B2 (en) | 2016-02-04 | 2020-01-14 | Magic Leap, Inc. | Technique for directing audio in augmented reality system |
CN108604439B (en) * | 2016-02-04 | 2021-12-28 | 奇跃公司 | Techniques to direct audio in augmented reality systems |
US11812222B2 (en) | 2016-02-04 | 2023-11-07 | Magic Leap, Inc. | Technique for directing audio in augmented reality system |
JP2020092448A (en) * | 2016-02-04 | 2020-06-11 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | Technique for directing audio in augmented reality system |
US11445305B2 (en) | 2016-02-04 | 2022-09-13 | Magic Leap, Inc. | Technique for directing audio in augmented reality system |
EP4075826A1 (en) * | 2016-02-04 | 2022-10-19 | Magic Leap, Inc. | Technique for directing audio in augmented reality system |
CN108604439A (en) * | 2016-02-04 | 2018-09-28 | 奇跃公司 | The technology of directional audio in augmented reality system |
US10075624B2 (en) | 2016-04-28 | 2018-09-11 | Bose Corporation | Wearable portable camera |
JP2018007256A (en) * | 2016-07-04 | 2018-01-11 | イーエム−テック・カンパニー・リミテッドEM−TECH.Co.,Ltd. | Voice amplifier with audio focusing function |
US10303929B2 (en) | 2016-10-27 | 2019-05-28 | Bose Corporation | Facial recognition system |
WO2018081412A1 (en) * | 2016-10-27 | 2018-05-03 | Bose Corporation | Facial recognition system |
US11669298B2 (en) | 2017-02-28 | 2023-06-06 | Magic Leap, Inc. | Virtual and real object recording in mixed reality device |
US10725729B2 (en) | 2017-02-28 | 2020-07-28 | Magic Leap, Inc. | Virtual and real object recording in mixed reality device |
US11194543B2 (en) | 2017-02-28 | 2021-12-07 | Magic Leap, Inc. | Virtual and real object recording in mixed reality device |
CN107333200A (en) * | 2017-07-24 | 2017-11-07 | 歌尔科技有限公司 | One kind translation earphone storage box, wireless translation earphone and wireless translation system |
CN107333200B (en) * | 2017-07-24 | 2023-10-20 | 歌尔科技有限公司 | Translation earphone receiver, wireless translation earphone and wireless translation system |
JP2019054385A (en) * | 2017-09-14 | 2019-04-04 | カシオ計算機株式会社 | Sound collecting device, hearing aid, and sound collecting device set |
JPWO2019078338A1 (en) * | 2017-10-19 | 2020-11-19 | ソニー株式会社 | Electronics |
CN111201770A (en) * | 2017-10-19 | 2020-05-26 | 索尼公司 | Electronic instrument |
EP3700182A4 (en) * | 2017-10-19 | 2020-12-30 | Sony Corporation | Electronic apparatus |
JP7247890B2 (en) | 2017-10-19 | 2023-03-29 | ソニーグループ株式会社 | Electronic equipment and signal processing equipment |
JP7160044B2 (en) | 2017-10-19 | 2022-10-25 | ソニーグループ株式会社 | Electronics |
US11483481B2 (en) | 2017-10-19 | 2022-10-25 | Sony Corporation | Electronic instrument |
CN111201771A (en) * | 2017-10-19 | 2020-05-26 | 索尼公司 | Electronic instrument |
WO2019078339A1 (en) * | 2017-10-19 | 2019-04-25 | ソニー株式会社 | Electronic apparatus |
JPWO2019078339A1 (en) * | 2017-10-19 | 2020-11-19 | ソニー株式会社 | Electronics |
WO2019078338A1 (en) * | 2017-10-19 | 2019-04-25 | ソニー株式会社 | Electronic apparatus |
US11368609B2 (en) | 2017-10-19 | 2022-06-21 | Sony Corporation | Electronic apparatus |
CN111201770B (en) * | 2017-10-19 | 2022-08-09 | 索尼公司 | Electronic instrument |
CN111201771B (en) * | 2017-10-19 | 2022-08-30 | 索尼公司 | Electronic instrument |
US11887617B2 (en) | 2018-07-17 | 2024-01-30 | Samsung Electronics Co., Ltd. | Electronic device for speech recognition and control method thereof |
JP2019046482A (en) * | 2018-10-09 | 2019-03-22 | 日本電信電話株式会社 | Voice video tracking device |
JP6773990B1 (en) * | 2019-12-26 | 2020-10-21 | 富士通クライアントコンピューティング株式会社 | Information processing system and information processing equipment |
JP2021105883A (en) * | 2019-12-26 | 2021-07-26 | 富士通クライアントコンピューティング株式会社 | Information processing system and information processor |
CN111402912A (en) * | 2020-02-18 | 2020-07-10 | 云知声智能科技股份有限公司 | Voice signal noise reduction method and device |
EP3982361A1 (en) | 2020-10-09 | 2022-04-13 | Yamaha Corporation | Talker prediction method, talker prediction device, and communication system |
US11736887B2 (en) | 2020-10-09 | 2023-08-22 | Yamaha Corporation | Audio signal processing method and audio signal processing apparatus that process an audio signal based on position information |
EP3989222A1 (en) | 2020-10-09 | 2022-04-27 | Yamaha Corporation | Audio signal processing method and audio signal processing apparatus |
EP3982363A1 (en) | 2020-10-09 | 2022-04-13 | Yamaha Corporation | Audio signal processing method and audio signal processing apparatus |
US11875800B2 (en) | 2020-10-09 | 2024-01-16 | Yamaha Corporation | Talker prediction method, talker prediction device, and communication system |
US11956606B2 (en) | 2020-10-09 | 2024-04-09 | Yamaha Corporation | Audio signal processing method and audio signal processing apparatus that process an audio signal based on posture information |
CN113099158A (en) * | 2021-03-18 | 2021-07-09 | 广州市奥威亚电子科技有限公司 | Method, device, equipment and storage medium for controlling pickup device in shooting site |
CN113099158B (en) * | 2021-03-18 | 2024-04-26 | 广州市奥威亚电子科技有限公司 | Pick-up device control method, pick-up device control device, pick-up device control equipment and storage medium |
EP4227888A1 (en) | 2022-02-10 | 2023-08-16 | Yamaha Corporation | Image processing method and image processing apparatus |
WO2023164814A1 (en) * | 2022-03-01 | 2023-09-07 | 深圳市大疆创新科技有限公司 | Media apparatus and control method and device therefor, and target tracking method and device |
CN116760499A (en) * | 2023-07-07 | 2023-09-15 | 恩平市天悦音响科技有限公司 | Sound console sound tuning management system and method based on big data |
CN116760499B (en) * | 2023-07-07 | 2023-12-01 | 恩平市天悦音响科技有限公司 | Sound console sound tuning management system and method based on big data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012029209A (en) | Audio processing system | |
US10959037B1 (en) | Gaze-directed audio enhancement | |
US11869475B1 (en) | Adaptive ANC based on environmental triggers | |
US11361744B2 (en) | Acoustic transfer function personalization using sound scene analysis and beamforming | |
US20100074460A1 (en) | Self-steering directional hearing aid and method of operation thereof | |
JP2022518883A (en) | Generating a modified audio experience for audio systems | |
US20220066207A1 (en) | Method and head-mounted unit for assisting a user | |
US10897668B1 (en) | Customized sound field for increased privacy | |
US11843926B2 (en) | Audio system using individualized sound profiles | |
US11605191B1 (en) | Spatial audio and avatar control at headset using audio signals | |
KR20220047257A (en) | Earplug assembly for a hear-through audio system | |
US10553196B1 (en) | Directional noise-cancelling and sound detection system and method for sound targeted hearing and imaging | |
US11290837B1 (en) | Audio system using persistent sound source selection for audio enhancement | |
US11470439B1 (en) | Adjustment of acoustic map and presented sound in artificial reality systems | |
US10979838B2 (en) | Power reduction via smart microphone selection using environmental intelligence | |
US20240098409A1 (en) | Head-worn computing device with microphone beam steering | |
US11967335B2 (en) | Foveated beamforming for augmented reality devices and wearables | |
US20220180885A1 (en) | Audio system including for near field and far field enhancement that uses a contact transducer | |
US11871198B1 (en) | Social network based voice enhancement system | |
CN117941375A (en) | Audio system with tissue transducer driven by air conduction transducer | |
CN117158000A (en) | Discrete binaural spatialization of sound sources on two audio channels |