JP6681405B2 - 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット - Google Patents

声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット Download PDF

Info

Publication number
JP6681405B2
JP6681405B2 JP2017541853A JP2017541853A JP6681405B2 JP 6681405 B2 JP6681405 B2 JP 6681405B2 JP 2017541853 A JP2017541853 A JP 2017541853A JP 2017541853 A JP2017541853 A JP 2017541853A JP 6681405 B2 JP6681405 B2 JP 6681405B2
Authority
JP
Japan
Prior art keywords
equipment
point
voice
vocalization
optimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017541853A
Other languages
English (en)
Other versions
JP2018511962A (ja
Inventor
駱磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds (shenzhen) Technologies Co Ltd
Cloudminds Shenzhen Technologies Co Ltd
Original Assignee
Cloudminds (shenzhen) Technologies Co Ltd
Cloudminds Shenzhen Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds (shenzhen) Technologies Co Ltd, Cloudminds Shenzhen Technologies Co Ltd filed Critical Cloudminds (shenzhen) Technologies Co Ltd
Publication of JP2018511962A publication Critical patent/JP2018511962A/ja
Application granted granted Critical
Publication of JP6681405B2 publication Critical patent/JP6681405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Manipulator (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)

Description

本発明は声収集の技術分野に関し、特に、声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットに関する。
従来技術では、声を受信するために、同一の設備に一つ又は複数のマイクロホン(又は、「マイク」と略称する)が備えられてきている。携帯電話を例とすると、それには一つのハンドヘルドに向けるメインマイクと、一つのラウドスピーキングモードに向けるメインマイクと、一つの雑音低減に向けるマイクと、が備えられている。その他の設備では、マイクロホンの個数は様々である。
従来の設備は、受動的に声を受信し、即ち、静的に一定の箇所に位置して、声を検知すると当該声を受信するものが多いのが現状である。しかしながら、このように受信された声は効果があまりよくなく、声が望ましくない方向からのものであれば、受信された声も望ましくなくなり、さらに、後続する声の認識も困難になってしまう可能性がある。
従来技術は、従来の設備が静的に声を受信することが多いから、受信された声が望ましくないものになってしまう問題がある。
本発明の実施例は、従来の設備が静的に声を受信することが多いから、受信された声が望ましくないものになってしまうという技術問題を解決するために、声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットを提案した。
一つの態様では、本発明の実施例は、
設備における少なくとも三つのマイクロホンにより声を受信することと、
受信された声に基づいて、三次元空間での発声点の位置を計算することと、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整することと、
を含む、声を受信する処理方法を提供する。
他の態様では、本発明の実施例は、
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するための受信モジュールと、
受信された声に基づいて三次元空間での発声点の位置を計算するための発声点位置計算モジュールと、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するための位置調整モジュールと、
を備える、声を受信する処理装置を提供する。
他の態様では、本発明の実施例は、前記方法を実行するための指令が記憶されている記憶媒体を提供する。
他の態様では、本発明の実施例は、前記記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、振動モータとを備える携帯端末を提供する。
他の態様では、本発明の実施例はさらに、前記記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンとを備えるロボットを提供する。
本発明の実施例による声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットは、設備における少なくとも三つのマイクロホンにより声を受信し、受信された声に基づいて三次元空間での発声点の位置を計算し、最終的に、前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するようになっている。本発明の実施例では、少なくとも三つのマイクロホンにより声を受信しているため、三次元空間での発声点の位置を正確に確定することが可能になり、そして、発声点の位置の確定後、前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせて、声の受信効果を最適化させるように、三次元空間での発声点の位置及び設備自体の最適な声受信領域に応じて設備の物理的位置を調整することができる。
以下、図面を参照して、本発明の具体的な実施例を説明する。
本発明の実施例にかかる声を受信する処理方法を実施するフロー模式図である。 本発明の実施例にかかる設備でのマイクロホンの設置位置の模式図である。 本発明の実施例において三次元モデルを確立した模式図である。 本発明の実施例にかかる声を受信する処理装置の構造模式図である。
本発明の技術的解決手段及び利点をより明瞭にするために、以下、本発明の例示的な実施例を図面に合わせてより詳細に説明するが、説明されるものは本発明の実施例の一部に過ぎず、すべての実施例を挙げたものではないことは明らかである。また、本開示中の実施例及びその特徴は、衝突のない限り、互いに組み合わせることができる。
従来の設備が主に静的に声を受信するものが多く、声の方向を判定し最適な声受信方向に調整するものではないことを、発明者は本発明の検討過程において認識した。
また、携帯電話を例とすると、一つのハンドヘルドに向けるメインマイクと、一つのラウドスピーキングモードに向けるメインマイクと、一つの雑音低減に向けるマイクとが備えられているが、同一時刻で、最も多くとも二つのマイクロホンのみが動作している。携帯電話自体は声がどの方向からのものであるかを判断できず、最適な効果を達成するように自体の方向を調整することもできない。
これに応じて、本発明の実施例は声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットを提供するようになり、以下に説明する。
図1には、本発明の実施例にかかる声を受信する処理方法を実施するフロー模式図が示されており、図に示されるように、前記した声を受信する処理方法は、
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するステップ101と、
受信された声に基づいて、三次元空間での発声点の位置を計算するステップ102と、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するステップ103と、
を含んでもよい。
具体的な実施では、設備自体における3つや4つ又はより多くのマイクロホンにより声を受信することができ、マイクロホンの設置位置は実際の需要に応じて決めることができる。前記設備の最適な声受信領域はマイクロホンの設置位置に応じて決めることができ、一般に、設備でのハードウェア(例えばマイクロホン)の位置が決まれば、その最適な声受信領域が決まるようになる。本発明の実施例では、前記最適な声受信領域は、前記設備の周りの空間のうち前記設備のマイクロホンによる声受信効果が最善になる(又は最適になる)領域であり、当該領域と設備との間の位置関係は比較的一定となっている。
一般には、音源の向きをマイクロホンの中心軸線に合わせて夾角を「0」とする場合、声受信効果が最適になり、即ち、単一のマイクロホンにとっては、声の延長線では声受信効果が最善になるが、設備における複数のマイクロホンにとっては、マイクロホン毎による声採取範囲の共通分が最適領域となるはずではなく、これは、マイクロホン毎は機能が異なり、例えばメインマイクや雑音低減用のマイクに分けられているためである。設備の最適な声採取範囲は設備が立ち上げ仕上げられると一定となり、具体的には、最適な声採取範囲の空間での位置は設備自体及びその立ち上げに依存し、当該最適受信領域は従来技術により確定することができる。
本発明の実施例では、前記設備の物理的位置を調整することによって前記設備の最適な声受信領域を調整し、より良好な声受信効果を達成することができる。具体的な実施では、以下の二つの状況がありうる。
一つの状況は、前記設備の最適な声受信領域が前記発声点の位置を覆っていることであり、これを最適な声受信状態と称してもよい。前記設備の物理的位置を調整することにより、前記設備の最適な声受信領域を調整して最適な声受信領域に発声点の位置を覆わせることができ、発声点の位置が前記設備の最適な声受信領域に位置するようになるため、前記設備による声受信効果が最適になるのを確保することができる。
設備の最適な声受信領域は優先順位付けられた点の集合であってもよく、その中に最適な声受信点001、002...等が含まれている。具体的な実施の場合、まず、前記最適な声受信点001が前記発声点の位置に重なるように発声点の位置及び最適な声受信点001に応じて前記設備の物理的位置を調整することができ、設備が各種の原因で最適な声受信点001を満たすことができないと、最適な声受信点として優先順位付けられた002を選択し、そして、前記最適な声受信点002が前記発声点の位置に重なるように発声点の位置に合わせて前記設備の物理的位置を調整するようにしてもよい。
もう一つの状況は、前記設備の最適な声受信領域が前記発声点の位置に近いことである。
具体的な実施では、設備は外部又は自体の原因で最適な声受信状態、即ち、設備の最適な声受信領域が前記発声点の位置を覆っている状態に調整できない可能性があり、例えば、設備が他のものに遮られ、あるいは、自体の状態調整部品の動力が不足になってしまう。本発明の実施例では、前記設備の最適な声受信領域を前記発声点の位置に近づけるように前記設備の物理的位置を調整することによって、調整前より良好な声受信効果を実現することができる。このような場合では、前記最適な声受信領域に完全に前記発声点の位置を覆わせる必要がなく、前記設備の最適な声受信領域を前記発声点の位置に近づければよい。
本発明の実施例に記載した二つの状況、即ち、最適な声受信領域が前記発声点の位置を覆っていること、あるいは、最適な声受信領域が前記発声点の位置に近いことのいずれによっても、調整前より良好な声受信効果を実現することができる。
本発明の実施例に記載した設備の物理的位置は、設備の空間位置と向きを含んでもよく、例えば、最適な声受信領域を前記発声点の位置に近づけ又は最適な声受信領域に前記発声点の位置を覆わせるように前記設備の空間位置を調整し、例えば、設備を左へ30cm移動するようにしてもよいし、また、最適な声受信領域を前記発声点の位置に近づけ又は最適な声受信領域に前記発声点の位置を覆わせるように前記設備の向きを調整し(即ち、空間位置を変えなくてもよく、設備自体の向きのみを変える)、例えば、設備の現在の向きを時計回りに90度変えるようにしてもよいし、さらには、最適な声受信領域を前記発声点の位置に近づけ又は最適な声受信領域に前記発声点の位置を覆わせるように設備の空間位置を調整しながらその向きを調整し、例えば、設備を左へ30cm移動しながらその現在の向きを時計回りに90度変えるようにしてもよい。
本発明の実施例では少なくとも三つのマイクロホンにより声を受信しているため、後続する発声点の位置の計算に際して三次元空間での発声点の位置を算出でき、発声点の位置のより正確な計算は確保されている。
また、本発明の実施例では、三次元空間での発声点の位置に応じて設備の状態を調整しているだけではなく、三次元空間での発声点の位置と設備の最適な声受信領域とを組み合わせて、前記設備の最適な声受信領域を前記発声点の位置に近づけ又は前記設備の最適な声受信領域に前記発声点の位置を覆わせるように前記設備の物理的位置を調整しており、それにより、より正確に設備を声受信効果のより良好な位置に調整して、より優れた声受信効果を確保することが可能になる。
実施では、前記した受信された声に基づいて三次元空間での発声点の位置を計算することは、具体的に以下のようなことにされてもよい。
声が受信された位相差に基づいて、発声点から二つのマイクロホン毎までの距離の差を計算し、
三次元モデルを構築して、少なくとも三つの三次元曲面の共通分を計算し、
二つのマイクロホンが声を受信した時間の差及び音速に基づいて、発声点から二つのマイクロホンまでの距離の差を算出し、なお、三次元曲面は、二つのマイクロホンまでの距離の差が以上のような値(即ち、発声点から二つのマイクロホンまでの距離の差)に等しい点の集合であり、ここでは三次元空間の双曲面であるが、双曲線の定義を参照してもよい)、
前記少なくとも三つの三次元曲面に基づいて発声点の位置を確定する。
具体的な実施では、異なるマイクロホンが異なる箇所に位置しているため、受信された声の位相の間に一定の差異があり、本発明の実施例では、マイクロホンが声を受信した後、キャッシュメモリにて受信された声の位相差を判定することにより、発声点の位置から二つのマイクロホン毎までの距離の差を算出することができる。
例えば、マイクロホンmic1,mic2,mic3,mic4があると仮定し、発声点からmic2とmic1までの距離の差としてb−aを算出し、発声点からmic3とmic2までの距離の差としてc−bを算出し、発声点からmic4とmic3までの距離の差としてd−cを算出し、発声点からmic3とmic1までの距離の差としてc−aを算出し、発声点からmic4とmic1までの距離の差としてd−aを算出し、発声点からmic4とmic2までの距離の差としてd−bを算出した。
三次元モデルを構築して、以下のような複数の三次元曲面が得られる。
すべてのmic2とmic1までの距離の差がb−aに等しい点の集合(三次元曲面1)、
すべてのmic3とmic2までの距離の差がc−bに等しい点の集合(三次元曲面2)、
すべてのmic4とmic3までの距離の差がd−cに等しい点の集合(三次元曲面3)、
すべてのmic3とmic1までの距離の差がc−aに等しい点の集合(三次元曲面4)、
すべてのmic4とmic1までの距離の差がd−aに等しい点の集合(三次元曲面5)、
すべてのmic4とmic2までの距離の差がd−bに等しい点の集合(三次元曲面6)。
これらの曲面の共通分を確定すれば、発声点の位置を確定することができる。
本発明の実施例では、少なくとも三つのマイクロホンで受信された声に基づいて三次元モデルを構築することによって、三次元曲面の共通分を計算して発声点の位置を計算するようになっており、発声点の位置の計算の正確度をさらに向上させた。
実施では、前記した前記少なくとも三つの三次元曲面の共通分に基づいて発声点の位置を確定することは、具体的に以下のようなことにされてもよい。
計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて発声点が位置する空間(設備の正面半分の空間と裏面半分の空間を含む)を確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定し、
計算された共通分が一つの点であると、前記共通分を発声点の位置と確定する。
曲面の共通分が二つの点であると、この二つの点は一つが発声点で、もう一つがマイクロホンを平面とする発声点の対称点であることが分かっている。この時、どの点が発声点であるかをさらに確定する必要がある。一般にマイクロホンが同一の方向を向くように設けられるわけがないことを考慮すると、本発明の実施例では、異なるマイクロホンで受信された声の強度を比較すれば、発声点が設備の正面半分の空間に位置しているかまたは裏面半分の空間に位置しているかを把握することができる。
具体的な実施では、設備の平面に応じて空間を二つの空間領域に分けて、声の最も高いマイクロホンの向きを発声点に対応する空間領域とすることができる。
本発明の実施例では、発声点の位置の確定は具体的に二つの状況があり、一つは前記共通分が一つの点である状況であり、そして当該共通分が発声点の位置となり、もう一つは前記共通分が二つの点である状況であり、この時、設備を正面半分の空間と裏面半分の空間に分けることにより発声点の位置をさらに確定し、計算結果をより正確にする。
実施では、前記設備はロボットであってもよく、前記した設備の状態を調整することは、具体的には、前記ロボットのステアリングと走行を制御することによって前記ロボットの向きと位置を調整することにされてもよい。
具体的な実施では、前記設備はロボットであってもよく、ロボット自体に備えられたマイクロホンにより声を受信するようにすることができ、そして、発声点の位置を算出してから、三次元空間での発声点の位置及びロボット自体の最適な声受信領域に応じて、ロボットを制御してステアリングと走行等の操作を行うことによって、ロボットの向きと位置を調整して、ロボットが声をより良好に受信できるようにする。
ロボットとの音声対話を行う場合、本発明の実施例による解決手段を採用すると、ロボットが利用者からの声を正確に受信するのを確保でき、そして後続する音声認識の正確度をある程度向上させ、それにより、ロボットとの音声対話過程でのユーザ体験を向上させた。
実施では、前記設備は携帯端末であってもよく、前記した設備の状態を調整することは、具体的には、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることにされてもよい。
具体的な実施では、前記設備は携帯端末例えば携帯電話、タブレット、ノートパソコン等の設備であってもよく、携帯端末自体における少なくとも三つのマイクロホンにより声を受信するようにすることができ、そして、三次元空間での発声点の位置を計算し、さらに携帯端末でのマイクロホンの設置位置に応じて携帯端末の最適な声受信領域を確定し、最終的に、前記携帯端末にそれが位置する平面において向きを変えさせるように発声点の位置及び最適な声受信領域に応じて振動部品即ち振動モータを制御して振動させる。
本発明の実施例による解決手段を採用すると、通信機器がハンズフリーモードにある時、例えば、ユーザが洗面し口をすすぎ又は食事する時等の電話を手で持ちにくい時、ハンズフリーモードに切り替えて着信に応答すれば、その時、携帯電話が最適な声受信状態になるように自らで振動して、ユーザから受信される声の効果をより望ましくすることが可能になる。
本発明の実施の便宜を図るために、以下に実例として説明する。
本発明の実施例について三つのマイクロホンが備えられた設備を例として説明するが、図2には、本発明の実施例にかかる設備でのマイクロホンの設置位置の模式図が示されており、設備における三つのマイクロホンは、図に示されるように、それぞれmic1、mic2、mic3である。声がA点からのもので、かつA点から設備における三つのマイクロホンまでの直線距離がそれぞれa、b、cであると仮定する。
まず、設備は同時に声を受信させるように三つのマイクロホンを制御可能にされており、キャッシュメモリにて受信された声の位相差を判定することによって、発声点から二つのマイクロホンまでの距離の差を算出する。図2に示されるように、b−a、c−a及びc−bの絶対値を得られる。
設備自体はそれにおけるマイクロホンの設置位置(又は組付け位置と称される)が分かっているため、設備の平面及び三つのマイクロホンの平面を得て、三次元モデルを構築することができる。
図3には、本発明の実施例において三次元モデルを確立した模式図が示されており、図に示されるように、すべてのmic2とmic1までの距離の差がb−aに等しい点の集合は三次元曲面S1となり、すべてのmic3とmic1までの距離の差がc−aに等しい点の集合は三次元曲面S2となり、すべてのmic3とmic2までの距離の差がc−bに等しい点の集合は三次元曲面S3となる。任意の二つの曲面が一つの線として交わっており、当該交線と三番目の曲線との交点は当該発声点、又は、発声点の対称点となり、図に示されるように、発声点Aは曲面S1とS3との交線に位置すると同時に、曲面S2にも位置している。
三つの曲面の共通分を計算して、以下の二つの状況が得られる。
発声点が三つのマイクロホンからなる平面と同一の平面にあれば、三つの曲面の共通分は一つの点のみあり、当該点が発声点の位置であると確定することができる。
逆に、三つの曲面の共通分から二つの点を得る可能性もあり、一つは発声点Aとなり、もう一つは三つのマイクロホンを平面とするA点の対称点A'となる。
一般には、設計の面から分かるように、三つのマイクロホンがすべて同一の方向を向くはずがないのは一般的であるため、三つのマイクロホンで受信された声の強度を比較すれば、発声点が設備の正面半分の空間に位置しているかまたは裏面半分の空間に位置しているかを把握できる。設備が位置する空間を正逆二つの領域に分けると、声の最も高いマイクロホンの向きを発声点が位置する空間とすることができる。
三つのマイクロホンの設置位置に応じて、自体の最適な声受信領域が三次元空間のどの領域にあるか、また、次善の領域がどの領域にあるか等を確定可能になる。
一般には、三つのマイクロホンの設置位置が一旦決まると、一つの領域は声受信効果が最善になり、使用シーンに基づいて立ち上げを行うことによって、設備の最適な声受信領域を確定することができる。通常、設備の最適な声受信領域は設備直前の領域である。例えば、3GPP雑音低減テストシナリオでは、ラウドスピーキングモード雑音低減のテストポイントとして設備直前の30cmを選択することができ、即ち、設備直前の30cmの領域は設備自体の最適な声受信領域であり、両側又は上下に一定角度ずれると、テスト結果がある程度劣化してしまう。
従来技術では、雑音低減手段や設備の立ち上げ状況は設備の最適な声受信領域に対する確定にある程度影響しており、当業者は実際の需要に応じて異なる手法により設備の最適な声受信領域を確定することができるが、ここでは贅言しない。
具体的な実施では、設備に対する立ち上げは使用シーンに基づいて行うのは一般的であるため、異なる使用シーン(例えば、携帯電話のラウドスピーキングモード、ハンドヘルドモード等)では、設備の最適な声受信領域はある程度異なっている可能性もある。
本発明の実施例では、設備は最善の音声信号の受信を実現するように、三次元空間での発声点及び最適な声受信領域の位置に応じて自体の向きと位置を調整することができる。
調整過程では、閉ループ運転を達成してより正確かつ迅速に調整を完了するために、上記した声の受信や、発声点の位置の計算や、最適な声受信領域の確定等の工程はやはり実行可能とされている。
本発明の実施例では、声の受信を最適化させるように、設備における三つ又はより多くのマイクロホンにより方向の認識を行い、その方向を自動的に調整することができる。
同一の発明思想に基づいて、本発明の実施例はさらに、前記方法を実行するための指令が記憶されている記憶媒体を提供する。
同一の発明思想に基づいて、本発明の実施例はさらに声を受信する処理装置を提供し、これらの設備にかかる問題を解決する原理は声を受信する処理方法に類似しているため、これらの設備の実施については方法の実施を参照でき、繰り返し部分について贅言しない。
図4には、本発明の実施例にかかる声を受信する処理装置の構造模式図が示されており、図に示されるように、前記した声を受信する処理装置は、
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するための受信モジュール401と、
受信された声に基づいて、三次元空間での発声点の位置を計算するための発声点位置計算モジュール402と、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するための位置調整モジュール403と、
を備えてもよい。
実施では、前記した発声点位置計算モジュールは、具体的には、
受信された声の位相差に基づいて、発声点から二つのマイクロホン毎までの距離の差を計算するための第一計算ユニットと、
三次元モデルを構築し、二つのマイクロホンまでの距離の差が発声点から二つのマイクロホンまでの距離の差に等しい点の集合である少なくとも三つの三次元曲面の共通分を計算するための第二計算ユニットと、
前記少なくとも三つの三次元曲面の共通分に基づいて発声点の位置を確定するための確定ユニットと、
を備えてもよい。
実施では、前記確定ユニットは、具体的には、計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて発声点が位置する空間(設備の正面半分の空間と裏面半分の空間を含む)を確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定し、計算された共通分が一つの点であると、前記共通分を発声点の位置と確定することに使用可能である。
実施では、前記位置調整モジュールはさらに、前記設備の状態を設備の最適な声受信領域が前記発声点の位置を覆うように調整できないと、声の受信品質に従って順序付けられた設備の声受信領域から次善の声受信領域を選択し、設備の状態を前記設備の次善の声受信領域が前記発声点の位置を覆うように調整することに使用可能である。
実施では、前記設備はロボットであってもよく、前記位置調整モジュールは、具体的には、前記ロボットのステアリングと走行を制御することによって、前記ロボットの向きと位置を調整することに使用可能である。
実施では、前記設備は携帯端末であってもよく、前記位置調整モジュールは、具体的には、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることに使用可能である。
同一の発明思想に基づいて、本発明の実施例はさらに、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、振動モータと、前記記憶媒体とを備える携帯端末を提供する。
同一の発明思想に基づいて、本発明の実施例はさらに、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、前記記憶媒体とを備えるロボットを提供する。
上記の実施例は、いずれも従来の機能部品・モジュールにより実施することができる。例えば、マイクロホンには従来の声受信部品を採用でき、少なくとも従来の通信機器に採用されている受話器には当該機能を実現する部品が備えられており、発声点位置計算モジュールについては、行われる発声点位置計算は従来の技術手段を採用でき、当業者は対応する設計開発を行えば実現可能であり、同時に、位置調整モジュールは、状態を調整可能な機能を備える任意の設備に備えられている部品である。
説明の便宜上、以上に記載した装置の各部分は機能で各種のモジュールやユニットに分けられてそれぞれ説明されていた。本発明を実施する場合、各モジュールやユニットの機能を同一又は複数のソフトウェア又はハードウェアにて実現可能であることは言うまでもない。
本発明の実施例は方法、システム、又はコンピュータプログラム製品として提供可能であることは、当業者にとっては明らかであるはずである。このため、本発明は完全ハードウェア形態の実施例、完全ソフトウェア形態の実施例、又は、ソフトウェアとハードウェアとを組み合わせた形態の実施例として実施することができる。また、本発明は、コンピュータ使用可能プログラム・コードが含まれる一つ又は複数のコンピュータ使用可能記憶媒体(ディスクメモリ、CD−ROM、光メモリ等を含むがそれらに限定されるものではない)にて実行されるコンピュータプログラム製品として実施することができる。
本発明は、その実施例に記載の方法、設備(システム)、及びコンピュータプログラム製品のフロー図及び/又はブロック図を参照して説明されていた。コンピュータプログラム指令により、フロー図及び/又はブロック図中のフロー及び/又はブロック毎、並びに、フロー図及び/又はブロック図中のフロー及び/又はブロックの組合せを実現可能であることは理解されるはずである。これらのコンピュータプログラム指令を、マシンを生成するように汎用コンピュータ、専用コンピュータ、組込みプロセッサ又はその他のプログラム可能データ処理機器のプロセッサに提供することができ、それにより、コンピュータ又はその他のプログラム可能データ処理機器のプロセッサにより実行される指令から、フロー図の一つ又は複数のフロー及び/又はブロック図の一つ又は複数のブロックにおいて指定された機能を実現するための装置を生成する。
これらのコンピュータプログラム指令をコンピュータ又はその他のプログラム可能データ処理機器を所定の方式で動作させるようにガイドしうるコンピュータ可読メモリに記憶することもでき、それにより、当該コンピュータ可読メモリに記憶された指令から、フロー図の一つ又は複数のフロー及び/又はブロック図の一つ又は複数のブロックにおいて指定された機能を実現する指令装置を含む製造品を生成する。
これらのコンピュータプログラム指令をコンピュータ又はその他のプログラム可能データ処理機器にロードすることもでき、それにより、コンピュータ又はその他のプログラム可能機器にて一連の操作工程を実行してコンピュータで実現される処理を生成し、そしてコンピュータ又はその他のプログラム可能機器にて実行される指令において、フロー図の一つ又は複数のフロー及び/又はブロック図の一つ又は複数のブロックにおいて指定された機能を実現するための工程を提供する。
本発明の好ましい実施例を説明したが、当業者が基本的な創造的思想を分かっていれば、これらの実施例について他の変更や手直しをすることが可能になる。このため、添付されている特許請求の範囲は、好ましい実施例及び本発明の範囲にあるすべての変更や手直しを含むものと解釈されようとしている。

Claims (14)

  1. 設備における少なくとも三つのマイクロホンから送信されてくる声を受信することと、
    受信された声のみに基づいて、三次元空間での発声点の位置を計算することと、
    前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて、前記設備の空間位置と向きを含む物理的位置を調整することにより、前記設備を声受信効果か゛最適な位置又は状態に調整することと、
    を含み、
    前記設備の最適な声受信領域は、前記設備の周りの空間のうち前記設備のマイクロホンによる声受信効果が最適になる領域であり、当該領域と前記設備との位置関係は一定となっていることを特徴とする、声を受信する処理方法。
  2. 前記した受信された声に基づいて、三次元空間での発声点の位置を計算することは、
    受信された声の位相差に基づいて、発声点から二つのマイクロホン毎までの距離の差を計算することと、
    三次元モデルを構築し、二つのマイクロホンまでの距離の差が発声点から前記二つのマイクロホンまでの距離の差に等しい点の集合である少なくとも三つの三次元曲面の共通分を計算することと、
    前記少なくとも三つの三次元曲面の共通分に基づいて、発声点の位置を確定することと、
    を含むことを特徴とする、請求項1に記載の方法。
  3. 前記した前記少なくとも三つの三次元曲面の共通分に基づいて、発声点の位置を確定することは、
    計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて、設備の正面半分の空間と裏面半分の空間を含む空間のいずれに発声点が位置するかを確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定することと、
    計算された共通分が一つの点であると、前記共通分を発声点の位置と確定することと、
    を含むことを特徴とする、請求項2に記載の方法。
  4. 前記設備はロボットであり、前記した前記設備の物理的位置を調整することは、前記ロボットのステアリングと走行を制御することによって、前記ロボットの向きと空間位置を調整することを含むことを特徴とする、請求項1〜3のいずれか一項に記載の方法。
  5. 前記設備は携帯端末であり、前記した前記設備の物理的位置を調整することは、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることを含むことを特徴とする、請求項1〜3のいずれか一項に記載の方法。
  6. 設備における少なくとも三つのマイクロホンから送信されてくる声を受信するための受信モジュールと、
    受信された声のみに基づいて三次元空間での発声点の位置を計算するための発声点位置計算モジュールと、
    前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて、前記設備の空間位置と向きを含む物理的位置を調整することにより、前記設備を声受信効果か゛最適な位置又は状態に調整するための位置調整モジュールと、
    を備え、
    前記設備の最適な声受信領域は、前記設備の周りの空間のうち前記設備のマイクロホンによる声受信効果が最適になる領域であり、当該領域と前記設備との位置関係は一定となっていることを特徴とする、声を受信する処理装置。
  7. 前記の発声点位置計算モジュールは、具体的には、
    受信された声の位相差に基づいて、発声点から二つのマイクロホン?までの距離の差を計算するための第一計算ユニットと、
    三次元モデルを構築し、二つのマイクロホンまでの距離の差が発声点から前記二つのマイクロホンまでの距離の差に等しい点の集合である少なくとも三つの三次元曲面の共通分を計算するための第二計算ユニットと、
    前記少なくとも三つの三次元曲面の共通分に基づいて、発声点の位置を確定するための確定ユニットと、
    を備えることを特徴とする、請求項6に記載の装置。
  8. 前記の確定ユニットは、具体的には、計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて、設備の正面半分の空間と裏面半分の空間を含む空間のいずれに発声点が位置するかを確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定し、計算された共通分が一つの点であると、前記共通分を発声点の位置と確定することに用いられていることを特徴とする、請求項7に記載の装置。
  9. 前記設備はロボットであり、前記の位置調整モジュールは、具体的には、前記ロボットのステアリングと走行を制御することによって、前記ロボットの向きと空間位置を調整することに用いられていることを特徴とする、請求項6〜8のいずれか一項に記載の装置。
  10. 前記設備は携帯端末であり、前記の位置調整モジュールは、具体的には、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることに用いられていることを特徴とする、請求項6〜8のいずれか一項に記載の装置。
  11. 請求項1−5のいずれかに記載の方法を実行するための指令が記憶されていることを特徴とする記憶媒体。
  12. 請求項11に記載の記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、振動モータとを備えることを特徴とする携帯端末。
  13. 請求項11に記載の記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンとを備えることを特徴とするロボット。
  14. コンピュータ使用可能記憶媒体に記載されたコンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プログラム指令を含み、前記プログラム指令が設備により実行される時に、請求項1〜5のいずれか一項に記載の方法が前記設備により実行されることを特徴とするコンピュータプログラム製品。
JP2017541853A 2015-08-31 2016-08-23 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット Active JP6681405B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510546558.4A CN105163209A (zh) 2015-08-31 2015-08-31 一种接收声音的处理方法及装置
CN201510546558.4 2015-08-31
PCT/CN2016/096361 WO2017036323A1 (zh) 2015-08-31 2016-08-23 一种接收声音的处理方法、装置、存储介质、移动终端及机器人

Publications (2)

Publication Number Publication Date
JP2018511962A JP2018511962A (ja) 2018-04-26
JP6681405B2 true JP6681405B2 (ja) 2020-04-15

Family

ID=54803948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017541853A Active JP6681405B2 (ja) 2015-08-31 2016-08-23 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット

Country Status (4)

Country Link
US (1) US10306360B2 (ja)
JP (1) JP6681405B2 (ja)
CN (1) CN105163209A (ja)
WO (1) WO2017036323A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163209A (zh) * 2015-08-31 2015-12-16 深圳前海达闼科技有限公司 一种接收声音的处理方法及装置
CN106954143B (zh) * 2017-03-02 2018-11-02 瑞声科技(南京)有限公司 手动调整音质的方法以及电子设备
CN107566660B (zh) * 2017-10-24 2020-06-09 Oppo广东移动通信有限公司 通话降噪方法、装置及终端
CN109121031B (zh) * 2018-10-29 2020-11-17 歌尔科技有限公司 一种音频设备定向显示方法、装置和音频设备
CN111383649B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 一种机器人及其音频处理方法
CN110001541A (zh) * 2019-04-16 2019-07-12 爱驰汽车有限公司 车载智能语音系统
CN112859001A (zh) * 2021-01-25 2021-05-28 恒大新能源汽车投资控股集团有限公司 车辆位置检测方法、装置、设备及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3157769B2 (ja) * 1998-03-02 2001-04-16 静岡日本電気株式会社 Tv音声制御装置
DE10036815A1 (de) * 2000-07-28 2002-02-07 Diehl Munitionssysteme Gmbh Pyrotechnischer Aufschlagzünder
JP3771812B2 (ja) * 2001-05-28 2006-04-26 インターナショナル・ビジネス・マシーンズ・コーポレーション ロボットおよびその制御方法
JP3969973B2 (ja) * 2001-07-12 2007-09-05 アマノ株式会社 音響信号を利用した清掃ロボット用誘導システム
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
JP2005333211A (ja) * 2004-05-18 2005-12-02 Sony Corp 音響収録方法、音響収録再生方法、音響収録装置および音響再生装置
US20060014301A1 (en) * 2004-07-13 2006-01-19 Power3 Medical Products, Inc. Antibody-based system for detection of differential protein expression patterns
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
CN101295016B (zh) * 2008-06-13 2011-04-27 河北工业大学 一种声源自主搜寻定位方法
JP5206151B2 (ja) * 2008-06-25 2013-06-12 沖電気工業株式会社 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
JP5663201B2 (ja) * 2009-06-04 2015-02-04 本田技研工業株式会社 音源方向推定装置及び音源方向推定方法
JP5340974B2 (ja) * 2010-01-26 2013-11-13 京セラ株式会社 携帯電子機器
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US9030520B2 (en) * 2011-06-20 2015-05-12 Polycom, Inc. Automatic camera selection for videoconferencing
CN102305925A (zh) * 2011-07-22 2012-01-04 北京大学 一种机器人连续声源定位方法
CN103366756A (zh) * 2012-03-28 2013-10-23 联想(北京)有限公司 一种声音信号的接收方法及装置
CN103716724B (zh) * 2012-09-28 2017-05-24 联想(北京)有限公司 一种声音采集方法及电子设备
US9239627B2 (en) * 2012-11-07 2016-01-19 Panasonic Intellectual Property Corporation Of America SmartLight interaction system
CN103856877B (zh) * 2012-11-28 2017-11-28 联想(北京)有限公司 一种声控信息检测方法及电子设备
CN103064061B (zh) * 2013-01-05 2014-06-11 河北工业大学 三维空间声源定位方法
CN104010251B (zh) * 2013-02-27 2018-06-19 晨星半导体股份有限公司 收音系统与相关方法
CN103176167B (zh) * 2013-03-21 2014-11-05 徐华中 一种基于锁相放大器的强干扰下声源定位方法
JP2014197771A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド 放送システムの音声出力制御装置及び音声出力制御方法
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
US20150022636A1 (en) * 2013-07-19 2015-01-22 Nvidia Corporation Method and system for voice capture using face detection in noisy environments
CN103472434B (zh) * 2013-09-29 2015-05-20 哈尔滨工程大学 一种机器人声音定位方法
US9338575B2 (en) * 2014-02-19 2016-05-10 Echostar Technologies L.L.C. Image steered microphone array
US9412354B1 (en) * 2015-01-20 2016-08-09 Apple Inc. Method and apparatus to use beams at one end-point to support multi-channel linear echo control at another end-point
CN105163209A (zh) * 2015-08-31 2015-12-16 深圳前海达闼科技有限公司 一种接收声音的处理方法及装置

Also Published As

Publication number Publication date
CN105163209A (zh) 2015-12-16
US20170287468A1 (en) 2017-10-05
WO2017036323A1 (zh) 2017-03-09
JP2018511962A (ja) 2018-04-26
US10306360B2 (en) 2019-05-28

Similar Documents

Publication Publication Date Title
JP6681405B2 (ja) 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット
US9881619B2 (en) Audio processing for an acoustical environment
US9615171B1 (en) Transformation inversion to reduce the effect of room acoustics
TWI502584B (zh) 電腦實施的波束成形方法,波束成形系統及相關之非暫時性電腦可讀媒體
EP2974367B1 (en) Apparatus and method for beamforming to obtain voice and noise signals
US20160157013A1 (en) Listen to people you recognize
KR101744121B1 (ko) 회의 컴퓨팅 디바이스들에서의 오디오 입/출력(i/o) 설정 디바이스들의 동적 조정을 가능하게 하는 메카니즘
WO2016160241A1 (en) Adjustable audio beamforming
JP2005529421A (ja) 可動ユニット及び可動ユニットを制御する方法
EP3472834A1 (en) Far field automatic speech recognition pre-processing
CN106663447B (zh) 具有噪声干扰抑制的音频系统
CN107621625B (zh) 基于双微麦克风阵的声源定位方法
JP2015516093A5 (ja)
JP2007005969A (ja) マイクロフォンアレイ装置
EP4079000A1 (en) Audio device auto-location
WO2019179469A1 (zh) 机器人转动的控制方法、装置、机器人及存储介质
US20240152390A1 (en) Enabling workers to swap between mobile devices
WO2016078415A1 (zh) 一种终端拾音控制方法、终端及终端拾音控制系统
WO2017089653A1 (en) Intelligent audio rendering
US11863960B2 (en) Audio output configuration for moving devices
JP2010197727A (ja) 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体
CN109545217B (zh) 语音信号接收方法、装置、智能终端及可读存储介质
CN111103807A (zh) 一种家用终端设备的控制方法及装置
JP2016061890A (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
US11157738B2 (en) Audio-visual perception system and apparatus and robot system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190605

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190724

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20190816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200323

R150 Certificate of patent or registration of utility model

Ref document number: 6681405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250