JP6681405B2

JP6681405B2 - 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット

Info

Publication number: JP6681405B2
Application number: JP2017541853A
Authority: JP
Inventors: 駱磊
Original assignee: Cloudminds (shenzhen) Technologies Co Ltd; Cloudminds Shenzhen Technologies Co Ltd
Current assignee: Cloudminds (shenzhen) Technologies Co Ltd; Cloudminds Shenzhen Technologies Co Ltd
Priority date: 2015-08-31
Filing date: 2016-08-23
Publication date: 2020-04-15
Anticipated expiration: 2036-08-23
Also published as: CN105163209A; US20170287468A1; WO2017036323A1; JP2018511962A; US10306360B2

Description

本発明は声収集の技術分野に関し、特に、声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットに関する。

従来技術では、声を受信するために、同一の設備に一つ又は複数のマイクロホン（又は、「マイク」と略称する）が備えられてきている。携帯電話を例とすると、それには一つのハンドヘルドに向けるメインマイクと、一つのラウドスピーキングモードに向けるメインマイクと、一つの雑音低減に向けるマイクと、が備えられている。その他の設備では、マイクロホンの個数は様々である。

従来の設備は、受動的に声を受信し、即ち、静的に一定の箇所に位置して、声を検知すると当該声を受信するものが多いのが現状である。しかしながら、このように受信された声は効果があまりよくなく、声が望ましくない方向からのものであれば、受信された声も望ましくなくなり、さらに、後続する声の認識も困難になってしまう可能性がある。

従来技術は、従来の設備が静的に声を受信することが多いから、受信された声が望ましくないものになってしまう問題がある。

本発明の実施例は、従来の設備が静的に声を受信することが多いから、受信された声が望ましくないものになってしまうという技術問題を解決するために、声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットを提案した。

一つの態様では、本発明の実施例は、
設備における少なくとも三つのマイクロホンにより声を受信することと、
受信された声に基づいて、三次元空間での発声点の位置を計算することと、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整することと、
を含む、声を受信する処理方法を提供する。

他の態様では、本発明の実施例は、
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するための受信モジュールと、
受信された声に基づいて三次元空間での発声点の位置を計算するための発声点位置計算モジュールと、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するための位置調整モジュールと、
を備える、声を受信する処理装置を提供する。

他の態様では、本発明の実施例は、前記方法を実行するための指令が記憶されている記憶媒体を提供する。

他の態様では、本発明の実施例は、前記記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、振動モータとを備える携帯端末を提供する。

他の態様では、本発明の実施例はさらに、前記記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンとを備えるロボットを提供する。

本発明の実施例による声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットは、設備における少なくとも三つのマイクロホンにより声を受信し、受信された声に基づいて三次元空間での発声点の位置を計算し、最終的に、前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するようになっている。本発明の実施例では、少なくとも三つのマイクロホンにより声を受信しているため、三次元空間での発声点の位置を正確に確定することが可能になり、そして、発声点の位置の確定後、前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせて、声の受信効果を最適化させるように、三次元空間での発声点の位置及び設備自体の最適な声受信領域に応じて設備の物理的位置を調整することができる。

以下、図面を参照して、本発明の具体的な実施例を説明する。

本発明の実施例にかかる声を受信する処理方法を実施するフロー模式図である。本発明の実施例にかかる設備でのマイクロホンの設置位置の模式図である。本発明の実施例において三次元モデルを確立した模式図である。本発明の実施例にかかる声を受信する処理装置の構造模式図である。

本発明の技術的解決手段及び利点をより明瞭にするために、以下、本発明の例示的な実施例を図面に合わせてより詳細に説明するが、説明されるものは本発明の実施例の一部に過ぎず、すべての実施例を挙げたものではないことは明らかである。また、本開示中の実施例及びその特徴は、衝突のない限り、互いに組み合わせることができる。

従来の設備が主に静的に声を受信するものが多く、声の方向を判定し最適な声受信方向に調整するものではないことを、発明者は本発明の検討過程において認識した。

また、携帯電話を例とすると、一つのハンドヘルドに向けるメインマイクと、一つのラウドスピーキングモードに向けるメインマイクと、一つの雑音低減に向けるマイクとが備えられているが、同一時刻で、最も多くとも二つのマイクロホンのみが動作している。携帯電話自体は声がどの方向からのものであるかを判断できず、最適な効果を達成するように自体の方向を調整することもできない。

これに応じて、本発明の実施例は声を受信する処理方法、装置、記憶媒体、携帯端末及びロボットを提供するようになり、以下に説明する。

図１には、本発明の実施例にかかる声を受信する処理方法を実施するフロー模式図が示されており、図に示されるように、前記した声を受信する処理方法は、
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するステップ１０１と、
受信された声に基づいて、三次元空間での発声点の位置を計算するステップ１０２と、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するステップ１０３と、
を含んでもよい。

具体的な実施では、設備自体における３つや４つ又はより多くのマイクロホンにより声を受信することができ、マイクロホンの設置位置は実際の需要に応じて決めることができる。前記設備の最適な声受信領域はマイクロホンの設置位置に応じて決めることができ、一般に、設備でのハードウェア（例えばマイクロホン）の位置が決まれば、その最適な声受信領域が決まるようになる。本発明の実施例では、前記最適な声受信領域は、前記設備の周りの空間のうち前記設備のマイクロホンによる声受信効果が最善になる（又は最適になる）領域であり、当該領域と設備との間の位置関係は比較的一定となっている。

一般には、音源の向きをマイクロホンの中心軸線に合わせて夾角を「０」とする場合、声受信効果が最適になり、即ち、単一のマイクロホンにとっては、声の延長線では声受信効果が最善になるが、設備における複数のマイクロホンにとっては、マイクロホン毎による声採取範囲の共通分が最適領域となるはずではなく、これは、マイクロホン毎は機能が異なり、例えばメインマイクや雑音低減用のマイクに分けられているためである。設備の最適な声採取範囲は設備が立ち上げ仕上げられると一定となり、具体的には、最適な声採取範囲の空間での位置は設備自体及びその立ち上げに依存し、当該最適受信領域は従来技術により確定することができる。

本発明の実施例では、前記設備の物理的位置を調整することによって前記設備の最適な声受信領域を調整し、より良好な声受信効果を達成することができる。具体的な実施では、以下の二つの状況がありうる。

一つの状況は、前記設備の最適な声受信領域が前記発声点の位置を覆っていることであり、これを最適な声受信状態と称してもよい。前記設備の物理的位置を調整することにより、前記設備の最適な声受信領域を調整して最適な声受信領域に発声点の位置を覆わせることができ、発声点の位置が前記設備の最適な声受信領域に位置するようになるため、前記設備による声受信効果が最適になるのを確保することができる。

設備の最適な声受信領域は優先順位付けられた点の集合であってもよく、その中に最適な声受信点００１、００２...等が含まれている。具体的な実施の場合、まず、前記最適な声受信点００１が前記発声点の位置に重なるように発声点の位置及び最適な声受信点００１に応じて前記設備の物理的位置を調整することができ、設備が各種の原因で最適な声受信点００１を満たすことができないと、最適な声受信点として優先順位付けられた００２を選択し、そして、前記最適な声受信点００２が前記発声点の位置に重なるように発声点の位置に合わせて前記設備の物理的位置を調整するようにしてもよい。

もう一つの状況は、前記設備の最適な声受信領域が前記発声点の位置に近いことである。

具体的な実施では、設備は外部又は自体の原因で最適な声受信状態、即ち、設備の最適な声受信領域が前記発声点の位置を覆っている状態に調整できない可能性があり、例えば、設備が他のものに遮られ、あるいは、自体の状態調整部品の動力が不足になってしまう。本発明の実施例では、前記設備の最適な声受信領域を前記発声点の位置に近づけるように前記設備の物理的位置を調整することによって、調整前より良好な声受信効果を実現することができる。このような場合では、前記最適な声受信領域に完全に前記発声点の位置を覆わせる必要がなく、前記設備の最適な声受信領域を前記発声点の位置に近づければよい。

本発明の実施例に記載した二つの状況、即ち、最適な声受信領域が前記発声点の位置を覆っていること、あるいは、最適な声受信領域が前記発声点の位置に近いことのいずれによっても、調整前より良好な声受信効果を実現することができる。

本発明の実施例に記載した設備の物理的位置は、設備の空間位置と向きを含んでもよく、例えば、最適な声受信領域を前記発声点の位置に近づけ又は最適な声受信領域に前記発声点の位置を覆わせるように前記設備の空間位置を調整し、例えば、設備を左へ３０ｃｍ移動するようにしてもよいし、また、最適な声受信領域を前記発声点の位置に近づけ又は最適な声受信領域に前記発声点の位置を覆わせるように前記設備の向きを調整し（即ち、空間位置を変えなくてもよく、設備自体の向きのみを変える）、例えば、設備の現在の向きを時計回りに９０度変えるようにしてもよいし、さらには、最適な声受信領域を前記発声点の位置に近づけ又は最適な声受信領域に前記発声点の位置を覆わせるように設備の空間位置を調整しながらその向きを調整し、例えば、設備を左へ３０ｃｍ移動しながらその現在の向きを時計回りに９０度変えるようにしてもよい。

本発明の実施例では少なくとも三つのマイクロホンにより声を受信しているため、後続する発声点の位置の計算に際して三次元空間での発声点の位置を算出でき、発声点の位置のより正確な計算は確保されている。

また、本発明の実施例では、三次元空間での発声点の位置に応じて設備の状態を調整しているだけではなく、三次元空間での発声点の位置と設備の最適な声受信領域とを組み合わせて、前記設備の最適な声受信領域を前記発声点の位置に近づけ又は前記設備の最適な声受信領域に前記発声点の位置を覆わせるように前記設備の物理的位置を調整しており、それにより、より正確に設備を声受信効果のより良好な位置に調整して、より優れた声受信効果を確保することが可能になる。

実施では、前記した受信された声に基づいて三次元空間での発声点の位置を計算することは、具体的に以下のようなことにされてもよい。

声が受信された位相差に基づいて、発声点から二つのマイクロホン毎までの距離の差を計算し、
三次元モデルを構築して、少なくとも三つの三次元曲面の共通分を計算し、
二つのマイクロホンが声を受信した時間の差及び音速に基づいて、発声点から二つのマイクロホンまでの距離の差を算出し、なお、三次元曲面は、二つのマイクロホンまでの距離の差が以上のような値（即ち、発声点から二つのマイクロホンまでの距離の差）に等しい点の集合であり、ここでは三次元空間の双曲面であるが、双曲線の定義を参照してもよい）、
前記少なくとも三つの三次元曲面に基づいて発声点の位置を確定する。

具体的な実施では、異なるマイクロホンが異なる箇所に位置しているため、受信された声の位相の間に一定の差異があり、本発明の実施例では、マイクロホンが声を受信した後、キャッシュメモリにて受信された声の位相差を判定することにより、発声点の位置から二つのマイクロホン毎までの距離の差を算出することができる。

例えば、マイクロホンｍｉｃ１，ｍｉｃ２，ｍｉｃ３，ｍｉｃ４があると仮定し、発声点からｍｉｃ２とｍｉｃ１までの距離の差としてｂ−ａを算出し、発声点からｍｉｃ３とｍｉｃ２までの距離の差としてｃ−ｂを算出し、発声点からｍｉｃ４とｍｉｃ３までの距離の差としてｄ−ｃを算出し、発声点からｍｉｃ３とｍｉｃ１までの距離の差としてｃ−ａを算出し、発声点からｍｉｃ４とｍｉｃ１までの距離の差としてｄ−ａを算出し、発声点からｍｉｃ４とｍｉｃ２までの距離の差としてｄ−ｂを算出した。

三次元モデルを構築して、以下のような複数の三次元曲面が得られる。

すべてのｍｉｃ２とｍｉｃ１までの距離の差がｂ−ａに等しい点の集合（三次元曲面１）、
すべてのｍｉｃ３とｍｉｃ２までの距離の差がｃ−ｂに等しい点の集合（三次元曲面２）、
すべてのｍｉｃ４とｍｉｃ３までの距離の差がｄ−ｃに等しい点の集合（三次元曲面３）、
すべてのｍｉｃ３とｍｉｃ１までの距離の差がｃ−ａに等しい点の集合（三次元曲面４）、
すべてのｍｉｃ４とｍｉｃ１までの距離の差がｄ−ａに等しい点の集合（三次元曲面５）、
すべてのｍｉｃ４とｍｉｃ２までの距離の差がｄ−ｂに等しい点の集合（三次元曲面６）。

これらの曲面の共通分を確定すれば、発声点の位置を確定することができる。

本発明の実施例では、少なくとも三つのマイクロホンで受信された声に基づいて三次元モデルを構築することによって、三次元曲面の共通分を計算して発声点の位置を計算するようになっており、発声点の位置の計算の正確度をさらに向上させた。

実施では、前記した前記少なくとも三つの三次元曲面の共通分に基づいて発声点の位置を確定することは、具体的に以下のようなことにされてもよい。

計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて発声点が位置する空間（設備の正面半分の空間と裏面半分の空間を含む）を確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定し、
計算された共通分が一つの点であると、前記共通分を発声点の位置と確定する。

曲面の共通分が二つの点であると、この二つの点は一つが発声点で、もう一つがマイクロホンを平面とする発声点の対称点であることが分かっている。この時、どの点が発声点であるかをさらに確定する必要がある。一般にマイクロホンが同一の方向を向くように設けられるわけがないことを考慮すると、本発明の実施例では、異なるマイクロホンで受信された声の強度を比較すれば、発声点が設備の正面半分の空間に位置しているかまたは裏面半分の空間に位置しているかを把握することができる。

具体的な実施では、設備の平面に応じて空間を二つの空間領域に分けて、声の最も高いマイクロホンの向きを発声点に対応する空間領域とすることができる。

本発明の実施例では、発声点の位置の確定は具体的に二つの状況があり、一つは前記共通分が一つの点である状況であり、そして当該共通分が発声点の位置となり、もう一つは前記共通分が二つの点である状況であり、この時、設備を正面半分の空間と裏面半分の空間に分けることにより発声点の位置をさらに確定し、計算結果をより正確にする。

実施では、前記設備はロボットであってもよく、前記した設備の状態を調整することは、具体的には、前記ロボットのステアリングと走行を制御することによって前記ロボットの向きと位置を調整することにされてもよい。

具体的な実施では、前記設備はロボットであってもよく、ロボット自体に備えられたマイクロホンにより声を受信するようにすることができ、そして、発声点の位置を算出してから、三次元空間での発声点の位置及びロボット自体の最適な声受信領域に応じて、ロボットを制御してステアリングと走行等の操作を行うことによって、ロボットの向きと位置を調整して、ロボットが声をより良好に受信できるようにする。

ロボットとの音声対話を行う場合、本発明の実施例による解決手段を採用すると、ロボットが利用者からの声を正確に受信するのを確保でき、そして後続する音声認識の正確度をある程度向上させ、それにより、ロボットとの音声対話過程でのユーザ体験を向上させた。

実施では、前記設備は携帯端末であってもよく、前記した設備の状態を調整することは、具体的には、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることにされてもよい。

具体的な実施では、前記設備は携帯端末例えば携帯電話、タブレット、ノートパソコン等の設備であってもよく、携帯端末自体における少なくとも三つのマイクロホンにより声を受信するようにすることができ、そして、三次元空間での発声点の位置を計算し、さらに携帯端末でのマイクロホンの設置位置に応じて携帯端末の最適な声受信領域を確定し、最終的に、前記携帯端末にそれが位置する平面において向きを変えさせるように発声点の位置及び最適な声受信領域に応じて振動部品即ち振動モータを制御して振動させる。

本発明の実施例による解決手段を採用すると、通信機器がハンズフリーモードにある時、例えば、ユーザが洗面し口をすすぎ又は食事する時等の電話を手で持ちにくい時、ハンズフリーモードに切り替えて着信に応答すれば、その時、携帯電話が最適な声受信状態になるように自らで振動して、ユーザから受信される声の効果をより望ましくすることが可能になる。

本発明の実施の便宜を図るために、以下に実例として説明する。

本発明の実施例について三つのマイクロホンが備えられた設備を例として説明するが、図２には、本発明の実施例にかかる設備でのマイクロホンの設置位置の模式図が示されており、設備における三つのマイクロホンは、図に示されるように、それぞれｍｉｃ１、ｍｉｃ２、ｍｉｃ３である。声がＡ点からのもので、かつＡ点から設備における三つのマイクロホンまでの直線距離がそれぞれａ、ｂ、ｃであると仮定する。

まず、設備は同時に声を受信させるように三つのマイクロホンを制御可能にされており、キャッシュメモリにて受信された声の位相差を判定することによって、発声点から二つのマイクロホンまでの距離の差を算出する。図２に示されるように、ｂ−ａ、ｃ−ａ及びｃ−ｂの絶対値を得られる。

設備自体はそれにおけるマイクロホンの設置位置（又は組付け位置と称される）が分かっているため、設備の平面及び三つのマイクロホンの平面を得て、三次元モデルを構築することができる。

図３には、本発明の実施例において三次元モデルを確立した模式図が示されており、図に示されるように、すべてのｍｉｃ２とｍｉｃ１までの距離の差がｂ−ａに等しい点の集合は三次元曲面Ｓ１となり、すべてのｍｉｃ３とｍｉｃ１までの距離の差がｃ−ａに等しい点の集合は三次元曲面Ｓ２となり、すべてのｍｉｃ３とｍｉｃ２までの距離の差がｃ−ｂに等しい点の集合は三次元曲面Ｓ３となる。任意の二つの曲面が一つの線として交わっており、当該交線と三番目の曲線との交点は当該発声点、又は、発声点の対称点となり、図に示されるように、発声点Ａは曲面Ｓ１とＳ３との交線に位置すると同時に、曲面Ｓ２にも位置している。

三つの曲面の共通分を計算して、以下の二つの状況が得られる。

発声点が三つのマイクロホンからなる平面と同一の平面にあれば、三つの曲面の共通分は一つの点のみあり、当該点が発声点の位置であると確定することができる。

逆に、三つの曲面の共通分から二つの点を得る可能性もあり、一つは発声点Ａとなり、もう一つは三つのマイクロホンを平面とするＡ点の対称点Ａ'となる。

一般には、設計の面から分かるように、三つのマイクロホンがすべて同一の方向を向くはずがないのは一般的であるため、三つのマイクロホンで受信された声の強度を比較すれば、発声点が設備の正面半分の空間に位置しているかまたは裏面半分の空間に位置しているかを把握できる。設備が位置する空間を正逆二つの領域に分けると、声の最も高いマイクロホンの向きを発声点が位置する空間とすることができる。

三つのマイクロホンの設置位置に応じて、自体の最適な声受信領域が三次元空間のどの領域にあるか、また、次善の領域がどの領域にあるか等を確定可能になる。

一般には、三つのマイクロホンの設置位置が一旦決まると、一つの領域は声受信効果が最善になり、使用シーンに基づいて立ち上げを行うことによって、設備の最適な声受信領域を確定することができる。通常、設備の最適な声受信領域は設備直前の領域である。例えば、３ＧＰＰ雑音低減テストシナリオでは、ラウドスピーキングモード雑音低減のテストポイントとして設備直前の３０ｃｍを選択することができ、即ち、設備直前の３０ｃｍの領域は設備自体の最適な声受信領域であり、両側又は上下に一定角度ずれると、テスト結果がある程度劣化してしまう。

従来技術では、雑音低減手段や設備の立ち上げ状況は設備の最適な声受信領域に対する確定にある程度影響しており、当業者は実際の需要に応じて異なる手法により設備の最適な声受信領域を確定することができるが、ここでは贅言しない。

具体的な実施では、設備に対する立ち上げは使用シーンに基づいて行うのは一般的であるため、異なる使用シーン（例えば、携帯電話のラウドスピーキングモード、ハンドヘルドモード等）では、設備の最適な声受信領域はある程度異なっている可能性もある。

本発明の実施例では、設備は最善の音声信号の受信を実現するように、三次元空間での発声点及び最適な声受信領域の位置に応じて自体の向きと位置を調整することができる。

調整過程では、閉ループ運転を達成してより正確かつ迅速に調整を完了するために、上記した声の受信や、発声点の位置の計算や、最適な声受信領域の確定等の工程はやはり実行可能とされている。

本発明の実施例では、声の受信を最適化させるように、設備における三つ又はより多くのマイクロホンにより方向の認識を行い、その方向を自動的に調整することができる。

同一の発明思想に基づいて、本発明の実施例はさらに、前記方法を実行するための指令が記憶されている記憶媒体を提供する。

同一の発明思想に基づいて、本発明の実施例はさらに声を受信する処理装置を提供し、これらの設備にかかる問題を解決する原理は声を受信する処理方法に類似しているため、これらの設備の実施については方法の実施を参照でき、繰り返し部分について贅言しない。

図４には、本発明の実施例にかかる声を受信する処理装置の構造模式図が示されており、図に示されるように、前記した声を受信する処理装置は、
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するための受信モジュール４０１と、
受信された声に基づいて、三次元空間での発声点の位置を計算するための発声点位置計算モジュール４０２と、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて前記設備の物理的位置を調整するための位置調整モジュール４０３と、
を備えてもよい。

実施では、前記した発声点位置計算モジュールは、具体的には、
受信された声の位相差に基づいて、発声点から二つのマイクロホン毎までの距離の差を計算するための第一計算ユニットと、
三次元モデルを構築し、二つのマイクロホンまでの距離の差が発声点から二つのマイクロホンまでの距離の差に等しい点の集合である少なくとも三つの三次元曲面の共通分を計算するための第二計算ユニットと、
前記少なくとも三つの三次元曲面の共通分に基づいて発声点の位置を確定するための確定ユニットと、
を備えてもよい。

実施では、前記確定ユニットは、具体的には、計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて発声点が位置する空間（設備の正面半分の空間と裏面半分の空間を含む）を確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定し、計算された共通分が一つの点であると、前記共通分を発声点の位置と確定することに使用可能である。

実施では、前記位置調整モジュールはさらに、前記設備の状態を設備の最適な声受信領域が前記発声点の位置を覆うように調整できないと、声の受信品質に従って順序付けられた設備の声受信領域から次善の声受信領域を選択し、設備の状態を前記設備の次善の声受信領域が前記発声点の位置を覆うように調整することに使用可能である。

実施では、前記設備はロボットであってもよく、前記位置調整モジュールは、具体的には、前記ロボットのステアリングと走行を制御することによって、前記ロボットの向きと位置を調整することに使用可能である。

実施では、前記設備は携帯端末であってもよく、前記位置調整モジュールは、具体的には、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることに使用可能である。

同一の発明思想に基づいて、本発明の実施例はさらに、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、振動モータと、前記記憶媒体とを備える携帯端末を提供する。

同一の発明思想に基づいて、本発明の実施例はさらに、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、前記記憶媒体とを備えるロボットを提供する。

上記の実施例は、いずれも従来の機能部品・モジュールにより実施することができる。例えば、マイクロホンには従来の声受信部品を採用でき、少なくとも従来の通信機器に採用されている受話器には当該機能を実現する部品が備えられており、発声点位置計算モジュールについては、行われる発声点位置計算は従来の技術手段を採用でき、当業者は対応する設計開発を行えば実現可能であり、同時に、位置調整モジュールは、状態を調整可能な機能を備える任意の設備に備えられている部品である。

説明の便宜上、以上に記載した装置の各部分は機能で各種のモジュールやユニットに分けられてそれぞれ説明されていた。本発明を実施する場合、各モジュールやユニットの機能を同一又は複数のソフトウェア又はハードウェアにて実現可能であることは言うまでもない。

本発明の実施例は方法、システム、又はコンピュータプログラム製品として提供可能であることは、当業者にとっては明らかであるはずである。このため、本発明は完全ハードウェア形態の実施例、完全ソフトウェア形態の実施例、又は、ソフトウェアとハードウェアとを組み合わせた形態の実施例として実施することができる。また、本発明は、コンピュータ使用可能プログラム・コードが含まれる一つ又は複数のコンピュータ使用可能記憶媒体（ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ等を含むがそれらに限定されるものではない）にて実行されるコンピュータプログラム製品として実施することができる。

本発明は、その実施例に記載の方法、設備（システム）、及びコンピュータプログラム製品のフロー図及び／又はブロック図を参照して説明されていた。コンピュータプログラム指令により、フロー図及び／又はブロック図中のフロー及び／又はブロック毎、並びに、フロー図及び／又はブロック図中のフロー及び／又はブロックの組合せを実現可能であることは理解されるはずである。これらのコンピュータプログラム指令を、マシンを生成するように汎用コンピュータ、専用コンピュータ、組込みプロセッサ又はその他のプログラム可能データ処理機器のプロセッサに提供することができ、それにより、コンピュータ又はその他のプログラム可能データ処理機器のプロセッサにより実行される指令から、フロー図の一つ又は複数のフロー及び／又はブロック図の一つ又は複数のブロックにおいて指定された機能を実現するための装置を生成する。

これらのコンピュータプログラム指令をコンピュータ又はその他のプログラム可能データ処理機器を所定の方式で動作させるようにガイドしうるコンピュータ可読メモリに記憶することもでき、それにより、当該コンピュータ可読メモリに記憶された指令から、フロー図の一つ又は複数のフロー及び／又はブロック図の一つ又は複数のブロックにおいて指定された機能を実現する指令装置を含む製造品を生成する。

これらのコンピュータプログラム指令をコンピュータ又はその他のプログラム可能データ処理機器にロードすることもでき、それにより、コンピュータ又はその他のプログラム可能機器にて一連の操作工程を実行してコンピュータで実現される処理を生成し、そしてコンピュータ又はその他のプログラム可能機器にて実行される指令において、フロー図の一つ又は複数のフロー及び／又はブロック図の一つ又は複数のブロックにおいて指定された機能を実現するための工程を提供する。

本発明の好ましい実施例を説明したが、当業者が基本的な創造的思想を分かっていれば、これらの実施例について他の変更や手直しをすることが可能になる。このため、添付されている特許請求の範囲は、好ましい実施例及び本発明の範囲にあるすべての変更や手直しを含むものと解釈されようとしている。

Claims

設備における少なくとも三つのマイクロホンから送信されてくる声を受信することと、
受信された声のみに基づいて、三次元空間での発声点の位置を計算することと、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて、前記設備の空間位置と向きを含む物理的位置を調整することにより、前記設備を声受信効果か゛最適な位置又は状態に調整することと、
を含み、
前記設備の最適な声受信領域は、前記設備の周りの空間のうち前記設備のマイクロホンによる声受信効果が最適になる領域であり、当該領域と前記設備との位置関係は一定となっていることを特徴とする、声を受信する処理方法。
前記した受信された声に基づいて、三次元空間での発声点の位置を計算することは、
受信された声の位相差に基づいて、発声点から二つのマイクロホン毎までの距離の差を計算することと、
三次元モデルを構築し、二つのマイクロホンまでの距離の差が発声点から前記二つのマイクロホンまでの距離の差に等しい点の集合である少なくとも三つの三次元曲面の共通分を計算することと、
前記少なくとも三つの三次元曲面の共通分に基づいて、発声点の位置を確定することと、
を含むことを特徴とする、請求項１に記載の方法。
前記した前記少なくとも三つの三次元曲面の共通分に基づいて、発声点の位置を確定することは、
計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて、設備の正面半分の空間と裏面半分の空間を含む空間のいずれに発声点が位置するかを確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定することと、
計算された共通分が一つの点であると、前記共通分を発声点の位置と確定することと、
を含むことを特徴とする、請求項２に記載の方法。
前記設備はロボットであり、前記した前記設備の物理的位置を調整することは、前記ロボットのステアリングと走行を制御することによって、前記ロボットの向きと空間位置を調整することを含むことを特徴とする、請求項１〜３のいずれか一項に記載の方法。
前記設備は携帯端末であり、前記した前記設備の物理的位置を調整することは、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることを含むことを特徴とする、請求項１〜３のいずれか一項に記載の方法。
設備における少なくとも三つのマイクロホンから送信されてくる声を受信するための受信モジュールと、
受信された声のみに基づいて三次元空間での発声点の位置を計算するための発声点位置計算モジュールと、
前記設備の最適な声受信領域を前記発声点の位置に近づけ、又は、前記設備の最適な声受信領域に前記発声点の位置を覆わせるように、前記三次元空間での発声点の位置及び前記設備の最適な声受信領域に応じて、前記設備の空間位置と向きを含む物理的位置を調整することにより、前記設備を声受信効果か゛最適な位置又は状態に調整するための位置調整モジュールと、
を備え、
前記設備の最適な声受信領域は、前記設備の周りの空間のうち前記設備のマイクロホンによる声受信効果が最適になる領域であり、当該領域と前記設備との位置関係は一定となっていることを特徴とする、声を受信する処理装置。
前記の発声点位置計算モジュールは、具体的には、
受信された声の位相差に基づいて、発声点から二つのマイクロホン?までの距離の差を計算するための第一計算ユニットと、
三次元モデルを構築し、二つのマイクロホンまでの距離の差が発声点から前記二つのマイクロホンまでの距離の差に等しい点の集合である少なくとも三つの三次元曲面の共通分を計算するための第二計算ユニットと、
前記少なくとも三つの三次元曲面の共通分に基づいて、発声点の位置を確定するための確定ユニットと、
を備えることを特徴とする、請求項６に記載の装置。
前記の確定ユニットは、具体的には、計算された共通分が二つの点であると、マイクロホンで受信された声の強度に基づいて、設備の正面半分の空間と裏面半分の空間を含む空間のいずれに発声点が位置するかを確定し、前記発声点が位置する空間に基づいて二つの点の一つを発声点の位置と確定し、計算された共通分が一つの点であると、前記共通分を発声点の位置と確定することに用いられていることを特徴とする、請求項７に記載の装置。
前記設備はロボットであり、前記の位置調整モジュールは、具体的には、前記ロボットのステアリングと走行を制御することによって、前記ロボットの向きと空間位置を調整することに用いられていることを特徴とする、請求項６〜８のいずれか一項に記載の装置。
前記設備は携帯端末であり、前記の位置調整モジュールは、具体的には、前記携帯端末にそれが位置する平面において向きを変えさせるように振動モータを制御して振動させることに用いられていることを特徴とする、請求項６〜８のいずれか一項に記載の装置。
請求項１−５のいずれかに記載の方法を実行するための指令が記憶されていることを特徴とする記憶媒体。
請求項１１に記載の記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンと、振動モータとを備えることを特徴とする携帯端末。
請求項１１に記載の記憶媒体と、前記記憶媒体内の指令を実行するためのプロセッサと、少なくとも三つのマイクロホンとを備えることを特徴とするロボット。
コンピュータ使用可能記憶媒体に記載されたコンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プログラム指令を含み、前記プログラム指令が設備により実行される時に、請求項１〜５のいずれか一項に記載の方法が前記設備により実行されることを特徴とするコンピュータプログラム製品。