JP2015056905A

JP2015056905A - 音声の到達性

Info

Publication number: JP2015056905A
Application number: JP2014185803A
Authority: JP
Inventors: レイシンタニピーター; Rae Shintani Peter; ジェイズースタックフレデリック; J Zustak Frederick
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-09-13
Filing date: 2014-09-12
Publication date: 2015-03-23
Also published as: CN104469491A; KR20150031179A; US20150078595A1

Abstract

【課題】聴覚障害者の音声の聞こえを改善す音声送達方法を提供する。
【解決手段】カメラ２４を用いてリスニング範囲を撮像し、各リスナー３６，４０の位置、頭及び耳の位置を特定し、顔認識により各登録されプロファイルされたリスナーを認識し、ディスプレイ２０に一体化された超音波トランスデューサアレイ３２より、リスナー３６、リスナー４０にプロファイルに合わせて右耳の聴力、左耳の聴力に適合した音量、周波数等化を行うことでリスナーの聴力を補償し、指向性音声ビームを向ける。
【選択図】図１

Description

〔著作権及び商標表示〕
本特許文書の開示の一部は、著作権保護の対象内容を含む。著作権の権利所有者は、合衆国特許商標庁の特許ファイル又は記録内に表されるとおりに第三者が特許文書又は特許開示を複製することには異議を唱えないが、それ以外は全ての著作権を留保する。商標は、これらのそれぞれの所有者の所有物である。

合衆国高度通信サービス法には、様々な身体障害に対応するための要件があり、その１つに聴覚障害がある。この法律は、テレビ装置の提供元が、聴覚障害を持つ人への音声提示の改善を試みる対策を講じることを求めている。

以下の詳細な説明を添付図面と共に参照することにより、構成及び動作方法を示すいくつかの例示的な実施形態、並びに目的及び利点を最も良く理解することができる。

本発明のいくつかの実施形態によるテレビ音声システムの例である。本発明のいくつかの実施形態によるリスナープロファイルの実装例である。本発明のいくつかの実施形態による、指向性音声システムにおけるリスナーの頭の回転の影響の例を示す図である。本発明のいくつかの実施形態による、指向性音声システムにおけるリスナーの頭の回転の影響の例を示す図である。本発明のいくつかの実施形態による、指向性音声システムにおけるリスナーの頭の回転の影響の例を示す図である。本発明のいくつかの実施形態による動作方法を示すフローチャート例である。本発明のいくつかの実施形態による音声調整方法のフローチャート例である。本発明のいくつかの実施形態による指向性音声システムのブロック図表現例である。本発明のいくつかの実施形態による、ある位置に超音波音声アレイを向けるための構成例である。

本発明は多くの異なる形の実施形態が可能であるが、図面には特定の実施形態を示し、本明細書ではこれらについて詳細に説明しており、このような実施形態の開示は原理の一例として見なすべきであり、図示及び説明する特定の実施形態に本発明を限定することを意図するものではないと理解されたい。以下の説明では、図面の複数の図における同様の、類似の又は一致する部分については同じ参照番号を用いて説明する。

本明細書で使用する「１つの（英文不定冠詞）」という用語は、１又は１よりも多くの、と定義される。本明細書で使用する「複数の」という用語は、２又は２よりも多くの、と定義される。本明細書で使用する「別の」という用語は、少なくとも第２の又はそれ以上の、と定義される。本明細書で使用する「含む（ｉｎｃｌｕｄｉｎｇ）」及び／又は「有する（ｈａｖｉｎｇ）」という用語は、「備える（ｃｏｍｐｒｉｓｉｎｇ）」（すなわち包括的な用語）と定義される。本明細書で使用する「結合される（ｃｏｕｐｌｅｄ）」という用語は、「接続される」と定義されるが、必ずしも直接的な、また必ずしも機械的な接続ではない。本明細書で使用する「プログラム」又は「コンピュータプログラム」という用語又は類似の用語は、コンピュータシステム上での実行を意図された一連の命令として定義される。「プログラム」又は「コンピュータプログラム」は、実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、スクリプト、プログラムモジュール、共有ライブラリ／動的ロードライブラリ及び／又はコンピュータシステム上で実行するように設計されたその他の一連の命令におけるサブルーチン、関数、手順、アプリケーション、オブジェクト方法、オブジェクト実装を含むことができる。本明細書で使用する「テレビ受信機」という用語又は同様の用語は、テレビ、セットトップボックス（ＳＴＢ）、又はテレビ番組を受信するように構成されたその他の装置を含むあらゆるテレビ受信機を含むことが意図されている。「ディスプレイ」又は同様のものは、テレビ装置、又は音声を含むコンテンツを受信できるコンピュータシステムの一部を構成することができる。本明細書の教示に従う装置は、ＳＴＢ、独立型サウンドバー、外付け型アドオン音声装置、又は音声機能を有しているがチューナーを有していないモニタ、及びその他の実装の形に例示化することができる。

本明細書を通じて、「一実施形態」、「いくつかの実施形態」、「実施形態」、「実装」、「実施例」又は同様の用語に対する言及は、その実施形態に関連して説明する特定の特徴、構造又は特性が、本発明の少なくとも１つの実施形態に含まれることを意味する。従って、本明細書を通じて至るところに出現するこのような語句は、必ずしも全てが同じ実施形態を意味するわけではない。さらに、１又はそれ以上の実施形態において、これら特定の特徴、構造又は特性をあらゆる好適な方法で無制限に組み合わせることもできる。

本明細書で使用する「又は」という用語は包括的なものとして解釈すべきであり、すなわちいずれか１つ又はあらゆる組み合わせを意味する。従って、「Ａ、Ｂ又はＣ」は、「Ａ、Ｂ、Ｃ、ＡとＢ、ＡとＣ、ＢとＣ、ＡとＢとＣ、のいずれか」を意味する。この定義に対する例外は、要素、機能、ステップ又は行為の組み合わせが何らかの点で本質的に互いに相容れない場合にのみ生じる。

「音声特性」という用語は、以下に限定されるわけではないが、音量、等化、圧縮、ルームシミュレーション、チャネルミックスなどを含む、電子音声信号内で調整できる属性を意味すると解釈すべきである。

上述したように、合衆国高度通信サービス法には、様々な身体障害に対応するための要件があり、その１つに聴覚障害がある。この法律は、テレビ装置の提供元が、聴覚障害を持つ人への音声提示の改善を試みる対策を講じることを求めている。

なお、聴覚障害は人によって大きく異なり、左と右で異なることも多い。難聴は、一方の耳に限定されることもあり、或いは程度の差はあれ、一方の耳の方が他方の耳よりも深刻なこともある。また、影響する周波数も人によって異なり、さらには同じ人物でも耳によって異なる。このような聴覚障害は、聴力の異なる複数の人々が同じテレビ視聴範囲内に存在する時に問題を示すことがある。この結果、テレビの音声が主に最も聞えの悪い人の聴力に対応するように調節され、その他のリスナーには不快なほど大音量になることがある。

音声信号は、小型超音波トランスデューサのアレイを使用して非常に指向性の高い超音波ビームを送信する超音波技術を用いて指向性を高めることができる。この高い指向性レベルは、主に、送信される超音波信号の波長をトランスデューサが近似するようにされることによってもたらされる。リスナーの耳に向けて２つの超音波信号を送ることにより、音声をこれらの２つの信号間の周波数差に符号化することができる。空気と耳の非線形性により、２つの超音波信号がミキシングされ、加算信号と差分信号が生じるようになる。差分信号は、元々符号化されている音声を表し、リスナーに聞こえる。このような２つのビームセットをリスナーの左耳と右耳に向けることにより、ステレオ音声のプログラミングを実現することができる。

このメカニズムを有利に利用して、聴覚障害者の音声の聞こえを改善することができる。一般に、聴覚障害者は、例えばテレビ（ＴＶ）を見る時に、テレビ番組を楽しむために大音量を必要とする。これにより、聴覚障害がなく小さな音量を好む他のリスナーが犠牲になるという不都合が生じ得る。

従って、リスナーへの音声の送達を個人の聴力特性に合わせ、この個別化した音声を超音波送達とともに個人に向けることができる。さらに、カメラにより画像認識を用いて個人を識別し、この識別された個人に調整音を向けることができる。音について狙いを定めることは複数の方法で行うことができる。位相配列したトランスデューサを用いることもできるが、この方法には指向性の粒度（角度）などの制限があり、同時に標的にすることができるリスナーの数にも制限がある。

好ましい方法は、上述したような個別化した音の超音波送達を使用することである。音を約４０ｋＨｚなどの超音波範囲に周波数シフトさせる。次に、この超音波を別の超音波でビートすることにより、加算信号、差分信号及び基本信号を生じさせる。リスナーには差分信号しか聞こえない。この結果、トランスデューサの寸法のかなりの部分が超音波の波長になるので、非常に指向性の高い音が送達されるようになる。これにより、個々の受け手に対して音を向けることができるようになる。

音について狙いを定めるには、１つの技術として、固定することも又は予め設定しておくこともできる複数の調整可能なゾーンを有することである。通常、リスナーは、室内の比較的固定された場所にある椅子又はソファにより定められる個々の固定された位置に座る。従って、位置が定まると、リスナーのみを識別し、予め設定した位置内のリスナーの位置を特定する必要がある。リスナーの識別は、ユーザが自分自身を手動で識別した場合には単純化することができ、或いはＲＦＩＤ、Ｂｌｕｅｔｏｏｔｈ(登録商標)、リモコン装置又は多くのリモコン装置のうちの１つの所有、識別可能な携帯電話機の所有などの技術を用いてさらに高度化することもできる。好ましい実装では、カメラ又はその他の画像取り込み装置を用いて、顔認識及び記憶済みのリスナープロファイルを使用してリスナーの位置特定及び識別を行い、各リスナーを空間的に特徴付ける。

ここで図１を参照して、超音波音声を用いて複数のリスナー間で音声を分離する、いくつかの実施形態による非限定的なテレビシステム例の実装について検討する。この図では、ディスプレイ２０又はテレビ受信機などのその他の装置（ＳＴＢ、外付け型音声処理装置など）が、リスニング範囲２８を撮像するための一体型カメラ２４を有する。ディスプレイ２０に関連する又は一体化された音声システムが超音波トランスデューサアレイ３２を使用し、この超音波トランスデューサアレイ３２を利用して、上述した超音波技術を用いてリスナー３６及びリスナー４０などの１又はそれ以上のリスナーに標的が定められた指向性音声ビームを向ける。いくつかの実装では、これらのリスナー３６及びリスナー４０を、頻繁にテレビを見る人物とすることができ、従ってこれらのリスナーは頻繁にリスニング範囲２８内に存在する。

これらのリスナーの各々の音声体験をカスタマイズするために、各リスナーのプロファイルを設定し、未認識のリスナーにはデフォルトプロファイル又はゲストプロファイルを与えることができる。カメラ２４を用いてリスニング範囲を撮像することにより、解析時に１）各リスナーの位置、２）各リスナーの頭及び耳の位置を特定し、３）各登録されプロファイルされたリスナーを認識し、又はリスナーをゲストとして指定することができる画像を提供して、４）リスナーの動きを追跡し、５）リスナーにおけるリスニング体験にとって重要な動きを確認し、６）リスナーのプロファイルに示されるリスナーの好み又は聴力に音声プログラムを合わせることができる。このように、リスナー３６が通常の聴力を有し、リスナー４０の聴力が劣っている場合には、これらの人物の要望及び好みに従い、他方の人物に対する影響を最小限に抑えた状態で各人を個別に取り扱うことができる。別の実施形態では、プロファイルに好ましい言語を含めることができ、従って複数の言語を提供することができる。様々な音声言語のサブチャネルを用いて、主音声チャネルで提供されている言語、又はセットアップ中に示されるデフォルト言語以外の言語を好むリスナーに対応することができる。別の実施形態では、単語置換エンジンが、ペアレンタルコントロールの制限又は制約対象として識別された、及びこの制限又は制約に関連付けられた特定のリスナーのために、好ましくない単語又は語句を選択的に置き換えることができる。

限定ではなく一例として、テレビシステム及び図２に示すような「ジョージ」という名前のリスナーのプロファイル画面５０の実装について検討する。この（例えば、テレビのメニューシステムから呼び出される）プロファイル画面例では、リスナーが参照用の画像５２を提供し、可能であれば利用可能な音声言語サブチャネルからの選択に使用できる好ましい言語を５６において選択することができる。さらに、このリスナープロファイルは、明示していないその他の好み、特性及び／又は制約を含むより大きなユーザプロファイルの一部とすることができる。テレビのカメラ２４は、プロファイル５０からジョージの音声特性を検索するために、リスニング範囲の画像を取り込む際に、この画像を顔認識のための参照として使用することができる。この例では、ジョージの右耳の聴力が左耳の聴力に比べて弱く、右耳音量が最大であり左耳音量が約半分である音量設定６０にこのことが反映されている。また、６８に示すように高い周波数が聞こえにくい右耳に比べ、６４では、左耳が低、中、高周波数をバランスよく聞き取れることを示している。この例では、聴力が正常である人物の周波数等化は平坦に近く、音量は低レベル（例えば、約２５％）であると仮定することができる。

音声システムは、このプロファイルをテンプレートとして使用して、右チャネルの音量が非常に大きく左チャネルの音量が通常よりも大きな、ジョージに特化した音声信号をビーム放出することができる。また、右チャネルの音声は、低周波よりも中間及び高周波の方が音量が大きくなるように調整される。このプロファイルは、音声システムの助けにより、又はリスナーの好みに基づいて実験的に設定することができる。一実施形態では、音声セットアップが、リスナーの聴力テストを行って音声セットアッププロトコルに対するリスナーの反応に従って音声特性を修正することにより、個人プロファイルの設定においてユーザをガイドする。このような実装例では、試験トーンを生成し、これにユーザが応答して、特定のユーザが特定の周波数範囲をどのレベルで聴取できるかを判定することができる。これを行う際には、ユーザが自身の聴力を高めるように手動で等化を調整することも、或いはプロファイルで使用するための適当な等化を音声システムが導出することもできる。

別の実装例では、単語又は語句を（例えば、各チャネルで１回）聞こえるように再生しながらディスプレイ上にも表示し、表示された発話単語又は語句を理解する能力に関してユーザに問い合わせを行うことができる。例えば、ほとんどの聴覚問題は、高周波成分を聞き取る能力の低下から始まる。従って、かなりの高周波内容を含む「ｓｐｏｏｎ（スプーン）」、「ｓｈｉｐ（船）」、「ｔｈｉｃｋｅｔ（茂み）」などの単語を再生し、ユーザが、最も良好な理解度及び／又は右側と左側の聴力の均等性をもたらす特定のＱ、等化、フィルタリング及びバランスを示すことができる。システムは、フィルタ特性が体系的に異なる訓練過程を各ユーザに受けさせ、各ユーザは、最も高い理解度で発話を聞き取る能力の最適化を支援することができる。プロファイルにデータが設定されると、ボタン７４を使用してプロファイルを保存し、又は自動セットアップ過程の一部としてプロファイルを終了して保存することができ、或いはプロファイルを以前の設定に戻すための、又は以前に何も設定されていない場合にはプロファイル無しの状態に戻すためのボタン７８をリスナーが使用して保存せずに終了することもできる。

この例では、音声プログラムがリスナーにステレオ音響でビーム放出されると仮定しているが、音声ビームの指向性及び精度要件を下げた同様に良好なモノラル形式で音声をビーム放出することもできるので、これを限定と見なすべきではない。さらに、音声は左耳及び右耳に向けてビーム放出することができるが、超音波音声ビームが重ならないようにするという要件はない。

なお、従来のステレオ音声システムでサラウンド音響をステレオ送出する場合、このステレオミックスは、マルチチャネル音声プログラムの数多くのチャネルから得られたミックスであることが多い。例えば、５．１チャネル音声システムは、センターチャネル、左フロントチャネル、右フロントチャネル、左リアチャネル、右リアチャネル及びサブウーファチャネルを有する。このようなマルチチャネル音声ミックスでは、一般に、見ているテレビ番組又は映画のセリフ（発話）の大部分がセンターチャネルによって伝えられる。同様に、低周波は、サブウーファチャネルなどで扱われる。これをステレオにミキシングした場合、センターチャネルのセリフは、一般に左チャネルと右チャネルに分割される。通常、テレビ及びその他の音声再生では、１つ又は２つのチャネルしか使用されないので、マルチチャネル音声から少ないチャネル数への音声信号ミックスダウンを、聴覚障害者にとってより望ましいリスニング体験を実現するように調整することができる。

例えば、リスナーが、他の音の存在下で発話を認識する能力に障害を有する場合、このリスナーには、リスナープロファイルに基づいて高レベルのセンターチャネルミックスを提供することが有利となり得る。従って、いくつかの実施形態による音声送達方法は、プログラム制御プロセッサを利用して、記憶されているリスナープロファイルを検索し、これを読み出してリスナーに関連する音声特性設定を確認し、音声ミキサにおいて、このプログラム制御プロセッサが、リスナーのリスニング体験を改善するように、記憶されているリスナープロファイルに基づいてマルチチャネル音声プログラムのチャネルミキシングをより少ない数のチャネルに調整する。

ここで、図３Ａ、図３Ｂ及び図３Ｃから構成される図３を参照すると、本教示を検討した時に、音声を指向性ビームでリスナーに送る際に別の問題が生じる可能性があると理解されよう。図３Ａでは、リスナー９０の両耳が容易に左側音声ビームと右側音声ビーム（Ｌ及びＲとして図示）の直接的な標的となるようにリスナーが位置している場合、このリスナーには、意図する通りにステレオ音声が聞こえる。しかしながら、リスナー９０が、図３Ｂに示すように頭を回転させると、左耳の音声プログラムの方が右耳の音声プログラムよりも顕著になる。さらに図３Ｃを例に取って検討すると、この図では、右耳が（右耳ビームを表す点線で示すように）頭によって完全に遮られている一方で、左耳は容易に左耳ビームの標的となっている。このような状況では、ビームの指向性及び左音声と右音声のステレオ分離が、リスナー９０に不利に働くことがある。この場合、リスナーの頭の動きによって音声が消失又は減少した時にテレビ番組又は映画のセリフが失われないことが一般に最善である。従って、本明細書の教示による方法では、カメラ２４がリスナーの連続的な画像を撮影することにより、標的リスナーが動いた時に（特に頭を動かした時に）これらの動きが追跡される。システムが、リスナーのヒアリング体験が動きによって妨げられたことを検出した場合、元のマルチチャネルプログラム材料のミックスダウンを適応させ、又はステレオ音声のミックスを調整することができる。

限定ではなく一例として、頭の位置が図３Ａに示す位置から図３Ｃの位置に動いたことが検出された場合、プログラム制御プロセッサの制御下で右チャネル音声を左チャネル音声にシフトさせるようにミックスを自動的に操作することができる。別の実施形態では、同じ頭の動きの場合、リスナーがセリフを失う可能性が最も低くなるように、プログラム制御プロセッサによる制御下でセンターチャネルミックスを左チャネルにシフトさせるようにミックスを自動的に操作することができる。いずれにせよ、プロセッサが音声ミックスを調整する時にはリスナーの聴力プロファイルが参照され、従って上記の例においてリスナー９０がジョージであり右チャネルの情報を左チャネルにシフトさせる場合には、左耳と右耳の間の全体的な聞こえ方の差異に従って音量を下げ、同様に通常であれば右耳用の、左耳に送られる音声の周波数等化を、例えば高周波数内容を下げるように調整する。さらに別の実施形態では、様々なチャネルのミックスを操作してリスニング体験を高めることができる。例えば、ある人物の聴力が、左耳での発話理解度が劣っており右耳では良好な場合、プロファイル情報に基づいて、主に右耳にセリフをミキシングすることができる。ミックスは、数多くのチャネルからのミックスダウンを変更することにより、又はミックスを左と右の間で単純にシフトさせてステレオ分離を減少させる（近似又はモノラル化する）ことにより、或いは他のいずれかの望ましい方法により操作することができる。当業者には、本教示を検討した時に他の多くの変形例が浮かぶであろう。

また、ある人物が聴覚障害を有する場合、この聴覚障害を持つリスナーが良く聞こえる方の耳を音源に向けるように頭を回転させることは、多くの場合自動的に近い行動である。従って、このミキシング又はその他の音声特性の変更は、この人間の一般的反応を利用した改善に適合する。

ここで図４を参照すると、１０４から開始する１つの実装例のフローチャート１００を示している。１０８において、音声システムは、システムがリスナープロファイルに関連する指向性音声のビーム放出を使用するように構成されているか否かを判定する。そのように構成されていない場合、１１２において、システムは、従来のスピーカを備えた従来に近い音声システムに戻ることができる。そのように構成されている場合、１１６において、リスニング範囲の１又はそれ以上の画像を撮影し、１２０において、画像解析プログラムを用いてこの画像を解析し、リスナー及びその位置を識別しようと試みる。この画像解析では、人々を識別した後に、プロファイルにリスナーの音声特性を記憶している人々を識別する目的で顔認識アルゴリズムを開始する。１２４において、認識されたリスナーについては、そのプロファイルがプロファイルデータベースから検索され、未認識のリスナーについては、デフォルトプロファイル又はゲストプロファイルが検索される。次に、１２８において、リスナーのプロファイル及びリスナーの位置に基づいて音声特性を調整する。ミックス及びその他の音声特性は、上述したようにリスナーの耳の位置に基づいて調整することができる。

音声プロファイルがロードされると、１３２において、リスニング範囲内の物理的位置に存在する認識されたリスナーに対して音声を指向的にビーム放出する。同様に、１３６において、未認識のリスナーは、そのリスニング範囲内の物理的位置において、デフォルトプロファイル又はゲストプロファイルを用いた指向性音声ビームを同時に受け取る。プロセスは、リスナーの物理的位置を追跡し続けるために、また上述したようにリスナーの頭の位置を利用する場合には、この頭の位置もモニタするために、１４０においてプロセスの反復を開始して１０８に戻ることにより連続的に更新される。このプロセス例１００には明記していないが、リスニング範囲に新たなリスナーが入って来ていない場合にはブロック１２４をスキップすることができる。

プロセス１００の機能１２８は、図５の１２８として示すプロセス例を含む様々な方法で実施することができる。このプロセス実装例では、１５０において（ステレオ、５．１サラウンド、７．１サラウンドなどの）マルチチャネル音声を受け取る。１５４において、各リスナーの左耳及び右耳の位置を特定する。１５８において、左耳と右耳がいずれも図３のように容易に標的となる（バランスがとれている）場合、１６２において、特定のリスナーのプロファイルに従う通常のチャネルミックスを提示し、リスナーの音声チャネルビームに割り当てる。しかしながら、一方の又は他方の耳へのビームが劣化するとシステムが判定するような位置にリスナーの頭が存在する場合、システムは、１６６において、どちらの耳が指向性音源に近いかを判定する。次に、１７０において音声をリミックスする。この例では、このリミックスにより、（センターチャネルなどの）セリフを含むチャネルの重み付けが、指向性音源に近い方の耳に大きく加えられる。他の実施形態では、依然として両耳が少なくとも部分的に音声ビームを受け取ることができる場合、システムが、指向性音源から遠い方の耳へのビーム放出に依拠して音声ビームを正しく受け取ることができないと見なすまで、指向性音源から遠い方の耳に対する音量を大きくして、連続的なステレオ体験を提供することができる。この場合、ミックスをモノラルに変換し、又はセリフチャネルを指向性音源に近い方の耳にシフトし、又はその他の適当なミキシング及び再等化を実施することができる。いずれにせよ、プロセスは、リスナー毎に１６２及び１７０の両方から１７４に戻ってプロセス１２８を完了する。当業者には、本教示を検討した時に他の多くの変形例が浮かぶであろう。

いくつかの実施形態によるシステム例を、図６のシステム２００として示す。超音波トランスデューサ２０２などの指向性音声トランスデューサのアレイが全体的にリスニング範囲２０６に向けられ、トランスデューサドライバ及び方向制御装置２１０により駆動される。ブロック２１０は、リスナーに向かう指向性音声ビームを上述した形で生成するように超音波トランスデューサアレイ２０２を駆動する役割を果たす。非一時的記憶媒体に記憶された２２２として示すプログラム命令からのプログラム制御下で上述したような位置の識別及び顔認識のための画像処理を行うようにプログラムされたプログラム制御プロセッサ２１８の制御下でカメラ２１４を使用することにより、リスナーを位置特定して識別する。

取り込まれた画像を上述したように処理して、リスニング範囲２０６内の人々を識別し、位置を特定する。次に、２２２の顔認識アルゴリズムを実行して、検出された顔をプロファイルデータベース２２６内の顔と比較する。プロファイルデータベース２２６においてリスナーが識別されると、（１又は複数の）プログラム制御プロセッサ２１８は、このプロファイルデータを使用して音声プロセッサ２３０内でミキシング及び等化機能を実行し、リスナーのプロファイルに合わせてリスナーの聴力を補償すべく音源２３４からの音声が調整されるようにする。

このプロセスは、上述したように様々なリスナーの動きを識別して各リスナーへの適切な１又は複数の音声ビームを維持するように連続的に更新される。

音声ビームの方向付けは、あらゆる有効な形で行うことができる。例えば、図７に示すように、少なくとも水平回転を可能にするジンバル式装着構成に複数の超音波トランスデューサアレイを装着することができるが、超音波トランスデューサアレイ２５０がリスニング範囲２０６内の広範にわたる位置を標的にすることができるように、水平方向回転と垂直方向回転の両方の２次元運動を可能にすることが好ましい。このジンバル式装着は、ジンバル装着された超音波トランスデューサアレイ２５０を、サーボコントローラ２５４を用いて駆動することによって（単複の）リスナーが好適に標的となるように、サーボ制御アルゴリズムを実行するプログラム制御プロセッサ２１８の制御下で調整される。リスニング範囲２０６内で常に多くのリスナーを標的化できるように、このような複数の構成が設けられる。当業者であれば、本教示を検討した時に、指向性音声ビームでリスナーを標的にするために他の構成を提供することもできると理解するであろう。

従って、いくつかの実装によれば、音声送達方法が、画像取り込み装置を用いてリスニング範囲の画像を取り込むステップと、１又はそれ以上のプログラム制御プロセッサにおいて、この画像を処理してリスニング範囲内のリスナーの位置を特定するステップと、この画像を処理してリスニング範囲内のリスナーの顔を識別するステップと、この画像を処理してリスナーの耳の位置を特定するステップと、識別された顔に関連する記憶されているリスナープロファイルを検索するステップと、リスナープロファイルに基づいて１又はそれ以上の音声特性を調整するステップと、指向性音声ビームをリスナーの耳に向かうように制御するステップとを含む。画像取り込み装置を用いて、リスナーの後続する一連の画像を取り込み、１又はそれ以上のプログラム制御プロセッサにおいて、後続する一連の画像の解析により、リスニング範囲内のリスナーの耳の位置の動きをモニタし、リスニング範囲内のリスナーの動きに基づいて指向性音声ビームを調整する。

いくつかの実装では、指向性音声ビームが、複数のチャネルを含むマルチチャネル音声プログラムのミックスダウンを含む。いくつかの実装では、指向性音声ビームを調整するステップが、マルチチャネル音声プログラムのミキシングを変更するステップを含む。いくつかの実装では、マルチチャネル音声プログラムがセンターチャネルを含み、複数のチャネルのミキシングが、指向性音声ビームの音源に近い方の位置に動いたリスナーの耳に対するセンターチャネルプログラムの振幅を増加させることを含む。いくつかの実装では、指向性音声ビームが超音波音声ビームを含む。いくつかの実装では、画像取り込み装置が、テレビ受信機に組み込まれたカメラを含む。いくつかの実装では、画像取り込み装置が、電子ディスプレイ装置に組み込まれたカメラを含む。いくつかの実装では、制御するステップが、ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御するステップを含む。

別の音声送達方法は、画像取り込み装置を用いてリスニング範囲の画像を取り込むステップを含む。次に、このプロセスは、１又はそれ以上のプログラム制御プロセッサにおいて、画像を処理してリスニング範囲内のリスナーの位置を特定し、画像を処理してリスニング範囲内のリスナーの顔を識別し、画像を処理してリスナーの左耳及び右耳の位置を特定し、識別された顔に関連する記憶されているリスナープロファイルを検索し、リスナープロファイルに基づいて１又はそれ以上の音声特性を調整し、左チャネル及び右チャネルの指向性音声ビームを、前記リスナーの左耳及び右耳にそれぞれ向かうように制御し、画像取り込み装置を用いて、リスナーの後続する一連の画像を取り込む。このプロセスは、１又はそれ以上のプログラム制御プロセッサにおいて、後続する一連の画像の解析により、リスニング範囲内のリスナーの耳の位置の動きをモニタするステップと、リスニング範囲内のリスナーの左耳及び右耳の動きに基づいて、左右の指向性音声ビームにより搬送される音声のミキシングを調整するステップとをさらに含む。

いくつかの実装では、左右の指向性音声ビームが、センターチャネルを含むマルチチャネル音声プログラムのステレオミックスダウンを含む。いくつかの実装では、音声のミキシングを調整するステップが、リスナーの右耳又は左耳のいずれか一方に対するセンターチャネルプログラムの振幅を、指向性音声ビームの音源に近い方の位置に動いたリスナーの右耳又は左耳の一方のためのセンターチャネルプログラムの振幅が増加するように増加させるステップを含む。いくつかの実装では、指向性音声ビームが超音波音声ビームを含む。いくつかの実装では、画像取り込み装置が、テレビ受信機に組み込まれたカメラを含む。いくつかの実装では、画像取り込み装置が、電子ディスプレイ装置に組み込まれたカメラを含む。いくつかの実装では、制御するステップが、ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御するステップを含む。

音声送達システムの別の例は、リスニング範囲の画像を取り込むように構成された画像取り込み装置を有する。１又はそれ以上のプログラム制御プロセッサが、画像を処理してリスニング範囲内のリスナーの位置を特定し、画像を処理してリスニング範囲内のリスナーの顔を識別し、画像を処理してリスナーの耳の位置を特定し、識別された顔に関連する記憶されているリスナープロファイルを検索し、リスナープロファイルに基づいて１又はそれ以上の音声特性を調整し、指向性音声ビームをリスナーの耳に向かうように制御するようプログラムされる。画像取り込み装置は、リスナーの後続する一連の画像を取り込むようにさらに構成され、１又はそれ以上のプログラム制御プロセッサは、後続する一連の画像の解析により、リスニング範囲内のリスナーの耳の位置の動きをモニタし、リスニング範囲内のリスナーの動きに基づいて指向性音声ビームを調整するようにさらにプログラムされる。

いくつかの実装では、指向性音声ビームが、複数のチャネルを含むマルチチャネル音声プログラムのミックスダウンを含む。いくつかの実装では、指向性音声ビームを調整することが、マルチチャネル音声プログラムのミキシングを変更することを含む。いくつかの実装では、マルチチャネル音声プログラムがセンターチャネルを含み、複数のチャネルのミキシングが、指向性音声ビームの音源に近い方の位置に動いたリスナーの耳に対するセンターチャネルプログラムの振幅を増加させることを含む。いくつかの実装では、指向性音声ビームが超音波音声ビームを含む。いくつかの実装では、画像取り込み装置が、テレビ受信機に組み込まれたカメラを含む。いくつかの実装では、画像取り込み装置が、電子ディスプレイ装置に組み込まれたカメラを含む。いくつかの実装では、少なくとも１つのジンバル装着された超音波トランスデューサアレイがさらに設けられ、指向性音声ビームを制御すること及び調整することは、このジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御することを含む。

別の音声送達システムは、リスニング範囲の画像を取り込むように構成された画像取り込み装置を有する。１又はそれ以上のプログラム制御プロセッサが、画像を処理してリスニング範囲内のリスナーの位置を特定し、画像を処理してリスニング範囲内のリスナーの顔を識別し、画像を処理してリスナーの左耳及び右耳の位置を特定し、識別された顔に関連する記憶されているリスナープロファイルを検索し、リスナープロファイルに基づいて１又はそれ以上の音声特性を調整し、左チャネル及び右チャネルの指向性音声ビームをリスナーの左耳及び右耳にそれぞれ向かうように制御するようプログラムされる。画像取り込み装置は、リスナーの後続する一連の画像を取り込むようにさらに構成され、１又はそれ以上のプログラム制御プロセッサは、後続する一連の画像の解析により、リスニング範囲内のリスナーの耳の位置の動きをモニタし、リスニング範囲内のリスナーの左耳及び右耳の動きに基づいて、左右の指向性音声ビームにより搬送される音声のミキシングを調整するようにさらにプログラムされる。

いくつかの実装では、左右の指向性音声ビームが、センターチャネルを含むマルチチャネル音声プログラムのステレオミックスダウンを含む。いくつかの実装では、音声のミキシングを調整するステップが、リスナーの右耳又は左耳のいずれか一方に対するセンターチャネルプログラムの振幅を、指向性音声ビームの音源に近い方の位置に動いたリスナーの右耳又は左耳の一方のためのセンターチャネルプログラムの振幅が増加するように増加させるステップを含む。いくつかの実装では、指向性音声ビームが超音波音声ビームを含む。いくつかの実装では、画像取り込み装置が、テレビ受信機に組み込まれたカメラを含む。いくつかの実装では、画像取り込み装置が、電子ディスプレイ装置に組み込まれたカメラを含む。いくつかの実装では、少なくとも一対のジンバル装着された超音波トランスデューサアレイがさらに設けられ、指向性音声ビームを制御すること及び調整することは、ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御することを含む。

いくつかの実装による音声送達方法は、プログラム制御プロセッサにおいて、プログラム制御プロセッサにおいて、記憶されているリスナープロファイルを検索して読み出し、リスナーに関連する音声特性設定を確認するステップと、音声ミキサにおいて、プログラム制御プロセッサが、記憶されているリスナープロファイルに基づいて、複数チャネル音声プログラムのチャネルのミキシングを等しい又は少ない数のチャネルに調整するステップとを含む。

いくつかの実装では、方法が、等しい又は少ない数のチャネルをリスナーに対して再生するステップをさらに含む。いくつかの実装では、プログラム制御プロセッサが、リスナーの位置に基づいてチャネルのミキシングをさらに調整する。

音声送達方法では、リスニング範囲の画像を取り込んで処理し、室内のリスナーの位置を特定する。リスナーに関連する記憶されているリスナープロファイルを検索し、このリスナープロファイルに基づいて音声特性を設定する。指向性音声ビームをリスナーの耳に向け、リスナーの動きを追跡するように調整する。

当業者であれば、上記の教示を検討した時に、上記の例示的な実施形態のいくつかは、１又はそれ以上のプログラム制御プロセッサの使用に基づくものであると認識するであろう。しかしながら、専用ハードウェア及び／又は専用プロセッサなどのハードウェアコンポーネントの同等物を用いて他の実施形態を実装することもできるので、本発明は、このような例示的な実施形態に限定されるものではない。同様に、汎用コンピュータ、マイクロプロセッサベースのコンピュータ、マイクロコントローラ、光コンピュータ、アナログコンピュータ、専用プロセッサ、特定用途向け回路及び／又は専用配線論理を用いて別の同等の実施形態を構築することもできる。

本明細書で説明したいくつかの例示的な実施形態は、いずれかの好適な非一時的電子媒体又はコンピュータ可読記憶媒体に記憶できる、フローチャートの形で大まかに上述したプログラム命令を実行するプロセッサ２１８などのプログラム制御プロセッサを用いて実装され、又は実装することができ、この場合、本明細書で使用する「非一時的」という用語は、搬送波を除外し、電力が除去されると情報を失うランダムアクセスメモリ又は書き換え可能メモリなどの装置ではないことのみを意図するものである。しかしながら、当業者であれば、本教示を検討した時に、本発明の実施形態から逸脱することなく、上述したプロセスをあらゆる数の変更形態で、及び多くの好適なプログラミング言語で実装することができると理解するであろう。例えば、多くの場合、本発明のいくつかの実施形態から逸脱することなく、実行するいくつかの動作の順序を変更し、さらなる動作を追加し、又は動作を削除することができる。本発明のいくつかの実施形態から逸脱することなく、エラートラッピング、タイムアウトなどを追加及び／又は強化し、ユーザインターフェイス及び情報提示に変更を行うこともできる。このような変形形態も企図され、同等物と見なされる。

いくつかの例示的な実施形態を説明したが、実際に当業者には、上述した説明に照らして多くの代替、修正、置換及び変形が明らかになるであろう。

Claims

音声送達方法であって、
画像取り込み装置を用いてリスニング範囲の画像を取り込むステップと、
１又はそれ以上のプログラム制御プロセッサにおいて、
前記画像を処理して前記リスニング範囲内のリスナーの位置を特定するステップと、
前記画像を処理して前記リスニング範囲内の前記リスナーの顔を識別するステップと、
前記画像を処理して前記リスナーの耳の位置を特定するステップと、
前記識別された顔に関連する記憶されているリスナープロファイルを検索するステップと、
前記リスナープロファイルに基づいて１又はそれ以上の音声特性を調整するステップと、
指向性音声ビームを前記リスナーの耳に向かうように制御するステップと、
前記画像取り込み装置を用いて、前記リスナーの後続する一連の画像を取り込むステップと、
前記１又はそれ以上のプログラム制御プロセッサにおいて、
前記後続する一連の画像の解析により、前記リスニング範囲内の前記リスナーの耳の位置の動きをモニタするステップと、
前記リスニング範囲内の前記リスナーの動きに基づいて前記指向性音声ビームを調整するステップと、
を含むことを特徴とする方法。
前記指向性音声ビームは、複数のチャネルを含むマルチチャネル音声プログラムのミックスダウンを含む、
ことを特徴とする請求項１に記載の方法。
前記指向性音声ビームを調整するステップは、前記マルチチャネル音声プログラムのミキシングを変更するステップを含む、
ことを特徴とする請求項２に記載の方法。
前記マルチチャネル音声プログラムはセンターチャネルを含み、前記複数のチャネルのミキシングは、前記指向性音声ビームの音源に近い方の位置に動いた前記リスナーの耳に対するセンターチャネルプログラムの振幅を増加させることを含む、
ことを特徴とする請求項３に記載の方法。
前記指向性音声ビームは超音波音声ビームを含む、
ことを特徴とする請求項１に記載の方法。
前記画像取り込み装置は、テレビ受信機に組み込まれたカメラを含む、
ことを特徴とする請求項１に記載の方法。
前記画像取り込み装置は、電子ディスプレイ装置に組み込まれたカメラを含む、
ことを特徴とする請求項１に記載の方法。
前記制御するステップは、ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御するステップを含む、
ことを特徴とする請求項１に記載の方法。
音声送達方法であって、
画像取り込み装置を用いてリスニング範囲の画像を取り込むステップと、
１又はそれ以上のプログラム制御プロセッサにおいて、
前記画像を処理して前記リスニング範囲内のリスナーの位置を特定するステップと、
前記画像を処理して前記リスニング範囲内の前記リスナーの顔を識別するステップと、
前記画像を処理して前記リスナーの左耳及び右耳の位置を特定するステップと、
前記識別された顔に関連する記憶されているリスナープロファイルを検索するステップと、
前記リスナープロファイルに基づいて１又はそれ以上の音声特性を調整するステップと、
左チャネル及び右チャネルの指向性音声ビームを前記リスナーの左耳及び右耳にそれぞれ向かうように制御するステップと、
前記画像取り込み装置を用いて、前記リスナーの後続する一連の画像を取り込むステップと、
前記１又はそれ以上のプログラム制御プロセッサにおいて、
前記後続する一連の画像の解析により、前記リスニング範囲内の前記リスナーの耳の位置の動きをモニタするステップと、
前記リスニング範囲内の前記リスナーの左耳及び右耳の動きに基づいて、前記左右の指向性音声ビームにより搬送される音声のミキシングを調整するステップと、
を含むことを特徴とする方法。
前記左右の指向性音声ビームは、センターチャネルを含むマルチチャネル音声プログラムのステレオミックスダウンを含む、
ことを特徴とする請求項９に記載の方法。
前記音声のミキシングを調整するステップは、前記リスナーの右耳又は左耳のいずれか一方に対する前記センターチャネルプログラムの振幅を、前記指向性音声ビームの音源に近い方の位置に動いた前記リスナーの右耳又は左耳の一方のための前記センターチャネルプログラムの振幅が増加するように増加させるステップを含む、
ことを特徴とする請求項９に記載の方法。
前記指向性音声ビームは超音波音声ビームを含む、
ことを特徴とする請求項９に記載の方法。
前記画像取り込み装置は、テレビ受信機に組み込まれたカメラを含む、
ことを特徴とする請求項９に記載の方法。
前記画像取り込み装置は、電子ディスプレイ装置に組み込まれたカメラを含む、
ことを特徴とする請求項９に記載の方法。
前記制御するステップは、ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御するステップを含む、
ことを特徴とする請求項９に記載の方法。
音声送達システムであって、
リスニング範囲の画像を取り込むように構成された画像取り込み装置と、
１又はそれ以上のプログラム制御プロセッサと、
を備え、前記１又はそれ以上のプログラム制御プロセッサは、
前記画像を処理して前記リスニング範囲内のリスナーの位置を特定し、
前記画像を処理して前記リスニング範囲内の前記リスナーの顔を識別し、
前記画像を処理して前記リスナーの耳の位置を特定し、
前記識別された顔に関連する記憶されているリスナープロファイルを検索し、
前記リスナープロファイルに基づいて１又はそれ以上の音声特性を調整し、
指向性音声ビームを前記リスナーの耳に向かうように制御する、
ようにプログラムされ、
前記画像取り込み装置は、前記リスナーの後続する一連の画像を取り込むようにさらに構成され、
前記１又はそれ以上のプログラム制御プロセッサは、
前記後続する一連の画像の解析により、前記リスニング範囲内の前記リスナーの耳の位置の動きをモニタし、
前記リスニング範囲内の前記リスナーの動きに基づいて前記指向性音声ビームを調整する、
ようにさらにプログラムされる、
ことを特徴とするシステム。
前記指向性音声ビームは、複数のチャネルを含むマルチチャネル音声プログラムのミックスダウンを含む、
ことを特徴とする請求項１６に記載のシステム。
前記指向性音声ビームを調整することは、前記マルチチャネル音声プログラムのミキシングを変更することを含む、
ことを特徴とする請求項１７に記載のシステム。
前記マルチチャネル音声プログラムはセンターチャネルを含み、前記複数のチャネルのミキシングは、前記指向性音声ビームの音源に近い方の位置に動いた前記リスナーの耳に対するセンターチャネルプログラムの振幅を増加させることを含む、
ことを特徴とする請求項１８に記載のシステム。
前記指向性音声ビームは超音波音声ビームを含む、
ことを特徴とする請求項１６に記載のシステム。
前記画像取り込み装置は、テレビ受信機に組み込まれたカメラを含む、
ことを特徴とする請求項１６に記載のシステム。
前記画像取り込み装置は、電子ディスプレイ装置に組み込まれたカメラを含む、
ことを特徴とする請求項１６に記載のシステム。
少なくとも１つのジンバル装着された超音波トランスデューサアレイをさらに備え、前記指向性音声ビームを制御すること及び調整することは、前記ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御することを含む、
ことを特徴とする請求項１６に記載のシステム。
音声送達システムであって、
リスニング範囲の画像を取り込むように構成された画像取り込み装置と、
１又はそれ以上のプログラム制御プロセッサと、
を備え、前記１又はそれ以上のプログラム制御プロセッサは、
前記画像を処理して前記リスニング範囲内のリスナーの位置を特定し、
前記画像を処理して前記リスニング範囲内の前記リスナーの顔を識別し、
前記画像を処理して前記リスナーの左耳及び右耳の位置を特定し、
前記識別された顔に関連する記憶されているリスナープロファイルを検索し、
前記リスナープロファイルに基づいて１又はそれ以上の音声特性を調整し、
左チャネル及び右チャネルの指向性音声ビームを前記リスナーの左耳及び右耳にそれぞれ向かうように制御する、
ようにプログラムされ、
前記画像取り込み装置は、前記リスナーの後続する一連の画像を取り込むようにさらに構成され、
前記１又はそれ以上のプログラム制御プロセッサは、
前記後続する一連の画像の解析により、前記リスニング範囲内の前記リスナーの耳の位置の動きをモニタし、
前記リスニング範囲内の前記リスナーの左耳及び右耳の動きに基づいて、前記左右の指向性音声ビームにより搬送される音声のミキシングを調整する、
ようにさらにプログラムされる、
ことを特徴とするシステム。
前記左右の指向性音声ビームは、センターチャネルを含むマルチチャネル音声プログラムのステレオミックスダウンを含む、
ことを特徴とする請求項２４に記載のシステム。
前記音声のミキシングを調整することは、前記リスナーの右耳又は左耳のいずれか一方に対する前記センターチャネルプログラムの振幅を、前記指向性音声ビームの音源に近い方の位置に動いた前記リスナーの右耳又は左耳の一方のための前記センターチャネルプログラムの振幅が増加するように増加させることを含む、
ことを特徴とする請求項２５に記載のシステム。
前記指向性音声ビームは超音波音声ビームを含む、
ことを特徴とする請求項２４に記載のシステム。
前記画像取り込み装置は、テレビ受信機に組み込まれたカメラを含む、
ことを特徴とする請求項２４に記載のシステム。
前記画像取り込み装置は、電子ディスプレイ装置に組み込まれたカメラを含む、
ことを特徴とする請求項２４に記載のシステム。
少なくとも一対のジンバル装着された超音波トランスデューサアレイをさらに備え、前記指向性音声ビームを制御すること及び調整することは、前記ジンバル装着された超音波トランスデューサアレイを位置付けるサーボモータを制御することを含む、
ことを特徴とする請求項２４に記載のシステム。
音声送達方法であって、
プログラム制御プロセッサにおいて、記憶されているリスナープロファイルを検索して読み出し、リスナーに関連する音声特性設定を確認するステップと、
音声ミキサにおいて、前記プログラム制御プロセッサが、前記記憶されているリスナープロファイルに基づいて、複数チャネル音声プログラムのチャネルのミキシングを等しい又は少ない数のチャネルに調整するステップと、
を含むことを特徴とする方法。
前記等しい又は少ない数のチャネルを前記リスナーに対して再生するステップを含む、
ことを特徴とする請求項３１に記載の方法。
前記プログラム制御プロセッサは、前記リスナーの位置に基づいて前記チャネルの前記ミキシングをさらに調整する、
ことを特徴とする請求項３２に記載の方法。