JP5942170B2

JP5942170B2 - 音声制御装置および音声制御方法

Info

Publication number: JP5942170B2
Application number: JP2013503367A
Authority: JP
Inventors: 健太郎中井
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2011-03-08
Filing date: 2012-02-23
Publication date: 2016-06-29
Anticipated expiration: 2032-02-23
Also published as: WO2012120810A1; US20130156201A1; CN103053181A; JPWO2012120810A1

Description

本発明は、仮想空間に立体的に配置された音源に関する処理を行う音声制御装置および音声制御方法に関する。

近年、短いテキストメッセージを、ネットワークを介してユーザ間で気軽にやり取りすることを可能にするサービスが、増加している。また、発話音声を、ネットワーク上のサーバにアップロードしてユーザ間で簡単に共有することを可能にするサービスが、存在している。

そこで、これらのサービスを融合した形として、複数ユーザから発信されたメッセージを、目で閲覧するのではなく耳で聞くことを可能にするサービスが、期待されている。複数ユーザから発信された短文（つぶやき）を耳で確認することができれば、視覚を用いずに多数の情報を取得することができるからである。

多数の音声情報を扱う技術は、例えば特許文献１に記載されている。特許文献１記載の技術は、複数の音声データに割り当てた複数の音源を、仮想空間に立体的に配置して、各音声データを出力する。また、特許文献１記載の技術は、各音源の位置関係図を画面に表示し、カーソルにより、どの音声が選択されているかを示す。この技術を用いて各出力元に異なる音源を割り当てることにより、複数の他のユーザからの音声を聞き分け易くすることができる。そして、ユーザは、どの音声が選択されているのかを確認しながら各種操作（例えば音量の変更）を行うことが可能となる。

特開２００５-２６９２３１号公報

しかしながら、上述の特許文献１では、画面を見なければ、どの音声が選択されているかを確認することができないという課題がある。よりユーザフレンドリーなサービスの実現のためには、どの音声が選択されているかを、視覚を用いずに確認可能であることが望まれる。

本発明の目的は、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる、音声制御装置および音声制御方法を提供することである。

本発明の一態様に係る音声制御装置は、仮想空間に立体的に配置された音源に関する処理を行う音声制御装置であって、前記仮想空間における選択位置であるポインタの現在位置を決定するポインタ位置算出部と、前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成する音響ポインタ生成部とを有する。

本発明の一態様に係る音声制御方法は、仮想空間に立体的に配置された音源に関する処理を行う音声制御方法であって、前記仮想空間における選択位置であるポインタの現在位置を決定するステップと、前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成するステップとを有する。

本発明によれば、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる。

本発明の一実施の形態に係る音声制御装置を含む端末装置の構成の一例を示すブロック図本実施の形態における制御部の構成の一例を示すブロック図本実施の形態における合成音声データの音場感覚の一例を示す模式図本実施の形態における端末装置の動作の一例を示すフローチャート本実施の形態における位置算出処理の一例を示すフローチャート本実施の形態における合成音声データの音場感覚の他の例を示す模式図

以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、本発明を、宅外に持ち出し可能であって他ユーザとの音声コミュニケーションが可能な端末装置に適用した例である。

図１は、本発明の一実施の形態に係る音声制御装置を含む端末装置の構成の一例を示すブロック図である。

図１に示す端末装置１００は、インターネットあるいはイントラネット等の通信ネットワーク２００を介して、音声メッセージ管理サーバ３００に接続可能な装置である。端末装置１００は、音声メッセージ管理サーバ３００を介して、他の端末装置（図示せず）と音声メッセージのデータの交換を行う。音声メッセージのデータは、以下、適宜「音声メッセージ」という。

ここで、音声メッセージ管理サーバ３００は、各端末装置からアップロードされた音声メッセージを管理し、アップロードされたタイミングで、各音声メッセージを複数の端末装置へ配信する装置である。

音声メッセージは、例えば、ＷＡＶ等の所定の形式のファイルとして、伝送および保存される。特に、音声メッセージ管理サーバ３００からの音声メッセージの配信時には、ストリーミング形式のデータとして伝送してもよい。ここでは、アップロードされる音声メッセージには、アップロードしたユーザ（送信元）のユーザ名、アップロードの日時、および音声メッセージの長さを含むメタデータが、付随しているものとする。メタデータは、例えば、ＸＭＬ（extensible markup language）等の所定の形式のファイルとして、伝送および保存される。

端末装置１００は、音声入出力装置４００、操作入力装置５００、および音声制御装置６００を有する。

音声入出力装置４００は、音声制御装置６００から入力される音声メッセージを音声化してユーザへ出力し、ユーザから入力される音声メッセージを信号化して音声制御装置６００へ出力する。本実施の形態では、音声入出力装置４００は、マクロフォンおよびヘッドフォンを備えたヘッドセットとする。

音声入出力装置４００が入力する音声には、アップロードを目的とするユーザの音声メッセージと、音声制御装置６００に対する操作を目的とする操作コマンドの音声データとが含まれる。以下、操作コマンドの音声データは、「音声コマンド」という。また、音声メッセージは、ユーザの発話音声に制限されず、音声合成により作成された音声や音楽等であってもよい。

また、本発明でいう「音声」とは、音声メッセージとして挙げた例から分かるように、人間の声に限定されない、音一般をいう。すなわち、「音声」とは、音楽、虫動物の鳴き声、機械からの騒音等の人工の音、および、滝あるいは雷等の自然の音というように、広く音（sound）を指すものする。

操作入力装置５００は、ユーザの動作および操作（以下「操作」と総称する）を検出し、検出した操作の内容を示す操作情報を、音声制御装置６００へ出力する。本実施の形態では、操作入力装置５００は、上述のヘッドセットに取り付けられた３Ｄ（dimension）モーションセンサとする。３Ｄモーションセンサは、方位および加速度を取得することができる。したがって、本実施の形態において、操作情報は、実空間におけるユーザの頭部の向きを示す情報としての方位と加速度である。以下、ユーザの頭部は、単に「頭部」という。また、本実施の形態において、実空間におけるユーザの頭部の向きは、顔の正面の向きとする。

なお、音声入出力装置４００および操作入力装置５００は、例えば、有線ケーブルや、ＢｌｕｅＴｏｏｔｈ（登録商標）等の無線通信により、それぞれ音声制御装置６００と接続されているものとする。

音声制御装置６００は、音声メッセージ管理サーバ３００から受信した音声メッセージを仮想空間内の音源として配置し、音声入出力装置４００へ出力する。

具体的には、音声制御装置６００は、音声メッセージ管理サーバ３００から送信された他ユーザの音声メッセージを、仮想空間の音源として立体的に配置する。以下、音声メッセージ管理サーバ３００から送信された他ユーザの音声メッセージは、「受信音声メッセージ」という。そして、音声制御装置６００は、仮想空間に配置した音源から音声メッセージが聞こえてくるような音声データに変換して、音声入出力装置４００へ出力する。すなわち、音声制御装置６００は、複数の受信音声メッセージを、聞き分け易いように仮想空間に配置して、ユーザに提供する。

また、音声制御装置６００は、音声入出力装置４００から入力されたユーザの音声メッセージを、音声メッセージ管理サーバ３００へ送信する。以下、音声入出力装置４００から入力されたユーザの音声メッセージは、「送信音声メッセージ」という。すなわち、音声制御装置６００は、送信音声メッセージを、音声メッセージ管理サーバ３００にアップロードする。

また、音声制御装置６００は、仮想空間における選択位置であるポインタの現在位置を決定し、音響ポインタを用いて、その位置を示す。本実施の形態では、ポインタは、操作の対象として選択されている位置を示す操作ポインタであるものとする。音響ポインタとは、ポインタ（本実施の形態では操作ポインタ）の現在位置を、仮想空間上で、周囲との音声メッセージとの音響状態の違いにより示すポインタである。

音響ポインタは、例えば、操作ポインタの現在位置に対応する音源の音声メッセージと他の音声メッセージとの差異の形態を取る。この差異は、例えば、音質または音量等の違いにより、選択されている音声メッセージが他の選択されていない音声メッセージよりも明瞭となっていることを含む。この場合、ユーザは、各音声メッセージの音質や音量の変化により、どの音源が選択されているかを把握することができる。

また、音響ポインタは、例えば、操作ポインタの現在位置から出力される、ビープ音等の所定の音の形態を取る。この場合、ユーザは、所定の音が聞こえてくる位置を、操作ポインタの位置と認識し、どの音源が選択されているかを把握することができる。

本実施の形態では、音響ポインタは、操作ポインタの現在位置から周期的に出力される所定の合成音の形態を取るものとする。このような合成音は、以下、「ポインタ音」という。また、操作ポインタおよび音響ポインタは、互いに位置が対応しているので、適宜、「ポインタ」と総称する。

音声制御装置６００は、ポインタに対する移動操作、およびポインタにより選択されている音源に対する決定操作を、操作入力装置５００を介してユーザから受け付ける。そして、音声制御装置６００は、決定操作が行われた音源を指定した各種処理を行う。すなわち、決定操作は、ユーザが受信音声メッセージを聞いている状態から、受信音声メッセージを指定した操作を行う状態に遷移させる操作である。このとき、音声制御装置６００は、上述の通り、音声コマンドにより操作コマンドの入力をユーザから受け付け、入力された操作コマンドに対応する処理を行う。

本実施の形態における決定操作は、頭部の頷きのジェスチャによって行われるものとする。また、操作コマンドにより指定可能な処理には、例えば、受信音声データの再生の開始、再生の停止、および巻き戻し等のトリックプレイが含まれるものとする。

音声制御装置６００は、図１に示すように、通信インターフェース部６１０、音声入出力部６２０、操作入力部６３０、記憶部６４０、制御部６６０、および再生部６５０を有する。

通信インターフェース部６１０は、通信ネットワーク２００に接続し、通信ネットワーク２００を介して、音声メッセージ管理サーバ３００およびＷＷＷ（world wide web）と接続して、データの送受信を行う。通信インターフェース部６１０は、例えば、有線ＬＡＮ（local area network）または無線ＬＡＮの通信インターフェースである。

音声入出力部６２０は、音声入出力装置４００と通信可能に接続する通信インターフェースである。

操作入力部６３０は、操作入力装置５００と通信可能に接続する通信インターフェースである。

記憶部６４０は、音声制御装置６００の各部により用いられる記憶領域であり、例えば、受信音声メッセージを保存する。記憶部６４０は、例えば、メモリカード等、電源供給が停止しても記憶内容を保持する不揮発性の記憶デバイスである。

制御部６６０は、通信インターフェース部６１０を介して、音声メッセージ管理サーバ３００から配信される音声メッセージを受信する。そして、制御部６６０は、受信音声メッセージを仮想空間に立体的に配置する。そして、制御部６６０は、操作入力部６３０を介して操作入力装置５００から操作情報を入力し、上述の操作ポインタの移動操作および決定操作を受け付ける。

このとき、制御部６６０は、上述の音響ポインタを生成する。そして、制御部６６０は、立体配置された受信音声メッセージと、操作ポインタの位置に配置された音響ポインタとを合成して得られる音声のデータを生成し、再生部６５０へ出力する。このような合成により得られる音声のデータは、以下、「立体音声データ」という。

また、制御部６６０は、音声入出力部６２０を介して音声入出力装置４００から送信音声メッセージを入力し、通信インターフェース部６１０を介して音声メッセージ管理サーバ３００にアップロードする。また、制御部６６０は、選択対象に対する決定操作が行われる。かつ、制御部６６０は、音声入出力部６２０を介して音声入出力装置４００から音声コマンドが入力されるごとに、上述の受信音声データ等に対する各種処理を行う。

再生部６５０は、制御部６６０から入力された立体音声データをデコードし、音声入出力部６２０を介して音声入出力装置４００へ出力する。

なお、音声制御装置６００は、例えば、ＣＰＵ（central processing unit）、およびＲＡＭ（random access memory）等の記憶媒体等を含むコンピュータである。この場合、音声制御装置６００は、記憶する制御プログラムをＣＰＵが実行することによって動作する。

このような端末装置１００は、音響ポインタにより操作ポインタの現在位置を示す。これにより、端末装置１００は、ユーザに対し、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認しながら操作を行うことを可能にする。すなわち、ユーザは、端末装置１００に画面表示装置が備えられていたとしても、ＧＵＩ（graphical user interface）を用いることなく、どの音源が選択されているかを確認して、操作を行うことができる。つまり、本実施の形態に係る端末装置１００を用いることにより、ユーザは、画面を注視することなく、操作対象となる音源を頼りに選択することができる。

ここで、制御部６６０の詳細の一例について説明する。

図２は、制御部６６０の構成の一例を示すブロック図である。

図２に示すように、制御部６６０は、音源割り込み制御部６６１、音源配置算出部６６２、操作モード判別部６６３、ポインタ位置算出部６６４、ポインタ判定部６６５、選択音源記録部６６６、音響ポインタ生成部６６７、音声合成部６６８、および操作コマンド制御部６６９を有する。

音源割り込み制御部６６１は、通信インターフェース部６１０を介して音声メッセージを受信するごとに、受信音声メッセージを、割込み通知と共に音源配置算出部６６２へ出力する。

音源配置算出部６６２は、割込み通知を入力されるごとに、受信音声メッセージを仮想空間に配置する。具体的には、音源配置算出部６６２は、受信音声データを、受信音声データの送信元ごとに異なる位置に配置する。

例えば、第１の送信元からの受信音声メッセージが配置されている状態で、第２の送信元からの受信音声メッセージの割込み通知が音源配置算出部６６２に入力された場合を想定する。この場合、音源配置算出部６６２は、第２の送信元からの受信音声メッセージを、第１の送信元とは異なる位置に配置することになる。音源は、例えば、頭部に水平な平面における、ユーザの位置を中心とする同心円上に、均等な位置に配置される。そして、音源配置算出部６６２は、各音源の仮想空間における現在位置を、それぞれの受信音声メッセージの識別情報および受信音声メッセージと共に、ポインタ判定部６６５および音声合成部６６８へ出力する。

操作モード判別部６６３は、動作モードが、操作モードであるとき、操作入力部６３０を介して入力される操作情報を、ポインタ位置算出部６６４へ出力する。ここで、操作モードとは、操作ポインタを用いて操作を行うモードである。本実施の形態における操作モード判別部６６３は、頭部の頷きのジェスチャをトリガとして、操作モード処理へと遷移するものとする。

ポインタ位置算出部６６４は、まず、操作情報に基づいて、実空間における頭部の向きの初期状態（例えば正面を向いている状態）を取得し、初期状態における頭部の向きに仮想空間の向きを固定する。そして、ポインタ位置算出部６６４は、操作情報が入力されるごとに、初期状態に対する頭部の向きの比較から、仮想空間における操作ポインタの位置を算出する。そして、ポインタ位置算出部６６４は、仮想空間における操作ポインタの現在位置を、ポインタ判定部６６５へ出力する。

本実施の形態におけるポインタ位置算出部６６４は、ユーザの顔正面の向きにあって、ユーザから所定の距離の位置を、操作ポインタの現在位置として取得するものとする。したがって、仮想空間における操作ポインタの位置は、ユーザの頭部の向きの変化に追従して変化し、常にユーザの顔の正面に位置することになる。これは、人が注目している対象に顔を向けることに対応している。

また、ポインタ位置算出部６６４は、操作情報から求められる実世界における頭部の向きを、ヘッドセットの向きとして取得する。そして、ポインタ位置算出部６６４は、ヘッドセットの向きからヘッドセットの傾き情報を生成し、ポインタ判定部６６５および音声合成部６６８へ出力する。ここで、ヘッドセットの傾き情報とは、ヘッドセットの位置および向きを基準としたヘッドセット座標系に対する、仮想空間内の座標系との差分を示す情報である。

ポインタ判定部６６５は、入力された操作ポインタの現在位置が、入力された各音源の現在位置のいずれかに対応しているか否かを判定する。すなわち、ポインタ判定部６６５は、ユーザがどの音源に顔を向けているかを判定する。

ここで、位置が対応している音源とは、操作ポインタの現在位置を中心とする所定の範囲内となっている音源をいうものとする。また、現在位置とは、操作ポインタの現在の位置だけでなく、直前の位置を含むものとする。以下、適宜、位置が対応している音源は、「選択されている音源」という。また、選択されている音源が割り当てられた受信音声メッセージは、「選択されている受信音声メッセージ」という。

なお、直前の時間において、その位置が操作ポインタの位置を中心とする所定の範囲内となっていたか否かは、例えば、次のようにして判定することができる。まず、ポインタ判定部６６５は、音源ごとに、操作ポインタの位置を中心とする所定の範囲内となったときからの経過時間をカウントする。そして、ポインタ判定部６６５は、カウントが開始された音源ごとに、そのカウント値が所定の閾値以下となっているか否かを逐次判定する。そして、ポインタ判定部６６５は、カウント値が所定の閾値以下である間は、該当する音源を、その位置が上記所定の範囲内となっていた音源であると判定する。これにより、ポインタ判定部６６５は、一旦選択された受信音声メッセージについて、その選択されている状態を一定時間継続し、選択対象に対するロックオン機能を実現する。

そして、ポインタ判定部６６５は、選択されている音源の識別情報を、選択されている受信音声メッセージと共に、選択音源記録部６６６へ出力する。また、ポインタ判定部６６５は、操作ポインタの現在位置を、音響ポインタ生成部６６７へ出力する。

選択音源記録部６６６は、入力された受信音声メッセージを、入力された識別情報と対応付けて、記憶部６４０に一時的に記録する。

音響ポインタ生成部６６７は、入力された操作ポインタの現在位置に基づいて、音響ポインタを生成する。具体的には、音響ポインタ生成部６６７は、ポインタ音の出力が操作ポインタの仮想空間における現在位置から出力されるような音声データを生成し、生成した音声データを音声合成部６６８へ出力する。

音声合成部６６８は、入力された受信音声メッセージに、入力されたポインタ音の音声データを重畳した合成音声データを生成して、再生部６５０へ出力する。このとき、音声合成部６６８は、入力されたヘッドセット傾き情報に基づき、仮想空間の座標を、基準となるヘッドセット座標系の座標に変換することにより、各音源の音像定位を行う。これにより、音声合成部６６８は、各音源及び音声ポインタがそれぞれの設定された位置から聞こえるような、合成音声データを生成する。

図３は、合成音声データがユーザに与える音場感覚の一例を示す模式図である。

図３に示すように、操作ポインタ７２０は、ユーザ７１０の初期状態における頭部の向きを基準として、位置が決定され、仮想空間の座標系７３０の向きが実空間に固定されたとする。ここでは、仮想空間の座標系７３０は、ユーザ７１０の初期位置における、後ろ正面方向をＸ軸方向、右方向をＹ軸、上方向を軸方向としている。

また、音源７４１〜７４３は、例えば、同心円上に、ユーザ７１０の左前４５度方向、正面方向、右前４５度方向の順に均一な間隔で、配置されているものとする。そして、図３では、第１〜第３の受信音声メッセージに対して、順に、音源７４１〜７４３が対応し、配置されたとする。

ここでは、ヘッドセットの左右のヘッドフォンの位置を基準とする座標系として、ヘッドセット座標系７５０を想定する。すなわち、ヘッドセット座標系７５０は、ユーザ７１０の頭部の位置および向きに固定された座標系である。したがって、ヘッドセット座標系７５０の向きは、ユーザ７１０の実空間における向きの変化に追従する。ここで、したがって、ユーザ７１０には、実空間における頭部の向きの変化と同じように、仮想空間においても頭部の向きが変化したような音場感覚が与えられる。図３の例では、ユーザ７１０は、頭部を、その初期位置７１１から右に４５度回転させている。このため、各音源７４１〜７４３は、ユーザ７１０を中心として相対的に左に４５度回転する。

また、音響ポインタ７６０は、常にユーザの顔正面に配置される。したがって、ユーザ７１０には、自分が顔を向けて聞いている音声（図３では第３の受信音声メッセージ）の方向から、音響ポインタ７６０が聞こえてくるような音場感覚が与えられる。言い換えると、ユーザ７１０には、音響ポインタ７６０によってどの音源が選択されたのかが、フィードバックされる。

図２の操作コマンド制御部６６９は、操作入力部６３０から入力された操作情報が、選択されている音源に対する決定操作であるとき、操作コマンドを待機する。そして、操作コマンド制御部６６９は、音声入出力部６２０から入力された音声データが音声コマンドであるとき、該当する操作コマンドを取得する。そして、操作コマンド制御部６６９は、取得した操作コマンドを発行し、その操作コマンドに応じた処理を他の各部に指示する。

また、操作コマンド制御部６６９は、入力された音声データが送信音声メッセージであるとき、送信音声メッセージを、通信インターフェース部６１０を介して音声メッセージ管理サーバ３００へ送信する。

このような構成により、制御部６６０は、受信音声メッセージを仮想空間に立体的に配置し、音響ポインタにより、ユーザに対してどの音源が選択されているかを確認させつつ、音源に対する操作を受け付けることができる。

次に、端末装置１００の動作について説明する。

図４は、端末装置１００の動作の一例を示すフローチャートである。ここでは、操作モードとなっているときに行われる操作モード処理に着目して説明を行う。

まず、ステップＳ１１００において、ポインタ位置算出部６６４は、操作情報が示す頭部の向きの方位を、初期値として記憶部６４０にセット（記録）する。この初期値は、実空間の座標系、仮想空間の座標系、およびヘッドセット座標系の間の対応関係の基準となる値であり、ユーザの動作を検出する上での初期値として用いられる値である。

そして、ステップＳ１２００において、操作入力部６３０は、操作入力装置５００からの逐次の操作情報の取得を開始する。

そして、ステップＳ１３００において、音源割り込み制御部６６１は、通信インターフェース部６１０を介して音声メッセージを受信し、端末で再生すべき音声メッセージ（受信音声メッセージ）に増減があるか否かを判断する。すなわち、音源割り込み制御部６６１は、新たに再生すべき音声メッセージの有無や、再生が終了した音声メッセージが存在するか否かを判断する。音源割り込み制御部６６１は、受信音声メッセージに増減がある場合（Ｓ１３００：ＹＥＳ）、ステップＳ１４００へ進む。また、音源割り込み制御部６６１は、受信音声メッセージに増減がない場合（Ｓ１３００：ＮＯ）、ステップＳ１５００へ進む。

ステップＳ１４００において、音源配置算出部６６２は、音源の仮想空間への再配置を行い、ステップＳ１６００へ進む。この際、音源配置算出部６６２は、受信音声メッセージの音質から他ユーザの性別を判定し、同性の他ユーザの音声を離れて配置する等、音声を聞き分け易いような配置を行うことが望ましい。

また、ステップＳ１５００において、ポインタ位置算出部６６４は、最新の操作情報と直前の操作情報との比較から、頭部の向きに変化があるか否かを判断する。ポインタ位置算出部６６４は、頭部の向きに変化がある場合（Ｓ１５００：ＹＥＳ）、ステップＳ１６００へ進む。また、ポインタ位置算出部６６４は、頭部の向きに変化がない場合（Ｓ１５００：ＮＯ）、ステップＳ１７００へ進む。

ステップＳ１６００において、端末装置１００は、各音源の位置およびポインタ位置を算出する位置算出処理を実行して、ステップＳ１７００へ進む。

図５は、位置算出処理の一例を示すフローチャートである。

まず、ステップＳ１６０１において、ポインタ位置算出部６６４は、操作ポインタを配置すべき位置を、操作情報から算出する。

そして、ステップＳ１６０２において、ポインタ判定部６６５は、操作ポインタの位置と、各音源の配置とに基づいて、選択されている音源があるか否かを判断する。ポインタ判定部６６５は、選択されている音源がある場合（Ｓ１６０２：ＹＥＳ）、ステップＳ１６０３へ進む。また、ポインタ判定部６６５は、選択されている音源がない場合（Ｓ１６０２：ＮＯ）、ステップＳ１６０４へ進む。

ステップＳ１６０３において、選択音源記録部６６６は、選択されている音源の識別情報および受信音声メッセージ（メタデータを含む）を、記憶部６４０に記録して、ステップＳ１６０４へ進む。

なお、音響ポインタ生成部６６７は、音源が選択されたとき、音響ポインタの音声特性を変化させることが望ましい。また、この音声特性変化は、音声が選択されていない場合の音声と区別できることが望ましい。

ステップＳ１６０４において、ポインタ判定部６６５は、直前に選択された音源のうち、選択から外れた音源があるか否かを判断する。ポインタ判定部６６５は、選択から外れた音源がある場合（Ｓ１６０４：ＹＥＳ）、ステップＳ１６０６へ進む。また、ポインタ判定部６６５は、選択から外れた音源がない場合（Ｓ１６０４：ＮＯ）、ステップＳ１６０６へ進む。

ステップＳ１６０５において、選択音源記録部６６６は、選択から外れた音源の識別情報および受信音声メッセージの記録を破棄して、ステップＳ１６０６へ進む。

なお、音響ポインタ生成部６６７は、いずれかの音源が選択から外れたとき、音響ポインタの音声特性の変化等により、その旨をユーザに通知することが望ましい。また、この音声特性変化は、いずれかの音源が選択されたときの音声特性変化と区別できることが望ましい。

ステップＳ１６０６において、ポインタ位置算出部６６４は、操作情報からヘッドセット傾き情報を取得して、図４の処理へ戻る。

なお、ポインタ位置算出部６６４は、操作ポインタを配置すべき位置およびヘッドセット傾き情報を算出する際に、加速度を積分して頭部の初期位置に対する相対位置を算出し、この相対位置を用いてもよい。ただし、このようにして算出された相対位置には誤差が多く含まれる可能性があるため、後段のポインタ判定部６６５は、操作ポインタの位置と音源位置とのマッチングの幅を大きく持たせることが望ましい。

図４のステップＳ１７００において、音声合成部６６８は、音響ポインタ生成部６６７で生成された音響ポインタを、受信音声メッセージに重畳した合成音声データを出力する。

そして、ステップＳ１８００において、操作コマンド制御部６６９は、操作情報から、選択されている音源に対する決定操作が行われたか否かを判断する。操作コマンド制御部６６９は、例えば、記憶部６４０に識別情報が記録されている音源が存在するとき、この音源を、選択されている音源であると判断する。操作コマンド制御部６６９は、選択されている音源に対する決定操作が行われた場合（Ｓ１８００：ＹＥＳ）、ステップＳ１９００へ進む。また、操作コマンド制御部６６９は、選択されている音源に対する決定操作が行われていない場合（Ｓ１８００：ＮＯ）、ステップＳ２０００へ進む。

ステップＳ１９００において、操作コマンド制御部６６９は、決定操作の対象となった音源の識別情報を取得する。以下、決定操作の対象となった音源は、「決定された音源」という。

なお、操作コマンドの入力をもって決定操作とする場合、ステップＳ１８００、Ｓ１９００の処理は不要である。

そして、ステップＳ２０００において、操作コマンド制御部６６９は、ユーザの入力音声があったか否かを判断する。操作コマンド制御部６６９は、入力音声があった場合（Ｓ２０００：ＹＥＳ）、ステップＳ２１００へ進む。また、操作コマンド制御部６６９は、入力音声がない場合（Ｓ２０００：ＮＯ）、後述のステップＳ２４００へ進む。

ステップＳ２１００において、操作コマンド制御部６６９、入力音声が音声コマンドであるか否かを判断する。この判断は、例えば、音声認識エンジンを用いて音声データに対する音声認識処理を行い、認識結果を、予め登録された音声コマンドの一覧で検索することにより行われる。音声コマンドの一覧は、ユーザが手動で音声制御装置６００に登録してもよい。また、音声コマンドの一覧は、音声制御装置６００が通信ネットワーク２００を介して外部の情報サーバ等から取得してもよい。

なお、上述のロックオン機能により、ユーザは、いずれかの受信音声メッセージを選択した後、動かずに急いで音声コマンドを発する必要がなくなる。すなわち、ユーザは、時間的に余裕を持って音声コマンドを発することができる。また、いずれかの受信音声メッセージが選択された直後に音源の配置変更があった場合でも、その選択された状態は、保持される。したがって、ユーザは、このような音源の配置変更があったとしても、再度、受信音声メッセージを選択し直す必要がない。

操作コマンド制御部６６９は、入力音声が音声コマンドではない場合（Ｓ２１００：ＮＯ）、ステップＳ２２００へ進む。また、操作コマンド制御部６６９は、入力音声が音声コマンドである場合（Ｓ２１００：ＹＥＳ）、ステップＳ２３００へ進む。

ステップＳ２２００において、操作コマンド制御部６６９は、入力音声を、送信音声メッセージとして、音声メッセージ管理サーバ３００へ送信して、ステップＳ２４００へ進む。

ステップＳ２３００において、操作コマンド制御部６６９は、音声コマンドが示す操作コマンドを取得し、その操作コマンドに応じた処理を他の各部に指示して、ステップＳ２４００へ進む。例えば、ユーザが入力した音声が「ていし」である場合、操作コマンド制御部６６９は、選択されている音声メッセージの再生を停止させる。

そして、ステップＳ２４００において、操作モード判別部６６３は、ジェスチャによるモード変更操作等により、操作モード処理の終了を指示されたか否かを判断する。操作モード判別部６６３は、操作モード処理の終了を指示されていない場合（Ｓ２４００：ＮＯ）、ステップＳ１２００へ戻り、次の操作情報を取得する。また、操作モード判別部６６３は、操作モード処理の終了を指示された場合（Ｓ２４００：ＹＥＳ）、操作モード処理を終了する。

このような動作により、端末装置１００は、音源を仮想空間に配置し、頭部の向きにより操作ポインタの移動操作および決定操作を受け付け、音声コマンドにより音源に関する処理の指定を受け付けることができる。また、端末装置１００は、その際に、音響ポインタにより操作ポインタの現在位置を示すことができる。

以上のように、本実施の形態に係る音声制御装置は、周囲との音響状態の差異により示す音響ポインタにより、操作ポインタの現在位置をユーザに提示する。これにより、本実施の形態に係る音声制御装置は、ユーザに対して、視覚を用いずに、仮想空間に立体的に配置された音源のいずれが選択されているかを確認しながら、操作を行わせることができる。

なお、音声制御装置は、操作コマンドの入力を、音声コマンド入力以外の手法によって行ってもよく、例えばユーザの身体のジェスチャを用いて行うようにしてもよい。

ジェスチャを用いる場合、音声制御装置は、例えば、ユーザの指や腕に装着される３Ｄモーションセンサから出力される加速度情報や方位情報等に基づいて、ユーザのジェスチャを検出すればよい。そして、音声制御装置は、検出したジェスチャが、予め操作コマンドに対応付けて登録されたジェスチャのいずれに該当するかを判断すればよい。

この場合、３Ｄモーションセンサは、例えば、指輪や時計等の装飾品に内蔵することが考えられる。更に、この場合、操作モード判別部は、特定のジェスチャをトリガとして、操作モード処理へと遷移してもよい。

なお、ジェスチャの検出は、例えば、操作情報を一定時間記録し、加速度や方位の変化のパターンを取得する。また、あるジェスチャの終了は、例えば、加速度や方位の変化が極端であることや、加速度や方位の変化が所定の時間以上発生していないことをもって、検出することができる。

また、音声制御装置は、操作コマンドの入力を音声コマンドによって行う第１の操作モードと、操作コマンドの入力をジェスチャによって行う第２の操作モードとの切り替えをユーザから受け付けてもよい。

この場合、操作モード判別部は、例えば、頭部の頷きのジェスチャと、手を振るジェスチャのどちらが行われたかに基づいて、いずれの動作モードが選択されたかを判断すればよい。また、操作モード判別部は、ユーザから、操作モードの指定の手法を、予め受け付けて記憶しておいてもよい。

また、音響ポインタ生成部は、選択されている音源が存在する間は、ポインタ音の音量を小さくしたり、その出力を停止（ミュート）させてもよい。また、逆に、音響ポインタ生成部は、選択されている音源が存在する間、ポインタ音の音量を大きくしてもよい。

また、音響ポインタ生成部は、周期的に出力されるポインタ音ではなく、新たに音源が選択されたときにのみ出力されるポインタ音を用いてもよい。特に、この場合、音響ポインタ生成部は、ポインタ音を、「捕獲！」等、メタデータの情報の読み上げ音声としてもよい。これにより、ユーザ７１０には、音響ポインタ７６０により、具体的にどの音源が選択されているのかが、フィードバックされ、コマンド発行のタイミングが図りやすくなる。

また、音響ポインタは、上述のように、操作ポインタの現在位置に対応する音源の音声と他の音声との差異（音声特性変化）の形態を採ってもよい。

この場合、音響ポインタ部は、例えば、選択されている受信音声メッセージ以外の受信音声メッセージに対してローパスフィルタ等によるマスク処理を行い、その高周波数成分をカットする。これにより、ユーザには、選択されていない受信音声メッセージは靄が掛かったような聞こえ方となり、選択されている受信音声メッセージのみが音質が良く明瞭に聞こえるようになる。

または、音響ポインタ部は、選択されている受信音声メッセージについて、その音量を相対的に増大させたり、選択されている受信音声メッセージと選択されていない受信音声メッセージとの間で音程や再生速度に差異を持たせる。これにより、音声制御装置は、操作ポインタの位置にある音源の音声を、他の音源の音声に比べてより明瞭にし、相対的により良く聞こえるように際立たせることができる。

このように、音響ポインタが受信音声メッセージの音声特性変化の形態を採る場合も、ユーザ７１０には、具体的にどの音源が選択されているのかが把握し易くなる。

また、音響ポインタは、ポインタ音の出力と、受信音声メッセージの音声特性変化とが組み合わされた形態を採ってもよい。

また、音響ポインタ生成部は、音響ポインタの種類の選択をユーザから受け付けてもよい。更に、音響ポインタ生成部は、ポインタ音または音声特性変化の種類を複数用意しておき、使用する種類の選択をユーザから受け付け、あるいは、ランダムに選択してもよい。

また、音源配置算出部は、複数の音声メッセージを１つの音源に設定せず、複数の音源を聞き分けができる程度に離して配置することが望ましいが、必ずしもこれに限定されない。複数の音声メッセージが１つの音源に設定された場合、あるいは、複数の音源が同一または近接する位置に配置されている場合、音響ポインタ生成部は、その旨を音声によりユーザに通知することが望ましい。

また、この場合、ポインタ判定部は、ユーザから、複数の音声データのいずれを選択するかの指定を更に受け付けてもよい。ポインタ判定部は、この指定の受け付けや、選択対象の切り替え操作を、例えば、予め登録された音声コマンドやジェスチャを用いて行うことができる。例えば、選択対象の切り替え操作は、現在の選択対象を否定する動作に近い、素早い首振りのジェスチャに対応付けることが好ましい。

または、音響ポインタ生成部は、複数の音声メッセージに対する同時の決定操作を受け付けてもよい。

また、音声制御装置は、受信音声メッセージの再生中ではなく、その再生終了後に、音源に対する選択操作、決定操作、および操作コマンドを受け付けてもよい。この場合、音源割り込み制御部は、受信音声メッセージが受信されなくなってからも、音源の配置を一定の時間維持しておく。また、この場合、受信音声メッセージの再生は終了しているので、音響ポインタ生成部は、ポインタ音等の所定の音声の形態を取る音響ポインタを生成することが望ましい。

また、音源の配置および音響ポインタの位置は、上述の例に限定されない。

音源配置算出部は、例えば、頭部に水平な平面以外の位置に音源を配置してもよい。例えば、音源配置算出部は、鉛直方向（図３における仮想空間の座標系７３０のＺ軸方向）において異なる位置に複数の音源を配置してもよい。

また、音源配置算出部は、仮想空間を鉛直方向（図３における仮想空間の座標系７３０のＺ軸方向）で階層化し、階層ごとに１つまたは複数の音源を配置してもよい。そして、この場合、ポインタ位置算出部は、階層に対する選択操作と、階層ごとの音源に対する選択操作とを受け付けるようにする。階層に対する選択操作は、既に説明した音源に対する選択操作と同様に、頭部の上下方向の向き、ジェスチャ、および音声コマンド等を用いて実現すればよい。

なお、音源配置算出部は、他ユーザの実際の位置に合わせて、各受信音声メッセージに割り当てる音源の配置を決定してもよい。この場合、音源配置算出部は、例えば、ＧＰＳ（global positioning system）信号に基づいて、ユーザに対する他ユーザの相対位置を算出し、その相対位置に対応する方向に、対応する音源を配置する。この際音源配置算出部は、ユーザに対する他ユーザの距離に応じた距離で、対応する音源を配置してもよい。

また、音響ポインタ生成部は、音響ポインタを、どの音源に対応しているかを認識可能な範囲において、鉛直方向において音源とは異なる位置に配置してもよい。また、音源が水平面以外の面に配置される場合、音響ポインタ生成部は、同様に、その垂直方向において音源とは異なる位置に音響ポインタを配置してもよい。

また、本実施の形態では、特に説明を行わなかったが、音声制御装置または端末装置は、画像出力部を備えておき、音源配置や操作ポインタを図示するようにしてもよい。この場合、ユーザは、画面を注視可能なときには画像情報を併せて参照しながら、音源に対する操作を行うことが可能となる。

また、ポインタ位置算出部は、ヘッドセットの３Ｄモーションセンサの出力情報と、ユーザの胴体に装着される装置（例えば端末装置自体）の３Ｄモーションセンサの出力情報とに基づいて、音響ポインタの位置を設定してもよい。この場合、ポインタ位置算出部は、胴体に装着された装置の向きとヘッドセットの向きとの差分に基づいて、頭部の向きを算出し、頭部の向きに対する音響ポインタの向きの追従性の精度を向上させることができる。

また、ポインタ位置算出部は、ユーザの身体の向きに対応させて操作ポインタを移動させてもよい。この場合、ポインタ位置算出部は、例えば、ユーザの胴体や、ユーザの車椅子や乗用車のシート等のユーザの身体と向きが一致するような物に取り付けられた３Ｄモーションセンサの出力情報を、操作情報として用いることができる。

また、音声制御装置は、必ずしも、ユーザからポインタの移動操作を受け付けなくてもよい。この場合、例えば、ポインタ位置算出部は、規則的にまたはランダムに、ポインタ位置を移動させる。そして、ユーザは、所望の音源にポインタが合ったときに決定操作や操作コマンドの入力を行うことにより、音源の選択操作を行えばよい。

また、音声制御装置は、手のジェスチャ等の、頭部の向き以外の情報に基づいて、ポインタを移動させてもよい。

この場合、仮想空間の座標系の向きは、必ずしも実空間に固定される必要がない。したがって、仮想空間の座標系は、ヘッドセットの座標系に固定してもよい。すなわち、仮想空間は、ヘッドセットに固定されてもよい。

以下、仮想空間をヘッドセットに固定した場合について説明する。

この場合、ポインタ位置算出部は、ヘッドセット傾き情報を生成する必要がない。また、音声合成部は、各音源の音像定位にヘッドセット傾き情報を用いる必要がない。

また、ポインタ位置算出部は、操作ポインタの移動範囲を、仮想空間の音源位置のみに限定し、操作情報に応じて操作ポインタを音源間で移動させる。なお、この際、ポインタ位置算出部は加速度を積分して手の初期位置に対する相対位置を算出し、この相対位置に基づいて操作ポインタの位置を決定してもよい。ただし、このようにして算出された相対位置には誤差が多く含まれる可能性があるため、後段のポインタ判定部は、操作ポインタの位置と音源位置とのマッチングの幅を大きく持たせることが望ましい。

図６は、仮想空間をヘッドセットに固定した場合の、合成音声データがユーザに与える音場感覚の一例を示す模式図であり、図３に対応するものである。

図６に示すように、ユーザ７１０の頭部の向きによらず、仮想空間の座標系７３０は、ヘッドセット座標系７５０に固定される。したがって、ユーザ７１０には、第１〜第３の受信音声メッセージに割り当てられた音源７４１〜７４３の位置が、頭部に対して固定されたような音場感覚が与えられる。例えば、第２の受信音声メッセージは、ユーザ７１０には常に正面から聞こえてくることになる。

ポインタ位置算出部６６４は、例えば、操作ポインタ７２０を、ユーザ７１０の手に装着される３Ｄモーションセンサから出力される加速度情報に基づいて、手が振られた方向を検出する。そして、ポインタ位置算出部６６４は、手が振られた方向に、次の音源へと操作ポインタ７２０を移動させる。そして、音響ポインタ生成部６６７は、操作ポインタ７２０の方向に、音響ポインタ７６０を配置する。したがって、ユーザ７１０には、自分が操作ポインタ７２０の方向から音響ポインタ７６０が聞こえてくるような音場感覚が与えられる。

なお、ポインタの移動を頭部の向き以外の情報に基づいて行う場合、その操作のための３Ｄモーションセンサは、音声制御装置を含む端末装置自体に備えられていてもよい。また、この場合は、端末装置の画像表示部に実空間の画像を表示し、その上に音源を配置した仮想空間を重畳して表示してもよい。

なお、操作入力部は、ポインタの現在位置に対する仮決定操作を受け付け、音響ポインタは、仮決定操作に対するフィードバックとして出力されるものであってもよい。ここで、仮決定操作とは、選択されている音源に対する決定操作の、１つ手前の操作であり、仮決定操作の段階では、上述の音源を指定した各種処理は実行されない。この場合、ユーザは、仮決定操作に対するフィードバックにより、所望の音源が選択されていること確認してから、最終的な決定操作を行うことになる。

すなわち、音響ポインタは、ポインタの移動に伴って継続的に出力されるものではなく、仮決定操作が行われて初めて出力されるものであってもよい。これにより、音響ポインタの出力を最小限に抑えることができ、受信音声メッセージをより聴き取り易くすることができる。

また、音源位置は、仮想空間を移動するものであってもよい。この場合、音声制御装置は、音源が移動するごとに、あるいは、短い周期で繰り返し更新し、各音源の位置とポインタの位置との関係を、最新の音源位置に基づいて判断する。

以上説明したように本実施の形態に係る音声制御装置は、仮想空間に立体的に配置された音源に関する処理を行う音声制御装置であって、前記仮想空間における選択位置であるポインタの現在位置を決定するポインタ位置算出部と、前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成する音響ポインタ生成部と、を有する。さらに、前記音源を前記仮想空間に立体的に配置する音源配置算出部と、前記音源の音声および前記音響ポインタを合成して得られる音声を生成する音声合成部と、前記ポインタの現在位置に対する決定操作を受け付ける操作入力部と、前記決定操作の対象となった位置に前記音源が位置するとき、前記音源を指定した前記処理を行う操作コマンド制御部と、を有する音声制御装置である。これにより、本実施の形態は、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる。

２０１１年３月８日出願の特願２０１１−０５０５８４の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る音声制御装置および音声制御方法は、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる、音声制御装置および音声制御方法として有用である。すなわち、本発明は、例えば、携帯電話や音楽プレーヤ等、音声を再生する機能を持つ各種の機器に対して有用であり、これらの機器の製造、販売、提供、利用する産業において、経営的、継続的、反復的に利用することができる。

１００端末装置
２００通信ネットワーク
３００音声メッセージ管理サーバ
４００音声入出力装置
５００操作入力装置
６００音声制御装置
６１０通信インターフェース部
６２０音声入出力部
６３０操作入力部
６４０記憶部
６５０再生部
６６０制御部
６６１音源割り込み制御部
６６２音源配置算出部
６６３操作モード判別部
６６４ポインタ位置算出部
６６５ポインタ判定部
６６６選択音源記録部
６６７音響ポインタ生成部
６６８音声合成部
６６９操作コマンド制御部

Claims

仮想空間に立体的に配置された音源に関する処理を行う音声制御装置であって、
前記音源を前記仮想空間に立体的に配置する音源配置算出部と、
前記仮想空間における選択位置であるポインタの現在位置を決定するポインタ位置算出部と、
前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成する音響ポインタ生成部と、
前記音源の音声および前記音響ポインタを合成して得られる音声を生成する音声合成部と、
前記ポインタの現在位置に対する決定操作を受け付ける操作入力部と、
前記決定操作の対象となった位置に前記音源が位置するとき、前記音源を指定した前記処理を行う操作コマンド制御部と、を有する、
音声制御装置。
前記音響ポインタは、
前記ポインタの現在位置から出力される所定の音を含む、
請求項１記載の音声制御装置。
前記音響ポインタは、
前記ポインタの現在位置に対応する前記音源の音声と他の音声との違いを含む、
請求項１記載の音声制御装置。
前記音声の違いは、前記音源の音声が前記他の音声に比べてより明瞭であることを含む、
請求項３記載の音声制御装置。
前記操作入力部は、
前記ポインタに対する移動操作を更に受け付ける、
請求項１記載の音声制御装置。
前記仮想空間は、前記音源の音声を聴くユーザの、実空間における頭部の向きの初期状態を基準として、前記実空間にその向きが固定された空間である、
請求項１記載の音声制御装置。
前記操作入力部は、
前記仮想空間における前記ユーザの頭部の現在の正面方向を、前記ポインタの現在位置の方向として取得する、
請求項６記載の音声制御装置。
前記現在位置は、前記ポインタの現在の位置および直前の位置を含む、
請求項１記載の音声制御装置。
ユーザの発話音声を入力する音声入力部と、
入力された前記発話音声の音声データを他の装置へ送信し、前記他の装置から送信された音声データを受信する通信インターフェース部と、を有し、
前記音源配置算出部は、
受信された前記音声データの各送信元に対して前記音源を割り当て、
前記音声合成部は、
受信された各音声データを、対応する音源からの音声データに変換する、
請求項１記載の音声制御装置。
前記操作入力部は、
前記ポインタの現在位置に対する仮決定操作を受け付け、
前記音響ポインタは、前記仮決定操作に対するフィードバックを含む、
請求項１記載の音声制御装置。
仮想空間に立体的に配置された音源に関する処理を行う音声制御方法であって、
前記音源を前記仮想空間に立体的に配置するステップと、
前記仮想空間における選択位置であるポインタの現在位置を決定するステップと、
前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成するステップと、
前記音源の音声および前記音響ポインタを合成して得られる音声を生成するステップと、
前記ポインタの現在位置に対する決定操作を受け付けるステップと、
前記決定操作の対象となった位置に前記音源が位置するとき、前記音源を指定した前記処理を行うステップと、を有する、
音声制御方法。