JP5942170B2 - 音声制御装置および音声制御方法 - Google Patents

音声制御装置および音声制御方法 Download PDF

Info

Publication number
JP5942170B2
JP5942170B2 JP2013503367A JP2013503367A JP5942170B2 JP 5942170 B2 JP5942170 B2 JP 5942170B2 JP 2013503367 A JP2013503367 A JP 2013503367A JP 2013503367 A JP2013503367 A JP 2013503367A JP 5942170 B2 JP5942170 B2 JP 5942170B2
Authority
JP
Japan
Prior art keywords
pointer
sound source
voice
sound
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013503367A
Other languages
English (en)
Other versions
JPWO2012120810A1 (ja
Inventor
健太郎 中井
健太郎 中井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2012120810A1 publication Critical patent/JPWO2012120810A1/ja
Application granted granted Critical
Publication of JP5942170B2 publication Critical patent/JP5942170B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stereophonic System (AREA)

Description

本発明は、仮想空間に立体的に配置された音源に関する処理を行う音声制御装置および音声制御方法に関する。
近年、短いテキストメッセージを、ネットワークを介してユーザ間で気軽にやり取りすることを可能にするサービスが、増加している。また、発話音声を、ネットワーク上のサーバにアップロードしてユーザ間で簡単に共有することを可能にするサービスが、存在している。
そこで、これらのサービスを融合した形として、複数ユーザから発信されたメッセージを、目で閲覧するのではなく耳で聞くことを可能にするサービスが、期待されている。複数ユーザから発信された短文(つぶやき)を耳で確認することができれば、視覚を用いずに多数の情報を取得することができるからである。
多数の音声情報を扱う技術は、例えば特許文献1に記載されている。特許文献1記載の技術は、複数の音声データに割り当てた複数の音源を、仮想空間に立体的に配置して、各音声データを出力する。また、特許文献1記載の技術は、各音源の位置関係図を画面に表示し、カーソルにより、どの音声が選択されているかを示す。この技術を用いて各出力元に異なる音源を割り当てることにより、複数の他のユーザからの音声を聞き分け易くすることができる。そして、ユーザは、どの音声が選択されているのかを確認しながら各種操作(例えば音量の変更)を行うことが可能となる。
特開2005-269231号公報
しかしながら、上述の特許文献1では、画面を見なければ、どの音声が選択されているかを確認することができないという課題がある。よりユーザフレンドリーなサービスの実現のためには、どの音声が選択されているかを、視覚を用いずに確認可能であることが望まれる。
本発明の目的は、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる、音声制御装置および音声制御方法を提供することである。
本発明の一態様に係る音声制御装置は、仮想空間に立体的に配置された音源に関する処理を行う音声制御装置であって、前記仮想空間における選択位置であるポインタの現在位置を決定するポインタ位置算出部と、前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成する音響ポインタ生成部とを有する。
本発明の一態様に係る音声制御方法は、仮想空間に立体的に配置された音源に関する処理を行う音声制御方法であって、前記仮想空間における選択位置であるポインタの現在位置を決定するステップと、前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成するステップとを有する。
本発明によれば、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる。
本発明の一実施の形態に係る音声制御装置を含む端末装置の構成の一例を示すブロック図 本実施の形態における制御部の構成の一例を示すブロック図 本実施の形態における合成音声データの音場感覚の一例を示す模式図 本実施の形態における端末装置の動作の一例を示すフローチャート 本実施の形態における位置算出処理の一例を示すフローチャート 本実施の形態における合成音声データの音場感覚の他の例を示す模式図
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、本発明を、宅外に持ち出し可能であって他ユーザとの音声コミュニケーションが可能な端末装置に適用した例である。
図1は、本発明の一実施の形態に係る音声制御装置を含む端末装置の構成の一例を示すブロック図である。
図1に示す端末装置100は、インターネットあるいはイントラネット等の通信ネットワーク200を介して、音声メッセージ管理サーバ300に接続可能な装置である。端末装置100は、音声メッセージ管理サーバ300を介して、他の端末装置(図示せず)と音声メッセージのデータの交換を行う。音声メッセージのデータは、以下、適宜「音声メッセージ」という。
ここで、音声メッセージ管理サーバ300は、各端末装置からアップロードされた音声メッセージを管理し、アップロードされたタイミングで、各音声メッセージを複数の端末装置へ配信する装置である。
音声メッセージは、例えば、WAV等の所定の形式のファイルとして、伝送および保存される。特に、音声メッセージ管理サーバ300からの音声メッセージの配信時には、ストリーミング形式のデータとして伝送してもよい。ここでは、アップロードされる音声メッセージには、アップロードしたユーザ(送信元)のユーザ名、アップロードの日時、および音声メッセージの長さを含むメタデータが、付随しているものとする。メタデータは、例えば、XML(extensible markup language)等の所定の形式のファイルとして、伝送および保存される。
端末装置100は、音声入出力装置400、操作入力装置500、および音声制御装置600を有する。
音声入出力装置400は、音声制御装置600から入力される音声メッセージを音声化してユーザへ出力し、ユーザから入力される音声メッセージを信号化して音声制御装置600へ出力する。本実施の形態では、音声入出力装置400は、マクロフォンおよびヘッドフォンを備えたヘッドセットとする。
音声入出力装置400が入力する音声には、アップロードを目的とするユーザの音声メッセージと、音声制御装置600に対する操作を目的とする操作コマンドの音声データとが含まれる。以下、操作コマンドの音声データは、「音声コマンド」という。また、音声メッセージは、ユーザの発話音声に制限されず、音声合成により作成された音声や音楽等であってもよい。
また、本発明でいう「音声」とは、音声メッセージとして挙げた例から分かるように、人間の声に限定されない、音一般をいう。すなわち、「音声」とは、音楽、虫動物の鳴き声、機械からの騒音等の人工の音、および、滝あるいは雷等の自然の音というように、広く音(sound)を指すものする。
操作入力装置500は、ユーザの動作および操作(以下「操作」と総称する)を検出し、検出した操作の内容を示す操作情報を、音声制御装置600へ出力する。本実施の形態では、操作入力装置500は、上述のヘッドセットに取り付けられた3D(dimension)モーションセンサとする。3Dモーションセンサは、方位および加速度を取得することができる。したがって、本実施の形態において、操作情報は、実空間におけるユーザの頭部の向きを示す情報としての方位と加速度である。以下、ユーザの頭部は、単に「頭部」という。また、本実施の形態において、実空間におけるユーザの頭部の向きは、顔の正面の向きとする。
なお、音声入出力装置400および操作入力装置500は、例えば、有線ケーブルや、BlueTooth(登録商標)等の無線通信により、それぞれ音声制御装置600と接続されているものとする。
音声制御装置600は、音声メッセージ管理サーバ300から受信した音声メッセージを仮想空間内の音源として配置し、音声入出力装置400へ出力する。
具体的には、音声制御装置600は、音声メッセージ管理サーバ300から送信された他ユーザの音声メッセージを、仮想空間の音源として立体的に配置する。以下、音声メッセージ管理サーバ300から送信された他ユーザの音声メッセージは、「受信音声メッセージ」という。そして、音声制御装置600は、仮想空間に配置した音源から音声メッセージが聞こえてくるような音声データに変換して、音声入出力装置400へ出力する。すなわち、音声制御装置600は、複数の受信音声メッセージを、聞き分け易いように仮想空間に配置して、ユーザに提供する。
また、音声制御装置600は、音声入出力装置400から入力されたユーザの音声メッセージを、音声メッセージ管理サーバ300へ送信する。以下、音声入出力装置400から入力されたユーザの音声メッセージは、「送信音声メッセージ」という。すなわち、音声制御装置600は、送信音声メッセージを、音声メッセージ管理サーバ300にアップロードする。
また、音声制御装置600は、仮想空間における選択位置であるポインタの現在位置を決定し、音響ポインタを用いて、その位置を示す。本実施の形態では、ポインタは、操作の対象として選択されている位置を示す操作ポインタであるものとする。音響ポインタとは、ポインタ(本実施の形態では操作ポインタ)の現在位置を、仮想空間上で、周囲との音声メッセージとの音響状態の違いにより示すポインタである。
音響ポインタは、例えば、操作ポインタの現在位置に対応する音源の音声メッセージと他の音声メッセージとの差異の形態を取る。この差異は、例えば、音質または音量等の違いにより、選択されている音声メッセージが他の選択されていない音声メッセージよりも明瞭となっていることを含む。この場合、ユーザは、各音声メッセージの音質や音量の変化により、どの音源が選択されているかを把握することができる。
また、音響ポインタは、例えば、操作ポインタの現在位置から出力される、ビープ音等の所定の音の形態を取る。この場合、ユーザは、所定の音が聞こえてくる位置を、操作ポインタの位置と認識し、どの音源が選択されているかを把握することができる。
本実施の形態では、音響ポインタは、操作ポインタの現在位置から周期的に出力される所定の合成音の形態を取るものとする。このような合成音は、以下、「ポインタ音」という。また、操作ポインタおよび音響ポインタは、互いに位置が対応しているので、適宜、「ポインタ」と総称する。
音声制御装置600は、ポインタに対する移動操作、およびポインタにより選択されている音源に対する決定操作を、操作入力装置500を介してユーザから受け付ける。そして、音声制御装置600は、決定操作が行われた音源を指定した各種処理を行う。すなわち、決定操作は、ユーザが受信音声メッセージを聞いている状態から、受信音声メッセージを指定した操作を行う状態に遷移させる操作である。このとき、音声制御装置600は、上述の通り、音声コマンドにより操作コマンドの入力をユーザから受け付け、入力された操作コマンドに対応する処理を行う。
本実施の形態における決定操作は、頭部の頷きのジェスチャによって行われるものとする。また、操作コマンドにより指定可能な処理には、例えば、受信音声データの再生の開始、再生の停止、および巻き戻し等のトリックプレイが含まれるものとする。
音声制御装置600は、図1に示すように、通信インターフェース部610、音声入出力部620、操作入力部630、記憶部640、制御部660、および再生部650を有する。
通信インターフェース部610は、通信ネットワーク200に接続し、通信ネットワーク200を介して、音声メッセージ管理サーバ300およびWWW(world wide web)と接続して、データの送受信を行う。通信インターフェース部610は、例えば、有線LAN(local area network)または無線LANの通信インターフェースである。
音声入出力部620は、音声入出力装置400と通信可能に接続する通信インターフェースである。
操作入力部630は、操作入力装置500と通信可能に接続する通信インターフェースである。
記憶部640は、音声制御装置600の各部により用いられる記憶領域であり、例えば、受信音声メッセージを保存する。記憶部640は、例えば、メモリカード等、電源供給が停止しても記憶内容を保持する不揮発性の記憶デバイスである。
制御部660は、通信インターフェース部610を介して、音声メッセージ管理サーバ300から配信される音声メッセージを受信する。そして、制御部660は、受信音声メッセージを仮想空間に立体的に配置する。そして、制御部660は、操作入力部630を介して操作入力装置500から操作情報を入力し、上述の操作ポインタの移動操作および決定操作を受け付ける。
このとき、制御部660は、上述の音響ポインタを生成する。そして、制御部660は、立体配置された受信音声メッセージと、操作ポインタの位置に配置された音響ポインタとを合成して得られる音声のデータを生成し、再生部650へ出力する。このような合成により得られる音声のデータは、以下、「立体音声データ」という。
また、制御部660は、音声入出力部620を介して音声入出力装置400から送信音声メッセージを入力し、通信インターフェース部610を介して音声メッセージ管理サーバ300にアップロードする。また、制御部660は、選択対象に対する決定操作が行われる。かつ、制御部660は、音声入出力部620を介して音声入出力装置400から音声コマンドが入力されるごとに、上述の受信音声データ等に対する各種処理を行う。
再生部650は、制御部660から入力された立体音声データをデコードし、音声入出力部620を介して音声入出力装置400へ出力する。
なお、音声制御装置600は、例えば、CPU(central processing unit)、およびRAM(random access memory)等の記憶媒体等を含むコンピュータである。この場合、音声制御装置600は、記憶する制御プログラムをCPUが実行することによって動作する。
このような端末装置100は、音響ポインタにより操作ポインタの現在位置を示す。これにより、端末装置100は、ユーザに対し、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認しながら操作を行うことを可能にする。すなわち、ユーザは、端末装置100に画面表示装置が備えられていたとしても、GUI(graphical user interface)を用いることなく、どの音源が選択されているかを確認して、操作を行うことができる。つまり、本実施の形態に係る端末装置100を用いることにより、ユーザは、画面を注視することなく、操作対象となる音源を頼りに選択することができる。
ここで、制御部660の詳細の一例について説明する。
図2は、制御部660の構成の一例を示すブロック図である。
図2に示すように、制御部660は、音源割り込み制御部661、音源配置算出部662、操作モード判別部663、ポインタ位置算出部664、ポインタ判定部665、選択音源記録部666、音響ポインタ生成部667、音声合成部668、および操作コマンド制御部669を有する。
音源割り込み制御部661は、通信インターフェース部610を介して音声メッセージを受信するごとに、受信音声メッセージを、割込み通知と共に音源配置算出部662へ出力する。
音源配置算出部662は、割込み通知を入力されるごとに、受信音声メッセージを仮想空間に配置する。具体的には、音源配置算出部662は、受信音声データを、受信音声データの送信元ごとに異なる位置に配置する。
例えば、第1の送信元からの受信音声メッセージが配置されている状態で、第2の送信元からの受信音声メッセージの割込み通知が音源配置算出部662に入力された場合を想定する。この場合、音源配置算出部662は、第2の送信元からの受信音声メッセージを、第1の送信元とは異なる位置に配置することになる。音源は、例えば、頭部に水平な平面における、ユーザの位置を中心とする同心円上に、均等な位置に配置される。そして、音源配置算出部662は、各音源の仮想空間における現在位置を、それぞれの受信音声メッセージの識別情報および受信音声メッセージと共に、ポインタ判定部665および音声合成部668へ出力する。
操作モード判別部663は、動作モードが、操作モードであるとき、操作入力部630を介して入力される操作情報を、ポインタ位置算出部664へ出力する。ここで、操作モードとは、操作ポインタを用いて操作を行うモードである。本実施の形態における操作モード判別部663は、頭部の頷きのジェスチャをトリガとして、操作モード処理へと遷移するものとする。
ポインタ位置算出部664は、まず、操作情報に基づいて、実空間における頭部の向きの初期状態(例えば正面を向いている状態)を取得し、初期状態における頭部の向きに仮想空間の向きを固定する。そして、ポインタ位置算出部664は、操作情報が入力されるごとに、初期状態に対する頭部の向きの比較から、仮想空間における操作ポインタの位置を算出する。そして、ポインタ位置算出部664は、仮想空間における操作ポインタの現在位置を、ポインタ判定部665へ出力する。
本実施の形態におけるポインタ位置算出部664は、ユーザの顔正面の向きにあって、ユーザから所定の距離の位置を、操作ポインタの現在位置として取得するものとする。したがって、仮想空間における操作ポインタの位置は、ユーザの頭部の向きの変化に追従して変化し、常にユーザの顔の正面に位置することになる。これは、人が注目している対象に顔を向けることに対応している。
また、ポインタ位置算出部664は、操作情報から求められる実世界における頭部の向きを、ヘッドセットの向きとして取得する。そして、ポインタ位置算出部664は、ヘッドセットの向きからヘッドセットの傾き情報を生成し、ポインタ判定部665および音声合成部668へ出力する。ここで、ヘッドセットの傾き情報とは、ヘッドセットの位置および向きを基準としたヘッドセット座標系に対する、仮想空間内の座標系との差分を示す情報である。
ポインタ判定部665は、入力された操作ポインタの現在位置が、入力された各音源の現在位置のいずれかに対応しているか否かを判定する。すなわち、ポインタ判定部665は、ユーザがどの音源に顔を向けているかを判定する。
ここで、位置が対応している音源とは、操作ポインタの現在位置を中心とする所定の範囲内となっている音源をいうものとする。また、現在位置とは、操作ポインタの現在の位置だけでなく、直前の位置を含むものとする。以下、適宜、位置が対応している音源は、「選択されている音源」という。また、選択されている音源が割り当てられた受信音声メッセージは、「選択されている受信音声メッセージ」という。
なお、直前の時間において、その位置が操作ポインタの位置を中心とする所定の範囲内となっていたか否かは、例えば、次のようにして判定することができる。まず、ポインタ判定部665は、音源ごとに、操作ポインタの位置を中心とする所定の範囲内となったときからの経過時間をカウントする。そして、ポインタ判定部665は、カウントが開始された音源ごとに、そのカウント値が所定の閾値以下となっているか否かを逐次判定する。そして、ポインタ判定部665は、カウント値が所定の閾値以下である間は、該当する音源を、その位置が上記所定の範囲内となっていた音源であると判定する。これにより、ポインタ判定部665は、一旦選択された受信音声メッセージについて、その選択されている状態を一定時間継続し、選択対象に対するロックオン機能を実現する。
そして、ポインタ判定部665は、選択されている音源の識別情報を、選択されている受信音声メッセージと共に、選択音源記録部666へ出力する。また、ポインタ判定部665は、操作ポインタの現在位置を、音響ポインタ生成部667へ出力する。
選択音源記録部666は、入力された受信音声メッセージを、入力された識別情報と対応付けて、記憶部640に一時的に記録する。
音響ポインタ生成部667は、入力された操作ポインタの現在位置に基づいて、音響ポインタを生成する。具体的には、音響ポインタ生成部667は、ポインタ音の出力が操作ポインタの仮想空間における現在位置から出力されるような音声データを生成し、生成した音声データを音声合成部668へ出力する。
音声合成部668は、入力された受信音声メッセージに、入力されたポインタ音の音声データを重畳した合成音声データを生成して、再生部650へ出力する。このとき、音声合成部668は、入力されたヘッドセット傾き情報に基づき、仮想空間の座標を、基準となるヘッドセット座標系の座標に変換することにより、各音源の音像定位を行う。これにより、音声合成部668は、各音源及び音声ポインタがそれぞれの設定された位置から聞こえるような、合成音声データを生成する。
図3は、合成音声データがユーザに与える音場感覚の一例を示す模式図である。
図3に示すように、操作ポインタ720は、ユーザ710の初期状態における頭部の向きを基準として、位置が決定され、仮想空間の座標系730の向きが実空間に固定されたとする。ここでは、仮想空間の座標系730は、ユーザ710の初期位置における、後ろ正面方向をX軸方向、右方向をY軸、上方向を軸方向としている。
また、音源741〜743は、例えば、同心円上に、ユーザ710の左前45度方向、正面方向、右前45度方向の順に均一な間隔で、配置されているものとする。そして、図3では、第1〜第3の受信音声メッセージに対して、順に、音源741〜743が対応し、配置されたとする。
ここでは、ヘッドセットの左右のヘッドフォンの位置を基準とする座標系として、ヘッドセット座標系750を想定する。すなわち、ヘッドセット座標系750は、ユーザ710の頭部の位置および向きに固定された座標系である。したがって、ヘッドセット座標系750の向きは、ユーザ710の実空間における向きの変化に追従する。ここで、したがって、ユーザ710には、実空間における頭部の向きの変化と同じように、仮想空間においても頭部の向きが変化したような音場感覚が与えられる。図3の例では、ユーザ710は、頭部を、その初期位置711から右に45度回転させている。このため、各音源741〜743は、ユーザ710を中心として相対的に左に45度回転する。
また、音響ポインタ760は、常にユーザの顔正面に配置される。したがって、ユーザ710には、自分が顔を向けて聞いている音声(図3では第3の受信音声メッセージ)の方向から、音響ポインタ760が聞こえてくるような音場感覚が与えられる。言い換えると、ユーザ710には、音響ポインタ760によってどの音源が選択されたのかが、フィードバックされる。
図2の操作コマンド制御部669は、操作入力部630から入力された操作情報が、選択されている音源に対する決定操作であるとき、操作コマンドを待機する。そして、操作コマンド制御部669は、音声入出力部620から入力された音声データが音声コマンドであるとき、該当する操作コマンドを取得する。そして、操作コマンド制御部669は、取得した操作コマンドを発行し、その操作コマンドに応じた処理を他の各部に指示する。
また、操作コマンド制御部669は、入力された音声データが送信音声メッセージであるとき、送信音声メッセージを、通信インターフェース部610を介して音声メッセージ管理サーバ300へ送信する。
このような構成により、制御部660は、受信音声メッセージを仮想空間に立体的に配置し、音響ポインタにより、ユーザに対してどの音源が選択されているかを確認させつつ、音源に対する操作を受け付けることができる。
次に、端末装置100の動作について説明する。
図4は、端末装置100の動作の一例を示すフローチャートである。ここでは、操作モードとなっているときに行われる操作モード処理に着目して説明を行う。
まず、ステップS1100において、ポインタ位置算出部664は、操作情報が示す頭部の向きの方位を、初期値として記憶部640にセット(記録)する。この初期値は、実空間の座標系、仮想空間の座標系、およびヘッドセット座標系の間の対応関係の基準となる値であり、ユーザの動作を検出する上での初期値として用いられる値である。
そして、ステップS1200において、操作入力部630は、操作入力装置500からの逐次の操作情報の取得を開始する。
そして、ステップS1300において、音源割り込み制御部661は、通信インターフェース部610を介して音声メッセージを受信し、端末で再生すべき音声メッセージ(受信音声メッセージ)に増減があるか否かを判断する。すなわち、音源割り込み制御部661は、新たに再生すべき音声メッセージの有無や、再生が終了した音声メッセージが存在するか否かを判断する。音源割り込み制御部661は、受信音声メッセージに増減がある場合(S1300:YES)、ステップS1400へ進む。また、音源割り込み制御部661は、受信音声メッセージに増減がない場合(S1300:NO)、ステップS1500へ進む。
ステップS1400において、音源配置算出部662は、音源の仮想空間への再配置を行い、ステップS1600へ進む。この際、音源配置算出部662は、受信音声メッセージの音質から他ユーザの性別を判定し、同性の他ユーザの音声を離れて配置する等、音声を聞き分け易いような配置を行うことが望ましい。
また、ステップS1500において、ポインタ位置算出部664は、最新の操作情報と直前の操作情報との比較から、頭部の向きに変化があるか否かを判断する。ポインタ位置算出部664は、頭部の向きに変化がある場合(S1500:YES)、ステップS1600へ進む。また、ポインタ位置算出部664は、頭部の向きに変化がない場合(S1500:NO)、ステップS1700へ進む。
ステップS1600において、端末装置100は、各音源の位置およびポインタ位置を算出する位置算出処理を実行して、ステップS1700へ進む。
図5は、位置算出処理の一例を示すフローチャートである。
まず、ステップS1601において、ポインタ位置算出部664は、操作ポインタを配置すべき位置を、操作情報から算出する。
そして、ステップS1602において、ポインタ判定部665は、操作ポインタの位置と、各音源の配置とに基づいて、選択されている音源があるか否かを判断する。ポインタ判定部665は、選択されている音源がある場合(S1602:YES)、ステップS1603へ進む。また、ポインタ判定部665は、選択されている音源がない場合(S1602:NO)、ステップS1604へ進む。
ステップS1603において、選択音源記録部666は、選択されている音源の識別情報および受信音声メッセージ(メタデータを含む)を、記憶部640に記録して、ステップS1604へ進む。
なお、音響ポインタ生成部667は、音源が選択されたとき、音響ポインタの音声特性を変化させることが望ましい。また、この音声特性変化は、音声が選択されていない場合の音声と区別できることが望ましい。
ステップS1604において、ポインタ判定部665は、直前に選択された音源のうち、選択から外れた音源があるか否かを判断する。ポインタ判定部665は、選択から外れた音源がある場合(S1604:YES)、ステップS1606へ進む。また、ポインタ判定部665は、選択から外れた音源がない場合(S1604:NO)、ステップS1606へ進む。
ステップS1605において、選択音源記録部666は、選択から外れた音源の識別情報および受信音声メッセージの記録を破棄して、ステップS1606へ進む。
なお、音響ポインタ生成部667は、いずれかの音源が選択から外れたとき、音響ポインタの音声特性の変化等により、その旨をユーザに通知することが望ましい。また、この音声特性変化は、いずれかの音源が選択されたときの音声特性変化と区別できることが望ましい。
ステップS1606において、ポインタ位置算出部664は、操作情報からヘッドセット傾き情報を取得して、図4の処理へ戻る。
なお、ポインタ位置算出部664は、操作ポインタを配置すべき位置およびヘッドセット傾き情報を算出する際に、加速度を積分して頭部の初期位置に対する相対位置を算出し、この相対位置を用いてもよい。ただし、このようにして算出された相対位置には誤差が多く含まれる可能性があるため、後段のポインタ判定部665は、操作ポインタの位置と音源位置とのマッチングの幅を大きく持たせることが望ましい。
図4のステップS1700において、音声合成部668は、音響ポインタ生成部667で生成された音響ポインタを、受信音声メッセージに重畳した合成音声データを出力する。
そして、ステップS1800において、操作コマンド制御部669は、操作情報から、選択されている音源に対する決定操作が行われたか否かを判断する。操作コマンド制御部669は、例えば、記憶部640に識別情報が記録されている音源が存在するとき、この音源を、選択されている音源であると判断する。操作コマンド制御部669は、選択されている音源に対する決定操作が行われた場合(S1800:YES)、ステップS1900へ進む。また、操作コマンド制御部669は、選択されている音源に対する決定操作が行われていない場合(S1800:NO)、ステップS2000へ進む。
ステップS1900において、操作コマンド制御部669は、決定操作の対象となった音源の識別情報を取得する。以下、決定操作の対象となった音源は、「決定された音源」という。
なお、操作コマンドの入力をもって決定操作とする場合、ステップS1800、S1900の処理は不要である。
そして、ステップS2000において、操作コマンド制御部669は、ユーザの入力音声があったか否かを判断する。操作コマンド制御部669は、入力音声があった場合(S2000:YES)、ステップS2100へ進む。また、操作コマンド制御部669は、入力音声がない場合(S2000:NO)、後述のステップS2400へ進む。
ステップS2100において、操作コマンド制御部669、入力音声が音声コマンドであるか否かを判断する。この判断は、例えば、音声認識エンジンを用いて音声データに対する音声認識処理を行い、認識結果を、予め登録された音声コマンドの一覧で検索することにより行われる。音声コマンドの一覧は、ユーザが手動で音声制御装置600に登録してもよい。また、音声コマンドの一覧は、音声制御装置600が通信ネットワーク200を介して外部の情報サーバ等から取得してもよい。
なお、上述のロックオン機能により、ユーザは、いずれかの受信音声メッセージを選択した後、動かずに急いで音声コマンドを発する必要がなくなる。すなわち、ユーザは、時間的に余裕を持って音声コマンドを発することができる。また、いずれかの受信音声メッセージが選択された直後に音源の配置変更があった場合でも、その選択された状態は、保持される。したがって、ユーザは、このような音源の配置変更があったとしても、再度、受信音声メッセージを選択し直す必要がない。
操作コマンド制御部669は、入力音声が音声コマンドではない場合(S2100:NO)、ステップS2200へ進む。また、操作コマンド制御部669は、入力音声が音声コマンドである場合(S2100:YES)、ステップS2300へ進む。
ステップS2200において、操作コマンド制御部669は、入力音声を、送信音声メッセージとして、音声メッセージ管理サーバ300へ送信して、ステップS2400へ進む。
ステップS2300において、操作コマンド制御部669は、音声コマンドが示す操作コマンドを取得し、その操作コマンドに応じた処理を他の各部に指示して、ステップS2400へ進む。例えば、ユーザが入力した音声が「ていし」である場合、操作コマンド制御部669は、選択されている音声メッセージの再生を停止させる。
そして、ステップS2400において、操作モード判別部663は、ジェスチャによるモード変更操作等により、操作モード処理の終了を指示されたか否かを判断する。操作モード判別部663は、操作モード処理の終了を指示されていない場合(S2400:NO)、ステップS1200へ戻り、次の操作情報を取得する。また、操作モード判別部663は、操作モード処理の終了を指示された場合(S2400:YES)、操作モード処理を終了する。
このような動作により、端末装置100は、音源を仮想空間に配置し、頭部の向きにより操作ポインタの移動操作および決定操作を受け付け、音声コマンドにより音源に関する処理の指定を受け付けることができる。また、端末装置100は、その際に、音響ポインタにより操作ポインタの現在位置を示すことができる。
以上のように、本実施の形態に係る音声制御装置は、周囲との音響状態の差異により示す音響ポインタにより、操作ポインタの現在位置をユーザに提示する。これにより、本実施の形態に係る音声制御装置は、ユーザに対して、視覚を用いずに、仮想空間に立体的に配置された音源のいずれが選択されているかを確認しながら、操作を行わせることができる。
なお、音声制御装置は、操作コマンドの入力を、音声コマンド入力以外の手法によって行ってもよく、例えばユーザの身体のジェスチャを用いて行うようにしてもよい。
ジェスチャを用いる場合、音声制御装置は、例えば、ユーザの指や腕に装着される3Dモーションセンサから出力される加速度情報や方位情報等に基づいて、ユーザのジェスチャを検出すればよい。そして、音声制御装置は、検出したジェスチャが、予め操作コマンドに対応付けて登録されたジェスチャのいずれに該当するかを判断すればよい。
この場合、3Dモーションセンサは、例えば、指輪や時計等の装飾品に内蔵することが考えられる。更に、この場合、操作モード判別部は、特定のジェスチャをトリガとして、操作モード処理へと遷移してもよい。
なお、ジェスチャの検出は、例えば、操作情報を一定時間記録し、加速度や方位の変化のパターンを取得する。また、あるジェスチャの終了は、例えば、加速度や方位の変化が極端であることや、加速度や方位の変化が所定の時間以上発生していないことをもって、検出することができる。
また、音声制御装置は、操作コマンドの入力を音声コマンドによって行う第1の操作モードと、操作コマンドの入力をジェスチャによって行う第2の操作モードとの切り替えをユーザから受け付けてもよい。
この場合、操作モード判別部は、例えば、頭部の頷きのジェスチャと、手を振るジェスチャのどちらが行われたかに基づいて、いずれの動作モードが選択されたかを判断すればよい。また、操作モード判別部は、ユーザから、操作モードの指定の手法を、予め受け付けて記憶しておいてもよい。
また、音響ポインタ生成部は、選択されている音源が存在する間は、ポインタ音の音量を小さくしたり、その出力を停止(ミュート)させてもよい。また、逆に、音響ポインタ生成部は、選択されている音源が存在する間、ポインタ音の音量を大きくしてもよい。
また、音響ポインタ生成部は、周期的に出力されるポインタ音ではなく、新たに音源が選択されたときにのみ出力されるポインタ音を用いてもよい。特に、この場合、音響ポインタ生成部は、ポインタ音を、「捕獲!」等、メタデータの情報の読み上げ音声としてもよい。これにより、ユーザ710には、音響ポインタ760により、具体的にどの音源が選択されているのかが、フィードバックされ、コマンド発行のタイミングが図りやすくなる。
また、音響ポインタは、上述のように、操作ポインタの現在位置に対応する音源の音声と他の音声との差異(音声特性変化)の形態を採ってもよい。
この場合、音響ポインタ部は、例えば、選択されている受信音声メッセージ以外の受信音声メッセージに対してローパスフィルタ等によるマスク処理を行い、その高周波数成分をカットする。これにより、ユーザには、選択されていない受信音声メッセージは靄が掛かったような聞こえ方となり、選択されている受信音声メッセージのみが音質が良く明瞭に聞こえるようになる。
または、音響ポインタ部は、選択されている受信音声メッセージについて、その音量を相対的に増大させたり、選択されている受信音声メッセージと選択されていない受信音声メッセージとの間で音程や再生速度に差異を持たせる。これにより、音声制御装置は、操作ポインタの位置にある音源の音声を、他の音源の音声に比べてより明瞭にし、相対的により良く聞こえるように際立たせることができる。
このように、音響ポインタが受信音声メッセージの音声特性変化の形態を採る場合も、ユーザ710には、具体的にどの音源が選択されているのかが把握し易くなる。
また、音響ポインタは、ポインタ音の出力と、受信音声メッセージの音声特性変化とが組み合わされた形態を採ってもよい。
また、音響ポインタ生成部は、音響ポインタの種類の選択をユーザから受け付けてもよい。更に、音響ポインタ生成部は、ポインタ音または音声特性変化の種類を複数用意しておき、使用する種類の選択をユーザから受け付け、あるいは、ランダムに選択してもよい。
また、音源配置算出部は、複数の音声メッセージを1つの音源に設定せず、複数の音源を聞き分けができる程度に離して配置することが望ましいが、必ずしもこれに限定されない。複数の音声メッセージが1つの音源に設定された場合、あるいは、複数の音源が同一または近接する位置に配置されている場合、音響ポインタ生成部は、その旨を音声によりユーザに通知することが望ましい。
また、この場合、ポインタ判定部は、ユーザから、複数の音声データのいずれを選択するかの指定を更に受け付けてもよい。ポインタ判定部は、この指定の受け付けや、選択対象の切り替え操作を、例えば、予め登録された音声コマンドやジェスチャを用いて行うことができる。例えば、選択対象の切り替え操作は、現在の選択対象を否定する動作に近い、素早い首振りのジェスチャに対応付けることが好ましい。
または、音響ポインタ生成部は、複数の音声メッセージに対する同時の決定操作を受け付けてもよい。
また、音声制御装置は、受信音声メッセージの再生中ではなく、その再生終了後に、音源に対する選択操作、決定操作、および操作コマンドを受け付けてもよい。この場合、音源割り込み制御部は、受信音声メッセージが受信されなくなってからも、音源の配置を一定の時間維持しておく。また、この場合、受信音声メッセージの再生は終了しているので、音響ポインタ生成部は、ポインタ音等の所定の音声の形態を取る音響ポインタを生成することが望ましい。
また、音源の配置および音響ポインタの位置は、上述の例に限定されない。
音源配置算出部は、例えば、頭部に水平な平面以外の位置に音源を配置してもよい。例えば、音源配置算出部は、鉛直方向(図3における仮想空間の座標系730のZ軸方向)において異なる位置に複数の音源を配置してもよい。
また、音源配置算出部は、仮想空間を鉛直方向(図3における仮想空間の座標系730のZ軸方向)で階層化し、階層ごとに1つまたは複数の音源を配置してもよい。そして、この場合、ポインタ位置算出部は、階層に対する選択操作と、階層ごとの音源に対する選択操作とを受け付けるようにする。階層に対する選択操作は、既に説明した音源に対する選択操作と同様に、頭部の上下方向の向き、ジェスチャ、および音声コマンド等を用いて実現すればよい。
なお、音源配置算出部は、他ユーザの実際の位置に合わせて、各受信音声メッセージに割り当てる音源の配置を決定してもよい。この場合、音源配置算出部は、例えば、GPS(global positioning system)信号に基づいて、ユーザに対する他ユーザの相対位置を算出し、その相対位置に対応する方向に、対応する音源を配置する。この際音源配置算出部は、ユーザに対する他ユーザの距離に応じた距離で、対応する音源を配置してもよい。
また、音響ポインタ生成部は、音響ポインタを、どの音源に対応しているかを認識可能な範囲において、鉛直方向において音源とは異なる位置に配置してもよい。また、音源が水平面以外の面に配置される場合、音響ポインタ生成部は、同様に、その垂直方向において音源とは異なる位置に音響ポインタを配置してもよい。
また、本実施の形態では、特に説明を行わなかったが、音声制御装置または端末装置は、画像出力部を備えておき、音源配置や操作ポインタを図示するようにしてもよい。この場合、ユーザは、画面を注視可能なときには画像情報を併せて参照しながら、音源に対する操作を行うことが可能となる。
また、ポインタ位置算出部は、ヘッドセットの3Dモーションセンサの出力情報と、ユーザの胴体に装着される装置(例えば端末装置自体)の3Dモーションセンサの出力情報とに基づいて、音響ポインタの位置を設定してもよい。この場合、ポインタ位置算出部は、胴体に装着された装置の向きとヘッドセットの向きとの差分に基づいて、頭部の向きを算出し、頭部の向きに対する音響ポインタの向きの追従性の精度を向上させることができる。
また、ポインタ位置算出部は、ユーザの身体の向きに対応させて操作ポインタを移動させてもよい。この場合、ポインタ位置算出部は、例えば、ユーザの胴体や、ユーザの車椅子や乗用車のシート等のユーザの身体と向きが一致するような物に取り付けられた3Dモーションセンサの出力情報を、操作情報として用いることができる。
また、音声制御装置は、必ずしも、ユーザからポインタの移動操作を受け付けなくてもよい。この場合、例えば、ポインタ位置算出部は、規則的にまたはランダムに、ポインタ位置を移動させる。そして、ユーザは、所望の音源にポインタが合ったときに決定操作や操作コマンドの入力を行うことにより、音源の選択操作を行えばよい。
また、音声制御装置は、手のジェスチャ等の、頭部の向き以外の情報に基づいて、ポインタを移動させてもよい。
この場合、仮想空間の座標系の向きは、必ずしも実空間に固定される必要がない。したがって、仮想空間の座標系は、ヘッドセットの座標系に固定してもよい。すなわち、仮想空間は、ヘッドセットに固定されてもよい。
以下、仮想空間をヘッドセットに固定した場合について説明する。
この場合、ポインタ位置算出部は、ヘッドセット傾き情報を生成する必要がない。また、音声合成部は、各音源の音像定位にヘッドセット傾き情報を用いる必要がない。
また、ポインタ位置算出部は、操作ポインタの移動範囲を、仮想空間の音源位置のみに限定し、操作情報に応じて操作ポインタを音源間で移動させる。なお、この際、ポインタ位置算出部は加速度を積分して手の初期位置に対する相対位置を算出し、この相対位置に基づいて操作ポインタの位置を決定してもよい。ただし、このようにして算出された相対位置には誤差が多く含まれる可能性があるため、後段のポインタ判定部は、操作ポインタの位置と音源位置とのマッチングの幅を大きく持たせることが望ましい。
図6は、仮想空間をヘッドセットに固定した場合の、合成音声データがユーザに与える音場感覚の一例を示す模式図であり、図3に対応するものである。
図6に示すように、ユーザ710の頭部の向きによらず、仮想空間の座標系730は、ヘッドセット座標系750に固定される。したがって、ユーザ710には、第1〜第3の受信音声メッセージに割り当てられた音源741〜743の位置が、頭部に対して固定されたような音場感覚が与えられる。例えば、第2の受信音声メッセージは、ユーザ710には常に正面から聞こえてくることになる。
ポインタ位置算出部664は、例えば、操作ポインタ720を、ユーザ710の手に装着される3Dモーションセンサから出力される加速度情報に基づいて、手が振られた方向を検出する。そして、ポインタ位置算出部664は、手が振られた方向に、次の音源へと操作ポインタ720を移動させる。そして、音響ポインタ生成部667は、操作ポインタ720の方向に、音響ポインタ760を配置する。したがって、ユーザ710には、自分が操作ポインタ720の方向から音響ポインタ760が聞こえてくるような音場感覚が与えられる。
なお、ポインタの移動を頭部の向き以外の情報に基づいて行う場合、その操作のための3Dモーションセンサは、音声制御装置を含む端末装置自体に備えられていてもよい。また、この場合は、端末装置の画像表示部に実空間の画像を表示し、その上に音源を配置した仮想空間を重畳して表示してもよい。
なお、操作入力部は、ポインタの現在位置に対する仮決定操作を受け付け、音響ポインタは、仮決定操作に対するフィードバックとして出力されるものであってもよい。ここで、仮決定操作とは、選択されている音源に対する決定操作の、1つ手前の操作であり、仮決定操作の段階では、上述の音源を指定した各種処理は実行されない。この場合、ユーザは、仮決定操作に対するフィードバックにより、所望の音源が選択されていること確認してから、最終的な決定操作を行うことになる。
すなわち、音響ポインタは、ポインタの移動に伴って継続的に出力されるものではなく、仮決定操作が行われて初めて出力されるものであってもよい。これにより、音響ポインタの出力を最小限に抑えることができ、受信音声メッセージをより聴き取り易くすることができる。
また、音源位置は、仮想空間を移動するものであってもよい。この場合、音声制御装置は、音源が移動するごとに、あるいは、短い周期で繰り返し更新し、各音源の位置とポインタの位置との関係を、最新の音源位置に基づいて判断する。
以上説明したように本実施の形態に係る音声制御装置は、仮想空間に立体的に配置された音源に関する処理を行う音声制御装置であって、前記仮想空間における選択位置であるポインタの現在位置を決定するポインタ位置算出部と、前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成する音響ポインタ生成部と、を有する。さらに、前記音源を前記仮想空間に立体的に配置する音源配置算出部と、前記音源の音声および前記音響ポインタを合成して得られる音声を生成する音声合成部と、前記ポインタの現在位置に対する決定操作を受け付ける操作入力部と、前記決定操作の対象となった位置に前記音源が位置するとき、前記音源を指定した前記処理を行う操作コマンド制御部と、を有する音声制御装置である。これにより、本実施の形態は、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる。
2011年3月8日出願の特願2011−050584の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る音声制御装置および音声制御方法は、視覚を用いることなく、仮想空間に立体的に配置された音源のいずれが選択されているかを確認することができる、音声制御装置および音声制御方法として有用である。すなわち、本発明は、例えば、携帯電話や音楽プレーヤ等、音声を再生する機能を持つ各種の機器に対して有用であり、これらの機器の製造、販売、提供、利用する産業において、経営的、継続的、反復的に利用することができる。
100 端末装置
200 通信ネットワーク
300 音声メッセージ管理サーバ
400 音声入出力装置
500 操作入力装置
600 音声制御装置
610 通信インターフェース部
620 音声入出力部
630 操作入力部
640 記憶部
650 再生部
660 制御部
661 音源割り込み制御部
662 音源配置算出部
663 操作モード判別部
664 ポインタ位置算出部
665 ポインタ判定部
666 選択音源記録部
667 音響ポインタ生成部
668 音声合成部
669 操作コマンド制御部

Claims (11)

  1. 仮想空間に立体的に配置された音源に関する処理を行う音声制御装置であって、
    前記音源を前記仮想空間に立体的に配置する音源配置算出部と、
    前記仮想空間における選択位置であるポインタの現在位置を決定するポインタ位置算出部と、
    前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成する音響ポインタ生成部と、
    前記音源の音声および前記音響ポインタを合成して得られる音声を生成する音声合成部と、
    前記ポインタの現在位置に対する決定操作を受け付ける操作入力部と、
    前記決定操作の対象となった位置に前記音源が位置するとき、前記音源を指定した前記処理を行う操作コマンド制御部と、を有する、
    音声制御装置。
  2. 前記音響ポインタは、
    前記ポインタの現在位置から出力される所定の音を含む、
    請求項1記載の音声制御装置。
  3. 前記音響ポインタは、
    前記ポインタの現在位置に対応する前記音源の音声と他の音声との違いを含む、
    請求項1記載の音声制御装置。
  4. 前記音声の違いは、前記音源の音声が前記他の音声に比べてより明瞭であることを含む、
    請求項3記載の音声制御装置。
  5. 前記操作入力部は、
    前記ポインタに対する移動操作を更に受け付ける、
    請求項1記載の音声制御装置。
  6. 前記仮想空間は、前記音源の音声を聴くユーザの、実空間における頭部の向きの初期状態を基準として、前記実空間にその向きが固定された空間である、
    請求項1記載の音声制御装置。
  7. 前記操作入力部は、
    前記仮想空間における前記ユーザの頭部の現在の正面方向を、前記ポインタの現在位置の方向として取得する、
    請求項6記載の音声制御装置。
  8. 前記現在位置は、前記ポインタの現在の位置および直前の位置を含む、
    請求項1記載の音声制御装置。
  9. ユーザの発話音声を入力する音声入力部と、
    入力された前記発話音声の音声データを他の装置へ送信し、前記他の装置から送信された音声データを受信する通信インターフェース部と、を有し、
    前記音源配置算出部は、
    受信された前記音声データの各送信元に対して前記音源を割り当て、
    前記音声合成部は、
    受信された各音声データを、対応する音源からの音声データに変換する、
    請求項1記載の音声制御装置。
  10. 前記操作入力部は、
    前記ポインタの現在位置に対する仮決定操作を受け付け、
    前記音響ポインタは、前記仮決定操作に対するフィードバックを含む、
    請求項1記載の音声制御装置。
  11. 仮想空間に立体的に配置された音源に関する処理を行う音声制御方法であって、
    前記音源を前記仮想空間に立体的に配置するステップと、
    前記仮想空間における選択位置であるポインタの現在位置を決定するステップと、
    前記ポインタの現在位置を周囲との音響状態の違いにより示す、音響ポインタを生成するステップと、
    前記音源の音声および前記音響ポインタを合成して得られる音声を生成するステップと、
    前記ポインタの現在位置に対する決定操作を受け付けるステップと、
    前記決定操作の対象となった位置に前記音源が位置するとき、前記音源を指定した前記処理を行うステップと、を有する、
    音声制御方法。
JP2013503367A 2011-03-08 2012-02-23 音声制御装置および音声制御方法 Active JP5942170B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011050584 2011-03-08
JP2011050584 2011-03-08
PCT/JP2012/001247 WO2012120810A1 (ja) 2011-03-08 2012-02-23 音声制御装置および音声制御方法

Publications (2)

Publication Number Publication Date
JPWO2012120810A1 JPWO2012120810A1 (ja) 2014-07-17
JP5942170B2 true JP5942170B2 (ja) 2016-06-29

Family

ID=46797786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013503367A Active JP5942170B2 (ja) 2011-03-08 2012-02-23 音声制御装置および音声制御方法

Country Status (4)

Country Link
US (1) US20130156201A1 (ja)
JP (1) JP5942170B2 (ja)
CN (1) CN103053181A (ja)
WO (1) WO2012120810A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046103A (ja) * 2013-08-29 2015-03-12 シャープ株式会社 対話型インタフェース及び情報処理装置
US10126823B2 (en) 2014-01-03 2018-11-13 Harman International Industries, Incorporated In-vehicle gesture interactive spatial audio system
CN103928025B (zh) * 2014-04-08 2017-06-27 华为技术有限公司 一种语音识别的方法及移动终端
JP6294183B2 (ja) * 2014-08-01 2018-03-14 株式会社Nttドコモ メニュー選択装置及びメニュー選択方法
US10085107B2 (en) 2015-03-04 2018-09-25 Sharp Kabushiki Kaisha Sound signal reproduction device, sound signal reproduction method, program, and recording medium
CN107204132A (zh) * 2016-03-16 2017-09-26 中航华东光电(上海)有限公司 3d虚拟立体声空中预警系统
WO2017216629A1 (en) * 2016-06-14 2017-12-21 Orcam Technologies Ltd. Systems and methods for directing audio output of a wearable apparatus
EP3261367B1 (en) 2016-06-21 2020-07-22 Nokia Technologies Oy Method, apparatus, and computer program code for improving perception of sound objects in mediated reality
EP3489821A1 (en) * 2017-11-27 2019-05-29 Nokia Technologies Oy A user interface for user selection of sound objects for rendering, and/or a method for rendering a user interface for user selection of sound objects for rendering
US10929099B2 (en) 2018-11-02 2021-02-23 Bose Corporation Spatialized virtual personal assistant
JP7015860B2 (ja) * 2020-03-31 2022-02-03 本田技研工業株式会社 車両
CN112951199B (zh) * 2021-01-22 2024-02-06 杭州网易云音乐科技有限公司 音频数据生成方法及装置、数据集构建方法、介质、设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000138913A (ja) * 1998-10-30 2000-05-16 Sony Corp 情報処理装置および方法、並びに提供媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3834848B2 (ja) * 1995-09-20 2006-10-18 株式会社日立製作所 音情報提供装置、及び音情報選択方法
JP2000155589A (ja) * 1998-11-20 2000-06-06 Mitsubishi Electric Corp 空間位置呈示方法および空間位置呈示プログラムを記録した記録媒体
GB2372923B (en) * 2001-01-29 2005-05-25 Hewlett Packard Co Audio user interface with selective audio field expansion
GB2374505B (en) * 2001-01-29 2004-10-20 Hewlett Packard Co Audio announcements with range indications
JP2003006132A (ja) * 2001-06-25 2003-01-10 Matsushita Electric Ind Co Ltd 音声を用いたチャット装置、チャットプログラムおよびチャット方法
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
JP2004144912A (ja) * 2002-10-23 2004-05-20 Matsushita Electric Ind Co Ltd 音声情報変換方法、音声情報変換プログラム、および音声情報変換装置
JP2006074589A (ja) * 2004-09-03 2006-03-16 Matsushita Electric Ind Co Ltd 音響処理装置
US8406439B1 (en) * 2007-04-04 2013-03-26 At&T Intellectual Property I, L.P. Methods and systems for synthetic audio placement
JP5366043B2 (ja) * 2008-11-18 2013-12-11 株式会社国際電気通信基礎技術研究所 音声記録再生装置
US9344813B2 (en) * 2010-05-04 2016-05-17 Sonova Ag Methods for operating a hearing device as well as hearing devices

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000138913A (ja) * 1998-10-30 2000-05-16 Sony Corp 情報処理装置および方法、並びに提供媒体

Also Published As

Publication number Publication date
WO2012120810A1 (ja) 2012-09-13
JPWO2012120810A1 (ja) 2014-07-17
US20130156201A1 (en) 2013-06-20
CN103053181A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
JP5942170B2 (ja) 音声制御装置および音声制御方法
US10972857B2 (en) Directional audio selection
US10915291B2 (en) User-interfaces for audio-augmented-reality
EP3424229B1 (en) Systems and methods for spatial audio adjustment
US10929099B2 (en) Spatialized virtual personal assistant
KR102197544B1 (ko) 공간화 오디오를 가진 혼합 현실 시스템
US10869154B2 (en) Location-based personal audio
US20180332395A1 (en) Audio Mixing Based Upon Playing Device Location
US20190279250A1 (en) Audio content engine for audio augmented reality
US11036464B2 (en) Spatialized augmented reality (AR) audio menu
JP2016201817A (ja) 情報処理システム、その制御方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム
US10402153B2 (en) Creation and control of channels that provide access to content from various audio-provider services
US20220246135A1 (en) Information processing system, information processing method, and recording medium
JP7243639B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
JP5929455B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20141006

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20141016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160425

R151 Written notification of patent or utility model registration

Ref document number: 5942170

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151