JP5685177B2 - 情報伝達システム - Google Patents

情報伝達システム Download PDF

Info

Publication number
JP5685177B2
JP5685177B2 JP2011271160A JP2011271160A JP5685177B2 JP 5685177 B2 JP5685177 B2 JP 5685177B2 JP 2011271160 A JP2011271160 A JP 2011271160A JP 2011271160 A JP2011271160 A JP 2011271160A JP 5685177 B2 JP5685177 B2 JP 5685177B2
Authority
JP
Japan
Prior art keywords
unit
sound source
image
information
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011271160A
Other languages
English (en)
Other versions
JP2013122695A (ja
Inventor
一博 中臺
一博 中臺
今井 倫太
倫太 今井
俊輔 植田
俊輔 植田
圭佑 中村
圭佑 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2011271160A priority Critical patent/JP5685177B2/ja
Priority to US13/707,730 priority patent/US8990078B2/en
Publication of JP2013122695A publication Critical patent/JP2013122695A/ja
Application granted granted Critical
Publication of JP5685177B2 publication Critical patent/JP5685177B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B5/00Visible signalling systems, e.g. personal calling systems, remote indication of seats occupied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Manipulator (AREA)

Description

本発明は、情報伝達システムに関する。
従来から、遠隔地で収録された環境情報を利用者に提示し、利用者に収録した地点における環境を知覚させる技術が提案されてきた。例えば、ロボットに装備された撮影装置や収音装置で収録した音声情報や画像情報を受信し、受信した情報を利用者に提示する端末装置がある。このような端末装置を利用することで、ロボットの周囲における環境情報を利用者に把握させ、利用者に当該ロボットを操作させる試みがなされている。
例えば、特許文献1に記載のロボット装置は、カメラとステレオマイクと表情を表示するディスプレイとスピーカとCPU本体と通信ユニットと伸縮機構と走行装置とを有するロボット本体及びディスプレイと頭部操作部と伸縮操作部と音声調整部と通信ユニットと撮像部とを備えたステレオヘッドフォンマイクとを有する操作端末で構成される。これにより、当該ロボット装置は、操作者が遠隔地の会議場に出席させたロボットを介して、会議の状況を見て、聞き、表情を見せ、資料を提示し、握手をする等、臨場感のある会議を可能にしている。
特開2002−46088号公報
しかしながら、当該ロボット装置の周囲に複数の音源が所在する場合、当該ステレオマイクは、各音源の音声信号が重畳された音声情報を収録する。使用者は、当該ステレオヘッドフォンマイクを用いて、重畳された音声情報を受聴することになる。そのため、使用者は、音源毎の音声情報が表す内容を聞き分けることができず発話内容を把握することが困難なことがあった。
本発明は上記の点に鑑みてなされたものであり、使用者に対して発話内容の把握を容易にする情報伝達システムを提供する。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、情報取得装置と情報提示装置とを備える情報伝達システムであって、前記情報提示装置は、音声信号を入力する音声信号入力部と、画像信号を入力する画像信号入力部と、前記画像信号が表す画像を表示する画像表示部と、前記音声信号に基づき音源毎の方向情報を推定する音源定位部と、前記音声信号から前記音源毎の音源別音声信号に分離する音源分離部と、前記音源毎の音源別音声信号に対して音声区間を検出する音声検出部と、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、前記音声検出部が音声区間を検出した音源別音声信号の音源の方向情報に対応する座標に、発話状態であることを示す発話パターン画像を前記画像表示部に表示させる表示情報出力部と、前記座標指定情報が表す領域を表示領域に含む発話パターン画像に係る音源の音源別音声信号を選択する音源選択部と、前記音源選択部が選択した音源別音声信号を出力する音声出力部と、前記音源別音声信号に対応する音源の方向情報に係る座標が、前記入力された画像信号が表す画像の表示範囲外であるとき、表示範囲外であることを表す表示情報を生成する表示情報生成部と、前記音源別音声信号に対応する音源の方向に、前記入力された画像信号が表す画像を撮影する撮影部の方向を変更することを指示する制御情報を生成する制御情報生成部と、を備え、前記表示情報出力部は、前記音源選択部が選択した音源の音源別音声信号に係る発話パターン画像を音声再生中であることを示す再生パターン画像に入れ替え、前記情報取得装置と前記撮影部は、ロボットに備えられ、前記撮影部と、前記制御情報に基づいて前記撮影部の方向を制御する動作制御部を備え、前記撮影部が撮影した画像を示す画像信号を前記画像信号入力部に出力することを特徴とする情報伝達システムである。
上述の態様によれば、画面に表示されていなかった音源の方向の画像を、利用者が視覚を通じて把握することができる。
本発明の第1の実施形態に係るロボットの構成を表す概略図である。 本実施形態に係る撮影部及び収音部の配置例を表す平面図である。 本実施形態に係る情報提示装置の構成を表す概略図である。 画像座標系の一例を表す概念図である。 本実施形態に係る情報提示処理を表すフローチャートである。 発話パターン画像を含む表示画像の一例を表す概念図である。 指示パターン画像を含む表示画像の一例を表す概念図である。 楕円パターン画像及び再生パターン画像を含む表示画像の一例を表す概念図である。 曲線パターン画像を含む表示画像の一例を表す概念図である。 テキストパターン画像を含む表示画像の一例を表す概念図である。 本実施形態に係る音源方向推定処理を表すフローチャートである。 本実施形態に係る音源分離処理を表すフローチャートである。 本実施形態に係る動作制御処理の一例を表すフローチャートである。 表示画像の他の例を表す概念図である。 本実施形態に係る動作制御処理の他の例を表すフローチャートである。 本発明の第2の実施形態に係るロボットの構成を表す概略図である。 本実施形態に係る情報提示装置の構成を表す概略図である。 発話区間の一例を表す図である。 利用者毎の正答率の一例を表す図である。
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について説明する。
情報伝達システム1は、ロボット10、情報提示装置20及びネットワーク30を含んで構成される。
ロボット10は、自己の位置や姿勢を変化させるロボット、例えば頭部を水平方向に回転させ、2足歩行で移動する人型ロボットである。なお、ロボット10は、2足歩行する人型ロボットに限らず、回転する車輪を備え自律的に移動する車輪型ロボットや、人間が搭乗して移動を支援する人搭乗型ロボットであってもよい。
ロボット10は、情報取得部11を備える。情報取得部11は、その周囲の環境を表す音声情報と画像情報を取得し、取得した音声情報と画像情報を情報提示装置20に送信する。ロボット10は、情報提示装置20から受信した制御情報に基づいて、動作を制御する。
情報提示装置20は、ロボット10から音声情報と画像情報を受信する。情報提示装置20は、受信した音声情報から音源毎の音声信号に分離し、音源毎の方向情報を推定する。情報提示装置20は、分離した音声信号に基づく音声を再生する。情報提示装置20は、受信した画像情報に基づく画像を表示する。
情報提示装置20は、使用者による操作入力を検知し、ロボット10の動作に係る制御情報を生成する。生成した制御情報をロボット10に送信する。
ネットワーク30は、ロボット10と情報提示装置20の間の信号を送受信するネットワークである。ネットワーク30は、例えば、構内ネットワーク(LAN、Local Area Network)、広域ネットワーク(WAN、Wide Area Network)、インターネットの何れでもよいし、これらには限られない。また、ネットワーク30を構成する伝送媒体は、有線であってもよいし、無線であってもよい。
次に、ロボット10の構成について説明する。
図1は、本実施形態に係るロボット10の構成を表す概略図である。
ロボット10は、情報取得部11、通信部104、位置情報取得部105、動作制御部106及び動作機構部107を含んで構成される。
情報取得部11は、音声情報入力部101及び画像情報入力部102を含んで構成される。
音声情報入力部101は、N個(Nは、2又は2よりも大きい整数、例えば8)の収音部1011−1〜1011−Nと音声符号化部1012を備える。
収音部1011−1〜1011−Nは、それぞれ空気の振動である音波を電気信号に変換する電気音響変換器、例えば、マイクロホンである。収音部1011−1〜1011−Nは、それぞれ変換した電気信号を、チャネル毎のアナログ音声信号として音声符号化部1012に出力する。
音声符号化部1012は、収音部1011−1〜1011−Nから、それぞれチャネル毎のアナログ音声信号を入力される。音声符号化部1012は、入力されたアナログ音声信号を、それぞれA/D変換(Analog−to−Digital Transform)してチャネル毎のディジタル音声信号を生成する。音声符号化部1012は、生成したディジタル音声信号を予め定めた符号化方式(例えば、ITU−T勧告 G.722)を用いて符号化し、チャネル毎の音声符号を生成する。音声符号化部1012は、生成したチャネル毎の音声符号を、多重化して全チャネルに対して1個の音声情報を生成する。音声符号化部1012は、生成した音声情報を通信部104に送信信号として出力する。
画像情報入力部102は、撮影部1021、画像補正部1022及び画像符号化部1023を備える。
撮影部1021は、被写体を表す画像を撮影し、撮影した画像を表す画像信号を生成する。撮影部1021は、例えば、CCD(Charge Coupled Device)カメラ、又はCMOS(Complementary Metal Oxide Semiconductor)カメラである。撮影部1021は、例えば、ロボット10の頭部正面に配置されている。撮影部1021が生成した画像信号は、平面上に配置された予め定めた数の画素毎の信号値を含む。この画像信号は、例えば、画素毎に3色(赤色(R)、緑色(G)、青色(B))の色信号値を含むRGB色モデルに基づく画像信号である。撮影部1021は、生成した画像信号を画像補正部1022に出力する。
画像補正部1022は、動作制御部106から入力された画像補正信号に基づいて撮影部1021から入力された画像信号を補正する。画像補正信号は、例えば、撮影部1021の位置や撮影方向の急激な変化によって生じた画質の劣化(例えば、ぶれ)を低減させることを表す信号である。
画像補正部1022は、変換した画像信号に含まれる信号値の座標を、画像補正信号が表す座標補正量だけ移動させて、移動を相殺又は低減するように画像を補正し、補正した画像信号を生成する。
ここで、画像補正部1022は、画像信号を補正する前に、入力された画像信号に含まれる信号値を画素間で補間し、より解像度が高い画像信号に変換(オーバーサンプリング;oversampling)してもよい。その場合、画像補正部1022は、補正した画像信号の解像度を、入力された画像信号と同一の解像度に低減した画像信号を出力する。これにより、補正の精度を向上させることができる。
なお、画像補正部1022は、撮影部1021が備える撮像素子を画像補正信号に基づいて画像の移動が相殺又は低減するように駆動させることで画像信号を補正してもよい。
画像補正信号が入力されなかった場合には、画像補正部1022は、入力された画像信号を補正せずに画像符号化部1023に出力してもよい。
画像符号化部1023は、画像補正部1022から入力された画像信号を予め定めた符号化方式(例えば、ITU−T勧告 H.264)を用いてフレーム毎に符号化し画像符号を生成する。画像符号化部1023は、生成した画像符号を通信部104に送信信号として出力する。
なお、符号化方式が可変ビットレート(variable bit rate)である場合には、画像符号化部1023は、動作制御部106から入力されたレート補正信号が表すビットレートに、符号化を行う際のビットレートを変更する。ここで、レート補正信号は、符号化された画像符号のビットレートを変更することを表す信号である。画像のビットレートは、1秒間当たりのフレーム数であるフレームレートと1フレーム当たりの画素数である解像度によって定められる。例えば、符号化方式H.264では、15通り(level)のフレームレートと解像度の組み合わせのうち、何れかを用いることが規定されている。この符号化方式では、ビットレートが高いほど、大きいレベル数が定められている。レート補正信号は、符号化方式で定められているフレームレート、解像度、又はこれらの組み合わせを表す信号であってもよい。レート補正信号が入力されない場合には、画像符号化部1023は、予め定めたビットレート、又は直前に設定されたビットレートで画像符号化を行う。
通信部104は、音声符号化部1012又は画像符号化部1023から入力された送信信号を、予め定めたメッセージ形式に変換し、変換した送信信号を情報提示装置20に送信する。変換するメッセージ形式は、例えば、ロボットを動作させるオペレーティングシステムの1つであるROS(Robot Operating System)で用いられている形式である。通信部104は、通信部104は、情報提示装置20から受信した受信信号から制御信号を抽出し、抽出した制御信号を動作制御部106に出力する。通信部104は、例えば通信インタフェースである。
位置情報取得部105は、動作機構部107の変位を検知する位置センサを備え、検知した変位に基づいて予め定めた時間間隔(例えば、20ms)で位置情報を生成する。この位置情報は、ロボット10の位置や姿勢、例えば、頭部の方向を表す。
位置情報取得部105は、生成した位置情報を動作制御部106に出力する。
動作制御部106は、電力値の時系列パターン情報と制御情報を対応づけた電力モデル情報を記憶する記憶部を備える。電力値の時系列パターン情報は、動作機構部107を構成する部品毎の電力値であって、位置情報に応じた電力値の時系列パターンを表す情報である。電力モデル情報と対応付けられている制御情報には、例えば、ロボット10の姿勢や位置を変化することを命令する情報がある。その制御情報に対応付けられている部品とは、例えば、頭部を回転させるモータである。
動作制御部106は、通信部104から入力された制御情報に対応する電力モデル情報を記憶部から読み出す。動作制御部106は、読み出した電力モデル情報を参照して位置情報取得部105から入力された位置情報に対応する部品毎の電力値を定める。動作制御部106は、定めた電力値をもつ電力を、動作機構部107の該当する部品に出力する。
動作制御部106は、現在入力された位置情報(例えば、頭部の方向)と、予め定めた時間だけ過去に入力された位置情報からの変位を算出し、算出した変位が予め定めた閾値を超えた場合、画像補正信号又はレート補正信号を生成する。ここで、動作制御部106は、その変位から画素毎の移動速度を算出し、算出した移動速度に基づいて画素毎の画像の移動量を算出する。この移動量は、撮影部1021が1つの信号値をサンプリングする時間内に、画像が画面上を移動する量であり、水平(X)方向成分と垂直(Y)方向成分を含む2次元のベクトルで表される。動作制御部106は、算出した移動量の正負を逆転した値を座標補正量とし、その座標補正量を表す画像補正信号を生成する。
動作制御部106は、画像符号化部1023が用いる符号化方式に応じたビットレートの段階を表し、算出した変位が大きいほど、より低いビットレート(フレームレート、解像度)を表すレート補正信号を生成する。
動作制御部106は、生成した画像補正信号を画像補正部1022に出力し、レート補正信号を画像符号化部1023に出力する。
動作機構部107は、複数の部品(例えば、ロボット10の頭部を駆動するモータ等)から構成されている。各部品は動作制御部106から供給された電力によって駆動される。電力が供給されない部品は、動作を静止する。
次に、撮影部1021及び収音部1011−1〜1011−Nの配置例について説明する。
図2は、本実施形態に係る撮影部1021及び収音部1011−1〜1011−Nの配置例を表す平面図である。
図2の中央部にロボット10を表す。ロボット10の中央に位置する、塗りつぶした円はロボット10の頭部31を表す。図2において左上の方向が、ロボット10の正面方向である。ロボット10の頭部31から正面方向に延びる一点鎖線は撮影部1021の光軸32の方向を表す。図は、撮影部1021は、ロボット10の頭部31の正面に光軸32が向くように設置されていることを表す。
横縞で塗りつぶした矩形は、ロボット10の胴体部33を表す。収音部1011−1〜1011−Nが、ロボット10の胴体部正面に等間隔で水平方向に配置されていることを表す。収音部1011−1〜1011−Nの方向は、各々ロボット10の正面方向である。
次に、情報提示装置20の構成について説明する。
は、本実施形態に係る情報提示装置の構成を表す概略図である。
情報提示装置20は、通信部201、音声復号(audio decoding)部202、音源定位(sound source localization)部203、音源分離(sound source separation)部204、音声検出(speech detection)部205、音声認識(speech recognition)部206、表示情報生成部207、画像復号(video decoding)部208、表示画像合成部209、画像表示部210、操作入力部211、音源選択部212、音声出力部213、及び制御情報生成部214を含んで構成される。
通信部201は、ロボット10(図2)から受信した受信信号から音声情報と画像符号を抽出する。通信部201は、抽出した音声情報を音声復号部202に出力し、画像符号を画像復号部208に出力する。通信部201は、制御情報生成部214から入力された制御情報を、上述のメッセージ形式に変換してロボット10に送信する。通信部201は、例えば通信インタフェースである。
音声復号部202は、通信部201から入力された音声情報をチャネル毎の音声符号に分離する。音声復号部202は、分離した音声符号を復号して音声信号をチャネル毎に生成する。音声復号部202が用いる復号方式は、ロボット10の音声符号化部1012が用いる音声符号化方式に対応する復号方式である。音声復号部202は、生成したチャネル毎の音声信号を音源定位部203に出力する。ここで、音声復号部202が出力する音声信号のチャネル数はN(Nは、1よりも大きい整数)である。
音源定位部203は、音声復号部202から入力されたチャネル毎の音声信号に基づいて、音源毎の方向を推定する。音源の方向を推定するために、音源定位部203は、例えば、MUSIC(Multiple Signal Classification)法を用いてもよい。MUSIC法を用いた音源方向推定処理については後述する。本実施形態では、音源定位部203は、通常のMUSIC法の代わりに、例えば、GEVD(Generalizaed Eigenvalue Deconposition;一般化固有値展開)−MUSIC法、GSVD(Generalizaed Singular Value Decomposition;一般化特異値展開)−MUSIC法、等の方式を用いてもよい。
音源定位部203は、推定した音源毎の方向を表す音源方向情報を音源分離部204、表示情報生成部207及び制御情報生成部214に出力する。音源定位部203は、音声復号部202から入力されたチャネル毎の音声信号を音源分離部204に出力する。
音源分離部204は、音源定位部203から音源方向情報及びチャネル毎の音声信号が入力される。音源分離部204は、入力された音源方向情報に基づいて、音声信号から音源毎に音声信号を分離する。音声信号を分離するために、音源分離部204は、例えば、GHDSS(Geometric−constrained Highorder Decorrelation−based Source Separation)法を用いてもよい。GHDSS法を用いた音源分離に係る処理については、後述する。
音源分離部204は、分離した音声信号を音源別音声信号として音声検出部205及び音声出力部213に出力する。
音声検出部205は、音源分離部204から入力された音源別音声信号に対して音声区間検出(Voice Activity Detection;VAD)を行う。音声検出部205は、例えば、予め定めた時間間隔(例えば、10ms)毎のパワー値が、予め定めたパワー閾値を越え、かつ、その時間間隔毎の零交差数(number of zero crossings)が、予め定めた数を越えたとき、音声区間であると判断する。零交差数とは、音声信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。音声検出部205は、その時間間隔毎の音声区間であるか否かを表す音声検出情報を生成する。音声検出部205は、入力された音源別音声信号と、その信号に対応する音声検出情報を音声認識部206に出力する。音声検出部205は、音声検出情報を表示情報生成部207に出力する。
音声認識部206は、音声検出部205から音源別音声信号と、これに対応する音声検出情報が入力される。音声認識部206は、入力された音源別音声信号のうち、音声検出情報が音声区間を表している区間について音声認識処理を行い、音源毎のテキスト情報を生成する。
音声認識部206は、例えば、音源別音声信号に基づいて音響特徴量を算出し、音響モデルを用いて算出した音響特徴量に対応した音韻情報の候補を定める。音声認識部206は、音響特徴量として、例えばメル尺度ケプストラム(Mel−scale cepstrum)を用いてもよい。音声認識部206は、言語モデルを用いて、定めた音韻情報の候補に対応する単語情報の候補を定める。音声認識部206は、定めた単語情報の候補の中で最も尤度が高い単語情報を表すテキスト情報を定める。音声認識部206は、音響モデルや言語モデルとして、例えば、隠れマルコフモデル(Hidden Markov Model;HMM)を用いてもよい。
音声認識部206は、生成した音源毎のテキスト情報を表示情報生成部207に出力する。
表示情報生成部207は、音源定位部203から入力された音源方向情報が表す音源毎の方向を、画像座標系で表される表示座標に変換する。画像座標系とは、ロボット10の撮影部1021の焦点を通る光軸に直交する撮像素子(撮影面)に表示される画像の位置を表す座標系である。
ここで、画像座標系について説明する。
図4は、画像座標系の一例を表す概念図である。
図4の右下に表示されている点Oは、焦点である。焦点Oから左上に向かう一点鎖線は、撮影部1021の光軸、つまりZ軸を示す。Z軸と中心点Cで交わる破線で表す矩形は、撮影面を表す。撮影面はZ軸と直交している。点Cから右に向かう実線は、撮影面の水平方向に向かうX軸を表し、点Cから右下に向かう実線は、撮影面の垂直方向に向かうY軸を表す。また、図では、X軸上における撮像面の左端をXL、右端をXRと表す。
ここで、左端XLと焦点Oを結ぶ線分と右端XRと焦点Oを結ぶ線分のなす角が視野角(viewing angle;画角とも呼ばれる)Φである。つまり、撮影部1021の視野角Φの範囲内の方向φの物体の画像が撮影される。例えば、図において、人物Aの方向と人物Bの方向は、視野角Φの範囲内にあるため、それらの画像が撮影される。人物Dは、視野角Φの範囲外にあるため、その画像は撮影されない。人物A、B、Dは、発話すれば、各々音源となる。
表示情報生成部207は、音源方向φに対応する表示座標のX軸方向の座標値Xを、例えば、式(1)を用いて算出する。
Figure 0005685177
式(1)において、Wは、水平方向の画像の幅を表す。1フレームの画像情報のフレームサイズが、例えば、水平方向640画素、垂直方向480画素の場合には、Wは640である。
表示情報生成部207は、表示座標のY軸成分として予め定めた座標値、例えば0(垂直方向の中心)を定める。
図3に戻り、表示情報生成部207は、予めパターン画像情報が記憶されている記憶部(図示せず)を備える。パターン画像情報とは、予め定型化された画像を表す情報である。パターン画像情報は、例えば、発話状態であることを表す発話パターン画像情報、発話状態であって音声再生中であることを表す再生パターン画像情報、発話内容を表すテキストを表示する領域を表すテキストパターン画像情報(吹き出し)、楕円パターン画像情報(楕円)、曲線パターン画像情報(曲線)、指示パターン画像情報(矢印)である。発話パターン画像情報が表す画像の表示形態と、再生パターン画像情報が表す画像の表示形態は互いに異なる。ここで、表示形態とは、例えば、色彩、輝度、形状、模様、等、である。パターン画像情報を含めた表示情報の例については後述する。
表示情報生成部207は、音声検出部205から入力された音声検出情報が音声区間であることを表す場合、記憶部から発話パターン画像情報を読み出す。表示情報生成部207は、読み出した発話パターン画像情報が表す画像が、表示座標に含まれる画像を表す表示情報を生成する。表示情報生成部207は、この表示情報に、利用者に対して、その音源を選択することを促すテキスト(例えば、「聞きたい音を選んで下さい。」)を含めてもよい。
但し、音源方向情報が表す音源方向φが、視野角Φの範囲外である場合には、表示情報生成部207は、読み出した発話パターン画像情報が表す画像を、予め定めた表示座標に配置した画像を表す表示情報を生成する。この表示座標は、例えば、画面の上端又は下端のように視聴を妨げない位置であってもよい。以下、この表示座標を、範囲外音源表示座標と呼ぶ。表示情報生成部207は、この表示情報に、利用者に対して、視野角の範囲外に音源があることを表すテキスト(例えば、「範囲外に音源があります。」)を含めてもよい。表示情報生成部207は、生成した表示情報を表示画像合成部209に出力する。
表示情報生成部207は、操作入力部211から入力された座標指定情報が、楕円形の領域を表す場合、記憶部から楕円パターン画像情報を読み出す。表示情報生成部207は、読み出した楕円パターン画像情報が表す画像を座標指定情報が示す領域に配置した画像を表わす表示情報を生成する。表示情報生成部207は、生成した表示情報を表示画像合成部209、音源選択部212及び制御情報生成部214に出力する。楕円パターン画像を含む表示画像の例については、後述する。
表示情報生成部207は、操作入力部211から入力された座標指定情報が、曲線で表される軌跡を表す場合、記憶部から曲線パターン画像情報を読み出す。表示情報生成部207は、読み出した曲線パターン画像情報が表す画像を座標指定情報が示す領域に配置した画像を表わす表示情報を生成する。表示情報生成部207は、生成した表示情報を表示画像合成部209、音源選択部212及び制御情報生成部214に出力する。曲線パターン画像を含む表示画像の例については、後述する。
表示情報生成部207は、操作入力部211から入力された座標指定情報が、1個の座標を表す場合、記憶部から指示パターン画像情報を読み出す。表示情報生成部207は、読み出した指示パターン画像情報が表す画像を座標指定情報が示す領域に配置した画像を表わす表示情報を生成する。表示情報生成部207は、生成した表示情報を表示画像合成部209、音源選択部212及び制御情報生成部214に出力する。指示パターン画像を含む表示画像の例については、後述する。
表示情報生成部207は、音源選択部212から選択音源情報が入力された場合、記憶部から再生パターン画像情報を読み出す。表示情報生成部207は、生成した表示情報において選択音源情報が表す音源に対応する発話パターン画像情報を、読み出した再生パターン画像情報に入れ替える。表示情報生成部207は、再生パターン画像情報に入れ替えて更新した表示情報を表示画像合成部209に出力する。再生パターン画像を含む表示画像の例については、後述する。
表示情報生成部207は、音声認識部206からテキスト情報が入力された場合、記憶部からテキストパターン画像情報を読み出す。表示情報生成部207は、再生パターン画像情報又は発話パターン画像情報の代わりに、テキストパターン画像情報が表す画像が、対応する音源の表示座標に配置した画像を表す表示情報を生成するようにしてもよい。テキストパターン画像を含む表示画像の例については、後述する。
ここで、表示情報生成部207は、テキストパターン画像情報が表す画像の表示領域に、入力されたテキストを表す画像を含める。但し、表示情報生成部207は、テキストパターン画像情報が表す画像の表示領域に含まれるテキストの文字数が、予め設定した数(例えば、日本語の30文字)よりも少なくなるように表示情報を更新する。これにより、一度に表示されるテキストの文字数が過大になることを回避する。
表示情報生成部207は、生成又は更新した表示情報を表示画像合成部209に出力する。
表示情報生成部207は、音声検出情報が音声区間外であることを表す場合、その音源のパターン画像情報を、生成した表示情報から消去する。但し、音声区間と非音声区間が頻繁に切り替わることがある。そこで、表示情報生成部207は、音声検出情報が音声区間から非音声区間に変化した時点から予め定めた時間(例えば、3秒)、非音声区間である状態が継続しない場合に、パターン画像情報を、生成した表示情報から消去してもよい。表示情報生成部207は、パターン画像情報が消去された表示情報を表示画像合成部209、及び音源選択部212に出力する。消去されたパターン画像情報の表示座標が範囲外音源表示座標である場合、表示情報生成部207は、パターン画像情報が消去された表示情報を制御情報生成部214に出力する。
画像復号部208は、通信部201から入力された画像符号を復号して画像信号を生成する。画像復号部208が用いる復号方式は、画像符号化部1023が用いる画像符号化方式に対応する復号方式である。画像復号部208は、生成した画像信号を表示画像合成部209に出力する。
表示画像合成部209は、画像復号部208から入力された画像信号が表す画像と表示情報生成部207から入力された表示情報が表す画像を合成し、合成した画像が表す表示画像信号を生成する。表示画像信号を生成する際、表示画像合成部209は、表示情報が表す画像を優先してもよい。即ち、ある画素が、表示情報が表す画像の領域に含まれる場合、表示画像合成部209は、その画素についての信号値を表示画像信号の信号値として採用する。ある画素が、表示情報が表す画素の領域に含まない場合、表示画像合成部209は、その画素について、画像復号部208から入力された画像信号に含まれる信号値を表示画像信号の信号値として採用する。
表示画像合成部209は、生成した表示画像信号を画像表示部210に出力する。
画像表示部210は、表示画像合成部209から入力された表示画像信号が表す画像を表示する。画像表示部210は、例えば、LCD(Liquid Chrystal Display)ディスプレイである。
操作入力部211は、利用者による操作入力を検知して、画像表示部210が表示するする画像の一部の領域を表す座標指定情報を生成する。座標指定情報は、上述のように、1個の座標を表す情報、楕円形の領域を表す情報、曲線の領域を表す情報の何れでもよいし、これらには限られない。操作入力部211は、生成した座標指定情報を表示情報生成部207に出力する。操作入力部211は、例えば、マウス、タブレット、等のポインティングデバイスである。
音源選択部212は、表示情報生成部207から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報を抽出する。
音源選択部212は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値の間に表示領域が含まれる発話パターン画像情報が少なくとも1つあるか否か判断する。その発話パターン画像情報がある場合、音源選択部212は、その発話パターン画像情報に対応する音源を選択する。その音源が複数ある場合には、音源選択部212は、その複数の音源を全て選択する。音源選択部212は、選択した音源を表す選択音源情報を音声出力部213と表示情報生成部207に出力する。
パターン画像情報の全部又は一部が消去された場合、音源選択部212は、消去されたパターン画像情報に対応する音源を選択された音源から除外する。その音源が複数ある場合には、音源選択部212は、その複数の音源をすべて除外する。音源選択部212は、除外した音源を表す選択音源情報を音声出力部213に出力する。
音声出力部213は、音源分離部204から入力された音源別音声信号のうち、音源選択部212から入力された選択音源情報が表す選択した音源に対応する音声信号をミキシングし、ミキシングした音声信号が表す音声を再生する。音声出力部213は、音源選択部212から入力された選択音源情報が表す除外した音源に対応する音声信号をミキシングの対象から除外する。これにより、除外された音声信号が表す音声は再生されなくなる。
制御情報生成部214は、音源定位部203から音源方向情報が入力される。制御情報生成部214は、表示情報生成部207から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報又は再生パターン画像情報を抽出する。制御情報生成部214は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値を抽出する。
制御情報生成部214は、抽出した水平方向の座標値、もしくは、その座標値の最大値と最小値の間に、範囲外音源表示座標に表示された発話パターン画像情報又は再生パターン画像情報があるか否かを判断する。その発話パターン画像情報又は再生パターン画像情報がある場合、制御情報生成部214は、その発話パターン画像情報又は再生パターン画像情報に対応する音源を選択する。その音源が複数ある場合には、制御情報生成部214は、例えば、正面方向からの角度が最も小さい方向に対応する1つの音源を選択する。
制御情報生成部214は、選択した音源の方向にロボット10が頭部を向けることを表す制御信号を生成する。制御情報生成部214は、生成した制御信号を通信部201に出力する。
次に、本実施形態に係る情報提示処理について説明する。
図5は、本実施形態に係る情報提示処理を表すフローチャートである。
(ステップS101)ロボット10の音声符号化部1012は、収音部1011−1〜1011−Nから入力されたチャネル毎のアナログ音声信号を、それぞれA/D変換しチャネル毎のディジタル音声信号を生成する。音声符号化部1012は、生成したディジタル音声信号を予め定めた符号化方式を用いて符号化し、チャネル毎の音声符号を生成する。音声符号化部1012は、生成したチャネル毎の音声符号を多重化した音声情報を、情報提示装置20の音声復号部202に送信する。
音声復号部202は、ロボット10の音声符号化部1012から受信した音声情報をチャネル毎の音声符号に分離する。音声復号部202は、分離した音声符号を復号して音声信号をチャネル毎に生成する。音声復号部202は、生成したチャネル毎の音声信号を音源定位部203に出力する。その後、ステップS102に進む。
(ステップS102)ロボット10の画像符号化部1023は、画像補正部1022から入力された画像信号を予め定めた符号化方式を用いてフレーム毎に符号化し画像符号を生成する。画像符号化部1023は、生成した画像符号を情報提示装置20の画像復号部208に送信する。
画像復号部208は、ロボット10の画像符号化部1023から受信した画像符号を復号して画像信号を生成する。画像復号部208は、生成した画像信号を表示画像合成部209に出力する。その後、ステップS103に進む。
(ステップS103)音源定位部203は、音声復号部202から入力されたチャネル毎の音声信号に基づいて、音源毎の方向を推定する。音源の方向を推定するためには、音源定位部203は、例えば、MUSIC法を用いる。音源定位部203は、推定した音源毎の方向を表す音源方向情報を音源分離部204、表示情報生成部207及び制御情報生成部214に出力する。音源定位部203は、音声復号部202から入力されたチャネル毎の音声信号を音源分離部204に出力する。その後、ステップS104に進む。
(ステップS104)音源分離部204は、音源定位部203から音源方向情報及びチャネル毎の音声信号が入力される。音源分離部204は、例えば、GHDSS法を用いて、音源方向情報に基づいて、入力された音声信号から音源毎に音声信号を分離する。 音源分離部204は、音源ごとに分離した音声信号を音源別音声信号として音声検出部205及び音声出力部213に出力する。その後、ステップS105に進む。
(ステップS105)音声検出部205は、音源分離部204から入力された音源別音声信号に対して音声区間検出を行い、音声区間であるか否かを表す音声検出情報を生成する。音声検出部205は、入力された音源別音声信号と、その信号に対応する音声検出情報を音声認識部206に出力する。音声検出部205は、音声検出情報を表示情報生成部207に出力する。その後、ステップS106に進む。
(ステップS106)表示情報生成部207は、音源定位部203から入力された音源方向情報が表す音源毎の方向を画像座標系で表される表示座標に変換する。
表示情報生成部207は、音声検出部205から入力された音声検出情報が音声区間であることを表す場合、記憶部から発話パターン画像情報を読み出す。表示情報生成部207は、読み出した発話パターン画像情報が表す画像が、変換した表示座標に含まれる画像を表す表示情報を生成する。
音源方向情報が表す音源方向φが、視野角Φの範囲外である場合には、表示情報生成部207は、読み出した発話パターン画像情報が表す画像が、範囲外音源表示座標に含まれる画像を表す表示情報を生成する。表示情報生成部207は、生成した表示情報を表示画像合成部209に出力する。その後、ステップS107に進む。
(ステップS107)表示画像合成部209は、画像復号部208から入力された画像信号が表す画像と表示情報生成部207から入力された表示情報が表す画像を合成し、合成した画像が表す表示画像信号を生成する。表示画像合成部209は、生成した表示画像信号を画像表示部210に出力する。
画像表示部210は、表示画像合成部209から入力された表示画像信号が表す画像を表示する。その後、ステップS108に進む。
(ステップS108)操作入力部211は、利用者による操作入力を検知して座標指定情報を生成し、生成した座標指定情報を表示情報生成部207に出力する。表示情報生成部207は、操作入力部211から入力された座標指定情報に応じて、楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報を読み出す。表示情報生成部207は、読み出した画像情報が表す画像を座標指定情報が表す領域に配置した画像を含むように表示情報を更新する。表示情報生成部207は、生成した表示情報を表示画像合成部209、音源選択部212に出力する。その後、ステップS109に進む。
(ステップS109)音源選択部212は、表示情報生成部207から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報を抽出する。
音源選択部212は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値の間に表示領域が含まれる発話パターン画像情報があるか否か判断する。その発話パターン画像情報がある場合、音源選択部212は、その発話パターン画像情報に対応する音源を選択する。音源選択部212は、選択した音源を表す選択音源情報を音声出力部213と表示情報生成部207に出力する。その後、ステップS110に進む。
(ステップS110)音声出力部213は、音源分離部204から入力された音源別音声信号のうち、音源選択部212から入力された選択音源情報が表す選択した音源に対応する音声信号をミキシングし、ミキシングした音声信号が表す音声を再生する。
その後、ステップS111に進む。
(ステップS111)表示情報生成部207は、音源選択部212から選択音源情報が入力される。表示情報生成部207は、記憶部から再生パターン画像情報を読み出す。表示情報生成部207は、選択音源情報が表す音源に対応する発話パターン画像情報であって、既に生成した表示情報に含まれる発話パターン画像情報を、読み出した再生パターン画像情報に入れ替える。表示情報生成部207は、再生パターン画像情報に入れ替えて更新した表示情報を表示画像合成部209に出力する。その後、ステップS112に進む。
(ステップS112)表示画像合成部209は、画像復号部208から入力された画像信号が表す画像と表示情報生成部207から入力された表示情報が表す画像を合成し、合成した画像が表す表示画像信号を生成する。表示画像合成部209は、生成した表示画像信号を画像表示部210に出力する。
画像表示部210は、表示画像合成部209から入力された表示画像信号が表す画像を表示する。その後、処理を終了する。
次に、情報提示装置20が表示する発話パターン画像情報が表す画像(発話パターン画像)を含む表示画像の例について説明する。
図6は、発話パターン画像を含む表示画像の一例を表す概念図である。
図6に示す表示画像61は、左下部に人物Aの画像63と中央右寄りに人物Bの画像64を表す。図67の中央左側に、格子模様が付され、中心にスピーカの図案を含む矩形は、発話パターン画像2051である。画像2051の中心点における水平方向の座標は、人物Aの水平方向の座標と同一である。これにより、人物Aが発話していることを利用者は認識することができる。また、図6の下端に利用者に対して音源選択を促すテキスト62「聞きたい音を選んで下さい」が表されている。
次に、指示パターン画像情報が表す画像(指示パターン画像)を含む表示画像の例について説明する。
図7は、指示パターン画像を含む表示画像の一例を表す概念図である。
図7に示す表示画像71は、左下部に人物Aの画像73と中央右寄りに人物Bの画像74を表す。人物Bの頭部に、発話パターン画像2052が配置されている。
図7の左上端に、発話パターン画像2053が配置されている。この位置は、上述の範囲外音源表示座標に相当する。言い換えれば、画像2053は、対応する音源の音源方向φが視野角Φの範囲外であることを示す。画像2053に終点が向いている矢印2054は、指示パターン画像2054である。画像2054の右側には、利用者に画像の表示範囲外に音源が存在することを表すテキスト75「範囲外に音源があります」が表示されている。これにより、人物B以外に、表示範囲外に発話している音源があることを利用者は認識することができる。そして、利用者は、表示範囲外にある音源を選択しようとしていることを表す。
次に、楕円パターン画像情報が表す画像(楕円パターン画像)と再生パターン画像情報が表す画像(再生パターン画像)を含む表示画像の例について説明する。
図8は、楕円パターン画像及び再生パターン画像を含む表示画像の一例を表す概念図である。
図8に示す表示画像81は、左下部に人物Aの画像83と中央右寄りに人物Bの画像84を表す。
人物Aの真上に配置され、左上から右下に向いた縞模様が付され、中央にスピーカの図案を含む矩形は、再生パターン画像2055である。画像2055を横切る楕円は、楕円パターン画像2056である。画像2056の水平方向の両端の間に、推定された音源(人物A)の方向φに対応する画像2055の水平方向の座標値の中心値Xが含まれる。即ち、図8に表される表示画像は、人物Aの音声が選択され、選択された人物Aの音声が再生されていることを表す。
次に、曲線パターン画像情報が表す画像(曲線パターン画像)を含む表示画像の例について説明する。
図9は、曲線パターン画像を含む表示画像の一例を表す概念図である。
図9に示す表示画像91は、左下部に人物Aの画像93と中央右寄りに人物Bの画像94を表す。人物Aの真上に表されている画像は、発話パターン画像2051である。人物Bの頭部に配置され、左上から右下に向いた縞模様が付され、中央にスピーカの図案を含む矩形は、再生パターン画像2057である。画像2057の真上を通る曲線は、曲線パターン画像2058である。画像2058の水平方向の両端の間に、音源定位部203によって推定された音源(人物B)の方向φに対応する画像2057の水平方向の座標値の中心値Xが含まれる。即ち、図9に表される表示画像は、人物Bの音声が選択され、選択された人物Bの音声が再生されていることを表す。これに対し、図9に示される表示画像は、人物Aは発話しているが、その音声を再生する対象として選択されていないことを表す。
次に、テキストパターン画像情報が表す画像(テキストパターン画像)を含む表示画像の例について説明する。
図10は、テキストパターン画像を含む表示画像の一例を表す概念図である。
図10に示す表示画像1001は、左下部に人物Aの画像1003と中央右寄りに人物Bの画像1004を表す。人物Aの真上に表されている画像は、テキストパターン画像2059である。画像2059の領域に含まれるテキスト「認識した音声をテキストで表示します」は、音声認識部206が人物Aの音声信号に基づいて生成したテキストである。これにより、利用者は人物Aが発話した内容を把握することができる。
なお、図6−9に示した例と同様に、本実施形態では、利用者が画像2059の表示領域の全部又は一部(例えば、代表点である頂点)の座標を指示する操作入力を受け付けるようにしてもよい。その場合、本実施形態では、音源選択部212は、人物Aが発話した音声信号を選択し、音声出力部213は、選択された音声信号に基づく人物Aの音声を再生する。
次に、音源定位部203がMUSIC法を用いて音源の方向を推定する処理の一例について説明する。
音源定位部203は、予め音源方向φ毎に音源から各チャネルi(iは、1≦i≦Nとなる整数)に対応する収音部1011−iまでの伝達関数aφi(ω)が記憶されている記憶部(図示せず)を備える。伝達関数aφi(ω)を要素とするN次元のベクトル[aφ1(ω),aφ2(ω),…,aφN(ω)]を伝達関数ベクトルvaφ(ω)と呼ぶ。
図11は、本実施形態に係る音源方向推定処理を表すフローチャートである。
(ステップS201)音源定位部203は、チャネルi毎の音声信号x(k)(kは、サンプル時刻を表す整数)に対して離散フーリエ変換(DFT;Discrete Fourier Transform)を行って、周波数領域信号x(ω)(ωは、周波数)を生成する。その後、ステップS202に進む。
(ステップS202)音源定位部203は、周波数ω毎にチャネル間の周波数領域信号x(ω)の相互相関(cross correlation)を要素とするN行N列の相関行列(correlation matrix)R(ω)を算出する。音源定位部203は、相関行列R(ω)を算出する際、例えば、式(2)を用いる。
Figure 0005685177
式(2)において、E[…]は、…の期待値を表す。vx(ω)は、周波数領域信号x(ω)を要素とするN次元のベクトル[x(ω),x(ω),…,x(ω)]である。Hは、ベクトル又は行列の共役転置(conjugate transpose)を表す。その後、ステップS203に進む。
(ステップS203)音源定位部203は、相関行列R(ω)を固有値展開して、N個の固有値λ(ω)及び固有ベクトルe(ω)を算出する。相関行列R(ω)と固有値λ(ω)ならびに固有ベクトルe(ω)は、式(3)に示される関係を満たす。
Figure 0005685177
式(3)において、E(ω)は、固有ベクトルe(ω)を要素とするN行N列の行列[e(ω),e(ω),…,e(ω)]である。Λ(ω)は、対角要素としてN個の固有値λ(ω),λ(ω),…,λ(ω)を含むN行N列の対角行列である。ここで、インデックスiは、行列E(ω)における固有ベクトルe(ω)の順序、行列Λ(ω)における固有値λ(ω)の順序を表す。音源定位部203は、インデックスiを、最大の固有値λ(ω)に対して1であり、最小の固有値λ(ω)に対してNとなるように、固有値λ(ω)の降順に定める。その後、ステップS204に進む。
(ステップS204)音源定位部203は、記憶部から音源方向φ毎の伝達関数ベクトルvaφ(ω)を読み出し、読み出した伝達関数ベクトルvaφ(ω)と算出した固有ベクトルe(ω)に基づいて、周波数毎に指標値としてMUSIC評価値(MUSIC estimator)P(ω,φ)を算出する。MUSIC評価値P(ω,φ)を算出するために、音源定位部203は、例えば、式(4)を用いる。
Figure 0005685177
式(4)において、Lは、予め定めた音源の数であって、1又は1よりも大きく、Nよりも小さい整数である。式(4)において、MUSIC評価値P(ω,φ)は、伝達関数ベクトルvaφ(ω)とN−L個の音源に寄与しない固有ベクトルe(ω)との内積の総和(分母)に対する、方向φからの伝達関数ベクトルvaφ(ω)のパワー(分子)を表す。即ち、MUSIC評価値P(ω,φ)は、周波数ω毎の方向φから到来する音波の強度を表す指標である。その後、ステップS205に進む。
(ステップS205)音源定位部203は、MUSIC評価値P(ω,φ)と最大固有値λ(ω)を用いて、検出した音源方向φ毎に、予め定めた音声の周波数帯域における空間スペクトルP(φ)を算出する。空間スペクトルP(φ)を算出する際、音源定位部203は、例えば式(5)を用いる。
Figure 0005685177
式(5)において、ωminは、当該周波数帯域の最低周波数を表し、ωmaxは、最高周波数を表す。即ち、式(5)は、MUSIC評価値P(ω,φ)と最大固有値λ(ω)の平方根の乗算値を、当該周波数成分にわたって加算して空間スペクトルP(φ)を算出することを表す。これにより、MUSIC評価値P(ω,φ)が高い周波数成分が空間スペクトルP(φ)に強く反映される。その後、ステップS206に進む
(ステップS206)音源定位部203は、空間スペクトルP(φ)のピーク値(極大値)を抽出し、そのうち最大値(1番目)からL番目に大きいピーク値(極大値)を選択する。但し、音源定位部203は、予め定めた閾値よりも小さいピーク値については棄却してもよい。その場合、音源定位部203は、予め定めた音源数Lから棄却したピーク値の数を減じて、音源数Lを更新する。
音源定位部203は、選択したピーク値にそれぞれ対応する音源方向φを表す音源方向情報を生成する。その後、処理を終了する。
次に、音源分離部204がGDHSS法を用いて音源毎に音声信号を分離する処理の一例について説明する。
音源分離部204は、予め音源方向φ毎に音源から各チャネルiに対応する収音部1011−iまでの伝達関数aφi(ω)が記憶されている記憶部(図示せず)を備える。但し、音源定位部203がMUSIC法を採用している場合には、音源定位部203又は音源分離部204のうち、いずれか一方が当該記憶部を備え、他方が省略してもよい。その場合、音源定位部203及び音源分離部204は当該記憶部を共用してもよい。
図12は、本実施形態に係る音源分離処理を表すフローチャートである。
(ステップS301)音源分離部204は、音源定位部203から入力された音源方向情報が表す音源方向に各々対応する伝達関数ベクトルvaφ(ω)を記憶部から読み出す。音源分離部204は、読み出したL個の伝達関数ベクトルvaφ(ω)を統合してN行L列の伝達関数行列Aを構成する。初期分離行列(initial separation matrix)Winitは、例えば、伝達関数行列Aの擬似逆行列である。音源分離部204は、構成した伝達関数行列Aに基づいて初期分離行列Winitを算出する。初期分離行列Winitは、分離行列Wの初期値である。その後、ステップS302に進む。
(ステップS302)音源分離部204は、音源定位部203から入力されたチャネルi毎の音声信号x(k)に対してフレーム毎にDFTを行い、チャネルi毎の周波数領域信号x(ω)を生成する。音源分離部204は、チャネルi毎の周波数領域信号x(ω)を要素とするN列の周波数領域信号ベクトルvx(ω)を構成する。音源分離部204は、周波数ω毎にチャネル間の周波数領域信号x(ω)の相互相関を要素とするN行N列の入力相関行列Rxx(ω)を、例えば式(2)を用いて算出する。その後、ステップS303に進む。
(ステップS303)音源分離部204は、周波数領域信号ベクトルvx(ω)に分離行列Wを乗算して周波数領域音源ベクトルvy(ω)を算出する。周波数領域音源ベクトルvy(ω)は、音源l毎の周波数領域音源信号y(ω)を要素とするベクトルである。音源分離部204は、周波数ω毎に周波数領域音源ベクトルvy(ω)から、N行N列の出力相関行列Ryy(ω)を、例えば式(2)を用いて算出する。その後、ステップS304に進む。
(ステップS304)音源分離部204は、出力相関行列Ryy(ω)から、その対角行列diag[Ryy(ω)] を減算して行列ESS(ω)を算出する。即ち、行列ESS(ω)は、出力相関行列Ryy(ω)の非対角成分を表す行列である。音源分離部204は式(6)に示されるように、入力相関行列Rxx(ω)に分離行列Wと行列ESS(ω)に定数2を乗算して、分離誤差行列J’SS(ω)を算出する。
Figure 0005685177
分離誤差行列J’SS(ω)は、分離尖鋭度(separation sharpness)JSS(ω)を、入力相関行列Rxx(ω)の各要素値で微分して導出される行列である。分離尖鋭度JSS(ω)は、1つの音源が他の音源として誤って分離される度合いを表す指標値である。その後、ステップS305に進む。
(ステップS305)音源分離部204は、分離行列Wと伝達関数行列Aの積から単位行列Iを減算して、行列EGC(ω)を算出する。即ち、行列EGC(ω)は、分離行列Wの誤差を表す行列である。音源分離部204は、式(7)に示されるように、伝達関数行列Aの共役転置行列に行列EGC(ω)を乗じて幾何誤差行列J’GC(ω)を算出する。
Figure 0005685177
幾何誤差行列J’GC(ω)、幾何制約度(geometric constraint)JGC(ω)を、入力相関行列Rxx(ω)の各要素値で微分して導出される行列である。幾何制約度JGC(ω)は、周波数領域音源ベクトルvy(ω)の誤差の度合いを表す指標値である。その後、ステップS306に進む。
(ステップS306)音源分離部204は、行列EGC(ω)と幾何誤差行列J’GC(ω)に基づいて、例えば式(8)を用いてステップサイズμGCを算出する。
Figure 0005685177
式(8)において、|…|は、フロベニウスノルム(Frobenius norm)を表す。フロベニウスノルムは、行列…を構成する要素値の絶対値の二乗についての全要素にわたる総和である。
また、音源分離部204は、行列ESS(ω)と分離誤差行列J’SS(ω)に基づいて、例えば式(9)を用いてステップサイズμSSを算出する。
Figure 0005685177
その後、ステップS307に進む。
(ステップS307)音源分離部204は、分離誤差行列J’SS(ω)と幾何誤差行列J’GC(ω)を、それぞれステップサイズμSSとμGCで重み付け加算して分離行列の更新行列ΔWを算出する。音源分離部204は、分離行列Wから更新行列ΔWを減算して、分離行列Wを更新する。その後、ステップS308に進む。
(ステップS308)音源分離部204は、分離行列Wの変化が収束したか否か判断する。音源分離部204は、例えば、指標値として更新行列ΔWのノルムについて分離行列Wのノルムとの比率を算出し、指標値が予め設定した値よりも小さくなったときに収束したと判断する。分離行列Wの変化が収束したと判断された場合(ステップS308 Y)、処理を終了する。音源分離部204は、収束したときの分離行列Wを用いて算出した音源l毎の周波数領域音源信号y(ω)を逆離散フーリエ変換(Inverse Discrete Fourier Transform,IDFT)して音源l毎に分離した音声信号y(k)を生成する。分離行列Wの変化が収束していないと判断された場合(ステップS308 N)、ステップS302に戻る。
次に、本実施形態に係る動作制御処理の一例について説明する。
この処理は、ステップS106(図5参照)において、音源方向φが視野角Φの範囲外であると判断された音源が、音声を再生する対象として選択された場合、ステップS112の後で行われる処理である。但し、ステップS111において情報提示装置20の表示情報生成部207は、更新した表示情報を制御情報生成部214に出力する。
図13は、本実施形態に係る動作制御処理の一例を表すフローチャートである。
(ステップS401)制御情報生成部214は、音源定位部203から音源方向情報が入力される。表示情報生成部207から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報又は再生パターン画像情報を抽出する。制御情報生成部214は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値を抽出する。
制御情報生成部214は、抽出した水平方向の座標値、もしくは、その座標値の最大値と最小値の間に、範囲外音源表示座標に表示された発話パターン画像情報又は再生パターン画像情報があるか否かを判断する。その発話パターン画像情報又は再生パターン画像情報がある場合、制御情報生成部214は、その発話パターン画像情報又は再生パターン画像情報に対応する音源を選択する。
制御情報生成部214は、選択した音源の方向に頭部を向けることを表す制御信号を生成する。制御情報生成部214は、生成した制御信号をロボット10の動作制御部106に出力する。その後、ステップS402に進む。
(ステップS402)動作制御部106は、通信部104から入力された制御情報に対応する電力モデル情報を記憶部から読み出す。動作制御部106は、読み出した電力モデル情報を参照して位置情報取得部105から入力された位置情報に対応する部品毎の電力値を定める。動作制御部106は、定めた電力値をもつ電力を、動作機構部107の該当する部品に出力する。その後、ステップS403に進む。
(ステップS403)動作機構部107を構成する各部品は動作制御部106から供給された電力によって駆動される。その後、処理を終了する。
図13に示す処理によって、ロボット10の頭部が指示された音源(例えば、人物D(図4参照))の方向に向く。このときに表示される表示画像の例について説明する。
図14は、表示画像の他の例を表す概念図である。
図14に示す表示画像141は、中心部に人物Dの画像146を表す。
人物Dの頭部と胴体部の間に表されている画像は、再生パターン画像2060である。即ち、表示画像141は、人物Dの方向にロボット10が正面を向き、撮影部1021の光軸が向いていることを表す。また、表示画像141は、発話している人物Dの音声が再生する対象として選択されていることを表す。
次に、本実施形態に係る動作制御処理の他の例について説明する。
この例は、動作制御部106が検出した動作に基づいて画像を補正する処理の一例である。
図15は、本実施形態に係る動作制御処理の他の例を表すフローチャートである。
(ステップS501)位置情報取得部105は、自己が備える位置センサが検知した変位に基づいて位置情報を生成する。位置情報取得部105は、生成した位置情報を動作制御部106に出力する。その後、ステップS502に進む。
(ステップS502)動作制御部106は、位置情報取得部105から入力された位置情報の現在値と予め定めた時間だけ過去の値との変位を算出し、算出した変位が予め定めた閾値よりも大きいか否か判断する。変位が閾値よりも大きいと判断された場合(ステップS502 Y)、ステップS503に進む。変位が閾値と等しいか、又は閾値よりも小さいと判断された場合(ステップS502 N)、処理を終了する。
(ステップS503)動作制御部106は、算出した変位から画素毎の移動速度を算出し、算出した移動速度に基づいて画素毎の移動量を算出する。動作制御部106は、算出した移動量の正負を逆転した値を座標補正量として表す画像補正信号を生成する。動作制御部106は、生成した画像補正信号を画像補正部1022に出力する。その後、ステップS504に進む。
(ステップS504)画像補正部1022は、動作制御部106から入力された画像補正信号に基づいて撮影部1021から入力された画像信号を補正する。ここで、画像補正部1022は、変換した画像信号に含まれる信号値の座標を、画像補正信号が表す座標補正量だけ移動させて、補正した画像信号を生成する。画像補正部1022は、補正した画像信号を画像符号化部1023に出力する。その後、ステップS505に進む。
(ステップS505)動作制御部106は、画像符号化部1023が用いる符号化方式に応じたビットレートの段階を表し、算出した変位が大きいほど、より低いビットレートを表すレート補正信号を生成する。動作制御部106は、生成したレート補正信号を画像符号化部1023に出力する。その後、ステップS506に進む。
(ステップS506)画像符号化部1023は、動作制御部106から入力されたレート補正信号が表すビットレートに、符号化する際のビットレートを変更する。その後、処理を終了する。
これにより、撮影部1021の光軸が移動して生じた画像の移動が補償され、移動した画像の解像度又はフレームが間引かれる。そのため、画質の劣化が低減する。
このように、本実施形態は、音声信号を入力し、画像信号を入力し、画像信号が表す画像を表示する。そして、本実施形態は、音声信号に基づき音源毎の方向情報を推定し、音声信号から音源毎の音源別音声信号に分離し、操作入力を受け付け、画像の一部の領域を表す座標指定情報を生成する。また、本実施形態は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する。これにより、発話内容の把握が容易になる。
(第2の実施形態)
次に、図面を参照しながら本発明の第2の実施形態について説明する。
第1の実施形態と同一の構成については、同一の符号を付す。
本実施形態に係る情報伝達システム2は、ロボット40、情報提示装置50及びネットワーク30を含んで構成される。
図16は、本実施形態に係るロボット40の構成を表す概略図である。
ロボット40は、情報取得部41、通信部104、位置情報取得部105、動作制御部106及び動作機構部107を含んで構成される。
情報取得部41は、音声情報入力部401、音声符号化部1012、画像情報入力部102、音源定位部203、音源分離部204、音声検出部205、及び音声認識部206を含んで構成される。音声情報入力部401は、収音部1011−1〜1011−Nを含んで構成される。
即ち、ロボット40は、ロボット10(図1参照)が備える構成部と情報提示装置20(図3参照)が備える音源定位部203、音源分離部204、音声検出部205、及び音声認識部206を含んで構成される。
図17は、本実施形態に係る情報提示装置50の構成を表す概略図である。
情報提示装置50は、通信部201、音声復号部202、表示情報生成部207、画像復号部208、表示画像合成部209、画像表示部210、操作入力部211、音源選択部212、音声出力部213、及び制御情報生成部214を含んで構成される。
即ち、情報提示装置50は、情報提示装置20(図4参照)が備える音源定位部203、音源分離部204、音声検出部205、及び音声認識部206を省略した構成である。
従って、本実施形態と第1の実施形態では、音源定位部203、音源分離部204、音声検出部205、及び音声認識部206の配置が異なるが、同様な処理が行われ、同様な作用及び効果が得られる。
ここで、ロボット40において、音声符号化部1012は、音源分離部204が分離した音源毎の音声信号を情報提示装置50の音声復号部202に送信する。音源定位部203は、生成した音源方向情報を、情報提示装置50の表示情報生成部207及び制御情報生成部214に送信する。音声検出部205は、生成した音声検出情報を情報提示装置50の表示情報生成部207に送信する。音声認識部206は、生成したテキスト情報を情報提示装置50の表示情報生成部207に送信する。
他方、情報提示装置50において、音声復号部202は、ロボット40の音声符号化部1012から通信部201を介して受信した音源毎の音声符号を復号して音声信号を生成し、生成した音声信号を音声出力部213に出力する。表示情報生成部207は、ロボット40の音源定位部203から通信部201を介して受信した音源方向情報、音声検出部205から受信した音声検出情報及び音声認識部206から受信したテキスト情報に基づいて表示情報を生成する。制御情報生成部214は、ロボット40の音源定位部203から通信部201を介して受信した音源方向情報と表示情報生成部207から入力された表示情報に基づいて制御情報を生成する。
次に、情報伝達システム1(図1参照)を用いて行った検証について説明する。
実験設定において、ロボット10の左前方30°及び右前方30°において、各2名(計4名)の発話者が、雑音環境下でそれぞれ対話を行っている映像と音声を収録した。収録したシーンが2種類準備された。一方のシーンにおける発話区間の一例を図19に示す。
図18は、発話区間の一例を表す図である。
縦軸は、上から下へ順に、発話者A1、A2、B1、B2を表す。横軸は、時刻を表す。
発話者A1、A2は、ロボットの左前方30°で相互に対話を行った発話者である。発話者B1、B2は、ロボットの右前方30°で相互に対話を行った発話者である。図19によれば、発話者A1、A2相互間、ならびに発話者B1、B2相互間、ほぼ交互に発話されている。しかし、発話者A1、A2の対と発話者B1、B2の対を比較すると、発話区間は重複している。
この実験設定の下で、8名の利用者に対して検証が行われた。8名のうち4名には、事前に本システムの利用方法を教示され、残りの4名には、その使用方法を教示されなかった。検証では、各利用者は、2種類のシーンの何れかをランダムな順序で視聴した。ここで、各利用者は、情報提示装置20を用いて視聴した場合と、情報提示装置20を用いずに通常の映像再生装置を用いて、対話の内容を正しく理解できたか否かを回答した。
次に、検証結果について説明する。
図19は、利用者毎の正答率の一例を表す図である。
図19において、縦軸は正答率を示し、横軸は利用者又は利用者の集合を示す。
横軸は、左から右へ順に、NP1、NP2、NP3、NP4、P1、P2、P3、P4、NP平均、P平均、全体平均、を表す。NPは、情報提示装置20の使用方法を教示されていない利用者を表す。Pは、情報提示装置20の使用方法を教示された利用者を表す。NP平均は、NP1〜NP4間の平均値を表す。P平均は、P1〜P4間の平均値を表す。全員平均は、利用者全員の平均値を表す。但し、
また、横縞が付された棒グラフは、通常の映像再生装置を用いて得られた結果(不使用)を表す。塗りつぶしの棒グラフは、本実施形態に係る情報提示装置20を用いて得られた結果(使用)を表す。
これによれば、NP平均では、正答率は、不使用の場合43%、使用の場合67%である。P平均では、正答率は、不使用の場合27%、使用の場合85%である。全員平均では、不使用の場合35%、使用の場合76%である。
この結果は、情報提示装置20を用いることで使用方法を教示されたか否かに関わらず正答率が向上することを示す。つまり、本実施形態により利用者は、同時に発話された方向の異なる音源同士を選択して受聴することで、発話内容の把握が容易になる。
このように、上述した実施形態は、音声信号を入力し、画像信号を入力し、画像信号が表す画像を表示する。そして、上述した実施形態は、音声信号に基づき音源毎の方向情報を推定し、音声信号から音源毎の音源別音声信号に分離し、操作入力を受け付け、画像の一部の領域を表す座標指定情報を生成する。また、上述した実施形態は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する。これにより、発話内容の把握が容易になる。
上述した実施形態では、音源定位部203が生成した音源方向情報が音源毎の水平方向の方位であり、音源選択部212は、音源方向情報に対応する水平方向の座標値に基づいて音源を選択する場合をとって説明したが、本実施形態ではこれには限らない。
本実施形態では、音源定位部203は、音源毎の垂直方向の方位、又は水平方向の方位と垂直方向の方位を表す音源方向情報を生成してもよい。その場合、表示情報生成部207は、音源方向情報に対応する垂直方向の座標値を考慮してパターン画像情報を含んだ表示情報を生成してもよい。音源選択部212は、音源方向情報に対応する垂直方向の座標を考慮して音源を選択する。
上述した実施形態では、表示情報生成部207は、音源毎に再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報を含んだ表示情報を生成する場合を例にとって説明した。ここで、画像表示部210は、再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報が表す画像を表示する。しかし、本実施形態ではこれには限られない。
本実施形態では、表示情報生成部207は、表示情報を生成する際、再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報のいずれかを含めることを省略してもよい。画像表示部210は、再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報のいずれかを表示することを省略してもよい。
なお、上述した実施形態におけるロボット10、40及び情報提示装置20、50の一部、例えば、音声符号化部1012、画像補正部1022、画像符号化部1023、動作制御部106、音声復号部202、音源定位部203、音源分離部204、音声検出部205、音声認識部206、表示情報生成部207、画像復号部208、表示画像合成部209、音源選択部212、及び制御情報生成部214をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ロボット10、40又は情報提示装置20、50に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態におけるロボット10、40及び情報提示装置20、50の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。ロボット10、40及び情報提示装置20、50の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1…情報伝達システム、10、40…ロボット、11、41…情報取得部、
101、401…音声情報入力部、1011−1〜1011−N…収音部、
1012…音声符号化部、
102…画像情報入力部、1021…撮影部、1022…画像補正部、
1023…画像符号化部、
104、201…通信部、105…位置情報取得部、106…動作制御部、
107…動作機構部、
20、50…情報提示装置、201…通信部(方向情報入力部、音源別音声信号入力部)、202…音声復号部、203…音源定位部、
204…音源分離部、205…音声検出部、206…音声認識部、
207…表示情報生成部、208…画像復号部、209…表示画像合成部、
210…画像表示部、211…操作入力部、212…音源選択部、
214…制御信号生成部
30…ネットワーク

Claims (1)

  1. 情報取得装置と情報提示装置とを備える情報伝達システムであって、
    前記情報提示装置は、
    音声信号を入力する音声信号入力部と、
    画像信号を入力する画像信号入力部と、
    前記画像信号が表す画像を表示する画像表示部と、
    前記音声信号に基づき音源毎の方向情報を推定する音源定位部と、
    前記音声信号から前記音源毎の音源別音声信号に分離する音源分離部と、
    前記音源毎の音源別音声信号に対して音声区間を検出する音声検出部と、
    操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、
    前記音声検出部が音声区間を検出した音源別音声信号の音源の方向情報に対応する座標に、発話状態であることを示す発話パターン画像を前記画像表示部に表示させる表示情報出力部と、
    前記座標指定情報が表す領域を表示領域に含む発話パターン画像に係る音源の音源別音声信号を選択する音源選択部と、
    前記音源選択部が選択した音源別音声信号を出力する音声出力部と、
    前記音源別音声信号に対応する音源の方向情報に係る座標が、前記入力された画像信号が表す画像の表示範囲外であるとき、表示範囲外であることを表す表示情報を生成する表示情報生成部と、
    前記音源別音声信号に対応する音源の方向に、前記入力された画像信号が表す画像を撮影する撮影部の方向を変更することを指示する制御情報を生成する制御情報生成部と、
    を備え、
    前記表示情報出力部は、前記音源選択部が選択した音源の音源別音声信号に係る発話パターン画像を音声再生中であることを示す再生パターン画像に入れ替え
    前記情報取得装置と前記撮影部は、ロボットに備えられ、
    前記制御情報に基づいて前記撮影部の方向を制御する動作制御部を備え、
    前記撮影部が撮影した画像を示す画像信号を前記画像信号入力部に出力する
    ことを特徴とする情報伝達システム。
JP2011271160A 2011-12-12 2011-12-12 情報伝達システム Active JP5685177B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011271160A JP5685177B2 (ja) 2011-12-12 2011-12-12 情報伝達システム
US13/707,730 US8990078B2 (en) 2011-12-12 2012-12-07 Information presentation device associated with sound source separation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011271160A JP5685177B2 (ja) 2011-12-12 2011-12-12 情報伝達システム

Publications (2)

Publication Number Publication Date
JP2013122695A JP2013122695A (ja) 2013-06-20
JP5685177B2 true JP5685177B2 (ja) 2015-03-18

Family

ID=48572837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011271160A Active JP5685177B2 (ja) 2011-12-12 2011-12-12 情報伝達システム

Country Status (2)

Country Link
US (1) US8990078B2 (ja)
JP (1) JP5685177B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5702685B2 (ja) * 2010-08-17 2015-04-15 本田技研工業株式会社 音源方向推定装置及び音源方向推定方法
WO2014097748A1 (ja) * 2012-12-18 2014-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
JP6311197B2 (ja) * 2014-02-13 2018-04-18 本田技研工業株式会社 音響処理装置、及び音響処理方法
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
CN106463110A (zh) * 2014-06-03 2017-02-22 索尼公司 信息处理设备、信息处理方法和程序
US9875080B2 (en) 2014-07-17 2018-01-23 Nokia Technologies Oy Method and apparatus for an interactive user interface
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
GB2533373B (en) 2014-12-18 2018-07-04 Canon Kk Video-based sound source separation
US9817635B1 (en) 2015-02-24 2017-11-14 Open Invention Netwotk LLC Processing multiple audio signals on a device
KR102358025B1 (ko) 2015-10-07 2022-02-04 삼성전자주식회사 전자 장치 및 전자 장치의 음악 컨텐츠 시각화 방법
JP2017086288A (ja) * 2015-11-06 2017-05-25 大日本印刷株式会社 コミュニケーションロボット及びプログラム
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
JP2019072787A (ja) 2017-10-13 2019-05-16 シャープ株式会社 制御装置、ロボット、制御方法、および制御プログラム
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
US20220254361A1 (en) * 2021-02-11 2022-08-11 Nuance Communications, Inc. Multi-channel speech compression system and method
EP4292086A1 (en) 2021-02-11 2023-12-20 Nuance Communications, Inc. Multi-channel speech compression system and method

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61146083A (ja) * 1984-12-20 1986-07-03 Nec Home Electronics Ltd テレビ会議用端末装置
JPH0528719A (ja) * 1991-07-23 1993-02-05 Yamaha Corp Cd再生装置の選曲装置
JPH0837655A (ja) * 1994-07-26 1996-02-06 Kyocera Corp 話者識別表示機能を有するテレビ会議システム
JP2002046088A (ja) * 2000-08-03 2002-02-12 Matsushita Electric Ind Co Ltd ロボット装置
JP3843740B2 (ja) * 2001-03-09 2006-11-08 独立行政法人科学技術振興機構 ロボット視聴覚システム
JP2003023612A (ja) * 2001-07-10 2003-01-24 Mitsubishi Electric Corp 画像通信端末装置
JP4212274B2 (ja) * 2001-12-20 2009-01-21 シャープ株式会社 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム
JP3627058B2 (ja) * 2002-03-01 2005-03-09 独立行政法人科学技術振興機構 ロボット視聴覚システム
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
JP4247195B2 (ja) * 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
US7953236B2 (en) * 2005-05-06 2011-05-31 Microsoft Corporation Audio user interface (UI) for previewing and selecting audio streams using 3D positional audio techniques
JP4599244B2 (ja) * 2005-07-13 2010-12-15 キヤノン株式会社 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
WO2007071070A1 (en) * 2005-12-23 2007-06-28 Universite De Sherbrooke Spatio-temporal pattern recognition using a spiking neural network and processing thereof on a portable and/or distributed computer
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
JP2007319938A (ja) * 2006-05-30 2007-12-13 Toyota Motor Corp ロボット装置及び物体の三次元形状の取得方法
JP2009239348A (ja) * 2008-03-25 2009-10-15 Yamaha Corp 撮影装置
JP4953095B2 (ja) * 2008-05-20 2012-06-13 独立行政法人産業技術総合研究所 情報処理装置
JP5111343B2 (ja) * 2008-12-02 2013-01-09 キヤノン株式会社 再生装置
JP2010162630A (ja) * 2009-01-14 2010-07-29 Seiko Epson Corp 撮像方法、ピッキング方法及びピッキング装置

Also Published As

Publication number Publication date
US20130151249A1 (en) 2013-06-13
US8990078B2 (en) 2015-03-24
JP2013122695A (ja) 2013-06-20

Similar Documents

Publication Publication Date Title
JP5685177B2 (ja) 情報伝達システム
JP6017854B2 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
CN102447697B (zh) 开放环境中的半私人通信的方法及系统
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
US10721521B1 (en) Determination of spatialized virtual acoustic scenes from legacy audiovisual media
JP4439740B2 (ja) 音声変換装置及び方法
CN112312297B (zh) 音频带宽减小
JP3485508B2 (ja) 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置
JP6771548B2 (ja) 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム
US10015443B2 (en) Adjusting spatial congruency in a video conferencing system
CN106664485A (zh) 基于自适应函数的一致声学场景再现的系统、装置和方法
JP7009997B2 (ja) 動画生成システムおよび動画表示システム
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
CN113228029A (zh) Ar中的自然语言翻译
JP3670180B2 (ja) 補聴器
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
JP2010154259A (ja) 画像音声処理装置
KR101540113B1 (ko) 실감 영상을 위한 영상 데이터를 생성하는 방법, 장치 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
KR20230112688A (ko) 마이크로폰 빔 스티어링이 있는 머리-착용형 컴퓨팅 장치
WO2018088210A1 (ja) 情報処理装置および方法、並びにプログラム
CN110730378A (zh) 一种信息处理方法及系统
WO2019026598A1 (ja) 画像処理装置、画像処理方法、プログラム、および遠隔コミュニケーションシステム
JP2005123959A (ja) 高臨場感通信会議装置
CN116095548A (zh) 一种交互耳机及其系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150116

R150 Certificate of patent or registration of utility model

Ref document number: 5685177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150