JP6017854B2 - 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム Download PDFInfo
- Publication number
- JP6017854B2 JP6017854B2 JP2012139780A JP2012139780A JP6017854B2 JP 6017854 B2 JP6017854 B2 JP 6017854B2 JP 2012139780 A JP2012139780 A JP 2012139780A JP 2012139780 A JP2012139780 A JP 2012139780A JP 6017854 B2 JP6017854 B2 JP 6017854B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound source
- sound
- display data
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Description
例えば、特許文献1に記載の音データ記録再生装置では、音データを取得し、音源が存在する方向を特定し、音源毎の音データを分離し、音源毎の時系列の音データを格納し、所定の時間において所定の音源の方向を示す音に関するストリームデータを作成し、ストリームデータを視聴者に表示する。表示されたストリームデータが視聴者により選択されると、当該音データ記録再生装置は、選択されたストリームデータに関する音データを再生する。
前記表示データに含まれる文字数に基づいて前記文字を表示する時間を定めることを特徴とする。
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成過程と、を有することを特徴とする情報処理方法である。
上述の態様(2)によれば、視聴者は、さらに、取得された画像が表す物体である音源の発話状況を直感的に把握することができる。
上述の態様(3)によれば、視聴者は、さらに、検出した視点に応じた音源の位置及び音声の放射方向を把握することができる。
上述の態様(4)によれば、視聴者は、さらに、音源である話者の感情を視認して把握することができる。
上述の態様(5)によれば、視聴者は、さらに、視点からの音源までの距離を直感的に把握することができる。
上述の態様(6)によれば、視聴者には、さらに、発話内容を表す文字の数に応じて発話内容を理解するために十分な時間が与えられる。
上述の態様(7)によれば、視聴者は、さらに、音源である話者の画像を視聴して、その状況をより容易に把握することができる。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の第1の実施形態に係る情報表示システム(情報処理システム)1の概略図である。
情報表示システム1は、収音部11、12、撮影部(画像取得部)13及び情報表示装置14を含んで構成される。
図1に示す例では、音源推定部140は、音源方向推定部141及び放射方向推定部142を備える。
音源方向推定部141は、収音部11から入力されたmチャネルの音響信号に基づいて各音源の方向(音源方向)を推定する。音源方向推定部141が推定する音源方向は、例えば、収音部11が備えるm個のマイクロホンの位置の重心点から、当該m個のマイクロホンのうち予め定めた1個のマイクロホンへの方向を基準とした、水平面内の方向である。
また、音源方向推定部141は、mチャネルの音響信号から各音源が寄与する成分を示す音響信号を分離する。以下では、音源毎に分離された音響信号、つまり各音源が寄与する成分を示す音響信号を、音源別信号と呼ぶ。
音源方向推定部141は、音源方向を推定する際、例えば、MUSIC(Multiple Signal Classification;多信号分類)法、WDS−BF(Weighted Delay and Sum Beam Forming;重み付け遅延和ビームフォーミング)法、等の音源方向推定方式を用いる。
音源方向推定部141は、音源別信号を分離する際、例えば、特開2012−42953号公報に記載の音源分離方法等、既知の音源分離方法を用いる。
音源方向推定部141は、各音源の方向を示す音源方向情報を生成し、生成した音源方向情報を情報処理部144に出力する。音源方向推定部141は、各音源の音源別信号を音声認識部143及び情報処理部144に出力する。音源方向情報が表す方向は、予め定めた基準位置、例えば、収音部11が備えるm個のマイクロホンの位置の重心点を基準とした方向である。
放射方向推定部142は、例えば、nチャネルの音響信号をチャネル毎の重み付け関数を用いて重み付け加算した信号を出力するビームフォーマを複数備える。ビームフォーマは、それぞれ空間内のある位置からある1方向に対応する単位指向特性(放射特性)を有する重みづけ関数を用い、その方向への出力値を算出する。放射方向推定部142は、複数のビームフォーマのうち出力値が極大となるビームフォーマに対応する放射方向及び位置を定める。
放射方向推定部142は、各音源について放射方向の推定の可否及び推定された放射方向を表す放射方向情報を生成し、各音源について推定した位置を表す位置情報を生成する。放射方向推定部142は、生成した放射方向情報と位置情報を情報処理部144に出力する。生成された位置情報が表す位置は、予め定めた基準位置、例えば、収音部12が備えるn個のマイクロホンが配置された部屋(以下、収音室と呼ぶ)の一端を基準とした座標系で示される。
ここで、音声認識部143は、予め設定された時間(例えば、1秒)よりも長い時間、予め定めた値よりも音響信号の強度(例えば、パワー)が小さい場合、無音状態であると検出する。音声認識部143は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部143は、各発話区間について音源別信号に基づいて発話内容を示す音声認識情報を生成する。
音声認識部143は、音響モデル(例えば、隠れマルコフモデル(Hidden Markov Model、HMM))と言語モデル(例えば、単語辞書及び記述文法)が予め記憶されている記憶部を備える。音声認識部143は、入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対して記憶部に記憶された音響モデルを用いて音素からなる音素列を定める。音声認識部143は、定めた音素列に対して記憶部に記憶された言語モデルを用いて単語列を定める。定めた単語列は、発話内容を表す音声認識情報の全部又は一部である。音声認識部143は、この音声認識情報を情報処理部144に出力する。
データ対応部145は、同一と判断された音源について、入力された音源方向情報と放射方向情報を対応付け、表示データ生成部146、画像合成部147に出力する。
表示データ生成部146は、データ対応部から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する
表示データ生成部146の構成、標識データ、表示データ及び配置位置情報については後述する。
次に、画像合成部147は、生成した表示画像信号を座標変換して、データ入力部151から入力された視点情報が表す視点から観測される表示画像信号を生成する。画像合成部147は、生成した表示画像信号を画像表示部152に出力する。
画像合成部147の構成、表示データ配置情報及び表示画像信号については後述する。
ここで、音響合成部148は、ある受聴点(視点)から予め定めた距離dだけ離れた音源方向毎に頭部伝達関数(Head Related Transfer Functions,HRTF)が予め記憶された記憶部を備える。頭部伝達関数とは、音源からある受聴点(視点)に位置する視聴者の左右各耳(チャネル)までの音波の伝達特性をそれぞれ表すフィルタ係数である。音響合成部148は、上述の基準位置から距離dだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、受聴点である予め定めた視点(例えば、撮影部13が備える光学系の焦点)からの方向を算出する。音響合成部148は、算出した方向に対応した頭部伝達関数を自部が備える記憶部から読み出し、読み出した左右各耳の頭部伝達関数を対応する音源別信号にそれぞれ畳み込み演算(convolution)を行い、左右各チャネルの音源別信号を生成する。音響合成部148は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。これによって、受聴点に位置する視聴者の左右各耳において、各音源から到来した音が再現される。そのため、視聴者は、受聴点を基準としたそれぞれの音源方向に各音源に係る音を知覚する。
表示データ生成部146には、音声認識部143から音声認識情報が、データ対応部145から放射方向情報と音源方向情報が入力される。表示データ生成部146は、標識(symbol)を示す標識データが記憶された記憶部を備える。この標識は、文字を画像の一部として表示させる領域(文字表示領域)を囲む図形である。文字表示領域を囲む図形には、例えば、矢印(arrow)、吹き出し(speech balloon)があり、その外縁(輪郭、outline)が線分で示される線画として構成されている。ここで、その外縁に相当する座標毎に予め定められた第1信号値が設定され、その他の領域における座標毎に予め定められた第2信号値が設定されている。第1信号値は、例えば、8ビットのRGB表色系において、赤色の信号値が255、その他の色の信号値が0である。なお、外縁に囲まれる背景部分については、予め定められた第3信号値が設定されている。第3信号値は、例えば、第1信号値と同一の色彩に係る信号値であって、第1信号値よりも小さい信号値である。第3信号値は、例えば、8ビットのRGB表色系において、赤色の信号値が64、その他の色の信号値が0である。なお、表示データ生成部146は、音源によって異なる色彩を表す信号値を定めてもよい。例えば、表示データ生成部146は、他の音源については、その外縁に相当する座標毎に赤色以外の色彩、例えば、緑色に対応した信号値を定める。
表示データ生成部146は、算出した座標値に基づき視点からその音源までの奥行値(depth)dhを算出する。表示データ生成部146は、算出した奥行値が大きいほど、小さくなるように、文字の大きさを算出する。表示データ生成部146は、例えば、式(1)を用いて文字の大きさ(フォントサイズ、font size)sを算出する。
これにより、視点からの奥行値が大きい(即ち、遠い)ほど、小さくなるように文字の大きさが定められる。この奥行値は視点からの距離の目安となる値である。
表示データ生成部146は、所定時間経過した後、文字表示領域に配置した文字を消去し、次に入力された音声認識情報が表す文字列に含まれる文字を配置する。ここで、表示データ生成部146は、文字が配置された領域の信号値を、例えば、外縁と同一の値(信号値1)と定める。
表示データが示す標識が矢印の画像である場合、表示データ生成部146は、生成した表示データ、配置位置情報及び放射方向情報を音源毎に対応付けて画像合成部147に出力する。表示データが示す標識が吹き出しの画像である場合、表示データ生成部146は、生成した表示データ及び配置位置情報を対応付けて画像合成部147に出力する。この場合、表示データ生成部146は、放射方向情報を出力しなくてもよい。
画像合成部147は、表示データ生成部146から表示データ、配置位置情報及び放射方向情報が入力され、撮影部13から画像信号が入力される。但し、上述したように放射方向情報は入力されないことがある。
画像合成部147は、入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、放射方向情報に基づく放射方向に向くように配置する。画像合成部147は、この表示データ配置情報に基づいて、ある視点の位置(例えば、撮影部13の光学系の視点の位置)から観測される、標識の画像を表す表示データ画像信号を生成する。
なお、配置位置情報が示す配置位置に係る奥行方向の座標値が負値となる場合には、表示データを生成した時点における左右方向から、座標変換後の左右方向が反転する。この場合には、画像合成部147は、座標変換前に入力された表示データが表す文字表示領域又は文字列について、左右方向を反転させる。左右方向を反転させる際、例えば、文字表示領域の左右方向の中心点を通る上下方向の対称軸の周りを180°回転させる。これにより、座標変換後に表示データ上に表される文字列を構成する各文字が右から左に配列されることが防止される。
このようにして、表示データにおける外縁や文字の部分が優先して表示され、それ以外の部分については撮影された画像が表示される。よって、標識の内部が透明に表示される。
これにより、文字が表示される部分を除いて、標識の内部が透明に表示される。
画像合成部147は、生成した表示データ画像信号(平面画像信号)を画像表示部152に出力してもよい。
画像合成部147は、生成した表示データ画像信号について画素毎に、対応する表示データ配置情報についての奥行成分の座標値Zcに基づいて視差値Dを算出する。ここで、視差値Dと座標値Zcには、D=B・f/(p・Zc)という関係がある。Bは、基線長である。基線長Bとは、撮影部13における2視点間の距離である。pは、画素間間隔である。
画像合成部147は、生成した表示データ画像信号について画素毎の信号値を、算出した視差値だけ水平方向(右側)に、それぞれずれた位置に配置して右側の表示データ画像信号(以下、右表示データ画像信号と呼ぶ)を生成する。
画像合成部147は、生成した右表示データ画像信号と入力された右画像信号を合成して右表示画像信号を生成する。この右表示画像信号を生成する処理は、上述の表示画像信号を生成する処理と同様である。
画像合成部147は、入力された左画像信号に対する上述の表示画像信号を左画像信号として、生成した右表示画像信号を右画像信号として画像表示部152に出力してもよい。
ここで、画像合成部147は、生成した左表示画像信号と右表示画像信号との間で、例えばブロックマッチングを行うことによって、画素毎に視差値を算出する。ブロックマッチングとは、一方の画像信号の注目画素を含む予め定めた領域(ブロック)内の信号値が類似する信号値を有するブロックを他方の画像信号から抽出する処理である。画像合成部147は、算出した視差値に基づいて各画素に対応したカメラ座標系における座標値を算出する。画像合成部147は、算出した座標値を、式(2)に示す関係を用いて、入力された視点情報が表す視点の座標を原点とするように並進移動させ、視点情報が表す注視方向が奥行方向となるように座標軸を回転させることで座標変換を行う。画像合成部147は、式(3)に示す関係を用いて、入力された視点情報に係る座標値を算出する。これにより座標変換された左表示画像信号が生成される。また、画像合成部147は、算出された奥行成分の座標値を用いて視差値を画素毎に算出し、算出した視差値を用いて対応する画素を水平方向にそれぞれずれた位置に配置することで座標変換された右表示画像信号が生成される。画像合成部147は、生成した左表示画像信号と右表示画像信号を、それぞれ左画像信号と右画像信号として画像表示部152に出力する。
次に、本実施形態に係る収音部11、12及び撮影部13の配置例について説明する。
図2は、本実施形態に係る収音部及び撮影部の配置例を示す概念図である。
図2に示す横長の長方形は、収音室31の内壁面を表す。図2において、長方形の左上方に音源32の位置を星印で示し、この長方形の左下端に基準位置33を×印で示す。この基準位置33は、放射方向推定部142が音源位置を推定する際の基準位置である。
収音室の内壁面には、全周を囲むように一定の間隔でn個のマイクロホン121−1〜121−nが、それぞれ同一の高さに配置されている。これらのマイクロホンは、収音部12が備えるn個のマイクロホンである。収音室31の中央付近には、撮影部13が示されている。撮影部13を起点とする破線の矢印34は、撮影部13が備える光学系の光軸の向きを表す。撮影部13の近傍にはm個のマイクロホン111−1〜111−mが、それらの重心点が撮影部13の光学系の焦点(視点)に近似するように一定の間隔で、配置されている。これらのマイクロホンは、収音部11が備えるm個のマイクロホンである。
音源をそれぞれ中心とする円弧とその法線方向を示す矢印35は、その音源による放射レベルが著しい方向である放射方向を示す。
次に、本実施形態に係る矢印の画像の例について説明する。
図3は、本実施形態に係る矢印の画像の一例を示す図である。
図3に示す矢印の画像は、左端に三角形の頂点bが向けられ、その三角形の底辺に長方形が接するように構成されている。長方形に囲まれる領域が文字表示領域である。図3の例では、日本語で「友達」を意味する語を示す文字列「tomodachi」が表示されている。長方形の右辺の中点に示される×印は基準点(anchor point)aである。頂点bのなす角度は直角である。また、矢印全体の形状は、基準点aと頂点bを通る線分に対して上下対称である。なお、図3に示す画像は、特定の一方向を示す標識の一例であって、形状はこれには限られない。
図4は、本実施形態に係る吹き出しの画像の一例を示す図である。
図4に示す吹き出しの画像は、各頂点が丸みを帯びた長方形とその左下端から、さらに下方に離れた位置に頂点b’を有する三角形とで構成される。長方形に囲まれる領域が文字表示領域である。図4が示す文字列は、図3が示す文字列と同一である。長方形の右辺の中点に示される×印が基準点a’を示す。なお、長方形の底辺から頂点b’までの距離をhb’で示す。なお、図4に示す画像は、特定の一方向を示さない標識の一例であって、形状はこれには限られない。
次に、本実施形態に係る情報表示装置14が行う情報表示処理について説明する。
図5は、本実施形態に係る情報表示処理を表すフローチャートである。
(ステップS101)音源方向推定部141は、収音部11から入力された音響信号に基づいて各音源の音源方向を推定し、各音源が寄与する成分を示す音源別信号を生成する。音源方向推定部141は、推定した音源方向を表す音源方向情報を音源毎にデータ対応部145に出力する。音源方向推定部141は、生成した音源別信号を音源毎に音声認識部143及び音響合成部148に出力する。その後、ステップS102に進む。
(ステップS102)放射方向推定部142は、収音部12から入力された音響信号に基づいて、各音源の放射方向と位置を推定する。放射方向推定部142は、推定した放射方向を表す放射方向情報と位置を表す位置情報とを対応づけてデータ対応部145に出力する。その後、ステップS103に進む。
(ステップS103)音声認識部143は、音源方向推定部141から入力された音源毎の音源別信号が表す発話内容を発話区間毎に認識する。音声認識部143は、発話内容を表す音声認識情報を表示データ生成部146に出力する。その後、ステップS104に進む。
次に、表示データ生成部146は、音声認識部143から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
次に、表示データ生成部146は、データ対応部145から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。そして、表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する。
なお、表示データが示す標識が矢印である場合、表示データ生成部146は、データ対応部145から入力された当該音源の放射方向情報を画像合成部147に出力する。その後、ステップS106に進む。
(ステップS107)画像合成部147は、表示データ生成部146から入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、データ対応部145から入力された放射方向情報に基づく放射方向に向くように配置する。次に、画像合成部147は、生成された表示データ配置情報に基づいて、撮影部13の視点から観測される標識の画像を表す表示データ画像信号を生成する。そして、画像合成部147は、生成した表示データ画像信号が優先されるように、この表示データ画像信号と撮影部13から入力された画像信号を合成して表示画像信号を合成する。表示データ画像信号が優先されることで、表示データが表す画像が撮影された画像に隠されずに表示される。
次に、画像合成部147は、合成した表示画像信号を座標変換して、データ入力部151から入力された視点情報が表す視点から観測される表示画像信号を生成する。そして、画像合成部147は、生成した表示画像信号を画像表示部152に出力する。その後、ステップS108に進む。
(ステップS109)音響合成部148は、データ入力部151から入力された視点情報が示す視点から、音源方向推定部141から入力された音源方向が示す音源位置への音源方向を算出する。次に、音響合成部148は、算出した音源方向に対応する左右各チャネルの頭部伝達関数を記憶部から読み出す。そして、音響合成部148は、読み出した左右各チャネルの頭部伝達関数を、音源方向推定部141から入力された当該音源に係る音源別信号にそれぞれ畳み込み演算する。次に、音響合成部148は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。そして、音響合成部148は、合成した左右各チャネルの音響信号を音響再生部153に出力する。その後、ステップS110に進む。
(ステップS110)音響再生部153は、音響合成部148から入力された左右各チャネルの音響信号が表す音をチャネル毎に並列して再生する。その後、処理を終了する。
次に、画像表示部152に表示される画像の一例を示す。
図6は、画像表示部152に表示される画像の一例を示す。
図6において、左右方向は撮影部13の光学系が有する光軸を基準とした左右方向を示し、上下方向は高さの高低を示す。
図6が示す画像41は、表示データ生成部146が生成した表示データが示す矢印の画像42A、42Bと、それ以外の部分である撮影部13が撮影した画像信号が合成された表示画像である。画像41の中央部を挟んで左右両側にそれぞれ人物43A、43Bが示されている。これらの人物43A、43Bがそれぞれ音源に相当する。矢印42A、42Bの基準点の位置が各人物43A、43Bの頭部の真上又は真下となるように、それぞれ矢印42A、42Bが配置されている。また、画像41の中央部には、収音部11と撮影部13が頭部に内蔵された人型ロボット43Rが示されている。
従って、本実施形態によれば、視聴者は音源として人物43A、43Bの発話内容を表す文字列と、その向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。また、視聴者は発話内容毎に発話者を容易に識別することができる。また、例えば、聴覚障害者は、図6が表す画像を視聴することにより意思疎通を促進することができる。
なお、人物43Aが人物43Bに対して発話している場合、図6において矢印42Aの代わりに前述の吹き出しの画像を表示するようにしてもよい。この場合、発話内容を示す文字列の他に、発話者と発話方向を示す情報(例えば、人物43A⇒人物43B等)、を表示するようにしてもよい。
次に本実施形態に係る変形例1−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図7は、本実施形態の一変形例に係る情報表示システム1aの構成を表す概略図である。
記憶部15aは、音源方向推定部141から入力された音源方向情報、音源別信号、放射方向推定部142から入力された放射方向情報及び位置情報、音声認識部143から入力された音声認識情報、撮影部13から入力された画像信号を記憶する。記憶部15aは、これらの入力された信号及び情報を入力された時刻毎に対応付けて記憶する。
音響合成部148は、音源方向推定部141から入力される代わりに、記憶部15aから音源方向情報と音源別信号を読み出す。
次に本実施形態に係る変形例1−2について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図8は、本実施形態の他の変形例に係る情報表示システム1bの構成を表す概略図である。
情報表示システム1bは、情報表示システム1(図1)に対して記憶部15bを更に備え、情報表示装置14の代わりに情報表示装置14a(図7)を備える。
記憶部15bは、収音部11、12から入力された音響信号、撮影部13から入力された画像信号を、入力された時刻毎に対応付けて記憶する。
音源方向推定部141及び放射方向推定部142は、収音部11から入力される代わりに、記憶部15bから収音部11、12から入力された音響信号をそれぞれ読み出す。
画像合成部147は、撮影部13から入力される代わりに、記憶部15bから画像信号を読み出す。
また、上述の変形例1−1、1−2では、収音部11、12から入力された音響信号又は撮影部13から入力された画像信号に対して情報量を圧縮し、情報量を圧縮した音響信号又は画像信号を記憶部15a、15bに記憶させるようにしてもよい。記憶部15a、15bから、記憶した音声信号又は画像信号を読み出す際には、情報量を圧縮前の情報量に伸長する。上述の変形例1−1、1−2において、情報量を伸長した音声信号又は画像信号に基づいて表示画像信号を再構成することで、記憶部15a、15bの記憶容量を低減することができる。
次に本実施形態に係る変形例1−3について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図9は、本実施形態の他の変形例に係る情報表示システム1cの構成を表す概略図である。
情報表示システム1cは、情報表示システム1(図1)に対して感情推定部149を更に備え、表示データ生成部146の代わりに表示データ生成部146cを備える。
即ち、情報表示システム1cにおいて、情報表示装置14c、情報処理部144cは、それぞれ情報表示装置14、情報処理部144(図1)に対して、感情推定部149及び表示データ生成部146cが備えられている。
感情推定部149は、音源方向推定部141から入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対応する感情情報を自部が備える記憶部から読み出す。感情推定部149が算出する音響特徴量は、例えば、平均ピッチ(予め定めた区間毎に含まれるピッチの平均値)、平均レベル(予め定めた区間毎に含まれるレベルの平均値)、平均ピッチ変化率(予め定めた区間毎に含まれる複数の小区間に含まれるピッチの平均値に対する小区間を跨いだ変化率)、平均レベル変化率(予め定めた区間毎に含まれる複数の小区間に含まれるレベルの平均値に対する小区間を跨いだ変化率)、ピッチ指数(予め定めた平均ピッチの入力された全区間内のピッチの平均値)、レベル指数(予め定めた平均レベルの入力された全区間内のレベルの平均値)等の全部又は一部の組である。感情推定部149は、この組からなる音響特徴量を要素とした音響特徴量ベクトルを構成する。
感情推定部149は、構成した音響特徴量ベクトル、記憶部に記憶された各音響特徴量ベクトルとの類似度を表す指標値、例えばユークリッド距離を算出する。感情推定部149は、算出した指標値が最小となる音響特徴量ベクトルに対応した感情情報を記憶部から読み出し、読み出した感情情報を表示データ生成部146cに出力する。
表示データ生成部146cが備える記憶部には、感情情報毎に、標識データ(方向指示標識データ、方向非指示標識データ)が予め記憶されている。標識データの表示態様は、感情情報毎に異なる。表示態様とは、例えば、外縁の形状、線幅、その輝度、その色彩等がある。
これにより、本変形例では、視聴者は、標識の表示態様を視認することによって音源である話者の感情を把握することができる。また、本変形例では特定の感情、例えば興奮について、上述のような視聴者の注意を引く表示態様で標識を表示することで、話者の感情に応じて視聴者の注意の度合いを変えることができる。
ここで、標識の表示態様として矢印の画像に係る形状の例について述べる。
図10は、本変形例における矢印の画像における形状の一例を示す図である。
図10に示す矢印では、左側に頂点が向いている三角形と外縁がギザギザの線画で構成されている。かかる形状の矢印を表すことで、音源方向、つまり話者が発声する方向とともに話者の感情(興奮)が視覚的に表現される。
図11は、本変形例における矢印の画像における形状の他の例を示す図である。
図11に示す矢印では、左側に頂点が向いている三角形と外縁において雲形が繰り返される線画で構成されている。かかる形状の矢印を表すことで、話者が発声する方向とともに、話者の感情(安静)が視覚的に表現される。
次に本実施形態に係る変形例1−4について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図12は、本実施形態の他の変形例に係る情報表示システム1dの構成を表す概略図である。
情報表示システム1dは、情報表示システム1(図1)に対して音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148の代わりに、音源方向推定部141d、音声認識部143d、表示データ生成部146d、音響合成部148dをそれぞれ備える。情報表示システム1dにおいて、情報表示装置14dは、音源方向推定部141d、音声認識部143d及び情報処理部144dを備える。情報処理部144dは、表示データ生成部146d、音響合成部148dを備える。
表示データ生成部146dは、音源毎の音源別信号のうち音響再生部153に出力する区間に係る音素と対応した文字もしくは単語を、その他の文字もしくは単語とは異なる態様で表示する。異なる態様とは、例えば、色彩、文字の大きさ、文字の太さ、装飾、背景色もしくは背景の模様(texture)の有無、又は差異である。
ここで、音源方向推定部141dは、音源別信号を生成した時刻を表す時刻情報を予め定めた時間(例えば、50ms)毎に生成し、生成した時刻情報を音源別信号と対応付けて音声認識部143d及び音響合成部148dに出力する。音声認識部143dは、音源方向推定部141dから入力された時刻情報を、音声認識情報を表す各文字と対応付けて表示データ生成部146dに出力する。音響合成部148dは、音源方向推定部141dから音源別信号と時刻情報が対応付けられて入力され、入力された音源別信号を予め定めた遅延時間(例えば、5秒間)遅延させる。音響合成部148dは、遅延させた音源別信号を音響再生部153に出力する際、当該音源別信号と対応付けられた時刻情報を表示データ生成部146dに出力する。表示データ生成部146dは、音響合成部148dから入力された時刻情報に対応する文字を異なる態様で表示する文字と定める。
なお、本実施形態では標識の例を図3、4、10、11に示したが、これには限られない。例えば、標識内に表示する文字数が予め定めた文字数よりも多い場合、本実施形態では、それらの文字列を複数の標識を用いて表示してもよい。この場合、表示される複数の標識において、認識結果として得られた時期が新しいものほど、その文を大きく表示し、古いほど小さく表示するようにしてもよい。また、文字列に含まれる全ての文字を、そのそれらの文字の大きさを小さくして1つの標識上に表示するようにしてもよい。
以下、図面を参照しながら本発明の第2の実施形態について、上述と同一の構成又は処理については同一の符号を付して説明する。
図13は、本実施形態に係る情報表示システム2の構成を表す概念図である。
情報表示システム2は、情報表示システム1(図1)において情報表示装置14の代わりに情報表示装置24を備え、さらに位置検出部25を備える。
位置検出部25は、収音部11、撮影部13、画像表示部152及び音響再生部153と同一の筐体に一体化されていてもよい。例えば、位置検出部25は、これらが一体化したヘッドマウンテッドディスプレイに内蔵されていてもよい。これにより、位置検出部25は当該ヘッドマウンテッドディスプレイを装着した視聴者自身の位置を検出することができる。また、音源方向推定部141は、視聴者の位置を基準とした音源方向を推定することができる。
次に、画像表示部152に表示される画像の一例を示す。
図14は、画像表示部152に表示される画像の一例を示す。
但し、図14に示す表示画像は、2視点の表示画像信号のうち一方の視点(左)の表示画像信号が表す画像である。
図14において、左右方向は位置検出部25を装着している視聴者を基準とした左右方向を示し、上下方向は当該視聴者を基準とした高低を示す。
図14が示す画像51は、表示データ生成部146が生成した矢印52を表す表示データと、その残りの部分である撮影部13が撮影した画像信号とが合成された表示画像である。この画像の中央部を挟んで左右両側にそれぞれ人物が53A、53Bが示されている。左側の人物53Aが音源に相当する。矢印52の基準点の位置が人物53Aの頭部の真上となるように、矢印52が配置されている。また、中央よりも下には撮影部13が撮影された時点における時刻(Current Time 02:23)を示す文字が示されている。
従って、本実施形態によれば、検知された視聴者自身の位置を中心として、視聴者は音源として人物が発声した発話内容を表す文字列とその向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。
なお、画像表示部152が、画像を表示する表示面が、外部からの光線を透過する半透明のディスプレイである場合には、画像合成部247は撮影部13から入力された画像を合成する処理を省略してもよい。即ち、画像合成部247は、表示データが検知された自己の位置が中心とあるように視点変換された画像を表す表示画像信号を生成し、画像表示部152は、その表示画像信号に係る矢印を表示する。
次に本実施形態に係る変形例2−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図15は、本実施形態の一変形例に係る情報表示システム2aの構成を表す概略図である。
次に本実施形態に係る変形例2−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図15は、本実施形態の一変形例に係る情報表示システム2aの構成を表す概略図である。
放射方向推定部242は、撮影部13から入力された画像信号が表す画像に表された人物の顔面の方向を検出し、検出した方向を放射方向とし推定する。放射方向推定部242は、画像に表された顔の方向を検出するために既知の方法を用いることができる。
放射方向推定部242は、例えば、人間の顔面を構成する部位、例えば顔面の左半分及び右半分の特徴を表すhaar−like特徴からなる顔モデルデータを予め記憶させておいた記憶部を備える。放射方向推定部242は、撮影部13から入力された画像信号が表す画像の含まれる領域毎に、記憶部に記憶された各部位の顔モデルデータとの間の指標値としてhaar−like特徴量を算出する。放射方向推定部242は、部位毎に算出したhaar−like特徴量が予め定めた閾値よりも大きいと判断された領域を、その部位に含まれる領域と判断する。
放射方向推定部242は、左目を表す領域の面積と、右目を表す領域の面積に対する比を算出し、算出した比に対応する顔の方向を算出する。放射方向推定部242は、算出した方向を放射方向として、放射方向を表す放射方向情報をデータ対応部145に出力する。
なお、放射方向推定部242は、入力された画像信号から検出した左右各目が向いている方向(視線方向)を公知の方法を用いて検出し、検出した方向を放射方向と定めてもよい。これにより、本変形例では、多数のマイクロホンを用いることなく、撮影部13の視点から観察された人間の顔の方向に基づいて、音源の放射方向として推定することができる。
なお、上述した実施形態において、各変形例その他の代替例を任意に組み合わせて構成してもよい。
また、上述した実施形態における情報表示装置14、14a、14c、14d、24、24aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。情報表示装置14、14a、14c、14d、24、24aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
11、12…収音部、13…撮影部、
14、14a、14c、14d、24、24a…情報表示装置、
140、240…音源推定部、141、141d…音源方向推定部、
142、242…放射方向推定部、
143、143d…音声認識部、144、144c、144d…情報処理部、
145…データ対応部、146、146c、146d…表示データ生成部、
147、247…画像合成部、148、148d、248…音響合成部、
149…感情推定部、
15a、15b…記録部
151…データ入力部、152…画像表示部、153…音響再生部、
25…位置検出部
Claims (9)
- 第1の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定部と、
第2の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定部と、
前記音源の発話の内容を認識する音声認識部と、
前記放射方向推定部が前記放射方向を推定できると判定するとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、
前記放射方向推定部が前記放射方向を推定できないと判定するとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成部と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成部と、を備えること
を特徴とする情報処理装置。 - 前記音源を表す画像を取得する画像取得部と、
前記画像を観察する位置である視点を入力するデータ入力部と、を備え、
前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする請求項1に記載の情報処理装置。 - 自部の位置を検出する位置検出部を備え、
前記データ入力部は、前記位置検出部が検出した位置を前記視点として入力することを特徴とする請求項2に記載の情報処理装置。 - 前記発話に係る音声を発声した話者の感情を推定する感情推定部を備え、
前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記方向指示標識または前記方向非指示標識の表示態様を変化させることを特徴とする請求項1ないし3のいずれかに記載の情報処理装置。 - 前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする請求項2又は3に記載の情報処理装置。
- 前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記文字を表示する時間を定めることを特徴とする請求項1から請求項5のいずれかに記載の情報処理装置。 - 請求項1から請求項6のいずれか一項に記載の情報処理装置と、
前記発話に係る音源を表す画像を撮影する撮影部、を備えること
を特徴とする情報処理システム。 - 情報処理装置における情報表示方法であって、
第1の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定過程と、
第2の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定過程と、
前記音源の発話の内容を認識する音声認識過程と、
前記放射方向推定過程において前記放射方向を推定できると判定されるとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、
前記放射方向推定過程において前記放射方向を推定できないと判定されるとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成過程と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成過程と、を有すること
を特徴とする情報処理方法。 - 情報処理装置のコンピュータに、
第1の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定手順、
第2の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定手順、
前記音源の発話の内容を認識する音声認識手順、
前記放射方向推定手順において前記放射方向を推定できると判定されるとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、
前記放射方向推定手順において前記放射方向を推定できないと判定されるとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成手順、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成手順、
を実行させるための情報処理プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161500653P | 2011-06-24 | 2011-06-24 | |
US61/500,653 | 2011-06-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013008031A JP2013008031A (ja) | 2013-01-10 |
JP6017854B2 true JP6017854B2 (ja) | 2016-11-02 |
Family
ID=47362663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012139780A Active JP6017854B2 (ja) | 2011-06-24 | 2012-06-21 | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8886530B2 (ja) |
JP (1) | JP6017854B2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9384737B2 (en) * | 2012-06-29 | 2016-07-05 | Microsoft Technology Licensing, Llc | Method and device for adjusting sound levels of sources based on sound source priority |
JP6155622B2 (ja) * | 2012-12-18 | 2017-07-05 | セイコーエプソン株式会社 | 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法 |
JP6364735B2 (ja) * | 2013-10-04 | 2018-08-01 | セイコーエプソン株式会社 | 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法 |
JP6316208B2 (ja) * | 2012-12-18 | 2018-04-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
US9542958B2 (en) * | 2012-12-18 | 2017-01-10 | Seiko Epson Corporation | Display device, head-mount type display device, method of controlling display device, and method of controlling head-mount type display device |
JP6201332B2 (ja) * | 2013-02-15 | 2017-09-27 | セイコーエプソン株式会社 | 音処理装置 |
CN105164499B (zh) * | 2013-07-18 | 2019-01-11 | 三菱电机株式会社 | 信息提示装置和信息提示方法 |
JP6030032B2 (ja) * | 2013-08-30 | 2016-11-24 | 本田技研工業株式会社 | 音響処理装置、音響処理方法、及び音響処理プログラム |
US10547902B2 (en) * | 2014-07-18 | 2020-01-28 | Sony Corporation | Information processing apparatus and method, display control apparatus and method, reproducing apparatus and method, and information processing system |
JP2016033757A (ja) * | 2014-07-31 | 2016-03-10 | セイコーエプソン株式会社 | 表示装置、表示装置の制御方法、および、プログラム |
JP6613503B2 (ja) * | 2015-01-15 | 2019-12-04 | 本田技研工業株式会社 | 音源定位装置、音響処理システム、及び音源定位装置の制御方法 |
US9894266B2 (en) | 2015-06-30 | 2018-02-13 | International Business Machines Corporation | Cognitive recording and sharing |
US11783864B2 (en) * | 2015-09-22 | 2023-10-10 | Fyusion, Inc. | Integration of audio into a multi-view interactive digital media representation |
CN108139223A (zh) * | 2015-09-30 | 2018-06-08 | 日产自动车株式会社 | 车辆用显示装置 |
WO2017061149A1 (ja) * | 2015-10-08 | 2017-04-13 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10962780B2 (en) * | 2015-10-26 | 2021-03-30 | Microsoft Technology Licensing, Llc | Remote rendering for virtual images |
JP6612707B2 (ja) * | 2016-09-30 | 2019-11-27 | 本田技研工業株式会社 | 情報提供装置 |
JP2019057047A (ja) * | 2017-09-20 | 2019-04-11 | 株式会社東芝 | 表示制御システム、表示制御方法及びプログラム |
US11128977B2 (en) * | 2017-09-29 | 2021-09-21 | Apple Inc. | Spatial audio downmixing |
EP3729829A1 (en) * | 2017-12-19 | 2020-10-28 | Koninklijke KPN N.V. | Enhanced audiovisual multiuser communication |
JP6916130B2 (ja) * | 2018-03-02 | 2021-08-11 | 株式会社日立製作所 | 話者推定方法および話者推定装置 |
JP7075064B2 (ja) * | 2018-03-09 | 2022-05-25 | 日本電気株式会社 | 信号源識別装置、信号源識別方法、プログラム |
CN110634189B (zh) | 2018-06-25 | 2023-11-07 | 苹果公司 | 用于在沉浸式混合现实体验期间用户警报的系统和方法 |
JP7177631B2 (ja) | 2018-08-24 | 2022-11-24 | 本田技研工業株式会社 | 音響シーン再構成装置、音響シーン再構成方法、およびプログラム |
CN109451291A (zh) * | 2018-12-29 | 2019-03-08 | 像航(上海)科技有限公司 | 无介质浮空投影声源定向语音交互系统、智能汽车 |
WO2020250797A1 (ja) * | 2019-06-14 | 2020-12-17 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2021135462A (ja) * | 2020-02-28 | 2021-09-13 | 日本電信電話株式会社 | ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム |
US11478704B2 (en) * | 2020-11-04 | 2022-10-25 | Sony Interactive Entertainment Inc. | In-game visualization of spectator feedback |
US11875792B2 (en) * | 2021-08-17 | 2024-01-16 | International Business Machines Corporation | Holographic interface for voice commands |
WO2023058393A1 (ja) * | 2021-10-04 | 2023-04-13 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10261099A (ja) * | 1997-03-17 | 1998-09-29 | Casio Comput Co Ltd | 画像処理装置 |
AUPO714197A0 (en) * | 1997-06-02 | 1997-06-26 | University Of Melbourne, The | Multi-strategy array processor |
JP3757565B2 (ja) * | 1997-08-04 | 2006-03-22 | カシオ計算機株式会社 | 音声認識画像処理装置 |
JP2001351125A (ja) * | 2000-03-30 | 2001-12-21 | Sega Corp | 画像表示方法 |
DE10133126A1 (de) * | 2001-07-07 | 2003-01-16 | Philips Corp Intellectual Pty | Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle |
WO2003017718A1 (en) * | 2001-08-13 | 2003-02-27 | Nanyang Technological University, Centre For Signal Processing | Post-processing scheme for adaptive directional microphone system with noise/interference suppression |
JP2003067781A (ja) * | 2001-08-28 | 2003-03-07 | Nippon Telegr & Teleph Corp <Ntt> | 会話情報提示方法及び装置 |
US20030218638A1 (en) * | 2002-02-06 | 2003-11-27 | Stuart Goose | Mobile multimodal user interface combining 3D graphics, location-sensitive speech interaction and tracking technologies |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
JP5383056B2 (ja) | 2007-02-14 | 2014-01-08 | 本田技研工業株式会社 | 音データ記録再生装置および音データ記録再生方法 |
US8194882B2 (en) * | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US20110276901A1 (en) * | 2010-05-04 | 2011-11-10 | Qwest Communications International Inc. | Family chat |
-
2012
- 2012-06-21 US US13/529,585 patent/US8886530B2/en active Active
- 2012-06-21 JP JP2012139780A patent/JP6017854B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013008031A (ja) | 2013-01-10 |
US20120330659A1 (en) | 2012-12-27 |
US8886530B2 (en) | 2014-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6017854B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム | |
AU2022201783B2 (en) | Technique for directing audio in augmented reality system | |
CN108141696B (zh) | 用于空间音频调节的系统和方法 | |
US10176820B2 (en) | Real-time remodeling of user voice in an immersive visualization system | |
JP5685177B2 (ja) | 情報伝達システム | |
JP4439740B2 (ja) | 音声変換装置及び方法 | |
JP7100824B2 (ja) | データ処理装置、データ処理方法及びプログラム | |
CN107943275B (zh) | 模拟环境显示系统及方法 | |
JP2022538511A (ja) | レガシーオーディオビジュアルメディアからの空間化された仮想音響シーンの決定 | |
CN107005678A (zh) | 调节视频会议系统中的空间一致性 | |
JP2000308198A (ja) | 補聴器 | |
CN112312297B (zh) | 音频带宽减小 | |
US11812222B2 (en) | Technique for directing audio in augmented reality system | |
JP6410769B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
JP2018019295A (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
CN114339582B (zh) | 双通道音频处理、方向感滤波器生成方法、装置以及介质 | |
JP6664456B2 (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
JP2018152834A (ja) | 仮想聴覚環境において音声信号出力を制御する方法及び装置 | |
JP2011234139A (ja) | 3次元音声信号生成装置 | |
JP2022022871A (ja) | 処理装置および没入度導出方法 | |
JP7456492B2 (ja) | 音声処理装置、音声処理システム、音声処理方法及びプログラム | |
US20240107257A1 (en) | Relocation of sound components in spatial audio content | |
WO2023109862A1 (zh) | 视频播放中协同播放音频的方法及通信系统 | |
JP2024056580A (ja) | 情報処理装置及びその制御方法及びプログラム | |
JP2011234138A (ja) | 3次元動画生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160929 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6017854 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |