JP2008197650A - 音データ記録再生装置および音データ記録再生方法 - Google Patents

音データ記録再生装置および音データ記録再生方法 Download PDF

Info

Publication number
JP2008197650A
JP2008197650A JP2008025678A JP2008025678A JP2008197650A JP 2008197650 A JP2008197650 A JP 2008197650A JP 2008025678 A JP2008025678 A JP 2008025678A JP 2008025678 A JP2008025678 A JP 2008025678A JP 2008197650 A JP2008197650 A JP 2008197650A
Authority
JP
Japan
Prior art keywords
data
sound
stream
time
sound data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008025678A
Other languages
English (en)
Other versions
JP5383056B2 (ja
Inventor
Kazuhiro Nakadai
一博 中臺
Yuji Hasegawa
雄二 長谷川
Koji Tsujino
広司 辻野
Hiroshi Okuno
博 奥乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2008197650A publication Critical patent/JP2008197650A/ja
Application granted granted Critical
Publication of JP5383056B2 publication Critical patent/JP5383056B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置を提供する。
【解決手段】本装置は、音データ取得部(101)と、音源定位部(103)と、音源分離部(105)と、時系列データ格納部(109)と、ストリームデータ格納部(111)と、前記2個の格納部に接続され、データの処理を行うデータ処理部(115)と、を備える。本装置は、音データを再生する音データ再生部(119)と、ストリームデータを表示する表示部(117)と、をさらに備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生するように構成される。
【選択図】図1

Description

本発明は、記録された音データの中から所望の音データを容易に再生することのできる音データ記録再生装置および音データ記録再生方法に関する。
記録された音データの中から所望の音データを再生することは、記録された画像データの中から所望の画像データを再生することに比較して困難である。
その第1の理由は、音データを時間に沿って概観するのが困難だからである。画像データの場合、データを早送りすること、あるいは、特定の時間間隔でデータをピックアップし同時に表示することで、所望の画像データを比較的容易に特定し、再生することができる。画像を早送りしても画像の色調などが変化することはなく、画像のコマ数を減らしても大きな認識誤りは発生しない。これに対して、音データの場合、データを早送りすると認識するのが困難となる。また、ピックアップした短時間の音データは、再生しても認識することができない。
第2の理由は、音源の弁別が困難であるからである。画像データの場合、画面上で二つの物体が重なっていても前面の物体は正しく認識することができ、二つの物体を弁別することができる。これに対して、音データの場合、複数話者の発言が重なっている場合などに、発言内容を理解することは困難である。
これまでに、たとえば、音源の位置を推定し、画像上に推定された音源の位置を表示するシステムが開発されている(たとえば、特許文献1)。
しかし、音源を弁別するとともに、音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置および音データ記録再生方法は開発されていない。
特開平2003−111183号公報
したがって、記録された音データの中から所望の音データを容易に再生することができるように、音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置および音データ記録再生方法に対するニーズがある。
本発明による音データ記録再生装置は、音データを取得する音データ取得部と、音源が存在する方向を特定する音源定位部と、音源ごとの音データを分離する音源分離部と、を備える。本装置は、音源ごとの時系列の音データを格納する時系列データ格納部と、所定の時間において、所定の音源の方向を示す、音に関するストリームデータを格納するストリームデータ格納部と、前記時系列データ格納部および前記ストリームデータ格納部に接続され、データの処理を行うデータ処理部と、をさらに備える。本装置は、音データを再生する音データ再生部と、ストリームデータを表示する表示部と、をさらに備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生するように構成される。
本発明による音データ記録再生装置によって音データを再生する方法は、音データを取得し、音源が存在する方向を特定し、音源ごとの音データを分離する。さらに、音源ごとの時系列の音データを、時系列データ格納部に格納し、所定の時間において、所定の音源の方向を示す、音に関するストリームデータを作成し、ストリームデータ格納部に格納する。さらに、ストリームデータを表示し、表示されたストリームデータが選択されると、選択されたストリームデータに関する音データを再生する。
本発明によれば、所定の時間において、所定の音源の方向を示す、音に関するストリームデータが表示されるので、音源ごとの音データを時間に沿って概観することができ、記録された音データの中から所望の音データを容易に再生することができる。
本発明の実施形態によれば、音データから音声を認識し音声のテキスト情報を生成し、前記音声のテキスト情報を表示する。
本実施形態によれば、たとえば、耳の不自由な人も、記録された音データの中から所望の音データ(音声)を容易に再生し利用することができる。
本発明の実施形態によれば、画像データを取得し、時系列の画像データを前記時系列データ格納部に格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む。
本実施形態によれば、音源(話者)の音データ(話の内容)と画像データ(話者の表情)を関連付けて再生することもできる。
図1は、本発明の一実施形態による音データ記録再生装置の構成を示す図である。
音データ記録再生装置において、音データ取得部101が音データを取得する。取得された音データは、音源定位部103に送られ、音源定位部103は、音源が存在する方向を特定する。また、取得された音データは、音源分離部105に送られ、音源分離部105は、音源ごとの音を分離する。また、画像データ取得部107が画像データを取得する。
音データ記録再生装置は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113の3種類のメモリを備える。これらのメモリのデータ構造については後で説明する。
音データ記録再生装置は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113に接続されたデータ処理部115ならびに時系列データ格納部109およびデータ処理部115に接続された音声認識部121を備える。データ処理部115は、表示・入力部117および音データ再生部119にさらに接続されている。データ処理部115は、上記3種類のメモリに格納されたデータを使用して処理を行い、表示・入力部117が音データを概観的に表示し、表示・入力部117からのオペレータ入力にしたがって、音データ再生部119が所望の音データを再生するように構成されている。音声認識部121は、データ処理部115からの指示により時系列データ格納部109に格納された音データから音声を認識し、音声のテキスト情報を生成し、時系列データ格納部109に格納する。表示・入力部117は、表示部および入力部の別個の筐体であってもよい。
音データ取得部101は、一例として、8個のマイクと、マイクが採取した音データを処理する音響信号処理用プロセッサとを含む。音響信号処理用プロセッサは、たとえば、16チャネルの音データを所定の周波数で採取することができる。8個のマイクは、7個の通常のマイクと1個のサラウンド用マイクからなる。7個の通常のマイクは、球状の形をした台に取り付けられており、その台は、それぞれのマイクが設置されている方向からの音を採取しやすいように設計されている。
本発明による音データ記録再生装置は、たとえば、会議室など所定の位置で音データを取得し再生する場合に使用してもよい。その場合に、音データ取得部101は、該所定の位置に配置される。他の実施形態において、本発明による音データ記録再生装置は、移動体における音データを取得し再生する場合に使用してもよい。その場合に、音データ取得部101は、該移動体に取り付けられる。移動体には、一例として、車両、監視ロボットおよび人間などが含まれる。たとえば、GPS(Global Positioning System、全地球測位システム)と組み合わせて、移動体の位置において音源の方向を認識することができる。
音源定位部103は、音源が存在する方向を特定するために、たとえば、Steered beam formerによる定位を行い、カルマンフィルタにより精度を上げる(Masamitsu Murase, Shun'ichi Yamamoto, Jean-Marc Valin, Kazuhiro Nakadai, Kentaro Yamada, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: Multiple Moving Speaker Tracking by
Microphone Array on Mobile Robot, Proceedings of the Ninth European Conference
on Speech Communication and Technology (Interspeech-2005), 249-252, Lisboa, Sep. 2005 p.10) 。Steered beam formerによる定位は、以下のステップにより、マイクペア間での相互相関に基づいた定位を行う。
1)マイクの座標を定義した座標系の原点を中心とする球を考え、その表面に2562個の点を等間隔に配置する。
2)各点に対して、全てのマイクのペアについて相互相関の和を求める。この和が最大となる点の方向が音源の方向であると推定する。
3)推定された相互相関の値を全て0とする。
4)2)および3)を繰り返し、全ての音源方向を推定する。これにより、推定した音源方向を時間軸上で走査し、方向の近いものを1つの音源としてラベル付けする。
カルマンフィルタは、移動音源のような動的に変化するシステムを観測する場合に、過去の観測値から現在及び未来の内部状態を予測するためのものである。たとえば、過去の話者の状態から現在の話者の状態を推定する。これにより、単一の話者が移動する場合に、単一話者へ確実に同一のラベルを付与することができる。
音源分離部105は、音源ごとの音データを分離するために、たとえば、Geometric
Source Separation(GSS)による音源分離を行いPost-Filterによって雑音抑圧処理を行う
(J.-M. Valin, J. Rouat, F. Michaud: Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS), pp.2123-2128, 2004.)。
周波数kにおいて、音響信号(k)から観測信号x(k)への変換は線形であると仮定して、音源信号から観測信号への伝達関数を式(1)によって表す。
Figure 2008197650
ここでA(k)は変換を表す行列であり,n(k)はノイズである。これより推定した音源信号 y(k)は式(2)で表される。
Figure 2008197650
x(k)は観測信号であるため、音源信号を求めることは変換行列W(k)を求める問題に帰着する。異なる音源間信号の独立性を仮定することにより式(3)が、音源とマイクの幾何学的制限により式(4)が得られる。
Figure 2008197650
これらの式(3)および(4)は制限が強いため、Wの近似解を確率的勾配法により求める。
Post-Filterによる雑音抑圧は、GSSによる分離音から雑音を取り除くものである。この手法では雑音を定常性雑音と非定常性雑音に分けて推定し除去する。定常性雑音はMCRA (Minima Controlled Recursive Average)により計算する。非定常性雑音は、GSSの過程で別のチャンネルから漏洩したものと仮定し、適応的に干渉成分の推定を行う。
時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113のデータ構造について以下に説明する。
図2は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113の音データに関するデータ構造を示す図である。
時系列データ格納部109には、それぞれの時刻における音の波形データが格納される。音の波形データは、分離されていない波形データと音源ごとに分離された波形データを含む。音源ごとに分離されたデータには、音源の方向のデータが付与される。それぞれの時刻におけるデータは、時間方向にリンクされており、たとえば、時刻t=2におけるデータから、時刻t=1または時刻t=3のデータを参照することができる。
ストリームデータ格納部111には、音に関するストリームデータが格納される。音に関するストリームは、一定時間連続する所定の音源の音である。音に関するストリームデータは、一定時間連続する所定の音源の音について、時刻ごとの該音源の方向(位置)を示すデータである。具体的にストリームデータは、開始時刻、終了時刻、音源の識別(たとえば、人物名)、該所定の時間内のそれぞれの時刻における音源の方向に関するデータを含む。音源の方向は、たとえば、水平面および鉛直面内の角度で表現される。ストリームデータは、音の波形データへのリンクをさらに含む。たとえば、所定の時刻におけるストリームデータから該時刻に対応する音の波形データを参照することができる。
図3は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113の画像データに関するデータ構造を示す図である。
時系列データ格納部109には、それぞれの時刻における画像データ(動画情報)が格納される。画像データには、対象(たとえば人物)の方向のデータが付与される。人物の識別は、一般的な顔認識の技術(たとえば、特開2002-216129号公報)を使用して行う。それぞれの時刻におけるデータは、時間方向にリンクされており、たとえば、時刻t=2におけるデータから、時刻t=1または時刻t=3のデータを参照することができる。
ストリームデータ格納部111には、画像に関するストリームデータが格納される。画像に関するストリームは、一定時間連続する所定の対象の画像である。画像に関するストリームデータは、一定時間連続する所定の対象の画像について、時刻ごとの該対象の方向(位置)を示すデータである。具体的にストリームデータは、開始時刻、終了時刻、対象の識別(たとえば、人物名)、それぞれの時刻における対象の方向に関するデータを含む。対象の方向は、たとえば、水平面および鉛直面内の角度で表現される。ストリームデータは、画像データ(動画情報)へのリンクをさらに含む。たとえば、所定の時刻におけるストリームデータから該時刻に対応する画像データを参照することができる。
ストリームデータ格納部111において、音に関するストリームデータと画像に関するストリームデータが存在する。音に関するストリームデータにおける音源の方向と画像に関するストリームデータの対象の方向とが、所定の時間以上一致する場合、上記2個のストリームデータを統合し、統合ストリームデータとしてもよい。統合ストリームデータを使用すれば、たとえば、音源(話者)の音データ(話の内容)と画像データ(話者の表情)を関連付けて再生することもできる。
ストリームリスト格納部113におけるデータは、ストリームデータのリストに関するデータである。ストリームデータのリストは、概観表示用のものであり、間引いた時刻における総ストリーム数、各ストリームの音源の方向、各ストリームのタイプ(音に関するストリーム、画像に関するストリーム、統合ストリーム)、各ストリームデータへのリンクを含む。たとえば、所定の時刻におけるストリームデータのリストから該時刻に対応するストリームデータを参照することができる。図2および図3に示すように、ストリームリスト格納部113におけるデータに基づいて、音源または対象の識別(人物名)と時間との関数、または音源または対象の方向(角度)と時間との関数として、それぞれのストリームを、表示・入力部117に表示することができる。図2および図3において、3個のストリームデータが、実線、点線および一点鎖線によって示されている。
図4は、本実施形態による音データ記録再生装置のインタフェース機能を概念的に示した図である。本実施形態による音データ記録再生装置のインタフェースは、音データをわかりやすく再生することができるように、概観表示(Over first)、ズーム(Zoom)、フィルタ(Filter)および要求による詳細表示(Details on demand)のための機能を備える。
図4(a)は、概観表示の内容を示す図である。縦軸は音源の識別(人物名)を表し、横軸は時間を表す。この表示は、ストリームリスト格納部113におけるデータに基づいて行うことができる。図4(a)に示した概観表示によって、ユーザは、音データを時間に沿って概観することができる。
図4(b)は、ズームされた内容を示す図である。図4(b)は、具体的に、ズームされた時刻における音源およびその方向を示す。これらのデータは、ストリームデータ格納部111におけるストリームデータに含まれる。ユーザは、図4(a)に示した外観表示の横軸における特定の時刻を指定することにより、該時刻のデータを容易に取り出す(ズームする)ことができる。ストリームデータのリストは、各ストリームデータへのリンクを含むので、上記のデータの取り出しを容易に行うことができる。
図4(c)は、フィルタ処理の内容を示す図である。図4(c)は、具体的に、音源の範囲を指定することで、BGM(バックグラウンドミュージック)の音源を除去することを示す。
図4(d)は、詳細表示の内容を示す図である。ユーザは、たとえば、図4(b)に示された所定の時刻における音源(発話者)から所定の音源(発話者)を指定して、その音データ(発言内容)のみを再生することができる。
図5は、本発明の一実施形態による音データ記録再生方法を示す流れ図である。
図5におけるステップS010において、音データ取得部101が音データを取得し、画像データ取得部107が画像データを取得する。
図5におけるステップS020において、音源定位部103が、音源が存在する方向を特定する。
図5におけるステップS030において、音源分離部105が、音源ごとの音を分離する。
図5におけるステップS040において、音データおよび画像データが、時系列データ格納部109に格納される。時系列データ格納部は、音声認識部121によって生成された音声のテキスト情報をさらに格納してもよい。
図5におけるステップS050において、データ処理部115が、時系列データ格納部109に格納された音データおよび画像データに基づいて、ストリームデータを作成し、ストリームデータ格納部111に格納する。
図5におけるステップS060において、データ処理部115が、ストリームデータ格納部111に格納されたストリームデータに基づいて、ストリームデータのリストを作成し、ストリームリスト格納部113に格納する。
図5におけるステップS070において、表示・入力部117が、ストリームデータを時間軸とともに表示する(図4(a))。
図5におけるステップS080において、表示・入力部117が、表示された時間軸上においてユーザによって選択された時刻における、音源およびその方向を表示する(図4(b))。
図5におけるステップS090において、音データ再生部119が、ユーザによって選択された音源の音データを再生する(図4(d))。
ステップS070、S080およびステップS090に代えて、表示・入力部117が、ストリームデータにしたがって、たとえば、図4(b)に示すような画面によって、時間ごとに変化する音源およびその方向を、リアルタイムに、または、リアルタイムと同じか増加もしくは減少させた速度で表示するように構成してもよい。
図6は、表示・入力部117の表示画面の一例を示す図である。表示画面は、たとえば、操作パネル部、音源方向表示部およびストリーム表示部からなる。操作パネル部から、ユーザによる音データ記録再生装置に対する指示が入力される。表示部と入力部は、図6に示すように1筐体の1画面から構成してもよい。あるいは、1筐体の2画面または画面を使用するかまたは使用しない2筐体によって構成してもよい。
表示画面は、音声認識部121によって生成された音声のテキスト情報を表示するテキスト情報表示部(不図示)をさらに備えてもよい。表示・入力部117は、音データ再生部119が、ユーザによって選択された音源の音データ(音声)を再生する(図4(d))際に、音声のテキスト情報をテキスト情報表示部に表示する。テキスト情報表示部において、認識尤度の高い音声のテキスト情報を強調して濃い色で表示し、認識尤度の低い音声のテキスト情報を薄い色で表示するようにしてもよい。音声のテキスト情報を表示することにより、たとえば、耳の不自由な人も、記録された音データの中から所望の音データ(音声)を容易に再生し利用することができる。
図7は、表示画面のストリーム表示部の詳細を示す図である。ストリーム表示部は、ストリームリスト格納部113またはストリームデータ格納部111のデータに基づいて、ストリームデータを表示する。横軸は、時間であり、縦軸は水平面内における角度を示す。ストリーム表示部の表示内容は、図4(a)の表示と対応する。図7には、実線で示したストリームAおよび点線で示したストリームBのストリームデータが表示されている。ユーザは、時間軸(横軸)上の時刻を指定することにより、再生時刻を指定することができる。時系列データ格納部109のデータに基づいて、ストリーム表示部に、収録された音の波形データをあわせて表示してもよい。
図8は、表示画面の音源方向表示部の詳細を示す図である。音源方向表示部は、ストリームデータ格納部111のデータに基づいて、指定された再生時刻における音源およびその方向を表示する。表示画面は、たとえば、水平面を示し、中心に配置されたマイクの位置に対する音源の方向を示す。図8において、Aと付された線がストリームAの音源の方向を示し、Bと付された線がストリームBの音源の方向を示す。この表示は、図4(b)の表示と対応する。音源表示部の画面において、たとえばクリックなどの操作により角度範囲を限定してその範囲の音源の音データを再生するようにしてもよい。この操作は、図4(c)の操作と対応する。さらに、図8において、Aと付された線またはBと付された線をクリックすることによって、音源を指定しその音源の音データのみを再生するようにしてもよい。この操作は、図4(d)の操作と対応する。
本発明の実施形態の特徴を以下に説明する。
本発明の実施形態によれば、ストリームデータが、時系列の音データへのリンクに関するデータを含む。
本実施形態によれば、時系列の音データへのリンクにより、選択された所定の時刻における音データを容易に再生することができる。
本発明の実施形態によれば、ストリームデータのリストがストリームリスト格納部に格納される。
本実施形態によれば、音源ごとの音データを時間に沿って概観できるように表示するのが容易になる。
本発明の実施形態によれば、ストリームデータとともに時間軸を表示し、表示された時間軸上の点が選択されると、対応するストリームデータを前記ストリームデータ格納部から取り出し、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する。
本実施形態によれば、ユーザは、ストリームデータによって、記録された音データを時間に沿って概観することができ、ストリームデータとともに表示された時間軸上の点を選択することによって、選択された所定の時刻における音源およびその方向のデータを容易に取り出すことができる。
本発明の実施形態によれば、前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、該所定の音源の音データを前記時系列データ格納部から取り出し、該対応する音データを再生する。
本実施形態によれば、ユーザは、表示された所定の時刻における音源から所定の音源を選択することによって、該所定の音源の音データを容易に取り出すことができる。
本発明の一実施形態による音データ記録再生装置の構成を示す図である。 時系列データ格納部、ストリームデータ格納部およびストリームリスト格納部の音データに関するデータ構造を示す図である。 時系列データ格納部、ストリームデータ格納部およびストリームリスト格納部の画像データに関するデータ構造を示す図である。 本実施形態による音データ記録再生装置のインタフェース機能を概念的に示した図である。 本発明の一実施形態による音データ記録再生方法を示す流れ図である。 表示・入力部の表示画面の一例を示す図である。 表示画面のストリーム表示部の詳細を示す図である。 表示画面の音源方向表示部の詳細を示す図である。
符号の説明
101…音データ取得部、103…音源定位部、105…音源分離部、109…時系列データ格納部、111…ストリームデータ格納部、113…ストリームリスト格納部、115…データ処理部

Claims (14)

  1. 音データを取得する音データ取得部と、
    音源が存在する方向を特定する音源定位部と、
    音源ごとの音データを分離する音源分離部と、
    音源ごとの時系列の音データを格納する時系列データ格納部と、
    所定の時間において、所定の音源の方向を示す、音に関するストリームデータを格納するストリームデータ格納部と、
    前記時系列データ格納部および前記ストリームデータ格納部に接続され、データの処理を行うデータ処理部と、
    音データを再生する音データ再生部と、
    ストリームデータを表示する表示部と、を備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生する音データ記録再生装置。
  2. ストリームデータのリストを格納するストリームリスト格納部をさらに備える請求項1に記載の音データ記録再生装置。
  3. ストリームデータが、時系列の音データへのリンクに関するデータを含む請求項1または2に記載の音データ記録再生装置。
  4. 音データから音声を認識し音声のテキスト情報を生成する音声認識部をさらに備え、前記表示部が前記音声のテキスト情報をさらに表示する請求項1から3のいずれか1項に記載の音データ記録再生装置。
  5. 前記表示部が、ストリームデータとともに時間軸を表示し、前記表示部によって表示された時間軸上の点が選択されると、前記データ処理部が、対応するストリームデータを前記ストリームデータ格納部から取り出し、前記表示部が、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する請求項1から4のいずれか1項に記載の音データ記録再生装置。
  6. 前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、前記データ処理部が、該所定の音源の音データを前記時系列データ格納部から取り出し、前記音データ再生部が、該対応する音データを再生する請求項5に記載の音データ記録再生装置。
  7. 画像データを取得する画像データ取得部をさらに備え、前記時系列データ格納部が、時系列の画像データをさらに格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む請求項1から6のいずれかに記載の音データ記録再生装置。
  8. 音データ記録再生装置によって音データを再生する方法であって、
    音データを取得し、
    音源が存在する方向を特定し、
    音源ごとの音データを分離し、
    音源ごとの時系列の音データを、時系列データ格納部に格納し、
    所定の時間において、所定の音源の方向を示す、音に関するストリームデータを作成し、ストリームデータ格納部に格納し、
    ストリームデータを表示し、
    表示されたストリームデータが選択されると、選択されたストリームデータに関する音データを再生する、音データ記録再生方法。
  9. 音に関するストリームデータを作成し、ストリームデータ格納部に格納した後に、ストリームデータのリストを作成し、ストリームリスト格納部に格納する、請求項8に記載の音データ記録再生方法。
  10. ストリームデータが、時系列の音データへのリンクに関するデータを含む請求項8または9に記載の音データ記録再生方法。
  11. 音データから音声を認識し音声のテキスト情報を生成し、前記音声のテキスト情報を表示する請求項8から10のいずれか1項に記載の音データ記録再生方法。
  12. ストリームデータとともに時間軸を表示し、表示された時間軸上の点が選択されると、対応するストリームデータを前記ストリームデータ格納部から取り出し、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する請求項8から11のいずれか1項に記載の音データ記録再生方法。
  13. 前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、該所定の音源の音データを前記時系列データ格納部から取り出し、該対応する音データを再生する請求項12に記載の音データ記録再生方法。
  14. 画像データを取得し、時系列の画像データを前記時系列データ格納部に格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む請求項8から13のいずれかに記載の音データ記録再生方法。
JP2008025678A 2007-02-14 2008-02-05 音データ記録再生装置および音データ記録再生方法 Expired - Fee Related JP5383056B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US90108107A 2007-02-14 2007-02-14
US60/901,081 2007-02-14

Publications (2)

Publication Number Publication Date
JP2008197650A true JP2008197650A (ja) 2008-08-28
JP5383056B2 JP5383056B2 (ja) 2014-01-08

Family

ID=39756590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008025678A Expired - Fee Related JP5383056B2 (ja) 2007-02-14 2008-02-05 音データ記録再生装置および音データ記録再生方法

Country Status (1)

Country Link
JP (1) JP5383056B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145524A (ja) * 2008-12-16 2010-07-01 Casio Hitachi Mobile Communications Co Ltd 記録装置、再生装置及びプログラム
JP2010231089A (ja) * 2009-03-27 2010-10-14 Yamaha Corp 録音装置および録音再生装置
US8886530B2 (en) 2011-06-24 2014-11-11 Honda Motor Co., Ltd. Displaying text and direction of an utterance combined with an image of a sound source
JPWO2014097748A1 (ja) * 2012-12-18 2017-01-12 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
US9664772B2 (en) 2013-08-30 2017-05-30 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
US9723402B2 (en) 2014-08-27 2017-08-01 Samsung Electronics Co., Ltd. Audio data processing method and electronic device supporting the same

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297624A (ja) * 1995-02-28 1996-11-12 Toshiba Corp 電子会議システム
JPH11143460A (ja) * 1997-11-12 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる旋律の分離方法、分離抽出方法および分離除去方法
JP2001056700A (ja) * 1999-08-20 2001-02-27 Olympus Optical Co Ltd 音声記録再生装置
JP2001134613A (ja) * 1999-08-26 2001-05-18 Sony Corp 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
JP2004185514A (ja) * 2002-12-05 2004-07-02 Ricoh Co Ltd 音声記録装置、音声記録方法、音声記録プログラム及び記録媒体
JP2005043628A (ja) * 2003-07-28 2005-02-17 Toshiba Corp 対話記録装置および対話記録方法
JP2005295015A (ja) * 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
JP2006123161A (ja) * 2004-09-30 2006-05-18 Samsung Electronics Co Ltd 位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法
WO2006137732A1 (en) * 2005-06-24 2006-12-28 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno System and method for extracting acoustic signals from signals emitted by a plurality of sources
JP2007329702A (ja) * 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297624A (ja) * 1995-02-28 1996-11-12 Toshiba Corp 電子会議システム
JPH11143460A (ja) * 1997-11-12 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる旋律の分離方法、分離抽出方法および分離除去方法
JP2001056700A (ja) * 1999-08-20 2001-02-27 Olympus Optical Co Ltd 音声記録再生装置
JP2001134613A (ja) * 1999-08-26 2001-05-18 Sony Corp 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
JP2004185514A (ja) * 2002-12-05 2004-07-02 Ricoh Co Ltd 音声記録装置、音声記録方法、音声記録プログラム及び記録媒体
JP2005043628A (ja) * 2003-07-28 2005-02-17 Toshiba Corp 対話記録装置および対話記録方法
JP2005295015A (ja) * 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
JP2006123161A (ja) * 2004-09-30 2006-05-18 Samsung Electronics Co Ltd 位置把握、追跡および分離のためのオーディオビデオセンサー融合装置および融合方法
WO2006137732A1 (en) * 2005-06-24 2006-12-28 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno System and method for extracting acoustic signals from signals emitted by a plurality of sources
JP2007329702A (ja) * 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010145524A (ja) * 2008-12-16 2010-07-01 Casio Hitachi Mobile Communications Co Ltd 記録装置、再生装置及びプログラム
JP2010231089A (ja) * 2009-03-27 2010-10-14 Yamaha Corp 録音装置および録音再生装置
US8886530B2 (en) 2011-06-24 2014-11-11 Honda Motor Co., Ltd. Displaying text and direction of an utterance combined with an image of a sound source
JPWO2014097748A1 (ja) * 2012-12-18 2017-01-12 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
US9664772B2 (en) 2013-08-30 2017-05-30 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
US9723402B2 (en) 2014-08-27 2017-08-01 Samsung Electronics Co., Ltd. Audio data processing method and electronic device supporting the same

Also Published As

Publication number Publication date
JP5383056B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US20220159403A1 (en) System and method for assisting selective hearing
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
Tan et al. Audio-visual speech separation and dereverberation with a two-stage multimodal network
JP6841229B2 (ja) 音声処理装置および方法、並びにプログラム
KR101238586B1 (ko) 녹화된 미팅 타임라인에서 사용하기 위한 자동 얼굴 추출
JP5383056B2 (ja) 音データ記録再生装置および音データ記録再生方法
Zmolikova et al. Neural target speech extraction: An overview
US20170188173A1 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
JP2007221300A (ja) ロボット及びロボットの制御方法
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
CN112637529B (zh) 一种录像处理方法、装置、存储介质及电子设备
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
US20210281739A1 (en) Information processing device and method, and program
JP2020520576A5 (ja)
JP2020520576A (ja) 空間オーディオの提示のための装置および関連する方法
JP2005274707A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN113099031B (zh) 声音录制方法及相关设备
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
Navarathna et al. Multiple cameras for audio-visual speech recognition in an automotive environment
EP2503545A1 (en) Arrangement and method relating to audio recognition
JP4490076B2 (ja) 物体追跡方法、物体追跡装置、プログラム、および、記録媒体
CN105979469B (zh) 一种录音处理方法及终端
EP3742185B1 (en) An apparatus and associated methods for capture of spatial audio
CN112487246A (zh) 一种多人视频中发言人的识别方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131001

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5383056

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees