JP2008197650A

JP2008197650A - 音データ記録再生装置および音データ記録再生方法

Info

Publication number: JP2008197650A
Application number: JP2008025678A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Yuji Hasegawa; 雄二長谷川; Koji Tsujino; 広司辻野; Hiroshi Okuno; 博奥乃
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2007-02-14
Filing date: 2008-02-05
Publication date: 2008-08-28
Anticipated expiration: 2028-02-05
Also published as: JP5383056B2

Abstract

【課題】音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置を提供する。
【解決手段】本装置は、音データ取得部（１０１）と、音源定位部（１０３）と、音源分離部（１０５）と、時系列データ格納部（１０９）と、ストリームデータ格納部（１１１）と、前記２個の格納部に接続され、データの処理を行うデータ処理部（１１５）と、を備える。本装置は、音データを再生する音データ再生部（１１９）と、ストリームデータを表示する表示部（１１７）と、をさらに備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生するように構成される。
【選択図】図１

Description

本発明は、記録された音データの中から所望の音データを容易に再生することのできる音データ記録再生装置および音データ記録再生方法に関する。

記録された音データの中から所望の音データを再生することは、記録された画像データの中から所望の画像データを再生することに比較して困難である。

その第１の理由は、音データを時間に沿って概観するのが困難だからである。画像データの場合、データを早送りすること、あるいは、特定の時間間隔でデータをピックアップし同時に表示することで、所望の画像データを比較的容易に特定し、再生することができる。画像を早送りしても画像の色調などが変化することはなく、画像のコマ数を減らしても大きな認識誤りは発生しない。これに対して、音データの場合、データを早送りすると認識するのが困難となる。また、ピックアップした短時間の音データは、再生しても認識することができない。

第２の理由は、音源の弁別が困難であるからである。画像データの場合、画面上で二つの物体が重なっていても前面の物体は正しく認識することができ、二つの物体を弁別することができる。これに対して、音データの場合、複数話者の発言が重なっている場合などに、発言内容を理解することは困難である。

これまでに、たとえば、音源の位置を推定し、画像上に推定された音源の位置を表示するシステムが開発されている（たとえば、特許文献１）。

しかし、音源を弁別するとともに、音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置および音データ記録再生方法は開発されていない。
特開平２００３−１１１１８３号公報

したがって、記録された音データの中から所望の音データを容易に再生することができるように、音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置および音データ記録再生方法に対するニーズがある。

本発明による音データ記録再生装置は、音データを取得する音データ取得部と、音源が存在する方向を特定する音源定位部と、音源ごとの音データを分離する音源分離部と、を備える。本装置は、音源ごとの時系列の音データを格納する時系列データ格納部と、所定の時間において、所定の音源の方向を示す、音に関するストリームデータを格納するストリームデータ格納部と、前記時系列データ格納部および前記ストリームデータ格納部に接続され、データの処理を行うデータ処理部と、をさらに備える。本装置は、音データを再生する音データ再生部と、ストリームデータを表示する表示部と、をさらに備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生するように構成される。

本発明による音データ記録再生装置によって音データを再生する方法は、音データを取得し、音源が存在する方向を特定し、音源ごとの音データを分離する。さらに、音源ごとの時系列の音データを、時系列データ格納部に格納し、所定の時間において、所定の音源の方向を示す、音に関するストリームデータを作成し、ストリームデータ格納部に格納する。さらに、ストリームデータを表示し、表示されたストリームデータが選択されると、選択されたストリームデータに関する音データを再生する。

本発明によれば、所定の時間において、所定の音源の方向を示す、音に関するストリームデータが表示されるので、音源ごとの音データを時間に沿って概観することができ、記録された音データの中から所望の音データを容易に再生することができる。

本発明の実施形態によれば、音データから音声を認識し音声のテキスト情報を生成し、前記音声のテキスト情報を表示する。

本実施形態によれば、たとえば、耳の不自由な人も、記録された音データの中から所望の音データ（音声）を容易に再生し利用することができる。

本発明の実施形態によれば、画像データを取得し、時系列の画像データを前記時系列データ格納部に格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む。

本実施形態によれば、音源（話者）の音データ（話の内容）と画像データ（話者の表情）を関連付けて再生することもできる。

図１は、本発明の一実施形態による音データ記録再生装置の構成を示す図である。

音データ記録再生装置において、音データ取得部１０１が音データを取得する。取得された音データは、音源定位部１０３に送られ、音源定位部１０３は、音源が存在する方向を特定する。また、取得された音データは、音源分離部１０５に送られ、音源分離部１０５は、音源ごとの音を分離する。また、画像データ取得部１０７が画像データを取得する。

音データ記録再生装置は、時系列データ格納部１０９、ストリームデータ格納部１１１およびストリームリスト格納部１１３の３種類のメモリを備える。これらのメモリのデータ構造については後で説明する。

音データ記録再生装置は、時系列データ格納部１０９、ストリームデータ格納部１１１およびストリームリスト格納部１１３に接続されたデータ処理部１１５ならびに時系列データ格納部１０９およびデータ処理部１１５に接続された音声認識部１２１を備える。データ処理部１１５は、表示・入力部１１７および音データ再生部１１９にさらに接続されている。データ処理部１１５は、上記３種類のメモリに格納されたデータを使用して処理を行い、表示・入力部１１７が音データを概観的に表示し、表示・入力部１１７からのオペレータ入力にしたがって、音データ再生部１１９が所望の音データを再生するように構成されている。音声認識部１２１は、データ処理部１１５からの指示により時系列データ格納部１０９に格納された音データから音声を認識し、音声のテキスト情報を生成し、時系列データ格納部１０９に格納する。表示・入力部１１７は、表示部および入力部の別個の筐体であってもよい。

音データ取得部１０１は、一例として、８個のマイクと、マイクが採取した音データを処理する音響信号処理用プロセッサとを含む。音響信号処理用プロセッサは、たとえば、１６チャネルの音データを所定の周波数で採取することができる。８個のマイクは、７個の通常のマイクと１個のサラウンド用マイクからなる。７個の通常のマイクは、球状の形をした台に取り付けられており、その台は、それぞれのマイクが設置されている方向からの音を採取しやすいように設計されている。

本発明による音データ記録再生装置は、たとえば、会議室など所定の位置で音データを取得し再生する場合に使用してもよい。その場合に、音データ取得部１０１は、該所定の位置に配置される。他の実施形態において、本発明による音データ記録再生装置は、移動体における音データを取得し再生する場合に使用してもよい。その場合に、音データ取得部１０１は、該移動体に取り付けられる。移動体には、一例として、車両、監視ロボットおよび人間などが含まれる。たとえば、ＧＰＳ（Global Positioning System、全地球測位システム）と組み合わせて、移動体の位置において音源の方向を認識することができる。

音源定位部１０３は、音源が存在する方向を特定するために、たとえば、Steered beam formerによる定位を行い、カルマンフィルタにより精度を上げる（Masamitsu Murase, Shun'ichi Yamamoto, Jean-Marc Valin, Kazuhiro Nakadai, Kentaro Yamada, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: Multiple Moving Speaker Tracking by
Microphone Array on Mobile Robot, Proceedings of the Ninth European Conference
on Speech Communication and Technology (Interspeech-2005), 249-252, Lisboa, Sep. 2005 p.10) 。Steered beam formerによる定位は、以下のステップにより、マイクペア間での相互相関に基づいた定位を行う。

１）マイクの座標を定義した座標系の原点を中心とする球を考え、その表面に２５６２個の点を等間隔に配置する。
２）各点に対して、全てのマイクのペアについて相互相関の和を求める。この和が最大となる点の方向が音源の方向であると推定する。
３）推定された相互相関の値を全て０とする。
４）２）および３）を繰り返し、全ての音源方向を推定する。これにより、推定した音源方向を時間軸上で走査し、方向の近いものを１つの音源としてラベル付けする。

カルマンフィルタは、移動音源のような動的に変化するシステムを観測する場合に、過去の観測値から現在及び未来の内部状態を予測するためのものである。たとえば、過去の話者の状態から現在の話者の状態を推定する。これにより、単一の話者が移動する場合に、単一話者へ確実に同一のラベルを付与することができる。

音源分離部１０５は、音源ごとの音データを分離するために、たとえば、Geometric
Source Separation(GSS)による音源分離を行いPost-Filterによって雑音抑圧処理を行う
（J.-M. Valin, J. Rouat, F. Michaud: Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS), pp.2123-2128, 2004.）。

周波数kにおいて、音響信号(k)から観測信号x(k)への変換は線形であると仮定して、音源信号から観測信号への伝達関数を式（１）によって表す。

ここでA(k)は変換を表す行列であり，n(k)はノイズである。これより推定した音源信号 y(k)は式（２）で表される。

x(k)は観測信号であるため、音源信号を求めることは変換行列W(k)を求める問題に帰着する。異なる音源間信号の独立性を仮定することにより式（３）が、音源とマイクの幾何学的制限により式（４）が得られる。

これらの式（３）および（４）は制限が強いため、Wの近似解を確率的勾配法により求める。

Post-Filterによる雑音抑圧は、GSSによる分離音から雑音を取り除くものである。この手法では雑音を定常性雑音と非定常性雑音に分けて推定し除去する。定常性雑音はMCRA (Minima Controlled Recursive Average)により計算する。非定常性雑音は、GSSの過程で別のチャンネルから漏洩したものと仮定し、適応的に干渉成分の推定を行う。

時系列データ格納部１０９、ストリームデータ格納部１１１およびストリームリスト格納部１１３のデータ構造について以下に説明する。

図２は、時系列データ格納部１０９、ストリームデータ格納部１１１およびストリームリスト格納部１１３の音データに関するデータ構造を示す図である。

時系列データ格納部１０９には、それぞれの時刻における音の波形データが格納される。音の波形データは、分離されていない波形データと音源ごとに分離された波形データを含む。音源ごとに分離されたデータには、音源の方向のデータが付与される。それぞれの時刻におけるデータは、時間方向にリンクされており、たとえば、時刻ｔ＝２におけるデータから、時刻ｔ＝１または時刻ｔ＝３のデータを参照することができる。

ストリームデータ格納部１１１には、音に関するストリームデータが格納される。音に関するストリームは、一定時間連続する所定の音源の音である。音に関するストリームデータは、一定時間連続する所定の音源の音について、時刻ごとの該音源の方向（位置）を示すデータである。具体的にストリームデータは、開始時刻、終了時刻、音源の識別（たとえば、人物名）、該所定の時間内のそれぞれの時刻における音源の方向に関するデータを含む。音源の方向は、たとえば、水平面および鉛直面内の角度で表現される。ストリームデータは、音の波形データへのリンクをさらに含む。たとえば、所定の時刻におけるストリームデータから該時刻に対応する音の波形データを参照することができる。

図３は、時系列データ格納部１０９、ストリームデータ格納部１１１およびストリームリスト格納部１１３の画像データに関するデータ構造を示す図である。

時系列データ格納部１０９には、それぞれの時刻における画像データ（動画情報）が格納される。画像データには、対象（たとえば人物）の方向のデータが付与される。人物の識別は、一般的な顔認識の技術（たとえば、特開２００２-２１６１２９号公報）を使用して行う。それぞれの時刻におけるデータは、時間方向にリンクされており、たとえば、時刻ｔ＝２におけるデータから、時刻ｔ＝１または時刻ｔ＝３のデータを参照することができる。

ストリームデータ格納部１１１には、画像に関するストリームデータが格納される。画像に関するストリームは、一定時間連続する所定の対象の画像である。画像に関するストリームデータは、一定時間連続する所定の対象の画像について、時刻ごとの該対象の方向（位置）を示すデータである。具体的にストリームデータは、開始時刻、終了時刻、対象の識別（たとえば、人物名）、それぞれの時刻における対象の方向に関するデータを含む。対象の方向は、たとえば、水平面および鉛直面内の角度で表現される。ストリームデータは、画像データ（動画情報）へのリンクをさらに含む。たとえば、所定の時刻におけるストリームデータから該時刻に対応する画像データを参照することができる。

ストリームデータ格納部１１１において、音に関するストリームデータと画像に関するストリームデータが存在する。音に関するストリームデータにおける音源の方向と画像に関するストリームデータの対象の方向とが、所定の時間以上一致する場合、上記２個のストリームデータを統合し、統合ストリームデータとしてもよい。統合ストリームデータを使用すれば、たとえば、音源（話者）の音データ（話の内容）と画像データ（話者の表情）を関連付けて再生することもできる。

ストリームリスト格納部１１３におけるデータは、ストリームデータのリストに関するデータである。ストリームデータのリストは、概観表示用のものであり、間引いた時刻における総ストリーム数、各ストリームの音源の方向、各ストリームのタイプ（音に関するストリーム、画像に関するストリーム、統合ストリーム）、各ストリームデータへのリンクを含む。たとえば、所定の時刻におけるストリームデータのリストから該時刻に対応するストリームデータを参照することができる。図２および図３に示すように、ストリームリスト格納部１１３におけるデータに基づいて、音源または対象の識別（人物名）と時間との関数、または音源または対象の方向（角度）と時間との関数として、それぞれのストリームを、表示・入力部１１７に表示することができる。図２および図３において、３個のストリームデータが、実線、点線および一点鎖線によって示されている。

図４は、本実施形態による音データ記録再生装置のインタフェース機能を概念的に示した図である。本実施形態による音データ記録再生装置のインタフェースは、音データをわかりやすく再生することができるように、概観表示（Over first）、ズーム（Zoom）、フィルタ（Filter）および要求による詳細表示（Details on demand）のための機能を備える。

図４（ａ）は、概観表示の内容を示す図である。縦軸は音源の識別（人物名）を表し、横軸は時間を表す。この表示は、ストリームリスト格納部１１３におけるデータに基づいて行うことができる。図４（ａ）に示した概観表示によって、ユーザは、音データを時間に沿って概観することができる。

図４（ｂ）は、ズームされた内容を示す図である。図４（ｂ）は、具体的に、ズームされた時刻における音源およびその方向を示す。これらのデータは、ストリームデータ格納部１１１におけるストリームデータに含まれる。ユーザは、図４（ａ）に示した外観表示の横軸における特定の時刻を指定することにより、該時刻のデータを容易に取り出す（ズームする）ことができる。ストリームデータのリストは、各ストリームデータへのリンクを含むので、上記のデータの取り出しを容易に行うことができる。

図４（ｃ）は、フィルタ処理の内容を示す図である。図４（ｃ）は、具体的に、音源の範囲を指定することで、ＢＧＭ(バックグラウンドミュージック)の音源を除去することを示す。

図４（ｄ）は、詳細表示の内容を示す図である。ユーザは、たとえば、図４（ｂ）に示された所定の時刻における音源（発話者）から所定の音源（発話者）を指定して、その音データ（発言内容）のみを再生することができる。

図５は、本発明の一実施形態による音データ記録再生方法を示す流れ図である。

図５におけるステップＳ０１０において、音データ取得部１０１が音データを取得し、画像データ取得部１０７が画像データを取得する。

図５におけるステップＳ０２０において、音源定位部１０３が、音源が存在する方向を特定する。

図５におけるステップＳ０３０において、音源分離部１０５が、音源ごとの音を分離する。

図５におけるステップＳ０４０において、音データおよび画像データが、時系列データ格納部１０９に格納される。時系列データ格納部は、音声認識部１２１によって生成された音声のテキスト情報をさらに格納してもよい。

図５におけるステップＳ０５０において、データ処理部１１５が、時系列データ格納部１０９に格納された音データおよび画像データに基づいて、ストリームデータを作成し、ストリームデータ格納部１１１に格納する。

図５におけるステップＳ０６０において、データ処理部１１５が、ストリームデータ格納部１１１に格納されたストリームデータに基づいて、ストリームデータのリストを作成し、ストリームリスト格納部１１３に格納する。

図５におけるステップＳ０７０において、表示・入力部１１７が、ストリームデータを時間軸とともに表示する（図４（ａ））。

図５におけるステップＳ０８０において、表示・入力部１１７が、表示された時間軸上においてユーザによって選択された時刻における、音源およびその方向を表示する（図４（ｂ））。

図５におけるステップＳ０９０において、音データ再生部１１９が、ユーザによって選択された音源の音データを再生する（図４（ｄ））。

ステップＳ０７０、Ｓ０８０およびステップＳ０９０に代えて、表示・入力部１１７が、ストリームデータにしたがって、たとえば、図４（ｂ）に示すような画面によって、時間ごとに変化する音源およびその方向を、リアルタイムに、または、リアルタイムと同じか増加もしくは減少させた速度で表示するように構成してもよい。

図６は、表示・入力部１１７の表示画面の一例を示す図である。表示画面は、たとえば、操作パネル部、音源方向表示部およびストリーム表示部からなる。操作パネル部から、ユーザによる音データ記録再生装置に対する指示が入力される。表示部と入力部は、図６に示すように１筐体の１画面から構成してもよい。あるいは、１筐体の２画面または画面を使用するかまたは使用しない２筐体によって構成してもよい。

表示画面は、音声認識部１２１によって生成された音声のテキスト情報を表示するテキスト情報表示部（不図示）をさらに備えてもよい。表示・入力部１１７は、音データ再生部１１９が、ユーザによって選択された音源の音データ（音声）を再生する（図４（ｄ））際に、音声のテキスト情報をテキスト情報表示部に表示する。テキスト情報表示部において、認識尤度の高い音声のテキスト情報を強調して濃い色で表示し、認識尤度の低い音声のテキスト情報を薄い色で表示するようにしてもよい。音声のテキスト情報を表示することにより、たとえば、耳の不自由な人も、記録された音データの中から所望の音データ（音声）を容易に再生し利用することができる。

図７は、表示画面のストリーム表示部の詳細を示す図である。ストリーム表示部は、ストリームリスト格納部１１３またはストリームデータ格納部１１１のデータに基づいて、ストリームデータを表示する。横軸は、時間であり、縦軸は水平面内における角度を示す。ストリーム表示部の表示内容は、図４（ａ）の表示と対応する。図７には、実線で示したストリームＡおよび点線で示したストリームＢのストリームデータが表示されている。ユーザは、時間軸（横軸）上の時刻を指定することにより、再生時刻を指定することができる。時系列データ格納部１０９のデータに基づいて、ストリーム表示部に、収録された音の波形データをあわせて表示してもよい。

図８は、表示画面の音源方向表示部の詳細を示す図である。音源方向表示部は、ストリームデータ格納部１１１のデータに基づいて、指定された再生時刻における音源およびその方向を表示する。表示画面は、たとえば、水平面を示し、中心に配置されたマイクの位置に対する音源の方向を示す。図８において、Ａと付された線がストリームＡの音源の方向を示し、Ｂと付された線がストリームＢの音源の方向を示す。この表示は、図４（ｂ）の表示と対応する。音源表示部の画面において、たとえばクリックなどの操作により角度範囲を限定してその範囲の音源の音データを再生するようにしてもよい。この操作は、図４（ｃ）の操作と対応する。さらに、図８において、Ａと付された線またはＢと付された線をクリックすることによって、音源を指定しその音源の音データのみを再生するようにしてもよい。この操作は、図４（ｄ）の操作と対応する。

本発明の実施形態の特徴を以下に説明する。

本発明の実施形態によれば、ストリームデータが、時系列の音データへのリンクに関するデータを含む。

本実施形態によれば、時系列の音データへのリンクにより、選択された所定の時刻における音データを容易に再生することができる。

本発明の実施形態によれば、ストリームデータのリストがストリームリスト格納部に格納される。

本実施形態によれば、音源ごとの音データを時間に沿って概観できるように表示するのが容易になる。

本発明の実施形態によれば、ストリームデータとともに時間軸を表示し、表示された時間軸上の点が選択されると、対応するストリームデータを前記ストリームデータ格納部から取り出し、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する。

本実施形態によれば、ユーザは、ストリームデータによって、記録された音データを時間に沿って概観することができ、ストリームデータとともに表示された時間軸上の点を選択することによって、選択された所定の時刻における音源およびその方向のデータを容易に取り出すことができる。

本発明の実施形態によれば、前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、該所定の音源の音データを前記時系列データ格納部から取り出し、該対応する音データを再生する。

本実施形態によれば、ユーザは、表示された所定の時刻における音源から所定の音源を選択することによって、該所定の音源の音データを容易に取り出すことができる。

本発明の一実施形態による音データ記録再生装置の構成を示す図である。時系列データ格納部、ストリームデータ格納部およびストリームリスト格納部の音データに関するデータ構造を示す図である。時系列データ格納部、ストリームデータ格納部およびストリームリスト格納部の画像データに関するデータ構造を示す図である。本実施形態による音データ記録再生装置のインタフェース機能を概念的に示した図である。本発明の一実施形態による音データ記録再生方法を示す流れ図である。表示・入力部の表示画面の一例を示す図である。表示画面のストリーム表示部の詳細を示す図である。表示画面の音源方向表示部の詳細を示す図である。

符号の説明

１０１…音データ取得部、１０３…音源定位部、１０５…音源分離部、１０９…時系列データ格納部、１１１…ストリームデータ格納部、１１３…ストリームリスト格納部、１１５…データ処理部

Claims

音データを取得する音データ取得部と、
音源が存在する方向を特定する音源定位部と、
音源ごとの音データを分離する音源分離部と、
音源ごとの時系列の音データを格納する時系列データ格納部と、
所定の時間において、所定の音源の方向を示す、音に関するストリームデータを格納するストリームデータ格納部と、
前記時系列データ格納部および前記ストリームデータ格納部に接続され、データの処理を行うデータ処理部と、
音データを再生する音データ再生部と、
ストリームデータを表示する表示部と、を備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生する音データ記録再生装置。
ストリームデータのリストを格納するストリームリスト格納部をさらに備える請求項１に記載の音データ記録再生装置。
ストリームデータが、時系列の音データへのリンクに関するデータを含む請求項１または２に記載の音データ記録再生装置。
音データから音声を認識し音声のテキスト情報を生成する音声認識部をさらに備え、前記表示部が前記音声のテキスト情報をさらに表示する請求項１から３のいずれか１項に記載の音データ記録再生装置。
前記表示部が、ストリームデータとともに時間軸を表示し、前記表示部によって表示された時間軸上の点が選択されると、前記データ処理部が、対応するストリームデータを前記ストリームデータ格納部から取り出し、前記表示部が、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する請求項１から４のいずれか１項に記載の音データ記録再生装置。
前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、前記データ処理部が、該所定の音源の音データを前記時系列データ格納部から取り出し、前記音データ再生部が、該対応する音データを再生する請求項５に記載の音データ記録再生装置。
画像データを取得する画像データ取得部をさらに備え、前記時系列データ格納部が、時系列の画像データをさらに格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む請求項１から６のいずれかに記載の音データ記録再生装置。
音データ記録再生装置によって音データを再生する方法であって、
音データを取得し、
音源が存在する方向を特定し、
音源ごとの音データを分離し、
音源ごとの時系列の音データを、時系列データ格納部に格納し、
所定の時間において、所定の音源の方向を示す、音に関するストリームデータを作成し、ストリームデータ格納部に格納し、
ストリームデータを表示し、
表示されたストリームデータが選択されると、選択されたストリームデータに関する音データを再生する、音データ記録再生方法。
音に関するストリームデータを作成し、ストリームデータ格納部に格納した後に、ストリームデータのリストを作成し、ストリームリスト格納部に格納する、請求項８に記載の音データ記録再生方法。
ストリームデータが、時系列の音データへのリンクに関するデータを含む請求項８または９に記載の音データ記録再生方法。
音データから音声を認識し音声のテキスト情報を生成し、前記音声のテキスト情報を表示する請求項８から１０のいずれか１項に記載の音データ記録再生方法。
ストリームデータとともに時間軸を表示し、表示された時間軸上の点が選択されると、対応するストリームデータを前記ストリームデータ格納部から取り出し、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する請求項８から１１のいずれか１項に記載の音データ記録再生方法。
前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、該所定の音源の音データを前記時系列データ格納部から取り出し、該対応する音データを再生する請求項１２に記載の音データ記録再生方法。
画像データを取得し、時系列の画像データを前記時系列データ格納部に格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む請求項８から１３のいずれかに記載の音データ記録再生方法。