JP5383056B2 - Sound data recording / reproducing apparatus and sound data recording / reproducing method - Google Patents
Sound data recording / reproducing apparatus and sound data recording / reproducing method Download PDFInfo
- Publication number
- JP5383056B2 JP5383056B2 JP2008025678A JP2008025678A JP5383056B2 JP 5383056 B2 JP5383056 B2 JP 5383056B2 JP 2008025678 A JP2008025678 A JP 2008025678A JP 2008025678 A JP2008025678 A JP 2008025678A JP 5383056 B2 JP5383056 B2 JP 5383056B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sound
- time
- sound source
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、記録された音データの中から所望の音データを容易に再生することのできる音データ記録再生装置および音データ記録再生方法に関する。 The present invention relates to a sound data recording / reproducing apparatus and a sound data recording / reproducing method capable of easily reproducing desired sound data from recorded sound data.
記録された音データの中から所望の音データを再生することは、記録された画像データの中から所望の画像データを再生することに比較して困難である。 It is more difficult to reproduce desired sound data from recorded sound data than to reproduce desired image data from recorded image data.
その第1の理由は、音データを時間に沿って概観するのが困難だからである。画像データの場合、データを早送りすること、あるいは、特定の時間間隔でデータをピックアップし同時に表示することで、所望の画像データを比較的容易に特定し、再生することができる。画像を早送りしても画像の色調などが変化することはなく、画像のコマ数を減らしても大きな認識誤りは発生しない。これに対して、音データの場合、データを早送りすると認識するのが困難となる。また、ピックアップした短時間の音データは、再生しても認識することができない。 The first reason is that it is difficult to overview sound data over time. In the case of image data, desired image data can be identified and reproduced relatively easily by fast-forwarding the data or by picking up and displaying the data at specific time intervals. Even if the image is fast-forwarded, the color tone of the image does not change, and a large recognition error does not occur even if the number of frames of the image is reduced. On the other hand, in the case of sound data, it becomes difficult to recognize if the data is fast-forwarded. Also, the picked-up short-time sound data cannot be recognized even if it is played back.
第2の理由は、音源の弁別が困難であるからである。画像データの場合、画面上で二つの物体が重なっていても前面の物体は正しく認識することができ、二つの物体を弁別することができる。これに対して、音データの場合、複数話者の発言が重なっている場合などに、発言内容を理解することは困難である。 The second reason is that it is difficult to distinguish sound sources. In the case of image data, even if two objects overlap on the screen, the front object can be recognized correctly, and the two objects can be discriminated. On the other hand, in the case of sound data, it is difficult to understand the content of the speech when the speech of a plurality of speakers overlaps.
これまでに、たとえば、音源の位置を推定し、画像上に推定された音源の位置を表示するシステムが開発されている(たとえば、特許文献1)。 So far, for example, a system for estimating the position of a sound source and displaying the position of the estimated sound source on an image has been developed (for example, Patent Document 1).
しかし、音源を弁別するとともに、音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置および音データ記録再生方法は開発されていない。
したがって、記録された音データの中から所望の音データを容易に再生することができるように、音源ごとの音データを時間に沿って概観することができるように構成された音データ記録再生装置および音データ記録再生方法に対するニーズがある。 Therefore, a sound data recording / reproducing apparatus configured so that sound data for each sound source can be overviewed over time so that desired sound data can be easily reproduced from the recorded sound data. There is also a need for a method for recording and reproducing sound data.
本発明による音データ記録再生装置は、音データを取得する音データ取得部と、音源が存在する方向を特定する音源定位部と、音源ごとの音データを分離する音源分離部と、を備える。本装置は、音源ごとの時系列の音データを格納する時系列データ格納部と、所定の時間において、所定の音源の方向を示す、音に関するストリームデータを格納するストリームデータ格納部と、前記時系列データ格納部および前記ストリームデータ格納部に接続され、データの処理を行うデータ処理部と、をさらに備える。本装置は、音データを再生する音データ再生部と、ストリームデータを表示する表示部と、をさらに備え、前記表示部によって表示されたストリームデータが選択されると、前記音データ再生部が、選択されたストリームデータに関する音データを再生するように構成される。 The sound data recording / reproducing apparatus according to the present invention includes a sound data acquisition unit that acquires sound data, a sound source localization unit that specifies the direction in which the sound source exists, and a sound source separation unit that separates sound data for each sound source. The apparatus includes a time-series data storage unit that stores time-series sound data for each sound source, a stream data storage unit that stores stream data related to sound that indicates a direction of a predetermined sound source at a predetermined time, and the time And a data processing unit connected to the stream data storage unit and the stream data storage unit for processing data. The apparatus further includes a sound data reproduction unit that reproduces sound data, and a display unit that displays stream data.When the stream data displayed by the display unit is selected, the sound data reproduction unit It is configured to play sound data related to the selected stream data.
本発明による音データ記録再生装置によって音データを再生する方法は、音データを取得し、音源が存在する方向を特定し、音源ごとの音データを分離する。さらに、音源ごとの時系列の音データを、時系列データ格納部に格納し、所定の時間において、所定の音源の方向を示す、音に関するストリームデータを作成し、ストリームデータ格納部に格納する。さらに、ストリームデータを表示し、表示されたストリームデータが選択されると、選択されたストリームデータに関する音データを再生する。 The method of reproducing sound data by the sound data recording / reproducing apparatus according to the present invention acquires sound data, specifies the direction in which the sound source exists, and separates sound data for each sound source. Further, time-series sound data for each sound source is stored in the time-series data storage unit, and stream data related to sound indicating the direction of a predetermined sound source is created at a predetermined time and stored in the stream data storage unit. Furthermore, stream data is displayed, and when the displayed stream data is selected, sound data relating to the selected stream data is reproduced.
本発明によれば、所定の時間において、所定の音源の方向を示す、音に関するストリームデータが表示されるので、音源ごとの音データを時間に沿って概観することができ、記録された音データの中から所望の音データを容易に再生することができる。 According to the present invention, the stream data relating to the sound indicating the direction of the predetermined sound source is displayed at the predetermined time, so that the sound data for each sound source can be overviewed along the time, and the recorded sound data The desired sound data can be easily reproduced from the list.
本発明の実施形態によれば、音データから音声を認識し音声のテキスト情報を生成し、前記音声のテキスト情報を表示する。 According to the embodiment of the present invention, voice is recognized from sound data, voice text information is generated, and the voice text information is displayed.
本実施形態によれば、たとえば、耳の不自由な人も、記録された音データの中から所望の音データ(音声)を容易に再生し利用することができる。 According to the present embodiment, for example, a hearing-impaired person can easily reproduce and use desired sound data (sound) from the recorded sound data.
本発明の実施形態によれば、画像データを取得し、時系列の画像データを前記時系列データ格納部に格納し、前記ストリームデータ格納部に格納されるデータが、所定の時間において、所定の対象の方向を示す画像に関するストリームデータをさらに含む。 According to an embodiment of the present invention, image data is acquired, time-series image data is stored in the time-series data storage unit, and data stored in the stream data storage unit is stored at a predetermined time at a predetermined time. It further includes stream data relating to an image indicating the direction of the object.
本実施形態によれば、音源(話者)の音データ(話の内容)と画像データ(話者の表情)を関連付けて再生することもできる。 According to the present embodiment, sound data (speech contents) of a sound source (speaker) and image data (speaker's facial expression) can be associated and reproduced.
図1は、本発明の一実施形態による音データ記録再生装置の構成を示す図である。 FIG. 1 is a diagram showing a configuration of a sound data recording / reproducing apparatus according to an embodiment of the present invention.
音データ記録再生装置において、音データ取得部101が音データを取得する。取得された音データは、音源定位部103に送られ、音源定位部103は、音源が存在する方向を特定する。また、取得された音データは、音源分離部105に送られ、音源分離部105は、音源ごとの音を分離する。また、画像データ取得部107が画像データを取得する。
In the sound data recording / reproducing apparatus, the sound
音データ記録再生装置は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113の3種類のメモリを備える。これらのメモリのデータ構造については後で説明する。
The sound data recording / playback apparatus includes three types of memories: a time-series
音データ記録再生装置は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113に接続されたデータ処理部115ならびに時系列データ格納部109およびデータ処理部115に接続された音声認識部121を備える。データ処理部115は、表示・入力部117および音データ再生部119にさらに接続されている。データ処理部115は、上記3種類のメモリに格納されたデータを使用して処理を行い、表示・入力部117が音データを概観的に表示し、表示・入力部117からのオペレータ入力にしたがって、音データ再生部119が所望の音データを再生するように構成されている。音声認識部121は、データ処理部115からの指示により時系列データ格納部109に格納された音データから音声を認識し、音声のテキスト情報を生成し、時系列データ格納部109に格納する。表示・入力部117は、表示部および入力部の別個の筐体であってもよい。
The sound data recording / reproducing apparatus includes a time series
音データ取得部101は、一例として、8個のマイクと、マイクが採取した音データを処理する音響信号処理用プロセッサとを含む。音響信号処理用プロセッサは、たとえば、16チャネルの音データを所定の周波数で採取することができる。8個のマイクは、7個の通常のマイクと1個のサラウンド用マイクからなる。7個の通常のマイクは、球状の形をした台に取り付けられており、その台は、それぞれのマイクが設置されている方向からの音を採取しやすいように設計されている。
As an example, the sound
本発明による音データ記録再生装置は、たとえば、会議室など所定の位置で音データを取得し再生する場合に使用してもよい。その場合に、音データ取得部101は、該所定の位置に配置される。他の実施形態において、本発明による音データ記録再生装置は、移動体における音データを取得し再生する場合に使用してもよい。その場合に、音データ取得部101は、該移動体に取り付けられる。移動体には、一例として、車両、監視ロボットおよび人間などが含まれる。たとえば、GPS(Global Positioning System、全地球測位システム)と組み合わせて、移動体の位置において音源の方向を認識することができる。
The sound data recording / reproducing apparatus according to the present invention may be used, for example, when sound data is acquired and reproduced at a predetermined position such as a conference room. In that case, the sound
音源定位部103は、音源が存在する方向を特定するために、たとえば、Steered beam formerによる定位を行い、カルマンフィルタにより精度を上げる(Masamitsu Murase, Shun'ichi Yamamoto, Jean-Marc Valin, Kazuhiro Nakadai, Kentaro Yamada, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: Multiple Moving Speaker Tracking by
Microphone Array on Mobile Robot, Proceedings of the Ninth European Conference
on Speech Communication and Technology (Interspeech-2005), 249-252, Lisboa, Sep. 2005 p.10) 。Steered beam formerによる定位は、以下のステップにより、マイクペア間での相互相関に基づいた定位を行う。
The sound
Microphone Array on Mobile Robot, Proceedings of the Ninth European Conference
on Speech Communication and Technology (Interspeech-2005), 249-252, Lisboa, Sep. 2005 p.10). The localization by the steered beam former is performed based on the cross-correlation between the microphone pairs by the following steps.
1)マイクの座標を定義した座標系の原点を中心とする球を考え、その表面に2562個の点を等間隔に配置する。
2)各点に対して、全てのマイクのペアについて相互相関の和を求める。この和が最大となる点の方向が音源の方向であると推定する。
3)推定された相互相関の値を全て0とする。
4)2)および3)を繰り返し、全ての音源方向を推定する。これにより、推定した音源方向を時間軸上で走査し、方向の近いものを1つの音源としてラベル付けする。
1) Consider a sphere centered at the origin of the coordinate system that defines the coordinates of the microphone, and place 2562 points on the surface at equal intervals.
2) For each point, find the sum of cross correlations for all microphone pairs. It is estimated that the direction of the point where this sum is the maximum is the direction of the sound source.
3) All estimated cross-correlation values are set to 0.
4) Repeat 2) and 3) to estimate all sound source directions. As a result, the estimated sound source direction is scanned on the time axis, and those having close directions are labeled as one sound source.
カルマンフィルタは、移動音源のような動的に変化するシステムを観測する場合に、過去の観測値から現在及び未来の内部状態を予測するためのものである。たとえば、過去の話者の状態から現在の話者の状態を推定する。これにより、単一の話者が移動する場合に、単一話者へ確実に同一のラベルを付与することができる。 The Kalman filter is for predicting current and future internal states from past observation values when a dynamically changing system such as a moving sound source is observed. For example, the current speaker state is estimated from the past speaker state. Thereby, when a single speaker moves, the same label can be reliably given to the single speaker.
音源分離部105は、音源ごとの音データを分離するために、たとえば、Geometric
Source Separation(GSS)による音源分離を行いPost-Filterによって雑音抑圧処理を行う
(J.-M. Valin, J. Rouat, F. Michaud: Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS), pp.2123-2128, 2004.)。
The sound
Source separation by Source Separation (GSS) and noise suppression processing by Post-Filter (J.-M. Valin, J. Rouat, F. Michaud: Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc IEEE / RSJ International
Conference on Intelligent Robots and Systems (IROS), pp.2123-2128, 2004.).
周波数kにおいて、音響信号(k)から観測信号x(k)への変換は線形であると仮定して、音源信号から観測信号への伝達関数を式(1)によって表す。
Post-Filterによる雑音抑圧は、GSSによる分離音から雑音を取り除くものである。この手法では雑音を定常性雑音と非定常性雑音に分けて推定し除去する。定常性雑音はMCRA (Minima Controlled Recursive Average)により計算する。非定常性雑音は、GSSの過程で別のチャンネルから漏洩したものと仮定し、適応的に干渉成分の推定を行う。 Noise suppression by Post-Filter removes noise from separated sound by GSS. In this method, noise is estimated and removed by dividing it into stationary noise and non-stationary noise. Stationary noise is calculated by MCRA (Minima Controlled Recursive Average). Non-stationary noise is assumed to have leaked from another channel during the GSS process, and interference components are estimated adaptively.
時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113のデータ構造について以下に説明する。
The data structures of the time series
図2は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113の音データに関するデータ構造を示す図である。
FIG. 2 is a diagram illustrating a data structure regarding sound data in the time-series
時系列データ格納部109には、それぞれの時刻における音の波形データが格納される。音の波形データは、分離されていない波形データと音源ごとに分離された波形データを含む。音源ごとに分離されたデータには、音源の方向のデータが付与される。それぞれの時刻におけるデータは、時間方向にリンクされており、たとえば、時刻t=2におけるデータから、時刻t=1または時刻t=3のデータを参照することができる。
The time-series
ストリームデータ格納部111には、音に関するストリームデータが格納される。音に関するストリームは、一定時間連続する所定の音源の音である。音に関するストリームデータは、一定時間連続する所定の音源の音について、時刻ごとの該音源の方向(位置)を示すデータである。具体的にストリームデータは、開始時刻、終了時刻、音源の識別(たとえば、人物名)、該所定の時間内のそれぞれの時刻における音源の方向に関するデータを含む。音源の方向は、たとえば、水平面および鉛直面内の角度で表現される。ストリームデータは、音の波形データへのリンクをさらに含む。たとえば、所定の時刻におけるストリームデータから該時刻に対応する音の波形データを参照することができる。
The stream
図3は、時系列データ格納部109、ストリームデータ格納部111およびストリームリスト格納部113の画像データに関するデータ構造を示す図である。
FIG. 3 is a diagram illustrating a data structure related to image data in the time-series
時系列データ格納部109には、それぞれの時刻における画像データ(動画情報)が格納される。画像データには、対象(たとえば人物)の方向のデータが付与される。人物の識別は、一般的な顔認識の技術(たとえば、特開2002-216129号公報)を使用して行う。それぞれの時刻におけるデータは、時間方向にリンクされており、たとえば、時刻t=2におけるデータから、時刻t=1または時刻t=3のデータを参照することができる。
The time series
ストリームデータ格納部111には、画像に関するストリームデータが格納される。画像に関するストリームは、一定時間連続する所定の対象の画像である。画像に関するストリームデータは、一定時間連続する所定の対象の画像について、時刻ごとの該対象の方向(位置)を示すデータである。具体的にストリームデータは、開始時刻、終了時刻、対象の識別(たとえば、人物名)、それぞれの時刻における対象の方向に関するデータを含む。対象の方向は、たとえば、水平面および鉛直面内の角度で表現される。ストリームデータは、画像データ(動画情報)へのリンクをさらに含む。たとえば、所定の時刻におけるストリームデータから該時刻に対応する画像データを参照することができる。
The stream
ストリームデータ格納部111において、音に関するストリームデータと画像に関するストリームデータが存在する。音に関するストリームデータにおける音源の方向と画像に関するストリームデータの対象の方向とが、所定の時間以上一致する場合、上記2個のストリームデータを統合し、統合ストリームデータとしてもよい。統合ストリームデータを使用すれば、たとえば、音源(話者)の音データ(話の内容)と画像データ(話者の表情)を関連付けて再生することもできる。
In the stream
ストリームリスト格納部113におけるデータは、ストリームデータのリストに関するデータである。ストリームデータのリストは、概観表示用のものであり、間引いた時刻における総ストリーム数、各ストリームの音源の方向、各ストリームのタイプ(音に関するストリーム、画像に関するストリーム、統合ストリーム)、各ストリームデータへのリンクを含む。たとえば、所定の時刻におけるストリームデータのリストから該時刻に対応するストリームデータを参照することができる。図2および図3に示すように、ストリームリスト格納部113におけるデータに基づいて、音源または対象の識別(人物名)と時間との関数、または音源または対象の方向(角度)と時間との関数として、それぞれのストリームを、表示・入力部117に表示することができる。図2および図3において、3個のストリームデータが、実線、点線および一点鎖線によって示されている。
The data in the stream
図4は、本実施形態による音データ記録再生装置のインタフェース機能を概念的に示した図である。本実施形態による音データ記録再生装置のインタフェースは、音データをわかりやすく再生することができるように、概観表示(Over first)、ズーム(Zoom)、フィルタ(Filter)および要求による詳細表示(Details on demand)のための機能を備える。 FIG. 4 is a diagram conceptually showing the interface function of the sound data recording / reproducing apparatus according to the present embodiment. The interface of the sound data recording / playback apparatus according to the present embodiment provides an overview display (Over first), a zoom (Zoom), a filter (Filter), and a detailed display upon request (Details on) so that the sound data can be reproduced in an easily understandable manner function for demand).
図4(a)は、概観表示の内容を示す図である。縦軸は音源の識別(人物名)を表し、横軸は時間を表す。この表示は、ストリームリスト格納部113におけるデータに基づいて行うことができる。図4(a)に示した概観表示によって、ユーザは、音データを時間に沿って概観することができる。
FIG. 4A shows the contents of the overview display. The vertical axis represents sound source identification (person name), and the horizontal axis represents time. This display can be performed based on data in the stream
図4(b)は、ズームされた内容を示す図である。図4(b)は、具体的に、ズームされた時刻における音源およびその方向を示す。これらのデータは、ストリームデータ格納部111におけるストリームデータに含まれる。ユーザは、図4(a)に示した外観表示の横軸における特定の時刻を指定することにより、該時刻のデータを容易に取り出す(ズームする)ことができる。ストリームデータのリストは、各ストリームデータへのリンクを含むので、上記のデータの取り出しを容易に行うことができる。
FIG. 4B shows the zoomed content. FIG. 4B specifically shows the sound source and its direction at the zoomed time. These data are included in the stream data in the stream
図4(c)は、フィルタ処理の内容を示す図である。図4(c)は、具体的に、音源の範囲を指定することで、BGM(バックグラウンドミュージック)の音源を除去することを示す。 FIG. 4C shows the contents of the filter process. FIG. 4C specifically shows that the sound source of BGM (background music) is removed by designating the range of the sound source.
図4(d)は、詳細表示の内容を示す図である。ユーザは、たとえば、図4(b)に示された所定の時刻における音源(発話者)から所定の音源(発話者)を指定して、その音データ(発言内容)のみを再生することができる。 FIG. 4D is a diagram showing the contents of the detailed display. For example, the user can designate a predetermined sound source (speaker) from a sound source (speaker) at a predetermined time shown in FIG. 4B and reproduce only the sound data (speech content). .
図5は、本発明の一実施形態による音データ記録再生方法を示す流れ図である。 FIG. 5 is a flowchart showing a sound data recording / reproducing method according to an embodiment of the present invention.
図5におけるステップS010において、音データ取得部101が音データを取得し、画像データ取得部107が画像データを取得する。
In step S010 in FIG. 5, the sound
図5におけるステップS020において、音源定位部103が、音源が存在する方向を特定する。
In step S020 in FIG. 5, the sound
図5におけるステップS030において、音源分離部105が、音源ごとの音を分離する。
In step S030 in FIG. 5, the sound
図5におけるステップS040において、音データおよび画像データが、時系列データ格納部109に格納される。時系列データ格納部は、音声認識部121によって生成された音声のテキスト情報をさらに格納してもよい。
In step S040 in FIG. 5, the sound data and the image data are stored in the time-series
図5におけるステップS050において、データ処理部115が、時系列データ格納部109に格納された音データおよび画像データに基づいて、ストリームデータを作成し、ストリームデータ格納部111に格納する。
In step S 050 in FIG. 5, the
図5におけるステップS060において、データ処理部115が、ストリームデータ格納部111に格納されたストリームデータに基づいて、ストリームデータのリストを作成し、ストリームリスト格納部113に格納する。
In step S 060 in FIG. 5, the
図5におけるステップS070において、表示・入力部117が、ストリームデータを時間軸とともに表示する(図4(a))。
In step S070 in FIG. 5, the display /
図5におけるステップS080において、表示・入力部117が、表示された時間軸上においてユーザによって選択された時刻における、音源およびその方向を表示する(図4(b))。
In step S080 in FIG. 5, the display /
図5におけるステップS090において、音データ再生部119が、ユーザによって選択された音源の音データを再生する(図4(d))。
In step S090 in FIG. 5, the sound
ステップS070、S080およびステップS090に代えて、表示・入力部117が、ストリームデータにしたがって、たとえば、図4(b)に示すような画面によって、時間ごとに変化する音源およびその方向を、リアルタイムに、または、リアルタイムと同じか増加もしくは減少させた速度で表示するように構成してもよい。
Instead of steps S070, S080, and step S090, the display /
図6は、表示・入力部117の表示画面の一例を示す図である。表示画面は、たとえば、操作パネル部、音源方向表示部およびストリーム表示部からなる。操作パネル部から、ユーザによる音データ記録再生装置に対する指示が入力される。表示部と入力部は、図6に示すように1筐体の1画面から構成してもよい。あるいは、1筐体の2画面または画面を使用するかまたは使用しない2筐体によって構成してもよい。
FIG. 6 is a diagram illustrating an example of a display screen of the display /
表示画面は、音声認識部121によって生成された音声のテキスト情報を表示するテキスト情報表示部(不図示)をさらに備えてもよい。表示・入力部117は、音データ再生部119が、ユーザによって選択された音源の音データ(音声)を再生する(図4(d))際に、音声のテキスト情報をテキスト情報表示部に表示する。テキスト情報表示部において、認識尤度の高い音声のテキスト情報を強調して濃い色で表示し、認識尤度の低い音声のテキスト情報を薄い色で表示するようにしてもよい。音声のテキスト情報を表示することにより、たとえば、耳の不自由な人も、記録された音データの中から所望の音データ(音声)を容易に再生し利用することができる。
The display screen may further include a text information display unit (not shown) that displays voice text information generated by the
図7は、表示画面のストリーム表示部の詳細を示す図である。ストリーム表示部は、ストリームリスト格納部113またはストリームデータ格納部111のデータに基づいて、ストリームデータを表示する。横軸は、時間であり、縦軸は水平面内における角度を示す。ストリーム表示部の表示内容は、図4(a)の表示と対応する。図7には、実線で示したストリームAおよび点線で示したストリームBのストリームデータが表示されている。ユーザは、時間軸(横軸)上の時刻を指定することにより、再生時刻を指定することができる。時系列データ格納部109のデータに基づいて、ストリーム表示部に、収録された音の波形データをあわせて表示してもよい。
FIG. 7 is a diagram illustrating details of the stream display unit of the display screen. The stream display unit displays the stream data based on the data in the stream
図8は、表示画面の音源方向表示部の詳細を示す図である。音源方向表示部は、ストリームデータ格納部111のデータに基づいて、指定された再生時刻における音源およびその方向を表示する。表示画面は、たとえば、水平面を示し、中心に配置されたマイクの位置に対する音源の方向を示す。図8において、Aと付された線がストリームAの音源の方向を示し、Bと付された線がストリームBの音源の方向を示す。この表示は、図4(b)の表示と対応する。音源表示部の画面において、たとえばクリックなどの操作により角度範囲を限定してその範囲の音源の音データを再生するようにしてもよい。この操作は、図4(c)の操作と対応する。さらに、図8において、Aと付された線またはBと付された線をクリックすることによって、音源を指定しその音源の音データのみを再生するようにしてもよい。この操作は、図4(d)の操作と対応する。
FIG. 8 is a diagram showing details of the sound source direction display section of the display screen. The sound source direction display unit displays the sound source and its direction at the designated playback time based on the data in the stream
本発明の実施形態の特徴を以下に説明する。 Features of the embodiment of the present invention will be described below.
本発明の実施形態によれば、ストリームデータが、時系列の音データへのリンクに関するデータを含む。 According to the embodiment of the present invention, the stream data includes data related to a link to time-series sound data.
本実施形態によれば、時系列の音データへのリンクにより、選択された所定の時刻における音データを容易に再生することができる。 According to the present embodiment, the sound data at the selected predetermined time can be easily reproduced by the link to the time-series sound data.
本発明の実施形態によれば、ストリームデータのリストがストリームリスト格納部に格納される。 According to the embodiment of the present invention, a list of stream data is stored in the stream list storage unit.
本実施形態によれば、音源ごとの音データを時間に沿って概観できるように表示するのが容易になる。 According to this embodiment, it becomes easy to display the sound data for each sound source so that it can be viewed over time.
本発明の実施形態によれば、ストリームデータとともに時間軸を表示し、表示された時間軸上の点が選択されると、対応するストリームデータを前記ストリームデータ格納部から取り出し、該対応するストリームデータに基づいて、選択された所定の時刻における音源およびその方向を表示する。 According to the embodiment of the present invention, the time axis is displayed together with the stream data, and when a point on the displayed time axis is selected, the corresponding stream data is extracted from the stream data storage unit, and the corresponding stream data The sound source and its direction at the selected predetermined time are displayed.
本実施形態によれば、ユーザは、ストリームデータによって、記録された音データを時間に沿って概観することができ、ストリームデータとともに表示された時間軸上の点を選択することによって、選択された所定の時刻における音源およびその方向のデータを容易に取り出すことができる。 According to the present embodiment, the user can overview the recorded sound data along the time by the stream data, and the user can select the point by selecting the point on the time axis displayed together with the stream data. A sound source and its direction data at a predetermined time can be easily extracted.
本発明の実施形態によれば、前記表示部に表示された所定の時刻における音源から所定の音源が選択されると、該所定の音源の音データを前記時系列データ格納部から取り出し、該対応する音データを再生する。 According to the embodiment of the present invention, when a predetermined sound source is selected from sound sources at a predetermined time displayed on the display unit, sound data of the predetermined sound source is extracted from the time-series data storage unit, and the corresponding Play sound data.
本実施形態によれば、ユーザは、表示された所定の時刻における音源から所定の音源を選択することによって、該所定の音源の音データを容易に取り出すことができる。 According to the present embodiment, the user can easily extract the sound data of the predetermined sound source by selecting the predetermined sound source from the sound sources displayed at the predetermined time.
101…音データ取得部、103…音源定位部、105…音源分離部、109…時系列データ格納部、111…ストリームデータ格納部、113…ストリームリスト格納部、115…データ処理部
DESCRIPTION OF
Claims (8)
音源が存在する方向を特定する音源定位部と、
音源ごとの音データを分離する音源分離部と、
音源ごとの時系列の音データを格納する時系列データ格納部と、
所定の時刻における所定の音源の方向を示す、音に関するストリームデータを格納するストリームデータ格納部と、
前記時系列データ格納部および前記ストリームデータ格納部に接続され、データの処理を行うデータ処理部と、
時刻と当該時刻における音源についての前記ストリームデータへのリンクとを対応付けるリストを格納するストリームリスト格納部と、
音データを再生する音データ再生部と、
ストリームデータを表示する表示部と、
を備え、
前記表示部は、前記ストリームデータに含まれた所定の時刻における所定の音源の方向を示す第1の表示を時間軸上に表示し、
前記音データ再生部は、前記表示部によって時間軸上に表示された前記第1の表示の一つが選択されたことに応じて、当該選択された第1の表示に対応する所定の時刻における所定の音源の音データを再生する、
音データ記録再生装置であって、
前記時間軸上の一の時刻が選択されたことに応じて、
前記データ処理部は、当該選択された時刻におけるストリームデータを前記ストリームデータ格納部から取り出し、
前記表示部は、当該取り出された前記対応するストリームデータに基づいて、前記選択された時刻に存在した音源およびその方向を示す第2の表示を表示し、
前記第2の表示の中央部にはマイクロホンが表示され、前記選択された時刻に存在した音源の方向が、前記表示されたマイクロホンの位置に対する方向として示され、
前記第2の表示により表示された前記音源の一つが選択されることにより、前記第1の表示の一つが選択される、
音データ記録再生装置。 A sound data acquisition unit for acquiring sound data;
A sound source localization unit that identifies the direction in which the sound source exists,
A sound source separation unit for separating sound data for each sound source;
A time series data storage unit for storing time series sound data for each sound source;
A stream data storage unit for storing stream data relating to sound indicating the direction of a predetermined sound source at a predetermined time;
A data processing unit connected to the time-series data storage unit and the stream data storage unit for processing data;
A stream list storage unit for storing a list associating a time with a link to the stream data regarding the sound source at the time;
A sound data playback unit for playing back sound data;
A display for displaying stream data;
With
The display unit displays on the time axis a first display indicating a direction of a predetermined sound source at a predetermined time included in the stream data;
In response to selection of one of the first displays displayed on the time axis by the display unit, the sound data reproduction unit performs predetermined processing at a predetermined time corresponding to the selected first display. Play sound data of
A sound data recording / reproducing device ,
In response to the selection of one time on the time axis,
The data processing unit retrieves the stream data at the selected time from the stream data storage unit,
The display unit displays a second display indicating a sound source and its direction that existed at the selected time based on the extracted corresponding stream data,
A microphone is displayed at the center of the second display, and the direction of the sound source that existed at the selected time is shown as the direction relative to the position of the displayed microphone.
By selecting one of the sound sources displayed by the second display, one of the first displays is selected.
Sound data recording / reproducing device.
前記データ処理部は、前記第2の表示に表示された前記音源の一つが選択されたことに応じて、前記リンクにより当該選択された音源のストリームデータを参照し、当該選択された音源の方向が所定の角度範囲にあるときは、当該選択された音源の音データを前記時系列データ格納部から取り出し、
前記音データ再生部は、当該取り出された前記所定の時刻における前記所定の音源の音データを再生する、
請求項1に記載の音データ記録再生装置。 Stream data, when the data about the links to the sound data of the series only including,
The data processing unit refers to the stream data of the sound source selected by the link in response to selection of one of the sound sources displayed in the second display, and the direction of the selected sound source Is within a predetermined angle range, the sound data of the selected sound source is extracted from the time-series data storage unit,
The sound data reproduction unit reproduces the sound data of the predetermined sound source at the extracted predetermined time;
The sound data recording / reproducing apparatus according to claim 1.
音データを取得し、
音源が存在する方向を特定し、
音源ごとの音データを分離し、
音源ごとの時系列の音データを、時系列データ格納部に格納し、
所定の時間において、所定の音源の方向を示す、音に関するストリームデータを作成し、ストリームデータ格納部に格納し、
時刻と当該時刻における音源についての前記ストリームデータへのリンクとを対応付けるリストをストリームリスト格納部に格納し、
前記ストリームデータに含まれた所定の時刻における所定の音源の方向を示す第1の表示を時間軸上に表示し、
前記時間軸上に表示された前記第1の表示の一つが選択されたことに応じて、当該選択された第1の表示に対応する所定の時刻における所定の音源の音データを再生する、
音データ記録再生方法であって、
前記時間軸上の一の時刻が選択されたことに応じて、
当該選択された時刻におけるストリームデータを前記ストリームデータ格納部から取り出し、
当該取り出された前記対応するストリームデータに基づいて、前記選択された時刻に存在した音源およびその方向を示す第2の表示を表示し、
前記第2の表示の中央部にはマイクロホンが表示され、前記選択された時刻に存在した音源の方向が、前記表示されたマイクロホンの位置に対する方向として示され、
前記第2の表示により表示された前記音源の一つが選択されることにより、前記第1の表示の一つが選択される、
音データ記録再生方法。 A method of reproducing sound data by a sound data recording / reproducing apparatus,
Get sound data,
Identify the direction in which the sound source exists,
Separate sound data for each sound source,
Store time-series sound data for each sound source in the time-series data storage,
At a predetermined time, create stream data relating to sound indicating the direction of a predetermined sound source, store it in a stream data storage unit,
A list that associates the time and a link to the stream data about the sound source at the time is stored in the stream list storage unit,
Displaying on the time axis a first display indicating a direction of a predetermined sound source at a predetermined time included in the stream data;
In response to selection of one of the first displays displayed on the time axis, sound data of a predetermined sound source at a predetermined time corresponding to the selected first display is reproduced.
A method for recording and reproducing sound data ,
In response to the selection of one time on the time axis,
The stream data at the selected time is extracted from the stream data storage unit,
Based on the retrieved corresponding stream data, a second display showing the sound source and its direction that existed at the selected time is displayed,
A microphone is displayed at the center of the second display, and the direction of the sound source that existed at the selected time is shown as the direction relative to the position of the displayed microphone.
By selecting one of the sound sources displayed by the second display, one of the first displays is selected.
Sound data recording and playback method.
前記第2の表示に表示された前記音源の一つが選択されたことに応じて、前記リンクにより当該選択された音源のストリームデータを参照し、当該選択された音源の方向が所定の角度範囲にあるときは、当該選択された音源の音データを前記時系列データ格納部から取り出し、
当該取り出された前記所定の時刻における前記所定の音源の音データを再生する、
請求項5に記載の音データ記録再生方法。 Stream data, when the data about the links to sound data of the series only including,
In response to selection of one of the sound sources displayed in the second display, the stream data of the selected sound source is referred to by the link, and the direction of the selected sound source falls within a predetermined angular range. When there is, take out the sound data of the selected sound source from the time-series data storage unit,
Reproducing the sound data of the predetermined sound source at the extracted predetermined time;
The sound data recording / reproducing method according to claim 5 .
示する請求項5または6に記載の音データ記録再生方法。 The sound data recording / reproducing method according to claim 5 or 6 , wherein a sound is recognized from sound data, sound text information is generated, and the sound text information is displayed.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US90108107A | 2007-02-14 | 2007-02-14 | |
US60/901,081 | 2007-02-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008197650A JP2008197650A (en) | 2008-08-28 |
JP5383056B2 true JP5383056B2 (en) | 2014-01-08 |
Family
ID=39756590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008025678A Expired - Fee Related JP5383056B2 (en) | 2007-02-14 | 2008-02-05 | Sound data recording / reproducing apparatus and sound data recording / reproducing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5383056B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5424300B2 (en) * | 2008-12-16 | 2014-02-26 | Necカシオモバイルコミュニケーションズ株式会社 | Playback apparatus and program |
JP5439896B2 (en) * | 2009-03-27 | 2014-03-12 | ヤマハ株式会社 | Recording device and recording / reproducing device |
JP6017854B2 (en) | 2011-06-24 | 2016-11-02 | 本田技研工業株式会社 | Information processing apparatus, information processing system, information processing method, and information processing program |
JP6316208B2 (en) * | 2012-12-18 | 2018-04-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Method for processing voice of specific speaker, and electronic device system and program for electronic device |
JP6030032B2 (en) | 2013-08-30 | 2016-11-24 | 本田技研工業株式会社 | Sound processing apparatus, sound processing method, and sound processing program |
KR102224568B1 (en) | 2014-08-27 | 2021-03-08 | 삼성전자주식회사 | Method and Electronic Device for handling audio data |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08297624A (en) * | 1995-02-28 | 1996-11-12 | Toshiba Corp | Electronic conference system |
JP3508981B2 (en) * | 1997-11-12 | 2004-03-22 | 日本電信電話株式会社 | Method for separating, separating and extracting melodies included in music performance |
JP2001056700A (en) * | 1999-08-20 | 2001-02-27 | Olympus Optical Co Ltd | Voice recording/reproducing device |
JP4491700B2 (en) * | 1999-08-26 | 2010-06-30 | ソニー株式会社 | Audio search processing method, audio information search device, audio information storage method, audio information storage device and audio video search processing method, audio video information search device, audio video information storage method, audio video information storage device |
JP2003270034A (en) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Sound information analyzing method, apparatus, program, and recording medium |
JP4270854B2 (en) * | 2002-12-05 | 2009-06-03 | 株式会社リコー | Audio recording apparatus, audio recording method, audio recording program, and recording medium |
JP3927155B2 (en) * | 2003-07-28 | 2007-06-06 | 株式会社東芝 | Dialog recording apparatus and dialog recording program |
JP2005295015A (en) * | 2004-03-31 | 2005-10-20 | Hitachi Kokusai Electric Inc | Video meeting system |
KR100754385B1 (en) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | Apparatus and method for object localization, tracking, and separation using audio and video sensors |
EP1736964A1 (en) * | 2005-06-24 | 2006-12-27 | Nederlandse Organisatie voor toegepast-natuurwetenschappelijk Onderzoek TNO | System and method for extracting acoustic signals from signals emitted by a plurality of sources |
JP2007329702A (en) * | 2006-06-08 | 2007-12-20 | Toyota Motor Corp | Sound-receiving device and voice-recognition device, and movable object mounted with them |
-
2008
- 2008-02-05 JP JP2008025678A patent/JP5383056B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008197650A (en) | 2008-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6464449B2 (en) | Sound source separation apparatus and sound source separation method | |
JP6841229B2 (en) | Speech processing equipment and methods, as well as programs | |
Donley et al. | Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments | |
Tan et al. | Audio-visual speech separation and dereverberation with a two-stage multimodal network | |
JP5383056B2 (en) | Sound data recording / reproducing apparatus and sound data recording / reproducing method | |
US9949056B2 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
KR101238586B1 (en) | Automatic face extraction for use in recorded meetings timelines | |
JP2015019371A (en) | Audio processing apparatus | |
JP2007221300A (en) | Robot and control method of robot | |
CN112637529B (en) | Video processing method and device, storage medium and electronic equipment | |
JP5618043B2 (en) | Audiovisual processing system, audiovisual processing method, and program | |
US11496830B2 (en) | Methods and systems for recording mixed audio signal and reproducing directional audio | |
JP2020520576A5 (en) | ||
JP2020520576A (en) | Apparatus and related method for presentation of spatial audio | |
JP2005274707A (en) | Information processing apparatus and method, program, and recording medium | |
JP4490076B2 (en) | Object tracking method, object tracking apparatus, program, and recording medium | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
US20120242860A1 (en) | Arrangement and method relating to audio recognition | |
CN108574904B (en) | Audio acquisition device, audio acquisition system, and audio acquisition method | |
CN105979469B (en) | recording processing method and terminal | |
JP2004198656A (en) | Robot audio-visual system | |
CN113014844A (en) | Audio processing method and device, storage medium and electronic equipment | |
EP3742185B1 (en) | An apparatus and associated methods for capture of spatial audio | |
CN112487246A (en) | Method and device for identifying speakers in multi-person video | |
Dai et al. | Binaural soundnet: predicting semantics, depth and motion with binaural sounds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120321 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131001 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5383056 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |