JP5267994B2

JP5267994B2 - 音データラベル付与装置、音データラベル付与方法、及びプログラム

Info

Publication number: JP5267994B2
Application number: JP2009118463A
Authority: JP
Inventors: 淳善本
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2009-05-15
Filing date: 2009-05-15
Publication date: 2013-08-21
Anticipated expiration: 2029-05-15
Also published as: JP2010266721A

Description

本発明は、マイクで集音された被験者の位置における音データに対してラベルを付与する音データラベル付与装置等に関する。

従来、マイライフビッツ（ＭｙＬｉｆｅＢｉｔｓ）や、ライフログ（ＬｉｆｅＬｏｇ）等のように、個人に関係する情報を蓄積し、その蓄積した情報を後に利用しようとする研究がなされている。それに関連する技術として、個人の周辺を撮影した画像データを蓄積するシステムが開発されている（例えば、特許文献１参照）。

特開２００６−１１５０１１号公報

個人に関係する情報として、例えば、個人の周囲の音データを蓄積することも考えられる。しかし、音データは、画像データに比べて検索性がよくないという問題がある。例えば、動画像データから所望の場面を検索する場合には、該当しそうな時刻の静止画を見て、所望の場面がそれよりも前か後ろかを判断して、その判断に応じて動画像データを早送りしたり、早戻ししたりすることによって、所望の場面を検索することになる。その場合の判断は、静止画を見ることによってほぼ一瞬で行える。一方、音データから所望の音を検索する場合には、該当しそうな時刻の音データを聞き、所望の音がそれよりも前か後ろかを判断して、その判断に応じて音データを早送りしたり、早戻ししたりすることによって、所望の音を検索することになる。その場合の判断では、一定の時間（例えば、５秒や１０秒等）の音データを聞かなくてはならないため、それだけ時間がかかることになる。また、聞き手にとって有意な音（例えば、人の話し声や、電話の呼出音、電車の通過音等）が聞こえてこない場合には、その判断にさらに時間がかかることになる。

そのため、音データの場合には、あらかじめ検索の助けとなる情報を付与しておくことが好適である。その情報として、例えば、音データの蓄積された位置の情報を用いることは有効である。その位置の情報として、ＧＰＳを用いて取得された緯度・経度の位置情報を用いることも考えられるが、その場合には、ＧＰＳ衛星からの電波を受信する装置等を別途用いる必要があり、それだけ装置が大がかりになることになる。また、ＧＰＳの場合には、屋外での利用が困難という問題もある。
一般的に言えば、余分な装置等を用いることなく、被験者の周囲の音データに対して、検索の助けとなるラベルを付与したいという要望があった。

本発明は、上記事情に応じてなされたものであり、被験者の位置で集音された音データに対して、検索の助けとなるラベルを付与することができる音データラベル付与装置等を提供することを目的とする。

上記目的を達成するため、本発明による音データラベル付与装置は、被験者の位置においてマイクによって集音された音データを受け付ける音データ受付部と、ラベルとラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である対応情報が２以上記憶される対応情報記憶部と、音データ受付部が受け付けた音データを、周波数ごとの強度を示す音画像に変換する音画像変換部と、音画像変換部が変換した音画像と、対応情報記憶部で記憶されているラベル音画像とを比較する比較部と、比較部による比較結果を用いて、音画像変換部が変換した音画像と類似性の高いラベル音画像に対応するラベルを特定し、特定したラベルを、音画像に対応する音データに付与するラベル付与部と、を備えたものである。

このような構成により、音データに対して、ラベルを付与することができる。例えば、そのラベルによって被験者の位置が示される場合には、ＧＰＳ等の装置を用いなくても、ラベルの付与された音データによって、被験者の位置と、音データとの関係を容易に知ることができるようになる。したがって、ＧＰＳを利用しにくい屋内であっても、位置の判断が可能になる。また、音データを音画像に変換して比較することにより、和音を有する音データや、さらに複雑な種々の音が重畳されている音データの比較を容易に行うことができるようになる。

また、本発明による音データラベル付与装置では、音データ受付部が受け付ける音データは、被験者の環境の音データである環境音データを含んでおり、音データ受付部が受け付けた音データから、環境音データを分離する分離部をさらに備え、音画像変換部は、分離部によって分離された環境音データを音画像に変換してもよい。

このような構成により、被験者の位置で集音された音データのうち、環境音データを用いてラベルを付与することができる。例えば、ラベルによって被験者の位置が示される場合には、被験者の環境の音データを用いてラベルを付与する方が、より適切なラベルを付与できると考えられる。

また、本発明による音データラベル付与装置では、音画像変換部は、周波数のピークを連続して有する期間の音データを一の音画像に変換してもよい。
このような構成により、例えば、駅のメロディーや店のテーマソング等のように、周波数のピークが連続している期間の音データを一の音画像として比較を行うことができる。その結果、より正確なラベルの付与が可能となる。

また、本発明による音データラベル付与装置では、比較部は、音画像とラベル音画像との比較の際に、両者の類似性に関する情報である類似情報を算出するものであり、ラベル付与部は、特定した１または２以上のラベルと、特定した１または２以上のラベルにそれぞれ対応する類似情報とを対応付けて音データに付与してもよい。
このような構成により、例えば、２以上のラベルが音データに付与された場合に、その各ラベルの妥当性を、音データに付与された類似情報を用いて判断することができる。

また、本発明による音データラベル付与装置では、ラベル付与部は、各音データに、３以上のラベルと３以上のラベルにそれぞれ対応する類似情報とを対応付けて付与するものであり、ラベルとラベルに対応する音を出力する音出力装置の座標とを対応付ける情報である位置対応情報が記憶される位置対応情報記憶部と、音データに付与された３以上のラベル及び類似情報と、３以上のラベルにそれぞれ対応する座標とを用いて、音データに対応する座標を算出する座標算出部と、座標算出部が算出した座標を、座標に対応する音データに付与する座標付与部と、をさらに備えてもよい。
このような構成により、音出力装置が出力した音を用いて、被験者のより正確な位置を知ることができるようになる。

また、本発明による音データラベル付与装置では、音出力装置が出力する音は、非可聴域の音であってもよい。
このような構成により、音出力装置の出力する音が人間にとって雑音とならないようにすることができる。

また、本発明による音データラベル付与装置では、音データ受付部が受け付ける音データが記憶される音データ記憶部と、消去対象の音データに対応するラベルを識別するラベル識別情報が記憶される消去対象ラベル記憶部と、ラベルの付与された音データのうち、消去対象ラベル記憶部で記憶されているラベル識別情報で識別されるラベルに関する音データを音データ記憶部から消去する消去部と、をさらに備えてもよい。

このような構成により、例えば、音データ記憶部で残しておきたくない音データに対応するラベルのラベル識別情報を消去対象ラベル記憶部に蓄積しておくことによって、その音データが自動的に消去されるようになる。例えば、プライバシーの侵害となりうるような音データを自動的に消去することができる。

また、本発明による音データラベル付与装置では、音データ受付部が受け付ける音データが記憶される音データ記憶部と、抽出対象の音データに対応するラベルを識別するラベル識別情報が記憶される抽出対象ラベル記憶部と、ラベルの付与された音データのうち、抽出対象ラベル記憶部で記憶されているラベル識別情報で識別されるラベルに関する音データを抽出して蓄積する抽出部と、をさらに備えてもよい。

このような構成により、例えば、抽出したい音データに対応するラベルのラベル識別情報を抽出対象ラベル記憶部に蓄積しておくことによって、その音データが自動的に抽出されるようになる。

なお、消去対象となる音データや、抽出対象となる音データが記憶される音データ記憶部、すなわち、音データ受付部が受け付ける音データが記憶される音データ記憶部は、音データ受付部が音データを受け付けた後に、その音データが蓄積される音データ記憶部であってもよく、音データ受付部が音データを受け付ける前に、音データが記憶されていた音データ記憶部であってもよい。

本発明による音データラベル付与装置等によれば、被験者の位置で集音された音データに対して、ラベルを付与することができる。そのラベルを用いることによって、例えば、音データの検索等を行うことができるようになり、所望の音データに容易にアクセスすることができるようになる。

本発明の実施の形態１による音データラベル付与装置の構成を示すブロック図同実施の形態による音データラベル付与装置の動作を示すフローチャート同実施の形態における対応情報の一例を示す図同実施の形態における消去対象ラベル記憶部で記憶される情報の一例を示す図同実施の形態における抽出対象ラベル記憶部で記憶される情報の一例を示す図同実施の形態における音データ記憶部で記憶される音データの一例を示す図同実施の形態における音画像の一例を示す図同実施の形態におけるタイムコードとラベルとの対応の一例を示す図同実施の形態におけるタイムコードとラベルとの対応の一例を示す図同実施の形態におけるピークの存在する音画像の一例を示す図本発明の実施の形態２による音データラベル付与装置の構成を示すブロック図同実施の形態による音データラベル付与装置の動作を示すフローチャート同実施の形態における対応情報の一例を示す図同実施の形態における位置対応情報の一例を示す図同実施の形態におけるタイムコードトラベルとの対応の一例を示す図同実施の形態におけるタイムコードトラベルと座標との対応の一例を示す図上記各実施の形態におけるコンピュータシステムの外観一例を示す模式図上記各実施の形態におけるコンピュータシステムの構成の一例を示す図

以下、本発明による音データラベル付与装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による音データラベル付与装置について、図面を参照しながら説明する。本実施の形態による音データラベル付与装置は、被験者の位置において集音された音データに対してラベルを付与するものである。そのラベルによって、例えば、被験者の位置が示されることになる。

図１は、本実施の形態による音データラベル付与装置１の構成を示すブロック図である。本実施の形態による音データラベル付与装置１は、音データ受付部１１と、分離部１２と、蓄積部１３と、音データ記憶部１４と、音画像変換部１５と、対応情報記憶部１６と、比較部１７と、ラベル付与部１８と、消去対象ラベル記憶部１９と、消去部２０と、抽出対象ラベル記憶部２１と、抽出部２２とを備える。

音データ受付部１１は、被験者の位置においてマイクによって集音された音データを受け付ける。被験者とは、周囲の音データが収集される対象のことであり、主に個人（人間）を想定しているが、例えば、動物や自律的に行動可能なロボットであってもよい。本実施の形態では、被験者が人間である場合について説明する。また、被験者の周囲の音を集音するマイクは、被験者に装着されていてもよく（例えば、ハンズフリーマイクや、ヘッドセットのマイク、クリップマイク、タイピンマイク等）、あるいは、被験者の移動に応じて移動するようにされたものであってもよい。このマイクで集音された音データには、一般に、環境音データと、その他の音データとが含まれることになる。環境音データとは、被験者の環境の音データである。環境音データ以外の音データとしては、例えば、被験者から生じた音（例えば、被験者の発声や、被験者がロボットである場合の動作音等）の音データや、被験者の話し相手の発声した音データ等がある。また、音データの取得で用いられるマイクは、１個であってもよく、２個以上であってもよい。後者の場合には、例えば、被験者の発生した音を集音する目的のマイク（例えば、被験者の口元や、被験者ののどの位置に配置されてもよい）と、被験者の発生した音と環境音との両方を集音する目的のマイク（例えば、被験者の襟元に配置されてもよい）とが存在してもよい。また、後者の場合には、例えば、ステレオマイクであってもよい。また、音データ受付部１１は、マイクで集音された音データを、リアルタイムで受け付けてもよく、あるいは、マイクで集音され、録音された音データを一括して受け付けてもよい。また、音データ受付部１１が受け付ける音データは、デジタルデータであることが好適である。テープに録音されたアナログデータのように、テープの伸び等に起因する変化が起こらないからである。本実施の形態では音データがデジタルデータである場合について説明する。

音データ受付部１１は、前述のように、例えば、マイクから入力された音データを受け付けてもよく、有線もしくは無線の通信回線を介して送信された音データを受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリ等）から読み出された音データを受け付けてもよい。なお、音データ受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカード等）を含んでもよく、あるいは含まなくてもよい。また、音データ受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

分離部１２は、音データ受付部１１が受け付けた音データから、環境音データを分離する。環境音データを用いてラベルの付与を行うことによって、被験者の位置に関する適切なラベルを付与することができると考えられるからである。ここで、環境音データを分離するいくつかの方法について説明する。

（１）周波数カット
人間の声は一般に、８５Ｈｚ〜８ｋＨｚの周波数であることが知られている。したがって、分離部１２は、音データ受付部１１が受け付けた音データの全音域のうち、その人間の声に対応する周波数の成分をカット（除去）した音データである環境音データを取得してもよい。なお、人の声に対応する周波数帯域を任意に設定できるようにしてもよいことは言うまでもない。

（２）音圧による分離
音データを集音するマイクが、例えば、被験者の口元の近傍に位置している場合には、被験者の発声した音の音圧のレベルは高くなると考えられる。したがって、分離部１２は、音圧がしきい値を超える音データは除去し、音圧がしきい値よりも小さい音データである環境音データを取得してもよい。このしきい値は、あらかじめ設定された値であってもよく、あるいは、音データ受付部１１が受け付けた音データの最大の音圧を用いて生成された値であってもよい。後者の場合には、しきい値は、例えば、最大の音圧に、１より小さい値（例えば、０．６や０．８等）を掛けた値であってもよい。

（３）２個のチャンネルを用いた分離
前述のように、音データが２個のマイクによってそれぞれ集音された２チャンネルのものであり、一方のチャンネル（これを「第１のチャンネル」とする）が被験者の発声した音データに対応し、他方のチャンネル（これを「第２のチャンネル」とする）が被験者の発声と環境音との音データに対応する場合には、分離部１２は、第２のチャンネルの音データから、第１のチャンネルの音データを差し引くことによって、環境音データのみを分離してもよい。その分離の際に、適宜、第１及び第２のチャンネルのレベル合わせ等を行い、最適な分離を行うことができるように調整してもよいことは言うまでもない。

（４）人間の声の除去
近年、ボーカルつきの音楽データから、人間の声のみを除去する技術が開発されてきている。したがって、分離部１２は、そのような人間の声を除去する技術を用いて、音データ受付部１１が受け付けた音データから、人間の声の成分を除去した音データである環境音データを取得してもよい。

なお、ここでは、分離部１２が環境音データを分離するいくつかの方法について説明したが、これ以外の方法を用いて環境音データを分離してもよいことは言うまでもない。

蓄積部１３は、音データ受付部１１が受け付けた音データを、後述する音データ記憶部１４に蓄積する。また、蓄積部１３は、分離部１２によって分離された環境音データである音データも、その音データ記憶部１４に蓄積する。

音データ記憶部１４では、音データ受付部１１が受け付けた音データが記憶される。また、音データ記憶部１４では、分離部１２によって分離された環境音データである音データも記憶される。また、この音データ記憶部１４で記憶されている音データには、タイムコードが対応付けられていることが好適である。そのタイムコードは、音データ受付部１１が受け付けた音データにあらかじめ設定されていてもよく、あるいは、蓄積部１３が音データを音データ記憶部１４に蓄積する際に設定してもよい。また、そのタイムコードは、音データのすべての時間帯にわたって設定されていてもよく、あるいは、始点や終点等の一部についてのみ設定されていてもよい。後者の場合であっても、そのタイムコードの設定されている位置からの差分の時間を算出することによって、音データのすべての時間帯についてタイムコードを知ることができる。また、タイムコードは、絶対的な日時を示すものであってもよく、相対的な時間を示すものであってもよい。前者の場合には、例えば、電波時計等から取得された日時を用いたものであってもよい。また、分離後の音データのタイムコードと、分離前の音データのタイムコードとは同期している（音データの同じ時間的な位置に、同じタイムコードが対応付けられている）ことが好適である。後述するように、ラベルの選定は分離後の音データを用いて行われ、ラベルの付与は分離前の音データに対して行われるからである。音データ記憶部１４での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音データ記憶部１４は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現される。

音画像変換部１５は、音データ受付部１１が受け付け、分離部１２によって分離された環境音データである音データを、周波数ごとの強度を示す音画像に変換する。音画像変換部１５は、例えば、音データ記憶部１４で記憶されている音データを、ある時間間隔ごとに音画像に変換してもよい。その時間間隔は、一定であってもよく、そうでなくてもよい。音画像は、例えば、音データをフーリエ変換した結果である、横軸が周波数で、縦軸が信号の強度であるスペクトル画像（パワースペクトル画像）であってもよく、横軸が時間、縦軸が周波数であり、強度が濃淡や色の濃さ等によって示されるスペクトログラムであってもよく、その他の周波数ごとの音の強度を示す画像であってもよい。スペクトログラムは、例えば、複数のバンドパスフィルタを用いて生成してもよく、あるいは、短時間フーリエ変換によって生成してもよい。音データから音画像を生成する方法はすでに公知であり、その詳細な説明を省略する。

対応情報記憶部１６では、２以上の対応情報が記憶される。対応情報は、ラベルとそのラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である。そのラベルは、一般的に位置を示すラベル（例えば、「会議室」「廊下」「職場の座席」「休憩室」等）であるが、それ以外のラベルであってもよい。ここで、「位置」とは、経度や緯度、座標等で示される厳密な意味での位置ではなく、位置に関する属性であると考えることもできる。位置以外を示すラベルとしては、例えば、後述する消去部２０による消去の対象となることを示すラベル「消去トリガ」や、後述する抽出部２２による抽出の対象となることを示すラベル「抽出トリガ」、重要な部分であることを示すラベル「重要」等がある。ラベル音画像は、音画像変換部１５で変換された音画像と比較されるものであるため、その音画像と同じ種類のものであることが好適である。したがって、音画像変換部１５によって音データがスペクトル画像である音画像に変換される場合には、ラベル音画像もスペクトル画像であることが好適である。また、音画像変換部１５によって音データがスペクトログラムである音画像に変換される場合には、ラベル音画像もスペクトログラムであることが好適である。そのラベル音画像は、対応するラベルに応じて生成されることになる。例えば、ラベル「会議室」に対応するラベル音画像は、会議室の音を録音し、その録音した音データを音画像に変換することによって生成することができる。なお、ラベル「消去トリガ」等の位置以外を示すラベルに対応するラベル音画像は、そのラベルに対応する音（例えば、所定の電子音や指を鳴らす音、手をたたく音等）を録音し、その録音した音データを音画像に変換することによって生成することができる。

対応情報記憶部１６に２以上の対応情報が記憶される過程は問わない。例えば、記録媒体を介して２以上の対応情報が対応情報記憶部１６で記憶されるようになってもよく、通信回線等を介して送信された２以上の対応情報が対応情報記憶部１６で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された２以上の対応情報が対応情報記憶部１６で記憶されるようになってもよい。対応情報記憶部１６での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対応情報記憶部１６は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

比較部１７は、音画像変換部１５が変換した音画像と、対応情報記憶部１６で記憶されているラベル音画像とを比較する。この比較は、音画像変換部１５が変換した音画像と似ているラベル音画像を特定するために行われる。したがって、比較部１７は、音画像変換部１５が変換した音画像と、ラベル音画像との類似性に関する情報である類似情報を算出してもよい。類似情報は、類似の程度が分かる情報であれば、その内容を問わない。類似情報は、例えば、類似性が高いほど大きい値となる情報であってもよく、あるいは、類似性が低いほど大きい値となる情報であってもよい。画像の類似性を示す情報を算出する方法はすでに公知であり、その詳細な説明を省略する。本実施の形態では、比較部１７は、音画像とラベル音画像との類似情報を算出するものとする。

ラベル付与部１８は、比較部１７による比較結果を用いて、音画像変換部１５が変換した音画像と類似性の高いラベル音画像に対応するラベルを特定し、その特定したラベルを、音画像に対応する音データに付与する。このラベルの付与される音データは、音データ受付部１１が受け付けた音データであって、分離部１２による分離が行われていない音データである。「音画像と類似性の高いラベル音画像」とは、例えば、その音画像と類似性の最も高い１個のラベル音画像であってもよく、その音画像と類似性の最も高い方からの２個以上のラベル音画像であってもよく、その音画像としきい値よりも高い類似性を有する１個または２個以上のラベル音画像であってもよい。そのしきい値は、あらかじめ設定された値であってもよく、あるいは、比較部１７によって算出された最大の類似性を示す値を用いて生成された値であってもよい。後者の場合には、しきい値は、例えば、最大の類似性を示す値に、１より小さい値（例えば、０．６や０．８等）を掛けた値であってもよい。このように、ラベル付与部１８が特定するラベルは、１個であってもよく、あるいは、２個以上であってもよい。また、音データにラベルを付与するとは、ラベルと、音データの時間的位置との対応が分かるようになればよい、という意味である。したがって、音データにラベルを付与することは、例えば、音データの該当箇所にそのラベルを直接付与する（例えば、音データがラベル用のチャンネルを有しており、そのチャンネルにラベルを設定する等）ことであってもよく、タイムコードに対してラベルを設定する（例えば、タイムコード００：００：００〜００：０５：３５にラベル「会議室」を設定し、タイムコード００：０５：３５〜００：０６：１２にラベル「廊下」を設定する等）ことであってもよく、ラベルに対してタイムコードを設定する（例えば、ラベル「会議室」にタイムコード００：００：００〜００：０５：３５、０１：４７：５６〜０２：４３：４５を設定する等）ことであってもよい。なお、本実施の形態では、ラベル付与部１８によって付与されたラベルが音データ記憶部１４で記憶される場合について説明するが、そうでなくてもよい。ラベル付与部１８によって付与されたラベルが、他の記録媒体で記憶されてもよい。また、ラベル付与部１８は、音データに１または２以上のラベルを付与する際に、その１または２以上のラベルと、その１または２以上のラベルにそれぞれ対応する類似情報とを対応付けて音データに付与してもよく、そうでなくてもよい。なお、その類似情報は、比較部１７によって算出されたものである。また、音画像と類似性の高いラベル音画像が存在しない場合、すなわち、音画像との類似性があらかじめ設定されたしきい値よりも高いラベル音画像が存在しない場合には、ラベル付与部１８は、「不明」である旨のラベルや、ラベルが特定できない旨のラベル等を音データに付与してもよい。

消去対象ラベル記憶部１９では、消去対象の音データに対応するラベルを識別するラベル識別情報が記憶される。この消去対象ラベル記憶部１９で記憶されるラベル識別情報で識別されるラベルに対応する音データは、後述する消去部２０によって消去されることになる。したがって、機密上の理由や、プライバシーの保護上の理由等によって消去したい音データに対応するラベルを識別するラベル識別情報を消去対象ラベル記憶部１９に蓄積しておくことによって、そのラベル識別情報に対応する音データを自動的に消去できることになる。ラベル識別情報は、ラベルを識別できるのであればその内容を問わない。例えば、ラベル識別情報は、ラベルそのものであってもよく、ラベルを識別する数値や記号等であってもよい。

消去対象ラベル記憶部１９にラベル識別情報が記憶される過程は問わない。例えば、記録媒体を介してラベル識別情報が消去対象ラベル記憶部１９で記憶されるようになってもよく、通信回線等を介して送信されたラベル識別情報が消去対象ラベル記憶部１９で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたラベル識別情報が消去対象ラベル記憶部１９で記憶されるようになってもよい。消去対象ラベル記憶部１９での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。消去対象ラベル記憶部１９は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

消去部２０は、ラベルの付与された音データのうち、消去対象ラベル記憶部１９で記憶されているラベル識別情報で識別されるラベルに関する音データを音データ記憶部１４から消去する。ラベルに関する音データとは、ラベルに対応する範囲の音データであってもよく、ラベルに対応する音データの範囲の始点と終点の少なくとも一方が変更された範囲を有する音データであってもよい。タイムコード００：１０：００〜００：１５：３５にラベル「トイレ」が付与されており、そのラベル「トイレ」が消去対象ラベル記憶部１９で記憶されている場合に、例えば、前者であれば、そのタイムコード００：１０：００〜００：１５：３５の範囲の音データが消去されることになり、後者であれば、そのタイムコードの拡張された範囲（例えば、前後に１分ずつ拡張したタイムコード００：０９：００〜００：１６：３５の範囲）の音データが消去されることになる。後者の場合における始点と終点の少なくとも一方を変更する程度は、消去対象ラベル記憶部１９で記憶されるすべてのラベル識別情報について同じであってもよく、あるいは、ラベル識別情報ごとに異なっていてもよい。後者の場合には、その変更の程度も消去対象ラベル記憶部１９で記憶されていてもよく、あるいは、他の記録媒体で記憶されていてもよい。また、音データを消去するとは、音データを無音のレベルにすることであってもよく、その音データ自体を音データ記憶部１４から削除することであってもよい。ただし、後者の場合であっても、タイムコード自体は変更されないように削除することが好適である。

抽出対象ラベル記憶部２１では、抽出対象の音データに対応するラベルを識別するラベル識別情報が記憶される。この抽出対象ラベル記憶部２１で記憶されるラベル識別情報で識別されるラベルに対応する音データは、後述する抽出部２２によって抽出されることになる。したがって、あらかじめ抽出したい音データに対応するラベルを識別するラベル識別情報を抽出対象ラベル記憶部２１に蓄積しておくことによって、そのラベル識別情報に対応する音データを自動的に抽出できることになる。

抽出対象ラベル記憶部２１にラベル識別情報が記憶される過程は問わない。例えば、記録媒体を介してラベル識別情報が抽出対象ラベル記憶部２１で記憶されるようになってもよく、通信回線等を介して送信されたラベル識別情報が抽出対象ラベル記憶部２１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたラベル識別情報が抽出対象ラベル記憶部２１で記憶されるようになってもよい。抽出対象ラベル記憶部２１での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。抽出対象ラベル記憶部２１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

抽出部２２は、ラベルの付与された音データのうち、抽出対象ラベル記憶部２１で記憶されているラベル識別情報で識別されるラベルに関する音データを音データ記憶部１４から抽出して記録媒体に蓄積する。その記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、抽出部２２が有していてもよく、あるいは抽出部２２の外部に存在してもよい。また、この記録媒体は、音データを一時的に記憶するものであってもよく、そうでなくてもよい。「ラベルに関する音データ」については、消去対象ラベル記憶部１９が抽出対象ラベル記憶部２１となる以外、消去部２０での説明と同様である。

なお、音データ記憶部１４と、対応情報記憶部１６と、消去対象ラベル記憶部１９と、抽出対象ラベル記憶部２１との任意の２以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、音データを記憶している領域が音データ記憶部１４となり、２以上の対応情報を記憶している領域が対応情報記憶部１６となってもよい。

また、この音データラベル付与装置１では、会議室や廊下等ごとに特有の音（例えば、パーソナルコンピュータの冷却ファンの音、モニター点灯時の恒常的な音、空調音やそれらの反射音等）が存在するため、それを用いて音データにラベルを付与するものであるが、そのラベルの付与で用いられる環境音を意図的に出力するようにしてもよい。例えば、ラベルに対応する音を出力する音出力装置を、そのラベルに対応する位置に設置しておくことにより、被験者がその位置にいる場合には、その音出力装置から出力された音の音データを取得することになる。そして、その音データを用いて、より正確なラベルの付与が可能となる。なお、その音出力装置が出力する音は、事務機器の音や空調音等とは異なる波長の特性を有する音であることが好適である。他の環境音と区別可能にするためである。また、その音出力装置が出力する音は、非可聴域の音であってもよく、そうでなくてもよい。前者の場合には、音出力装置の出力する音によって、被験者やその他の人が煩わされることがないようになる。その非可聴域の音は、可聴域の音よりも高周波側の音であることが好適である。高周波の音の方が低周波の音よりも遠くに伝わりにくいことが知られており、位置の特定にはより好適だからである。音出力装置は、例えば、スピーカを用いて音を出力してもよく、そうでなくてもよい。後者の場合には、例えば、電磁石を用いた電鈴や、ベルをたたくモータを備えたもの等であってもよい。その音出力装置は、例えば、天井に設置されてもよい。その場合に、蛍光灯から電磁誘導で電力を取得する給電技術を用いて、音出力装置用の電力を取得してもよい。また、太陽電池を用いて、音出力装置用の電力を取得してもよい。そのようにすることで、音出力装置用の電源を設けなくてもよいことになる。また、その音出力装置に人感センサを接続し、人のいないときには音を出力しないようにしてもよい。

次に、本実施の形態による音データラベル付与装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）音データ受付部１１は、音データを受け付けたかどうか判断する。そして、音データを受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、ステップＳ１０４に進む。

（ステップＳ１０２）分離部１２は、音データ受付部１１が受け付けた音データから環境音データを分離する。

（ステップＳ１０３）蓄積部１３は、分離部１２が分離した環境音データである音データを音データ記憶部１４に蓄積する。また、蓄積部１３は、音データ受付部１１が受け付けた分離前の音データも音データ記憶部１４に蓄積する。そして、ステップＳ１０１に戻る。

（ステップＳ１０４）ラベル付与部１８は、ラベルの付与を行うかどうか判断する。例えば、一連の音データの蓄積が終了した後に、ラベルの付与を行うと判断してもよく、ラベルの付与を行う旨の指示を音データラベル付与装置１が受け付けた場合に、ラベルの付与を行うと判断してもよく、その他のタイミングでラベルの付与を行うと判断してもよい。そして、ラベルの付与を行う場合には、ステップＳ１０５に進み、そうでない場合には、ステップＳ１０８に進む。

（ステップＳ１０５）音画像変換部１５は、音画像に変換する対象となる音データを音データ記憶部１４から読み出し、その音データを音画像に変換する。その音画像は、図示しない記録媒体において一時的に記憶されてもよい。

（ステップＳ１０６）比較部１７は、対応情報記憶部１６で記憶されているラベル音画像と、ステップＳ１０５で変換された音画像とを比較する。具体的には、比較部１７は、ラベル音画像と音画像との類似情報を算出する。

（ステップＳ１０７）ラベル付与部１８は、比較部１７による比較結果を用いて、音画像と類似性の高いラベル音画像に対応するラベルを、その音画像に対応する音データに付与する。そして、ステップＳ１０１に戻る。

なお、ステップＳ１０５〜Ｓ１０７の処理を、音データ記憶部１４で記憶されている音データの先頭から後端までのすべての音データに対して繰り返して実行してもよい。

（ステップＳ１０８）消去部２０は、音データの消去を行うかどうか判断する。例えば、音データへの一連のラベルの付与が終了した後に、音データの消去を行うと判断してもよく、音データの消去を行う旨の指示を音データラベル付与装置１が受け付けた場合に、音データの消去を行うと判断してもよく、その他のタイミングで音データの消去を行うと判断してもよい。そして、音データの消去を行う場合には、ステップＳ１０９に進み、そうでない場合には、ステップＳ１１２に進む。

（ステップＳ１０９）消去部２０は、消去対象ラベル記憶部１９で記憶されているラベル識別情報を用いて、そのラベル識別情報で識別されるラベルに関する音データを特定する。

（ステップＳ１１０）消去部２０は、ステップＳ１０９で少なくとも一部の音データを特定したかどうか判断する。そして、特定した場合には、ステップＳ１１１に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ１１１）消去部２０は、ステップＳ１０９で特定した音データを消去する。２以上の音データの範囲を特定した場合には、そのそれぞれを消去する。そして、ステップＳ１０１に戻る。

（ステップＳ１１２）抽出部２２は、音データの抽出を行うかどうか判断する。例えば、音データへの一連のラベルの付与が終了した後に、音データの抽出を行うと判断してもよく、音データの抽出を行う旨の指示を音データラベル付与装置１が受け付けた場合に、音データの抽出を行うと判断してもよく、その他のタイミングで音データの抽出を行うと判断してもよい。そして、音データの抽出を行う場合には、ステップＳ１１３に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ１１３）抽出部２２は、抽出対象ラベル記憶部２１で記憶されているラベル識別情報を用いて、そのラベル識別情報で識別されるラベルに関する音データを特定する。

（ステップＳ１１４）抽出部２２は、ステップＳ１１３で少なくとも一部の音データを特定したかどうか判断する。そして、特定した場合には、ステップＳ１１５に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ１１５）抽出部２２は、ステップＳ１１３で特定した音データを抽出し、記録媒体に蓄積する。２以上の音データの範囲を特定した場合には、そのそれぞれを抽出して蓄積する。そして、ステップＳ１０１に戻る。
なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、本実施の形態による音データラベル付与装置１の動作について、具体例を用いて説明する。
この具体例において、対応情報記憶部１６では、図３で示される対応情報が記憶されているものとする。図３において、ラベルは、「職場の座席」「会議室」等のように位置を示すものと、「抽出トリガ」のように位置と関係ないものとがある。また、ラベルに対応するラベル音画像「ＳＰ００１」等は、そのラベル音画像の画像データのファイル名である。そのラベル音画像「ＳＰ００１」等で識別される画像データは、それに対応するラベルに応じた音データのスペクトル画像である。なお、図３では、１個のラベルに１個のラベル音画像が対応付けられている場合について示しているが、１個のラベルに２個以上のラベル音画像が対応付けられていてもよい。例えば、廊下や会議室においては、場所によって特徴的な音が変化することがある。したがって、そのような場合には、特徴的な複数の音データを録音し、それぞれの音データに対応するラベル音画像を生成し、対応情報に登録してもよい。

また、この具体例において、消去対象ラベル記憶部１９では、図４で示されるラベル識別情報が記憶されているものとする。図４において、ラベル識別情報は、ラベルそのものを示す情報である。また、各ラベル識別情報には、拡張情報が対応付けられている。拡張情報は、ラベル識別情報に対応する音データの始点、終点をどれだけ拡張して消去するのかを示す情報である。例えば、ラベル識別情報「トイレ」の場合には、そのラベル「トイレ」の付与された音データの始点と終点をそれぞれ５秒ずつ拡張して消去することになる。したがって、ラベル「トイレ」の付与された音データよりも１０秒だけ余分に消去することになる。なお、図４では、拡張情報が正の値を有する場合について示しているが、拡張情報は負の値を有してもよい。負の値の場合には、その値の絶対値だけ、始点や終点を縮小して消去することになる。

また、この具体例において、抽出対象ラベル記憶部２１では、図５で示されるラベル識別情報が記憶されているものとする。図５でも、ラベル識別情報は、ラベルそのものを示す情報である。また、各ラベル識別情報には、拡張情報が対応付けられている。拡張情報については、消去が抽出に変わった以外、図４に関する説明と同様であり、その説明を省略する。

マイクを装着した被験者が勤務先に到着した後に、マイクに接続されたレコーダのスイッチを操作し、録音を開始したとする。なお、被験者は、意図的に音データの抽出を行いたい場合には、抽出トリガに対応する音を発生させ、その音がマイクで集音されるようにする。また、被験者は、意図的に音データの消去を行いたい場合には、消去トリガに対応する音を発生させ、その音がマイクで集音されるようにする。この具体例では、抽出トリガに対応する音のみが発生されたものとする。なお、その音は、前述のように、指を鳴らす、手をたたくと言ったように、被験者の体の一部を用いて発生されてもよく、あるいは、ある特定のノック式ボールペンのノック行為によって発生されてもよい。そして、１日中録音をした後に、そのレコーダからメモリを取り出し、音データラベル付与装置１に接続されているリーダに装着したとする。すると、音データ受付部１１は、そのメモリから録音された音データを読み出し、分離部１２と蓄積部１３とに渡す（ステップＳ１０１）。分離部１２は、受け取った音データから環境音データを分離して蓄積部１３に渡す（ステップＳ１０２）。蓄積部１３は、音データ受付部１１から受け取った音データと、分離部１２から受け取った環境音データである音データとをそれぞれ音データ記憶部１４に蓄積する（ステップＳ１０３）。図６は、そのようにして蓄積された分離後の音データの一例を示す図である。図６において、横軸によって時間が示されており、縦軸によって音圧が示されている。

ラベル付与部１８は、一連の分離後の音データが蓄積されたことを検知すると、ラベルの付与を行うと判断し、図示しない経路によって音画像変換部１５に音画像の変換を行う旨を指示する（ステップＳ１０４）。すると、音画像変換部１５は、音データ記憶部１４で記憶されている分離後の音データにアクセスし、５０ミリ秒ごとに音画像に変換していく。具体的には、まず、音画像変換部１５は、タイムコード００：００：００．００〜００：００：００．０５の音データをフーリエ変換して、音画像に変換する（ステップＳ１０５）。その音画像は、例えば、図７で示されるように、横軸が周波数であり、縦軸が強度である画像である。なお、説明の便宜上、図７において「周波数」や「強度」等を明記しているが、音画像は、図７の波形図のみの画像情報である。

次に、比較部１７は、音画像変換部１５によって変換された音画像と、図３で示される対応情報に含まれるラベル音画像との類似情報を算出し、その算出結果をラベル付与部１８に渡す（ステップＳ１０６）。ラベル付与部１８は、比較部１７によって算出された類似情報のうち、最も高い類似性を示す類似情報を特定し、その類似情報に対応するラベルを取得する。この場合には、「廊下」であったとする。すると、ラベル付与部１８は、そのタイムコード００：００：００．００〜００：００：００．０５の音データに対して、ラベル「廊下」を付与する（ステップＳ１０７）。その後、５０ミリ秒ごとに音画像への変換と、音画像の比較と、ラベルの付与とが順次繰り返して行われる（ステップＳ１０５〜Ｓ１０７）。図８は、そのようにして音データに付与されたラベルの一例を示す図である。図８において、タイムコードと、ラベルとが対応付けられている。図８で示される情報は、ラベル付与部１８によって、音データ記憶部１４に蓄積されるものとする。また、ラベル付与部１８は、音データのすべてのタイムコードに対してラベルを付与した後に、図８で示される情報のタイムコードをラベルごとにマージして、図９で示される情報を生成し、音データ記憶部１４に蓄積するものとする。

消去部２０は、一連のラベルの付与が終了したことを検知すると、音データの消去を行うと判断し（ステップＳ１０８）、図９のラベルのうち、図４のラベル識別情報で識別されるラベルに対応するタイムコードを特定する（ステップＳ１０９）。この場合には、ラベル「トイレ」に対応するタイムコード００：４０：２５．２０〜００：４１：３８．１０，…が特定されたとする。すると、消去部２０は、消去対象が存在すると判断し（ステップＳ１１０）、その消去対象であるラベル「トイレ」に対応する拡張情報を読み出し、特定したタイムコード００：４０：２５．２０〜００：４１：３８．１０，…を、読み出した拡張情報に応じて変更する。具体的には、各タイムコードの始点を５秒減らし、終点を５秒増やした拡張後のタイムコード００：４０：２０．２０〜００：４１：４３．１０，…を生成し、そのタイムコードに対応する音データ（この音データは、分離前の音データである）を消去する（ステップＳ１１１）。

次に、抽出部２２は、音データの消去が終了したことを検知すると、音データの抽出を行うと判断し（ステップＳ１１２）、図９のラベルのうち、図５のラベル識別情報で識別されるラベルに対応するタイムコードを特定する（ステップＳ１１３）。この場合には、ラベル「抽出トリガ」に対応するタイムコード００：４１：５６．５５〜００：４１：５７．５０が特定されたとする。すると、抽出部２２は、抽出対象が存在すると判断し（ステップＳ１１４）、その抽出対象であるラベル「抽出トリガ」に対応する拡張情報を読み出し、特定したタイムコード００：４１：５６．５５〜００：４１：５７．５０を、読み出した拡張情報に応じて変更する。その拡張後のタイムコードは、００：４１：５６．５５〜００：４２：５７．５０となる。そして、抽出部２２は、その拡張後のタイムコードに対応する音データ（この音データは、分離前の音データである）を抽出し、その抽出した音データを図示しない記録媒体に蓄積する（ステップＳ１１５）。

なお、この具体例では、タイムコードが相対的な時間を示すものである場合について説明したが、そうでなくてもよい。前述のように、絶対的な日時を示すタイムコードを用いてもよい。また、この具体例のように、相対的な時間を示すタイムコードを用いた場合であっても、そのタイムコードの任意の点（例えば、始点や終点、あるいは、それ以外の時点）に対応する日時を特定しておくことが好適である。

また、この具体例では、消去トリガや抽出トリガを用いて音データを消去したり、音データを抽出したりする場合について説明したが、その消去トリガや抽出トリガには、消去対象や抽出対象の始点を示すトリガと、終点を示すトリガとの両方が存在してもよい。そして、消去部２０は、始点を示す消去トリガに対応する音データの時点から、終点を示す消去トリガに対応する音データの時点までを消去し、抽出部２２は、始点を示す抽出トリガに対応する音データの時点から、終点を示す抽出トリガに対応する音データの時点までを抽出してもよい。なお、この場合には、始点を示すトリガと、終点を示すトリガとにそれぞれ別のラベルが付与されるものとする。

また、音データを音画像に変換する際に、ノイズを除去する処理を行ってもよい。例えば、時間積分処理や、その他の手法を用いてノイズを除去してもよい。時間積分処理等のノイズを除去する方法についてはすでに公知であり、その説明を省略する。

以上のように、本実施の形態による音データラベル付与装置１によれば、音データに対して、位置等を示すラベルを付与することができる。その結果、そのラベルを用いて、音データの検索等を行うことができるようになり、所望の音データにアクセスすることが容易になる。例えば、廊下である人と話した際の音データにアクセスしたいと思った場合に、その時間帯等を記憶していないこともある。そのような場合であっても、本実施の形態のようにラベルが付与されていることによって、ラベル「廊下」に対応する音データのみを調べればよいことになり、すべての音データを調べるよりも容易に所望の音データにアクセスできることになる。

また、あらかじめ指定しているラベルに対応する音データを自動的に消去したり、抽出したりすることができるため、例えば、プライバシーに関わる音データを自動的に消去することができ、また、抽出したい音データを自動的に抽出することができる。

なお、本実施の形態の具体例では、一定の間隔（５０ミリ秒）ごとに音画像への変換を行う場合について説明したが、そうでなくてもよい。例えば、音画像変換部１５は、周波数のピークを連続して有する期間の音データを一の音画像に変換してもよい。周波数のピークを有する音データとは、図１０で示されるように、音画像においてピークが存在する場合（図１０では、１７００Ｈｚのあたりにピークが存在する）には、そのピークが連続している期間の音データを１個の音画像に変換してもよい。そのピークの連続において、ピークの周波数は変化しなくてもよく、あるいは、ピークの周波数が変化してもよい。例えば、駅ごとに電車の出発時に流れる電子音のメロディーが異なる場合がある。そのような場合には、そのメロディーの始めから終わりまでではピークが連続するため、そのメロディーの始めから終わりまでが１個の音画像に変換されることになり、その音画像を用いて駅の位置に応じたラベルを付与することができるようになる。この場合には、対応情報においてラベルと対応付けられるラベル音画像も、ピークが連続している期間の音データに応じた音画像であることが好適である。具体的には、音画像変換部１５は、前述の説明のように、５０ミリ秒ごとに音画像への変換を行い、ある音画像にピークが存在する場合には、その後の音画像への変換においてピークが存在しなくなるまで音画像への変換を継続すると共に、ピークが存在しなくなると、ピークの連続していた期間の音データの全体を音画像に変換する。そして、比較部１７は、ピークを有する５０ミリ秒ごとの音画像ではなく、ピークの連続していた期間の音データに対応する音画像を用いて、ラベル音画像との比較を行う。

ここで、ピークの存在を検知する方法について簡単に説明する。例えば、音データをフーリエ変換したスペクトルの強度（パワー）をｆ（ｘ）とする。なお、ｘは周波数である。そして、そのｆ（ｘ）の周波数ｘを下端の周波数から上端の周波数まで順次、変えた場合に、次の関係１，２のいずれか一方を満たすｘが存在するのであれば、ピークが存在すると判断してもよい。

関係１：ｆ（ｘ）×Ｓ＜ｆ（ｘ＋Δｘ）
関係２：ｆ（ｘ）＞ｆ（ｘ＋Δｘ）×Ｓ

ただし、Ｓはピーク検出の目安となるしきい値であり、例えば、Ｓは１．５や３等の値であってもよい。また、Δｘは、周波数の増分（例えば、５Ｈｚ等）である。このピークの検出方法から明らかなように、ピークの存在の有無は、フーリエ変換後の強度ｆ（ｘ）を微分したｆ'（ｘ）の値域の絶対値が、Ｓを超える値をとる周波数ｘが存在するかどうかによって判断してもよい。その周波数ｘが存在するのであれば、ピークが存在することになり、その周波数ｘが存在しないのであれば、ピークが存在しないことになる。

（実施の形態２）
本発明の実施の形態２による音データラベル付与装置２について、図面を参照しながら説明する。本実施の形態による音データラベル付与装置２は、複数の音出力装置の出力する音を用いて、音データに被験者の座標をも付与するものである。

図１１は、本実施の形態による音データラベル付与装置２の構成を示すブロック図である。本実施の形態による音データラベル付与装置２は、音データ受付部１１と、分離部１２と、蓄積部１３と、音データ記憶部１４と、音画像変換部１５と、対応情報記憶部１６と、比較部１７と、ラベル付与部１８と、消去対象ラベル記憶部１９と、消去部２０と、抽出対象ラベル記憶部２１と、抽出部２２と、位置対応情報記憶部３１と、座標算出部３２と、座標付与部３３とを備える。位置対応情報記憶部３１、座標算出部３２、座標付与部３３以外の構成及び動作は、ラベル付与部１８が座標算出用のラベルを付与する際に、３個のラベルと、その各ラベルに対応する類似情報とを付与する以外、実施の形態１と同様であり、その説明を省略する。

位置対応情報記憶部３１では、３個以上の位置対応情報が記憶される。位置対応情報は、ラベルとそのラベルに対応する音を出力する音出力装置の座標とを対応付ける情報である。すなわち、位置対応情報では、音出力装置の座標と、その音出力装置を識別できるラベルとが対応付けられていることになる。音出力装置は、実施の形態１で説明したものと同様のものである。音出力装置の座標は、局所的な座標（例えば、会議室内での座標、オフィス内での座標等）であってもよく、あるいは、グローバルな座標（例えば、緯度と経度等）であってもよい。

位置対応情報記憶部３１に３個以上の位置対応情報が記憶される過程は問わない。例えば、記録媒体を介して３個以上の位置対応情報が位置対応情報記憶部３１で記憶されるようになってもよく、通信回線等を介して送信された３個以上の位置対応情報が位置対応情報記憶部３１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された３個以上の位置対応情報が位置対応情報記憶部３１で記憶されるようになってもよい。位置対応情報記憶部３１での記憶は、ＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。位置対応情報記憶部３１は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスク等）によって実現されうる。

ここで、「ラベルと、座標とを対応付ける」とは、ラベルから座標を取得できればよいという意味である。したがって、位置対応情報は、ラベルと座標とを組として含む情報を有してもよく、ラベルと座標とをリンク付ける情報であってもよい。後者の場合には、位置対応情報は、例えば、ラベルと座標の格納されている位置を示すポインタやアドレスとを対応付ける情報であってもよい。本実施の形態では、前者の場合について説明する。また、ラベルと座標とは、直接対応付けられていなくてもよい。例えば、ラベルに、第３の情報が対応しており、その第３の情報に座標が対応していてもよい。

座標算出部３２は、音データに付与された３個のラベル及び類似情報と、３個のラベルにそれぞれ対応する座標とを用いて、音データに対応する座標を算出する。すなわち、座標算出部３２は、音データに対応する、３個の類似情報と、その３個の類似情報にそれぞれ応じた座標とを用いて、音データに対応する座標を算出する。この座標の算出は、３点測量と同様の方法によって行うことができる。なお、１個の音源から出力された音を４個のマイク（空間なので４個である。平面であれば３個でよい）で集音することによって音源の３次元空間での位置を特定する技術が特開平６−２４１８８３号公報で開示されている。座標算出部３２が行うことは、これと逆に、３個の点音源から出力された同一音圧の音を１個のマイクで集音することによってマイクの２次元平面での位置を特定するものである。例えば、音源Ａに対応する類似情報の示す類似度がＸ％であり、音源Ｂに対応する類似情報の示す類似度がＹ％であり、音源Ｃに対応する類似情報の示す類似度がＺ％である場合には、算出対象となる座標は、音源Ａまでの距離と、音源Ｂまでの距離との比がＳＱＲ（１／Ｘ）：ＳＱＲ（１／Ｙ）となる位置であり、音源Ｂまでの距離と、音源Ｃまでの距離との比がＳＱＲ（１／Ｙ）：ＳＱＲ（１／Ｚ）となる位置であり、音源Ｃまでの距離と、音源Ａまでの距離との比がＳＱＲ（１／Ｚ）：ＳＱＲ（１／Ｘ）となる位置である。したがって、この条件と、音源Ａ，Ｂ，Ｃの座標とを用いて、音データに対応する座標を算出することができる。なお、ＳＱＲ（Ｍ）は、Ｍの平方根を意味している。

なお、３個の音源に対応した音出力装置が、それぞれ単一の周波数の音を出力するものである場合には、その３個の音源の音を含む音データの音画像は、３個のピークを有するものとなり、各音源に対応したラベル音画像は、それぞれ各音源に対応した１個のピークを有するものとなる。したがって、類似情報を算出する際に、そのピークの高さの比に応じた類似情報を算出してもよい。例えば、ある音源の周波数のピークについて、音画像のピークの高さが、ラベル音画像のピークの高さの７０％であれば、比較部１７は、類似性が７０％であることを示す類似情報を算出してもよい。

座標付与部３３は、座標算出部３２が算出した座標を、座標に対応する音データに付与する。座標に対応する音データとは、その座標の算出で用いられた類似情報の付与されている音データのことである。なお、音データに座標を付与する方法は、音データにラベルを付与する方法と同様であり、その説明を省略する。

なお、前述のように、本実施の形態では、比較部１７は、音画像とラベル音画像との比較の際に、両者の類似性に関する情報である類似情報を算出するものである。

また、ラベル付与部１８は、座標算出用のラベルを付与する際には、各音データに、３個のラベルと、その３個のラベルにそれぞれ対応する類似情報とを対応付けて付与するものとする。ただし、その３個のラベルは、類似性の最も高い方から３個のラベルであるとする。

また、音データ記憶部１４と、対応情報記憶部１６と、消去対象ラベル記憶部１９と、抽出対象ラベル記憶部２１と、位置対応情報記憶部３１との任意の２以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。

次に、本実施の形態による音データラベル付与装置２の動作について、図１２のフローチャートを用いて説明する。なお、ステップＳ２０１〜Ｓ２０５以外の処理については、実施の形態１における図２のフローチャートと同様であり、その説明を省略する。

（ステップＳ２０１）座標付与部３３は、座標の付与を行うかどうか判断する。例えば、音データへの一連のラベルの付与が終了した後に、座標の付与を行うと判断してもよく、座標の付与を行う旨の指示を音データラベル付与装置１が受け付けた場合に、座標の付与を行うと判断してもよく、その他のタイミングで座標の付与を行うと判断してもよい。そして、座標の付与を行う場合には、ステップＳ２０２に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ２０２）座標算出部３２は、座標の付与を行う対象となる音データを特定する。音データが座標の付与を行う対象であるかどうかは、その音データに座標算出用のラベルが付与されているかどうかによって判断することができる。

（ステップＳ２０３）座標算出部３２は、ステップＳ２０２で少なくとも一部の音データを特定したかどうか判断する。そして、特定した場合には、ステップＳ２０４に進み、そうでない場合には、ステップＳ１０１に戻る。

（ステップＳ２０４）座標算出部３２は、ステップＳ２０２で特定した音データについて座標を算出する。具体的には、その特定した音データに付与されているラベルに対応する座標を、位置対応情報記憶部３１で記憶されている位置対応情報を用いて取得し、その取得した座標と、その座標に対応する類似情報とを用いて、音データに対応する座標を算出する。

（ステップＳ２０５）座標付与部３３は、座標算出部３２が算出した座標を、その座標に対応する音データに付与する。そして、ステップＳ１０１に戻る。

なお、２以上の座標の算出を行う場合には、ステップＳ２０４，Ｓ２０５の処理を繰り返して実行してもよい。また、図１２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、本実施の形態による音データラベル付与装置２の動作について、具体例を用いて説明する。
この具体例では、対応情報記憶部１６において、図１３で示される対応情報が記憶されているものとする。図１３の対応情報において、ラベルとラベル音画像とが対応付けられて記憶されているのは、図３の対応情報と同様である。なお、音源１０１等は、音出力装置を識別するラベルである。すなわち、「音源」の含まれるラベルが、座標算出用のラベルである。また、その音源１０１等に対応するラベル音画像ＳＰ１０１等は、音源１０１等から出力される音に対応する音画像である。

また、この具体例において、位置対応情報記憶部３１では、図１４で示される位置対応情報が記憶されているものとする。図１４の位置対応情報において、ラベルと座標とが対応付けられている。その座標は、ある部屋における位置を示す座標である。

また、この具体例において、消去対象ラベル記憶部１９で図４の情報が記憶されており、抽出対象ラベル記憶部２１で図５の情報が記憶されていることは、実施の形態１の具体例と同様であるとする。
また、この具体例では、被験者は、図１４の位置対応情報で示される位置に配置された音出力装置の間をも移動するものとする。

また、この具体例において、音データを受け付けて蓄積する処理や、ラベルを付与する処理、音データの消去、音データの抽出の処理は、実施の形態１の具体例と同様であり、その説明を省略する。ただし、ラベルを付与する際に、変換後の音画像と最も高い類似性を有するラベル音画像が座標算出用のラベルである場合（すなわち、そのラベルに「音源」が含まれる場合）には、ラベル付与部１８は、音データに対して、類似性の高い順に３個のラベルを付与すると共に、その付与した各ラベルに対応する類似情報をも付与するものとする。変換後の音画像と最も高い類似性を有するラベル音画像が座標算出用のラベルでない場合には、実施の形態１の具体例と同様にしてラベルの付与が行われるものとする。

具体的には、ラベル付与部１８が５０ミリ秒ごとにラベルを付与した結果は、例えば、図１５で示されるようになる。図１５において、タイムコード０１：１８：４０．１５〜０１：１８：４０．２０等に対応して、３個の座標算出用のラベルと、各ラベルに対応する類似情報とが付与されていることが分かる。なお、この具体例において、類似情報は、類似性を示す情報（類似度）であるとする。

座標付与部３３は、実施の形態１の具体例で説明したデータの抽出が終了したことを検知すると、座標の付与を行うと判断し（ステップＳ２０１）、座標算出部３２に座標の算出を行う旨の指示を渡す。すると、座標算出部３２は、図１５で示される情報を参照し、座標算出用のラベルが付与されているタイムコード０１：１８：４０．１５〜０１：１８：４０．２０等の音データを特定する（ステップＳ２０２）。そして、特定された座標の付与対象となる音データが存在するため（ステップＳ２０３）、座標算出部３２は、図１５の特定されたレコードごとに、座標の算出を行う。例えば、タイムコード０１：１８：４０．１５〜０１：１８：４０．２０に対応する音データについては、音源１０１に対応する類似情報が６８％であり、音源１０２に対応する類似情報が４３％であり、音源１０３に対応する類似情報が４３％であるため、それらの類似情報に応じて前述のようにして座標（３，３）を算出し、座標付与部３３に渡す（ステップＳ２０４）。座標付与部３３は、その座標を、対応する音データに付与する（ステップＳ２０５）。その結果、図１６で示されるように、タイムコード０１：１８：４０．１５〜０１：１８：４０．２０に対応する座標が付与されることになる。

なお、座標算出部３２は、座標の算出対象となるすべてのタイムコードについて、座標の算出を行い、座標付与部３３は、その算出された座標を付与する。ただし、図１５のタイムコード０１：１８：４０．２０〜０１：１８：４０．２５のように、直前のタイムコードと同じラベル、類似情報が付与されている場合には、座標の算出を行わず、すでに付与されている座標と同じ座標を付与してもよい。

以上のように、本実施の形態による音データラベル付与装置２によれば、位置対応情報等を用いることによって、被験者の位置（厳密には、被験者の装着しているマイクの位置）を示す座標を知ることができる。したがって、位置を示すラベルが付与される場合よりもより細かい位置に関する情報を、音データに対して付与することができることになる。

なお、本実施の形態では、音データに座標算出用のラベルと類似情報とを付与する際に、３個のラベルを付与する場合について説明したが、そうでなくてもよい。例えば、ラベル付与部１８は、各音データに３以上のラベルと、その３以上のラベルにそれぞれ対応する類似情報とを対応付けて付与するものであってもよい。また、座標算出部３２は、音データに付与された３以上のラベル及び類似情報と、その３以上のラベルにそれぞれ対応する座標とを用いて、その音データに対応する座標を算出してもよい。例えば、座標算出部３２が３次元空間座標系における座標を算出する場合には、各音データに４個のラベルと、その４個のラベルにそれぞれ対応する類似情報とが対応付けられて付与され、座標算出部３２は、それらのラベル及び類似情報と、位置対応情報とを用いて、３次元空間座標系における座標を算出してもよい。この場合には、位置対応情報において、ラベルに対応付けられている座標は、本実施の形態の具体例で説明した２次元平面座標系の座標ではなく、３次元空間座標系の座標である。なお、平面の座標を算出する場合にも、各音データに４以上のラベルと、その４以上のラベルにそれぞれ対応する類似情報とが対応付けられて付与され、その４以上のラベル等を用いて、座標の算出が行われてもよい。また、空間の座標を算出する場合にも、各音データに５以上のラベルと、その５以上のラベルにそれぞれ対応する類似情報とが対応付けられて付与され、その５以上のラベル等を用いて、座標の算出が行われてもよい。

また、上記各実施の形態において、音データ記憶部１４で記憶される音データは、ラベルの付与や、消去、抽出等の対象となる長期に保持されるものであってもよく、あるいは、音画像変換部１５による音画像の変換のために一時的に記憶される程度のものであってもよい。後者の場合には、ラベルの付与や、消去、抽出等の対象となる音データは、音データ記憶部１４とは異なる音データ記憶部で記憶されていてもよい。例えば、音データ受付部１１が記録媒体から音データを受け付ける場合には、その記録媒体で記憶されている音データに対して、ラベルの付与や、消去、抽出等の処理が行われてもよい。

また、上記各実施の形態において、対応情報記憶部１６で記憶されている対応情報においてラベルに対応付けられている音画像は、あらかじめ記憶されているものである場合について説明したが、そうでなくてもよい。例えば、比較部１７が比較を行った際に、あらかじめ設定されたしきい値よりも高い類似性を有するラベル音画像が存在しなかった場合に、その比較対象となる音画像に新たなラベルを発行して、そのラベルと、その比較対象となる音画像であるラベル音画像とを対応付けて有する対応情報を対応情報記憶部１６に蓄積してもよい。この場合には、音データに対して、その新たに発行されたラベルが付与されることになる。このようにすることで、新たな音（すなわち、対応情報に含まれるいずれの音画像とも、しきい値よりも高い類似性を有しない音）が受け付けられた場合には、その音に対して新たなラベル発行され、そのラベルが音データに付与されると共に、そのラベルに関する対応情報（すなわち、その発行されたラベルと、新たな音に対応する音画像とを対応付ける対応情報）が蓄積され、過去に受け付けられた音と似た音が受け付けられた場合には、上記各実施の形態で説明したように、対応情報を用いて、その過去に受け付けられた音に発行されたラベルが付与されることになる。その発行されるラベルは、各ラベルを区別可能なものであれば、どのようなものであってもよい。例えば、「１」「２」「３」…のように順番にインクリメントしていく数字であってもよく、アルファベットやその他の記号であってもよい。また、事後的に、そのラベルに対応する音を聞くことによって、そのラベルを、「オフィス」「踏切」「休憩室」等のように、位置や音の内容を示すラベルに置換してもよい。なお、新たなラベルの発行や、対応情報の蓄積等は、比較部１７が行ってもよく、あるいは、その他の構成要素（例えば、図示しないラベル発行部等）が行ってもよい。また、このようにラベルを発行して付与する場合には、ラベルの同じ繰り返しが生じることもある。例えば、ラベル「１０」「７」「１５」「１６」の並びが繰り返して出現するような場合には、そのラベルの並びに対して、新たなラベル（例えば、ラベル「１２３」等）を発行して、そのラベルの並び「１０」「７」「１５」「１６」を、新たに発行したラベル「１２３」で置き換えるようにしてもよい。

また、上記各実施の形態では、音データラベル付与装置１，２が分離部１２を備える場合について説明したが、そうでなくてもよい。音データラベル付与装置１，２が分離部１２を備えない場合には、蓄積部１３は、音データ受付部１１が受け付けた音データを音データ記憶部１４に蓄積することになる。その結果、音画像変換部１５によって音画像に変換される音データも、ラベル付与部１８がラベルを付与する音データも同じものとなる。

また、上記各実施の形態では、消去対象ラベル記憶部１９と消去部２０とを備える場合について説明したが、ラベルに応じた音データの自動的な消去を行わなくてもよいのであれば、音データラベル付与装置１，２は、消去対象ラベル記憶部１９と消去部２０とを備えていなくてもよい。

また、上記各実施の形態では、抽出対象ラベル記憶部２１と抽出部２２とを備える場合について説明したが、ラベルに応じた音データの自動的な抽出を行わなくてもよいのであれば、音データラベル付与装置１，２は、抽出対象ラベル記憶部２１と抽出部２２とを備えていなくてもよい。

また、上記各実施の形態において、ラベルの補間を行うようにしてもよい。例えば、タイムコード００．００秒から１０．００秒まではラベル「廊下」が付与され、タイムコード１０．００秒から１０．１０秒まではラベル「職場の座席」が付与され、タイムコード１０．１０秒から５０．００秒まではラベル「廊下」が付与された場合には、０．１秒だけ異なるラベルが付与されたことは不適切であるため、そのタイムコード１０．００秒から１０．１０秒までもラベル「廊下」に変更してもよい。一般的に言えば、注目している音データが所定の長さ以下（例えば、１秒以下等）であり、その注目している音データに対して時間的に前後である所定の長さ以上（例えば、５秒以上等）の音データに同じラベル（上の例では「廊下」である）が付与されており、その注目している音データに、前後の音データとは異なるラベル（上の例では「職場の座席」である）が付与されている場合には、その注目している音データに付与されているラベルを、その音データの前後の音データに付与されているラベルに変更するようにしてもよい。また、分離部１２によって分離されることによって消去された区間や、ラベルが付与できなかった区間についても、上記説明と同様に、その前後の所定の長さ以上の音データに同じラベルが付与されているのであれば、その区間にも前後の音データと同じラベルを付与するようにしてもよい。

また、上記各実施の形態において、ラベル付与部１８が付与したラベルの付与結果や、消去部２０が音データを消去した結果の音データ、抽出部２２が抽出した音データを出力する図示しない出力部を備えてもよい。その出力は、出力対象が音データである場合には、例えば、所定の機器への通信回線を介した送信でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。また、その出力は、出力対象がラベルの付与結果である場合には、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイ等）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、その図示しない出力部は、出力を行うデバイス（例えば、表示デバイスやプリンタ等）を含んでもよく、あるいは含まなくてもよい。また、その図示しない出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

また、上記各実施の形態では、音データラベル付与装置１，２がスタンドアロンである場合について説明したが、音データラベル付与装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、受付部屋出力部は、通信回線を介して情報を受け付けたり、情報を出力したりしてもよい。

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記各実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。

また、上記各実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

また、上記各実施の形態において、音データラベル付与装置１，２に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音データラベル付与装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、被験者の位置においてマイクによって集音された音データを受け付ける音データ受付部、音データ受付部が受け付けた音データを、周波数ごとの強度を示す音画像に変換する音画像変換部、音画像変換部が変換した音画像と、ラベルとラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である対応情報が２以上記憶される対応情報記憶部で記憶されているラベル音画像とを比較する比較部、比較部による比較結果を用いて、音画像変換部が変換した音画像と類似性の高いラベル音画像に対応するラベルを特定し、特定したラベルを、音画像に対応する音データに付与するラベル付与部、として機能させるためのプログラムである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバ等からダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭ等の光ディスクや磁気ディスク、半導体メモリ等）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１７は、上記プログラムを実行して、上記各実施の形態による音データラベル付与装置１，２を実現するコンピュータの外観の一例を示す模式図である。上記各実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図１７において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５、ＦＤ（Ｆｌｏｐｐｙ（登録商標）Ｄｉｓｋ）ドライブ９０６を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図１８は、コンピュータシステム９００の内部構成を示す図である。図１８において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５、ＦＤドライブ９０６に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記各実施の形態による音データラベル付与装置１，２の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１、またはＦＤ９２２に記憶されて、ＣＤ−ＲＯＭドライブ９０５、またはＦＤドライブ９０６に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１やＦＤ９２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記各実施の形態による音データラベル付与装置１，２の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による音データラベル付与装置等によれば、被験者の位置で集音された音データに対して、ラベルを付与することができ、音データにラベルを付与する装置等として有用である。

１、２音データラベル付与装置
１１音データ受付部
１２分離部
１３蓄積部
１４音データ記憶部
１５音画像変換部
１６対応情報記憶部
１７比較部
１８ラベル付与部
１９消去対象ラベル記憶部
２０消去部
２１抽出対象ラベル記憶部
２２抽出部
３１位置対応情報記憶部
３２座標算出部
３３座標付与部

Claims

被験者の位置においてマイクによって集音された音データを受け付ける音データ受付部と、
ラベルと当該ラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である対応情報が２以上記憶される対応情報記憶部と、
前記音データ受付部が受け付けた音データを、周波数ごとの強度を示す音画像に変換する音画像変換部と、
前記音画像変換部が変換した音画像と、前記対応情報記憶部で記憶されているラベル音画像との類似性に関する情報である類似情報を算出する比較部と、
前記比較部によって算出された類似情報を用いて、前記音画像変換部が変換した音画像と類似性の高いラベル音画像に対応するラベルを３以上特定し、当該特定した３以上のラベルと、当該特定した３以上のラベルにそれぞれ対応する類似情報とを対応付けて、前記音画像に対応する音データに付与するラベル付与部と、
ラベルと当該ラベルに対応する音を出力する音出力装置の座標とを対応付ける情報である位置対応情報が記憶される位置対応情報記憶部と、
音データに付与された３以上のラベル及び類似情報と、当該３以上のラベルにそれぞれ対応する座標とを用いて、当該音データに対応する座標を算出する座標算出部と、
前記座標算出部が算出した座標を、当該座標に対応する音データに付与する座標付与部と、を備えた音データラベル付与装置。
前記音出力装置が出力する音は、非可聴域の音である、請求項１記載の音データラベル付与装置。
前記音データ受付部が受け付ける音データは、被験者の環境の音データである環境音データを含んでおり、
前記音データ受付部が受け付けた音データから、環境音データを分離する分離部をさらに備え、
前記音画像変換部は、前記分離部によって分離された環境音データを音画像に変換する、請求項１または請求項２記載の音データラベル付与装置。
前記音画像変換部は、周波数のピークを連続して有する期間の音データを一の音画像に変換する、請求項１から請求項３のいずれか記載の音データラベル付与装置。
前記音データ受付部が受け付ける音データが記憶される音データ記憶部と、
消去対象の音データに対応するラベルを識別するラベル識別情報が記憶される消去対象ラベル記憶部と、
前記ラベルの付与された音データのうち、前記消去対象ラベル記憶部で記憶されているラベル識別情報で識別されるラベルに関する音データを前記音データ記憶部から消去する消去部と、をさらに備えた、請求項１から請求項４のいずれか記載の音データラベル付与装置。
前記音データ受付部が受け付ける音データが記憶される音データ記憶部と、
抽出対象の音データに対応するラベルを識別するラベル識別情報が記憶される抽出対象ラベル記憶部と、
前記ラベルの付与された音データのうち、前記抽出対象ラベル記憶部で記憶されているラベル識別情報で識別されるラベルに関する音データを抽出して蓄積する抽出部と、をさらに備えた、請求項１から請求項５のいずれか記載の音データラベル付与装置。
音データ受付部と、ラベルと当該ラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である対応情報が２以上記憶される対応情報記憶部と、音画像変換部と、比較部と、ラベル付与部と、ラベルと当該ラベルに対応する音を出力する音出力装置の座標とを対応付ける情報である位置対応情報が記憶される位置対応情報記憶部と、座標算出部と、座標付与部とを用いて処理される音データラベル付与方法であって、
前記音データ受付部が、被験者の位置においてマイクによって集音された音データを受け付ける音データ受付ステップと、
前記音画像変換部が、前記音データ受付ステップで受け付けた音データを、周波数ごとの強度を示す音画像に変換する音画像変換ステップと、
前記比較部が、前記音画像変換ステップで変換した音画像と、前記対応情報記憶部で記憶されているラベル音画像との類似性に関する情報である類似情報を算出する比較ステップと、
前記ラベル付与部が、前記比較ステップで算出された類似情報を用いて、前記音画像変換ステップで変換した音画像と類似性の高いラベル音画像に対応するラベルを３以上特定し、当該特定した３以上のラベルと、当該特定した３以上のラベルにそれぞれ対応する類似情報とを対応付けて、前記音画像に対応する音データに付与するラベル付与ステップと、
前記座標算出部が、音データに付与された３以上のラベル及び類似情報と、当該３以上のラベルにそれぞれ対応する座標とを用いて、当該音データに対応する座標を算出する座標算出ステップと、
前記座標付与部が、前記座標算出ステップで算出した座標を、当該座標に対応する音データに付与する座標付与ステップと、を備えた音データラベル付与方法。
コンピュータを、
被験者の位置においてマイクによって集音された音データを受け付ける音データ受付部、
前記音データ受付部が受け付けた音データを、周波数ごとの強度を示す音画像に変換する音画像変換部、
前記音画像変換部が変換した音画像と、ラベルと当該ラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である対応情報が２以上記憶される対応情報記憶部で記憶されているラベル音画像との類似性に関する情報である類似情報を算出する比較部、
前記比較部によって算出された類似情報を用いて、前記音画像変換部が変換した音画像と類似性の高いラベル音画像に対応するラベルを３以上特定し、当該特定した３以上のラベルと、当該特定した３以上のラベルにそれぞれ対応する類似情報とを対応付けて、前記音画像に対応する音データに付与するラベル付与部、
音データに付与された３以上のラベル及び類似情報と、当該３以上のラベルに、ラベルと当該ラベルに対応する音を出力する音出力装置の座標とを対応付ける情報である位置対応情報が記憶される位置対応情報記憶部で記憶されている位置対応情報によってそれぞれ対応する座標とを用いて、当該音データに対応する座標を算出する座標算出部、
前記座標算出部が算出した座標を、当該座標に対応する音データに付与する座標付与部として機能させるためのプログラム。