以下、本発明による音データラベル付与装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による音データラベル付与装置について、図面を参照しながら説明する。本実施の形態による音データラベル付与装置は、被験者の位置において集音された音データに対してラベルを付与するものである。そのラベルによって、例えば、被験者の位置が示されることになる。
図1は、本実施の形態による音データラベル付与装置1の構成を示すブロック図である。本実施の形態による音データラベル付与装置1は、音データ受付部11と、分離部12と、蓄積部13と、音データ記憶部14と、音画像変換部15と、対応情報記憶部16と、比較部17と、ラベル付与部18と、消去対象ラベル記憶部19と、消去部20と、抽出対象ラベル記憶部21と、抽出部22とを備える。
音データ受付部11は、被験者の位置においてマイクによって集音された音データを受け付ける。被験者とは、周囲の音データが収集される対象のことであり、主に個人(人間)を想定しているが、例えば、動物や自律的に行動可能なロボットであってもよい。本実施の形態では、被験者が人間である場合について説明する。また、被験者の周囲の音を集音するマイクは、被験者に装着されていてもよく(例えば、ハンズフリーマイクや、ヘッドセットのマイク、クリップマイク、タイピンマイク等)、あるいは、被験者の移動に応じて移動するようにされたものであってもよい。このマイクで集音された音データには、一般に、環境音データと、その他の音データとが含まれることになる。環境音データとは、被験者の環境の音データである。環境音データ以外の音データとしては、例えば、被験者から生じた音(例えば、被験者の発声や、被験者がロボットである場合の動作音等)の音データや、被験者の話し相手の発声した音データ等がある。また、音データの取得で用いられるマイクは、1個であってもよく、2個以上であってもよい。後者の場合には、例えば、被験者の発生した音を集音する目的のマイク(例えば、被験者の口元や、被験者ののどの位置に配置されてもよい)と、被験者の発生した音と環境音との両方を集音する目的のマイク(例えば、被験者の襟元に配置されてもよい)とが存在してもよい。また、後者の場合には、例えば、ステレオマイクであってもよい。また、音データ受付部11は、マイクで集音された音データを、リアルタイムで受け付けてもよく、あるいは、マイクで集音され、録音された音データを一括して受け付けてもよい。また、音データ受付部11が受け付ける音データは、デジタルデータであることが好適である。テープに録音されたアナログデータのように、テープの伸び等に起因する変化が起こらないからである。本実施の形態では音データがデジタルデータである場合について説明する。
音データ受付部11は、前述のように、例えば、マイクから入力された音データを受け付けてもよく、有線もしくは無線の通信回線を介して送信された音データを受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリ等)から読み出された音データを受け付けてもよい。なお、音データ受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカード等)を含んでもよく、あるいは含まなくてもよい。また、音データ受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
分離部12は、音データ受付部11が受け付けた音データから、環境音データを分離する。環境音データを用いてラベルの付与を行うことによって、被験者の位置に関する適切なラベルを付与することができると考えられるからである。ここで、環境音データを分離するいくつかの方法について説明する。
(1)周波数カット
人間の声は一般に、85Hz〜8kHzの周波数であることが知られている。したがって、分離部12は、音データ受付部11が受け付けた音データの全音域のうち、その人間の声に対応する周波数の成分をカット(除去)した音データである環境音データを取得してもよい。なお、人の声に対応する周波数帯域を任意に設定できるようにしてもよいことは言うまでもない。
(2)音圧による分離
音データを集音するマイクが、例えば、被験者の口元の近傍に位置している場合には、被験者の発声した音の音圧のレベルは高くなると考えられる。したがって、分離部12は、音圧がしきい値を超える音データは除去し、音圧がしきい値よりも小さい音データである環境音データを取得してもよい。このしきい値は、あらかじめ設定された値であってもよく、あるいは、音データ受付部11が受け付けた音データの最大の音圧を用いて生成された値であってもよい。後者の場合には、しきい値は、例えば、最大の音圧に、1より小さい値(例えば、0.6や0.8等)を掛けた値であってもよい。
(3)2個のチャンネルを用いた分離
前述のように、音データが2個のマイクによってそれぞれ集音された2チャンネルのものであり、一方のチャンネル(これを「第1のチャンネル」とする)が被験者の発声した音データに対応し、他方のチャンネル(これを「第2のチャンネル」とする)が被験者の発声と環境音との音データに対応する場合には、分離部12は、第2のチャンネルの音データから、第1のチャンネルの音データを差し引くことによって、環境音データのみを分離してもよい。その分離の際に、適宜、第1及び第2のチャンネルのレベル合わせ等を行い、最適な分離を行うことができるように調整してもよいことは言うまでもない。
(4)人間の声の除去
近年、ボーカルつきの音楽データから、人間の声のみを除去する技術が開発されてきている。したがって、分離部12は、そのような人間の声を除去する技術を用いて、音データ受付部11が受け付けた音データから、人間の声の成分を除去した音データである環境音データを取得してもよい。
なお、ここでは、分離部12が環境音データを分離するいくつかの方法について説明したが、これ以外の方法を用いて環境音データを分離してもよいことは言うまでもない。
蓄積部13は、音データ受付部11が受け付けた音データを、後述する音データ記憶部14に蓄積する。また、蓄積部13は、分離部12によって分離された環境音データである音データも、その音データ記憶部14に蓄積する。
音データ記憶部14では、音データ受付部11が受け付けた音データが記憶される。また、音データ記憶部14では、分離部12によって分離された環境音データである音データも記憶される。また、この音データ記憶部14で記憶されている音データには、タイムコードが対応付けられていることが好適である。そのタイムコードは、音データ受付部11が受け付けた音データにあらかじめ設定されていてもよく、あるいは、蓄積部13が音データを音データ記憶部14に蓄積する際に設定してもよい。また、そのタイムコードは、音データのすべての時間帯にわたって設定されていてもよく、あるいは、始点や終点等の一部についてのみ設定されていてもよい。後者の場合であっても、そのタイムコードの設定されている位置からの差分の時間を算出することによって、音データのすべての時間帯についてタイムコードを知ることができる。また、タイムコードは、絶対的な日時を示すものであってもよく、相対的な時間を示すものであってもよい。前者の場合には、例えば、電波時計等から取得された日時を用いたものであってもよい。また、分離後の音データのタイムコードと、分離前の音データのタイムコードとは同期している(音データの同じ時間的な位置に、同じタイムコードが対応付けられている)ことが好適である。後述するように、ラベルの選定は分離後の音データを用いて行われ、ラベルの付与は分離前の音データに対して行われるからである。音データ記憶部14での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音データ記憶部14は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスク等)によって実現される。
音画像変換部15は、音データ受付部11が受け付け、分離部12によって分離された環境音データである音データを、周波数ごとの強度を示す音画像に変換する。音画像変換部15は、例えば、音データ記憶部14で記憶されている音データを、ある時間間隔ごとに音画像に変換してもよい。その時間間隔は、一定であってもよく、そうでなくてもよい。音画像は、例えば、音データをフーリエ変換した結果である、横軸が周波数で、縦軸が信号の強度であるスペクトル画像(パワースペクトル画像)であってもよく、横軸が時間、縦軸が周波数であり、強度が濃淡や色の濃さ等によって示されるスペクトログラムであってもよく、その他の周波数ごとの音の強度を示す画像であってもよい。スペクトログラムは、例えば、複数のバンドパスフィルタを用いて生成してもよく、あるいは、短時間フーリエ変換によって生成してもよい。音データから音画像を生成する方法はすでに公知であり、その詳細な説明を省略する。
対応情報記憶部16では、2以上の対応情報が記憶される。対応情報は、ラベルとそのラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である。そのラベルは、一般的に位置を示すラベル(例えば、「会議室」「廊下」「職場の座席」「休憩室」等)であるが、それ以外のラベルであってもよい。ここで、「位置」とは、経度や緯度、座標等で示される厳密な意味での位置ではなく、位置に関する属性であると考えることもできる。位置以外を示すラベルとしては、例えば、後述する消去部20による消去の対象となることを示すラベル「消去トリガ」や、後述する抽出部22による抽出の対象となることを示すラベル「抽出トリガ」、重要な部分であることを示すラベル「重要」等がある。ラベル音画像は、音画像変換部15で変換された音画像と比較されるものであるため、その音画像と同じ種類のものであることが好適である。したがって、音画像変換部15によって音データがスペクトル画像である音画像に変換される場合には、ラベル音画像もスペクトル画像であることが好適である。また、音画像変換部15によって音データがスペクトログラムである音画像に変換される場合には、ラベル音画像もスペクトログラムであることが好適である。そのラベル音画像は、対応するラベルに応じて生成されることになる。例えば、ラベル「会議室」に対応するラベル音画像は、会議室の音を録音し、その録音した音データを音画像に変換することによって生成することができる。なお、ラベル「消去トリガ」等の位置以外を示すラベルに対応するラベル音画像は、そのラベルに対応する音(例えば、所定の電子音や指を鳴らす音、手をたたく音等)を録音し、その録音した音データを音画像に変換することによって生成することができる。
対応情報記憶部16に2以上の対応情報が記憶される過程は問わない。例えば、記録媒体を介して2以上の対応情報が対応情報記憶部16で記憶されるようになってもよく、通信回線等を介して送信された2以上の対応情報が対応情報記憶部16で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された2以上の対応情報が対応情報記憶部16で記憶されるようになってもよい。対応情報記憶部16での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。対応情報記憶部16は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスク等)によって実現されうる。
比較部17は、音画像変換部15が変換した音画像と、対応情報記憶部16で記憶されているラベル音画像とを比較する。この比較は、音画像変換部15が変換した音画像と似ているラベル音画像を特定するために行われる。したがって、比較部17は、音画像変換部15が変換した音画像と、ラベル音画像との類似性に関する情報である類似情報を算出してもよい。類似情報は、類似の程度が分かる情報であれば、その内容を問わない。類似情報は、例えば、類似性が高いほど大きい値となる情報であってもよく、あるいは、類似性が低いほど大きい値となる情報であってもよい。画像の類似性を示す情報を算出する方法はすでに公知であり、その詳細な説明を省略する。本実施の形態では、比較部17は、音画像とラベル音画像との類似情報を算出するものとする。
ラベル付与部18は、比較部17による比較結果を用いて、音画像変換部15が変換した音画像と類似性の高いラベル音画像に対応するラベルを特定し、その特定したラベルを、音画像に対応する音データに付与する。このラベルの付与される音データは、音データ受付部11が受け付けた音データであって、分離部12による分離が行われていない音データである。「音画像と類似性の高いラベル音画像」とは、例えば、その音画像と類似性の最も高い1個のラベル音画像であってもよく、その音画像と類似性の最も高い方からの2個以上のラベル音画像であってもよく、その音画像としきい値よりも高い類似性を有する1個または2個以上のラベル音画像であってもよい。そのしきい値は、あらかじめ設定された値であってもよく、あるいは、比較部17によって算出された最大の類似性を示す値を用いて生成された値であってもよい。後者の場合には、しきい値は、例えば、最大の類似性を示す値に、1より小さい値(例えば、0.6や0.8等)を掛けた値であってもよい。このように、ラベル付与部18が特定するラベルは、1個であってもよく、あるいは、2個以上であってもよい。また、音データにラベルを付与するとは、ラベルと、音データの時間的位置との対応が分かるようになればよい、という意味である。したがって、音データにラベルを付与することは、例えば、音データの該当箇所にそのラベルを直接付与する(例えば、音データがラベル用のチャンネルを有しており、そのチャンネルにラベルを設定する等)ことであってもよく、タイムコードに対してラベルを設定する(例えば、タイムコード00:00:00〜00:05:35にラベル「会議室」を設定し、タイムコード00:05:35〜00:06:12にラベル「廊下」を設定する等)ことであってもよく、ラベルに対してタイムコードを設定する(例えば、ラベル「会議室」にタイムコード00:00:00〜00:05:35、01:47:56〜02:43:45を設定する等)ことであってもよい。なお、本実施の形態では、ラベル付与部18によって付与されたラベルが音データ記憶部14で記憶される場合について説明するが、そうでなくてもよい。ラベル付与部18によって付与されたラベルが、他の記録媒体で記憶されてもよい。また、ラベル付与部18は、音データに1または2以上のラベルを付与する際に、その1または2以上のラベルと、その1または2以上のラベルにそれぞれ対応する類似情報とを対応付けて音データに付与してもよく、そうでなくてもよい。なお、その類似情報は、比較部17によって算出されたものである。また、音画像と類似性の高いラベル音画像が存在しない場合、すなわち、音画像との類似性があらかじめ設定されたしきい値よりも高いラベル音画像が存在しない場合には、ラベル付与部18は、「不明」である旨のラベルや、ラベルが特定できない旨のラベル等を音データに付与してもよい。
消去対象ラベル記憶部19では、消去対象の音データに対応するラベルを識別するラベル識別情報が記憶される。この消去対象ラベル記憶部19で記憶されるラベル識別情報で識別されるラベルに対応する音データは、後述する消去部20によって消去されることになる。したがって、機密上の理由や、プライバシーの保護上の理由等によって消去したい音データに対応するラベルを識別するラベル識別情報を消去対象ラベル記憶部19に蓄積しておくことによって、そのラベル識別情報に対応する音データを自動的に消去できることになる。ラベル識別情報は、ラベルを識別できるのであればその内容を問わない。例えば、ラベル識別情報は、ラベルそのものであってもよく、ラベルを識別する数値や記号等であってもよい。
消去対象ラベル記憶部19にラベル識別情報が記憶される過程は問わない。例えば、記録媒体を介してラベル識別情報が消去対象ラベル記憶部19で記憶されるようになってもよく、通信回線等を介して送信されたラベル識別情報が消去対象ラベル記憶部19で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたラベル識別情報が消去対象ラベル記憶部19で記憶されるようになってもよい。消去対象ラベル記憶部19での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。消去対象ラベル記憶部19は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスク等)によって実現されうる。
消去部20は、ラベルの付与された音データのうち、消去対象ラベル記憶部19で記憶されているラベル識別情報で識別されるラベルに関する音データを音データ記憶部14から消去する。ラベルに関する音データとは、ラベルに対応する範囲の音データであってもよく、ラベルに対応する音データの範囲の始点と終点の少なくとも一方が変更された範囲を有する音データであってもよい。タイムコード00:10:00〜00:15:35にラベル「トイレ」が付与されており、そのラベル「トイレ」が消去対象ラベル記憶部19で記憶されている場合に、例えば、前者であれば、そのタイムコード00:10:00〜00:15:35の範囲の音データが消去されることになり、後者であれば、そのタイムコードの拡張された範囲(例えば、前後に1分ずつ拡張したタイムコード00:09:00〜00:16:35の範囲)の音データが消去されることになる。後者の場合における始点と終点の少なくとも一方を変更する程度は、消去対象ラベル記憶部19で記憶されるすべてのラベル識別情報について同じであってもよく、あるいは、ラベル識別情報ごとに異なっていてもよい。後者の場合には、その変更の程度も消去対象ラベル記憶部19で記憶されていてもよく、あるいは、他の記録媒体で記憶されていてもよい。また、音データを消去するとは、音データを無音のレベルにすることであってもよく、その音データ自体を音データ記憶部14から削除することであってもよい。ただし、後者の場合であっても、タイムコード自体は変更されないように削除することが好適である。
抽出対象ラベル記憶部21では、抽出対象の音データに対応するラベルを識別するラベル識別情報が記憶される。この抽出対象ラベル記憶部21で記憶されるラベル識別情報で識別されるラベルに対応する音データは、後述する抽出部22によって抽出されることになる。したがって、あらかじめ抽出したい音データに対応するラベルを識別するラベル識別情報を抽出対象ラベル記憶部21に蓄積しておくことによって、そのラベル識別情報に対応する音データを自動的に抽出できることになる。
抽出対象ラベル記憶部21にラベル識別情報が記憶される過程は問わない。例えば、記録媒体を介してラベル識別情報が抽出対象ラベル記憶部21で記憶されるようになってもよく、通信回線等を介して送信されたラベル識別情報が抽出対象ラベル記憶部21で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたラベル識別情報が抽出対象ラベル記憶部21で記憶されるようになってもよい。抽出対象ラベル記憶部21での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。抽出対象ラベル記憶部21は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスク等)によって実現されうる。
抽出部22は、ラベルの付与された音データのうち、抽出対象ラベル記憶部21で記憶されているラベル識別情報で識別されるラベルに関する音データを音データ記憶部14から抽出して記録媒体に蓄積する。その記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、抽出部22が有していてもよく、あるいは抽出部22の外部に存在してもよい。また、この記録媒体は、音データを一時的に記憶するものであってもよく、そうでなくてもよい。「ラベルに関する音データ」については、消去対象ラベル記憶部19が抽出対象ラベル記憶部21となる以外、消去部20での説明と同様である。
なお、音データ記憶部14と、対応情報記憶部16と、消去対象ラベル記憶部19と、抽出対象ラベル記憶部21との任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、音データを記憶している領域が音データ記憶部14となり、2以上の対応情報を記憶している領域が対応情報記憶部16となってもよい。
また、この音データラベル付与装置1では、会議室や廊下等ごとに特有の音(例えば、パーソナルコンピュータの冷却ファンの音、モニター点灯時の恒常的な音、空調音やそれらの反射音等)が存在するため、それを用いて音データにラベルを付与するものであるが、そのラベルの付与で用いられる環境音を意図的に出力するようにしてもよい。例えば、ラベルに対応する音を出力する音出力装置を、そのラベルに対応する位置に設置しておくことにより、被験者がその位置にいる場合には、その音出力装置から出力された音の音データを取得することになる。そして、その音データを用いて、より正確なラベルの付与が可能となる。なお、その音出力装置が出力する音は、事務機器の音や空調音等とは異なる波長の特性を有する音であることが好適である。他の環境音と区別可能にするためである。また、その音出力装置が出力する音は、非可聴域の音であってもよく、そうでなくてもよい。前者の場合には、音出力装置の出力する音によって、被験者やその他の人が煩わされることがないようになる。その非可聴域の音は、可聴域の音よりも高周波側の音であることが好適である。高周波の音の方が低周波の音よりも遠くに伝わりにくいことが知られており、位置の特定にはより好適だからである。音出力装置は、例えば、スピーカを用いて音を出力してもよく、そうでなくてもよい。後者の場合には、例えば、電磁石を用いた電鈴や、ベルをたたくモータを備えたもの等であってもよい。その音出力装置は、例えば、天井に設置されてもよい。その場合に、蛍光灯から電磁誘導で電力を取得する給電技術を用いて、音出力装置用の電力を取得してもよい。また、太陽電池を用いて、音出力装置用の電力を取得してもよい。そのようにすることで、音出力装置用の電源を設けなくてもよいことになる。また、その音出力装置に人感センサを接続し、人のいないときには音を出力しないようにしてもよい。
次に、本実施の形態による音データラベル付与装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)音データ受付部11は、音データを受け付けたかどうか判断する。そして、音データを受け付けた場合には、ステップS102に進み、そうでない場合には、ステップS104に進む。
(ステップS102)分離部12は、音データ受付部11が受け付けた音データから環境音データを分離する。
(ステップS103)蓄積部13は、分離部12が分離した環境音データである音データを音データ記憶部14に蓄積する。また、蓄積部13は、音データ受付部11が受け付けた分離前の音データも音データ記憶部14に蓄積する。そして、ステップS101に戻る。
(ステップS104)ラベル付与部18は、ラベルの付与を行うかどうか判断する。例えば、一連の音データの蓄積が終了した後に、ラベルの付与を行うと判断してもよく、ラベルの付与を行う旨の指示を音データラベル付与装置1が受け付けた場合に、ラベルの付与を行うと判断してもよく、その他のタイミングでラベルの付与を行うと判断してもよい。そして、ラベルの付与を行う場合には、ステップS105に進み、そうでない場合には、ステップS108に進む。
(ステップS105)音画像変換部15は、音画像に変換する対象となる音データを音データ記憶部14から読み出し、その音データを音画像に変換する。その音画像は、図示しない記録媒体において一時的に記憶されてもよい。
(ステップS106)比較部17は、対応情報記憶部16で記憶されているラベル音画像と、ステップS105で変換された音画像とを比較する。具体的には、比較部17は、ラベル音画像と音画像との類似情報を算出する。
(ステップS107)ラベル付与部18は、比較部17による比較結果を用いて、音画像と類似性の高いラベル音画像に対応するラベルを、その音画像に対応する音データに付与する。そして、ステップS101に戻る。
なお、ステップS105〜S107の処理を、音データ記憶部14で記憶されている音データの先頭から後端までのすべての音データに対して繰り返して実行してもよい。
(ステップS108)消去部20は、音データの消去を行うかどうか判断する。例えば、音データへの一連のラベルの付与が終了した後に、音データの消去を行うと判断してもよく、音データの消去を行う旨の指示を音データラベル付与装置1が受け付けた場合に、音データの消去を行うと判断してもよく、その他のタイミングで音データの消去を行うと判断してもよい。そして、音データの消去を行う場合には、ステップS109に進み、そうでない場合には、ステップS112に進む。
(ステップS109)消去部20は、消去対象ラベル記憶部19で記憶されているラベル識別情報を用いて、そのラベル識別情報で識別されるラベルに関する音データを特定する。
(ステップS110)消去部20は、ステップS109で少なくとも一部の音データを特定したかどうか判断する。そして、特定した場合には、ステップS111に進み、そうでない場合には、ステップS101に戻る。
(ステップS111)消去部20は、ステップS109で特定した音データを消去する。2以上の音データの範囲を特定した場合には、そのそれぞれを消去する。そして、ステップS101に戻る。
(ステップS112)抽出部22は、音データの抽出を行うかどうか判断する。例えば、音データへの一連のラベルの付与が終了した後に、音データの抽出を行うと判断してもよく、音データの抽出を行う旨の指示を音データラベル付与装置1が受け付けた場合に、音データの抽出を行うと判断してもよく、その他のタイミングで音データの抽出を行うと判断してもよい。そして、音データの抽出を行う場合には、ステップS113に進み、そうでない場合には、ステップS101に戻る。
(ステップS113)抽出部22は、抽出対象ラベル記憶部21で記憶されているラベル識別情報を用いて、そのラベル識別情報で識別されるラベルに関する音データを特定する。
(ステップS114)抽出部22は、ステップS113で少なくとも一部の音データを特定したかどうか判断する。そして、特定した場合には、ステップS115に進み、そうでない場合には、ステップS101に戻る。
(ステップS115)抽出部22は、ステップS113で特定した音データを抽出し、記録媒体に蓄積する。2以上の音データの範囲を特定した場合には、そのそれぞれを抽出して蓄積する。そして、ステップS101に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、本実施の形態による音データラベル付与装置1の動作について、具体例を用いて説明する。
この具体例において、対応情報記憶部16では、図3で示される対応情報が記憶されているものとする。図3において、ラベルは、「職場の座席」「会議室」等のように位置を示すものと、「抽出トリガ」のように位置と関係ないものとがある。また、ラベルに対応するラベル音画像「SP001」等は、そのラベル音画像の画像データのファイル名である。そのラベル音画像「SP001」等で識別される画像データは、それに対応するラベルに応じた音データのスペクトル画像である。なお、図3では、1個のラベルに1個のラベル音画像が対応付けられている場合について示しているが、1個のラベルに2個以上のラベル音画像が対応付けられていてもよい。例えば、廊下や会議室においては、場所によって特徴的な音が変化することがある。したがって、そのような場合には、特徴的な複数の音データを録音し、それぞれの音データに対応するラベル音画像を生成し、対応情報に登録してもよい。
また、この具体例において、消去対象ラベル記憶部19では、図4で示されるラベル識別情報が記憶されているものとする。図4において、ラベル識別情報は、ラベルそのものを示す情報である。また、各ラベル識別情報には、拡張情報が対応付けられている。拡張情報は、ラベル識別情報に対応する音データの始点、終点をどれだけ拡張して消去するのかを示す情報である。例えば、ラベル識別情報「トイレ」の場合には、そのラベル「トイレ」の付与された音データの始点と終点をそれぞれ5秒ずつ拡張して消去することになる。したがって、ラベル「トイレ」の付与された音データよりも10秒だけ余分に消去することになる。なお、図4では、拡張情報が正の値を有する場合について示しているが、拡張情報は負の値を有してもよい。負の値の場合には、その値の絶対値だけ、始点や終点を縮小して消去することになる。
また、この具体例において、抽出対象ラベル記憶部21では、図5で示されるラベル識別情報が記憶されているものとする。図5でも、ラベル識別情報は、ラベルそのものを示す情報である。また、各ラベル識別情報には、拡張情報が対応付けられている。拡張情報については、消去が抽出に変わった以外、図4に関する説明と同様であり、その説明を省略する。
マイクを装着した被験者が勤務先に到着した後に、マイクに接続されたレコーダのスイッチを操作し、録音を開始したとする。なお、被験者は、意図的に音データの抽出を行いたい場合には、抽出トリガに対応する音を発生させ、その音がマイクで集音されるようにする。また、被験者は、意図的に音データの消去を行いたい場合には、消去トリガに対応する音を発生させ、その音がマイクで集音されるようにする。この具体例では、抽出トリガに対応する音のみが発生されたものとする。なお、その音は、前述のように、指を鳴らす、手をたたくと言ったように、被験者の体の一部を用いて発生されてもよく、あるいは、ある特定のノック式ボールペンのノック行為によって発生されてもよい。そして、1日中録音をした後に、そのレコーダからメモリを取り出し、音データラベル付与装置1に接続されているリーダに装着したとする。すると、音データ受付部11は、そのメモリから録音された音データを読み出し、分離部12と蓄積部13とに渡す(ステップS101)。分離部12は、受け取った音データから環境音データを分離して蓄積部13に渡す(ステップS102)。蓄積部13は、音データ受付部11から受け取った音データと、分離部12から受け取った環境音データである音データとをそれぞれ音データ記憶部14に蓄積する(ステップS103)。図6は、そのようにして蓄積された分離後の音データの一例を示す図である。図6において、横軸によって時間が示されており、縦軸によって音圧が示されている。
ラベル付与部18は、一連の分離後の音データが蓄積されたことを検知すると、ラベルの付与を行うと判断し、図示しない経路によって音画像変換部15に音画像の変換を行う旨を指示する(ステップS104)。すると、音画像変換部15は、音データ記憶部14で記憶されている分離後の音データにアクセスし、50ミリ秒ごとに音画像に変換していく。具体的には、まず、音画像変換部15は、タイムコード00:00:00.00〜00:00:00.05の音データをフーリエ変換して、音画像に変換する(ステップS105)。その音画像は、例えば、図7で示されるように、横軸が周波数であり、縦軸が強度である画像である。なお、説明の便宜上、図7において「周波数」や「強度」等を明記しているが、音画像は、図7の波形図のみの画像情報である。
次に、比較部17は、音画像変換部15によって変換された音画像と、図3で示される対応情報に含まれるラベル音画像との類似情報を算出し、その算出結果をラベル付与部18に渡す(ステップS106)。ラベル付与部18は、比較部17によって算出された類似情報のうち、最も高い類似性を示す類似情報を特定し、その類似情報に対応するラベルを取得する。この場合には、「廊下」であったとする。すると、ラベル付与部18は、そのタイムコード00:00:00.00〜00:00:00.05の音データに対して、ラベル「廊下」を付与する(ステップS107)。その後、50ミリ秒ごとに音画像への変換と、音画像の比較と、ラベルの付与とが順次繰り返して行われる(ステップS105〜S107)。図8は、そのようにして音データに付与されたラベルの一例を示す図である。図8において、タイムコードと、ラベルとが対応付けられている。図8で示される情報は、ラベル付与部18によって、音データ記憶部14に蓄積されるものとする。また、ラベル付与部18は、音データのすべてのタイムコードに対してラベルを付与した後に、図8で示される情報のタイムコードをラベルごとにマージして、図9で示される情報を生成し、音データ記憶部14に蓄積するものとする。
消去部20は、一連のラベルの付与が終了したことを検知すると、音データの消去を行うと判断し(ステップS108)、図9のラベルのうち、図4のラベル識別情報で識別されるラベルに対応するタイムコードを特定する(ステップS109)。この場合には、ラベル「トイレ」に対応するタイムコード00:40:25.20〜00:41:38.10,…が特定されたとする。すると、消去部20は、消去対象が存在すると判断し(ステップS110)、その消去対象であるラベル「トイレ」に対応する拡張情報を読み出し、特定したタイムコード00:40:25.20〜00:41:38.10,…を、読み出した拡張情報に応じて変更する。具体的には、各タイムコードの始点を5秒減らし、終点を5秒増やした拡張後のタイムコード00:40:20.20〜00:41:43.10,…を生成し、そのタイムコードに対応する音データ(この音データは、分離前の音データである)を消去する(ステップS111)。
次に、抽出部22は、音データの消去が終了したことを検知すると、音データの抽出を行うと判断し(ステップS112)、図9のラベルのうち、図5のラベル識別情報で識別されるラベルに対応するタイムコードを特定する(ステップS113)。この場合には、ラベル「抽出トリガ」に対応するタイムコード00:41:56.55〜00:41:57.50が特定されたとする。すると、抽出部22は、抽出対象が存在すると判断し(ステップS114)、その抽出対象であるラベル「抽出トリガ」に対応する拡張情報を読み出し、特定したタイムコード00:41:56.55〜00:41:57.50を、読み出した拡張情報に応じて変更する。その拡張後のタイムコードは、00:41:56.55〜00:42:57.50となる。そして、抽出部22は、その拡張後のタイムコードに対応する音データ(この音データは、分離前の音データである)を抽出し、その抽出した音データを図示しない記録媒体に蓄積する(ステップS115)。
なお、この具体例では、タイムコードが相対的な時間を示すものである場合について説明したが、そうでなくてもよい。前述のように、絶対的な日時を示すタイムコードを用いてもよい。また、この具体例のように、相対的な時間を示すタイムコードを用いた場合であっても、そのタイムコードの任意の点(例えば、始点や終点、あるいは、それ以外の時点)に対応する日時を特定しておくことが好適である。
また、この具体例では、消去トリガや抽出トリガを用いて音データを消去したり、音データを抽出したりする場合について説明したが、その消去トリガや抽出トリガには、消去対象や抽出対象の始点を示すトリガと、終点を示すトリガとの両方が存在してもよい。そして、消去部20は、始点を示す消去トリガに対応する音データの時点から、終点を示す消去トリガに対応する音データの時点までを消去し、抽出部22は、始点を示す抽出トリガに対応する音データの時点から、終点を示す抽出トリガに対応する音データの時点までを抽出してもよい。なお、この場合には、始点を示すトリガと、終点を示すトリガとにそれぞれ別のラベルが付与されるものとする。
また、音データを音画像に変換する際に、ノイズを除去する処理を行ってもよい。例えば、時間積分処理や、その他の手法を用いてノイズを除去してもよい。時間積分処理等のノイズを除去する方法についてはすでに公知であり、その説明を省略する。
以上のように、本実施の形態による音データラベル付与装置1によれば、音データに対して、位置等を示すラベルを付与することができる。その結果、そのラベルを用いて、音データの検索等を行うことができるようになり、所望の音データにアクセスすることが容易になる。例えば、廊下である人と話した際の音データにアクセスしたいと思った場合に、その時間帯等を記憶していないこともある。そのような場合であっても、本実施の形態のようにラベルが付与されていることによって、ラベル「廊下」に対応する音データのみを調べればよいことになり、すべての音データを調べるよりも容易に所望の音データにアクセスできることになる。
また、あらかじめ指定しているラベルに対応する音データを自動的に消去したり、抽出したりすることができるため、例えば、プライバシーに関わる音データを自動的に消去することができ、また、抽出したい音データを自動的に抽出することができる。
なお、本実施の形態の具体例では、一定の間隔(50ミリ秒)ごとに音画像への変換を行う場合について説明したが、そうでなくてもよい。例えば、音画像変換部15は、周波数のピークを連続して有する期間の音データを一の音画像に変換してもよい。周波数のピークを有する音データとは、図10で示されるように、音画像においてピークが存在する場合(図10では、1700Hzのあたりにピークが存在する)には、そのピークが連続している期間の音データを1個の音画像に変換してもよい。そのピークの連続において、ピークの周波数は変化しなくてもよく、あるいは、ピークの周波数が変化してもよい。例えば、駅ごとに電車の出発時に流れる電子音のメロディーが異なる場合がある。そのような場合には、そのメロディーの始めから終わりまでではピークが連続するため、そのメロディーの始めから終わりまでが1個の音画像に変換されることになり、その音画像を用いて駅の位置に応じたラベルを付与することができるようになる。この場合には、対応情報においてラベルと対応付けられるラベル音画像も、ピークが連続している期間の音データに応じた音画像であることが好適である。具体的には、音画像変換部15は、前述の説明のように、50ミリ秒ごとに音画像への変換を行い、ある音画像にピークが存在する場合には、その後の音画像への変換においてピークが存在しなくなるまで音画像への変換を継続すると共に、ピークが存在しなくなると、ピークの連続していた期間の音データの全体を音画像に変換する。そして、比較部17は、ピークを有する50ミリ秒ごとの音画像ではなく、ピークの連続していた期間の音データに対応する音画像を用いて、ラベル音画像との比較を行う。
ここで、ピークの存在を検知する方法について簡単に説明する。例えば、音データをフーリエ変換したスペクトルの強度(パワー)をf(x)とする。なお、xは周波数である。そして、そのf(x)の周波数xを下端の周波数から上端の周波数まで順次、変えた場合に、次の関係1,2のいずれか一方を満たすxが存在するのであれば、ピークが存在すると判断してもよい。
関係1:f(x)×S<f(x+Δx)
関係2:f(x)>f(x+Δx)×S
ただし、Sはピーク検出の目安となるしきい値であり、例えば、Sは1.5や3等の値であってもよい。また、Δxは、周波数の増分(例えば、5Hz等)である。このピークの検出方法から明らかなように、ピークの存在の有無は、フーリエ変換後の強度f(x)を微分したf'(x)の値域の絶対値が、Sを超える値をとる周波数xが存在するかどうかによって判断してもよい。その周波数xが存在するのであれば、ピークが存在することになり、その周波数xが存在しないのであれば、ピークが存在しないことになる。
(実施の形態2)
本発明の実施の形態2による音データラベル付与装置2について、図面を参照しながら説明する。本実施の形態による音データラベル付与装置2は、複数の音出力装置の出力する音を用いて、音データに被験者の座標をも付与するものである。
図11は、本実施の形態による音データラベル付与装置2の構成を示すブロック図である。本実施の形態による音データラベル付与装置2は、音データ受付部11と、分離部12と、蓄積部13と、音データ記憶部14と、音画像変換部15と、対応情報記憶部16と、比較部17と、ラベル付与部18と、消去対象ラベル記憶部19と、消去部20と、抽出対象ラベル記憶部21と、抽出部22と、位置対応情報記憶部31と、座標算出部32と、座標付与部33とを備える。位置対応情報記憶部31、座標算出部32、座標付与部33以外の構成及び動作は、ラベル付与部18が座標算出用のラベルを付与する際に、3個のラベルと、その各ラベルに対応する類似情報とを付与する以外、実施の形態1と同様であり、その説明を省略する。
位置対応情報記憶部31では、3個以上の位置対応情報が記憶される。位置対応情報は、ラベルとそのラベルに対応する音を出力する音出力装置の座標とを対応付ける情報である。すなわち、位置対応情報では、音出力装置の座標と、その音出力装置を識別できるラベルとが対応付けられていることになる。音出力装置は、実施の形態1で説明したものと同様のものである。音出力装置の座標は、局所的な座標(例えば、会議室内での座標、オフィス内での座標等)であってもよく、あるいは、グローバルな座標(例えば、緯度と経度等)であってもよい。
位置対応情報記憶部31に3個以上の位置対応情報が記憶される過程は問わない。例えば、記録媒体を介して3個以上の位置対応情報が位置対応情報記憶部31で記憶されるようになってもよく、通信回線等を介して送信された3個以上の位置対応情報が位置対応情報記憶部31で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された3個以上の位置対応情報が位置対応情報記憶部31で記憶されるようになってもよい。位置対応情報記憶部31での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。位置対応情報記憶部31は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスク等)によって実現されうる。
ここで、「ラベルと、座標とを対応付ける」とは、ラベルから座標を取得できればよいという意味である。したがって、位置対応情報は、ラベルと座標とを組として含む情報を有してもよく、ラベルと座標とをリンク付ける情報であってもよい。後者の場合には、位置対応情報は、例えば、ラベルと座標の格納されている位置を示すポインタやアドレスとを対応付ける情報であってもよい。本実施の形態では、前者の場合について説明する。また、ラベルと座標とは、直接対応付けられていなくてもよい。例えば、ラベルに、第3の情報が対応しており、その第3の情報に座標が対応していてもよい。
座標算出部32は、音データに付与された3個のラベル及び類似情報と、3個のラベルにそれぞれ対応する座標とを用いて、音データに対応する座標を算出する。すなわち、座標算出部32は、音データに対応する、3個の類似情報と、その3個の類似情報にそれぞれ応じた座標とを用いて、音データに対応する座標を算出する。この座標の算出は、3点測量と同様の方法によって行うことができる。なお、1個の音源から出力された音を4個のマイク(空間なので4個である。平面であれば3個でよい)で集音することによって音源の3次元空間での位置を特定する技術が特開平6−241883号公報で開示されている。座標算出部32が行うことは、これと逆に、3個の点音源から出力された同一音圧の音を1個のマイクで集音することによってマイクの2次元平面での位置を特定するものである。例えば、音源Aに対応する類似情報の示す類似度がX%であり、音源Bに対応する類似情報の示す類似度がY%であり、音源Cに対応する類似情報の示す類似度がZ%である場合には、算出対象となる座標は、音源Aまでの距離と、音源Bまでの距離との比がSQR(1/X):SQR(1/Y)となる位置であり、音源Bまでの距離と、音源Cまでの距離との比がSQR(1/Y):SQR(1/Z)となる位置であり、音源Cまでの距離と、音源Aまでの距離との比がSQR(1/Z):SQR(1/X)となる位置である。したがって、この条件と、音源A,B,Cの座標とを用いて、音データに対応する座標を算出することができる。なお、SQR(M)は、Mの平方根を意味している。
なお、3個の音源に対応した音出力装置が、それぞれ単一の周波数の音を出力するものである場合には、その3個の音源の音を含む音データの音画像は、3個のピークを有するものとなり、各音源に対応したラベル音画像は、それぞれ各音源に対応した1個のピークを有するものとなる。したがって、類似情報を算出する際に、そのピークの高さの比に応じた類似情報を算出してもよい。例えば、ある音源の周波数のピークについて、音画像のピークの高さが、ラベル音画像のピークの高さの70%であれば、比較部17は、類似性が70%であることを示す類似情報を算出してもよい。
座標付与部33は、座標算出部32が算出した座標を、座標に対応する音データに付与する。座標に対応する音データとは、その座標の算出で用いられた類似情報の付与されている音データのことである。なお、音データに座標を付与する方法は、音データにラベルを付与する方法と同様であり、その説明を省略する。
なお、前述のように、本実施の形態では、比較部17は、音画像とラベル音画像との比較の際に、両者の類似性に関する情報である類似情報を算出するものである。
また、ラベル付与部18は、座標算出用のラベルを付与する際には、各音データに、3個のラベルと、その3個のラベルにそれぞれ対応する類似情報とを対応付けて付与するものとする。ただし、その3個のラベルは、類似性の最も高い方から3個のラベルであるとする。
また、音データ記憶部14と、対応情報記憶部16と、消去対象ラベル記憶部19と、抽出対象ラベル記憶部21と、位置対応情報記憶部31との任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。
次に、本実施の形態による音データラベル付与装置2の動作について、図12のフローチャートを用いて説明する。なお、ステップS201〜S205以外の処理については、実施の形態1における図2のフローチャートと同様であり、その説明を省略する。
(ステップS201)座標付与部33は、座標の付与を行うかどうか判断する。例えば、音データへの一連のラベルの付与が終了した後に、座標の付与を行うと判断してもよく、座標の付与を行う旨の指示を音データラベル付与装置1が受け付けた場合に、座標の付与を行うと判断してもよく、その他のタイミングで座標の付与を行うと判断してもよい。そして、座標の付与を行う場合には、ステップS202に進み、そうでない場合には、ステップS101に戻る。
(ステップS202)座標算出部32は、座標の付与を行う対象となる音データを特定する。音データが座標の付与を行う対象であるかどうかは、その音データに座標算出用のラベルが付与されているかどうかによって判断することができる。
(ステップS203)座標算出部32は、ステップS202で少なくとも一部の音データを特定したかどうか判断する。そして、特定した場合には、ステップS204に進み、そうでない場合には、ステップS101に戻る。
(ステップS204)座標算出部32は、ステップS202で特定した音データについて座標を算出する。具体的には、その特定した音データに付与されているラベルに対応する座標を、位置対応情報記憶部31で記憶されている位置対応情報を用いて取得し、その取得した座標と、その座標に対応する類似情報とを用いて、音データに対応する座標を算出する。
(ステップS205)座標付与部33は、座標算出部32が算出した座標を、その座標に対応する音データに付与する。そして、ステップS101に戻る。
なお、2以上の座標の算出を行う場合には、ステップS204,S205の処理を繰り返して実行してもよい。また、図12のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、本実施の形態による音データラベル付与装置2の動作について、具体例を用いて説明する。
この具体例では、対応情報記憶部16において、図13で示される対応情報が記憶されているものとする。図13の対応情報において、ラベルとラベル音画像とが対応付けられて記憶されているのは、図3の対応情報と同様である。なお、音源101等は、音出力装置を識別するラベルである。すなわち、「音源」の含まれるラベルが、座標算出用のラベルである。また、その音源101等に対応するラベル音画像SP101等は、音源101等から出力される音に対応する音画像である。
また、この具体例において、位置対応情報記憶部31では、図14で示される位置対応情報が記憶されているものとする。図14の位置対応情報において、ラベルと座標とが対応付けられている。その座標は、ある部屋における位置を示す座標である。
また、この具体例において、消去対象ラベル記憶部19で図4の情報が記憶されており、抽出対象ラベル記憶部21で図5の情報が記憶されていることは、実施の形態1の具体例と同様であるとする。
また、この具体例では、被験者は、図14の位置対応情報で示される位置に配置された音出力装置の間をも移動するものとする。
また、この具体例において、音データを受け付けて蓄積する処理や、ラベルを付与する処理、音データの消去、音データの抽出の処理は、実施の形態1の具体例と同様であり、その説明を省略する。ただし、ラベルを付与する際に、変換後の音画像と最も高い類似性を有するラベル音画像が座標算出用のラベルである場合(すなわち、そのラベルに「音源」が含まれる場合)には、ラベル付与部18は、音データに対して、類似性の高い順に3個のラベルを付与すると共に、その付与した各ラベルに対応する類似情報をも付与するものとする。変換後の音画像と最も高い類似性を有するラベル音画像が座標算出用のラベルでない場合には、実施の形態1の具体例と同様にしてラベルの付与が行われるものとする。
具体的には、ラベル付与部18が50ミリ秒ごとにラベルを付与した結果は、例えば、図15で示されるようになる。図15において、タイムコード01:18:40.15〜01:18:40.20等に対応して、3個の座標算出用のラベルと、各ラベルに対応する類似情報とが付与されていることが分かる。なお、この具体例において、類似情報は、類似性を示す情報(類似度)であるとする。
座標付与部33は、実施の形態1の具体例で説明したデータの抽出が終了したことを検知すると、座標の付与を行うと判断し(ステップS201)、座標算出部32に座標の算出を行う旨の指示を渡す。すると、座標算出部32は、図15で示される情報を参照し、座標算出用のラベルが付与されているタイムコード01:18:40.15〜01:18:40.20等の音データを特定する(ステップS202)。そして、特定された座標の付与対象となる音データが存在するため(ステップS203)、座標算出部32は、図15の特定されたレコードごとに、座標の算出を行う。例えば、タイムコード01:18:40.15〜01:18:40.20に対応する音データについては、音源101に対応する類似情報が68%であり、音源102に対応する類似情報が43%であり、音源103に対応する類似情報が43%であるため、それらの類似情報に応じて前述のようにして座標(3,3)を算出し、座標付与部33に渡す(ステップS204)。座標付与部33は、その座標を、対応する音データに付与する(ステップS205)。その結果、図16で示されるように、タイムコード01:18:40.15〜01:18:40.20に対応する座標が付与されることになる。
なお、座標算出部32は、座標の算出対象となるすべてのタイムコードについて、座標の算出を行い、座標付与部33は、その算出された座標を付与する。ただし、図15のタイムコード01:18:40.20〜01:18:40.25のように、直前のタイムコードと同じラベル、類似情報が付与されている場合には、座標の算出を行わず、すでに付与されている座標と同じ座標を付与してもよい。
以上のように、本実施の形態による音データラベル付与装置2によれば、位置対応情報等を用いることによって、被験者の位置(厳密には、被験者の装着しているマイクの位置)を示す座標を知ることができる。したがって、位置を示すラベルが付与される場合よりもより細かい位置に関する情報を、音データに対して付与することができることになる。
なお、本実施の形態では、音データに座標算出用のラベルと類似情報とを付与する際に、3個のラベルを付与する場合について説明したが、そうでなくてもよい。例えば、ラベル付与部18は、各音データに3以上のラベルと、その3以上のラベルにそれぞれ対応する類似情報とを対応付けて付与するものであってもよい。また、座標算出部32は、音データに付与された3以上のラベル及び類似情報と、その3以上のラベルにそれぞれ対応する座標とを用いて、その音データに対応する座標を算出してもよい。例えば、座標算出部32が3次元空間座標系における座標を算出する場合には、各音データに4個のラベルと、その4個のラベルにそれぞれ対応する類似情報とが対応付けられて付与され、座標算出部32は、それらのラベル及び類似情報と、位置対応情報とを用いて、3次元空間座標系における座標を算出してもよい。この場合には、位置対応情報において、ラベルに対応付けられている座標は、本実施の形態の具体例で説明した2次元平面座標系の座標ではなく、3次元空間座標系の座標である。なお、平面の座標を算出する場合にも、各音データに4以上のラベルと、その4以上のラベルにそれぞれ対応する類似情報とが対応付けられて付与され、その4以上のラベル等を用いて、座標の算出が行われてもよい。また、空間の座標を算出する場合にも、各音データに5以上のラベルと、その5以上のラベルにそれぞれ対応する類似情報とが対応付けられて付与され、その5以上のラベル等を用いて、座標の算出が行われてもよい。
また、上記各実施の形態において、音データ記憶部14で記憶される音データは、ラベルの付与や、消去、抽出等の対象となる長期に保持されるものであってもよく、あるいは、音画像変換部15による音画像の変換のために一時的に記憶される程度のものであってもよい。後者の場合には、ラベルの付与や、消去、抽出等の対象となる音データは、音データ記憶部14とは異なる音データ記憶部で記憶されていてもよい。例えば、音データ受付部11が記録媒体から音データを受け付ける場合には、その記録媒体で記憶されている音データに対して、ラベルの付与や、消去、抽出等の処理が行われてもよい。
また、上記各実施の形態において、対応情報記憶部16で記憶されている対応情報においてラベルに対応付けられている音画像は、あらかじめ記憶されているものである場合について説明したが、そうでなくてもよい。例えば、比較部17が比較を行った際に、あらかじめ設定されたしきい値よりも高い類似性を有するラベル音画像が存在しなかった場合に、その比較対象となる音画像に新たなラベルを発行して、そのラベルと、その比較対象となる音画像であるラベル音画像とを対応付けて有する対応情報を対応情報記憶部16に蓄積してもよい。この場合には、音データに対して、その新たに発行されたラベルが付与されることになる。このようにすることで、新たな音(すなわち、対応情報に含まれるいずれの音画像とも、しきい値よりも高い類似性を有しない音)が受け付けられた場合には、その音に対して新たなラベル発行され、そのラベルが音データに付与されると共に、そのラベルに関する対応情報(すなわち、その発行されたラベルと、新たな音に対応する音画像とを対応付ける対応情報)が蓄積され、過去に受け付けられた音と似た音が受け付けられた場合には、上記各実施の形態で説明したように、対応情報を用いて、その過去に受け付けられた音に発行されたラベルが付与されることになる。その発行されるラベルは、各ラベルを区別可能なものであれば、どのようなものであってもよい。例えば、「1」「2」「3」…のように順番にインクリメントしていく数字であってもよく、アルファベットやその他の記号であってもよい。また、事後的に、そのラベルに対応する音を聞くことによって、そのラベルを、「オフィス」「踏切」「休憩室」等のように、位置や音の内容を示すラベルに置換してもよい。なお、新たなラベルの発行や、対応情報の蓄積等は、比較部17が行ってもよく、あるいは、その他の構成要素(例えば、図示しないラベル発行部等)が行ってもよい。また、このようにラベルを発行して付与する場合には、ラベルの同じ繰り返しが生じることもある。例えば、ラベル「10」「7」「15」「16」の並びが繰り返して出現するような場合には、そのラベルの並びに対して、新たなラベル(例えば、ラベル「123」等)を発行して、そのラベルの並び「10」「7」「15」「16」を、新たに発行したラベル「123」で置き換えるようにしてもよい。
また、上記各実施の形態では、音データラベル付与装置1,2が分離部12を備える場合について説明したが、そうでなくてもよい。音データラベル付与装置1,2が分離部12を備えない場合には、蓄積部13は、音データ受付部11が受け付けた音データを音データ記憶部14に蓄積することになる。その結果、音画像変換部15によって音画像に変換される音データも、ラベル付与部18がラベルを付与する音データも同じものとなる。
また、上記各実施の形態では、消去対象ラベル記憶部19と消去部20とを備える場合について説明したが、ラベルに応じた音データの自動的な消去を行わなくてもよいのであれば、音データラベル付与装置1,2は、消去対象ラベル記憶部19と消去部20とを備えていなくてもよい。
また、上記各実施の形態では、抽出対象ラベル記憶部21と抽出部22とを備える場合について説明したが、ラベルに応じた音データの自動的な抽出を行わなくてもよいのであれば、音データラベル付与装置1,2は、抽出対象ラベル記憶部21と抽出部22とを備えていなくてもよい。
また、上記各実施の形態において、ラベルの補間を行うようにしてもよい。例えば、タイムコード00.00秒から10.00秒まではラベル「廊下」が付与され、タイムコード10.00秒から10.10秒まではラベル「職場の座席」が付与され、タイムコード10.10秒から50.00秒まではラベル「廊下」が付与された場合には、0.1秒だけ異なるラベルが付与されたことは不適切であるため、そのタイムコード10.00秒から10.10秒までもラベル「廊下」に変更してもよい。一般的に言えば、注目している音データが所定の長さ以下(例えば、1秒以下等)であり、その注目している音データに対して時間的に前後である所定の長さ以上(例えば、5秒以上等)の音データに同じラベル(上の例では「廊下」である)が付与されており、その注目している音データに、前後の音データとは異なるラベル(上の例では「職場の座席」である)が付与されている場合には、その注目している音データに付与されているラベルを、その音データの前後の音データに付与されているラベルに変更するようにしてもよい。また、分離部12によって分離されることによって消去された区間や、ラベルが付与できなかった区間についても、上記説明と同様に、その前後の所定の長さ以上の音データに同じラベルが付与されているのであれば、その区間にも前後の音データと同じラベルを付与するようにしてもよい。
また、上記各実施の形態において、ラベル付与部18が付与したラベルの付与結果や、消去部20が音データを消去した結果の音データ、抽出部22が抽出した音データを出力する図示しない出力部を備えてもよい。その出力は、出力対象が音データである場合には、例えば、所定の機器への通信回線を介した送信でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。また、その出力は、出力対象がラベルの付与結果である場合には、例えば、表示デバイス(例えば、CRTや液晶ディスプレイ等)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、その図示しない出力部は、出力を行うデバイス(例えば、表示デバイスやプリンタ等)を含んでもよく、あるいは含まなくてもよい。また、その図示しない出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
また、上記各実施の形態では、音データラベル付与装置1,2がスタンドアロンである場合について説明したが、音データラベル付与装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、受付部屋出力部は、通信回線を介して情報を受け付けたり、情報を出力したりしてもよい。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記各実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。
また、上記各実施の形態において、音データラベル付与装置1,2に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における音データラベル付与装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、被験者の位置においてマイクによって集音された音データを受け付ける音データ受付部、音データ受付部が受け付けた音データを、周波数ごとの強度を示す音画像に変換する音画像変換部、音画像変換部が変換した音画像と、ラベルとラベルに対応する音の周波数ごとの強度を示す音画像であるラベル音画像とを対応付けて有する情報である対応情報が2以上記憶される対応情報記憶部で記憶されているラベル音画像とを比較する比較部、比較部による比較結果を用いて、音画像変換部が変換した音画像と類似性の高いラベル音画像に対応するラベルを特定し、特定したラベルを、音画像に対応する音データに付与するラベル付与部、として機能させるためのプログラムである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバ等からダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROM等の光ディスクや磁気ディスク、半導体メモリ等)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図17は、上記プログラムを実行して、上記各実施の形態による音データラベル付与装置1,2を実現するコンピュータの外観の一例を示す模式図である。上記各実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図17において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図18は、コンピュータシステム900の内部構成を示す図である。図18において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記各実施の形態による音データラベル付与装置1,2の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記各実施の形態による音データラベル付与装置1,2の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。