JP6151883B2

JP6151883B2 - 音検出装置、音検出方法および音検出プログラム

Info

Publication number: JP6151883B2
Application number: JP2011274743A
Authority: JP
Inventors: 麻子北浦
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2017-06-21
Anticipated expiration: 2031-12-15
Also published as: JP2013124039A

Description

本発明は、音検出装置等に関する。

ヒヤリハットや事故などの危険シーンを記録するために、ドライブレコーダ（ＤＲ：Drive Recorder）が利用されている。以下の説明においてドライブレコーダを適宜、ＤＲと表記する。従来のＤＲには、例えば、車両の加速度を利用して、車載カメラの映像データや各種センサのセンサデータを記録する時間帯を特定するものがある。

車両の加速度を利用するＤＲについて説明する。このＤＲは、車両の加速度の値が閾値以上となる時間を検出し、検出した時間の前後数十秒程度の時間帯の映像データやセンサデータ等を記録する。

ここで、上記の閾値は、加速度センサの誤差やデータの記録漏れを考慮して、低めに設定される場合がある。このように閾値が低めに設定されると、ＤＲは、危険とはあまり関係のないシーンでも、データを記録してしまう。例えば、車両が、急なカーブを通過する場合や、凸凹の道路を通過した場合には、加速度が閾値を超え、ＤＲは各データを記録する。この結果、ＤＲに記録されるデータには、不要なデータが多く含まれ、ＤＲの利用者は、人手によって、かかる不要なデータを取り除く作業を行うことになる。このため、精度よく、不要なデータと重要なデータとを選別することが求められている。

また、不要なデータと重要なデータとを選別するべく、上述した車両の加速度の他に、車両の周辺の音データを車両内に設置した単マイクで記録して利用するＤＲも存在するが、記録を行うかどうかの判定は音データなしのＤＲと同じで加速度を用いており、音データの解析は実際に人が耳で聞いて、人手で不要なデータを取り除く際の判断の１つとして利用するに留まっている。

ここで、ＤＲではないが、一般的な音解析の従来技術の一例について説明する。従来技術では、何らかの検出したい音、たとえば、警報音などが記録した音データ内に存在するかどうかを検知するために、検出したい警報音などの音の特定音と同じ周波数成分のレベルが、検知対象の音データ内で閾値以上か否かを判定し、検出したい警報音の有無を判定する。また、音の強度が閾値を超えた場合に、検出したい警報音が含まれると判定する従来技術も存在する。

特開２００６−２６８８２４号公報特開２０１０−２３７７８１号公報

しかしながら、上述した従来技術では、音データに背景雑音が含まれる場合に、検出対象の音を精度良く検出することができないという問題があった。

例えば、ＤＲのマイクは、手軽なダッシュボードに置かれる場合がある。ダッシュボードにマイクが置かれると、車両の揺れによって生じるダッシュボード上のマイクと他の物体、または他の物体同士の接触音が、近くに置かれたマイクに捉えられてしまい、大きな背景雑音として音データに混じってしまう。従来技術では、このような揺れによって生じる背景雑音を考慮していないため、背景雑音が音データに含まれると、音解析に誤差が生じ、検出対象の音を精度良く検出することができない。

上記の課題は、ＤＲに限らず、音データから検出対象となる音を検出する各種の技術に発生し得るものである。

開示の技術は、上記に鑑みてなされたものであって、抽出対象の音を精度良く抽出することができる音検出装置、音検出方法および音検出プログラムを提供することを目的とする。

開示の音検出装置は、選択部と、閾値算出部と、音検出部とを有する。選択部は、移動体に搭載されたマイクから取得した音データと音データを取得する間の移動体の揺れの特徴を含む付随データとを基にして、音データのうち、移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択する。閾値算出部は、類似音データ群に含まれる複数の部分音データの強度を基にして、閾値を算出する。音検出部は、検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データと前記閾値とを基にして、検出音データを修正する。

開示の音検出装置によれば、検出対象の音を精度良く検出することができるという効果を奏する。

図１は、本実施例１に係る音検出装置の構成を示す機能ブロック図である。図２は、本実施例１に係る正規化部の処理を説明するための図である。図３は、背景雑音値を算出する処理４を説明するための図である。図４は、背景雑音値を算出する処理５を説明するための図である。図５は、本実施例１に係る音検出装置の処理手順を示すフローチャートである。図６は、本実施例２に係る音検出装置の構成を示す機能ブロック図である。図７は、信頼度パラメータを生成する処理を説明するための図である。図８は、本実施例２に係る音検出装置の処理手順を示すフローチャートである。図９は、本実施例３に係る音検出装置の構成を示す機能ブロック図である。図１０は、異常音発生確率データのデータ構造の一例を示す図である。図１１は、本実施例３に係る音検出装置の処理手順を示すフローチャートである。図１２は、本実施例４に係る音検出装置の構成を示す機能ブロック図である。図１３は、本実施例４に係る音検出装置の処理手順を示すフローチャートである。図１４は、音検出部の処理を説明するための図である。図１５は、音検出プログラムを実行するコンピュータの一例を示す図である。

以下に、本願の開示する音検出装置、音検出方法および音検出プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例１に係る音検出装置について説明する。例えば、音検出装置は、車両等の移動体に設置されるものとする。図１は、本実施例１に係る音検出装置の構成を示す機能ブロック図である。図１に示すように、この音検出装置１００は、マイク１０１、加速度センサ１０２、速度センサ１０３、位置データ取得部１０４を有する。また、音検出装置１００は、インターフェース部１０５、入力部１０６、表示部１０７、記憶部１１０、制御部１２０を有する。

マイク１０１は、周囲の音を集音するマイクである。マイク１０１は、音データを制御部１２０に出力する。例えば、音データは、所定の時間毎の音データの強度を含む。マイク１０１は、車両の任意の場所に配置される。例えば、マイク１０１は、車両の内部、外部、ダッシュボード内外の何れかに配置されてもよい。

加速度センサ１０２は、車両の加速度を計測するセンサである。加速度センサ１０２は、加速度データを制御部１２０に出力する。加速度データは、所定の時間毎の加速度の大きさを含む。加速度センサ１０２は、車両の任意の場所に配置される。

速度センサ１０３は、車両の速度を計測するセンサである。速度センサ１０３は、速度データを制御部１２０に出力する。速度データは、所定の時間毎の速度の大きさを含む。速度センサ１０３は、車両の任意の場所に配置される。

位置データ取得部１０４は、車両の位置を測定する処理部である。例えば、位置情報取得部１０４は、ＧＰＳ（Global Positioning System）を利用して、車両の位置を測定する。位置データ取得部１０４は、位置データを制御部１２０に出力する。位置データは、所定の時間毎の車両の位置を含む。

例えば、マイク１０１、加速度センサ１０２、速度センサ１０３、位置データ取得部１０４は、１０Ｈｚや３０Ｈｚ等の頻度で、計測したデータを出力するものとする。

インターフェース部１０５は、他の装置とデータ通信を実行する処理部である。例えば、異常音の検出結果や、異常音発生時の音データ等を、インターフェース部１０５を介して外部装置に出力しても良い。

入力部１０６は、音検出装置１００に各種のデータを入力する入力装置である。例えば、入力部１０６は、操作パネル、タッチパネル等に対応する。なお、キーボードなどの入力装置であっても良い。

表示部１０７は、各種のデータを表示する表示装置である。例えば、表示装置１０７は、液晶パネル、タッチパネル等に対応する。

記憶部１１０は、音データ１１０ａ、付随データ１１０ｂ、類似音データ群１１０ｃを記憶する記憶部である。記憶部１１０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。

音データ１１０ａは、マイク１０１が集音した音データに対応する。

付随データ１１０ｂは、加速度データ、速度データ、位置データを含む。加速度データは、加速度センサ１０２が測定出力した加速度データである。速度データは、速度センサ１０３が測定出力した速度データである。位置データは、位置データ取得部１０４が測定出力した位置データである。

音データ１１０ａと、付随データ１１０ｂの加速度データ、速度データ、位置データは、時間によりそれぞれ対応付けられる。

類似音データ群１１０ｃは、音データ１１０ａのうち、車両の揺れの特徴が類似する区間の音データを複数含む。ある区間の音データを、適宜、部分音データと表記する。類似音データ群１１０ｃは、後述する選択部１２０ｂによって生成される。

制御部１２０は、データ管理部１２０ａ、選択部１２０ｂ、正規化部１２０ｃ、閾値算出部１２０ｄ、音検出部１２０ｅを有する。制御部１２０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）や、ＦＰＧＡ（Field Programmable Gate Array）などの集積装置に対応する。また、制御部１２０は、例えば、ＣＰＵやＭＰＵ（Micro Processing Unit）等の電子回路に対応する。

データ管理部１２０ａは、マイク１０１、加速度センサ１０２、速度センサ１０３、位置データ取得部１０４から各データを取得し、記憶部１１０に記憶する処理部である。データ管理部１２０ａは、マイク１０１から取得する音データを、音データ１１０ａとして記憶部１１０に記憶させる。データ管理部１２０ａは、加速度センサ１０２、速度センサ１０３、位置データ取得部１０４からそれぞれ取得する加速度データ、速度データ、位置データを、付随データ１１０ｂとして記憶部１１０に記憶させる。

選択部１２０ｂは、付随データ１１０ｂを基にして、車両の揺れの特徴が類似する区間の時間をそれぞれ特定する。選択部１２０ｂは、特定した時間帯に対応する部分音データを音データ１１０ａからそれぞれ抽出し、各部分音データの組みを、類似音データ群１１０ｃとして、記憶部１１０に記憶させる。

ここで、選択部１２０ｂが、付随データ１１０ｂを基にして、車両の揺れの特徴が類似する区間を特定する処理の一例について説明する。例えば、選択部１２０ｂは、付随データ１１０ｂのうち、加速度データを利用してもよい。選択部１２０ｂは、加速度データのある区間の波形と、他の区間の波形との類似度を判定し、類似度が所定の値以上となる区間の組みをそれぞれ、車両の揺れの特徴が類似する区間として特定する。

選択部１２０ｂは、付随データ１１０ｂのうち、速度データを用いても良い。選択部１２０ｂは、速度データのある区間の波形と、他の区間の波形との類似度を判定し、類似度が所定の値以上となる区間の組みをそれぞれ、車両の揺れの特徴が類似する区間として特定する。

選択部１２０ｂは、付随データ１１０ｂのうち、位置データを用いても良い。選択部１２０ｂは、位置データに基づいて、ある区間の曲率と、他の区間の曲率との類似度を判定し、類似度が所定の値以上となる区間の組みをそれぞれ、車両の揺れの特徴が類似する区間として特定してもよい。または、選択部１２０ｂは、図示しない道路地図データと、位置データとを用いて、車両が通過した道路の道路形状を求め、ある区間の道路形状と、他の区間の道路形状との類似度を判定しても良い。

選択部１２０ｂは、付随データ１１０ｂに含まれる加速度データ、速度データ、位置データをそれぞれ利用して、類似度が所定の値以上となる区間の組みをそれぞれ特定しても良い。すなわち、選択部１２０ｂは、加速度データ、速度データ、位置データの全てにおいて、類似度が所定の値以上となる区間の組みをそれぞれ、車両の揺れの特徴が類似する区間として特定しても良い。

ここで、選択部１２０ｂが、類似度を判定する処理は、相関係数、動的時間伸縮法（DTW:Dynamic Time Warping）、ＤＰ（Dynamic Programming）マッチング法などを用いればよい。選択部１２０ｂは、その他の従来技術を利用して、類似度を判定しても良い。

加速度データ、速度データ、位置データは何れも車両の挙動に関する測定値であり、車両揺れに密接に関係する。このため、各データにおいて類似する区間の部分音データは、車両が似た挙動をした際に記録された音データである可能性が高く、背景雑音が似ている可能性が高い。

正規化部１２０ｃは、類似音データ群１１０ｃを正規化する処理部である。正規化部１２０ｃが正規化する処理の一例について説明する。正規化部１２０ｃは、類似音データ群１１０ｃに含まれる複数の部分音データのうち、基準となる部分音データを選択する。以下の説明において、基準となる部分音データを、基準音データと表記する。正規化部１２０ｃは、基準音データと同じ時間となるように、類似音データ群１１０ｃに含まれる残りの部分音データの時間を調整することで、類似音データ群１１０ｃを正規化する。

図２は、本実施例１に係る正規化部の処理を説明するための図である。図２の各横軸は時間軸である。図２の部分音データ１０ａは、基準音データとする。図２の部分音データ１０ｂ１は、基準音データ以外の部分音データとする。部分音データ１０ａは、音強度値Ａ１〜Ａ６を有する。部分音データ１０ａの各音強度値の時間間隔をｔとする。部分音データ１０ｂ１は、音強度値Ｂ１〜Ｂ４を有する。部分音データ１０ｂ１の各音強度値の時間間隔をｔとする。

正規化部１２０ｃは、部分音データ１０ａの音強度値Ａ１から音強度値までの時間幅と、部分音データ１０ｂ１の音強度値Ｂ１から音強度値Ｂ４までの時間幅とが等しくなるように、音強度値Ｂ４の時間を更新する。また、正規化部１２０ｃは、音強度値Ｂ１〜Ｂ４の時間間隔が等しくなるように、Ｂ２、Ｂ３の時間を更新する。かかる処理を正規化部１２０ｃが実行することで、部分音データ１０ｂ１は、部分音データ１０ｂ２となる。

正規化部１２０ｃは、部分音データ１０ｂ２を生成した後に、音強度値Ｂ１〜Ｂ４を基にして、新たな音強度値Ｐ１〜Ｐ４を生成する。このような処理を行うことで、部分音データ１０ｂ２は、部分音データ１０ｂ３となる。音強度値Ａ１、Ａ２、Ａ３、Ａ４、Ａ５、Ａ６の各時間間隔と、音強度値Ｂ１、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｂ４の各時間間隔は等しい。例えば、各時間間隔をｔとする。

音強度値Ｐ１〜Ｐ４の値を算出する処理について説明する。ここでは、正規化部１２０ｃが音強度値Ｐ１の値を算出する処理について説明する。音強度値Ｐ１の前後に、もとの時間からずれた音強度値Ｂを検出する。図２に示す例では、正規化部１２０ｃは、音強度値Ｐ１の前方から音強度値Ｂ１を検出し、音強度値Ｐ１の後方から音強度値Ｂ２を検出する。音強度値Ｂ１と音強度値Ｐ１との時間差をｔ１とし、音強度値Ｂ２と音強度値Ｐ１との時間差をｔ２とする。正規化部１２０ｃは、音強度値Ｐ１の値を、式（１）に基づいて算出する。

Ｐ１＝（Ｂ１×ｔ２＋Ｂ２×ｔ１）÷（ｔ１＋ｔ２）・・・（１）

正規化部１２０ｃは、他の音強度値Ｐ２〜Ｐ４の値も、音強度値Ｐ１と同様の方法により算出する。なお、ここでは、音強度値の時間正規化の一例を示したが、この他に音の各周波数のレベル値を用いて正規化を行っても良い。例えば、正規化部１２０ｃは、定期的なサンプリングの時間間隔で記録された、各周波数のレベル値群に対し、周波数毎に正規化処理を加えても良い。

閾値算出部１２０ｄは、正規化後の類似音データ群１１０ｃを基にして、背景雑音を判定するための閾値を算出する処理部である。以下において、背景雑音を判定するための閾値を背景雑音値と表記する。閾値算出部１２０ｄは、背景雑音値を音検出部１２０ｅに出力する。

ここで、閾値算出部１２０ｄが背景雑音値を算出する処理は、複数のバリエーションがある。以下では、背景雑音値を算出する処理１〜５について順に説明する。閾値算出部１２０ｄは、処理１〜５の何れかによって算出した背景雑音値を、音検出部１２０ｅに出力する。なお、閾値算出部１２０ｄが、処理１〜３を実行する場合には、類似音データ群１１０は正規化されていなくても良い。また、処理１〜５では、２つの部分音データを用いて背景雑音値を算出する場合について説明するが、３つ以上の部分音データに対しても、同様に背景雑音値を算出することができる。

背景雑音値を算出する処理１について説明する。閾値算出部１２０ｄは、類似音データ群１１０ｃの各部分音データの音強度値を比較し、各音強度値のうち最大の音強度値を、背景雑音値として算出する。

背景雑音値を算出する処理２について説明する。閾値算出部１２０ｄは、類似音データ群１１０ｃの各部分音データの音強度値を比較し、各音強度値のうち最小の音強度値を、背景雑音値として算出する。

背景雑音値を算出する処理３について説明する。閾値算出部１２０ｄは、類似音データ群１１０ｃの各部分音データの音強度値を参照し、各音強度値の平均値を、背景雑音値として算出する。

背景雑音値を算出する処理４について説明する。閾値算出部１２０ｄは、類似音データ群１１０ｃの各部分音データの音強度値をサンプリングの時間間隔毎の平均値を算出し、算出したサンプリングの時間間隔毎の平均値を、背景雑音値として算出する。

図３は、背景雑音値を算出する処理４を説明するための図である。ここでは一例として、部分音データ１０ａと、部分音データ１０ｂ３とを用いて、閾値算出部１２０ｄの処理を説明する。

部分音データ１０ａの音強度値Ａ１を５とし、音強度値Ａ２を５とし、音強度値Ａ３を４とし、音強度値Ａ４を３とし、音強度値Ａ５を４とし、音強度値Ａ６を５とする。部分音データ１０ｂ３の音強度値Ｂ１を３とし、音強度値Ｐ１を５とし、音強度値Ｐ２を５とし、音強度値Ｐ３を４とし、音強度値Ｐ４を４とし、音強度値Ｂ４を５とする。

また、音強度値Ａ１、Ｂ１の時間をＴ１とし、音強度値Ａ２、Ｐ１の時間をＴ２とし、音強度値Ａ３、Ｐ２の時間をＴ３とする。音強度値Ａ４、Ｐ３の時間をＴ４とし、音強度値Ａ５、Ｐ４の時間をＴ５とし、音強度値Ａ６、Ｂ４の時間をＴ６とする。

閾値算出部１２０ｄは、同一時間の音強度値の平均値をそれぞれ算出し、背景雑音値２０ａを生成する。背景雑音値２０ａには、Ｃ１〜Ｃ６が含まれる。Ｃ１は、時間Ｔ１の音強度値Ａ１と音強度値Ｂ１の平均値である。Ｃ２は、時間Ｔ２の音強度値Ａ２と音強度値Ｐ１の平均値である。Ｃ３は、時間Ｔ３の音強度値Ａ３と音強度値Ｐ２の平均値である。Ｃ４は、時間Ｔ４の音強度値Ａ４と音強度値Ｐ３の平均値である。Ｃ５は、時間Ｔ５の音強度値Ａ５と音強度値Ｐ４の平均値である。Ｃ６は、時間Ｔ６の音強度値Ａ６と音強度値Ｂ４の平均値である。

なお、処理４では簡単のため、閾値算出部１２０ｄが、各時間の平均値を算出する例を示したがこれに限定されるものではない。閾値算出部１２０ｄは、各時間の音強度のうち、最大値を背景雑音値２０ａの音強度値Ｃ１〜Ｃ６に設定しても良いし、最小値を背景雑音値２０ａの音強度値Ｃ１〜Ｃ６に設定しても良い。

背景雑音値を算出する処理５について説明する。閾値算出部１２０ｄは、類似音データ群１１０ｃの各部分音データの音強度値の平均値を、所定の時間間隔毎に算出し、算出した各平均値を、背景雑音値として算出する。

図４は、背景雑音値を算出する処理５を説明するための図である。ここでは一例として、部分音データ１０ａと、部分音データ１０ｂ３とを用いて、閾値算出部１２０ｄの処理を説明する。図４において、部分音データ１０ａ、１０ｂ３に関する説明は、図３の部分音データ１０ａ、１０ｂ３に関する説明と同様である。

閾値算出部１２０ｄは、所定の時間間隔に含まれる音強度値の平均値をそれぞれ算出することで、背景雑音値２０ｂを生成する。背景雑音値２０ｂは、音強度値Ｄ１、Ｄ２を含む。音強度値Ｄ１は、時間Ｔ１〜Ｔ３に含まれる音強度値Ａ１〜Ａ３、Ｂ１、Ｐ１、Ｐ２の平均値である。音強度値Ｄ２は、時間Ｔ４〜Ｔ６に含まれる音強度値Ａ４〜Ａ６、Ｐ３、Ｐ４、Ｂ４の平均値である。

なお、処理５では簡単のため、閾値算出部１２０ｄが、所定の時間帯の平均値を算出する例を示したがこれに限定されるものではない。閾値算出部１２０ｄは、所定の時間帯の音強度のうち、最大値を背景雑音値２０ｂの音強度値Ｄ１、Ｄ２に設定しても良いし、最小値を背景雑音値２０ｂの音強度値Ｄ１、Ｄ２に設定しても良い。

ところで、閾値算出部１２０ｄは、音強度値の代わりに、各周波数の音レベル値を求めてもよいし、部分音データに任意の時空間フィルタを適用した値を用いても良い。例えば、閾値算出部１２０ｄは、ノイズ除去用に高周波成分をカットするフィルタを適用しても良いし、車両の揺れの波形に合わせて、揺れ波形と似た周波数成分を強調するフィルタを適用しても良い。

揺れ波形と似た周波数成分を強調するフィルタを適用する場合について説明する。閾値算出部１２０ｄは、例えば、小刻みの揺れが多い場合には、小刻みに繰り返される音応訴を強調するフィルタを用いて、車両の揺れに密接に関連する背景雑音をあぶり出すことができる。

また、閾値算出部１２０ｄは、類似音データ群１１０ｃに十分な数の部分音データが含まれていない場合には、背景雑音値を算出しない旨のデータを、音検出部１２０ｅに出力する。閾値算出部１２０ｄが利用する部分音データの最低限の数は、利用者が適宜設定する。

音検出部１２０ｅは、背景雑音値と、音データ１１０ａとを基にして、検出対象となる音を検出する処理部である。音検出部１２０ｅは、検出結果を、外部装置に出力しても良いし、表示部１０７に表示させてもよい。

本実施例１の音検出部１２０ｅは、一例として、警笛などの異常音を検出するものとするが、これに限定されるものではない。音検出部１２０ｅが異常音を検出する処理について２通り説明する。音検出部１２０ｅは、何れの処理を用いて異常音を検出しても良い。

音検出部１２０ｅの１つ目の処理について説明する。音検出部１２０ｅは、音データの各時間の音強度値と、背景雑音値とを比較する。音検出部１２０ｅは、音強度値が背景雑音値より大きく、かつ、音強度値と背景雑音値との差が所定の閾値以上である時間帯の音データを、異常音として検出する。

次に、音検出部１２０ｅの２つ目の処理について説明する。音検出部１２０ｅは、まず、従来技術と同様にして、音データ１１０ａから異常音を検出する。例えば、音検出部１２０ｅは、異常音の特徴を示す波形と、音データ１１０ａとのパターンマッチングを行い、類似度が所定の閾値以上となる時間帯の音データを、異常音と判定する。あるいは、音検出部１２０ｅは、所定の閾値と、音データ１１０ａの音強度値とを比較して、所定の閾値を超える時間帯の音データを、異常音として判定しても良い。その他、音検出部１２０ｅは、任意の方法により、異常音を検出しても良い。

音検出部１２０ｅは、異常音を検出した後に、背景雑音値を利用して、検出結果を修正する。具体的に、音検出部１２０ｅは、異常音の各時間帯の音強度値と、背景雑音値とを比較して、該背景雑音値よりも小さい音強度値となる時間帯の異常音を雑音と判定する。音検出部１２０ｅは、異常音から雑音を削除することで、最終的な異常音を検出する。

なお、音検出部１２０ｅは、背景雑音値に所定の閾値を加算した加算値と、異常音の各時間帯の音強度を比較し、加算値よりも小さい音強度となる時間帯の異常音を雑音と判定しても良い。

また、音検出部１２０ｅは、閾値算出部１２０ｄから、背景雑音値を算出しない旨のデータを取得した場合には、従来技術と同様に、音データ１１０ａから、異常音を検出する。また、音検出部１２０ｅは、付随データ１１０ｂを基にして、閾値以上の車体揺れが存在しない場合にも、従来技術と同様に、音データ１１０ａから、異常音を検出してもよい。

次に、本実施例１に係る音検出装置１００の処理手順の一例について説明する。図５は、本実施例１に係る音検出装置の処理手順を示すフローチャートである。図５に示す処理は、例えば、入力部１０６等から、異常音の検出要求を受けたことを契機として実行される。

図５に示すように、音検出装置１００は、付随データ１１０ｂを基にして、閾値以上の車体揺れが存在するか否かを判定する（ステップＳ１０１）。音検出装置１００は、閾値以上の車体揺れが存在しない場合には（ステップＳ１０１，Ｎｏ）、音データから異常音を検出する（ステップＳ１０２）。

音検出装置１００は、閾値以上の車体揺れが存在する場合には（ステップＳ１０１，Ｙｅｓ）、類似音データ群１１０ｃに、所定数以上の部分音データが含まれるか否かを判定する（ステップＳ１０３）。音検出装置１００は、類似音データ群１１０ｃに、所定数以上の部分音データが含まれていない場合には（ステップＳ１０３，Ｎｏ）、ステップＳ１０２に移行する。

音検出装置１１０は、類似音データ群１１０ｃに、所定数以上の部分音データが含まれている場合には（ステップＳ１０３，Ｙｅｓ）、類似音データ群１１０ｃに含まれる各部分音データを正規化する（ステップＳ１０４）。

音検出装置１１０は、背景雑音値を算出し（ステップＳ１０５）、背景雑音値と、音データの音強度値とを基にして、異常音を検出する（ステップＳ１０６）。

次に、本実施例１に係る音検出装置１００の効果について説明する。音検出装置１００は、音データ１１０ａのうち車両の揺れの特徴が類似する各部分音データの組みを類似音データ群１１０ｃとして検出し、類似音データ群１１０ｃを基にして、背景雑音の音強度値の指標となる背景雑音値を算出する。そして、音検出部１１０は、検出対象となる音の特徴に基づいて、音データ１１０ａから検出対象の音データを検出し、背景雑音値を用いて検出結果を修正する。このため、音検出装置１００によれば、背景雑音が含まれる場合でも、抽出対象の音を精度良く検出することができる。

また、音検出装置１００は、類似音データ群１００ｃに含まれる各部分音データに対して正規化を行う。このため、背景雑音の発音タイミングのズレを吸収して、背景雑音値を算出することができ、検出対象の音を精度良く検出することができる。

また、音検出装置１００は、例えば、ＤＰマッチングを行うことで、車両の揺れの特徴が類似する区間の部分音データの組みを、類似音データ群１１０ｃとして選択する。このため、背景雑音値をより正確に算出することができ、検出対象の音を精度良く検出することができる。

次に、本実施例２に係る音検出装置について説明する。例えば、音検出装置は、車両等の移動体に設置されるものとする。図６は、本実施例２に係る音検出装置の構成を示す機能ブロック図である。図６に示すように、この音検出装置２００は、マイク２０１、加速度センサ２０２、速度センサ２０３、位置データ取得部２０４を有する。また、音検出装置２００は、インターフェース部２０５、入力部２０６、表示部２０７、記憶部２１０、制御部２２０を有する。

マイク２０１、加速度センサ２０２、速度センサ２０３、位置データ取得部２０４の説明は、実施例１に示したマイク１０１、加速度センサ１０２、速度センサ１０３、位置データ取得部１０４の説明と同様である。また、インターフェース部２０５、入力部２０６、表示部２０７は、実施例１に示したインターフェース部１０５、入力部１０６、表示部１０７の説明と同様である。

記憶部２１０は、音データ２１０ａ、付随データ２１０ｂ、類似音データ群２１０ｃ、信頼度パラメータ２１０ｄを記憶する記憶部である。記憶部２１０は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。

音データ２１０ａ、付随データ２１０ｂ、類似音データ群２１０ｃの説明は、実施例１に示した音データ１１０ａ、付随データ１１０ｂ、類似音データ群１１０ｃの説明と同様である。

信頼度パラメータ２１０ｄは、異常音の検出結果の確からしさを示す信頼度を含む。例えば、信頼度の値は０〜１の値をとり、１に近づくほど、該当する異常音の確からしさは高くなる。例えば、信頼度パラメータ２１０ｄは、異常音の各時間区分に対して、信頼度を対応付けている。

制御部２２０は、データ管理部２２０ａ、選択部２２０ｂ、正規化部２２０ｃ、閾値算出部２２０ｄ、音検出部２２０ｅを有する。制御部２２０は、例えば、ＡＳＩＣや、ＦＰＧＡなどの集積装置に対応する。また、制御部２２０は、例えば、ＣＰＵやＭＰＵ等の電子回路に対応する。

このうち、データ管理部２２０ａ、選択部２２０ｂ、正規化部２２０ｃ、閾値算出部２２０ｄの説明は、実施例１のデータ管理部１２０ａ、選択部１２０ｂ、正規化部１２０ｃ、閾値算出部１２０ｄの説明と同様である。

音検出部２２０ｅは、検出対象の音を検出する処理部である。音検出部２２０ｅは、検出結果を、外部装置に出力しても良いし、表示部２０７に表示させても良い。本実施例２では一例として、検出対象の音を異常音とする。

具体的に、音検出部２２０ｅの処理を説明する。まず、音検出部２２０ｅは、従来技術と同様にして、音データ２１０ａから異常音を検出する。続いて、音検出部２２０ｅは、異常音の各時間の音強度値と、背景雑音値との差分をとり、信頼度パラメータ２１０ｄを生成する。

音検出部２２０ｅが信頼度パラメータ２１０ｄを生成する処理について説明する。図７は、信頼度パラメータを生成する処理を説明するための図である。図７において、データ３０は、音検出部２２０ｅが、従来技術を利用して検出した異常音のデータである。異常音データ３０は、音強度値Ｅ１〜Ｅ６を含む。各音強度値の時間間隔をｔとする。図７において、データ２０ｂは、背景雑音値である。背景雑音値２０ｂは、図４に示した背景雑音値２０ｂに対応する。

音検出部２２０ｅは、各時間において、異常音データ３０の音強度値と、背景雑音値２０ｂの音強度値との差分を求め、所定の補正値を乗算した値を信頼度として算出する。例えば、音強度値Ｅ１と音強度値Ｄ１との差を６．５とし、音強度値Ｅ２と音強度値Ｄ１との差を６．５とし、音強度値Ｅ３と音強度値Ｄ１との差を６．５とする。また、音強度値Ｅ４と音強度値Ｄ２との差を２．２とし、音強度値Ｅ５と音強度値Ｄ２との差を２．２とし、音強度値Ｅ６と音強度値Ｄ２との差を２．２とする。

補正値の値を０．１とすると、時間Ｔ１〜Ｔ３の信頼度は、０．６５となり、時間Ｔ４〜Ｔ６の信頼度は、０．２２となる。音検出部２２０ｅは、求めた各時間の信頼度を、信頼度パラメータ２１０ｄとして、記憶部２１０に記憶させる。

なお、音検出部２２０ｅは、閾値算出部２２０ｄから背景雑音値を算出しない旨のデータを取得した場合には、異常音Ｔ１〜Ｔ６に対する信頼度を１に設定する。

音検出部２２０ｅは、信頼度パラメータ２１０ｄを生成した後に、信頼度パラメータ２１０ｄの値と、閾値とを基にして、異常音を取捨選択する。具体的には、音検出部２２０ｅは、閾値よりも信頼度が低い時間帯の異常音を、異常音とせず、閾値よりも信頼度が高い時間帯の異常音を、最終的な異常音として検出する。

図７を用いて音検出部２２０ｅが最終的な異常音を検出する処理について説明する。ここでは一例として、閾値を０．５とする。図７を参照すると、時間Ｔ１〜Ｔ３の信頼度は、閾値０．５よりも大きい。また、時間Ｔ４〜Ｔ６の信頼度は、閾値０．５よりも小さい。このため、音検出部２２０ｅは、従来技術で検出した異常音３０のうち、時間Ｔ１〜Ｔ３までの異常音を最終的に異常音データとして検出する。

次に、本実施例２に係る音検出装置２００の処理手順の一例について説明する。図８は、本実施例２に係る音検出装置の処理手順を示すフローチャートである。図８に示す処理は、例えば、入力部２０６等から、異常音の検出要求を受けたことを契機にして実行される。

図８に示すように、音検出装置２００は、音データ２１０ａから異常音を検出し（ステップＳ２０１）、類似音データ群２１０ｃに、所定数以上の部分音データが含まれるか否かを判定する（ステップＳ２０２）。

音検出装置２００は、類似音データ群２１０ｃに、所定数以上の部分音データが含まれない場合には（ステップＳ２０２，Ｎｏ）、信頼度パラメータ２１０ｄの各信頼度を１に設定し（ステップＳ２０３）、ステップＳ２０７に移行する。

一方、音検出装置２００は、類似音データ群２１０ｃに、所定数以上の部分音データが含まれている場合には（ステップＳ２０２，Ｙｅｓ）、類似データ群２１０ｃに含まれる各部分音データを正規化する（ステップＳ２０４）。

音検出装置２００は、背景雑音値を算出し（ステップＳ２０５）、背景雑音値と、異常音の音強度値との差を基にして、信頼度パラメータ２１０ｄの各信頼度を設定する（ステップＳ２０６）。音検出装置２００は、信頼度パラメータ２１０ｄを基にして、異常音を取捨選択する（ステップＳ２０７）。

次に、本実施例２に係る音検出装置２００の効果について説明する。音検出装置２００は、異常音を検出する一方で、類似音データ群２１０ｃを基にして、背景雑音の音強度値の指標となる背景雑音値を算出し、異常音と背景雑音値との差分を基にして、異常音に対する信頼度パラメータ２１０ｄを算出する。そして、音検出装置２００は、信頼度パラメータ２１０ｄを基にして、異常音から背景雑音に対応する部分を取り除き、最終的な異常音を検出する。このため、音検出装置２００によれば、従来技術を用いて異常音を検出した場合でも、かかる異常音から背景雑音を取り除くことができる。

次に、本実施例３に係る音検出装置について説明する。例えば、音検出装置は、車両等の移動体に設置されているものとする。図９は、本実施例３に係る音検出装置の構成を示す機能ブロック図である。図９に示すように、この音検出装置３００は、マイク３０１、加速度センサ３０２、速度センサ３０３、位置データ取得部３０４を有する。また、音検出装置３００は、インターフェース部３０５、入力部３０６、表示部３０７、記憶部３１０、制御部３２０を有する。

マイク３０１、加速度センサ３０２、速度センサ３０３、位置データ取得部３０４の説明は、実施例１に示したマイク１０１、加速度センサ１０２、速度センサ１０３、位置データ取得部１０４の説明と同様である。また、インターフェース部３０５、入力部３０６、表示部３０７は、実施例１に示したインターフェース部１０５、入力部１０６、表示部１０７の説明と同様である。

記憶部３１０は、音データ３１０ａ、付随データ３１０ｂ、類似音データ群３１０ｃ、基準音データ３１０ｄ、異常音発生確率データ３１０ｅを記憶する記憶部である。記憶部３１０は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。

音データ３１０ａ、付随データ３１０ｂ、類似音データ群３１０ｃの説明は、実施例１に示した音データ１１０ａ、付随データ１１０ｂ、類似音データ群１１０ｃの説明と同様である。

基準音データ３１０ｄは、基準となる異常音の特徴を含むデータである。例えば、基準音データ３１０ｄは、基準となる異常音の、時間と音強度値との関係を有する。なお、基準音データ３１０ｄは、基準となる異常音の各周波数の音レベル等を有しても良い。かかる基準音データ３１０ｄは、予め管理者が作成しておくものとする。

異常音発生確率データ３１０ｅは、異常音の時間ごとに、異常音である確率を対応付けた情報である。図１０は、異常音発生確率データのデータ構造の一例を示す図である。図１０に示すように、異常音発生確率データ３１０ｅは、時間と、異常音発生確率とを対応付ける。例えば、図１０に示す例では、時間Ｔ１における異常音の異常音発生確率は７．１である。この異常音発生確率が高いほど、異常音である可能性が高い。これに対して、異常音発生確率が低いほど、背景雑音である可能性が高い。

制御部３２０は、データ管理部３２０ａ、選択部３２０ｂ、正規化部３２０ｃ、閾値算出部３２０ｄ、音検出部３２０ｅを有する。制御部３２０は、例えば、ＡＳＩＣや、ＦＰＧＡなどの集積装置に対応する。また、制御部３２０は、例えば、ＣＰＵやＭＰＵ等の電子回路に対応する。

このうち、データ管理部３２０ａ、選択部３２０ｂ、正規化部３２０ｃ、閾値算出部３２０ｄの説明は、実施例１のデータ管理部１２０ａ、選択部１２０ｂ、正規化部１２０ｃ、閾値算出部１２０ｄの説明と同様である。

音検出部３２０ｅは、検出対象の音を検出する処理部である。音検出部３２０ｅは、検出結果を、外部装置に出力してもよいし、表示部３０７に表示させても良い。本実施例３では一例として、検出対象の音を異常音とする。

具体的に、音検出部３２０ｅの処理を説明する。まず、音検出部３２０ｅは、従来技術と同様にして、音データ３１０ａから異常音を検出する。続いて、音検出部３２０ｅは、検出結果の異常音と、基準音データ３１０ｄとを比較して、異常音発生確率データ３１０ｅを生成する。

異常音発生確率データ３１０ｅを算出する処理の一例について説明する。音検出部３２０ｅは、検出結果の異常音と、基準音データ３１０ｄとを比較して、類似度を算出する。類似度を算出する処理は、従来技術を利用すれば良い。音検出部３２０ｅは、各時間の類似度の値を、異常音発生確率として、異常音発生確率データ３１０ｅに登録する。なお、音検出部３２０ｅは、所定の補正値を類似度の値に乗算などして、異常音発生確率を算出しても良い。

音検出部３２０ｅは、異常音発生確率データ３１０ｅを算出した後に、背景雑音値を用いて、異常音発生確率データ３１０ｅを更新する。具体的に、音検出部３２０ｅは、時間毎に、異常音発生確率データ３１０ｅの異常音発生確率と、背景雑音値の値との差分の絶対値を求める。そして、音検出部３２０ｅは、各時間の差分の絶対値を、各時間の新たな異常音発生確率として、異常音発生確率データ３１０ｅを更新する。

音検出部３２０ｅは、異常音発生確率データ３１０ｅを更新した後に、各時間の異常音発生確率を基にして、異常音を取捨選択する。音検出部３２０ｅは、異常音発生確率が、所定の閾値以上となる時間の異常音を、最終的な異常音として検出する。音検出部３２０ｅは、異常音発生確率が、所定の閾値未満となる時間の異常音を、異常音としない。

次に、本実施例３に係る音検出装置３００の処理手順の一例について説明する。図１１は、本実施例３に係る音検出装置の処理手順を示すフローチャートである。図１１に示す処理は、例えば、入力部３０６等から、異常音の検出要求を受けたことを契機にして実行される。

図１１に示すように、音検出装置３００は、音データ３１０ａから異常音を検出し（ステップＳ３０１）、基準音データ３１０ｄと、異常音との類似度から、異常音の各時間における異常音発生確率を算出する（ステップＳ３０２）。

音検出装置３００は、類似音データ群３１０ｃに、所定数以上の部分音データが含まれるか否かを判定する（ステップＳ３０３）。音検出装置３００は、類似音データ群３１０ｃに、所定数以上の部分音データが含まれない場合には（ステップＳ３０３，Ｎｏ）、ステップＳ３０７に移行する。

音検出装置３００は、類似音データ群３１０ｃに、所定数以上の部分音データが含まれている場合には（ステップＳ３０３，Ｙｅｓ）、類似音データ群３１０ｃに含まれる各部分音データを正規化する（ステップＳ３０４）。

音検出装置３００は、背景雑音値を算出し（ステップＳ３０５）、背景雑音値と、異常音発生確率との差分の絶対値を新たな異常音発生確率として算出し、異常音発生確率データ３１０ｅを更新する（ステップＳ３０６）。音検出装置３００は、異常音発生確率と閾値とを比較して、最終的な異常音を検出する（ステップＳ３０７）。

次に、本実施例３に係る音検出装置３００の効果について説明する。音検出装置３００は、異常音を検出し、検出した異常音と基準音データ３１０ｄとの比較により、異常音発生確率データ３１０ｅを生成する。また、音検出装置３００は、背景雑音値を算出し、背景雑音値を利用して、異常音発生確率データ３１０ｅを更新し、更新した異常音発生確率データ３１０ｅを基にして、検出結果の異常音を取捨選択する。このため、音検出装置３００によれば、類似音データ群３１０ｃを正規化した場合に、音が変質した場合であっても、精度良く異常音を検出することができる。

次に、本実施例４に係る音検出装置について説明する。例えば、音検出装置は、車両等の移動体に設置されるものとする。図１２は、本実施例４に係る音検出装置の構成を示す機能ブロック図である。図１２に示すように、この音検出装置４００は、マイク４０１ａ、４０１ｂ、加速度センサ４０２、速度センサ４０３、位置データ取得部４０４を有する。また、音検出装置４００は、インターフェース部４０５、入力部４０６、表示部４０７、記憶部４１０、制御部４２０を有する。

マイク４０１ａ、４０１ｂは、周囲の音を集音するマイクである。マイク４０１ａ、４０１ｂは、音データを制御部４２０に出力する。例えば、音データは、所定の時間毎の音データの強度を含む。マイク４０１ａ、４０１ｂは、それぞれ所定の距離だけ離れた位置に配置される。

加速度センサ４０２、速度センサ４０３、位置データ取得部４０４、インターフェース部４０５の説明は、実施例１の加速度センサ１０２、速度センサ１０３、位置データ取得部１０４、インターフェース部１０５の説明と同様である。また、入力部４０６、表示部４０７の説明は、実施例１の入力部１０６、表示部１０７の説明と同様である。

記憶部４１０は、音データ４１０ａ、付随データ４１０ｂ、類似音データ群４１０ｃを記憶する。記憶部４１０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、またはハードディスク、光ディスクなどの記憶装置に対応する。

音データ４１０ａは、マイク４０１ａ、４０１ｂが集音した音データをそれぞれ含むデータである。付随データ４１０ｂの説明は、実施例１の付随データ１１０ｂの説明と同様である。

類似音データ群４１０ｃは、音データ４１０ａのうち、車両の揺れの特徴が類似する区間の部分音データを複数含む。類似音データ４１０ｃは、後述する選択部４２０ｂによって生成される。

制御部４２０は、データ管理部４２０ａ、選択部４２０ｂ、正規化部４２０ｃ、閾値算出部４２０ｄ、音検出部４２０ｅを有する。制御部４２０は、例えば、ＡＳＩＣや、ＦＰＧＡなどの集積装置に対応する。また、制御部４２０は、例えば、ＣＰＵやＭＰＵ等の電子回路に対応する。

データ管理部４２０ａは、マイク４０１ａ、４０１ｂ、加速度センサ４０２、速度センサ４０３、位置データ取得部４０４から各データを取得し、記憶部４１０に記憶する処理部である。データ管理部４２０ａは、マイク４０１ａ、４０１ｂから取得する各音データを、音データ４１０ａとして記憶部４１０に記憶させる。データ管理部４２０ａは、加速度センサ４０２、速度センサ４０３、位置データ取得部４０４からそれぞれ取得する加速度データ、速度データ、位置データを、付随データ４１０ｂとして記憶部４１０に記憶させる。

選択部４２０ｂは、音データ４１０ａに含まれる２種類の音データの音強度値を比較して、比較結果をもとに、車両の揺れの特徴が類似する区間の時間をそれぞれ特定する。以下に、選択部４２０ｂの処理について説明する。ここでは、音データ４１０ａのうち、マイク４０１ａから取得した音データを音データ４１０Ａとし、マイク４０１ｂから取得した音データを音データ４１０Ｂとする。

選択部４２０ｂは、音データ４１０Ａの音強度値と音データ４１０Ｂの音強度値とを、時間毎に比較し、各音強度値の差分が所定の閾値以上となる時間を、車両が揺れている時間として特定する。

選択部４２０ｂは、特定した時間に対応する部分音データを音データ４１０ａからそれぞれ抽出し、各部分音データの組みを、類似音データ群４１０ｃとして、記憶部４１０に記憶させる。選択部４２０ｂは、音データ４１０ａのうち、音データ４１０Ａから部分音データを抽出しても良いし、音データ４１０Ｂから部分音データを抽出しても良い。

更に、選択部４２０ｂは、実施例１と同様に、付随データ４１０ｂを基にして、車両の揺れの特徴が類似する区間の時間をそれぞれ特定する。選択部４２０ｂは、特定した時間に対応する部分音データを音データ４１０ａからそれぞれ抽出し、類似音データ群４１０ｃとして、記憶部４１０に記憶させる。

ここで、選択部４２０ｂのその他の処理の一例について説明する。選択部４２０ｂが、付随データ４１０ｂを基にして特定した車両の揺れの特徴が類似する区間の時間を第１時間とする。選択部４２０ｂが、音データ４１０Ａ、４１０Ｂの各音強度値の差分が所定の閾値以上となる時間を第２時間とする。選択部４２０ｂは、第１時間と第２時間とが重複する時間を、最終的な車両の揺れの特徴が類似する時間として特定しても良い。選択部４２０ｂは、特定した時間に対応する部分音データを音データ４１０ａから抽出し、類似音データ群４１０ｃとして、記憶部４１０に記憶させる。

正規化部４２０ｃ、閾値算出部４２０ｄ、音検出部４２０ｅの説明は、実施例１に示した正規化部１２０ｃ、閾値算出部１２０ｄ、音検出部１２０ｅの説明と同様である。

次に、本実施例４に係る音検出装置４００の処理手順の一例について説明する。図１３は、本実施例４に係る音検出装置の処理手順を示すフローチャートである。図１３に示す処理は、例えば、入力部４０６等から、異常音の検出要求を受けたことを契機として実行される。

図１３に示すように、音検出装置４００は、左右のマイクの音強度値に基づいて、背景雑音を特定し、類似音データ群４１０ｃを生成する（ステップＳ４０１）。ここで、左右のマイクは、マイク４０１ａ、４０１ｂに対応する。

音検出装置４００は、類似音データ群４１０ｃに含まれる各部分音データを正規化し（ステップＳ４０２）、背景雑音値を算出する（ステップＳ４０３）。音検出装置４００は、背景雑音値と、音データの音強度値との差を基にして、異常音を検出する（ステップＳ４０４）。

次に、本実施例４に係る音検出装置４００の効果について説明する。音検出装置４００は、マイク４０１ａ、４０１ｂの音データを基にして背景雑音を特定し、特定した背景雑音と同時間の異常音の検出結果を除外する。このため、マイク４０１ａ、４０１ｂの何れかのごく近傍から発生し得る背景雑音を排除することができる。

実施例１〜４では、音検出装置１００〜４００の処理の一例について説明したが、音検出装置の処理は上記の処理に限定されるものではない。以下において、音検出装置１００〜４００のその他の処理について説明する。ここでは、実施例１で用いた音検出装置１００の符号を用いて説明する。

音検出装置１００の音検出部１２０ｅは、ＤＰマッチングを用いて、背景雑音を特定し、検出対象となる音データを検出してもよい。音検出部１２０ｅが、ＤＰマッチングを用いる場合には、正規化部１２０ｃは類似音データ群１１０ｃを正規化しなくても良い。

音検出部１２０ｅは、類似音データ群１１０ｃに含まれる部分音データを一つ選択し、選択した部分音データと、音データ１１０ａとを比較し、ＤＰマッチングの手法を用いて、類似度を判定する。音検出部１２０ｅは、類似度の値が閾値以上となる音データ１１０ａの時間を特定し、特定した時間に対応する音データを、背景雑音として特定する。音検出部１２０ｅは、異常音の検出結果から、背景雑音と判定した音データを取り除く。このような処理を音検出部１２０ｅが実行することで、正規化処理の時間を省略して、異常音を精度良く検出することができる。

次に、音検出装置１００が背景雑音の影響を除外して異常音を検出する処理の一例について説明する。図１４は、音検出部の処理を説明するための図である。図１４の各横軸は時間軸であり、縦軸は信号強度である。

５０Ａについて説明する。５０Ａの各線分５０ａは、付随データ１１０ｂに対応するものである。５０ｂは、音データ１１０ａに対応するものである。各部分音データ５０ｂの類似する部分が、部分音データとして、類似音データ群１１０ｃに登録される。

５０Ｂについて説明する。音検出装置１００が各部分音データ５０ｂに対して正規化を実行することで、図１４の５０Ｂに示すものとなる。

５０Ｃについて説明する。音検出装置１００が、各部分音データ５０ｂに対して、和平均を実行することで、図１４の５０Ｃに示すように、背景雑音値５１が算出される。

５０Ｄについて説明する。音検出装置１００は、背景雑音値５１と、音データ５２とを比較して、明らかに逸脱する部分５２ａを、異常音として検出する。なお、音データ５２は、音データ１１０ａに対応する。

次に、各実施例に示した表示装置１００〜４００と同様の機能を実現する音検出プログラムを実行するコンピュータの一例を説明する。図１５は、音検出プログラムを実行するコンピュータの一例を示す図である。

図１５に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０１と、ユーザからのデータの入力を受け付ける入力装置５０２と、ディスプレイ５０３を有する。また、コンピュータ５００は、記憶媒体からプログラム等を読取る読み取り装置５０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置５０５とを有する。また、コンピュータ５００は、各種センサ５０６を有する。各種センサ５０６は、加速度センサ、速度センサに対応する。また、コンピュータ５００は、位置取得装置５０７と、マイク５０８とを有する。位置取得装置５０７は、ＧＰＳ機能を利用して、位置データを取得する。マイク５０８は、音データを取得するマイクである。また、コンピュータ５００は、各種情報を一時記憶するＲＡＭ５０９と、ハードディスク装置５１０を有する。そして、各装置５０１〜５１０は、バス５１１に接続される。

ハードディスク装置５１０は、例えば、データ管理プログラム５１０ａ、選択プログラム５１０ｂ、正規化プログラム５１０ｃ、閾値算出プログラム５１０ｄ、音検出プログラム５１０ｅを有する。ＣＰＵ５０１は、各プログラム５１０ａ〜５１０ｅを読み出して、ＲＡＭ５０９に展開する。

データ管理プログラム５１０ａは、データ管理プロセス５０９ａとして機能する。選択プログラム５１０ｂは、選択プロセス５０９ｂとして機能する。正規化プログラム５１０ｃは、正規化プロセス５０９ｃとして機能する。閾値算出プログラム５１０ｄは、閾値算出プロセス５０９ｄとして機能する。音検出プログラム５１０ｅは、音検出プロセス５０９ｅとして機能する。

例えば、データ管理プロセス５０９ａは、データ管理部１２０ａに対応する。選択プロセス５０９ｂは、選択部１２０ｂに対応する。正規化プロセス５０９ｃは、正規化部１２０ｃに対応する。閾値算出プロセス５０９ｄは、閾値算出部１２０ｄに対応する。音検出プロセス５０９ｅは、音検出部１２０ｅに対応する。

なお、各プログラム５１０ａ〜５１０ｅについては、必ずしも最初からハードディスク装置５１０に記憶させておかなくてもよい。例えば、コンピュータ５００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ５００がこれらから各プログラム５１０ａ〜５１０ｅを読み出して実行するようにしてもよい。また、他の実施例２〜４に示した表示装置２００〜４００についても、音検出装置１００と同様にして、コンピュータ５００で実行される。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択する選択部と、
前記類似音データ群に含まれる複数の部分音データの信号強度値を基にして、閾値を算出する閾値算出部と、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データと前記閾値とを基にして、前記検出音データを修正する音検出部と
を備えたことを特徴とする音検出装置。

（付記２）前記閾値算出部は、前記類似音データ群の各部分音データの信号強度値の平均値、最小値または最大値を閾値として算出し、前記音検出部は、前記検出音データの信号強度値と前記閾値との差分を算出し、差分に基づいて、前記検出音データを修正することを特徴とする付記１に記載の音検出装置。

（付記３）前記音検出部は、前記閾値算出部が算出した閾値と前記検出音データとの差分値に補正値を乗算した信頼度を時間毎に算出し、算出した時間毎の信頼度を基にして、検出音データを修正することを特徴とする付記１に記載の音検出装置。

（付記４）前記音検出部は、前記検出対象の音の特徴を含む基準音データと、前記検出音データとの類似度に基づいて、前記検出音データの各時間における検出対象の音であることの確からしさを示す発生確率を算出し、該発生確率と、前記閾値との差分によって、前記発生確率を更新し、更新した発生確率を基にして、前記検出音データを修正することを特徴とする付記１に記載の音検出装置。

（付記５）前記類似音データ群に含まれる部分音データの長さを統一し、該部分音データ内の音信号強度値の間隔を統一することで前記類似音データ群を正規化する正規化部を更に有することを特徴とする付記１〜４の何れか一つに記載の音検出装置。

（付記６）前記音検出部は、前記類似音データ群に含まれる部分音データと、前記マイクから取得した音データとでＤＰマッチングを行うことで、背景雑音となる音データを特定し、特定した結果を基にして、前記検出音データを修正することを特徴とする付記１に記載の音検出装置。

（付記７）前記マイクは前記移動体の異なる位置に複数配置され、前記音検出部は、複数のマイクのうちいずれか一つのマイクの音データの信号強度値が閾値以上となる区間以外から、検出音データを検出することを特徴とする付記１に記載の音検出装置。

（付記８）コンピュータが実行する音検出方法であって、
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択し、
前記類似音データ群に含まれる複数の部分音データの信号強度値を基にして、閾値を算出し、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データと前記閾値とを基にして、前記検出音データを修正する
各処理を実行することを特徴とする音検出方法。

（付記９）前記閾値を算出する処理は、前記類似音データ群の各部分音データの信号強度値の平均値、最小値または最大値を閾値として算出し、前記検出音データを修正する処理は、前記検出音データの信号強度値と前記閾値との差分を算出し、差分に基づいて、前記検出音データを修正することを特徴とする付記８に記載の音検出方法。

（付記１０）前記検出音データを修正する処理は、前記閾値と前記検出音データとの差分値に補正値を乗算した信頼度を時間毎に算出し、算出した時間毎の信頼度を基にして、検出音データを修正することを特徴とする付記８に記載の音検出方法。

（付記１１）前記検出音データを修正する処理は、前記検出対象の音の特徴を含む基準音データと、前記検出音データとの類似度に基づいて、前記検出音データの各時間における検出対象の音であることの確からしさを示す発生確率を算出し、該発生確率と、前記閾値との差分によって、前記発生確率を更新し、更新した発生確率を基にして、前記検出音データを修正することを特徴とする付記８に記載の音検出方法。

（付記１２）前記類似音データ群に含まれる部分音データの長さを統一し、該部分音データ内の音信号強度値の間隔を統一することで前記類似音データ群を正規化する処理を更に実行することを特徴とする付記８〜１１の何れか一つに記載の音検出方法。

（付記１３）前記検出音データを修正する処理は、前記類似音データ群に含まれる部分音データと、前記マイクから取得した音データとでＤＰマッチングを行うことで、背景雑音となる音データを特定し、特定した結果を基にして、前記検出音データを修正することを特徴とする付記８に記載の音検出方法。

（付記１４）前記マイクは前記移動体の異なる位置に複数配置され、前記検出音データを修正する処理は、複数のマイクのうちいずれか一つのマイクの音データの信号強度値が閾値以上となる区間以外から、検出音データを検出することを特徴とする付記８に記載の音検出方法。

（付記１５）コンピュータに、
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択し、
前記類似音データ群に含まれる複数の部分音データの信号強度値を基にして、閾値を算出し、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データと前記閾値とを基にして、前記検出音データを修正する
各処理を実行させることを特徴とする音検出プログラム。

（付記１６）前記閾値を算出する処理は、前記類似音データ群の各部分音データの信号強度値の平均値、最小値または最大値を閾値として算出し、前記検出音データを修正する処理は、前記検出音データの信号強度値と前記閾値との差分を算出し、差分に基づいて、前記検出音データを修正することを特徴とする付記１５に記載の音検出プログラム。

（付記１７）前記検出音データを修正する処理は、前記閾値と前記検出音データとの差分値に補正値を乗算した信頼度を時間毎に算出し、算出した時間毎の信頼度を基にして、検出音データを修正することを特徴とする付記１５に記載の音検出プログラム。

（付記１８）前記検出音データを修正する処理は、前記検出対象の音の特徴を含む基準音データと、前記検出音データとの類似度に基づいて、前記検出音データの各時間における検出対象の音であることの確からしさを示す発生確率を算出し、該発生確率と、前記閾値との差分によって、前記発生確率を更新し、更新した発生確率を基にして、前記検出音データを修正することを特徴とする付記１５に記載の音検出プログラム。

（付記１９）前記類似音データ群に含まれる部分音データの長さを統一し、該部分音データ内の音信号強度値の間隔を統一することで前記類似音データ群を正規化する処理を更にコンピュータに実行させることを特徴とする付記１５〜１８の何れか一つに記載の音検出プログラム。

（付記２０）前記検出音データを修正する処理は、前記類似音データ群に含まれる部分音データと、前記マイクから取得した音データとでＤＰマッチングを行うことで、背景雑音となる音データを特定し、特定した結果を基にして、前記検出音データを修正することを特徴とする付記１５に記載の音検出プログラム。

（付記２１）前記マイクは前記移動体の異なる位置に複数配置され、前記検出音データを修正する処理は、複数のマイクのうちいずれか一つのマイクの音データの信号強度値が閾値以上となる区間以外から、検出音データを検出することを特徴とする付記１５に記載の音検出プログラム。

１００、２００、３００、４００音検出装置
１０１、２０１、３０１、４０１ａ、４０１ｂマイク
１０２、２０２、３０２、４０２加速度センサ
１０３、２０３、３０３、４０３速度センサ
１０４、２０４、３０４、４０４位置データ取得部
１０５、２０５、３０５、４０５インターフェース部
１０６、２０６、３０６、４０６入力部
１０７、２０７、３０７、４０７表示部
１１０、２１０、３１０、４１０記憶部
１２０、２２０、３２０、４２０制御部

Claims

移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択する選択部と、
前記類似音データ群に含まれる全ての部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第１平均値、前記類似音データ群に含まれるサンプリングの時間間隔毎の各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第２平均値、第２最小値、第２最大値、所定時間間隔に含まれる各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第３平均値、第３最小値、第３最大値のうち、いずれか一つの値を閾値として算出する閾値算出部と、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、前記検出音データについての音強度値または各周波数の音レベル値を示す信号強度値が前記閾値未満となる場合に、前記検出音データを削除する音検出部と
を備えたことを特徴とする音検出装置。
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択する選択部と、
前記類似音データ群に含まれる全ての部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第１平均値、前記類似音データ群に含まれるサンプリングの時間間隔毎の各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第２平均値、第２最小値、第２最大値、所定時間間隔に含まれる各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第３平均値、第３最小値、第３最大値のうち、いずれか一つの値を閾値として算出する閾値算出部と、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データについての音強度値または各周波数の音レベル値を示す信号強度値と前記閾値との差分値に補正値を乗算した信頼度を算出し、算出した信頼度が閾値未満となる検出音データを削除する音検出部と
を備えたことを特徴とする音検出装置。
前記類似音データ群に含まれる部分音データの長さを統一し、該部分音データ内の音強度値または各周波数の音レベル値を示す信号強度値の間隔を統一することで前記類似音データ群を正規化する正規化部を更に有することを特徴とする請求項１または２に記載の音検出装置。
前記音検出部は、前記類似音データ群に含まれる部分音データと、前記マイクから取得した音データとでＤＰマッチングを行うことで、背景雑音となる音データを特定し、特定した結果を基にして、前記検出音データを修正することを特徴とする請求項１または２に記載の音検出装置。
前記マイクは前記移動体の異なる位置に複数配置され、前記選択部は、複数のマイクから取得する音データの音強度値の差分が所定の閾値以上となる区間を特定し、特定した区間の部分音データの組を類似音データ群として選択することを特徴とする請求項１または２に記載の音検出装置。
コンピュータが実行する音検出方法であって、
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択し、
前記類似音データ群に含まれる全ての部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第１平均値、前記類似音データ群に含まれるサンプリングの時間間隔毎の各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第２平均値、第２最小値、第２最大値、所定時間間隔に含まれる各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第３平均値、第３最小値、第３最大値のうち、いずれか一つの値を閾値として算出し、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、前記検出音データについての音強度値または各周波数の音レベル値を示す信号強度値が前記閾値未満となる場合に、前記検出音データを削除する
各処理を実行することを特徴とする音検出方法。
コンピュータが実行する音検出方法であって、
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択し、
前記類似音データ群に含まれる全ての部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第１平均値、前記類似音データ群に含まれるサンプリングの時間間隔毎の各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第２平均値、第２最小値、第２最大値、所定時間間隔に含まれる各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第３平均値、第３最小値、第３最大値のうち、いずれか一つの値を閾値として算出し、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データについての音強度値または各周波数の音レベル値を示す信号強度値と前記閾値との差分値に補正値を乗算した信頼度を算出し、算出した信頼度が閾値未満となる検出音データを削除する
各処理を実行することを特徴とする音検出方法。
コンピュータに、
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択する処理、
前記類似音データ群に含まれる全ての部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第１平均値、前記類似音データ群に含まれるサンプリングの時間間隔毎の各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第２平均値、第２最小値、第２最大値、所定時間間隔に含まれる各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第３平均値、第３最小値、第３最大値のうち、いずれか一つの値を閾値として算出する処理、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、前記検出音データについての音強度値または各周波数の音レベル値を示す信号強度値が前記閾値未満となる場合に、前記検出音データを削除する処理
を実行させるための音検出プログラム。
コンピュータに、
移動体に搭載されたマイクから取得した音データと前記音データを取得する間の前記移動体の揺れの特徴を含む付随データとを基にして、前記音データのうち、前記移動体の揺れの特徴が類似する区間の部分音データの組を類似音データ群として選択する処理、
前記類似音データ群に含まれる全ての部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第１平均値、前記類似音データ群に含まれるサンプリングの時間間隔毎の各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第２平均値、第２最小値、第２最大値、所定時間間隔に含まれる各部分音データについての音強度値または各周波数の音レベル値を示す信号強度値の第３平均値、第３最小値、第３最大値のうち、いずれか一つの値を閾値として算出する処理、
検出対象の音の特徴に基づいて前記音データから検出対象の音データを示す検出音データを検出し、該検出音データについての音強度値または各周波数の音レベル値を示す信号強度値と前記閾値との差分値に補正値を乗算した信頼度を算出し、算出した信頼度が閾値未満となる検出音データを削除する処理
を実行させるための音検出プログラム。