JP6527768B2

JP6527768B2 - 情報処理方法及び装置

Info

Publication number: JP6527768B2
Application number: JP2015136047A
Authority: JP
Inventors: 翔太藤丸; 渉今竹; 淳宏桜井; 晋太木村
Original assignee: 株式会社アニモ
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2019-06-05
Anticipated expiration: 2035-07-07
Also published as: JP2017020793A

Description

本発明は、音データから特徴的なデータを抽出する技術に関する。

ある文献には、シャープネスとケプストラムの最大ピーク値とをパラメータとして、線型の識別関数をサポートベクターマシン（ＳＶＭ）で生成し、異常音検出ができるようにする技術が開示されている。

また、他の文献には、非日常音と危険状態の検出システムにおいて、過去の音との類似度を算出するが開示されている。

さらに他の文献には、音響分析による設備の監視方法において、全体の音圧レベルあるいは特定周波数の音圧レベルが所定値を超え、しかも、その音圧レベルが所定値を超えている状態が所定の時間継続した場合にだけ、異常と判断する技術が開示されている。

さらに他の文献には、異常音に類似する様々な音響が存在する環境下においても、誤検知を頻発することのない音響による異常検知装置において、音響信号の音の立ち上がり率、ピーク音量、立ち下がり減衰率、継続時間を算出して、閾値と照合することにより、破壊音か否かを判定することが開示されている。

さらに他の文献には、入力された騒音の時間波形を、所定時間毎に切り出して、ＦＦＴをかけてパワースペクトルを求め、それにＩＦＦＴをかけて自己相関関数を求め、その値が時間軸上で過渡的に変化する場合に、異常音が発生している可能性があると判断できる、と開示されている。

このように異常音や非日常音の発生を検出するための様々な技術が存在しているが、このような異常音や非日常音及びその発生状況を後から確認したり活用する場面は想定されていない。

小池竜之祐，クグレマウリスオ，黒柳奨，"音による危険察知のための評価指標の検討"，電子情報通信学会技術研究報告. NC, ニューロコンピューティング，電子情報通信学会技術研究報告. NC, ニューロコンピューティング 113(500), 183-188, 2014-03-10 河本満，浅野太，車谷浩一，"マイクロフォンアレイを用いた音環境の見守りによる非日常音と危険状態の検出システム"，社団法人情報処理学会研究報告，２００８年７月１７日，ｐ２０−２６

特開平８−２７１３３０号公報特開２０１２−５８９４４号公報特開２０００−２１４０５２号公報

従って、本発明の目的は、一側面によれば、音データから特徴的なデータを抽出するための新規な技術を提供することである。

本発明に係る情報処理方法は、（Ａ）音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、（Ｂ）データ格納部に格納された各フレームについての特徴量に基づき、音データにおける特徴区間を特定する特定ステップとを含む。

一側面によれば、音データから特徴的なデータを抽出することができるようになる。

図１は、実施の形態に係る情報処理装置の構成例を示す図である。図２は、特徴量算出部の構成例を示す図である。図３は、実施の形態に係る処理フローを示す図である。図４は、特徴量算出処理の処理フローを示す図である。図５は、区間抽出処理の処理フローを示す図である。図６は、区間抽出処理の処理フローを示す図である。図７（ａ）は、特徴量の時間変化を表し、（ｂ）は、抽出される区間を表し、（ｃ）は、区間の間隔を表し、（ｄ）及び（ｅ）は、区間の結合を説明するための図である。

本発明の実施の形態では、音データから、特徴的な区間を例えば音の異常度合い又は音の非日常度合いに基づき抽出して、例えば当該特徴的な区間の音データによる音の要約データを生成する。

本発明の一実施の形態に係る情報処理装置１００の構成例を図１に示す。本実施の形態に係る情報処理装置１００は、第１データ格納部１０１と、特徴量算出部１０２と、第２データ格納部１０３と、区間抽出部１０４と、第３データ格納部１０５と、出力処理部１０６と、出力データ格納部１０７とを有する。情報処理装置１００は、例えばパーソナルコンピュータであり、図示した構成要素の他に、キーボードやマウスなどの入力部、表示装置などの出力装置、他のコンピュータとインターネットやＬＡＮ（Local Area Network）などのネットワークを介して接続するための通信部、周辺機器などに接続するためのインタフェース等をさらに有している。

第１データ格納部１０１は、例えば、マイクなどを用いて収録された音データを格納する。特徴量算出部１０２は、第１データ格納部１０１に格納されている音データに対して後に詳細に述べる処理を行って、単位時間（以下、フレームと呼ぶ）毎に特徴量を算出し、第２データ格納部１０３に格納する。なお、第１データ格納部１０１は、区間抽出部１０４で用いられる設定データをも格納しているものとする。設定データは、例えば目標要約率ｘと、変動許容幅ｄとを含む。

区間抽出部１０４は、第２データ格納部１０３に格納されている各フレームの特徴量に基づき、音データにおいて特徴的な時間帯（以下、特徴区間と呼ぶ）を抽出し、当該特徴区間を特定するためのデータを第３データ格納部１０５に格納する。なお、特徴区間を抽出する際には、第１データ格納部１０１に格納されている設定データを用いる。

出力処理部１０６は、第１データ格納部１０１に格納されている音データから、第３データ格納部１０５に格納されている特徴区間を特定するためのデータを用いて、特徴区間の音データを抽出し、出力データ格納部１０７に格納する。

特徴量算出部１０２は、例えば図２に示すような構成を有する。すなわち、特徴量算出部１０２は、フレーム分割部１０２１と、第１音量分析部１０２２と、変化分析部１０２３と、第１ＢＰＦ（Band-Pass Filter）１０２４と、第２音量分析部１０２５と、第２ＢＰＦ１０２６と、第３音量分析部１０２７と、周期性抽出部１０２８と、乗算器１０２９乃至１０３３と、加算器１０３４とを含む。

フレーム分割部１０２１は、音データを単位時間（フレーム）毎に分割して、フレームの音データを第１音量分析部１０２２と、第１ＢＰＦ１０２４と、第２ＢＰＦ１０２６と、周期性抽出部１０２８とに出力する。

第１音量分析部１０２２は、フレームの音データにおける音量（例えば平均値など）を算出する。音量は、例えば音圧レベル（ｄＢＳＰＬ（Sound Pressure Level））として測定される。０ｄＢＳＰＬは、人間の知覚で感知できる最低の気圧変化である２０μＰａに相当する。本実施の形態では、音量は単純な音量として算出される場合もあれば、定常的な騒音レベルを求め、その騒音レベルから対象音がどれくらい大きな音であるかを表す騒音相対音量（騒音レベルに対する相対音量）を用いるようにしても良い。このようにすれば、測定場所で意味のある目立った音（異常音又は非日常音）の指標値が得られるようになる。例えば、騒音レベルが７０ｄＢＳＰＬの場所で、８５ｄＢＳＰＬの音は、騒音相対音量は１５ｄＢとなる。

変化分析部１０２３は、フレーム内の音量の変化を分析する処理を行う。具体的には、音の出だしの場面であれば、音量の立ち上がり速度（ｄＢ／秒）を算出し、音が止む場面であれば、音量の立ち下がり速度を算出する。このようなスピードが大きいものは、聴覚上のマッハ効果で目立った音と人間に認識されやすい。なお、立ち上がりのみに着目するようにしても良い。

第１ＢＰＦ１０２４は、フレームの音データから第１の周波数帯域（例えば５００Ｈｚから５０００Ｈｚ（音声のフォルマントが存在する帯域））のみを抽出し、第２音量分析部１０２５に出力する。人間の耳は周波数帯によって感度が異なっているので、例えば上で述べたような周波数帯に着目するものである。第２音量分析部１０２５は、第１ＢＰＦ１０２４からの出力に対して音量を算出する。処理内容は第１音量分析部１０２２と同様である。

第２ＢＰＦ１０２６は、フレームの音データから第２の周波数帯域（例えば２０００Ｈｚから４５００Ｈｚ（特に耳の感度が高い帯域。音声の第２フォルマント及び第３フォルマントが存在する帯域。又はスポーツの審判などが使用している笛の帯域など。））のみを抽出して、第３音量分析部１０２７に出力する。第３音量分析部１０２７は、第２ＢＰＦ１０２６からの出力に対して音量を算出する。処理内容は第１音量分析部１０２２と同様である。

周期性抽出部１０２８は、フレーム内において自己相関関数の最大値を算出する。周期性抽出部１０２８の処理は、例えば従来技術の欄で述べた方法により行われる。

乗算器１０２９は、第１音量分析部１０２２の出力ｐに対して予め定められた係数ａ₁を乗じて加算器１０３４に出力する。乗算器１０３０は、変化分析部１０２３の出力p_speedに対して予め定められた係数ａ₂を乗じて加算器１０３４に出力する。

乗算器１０３１は、第２音量分析部１０２５の出力p_band1に対して予め定められた係数ａ₃を乗じて加算器１０３４に出力する。乗算器１０３２は、第３音量分析部１０２７の出力p_band2に対して予め定められた係数ａ₄を乗じて加算器１０３４に出力する。乗算器１０３３は、周期性抽出部１０２８の出力periodicityに対して予め定められた係数ａ₅を乗じて加算器１０３４に出力する。

加算器１０３４は、乗算器１０２９乃至１０３３の出力と、予め定められた係数ａ₀とを加算して、特徴量として、第２データ格納部１０３に格納する。

なお、特徴量を算出する際に用いるパラメータについては、これらに限定されるものではなく、例えば所定レベル以上の音量が継続する時間をさらに用いるようにしても良いし、従来用いられている他のパラメータを加えるようにしても良い。さらに、上で述べたパラメータの一部を採用するようにしても良い。

さらに係数ａ₀乃至ａ₅については、従来技術で述べられているＳＶＭを用いて算出する。具体的には、抽出すべき異常音などについてｂ＝ａ₀＋ａ₁×ｐ＋ａ₂×p_speed＋ａ₃×p_band1＋ａ₄×p_band2＋ａ₅×periodicityを算出すると０を超える値になり、それ以外の音などについてｂを算出すると０未満となるように、係数ａ₀乃至ａ₅を算出する。但し、例えば経験則によってパラメータの重み付けを行って、係数ａ₀乃至ａ₅を設定するようにしても良い。

次に、図３乃至図７を用いて、情報処理装置１００の処理内容を説明する。

まず、情報処理装置１００は、例えばユーザによる音データ及び設定データの入力を受け付け、第１データ格納部１０１に格納する（図３：ステップＳ１）。そして、特徴量算出部１０２は、第１データ格納部１０１に格納されているデータを用いて特徴量算出処理を実行し、処理結果を第２データ格納部１０３に格納する（ステップＳ３）。特徴量算出処理については、図４を用いて説明する。

まず、フレーム分割部１０２１は、第１データ格納部１０１に格納されている音データを単位時間毎に分割する（図４：ステップＳ１１）。この際、フレーム総数ｉ_maxを特定する。また、特徴量算出部１０２は、カウンタｉを１に初期化する（ステップＳ１３）。

そうすると、第１音量分析部１０２２は、ｉ番目のフレームについての音量を算出する（ステップＳ１５）。また、変化分析部１０２３は、ｉ番目のフレームについて音量の立ち上がり速度又は立ち下がり速度を算出する（ステップＳ１７）。

さらに、第１ＢＰＦ１０２４は、ｉ番目のフレームについて第１の周波数帯域の成分のみを抽出して、第２音量分析部１０２５は、当該第１の周波数帯域に係る音量を算出する（ステップＳ１９）。同様に、第２ＢＰＦ１０２６は、ｉ番目のフレームについて第２の周波数帯域の成分のみを抽出して、第３音量分析部１０２７は、当該第２の周波数帯域に係る音量を算出する（ステップＳ２１）。さらに、周期性抽出部１０２８は、ｉ番目のフレームについてフレーム内の自己相関係数の最大値を算出する（ステップＳ２３）。

ステップＳ１５乃至Ｓ２３については、図２に示すように並列に行っても良いし、図４に示すように順番に行っても良い。順番は入れ替え可能である。

そして、乗算器１０２９乃至１０３３と加算器１０３４は、算出されたパラメータの値からｉ番目のフレームについての特徴量ｂ_iを算出し、第２データ格納部１０３に格納する（ステップＳ２５）。

そして、特徴量算出部１０２は、ｉがｉ_maxを超えたか否かを判断する（ステップＳ２７）。ｉがｉ_maxを超えていない場合には、特徴量算出部１０２は、ｉを１インクリメントし（ステップＳ２９）、処理はステップＳ１５に戻る。一方、ｉがｉ_maxを超えた場合には、処理は呼び出し元の処理に戻る。

このような処理を行うことで、各フレームについて音の異常度合い又は音の非日常度合いを表す指標値である特徴量が算出される。

図３の処理の説明に戻って、次に、区間抽出部１０４は、第２データ格納部１０３に格納されているデータを用いて区間抽出処理を実行し、処理結果を第３データ格納部１０５に格納する（ステップＳ５）。区間抽出処理については、図５乃至図７を用いて説明する。

まず、区間抽出部１０４は、算出された特徴量の系列ｂ_iの中から、最大値ｆMaxを算出する（図５：ステップＳ３１）。また、区間抽出部１０４は、以下の設定を行う（ステップＳ３３）。
ｆth ＝ｆMAX／２
ｆSearchMax ＝ｆMax
ｆSearchMin ＝０

すなわち、閾値ｆthに、最大値ｆMaxの半分を設定する。また、閾値の上限値ｆSearchMaxに、最大値ｆMaxを設定する。さらに、閾値の下限値ｆSearchMinに、０を設定する。

そして、区間抽出部１０４は、目標要約率ｘと変動許容幅ｄから、要約時間の上限ｄMax及び下限ｄMinを算出する（ステップＳ３５）。具体的には、音データの時間長Ｌとすると、Ｌ×ｘ−ｄ＝ｄMinと算出し、Ｌ×ｘ＋ｄ＝ｄMaxと算出する。ｄが割合を表す場合には、Ｌ×ｘ×（１−ｄ）＝ｄMinとなり、Ｌ×ｘ×（１＋ｄ）＝ｄMaxとなる。

また、区間抽出部１０４は、特徴量の系列ｂ_iから、閾値ｆthを超えている区間（すなわちフレーム列）を抽出し、例えば第３データ格納部１０５に格納する（ステップＳ３７）。

例えば、図７（ａ）に示すような特徴量の系列ｂ_iが得られたものと仮定する。すなわち、縦軸は特徴量を表し、横軸は時間を表しており、特徴量の時間変化が示されている。ここでは、特徴量の系列をアナログ的に示しているが、実際には離散的な値として得られる。この例では、特徴量がｆthを超える４つの区間が抽出される。すなわち、図７（ｂ）に示すように、区間ａ乃至ｄが抽出される。なお、区間のデータについては、開始時刻及び終了時刻のデータを含むものとする。

そして、区間抽出部１０４は、抽出された区間のうち未処理の区間を１つ特定する（ステップＳ３９）。ここでは処理を簡単にするため、出現順に未処理の区間を特定するものとする。すなわち、図７（ｂ）の場合、区間ａから特定する。

その後、区間抽出部１０４は、特定された区間の終了時刻と次の区間の開始時刻との時間差が所定時間以内であるか否かを判断する（ステップＳ４１）。例えば、図７（ｂ）の場合には、区間ａの終了時刻と区間ｂの開始時刻との差は、矢印Ａで表される。区間ｂの終了時刻と区間ｃの開始時刻との差は、矢印Ｂで表される。区間ｃの終了時刻と区間ｄの開始時刻との差は、矢印Ｃで表される。

図７（ｃ）の場合、矢印Ａの長さは長いので、ステップＳ４１の条件を満たさないと判断される。一方、矢印Ｂ及びＣの長さは短いので、ステップＳ４１の条件を満たすものと判断される。

矢印Ａのように時間差が所定時間より長い場合には（ステップＳ４１：Ｎｏルート）、処理はステップＳ４９に移行する。一方、矢印Ｂ及びＣのように時間差が所定時間以内である場合には（ステップＳ４１：Ｙｅｓルート）、区間抽出部１０４は、特定された区間が既に結合済みであるか否かを判断する（ステップＳ４３）。最初は結合されていないので、未結合であると判断される。

特定された区間が未結合である場合には、区間抽出部１０４は、特定された区間と次の区間を結合し、結合後の区間についてのデータを第３データ格納部１０５に格納する（ステップＳ４７）。例えば、結合後の区間の開始時刻及び終了時刻と、結合後の区間に含まれる各区間の開始時刻及び終了時刻とを格納する。図７（ｃ）の場合、区間ｂと区間ｃとが結合されて、その間の期間と共に、図７（ｄ）に示すように、結合区間ｂ１が生成される。なお、結合区間ｂ１についてのデータについては、その開始時刻及び終了時刻に加えて、区間ｂ及びｃのデータを含む。そして処理はステップＳ４９に移行する。なお、結合された次の区間についても、ステップＳ３９ではステップＳ３７で抽出された区間として、処理対象となる。

一方、特定された区間が結合済みである場合、すなわち、特定された区間が、結合後の区間に含まれるいずれかの区間に該当する場合には、区間抽出部１０４は、特定された区間を含む結合区間に、次の区間を結合し、さらなる結合後の区間についてのデータを第３データ格納部１０５に格納する（ステップＳ４５）。図７（ｂ）及び（ｃ）に示すように、区間ｃと区間ｄの間の矢印Ｃも短くてステップＳ４１の条件を満たすため、区間ｃを処理の対象としたとき、区間ｄは、区間ｃと結合されることになる。しかし、既に区間ｃは結合されているので、図７（ｅ）に示すように、区間ｃを含む結合区間ｂ１にさらに区間ｄを結合することになって、結合区間ｂ２が生成される。結合区間ｂ２についてのデータは、その開始時刻及び終了時刻に加えて、区間ｂ、ｃ及びｄについてのデータを含む。そして処理はステップＳ４９に移行する。

その後、区間抽出部１０４は、ステップＳ３７で抽出した区間のうち未処理の区間が存在するか否かを判断する（ステップＳ４９）。未処理の区間が存在する場合には、処理はステップＳ３９に戻る。一方、未処理の区間が存在しない場合には、処理は端子Ａを介して図６の処理に移行する。

このように図７（ｅ）に示すように、図７（ａ）の例では、区間ａ及び結合区間ｂ２が特徴区間として特定される。

図６の処理の説明に移行して、区間抽出部１０４は、抽出された孤立区間（抽出されたが結合されなかった区間。図７（ｅ）の区間ａ）及び結合区間の合計時間を算出する（ステップＳ５１）。そして、区間抽出部１０４は、合計時間がｄMin未満であるか否かを判断する（ステップＳ５３）。合計時間がｄMin未満である場合には、閾値ｆthが高すぎて、目標要約率ｘに適合するような要約ができないことを意味する。従って、合計時間がｄMin未満であれば、区間抽出部１０４は、以下の設定を行う（ステップＳ５５）。その後処理は端子Ｂを介して図５のステップＳ３７に戻る。
ｆSearchMax ＝ｆth
ｆth ＝（ｆth＋ｆSearchMin）／２
すなわち、閾値の上限値ｆSearchMaxに、現在の閾値ｆthを設定し、閾値ｆthを、下げるように設定する。

一方、合計時間がｄMin以上である場合には、区間抽出部１０４は、合計時間がｄMaxを超えたか判断する（ステップＳ５７）。合計時間がｄMaxを超えるということは、閾値ｆthが低すぎることを意味する。従って、合計時間がｄMaxを超えた場合、区間抽出部１０４は、以下の設定を行う（ステップＳ５９）。その後処理は端子Ｂを介して図５のステップＳ３７に戻る。
ｆSearchMin ＝ｆth
ｆth ＝（ｆth＋ｆSearchMax）／２
すなわち、閾値の下限値ｆSearchMinに、現在の閾値ｆthを設定し、閾値ｆthを、上げるように設定する。

一方、合計時間がｄMaxを超えていない場合には、ちょうど良い合計時間の区間が抽出されたことになる。本実施の形態では、このような合計時間の区間を特徴区間と呼ぶことにする。なお、区間抽出部１０４は、特徴区間を特定するためのデータ（例えば開始時刻及び終了時刻の組み合わせ）を第３データ格納部１０５に格納する。そして、処理は図３の処理に戻る。

図３の処理の説明に戻って、出力処理部１０６は、第２データ格納部１０３に格納されている特徴量の系列及び第３データ格納部１０５に格納されている特徴区間のデータを、例えば表示装置に表示する（ステップＳ７）。

例えば図７（ａ）及び（ｅ）のようなデータを表示装置に表示する。ユーザは、このような表示を確認の上、特徴区間の音データを抽出するように指示するようにしても良い。なお、ユーザは、特徴区間を入力装置を用いて修正するような指示を行うようにしても良い。また、ユーザは、自動的に抽出された特徴区間に加えて抽出すべき区間を追加指定するようにしても良い。

その後、出力処理部１０６は、第１データ格納部１０１に格納されている音データから、特徴区間（自動抽出された特徴区間のまま、修正後の特徴区間、追加された区間を含む特徴区間など）における音データを抽出して結合し、出力データ格納部１０７に格納する（ステップＳ９）。なお、特徴区間を特定するためのデータを出力データ格納部１０７に格納するようにしてもよい。また、特徴区間における音データに付随する他のデータを取得して、出力データ格納部１０７に格納するようにしてもよい。さらに、スピーカなどがあれば、スピーカから特徴区間における音データを出力するようにしても良い。

このようにすれば、音データから特徴的なデータを抽出できるようになる。より具体的には、特徴的な区間を特定でき、その区間の音データも抽出できる。

以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、処理フローについては、処理結果が変わらない限り、処理順番を入れ替えたり、並列に実行するようにしても良い。また、図１及び図２に示したような機能ブロック構成は、プログラムモジュール構成とは一致しない場合もある。

また、図５及び図６では、区間の結合を行う例を示したが、区間の結合を行わないようにしても良い。例えば、特徴量が閾値を超えるようなフレームを抽出することのみを行うようにしても良い。さらに、上で述べたように閾値の調整は行うが、区間の結合を行わないようにしてもよい。

また、出力処理部１０６は、データを、ネットワークに接続された他のコンピュータに出力するようにしても良い。すなわち、情報処理装置１００が、サーバ装置であって、クライアント装置である他のコンピュータからの指示に従って処理を行い、処理結果をクライアント装置に送信するようにしても良い。

なお、上で述べた情報処理装置１００は、コンピュータ装置であって、メモリとＣＰＵ（Central Processing Unit）とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）と表示装置に接続される表示制御部とリムーバブル・ディスク用のドライブ装置と入力装置とネットワークに接続するための通信制御部とがバスで接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤに格納されており、ＣＰＵにより実行される際にはＨＤＤからメモリに読み出される。ＣＰＵは、アプリケーション・プログラムの処理内容に応じて表示制御部、通信制御部、ドライブ装置を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリに格納されるが、ＨＤＤに格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ドライブ装置からＨＤＤにインストールされる。インターネットなどのネットワーク及び通信制御部を経由して、ＨＤＤにインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ、メモリなどのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本実施の形態をまとめると以下のようになる。

本実施の形態に係る情報処理方法は、（Ａ）音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、（Ｂ）データ格納部に格納された各フレームについての特徴量に基づき、音データにおける特徴区間を特定する特定ステップとを含む。

このようにすれば、音データから特徴的なデータを抽出できるようになる。例えば、音の特徴量が大きいフレームを抽出することで、特徴的な区間が抽出できるようになる。

なお、上で述べた音の特徴量が、音の異常度合いを表す特徴量、又は音の非日常度合いを表す特徴量である場合もある。例えば、例えば、街角、家庭内、事務所内、店舗内、駅構内、空港ロビー内、工場内といった様々な場所で録音された音データにおいて、突然大きな物音がした区間や、人が叫んだ声を含む区間などが、要約として抽出できるようになる。

さらに、上で述べた情報処理方法は、（Ｃ）音データから、特定された特徴区間内のデータを抽出するステップをさらに含むようにしても良い。これによって、音データの要約音データが生成され、録音場所における状況把握を効率的に行うことができるようになる。

また、上で述べた特定ステップが、特徴量が閾値以上となるフレームを特定し、特定したフレームから音データにおける特徴区間を構成するステップを含むようにしても良い。このような簡易な方法でもある程度有効な特徴区間が得られる。

また、上で述べた特定ステップが、特徴量が閾値以上となるフレームの合計時間が、予め定められた範囲内に収まるように閾値を決定し、特徴量が、決定した閾値以上となるフレームから音データにおける特徴区間を構成する構成ステップを含むようにしても良い。このような方法を採用しても、長時間の音データから、一定の時間的範囲に限定された特徴的な区間を特定できるようになる。よって、音データの効率的な確認又は活用が可能となる。

さらに、上で述べた特定ステップが、特徴量が閾値以上となる第１のフレームと、第１のフレームに挟まれ且つ特徴量が閾値未満であり且つ所定時間以内で連続する第２のフレームとの合計時間が、予め定められた範囲内に収まるように閾値を決定し、決定した閾値についての第１のフレームと第２のフレームとから音データにおける特徴区間を構成する構成ステップを含むようにしても良い。

このようにすれば、より状況を正しく把握できるような区間を一定範囲に時間を制限しつつ特定できるようになる。

なお、上で述べた特徴量算出ステップは、各フレームについて、全体音量についての指標値と、人間の耳の感度に基づき設定された所定周波数帯における音量についての指標値と、音の周期性についての指標値と、音量の変化度合いについての指標値とのうち少なくともいずれかに基づき、音の特徴量を算出するステップを含むようにしても良い。より適切に異常度合い又は非日常度合いを特定できる。

なお、上記方法をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

１０１第１データ格納部１０２特徴量算出部
１０３第２データ格納部１０４区間抽出部
１０５第３データ格納部１０６出力処理部
１０７出力データ格納部

Claims

音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、
前記データ格納部に格納された各前記フレームについての前記特徴量に基づき、前記音データにおける特徴区間を特定する特定ステップと、
を、コンピュータに実行させるためのプログラムであって、
前記特定ステップが、
前記特徴量が閾値以上となるフレームの合計時間が、予め定められた範囲内に収まるように前記閾値を決定し、前記特徴量が、決定した前記閾値以上となるフレームから前記音データにおける特徴区間を構成する構成ステップ
を含むプログラム。
音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、
前記データ格納部に格納された各前記フレームについての前記特徴量に基づき、前記音データにおける特徴区間を特定する特定ステップと、
を、コンピュータに実行させるためのプログラムであって、
前記特定ステップが、
前記特徴量が閾値以上となる第１のフレームと、前記第１のフレームに挟まれ且つ前記特徴量が閾値未満であり且つ所定時間以内で連続する第２のフレームとの合計時間が、予め定められた範囲内に収まるように前記閾値を決定し、決定した前記閾値についての前記第１のフレームと前記第２のフレームとから前記音データにおける特徴区間を構成する構成ステップ
を含むプログラム。
音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、
前記データ格納部に格納された各前記フレームについての前記特徴量に基づき、前記音データにおける特徴区間を特定する特定ステップと、
を含み、
前記特定ステップが、
前記特徴量が閾値以上となるフレームの合計時間が、予め定められた範囲内に収まるように前記閾値を決定し、前記特徴量が、決定した前記閾値以上となるフレームから前記音データにおける特徴区間を構成する構成ステップ
を含み、コンピュータが実行する情報処理方法。
音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出ステップと、
前記データ格納部に格納された各前記フレームについての前記特徴量に基づき、前記音データにおける特徴区間を特定する特定ステップと、
を含み、
前記特定ステップが、
前記特徴量が閾値以上となる第１のフレームと、前記第１のフレームに挟まれ且つ前記特徴量が閾値未満であり且つ所定時間以内で連続する第２のフレームとの合計時間が、予め定められた範囲内に収まるように前記閾値を決定し、決定した前記閾値についての前記第１のフレームと前記第２のフレームとから前記音データにおける特徴区間を構成する構成ステップ
を含み、コンピュータが実行する情報処理方法。
音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出手段と、
前記データ格納部に格納された各前記フレームについての前記特徴量に基づき、前記音データにおける特徴区間を特定する特定手段と、
を有し、
前記特定手段が、
前記特徴量が閾値以上となるフレームの合計時間が、予め定められた範囲内に収まるように前記閾値を決定し、前記特徴量が、決定した前記閾値以上となるフレームから前記音データにおける特徴区間を構成する手段
を有する情報処理装置。
音データにおける各フレームについて、当該フレームにおける音の特徴量を算出し、データ格納部に格納する特徴量算出手段と、
前記データ格納部に格納された各前記フレームについての前記特徴量に基づき、前記音データにおける特徴区間を特定する特定手段と、
を有し、
前記特定手段が、
前記特徴量が閾値以上となる第１のフレームと、前記第１のフレームに挟まれ且つ前記特徴量が閾値未満であり且つ所定時間以内で連続する第２のフレームとの合計時間が、予め定められた範囲内に収まるように前記閾値を決定し、決定した前記閾値についての前記第１のフレームと前記第２のフレームとから前記音データにおける特徴区間を構成する手段
を有する情報処理装置。