JP2009237254A

JP2009237254A - プログラム、情報記憶媒体、及び特定音認識システム

Info

Publication number: JP2009237254A
Application number: JP2008082972A
Authority: JP
Inventors: Kotaro Sato; 皇太郎佐藤
Original assignee: Namco Bandai Games Inc
Current assignee: Bandai Namco Entertainment Inc
Priority date: 2008-03-27
Filing date: 2008-03-27
Publication date: 2009-10-15

Abstract

【課題】少ない演算負荷で特定音を識別することが可能なプログラム、情報記憶媒体及び特定音認識システムを提供すること。
【解決手段】特定の音を認識する特定音認識システムのためのプログラムであって、入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とする。
【選択図】図８

Description

本発明は、プログラム、情報記憶媒体、及び特定音認識システムに関する。

従来から、特定音を識別する特定音識別装置が知られている。このような特定音識別装置では、入力された音波に含まれる所定レベル以上の各周波数成分と予め記憶保持している特定音の周波数とを比較するものが知られている（例えば特許文献１）。
特開２００６−２６８８２４号公報

しかしながら従来の特定音識別装置では、警報音や報知音といった信号音的な音しか識別することができなかった。また人間の音声を認識する音声認識技術が知られているが、このような音声認識技術では、複雑な演算処理が必要とされ演算負荷が高いといった問題点があった。

本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、少ない演算負荷で特定音を識別することが可能なプログラム、情報記憶媒体及び特定音認識システムを提供することにある。

（１）本発明は、特定の音を認識する特定音認識システムのためのプログラムであって、
入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、
生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、
生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とする。

また本発明は、上記各部を含む特定音認識システムに関係する。また本発明はコンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるプログラムを記憶した情報記憶媒体に関係する。

本発明によれば、特徴データとして、所定時間間隔ごとの各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを用いることにより、特徴データのデータサイズを小さくすることができ、少ない演算負荷で特定音を識別することができる。

（２）このプログラム、情報記憶媒体及び特定音認識システムは、
前記特徴データ生成部は、
前記各周波数成分を２値化した２値データと、時間的に隣り合う各周波数成分の差分を２値化した２値データとを含む特徴データを生成するようにしてもよい。

このようにすると、特徴データのデータサイズをより小さくすることができる。

（３）このプログラム、情報記憶媒体及び特定音認識システムは、
前記特徴データ生成部は、
所定の閾値に基づき前記各周波数成分を２値化するようにしてもよい。

所定の閾値は、全周波数成分について一律の閾値を用いるようにしてもよいし、周波数成分毎に異なる閾値を用いるようにしてもよい。

（４）このプログラム、情報記憶媒体及び特定音認識システムは、
前記特徴データ生成部は、
フーリエ変換後に、所定の周波数成分を取り出すフィルタ処理を行い、取り出した周波数成分に基づき前記特徴データを生成するようにしてもよい。

このようにすると、雑音の影響を排除して特定音を認識することができる。

（５）このプログラム、情報記憶媒体及び特定音認識システムは、
前記音認識処理部は、
生成された特徴データと前記記憶部に記憶された特徴データとを比較する際に、前記記憶部に記憶された特徴データにおける比較開始位置を所定時間単位でずらして複数回比較するようにしてもよい。

このようにすると、生成された特徴データが記憶部に記憶された特徴データよりも時間的に短いデータであっても正確に特定音を認識することができる。

（６）このプログラム、情報記憶媒体及び特定音認識システムは、
前記音認識処理部は、
所定時間間隔で、生成された特徴データと前記記憶部に記憶された特徴データとを比較して比較結果に基づき音認識処理を行い、所定回数分の認識結果に基づき最終的な認識結果を出力するようにしてもよい。

このようにすると、最終的な認識結果において雑音等による誤認識を低減することができる。

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

１．構成
図１に本実施形態の特定音認識システムの機能ブロック図の一例を示す。なお本実施形態の特定音認識システムは図１の構成要素（各部）の一部を省略した構成としてもよい。

音入力部１５０は、音を電気信号（アナログ音信号）に変換する（音信号を入力する）ものであり、その機能は、コンデンサマイクなどのマイクロフォンにより実現できる。

ＲＡＭ１６０は、処理部１００のワーク領域となるメモリである。

ＲＯＭ１７０は、プログラムやデータなどを格納するメモリである。処理部１００は、ＲＯＭ１７０に格納されるプログラム（データ）に基づいて本実施形態の種々の処理を行う。ＲＯＭ１７０には、本実施形態の各部としてコンピュータを機能させるためのプログラム（各部の処理をコンピュータに実行させるためのプログラム）を記憶することができる。

ＲＯＭ１７０は、特徴データ記憶部１７２（記憶部）を含む。特徴データ記憶部１７２は、特徴データ生成部１２０によって生成される特徴データの比較対象となる複数の特徴データを記憶する。これら特徴データは、複数の特定音それぞれの特徴データであって、所定時間間隔ごとの各周波数成分の圧縮値（例えば各周波数成分を２値化した２値データ）と、時間的に隣り合う各周波数成分の差分の圧縮値（例えば各周波数成分の差分を２値化した２値データ）とを含むデータである。

処理部１００は、ＲＡＭ１６０をワーク領域として各種処理を行う。処理部１００の機能は各種プロセッサ（ＣＰＵ、ＤＳＰ等）、ＡＳＩＣ（ゲートアレイ等）、Ａ／Ｄ変換器などのハードウェアや、プログラムにより実現できる。処理部１００は、ＡＤ変換部１１０、特徴データ生成部１２０、音認識処理部１３０を含む。

ＡＤ変換部１１０は、音入力部１５０において入力されたアナログ音信号をデジタル音信号に変換する。

特徴データ生成部１２０は、ＡＤ変換部１１０によって変換されたデジタル音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する。

また特徴データ生成部１２０は、前記各周波数成分を２値化した２値データと、時間的に隣り合う各周波数成分の差分を２値化した２値データとを含む特徴データを生成するようにしてもよい。

また特徴データ生成部１２０は、所定の閾値に基づき前記各周波数成分を２値化するようにしてもよい。

また特徴データ生成部１２０は、フーリエ変換後に、所定の周波数成分を取り出すフィルタ処理を行い、取り出した周波数成分に基づき前記特徴データを生成するようにしてもよい。

音認識処理部１３０は、特徴データ生成部１２０によって生成された特徴データと特徴データ記憶部１７２に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う。

また音認識処理部１３０は、生成された特徴データと特徴データ記憶部１７２に記憶された特徴データとを比較する際に、特徴データ記憶部１７２に記憶された特徴データにおける比較開始位置を所定時間単位でずらして複数回比較するようにしてもよい。

また音認識処理部１３０は、所定時間間隔で、生成された特徴データと特徴データ記憶部１７２に記憶された特徴データとを比較して比較結果に基づき音認識処理を行い、所定回数分の認識結果に基づき最終的な認識結果を出力するようにしてもよい。

２．本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。

２−１．特徴データの生成
図２（Ａ）、図２（Ｂ）、図３、図４は本実施形態の特徴データの生成の一例について説明するための図である。

本実施形態では、音認識処理に用いる特徴データを生成する際に、まず入力された音信号に対して高速フーリエ変換（ＦＦＴ）を行う。高速フーリエ変換によって、図２（Ａ）に示すような、各周波数成分の強さ（パワー、振幅）を得ることができる。

また本実施形態では、図３に示すように、入力された音信号ＡＳから８ＫＨｚのサンプリングレートで１２８点分をサンプリングし、サンプリングした１２８点分のデータを高速フーリエ変換することにより、６４点の周波数成分毎の強さを得ている。なお前記サンプリングは０．１秒間隔（所定時間間隔）で行われ、各回のサンプリングによって得られたデータに対してフーリエ変換が行われる。このように、比較的長い時間間隔でフーリエ変換のためのサンプリングを行うことにより、特徴データを生成するための演算負荷を低減することができる。

次に本実施形態では、各回のフーリエ変換によって得られた周波数成分から所定の周波数成分を取り出すフィルタ処理（バンドパスフィルタ処理）を行う。フィルタ処理後の各周波数成分の強さは図２（Ｂ）に示すようになる。図２（Ｂ）に示す例では、雑音が含まれ易い低音域（例えば２００Ｈｚ以下）と、音が鳴った場合の予測が困難な高音域（例えば２ｋＨｚ以上）をカットして、中音域の８つの周波数成分を取り出している。なお、取り出す周波数帯域は連続していなくてもよい。このように、音認識に適した周波数成分を取り出すことにより、特徴データのデータサイズを小さくしつつ、音認識に適した特徴データを生成することができる。

図４に示すデータ列ＤＲは、０．１秒毎（所定時間間隔毎）に生成されたフィルタ処理後の各周波数成分の、過去１秒分のデータである。

本実施形態では、このようなデータ列ＤＲから、０．１秒毎の各周波数成分を２値化した絶対値データＡＤと、時間的に隣り合う各周波数成分の差分を２値化した差分データＤＤを生成する。

具体的には、図４に示すように、データ列ＤＲの各周波数成分が所定の閾値ＴＨを超えていれば「１」とし、各周波数成分が閾値ＴＨを超えていなければ「０」として、各周波数成分を２値化して絶対値データＡＤを生成する。ここでは、閾値ＴＨは全周波数成分で一律の閾値ＴＨが設定されている。また閾値ＴＨは、雑音の影響を排除できる程度のレベルに設定される。

また図４に示すように、データ列ＤＲの時間的に隣り合う各周波数成分の値の差分（例えば０．１秒前の各周波数成分と最新の各周波数成分の差分）の符号が正であれば「１」、各周波数成分の差分の符号が負であれば「０」として、各周波数成分の差分を２値化して差分データＤＤを生成する。

本実施形態の特徴データは、この絶対値データＡＤと差分データＤＤからなる。絶対値データＡＤは、０．１秒毎の各周波数成分において所定の強さ以上の音が鳴っているか否かを示すデータであり、差分データＤＤは、０．１秒毎の各周波数成分における音の強さの変化（音が強くなったか否か）を示すデータである。

このように本実施形態によれば、音認識処理に用いる特徴データに含まれる絶対値データＡＤと差分データＤＤを２値データで表すことにより、特徴データのデータサイズを小さくすることができ、音認識処理における演算負荷を軽減することができる。

なお、予め特徴データ記憶部１７２に記憶される複数の特徴データもそれぞれ同様の手法で生成されるが、特徴データ記憶部１７２に記憶される特徴データは、入力された音声信号から生成する特徴データよりも長い秒数分（例えば２秒分）のデータである。

２−２．音認識処理
図５、図６、図７は、本実施形態の音認識処理の一例について説明するための図である。

図５に、特徴データ生成部１２０によって生成された特徴データＦＤと、特徴データ記憶部１７２に記憶された特徴データ（以下、パターンデータＰＤという）の一例を示す。図５に示す特徴データＦＤは、０．１秒毎の各周波数成分を２値化した最新の１秒分のデータａ０〜ａ１０からなる絶対値データＡＤと、０．１秒毎の各周波数成分の差分を２値化した最新の１秒分のデータｄ０〜ｄ９からなる差分データＤＤを含む。同様にパターンデータＰＤは、０．１秒毎の各周波数成分を２値化した２秒分のデータａ０〜ａ２０からなる絶対値データＡＤと、０．１秒毎の各周波数成分の差分を２値化した２秒分のデータｄ０〜ｄ１９からなる差分データＤＤを含む。

本実施形態では、生成された特徴データＦＤとパターンデータＰＤとを比較して、比較結果に基づき音認識処理を行う。また比較する際には、パターンデータＰＤにおける比較開始位置を、フーリエ変換時のサンプリング間隔である０．１秒単位（所定時間単位）でずらして複数回比較する。

具体的には、図５に示すように、まずパターンデータＰＤの絶対値データＡＤ、差分データＤＤにおける比較開始位置をそれぞれａ２０、ｄ１９として、特徴データＦＤの絶対値データａ１０〜ａ０及び差分データｄ９〜ｄ０とパターンデータＰＤの絶対値データａ２０〜ａ１０及び差分データｄ１９〜ｄ１０との間で全ビットについてＸＯＲ演算を行って、異なるビットの総数（ＸＯＲ演算の結果が「１」となるビットの総数）を求める。なお、本実施形態の１秒分の特徴データＦＤの絶対値データＡＤは、８×１１＝８８ビットであり、差分データＤＤは、８×１０＝８０ビットであるから、８８＋８０＝１６８ビットについてＸＯＲ演算を行う。

次に、図６に示すように、パターンデータＰＤの絶対値データＡＤ、差分データＤＤにおける比較開始位置をそれぞれ０．１秒分ずらしてａ１９、ｄ１８とし、特徴データＦＤの絶対値データａ１０〜ａ０及び差分データｄ９〜ｄ０と、パターンデータＰＤの絶対値データａ１９〜ａ９及び差分データｄ１８〜ｄ９との間で全ビットについてＸＯＲ演算を行う。

このようにパターンデータＰＤにおける比較開始位置を０．１秒単位でずらしながらＸＯＲ演算を繰り返し行い、各ＸＯＲ演算において、異なるビットの総数が最小となったときの異なるビットの総数を、当該パターンデータＰＤの特徴データＦＤとの「誤差」とする。なおＸＯＲ演算は、パターンデータＰＤの絶対値データＡＤ、差分データＤＤにおける比較開始位置をそれぞれａ１０、ｄ９とするまで繰り返し行う。

そして特徴データ記憶部１７２に記憶された他のパターンデータについても、同様にパターンデータにおける比較開始位置をずらしながら特徴データＦＤとの比較（ＸＯＲ演算）を行って、パターンデータ毎に「誤差」を算出し、全てのパターンデータの中で特徴データＦＤとの「誤差」が最小となるパターンデータを決定する。

また本実施形態では、０．１秒間隔（所定時間間隔）毎に、最新の１秒分の特徴データと複数のパターンデータとの比較を行って、「誤差」が最小であり且つ所定の許容範囲内であるパターンデータを決定して、これを認識結果とする。そして、所定回数分の認識結果の履歴に基づき最終的な認識結果を出力する。

図７に、所定回数分の認識結果の履歴の一例を示す。

本実施形態では、直近５回分の認識結果において、３回以上決定されたパターンを最終的な認識結果として決定している。図７に示す例では、パターンデータ「Ａ」〜「Ｄ」のうち、直近５回中３回決定されたパターンデータ「Ｄ」を最終的な認識結果として出力している。なお図７に示す例では、０．２秒前における認識結果が空欄となっているが、これは「誤差」が最小であるものの、所定の許容範囲内でなかったために、該当するパターンデータなしと決定したためである。

このように、所定回数分の認識結果の履歴に基づき最終的な認識結果を出力することにより、瞬間的な雑音の影響を排除して確実に特定音を認識することができる。

３．本実施形態の処理
次に、本実施形態の処理の一例について図８のフローチャートを用いて説明する。本実施形態では、図８に示すステップＳ１０からステップＳ２０までの処理を所定時間間隔（０．１秒）毎に繰り返す。

まず、特徴データ生成部１２０は、ＡＤ変換部１１０によって変換されたデジタル音信号に対して高速フーリエ変換を行う（ステップＳ１０）。

次に、特徴データ生成部１２０は、高速フーリエ変換後の周波数成分から所定の周波数成分を抽出するフィルタ処理を行う（ステップＳ１２）。

次に、特徴データ生成部１２０は、抽出された各周波数成分を２値化した絶対値データと、時間的に隣り合う各周波数成分の差分（抽出された最新の各周波数成分と０．１秒前に抽出された各周波数成分との差分）を２値化した差分データを生成する（ステップＳ１４）。

次に、音認識処理部１３０は、生成された過去１秒分の絶対値データと差分データとを含む特徴データと、特徴データ記憶部１７２に記憶される複数の特徴データ（パターンデータ）とを比較する（ステップＳ１６）。なお比較は、パターンデータにおける比較開始位置を所定時間単位（０．１秒単位）でずらしながら、特徴データの全ビットとパターンデータの一部の領域のビットとの間でＸＯＲ演算を行って、異なるビットの総数を求めることにより行う。

次に、音認識処理部１３０は、比較結果に基づき、誤差（異なるビットの総数）が最小であり、且つ誤差が許容範囲内であるパターンデータを決定する音認識処理を行う（ステップＳ１８）。誤差が許容範囲内であるか否かの判断は、例えばビットの総数に対する異なるビットの総数の割合が１０％以内であるか否かに基づき判断する。

次に、音認識処理部１３０は、過去所定回数分の認識結果の履歴に基づき最終的な認識結果（例えば、決定したパターンデータの識別情報）を出力する（ステップＳ２０）。

４．変形例
なお本発明は、上記実施形態で説明したものに限らず、種々の変形実施が可能である。例えば、明細書又は図面中の記載において広義や同義な用語として引用された用語は、明細書又は図面中の他の記載においても広義や同義な用語に置き換えることができる。

例えば、本実施形態では、フィルタ処理後の各周波数成分を圧縮する一例として、１段階の閾値に基づき各周波数成分を２値化する場合について説明したが、複数段階の閾値に基づき各周波数成分を圧縮するようにしてもよい。例えば２段階の閾値に基づき各周波数成分を３値化するようにしてもよい。

また本実施形態では、各周波数成分を２値化するための閾値を固定値とする場合について説明したが、当該閾値を可変の値とするようにしてもよい。例えば感度変更用のスイッチ等の操作部からの入力信号に基づき閾値を変更するようにしてもよい。また、過去所定時間分の各周波数成分の平均値に基づき当該閾値を変更するようにしてもよい。

また本実施形態では、各周波数成分を２値化するための閾値を全周波数成分について一定の閾値とする場合について説明したが、周波数成分毎に異なる閾値を用いるようにしてもよい。この場合には、雑音の影響を受け易い低音域の周波数成分についての閾値を、高音域の周波数成分についての閾値に比べて大きくするようにしてもよい。

また、本実施形態では、時間的に隣り合う各周波数成分の差分を圧縮する一例として、時間的に隣り合う各周波数成分の差分の符号によって２値化する場合について説明したが、時間的に隣り合う各周波数成分の差分の符号と差分の量によって圧縮するようにしてもよいし、時間的に隣り合う各周波数成分の差分の比によって圧縮するようにしてもよい。

実施形態の特定音認識システムの機能ブロック図の一例。図２（Ａ）、図２（Ｂ）は本実施形態の特徴データの生成の一例について説明するための図。本実施形態の特徴データの生成の一例について説明するための図。本実施形態の特徴データの生成の一例について説明するための図。本実施形態の音認識処理の一例について説明するための図。本実施形態の音認識処理の一例について説明するための図。本実施形態の音認識処理の一例について説明するための図。本実施形態の処理の流れを示すフローチャート図。

符号の説明

１００処理部、１１０ＡＤ変換部、１２０特徴データ生成部、１３０音認識処理部、１５０音入力部、１６０ＲＡＭ、１７０ＲＯＭ、１７２特徴データ記憶部

Claims

特定の音を認識する特定音認識システムのためのプログラムであって、
入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、
生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、
生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とするプログラム。
請求項１において、
前記特徴データ生成部は、
前記各周波数成分を２値化した２値データと、時間的に隣り合う各周波数成分の差分を２値化した２値データとを含む特徴データを生成することを特徴とするプログラム。
請求項２において、
前記特徴データ生成部は、
所定の閾値に基づき前記各周波数成分を２値化することを特徴とするプログラム。
請求項１乃至３のいずれかにおいて、
前記特徴データ生成部は、
フーリエ変換後に、所定の周波数成分を取り出すフィルタ処理を行い、取り出した周波数成分に基づき前記特徴データを生成することを特徴とするプログラム。
請求項１乃至４のいずれかにおいて、
前記音認識処理部は、
生成された特徴データと前記記憶部に記憶された特徴データとを比較する際に、前記記憶部に記憶された特徴データにおける比較開始位置を所定時間単位でずらして複数回比較することを特徴とするプログラム。
請求項１乃至５のいずれかにおいて、
前記音認識処理部は、
所定時間間隔で、生成された特徴データと前記記憶部に記憶された特徴データとを比較して比較結果に基づき音認識処理を行い、所定回数分の認識結果に基づき最終的な認識結果を出力することを特徴とするプログラム。
コンピュータ読み取り可能な情報記憶媒体であって、請求項１乃至６のいずれかのプログラムを記憶したことを特徴とする情報記憶媒体。
特定の音を認識する特定音認識システムであって、
入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、
生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、
生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部とを含むことを特徴とする特定音認識システム。