JP2009237254A - プログラム、情報記憶媒体、及び特定音認識システム - Google Patents

プログラム、情報記憶媒体、及び特定音認識システム Download PDF

Info

Publication number
JP2009237254A
JP2009237254A JP2008082972A JP2008082972A JP2009237254A JP 2009237254 A JP2009237254 A JP 2009237254A JP 2008082972 A JP2008082972 A JP 2008082972A JP 2008082972 A JP2008082972 A JP 2008082972A JP 2009237254 A JP2009237254 A JP 2009237254A
Authority
JP
Japan
Prior art keywords
feature data
frequency component
data
sound recognition
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008082972A
Other languages
English (en)
Inventor
Kotaro Sato
皇太郎 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bandai Namco Entertainment Inc
Original Assignee
Namco Bandai Games Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Namco Bandai Games Inc filed Critical Namco Bandai Games Inc
Priority to JP2008082972A priority Critical patent/JP2009237254A/ja
Publication of JP2009237254A publication Critical patent/JP2009237254A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 少ない演算負荷で特定音を識別することが可能なプログラム、情報記憶媒体及び特定音認識システムを提供すること。
【解決手段】 特定の音を認識する特定音認識システムのためのプログラムであって、入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とする。
【選択図】図8

Description

本発明は、プログラム、情報記憶媒体、及び特定音認識システムに関する。
従来から、特定音を識別する特定音識別装置が知られている。このような特定音識別装置では、入力された音波に含まれる所定レベル以上の各周波数成分と予め記憶保持している特定音の周波数とを比較するものが知られている(例えば特許文献1)。
特開2006−268824号公報
しかしながら従来の特定音識別装置では、警報音や報知音といった信号音的な音しか識別することができなかった。また人間の音声を認識する音声認識技術が知られているが、このような音声認識技術では、複雑な演算処理が必要とされ演算負荷が高いといった問題点があった。
本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、少ない演算負荷で特定音を識別することが可能なプログラム、情報記憶媒体及び特定音認識システムを提供することにある。
(1)本発明は、特定の音を認識する特定音認識システムのためのプログラムであって、
入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、
生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、
生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とする。
また本発明は、上記各部を含む特定音認識システムに関係する。また本発明はコンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるプログラムを記憶した情報記憶媒体に関係する。
本発明によれば、特徴データとして、所定時間間隔ごとの各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを用いることにより、特徴データのデータサイズを小さくすることができ、少ない演算負荷で特定音を識別することができる。
(2)このプログラム、情報記憶媒体及び特定音認識システムは、
前記特徴データ生成部は、
前記各周波数成分を2値化した2値データと、時間的に隣り合う各周波数成分の差分を2値化した2値データとを含む特徴データを生成するようにしてもよい。
このようにすると、特徴データのデータサイズをより小さくすることができる。
(3)このプログラム、情報記憶媒体及び特定音認識システムは、
前記特徴データ生成部は、
所定の閾値に基づき前記各周波数成分を2値化するようにしてもよい。
所定の閾値は、全周波数成分について一律の閾値を用いるようにしてもよいし、周波数成分毎に異なる閾値を用いるようにしてもよい。
(4)このプログラム、情報記憶媒体及び特定音認識システムは、
前記特徴データ生成部は、
フーリエ変換後に、所定の周波数成分を取り出すフィルタ処理を行い、取り出した周波数成分に基づき前記特徴データを生成するようにしてもよい。
このようにすると、雑音の影響を排除して特定音を認識することができる。
(5)このプログラム、情報記憶媒体及び特定音認識システムは、
前記音認識処理部は、
生成された特徴データと前記記憶部に記憶された特徴データとを比較する際に、前記記憶部に記憶された特徴データにおける比較開始位置を所定時間単位でずらして複数回比較するようにしてもよい。
このようにすると、生成された特徴データが記憶部に記憶された特徴データよりも時間的に短いデータであっても正確に特定音を認識することができる。
(6)このプログラム、情報記憶媒体及び特定音認識システムは、
前記音認識処理部は、
所定時間間隔で、生成された特徴データと前記記憶部に記憶された特徴データとを比較して比較結果に基づき音認識処理を行い、所定回数分の認識結果に基づき最終的な認識結果を出力するようにしてもよい。
このようにすると、最終的な認識結果において雑音等による誤認識を低減することができる。
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
1.構成
図1に本実施形態の特定音認識システムの機能ブロック図の一例を示す。なお本実施形態の特定音認識システムは図1の構成要素(各部)の一部を省略した構成としてもよい。
音入力部150は、音を電気信号(アナログ音信号)に変換する(音信号を入力する)ものであり、その機能は、コンデンサマイクなどのマイクロフォンにより実現できる。
RAM160は、処理部100のワーク領域となるメモリである。
ROM170は、プログラムやデータなどを格納するメモリである。処理部100は、ROM170に格納されるプログラム(データ)に基づいて本実施形態の種々の処理を行う。ROM170には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)を記憶することができる。
ROM170は、特徴データ記憶部172(記憶部)を含む。特徴データ記憶部172は、特徴データ生成部120によって生成される特徴データの比較対象となる複数の特徴データを記憶する。これら特徴データは、複数の特定音それぞれの特徴データであって、所定時間間隔ごとの各周波数成分の圧縮値(例えば各周波数成分を2値化した2値データ)と、時間的に隣り合う各周波数成分の差分の圧縮値(例えば各周波数成分の差分を2値化した2値データ)とを含むデータである。
処理部100は、RAM160をワーク領域として各種処理を行う。処理部100の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)、A/D変換器などのハードウェアや、プログラムにより実現できる。処理部100は、AD変換部110、特徴データ生成部120、音認識処理部130を含む。
AD変換部110は、音入力部150において入力されたアナログ音信号をデジタル音信号に変換する。
特徴データ生成部120は、AD変換部110によって変換されたデジタル音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する。
また特徴データ生成部120は、前記各周波数成分を2値化した2値データと、時間的に隣り合う各周波数成分の差分を2値化した2値データとを含む特徴データを生成するようにしてもよい。
また特徴データ生成部120は、所定の閾値に基づき前記各周波数成分を2値化するようにしてもよい。
また特徴データ生成部120は、フーリエ変換後に、所定の周波数成分を取り出すフィルタ処理を行い、取り出した周波数成分に基づき前記特徴データを生成するようにしてもよい。
音認識処理部130は、特徴データ生成部120によって生成された特徴データと特徴データ記憶部172に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う。
また音認識処理部130は、生成された特徴データと特徴データ記憶部172に記憶された特徴データとを比較する際に、特徴データ記憶部172に記憶された特徴データにおける比較開始位置を所定時間単位でずらして複数回比較するようにしてもよい。
また音認識処理部130は、所定時間間隔で、生成された特徴データと特徴データ記憶部172に記憶された特徴データとを比較して比較結果に基づき音認識処理を行い、所定回数分の認識結果に基づき最終的な認識結果を出力するようにしてもよい。
2.本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。
2−1.特徴データの生成
図2(A)、図2(B)、図3、図4は本実施形態の特徴データの生成の一例について説明するための図である。
本実施形態では、音認識処理に用いる特徴データを生成する際に、まず入力された音信号に対して高速フーリエ変換(FFT)を行う。高速フーリエ変換によって、図2(A)に示すような、各周波数成分の強さ(パワー、振幅)を得ることができる。
また本実施形態では、図3に示すように、入力された音信号ASから8KHzのサンプリングレートで128点分をサンプリングし、サンプリングした128点分のデータを高速フーリエ変換することにより、64点の周波数成分毎の強さを得ている。なお前記サンプリングは0.1秒間隔(所定時間間隔)で行われ、各回のサンプリングによって得られたデータに対してフーリエ変換が行われる。このように、比較的長い時間間隔でフーリエ変換のためのサンプリングを行うことにより、特徴データを生成するための演算負荷を低減することができる。
次に本実施形態では、各回のフーリエ変換によって得られた周波数成分から所定の周波数成分を取り出すフィルタ処理(バンドパスフィルタ処理)を行う。フィルタ処理後の各周波数成分の強さは図2(B)に示すようになる。図2(B)に示す例では、雑音が含まれ易い低音域(例えば200Hz以下)と、音が鳴った場合の予測が困難な高音域(例えば2kHz以上)をカットして、中音域の8つの周波数成分を取り出している。なお、取り出す周波数帯域は連続していなくてもよい。このように、音認識に適した周波数成分を取り出すことにより、特徴データのデータサイズを小さくしつつ、音認識に適した特徴データを生成することができる。
図4に示すデータ列DRは、0.1秒毎(所定時間間隔毎)に生成されたフィルタ処理後の各周波数成分の、過去1秒分のデータである。
本実施形態では、このようなデータ列DRから、0.1秒毎の各周波数成分を2値化した絶対値データADと、時間的に隣り合う各周波数成分の差分を2値化した差分データDDを生成する。
具体的には、図4に示すように、データ列DRの各周波数成分が所定の閾値THを超えていれば「1」とし、各周波数成分が閾値THを超えていなければ「0」として、各周波数成分を2値化して絶対値データADを生成する。ここでは、閾値THは全周波数成分で一律の閾値THが設定されている。また閾値THは、雑音の影響を排除できる程度のレベルに設定される。
また図4に示すように、データ列DRの時間的に隣り合う各周波数成分の値の差分(例えば0.1秒前の各周波数成分と最新の各周波数成分の差分)の符号が正であれば「1」、各周波数成分の差分の符号が負であれば「0」として、各周波数成分の差分を2値化して差分データDDを生成する。
本実施形態の特徴データは、この絶対値データADと差分データDDからなる。絶対値データADは、0.1秒毎の各周波数成分において所定の強さ以上の音が鳴っているか否かを示すデータであり、差分データDDは、0.1秒毎の各周波数成分における音の強さの変化(音が強くなったか否か)を示すデータである。
このように本実施形態によれば、音認識処理に用いる特徴データに含まれる絶対値データADと差分データDDを2値データで表すことにより、特徴データのデータサイズを小さくすることができ、音認識処理における演算負荷を軽減することができる。
なお、予め特徴データ記憶部172に記憶される複数の特徴データもそれぞれ同様の手法で生成されるが、特徴データ記憶部172に記憶される特徴データは、入力された音声信号から生成する特徴データよりも長い秒数分(例えば2秒分)のデータである。
2−2.音認識処理
図5、図6、図7は、本実施形態の音認識処理の一例について説明するための図である。
図5に、特徴データ生成部120によって生成された特徴データFDと、特徴データ記憶部172に記憶された特徴データ(以下、パターンデータPDという)の一例を示す。図5に示す特徴データFDは、0.1秒毎の各周波数成分を2値化した最新の1秒分のデータa0〜a10からなる絶対値データADと、0.1秒毎の各周波数成分の差分を2値化した最新の1秒分のデータd0〜d9からなる差分データDDを含む。同様にパターンデータPDは、0.1秒毎の各周波数成分を2値化した2秒分のデータa0〜a20からなる絶対値データADと、0.1秒毎の各周波数成分の差分を2値化した2秒分のデータd0〜d19からなる差分データDDを含む。
本実施形態では、生成された特徴データFDとパターンデータPDとを比較して、比較結果に基づき音認識処理を行う。また比較する際には、パターンデータPDにおける比較開始位置を、フーリエ変換時のサンプリング間隔である0.1秒単位(所定時間単位)でずらして複数回比較する。
具体的には、図5に示すように、まずパターンデータPDの絶対値データAD、差分データDDにおける比較開始位置をそれぞれa20、d19として、特徴データFDの絶対値データa10〜a0及び差分データd9〜d0とパターンデータPDの絶対値データa20〜a10及び差分データd19〜d10との間で全ビットについてXOR演算を行って、異なるビットの総数(XOR演算の結果が「1」となるビットの総数)を求める。なお、本実施形態の1秒分の特徴データFDの絶対値データADは、8×11=88ビットであり、差分データDDは、8×10=80ビットであるから、88+80=168ビットについてXOR演算を行う。
次に、図6に示すように、パターンデータPDの絶対値データAD、差分データDDにおける比較開始位置をそれぞれ0.1秒分ずらしてa19、d18とし、特徴データFDの絶対値データa10〜a0及び差分データd9〜d0と、パターンデータPDの絶対値データa19〜a9及び差分データd18〜d9との間で全ビットについてXOR演算を行う。
このようにパターンデータPDにおける比較開始位置を0.1秒単位でずらしながらXOR演算を繰り返し行い、各XOR演算において、異なるビットの総数が最小となったときの異なるビットの総数を、当該パターンデータPDの特徴データFDとの「誤差」とする。なおXOR演算は、パターンデータPDの絶対値データAD、差分データDDにおける比較開始位置をそれぞれa10、d9とするまで繰り返し行う。
そして特徴データ記憶部172に記憶された他のパターンデータについても、同様にパターンデータにおける比較開始位置をずらしながら特徴データFDとの比較(XOR演算)を行って、パターンデータ毎に「誤差」を算出し、全てのパターンデータの中で特徴データFDとの「誤差」が最小となるパターンデータを決定する。
また本実施形態では、0.1秒間隔(所定時間間隔)毎に、最新の1秒分の特徴データと複数のパターンデータとの比較を行って、「誤差」が最小であり且つ所定の許容範囲内であるパターンデータを決定して、これを認識結果とする。そして、所定回数分の認識結果の履歴に基づき最終的な認識結果を出力する。
図7に、所定回数分の認識結果の履歴の一例を示す。
本実施形態では、直近5回分の認識結果において、3回以上決定されたパターンを最終的な認識結果として決定している。図7に示す例では、パターンデータ「A」〜「D」のうち、直近5回中3回決定されたパターンデータ「D」を最終的な認識結果として出力している。なお図7に示す例では、0.2秒前における認識結果が空欄となっているが、これは「誤差」が最小であるものの、所定の許容範囲内でなかったために、該当するパターンデータなしと決定したためである。
このように、所定回数分の認識結果の履歴に基づき最終的な認識結果を出力することにより、瞬間的な雑音の影響を排除して確実に特定音を認識することができる。
3.本実施形態の処理
次に、本実施形態の処理の一例について図8のフローチャートを用いて説明する。本実施形態では、図8に示すステップS10からステップS20までの処理を所定時間間隔(0.1秒)毎に繰り返す。
まず、特徴データ生成部120は、AD変換部110によって変換されたデジタル音信号に対して高速フーリエ変換を行う(ステップS10)。
次に、特徴データ生成部120は、高速フーリエ変換後の周波数成分から所定の周波数成分を抽出するフィルタ処理を行う(ステップS12)。
次に、特徴データ生成部120は、抽出された各周波数成分を2値化した絶対値データと、時間的に隣り合う各周波数成分の差分(抽出された最新の各周波数成分と0.1秒前に抽出された各周波数成分との差分)を2値化した差分データを生成する(ステップS14)。
次に、音認識処理部130は、生成された過去1秒分の絶対値データと差分データとを含む特徴データと、特徴データ記憶部172に記憶される複数の特徴データ(パターンデータ)とを比較する(ステップS16)。なお比較は、パターンデータにおける比較開始位置を所定時間単位(0.1秒単位)でずらしながら、特徴データの全ビットとパターンデータの一部の領域のビットとの間でXOR演算を行って、異なるビットの総数を求めることにより行う。
次に、音認識処理部130は、比較結果に基づき、誤差(異なるビットの総数)が最小であり、且つ誤差が許容範囲内であるパターンデータを決定する音認識処理を行う(ステップS18)。誤差が許容範囲内であるか否かの判断は、例えばビットの総数に対する異なるビットの総数の割合が10%以内であるか否かに基づき判断する。
次に、音認識処理部130は、過去所定回数分の認識結果の履歴に基づき最終的な認識結果(例えば、決定したパターンデータの識別情報)を出力する(ステップS20)。
4.変形例
なお本発明は、上記実施形態で説明したものに限らず、種々の変形実施が可能である。例えば、明細書又は図面中の記載において広義や同義な用語として引用された用語は、明細書又は図面中の他の記載においても広義や同義な用語に置き換えることができる。
例えば、本実施形態では、フィルタ処理後の各周波数成分を圧縮する一例として、1段階の閾値に基づき各周波数成分を2値化する場合について説明したが、複数段階の閾値に基づき各周波数成分を圧縮するようにしてもよい。例えば2段階の閾値に基づき各周波数成分を3値化するようにしてもよい。
また本実施形態では、各周波数成分を2値化するための閾値を固定値とする場合について説明したが、当該閾値を可変の値とするようにしてもよい。例えば感度変更用のスイッチ等の操作部からの入力信号に基づき閾値を変更するようにしてもよい。また、過去所定時間分の各周波数成分の平均値に基づき当該閾値を変更するようにしてもよい。
また本実施形態では、各周波数成分を2値化するための閾値を全周波数成分について一定の閾値とする場合について説明したが、周波数成分毎に異なる閾値を用いるようにしてもよい。この場合には、雑音の影響を受け易い低音域の周波数成分についての閾値を、高音域の周波数成分についての閾値に比べて大きくするようにしてもよい。
また、本実施形態では、時間的に隣り合う各周波数成分の差分を圧縮する一例として、時間的に隣り合う各周波数成分の差分の符号によって2値化する場合について説明したが、時間的に隣り合う各周波数成分の差分の符号と差分の量によって圧縮するようにしてもよいし、時間的に隣り合う各周波数成分の差分の比によって圧縮するようにしてもよい。
実施形態の特定音認識システムの機能ブロック図の一例。 図2(A)、図2(B)は本実施形態の特徴データの生成の一例について説明するための図。 本実施形態の特徴データの生成の一例について説明するための図。 本実施形態の特徴データの生成の一例について説明するための図。 本実施形態の音認識処理の一例について説明するための図。 本実施形態の音認識処理の一例について説明するための図。 本実施形態の音認識処理の一例について説明するための図。 本実施形態の処理の流れを示すフローチャート図。
符号の説明
100 処理部、110 AD変換部、120 特徴データ生成部、130 音認識処理部、150 音入力部、160 RAM、170 ROM、172 特徴データ記憶部

Claims (8)

  1. 特定の音を認識する特定音認識システムのためのプログラムであって、
    入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、
    生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、
    生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とするプログラム。
  2. 請求項1において、
    前記特徴データ生成部は、
    前記各周波数成分を2値化した2値データと、時間的に隣り合う各周波数成分の差分を2値化した2値データとを含む特徴データを生成することを特徴とするプログラム。
  3. 請求項2において、
    前記特徴データ生成部は、
    所定の閾値に基づき前記各周波数成分を2値化することを特徴とするプログラム。
  4. 請求項1乃至3のいずれかにおいて、
    前記特徴データ生成部は、
    フーリエ変換後に、所定の周波数成分を取り出すフィルタ処理を行い、取り出した周波数成分に基づき前記特徴データを生成することを特徴とするプログラム。
  5. 請求項1乃至4のいずれかにおいて、
    前記音認識処理部は、
    生成された特徴データと前記記憶部に記憶された特徴データとを比較する際に、前記記憶部に記憶された特徴データにおける比較開始位置を所定時間単位でずらして複数回比較することを特徴とするプログラム。
  6. 請求項1乃至5のいずれかにおいて、
    前記音認識処理部は、
    所定時間間隔で、生成された特徴データと前記記憶部に記憶された特徴データとを比較して比較結果に基づき音認識処理を行い、所定回数分の認識結果に基づき最終的な認識結果を出力することを特徴とするプログラム。
  7. コンピュータ読み取り可能な情報記憶媒体であって、請求項1乃至6のいずれかのプログラムを記憶したことを特徴とする情報記憶媒体。
  8. 特定の音を認識する特定音認識システムであって、
    入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、
    生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、
    生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部とを含むことを特徴とする特定音認識システム。
JP2008082972A 2008-03-27 2008-03-27 プログラム、情報記憶媒体、及び特定音認識システム Withdrawn JP2009237254A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008082972A JP2009237254A (ja) 2008-03-27 2008-03-27 プログラム、情報記憶媒体、及び特定音認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008082972A JP2009237254A (ja) 2008-03-27 2008-03-27 プログラム、情報記憶媒体、及び特定音認識システム

Publications (1)

Publication Number Publication Date
JP2009237254A true JP2009237254A (ja) 2009-10-15

Family

ID=41251264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008082972A Withdrawn JP2009237254A (ja) 2008-03-27 2008-03-27 プログラム、情報記憶媒体、及び特定音認識システム

Country Status (1)

Country Link
JP (1) JP2009237254A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013057843A (ja) * 2011-09-09 2013-03-28 National Institute Of Information & Communication Technology 音声処置装置、音声合成装置、音声特徴量の生産方法、およびプログラム
JP2016095434A (ja) * 2014-11-17 2016-05-26 日本電信電話株式会社 報知音感知・識別装置、報知音感知・識別方法、報知音感知・識別プログラム
CN106128477A (zh) * 2016-06-23 2016-11-16 南阳理工学院 一种口语识别校正系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013057843A (ja) * 2011-09-09 2013-03-28 National Institute Of Information & Communication Technology 音声処置装置、音声合成装置、音声特徴量の生産方法、およびプログラム
JP2016095434A (ja) * 2014-11-17 2016-05-26 日本電信電話株式会社 報知音感知・識別装置、報知音感知・識別方法、報知音感知・識別プログラム
CN106128477A (zh) * 2016-06-23 2016-11-16 南阳理工学院 一种口语识别校正系统
CN106128477B (zh) * 2016-06-23 2017-07-04 南阳理工学院 一种口语识别校正系统

Similar Documents

Publication Publication Date Title
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
CN110136744B (zh) 一种音频指纹生成方法、设备及存储介质
US20140067388A1 (en) Robust voice activity detection in adverse environments
US11282514B2 (en) Method and apparatus for recognizing voice
US20210125628A1 (en) Method and device for audio recognition
CN109979418A (zh) 音频处理方法、装置、电子设备及存储介质
Govind et al. Epoch extraction from emotional speech
Abbasi et al. A large-scale benchmark dataset for anomaly detection and rare event classification for audio forensics
JP4790319B2 (ja) 解決調波および未解決調波の統一処理方法
JP2009237254A (ja) プログラム、情報記憶媒体、及び特定音認識システム
JP4496378B2 (ja) 定常雑音下における音声区間検出に基づく目的音声の復元方法
JP2006209123A (ja) 高調波信号の基本周波数を求める方法
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
CN101937675B (zh) 语音检测方法及其设备
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN114999531A (zh) 一种基于频谱分割与深度学习的语音情感识别方法
CN113851114A (zh) 语音信号的基频确定方法和装置
WO2022205400A1 (zh) 一种基于语音识别的安全预警方法、装置及终端设备
US11881200B2 (en) Mask generation device, mask generation method, and recording medium
JP7205546B2 (ja) 音声処理装置、音声処理方法、及びプログラム
CN111999556B (zh) 一种基于Duffing振子系统的线谱检测方法、系统及其存储介质
US20220130405A1 (en) Low Complexity Voice Activity Detection Algorithm
JP2008257084A (ja) 1次元信号の2値化によるhlac特徴量抽出方法および特徴量抽出装置
CN105185386A (zh) 基于两步排列熵的语音活动检测方法
Jesudhas et al. A novel approach to build a low complexity smart sound recognition system for domestic environment

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110607