JP2009020459A - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP2009020459A
JP2009020459A JP2007184873A JP2007184873A JP2009020459A JP 2009020459 A JP2009020459 A JP 2009020459A JP 2007184873 A JP2007184873 A JP 2007184873A JP 2007184873 A JP2007184873 A JP 2007184873A JP 2009020459 A JP2009020459 A JP 2009020459A
Authority
JP
Japan
Prior art keywords
section
sections
audio signal
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007184873A
Other languages
English (en)
Other versions
JP4877114B2 (ja
Inventor
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007184873A priority Critical patent/JP4877114B2/ja
Publication of JP2009020459A publication Critical patent/JP2009020459A/ja
Application granted granted Critical
Publication of JP4877114B2 publication Critical patent/JP4877114B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声信号を区分した各区間について適度な時間長を確保する。
【解決手段】音声区分部121は、音声信号Sを時間軸上で複数の区間bに区分する。音声区分部121は、音声信号SのSN比に基づいて音声信号Sを発音区間PAと非発音区間PBとに区分する第1区分部41と、音声信号Sの包絡線Eの各谷部Dを境界として音声信号Sを区分する第2区分部42とで構成される。特徴抽出部123は、複数の区間bの各々について音声信号Sの音響的な特徴量を抽出する。区間連結部125は、音声信号Sの特徴量が類似する複数の相前後する区間bを連結することで各区間Bを画定する。音声分類部14は、各区間Bの音声信号Sを発声者ごとに分類する。
【選択図】図1

Description

本発明は、音声信号を時間軸上で複数の区間に区分する技術に関する。
音声信号を時間軸に沿って複数の区間に区分する各種の技術が従来から提案されている。例えば特許文献1や特許文献2には、音声信号のSN比と所定の閾値との比較の結果に応じて音声信号を発音区間と非発音区間(音声の収録時の環境音のみが存在する区間)とに区分する技術が開示されている。
特開昭59−99497号公報 国際公開第2007/017993号パンフレット
しかし、特許文献1や特許文献2の技術においては、閾値の設定の如何によって音声信号が過度に短い時間長の区間に区分される場合がある。そして、区間が余りに短いと音声信号の本来の特性を忠実に反映した特徴量を当該区間から抽出することが困難となるから、区分後の音声信号に対する各種の処理(例えば各区間の解析)の精度が低下するという問題がある。以上の事情を背景として、本発明は、音声信号を区分した各区間について適度な時間長を確保するという課題の解決を目的としている。
前述の課題を解決するために、本発明に係る音声処理装置は、音声信号を時間軸上で複数の区間に区分する音声区分手段と、複数の区間の各々について音声信号の特徴量を抽出する特徴抽出手段と、音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手段とを具備する。以上の構成によれば、音声区分手段が区分した複数の区間のうち音声信号の特徴量が類似する各区間が連結されるから、区間連結手段による処理後の各区間について適度な時間長を確保することが可能となる。
本発明の好適な態様において、音声区分手段は、音声信号を発音区間と非発音区間とに区分する第1区分手段を含む。以上の構成においては音声信号が発音の有無に応じて区分されるから、例えば発音区間内の音声信号について選択的に所定の処理を実行するといった効率的な処理が可能となる。
さらに具体的な態様において、第1区分手段は、音声信号の信号レベルと雑音レベルとの相対比に基づいて発音区間と非発音区間とを順次に区分し、区分後の非発音区間の音声信号に基づいて雑音レベルを更新する。本態様においては、信号レベルと雑音レベルとの相対比に基づいて音声信号が発音区間と非発音区間とに区分されるから、音声信号の雑音の成分が第1区分部による区分の精度に与える影響を低減することができる。また、区分後の非発音区間の音声信号に基づいて雑音レベルが更新されるから、音声信号の途中で雑音レベルが変化した場合であっても、第1区分部による区分の精度が低下する可能性は低減される。
別の態様に係る音声処理装置は、非発音区間内の音声信号の周波数スペクトルを発音区間内の音声信号の周波数スペクトルから減算する雑音抑圧手段を具備する。本態様によれば、音声信号から雑音が抑圧されるという利点がある。
本発明の好適な態様において、音声区分手段は、音声信号の波形の包絡線における複数の谷部のうち発音区間内の各谷部を境界として音声信号を区分する第2区分手段を含む。本態様によれば、複数の発声者による発声が時間軸上において連続または部分的に重複している場合であっても、各発声者による発声を別個の区間に区分することが可能となる。
特徴抽出手段が抽出する特徴量や区間連結手段が各区間の類否を判定するための指標(類否指標値)は本発明において任意である。例えば、特徴抽出手段が、音声区分手段による区分後の各区間について音声信号の特徴ベクトルの時系列を特徴量として抽出する態様においては、ひとつの区間の特徴ベクトルの分布を複数の確率分布の加重和としてモデル化する混合モデルから他の区間の各特徴ベクトルが出現する尤度の平均値に基づいて区間連結手段が両区間の類否を判定する構成や、ひとつの区間の特徴ベクトルの時系列をベクトル量子化したコードブックと他の区間の各特徴ベクトルとのベクトル量子化歪の平均値に基づいて区間連結手段が両区間の類否を判定する構成が採用される。また、ひとつの区間の特徴量と他の区間の特徴量との相互相関値に基づいて区間連結手段が両区間の類否を判定する構成によれば、尤度やベクトル量子化歪を算定する構成と比較して、特徴抽出手段や区間連結手段による処理の負荷が軽減されるという利点がある。
本発明の好適な態様に係る音声処理装置は、区間連結手段による処理後の各区間の音声信号を、当該各区間内の音声信号の特徴量に基づいて発声者ごとに分類する音声分類手段を具備する。本発明によれば、音声信号が適度な時間長の区間に区分されるから、音声信号の本来の特性を忠実に反映した特徴量が各区間から抽出される。したがって、音声分類手段による各区間の分類の精度を高めることが可能となる。
本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号を時間軸上で複数の区間に区分する音声区分処理と、複数の区間の各々について音声信号の特徴量を抽出する特徴抽出処理と、音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結処理(例えば図7のステップSE4)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、音声信号を時間軸上で複数の区間に区分する音声区分手順と、複数の区間の各々について音声信号の特徴量を抽出する特徴抽出手順と、音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手順とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
記憶装置20は、音声の時間軸上における波形を表す音声信号Sを記憶する。本形態の音声信号Sが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して採取された音声である。図2の部分(A)には、音声信号Sの時間軸上の波形が例示されている。
図1の制御装置10は、記憶装置20に格納されたプログラムを実行することで音声信号Sから会議の議事録を生成する。議事録は、複数の参加者の各々の発言の内容(文字)を時系列に配列した会議の記録である。図1に示すように、制御装置10は、区分処理部12と音声分類部14と音声認識部16として機能する。なお、図1の制御装置10の各機能は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路として実装されてもよい。
区分処理部12は、図2の部分(E)に示すように、音声信号Sを、時間軸に沿って、発声音が存在する複数の区間B(B1,B2,……)と発声音が存在しない複数の非発音区間PB(PB1,PB2,……)とに区分する。ひとつの区間Bは、ひとりの発声者が連続して発声した可能性が高いと推定される期間である。
図1に示すように、区分処理部12は、音声区分部121と特徴抽出部123と区間連結部125とを含む。音声区分部121は、音声信号Sを複数の区間b(発音区間)と複数の非発音区間PBとに区分する。本形態の音声区分部121は第1区分部41と第2区分部42とを有する。第1区分部41は、図2の部分(B)に示すように、音声信号SのSN比に基づいて音声信号Sを発音区間PA(PA1,PA2,……)と非発音区間PB(PB1,PB2,……)とに区分する。第2区分部42は、図2の部分(C)および部分(D)に示すように、音声信号Sの波形の包絡線(エンベロープ)Eにおける各谷部Dを境界として発音区間PAを複数の区間b(b1,b2,……)に区分する。
特徴抽出部123は、複数の区間bの各々について音声信号Sの特徴量を抽出する。区間連結部125は、図2の部分(E)に示すように、複数の区間bのうち音声信号Sの特徴量が類似する複数の区間bを連結することで区間Bを画定する。
音声分類部14は、図2の部分(F)に示すように、区分処理部12が区分した各区間Bの音声信号Sを発声者ごとに分類する。非発音区間PBについては分類の対象から除外される。各区間Bの音声信号Sの分類には公知のクラスタリング技術が任意に採用される。
例えば、音声分類部14は、各区間Bの音声信号Sに対してFFT(Fast Fourier Transform)処理を含む周波数分析を実行することで当該区間B内の音響的な特徴量(例えばMFCC(Mel Frequency Cepstral Coefficient))を抽出し、特徴量の類似する各区間Bが共通のクラスタに所属するように複数の区間Bを各クラスタに分類する。したがって、音声信号Sのうち同じ発声者が発声した可能性が高い区間Bは共通のクラスタに分類される。そして、音声分類部14は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各区間Bの始点および終点の時刻と、当該各区間B内の音声信号Sとを対応させて記憶装置20に格納する。また、各非発音区間PBの始点および終点の時刻と当該非発音区間PB内の音声信号Sとについても記憶装置20に格納される。なお、会議の参加者の人数が既知であって利用者が事前に指定する構成においては、音声信号Sの各区間Bを、当該人数に相当する個数のクラスタに分類する構成が好適に採用される。
音声認識部16は、各クラスタに分類された音声信号Sの各区間Bから発声者ごとの発言の内容を文字として特定する。各区間Bの音声信号Sから文字を認識する処理には公知の音声認識技術が任意に採用される。例えば、音声認識部16は、第1に、ひとつのクラスタに分類された各区間Bの音声信号Sの音響的な特徴量に応じて初期的な音響モデルを更新(話者適応)することで、当該クラスタに対応した発声者の音声の特徴を固有に反映した音響モデルを生成し、第2に、話者適応後の音響モデルとクラスタ内の各区間Bの音声信号Sから抽出された特徴量とを対比することで発言の文字を識別する。
制御装置10は、音声認識部16による処理の結果を出力装置30に出力する。出力装置30は、発言の時刻と、発声者の識別符号(例えば発声者の氏名)と、当該発声の内容について音声認識部16が特定した文字とを時系列に配列した議事録の画像を表示する。
次に、区分処理部12の各要素の具体的な動作を詳述する。図3は、第1区分部41の動作を示すフローチャートである。同図の処理は、議事録の作成が利用者から指示されることを契機として実行される。
第1区分部41は、音声信号Sを時間軸上で区分した複数のフレームFの各々について帯域別レベルLF[1]〜LF[m](mは2以上の自然数)を算定して記憶装置20に格納する(ステップSA1)。フレームFは区間Bや非発音区間PBと比較して充分に短い期間に設定される。帯域別レベルLF[h](h=1〜m)は、ひとつのフレームFの音声信号Sを周波数軸に沿ってm個の周波数(または周波数帯域)の成分に分割したときの第h番目の成分の強度(レベル)である。したがって、帯域別レベルLF[1]〜LF[m]の算定にはFFT(Fast Fourier Transform)処理やフィルタバンク処理などに代表される公知の周波数分析が任意に採用される。
次いで、第1区分部41は、音声信号Sに含まれる雑音の平均的な強度(以下では単に「雑音レベル」という)LN[1]〜LN[m]の初期値を算定する(ステップSA2)。音声信号Sの収録は一般的に各発声者の発声に先立って開始されるから、図2の部分(A)に示すように音声信号Sのうち始点t0から所定個のフレームFにわたる区間P0は発声者の音声を含まない区間(すなわち音声信号Sの収録時の環境音のみを含む区間)である可能性が高い。そこで、第1区分部41は、区間P0内の音声信号Sから雑音レベルLN[1]〜LN[m]の初期値を算定する。雑音レベルLN[h]の初期値は、区間P0内の総てのフレームFにわたる帯域別レベルLF[h]の平均値である。
次に、第1区分部41は、発音区間PAの始点を検出するための処理(ステップSA3)と発音区間PAの終点を検出するための処理(ステップSA4)とを実行することでひとつの発音区間PAを画定する。発音区間PAの画定は、発音区間PA以外の区間を非発音区間PBとして画定することと等価である。
さらに、第1区分部41は、直近に検出した発音区間PAの直前の非発音区間PB内の音声信号Sに基づいて雑音レベルLN[1]〜LN[m]を更新し(ステップSA5)、更新後の雑音レベルLN[1]〜LN[m]を利用してステップSA3およびステップSA4の処理を実行する。例えば、図2の部分(B)に示すように、発音区間PA2の終点として検出された時点t1以後の各フレームFを対象として実行されるステップSA3およびステップSA4においては、時点t1における最新の発音区間PA2の直前(発音区間PA1の直後)にある非発音区間PB2の音声信号Sに応じた更新後の雑音レベルLN[1]〜LN[m]が使用される。
ステップSA5において、第1区分部41は、直近に画定した発音区間PAの直前の非発音区間PB内の総てのフレームFにわたる帯域別レベルLF[h]の平均値を更新用の雑音レベルLN[h]_newとして算定し、現段階での雑音レベルLN[h]_crtと更新用の雑音レベルLN[h]_newとの加重和を新たな雑音レベルLN[h]として算定する。すなわち、更新後の雑音レベルLN[h]は下式で表現される。係数αは1未満の定数である。
LN[h]=(1−α)・LN[h]_crt+α・LN[h]_new
次に、図4を参照して、発音区間PAの始点を検出するステップSA3の処理の具体例を説明する。
第1区分部41は、発音区間PAの始点をフレームFの番号で指定する変数P_STARTをクリアするとともに変数CNT_START1と変数CNT_START2とをゼロに初期化する(ステップSB1)。次いで、第1区分部41は、未選択で最先(最も古い)のフレームFについてSN比Rを算定する(ステップSB2)。SN比Rは、当該フレームFの帯域別レベルLF[1]〜LF[m]と現段階の雑音レベルLN[1]〜LN[m]とに基づいて以下の式(1)で算定される。
Figure 2009020459
第1区分部41は、変数CNT_START2に「1」を加算したうえで(ステップSB3)、ステップSB2で算定したSN比Rが所定の閾値SNR_TH1を上回るか否かを判定する(ステップSB4)。本形態においては、以下に説明するように、SN比Rが最初に閾値SNR_TH1を上回ったフレームFを先頭とした所定個のフレームF(以下「候補フレーム群」という)のなかでSN比Rが閾値SNR_TH1を超えるフレームFの個数がN1個を上回る場合に、候補フレーム群の先頭のフレームFを発音区間PAの始点として特定する。
ステップSB4の結果が肯定である場合、第1区分部41は、変数CNT_START1がゼロであるか否かを判定する(ステップSB5)。変数CNT_START1がゼロであるということは今回のフレームFが候補フレーム群の先頭のフレームFであることを意味する。したがって、ステップSB5の結果が肯定である場合、第1区分部41は、今回のフレームFの番号を変数P_STARTに仮設定する(ステップSB6)とともに変数CNT_START2をゼロに初期化する(ステップSB7)。一方、ステップSB5の結果が否定である場合、第1区分部41は、ステップSB6およびステップSB7を経ずに処理をステップSB8に移行する。
第1区分部41は、ステップSB8にて変数CNT_START1(候補フレーム群のうちSN比Rが閾値SNR_TH1を上回るフレームFの個数)に「1」を加算したうえで、加算後の変数CNT_START1が所定値N1を上回るか否かを判定する(ステップSB9)。ステップSB9の結果が肯定である場合、第1区分部41は、直前のステップSB6で仮設定した変数P_STARTを確定する。すなわち、変数P_STARTの指定するフレームFが発音区間PAの始点として特定される。
ステップSB9の結果が否定である場合(すなわち候補フレーム群のうちSN比Rが閾値SNR_TH1を上回るフレームが未だN1個以下である場合)、第1区分部41は、次のフレームFについてステップSB2でSN比Rを算定したうえでステップSB3以後の処理を実行する。以上のようにひとつのフレームFのSN比Rが閾値SNR_TH1を上回るだけでは発音区間PAの始点は確定しないから、例えば周囲の雑音や電気的なノイズに起因したSN比Rの上昇を発音区間PAの始点と誤認する可能性は低減される。
一方、ステップSB4の結果が否定である場合(すなわちSN比Rが閾値SNR_TH1以下である場合)、第1区分部41は、変数CNT_START2が所定値N2を上回るか否かを判定する(ステップSB11)。変数CNT_START2が所定値N2を上回るということは、候補フレーム群のN2個のフレームFのうちSN比Rが閾値SNR_TH1を上回るフレームがN1以下であったことを意味する。したがって、ステップSB11の結果が肯定である場合、第1区分部41は、ステップSB12にて変数CNT_START1をゼロに初期化したうえで処理をステップSB2に移行する。ステップSB12の実行後に最初にSN比Rが閾値SNR_TH1を上回ると(ステップSB4:YES)、ステップSB5の結果が肯定となってステップSB6およびステップSB7が実行される。すなわち、新たにSN比Rが閾値SNR_TH1を超えたフレームFが始点となるように候補フレーム群が更新される。一方、ステップSB11の結果が否定である場合、第1区分部41は、ステップSB12を経ずに処理をステップSB2に移行する。
次に、図5を参照して、発音区間PAの終点を検出するステップSA4の処理の具体例を説明する。
第1区分部41は、発音区間PAの終点をフレームFの番号で指定する変数P_STOPをクリアするとともに変数CNT_STOPをゼロに初期化する(ステップSC1)。次いで、第1区分部41は、ステップSA3で始点として検出したフレームFに後続するフレームFのうち未だステップSA4の対象となっていない最先のフレームFのSN比Rを算定する(ステップSC2)。そして、第1区分部41は、ステップSC2で算定したSN比Rが所定の閾値SNR_TH2を下回るか否かを判定する(ステップSC3)。
ステップSC3の結果が肯定である場合、第1区分部41は、変数CNT_STOPがゼロであるか否かを判定する(ステップSC4)。ステップSC4の結果が肯定である場合、第1区分部41は、今回のフレームFの番号を変数P_STOPに仮設定する(ステップSC5)。一方、ステップSC4の結果が否定である場合、第1区分部41は、ステップSC5を経ずに処理をステップSC6に移行する。
ステップSC6において、第1区分部41は、変数CNT_STOP(SN比Rが閾値SNR_TH1を上回るフレームFの個数)に「1」を加算し、加算後の変数CNT_STOPが所定値N3を上回るか否かを判定する(ステップSC7)。ステップSC7の結果が肯定である場合、第1区分部41は、直前のステップSC5で仮設定した変数P_STOPを確定する。すなわち、変数P_STOPの指定するフレームFが発音区間PAの終点として特定される。
ステップSC7の結果が否定である場合(すなわちSN比Rが閾値SNR_TH2を下回るフレームFがN3個以下である場合)、第1区分部41は、ステップSC2にて次のフレームFのSN比Rを算定したうえでステップSC3以後の処理を実行する。以上のようにひとつのフレームFのSN比Rが閾値SNR_TH2を下回るだけでは発音区間PAの終点が確定しないから、雑音などの外乱に起因して突発的にSN比Rが低下した時点を発音区間PAの終点と誤認する可能性が低減される。
一方、ステップSC3の結果が否定である場合、第1区分部41は、ステップSA3での始点の特定に使用した閾値SNR_TH1を今回のSN比Rが上回るか否かを判定する(ステップSC9)。ステップSC9の結果が否定である場合、第1区分部41は、ステップSC2に処理を移行して次のフレームFのSN比Rを算定する。
なお、利用者の発声時のSN比Rは基本的には閾値SNR_TH1を上回る。したがって、図5の処理を開始してからSN比Rが閾値SNR_TH1を上回った場合(ステップSC9:YES)には、利用者が発声中である可能性が高い。そこで、ステップSC9の結果が肯定である場合、第1区分部41は、ステップSC10にて変数CNT_STOPをゼロに初期化したうえでステップSC2以後の処理を実行する。ステップSC10の実行後にSN比Rが閾値SNR_TH2を下回ると(ステップSC3:YES)、ステップSC4の結果が肯定となってステップSC5が実行される。すなわち、SN比Rが閾値SNR_TH2を下回ることで変数P_STOPが仮設定された場合であっても、SN比Rが閾値SNR_TH2を下回るフレームFの個数が所定値N3以下の段階でひとつのフレームFのSN比Rが閾値SNR_TH1を上回った場合(すなわち利用者が発声中である可能性が高い場合)には終点の仮設定が解除される。
以上の処理によって第1区分部41は音声信号Sを発音区間PAと非発音区間PBとに区分する。図4のステップSB2や図5のステップSC2にてSN比Rの算定に使用される雑音レベルLN[1]〜LN[m]は、図3に示したように直近の非発音区間PBの帯域別レベルLF[1]〜LF[m]に応じて順次に更新される。したがって、音声信号Sの収録中に雑音の特性が変化した場合であっても、雑音の変化を反映した適切なSN比Rを算定して発音区間PAと非発音区間PBとを高精度に区分することが可能である。
ところで、複数の発声者が間隔をあけずに順次に発声した場合や、ひとりの発声者による発声の最後の部分と他の発声者による発声の最初の部分とが重複する場合、第1区分部41による処理では、音声信号Sを発声者ごとに区分することが困難である。そこで、図1の第2区分部42は、ひとりの発声者が発声した可能性が高いと推定される複数の区間bに音声信号Sを区分する。人間による一連の発話(特に会議における発言)には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。以上の傾向を考慮して、本形態の第2区分部42は、図2に示すように、音声信号Sの波形の包絡線(エンベロープ)Eの谷部Dを境界として音声信号Sを複数の区間bに区分する。したがって、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発言が別個の区間bに属するように音声信号Sが区分される。
図6は、第2区分部42の具体的な動作を示すフローチャートである。図6の処理は、発音区間PAと非発音区間PBとの区分を第1区分部41が完了することを契機として実行される。図6に示すように、第2区分部42は、記憶装置20に格納された音声信号Sの波形の包絡線Eを特定する(ステップSD1)。ステップSD1の処理について詳述すると以下の通りである。
会議室内で収録した音声信号Sには、空調設備の動作音など比較的に低周波な雑音が含まれる。このような雑音を除去するために、第2区分部42は、音声信号Sにハイパスフィルタ処理を実行する。ハイパスフィルタ処理の好適なカットオフ周波数は20Hz〜50Hzであるが、例えば利用者からの指示に応じて可変に制御されてもよい。さらに、第2区分部42は、音声信号Sの各標本点におけるサンプル値の絶対値を演算する。すなわち、音声信号Sは全波整流される。そして、第2区分部42は、音声信号Sに対してローパスフィルタ処理(平滑化処理)を実行することで包絡線Eを生成する。ローパスフィルタ処理の好適なカットオフ周波数は例えば1Hz〜2Hz程度である。
図6のステップSD2において、第2区分部42は、包絡線Eに現れる複数の谷部Dを検出する。谷部Dは、図2の部分(C)に示すように、包絡線Eのレベルが減少から増加に変化する時点(包絡線Eの勾配が負数から正数に変化する時点)である。次いで、第2区分部42は、図2の部分(D)に示すように、包絡線Eの複数の谷部Dのうち発音区間PA内の各谷部Dを境界として発音区間PAを複数の区間bに区分する(ステップSD3)。例えば図2には、発音区間PA1が3個の区間b(b1,b2,b3)に区分され、発音区間PA2が2個の区間b(b4,b5)に区分された場合が例示されている。なお、発音区間PA内に谷部Dが存在しない場合(例えば図2の発音区間PA3)には当該発音区間PAが区間bとなる。また、非発音区間PB内に谷部Dが存在する場合(例えば図2の非発音区間PB3)であっても当該非発音区間PBは区分されない。以下では第2区分部42による区分後の区間bの総数をJ個(Jは2以上の自然数)とする。
図1の特徴抽出部123は、J個の区間bの各々について特徴ベクトルxの時系列を音声信号Sから特徴量として抽出する。ひとつの区間bにおける特徴ベクトルxの時系列は、当該区間b内の複数のフレームFにおけるMFCCのベクトルの集合である。さらに、特徴抽出部123は、J個の区間bの各々について混合モデルλを生成する。ひとつの区間bの混合モデルλは、当該区間bの各特徴ベクトルxの分布をM個の確率分布の加重和としてモデル化する関数である(Mは2以上の自然数)。混合モデルλの生成にはEM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。
本形態の混合モデルλは、M個の正規分布の加重和として以下の式(2)で表現されるガウス混合モデルである。
λ={pi,μi,Σi} (i=1〜M) ……(2)
式(2)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(2)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(2)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
次に、図7を参照して区間連結部125の具体的な動作を説明する。同図に示すように、区間連結部125は、J個の区間bのうち最先の区間bを選択する(ステップSE1)。区間連結部125が処理の対象として選択した区間bを以下では特に「選択区間b」と表記する。
次いで、区間連結部125は、選択区間bと当該選択区間bの直後の区間b(以下では選択区間bと区別するために「対比区間b」という)とにおける音声信号Sの類否の指標となる類否指標値を算定する(ステップSE2)。選択区間bの直後に他の区間bが連続する場合には当該他の区間bが対比区間bとされ、選択区間bに非発音区間PBが連続する場合には当該非発音区間PBの直後の区間bが対比区間bとされる。本形態の類否指標値は、選択区間bの混合モデルλから対比区間bの各特徴ベクトルxが出現する確率(尤度)を対比区間b内の総ての特徴ベクトルxについて平均化した数値(平均尤度)である。
ひとつの特徴ベクトルxをD次元のベクトルとすると、混合モデルλから特徴ベクトルxが出現する尤度は以下の式(3)で算定される。
Figure 2009020459
区間連結部125は、対比区間bについて特徴抽出部123が抽出したK個の特徴ベクトルx(x1〜xK)を式(4)に代入することで平均尤度Lを算定する。式(4)から理解されるように、選択区間bと対比区間bとで音声信号Sの特徴ベクトルxが類似するほど平均尤度Lは大きくなる。
Figure 2009020459
ステップSE3において、区間連結部125は、ステップSE2にて算定した平均尤度Lに基づいて選択区間bの音声信号Sと対比区間bの音声信号Sとが類似するか否かを判定する(ステップSE3)。さらに詳述すると、区間連結部125は、平均尤度Lを所定の閾値THと比較し、平均尤度Lが閾値THを上回る場合には選択区間bと対比区間bとが類似すると判定する一方、平均尤度Lが閾値THを下回る場合には選択区間bと対比区間bとが類似しないと判定する。閾値THは、同じ発声者が発声した複数の区間bの平均尤度Lが当該閾値THを上回るように(すなわち別の発声者が発声した複数の区間bの平均尤度Lが閾値THを下回るように)、統計的または実験的に設定される。したがって、ステップSE3の処理は、選択区間bと対比区間bとがひとりの発声者の発声した区間bであるか否かを判定する処理と等価である。
ステップSE3の結果が肯定である場合(すなわち選択区間bと対比区間bとで発声者が同一人である可能性が高い場合)、区間連結部125は、選択区間bと対比区間bとを連結してひとつの区間Bを生成する(ステップSE4)。例えば図2においては、区間b1と区間b2との連結でひとつの区間B1が生成される。選択区間bと対比区間bとの間隙に非発音区間PBが介在する場合、区間連結部125は、選択区間bおよび対比区間bと両者間の非発音区間PBとをひとつの区間Bとする。例えば図2においては、区間b5および区間b6と両者間の非発音区間PB3との連結でひとつの区間B4が生成される。区間連結部125は、ステップSE4における連結後の区間BをステップSE5にて新たな選択区間bとして選択したうえで処理をステップSE7に移行する。
一方、ステップSE3の結果が否定である場合(すなわち選択区間bと対比区間bとで発声者が別人である可能性が高い場合)、区間連結部125は、区間bの連結を実行せず、現段階の選択区間bの直後の区間bをステップSE6にて新たな選択区間bとして選択したうえで処理をステップSE7に移行する。すなわち、今回の選択区間bがひとつの区間Bとして確定する。例えば、図2の区間b4と区間b5との平均尤度Lが閾値THを下回る場合、両区間は連結されず、同図の部分(E)に示すように区間b4が単独で区間B3とされる。
ステップSE7において、区間連結部125は、ステップSE5またはステップSE6にて選択した選択区間bが音声信号Sの最後の部分であるか否か(すなわち選択区間bに後続する区間bが存在するか否か)を判定する。ステップSE7の結果が否定である場合、区間連結部125は、ステップSE5またはステップSE6にて新たに選択した選択区間bを対象としてステップSE2以後の処理を実行する。一方、選択区間bが音声信号Sの最後の区間bである場合、区間連結部125は図7の処理を終了する。
図7の処理によれば、音声区分部121が区分したJ個の区間bのうち同一人が発声したと推定される複数の相前後する区間bが連結されるから、各区間Bについて適度な時間長を確保することができる。区間Bが長いほど発声者の発声の特性を忠実に反映した特徴量が区間Bごとに抽出されるから、本形態によれば、区間bを連結しない場合と比較して、音声分類部14による各区間Bの分類の精度や音声認識部16による文字の認識の精度を高めることが可能である。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。第1実施形態においては各区間bの類否指標値として平均尤度Lを例示した。本形態においては、選択区間bにおける音声信号Sの特徴ベクトルxの時系列から生成されたコードブック(符号帳)と対比区間bの各特徴ベクトルxとを対比した結果(VQ(Vector Quantization)歪)を類否指標値として採用する。なお、以下の各形態において機能や作用が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
特徴抽出部123は、第1実施形態と同様の特徴ベクトルx(例えばMFCC)の時系列と、複数の特徴ベクトルxに対応したコードブックCAとを、J個の区間bの各々について生成する。コードブックCAの生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。
図7のステップSE2において、区間連結部125は、選択区間bのコードブックCAと、選択区間bの直後の対比区間bにおける複数の特徴ベクトルxとに基づいて、VQ歪Dを類否指標値として算定する。VQ歪Dは、例えば以下の式(5)で算定される。
Figure 2009020459
式(5)の|CA|は、選択区間bのコードブックCAのサイズであり、CA(i)は、コードブックCAにおける第i番目のコードベクトル(セントロイドベクトル)である。また、xjは、対比区間bから抽出されたnB個(対比区間B内のフレーム数)の特徴ベクトルx1〜xnBのなかの第j番目(j=1〜nB)を意味する。d(X,Y)は、ベクトルXとベクトルYとのユークリッド距離である。すなわち、VQ歪Dは、選択区間bのコードブックCA内の|CA|個のセントロイドベクトルと対比区間bの特徴ベクトルxとの最小値(min)をnB個の特徴ベクトルx1〜xnBにわたって平均化した数値である。
以上の説明から理解されるように、選択区間bと対比区間bとで音声信号Sの特徴ベクトルxが類似するほどVQ歪Dは小さくなる。したがって、図7のステップSE3において、区間連結部125は、VQ歪Dが所定の閾値を上回るか否かを判定し、閾値を上回る場合には選択区間bと対比区間bとは類似しないと判定する一方(ステップSE3:NO)、閾値を下回る場合には選択区間bと対比区間bとが類似すると判定する(ステップSE3:YES)。他の動作は第1実施形態と同様である。本形態においても第1実施形態と同様の効果が奏される。
<C:第3実施形態>
本発明の第3実施形態について説明する。本形態においては、選択区間bの音声信号Sの特徴量と対比区間bの音声信号Sの特徴量との相互相関値を類否指標値として採用する。
特徴抽出部123は、J個の区間bの各々について音声信号Sの平均的なパワースペクトル(以下「平均パワースペクトル」という)を音響的な特徴量として抽出する。すなわち、特徴抽出部123は、区間b内の各フレームの音声信号Sを周波数分析することで各フレームのパワースペクトルを算定し、当該区間b内の総てのフレームFについてパワースペクトルを平均化することで平均パワースペクトルを算定する。ひとつの区間bについて算定される平均パワースペクトルのうち特定の周波数における強度は、当該区間b内の各フレームFのパワースペクトルにおける当該周波数での強度の平均値である。なお、特徴抽出部123は、図3のステップSA1にて算定された帯域別レベルLF[1]〜LF[m]を各区間b内の総てのフレームFについて平均することで当該区間bの平均パワースペクトルとしてもよい。
図7のステップSE2において、区間連結部125は、選択区間bの平均パワースペクトルSPaと対比区間bの平均パワースペクトルSPbとの相互相関値Corを、例えば以下の式(6)に基づいて類否指標値として算定する。
Figure 2009020459
式(6)におけるSPa(i)は、複数の周波数(または周波数帯域)のうち変数i(F1≦i≦F2)で指定される周波数における平均パワースペクトルSPaの強度であり、SPa_AVEは、周波数F1から周波数F2までの帯域における平均パワースペクトルSPaの強度の平均値である。同様に、SPb(i)は、変数iに対応した周波数における平均パワースペクトルSPbの強度であり、SPb_AVEは、周波数F1から周波数F2までの帯域における平均パワースペクトルSPbの強度の平均値である。周波数F1および周波数F2は、平均パワースペクトルにおいて発声者ごとの相違が顕著となり易い周波数帯域の下限値(F1)および上限値(F2)となるように統計的または実験的に設定される。
以上の説明から理解されるように、平均パワースペクトルSPaと平均パワースペクトルSPbとが完全に合致する場合に相互相関値Corは最大値「1」となり、両者の相違が増大するほど相互相関値Corは減少していく。したがって、図7のステップSE3において、区間連結部125は、相互相関値Corが閾値を上回るか否かを判定し、閾値を上回る場合には選択区間bと対比区間bとが類似すると判定する一方(ステップSE3:YES)、閾値を下回る場合には両区間は類似しないと判定する(ステップSE3:NO)。他の動作は第1実施形態と同様である。本形態においても第1実施形態と同様の効果が奏される。
なお、第3実施形態において相互相関値Corを算定する方法は適宜に変更される。例えば、平均パワースペクトルを周波数軸上で区分した複数の周波数帯域の各々における相互相関値の加算値(または加重和)を相互相関値Corとして算定してもよい。すなわち、区間連結部125は、選択区間bおよび対比区間bの各平均パワースペクトル(SPa,SPb)における特定の帯域を対象として相互相関値Cor_aを算定するとともに別の帯域を対象として相互相関値Cor_bを算定し、両者の加算値や加重和を相互相関値Cor(Cor=α・Cor_a+β・Cor_b:αおよびβは定数)として演算する。以上の構成によれば、平均パワースペクトルのうち発声者ごとの相違が特に顕著に現れる帯域の特性を相互相関値Corに対して仔細かつ有効に反映させることが可能となる。
<D:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
非発音区間PB内の音声信号Sに基づいて区間B(発音区間PA)内の音声信号Sの雑音の成分を抑圧する態様が好適に採用される。例えば、制御装置10は、非発音区間PB内の音声信号Sの周波数スペクトル(例えばパワースペクトル)を区間B内の音声信号Sの周波数スペクトルから減算することで区間B内の雑音を抑圧する雑音抑圧手段として機能する。さらに詳述すると、音声信号Sの先頭の区間(例えば区間P0や最初の非発音区間PB1)における周波数スペクトルを各区間Bの音声信号Sの周波数スペクトルから共通に減算する構成や、各非発音区間PBの周波数スペクトルを当該非発音区間PBの直後にある各区間Bの周波数スペクトルから減算する構成が採用される。なお、第1区分部41が音声信号Sを発音区間PAと非発音区間PBとに区分した後であれば、音声信号Sから雑音を抑圧する処理の時期は任意である。例えば、第2区分部42が各区間bを画定する前後や区間連結部125が各区間Bを画定する前後に雑音の抑圧のための処理が実行される。本変形例によれば、音声信号Sにおける雑音の影響が低減されるから、音声分類部14による各区間Bの分類の精度や音声認識部16による音声認識の精度をさらに高めることができる。
(2)変形例2
音声区分部121が音声信号Sを区分する方法は以上の例示に限定されない。例えば、音声区分部121が第1区分部41および第2区分部42の一方のみを含む構成も採用される。また、第1区分部41による音声信号Sの区分は、第2区分部42による処理後に実行されてもよい。さらに、音量が閾値を上回る区間と下回る区間とに音声信号Sを区分する構成や、音声信号Sの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Sを区分する構成も採用される。もっとも、以上の各形態のように第1区分部41を採用した構成によれば、音声信号Sを発音区間PAと非発音区間PBとに高精度に区分できるという利点があり、第2区分部42を採用した構成によれば、複数の発声者による発声が時間軸上で連続または重複する場合であっても音声信号Sを発声者ごとに区分できるという利点がある。
(3)変形例3
第2区分部42が音声信号Sの包絡線Eを特定する方法は適宜に変更される。例えば、図6のステップSD1において、第2区分部42は、ハイパスフィルタ処理および全波整流後の音声信号Sにカットオフ周波数を20Hz程度とするローパスフィルタ処理を実行したうえで、例えば500ms程度の期間ごとのサンプル値の平均値(移動平均)を包絡線Eのレベルとして算定してもよい。また、音声信号Sを所定長ごとに区分した各区間内のサンプル値の平均値を当該区間の代表値とし、各代表値を時系列的に直線で連結した折れ線を包絡線Eとして特定してもよい。
(4)変形例4
特徴抽出部123が抽出する音響的な特徴量は以上の例示に限定されない。例えば、第1実施形態や第2実施形態においては、各区間bにおける音声信号Sの強度の平均値や最大値や基本周波数が特徴量として抽出される。第3実施形態においては、区間b内の各フレームから抽出されたMFCCの当該区間bにおける平均を平均パワースペクトルの代わりに抽出してもよい。また、特徴抽出部123が音声信号Sの区分のために抽出した特徴量を、音声分類部14による各区間Bの分類や音声認識部16による音声認識に利用してもよい。さらに、特徴抽出部123が各非発音区間PBについても各区間Bと同様に特徴量を抽出する構成によれば、音声分類部14が各非発音区間PBを特徴量に基づいて分類することも可能となる。
(5)変形例5
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば分類処理部による分類の結果を出力することも可能である。例えば、区分処理部12が区分した複数の区間Bのうち利用者が指定した時刻を含む区間B内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、区分処理部12が音声信号Sを複数の区間Bに区分した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。以上のように、音声分類部14や音声認識部16は音声処理装置100にとって必須の要素ではない。
(6)変形例6
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
(7)変形例7
音声信号Sが表す音響の種類は本発明において任意である。例えば、楽器の演奏音を収録した音声信号Sを音声処理装置100による処理の対象とすれば、複数種の楽器を順次に演奏したときの音声信号Sを時間軸上で楽器の種類ごとに区分することが可能となる。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 区分処理部の動作を説明するための概念図である。 第1区分部の動作を示すフローチャートである。 発音区間の始点を検出する動作のフローチャートである。 発音区間の終点を検出する動作のフローチャートである。 第2区分部の動作を示すフローチャートである。 区間連結部の動作を示すフローチャートである。
符号の説明
100……音声処理装置、10……制御装置、12……区分処理部、121……音声区分部、123……特徴抽出部、125……区間連結部、14……音声分類部、16……音声認識部、20……記憶装置、30……出力装置、41……第1区分部、42……第2区分部、S……音声信号。

Claims (5)

  1. 音声信号を時間軸上で複数の区間に区分する音声区分手段と、
    前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出手段と、
    前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手段と
    を具備する音声処理装置。
  2. 前記音声区分手段は、前記音声信号を発音区間と非発音区間とに区分する第1区分手段を含む
    請求項1の音声処理装置。
  3. 前記音声区分手段は、前記音声信号の波形の包絡線における複数の谷部のうち前記発音区間内の各谷部を境界として前記音声信号を区分する第2区分手段を含む
    請求項2の音声処理装置。
  4. 前記区間連結手段は、ひとつの区間の特徴量と他の区間の特徴量との相互相関値に基づいて両区間の類否を判定する
    請求項1から請求項3の何れかの音声処理装置。
  5. コンピュータに、
    音声信号を時間軸上で複数の区間に区分する音声区分処理と、
    前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出処理と、
    前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結処理と
    を実行させるプログラム。
JP2007184873A 2007-07-13 2007-07-13 音声処理装置およびプログラム Expired - Fee Related JP4877114B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184873A JP4877114B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184873A JP4877114B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009020459A true JP2009020459A (ja) 2009-01-29
JP4877114B2 JP4877114B2 (ja) 2012-02-15

Family

ID=40360111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184873A Expired - Fee Related JP4877114B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4877114B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053430A (ja) * 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2015109489A (ja) * 2013-12-03 2015-06-11 日本電気株式会社 無線局識別装置、無線局識別方法および無線局識別プログラム
JP2019528526A (ja) * 2016-08-16 2019-10-10 グーグル エルエルシー ジェスチャによりアクティブ化されるリモートコントロール
WO2023047893A1 (ja) * 2021-09-27 2023-03-30 パナソニックIpマネジメント株式会社 認証装置および認証方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61275896A (ja) * 1985-05-31 1986-12-05 三菱電機株式会社 パタン区分装置
JPS6293000A (ja) * 1985-10-18 1987-04-28 松下電器産業株式会社 音声認識方法
JPH01158499A (ja) * 1987-12-16 1989-06-21 Hitachi Ltd 定常雑音除去方式
JPH04130499A (ja) * 1990-09-21 1992-05-01 Oki Electric Ind Co Ltd 音声のセグメンテーション方法
JPH06110494A (ja) * 1992-09-08 1994-04-22 Osaka Gas Co Ltd 発音学習装置
JP2000285243A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP2000285242A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP2002116768A (ja) * 2000-10-05 2002-04-19 Sony Corp 携帯電話端末、楽曲同定方法及び装置、楽曲同定配信方法及びシステム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61275896A (ja) * 1985-05-31 1986-12-05 三菱電機株式会社 パタン区分装置
JPS6293000A (ja) * 1985-10-18 1987-04-28 松下電器産業株式会社 音声認識方法
JPH01158499A (ja) * 1987-12-16 1989-06-21 Hitachi Ltd 定常雑音除去方式
JPH04130499A (ja) * 1990-09-21 1992-05-01 Oki Electric Ind Co Ltd 音声のセグメンテーション方法
JPH06110494A (ja) * 1992-09-08 1994-04-22 Osaka Gas Co Ltd 発音学習装置
JP2000285243A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP2000285242A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP2002116768A (ja) * 2000-10-05 2002-04-19 Sony Corp 携帯電話端末、楽曲同定方法及び装置、楽曲同定配信方法及びシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053430A (ja) * 2007-08-27 2009-03-12 Yamaha Corp 音声処理装置およびプログラム
JP2015109489A (ja) * 2013-12-03 2015-06-11 日本電気株式会社 無線局識別装置、無線局識別方法および無線局識別プログラム
JP2019528526A (ja) * 2016-08-16 2019-10-10 グーグル エルエルシー ジェスチャによりアクティブ化されるリモートコントロール
WO2023047893A1 (ja) * 2021-09-27 2023-03-30 パナソニックIpマネジメント株式会社 認証装置および認証方法

Also Published As

Publication number Publication date
JP4877114B2 (ja) 2012-02-15

Similar Documents

Publication Publication Date Title
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
EP1210711A1 (en) System and method for classification of sound sources
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5050698B2 (ja) 音声処理装置およびプログラム
CN102779526A (zh) 语音信号中基音提取及修正方法
JP2009053618A (ja) 音声処理装置およびプログラム
Archana et al. Gender identification and performance analysis of speech signals
JP4877114B2 (ja) 音声処理装置およびプログラム
JP5083951B2 (ja) 音声処理装置およびプログラム
JP5647455B2 (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
JP4973352B2 (ja) 音声処理装置およびプログラム
Ponraj Speech Recognition with Gender Identification and Speaker Diarization
JP4627154B2 (ja) 人間の感情状態に応じた音楽出力装置及び音楽出力方法
CA2947957A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Chen et al. An intelligent nocturnal animal vocalization recognition system
JP5109050B2 (ja) 音声処理装置およびプログラム
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
CN110033786B (zh) 性别判断方法、装置、设备及可读存储介质
JPH06110488A (ja) 音声検出方法および音声検出装置
Khanum et al. Text independent gender identification in noisy environmental conditions
JP5157474B2 (ja) 音処理装置およびプログラム
JP4349415B2 (ja) 音信号処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

R150 Certificate of patent or registration of utility model

Ref document number: 4877114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees