JP2009020459A

JP2009020459A - 音声処理装置およびプログラム

Info

Publication number: JP2009020459A
Application number: JP2007184873A
Authority: JP
Inventors: Yasuo Yoshioka; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-07-13
Filing date: 2007-07-13
Publication date: 2009-01-29
Anticipated expiration: 2027-07-13
Also published as: JP4877114B2

Abstract

【課題】音声信号を区分した各区間について適度な時間長を確保する。
【解決手段】音声区分部１２１は、音声信号Ｓを時間軸上で複数の区間ｂに区分する。音声区分部１２１は、音声信号ＳのＳＮ比に基づいて音声信号Ｓを発音区間ＰAと非発音区間ＰBとに区分する第１区分部４１と、音声信号Ｓの包絡線Ｅの各谷部Ｄを境界として音声信号Ｓを区分する第２区分部４２とで構成される。特徴抽出部１２３は、複数の区間ｂの各々について音声信号Ｓの音響的な特徴量を抽出する。区間連結部１２５は、音声信号Ｓの特徴量が類似する複数の相前後する区間ｂを連結することで各区間Ｂを画定する。音声分類部１４は、各区間Ｂの音声信号Ｓを発声者ごとに分類する。
【選択図】図１

Description

本発明は、音声信号を時間軸上で複数の区間に区分する技術に関する。

音声信号を時間軸に沿って複数の区間に区分する各種の技術が従来から提案されている。例えば特許文献１や特許文献２には、音声信号のＳＮ比と所定の閾値との比較の結果に応じて音声信号を発音区間と非発音区間（音声の収録時の環境音のみが存在する区間）とに区分する技術が開示されている。
特開昭５９−９９４９７号公報国際公開第２００７／０１７９９３号パンフレット

しかし、特許文献１や特許文献２の技術においては、閾値の設定の如何によって音声信号が過度に短い時間長の区間に区分される場合がある。そして、区間が余りに短いと音声信号の本来の特性を忠実に反映した特徴量を当該区間から抽出することが困難となるから、区分後の音声信号に対する各種の処理（例えば各区間の解析）の精度が低下するという問題がある。以上の事情を背景として、本発明は、音声信号を区分した各区間について適度な時間長を確保するという課題の解決を目的としている。

前述の課題を解決するために、本発明に係る音声処理装置は、音声信号を時間軸上で複数の区間に区分する音声区分手段と、複数の区間の各々について音声信号の特徴量を抽出する特徴抽出手段と、音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手段とを具備する。以上の構成によれば、音声区分手段が区分した複数の区間のうち音声信号の特徴量が類似する各区間が連結されるから、区間連結手段による処理後の各区間について適度な時間長を確保することが可能となる。

本発明の好適な態様において、音声区分手段は、音声信号を発音区間と非発音区間とに区分する第１区分手段を含む。以上の構成においては音声信号が発音の有無に応じて区分されるから、例えば発音区間内の音声信号について選択的に所定の処理を実行するといった効率的な処理が可能となる。

さらに具体的な態様において、第１区分手段は、音声信号の信号レベルと雑音レベルとの相対比に基づいて発音区間と非発音区間とを順次に区分し、区分後の非発音区間の音声信号に基づいて雑音レベルを更新する。本態様においては、信号レベルと雑音レベルとの相対比に基づいて音声信号が発音区間と非発音区間とに区分されるから、音声信号の雑音の成分が第１区分部による区分の精度に与える影響を低減することができる。また、区分後の非発音区間の音声信号に基づいて雑音レベルが更新されるから、音声信号の途中で雑音レベルが変化した場合であっても、第１区分部による区分の精度が低下する可能性は低減される。

別の態様に係る音声処理装置は、非発音区間内の音声信号の周波数スペクトルを発音区間内の音声信号の周波数スペクトルから減算する雑音抑圧手段を具備する。本態様によれば、音声信号から雑音が抑圧されるという利点がある。

本発明の好適な態様において、音声区分手段は、音声信号の波形の包絡線における複数の谷部のうち発音区間内の各谷部を境界として音声信号を区分する第２区分手段を含む。本態様によれば、複数の発声者による発声が時間軸上において連続または部分的に重複している場合であっても、各発声者による発声を別個の区間に区分することが可能となる。

特徴抽出手段が抽出する特徴量や区間連結手段が各区間の類否を判定するための指標（類否指標値）は本発明において任意である。例えば、特徴抽出手段が、音声区分手段による区分後の各区間について音声信号の特徴ベクトルの時系列を特徴量として抽出する態様においては、ひとつの区間の特徴ベクトルの分布を複数の確率分布の加重和としてモデル化する混合モデルから他の区間の各特徴ベクトルが出現する尤度の平均値に基づいて区間連結手段が両区間の類否を判定する構成や、ひとつの区間の特徴ベクトルの時系列をベクトル量子化したコードブックと他の区間の各特徴ベクトルとのベクトル量子化歪の平均値に基づいて区間連結手段が両区間の類否を判定する構成が採用される。また、ひとつの区間の特徴量と他の区間の特徴量との相互相関値に基づいて区間連結手段が両区間の類否を判定する構成によれば、尤度やベクトル量子化歪を算定する構成と比較して、特徴抽出手段や区間連結手段による処理の負荷が軽減されるという利点がある。

本発明の好適な態様に係る音声処理装置は、区間連結手段による処理後の各区間の音声信号を、当該各区間内の音声信号の特徴量に基づいて発声者ごとに分類する音声分類手段を具備する。本発明によれば、音声信号が適度な時間長の区間に区分されるから、音声信号の本来の特性を忠実に反映した特徴量が各区間から抽出される。したがって、音声分類手段による各区間の分類の精度を高めることが可能となる。

本発明に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号を時間軸上で複数の区間に区分する音声区分処理と、複数の区間の各々について音声信号の特徴量を抽出する特徴抽出処理と、音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結処理（例えば図７のステップＳE4）とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、音声信号を時間軸上で複数の区間に区分する音声区分手順と、複数の区間の各々について音声信号の特徴量を抽出する特徴抽出手順と、音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手順とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置１００は、制御装置１０と記憶装置２０とを具備するコンピュータシステムである。制御装置１０は、プログラムを実行する演算処理装置である。記憶装置２０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２０として任意に採用される。制御装置１０には出力装置３０が接続される。本形態の出力装置３０は、制御装置１０による制御のもとに各種の画像を表示する表示機器である。

記憶装置２０は、音声の時間軸上における波形を表す音声信号Ｓを記憶する。本形態の音声信号Ｓが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して採取された音声である。図２の部分(A)には、音声信号Ｓの時間軸上の波形が例示されている。

図１の制御装置１０は、記憶装置２０に格納されたプログラムを実行することで音声信号Ｓから会議の議事録を生成する。議事録は、複数の参加者の各々の発言の内容（文字）を時系列に配列した会議の記録である。図１に示すように、制御装置１０は、区分処理部１２と音声分類部１４と音声認識部１６として機能する。なお、図１の制御装置１０の各機能は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路として実装されてもよい。

区分処理部１２は、図２の部分(E)に示すように、音声信号Ｓを、時間軸に沿って、発声音が存在する複数の区間Ｂ（Ｂ1，Ｂ2，……）と発声音が存在しない複数の非発音区間ＰB（ＰB1，ＰB2，……）とに区分する。ひとつの区間Ｂは、ひとりの発声者が連続して発声した可能性が高いと推定される期間である。

図１に示すように、区分処理部１２は、音声区分部１２１と特徴抽出部１２３と区間連結部１２５とを含む。音声区分部１２１は、音声信号Ｓを複数の区間ｂ（発音区間）と複数の非発音区間ＰBとに区分する。本形態の音声区分部１２１は第１区分部４１と第２区分部４２とを有する。第１区分部４１は、図２の部分(B)に示すように、音声信号ＳのＳＮ比に基づいて音声信号Ｓを発音区間ＰA（ＰA1，ＰA2，……）と非発音区間ＰB（ＰB1，ＰB2，……）とに区分する。第２区分部４２は、図２の部分(C)および部分(D)に示すように、音声信号Ｓの波形の包絡線（エンベロープ）Ｅにおける各谷部Ｄを境界として発音区間ＰAを複数の区間ｂ（ｂ1，ｂ2，……）に区分する。

特徴抽出部１２３は、複数の区間ｂの各々について音声信号Ｓの特徴量を抽出する。区間連結部１２５は、図２の部分(E)に示すように、複数の区間ｂのうち音声信号Ｓの特徴量が類似する複数の区間ｂを連結することで区間Ｂを画定する。

音声分類部１４は、図２の部分(F)に示すように、区分処理部１２が区分した各区間Ｂの音声信号Ｓを発声者ごとに分類する。非発音区間ＰBについては分類の対象から除外される。各区間Ｂの音声信号Ｓの分類には公知のクラスタリング技術が任意に採用される。

例えば、音声分類部１４は、各区間Ｂの音声信号Ｓに対してＦＦＴ（Fast Fourier Transform）処理を含む周波数分析を実行することで当該区間Ｂ内の音響的な特徴量（例えばＭＦＣＣ（Mel Frequency Cepstral Coefficient））を抽出し、特徴量の類似する各区間Ｂが共通のクラスタに所属するように複数の区間Ｂを各クラスタに分類する。したがって、音声信号Ｓのうち同じ発声者が発声した可能性が高い区間Ｂは共通のクラスタに分類される。そして、音声分類部１４は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各区間Ｂの始点および終点の時刻と、当該各区間Ｂ内の音声信号Ｓとを対応させて記憶装置２０に格納する。また、各非発音区間ＰBの始点および終点の時刻と当該非発音区間ＰB内の音声信号Ｓとについても記憶装置２０に格納される。なお、会議の参加者の人数が既知であって利用者が事前に指定する構成においては、音声信号Ｓの各区間Ｂを、当該人数に相当する個数のクラスタに分類する構成が好適に採用される。

音声認識部１６は、各クラスタに分類された音声信号Ｓの各区間Ｂから発声者ごとの発言の内容を文字として特定する。各区間Ｂの音声信号Ｓから文字を認識する処理には公知の音声認識技術が任意に採用される。例えば、音声認識部１６は、第１に、ひとつのクラスタに分類された各区間Ｂの音声信号Ｓの音響的な特徴量に応じて初期的な音響モデルを更新（話者適応）することで、当該クラスタに対応した発声者の音声の特徴を固有に反映した音響モデルを生成し、第２に、話者適応後の音響モデルとクラスタ内の各区間Ｂの音声信号Ｓから抽出された特徴量とを対比することで発言の文字を識別する。

制御装置１０は、音声認識部１６による処理の結果を出力装置３０に出力する。出力装置３０は、発言の時刻と、発声者の識別符号（例えば発声者の氏名）と、当該発声の内容について音声認識部１６が特定した文字とを時系列に配列した議事録の画像を表示する。

次に、区分処理部１２の各要素の具体的な動作を詳述する。図３は、第１区分部４１の動作を示すフローチャートである。同図の処理は、議事録の作成が利用者から指示されることを契機として実行される。

第１区分部４１は、音声信号Ｓを時間軸上で区分した複数のフレームＦの各々について帯域別レベルＬF[1]〜ＬF[m]（ｍは２以上の自然数）を算定して記憶装置２０に格納する（ステップＳA1）。フレームＦは区間Ｂや非発音区間ＰBと比較して充分に短い期間に設定される。帯域別レベルＬF[h]（ｈ＝１〜ｍ）は、ひとつのフレームＦの音声信号Ｓを周波数軸に沿ってｍ個の周波数（または周波数帯域）の成分に分割したときの第ｈ番目の成分の強度（レベル）である。したがって、帯域別レベルＬF[1]〜ＬF[m]の算定にはＦＦＴ（Fast Fourier Transform）処理やフィルタバンク処理などに代表される公知の周波数分析が任意に採用される。

次いで、第１区分部４１は、音声信号Ｓに含まれる雑音の平均的な強度（以下では単に「雑音レベル」という）ＬN[1]〜ＬN[m]の初期値を算定する（ステップＳA2）。音声信号Ｓの収録は一般的に各発声者の発声に先立って開始されるから、図２の部分(A)に示すように音声信号Ｓのうち始点ｔ0から所定個のフレームＦにわたる区間Ｐ0は発声者の音声を含まない区間（すなわち音声信号Ｓの収録時の環境音のみを含む区間）である可能性が高い。そこで、第１区分部４１は、区間Ｐ0内の音声信号Ｓから雑音レベルＬN[1]〜ＬN[m]の初期値を算定する。雑音レベルＬN[h]の初期値は、区間Ｐ0内の総てのフレームＦにわたる帯域別レベルＬF[h]の平均値である。

次に、第１区分部４１は、発音区間ＰAの始点を検出するための処理（ステップＳA3）と発音区間ＰAの終点を検出するための処理（ステップＳA4）とを実行することでひとつの発音区間ＰAを画定する。発音区間ＰAの画定は、発音区間ＰA以外の区間を非発音区間ＰBとして画定することと等価である。

さらに、第１区分部４１は、直近に検出した発音区間ＰAの直前の非発音区間ＰB内の音声信号Ｓに基づいて雑音レベルＬN[1]〜ＬN[m]を更新し（ステップＳA5）、更新後の雑音レベルＬN[1]〜ＬN[m]を利用してステップＳA3およびステップＳA4の処理を実行する。例えば、図２の部分(B)に示すように、発音区間ＰA2の終点として検出された時点ｔ1以後の各フレームＦを対象として実行されるステップＳA3およびステップＳA4においては、時点ｔ1における最新の発音区間ＰA2の直前（発音区間ＰA1の直後）にある非発音区間ＰB2の音声信号Ｓに応じた更新後の雑音レベルＬN[1]〜ＬN[m]が使用される。

ステップＳA5において、第１区分部４１は、直近に画定した発音区間ＰAの直前の非発音区間ＰB内の総てのフレームＦにわたる帯域別レベルＬF[h]の平均値を更新用の雑音レベルＬN[h]_newとして算定し、現段階での雑音レベルＬN[h]_crtと更新用の雑音レベルＬN[h]_newとの加重和を新たな雑音レベルＬN[h]として算定する。すなわち、更新後の雑音レベルＬN[h]は下式で表現される。係数αは１未満の定数である。
ＬN[h]＝（１−α）・ＬN[h]_crt＋α・ＬN[h]_new

次に、図４を参照して、発音区間ＰAの始点を検出するステップＳA3の処理の具体例を説明する。
第１区分部４１は、発音区間ＰAの始点をフレームＦの番号で指定する変数Ｐ_STARTをクリアするとともに変数CNT_START1と変数CNT_START2とをゼロに初期化する（ステップＳB1）。次いで、第１区分部４１は、未選択で最先（最も古い）のフレームＦについてＳＮ比Ｒを算定する（ステップＳB2）。ＳＮ比Ｒは、当該フレームＦの帯域別レベルＬF[1]〜ＬF[m]と現段階の雑音レベルＬN[1]〜ＬN[m]とに基づいて以下の式(1)で算定される。

第１区分部４１は、変数CNT_START2に「１」を加算したうえで（ステップＳB3）、ステップＳB2で算定したＳＮ比Ｒが所定の閾値SNR_TH1を上回るか否かを判定する（ステップＳB4）。本形態においては、以下に説明するように、ＳＮ比Ｒが最初に閾値SNR_TH1を上回ったフレームＦを先頭とした所定個のフレームＦ（以下「候補フレーム群」という）のなかでＳＮ比Ｒが閾値SNR_TH1を超えるフレームＦの個数がＮ1個を上回る場合に、候補フレーム群の先頭のフレームＦを発音区間ＰAの始点として特定する。

ステップＳB4の結果が肯定である場合、第１区分部４１は、変数CNT_START1がゼロであるか否かを判定する（ステップＳB5）。変数CNT_START1がゼロであるということは今回のフレームＦが候補フレーム群の先頭のフレームＦであることを意味する。したがって、ステップＳB5の結果が肯定である場合、第１区分部４１は、今回のフレームＦの番号を変数Ｐ_STARTに仮設定する（ステップＳB6）とともに変数CNT_START2をゼロに初期化する（ステップＳB7）。一方、ステップＳB5の結果が否定である場合、第１区分部４１は、ステップＳB6およびステップＳB7を経ずに処理をステップＳB8に移行する。

第１区分部４１は、ステップＳB8にて変数CNT_START1（候補フレーム群のうちＳＮ比Ｒが閾値SNR_TH1を上回るフレームＦの個数）に「１」を加算したうえで、加算後の変数CNT_START1が所定値Ｎ1を上回るか否かを判定する（ステップＳB9）。ステップＳB9の結果が肯定である場合、第１区分部４１は、直前のステップＳB6で仮設定した変数Ｐ_STARTを確定する。すなわち、変数Ｐ_STARTの指定するフレームＦが発音区間ＰAの始点として特定される。

ステップＳB9の結果が否定である場合（すなわち候補フレーム群のうちＳＮ比Ｒが閾値SNR_TH1を上回るフレームが未だＮ1個以下である場合）、第１区分部４１は、次のフレームＦについてステップＳB2でＳＮ比Ｒを算定したうえでステップＳB3以後の処理を実行する。以上のようにひとつのフレームＦのＳＮ比Ｒが閾値SNR_TH1を上回るだけでは発音区間ＰAの始点は確定しないから、例えば周囲の雑音や電気的なノイズに起因したＳＮ比Ｒの上昇を発音区間ＰAの始点と誤認する可能性は低減される。

一方、ステップＳB4の結果が否定である場合（すなわちＳＮ比Ｒが閾値SNR_TH1以下である場合）、第１区分部４１は、変数CNT_START2が所定値Ｎ2を上回るか否かを判定する（ステップＳB11）。変数CNT_START2が所定値Ｎ2を上回るということは、候補フレーム群のＮ2個のフレームＦのうちＳＮ比Ｒが閾値SNR_TH1を上回るフレームがＮ1以下であったことを意味する。したがって、ステップＳB11の結果が肯定である場合、第１区分部４１は、ステップＳB12にて変数CNT_START1をゼロに初期化したうえで処理をステップＳB2に移行する。ステップＳB12の実行後に最初にＳＮ比Ｒが閾値SNR_TH1を上回ると（ステップＳB4：YES）、ステップＳB5の結果が肯定となってステップＳB6およびステップＳB7が実行される。すなわち、新たにＳＮ比Ｒが閾値SNR_TH1を超えたフレームＦが始点となるように候補フレーム群が更新される。一方、ステップＳB11の結果が否定である場合、第１区分部４１は、ステップＳB12を経ずに処理をステップＳB2に移行する。

次に、図５を参照して、発音区間ＰAの終点を検出するステップＳA4の処理の具体例を説明する。
第１区分部４１は、発音区間ＰAの終点をフレームＦの番号で指定する変数Ｐ_STOPをクリアするとともに変数CNT_STOPをゼロに初期化する（ステップＳC1）。次いで、第１区分部４１は、ステップＳA3で始点として検出したフレームＦに後続するフレームＦのうち未だステップＳA4の対象となっていない最先のフレームＦのＳＮ比Ｒを算定する（ステップＳC2）。そして、第１区分部４１は、ステップＳC2で算定したＳＮ比Ｒが所定の閾値SNR_TH2を下回るか否かを判定する（ステップＳC3）。

ステップＳC3の結果が肯定である場合、第１区分部４１は、変数CNT_STOPがゼロであるか否かを判定する（ステップＳC4）。ステップＳC4の結果が肯定である場合、第１区分部４１は、今回のフレームＦの番号を変数Ｐ_STOPに仮設定する（ステップＳC5）。一方、ステップＳC4の結果が否定である場合、第１区分部４１は、ステップＳC5を経ずに処理をステップＳC6に移行する。

ステップＳC6において、第１区分部４１は、変数CNT_STOP（ＳＮ比Ｒが閾値SNR_TH1を上回るフレームＦの個数）に「１」を加算し、加算後の変数CNT_STOPが所定値Ｎ3を上回るか否かを判定する（ステップＳC7）。ステップＳC7の結果が肯定である場合、第１区分部４１は、直前のステップＳC5で仮設定した変数Ｐ_STOPを確定する。すなわち、変数Ｐ_STOPの指定するフレームＦが発音区間ＰAの終点として特定される。

ステップＳC7の結果が否定である場合（すなわちＳＮ比Ｒが閾値SNR_TH2を下回るフレームＦがＮ3個以下である場合）、第１区分部４１は、ステップＳC2にて次のフレームＦのＳＮ比Ｒを算定したうえでステップＳC3以後の処理を実行する。以上のようにひとつのフレームＦのＳＮ比Ｒが閾値SNR_TH2を下回るだけでは発音区間ＰAの終点が確定しないから、雑音などの外乱に起因して突発的にＳＮ比Ｒが低下した時点を発音区間ＰAの終点と誤認する可能性が低減される。

一方、ステップＳC3の結果が否定である場合、第１区分部４１は、ステップＳA3での始点の特定に使用した閾値SNR_TH1を今回のＳＮ比Ｒが上回るか否かを判定する（ステップＳC9）。ステップＳC9の結果が否定である場合、第１区分部４１は、ステップＳC2に処理を移行して次のフレームＦのＳＮ比Ｒを算定する。

なお、利用者の発声時のＳＮ比Ｒは基本的には閾値SNR_TH1を上回る。したがって、図５の処理を開始してからＳＮ比Ｒが閾値SNR_TH1を上回った場合（ステップＳC9：YES）には、利用者が発声中である可能性が高い。そこで、ステップＳC9の結果が肯定である場合、第１区分部４１は、ステップＳC10にて変数CNT_STOPをゼロに初期化したうえでステップＳC2以後の処理を実行する。ステップＳC10の実行後にＳＮ比Ｒが閾値SNR_TH2を下回ると（ステップＳC3：YES）、ステップＳC4の結果が肯定となってステップＳC5が実行される。すなわち、ＳＮ比Ｒが閾値SNR_TH2を下回ることで変数Ｐ_STOPが仮設定された場合であっても、ＳＮ比Ｒが閾値SNR_TH2を下回るフレームＦの個数が所定値Ｎ3以下の段階でひとつのフレームＦのＳＮ比Ｒが閾値SNR_TH1を上回った場合（すなわち利用者が発声中である可能性が高い場合）には終点の仮設定が解除される。

以上の処理によって第１区分部４１は音声信号Ｓを発音区間ＰAと非発音区間ＰBとに区分する。図４のステップＳB2や図５のステップＳC2にてＳＮ比Ｒの算定に使用される雑音レベルＬN[1]〜ＬN[m]は、図３に示したように直近の非発音区間ＰBの帯域別レベルＬF[1]〜ＬF[m]に応じて順次に更新される。したがって、音声信号Ｓの収録中に雑音の特性が変化した場合であっても、雑音の変化を反映した適切なＳＮ比Ｒを算定して発音区間ＰAと非発音区間ＰBとを高精度に区分することが可能である。

ところで、複数の発声者が間隔をあけずに順次に発声した場合や、ひとりの発声者による発声の最後の部分と他の発声者による発声の最初の部分とが重複する場合、第１区分部４１による処理では、音声信号Ｓを発声者ごとに区分することが困難である。そこで、図１の第２区分部４２は、ひとりの発声者が発声した可能性が高いと推定される複数の区間ｂに音声信号Ｓを区分する。人間による一連の発話（特に会議における発言）には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。以上の傾向を考慮して、本形態の第２区分部４２は、図２に示すように、音声信号Ｓの波形の包絡線（エンベロープ）Ｅの谷部Ｄを境界として音声信号Ｓを複数の区間ｂに区分する。したがって、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発言が別個の区間ｂに属するように音声信号Ｓが区分される。

図６は、第２区分部４２の具体的な動作を示すフローチャートである。図６の処理は、発音区間ＰAと非発音区間ＰBとの区分を第１区分部４１が完了することを契機として実行される。図６に示すように、第２区分部４２は、記憶装置２０に格納された音声信号Ｓの波形の包絡線Ｅを特定する（ステップＳD1）。ステップＳD1の処理について詳述すると以下の通りである。

会議室内で収録した音声信号Ｓには、空調設備の動作音など比較的に低周波な雑音が含まれる。このような雑音を除去するために、第２区分部４２は、音声信号Ｓにハイパスフィルタ処理を実行する。ハイパスフィルタ処理の好適なカットオフ周波数は20Hz〜50Hzであるが、例えば利用者からの指示に応じて可変に制御されてもよい。さらに、第２区分部４２は、音声信号Ｓの各標本点におけるサンプル値の絶対値を演算する。すなわち、音声信号Ｓは全波整流される。そして、第２区分部４２は、音声信号Ｓに対してローパスフィルタ処理（平滑化処理）を実行することで包絡線Ｅを生成する。ローパスフィルタ処理の好適なカットオフ周波数は例えば１Hz〜２Hz程度である。

図６のステップＳD2において、第２区分部４２は、包絡線Ｅに現れる複数の谷部Ｄを検出する。谷部Ｄは、図２の部分(C)に示すように、包絡線Ｅのレベルが減少から増加に変化する時点（包絡線Ｅの勾配が負数から正数に変化する時点）である。次いで、第２区分部４２は、図２の部分(D)に示すように、包絡線Ｅの複数の谷部Ｄのうち発音区間ＰA内の各谷部Ｄを境界として発音区間ＰAを複数の区間ｂに区分する（ステップＳD3）。例えば図２には、発音区間ＰA1が３個の区間ｂ（ｂ1，ｂ2，ｂ3）に区分され、発音区間ＰA2が２個の区間ｂ（ｂ4，ｂ5）に区分された場合が例示されている。なお、発音区間ＰA内に谷部Ｄが存在しない場合（例えば図２の発音区間ＰA3）には当該発音区間ＰAが区間ｂとなる。また、非発音区間ＰB内に谷部Ｄが存在する場合（例えば図２の非発音区間ＰB3）であっても当該非発音区間ＰBは区分されない。以下では第２区分部４２による区分後の区間ｂの総数をＪ個（Ｊは２以上の自然数）とする。

図１の特徴抽出部１２３は、Ｊ個の区間ｂの各々について特徴ベクトルｘの時系列を音声信号Ｓから特徴量として抽出する。ひとつの区間ｂにおける特徴ベクトルｘの時系列は、当該区間ｂ内の複数のフレームＦにおけるＭＦＣＣのベクトルの集合である。さらに、特徴抽出部１２３は、Ｊ個の区間ｂの各々について混合モデルλを生成する。ひとつの区間ｂの混合モデルλは、当該区間ｂの各特徴ベクトルｘの分布をＭ個の確率分布の加重和としてモデル化する関数である（Ｍは２以上の自然数）。混合モデルλの生成にはＥＭ（Expectation-Maximization）アルゴリズムなど公知の技術が任意に採用される。

本形態の混合モデルλは、Ｍ個の正規分布の加重和として以下の式(2)で表現されるガウス混合モデルである。
λ＝｛ｐi，μi，Σi｝（ｉ＝１〜Ｍ） ……(2)
式(2)のｐiは、第ｉ番目の正規分布の加重値（重み値）である。加重値ｐ1〜ｐMの総和は１である。式(2)のμiは第ｉ番目の正規分布の平均ベクトルであり、Σiは第ｉ番目の正規分布の共分散行列である。なお、式(2)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号（文字上の右向き矢印）を省略する。

次に、図７を参照して区間連結部１２５の具体的な動作を説明する。同図に示すように、区間連結部１２５は、Ｊ個の区間ｂのうち最先の区間ｂを選択する（ステップＳE1）。区間連結部１２５が処理の対象として選択した区間ｂを以下では特に「選択区間ｂ」と表記する。

次いで、区間連結部１２５は、選択区間ｂと当該選択区間ｂの直後の区間ｂ（以下では選択区間ｂと区別するために「対比区間ｂ」という）とにおける音声信号Ｓの類否の指標となる類否指標値を算定する（ステップＳE2）。選択区間ｂの直後に他の区間ｂが連続する場合には当該他の区間ｂが対比区間ｂとされ、選択区間ｂに非発音区間ＰBが連続する場合には当該非発音区間ＰBの直後の区間ｂが対比区間ｂとされる。本形態の類否指標値は、選択区間ｂの混合モデルλから対比区間ｂの各特徴ベクトルｘが出現する確率（尤度）を対比区間ｂ内の総ての特徴ベクトルｘについて平均化した数値（平均尤度）である。

ひとつの特徴ベクトルｘをＤ次元のベクトルとすると、混合モデルλから特徴ベクトルｘが出現する尤度は以下の式(3)で算定される。

区間連結部１２５は、対比区間ｂについて特徴抽出部１２３が抽出したＫ個の特徴ベクトルｘ（ｘ1〜ｘK）を式(4)に代入することで平均尤度Ｌを算定する。式(4)から理解されるように、選択区間ｂと対比区間ｂとで音声信号Ｓの特徴ベクトルｘが類似するほど平均尤度Ｌは大きくなる。

ステップＳE3において、区間連結部１２５は、ステップＳE2にて算定した平均尤度Ｌに基づいて選択区間ｂの音声信号Ｓと対比区間ｂの音声信号Ｓとが類似するか否かを判定する（ステップＳE3）。さらに詳述すると、区間連結部１２５は、平均尤度Ｌを所定の閾値ＴＨと比較し、平均尤度Ｌが閾値ＴＨを上回る場合には選択区間ｂと対比区間ｂとが類似すると判定する一方、平均尤度Ｌが閾値ＴＨを下回る場合には選択区間ｂと対比区間ｂとが類似しないと判定する。閾値ＴＨは、同じ発声者が発声した複数の区間ｂの平均尤度Ｌが当該閾値ＴＨを上回るように（すなわち別の発声者が発声した複数の区間ｂの平均尤度Ｌが閾値ＴＨを下回るように）、統計的または実験的に設定される。したがって、ステップＳE3の処理は、選択区間ｂと対比区間ｂとがひとりの発声者の発声した区間ｂであるか否かを判定する処理と等価である。

ステップＳE3の結果が肯定である場合（すなわち選択区間ｂと対比区間ｂとで発声者が同一人である可能性が高い場合）、区間連結部１２５は、選択区間ｂと対比区間ｂとを連結してひとつの区間Ｂを生成する（ステップＳE4）。例えば図２においては、区間ｂ1と区間ｂ2との連結でひとつの区間Ｂ1が生成される。選択区間ｂと対比区間ｂとの間隙に非発音区間ＰBが介在する場合、区間連結部１２５は、選択区間ｂおよび対比区間ｂと両者間の非発音区間ＰBとをひとつの区間Ｂとする。例えば図２においては、区間ｂ5および区間ｂ6と両者間の非発音区間ＰB3との連結でひとつの区間Ｂ4が生成される。区間連結部１２５は、ステップＳE4における連結後の区間ＢをステップＳE5にて新たな選択区間ｂとして選択したうえで処理をステップＳE7に移行する。

一方、ステップＳE3の結果が否定である場合（すなわち選択区間ｂと対比区間ｂとで発声者が別人である可能性が高い場合）、区間連結部１２５は、区間ｂの連結を実行せず、現段階の選択区間ｂの直後の区間ｂをステップＳE6にて新たな選択区間ｂとして選択したうえで処理をステップＳE7に移行する。すなわち、今回の選択区間ｂがひとつの区間Ｂとして確定する。例えば、図２の区間ｂ4と区間ｂ5との平均尤度Ｌが閾値ＴＨを下回る場合、両区間は連結されず、同図の部分(E)に示すように区間ｂ4が単独で区間Ｂ3とされる。

ステップＳE7において、区間連結部１２５は、ステップＳE5またはステップＳE6にて選択した選択区間ｂが音声信号Ｓの最後の部分であるか否か（すなわち選択区間ｂに後続する区間ｂが存在するか否か）を判定する。ステップＳE7の結果が否定である場合、区間連結部１２５は、ステップＳE5またはステップＳE6にて新たに選択した選択区間ｂを対象としてステップＳE2以後の処理を実行する。一方、選択区間ｂが音声信号Ｓの最後の区間ｂである場合、区間連結部１２５は図７の処理を終了する。

図７の処理によれば、音声区分部１２１が区分したＪ個の区間ｂのうち同一人が発声したと推定される複数の相前後する区間ｂが連結されるから、各区間Ｂについて適度な時間長を確保することができる。区間Ｂが長いほど発声者の発声の特性を忠実に反映した特徴量が区間Ｂごとに抽出されるから、本形態によれば、区間ｂを連結しない場合と比較して、音声分類部１４による各区間Ｂの分類の精度や音声認識部１６による文字の認識の精度を高めることが可能である。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。第１実施形態においては各区間ｂの類否指標値として平均尤度Ｌを例示した。本形態においては、選択区間ｂにおける音声信号Ｓの特徴ベクトルｘの時系列から生成されたコードブック（符号帳）と対比区間ｂの各特徴ベクトルｘとを対比した結果（ＶＱ（Vector Quantization）歪）を類否指標値として採用する。なお、以下の各形態において機能や作用が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

特徴抽出部１２３は、第１実施形態と同様の特徴ベクトルｘ（例えばＭＦＣＣ）の時系列と、複数の特徴ベクトルｘに対応したコードブックＣ^Aとを、Ｊ個の区間ｂの各々について生成する。コードブックＣ^Aの生成には、k-means法やＬＢＧアルゴリズムなど公知の技術が任意に採用される。

図７のステップＳE2において、区間連結部１２５は、選択区間ｂのコードブックＣ^Aと、選択区間ｂの直後の対比区間ｂにおける複数の特徴ベクトルｘとに基づいて、ＶＱ歪Ｄを類否指標値として算定する。ＶＱ歪Ｄは、例えば以下の式(5)で算定される。

式(5)の|Ｃ^A|は、選択区間ｂのコードブックＣ^Aのサイズであり、Ｃ^A(i)は、コードブックＣ^Aにおける第ｉ番目のコードベクトル（セントロイドベクトル）である。また、ｘjは、対比区間ｂから抽出されたｎ_B個（対比区間Ｂ内のフレーム数）の特徴ベクトルｘ1〜ｘn_Bのなかの第ｊ番目（ｊ＝１〜ｎ_B）を意味する。ｄ（X,Y）は、ベクトルＸとベクトルＹとのユークリッド距離である。すなわち、ＶＱ歪Ｄは、選択区間ｂのコードブックＣ^A内の|Ｃ^A|個のセントロイドベクトルと対比区間ｂの特徴ベクトルｘとの最小値（min）をｎ_B個の特徴ベクトルｘ1〜ｘn_Bにわたって平均化した数値である。

以上の説明から理解されるように、選択区間ｂと対比区間ｂとで音声信号Ｓの特徴ベクトルｘが類似するほどＶＱ歪Ｄは小さくなる。したがって、図７のステップＳE3において、区間連結部１２５は、ＶＱ歪Ｄが所定の閾値を上回るか否かを判定し、閾値を上回る場合には選択区間ｂと対比区間ｂとは類似しないと判定する一方（ステップＳE3：NO）、閾値を下回る場合には選択区間ｂと対比区間ｂとが類似すると判定する（ステップＳE3：YES）。他の動作は第１実施形態と同様である。本形態においても第１実施形態と同様の効果が奏される。

＜Ｃ：第３実施形態＞
本発明の第３実施形態について説明する。本形態においては、選択区間ｂの音声信号Ｓの特徴量と対比区間ｂの音声信号Ｓの特徴量との相互相関値を類否指標値として採用する。

特徴抽出部１２３は、Ｊ個の区間ｂの各々について音声信号Ｓの平均的なパワースペクトル（以下「平均パワースペクトル」という）を音響的な特徴量として抽出する。すなわち、特徴抽出部１２３は、区間ｂ内の各フレームの音声信号Ｓを周波数分析することで各フレームのパワースペクトルを算定し、当該区間ｂ内の総てのフレームＦについてパワースペクトルを平均化することで平均パワースペクトルを算定する。ひとつの区間ｂについて算定される平均パワースペクトルのうち特定の周波数における強度は、当該区間ｂ内の各フレームＦのパワースペクトルにおける当該周波数での強度の平均値である。なお、特徴抽出部１２３は、図３のステップＳA1にて算定された帯域別レベルＬF[1]〜ＬF[m]を各区間ｂ内の総てのフレームＦについて平均することで当該区間ｂの平均パワースペクトルとしてもよい。

図７のステップＳE2において、区間連結部１２５は、選択区間ｂの平均パワースペクトルＳＰaと対比区間ｂの平均パワースペクトルＳＰbとの相互相関値Ｃorを、例えば以下の式(6)に基づいて類否指標値として算定する。

式(6)におけるＳＰa(i)は、複数の周波数（または周波数帯域）のうち変数ｉ（Ｆ1≦ｉ≦Ｆ2）で指定される周波数における平均パワースペクトルＳＰaの強度であり、ＳＰa_AVEは、周波数Ｆ1から周波数Ｆ2までの帯域における平均パワースペクトルＳＰaの強度の平均値である。同様に、ＳＰb(i)は、変数ｉに対応した周波数における平均パワースペクトルＳＰbの強度であり、ＳＰb_AVEは、周波数Ｆ1から周波数Ｆ2までの帯域における平均パワースペクトルＳＰbの強度の平均値である。周波数Ｆ1および周波数Ｆ2は、平均パワースペクトルにおいて発声者ごとの相違が顕著となり易い周波数帯域の下限値（Ｆ1）および上限値（Ｆ2）となるように統計的または実験的に設定される。

以上の説明から理解されるように、平均パワースペクトルＳＰaと平均パワースペクトルＳＰbとが完全に合致する場合に相互相関値Ｃorは最大値「１」となり、両者の相違が増大するほど相互相関値Ｃorは減少していく。したがって、図７のステップＳE3において、区間連結部１２５は、相互相関値Ｃorが閾値を上回るか否かを判定し、閾値を上回る場合には選択区間ｂと対比区間ｂとが類似すると判定する一方（ステップＳE3：YES）、閾値を下回る場合には両区間は類似しないと判定する（ステップＳE3：NO）。他の動作は第１実施形態と同様である。本形態においても第１実施形態と同様の効果が奏される。

なお、第３実施形態において相互相関値Ｃorを算定する方法は適宜に変更される。例えば、平均パワースペクトルを周波数軸上で区分した複数の周波数帯域の各々における相互相関値の加算値（または加重和）を相互相関値Ｃorとして算定してもよい。すなわち、区間連結部１２５は、選択区間ｂおよび対比区間ｂの各平均パワースペクトル（ＳＰa，ＳＰb）における特定の帯域を対象として相互相関値Ｃor_aを算定するとともに別の帯域を対象として相互相関値Ｃor_bを算定し、両者の加算値や加重和を相互相関値Ｃor（Ｃor＝α・Ｃor_a＋β・Ｃor_b：αおよびβは定数）として演算する。以上の構成によれば、平均パワースペクトルのうち発声者ごとの相違が特に顕著に現れる帯域の特性を相互相関値Ｃorに対して仔細かつ有効に反映させることが可能となる。

＜Ｄ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
非発音区間ＰB内の音声信号Ｓに基づいて区間Ｂ（発音区間ＰA）内の音声信号Ｓの雑音の成分を抑圧する態様が好適に採用される。例えば、制御装置１０は、非発音区間ＰB内の音声信号Ｓの周波数スペクトル（例えばパワースペクトル）を区間Ｂ内の音声信号Ｓの周波数スペクトルから減算することで区間Ｂ内の雑音を抑圧する雑音抑圧手段として機能する。さらに詳述すると、音声信号Ｓの先頭の区間（例えば区間Ｐ0や最初の非発音区間ＰB1）における周波数スペクトルを各区間Ｂの音声信号Ｓの周波数スペクトルから共通に減算する構成や、各非発音区間ＰBの周波数スペクトルを当該非発音区間ＰBの直後にある各区間Ｂの周波数スペクトルから減算する構成が採用される。なお、第１区分部４１が音声信号Ｓを発音区間ＰAと非発音区間ＰBとに区分した後であれば、音声信号Ｓから雑音を抑圧する処理の時期は任意である。例えば、第２区分部４２が各区間ｂを画定する前後や区間連結部１２５が各区間Ｂを画定する前後に雑音の抑圧のための処理が実行される。本変形例によれば、音声信号Ｓにおける雑音の影響が低減されるから、音声分類部１４による各区間Ｂの分類の精度や音声認識部１６による音声認識の精度をさらに高めることができる。

（２）変形例２
音声区分部１２１が音声信号Ｓを区分する方法は以上の例示に限定されない。例えば、音声区分部１２１が第１区分部４１および第２区分部４２の一方のみを含む構成も採用される。また、第１区分部４１による音声信号Ｓの区分は、第２区分部４２による処理後に実行されてもよい。さらに、音量が閾値を上回る区間と下回る区間とに音声信号Ｓを区分する構成や、音声信号Ｓの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Ｓを区分する構成も採用される。もっとも、以上の各形態のように第１区分部４１を採用した構成によれば、音声信号Ｓを発音区間ＰAと非発音区間ＰBとに高精度に区分できるという利点があり、第２区分部４２を採用した構成によれば、複数の発声者による発声が時間軸上で連続または重複する場合であっても音声信号Ｓを発声者ごとに区分できるという利点がある。

（３）変形例３
第２区分部４２が音声信号Ｓの包絡線Ｅを特定する方法は適宜に変更される。例えば、図６のステップＳD1において、第２区分部４２は、ハイパスフィルタ処理および全波整流後の音声信号Ｓにカットオフ周波数を20Hz程度とするローパスフィルタ処理を実行したうえで、例えば500ms程度の期間ごとのサンプル値の平均値（移動平均）を包絡線Ｅのレベルとして算定してもよい。また、音声信号Ｓを所定長ごとに区分した各区間内のサンプル値の平均値を当該区間の代表値とし、各代表値を時系列的に直線で連結した折れ線を包絡線Ｅとして特定してもよい。

（４）変形例４
特徴抽出部１２３が抽出する音響的な特徴量は以上の例示に限定されない。例えば、第１実施形態や第２実施形態においては、各区間ｂにおける音声信号Ｓの強度の平均値や最大値や基本周波数が特徴量として抽出される。第３実施形態においては、区間ｂ内の各フレームから抽出されたＭＦＣＣの当該区間ｂにおける平均を平均パワースペクトルの代わりに抽出してもよい。また、特徴抽出部１２３が音声信号Ｓの区分のために抽出した特徴量を、音声分類部１４による各区間Ｂの分類や音声認識部１６による音声認識に利用してもよい。さらに、特徴抽出部１２３が各非発音区間ＰBについても各区間Ｂと同様に特徴量を抽出する構成によれば、音声分類部１４が各非発音区間ＰBを特徴量に基づいて分類することも可能となる。

（５）変形例５
音声処理装置１００が作成した議事録を印刷する印刷装置を出力装置３０として採用してもよい。もっとも、音声処理装置１００による処理の結果が議事録（文字）の形式で出力される必要はなく、例えば分類処理部による分類の結果を出力することも可能である。例えば、区分処理部１２が区分した複数の区間Ｂのうち利用者が指定した時刻を含む区間Ｂ内の音声信号Ｓを放音装置（例えばスピーカ）から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、区分処理部１２が音声信号Ｓを複数の区間Ｂに区分した結果を音声処理装置１００から外部装置に出力する構成も採用される。外部装置においては、音声処理装置１００からの出力に対して図１の音声分類部１４と同様の処理や他の適切な処理が実行される。以上のように、音声分類部１４や音声認識部１６は音声処理装置１００にとって必須の要素ではない。

（６）変形例６
以上の各形態においては記憶装置２０に予め記憶された音声信号Ｓを処理の対象としたが、収音装置（マイクロホン）から供給される音声信号Ｓや通信網を経由して順次に供給される音声信号Ｓを対象として実時間的に処理を実行してもよい。

（７）変形例７
音声信号Ｓが表す音響の種類は本発明において任意である。例えば、楽器の演奏音を収録した音声信号Ｓを音声処理装置１００による処理の対象とすれば、複数種の楽器を順次に演奏したときの音声信号Ｓを時間軸上で楽器の種類ごとに区分することが可能となる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。区分処理部の動作を説明するための概念図である。第１区分部の動作を示すフローチャートである。発音区間の始点を検出する動作のフローチャートである。発音区間の終点を検出する動作のフローチャートである。第２区分部の動作を示すフローチャートである。区間連結部の動作を示すフローチャートである。

符号の説明

１００……音声処理装置、１０……制御装置、１２……区分処理部、１２１……音声区分部、１２３……特徴抽出部、１２５……区間連結部、１４……音声分類部、１６……音声認識部、２０……記憶装置、３０……出力装置、４１……第１区分部、４２……第２区分部、Ｓ……音声信号。

Claims

音声信号を時間軸上で複数の区間に区分する音声区分手段と、
前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出手段と、
前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手段と
を具備する音声処理装置。
前記音声区分手段は、前記音声信号を発音区間と非発音区間とに区分する第１区分手段を含む
請求項１の音声処理装置。
前記音声区分手段は、前記音声信号の波形の包絡線における複数の谷部のうち前記発音区間内の各谷部を境界として前記音声信号を区分する第２区分手段を含む
請求項２の音声処理装置。
前記区間連結手段は、ひとつの区間の特徴量と他の区間の特徴量との相互相関値に基づいて両区間の類否を判定する
請求項１から請求項３の何れかの音声処理装置。
コンピュータに、
音声信号を時間軸上で複数の区間に区分する音声区分処理と、
前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出処理と、
前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結処理と
を実行させるプログラム。