JP2009053430A - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP2009053430A
JP2009053430A JP2007219929A JP2007219929A JP2009053430A JP 2009053430 A JP2009053430 A JP 2009053430A JP 2007219929 A JP2007219929 A JP 2007219929A JP 2007219929 A JP2007219929 A JP 2007219929A JP 2009053430 A JP2009053430 A JP 2009053430A
Authority
JP
Japan
Prior art keywords
distortion
section
feature vector
codebook
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007219929A
Other languages
English (en)
Other versions
JP4967928B2 (ja
Inventor
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007219929A priority Critical patent/JP4967928B2/ja
Publication of JP2009053430A publication Critical patent/JP2009053430A/ja
Application granted granted Critical
Publication of JP4967928B2 publication Critical patent/JP4967928B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】VQ符号帳の信頼性が低い場合でも音声間の類否を高い精度で判定できる指標を算定する。
【解決手段】記憶装置30は、音声信号VAの特徴ベクトル系列XAおよびVQ符号帳CAと音声信号VBの特徴ベクトル系列XBおよびVQ符号帳CBとを記憶する。第1算定部161は、VQ符号帳CAと特徴ベクトル系列XBとのVQ歪DAB、VQ符号帳CBと特徴ベクトル系列XAとのVQ歪DBA、VQ符号帳CAと特徴ベクトル系列XAとのVQ歪DAA、VQ符号帳CBと特徴ベクトル系列XBとのVQ歪DBBを算定する。第2算定部162は、VQ歪DABやVQ歪DBAが大きいほどVQクロス歪DCが大きく、VQ歪DAAやVQ歪BBが大きいほどVQクロス歪DCが小さくなるように、第1算定部161による算定の結果から、音声信号VAと音声信号VBとの類否の指標となるVQクロス歪DCを算定する。
【選択図】図1

Description

本発明は、複数の音声信号の類否の指標を算定する技術に関する。
話者照合や話者識別といった各種の音声処理技術では、複数の音声の音響的な特徴の類否を判定する必要がある。音声間の特徴量の類否の指標としてVQ(Vector Quantization)歪が従来から利用されている(例えば特許文献1や特許文献2参照)。VQ歪は、基準となる音声の音響的な特徴量のベクトルの時系列(以下「特徴ベクトル系列」という)から生成されたVQ符号帳(コードブック)と、話者照合や話者識別の対象となる入力音声から抽出された特徴ベクトル系列とに基づいて算定される。
特開平7−248791号公報 特開平11−85182号公報
しかし、例えばVQ符号帳の生成に使用された特徴ベクトル系列の要素数が少ない場合(すなわち基準となる音声が短い場合)、VQ符号帳には音声の本来的な特性が忠実に反映されない。このように信頼性の低いVQ符号帳を使用して音声間の類否の指標を算定した場合には、話者照合や話者識別の精度が低下するという問題がある。以上の事情に鑑みて、本発明は、VQ符号帳の信頼性が低い場合でも音声間の類否を高い精度で判定できる指標を算定するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明に係る音声処理装置は、第1音声信号と第2音声信号との類否の指標となるVQクロス歪を算定する装置であって、第1音声信号(例えば図1の音声信号VA)および第2音声信号(例えば図1の音声信号VB)の各々について特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、第1音声信号のVQ符号帳と第2音声信号の特徴ベクトル系列との第1VQ歪(例えば図1のVQ歪DAB)、第2音声信号のVQ符号帳と第1音声信号の特徴ベクトル系列との第2VQ歪(例えば図1のVQ歪DBA)、第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪(例えば図1のVQ歪DAA)、および、第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪(例えば図1のVQ歪DBB)を算定する第1算定手段と、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるように、第1VQ歪と第2VQ歪と第3VQ歪と第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段とを具備する。
以上の構成によれば、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるようにVQクロス歪が算定されるから、例えば第1音声信号や第2音声信号のVQ符号帳の作成に使用された音声信号が短い場合(特徴ベクトル系列を構成する特徴ベクトルが少ない場合)であっても、第1音声信号と第2音声信号との類否を正確に判定し得るVQクロス歪が算定される。
本発明の好適な態様において、第2算定手段は、第1VQ歪から第3VQ歪を減算した数値と第2VQ歪から第4VQ歪を減算した数値との加算に基づいてVQクロス歪を算定する。以上の構成によれば、簡素な演算でVQクロス歪が算定されるという利点がある。ただし、第2算定手段による演算の内容は任意である。例えば、第1VQ歪を第3VQ歪で除算した数値と第2VQ歪を第4VQ歪で除算した数値との加算に基づいて第2算定手段がVQクロス歪を算定する構成も採用される。
本発明の第1の態様に係る音声処理装置は、音声信号を時間軸上で可変長に区分した複数の区間を複数のクラスタに分類する装置であって、複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、複数の区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、対象クラスタに分類された区間の特徴ベクトル系列とVQ符号帳とを含むクラスタ情報を生成するクラスタ情報生成手段と、対象クラスタの指定中に未分類の各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、選択区間のVQ符号帳と対象クラスタの特徴ベクトル系列との第1VQ歪、対象クラスタのVQ符号帳と選択区間の特徴ベクトル系列との第2VQ歪、選択区間のVQ符号帳と当該選択区間の特徴ベクトル系列との第3VQ歪、および、対象クラスタのVQ符号帳と当該対象クラスタの特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるように、第1VQ歪と第2VQ歪と第3VQ歪と第4VQ歪とに基づいて、選択区間と対象クラスタとのVQクロス歪を算定する第2算定手段と、選択区間と対象クラスタとのVQクロス歪が閾値を下回る場合に当該選択区間を当該対象クラスタに分類する区間分類手段と、選択区間と対象クラスタとのVQクロス歪が閾値を下回る場合に、選択区間の特徴ベクトル系列に基づいて対象クラスタのクラスタ情報を更新する更新手段とを具備する。
以上の構成によれば、選択区間と対象クラスタとの音声信号の類否をVQクロス歪に応じて高精度に判定することが可能である。また、未分類の区間が時間の長い順番で選択されたうえで、対象クラスタに分類された選択区間の特徴ベクトル系列がクラスタ情報の更新に使用されるから、例えば時間の短い順番や時系列の順番で未分類の区間が選択される構成と比較して、対象クラスタのVQ符号帳の信頼性を早期に高めて各区間を高精度に分類することが可能となる。なお、本態様の具体例は第2実施形態や第3実施形態として後述される。
本発明の好適な態様において、クラスタ情報生成手段は、未分類で最長の区間内の音声信号の特徴量に基づいて音響モデルを生成する(例えば図5や図8のステップSA2からステップSA4)。本態様によれば、未分類で最短の区間や時間的に最先にある区間を対象クラスタのクラスタ情報の作成に使用する構成と比較して、クラスタ情報(VQ符号帳)の信頼性を早期に高めることができる。
本発明の具体的な態様において、対象クラスタのクラスタ情報は、当該対象クラスタに分類された区間の時間長に応じた分類区間長を含み、クラスタ情報内の分類区間長に応じて閾値を可変に設定する閾値設定手段(例えば図5や図8のステップSA7)を具備する。以上の態様によれば、VQクロス歪と対比される閾値が可変に制御されるから、分類漏れまたは類否の誤判定を有効に防止できるという利点がある。
本発明の好適な態様に係る音声処理装置は、話者数を特定する話者数特定手段を具備し、話者数に応じた個数のクラスタに各区間が分類された段階で分類を終了する。別の態様に係る音声処理装置は、話者数を特定する話者数特定手段と、各区間を分類したクラスタの総数が話者数を上回る場合に、クラスタの総数が話者数以下となるまで複数のクラスタを併合するクラスタ併合手段とを具備する。以上の各態様によれば、話者数に応じた個数のクラスタに各区間を容易に分類することができる。
さらに好適な態様に係る音声処理装置は、区間分類手段が何れのクラスタにも分類しなかった未分類区間を、既存の複数のクラスタのうち当該未分類区間とのVQクロス歪が最小となるクラスタに分類する未分類区間処理手段を具備する。本態様によれば、各区間の分類漏れを有効に防止できるという利点がある。
本発明の第2の態様に係る音声処理装置は、音声信号を時間軸上で区分した複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
複数の区間のなかから第1区間と第2区間とを選択する複数の組合せの各々について、第1区間のVQ符号帳と第2区間の特徴ベクトル系列との第1VQ歪、第2区間のVQ符号帳と第1区間の特徴ベクトル系列との第2VQ歪、第1区間のVQ符号帳と当該第1区間の特徴ベクトル系列との第3VQ歪、および、第2区間のVQ符号帳と当該第2区間の特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、複数の組合せの各々について第1区間と第2区間とにおける音声信号の類否の指標となるVQクロス歪を算定する手段であって、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるように、第1VQ歪と第2VQ歪と第3VQ歪と第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段と、複数の区間の各々と当該区間に対するVQクロス歪が最も小さい区間とが同じクラスタに属するように複数の区間を複数のクラスタに分類する区間分類手段とを具備する。
以上の構成によれば、複数の区間の各々と当該区間に対するVQクロス歪が最も小さい区間とが同じクラスタに分類されるから、VQクロス歪と所定の閾値との比較は原理的には不要である。したがって、音声信号の収録時の条件(例えば音声や雑音の音量)が分類の精度に与える影響を低減して複数の区間を正確に分類することが可能となる。
本発明の好適な態様において、音声分類手段は、複数の区間のうち、他の総ての区間の各々に対するVQクロス歪が非類似を示す区間(例えば、類似度の順位が所定値を下回る区間や類似度が他の各区間について最下位にある区間)を、他の総ての区間とは別個の集合に分類する。本態様によれば、例えばひとりの発声者がひとつの区間のみで発声したような場合であっても、当該発声の区間を他の区間とは別の集合に分類することが可能である。
以上の各態様に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、第1音声信号のVQ符号帳と第2音声信号の特徴ベクトル系列との第1VQ歪、第2音声信号のVQ符号帳と第1音声信号の特徴ベクトル系列との第2VQ歪、第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪、および、第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪を算定する第1算定処理と、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるように、第1VQ歪と第2VQ歪と第3VQ歪と第4VQ歪とに基づいてVQクロス歪を算定する第2算定処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。なお、本発明は、コンピュータを第1の態様に係る音声処理装置や第2の態様に係る音声処理装置として機能させるためのプログラムとしても特定される。
本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、第1音声信号のVQ符号帳と第2音声信号の特徴ベクトル系列との第1VQ歪、第2音声信号のVQ符号帳と第1音声信号の特徴ベクトル系列との第2VQ歪、第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪、および、第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪を算定する第1算定過程と、第1VQ歪または第2VQ歪が大きいほどVQクロス歪が大きく、第3VQ歪または第4VQ歪が大きいほどVQクロス歪が小さくなるように、第1VQ歪と第2VQ歪と第3VQ歪と第4VQ歪とに基づいてVQクロス歪を算定する第2算定過程とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。
<A:第1実施形態>
本発明の第1実施形態に係る音声処理装置について図1を参照して説明する。本形態の音声処理装置100は、2種類の音声(音声信号VAおよび音声信号VB)の類否の指標となるVQクロス歪を算定する。図1に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置30として任意に採択される。
記憶装置30は、特徴ベクトル系列X(XA,XB)とVQ符号帳C(CA,CB)とを音声信号VAおよび音声信号VBの各々について記憶する。特徴ベクトル系列XAは、音声信号VAを時間軸上で区分したnA個(nAは自然数)のフレームから抽出された特徴ベクトルxA(1)〜xA(nA)の時系列である。同様に、特徴ベクトル系列XBは、音声信号VBを区分したnB個(nBは自然数)のフレームから抽出された特徴ベクトルxB(1)〜xB(nB)の時系列である。特徴ベクトルxA(1)〜xA(nA)は音声信号VAが表す音声の音響的な特徴量を表し、特徴ベクトルxB(1)〜xB(nB)は音声信号VBが表す音声の音響的な特徴量を表す。例えばMFCC(Mel Frequency Cepstrum Coefficient)が特徴ベクトルxA(1)〜xA(nA)および特徴ベクトルxB(1)〜xB(nB)として好適に採用される。もっとも、xA(1)〜xA(nA)および特徴ベクトルxB(1)〜xB(nB)はMFCCに限定されない。
VQ符号帳CAは、特徴ベクトル系列XAの特徴ベクトルxA(1)〜xA(nA)の分布に対応した|CA|個のコードベクトル(セントロイドベクトル)CA(1)〜CA(|CA|)を定義する。VQ符号帳CBは、特徴ベクトル系列XBの特徴ベクトルxB(1)〜xB(nB)の分布に対応した|CB|個のコードベクトルCB(1)〜CB(|CB|)を定義する。特徴ベクトル系列Xに応じたVQ符号帳Cの生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。
制御装置10は、音声信号VAと音声信号VBとの類否(発声者の異同)の指標となるVQクロス歪DCを算定するVQクロス歪算定部16として機能する。図1に示すように、VQクロス歪算定部16は、第1算定部161および第2算定部162とで構成される。なお、第1算定部161および第2算定部162はDSPなどの電子回路によっても実現される。また、第1算定部161と第2算定部162とは別個の集積回路に分散して実装されてもよい。
第1算定部161は、記憶装置30に格納されたVQ符号帳Cと特徴ベクトル系列Xとの総ての組合せについてVQ歪を算定する。すなわち、第1算定部161は、音声信号VAのVQ符号帳CAと音声信号VBの特徴ベクトル系列XBとからVQ歪DABを算定し、音声信号VBのVQ符号帳CBと音声信号VAの特徴ベクトル系列XAとからVQ歪DBAを算定し、音声信号VAのVQ符号帳CAと当該音声信号VAの特徴ベクトル系列XAとからVQ歪DAAを算定し、音声信号VBのVQ符号帳CBと当該音声信号VBの特徴ベクトル系列XBとからVQ歪DBBを算定する。
以上の4種類のVQ歪D(DAB,DBA,DAA,DBB)は、例えば以下の式(1)〜(4)で算定される。
Figure 2009053430

Figure 2009053430

Figure 2009053430

Figure 2009053430
式(1)〜(4)におけるd(v,u)は、ベクトルvとベクトルuとの距離(例えばユークリッド距離)を意味する。式(1)に示すように、VQ歪DABは、特徴ベクトル系列XBの特徴ベクトルxB(j)とVQ符号帳CAの|CA|個のコードベクトルとの距離の最小値(min)をnB個の特徴ベクトルxB(1)〜xB(nB)について平均化した数値である。したがって、VQ符号帳CAの表す音響的な特徴と特徴ベクトル系列XBの表す音響的な特徴とが類似するほどVQ歪DABは小さくなる。他のVQ歪D(DBA,DAA,DBB)についても以上の関係が同様に成立する。
第2算定部162は、第1算定部161が算定した4種類のVQ歪D(DAB,DBA,DAA,DBB)に基づいてVQクロス歪DCを算定する。VQクロス歪DCを算定するための演算式は、VQ歪DABまたはVQ歪DBAが大きいほどVQクロス歪DCが増加し、VQ歪DAAまたはVQ歪DBBが大きいほどVQクロス歪DCが減少するように設定される。第2算定部162は、例えば以下の式(5)を使用してVQクロス歪DCを算定する。
Figure 2009053430

式(5)で算定されたVQクロス歪DCは音声信号VAと音声信号VBとが類似するほど小さい数値となる。したがって、音声信号VAと音声信号VBとの類否を判定する基準としてVQクロス歪DCが好適に採用され得る。例えば、制御装置10は、VQクロス歪DCが所定の閾値Dthを下回る場合には音声信号VAと音声信号VBとが類似すると判定し、VQクロス歪DCが閾値Dthを上回る場合には音声信号VAと音声信号VBとが類似しないと判定する。
本願発明者の試験によれば、VQクロス歪DCを利用した場合には、例えばVQ歪DABやVQ歪DBAのみを利用した場合と比較して、音声信号VAと音声信号VBとの類否を高精度に判定できるという知見が得られた。音声の類否を判定する精度がVQクロス歪DCの利用によって向上する理由は以下のように推測される。
いま、音声信号VAから生成されるVQ符号帳CAのひとつのコードベクトルCA(i)に着目する。音声信号VAの時間長が短い場合や音声信号VAに雑音が含まれる場合、音声信号VAから生成されるコードベクトルCA(i)には誤差が発生し易い。例えば、音声信号VAの本来の特性からすれば図2のベクトルV0がコードベクトルCA(i)として特定されるべきであるにも拘わらず、音声信号VAの時間長の不足や雑音の影響で、図2のベクトルVEがコードベクトルCA(i)として特定される場合がある。
音声信号VAと音声信号VBとで発声者が同一人である場合、音声信号VBの特徴ベクトルxB(j)は図2のベクトルV0に近接する。しかし、実際にはベクトルVEがコードベクトルCA(i)として特定されているから、VQ符号帳CAと特徴ベクトル系列XBとから算定されるVQ歪DABは大きい数値となる。したがって、例えば音声信号VAと音声信号VBとの類否の判定にVQ歪DABのみを使用した場合には、音声信号VAと音声信号VBとで発声者が別人であると誤判定される可能性が高まる。
一方、VQ歪DAAは、コードベクトルCA(i)が本来のベクトルV0から乖離するほど大きい数値となる。したがって、VQ歪DABからVQ歪DAAを減算した数値は、音声信号VAと音声信号VBとで発声者が同一人であれば充分に小さい数値となる。換言すると、VQ歪DABからVQ歪DAAを減算した数値は、音声信号VAの本来のベクトルV0(音声信号VAの時間長が充分に確保されて雑音が重畳されていないと仮定した場合のコードベクトル)をコードベクトルCA(i)と仮定したVQ符号帳CAと特徴ベクトル系列XBとから算定されるVQ歪に近い数値となる。以上の性質はVQ歪DBAからVQ歪DBBを減算した数値についても妥当する。すなわち、VQクロス歪DCは、音声信号VAまたは音声信号VBの時間長が短い場合や雑音が重畳されている場合であっても、音声信号VAと音声信号VBとで音響的な特性が類似すれば(典型的には発声者が同一人であれば)小さい数値になるという性質がある。したがって、音声信号VAと音声信号VBとの類否を判定する精度が向上するという前述の効果が奏される。
なお、音声信号VAおよび音声信号VBの一方に時間長の不足や雑音の重畳がある場合、VQ歪DABからVQ歪DAAを減算した数値(またはVQ歪DABのみ)のみに基づいて音声信号VAと音声信号VBとの類否を判定する構成や、VQ歪DBAからVQ歪DBBを減算した数値(またはVQ歪DBAのみ)のみに基づいて音声信号VAと音声信号VBとの類否を判定する構成では誤判定が発生する場合がある。図1の構成においては、VQ歪DABおよびVQ歪DAAの差分値とVQ歪DBAおよびVQ歪DBBの差分値との加算値がVQクロス歪DCとして音声信号VAと音声信号VBとの類否の判定に使用されるから、音声信号VAおよび音声信号VBの一方における時間長の不足や雑音の影響を緩和して高精度な判定が実現されるという利点がある。
<B:第2実施形態>
図3は、第2実施形態に係る音声処理装置101の構成を示すブロック図である。同図に示すように、音声処理装置101は、1実施形態と同様の制御装置10と記憶装置30とを具備する。制御装置10には入力装置42と出力装置44とが接続される。入力装置42は、利用者による操作の内容を制御装置10に通知する。出力装置44は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
記憶装置30は、音声の時間軸上における波形を表す音声信号Vを記憶する。図4の部分(A)には、音声信号Vの時間軸上の波形が例示されている。本形態の音声信号Vが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して収録された音声である。
図3の制御装置10は、記憶装置30に格納されたプログラムを実行することで音声信号Vから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者毎に時系列に配列した会議の記録である。図3に示すように、制御装置10は、図1のVQクロス歪算定部16に加えて、音声区分部12と特徴抽出部14と分類処理部22と音声認識部24として機能する。なお、制御装置10の各機能は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。
音声区分部12は、図4の部分(D)に示すように、記憶装置30に格納された音声信号Vを、時間軸上で複数の発音区間PA(PA1,PA2,……)と複数の非発音区間PBとに区分する。各発音区間PAは、ひとりの発声者が連続して発声したと推定される可変長の区間である。非発音区間PBは、発声音の音量が充分に小さい(または発声音が存在しない)可変長の区間である。
音声区分部12は、第1処理と第2処理とを実行する。第1処理は、図4の部分(B)に示すように、音声信号VのうちS/N比や音量(振幅)が閾値を上回る区間を発音区間PAとして検出する処理である。発音区間PA以外の区間が非発音区間PBとなる。
複数の発声者による発声が間隔をあけずに連続する場合や部分的に重複する場合、第1処理だけでは音声信号Vを発声者毎に区分することは困難である。そこで、音声区分部12は、図4の部分(C)および部分(D)に示すように、音声信号Vの波形の包絡線(エンベロープ)Eに現れる複数の谷部Dの各々を境界として各発音区間PAを区分する第2処理を実行する。人間による一連の発話には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。したがって、谷部Dを境界として発音区間PAを区分する構成によれば、複数の発話が連続または重複する場合であっても、各発声者による発声は別個の発音区間PAに区分される。音声区分部12による区分後の発音区間PA(PA1,PA2,……)の総数を以下ではK個(Kは2以上の正数)とする。なお、図4の部分(D)に示すように、非発音区間PBは、内部に谷部Dがあっても第2処理では分割されない。
図3の特徴抽出部14は、K個の発音区間PAの各々について特徴ベクトル系列XとVQ符号帳Cとを生成して記憶装置30に格納する。ひとつの発音区間PAの特徴ベクトル系列Xは、当該発音区間PAを区分した各フレームの音声信号Vから抽出された特徴ベクトルx(例えばMFCC)の時系列である。VQ符号帳Cは、特徴ベクトル系列Xから生成される。VQクロス歪算定部16は、特徴抽出部14による抽出の結果に基づいてVQクロス歪DCを算定する。
分類処理部22は、音声区分部12が画定したK個の発音区間PAを、VQクロス歪算定部16が算定したVQクロス歪DCに基づいて発声者毎に分類する。K個の発音区間PAのうち発声者が共通する可能性の高い複数の発音区間PA(相互間のVQクロス歪DCが小さい複数の発音区間PA)は共通の集合(クラスタ)に分類される。非発音区間PBは分類の対象から除外される。
音声認識部24は、分類処理部22による分類後の各発音区間PAの音声信号Vから発声者毎の発言の内容を文字として特定する。各発音区間PAの音声信号Vから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部24は、第1に、ひとつのクラスタに分類された各発音区間PAの音声信号Vの音響的な特徴量に応じて初期的な音響モデルを更新(話者適応)することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第2に、話者適応後の音響モデルとクラスタ内の各発音区間PAの音声信号Vから抽出された特徴量を対比することで、発声者が発言した文字を特定する。制御装置10は、音声認識部24による処理の結果を出力装置44に出力する。出力装置44は、発声の時刻と、発声者の識別符号(例えば発声者の氏名)と、当該発声の内容について音声認識部24が同定した文字とを時系列に配列した議事録の画像を表示する。なお、制御装置10が作成した議事録を印刷する印刷装置を出力装置44として採用してもよい
次に、図5を参照して音声処理装置101の動作(特に分類処理部22の動作)について詳述する。入力装置42に対する操作によって利用者が議事録の作成を指示すると、音声区分部12による音声信号Vの区分と特徴抽出部14による特徴ベクトル系列XおよびVQ符号帳Cの生成とに続いて図5の処理が開始される。
議事録の作成を指示すると、利用者は、入力装置42を適宜に操作することで音声信号Vの収録時における話者数Mを入力する。分類処理部22は、利用者が入力した話者数Mを入力装置42から取得する(ステップSA0)。さらに、分類処理部22は、各発音区間PAに分類先の候補となるクラスタの番号(以下「クラスタ番号」という)nを「1」に初期化する(ステップSA1)。すなわち、分類処理部22は、クラスタ番号nが「1」であるクラスタCL1を指定する。分類処理部22が現に指定しているクラスタを以下では特に「対象クラスタ」と表記する。
次いで、分類処理部22は、現段階で何れのクラスタにも分類されていない発音区間PAのうち時間長が最長であるひとつの発音区間PAを選択する(ステップSA2)。そして、分類処理部22は、ステップSA2で選択した発音区間PAを対象クラスタCLnに分類する(ステップSA3)。すなわち、分類処理部22は、ステップSA2で選択した発音区間PAの始点および終点の時刻と現段階のクラスタ番号nとを対応させて記憶装置30に格納する。図4の部分(E1)には、図5の処理を開始した直後のステップSA3にて発音区間PA4を対象クラスタCL1に分類した状態が例示されている。
さらに、分類処理部22は、対象クラスタCLnのクラスタ情報CINF[n]を新規に作成して記憶装置30に格納する(ステップSA4)。ひとつのクラスタ情報CINF[n]は、図6に示すように、特徴ベクトル系列XCLとVQ符号帳CCLと分類区間長Tとを含む。特徴ベクトル系列XCLは、対象クラスタCLnに分類された各発音区間PAについて特徴抽出部14が抽出した特徴ベクトル系列Xの集合である。VQ符号帳CCLは、特徴ベクトル系列XCLに対応した複数のコードベクトルを定義する符号帳である。また、分類区間長Tは、対象クラスタCLnに分類された発音区間PAの時間長の総和である。ステップSA4の段階ではステップSA2で選択した発音区間PAのみが対象クラスタCLnに分類されているから、当該発音区間PAの特徴ベクトル系列XおよびVQ符号帳Cが対象クラスタCLnの特徴ベクトル系列XCLおよびVQ符号帳CCLに選定され、当該発音区間PAの時間長が分類区間長Tに選定される。
以上の手順で新規なクラスタ情報CINF[n]を作成すると、分類処理部22は、現段階で何れのクラスタにも分類されていない発音区間PAのなかから時間長が最長であるひとつの発音区間PAを選択する(ステップSA5)。次いで、VQクロス歪算定部16は、ステップSA5で選択した発音区間PA(以下では特に「選択区間PA」という)について記憶装置30に格納された特徴ベクトル系列XおよびVQ符号帳Cと、クラスタ情報CINF[n]の特徴ベクトル系列XCLおよびVQ符号帳CCLとに基づいて、第1実施形態と同様の方法でVQクロス歪DCを算定する(ステップSA6)。
VQクロス歪DCは、選択区間PAの音声信号Vを音声信号VAとし、対象クラスタCLnに分類された各発音区間PAの音声信号Vを音声信号VBとすることで第1実施形態と同様に算定される。さらに詳述すると、VQクロス歪算定部16の第1算定部161は、選択区間PAのVQ符号帳Cと対象クラスタCLnの特徴ベクトル系列XCLとのVQ歪DAB、対象クラスタCLnのVQ符号帳CCLと選択区間PAの特徴ベクトル系列XCLとのVQ歪DBA、選択区間PAのVQ符号帳Cと当該選択区間PAの特徴ベクトル系列XとのVQ歪DAA、および、対象クラスタCLnのVQ符号帳CCLと当該対象クラスタCLnの特徴ベクトル系列XCLとのVQ歪DBBを前述の式(1)〜式(4)で算定する。また、第2算定部162は、VQ歪DABとVQ歪DBAとVQ歪DAAとVQ歪DBBとを式(5)に代入することで、選択区間PA内の音声信号V(VA)と対象クラスタCLnに分類された各発音区間PAの音声信号V(VB)との類否の指標となるVQクロス歪DCを算定する。
次いで、分類処理部22は、対象クラスタCLnのクラスタ情報CINF[n]内の分類区間長Tに応じて閾値Dthを設定する(ステップSA7)。なお、閾値Dthの設定については後述する。分類処理部22は、ステップSA6にて算定したVQクロス歪DCが閾値Dthを下回るか否かを判定する(ステップSA8)。ステップSA8の結果が肯定である場合(すなわち、対象クラスタCLnに分類された発音区間PAの音声信号Vと選択区間PA内の音声信号Vとが類似する場合)、分類処理部22は、選択区間PAを対象クラスタCLnに分類する(ステップSA9)。すなわち、分類処理部22は、選択区間PAの始点および終点の時刻と現段階のクラスタ番号nとを対応させて記憶装置30に格納する。図4の部分(E2)には、発音区間PA5を対象クラスタCL1に分類した状態が例示されている。
さらに、分類処理部22は、対象クラスタCLnのクラスタ情報CINF[n]を選択区間PAの特徴ベクトル系列Xに基づいて更新する(ステップSA10)。すなわち、分類処理部22は、ステップSA10の直前におけるクラスタ情報CINF[n]の特徴ベクトル系列XCLに選択区間PAの特徴ベクトル系列Xの各特徴ベクトルxを追加する。また、分類処理部22は、追加後の特徴ベクトル系列XCLに対応した新たなVQ符号帳CCLを生成し、クラスタ情報CINF[n]のVQ符号帳CCLを新たなVQ符号帳CCLに更新する。さらに、分類処理部22は、クラスタ情報CINF[n]の分類区間長Tに今回の選択区間PAの時間長を加算する。
一方、VQクロス歪DCが閾値Dth以上である場合(すなわち、対象クラスタCLnに分類された発音区間PAの音声信号Vと選択区間PA内の音声信号Vとが類似しない場合)、分類処理部22は、ステップSA9およびステップSA10を経ずにステップSA11に処理を移行する。すなわち、対象クラスタCLnに分類された音声信号Vに音響的な特徴が類似しない発音区間PAは、当該対象クラスタCLnには分類されない。
ステップSA11において、分類処理部22は、未分類の総ての発音区間PAについてステップSA5からステップSA10までの処理を完了したか否かを判定する。ステップSA11の結果が否定である場合、分類処理部22は、未選択で最長の発音区間PAをステップSA5にて新たな選択区間PAとして選択したうえで、ステップSA6以降の処理を実行する。図4の部分(E3)には、2回目以降のステップSA9にて発音区間PA1を対象クラスタCL1に分類した状態が例示されている。以上のように、分類処理部22は、ひとつの対象クラスタCLnの指定中に、未分類の各発音区間PAを時間の長い順番で順次に選択区間PAとして選択し、選択区間PAが対象クラスタCLnに分類されるたびに、当該選択区間PAの特徴ベクトル系列Xに基づいて対象クラスタCLnのクラスタ情報CINF[n]を更新する。
ところで、対象クラスタCLnのクラスタ情報CINF[n]の分類区間長Tが長いほど(すなわち、対象クラスタCLnの特徴ベクトル系列XCLを構成する特徴ベクトルxが多いほど)、当該クラスタ情報CINF[n]のVQ符号帳CCLの信頼性が高まるから、対象クラスタCLnに分類された各発音区間PAの音声信号Vと選択区間PA内の音声信号Vとが類似の場合と非類似の場合とでVQクロス歪DCの相違は拡大する。そこで、分類処理部22は、ステップSA7において、分類区間長Tが長いほど閾値Dthを大きい数値に設定する。以上の構成によれば、分類区間長Tが長く確保されるほど、特定の発声者による発声音の特性(音高や音量)が変化した場合であってもステップSA8にて類似(YES)と判定できる可能性が高まる。したがって、発音区間PAの分類の漏れ(本来ならば対象クラスタCLnに分類されるべき発音区間PAが分類されない状態)を防止することが可能である。
ステップSA11において未分類の総ての発音区間PAの処理が完了したと判定すると、分類処理部22は、クラスタ番号nに「1」を加算する(ステップSA12)。すなわち、未分類の総ての発音区間PAについてステップSA5からステップSA11までの処理を完了するたびに新たな対象クラスタCLnが順次に指定される。
次に、分類処理部22は、ステップSA12における加算後のクラスタ番号nが、ステップSA0にて取得した話者数Mを上回るか否かを判定する(ステップSA13)。ステップSA13の結果が否定である場合、分類処理部22は、ステップSA12における更新後のクラスタ番号nについてステップSA2以降の処理を実行することで各発音区間PAを新たな対象クラスタCLnに分類する。
例えば、ステップSA12で新たな対象クラスタCL2が選択された直後のステップSA3においては、図4の部分(E4)のように未分類で最長の発音区間PA2が対象クラスタCL2に分類される。そして、直後のステップSA4においてはクラスタ情報CINF[2]が記憶装置30に生成される。すなわち、新規な対象クラスタCLnが指定されるたびに、図6のように新規なクラスタ情報CINF[n]が順次に記憶装置30に生成される。また、図4の部分(E5)には、対象クラスタCL2の指定中のステップSA9にて発音区間PA3を当該対象クラスタCL2に分類した状態が例示されている。
一方、ステップSA13の結果が肯定である場合(すなわち発音区間PAが話者数Mのクラスタに分類された場合)、分類処理部22は処理をステップSA14に移行する。ステップSA14において、分類処理部22は、未だ何れのクラスタにも分類されていない発音区間PA(以下では特に「未分類区間PA」という)を、既存のM個のクラスタCL1〜CLMのうち未分類区間PAの音声信号Vに最も類似する音声信号Vが分類されたクラスタCLに分類する未分類区間処理を実行する。以下では図7を参照して未分類区間処理の具体的な内容を説明する。
未分類区間処理を開始すると、分類処理部22は、未分類区間PAが存在するか否かを判定する(ステップSB1)。ステップSB1の結果が肯定である場合、VQクロス歪算定部16は、M個のクラスタCL1〜CLMの各々について、当該クラスタCLの特徴ベクトル系列XCLおよびVQ符号帳CCLと未分類区間PAの特徴ベクトル系列XおよびVQ符号帳Cとに基づいて第1実施形態と同様の手順でVQクロス歪DCを算定する(ステップSB2)。次いで、分類処理部22は、ステップSB2にて算定したM個のVQクロス歪DCのなかから最小値Dminを選定し(ステップSB3)、最小値Dminが閾値THを下回るか否かを判定する(ステップSB4)。閾値THは、ステップSA7で設定される閾値Dthよりも大きい数値に設定される。
ステップSB4の結果が肯定である場合(類似)、分類処理部22は、VQクロス歪DCが最小値DminとなったクラスタCLに未分類区間PAを分類する(ステップSB5)。一方、ステップSB4の結果が否定である場合、分類処理部22はステップSB5を実行しない。すなわち、未分類区間PAは何れのクラスタCL1〜CLMにも分類されず、非発音区間PBと同等に処理される。ステップSB2からステップSB5の処理は総ての未分類区間PAについて反復される。分類処理部22は、総ての未分類区間PAについて処理が完了した段階(ステップSB1:NO)で未分類区間処理を終了する。
以上に説明したように、本形態においては、対象クラスタCLnに分類された各発音区間PAの音声信号Vと選択区間PAの音声信号Vとの類否の判定にVQクロス歪DCが使用されるから、複数の発音区間PAを高い精度で発声者毎に分類することが可能である。したがって、音声信号Vから正確な議事録を作成することができる。
さらに、未分類の発音区間PAが時間の長い順番で選択区間PAとして順次に選択され、対象クラスタCLnに分類された選択区間PAがクラスタ情報CINF[n]の更新に使用される。時間長が長い発音区間PAほど特徴ベクトル系列X内の特徴ベクトルxの総数が多いから、例えば未分類の発音区間PAを時間の短い順番や時系列の順番に選択区間PAとして選択する構成と比較して迅速に、クラスタ情報CINF[n]のVQ符号帳CCLを、多数の特徴ベクトルxを反映した信頼性の高いVQ符号帳CCL(すなわち各発声者の実際の発声音の特性を忠実に反映した符号帳)に更新することが可能である。また、ステップSA4におけるクラスタ情報CINF[n]の新規作成には、未分類で最長の発音区間PAが使用されるから、例えば時間長が最短の発音区間PAや時間的に最先の発音区間PAがクラスタ情報CINF[n]の作成に使用される構成と比較して、ステップSA4で新規に作成されるVQ符号帳CCLの信頼性も高い。以上のように分類の早期の段階でVQ符号帳CCLの信頼性が確保されるから、本形態によれば各発音区間PAを高精度に分類できるという利点がある。
また、本形態においては、発音区間PAの分類数が話者数Mに到達した段階で分類が終了するから、発音区間PAを現実の発声者の総数に分類することが容易である。さらに、分類の終了時における未分類区間PAは、音響的な特性が最も類似するクラスタCLに分類されるから、例えば未分類区間PAを破棄する構成(ステップSA14を省略した構成)と比較して、発音区間PAの分類の漏れが有効に抑制される。会議の議事録においては発言の欠落(記載漏れ)が特に重大な問題となり得るから、未分類区間処理による以上の効果は格別に有効である。
なお、本形態においては、分類区間長Tが長いほど閾値Dthを大きい数値に設定することで分類漏れを防止する場合を例示したが、類否の判定の厳格化を優先させるべき場合には閾値Dthを分類区間長Tに対して以上の例示とは逆方向に変化させてもよい。すなわち、分類区間長Tが長いほど分類処理部22が閾値Dthを減少させる構成によれば、別人の音声が類似すると誤判定される可能性を低減することが可能である。なお、対象クラスタCLnに分類された発音区間PA内の特徴ベクトルxの総数や当該発音区間PA内のフレームの総数を分類区間長Tとして利用してもよい。
<C:第3実施形態>
次に、本発明の第3実施形態について説明する。第2実施形態においては、発音区間PAの分類数(クラスタ数)が話者数Mに到達した段階で分類を終了する構成を例示した。これに対し、本形態においては、K個の発音区間PAの総てが何れかのクラスタCLに分類されるまで発音区間PAの分類が継続される。
図8は、分類処理部22の動作を示すフローチャートである。同図に示すように、ステップSA0からステップSA12までの処理は第2実施形態と同様である。ステップSA12に続いて、分類処理部22は、全部(K個)の発音区間PAを分類し終えたか否かを判定する(ステップSA15)。ステップSA15の結果が否定である場合、分類処理部22は、直前のステップSA12にて新たに指定した対象クラスタCLnについてステップSA2以降の処理を実行する。すなわち、総ての発音区間PAが何れかのクラスタCLに分類されるまでステップSA2からステップSA12の処理が反復される。したがって、最終的な分類数(クラスタ数)Nは話者数Mを上回る可能性がある。
ステップSA15の結果が肯定である場合、分類処理部22は、現段階における分類数NがステップSA0にて特定された話者数Mを上回るか否かを判定する(ステップSA16)。ステップSA16の結果が否定である場合(すなわち発音区間PAが話者数Mのクラスタに分類された場合)、分類処理部22は図8の処理を終了する。一方、ステップSA16の結果が肯定である場合、分類処理部22は、分類数Nが話者数M以下となるまで複数のクラスタを順次に併合する(ステップSA17およびステップSA18)。
ステップSA17において、分類処理部22は、N個のなかから2個のクラスタCLを選択する全通り(N2通り)の組合せについてVQクロス歪DCを算定する。すなわち、ひとつのクラスタCLのクラスタ情報CINF内の特徴ベクトル系列XCLおよびVQ符号帳CCLと、別のクラスタCLのクラスタ情報CINF内の特徴ベクトル系列XCLおよびVQ符号帳CCLとから第1実施形態と同様の手順でVQクロス歪DCが算定される。
ステップSA18において、分類処理部22は、N2通りの組合せのうちVQクロス歪DCが最小となる組合せに属する2個のクラスタCLを併合したうえで分類数Nから「1」を減算する。さらに詳述すると、分類処理部22は、VQクロス歪DCが最小となる2個のクラスタCLの各々の特徴ベクトル系列XCLの集合である新たな特徴ベクトル系列XCLと、新たな特徴ベクトル系列XCLに対応したVQ符号帳CCLをクラスタ情報CINFに格納する。以上に説明したクラスタCLの併合が反復されることでステップSA16の結果が否定に変化する。本形態においても第2実施形態と同様の効果が奏される。
<D:第4実施形態>
図9は、本発明の第4実施形態に係る音声処理装置101のVQクロス歪算定部16および分類処理部22の動作を示すフローチャートである。音声区分部12がK個の発音区間PAを画定し、特徴抽出部14が各発音区間Pについて特徴ベクトル系列XおよびVQ符号帳Cを生成して記憶装置30に格納すると、第2実施形態における図5の処理の代わりに図9の処理が実行される。K個の発音区間PAの各々には固有の識別子(番号)が付与される。
図9に示すように、分類処理部22は、K個の発音区間PAのなかからひとつの発音区間PA(以下では特に「選択区間PA」という)を選択する(ステップSC1)。VQクロス歪算定部16は、選択区間PAと選択区間PA以外の総て((K−1)個)の発音区間PA(以下では選択区間PAと区別するために特に「対比区間PA」と表記する場合がある)の各々とのVQクロス歪DCを算定する(ステップSC2)。
VQクロス歪DCは、選択区間PA内の音声信号Vを音声信号VAとし、対比区間PA内の音声信号Vを音声信号VBとすることで第1実施形態と同様の手順で算定される。さらに詳述すると、VQクロス歪算定部16の第1算定部161は、(K−1)個の対比区間PAの各々について、選択区間PAのVQ符号帳Cと対比区間PAの特徴ベクトル系列XとのVQ歪DAB、対比区間PAのVQ符号帳Cと選択区間PAの特徴ベクトル系列XとのVQ歪DBA、選択区間PAのVQ符号帳Cと当該選択区間PAの特徴ベクトル系列XとのVQ歪DAA、および、対比区間PAのVQ符号帳Cと当該対比区間PAの特徴ベクトル系列XとのVQ歪DBBを式(1)〜式(4)で算定する。また、第2算定部162は、VQ歪DABとVQ歪DBAとVQ歪DAAとVQ歪DBBとを式(5)に代入することで、選択区間PA内の音声信号V(VA)と対比区間PA内の音声信号V(VB)との類否の指標となるVQクロス歪DCを算定する。
次いで、分類処理部22は、(K−1)個の対比区間PAの各々の識別子を、選択区間PAとのVQクロス歪DCが小さい順番(すなわち類似度が高い順番)にソートする(ステップSC3)。例えば、識別子「1」の選択区間PAに対して識別子「13」の対比区間PAのVQクロス歪DCが最小値であって識別子「16」の対比区間PAのVQクロス歪DCが最大値であるとすれば、図10に示すように、識別子「1」の選択区間PAについては識別子「13」が最上位で識別子「16」が最下位となるように(K−1)個の識別子が配列される。
ステップSC4において、分類処理部22は、K個の発音区間PAについてステップSC1からステップSC3の処理を完了したか否かを判定する。ステップSC4の結果が否定である場合、分類処理部22は、現段階とは別の発音区間PAを新たな選択区間PAとして選択したうえで(ステップSC1)、(K−1)個の対比区間PAの各々に対するVQクロス歪DCの算定(ステップSC2)と各対比区間PAの識別子の並べ替え(ステップSC3)とを実行する。したがって、ステップSC4の結果が肯定となる段階では、K個の発音区間PAのなかから2個の発音区間PA(選択区間PAと対比区間PA)を選択する総ての組合せの各々についてVQクロス歪DCが算定される。そして、図10に示すように、K個(図10ではK=16)の発音区間PAの各々について、他の(K−1)個の発音区間PAの識別子をVQクロス歪DCの昇順に配列したテーブル(以下「類似度マップ」という)MPが完成する。
類似度マップMPを作成すると、分類処理部22は、K個の発音区間PAの各々と当該発音区間PAに対するVQクロス歪DCが最小となる発音区間PAとが同じクラスタCLに属するように、類似度マップMPを参照してK個の発音区間PAを複数のクラスタCLに分類する(ステップSC5)。すなわち、分類処理部22は、ひとつの発音区間PAと、類似度マップMPにて当該発音区間PAに対して最上位に位置する識別子の発音区間PAとを同じクラスタCLに含ませる。例えば、図10に例示した類似度マップMPにおいて、識別子「1」の発音区間PAに対しては識別子「13」が最上位に位置し、識別子「9」の発音区間PAに対しては識別子「13」が最上位に位置し、識別子「13」の発音区間PAに対しては識別子「9」が最上位に位置する。したがって、分類処理部22は、識別子「1」,「9」および「13」の3個の発音区間PAを同じクラスタCL1に分類する。同様に、識別子「2」,「3」,「4」および「14」の4個の発音区間PAはクラスタCL2に分類され、識別子「5」および「10」の2個の発音区間PAはクラスタCL3に分類される。
ところで、ステップSC5においては各発音区間PAに対するVQクロス歪DCが最小となる発音区間PAを同じクラスタCLに分類するから、例えばひとりの発声者がひとつの発音区間PAのみで発声した場合であっても、当該発音区間PAは、VQクロス歪DCが最小となる他の発音区間PA(別の発声者の発音区間PA)と同じクラスタCLに分類される。そこで、分類処理部22は、K個の発音区間PAのうち自身以外の(K−1)個の発音区間PAに対する類似度が所定値を下回る順位にある発音区間PA(他の発音区間PAとのVQクロス歪DCが大きい発音区間PA)については、ステップSC5にて分類されたクラスタCLから除外して単独でひとつのクラスタCLに分類する(ステップSC6)。
例えば、図10の場合において、識別子「16」の発音区間PAに対しては識別子「12」が最上位にある(すなわち、(K−1)個の発音区間PAのなかでは識別子「12」の発音区間PAの音声信号Vに最も類似する)から、ステップSC5の段階では識別子「16」の発音区間PAは識別子「12」の発音区間PAと同じクラスタCL4に分類される。しかし、識別子「16」は、他の総ての識別子「1」〜「15」の発音区間PAに対して類似度マップMの最下位に設定されている。すなわち、識別子「16」の発音区間PA内の音声信号Vは、他の何れの発音区間PAの音声信号Vにも類似しない。したがって、分類処理部22は、識別子「16」の発音区間PAを、ステップSC5にて分類されたクラスタCL4から除外して独立のクラスタCL6に分類する。以上の構成によれば、特定の発声者が発生した唯一の発音区間PA(識別子「16」)を他の発声者のクラスタCLと混合することなく適切に分類することが可能である。
VQクロス歪DCを固定の閾値と比較することで音声信号Vの類否を判定する場合、音声信号Vの収録時の環境(例えば発声長やS/N比といった音響的な条件)によっては類否を正確に判定できない場合がある。これに対して本形態においては、VQクロス歪DCが最小となる各発音区間PAが同じクラスタCLに分類されるから、VQクロス歪DCと所定の閾値との比較は不要である。したがって、音声信号Vの収録時の環境に拘わらず各発音区間PAの音声信号Vを発声者毎に正確に分類することが可能となり、会議における各発言が参加者毎に適切に区別された議事録を作成することができる。
また、各発音区間PAとのVQクロス歪DCが最小となる発音区間PAが特定されるだけではなく、各発音区間PAに対する類似度の順位を示す類似度マップMPが作成される。したがって、他の発音区間PAに対する類似度の順位が下位にある発音区間PA(例えば図10の識別子「16」の発音区間PA)を図9のステップSC6にてクラスタCLから除外するといった具合に、類似度マップMPを参照することで各発音区間PAの分類の精度を高めることが可能となる。なお、図9のステップSC5に先立ってステップSC6を実行してもよい。
<E:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
第2実施形態から第4実施形態においては、VQクロス歪DCに基づいて複数の発音区間PAを複数のクラスタCLに分類したが、VQクロス歪DCを利用する音声処理は発音区間PAの分類に限定されない。例えば、以下に例示するように話者照合や話者識別にVQクロス歪DCを利用してもよい。
[A:話者照合]
記憶装置30は、正規の利用者が事前に入力した音声信号V(以下「登録音声信号」という)の特徴ベクトル系列XとVQ符号帳Cとを記憶する。音声処理の対象となる音声信号(以下「対象音声信号」という)が収音機器(図示略)から入力されると、制御装置10は、対象音声信号から特徴ベクトル系列XとVQ符号帳Cとを生成し、登録音声信号の特徴ベクトル系列XおよびVQ符号帳Cと対象音声信号の特徴ベクトル系列XおよびVQ符号帳CとからVQクロス歪DCを算定する。制御装置10は、VQクロス歪DCが閾値Dth(固定値または可変値)を下回る場合には対象音声信号の入力者を正規の利用者と判定する一方、VQクロス歪DCが閾値Dthを上回る場合には対象音声信号の入力者を詐称者と判定する。
[B:話者識別]
記憶装置30は、音声信号Vの特徴ベクトル系列XおよびVQ符号帳Cを識別子に対応させた話者情報を複数の利用者の各々について記憶する。制御装置10は、収音機器に入力された対象音声信号から特徴ベクトル系列XとVQ符号帳Cとを生成し、複数の話者情報の各々について、当該話者情報の特徴ベクトル系列XおよびVQ符号帳Cと対象音声信号の特徴ベクトル系列XおよびVQ符号帳CとからVQクロス歪DCを算定する。制御装置10は、VQクロス歪DCが最小となる話者情報を特定し、当該話者情報に含まれる識別子を画像や音声として出力する。
(2)変形例2
式(5)においては、VQ歪DABからVQ歪DAAを減算した数値(DAB−DAA)とVQ歪DBAからVQ歪DBBを減算した数値(DBA−DBB)との加算に基づいてVQクロス歪DCを算定したが、VQクロス歪DCの算定の方法は適宜に変更される。例えば、以下の式(6)に示すように、VQ歪DABをVQ歪DAAで除算した数値(DAB/DAA)とVQ歪DBAをVQ歪DBBで除算した数値(DBA/DBB)との加算に基づいて第2算定部162がVQクロス歪DCを算定する構成も好適である。
Figure 2009053430

すなわち、VQ歪DABまたはVQ歪DBAが大きいほどVQクロス歪DCが増加し、VQ歪DAAまたはVQ歪DBBが大きいほどVQクロス歪DCが減少するように、VQ歪DABとVQ歪DBAとVQ歪DAAとVQ歪DBBとに基づいてVQクロス歪DCを算定する構成が好適である。
(3)変形例3
第2実施形態から第4実施形態においては、複数の発音区間PAの分類前に総ての発音区間PAについて特徴ベクトル系列XとVQ符号帳Cとを生成したが、発音区間PAの分類時に特徴ベクトル系列XとVQ符号帳Cとが順次に生成される構成も好適である。例えば、図5のステップSA2やステップSA5にて発音区間PAを選択するたびに当該発音区間PAの特徴ベクトル系列XとVQ符号帳Cとが生成される。したがって、総ての発音区間PAの特徴ベクトル系列XとVQ符号帳Cとが同時に記憶装置30に格納されている必要はない。
(4)変形例4
第2実施形態や第3実施形態においては分類区間長Tに応じて閾値Dthを制御したが、閾値Dthを決定する基準となる数値は分類区間長Tに限定されない。例えば、音声信号VのS/N比に基づいて閾値Dthを制御する構成も採用される。すなわち、分類処理部22は、ステップSA5にて選択した選択区間PAの音声信号VからS/N比を算定し、S/N比が低いほど閾値Dthを大きい数値に設定する。音声信号Vの特徴ベクトルxは雑音の影響を受けるから、閾値Dthが固定であるとすれば、音声信号VのS/N比が低いほど、実際には類似する音声信号VがステップSA8にて非類似と誤判定される可能性が高い。S/N比に応じて閾値Dthを可変に制御する構成によれば、S/N比に起因した誤判定の可能性が低減されるという利点がある。
(5)変形例5
音声信号Vの区分には、以上の例示の他にも公知の技術が任意に採用される。例えば、S/N比や音量と閾値との大小のみに応じて音声信号Vを発音区間PAと非発音区間PBとに区分する構成(音声区分部12が第1処理のみを実行する構成)も採用される。また、発音区間PAと非発音区間PBとを区別する必要は必ずしもない。例えば、包絡線Eの谷部Dのみを境界として音声信号Vを複数の区間に区分する構成(音声区分部12が第2処理のみを実行する構成)も採用される。
(6)変形例6
以上の各形態においては記憶装置30に予め記憶された音声信号Vを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Vや通信網を経由して順次に供給される音声信号Vを対象として実時間的に処理を実行してもよい。
(7)変形例7
音声信号Vが表す音の種類は人間の発声音に限定されない。例えば、複数種の楽器が順次に演奏されたときの演奏音を採取した音声信号Vを音声処理装置による処理の対象とすれば、各楽器の演奏音の区間を楽器の種類毎に複数のクラスタに分類することが可能となる。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 第1実施形態の効果を説明するための概念図である。 本発明の第2実施形態に係る音声処理装置の構成を示すブロック図である。 音声区分部および分類処理部の動作の具体例を説明するための概念図である。 分類処理部の動作を示すフローチャートである。 クラスタ情報の内容を説明するための概念図である。 未分類区間処理の内容を示すフローチャートである。 本発明の第3実施形態における分類処理部の動作を示すフローチャートである。 本発明の第4実施形態における分類処理部の動作を示すフローチャートである。 類似度マップの内容を示す概念図である。
符号の説明
100,101……音声処理装置、10……制御装置、12……音声区分部、14……特徴抽出部、16……VQクロス歪算定部、161……第1算定部、162……第2算定部、22……分類処理部、24……音声認識部、30……記憶装置、42……入力装置、44……出力装置、V……音声信号、PA(PA1,PA2,…)……発音区間、CINF[n]……クラスタ情報、CL(CL1,CL2,…)……クラスタ、X(XA,XB)……特徴ベクトル系列、C(CA,CB)……VQ符号帳、DC……VQクロス歪、T……分類区間長。

Claims (6)

  1. 第1音声信号と第2音声信号との類否の指標となるVQクロス歪を算定する装置であって、
    前記第1音声信号および前記第2音声信号の各々について特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
    前記第1音声信号のVQ符号帳と前記第2音声信号の特徴ベクトル系列との第1VQ歪、前記第2音声信号のVQ符号帳と前記第1音声信号の特徴ベクトル系列との第2VQ歪、前記第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪、および、前記第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、
    前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段と
    を具備する音声処理装置。
  2. 前記第2算定手段は、前記第1VQ歪から前記第3VQ歪を減算した数値と前記第2VQ歪から前記第4VQ歪を減算した数値との加算に基づいてVQクロス歪を算定する
    請求項1の音声処理装置。
  3. 前記第2算定手段は、前記第1VQ歪を前記第3VQ歪で除算した数値と前記第2VQ歪を前記第4VQ歪で除算した数値との加算に基づいてVQクロス歪を算定する
    請求項1の音声処理装置。
  4. 音声信号を時間軸上で可変長に区分した複数の区間を複数のクラスタに分類する装置であって、
    前記複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
    前記複数の区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、
    前記対象クラスタに分類された区間の特徴ベクトル系列とVQ符号帳とを含むクラスタ情報を生成するクラスタ情報生成手段と、
    前記対象クラスタの指定中に未分類の前記各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、
    前記選択区間のVQ符号帳と前記対象クラスタの特徴ベクトル系列との第1VQ歪、前記対象クラスタのVQ符号帳と前記選択区間の特徴ベクトル系列との第2VQ歪、前記選択区間のVQ符号帳と当該選択区間の特徴ベクトル系列との第3VQ歪、および、前記対象クラスタのVQ符号帳と当該対象クラスタの特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、
    前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいて、前記選択区間と前記対象クラスタとのVQクロス歪を算定する第2算定手段と、
    前記選択区間と前記対象クラスタとの前記VQクロス歪が閾値を下回る場合に当該選択区間を当該対象クラスタに分類する区間分類手段と、
    前記選択区間と前記対象クラスタとの前記VQクロス歪が閾値を下回る場合に、前記選択区間の特徴ベクトル系列に基づいて前記対象クラスタのクラスタ情報を更新する更新手段と
    を具備する音声処理装置。
  5. 音声信号を時間軸上で区分した複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したVQ符号帳とを記憶する記憶手段と、
    前記複数の区間のなかから第1区間と第2区間とを選択する複数の組合せの各々について、前記第1区間のVQ符号帳と前記第2区間の特徴ベクトル系列との第1VQ歪、前記第2区間のVQ符号帳と前記第1区間の特徴ベクトル系列との第2VQ歪、前記第1区間のVQ符号帳と当該第1区間の特徴ベクトル系列との第3VQ歪、および、前記第2区間のVQ符号帳と当該第2区間の特徴ベクトル系列との第4VQ歪を算定する第1算定手段と、
    前記複数の組合せの各々について前記第1区間と前記第2区間とにおける音声信号の類否の指標となるVQクロス歪を算定する手段であって、前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいてVQクロス歪を算定する第2算定手段と、
    前記複数の区間の各々と当該区間に対するVQクロス歪が最も小さい区間とが同じクラスタに属するように前記複数の区間を複数のクラスタに分類する区間分類手段と
    を具備する音声処理装置。
  6. 第1音声信号のVQ符号帳と第2音声信号の特徴ベクトル系列との第1VQ歪、前記第2音声信号のVQ符号帳と前記第1音声信号の特徴ベクトル系列との第2VQ歪、前記第1音声信号のVQ符号帳と当該第1音声信号の特徴ベクトル系列との第3VQ歪、および、前記第2音声信号のVQ符号帳と当該第2音声信号の特徴ベクトル系列との第4VQ歪を算定する第1算定処理と、
    前記第1VQ歪または前記第2VQ歪が大きいほどVQクロス歪が大きく、前記第3VQ歪または前記第4VQ歪が大きいほどVQクロス歪が小さくなるように、前記第1VQ歪と前記第2VQ歪と前記第3VQ歪と前記第4VQ歪とに基づいてVQクロス歪を算定する第2算定処理と
    をコンピュータに実行させるプログラム。
JP2007219929A 2007-08-27 2007-08-27 音声処理装置およびプログラム Expired - Fee Related JP4967928B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007219929A JP4967928B2 (ja) 2007-08-27 2007-08-27 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007219929A JP4967928B2 (ja) 2007-08-27 2007-08-27 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009053430A true JP2009053430A (ja) 2009-03-12
JP4967928B2 JP4967928B2 (ja) 2012-07-04

Family

ID=40504568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007219929A Expired - Fee Related JP4967928B2 (ja) 2007-08-27 2007-08-27 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4967928B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095210A (ja) * 2018-12-14 2020-06-18 コニカミノルタ株式会社 議事録出力装置および議事録出力装置の制御プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248791A (ja) * 1994-03-11 1995-09-26 N T T Data Tsushin Kk 話者照合方法及び装置
JPH08123475A (ja) * 1994-10-28 1996-05-17 N T T Data Tsushin Kk 話者照合方法及び装置
JPH08286692A (ja) * 1995-04-12 1996-11-01 N T T Data Tsushin Kk 話者照合方法および装置
JPH1185182A (ja) * 1997-09-16 1999-03-30 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009020458A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248791A (ja) * 1994-03-11 1995-09-26 N T T Data Tsushin Kk 話者照合方法及び装置
JPH08123475A (ja) * 1994-10-28 1996-05-17 N T T Data Tsushin Kk 話者照合方法及び装置
JPH08286692A (ja) * 1995-04-12 1996-11-01 N T T Data Tsushin Kk 話者照合方法および装置
JPH1185182A (ja) * 1997-09-16 1999-03-30 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009020458A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095210A (ja) * 2018-12-14 2020-06-18 コニカミノルタ株式会社 議事録出力装置および議事録出力装置の制御プログラム
JP7259307B2 (ja) 2018-12-14 2023-04-18 コニカミノルタ株式会社 議事録出力装置および議事録出力装置の制御プログラム

Also Published As

Publication number Publication date
JP4967928B2 (ja) 2012-07-04

Similar Documents

Publication Publication Date Title
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US9536523B2 (en) Method and system for identification of speech segments
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP6501259B2 (ja) 音声処理装置及び音声処理方法
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
JP4973352B2 (ja) 音声処理装置およびプログラム
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP5050698B2 (ja) 音声処理装置およびプログラム
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP5083951B2 (ja) 音声処理装置およびプログラム
JP6056394B2 (ja) 音声処理装置
JP4967928B2 (ja) 音声処理装置およびプログラム
JP4877114B2 (ja) 音声処理装置およびプログラム
Sanchis et al. Improving utterance verification using a smoothed naive bayes model
JP2022067223A (ja) 生成装置および生成方法
JP2002516419A (ja) 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置
JP4877112B2 (ja) 音声処理装置およびプログラム
JP4349415B2 (ja) 音信号処理装置およびプログラム
JPH04273298A (ja) 音声認識装置
JP5272141B2 (ja) 音声処理装置およびプログラム
JP2010145784A (ja) 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees