JP2002236494A

JP2002236494A - 音声区間判別装置、音声認識装置、プログラム及び記録媒体

Info

Publication number: JP2002236494A
Application number: JP2001034049A
Authority: JP
Inventors: Makoto Sakai; 誠坂井; Norihide Kitaoka; 教英北岡
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-02-09
Filing date: 2001-02-09
Publication date: 2002-08-23

Abstract

(57)【要約】【課題】複数話者が並行して発声することで各話者の
音声区間に重複が生じた場合であっても、各話者の音声
区間を適切に判別する。【解決手段】パターン記憶部１４に、特定の男性話者
の音声を識別するための男性モデル１４ａ、特定の女性
話者の音声を識別するための女性モデル１４ｂ、男性話
者と女性話者との混合音声を識別するための混合モデル
１４ｃ、無音区間を識別するための無音モデル１４ｄの
４つの統計モデル１４ａ〜１４ｄを記憶しておく。マッ
チング部１３は、統計モデル１４ａ〜１４ｄとして予め
作成された標準パターンと音響分析部１２から送られき
た音響特徴量との類似度計算し、この類似度に基づき、
フレーム判定部１５が、統計モデル１４ａ〜１４ｄの中
からフレーム毎に最も確からしいモデルを選択する。こ
の選択結果に基づいて、男性話者、女性話者のそれぞれ
の音声区間が、音声区間判別部１７によって判別され
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された音声を
認識する音声認識技術に関し、特に、入力音声信号中の
音声区間を適切に判別する技術に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】より正
確な音声認識を行うために、音声が入力された区間（以
下「音声区間」という。）を判別することは、極めて重
要である。従来、このような音声区間は、音声のパワー
やゼロクロスなどによる判定法を用いて判別していた。

【０００３】しかしながら、このような従来の判定法
は、話者が単一の場合を想定したものであり、実際に音
声認識を行う状況下では、複数の話者が並行して発声す
ることがあり得る。例えば、時系列に並んだ４つの時点
ｔ１，ｔ２，ｔ３，ｔ４がある場合、ある話者Ａが時点
ｔ１から時点ｔ３までの区間（以下、時点αから時点β
の区間を、区間［α，β］と記述する。）に発声し、別
の話者Ｂが区間［ｔ２，ｔ４］に発声するような場合が
考えられる。このとき、従来の手法で音声区間を判別し
ようとすると、区間［ｔ１，ｔ４］が音声区間と判断さ
れてしまうことになり、話者毎の音声区間を切り出すこ
とができない。

【０００４】なお、複数話者を対象にした音声認識技術
として、発話の交代を含むアルゴリズムについては、村
井則之，小林哲則：”ＭＬＬＲによる話者適応と統計的
発話交代モデルを用いた複数話者対話音声の認識”，信
学技報SP2000-14(2000-6) に研究成果が発表されてい
る。ただし、この技術も話者Ａと話者Ｂとが交互に発声
することを前提としたものであり、両者の音声区間が重
複する場合には適用できない。

【０００５】本発明は、上述した問題点を解決するため
になされたものであり、複数話者による発声により各話
者の音声区間に重複が生じた場合であっても、各話者の
音声区間を判別することを目的とし、より正確な音声認
識に寄与する。

【０００６】

【課題を解決するための手段及び発明の効果】本発明の
音声区間判別装置では、外部から入力された入力音声に
複数の話者の音声が混在し得るという前提の下、単一話
者の音声及び複数話者の混合音声に対応する標準パター
ンを用意した。例えば二人の話者Ａと話者Ｂの音声が混
在する可能性がある場合、話者Ａ，Ｂのそれぞれの音声
に対応する標準パターンと、話者Ａ，Ｂの混合音声に対
応する標準パターンとを用意する。三人の話者Ａ，Ｂ，
Ｃの音声が混在する場合には、その組み合わせを考えて
混合音声の標準パターンを用意する。全ての組み合わせ
を考えた場合には、話者Ａと話者Ｂとの混合音声に対応
する標準パターン、話者Ｂと話者Ｃとの混合音声に対応
する標準パターン、話者Ｃと話者Ａとの混合音声に対応
する標準パターン、及び話者Ａと話者Ｂと話者Ｃとの混
合音声に対応する標準パターンを用意することになる。
なお、ここでいう標準パターンは、話者を区別するため
のパターンであり、音声認識に用いられる標準パターン
とは異なる。

【０００７】そして、この標準パターンと音響分析手段
にて求められる所定周期毎の音響特徴量とのマッチング
を行い、いずれの標準パターンに類似しているかを所定
周期毎に判定して、各話者の音声区間を判別する。な
お、所定周期は、音声区間を適切な精度で切り出せる程
度の比較的短い周期とすればよい。

【０００８】つまり、話者毎の音声に対応する標準パタ
ーンを用意して話者を区別すると共に、話者の音声の組
み合わせに対応する標準パターンを用意することで、音
声区間の重複箇所を判断するのである。これによって、
各話者の音声区間に重複が生じた場合であっても、各話
者の音声区間を判別することができ、より正確な音声認
識に寄与できる。

【０００９】例えば、４つの時点ｔ１，ｔ２，ｔ３，ｔ
４が時系列に並んでいる場合、ある話者Ａが区間［ｔ
１，ｔ３］に発声し、別の話者Ｂが区間［ｔ２，ｔ４］
に発声したような場合、区間［ｔ１，ｔ２］は話者Ａの
音声区間、区間［ｔ２，ｔ３］は両方の話者Ａ，Ｂの音
声区間、区間［ｔ３，ｔ４］は話者Ｂの音声区間として
判定されることになり、話者Ａの音声区間を［ｔ１，ｔ
３］、話者Ｂの音声区間を［ｔ２，ｔ４］という具合
に、それぞれの音声区間を判別することができる。

【００１０】なお、上述した標準パターンは、統計モデ
ルとして予め作成されるものとすることが考えられる
（請求項２）。統計モデルの一例として、隠れマルコフ
モデルが挙げられる（請求項３）。このような統計モデ
ルは、特定の単語を話者に発声させ、その入力音声に基
づいて作成することができる。

【００１１】そして、複数話者の混合音声に対応する標
準パターンの統計モデルは、複数の話者の混合音声を基
に作成してもよいが、単一話者の音声に対応する標準パ
ターンの統計モデルを合成して作成するとよい（請求項
４）。例えば隠れマルコフモデルであれば、周知のＰＭ
Ｃ法を用いて合成するという具合である。これによって
混合音声に対応する統計モデルを簡単に作成できる。

【００１２】ところで、マッチング手段は、音声認識に
おけるパターンマッチングと同様の方法でマッチングを
行うものとすることが考えられる。例えば、所定周期毎
の尤度を算出するという具合である（請求項５）。尤度
には、いわゆる対数尤度を用いることが考えられる。さ
らに、音声区間がある程度連続した区間となることを考
えると、尤度の時間方向のばらつきを抑える意味で、判
定手段は、マッチング手段にて算出された尤度に対し時
間方向の移動平均処理であるスムージング処理を実行し
て、いずれの標準パターンに類似しているかを判定する
ようにするとよい（請求項６）。

【００１３】なお、標準パターン記憶手段には、さら
に、無音区間に対応する標準パターンを記憶しておくと
よい（請求項７）。音声区間と同様に無音区間を判断で
き、音声区間の判別精度が向上するためである。また、
複数の話者の音声が混在するだけでなく、例えば車両に
搭載される装置に本発明を適用する場合など、エンジン
音やオーディオ機器から出力される音といった話者周囲
の音が入力音声に混じることが考えられる。

【００１４】そこで、標準パターン記憶手段は、入力音
声に話者周囲の音である周囲音が混在し得る前提の下、
さらに、その周囲音及びその周囲音と話者音声との混合
音に対応する標準パターンを記憶する構成を採用するこ
とが考えられる（請求項８）。このようにすれば、話者
の音声以外の周囲音だけの区間を判断したり、音声とそ
れ以外の周囲音が混在する区間を判断したりでき、結果
的に音声区間の判別精度のさらなる向上が図られる。

【００１５】以上のようにして話者毎の音声区間が正確
に判別できれば、この音声区間を対象として音声認識を
行うことで認識精度を向上させることができる。本発明
は、上述した構成に加え、このような音声認識を行う音
声認識手段をさらに備えた音声認識装置の発明としても
実現できる。

【００１６】音声認識手段による認識手法は、従来と同
様、音声認識用の標準パターンとのマッチング処理を行
うことによって、最も近いと思われる認識対象語の推定
を行うものとすることが考えられる。このとき、音声認
識用の標準パターンも話者毎に用意しておくことが望ま
しい。認識精度の向上につながるからである。また、音
声認識手段が複数話者の音声のそれぞれについて音声認
識を行うことにより、並行して入力された各音声の認識
が可能になる。

【００１７】なお、このような音声区間判別装置や音声
認識装置をコンピュータシステムにて実現する機能は、
その一部をコンピュータ側で起動するプログラムとして
備えることができる。このようなプログラムの場合、例
えば、ＦＤ、ＭＯ、ＤＶＤ、ＣＤ−ＲＯＭ、ハードディ
スク等のコンピュータ読み取り可能な記録媒体に記録
し、必要に応じてコンピュータにロードして起動するこ
とにより用いることができる。この他、ＲＯＭやバック
アップＲＡＭをコンピュータ読み取り可能な記録媒体と
してプログラムを記録しておき、このＲＯＭあるいはバ
ックアップＲＡＭをコンピュータに組み込んで用いても
よい。

【００１８】

【発明の実施の形態】以下、本発明を具体化した実施例
を図面を参照して説明する。図１は、実施例の音声認識
装置１０の概略構成を示すブロック図である。本音声認
識装置１０は、マイクロフォン２０を介して入力された
音声を認識し、その認識結果を、アプリケーション用装
置としての対話制御部３０へ出力するものである。

【００１９】音声認識装置１０は、フィルタ処理などの
前処理を行う音響前処理部１１と、「音響分析手段」と
しての音響分析部１２と、「マッチング手段」としての
マッチング部１３と、「標準パターン記憶手段」として
のパターン記憶部１４と、「判定手段」としてのフレー
ム判定部１５と、「音声区間判別手段」としての音声区
間判別部１６と、「音声認識手段」としての音声認識部
１７と、認識結果出力部１８とを備えている。

【００２０】マイクロフォン２０を介して入力されたア
ナログ音声信号には、音響前処理部１１によって前処理
が施される。音響分析部１２は、音響前処理部１１にて
前処理されたアナログ音声信号を例えば１２ＫＨｚのサ
ンプリング周波数でデジタル信号に変換し、その変換し
た信号をオーバーラップさせながら所定の切り出し間隔
で順次所定の長さのフレーム毎に切り出す。そして、フ
レーム毎の入力音声信号に対してフーリエ変換を行なう
ことによって入力音声信号のスペクトラムを求め、さら
にスペクトラムの振幅の２乗を計算してパワースペクト
ラムを求める。そして、そのパワースペクトラムに対し
て逆フーリエ変換を施して自己相関係数を求め、この自
己相関係数を用いてＬＰＣ分析を行い、ＬＰＣ係数を計
算する。ＬＰＣ分析は音声信号処理の分野では一般的な
分析手法であり、例えば、古井「ディジタル音声処理」
（東海大学出版会）などに詳しく説明されている。そし
てさらに、ＬＰＣ係数を基に、フレーム毎のスペクトル
上の特徴パラメータとしてのＬＰＣケプストラム係数を
計算する。

【００２１】マッチング部１３は、統計モデル１４ａ，
１４ｂ，１４ｃ，１４ｄとして予め作成された標準パタ
ーン（特徴パラメータ系列）と、音響分析部１２から送
られきたＬＰＣケプストラム係数の時系列との間でフレ
ーム単位の類似度計算を行う。この類似度は、対数尤度
として算出される。対数尤度は、標準パターンとの一致
度合いを示すものであり、ＬＰＣケプストラム係数の時
系列が４つの統計モデル１４ａ〜１４ｄのいずれに類似
しているかを相対的に示す指標となる。

【００２２】なお、上述した統計モデル１４ａ〜１４ｄ
を記憶しているのがパターン記憶部１４である。パター
ン記憶部１４には、男性モデル１４ａ、女性モデル１４
ｂ、混合モデル１４ｃ、無音モデル１４ｄの４つの統計
モデル１４ａ〜１４ｄが記憶されている。これらの統計
モデル１４ａ〜１４ｄは、隠れマルコフモデル（ＨＭ
Ｍ）として実現されている。男性モデル１４ａは、音声
認識装置１０を利用しようとする男性話者に予め定めら
れた複数の単語を発声させ、その音声入力データから作
成すればよい。同様に、女性モデル１４ｂは、音声認識
装置１０を利用しようとする女性話者に予め定められた
複数の単語を発声させ、その音声入力データから作成す
ればよい。なお、「男性話者」及び「女性話者」は、特
定の人物を示すものとし、男性の話者あるいは女性の話
者を総称するものではない。そして、混合モデル１４ｃ
は、男性モデル１４ａと女性モデル１４ｂを合成して作
成する。この合成は周知のＰＭＣ法を用いて実現でき
る。無音モデル１４は、音声区間に対する無音区間を判
断するための標準パターンをモデル化したものである。

【００２３】すなわち、上述したマッチング部１３は、
入力音声信号に対する、男性モデル１４ａ、女性モデル
１４ｂ、混合モデル１４ｃ及び無音モデル１４ｄのそれ
ぞれの対数尤度を、フレーム毎に算出することになる。
フレーム判定部１５は、マッチング部１３にて算出され
た対数尤度のスムージング処理を実行し、その後、各フ
レームにおいて、４つの統計モデル１４ａ〜１４ｄの中
の最も確からしいモデルを「１」、それ以外のモデルを
「０」として、４つの統計モデル１４ａ〜１４ｄの中の
一つを選択していく。なお、スムージング処理は、時間
方向の移動平均処理である。

【００２４】音声区間判別部１６は、フレーム判定部１
５によるモデルの選択結果に基づいて、男性話者、女性
話者のそれぞれの音声区間を判別する。音声認識部１７
は、音声区間判別部１６にて判別された音声区間に基づ
いた音声認識を行う。ここでの音声認識は、従来より用
いられている手法で行えばよい。例えば、認識対象語彙
に対応した音声認識用の標準パターンを、上述したパタ
ーン記憶部１４に記憶しておき、この標準パターンとの
類似を判断することによって、類似度が高い上位所定数
の語彙（最も高い１つの語彙だけでもよい。）を認識結
果にするという具合である。そして、この認識結果は、
認識結果出力部１８によって、上述したように対話制御
部３０へ出力される。なお、音声認識用の標準パターン
は、男性話者、女性話者のそれぞれに対応させて用意す
ることが望ましい。

【００２５】このように４つの統計モデル１４ａ〜１４
ｄを用意することによって、男性話者、女性話者のそれ
ぞれの音声区間を、一連の入力音声信号の中で判別する
ことが、本音声認識装置１０の特徴部分である。この特
徴部分に対する理解を容易にするために、次にデータ処
理を具体的に説明する。

【００２６】図２は、入力音声信号の音声波形を概略的
に示した説明図である。入力音声信号は、区間［Ｔ０，
Ｔ５］で入力されており、区間［Ｔ１，Ｔ３］が男性話
者の音声区間、区間［Ｔ２，Ｔ４］が女性話者の音声区
間となっている。このような入力音声信号に対し時間的
に十分に小さなフレーム単位で、音響分析部１２にてＬ
ＰＣケプストラム係数が計算される。このフレームの周
期は、適切な話者識別が可能となるように適宜設定され
る。

【００２７】図３は、マッチング部１３にてフレーム単
位で算出された対数尤度を、入力音声信号に対応させて
示したものである。（ａ）は男性モデル１４ａとのマッ
チングによるものであり、（ｂ）は女性モデル１４ｂと
のマッチングによるものであり、同様に、（ｃ）は混合
モデル１４ｃ、（ｄ）は無音モデル１４ｄとのマッチン
グによるものである。

【００２８】このような対数尤度に対し、フレーム判定
部１５は、スムージング処理を行い、上述したように統
計モデル１４ａ〜１４ｄの中で最も確からしいモデルを
「１」、それ以外のモデルを「０」として、フレーム単
位でモデル選択を行う。この選択状態を示せば、図４に
示すように、区間［Ｓ１，Ｓ２］では男性モデル１４ａ
が選択され（「１」となり）、区間［Ｓ３，Ｓ４］では
混合モデル１４ｃが選択され、区間［Ｓ５，Ｓ６］では
女性モデル１４ｂが選択されるという具合になる。な
お、残りの区間は無音モデル１４ｄが選択される。

【００２９】フレーム判定部１５による選択結果から、
男性話者及び女性話者によるそれぞれの音声区間が連続
しているという前提に立てば、図４に示すように、音声
区間判別部１６は、区間［Ｓ１，Ｓ４］を男性話者の音
声区間として判別し、区間［Ｓ３，Ｓ６］を女性話者の
音声区間として判別する。これは図２に示した入力音声
信号の男性話者の音声区間［Ｔ１，Ｔ３］、女性話者の
音声区間［Ｔ２，Ｔ４］にほぼ一致したものになる。

【００３０】そして、音声認識部１７は、それぞれの音
声区間［Ｓ１，Ｓ４］、［Ｓ３，Ｓ６］を対象とした音
声認識を行うことにより、男性話者の発話語及び女性話
者の発話語をそれぞれ認識する。次に、本実施例の音声
認識装置１０の発揮する効果を説明する。

【００３１】本実施例の音声認識装置１０では、パター
ン記憶部１４に、男性モデル１４ａ、女性モデル１４
ｂ、混合モデル１４ｃ、無音モデル１４ｄの４つの統計
モデル１４ａ〜１４ｄを用意した。これは、話者毎の音
声に対応する標準パターンの統計モデル１４ａ，１４ｂ
を用意して話者を区別すると共に、話者の混合音声に対
応する標準パターンの統計モデル１４ｃを用意すること
で、音声区間の重複箇所を判断するためである。これに
よって、男性話者と女性話者の音声区間に重複が生じた
場合であっても、各話者の音声区間を判別することがで
き、より正確な音声認識に寄与できる。

【００３２】このとき、統計モデル１４ａ〜１４ｄの類
似度合いとしてマッチング部１３にてフレーム単位で算
出される対数尤度は、フレーム判定部１５によって、ス
ムージングされる。これによって対数尤度のばらつきを
抑えることができ、より適切な音声区間の判別が可能に
なる。

【００３３】また、本実施例では、統計モデル１４ａ〜
１４ｄを隠れマルコフモデルとして実現しており、混合
モデル１４ｃは、男性モデル１４ａと女性モデル１４ｂ
とをＰＭＣ法によって合成して作成した。これによっ
て、混合モデル１４ｃが簡単に作成され、結果的に、統
計モデル１４ａ〜１４ｄの作成時間の短縮が図られる。

【００３４】さらにまた、本実施例では、パターン記憶
部１４に、無音区間を識別するための標準パターンを無
音モデル１４ｄとして記憶している。これによって、無
音区間を判別でき、その結果として、音声区間の判別精
度が向上する。また、本実施例では、判別された音声区
間を対象にした音声認識を行うため、複数話者により並
行して入力された複数音声の認識が可能になる。

【００３５】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。上記実施例は男性
話者と女性話者の二人の話者を対象にした構成であった
が、三人以上の話者を対象にすることも同様にできる。
その場合、話者Ａ，話者Ｂ，話者Ｃのそれぞれの音声に
対応する３つの統計モデルと、話者ＡとＢ、話者Ｂと
Ｃ、話者ＣとＡ、話者ＡとＢとＣという４つの混合音声
に対応する統計モデルを用意すればよい。

【００３６】また、上記実施例の音声認識装置１０を、
例えば車両に搭載する場合、エンジン音やオーディオ機
器から出力される音といった話者周囲の音（周囲音）が
入力音声に混じることが考えられる。そこでさらに、話
者に対応させて統計モデルを追加する場合と同様に、例
えば周囲音に対応する統計モデルを追加することが考え
られる。つまり、この場合は、周囲音を識別するための
統計モデルと、話者音声と周囲音との混合音に対応する
統計モデルとを追加するのである。このようにすれば、
話者の音声以外の周囲音だけの区間を判断したり、音声
とそれ以外の周囲音が混在する区間を判断したりでき、
結果的に音声区間の判別精度のさらなる向上が図られ
る。

【図面の簡単な説明】

【図１】実施例の音声認識装置を機能ブロックで示す説
明図である。

【図２】具体例としての入力音声波形を示す説明図であ
る。

【図３】統計モデル毎に算出された対数尤度を示す説明
図である。

【図４】フレーム毎に統計モデルが選択された様子を示
す説明図である。

【符号の説明】１０…音声認識装置１１…音響前処理部１２…音響分析部１３…マッチング部１４…パターン記憶部１４ａ…男性モデル１４ｂ…女性モデル１４ｃ…混合モデル１４ｄ…無音モデル１５…フレーム判定部１６…音声区間判別部１７…音声認識部１８…認識結果出力部２０…マイクロフォン３０…対話制御部

Claims

【特許請求の範囲】

【請求項１】外部から入力された音声を所定周期で音響
的に分析し、当該分析結果を基に音響特徴量を求める音
響分析手段と、前記入力音声に複数の話者の音声が混在し得る前提の
下、単一話者の音声及び、複数話者の混合音声に対応す
る標準パターンを記憶する標準パターン記憶手段と、前記標準パターン記憶手段に記憶された標準パターン
と、前記音響分析手段にて求められた音響特徴量とのマ
ッチングを行うマッチング手段と、前記マッチング手段による処理結果に基づき、前記入力
音声がいずれの標準パターンに類似しているかを前記所
定周期毎に判定する判定手段と、前記判定手段による判定結果に基づき、前記各話者の音
声区間を判別する音声区間判別手段とを備えていること
を特徴とする音声区間判別装置。
【請求項２】請求項１に記載の音声区間判別装置におい
て、前記標準パターン記憶手段に記憶された標準パターン
は、統計モデルとして予め作成されたものであることを
特徴とする音声区間判別装置。
【請求項３】請求項２に記載の音声区間判別装置におい
て、前記統計モデルは、隠れマルコフモデルとして実現され
ていることを特徴とする音声区間判別装置。
【請求項４】請求項２又は３に記載の音声区間判別装置
において、前記複数話者の混合音声に対応する標準パターンの統計
モデルは、前記単一話者の音声に対応する標準パターン
の統計モデルを合成して作成したものであることを特徴
とする音声区間判別装置。
【請求項５】請求項１〜４のいずれかに記載の音声区間
判別装置において、前記マッチング手段は、前記所定周期毎に前記標準パタ
ーンの類似度合いを示す尤度を算出することを特徴とす
る音声区間判別装置。
【請求項６】請求項５に記載の音声区間判別装置におい
て、前記判定手段は、前記マッチング手段にて算出された尤
度に対し時間方向の移動平均処理であるスムージング処
理を実行して、いずれの標準パターンに類似しているか
を判定することを特徴とする音声区間判別装置。
【請求項７】請求項１〜６のいずれかに記載の音声区間
判別装置において、前記標準パターン記憶手段には、さらに、無音区間に対
応する標準パターンが記憶されていることを特徴とする
音声区間判別装置。
【請求項８】請求項１〜７のいずれかに記載の音声区間
判別装置において、前記標準パターン記憶手段は、前記入力音声に前記話者
周囲の音である周囲音が混在し得る前提の下、さらに、
前記周囲音及び前記周囲音と前記話者音声との混合音に
対応する標準パターンを記憶していることを特徴とする
音声区間判別装置。
【請求項９】請求項１〜８のいずれかに記載の音声区間
判別装置と、前記音声区間判別手段にて判別された音声区間を対象と
して、音声認識を行う音声認識手段とを備えていること
を特徴とする音声認識装置。
【請求項１０】請求項１〜８のいずれかに記載の音声区
間判別装置の前記音声分析手段、前記マッチング手段、
前記判定手段、及び前記音声区間判別手段としてコンピ
ュータを機能させるためのプログラム。
【請求項１１】請求項９に記載の音声認識装置の前記音
声分析手段、前記マッチング手段、前記判定手段、前記
音声区間判別手段、及び前記音声認識手段としてコンピ
ュータを機能させるためのプログラム。
【請求項１２】請求項１０又は１１に記載のプログラム
を記録したコンピュータ読み取り可能な記録媒体。