JPH11212588A

JPH11212588A - 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH11212588A
Application number: JP10010129A
Authority: JP
Inventors: Toshihiro Kujirai; 俊宏鯨井; Akio Amano; 明雄天野; Toshiyuki Odaka; 俊之小高; Nobuo Hataoka; 信夫畑岡; Toshiyuki Matsuda; 俊幸松田; Hitoshi Sato; 均佐藤; Ryujiro Muramatsu; 隆二郎村松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-01-22
Filing date: 1998-01-22
Publication date: 1999-08-06

Abstract

(57)【要約】【課題】発声の内容にかかわらず、環境の影響を補償
し、安定した音声認識、話者照合、話者認証を可能にす
ることにある。【解決手段】特徴量ベクトル列を、区間平均パワーと
区間平均パワーの微分値とによってクラスタリングし、
クラスタごとに環境の差を推定し、補正を行う。【効果】発声の内容や、使用環境によらず、安定して
音声認識装置などの性能を発揮させることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識や話者照
合、話者認証などの機能を有する音声処理装置におい
て、環境の変動によらず安定した性能を引き出すための
補償方法の改良に関するものである。

【０００２】

【従来の技術】従来、音声認識や話者認証、話者照合で
はマイクや音声情報の伝送路の特性などの環境の差によ
る装置の性能の劣化を押さえる手法として、標準パター
ンを構成する特徴量ベクトルの平均値と、認識に際して
入力された特徴量ベクトルの時間平均値の差を、環境の
差とみなして、前記入力された特徴量ベクトルから差し
引くことで、環境の差を補償し、性能を向上させる手法
が用いられてきた。

【０００３】例えば、ジャーナルオブアコースティッ
クソサイエティインアメリカ５５（Journal of Aco
ustic Society in America 55)の1304-1312ページに掲
載されている論文、エフェクティブネスオブリニア
ープリディクションキャラクタリスティクスオブザ
スピーチウェーブフォーオートマティックスピー
カーアイデンティフィケーションアンドベリフィケ
ーション(Effectiveness of linear prediction charac
teristics of the speech wave for automaticspeaker
identification and verification)では、一定の時間分
の特徴量ベクトルの平均を求め、この平均値の標準パタ
ーンの特徴量ベクトルの平均の差を差し引くことで、話
者照合および話者認証の精度を向上させている。

【０００４】

【発明が解決しようとする課題】前記の特徴量ベクトル
の平均の差を、入力された特徴量ベクトルから差し引く
ことで、環境の差を補償する手法では、特徴量ベクトル
の平均の差が、環境の差を表現しているという仮定に基
づいているが、実際には標準パターンを構成するために
使用された音声信号と、装置の使用時に入力される音声
信号の発声内容が異なるため、平均値の差は環境の差だ
けはなく、発声内容の差も反映されてしまい、補償の効
果が安定して得られない。

【０００５】本発明の目的は、発声の内容によらず環境
の差を精度よく推定することで、音声認識や話者照合、
話者認証などの機能を有する高性能な音声処理装置を提
供することにある。

【０００６】

【課題を解決するための手段】上記目的を解決するため
に、本願発明では、入力された音声信号を表現する特徴
量ベクトル列をベクトル列ごとに規定される大局的な特
徴量によってクラスタリングを行い、クラスタごとに、
音声が発声された環境を表現する特徴量ベクトルを推定
し、この環境を表現する特徴量ベクトルと、あらかじめ
記憶された標準パターンが作成された環境を表現する、
前記のクラスタごとの特徴量ベクトルを比較し、環境の
差違を前記特徴量ベクトル列各々に対し、クラスタごと
に補正を行う。

【０００７】クラスタリングは、例えば、入力された音
声信号を表現する特徴量ベクトル列をベクトル列ごとの
区間平均パワーまたは、区間平均パワーの微分値、また
は区間平均パワーおよび区間平均パワーの微分値の何れ
かの情報によって行う。

【０００８】そして、クラスタごとに補正された特徴量
ベクトル列と、あらかじめ記憶された複数の標準パター
ンを照合し尤度を計算し、前記尤度に基づいて尤もらし
い候補を選択して出力する。

【０００９】また、クラスタごとに補正された特徴量ベ
クトル列と、あらかじめ記憶された特定の話者の標準パ
ターンを照合し尤度を計算し、前記尤度があらかじめ決
められたしきい値を超えた場合に発声者を前記標準パタ
ーンで特徴づけられる個人であると認証する。

【００１０】

【発明の実施の形態】本発明の実施例について、以下、
図面を参照して説明する。

【００１１】図１は、本発明の一実施例を表す図であ
る。

【００１２】この音声信号補正装置は、環境推定部１０
５と環境補正部１０６から構成されており、環境推定部
はさらにクラスタリング手段１０１と、平均算出部１０
２から構成され、環境補正部は補正ベクトル算出部１０
３と、補正ベクトル減算部１０４から構成される。

【００１３】環境推定部１０５は、時系列で入力される
特徴量ベクトル列各々に対して、クラスタリング手段１
０１と、平均算出部１０２を用いて、発声が行われた環
境を表現する環境特徴量ベクトル９０２を算出するもの
である。環境補正部１０６は、補正ベクトル算出部１０
３と補正ベクトル減算部１０４とを用いて、入力された
特徴量ベクトル列各々から環境の差違を取り除き補正特
徴量９０３を算出するものである。クラスタリング手段
１０１は、入力された特徴量ベクトル列各々を、区間平
均パワーと区間平均パワーの微分値によってクラスタリ
ングするものである。

【００１４】平均算出部１０２は、クラスタリングされ
た特徴量ベクトルに対して時間的な平均を算出するもの
である。補正ベクトル算出部は、前記平均算出部で求め
られた平均値と、あらかじめ記憶されている標準パター
ンの環境を表す平均値とを比較し、その差を環境補正ベ
クトルとして求めるものである。補正ベクトル減算部１
０４は、入力された特徴量ベクトル列各々から、前記補
正ベクトルを差し引いて、環境の差を排除した補正特徴
量９０３を算出するものである。

【００１５】次に図１の実施例の動作について説明す
る。

【００１６】入力される特徴量ベクトル列は、音声信号
を適当な手段によって分析した結果であり、区間平均パ
ワーと区間平均パワーの微分値の情報も含んでいる必要
がある。分析手段としては、例えばＮＴＴアドバンステ
クノロジ株式会社発行の「音声認識の基礎（上）」（以
下文献１とする）の１３９ページに記されているよう
な、ＬＰＣケプストラム（Linear Predictive Coding C
epstrum）を用いることができる。

【００１７】特徴量ベクトル列はクラスタリング手段１
０１によって、区間平均パワーと区間平均パワーの微分
値等によってクラスタリングされ、平均算出部１０２の
うち、対応するクラスタのユニットに振り分けられる。
特徴量ベクトル列をクラスタリングする理由は次の通り
である。例えば、母音などは相対パワーが大きく、摩擦
音などは相対パワーが小さい。また子音から母音への渡
りの部分は区間平均パワーの微分値が正になり、母音か
ら子音への渡りの部分は区間平均パワーの微分値が負に
なる。これらは発声内容には依存しないので、発声内容
によらず、相対パワーが大きい区間は母音等と、相対パ
ワーが低い区間は摩擦音等と推定することができる。同
様に、発声内容によらず、区間平均パワーの微分値が変
化する部分では、変化前は母音／子音であり、変化後は
子音／母音であると推定することができる。したがっ
て、相対パワーが大きい／小さい区間、区間平均パワー
の微分値が変化する部分等の情報に基づき特徴量ベクト
ルをクラスタリングすることによって、発声内容にかか
わらず、特徴量ベクトル列と標準パターンとの間の対応
付けを行うことができる。

【００１８】平均算出部１０２は、各クラスタに割り当
てられたユニットごとに、特徴量ベクトルの時間的な平
均を算出し、入力された特徴量ベクトルに対する環境特
徴量ベクトル９０２として出力する。

【００１９】補正ベクトル算出部１０３は、前記平均算
出部によって求められた環境特徴量ベクトル９０２と、
あらかじめ記憶された標準パターンの環境特徴量ベクト
ルの差を算出し、補正ベクトルとして出力する。標準パ
ターンの環境特徴量ベクトルとしては、標準パターンを
作成した音声信号を、環境推定部１０５に入力したとき
の出力を用いることができる。

【００２０】補正ベクトル減算部１０４は、入力された
特徴量ベクトル列から前記補正ベクトルを減じ、補正特
徴量９０３として出力する。

【００２１】クラスタリングされた特徴量ベクトルは、
同じクラスタに分類された標準パターンと同じような傾
向を持つため、標準パターンと比較する際、発声の内容
による偏向が相殺され、環境差を正確に推定することが
できる。

【００２２】このように、環境の差違の補正をベクトル
列ごとに適切に行うことで、発声内容に関わらず、安定
した補償が行える。

【００２３】また図５のように、クラスタリング手段１
０１によって選択された補正ベクトルだけではなく、す
べての補正ベクトルの平均もしくは、クラスタが選択さ
れた回数による重み付き平均を用いて、補償を行うこと
もできる。

【００２４】図２は、本発明の一実施例を表したもので
ある。

【００２５】この音声認識装置は、音声分析部２０１
と、環境推定部１０５と、環境補正部１０６と標準パタ
ーン記憶部２０２と、照合部２０３から構成される。

【００２６】音声分析部２０１は、入力された音声信号
を特徴分析し、特徴量ベクトル列９０１に変換するもの
である。環境推定部１０５および、環境補正部１０６
は、図１で説明したものと同様のものである。標準パタ
ーン記憶部２０２は、発声の標準パターンを記憶してお
くものである。照合部２０３は、環境補正部１０６から
出力された補正特徴量９０３と、標準パターン記憶部２
０２からの出力９０４を比較し尤度を算出し、前記尤度
に基づいて標準パターンの中から尤もらしいものを出力
するものである。

【００２７】次に図２の実施例の動作について説明す
る。

【００２８】音声分析部２０１は、入力された音声信号
を特徴分析し、時系列の特徴量ベクトル列９０１に変換
する。このための手段としては、前記ＬＰＣケプストラ
ムなどを用いることができる。

【００２９】環境推定部１０５および環境補正部１０６
は、図１で説明したものと同様の動作を行い、特徴量ベ
クトル列９０１と、標準パターンの環境特徴量ベクトル
から補正特徴量９０３を出力する。

【００３０】標準パターン記憶部２０２は、発声に対す
る標準的なパターンを記憶しておき、環境補正部１０６
に対しては標準パターンの環境特徴量ベクトルを、照合
部２０３に対しては標準パターン９０４を出力する。標
準パターンの環境特徴量ベクトルとしては、環境推定部
１０５に標準パターンを作成した音声信号を入力したと
きの出力を用いることができる。標準パターンは、発声
の標準パターンを単位ごとに記憶したものであり、この
単位標準パターンを結合することで任意の発声の標準パ
ターン９０４を生成する。単位標準パターンとしては、
例えば電子情報通信学会論文集Ｖｏｌ．７３−Ｄ−Ｉ
Ｉ、Ｎｏ．１０の１６１９ページにあるような音素片を
用いることができ、その表現手段としては、例えばＮ
ＴＴアドバンヅテクノロジ株式会社発行の「音声認識の
基礎（下）」（以下文献２と呼ぶ）の６章にある、ＨＭ
Ｍ(Hidden Markov Models)を用いることができる。

【００３１】照合部２０３は、前記補正特徴量９０３と
複数の標準パターン９０４との間の尤度を、ベクトル列
ごとに求め累積し、発声の終了時に尤度の最も高い標準
パターンを、発声された内容として出力する。尤度の算
出方法としては、前記ＨＭＭによる方法などを用いるこ
とができる。

【００３２】このように、環境の差を発話内容によら
ず、精度よく補正することで、音声認識機能を有する音
声処理装置の認識性能を安定して向上させることができ
る。

【００３３】図３は、本発明の一実施例を表したもので
ある。

【００３４】この話者認識装置は、音声分析部２０１
と、環境推定部１０５と、環境補正部１０６と標準パタ
ーン記憶部３０１と、照合部２０３から構成される。音
声分析部２０１は、入力された音声信号を特徴分析し、
特徴量ベクトル列９０１に変換するものである。環境推
定部１０５および、環境補正部１０６は、図１で説明し
たものと同様のものである。標準パターン記憶部３０１
は、複数の話者の標準パターンを記憶しておくものであ
る。照合部２０３は、環境補正部１０６から出力された
補正特徴量９０３と、標準パターン記憶部３０１からの
出力９０４を比較し尤度を算出し、前記尤度に基づいて
標準パターンの中から尤もらしいものを出力するもので
ある。

【００３５】次に図３の実施例の動作について説明す
る。

【００３６】音声分析部２０１は、入力された音声信号
を特徴分析し、時系列の特徴量ベクトル列９０１に変換
する。このための手段としては、前記ＬＰＣケプストラ
ムなどを用いることができる。

【００３７】環境推定部１０５および環境補正部１０６
は、図１で説明したものと同様の動作を行い、特徴量ベ
クトル列９０１と、標準パターンの環境特徴量ベクトル
から補正特徴量９０３を出力する。

【００３８】標準パターン記憶部３０１は、複数の話者
に対する標準的なパターンを記憶しておき、環境補正部
１０６に対しては標準パターンの環境特徴量ベクトル
を、照合部２０３に対しては標準パターン９０４を出力
する。標準パターンの環境特徴量ベクトルとしては、環
境推定部１０５に標準パターンを作成した音声信号を入
力したときの出力を用いることができる。標準パターン
９０４は、複数の話者の標準パターンを記憶したもので
あり、その表現手段としては、例えば文献２の６章にあ
る、ＨＭＭを用いることができる。

【００３９】照合部２０３は、前記補正特徴量９０３と
複数の話者の標準パターン９０４との間の尤度を、ベク
トル列ごとに求め累積し、発声の終了時に尤度の最も高
い標準パターンを、発声を行った話者として出力する。
尤度の算出方法としては、前記ＨＭＭによる方法などを
用いることができる。

【００４０】このように、環境の差を発話内容によら
ず、精度よく補正することで、話者認識機能を有する音
声処理装置の認識性能を安定して向上させることができ
る。

【００４１】図４は、本発明の一実施例を表したもので
ある。

【００４２】この話者照合装置は、音声分析部２０１
と、環境推定部１０５と、環境補正部１０６と標準パタ
ーン記憶部４０１と、照合部２０３と判定部４０２から
構成される。

【００４３】音声分析部２０１は、入力された音声信号
を特徴分析し、特徴量ベクトル列９０１に変換するもの
である。環境推定部１０５および、環境補正部１０６
は、図１で説明したものと同様のものである。標準パタ
ーン記憶部４０１は、特定の話者の発声の標準パターン
を記憶しておくものである。照合部２０３は、環境補正
部１０６から出力された補正特徴量９０３と、標準パタ
ーン記憶部４０１からの出力９０４を比較し尤度を算出
するものである。判定部４０２は、前記尤度があらかじ
め決められたしきい値を超えた場合に、発声者が標準パ
ターンで示される個人であることを出力し、しきい値を
超えない場合は発声者を標準パターンで示される個人で
あると認めないことを出力するものである。

【００４４】次に図４の実施例の動作について説明す
る。

【００４５】音声分析部２０１は、入力された音声信号
を特徴分析し、時系列の特徴量ベクトル列９０１に変換
する。このための手段としては、前記ＬＰＣケプストラ
ムなどを用いることができる。

【００４６】環境推定部１０５および環境補正部１０６
は、図１で説明したものと同様の動作を行い、特徴量ベ
クトル列９０１と、標準パターンの環境特徴量ベクトル
から補正特徴量９０３を出力する。

【００４７】標準パターン記憶部４０１は、特定の話者
の発声に対する標準的なパターンを記憶しておき、環境
補正部１０６に対しては標準パターンの環境特徴量ベク
トルを、照合部２０３に対しては標準パターン９０４を
出力する。標準パターンの環境特徴量ベクトルとして
は、環境推定部１０５に標準パターンを作成した音声信
号を入力したときの出力を用いることができる。標準パ
ターンは、特定の話者の発声の標準パターンを記憶した
ものであり、その表現手段としては、例えば文献２の６
章にある、ＨＭＭを用いることができる。

【００４８】照合部２０３は、前記補正特徴量９０３と
複数の標準パターン９０４との間の尤度を、ベクトル列
ごとに求め累積し、発声の終了時に尤度の累積値を出力
する。尤度の算出方法としては、前記ＨＭＭによる方法
などを用いることができる。

【００４９】判定部４０２は、前記照合部２０３の出力
である累積尤度が、あらかじめ決められたしきい値を超
えた場合に、発声者が標準パターンで示される個人であ
ることを出力し、しきい値を超えない場合は発声者を標
準パターンで示される個人であると認めないことを出力
する。

【００５０】このように、環境の差を発話内容によら
ず、精度よく補正することで、話者照合機能を有する音
声処理装置の認識性能を安定して向上させることができ
る。

【００５１】

【発明の効果】以上のように、本発明によれば、入力音
声が発声された環境を表現する特徴量ベクトルを発声内
容によらず精度よく推定し、これを用いて環境の差を補
正することで環境や発声内容によらず、安定した音声認
識や話者認識、話者照合を実現することができる。

【図面の簡単な説明】

【図１】環境推定部・補正部の一実施例。

【図２】環境推定部・補正部を持つ音声認識装置の一実
施例。

【図３】環境推定部・補正部を持つ話者認識装置の一実
施例。

【図４】環境推定部・補正部を持つ話者照合装置の一実
施例。

【図５】環境推定部・補正部の一実施例。

【符号の説明】

１０１…クラスタリング手段、１０２…平均算出部、１
０３…補正ベクトル算出部、１０４…補正ベクトル減算
部、１０５…環境推定部、１０６…環境補正部、２０１
…音声分析部、２０２…標準パターン記憶部、２０３…
照合部、３０１…標準パターン記憶部、４０１…標準パ
ターン記憶部、５０１…平均補正ベクトル減算部、９０
１…特徴量ベクトル列、９０２…環境特徴量ベクトル、
９０３…補正特徴量、９０４…標準パターン。

───────────────────────────────────────────────────── フロントページの続き (72)発明者畑岡信夫東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者松田俊幸神奈川県横浜市戸塚区戸塚町216番地株式会社日立製作所情報通信事業部内 (72)発明者佐藤均神奈川県横浜市戸塚区戸塚町216番地株式会社日立製作所情報通信事業部内 (72)発明者村松隆二郎神奈川県横浜市戸塚区戸塚町216番地株式会社日立製作所情報通信事業部内

Claims

【特許請求の範囲】

【請求項１】入力された音声信号を表現する特徴量ベク
トル列をベクトル列ごとに規定される特徴量によってク
ラスタリングを行う手段と、該クラスタごとに前記音声
信号が発生された環境を表現する特徴量ベクトルを推定
する手段とを有する環境推定部と、前記環境推定部によって推定された音声信号が発生され
た環境を表現する特徴量ベクトルと、予め記憶された、
該特徴量ベクトルの推定された前記クラスタに対応する
標準パターンの作成された環境を表現する特徴量ベクト
ルとを比較し、両特徴ベクトルが表現する環境の差を補
正する手段を有する環境補正部とを有することを特徴と
する音声処理装置。
【請求項２】前記クラスタリングを行う手段は、前記入
力された音声信号を表現する特徴量ベクトル列をベクト
ル列ごとの区間平均パワー、区間平均パワーの微分値、
または区間平均パワーおよび区間平均パワーの微分値の
何れかの情報によってクラスタリングを行うことを特徴
とする請求項１記載の音声処理装置。
【請求項３】前記環境補正部により、前記入力された音
声信号を表現する特徴量ベクトル列に対して、前記環境
の差が補正された特徴量ベクトル列と、前記予め記憶さ
れた複数の標準パターンとを照合し尤度を計算し、前記
尤度に基づいて尤もらしい候補を選択して出力する照合
部を有することを特徴とする請求項２記載の音声処理装
置。
【請求項４】前記入力された音声信号を特徴量ベクトル
列に変換する音声分析部を有することを特徴とする請求
項３記載の音声処理装置。
【請求項５】前記尤度が所定のしきい値を超えた場合に
発声者を前記標準パターンで特徴づけられる個人である
と認証する判定部を有することを特徴とする請求項３又
は請求項４の何れかに記載の音声処理装置。
【請求項６】入力された音声信号を表現する特徴量ベク
トル列をベクトル列ごとに規定される特徴量によってク
ラスタリングを行い、該クラスタごとに前記音声信号が
発生された環境を表現する特徴量ベクトルを推定し、前
記推定された音声信号が発生された環境を表現する特徴
量ベクトルと、予め記憶された、該特徴量ベクトルの推
定された前記クラスタに対応する標準パターンの作成さ
れた環境を表現する特徴量ベクトルとを比較し、両特徴
ベクトルが表現する環境の差を補正することを特徴とす
る音声処理方法。
【請求項７】入力された音声信号を表現する特徴量ベク
トル列をベクトル列ごとに規定される特徴量によってク
ラスタリングを行う手順と、該クラスタごとに前記音声信号が発生された環境を表現
する特徴量ベクトルを推定する手順と、前記推定された音声信号が発生された環境を表現する特
徴量ベクトルと、予め記憶された、該特徴量ベクトルの
推定された前記クラスタに対応する標準パターンの作成
された環境を表現する特徴量ベクトルとを比較し、両特
徴ベクトルが表現する環境の差を補正する手順と、をコ
ンピュータに実行させるプログラムを記録したコンピュ
ータ読み取り可能な記録媒体。