JPH0119596B2

JPH0119596B2 -

Info

Publication number: JPH0119596B2
Application number: JP56047485A
Authority: JP
Inventors: Juji Kijima
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-03-31
Filing date: 1981-03-31
Publication date: 1989-04-12
Also published as: JPS57161899A

Description

【発明の詳細な説明】本発明は音声認識処理装置に関し、特に、多数
単語の認識において認識対象単語に依存せず、事
前登録時における話者の学習負担を軽くすること
を可能にした音声認識処理装置に関する。

従来の話者音声特徴の学習方式としては、次の
ようなものが考えられている。

(1) 認識すべき全ての単語をまえもつて発声し、
これらを登録しておく方法。

(2) 単語を構成する部分要素、例えば音節・
VCV（母音−子音−母音の列）等を単独発声し
て登録しておく方法。

(3) 特定の単語群を発声し、それらのデータを部
分要素ごとに分解し記憶しておく方法。

これらの問題点を考えると、 (1)については認識すべき単語の種類が多くなる
と登録時の話者の負担が大きくなり、 (2)については単語中の部分要素の特徴と単独発
声された部分要素の特徴が異なる為、高い認識率
が得難く、 (3)については単語音声を自動的に部分要素に分
解する方法が必要となるが、これは一般に難かし
い。(3)の問題点に対する対策として、登録単語の
標準的なパターン（各部分要素の区切りは既知）
を用意し、発声されたデータとのマツチングをと
ることにより、対応する区切りを見つける方法も
あるが、これにより得られた部分要素のデータは
(2)の方法で得られるものよりはよいが、まだ、認
識時における融通性に乏しい。

本発明の目的は単語音声中の各サンプル時刻に
おける音の種類（音種）を限定し、単語を構成す
る各部分要素をこれらの音種の番号の時系列で表
現し、標準的な特徴を持つ音種の時系列として表
現された登録用単語のデータと登録話者によつて
発声された単語音声データとのマツチング情報を
用いて各音種に対応する登録話者の発声音データ
を収集し、これらのデータをもとに、各音種の特
徴を登録話者に適したものに修正することにより
登録時の話者の負担を軽減し、話者に柔軟に対処
できる音声認識処理装置を提供するものにある。

そしてそのために、本発明は、(i)単語音声の各
サンプル時刻における特徴ベクトルを分類し、代
表的な音の種類として決められた複数の音種の
各々に対して付けられた音種番号、(ii)各音種の標
準的特徴ベクトルと、(iii)学習単語群の各単語につ
いて上記音種番号の時系列として表現された１個
またはそれ以上の第１の標準パターンと、(iv)単語
音声を何らかの部分要素に分割した場合に、認識
対象単語群に現われるすべての当該部分要素の
各々を上記音種番号の時系列として表現した１個
またはそれ以上の第２の標準パターンとを有する
音声認識処理装置において、登録用として発声さ
れた学習単語群中の単語音声と、当該単語に相当
する上記第１の標準パターンとの間でマツチング
処理を行ない、各音種番号に対応する単位時間分
またはそれ以上の期間において登録話者音声から
得られた特徴ベクトルデータをもとに各音種番号
に対応する音種の個人用標準特徴ベクトルを計算
することにより、話者音声の個人特性を学習処理
することを特徴とする。

以下、本発明を図面により説明する。

第１図は本発明による実施例の音声認識処理装
置のブロツク図であり、図中、１は全単語セツト
保持部、２は発声データ収集処理部、３は標準音
種セツト保持部、４は分割処理部、５は音種番号
系列保持部、６は学習単語セツト保持部、７は発
声データ収集処理部、８は音種番号系列保持部、
９は登録話者発生データ収集処理部、１０はマツ
チング処理部、１１は個人用標準特徴ベクトル決
定処理部、１２は認識対象単語セツト保持部、１
３は分割処理部、１４は音種番号系列表現処理
部、１５は人力音声特徴ベクトル系列作成処理
部、１６はマツチング処理部である。

図示実施例の動作は以下の通りである。

まず、単語音声の部分要素としてVcV（母音−
子音−母音の列）を選ぶ。

そして、全てのVcVを含む単語群を決定し、
これを全単語セツト保持部１に保持しておく。

次に、全単語セツト保持部１に保持されている
１人または複数人の発声データを発声データ収集
処理部２により収集する。なお、この話者は後の
登録話者と同一人である必要はなく、ある程度多
数の話者のデータを収集する方がよい。しかる
後、標準音種セツト保持部３がこれらのデータか
ら標準的な音種を決定し、保持する。

一方、全単語セツト保持部１内の全てのデータ
は分割処理部４においてVcVに分割され、各々
のVcVは音種番号系列保持部５により音種番号
の系列で表現され保持される。

この時、同じVcVが複数個あれば、それに応
じて複数個の音種番号系列が作成されるようにさ
れている。また、別に、学習単語セツト（全単語
セツトの一部でよい）が決定され、学習単語セツ
ト保持部６に保持されている。そして学習単語セ
ツトに含まれる全ての発声データが発声データ収
集処理部７により収集され、該収集された発声デ
ータは音種番号系列保持部８により音種番号の系
列で表現された上保持される。

この時、同じ単語について複数の発声データが
あれば、その単語に対して、複数の音種番号系列
が作成される。

次に、登録話者による学習単語の発声動作時に
おいては、登録話者発生データ収集処理部９がこ
の発声データを収集し、マツチング処理部１０へ
送出し、登録話者によつて発声された学習単語の
発声データと、同一単語の音種番号系列との間で
のマツチング処理動作を実行させるようにする。
このマツチング処理においては、登録発声の各時
刻の特徴ベクトルと音種番号系列中の各音種番号
に相当する特徴ベクトルとの間の距離（または類
似度）をもとに、登録発声データと音種番号系列
との間の距離（または類似度）が計算される。

一般に、一つの学習単語に複数の音種番号系列
が存在するので一番よくマツチングのとれた系列
が選ばれ、その時の各音種番号に対応付けられた
登録発声データ中のベクトルを憶えておくように
されている。このようにして、全ての学習単語セ
ツトの発声が終了し、上記マツチング処理が終了
すると、個人用標準特徴ベクトル決定処理部１１
が起動され該処理部１１は音種番号ごとに対応付
けられた登録発声データ中の特徴ベクトルを集め
（一般に複数個ある）、これらから特徴毎の平均を
求めるか、あるいは代表的な特徴ベクトルを選ぶ
等の操作により、各音種番号に１つの個人用標準
特徴ベクトルを決定する。

なお、認識時には、各音種番号に相当する特徴
ベクトルはまえもつて定義されている標準的特徴
ベクトルのかわりにここで新たに決定された個人
用標準特徴ベクトルが用いられる。

以上の操作により、話者音声の個人性が学習さ
れる。

一方、認識対象単語セツトは、全単語セツトお
よび学習単語セツトとは無関係に決定でき、認識
対象単語セツト保持部１２に保持されている。そ
して認識対象単語セツトの各単語は分割処理１３
によりVcVに分割された上で音種番号系列表現
処理部１４へ送出される。

ここで、各VcVには、あらかじめ、一般的に
は複数の音種番号系列が対応している為、音種番
号系列表現処理部１４において１つの単語を音種
番号系列で表現するときは、それらの組み合わせ
として多数の系列が作成されることになる。

以上の処理過程の結果各認識対象単語について
複数の音種番号系列が作成され、存在することに
なる。

次に、入力音声の認識処理を行なう場合には、
入力音声をもとに入力音声特徴ベクトル系列作成
処理部１５にて入力音声の特徴ベクトル系列が作
成され、この特徴ベクトル系列と、上記した音種
番号系列表現処理部１４にて作成された音種番号
系列と、上記した個人用標準特徴ベクトル決定処
理部１１にて作成された個人用特徴ベクトルとが
マツチング処理部１６に入力される。そして、マ
ツチング処理部１６においてこれら各種情報をも
とにマツチング処理が行なわれ、最もよくマツチ
ングのとれた音種番号系列が求められ、これに対
応する単語が認識結果として出力される。

以上の如き操作により認識処理が行なわれる
が、認識対象単語の種類が多くなると、これらを
音種番号系列表現処理部１４で表現した音種番号
系列は厖大なものとなるので、分割処理部１３に
よるVcVへの分割の表現にとどめ、入力音声の
特徴ベクトル系列の先頭近辺と一番よくマツチン
グのとれるVcVを探し、さらにそれに続く部分
と一番よくマツチングのとれるVcVを探すとい
う手順を続けて入力音声をVcVの列に変換し、
それに近い認識対象単語を見つけるようにしても
よい。

次に、上記処理過程を、具体例をもとに図面に
より説明する。まず、全単語セツトの発声データ
から第２図図示の如く、音種を決定する。特徴は
音声のスペクトル概形とし、以下の説明では特徴
ベクトルのかわりにスペクトル図を用いる。な
お、音種番号の数としては、例えば、100〜200個
程度が選ばれる。第２図においては６個の音種の
みが図示されている。

また、全単語セツトVcV分割は、１例として
次のようになる。

WAKAYAMA→uWA、AKA、AYA、AMA、
Au NAGASAKI→ _uNA、AGA、ASA、AKI、I_u AKITA→ _uＡ、AKI、ITA、A_u そして、このように分割されたそれぞれの
VcVは第２図図示の音種番号の列で以下の如く
表現される。

uWA＝０・０・１・１・２・３・４・５・
５・５ AKA＝５・５・６・０・０・７・８・４・５・
５・５また、学習用単語も同様に、音種番号列で下記
の如く表現される。

この学習用語は全単語セツトの部分集合を使用
することができる。

次に、上記学習用語の音種番号列と、登録用発
声データの特徴ベクトル系列との間で、第３図図
示のようにマツチング処理が行なわれる。

第３図において、V₁，〜V₁₂…は登録話者のサ
ンプルデータであり、それぞれが第２図図示の音
種番号のいずれかに対応している。

なお、登録話者の個人的特徴により、一般に、
第３図図示のV₂〜V₄，V₈〜V₁₀の如く、一部の
個所で伸び縮みが存在する。

しかる後例えば、音種番号５に対応付けられた
特徴ベクトルを収集し、平均化する。第３図図示
の例えば、V₈〜V₁₂の平均化が行なわれる。第４
図は平均パターンの図である。このようにして得
られた平均パターンを音種番号５の個人用特徴ベ
クトルとして保持する。第５図は標準特徴パター
ンと個人用特徴パターンの差異の例を示す図であ
る。

一方、認識対象単語も下記の如く、VcVに分
割される。

AKASAKA→uA、AKA、ASA、AKA、Au そして、それぞれのVcVを音種番号列に変換
すると下記の如く表現される。

認識時においては、この系列を単語辞書として
使用し、未知入力に対してマツチング処理を行な
う。このとき、各音種番号の表わす特徴ベクトル
は、標準特徴ベクトルではなく、個入用特徴ベク
トルとなる。

以上説明したように、本発明は、単語音声中の
各サンプル時刻に現われる音の種類を限定し、全
ての単語がこれら音種の時系列で表現されるもの
として、標準的な特徴を持つた音種の時系列とし
て表現された登録用単語の標準パターンと登録発
声された音声データとのマツチングを行ない、各
音種に対応する登録話者の発声データをもとに、
音種の標準特徴を個人用に修正して、話者音声の
個人性を学習するようにしたものであり、このよ
うに話者音声特徴の学習に際し、種々の音韻の個
人性を学習することによつて個人の特徴を単語に
よらない発声の普遍的な特徴として捉えることが
可能となる。

これにより、認識対象単語に依存しない少数の
学習単語を発声するだけで容易に個人性の学習が
でき、認識対象単語の種類が増加しても話者の登
録時の負担は増加しない。

さらに、単語が部分要素の系列で表現され、各
部分要素が種々の音韻を表わす音種の系列で表現
されるという２段階の分割を行ない、この音種の
レベルで学習を行なうことにより少数の登録発声
データから多数の部分要素実現例を作成すること
ができ、これによつても、認識時の柔軟な対処を
保証しながら登録時の話者の負担を少なくでき
る。また、学習は認識対象単語に依存しない為、
認識対象単語セツトが変更されても再登録の必要
はない。

【図面の簡単な説明】

第１図は本発明による実施例の音声認識処理装
置のブロツク図、第２図は音種のスペクトル図の
例、第３図はマツチング処理を示す図、第４図は
平均パターンの図、第５図は標準特徴パターンと
個人用特徴パターンの差異の例を示す図である。図中、１は全単語セツト保持部、２は発声デー
タ収集処理部、３は標準音種セツト保持部、４は
分割処理部、５は音種番号系列保持部、６は学習
単語セツト保持部、７は発声データ収集処理部、
８は音種番号系列保持部、９は登録話者発生デー
タ収集処理部、１０はマツチング処理部、１１は
個人用標準特徴ベクトル決定処理部、１２は認識
対象単語セツト保持部、１３は分割処理部、１４
は音種番号系列表現処理部、１５は入力音声特徴
ベクトル系列作成処理部、１６はマツチング処理
部である。

Claims

【特許請求の範囲】１ (i)単語音声の各サンプル時刻における特徴ベ
クトルを分類し、代表的な音の種類として決めら
れた複数の音種の各々に対して付けられた音種番
号と、(ii)各音種の標準的特徴ベクトルと、(iii)学習
単語群の各単語について上記音種番号の時系列と
して表現された１個またはそれ以上の第１の標準
パターンと、(iv)単語音声を何らかの部分要素に分
割した場合に、認識対象単語群に現われるすべて
の当該部分要素の各々を上記音種番号の時系列と
して表現した１個またはそれ以上の第２の標準パ
ターンとを有する音声認識処理装置において、登
録用として発声された学習単語群中の単語音声
と、当該単語に相当する上記第１の標準パターン
との間でマツチング処理を行ない、各音種番号に
対応する単位時間分またはそれ以上の期間におい
て登録話者音声から得られた特徴ベクトルデータ
をもとに各音種番号に対応する音種の個人用標準
特徴ベクトルを計算することにより、話者音声の
個人特性を学習処理することを特徴とする音声認
識処理装置。２入力音声の特徴ベクトル系列と、上記個人用
標準特徴ベクトルと、上記第２の標準パターンと
の間でマツチング処理を行ない、当該入力音声に
関する単語認識結果を出力することを特徴とする
特許請求の範囲第１項記載の音声認識処理装置。