JPH0119596B2 - - Google Patents

Info

Publication number
JPH0119596B2
JPH0119596B2 JP56047485A JP4748581A JPH0119596B2 JP H0119596 B2 JPH0119596 B2 JP H0119596B2 JP 56047485 A JP56047485 A JP 56047485A JP 4748581 A JP4748581 A JP 4748581A JP H0119596 B2 JPH0119596 B2 JP H0119596B2
Authority
JP
Japan
Prior art keywords
word
standard
feature vector
learning
type number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56047485A
Other languages
English (en)
Other versions
JPS57161899A (en
Inventor
Juji Kijima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56047485A priority Critical patent/JPS57161899A/ja
Publication of JPS57161899A publication Critical patent/JPS57161899A/ja
Publication of JPH0119596B2 publication Critical patent/JPH0119596B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声認識処理装置に関し、特に、多数
単語の認識において認識対象単語に依存せず、事
前登録時における話者の学習負担を軽くすること
を可能にした音声認識処理装置に関する。
従来の話者音声特徴の学習方式としては、次の
ようなものが考えられている。
(1) 認識すべき全ての単語をまえもつて発声し、
これらを登録しておく方法。
(2) 単語を構成する部分要素、例えば音節・
VCV(母音−子音−母音の列)等を単独発声し
て登録しておく方法。
(3) 特定の単語群を発声し、それらのデータを部
分要素ごとに分解し記憶しておく方法。
これらの問題点を考えると、 (1)については認識すべき単語の種類が多くなる
と登録時の話者の負担が大きくなり、 (2)については単語中の部分要素の特徴と単独発
声された部分要素の特徴が異なる為、高い認識率
が得難く、 (3)については単語音声を自動的に部分要素に分
解する方法が必要となるが、これは一般に難かし
い。(3)の問題点に対する対策として、登録単語の
標準的なパターン(各部分要素の区切りは既知)
を用意し、発声されたデータとのマツチングをと
ることにより、対応する区切りを見つける方法も
あるが、これにより得られた部分要素のデータは
(2)の方法で得られるものよりはよいが、まだ、認
識時における融通性に乏しい。
本発明の目的は単語音声中の各サンプル時刻に
おける音の種類(音種)を限定し、単語を構成す
る各部分要素をこれらの音種の番号の時系列で表
現し、標準的な特徴を持つ音種の時系列として表
現された登録用単語のデータと登録話者によつて
発声された単語音声データとのマツチング情報を
用いて各音種に対応する登録話者の発声音データ
を収集し、これらのデータをもとに、各音種の特
徴を登録話者に適したものに修正することにより
登録時の話者の負担を軽減し、話者に柔軟に対処
できる音声認識処理装置を提供するものにある。
そしてそのために、本発明は、(i)単語音声の各
サンプル時刻における特徴ベクトルを分類し、代
表的な音の種類として決められた複数の音種の
各々に対して付けられた音種番号、(ii)各音種の標
準的特徴ベクトルと、(iii)学習単語群の各単語につ
いて上記音種番号の時系列として表現された1個
またはそれ以上の第1の標準パターンと、(iv)単語
音声を何らかの部分要素に分割した場合に、認識
対象単語群に現われるすべての当該部分要素の
各々を上記音種番号の時系列として表現した1個
またはそれ以上の第2の標準パターンとを有する
音声認識処理装置において、登録用として発声さ
れた学習単語群中の単語音声と、当該単語に相当
する上記第1の標準パターンとの間でマツチング
処理を行ない、各音種番号に対応する単位時間分
またはそれ以上の期間において登録話者音声から
得られた特徴ベクトルデータをもとに各音種番号
に対応する音種の個人用標準特徴ベクトルを計算
することにより、話者音声の個人特性を学習処理
することを特徴とする。
以下、本発明を図面により説明する。
第1図は本発明による実施例の音声認識処理装
置のブロツク図であり、図中、1は全単語セツト
保持部、2は発声データ収集処理部、3は標準音
種セツト保持部、4は分割処理部、5は音種番号
系列保持部、6は学習単語セツト保持部、7は発
声データ収集処理部、8は音種番号系列保持部、
9は登録話者発生データ収集処理部、10はマツ
チング処理部、11は個人用標準特徴ベクトル決
定処理部、12は認識対象単語セツト保持部、1
3は分割処理部、14は音種番号系列表現処理
部、15は人力音声特徴ベクトル系列作成処理
部、16はマツチング処理部である。
図示実施例の動作は以下の通りである。
まず、単語音声の部分要素としてVcV(母音−
子音−母音の列)を選ぶ。
そして、全てのVcVを含む単語群を決定し、
これを全単語セツト保持部1に保持しておく。
次に、全単語セツト保持部1に保持されている
1人または複数人の発声データを発声データ収集
処理部2により収集する。なお、この話者は後の
登録話者と同一人である必要はなく、ある程度多
数の話者のデータを収集する方がよい。しかる
後、標準音種セツト保持部3がこれらのデータか
ら標準的な音種を決定し、保持する。
一方、全単語セツト保持部1内の全てのデータ
は分割処理部4においてVcVに分割され、各々
のVcVは音種番号系列保持部5により音種番号
の系列で表現され保持される。
この時、同じVcVが複数個あれば、それに応
じて複数個の音種番号系列が作成されるようにさ
れている。また、別に、学習単語セツト(全単語
セツトの一部でよい)が決定され、学習単語セツ
ト保持部6に保持されている。そして学習単語セ
ツトに含まれる全ての発声データが発声データ収
集処理部7により収集され、該収集された発声デ
ータは音種番号系列保持部8により音種番号の系
列で表現された上保持される。
この時、同じ単語について複数の発声データが
あれば、その単語に対して、複数の音種番号系列
が作成される。
次に、登録話者による学習単語の発声動作時に
おいては、登録話者発生データ収集処理部9がこ
の発声データを収集し、マツチング処理部10へ
送出し、登録話者によつて発声された学習単語の
発声データと、同一単語の音種番号系列との間で
のマツチング処理動作を実行させるようにする。
このマツチング処理においては、登録発声の各時
刻の特徴ベクトルと音種番号系列中の各音種番号
に相当する特徴ベクトルとの間の距離(または類
似度)をもとに、登録発声データと音種番号系列
との間の距離(または類似度)が計算される。
一般に、一つの学習単語に複数の音種番号系列
が存在するので一番よくマツチングのとれた系列
が選ばれ、その時の各音種番号に対応付けられた
登録発声データ中のベクトルを憶えておくように
されている。このようにして、全ての学習単語セ
ツトの発声が終了し、上記マツチング処理が終了
すると、個人用標準特徴ベクトル決定処理部11
が起動され該処理部11は音種番号ごとに対応付
けられた登録発声データ中の特徴ベクトルを集め
(一般に複数個ある)、これらから特徴毎の平均を
求めるか、あるいは代表的な特徴ベクトルを選ぶ
等の操作により、各音種番号に1つの個人用標準
特徴ベクトルを決定する。
なお、認識時には、各音種番号に相当する特徴
ベクトルはまえもつて定義されている標準的特徴
ベクトルのかわりにここで新たに決定された個人
用標準特徴ベクトルが用いられる。
以上の操作により、話者音声の個人性が学習さ
れる。
一方、認識対象単語セツトは、全単語セツトお
よび学習単語セツトとは無関係に決定でき、認識
対象単語セツト保持部12に保持されている。そ
して認識対象単語セツトの各単語は分割処理13
によりVcVに分割された上で音種番号系列表現
処理部14へ送出される。
ここで、各VcVには、あらかじめ、一般的に
は複数の音種番号系列が対応している為、音種番
号系列表現処理部14において1つの単語を音種
番号系列で表現するときは、それらの組み合わせ
として多数の系列が作成されることになる。
以上の処理過程の結果各認識対象単語について
複数の音種番号系列が作成され、存在することに
なる。
次に、入力音声の認識処理を行なう場合には、
入力音声をもとに入力音声特徴ベクトル系列作成
処理部15にて入力音声の特徴ベクトル系列が作
成され、この特徴ベクトル系列と、上記した音種
番号系列表現処理部14にて作成された音種番号
系列と、上記した個人用標準特徴ベクトル決定処
理部11にて作成された個人用特徴ベクトルとが
マツチング処理部16に入力される。そして、マ
ツチング処理部16においてこれら各種情報をも
とにマツチング処理が行なわれ、最もよくマツチ
ングのとれた音種番号系列が求められ、これに対
応する単語が認識結果として出力される。
以上の如き操作により認識処理が行なわれる
が、認識対象単語の種類が多くなると、これらを
音種番号系列表現処理部14で表現した音種番号
系列は厖大なものとなるので、分割処理部13に
よるVcVへの分割の表現にとどめ、入力音声の
特徴ベクトル系列の先頭近辺と一番よくマツチン
グのとれるVcVを探し、さらにそれに続く部分
と一番よくマツチングのとれるVcVを探すとい
う手順を続けて入力音声をVcVの列に変換し、
それに近い認識対象単語を見つけるようにしても
よい。
次に、上記処理過程を、具体例をもとに図面に
より説明する。まず、全単語セツトの発声データ
から第2図図示の如く、音種を決定する。特徴は
音声のスペクトル概形とし、以下の説明では特徴
ベクトルのかわりにスペクトル図を用いる。な
お、音種番号の数としては、例えば、100〜200個
程度が選ばれる。第2図においては6個の音種の
みが図示されている。
また、全単語セツトVcV分割は、1例として
次のようになる。
WAKAYAMA→uWA、AKA、AYA、AMA、
Au NAGASAKI→ uNA、AGA、ASA、AKI、Iu AKITA→ uA、AKI、ITA、Au そして、このように分割されたそれぞれの
VcVは第2図図示の音種番号の列で以下の如く
表現される。
uWA=0・0・1・1・2・3・4・5・
5・5 AKA=5・5・6・0・0・7・8・4・5・
5・5 また、学習用単語も同様に、音種番号列で下記
の如く表現される。
この学習用語は全単語セツトの部分集合を使用
することができる。
次に、上記学習用語の音種番号列と、登録用発
声データの特徴ベクトル系列との間で、第3図図
示のようにマツチング処理が行なわれる。
第3図において、V1,〜V12…は登録話者のサ
ンプルデータであり、それぞれが第2図図示の音
種番号のいずれかに対応している。
なお、登録話者の個人的特徴により、一般に、
第3図図示のV2〜V4,V8〜V10の如く、一部の
個所で伸び縮みが存在する。
しかる後例えば、音種番号5に対応付けられた
特徴ベクトルを収集し、平均化する。第3図図示
の例えば、V8〜V12の平均化が行なわれる。第4
図は平均パターンの図である。このようにして得
られた平均パターンを音種番号5の個人用特徴ベ
クトルとして保持する。第5図は標準特徴パター
ンと個人用特徴パターンの差異の例を示す図であ
る。
一方、認識対象単語も下記の如く、VcVに分
割される。
AKASAKA→uA、AKA、ASA、AKA、Au そして、それぞれのVcVを音種番号列に変換
すると下記の如く表現される。
認識時においては、この系列を単語辞書として
使用し、未知入力に対してマツチング処理を行な
う。このとき、各音種番号の表わす特徴ベクトル
は、標準特徴ベクトルではなく、個入用特徴ベク
トルとなる。
以上説明したように、本発明は、単語音声中の
各サンプル時刻に現われる音の種類を限定し、全
ての単語がこれら音種の時系列で表現されるもの
として、標準的な特徴を持つた音種の時系列とし
て表現された登録用単語の標準パターンと登録発
声された音声データとのマツチングを行ない、各
音種に対応する登録話者の発声データをもとに、
音種の標準特徴を個人用に修正して、話者音声の
個人性を学習するようにしたものであり、このよ
うに話者音声特徴の学習に際し、種々の音韻の個
人性を学習することによつて個人の特徴を単語に
よらない発声の普遍的な特徴として捉えることが
可能となる。
これにより、認識対象単語に依存しない少数の
学習単語を発声するだけで容易に個人性の学習が
でき、認識対象単語の種類が増加しても話者の登
録時の負担は増加しない。
さらに、単語が部分要素の系列で表現され、各
部分要素が種々の音韻を表わす音種の系列で表現
されるという2段階の分割を行ない、この音種の
レベルで学習を行なうことにより少数の登録発声
データから多数の部分要素実現例を作成すること
ができ、これによつても、認識時の柔軟な対処を
保証しながら登録時の話者の負担を少なくでき
る。また、学習は認識対象単語に依存しない為、
認識対象単語セツトが変更されても再登録の必要
はない。
【図面の簡単な説明】
第1図は本発明による実施例の音声認識処理装
置のブロツク図、第2図は音種のスペクトル図の
例、第3図はマツチング処理を示す図、第4図は
平均パターンの図、第5図は標準特徴パターンと
個人用特徴パターンの差異の例を示す図である。 図中、1は全単語セツト保持部、2は発声デー
タ収集処理部、3は標準音種セツト保持部、4は
分割処理部、5は音種番号系列保持部、6は学習
単語セツト保持部、7は発声データ収集処理部、
8は音種番号系列保持部、9は登録話者発生デー
タ収集処理部、10はマツチング処理部、11は
個人用標準特徴ベクトル決定処理部、12は認識
対象単語セツト保持部、13は分割処理部、14
は音種番号系列表現処理部、15は入力音声特徴
ベクトル系列作成処理部、16はマツチング処理
部である。

Claims (1)

  1. 【特許請求の範囲】 1 (i)単語音声の各サンプル時刻における特徴ベ
    クトルを分類し、代表的な音の種類として決めら
    れた複数の音種の各々に対して付けられた音種番
    号と、(ii)各音種の標準的特徴ベクトルと、(iii)学習
    単語群の各単語について上記音種番号の時系列と
    して表現された1個またはそれ以上の第1の標準
    パターンと、(iv)単語音声を何らかの部分要素に分
    割した場合に、認識対象単語群に現われるすべて
    の当該部分要素の各々を上記音種番号の時系列と
    して表現した1個またはそれ以上の第2の標準パ
    ターンとを有する音声認識処理装置において、登
    録用として発声された学習単語群中の単語音声
    と、当該単語に相当する上記第1の標準パターン
    との間でマツチング処理を行ない、各音種番号に
    対応する単位時間分またはそれ以上の期間におい
    て登録話者音声から得られた特徴ベクトルデータ
    をもとに各音種番号に対応する音種の個人用標準
    特徴ベクトルを計算することにより、話者音声の
    個人特性を学習処理することを特徴とする音声認
    識処理装置。 2 入力音声の特徴ベクトル系列と、上記個人用
    標準特徴ベクトルと、上記第2の標準パターンと
    の間でマツチング処理を行ない、当該入力音声に
    関する単語認識結果を出力することを特徴とする
    特許請求の範囲第1項記載の音声認識処理装置。
JP56047485A 1981-03-31 1981-03-31 Voice recognition processor Granted JPS57161899A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56047485A JPS57161899A (en) 1981-03-31 1981-03-31 Voice recognition processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56047485A JPS57161899A (en) 1981-03-31 1981-03-31 Voice recognition processor

Publications (2)

Publication Number Publication Date
JPS57161899A JPS57161899A (en) 1982-10-05
JPH0119596B2 true JPH0119596B2 (ja) 1989-04-12

Family

ID=12776422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56047485A Granted JPS57161899A (en) 1981-03-31 1981-03-31 Voice recognition processor

Country Status (1)

Country Link
JP (1) JPS57161899A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4590604A (en) * 1983-01-13 1986-05-20 Westinghouse Electric Corp. Voice-recognition elevator security system
JPS6135257A (ja) * 1984-07-27 1986-02-19 Matsushita Electric Ind Co Ltd インクジエツト記録装置

Also Published As

Publication number Publication date
JPS57161899A (en) 1982-10-05

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP2003022087A (ja) 音声認識方法
JPS6466698A (en) Voice recognition equipment
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
JP2008309856A (ja) 音声認識装置及び会議システム
CN109493846B (zh) 一种英语口音识别系统
EP1005019A3 (en) Segment-based similarity measurement method for speech recognition
JP2955297B2 (ja) 音声認識システム
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP2003005785A (ja) 音源の分離方法および分離装置
JPH0119596B2 (ja)
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH1097270A (ja) 音声認識装置
JP2543584B2 (ja) 音声標準パタン登録方式
JP3438293B2 (ja) 音声認識における単語テンプレートの自動作成方法
JP2655902B2 (ja) 音声の特徴抽出装置
JPH04271397A (ja) 音声認識装置
JP3029654B2 (ja) 音声認識装置
Singh et al. Phoneme Based Hindi Speech Recognition Using Deep Learning
JPH06337700A (ja) 音声合成装置
JPH06175678A (ja) 音声認識装置
JPS63161498A (ja) 音声情報入力装置
JPH10207485A (ja) 音声認識装置及び話者適応方法
JPH04181298A (ja) 参照ベクトル更新方法
JPH09319395A (ja) 離散単語音声認識システムにおける音声データ学習装置