JPH0486799A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0486799A
JPH0486799A JP2201291A JP20129190A JPH0486799A JP H0486799 A JPH0486799 A JP H0486799A JP 2201291 A JP2201291 A JP 2201291A JP 20129190 A JP20129190 A JP 20129190A JP H0486799 A JPH0486799 A JP H0486799A
Authority
JP
Japan
Prior art keywords
feature parameter
standard
parameter series
series
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2201291A
Other languages
English (en)
Inventor
Makoto Shosakai
誠 庄境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Chemical Industry Co Ltd
Original Assignee
Asahi Chemical Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Chemical Industry Co Ltd filed Critical Asahi Chemical Industry Co Ltd
Priority to JP2201291A priority Critical patent/JPH0486799A/ja
Publication of JPH0486799A publication Critical patent/JPH0486799A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野1 本発明は、入力された音声信号を分析し、単語等の音声
を認識する音声認識装置に関し、更に詳しくは不特定話
者の音声に対する音声認識に好適な音声認識装置に関す
る。
[従来の技術1 不特定話者の音声に対する単語認識の1手法としてマル
チテンプレート法が知られている。マルチテンプレート
法は、予め複数の話者の単語の音声データから変換され
た複数の特徴パラメータから標準特徴パラメータを作成
する。特徴パラメータには、例えばLPG分析(線形予
測分析)によって得られるLPGケプストラムやパワー
スペクトラムを一つの単語毎に音声類に時系列的に並べ
たもの(以下、特徴パラメータ系列という、テンプレー
トとも称する)が用いられる。
標準特徴パラメータを作成する場合、複数の話者の音声
から取得した特徴パラメータ系列を単語毎に分類し、次
に、1つの単語についての特徴パラメータ群をさらに複
数の特徴パラメータ群(クラスタ)に分割する。
次に、それぞれのクラスタ内で代表的な特徴パラメータ
系列を標準特徴パラメータとして選出べく異なるように
まんべんなく複数人、例えば16人の音声から、10単
語XlS人=160単語についての特徴パラメータ系列
を採取する0次に各単語毎にに個のクラスタに分割する
。そして、それぞれのクラスタに含まれる特徴パラメー
タ系列群の平均の特徴パラメータ系列を標準パラメータ
とする。
また、他の特徴パラメータ系列との平均距離が最も短い
特徴パラメータ系列を標準パラメータとしてクラスタに
属する特徴パラメータ系列の中から選択する場合もある
ここで、分割個数にの最適値は標準特徴パラメータの作
成を開始する時には不明であるので、予め様々な分割個
数Kを設定し、各Kについて標準特徴パラメータを算出
した後、この中で音声認識精度のよい標準特徴パラメー
タが得られる分割個数を最適なKとして決めていた。な
お複数の話者から採取した全ての特徴パラメータ系列を
メモリに記憶してこれを標準特徴パラメータとして扱う
場合もある。
音声認識を行う場合は、認識すべき音声を上述と同様に
特徴パラメータ系列(入力特徴パラメータ系列)に変換
した後、メモリに記憶した各単語の特徴パラメータ系列
(標準特徴パラメータ系列)と入力特徴パラメータとの
間の距離の計算を行う。次に最も距離の小さい標準特徴
パラメータ系列を抽出して、その標準特徴パラメータ系
列に対応の単語を単語認識の結果として出力する。距離
計算は一般に周知の動的計画法(ダイナミックプログラ
ミングまたはDP千手法呼ばれる)が用いられている。
[発明が解決しようとする課題1 マルチテンプレート法などを用いた従来この種単語認識
装置においては、不特定話者の単語入力に対して高い単
語認識精度を得ようとすると、多数の話者の音声から特
徴パラメータ系列を採取する必要がある。しかしながら
、標準特徴パラメータ系列の増加に伴い、音声認識のた
めに標準特徴パラメータ系列を記憶しておくメモリの容
量も増大し、また、音声認識の処理時間が長くかかると
いう不具合が従来装置にはあった。
そこで、本発明の目的は、このような点に鑑みて、音声
信号から標準パターン作成用に採取する特徴パラメータ
の個数を増やしても、音声パターンの形状の精度を劣化
させずに全体の標準特徴パラメータの情報量を従来より
も削減することの可能な音声認識装置を提供することに
ある。
[課題を解決するための手段] このような目的を達成するために、本発明の第1形態は
、標準パターンの作成に用いる特徴パラメータ系列にお
いて、連続的に同一の値となる特徴パラメータの個数を
計数する計数手段と、該計数手段の計数結果が予め定め
た個数よりも大きいか否かを判定する判定手段で、該判
定手段の判定結果が肯定判定のときは前記連続的に同一
の値となる特徴パラメータの系列を前記予め定めた個数
の特徴パラメータの系列に圧縮する圧縮手段とを具えた
ことを特徴とする。
本発明の第2形態は、作成済みの複数の標準特徴パラメ
ータ系列を記憶しておく記憶手段と、音声信号から抽出
した特徴パラメータ系列を標準特徴パラメータ系列の作
成のために入力する入力手段と、前記記憶手段に記憶さ
れた複数の標準特徴パラメータ系列の中から、前言己入
力手段から入力された特徴パラメータ系列に最も類似す
る標準特徴パラメータ系列を距離比較により抽出する抽
出手段と、当該抽出された標準特徴パラメータ系列およ
び前記入力手段から入力された特徴パラメータ系列の重
み付き平均を算出する演算手段と、当該算出された重み
付き平均の結果を、前記量も類似した標準特徴パラメー
タ系列に代わる新規の標準特徴パラメータ系列として前
記記憶手段に更新的に記憶する更新手段とを具えたこと
を特徴とする。
本発明の第3形態は、本発明の第2形態に加えて、前記
入力手段から入力された特徴パラメータ系列および前記
記憶手段から抽出された標準特徴パラメータ系列におい
て互いに類似する部分についてそのパターン長の比較を
行う比較手段と、該比較手段による比較の結果、前記記
憶手段から抽出された標準パラメータ系列における第1
類似部分についてのパターン長が、前記入力手段から入
力された特徴パラメータ系列における第2類似部分につ
いてのパターン長よりも長い場合は、当該第1類似部分
を圧縮し、前記第1類似部分についてのパターン長が前
記第2類似部分についてのパターン長よりも短い場合は
、当該第1類似部分を伸張するパターン補正手段とを更
に具えたことを特徴とする。
[作 用] 本発明の第1形態は、音声認識を行う際にパターン長(
音声の発生時間)が異なる標準パターン用の標準特徴パ
ラメータ系列と認識対象の音声パターンの特徴パラメー
タ系列とのパターン比較(マツチング)を行うために、
上記両パターンのパターン長を一致させるため、パター
ンを圧縮および伸張する処理が行われることに着目し、
標準パターンの作成に際し、特徴パラメータ系列の中の
連続的に同一の値となる部分を検出して圧縮手段により
圧縮する。このため、作成された標準パターンの特徴パ
ラメータの個数が従来よりも減少する。また、標準パタ
ーンの作成時間も短縮化される。さらに、音声認識の際
に、圧縮の特徴パラメータ部分が伸張されてもその伸張
の特徴パラメータ部分は圧縮前の特徴パラメータ部分と
同一値となるので、音声認識の精度が劣化することはな
い。
本発明の第2形態では、たとえば、単語について複数の
標準特徴パラメータ系列を予め作成しておき、記憶手段
に記憶しておく。次に標準特徴パラメータ系列作成のた
めに用いる特徴パラメータ系列を入力する毎に、この特
徴パラメータ系列に最も類似する記憶手段の上の標準特
徴パラメータ系列を抽出する。次にこの標準特徴パラメ
ータ系列および入力の特徴パラメータ系列により新規標
準特徴パラメータ系列を作成した後、記憶手段上の、新
規標準特徴パラメータ系列と対応の標準特徴パラメータ
系列を新規標準特徴パラメータ系列に更新する。このた
め、不特定話者の人数を増やしても、記憶手段上の標準
特徴パラメータ系列の個数は増加しない。
本発明の第3形態では、さらに、特徴パラメータ系列が
入力される毎にこの特徴パラメータ系列のパターン長に
類似させるように標準特徴パラメータ系列が伸張および
圧縮される。このため、たとえ、少ない標準特徴パラメ
ータ系列を1単語の標準パターンとして用いても、この
標準特徴パラメータ系列には多数の不特定話者について
の音声パターンの特徴が加味されたものとなり、音声認
識精度が劣化することはない。
(以下余白) [実施例1 以下、図面を参照して本発明の実施例を詳細に説明する
第1図(A)は本発明第1実施例の基本構成を示す。
第1図(A)において、100は標準パターンの作成に
用いる特徴パラメータ系列において、連続的に同一の値
となる特徴パラメータの個数を計数する計数手段である
11Oは該計数手段の計数結果が予め定めた個数よりも
大きいか否かを判定する判定手段である。
120は該判定手段の判定結果が肯定判定のときは前記
連続的に同一の値となる特徴パラメータの系列を前配予
め定めた個数の特徴パラメータの系列に圧縮する圧縮手
段である。
第1図(B)は本発明第2.第3実施例の基本構成を示
す。
第1図(B)において、200は作成済みの複数の標準
特徴パラメータ系列を記憶しておく記憶手段である。
210は音声信号から抽出した特徴パラメータ系列を標
準特徴パラメータ系列の作成のために入力する入力手段
である。
220は前記記憶手段に記憶された複数の標準特徴パラ
メータ系列の中から、前記入力手段から入力された特徴
パラメータ系列に最も類似する標準特徴パラメータ系列
を距離比較により抽出する抽出手段である。
230は当該抽出された標準特徴パラメータ系列および
前記入力手段から入力された特徴パラメータ系列の重み
付き平均を算出する演算手段である。
240は当該算出された重み付き平均の結果を、前ぎ己
最も類似した標準特徴パラメータ系列に代わる新規の標
準特徴パラメータ系列として前記記憶手段に更新的に記
憶する更新手段である。
310は前記入力手段から入力された特徴パラメータ系
列および前記記憶手段から抽出された標準特徴パラメー
タ系列において互いに類似する部分についてそのパター
ン長の比較を行う比較手段である。
320は該比較手段による比較の結果、前記記憶手段か
ら抽出された標準パラメータ系列における第1類似部分
についてのパターン長が、前記入力手段から入力された
特徴パラメータ系列における第2類似部分についてのパ
ターン長よりも長い場合は、当該第1類似部分を圧縮し
、前記第1類似部分についてのパターン長が前記第2類
似部分についてのパターン長よりも短い場合は、当該第
1類似部分を伸張するパターン補正手段である。
なお、これら各手段に対応する具体的な回路は後述する
第2図は本発明第1実施例の具体的な回路構成を示す。
第2図において、lOは入力音声を音声信号に変換する
マイクロフォンである。11はアンプであり、マイクロ
フォンの出力信号を増幅する。12はアナログ/デジタ
ル(A/D)変換器であり、アンプ11の増幅出力を一
定時間間隔でA/D変換する。
13はフーリエ変換器であり、A/D変換器12の出力
をフーリエ変換し、周波数帯域毎の音声信号の俟さ(パ
ワースペクトラム)を特徴パラメータとして出力する。
フーリエ変換器13はLSI(大規模集積回路)になっ
ている専用回路が知られているが、専用のフーリエ変換
器13を用いないで、コンピュータによりフーリエ変換
を実行してもよい。フーリエ変換器に代わり複数のバン
ドパスフィルタを用いることも可能である。また、A/
D変換器12の出力をLPG分析(線形予測分析)し、
LPCケプストラムなどのパラメータを特徴パラメータ
系列に用いることも可能である。
さらに、パワースペクトラムやLPCケプストラムなど
のパラメータから変換された音韻類似度情報を特徴パラ
メータとすることもできる。この音韻類似度情報は、予
め判明しているパワースペクトラムやLPGケプストラ
ムの各識別ラベルに対する類似度を百分率で表したもの
である。LPCケプストラム、音韻類似度情報などのパ
ラメータもコンビエータで計算すればよい。
14は標準特徴パラメータ系列の作成および音声認識の
ための情報処理を行うコンピュータシステムである。コ
ンピュータシステム14にはキーボード入力装置15.
フロッピーディスク等を用いた外部記憶装置169表示
装置17が接続されている。
キーボード入力装置15からは、コンピュータシステム
14に対する情報処理のための各種指示や単語の標準パ
ターンの作成のための情報の入力などを行う。
外部記憶装置16は作成された単語の標準特徴パラメー
タ系列を複数個記憶する。表示装置17はコンピュータ
システム14からの単語音声の認識結果や単語の標準パ
ターンの作成に関する情報が表示される。
第3図は第2図のコンピュータシステム14の構成の一
例を示す。本実施例では高速演算処理を行うために、演
算処理を高速DSP(ディジタルシグナルプロセッサ)
で行うようにしている。14−1はDSPであり、第2
図におけるフーリエ変換器13でディジタル信号に変換
された特徴パラメータを信号入力する。
14−2はメモリであり、DSP14−1が実行する制
菌手順が予め格納されている。14−3はパーソナルコ
ンピュータであり、全システムの動作を統括する役割を
果たす。なお、コンピュータシステム14は大型コンピ
ュータを用いてもよ(、装置の大きさ、演算処理程度に
応じて構成すればよい。
DSP14−1は、学習モードと認識モードの2つのモ
ードで異なった処理を実行する。学習モードの音声の標
準パターンを特徴パラメータ系列で表した、単語の標準
特徴パラメータ系列を作成するモードであり、認識モー
ドは実際の単語の認識を実行するモードである。
本実施例では、音声認識を行うときに、パターン長が互
いに異なる入力音声パターンおよび標準パターンのパタ
ーン形状の一致比較を行うため、上記各パターンの形状
の圧縮および伸張を行うことに看目し、標準パターン作
成用に採取された特徴パラメータ系列の中の特徴パラメ
ータが連続的に一致する部分を圧縮する。
DSP14−1により行う圧縮処理を第4図および第5
図を参照して説明する。第4図は入力の音声から標準パ
ターンを作成するための特徴パラメータ系列(以下学習
用特徴パラメータ系列と称す)を生成するまでの過程を
示す。
第5図はDSP14−1の実行する演算処理手順を示す
。この演算処理手順は実際にはDSP14−1の実行可
能なプログラム言語で言己載されている。
第4図において、時刻t1から話者の音声、たとえば”
HONATUGI”が入力されると、フーリエ変換器1
3からは時刻t1から一定時間間隔で特徴パラメータX
として周波数帯Wl−WNの各スペクトラムX(1)〜
X (N)が出力される。
本実施例では時刻tiの特徴パラメータxlをX1=(
XI(1)、Xl(2)、 −、、・Xl(N))のベ
クトルで表わす。
このようなスペクトラムの集合体で表わされる特徴パラ
メータXiがDSP14−1に入力されて、DSP14
−1内の比較レジスタに格納される(第5図のステップ
3101〜5104)。
次に入力の特徴パラメータX1は学習用の特徴パラメー
タとして識別記号Ylが与えられ、メモリ14−2のワ
ークエリアに格納される(第5図のステップ5105)
次の時刻t2でフーリエ変換器13によりそのときの音
声信号が特徴パラメータx2に変換され、DSP14−
1に入力されると、DSP14−1は比較レジスタに格
納された特徴パラメータすなわち、特徴パラメータXi
と入力の特徴パラメータX2との一致比較を行う(第5
図のステップ3101〜5103)。
一致判定が得られたときは、比較レジスタの更新、ワー
クエリアへの学習用特徴パラメータの登録を行わず、次
回の特徴パラメータXの入力を待つ(第5図のステップ
5103→5IOL)。
また、不一致判定が得られたときは比較レジスタの記憶
値を入力の特徴パラメータに更新し、ワークエリアに学
習用特徴パラメータの登録を行う(第5図のステップ8
103〜5105→5IOI)。
このような処理をDSP14−1は繰り返し実行する。
この結果、特徴パラメータX5〜x7がそれぞれ一致す
る場合、ワークエリアに登録される学習用の特徴パラメ
ータはXLX2.X5.X8・・・というように圧縮さ
れたものとなる。
なお、これらの学習用特徴パラメータは順にYl、 Y
2. Y3と名付けられ、従来通りの手法で標準特徴パ
ラメータ系列の作成に用いられる。
以上説明したように、本実施例では音声信号から変換さ
れた特徴パラメータの系列の中で一致部分を1個の特徴
パラメータに圧縮するようにしたので、学習用特徴パラ
メータ系列を構成する特徴パラメータの個数が減少する
なお、参考のために、音声認識時の処理を簡単に説明し
ておく。第4図の入力特徴パラメータ系列XI、X2.
X3・・・に対応の音声が入力されると、この特徴パラ
メータ系列と、標準特徴パラメータXI。
X2.X5.X8・・・とのパターンマツチングを行う
とき、パターン長さをそろえるため、試行錯誤的に標準
特徴パラメータ系列Xi、X2.X2.X2.X5.X
5.X5.X8 ・・・が作成され、両特徴パラメータ
系列の一致が確認され、この標準特徴パラメータ系列に
対応の単語コードがDSP14−1から出力される。
第1実施例について、次の例が挙げられる。
1)第1実施例では圧縮個数を1個としているが1以上
の所定個数とすることもできる。たとえば圧縮個数を“
2”とする場合は、−数回数をDSP14−1により計
数し、その計数結果が数値″2”を越えるまではメモリ
14−2への特徴パラメータ系列の登録処理を行い、計
数結果が“2”を越えたときにメモリ14−2への特徴
パラメータ系列の登録を行わない。なお、第1実施例で
は圧縮個数を1個としているため、一致判定処理自体が
一致回数の判定を行っている。したがって一致判定処理
を実行するときのDSP14−1は本発明の第1形態に
おける計数手段1判定手段として動作し、特徴パラメー
タの登録を中止する手順を実行するときのDSP14−
1が圧縮手段として動作する。
2)また、上記圧縮個数を外部指示により可変設定する
ようにしてもよいことは言うまでもない。
次に、人力の特徴パラメータ系列を用いてマルチテンプ
レート法により標準特徴パラメータを統合的に作成する
第2実施例を第6図〜第7図を用いて説明する。
なお、本第2実施例の回路構成には第2図と同様の回路
を用いる。
第6図は入力特徴パラメータ系列のデータ内容、更新前
の標準特徴パラメータ系列のデータ内容および更新後の
標準特徴パラメータ系列(新標準特徴パラメータ系列と
称す)のデータ内容ならびに上記3つのデータ内容の相
関関係を示す。
第7図はDSP14−1が実行する単語標準パターンの
作成手順を示す。
また、不特定話者16人からそれぞれ10単語分の学習
用特徴パラメータ系列を採取するものとする。このため
に、予め仮に150個の標準パターン群を用意する。1
個の標準パターンには1つの標準特徴パラメータ系列と
後で説明する単語類似度情報が含まれる。全ての櫻準特
徴パラメータに対する初期値として任意の値が与えられ
ているものとする。
本実施例は第1番目の話者から採取した10個の学習用
特徴パラメータ系列の各々に最も類似する標準特徴パラ
メータ系列およびこの標準特徴パラメータ系列が含まれ
る標準パターンを検出する。
次に、上記学習用特徴パラメータ系列を用いて上記検出
の、対応の標準特徴パラメータを修正する。以下、次の
話者から採取した10個の学習用特徴パラメータを用い
て同様の処理を繰り返し行い、最終的には、1個の単語
についての標準パターンが3個の標準特徴パラメータ系
列で構成される10個の標準パターンを作成する。
第1番目の話者の音声から時系列に採取された、1単語
分の入力特徴パラメータXI、X2.・・・の中のX2
〜X4. X6〜X7がそれぞれ一致するものとする。
以下、第2実施例における回路動作を説明する。
フーリエ変換器13がら特徴パラメータを入力する毎に
DSP14−1は入力特徴パラメータを順次にメモリ1
4−2に記憶し、1単語分の学習用特徴パラメータ系列
をメモ1月4−2上で作成する(第7図のステップ52
01)。このときのDSP14−1が本発明第2形態の
入力手段として動作する。
次に、ステップ5202〜5205の処理を実行するこ
とにより新標準特徴パラメータ系列を作成する。
まず、学習用特徴パラメータ系列と、メモ!月4−2上
に記憶された予め任意の数値形態の複数の標準特徴パラ
メータ系列との距離計算を実行する(ステップS2)。
距離計算に当たっては、学習用特徴パラメータ系列と標
準特徴パラメータ系列のパターンの長さが異なるため、
周知の動的計画法(ダイナミックプログラミング(DP
)法)を用いて行う。
この距離計算を行う過程でパターンの長さを一致させる
ための、標準特徴パラメータ系列についての圧縮伸張処
理が行われる。このとき、バックトラックと呼ばれる処
理により、学習用特徴パラメータ系列の中の特徴パラメ
ータが連続的に一致する区間が検出される。上述の学習
用特徴パラメータ系列xi、 x2・・・は第6図に示
すように標準特徴パラメータ系列と類似する部分に対応
させてxi、x2〜x4.x5.x6〜x7.x8とい
うように区分けされ、区間番号が割当てられる。
また、個々の学習用特徴パラメータと個々の標準特徴パ
ラメータとの間でパターン長の短いもの同志の組み合せ
も検出される。この組み合せを第6図の実線の矢印で示
す。
このような組み合せの種類に対応させてタイプ番号が割
当てられる。
例えば、対応関係タイプ番号(1)は学習用特徴パラメ
ータxiと現在の標準特徴パラメータytというように
類似部分が1対1に対応しており、タイプ番号(4)は
3個の学習用特徴パラメータx3〜×4と1個の標準特
徴パラメータが3対1に対応していることを示している
。次に、1o単語分、150個の標準特徴パラメータ系
列の中で学習用パラメータ系列に最も近い距離を持つ標
準特徴パラメータ系列を選択する。選択された標準特徴
パラメータ系列を最類似標準特徴パラメータ系列と呼ぶ
ことにする(ステップS3)。さらに、その最類似標準
特徴パラメータ系列を含む標準パターンを選択する(ス
テップS4)。
その際、選択の方法としては、全ての標準パターンに含
まれる標準特徴バラメエータ系列を2次元状に等間隔に
配列し、最類似標準特徴パラメータ系列の標準パターン
を中心とするある大きさの領域の中に含まれる複数個、
たとえば3個の標準パターンをメモリ14−2から選択
抽出する。このとき、DSP14−1が本発明の第2形
態の抽出手段として動作し、またメモリ14−2が記憶
手段として動作する。次に選択した各標準パターン中の
全ての標準特徴パラメータ系列の初期データを更新する
(ステップS5)。この更新に際しては、ステップS2
で求められた標準特徴パラメータ系列と学習用特徴パラ
メータ系列の対応関係が用いられる。
なお、更新により得られる標準特徴パラメータ系列を新
標準特徴パラメータ系列と呼ぶことにする。
まず、学習用特徴パラメータと標準パラメータの対応関
係のタイプ番号に従って新特徴パラメータ系列を構成す
る特徴パラメータ(以下新特徴パラメータ)を次の重み
付き平均の算出式によりDSP14−1で計算する。こ
のときのDSP14−1が本発明の第2形態の演算手段
として動作する。
第6図の対応関係の分類に示される基準に従って本発明
第3形態における新標準パラメータ系列の伸張、圧縮も
このとき行われる。次式において用いられるNは特徴パ
ラメータの次元数である。
また、aは1以下の正の数である。
対応関係タイプ番号1 学習特徴パラメータ xl= (xi(1)、xi(2)−xi(N))ここ
でxi (1)〜xi (N)は学習特徴パラメータx
1を構成する周波数帯毎のスペクトラム yl= (yl(1)、yl(2)・・・yl (N)
 )ここでyl (1)〜yl (N)は標準特徴パラ
メータy1を構成する周波数帯毎のスペクトラム 新標準特徴パラメータ zl= (zl(1)、zl(2)・・・zl (N)
 )ここでzl(1)〜zl (N)は新標準特徴パラ
メータzlを構成する周波数帯毎のスペクトラムzl 
(1) = yl (i)+α(xi (i) −yl
 (i))(i=1.2.・・・、N+ 対応関係タイプ番号4 同一部分が3個の学習特徴パラメータ xi = (xi(1)、xi(2)=−xi(N))
x2= (x2(1)、x2(2)・=x2(N))x
3= (x3(1)、x3(21・x3(N))標準特
徴パラメータ yl= (yl (1)、yl (2)・・・yl (
N) )2個の新標準特徴パラメータ zl = (zl (]、)、 zl (2)・・・z
l (N) )z2== (z2(1)、z2(2)・
・・z2 (N) )ここで zl (i)  = yl (i)+α((xi (i
)+x2 (i))/2−yl (i) )z2(i)
  =yl(i)+a((x2(iDx3(il)/2
−yl(L))対応関係タイプ番号3 学習特徴パラメータ xl−(xi(1)、xlf2)−xi(N))同一部
分が2個の標準特徴パラメータ yl = (yl (11、yl (2)・・・yl 
(N) )y2= (y2(1)、y2(2)・・・y
2 (N) )2個の新標準特徴パラメータ zl= (zl(1)、zl(2)・=zl(N))z
2= (z2(1)、z2(2)−z2(N))ここで zl (i) = yl (i)十α(xi (i) 
−yl (i))z2(i)  =y2(i)  + 
a (xi(i)−y2(i))(i=1.2.・・・
、N) 対応関係タイプ番号2 同一部分が2個の学習特徴パラメータ xl−(xi(1)、xl(2)−xi(N))x2=
 (x2(1)、x2(2)=−x2(N)1標準特徴
パラメータ yl = (yl (1) 、 yl (2)・・・y
l (N) )(i=1.2.・・・、N) 新標準特徴パラメータ Zl = (Zl (1)、 Zl (2) ・Zl 
(N) )ここで zl(il  =yl(i)+a ((xi(i)+x
2(i))/2−yl(i))(i=1.2.・・・、
N) 第6図のような各種対応関係を持つ人力特徴パラメータ
系列(話者の音声から抽出された1単語の特徴パラメー
タ系列) Xi、X2.X3・・・の各々のパラメータ
は、上記タイプに従って算出される。たとえば入力特徴
パラメータXIは上式の学習特徴パラメータx1として
DSP14−1において、取り扱われる。入力特徴パラ
メータx2〜X4のそれぞれがほぼ同じデータの場合、
X2(xi)とX3(x2)の平均値を用いて新標準特
徴パラメータZ1が作成され、X3(x2)とX4 (
x3)の平均値を用いて新標準特徴パラメータZ2が作
成される。この結果、3個の入力特徴パラメータX2〜
X4が2個の新特徴パラメータ系列に圧縮される。
本実施例では音声認識精度の質を劣化させないため、標
準特徴パラメータの個数と対応の学習特徴パラメータの
個数すなわちパターン長が異なる場合は、新標準特徴パ
ラメータの個数は2種の特徴パラメータの個数の平均と
なるように設定する。このときの処理を行うDSP14
−1が本発明第3形態の比較手段、パターン補正手段と
して動作する。
このようにして、1単語についての選択の3つの標準パ
ターンの計3個の標準特徴パラメータ系列について、上
述のタイプ別の重み付き平均処理を行い、新標準パラメ
ータ系列の中の個々の新標準特徴パラメータを算aする
。次に、新標準特徴パラメータ系列を標準特徴パラメー
タ系列に置き換え、学習用特徴パラメータ系列に対する
重み付は平均処理を所定個数、例えば2000回以上繰
り返し行う。次に更新手段としてのDSP 14−1に
よりメモリ14上で所定の回数、標準特徴パラメータ系
列の更新が行われた後、認識対象の10単語の各々に対
する櫻準特徴パラメータ系列の類似度を求める(ステッ
プS7)。この類似度を示す値を単語類似度情報と呼ぶ
ことにする。単語類似度情報の示す値が高いほど標準特
徴パラメータ系列のある単語に対する類似度が高いこと
を示す。単語類似度情報は例えば以下のようにして求め
られる。
予め、全ての標準特徴パラメータ系列の各々に10単語
分の投票箱をメモリ14−2上に用意し、各投票箱への
投票数を数値ゼロにしておく。次に、上記更新に用いら
れた学習用の特徴パラメータ系列に対応の識別コードを
キーボード入力装置から受は付け、次に3個の標準特徴
パラメータ系列全の投票箱の中のこの識別コードに対応
の単語の投票箱に一票を投じる。
この結果、第1番目の話者によって入力された音声”H
ONATUGI”によって、3個の標準特徴パラメータ
系列が初期値から更新され、これらの標準特徴パラメー
タ系列の各々の第1番目の投票箱に一票が投票される。
以上、説明した処理により第1番目の話者の第1番目の
単語音声を用いた標準特徴パラメータ系列の作成処理を
終了する。
以下、第1番目の話者の第2番目〜第1O番目の単語音
声をマイクロホン10から入力して、上述と同様の処理
を行う。
次に、第2番目〜第16番目の話者についてそれぞれ1
0単語分の音声をマイクロホンlOから入力し、作成済
みの標準特徴パラメータ系列の更新処理を単語毎に実行
する。
全ての話者の音声を用いた標準特徴パラメータ系列の更
新処理を終了すると、最後に各標準特徴パラメータ系列
毎に10単語分の投票箱を開票し、各単語に対する投票
数を集計する。次に、各投票数の10単語全ての投票数
に対する比率を百分率で表す。このような比率の集合を
単語類似度情報として取扱う。
類似度情報において最上位から3個の標準特徴パラメー
タ系列を各単語毎にメモリ14−2から検索抽出する。
この検索処理には数値を大きい順に並べ換えるソーティ
ングと呼ばれる周知手順を用いればよく詳細な説明を省
略する。
以上の処理により10人の話者の音声から10単語×3
個の標準特徴パラメータ系列を抽出する。従来では16
人×10単語=160個の標準特徴パラメータ系列を作
成したのに対し、本第2実施例の作成個数は10×3個
と非常に少ないものとなる。
また、作成の各標準特徴パラメータ系列は類似の学習用
特徴パラメータ系列の平均結果となっているので複数の
不特定話者の音声特徴が加味されている。
標準特徴パラメータ系列を作成する過程において、作成
途中の標準特徴パラメータ系列群の中の各系列と話者の
単語音声から抽出した学習用特徴パラメータ系列とを動
的計画手法により比較を行い、学習用特徴パラメータ系
列に最も類似する標準特徴パラメータ系列を選択する。
このため、従来のように話者の人数に対応させた初期登
録の標準特徴パラメータ系列群を作成する必要はな(,
1組の標準特徴パラメータ系列群を共有使用することが
できる。
次に、音声の認識モード時について説明する。
第8図は、第3図に示すDSP14−1が音声認識モー
ドを実行する処理を示す。第8図において、第2図に示
すA/D変換器12の出力を一定時間間隔で各時点毎の
入力特徴パラメータ系列に変換する(ステップTl)。
次に、入力特徴パラメータ系列と外部記憶装置16に記
憶された複数個の標準特徴パラメータ系列との距離計算
を実行する(ステップT2)。距離計算に当たっては、
入力特徴パラメータ系列と標準特徴パラメータ系列の長
さが異なるため、動的計画法(ダイナミックプログラミ
ング)を用いて行う。
次に、入力特徴パラメータ系列に最も近い距離を持つ単
語の標準特徴パラメータ系列(最類似標準特徴パラメー
タ系列)を外部記憶装置16に記憶された標準特徴パラ
メータ系列から見つけ、それに対応する単語類似度情報
を抽出する(ステップT3)。
最後に抽出された単語類似度情報の単語要素の中で値が
最大の単語要素の番号に対応する単語コードを認識結果
として出力する(ステップT4)  。
上述の手順により単語の標準特徴パラメータ系列を生成
し、3人の未知話者に対し、1o語の単語認識実験をし
た場合、従来の最適化されたマルチテンプレート法とほ
ぼ同様の単語認識性能が得られた。
本第2実施例の他、次の例が挙げられる。
1)本第2実施例で用いた単語類似度情報の算出方法の
他に、次のような別方法により単語類似度情報を求めて
もよい。すなわち、各標準特徴パラメータ系列毎に単語
数の要素数を持つベクトル(単語類似度ベクトルと称す
る)を設定し、また、全ての単語に“1”から通し番号
を付ける。各学習用の特徴パラメータ系列にもユニット
ベクトル(単語の番号に対応する要素のみ“1”で他の
要素が全て“0”であるベクトル)を付加する。そして
、最も距離が近い標準特徴パラメータの系列に対し、 m←m十α(u −m ) の重み付は平均処理を行う。ここで、aは1より小さい
正数であり、mは標準特徴パラメータ系列に設定された
単語類似度ベクトル、Uは学習用の単語の特徴パラメー
タ系列に付加されその単語を示すユニットベクトルであ
る。全ての学習用入力特徴パラメータ系列について以上
の処理を行い、最後に得られた単語類似度ベクトルの中
身を各標準特徴パラメータ系列の単語に対する単語類似
度情報とする。
2)本第2実施例では標準特徴パラメータ系列の作成個
数を1単語につき、3つと固定設定しているが、音声認
識精度もしくは音声認識処理時間に応じて選択的に設定
することもできる。
3)本第2実施例では標準特徴パラメータ系列の作成個
数を1単語につき、3つと固定設定しているが、投票箱
への投票数をDSP14−1によりしきい値比較して一
定数以上の投票数を有する標準特徴パラメータ系列を選
択してもよい。
また、選択に用いるしきい値の数をキーボード入力装置
15から入力するようにすると1単語の標準パターンを
構成する標準パラメータ系列の個数をも可変設定するこ
とができる。
この場合、単語に対する類似度が一定の値以上の標準特
徴パラメータ系列をたとえば1単語につき5個、メモリ
14−2からDSP14−1により検索抽出し、パーソ
ナルコンピュータ14−3により外部記憶装置16に登
録記憶しておく。
次に音声認識に先立って操作者は音声認識精度または認
識処理時間をキーボード入力装置15に入力する。この
音声認識情報または認識処理時間に対応させて、パーソ
ナルコンピュータ14−3により最上位の類似度の標準
特徴パラメータ系列から順に所定個数の標準特徴パラメ
ータ系列を選択し、DSP14−1により音声認識用標
準パターンとしてメモリ14−2に登録する。音声認識
精度を最も高くしたい場合は、1単語の標準パターンを
5個の標準特徴パラメータ系列で構成する。
また音声認識速度を最も速くしたい場合は1単語の標準
パターンを最上位の類似度の1個の標準特徴パラメータ
系列で構成する。
このような音声認識精度、音声認識速度と標準特徴パラ
メータ系列の使用個数を変換テーブルで記憶しておくと
、呈語に使用する標準特徴パラメータ系列の選択処理が
容易となる。
[発明の効果] 以上、説明したように、本発明の第1形態によれば、音
声の認識精度を劣化させず、標準パターンを構成する特
徴パラメータ系列のパターン長を短縮するので、メモリ
等に記憶しておく標準パターンの情報量を削減すること
ができる。また、標準パターンの作成時間、音声の認識
時間も短縮化される。本発明の第2形態では、不特定話
者からの標準パターン作成用の特徴パラメータ系列の採
取個数を増やしても作成された標準パターンすなわち、
標準特徴パラメータ系列の個数は所定個数以上から増加
することはない。
またさらに、この標準特徴パラメータ系列は上記特徴パ
ラメータ系列に類似するように補正が行われるので、音
声認識精度が劣化することはない。
夕系列の作成処理を示す説明図、 第7図は本発明第2実施例の標準特徴パラメータ系列の
作成手順を示すフローチャート、第8図は本発明第2実
施例における音声認識手順を示すフローチャートである
【図面の簡単な説明】
第1図(A)は本発明第1実施例における基本構成を示
すブロック図、 第1図(B)は本発明第2.第3実施例における基本構
成を示すブロック図、 第2図は本発明第1実施例における具体的な回路構成を
示すブロック図、 第3図は第2図のコンピュータシステムの回路構成を示
すブロック図、 第4図は本発明第1実施例の圧縮処理を示す説明図、 第5図は本発明第1実施例の圧縮処理手順を示すフロー
チャート、 第6図は本発明第2実施例の標準特徴パラメー10・・
・マイクロホン、 11・・・アンプ、 12・・・アンログ/デジタル(A/D)変換器、13
・・・フーリエ変換器、 14・・・コンピュータシステム、 15・・・キーボード入力装置、 16・・・外部記憶装置、 17・・・表示装置、 18・・・陰極管(CRT)。 第21!lのコンし°ニークシステムの回り各1*一八
伊j表1ブロック躬第3図 奉忙11月詐1亥Jヒ191の圧■■S牒十櫃を水1フ
ローナヤーY第5図 本t1g塾2貫、b1152t>jfiり瞥椅徴パラメ
づ峯タリリ忰V(ヌ&夏ツーh*l k’l−s@図第
6図 第 図

Claims (1)

  1. 【特許請求の範囲】 1)標準パターンの作成に用いる特徴パラメータ系列に
    おいて、連続的に同一の値となる特徴パラメータの個数
    を計数する計数手段と、 該計数手段の計数結果が予め定めた個数よりも大きいか
    否かを判定する判定手段で、 該判定手段の判定結果が肯定判定のときは前記連続的に
    同一の値となる特徴パラメータの系列を前記予め定めた
    個数の特徴パラメータの系列に圧縮する圧縮手段と を具えたことを特徴とする音声認識装置。 2)作成済みの複数の標準特徴パラメータ系列を記憶し
    ておく記憶手段と、 音声信号から抽出した特徴パラメータ系列を標準特徴パ
    ラメータ系列の作成のために入力する入力手段と、 前記記憶手段に記憶された複数の標準特徴パラメータ系
    列の中から、前記入力手段から入力された特徴パラメー
    タ系列に最も類似する標準特徴パラメータ系列を距離比
    較により抽出する抽出手段と、 当該抽出された標準特徴パラメータ系列および前記入力
    手段から入力された特徴パラメータ系列の重み付き平均
    を算出する演算手段と、 当該算出された重み付き平均の結果を、前記最も類似し
    た標準特徴パラメータ系列に代わる新規の標準特徴パラ
    メータ系列として前記記憶手段に更新的に記憶する更新
    手段と を具えたことを特徴とする音声認識装置。 3)前記入力手段から入力された特徴パラメータ系列お
    よび前記記憶手段から抽出された標準特徴パラメータ系
    列において互いに類似する部分についてそのパターン長
    の比較を行う比較手段と、該比較手段による比較の結果
    、前記記憶手段から抽出された標準パラメータ系列にお
    ける第1類似部分についてのパターン長が、前記入力手
    段から入力された特徴パラメータ系列における第2類似
    部分についてのパターン長よりも長い場合は、当該第1
    類似部分を圧縮し、前記第1類似部分についてのパター
    ン長が前記第2類似部分についてのパターン長よりも短
    い場合は、当該第1類似部分を伸張するパターン補正手
    段と を更に具えたことを特徴とする請求項2に記載の音声認
    識装置。
JP2201291A 1990-07-31 1990-07-31 音声認識装置 Pending JPH0486799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2201291A JPH0486799A (ja) 1990-07-31 1990-07-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2201291A JPH0486799A (ja) 1990-07-31 1990-07-31 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0486799A true JPH0486799A (ja) 1992-03-19

Family

ID=16438546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2201291A Pending JPH0486799A (ja) 1990-07-31 1990-07-31 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0486799A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015508516A (ja) * 2011-11-17 2015-03-19 マイクロソフト コーポレーション デバイス・アクティブ化のためのオーディオ・パターン照合

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015508516A (ja) * 2011-11-17 2015-03-19 マイクロソフト コーポレーション デバイス・アクティブ化のためのオーディオ・パターン照合

Similar Documents

Publication Publication Date Title
EP0125648B1 (en) Speech recognition apparatus
JP4867804B2 (ja) 音声認識装置及び会議システム
JP2815579B2 (ja) 音声認識における単語候補削減装置
JPS6131477B2 (ja)
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
JPH04369696A (ja) 音声認識方法
JPH0486799A (ja) 音声認識装置
JP3727173B2 (ja) 音声認識方法及び装置
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP3708747B2 (ja) 音声認識方法
JPH0338699A (ja) 音声認識装置
CN111898923B (zh) 一种信息分析方法
JP2000259169A (ja) 音声認識装置およびその記録媒体
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体
JPH11282490A (ja) 音声認識装置および記憶媒体
JPS63161498A (ja) 音声情報入力装置
JPH01290000A (ja) 音声認識方式
JP2004309654A (ja) 音声認識装置
JPH11352989A (ja) 音声認識装置および記憶媒体
JPS59201100A (ja) 音声標準パタン登録方法
JP2000020550A (ja) 音声データグループ同定装置および記憶媒体
JPH02141800A (ja) 音声認識装置
JPH0194396A (ja) 音声認識方式
JPH01177094A (ja) データ検索装置
JPS62133499A (ja) 音声認識装置