JPS59124393A - 単音節音声認識処理方式 - Google Patents

単音節音声認識処理方式

Info

Publication number
JPS59124393A
JPS59124393A JP57231966A JP23196682A JPS59124393A JP S59124393 A JPS59124393 A JP S59124393A JP 57231966 A JP57231966 A JP 57231966A JP 23196682 A JP23196682 A JP 23196682A JP S59124393 A JPS59124393 A JP S59124393A
Authority
JP
Japan
Prior art keywords
monosyllabic
candidate
matching
distance
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57231966A
Other languages
English (en)
Inventor
教幸 藤本
佐藤 泰雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57231966A priority Critical patent/JPS59124393A/ja
Publication of JPS59124393A publication Critical patent/JPS59124393A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の技術分野 本発明は単音節音声認識処理方式に係り、特に予め単音
節忙対して複数の音声を登録しておき。
この登録されたパラメータと未知入力のパラメータとを
DP照合法により照合するに先立ち、簡単な照合方法に
より精密照合対象を削減してからDP照合を行い、再照
合候補単音節が予め足められた組合せのとき、同一の単
音節である複数の登録単五節音声と未知入力単音節音声
との距離の小さいものから順に定められた個数取出して
それらの平均値に応じて未知入力を認識するとともに、
前記対象削除されたために平均値が算出できない場合に
は平均値を算出せずその1−2候補を出力するようにし
たものである。
従来技術と問題点 単音節音声認識を行う場合k)らかじめ特定話者の既知
の単音節音声を辞書に登録しておき、これと未知入力を
照合することにより行われろ。
従来、単音節音声を認識する場合、第1図に示すように
、あらかじめ特定話者が図示省略したマイクロホン等で
既知の単音節の音声を入力し、これを前処理部1で入力
音声レベルを揃えたり、雑音を除去したりする等の前処
理を行い9次にパラメータ抽出部2で例えば16種類の
バンドパスフィルタを設けて前処理部1で前処理された
音声信号をこれらのバンドパスフィルタにより周波数領
域毎の出力を得てA/D変換し、これを例えば10〜1
5m5のサンプリング周期での平均値をとりこれらをパ
ラメータとする。そして切替部3を経由してこのように
して得たパラメータを登録部4に登録する。このように
してすべての単音節音声のパラメータを登録する。それ
から判定すべき未知音声入力を特定話者が入力したとき
、同様にして前処理部1ばこの未知入力をレベル処理し
たり、雑音処理し、パラメータ抽出部2はパラメータを
抽出する。そして今度は切換部3はこの未知入力の抽出
パラメータをDP照合部5に伝達する。これによりDP
照合部5は登録部4から既知の単音節のパラメータを登
録部4から読出してすべての登録された単音節のパラメ
ータとこの未知入力のパラメータとの距M(絶対値)を
公知のD P (Dyn副icP rogranmi 
ng)照合法により求め、その距離の最小の既知入力単
音節を未知の単音節入力と判断して出力することになる
勿論、この場合、パラメータどしては上記のようなサン
プリング時間内における各フィルターの平均出力のみな
らず、フォルマント周波数9LPC等を使用することが
できる。
しかしながらこのような認識方法では、下記のような問
題があり認識率が不充分である。
このような方法では例えばす行と夕行が誤認識し易す<
、「す」を「夕」と誤認したり、あるいは「チ」を「シ
」と誤認することが多い。このような誤認はマ行とす行
、う行とす行、う行とダ行、バ行とパ行、ガ行と力行等
でも生じ易い。このように%f音節同志での誤りが生じ
易い。
寸た音声は同一のパターンで発声されるものではな(、
特定話者においても同じ音節を発I−するとき、「ア」
を「アー」と発音することもあり、し斤がって登録部も
一回の発音だけが登録されるものではなく、複数回の発
生が登録されている。それ故、前記のように誤りが生じ
易い音節が第1補候。
第2補候・・・とじてあげられたときこれを再照合する
ことが研究きれている。このような場合に、第1位候補
が「サー2」′であり、第2位候補が「ター1」。
i:1l−3位候補が「ター3」、第4位候補が1ター
4」(ここで数字は複数個の同−音質jが登録されてい
る場合1例えは5個登録されているとき、その登録順位
を示す)のような場合、 「す」よりも「夕」である可
能性が高いものであるにもかかわらず、沖縄な距離計算
のみではこれを判別で@ない問題がある。
この問題を解決する方法として、第3図に示す平均値計
算を行う照合法があり、これについて説明する。例えば
1つの単音節について4回背戸入力してそれぞれ4個の
特徴パラメータ81〜S4を登録しておくものとし、そ
のうち単音節S1に対する特徴パラメータSl〜Slが
第3図の点MSx内に位置し、単音節S2に対する特徴
パラメータS2〜S2が点線S2内に位置し、単音@S
、+に対する特徴パラメータ83〜S3が点綴S3内に
位置しているものとする。したがって81〜S1は単音
節S1の特徴パラメータ群を構成し、S2〜S2は単音
鈷′IS2の特徴パラメータ群を構成し、81〜Sスは
単音節S3の特徴パラメータ群を構成する。いま未知人
力Xがk、ろとき。
このXと単音節S1との平均距離dx−1は次式(1)
で得られる。
d、−、=−!−(CX、S”、)+(X、S”、)+
(X、s−)+(X、s:)) ・−−−−−(gもし
もXと各グループとの近いもの2つとの平均を求める場
合には9次式(2)〜(4)のようになる。
d(ニー1)/−1((X、Sl)+(X、S、)’)
・・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・(2)d<x−z)’=医[(X、S2)+
(X、52))・・・・・・・・・・・・・・・・・・
・・・・・・・・・・・・(31d(x−3)’−フ(
(X、S3)+(X、S3)、:l・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・・(4)こ
の場合、第3図より明かにs  d(!−x)’<d(
?−3)<d(X−2)となる。したがって、DP照合
部14での照合結果がXに対してSat第1候補として
出力し、Slを第2候補として出力したとしても、グル
ープで照合したときd(x−x)’が最小距離となるの
で。
第1候補としてSlf:、第2候補としてS3が出力さ
れることになシ、特定の1つのみとの距離が小さくとも
、グループとしてみたときには距離の小さなものの方が
多い場合を優先させるという合理的な認定を行うことが
できる。したがって前記「サー2」が第3図の83であ
ってこれが第1候補となり、前記「ター1」が81.「
ター3」がS□のよう外場合には81つまり「り」が距
離が小さいものとして出力することができろ。
しかも多数の登録されたパラメータとD 、P照合法に
より照合するため、照合時間が長(なり応答時間がおそ
(なるため、DP照合に先立ち、第1図に点線で示すよ
うに候補音声削減部6を設け。
DP照合対象数を削減することが研究されている。
この候補音声削減手段としては次のようなことが研究さ
れている。
■ 母音は子音に比較して安定した部分なので母音のみ
のパラメータで比較する。
■ 1)Pマツチングパスを選定するとき時間の伸縮を
行わずに簡単に照合する。
■ DPマツチングバスで照合するとき照合するパラメ
ータ数を特足のものに限定する。
ところでこのようにして照合対象を削減すると次のよう
な問題が生ずる。
このような削減により、仮りに第3図に示すS3〜S3
が削減されるとき、前記平均値計算方法はそのグループ
内のパラメータを近いものから順に適肖数選択すること
ができなくなり正確な平均値計算かで@な(f【ろこと
になる。
発明の目的 本発明の目的は、このような問題点を改善して。
照合時間を短縮するために候補音声削減を行った場合で
もこの平均値計算方法の利点を残して照合を行うことか
できろようVC,するものであって、最初の照合により
出力された複数の候補をみて誤り易いような候補が出力
されたときこれを再照合するときに、もしその候補の登
録パラメータのグループの少くとも1つが上記候補音声
削減により削減されたときは平均値計算方法を行なわ7
よいようにした単音節音声認識処理方式を提供すること
である。
発明の構成 この目的を達成するために本発明の単音節音声認識処理
方式では、予め各単音節に対し複数の音声を登録した登
録部と、該登録された総ての単音?Ji’i音声と未知
入力単音節音声とを簡単な特徴量により照合して候補削
減する候補削減部と、残された候補単音節音声と未知入
力単音節音声との精密照合を行う照合部と、複数の再照
合候補単音節を選出する再照合候補順位部を備え、この
再照合候補単音節の組合せに適した識別乃至照合方式に
よって再照合する単音節音声認識装置において、未知入
力と同一単音節に対する複数の登録単音節グループとの
距離の平均値を算出する平均値算出部を設け、再照合候
補単音節が予め足めた組合せであり、且つ、同一の単音
節である複数の登録単音節音声と未知入力単音節音声と
の距離が、再照合候補単音節の組合せに応じて足められ
た個数以上求められている場合、算出された同一の単音
節である複数の登録単音節音声と未知入力単音節音声と
の距離を小さいものから順に、再照合候補単音節の組合
せに応じて定められた個数取り出し、その平均値を未知
入力単音節音声と登録単音節音声との距離として足義し
、その>1義された距離によって再照合候補順位を求め
、また算出された同一の単音節である複数の登録単音節
音声と未知入力単音節音声との距離が再照合候補単音節
の組合せに応じて足められた個数以下である場合、再照
合候補11+ri位をそのままにすることを特徴とする
発明の実施例 本発明の一実施例を第2図〜第4図により説明する。
第2図は本発明の一実施例構成図、第3図は平均値計算
の説明図、第4図は平均値計算部の動作説明図である。
図中、10は前処理部、11はパラメータ抽出部、12
は切替部、13は登録部、14は候補音声削減部、15
はDP照合部、16は再照合候補選定部、17は各種再
照合部、18は平均値計算部、19は判定部である。
前処理部10は、第1図の前処理部1に対応するもので
あって、入力レベルを一定に保持したり。
雑音を除去する外に、後述する再照合の際に使用する可
能性があるために2通常の入力レベルのものの外に、閾
値を少し下げて弱い音声部分でもこれを保持するように
構成されている。
パラメータ抽出部11は2例えば16種類のバンドパス
フィルタを備えてサンプリング周期毎にこれらをA/D
変換してディジタル信号を出力するものである。勿論こ
のシステムにおけろパラメータがフォルマント周波数を
使用する場合にはフォルマント抽出手段を具備するもの
でありLPGを使用するときはこれを得るように構成さ
れろものであって、第1図のパラメータ抽出部2に対応
するものである。
切換部12はパラメータ抽出部11から出力されたパラ
メータを、特定話者登録のときはこれらを登録部13に
送出してこれに格納し、また照合の場合にはDP照合部
15に送出するよ5に動作するものである。
候補音声削減部14はDP照合部15において精密照合
の対象となる登録音声数を削減するものであり2例えば
母音のみのパラメータで照合した1)、DPマツチング
バスを選定するときの時間の伸縮を行わずに簡単に照合
したり、またDPマツチングパスで照合するパラメータ
数を特定のものや半分または1程度に限足したりして、
簡単な特微量により照合をして照合対象候補を削減する
ものであり、第1図の候補音声削減部6に対応する。
DP照合部15は未知入力のパラメータと、候補音声削
減部14から送出された。登録された単音節音声のバラ
メークどのすべてをダイナミックプログラミング法によ
り照合してその照合結果を出力jろ。再照合候補選定部
16ばDP照合部15から出力された照合結果にもとづ
きその距離の小さい順位により複数の候補を選定すると
ともに。
選定した候補が上記のように誤判定し易いものであれば
これを再照合すべく各種再照合部17や平均値計算部1
8に送出し、その遠足候補が誤認の発生し難い場合の単
音節であればこれらを判定部19に直接送出する。
各種再照合部17は、DP照合部15におけろ1)(4
合結果により再照合候補選定部16が再照合を行う必要
があると判断したときに動作するものである。この各種
+’4照合部17には1例えば(イ)子音部分のみ抽出
してDP照合を行うとか、(ロ)周波数の旨いところの
み抽出(例えば「Sa」は摩擦性があろため周波数の高
域部分にエネルギーがあり。
「TaJは破裂音のため摩擦性がないため周波数の高域
部分のエネルギーは弱い)してDP照合したり、(ハ)
す行は出だし部分が弱いので、前処理部10で保持して
いた閾値を低(した音声入力信号にもとづきパラメータ
抽出を行って再照合したり等のことを、必要に応じて全
部fたは選択的に行う。
平均値計算部18は未知入力と特定単音節のグループと
の平均距離を求めるものであって、第3図について上記
説明した如く1式(1)や(2)〜(4)の計算を行っ
てその距離を新らkに算出する。この場合、前記候補音
声削減部14が9例えば第3図における83〜S3を削
減したときには53vCついて平均値を求めることがで
きないので、このように平均値計算を求めることが指示
された候補の1つが平均清算1出不可能なときはこの平
均値計qの指示された全候補をDP照合部15での照合
のままで判定部19に送る。勿論平均値算出可能な場合
にはこれを計算する。したがって平均値計算部18では
再照合候補選定部16から候補(例えば第3図の83.
  Sl)が伝達きれたとき、第4図に示すように、そ
の候補の単音節毎に特徴パラメータ81〜S1を未知人
力Xでの距離の小さい順に並らべろ二Slの場合は5l
−81−81−8よとなり、Saの場合には53−83
−83−83となる。次に各単音節毎にに番目(例えば
2番目)fでの平均距離を上記(2)式。
(4)式により求める。そしてこのようにしてKN’、
N(K−nearest neighbor )法によ
り求めたこの81゜Saを平均距離の小さい順、つまり
Sl−Saの順に候補の順位を変えて判定部19に出力
することになる。
判定部19は円照合候補選定部16からの候補と、各種
再照合部17からの出力候補と、平均値計算部18から
の出力候補をみてその距離のもっとも小さいものから1
つまたは複数個の候補を出力するものである。したがっ
て再照合候補選定部16からのみ候補が出力されたとき
は、これが出力されることになる。
次に第2図に示す本発明の動作について説明する。
(1)  まず特定話者が上記の如く各単音節について
発声してその特徴とするパラメータをパラメータ抽出部
11に抽出し切替部12を経由して登録部13に登録す
る。この場合、特定話者は複数同各単音節を入力する。
この入力は伜定早音節を複数回数連続発声して入力する
よりも、不連続で入力することが望ましい。
(2)次に特定話者から未知の単音節Xが音声入力され
たとき、前処理部10で上記の如く前処理を行い、パラ
メータ抽出部11で特徴パラメータが抽出され、切替部
12を経由してDP照合部15に伝達されろ。先ず登録
部13に登録された各単音節音声と仁の未知入力単音節
音声との簡単な照合が候補音声削減部14により行われ
て照合候補が削減される。それからI)P照合部15に
より。
この未知入力単音節音声と候補音声削減部14かう送出
された登録単音節音声の各パラメータとのすべてをダイ
ナミックグログラミング法により照合し、その距離計算
が行われ、それが再照合候補選定部16に出力される。
(3)  再照合候補選定部15はこのDP照合部15
の出力を距離の小さい順に選別して特定数の候補の順位
づけする。そしてこの選別された候補が誤認され易いも
のかどうか等を内蔵するテーブルを参照して判別し9例
えば「Sa」と「KaJのように誤認のおそれのほとん
どない場合には、これらを判定部19に出力する。
(4)シかし誤認の恐れのあるものについては。
その内容に応じて各種再照合部16及び/或は平均値計
算部18にこれらの候補を出力する。そして各種再照合
部17では登録部13から登録パラメータを得、未知人
力Xのパラメータを切替部12から得て上記の如<、D
P照合部14とは異なる照合を行い、その結果を判定部
18に出力する。
(5)平均値計算部18にこれらの候補が出力されたと
き、平均値計算部18は、これらの候補の属するグルー
プの各パラメータと未知人力Xとのパラメータとの距離
を先に演算ずみのDP照合部15より求め、これらを、
第4図に示すように。
候補となった各単音節それぞれに対してに個(上記(2
)〜(4)式の例ではに−2)以上の音声についての距
離が求められているか否かを判定し、求められないとき
(例えば上記の如< Sa〜S3が削減されたとき)は
平均値計算を行わずにDP照合部15における距離計算
結果をそのまま判定部19に出力する。しかしに個以上
求められているときは。
各単音節毎に、距離の小さい順に並らべ、各単音節毎に
に番目までの平均値距離を算出する。そして平均値の小
さい順位に出力する。
(6)判定部19は、再照合候補選定部16のみから複
数(単位)候補が伝達されたときはこれをそのまま認識
結果として出力する。そして各種再照合部17や平均値
計算部18から複数(単数)候補が伝達されたときは、
これらの候補の5ちから距離のもっとも小さい順位で候
補を選択し認識結果として出力する。
なり・上記説明では同一音節の登録入力回数を4または
5とし、平均値計算部での距離計算結果敬を2とした例
について説明したが9本発明は勿論これらにのみ限定さ
れるものではなく適宜選別できるものである。
発明の効果 本発明によれば候補音声を削減して認識速度を上げた場
合でも誤り易い候補に対しては各種再照合や、また可能
な限り平均値計算を行うことができるので、認識速度の
みならず認識率をも向上させることができる。
【図面の簡単な説明】
第1図は従来の単音節音声認識処理方式、第2図は本発
明の一実施例構成図、第3図は平均値計算の説明図、第
4図は平均値計算部の動作説明図である。 図中、lOは前処理部、11はパラメータ抽出部、12
は切替部、13は登録部、14は候補音声削減部、15
はDP照合部、16は再照合候補選定部、17は各種再
照合部、18は平均値計算部、19は判定部である。 特許出願人 富士通株式会社 代理人弁理士 山 谷 晧 榮

Claims (1)

    【特許請求の範囲】
  1. 予め各単音節に対し複数の音声を登録した登録部と、該
    登録された総ての単音節音声と未知入力単音節音声とを
    簡単な特徴量により照合して候補削減する候補削減部と
    、残された候補単音節音声と未知入力単音節音声との精
    密照合を行う照合部と、複数の再照合候補単音節を選出
    する再照合候補選定部を備え、この再照合候補単音節の
    組合せに適した識別乃至照合方式によって再照合する単
    音節音声認識装置において、未知入力と同一単音節に対
    する複数の登録単音節グループとの距離の平均値を算出
    する平均値算出部を設け、再照合候補単音節が予め定め
    た組合せであり、且つ、同一の単音節である複数の登録
    単音節音声と未知入力・)・、音節音声との距離が、再
    照合候補単音節の組合せに応じて足められた個数以上求
    められている場会、算出された同一の単音節である複数
    の登録単音節音声と未知入力単音節音声との距離を小さ
    いものから順に、再照合候補単音節の組合せに応じて足
    められた個数取り出し、その平均値を未知入力単音節音
    声と登録単音節音声との距離として定義し、その定義さ
    れた距離によって再照合候補順位を求め、また算出され
    た同一の単音節である複数の登録単音節音声と未知入力
    単音節音声との距離が再照合候補単音節の組会せに応じ
    て足められた個数以下である場合、再照合候補順位をそ
    のまfにすることを特徴とする単音節音声認識処理方式
JP57231966A 1982-12-29 1982-12-29 単音節音声認識処理方式 Pending JPS59124393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57231966A JPS59124393A (ja) 1982-12-29 1982-12-29 単音節音声認識処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57231966A JPS59124393A (ja) 1982-12-29 1982-12-29 単音節音声認識処理方式

Publications (1)

Publication Number Publication Date
JPS59124393A true JPS59124393A (ja) 1984-07-18

Family

ID=16931837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57231966A Pending JPS59124393A (ja) 1982-12-29 1982-12-29 単音節音声認識処理方式

Country Status (1)

Country Link
JP (1) JPS59124393A (ja)

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
Pandit et al. Feature selection for a DTW-based speaker verification system
US4078154A (en) Voice recognition system using locus of centroid of vocal frequency spectra
Dey et al. Exploiting sequence information for text-dependent speaker verification
Ozaydin Design of a text independent speaker recognition system
Tong et al. Tokenizing fundamental frequency variation for mandarin tone error detection
JPS59124393A (ja) 単音節音声認識処理方式
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
JP2001265387A (ja) 話者照合装置及び方法
JPS58108590A (ja) 音声認識装置
JPS59124394A (ja) 単音節音声認識方式
US8688452B2 (en) Automatic generation of distractors for special-purpose speech recognition grammars
JPS5936759B2 (ja) 音声認識方法
JPS58159598A (ja) 単音節音声認識方式
Song et al. Query-by-example spoken term detection based on phonetic posteriorgram
JPS60147797A (ja) 音声認識装置
JPS5934597A (ja) 音声認識処理装置
JPS60115996A (ja) 音声認識装置
JPS59124390A (ja) 候補削減音声認識方式
JPH06100919B2 (ja) 音声認識装置
Nair et al. Digit Recognition based on Euclidean and DTW
Tan et al. A fast approach to spoken term detection based on prosodic dynamic features
JPS5977500A (ja) 単語音声認識方式
JPH04166900A (ja) 音声認識装置