JPH0634177B2 - 連続単語認識装置 - Google Patents

連続単語認識装置

Info

Publication number
JPH0634177B2
JPH0634177B2 JP61221530A JP22153086A JPH0634177B2 JP H0634177 B2 JPH0634177 B2 JP H0634177B2 JP 61221530 A JP61221530 A JP 61221530A JP 22153086 A JP22153086 A JP 22153086A JP H0634177 B2 JPH0634177 B2 JP H0634177B2
Authority
JP
Japan
Prior art keywords
pattern
word
standard
standard pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61221530A
Other languages
English (en)
Other versions
JPS6375797A (ja
Inventor
浩美 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP61221530A priority Critical patent/JPH0634177B2/ja
Publication of JPS6375797A publication Critical patent/JPS6375797A/ja
Publication of JPH0634177B2 publication Critical patent/JPH0634177B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、連続単語認識装置における精度向上に関する
ものである。
(従来の技術) 音声認識は、計算機にデータやコマンドを入力する手段
として有効であり、従来から多くの認識装置が発売され
ている。それらの装置における認識の原理としては、パ
ターンマッチング法が広く用いられている。この方法
は、認識対象となる単語の標準的な音声パターンを1個
または複数個用意しておき、未知の発声、すなわち入力
パターンが与えられると標準パターンと比較を行い、最
も類似した標準パターンのカテゴリに属する単語を認識
結果とするものである。この方法によって、離散的に発
声された単語の認識においては、十分に高い認識率が得
られている。
連続発声された単語の場合も、このパターンマッチング
法の原理で認識することができるが、連続した発声で
は、前後に連結された音韻の影響のためにパターンの物
理的特徴が歪む“調音結合”という現象が起こる。その
ため、離散的に発音された単語の標準パターンとは大幅
に異なるパターンとなり、語認識を生じる原因となって
いた。
この調音結合の問題に対処する方法として現在提案され
ているものに、“連続登録方式”や“半単語対標準パタ
ーン方式”がある。連続登録方式は、3桁連続発声の2
桁目の単語を切出して標準パターンとするものである。
この方式については、例えば、1980年5月発行の日本音
響学会講演論文集の573頁〜574頁に詳しく記述されてい
る。また、半単語対標準パターン方式については、特開
昭57-178295号明細書に詳しく記述されている。この方
法は、離散発声された単語と連続発声された単語列か
ら、半単語対標準パターンを作成し、それらを標準パタ
ーンとして用いるものである。半単語対標準パターンの
作成と認識処理は、以下の手順で行われる。
まず、離散発声単語から離散半単語対パターンを作成す
る。離散発声単語における単語中央特徴点を求め、その
特徴点より前半部分と、後半部分をそれぞれ離散半単語
対パターンとする。次に、連続発声単語列より連続半単
語対パターンを作成する。連続半単語対パターンは、認
識対象単語の総ての対に対して作成される。連続発声し
た単語列と中央特徴点の定められた離散発声単語との間
でパターンマッチングを行うことにより、対応する特徴
点を連続発声単語上に求め、前の単語の中央点から後の
単語の中央特徴点までを連続半単語対パターンとする。
このようにして求められた離散、および連続半単語対パ
ターンを標準パターンとして、パターンマッチング法に
よる認識処理が行われる認識結果は、最大の類似度が得
られた標準パターン系列のカテゴリ各列として得られ
る。この際、標準パターンの連結が不連続にならないよ
うに、オートマトン制御のもとにパターンマッチングが
行なわれる。前記明細書では、この方法が調音結合に対
して有効であるとされている。その理由は、作成された
半単語対パターンが、単語間境界における調音結合によ
る変形の物理的特徴を、そのまま待つことができるため
である。
(発明が解決しようとする問題点) 以上説明した連続単語認識装置では、調音結合の問題へ
の対策として、変形を含んだ標準パターンを用いていた
が、それらの個数はカテゴリーごとに同数であった。し
かし、調音結合によるパターンの変形の度合いは、対に
よってまちまちである。そのため、従来の方式では、変
形の激しい単語に対しては、変形のばらつきの大きさの
ため用意された数の標準パターンは全ての変形に対処で
きない場合があり、誤認識の原因になっていた。また逆
に、変形の小さい単語対に対しては、離散発声から作成
した標準パターンとほとんど同種のパターンが用意され
ることになり、そのために、メモリ容量が無駄に使われ
てしまっていた。すなわち、従来方式による連続単語認
識では、標準パターンが調音結合の変形の度合いに応じ
たものでないために、有効なパターンが不足し、代りに
無駄なパターンが存在していた。これは、認識の精度を
低下させる原因であった。
さらに、従来では、変形を含んだ標準パターンは、定め
られた桁数の連続発声から作成した。すなわち、連続登
録方式では3桁連続発声から、半単語対パターン方式で
は2桁連続発声から標準パターンを作成していた。しか
し、連続発声に現れるパターンの変形の中には、発声桁
数に依存するものも存在する。そのため、様々な桁の多
数桁認識を行う場合には、このような特定の桁数の連続
発声から作成した標準パターンのみでは、変形の多様性
に対応できない場合が生じ、認識の精度を低下させる原
因となっていた。
本発明の目的は、上記のような欠点を除去し、限られた
標準パターン記憶容量の中で、調音結合による変形に最
大限に対処することのできる連続単語認識装置を提供す
ることにある。
(問題点を解決するための手段) 本発明による連続単語認識装置は、次のような各部を必
要とする。すなわち、利用者が初めに発音すべき単語又
は単語列セットを保持する登録初期情報格納部と、利用
者によって発声された登録用音声を格納する登録用音声
格納部と、前記登録用音声格納部の音声より標準パター
ンを作成する標準パターン作成部と、前記標準パターン
作成部における標準パターン作成処理の際に得られた情
報をもとに、登録すべき標準パターンを選択し、利用者
が追加発声すべき単語又は単語列を求める標準パターン
セット評価部と、前記登録初期情報格納部に格納されて
いる単語や単語列および前記標準パターンセット評価部
にて得られた発声者の発声すべき単語や単語列の提示を
行う提示部と、前記標準パターン作成部にて得られた標
準パターンのうち前記標準パターンセット評価部で選択
されたパターンを格納する標準パターン格納部と、利用
者によって発声された入力パターンを格納する入力パタ
ーン格納部と、前記標準パターン格納部の標準パターン
の連なりとして入力パターンを認識する認識処理部の各
部である。
(作用) 本発明による連続単語認識装置は、調音結合の変形の度
合いと種類に応じた標準パターンの集合を求めることに
より、従来よりも精度の高い認識を実現するものであ
る。すなわち全種類の標準パターンの中で、調音結合に
よる変形を激しく受けたパターンは個数を多く、また、
変形の少ないパターンは、個数を少なくすることにより
標準パターンの質を向上させ、認識の精度を上げるとい
うものである。
各パターンの個数は、標準パターンの作成時に求められ
る調音結合による変形の度合いの尺度、または、同一パ
ターンの発声のばらつきに基づいて定められる。調音結
合による変形の度合いは、連続パターンと、離散パター
ンとの類似度により求められる。類似度が小さい時は、
調音結合による変形が激しいとみなして、その変形を受
けたパターンを登録パターンとして選択する。また、反
対に類似度が大きい時は、変形が少ないので離散発声パ
ターンで代用できるとみなして、標準パターンとしては
選択しない。さらに、ばらつきは、同じ発声をした時の
パターン間の類似度より求めることができる。ばらつき
が大きい場合は、総てのパターンを選択し、ばらつきが
小さい場合はパターンの一部を選択する。
標準パターンセット評価部では、上記の変形の度合いと
ばらつきの情報より、より多くのパターンを必要とする
かどうかの評価を行い、必要とする場合には、追加登録
によりパターンを得る。この時、追加登録用発声は、認
識装置の提示部より示され、利用者に発声を促す。
また、本発明による連続単語認識装置では登録初期情報
格納部と標準パターンセット評価部を設けることにより
様々な桁の単語列に現れる変形を有効に標準パターンと
して持つことを可能とする。それは、変形の現れる可能
性の高い単語列を登録初期情報格納部に格納しておき、
利用者により発声されたそれらの単語列から作成された
標準パターンの中から、標準パターンとして有効なもの
を標準パターンセット評価部にて選択して登録すること
により可能である。
(実施例) 以下に、本発明の実施例について図面を参照しながら詳
細に説明する。第1図は、本発明による連続単語認識装
置の一実施例を示すブロック図である。この装置の動作
は、標準パターン作成処理、標準パターン改良処理、認
識処理の3段階よりなっている。ここでは、認識対象と
して数字を、認識方式として半単語対パターン方式を例
にとり、上記の3段階に分けて動作を説明する。
標準パターン作成処理では、スイッチSはBに倒れてい
る。登録初期情報格納部1には、はじめに利用者によっ
て発声されるべき単語や単語列が格納されており、それ
らが順次提示部2に表示され、発声者に発声を促す。こ
こでは、登録用音声として、離散発声“0”〜“9”、
2桁連続発声“00”〜“99”、さらに、3桁連続発
声“060”,“161”,“262”,…,“96
9”を用いることとする。ここで、用いる3桁発声は、
2桁以下の発声では現れにくい変形の得られる可能性の
高い単語列であり、それらは、経験的に定められる。利
用者により発声されたこれらのパターンは、登録用パタ
ーン格納部3に格納され、標準パターン作成部4では、
これらの登録用発声より半単語対標準パターンを作成す
る。半単語対標準パターンの作成の手順は、従来と同様
に行うことができる。すなわち、はじめに、離散発声
“0”〜“9”のそれぞれのパターンに対して単語中央
特徴点を求め、その登録点より前半、後半を離散半単語
対パターンとする。第2図は、“3”に対して求められ
た半単語対パターンの切出しの様子を示したものであ
る。図に示すように、ここでは前半パターンを(φ,
3)、後半パターンを(3,φ)と表わすことにする。
次に、2桁連続発声列“00”〜“99”より1桁目の
後半と2桁目の前半部分よりなる半単語対パターン
(0,0)〜(9,9)を切出す。切出しは、作成した
離散半単語対パターンを連続したパターンとのマッチン
グにより行う。第3図に(1,2)の切出しの例を示
す。(1,2)は、離散半単語対パターン(1,φ),
(φ,2)に対応する部分として切出される。これらの
処理は、特開昭57-178295号に詳しく記述されているも
のと同一である。3桁発声からの切出しは、2桁発声の
場合と同様にマッチングによって行う。ただし、3桁発
声の場合は、2個の半単語対パターンを切出す。
本発明による連続単語認識装置では、連続半単語対パタ
ーンの切出しの際、マッチング時に得られた距離情報を
標準パターンセット評価部5に格納する。距離情報と
は、切出された連続半単語対標準パターン(x,y)と
マッチングされた離散半単語対パターン(x,φ)+
(φ,y)との単位時間当たりの距離である。すなわ
ち、 パターン(x,y)の距離情報DA(x,y)は、以下の
ように表わすことができる。
DA(x,y)=D[x,φ)(φ,y),(x,
y)]/t ここで、D[m,n]は、m,n間の距離であり、t
は、パターン(x,y)の時間長である。この情報は、
調音結合の度合いの尺度として扱うことができる。
また、同一の半単語対パターンが複数個存在する場合
は、パターン間の平均距離をパターンの種類ごとに計算
し、同様に標準パターンセット評価部5に格納する。例
えば、(x,y)が3個存在する場合、それらをパター
ンa,b,cとすると、平均距離DB(x,y)は、以下
のように定義できる。
DB(x,y)=(D[a,b]+D[b,c]+D
[c,a])/3 標準パターン改良処理では、標準パターンセット評価部
5に格納されたマッチング時の距離情報、各パターン間
の平均距離の情報より、作成された標準パターンを登録
するかどうかを求め、その情報を標準パターン作成部4
に送る。登録される標準パターンは、その情報に従っ
て、標準パターン格納部6に格納される。標準パターン
を選択するかどうかは、あらかじめ定められた距離情報
の閾値THDA、平均距離の閾値THDBを用いて求められ
る。まず、連続半単語対パターンの距離情報D
A(x,y)が閾値THDAよりも小さい場合は、調音結合
によるパターンの変形が少ないとして、パターン(x,
y)の登録は行わず、大きい時は、調音結合によるパタ
ーンの変形が大きいとして、パターン(x,y)を登録
する。また、パターン(x,y)の平均距離D
B(x,y)が、閾値THDBよりも小さい時は、パターン
のばらつきが小さいとして、パターンの一部を登録す
る。逆に閾値よりも大きい時は、パターンのばらつきが
大きいとして、総てのパターンの登録を行う。一部のみ
を登録する方法としては、例えば、パターン間の距離が
閾値THDBよりも小さい組の片方のみを登録する方法を
用いることができる。
標準パターンセット評価部5では、登録する標準パター
ンを選択した後、さらに距離情報、平均距離より追加登
録するパターンを求めることも可能である。例えば、平
均距離が概して大きく、かつ、パターン間のばらつきも
大きいという特徴をもつ標準パターンは、追加登録を行
う必要がある。その場合、標準パターンセット評価部5
では、そのような標準パターンを得るために必要な追加
発声を提示部2に表示し、利用者に発声を促す。
認識処理では、スイッチSは、Aに倒れている。認識処
理部8において、入力パターン格納部7に入力された1
桁数字、あるいは、複数桁連続数字と、標準パターン格
納6の半単語対標準パターンの連続パターンとのマッチ
ングを行い、認識結果を求める。その際、求められる結
果や半単語対パターンの接続に矛盾が生じないように有
限状態オートマトンによる制御を行う。例えば、パター
ン(φ,3)の後には、(3,x)x=φ,0,1,
…,9が接続しなくてはならない、という制御である。
このような有限状態オートマトンの制御のもとで認識処
理を行う認識処理部8の構成と動作、および有限状態オ
ートマトンは、前記明細書に記述されているのでここで
は省略する。
結果は、許される半単語対標準パターンの接続列の中で
最も距離の小さいものから求められる。例えば、(φ,
7)(7,6)(6,φ)という系列が得られたとする
と認識結果は“76”となる。
以上、本発明による連続単語認識装置の原理を半単語対
標準パターン方式に基づいて説明したが、これは、連続
発声中より切出された単語を標準パターンとして用いる
連続登録方式にも適用できるのは自明の事である。さら
に、CV(子音母音の連結)、CVC(子音母音子音の
連結)などを単位として連続音声を認識する方式では、
本方式の単語をこれらの単位に置き換えて適用できるこ
とは明白である。
(発明の効果) 以上説明した本発明による連続単語認識装置では、調音
結合による変形の度合いに応じた標準パターンを用いる
ことができるため、認識の精度が向上し、誤認識が減少
する。すなわち、変形が激しい単語列に対しては、平均
個数よりも多い標準パターンが用意されるため、従来方
式よりも多くの変形のばらつきに対処できる。また、本
発明では、利用者の連続発声より変形の度合いを求め、
それに基づいて個数を決定するため、どの話者に対して
も各パターンが有効に利用される標準パターンを用意す
ることができる。さらに、様々な桁数の連続発声に表れ
る変形を含む標準パターンを有効に用いることができ
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
離散半単語対標準パターンの作成を説明するための図、
第3図は連続半単語対標準パターンの切出しを説明する
ための図である。 1……登録初期情報格納部、2……提示部、3……登録
用音声格納部、4……標準パターン作成部、5……標準
パターンセット評価部、6……標準パターン格納部、7
……入力パターン格納部、8……認識処理部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】利用者が初めに発声すべき単語又は単語列
    セットを保持する登録初期情報格納部と、利用者によっ
    て発声された登録用音声を格納する登録用音声格納部
    と、前記登録用音声格納部の音声より標準パターンを作
    成する標準パターン作成部と、前記標準パターン作成部
    における標準パターン作成処理の際に得られた情報をも
    とに、登録すべき標準パターンを選択し、利用者が追加
    発声すべき単語又は単語列を求める標準パターンセット
    評価部と、前記登録初期情報格納部に格納されている単
    語や単語列および前記標準パターンセット評価部にて得
    られた発声者の発声すべき単語や単語列の提示を行う提
    示部と、前記標準パターン作成部にて得られた標準パタ
    ーンのうち前記標準パターンセット評価部で選択された
    パターンを格納する標準パターン格納部と、利用者によ
    って発声された入力パターンを格納する入力パターン格
    納部と、前記標準パターン格納部の標準パターンの連な
    りとして入力パターンを認識する認識処理部とを有する
    事を特徴とする連続単語認識装置。
JP61221530A 1986-09-19 1986-09-19 連続単語認識装置 Expired - Lifetime JPH0634177B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61221530A JPH0634177B2 (ja) 1986-09-19 1986-09-19 連続単語認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61221530A JPH0634177B2 (ja) 1986-09-19 1986-09-19 連続単語認識装置

Publications (2)

Publication Number Publication Date
JPS6375797A JPS6375797A (ja) 1988-04-06
JPH0634177B2 true JPH0634177B2 (ja) 1994-05-02

Family

ID=16768160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61221530A Expired - Lifetime JPH0634177B2 (ja) 1986-09-19 1986-09-19 連続単語認識装置

Country Status (1)

Country Link
JP (1) JPH0634177B2 (ja)

Also Published As

Publication number Publication date
JPS6375797A (ja) 1988-04-06

Similar Documents

Publication Publication Date Title
US5748840A (en) Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US8731928B2 (en) Speaker adaptation of vocabulary for speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
EP0907949B1 (en) Method and system for dynamically adjusted training for speech recognition
US8655658B2 (en) Recognizing the numeric language in natural spoken dialogue
WO1994016437A1 (en) Speech recognition system
JPH0422276B2 (ja)
JP3703991B2 (ja) 自由音声評点法を用いた動的音声認識の方法および装置
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US20020152068A1 (en) New language context dependent data labeling
US6408271B1 (en) Method and apparatus for generating phrasal transcriptions
JPH0634177B2 (ja) 連続単語認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPS645320B2 (ja)
JPH04271397A (ja) 音声認識装置
JPH02300800A (ja) 音声認識装置
JPH0619497A (ja) 音声認識方法
JPS6073592A (ja) 特定話者用音声認識装置
JPH0372991B2 (ja)
JPH0415960B2 (ja)
JPH0119596B2 (ja)
JPS63161498A (ja) 音声情報入力装置
JPS6140686A (ja) 標準パタ−ン登録方式
JPS6011897A (ja) 音声認識装置