JPH037960B2

JPH037960B2 -

Info

Publication number: JPH037960B2
Application number: JP58076562A
Authority: JP
Inventors: Mitsuko Kaseda; Yasuo Sato; Takayuki Fujimoto; Kazunari Hatanaka
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-04-30
Filing date: 1983-04-30
Publication date: 1991-02-04
Also published as: JPS59201100A

Description

【発明の詳細な説明】 (a) 本発明は単語または単音節を認識対象とする
音声認識における音声標準パタン登録方法に関
する。

(b) 技術の背景近年データ処理技術の発達と普及に伴いデータ
処理システムにおけるデータ入出力手段の一端と
して、当初は音声制御による仕分け、電話回線に
おける案内サービス程度にとどまつていた音声認
識・合成技術も半導体特に集積化技術と回路設計
技術の進展に支えられ、演算処理の高速あるいは
大容量記憶を要する実現手段の小形且低コスト化
が得られるようになつて、日本語による音声入出
力手段が分散処理および対話形式に適し操作者に
特別の習練を必要とすることのない操作が容易な
入力音声〜デンタルデータ間の変換機能を生かし
たデータ処理装置として普及するようになつた。

(c) 従来技術と問題点従来より音声認識装置は通常特定話者のため認
識すべき入力音声における複数の単語または／お
よび単音節を設定して、先行入力する角単語また
は／および単音節を予め帯域フイルタ群に印加し
て得るスペクトル出力毎に標本化して得た特徴パ
ラメータをデータとして蓄積し、これを各単語ま
たは／および単音節に対応する音声標準パタンと
し、その后は該話者の入力音声による音声パタン
を該標準パタンと比較することによつて未知音声
を入力する都度対応するデイジタルデータに変換
する機能を備えている。従つて音声認識装置では
入力音声による音声パターンを認識するため、単
語または／および単音節に対応する音声標準パタ
ンを登録する都度ｎ回例えば４〜８回ずつ、複数
ｐ個の単音節例えば68個または101個では総計
68／101×（４〜８）の発声を必要とする他のデー
タ入力装置にはない煩わしさが存在する。この音
声標準パタン登録時の発声繰返しは話者の負担だ
けでなく例えばRAMによる記憶容量および装置
におけるデータ処理量が増大するのでコスト上か
らも少ない方が望ましいが単純に発声回数を減少
することは認識機能の信頼性を低下する欠点があ
つた。

(d) 発明の目的本発明の目的は上記の欠点を除去するため、よ
り少数回可能な限り例えば単語または／および単
音節毎に１回、必要な対象には２〜３回レベルに
よつて音声標準パターンを登録して寧ろ従来の複
数回ずつの発声入力によるレベルに匹敵する音声
標準パターンを確保せしめるところの、発声回数
の削減と信頼性の確保を両立させる音声標準パタ
ン登録の手段を提供しようとするものである。

(e) 発明の構成この目的は、特定話者の未知入力音声との照合
を行う音声標準パタイを辞書に登録する音声標準
パタン登録方法において、多数話者からの複数の入力音声パタンを音声標
準パタン候補として複数記憶する音声標準パタン
候補辞書を有し、前記特定話者の未知入力音声を音声処理部に入
力して得られる音声パタンと、該候補辞書中の音
声標準パタン候補とを比較してその類似度を求
め、登録すべき音声毎に設定した類似度の閾値およ
び登録数に応じて、該閾値以上でかつ登録数以下
の音声標準パタン候補を選択し、該選択したも
のを特定話者の音声標準パタンとして登録する、ことを特徴とする音声標準パタン登録方法を提供
することにより達成することができる。

(f) 発明の実施例以下図面を参照しつつ本発明の一実施例につい
て説明する。第１図は本発明の一実施例における
音声標準パタン登録方法のブロツク図、第２図は
音声標準パタン候補辞書における音声標準パタン
候補、標準パタンおよび音声パタンの相関を示す
模式図および第３図は本発明の一実施例における
音声標準パタン登録方法における処理手順を示す
フローチヤートである。図において１は制御部、
２は記憶部、２１は制御プログラム、２２は制御
データ、２３は音声標準パタン候補辞書、２３
ａ，ｂ…ｐ、は音声標準パタン候補群、２３aa，
ab，ac，…aq…は音声標準パタン候補、２４は
音声登録標準パタン辞書、２４ａ，ｂ…ｐは音声
標準パタン群、２４aa，ab…ah…は音声標準パ
タンである。制御部１は記憶部２の記憶領域に蓄
積する制御プログラム２１および制御データ２２
に従つて構成各部を制御して音声入力信号に伴い
その音声標準パタンを選択して特定話者に対応す
る音声標準パタン辞書２４を作成する。記憶部２
はその記憶領域に制御プログラム２１および各標
準パタン候補と比較対象となる音声パタンとの類
似度における閾値あるいは各単語または／および
単音節に対応する標準パタン候補群２３ａ，ｂ，
…ｐ毎から選択して標準パタン２４ａ，ｂ…ｐ毎
に登録する標準パタンの数（以下登録数）値を設
定する。尚単音節例えば“ア”に対応する多数話
者ａ，ｂ，ｃ…ｑ）の音声パタンは標準パタン候
補群２３ａにおける標準パタン候補２３aa〜aq
に記憶されており、未知話者の“ア”のための標
準パタン２４aa，ab…ahは標準パタン群２４ａ
に収納されるものとする。但し標準パタン候補２
３aaは標準パタン２４aaとは直接対応するもの
ではない。ここで標準パタン候補群の２３ａ〜
ｐ、標準パタン群の２４ａ〜ｐの数は等しく且各
単語または／および単音節の単位総数に対応す
る。例えば６８または１０１であるまた各標準パ
タン候補群２３ａ〜ｐに共通する標準パタン候補
の数ａ〜ｑは予め蓄積した多数話者ｑの数に対応
し、標準パタン群２４ａ〜ｐに共通する標準パタ
ンａ〜ｈは登録数に対応し例えば６である。ここ
で、本発明の一実施例においては図示省略したが
通常特定話者の発声例えば“ア”をマイクロフオ
ンに入力して得られるアナログ電気信号による入
力信号を音声処理部３に入力してその特徴パラメ
ータを抽出して音声パタンを作成する。即ち入力
信号を音声周波数200〜5400Hzをｍチヤンネル例
えば16の帯域フイルタと時間的変化をｎ個譬えは
16または32個に標本化する手段によつて得られる
スペクトルの特徴を256または512個のデータに表
現する音声パタンXaに変換して送出する。音声
パタンXaを印加された比較部４は制御部１の制
御に従い第２図に示す標準パタン候補群２３ａの
○印に対応する標準パタン候補２３aa〜aqのデ
ータと比較して予め制御データ２２に設定された
閾値の範囲で最も類似度の高い即ちデータとの距
離が近い標準パタン候補から順に同じく制御デー
タ２２の登録数だけ例えば６個選択して標準パタ
ン群２４ａに標準パタンaa〜ahここでは６個の
標準パタンaa〜afを登録する。同様に他の音声
パタンXpは標準パタン候補群２３ｐの●印に対
応する標準パタン候補２３pa〜pqおデータと比
較して標準パタンpa〜pfを標準パタン群２４ｐ
に登録する。第２図における標準パタン候補群２
３ａを示す変形楕円は領域を囲む外部線ではなく
最外分布部に存在する〇印の標準パタン候補を結
ぶ表示線であり、同様に標準パタン群２４ａを示
す円形も×印により示した音声パタンXaから近
い距離に選択した標準パタンを結んだ表示線であ
る。このように特定話者の１回発声による音声パ
タンによつても過去に蓄積した多数話者の音声パ
タンにおけるデータによつて構成される標準パタ
ン候補辞書２３の中から選択して標準パタン辞書
２４を作成すれば従来標準パタン群２４ａ，ｂ…
ｐを登録するのに複数回ずつ発声を必要としてい
た煩しさを各単語または／および単音節毎に１回
ずつ計ｐ回の発声だけで特定話者に対応する標準
パタン辞書２４が登録出来るので有効である。

尚上記の説明では発声に伴う音声データ例えば
第２図の×印点即ち音声パタンXaについては標
準パタン群２４ａの標準パタンaa〜afには採用
しなかつたが音声パタン自身についても例えば標
準パタンagとして標準パタン群２４ａの構成と
すればより高い密度のデータとして期待できる。

更にある入力信号による音声パタンZaが第２
図に示す印点のように従来の音声パタン候補２
３aa〜aqとは著しく異なる類似度として分布か
ら逸脱して得られたときは、これを誤り入力信号
るたは音声処理部３の誤動作として制御部１が判
定して以後のデータ処理を抑止し標準パタンaa
〜ahを設定しないように制御すれば誤つた標準
パタン辞書２４が登録されることはない。この時
は必要により図示省略したがその旨例えば注意表
示をして再度話者に同一音ここでは例えば“ア”
を発声させるようにする。また本実施例では標準
パタン候補として多数話者の音声パタンを用いた
が、多数の該音声パタンから平均化等の手法によ
り合成するパタンないしはその両方を用いても同
様に実現出来ることはいう迄もない。

(g) 発明の効果以上説明したように本発明によれば従来特定話
者の未知音声を認識するためｐ個の単語または／
および単音節に対する標準パタン辞書を登録する
のに各複数回ずつを発声させて得た煩しさとその
データ処理に対して１回またはより少数回によつ
て登録出来るので話者の発声における煩しさとそ
の処理工数を大幅に減殺出来るので有効である。

【図面の簡単な説明】

第１図は本発明の一実施例における音声標準パ
タン登録方法のブロツク図、第２図は音声標準パ
タン候補／標準パタン／音声パタンの相関を示す
模式図および第３図は処理手順を示すフローチヤ
ートである。

Claims

【特許請求の範囲】１特定話者の未知入力音声との照合を行う音声
標準パタンを辞書に登録する音声標準パタン登録
方法において、多数話者からの複数の入力音声パタンを音声標
準パタン候補として複数記憶する音声標準パタン
候補辞書を有し、前記特定話者の未知入力音声を音声処理部に入
力して得られる音声パタンと、該候補辞書中の音
声標準パタン候補とを比較してその類似度を求
め、登録すべき音声毎に設定した類似度の閾値およ
び登録数に応じて、該閾値以上でかつ登録数以下
の音声標準パタン候補を選択し、該選択したものを特定話者の音声標準パタンと
して登録する、ことを特徴とする音声標準パタン登録方法。２上記選択した音声標準パタン候補と共に、登
録時の入力音声により得られた該音声パタンを併
せて特定話者の音声標準パタンとして登録するこ
とを特徴とする特許請求の範囲第１項記載の音声
標準パタン登録方法。３音声処理部に入力して得られる音声パタンが
上記音声標準パタン候補辞書の音声標準パタン候
補による分布より逸脱することを検出したとき
は、該音声パタンによつて行う音声標準パタンの
登録処理を抑止することを特徴とする特許請求の
範囲第１項記載の音声標準パタン登録方法。