JPS5962897A

JPS5962897A - 音声認識方式

Info

Publication number: JPS5962897A
Application number: JP57173175A
Authority: JP
Inventors: 徳子松井; 俊宏木村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-10-04
Filing date: 1982-10-04
Publication date: 1984-04-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、標準音声パタンについて入力音声に対する類
似度が最−１−位のものを判定・出力する音−声認識装
置において、その人力音声分析を適正レベルで行って認
識率を向上させるだめの音声認識方式に関するものであ
る。

〔従来技術〕

一股に、音声認識装置バに対する入カバー声しベルは、
発声者の特質（例えば、性別１発声特性）、入力回線の
状態（例えは、電話回線の伝送損失）などによって大き
く変動する。

これに対して、従来の音声認識方式ｔよ、−例として、
あらかじめ入力陛声に対する利得を最適と考えられる所
定値に設定］〜でおき、その固定利得で全認識処理を行
っていた。−まだ、’Ｒ’　／”入力の際に発声者に対
して適正なＩＡ声レしベで発声するように特別なガイダ
ンスも行っていなかった。

したがって、大きな変動のある入力音声レベルのま寸で
人力音声分（Ｊｉがｒｉわれ、誤認識、リンエクトの発
生が不可避であり、認識率を一定限度以１−に同上ぜし
めることが困難であった。

〔発明の１］的Ｊ本発明の目的は、」二詑した従来技術の欠点をなくシ、
入力音声分析を適正レベルで行わしめて認識率を向上ぜ
しめる゛ことかできる音声認識方式を捉供することにあ
る。

〔発明の概要〕

本発明の音声認識方式に係る第１の発明の構成は、認識
対象の各単語−文に対応して各複数組の標準ｇ７声バク
／テータを記憶しておき、入力出用の！１１１′徴抽出
を行い、その時徴データと−１−記各標ｉ（７音声バタ
ンデータとのバタンマソヂング処理を行い、その類似度
が最」二位となるものをｄ１召識結果と１７て判定・出
力する機能を有する１４声認識装置において、入力音声
の特徴抽出を所定の適正レベルて行いうるように、一連
の音声認識処Ｊ、ｊｉｊの最明にのみ、まだは各音声入
力の都度もり、　＜　ｉ、Ｊ−所定回数ことに入力音声
のレベルチェック・利Ｈ４４調整を行い、その入力音声
利得で各入力音声の特徴抽出を行わしめるように制御・
処理するものである。

なお、上記において、一連の音声認識処理の最初にのみ
入力音声のレベルチェック・利得調整を行う場合、チェ
ック川のｉイ声人力は、所定内容の中詰・文によること
と１７、音声認識処理の効率向上、ザービス性向上を図
ろうとするものである。

これは、一連の発声（入力音声）が必ずしも大きなレベ
ル変動を伴なうものではないことを利用したものである
。

寸だ、同様に第２の発明の構成は、認識対象の各単語・
文に対応して各複数組の標ｑ−音声パタップ−タを記憶
（７ておき、入り月４声の特徴抽出を１１い、その特徴
ブータと」−記者標準音声バタンデータとのバタンマツ
ヂング処」ｌｊを行い、その類似度が最」−位となるも
のを認識結果として判定・出力する機能を有する音声認
識装置において、入力音声の！［Ｙ徴抽出を所定の適市
レベルで行いつるように、一連の名声認識処理の各音声
入力の都度その人力レベルのヂエツクを行い、それがｊ
ｒ、い［レベルであるときに１、その１′＋、ｒり声認
識処理を続行せしめ、それが適正レベルでないときは、
その人力レベルに応じ−Ｃ発声音声レベルを−１−下し
て内入力すべき旨の情報の表示斗だは送出をぜ（〜め、
これに基づいだ１−１１入力音声について音声認識処理
を行わしめるように制御・処理するものである。

これをυするに、入力レベルが適正化されるように、例
えば、発声者に対する情報としてメツセージ音声送出に
よるガイダンスを行うものである。

〔発明の実施例〕

以下、本発明の実施例を図に基ついて説明する。

最初に、第１図は、第１の発明に係る音声Ｍｕ　５！ｒ
ｉ力式の一実施例の方式構成図、第２図は、その帆用１
ノローヂャ−１・である。

ここで、■は、音声入力に係るマイクロフォン、２は、
入力音声信号について利得調整・帯域側σＩ１１を行つ
メξ後、そのディジタル変換をする人力部、３←し、入
力されたディジタル音声信号から入力音声のＪｊｑｉ、
徴データを抽出する分析部、４は、入力音声のｔ：！１
７３’区間の検出処理をして独立した単語を判定する音
声区間検出部、５は、入力音声と標（（ｆ１音声バタン
とのバタンマノチンク処理を行う−Ｂ声認識部、６は、
そのバタンマノヂング処理（炉似度記算処理）結果によ
り、入力音声に対する類似度が最−に位の標準音声バタ
ンの組を判定する判定部、７　ｆｒｊｌ、認識対象の各
１１１９語・文（複数の単語の集合、すなわら１１つ語
列）について各複数組の標ｑ′名声・；タンデータを格
納（記憶）している標準音声・ζタンメモリ、８は、そ
の選択制御をする標イｑ・音声・（タノ選択部、９は、
認識結果表示、音声人力指示に係る音声合成部、１０は
、同スピーカ、１１は、認識結果の確認および繰返し音
声入力の指示に係る＝１ノノール部、１．：１１１、上
記各部に対する制御その他所安の処理を行う制御部、１
３は、認識結果に基づいて所望のザーヒス処理を行うホ
スｌ：装置である。

まず、音声認識処理に先立ち、制（ｎ１１部１２シ」１
、ｉ等辺人力に対するイｌ；Ｉｔ、　０ｆｊｊを人力部
２７分４月部３．音声認識部５に指示するどどもに、そ
の時の認識対象となるべき語Ｉ鼾（例えば、数字、物品
名、地名等の分類別）についで、その標準音声パタンの
全相を標準音声バタンメ七り７から選択するように標／
ｖ、盲声バタ７選１尺部８に指示する（第２図の処Ｊ甲
　２１　）。

これらの準備が完了すると、発声者に対して音声入力を
促すべき入力催告メツセージを出力するよう合声合成部
９に指示するので、スピーノＪＬ　Ｏから上記人力催告
メツセーフか放声される（同処理２２）。

これより、発声者がマイクロフォン１かう音声を人力す
る（同処理２３）。

その音声入力が一連の認識処理の第１回［］であれは、
人力部２は、その入力音−声のレベルチェノクをし、入
力レベルが適正範囲よりも低い場合には利イ；）を」―
げ、逆に人力レベルか適正範囲よりも高い場合には利得
を下げるように利得調整をする（同処理３１）。

続いて、発声者に対（〜て同一内容の音声入力を内庭行
うように促すべき１１１人）月１１′告メノセ−／を１
４声合成部９紅山でスピーノＪＬＯから１ノ（声せしめ
る（同処理３２）。

−１−記の動作を人力レベルが適正範囲内に入る捷て繰
り返す。

ここで、人力レベルを適正範囲内（すなわち適正レー＼
ル）に入るようにすることとｔ、、１１、入力部２にお
ける利得調整（増幅）処理の結果、分（１１部３への人
力レベルが、その特徴抽出を最適：Ｉ）、、、態で行っ
て正確な！ｈｉ徴ｊ゛−タが得られる範囲内にあるよう
にすることである。

一例どして、分用部３の入力レベルについて、各Ｉ）′
１語の音声パワーのピーク値のうち最大のものの振幅が
所定の１′［ψ大値（例えは、」−５■）から最小値（
例えば、±３Ｖ）の範囲内に入るように設定される。

入力レベルか適正範囲内に入ると、分」１１部３は、そ
の入力音声利得で固定・入力されメこ適ｉロレベルの音
声信号を分４１１シ、その特徴データを抽出する（同処
理２４　）　。

次に、γτ小声認識５に１−１その特徴データと既選択
の標ＩＩ（、発声バタンデータとの間てパタンマツチン
クを行い、人力音声と各組の標準音声パタ／との類似度
を判定部６へ云える（同処理２５）。

判定部６は、類似度が最」１位の（最も確からしい）組
の標／ｖ（音声バタンを認識結果として制御部１２へ云
える（同処理２Ｇ）。

人力音声に対して最も確からしいづ追似度の値かｆｌｓ
：　＜　、それを認識結果とするのシ、ｌ、疑わしいと
才へきり／エクトの場合には、′１Ｉｉ１１１ｉ１ｉ１
部１２は、標？（（γＸ７！＋ハタ７選択部８に対して
今までと同一のパタンを選択するように指示するととも
に（同処理２９）、音７を合成部９に対して発声者の再
発声（１１１人力）を促すべきメノセー　ジを出力する
ように指示する（同処理３０）。

寸だ、リンエクトでない場合には、制御部１２ば、その
認識結果が正しいものであるか否かを発声者に確認さぜ
るための表示として、確認要求メソセー／を音声合成部
９から出力させ、それをスビーノノ１０から放声させる
（同処理２７）。なお、上記表示はコンソール部１１に
おけるランプ表示等によってもよい。

発声者は、これを聴取１７て、人力音声が正しく認識さ
れたのか、誤認識されたのかを知り、その旨をコンノー
ル部１１から制旬１１部１２へ人力する（同処理２８）
。

制御部［２への認識結果の正否の確認入力は、必ずしも
コンソール部１１における操作による必侠はなく、マイ
クロフォン１からの確認用音声の入力によってもよいが
、その内容は音声認識が確実に行われるようにｆ７ｉ′
ｉｉｌ’で誤認識をしにくいものであることが望捷しい
。

制御部１２は、−１−記確認情報により、上述の認識候
補が正１７いものであるときは、それを認識結果とし−
ごポスト装置１３へ送出し、１つの音声人力に対する処
理を終ｊ′せしめて次の入力に備える。

一方、誤認識であったという確認情報を受けだときには
、制御部１２は、リジェクトの場合ど同様に、標準音声
バタノ選択部８に対して今神でと同一の標準１１声バタ
ノ充選択するよう指示するとともに（同処理２９）、内
入力の催告メソ七＝−ジを出力するよう音声合成部９に
指示する（同処理３０　）　、、以にの動作を正しい認識結果が得られるまで繰り返して
行い、正（〜い認識結果が得られたときにＶ、１、そｔ
］を上述のごとくホスト装置１３へ送出（〜て処理を終
了ノーる。

寸だ、第２回目以降の音声人力の認識時には、人力音声
のノベルチェック・利得調整を行わず、人力されたｇ声
を分析部３へ直接に送出する。

このようにして人力１４声を適正レベルにしてから当該
特徴抽出を行うので１．ｉＪＥ確な特徴テークがイ：す
られて認識率の向」二に寄−ｔ５することができる。

」１記実施例において、入力音声のレベルヂエノク・利
得調整は、一連の１−１声認識処理の最初の音声入力に
ついてのみ行うように説明しているが、本発明Ｑよ、こ
れに限定されるものではなく、以後の音声人力の都度ま
たは実用上の都合による所定回数（例えは、２，３回）
ことに行うようにしても、これを妨げるものてないこと
は明らかである。

まだ、上記実施例において、一連の音声認識処理の最初
のヂエノク用の名声入力は、所定内容の単語・文によっ
て行い、そのチェック・調整処理を簡易化・効率化する
とともに、認識対象のΦ語・文の発声との区別によって
発声者に対するザービス性向りを図ることもできる。

次に、第３図は、第２の発明に係る音声認識方式の一実
論例の処理フローチャー１・てあって、その方式＋ｉ−
ｆ成図＆、Ｉ１、その１斗前述の第１図を用いることが
できるので、以下、第１図、第３図に基づい−Ｃ１−記
実施例の説明をするが、前述の第１の発明の実施例と異
なる部分のみとし、同様な部分（第２図の処理２１〜３
０に１９１するもの）につい−Ｃは省略する。

１ず、発声者がマイクロフォンＩから音声を人力すると
（第３図の処理２３）、入力部２は、その入力？二千−
声のレベルヂエツクをする。

この結果に基づき、制萌１部１２　＆；１．、ｒ）ｉＪ
述の適正レベルについての説明と同様に、人力レベルが
適ｉＥ範囲よりも１氏い」場合には、更に高レベルで丙
発声するように、寸たシ士人カレベルが適ｉＦ−範囲よ
りも高い場合には、史に低レベルで発声するように発声
者に知らせる情報−：しで、内入ノ月（ド告メン上−ジ
を一音声合成部９紅山でスピーカ１０から放声さぜ（同
処理３１Ａ）、発声者に１１１音声入力をぜしめる。こ
の動作を入力レベルが適正範囲内に入る」で繰り返し、
適正レベルになると処理２４以降の処理が行われる。

なお、最初から入力レベルが適正範囲内にあるときＣま
、直ちに」１記処理２４以降の処理が行わ）Ｌる。

寸／こ、」−記メッセージに代え、その旨の情報を・コ
ンノール部１１に表示するようにし−Ｃもよい７、以後
、前述の第１の発明の実施例と同様に第３図に示すごと
く所定の１声認識処理か行われるが、発声者に対する適
切なガイタンスを行うことに」、す、入力音声を適旧し
ベルにせしめてから当該！Ｉテ徴油抽出行うので、正確
な！［〒徴テータがｍられて認識率の向−１−に寄Ｊｊ
することができる。

〔発明の効果〕

見、七、詳ｉｉｉ＋１１に説明したように、本発明によ
れば、人ＪＪ音声分析を常に適正レベルで行い、正確な
特Ｃ改ブー　タによる音声認識処理か川面となるので、
認識率を向」二することができ、この種の音声認識／ス
デｊ・における信頼性、す°−ビス性、効率の向上に顕
著な効果が得られる。

【図面の簡単な説明】

第１図は、第１の発明に係るｉ′１声認識方式の一実施
例の方式構成図、第２図は、その処理フローデー）’−
１−、第３図は、第２の発明に係る音声認識力式の一実
施例の処理フロー＝ヂャートである。 ■・・・マイクロフォン、２・・人力部、３・・・分析
部、４・・１（テ声区間検出部、５　音声認識部、６　
・判定部、７・・標／Ｖ−音、ｊｎ　／’、タノメモリ
、８・・・標檗音声パタノ選択部、９・・音声合成部、
１０・・スピーカ、１１・・・１ンノ一ル部、１２・−
・制御部、１３・・・ポスト装置。代理人　弁理１−　福ｌ］幸作（ほか１名）茅１　口茅２　目＄３　巴

Claims

【特許請求の範囲】１、認識対象の各単語・文に対応ｊ〜で各複数組の標準
音声バタンテークを記憶しておき、入力音声の！１テ徴
拍出を行いその！１イ徴テ−タと一１ユ記各標べＣ？′
１ｊ１１パタノテー　タどのバタンマツチング処理４行
イ、その類似度が最上位となるものを認識結果として判
定・出力する機能を有する音声認識装置において、入力
音声の特徴抽出を所定の適正レベルで行いつるように、
一連の音−声認識処理の最初にのみ、１だは各音声人力
の都度もしくは所定回数ことに人力音声のレヘルヂエノ
ク・利得調整を行い、その入力音声利得で各人力音声の
特徴抽出を行わしめるように１間１１・処Ｉ里すること
を！時機とする音声認識方式。２、特許請求の範囲第１項記載のものにおいで、一連の
ｉイ声認識処理の最初にのみ人力音声のレベルチェック
・利得調整を行う場合、チェック用の音声入力は、所定
内容の単語・文によるようにしたものである音声認識方
式。３、認識対象の各単語・文に対応して各Ｖ数組の標ｒｖ
音声パタノデータを記憶１〜でおき、人力１゛１声の特
徴抽出を行い、その特徴テークと一］−記各標イｙ・音
声バタンデータとのバタンマツチング処理を行い、その
類似度が最」二位となるものを認識結果として判定・出
力する機能を有する音声認識装置において、入力音声の
特徴抽出を所定の適正レールて行いうるように、一連の
音声認識処理の各音声人力の都度その入力レベルのチェ
ックを行い、それが適ｉＥレベルであるときは、そのま
ま音声認識処理を続行ぜしめ、それが適正レベルでない
ときは、その入力レベルに応じて発声す声レベルを」下
して［ｆ］′入力すべき旨の情報の表示まだは送出をぜ
しめ、これに基づいた再入力音声について音声認識処理
を行わしめるように制御・処理することを！１￥徴とす
るｉ音声認識方式。