JPH10124090A - 音声認識方法およびこの方法を実施する装置 - Google Patents

音声認識方法およびこの方法を実施する装置

Info

Publication number
JPH10124090A
JPH10124090A JP8282414A JP28241496A JPH10124090A JP H10124090 A JPH10124090 A JP H10124090A JP 8282414 A JP8282414 A JP 8282414A JP 28241496 A JP28241496 A JP 28241496A JP H10124090 A JPH10124090 A JP H10124090A
Authority
JP
Japan
Prior art keywords
voice
vowel
input
section
consonant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8282414A
Other languages
English (en)
Inventor
Tetsutada Sakurai
哲真 桜井
Yoshio Nakadai
芳夫 中台
Yutaka Nishino
豊 西野
Yamato Sato
大和 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8282414A priority Critical patent/JPH10124090A/ja
Publication of JPH10124090A publication Critical patent/JPH10124090A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 語彙に含まれる母音を対象とした音声認識の
演算処理をすることにより演算量を削減し、雑音耐性を
高めた音声認識方法および装置を提供する。 【解決手段】 音声認識において、入力音声が母音であ
るか或は子音であるかを識別し、母音は相互の識別をす
るが、子音は単なる音の存在として識別をし、得られた
母音/非母音の系列に対して音声認識の尤度演算を行う
音声認識方法および装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識方法お
よびこの方法を実施する装置に関し、特に、入力音声が
母音であるか或は子音であるかを識別し、母音は相互の
識別をするが、子音は単なる音の存在として識別し、得
られる母音/非母音の系列に対して音声認識の尤度演算
を行う音声認識方法およびこの方法を実施する装置に関
する。
【0002】
【従来の技術】音声認識技術は1950年代から40年
の長きに亘ってその性能向上が図られてきた技術であ
る。主な音声認識技術を年代順に列記すると、最尤スペ
クトル推定法、その類似技術である線形予測分析法、Δ
ケプストラム法、DynamicProgrammin
g(以下、DPと略記)を使用するDPマッチング法、
或は隠れマルコフモデル(以下、HMMと略記)に基づ
く音声認識方法その他の方法が研究開発されている。一
般的な音声について記述された書籍としては「自動翻訳
電話:ATR国際電気通信基礎技術研究所編、平成6年
1月、オーム社発行」が知られており、音声認識の流れ
に触れた刊行物としては「電子情報通信学会誌1995
年11月号(2−7 音声認識技術、古井、p.111
4)」が知られている。これらに記載される代表的な音
声認識方法は、母音或は子音より成る音素に着目し、音
声認識装置に入力された音声信号データと予め格納され
ている標準音素データの照合を行い、最も類似度(以
下、尤度と略記)の高いものを認識結果として出力する
ものである。この際、音声の有する多彩な情報、例えば
ピッチ情報は、照合の際の計算量を増大させる一方、認
識結果に余り影響を与えないことが知られているので、
尤度の計算量を極力削減する見地から取扱の対象外とす
ることが多い。それでも、音声認識に必要な計算量は膨
大であるので、自由に発話された語彙の認識には通常ワ
ークステーション或はこれと同等の演算能力を有するパ
ソコンその他の計算機が使用される。
【0003】ここで、図6を参照して代表的な音声認識
技術であるDPマッチング法の従来例を説明する。図6
は、一般的に使用されてきた孤立単語音声認識装置を示
す。図6において、音声入力部1はマイクロホンその他
音声を電気的な音声波形に変換して入力するところであ
る。変換部2は音声分析の前処理として音声波形をディ
ジタルの数値に変換するところである。音声特徴抽出部
3は音声波形を短時間スペクトル分析して一定時間間
隔、即ち短時間フレーム毎に音声波形から音声認識に必
要とされる特徴を抽出するところである。起動スイッチ
部4は、単語音声認識を実現する場合の音声区間検出に
際して外部より始端検出開始のトリガを与えるところで
ある。音声区間検出部5は音声特徴抽出部3から得られ
る音声特徴量に基づいて音声の始端および終端をそれぞ
れ1箇所だけ決定するところである。入力パターン格納
部6は音声区間検出部5において決定された音声始端か
ら音声終端に到る音声特徴量を音声特徴抽出部3から取
り込んでこれを未知入力音声パターンとするところであ
る。標準パターン記憶部7は、入力パターン格納部6と
同様の手順により格納され、ラベル名を付与された音声
認識に使用される複数の単語音声パターンを格納する記
憶部である。パターンマッチング部8は入力パターン格
納部6に格納された未知の入力音声パターンと標準パタ
ーン記憶部7に格納されている各標準パターンの間のマ
ッチング処理を行い、その結果である入力音声パターン
と各標準パターンとの間の距離値であるマハラノビス距
離その他の数式で定義される音響特徴量上の距離値を出
力するところである。結果集計部9は各標準パターンに
ついてそれぞれ出力された未知入力音声パターンとの間
の距離値より最も小さい距離値を有する標準パターンを
決定する計算部である。出力部10は結果集計部9にお
いて最も小さい距離値を有すると決定された標準パター
ンのラベル名を音声認識装置を動作させる上位ホストへ
出力するところである。
【0004】以下、図6の動作を説明する。標準パター
ン記憶部7に格納されている標準パターンは、未知の入
力音声パターンと同様に分析処理されて整備されたもの
が予め登録されているものとする。音声は、常時、音声
入力部1、波形変換部2、音声特徴抽出部3を介して入
力および分析され、その分析結果の一部の情報である音
声信号の対数パワーが音声区間検出部5へ送られ、音声
区間検出の情報とされる。ここで、発声者により或は音
声認識装置を動作させる上位ホストを操作することによ
り起動スイッチ部4が操作されると、起動スイッチ部4
より音声区間検出開始のトリガーが発生する。音声区間
検出部5は初期化され、音声特徴抽出部3から入力され
る情報により音声始端の検出を開始する。音声始端の検
出方法としては、例えば、信号パワー値が音声のない状
態から或る一定閾値以上の大きな値で一定時間継続した
ときに、その信号パワー値の立ち上がり位置を始端とす
る方法が一般的である。この後、音声区間検出部5は音
声の信号パワー値の減衰点を検出して音声の終端として
動作を終了する。入力パターン格納部6は、検出された
音声の始端から終端に到る音声区間の音声特徴抽出部3
による抽出結果を、入力音声パターンとして格納する。
パターンマッチング部8は、格納が完了した時点におい
て、入力パターン格納部6に格納した入力音声パターン
と標準パターン記憶部7に記憶されている各標準パター
ンの内容を、DPマッチングその他のパターンマッチン
グ法により照合し、距離計算を行う。各標準パターンに
対する距離計算結果は結果集計部9において小さい距離
値の順に整理される。結果集計部9において最も小さい
距離値とされた標準パターンのラベル名は、出力部10
を介して上位ホストに出力される。
【0005】以上の認識手順から明らかな様に、音声デ
ータの取り込み、それに続くデータの微小区間への分
割、ケプストラムその他の特徴量抽出計算、予め格納さ
れている標準パターンデータの引き出し、取り込んだ音
声データと標準パターンとの間の尤度計算、その他の計
算処理は比較的単純なDPマッチングと言えども実施せ
ざるを得ず、これを避けては通れない。
【0006】ところで、人間或は動物が音声を認識する
メカニズムが最近の研究から明らかになりつつある。例
えば、日本音響学会誌1992年5月号「電位感受性色
素を用いた脳の聴覚野の観測、福西、p.313」にお
いてその成果が述べられている。動物を使用した実験に
よると、脳の聴覚野においては低周波数から高周波数に
到る音声周波数を記憶した神経細胞群の並びが周波数順
に聴覚野の前側から聴覚野の後側に亘って認められる。
多くの周波数の音を含んだ音を聴かせた場合、音の周波
数を高周波側から低周波側に探索するように音の周波数
を記憶する神経細胞群が、最初、高周波数に対応した細
胞群から順次に低い周波数に対応した細胞群に活動が移
って行くことが判明している。この事実は、脳の神経活
動による音声情報処理においては、音声成分の内の高い
周波数を有する成分の方が人間を含む動物の認識或は知
覚に対して重要であることを示している。これは音声が
有する“高い周波数の音ほど、早く減衰消滅する”とい
う自然現象に生体が対応する結果とも言える。この結
果、母音の有する第一ホルマントが欠落しても、動物は
音を認識することができると考えられている。昨今の音
声認識方法は、この様な要因を勘案して、従来の電話音
声帯域(0.3〜4kHz)より高い周波数の音声をも
含めて音声認識の際の拠り所とする動きもある(例え
ば、福西他、特開平7−104794、音声情報処理方
法)。
【0007】ところで、既に市販された幼児用玩具で高
周波成分の音声認識を利用したものがあった。この玩具
は犬のぬいぐるみに音声認識応答機能を付加したもので
ある。概略の動作は、以下の通りである。このぬいぐる
みは、持ち主が近づくと、近づく音を察知して鳴き声
「わん、わん、…」を発し、この鳴き声は「しっ、し
っ」という持ち主の声に反応して「く〜ん、く〜ん」と
いう甘え声に変化する。ここで、持ち主の発声である
「しっ」の音:/shi/に含まれる高周波成分の子音
/sh/を認識する機能が玩具にあり、この認識により
鳴き声を変化するのである。この玩具は大変廉価で音声
認識を実現した事例であったが、応答が1パターンであ
ったためか、余り注目を集めること無くして店頭から姿
を消した。
【0008】さて、高性能な計算機、例えばワークステ
ーション或は数10MIPSの計算能力を有するパーソ
ナルコンピュータPCを使用して音声を認識する試みが
なされてはいる。しかし、コストが嵩む、設置面積が大
きい計算機を使用する音声認識装置はその適用分野に制
限が生ずること、或はこの種の高性能コンピュータは振
動或は塵芥の多い場所に不適合であること、その他の理
由から適用範囲が限られているのが実情である。これに
対して、上述のコスト的に安価な音声認識方法に依って
は単純な音声認識しかすることができないという問題が
ある。
【0009】
【発明が解決しようとする課題】この発明は、従来の人
間の聴覚に近づく音声認識とは一線を画し、従来軽視さ
れてきた低周波数側の音声情報を使用して信号処理を実
施することにより上述の問題を解消した音声認識方法お
よびこの方法を実施する装置を提供するものである。
【0010】
【課題を解決するための手段】音声の分析により得られ
る第二ホルマント周波数帯域までの音声周波数を使用し
て母音を識別し、設定された閾値以上であって音声に含
まれる母音以外の音声を子音として識別し、得られた母
音と子音の系列情報を使用する音声認識方法を構成し
た。
【0011】そして、3kHz以下の周波数の音声信号
入力に対応する出力を発生させると共に3kHz以上の
周波数の音声信号入力に対応する出力を発生させ、これ
らの出力の論理を取ることにより母音/子音の識別をす
る音声認識方法を構成した。また、2個の閾値αおよび
β(但し、α>β)を定義し、音声パワー振幅が閾値α
を超えた場合を母音と判定し、音声パワー振幅が閾値β
を超えた場合を子音と判定し、音声パワー振幅が何れの
閾値をも超えない場合を無音或は雑音と判定する音声認
識方法を構成した。
【0012】更に入力音声波を電気信号に変換した後、
バンドパスフィルタを使用して母音と子音を分離識別す
る音声認識方法を構成した。そして、先の音声認識方法
において、子音をすべて同一として区別しない音声認識
方法を構成した。ここで、電気的な音声波形を入力する
音声入力部1を具備し、音声入力部1より得られる音声
データを前処理する波形変換部2を具備し、波形変換部
2より得られる音声波形データから音声区間検出および
音声認識に使用される特徴量を抽出する音声特徴抽出部
3を具備し、入力音声信号から母音と子音を識別する母
音/子音識別部41を具備し、母音/子音識別部41の
出力する信号に応じて音声特徴抽出部3により抽出され
る音声特徴量を入力パターン格納部6に記録する部位或
は区間を決定する音声区間検出部5を具備し、音声区間
検出部5により決定された音声始端から音声終端までの
区間において母音に重きを置いた音声特徴量を取り込ん
で未知入力パターンとして格納する入力パターン格納部
6を具備し、未知入力パターンと照合する標準パターン
を記憶する標準パターン格納部714を具備し、未知の
入力音声パターンと複数の標準パターンとの間の尤度の
演算比較を行う尤度演算部12を具備し、各標準パター
ンについて尤度順に認識結果を得る結果集計部を具備す
る音声認識装置を構成した。
【0013】そして、尤度演算部12は尤度比較に使用
する閾値を外部から設定する尤度閾値設定部を具備する
音声認識装置を構成した。また、先の音声認識装置にお
いて、母音/子音識別部41は、音声信号に対応したC
R時定数を有する電子回路と、3kHz以下の周波数の
信号入力に対する出力および3kHz以上の周波数の信
号入力に対する出力を発生する回路より成る音声認識装
置を構成した。
【0014】更に、母音/子音識別部41は二つの閾値
αおよびβ(但しα>β)を設定した信号入力振幅判定
回路より成る音声認識装置を構成した。そして、母音/
子音識別部41はバンドパスフィルタより成る音声認識
装置をも構成した。
【0015】
【発明の実施の形態】先ず、この発明の基礎をなす音素
の音響的な特徴について述べる。よく知られる通り、音
声は二重母音或はこれに類する母音を含む母音、子音、
および無声音に分類される。この内の母音は人間の有す
る声帯の基本振動周波数の高調波で音波を生成し、喉、
舌、顎その他の器官により構成される発声器官より成る
声道フィルターによる変調がかけられたものである。凡
その目安ではあるが、母音を構成する音波の基本周波数
は、男性で125Hz程度に分布の中心があり、その標
準偏差は約20Hz程度であり、女性でそれぞれ約25
0Hz、および約40Hz程度であることが知られてい
る。この基本周波数を成分とするホルマントが母音を区
別していることは音声の研究分野においては良く知られ
ている。なお、ホルマントは低い周波数から高い周波数
に向かって第一ホルマント、第二ホルマント、第三ホル
マント・・・という命名がなされている。
【0016】ここで、図4を参照するに、第一ホルマン
トで最も高い周波数を与える母音は/a/であり、その
周波数はおよそ1100Hzであることが判明してい
る。また、第二ホルマントで最も高い周波数を与える母
音は/i/であり、その周波数はおよそ2800Hzで
あることが判明している。5つの母音を識別するに、多
くのホルマントを対象とする必要はなく、図4からも明
らかな如く、最も高い/i/の音の第二ホルマント周波
数までを対象にすればよいことが判る。実際は、個人毎
の周波数のばらつきがあり、この広がりは400Hz程
度であることが判明しているので、最高周波数の上限は
(2800+400)Hz=3200Hzである。計算
量の削減というこの発明の主旨に鑑みれば、5つの母音
を識別することができることであるから、/e/の第二
ホルマント周波数まで取り込めれば母音相互の識別をす
ることができる。この時の上限周波数は、ばらつき分3
00Hzを含めて(2500+300)Hz=2800
Hzである。即ち、おおよそ3000Hz以下の周波数
成分で音声認識をすることができる。
【0017】一方、子音は、声道を狭めつつ肺に溜めら
れた空気を送出することにより得られる音であり、先の
声帯の基本周波数を含まないことが多い。その生成過程
から明らかな様に、唇或は歯の一部を使用して生成する
音はエネルギーの大きな数kHzの高い周波数帯域にま
で亙り、その結果として子音を明確に分析するには母音
よりも広帯域のスペクトル情報を必要とするという特徴
がある。
【0018】ところで、音波の有する基本的な性質とし
て、周波数の高い音波ほど減衰し易いことが判ってい
る。先の、日本音響学会誌1992年5月号「電位感受
性色素を用いた脳の聴覚野の観測、福西、p.313」
により指摘された「人は高い音から先に情報処理の対象
とする」という推論は、失われ易い情報から先に処理を
するという観点から誠に理に叶ったものであると言え
る。この様な母音と子音の音波の減衰の様子を図3に示
す。図3(a)は発声者から10cmの距離に収録マイ
クロフォンを設置した場合の減衰の様子を示し、(b)
は同じく30cmの距離に収録マイクロフォンを設置し
た場合の減衰の様子を示し、(c)は同じく100cm
の距離に収録マイクロフォンを設置した場合の減衰の様
子を示す。何れの場合も、同一の音声を周囲雑音が41
dB(LAeq 1min)の条件下において採録し
た。それぞれの記録波形を比較することにより、以下の
事実を認識することができる。即ち、基本周波数の低い
母音部分は100cmの距離に有ってもその特徴を識別
することができるが、周波数の高い子音部分はその識別
が困難である。30cmの距離にあっては両者の識別が
可能であるが、子音部分のパワーである振幅は減衰して
おり、相対的に雑音の大きな環境下においては問題とな
る。別に行った実験によれば、このレベルの振幅を有す
る子音を確実に信号処理することは60dBを超える雑
音環境下においては困難である。
【0019】ここで、この発明の基本的要件について説
明する。この発明は、コンピュータ或はこれに類する装
置に音声を認識させることを主要な技術内容とするもの
であり、音声を認識するに際して、従来は軽視されてき
た低周波数側の音声情報を使用して信号処理を実施する
ところに特徴がある。後で説明されるが、音声情報の低
周波数側、即ち母音を中心とする音声情報に着目して音
声認識を行うことにより、計算機の計算量を大幅に軽減
することができる。これは、音声認識装置の小型経済化
をもたらす。一方、認識対象の語彙に大幅な制約が生じ
て実用にならないとの指摘がでるやもしれぬ。そこで、
この発明の音声認識装置をナビゲーション装置に実際に
適用して効果を確認し、その様な指摘が杞憂であること
を示す。
【0020】図5はカーナビゲーション装置の操作に使
用されるコマンド(命令)20用語の一覧の例である。
図5において、太字により表記される音が母音を表わ
す。ここで、子音を*で、無音部分を一で置き換えたも
のの系列は以下の通りとなる。 地図の拡大 *UU*U, *A*U*AI, **U*U**OU 地図の移動UE , **I*A, *I*I, *I*A*I, *A**E* GPS情報 *O*O, *II*IIE*U ルート探索 *EI*O, **OU*I ガイダンス *AI*O, O**EI, *OU*U, 時刻 *A**I, A*O−*O*E*A*E ボリューム制御OO *I*U, **II*A*U, O*U これらの用語の母音および子音の系列を比較すれば明ら
かな様に、子音を全て同じ情報、上述の例においては*
で置換し、母音と組み合わせたものは、この例の場合、
一つとして同じものがなく、音声認識でいうところのパ
ターン照合或はパターンマッチングを行うことができ
る。以下、これを具体的に実施するこの発明の構成を図
1を参照して説明する。
【0021】図1において、音声入力部1はオーディオ
マイクロホンその他音声を電気的な音声波形に変換して
入力し、或は音響波形データを受信するディジタルの信
号入力端子である。波形変換部2は音声入力部1より得
られた音声データを音声分析の前処理としてディジタル
の数値に変換するところである。波形変換部2には、例
えば、アナログの音声波形をディジタルデータへ変換す
る処理する過程、或は音声をADPCMその他の圧縮さ
れたデータとして受信し、線形のデータへ変換する過程
をも含んでいる。音声特徴抽出部3は波形変換部2によ
り得られる音声波形データから音声区間検出および音声
認識のための特徴量を抽出する部分であり、その分析方
法としては、短時間対数パワー分析およびケプストラム
分析その他の音響認識技術において良く知られている分
析方法を使用する。また、当然のことであるが、隠れマ
ルコフモデルに立脚する音声認識のための分析手順、或
はこれらに匹敵する分析方法を採用することができる。
【0022】母音/子音識別部41は入力音声信号から
母音と子音とを識別するところであり、幾つかの具体的
な識別の仕方を研究開発し、プロトタイプの試作品を使
用してその効果を確認した。最も単純で効果が大きかっ
た方法は、母音と子音の振動周波数を識別する方法であ
った。上述した通り、母音は凡そ3kHz以下の周波数
成分からなる。子音は数〜10kHz以上に亙る広い周
波数成分を有する。母音/子音識別部41は、取り込ん
だ音声信号をCR時定数を調整した電子回路に導き、3
kHz以下の周波数の信号入力があった場合と3kHz
以上の周波数の信号入力があった場合のそれぞれに対応
した出力を発生する構成とした。これらの出力の論理を
取ることにより、母音/子音の識別をすることができ
た。図2にその論理表を示す。項目(a)は、3kHz
以下の信号入力が有り、3kHz以上に有効な入力が無
い場合である。信号入力はこれにより母音と判定するこ
とができる。項目(b)は3kHz以下および3kHz
以上の双方に入力が有った場合であり、項目(b)′は
3kHz以下の入力が無くて3kHz以上の入力がある
場合である。これら項目(b)および項目(b)’の何
れの場合も、信号入力は子音と判定することができる。
また、項目(c)は両者に有効な入力が無い場合であ
り、これにより音声の入力がないものと判定することが
できる。なお、以上の判定においては、当然のことなが
ら雑音の影響を排除する必要があり、50dB(LAe
q 1min)以下の音声信号はカットする構成を採用
した。勿論この音声信号をカットするレベルは目的に応
じて変更すると好適である。
【0023】また、他の母音/子音識別装置もこの発明
の構成要件として採用することができる。図3を参照す
るに、母音と子音は音声波としての振幅が大きく異な
る。音声認識において良く採用される振幅のパワー分析
を行い、特定の二つの閾値αおよびβ(但しα>β)を
定義し、αを超えた場合を母音と判定し、βを超えた場
合を子音と判定し、何れの閾値をも超えない場合を無音
或は雑音入力と判定する構成を採用することができる。
更に、音声波を電気信号に変換した後、よく知られるバ
ンドパスフィルタを使用して母音と子音を分離識別する
ことができる。何れにしても、母音/子音識別部41と
しては、母音/子音の識別方法如何にかかわらず、両者
の識別を効率的に実施することができる構成とすること
が肝要である。以上の母音/子音識別装置は、何れもこ
の要請を満足する。
【0024】音声区間検出部5は、先に図6を参照して
図示説明された通り、従来、音声特徴抽出部3により抽
出された音声波形情報から音声区間を検出する部分であ
る。この発明の実施例においてこの様な構成を採用する
こともできるが、発明の効果をより高めるために、音声
区間検出部5は、母音/子音識別部41の出力する信号
に応じて音声特徴抽出部3により抽出された音声特徴量
を入力パターン格納部6に記録する区間或は部位を決定
する。
【0025】入力パターン格納部6は、音声区間検出部
5により決定された音声始端から音声終端までの区間に
おいて母音に重きを置いた音声特徴量を取り込んで未知
入力パターンとして格納する格納部である。母音/子音
識別部41により入力音声が母音であると識別された場
合、母音相互の識別をする必要上その母音である入力音
声の特徴量が取り込まれる。具体的には、図5に示され
るアルファベット表示の情報に対応する入力音声を音声
分析したデータを格納する。これに対して、入力音声が
母音/子音識別部41により子音であると識別された場
合、子音相互の識別をする必要のない場合は単なる音の
存在を表わすデータとして格納される。ここで、この入
力パターン格納部6に対するデータ格納に際して、音声
区間検出部5の動作を、母音/子音識別部41の出力が
母音であるか或は子音であるかに対応して制御する必要
があるが、これは例えばこの発明の音声認識装置の制御
プログラムを適宜に設定することにより容易に実施する
ことができる。
【0026】7は標準パターン記憶部であり、入力パタ
ーン格納部6に格納された未知入力パターンと照合する
標準パターンを記憶する。標準パターン記憶部7は適用
される音声認識方法に対応して当然にその記憶内容を異
にする。例えば、特定話者の認識に多用されるDPマッ
チングの場合は、標準パターン記憶部7には認識対象者
の肉声を特徴パターン化した特徴パターンが事前に記憶
登録される。そして、不特定話者の認識に多用される隠
れマルコフモデルによる音声認識の場合は、標準パター
ン記憶部7には音素単位に分析された音声が記憶登録さ
れる。この場合は、音素として、通常は、43要素或は
26要素がベクトル情報として蓄積される。ここで、先
のDPマッチングの場合とは異なり、それ自体は有効な
意味を持たないので、標準パターンとして認識対象をモ
デル化した隠れマルコフモデルネットワークをも併せて
具備する必要がある。これが認識対象モデル格納部14
である。勿論、これらは表現上の都合であり、標準パタ
ーン記憶部7と認識対象モデル格納部14を同一ブロッ
クにまとめて表示することができる。以下、これらを一
括して標準パターン格納部714とする。要約するに、
この標準パターン格納部714は、入力パターン格納部
6に未知入力パターンを格納する手順と同様の手順によ
り分析および格納され、ラベル名を付与された認識のた
めの複数の音声標準パターンを格納した格納部である。
【0027】尤度演算部12は、入力パターン格納部6
に格納された未知の入力音声パターンと標準パターン格
納部714により生成或は出力される複数の標準パター
ンとの間の類似度或は尤度の演算比較を行う。尤度は、
入力音声パターンと標準パターンとの間の距離値、例え
ばマハラノビス距離その他の数式で定義される特徴量上
の距離値として定義される。或は、標準パターンが発声
されたものと仮定して実際に観測された入力パターンを
生み出す確率として定義される。前者の場合は最も距離
値が小さいものが高い尤度を与えら、後者の場合は最も
確率が大きいものが高い尤度を与えられる。この尤度演
算部12において、その閾値を外部から設定する構成を
採用することは極めて実用的なことである。これが尤度
閾値設定部15である。尤度の設定を変えることによ
り、雑音に対する音声認識装置の感度を調整したり、尤
度の極めて近い複数の候補を同時に選択する装置構成と
することができるに到る。尤度比較部13は尤度の演算
結果を受信して、入力音声パターンがどの標準パターン
に最も類似しているかを判定する。尤度が似通った標準
パターンが複数存在する場合はこれらの全ての標準パタ
ーンを結果出計部9へ出力し、似通った標準パターンが
一つのみの場合はその標準パターンを結果出計部9へ出
力する。結果集計部9は各標準パターンについて尤度順
に認識結果を並べて出力部10に送信する。この時、尤
度の数値を併せて送信するか否かは音声認識装置の利用
形態の如何による。また、結果集計部9は最も尤度が高
いと判定されたパターンに関し充分な閾値が得られなっ
かた場合、“認識できません”、“故障”、或は“装置
に異常が発生しました”の様なラベル名を上位ホスト或
は表示部(図示せず)へ出力する部位である。
【0028】ここで、この発明の音声認識に必要とされ
る計算量の軽減効果について説明する。先ず、隠れマル
コフモデルによる音声認識方法を採用した場合の計算量
の軽減効果について説明する。この方法は、認識対象の
音素をネットワークモデルに構成する必要があり、音素
の数が増えるに従って計算の筋道となるネットワークの
数は加速度的に増大する。このモデルで使用される音素
単位で音声を区分けすると、子音が22、母音が5であ
る。二重母音その他の音素を別にカウントして音素の数
は40或は50を超えるとする別の分類もあるが、ここ
においては最も少数の27(=22+5)分類について
試算する。試算に際して、音声入力が閾値に達していな
い場合、即ち、無音も1とカウントする。従って、母音
と子音の区別をする場合、観測し得る音素の種別は無音
を含めて28となる。一方、子音の区別をしないですべ
て同一とする場合、母音の5種、子音全体を同一とみな
すことで1種、これに無音状態が1種となり、総計7種
となる。ここで、発声が10の音素のつらなりと仮定す
ると、それぞれの場合に認識候補とすべき標準パターン
の総数は、 母音/子音を区別する場合: P1=2810 母音/子音を区別しない場合:P2= 710 である。その比(=P1 /P2 )は、凡そ106とな
り、極めて大きな差異が生ずる。実際の隠れマルコフモ
デルは、或る音素の次に出現する音素を国語の辞書に類
似した分類で制限しており、この様な大きな差が付くこ
とはない。それでも二桁以上の差が付くことは避けられ
ない。また、日本語に言語が限定されない場合は、この
種の簡略化が効果を失う。例えば、国際的な集まりで英
語、仏語、蘭語、ベトナム語、スワヒリ語その他の極め
て多様の言語が認識対象となる場合、上述の計算による
比は上限の10 6に近づかざるを得ない。これらの結果
から、この発明を採用することにより計算量が削減する
ことを理解することができる。
【0029】一方、DPマッチング法の様に事前に登録
された標準パターンとの間の照合を行う場合は事情が異
なる。この場合、以上の様な劇的な計算量の削減は見込
めない。この発明の効果は、図1において音声特徴抽出
部3の情報が削減されることである。上述した通り、こ
の発明は、子音の周波数帯域を母音の周波数帯域を超え
た周波数帯域の音声として捕らえるところに特徴があ
る。このために、取り扱う周波数帯域の上限は3kHz
程度に制限することができる。この場合、一般的な音声
認識において対象とする約8kHzの周波数帯域と比較
して約3/8の信号量となる。これは、そのまま、特定
話者認識に使用されるDPマッチング法その他の音声分
析の際に採用される音素の一部を切り出す数10mse
cの短い“窓”であるフレームの数を少なくすることが
できることを意味する。フレームの数の減少量はそのま
ま特徴抽出の際の計算量の削減につながり、また、尤度
計算の際の照合情報が削減されて計算量がこの段階にお
いても削減される。発明者らの大まかな算定によれば、
計算量を約半減させることができる。この結果、図5に
示したカーナビゲーション装置の音声認識を約10MI
PSの演算能力を有するディジタルシグナルプロセッサ
ーで約0.2秒で行うことができた。従来の通常のDP
マッチング法による音声認識においては、凡そ0.4秒
を要したことを考え合わせると妥当な結果と言える。ま
た、この確認実験で明らかとなったこの発明の特徴の一
つに高い雑音耐性がある。DPマッチング法による音声
認識は、雑音が50dB以下のレベルにあれば本来の認
識性能を示す。ところが、雑音が60dBを超えるあた
りから認識率の低下が認められ、70dBの雑音下にお
いては、認識対象語彙によっては認識率が50%を割り
込む事態が生じた。一方、この発明のアルゴリズムを搭
載した音声認識装置は、70dBの雑音下においても7
0%の認識率を割ることはなく、語彙セットの選定によ
っては80%以上の好結果が得られた。これらの結果
は、図3に示した音声の距離による減衰特性を利用した
ことによる。即ち、マイクの感度を下げ、音声全体の入
力レベルを抑えると共に、音声認識装置内で信号の強度
に対する閾値を設定し、雑音はカットするが母音の音声
信号は残る操作を行った。この操作が可能なことは、音
声認識に低周波数側の母音を使用するこの発明の大きな
効果である。
【0030】この様な効果は別の利点をももたらす。音
声認識装置の応用分野の一つに、身体が不自由な人を支
援する装置の分野がある。ベッドで寝たきりの方の音声
入力を音声認識してベッドの傾き、カーテンの開閉その
他の操作を実施することができる装置の開発が強く要請
されている。この様な応用分野において問題とされてい
る点は、利用者のマイク位置についてである。ここで、
身体の不自由な方が音声認識装置にコマンドを発声入力
するケースを想定する。マイクは、通常、頭の近くのベ
ットの一部に取り付けられるか、或は使用者の身体の一
部に装着されている。マイクをこの様な部位に取り付け
た場合、使用者の着衣或はベッドのシーツの擦過音が頻
発に雑音として入力されることとなる。良く知られてい
る様に、この種の雑音は高い周波数成分を含み、人間の
音声の子音部分とかなりの範囲に亙って重なる。子音ま
で含めて音声認識を行う従来の音声認識装置は、この種
の雑音に起因する誤認識の問題を充分に解決されたもの
となっていない。これに対して、子音部分の大半の周波
数成分を音声認識装置の信号処理の対象から外したこの
発明はこの様な誤認識の問題とは無縁である。
【0031】
【発明の効果】以上の通りであって、この発明によれ
ば、従来困難とされていた大幅な音声認識の計算量の削
減、高い雑音耐性を示す音声認識装置を実現することが
できる。従って、音声認識装置をより安価な計算機或は
これに類する計算装置で動作させることができる。そし
て、同一計算能力の計算装置にあっては、計算量が削減
されるところから、より多くの認識対象語彙群を設定し
ても従来と同等の時間で認識結果を得ることができるに
到る。また、走行中の車内、或は身体の不自由な方が横
たわるベッドの近傍の如く、子音まで含めて音声認識を
行う従来の音声認識装置に依っては困難と考えられてい
たケースにおける活用をもすることができるに到った。
【図面の簡単な説明】
【図1】実施例を説明するブロック図。
【図2】母音/子音識別論理を示す図。
【図3】音声を距離を変えて収録した波形を示す図。
【図4】ホルマント周波数を示す図。
【図5】コマンドを説明する図。
【図6】従来例を説明するブロック図。
【符号の説明】
1 音声入力部 2 波形変換部 3 音声特徴抽出部 4 母音/子音識別部 5 音響区間検出部 6 入力パターン格納部 7 標準パターン記憶部 714 標準パターン格納部 9 結果集計部 10 出力部 12 尤度演算部 13 尤度比較部 14 認識対象モデル格納部 15 尤度閾値設定部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐藤 大和 東京都武蔵野市御殿山一丁目1番3号 エ ヌ・ティ・ティ・アドバンステクノロジ株 式会社内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声の分析により得られる第二ホルマン
    ト周波数帯域までの音声周波数を使用して母音を識別
    し、設定された閾値以上であって音声に含まれる母音以
    外の音声を子音として識別し、得られた母音と子音の系
    列情報を使用することを特徴とする音声認識方法。
  2. 【請求項2】 請求項1に記載される音声認識方法にお
    いて、 3kHz以下の周波数の音声信号入力に対応する出力を
    発生させると共に、3kHz以上の周波数の音声信号入
    力に対応する出力を発生させ、これらの出力の論理を取
    ることにより母音/子音の識別をすることを特徴とする
    音声認識方法。
  3. 【請求項3】 請求項1に記載される音声認識方法にお
    いて、 3kHz以下の周波数の音声信号入力に対して2個の閾
    値αおよびβ(但し、α>β)を定義し、音声パワー振
    幅が閾値αを超えた場合を母音と判定し、音声パワー振
    幅が閾値βを超えた場合を子音と判定し、音声パワー振
    幅が何れの閾値をも超えない場合を無音或は雑音と判定
    することを特徴とする音声認識方法。
  4. 【請求項4】 請求項1に記載される音声認識方法にお
    いて、 入力音声波を電気信号に変換した後、バンドパスフィル
    タを使用して母音と子音を分離識別することを特徴とす
    る音声認識方法。
  5. 【請求項5】 請求項1ないし請求項4の内の何れかに
    記載される音声認識方法において、 子音をすべて同一として区別しないことを特徴とする音
    声認識方法。
  6. 【請求項6】 電気的な音声波形を入力する音声入力部
    を具備し、 音声入力部より得られる音声データを前処理する波形変
    換部を具備し、 波形変換部より得られる音声波形データから音声区間検
    出および音声認識に使用される特徴量を抽出する音声特
    徴抽出部を具備し、 入力音声信号から母音と子音を識別する母音/子音識別
    部を具備し、 母音/子音識別部の出力する信号に応じて音声特徴抽出
    部により抽出される音声特徴量を入力パターン格納部に
    記録する部位或は区間を決定する音声区間検出部を具備
    し、 音声区間検出部により決定された音声始端から音声終端
    までの区間において母音に重きを置いた音声特徴量を取
    り込んで未知入力パターンとして格納する入力パターン
    格納部を具備し、 未知入力パターンと照合する標準パターンを記憶する標
    準パターン格納部を具備し、 未知の入力音声パターンと複数の標準パターンとの間の
    尤度の演算比較を行う尤度演算部を具備し、 各標準パターンについて尤度順に認識結果を得る結果集
    計部を具備することを特徴とする音声認識装置。
  7. 【請求項7】 請求項6に記載される音声認識装置にお
    いて、 尤度演算部は尤度比較に使用する閾値を外部から設定す
    る尤度閾値設定部を具備することを特徴とする音声認識
    装置。
  8. 【請求項8】 請求項6および請求項7の何れかに記載
    される音声認識装置において、 母音/子音識別部は、音声信号に対応したCR時定数を
    有する電子回路と、3kHz以下の周波数の信号入力に
    対する出力および3kHz以上の周波数の信号入力に対
    する出力を発生する回路より成ることを特徴とする音声
    認識装置。
  9. 【請求項9】 請求項6および請求項7の何れかに記載
    される音声認識装置において、 母音/子音識別部は二つの閾値αおよびβ(但しα>
    β)を設定した信号入力振幅判定回路より成ることを特
    徴とする音声認識装置。
  10. 【請求項10】 請求項6および請求項7の何れかに記
    載される音声認識装置において、 母音/子音識別部はバンドパスフィルタより成ることを
    特徴とする音声認識装置。
JP8282414A 1996-10-24 1996-10-24 音声認識方法およびこの方法を実施する装置 Pending JPH10124090A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8282414A JPH10124090A (ja) 1996-10-24 1996-10-24 音声認識方法およびこの方法を実施する装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8282414A JPH10124090A (ja) 1996-10-24 1996-10-24 音声認識方法およびこの方法を実施する装置

Publications (1)

Publication Number Publication Date
JPH10124090A true JPH10124090A (ja) 1998-05-15

Family

ID=17652108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8282414A Pending JPH10124090A (ja) 1996-10-24 1996-10-24 音声認識方法およびこの方法を実施する装置

Country Status (1)

Country Link
JP (1) JPH10124090A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182689A (ja) * 2000-12-19 2002-06-26 Yamaha Corp 音声信号分離方法及び装置
JP2011118290A (ja) * 2009-12-07 2011-06-16 Yamaha Corp 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182689A (ja) * 2000-12-19 2002-06-26 Yamaha Corp 音声信号分離方法及び装置
JP4710130B2 (ja) * 2000-12-19 2011-06-29 ヤマハ株式会社 音声信号分離方法及び装置
JP2011118290A (ja) * 2009-12-07 2011-06-16 Yamaha Corp 音声認識装置

Similar Documents

Publication Publication Date Title
Gaikwad et al. A review on speech recognition technique
Kinnunen Spectral features for automatic text-independent speaker recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
Rosen et al. Automatic speech recognition and a review of its functioning with dysarthric speech
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US6553342B1 (en) Tone based speech recognition
JPH09500223A (ja) 多言語音声認識システム
Khelifa et al. Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system
KR20230056741A (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
JPH08123462A (ja) 音声認識装置
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Grewal et al. Isolated word recognition system for English language
Nedjah et al. Automatic speech recognition of Portuguese phonemes using neural networks ensemble
JPS6138479B2 (ja)
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
JP3493849B2 (ja) 音声認識装置
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置
Phyu et al. Building Speaker Identification Dataset for Noisy Conditions
Trivedi A survey on English digit speech recognition using HMM
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
Kelbesa An Intelligent Text Independent Speaker Identification using VQ-GMM model based Multiple Classifier System