JPS5880697A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS5880697A
JPS5880697A JP56178719A JP17871981A JPS5880697A JP S5880697 A JPS5880697 A JP S5880697A JP 56178719 A JP56178719 A JP 56178719A JP 17871981 A JP17871981 A JP 17871981A JP S5880697 A JPS5880697 A JP S5880697A
Authority
JP
Japan
Prior art keywords
voice
data
pattern
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56178719A
Other languages
English (en)
Inventor
直久 北里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP56178719A priority Critical patent/JPS5880697A/ja
Publication of JPS5880697A publication Critical patent/JPS5880697A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は音声認識方式、41Iに登鍮方式の単語音声
認識11j#に用いて好適な音声認識方式に関する・ 一般に登最方式の単語音声認識装置は、−一に用いる音
声単位41KII準パターンを予め登−しておき、入力
音声パターンと壱登鐘標準パターンとの比較を行い、入
力音声パターンと比較して整置の最も棗い標準パターン
の単一をもって一識細果と判定するもので、これには通
常II形伸縮パターンマツチングの手法が用いられてい
る。この線形伸縮パターンマツチングは、長さの異なる
二つのパターン、例えば登−用音声パターンとit識期
用入力音声パターン線形伸atによって同じ長さにした
後、両者間の簡単な距離計算を行うものである。
ところで、このような線形伸縮による単純なパターンマ
ツチングを用いた従来装置の場合、上述の如く1つの登
録用音声パターンに対して1つのgya用入力音声パタ
ー/だけでマツチングをとっているので、音声区間の始
め又は終りの音韻が無声子音等の場合、音声区間の切り
出し位置が、同様の発生においても安定せず、これによ
って生じるパターン間のずれが吸収できないために、l
i織性能の劣化を生じると云う不都合があった。
この発明は、斯る点Vcf11みてなされたもので、簡
単な線形伸縮によるパターンマツチング方式等を採用す
る場合に、音声区間の切り出しの不確定性に起因する認
識性能の劣化を防止することができる音声i!繊方式を
提供するものである。
以下、この発明の一実施例を111図乃至第5図に基づ
いて詳しく説明する。
先ず、第1図及び第2図を用いてこの発明の基本原理を
説明する。第1図A#/C示すような音声信号81 に
おいて、音声区間を切り出し、例えば各25m5毎kl
F#微パラメータを求め、l〜NF番目のフレームから
成るデータDlを得る。この特徴パラメータとしては例
え)f tsoHz〜4kHzの8チヤンネルのスペク
トルデータな考えると、このときのデータ量は8チヤン
ネルxNF(フレーム数)となる、従って、例えば1秒
の音声データでは8チヤンネルX4Gセグメント、1.
5秒では8チヤンネルX6Gセグメントと入力された音
声の時間長によってセグメント数(フレーム数)すなわ
ちデータ量が違って来る。
そこで、入力された音声の時間長に無関係に音声の比較
を行うために1フレーム数の異なる調々の音声を全て、
−1時間軸を線形に伸縮させるCとkよって、第1図B
i示すように音声区間を時間方向に1gのセグメントの
データD!に正規化する。
なお第1@IBにおいて、82は信号Ss Vc対応し
た線形伸縮後における音声信号を表わしている。そして
この時間軸の正規化に際しては、元のデータD1の最初
と最後のフレームすなわち第1番目と1gNFl目のフ
レームは、そのまま正規化デ、−タD2の纂lと第16
のセグメントに夫々保存し、第illと第NF@目の間
の各7レームは線形に補正−して各セグメントのmv得
るようにする。
次に上述の如(16儒のセグメントKIIil形伸縮さ
れた音声信号のうち、先ず畳縁用音声パターンに付いて
は、第2図A)(示すように最初と最後のセグメントを
除いたF2〜F5の14個のセグメントから成るデータ
Da l(よって構成する。これに対し、認識用入力音
声パターンとしては、第2図B乃至D)(示すようなl
セグメントずつシフトした3檜のデー!D4〜D藝を考
える。すなわち第1番目のデータD4は菖2図BK示す
ようl(Ft’〜F14′の14個のセグメントから成
り、gz*目のデーfi Ds ハ第2mC1C示すよ
うにF2’ 〜Ft s’の14個のセグメントから成
り、!3番目のデータD・はIl!2 ml D K示
j 15 K Fm’ 〜Ft@’カラJiE 66そ
してこれ等3個の認識用入力音声パターンと登録用音声
パターンに付いて、次のような距離計算を行う。
Day = JIXj j −Yij    ・・・・
””” (1)J 上記(1)式においてXは畳縁用音声パターンのデータ
、Yは認識用入力音声パターンのデータ、1はi番目の
セグメント、jは1番目のチャンネルを夫に@わしてい
る。
上記(1)弐に基づいて求めた畳縁用音声パターンに対
する3個の各認識用入力音声パターンの距−のうち、最
小の距離をla!識用入用入力音声パターン録用音声バ
ター/との距離とする。つまり、距離膓αが最小となる
登録用音声パターンのデータな、v!繊吊用人力音声パ
ターンデータに対する認識結果とする。
更Kg@の閾値−を設け、最小の距離DxY(min)
虻DxY(mln)<−のときは認識結果は有効、取y
(min)〉θのときKは除去とするようKしてもよい
このように、この発明では単一の登鎌用音声ノ(ターン
と、このパターンに対して時間的に所定長シフトした複
数個のgm用入力音声パターンとを拳法比較して両者の
距離を求め、その求められた距−のうち最小のものを認
識用入力音声パターンのデータに対する認識結果とする
ようKしたので、従来音声区間の切り出しの不確定性に
起因する認識性能の劣化が防止されることになる。
第3図はこの発明を実施する場合に用いて好適な異体的
回路構成の一例を示すものである。同図において、(1
)はマイクロホン、(2)は増幅器、(3)はAGC回
路、(41)〜(48)は8チヤ/ネルに対応し【設け
られた帯域フィルタであって、これ等の各帯域フィ゛ル
タは第4図に示すように単峰特性のフィルタからなり、
例えば150H!〜4kl−1gを8チヤンネルに分割
し、各フィルタの周波数特性がピークの3dBおちの腿
で交わるように設定されている。
(51)〜(5魯)は整流・積分回路、(6)はマルチ
プレクサ、(7)はアナログ/ディジタル変換1!(以
下、A/D変換器と云う) 、 (8)はマイクロコン
ピュータであって、このマイクロコンピュータ(8)は
人出力回路(8m)、中央処理回路(CPU)(sb)
、音声ueii+のプログラムを内蔵するR OM (
8C)、RAM(8d)を有する。また、(9)は登録
用スイッチ及び認識用スイッチを含むリセットスイッチ
回路、a・は表示器である。
マイクロホン(1)より入力された音声信号は、増幅器
(2)で増幅されてAGC回路(3)に供給され、ここ
でそのAGC効果により全体のレベルを掬える。
AGC回路(3)の出力信号は第4図に示す周波数特性
をもって配設された帯1フィルタ(41)〜(匂)Kよ
り周波数毎に配分され、更に夫々対応する整流・積分部
II(5t)〜(58)で半波整流された後積分され、
もって出力側には夫々各帯域のスペクトル値が得られる
、整流・積分回路(51)〜(5I)の出力信号は、C
PU(sb) Kより制御されているマルチプレクサ(
6)に供給される。そしてこのマ、4...チプレタ?
(6)で選択された各チャンネルに対応する信号がA/
D変換器(ηに供給されて25m5毎KJl[次ディジ
タル信号に変換される。
A/D変換器(力からのディジタルデータはマイクロコ
ンピュータ(8)K供給され、ここで第1図及び第2F
IJK関連して上述したような信号処理が行われる。
ROM(8d)K内蔵されている音声m識プログラムは
、主としてメインルーチンとサブルーチンである音声入
力ルーチンとから成っている。
音声入力ルーチンは音声’に一8チャンネルのスペクト
ルデータとし−て、A / D変換器(7)から入力バ
ッファに取り入れ、レベルの圧縮、時間軸の正規化を行
い8X1gバイトの特徴パターンを得る。レベルの圧縮
を行うには、85図に示すように、 1フレーム(25
m5 )の8チャンネル分のデータ値の比率に基づいて
θ〜7の8個のレベル(3ビツト)K量子化する。異体
的には各チャンネルのスペクトル値引の平均のに、つま
り !′別/32       ・・・・・・・・・・(2
)鳳 を量子化幅、として各チャンネルの値をO〜70値に設
定し直す・これKよって、音声の振幅(強弱)の影響を
取り除き、同時にビットの圧縮を果している。また時間
軸の正規化は第1図で説明したように行えばよい、この
結果、これらのプgセスな経ることKより、lっの単語
音声は8チヤンネルX16セグメントのマトリクス状の
データとして得られる。
更にここで、CPU (8b) Kよる整流・積分回路
(51)〜(5I)、マルチプレクず(6)及びA/D
変換器(7)の制御を詳述するに、先ずCP U (8
b)からの制御信号によりlフレームの始めに全チャン
ネルの整流・積分回路(51)〜(58)の積分部の放
電スイッチ(図示せず)を所定時間例えば0.6m−オ
ンして放電する0次にマルチプレクサ(6)のINHI
BIT端子をセットし、1フレームの関すなわち25m
5その状態を保持する。この間はマルチプレクサ(6)
はどのチャンネルも後段につながず、各チャンネルの整
流・積分回路(51)〜(58)は対応する帯域フィル
タ(41)〜(4畠)の出力を積分している。そして2
11m141icマルチプレクサ(6)のセレクlコー
ドを先ずθにセットし、IIEIチャンネルすなわち帯
域フィルタ(41)の系を後段につなぐようになす、そ
して少しおいてからA/D変換I!1(7)に動作開瞼
指令をCP U (sb)より与えてA /、 D変換
を行い、そのデータを入力バッファに記憶する。
次にマルチプレクサ(6)の七しクトコードを1にセッ
トし、同様にしてII!2チャンネルのデータを入力バ
ッファに記憶する。この動作を@8チャンネルまで同様
に繰り返えし行うと、バッファ上で上述のビット圧縮等
を行った後、また放電スイッチがオンになる。これを1
フレームとして音声区間のデータが8次元の時系列デー
タとしてバッファに記憶されてゆく。
また、メインルーチンでは電源オンと同時に、先ず初期
条件の設定を行い、リセットスイッチ回路(9)内の登
録用スイッチ又は認識用スイッチを検出する。これ等の
スイッチのいずれかがオンになるととKよって、夫々対
応するモードすなわち登録モード又は認識モードとなる
登録モードではl単語、1回分の音声の登録を行う、先
ず、音声入力ルーチンで、上述した8×16バイトの特
徴パターンとしてバッファに音声が入力される。このデ
ータは現在の登録番号に相当す7るR A M (8d
)内の脊骨用のメモリに移される。このときに、上述の
如く1データは既に有効ビットが3ビツトとされている
ので、1バイトに2データ(lデータ4ビツト)パック
して記憶する。よって警鐘用のメモリに占める1音声デ
ータの量は、この場合64バイトとなる。メモリにデー
タが移されると現在の登録番号を表示器顛に出力して始
めのスイッチ入力待機の状mに戻る。
そして登録を何語分か行う場合は、l単語の登録が終っ
た後に続けて登録用スイッチをオンするととKよって次
の登録番号に相当するメモリに対応する音声が登録され
る。
一方認識モードでは入力した音声パターンな既に登録さ
れている音声パターンと比較して識別する。先ず、音声
人カルーチクチ、入力した音声が特徴パターンとしてバ
ッファに記憶される。これを第2図に関連して上述した
パターンマツチングによって各登録データとの距離計算
を行い、比較及び閾値判定で登録した音声パターンのう
ちの1つに識別するか、或いはどれでもないと云うこと
で除去するようKする。そして最後にこの結果を表示器
(IGK出力し、例えば認識した登録番号かF(除去)
の符号で表示させ、再度最初のスイッチ入力待機の状1
1に戻る。
上述の如くこの発明によれば、単一の登録用音声パター
ンと、この登録用音声パターンに対して時間的に所定長
シフトした複数個のIil繊用入用入力音声パターン順
次比較して両者の距離を求め、その最少値をもって登録
用音声パターンと認識用入力音声パターンの距離とする
、つまり距離が最小となる登録用音声バターyv% &
!識用入カバター/に対する認識結果とするようにした
ので、音声区間の切り出しの不確定性に起因する認識性
能の劣化を防止でき、ハードウェア上の規模を何等質え
ることなく音声認識装置のiI繊性能の向上を計ること
かできる。
なお、上述の実施例では、音響特徴量な取り出すのに、
  150Hz 〜4kHzを8帯埴に分割した25m
a毎のスペクトルデータなチャンネル間で正規化し、3
ビツトに量子化する場合に付いて説明したが、仁れらの
数値は例示的なものであり、これKよってとの発明が何
部制限されるものではない。
【図面の簡単な説明】
第1図及び第2図はこの発明の基本原理の説明に供する
ためり線図、第3mはこの発明の一実施例を示す回路構
成図、第4111及び第5図は第31111の動作説明
に供するための11図である。 (1)は!イクロホン、(41)〜(4−)は帯域フィ
ルタ、(5s)〜(5s)は整流・積分回路、(6)は
!ルチプレクサ、(7)はアナログ/ディジタル変換器
、(8)はマイクロコンピュータである。 第11′ r、′”;  7 1.1 手続補正書 1. ’JG件の表示 昭和S・年特許願第 $7871参  号2・発明” 
名称  音声■織方式 3、補IFをする若 ・1′、−件との関係   特許出願人6、補IFによ
り増加する発明の数 (1)  1!111書中、籐4頁S〜6行の「補正」
を「補間」と訂正する。 (2)  同、1sls買3行の(1賦童下記の如く訂
正す−る。 Dxr = J lX1j −Yij I    −−
−−−(t)(3)−画中、11IS−を別紙のとおり
に訂正する。 以上

Claims (1)

  1. 【特許請求の範囲】 単一の登録用音声パターンと、該登録用音声バター/に
    対し【時間的に所走長シフトした複数個の認識用入力音
    声パターンとを順次比較しズ距離を求め、w!jIll
    iが最小となる上記登鍮用音声パターンを上記II認識
    用入力音声パターン1lll繊細果とするようにしたこ
    とを轡徴とする音声認識方式。
JP56178719A 1981-11-07 1981-11-07 音声認識方式 Pending JPS5880697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56178719A JPS5880697A (ja) 1981-11-07 1981-11-07 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56178719A JPS5880697A (ja) 1981-11-07 1981-11-07 音声認識方式

Publications (1)

Publication Number Publication Date
JPS5880697A true JPS5880697A (ja) 1983-05-14

Family

ID=16053363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56178719A Pending JPS5880697A (ja) 1981-11-07 1981-11-07 音声認識方式

Country Status (1)

Country Link
JP (1) JPS5880697A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192300A (ja) * 1983-01-28 1984-10-31 テキサス インスツルメンツインコ−ポレイテツド 音声認識の方法
JPS61123893A (ja) * 1984-11-20 1986-06-11 ブラザー工業株式会社 音声決定装置
JPS61123892A (ja) * 1984-11-20 1986-06-11 ブラザー工業株式会社 音声認識装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192300A (ja) * 1983-01-28 1984-10-31 テキサス インスツルメンツインコ−ポレイテツド 音声認識の方法
JPS61123893A (ja) * 1984-11-20 1986-06-11 ブラザー工業株式会社 音声決定装置
JPS61123892A (ja) * 1984-11-20 1986-06-11 ブラザー工業株式会社 音声認識装置
JPH0438356B2 (ja) * 1984-11-20 1992-06-24
JPH0438357B2 (ja) * 1984-11-20 1992-06-24

Similar Documents

Publication Publication Date Title
JPS634200B2 (ja)
CA2404441A1 (fr) Parametres robustes pour la reconnaissance de parole bruitee
JPS5880697A (ja) 音声認識方式
JPH0465392B2 (ja)
JPS60158498A (ja) パターン照合装置
CN112634937A (zh) 一种无需数字特征提取计算的声音分类方法
JP3313783B2 (ja) Cmos圧伸器
KR960007130B1 (ko) 음성 인식시스템에서의 숫자음 인식방법
JPS6152478B2 (ja)
JPS59124400A (ja) 音声パタ−ン・マツチング方式
JPS6127600A (ja) 音声識別回路
JPS63121100A (ja) 音声認識装置における特徴パタ−ン抽出方法
JPS625298A (ja) 音声認識装置
JPS61292695A (ja) 音声認識装置
JPS592100A (ja) 音声認識方法
JP3002200B2 (ja) 音声認識
JPS6332200B2 (ja)
JPS5888797A (ja) 音声認識装置
JPS6069699A (ja) 音声パタ−ン作成装置
JPS6043697A (ja) 子音と母音の境界検出装置
JPS6332396B2 (ja)
JPH049319B2 (ja)
JPS6151198A (ja) 音声認識装置
JPS5917600A (ja) 音声認識用辞書作成方式
JPS6315298A (ja) パタ−ン作成方式