JPS58190999A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS58190999A
JPS58190999A JP7362282A JP7362282A JPS58190999A JP S58190999 A JPS58190999 A JP S58190999A JP 7362282 A JP7362282 A JP 7362282A JP 7362282 A JP7362282 A JP 7362282A JP S58190999 A JPS58190999 A JP S58190999A
Authority
JP
Japan
Prior art keywords
zero
signal
crossing
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7362282A
Other languages
English (en)
Inventor
片山 泰男
菅田 一博
一宏 津賀
楠原 久代
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7362282A priority Critical patent/JPS58190999A/ja
Publication of JPS58190999A publication Critical patent/JPS58190999A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は構成が簡単で安価な音声認識装置に関する。
音声認識装置には、多数の帯域フィルタその他によるス
ペクトル分析手段を用いた大規模なものが多く、構成が
複雑でありコストも高い。一方、認識する単語数は少く
ても、構成が簡単で安価な音声認識装置に対する需要も
多い。
音声認識の基本的な方法は、人力音声信号を一定時間毎
に例えばフィルタバンク等を用いて特徴パラメータを抽
出し、前記入力音声信号を特徴パラメータの時系列に変
換し、同様にして認識語案として予め特徴パラメータの
時系列として登録されている各標準パターンと比較し、
最も順似度の高い単語を認識結果とするものである。
簡単に抽出でき波形の周波数情報をとらえる特徴パラノ
ー2夕としては、例えば音声波形の零交差数がある。こ
の零交差数は音声の音量に全く依存しないという有利な
特徴を有している。
第1図に零交差数をパラメータとする音声認識装置の従
来例を示す。図において、1は音声信号入力端子、2は
高域を強調するだめのブリエンファ/ス回路、3はプリ
エンファシスされた音声信号の一定時間毎の零交差数を
計数し、入力音声信号を零交差数の系列に変換する零交
差検出部、4は得られた零交差数系列の長さを一定にし
、前記時間軸の伸縮による影響を取り除くための時間軸
正規化部、6は予め認識語常として各単語が零交差数の
時系列の形で登録されている標準パターン記憶部、6は
時間軸正規化部4の出力と標準パターン記憶部6に登録
されている標準パターンの各々とのパターンマツチング
を行うパターンマツチング部、7はパターンマツチング
部6の出力から入力音声が何であったかを判定する判定
部、9は認識結果の出力端子である。この装置における
音声認識方法は、入力信号の零交差数のみをパラメータ
とする認識方法である。
いまプリエンファシスされた入力音声信号が第3図aに
示すような波形であるとすると、その零交差波は同図C
に示すような波形となる。この場合、入力音声信号の1
0で示す部分の情報が欠落してし1う。このような微妙
な波形上の特徴は入力信号そのものの零交差をとるのみ
では得られない。従って、このような波形上の相違によ
る音声は、このような方法では識別できないことになる
ところで入力音声信号を1回数分、2回数分した零交差
波は原波形の極点、変極点の位置及び個数を示している
。したがってこれらの微分零交差情報をつかえば、もと
の入力音声信号の波形をより精密に知ることができる。
本発明は以上の点に鑑み、入力音声信号そのものの零交
差を取るだけでは得られない微妙な波形上の特徴(高域
、小振幅の成分)を取り入れ、認識率の向上を図った音
声認識装置を提供することを目1勺とする。
(以 下 余 白) 以下、本発明の実施例について第2図、第3図を用いて
説明する。
第2図は本発明の音声認識装置の一実施例を示すブロッ
ク図である。図において、1は音声信号入力端子、2は
高域を強調するだめのプリエンファシス回路、31はプ
リエンファシスされた音声信号の一定時間毎の零交差数
を計数し、入力音声信号を零交差数の系列に変換する零
交差検出部、41は得られた零交差数系列の長さを一定
にし、前記時間軸の伸縮による影響を取シ除くだめの時
間軸正規化部、61は予め認識語集として各単語が零交
差数の時系列の形で登録されている標準パターン記憶部
、61は時間軸正規化部41の出力と標準パターン記憶
部61に登録されている標準パターンの各々とのパター
ンマツチングを行うパターンマツチング部である。8は
プリエンファシス回路2の出力を微分する微分回路、3
2は微分回路8の微分出力を零交差数の系列に変換する
31と同様な零交差検出部、42は零交差検出部32で
得られた零交差数系列の長さを一定にし、前記時間軸の
伸縮による影響を取り除くだめの41と同様な時間軸正
規化部、62は、予め認識語型として各単語が微分処理
された後の零交差数の時系列の形で登録されている標準
パターン記憶部、62は時間軸正規化部42の出力と標
準パターン記憶部62に登録されている標準パターンの
各々とパターンマツチングを行うパターンマツチング部
である。70はパターンマツチング部61と62の出力
から入力音声が何であったかを判定する判定部、9は認
識結果の出力端子である。
零交差検出部31.32は具体的には電圧比較回路で構
成され、一定時間内の入力信号の極性の変化数を計数し
、その数値系列を出力するものである。例えば10 m
 Sec毎にその時間内における零交差回数を求めれば
、音声の場合十分である。
時間軸正規化の最も簡単な方法は、線形の伸縮を行うこ
とである。本実施例においては、プリエンファシス回路
2の出力(以下第1の信号という)と微分回路8の出力
(以下第2の信号という)のそれぞれに対して前記の如
く求められた1 0 m sec毎の数値列を、等間隔
でピックアップして一単語当り32の数値の列に変換す
る。例えば、500m secの音声に対しては、零交
差検出部31.32にて6oの数値の列が得られるが、
これを16の数値の列とする場合、時間軸正規化部41
において3フレームおきに2つ、残り14を2フレーム
おきに前記6oの数値列からピックアップすれば、前記
第1の信号に対して16の数値の列が得られる。第2の
信号についても同様に時間軸正規化部42の出力に16
の数値が得られる。このようにして、一つの単語が32
次元のベクトルに変換されることになる。なお6oの数
値の列から16の数値の列を得る方法として、内挿法を
用いることもできる。
標準パターン記憶部61.62には認識すべき単語に対
して、上記音声信号についての処理と同様な処理をして
得られた各単語に対するベクトルが予め登録されている
パターンマツチング部61.62の動作は、時間軸正規
化部41.42のそれぞれの出力ベクトルと標準パター
ン51 、E52の各ベクトルとの距離をそれぞれ計算
するものである。i番目の標準パターンに対し、前記第
1の信号に対するペクト1   1         
1 ルをbi=(b+、b2.・・・・・・1bi6)l前
記第2の信号に対するベクトルをbi −(b’s 、
 bX  。
′1 ・・・・、bi6)、時間軸正規化部41.42の出力
ベクトルをそれぞれa=(al、a2.・・印・、亀1
6)。
al、a2.・・・・・、iL+6)とするとき、両者
の距離を 寸だけ 等と定義できる。diは前記32次元ベクトルの間の市
街距離、d1″は前記32次元ベクトルの間のユークリ
ッド距離、dl は前記32次元ベクトルをそれぞれ前
記第1の信号と前記第2の信号の16次元ベクトルに分
け、それぞれの信号に対するユークリッド距離の和とし
て求めるものである。
本実施例のような簡易な装置においては、dlを距離と
するのが計算量から言っても実際的である。
判定部70における判定は、kNlなるすべての1に対
し、 dk<dl を与える標準パターンに対応する単語を認識結果とする
第3図(a)はプリエンファシスされた入力音声信号、
同図(b)はその−階微分された信号を示している。第
3図(c) 、 (d)idそれぞれ前記両信号の零交
差波を示している。第3図611)より明らかなように
、微分することによって入力音声信号の10で示す部分
の波形上の特徴(原信号波形の極大極小の形で存在する
成分)が零交差波に反映される。
本実施例においては、零交差検出部31.32により入
力音声信号そのものの零交差数の系列と、入力音声信号
の微分信号の零交差数の系列を求め、時間軸正規化後、
パターンマツチング部61.62により、それぞれの零
交差数の系列に対してパターンマツチングを行うので、
認識率を向上させることができる。
なお前記実施例においては時間軸正規化の方法として線
形の伸縮を行っているが、バタン比較法として周知の動
的計画法により時間軸を非線形に伸縮する方法を用いて
もよい。
まだ前記実施例においては、入力音声信号そのものの零
交差数の系列と、入力音声信号の1階微分信号の零交差
数の系列すなわち原信号の極大極小点情報を用いたが、
入力音声信号の2階微分信号の零交差数の系列すなわち
変極点情報を用いることもできる。またより高暗の微分
信号の零交差数を用い、入力音声信号のより微妙な波形
上の特徴を用いるようにしても良い。また1階微分信号
と2階微分信号というように複数の微分信号の零交差数
を用いるようにすれば、認識率をより向上させることが
できる。
また前記実施例においては、特徴パラメータとして、一
定時間内の零交差数を用いたが、隣り合う零交差点の間
隔を測定し、単語毎にその零交差間隔の頻度分布を標準
バタンとして登録しておき、認識すべき入力単語に対し
ても同様にして零交差間隔の頻度分布を求め、その分布
の形が前記標準パターンの何れの分布に最も類似してい
るかということによって、認識を行う方法がある。この
場合も、入力音声そのものに対する前言己分布のみでな
く、その1〜n階微分した信号に対する零交差間隔の分
布も用いることにより、前記実施例で述べたのと同様の
理由により認識率を上げることができる。
さらに、前記実施例においては、予め登録しである標準
バタンと入力バタンを比較して認識する方法について述
べたが、識別函数を用いる方法もある。
すなわち、入力)奇声信号そのものの零交差数を前記実
施例と同様に、1つの単語を16次元のベクトルで表切
、することにすれば、ある単語は16次元ベクトル空間
の1つの点で表すことができる。
そこで、認識語蕾となるべき単語を多数の話者に発話し
てもらい、各単語に対応する点が分布している前記ベク
トル空間内の各単語に対する領域を分離する識別函数を
予め求め、それを記憶しておけば、認識すべき入力単語
に対応する前記ベクトル空間内の点が、前記領域の何れ
に属するかをこの入力ベクトルに対する前記識別函数の
値を求めることにより決定することができる。この領域
に対応する単語がすなわち認1識結果としてJジえられ
る単語である。この識別函数による方法は周知の方法で
あるが、この方法にも、1〜n階の微分信号に対する零
交差数を特徴パラメータとして用いることにより認識率
を向上させることが可能である。すなわち、前記実施例
のように、入力音声そのものの零交差数と、その1階微
分信号の零交差数を特徴パラメータとして用いる場合は
、各単語を入力音声そのものから得られた16の零交差
数と、その微分信号から得られた16の零交差数の合計
32の零交差数を要素とする32次元のベクトルに対応
させ、32次元のベクトル空間において、前記識別函数
法を適用すればよいことになる。
以−ヒのように本発明の音声認識装置は入力音声信号と
その微分信号の零交差数を用いて音声認識を行うよう構
成したので、簡単な構成で認識率の向上を図ることがで
き、その実用的価値は高い。
【図面の簡単な説明】
第1図は従来の音声認識装置の構成を示すブロック図、
第2図は本発明の一実施例の音声認識装置の構成を示す
ブロック図、第3図(a)〜(d)は同実施例の動作を
説明するための信号波形図である。 8・・・・・・微分回路、31.32・・・・・・零交
差検出部、61.52・・・・・・標準パターン記憶部
、61.62・・・・・・パターンマツチング部、7o
・・・・判定部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 5 第2図       、。 、52

Claims (1)

    【特許請求の範囲】
  1. 人力音声信号の1階、2階、・・・・・、n階の微分信
    号のうち少なくとも1つの微分信号を得る微分回路と、
    入力音声信号および前記微分回路の出力である微分信号
    の零交差数まだは零交差間隔を検出する零交差検出部と
    、前記零交差数または零交差間隔を特徴パラメータとし
    て用い入力名声信号の識別を行う識別手段とを備えた音
    声認識装置。
JP7362282A 1982-04-30 1982-04-30 音声認識装置 Pending JPS58190999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7362282A JPS58190999A (ja) 1982-04-30 1982-04-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7362282A JPS58190999A (ja) 1982-04-30 1982-04-30 音声認識装置

Publications (1)

Publication Number Publication Date
JPS58190999A true JPS58190999A (ja) 1983-11-08

Family

ID=13523597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7362282A Pending JPS58190999A (ja) 1982-04-30 1982-04-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPS58190999A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6035798A (ja) * 1983-04-13 1985-02-23 テキサス インスツルメント インコーポレイテツド スピーチ及び語認識装置及び方法
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5727298A (en) * 1980-07-25 1982-02-13 Tokyo Shibaura Electric Co Voice recognizing device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5727298A (en) * 1980-07-25 1982-02-13 Tokyo Shibaura Electric Co Voice recognizing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6035798A (ja) * 1983-04-13 1985-02-23 テキサス インスツルメント インコーポレイテツド スピーチ及び語認識装置及び方法
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Similar Documents

Publication Publication Date Title
US4827519A (en) Voice recognition system using voice power patterns
KR100733145B1 (ko) 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템
JPS6128998B2 (ja)
EP1686561B1 (en) Determination of a common fundamental frequency of harmonic signals
CN108735230A (zh) 基于混合音频的背景音乐识别方法、装置及设备
JPS58190999A (ja) 音声認識装置
JPH04276523A (ja) 音識別装置
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP2557497B2 (ja) 男女声の識別方法
JPS63213899A (ja) 話者照合方式
Zhao et al. DD-CNN: Depthwise Disout Convolutional Neural Network for Low-complexity Acoustic Scene Classification
JPH02302799A (ja) 音声認識方式
JPS63106798A (ja) 個人認証装置
JPS58190998A (ja) 音声認識装置
JPS60166993A (ja) 単語音声認識装置
JPS61252595A (ja) 音声認識処理方式
JPH0352085A (ja) 自己組織化ネットワークを用いた話者照合方式
JPS59124388A (ja) 単語音声認識処理方式
JPS62175800A (ja) 音声パタ−ン作成方式
JPS62286099A (ja) 音声認識方式
JPH01156798A (ja) パターン類似度演算方式
GOUTYON et al. Music Technology Group, Universitat Pompet, Fahru, Barcelona, Spain E-mail:{fgouyon, pherrerałęium. upf. es
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPS62115498A (ja) 無声破裂子音識別方式
JPH0217039B2 (ja)