JPH0380299A - 単語音声予備選択方式 - Google Patents

単語音声予備選択方式

Info

Publication number
JPH0380299A
JPH0380299A JP1216313A JP21631389A JPH0380299A JP H0380299 A JPH0380299 A JP H0380299A JP 1216313 A JP1216313 A JP 1216313A JP 21631389 A JP21631389 A JP 21631389A JP H0380299 A JPH0380299 A JP H0380299A
Authority
JP
Japan
Prior art keywords
time
word
speech
feature
characteristic quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1216313A
Other languages
English (en)
Inventor
Toru Sanada
真田 徹
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1216313A priority Critical patent/JPH0380299A/ja
Publication of JPH0380299A publication Critical patent/JPH0380299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 単語毎に区切って発声した音声を認識する音声認識装置
において、音声の特徴量を時系列に抽出し、該時系列に
抽出された特徴量の時間平均をとったものでテンプレー
トと照合し、類似度の大きいものを出力するという簡易
な方法で、大語堂から小語霊に候補単語を絞り込み、該
認識時の速度を向上させる予備選択方式に関し、 発声速度の変化に対して、頑強な予備選択方式を提供す
ることを目的とし、 該特徴量の時間的変動量が、特定の閾値より大きい部分
を排除する手段を設け、該排除手段を用いて、該特徴量
の時間的変動量が、上記特定の閾値より小さい部分の特
徴量のみを時系列に抽出し、その時間平均をとってテン
プレートと照合するように構成する。
〔産業上の利用分野〕
本発明は、単語毎に区切って発声した音声を認識する音
声認識装置において、音声の特徴量を時系列に抽出し、
該時系列に抽出された特(Litの時間平均をとったも
のでテンプレートと照合し、類似度の大きいものを出力
するという簡易な方法で、大語粟から小語霊に候補単語
を絞り込み、該認識時の速度を向上させる予備選択方式
に関する。
従来から、ファクトリオートメーション(FA)等の分
野において、特定の話者による単語音声を登録しておき
、該特定の話者に該登録単語を発声させて、例えば、部
品の自動収集を行うことが行われている。
この場合、該部品の自動収集は実時間性が要求される為
、該特定の話者の発声した′音声の認識速度はできる限
り速いことが要求される。
一方、最近の計算機システムにおける記憶容量の大規模
化に伴い、該登録単語も増大しており、その時の認識速
度を向上させる為に、大語霊から小語霊に候補単語を絞
り込む、所謂、単語音声予備選択方式(2段階方式)が
知られている。
然しなから、該単語音声予備選択方式において、該登録
された単語音声を発声する時の速度が変化すると、該単
語音声には、発声速度によって伸縮する定常部(母音、
摩擦音)と、該発声速度によって伸縮しない非定常部(
子音)とが混在している為、上記時間平均特徴量におい
て、正常に評価されなくなる問題が発生する。
この結果、該予備選択において認識されるべき単語の順
位が低くなり、候補から漏れて、本来認識されるべき単
語が認識されなくなる場合が発生することから、該発声
速度に対して頑強な単語音声予備選択方式が要求される
〔従来の技術と発明が解決しようとする課題〕第3図は
従来の単語音声予備選択方式を説明する図である。
先ず、入力された音声から特徴量時系列抽出手段(例え
ば、バンドパスフィルタ)■によって、特@量の時系列
を抽出する。これを特1v1.Ii時系列平均手段2a
によって、時間平均を行い、入力音声の時間平均特徴量
を得る。
これを平均特徴量照合手段3によって、単語辞書内のテ
ンプレート5(予め、登録しである単語の時間平均特徴
iI)と照合し、単語辞書内の単語と人力音声の類似度
を得る。これを順序付は手段4によって、類似度の大き
い単語から順位付けをして単語を出力する。
予備選択方式として用いる場合には、順位の高い単語の
み詳細な照合、例えば、動的計画法によるパターンマツ
チング(DPマツチング)を行うことになる。簡易単語
音声認識装置として使用する場合には、例えば、第1位
の単語を認識結果とするように構成する。
かかる従来方式においては、若し、発声速度が変化する
と、音声の定常部(母音や摩擦音)が主に伸縮するが、
非定常部(子音)はあまり伸縮しないという現象が起き
る。そして、該発声された音声の特徴量は、主として、
上記の定常部に存在している。
従って、含入力された音声の発声速度がテンプレートに
登録された時の登録単語の速度と異なる場合に、伸縮度
の異なる音声部分が混在していることに起因して、時間
平均の特@量において、音声の定常部と非定常部が過大
に評価されたり、過少に評価されたりすることが起こる
その結果、認識されるべき単語の順位が低くなり、予備
選択の絞り込みを行う際の候補から洩れ、認識されるべ
き単語が認識されない場合が多くなる問題が発生する。
本発明は上記従来の欠点に鑑み、音声の特徴量を時系列
に抽出し、該時系列に抽出された特徴量の時間平均をと
って、テンプレートと照合し、類似度の大きいものを出
力する音声の予備選択方式において、発声された音声か
ら、該音声の特徴量をあまり含んでいない非定常部を取
り除き、定常部だけの時間平均特徴量でテンプレートと
比較することによって、発声速度の変化に対する頑強性
の向上した単語音声予備選択方式を提供することを目的
とするものである。
〔課題を解決するための手段〕
第1図に本発明の原理ブロック図である。
上記の問題点は下記の如くに構成された単語音声予備選
択方式によって解決される。
音声の特徴量を時系列に抽出し、該時系列に抽出された
特徴量の時間平均をとって、テンプレート5と照合し、
類似度の大きいものを出力する音声の予備選択方式であ
って、 該特徴量の時間的変動量が、特定の閾値より大きい部分
を排除する手段6.7.2を設け、該排除手段6.7.
2を用いて、該特徴量の時間的変動量が、上記特定の閾
値より小さい部分の特徴量のみを時系列に抽出し、その
時間平均をとってテンプレート5と照合するように構成
する。
〔作用) 即ち、本発明によれば、先ず、入力された音声から特徴
量時系列抽出手段(前述の、例えば、バンドパスフィル
タ〉1によって、特徴量時系列を抽出する。この特徴量
の時系列から特徴変動量抽出手段6によって特徴量の時
間的変動の大きさを抽出する。
一般に、特徴量の時間的変動量が大きい部分は非定常部
であり、特徴変動量が小さい部分は定常部である。従っ
て、適切な閾値と、特徴変動量との大小判断で定常部と
非定常部を分離できる。即ち、非定常部を取り除くこと
ができる。
上記の適切な閾値は閾値決定手段7により、特徴変動量
の時系列から、例えば、その時系列の平均値を求めるこ
とで、その時の特徴変動量に対応した適切な閾値を決定
することができる。
次の、特徴量時系列分離・平均手段2では、特徴変動量
が閾値以下の部分(特徴量の変動が小さい部分、すなわ
ち定常部)についてのみ、従来と同じ特徴量時系列の時
間平均を行う。これにより非定常部分を排除した特@量
の時系列平均値が得られる。これを平均特徴量照合手段
3によって、単語辞書内のテンプレート5(予め、登録
しである各単語の時間平均特徴量)と照合し、単語辞書
内の単語と人力音声の類似度を得る。
これを順序付は手段4によって、類似度の大きい単語か
ら順位付けをして単語を出力する。予備選択方式として
用いる場合には順位の高い単語のみ詳細な照合(DPマ
ツチング)を行うことになる。簡易単語音声認識装置の
場合には、例えば、第1位の単語を認識結果とすること
で、該認識結果を使用できる。
従って、単語音声の発生速度が変化したときの、伸縮度
が異なる定常部と、非定常部の内、該単語音声の特徴量
の大部分を持っている定常部のみを抽出して、その時間
的な平均をとったものをテンプレート5と比較する為、
音声の発声速度が変動しても認識すべき語が、該予備選
択で脱落する割合が減り、該認識結果を簡易音声認識と
して使用する場合にも、認識率を向上させることができ
る効果がある。
〔実施例〕
以下本発明の実施例を図面によって詳述する。
前述の第1図が本発声の原理ブロック図であり、第2図
に本発明の一実施例を示した図であって、第1図に示し
た特1vi、!時系列抽出手段1で抽出した時系列の特
徴量から、時間的変動量を抽出し、その時間的変動量の
大きい、音声の非定常部を排除した定常部のみについて
、時間的平均をとって、予め、登録されている各単語音
声の特徴量の時間的平均と比較する手段6.7.2.3
が、本発明を実施するのに必要な手段である。尚、全図
を通して同じ符号は同じ対象物を示している。
以下、第1図、を参照しながら、第2図によって、本発
明の単語音声予備選択方式を説明する。
先ず、入力された音声はBPF (バンドパスフィルタ
)群10で各BPFの周波数帯域に分割され多次元の特
@量に変換され、その時系列がフレームメモリ 11に
格納される。
隣接フレーム間距離算出回路60はフレームメモリ 1
1から取り出した隣接するフレーム間の認識距離(例え
ば、ユークリッド距離)の時系列を算出し、この時系列
の距離をフレームメモリ61に格納する。この時系列の
距離を平均値算出回路7で全音声区間で平均して、前述
の特徴量の時間的な変動量の大きい単語音声の非定常部
を排除する為の閾値とする。
フレーム選択回路20では、フレームメモリ 11に格
納されている隣接フレーム間距離と平均値算出回路7で
計算された上記閾値を参照し、隣接フレーム間距離が閾
値より小さいフレームのみをフレームメモリ 11から
取り出して、その多次元の特徴量の時系列を出力する。
このように抽出された、単語音声の定常部のみの多次元
の時系列特徴量を各次元(各チャネル)に対して、各芋
ヤネル加算回路21によって加算する。この加算結果の
侭では、該発生された音声の音量が大きいと、次の距離
計算で誤った結果を出力することになるので、これを正
規化回路22で各チャネルの値の全チャネルでの総和が
一定値(例えば1000 )になるように正規化する。
例えば、(〔各チャネルの値) X100O) / (
全チャネルの値の総和]を求める。この正規化処理によ
って、時系列特徴量の時間的な平均を得る。
この正規化された特徴量とテンプレート (予め、各単
語の時間平均特徴量が登録されている)5の認識距離を
距離算出回路3で計算する。
以上の処理でテンプレート5に、予め、登録されている
単語と入力音声の距離が算出できる。この登録単語と入
力音声の距離を単語順位付け・並び替え回路4で距離の
小さい順に並び替えを行いその順位で出力する。出力さ
れた単語の上位のみを選択することによって、予備選択
、或いは、簡易音声認識ができる。
このように、本発明は、単語毎に区切って発声した音声
を認識する音声認識装置において、音声の特徴量を時系
列に抽出し、該時系列に抽出された特@量の時間平均を
とったものでテンプレートと照合し、類似度の大きいも
のを出力するという簡易な方法で、大語霊から小語案に
候補単語を絞り込み、該認識時の速度を向上させる予備
選択方式において、特徴量時系列抽出手段で抽出した時
系列の特徴量から、時間的変動量を抽出し、その時間的
変動量の大きい、入力音声の非定常部を排除した定常部
のみについて、時間的平均をとって、予め、テンプレー
トに登録されている各単語音声の特徴量の時間的平均と
比較するようにした所に特徴がある。
〔発明の効果〕
単語毎に区切って発声した音声を認識する音声認識装置
において、音声の特徴量を時系列に抽出し、該時系列に
抽出された特@量の時間平均をとったものでテンプレー
トと照合し、類似度の大きいものを出力するという簡易
な方法で、大語紮から小語堂に候補単語を絞り込み、該
認識時の速度を向上させる予備選択方式において、該特
徴量の時間的変動量が、特定の閾値より大きい部分を排
除する手段を設け、該排除手段を用いて、該特徴量の時
間的変動量が、上記特定の閾値より小さい部分(定常部
〉の特徴量のみを時系列に抽出して、その時間平均をと
ってテンプレートと照合するようにしたものであるので
、音声の発声速度に変動があっても、認識すべき語が予
備選択で候補から脱落する割合が減り、簡易音声認識の
認識率も向上する効果がある。
【図面の簡単な説明】
第1図は本発明の原理ブロック図。 第2図は本発明の一実施例を示した図。 第3図は従来の単語音声予備選択方式を説明する図。 である。 図面において、 1は特徴量時系列抽出手段。 10はバンドパスフィルタ(BPF) m。 11はフレームメモリ。 2は特徴量時系列分離・平均手段。 20はフレーム選択回路。 21は各チャネル加算回路。 22は正規化回路。 3は平均特徴量照合手段、又は、距離算出回路。 4は順序付は手段、又は、単語順位付け・並び替見回路
。 5はテンプレート。 6は特徴変動量抽出手段。 60は隣接フレーム間距離算出回路。 61はフレームメモリ。 7は閾値決定手段、又は平均値算出回路。 をそれぞれ示す。 本発明の原理ブロック図 第1図 第 図 第 図

Claims (2)

    【特許請求の範囲】
  1. (1)音声の特徴量を時系列に抽出し、該時系列に抽出
    された特徴量の時間平均をとって、テンプレート(5)
    と照合し、類似度の大きいものを出力する音声の予備選
    択方式であって、 該特徴量の時間的変動量が、特定の閾値より大きい部分
    を排除する手段(6、7、2)を設け、該排除手段(6
    、7、2)を用いて、該特徴量の時間的変動量が、上記
    特定の閾値より小さい部分の特徴量のみを時系列に抽出
    し、その時間平均をとってテンプレート(5)と照合す
    ることを特徴とする単語音声予備選択方式。
  2. (2)簡易音声認識装置を上記請求項1に記載の単語音
    声認識方式により構成したこを特徴とする単語音声予備
    選択方式。
JP1216313A 1989-08-23 1989-08-23 単語音声予備選択方式 Pending JPH0380299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1216313A JPH0380299A (ja) 1989-08-23 1989-08-23 単語音声予備選択方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1216313A JPH0380299A (ja) 1989-08-23 1989-08-23 単語音声予備選択方式

Publications (1)

Publication Number Publication Date
JPH0380299A true JPH0380299A (ja) 1991-04-05

Family

ID=16686564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1216313A Pending JPH0380299A (ja) 1989-08-23 1989-08-23 単語音声予備選択方式

Country Status (1)

Country Link
JP (1) JPH0380299A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP4630983B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム

Similar Documents

Publication Publication Date Title
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
EP0319140A2 (en) Speech recognition
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US4817159A (en) Method and apparatus for speech recognition
US5101434A (en) Voice recognition using segmented time encoded speech
US4885791A (en) Apparatus for speech recognition
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPH0380299A (ja) 単語音声予備選択方式
US7454337B1 (en) Method of modeling single data class from multi-class data
JPS63186298A (ja) 単語音声認識装置
JP2019101285A (ja) 音声処理装置、音声処理方法及びプログラム
JPH02300800A (ja) 音声認識装置
Kumar et al. Speech Emotion Recognition by AdaBoost Algorithm and Feature Selection for Support Vector Machines
JP2602271B2 (ja) 連続音声中の子音識別方式
JPS62133499A (ja) 音声認識装置
JP2744622B2 (ja) 破裂子音識別方式
Heinrich Speech identification using a sequence-based heuristic
JPS63173100A (ja) キ−ワ−ド抽出装置
JPH01253799A (ja) 音声の認識方法
KR950002704B1 (ko) 음성인식 시스템의 유사음성 구분장치 및 구분방법
JPH0311478B2 (ja)
Winebarger et al. Improving SVF with DISTBIC for phoneme segmentation
JPS6136797A (ja) 音声セグメンテ−シヨン法
JPH0316040B2 (ja)