JPS593498A

JPS593498A - 音声認識装置

Info

Publication number: JPS593498A
Application number: JP57112923A
Authority: JP
Inventors: 保夫高橋; 酒井　利成; 麻田　治男
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-06-30
Filing date: 1982-06-30
Publication date: 1984-01-10
Also published as: JPH0361958B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は電話回線を通じて入力される音声信号とブツシ
ュホン信号とをそれぞれ確実に認識することのできる音
声認識装置に関する。

〔発明の技術的背景とその問題点〕

近時、情報化社会の発達に伴って電話回線を介して接続
された系において、音声信号や電話機から発せられるブ
ツシュホン信号をそれぞれ認識してデータ処理を行うこ
とが考えられている。ところがこのような音声信号とブ
ツシュホン信号と云う明らかに性質の異なる信号を１つ
のアルゴリズムに従って認識処理することは甚だ困難で
あり、またその認識精度の向上も望めない。そこで従来
では第１図に示すようにブツシュホン信号を認識する為
の専用のアルゴリズムを備えた！、シュホン信号認識部
１と、音声信号を認識する為の専用のアルゴリズムを備
えた音声認識部２と、これらの認識部１，２による認識
結果を総合判定する総合判定部３とによυ音声認識装置
を構成することが行われている。

このようにすれば音声認識部２における認識対象語数を
整理することができるので、成る程度信頼性の高い認識
処理を行うことが可能となる。然し乍ら、例えば曖昧な
信号が入力された場合等、ゾ、シュホン信号認識部１は
これを音声信号であるとして確実にリジェクトするとと
が困難であり、まだ音声信号認識部２にあっても同様に
これをブツシュホン信号であると認定して確実にリジェ
クトすることが困難である為、結局総合判定部３におい
ても上記入力信号がブツシュホン信号であるか、或いは
音声信号であるかを確実に識別することができないと云
う問題があった。またこのような不具合を解消する為に
は各認識部１，２のリジェクト能力を高めなければなら
ず、結局装置構成が複雑化すると云う問題があった。ま
たこのような複雑化に見合う効果がさほど期待されない
と云う問題もあった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするととろは、簡易に且つ確実に音声信号とブ
ツシュホン信号とを識別することのできる実用性の高い
音声認識装置を提供することにある。

〔発明の概要〕

本発明は入力信号を所定の時間軸フレーム毎にグツシュ
ホン信号の音響特徴辞書を用いて類似度計算することに
よってブツシュポン信号を確実に識別し、その結果に応
じて音声信号およびブツシュホン信号をそれぞれの処理
対象に限って確実に認識するようにしたものである。

〔発明の効果〕

従って本発明によれば、所定の時間軸フレームにおいて
トーンが安定であると云うブツシュホン信号特有の特徴
を利用して入力信号を識別したのち、との識別結果に従
って音声信号およびダッシュホン信号をそれぞれ別個に
認識処理するので、その認識精度は非常に高いものとな
る。しかも処理形式が簡単であり、装置構成も簡易であ
るから、容易にその信頼性の向上を図るととができ、実
用的利点が多大である。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき説明する
。

第２図は実施例装置の概略構成図であり、第１図に示す
従来装置と同一構成部分には同一符号を付して示しであ
る。この実施例装置が特徴と、するところは、判定部４
にて入力信号をブツシュホン信号の音響特徴辞書を用い
て類似度計算処理し、これによって上記入力信号がブツ
シュホン信号であるか否かを判定するようにしたところ
にある。上記類似度計算処理は、入力信号に対して所定
の時間軸フレーム毎に行われる。

そして、類似度値に基づく判定は、例えば音声信号／ブ
ツシュホン信号の２値として、あるいはこれに判定不能
なる信号を加えだ３値によって行われる。このような判
定結果が認識部１゜２および総合判定部３に送られる。

判定結果がグツシュホン信号であるとして識別したとき
、その判定信号によってゾッシュポン信号認識部１が駆
動されて入力信号の認識が行われる。そしてその認識結
果は総合判定部３を介して出力される。また判定結果が
音声、信号であるとして識別したとき、その判定信号に
よって音声認識部２が駆動される。これにより入力信号
は音声認識され、その認識結果が総合判定部３を介して
出力されることになる。そして判定不能なる判定結果が
得られた場合には、認識部１，２がそれぞれ駆動され、
その各々において認識結果が求められる。このとき総合
判定部３は所定のアルゴリズムに従って上記両認識結果
を総合判定し、その判定結果を入力信号に対する最終的
な認識結果として出力することになる。

かくして上記の如く構成された装置によれば明らかに性
質の異なる音声信号とブツシュホン信号とを簡易に且つ
精度良く識別したのち、その各々の場合に応じて適切な
アルゴリズムに従って信号認識することができる。これ
故、従来非常に複雑であった音声信号およびブツシュホ
ン信号に対する認識処理プロセスを系統別に分けること
によって、簡易にすることができ、またその認識精度の
向上を図ることができる。つｔ、ｂ簡易に装置の高性能
化を図ることが可能となる。

ところで、前記の如く入力信号の識別を行う判定部４は
、例えば第３図に示す如く構成することができる。即ち
、入力信号を前処理部１１に導びき、例えば数１０　ｍ
５ｅｃの所定時間軸フレーム毎に上記入力信号を分析し
、例えばそのバンド・ぐスフィルタ出力Ａと、低域まだ
は全帯域フィルタ出力Ｂとを得る。上記・ぐンド・ぐス
フィルタ出力Ａを類似度計算部１２に導びき、ゾッシー
ポン信号・音響信号特辞辞書１３に格納されたブツシュ
ホン信号のカテゴリ毎の特徴データとの類似度計算を行
わしめる。

一方、分析区間決定部１４では前記全帯域フィルタ出力
Ｂを用い、例えばその信号レベルの犬なる区間を検出す
る等して分析処理区間を求めている。そして、その分析
開始点と分析終了点において計数処理部１５に制御信号
を力えている。この計数処理部１５は、上記の如く設定
される区間内において、前記類似度計算部１２が所定値
０１以上の類似度値を得る回数を計数するものである。

この所定値θＳを越える類似度値の判定は、全てのカテ
ゴリについて行われる。

そして、この計数された回数には、前記分析区間の情報
ｌと共に認識判定部１６に力えられるようになっている
。

認識判定部１６は、上記分析区間ｌの値に応じて２つの
閾値θｋｍ（１）　、θｋｗ（ｉ）　　を持っており、
これらの閾値と前記計数値にとを比較して入力信号の判
定を行っている。但し、ｌは１，２゜３・・・ｌなる値
をとる。そして、ｋ≧θｋｓ（７１り　　　　　　　　　　・・・（１）
θｋｓ（／り’）ｋ：２θｋＷ（１）　　　　　　・（
２）θｋｗ　（１）　：）　ｋ　　　　　　　　・・・
（３）なる３通りの判定を行い、上記条件が（１）なる
場合にはこれを入力信号がブツシュホン信号であるとの
判定結果を得ている。まだ上記条件が（２）なる場合に
は入力信号の判定が不能であシ、寸だ条件が（３）なる
場合には前記入力信号が音声信号であるとの判定結果を
それぞれ得ている。

このようにして求められる判定結果に応じて前述した認
識部１，２．および総合判定部３における認識・判定処
理がそれぞれ行われることになる。

以上のように本装置によれば、認識処理の中心となる音
を認識部２に、ブツシュホン信号に対する辞１を設ける
ことが必要でなくなるので、従来装置に比して処理速度
の大幅な向上と、辞書分離度の上昇による認識率の著し
い改善、更には辞書記憶領域の減少による装置構成の簡
素化を図ることが可能となる。またこの音声認識部２が
グツシュホン信号に対するリジェクト能力が低い場合で
も、ブツシュホン信号認識部１では音声信号に対するリ
ジェクト能力を考慮することなしに、その処理を簡易に
行い得る。つまり特徴の変動が激しい音声信号に比べて
、特徴変動の小さいブツシュホン信号のみを処理対象と
し得るので、極めて簡単な構成を採用して信頼性の高い
ブツシュホン信号の認識を行い得る。寸だ判定部４の構
成についても、第３図に示すように簡易に実現できる。

また分析区間判定処理を装置の前処理結果をそのまま利
用して、つまり判定部４として格別に前処理部１１等を
設けることなしに行うことも可能であり、装置全体とし
て、その構成の簡易化を図り得る。故に、辞書処理を始
めとするその他関連した処理の簡易化を図り、処理速度
の向上を図シ得る等、実用上多大なる効果が奏せられる
。

尚、本発明は上記実施例に限定されるものではない。例
えばブツシュホン信号は、音響結合器等を用いた擬似ブ
ツシュホン信号をも含むことは云うまでもない。またブ
ツシュホン信号に対する辞書を全てのカテゴリに対して
持つことなく、カテゴリを相互にクラスタリングして少
数にまとめて辞書として与えることも有効である。また
音声信号とプツシ−ホン信号との特徴の分離度が比較的
大きい場合には、所定の識別性能をそのまま維持した状
態で上述した処理を行うようにしてもよい。このように
すれば辞書とのマツチング処理に要する時間を短くする
ことができ、更に辞書としての記憶領域を軽減できる等
の利点が生まれる。このように本発明は、その要旨を逸
脱しない範囲で種々変形して実施することができる。

【図面の簡単な説明】

第１図は従来装置の一例を示す構成図、第２図は本発明
の一実施例装置の概略構成図、第３図は実施例装置にお
ける判定部の構成図である１ノ・・・ゾ、シュホン信号
認識部、２・・・音声信号認識部、３・・・総合判定部
、４・・・判定部、１ノ・・・前処理部、１２・・・類
似度計算部、１３・・・特徴辞書、１４・・・分析区間
決定部、１５・・・特徴区間計数部、１６・・・認識判
定部。出願人代理人　　弁理士　鈴　江　武　彦第１図第２図第３図

Claims

【特許請求の範囲】

電話回線に接続されて音声信号とダッシュホン信号とを
入力し、これらの信号を認識してなる音声認識装置にお
いて、音声信号あるいはグツシュホン信号からなる入力
信号を所定の時間軸フレーム毎に前記ブツシュホン信号
に対する音響特徴辞書を用いて類似度計算処理し、この
計算された類似度から前記入力信号が７０ッシュホン信
号であるか否かを判定して前記入力信号を認識処理する
ことを特徴とする音声認識装置。