JPH0237600B2

JPH0237600B2 -

Info

Publication number: JPH0237600B2
Application number: JP56022920A
Authority: JP
Inventors: Atsushi Sakurai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1981-02-20
Filing date: 1981-02-20
Publication date: 1990-08-24
Also published as: JPS57138696A; US4459674A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、特徴パラメータを用いる音声認識部
及び音声合成部を備える音声入出力装置に関す
る。

［従来の技術］近年、音声処理技術の進歩に伴い、例えば
EDN.（1979，11，20p.p.159―167）のように音声
認識の機能と音声合成の機能とを有する音声応答
等の音声入出力装置が実用化されてきているが、
合成音声の出力中に音声を入力して認識処理をす
る必要がある場合に、例えば実開昭55―79399や
実開昭55―125700の様に、所望の入力音声に応答
中の出力音声が混入してもともと認識したい音声
の認識率が低下してしまうのを防ぐために、入力
した音声波形から合成した音声波形を差し引くも
のはあつた。

しかし、入力音声から合成音声を除去する際に
音声波形そのものを用いると、合成音声が出力さ
れてから入力されるまでの時間的遅延によるタイ
ミングのずれから残査が大きくなつてしまい、入
力音声から合成音声を除去することができないと
いう欠点があつた。

上記欠点を解決するためには、音声の出力部と
入力部の距離や環境など、複雑な要素を含めて計
算し、デイレイ回路を新たに設けなければならな
かつた。

［目的］本発明は、認識したい音声に自らの装置が出力
した合成音声が混入したものを入力した場合に、
合成音声を除去してもともと認識したい音声のみ
とし、認識率を上げるべく、符号化された音声情
報を用いた音声入出力装置を提供することを目的
とする。

本発明は、合成音声が出力されてから自らの装
置に入力されるまでの時間的遅延を、考慮するこ
となく簡単な構成で認識したい音声のみを取り出
し、高い認識率で認識することができる音声入出
力装置を提供することを目的とする。

［実施例］以下に図面を参照して本発明を詳細に説明す
る。まず、従来のこの種の音声入出力装置の概略
構成を第１図に示す。第１図の従来の音声入出力
装置においては、入力音声に対する音声認識装置
（図中鎖線より下）と音声応答装置（図中鎖線よ
り上）との間に、音声よる入力情報を処理して音
声により応答する出力情報を作成するための情報
処理装置が介在するが、図面には、音声変換に関
しては全く別系統をなす音声応答装置と音声認識
装置とのみを分離して示してある。また、音声応
答装置としては、いわゆるPARCOR型すなわち
偏自己相関型の音声合成装置を使用した場合の回
路構成を示してあるが、音声合成の形態は特徴パ
ラメータを用いたものであればいかなるものでで
あつてもよい。図示の構成による従来の音声入出
力装置においては、図中の鎖線より上に示す音声
応答装置において、音声にて応答すべき音源デー
タを音源データレジスタ１に記憶させると共に、
PARCOR型音声合成を行なうためのPARCOR係
数をPARCOR係数レジスタ２に格納しておき、
音源データレジスタ１から読み出してて供給した
音源データにより変調したパルス列信号を音源回
路３にて発生させ、そのパルス列信号を
PARCOR合成演算器４に供給して、PARCOR係
数レジスタ２から読み出して印加したPARCOR
型音声合成のための演算処理を施して音源データ
に対応した音声を表わすデジタル信号をデジタル
―アナログ変換器５に供給して変換したアナログ
音声信号を合成音声出力端子６から取り出し、ス
ピーカ（図示せず）に供給して所要の応答出力音
声を発生させる。

一方、図中の鎖線より下に示す音声認識装置に
おいては、音声入力端子７に供給したマイクロホ
ン（図示せず）からのアナログ音声信号をアナロ
グ―デジタル変換器８に導いてデジタル音声信号
に変換し、そのデジタル音声信号を、入力音声出
力端子１１を介して音声認識器１２に供給し、入
力音声が表わす音声情報の認識を行なう。

上述のような構成による従来の音声入出力装置
において、音声応答装置によりスピーカから音声
出力音声を発生している最中に、そのスピーカか
ら十分に離隔されていないマイクロホンにより音
声認識装置に対する入力音声信号が供給される
と、その入力信号中には、音声応答装置からの合
成音声出力信号がまわりに込んで混入し、したが
つて、所要の入力音声に対する正確な音声認識を
行なうことが困難となり、音声認識率が著しく低
下するという結果になつていた。

従来の音声入出力装置におけるかかる入出力音
声の混入による音声認識率の低下を防止する様に
した本発明音声入出力装置の回路構成の例を第２
図に示す。図示の回路構成は、第２図を第１図と
対比すれば明らかな様に、第１図に示した従来装
置の回路構成における音声認識装置中のアナログ
―デジタル変換器８と入力音声出力端子１１との
間にPARCOR逆フイルタ９と音源逆フイルタ１
０との従属接続を介挿しそのPARCOR逆フイル
タ９に音声応答装置中のPARCOR係数レジスタ
２からのPARCOR係数を印加するとともに、音
源逆フイルタ１０には音声応答装置中の音源デー
タレジスタ１からの音源データを印化する様にし
たものであり、従来装置の回路構成に対してかか
る構成要素を追加することにより、音声認識装置
の入力音声に混入した音声応答装置の出力音声成
分を除去するようにしたものである。

ここで、PARCOR合成演算器４と、PARCOR
逆フイルタ９について詳細に説明する。

まず、PARCOR合成演算器４は、ラテイス型
の合成フイルタを複数個縦列に接続したもので、
各段に与えられるPARCOR係数を用いて、入力
信号であるインパルス列やランダム雑音に対して
スペクトル特性を与え、音声波形を生成する。こ
れに対し、PARCOR逆フイルタ９は、ラテイス
型の分析フイルタを複数個縦続接続したものであ
るが、分析する時と違つてPARCOR係数ｋを予
め与え、与えられたPARCOR係数ｋの分だけス
ペクトル特性を入力信号から濾波する機能を有す
る。従つて、PARCOR逆フイルタ９への入力信
号がPARCOR合成演算器４により生成された合
成音声の時は、PARCOR逆フイルタ９に
PARCOR合成演算器４に与えたものと同じ
PARCOR係数ｋを与えれば、PARCOR合成演算
器４によつて取り除かれ、PARCOR逆フイルタ
９からの出力信号は、PARCOR合成演算器４に
入力されたインパルス列のみとなる。

ここで、第２図における信号の流れを、音源が
インパルス列であり、PARCOR合成演算器４か
らの出力が有声音となる場合について説明する。
音源回路３は、音源データレジスタ１より供給さ
れるピツチ情報に基づいてインパルス列を生成
し、PARCOR合成演算器４に送る。PARCOR合
成演算器４は、PARCOR係数レジスタ２より供
給されるPARCOR係数ｋを用いて、音源回路３
より入力されたインパルス列にスペクトル情報を
付加し、合成音声を生成、出力する。このとき、
PARCOR逆フイルタ９にもPARCOR係数レジス
タ２より、PARCOR合成演算器４に与えられた
のと同一のPARCOR係数を供給するので、
PARCOR逆フイルタ９は実音声に合成音声が加
えられた入力信号中から、PARCOR合成演算器
４が付加したのと同一のスペクトル特性を除去す
る。すると、PARCOR逆フイルタ９からの出力
信号は、認識すべき実音声に音源回路３が生成し
たインパルス列が重畳したものだけとなる。音源
データレジスタ１から、音源回路３に供給された
のと同一のピツチ情報を音源逆フイルタ１０にも
供給するので、PARCOR逆フイルタ９より出力
される信号から、音源回路３が生成したインパル
ス列だけが音源逆フイルタ１０によつて除去さ
れ、認識すべき実音声だけが残る。すなわち、
PARCOR合成演算器４からの合成音声が、認識
すべき実音声に重畳しても合成音声だけを除去す
ることができる。

なお、音声応答装置から音声出力が発生してい
ない期間に関しては、音源データレジスタ１およ
びPARCOR係数レジスタ２に、例えば「無声音
情報」を入力して記憶させておき、音声認識装置
の入力音声に音声応答装置からの合成出力音声が
全く混入しない状態においてはPARCOR逆フイ
ルタ９および音源逆フイルタ１０がともに実質的
に不作動状態になつてそれぞれの入力信号をその
まま通過させるようにする。これにより入力音声
信号に何らの影響も与えないようにすることがで
きる。

以上の説明から明らかなように、本発明によれ
ば、音声入出力装置において音声による応答がな
されているか否かには拘りなく、入力音声に対し
て正確な音声認識を行うことが可能となる。

なお、以上の説明においては、音声応答装置に
おける音声合成を専らPARCOR方式によつて行
うようにしたが、この例に限定されることなく、
応答用の音声情報を表す特徴パラメータによつて
音声合成を行う任意の音声合成方式を用いた場合
にも、同様に本発明を適用しうる事勿論である。

［効果］本発明は、認識したい音声に自らの装置が出力
した合成音声が混入したものを入力した場合に、
合成音声を除去してもともと認識したい音声のみ
とし、認識率を上げるべく、符号化された音声情
報を用いた音声入出力装置を提供する。

本発明は、合成音声が出力されてから自らの装
置に入力されるまでの時間的遅延を、考慮するこ
となく簡単な構成で認識したい音声のみを取り出
し、高い認識率で認識することができる。

【図面の簡単な説明】

第１図は従来の音声入出力装置の回路構成を示
すブロツク線図、第２図は本発明音声入出力装置
の回路構成の例を示すブロツク線図である。１…音源データレジスタ、２…PARCOR係数
レジスタ、３…音源回路、４…PARCOR合成演
算器、５…デジタル―アナログ変換器、６…合成
音声出力端子、７…音声入力端子、８…アナログ
―デジタル変換器、９…PARCOR逆フイルタ、
１０…音源逆フイルタ、１１…入力音声出力端
子、１２…音声認識器。

Claims

【特許請求の範囲】１パラメータで表わされた音声情報に従つて音
声を合成する合成手段、前記合成手段により合成された前記音声を出力
する出力手段、音声を入力する入力手段、前記パラメータで表わされた音声情報により係
数を定めた分析フイルタを用いて前記入力手段よ
り入力された音声から前記出力手段より出力され
た音声を除去する除去手段を有することを特徴と
する音声入出力装置。