JPH03131198A

JPH03131198A - 音声認識装置

Info

Publication number: JPH03131198A
Application number: JP1270010A
Authority: JP
Inventors: Akira Tsuruta; 彰鶴田; Shin Kamiya; 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-10-16
Filing date: 1989-10-16
Publication date: 1991-06-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、入力された音声を認識する音声認識装置に
関し、特に音声源とマイクロホンとの相対位置が不適当
であることを検出することができろ音声認識装置に関す
る。

〈従来の技術〉音声認識装置を内蔵したワード・プロセッサやパーソナ
ル・コンピュータ等を音声（こよって操作する場合は、
マイクロホンと音声源（話者の口）との相対位置関係が
適当であるか否かが認識率に大きく影響する。このよう
な音声源とマイクロポンとの相対位置のずれに起因した
誤認識は、特に特定話者による音声認識において音声登
録した日と音声認識の日との間に数日の間隔がある場合
に、音声登録の際のマイクロホンの音声源に対する位置
と音声認識の際のマイクロホンの音声源に対する位置と
が異なるため１．：発生しやすいのである。

従来の音声認識装置においては、マイクロホンと音声源
との相対位置は余り４慮されず、僅かに入力音声のスペ
クトル変動によってマイクロホン七音声源とのＩ’ｌｌ
対位置のずれを検出して相対位置の復元を話者に指示す
るらの（特開昭６３−１３１１９４号公報）等が在るの
みである。

〈発明が解決しよろとする課題〉しかしながら、上記従来のマイクロホンと音声源との相
対位置のずれ検出方法は、人力音声のスペクトル変動を
用いているため、発声の変化によるスペクトル変動をマ
イクロホンの位置変動上１娯認識する場合や逆の場合が
あり、認識率がさほど向上しないという問題がある。そ
こで、発声の変化によるスペクトル変動の少ない母音の
みのスペクトル変動を用いることが考えられろ。ところ
が、そのような場合には音声認識処理結果に基づいてマ
イクロポンと音声源との相対位置ずれ検出処理を実行し
なげればならず′、音声認識処理か′Ｊすヂす複雑にな
ってしようという問題がある。

そこで、この発明の目的は、マイクロポンと音声源との
相対位置が゛不適当であることを安定して検知できる音
声認識装置を提供するごとにある。

〈課題を解決するための手段〉上記目的を達成するため、第１の発明は、音声信秒の特
徴ｊ１に居づいて入力音声を認識する音声認識装置にお
いて、音声源の近傍に配置された第１マイクロホンと、
上２音声源から一定距離の位置１こ配置された第２マイ
クロホンと、上記第ｊマイク〔ｌポンからの出力のパワ
ーと１コ紀第２マイクロホンからの出力のパワーとに基
づいて両パワーのパワー比を求めろパワー比算出部と、
上記パワー比算出部によ−〕で求められたパワー比の値
か所定の条件を満たすか否かを判別し、その結果上記所
定の条件を満たず場合に上記第１マイクロホンの音声７
河（に対する位置力〈７′適当である七判定ｊ′るマイ
ク〔ｌポン位置判定部を備えたことを特徴としている。

また、第２の発明は、上記音声北（識装置にお［）で、
音声登録時に−Ｆ；記パワー比算出部によ−）で求めら
れたパワー比の平均値である平均パワー比を格納するメ
モリを’Ｑえ、上記マイクロホン位１゛、￥判定部（ｊ
、ゴニ記メモリ（こ格納された音声登録時の（［；。

均パワー比のＩｉ：ｉ七音声認識時におけるパワー比の
値上を比較し、音声認識時のパワー比の値が音声登録時
の平均パワー比の値に基づく所定領域内に入らない場合
に上記第１マイクロホンの音声源に対する位置が不適当
であると判定することを特徴としている。

また、第３の発明は、上記各音声認識装置に７１３いて
、上記第１７Ｉクロポンは音声源に対する位置が変更可
能であ−て、上記マイクロホン位置判定部によって上記
第１マイクロホンの音声源に対する位置が不適当である
と判定された場合に第１マイクロホンの位置変更の指示
を表示する表示部を備えたことを特徴としている。

く作用〉第１の発明においては、音声源から発せられた音声は、
上記音声源の近傍に配置された第１マイクロポンと上記
音声源から一定距離に配置された第２マイクロホンとに
入力されろ。そして、パワー比算出部によって、上記第
１マイクロホンからの出力のパワーき第２マイクロ示ン
からの出力のパワーとに基づいて両パワーのパワー比か
求ｌられる。そうすると、マイクロホン位置判定部によ
って、上記パワー比算出部によって求められたパワー比
の値が所定の条件を満たす場合に、上記第１マイクロホ
ンの音声源に対する位置が不適当であると判定される。

したがって、第１マイクロホンの音声源に対する位置が
不適当か否かを常時監視できろ。

また、第２の発明においては、上記音声認識装置におけ
る上記パワー比算出部によって音声登録時に求められた
平均パワー比の値がメモリに格納される。そうすると、
音声認識時において、上記マイクロホン位置判定部によ
って上記メモリに格納された音声登録時の平均パワー比
の値と音声認識時におけるパワー比の値とが比較される
。そして、音声認識時のパワー比の値が音声登録時の平
均パワー比の値に基づく所定領域内に入らない場合に、
上記第１７ンクロホンの音声源に対する位置か不適当で
あると判定されるのである。したかって、特定話者によ
る音声認識の際の音声Ｒ（識時に、常に音声登録時と同
じ状態で音声入力を行うことが可能となる。

また、第３の発明においては、上記各音声認識装置のマ
イクロホン位置判定部によって上記第１マイクロホンの
音声源に対する位置が不適当であると判定され、表示部
に第１マイクロホンの位置変更の指示が表示される。そ
うすると、上記表示部の表示内容に従って、操作者によ
って上記第１マイクロホンの音声源に対する位置が変更
される。

したがって、第１マイクロホンの音声源に対する位置が
常に最適な位置に保たれる。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

第１図はこの発明の一実施例を示すブロック図である。

音声源１から発声された音声は、音声源１の近傍に配置
した第１マイクロホン２と音声源１から一定距盾に配置
された第２マイクロホン３とに人力する。そうすると、
第１マイクロホン２および第２マイクロホン３に入力さ
れた音声源１からの音声は夫々音響信号に変換されて増
幅部４に入力される。そして、増幅ＷＪ４によって夫々
音声帯域のみが通過されと共に増幅されて特徴抽出部５
に送出される。特徴抽出部５は、入力された２＋、第２
マイクロホン２．３からの音声信号の波形に居づいて特
徴量（例えば、パワー、パワー比ケプストラム等）を計
算し、入力音声の特徴パターンを求める。

標学パターン記憶ＷＪ７には、予め種々の音声の標準パ
ターンが登録されており、音声認識部８は、例えば特徴
抽出部５から送出される入力音声の特徴パターンと標準
パターン記憶部７に登録されている標準パターンとのパ
ターンマツチングにより、標準パターン七の尤度を求め
て入力音声を認識する。そして、認識結果は表示部ＩＯ
に表示される。

メモリ９は上述の音声認識動作において使用される作業
用メモリであり、キーボード１１は音声認識動作の指示
を入力するためのものである。制御部６は、特徴抽出部
５．漂学パターン記憶部７音声認識部８．メモリ９１表
示ｍ１０．キーホード１１等音声認識装置全体を制御し
て音声認識動作を実行する。それと同時に、後に詳述す
るようにして第１マイクロホン２の音声源１に対する位
置が不適当であるか否かの判定処理を実行する。

上記第１マイクロホン２と第２マイクロホン３は、例え
ば第２図に示すようなヘッドセット・マイクロホンで構
成干る。話者の頭部に沿うように湾曲した帯体２１の両
端には、頭部に当接する面にバットが張られた頭部装着
部材２２．２３が夫々取り付けられている。そして、一
方の頭部装着部材２３の外側に取り付けられた腕体保持
部材２４には、この腕体保持部材２４を貫通して貫通方
向に摺動可能にかつ腕体保持部材２４を中心として回動
可能なように腕体２５を装着する。また、腕体保持部材
２４の腕体２５の外側に（キイヤホン２６を取り付ける
。その際に、イヤホン２６の位置はヘッドセット・マイ
クロホンを頭部１こ装着した場合に調度耳の位置になる
ように設定しておく。

上記腕体２５の前端には第１マイクロホン２を取り付け
、帯体２１の頂点には第２マイクロホン３を取り付ける
。こうすることによって、ヘッドセット・マイクロホン
を頭部ｊこ装着した場合、ヘッドセット・マイクロホン
は頭部装着部材２２，２３によって頭部の所定の位置に
固定されるので、音声源である口に対する第２マイクロ
ホン３の距離は一定となるのである。一方、第１マイク
ロホン２は口の近傍に配置されると共に、その口に対す
る位置は第１マイクロホン２を手で前後にスライドした
り回転すること？こよって自由に変更できるのである。

上記構成の音声認識装置は次のようにして音声源１と第
１マイクロホン２との相対位置が不適当か否かを検知す
る。

音声源１と第１マイクロホン２との相対位置が理想的な
位置関係にある場合において、特徴抽出部５によって算
出された第１マイクロホン２からの出力のパワーをＰａ
、第２マイクロホン３からの出力のパワーをＰｂ、両者
のパワー比（Ｐａ／Ｐｂ）をＣ６とする。一方、音声認
識時において、第１マイクロホン２の位置が移動して第
１マイクロホン２からの出力のパワーがＰａ’に変化し
たとする。

そうすると、特徴抽出部５によって算出される第１マイ
クロホン２の移動後のパワー比はＰａ’／Ｐｂとなる。

その場合、第１マイクロホン２の位置が変わって音声源
１からの相対位置が遠くなった場合のパワー比は、Ｐａ″／Ｐｂ＜Ｃ６となる。また、第１マイクロホン２の位置が変わって音
声源１からの相対位置が近くなった場合のパワー比は、Ｐａ’／Ｐｂ＞Ｃ。

となる。

そこで、制御部６は、音声認識時におけるパワー比（Ｐ
ａ’／Ｐｂ）が理想条件におけるパワー比Ｃ８に対して
下記の（１）式のような関係にある場合には第１マイク
ロホン２の位置は理想位置より音声源１に近いと判定す
る。一方、（２）式のような関係１こある場合には第１
マイクロホン２の位置は理想位置より音声源１から離れ
ていると判定するのである。

Ｐ　ａ’　／Ｐ　ｂ＜αｘｃｏ−（ＤＰａ’／Ｐｂ＞βＸＣｏ−（２）但し、　　（α＜１＜β）但し、α、βは実験で求めた定数である。

そして、音声源１と第１マイクロホン２との相対位置が
理想的であるときのパワー比Ｃ６表音声認識時における
パワー比との関係に基づいて、その関係が例えば上述の
（＋）式の関係になった場合には「マイクロホンを口元
に近付けてください。ゴと第１マイクロホン２の位置変
更の指示を表示部１０に表示するのである。こうするこ
とによって、話者は表示部１０の表示によって第１マイ
クロ示ン２の口元に対する位置が適当であるか否かを知
ることができ、音声操作によるワード・プロセッサやパ
ーソナル・コンピュータを長時間操作する場合でも、音
声源１と第１マイクロホン２との相対位置を常時理想的
な位置に保つことができるのである。

通常、音声操作間器を操作する際にＲ，７％−されろ音
声は、会話の際とは異なってほぼ一定の強さで発声され
る。したがって、発声内容が変化してらその平均パワー
は安定している。したがって、本実施例によるマイク０
ホンの位置が不適当か否かの判定は、スペクトル変動に
基づ＜　ｆ−１１定よ１ン安定して判定できるのである
。

このように、本実施例においては、音声源１の近傍に配
置した第１マイクロホン２からの音声信号と音声源１か
ら一定距離に配置した第２マイクロホン３からの音声信
号とに基づいて、特徴抽出部５によって夫々のパワーを
求めて両者のパワー比を算出する。そして、制御ｆｉ６
によって、音声源１と第１マイクロホン２との相対位置
か゛理想的な位置関係にある場合のパワー比Ｃ９吉音声
認識時におけるパワー比とから、上述の（１）、（２）
式に基づいて第１マイクロホン２の位置が不適当か否か
を判定する。そして、第１マイクロホン２のＩｆｆ置が
゛不適当であると判定された場合にはその旨を表示１１
１０に表示する。

したがって、話者は表示ｆ＄１０の表示内容従って第１
マイクロホン２の音声１原１に対する位置を常Ｉこ最Ｊ
／こ保つことかできる。すなわち、第１マイクロホン２
の位置ず右に起因する誤認識を無くすことができるので
ある。

また、上述の手法を利用して、次のようにして特定話者
による音声認識の際の誤認識の低減を図ることができる
。

すなわち、まず音声登録時における特定話者のパワー比
の平均値を＃徴抽出部５１こよって算出と７で特徴パタ
ーン記憶部７に記憶しておく。そして、制御部６は、上
記特徴パターン記憶部７に記憶された音声登録時の平均
パワー比の値を上記実施例における第１マイクロホン２
の位置が理想的な場合のパワー比の値Ｃ６とじて、上記
（１）、（２）式に基づいて音声認識時の第１マイクロ
ホン２の位置の良否を判定するのである。こうすること
によって、音声認識時における音声源１と第１マイクロ
ホン２との相対位置が音声登録時における音声源１と第
１マイクロホン２との相対位置と同じか否かを検知でき
るのである。

そして、上記実施例の場合と同様にパワー比の関係が例
えば上述の（２）式の関係になった場合には、表示部１
０に「マイクロホンを口元から遠ざけてください。Ｊと
表示するのである。したがって、話者は音声認識の際に
表示部１０の表示に従って常に音声登録時の場合と同じ
状態で音声入力を実施できるのである。

このように、本実施例においては、特定話者による音声
認識の＊　／、：算出された第１マイクロホン２からの
出力のパｑ−と第２マイクロホン３からの出力のパワー
とからの平均パワー比の値を特徴パターン記憶部７に記
憶しておく。そして、制御部６は、この特徴パターン記
憶部７に記憶された平均パワー比の値と音声認識時にお
けるパワー比の値とから、上述の（１）、（２）式に基
づいて第１マイクａホン２の位置が′不適当か否かを判
定する。

そして、第１マイクロホン２の位置が不適当であると判
定された場合にはその旨を表示部１０に表示する。

したかって、話者は表示ＬＩＯの表示内容に従って音声
認識時における第１マイクロホン２の音声源１に対する
位置を常に音声登録時と同じ最適位置に保つ二きができ
る。すなわち、特定話者による音声認識の際において、
音声登録時と音声認識装置の間に数日間の差があっても
音声登録時と同じ状陣で音声入力ができ、音声入力状態
の変動に起因する誤認識を無くすことができるのである
。

本実施例においては、音声認識時における第１マイクロ
ホン２の最適位置をパワーに基づいて求めている。すな
わち、本実施例は単なる第１マイクロホン２の音声源１
に対する距離を最適に保つのではなく、第１マイクロホ
ン２からの入力状態を最適１こ保つのである。したがっ
て、本実施例は音声登録時のマイクロホンと音声認識時
のマイクロホンが異なる場合にも適応できるのである。

また、本実施例において、音声登録時の際に上述の実施
例で述べた音声源と第１マイクロホンとの相対位置を理
想的な位置に保つ手法を用いれば、安定した平均パワー
比の値を求めることかできるのである。

上記谷実施例における表示Ｆ＄１０における表示は、Ｃ
ＲＴ（カソードルイ・チューブ）デイスプレィによる画
面表示でもよいし、第２図のイヤホン２６１こお？する
音声表示でもよい。

この発明における第１マイクロホン２の位置が不適当か
否かの判定のアルゴリズムは上記各実施例におけるアル
ゴリズムに限定されるものではない。

〈発明の効果〉以上より明らかなように、第１の発明の音声認識装置は
、音声源近傍の第１マイクロホンからの出力のパワーと
音声源から一定距離の位置に在る第２マイクロホンから
の出力のパワーとに基づくパワー比をパワー比算出部に
よって求め、このパワー比の値に基づいて上記第１マイ
クロホンの音声源に対する位置の良否をマイクロホン位
置判定部によって判定するようにしたので、マイクロホ
ンと音声源との相対位置が不適当であることを安定して
検知でき、マイクロホンの位置の良否を常時監視できる
。

また、第２の発明の音声認識装置は、第１の発明の音声
認識装置に、音声登録時に上記パワー比算出部によって
算出される平均パワー比の値を格納するメモリを備えて
、上記マイクロホン位置判定部によって、音声認識時に
おけるパワー比の値と音声登録時の平均パワー比の値と
に基づいて上記第１マイクロホンの位置の良否を判定す
るようにしたので、音声認識時におけるマイクロホン七
音声源との相対位置が不適当であることを安定して検知
でき、音声認識時における音声入力状態を常時音声認識
時と同じに保つことができるようになる。

また、第３の発明の音声認識装置は、上記各音声認識装
置における上記第１マイクロホンの音声源に対する位置
を変更可能にすると共に、上記マイクロホン位置判定部
によって第１マイクロホンの位置か不適当であると判定
された場合に、第１マイクロホンの位置変更の借示を表
示部に表゛示するようにしたので、上記第１マイクロホ
ンの位置の良否を安定して判定すると共に、表示部の表
示結果に従って第１マイクロホンの位置を常時最適に推
持できる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置における一実施例のブ
ロック図、第２図は第１図におけろマイクロホンの構成
の一実施例を示す図である。１・・・音声源、　　　　２・・・第１マイクロホン、
３・・・第２マイクロホン、　　　５・・・特徴抽出部
、６・・・制御部、　　　　　７・・・標準パターン記
憶部、８・・音声認識部、　　１０・・・表示部。

Claims

【特許請求の範囲】

（１）音声信号の特徴量に基づいて入力音声を認識する
音声認識装置において、音声源の近傍に配置された第１マイクロホンと、上記音
声源から一定距離の位置に配置された第２マイクロホン
と、上記第１マイクロホンからの出力のパワーと上記第２マ
イクロホンからの出力のパワーとに基づいて両パワーの
パワー比を求めるパワー比算出部と、上記パワー比算出部によって求められたパワー比の値が
所定の条件を満たすか否かを判別し、その結果上記所定
の条件を満たす場合に上記第１マイクロホンの音声源に
対する位置が不適当であると判定するマイクロホン位置
判定部を備えたことを特徴とする音声認識装置。
（２）請求項１に記載の音声認識装置において、音声登
録時に上記パワー比算出部によって求められたパワー比
の平均値である平均パワー比を格納するメモリを備え、上記マイクロホン位置判定部は、上記メモリに格納され
た音声登録時の平均パワー比の値と音声認識時における
パワー比の値とを比較し、音声認識時のパワー比の値が
音声登録時の平均パワー比の値に基づく所定領域内に入
らない場合に上記第１マイクロホンの音声源に対する位
置が不適当であると判定することを特徴とする音声認識
装置。
（３）請求項１あるいは請求項２に記載の音声認識装置
において、上記第１マイクロホンは音声源に対する位置が変更可能
であって、上記マイクロホン位置判定部によって上記第１マイクロ
ホンの音声源に対する位置が不適当であると判定された
場合に第１マイクロホンの位置変更の指示を表示する表
示部を備えたことを特徴とする音声認識装置。