JPH02131300A

JPH02131300A - 音声認識装置

Info

Publication number: JPH02131300A
Application number: JP63285504A
Authority: JP
Inventors: Nobuo Sugi; 杉　伸夫
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-11-11
Filing date: 1988-11-11
Publication date: 1990-05-21
Anticipated expiration: 2013-10-08
Also published as: JP2807241B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は発話者の音声を確実に収集して音声認識するこ
とのできる音声認識装置に関する。

（従来の技術）近時、種々の機器に音声認識装置を組込み、発話者が発
声した命令等の音声をマイクロホンを介して取込んでそ
の入力音声を認識処理し、その認識結果に従って種々の
情報処理を実行することが種々試みられている。例えば
ワードプロセッサにおける文書情報人力手段や、プラン
ト等における制御命令人力手段、更には種々の券売機で
における情報人力手段等として音声認識装置の利用が注
目されている。

ところでこの種の音声入力装置にあっては、周囲雑音等
の悪影響を受けることなしに情報入力目的とする音声だ
けを確実に入力し、これを音声認識することがその認識
性能を高める上で重要な課題となる。しかして音声認識
処理は、一般にその制御部（ホスト計算機）からの認識
開始コマンドを受けて開始されるが、実際のシステムで
は音声認怠処理の開始のタイミングを適切に設定するこ
とが非常に難しい。そこで従来では、一般的に発話者が
発声した音声を入力する為のマイクロフォンの近傍位置
に超音波センサ等の近接センサを設け、この近接センサ
により発話者の顔（口元）とマイクロフォンとの近接状
態を検出し、例えば発話者の顔がマイクロフォンに十分
に近付いたことが検出されたときに認識開始コマンドを
発し、その後、音声の入力開始を指示する旨のメッセー
ジを出力するようにしている。またこの近接センサにて
発話者の顔がマイクロフォンから離れていることが検出
されたときには、顔（口）をマイクロフォンに近付けて
発声する旨をメッセージ出力し、良好な音声人力状態を
確保するものとなっている。

ところがこのようにして近接センサを用いてマイクロフ
ォンと発話者の顔との近接状態を検出して音声認識処理
の動作を制御し、発話者に対して音声入力に関するメッ
セージを出力して音声入力のタイミングやその入力姿勢
を指示するにも拘らず、発話者によってはマイクロフォ
ンに十分に近付かない状態で、或いはマイクロフォンに
十分に近付いたとしても音声入力開始のメッセージが出
力される前に発話を開始してしまうことが多々ある。こ
のような場合には、音声認識の開始コマンドが与えられ
て音声認識処理が開始される以前に音声入力がなされる
ことになるので、音声認識装置にはその先頭部分が欠落
した状態で音声が人力されることになる。この結果、誤
認識や認識リジエクトが発生し、発話者に音声の再入力
を促すことが必要となり、発話者のみならず音声認識装
置にとっても徒に負担が増える。

特に発話の開始が発生要求のタイミングより伜かに早い
だけの場合には、発話者自身に発声タイミングが早いと
云う意識がない為、音声の再入力時にも同様にしてその
先頭部分が欠落してしまうことが多いと云う問題がある
。

このような不具合を解消する為に、近接センサの感度を
高めておき、発話者がマイクロフォンに近付いてくる途
中のタイミングで認識開始コマンドを与えることが考え
られている。しかしこのような対策を講じた場合、発話
者がマイクロフォンに十分に近付かない状態で発話開始
することについての対策を講じることができなくなり、
誤認識や認識リジエクトが増える原因となる。また上述
した感度の高い近接センサを用い、発話者が近付くこと
を検出した後、一定時間を経て発話要求を発することも
考えられているが、そのタイミング設定が非常に難しく
、また発話者がマイクロフォンに十分近付いたか否かを
検出することができないと云う問題がある。

（発明が解決しようとする課題）このように従来にあっては、発話者がマイクロフォンに
十分に近付いたことを検出し、先頭部分の欠落を生じる
ことなく上記発話者からの音声を取込んで認識する等で
、認識処理開始のタイミング等を適切に設定することが
非常に困難でありた．。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、発話者が発声する音声をその先
頭部分の欠落を生じることなく確実に入力して音声認識
することのできる音声認識装置を提供することにある。

（課題を解決するための手段）本発明は、筺体に設けられたマイクロフォンにより発話
者が発声した音声を人力して音声認識する際、上記マイ
クロフォンの近傍位置に設けられた近接センサにより前
記発話者の顔と上記マイクロフォンとの近接状態を検出
し、この近接状態に応じて発話者に音声入力に関するメ
ッセージを出力するようにした音声認識装置に係り、前
記近接センサとは別に前記筺体に発話者が近付いたこと
を検出する為の補助近接センサを設け、この補助近接セ
ンサにより発話者の近接状態が検出されたとき、前記マ
イクロフォンから入力される音声に対する音声認識処理
を開始させるようにしたことを特徴とするものである。

つまり近接センサによる検出結果に従って音声人力のタ
イミング等を促すに先立って、補助近接センサによる検
出結果に従って音声認識処理を開始させておくようにし
たことを特徴とするものである。

（作　用）本発明によれば、近接センサによる検出結果に従って音
声入力のタイミング等を促すに先立って補助近接センサ
により発話者の近接を検出し、この検出結果に従って音
声認識処理を開始させておくので、発話者の発声開始タ
イミングが早い場合であっても、その先頭部分の欠落を
生じることなく発話音声を確実に取込んで音声認識する
ことが可能となる。

この結果、非常に簡易にして効果的に誤認識や認識リジ
ェクトの発生を抑えてその認識効率を高めることが可能
となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認識
装置につき説明する。

第１図は実施例装置の要部概略構成図であり、第２図は
その制御処理シーケンスを示す図である。

第１図においてｌは各種認識方式を採用して構成される
音声認識部である。この音声認識部１は制御部２からの
認識開始コマンドを受けて音声認識処理を開始し、マイ
クロフォン３から入力される音声を認識処理し、その認
識結果を出力する。

しかしてこれらの音声認識部ｌおよび制御部２は、一般
的には各種情報処理装置本体の筺体４内に組込まれて設
けられ、前記マイクロフォン３は上記筺体４の所謂操作
パネル面に設けられる。

このマイクロフォン３を設けた操作パネル面には、発話
者Ａに対して音声入力に関する種々のメッセージを表示
する表示器５や、上記マイクロフォン３への発話者Ａの
顔（口元）の近接を検出する為の近接センサ（第１の近
接センサ）６が上記マイクロフォン３の近傍位置に設け
られている。

前記制御部２は、基本的にはこの近接センサ（第１の近
接センサ）６により発話者Ａの顔（口元）のマイクロフ
ォン３に対する近接状態を検出し、この検出結果（近接
状態）に応じて前記表示器５を用いて音声入力に関する
種々のメッセージを提示出力する。この表示器５に表示
されるメッセージは、例えば『音声入力を開始して下さい。』『もつとマイクロフォンに近付いて発声して下さい。　　　　　　　　』等のメッセージからなる。尚、音声合成装置等を用いて
これらのメッセージを音声出力することも勿論可能であ
る。

しかして本装置が特徴とするところは、上述した構成に
加えて前記筺体４に補助近接センサ（第２の近接センサ
）７を設け、前記近接センサ（第１の近接センサ）６に
より発話者Ａの顔（口元）がマイクロフォン３に近付い
たことが検出される以前に、その発話者Ａが本装置（筺
体４）に近接したことを検出するようにした点にある。

そしてこの補助近接センサ（第２の近接センサ）７によ
る検出結果に従い、近接センサ（第１の近接センサ）６
により発話者Ａの顔（口元）がマイクロフォン３に近付
いたことが検出されるに先立って、前記制御部２から音
声認識部ｌに対して認識開始コマンドを与え、認識処理
を開始させるようにした点にある。

このような本装置の特徴ある動作を第２図を参照して説
明すると、先ず補助近接センサ（第２の近接センサ）７
にて発話者Ａが本装置（筺体４−）に所定の距離範囲内
に近接したか否かを検出し、その近接状態を監視する（
ステップａ）。そして発話者Ａが本装置（筺体４）に所
定の距離範囲内（例えば３０ｃｍ程度）に近接したこと
が上記補助近接センサ（第２の近接センサ）７にて検出
されたとき、制御部２から音声認識部１に対して認識開
始コマンドを出力し（ステップｂ）、音声認識部ｌにそ
の音声認識処理動作を開始させる（ステップＣ）。

この状態で次に前記近接センサ（第１の近接センサ）６
にて発話者Ａの顔（口元）がマイクロフォン３に対して
所定の距離範囲内（例えばｌ　Ｏｃｍ程度）に近接した
か否かを調べる（ステップｄ）。

尚、この近接センサ（第１の近接センサ）６による発話
者Ａの顔（口元）のマイクロフォン３に対する近接検出
は、前記補助近接センサ（第２の近接センサ）７による
発話者Ａの近接検出タイミングから所定時間内に発話者
Ａの顔（口元）がマイクロフォン３に近接したか否かを
監視しながら行なわれ（ステップｅ）、所定時間内にそ
の近接が検出されない場合には（タイムアウト時）、前
記表示器５を用いてマイクロフォンに対して顔を近付け
る旨のメッセージを出力する（ステップｆ）。

この所定時間は、一般的には２〜３秒程度に設定すれば
十分である。

このような制御手続きを経て発話者Ａの顔がマイクロフ
ォン３に十分に近付いたことが検出されたとき（ステッ
プｄ）、前記表示器５を用いて音声人力を開始を促す旨
のメッセージを出力する（ステップｇ）。そしてこのメ
ッセージに従って発声される音声を入力処理し（ステッ
プｈ）、その入力音声について前記音声認識部ｌにて認
識処理を実行させる（ステップｉ）。そしてその認識結
果を前記音声認識部ｌから制御部２に対して転送し（ス
テップｊ）、適宜発話者に対してその認識結果の確認表
示を行なう等して、一連の音声認識処理制御を終了する
。

かくしてこのように構成され、且つ上述したように制御
処理動作する本装置によれば、発話者Ａが近付いた時点
で音声認識部ｌにおける認識処理を開始させ、その後、
発話者Ａがマイクロフォン３に近付いた時点で音声人力
の開始を促す旨をメッセージ出力するので、仮に発話者
Ａの発声開始タイミングがそのメッセージ表示のタイミ
ングよりも僅かに早くても、その先頭部分の欠落を招く
ことなく入力音声を音声認識部ｌに取込んで認識処理を
行なわせることが可能となり、発話者Ａが発声した音声
を確実に認識することが可能となる。

従って先頭部分の欠落に起因する誤認識や認識リジエク
トの発生をなくし、その認諏効率を高めることが可能と
なる。また先頭部分の欠落に起因する誤認識や認識リジ
エクトがない分だけ発話者Ａに対して音声の再入力を促
す頻度が減るので、発話者に対する負担の軽減を図り得
ると共に、装置自体にとってもその処理負担の軽減を図
ることが可能となる。

また実施例装置によれば、発話者Ａがマイクロフォン３
に近接していない状態が検出されたとき、適宜注意を促
すメッセージを出力することができるので、これによっ
て安定な音声人力状況を効果的に確保することが可能と
なる。

つまり２つの近接センサ６，７によりその機能を分担し
て担わせ、これらの近接センサＢ．７による状態検出結
果に従って音声認識処理を制御するので、発話者Ａが発
生した音声を確実に認識することが可能となる。

尚、本発明は上述した実施例に限定されるものではない
。例えば発話者の近接距離をアナログ的に段階を以て検
出し得る近接センサ（距離測定器）を用いることにより
、上述した２つの機能を実質的に１つのセンサに担わせ
ることも可能である。

またここでは音声認識部ｌとその＄ｉｌａ１部２とを筺
体４内に収容した構造のものについて説明したが、マイ
クロフォン３や近接センサ６，７とその筺体を分離して
設けることも勿論可能である。またここで採用される音
声認識方式自体については特に限定されないことも云う
までもなく、要はその要旨を逸脱しない範囲で種々変形
して実施することができる。

［発明の効果］以上説明したように本発明によれば、発話者がマイクロ
フォンに近付くことが検出される先立って音声認識処理
を開始させるようにその制御が行なわれるので、発話者
の発声タイミングが早い場合であってもその先頭部分の
欠落を生じることなく、その発話音声を確実に認識する
ことができる等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

図は本発明の一実施例に係る音声認識装置につき示すも
ので、第１図は実施例装置の要部概略構成図、第２図は
その制御・処理シーケンスを示す図である。 ■・・・音声認識部、２・・・制御部、３・・・マイク
ロフォン、４・・・筺体、５・・・表示器、６・・・近
接センサ（第１の近接センサ）、７・・・補助近接セン
サ（第２の近接センサ）

Claims

【特許請求の範囲】筺体に設けられたマイクロフォンにより発話者が発声し
た音声を入力して音声認識するに際し、上記マイクロフ
ォンの近傍位置に設けられた近接センサにより前記発話
者の顔と上記マイクロフォンとの近接状態を検出し、こ
の近接状態に応じて発話者に音声入力に関するメッセー
ジを出力するようにした音声認識装置において、前記筺体に発話者が近付いたことを検出する為の補助近
接センサを設け、この補助近接センサにより発話者の近
接状態が検出されたとき、前記マイクロフォンから入力
される音声に対する音声認識処理を開始させることを特
徴とする音声認識装置。