JP2002182691A - 音を出力する機器を制御する制御装置 - Google Patents

音を出力する機器を制御する制御装置

Info

Publication number
JP2002182691A
JP2002182691A JP2000380995A JP2000380995A JP2002182691A JP 2002182691 A JP2002182691 A JP 2002182691A JP 2000380995 A JP2000380995 A JP 2000380995A JP 2000380995 A JP2000380995 A JP 2000380995A JP 2002182691 A JP2002182691 A JP 2002182691A
Authority
JP
Japan
Prior art keywords
volume
unit
control
sound
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000380995A
Other languages
English (en)
Inventor
Sunako Asayama
砂子 朝山
Yoshihiro Kojima
良宏 小島
Katsumi Fujisaki
克巳 藤▲さき▼
Kimiharu Okabe
公治 岡部
Shunei Ishihara
俊英 石原
Noritaka Kusumoto
典孝 楠本
Sumi Ibaraki
寿美 茨木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000380995A priority Critical patent/JP2002182691A/ja
Publication of JP2002182691A publication Critical patent/JP2002182691A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Details Of Television Systems (AREA)
  • Television Receiver Circuits (AREA)

Abstract

(57)【要約】 【課題】 音を出力する機器の動作を、ユーザーが発し
た音声を用いて制御する場合に、機器からの音量を制御
することによってユーザーが発した音声に対する雑音を
軽減する。 【解決手段】 音を収集するマイク102と、収集され
た音のうち、ユーザーが発した機器の動作を制御するた
めの音声を認識し、認識単語とその信頼度とを得る音声
認識手段104と、得られた信頼度と、リジェクトパラ
メータ1およびそのリジェクトパラメータ1より小さい
リジェクトパラメータ2とを比較する認識結果判定部1
05と、信頼度がリジェクトパラメータ1以上の場合
に、認識単語に基づいて機器の動作を制御する映像出力
制御部111および音声制御部108とを備え、信頼度
がリジェクトパラメータ1より小さく、かつリジェクト
パラメータ2より大きい場合に、音声制御部108は、
機器が出力する音量を小さくするように機器を制御す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音を出力する機器
の動作を、ユーザーが発した音声を利用して制御する制
御装置に関する。
【0002】
【従来の技術】近年、テレビジョン受像機(以下テレビ
とする)等の電子機器の機能は複雑化、多機能化してお
り、操作を行うためのスイッチやボタンも多様化してき
ている。
【0003】このため、電子機器の操作を行うためのス
イッチ、ボタン、特にリモートコントロール送信機の機
能も多様化してきており、電子機器の操作を正確に行う
ためには操作手順が複雑であったり、ボタン操作を数回
以上行わなければならなかったりして、使い慣れたユー
ザーでもその機能を有効に使いこなすことは困難であっ
た。
【0004】このような電子機器の複雑なユーザーイン
ターフェースを改善する一手段として、入力された音声
を認識してその認識結果に基づいて何らかの操作を行う
ことが効果的であると考えられ、近年様々な形式で実用
化されてきた。
【0005】例えば特開平9−222985号公報に
は、電子機器の操作を音声のみで行う電子機器が開示さ
れている。
【0006】図5に従来例の音声認識機能を備えた電子
機器のブロック図を示す。
【0007】図5において、201は音声入力部であ
り、話者が発声した音声が入力される。202は音声認
識部であり、音声入力部201から出力された音声デー
タを認識処理して認識結果を求める。203は操作命令
生成出力部であり、音声認識部202で得られた認識結
果に基づいて電子機器の操作命令を生成する。204は
操作対象の電子機器であり、操作命令生成出力部203
で生成された操作命令に従って操作される。
【0008】以上のように構成された従来の音声認識機
能を備えた電子機器について、以下その動作を説明す
る。
【0009】音声入力部201は、話者からの音声が入
力されると入力された音声を音声データとして音声認識
部202へ出力する。音声認識部202は、音声入力部
201から出力された音声データを認識処理し、認識結
果を操作命令生成出力部203へ出力する。操作命令生
成出力部203は、音声認識部202から出力された認
識結果に基づいて電子機器の操作命令を生成し、生成し
た操作命令を操作対象の電子機器204へ出力する。操
作対象の電子機器204は、操作命令生成出力部203
から出力された操作命令に従って操作される。
【0010】例えば、操作対象の電子機器204がCD
プレーヤーである場合、ユーザーが音声入力部201に
対して「CDを再生」と発声すると、音声認識部202
がその音声を認識し、操作命令生成出力部203でCD
を再生する命令が生成され、CDプレーヤーは操作命令
生成出力部203から出力された命令に従ってCDを再
生する。
【0011】
【発明が解決しようとする課題】しかし、電子機器には
テレビに代表されるように電子機器本体からも音声を出
力するものがあり、このような機器において上記のよう
な構成では、音声認識部には話者が発声した音声と共
に、操作対象となる電子機器本体からの音声が入力され
る。このような場合、電子機器本体からの音声が雑音と
なり、音声認識部は話者の発声した音声コマンドを正確
に認識することができない。即ち、話者が発声した音声
コマンドに対する認識の棄却(以下リジェクトとする)
や誤認識の発生する確率が高くなり、機器の操作性が低
下するという問題があった。
【0012】このため、音声を出力する電子機器の操作
に音声認識機能を用いる場合には、電子機器本体から出
力する音声の適切な制御が必要になる。
【0013】本発明は、上記課題を解決するためになさ
れ、音を出力する機器の動作を、ユーザーが発した音声
を利用して制御する場合に、上記機器が出力する音量を
制御することによってユーザーが発声した音声に対する
雑音を軽減し、上記機器を制御する制御装置を提供する
ことを目的とする。
【0014】
【課題を解決するための手段】上記目的を達成するため
に、第1の本発明(請求項1に対応)は、音を出力する
機器の動作を、ユーザーが発した音声を利用して制御す
る制御装置であって、音を収集する音収集手段と、その
音収集手段によって収集された音のうち、前記ユーザー
が発した前記機器の動作を制御するための音声を認識
し、認識単語とその信頼度とを得る音声認識手段と、そ
の音声認識手段によって得られた前記信頼度と、所定の
リジェクトパラメータ1およびそのリジェクトパラメー
タ1より小さい所定のリジェクトパラメータ2とを比較
する比較手段と、前記音声認識手段によって得られた信
頼度が前記リジェクトパラメータ1以上の場合に、前記
音声認識手段によって得られた認識単語に基づいて前記
機器の動作を制御し、前記音声認識手段によって得られ
た信頼度が前記リジェクトパラメータ1より小さく、か
つ前記リジェクトパラメータ2より大きい場合に、前記
機器が出力する音量を小さくするように前記機器を制御
し、前記音声認識手段によって得られた信頼度が前記リ
ジェクトパラメータ2以下の場合に、前記機器の動作を
制御しない機器制御手段とを備えたことを特徴とする音
を出力する機器を制御する制御装置である。
【0015】このように、第1の本発明では、音声認識
手段によって得られた認識単語の信頼度に基づいて機器
が出力する音量を小さくするようにその機器を制御する
ので、機器が出力する音量の影響により音声認識手段の
認識単語の信頼度が低下した場合でも、機器が出力する
音量を小さくし、それによって、音収集手段によって収
集される機器からの音の影響を小さくすることができ
る。
【0016】また、第1の本発明では、音声認識手段に
よって得られた認識単語の信頼度がリジェクトパラメー
タ1とリジェクトパラメータ2の間である場合、つま
り、リジェクトパラメータ1より一定の範囲内で小さい
場合のみ、機器が出力する音の音量制御を行うので、ユ
ーザーの発声以外の音声信号が音収集手段に収集され、
音声認識手段が低い信頼度の認識結果を出力した場合に
誤って機器の音量制御を行うことがなく、機器の音量制
御を適切に行うことができる。
【0017】第2の本発明(請求項2に対応)は、前記
音収集手段によって収集された音の量を検出する音量検
出手段を備え、前記音声認識手段によって得られた信頼
度が前記リジェクトパラメータ1より小さく、かつ前記
リジェクトパラメータ2より大きい場合であって、前記
機器制御手段が前記機器からの音量を小さくするように
前記機器を制御してから所定の期間内に、前記音量検出
手段によって検出された音の量が所定の音声レベルより
も大きい期間がなかったとき、前記機器制御手段は、前
記機器が出力する音量を制御前の量に戻すように、前記
機器を制御することを特徴とする第1の本発明に記載の
音を出力する機器を制御する制御装置である。
【0018】このように、第2の本発明では、音声認識
手段によって得られた信頼度がリジェクトパラメータ1
より小さく、かつリジェクトパラメータ2より大きい場
合であって、機器制御手段が機器からの音量を小さくす
るように機器からの音量の制御を開始してから予め定め
られた時間内に、音収集手段へ予め定められた値以上の
音が収集されなかった場合には、ユーザーの音声入力は
終了したと判断して自動的に音量制御を解除する。即
ち、ユーザーが音量制御を解除するための操作を行わず
に、機器の音量を元(制御前の音量)に戻すことができ
るので、操作性に優れている。
【0019】第3の本発明(請求項3に対応)は、前記
音声認識手段によって得られた信頼度が前記リジェクト
パラメータ1より小さく、かつ前記リジェクトパラメー
タ2より大きい場合であって、前記機器制御手段が前記
機器からの音量を小さくするように前記機器を制御した
後に、前記機器制御手段が前記音声認識手段によって得
られた新たな認識単語に基づいて前記機器の動作を制御
したとき、前記機器制御手段は、前記機器が出力する音
量を制御前の量に戻すように、前記機器を制御すること
を特徴とする第1の本発明に記載の音を出力する機器を
制御する制御装置である。
【0020】このように、第3の本発明では、音量を制
御している状態でユーザーが発声した音声コマンドの認
識が成功した場合には、機器の音量を元(制御前の音
量)に戻すことができる。つまり、機器から出力される
音声信号の音量の制御を迅速に行うことができ、操作性
に優れている。
【0021】第4の本発明(請求項4に対応)は、前記
音声認識手段によって得られた信頼度が前記リジェクト
パラメータ1より小さく、かつ前記リジェクトパラメー
タ2より大きい場合であって、前記機器制御手段が前記
機器からの音量を小さくするように前記機器を制御して
から所定の期間内に、前記機器制御手段が新たな認識単
語に基づいて前記機器の動作を制御しないとき、前記機
器制御手段は、前記機器が出力する音量を制御前の量に
戻すように、前記機器を制御することを特徴とする第1
の本発明に記載の音を出力する機器を制御する制御装置
である。
【0022】第5の本発明(請求項5に対応)は、前記
機器が出力する音量の設定値を検出する音量設定値検出
手段と、その音量設定値検出手段によって検出された設
定値に基づいて、前記リジェクトパラメータ1および/
または前記リジェクトパラメータ2を変更するためのパ
ラメータ変更手段とを備えたことを特徴とする第1の本
発明に記載の音を出力する機器を制御する制御装置であ
る。
【0023】このように、第5の本発明では、機器が出
力する音量の設定値に基づいてリジェクトパラメータ1
およびリジェクトパラメータ2を適切に変更するので、
機器から出力される音量の設定値が変化した場合でも認
識結果の判定を正確に行うことができる。
【0024】第6の本発明(請求項6に対応)は、前記
機器が出力する音量の設定値を検出する音量設定値検出
手段と、その音量設定値検出手段によって検出された設
定値に基づいて、前記所定の期間および/または前記音
声レベルを変更するためのパラメータ変更手段とを備え
たことを特徴とする第2または第4の本発明に記載の音
を出力する機器を制御する制御装置である。
【0025】このように、第6の本発明では、機器が出
力する音量の設定値に基づいて上記の所定の期間および
/または音声レベルを適切に変更するので、機器から出
力される音量の設定値が変化した場合でもユーザーの音
声入力の終了を正確に検出することができる。
【0026】第7の本発明(請求項7に対応)は、第1
から第6いずれかの本発明の全部または一部の手段の全
部または一部の機能をコンピュータにより実行させるた
めのプログラムおよび/またはデータを担持した媒体で
あって、コンピュータにより処理可能なことを特徴とす
る媒体である。
【0027】第8の本発明(請求項8に対応)は、第1
から第6のいずれかの本発明の全部または一部の手段の
全部または一部の機能をコンピュータにより実行させる
ためのプログラムおよび/またはデータであることを特
徴とする情報集合体である。
【0028】
【発明の実施の形態】以下に、本発明の実施の形態を図
面を参照して説明する。
【0029】(実施の形態1)本発明の実施の形態1に
ついて、図面を用いて説明する。
【0030】本実施の形態の電子機器の構成について、
図1を参照して説明する。なお、本実施の形態の電子機
器は音を出力する機器であって、その電子機器内部に
は、ユーザーが発した音声を利用してその電子機器本体
の動作を制御する制御装置が組み込まれているものとす
る。
【0031】さて図1に示すように、本電子機器は、音
声入力部101と、音声認識部104と、認識結果判定
部105と、音声出力制御部106と、音声出力部11
0と、映像出力制御部111と、映像出力部112とで
構成されている。
【0032】音声入力部101は、マイク102と音声
入力レベル検出部103とで構成されている。
【0033】マイク102は、音声収集装置であって、
話者が発声した音声等の音を収集する。
【0034】音声入力レベル検出部103は、マイク1
02へ入力された音声の音声レベルを検出する。
【0035】音声認識部104は、利用できる音声コマ
ンドを標準音声データとして記憶した認識用辞書(図示
せず)を保持し、認識用辞書を用いて、音声データと標
準音声データとを比較して認識処理を行う。認識処理に
ついては、例えばC.シュマントによる“コンピュータ
とのヴォイスコミュニケーション−未来のコンピューテ
ィングに向けて−”(サイエンス社)に示すように、音
声認識部104が、音声入力部101から入力された音
声データをデジタル信号処理により、例えば20ミリ秒
毎のLPC係数のフレームを抽出する。
【0036】次に、求めたLPC係数のフレームと、標
準音声データとして認識用辞書に保持している各音声コ
マンドのLPC係数データとをマッチングアルゴリズム
を用いて比較する。マッチングアルゴリズムは、例えば
LPCパラメータの各次元のベクトル毎に標準音声デー
タの各次元のベクトルとの距離を算出し、その総和を求
めこれを入力された音声データと標準音声データとの距
離とする。
【0037】次に、入力された音声データと標準音声デ
ータとの距離がもっとも小さい場合を最高点(例えば1
00)となるように正規化してこれを認識単語の信頼度
とし、認識単語の信頼度がもっとも高い標準音声データ
を求め、その単語と単語の信頼度を一組のセットとし
て、予め定められたセット数だけ認識結果として出力す
る。
【0038】認識結果判定部105は音声認識部104
から出力された認識単語とその単語の信頼度に基づいて
認識の成功/失敗を判定する。単語の信頼度が予め定め
られたリジェクトパラメータ1(φ1、φ1:実数)よ
り大きければ認識成功と判定し、認識単語の内容を解析
して音声出力制御信号または映像出力制御信号を出力す
る。認識単語の信頼度がφ1より小さければ、認識失敗
と判定して認識結果をリジェクトし、かつ、予め定めら
れたリジェクトパラメータ2(φ2、φ2:実数、φ1
>φ2)より大きければ音量制御部108へ音声出力部
110から出力する音声信号の音量を小さくすることを
示す音量制御信号を出力する。
【0039】音声出力制御部106は、チャンネル切換
部107と音量制御部108とパラメータ変更通知部1
09とで構成されている。
【0040】チャンネル切換部107は例えばテレビの
場合ではテレビ音声のチャンネル切換制御部であり、音
声出力制御信号が入力されると、その内容に基づいて音
声出力部110へ出力する音声ソースのチャンネルの切
換を行う。
【0041】音量制御部108は現在の音量の設定値を
記憶する記憶部(図示せず)を保持し、音量制御信号が
入力されると、現在の音量の設定値を記憶部へ記憶し、
音量制御信号の内容に従って音声出力部110から出力
する音声信号の音量の制御を行う。
【0042】パラメータ変更通知部109は音声出力部
110から出力される音声信号の音量の設定値に基づい
てリジェクトパラメータ1またはリジェクトパラメータ
2を変更することを示すパラメータ変更通知信号を出力
する。パラメータ変更通知部109は、例えば電子機器
の電源投入時やチャンネル切換部107が音声出力部1
10から出力する音声信号を変更した時など、音量の制
御を行う前、すなわち、認識結果判定部105から音量
制御信号が出力され、音量制御部108が音声出力部1
10から出力される音声の音量を制御する前に、音量制
御部108で設定されている音量の設定値に基づいてリ
ジェクトパラメータ1およびリジェクトパラメータ2の
両方または一方を変更する。リジェクトパラメータ1お
よびリジェクトパラメータ2が既に適切な値に設定され
ている場合は変更しなくてもよい。
【0043】音声出力部110はスピーカーなどであ
り、電子機器からの音声信号を出力する。
【0044】映像出力制御部111は例えばテレビの場
合はテレビ映像のチャンネル切換制御部であり、映像出
力制御信号が入力されると、その内容に基づいて映像出
力部112へ出力する映像ソースのチャンネルの切換を
行う。
【0045】映像出力部112はディスプレイなどの映
像表示装置であり、映像出力制御部111から得られた
映像信号を出力する。
【0046】なお、本実施の形態では、本発明の音を出
力する機器を制御する制御装置の、音収集手段の一例と
してマイク102を、音声認識手段の一例として音声認
識部104を、比較手段の一例として認識結果判定部1
05を、機器制御手段の一例として音量制御部108お
よび映像出力制御部111を、それぞれ用いる。
【0047】以上のように構成された電子機器につい
て、以下その動作を図2のフローチャートを用いて説明
する。
【0048】音声入力待ち状態S300では、リジェク
トパラメータ1およびリジェクトパラメータ2は、パラ
メータ変更通知部109が音声出力部110から出力さ
れる音声信号の音量の設定値に基づいて出力するパラメ
ータ変更通知信号に基づいて適切な値に設定されてい
る。
【0049】ステップS301では、話者が発声した音
声コマンドが、音声入力部101に入力される。音声入
力部101は、入力された音声を、音声データとして音
声認識部104へ出力する。
【0050】ステップS302では、音声認識部104
が、音声入力部101から出力された音声データを認識
用辞書を用いて音声認識処理を行う。話者の音声データ
に最も近い標準音声データを求め、その単語と単語の信
頼度を認識結果判定部105へ出力する。例えば、電子
機器がテレビである場合、認識用辞書には、一例として
「チャンネル○○に変更」や、「ステレオ出力」や、
「モノラル出力」といったテレビの操作内容を表現した
フレーズが標準音声データとして記録されており、音声
認識部104は、それら標準音声データそれぞれと音声
入力部101からの音声データとを比較し、音声データ
の内容となるフレーズとその信頼度を求め、それを認識
結果として認識結果判定部105へ出力する。
【0051】ステップS303では、認識結果判定部1
05が、音声認識部104から出力された認識単語の信
頼度とφ1とを比較して、信頼度がφ1より大きい場合
には、認識成功と判定し、ステップS304へ遷移す
る。信頼度がφ1より小さい場合には、認識失敗と判定
し、認識結果をリジェクトして、ステップS309へ遷
移する。例えば入力された音声データと標準音声データ
との距離がもっとも小さい場合が100である場合、リ
ジェクトパラメータ1(φ1)を80と設定することが
できる。
【0052】ステップS304では、認識結果判定部1
05が、認識単語のコマンドの内容を解析し、その内容
が電子機器の映像出力を制御するコマンドである場合
は、ステップS305へ遷移する。また、その内容が電
子機器の音声出力を制御するコマンドである場合は、ス
テップS307へ遷移する。
【0053】ステップS305では、映像出力制御部1
11が、認識結果判定部105より映像出力の制御を通
知されると、制御コマンドの内容に従って映像出力部1
12から出力する映像ソースのチャンネルの切換を行
う。
【0054】ステップS306では、映像出力制御部1
11で切り換えられた映像ソースを画面に表示し、音声
入力待ち状態S300へ戻る。
【0055】ステップS307では、チャンネル切換部
107が、認識結果判定部105より音声出力の制御を
通知されると、制御コマンドの内容に従って音声出力部
110から出力する音声ソースのチャンネルの切換を行
う。
【0056】ステップS308では、チャンネル切換部
107で切り換えられた音声ソースを音声出力部110
から出力し、音声入力待ち状態S300へ戻る。
【0057】ステップS309では、認識結果判定部1
05が、音声認識部104から出力された認識単語の信
頼度とφ2とを比較して、信頼度がφ2より大きい場合
には、音量制御部108へ音量制御信号を出力し、ステ
ップS310に遷移する。信頼度がφ2より小さい場合
には、音声入力待ち状態S300へ戻る。なお、上記の
ように例えば入力された音声データと標準音声データと
の距離がもっとも小さい場合が100である場合、リジ
ェクトパラメータ2(φ2)を60と設定することがで
きる。
【0058】ステップS310では、音量制御部108
が、認識結果判定部105から音量制御信号が入力され
ると、音声出力部110から出力される音声信号の音量
を下げ、音声入力待ち状態S300へ戻る。
【0059】このように、本発明の実施の形態1によれ
ば、音声を出力し、音声認識機能を備えた電子機器を音
声で操作する場合、ステップS303において認識結果
判定部105が認識結果をリジェクトし、さらにステッ
プS309において認識結果判定部105が音量制御を
行うことを決定すると、音量制御部108へ音声出力部
110から出力する音声信号の音量を小さくすることを
示す音量制御信号を出力する。音量制御部108は、音
量制御信号に応じて音声出力部110から出力する音声
信号の音量を小さくする。故に、電子機器本体から出力
される音声信号が、話者の発声した音声コマンドの雑音
となって認識性能を低下させることがなく、認識処理を
正確に行うことができ、電子機器の操作性を向上させる
ことができる。
【0060】また、ステップS309において認識結果
判定部105がリジェクトした認識単語の信頼度が認識
成功の判定値より一定の範囲内で小さい場合のみ音量制
御を行うことを決定し、音量制御部108へ音声出力部
110から出力する音声信号の音量を小さくすることを
示す音量制御信号を出力する。故に、話者の発声以外の
音声が入力され、音声認識部で誤って認識された場合に
不必要な音量制御を行うことがなく、適切な音量制御を
行うことができる。
【0061】また、ステップS307において、音声出
力部110から出力する音声信号の音量が変更された場
合には、パラメータ変更通知部109は音声信号の音量
の設定値に基づいて各パラメータを変更することを示す
パラメータ変更通知信号を出力する。認識結果判定部1
05は、音声信号の音量の設定値に応じてφ1またはφ
2を適切に変更する。例えば、音声信号の音量の設定値
が大きくなるとφ1やφ2を大きくし、音声信号の音量
の設定値が小さくするとそれにともなってφ1やφ2を
小さくする。これにより、電子機器本体から出力される
音声信号の音量が変化し、音声入力部101へ入力され
る音声信号の音量が変化した場合でも、話者が発声する
音声コマンドを正確に検出することができ、電子機器の
操作性を向上させることができる。
【0062】(実施の形態2)本発明の実施の形態2に
ついて、図面を参照して説明する。
【0063】図3に示すように、本発明の実施の形態2
の電子機器は、実施の形態1の電子機器に音量制御時間
計測部113を追加したものである。
【0064】以下、本実施の形態の電子機器の構成のう
ち、実施の形態1とは異なる部分について説明する。
【0065】音声入力レベル検出部103は、マイク1
02へ入力された音声の音量が予め定められたレベルパ
ラメータγ(γ:実数)よりも小さい場合に、音声入力
非検出信号を出力する。
【0066】音量制御部108は、音声認識部104か
ら出力された認識単語の信頼度がリジェクトパラメータ
1より小さく、かつリジェクトパラメータ2より大きく
て音量の制御を開始すると、まず制御する前の音量の設
定値を記憶部に保存し、次に音量の制御を開始したこと
を示す音量制御開始信号を出力する。また、音量の制御
を開始した後に、音量制御時間計測部113から音量制
御解除信号が入力された場合には、音量制御を解除した
後に、認識結果判定部105へ音量制御解除通知信号を
出力する。また、認識結果判定部105から音量制御解
除信号が入力された場合には、音量制御を解除した後
に、音量制御時間計測部113へ音量制御解除通知信号
を出力する。
【0067】音量制御時間計測部113は、時間を計測
するタイマー(図示せず)を保持し、音量制御部108
から出力された音量制御開始信号が入力されると、音声
入力レベル検出部103から出力される音声入力非検出
信号の入力を監視し、監視時間を計測する。音声入力非
検出信号が継続して入力された時間χ(χ:実数)が予
め定められた音声非検出パラメータμ(μ:実数)より
長ければ、音量制御部108へ音量制御解除信号を出力
する。また、音量制御時間計測部113は音量制御部1
08から出力される音量制御解除通知信号が入力される
と、音声入力非検出信号の監視を停止する。
【0068】認識結果判定部105は、音量制御信号を
音量制御部108へ出力した後(音量の制御を行ってい
る状態)で、音量制御部108から音量制御解除通知信
号が入力される前に、音声認識部104から出力された
認識結果を認識成功と判定した場合には、音量制御解除
信号を出力する。
【0069】以上のように構成された電子機器の動作の
うち、実施の形態1とは異なる部分、つまり、音量の制
御が開始されてから音量の制御を解除する処理につい
て、以下図4のフローチャートを用いて説明する。
【0070】ステップS401では、音量制御部108
が、音声出力部110から出力される音声信号の音量を
制御する音量制御信号を出力すると、音量制御時間計測
部113へ音量制御開始信号を出力する。
【0071】ステップS402では、音量制御時間計測
部113は、音量制御部108から音量制御開始信号が
出力されると、音声入力レベル検出部103から出力さ
れる音声入力非検出信号の入力の監視を開始する。
【0072】ステップS403では、音声入力非検出信
号が継続して入力された時間χと、予め定められた時間
μとを比較し、χがμより小さければステップS404
へ遷移する。一方、χがμより大きければ、ステップS
412へ遷移する。
【0073】まず、χがμより小さい場合の処理の流れ
(S404からS411)について説明する。
【0074】ステップS404では、音声入力レベル検
出部103へ入力された音声の音声レベルとγとを比較
し、音声レベルがγよりも大きい場合はステップS40
6へ遷移する。一方、音声レベルがγよりも小さい場合
は、ステップS405へ遷移する。
【0075】ステップS405では、音声入力レベル検
出部103が音声入力非検出信号を音量制御時間計測部
113へ出力し、ステップS403へ遷移する。
【0076】ステップS406では、音声認識部104
が入力された音声データを音声認識処理して、認識単語
とその信頼度を認識結果判定部105へ出力する。
【0077】ステップS407では、認識結果判定部1
05が、音声認識部104から出力された認識単語の信
頼度とφ1とを比較して、信頼度がφ1より大きい場合
には、認識成功と判定し、ステップS408へ遷移す
る。一方、信頼度がφ1より小さい場合には、認識失敗
と判定し、認識結果をリジェクトしてステップS402
へ遷移する。
【0078】ステップS408では、認識結果判定部1
05が、音量制御部108から出力された音量制御解除
通知信号が入力されていなければ、音量制御部108へ
音量制御解除信号を出力する。
【0079】ステップS409では、音量制御部108
が、認識結果判定部105から出力された音量制御解除
信号が入力されると、音声出力部110から出力される
音声信号の音量を元(制御前の音量)に戻す。
【0080】ステップS410では、音量制御部108
が、音量制御時間計測部113へ音量制御解除通知信号
を出力する。
【0081】ステップS411では、音量制御時間計測
部113が、音量制御部108から出力された音量制御
解除通知信号が入力されると、音声入力レベル検出部1
03から出力される音声入力非検出信号の入力の監視を
停止する。
【0082】次に、χがμより大きい場合の処理の流れ
(S412からS415)について説明する。
【0083】ステップS412では、音量制御時間計測
部113が、音量制御部108へ音量制御解除信号を出
力する。
【0084】ステップS413では、音量制御部108
が、音量制御時間計測部113から出力された音量制御
解除信号が入力されると、音声出力部110から出力さ
れる音声信号の音量を元(制御前の音量)に戻す。
【0085】ステップS414では、音量制御部108
が、認識結果判定部105へ音量制御解除通知信号を出
力する。
【0086】ステップS415では、音量制御時間計測
部113が、音声入力レベル検出部103から出力され
る音声入力非検出信号の入力の監視を停止する。
【0087】このように、本発明の実施の形態2によれ
ば、音量制御部108が音声出力部110から出力する
音声信号の音量を小さくしている場合には、音量制御時
間計測部113は音声入力レベル検出部103から出力
される音声入力非検出信号の入力を監視する。音声入力
非検出信号が継続して入力された時間χが予め定められ
た一定の時間μよりも長ければ、話者の音声入力は終了
したと判断して音量制御時間計測部113が音量制御部
108へ音量制御解除信号を出力する。
【0088】音量制御部108は、音量制御時間計測部
113から音量制御解除信号が出力されると、音声出力
部110から出力する音声信号の音量を、元(制御前の
音量)に戻す。これにより、話者は音量制御を解除して
音量を大きくするための操作を行う必要がなく、電子機
器が自動的に音量を元に戻すので、操作性に優れた電子
機器を提供することができる。
【0089】また、音声入力非検出信号が継続して入力
された時間χが予め定められた一定の時間μに達しない
間に、話者が音声コマンドを発声し、そのコマンドが認
識処理された結果、認識結果判定部105で認識成功と
判定された場合には、認識結果判定部105は、音量制
御部108へ音量制御解除信号を出力する。音量制御部
108は、音量制御解除信号が入力されると、音声出力
部110から出力していた音声信号の音量を元(制御前
の音量)に戻す。これにより、音量を制御している状態
で、話者が発声した音声コマンドの認識が成功した場合
には、予め定められた一定の時間μが経過する前に、電
子機器が自動的に音量を元(制御前の音量)に戻す。つ
まり、電子機器から出力される音声信号の音量の制御を
迅速に行うことができ、操作性に優れた電子機器を提供
することができる。
【0090】また、上記実施の形態において認識単語の
信頼度がφ1より大きい場合に、認識結果判定部105
が音量制御部108へ音量制御解除信号を出力し、音量
制御部108が音声出力部110から出力する音声信号
の音量を元(制御前の音量)に戻していたが、元に戻さ
なくてもよい。例えば、機器の操作を行うための音声入
力が複数回繰り返される場合などは、音量の制御を開始
してから一度目の認識成功時に音量を元に戻さなくても
よい。
【0091】また、実施の形態2の電子機器では、音声
認識部104から出力された認識単語の信頼度がリジェ
クトパラメータ1より小さく、かつリジェクトパラメー
タ2より大きくて、音量制御部108が音量の制御を開
始した場合、その音量制御を開始してから例えば2分等
所定の時間が経過した場合、新たな認識単語に基づいて
音声出力部110や映像出力部112を制御しないと
き、入力された音声レベルの大きさに関わらず、音量制
御部108は音声出力部110から出力する音声信号の
音量を元(制御前の音量)に戻すとしてもよい。
【0092】上記実施の形態1及び実施の形態2では、
音声入力レベル検出部103、音声認識部104、認識
結果判定部105、チャンネル切換部107、音量制御
部108、映像出力制御部113、パラメータ変更通知
部109、音量制御時間計測部113を専用のハードウ
ェアにより構成したが、これに代えて、同様の機能をコ
ンピュータ上のソフトウェアで実現してもよい。
【0093】また、上記実施の形態1及び2では、音を
出力する電子機器内部に、ユーザーが発した音声を利用
してその電子機器本体の動作を制御する制御装置が組み
込まれているとしたが、音を出力する機器と、ユーザー
が発した音声を利用してその機器の動作を制御する制御
装置とは別個に存在していてもよい。
【0094】以上のように本発明の実施の形態によれ
ば、次に示すような効果が得られる。
【0095】第一に、音声認識手段から得られた認識単
語の信頼度が認識成功の判定値から一定の範囲内である
場合に音声出力手段から出力する音声信号の音量を制御
するので、前記出力音声の影響により音声認識手段の認
識単語の信頼度が低下した場合には、前記出力音声の音
量を制御することによって、音声認識手段に入力される
前記出力音声の影響を小さくすることができる。また、
話者の発声以外の音声信号が音声入力手段に入力され、
音声認識手段が低い信頼度の認識結果を出力した場合に
誤って音量制御を行うことがなく、音量制御を適切に行
うことができる。
【0096】第二に、認識結果判定手段は、パラメータ
変更通知手段から出力されるパラメータ変更通知信号に
基づいてリジェクトパラメータ1およびリジェクトパラ
メータ2を適切に変更する。従って、電源投入時や音声
信号のソース変更により音声信号の音量が変更された場
合でも音声認識手段では、話者が発声した音声の認識を
正確に行うことが可能になり、機器の操作性を向上させ
ることができる。
【0097】第三に、音量を制御している状態で、予め
定められた一定の時間が経過しても音声入力手段への音
声入力がなかった場合には、音量制御時間計測手段が、
自動的に音量制御を解除することにより、話者は音量制
御のための操作を行う必要がなく、電子機器の音量を元
(制御前の音量)に戻すことができるので、操作性に優
れた電子機器を提供することができる。
【0098】第四に、音量を制御している状態で、話者
が発声した音声コマンドの認識が成功した場合には、音
声非検出パラメータで設定した時間が経過して、音量制
御時間計測手段から音量制御解除信号が出力される前
に、電子機器の音量を元(制御前の音量)に戻すことが
できる。つまり、電子機器から出力される音声信号の音
量の制御を迅速に行うことができ、操作性に優れた電子
機器を提供することができる。
【0099】なお、本発明は、上述した本発明の全部ま
たは一部の手段の全部または一部の機能をコンピュータ
により実行させるためのプログラムおよび/またはデー
タを担持した媒体であり、コンピュータにより読み取り
可能且つ、読みとられた前記プログラムおよび/または
データが前記コンピュータと協動して前記機能を実行す
る媒体である。
【0100】また、本発明は、上述した本発明の全部ま
たは一部の手段の全部または一部の機能をコンピュータ
により実行させるためのプログラムおよび/またはデー
タである情報集合体であり、コンピュータにより読み取
り可能且つ、読みとられた前記プログラムおよび/また
はデータが前記コンピュータと協動して前記機能を実行
する情報集合体である。
【0101】データとは、データ構造、データフォーマ
ット、データの種類などを含む。媒体とは、ROM等の
記録媒体、インターネット等の伝送媒体、光・電波・音
波等の伝送媒体を含む。担持した媒体とは、例えば、プ
ログラムおよび/またはデータを記録した記録媒体や、
プログラムおよび/またはデータを伝送する伝送媒体等
を含む。
【0102】コンピュータにより処理可能とは、例え
ば、ROMなどの記録媒体の場合であれば、コンピュー
タにより読み取り可能であることであり、伝送媒体の場
合であれば、伝送対象となるプログラムおよび/または
データが伝送の結果として、コンピュータにより取り扱
えることであることを含む。
【0103】情報集合体とは、例えば、プログラムおよ
び/またはデータ等のソフトウェアを含むものである。
【0104】なお、以上説明したように、本発明の構成
は、ソフトウェア的に実現してもよいし、ハードウェア
的に実現してもよい。
【0105】
【発明の効果】以上説明したところから明らかなよう
に、本発明は、音を出力する機器の動作を、ユーザーが
発した音声を利用して制御する場合に、上記機器が出力
する音量を制御することによってユーザーが発声した音
声に対する雑音を軽減し、上記機器を制御する制御装置
を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1の電子機器の構成を示す
ブロック図
【図2】本発明の実施の形態1の処理手順を示すフロー
チャート
【図3】本発明の実施の形態2の電子機器の構成を示す
ブロック図
【図4】本発明の実施の形態2の処理手順を示すフロー
チャート
【図5】従来例の電子機器を示すブロック図
【符号の説明】
101 音声入力部 102 マイク 103 音声入力レベル検出部 104 音声認識部 105 認識結果判定部 106 音声出力制御部 107 チャンネル切換部 108 音量制御部 109 パラメータ変更通知部 110 音声出力部 111 映像出力制御部 112 映像出力部 113 音量制御時間計測部
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/60 (72)発明者 藤▲さき▼ 克巳 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 岡部 公治 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 石原 俊英 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 楠本 典孝 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 茨木 寿美 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5C026 DA05 5C056 BA02 BA03 5D015 EE04 KK01 LL03

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音を出力する機器の動作を、ユーザーが
    発した音声を利用して制御する制御装置であって、 音を収集する音収集手段と、 その音収集手段によって収集された音のうち、前記ユー
    ザーが発した前記機器の動作を制御するための音声を認
    識し、認識単語とその信頼度とを得る音声認識手段と、 その音声認識手段によって得られた前記信頼度と、所定
    のリジェクトパラメータ1およびそのリジェクトパラメ
    ータ1より小さい所定のリジェクトパラメータ2とを比
    較する比較手段と、 前記音声認識手段によって得られた信頼度が前記リジェ
    クトパラメータ1以上の場合に、前記音声認識手段によ
    って得られた認識単語に基づいて前記機器の動作を制御
    し、前記音声認識手段によって得られた信頼度が前記リ
    ジェクトパラメータ1より小さく、かつ前記リジェクト
    パラメータ2より大きい場合に、前記機器が出力する音
    量を小さくするように前記機器を制御し、前記音声認識
    手段によって得られた信頼度が前記リジェクトパラメー
    タ2以下の場合に、前記機器の動作を制御しない機器制
    御手段とを備えたことを特徴とする音を出力する機器を
    制御する制御装置。
  2. 【請求項2】 前記音収集手段によって収集された音の
    量を検出する音量検出手段を備え、 前記音声認識手段によって得られた信頼度が前記リジェ
    クトパラメータ1より小さく、かつ前記リジェクトパラ
    メータ2より大きい場合であって、前記機器制御手段が
    前記機器からの音量を小さくするように前記機器を制御
    してから所定の期間内に、前記音量検出手段によって検
    出された音の量が所定の音声レベルよりも大きい期間が
    なかったとき、 前記機器制御手段は、前記機器が出力する音量を制御前
    の量に戻すように、前記機器を制御することを特徴とす
    る請求項1に記載の音を出力する機器を制御する制御装
    置。
  3. 【請求項3】 前記音声認識手段によって得られた信頼
    度が前記リジェクトパラメータ1より小さく、かつ前記
    リジェクトパラメータ2より大きい場合であって、前記
    機器制御手段が前記機器からの音量を小さくするように
    前記機器を制御した後に、前記機器制御手段が前記音声
    認識手段によって得られた新たな認識単語に基づいて前
    記機器の動作を制御したとき、 前記機器制御手段は、前記機器が出力する音量を制御前
    の量に戻すように、前記機器を制御することを特徴とす
    る請求項1に記載の音を出力する機器を制御する制御装
    置。
  4. 【請求項4】 前記音声認識手段によって得られた信頼
    度が前記リジェクトパラメータ1より小さく、かつ前記
    リジェクトパラメータ2より大きい場合であって、前記
    機器制御手段が前記機器からの音量を小さくするように
    前記機器を制御してから所定の期間内に、前記機器制御
    手段が新たな認識単語に基づいて前記機器の動作を制御
    しないとき、 前記機器制御手段は、前記機器が出力する音量を制御前
    の量に戻すように、前記機器を制御することを特徴とす
    る請求項1に記載の音を出力する機器を制御する制御装
    置。
  5. 【請求項5】 前記機器が出力する音量の設定値を検出
    する音量設定値検出手段と、 その音量設定値検出手段によって検出された設定値に基
    づいて、前記リジェクトパラメータ1および/または前
    記リジェクトパラメータ2を変更するためのパラメータ
    変更手段とを備えたことを特徴とする請求項1に記載の
    音を出力する機器を制御する制御装置。
  6. 【請求項6】 前記機器が出力する音量の設定値を検出
    する音量設定値検出手段と、 その音量設定値検出手段によって検出された設定値に基
    づいて、前記所定の期間および/または前記音声レベル
    を変更するためのパラメータ変更手段とを備えたことを
    特徴とする請求項2または4に記載の音を出力する機器
    を制御する制御装置。
  7. 【請求項7】 請求項1から6のいずれかに記載の本発
    明の全部または一部の手段の全部または一部の機能をコ
    ンピュータにより実行させるためのプログラムおよび/
    またはデータを担持した媒体であって、コンピュータに
    より処理可能なことを特徴とする媒体。
  8. 【請求項8】 請求項1から6のいずれかに記載の本発
    明の全部または一部の手段の全部または一部の機能をコ
    ンピュータにより実行させるためのプログラムおよび/
    またはデータであることを特徴とする情報集合体。
JP2000380995A 2000-12-14 2000-12-14 音を出力する機器を制御する制御装置 Pending JP2002182691A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000380995A JP2002182691A (ja) 2000-12-14 2000-12-14 音を出力する機器を制御する制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000380995A JP2002182691A (ja) 2000-12-14 2000-12-14 音を出力する機器を制御する制御装置

Publications (1)

Publication Number Publication Date
JP2002182691A true JP2002182691A (ja) 2002-06-26

Family

ID=18849086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000380995A Pending JP2002182691A (ja) 2000-12-14 2000-12-14 音を出力する機器を制御する制御装置

Country Status (1)

Country Link
JP (1) JP2002182691A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025714A (ja) * 2007-07-23 2009-02-05 Xanavi Informatics Corp 車載装置および音声認識方法
JP2009505139A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
JP2011008263A (ja) * 2009-06-26 2011-01-13 Intel Corp 環境オーディオ分析を使用した音楽プレイヤの制御
CN110265030A (zh) * 2012-01-09 2019-09-20 三星电子株式会社 图像显示设备及控制图像显示设备的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505139A (ja) * 2005-08-09 2009-02-05 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
JP2009025714A (ja) * 2007-07-23 2009-02-05 Xanavi Informatics Corp 車載装置および音声認識方法
JP2011008263A (ja) * 2009-06-26 2011-01-13 Intel Corp 環境オーディオ分析を使用した音楽プレイヤの制御
US8983640B2 (en) 2009-06-26 2015-03-17 Intel Corporation Controlling audio players using environmental audio analysis
US9542150B2 (en) 2009-06-26 2017-01-10 Intel Corporation Controlling audio players using environmental audio analysis
CN110265030A (zh) * 2012-01-09 2019-09-20 三星电子株式会社 图像显示设备及控制图像显示设备的方法
US11763812B2 (en) 2012-01-09 2023-09-19 Samsung Electronics Co., Ltd. Image display apparatus and method of controlling the same

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US7885818B2 (en) Controlling an apparatus based on speech
EP1278183B1 (en) Voice operated electronic appliance
CN111432303B (zh) 单耳耳机、智能电子设备、方法和计算机可读介质
JP6844608B2 (ja) 音声処理装置および音声処理方法
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP2011022600A (ja) 音声認識システムの動作方法
WO2003038804A2 (en) Non-target barge-in detection
JP2006194959A (ja) 音声検出装置、自動撮像装置、および音声検出方法
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
JP2018185401A (ja) 音声対話システムおよび音声対話方法
JP2019184809A (ja) 音声認識装置、音声認識方法
JP3211398B2 (ja) テレビ会議用発言音声検出装置
JP2006208486A (ja) 音声入力装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JP4483450B2 (ja) 音声案内装置、音声案内方法およびナビゲーション装置
JP2001067091A (ja) 音声認識装置
JP2002182691A (ja) 音を出力する機器を制御する制御装置
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JPH08179792A (ja) 音声処理装置
JP2006251061A (ja) 音声対話装置および音声対話方法
JPH0635497A (ja) 音声入力装置
JP2004301893A (ja) 音声認識装置の制御方法
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JP2019020475A (ja) 音声認識装置、音声認識方法