JP2009210956A - 操作方法およびそのための操作装置、プログラム - Google Patents

操作方法およびそのための操作装置、プログラム Download PDF

Info

Publication number
JP2009210956A
JP2009210956A JP2008055735A JP2008055735A JP2009210956A JP 2009210956 A JP2009210956 A JP 2009210956A JP 2008055735 A JP2008055735 A JP 2008055735A JP 2008055735 A JP2008055735 A JP 2008055735A JP 2009210956 A JP2009210956 A JP 2009210956A
Authority
JP
Japan
Prior art keywords
procedure
user
utterance
operation target
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008055735A
Other languages
English (en)
Other versions
JP4982807B2 (ja
Inventor
Akira Saso
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2008055735A priority Critical patent/JP4982807B2/ja
Publication of JP2009210956A publication Critical patent/JP2009210956A/ja
Application granted granted Critical
Publication of JP4982807B2 publication Critical patent/JP4982807B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】情報家電製品等の操作対象を音声により容易且つ確実に操作する操作方法およびそのための操作装置、プログラムを提供すること。
【解決手段】操作方法は、全操作対象の辞書と文法の読込を行う手順a、発声位置−操作対象マップの読込を行う手順b、マイクロフォンアレイから音声データの取り込みを行う手順c、ユーザの発声位置と周囲雑音の到来方向推定を行う手順d、ユーザの発声があると判断したとき、周囲雑音の抑圧と特徴補正を行うと同時に、頭部方向推定および操作対象の特定と操作対象に基づく辞書および文法の切替を行う手順e、切り替えた操作対象の辞書と文法に基づいて求めた特徴補正の結果より音声認識処理を行う手順f、音声認識結果を受け取ったときにはその結果により操作対象を遠隔制御し、これら以外の判断結果のときには手順cへ戻る手順からなる。
【選択図】図3

Description

本発明は、テレビ、DVDレコーダ、オーディオコンポなどの情報家電をはじめ、部屋のライトやエアコンなどの様々な家電製品を、音声で操作するインタフェース、即ち、情報家電操作方法およびそのための操作装置、プログラムに関する。
テレビ、DVDレコーダ、オーディオコンポなどの情報家電をはじめ、部屋のライトやエアコンなどの様々な家電製品を遠隔から操作するリモコンが広く普及し、使用されている。しかし、家電製品が増えるにつれて部屋の中に置かれるリモコンの数も増え、そのような多くのリモコンの置き場所の確保や使い分けが困難になるという問題が生じている。また、情報家電などではその機能が多様化するにつれてリモコンの操作も複雑になってしまい、特に高齢者などにとってそのようなリモコン操作は決して容易ではないという問題もある。
様々な情報家電を音声で操作できるインタフェースを構築するには、システムに対するユーザ発話の検出や音声コマンドの認識を、情報家電などから出力される干渉音があるなか、ヘッドセットマイクロフォンなどの装着型マイクロフォンを用いないでロバストに行える必要がある。また、簡単な音声コマンドで様々な情報家電を操作できるインタフェースの設計も重要である。
雑音環境下でも高い音声認識精度を実現するためには、マイクロフォンアレイと特徴補正を組み合わせたロバスト音声認識システムを用いることができる(特願2003−320183号、特願2006−240721号、特願2006−248485号、特願2006−045096号、特願2006−044711号、特願2006−211216号参照)。
しかし、このロバスト音声認識システムをそのまま家電製品の操作インタフェースとして用いる場合、操作する家電製品の数が多くなるほど、辞書に登録する語彙数の増加や認識文法の複雑化などが原因で、音声認識処理時間が長くなったり認識精度が劣化したりするなどの問題が生じる。また、例えば、電源のオン・オフなど全ての家電製品で共通に使われる音声コマンドは、どの家電製品の電源をオン・オフするのかを音声コマンドに含めなければならない。
特開2005−084653号公報 特願2006−240721号 特願2006−248485号 特開2007−228135号公報 特開2007−222255号公報 特願2006−211216号
しかし、家電製品の呼び方はユーザによって様々な場合もあり、辞書に登録すべき語彙数を増やしてしまう原因にもなる。また、頻繁に用いる音声コマンドにこのような操作対象の家電製品名を含めてしまうと、長い音声コマンドを繰り返し発声しなければならないため、インタフェースの利便性を著しく欠くという問題も生じる。
本発明の目的は、情報家電製品等の操作対象を音声により容易且つ確実に操作する操作方法およびそのための操作装置、プログラムを提供することにある。
複数個のマイクロフォンを規則的に配置したマイクロフォンアレイを用いることにより音源の位置を特定する技術は発明者が既に提案している(特開2007−228135号公報参照)。
ユーザが発声するときに推定される音源位置は凡そ口の位置に一致している。このことから、マイクロフォンアレイの出力音響信号からユーザがどの方向を向いているかという頭部方向推定が可能になる。
本発明では、マイクロフォンアレイによる頭部方向推定手段と以下の音声認識手段を用いることで、前述の目的を達成する。
例えば、リビングのソファーにマイクロフォンアレイを実装した環境を想定して、そのソファーに座ったユーザから見た家電製品の設置方向を予め登録しておく。そして、ユーザは操作対象の家電製品を見ながら音声コマンドを発声する。
インタフェースとなる情報家電操作方法および装置は、マイクロフォンアレイ処理で推定したユーザの頭部方向と予め登録しておいた各家電製品の設置方向を照合して、操作対象の家電製品を特定する。予め、家電製品毎に音声認識の辞書と文法を予め作成しておき、ユーザ発声時の頭部方向推定結果で操作対象の家電製品を特定し、その特定した家電製品用の辞書と文法に切替えて音声認識をする。
この音声認識の結果により情報機器の操作信号を出力する。
具体的には、以下の解決手段を採用する。
(1)操作方法は、
全操作対象の辞書と文法の読込を行う手順a、
発声位置−操作対象マップの読込を行う手順b、
マイクロフォンアレイから音声データの取り込みを行う手順c、
ユーザの発声位置と周囲雑音の到来方向推定を行う手順d、
ユーザの発声があると判断したとき、周囲雑音の抑圧と特徴補正を行うと同時に、頭部方向推定および操作対象の特定と操作対象に基づく辞書および文法の切替を行う手順e、
切り替えた操作対象の辞書と文法に基づいて求めた特徴補正の結果より音声認識処理を行う手順f、
音声認識結果を受け取ったときにはその結果により操作対象を遠隔制御し、これら以外の判断結果のときには手順cへ戻る手順からなることを特徴とする。
(2)上記(1)記載の操作方法は、
前記発声位置−操作対象マップを、マイクロフォンアレイを実装したソファーなどに座っているユーザが、その周囲に設置してある各操作対象を見ながら発声したときに推定される発声位置とその操作対象を対応付ける発声位置−操作対象マップとして予め作成し、
前記操作対象の特定の手順における前記操作対象を、ユーザがコマンド音声を発声したときに推定された発声位置を基準として発声位置−操作対象マップを照会し特定することを特徴とする。
(3)操作装置は、
椅子に、少なくとも、一対のマイクロフォンアレイと、CPUおよび記憶装置と、リモートコントローラを設け、
マイクロフォンアレイは椅子の座席の両側方にそれぞれ設け、
CPUおよび記憶装置により請求項1又は2記載の操作方法を実行するようにしたことを特徴とする。
(4)プログラムは、
コンピュータに(1)又は(2)記載の手順を実行させるためのプログラムとする。
本発明は、雑音にロバストな音声認識を実現するために必要なマイクロフォンアレイを頭部方向推定にも併用することができるので、従来のカメラを用いた画像処理で頭部方向推定を行うシステムなどに比べて、装置のコストを抑えることができる。
また、推定したユーザの発声位置を、読み込んだ発声位置−操作対象マップに照会することで、操作対象を特定することができる。特に、マイクロフォンアレイ処理部の頭部方向推定結果を用いて操作対象の情報家電製品を特定するので、操作対象の家電製品名を含めない短い音声コマンドで様々な家電製品の操作ができるようになり、音声認識のための辞書に長い家電製品名を登録する必要がなくなり、操作が容易になる。
更に、家電製品毎に音声認識の辞書と文法を予め作成しておき、ユーザ発声時の頭部方向推定結果で操作対象の家電製品を特定し、その特定した家電製品用の辞書と文法に切替えて音声認識することで、1つの発話を認識するために必要な語彙数と文法の規模を小さくできる。これにより、音声認識処理時間を短くでき、また認識精度の劣化を防ぐことが可能になる。
以下、本発明の実施形態について説明する。なお、以下に示す実施形態は本発明の一実施形態であり、特にマイクロフォンアレイの実装方法などは当該実施形態に限定されるものではない。
図1は本発明の音声認識インタフェースを実装したソファーの概観図である。本発明は、ソファーの代わりに障害者用電動車いす等の任意のいすに適用できる。以下、ソファーについて説明する。
図1に示す本発明の音声認識インタフェースを実装した椅子、例えばソファー1は、2枚の直線状マイクロフォンアレイ2a、2bを肘掛3a、3bの先端に、ユーザから見て「ハ」の字になるように実装する。各マイクロフォンアレイ2a、2bには、任意数、例えば4つのマイクロフォンを3cm間隔で直線状に実装する。また、肘掛3には音声認識結果などを表示するディスプレイ4a、4bなども実装する。
音声認識インタフェースの主要構成部品は座席シート5内や背もたれ6に収納される。
マイクロフォン(図示省略)を複数個連設したマイクロフォンアレイ2a、2bは、例えば、左右の肘掛3a,3bの先端に配線を備えた支持体(図示省略)により支持する。両側のマイクロフォンアレイ2a、2bは、座席シートに座った人が見て「ハ」の字になるように配置する。このように配置することにより、各マイクロフォンは操作者の中心から略等距離となり、操作者の周囲の音を略同じレベルで集音することができるようになる。
マイクロフォンアレイ2a、2bのマイクロフォンは、任意数、位置調節自在に設けることにより、マイクロフォンの数、配置間隔等を任意に設定する。
図2は本発明の音声認識インタフェースの機能ブロック図である。
図2に示すように、音声認識インタフェース10の機能はブロックで表すと、音声入力手段の一部を構成する2枚のマイクロフォンアレイ2a、2b、マイクロフォンアンプ12とADC(アナログ・ディジタル変換器)13を有する増幅変換器11、表示手段となるディスプレイ14、制御手段となるCPU(中央演算処理装置)15、操作対象の制御手段となる赤外線学習リモートコントローラ16、補助入力手段となるキーやタッチパネルなどの補助入力装置17、記憶装置18、と操作信号等を伝送する伝送線、例えばLANケーブル19を有する。LANケーブル19の先には、CPU15により制御される駆動制御手段20等が接続される。マイクロフォンアンプ12、ADC(アナログ・ディジタル変換器)13、制御手段となるCPU(中央演算処理装置)15と記憶装置18等は、ソファー1の座席シート5や背もたれ6中に格納する。なお、ソファー1に移動用のモータ付き車輪を制御可能に設けることもできる。赤外線学習リモートコントローラ16およびLANケーブル19(駆動制御手段20等を含む)は遠隔制御手段(リモートコントローラ)という。
(音声入力手段)
音声入力手段は、ユーザ音声を信号処理できる程度の音声として受音するために、相互に離間して配置した複数、この場合1対のマイクロフォンアレイ2aおよび2b、マイクロフォンアンプ12とADC(アナログ・ディジタル変換器)13を有する増幅変換器11からなる受音手段を備える。
(発声位置推定手段と制御手段)
CPU(中央演算処理装置)15は、機能的に発声位置推定手段や制御手段等を構成する。CPU15、表示手段となるディスプレイ14、補助入力手段となるキーやタッチパネルなどの補助入力装置17、および記憶装置18は、これらを備えるマイクロコンピュータにより構成するのが好ましい。
図2のCPUが構成する発声位置推定手段は、図6に示すような受音手段(マイクm1−m8からなるマイクロフォンアレイ)で受音したマルチチャネル音声データに基づきユーザの発声位置(Px、Py)を推定し発声位置推定信号を出力する。図6はマイクロフォンアレイの機能説明図である。
図2のCPUが構成する制御手段は、発声位置推定信号や補助操作信号等に基づき情報機器を操作するための操作信号をLAN19を構成する伝送ケーブルや無線LAN等に送受信する。
音声データのサンプリングレートは任意に設定でき、例えば8kHzとし、量子化ビット数は任意に設定でき、例えば16bitとする。処理精度を上げるときには、サンプリングレートおよび量子化ビット数を上げる。
(補助入力装置)
補助操作装置は、図示していないが、操作スイッチ66で代表され、その他例えばジョイスティック(図示省略)からなる座標位置指定手段や緊急停止ボタン(図示省略)等によっても構成できる。
(ディスプレイ)
ディスプレイ14は、発声位置推定信号やソファーの状態等を視覚的に示す。
(赤外線学習リモコン)
赤外線学習リモートコントローラ16は、操作対象の制御手段となると共に、制御対象の位置や情報の送受信態様等を発声位置推定に使用できるように記憶するために使用する。赤外線学習リモートコントローラ16は、LAN19から先を含んで遠隔制御手段(リモートコントローラ)として機能する。赤外線学習リモートコントローラ16とLAN19から先は、それぞれ別体又は一体で機能する。
(音声認識手段)
図5は本発明の音声認識処理手段のブロック構成図である。この音声認識処理手段は図2においてCPU15と記憶装置18から構成される。
音声認識処理手段40は、マイクロフォンアレイ処理部41と、音声認識処理部42から構成される。
マイクロフォンアレイ処理部41は、入力音声をひろうマイクロフォンアレイ音声入力手段43と、手段43の出力のひろった音から遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段45と、手段43の出力のひろった音から近距離にある音源の位置を推定する近距離にある音源の位置推定手段46と、手段45および46の音源位置情報に基づいて手段43の出力のひろった音から抽出対象の音源の音声を分離する音源分離処理手段44と、手段45および46の音源位置情報に基づいてユーザの発話を検出するユーザの発話検出手段47と、ユーザの発話検出手段47からの検出信号に応じて音源分離処理手段44からの音声信号を切換出力する切換手段48から構成される。
音声認識処理部42は、切換手段48からの音声信号に対して特徴を補正処理する特徴補正処理手段49と、手段49からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段50から構成される。
図3は本発明の音声認識インタフェースの処理フロー図である。各手順(ステップ)を説明する。必要に応じて図2および図5を参照する。
(START)
(手順51)全操作対象の辞書と文法の読込:
操作対象毎に用意した音声認識の辞書と文法を全ての操作対象について読込み、記憶装置18に記憶する。
(手順52)発声位置−操作対象マップの読込:
ユーザの発声位置と操作対象を関連付けるマップを読み込み、記憶装置18に記憶する。
(手順53)マイクアレイから音声データの取り込み:
マイクロフォンアレイ2a、2bから出力される音声のアナログ信号をマイクロフォンアンプ11で増幅した後、ADC12で11.025kHz、16ビットでディジタル信号に変換し、記憶装置18に一時記憶する。
(手順54)ユーザの発声位置と周囲雑音の到来方向推定:
下記の音源位置推定手順を用いて、ソファーに座ったユーザの発声位置と周囲雑音の到来方向を推定する。
(音源位置推定手順)
図6は本発明のマイクロフォンアレイの機能説明図である。
マイクロフォンm1、m2、m3、m4と、マイクロフォンm5、m6、m7、m8は、ハの字になるように、図6に示されるように、対向して、配置される。また、各マイクロフォンと音源の位置等は図のような関係になっているものとする。
マイクロフォンアレイから例えば約1m以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。3次元空間中の任意の位置
Figure 2009210956
に置かれた音源から出力された音響信号を、3次元空間中の任意の位置
Figure 2009210956
に配置されたQ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Rqは次式で求められる。
Figure 2009210956
音源から各マイクロフォンまでの伝播時間τqは、音速をvとすると、次式で求められる。
Figure 2009210956
各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得gqは、一般的に、音源とマイクロフォン間の距離Rqと中心周波数ωの関数として定義される。
Figure 2009210956
例えば、利得を距離Rqだけの関数として、実験的に求めた次式のような関数を用いる。
Figure 2009210956
中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
Figure 2009210956
と表される。そして、位置P0にある音源を表す位置ベクトルa(ω,P0)を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。
Figure 2009210956
音源位置の推定はMUSIC法(相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法)を用いて、以下の手順で行う。q番目のマイクロフォン入力の短時間フーリエ変換を
Figure 2009210956
で表し、これを要素として観測ベクトルを次のように定義する。
Figure 2009210956
ここで、nはフレーム時刻のインデックスである。連続するN個の観測ベクトルから相関行列を次式により求める。
Figure 2009210956
この相関行列の大きい順に並べた固有値を
Figure 2009210956
とし、それぞれに対応する固有ベクトルを
Figure 2009210956
とする。そして、音源数Sを次式により推定する。
Figure 2009210956
もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとすることも可能である。
雑音部分空間の基底ベクトルから行列Rn(ω)を次のように定義し、
Figure 2009210956
周波数帯域
Figure 2009210956
および音源位置推定の探索領域Uを
Figure 2009210956
として、
Figure 2009210956
を計算する。そして、関数F(P)が極大値をとる座標ベクトルを求める。ここでは仮にS個の極大値を与える座標ベクトルがP1,P2,・・・,Psが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。
Figure 2009210956
そして、2つの閾値Fthr, Pthrを用意し、各位置ベクトルにおけるF(Ps)とP(Ps)が次の条件を満足するときに、
Figure 2009210956
連続するN個のフレーム時間内の座標ベクトルPlにおいて発声があったと判断する。
音源位置の推定処理は連続するN個のフレームを1つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで数20の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
(周囲雑音の音波到来方向推定手順)
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来する音波は平面波として観測されると考える。
図8は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
図8は、例として、任意の位置に配置された3個のマイクロフォンm1、m2、m3で、音源から到来した音波を受音する場合を示している。図7で、点cは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図7で、平面sは、基準点cを含む平面波の断面を示している。平面sの法線ベクトルnは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
Figure 2009210956
3次元空間中の音源の音波到来方向は2つのパラメータ(θ,φ)で表される。方向(θ,φ)から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向(θ,φ)から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。q番目のマイクロフォンと平面sの間の距離rqを次式により求める。
Figure 2009210956
距離rqは平面sに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をvとするとマイクロフォンと平面s間の伝播時間Tqは次式で表される。
Figure 2009210956
平面sでの振幅を基準としてそこから距離rq離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離rqの関数として次のように定義する。
Figure 2009210956
平面sでの位相を基準としてそこから距離rq離れた位置の位相差は、次式で表される。
Figure 2009210956
以上より、平面sを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。
Figure 2009210956
Q個のマイクで(θ、φ)方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて数26の式に従い求めた値を要素とするベクトルとして次式のように定義される。
Figure 2009210956
音源の位置ベクトルが定義されたら、音波の到来方向推定は、MUSIC法を用いて行われる。数15の式で与えられる行列Rn(ω)を用い、音波到来方向推定の探索領域Iを
Figure 2009210956
として、
Figure 2009210956
を計算する。そして、関数J(θ、φ)が極大値を与える方向(θ、φ)を求める。ここでは仮にK個の音源が存在し、極大値を与えるK個の音波到来方向((θ1、φ1),・・・,(θK、φK))が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。
Figure 2009210956
そして、2つの閾値Jthr, Qthrを用意し、各到来方向におけるJ(θk,φk)とQ(θk,φk)が次の条件を満足するときに、
Figure 2009210956
連続するN個のフレーム時間内の到来方向(θk,φk)において発声があったと判断する。音波の到来方向の推定処理は連続するN個のフレームを1つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで数31の式の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。
(手順55)ユーザの発声あり?:
下記の発話検出処理手順を用いてユーザの発声を検出し、ユーザの発声が検出されれば手順56と手順58へ進み、ユーザの発声が検出されなければ、手続53へ戻る。
補助入力手段9によりユーザが音声認識機能を停止している場合は、発声検出結果にかかわらず手続52へ戻る。
(発話検出処理手順)
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
数(20)や数(31)の式の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、数(18)や数(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識手段は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。
例えば、図7に示すようなユーザの発声領域を定義することができる。
図7は本発明による発話検出処理の機能説明図である。
この図7では簡単のためにX−Y平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができる。図6では、任意の位置に配置された8個のマイクロフォンm1〜m8を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、(PxL,PyL)と(PxH,PyH)の2点を結ぶ直線を対角線とする矩形領域で、その領域内で(PTxL1,PTyL1)と(PTxH1,PTyH1)、(PTxL2,PTyL2)と(PTxH2,PTyH2)のそれぞれの2点を結ぶ直線を対角線とする2つの矩形領域をユーザの発声領域と定義している。従って、数(20)の式により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザ音声を特定できる。
一方、遠距離音源の探索空間は点Cを基準として、角度θLからθHの方向を探索領域とし、その領域内で角度θTL1からθTH1の領域をユーザの発声領域と定義している。従って、数(31)の式により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。
(手順56)周囲雑音の抑圧:
下記の音源分離処理手順を用いて周囲雑音を抑圧しユーザ音声を強調する音源分離処理を行う。
(音源分離処理手順)
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。
ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と数(8)と数(27)の式の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列V(ω)を次式のように定義する。
Figure 2009210956
この相関行列の大きい順に並べた固有値を
Figure 2009210956
とし、それぞれに対応する固有ベクトルを
Figure 2009210956
とする。
ここで、相関行列V(ω)には近距離音源S個と遠距離音源K個を合わせて(S+K)個の音源が含まれているから、固有値の大きい方から(S+K)の固有値と固有ベクトルを用いて、Z(ω)を次式のように定義する。
Figure 2009210956
そして、近距離の座標ベクトルPに居るユーザの音声を強調する分離フィルタW(ω)は、次式で与えられる。
Figure 2009210956
数(36)の分離フィルタに数(10)の観測ベクトルを乗じることで座標ベクトルPに居るユーザの音声v(ω)が得られる。
Figure 2009210956
この強調されたユーザ音声の波形信号は数(37)の逆フーリエ変換を計算することで求められる。
一方、遠距離の方向(θ,φ)に居るユーザの音声を強調する場合の分離フィルタM(ω)は次式で与えられる。
Figure 2009210956
数(38)の式の分離フィルタに数(10)の式の観測ベクトルを乗じることで方向(θ,φ)に居るユーザの強調音声v(ω)が得られる。
Figure 2009210956
この強調されたユーザ音声の波形信号は数(37)の式の逆フーリエ変換を計算することで求められる。
連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザの強調音声が得られる。
(手順57)特徴補正:
CPU15で、手続56により除去しきれなかった雑音歪の補正を、ユーザ音声から抽出した特徴量に対して行う。即ち、
隠れマルコフモデル(HMM)に基づいて音声特徴量の補正を行う。HMMを用いることで、Gaussian Mixture Model(GMM)では表現できない特徴量時系列の時間的構造と累積出力確率を用いて、雑音適応化分布の選択的な重み付けができるようになる。これにより、一時的な雑音変化による補正精度の劣化を抑制することができる。また、Mel−Frequency Cepstrum Coefficient(MFCC)領域で、クリーン音声から学習した既存の音響HMMを補正処理に用いる。
ここで、HMMの状態の集合をS、初期確率をπ、状態jからqへの遷移確率をajq、状態jにおける特徴ベクトルxの出力確率をb(x)で表す。出力確率は混合数をMとすると、
Figure 2009210956
で与えられるとする( Σjmは対角行列とする)。以後、HMMに関するパラメータの集合をθで表す。入力音声の特徴ベクトルxは、一般的に、ベースのMFCC以外にΔやΔΔを組み合わせて用いられるが、以下では補正処理の対象をベースのMFCCだけに限定する。このベースのMFCCをzとし、HMMの全ての分布に対してベースの部分だけを抜きだした分布を
Figure 2009210956
で表す。入力音声の開始Nフレームは無音区間と仮定し、雑音適応化分布
Figure 2009210956
を次式に従い求める。
Figure 2009210956
ここでlog,expはベクトルの各要素に対する演算で、Cは離散コサイン変換行列を表す。
予備実験結果によると、通常のlog−add方式より、上記数(数43)による分布の適応を実施した方が認識率は若干良くなる。しかし、上記数(数43)は、通常のlog−addより演算量が増えるため、演算量コストを優先させる場合は、log−add方式を採用する。
一方、ビタビアルゴリズムによる確率計算は、以下の手順で行われる。
はじめに、フォワード係数に初期確率を入れる。
Figure 2009210956
その後、各フレーム時刻t=1,2,…,Tの各状態sについて、
Figure 2009210956
を求める。
このようにして得られるフォワード係数は、特徴ベクトルx,…,xを出力し、フレーム時刻tにおいて状態sにある累積出力確率を表す。そして、最終フレームにおいて最大確率を選択する。
Figure 2009210956
このようにして観測ベクトル時系列に対するHMMの最大尤度が求められる。
本発明では、このフォワード係数を用いて、各フレーム時刻の各状態における雑音適応化分布の重み付けを行うことで、過去の特徴量の変遷に沿った分布選択による特徴量補正を実現する。そして、得られた補正特徴ベクトルでベースのMFCCを置き換えて、上記数45の式により確率の逐次計算を行う。つまり、本発明は特徴量の補正処理と音響HMMの尤度計算を同時に行う。
(手順58)頭部方向推定と操作対象の特定:
手続54により推定したユーザの発声位置を、手続52で読込んだ発声位置−操作対象マップに照会することで、操作対象を特定する。発声位置−操作対象マップを照合して発声位置になにも操作対象が登録されていない場合は、認識は行わず手続53へ戻る。
(手順59)操作対象に基づく辞書と文法の切替:
手続52で読込んだ全操作対象の音声認識用辞書と文法の中から、手続58で特定された操作対象の辞書と文法を選択し、それらを後続処理の音声認識へ引き渡す。
(手順60)音声認識処理:
手続57で補正処理を受けた音声特徴量を、手続59で選択した辞書と文法を用いて下記の音声認識処理手順を実行する。
(音声認識処理手順)
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザ音声の認識に、例えば、特願2003−320183号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願2003−320183号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
特願2003−320183号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているHidden Markov Model(HMM)に基づいて雑音重畳音声の特徴量補正を行う。HMMは雑音のないクリーン音声から求めたMel−Frequency Cepstrum Coefficient(MFCC)に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。
HMMが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にHMMを用いることで、 特徴量時系列の時間的構造とそれに沿って求められる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームから周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、数(18)や数(29)の式で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識手段は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
(手順61)認識結果の受理:
手順60の認識結果の信頼度を評価し、もし認識結果が受理されれば認識結果を図2のディスプレイ14に表示して手続62へ進む。もし認識結果が棄却された場合は認識できなかったことをディスプレイ14に表示して手続53へ戻り、以上の処理を繰り返す。
(手順62)操作対象の制御:
手順58で特定した操作対象に対して手続60で認識した操作内容を、図2の制御手段となる赤外線学習リモコン16とLAN19を介して駆動制御手段20へ適用し、次へ進む。
(手順63)操作スイッチ OFF:
操作スイッチのOFF状態を判断する。ON状態と判断された場合(Noの場合)には、手順53へ戻り、OFF状態と判断された場合(Yesの場合)には、終了(STOP)する。
(STOP)
上記手順は、基本的にCPUと記憶装置により適宜行うことができる。例えば、上記手順は、代表的に、以下の処理手段により実行することができる。
手順53はマイクロフォンアレイ音声入力手段43により、手順54は推定手段45および46により、手順55はユーザの発話検出手段47により、手順56および手順58は音源分離処理手段44と切替手段48により、手順57および手順59は特徴補正処理手段49により、手順60は音声認識手段50により実行することが可能である。
図4は本発明の音声認識インタフェースでユーザの発声位置を推定した結果である。
図4に示している全領域は、ユーザが正面や左右方向を向いて発声したときに、その口の位置が全て含まれるように定義した矩形型(幅24cm前後方向19cm)のユーザ発声領域を表している。このユーザ発声領域内を1cm間隔のグリッドに分割し、ユーザ発声がある場合はグリッド上の何れかの1つの交点として発声位置を推定する。
図4中、ユーザが正面を向いて音声コマンドを複数回発声したときに推定された発声位置をひし形のマークで表し、右を向いて発声したときの推定位置を三角形のマーク、そして左を向いて発声したときの推定位置を四角形のマークで表している。
手順52と手順58で用いる発声位置−操作対象マップとは、図4に示すグリッドの各交点に操作対象を対応付けたマップのことである。ユーザが発声するとグリッド上の1つの交点が発声位置として推定され、その交点に登録されている操作対象をその後の処理の操作対象として用いる。発声位置−操作対象マップ上の交点に操作対象が登録されていない場合は、認識処理を行わずに音声の入力待ちの状態に戻る。
例えば、リビングのソファーにマイクロフォンアレイを実装し、そのソファーから見た情報家電の置かれている方向を予め登録しておく。そして、その方向を向きながらユーザが発話すれば、その情報家電の操作を目的とした対システム発話であると容易に検出が可能になる。また、情報家電毎に音声認識の辞書と文法を用意し、それらを頭部方向の特定結果に基づき切り替えることで、音声コマンドの簡略化や音声認識の高速化およびロバスト化が可能になる。以上の機能が、カメラの視覚情報などを用いずに、音響信号だけで実現でき、開発コストを抑えることができる。
本発明の音声認識インタフェースを実装したソファーの概観図である。 本発明の音声認識インタフェースの機能ブロック図である。 本発明の音声認識インタフェースの処理フロー図である。 本発明の音声認識インタフェースでユーザの発声位置を推定した結果である。 本発明の音声認識手段のブロック構成図である。 マイクロフォンアレイの機能説明図である。 本発明による発話検出処理の機能説明図である。 本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
符号の説明
1 ソファー
2a、2b マイクロフォンアレイ
3a、3b 肘掛
4a、4b ディスプレイ
5 座席シート
6 背もたれ
11 増幅変換器
12 マイクロフォンアンプ
13 ADC(アナログ・ディジタル変換器)
14 ディスプレイ
15 CPU(中央演算処理装置)
16 赤外線学習リモートコントローラ
17 補助入力装置
18 記憶装置
19 LANケーブル
40 音声認識処理手段
41 マイクロフォンアレイ処理部
42 音声認識処理部
43 マイクロフォンアレイ音声入力手段
44 音源分離処理手段
45 遠距離にある音源の音波到来方向推定手段
46 近距離にある音源の位置推定手段
47 ユーザの発話検出手段
48 切換手段
49 特徴補正処理手段
50 音声認識手段

Claims (4)

  1. 全操作対象の辞書と文法の読込を行う手順a、発声位置−操作対象マップの読込を行う手順b、マイクロフォンアレイから音声データの取り込みを行う手順c、ユーザの発声位置と周囲雑音の到来方向推定を行う手順d、ユーザの発声があると判断したとき、周囲雑音の抑圧と特徴補正を行うと同時に、頭部方向推定および操作対象の特定と操作対象に基づく辞書および文法の切替を行う手順e、切り替えた操作対象の辞書と文法に基づいて求めた特徴補正の結果より音声認識処理を行う手順f、音声認識結果を受け取ったときにはその結果により操作対象を遠隔制御し、これら以外の判断結果のときには手順cへ戻る手順からなることを特徴とする操作方法。
  2. 前記発声位置−操作対象マップを、マイクロフォンアレイを実装したソファーなどに座っているユーザが、その周囲に設置してある各操作対象を見ながら発声したときに推定される発声位置とその操作対象を対応付ける発声位置−操作対象マップとして予め作成し、
    前記操作対象の特定の手順における前記操作対象を、ユーザがコマンド音声を発声したときに推定された発声位置を基準として発声位置−操作対象マップを照会し特定することを特徴とする請求項1記載の操作方法。
  3. 椅子に、少なくとも、一対のマイクロフォンアレイと、CPUおよび記憶装置と、リモートコントローラを設け、マイクロフォンアレイは椅子の座席の両側方にそれぞれ設け、CPUおよび記憶装置により請求項1又は2記載の操作方法を実行するようにしたことを特徴とする操作装置。
  4. コンピュータに請求項1又は2記載の手順を実行させるためのプログラム。
JP2008055735A 2008-03-06 2008-03-06 操作方法およびそのための操作装置、プログラム Expired - Fee Related JP4982807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008055735A JP4982807B2 (ja) 2008-03-06 2008-03-06 操作方法およびそのための操作装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008055735A JP4982807B2 (ja) 2008-03-06 2008-03-06 操作方法およびそのための操作装置、プログラム

Publications (2)

Publication Number Publication Date
JP2009210956A true JP2009210956A (ja) 2009-09-17
JP4982807B2 JP4982807B2 (ja) 2012-07-25

Family

ID=41184151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008055735A Expired - Fee Related JP4982807B2 (ja) 2008-03-06 2008-03-06 操作方法およびそのための操作装置、プログラム

Country Status (1)

Country Link
JP (1) JP4982807B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
WO2016209039A1 (ko) * 2015-06-24 2016-12-29 주식회사 브이터치 의사소통을 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP2017009867A (ja) * 2015-06-24 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
JPWO2015029296A1 (ja) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
CN107919121A (zh) * 2017-11-24 2018-04-17 江西科技师范大学 智能家居设备的控制方法、装置、存储介质及计算机设备
KR20180125241A (ko) * 2017-05-15 2018-11-23 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
GB2564237A (en) * 2017-05-23 2019-01-09 Lenovo Singapore Pte Ltd Method of associating user input with a device
WO2019080639A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 一种对象识别方法、计算机设备及计算机可读存储介质
KR102051011B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
JP2019219886A (ja) * 2018-06-19 2019-12-26 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム
US10531189B2 (en) 2018-05-11 2020-01-07 Fujitsu Limited Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program
CN112578338A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
JPWO2021186679A1 (ja) * 2020-03-19 2021-09-23

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236093A (ja) * 2000-02-24 2001-08-31 Omron Corp 電子機器制御装置および電子機器
JP2002091491A (ja) * 2000-09-20 2002-03-27 Sanyo Electric Co Ltd 複数機器の音声制御システム
JP2002311990A (ja) * 2000-12-19 2002-10-25 Hewlett Packard Co <Hp> 音声制御式機器の活動化方法およびシステム
JP2004126941A (ja) * 2002-10-02 2004-04-22 P To Pa:Kk 画像表示装置、画像表示方法及びプログラム
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007235613A (ja) * 2006-03-01 2007-09-13 Murata Mach Ltd 遠隔制御装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236093A (ja) * 2000-02-24 2001-08-31 Omron Corp 電子機器制御装置および電子機器
JP2002091491A (ja) * 2000-09-20 2002-03-27 Sanyo Electric Co Ltd 複数機器の音声制御システム
JP2002311990A (ja) * 2000-12-19 2002-10-25 Hewlett Packard Co <Hp> 音声制御式機器の活動化方法およびシステム
JP2004126941A (ja) * 2002-10-02 2004-04-22 P To Pa:Kk 画像表示装置、画像表示方法及びプログラム
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007235613A (ja) * 2006-03-01 2007-09-13 Murata Mach Ltd 遠隔制御装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015029296A1 (ja) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
WO2016209039A1 (ko) * 2015-06-24 2016-12-29 주식회사 브이터치 의사소통을 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP2017009867A (ja) * 2015-06-24 2017-01-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
US10185534B2 (en) 2015-06-24 2019-01-22 Panasonic Intellectual Property Corporation Of America Control method, controller, and recording medium
CN105280183B (zh) * 2015-09-10 2017-06-20 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
KR102025391B1 (ko) * 2017-05-15 2019-09-25 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
KR20180125241A (ko) * 2017-05-15 2018-11-23 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
GB2564237A (en) * 2017-05-23 2019-01-09 Lenovo Singapore Pte Ltd Method of associating user input with a device
US10573171B2 (en) 2017-05-23 2020-02-25 Lenovo (Singapore) Pte. Ltd. Method of associating user input with a device
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
WO2019080639A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 一种对象识别方法、计算机设备及计算机可读存储介质
US11289072B2 (en) 2017-10-23 2022-03-29 Tencent Technology (Shenzhen) Company Limited Object recognition method, computer device, and computer-readable storage medium
CN107919121A (zh) * 2017-11-24 2018-04-17 江西科技师范大学 智能家居设备的控制方法、装置、存储介质及计算机设备
CN107919121B (zh) * 2017-11-24 2021-06-01 江西科技师范大学 智能家居设备的控制方法、装置、存储介质及计算机设备
US10531189B2 (en) 2018-05-11 2020-01-07 Fujitsu Limited Method for utterance direction determination, apparatus for utterance direction determination, non-transitory computer-readable storage medium for storing program
JP2019219886A (ja) * 2018-06-19 2019-12-26 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム
KR102051011B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
CN112578338A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
CN112578338B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
JPWO2021186679A1 (ja) * 2020-03-19 2021-09-23
JP7392827B2 (ja) 2020-03-19 2023-12-06 日産自動車株式会社 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
JP4982807B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
JP4982807B2 (ja) 操作方法およびそのための操作装置、プログラム
JP2008064892A (ja) 音声認識方法およびそれを用いた音声認識装置
JP5572445B2 (ja) 残響抑圧装置、及び残響抑圧方法
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP5075664B2 (ja) 音声対話装置及び支援方法
JP5622744B2 (ja) 音声認識装置
JP6140579B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP7419270B2 (ja) ウェアラブルシステム発話処理
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP2005195895A (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP5841986B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US9786295B2 (en) Voice processing apparatus and voice processing method
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP5041934B2 (ja) ロボット
US20120095753A1 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
US20100299145A1 (en) Acoustic data processor and acoustic data processing method
JP4682344B2 (ja) 発声位置推定方法およびそれを用いた発声位置推定装置、電動車椅子
Nakadai et al. A robot referee for rock-paper-scissors sound games
JP4822458B2 (ja) インターフェイス装置とインターフェイス方法
JP4660740B2 (ja) 電動車椅子搭載用音声入力装置
Moritz et al. Ambient voice control for a personal activity and household assistant
Han et al. Probabilistic adaptation mode control algorithm for GSC-based noise reduction
Hu et al. Robust speaker's location detection in a vehicle environment using GMM models
JP4953095B2 (ja) 情報処理装置
JP4552034B2 (ja) ヘッドセット型マイクロフォンアレイ音声入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4982807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees