JP6908636B2 - ロボットおよびロボットの音声処理方法 - Google Patents

ロボットおよびロボットの音声処理方法 Download PDF

Info

Publication number
JP6908636B2
JP6908636B2 JP2019014244A JP2019014244A JP6908636B2 JP 6908636 B2 JP6908636 B2 JP 6908636B2 JP 2019014244 A JP2019014244 A JP 2019014244A JP 2019014244 A JP2019014244 A JP 2019014244A JP 6908636 B2 JP6908636 B2 JP 6908636B2
Authority
JP
Japan
Prior art keywords
voice
sound source
unit
data
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019014244A
Other languages
English (en)
Other versions
JP2020122861A (ja
Inventor
岳史 小山
岳史 小山
正樹 渋谷
正樹 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Soft Inc
Original Assignee
Fuji Soft Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Soft Inc filed Critical Fuji Soft Inc
Priority to JP2019014244A priority Critical patent/JP6908636B2/ja
Publication of JP2020122861A publication Critical patent/JP2020122861A/ja
Application granted granted Critical
Publication of JP6908636B2 publication Critical patent/JP6908636B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)

Description

本発明は、ロボットおよびロボットの音声処理方法に関する。
人と対話しながら動作を行うコミュニケーションロボットでは、任意の方向からの音声を精度よく音声認識できることが望ましい。任意の方向からの音声を認識する方法として、マイクロフォンアレイで取得した音声信号から音声到来方向を推定し、音声到来方向を強調した音声信号に基づいて音声認識する方法が知られている(特許文献1)。
特開2002−366191号公報
従来技術では、音声の到来方向が判明した後に、音声到来方向からの信号を強調する処理を実施するため、音声到来方向が判明する前に取得した音声信号と判明直後に取得した音声信号とについては、適正な方向を強調することができない。したがって、従来技術では、音声到来方向を判別する前後の部分での音声認識率は低くなる傾向がある。そして、単語または文の先頭を音声認識できない場合、その単語または文の全体が認識できなくなる場合もある。
このように、音声到来方向の判別直後から、音声到来方向を強調した音声信号を音声認識しても、音声到来方向を検知する直前の音声信号の部分は、適正な方向が強調されていないため、精度よく音声認識することができない。結果として、音声到来方向を検知する直前の音声信号に続く部分も正確に音声認識するのは難しくなる。このため、ロボットの横方向に居る話者からの発話を、精度よく音声認識できず、ロボットのコミュニケーション能力が低下する。
本発明は上述の課題に鑑みてなされたもので、その目的は、音声信号の音源方向が変化した場合でも音声を認識することができるようにしたロボットおよびロボットの音声処理方法を提供することにある。本発明のさらなる目的は、十分なコンピュータリソースを実装できない場合でも任意の方向からの音声を精度よく音声認識できるようにしたロボットおよびロボットの音声処理方向を提供することにある。
本発明の一つの観点に係るロボットは、音声信号を検出する音声検出部を有するロボット本体と、ロボット本体を制御するロボット制御部とを有し、ロボット制御部は、音声検出部による音声信号の検出状態に基づいて、音声信号の音源の方向を判定する音源方向判定部と、指定された方向の音声信号を強調した音声データを生成する音声データ強調部と、強調された音声データを音声認識し、認識結果を出力する音声認識部と、を備え、音声認識部が音声データの音声認識処理中に、新たな音源の方向が検知された場合には、音声認識部による処理中の音声認識処理である第1の音声認識処理により処理された音声データの一部を含むようにして、新たな音源方向の音声信号を強調した音声データを音声データ強調部により生成させ、新たな音源方向の音声信号を強調した音声データを音声認識部により再度音声認識させる。
ロボット制御部は、音声認識部が音声データの音声認識処理中に、新たな音源の方向が検知された場合には、第1の音声認識処理を停止させ、新たな音源方向を判定したときから所定の期間だけ時間を遡った起点からの音声データをメモリから読み出して音声データ強調部へ入力させることにより、新たな音源方向の音声信号を強調した所定の音声データを再生成させ、再生成された所定の音声データについて音声認識部により第2の音声認識処理を実行させてもよい。
音声認識部は、再生成された所定の音声データを第2の音声認識処理により音声認識した後、新たな音源方向が判定されたとき以降に音声データ強調部により強調された音声データを第3の音声認識処理により音声認識してもよい。
所定の期間の起点は、新たな音源方向が判定されたときから所定の時間だけ遡った時点に設定してもよい。
所定の期間の起点は、音声検出部により検出された音声信号の立ち上がり状態に基づいて設定されてもよい。
ロボット制御部は、第2の音声認識処理の認識結果と、第3の音声認識処理の認識結果とを統合して出力してもよい。
ロボット制御部は、ロボット本体の所定部位を動かした場合に、音源方向判定部による判定結果をリセットさせることもできる。
本発明の他の一つの観点に従うロボットの音声処理方法は、音声信号を検出する音声検出部を有するロボット本体を制御するロボット制御部により音声を処理する方法であって、音声検出部による音声信号の検出状態に基づいて、音声信号の音源の方向を判定するステップと、音声データの音声認識処理中に、新たな音源の方向が検知された場合には、処理中の音声認識処理である第1の音声認識処理により処理された音声データの一部を含むようにして、新たな音源方向の音声信号を強調した音声データを生成するステップと、新たな音源方向の音声信号が強調された音声データを再度音声認識するステップとを、実行する。
本実施形態に係るロボットの全体概要を示す説明図。 ロボット制御部の構成例を示す説明図。 音声処理のタイミングチャート。 音声信号処理部の回路図。 音声処理のフローチャート。 音声処理と回路との関係を示す説明図。 第2実施例に係り、音声データの立ち上がり状態に基づいて音声データを再生成する起点を決定する様子を示す説明図。
本実施形態では、以下に述べる通り、十分なコンピュータリソースを実装できない小型かつ安価なロボット1でも実装可能な、任意の方向からの音声を高精度に音声認識する方法を説明する。特に、本実施形態では、音声到来方向(音源方向)が変化した際の最初の発話も、高精度に音声認識できる方法を開示する。
本実施形態では、音声認識(第1の音声認識処理)の処理中に、音声の到来する方向である音源方向が変化すると、処理中の音声認識を停止し、音源方向変化時の音声について強調する音源方向を修正した音声データを再生成し、音声認識(第2の音声認識処理)をやり直す。本実施形態では、このやり直された音声認識の結果と、音源方向の変化が検知されてからの音声認識(第3の音声認識処理)の結果とを統合して出力する。
これにより、本実施形態によれば、ロボット1が正面のユーザとの会話中に、ロボット1の側方に位置する他のユーザから話しかけられて音源方向が変化すると、新たな音源方向からの音声を強調させた音声データを再生成することにより、会話の変化した出だし部分を再度音声認識する。これにより、新たな音源方向から話しかけてくる他のユーザとのコミュニケーションを円滑に行うことができる。
図1の全体概要図に示すように、ロボット1は、例えば、ロボット本体10と、ロボット本体10を制御するロボット制御部20とを備える。ロボット本体10は、ユーザが親しみやすいように、例えば人型に形成されるが、これに限らず、猫、犬、うさぎ、熊、象、キリン、ラッコなどの動物形状に形成してもよいし、ひまわり、バラ、チューリップ、サボテンなどの草花形状に形成してもよい。さらには、ロボット本体10は、怪獣、宇宙人、円柱または半球のような幾何学的形状に形成されてもよい。
ロボット本体10は、例えば胴体11と、頭部12と、両腕部13と、両脚部14を備える。頭部12、両腕部13および両脚部14は、アクチュエータ230(図2で後述)により動作する。例えば、頭部12は、上下左右に回動可能である。両腕部13は上げ下げしたり、前後に動かしたりできる。両脚部14は、膝の折り曲げなどができ、歩行することができる。
ロボット制御部20は、ロボット本体10の内部に設けられている。ロボット制御部20の全機能をロボット本体10内に設けてもよいし、一部の機能をロボット本体10の外部の装置、例えば、通信ネットワーク上のコンピュータなどに設けてもよい。
ロボット制御部20は、図2で後述するようにマイクロコンピュータシステムを利用して構成されており、音声検出部F1、音声データ記憶部F2、音源方向判定部F3、指向性音声データ生成部F4、音声認識部F5、対話制御部F6、機体制御部F7といった各機能を実現する。これら機能F1〜F7については後述する。これら機能F1〜F7以外の機能(例えば画像処理機能など)もロボット1は備えることができるが、図1では省略している。
ロボット制御部20は、頭部12に搭載したマイクロホン231(以下、マイク231)やスピーカ233(図2参照)などを用いて、ユーザと対話する。ロボット制御部20は、頭部12正面に搭載されたカメラ232を用いて、各ユーザU1,U2,U3の顔を識別することもできる。
マイクロホン231は、頭部12の前後左右にそれぞれ1つずつ設けられている。前後左右とは、頭部12の正面および背面と、頭部12の左右両側面である。これら4つのマイクロホン231で受信される音声信号の強度と時間差とに基づいて、正面(前)、左前、右前、左、右、左後、右後、後の8方向のいずれから到来した音声であるかを判定することができる。例えば、前方のマイクロホンへの音声到着時間の方が後方のマイクロホンへの音声到着時間よりも速く、左右のマイクロホンではほとんど音声到着時間に差がない場合、ロボット頭部12の正面前方から音声が発せられたと判定することができる。また、例えば、前方マイクロホンの音声到着時間の方が後方マイクロホンの音声到着時間よりも速く、かつ、左方マイクロホンの音声到着時間の方が右方マイクロホンの音声到着時間よりも速い場合は、ロボット頭部12の左斜め前から音声が発せられたと判定することができる。このように頭部12の前後左右に設けられた合計4個のマイクロホンにより、ロボット1の周囲を8分割して音源の到来する方向を判定することもできる。なお、音源方向の判定結果に応じて、マイクロホン231の指向性を設定してもよい。
ロボット制御部20の各機能を説明する。音声検出部F1は、各マイクロホン231を用いて音声信号を検出し、検出された音声信号から音声データを生成する。音声データは、特徴ベクトルの形式で作成することができる。音声検出部F1は、生成された音声データのうち、強度が所定の閾値以上の音声データを音声区間のデータとして抽出し、音声区間のデータ以外のデータは出力しない。音声データ記憶部F2は、音声データを一時的に保存する。
音源方向判定部F3は、音声検出部F1による音声信号の検出状態(音声データの検出状態)に基づいて、音声信号の到来した方向、すなわち音源の方向を判定する。判別可能な音源方向は、例えば上述の8方向である。マイクロホン231の搭載数を増減したり、指向性を動的に変化させたりすることにより、音源方向の検出精度を変えてもよい。
「音声データ強調部」としての指向性音声データ生成部F4は、音源方向判定部F3で判定された方向の音声を強調させた音声データを生成する。判定された音源方向の音声が強調されるので、指向性音声データと呼ぶことができる。
音声認識部F5は、音源方向の音声が強調された音声データについて音声認識処理を行い、その認識結果を出力する。
対話制御部F6は、ユーザの音声に対応する合成音声を応答する機能である。対話制御部F6は、ユーザが所定のコマンド(キーワード)を発した場合には、そのコマンドに応じた動作を実行する。例えば、ユーザが「クイズ」と言った場合、対話制御部F6は、クイズを出題する。また例えば、ユーザが「○○への行き方を教えて」と言った場合、対話制御部F6は、ユーザの希望する場所へ案内するための情報を発話する。
機体制御部F7は、例えば、図示せぬ画像処理部の認識結果または対話制御部F6による発話等に応じて、アクチュエータ230を駆動させることにより、ロボット本体10の動作を制御する。機体制御部F7が頭部12を回転させた場合、音源方向判定部F3により判定された音源方向をリセットしてもよい。
なお、図1に示す機能構成は、その全てが必要であるとは限らない。一部の機能は省略することもできる。また、ある機能と別のある機能とを結合させたり、一つの機能を複数に分割したりしてもよい。さらに、図1では、各機能間の関係は主要なものを示しており、接続されていない機能間であっても必要な情報は交換可能である。
図2〜図7を用いて第1実施例を説明する。本実施例では、音声認識と並行して、複数のマイクロホンで取得した音声信号に基づいて音声到来方向を推定する。音声到来方向が判明すると、判明後の音声信号について、音声到来方向を強調した音声データを生成し、音声認識する。判明直前の音声信号については、音声到来方向を強調した音声データを再生成し、再生成した音声データに基づいて音声認識をやり直す。
図2は、ロボット制御部20の構成説明図である。ロボット制御部20は、例えば、マイクロプロセッサ(以下CPU)211、ROM(Read Only Memory)212、RAM(Random Access Memory)213、音声信号処理部214、画像処理部218、音声合成部219、通信部220、音声認識タイミング判定部221、音声認識部222、発話生成部226、アクチュエータ制御部228がバス210に接続されている。電源装置などは図示を省略する。
ロボット制御部20は、通信プロトコルを有する通信部220から通信ネットワークを介して外部装置(いずれも図示せず)と双方向通信することができる。外部装置は、例えば、パーソナルコンピュータ、タブレットコンピュータ、携帯電話、携帯情報端末などのように構成してもよいし、サーバコンピュータとして構成してもよい。
CPU211は、図示せぬ記憶装置に格納されたコンピュータプログラムを読み込んで実行することにより、ユーザと対話等する。ROM212には、コンピュータプログラムなどが記憶される。RAM213は、CPU211により作業領域として使用されたり、管理や制御に使用するデータの全部または一部を一時的に記憶したりする。
音声信号処理部214は、頭部12の周囲に配置された各マイク231から取得した音声信号から音声データを生成し、ロボット1の周囲の音声を認識する。音声信号処理部214は、例えば、音源方向判定部215、指向性音声データ生成部216、特徴ベクトル抽出部217といった機能を有する。
本実施例では、頭部12の前後左右にそれぞれ一つずつマイクロホン231を設ける場合を述べるが、音声到来方向を判定できる位置であれば、マイク231の設置場所は問わない。図2等では、各マイクロホンを識別するために符号231−1,231−2,231−3,231−4を付している。
画像処理部218は、一つまたは複数のカメラ232から取得した画像データを解析して、ユーザの顔など周囲の画像を認識する。なお、通信部220を介して外部のカメラ(不図示)から画像を取得して処理してもよい。
音声合成部219は、音声信号処理部214の音声認識結果や画像処理部218での画像認識結果などに応じた応答を、音声出力部としてのスピーカ233から出力する。なお、通信部220を介して外部のスピーカ(不図示)から発話させてもよい。
音声認識タイミング判定部221は、音声認識を開始させるタイミングまたは停止させるタイミングが到来したか判定する。
音声認識部222は、音声信号処理部214で処理された音声データを音声認識処理し、その音声認識結果を出力する。音声認識部222は、例えば、音響モデル223、言語モデル224、辞書225を用いることにより、音声データをテキストデータとして認識する。
発話生成部226は、音声認識部222による音声認識結果(認識結果と略する場合がある)に基づいて発話データベース227を検索することにより、ユーザに返すための発話を生成する。発話生成部226により生成された発話データは、音声合成部219に送られて音声信号に変換され、スピーカ233から出力される。
アクチュエータ制御部228は、ロボット本体10の各関節に配置されたアクチュエータとしての電動モータ230を、アクチュエータ駆動部229を介して制御する。アクチュエータは、電動モータに限らず、例えばソレノイド、超音波モータ、圧電アクチュエータなどを用いてもよい。
図1の機能構成と図2のハードウェア構成との対応関係の一例を説明する。音声検出部F1は、マイクロホン231と特徴ベクトル抽出部217に対応する。音声データ記憶部F2は、RAM213と音声信号処理部214に対応する。音源方向判定部F3は、音源方向判定部215に対応する。指向性音声データ生成部F4は、指向性音声データ生成部216に対応する。音声認識部F5は、音声認識部222に対応する。対話制御部F6は、発話生成部226に対応する。機体制御部F7は、アクチュエータ制御部228に対応する。
図3は、音声処理のタイミングチャートである。図3(1)はユーザの発話を示し、図3(2)は音源方向の検出タイミングを示し、図3(3)は音源方向の判定結果を示し、図3(4)は音声データを示す。図3(5)は、音声認識処理の概略を示す。
本実施例では、音声認識と音源方向の検出とを並行して実行する。音源方向の検出は、所定周期(例えば50msecごと)で実行する。
システム起動時またはリセット時では、音源方向は不明なため、音源方向には初期値が設定される。音源方向の初期値を頭部12の正面(前)とすると、マイクロホン231の指向性は、無指向(全指向)あるいは正面(前)に設定される。これに限らず、ロボット1の状況に応じて指向性の初期値を設定してもよい。例えば、正面と右前とに指向性を持たせるなどのように、複数の方向に指向性を持たせてもよい。または、指向性を順次切り替えてもよい。
最初の音声認識処理(第1の音声認識処理)では、マイクロホン231で検出された音声信号について音声を認識する。マイクロホン231で検出された音声信号の到来する方向についても、所定周期で検出されている。なお、図示する第1の音声認識処理では、冒頭に無音期間がある。この無音期間(開始時点から時刻T1まで)では、マイクロホン231から閾値以上の音声信号が入力されないため、音声の発生している区間として認識されない。
閾値以上の音声信号が検出されると、その音声の到来方向の検出が開始される。そして、音源方向の検出結果が所定回数連続して同一であった場合、音源方向が検出されたと判定する。例えば、3回連続して同一の音源方向が検出されると、音源方向を検出することができたものと判定される。ここで例えば遅延和法(遅延和ビームフォーマ、あるいはDelay-and-Sum Beamformerとも呼ばれる)を用いることにより、判定された音源方向が強調された音声信号を得ることができる。すなわち、各マイクロホンへ音声信号が到達する時間の差を推定し、各マイクロホンからの音声信号を、前記推定した時間差だけずらして加算する。この結果、音源方向からの音声信号の位相が揃った状態で加算されるため、音源方向が強調された音声信号を得ることができる。
図示の例では、処理開始時点から350msec経過時の音源方向判定で、右(R)から到来した音声であると判定されている。指向性音声データ生成部216は、右(R)方向の強調された音声信号が得られるように設定される。
さらに続けて二回、右からの音声であると検出された時刻T2(処理開始時点から450msec経過時)において、音源は右にあると判定される。時刻T2で音源方向が判定されると、それまで実施されていた第1の音声認識処理は停止される。第1の音声認識処理では、右以外の方向を音源方向として音声認識していたためである。
そして、判定時刻T2から所定時間だけ遡った時刻T0を起点として、起点T0から判定時刻T2までの所定期間の音声データについて、右方向の音声を強調した音声データが再生成される。再生成される音声データを、図3中では斜線部として示す。マイクロホン231で検出された音声データは、数秒程度バッファされているため、バッファされている期間であれば時間を遡って再生成することができる。再生成された音声データを図3(5)に斜線部で示す。
所定の期間(遡及期間)は、図示の例では、6タイミング分、すなわち250msec(=50msec×5区画)に設定されている。判定時刻T2は、同一の音源方向であることが三回検出された時点なので、理想的には3タイミングだけ遡って音声データを再生成すればよい。しかし、本実施例では、マージンとしてさらに3タイミング分を加えた6タイミング分の音声データを再生成している。
第2の音声認識処理では、音源方向を強調して再生成された音声データについて音声を認識する。第2の音声認識処理は、図3(5)中の斜線部に続いて実施される。ここで、第2の音声認識処理では、再生成された音声データを処理するので、第2の音声認識処理に要する時間は短い。
第2の音声認識処理が終了したら、時刻T2以降の音声データについて、判定された音源方向(R)を強調したまま音声認識を継続する(第3の音声認識処理)。
図4は、音声信号処理部214の回路図である。音声信号処理部214は、例えば、アナログ/デジタル変換器(以下、A/D部)2141と、第1バッファ2142と、音声区間判定部2143と、第2バッファ2144と、音源方向判定部2145と、音声方向強調フィルタ2146と、第3バッファ2147とを備えている。
マイクロホン231ごとにA/D部2141が設けられている。A/D部2141は、マイクロホン231から入力される音声信号からフレームを抽出し、音声データとしての特徴ベクトルを生成する。生成された音声データ(特徴ベクトル)は、第1バッファ2142へ格納される。
音声区間判定部2143は、第1バッファ2142に格納された音声データの列から、音声の発生している区間である音声区間を判定する。音声区間判定部2143は、音声区間のデータを第2バッファ2144へ格納する。音声区間でないデータは、音声区間判定部2143から出力されない。
第2バッファ2144は、音声区間であると判定された音声データを保持する。そして、第2バッファ2144は、入力された音声データを出力部Baから音源方向判定部2145へ逐次出力する。さらに、第2バッファ2144は、入力された音声データを他の出力部Bbから音声方向強調フィルタ2146へ逐次出力する。
第2バッファ2144は、音源方向データが音源方向判定部2145から入力されると各出力部Ba,Bbからの出力を保留する。そして、第2バッファ2144は、出力済みの所定の範囲の音声データ(図3の例では、時刻T2から6タイミング前の範囲の音声データ)を、出力部Bbから音声方向強調フィルタ2146へ再出力する。第2バッファ2144は、再出力が終了すると、各出力部Ba,Bbからの出力を再開する。
音源方向判定部2145は、第2バッファ2144から取り込んだ音声データに基づいて、音源方向および音源方向の変化を判定する。音源方向判定部2145の判定結果は、第2バッファ2144と音源方向強調フィルタ2146とに入力される。音源方向強調フィルタ2146は、音源方向判定部2145から入力される音源方向の判定結果に基づいて、判定された音源方向を強調する。第2バッファ2144は、音源方向判定部2145から入力される音源方向の変化に基づき、音源方向が変化した場合には出力を保留する。
音声方向強調フィルタ2146は、第2バッファ2144から取り込んだ音声データについて、音源方向判定部2145で判定された音源方向を強調した音声データを生成し、音源方向が強調された音声データを第3バッファ2147へ格納させる。
音声認識部222は、第3バッファ2147から音声データを取得し、音声認識処理を実行し、その認識結果をテキストデータとして出力する。
図5のフローチャートと図6の回路概略図とを参照して、音声処理を説明する。ここでは、動作の主体をロボット制御部20として説明する場合がある。図6の回路概略図には、図5の処理ステップと対応するステップ番号が記載されている。
音声処理の起動時には、音源方向の初期値が設定される(S11)。ロボット制御部20は、第1バッファ2142から音声データを取得し(S12)、音声区間を判定する(S13)。所定の閾値以上の信号レベルを持つ音声データは、音声区間データであると判定されて、第2バッファ2144へ格納される。
所定の閾値よりも信号レベルの小さい音声データは、音声区間データではないものとして扱われ、第2バッファ2144へ格納されない(そのデータは破棄される)。図6の例では、第1バッファ2142に格納されたデータD1〜D7のうち、先頭のデータD1は音声区間データではないと判定されて破棄されている。残ったデータD2〜D7は、音声区間データと判定されて、第2バッファ2144へ格納されている。
音源方向判定部2145は、第2バッファ2144に格納された音声データに基づいて、音源方向を検出する(S14)。この音源方向の検出処理(S14)と並行して、音声認識部222により第1の音声認識処理が行われる(S15)。
ロボット制御部20の音源方向判定部2145は、第1の音声認識処理中に、新たな音源方向を検出したか判定する(S16)。
図3で述べたように、新たな同一の音源方向が連続して所定回数検出された場合、新たな音源方向が検出されたと判定することができる(S16:YES、S17)。すなわち、音源方向の初期値を正面(前)とすると、頭部12の右または左に位置する他のユーザから話しかけられた状態である。上述の通りステップS16では、音源方向が変化した場合も検出される。
新たな音源方向が検出されると、第2バッファ2144からの音声データの出力が一時停止されるため、音声認識部222による第1の音声認識処理も停止する(S18)。第1音声認識処理の認識結果は、破棄される(S18)。新たに検出されたユーザとの会話に対応するためである。
音源方向強調フィルタ2146は、音源方向判定部2145から入力された音源方向判定データ(判定結果)に応じて、強調フィルタを設定する(S19)。
第2バッファ2144は、音源方向判定部2145から入力された音源方向判定データに応じて、音声データの出力を再開する(S20)。音声データの出力を再開させる位置(所定期間の起点)は、音源方向判定時から所定期間だけ遡った時点である。第2バッファ2144は、起点から音源方向判定時までの所定範囲の音声データを、音源方向強調フィルタ2146へ出力させる(S20)。起点と終点(判定時)は、音声認識タイミング判定部221により判定される。
図6の例では、音声データD4,D5,D6が、新たな音源方向を強調して再生成されている。再生成された音声データを、太い丸印の中に「D4*」「D5*」「D6*」と示す。
音源方向強調フィルタ2146は、ステップS17で判定された音源方向を強調した音声データを再生成し、第3バッファ2147へ格納する(S21)。音声認識部222は、新たな音源方向が強調された音声データについて音声認識(第2の音声認識処理)を行う(S22)。音声認識部222は、重複した音声データがある場合、後から取得された音声データを採用する。図6の例では、古い音源方向が強調された音声データD4〜D6と新たな音源方向が強調された音声データD4*〜D6*とが重複するため、後から取得された音声データD4*〜D6*が採用される。
ステップS19〜S22により、新たなユーザから発せられた言葉の冒頭部分をあらためて音声認識することができる。
そして、音声認識部222は、新たな音声の最初の部分(新たな音源方向を強調して再生成された音声データ)について第2の音声認識処理を行った直後に、その新たな音声に続く他の部分の音声データについて第3の音声認識処理を実行する(S23)。音声認識部222は、第2の音声認識処理の結果と第3の音声認識処理の結果とを統合して出力する(S23)。
ロボット1の電源をオフするなどして音声処理を終了する場合(S24:YES)、本処理を終了する。これに対し、音声処理を継続する場合(S24:NO)、ステップS12へ戻る。
このように構成される本実施例によれば、音声認識中に新たな音源方向を検出すると(音源方向の変化の検知を含む)、新たな音源方向を強調した音声データを再生成して、音声認識をやり直すため、現在の音声認識の対象とする音源方向とは異なる方向(例えば、頭部12の左右方向、後方向)から突然話しかけられた場合でも、その新たな音源方向からの音声を正確に認識することができる。したがって、ロボット1は、周囲を取り囲む複数のユーザに対応して円滑なコミュニケーションを行うことができる。
本実施例では、新たな音源方向の判定時(音源方向の変化を判定した時点)から所定期間遡った時点を起点として、音声データを再生成するため、新たな音源方向が検出されたときの音声データを取りこぼさずに音声認識することができる。これにより、本実施例によれば、発話の冒頭部分から高精度に音声認識することができ、円滑なコミュニケーションを実現できる。
本実施例では、新たな音源方向を検出すると(音源方向の変化を検出すると)、それまでの第1の音声認識処理による認識結果を破棄し、新たな音源方向を強調して再生成された音声データについての第2の音声認識処理の認識結果と、音声データの再生成後にマイクロホン231で検出された音声データをリアルタイムに処理する第3の音声認識処理の認識結果とを統合して、音声認識結果を出力することができる。したがって、新たな方向から不意に話しかけられた場合でも、発話の最初の音声を取りこぼさずに正確かつ高精度に音声を認識することができ、円滑なコミュニケーションを実現することができる。
さらに本実施例では、図4などに示す通り、比較的簡素な回路構成でありながら、高精度な音声認識を行うことができる。したがって、ロボット本体10が小型であるために十分なコンピュータリソースを搭載することができないコミュニケーションロボット1であっても、コストをあまり増大させることなく、円滑なコミュニケーションを実現することができる。
図7を用いて第2実施例を説明する。本実施例は第1実施例の変形例に該当するため、第1実施例との差異を中心に説明する。
図7は、音源方向の切り替わり時に再生される音声データの起点を選択する様子を示す説明図である。第1実施例では、新たな音源方向を判定した時点T2から所定期間ΔTだけ遡った時点T0を、音声データの再生成の起点とした。
これに対し、本実施例では、判定時T2から所定期間ΔTを遡るまでの間に、音声信号の立ち上がり状態に基づいて、起点T0aを決定する。すなわち、判定時T2から所定期間ΔTまで遡る間に、音声信号が所定の角度以上で立ち上がった箇所を見つけた場合、その波形の立ち上がり時点T0aを音声データの再生成の起点とする。したがって、この場合、所定期間ΔTaは第1実施例の所定期間ΔTよりも短くなる。
これにより、本実施例では、音源方向が切り替わった時点の音声データを無駄なく速やかに再生成することができ、より一層高精度な音声認識を実現できる。
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。本発明のロボット1は、頭部12などの可動部を備えているが、音声処理だけを自動で行うロボットとして構成する場合、可動部は必要ない。
1:ロボット、10:ロボット本体、12:頭部、20:ロボット制御部、214:音声信号処理部、215:音源方向判定部、216:指向性音声データ生成部、217:特徴ベクトル抽出部、221:音声認識タイミング判定部、222:音声認識部、発話生成部226、231:マイクロホン

Claims (6)

  1. 音声信号を検出する音声検出部を有するロボット本体と、
    前記ロボット本体を制御するロボット制御部とを有し、
    前記ロボット制御部は、
    前記音声検出部による音声信号の検出状態に基づいて、前記音声信号の音源の方向を判定する音源方向判定部と、
    指定された方向の音声信号を強調した音声データを生成する音声データ強調部と、
    前記強調された音声データを音声認識し、認識結果を出力する音声認識部と、
    を備え、
    前記音声認識部が音声データの音声認識処理中に、前記音源方向判定部により新たな音源の方向が検知された場合には、前記音声認識部による処理中の音声認識処理である第1の音声認識処理を停止させ、前記新たな音源の方向を判定したときから所定の期間だけ時間を遡った起点から前記第1の音声認識処理を停止させた時点までの音声データをメモリから読み出して前記音声データ強調部へ入力させることにより、前記新たな音源の方向の音声信号を強調した所定の音声データを再生成させ、前記再生成された所定の音声データについて前記音声認識部により第2の音声認識処理を実行させる、
    ロボット。
  2. 前記音声認識部は、前記再生成された所定の音声データを前記第2の音声認識処理により音声認識した後、前記新たな音源方向が判定されたとき以降に前記音声データ強調部により強調された音声データを第3の音声認識処理により音声認識する、
    請求項に記載のロボット。
  3. 前記所定の期間の起点は、前記音声検出部により検出された音声信号の立ち上がり状態に基づいて設定される、
    請求項に記載のロボット。
  4. 前記ロボット制御部は、前記第2の音声認識処理の認識結果と、前記第3の音声認識処理の認識結果とを統合して出力する、
    請求項に記載のロボット。
  5. 前記ロボット制御部は、前記ロボット本体の所定部位を動かした場合に、前記音源方向判定部による判定結果をリセットさせる、
    請求項1に記載のロボット。
  6. 音声信号を検出する音声検出部を有するロボット本体を制御するロボット制御部により音声を処理する方法であって、
    前記音声検出部による音声信号の検出状態に基づいて、前記音声信号の音源の方向を判定するステップと、
    音声データの音声認識処理中に新たな音源の方向が検知された場合には、処理中の音声認識処理である第1の音声認識処理を停止させ、前記新たな音源の方向を判定したときから所定の期間だけ時間を遡った起点から前記第1の音声認識処理を停止させた時点までの音声データをメモリから読み出して、前記新たな音源の方向の音声信号を強調した所定の音声データを再生成させるステップと、
    前記再生成された所定の音声データについて第2の音声認識処理を実行させるステップとを、
    実行する
    ロボットの音声処理方法。
JP2019014244A 2019-01-30 2019-01-30 ロボットおよびロボットの音声処理方法 Active JP6908636B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019014244A JP6908636B2 (ja) 2019-01-30 2019-01-30 ロボットおよびロボットの音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019014244A JP6908636B2 (ja) 2019-01-30 2019-01-30 ロボットおよびロボットの音声処理方法

Publications (2)

Publication Number Publication Date
JP2020122861A JP2020122861A (ja) 2020-08-13
JP6908636B2 true JP6908636B2 (ja) 2021-07-28

Family

ID=71992610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019014244A Active JP6908636B2 (ja) 2019-01-30 2019-01-30 ロボットおよびロボットの音声処理方法

Country Status (1)

Country Link
JP (1) JP6908636B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112405581B (zh) * 2020-12-18 2024-03-22 华南理工大学广州学院 一种手语仿生机械手的控制系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499124B1 (ko) * 2002-03-27 2005-07-04 삼성전자주식회사 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
JP6374936B2 (ja) * 2016-02-25 2018-08-15 パナソニック株式会社 音声認識方法、音声認識装置及びプログラム

Also Published As

Publication number Publication date
JP2020122861A (ja) 2020-08-13

Similar Documents

Publication Publication Date Title
JP6505748B2 (ja) 人間型ロボットとユーザーの間におけるマルチモード会話を実行する方法、前記方法を実装するコンピュータプログラム及び人間型ロボット
Nakadai et al. Design and Implementation of Robot Audition System'HARK'—Open Source Software for Listening to Three Simultaneous Speakers
US20200027455A1 (en) Dialog system, dialog method, dialog apparatus and program
US9293134B1 (en) Source-specific speech interactions
JP5018773B2 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP2003131683A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
CN110874137A (zh) 一种交互方法以及装置
JP2018185362A (ja) ロボットおよびその制御方法
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
JP6908636B2 (ja) ロボットおよびロボットの音声処理方法
Fréchette et al. Integration of sound source localization and separation to improve dialogue management on a robot
JP2007155986A (ja) 音声認識装置および音声認識装置を備えたロボット
JP2008168375A (ja) ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
JP2004034273A (ja) ロボット発話中の動作プログラム生成装置及びロボット
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JP2008052178A (ja) 音声認識装置と音声認識方法
JP2001188551A (ja) 情報処理装置および方法、並びに記録媒体
JP7176244B2 (ja) ロボット、ロボットの制御方法及びプログラム
EP4303868A1 (en) Audio signal processing method, devices, system, and storage medium
JPH09269889A (ja) 対話装置
US8666549B2 (en) Automatic machine and method for controlling the same
JP7020390B2 (ja) 制御装置、音声対話装置、音声認識サーバ及びプログラム
JP5495612B2 (ja) カメラ制御装置及び方法
JP4539313B2 (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210701

R150 Certificate of patent or registration of utility model

Ref document number: 6908636

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150