JP2020086096A

JP2020086096A - 音声対話装置および音声対話システム

Info

Publication number: JP2020086096A
Application number: JP2018219515A
Authority: JP
Inventors: 伊藤　彰則; Akinori Ito; 彰則伊藤
Original assignee: Tohoku University NUC
Current assignee: Tohoku University NUC
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2020-06-04
Anticipated expiration: 2038-11-22
Also published as: JP7106120B2

Abstract

【課題】応答音声の誤認識を防止することができる音声対話装置を提供する。【解決手段】利用者の発話音声に反応して音声対話手段４により音声合成された応答音声信号に基づいて、スピーカ５から応答音声を出力する音声対話装置１０であって、応答音声信号の可聴帯域外の周波数帯域に、応答音声信号であることを示す識別情報を埋め込む識別情報埋込手段１と、マイクロフォン６から入力される入力音声信号の可聴帯域外の周波数帯域に、識別情報が含まれているか否かを判別する識別情報判別手段２と、識別情報が含まれていると判別された場合に、入力音声信号から少なくとも応答音声信号を除外した音声信号を、音声対話手段４に出力する応答音声除外手段３と、を備える。【選択図】図１

Description

本発明は、音声合成された応答音声を利用者の発話音声に反応して出力する音声対話装置に関する。

近年、利用者が発話する音声を認識し、その音声に対応して音声で応答する音声対話システムが開発されている。音声対話システムは、例えばスマートフォンの情報検索、音楽を再生するスマートスピーカ、ロボット、エンタテインメントなどに利用されている。

図７は、従来の音声対話システムが有する問題点を説明するための模式図である。図７（ａ）に示すように、従来の音声対話システム８１では、スピーカ８２から発する自己の応答音声８４を利用者８９の発話音声８５として誤って認識してしまうという問題があった。このような問題を防ぐために、従来の多くの音声対話システムでは、応答音声８４を発している間は音声認識を行わず、応答音声８４の再生を終了した後に、音声認識の機能を有効化している。従来の音声対話システムは、音声対話システムと利用者とが交互に発話することを想定したシステムであると言える。

一方で、このような音声対話システムを備える機器が普及するにつれ、新たな問題も生じつつある。図７（ｂ）に示すように、例えば、音声対話システム８１（８１Ａ，８１Ｂ）が同じ環境に複数台存在する状況では、一方の音声対話システム８１Ａから発生した応答音声８４を、他方の音声対話システム８１Ｂが利用者８９の発話音声８５と誤認識して作動し、誤認識による誤った応答音声８６を再生してしまうという新たな問題が生じる。

このような問題を解決するための技術としては、例えば特許文献１の技術が挙げられる。特許文献１には、音声認識システムを備える機器に利用者が接近したかどうかを、光などを用いる計測手段によって判別し、利用者が接近したときにのみ音声認識を行う方法が開示されている。

特開２００３−４４０８９号公報

しかしながら、特許文献１の方法には、利用者が音声対話システムに特定の方向から特定の距離まで接近した場合にしか音声認識ができないという問題がある。特に、スマートスピーカやロボットのように、利用者が発話する様々な方向からの音声を認識する必要がある場合には、スマートスピーカまたはロボットの周囲のすべての方向において認識対象物との距離を計測する必要があるという問題が生じる。これにより、機器が高価になるのみならず、距離計測装置を実装するために機器が大きくなるという問題がある。また、移動型のロボットなどの場合には、ロボットの周囲の環境が大きく変化することにより認識対象物が刻々と変化するので、認識対象物を特定し難いという問題もある。

本発明は、このような従来技術の問題点に鑑みてなされたものであり、その目的は、音声対話システムを備える様々な機器が同じ環境内で応答音声を再生している状況にあっても、応答音声の誤認識を防止することができる音声対話装置を提供することにある。

上記目的を達成するための本発明は、例えば以下に示す態様を含む。
（項１）
利用者の発話音声に反応して音声対話手段（４）により音声合成された応答音声信号に基づいて、スピーカ（５）から応答音声を出力する音声対話装置（１０）であって、
応答音声信号の可聴帯域外の周波数帯域に、前記応答音声信号であることを示す識別情報を埋め込む識別情報埋込手段（１）と、
マイクロフォン（６）から入力される入力音声信号の可聴帯域外の周波数帯域に、前記識別情報が含まれているか否かを判別する識別情報判別手段（２）と、
前記識別情報が含まれていると判別された場合に、前記入力音声信号から少なくとも前記応答音声信号を除外した音声信号を、音声対話手段（４）に出力する応答音声除外手段（３）と、
を備える、音声対話装置。
（項２）
前記応答音声除外手段（３）は、前記入力音声信号に前記識別情報が含まれていない場合に、前記入力音声信号を前記音声対話手段（４）に出力する、項１に記載の音声対話装置。
（項３）
前記識別情報判別手段（２）は、
前記入力音声信号の周波数帯域を制限する第１の帯域制限手段（２１，２６）と、
前記入力音声信号の電力と帯域が制限された前記入力音声信号の電力とを計算する第１の電力計算手段（２２，２７）と、
前記入力音声信号の電力と帯域が制限された前記入力音声信号の電力との比率に基づいて、前記入力音声信号に前記識別情報が含まれているか否かを判別する判別手段（２３，２８）と、
を備える、項１または２に記載の音声対話装置。
（項４）
前記応答音声除外手段（３）は、前記入力音声信号に前記識別情報が含まれている場合に、前記入力音声信号をミュートする、項１から３のいずれか一項に記載の音声対話装置。
（項５）
前記応答音声除外手段（３）は、
前記入力音声信号の周波数帯域を制限して、前記入力音声信号を出力する第２の帯域制限手段（３１）と、
前記識別情報の判別結果に基づいて、ミュートされた前記入力音声信号と前記入力音声信号とを切り替えて出力する第１の切替手段（３２）と、
を備える、項４に記載の音声対話装置。
（項６）
前記識別情報埋込手段（１）は、
前記可聴帯域外の周波数を有する信号を前記応答音声信号に重畳する第１の重畳手段（１２）
を備える、項４または５に記載の音声対話装置。
（項７）
前記応答音声除外手段（３）は、前記入力音声信号に前記識別情報が含まれている場合に、前記入力音声信号から前記応答音声信号を差し引いた音声信号を、前記音声対話手段（４）に出力する、項１から３のいずれか一項に記載の音声対話装置。
（項８）
前記応答音声除外手段（３）は、
前記入力音声信号の周波数帯域を制限して、前記入力音声信号を出力する第３の帯域制限手段（３４）と、
前記入力音声信号にキャリア信号を乗算して、復調信号を生成する復調手段（３５）と、
前記復調信号から応答音声信号を推定する応答音声推定手段（３７）と、
推定された前記応答音声信号を前記入力音声信号から差し引く応答音声差引手段（３８）と、
前記識別情報の判別結果に基づいて、前記応答音声差引手段（３８）の出力と前記入力音声信号とを切り替えて出力する第２の切替手段（３９）と、
を備える、項７に記載の音声対話装置。
（項９）
前記識別情報埋込手段（１）は、
前記応答音声信号の周波数帯域を制限する第４の帯域制限手段（１５）と、
帯域が制限された前記応答音声信号にキャリア信号を乗算することにより、変調信号を生成する変調手段（１６）と、
前記応答音声信号に前記変調信号を重畳することにより、前記応答音声信号の、前記キャリア信号のキャリア周波数を含む周波数帯域に、前記識別情報として前記変調信号を埋め込む第２の重畳手段（１７）と、
を備え、
前記変調信号の周波数帯域の上限および下限の周波数が、前記可聴帯域外の周波数である、項７または８に記載の音声対話装置。
（項１０）
前記可聴帯域が２０Ｈｚ〜１５ｋＨｚの範囲の周波数帯域である、項１から９のいずれか一項に記載の音声対話装置。
（項１１）
項１から１０のいずれかに記載の音声対話装置の各手段としてコンピュータを機能させるためのプログラム。
（項１２）
項１から１０のいずれかに記載の音声対話装置（１０）と、
入力音声に基づいて、前記音声対話装置（１０）に前記入力音声信号を出力するマイクロフォン（６）と、
前記音声対話装置（１０）から入力される前記応答音声信号に基づいて、前記応答音声を出力するスピーカ（５）と、
を備える、音声対話システム。

本発明によると、応答音声の誤認識を防止することができる音声対話装置を提供することができる。

本発明の一実施形態に係る音声対話システム１００の概略的な構成を説明するためのブロック図である。一実施形態に係る音声対話手段４の例示的な構成を説明するためのブロック図である。本発明の第１の実施形態に係る音声対話装置１０Ａの構成を説明するためのブロック図である。本発明の第２の実施形態に係る音声対話装置１０Ｂの構成を説明するためのブロック図である。音声対話装置１０の各手段をソフトウェアとして実現する場合の、音声対話装置１０のハードウェア構成を示すブロック図である。識別情報として変調信号を応答音声信号に埋め込んだ場合の音声信号のスペクトルの一例である。従来の音声対話システムが有する問題点を説明するための模式図である。

以下、本発明の実施形態を、添付の図面を参照して詳細に説明する。なお、以下の説明および図面において、同じ符号は同じまたは類似の構成要素を示すこととし、よって、同じまたは類似の構成要素に関する重複した説明を省略する。

以下の説明において、発話音声とは、音声対話システムまたは音声対話装置を利用する利用者が発する音声を意味する。

応答音声とは、例えばスピーカ等の音声出力手段を介して音声対話システムまたは音声対話装置から出力される音声を意味する。応答音声は、音声対話エンジンの機能により、利用者の発話音声に対する、音声認識（Automatic Speech Recognition: ASR）、言語理解、対話管理、応答文生成、および音声合成（Text To Speech: TTS）の一連の処理がなされた音声とすることができる。

入力音声とは、例えばマイクロフォン等の音声入力手段を介して音声対話装置に入力される音声を意味する。音声対話システムまたは音声対話装置が用いられる環境または状況に応じて、入力音声には、利用者の発話音声が主に含まれる場合があれば、音声対話エンジンによる応答音声が主に含まれる場合もある。入力音声には、発話音声および応答音声の両方が混在して含まれる場合がある。

［概略構成］
図１は、本発明の一実施形態に係る音声対話システム１００の概略的な構成を説明するためのブロック図である。

一実施形態に係る音声対話システム１００は、音声対話装置１０と、スピーカ５と、マイクロフォン６とを備える。

一実施形態に係る音声対話装置１０は、利用者の発話音声に反応して応答音声を出力する装置である。応答音声は、音声対話手段４により音声合成された応答音声信号に基づいて、スピーカ５から出力される。

スピーカ５は、音声対話装置１０から入力される応答音声信号に基づいて、応答音声を出力する。好ましくは、スピーカ５は、最大で２２ｋＨｚまでの周波数を有する音声を出力することができる。

マイクロフォン６は、入力音声に基づいて、音声対話装置１０に入力音声信号を出力する。好ましくは、マイクロフォン６から出力される入力音声信号は、少なくとも２０ｋＨｚの周波数成分が含まれるように、４０ｋＨｚ以上のサンプリング周波数でサンプリングされている。

音声対話装置１０は、識別情報埋込手段１と、識別情報判別手段２と、応答音声除外手段３と、音声対話手段４とを備える。一実施形態に係る音声対話装置１０において、音声対話装置１０が備える各手段は、各手段が備える各機能毎に作製された電子回路により実現される。

識別情報埋込手段１は、応答音声信号の可聴帯域外の周波数帯域に、応答音声信号であることを示す識別情報を埋め込む。識別情報は、応答音声の可聴帯域外の周波数帯域に埋め込まれているので、利用者は、識別情報の有無を気にかけることなく、スピーカ５を介して音声対話システムまたは音声対話装置からの応答音声を聞くことができる。

好ましくは、可聴帯域は、２０Ｈｚ〜１５ｋＨｚの範囲の周波数帯域とすることができる。好ましくは、可聴帯域外の低周波数側または高周波数側の周波数帯域のうち、高周波数側の周波数帯域に識別情報を埋め込むことが好ましい。好ましくは、識別情報を埋め込む高周波数側の周波数帯域は、１５ｋＨｚ〜２０ｋＨｚの範囲の周波数帯域とすることができる。

識別情報判別手段２は、マイクロフォン６から入力される入力音声信号の可聴帯域外の周波数帯域に、識別情報が含まれているか否かを判別する。判別の結果、識別情報が含まれていない場合には、音声対話手段４による応答音声が入力音声信号に含まれていない、すなわち入力音声には利用者の発話音声が主に含まれている、と判断される。一方で、識別情報が含まれている場合には、音声対話手段４による応答音声が入力音声信号に含まれている、と判断される。

応答音声除外手段３は、入力音声信号に識別情報が含まれていると判別された場合には、入力音声信号から少なくとも応答音声信号を除外した音声信号を、音声対話手段４に出力する。入力音声信号から少なくとも応答音声信号を除外することは、入力音声信号をミュートすることと、入力音声信号から応答音声信号を差し引いた音声信号を生成することと、の両方を意味する。例示的には、入力音声信号をミュートすることとは、入力音声信号の全体を応答音声信号として除外することを意味する。

一方で、入力音声信号に識別情報が含まれていないと判別された場合には、応答音声除外手段３は、入力音声信号を音声対話手段４に出力する。

図２は、一実施形態に係る音声対話手段４の例示的な構成を説明するためのブロック図である。一実施形態に係る音声対話手段４は、音声認識手段４１と、言語理解手段４２と、対話管理手段４３と、応答文生成手段４４と、音声合成手段４５とを備える。

音声対話手段４は、入力される音声信号に対して、音声認識（Automatic Speech Recognition: ASR）、言語理解、対話管理、応答文生成、および音声合成（Text To Speech: TTS）の一連の処理を施すことにより、応答音声を生成する。例示的には、音声対話手段４は、公知の音声対話システムにおける公知の音声対話エンジンを用いることができる。音声対話手段４は、全部または一部を人工知能として実現することもできる。

以上、一実施形態に係る音声対話装置１０は、応答音声信号であることを示す識別情報に基づいて、音声対話手段４にて処理する音声信号を切り替える。音声対話装置１０は、入力音声信号に識別情報が含まれていない場合には、利用者の発話音声が入力音声に主に含まれていると判断して、音声対話手段４により、入力音声に対する応答音声を生成する。一方で、入力音声信号に識別情報が含まれている場合には、音声対話装置１０は、自己のまたは他の機器の音声対話手段４から出力された応答音声が入力音声に含まれていると判断して、入力音声信号から少なくとも応答音声信号を除外する。

入力音声信号に識別情報が含まれている場合には、入力音声信号がミュートされて入力音声に対する応答音声が生成されないか、または、入力音声信号から応答音声信号を差し引いた音声信号が生成されて、生成されたその音声信号に対する応答音声が生成される。これにより、音声対話装置１０は、応答音声の誤認識を防止することができる。

また、音声対話装置１０は、自己のまたは他の機器の音声対話手段４から出力された応答音声が入力音声に含まれていると判断する場合には、入力音声信号から少なくとも応答音声信号を除外する。これにより、音声対話装置１０は、自己が発する応答音声を利用者による発話音声として誤って認識するという態様の、自己発話による誤認識を防止することができる。また、音声対話装置１０は、複数台が同じ環境内に存在している状況であっても、他の機器が発する応答音声を利用者による発話音声として誤って認識するという態様の誤認識も防止することができる。

また、応答音声信号であることを示す識別情報は、応答音声の可聴帯域外の周波数帯域に埋め込まれている。これにより、利用者は、識別情報の有無に気付くことなく、スピーカ５を介して音声対話システムまたは音声対話装置からの応答音声を聞くことができる。利用者は、応答音声の誤認識に悩まされることなく、音声対話システムまたは音声対話装置を快適に利用することができる。

［第１の実施形態］
第１の実施形態では、音声対話装置１０Ａは、入力音声信号に識別情報が含まれている場合に、入力音声信号をミュートする。

以下において説明する第１の実施形態では、可聴帯域外の低周波数側または高周波数側の周波数帯域のうち、高周波数側の周波数帯域に識別情報を埋め込む場合を一例として説明する。また、第１の実施形態に係る音声対話装置１０Ａの構成のうち、一実施形態に係る音声対話装置１０と共通する構成は、特に言及しない限り、一実施形態に係る音声対話装置１０と同様であるので、重複する説明は省略する。

図３は、本発明の第１の実施形態に係る音声対話装置１０Ａの構成を説明するためのブロック図である。

第１の実施形態に係る音声対話装置１０Ａは、識別情報埋込手段１Ａと、識別情報判別手段２と、応答音声除外手段３Ａと、音声対話手段４とを備える。

識別情報埋込手段１Ａは、発振手段１１と、重畳手段１２とを備える。発振手段１１は、可聴帯域外の周波数を有する信号を発振する。重畳手段１２は、発振手段１１から出力される可聴帯域外の周波数を有する信号を識別情報として、音声対話手段４から出力される応答音声信号に重畳する。

発振手段１１が発振する信号の周波数は、可聴帯域外の周波数であり、好ましくは、１５ｋＨｚ〜２０ｋＨｚの範囲の周波数とすることができる。例示的には、発振手段１１は、２０ｋＨｚの正弦波を出力する。例示的には、発振手段１１は発振器とすることができ、重畳手段１２は乗算器とすることができる。

その後、可聴帯域外の周波数を有する信号が重畳された応答音声信号は、重畳手段１２からスピーカ５に出力され、スピーカ５が、応答音声信号に基づいて応答音声を出力する。

識別情報判別手段２は、帯域制限手段２１と、電力計算手段２２（２２Ａ，２２Ｂ）と、判別手段２３とを備える。

帯域制限手段２１は、マイクロフォン６から入力される入力音声信号の周波数帯域を制限する。これにより、重畳された識別情報の周辺の周波数成分を抽出する。好ましくは、帯域制限手段２１は、入力音声信号を１５ｋＨｚ〜２０ｋＨｚの範囲の周波数帯域に制限する。例示的には、帯域制限手段２１は、帯域通過フィルタ（Band-PASS Filter）または高域通過フィルタ（High-Pass Filter）とすることができる。

電力計算手段２２Ａは、帯域制限手段２１により帯域が制限された入力音声信号の電力を計算し、電力計算手段２２Ｂは、マイクロフォン６から入力される入力音声信号の電力を計算する。これにより、電力計算手段２２Ａは、入力音声信号のうち、識別情報に対応する部分の周波数成分の電力を計算し、電力計算手段２２Ｂは、入力音声信号全体の電力を計算する。例示的には、電力計算手段２２（２２Ａ，２２Ｂ）は、公知のパワースペクトル密度の計算手法に基づいて、電力を計算する。

判別手段２３は、電力計算手段２２Ａにより計算された電力と、電力計算手段２２Ｂにより計算された電力との比率に基づいて、入力音声信号に識別情報が含まれているか否かを判別する。好ましくは、判別手段２３は、電力計算手段２２Ａにより計算された電力と、電力計算手段２２Ｂにより計算された電力との比率が、所定の閾値よりも大きい場合には、入力音声信号に識別情報が重畳されていると判別する。

判別結果は、応答音声除外手段３Ａに出力される。例示的には、判別結果は値「０」または値「１」のＢｏｏｌｅａｎ値として表すことができる。例示的には、判別結果の値「０」は、入力音声信号に識別情報が重畳されていることを意味し、判別結果の値「１」は、入力音声信号に識別情報が重畳されていないことを意味することとすることができる。例示的には、判別手段２３は比較器とすることができる。

応答音声除外手段３Ａは、帯域制限手段３１と、切替手段３２とを備える。任意の構成として、応答音声除外手段３Ａは、ダウンサンプル手段３３をさらに備えることができる。

帯域制限手段３１は、マイクロフォン６から入力される入力音声信号の周波数帯域を制限する。これにより、入力音声信号中に含まれている識別情報を除去する。好ましくは、帯域制限手段３１は、入力音声信号を１５ｋＨｚ以下の周波数帯域に制限する。例示的には、帯域制限手段３１は、帯域阻止フィルタ（Band-Elimination Filter）または低域通過フィルタ（Low-Pass Filter）とすることができる。

切替手段３２は、判別手段２３から入力される識別情報の判別結果に基づいて、ミュートされた入力音声信号と、入力音声信号とを切り替えて出力する。

入力音声信号に識別情報が重畳されていない場合には、利用者の発話音声が入力音声に主に含まれているので、切替手段３２は、帯域制限手段３１から入力される音声信号を、音声対話手段４に出力する。

一方で、入力音声信号に識別情報が重畳されている場合には、自己のまたは他の機器の音声対話手段４から出力された応答音声が入力音声に含まれている。よって、誤認識を防止するために、切替手段３２は、帯域制限手段３１から入力される入力音声信号をミュートして、音声対話手段４に出力する。

例示的には、切替手段３２は乗算器とすることができる。例示的には、識別情報の判別結果を上記した仕様のＢｏｏｌｅａｎ値として表す場合、切替手段３２は、帯域制限手段３１から入力される入力音声信号と、判別手段２３から入力される識別情報の判別結果を表す信号とを乗算することにより、後段の音声対話手段４に適切な出力を提供することができる。

任意の構成として、ダウンサンプル手段３３は、切替手段３２の出力側に接続され、切替手段３２から出力される音声信号を、所定のサンプリング周波数でダウンサンプルして、後段の音声対話手段４に出力する。例示的には、サンプリング周波数は１６ｋＨｚとすることができる。

音声対話手段４は、一実施形態に係る音声対話装置１０と同様の構成とすることができる。

以上、第１の実施形態に係る音声対話装置１０Ａによると、応答音声信号であることを示す識別情報に基づいて、音声対話手段４にて処理する音声信号を切り替えることができる。

入力音声信号に識別情報が含まれている場合には、入力音声信号がミュートされて入力音声に対する応答音声は生成されない。これにより、音声対話装置１０Ａは、応答音声の誤認識を防止することができる。

また、音声対話装置１０Ａは、自己発話による誤認識を防止することができるし、複数台が同じ環境内に存在している状況であっても、他の機器が発する応答音声を利用者による発話音声として誤って認識するという態様の誤認識も防止することができる。

［第２の実施形態］
第２の実施形態では、音声対話装置１０Ｂは、入力音声信号に識別情報が含まれている場合に、入力音声信号から応答音声信号を差し引いた音声信号を、音声対話手段４に出力する。

以下において説明する第２の実施形態では、可聴帯域外の低周波数側または高周波数側の周波数帯域のうち、高周波数側の周波数帯域に識別情報を埋め込む場合を一例として説明する。また、第２の実施形態に係る音声対話装置１０Ｂの構成のうち、一実施形態に係る音声対話装置１０と共通する構成は、特に言及しない限り、一実施形態に係る音声対話装置１０と同様であるので、重複する説明は省略する。

図４は、本発明の第２の実施形態に係る音声対話装置１０Ｂの構成を説明するためのブロック図である。

第２の実施形態に係る音声対話装置１０Ｂは、識別情報埋込手段１Ｂと、識別情報判別手段２と、応答音声除外手段３Ｂと、音声対話手段４とを備える。

識別情報埋込手段１Ｂは、帯域制限手段１５と、変調手段１６と、重畳手段１７とを備える。任意の構成として、識別情報埋込手段１Ｂは、アップサンプル手段１４をさらに備えることができる。

アップサンプル手段１４は、音声対話手段４から出力される応答音声信号を、所定のサンプリング周波数でアップサンプルして、後段の帯域制限手段１５および重畳手段１７に出力する。例示的には、サンプリング周波数は４８ｋＨｚまたは４４．１ｋＨｚとすることができる。好ましくは、アップサンプルする際のサンプリング周波数は、４０ｋＨｚ以上のサンプリング周波数である。これは、少なくとも２０ｋＨｚの周波数成分が含まれるようにするためである。

帯域制限手段１５は、応答音声信号の周波数帯域を制限する。これにより、応答音声信号の周波数帯域は、可聴帯域の主要な周波数帯域に制限される。好ましくは、帯域制限手段１５は、３ｋＨｚ以下の周波数帯域に制限する。例示的には、帯域制限手段１５は、２ｋＨｚ以下の周波数帯域に制限する。例示的には、帯域制限手段１５は、低域通過フィルタまたは帯域阻止フィルタとすることができる。

変調手段１６は、帯域制限手段１５により帯域が制限された応答音声信号にキャリア信号を乗算することにより、変調信号を生成する。好ましくは、キャリア信号のキャリア周波数は、１６ｋＨｚ〜２０ｋＨｚの範囲の周波数とすることができる。例示的には、キャリア信号は１８ｋＨｚの正弦波である。例示的には、変調手段１６は、キャリア信号を発振する発振器（図示せず）と、乗算器とを用いて構成することができる。

好ましくは、変調信号の周波数帯域は可聴帯域外の周波数である。変調信号の周波数帯域は、キャリア信号のキャリア周波数と、帯域が制限された応答音声信号の周波数帯域とに基づいて定められる。例示的には、キャリア周波数が１８ｋＨｚであり、応答音声信号の周波数帯域が２ｋＨｚ以下である場合には、変調信号の周波数帯域は、１６ｋＨｚ〜２０ｋＨｚ（１８±２ｋＨｚ）となる。可聴帯域は、好ましくは２０Ｈｚ〜１５ｋＨｚの周波数帯域であるので、例示するこの変調信号の周波数帯域は、可聴帯域外の周波数となっている。

重畳手段１７は、応答音声信号に、変調手段１６から出力される変調信号を重畳する。これにより、応答音声信号に、識別情報として変調信号が埋め込まれる。変調信号が埋め込まれる周波数帯域は、応答音声信号の、キャリア周波数を含む周波数帯域である。例示的には、重畳手段１７は乗算器とすることができる。

例示的には、キャリア周波数が１８ｋＨｚであり、応答音声信号の周波数帯域が２ｋＨｚ以下であるので、応答音声信号の１６ｋＨｚ〜２０ｋＨｚ（１８±２ｋＨｚ）の周波数帯域に、変調信号が埋め込まれる。

その後、可聴帯域外の周波数を有する変調信号が重畳された応答音声信号は、重畳手段１７からスピーカ５に出力され、スピーカ５が応答音声信号に基づいて応答音声を出力する。

識別情報判別手段２は、第１の実施形態に係る識別情報判別手段２と同様の構成とすることができる。

応答音声除外手段３Ｂは、帯域制限手段３４と、復調手段３５と、応答音声推定手段３７と、応答音声差引手段３８と、切替手段３９とを備える。任意の構成として、応答音声除外手段３Ｂは、ダウンサンプル手段３６（３６Ａ，３６Ｂ）をさらに備えることができる。

帯域制限手段３４は、マイクロフォン６から入力される入力音声信号の周波数帯域を制限する。これにより、入力音声信号の周波数帯域は、可聴帯域の主要な周波数帯域に制限される。好ましくは、帯域制限手段３４は、３ｋＨｚ以下の周波数帯域に制限する。例示的には、帯域制限手段３４は、２ｋＨｚ以下の周波数帯域に制限する。例示的には、帯域制限手段３４は、低域通過フィルタまたは帯域阻止フィルタとすることができる。

復調手段３５は、マイクロフォン６から入力される入力音声信号にキャリア信号を乗算することにより、復調信号を生成する。好ましくは、キャリア信号のキャリア周波数は、１６ｋＨｚ〜２０ｋＨｚの範囲の周波数とすることができる。例示的には、キャリア信号は１８ｋＨｚの正弦波である。例示的には、復調手段３５は、キャリア信号を発振する発振器（図示せず）と、乗算器と、検波器（図示せず）とを用いて構成することができる。検波器には、包絡線検波を行う検波器を用いることができる。

ダウンサンプル手段３６Ａは、帯域制限手段３４の出力側に接続される。ダウンサンプル手段３６Ａは、帯域制限手段３４から出力される、帯域が制限された入力音声信号を、所定のサンプリング周波数でダウンサンプルして、後段の応答音声差引手段３８および切替手段３９に出力する。例示的には、サンプリング周波数は１６ｋＨｚとすることができる。

ダウンサンプル手段３６Ｂは、復調手段３５の出力側に接続される。ダウンサンプル手段３６Ｂは、復調手段３５から出力される復調信号を、所定のサンプリング周波数でダウンサンプルして、後段の応答音声推定手段３７に出力する。例示的には、サンプリング周波数は１６ｋＨｚとすることができる。

応答音声推定手段３７は、復調信号から応答音声信号を推定する。自己のまたは他の機器の識別情報埋込手段１Ｂにおいて、変調信号は、可聴帯域の主要な周波数帯域に制限された応答音声信号に基づいて生成されている。よって、マイクロフォン６から入力される入力音声信号が、自己のまたは他の機器の識別情報埋込手段１Ｂから出力された応答音声信号を含んでいる場合は、応答音声推定手段３７が処理対象とする復調信号も、周波数帯域が可聴帯域の主要な周波数帯域に制限されている。応答音声推定手段３７は、この周波数帯域が制限された狭帯域の復調信号から、入力音声信号に含まれていると期待される応答音声信号の全体を推定する。

例示的には、復調信号は、２ｋＨｚ以下の周波数帯域に制限されている。応答音声推定手段３７は、この０〜２ｋＨｚの周波数帯域を有する復調信号のスペクトルから、例えば０〜８ｋＨｚの周波数帯域を有するスペクトルを推定する。

狭帯域のスペクトルから広帯域のスペクトルを推定する方法には公知の種々の方法があり、応答音声推定手段３７には、これら種々の方法を適宜採用することができる。例えば、狭帯域スペクトルから広帯域スペクトルを推定する方法として、電話回線にて使用する０．３〜３．４ｋＨｚの音声周波数帯域に関する通話品質向上技術を適用することができる。

識別情報埋込手段１Ｂにおいて、音声対話手段４から出力される応答音声信号は、帯域制限手段１５により、可聴帯域の主要な周波数帯域（例示的には、２ｋＨｚ以下の周波数帯域）に制限されている。よって、マイクロフォン６から入力される入力音声信号が、自己のまたは他の機器の識別情報埋込手段１Ｂから出力された応答音声信号を含んでいる場合は、狭帯域のスペクトルから広帯域のスペクトルを推定する方法により、自己のまたは他の機器の音声対話手段４から出力されたと推定される、応答音声信号の全体を推定することが可能となる。

応答音声差引手段３８は、応答音声推定手段３７により推定された応答音声信号を、入力音声信号から差し引く。これにより、自己のまたは他の機器の音声対話手段４から出力されたと推定される応答音声信号を、入力音声信号から差し引くことができる。例示的には、応答音声差引手段３８は減算器とすることができる。

推定された応答音声信号を入力音声信号から差し引いた音声信号には、利用者の発話音声に関する信号が主に含まれている。差し引いた音声信号に含まれている、利用者の発話音声以外の成分としては、例えば周囲の環境音に関する音声信号や、ノイズに関する音声信号が含まれている。

切替手段３９は、判別手段２３から入力される識別情報の判別結果に基づいて、応答音声差引手段３８が出力する、推定された応答音声信号を入力音声信号から差し引いた音声信号と、入力音声信号とを切り替えて出力する。

入力音声信号に識別情報が重畳されていない場合には、利用者の発話音声が入力音声に主に含まれているので、切替手段３９は、マイクロフォン６から入力される入力音声信号を、音声対話手段４に出力する。

一方で、入力音声信号に識別情報が重畳されている場合には、自己のまたは他の機器の音声対話手段４から出力された応答音声が入力音声に含まれている。よって、誤認識を防止するために、切替手段３９は、推定された応答音声信号を入力音声信号から差し引いた音声信号を、音声対話手段４に出力する。この際に切替手段３９が音声対話手段４に出力する音声信号には、利用者の発話音声に関する音声信号が主に含まれている。

以上、第２の実施形態に係る音声対話装置１０Ｂによると、応答音声信号であることを示す識別情報に基づいて、音声対話手段４にて処理する音声信号を切り替えることができる。

入力音声信号に識別情報が含まれている場合には、推定された応答音声信号を入力音声信号から差し引いた音声信号を、音声対話手段４に出力する。これにより、音声対話手段４には、利用者の発話音声に関する音声信号を主に含む音声信号が入力される。これにより、音声対話装置１０Ｂは、応答音声の誤認識を防止することができる。

また、音声対話装置１０Ｂは、自己発話による誤認識を防止することができるし、複数台が同じ環境内に存在している状況であっても、他の機器が発する応答音声を利用者による発話音声として誤って認識するという態様の誤認識も防止することができる。

そのうえ、音声対話装置１０Ｂは、バージ・イン（barge in）と呼ばれる、音声対話装置１０Ｂの応答と利用者の発話とが重なった場合であっても、応答音声の誤認識を防止することができる。

音声対話装置１０Ｂは、入力音声信号に含まれていると期待される応答音声信号の全体を推定し、推定した応答音声信号を入力音声信号から差し引いて、利用者の発話音声に関する音声信号を主に含む音声信号を音声対話手段４に入力する。これにより、音声対話装置１０Ｂは、バージ・インの状況であっても、利用者の発話音声に関する音声信号を主に含む音声信号を音声対話手段４に入力することができ、利用者の発話音声に対して適切な応答音声を返答することができる。

［第３の実施形態］
第１および第２の実施形態では、音声対話装置１０（１０Ａ，１０Ｂ）が備える各手段は、各手段が備える各機能毎に作製された電子回路によりハードウェアとして実現されている。第３の実施形態では、音声対話装置１０（１０Ａ，１０Ｂ）が備える各手段の少なくとも一部の機能を、ソフトウェアとして実現する。

図５は、音声対話装置１０の各手段をソフトウェアとして実現する場合の、音声対話装置１０のハードウェア構成を示すブロック図である。

図５に示すように、音声対話システム１００は、音声対話装置１０と、スピーカ５と、マイクロフォン６とを備える。任意の構成として、音声対話システム１００は、入力部９６と、出力部９７とを備えることができる。例示的には、音声対話システム１００はスマートフォンで構成することができる。例示的には、音声対話装置１０は汎用コンピュータで構成することもできる。任意の機能として、音声対話装置１０は、ネットワーク９９を介して外部サーバ（図示せず）と接続することもできる。

音声対話装置１０は、データ処理を行うＣＰＵ９１と、データ処理の作業領域に使用するメモリ９２と、処理データを記録する記録部９３と、各部の間でデータを伝送するバス９４と、外部機器とのデータの入出力を行うインタフェース部９５（以下、Ｉ／Ｆ部と記す）とを備えている。

入力部９６および出力部９７は、音声対話装置１０に接続されている。例示的には、入力部９６はキーボードまたはマウス等の入力装置であり、出力部９７は液晶ディスプレイ等の表示装置である。

音声対話装置１０は、第１および第２の実施形態において図１〜図４を用いて説明した音声対話装置１０の各手段が行う処理を行うためのプログラムを、例えば実行形式（例えばプログラミング言語からコンパイラにより変換されて生成される）で記録部９３またはメモリ９２に予め記録している。音声対話装置１０は、記録部９３またはメモリ９２に記録したプログラムを使用して処理を行う。または、プログラムは、例えばＤＶＤ−ＲＯＭやＵＳＢメモリ等の、コンピュータ読み取り可能であって非一時的な有形の記録媒体９８から記録部９３またはメモリ９２にインストールされてもよいし、別所に配置された外部サーバ（図示せず）からネットワーク９９を介して記録部９３またはメモリ９２にインストールされてもよい。

第１および第２の実施形態において音声対話装置１０の各手段によって行われていた処理は、本実施形態では、記録部９３またはメモリ９２に格納されたプログラムに基づいて、ＣＰＵ９１が行う。ＣＰＵ９１はメモリ９２を作業領域として必要なデータ（処理途中の中間データ等）を一時記憶し、記録部９３に演算結果等の長期保存するデータを適宜記録する。

なお、第１および実施形態において図１〜図４を用いて説明した音声対話装置１０では、各手段は電子回路によりハードウェアとして実現されているが、本実施形態では、音声対話装置１０が備える各手段の少なくとも一部の機能は、ＣＰＵ９１によりソフトウェア的に実現されている。

［その他の形態］
以上、本発明を特定の実施形態によって説明したが、本発明は上記した実施形態に限定されるものではない。

上記実施形態では、可聴帯域外の低周波数側または高周波数側の周波数帯域のうち、高周波数側の周波数帯域に識別情報を埋め込む場合を一例として説明しているが、識別情報を埋め込む周波数帯域は、可聴帯域外の低周波数側であってもよい。

上記第１の実施形態では、ダウンサンプル手段３３は切替手段３２の出力側に接続されているが、ダウンサンプル手段３３は、帯域制限手段３１の出力側に接続されていてもよい。同様に、上記第２の実施形態では、ダウンサンプル手段３６Ａは帯域制限手段３４の出力側に接続され、ダウンサンプル手段３６Ｂは復調手段３５の出力側に接続されているが、これら２台のダウンサンプル手段３６（３６Ａ，３６Ｂ）に替えて、１台のダウンサンプル手段３６を切替手段３９の出力側に接続してもよい。

上記実施形態では、音声対話装置１０は音声対話手段４を備えているが、音声対話手段４は音声対話装置１０内に備えられる必要はない。例えば、外部サーバ（図示せず）が音声対話手段４を備えており、音声対話装置１０がネットワーク９９を介して外部サーバの音声対話手段４と接続されていてもよい。すなわち、音声対話手段４はクラウド化されていてもよい。また、クラウド化にあたり、音声対話手段４は、音声対話手段４が備える構成の全てがクラウド化される必要はなく、全部または一部がクラウド化されてもよい。

上記実施形態では、音声対話装置１０は一体の装置として実現されているが、音声対話装置１０は一体の装置である必要はない。音声対話装置１０の各手段が別所に配置され、これらがネットワークで接続されていてもよい。音声対話装置１０の各手段をソフトウェアとして実現する場合も同様に、ＣＰＵ９１、メモリ９２、記録部９３等が別所に配置され、これらがネットワークで接続されていてもよい。

また、上記した音声対話装置１０の各手段をソフトウェアとして実現する場合において、音声対話装置１０の各手段が行う処理は、単一のＣＰＵ９１で実行されているが、これら各手段が行う処理は、単一のＣＰＵ９１で実行される必要は必ずしもなく、複数のＣＰＵで分散して処理されてもよい。また、ＣＰＵ９１に代えて、ＦＰＧＡ（Field Programmable Gate Array）が処理を行ってもよいし、例えばＧＰＵ（Graphics Processing Unit）をアクセラレータとして用いて、ＣＰＵ９１が行う並列演算処理を補助してもよい。すなわちＣＰＵ９１が行う処理とは、ＣＰＵまたはＦＰＧＡが、ＧＰＵ等のアクセラレータを用いて行う処理も含むことを意味する。

以下に、本発明の実施例を示し、本発明の特徴をより明確にする。

図６に、識別情報として変調信号を応答音声信号に埋め込んだ場合の音声信号のスペクトルの一例を示す。

図６（ａ）は、音声対話エンジンが出力する応答音声信号を４８ｋＨｚにアップアンプリングした信号のスペクトルである。図６（ｂ）は、図６（ａ）に示す信号に情報埋込を行った信号のスペクトルである。

情報埋込は次の手順で行った。まず、２ｋＨｚのローパスフィルタにより、図６（ａ）に示す信号を２ｋＨ以下の周波数帯域に制限することにより、２ｋＨｚ以下に帯域制限された応答音声信号を得た。次に、この２ｋＨｚ以下に帯域制限された応答音声信号を、１８ｋＨｚのキャリア周波数で変調することにより、変調信号を得た。最後に、この変調信号を図６（ａ）に示す信号に重畳することにより情報埋込を行い、図６（ｂ）に示す信号のスペクトルを得た。

図６（ｂ）を参照すると、キャリア周波数に対応する１８ｋＨｚの周辺に、音響レベル（sound level）が高い周波数成分が存在することが確認される。

図６（ｂ）に示されているように、１８ｋＨｚの周辺の周波数成分は、ヒトの可聴帯域である２０Ｈｚ〜１５ｋＨｚの周波数成分と分離されている。よって、１８ｋＨｚの周辺の周波数成分は、音声対話エンジンが出力する応答音声信号か否かを表す識別情報として、利用可能であることが確認された。

また、情報埋込時の変調処理により、１８ｋＨｚの周辺の周波数成分は、音声対話エンジンから出力される応答音声信号に対応する周波数成分である。よって、１８ｋＨｚの周辺の周波数成分を、変調処理時と同じキャリア周波数で復調することにより、音声対話エンジンから出力される応答音声信号を復元することができる。復元された応答音声信号は、２ｋＨｚ以下に帯域制限された応答音声信号に対応する周波数成分を有している。よって、狭帯域スペクトルから広帯域スペクトルを推定する公知の方法に基づいて、２ｋＨｚのローパスフィルタを適用する前の、音声対話エンジンが出力する応答音声信号を推定することが可能であることが確認された。

１００音声対話システム
１（１Ａ，１Ｂ）識別情報埋込手段
２識別情報判別手段
３（３Ａ，３Ｂ）応答音声除外手段
４音声対話手段
５スピーカ
６マイクロフォン
１０（１０Ａ，１０Ｂ）音声対話装置
１１発振手段
１２重畳手段
１４アップサンプル手段
１５帯域制限手段
１６変調手段
１７重畳手段
２１帯域制限手段
２２（２２Ａ，２２Ｂ）電力計算手段
２３判別手段
３１帯域制限手段
３２切替手段
３３ダウンサンプル手段
３４帯域制限手段
３５復調手段
３６（３６Ａ，３６Ｂ）ダウンサンプル手段
３７応答音声推定手段
３８応答音声差引手段
３９切替手段
８１（８１Ａ，８１Ｂ）従来の音声対話システム
８２スピーカ
８３マイクロフォン
８４応答音声
８５発話音声
８６誤認識による誤った応答音声
８９利用者

Claims

利用者の発話音声に反応して音声対話手段により音声合成された応答音声信号に基づいて、スピーカから応答音声を出力する音声対話装置であって、
応答音声信号の可聴帯域外の周波数帯域に、前記応答音声信号であることを示す識別情報を埋め込む識別情報埋込手段と、
マイクロフォンから入力される入力音声信号の可聴帯域外の周波数帯域に、前記識別情報が含まれているか否かを判別する識別情報判別手段と、
前記識別情報が含まれていると判別された場合に、前記入力音声信号から少なくとも前記応答音声信号を除外した音声信号を、音声対話手段に出力する応答音声除外手段と、
を備える、音声対話装置。
前記応答音声除外手段は、前記入力音声信号に前記識別情報が含まれていない場合に、前記入力音声信号を前記音声対話手段に出力する、請求項１に記載の音声対話装置。
前記識別情報判別手段は、
前記入力音声信号の周波数帯域を制限する第１の帯域制限手段と、
前記入力音声信号の電力と帯域が制限された前記入力音声信号の電力とを計算する第１の電力計算手段と、
前記入力音声信号の電力と帯域が制限された前記入力音声信号の電力との比率に基づいて、前記入力音声信号に前記識別情報が含まれているか否かを判別する判別手段と、
を備える、請求項１または２に記載の音声対話装置。
前記応答音声除外手段は、前記入力音声信号に前記識別情報が含まれている場合に、前記入力音声信号をミュートする、請求項１から３のいずれか一項に記載の音声対話装置。
前記応答音声除外手段は、
前記入力音声信号の周波数帯域を制限して、前記入力音声信号を出力する第２の帯域制限手段と、
前記識別情報の判別結果に基づいて、ミュートされた前記入力音声信号と前記入力音声信号とを切り替えて出力する第１の切替手段と、
を備える、請求項４に記載の音声対話装置。
前記識別情報埋込手段は、
前記可聴帯域外の周波数を有する信号を前記応答音声信号に重畳する第１の重畳手段
を備える、請求項４または５に記載の音声対話装置。
前記応答音声除外手段は、前記入力音声信号に前記識別情報が含まれている場合に、前記入力音声信号から前記応答音声信号を差し引いた音声信号を、前記音声対話手段に出力する、請求項１から３のいずれか一項に記載の音声対話装置。
前記応答音声除外手段は、
前記入力音声信号の周波数帯域を制限して、前記入力音声信号を出力する第３の帯域制限手段と、
前記入力音声信号にキャリア信号を乗算して、復調信号を生成する復調手段と、
前記復調信号から応答音声信号を推定する応答音声推定手段と、
推定された前記応答音声信号を前記入力音声信号から差し引く応答音声差引手段と、
前記識別情報の判別結果に基づいて、前記応答音声差引手段の出力と前記入力音声信号とを切り替えて出力する第２の切替手段と、
を備える、請求項７に記載の音声対話装置。
前記識別情報埋込手段は、
前記応答音声信号の周波数帯域を制限する第４の帯域制限手段と、
帯域が制限された前記応答音声信号にキャリア信号を乗算することにより、変調信号を生成する変調手段と、
前記応答音声信号に前記変調信号を重畳することにより、前記応答音声信号の、前記キャリア信号のキャリア周波数を含む周波数帯域に、前記識別情報として前記変調信号を埋め込む第２の重畳手段と、
を備え、
前記変調信号の周波数帯域の上限および下限の周波数が、前記可聴帯域外の周波数である、請求項７または８に記載の音声対話装置。
前記可聴帯域が２０Ｈｚ〜１５ｋＨｚの範囲の周波数帯域である、請求項１から９のいずれか一項に記載の音声対話装置。
請求項１から１０のいずれかに記載の音声対話装置の各手段としてコンピュータを機能させるためのプログラム。
請求項１から１０のいずれかに記載の音声対話装置と、
入力音声に基づいて、前記音声対話装置に前記入力音声信号を出力するマイクロフォンと、
前記音声対話装置から入力される前記応答音声信号に基づいて、前記応答音声を出力するスピーカと、
を備える、音声対話システム。