JP2023178742A

JP2023178742A - 音声認識装置、音声認識方法およびプログラム

Info

Publication number: JP2023178742A
Application number: JP2022091606A
Authority: JP
Inventors: 光憲田中; Mitsunori Tanaka; 涼小林; Ryo Kobayashi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2023-12-18

Abstract

【課題】外部機器から出力されたデータを円滑に再生する。【解決手段】音声認識装置（１）は、送信部（１１）と、ユーザの音声に対して音声認識処理を行う音声認識部（１４）と、を備え、送信部（１１）は、音声認識部（１４）により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器（４）に対し、蓄積コンテンツの再生を停止させるための信号を送信する。【選択図】図１

Description

本発明は、音声認識装置、音声認識方法およびプログラムに関する。

コンテンツなどのデータを再生する装置において、ユーザからの音声による命令に応じてデータの再生を停止および再開する技術が開示されている。例えば、特許文献１には、ユーザの音声による命令を認識し、認識した命令内容に応じて、テキストデータまたはＨＴＭＬデータの読み上げ再生を一時停止および再生再開するデータ音声再生装置が記載されている。

特開２０１９－１９４８３４号公報

コンテンツを再生する外部機器（例えば、ハードディスクレコーダー、Blu-ray（登録商標）プレーヤなど）から出力されたデータを再生する装置として、上述のデータ音声再生装置を採用した場合、上述のデータ音声再生装置では円滑に外部機器から出力されたデータを再生できないという問題が発生する。

具体的には、上述のデータ音声再生装置は、ユーザの音声による命令に応じてデータの再生を一時停止した場合、一時停止している期間、外部機器から出力されたデータを自装置内に保存し続ける必要がある。当該構成では、一時停止している期間が長くなると、自装置内の記憶容量が足りなくなる可能性がある。そして、記憶容量が足りなくなると、一時停止した箇所から再生を再開できない、記憶できなかったデータが欠落するなど、円滑に外部機器から出力されたデータを再生できないという問題が発生する。

本発明の一態様は、上記課題に鑑みて成されたものであり、その目的は、外部機器から出力されたデータを円滑に再生する技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様に係る音声認識装置は、送信部と、ユーザの音声に対して音声認識処理を行う音声認識部と、を備えている音声認識装置であって、前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。

上記の課題を解決するために、本発明の一態様に係る音声認識方法は、送信ステップと、ユーザの音声に対して音声認識処理を行う音声認識ステップと、を含む音声認識方法であって、前記送信ステップにおいて、前記音声認識ステップにおける音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信するステップを含む。

上記の課題を解決するために、本発明の一態様に係るプログラムは、音声認識装置としてコンピュータを機能させるためのプログラムであって、前記プログラムは、コンピュータを、送信部と、ユーザの音声に対して音声認識処理を行う音声認識部と、として機能させ、前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。

本発明の一態様によれば、外部機器から出力されたデータを円滑に再生することができる。

本発明の実施形態１に係る音声認識装置を備える音声出力システムの構成を示すブロック図である。本発明の実施形態１に係る音声認識装置による音声認識時の様子を示す模式図である。本発明の実施形態１に係る音声認識装置が音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。本発明の実施形態１に係る音声認識装置が実行する処理の流れを示すフローチャートである。本発明の実施形態１に係る音声出力システムにおけるデータの流れを示す図である。本発明の実施形態１に係る音声出力システムにおけるデータの流れを示す図である。本発明の実施形態１に係る音声出力システムにおけるデータの流れを示す図である。本発明の実施形態１に係る音声出力システムにおけるデータの流れを示す図である。本発明の実施形態２に係る音声認識装置を備える音声出力システムの構成を示すブロック図である。本発明の実施形態２に係る音声認識装置による音声認識開始時の様子を示す模式図である。本発明の実施形態２に係る音声認識装置が音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。本発明の実施形態２に係る音声認識装置が実行する処理の流れを示すフローチャートである。

〔実施形態１〕
以下、本発明の一実施形態について、図面を参照しながら詳細に説明する。

（音声出力システム１００）
図１は、本実施形態に係る音声認識装置１を備える音声出力システム１００の構成を示すブロック図である。図１に示すように、音声出力システム１００は、音声認識装置１と、スピーカー２と、マイク３と、外部機器４とを備えている。本実施形態において、音声認識装置１の一例として、テレビジョン受像機が挙げられる。また、外部機器４の一例として、ハードディスクレコーダーが挙げられる。

音声出力システム１００では、外部機器４は、蓄積コンテンツを再生することにより、蓄積コンテンツにおける音声を外部音声として出力する。音声認識装置１は、外部機器４から出力された外部音声を取得すると、外部音声をスピーカー２を介して出力する。以下では、音声認識装置１が外部音声をスピーカー２を介して出力する処理を、「外部音声を再生する」とも表現する。

また、音声出力システム１００では、音声認識装置１は、マイク３を介して取得したユーザの音声を認識し、認識結果に応じた処理を行う。音声認識装置１は、ユーザの音声の認識処理が行われることを契機として、外部音声の出力を停止する構成を備えている。

なお、スピーカー２およびマイク３は、音声認識装置１が備える構成であってもよい。

ここで、音声出力システム１００では、外部機器４から出力された外部音声を音声認識装置１が出力する構成に加えて、外部機器４から出力された外部画像を音声認識装置１が取得し、音声認識装置１は、取得した外部画像を表示する構成を備えていてもよい。換言すると、音声出力システム１００では、音声認識装置１は、外部機器４が再生した蓄積コンテンツにおける画像および音声を、それぞれ外部画像および外部音声として取得し、取得した外部画像および外部音声を出力する構成であってもよい。当該構成においても同様に、ユーザの音声の認識処理が行われることを契機として、外部画像の表示を停止してもよい。

（音声認識装置１）
音声認識装置１は、図１に示すように、装置制御部１０と、装置入出力部１５とを備えている。

装置入出力部１５は、装置制御部１０から供給されたデータを外部機器４に出力したり、外部機器４から出力されたデータを装置制御部１０に供給したりするインタフェースである。装置入出力部１５がデータを入出力するインタフェースの規格の一例として、ＨＤＭＩ（High-Definition Multimedia Interface、登録商標）が挙げられる。

装置制御部１０は、音声認識装置１が備える各構成要素を統括的に制御する。装置制御部１０は、送信部１１と、取得部１２（外部音声取得部）と、音声処理部１３と、音声認識部１４とを備えている。

送信部１１は、装置入出力部１５を介して、外部機器４に対して信号を送信する。送信部１１が送信する信号の一例として、音声認識部１４により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器４に対し、蓄積コンテンツの再生を停止させるための信号が挙げられる。

また、送信部１１が送信する信号の他の例として、音声認識部１４による音声認識処理が終了したことを契機として、外部機器４に対し、蓄積コンテンツの再生の停止状態を解除させるための信号が挙げられる。

また、送信部１１が送信する、蓄積コンテンツの再生を停止させるための信号および蓄積コンテンツの再生の停止状態を解除させるための信号の一例として、ＣＥＣ（Consumer Electronics Control）が挙げられる。

取得部１２は、装置入出力部１５を介して、外部機器４から出力された外部音声を取得する。取得部１２は、取得した外部音声を音声処理部１３に供給する。

音声処理部１３は、取得した音声を処理し、スピーカー２に出力する。音声処理部１３が取得する音声の一例として、外部音声およびユーザが発した音声を示すユーザ音声が挙げられる。

音声認識部１４は、マイク３を介してユーザ音声を取得する。また、音声認識部１４は、ユーザ音声に対して音声認識処理を行う。音声認識部１４は、音声認識処理によって認識した認識結果に応じた処理を実行する。

音声認識部１４がユーザ音声に対して行う音声認識処理は、既知の方法で行われる。音声認識部１４実行する音声認識処理の一例として、音声を入力として、当該音声のテキストデータを出力する音声認識モデルを用いる方法が挙げられる。

（外部機器４）
外部機器４は、図１に示すように、機器制御部４０と、機器入出力部４１と、記憶部４２とを備えている。

機器制御部４０は、外部機器４が備える各構成要素を統括的に制御する。

機器入出力部４１は、機器制御部４０から供給されたデータを音声認識装置１に出力したり、音声認識装置１から出力されたデータを機器制御部４０に供給したりするインタフェースである。機器入出力部４１がデータを入出力するインタフェースの規格の一例として、ＨＤＭＩが挙げられる。

記憶部４２は、データを記憶する記憶装置である。記憶部４２に格納されているデータの一例として、蓄積コンテンツが挙げられる。

（音声出力システム１００における処理の概要）
音声出力システム１００における処理の概要について、図２および図３を用いて説明する。図２は、音声認識装置１による音声認識開始時の様子を示す模式図である。また、図３は、音声認識装置１が音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。

図２の左側に示すように、音声認識装置１は、外部機器４が蓄積コンテンツを再生している期間、外部機器４から出力された外部音声を出力する。

次に、ユーザが発話した場合、音声認識装置１は、図２の右側に示すように、ユーザの音声を取得し、音声認識処理を実行する。ここで、音声認識装置１は、ユーザから所定の音声（例えば、音声認識処理の実行の開始を指示するホットワード）を取得した場合に、音声認識処理を実行する構成であってもよい。

また、音声認識装置１は、図２の右側に示すように、音声認識処理が行われることを契機として、外部機器４に対し、蓄積コンテンツの再生を停止させるための信号を出力する。

次に音声認識装置１は、ユーザ音声に対して音声認識処理を行う。そして、音声認識装置１は、図３の左側に示すように、認識結果に応じた処理を実行する。図３の左側では、認識結果が「〇〇の天気は？」の質問であるため、音声認識装置１は、当該質問に対する回答「〇〇の天気は～」を音声にて出力する。なお、音声認識装置１は、当該質問に対する回答を表示する構成であってもよい。

次に、音声認識装置１は、図３の右側に示すように、音声認識処理が終了したことを契機として、外部機器４に対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。外部機器４は、蓄積コンテンツの再生の停止状態を解除させるための信号を受信すると、蓄積コンテンツの再生を再開し、外部音声を音声認識装置１に出力する。音声認識装置１は、外部機器４から外部音声を取得し、取得した外部音声を出力する。

このように、音声認識処理とは、音声認識装置１が音声を認識し、認識結果に応じた処理を実行するまでを指している。音声認識装置１は、認識結果に応じた処理を実行した後、所定の期間（例えば、３秒、５秒）ユーザ音声を取得しなかった場合に、音声認識処理を終了する構成であってもよい。

このように、音声認識装置１は、音声認識処理中は外部機器４から出力されるデータを取得しないので、外部機器４から出力されるデータを蓄積する必要がない。したがって、音声認識装置１は、記憶容量が足りずに外部機器４から出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。

（音声認識装置１が実行する処理）
図４は、音声認識装置１が実行する処理の流れを示すフローチャートである。また、図５～図８はそれぞれ、音声出力システム１００におけるデータの流れを示す図である。音声認識装置１が実行する処理について、図５～図８を参照して説明する。

（ステップＳ１０）
ステップＳ１０において、音声認識装置１の音声処理部１３は、外部機器４から出力された外部音声を、スピーカー２を介して出力する。

ステップＳ１０におけるデータの流れについて、図５を参照して説明する。

外部機器４の機器制御部４０は、記憶部４２に格納されている蓄積コンテンツを再生する。そして、機器制御部４０は、機器入出力部４１を介して、蓄積コンテンツにおける音声を外部音声として音声認識装置１に出力する。

音声認識装置１の取得部１２は、装置入出力部１５を介して外部機器４から外部音声を取得する。取得部１２は、取得した外部音声を音声処理部１３に供給する。音声処理部１３は、取得した外部音声をスピーカー２に出力する。

（ステップＳ１１）
ステップＳ１１において、音声認識部１４は、マイク３を介して音声認識トリガーを検知したか否かを判定する。音声認識部１４が音声認識トリガーを検知したか否かを判定する一例として、ユーザからの音声を取得したか否か、ユーザから所定の音声を取得したか否か、が挙げられる。

ステップＳ１１における判定結果が「ＮＯ」の場合、すなわち音声認識部１４が音声認識トリガーを検知していない場合、音声認識装置１は再びステップＳ１１の処理を実行する。

（ステップＳ１２）
ステップＳ１１における判定結果が「ＹＥＳ」の場合、すなわち音声認識部１４が音声認識トリガーを検知した場合、ステップＳ１２において、取得部１２は、外部機器４から外部音声を取得しているか否かを判断する。

（ステップＳ１３）
ステップＳ１２における判定結果が「ＹＥＳ」の場合、すなわち取得部１２が外部機器４から外部音声を取得している場合、ステップＳ１３において、送信部１１は、外部機器４に対し、蓄積コンテンツの再生を停止させるための信号を送信する。

ステップＳ１１～ステップＳ１３におけるデータの流れについて、図６を参照して説明する。

音声認識部１４がマイクを介して音声認識トリガーを検知した場合、送信部１１は、装置入出力部１５を介して、外部機器４に対して蓄積コンテンツの再生を停止させるための信号を送信する。外部機器４の機器制御部４０は、機器入出力部４１を介して、蓄積コンテンツの再生を停止させるための信号を受信する。機器制御部４０は、蓄積コンテンツの再生を停止させるための信号を受信すると、記憶部４２に格納されている蓄積コンテンツの再生を停止する。換言すると、機器制御部４０は、蓄積コンテンツの再生を停止させるための信号を受信すると、外部音声の出力を停止する。

（ステップＳ１４）
ステップＳ１２における判定結果が「ＮＯ」の場合、すなわち取得部１２が外部機器４から外部音声を取得していない場合、およびステップＳ１３を実行した後、ステップＳ１４において音声認識部１４は、音声認識を終了したか否かを判定する。

ステップＳ１４における判定結果が「ＮＯ」の場合、すなわち音声認識部１４が音声認識を終了していない場合、音声認識装置１は再びステップＳ１３の処理を実行する。

音声認識部１４が音声認識を終了していない場合、換言すると、音声認識部１４が音声認識処理を実行し、認識結果に応じた処理を実行している場合、当該処理が実行されている期間におけるデータの流れについて、図７を参照して説明する。

音声認識装置１の音声認識部１４は、マイク３を介してユーザ音声を取得する。そして、装置制御部１０は、音声処理部１３を経由して、スピーカー２によりユーザ音声を出力する。

（ステップＳ１５）
ステップＳ１４における判定結果が「ＹＥＳ」の場合、すなわち音声認識部１４が音声認識を終了した場合、ステップＳ１５において、取得部１２は、外部機器４からの外部音声の取得を停止しているか否かを判定する。

ステップＳ１５における判定結果が「ＮＯ」の場合、すなわち取得部１２が外部機器４からの外部音声の取得を停止していない場合、音声認識装置１は図４に示す処理を終了する。

（ステップＳ１６）
ステップＳ１５における判定結果が「ＹＥＳ」の場合、すなわち取得部１２が外部機器４からの外部音声の取得を停止している場合、送信部１１は、外部機器４に対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。

ステップＳ１６におけるデータの流れについて、図８を参照して説明する。

取得部１２が外部機器４からの外部音声の取得を停止している場合、送信部１１は、外部機器４に対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。

そして、外部機器４の機器制御部４０は、記憶部４２に格納されている蓄積コンテンツを再生する。続いて、機器制御部４０は、機器入出力部４１を介して、蓄積コンテンツにおける音声を外部音声として音声認識装置１に出力する。

このように、本実施形態に係る音声出力システム１００によれば、音声認識装置１は、音声認識処理が行われることを契機として、外部機器４に対して、蓄積コンテンツの再生を停止させるための信号を送信する。そのため、本実施形態に係る音声出力システム１００によれば、外部機器４から出力されるデータを再生する音声認識装置１は、音声認識処理中は外部機器４から出力されるデータを取得しないので、外部機器４から出力されるデータを蓄積する必要がない。したがって、音声認識装置１は、記憶容量が足りずに外部機器４から出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。

また、本実施形態に係る音声出力システム１００によれば、音声認識装置１は、音声認識処理が終了したことを契機として、外部機器４に対して、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。したがって、音声認識装置１は、音声認識処理が終了した後、再び外部機器４から出力されるデータを取得するので、外部機器から出力されたデータを円滑に再生することができる。

また、音声認識装置１は、音声認識処理中は、外部機器４から出力されるデータを取得する必要がない。そのため、音声認識装置１は、音声認識処理と外部機器４から出力されるデータの取得処理とを並行して実行する必要がないので、音声認識の精度を低下させることを防ぐことができる。

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

図９は、本実施形態に係る音声認識装置１ａを備える音声出力システム１００ａの構成を示すブロック図である。図９に示すように、音声出力システム１００ａは、音声認識装置１ａと、スピーカー２と、マイク３と、外部機器４ａとを備えている。本実施形態において、外部機器４ａは、一例として、スマートフォン、音楽プレイヤーなどが挙げられる。

音声出力システム１００ａでは、音声認識装置１ａと外部機器４ａとが、無線通信によって接続されている。本実施形態では、音声認識装置１ａと外部機器４ａとがBluetooth（登録商標）によって接続されている構成について説明するが、それに限定されない。音声認識装置１ａと外部機器４ａとの間の無線通信の規格は、音声認識装置１ａが外部機器４ａに対して信号を送信することにより、蓄積コンテンツの再生を停止させる、および蓄積コンテンツの再生の停止状態を解除させることができる規格であればよい。その他の構成については、実施形態１において上述した音声出力システム１００と同じであるため、詳細な説明は省略する。

（音声認識装置１ａ）
音声認識装置１ａは、図９に示すように、装置制御部１０ａと、装置入出力部１５ａとを備えている。

装置入出力部１５ａは、装置制御部１０ａから供給されたデータを外部機器４ａに出力したり、外部機器４ａから出力されたデータを装置制御部１０ａに供給したりするインタフェースである。

装置制御部１０ａは、音声認識装置１ａが備える各構成要素を統括的に制御する。装置制御部１０ａは、送信部１１ａと、取得部１２ａ（外部音声取得部）と、音声処理部１３と、音声認識部１４とを備えている。

送信部１１ａは、装置入出力部１５ａを介して、外部機器４ａに対して信号を送信する。

送信部１１ａが送信する信号の一例として、音声認識部１４により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器４ａに対し、蓄積コンテンツの再生を停止させるための信号が挙げられる。

また、送信部１１ａが送信する信号の他の例として、音声認識部１４による音声認識処理が終了したことを契機として、外部機器４ａに対し、蓄積コンテンツの再生の停止状態を解除させるための信号が挙げられる。

また、送信部１１ａが送信する、蓄積コンテンツの再生を停止させるための信号および蓄積コンテンツの再生の停止状態を解除させるための信号の一例として、ＡＶＲＣＰ（Audio Video Remote Control Profle）を利用した信号が挙げられる。

取得部１２ａは、装置入出力部１５ａを介して、外部機器４ａから出力された外部音声を取得する。取得部１２ａは、取得した外部音声を音声処理部１３に供給する。

音声処理部１３および音声認識部１４については、上述した通りである。

（外部機器４ａ）
外部機器４ａは、図９に示すように、機器制御部４０ａと、機器入出力部４１ａと、記憶部４２とを備えている。

機器制御部４０ａは、外部機器４ａが備える各構成要素を統括的に制御する。

機器入出力部４１ａは、機器制御部４０ａから供給されたデータを音声認識装置１ａに出力したり、音声認識装置１ａから出力されたデータを機器制御部４０ａに供給したりするインタフェースである。

記憶部４２については、上述した通りである。

（音声出力システム１００ａにおける処理の概要）
音声出力システム１００ａにおける処理の概要について、図１０および図１１を用いて説明する。図１０は、音声認識装置１ａによる音声認識開始時の様子を示す模式図である。図１１は、音声認識装置１ａが音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。

上述した実施形態と同様、音声認識装置１ａは、図１０の左側に示すように、外部機器４ａが蓄積コンテンツを再生している期間、外部機器４ａから出力された外部音声を出力する。そして、音声認識装置１ａは、図１０の右側に示すように、ユーザの音声を取得し、音声認識処理が行われることを契機として、外部機器４ａに対し、蓄積コンテンツの再生を停止させるための信号を出力する。

また、上述した実施形態と同様、音声認識装置１ａは、図３の左側に示すように、認識結果に応じた処理を実行する。そして、音声認識装置１ａは、音声認識処理が終了したことを契機として、外部機器４ａに対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。外部機器４ａは、蓄積コンテンツの再生の停止状態を解除させるための信号を受信すると、蓄積コンテンツの再生を再開する。

このように、音声認識装置１ａは、外部機器４ａと無線通信によって接続されている場合であっても、音声認識処理中は外部機器４ａから出力されるデータを取得しないので、外部機器４ａから出力されるデータを蓄積する必要がない。したがって、音声認識装置１ａは、記憶容量が足りずに外部機器４ａから出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。

（音声認識装置１ａが実行する処理）
図１２は、音声認識装置１ａが実行する処理の流れを示すフローチャートである。音声認識装置１ａが実行する処理について、図１２を参照して説明する。

（ステップＳ２０）
ステップＳ２０において、音声認識装置１ａの音声処理部１３は、外部機器４ａから出力された外部音声を、スピーカー２を介して出力する。

（ステップＳ２１）
ステップＳ２１において、音声認識部１４は、マイク３を介して音声認識トリガーを検知したか否かを判定する。

ステップＳ２１における判定結果が「ＮＯ」の場合、すなわち音声認識部１４が音声認識トリガーを検知していない場合、音声認識装置１ａは再びステップＳ２１の処理を実行する。

（ステップＳ２２）
ステップＳ２１における判定結果が「ＹＥＳ」の場合、すなわち音声認識部１４が音声認識トリガーを検知した場合、ステップＳ２２において、取得部１２ａは、外部機器４ａからBluetooth経由で外部音声を取得しているか否かを判断する。

（ステップＳ２３）
ステップＳ２２における判定結果が「ＹＥＳ」の場合、すなわち取得部１２ａが外部機器４ａからBluetooth経由で外部音声を取得している場合、ステップＳ２３において、送信部１１ａは、外部機器４ａに対し、蓄積コンテンツの再生を停止させるための信号をBluetooth経由で送信する。

（ステップＳ２４）
ステップＳ２２における判定結果が「ＮＯ」の場合、すなわち取得部１２ａが外部機器４ａからBluetooth経由で外部音声を取得していない場合、およびステップＳ２３を実行した後、ステップＳ２４において音声認識部１４は、音声認識を終了したか否かを判定する。

ステップＳ２４における判定結果が「ＮＯ」の場合、すなわち音声認識部１４が音声認識を終了していない場合、音声認識装置１ａは再びステップＳ２３の処理を実行する。

（ステップＳ２５）
ステップＳ２４における判定結果が「ＹＥＳ」の場合、すなわち音声認識部１４が音声認識を終了した場合、ステップＳ２５において、取得部１２ａは、外部機器４ａからの外部音声の取得を停止しているか否かを判定する。

ステップＳ１５における判定結果が「ＮＯ」の場合、すなわち取得部１２ａが外部機器４ａからの外部音声の取得を停止していない場合、音声認識装置１ａは図４に示す処理を終了する。

（ステップＳ２６）
ステップＳ１５における判定結果が「ＹＥＳ」の場合、すなわち取得部１２ａが外部機器４ａからの外部音声の取得を停止している場合、送信部１１ａは、外部機器４ａに対し、蓄積コンテンツの再生の停止状態を解除させるための信号をBluetooth経由で送信する。

このように、本実施形態に係る音声出力システム１００ａによれば、音声認識装置１ａと外部機器４ａとが無線通信（Bluetoothを介した通信）をしている構成であっても、音声認識処理が行われることを契機として、外部機器４ａに対して、蓄積コンテンツの再生を停止させるための信号を送信する。そのため、本実施形態に係る音声出力システム１００ａによれば、外部機器４ａから出力されるデータを再生する音声認識装置１ａは、音声認識処理中は外部機器４ａから出力されるデータを取得しないので、外部機器４ａから出力されるデータを蓄積する必要がない。

また、本実施形態に係る音声出力システム１００によれば、音声認識装置１ａと外部機器４ａとが無線通信（Bluetoothを介した通信）をしている構成であっても、音声認識装置１ａは、音声認識処理が終了したことを契機として、外部機器４ａに対して、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。したがって、音声認識装置１ａは、音声認識処理が終了した後、再び外部機器４ａから出力されるデータを取得するので、円滑に外部機器から出力されたデータを再生することができる。
したがって、音声認識装置１ａは、外部機器から出力されたデータを円滑に再生することができる。また、音声認識装置１ａは、音声認識処理と外部機器４ａから出力されるデータの取得処理とを並行して実行する必要がないので、音声認識の精度を低下させることを防ぐことができる。

〔ソフトウェアによる実現例〕
音声認識装置１、１ａ（以下、「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に装置制御部１０、１０ａに含まれる各部）としてコンピュータを機能させるためのプログラムにより実現することができる。

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

〔まとめ〕
本発明の態様１に係る音声認識装置（１、１ａ）は、送信部（１１）と、ユーザの音声に対して音声認識処理を行う音声認識部（１４）と、を備えている音声認識装置（１、１ａ）であって、前記送信部（１１）は、前記音声認識部（１４）により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器（４、４ａ）に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。

上記の構成によれば、音声認識装置は、音声認識処理が行われることを契機として、外部機器に対して、蓄積コンテンツの再生を停止させるための信号を送信する。そのため、外部機器から出力されるデータを再生する音声認識装置は、音声認識処理中は外部機器から出力されるデータを取得しないので、外部機器から出力されるデータを蓄積する必要がない。したがって、音声認識装置は、記憶容量が足りずに外部機器から出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。

本発明の態様２に係る音声認識装置（１、１ａ）は、上記態様１において、前記送信部（１１）は、前記音声認識部（１４）による音声認識処理が終了したことを契機として、前記外部機器（４、４ａ）に対し、前記蓄積コンテンツの再生の停止状態を解除させるための信号を送信してもよい。

上記の構成によれば、音声認識装置は、音声認識処理が終了したことを契機として、外部機器に対して、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。したがって、音声認識装置は、音声認識処理が終了した後、再び外部機器から出力されるデータを取得するので、円滑に外部機器から出力されたデータを再生することができる。

本発明の態様３に係る音声認識装置（１、１ａ）は、上記態様１または２において、前記ユーザの音声を取得するマイク（３）と、前記外部機器が出力する外部音声を取得する外部音声取得部（取得部１２、１２ａ）と、前記外部音声取得部（取得部１２、１２ａ）が取得した外部音声を出力するスピーカー（２）と、をさらに備えてもよい。

上記の構成によれば、音声認識装置は、自装置においてユーザの音声を取得することができる。また、音声認識装置は、外部機器が出力する外部音声を出力する音声出力装置として機能することができる。

本発明の態様４に係る音声認識方法は、送信ステップと、ユーザの音声に対して音声認識処理を行う音声認識ステップと、を含む音声認識方法であって、前記送信ステップにおいて、前記音声認識ステップにおいて音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器（４、４ａ）に対し、前記蓄積コンテンツの再生を停止させるための信号を送信するステップを含む。

上記の構成によれば、態様１と同様な効果を奏する。

本発明の態様５に係るプログラムは、音声認識装置（１、１ａ）としてコンピュータを機能させるためのプログラムであって、前記プログラムは、コンピュータを、送信部（１１）と、ユーザの音声に対して音声認識処理（１４）を行う音声認識部と、として機能させ、前記送信部（１１）は、前記音声認識部（１４）により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器（４、４ａ）に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。

上記の構成によれば、態様１と同様な効果を奏する。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１００、１００ａ音声出力システム
１、１ａ音声認識装置
１０、１０ａ装置制御部
１１、１１ａ送信部
１２、１２ａ取得部（外部音声取得部）
１３音声処理部
１４音声認識部
４、４ａ外部機器
４０、４０ａ機器制御部
４１、４１ａ機器入出力部
４２記憶部

Claims

送信部と、
ユーザの音声に対して音声認識処理を行う音声認識部と、を備えている音声認識装置であって、
前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する、
ことを特徴とする音声認識装置。
前記送信部は、前記音声認識部による音声認識処理が終了したことを契機として、前記外部機器に対し、前記蓄積コンテンツの再生の停止状態を解除させるための信号を送信する、
ことを特徴とする請求項１に記載の音声認識装置。
前記ユーザの音声を取得するマイクと、
前記外部機器が出力する外部音声を取得する外部音声取得部と、
前記外部音声取得部が取得した外部音声を出力するスピーカーと、をさらに備えている、
ことを特徴とする請求項１または２に記載の音声認識装置。
送信ステップと、
ユーザの音声に対して音声認識処理を行う音声認識ステップと、を含む音声認識方法であって、
前記送信ステップにおいて、前記音声認識ステップにおいて音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信するステップを含む、
ことを特徴とする音声認識方法。
音声認識装置としてコンピュータを機能させるためのプログラムであって、
前記プログラムは、前記コンピュータを、
送信部と、
ユーザの音声に対して音声認識処理を行う音声認識部と、として機能させ、
前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する、
プログラム。