JP2023178742A - 音声認識装置、音声認識方法およびプログラム - Google Patents

音声認識装置、音声認識方法およびプログラム Download PDF

Info

Publication number
JP2023178742A
JP2023178742A JP2022091606A JP2022091606A JP2023178742A JP 2023178742 A JP2023178742 A JP 2023178742A JP 2022091606 A JP2022091606 A JP 2022091606A JP 2022091606 A JP2022091606 A JP 2022091606A JP 2023178742 A JP2023178742 A JP 2023178742A
Authority
JP
Japan
Prior art keywords
voice recognition
voice
external
speech recognition
external device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022091606A
Other languages
English (en)
Inventor
光憲 田中
Mitsunori Tanaka
涼 小林
Ryo Kobayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2022091606A priority Critical patent/JP2023178742A/ja
Publication of JP2023178742A publication Critical patent/JP2023178742A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】外部機器から出力されたデータを円滑に再生する。【解決手段】音声認識装置(1)は、送信部(11)と、ユーザの音声に対して音声認識処理を行う音声認識部(14)と、を備え、送信部(11)は、音声認識部(14)により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器(4)に対し、蓄積コンテンツの再生を停止させるための信号を送信する。【選択図】図1

Description

本発明は、音声認識装置、音声認識方法およびプログラムに関する。
コンテンツなどのデータを再生する装置において、ユーザからの音声による命令に応じてデータの再生を停止および再開する技術が開示されている。例えば、特許文献1には、ユーザの音声による命令を認識し、認識した命令内容に応じて、テキストデータまたはHTMLデータの読み上げ再生を一時停止および再生再開するデータ音声再生装置が記載されている。
特開2019-194834号公報
コンテンツを再生する外部機器(例えば、ハードディスクレコーダー、Blu-ray(登録商標)プレーヤなど)から出力されたデータを再生する装置として、上述のデータ音声再生装置を採用した場合、上述のデータ音声再生装置では円滑に外部機器から出力されたデータを再生できないという問題が発生する。
具体的には、上述のデータ音声再生装置は、ユーザの音声による命令に応じてデータの再生を一時停止した場合、一時停止している期間、外部機器から出力されたデータを自装置内に保存し続ける必要がある。当該構成では、一時停止している期間が長くなると、自装置内の記憶容量が足りなくなる可能性がある。そして、記憶容量が足りなくなると、一時停止した箇所から再生を再開できない、記憶できなかったデータが欠落するなど、円滑に外部機器から出力されたデータを再生できないという問題が発生する。
本発明の一態様は、上記課題に鑑みて成されたものであり、その目的は、外部機器から出力されたデータを円滑に再生する技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様に係る音声認識装置は、送信部と、ユーザの音声に対して音声認識処理を行う音声認識部と、を備えている音声認識装置であって、前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。
上記の課題を解決するために、本発明の一態様に係る音声認識方法は、送信ステップと、ユーザの音声に対して音声認識処理を行う音声認識ステップと、を含む音声認識方法であって、前記送信ステップにおいて、前記音声認識ステップにおける音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信するステップを含む。
上記の課題を解決するために、本発明の一態様に係るプログラムは、音声認識装置としてコンピュータを機能させるためのプログラムであって、前記プログラムは、コンピュータを、送信部と、ユーザの音声に対して音声認識処理を行う音声認識部と、として機能させ、前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。
本発明の一態様によれば、外部機器から出力されたデータを円滑に再生することができる。
本発明の実施形態1に係る音声認識装置を備える音声出力システムの構成を示すブロック図である。 本発明の実施形態1に係る音声認識装置による音声認識時の様子を示す模式図である。 本発明の実施形態1に係る音声認識装置が音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。 本発明の実施形態1に係る音声認識装置が実行する処理の流れを示すフローチャートである。 本発明の実施形態1に係る音声出力システムにおけるデータの流れを示す図である。 本発明の実施形態1に係る音声出力システムにおけるデータの流れを示す図である。 本発明の実施形態1に係る音声出力システムにおけるデータの流れを示す図である。 本発明の実施形態1に係る音声出力システムにおけるデータの流れを示す図である。 本発明の実施形態2に係る音声認識装置を備える音声出力システムの構成を示すブロック図である。 本発明の実施形態2に係る音声認識装置による音声認識開始時の様子を示す模式図である。 本発明の実施形態2に係る音声認識装置が音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。 本発明の実施形態2に係る音声認識装置が実行する処理の流れを示すフローチャートである。
〔実施形態1〕
以下、本発明の一実施形態について、図面を参照しながら詳細に説明する。
(音声出力システム100)
図1は、本実施形態に係る音声認識装置1を備える音声出力システム100の構成を示すブロック図である。図1に示すように、音声出力システム100は、音声認識装置1と、スピーカー2と、マイク3と、外部機器4とを備えている。本実施形態において、音声認識装置1の一例として、テレビジョン受像機が挙げられる。また、外部機器4の一例として、ハードディスクレコーダーが挙げられる。
音声出力システム100では、外部機器4は、蓄積コンテンツを再生することにより、蓄積コンテンツにおける音声を外部音声として出力する。音声認識装置1は、外部機器4から出力された外部音声を取得すると、外部音声をスピーカー2を介して出力する。以下では、音声認識装置1が外部音声をスピーカー2を介して出力する処理を、「外部音声を再生する」とも表現する。
また、音声出力システム100では、音声認識装置1は、マイク3を介して取得したユーザの音声を認識し、認識結果に応じた処理を行う。音声認識装置1は、ユーザの音声の認識処理が行われることを契機として、外部音声の出力を停止する構成を備えている。
なお、スピーカー2およびマイク3は、音声認識装置1が備える構成であってもよい。
ここで、音声出力システム100では、外部機器4から出力された外部音声を音声認識装置1が出力する構成に加えて、外部機器4から出力された外部画像を音声認識装置1が取得し、音声認識装置1は、取得した外部画像を表示する構成を備えていてもよい。換言すると、音声出力システム100では、音声認識装置1は、外部機器4が再生した蓄積コンテンツにおける画像および音声を、それぞれ外部画像および外部音声として取得し、取得した外部画像および外部音声を出力する構成であってもよい。当該構成においても同様に、ユーザの音声の認識処理が行われることを契機として、外部画像の表示を停止してもよい。
(音声認識装置1)
音声認識装置1は、図1に示すように、装置制御部10と、装置入出力部15とを備えている。
装置入出力部15は、装置制御部10から供給されたデータを外部機器4に出力したり、外部機器4から出力されたデータを装置制御部10に供給したりするインタフェースである。装置入出力部15がデータを入出力するインタフェースの規格の一例として、HDMI(High-Definition Multimedia Interface、登録商標)が挙げられる。
装置制御部10は、音声認識装置1が備える各構成要素を統括的に制御する。装置制御部10は、送信部11と、取得部12(外部音声取得部)と、音声処理部13と、音声認識部14とを備えている。
送信部11は、装置入出力部15を介して、外部機器4に対して信号を送信する。送信部11が送信する信号の一例として、音声認識部14により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器4に対し、蓄積コンテンツの再生を停止させるための信号が挙げられる。
また、送信部11が送信する信号の他の例として、音声認識部14による音声認識処理が終了したことを契機として、外部機器4に対し、蓄積コンテンツの再生の停止状態を解除させるための信号が挙げられる。
また、送信部11が送信する、蓄積コンテンツの再生を停止させるための信号および蓄積コンテンツの再生の停止状態を解除させるための信号の一例として、CEC(Consumer Electronics Control)が挙げられる。
取得部12は、装置入出力部15を介して、外部機器4から出力された外部音声を取得する。取得部12は、取得した外部音声を音声処理部13に供給する。
音声処理部13は、取得した音声を処理し、スピーカー2に出力する。音声処理部13が取得する音声の一例として、外部音声およびユーザが発した音声を示すユーザ音声が挙げられる。
音声認識部14は、マイク3を介してユーザ音声を取得する。また、音声認識部14は、ユーザ音声に対して音声認識処理を行う。音声認識部14は、音声認識処理によって認識した認識結果に応じた処理を実行する。
音声認識部14がユーザ音声に対して行う音声認識処理は、既知の方法で行われる。音声認識部14実行する音声認識処理の一例として、音声を入力として、当該音声のテキストデータを出力する音声認識モデルを用いる方法が挙げられる。
(外部機器4)
外部機器4は、図1に示すように、機器制御部40と、機器入出力部41と、記憶部42とを備えている。
機器制御部40は、外部機器4が備える各構成要素を統括的に制御する。
機器入出力部41は、機器制御部40から供給されたデータを音声認識装置1に出力したり、音声認識装置1から出力されたデータを機器制御部40に供給したりするインタフェースである。機器入出力部41がデータを入出力するインタフェースの規格の一例として、HDMIが挙げられる。
記憶部42は、データを記憶する記憶装置である。記憶部42に格納されているデータの一例として、蓄積コンテンツが挙げられる。
(音声出力システム100における処理の概要)
音声出力システム100における処理の概要について、図2および図3を用いて説明する。図2は、音声認識装置1による音声認識開始時の様子を示す模式図である。また、図3は、音声認識装置1が音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。
図2の左側に示すように、音声認識装置1は、外部機器4が蓄積コンテンツを再生している期間、外部機器4から出力された外部音声を出力する。
次に、ユーザが発話した場合、音声認識装置1は、図2の右側に示すように、ユーザの音声を取得し、音声認識処理を実行する。ここで、音声認識装置1は、ユーザから所定の音声(例えば、音声認識処理の実行の開始を指示するホットワード)を取得した場合に、音声認識処理を実行する構成であってもよい。
また、音声認識装置1は、図2の右側に示すように、音声認識処理が行われることを契機として、外部機器4に対し、蓄積コンテンツの再生を停止させるための信号を出力する。
次に音声認識装置1は、ユーザ音声に対して音声認識処理を行う。そして、音声認識装置1は、図3の左側に示すように、認識結果に応じた処理を実行する。図3の左側では、認識結果が「〇〇の天気は?」の質問であるため、音声認識装置1は、当該質問に対する回答「〇〇の天気は~」を音声にて出力する。なお、音声認識装置1は、当該質問に対する回答を表示する構成であってもよい。
次に、音声認識装置1は、図3の右側に示すように、音声認識処理が終了したことを契機として、外部機器4に対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。外部機器4は、蓄積コンテンツの再生の停止状態を解除させるための信号を受信すると、蓄積コンテンツの再生を再開し、外部音声を音声認識装置1に出力する。音声認識装置1は、外部機器4から外部音声を取得し、取得した外部音声を出力する。
このように、音声認識処理とは、音声認識装置1が音声を認識し、認識結果に応じた処理を実行するまでを指している。音声認識装置1は、認識結果に応じた処理を実行した後、所定の期間(例えば、3秒、5秒)ユーザ音声を取得しなかった場合に、音声認識処理を終了する構成であってもよい。
このように、音声認識装置1は、音声認識処理中は外部機器4から出力されるデータを取得しないので、外部機器4から出力されるデータを蓄積する必要がない。したがって、音声認識装置1は、記憶容量が足りずに外部機器4から出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。
(音声認識装置1が実行する処理)
図4は、音声認識装置1が実行する処理の流れを示すフローチャートである。また、図5~図8はそれぞれ、音声出力システム100におけるデータの流れを示す図である。音声認識装置1が実行する処理について、図5~図8を参照して説明する。
(ステップS10)
ステップS10において、音声認識装置1の音声処理部13は、外部機器4から出力された外部音声を、スピーカー2を介して出力する。
ステップS10におけるデータの流れについて、図5を参照して説明する。
外部機器4の機器制御部40は、記憶部42に格納されている蓄積コンテンツを再生する。そして、機器制御部40は、機器入出力部41を介して、蓄積コンテンツにおける音声を外部音声として音声認識装置1に出力する。
音声認識装置1の取得部12は、装置入出力部15を介して外部機器4から外部音声を取得する。取得部12は、取得した外部音声を音声処理部13に供給する。音声処理部13は、取得した外部音声をスピーカー2に出力する。
(ステップS11)
ステップS11において、音声認識部14は、マイク3を介して音声認識トリガーを検知したか否かを判定する。音声認識部14が音声認識トリガーを検知したか否かを判定する一例として、ユーザからの音声を取得したか否か、ユーザから所定の音声を取得したか否か、が挙げられる。
ステップS11における判定結果が「NO」の場合、すなわち音声認識部14が音声認識トリガーを検知していない場合、音声認識装置1は再びステップS11の処理を実行する。
(ステップS12)
ステップS11における判定結果が「YES」の場合、すなわち音声認識部14が音声認識トリガーを検知した場合、ステップS12において、取得部12は、外部機器4から外部音声を取得しているか否かを判断する。
(ステップS13)
ステップS12における判定結果が「YES」の場合、すなわち取得部12が外部機器4から外部音声を取得している場合、ステップS13において、送信部11は、外部機器4に対し、蓄積コンテンツの再生を停止させるための信号を送信する。
ステップS11~ステップS13におけるデータの流れについて、図6を参照して説明する。
音声認識部14がマイクを介して音声認識トリガーを検知した場合、送信部11は、装置入出力部15を介して、外部機器4に対して蓄積コンテンツの再生を停止させるための信号を送信する。外部機器4の機器制御部40は、機器入出力部41を介して、蓄積コンテンツの再生を停止させるための信号を受信する。機器制御部40は、蓄積コンテンツの再生を停止させるための信号を受信すると、記憶部42に格納されている蓄積コンテンツの再生を停止する。換言すると、機器制御部40は、蓄積コンテンツの再生を停止させるための信号を受信すると、外部音声の出力を停止する。
(ステップS14)
ステップS12における判定結果が「NO」の場合、すなわち取得部12が外部機器4から外部音声を取得していない場合、およびステップS13を実行した後、ステップS14において音声認識部14は、音声認識を終了したか否かを判定する。
ステップS14における判定結果が「NO」の場合、すなわち音声認識部14が音声認識を終了していない場合、音声認識装置1は再びステップS13の処理を実行する。
音声認識部14が音声認識を終了していない場合、換言すると、音声認識部14が音声認識処理を実行し、認識結果に応じた処理を実行している場合、当該処理が実行されている期間におけるデータの流れについて、図7を参照して説明する。
音声認識装置1の音声認識部14は、マイク3を介してユーザ音声を取得する。そして、装置制御部10は、音声処理部13を経由して、スピーカー2によりユーザ音声を出力する。
(ステップS15)
ステップS14における判定結果が「YES」の場合、すなわち音声認識部14が音声認識を終了した場合、ステップS15において、取得部12は、外部機器4からの外部音声の取得を停止しているか否かを判定する。
ステップS15における判定結果が「NO」の場合、すなわち取得部12が外部機器4からの外部音声の取得を停止していない場合、音声認識装置1は図4に示す処理を終了する。
(ステップS16)
ステップS15における判定結果が「YES」の場合、すなわち取得部12が外部機器4からの外部音声の取得を停止している場合、送信部11は、外部機器4に対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。
ステップS16におけるデータの流れについて、図8を参照して説明する。
取得部12が外部機器4からの外部音声の取得を停止している場合、送信部11は、外部機器4に対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。
そして、外部機器4の機器制御部40は、記憶部42に格納されている蓄積コンテンツを再生する。続いて、機器制御部40は、機器入出力部41を介して、蓄積コンテンツにおける音声を外部音声として音声認識装置1に出力する。
音声認識装置1の取得部12は、装置入出力部15を介して外部機器4から外部音声を取得する。取得部12は、取得した外部音声を音声処理部13に供給する。音声処理部13は、取得した外部音声をスピーカー2に出力する。
このように、本実施形態に係る音声出力システム100によれば、音声認識装置1は、音声認識処理が行われることを契機として、外部機器4に対して、蓄積コンテンツの再生を停止させるための信号を送信する。そのため、本実施形態に係る音声出力システム100によれば、外部機器4から出力されるデータを再生する音声認識装置1は、音声認識処理中は外部機器4から出力されるデータを取得しないので、外部機器4から出力されるデータを蓄積する必要がない。したがって、音声認識装置1は、記憶容量が足りずに外部機器4から出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。
また、本実施形態に係る音声出力システム100によれば、音声認識装置1は、音声認識処理が終了したことを契機として、外部機器4に対して、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。したがって、音声認識装置1は、音声認識処理が終了した後、再び外部機器4から出力されるデータを取得するので、外部機器から出力されたデータを円滑に再生することができる。
また、音声認識装置1は、音声認識処理中は、外部機器4から出力されるデータを取得する必要がない。そのため、音声認識装置1は、音声認識処理と外部機器4から出力されるデータの取得処理とを並行して実行する必要がないので、音声認識の精度を低下させることを防ぐことができる。
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
図9は、本実施形態に係る音声認識装置1aを備える音声出力システム100aの構成を示すブロック図である。図9に示すように、音声出力システム100aは、音声認識装置1aと、スピーカー2と、マイク3と、外部機器4aとを備えている。本実施形態において、外部機器4aは、一例として、スマートフォン、音楽プレイヤーなどが挙げられる。
音声出力システム100aでは、音声認識装置1aと外部機器4aとが、無線通信によって接続されている。本実施形態では、音声認識装置1aと外部機器4aとがBluetooth(登録商標)によって接続されている構成について説明するが、それに限定されない。音声認識装置1aと外部機器4aとの間の無線通信の規格は、音声認識装置1aが外部機器4aに対して信号を送信することにより、蓄積コンテンツの再生を停止させる、および蓄積コンテンツの再生の停止状態を解除させることができる規格であればよい。その他の構成については、実施形態1において上述した音声出力システム100と同じであるため、詳細な説明は省略する。
(音声認識装置1a)
音声認識装置1aは、図9に示すように、装置制御部10aと、装置入出力部15aとを備えている。
装置入出力部15aは、装置制御部10aから供給されたデータを外部機器4aに出力したり、外部機器4aから出力されたデータを装置制御部10aに供給したりするインタフェースである。
装置制御部10aは、音声認識装置1aが備える各構成要素を統括的に制御する。装置制御部10aは、送信部11aと、取得部12a(外部音声取得部)と、音声処理部13と、音声認識部14とを備えている。
送信部11aは、装置入出力部15aを介して、外部機器4aに対して信号を送信する。
送信部11aが送信する信号の一例として、音声認識部14により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器4aに対し、蓄積コンテンツの再生を停止させるための信号が挙げられる。
また、送信部11aが送信する信号の他の例として、音声認識部14による音声認識処理が終了したことを契機として、外部機器4aに対し、蓄積コンテンツの再生の停止状態を解除させるための信号が挙げられる。
また、送信部11aが送信する、蓄積コンテンツの再生を停止させるための信号および蓄積コンテンツの再生の停止状態を解除させるための信号の一例として、AVRCP(Audio Video Remote Control Profle)を利用した信号が挙げられる。
取得部12aは、装置入出力部15aを介して、外部機器4aから出力された外部音声を取得する。取得部12aは、取得した外部音声を音声処理部13に供給する。
音声処理部13および音声認識部14については、上述した通りである。
(外部機器4a)
外部機器4aは、図9に示すように、機器制御部40aと、機器入出力部41aと、記憶部42とを備えている。
機器制御部40aは、外部機器4aが備える各構成要素を統括的に制御する。
機器入出力部41aは、機器制御部40aから供給されたデータを音声認識装置1aに出力したり、音声認識装置1aから出力されたデータを機器制御部40aに供給したりするインタフェースである。
記憶部42については、上述した通りである。
(音声出力システム100aにおける処理の概要)
音声出力システム100aにおける処理の概要について、図10および図11を用いて説明する。図10は、音声認識装置1aによる音声認識開始時の様子を示す模式図である。図11は、音声認識装置1aが音声認識を実行している様子および音声認識処理終了時の様子を示す模式図である。
上述した実施形態と同様、音声認識装置1aは、図10の左側に示すように、外部機器4aが蓄積コンテンツを再生している期間、外部機器4aから出力された外部音声を出力する。そして、音声認識装置1aは、図10の右側に示すように、ユーザの音声を取得し、音声認識処理が行われることを契機として、外部機器4aに対し、蓄積コンテンツの再生を停止させるための信号を出力する。
また、上述した実施形態と同様、音声認識装置1aは、図3の左側に示すように、認識結果に応じた処理を実行する。そして、音声認識装置1aは、音声認識処理が終了したことを契機として、外部機器4aに対し、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。外部機器4aは、蓄積コンテンツの再生の停止状態を解除させるための信号を受信すると、蓄積コンテンツの再生を再開する。
このように、音声認識装置1aは、外部機器4aと無線通信によって接続されている場合であっても、音声認識処理中は外部機器4aから出力されるデータを取得しないので、外部機器4aから出力されるデータを蓄積する必要がない。したがって、音声認識装置1aは、記憶容量が足りずに外部機器4aから出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。
(音声認識装置1aが実行する処理)
図12は、音声認識装置1aが実行する処理の流れを示すフローチャートである。音声認識装置1aが実行する処理について、図12を参照して説明する。
(ステップS20)
ステップS20において、音声認識装置1aの音声処理部13は、外部機器4aから出力された外部音声を、スピーカー2を介して出力する。
(ステップS21)
ステップS21において、音声認識部14は、マイク3を介して音声認識トリガーを検知したか否かを判定する。
ステップS21における判定結果が「NO」の場合、すなわち音声認識部14が音声認識トリガーを検知していない場合、音声認識装置1aは再びステップS21の処理を実行する。
(ステップS22)
ステップS21における判定結果が「YES」の場合、すなわち音声認識部14が音声認識トリガーを検知した場合、ステップS22において、取得部12aは、外部機器4aからBluetooth経由で外部音声を取得しているか否かを判断する。
(ステップS23)
ステップS22における判定結果が「YES」の場合、すなわち取得部12aが外部機器4aからBluetooth経由で外部音声を取得している場合、ステップS23において、送信部11aは、外部機器4aに対し、蓄積コンテンツの再生を停止させるための信号をBluetooth経由で送信する。
(ステップS24)
ステップS22における判定結果が「NO」の場合、すなわち取得部12aが外部機器4aからBluetooth経由で外部音声を取得していない場合、およびステップS23を実行した後、ステップS24において音声認識部14は、音声認識を終了したか否かを判定する。
ステップS24における判定結果が「NO」の場合、すなわち音声認識部14が音声認識を終了していない場合、音声認識装置1aは再びステップS23の処理を実行する。
(ステップS25)
ステップS24における判定結果が「YES」の場合、すなわち音声認識部14が音声認識を終了した場合、ステップS25において、取得部12aは、外部機器4aからの外部音声の取得を停止しているか否かを判定する。
ステップS15における判定結果が「NO」の場合、すなわち取得部12aが外部機器4aからの外部音声の取得を停止していない場合、音声認識装置1aは図4に示す処理を終了する。
(ステップS26)
ステップS15における判定結果が「YES」の場合、すなわち取得部12aが外部機器4aからの外部音声の取得を停止している場合、送信部11aは、外部機器4aに対し、蓄積コンテンツの再生の停止状態を解除させるための信号をBluetooth経由で送信する。
このように、本実施形態に係る音声出力システム100aによれば、音声認識装置1aと外部機器4aとが無線通信(Bluetoothを介した通信)をしている構成であっても、音声認識処理が行われることを契機として、外部機器4aに対して、蓄積コンテンツの再生を停止させるための信号を送信する。そのため、本実施形態に係る音声出力システム100aによれば、外部機器4aから出力されるデータを再生する音声認識装置1aは、音声認識処理中は外部機器4aから出力されるデータを取得しないので、外部機器4aから出力されるデータを蓄積する必要がない。
また、本実施形態に係る音声出力システム100によれば、音声認識装置1aと外部機器4aとが無線通信(Bluetoothを介した通信)をしている構成であっても、音声認識装置1aは、音声認識処理が終了したことを契機として、外部機器4aに対して、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。したがって、音声認識装置1aは、音声認識処理が終了した後、再び外部機器4aから出力されるデータを取得するので、円滑に外部機器から出力されたデータを再生することができる。
したがって、音声認識装置1aは、外部機器から出力されたデータを円滑に再生することができる。また、音声認識装置1aは、音声認識処理と外部機器4aから出力されるデータの取得処理とを並行して実行する必要がないので、音声認識の精度を低下させることを防ぐことができる。
〔ソフトウェアによる実現例〕
音声認識装置1、1a(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に装置制御部10、10aに含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
〔まとめ〕
本発明の態様1に係る音声認識装置(1、1a)は、送信部(11)と、ユーザの音声に対して音声認識処理を行う音声認識部(14)と、を備えている音声認識装置(1、1a)であって、前記送信部(11)は、前記音声認識部(14)により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器(4、4a)に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。
上記の構成によれば、音声認識装置は、音声認識処理が行われることを契機として、外部機器に対して、蓄積コンテンツの再生を停止させるための信号を送信する。そのため、外部機器から出力されるデータを再生する音声認識装置は、音声認識処理中は外部機器から出力されるデータを取得しないので、外部機器から出力されるデータを蓄積する必要がない。したがって、音声認識装置は、記憶容量が足りずに外部機器から出力されるデータが欠けてしまうことを防ぐことができるので、外部機器から出力されたデータを円滑に再生することができる。
本発明の態様2に係る音声認識装置(1、1a)は、上記態様1において、前記送信部(11)は、前記音声認識部(14)による音声認識処理が終了したことを契機として、前記外部機器(4、4a)に対し、前記蓄積コンテンツの再生の停止状態を解除させるための信号を送信してもよい。
上記の構成によれば、音声認識装置は、音声認識処理が終了したことを契機として、外部機器に対して、蓄積コンテンツの再生の停止状態を解除させるための信号を送信する。したがって、音声認識装置は、音声認識処理が終了した後、再び外部機器から出力されるデータを取得するので、円滑に外部機器から出力されたデータを再生することができる。
本発明の態様3に係る音声認識装置(1、1a)は、上記態様1または2において、前記ユーザの音声を取得するマイク(3)と、前記外部機器が出力する外部音声を取得する外部音声取得部(取得部12、12a)と、前記外部音声取得部(取得部12、12a)が取得した外部音声を出力するスピーカー(2)と、をさらに備えてもよい。
上記の構成によれば、音声認識装置は、自装置においてユーザの音声を取得することができる。また、音声認識装置は、外部機器が出力する外部音声を出力する音声出力装置として機能することができる。
本発明の態様4に係る音声認識方法は、送信ステップと、ユーザの音声に対して音声認識処理を行う音声認識ステップと、を含む音声認識方法であって、前記送信ステップにおいて、前記音声認識ステップにおいて音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器(4、4a)に対し、前記蓄積コンテンツの再生を停止させるための信号を送信するステップを含む。
上記の構成によれば、態様1と同様な効果を奏する。
本発明の態様5に係るプログラムは、音声認識装置(1、1a)としてコンピュータを機能させるためのプログラムであって、前記プログラムは、コンピュータを、送信部(11)と、ユーザの音声に対して音声認識処理(14)を行う音声認識部と、として機能させ、前記送信部(11)は、前記音声認識部(14)により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器(4、4a)に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する。
上記の構成によれば、態様1と同様な効果を奏する。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
100、100a 音声出力システム
1、1a 音声認識装置
10、10a 装置制御部
11、11a 送信部
12、12a 取得部(外部音声取得部)
13 音声処理部
14 音声認識部
4、4a 外部機器
40、40a 機器制御部
41、41a 機器入出力部
42 記憶部

Claims (5)

  1. 送信部と、
    ユーザの音声に対して音声認識処理を行う音声認識部と、を備えている音声認識装置であって、
    前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する、
    ことを特徴とする音声認識装置。
  2. 前記送信部は、前記音声認識部による音声認識処理が終了したことを契機として、前記外部機器に対し、前記蓄積コンテンツの再生の停止状態を解除させるための信号を送信する、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記ユーザの音声を取得するマイクと、
    前記外部機器が出力する外部音声を取得する外部音声取得部と、
    前記外部音声取得部が取得した外部音声を出力するスピーカーと、をさらに備えている、
    ことを特徴とする請求項1または2に記載の音声認識装置。
  4. 送信ステップと、
    ユーザの音声に対して音声認識処理を行う音声認識ステップと、を含む音声認識方法であって、
    前記送信ステップにおいて、前記音声認識ステップにおいて音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信するステップを含む、
    ことを特徴とする音声認識方法。
  5. 音声認識装置としてコンピュータを機能させるためのプログラムであって、
    前記プログラムは、前記コンピュータを、
    送信部と、
    ユーザの音声に対して音声認識処理を行う音声認識部と、として機能させ、
    前記送信部は、前記音声認識部により音声認識処理が行われることを契機として、蓄積コンテンツを再生して外部音声を出力する外部機器に対し、前記蓄積コンテンツの再生を停止させるための信号を送信する、
    プログラム。
JP2022091606A 2022-06-06 2022-06-06 音声認識装置、音声認識方法およびプログラム Pending JP2023178742A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022091606A JP2023178742A (ja) 2022-06-06 2022-06-06 音声認識装置、音声認識方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022091606A JP2023178742A (ja) 2022-06-06 2022-06-06 音声認識装置、音声認識方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2023178742A true JP2023178742A (ja) 2023-12-18

Family

ID=89189663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022091606A Pending JP2023178742A (ja) 2022-06-06 2022-06-06 音声認識装置、音声認識方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2023178742A (ja)

Similar Documents

Publication Publication Date Title
US7953231B2 (en) Audio output apparatus and audio processing system
JP2009536800A (ja) 複数の装置にわたりコンテンツの再生を再開する方法
JP6276503B2 (ja) オーディオ装置
JP2005084459A (ja) オーディオ装置およびオーディオ装置における再生方法
KR102172149B1 (ko) 컨텐츠 재생 방법, 대사 구간 데이터 제공 방법 및 동영상 컨텐츠 재생 단말
JPWO2016129216A1 (ja) 再生装置および出力装置
JP2023178742A (ja) 音声認識装置、音声認識方法およびプログラム
JP2007280470A (ja) 情報記録再生装置
JP2015002394A (ja) 情報処理装置及びコンピュータプログラム
JP2010009688A (ja) コンテンツ再生装置およびこれを備えたコンテンツ再生システム
JP5262526B2 (ja) 映像音声再生システム、av増幅装置およびプログラム
JP4191221B2 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
JP2007287199A (ja) 再生装置
JP3586398B2 (ja) ディジタル信号処理装置、及びディジタル信号処理方法
JP2007142607A (ja) 映像記録装置
WO2009144788A1 (ja) 音声出力機能を備えた映像表示装置、該映像表示装置で行う音量制御方法
KR100808201B1 (ko) 음성/영상 데이터의 동기화 방법
JP5109210B2 (ja) コンテンツ再生システム、コンテンツ処理装置、コンテンツ再生装置、及びそれらのプログラム
KR100850715B1 (ko) Av 시스템 및 그 av 신호 제어 방법
JP4748330B2 (ja) 伝送装置、伝送システム、プログラムおよび情報記憶媒体
JP4391450B2 (ja) 再生装置、コンテンツ記録媒体、再生装置の制御方法、制御プログラムおよび記録媒体
CN115802087A (zh) 音画同步处理方法及其相关设备
JP6260557B2 (ja) 情報処理装置、システムおよびプログラム
JP5002968B2 (ja) 記録装置
CN116048450A (zh) 音频播放方法、装置,嵌入式设备及存储介质