JP2020061046A - 音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システム - Google Patents

音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システム Download PDF

Info

Publication number
JP2020061046A
JP2020061046A JP2018193051A JP2018193051A JP2020061046A JP 2020061046 A JP2020061046 A JP 2020061046A JP 2018193051 A JP2018193051 A JP 2018193051A JP 2018193051 A JP2018193051 A JP 2018193051A JP 2020061046 A JP2020061046 A JP 2020061046A
Authority
JP
Japan
Prior art keywords
voice
hot word
voice operation
uttered
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018193051A
Other languages
English (en)
Other versions
JP7159773B2 (ja
Inventor
浩司 竹井
Koji Takei
浩司 竹井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP2018193051A priority Critical patent/JP7159773B2/ja
Publication of JP2020061046A publication Critical patent/JP2020061046A/ja
Application granted granted Critical
Publication of JP7159773B2 publication Critical patent/JP7159773B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声操作装置のユーザ以外の第三者による不正な音声操作を防止することのできる音声操作装置を提供する。【解決手段】音声操作装置は、ホットワードを画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、音声データに基づいて、ホットワードが発話されたか否かを判定する発話判定部と、ホットワードが発話されたと判定された場合に、ユーザによる音声操作を許可する音声操作部とを備える。【選択図】図1

Description

本発明は、音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システムに関する。
近年、ユーザの発話音声を認識し、認識結果に応じて機器操作や情報検索等を行うスマートスピーカが普及している(例えば、特許文献1および2参照)。スマートスピーカは、ユーザが発話した音声データをマイクを通じて取得し、音声データの認識を行う。スマートスピーカは、ホットワード(ウェイクワードとも言う)と呼ばれるスマートスピーカを起動させるためのワードの発話を認識した場合に、待機状態から、機器操作や情報検索等が可能な起動状態に遷移する。起動状態に遷移した後、スマートスピーカは、ユーザが発話した音声データの認識結果に応じて、例えば、エアコン等の家電機器を操作したり、認識結果をキーワードとする情報検索を行ったりする。
特開2017−76117号公報 特表2016−505888号公報
スマートスピーカには、ホットワードとして1つの固定ワードが割り当てられている。このため、スマートスピーカのテレビCM(Commercial Message)などでホットワードが再生された場合には、テレビから出力される音声にスマートスピーカが反応し、スマートスピーカが起動してしまう場合がある。
また、スマートスピーカが設置されたのと同じユーザの宅内に設置された音声出力可能な再生機器(例えば、スピーカ付き電話)を、宅外に居る悪意のある第三者が遠隔操作し、当該再生機器から音声を出力させることも想定される。この場合、第三者は、当該再生機器からホットワードの音声を再生させることにより、スマートスピーカを起動させ、その後、音声により家電機器等を操作することもできる。このように、ホットワードを固定とした場合には、第三者による宅内の機器の操作や、なりすましによるサービスの利用などが発生する可能性があるという課題がある。
このような課題は、スマートスピーカに限定されるものではなく、ホットワードを音声認識することにより起動し、その後に音声操作を受け付けるセットトップボックスなどの他の音声操作装置についても同様に当てはまる。
本発明は、このような事情に鑑みてなされたものであり、音声操作装置のユーザ以外の第三者による不正な音声操作を防止することのできる音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システムを提供することを目的とする。
(1)上記目的を達成するために、本発明の一実施態様に係る音声操作装置は、ホットワードを画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部とを備える。
(11)本発明の他の実施態様に係る音声操作方法は、ホットワードを画面に表示させるステップと、ユーザが発話した音声データを取得するステップと、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定するステップと、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可するステップとを含む。
(12)本発明の他の実施態様に係るコンピュータプログラムは、コンピュータを、ホットワードを画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部として機能させる。
(13)本発明の他の実施態様に係る音声操作システムは、表示装置と、ホットワードを前記表示装置の画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部とを備える。
なお、本発明は、音声操作装置の一部又は全部を実現する半導体集積回路として実現することもできる。
本発明によると、音声操作装置のユーザ以外の第三者による不正な音声操作を防止することができる。
本発明の実施の形態に係る音声操作システムの構成を示す図である。 本発明の実施の形態に係るSTB(セットトップボックス:Set Top Box)の処理手順の一例を示すフローチャートである。 本発明の実施の形態に係る音声操作システムの動作の一例を示す図である。
[本願発明の実施形態の概要]
最初に本発明の実施形態の概要を列記して説明する。
(1)本発明の一実施形態に係る音声操作装置は、ホットワードを画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部とを備える。
この構成によると、ホットワードが画面に表示され、画面に表示されているホットワードが発話された場合にユーザによる音声操作が許可される。このため、画面を見ることのできない第三者は、ホットワードを知ることができないため、ホットワードを発話することができず、これにより、第三者による音声操作を拒否することができる。よって、音声操作装置のユーザ以外の第三者による不正な音声操作を防止することができる。
(2)好ましくは、前記画面は、前記音声操作装置と同一場所に存在する。
この構成によると、ホットワードが音声操作装置と同一場所に存在する画面に表示され、画面に表示されているホットワードが発話された場合にユーザによる音声操作が許可される。このため、例えば、音声操作装置の設置場所であるユーザの宅内に居ない第三者は、画面を見ることができず、ホットワードを知ることができない。このため、第三者は、ホットワードを発話することができず、これにより、第三者による音声操作を拒否することができる。よって、音声操作装置のユーザ以外の第三者による不正な音声操作を防止することができる。
(3)さらに好ましくは、前記表示制御部は、前記ホットワードを所定の期間にわたり前記画面に表示させ、前記発話判定部は、前記所定の期間中に発話された前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する。
この構成によると、ホットワードが画面に表示されている期間中にホットワードが発話された場合にのみ、音声操作を許可することができる。このため、過去に画面に表示された他のホットワードに基づいて音声操作が許可されることがなくなる。これにより、第三者による不正な音声操作を、より防止することができる。
(4)また、前記表示制御部は、所定の変更条件に従って前記ホットワードを変更してもよい。
この構成によると、ホットワードが第三者に暴露した場合であっても、所定の変更条件に従ってホットワードが変更されることにより、第三者による不正な音声操作を防止することができる。また、固定のホットワードを読み上げるテレビCMの音声などに音声操作装置が反応して、音声操作装置が起動する可能性を低くすることもできる。
(5)また、前記表示制御部は、周期的に前記ホットワードを変更してもよい。
この構成によると、周期的にホットワードが変更されるため、第三者による不正な音声操作を、より防止することができる。
(6)また、前記表示制御部は、前記発話判定部での判定結果に基づいて、前記ホットワードを変更してもよい。
この構成によると、ホットワードが発話されたか否かの判定結果に応じてホットワードを変更可能であるため、例えば、ホットワードが発話されなかったと判定された場合、または発話されたと判定された場合などにホットワードを変更することができる。
(7)また、前記表示制御部は、前記ホットワードが発話されなかったと判定された回数に基づいて、前記ホットワードを変更してもよい。
この構成によると、例えば、所定回数連続してホットワードが発話されなかったと判定された場合に、ホットワードを変更することができる。このため、第三者が遠隔操作で再生機器から音声を出力させる等して、音声操作装置を操作しようとして失敗した場合に、ホットワードを変更することができる。これにより、音声操作装置が第三者から不正に操作されるのを防止することができる。
(8)また、前記表示制御部は、前記音声操作が終了した場合に前記ホットワードを変更してもよい。
この構成によると、ユーザによる音声操作が終了する度にホットワードを変更することができる。これにより、ホットワードが第三者に暴露されにくくすることができ、音声操作装置が第三者から不正に操作されるのを防止することができる。
(9)また、前記表示制御部は、記憶部に予め記憶されている複数のワードの中からワードを選択し、選択したワードを前記ホットワードとして前記画面に表示させてもよい。
この構成によると、事前に記憶部に記憶されているワードをホットワードとすることができるため、当該ワードを認識可能な音声認識モデルを音声操作装置の出荷前に作成することができる。このため、発話判定部が音声認識により判定処理を行うのに先立って、音声認識モデルの学習を行う必要がなくなる。
(10)また、前記表示制御部は、前記ユーザが決定したワードを前記ホットワードとして前記画面に表示させてもよい。
この構成によると、ユーザが決定したワードをホットワードとすることができるため、自由にホットワードを決定することができ、これにより、ホットワードが第三者に暴露されにくくすることができる。
(11)本発明の他の実施形態に係る音声操作方法は、ホットワードを画面に表示させるステップと、ユーザが発話した音声データを取得するステップと、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定するステップと、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可するステップとを含む。
この構成は、上述の音声操作装置が備える特徴的な処理部に対応するステップを含む。このため、上述の音声操作装置と同様の作用および効果を奏することができる。
(12)本発明の他の実施形態に係るコンピュータプログラムは、コンピュータを、ホットワードを画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部として機能させる。
この構成によると、コンピュータを上述の音声操作装置として機能させることができる。このため、上述の音声操作装置と同様の作用および効果を奏することができる。
(13)本発明の他の実施形態に係る音声操作システムは、表示装置と、ホットワードを前記表示装置の画面に表示させる表示制御部と、ユーザが発話した音声データを取得する音声取得部と、前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部とを備える。
この音声操作システムは、上述の音声操作装置を構成として含む。このため、上述の音声操作装置と同様の作用および効果を奏することができる。
[本願発明の実施形態の詳細]
以下、本発明の実施の形態について、図面を用いて詳細に説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。本発明は、特許請求の範囲によって特定される。よって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。
また、同一の構成要素には同一の符号を付す。それらの機能および名称も同様であるため、それらの説明は適宜省略する。
<音声操作システムの全体構成>
図1は、本発明の実施の形態に係る音声操作システムの構成を示す図である。
図1を参照して、音声操作システム1は、STB10と、表示装置20とを備える。
STB10は、音声操作装置として機能し、ユーザ40が発話した音声の音声データを取得し、取得した音声データに基づいて、STB10またはSTB10に接続されたエアコン30等の家庭用機器を操作する。なお、ユーザ40が発話した音声の音声データには、ユーザ40自身が発話した音声の音声データの他に、ユーザ40が音声を発話可能な機器を操作することにより、当該機器が発話した音声の音声データも含むものとする。例えば、発話障害を有するユーザ40が音声合成装置を操作することにより、当該装置が発話した合成音声の音声データも、ユーザ40が発話した音声の音声データに含まれる。つまり、ユーザ40が発話した音声の音声データは、ユーザ40の発話意思に基づく音声の音声データを示す。
なお、家庭用機器はエアコン30に限定されるものではなく、STB10と有線または無線により接続された機器であればその他の機器であってもよい。例えば、家庭用機器は、STB10からの指示に従い電源をオンまたはオフしたり光量を調整したりする照明器具であってもよい。
また、音声操作装置は、STB10に限定されるものではなく、ユーザ40が発話した音声データに基づいて音声操作可能な装置であれば、その他の装置であってもよい。例えば、音声操作装置は、音声データに基づいて、情報を検索したり、家庭用機器を操作したりするスマートスピーカであってもよい。
表示装置20は、STB10と有線または無線により接続される。表示装置20は、例えば、STB10とHDMI(登録商標)(High-Definition Multimedia Interface)ケーブルで接続されたディスプレイ装置である。表示装置20は、STB10から出力される映像データまたは画像データを画面に表示する。なお、表示装置20は、STB10またはスマートスピーカなどの音声操作装置に内蔵されていてもよい。つまり、音声操作装置が表示画面付きであってもよい。逆に、表示装置20にSTB10またはスマートスピーカなどの機能が内蔵されていてもよい。
STB10は、STB10自身の音声操作に関する機能(後述する音声操作部13、再生処理部14)を起動させるために用いられ、かつユーザ40による音声操作を許可するために用いられるホットワードを、表示装置20に表示する制御を行う。
STB10は、音声取得部11と、音声認識部12と、音声操作部13と、再生処理部14と、映像出力部15と、ホットワード表示制御部16と、記憶部17とを備える。
音声取得部11は、ユーザ40が発話した音声データを取得する。具体的には、音声取得部11は、マイクを含んで構成され、マイクに入力された音声をA/D(Analog to Digital)変換することで音声データに変換し、変換後の音声データを取得する。
音声認識部12は、発話判定部として機能し、音声取得部11が取得した音声データに基づいて、ユーザ40がホットワードを発話したか否かを判定する。つまり、音声認識部12は、音声データの音声認識処理を行い、音声データ中にホットワードの発話音声が含まれるか否かを判定する。音声認識部12は、判定結果を示す判定結果信号を音声操作部13およびホットワード表示制御部16に送信する。
音声認識処理には、公知の技術を用いることができる。例えば、隠れマルコフモデル(Hidden Markov Model)や、ディープラーニングにより機械学習されたニューラルネットワークなどを用いて、音声認識処理を行うことができる。
なお、音声認識部12は、ホットワード以外のワードも認識することができる。例えば、音声認識部12は、音声データから、エアコン30を操作するためのワード(例えば、「30℃」、「電源オン」など)を認識することもできる。音声認識部12は、音声認識結果を音声操作部13に送信する。
音声操作部13は、音声認識部12から判定結果信号および音声認識結果を受信する。音声操作部13は、判定結果信号がホットワードが発話されたことを示している場合には、ユーザ40による音声操作を許可し、受信した音声認識結果による音声操作を実行する。
例えば、音声認識結果が「エアコンの電源オン」を示す場合には、音声操作部13は、当該音声認識結果に対応付けられたエアコン30の電源をオンするための操作信号を記憶部17から読出し、エアコン30に送信する。エアコン30は、操作信号を受信し、受信した操作信号に従いエアコン30の電源をオンする。
また、音声認識結果が「タイトルAのコンテンツ再生」を示す場合には、音声操作部13は、当該音声認識結果に対応付けられたタイトルAのコンテンツ再生を指示するための操作信号を記憶部17から読出し、再生処理部14に送信する。
再生処理部14は、音声操作部13からの操作信号に従って、コンテンツの再生、停止、早送り、巻き戻し等のコンテンツに対する処理を行う。例えば、再生処理部14は、操作信号で指示されたタイトルAのコンテンツデータを記憶部17から読み出し、読み出したコンテンツデータを、映像出力部15に出力する。
映像出力部15は、再生処理部14からコンテンツデータを受信し、受信したコンテンツデータを表示装置20に送信することにより、表示装置20の画面にコンテンツデータを表示させる。
ホットワード表示制御部16は、表示制御部として機能し、ホットワードを表示装置20の画面に表示するための制御を行う。例えば、ホットワード表示制御部16は、記憶部17に予め記憶されているホットワードを読み出し、読み出したホットワードを映像出力部15に出力する。
映像出力部15は、ホットワード表示制御部16からホットワードを受信し、受信したホットワードを表示装置20に送信することにより、表示装置20の画面にホットワードを表示させる。
記憶部17は、コンテンツデータやホットワードなどの各種データを記憶するための記憶装置であり、例えば、フラッシュメモリなどの不揮発性メモリ、またはHDD(Hard Disk Drive)などの磁気記憶装置などより構成される。
記憶部17には、1つまたは複数のホットワードが事前に登録されているものとする。ホットワードは、STB10の出荷時までにSTB10の製造者等が事前に記憶部17に記憶したものであってもよいし、STB10の出荷後にユーザ40が決定し、記憶部17に記憶したものであってもよい。
また、記憶部17には、音声操作部13による音声操作用のワードが事前に登録されており、当該ワードに対応付けられた再生処理部14またはエアコン30の操作信号も記憶されている。
<STB10の処理フロー>
図2は、本発明の実施の形態に係るSTBの処理手順の一例を示すフローチャートである。
図2を参照して、ホットワード表示制御部16は、記憶部17に記憶されているホットワードの中からいずれか1つのホットワードを読み出し、映像出力部15に出力する。ホットワードの読み出し順序は、ランダムでも良いし、所定の順序(例えば、あいうえお順)であってもよい。映像出力部15は、ホットワード表示制御部16からホットワードを受信し、受信したホットワードを表示装置20に送信することにより、表示装置20の画面にホットワードを表示させる(S1)。ホットワード表示制御部16は、ホットワードを所定の期間にわたり画面に表示させる。例えば、ホットワード表示制御部16は、STB10が起動している間中ホットワードを表示させるのが望ましい。なお、ホットワード表示制御部16は、例えば、STB10の起動時またはホットワードの変更時から所定時間(例えば、5分)の間にホットワードを表示させるとしてもよい。
その後、音声取得部11は、ユーザ40が発話した音声データを取得したか否かを判定する(S2)。
音声データを取得した場合には(S2でYES)、音声認識部12は、取得した音声データを音声認識することにより、表示装置20の画面に表示されているホットワードの発話音声が音声データ中に含まれるか否かを判定する(S3)。
音声データ中にホットワードの発話音声が含まれる場合、つまり、ホットワードが発話された場合には(S3でYES)、音声取得部11は、ユーザ40が発話した音声データを取得するまで待機する(S4)。
音声データを取得した場合には(S4でYES)、音声認識部12は、取得した音声データを音声認識することにより、音声データ中に音声操作用のワードの発話音声が含まれるか否かを判定する(S5)。
音声データ中に音声操作用のワードの発話音声が含まれる場合、つまり、音声操作用の音声が発話された場合には(S5でYES)、音声操作部13は、音声操作用のワードに対応した操作信号を記憶部17から読出し、再生処理部14またはエアコン30に送信することにより、音声操作を実行する(S6)。つまり、操作信号を受信した再生処理部14は、当該操作信号に基づいて、コンテンツを記憶部17から読出し、映像出力部15に出力してもよい。映像出力部15は、再生処理部14からコンテンツを取得し、表示装置20の画面に表示させる。また、操作信号を受信したエアコン30は、当該操作信号に基づいて、エアコン30の電源をオンまたはオフしたり、設定温度を変更したりする。
音声操作が実行された後、ホットワード表示制御部16は、表示装置20の画面に表示されているホットワードとは異なるホットワードを記憶部17から読み出すことにより、ホットワードを変更する(S7)。その後、ステップS1に制御を戻す。これにより、表示装置20の画面には、今まで表示されていたのとは異なるホットワードが表示されることになる。
音声データが取得できない場合には(S2でNO)、ホットワード表示制御部16は、予め定められた、ホットワードの変更条件を満たすか否かを判断する(S8)。
また、音声データは取得できたが、音声データ中にホットワードの発話音声が含まれない場合、つまり、ホットワードが発話されていない場合にも(S3でNO)、ホットワード表示制御部16は、ホットワードの変更条件を満たすか否かを判断する(S8)。
さらに、音声データ中に音声操作用のワードの発話音声が含まれない場合、つまり、音声操作用の音声が発話されていない場合にも(S5でNO)、ホットワード表示制御部16は、ホットワードの変更条件を満たすか否かを判断する(S8)。
変更条件を満たす場合には(S8でYES)、ホットワード変更処理(S7)を実行し、変更条件を満たさない場合には(S8でNO)、ホットワードを変更することなく、ホットワード表示処理(S1)を実行する。
例えば、ホットワード表示制御部16は、ホットワードを変更してから所定時間経過している場合には、変更条件を満たすと判断し、所定時間経過していない場合には、変更条件を満たさないと判断する。これにより、周期的にホットワードを変更することができる。
また、ホットワード表示制御部16は、音声認識部12から受信したホットワードの判定結果信号に基づいて、変更条件を満たすか否かを判断してもよい。例えば、ホットワード表示制御部16は、ホットワードが発話されなかったと判定された回数が所定の閾値以上の場合に変更条件を満たし、当該回数が所定の閾値未満の場合には変更条件を満たさないと判断してもよい。また、ホットワード表示制御部16は、ホットワードが発話されなかったと連続して判定された回数が所定の閾値を超えた場合に、変更条件を満たすと判断し、当該連続判定回数が所定の閾値未満の場合に、変更条件を満たさないと判断してもよい。さらに、ホットワード表示制御部16は、ホットワードが発話されたと判定された回数を用いて、変更条件を満たすか否かを判断してもよい。これらの回数は、変更条件を満たすと判定された場合に0にリセットされる。
なお、待機処理(S4)において、音声データの入力が一定時間以上ない場合には、ステップS8に移行させてもよい。
また、記憶部17にホットワードが1つしか登録されていない場合には、ホットワードを変更することができない。このため、このような場合には、ステップS7およびS8の処理を省略してもよい。
<音声操作システムの動作例>
図3は、本発明の実施の形態に係る音声操作システムの動作の一例を示す図である。
図3に示すように、音声操作システム1を構成するSTB10および表示装置20は、ユーザ40の宅内に設置されているものとする。STB10および表示装置20は同じ部屋に設置されていることが望ましいが、STB10と表示装置20とが接続可能であり、かつユーザ40の音声データをSTB10が取得可能であれば、必ずしも同じ部屋に設置されている必要はない。
例えば、ユーザ40が、STB10の電源を入れると、表示装置20の画面に、ホットワード「ライオン」が表示される。宅内に居るユーザ40は、表示装置20の画面を目視可能である。このため、ユーザ40が「ライオン」と発話することにより、STB10は「ライオン」の音声データを取得することができる。これにより、STB10は音声操作を受付可能な状態に遷移する。
一方、宅外に居る第三者50は、表示装置20の画面を目視できない。このため、第三者50は、ホットワード「ライオン」を知ることができない。例えば、第三者50が、宅外のスマートフォン60からスマートフォン60に無線接続された宅内のスマートフォン70を遠隔操作することにより、スマートフォン70から音声の出力ができるとしても、第三者50はホットワード「ライオン」を知ることができない。このため、何らかのワード「xxx」の音声をスマートフォン70から出力させても、STB10を音声操作可能な状態に遷移させることはできない。これにより、第三者50の不正な操作を防止することができる。
<実施の形態の効果>
以上説明したように、本実施の形態によると、ホットワードが表示装置20の画面に表示され、画面に表示されているホットワードが発話された場合にユーザ40による音声操作が許可される。このため、画面を見ることのできない第三者50は、ホットワードを知ることができないため、ホットワードを発話することができず、これにより、第三者50による音声操作を拒否することができる。よって、STB10のユーザ40以外の第三者50による不正な音声操作を防止することができる。
また、ホットワード表示制御部16は、ホットワードを所定の期間にわたり表示装置20の画面に表示させ、音声認識部12は、所定の期間中に発話された音声データに基づいて、ホットワードが発話されたか否かを判定することができる。つまり、ホットワードが画面に表示されている期間中にホットワードが発話された場合にのみ、音声操作を許可することができる。このため、過去に画面に表示された他のホットワードに基づいて音声操作が許可されることがなくなる。これにより、第三者50による不正な音声操作を、より防止することができる。
また、STB10は、所定の変更条件に従って、ホットワードを変更する。このため、ホットワードが第三者50に暴露した場合であっても、ホットワードを変更することにより、第三者50による不正な音声操作を防止することができる。また、固定のホットワードを読み上げるテレビCMの音声などにSTB10が反応して、STB10が起動する可能性を低くすることもできる。
また、例えば、所定回数連続してホットワードが発話されなかったと判定された場合に、ホットワードを変更することができる。このため、第三者50が遠隔操作でスマートフォン70から音声を出力させる等して、STB10を操作しようとして失敗した場合に、ホットワードを変更することができる。これにより、STB10が第三者50から不正に操作されるのを防止することができる。
また、ユーザ40による音声操作が終了する度にホットワードを変更することができる。これにより、ホットワードが第三者50に暴露されにくくすることができ、STB10が第三者50から不正に操作されるのを防止することができる。
また、ホットワード表示制御部16は、記憶部17に予め記憶されている複数のワードの中からワードを選択し、選択したワードをホットワードとして表示装置20の画面に表示させることもできる。これにより、当該ワードを認識可能な音声認識モデルをSTB10の出荷前に作成することができる。このため、音声認識部12が音声認識により判定処理を行うのに先立って、音声認識モデルの学習を行う必要がなくなる。
また、記憶部17には、ユーザ40が決定したワードが記憶されており、ホットワード表示制御部16は、記憶部17から当該ワードを読み出し、読み出したワードを表示装置20の画面に表示させることもできる。つまり、ユーザ40が決定したワードをホットワードとすることができるため、自由にホットワードを決定することができ、これにより、ホットワードが第三者50に暴露されにくくすることができる。
[付記]
上記したSTB10に代表される音声操作装置は、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されてもよい。RAMまたはHDDには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、音声操作装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
さらに、音声操作装置を構成する構成要素の一部または全部は、1個のシステムLSIから構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
また、本発明は、上記に示す方法をコンピュータにより実現するコンピュータプログラムであるとしてもよい。
さらに、本発明は、上記コンピュータプログラムをコンピュータ読取可能な非一時的な記録媒体、例えば、HDD、CD−ROM、半導体メモリなどに記録したものとしてもよい。
また、本発明は、上記コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、音声操作装置は、複数のコンピュータにより実現されてもよい。
また、音声操作装置の一部または全部の機能がクラウドコンピューティングによって提供されてもよい。つまり、音声操作装置の一部または全部の機能がクラウドサーバにより実現されていてもよい。例えば、STB10において、音声認識部12の機能がクラウドサーバにより実現され、STB10は、クラウドサーバに対して音声データを送信し、クラウドサーバから当該音声データに対する認識結果を取得する構成であってもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 音声操作システム
10 STB(音声操作装置)
11 音声取得部
12 音声認識部(発話判定部)
13 音声操作部
14 再生処理部
15 映像出力部
16 ホットワード表示制御部(表示制御部)
17 記憶部
20 表示装置
30 エアコン
40 ユーザ
50 第三者
60 スマートフォン
70 スマートフォン

Claims (13)

  1. ホットワードを画面に表示させる表示制御部と、
    ユーザが発話した音声データを取得する音声取得部と、
    前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、
    前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部と
    を備える音声操作装置。
  2. 前記画面は、前記音声操作装置と同一場所に存在する、請求項1に記載の音声操作装置。
  3. 前記表示制御部は、前記ホットワードを所定の期間にわたり前記画面に表示させ、
    前記発話判定部は、前記所定の期間中に発話された前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する、請求項1または請求項2に記載の音声操作装置。
  4. 前記表示制御部は、所定の変更条件に従って前記ホットワードを変更する、請求項1〜請求項3のいずれか1項に記載の音声操作装置。
  5. 前記表示制御部は、周期的に前記ホットワードを変更する、請求項4に記載の音声操作装置。
  6. 前記表示制御部は、前記発話判定部での判定結果に基づいて、前記ホットワードを変更する、請求項4または請求項5に記載の音声操作装置。
  7. 前記表示制御部は、前記ホットワードが発話されなかったと判定された回数に基づいて、前記ホットワードを変更する、請求項6に記載の音声操作装置。
  8. 前記表示制御部は、前記音声操作が終了した場合に前記ホットワードを変更する、請求項1〜請求項7のいずれか1項に記載の音声操作装置。
  9. 前記表示制御部は、記憶部に予め記憶されている複数のワードの中からワードを選択し、選択したワードを前記ホットワードとして前記画面に表示させる、請求項1〜請求項8のいずれか1項に記載の音声操作装置。
  10. 前記表示制御部は、前記ユーザが決定したワードを前記ホットワードとして前記画面に表示させる、請求項1〜請求項9のいずれか1項に記載の音声操作装置。
  11. ホットワードを画面に表示させるステップと、
    ユーザが発話した音声データを取得するステップと、
    前記音声データに基づいて、前記ホットワードが発話されたか否かを判定するステップと、
    前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可するステップと
    を含む音声操作方法。
  12. コンピュータを、
    ホットワードを画面に表示させる表示制御部と、
    ユーザが発話した音声データを取得する音声取得部と、
    前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、
    前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部と
    して機能させるためのコンピュータプログラム。
  13. 表示装置と、
    ホットワードを前記表示装置の画面に表示させる表示制御部と、
    ユーザが発話した音声データを取得する音声取得部と、
    前記音声データに基づいて、前記ホットワードが発話されたか否かを判定する発話判定部と、
    前記ホットワードが発話されたと判定された場合に、前記ユーザによる音声操作を許可する音声操作部と
    を備える音声操作システム。
JP2018193051A 2018-10-12 2018-10-12 音声操作装置、音声操作方法、および音声操作システム Active JP7159773B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018193051A JP7159773B2 (ja) 2018-10-12 2018-10-12 音声操作装置、音声操作方法、および音声操作システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018193051A JP7159773B2 (ja) 2018-10-12 2018-10-12 音声操作装置、音声操作方法、および音声操作システム

Publications (2)

Publication Number Publication Date
JP2020061046A true JP2020061046A (ja) 2020-04-16
JP7159773B2 JP7159773B2 (ja) 2022-10-25

Family

ID=70219004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018193051A Active JP7159773B2 (ja) 2018-10-12 2018-10-12 音声操作装置、音声操作方法、および音声操作システム

Country Status (1)

Country Link
JP (1) JP7159773B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930949A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 搜索串处理方法、装置、计算机可读介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218852A (ja) * 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US20170084276A1 (en) * 2013-04-09 2017-03-23 Google Inc. Multi-Mode Guard for Voice Commands

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170084276A1 (en) * 2013-04-09 2017-03-23 Google Inc. Multi-Mode Guard for Voice Commands
JP2016218852A (ja) * 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930949A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 搜索串处理方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
JP7159773B2 (ja) 2022-10-25

Similar Documents

Publication Publication Date Title
US11631403B2 (en) Apparatus, system and method for directing voice input in a controlling device
USRE49493E1 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
CN103188541B (zh) 电子设备和控制电子设备的方法
US11823682B2 (en) Display apparatus capable of releasing a voice input mode by sensing a speech finish and voice control method thereof
JP2019153314A (ja) 映像処理装置及びその制御方法、並びに映像処理システム
WO2016052018A1 (ja) 家電管理システム、家電、リモコン装置、ロボット
US20140267933A1 (en) Electronic Device with Embedded Macro-Command Functionality
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR101743514B1 (ko) 외부 입력 제어 방법 및 이를 적용한 방송 수신 장치
US20130339032A1 (en) Server and method of controlling the same
TW202101190A (zh) 虛擬助理器件
CN103546763A (zh) 用于提供内容信息的方法和广播接收设备
JP7159773B2 (ja) 音声操作装置、音声操作方法、および音声操作システム
JP7456387B2 (ja) 情報処理装置、及び情報処理方法
CN104104997A (zh) 一种电视机静音启动控制方法、装置及系统
US20090165061A1 (en) Playback controlling apparatus and image processing apparatus
CN111801729A (zh) 用于引导控制设备中的语音输入的装置、系统和方法
KR101859614B1 (ko) 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
JP6921311B2 (ja) 機器制御システム、機器、機器制御方法及びプログラム
KR20210097428A (ko) 전자장치 및 그 제어방법
KR102594683B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102089593B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR20140026220A (ko) 단말 장치 및 단말 장치의 제어 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102051480B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220511

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7159773

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150