JP2021032906A - Receiving device - Google Patents
Receiving device Download PDFInfo
- Publication number
- JP2021032906A JP2021032906A JP2019148384A JP2019148384A JP2021032906A JP 2021032906 A JP2021032906 A JP 2021032906A JP 2019148384 A JP2019148384 A JP 2019148384A JP 2019148384 A JP2019148384 A JP 2019148384A JP 2021032906 A JP2021032906 A JP 2021032906A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- unit
- voice
- state
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 description 36
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明の実施形態は、受信装置に関する。 Embodiments of the present invention relate to a receiving device.
近年、ユーザが音声によって機器の操作をすることができる音声認識サービスのニーズが高まりつつある。例えば、音声認識機能を備えるテレビジョン装置等の機器が知られている。このようなテレビジョン装置等においては、例えば、ユーザが発したウェイクワード(Wake Word)を検出した場合に、音声認識サービスを起動し、例えば、何らかの応答を返したり、ユーザの音声が認識しやすくなるように再生中のコンテンツの音量を下げたりする。 In recent years, there is an increasing need for a voice recognition service that allows a user to operate a device by voice. For example, devices such as television devices having a voice recognition function are known. In such a television device or the like, for example, when a Wake Word issued by a user is detected, a voice recognition service is activated, and for example, some response is returned or the user's voice is easily recognized. Decrease the volume of the content being played so that it becomes.
しかしながら、このようなテレビジョン装置等においては、ウェイクワードの誤検出等により、ユーザの意図しないタイミングで音声認識サービスが起動してしまう場合がある。このような場合に、ユーザのコンテンツの視聴が妨げられることにより、ユーザが煩わしさを感じるおそれがある。 However, in such a television device or the like, the voice recognition service may be activated at a timing not intended by the user due to erroneous detection of a wake word or the like. In such a case, the user may feel annoyed by hindering the viewing of the user's content.
音声認識サービスが不要な場面において音声認識サービスが開始することを低減する。 Reduce the start of the voice recognition service in situations where the voice recognition service is not required.
実施形態の受信装置は、音声入力部と、選択部と、音声認識部とを備える。音声入力部は、ユーザの音声を入力する。選択部は、所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択する。音声認識部は、有効状態が選択された場合、音声入力部に入力された音声に対する音声認識処理を実行し、無効状態が選択された場合、音声認識処理を実行しない。 The receiving device of the embodiment includes a voice input unit, a selection unit, and a voice recognition unit. The voice input unit inputs the user's voice. The selection unit selects either the enabled state or the disabled state of voice recognition based on a predetermined condition. The voice recognition unit executes voice recognition processing for the voice input to the voice input unit when the valid state is selected, and does not execute the voice recognition processing when the invalid state is selected.
(第1の実施形態)
図1は、本実施形態にかかるテレビジョン装置10のハードウェア構成の一例を示す図である。図1に示すように、テレビジョン装置10は、アンテナ101と、入力端子102aと、チューナ103と、デモジュレータ104と、デマルチプレクサ105と、入力端子102bおよび102cと、A/D(アナログ/デジタル)変換器106と、セレクタ107と、信号処理部108と、スピーカ109と、表示パネル110と、操作部111と、受光部112と、IP通信部113と、CPU(Central Processing Unit)114と、メモリ115と、ストレージ116と、マイク(マイクロフォン)117と、オーディオI/F(インターフェース)118とを備える。テレビジョン装置10は、本実施形態における受信装置の一例である。
(First Embodiment)
FIG. 1 is a diagram showing an example of a hardware configuration of the
アンテナ101は、デジタル放送の放送信号を受信し、受信した放送信号を、入力端子102aを介してチューナ103に供給する。チューナ103は、アンテナ101から供給された放送信号から所望のチャンネルの放送信号を選局し、選局した放送信号をデモジュレータ104に供給する。放送信号は、放送波ともいう。
The
デモジュレータ104は、チューナ103から供給された放送信号を復調し、復調した放送信号をデマルチプレクサ105に供給する。デマルチプレクサ105は、デモジュレータ104から供給された放送信号を分離して映像信号および音声信号を生成し、生成した映像信号および音声信号をセレクタ107に供給する。
The
セレクタ107は、デマルチプレクサ205、A/D変換器106、および入力端子102cから供給される複数の信号から1つを選択し、選択した1つの信号を信号処理部108に供給するように構成されている。
The
信号処理部108は、セレクタ107から供給される映像信号に所定の信号処理を施し、処理後の映像信号を表示パネル110に供給するように構成されている。また、信号処理部108は、セレクタ107から供給される音声信号に所定の信号処理を施し、処理後の音声信号をスピーカ109に供給するように構成されている。
The
スピーカ109は、信号処理部108から供給される音声信号に基づいて音声、または各種の音を出力するように構成されている。また、スピーカ109は、CPU114による制御に基づいて、出力する音声または各種の音の音量を変更する。
The
表示パネル110は、信号処理部108から供給される映像信号またはCPU114による制御に基づいて、静止画や動画などの映像を表示するように構成されている。表示パネル110は、表示部の一例である。
The
入力端子102bは、外部から入力されるアナログ信号(映像信号および音声信号)を受け付ける。また、入力端子102cは、外部から入力されるデジタル信号(映像信号および音声信号)を受け付けるように構成されている。例えば、入力端子102cは、BD(Blu-ray Disc)(登録商標)などの録画再生用の記録媒体を駆動して録画および再生するドライブ装置を搭載したレコーダ(BDレコーダ)等から、デジタル信号の入力が可能であるものとする。A/D変換器106は、入力端子102bから供給されるアナログ信号にA/D変換を施すことにより生成したデジタル信号をセレクタ107に供給する。
The
操作部111は、ユーザの操作入力を受け付ける。また、受光部112は、リモートコントローラ119からの赤外線を受光する。IP通信部113は、ネットワーク300を介したIP(インターネットプロトコル)通信を行うための通信インターフェースである。
The
CPU114は、テレビジョン装置10全体を制御する制御部である。メモリ115は、CPU114が実行する各種コンピュータプログラムを格納するROM(Read Only Memory)や、CPU114に作業エリアを提供するRAM(Random Access Memory)等である。また、ストレージ116は、HDD(Hard Disk Drive,)やSSD(Solid State Drive)等である。ストレージ116は、例えば、セレクタ107により選択された信号を録画データとして記録する。
The
マイク117は、ユーザが発話した音声を取得して、オーディオI/F118に送出する。マイク117は、音声入力部の一例である。マイク117は、“オン状態”の場合に音声の入力が可能であり、“オフ状態”の場合は、音声の入力が不可である。本実施形態においては、マイク117は、テレビジョン装置10が起動した場合は自動的にオン状態となる。例えば、マイク117は、CPU114による制御によって音声認識を有効状態にすることが選択されている場合は、オン状態のままとなる。また、例えば、マイク117は、CPU114による制御によって音声認識を無効状態にすることが選択された場合に、オフ状態に切り替えられる。音声認識の有効状態と無効状態の選択の詳細については、選択部15の処理として後述する。
The microphone 117 acquires the voice spoken by the user and sends it to the audio I /
オーディオI/F118は、マイク117が取得した音声をアナログ/デジタル変換して、音声信号としてCPU114に送出する。
The audio I /
次に、本実施形態にかかるテレビジョン装置10の機能について説明する。
Next, the function of the
図2は、本実施形態にかかるテレビジョン装置10の機能的構成の一例を示す図である。図2に示すように、テレビジョン装置10は、取得部11と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、選択部15と、機器制御部16とを備える。
FIG. 2 is a diagram showing an example of a functional configuration of the
本実施形態のテレビジョン装置10で実行されるプログラムは、上述した各部(取得部、ウェイクワード検出部、音声認識部、表示制御部、選択部、機器制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU114がROM等からプログラムを読み出して実行することにより上記各部がRAM等の主記憶装置上にロードされ、取得部、ウェイクワード検出部、音声認識部、表示制御部、選択部、機器制御部が主記憶装置上に生成されるようになっている。
The program executed by the
本実施形態のテレビジョン装置10で実行されるプログラムは、例えば、ROM等に予め組み込まれて提供される。また、本実施形態のテレビジョン装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
The program executed by the
さらに、本実施形態のテレビジョン装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態のテレビジョン装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、本実施形態では、1台のCPUによって各機能部が実現されるように記載するが、複数のCPUまたは各種の回路によって各機能部が実現されても良い。
Further, the program executed by the
取得部11は、マイク117に入力されたユーザの音声を、オーディオI/F118を介して取得する。取得部11は、取得した音声を、ウェイクワード検出部12と音声認識部13とに送出する。なお、取得部11が取得する“音声”は、オーディオI/F118によって変換されたデジタルな音声信号であるが、以下、単に“音声”と記載する。
The acquisition unit 11 acquires the user's voice input to the microphone 117 via the audio I /
また、取得部11は、CPU114と接続する操作部111、受光部112、IP通信部113、セレクタ107、信号処理部108等から、各種の信号を取得する。例えば、取得部11は、受光部112が受光したリモートコントローラ119からの赤外線または操作部111に入力された操作に基づいて、ユーザの操作を受け付ける。取得部11は、受け付けたユーザの操作の内容を、表示制御部14と、機器制御部16とに送出する。
Further, the acquisition unit 11 acquires various signals from the
ウェイクワード検出部12は、取得部11によって取得された音声からウェイクワード(Wake Word)を検出する。ウェイクワードは、音声認識サービスの起動のトリガとなる所定の音声コマンドである。ウェイクワードは予め定められているものとする。また、音声信号がウェイクワードを含むか否かを判断する手法は、公知の音声認識の技術を採用することができる。
The wake
本実施形態においては、後述の選択部15によって音声認識の有効状態と無効状態のいずれが選択されたかによってウェイクワード検出部12の設定自体は変化しないが、無効状態が選択された場合は、マイク117はオフ状態になり、音声の入力が不可であるため、音声は取得されない。このため、ウェイクワード検出部12は、音声認識の無効状態が選択されている場合、ウェイクワードの検出処理を実行しない。また、音声認識の有効状態が選択されている場合は、マイク117はオン状態であり、音声の入力が可能である。このため、ウェイクワード検出部12は、音声認識の有効状態が選択されている場合に、マイク117に入力された音声に対するウェイクワードの検出処理を実行する。
In the present embodiment, the setting itself of the wake
ウェイクワード検出部12は、取得部11によって取得された音声からウェイクワードを検出した場合に、表示制御部14および機器制御部16にウェイクワードを検出したことを通知する。また、ウェイクワード検出部12は、ウェイクワードの後にユーザの音声が続いて入力された場合、ウェイクワードの後に続く音声を音声認識部13に送出する。
When the wake word is detected from the voice acquired by the acquisition unit 11, the wake
音声認識部13は、マイク117に入力された音声に対する音声認識処理を実行する。本実施形態においては、後述の選択部15によって音声認識の有効状態と無効状態のいずれが選択されたかによって音声認識部13の設定自体は変化しないが、無効状態が選択された場合は、マイク117は音声の入力が不可であるため、音声は取得されない。このため、音声認識部13は、音声認識の無効状態が選択されている場合、音声認識処理を実行しない。また、音声認識の有効状態が選択されている場合は、マイク117は音声の入力が可能である。このため、音声認識部13は、音声認識の有効状態が選択されている場合に、マイク117に入力された音声に対する音声認識処理を実行する。
The
より詳細には、音声認識部13は、ウェイクワード検出部12によってウェイクワードが検出された場合に、ウェイクワードの後に続く音声を音声認識処理することにより、ユーザの音声の内容を特定する。音声認識処理は、公知の技術を適用可能である。例えば、音声認識部13は、公知の技術を用いて、ユーザの音声の内容をテキストデータに変換する。音声認識部13は、音声認識結果を表示制御部14と機器制御部16とに送出する。本実施形態においては、音声認識部13がユーザの音声を音声認識した結果に基づいて、表示制御部14または機器制御部16等の各機能部が処理を実行することにより、音声認識サービスを実現する。
More specifically, when the wake word is detected by the wake
表示制御部14は、表示パネル110への各種の表示を制御する。例えば、表示制御部14は、取得部11がリモートコントローラ119等に入力されたユーザの操作を取得した場合に、該操作に応じた操作画面を表示パネル110に表示する。より具体的には、ユーザが録画予約の設定を開始するボタンを押下する等の操作をした場合に、表示制御部14は、該ユーザの操作を受け付け可能な操作画面を表示パネル110に表示する。操作画面の表示態様は、例えば、再生中のコンテンツの画面の上に重畳されて表示されるOSD(On Screen Display)でも良いし、表示パネル110全体に表示される全画面表示でも良い。なお、本実施形態において“コンテンツ”とは、テレビ番組、DVD等に録画された動画、またはアプリケーションによって再生される動画等を含むものとする。
The
また、表示制御部14は、各種の通知画面を表示パネル110に表示する。例えば、表示制御部14は、ユーザへの情報提供、警告、または注意喚起等のメッセージを含む通知画面を、再生中のコンテンツの画面の上に重畳してOSDとして表示する。
In addition, the
また、表示制御部14は、ウェイクワード検出部12によってウェイクワードが検出された場合に、音声に対して応答するメッセージまたはアイコン等を、表示パネル110に表示する。音声に対して応答するメッセージまたはアイコン等は、例えば、ユーザの発話を促す内容でも良いし、ユーザの音声の認識結果を文字データとして表示するものでも良い。当該メッセージまたはアイコン等の表示により、ユーザは、ウェイクワードが認識されたこと、および、発話する音声がテレビジョン装置10に対する指示となることを容易に認識することができる。
Further, the
また、例えば、表示制御部14は、表示パネル110に操作画面または通知画面を表示する場合に、操作画面を表示中であることを示す操作画面表示フラグまたは通知画面を表示中であることを示す通知画面表示フラグを、メモリ115に設定する。また、表示制御部14は、操作画面または通知画面の表示を終了した場合は、操作画面表示フラグまたは通知画面表示フラグを、メモリ115から削除する。なお、表示パネル110に操作画面または通知画面を表示であることを示す手法はこれに限定されるものではない。例えば、表示制御部14は、表示パネル110に操作画面または通知画面を表示したこと、または操作画面または通知画面の表示を終了したことを、選択部15に通知しても良い。
Further, for example, when the
また、表示制御部14は、音声認識部13によって認識されたユーザの音声に含まれる命令に基づいて、表示パネル110の表示を制御する。例えば、表示制御部14は、ユーザの音声に含まれる命令に基づいて、チューナ103を制御して、ユーザが音声で指定した番組が放送されているチャンネルを選曲し、当該番組を表示パネル110に表示する。また、表示制御部14は、ユーザの音声に含まれる命令に基づいて、ストレージ116または外部の記憶装置に保存された番組の録画データを再生して表示パネル110に表示しても良い。
Further, the
選択部15は、所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択する。 The selection unit 15 selects either an enabled state or an disabled state of voice recognition based on a predetermined condition.
本実施形態における所定の条件は、「操作画面または通知画面の少なくともいずれかが表示パネル110に表示されていること」である。本実施形態の選択部15は、テレビジョン装置10の表示パネル110の状態が所定の条件を満たす場合に、無効状態を選択する。また、選択部15は、テレビジョン装置10の表示パネル110の状態が所定の条件を満たさない場合に、有効状態を選択する。
The predetermined condition in the present embodiment is that "at least one of the operation screen and the notification screen is displayed on the
例えば、選択部15は、メモリ115に操作画面表示フラグが立っている場合に、操作画面が表示されていると判断し、メモリ115に通知画面表示フラグが立っている場合に通知画面表示されていると判断する。選択部15は、操作画面または通知画面の少なくともいずれかが表示パネル110に表示されていると判断した場合に、テレビジョン装置10が所定の条件を満たすと判定する。この場合、選択部15は、無効状態を選択する。
For example, the selection unit 15 determines that the operation screen is displayed when the operation screen display flag is set in the
なお、操作画面または通知画面の表示の有無を判断する手法はこれに限定されるものではなく、例えば、選択部15は、表示制御部14から取得した操作画面または通知画面の表示の有無に基づいて、操作画面または通知画面の少なくともいずれかが表示パネル110に表示されているか否かを判断しても良い。
The method of determining whether or not the operation screen or the notification screen is displayed is not limited to this. For example, the selection unit 15 is based on the presence or absence of the display of the operation screen or the notification screen acquired from the
また、選択部15は、操作画面および通知画面のいずれも表示パネル110に表示されていないと判断した場合に、テレビジョン装置10が所定の条件を満たさないと判断する。この場合、選択部15は、有効状態を選択する。
Further, when it is determined that neither the operation screen nor the notification screen is displayed on the
選択部15は、音声認識の有効状態と無効状態の選択結果を、機器制御部16に送出する。
The selection unit 15 sends the selection result of the enabled state and the disabled state of the voice recognition to the
機器制御部16は、テレビジョン装置10に含まれる各種の機器を制御する。例えば、機器制御部16は、選択部15によって音声認識の無効状態が選択された場合に、マイク117をオフ状態にする。また、例えば、機器制御部16は、選択部15によって音声認識の有効状態が選択された場合に、マイク117をオン状態にする。
The
また、機器制御部16は、ウェイクワード検出部12によってウェイクワードが検出された場合に、スピーカ109を制御して音量を下げる。これは、ユーザがウェイクワードの後に発話する音声の入力が、コンテンツの音に干渉されることを低減するためである。
Further, the
また、機器制御部16は、音声認識部13によって認識されたユーザの音声に含まれる命令に基づいて、テレビジョン装置10に含まれる各種の機器を制御する。例えば、機器制御部16は、ユーザの音声に、「音量を上げて」という命令が含まれている場合に、スピーカ109を制御して音量を上げる。なお、機器制御部16は、音声認識部13によって認識されたユーザの音声に含まれる命令に基づいて、インターネットから情報を検索しても良い。
Further, the
次に、以上のように構成されたテレビジョン装置10で実行される音声認識の有効状態と無効状態の選択処理の流れを説明する。
Next, the flow of the selection process of the enabled state and the disabled state of the voice recognition executed by the
図3は、本実施形態にかかる音声認識の有効状態と無効状態の選択処理の流れの一例を示すフローチャートである。このフローチャートの処理は、テレビジョン装置10が稼動している間は実行され続けるものとする。また、このフローチャートの開始時点においては、音声認識は有効状態であり、マイク117はオン状態であるものとする。
FIG. 3 is a flowchart showing an example of the flow of the process of selecting the enabled state and the disabled state of the voice recognition according to the present embodiment. It is assumed that the processing of this flowchart continues to be executed while the
まず、選択部15は、例えば、メモリ115に操作画面表示フラグまたは通知画面表示フラグが立っているか否かに基づいて、テレビジョン装置10が所定の条件を満たすか否かを判定する(S1)。
First, the selection unit 15 determines whether or not the
選択部15は、メモリ115に操作画面表示フラグまたは通知画面表示フラグが立っている場合に、テレビジョン装置10が所定の条件を満たすと判定する(S1“Yes”)。この場合、選択部15は、音声認識の無効状態を選択する(S2)。選択部15は、音声認識の無効状態を選択したことを、機器制御部16に送出する。
The selection unit 15 determines that the
次に、機器制御部16は、マイク117を“オフ状態”にする(S3)。これにより、マイク117は音声の入力を受け付けない状態となる。機器制御部16によってマイク117が“オフ状態”にされた後は、S1の処理に戻り、処理が繰り返される。
Next, the
また、選択部15は、メモリ115に操作画面表示フラグおよび通知画面表示フラグのいずれも立っていない場合に、テレビジョン装置10が所定の条件を満たさないと判定する(S1“No”)。この場合、選択部15は、音声認識の有効状態を選択する(S4)。例えば、音声認識が無効状態になった後に、操作画面または通知画面の表示が終了してフラグが削除された場合、選択部15が有効状態を選択することにより、音声認識が無効状態から有効状態に切り替わる。選択部15は、音声認識の有効状態を選択したことを、機器制御部16に送出する。
Further, the selection unit 15 determines that the
次に、機器制御部16は、マイク117をオン状態にする(S5)。これにより、マイク117は音声の入力を受け付け可能な状態となる。なお、既にマイク117がオン状態である場合は、機器制御部16は、特に何も処理を実行しない。
Next, the
次に、ウェイクワード検出部12は、マイク117に入力されたユーザの音声を、オーディオI/F118を介して取得する(S6)。取得部11は、取得した音声を、ウェイクワード検出部12と音声認識部13とに送出する。
Next, the wake
そして、ウェイクワード検出部12は、取得部11によって取得された音声にウェイクワードが含まれるか否かを判断する(S7)。ウェイクワード検出部12は、取得された音声からウェイクワードを検出した場合(S7“Yes”)、表示制御部14および機器制御部16にウェイクワードを検出したことを通知する。また、ウェイクワード検出部12は、ウェイクワードの後にユーザの音声が続いて入力された場合、ウェイクワードの後に続く音声を音声認識部13に送出する。
Then, the wake
次に、機器制御部16は、スピーカ109を制御して再生中のコンテンツの音量を下げる(S8)。また、表示制御部14は、ユーザに対する応答メッセージまたはアイコンを表示パネルに表示パネル110に表示する(S9)。このような機器制御部16または表示制御部14による処理は、音声認識サービスの開始時の処理の一例である。
Next, the
そして、音声認識部13は、ウェイクワードの後にマイク117に入力された音声に対する音声認識処理を実行する(S10)。音声認識部13は、音声認識処理による音声認識結果を、表示制御部14と機器制御部16とに送出する。そして、表示制御部14または機器制御部16は、音声認識結果に基づく処理を実行することにより、音声認識サービスを実現する(S11)。その後、S1の処理に戻り、テレビジョン装置10の電源が切られるまで、このフローチャートの処理が繰り返される。
Then, the
このように、本実施形態のテレビジョン装置10は、所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択し、有効状態を選択した場合はマイク117に入力された音声に対する音声認識処理を実行し、無効状態を選択した場合は音声認識処理を実行しない。このため、本実施形態のテレビジョン装置10によれば、音声認識サービスが不要な場面において音声認識サービスが開始することを低減することができる。
As described above, the
例えば、ユーザが発話した音声が、ウェイクワードではないにも関わらず、ウェイクワードとして誤認識される場合がある。一般に、ユーザがリモートコントローラ等を操作している場面においては、音声認識サービスによる操作は不要であることが多い。しかしながら、従来技術においては、ユーザが表示パネル上の操作画面を見ながらリモートコントローラ等を操作している場面において、ユーザの発話した音声がウェイクワードとして誤認識されると、音声認識サービスが開始し、表示パネル上にユーザに対する応答メッセージまたはアイコンが表示されて操作画面が消えてしまったり、見えにくくなってしまったりすることがあった。 For example, a voice spoken by a user may be erroneously recognized as a wake word even though it is not a wake word. In general, when the user is operating the remote controller or the like, the operation by the voice recognition service is often unnecessary. However, in the prior art, when the user is operating the remote controller or the like while looking at the operation screen on the display panel and the voice spoken by the user is erroneously recognized as a wake word, the voice recognition service is started. , A response message or icon to the user may be displayed on the display panel, and the operation screen may disappear or become difficult to see.
また、表示パネル上に通知画面が表示されている場合、ユーザは通知画面に表示されたメッセージ等を読んでいるため、該通知画面の表示の終了までは、他の画面によって該通知画面が遮られることは望ましくない。しかしながら、従来技術においては、ユーザが表示パネル上の通知画面を見ていても、ユーザの発話した音声がウェイクワードとして誤認識されると、音声認識サービスが開始し、表示パネル上にユーザに対する応答メッセージまたはアイコンが表示され、通知画面が消えてしまったり、見えにくくなってしまったりすることがあった。このような場合、ユーザが煩わしさを感じたり、ユーザへの情報提供に支障が出たりする場合がある。 Further, when the notification screen is displayed on the display panel, since the user is reading the message or the like displayed on the notification screen, the notification screen is blocked by another screen until the display of the notification screen ends. It is not desirable to be. However, in the prior art, even if the user is looking at the notification screen on the display panel, if the voice spoken by the user is erroneously recognized as a wake word, the voice recognition service is started and a response to the user is made on the display panel. Sometimes a message or icon was displayed and the notification screen disappeared or became difficult to see. In such a case, the user may feel annoyed or the information provision to the user may be hindered.
これに対して、本実施形態のテレビジョン装置10は、表示パネル110に操作画面または通知画面の少なくともいずれかが表示されている場合に、テレビジョン装置10が所定の条件を満たすと判断し、無効状態を選択する。このため、本実施形態のテレビジョン装置10によれば、表示パネル110に操作画面または通知画面が表示されている場合に、音声認識サービスが開始することを低減することができる。このため、本実施形態のテレビジョン装置10によれば、ユーザが操作画面または通知画面を使用しているときに、表示パネル110上にユーザに対する応答メッセージまたはアイコンが表示されてユーザが操作画面または通知画面を見にくくなるということを、低減することができる。
On the other hand, the
また、本実施形態のテレビジョン装置10は、有効状態を選択した場合にマイク117をオン状態にし、無効状態を選択した場合にマイク117をオフ状態にする。このため、本実施形態のテレビジョン装置10によれば、無効状態においては物理的にユーザの音声の入力を不可にし、音声認識サービス開始することを低減することができる。
Further, the
なお、本実施形態では、ハードウェアであるマイク117を音声入力部の一例としたが、プログラムによって実現される取得部11を、音声入力部の一例としても良い。また、マイク117は、テレビジョン装置10本体ではなく、リモートコントローラ119に設けられても良い。また、音声入力部は、テレビジョン装置10の外部の音声認識機器によって実現されても良い。
In the present embodiment, the microphone 117, which is hardware, is used as an example of the voice input unit, but the acquisition unit 11 realized by the program may be used as an example of the voice input unit. Further, the microphone 117 may be provided on the
また、本実施形態では、「操作画面または通知画面の少なくともいずれかが表示パネル110に表示されていること」を所定の条件としたが、「操作画面が表示パネル110に表示されていること」または「通知画面が表示パネル110に表示されていること」を所定の条件としても良い。例えば、「操作画面が表示パネル110に表示されていること」を所定の件とする場合、選択部15は、操作画面が表示パネル110に表示されている場合に、通知画面の表示の有無に関わらず、所定の条件を満たすと判定する。また、選択部15は、操作画面が表示パネル110に表示されていない場合に、通知画面の表示の有無に関わらず、所定の条件を満たさないと判定する。
Further, in the present embodiment, "at least one of the operation screen and the notification screen is displayed on the
また、本実施形態では、ウェイクワード検出部12と音声認識部13とを別個の機能部としたが、音声認識部13がウェイクワード検出部12の機能を備えるものとしても良い。また、音声認識部13とウェイクワード検出部12とを総称して、音声認識部と称しても良い。なお、本実施形態で例示した音声認識サービスの内容は一例であり、音声認識サービスの内容は、例示した内容に限定されるものではない。
Further, in the present embodiment, the wake
また、本実施形態における音量の低下や表示パネル110への応答メッセージ等の表示は、音声認識サービス開始時の処理の一例であり、音声認識サービス開始時の処理はこれらに限定されるものではない。例えば、テレビジョン装置10は、音声認識サービス開始時に、応答メッセージを音声出力しても良い。
Further, the reduction in volume and the display of the response message on the
また、本実施形態では、選択部15は、所定の条件を満たすと判定した場合に、音声認識の無効状態を選択し、所定の条件を満たさないと判定した場合に、音声認識の有効状態を選択するものとしたが、選択基準はこれに限定されるものではない。 Further, in the present embodiment, the selection unit 15 selects the invalid state of voice recognition when it is determined that the predetermined condition is satisfied, and sets the valid state of voice recognition when it is determined that the predetermined condition is not satisfied. The selection is made, but the selection criteria are not limited to this.
例えば、音声認識が無効状態であることが通常の状態である場合、選択部15は、所定の条件を満たすと判定した場合に、音声認識の有効状態を選択し、所定の条件を満たさないと判定した場合に、音声認識の無効状態を選択するものとしても良い。具体的な例を挙げると、所定の条件が「操作画面および通知画面のいずれも表示パネル110に表示されていないこと」である場合、選択部15は、操作画面および通知画面のいずれも表示パネル110に表示されていないと判断した場合に、所定の条件を満たすと判定し、音声認識の有効状態を選択しても良い。また、選択部15は、操作画面または通知画面のいずれかが表示パネル110に表示されていると判断した場合に、所定の条件を満たさないと判定し、音声認識の無効状態を選択するものとしても良い。
For example, when it is a normal state that the voice recognition is disabled, the selection unit 15 selects the enabled state of the voice recognition when it determines that the predetermined condition is satisfied, and the predetermined condition is not satisfied. When it is determined, the invalid state of voice recognition may be selected. To give a specific example, when the predetermined condition is "neither the operation screen nor the notification screen is displayed on the
(第2の実施形態)
上述の第1の実施形態では、音声認識の無効状態が選択される所定の条件は、「操作画面または通知画面の少なくともいずれかが表示パネル110に表示されていること」であった。これに対して、この第2の実施形態では、音声認識の無効状態が選択される所定の条件は、「所定のアプリケーションが実行中であること」である。
(Second embodiment)
In the first embodiment described above, the predetermined condition for selecting the disabled state of voice recognition is "at least one of the operation screen and the notification screen is displayed on the
本実施形態にかかるテレビジョン装置10のハードウェア構成は、第1の実施形態と同様である。
The hardware configuration of the
次に、本実施形態にかかるテレビジョン装置10の機能について説明する。
Next, the function of the
図4は、本実施形態にかかるテレビジョン装置10の機能的構成の一例を示す図である。図4に示すように、テレビジョン装置10は、取得部11と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、選択部1015と、機器制御部16と、アプリケーション実行部17とを備える。アプリケーション実行部17も、他の機能部と同様に、CPU114がプログラムを実行することによって実現される。取得部11と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、機器制御部16とは、第1の実施形態と同様の機能を備える。
FIG. 4 is a diagram showing an example of the functional configuration of the
アプリケーション実行部17は、コンテンツ配信のアプリケーションを実行し、該アプリケーションによって配信されるコンテンツの動画を、表示パネル110に表示させる。
The
アプリケーション実行部17によって実行されるコンテンツ配信のアプリケーションは、本実施形態における所定のアプリケーションの一例である。コンテンツ配信のアプリケーションは、例えば、外部のサーバから、ネットワーク300を介してドラマや映画等のコンテンツ動画の配信を受けるアプリケーションとするが、他の機能を含むアプリケーションであっても良い。
The content distribution application executed by the
アプリケーション実行部17は、例えば、コンテンツ配信のアプリケーションの実行中は、メモリ115にコンテンツ配信のアプリケーションが実行中であることを示すアプリケーション実行フラグを設定するものとする。
For example, while the content distribution application is being executed, the
本実施形態の選択部1015は、第1の実施形態と同様に、所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択するが、本実施形態においては第1の実施形態とは異なる条件を用いて有効状態と無効状態のいずれかを選択する。
Similar to the first embodiment, the
より詳細には、本実施形態における所定の条件は、「所定のアプリケーション(コンテンツ配信のアプリケーション)が実行中であること」である。本実施形態の選択部1015は、コンテンツ配信のアプリケーションの実行状態を取得し、コンテンツ配信のアプリケーションが実行中である場合に、所定の条件が満たされていると判定し、音声認識の無効状態を選択する。また、選択部1015は、コンテンツ配信のアプリケーションが実行中ではない場合に、所定の条件が満たされていないと判定し、音声認識の有効状態を選択する。
More specifically, the predetermined condition in the present embodiment is "a predetermined application (content distribution application) is being executed". The
選択部1015は、例えば、メモリ115のアプリケーション実行フラグの有無に基づいて、所定のアプリケーションが実行中であるか否かを判定するが、他の手法で所定のアプリケーションの実行状態を取得しても良い。
The
また、本実施形態にかかる音声認識の有効状態と無効状態の選択処理の流れは、図3で示した第1の実施形態と同様である。 Further, the flow of the selection process of the valid state and the invalid state of the voice recognition according to the present embodiment is the same as that of the first embodiment shown in FIG.
このように、本実施形態のテレビジョン装置10は、コンテンツ配信のアプリケーションが実行中ではない場合に有効状態を選択し、コンテンツ配信のアプリケーションが実行中である場合に無効状態を選択する。このため、本実施形態のテレビジョン装置10によれば、第1の実施形態の効果に加えて、コンテンツ配信のアプリケーションによって動画コンテンツ等が表示パネル110に表示されている場合に、音声認識サービスが開始することを低減する。
As described above, the
すなわち、本実施形態のテレビジョン装置10によれば、音声認識サービスの開始によって表示パネル110上に表示されたコンテンツ動画が消えてしまったり、コンテンツ動画の上に応答メッセージ等が表示されてコンテンツ動画が隠れてしまったりという事態の発生を低減することができる。また、音声認識サービスが開始すると、スピーカ109の音量が下げられるため、再生中のコンテンツ動画の視聴が妨げられる場合がある。本実施形態のテレビジョン装置10によれば、コンテンツ配信のアプリケーションによって動画コンテンツ等が表示パネル110に表示されている場合に、音声認識サービスが開始することを低減するため、再生中のコンテンツ動画をユーザが視聴することを妨げることを低減することができる。
That is, according to the
また、実際には音声認識サービスが開始しなくても、音声認識サービスが開始することをユーザが警戒し、動画コンテンツ等の視聴に集中できない場合があるが、本実施形態のテレビジョン装置10は、このような事態を低減することができる。 Further, even if the voice recognition service does not actually start, the user may be wary of the start of the voice recognition service and may not be able to concentrate on viewing video content or the like. , Such a situation can be reduced.
なお、本実施形態においては、所定のアプリケーションはコンテンツ配信のアプリケーションであるものとしたが、テレビジョン装置10で実行可能なアプリケーションのうち、いずれのアプリケーションが「所定のアプリケーション」となるかは、テレビジョン装置10に予め設定されていても良いし、ユーザが設定可能であるものとしても良い。
In the present embodiment, the predetermined application is assumed to be a content distribution application, but which of the applications that can be executed by the
(第3の実施形態)
この第3の実施形態では、音声認識の無効状態が選択される所定の条件は、「現在時刻が無効期間内であること」である。
(Third Embodiment)
In this third embodiment, the predetermined condition for selecting the invalid state of voice recognition is "the current time is within the invalid period".
本実施形態にかかるテレビジョン装置10のハードウェア構成は、第1の実施形態と同様である。
The hardware configuration of the
次に、本実施形態にかかるテレビジョン装置10の機能について説明する。
Next, the function of the
図5は、本実施形態にかかるテレビジョン装置10の機能的構成の一例を示す図である。図5に示すように、テレビジョン装置10は、取得部1011と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、選択部2015と、機器制御部16とを備える。ウェイクワード検出部12と、音声認識部13と、表示制御部14と、機器制御部16とは、第1の実施形態と同様の機能を備える。
FIG. 5 is a diagram showing an example of the functional configuration of the
本実施形態のテレビジョン装置10は、音声認識を無効状態にする無効期間の設定を有する。無効期間は、音声認識が無効状態となる期間である。無効期間の設定は、例えば、ストレージ116に保存される。本実施形態においては、ユーザの操作によって該無効期間の設定が登録または変更されるものとする。無効期間の設定とは、例えば、無効期間の開始時刻および終了時刻に関する設定である。
The
より詳細には、本実施形態の取得部1011は、第1の実施形態の機能を備えた上で、ユーザによる無効期間の開始時刻および終了時刻の入力操作を受け付ける。例えば、取得部1011は、受光部112が受光したリモートコントローラ119からの赤外線または操作部111に入力された操作に基づいて、ユーザによる無効期間の開始時刻および終了時刻の入力操作を受け付け、受け付けた無効期間の開始時刻および終了時刻を示す無効期間情報を、ストレージ116等に保存する。なお、無効期間情報の保存場所はこれに限定されるものではない。
More specifically, the acquisition unit 1011 of the present embodiment has the functions of the first embodiment and accepts the input operation of the start time and the end time of the invalid period by the user. For example, the acquisition unit 1011 receives and accepts the input operation of the start time and the end time of the invalid period by the user based on the infrared rays from the
例えば、ユーザは、就寝中に音声認識サービスが起動しないように、“PM23:00〜AM06:00”を無効期間として設定しても良い。また、ユーザは、自宅を留守にする期間に音声認識サービスが起動しないように、“AM09:00〜PM17:00”を無効期間として設定しても良い。 For example, the user may set "PM23: 00 to AM06: 00" as an invalid period so that the voice recognition service does not start while sleeping. In addition, the user may set "AM09: 00 to PM17:00" as an invalid period so that the voice recognition service does not start during the period when he / she is away from home.
また、本実施形態においては、無効期間として設定されていない期間は全て有効期間であるものとする。なお、本実施形態においては、第1の実施形態と同様に、通常の状態では音声認識が有効状態でマイク117がオン状態であるものとする。 Further, in the present embodiment, all the periods not set as the invalid period shall be the valid period. In the present embodiment, as in the first embodiment, it is assumed that the voice recognition is enabled and the microphone 117 is on in the normal state.
本実施形態の選択部2015は、第1の実施形態と同様に、所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択するが、本実施形態においては第1の実施形態とは異なる条件を用いて有効状態と無効状態のいずれかを選択する。
Similar to the first embodiment, the
より詳細には、本実施形態における所定の条件は、「現在時刻が無効期間内であること」である。本実施形態の選択部2015は、現在時刻が無効期間内である場合に、所定の条件が満たされていると判定し、音声認識の無効状態を選択する。また、選択部2015は、現在時刻が有効期間内であるである場合に、所定の条件が満たされていないと判定し、音声認識の有効状態を選択する。
More specifically, the predetermined condition in the present embodiment is "the current time is within the invalid period". When the current time is within the invalid period, the
また、本実施形態にかかる音声認識の状態選択処理の流れは、図3で示した第1の実施形態と同様である。 Further, the flow of the voice recognition state selection process according to the present embodiment is the same as that of the first embodiment shown in FIG.
このように、本実施形態のテレビジョン装置10によれば、現在時刻が有効期間内である場合に有効状態を選択し、現在時刻が無効期間内である場合に無効状態を選択することにより、第1の実施形態の効果に加えて、ユーザが音声認識サービスの開始を望まない時間帯に、音声認識サービスが開始されることを低減することができる。
As described above, according to the
なお、本実施形態においては、ユーザによる無効期間の設定を受け付けるものとしたが、有効期間の設定を受け付けるものとしても良い。例えば、テレビジョン装置10において音声認識が無効状態であることが通常の状態である場合、設定された有効期間に限り、音声認識が有効状態になるものとしても良い。この場合、所定の条件は、例えば、「現在時刻が有効期間内であること」としても良い。また、当該構成を採用する場合、選択部2015は、所定の条件を満たすと判定した場合に、音声認識の有効状態を選択し、所定の条件を満たさないと判定した場合に、音声認識の無効状態を選択しても良い。
In the present embodiment, the invalid period setting by the user is accepted, but the valid period setting may be accepted. For example, when it is a normal state that the voice recognition is disabled in the
なお、本実施形態においては、無効期間は単に開始時刻と終了時刻とで定義されるものとしたが、曜日、または祝日等のカレンダ情報によってさらに詳細に定義されても良い。 In the present embodiment, the invalid period is simply defined by the start time and the end time, but may be defined in more detail by calendar information such as a day of the week or a holiday.
(第4の実施形態)
この第4の実施形態では、音声認識の無効状態が選択される所定の条件は、第3の実施形態と同様に「現在時刻が無効期間内であること」である。ただし、第3の実施形態では、ユーザが無効期間を設定していたのに対して、この第4の実施形態では、テレビジョン装置10が学習結果に基づいて、無効期間を設定する。
(Fourth Embodiment)
In this fourth embodiment, the predetermined condition for selecting the invalid state of voice recognition is "the current time is within the invalid period" as in the third embodiment. However, in the third embodiment, the user sets the invalid period, whereas in the fourth embodiment, the
本実施形態にかかるテレビジョン装置10のハードウェア構成は、第1の実施形態と同様である。
The hardware configuration of the
次に、本実施形態にかかるテレビジョン装置10の機能について説明する。
Next, the function of the
図6は、本実施形態にかかるテレビジョン装置10の機能的構成の一例を示す図である。図6に示すように、テレビジョン装置10は、取得部11と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、選択部2015と、機器制御部16と、学習部18とを備える。学習部18も、他の機能部と同様に、CPU114がプログラムを実行することによって実現される。取得部11と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、機器制御部16とは、第1の実施形態と同様の機能を備える。また、選択部2015は、第3の実施形態と同様の機能を備える。
FIG. 6 is a diagram showing an example of the functional configuration of the
学習部18は、ユーザによる操作のパターンを学習し、学習済みモデルを生成する。本実施形態における学習済モデルは、一例として、時刻と、該時刻における音声認識サービスの要否とを対応付けた情報である。学習部18が学習をする手法には、例えば公知の機械学習または深層学習における教師なし学習の技術を適用することができる。学習済モデルは、例えばストレージ116等に保存されるが、保存場所はこれに限定されるものではない。
The learning unit 18 learns a pattern of operations by the user and generates a learned model. The trained model in the present embodiment is, for example, information in which the time is associated with the necessity of the voice recognition service at the time. For example, a known technique of unsupervised learning in machine learning or deep learning can be applied to the method in which the learning unit 18 learns. The trained model is stored in, for example,
学習部18の入力データは、ユーザの操作内容と時刻であり、例えば、ユーザが音声認識サービスの取り消し操作をした時刻、ユーザによる音声認識サービスの利用時刻等である。例えば、開始した音声認識サービスをユーザが利用せずにリモートコントローラ119等で終了させた場合、該時刻と、ユーザが音声認識サービスの取り消し操作をしたことを学習する。
The input data of the learning unit 18 is the operation content and time of the user, for example, the time when the user cancels the voice recognition service, the time when the user uses the voice recognition service, and the like. For example, when the started voice recognition service is terminated by the
学習部18は、学習結果に基づいて、音声認識サービスが不要な時刻を出力する。学習部18は、当該出力の結果を、無効期間の開始時刻および終了時刻を示す無効期間情報として、ストレージ116等に保存する。
The learning unit 18 outputs a time when the voice recognition service is unnecessary based on the learning result. The learning unit 18 stores the result of the output in the
また、学習部18は、一度学習済みモデルを生成した後も、継続的にユーザによる操作のパターンを学習し、学習済みモデルの精度を向上させるものとする。 Further, the learning unit 18 continuously learns the operation pattern by the user even after the trained model is generated once, and improves the accuracy of the trained model.
また、本実施形態にかかる音声認識の有効状態と無効状態の選択処理の流れは、図3で示した第1の実施形態と同様である。 Further, the flow of the selection process of the valid state and the invalid state of the voice recognition according to the present embodiment is the same as that of the first embodiment shown in FIG.
このように、本実施形態のテレビジョン装置10は、ユーザによる操作のパターンを学習した結果に基づいて、音声認識の無効期間を設定し、現在時刻が有効期間内である場合に有効状態を選択し、現在時刻が無効期間内である場合に無効状態を選択する。このため、本実施形態のテレビジョン装置10によれば、第1,3の実施形態の効果に加えて、ユーザによる無効期間の設定操作の手間を低減することができる。
As described above, the
なお、本実施形態で例示した学習部18への入力データおよび出力結果は、一例であり、これらに限定されるものではない。また、学習部18は、時刻だけではなく、曜日、または祝日等のカレンダ情報によって異なる無効期間を設定しても良い。 The input data and the output result to the learning unit 18 illustrated in this embodiment are examples, and are not limited thereto. Further, the learning unit 18 may set a different invalid period depending on not only the time but also the calendar information such as the day of the week or a holiday.
なお、本実施形態においては、テレビジョン装置10は、ユーザによる操作のパターンを学習した結果に基づいて、音声認識の無効期間を設定するものとしたが、学習した結果に基づいて、音声認識の有効期間の設定するものとしても良い。
In the present embodiment, the
(第5の実施形態)
この第5の実施形態では、音声認識の無効状態が選択される所定の条件は、「現在時刻が特定の番組の開始時刻から終了時刻の間であること」である。
(Fifth Embodiment)
In this fifth embodiment, the predetermined condition for selecting the invalid state of voice recognition is "the current time is between the start time and the end time of a specific program".
本実施形態にかかるテレビジョン装置10のハードウェア構成は、第1の実施形態と同様である。
The hardware configuration of the
次に、本実施形態にかかるテレビジョン装置10の機能について説明する。
Next, the function of the
図7は、本実施形態にかかるテレビジョン装置10の機能的構成の一例を示す図である。図7に示すように、テレビジョン装置10は、取得部2011と、ウェイクワード検出部12と、音声認識部13と、表示制御部14と、選択部3015と、機器制御部16と、番組表生成部19とを備える。ウェイクワード検出部12と、音声認識部13と、表示制御部14と、機器制御部16とは、第1の実施形態と同様の機能を備える。
FIG. 7 is a diagram showing an example of the functional configuration of the
本実施形態の取得部2011は、第1の実施形態の機能を備えた上で、放送信号に含まれるSI(Service Information)情報から、番組に関する情報を取得する。取得部2011は、取得した番組に関する情報を、番組表生成部19に送出する。 The acquisition unit 2011 of the present embodiment has the functions of the first embodiment and acquires information about the program from the SI (Service Information) information included in the broadcast signal. The acquisition unit 2011 sends information about the acquired program to the program guide generation unit 19.
また、本実施形態の取得部2011は、ユーザによる特定の番組を指定する操作を受け付ける。例えば、取得部2011は、受光部112が受光したリモートコントローラ119からの赤外線または操作部111に入力された操作に基づいて、ユーザによる特定の番組を指定する操作を受け付ける。また、取得部2011は、ストレージ116に保存された番組表から、ユーザによって指定された特定の番組の開始時刻および終了時刻を取得する。取得部2011は、受け付けた特定の番組の開始時刻および終了時刻を示す番組時刻情報を、ストレージ116等に保存する。なお、番組時刻情報の保存場所はこれに限定されるものではない。
In addition, the acquisition unit 2011 of the present embodiment accepts an operation of designating a specific program by the user. For example, the acquisition unit 2011 accepts an operation of designating a specific program by the user based on the infrared rays from the
番組表生成部19は、取得部2011によって取得された番組に関する情報に基づいて、番組表を生成する。番組表生成部19は、生成した番組表を、例えば、ストレージ116に保存する。
The program guide generation unit 19 generates a program guide based on the information about the program acquired by the acquisition unit 2011. The program guide generation unit 19 stores the generated program guide in, for example, the
また、ユーザが特定の番組の開始時刻および終了時刻を入力するものとしても良い。 Further, the user may input the start time and the end time of a specific program.
本実施形態の選択部3015は、第1の実施形態と同様に、所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択するが、本実施形態においては第1の実施形態とは異なる条件を用いて有効状態と無効状態のいずれかを選択する。
Similar to the first embodiment, the
より詳細には、本実施形態における所定の条件は、「現在時刻が特定の番組の開始時刻から終了時刻の間であること」である。「特定の番組の開始時刻から終了時刻の間」は、本実施形態における無効期間の一例である。 More specifically, the predetermined condition in the present embodiment is "the current time is between the start time and the end time of a specific program". “Between the start time and the end time of a specific program” is an example of an invalid period in the present embodiment.
本実施形態の選択部3015は、現在時刻が特定の番組の開始時刻から終了時刻の間であるか否かに基づいて、有効状態と無効状態のいずれかを選択する。例えば、選択部3015は、現在時刻が特定の番組の開始時刻から終了時刻の間である場合に、所定の条件が満たされていると判定し、音声認識の無効状態を選択する。また、選択部3015は、現在時刻が特定の番組の開始時刻から終了時刻の間である場合に、所定の条件が満たされていないと判定し、音声認識の有効状態を選択する。
The
また、本実施形態にかかる音声認識の有効状態と無効状態の選択処理の流れは、図3で示した第1の実施形態と同様である。 Further, the flow of the selection process of the valid state and the invalid state of the voice recognition according to the present embodiment is the same as that of the first embodiment shown in FIG.
このように、本実施形態のテレビジョン装置10は、現在時刻が特定の番組の開始時刻から終了時刻の間であるか否かに基づいて、有効状態と無効状態のいずれかを選択する。このため、本実施形態のテレビジョン装置10によれば、第1の実施形態の効果に加えて、ユーザが特定の番組を視聴している際に、音声認識サービスが開始することを防止することができる。このため、本実施形態のテレビジョン装置10によれば、ユーザがお気に入りの番組の視聴を不要な音声認識サービスの開始によって妨げられることを低減することができる。また、本実施形態のテレビジョン装置10によれば、ユーザが特定番組の視聴中に音声認識サービスによって意図せず他の番組に切り替わったり、テレビジョン装置10の電源が切れてしまったりという誤動作の発生を低減することができ、また、該誤動作の発生によってユーザが番組を見逃してしまうことを低減させることができる。
As described above, the
なお、本実施形態においては、特定の番組をユーザが設定するものとしたが、テレビジョン装置10がユーザの視聴履歴を学習した学習結果に基づいて特定の番組を設定しても良い。
In the present embodiment, the user sets a specific program, but the
また、本実施形態においては、受信装置の一例であるテレビジョン装置10が、放送信号から番組に関する情報を取得するものとしたが、受信装置は、IP通信部113およびネットワーク300を介して外部から番組表データを取得しても良い。
Further, in the present embodiment, the
(変形例1)
上述の第1から第5の実施形態では、音声認識が有効状態の場合と無効状態の場合とでマイク117のオン状態とオフ状態とを切り替えるものとしたが、マイク117はオン状態のままで、音声認識機能の有効状態と無効状態とを切り替えるものとしても良い。
(Modification example 1)
In the first to fifth embodiments described above, the microphone 117 is switched between the on state and the off state depending on whether the voice recognition is enabled or disabled, but the microphone 117 remains on. , The voice recognition function may be switched between the enabled state and the disabled state.
例えば、音声認識の無効状態が選択された場合、ウェイクワード検出部12および音声認識部13は、マイク117に入力された音声に対するウェイクワードの検出処理および音声認識処理を実行しない。このため、音声認識の無効状態が選択された場合には、マイク117が音声を入力可能な状態であっても、音声認識サービスが開始することは無い。
For example, when the voice recognition disabled state is selected, the wake
また、音声認識の有効状態が選択された場合は、ウェイクワード検出部12および音声認識部13は、第1〜5の実施形態と同様に、マイク117に入力された音声に対するウェイクワードの検出処理または音声認識処理を実行する。
When the voice recognition enabled state is selected, the wake
(変形例2)
上述の第1から第5の実施形態では、それぞれ異なる所定の条件に基づいて音声認識の有効状態と無効状態とを選択していたが、異なる実施形態における所定の条件を組み合わせても良い。例えば、音声認識の無効状態が選択される所定の条件は、第1から第5の実施形態の所定の条件をOR条件として組み合わせた「操作画面または通知画面の少なくともいずれかが表示パネル110に表示されていること、所定のアプリケーションが実行中であること、現在時刻が無効期間内であること、または、現在時刻が特定の番組の開始時刻から終了時刻の間であること」であっても良いし、これらの所定の条件の一部を組み合わせたものであっても良い。
(Modification 2)
In the first to fifth embodiments described above, the enabled state and the disabled state of voice recognition are selected based on different predetermined conditions, but predetermined conditions in different embodiments may be combined. For example, the predetermined condition for selecting the disabled state of voice recognition is "at least one of the operation screen and the notification screen is displayed on the
(変形例3)
上述の第1から第5の実施形態では、テレビジョン装置10を受信装置の一例としたが、受信装置は、これに限定されるものではない。例えば、受信装置は、セットアップボックス、またはテレビジョン機能付きのPC(Personal Computer)等でも良いし、BD(Blu-ray Disc)(登録商標)レコーダまたはDVDレコーダ等の録画再生装置であっても良い。
(Modification example 3)
In the first to fifth embodiments described above, the
以上説明したとおり、第1から第5の実施形態によれば、音声認識サービスが不要な場面において音声認識サービスが開始することを低減することができる。 As described above, according to the first to fifth embodiments, it is possible to reduce the start of the voice recognition service in a situation where the voice recognition service is unnecessary.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although some embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
10 テレビジョン装置
11,1011,2011 取得部
12 ウェイクワード検出部
13 音声認識部
14 表示制御部
15,1015,2015,3015 選択部
16 機器制御部
17 アプリケーション実行部
18 学習部
19 番組表生成部
110 表示パネル
111 操作部
112 受光部
115 メモリ
116 ストレージ
117 マイク
119 リモートコントローラ
300 ネットワーク
10 Television device 11,1011,2011
Claims (5)
所定の条件に基づいて、音声認識の有効状態と無効状態のいずれかを選択する選択部と、
前記有効状態が選択された場合、前記音声入力部に入力された前記音声に対する音声認識処理を実行し、前記無効状態が選択された場合、前記音声認識処理を実行しない音声認識部と、
を備える受信装置。 A voice input unit for inputting the user's voice,
A selection unit that selects either the enabled state or the disabled state of voice recognition based on predetermined conditions,
When the valid state is selected, the voice recognition process for the voice input to the voice input unit is executed, and when the invalid state is selected, the voice recognition process which does not execute the voice recognition process is performed.
A receiver equipped with.
前記選択部は、前記表示部に前記操作画面または前記通知画面の少なくともいずれかが表示されている場合に前記無効状態を選択し、前記表示部に前記操作画面または前記通知画面のいずれも表示されていない場合に前記有効状態を選択する、
請求項1に記載の受信装置。 The predetermined condition is that at least one of an operation screen capable of accepting the operation of the user or a notification screen is displayed on the display unit.
The selection unit selects the invalid state when at least one of the operation screen and the notification screen is displayed on the display unit, and either the operation screen or the notification screen is displayed on the display unit. If not, select the valid state,
The receiving device according to claim 1.
前記選択部は、前記所定のアプリケーションの実行状態を取得し、前記所定のアプリケーションが実行中ではない場合に前記有効状態を選択し、前記所定のアプリケーションが実行中である場合に前記無効状態を選択する、
請求項1に記載の受信装置。 The predetermined condition is that a predetermined application is running.
The selection unit acquires the execution state of the predetermined application, selects the valid state when the predetermined application is not running, and selects the invalid state when the predetermined application is running. To do
The receiving device according to claim 1.
前記選択部は、現在時刻が前記有効期間内である場合に前記有効状態を選択し、現在時刻が前記無効期間内である場合に前記無効状態を選択する、
請求項1に記載の受信装置。 The predetermined condition is that the current time is within the invalid period or within the valid period.
The selection unit selects the valid state when the current time is within the valid period, and selects the invalid state when the current time is within the invalid period.
The receiving device according to claim 1.
前記選択部によって前記有効状態が選択された場合に前記マイクロフォンをオン状態にし、前記選択部によって前記無効状態が選択された場合に前記マイクロフォンをオフ状態にする、機器制御部をさらに備える、
請求項1から4のいずれか1項に記載の受信装置。 The voice input unit is a microphone.
A device control unit is further provided, which turns on the microphone when the active state is selected by the selection unit, and turns off the microphone when the invalid state is selected by the selection unit.
The receiving device according to any one of claims 1 to 4.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148384A JP7206167B2 (en) | 2019-08-13 | 2019-08-13 | receiver |
CN202080004651.1A CN112930686B (en) | 2019-08-13 | 2020-08-13 | Receiving apparatus |
PCT/CN2020/108978 WO2021027892A1 (en) | 2019-08-13 | 2020-08-13 | Receiving device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148384A JP7206167B2 (en) | 2019-08-13 | 2019-08-13 | receiver |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021032906A true JP2021032906A (en) | 2021-03-01 |
JP7206167B2 JP7206167B2 (en) | 2023-01-17 |
Family
ID=74570548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019148384A Active JP7206167B2 (en) | 2019-08-13 | 2019-08-13 | receiver |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7206167B2 (en) |
CN (1) | CN112930686B (en) |
WO (1) | WO2021027892A1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57142096A (en) * | 1981-02-27 | 1982-09-02 | Citizen Watch Co Ltd | Operating controller for electronic device |
JPS59109093A (en) * | 1982-12-14 | 1984-06-23 | 三菱自動車工業株式会社 | Registration type voice recognition equipment |
JPH04129976A (en) * | 1990-09-20 | 1992-04-30 | Toshiba Corp | Voice recognition control device of elevator |
JPH05207549A (en) * | 1992-01-24 | 1993-08-13 | Sanyo Electric Co Ltd | On-vehicle operation switch device |
JP2017060134A (en) * | 2015-09-18 | 2017-03-23 | カシオ計算機株式会社 | Electronic apparatus, control method and program |
JP2020098229A (en) * | 2018-12-17 | 2020-06-25 | コニカミノルタ株式会社 | Image processing system, image forming device, voice input prohibition determination method and program |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4188989B2 (en) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
CN103151038A (en) * | 2011-12-06 | 2013-06-12 | 张国鸿 | Method of achieving voice recognition control in electronic products |
JP6459330B2 (en) * | 2014-09-17 | 2019-01-30 | 株式会社デンソー | Speech recognition apparatus, speech recognition method, and speech recognition program |
CN110121092B (en) * | 2016-05-31 | 2021-04-16 | 海信视像科技股份有限公司 | Method for controlling remote controller microphone by smart television and smart television |
CN108600796B (en) * | 2018-03-09 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | Control mode switch method, equipment and the computer-readable medium of smart television |
CN108986809B (en) * | 2018-08-30 | 2020-01-03 | 广东小天才科技有限公司 | Portable equipment and awakening method and device thereof |
CN109346071A (en) * | 2018-09-26 | 2019-02-15 | 出门问问信息科技有限公司 | Wake up processing method, device and electronic equipment |
-
2019
- 2019-08-13 JP JP2019148384A patent/JP7206167B2/en active Active
-
2020
- 2020-08-13 WO PCT/CN2020/108978 patent/WO2021027892A1/en active Application Filing
- 2020-08-13 CN CN202080004651.1A patent/CN112930686B/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57142096A (en) * | 1981-02-27 | 1982-09-02 | Citizen Watch Co Ltd | Operating controller for electronic device |
JPS59109093A (en) * | 1982-12-14 | 1984-06-23 | 三菱自動車工業株式会社 | Registration type voice recognition equipment |
JPH04129976A (en) * | 1990-09-20 | 1992-04-30 | Toshiba Corp | Voice recognition control device of elevator |
JPH05207549A (en) * | 1992-01-24 | 1993-08-13 | Sanyo Electric Co Ltd | On-vehicle operation switch device |
JP2017060134A (en) * | 2015-09-18 | 2017-03-23 | カシオ計算機株式会社 | Electronic apparatus, control method and program |
JP2020098229A (en) * | 2018-12-17 | 2020-06-25 | コニカミノルタ株式会社 | Image processing system, image forming device, voice input prohibition determination method and program |
Also Published As
Publication number | Publication date |
---|---|
WO2021027892A1 (en) | 2021-02-18 |
JP7206167B2 (en) | 2023-01-17 |
CN112930686A (en) | 2021-06-08 |
CN112930686B (en) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4929177B2 (en) | Video display device and playback device | |
KR101743514B1 (en) | Method for controlling external input and Broadcasting receiving apparatus thereof | |
US9288421B2 (en) | Method for controlling external input and broadcast receiving apparatus | |
JP2005151069A (en) | Recording/reproducing device | |
KR20150046619A (en) | image outputting device | |
KR20040104661A (en) | Method and apparatus for controlling digital recording and associated user interfaces | |
JP2010093682A (en) | Digital broadcast recording and playback apparatus | |
JP7206167B2 (en) | receiver | |
JP2007295100A (en) | Television receiver | |
JP5300287B2 (en) | Television receiver | |
JP7498597B2 (en) | Image processing device, television receiver, and program | |
JP2018148381A (en) | Video display device | |
JP2013186707A (en) | Television receiver | |
JP2020061046A (en) | Voice operation apparatus, voice operation method, computer program, and voice operation system | |
JP5449724B2 (en) | Digital television receiver | |
JP2007123964A (en) | Television receiver with built-in disk drive | |
JP2006269046A (en) | Device and method for data processing | |
JP2007300438A (en) | Input/output device, video display system, input/output control method, input/output control program, and recording medium | |
KR101517616B1 (en) | Apparatus and method for editting a image in image display device | |
JP5157423B2 (en) | Recording control method, recording system, viewing device, and recording device | |
JP4676601B2 (en) | Channel setting device | |
JP2006004542A (en) | Dvd playback apparatus and numerical value receiving apparatus | |
JP2005198013A (en) | Tv apparatus with voice memorandum function | |
JP2005292648A (en) | Video display device | |
JP2006270413A (en) | Tv receiver incorporating hard disk recorder, and tv receiver including video-recording function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7206167 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |