JP7190982B2 - 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム - Google Patents

音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム Download PDF

Info

Publication number
JP7190982B2
JP7190982B2 JP2019127670A JP2019127670A JP7190982B2 JP 7190982 B2 JP7190982 B2 JP 7190982B2 JP 2019127670 A JP2019127670 A JP 2019127670A JP 2019127670 A JP2019127670 A JP 2019127670A JP 7190982 B2 JP7190982 B2 JP 7190982B2
Authority
JP
Japan
Prior art keywords
display device
display
smart display
smart
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019127670A
Other languages
English (en)
Other versions
JP2020109608A (ja
Inventor
ヤオ,シュチェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2020109608A publication Critical patent/JP2020109608A/ja
Application granted granted Critical
Publication of JP7190982B2 publication Critical patent/JP7190982B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3265Power saving in display device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/147Digital output to display device ; Cooperation and interconnection of the display device with other functional units using display panels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/003Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2330/00Aspects of power supply; Aspects of display protection and defect management
    • G09G2330/02Details of power systems and of start or stop of display operation
    • G09G2330/027Arrangements or methods related to powering off a display
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Description

本発明の実施形態は、概してスマート表示装置に関する。本発明の実施形態は、より具体的に、音声ベースのメカニズムに基づいてスマート表示装置のディスプレイを停止させることに関する。
グーグルホーム(Google Home)スマートディスプレイまたはアマゾンエコーショー(Amazon Echo Show)のようなスマート表示装置は、情報をユーザに提示するための一体型ディスプレイまたはタッチスクリーンディスプレイを含む音声アシスタントスマートスピーカであってもよい。スマート表示装置のユーザからの音声コマンド、またはタッチスクリーンディスプレイを介したコマンドの物理的入力によって、スマートデバイスにコマンドおよび命令を発する。そして、スマート表示装置のディスプレイは、受信されたコマンドに基づいてディスプレイを介してユーザに情報を提示することができる。
本発明は、音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステムを開示する。
本発明の一実施形態として、特徴に基づいてスマート表示装置を制御するためのコンピュータ実施方法を開示する。当該方法は、前記スマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信するステップと、機械学習モデルを実行する処理装置により、前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップと、前記解析により前記スマート表示装置の前記ディスプレイを停止すると判定されたことに応答して、前記スマート表示装置の前記ディスプレイを停止するステップと、を含む。
本発明の一実施形態として、命令が格納されている非一時的機械可読媒体を開示する。前記命令がプロセッサにより実行されると、前記プロセッサにスマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信するステップと、機械学習モデルにより、前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップと、前記解析により前記スマート表示装置の前記ディスプレイを停止すると判定されたことに応答して、前記スマート表示装置の前記ディスプレイを停止するステップと、を含む動作を実行させる。
本発明の一実施形態として、システムを開示する。当該システムは、
プロセッサと、命令を格納するために前記プロセッサに接続されるメモリとを備え、前記命令が前記プロセッサにより実行されると、前記プロセッサにスマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信するステップと、機械学習モデルを実行する処理装置により、前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップと、前記解析により前記スマート表示装置の前記ディスプレイを停止すると判定されたことに応答して、前記スマート表示装置の前記ディスプレイを停止するステップと、を含む動作を実行させる。
本発明の実施例は、図面の各図において限定的ではなく例示的な形態で示され、図面における類似の符号が類似の素子を示す。
一実施例に係るスマート表示装置のディスプレイコントローラの一例を示すブロック図である。 一実施例に係るネットワーク構成を示すブロック図である。 実施例に係るスマート表示装置のディスプレイを停止するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す図である。 一実施例に係るディスプレイのオフタイム平滑化のプロセスを示すフローチャートである。 実施例に係る複数の音源からの受音角度を利用してスマート表示装置のディスプレイを停止するか否かを判定する一例を示す図である。 一実施例に係る着信音(incoming sound)に関連する信号の特徴に基づいてスマート表示装置のディスプレイを停止すると判定するプロセスを示すフローチャートである。 一実施例に係るデータ処理システムを示すブロック図である。
以下に説明される詳細を参照しながら本発明の様々な実施例および態様を説明し、添付図面に前記様々な実施例を示す。以下の説明及び図面は、本発明を説明するためのものであり、本発明を限定するものではないことを理解されたい。本発明の様々な実施例を完全に把握するために、多数の特定の詳細を説明する。なお、本発明の実施例を簡潔的に説明するように、周知または従来技術の詳細について説明していない場合もある。
本明細書において、「一実施例」又は「実施例」とは、当該実施例を参照しながら説明された特定の特徴、構造又は特性が本発明の少なくとも1つの実施例に包含されてもよいことを意味する。「一実施例では」という表現は、本明細書の全体において全てが同一の実施例を指すとは限らない。
ところで、本発明の実施例は、音声ベースのメカニズムに基づいてスマート表示装置のディスプレイを停止するスマート表示装置を提供する。通常、スマート表示装置は、スマート表示装置の電源が入っている限り、そのディスプレイを停止しない。スマート表示装置は通常、ユーザが現場にいるか否かにかかわらず、ディスプレイ上に情報を連続的に表示する。しかしながら、場合によって、スマート表示装置のユーザは、スマート表示装置のディスプレイを停止する(例えば、オフにする)ことを望む場合がある。例えば、ユーザは、ディスプレイをオフにすることによってスマート表示装置の電力消費量を減らすことを望む可能性がある。別の例では、ユーザが家を出るか眠りにつくとき、ディスプレイをオフにしたい可能性がある。従って、デバイスのユーザは、「スクリーンオフ」などの音声コマンドを提供するか、またはスマート表示装置のタッチスクリーンを介してディスプレイを停止するための入力を提供することができる。スマート表示装置のディスプレイを停止するためのこれらの方法は、面倒で非効率的であり、特定の状況下では無効である可能性がある。
本発明のシステムの実施例および方法は、音声ベースのメカニズムに基づいてスマート表示装置のディスプレイを停止するか否かを判定することによって、その問題に対する解決策を提供する。スマート表示装置は、マイクロホンなどの音声キャプチャ装置を含むことができ、音声キャプチャ装置は、スマート表示装置の周囲環境から入ってくる音声をキャプチャして、キャプチャされた音声に対応する信号を生成することができる。音声キャプチャ装置は、着信音に対応する信号をスマート表示装置のディスプレイコントローラに提供する。
ディスプレイコントローラは、機械学習モデルを用いて信号の特徴を解析して、スマート表示装置のディスプレイを停止するか否かを判定する。ディスプレイコントローラによって解析可能な特徴の例は、音圧、音圧の変化、スマート表示装置に対する音源の角度、および信号に含まれる任意の音声活動を含むが、これらに限定されない。前記特徴は、スマート表示装置のディスプレイを停止するか否かを判定するように機械学習モデルへの入力として利用されてもよい。機械学習モデルが特徴の解析に基づいてディスプレイを停止すると判定した場合、ディスプレイコントローラはスマート表示装置のディスプレイを停止することができる。例えば、ディスプレイコントローラは、ディスプレイを停止する信号をディスプレイに送信することができる。
従って、機械学習モデルにおいて、音声キャプチャ装置によってキャプチャされた音声に対応する信号の特徴を使用することによって、スマート表示装置のディスプレイコントローラは、スマート表示装置のディスプレイをいつ停止するかをインテリジェントに判定することができ、これによりスマート表示装置の電力消費量が低減される。また、スマート表示装置のディスプレイをいつ停止するかをインテリジェントに判定することによって、ユーザはディスプレイを停止するための音声コマンドまたは物理的入力を提供する必要がなくなり、スマート表示装置のユーザーエクスペリエンスが向上される。
図1は、一実施例に係るスマート表示装置100のディスプレイコントローラの一例を示すブロック図である。図1を参照すると、スマート表示装置100は、音声キャプチャ装置105およびディスプレイ150に動作可能に接続されたディスプレイコントローラ110を含むが、これらに限定されない。ディスプレイコントローラ110は、ソフトウェア、ハードウェア、またはそれらの組み合わせで実現されてもよい。例えば、ディスプレイコントローラ110の構成要素の少なくとも一部は、メモリ(例えば、ダイナミックRAM(DRAM)などのランダムアクセスメモリ(RAM)にロードされ、スマート表示装置100(図示せず)の1つまたは複数のプロセッサ(例えば、中央処理装置(CPU)または汎用処理装置(GPU)などのマイクロプロセッサ)の処理ロジックによって実行されてもよい。ディスプレイ150は、ディスプレイコントローラ110から起動および停止するための信号を受信するように構成された任意の種類のディスプレイ(例えば、タッチスクリーンディスプレイ)であってもよい。
音声キャプチャ装置105は、着信音をキャプチャし、キャプチャされた音声に基づいて信号を生成し、その信号をディスプレイコントローラ110に送信するように構成されることができる。実施例では、音声キャプチャ装置105は、ディスプレイコントローラ110に動作可能に接続されるマイクロホンであってもよい。実施例では、音声キャプチャ装置105は、単一のマイクロホンであってもよい。いくつかの実施例では、音声キャプチャ装置105は、複数のマイクロホンであってもよい。例えば、音声キャプチャ装置105は、線形、三角形、正方形または円形のレイアウトで配置された2~8個のマイクロホンからなるマイクロホンアレイであってもよい。
ディスプレイコントローラ110は、音圧測定モジュール115を含んでもよい。音圧測定モジュール115は、送信された信号を利用して、音声キャプチャ装置105によって受信された音声の音圧を測定するように構成されることができる。実施例では、音圧測定モジュール115は、複数の期間にわたって音圧を測定することができる。実施例では、音圧測定モジュール115は、測定された複数の期間の音圧に関連する分布統計を確定することができる。例えば、音圧測定モジュール115は、複数の期間にわたる音圧値の平均値および/または標準偏差を確定することができる。
ディスプレイコントローラ110は、音圧差モジュール120を含むことができる。音圧差モジュール120は、音声キャプチャ装置105によって受信された現在の音圧レベルと、以前に確定された音圧レベルとの間の差を確定するように構成されることができる。実施例では、音圧差モジュール120は、現在の音圧レベルと、音圧測定モジュール115によって以前に測定された音圧レベルとの間の差を確定することができる。例えば、音圧差モジュール120は、現在の音圧レベルと、前述したように音圧測定モジュール115によって測定された期間内にわたる音圧の平均値との間の差を確定することができる。
ディスプレイコントローラ110は、受音角度確定モジュール125をさらに含むことができる。受音角度確定モジュール125は、音声キャプチャ装置105によって受信された音声の音源の音声キャプチャ装置105に対する角度を確定するように構成されることができる。例えば、実施例では、音声キャプチャ装置105は、複数のマイクロホンを含んでいてもよい。複数のマイクロホンからの音声に対応する受信信号を互いに比較して、複数のマイクロホンに対する音源の角度を確定することができる。
ディスプレイコントローラ110は、音声活動モジュール130を含むことができる。音声活動モジュール130は、受信信号に基づいて、着信音が音声活動を含むか否かを判定するように構成されることができる。例えば、音声活動モジュール130は、受信信号がスマート表示装置100に対する音声コマンドを含むか否かを判定することができる。実施例では、音声活動モジュール130は、受信信号に音声活動が含まれている可能性に対応する信頼スコアを確定することができる。例えば、音声活動モジュール130は、受信信号に音声活動が含まれている可能性に対応する0.0~1.0の範囲の信頼スコアを確定することができ、ここでは、0.0は、受信信号に音声活動が含まれている可能性が最も低いことを表し、1.0は、受信信号に音声活動が含まれている可能性が最も高いことを表すことができる。
いくつかの実施例では、音声活動モジュール130は、着信音に関連する一組のユーザのうちの特定のユーザを識別するように構成されてもよい。当該一組のユーザのうちの各ユーザは、その後に各ユーザからの音声コマンドを識別するように、音声活動モジュール130によって利用されるべき1つまたは複数の音声サンプルを提供することができる。例えば、ユーザAがスマート表示装置100に後続の音声コマンドを提供すると、音声活動モジュール130は、音声サンプルを使用して音声コマンドを識別し、音声コマンドがユーザAによって提供されたと判定することができる。
実施例では、音圧測定モジュール115、音圧差モジュール120、受音角度確定モジュール125、および/または音声活動モジュール130は並行して動作することができる。いくつかの実施例では、音圧測定モジュール115、音圧差モジュール120、受音角度確定モジュール125、および/または音声活動モジュール130は、順次に動作することができる。例えば、音圧差モジュール120はデータを受音角度確定モジュール125に提供し、受音角度確定モジュール125はデータを音声活動モジュール130に提供することができる。
ディスプレイコントローラ110は、画面状態モジュール140を含んでもよい。画面状態モジュール140は、ディスプレイ150の出力を起動(例えば、オンに)するか、または停止(例えば、オフに)するかを指示するように構成されてもよい。ディスプレイコントローラ110は、オフタイム平滑化モジュール145をさらに含んでもよい。オフタイム平滑化モジュール145は、ディスプレイ150の起動および/または停止の頻度を決定するように構成されてもよい。
ディスプレイコントローラ110は、アルゴリズム制御モジュール135を更に含んでもよい。アルゴリズム制御モジュール135は、音圧測定モジュール115、音圧差モジュール120、受音角度確定モジュール125、および/または音声活動モジュール130からデータを受信することができる。アルゴリズム制御モジュール135は、受信されたデータに基づいて、スマート表示装置100のディスプレイ150を起動および/または停止するか否かを判定するように構成されてもよい。実施例では、アルゴリズム制御モジュール135は、機械学習モデルを利用して、ディスプレイ150を起動および/または停止するか否かを判定し、信頼スコアを確定することが可能である。実施例では、図2で更に詳細に説明するように、リモートサーバから機械学習モデルを受信することができる。アルゴリズム制御モジュール135によって利用可能な機械学習モデルの一例としては、線形モデル、非線形モデル、浅層モデルおよび深層モデルを含むが、それらに限定されない。アルゴリズム制御モジュール135がディスプレイ150の起動/停止を決定すると、ディスプレイコントローラ110は、ディスプレイ150に信号を送信し、上記決定に基づいてディスプレイ150を停止することができる。
図2は、一実施例に係るネットワーク構成200を示すブロック図である。図2を参照すると、ネットワーク構成200は、ネットワーク240を介してサーバ220に通信可能に接続されたスマート表示装置210を含む。スマート表示装置210は、図1で記述したようにスマート表示装置100に対応することができる。サーバ220は、任意のサーバであってもよく、1つまたは複数の処理装置(図示せず)を含むことができる。サーバ220は、データストア(data store)230に動作可能に接続されていてもよい。データストア230は、データを格納可能な永続性記憶装置であってもよい。永続性記憶装置は、ローカル記憶ユニットまたはリモート記憶ユニットであってもよい。永続性記憶装置は、磁気記憶ユニット、光記憶ユニット、固体記憶ユニット、電子記憶ユニット(メインメモリ)、または同様の記憶ユニットであってもよい。永続性記憶装置は、モノリシック/単一のデバイスまたは分散デバイスのセットであってもよい。実施例では、サーバ220およびデータストア230はクラウドベースのプラットフォームの構成要素であってもよい。
ネットワーク240は、公衆ネットワーク(例えばインターネット)、プライベートネットワーク(例えばローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN))、またはそれらの組み合わせであってもよい。一実施例では、ネットワーク240は、有線またはワイヤレスインフラストラクチャを含んでもよい。インフラストラクチャは、1つまたは複数のワイヤレス通信システムによって提供されてもよく、例えば、ネットワーク240に接続されたワイヤレスフィデリティ(WiFi)ホットスポットおよび/または様々なデータ処理装置、通信塔(例えばセルタワー)などを使用して実施可能なワイヤレスキャリアシステムなどが挙げられる。
サーバ220の処理装置の処理ロジックは、スマート表示装置210のアルゴリズム制御モジュール(例えば、図1のアルゴリズム制御モジュール135)によって利用される機械学習モデルを訓練するように構成されることができる。スマート表示装置に関連付けられていないサンプルデータ(例えば、以前に1つまたは複数の異なるスマート表示装置から取得されたデータ)は、機械学習モデルの訓練事例集合(training set)として使用可能である。サーバ220の処理ロジックは、サンプルデータを使用して機械学習モデルを実行することができる。機械学習モデルの出力を解析することによって機械学習モデルが通常に機能しているか否かを判定することができる。処理ロジックによって機械学習モデルが訓練された後、ネットワーク240を介してスマート表示装置210に機械学習モデルを提供してもよい。
いくつかの実施例では、機械学習モデルが受信された後、スマート表示装置210のアルゴリズム制御モジュールは、機械学習モデルと、音声キャプチャ装置によって送信された信号に関連する特徴とを利用して、スマート表示装置のディスプレイを起動/停止するか否かを判定することができる。実施例では、前記判定は、スマート表示装置210のユーザのプライバシーを保護するために、サーバ220に画像に関連する特徴をネットワーク240を介して提供せずに、スマート表示装置210の処理ロジックによって行われることに留意されたい。
図3は、実施例に係る、スマート表示装置のディスプレイを停止するか否かを判定するためにアルゴリズム制御モジュールに提供される特徴の一例を示す例示300である。上述したように、音声キャプチャ装置から受信された1つまたは複数の信号に関連する特徴を、アルゴリズム制御モジュール135に提供することができる。アルゴリズム制御モジュール135は、前記特徴を機械学習モデルへの入力として使用可能であり、機械学習モデルはスマート表示装置のディスプレイ150を停止するか否かを判定することができる。各特徴は、機械学習モデルによるディスプレイ150を停止するか否かについての判定に影響を与えることが可能である。
ブロック305では、ディスプレイコントローラは、前述のように、受信信号の音圧を測定することができる。アルゴリズム制御モジュール135は、信号の音圧を利用してディスプレイ150を停止するか否かを判定することができる。例えば、音圧がスマート表示装置の周囲の活動を示す閾値量を超える場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は減少する可能性がある。実施例では、ディスプレイコントローラは、ある期間にわたる受信信号に対して、平均値および標準偏差などの分布統計を確定することができる。例えば、ディスプレイコントローラは、前の夜の間に平均音圧が50デシベル(dB)、標準偏差が3dBであり、前の日の間に平均音圧が70dB、標準偏差が6dBであり、直前の10分間に平均音圧が65dB、標準偏差が4dBで、直前の1時間に平均音圧が65dB、標準偏差が5dBでしたことを確定することができる。いくつかの実施例では、ディスプレイコントローラは、スマート表示装置のディスプレイ150を停止するか否かを判定するために分布統計を利用することが可能である。例えば、現在の音圧が平均値の確定された標準偏差を超えた場合、ディスプレイコントローラがディスプレイ150を停止すると判定する確率は減少する可能性がある。
ブロック310では、ディスプレイコントローラは、音声キャプチャ装置から受信された信号の音圧レベルと以前の信号の音圧レベルとの音圧差を確定することができる。アルゴリズム制御モジュール135は、音圧レベルの差を利用してディスプレイ150を停止するか否かを判定することができる。例えば、現在の音圧レベルと以前の音圧レベルとの間の差が閾値を超える場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は減少する可能性がある。しかしながら、現在の音圧レベルと以前の音圧レベルとの間の差が閾値を下回る場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は増加する可能性がある。
ブロック315では、ディスプレイコントローラは、音声キャプチャ装置から受信された信号の受音角度を確定することができる。受音角度は、音声キャプチャ装置またはスマート表示装置に対する音源の角度に対応することができる。アルゴリズム制御モジュール135は、受音角度を利用して、ディスプレイ150を停止するか否かを判定することができる。例えば、受音角度によって音源がスマート表示装置の前方にあることが示された場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は低下する可能性がある。しかしながら、受音角度によって音源がスマート表示装置の後方にあることが示された場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は増加する可能性がある。受音角度を利用してディスプレイ150を停止するか否かを判定することに関するさらなる詳細は、以下の図5で説明される。
ブロック320では、ディスプレイコントローラは、受信信号内の音声活動を識別することができる。アルゴリズム制御モジュール135は、信号内の音声活動を利用して、ディスプレイ150を停止するか否かを判定することができる。従って、受信信号が音声活動を含む場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は低下する可能性がある。しかしながら、受信信号が音声活動を含まない場合、アルゴリズム制御モジュール135がディスプレイ150を停止すると判定する確率は増加する可能性がある。
なお、例示300はディスプレイ150を停止するか否かを判定するための、ブロック305、ブロック310、ブロック315、およびブロック320における特徴を含むが、実施例では、ディスプレイ150を停止するか否かを判定するために、より多くのまたはより少ない特徴を利用することが可能である。
図4は、一実施例に係るディスプレイのオフタイム平滑化のプロセス400を示すフローチャートである。プロセス400は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを含んでもよい。例えば、プロセス400の1つまたは複数の動作は、図1のディスプレイコントローラ110のオフタイム平滑化モジュール145によって実行されることができる。
図4を参照すると、動作401において、前述したように、着信音に対応する受信信号の特徴に基づいて、処理ロジックはスマート表示装置のディスプレイを停止すると判定する。動作402において、処理ロジックはスマート表示装置のディスプレイを停止する。
動作403において、処理ロジックは、動作402におけるディスプレイの停止閾値時間内にディスプレイが起動されたか否かを判定する。例えば、処理ロジックは、動作402におけるディスプレイの停止後の5分の閾値時間内にディスプレイがユーザによって起動されたか否かを判定することができる。閾値時間内にディスプレイを起動したユーザは、処理ロジックが不適切な時間にディスプレイを停止したと判定したことを指示することができる。従って、不適切な時間にディスプレイが停止されるのを防止するために、動作404では、ディスプレイが閾値時間内に起動された場合、処理ロジックは、その後にディスプレイを停止しないと判定する。実施例では、処理ロジックは、その後しばらくの間、ディスプレイを停止しないと判定してもよい。例えば、処理ロジックは、その後の1時間内にディスプレイを停止しないと判定してもよい。
ディスプレイが閾値時間内に起動されていない場合、動作405において、処理ロジックは、その後にディスプレイを停止すると判定する。いくつかの実施例では、プロセス400で記述したような判定に関連するデータは、アルゴリズム制御モジュール135に提供されてもよい。当該データは、上述したように、スマート表示装置のディスプレイを停止するか否かを判定するために機械学習モデルによって利用されることが可能である。
図5は、実施例に係る複数の音源からの受音角度を利用してスマート表示装置のディスプレイを停止するか否かを判定する一例を示す例示500である。前述したように、1つまたは複数の音源に関連する受音角度は、受音角度確定モジュール125によって確定することができ、アルゴリズム制御モジュール135に提供することができる。アルゴリズム制御モジュール135は、受音角度を機械学習モデルへの入力として使用可能であり、機械学習モデルはスマート表示装置のディスプレイ150を停止するか否かを判定することができる。
例示500はスマート表示装置510を含み、スマート表示装置510は図1のスマート表示装置100に対応することができる。スマート表示装置510は、図5の上部に向う表示方向を有するディスプレイ(図示せず)を含む。ディスプレイは、スマート表示装置510のディスプレイが見える角度範囲に対応する視野角520を有してもよい。実施例では、特定の音源に対して判定された受音角度が視野角520内にあると確定された場合、スマート表示装置510のディスプレイコントローラ(図示せず)がディスプレイを停止すると判定する確率は減少する可能性がある。
例示500は、音源515、静的音源525、および音声活動源530を更に含むことができる。音源515、静的音源525、および音声活動源530のそれぞれは、前述したように音声キャプチャ装置によって受信される音声を生成することができる。
図5を参照すると、スマート表示装置510は、音源515から着信音を受信し、音源515に関連する受音角度を確定することができる。図5において、音源515は視野角520外に位置している。音源515が視野角520外に位置しているので、スマート表示装置510のディスプレイコントローラがディスプレイを停止すると判定する確率は高くなる可能性がある。
スマート表示装置510は、静的音源525から着信音を受信し、静的音源525に関連する受音角度を確定することができる。図5において、静的音源525は視野角520内に位置している。静的音源525が視野角520内に位置しているので、スマート表示装置510のディスプレイコントローラがディスプレイを停止すると判定する確率は低くなる可能性がある。しかしながら、ディスプレイコントローラは、ある期間にわたって、静的音源525からの受音角度が比較的一定に維持されると確定することができる。静的音源525からの受音角度が一定に維持されることは、静的音源525によって生成された音声がユーザの活動に対応しない可能性があることを示し得るが、テレビ、ラジオまたは他の同様の装置などの他の何らかの物体の結果であってもよい。従って、いくつかの実施例では、静的音源525からの受音角度がある期間にわたって比較的一定のままであると識別されると、ディスプレイコントローラは、スマート表示装置510のディスプレイを停止するか否かを判定するときに、静的音源525からの着信音を無視する傾向がある可能である。
スマート表示装置510は、音声活動源530から着信音を受信することができる。図5では、音声活動源530は視野角520内に位置している。音声活動源530が視野角520内に位置しているので、音声活動源530がスマート表示装置510を使用している可能性が高いことを示し、スマート表示装置510のディスプレイコントローラがディスプレイを停止すると判定する確率は低くなる可能性がある。実施例では、信頼度を利用することができる。例えば、音声活動源530が0.1の関連する信頼度(例えば、低い音声活動の可能性)を有する場合、高い信頼度(例えば、高い音声活動の可能性)を有する音声活動源に比して、スマート表示装置510のディスプレイコントローラがディスプレイを停止すると判定する確率は低くなる可能性がある。いくつかの実施例では、視野角520内の音声活動源530の位置もディスプレイコントローラによって確定されることができる。例えば、音声活動源530がスマート表示装置510の直前に位置している場合、ディスプレイコントローラがディスプレイを停止すると判定する確率は低くなる可能性がある。しかしながら、音声活動源530が視野角520の外周に位置している場合、ディスプレイコントローラがディスプレイを停止すると判定する確率は高くなる可能性がある。
図6は、一実施例に係る着信音に関連する信号の特徴に基づいてスマート表示装置のディスプレイを停止すると判定するプロセス600を示すフローチャートである。プロセス600は、処理ロジックにより実行可能であり、処理ロジックはソフトウェア、ハードウェア、またはそれらの組み合わせを含んでもよい。例えば、プロセス600は、図1のディスプレイコントローラ110により実行されることが可能である。図6を参照すると、動作601において、処理ロジックは、スマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信する。動作602において、機械学習モデルを実行する処理ロジックは、音声キャプチャ装置から受信された信号の特徴を解析して、スマート表示装置のディスプレイを停止するか否かを判定する。動作603において、処理ロジックは、解析によりディスプレイを停止すると判定されたことに応答して、スマート表示装置のディスプレイを停止する。
図7は、本発明の一実施例と組み合わせて使用可能なデータ処理システムを例示的に示すブロック図である。例えば、システム1500は、上述したような前記プロセス又は方法のいずれかを実行するデータ処理システムのいずれか(例えば、上述した、クライアント装置若しくはサーバ、または上述した図1のスマート表示装置100など)を表すことができる。
システム1500は、いくつかの異なる構成要素を含んでもよい。これらの構成要素は、集積回路(IC)、集積回路の一部、ディスクリート型電子デバイス、または回路基板(例えば、コンピュータシステムのマザーボード若しくはアドインカード)に適するその他のモジュールとして実現されることができ、または、他の形態でコンピュータシステムのシャーシ内に組み込まれた構成要素として実現されることができる。
なお、システム1500は、コンピュータシステムのいくつかの構成要素の高レベルビューを示すことを意図している。しかしながら、一部の実施形態において付加的構成要素が存在してもよく、また、その他の実施形態において示された構成要素を異なる配置にすることが可能であることを理解されたい。システム1500は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、サーバ、携帯電話、メディアプレーヤ、パーソナルデジタルアシスタント(PDA)、スマートウォッチ、パーソナルコミュニケーター、ゲーム装置、ネットワークルーター若しくはハブ、無線アクセスポイント(AP)若しくはリピーター、セット・トップボックス、またはそれらの組み合わせを表すことができる。また、単一の機械またはシステムのみが示されたが、「機械」または「システム」という用語は、本明細書で説明されるいずれか1種または複数種の方法を実現するための、単独で又は共同で1つ(又は複数)の命令セットを実行する機械またはシステムのいずれかの組み合わせも含まれることを理解されたい。
一実施例では、システム1500は、バスまたはインターコネクト1510を介して接続される、プロセッサ1501、メモリ1503および装置1505~1508を含む。プロセッサ1501は、単一のプロセッサコアまたは複数のプロセッサコアが含まれる単一のプロセッサまたは複数のプロセッサを表すことが可能である。プロセッサ1501は、マイクロプロセッサ、中央処理装置(CPU)などのような、1つまたは複数の汎用プロセッサを表すことが可能である。より具体的には、プロセッサ1501は、複雑命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、またはその他の命令セットを実行するプロセッサ、または命令セットの組み合わせを実行するプロセッサであってもよい。プロセッサ1501は更に1つまたは複数の専用プロセッサであってもよい。例えば、特定用途向け集積回路(ASIC)、セルラー若しくはベースバンドプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、デジタルシグナルプロセッサ(DSP)、ネットワークプロセッサ、グラフィックプロセッサ、通信プロセッサ、暗号化プロセッサ、コプロセッサ、組込みプロセッサ、または命令を処理可能な任意の他の種類のロジックが挙げられる。
プロセッサ1501は、超低電圧プロセッサのような低電力マルチコアプロセッサソケットであってもよく、前記システムの様々な構成要素と通信するための主処理ユニットおよび中央ハブとして機能することができる。このようなプロセッサは、システムオンチップ(SoC)として実装されてもよい。プロセッサ1501は、本明細書で説明される動作およびステップを実行するための命令を実行するように構成される。システム1500は、更に任意選択グラフィックサブシステム1504と通信するグラフィックインターフェースを含むことができ、グラフィックサブシステム1504は、ディスプレイコントローラ、グラフィックプロセッサ、および/または表示装置を含むことができる。
プロセッサ1501は、メモリ1503と通信することができ、メモリ1503は、一実施例では、所定量のシステムメモリを提供するための複数のメモリ装置によって実現されることができる。メモリ1503は、1つまたは複数の揮発性記憶(またはメモリ)装置を含んでもよい。例えば、ランダムアクセスメモリ(RAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、スタティックRAM(SRAM)、またはその他の種類の記憶装置が挙げられる。メモリ1503は、プロセッサ1501またはその他の任意の装置により実行される命令シーケンスを含む情報を格納することができる。例えば、様々なオペレーティングシステム、デバイスドライバ、ファームウェア(例えば、ベーシックインプット/アウトプットシステム若しくはBIOS)、および/またはアプリケーションの実行可能なコードおよび/またはデータは、メモリ1503にロードされ、プロセッサ1501により実行されることができる。オペレーティングシステムは、例えば、Microsoft(登録商標)社のWindows(登録商標)オペレーティングシステム、アップル社のMacOS(登録商標)/iOS(登録商標)、Google(登録商標)社のAndroid(登録商標)、LINUX、UNIX、またはその他のリアルタイム若しくは組込みオペレーティングシステムのような、任意の種類のオペレーティングシステム(例えば、VxWorks)であってもよい。
システム1500は、例えば、ネットワークインターフェース装置1505、任意選択入力装置1506、及びその他の任意選択I/O装置1507を含む装置1505~1508のようなI/O装置を更に含んでもよい。ネットワークインターフェース装置1505は、無線送受信機および/またはネットワークインターフェースカード(NIC)を含んでもよい。前記無線送受信機は、WiFi送受信機、赤外線送受信機、ブルートゥース送受信機、WiMax送受信機、無線携帯電話送受信機、衛星送受信機(例えば、全地球測位システム(GPS)送受信機)、またはその他の無線周波数(RF)送受信機、またはそれらの組み合わせであってもよい。NICは、イーサネットカードであってもよい。
入力装置1506は、マウス、タッチパネル、タッチスクリーン(表示装置1504と統合されてもよい)、ポインター装置(例えば、スタイラス)、および/またはキーボード(例えば、物理キーボードまたはタッチスクリーンの一部として表示された仮想キーボード)を含んでもよい。例えば、入力装置1506は、タッチスクリーンに接続されるタッチスクリーンコントローラを含んでもよい。タッチスクリーンおよびタッチスクリーンコントローラは、例えば、様々なタッチ感応技術(コンデンサ、抵抗、赤外線、および表面弾性波の技術を含むが、それらに限定されない)のいずれか、並びにその他の近接センサアレイ、または、タッチスクリーンと接触する1つまたは複数の点を確定するためのその他の素子を用いて、それらの接触、移動または中断を検出することができる。
I/O装置1507は音声装置を含んでもよい。音声装置は、音声認識、音声複製、デジタル記録および/または電話機能のような音声サポートの機能を促進するために、スピーカおよび/またはマイクロホンを含んでもよい。その他のI/O装置1507は、更に、ユニバーサルシリアルバス(USB)ポート、パラレルポート、シリアルポート、プリンタ、ネットワークインターフェース、バスブリッジ(例えば、PCI-PCIブリッジ)、センサ(例えば、加速度計、ジャイロスコープ、磁力計、光センサ、コンパス、近接センサなどのモーションセンサ)、またはそれらの組み合わせを含んでもよい。装置1507は、結像処理サブシステム(例えば、カメラ)を更に含んでもよい。結像処理サブシステムは、写真およびビデオ断片の記録のようなカメラ機能を促進するための、電荷結合素子(CCD)または相補型金属酸化物半導体(CMOS)光学センサのような光学センサを含んでもよい。特定のセンサは、センサハブ(図示せず)を介してインターコネクト1510に接続されることができ、キーボードまたはサーマルセンサのようなその他の装置はシステム1500の具体的な配置または設計により、組込みコントローラ(図示せず)により制御されることも可能である。
データ、アプリケーション、1つまたは複数のオペレーティングシステムなどの情報の永続性記憶を提供するために、プロセッサ1501には、大容量記憶装置(図示せず)が接続されることも可能である。様々な実施例では、より薄くてより軽量なシステム設計を可能にしながら、システムの応答性を向上するために、このような大容量記憶装置は、ソリッドステートデバイス(SSD)によって実現されることが可能である。しかしながら、その他の実施例では、大容量記憶装置は、主にハードディスクドライブ(HDD)を使用して実現されることができ、より小さい容量のSSD記憶装置をSSDキャッシュとして機能することで、停電イベントの間にコンテキスト状態及び他のそのような情報の不揮発性記憶を可能にし、それによりシステム動作が再開するときに通電を速く実現することができる。また、フラッシュデバイスは、例えば、シリアルペリフェラルインターフェース(SPI)を介してプロセッサ1501に接続されてもよい。このようなフラッシュデバイスは、システムのベーシックインプット/アウトプットシステム(BIOS)およびその他のファームウェアを含むシステムソフトウェアの不揮発性記憶のために機能することができる。
記憶装置1508は、コンピュータアクセス可能な記憶媒体1509(機械可読記憶媒体またはコンピュータ可読媒体ともいう)を含むことができ、前記コンピュータアクセス可能な記憶媒体1509には、本明細書で記載されたいずれか1種または複数種の方法若しくは機能を具現化する1つまたは複数の命令セット若しくはソフトウェア(例えば、モジュール、ユニットおよび/またはロジック1528)が格納されている。処理モジュール/ユニット/ロジック1528は、前記構成要素のいずれか(例えば、上述したディスプレイコントローラ110)を表すことができる。処理モジュール/ユニット/ロジック1528は、更に、データ処理システム1500、メモリ1503、およびプロセッサ1501による実行中に、メモリ1503内および/またはプロセッサ1501内に完全的にまたは少なくとも部分的に存在してもよく、データ処理システム1500、メモリ1503およびプロセッサ1501も機械アクセス可能な記憶媒体を構成する。処理モジュール/ユニット/ロジック1528は、更に、ネットワークを介してネットワークインターフェース装置1505を経由して送受信されることが可能である。
コンピュータ可読記憶媒体1509は、以上に説明されたいくつかのソフトウェア機能を永続的に格納するために用いることができる。コンピュータ可読記憶媒体1509は、例示的な実施例において単一の媒体として示されるが、「コンピュータ可読記憶媒体」という用語は、1つまたは複数の命令セットが格納される単一の媒体または複数の媒体(例えば、集中型または分散型データベース、および/または関連するキャッシュとサーバ)を含むと解釈されるものとする。「コンピュータ可読記憶媒体」という用語は、更に、命令セットを格納または符号化できる任意の媒体を含むと解釈されるものであり、命令セットは機械により実行され、本発明のいずれか1種又は複数種の方法を機械に実行させるためのものである。それゆえに、「コンピュータ可読記憶媒体」という用語は、ソリッドステートメモリ、光学媒体および磁気媒体、またはその他の任意の非一時的機械可読媒体を含むが、それらに限定されないと解釈されるものとする。
本明細書に記載の処理モジュール/ユニット/ロジック1528、構成要素およびその他の特徴は、ディスクリートハードウェア構成要素として実現されてもよく、またはASICS、FPGA、DSPまたは類似の装置のようなハードウェア構成要素の機能に統合されてもよい。更に、処理モジュール/ユニット/ロジック1528は、ハードウェア装置におけるファームウェアまたは機能性回路として実現されてもよい。更に、処理モジュール/ユニット/ロジック1528は、ハードウェア装置とソフトウェア構成要素の任意の組み合わせで実現されてもよい。
なお、システム1500は、データ処理システムの様々な構成要素を有するものとして示されているが、構成要素を相互接続する任意の特定のアーキテクチャまたは方式を表すことを意図するものではなく、そのような詳細は、本発明の実施例とは密接な関係がない。また、より少ない構成要素またはより多くの構成要素を有するネットワークコンピュータ、ハンドヘルドコンピュータ、携帯電話、サーバおよび/またはその他のデータ処理システムは、本発明の実施例と共に使用することも可能であることを理解されたい。
上述した具体的な説明の一部は、既に、コンピュータメモリにおけるデータビットに対する演算のアルゴリズムと記号表現により示された。これらのアルゴリズムの説明および表現は、データ処理分野における当業者によって使用される、それらの作業実質を所属分野の他の当業者に最も効果的に伝達する方法である。本明細書では、一般的に、アルゴリズムは、所望の結果につながるセルフコンシステントシーケンスと考えられる。これらの動作は、物理量の物理的処置が必要なものである。
しかしながら、念頭に置くべきなのは、これらの用語および類似の用語の全ては、適切な物理量に関連付けられるものであり、これらの量を標識しやすくするためのものに過ぎない。以上の説明で他に明示的に記載されていない限り、本明細書の全体にわたって理解すべきなのは、用語(例えば、添付された特許請求の範囲に記載のもの)による説明とは、コンピュータシステムまたは類似の電子式コンピューティングデバイスの動作若しくはプロセスを指し、コンピュータシステムまたは電子式コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリにおける物理(電子)量として示されたデータを制御するとともに、データをコンピュータシステムメモリ、レジスタまたはこのようなその他の情報を記憶、伝送または表示する装置において同様に物理量として示された別のデータに変換する。
図に示される技術は、1つまたは複数の電子装置に格納され実行されるコードおよびデータを使用して実施することができる。そのような電子装置は、コンピュータ可読媒体(例えば、非一時的コンピュータ可読記憶媒体(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ装置、相変化メモリ)および一時的コンピュータ可読伝送媒体(例えば、電子、光学、音響学、または搬送波、赤外線信号、デジタル信号などの他の形態の伝搬信号など)を使用して、コードおよびデータを(内部におよび/またはネットワークを介して他の電子装置に)格納および通信する。
上述した図面において説明されたプロセスまたは方法は、ハードウェア(例えば、回路、専用ロジックなど)、ファームウェア、ソフトウェア(例えば、非一時的コンピュータ可読媒体に具現化されるもの)、またはそれらの組み合わせを含む処理ロジックにより実行されることができる。プロセスまたは方法は、以上で特定の順序に応じて説明されたが、記述した動作の一部が異なる順序で実行されてもよいことを理解されたい。また、一部の動作は、順番ではなく並行して実行されてもよい。
上述した明細書において、本発明の実施例は、既にその具体的な例示的な実施例を参照しながら記載された。明らかなように、添付された特許請求の範囲に記載された本発明のより広い趣旨および範囲を逸脱しない限り、本発明に対して様々な変更を行うことができる。それゆえに、本明細書および図面は、限定的な意味でなく、例示的な意味で理解されるべきである。

Claims (18)

  1. 特徴に基づいてスマート表示装置を制御するためのコンピュータ実施方法であって、
    前記スマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信するステップと、
    前記スマート表示装置のディスプレイがオン状態である場合、機械学習モデルを実行する処理装置により、前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップであって、前記特徴は、前記信号に関連する音圧である、ステップと、
    前記解析により前記スマート表示装置の前記ディスプレイを停止すると判定されたことに応答して、前記スマート表示装置の前記ディスプレイをオン状態から停止するステップと、を含み、
    前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    現在の前記信号に関連する音圧と、前記スマート表示装置に関連する前の複数の期間にわたる音圧との間の差を確定して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップを含む、
    コンピュータ実施方法。
  2. 前記スマート表示装置に関連付けられていない二次データを使用して、リモートサーバで前記機械学習モデルを訓練する請求項1に記載の方法。
  3. 前記複数の特徴は、前記信号に関連する受音角度、及び前記信号に関連する音声活動のうちの少なくとも1つをさらに含む請求項1に記載の方法。
  4. 前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    前記複数の期間にわたる音圧に関連する平均値および標準偏差を確定することをさらに含む請求項3に記載の方法。
  5. 前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    前記スマート表示装置に対する前記音声の音源の角度を確定することをさらに含む請求項3に記載の方法。
  6. 前記方法は、
    受信された信号に基づいて、複数のユーザから前記音声に関連するユーザを識別するステップを更に含む請求項1に記載の方法。
  7. 命令が格納されている非一時的機械可読媒体であって、
    前記命令がプロセッサにより実行されると、前記プロセッサに
    スマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信するステップと、
    前記スマート表示装置のディスプレイがオン状態である場合、機械学習モデルにより、前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップであって、前記特徴は、前記信号に関連する音圧である、ステップと、
    前記解析により前記スマート表示装置の前記ディスプレイを停止すると判定されたことに応答して、前記スマート表示装置の前記ディスプレイをオン状態から停止するステップと、を含む動作を実行させ、
    前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    現在の前記信号に関連する音圧と、前記スマート表示装置に関連する前の複数の期間にわたる音圧との間の差を確定して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップを含む、非一時的機械可読媒体。
  8. 前記スマート表示装置に関連付けられていない二次データを使用して、リモートサーバで前記機械学習モデルを訓練する請求項7に記載の非一時的機械可読媒体。
  9. 前記複数の特徴は、前記信号に関連する受音角度、及び前記信号に関連する音声活動のうちの少なくとも1つをさらに含む請求項7に記載の非一時的機械可読媒体。
  10. 前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    前記複数の期間にわたる音圧に関連する平均値および標準偏差を確定することをさらに含む請求項9に記載の非一時的機械可読媒体。
  11. 前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    前記スマート表示装置に対する前記音声の音源の角度を確定することを含む請求項9に記載の非一時的機械可読媒体。
  12. 前記動作は、受信された信号に基づいて、複数のユーザから前記音声に関連するユーザを識別するステップを更に含む請求項7に記載の非一時的機械可読媒体。
  13. システムであって、
    プロセッサと、
    命令を格納するために前記プロセッサに接続されるメモリとを備え、
    前記命令が前記プロセッサにより実行されると、前記プロセッサに
    スマート表示装置に関連付けられる音声に対応する信号を音声キャプチャ装置から受信するステップと、
    前記スマート表示装置のディスプレイがオン状態である場合、機械学習モデルを実行する処理装置により、前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップであって、前記特徴は、前記信号に関連する音圧である、ステップと、
    前記解析により前記スマート表示装置の前記ディスプレイを停止すると判定されたことに応答して、前記スマート表示装置の前記ディスプレイをオン状態から停止するステップと、を含む動作を実行させ、
    前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    現在の前記信号に関連する音圧と、前記スマート表示装置に関連する以前の複数の期間にわたる音圧との間の差を確定して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップを含む、システム。
  14. 前記スマート表示装置に関連付けられていない二次データを使用してリモートサーバで前記機械学習モデルを訓練する請求項13に記載のシステム。
  15. 前記複数の特徴は、前記信号に関連する受音角度、及び前記信号に関連する音声活動のうちの少なくとも1つをさらに含む請求項13に記載のシステム。
  16. 前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    前記複数の期間にわたる音圧に関連する平均値および標準偏差を確定することをさらに含む請求項15に記載のシステム。
  17. 前記音声キャプチャ装置から受信された前記信号の複数の特徴を解析して、前記スマート表示装置のディスプレイを停止するか否かを判定するステップは、
    前記スマート表示装置に対する前記音声の音源の角度を確定することを含む請求項15に記載のシステム。
  18. プロセッサにより実行されると、請求項1ないし請求項6のいずれか一項に記載の方法を実現させるコンピュータプログラム。
JP2019127670A 2018-12-28 2019-07-09 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム Active JP7190982B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/235,401 2018-12-28
US16/235,401 US10817246B2 (en) 2018-12-28 2018-12-28 Deactivating a display of a smart display device based on a sound-based mechanism

Publications (2)

Publication Number Publication Date
JP2020109608A JP2020109608A (ja) 2020-07-16
JP7190982B2 true JP7190982B2 (ja) 2022-12-16

Family

ID=71124227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019127670A Active JP7190982B2 (ja) 2018-12-28 2019-07-09 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム

Country Status (4)

Country Link
US (1) US10817246B2 (ja)
JP (1) JP7190982B2 (ja)
KR (1) KR102223268B1 (ja)
CN (1) CN111383634B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020243689A1 (en) * 2019-05-31 2020-12-03 Veritone, Inc. Cognitive multi-factor authentication

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352154A (ja) 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
WO2011030372A1 (ja) 2009-09-09 2011-03-17 株式会社 東芝 音声対話装置及びプログラム
WO2015029296A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP2016004270A (ja) 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
WO2016051519A1 (ja) 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
JP2016526205A (ja) 2013-05-07 2016-09-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated 音声アクティブ化を制御するための方法および装置
JP2017010309A (ja) 2015-06-23 2017-01-12 トヨタ自動車株式会社 意思決定支援装置および意思決定支援方法
JP2017032738A (ja) 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002057791A (ja) * 2000-08-10 2002-02-22 Sanyo Electric Co Ltd 携帯電話機
CA2685779A1 (en) * 2008-11-19 2010-05-19 David N. Fernandes Automated sound segment selection method and system
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
CN103376891A (zh) * 2012-04-23 2013-10-30 凹凸电子(武汉)有限公司 多媒体系统,显示装置的控制方法及控制器
US20140013193A1 (en) * 2012-06-29 2014-01-09 Joseph John Selinger Methods and systems for capturing information-enhanced images
KR20140023066A (ko) * 2012-08-16 2014-02-26 삼성전자주식회사 플렉서블 디스플레이 장치 및 그 피드백 제공 방법
US9122966B2 (en) * 2012-09-07 2015-09-01 Lawrence F. Glaser Communication device
KR20150092996A (ko) * 2014-02-06 2015-08-17 삼성전자주식회사 디스플레이 장치 및 이를 이용한 전자 장치의 제어 방법
KR102185564B1 (ko) * 2014-07-09 2020-12-02 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
HK1203120A2 (en) * 2014-08-26 2015-10-16 高平 A gait monitor and a method of monitoring the gait of a person
WO2016104824A1 (ko) * 2014-12-23 2016-06-30 엘지전자 주식회사 포터블 디바이스 및 그 제어 방법
CN105787420B (zh) * 2014-12-24 2020-07-14 北京三星通信技术研究有限公司 用于生物认证的方法、装置以及生物认证系统
US10154358B2 (en) * 2015-11-18 2018-12-11 Samsung Electronics Co., Ltd. Audio apparatus adaptable to user position
CN105361429B (zh) * 2015-11-30 2018-05-15 华南理工大学 基于多通道交互的智能学习平台及其交互方法
KR20170091436A (ko) * 2016-02-01 2017-08-09 삼성전자주식회사 영상 표시 장치 및 그 동작방법
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
KR102535737B1 (ko) * 2016-08-03 2023-05-24 삼성전자주식회사 압력 센서를 포함하는 전자 장치
US20180082304A1 (en) * 2016-09-21 2018-03-22 PINN Technologies System for user identification and authentication
US10574764B2 (en) * 2016-12-09 2020-02-25 Fujitsu Limited Automated learning universal gateway
US10810912B2 (en) * 2017-03-15 2020-10-20 Aether Inc. Face recognition triggered digital assistant and LED light ring for a smart mirror
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
CN107833574B (zh) * 2017-11-16 2021-08-24 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
KR102462096B1 (ko) * 2017-12-13 2022-11-03 삼성디스플레이 주식회사 전자 장치 및 이의 구동 방법
US10170135B1 (en) * 2017-12-29 2019-01-01 Intel Corporation Audio gait detection and identification
US10893361B2 (en) * 2018-01-04 2021-01-12 Harman Becker Automotive Systems Gmbh Low frequency sound field in a listening environment
CN108366319A (zh) * 2018-03-30 2018-08-03 京东方科技集团股份有限公司 智能音箱及其语音控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352154A (ja) 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
WO2011030372A1 (ja) 2009-09-09 2011-03-17 株式会社 東芝 音声対話装置及びプログラム
JP2016526205A (ja) 2013-05-07 2016-09-01 クゥアルコム・インコーポレイテッドQualcomm Incorporated 音声アクティブ化を制御するための方法および装置
WO2015029296A1 (ja) 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP2016004270A (ja) 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
WO2016051519A1 (ja) 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
JP2017010309A (ja) 2015-06-23 2017-01-12 トヨタ自動車株式会社 意思決定支援装置および意思決定支援方法
JP2017032738A (ja) 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Also Published As

Publication number Publication date
CN111383634B (zh) 2024-04-02
CN111383634A (zh) 2020-07-07
JP2020109608A (ja) 2020-07-16
US20200210139A1 (en) 2020-07-02
KR20200083154A (ko) 2020-07-08
KR102223268B1 (ko) 2021-03-08
US10817246B2 (en) 2020-10-27

Similar Documents

Publication Publication Date Title
US10621992B2 (en) Activating voice assistant based on at least one of user proximity and context
EP3126929B1 (en) Location aware power management scheme for always-on- always-listen voice recognition system
CN105589336B (zh) 多处理器设备
US10956172B2 (en) Memory management of data processing systems
KR102503684B1 (ko) 전자 장치 및 그의 동작 방법
EP3131316B1 (en) Method of managing geo-fence and electronic device thereof
US11094246B2 (en) Operating module for display and operating method, and electronic device supporting the same
CN107085462B (zh) 用于管理电力的电子设备及控制其的方法
US10139494B2 (en) Electronic device and method for measuring position information of electronic device
US10283117B2 (en) Systems and methods for identification of response cue at peripheral device
US20170031591A1 (en) Screen controlling method and electronic device for supporting the same
JP7190982B2 (ja) 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム
US11029741B2 (en) Deactivating a display of a smart display device based on a vision-based mechanism
KR102323232B1 (ko) 시각 기반의 메커니즘을 기반으로 스마트 표시 장치의 음성 명령을 활성화하는 방법 및 시스템
US20220245447A1 (en) Systems and methods for quantization aware training of a neural network for heterogeneous hardware platform

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210805

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220707

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220707

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220720

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220921

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221206

R150 Certificate of patent or registration of utility model

Ref document number: 7190982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150