JP6012877B2 - マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 - Google Patents

マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP6012877B2
JP6012877B2 JP2015533437A JP2015533437A JP6012877B2 JP 6012877 B2 JP6012877 B2 JP 6012877B2 JP 2015533437 A JP2015533437 A JP 2015533437A JP 2015533437 A JP2015533437 A JP 2015533437A JP 6012877 B2 JP6012877 B2 JP 6012877B2
Authority
JP
Japan
Prior art keywords
module
voice
control command
voice recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015533437A
Other languages
English (en)
Other versions
JP2015535952A (ja
Inventor
ホンジ ワン
ホンジ ワン
ルーユエン リュー
ルーユエン リュー
ノン サン
ノン サン
グオファ リュー
グオファ リュー
Original Assignee
シェンジェン ピーアールテック カンパニー リミテッド
シェンジェン ピーアールテック カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シェンジェン ピーアールテック カンパニー リミテッド, シェンジェン ピーアールテック カンパニー リミテッド filed Critical シェンジェン ピーアールテック カンパニー リミテッド
Publication of JP2015535952A publication Critical patent/JP2015535952A/ja
Application granted granted Critical
Publication of JP6012877B2 publication Critical patent/JP6012877B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声遠隔制御技術に関し、詳細には、マルチメディアデバイスの音声制御システム及び方法、及びコンピュータ記憶媒体に関する。
携帯電話が知能化した後には、TV、プロジェクタ、ゲーム機等のマルチメディアデバイスが同様に知能化できる状况にある。現在、マルチメディアデバイスは、高性能な制御チップを備えることが多く、オープンプラットフォーム及びオペレーティングシステムを有する。ユーザは、マルチメディアデバイスの機能を拡張させるアプリ(apps)をインストール及びアンインストールすることができる。マルチメディアデバイスは、SNS及び情報検索をサポートする。一例としてスマートTVを取り上げると、スマートTVは、従来の番組を再生する機能に限られない。スマートTVは、ビデオ及びオーディオを共有したり、対話型娯楽ゲームを行う機能を実現することができる。従来のボタン式遠隔制御ユニットでは、複数のマルチメディア機能を選択及び操作する要求を満たすことができない。
従来、インテリジェント制御は、タッチ制御、音声制御、ジェスチャ制御、モーション制御等の複数の人間−コンピュータ対話プログラムによって実現することができる。使用シナリオの制約及び使用習慣の問題により、従来のインテリジェント制御方法は、ボタン式遠隔制御ユニットに全体的に取って代わることはできず、ユーザは、ボタン式遠隔制御ユニット上の特定の機能キーとデジタルキーの組み合わせを利用することによってのみ操作することができる。例えば、タッチ制御プログラムは、遠隔制御ユニットに組み込まれたタッチ感知モジュールを使用する必要がある。ジェスチャ認識プログラムは、通常使用するチャンネルの間でチャンネルを迅速に切り替えることができず、ユーザが現在のチャンネル1からチャンネル55に切り替えようとする場合、従来のボタン式制御ユニットは、ジェスチャ認識プログラムよりも迅速にチャネルを切り替えることができる。モーション制御の問題点は、ジェスチャ認識プログラムのものと類似しており、通常、モーション制御プログラムは、距離画像検出モジュールを組み込んで、正確なモーション制御機能を実現する必要がある。従来の音声認識プログラムの問題点は、ユーザの音声をクリアに集音するために、遠隔制御ユニットにはマイクロホンが組み込まれており、ボタン式遠隔制御ユニットを必要とする点である。
音声認識の発達に伴い、音声認識及び意味認識は実用段階に到達している。クラウドコンピューティング技術の普及で、クラウドサービスに基づく音声認識の多数のサービスプロバイダが、音声制御によるTVを実現するために音声認識とTVを組み合わせている。現在の解決策において、マイクロホンピックアップモジュールが遠隔制御ユニットに組み込まれており、ユーザの音声を取得するようになっており、この音声は処理されてクラウドに送信されて認識される。遠距離の音声をピックアップできるマイクロホンアレイ技術を利用しても、TV音響出力と環境騒音の干渉といった問題点、及びユーザの非制御命令音声が誤って制御命令として認識されるといった問題点は、マルチメディアデバイスの性能に影響を与える可能性がある。
本発明によって解決すべき技術的課題は、マルチメディアデバイス用音声制御システムを提供することである。
マルチメディアデバイス用音声制御システムは、前述の問題点を解決するために用いられる。マルチメディアデバイス用音声制御システムは、ユーザアクション画像を収集するように構成された画像検出モジュールと、ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールと、制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールと、音声信号を収集するように構成されたピックアップモジュールと、収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、制御命令を実行して対応するマルチメディア機能をユーザに提供するように構成されたマルチメディア機能モジュールと、を備える。
好ましくは、画像認識モジュールは、ユーザアクション画像をプリセット画像テンプレートと比較してユーザアクション画像に一致する制御命令タイプを選択するように構成され、ユーザアクション画像に一致する制御命令タイプが見つかった場合、ユーザの位置が対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプが音声認識ステータス管理モジュールに送られ、ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が音声認識ステータス管理モジュールに送られる。
好ましくは、画像認識モジュールは、人間−コンピュータ対話コンテンツを提示し、ユーザが、プリセット画像テンプレートに一致するまで特定の動作を行うように指示するように構成される。
好ましくは、ピックアップモジュールは、アレイピックアップモジュール又は少なくとも1つのピックアップセンサであり、ピックアップセンサは規則的に又は不規則に配列され、ピックアップセンサは、ピックアップ方向及びピックアップ角度の限定に従って対象の音声源が放出する音声信号を収集し、音声信号をデジタル化して音声データを生成し、この音声データを送る。
好ましくは、音声認識ステータス管理モジュールは、音声認識プログラムを作動させるか又は起動させるための受信した音声認識プログラムの開始情報に従って開始命令及び制御命令タイプを音声認識モジュールに送り、対象の音声源の位置情報を音波ビーム形成モジュールに送り、マルチメディア機能モジュールは、マルチメディアデバイスの出力音量を低減するように制御され、マルチメディアデバイスの出力音量は、ピックアップモジュールが音声信号の収集を終了した後に通常レベルに戻される。
好ましくは、音声認識モジュールは、音声認識ステータス管理モジュールからの開始命令及び制御命令タイプに従って、ピックアップモジュールからの音声データを認識し、或る制御命令タイプを有する制御命令を生成し、制御命令は、マルチメディア機能モジュールに送られる。
好ましくは、音声認識モジュールは、処理された制御命令音声信号の用語モデルが格納された内蔵音声命令辞書をプリセットする。
音声認識モジュールは、音声データを音声命令辞書の用語モデルと比較し、音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データは、用語モデルに対応する制御命令としてアサートされ、制御命令は、マルチメディア機能モジュールに送られる。
好ましくは、音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備える。
ローカル音声認識モジュールは、音声データを認識して或る制御命令タイプを有する制御命令を形成し、制御命令は、マルチメディア機能モジュールに送られる。
クラウド音声認識モジュールは、ローカル音声認識モジュールでは認識できない音声データを認識し、或る制御命令タイプを有する制御命令を生成し、制御命令は、マルチメディア機能モジュールに送られる。
好ましくは、マルチメディア機能モジュールは、制御命令を実行し、制御命令に従って検索エンジンによって自動的に検索を行いオーディオ及びビデオデータを取得し、オーディオ及びビデオデータをダウンロードして再生する。
マルチメディアデバイスのための音声制御方法は、ユーザアクション画像を収集する段階と、ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置を送り、マルチメディアデバイスの出力音量を低減させる段階と、対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、収集した音声データを認識して制御命令を生成する段階と、制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、を含む。
好ましくは、ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送る段階は、ユーザアクション画像をプリセット画像テンプレートと比較して、ユーザアクション画像と一致する制御命令タイプを選択する段階を含み、ユーザアクション画像に一致する制御命令タイプが見つかった場合、ユーザの位置を対象の音声源の位置としてアサートし、対象音声の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプを送り、ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報を送る。
好ましくは、本方法は、人間−コンピュータ対話コンテンツをユーザに提示して、ユーザが、プリセット画像テンプレートに一致するまで特定の動作を行うように指示する段階を含む。
好ましくは、ピックアップ方向及びピックアップ角度に従って対象の音声源から放出された音声信号を収集して音声データを生成する段階は、少なくとも1つのピックアップセンサを規則的に又は不規則に配列して、少なくとも1つのピックアップセンサによってピックアップ方向及び前記ピックアップ角度の限定に従って対象の音声源から放出された音声信号を収集し、音声信号をデジタル化して音声データを生成し、音声データを送る段階を含む。
好ましくは、現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階は、開始命令及び制御命令タイプを送って、受け取った音声認識プログラムの開始情報に従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置情報を送る段階と、マルチメディアデバイスの出力音量を低減する段階と、音声信号の収集が終了した後にマルチメディアデバイスの出力音量を通常レベルに戻す段階とを含む。
好ましくは、開始命令及び制御命令タイプを送って、受け取った前記音声認識プログラムの開始情報に従って音声認識プログラムを作動させるか又は起動させる段階は、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成する段階と、制御命令を送る段階とを含む。
好ましくは、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成し、制御命令を送る段階は、音声データを、処理済み制御命令音声信号用語モデルが格納された音声命令辞書内の用語モデルと比較する段階を含み、音声データと少なくとも1つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データを用語モデルに対応する制御命令としてアサートし、制御命令を送る段階を含む。
好ましくは、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成する段階と、制御命令を送る段階は、音声データをローカルで認識し、制御命令タイプを有する制御命令を生成して制御命令を送る段階と、ローカルで認識できない音声データを意味論的に認識して制御命令タイプを有する制御命令を生成して制御命令を送る段階とを含む。
好ましくは、制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階は、制御命令を実行し、制御命令に従って検索エンジンによって自動的に検索を行いオーディオ及びビデオデータを取得し、オーディオ及びビデオデータをダウンロードして再生する段階を含む。
コンピュータ実行可能な命令を記憶するようになったコンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体は、1つ又はそれ以上のコンピュータ実行可能な命令を記憶し、該1つ又はそれ以上にコンピュータ実行可能な命令は1つ又はそれ以上のプロセッサで実行され、マルチメディアデバイスのための音声制御方法を遂行するようになっており、該方法は、
ユーザアクション画像を収集する段階と、
ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、
対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階と、
対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、
ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、
収集した音声データを認識して制御命令を生成する段階と、
制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、
を含む。
本発明では、画像認識技術、音声認識技術、及びコンピュータの記憶媒体が組み合わされ、携帯型遠隔制御ユニットに依存せず、近接ピックアップデバイスに制限されない、自由かつ好都合な音声制御が実現される。制御命令音声認識に対する、マルチメディアデバイスの音響出力、環境背景雑音、及びユーザの非制御命令音声信号の妨害を効果的に回避することができ、ユーザの命令を正確に認識できるので、複数のユーザが一緒に又は別々にマルチメディアデバイスを制御することができる。
本発明の実施形態は、添付図面を参照して以下に詳細に説明される。
1つの実施形態によるマルチメディアデバイス用音声制御システムのブロック図である。 好ましいプリセット画像テンプレートの概略図である。 1つの実施形態によるマルチメディアデバイス用音声制御システムの特定の処理フローチャートである。 1つの実施形態によるアレイピックアップモジュール14の概略図である。 1つの実施形態によるマルチメディアデバイス用音声制御システムの基本的な処理フローチャートである。 音声認識モジュール15の特定の処理フローチャートである。
本開示の目的、技術的解決策、及び利点をより明確に理解できるように、本開示は、添付図面及び以下の実施形態を用いてより詳細に説明される。本明細書に記載の特定の実施形態は本発明を例示する単なる実施例であり、本開示を限定しないことを理解されたい。
図1に示すマルチメディアデバイス用音声制御システムの概略的なブロック図を参照すると、マルチメディアデバイス1の実施形態は、ユーザアクション画像を収集するように構成された画像検出モジュール10と、ユーザアクション画像によって制御命令タイプ又はステータスを判定するように構成された画像認識モジュール11と、現在の制御命令によって音声認識プログラムを作動又は起動するように構成された音声認識ステータス管理モジュール12と、音声データを収集するように構成されたピックアップモジュール14と、収集した音声データを認識して制御命令を発生するように構成された音声認識モジュール15と、制御命令を実行して対応するマルチメディア機能をユーザに提供するように構成されたマルチメディア機能モジュール16と、を含む。
図2に示す概略的なプリセット画像テンプレートを参照すると、画像認識モジュール11の実施形態は、少なくとも1つの画像テンプレートをプリセットし、異なるタイプの制御命令は、異なる画像テンプレートに対応する。ユーザアクション画像を少なくとも1つの画像テンプレートと比較し、ユーザアクション画像に一致する画像テンプレートが見つかると、ユーザが対象の音声源として認識され、その結果、ユーザの音声は、制御命令の対応するタイプに一致する制御命令である。比較結果が誤っている場合、つまりユーザアクション画像に一致する画像テンプレートが見つからない場合、ユーザのアクションは制御命令として認識されず、音声認識プログラムは停止する。
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、画像認識モジュール11は画像検出モジュール10から送られてきたユーザアクション画像を処理し、処理結果はプリセット画像テンプレートのデータと比較され、ユーザアクション画像に一致する制御命令タイプが選択される。
比較結果がユーザアクション画像に一致する制御命令タイプが見つかったという場合、ユーザの位置は、対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプは、音声認識ステータス管理モジュール12に送られる。
ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が音声認識ステータス管理モジュール12に送られる。
好ましい実施形態において、画像認識モジュール11は、特定のユーザの動きを訓練する必要がある。例えば、マルチメディアデバイス1は、人間−コンピュータ対話コンテンツをユーザに提示し、ユーザに対して、動きが「音声制御の開始」の制御命令タイプに対応する第1の画像テンプレートに一致するまで、右手を口元に置いて宣伝活動のような動きを行うよう指示する。他の実施例では、マルチメディアデバイス1は、ユーザに対して「ミュート」のプリセット制御命令タイプに対応する第2の画像テンプレート一致するまで口元を覆う動きを行うように指示できる。
マルチメディアデバイス1の実施形態は、対象の音声源の位置に対応してピックアップ方向及びピックアップ角度を決定する、音波ビーム形成モジュール13をさらに含む。音声ピックアップアレイ技術を併用して雑音を除去するようになっており、音声認識の精度が改善される。
例示的な実施形態において、ピックアップモジュール14は、アレイピックアップモジュールである。ピックアップモジュール14は、少なくとも1つの規則的に配列されたピックアップセンサを含む。対象の音声源から出た音声信号は、ピックアップ方向及びピックアップ角度の限定に照らして収集される。音声信号はデジタル化され、背景雑音が除去されて、音声データが生成されて音声認識モジュール15に送られる。図4に示すアレイピックアップモジュール14の概略図を参照すると、アレイピックアップモジュール14は、規則的形状に基づいて配列された複数のピックアップセンサを含む。例えば、複数のピックアップセンサは、画像検出モジュール10の両側で、均等に間隔を置いた直線配列様式に基づいて均等かつ水平方向に配列される、
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、音波ビーム形成モジュール13は、アレイピックアップモジュール14で収集した音声信号の音波ビームメインローブの方向及び角度を判定し、つまりピックアップ方向及びピックアップ角度を判定し、結果的に、アレイピックアップモジュール14は、対象の音声源から放出された音声信号の収集に限定される。音波ビームを形成する一般的な方法は、遅延蓄積方法(従来型のビーム形成方法)、適応ビーム形成方法、及びポスト(post)に基づく適応フィルタリング方法を含み、この3つの方法には長所及び短所がある。遅延蓄積ビーム方法及びポストに基づく適応フィルタリング方法を適用してインコヒーレント雑音及び弱コヒーレント雑音を除去することができ、適応ビーム形成方法を適用してコヒーレント雑音を除去することができるが、これはインコヒーレント雑音及び散乱雑音を除去する場合には効果が不十分である。実際には、環境は、コヒーレント雑音及びインコヒーレント雑音を含むことが多く、ピックアップ方向及びピックアップ角度は、画像認識によって対象の音声源の位置を特定することで判定される。複数のTV視聴者が画像認識の範囲に存在していても、対象ユーザが出した音声信号だけが認識される。
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照する。音声認識ステータス管理モジュール12は、マルチメディアデバイス用音声制御システムの認識ステータスの管理を担う。音声認識の開始情報を受け取ると、開始命令及び制御命令タイプを音声認識モジュール15に送って音声認識プログラムを作動させ、対象の音声源の位置を音波ビーム形成モジュール13に送り、ユーザからの音声信号を制御命令として認識し、制御命令は、アレイピックアップモジュール14によって音声認識モジュール15に送られ、音声認識モジュール15が処理する。比較失敗情報を受け取った場合、制御命令は音声認識モジュール15に送られて音声認識プログラムを停止するようになっている。
更に、音声認識ステータス管理モジュール12は、音声認識プログラムを作動させ、マルチメディア機能モジュール16は、マルチメディアデバイスの出力音量を低減するように制御される。スマートTVは一例であるが、TVの出力音量は対象の音声源の音声信号の強度よりも小さくなるように制御される。一般に、スマートTVの音響出力は、ミュートになるように設定され、これにより、音声認識プログラムを妨害するTVの背景雑音を回避することができる。音声認識が終了するか又は比較失敗に起因して音声認識が停止した場合、音声認識モジュール15は起動せず、スマートTVの音響出力は、通常の出力音量に調節され、ユーザの音声信号は無視され、これにより無意識の音声命令による外乱を回避する。
例示的な実施形態において、音声認識モジュール15は、ピックアップモジュール14からの音声データを認識して、或る制御命令タイプの制御命令を発生するようになっており、制御命令はマルチメディア機能モジュール16に送られる。
例示的な実施形態において、音声認識モジュール15は、内蔵音声命令辞書をプリセットし、音声命令辞書は、処理された制御命令音声信号の用語モデルを格納し、用語モデルは、限定されるものではないが、「最後のチャンネル」、「次のチャンネル」、「出力音量増大」、「出力音量低減」、「CCTV1」、「フーナン衛星TV」等を含む。音声認識モジュール15は、音声データを音声命令辞書の用語モデルと比較し、音声データと少なくとも1つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データは、用語モデルに対応する制御命令として決定され、制御命令はマルチメディア機能モジュール16に送られる。
複雑な音声認識制御命令を実現するために、音声認識モジュール15は、ローカル音声認識モジュール151及びクラウド音声認識モジュール152をさらに含む。ローカル音声認識モジュール151は、限定されるものではないが、チャンネル切替え、出力音量の調節、電源オン及びオフを含む単純な制御命令を認識して処理するように構成される。クラウド音声認識モジュール152は、意味認識コンテンツを含む複雑な制御命令を認識して処理するように構成され、これは音声認識のクラウドサービスによって実現される。
図3に示すマルチメディアデバイス音声認識システムの特定の処理フローチャートを参照すると、ローカル音声認識モジュール151は、音声データを認識して、或る制御命令タイプを有する制御命令を発生するようになっており、この制御命令はマルチメディア機能モジュール16に送られる。
クラウド音声認識モジュール152は、ANHUI USTC iFLYTEK社が提供するオンラインサービス等の意味認識能力を備えた音声認識サービスプロバイダとすることができる。ユーザの音声データをローカル音声認識モジュール152で認識できない場合、つまり音声データと音声命令辞書の全ての用語モデルとの間の類似度がプリセット閾値よりも小さい場合、音声データは、ネットワーク経由でクラウド音声認識モジュール152に送られ、意味論的に認識されて或る制御命令タイプを有する制御命令を発生するようになっており、制御命令は、マルチメディア機能モジュール16に送られる。
また、本開示にはマルチメディアデバイスのための音声制御方法が提示されており、図5に示すマルチメディアデバイス用音声制御システムの基本的処理フローチャートを参照する。この方法は以下を含む。
ステップS1において、ユーザアクション画像を画像検出モジュール10によって収集する。
ステップS2において、画像認識モジュールによってユーザアクション画像に従って制御命令のタイプ又はステータスを判定する。
ステップS3において、音声認識ステータス管理モジュール12によって現在の制御命令に従って音声認識を作動又は起動する。
ステップS4において、音波ビーム形成モジュール13によってピックアップ方向及びピックアップ角度を判定する。
ステップS5において、アレイピックアップモジュール14によって、ピックアップ方向及びピックアップ角度の限定に照らしてユーザの音声信号を収集し、音声信号をデジタル化して音声データを生成する。
ステップS6において、収集した音声データを音声認識モジュール15で認識して制御命令を生成する。
ステップS7において、制御命令をマルチメディア機能モジュール16で実行して関連のマルチメディア機能をユーザに提供する。
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、1つの実施形態において、マルチメディアデバイスのために音声制御方法は以下の通りである。
ステップS1において、画像検出モジュール10によってユーザアクション画像を収集する。
ステップS21において、画像認識モジュール11によってユーザアクション画像をプリセット画像テンプレートと比較し、ユーザアクション画像に一致する制御命令タイプを選択する。比較結果がユーザアクション画像に一致する制御命令タイプが見つかったという場合、次にステップS22を実行する。ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、次にステップS23を実行する。
ステップS22において、画像認識モジュール11によってユーザの位置が対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプを音声認識ステータス管理モジュール12に送る。
ステップS23において、画像認識モジュール11によって比較失敗情報を音声認識ステータス管理モジュール12に送る。
ステップS31において、音声認識ステータス管理モジュール12によって受け取った情報を解析し、情報が開始情報であればステップS32を実行し、情報が比較失敗情報であればステップS35を実行する。
ステップS32において、音声認識ステータス管理モジュール12によって開始命令のタイプ及び制御情報を音声認識モジュール15に送り、音声認識プログラムを作動させる。
ステップS33において、音声認識ステータス管理モジュール12によって対象の音声源の位置情報を音波ビーム形成モジュール13に送る。
ステップS34において、マルチメディア機能モジュール16は、音声認識ステータス管理モジュール12によってマルチメディア出力音量を低減するように制御される。
ステップS35において、音声認識ステータス管理モジュール12によって音声認識プログラムを停止する命令が送られる。
ステップS4において、音波ビーム形成モジュール13によって、対象の音声源の位置情報に従ってピックアップ方向及びピックアップ角度を判定する。
ステップS51において、アレイピックアップモジュール14によってピックアップ方向及びピックアップ角度の限定に従って対象の音声源から放出された音声信号を収集する。
ステップS52において、収集した音声信号をアレイピックアップモジュール14でデジタル化して音声データを生成し、この音声データは音声認識モジュール15に送られる。
ステップS61において、音声認識モジュール15によって、アレイピックアップモジュール14からの音声データを音声認識ステータス管理モジュール12からの開始命令及び制御命令タイプに従って認識して或る制御命令タイプを有する制御命令を生成し、この制御命令はマルチメディア機能モジュール16に送られる。
ステップS7において、マルチメディア機能モジュール16によって制御命令を実行し、マルチメディア機能をユーザに提供する。
特定の実施形態において、スマートTV1の画像検出モジュール10は、検出範囲内でユーザAが図2に示す動きを取っていることを検出する。画像認識モジュール11は、ユーザアクション画像をプリセット画像テンプレートと比較し、ユーザアクション画像が「音声遠隔制御の開始」の制御命令タイプに対応する画像テンプレートと一致する場合、ユーザAの位置を対象の音声源の位置としてアサートし、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプを音声認識ステータス管理モジュール12に送る。音声認識ステータス管理モジュール12は、受信した音声認識の開始情報に応じて、開始命令及び制御命令タイプを音声認識モジュール15に送り、音声認識プログラムを作動させる。音声認識ステータス管理モジュール12は、対象の音声源の位置情報を音波ビーム形成モジュール13に送り、音波ビーム形成モジュール13は、画像検出及び認識範囲内に複数のTV視聴者が存在する場合であっても、ユーザAだけが対象ユーザであり、ユーザAの音声信号だけを認識できることを保証する。音波ビーム形成モジュール13は、対象の音声源の位置情報に従ってピックアップ方向及びピックアップ角度を決定する。アレイピックアップモジュール14は、音声のピックアップ方向及びピックアップ角度の限定に照らして「フーナン衛星TV」の音声信号を収集し、次に、音声信号をデジタル化して音声データを生成し、この音声データを音声認識モジュール15に送る。音声データは音声認識モジュール15で認識され、音声データと用語モデルとの間の類似度が閾値よりも大きい場合、「フーナン衛星TVチャンネルに同調させる」という制御命令が生成され、マルチメディア機能モジュール16に送られる。マルチメディア機能モジュール16はこの制御命令を実行してTVをフーナン衛星TVチャンネルに同調させる。
また、1つの実施形態のマルチメディアデバイスのための音声制御方法が提供される。図6に示す音声認識モジュール15の特定のフローチャートを参照すると、音声認識モジュール15は、ローカル音声認識モジュール151及びクラウド音声認識モジュール152を含み、音声認識モジュール15は、音声命令辞書をプリセットする。マルチメディアデバイスのための音声制御方法は以下の通りである。
ステップS611において、ローカル音声認識モジュール151は、音声データを認識して音声データと音声命令辞書の用語モデルとを比較し、音声データと少なくとも1つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合はステップS612を実行し、そうでない場合はステップS613を実行する。
ステップS612において、ローカル音声認識モジュール151は、音声データを用語モデルに対応した制御命令と判定し、この制御命令はマルチメディア機能モジュール16に送られる。
ステップS613において、音声データは、ネットワーク経由でクラウド音声認識モジュール152に送られる。
ステップS614において、クラウド音声認識モジュール152は、音声データを認識して制御命令を生成し、この制御命令は、マルチメディア機能モジュール16に送られる。
特定の実施形態において、ステップS1からステップS51は前記の実施形態と同じである。アレイピックアップモジュール14は、ユーザAから「Andy Lauの歌を再生する」という音声信号を収集し、この音声信号をデジタル化して音声データを生成し、この音声データは、音声認識モジュール15に送られる。音声データは、音声認識モジュール15のローカル音声認識モジュール151によって認識され、音声データは、音声命令辞書の用語モデルと比較され、音声データと音声命令辞書の全ての用語モデルとの間の類似度がプリセット閾値よりも小さい場合、音声データは、ネットワーク経由でクラウド音声認識モジュール152に送られる。クラウド音声認識モジュール152は、音声データを認識してユーザの音声データに従って「Andy Lauの歌を再生する」という制御命令を生成し、この制御命令は、マルチメディア機能モジュール16に送られる。マルチメディア機能モジュール16はこの制御命令を実行し、Andy Lauの歌を検索エンジンで検索し、歌のビデオ及びオーディオデータをダウンロードしてスマートTV1の音楽再生モジュールに送り、オーディオ及びビデオデータが再生される。
例示的な実施形態において、画像認識技術、音声認識技術、及びコンピュータ記憶媒体が組み合わされ、携帯型遠隔制御ユニットに依存せず、近接ピックアップデバイスに制限されない、自由かつ好都合な音声制御が実現される。制御命令音声認識に対する、マルチメディアデバイスの音響出力、環境背景雑音、及びユーザの非制御命令音声信号の妨害を効果的に回避することができ、ユーザの命令を正確に認識できるので、複数のユーザが一緒に又は別々にマルチメディアデバイスを制御することができる。
当業者であれば、実施形態による方法の全ての又は一部のプロセスは、コンピュータプログラム命令関連ハードウェアで実装できることを理解できるはずである。プログラムは、コンピュータ可読記憶媒体に格納することができる。プログラムを実行する場合に本発明の実施形態による方法プロセスが実行される。記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM)、又はランダムアクセスメモリ(RAM)とすることができる。
本発明は、これらの実施形態及び本発明を実施する最良の態様を参照して説明されているが、当業者であれば、特許請求の範囲で定義されることが意図された本発明の範囲を逸脱することなく種々の変形及び変更を行い得ることを理解できる。
1 マルチメディアデバイス
10 画像検出モジュール
11 画像認識モジュール
12 音声認識ステータス管理モジュール
13 音波ビーム形成モジュール
14 ピックアップモジュール
15 音声認識モジュール
16 マルチメディア機能モジュール

Claims (9)

  1. マルチメディアデバイス用音声制御システムであって、
    ユーザアクション画像を収集するように構成された画像検出モジュールと、
    前記ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールであって、該画像認識モジュールは前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置と判定した後に、該画像認識モジュールは前記対象の音声源の位置を音声認識ステータス管理モジュールに送る、画像認識モジュールと、
    現在の制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールであって、前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールは、前記対象の音声源の位置を、音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減するようにマルチメディア機能モジュールを制御する、音声認識ステータス管理モジュールと、
    前記対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定するように構成された音波ビーム形成モジュールと、
    前記ピックアップ方向及び前記ピックアップ角度に従って前記対象の音声源の音声信号を収集するように構成され、音声データを生成するように構成されたピックアップモジュールと、
    前記収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、
    前記制御命令を実行して対応するマルチメディア機能を前記ユーザに提供するように構成されたマルチメディア機能モジュールと、
    を備えたマルチメディアデバイス用音声制御システム。
  2. 前記画像認識モジュールは、前記ユーザアクション画像をプリセット画像テンプレートと比較して前記ユーザアクション画像に一致する制御命令タイプを選択するように構成され、
    前記ユーザアクション画像に一致する制御命令タイプが見つかった場合、前記ユーザの位置が前記対象の音声源の位置としてアサートされ、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び/又は前記制御命令タイプが前記音声認識ステータス管理モジュールに送られ、
    前記ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が前記音声認識ステータス管理モジュールに送られる、請求項1に記載のマルチメディアデバイス用音声制御システム。
  3. 前記ピックアップモジュールは、少なくとも1つの規則的に配置されたピックアップセンサを備えたアレイピックアップモジュールであり、前記ピックアップモジュールは、前記ピックアップ方向及び前記ピックアップ角度の限定に従って前記対象の音声源の前記音声信号を収集し、前記音声信号をデジタル化して音声データを生成し、該音声データを前記音声認識モジュールに送る、請求項2に記載のマルチメディアデバイス用音声制御システム。
  4. 前記音声認識ステータス管理モジュールは、前記音声認識を作動させるために、受信した前記音声認識の開始情報に従って開始命令及び前記制御命令タイプを前記音声認識モジュールに送り、前記対象の音声源の位置情報が前記音波ビーム形成モジュールに送られ、前記マルチメディア機能モジュールは、前記マルチメディアデバイスの前記出力音量を低減するように制御され、又は、前記音声認識ステータス管理モジュールは、前記比較失敗情報に基づいて前記音声認識を停止させるために前記音声認識モジュールに命令を送る、請求項3に記載のマルチメディアデバイス用音声制御システム。
  5. 前記音声認識モジュールは、前記音声認識ステータス管理モジュールからの前記開始命令及び前記制御命令タイプに従って、前記ピックアップモジュールからの前記音声データを認識し、前記制御命令タイプを有する制御命令を生成し、該制御命令は、前記マルチメディア機能モジュールに送られる、請求項4に記載のマルチメディアデバイス用音声制御システム。
  6. 前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、
    前記ローカル音声認識モジュールは、前記音声データを認識して前記制御命令タイプを有する制御命令を形成し、該制御命令は、前記マルチメディア機能モジュールに送られ、 前記クラウド音声認識モジュールは、前記ローカル音声認識モジュールでは認識できない前記音声データを意味論的に認識し、前記制御命令タイプを有する制御命令を生成し、前記制御命令は、前記マルチメディア機能モジュールに送られる、請求項1ないし5のいずれか1項に記載のマルチメディアデバイス用音声制御システム。
  7. マルチメディアデバイスのための音声制御方法であって、
    画像検出モジュールによってユーザアクション画像を収集する段階と、
    前記ユーザアクション画像に従って、画像認識モジュールによって制御命令タイプ又はステータスを判定する段階と、
    前記画像認識モジュールが前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置として判定した後に、前記対象の音声源の位置を音声認識ステータス管理モジュールに送る段階と、
    現在の前記制御命令タイプに従って、音声認識ステータス管理モジュールによって音声認識プログラムを作動させるか又は停止させる段階と、
    前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールによって、前記対象の音声源の位置を音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減させるために、マルチメディア機能モジュールを制御する段階と、
    前記対象の音声源の位置に従って、音声ビーム形成モジュールにより、ピックアップ方向及びピックアップ角度を決定する段階と、
    前記ピックアップ方向及びピックアップ角度の限定に従って、アレイピックアップモジュールによって前記ユーザの音声信号を収集し、前記音声信号をデジタル化して音声データを生成する段階と、
    制御命令を生成するために、前記収集した音声データを、音声認識モジュールによって認識する段階と、
    前記ユーザに対して対応するマルチメディア機能を提供するために、マルチメディア機能モジュールによって、前記制御命令を実行する段階と、
    を含む、マルチメディアデバイスのための音声制御方法。
  8. 前記ユーザアクション画像に従って、前記画像認識モジュールによって、前記制御命令タイプ又はステータスを判定する段階は、
    前記画像認識モジュールによって、前記ユーザアクション画像をプリセット画像テンプレートと比較して、前記ユーザアクション画像と一致する前記制御命令タイプを選択する段階を含み、
    前記ユーザアクション画像に一致する前記制御命令タイプが見つかった場合、前記ユーザの位置を前記対象の音声源の位置としてアサートし、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び/又は前記制御命令タイプを前記音声認識ステータス管理モジュールに送り、前記ユーザアクション画像に一致する前記制御命令タイプが見つからなかった場合、比較失敗情報を前記音声認識ステータス管理モジュールに送る、請求項7に記載のマルチメディアデバイスのための音声制御方法。
  9. 前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、前記音声認識モジュールは音声命令辞書をプリセットし、
    前記方法はさらに、
    前記ローカル音声認識モジュールが前記音声データを認識し、前記音声データを、音声命令辞書内の用語モデルと比較し、前記音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、前記音声データは前記用語モデルに対応する制御命令として解釈され、前記制御命令は前記マルチメディア機能モジュールに送られ、
    前記音声データと用語モデルとの間の類似度が前記プリセット閾値以下である場合、前記音声データはネットワークを介して前記クラウド音声認識モジュールに送られ、
    前記クラウド音声認識モジュールは前記音声データを意味論的に認識して制御命令を生成し、該制御命令はネットワークを介して前記マルチメディア機能モジュールに送られる、
    請求項7又は8に記載のマルチメディアデバイスのための音声制御方法。
JP2015533437A 2012-09-29 2013-09-26 マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 Active JP6012877B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210374809.1 2012-09-29
CN2012103748091A CN102945672B (zh) 2012-09-29 2012-09-29 一种多媒体设备语音控制系统及方法
PCT/CN2013/084348 WO2014048348A1 (zh) 2012-09-29 2013-09-26 一种多媒体设备语音控制系统及方法、计算机存储介质

Publications (2)

Publication Number Publication Date
JP2015535952A JP2015535952A (ja) 2015-12-17
JP6012877B2 true JP6012877B2 (ja) 2016-10-25

Family

ID=47728610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015533437A Active JP6012877B2 (ja) 2012-09-29 2013-09-26 マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体

Country Status (5)

Country Link
US (1) US9955210B2 (ja)
EP (1) EP2897126B1 (ja)
JP (1) JP6012877B2 (ja)
CN (1) CN102945672B (ja)
WO (1) WO2014048348A1 (ja)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945672B (zh) 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN104049721B (zh) * 2013-03-11 2019-04-26 联想(北京)有限公司 信息处理方法及电子设备
CN104049723B (zh) * 2013-03-12 2017-05-24 联想(北京)有限公司 在便携设备中启动关联应用的方法和便携设备
CN104065806A (zh) * 2013-03-20 2014-09-24 辉达公司 对移动信息设备的语音控制
CN103268408A (zh) * 2013-05-13 2013-08-28 云南瑞攀科技有限公司 多维交互平台
CN103456299B (zh) * 2013-08-01 2016-06-15 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
CN203338756U (zh) * 2013-08-03 2013-12-11 袁志贤 语音图像识别双控无线汽车音响
CN103581726A (zh) * 2013-10-16 2014-02-12 四川长虹电器股份有限公司 一种电视设备上采用语音实现游戏控制的方法
CN104216351B (zh) * 2014-02-10 2017-09-29 美的集团股份有限公司 家用电器语音控制方法及系统
CN103902373B (zh) * 2014-04-02 2017-09-29 百度在线网络技术(北京)有限公司 智能终端控制方法、服务器和智能终端
US9569174B2 (en) * 2014-07-08 2017-02-14 Honeywell International Inc. Methods and systems for managing speech recognition in a multi-speech system environment
CN104269172A (zh) * 2014-07-31 2015-01-07 广东美的制冷设备有限公司 基于视频定位的语音控制方法和系统
CN104200817B (zh) * 2014-07-31 2017-07-28 广东美的制冷设备有限公司 语音控制方法和系统
CN104200816B (zh) * 2014-07-31 2017-12-22 广东美的制冷设备有限公司 语音控制方法和系统
CN104298349B (zh) * 2014-09-24 2017-12-15 联想(北京)有限公司 信息处理方法及电子设备
CN106796786B (zh) * 2014-09-30 2021-03-02 三菱电机株式会社 语音识别系统
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN104882141A (zh) * 2015-03-03 2015-09-02 盐城工学院 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN106325481A (zh) * 2015-06-30 2017-01-11 展讯通信(天津)有限公司 一种非接触式控制系统及方法以及移动终端
CN106488286A (zh) * 2015-08-28 2017-03-08 上海欢众信息科技有限公司 云端信息收集系统
CN106504753A (zh) * 2015-09-07 2017-03-15 上海隆通网络系统有限公司 一种在it运维管理系统中的语音识别方法及系统
CN105976814B (zh) * 2015-12-10 2020-04-10 乐融致新电子科技(天津)有限公司 头戴设备的控制方法和装置
CN105975060A (zh) * 2016-04-26 2016-09-28 乐视控股(北京)有限公司 虚拟现实终端及其控制方法和装置
CN105976818B (zh) * 2016-04-26 2020-12-25 Tcl科技集团股份有限公司 指令识别的处理方法及装置
CN106023990A (zh) * 2016-05-20 2016-10-12 深圳展景世纪科技有限公司 一种基于投影设备的语音控制方法及装置
CN107506165A (zh) * 2016-06-14 2017-12-22 深圳市三诺声智联股份有限公司 一种智能电子宠物语音交互系统及方法
CN106920551A (zh) * 2016-06-28 2017-07-04 广州零号软件科技有限公司 共用一套麦克风阵列的服务机器人双语音识别方法
US20180018965A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining Gesture and Voice User Interfaces
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及系统
CN106338711A (zh) * 2016-08-30 2017-01-18 康佳集团股份有限公司 一种基于智能设备的语音定向方法及系统
CN106409294B (zh) * 2016-10-18 2019-07-16 广州视源电子科技股份有限公司 防止语音命令误识别的方法和装置
CN106356061A (zh) * 2016-10-24 2017-01-25 合肥华凌股份有限公司 基于声源定位的语音识别方法和系统、及智能家电设备
KR20180049787A (ko) * 2016-11-03 2018-05-11 삼성전자주식회사 전자 장치, 그의 제어 방법
US10210863B2 (en) 2016-11-02 2019-02-19 Roku, Inc. Reception of audio commands
EP4220630A1 (en) 2016-11-03 2023-08-02 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
CN106775562A (zh) * 2016-12-09 2017-05-31 奇酷互联网络科技(深圳)有限公司 音频参数处理的方法及装置
KR102398390B1 (ko) 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN107103906B (zh) * 2017-05-02 2020-12-11 网易(杭州)网络有限公司 一种唤醒智能设备进行语音识别的方法、智能设备和介质
US10435148B2 (en) * 2017-05-08 2019-10-08 Aurora Flight Sciences Corporation Systems and methods for acoustic radiation control
CN108986801B (zh) * 2017-06-02 2020-06-05 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
US11178280B2 (en) * 2017-06-20 2021-11-16 Lenovo (Singapore) Pte. Ltd. Input during conversational session
CN107195304A (zh) * 2017-06-30 2017-09-22 珠海格力电器股份有限公司 一种电器设备的语音控制电路和方法
KR102392087B1 (ko) 2017-07-10 2022-04-29 삼성전자주식회사 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
CN107656977A (zh) * 2017-09-05 2018-02-02 捷开通讯(深圳)有限公司 多媒体文件的获取及播放方法以及装置
CN107657956B (zh) * 2017-10-23 2020-12-22 吴建伟 一种多媒体设备语音控制系统及方法
CN108064007A (zh) * 2017-11-07 2018-05-22 苏宁云商集团股份有限公司 用于智能音箱的增强人声识别的方法及微控制器和智能音箱
KR102527278B1 (ko) 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
CN109961781B (zh) * 2017-12-22 2021-08-27 深圳市优必选科技有限公司 基于机器人的语音信息接收方法、系统及终端设备
TWI668979B (zh) * 2017-12-29 2019-08-11 智眸科技有限公司 多媒體視聽系統
CN108319171B (zh) * 2018-02-09 2020-08-07 广景视睿科技(深圳)有限公司 一种基于语音控制的动向投影方法、装置及动向投影系统
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
CN108536418A (zh) * 2018-03-26 2018-09-14 深圳市冠旭电子股份有限公司 一种无线音箱播放模式切换的方法、装置及无线音箱
CN110321201A (zh) * 2018-03-29 2019-10-11 努比亚技术有限公司 一种后台程序处理方法、终端及计算机可读存储介质
CN113791557A (zh) * 2018-05-18 2021-12-14 创新先进技术有限公司 一种智能设备的控制方法和装置
TWI704490B (zh) * 2018-06-04 2020-09-11 和碩聯合科技股份有限公司 語音控制裝置及方法
CN108806682B (zh) * 2018-06-12 2020-12-01 奇瑞汽车股份有限公司 获取天气信息的方法和装置
CN110719553B (zh) * 2018-07-13 2021-08-06 国际商业机器公司 具有认知声音分析和响应的智能扬声器系统
WO2020014899A1 (zh) * 2018-07-18 2020-01-23 深圳魔耳智能声学科技有限公司 语音控制方法、中控设备和存储介质
KR20200013162A (ko) 2018-07-19 2020-02-06 삼성전자주식회사 전자 장치 및 그의 제어 방법
CN109410931A (zh) * 2018-10-15 2019-03-01 四川长虹电器股份有限公司 以电视为中心的移动终端物联网语音控制系统及方法
CN109348164A (zh) * 2018-11-19 2019-02-15 国网山东省电力公司信息通信公司 一种电视电话会议自助保障控制系统
WO2020140271A1 (zh) * 2019-01-04 2020-07-09 珊口(上海)智能科技有限公司 移动机器人的控制方法、装置、移动机器人及存储介质
CN109727596B (zh) * 2019-01-04 2020-03-17 北京市第一〇一中学 控制遥控器的方法和遥控器
CN110136707B (zh) * 2019-04-22 2021-03-02 云知声智能科技股份有限公司 一种用于进行多设备自主决策的人机交互系统
CN110099295B (zh) * 2019-05-30 2022-04-12 深圳创维-Rgb电子有限公司 电视机语音控制方法、装置、设备及存储介质
CN112435660A (zh) * 2019-08-08 2021-03-02 上海博泰悦臻电子设备制造有限公司 车辆控制方法、系统及车辆
CN110364176A (zh) * 2019-08-21 2019-10-22 百度在线网络技术(北京)有限公司 语音信号处理方法及装置
JP6886118B2 (ja) * 2019-08-27 2021-06-16 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
CN110689884A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 智能设备控制方法及装置
CN110597122A (zh) * 2019-09-17 2019-12-20 电子科技大学中山学院 一种嵌入式多媒体的控制系统
WO2021051403A1 (zh) * 2019-09-20 2021-03-25 深圳市汇顶科技股份有限公司 一种语音控制方法、装置、芯片、耳机及系统
CN111208736B (zh) * 2019-12-17 2023-10-27 中移(杭州)信息技术有限公司 智能音箱控制方法、装置、电子设备及存储介质
CN111462744B (zh) * 2020-04-02 2024-01-30 深圳创维-Rgb电子有限公司 一种语音交互方法、装置、电子设备及存储介质
CN111356022A (zh) * 2020-04-18 2020-06-30 徐琼琼 一种基于语音识别的视频文件处理方法
CN111554283A (zh) * 2020-04-23 2020-08-18 海信集团有限公司 一种智能设备及其控制方法
CN111767793B (zh) * 2020-05-25 2024-07-26 联想(北京)有限公司 一种数据处理方法及装置
WO2022000448A1 (zh) * 2020-07-03 2022-01-06 华为技术有限公司 车内隔空手势的交互方法、电子装置及系统
CN112333534B (zh) * 2020-09-17 2023-11-14 深圳Tcl新技术有限公司 杂音消除方法、装置、智能电视系统及可读存储介质
CN112201237B (zh) * 2020-09-23 2024-04-19 安徽中科新辰技术有限公司 一种基于com口实现语音集中控制指挥大厅多媒体设备的方法
CN112141834A (zh) * 2020-10-26 2020-12-29 华中科技大学同济医学院附属协和医院 一种电梯的语音控制系统及控制方法
CN112383822B (zh) * 2020-11-16 2022-03-15 四川长虹电器股份有限公司 一种电视机管控语音模块的方法
CN113470637A (zh) * 2021-05-10 2021-10-01 辛巴网络科技(南京)有限公司 一种车载多个音频媒体的语音控制方法
CN113450795A (zh) * 2021-06-28 2021-09-28 深圳七号家园信息技术有限公司 一种具有语音唤醒功能的图像识别方法及系统
CN114171019A (zh) * 2021-11-12 2022-03-11 杭州逗酷软件科技有限公司 一种控制方法及装置、存储介质
CN116417006A (zh) * 2021-12-31 2023-07-11 华为技术有限公司 声音信号处理方法、装置、设备及存储介质
CN115190243B (zh) * 2022-07-08 2024-04-05 上海西派埃智能化系统有限公司 一种行车停止位监测系统及方法
CN115440220A (zh) * 2022-09-02 2022-12-06 京东科技信息技术有限公司 一种话语权切换方法、装置、设备和存储介质

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57196300A (en) 1981-05-28 1982-12-02 Mitsubishi Electric Corp Voice output controller
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6690618B2 (en) * 2001-04-03 2004-02-10 Canesta, Inc. Method and apparatus for approximating a source position of a sound-causing event for determining an input used in operating an electronic device
DE10058786A1 (de) 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
US20030069733A1 (en) * 2001-10-02 2003-04-10 Ryan Chang Voice control method utilizing a single-key pushbutton to control voice commands and a device thereof
JP2005122128A (ja) 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
KR100621593B1 (ko) * 2004-09-24 2006-09-19 삼성전자주식회사 다중양식의 입력을 이용하는 통합 원격 제어 장치 및 방법
JP2007041089A (ja) * 2005-08-01 2007-02-15 Hitachi Ltd 情報端末および音声認識プログラム
JP4992218B2 (ja) 2005-09-29 2012-08-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4845183B2 (ja) * 2005-11-21 2011-12-28 独立行政法人情報通信研究機構 遠隔対話方法及び装置
JP4675811B2 (ja) 2006-03-29 2011-04-27 株式会社東芝 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
JP2008263422A (ja) * 2007-04-12 2008-10-30 Yasumasa Muto 画像撮像装置および画像撮像方法
CN100449468C (zh) * 2007-04-26 2009-01-07 上海交通大学 基于视觉跟踪与语音识别的鼠标系统
JP2009069202A (ja) * 2007-09-10 2009-04-02 Teac Corp 音声処理装置
JP2009098217A (ja) * 2007-10-12 2009-05-07 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体
CN201115599Y (zh) 2007-10-19 2008-09-17 深圳市壹声通语音科技有限公司 一种具有声控识别功能的智能烹饪装置
CN101464773A (zh) * 2007-12-19 2009-06-24 神基科技股份有限公司 随使用者位置而显示程序执行视窗的方法与电脑系统
US7934161B1 (en) * 2008-12-09 2011-04-26 Jason Adam Denise Electronic search interface technology
JP2011061461A (ja) 2009-09-09 2011-03-24 Sony Corp 撮像装置、指向性制御方法及びそのプログラム
JP5622744B2 (ja) * 2009-11-06 2014-11-12 株式会社東芝 音声認識装置
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
JP2011209787A (ja) 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2011257943A (ja) * 2010-06-08 2011-12-22 Canon Inc ジェスチャ操作入力装置
US8296151B2 (en) 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US8381108B2 (en) * 2010-06-21 2013-02-19 Microsoft Corporation Natural user input for driving interactive stories
WO2011163538A1 (en) * 2010-06-24 2011-12-29 Honda Motor Co., Ltd. Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
KR101789619B1 (ko) 2010-11-22 2017-10-25 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치
WO2012091185A1 (en) * 2010-12-27 2012-07-05 Lg Electronics Inc. Display device and method of providing feedback for gestures thereof
JP5039214B2 (ja) * 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
TWI569258B (zh) * 2012-01-02 2017-02-01 晨星半導體股份有限公司 電子裝置的聲控系統以及相關控制方法
CN102682770A (zh) 2012-02-23 2012-09-19 西安雷迪维护系统设备有限公司 基于云计算的语音识别系统
CN102945672B (zh) * 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法

Also Published As

Publication number Publication date
CN102945672A (zh) 2013-02-27
JP2015535952A (ja) 2015-12-17
WO2014048348A1 (zh) 2014-04-03
US9955210B2 (en) 2018-04-24
EP2897126A1 (en) 2015-07-22
CN102945672B (zh) 2013-10-16
EP2897126A4 (en) 2016-05-11
US20150222948A1 (en) 2015-08-06
EP2897126B1 (en) 2017-09-20

Similar Documents

Publication Publication Date Title
JP6012877B2 (ja) マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
US9516081B2 (en) Reduced latency electronic content system
US8421932B2 (en) Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition
US11694689B2 (en) Input detection windowing
US9087520B1 (en) Altering audio based on non-speech commands
US9256269B2 (en) Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US11984123B2 (en) Network device interaction by range
TW202025138A (zh) 語音互動方法、裝置及系統
WO2017084185A1 (zh) 基于语义分析的智能终端控制方法、系统及智能终端
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
CN109218535A (zh) 智能调节音量的方法、装置、存储介质及终端
US20230186941A1 (en) Voice identification for optimizing voice search results
CN103905925A (zh) 一种节目重复播放的方法和终端
CN105719672A (zh) 一种录音情景模式切换方法及装置
US20230289132A1 (en) Concurrency rules for network microphone devices having multiple voice assistant services
US20240196053A1 (en) Media Arbitration
US10693944B1 (en) Media-player initialization optimization
US20110137441A1 (en) Method and apparatus of controlling device
US11813523B2 (en) Automatic triggering of a gameplay recording using visual and acoustic fingerprints
US11099811B2 (en) Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
CN112017662B (zh) 控制指令确定方法、装置、电子设备和存储介质
KR101432801B1 (ko) 전자펜의 원 터치 음향 녹음 및 재생 제어방법 및 이를 수행하는 전자펜
US20230080895A1 (en) Dynamic operation of a voice controlled device
US12131540B2 (en) Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20150828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160920

R150 Certificate of patent or registration of utility model

Ref document number: 6012877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250