JP6012877B2 - マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 - Google Patents
マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP6012877B2 JP6012877B2 JP2015533437A JP2015533437A JP6012877B2 JP 6012877 B2 JP6012877 B2 JP 6012877B2 JP 2015533437 A JP2015533437 A JP 2015533437A JP 2015533437 A JP2015533437 A JP 2015533437A JP 6012877 B2 JP6012877 B2 JP 6012877B2
- Authority
- JP
- Japan
- Prior art keywords
- module
- voice
- control command
- voice recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000009471 action Effects 0.000 claims description 53
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 13
- 230000003213 activating effect Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 36
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/0304—Detection arrangements using opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Social Psychology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
ユーザアクション画像を収集する段階と、
ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、
対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階と、
対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、
ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、
収集した音声データを認識して制御命令を生成する段階と、
制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、
を含む。
10 画像検出モジュール
11 画像認識モジュール
12 音声認識ステータス管理モジュール
13 音波ビーム形成モジュール
14 ピックアップモジュール
15 音声認識モジュール
16 マルチメディア機能モジュール
Claims (9)
- マルチメディアデバイス用音声制御システムであって、
ユーザアクション画像を収集するように構成された画像検出モジュールと、
前記ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールであって、該画像認識モジュールは前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置と判定した後に、該画像認識モジュールは前記対象の音声源の位置を音声認識ステータス管理モジュールに送る、画像認識モジュールと、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールであって、前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールは、前記対象の音声源の位置を、音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減するようにマルチメディア機能モジュールを制御する、音声認識ステータス管理モジュールと、
前記対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定するように構成された音波ビーム形成モジュールと、
前記ピックアップ方向及び前記ピックアップ角度に従って前記対象の音声源の音声信号を収集するように構成され、音声データを生成するように構成されたピックアップモジュールと、
前記収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、
前記制御命令を実行して対応するマルチメディア機能を前記ユーザに提供するように構成されたマルチメディア機能モジュールと、
を備えたマルチメディアデバイス用音声制御システム。 - 前記画像認識モジュールは、前記ユーザアクション画像をプリセット画像テンプレートと比較して前記ユーザアクション画像に一致する制御命令タイプを選択するように構成され、
前記ユーザアクション画像に一致する制御命令タイプが見つかった場合、前記ユーザの位置が前記対象の音声源の位置としてアサートされ、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び/又は前記制御命令タイプが前記音声認識ステータス管理モジュールに送られ、
前記ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が前記音声認識ステータス管理モジュールに送られる、請求項1に記載のマルチメディアデバイス用音声制御システム。 - 前記ピックアップモジュールは、少なくとも1つの規則的に配置されたピックアップセンサを備えたアレイピックアップモジュールであり、前記ピックアップモジュールは、前記ピックアップ方向及び前記ピックアップ角度の限定に従って前記対象の音声源の前記音声信号を収集し、前記音声信号をデジタル化して音声データを生成し、該音声データを前記音声認識モジュールに送る、請求項2に記載のマルチメディアデバイス用音声制御システム。
- 前記音声認識ステータス管理モジュールは、前記音声認識を作動させるために、受信した前記音声認識の開始情報に従って開始命令及び前記制御命令タイプを前記音声認識モジュールに送り、前記対象の音声源の位置情報が前記音波ビーム形成モジュールに送られ、前記マルチメディア機能モジュールは、前記マルチメディアデバイスの前記出力音量を低減するように制御され、又は、前記音声認識ステータス管理モジュールは、前記比較失敗情報に基づいて前記音声認識を停止させるために前記音声認識モジュールに命令を送る、請求項3に記載のマルチメディアデバイス用音声制御システム。
- 前記音声認識モジュールは、前記音声認識ステータス管理モジュールからの前記開始命令及び前記制御命令タイプに従って、前記ピックアップモジュールからの前記音声データを認識し、前記制御命令タイプを有する制御命令を生成し、該制御命令は、前記マルチメディア機能モジュールに送られる、請求項4に記載のマルチメディアデバイス用音声制御システム。
- 前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、
前記ローカル音声認識モジュールは、前記音声データを認識して前記制御命令タイプを有する制御命令を形成し、該制御命令は、前記マルチメディア機能モジュールに送られ、 前記クラウド音声認識モジュールは、前記ローカル音声認識モジュールでは認識できない前記音声データを意味論的に認識し、前記制御命令タイプを有する制御命令を生成し、前記制御命令は、前記マルチメディア機能モジュールに送られる、請求項1ないし5のいずれか1項に記載のマルチメディアデバイス用音声制御システム。 - マルチメディアデバイスのための音声制御方法であって、
画像検出モジュールによってユーザアクション画像を収集する段階と、
前記ユーザアクション画像に従って、画像認識モジュールによって制御命令タイプ又はステータスを判定する段階と、
前記画像認識モジュールが前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置として判定した後に、前記対象の音声源の位置を音声認識ステータス管理モジュールに送る段階と、
現在の前記制御命令タイプに従って、音声認識ステータス管理モジュールによって音声認識プログラムを作動させるか又は停止させる段階と、
前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールによって、前記対象の音声源の位置を音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減させるために、マルチメディア機能モジュールを制御する段階と、
前記対象の音声源の位置に従って、音声ビーム形成モジュールにより、ピックアップ方向及びピックアップ角度を決定する段階と、
前記ピックアップ方向及びピックアップ角度の限定に従って、アレイピックアップモジュールによって前記ユーザの音声信号を収集し、前記音声信号をデジタル化して音声データを生成する段階と、
制御命令を生成するために、前記収集した音声データを、音声認識モジュールによって認識する段階と、
前記ユーザに対して対応するマルチメディア機能を提供するために、マルチメディア機能モジュールによって、前記制御命令を実行する段階と、
を含む、マルチメディアデバイスのための音声制御方法。 - 前記ユーザアクション画像に従って、前記画像認識モジュールによって、前記制御命令タイプ又はステータスを判定する段階は、
前記画像認識モジュールによって、前記ユーザアクション画像をプリセット画像テンプレートと比較して、前記ユーザアクション画像と一致する前記制御命令タイプを選択する段階を含み、
前記ユーザアクション画像に一致する前記制御命令タイプが見つかった場合、前記ユーザの位置を前記対象の音声源の位置としてアサートし、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び/又は前記制御命令タイプを前記音声認識ステータス管理モジュールに送り、前記ユーザアクション画像に一致する前記制御命令タイプが見つからなかった場合、比較失敗情報を前記音声認識ステータス管理モジュールに送る、請求項7に記載のマルチメディアデバイスのための音声制御方法。 - 前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、前記音声認識モジュールは音声命令辞書をプリセットし、
前記方法はさらに、
前記ローカル音声認識モジュールが前記音声データを認識し、前記音声データを、音声命令辞書内の用語モデルと比較し、前記音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、前記音声データは前記用語モデルに対応する制御命令として解釈され、前記制御命令は前記マルチメディア機能モジュールに送られ、
前記音声データと用語モデルとの間の類似度が前記プリセット閾値以下である場合、前記音声データはネットワークを介して前記クラウド音声認識モジュールに送られ、
前記クラウド音声認識モジュールは前記音声データを意味論的に認識して制御命令を生成し、該制御命令はネットワークを介して前記マルチメディア機能モジュールに送られる、
請求項7又は8に記載のマルチメディアデバイスのための音声制御方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210374809.1 | 2012-09-29 | ||
CN2012103748091A CN102945672B (zh) | 2012-09-29 | 2012-09-29 | 一种多媒体设备语音控制系统及方法 |
PCT/CN2013/084348 WO2014048348A1 (zh) | 2012-09-29 | 2013-09-26 | 一种多媒体设备语音控制系统及方法、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015535952A JP2015535952A (ja) | 2015-12-17 |
JP6012877B2 true JP6012877B2 (ja) | 2016-10-25 |
Family
ID=47728610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015533437A Active JP6012877B2 (ja) | 2012-09-29 | 2013-09-26 | マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9955210B2 (ja) |
EP (1) | EP2897126B1 (ja) |
JP (1) | JP6012877B2 (ja) |
CN (1) | CN102945672B (ja) |
WO (1) | WO2014048348A1 (ja) |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945672B (zh) | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN104049721B (zh) * | 2013-03-11 | 2019-04-26 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN104049723B (zh) * | 2013-03-12 | 2017-05-24 | 联想(北京)有限公司 | 在便携设备中启动关联应用的方法和便携设备 |
CN104065806A (zh) * | 2013-03-20 | 2014-09-24 | 辉达公司 | 对移动信息设备的语音控制 |
CN103268408A (zh) * | 2013-05-13 | 2013-08-28 | 云南瑞攀科技有限公司 | 多维交互平台 |
CN103456299B (zh) * | 2013-08-01 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 一种控制语音识别的方法和装置 |
CN203338756U (zh) * | 2013-08-03 | 2013-12-11 | 袁志贤 | 语音图像识别双控无线汽车音响 |
CN103581726A (zh) * | 2013-10-16 | 2014-02-12 | 四川长虹电器股份有限公司 | 一种电视设备上采用语音实现游戏控制的方法 |
CN104216351B (zh) * | 2014-02-10 | 2017-09-29 | 美的集团股份有限公司 | 家用电器语音控制方法及系统 |
CN103902373B (zh) * | 2014-04-02 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 智能终端控制方法、服务器和智能终端 |
US9569174B2 (en) * | 2014-07-08 | 2017-02-14 | Honeywell International Inc. | Methods and systems for managing speech recognition in a multi-speech system environment |
CN104269172A (zh) * | 2014-07-31 | 2015-01-07 | 广东美的制冷设备有限公司 | 基于视频定位的语音控制方法和系统 |
CN104200817B (zh) * | 2014-07-31 | 2017-07-28 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN104200816B (zh) * | 2014-07-31 | 2017-12-22 | 广东美的制冷设备有限公司 | 语音控制方法和系统 |
CN104298349B (zh) * | 2014-09-24 | 2017-12-15 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106796786B (zh) * | 2014-09-30 | 2021-03-02 | 三菱电机株式会社 | 语音识别系统 |
CN104681023A (zh) * | 2015-02-15 | 2015-06-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104882141A (zh) * | 2015-03-03 | 2015-09-02 | 盐城工学院 | 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN106325481A (zh) * | 2015-06-30 | 2017-01-11 | 展讯通信(天津)有限公司 | 一种非接触式控制系统及方法以及移动终端 |
CN106488286A (zh) * | 2015-08-28 | 2017-03-08 | 上海欢众信息科技有限公司 | 云端信息收集系统 |
CN106504753A (zh) * | 2015-09-07 | 2017-03-15 | 上海隆通网络系统有限公司 | 一种在it运维管理系统中的语音识别方法及系统 |
CN105976814B (zh) * | 2015-12-10 | 2020-04-10 | 乐融致新电子科技(天津)有限公司 | 头戴设备的控制方法和装置 |
CN105975060A (zh) * | 2016-04-26 | 2016-09-28 | 乐视控股(北京)有限公司 | 虚拟现实终端及其控制方法和装置 |
CN105976818B (zh) * | 2016-04-26 | 2020-12-25 | Tcl科技集团股份有限公司 | 指令识别的处理方法及装置 |
CN106023990A (zh) * | 2016-05-20 | 2016-10-12 | 深圳展景世纪科技有限公司 | 一种基于投影设备的语音控制方法及装置 |
CN107506165A (zh) * | 2016-06-14 | 2017-12-22 | 深圳市三诺声智联股份有限公司 | 一种智能电子宠物语音交互系统及方法 |
CN106920551A (zh) * | 2016-06-28 | 2017-07-04 | 广州零号软件科技有限公司 | 共用一套麦克风阵列的服务机器人双语音识别方法 |
US20180018965A1 (en) * | 2016-07-12 | 2018-01-18 | Bose Corporation | Combining Gesture and Voice User Interfaces |
CN107665708B (zh) * | 2016-07-29 | 2021-06-08 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN106338711A (zh) * | 2016-08-30 | 2017-01-18 | 康佳集团股份有限公司 | 一种基于智能设备的语音定向方法及系统 |
CN106409294B (zh) * | 2016-10-18 | 2019-07-16 | 广州视源电子科技股份有限公司 | 防止语音命令误识别的方法和装置 |
CN106356061A (zh) * | 2016-10-24 | 2017-01-25 | 合肥华凌股份有限公司 | 基于声源定位的语音识别方法和系统、及智能家电设备 |
KR20180049787A (ko) * | 2016-11-03 | 2018-05-11 | 삼성전자주식회사 | 전자 장치, 그의 제어 방법 |
US10210863B2 (en) | 2016-11-02 | 2019-02-19 | Roku, Inc. | Reception of audio commands |
EP4220630A1 (en) | 2016-11-03 | 2023-08-02 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
CN106775562A (zh) * | 2016-12-09 | 2017-05-31 | 奇酷互联网络科技(深圳)有限公司 | 音频参数处理的方法及装置 |
KR102398390B1 (ko) | 2017-03-22 | 2022-05-16 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN107103906B (zh) * | 2017-05-02 | 2020-12-11 | 网易(杭州)网络有限公司 | 一种唤醒智能设备进行语音识别的方法、智能设备和介质 |
US10435148B2 (en) * | 2017-05-08 | 2019-10-08 | Aurora Flight Sciences Corporation | Systems and methods for acoustic radiation control |
CN108986801B (zh) * | 2017-06-02 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
US11178280B2 (en) * | 2017-06-20 | 2021-11-16 | Lenovo (Singapore) Pte. Ltd. | Input during conversational session |
CN107195304A (zh) * | 2017-06-30 | 2017-09-22 | 珠海格力电器股份有限公司 | 一种电器设备的语音控制电路和方法 |
KR102392087B1 (ko) | 2017-07-10 | 2022-04-29 | 삼성전자주식회사 | 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법 |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US10777197B2 (en) | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
CN107656977A (zh) * | 2017-09-05 | 2018-02-02 | 捷开通讯(深圳)有限公司 | 多媒体文件的获取及播放方法以及装置 |
CN107657956B (zh) * | 2017-10-23 | 2020-12-22 | 吴建伟 | 一种多媒体设备语音控制系统及方法 |
CN108064007A (zh) * | 2017-11-07 | 2018-05-22 | 苏宁云商集团股份有限公司 | 用于智能音箱的增强人声识别的方法及微控制器和智能音箱 |
KR102527278B1 (ko) | 2017-12-04 | 2023-04-28 | 삼성전자주식회사 | 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체 |
CN109961781B (zh) * | 2017-12-22 | 2021-08-27 | 深圳市优必选科技有限公司 | 基于机器人的语音信息接收方法、系统及终端设备 |
TWI668979B (zh) * | 2017-12-29 | 2019-08-11 | 智眸科技有限公司 | 多媒體視聽系統 |
CN108319171B (zh) * | 2018-02-09 | 2020-08-07 | 广景视睿科技(深圳)有限公司 | 一种基于语音控制的动向投影方法、装置及动向投影系统 |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
CN108536418A (zh) * | 2018-03-26 | 2018-09-14 | 深圳市冠旭电子股份有限公司 | 一种无线音箱播放模式切换的方法、装置及无线音箱 |
CN110321201A (zh) * | 2018-03-29 | 2019-10-11 | 努比亚技术有限公司 | 一种后台程序处理方法、终端及计算机可读存储介质 |
CN113791557A (zh) * | 2018-05-18 | 2021-12-14 | 创新先进技术有限公司 | 一种智能设备的控制方法和装置 |
TWI704490B (zh) * | 2018-06-04 | 2020-09-11 | 和碩聯合科技股份有限公司 | 語音控制裝置及方法 |
CN108806682B (zh) * | 2018-06-12 | 2020-12-01 | 奇瑞汽车股份有限公司 | 获取天气信息的方法和装置 |
CN110719553B (zh) * | 2018-07-13 | 2021-08-06 | 国际商业机器公司 | 具有认知声音分析和响应的智能扬声器系统 |
WO2020014899A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 语音控制方法、中控设备和存储介质 |
KR20200013162A (ko) | 2018-07-19 | 2020-02-06 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
CN109410931A (zh) * | 2018-10-15 | 2019-03-01 | 四川长虹电器股份有限公司 | 以电视为中心的移动终端物联网语音控制系统及方法 |
CN109348164A (zh) * | 2018-11-19 | 2019-02-15 | 国网山东省电力公司信息通信公司 | 一种电视电话会议自助保障控制系统 |
WO2020140271A1 (zh) * | 2019-01-04 | 2020-07-09 | 珊口(上海)智能科技有限公司 | 移动机器人的控制方法、装置、移动机器人及存储介质 |
CN109727596B (zh) * | 2019-01-04 | 2020-03-17 | 北京市第一〇一中学 | 控制遥控器的方法和遥控器 |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
CN110099295B (zh) * | 2019-05-30 | 2022-04-12 | 深圳创维-Rgb电子有限公司 | 电视机语音控制方法、装置、设备及存储介质 |
CN112435660A (zh) * | 2019-08-08 | 2021-03-02 | 上海博泰悦臻电子设备制造有限公司 | 车辆控制方法、系统及车辆 |
CN110364176A (zh) * | 2019-08-21 | 2019-10-22 | 百度在线网络技术(北京)有限公司 | 语音信号处理方法及装置 |
JP6886118B2 (ja) * | 2019-08-27 | 2021-06-16 | 富士通クライアントコンピューティング株式会社 | 情報処理装置およびプログラム |
CN110689884A (zh) * | 2019-09-09 | 2020-01-14 | 苏州臻迪智能科技有限公司 | 智能设备控制方法及装置 |
CN110597122A (zh) * | 2019-09-17 | 2019-12-20 | 电子科技大学中山学院 | 一种嵌入式多媒体的控制系统 |
WO2021051403A1 (zh) * | 2019-09-20 | 2021-03-25 | 深圳市汇顶科技股份有限公司 | 一种语音控制方法、装置、芯片、耳机及系统 |
CN111208736B (zh) * | 2019-12-17 | 2023-10-27 | 中移(杭州)信息技术有限公司 | 智能音箱控制方法、装置、电子设备及存储介质 |
CN111462744B (zh) * | 2020-04-02 | 2024-01-30 | 深圳创维-Rgb电子有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
CN111356022A (zh) * | 2020-04-18 | 2020-06-30 | 徐琼琼 | 一种基于语音识别的视频文件处理方法 |
CN111554283A (zh) * | 2020-04-23 | 2020-08-18 | 海信集团有限公司 | 一种智能设备及其控制方法 |
CN111767793B (zh) * | 2020-05-25 | 2024-07-26 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
WO2022000448A1 (zh) * | 2020-07-03 | 2022-01-06 | 华为技术有限公司 | 车内隔空手势的交互方法、电子装置及系统 |
CN112333534B (zh) * | 2020-09-17 | 2023-11-14 | 深圳Tcl新技术有限公司 | 杂音消除方法、装置、智能电视系统及可读存储介质 |
CN112201237B (zh) * | 2020-09-23 | 2024-04-19 | 安徽中科新辰技术有限公司 | 一种基于com口实现语音集中控制指挥大厅多媒体设备的方法 |
CN112141834A (zh) * | 2020-10-26 | 2020-12-29 | 华中科技大学同济医学院附属协和医院 | 一种电梯的语音控制系统及控制方法 |
CN112383822B (zh) * | 2020-11-16 | 2022-03-15 | 四川长虹电器股份有限公司 | 一种电视机管控语音模块的方法 |
CN113470637A (zh) * | 2021-05-10 | 2021-10-01 | 辛巴网络科技(南京)有限公司 | 一种车载多个音频媒体的语音控制方法 |
CN113450795A (zh) * | 2021-06-28 | 2021-09-28 | 深圳七号家园信息技术有限公司 | 一种具有语音唤醒功能的图像识别方法及系统 |
CN114171019A (zh) * | 2021-11-12 | 2022-03-11 | 杭州逗酷软件科技有限公司 | 一种控制方法及装置、存储介质 |
CN116417006A (zh) * | 2021-12-31 | 2023-07-11 | 华为技术有限公司 | 声音信号处理方法、装置、设备及存储介质 |
CN115190243B (zh) * | 2022-07-08 | 2024-04-05 | 上海西派埃智能化系统有限公司 | 一种行车停止位监测系统及方法 |
CN115440220A (zh) * | 2022-09-02 | 2022-12-06 | 京东科技信息技术有限公司 | 一种话语权切换方法、装置、设备和存储介质 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57196300A (en) | 1981-05-28 | 1982-12-02 | Mitsubishi Electric Corp | Voice output controller |
JPH1124694A (ja) * | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
US6243683B1 (en) * | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US6690618B2 (en) * | 2001-04-03 | 2004-02-10 | Canesta, Inc. | Method and apparatus for approximating a source position of a sound-causing event for determining an input used in operating an electronic device |
DE10058786A1 (de) | 2000-11-27 | 2002-06-13 | Philips Corp Intellectual Pty | Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts |
US20030069733A1 (en) * | 2001-10-02 | 2003-04-10 | Ryan Chang | Voice control method utilizing a single-key pushbutton to control voice commands and a device thereof |
JP2005122128A (ja) | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP4581441B2 (ja) * | 2004-03-18 | 2010-11-17 | パナソニック株式会社 | 家電機器システム、家電機器および音声認識方法 |
KR100621593B1 (ko) * | 2004-09-24 | 2006-09-19 | 삼성전자주식회사 | 다중양식의 입력을 이용하는 통합 원격 제어 장치 및 방법 |
JP2007041089A (ja) * | 2005-08-01 | 2007-02-15 | Hitachi Ltd | 情報端末および音声認識プログラム |
JP4992218B2 (ja) | 2005-09-29 | 2012-08-08 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP4845183B2 (ja) * | 2005-11-21 | 2011-12-28 | 独立行政法人情報通信研究機構 | 遠隔対話方法及び装置 |
JP4675811B2 (ja) | 2006-03-29 | 2011-04-27 | 株式会社東芝 | 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム |
JP2008263422A (ja) * | 2007-04-12 | 2008-10-30 | Yasumasa Muto | 画像撮像装置および画像撮像方法 |
CN100449468C (zh) * | 2007-04-26 | 2009-01-07 | 上海交通大学 | 基于视觉跟踪与语音识别的鼠标系统 |
JP2009069202A (ja) * | 2007-09-10 | 2009-04-02 | Teac Corp | 音声処理装置 |
JP2009098217A (ja) * | 2007-10-12 | 2009-05-07 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体 |
CN201115599Y (zh) | 2007-10-19 | 2008-09-17 | 深圳市壹声通语音科技有限公司 | 一种具有声控识别功能的智能烹饪装置 |
CN101464773A (zh) * | 2007-12-19 | 2009-06-24 | 神基科技股份有限公司 | 随使用者位置而显示程序执行视窗的方法与电脑系统 |
US7934161B1 (en) * | 2008-12-09 | 2011-04-26 | Jason Adam Denise | Electronic search interface technology |
JP2011061461A (ja) | 2009-09-09 | 2011-03-24 | Sony Corp | 撮像装置、指向性制御方法及びそのプログラム |
JP5622744B2 (ja) * | 2009-11-06 | 2014-11-12 | 株式会社東芝 | 音声認識装置 |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
JP2011209787A (ja) | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2011257943A (ja) * | 2010-06-08 | 2011-12-22 | Canon Inc | ジェスチャ操作入力装置 |
US8296151B2 (en) | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US8381108B2 (en) * | 2010-06-21 | 2013-02-19 | Microsoft Corporation | Natural user input for driving interactive stories |
WO2011163538A1 (en) * | 2010-06-24 | 2011-12-29 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
KR101789619B1 (ko) | 2010-11-22 | 2017-10-25 | 엘지전자 주식회사 | 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치 |
WO2012091185A1 (en) * | 2010-12-27 | 2012-07-05 | Lg Electronics Inc. | Display device and method of providing feedback for gestures thereof |
JP5039214B2 (ja) * | 2011-02-17 | 2012-10-03 | 株式会社東芝 | 音声認識操作装置及び音声認識操作方法 |
TWI569258B (zh) * | 2012-01-02 | 2017-02-01 | 晨星半導體股份有限公司 | 電子裝置的聲控系統以及相關控制方法 |
CN102682770A (zh) | 2012-02-23 | 2012-09-19 | 西安雷迪维护系统设备有限公司 | 基于云计算的语音识别系统 |
CN102945672B (zh) * | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
-
2012
- 2012-09-29 CN CN2012103748091A patent/CN102945672B/zh active Active
-
2013
- 2013-09-26 US US14/421,900 patent/US9955210B2/en active Active
- 2013-09-26 WO PCT/CN2013/084348 patent/WO2014048348A1/zh active Application Filing
- 2013-09-26 JP JP2015533437A patent/JP6012877B2/ja active Active
- 2013-09-26 EP EP13841489.1A patent/EP2897126B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102945672A (zh) | 2013-02-27 |
JP2015535952A (ja) | 2015-12-17 |
WO2014048348A1 (zh) | 2014-04-03 |
US9955210B2 (en) | 2018-04-24 |
EP2897126A1 (en) | 2015-07-22 |
CN102945672B (zh) | 2013-10-16 |
EP2897126A4 (en) | 2016-05-11 |
US20150222948A1 (en) | 2015-08-06 |
EP2897126B1 (en) | 2017-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6012877B2 (ja) | マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 | |
JP6811758B2 (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
US9516081B2 (en) | Reduced latency electronic content system | |
US8421932B2 (en) | Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition | |
US11694689B2 (en) | Input detection windowing | |
US9087520B1 (en) | Altering audio based on non-speech commands | |
US9256269B2 (en) | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state | |
US11984123B2 (en) | Network device interaction by range | |
TW202025138A (zh) | 語音互動方法、裝置及系統 | |
WO2017084185A1 (zh) | 基于语义分析的智能终端控制方法、系统及智能终端 | |
KR20140089863A (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
CN109218535A (zh) | 智能调节音量的方法、装置、存储介质及终端 | |
US20230186941A1 (en) | Voice identification for optimizing voice search results | |
CN103905925A (zh) | 一种节目重复播放的方法和终端 | |
CN105719672A (zh) | 一种录音情景模式切换方法及装置 | |
US20230289132A1 (en) | Concurrency rules for network microphone devices having multiple voice assistant services | |
US20240196053A1 (en) | Media Arbitration | |
US10693944B1 (en) | Media-player initialization optimization | |
US20110137441A1 (en) | Method and apparatus of controlling device | |
US11813523B2 (en) | Automatic triggering of a gameplay recording using visual and acoustic fingerprints | |
US11099811B2 (en) | Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion | |
CN112017662B (zh) | 控制指令确定方法、装置、电子设备和存储介质 | |
KR101432801B1 (ko) | 전자펜의 원 터치 음향 녹음 및 재생 제어방법 및 이를 수행하는 전자펜 | |
US20230080895A1 (en) | Dynamic operation of a voice controlled device | |
US12131540B2 (en) | Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20150828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6012877 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |