CN113473199B - 基于麦克风的设备控制方法及装置 - Google Patents

基于麦克风的设备控制方法及装置 Download PDF

Info

Publication number
CN113473199B
CN113473199B CN202110709010.2A CN202110709010A CN113473199B CN 113473199 B CN113473199 B CN 113473199B CN 202110709010 A CN202110709010 A CN 202110709010A CN 113473199 B CN113473199 B CN 113473199B
Authority
CN
China
Prior art keywords
audio data
microphone
buffer
control
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110709010.2A
Other languages
English (en)
Other versions
CN113473199A (zh
Inventor
刘清友
孙永瑞
王之奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202110709010.2A priority Critical patent/CN113473199B/zh
Publication of CN113473199A publication Critical patent/CN113473199A/zh
Application granted granted Critical
Publication of CN113473199B publication Critical patent/CN113473199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种基于麦克风的设备控制方法及装置,该方法包括:确定终端设备中处于运行状态的应用服务;分别将麦克风采集得到的音频数据存储至第一缓存和第二缓存;第一缓存是为应用服务分配的,第二缓存是为终端设备中的控制服务分配的;其中,应用服务用于从第一缓存中获取音频数据、并根据音频数据进行多媒体信息交互;控制服务用于从第二缓存中获取音频数据、并根据音频数据生成对终端设备进行控制的控制指令。提高了对终端设备进行控制的效率。

Description

基于麦克风的设备控制方法及装置
本申请为2018年9月3日递交到中国专利局的,申请号为 201811020431.9,专利名称为“基于麦克风的设备控制方法及装置”的中国专利申请的分案申请,其全部内容通过引用结合在本申请中。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于麦克风的设备控制方法及装置。
背景技术
目前,智能电视中具有应用服务和控制服务。应用服务可以为智能电视中的多媒体应用程序,例如,K歌应用程序、语音聊天应用程序等。控制服务可以为智能电视中的控制应用程序,例如,语音助手应用程序,控制服务用于接收和响应用户对智能电视发出的控制指令。
在实际应用过程中,可以在智能电视上连接麦克风,并将麦克风采集得到的音频数据传输给应用服务,以使应用服务可以根据麦克风采集得到的数据进行多媒体交互。在应用服务根据麦克风采集得到的数据进行多媒体交互过程中,当用户需要对智能电视进行控制时,用户需要再按压控制设备(例如遥控器等)上预设语音键输入语音控制指令或通过按压控制设备方向键/OK键输入按键控制指令,以实现对智能电视进行控制。例如,在用户使用麦克风通过智能电视中的唱歌应用程序(应用服务)唱歌的过程中,若用户需要唱下一首歌曲,则用户需要通过控制设备将歌曲选择到下一首歌曲,再继续使用麦克风进行唱歌。
由上可知,在现有技术中,在应用服务根据麦克风采集得到的数据进行多媒体交互过程中,用户需要频繁切换使用的控制设备和麦克风,导致对终端设备的控制过程复杂,进而导致对终端设备进行控制的效率较低。
发明内容
本发明实施例提供一种基于麦克风的设备控制方法及装置,提高了对终端设备进行控制的效率。
第一方面,本发明实施例提供一种基于麦克风的设备控制方法,应用于终端设备,所述方法包括:
确定所述终端设备中处于运行状态的应用服务;
分别将所述麦克风采集得到的音频数据存储至第一缓存和第二缓存;所述第一缓存是为所述应用服务分配的,所述第二缓存是为所述终端设备中的控制服务分配的;
其中,所述应用服务用于从所述第一缓存中获取所述音频数据、并根据所述音频数据进行多媒体信息交互;所述控制服务用于从所述第二缓存中获取所述音频数据、并根据所述音频数据生成对所述终端设备进行控制的控制指令。
在一种可能的实施方式中,所述将所述麦克风采集得到的音频数据存储至第二缓存,包括:
将所述麦克风采集得到的音频数据实时存储至所述第二缓存,所述控制服务具体用于在所述第二缓存中的音频数据中识别到第一关键词和第二关键词时,根据所述第一关键词和所述第二关键词之间的音频数据生成所述控制指令。
在另一种可能的实施方式中,所述将所述麦克风采集得到的音频数据存储至第一缓存,包括:
将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至所述控制服务在所述第二缓存中的音频数据中识别到所述第一关键词时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述控制服务在所述第二缓存中的音频数据中识别到所述第二关键词时,继续向所述第一缓存中存储所述麦克风采集得到的音频数据。
在另一种可能的实施方式中,所述将所述麦克风采集得到的音频数据存储至第二缓存,包括:
在接收到用户对所述麦克风上的物理按键进行预设按压操作时,将所述麦克风采集得到的、所述预设按压操作对应的音频数据存储至所述第二缓存;
其中,当所述预设按压操作为长按操作,所述预设按压操作对应的音频数据为所述长按操作期间、所述麦克风采集得到的音频数据;当所述预设按压操作包括第一按压操作和第二按压操作时,所述预设按压操作对应的音频数据为所述第一按压操作和所述第二按压操作期间、所述麦克风采集得到的音频数据。
在另一种可能的实施方式中,所述将所述麦克风采集得到的音频数据存储至第一缓存,包括:
将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至接收到用户对所述麦克风上的物理按键进行预设按压操作时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述预设按压操作结束时,继续向所述第一缓存存储所述麦克风采集得到的音频数据。
第二方面,本发明实施例提供一种基于麦克风的设备控制装置,应用于终端设备,所述装置包括确定模块和存储模块,其中,
所述确定模块用于,确定所述终端设备中处于运行状态的应用服务;
所述存储模块用于,分别将所述麦克风采集得到的音频数据存储至第一缓存和第二缓存;所述第一缓存是为所述应用服务分配的,所述第二缓存是为所述终端设备中的控制服务分配的;
其中,所述应用服务用于从所述第一缓存中获取所述音频数据、并根据所述音频数据进行多媒体信息交互;所述控制服务用于从所述第二缓存中获取所述音频数据、并根据所述音频数据生成对所述终端设备进行控制的控制指令。
在一种可能的实施方式中,所述存储模块具体用于:
将所述麦克风采集得到的音频数据实时存储至所述第二缓存,所述控制服务具体用于在所述第二缓存中的音频数据中识别到第一关键词和第二关键词时,根据所述第一关键词和所述第二关键词之间的音频数据生成所述控制指令。
在另一种可能的实施方式中,所述存储模块具体用于:
将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至所述控制服务在所述第二缓存中的音频数据中识别到所述第一关键词时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述控制服务在所述第二缓存中的音频数据中识别到所述第二关键词时,继续向所述第一缓存中存储所述麦克风采集得到的音频数据。
在另一种可能的实施方式中,所述存储模块具体用于:
在接收到用户对所述麦克风上的物理按键进行预设按压操作时,将所述麦克风采集得到的、所述预设按压操作对应的音频数据存储至所述第二缓存;
其中,当所述预设按压操作为长按操作,所述预设按压操作对应的音频数据为所述长按操作期间、所述麦克风采集得到的音频数据;当所述预设按压操作包括第一按压操作和第二按压操作时,所述预设按压操作对应的音频数据为所述第一按压操作和所述第二按压操作期间、所述麦克风采集得到的音频数据。
在另一种可能的实施方式中,所述存储模块具体用于:
将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至接收到用户对所述麦克风上的物理按键进行预设按压操作时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述预设按压操作结束时,继续向所述第一缓存存储所述麦克风采集得到的音频数据。
第三方面,本发明实施例提供一种终端设备,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述第一方面任一项所述的方法。
第四方面,本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述第一方面任意一项所述的方法被执行。
本发明实施例提供的基于麦克风的设备控制方法及装置,终端设备可以为运行状态的应用服务分配第一缓存,为控制服务分配第二缓存,在终端设备接收到麦克风采集的音频数据之后,终端设备将音频数据存储至第一缓存,以使应用服务可以从第一缓存中获取音频数据,使得应用服务可以使用音频数据。终端设备还将音频数据存储至第二缓存,以使控制服务可以从第二缓存中获取音频数据,使得控制服务可以根据音频数据对终端设备进行控制。在上述过程中,在应用服务使用音频数据的过程中,控制服务也可以获取得到音频数据,进而使得在应用服务使用音频数据的过程中,控制服务可以根据获取得到的音频数据,对终端设备进行控制,无需控制设备对终端设备进行控制,避免用户频繁切换使用的控制设备和麦克风,进而提高对终端设备进行控制的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于麦克风的设备控制方法的应用场景图;
图2为本发明实施例提供的基于麦克风的设备控制方法的流程示意图一;
图2A为本发明实施例提供的存储音频数据的过程示意图;
图3为本发明实施例提供的基于麦克风的设备控制方法的流程示意图二;
图4为本发明实施例提供的基于麦克风的设备控制方法的流程示意图三;
图5为本发明实施例提供的基于麦克风的设备控制装置的结构示意图一;
图6为本发明实施例提供的基于麦克风的设备控制装置的结构示意图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于麦克风的设备控制方法的应用场景图。请参见图1,包括麦克风101和终端设备102。
可选的,麦克风101与终端设备102连接,麦克风可以进行音频数据采集,并将采集得到的音频数据发送给终端设备102。
可选的,终端设备102可以为电视、电脑、手机等设备。终端设备102中包括应用服务和控制服务。可选的,应用服务可以为终端设备102中需要通过麦克风采集用户的音频数据而交互的多媒体应用程序,例如,应用服务可以为唱歌应用程序、视频聊天应用程序、会议应用程序等。可选的,控制服务可以为终端设备102中需要通过麦克风采集用户的音频数据而输入控制指令以用于对终端设备102进行控制的应用程序,例如,控制服务可以为终端设备102中对终端设备进行语音控制的语音助手应用程序。
在实际应用过程中,控制服务通常在终端设备102启动的过程中启动,或者在终端设备102开机之后自动启动,例如,语音助手应用程序开机之后处于后台运行状态,当用户通过按压遥控器预设键或用户通过语音输入唤醒词时,语音助手应用程序才处于前台运行状态。应用服务通常在终端设备102开机之后,由人工触发启动,例如,K歌应用程序需要用户手动启动而进入K歌模式。因此,本发明实施例所示的控制服务的状态通常为运行状态,以时刻准备用于控制终端设备;应用服务的状态包括运行状态和关闭状态。
终端设备102可以为运行状态的应用服务分配第一缓存,为运行状态的控制服务分配第二缓存,在终端设备102接收到麦克风采集的音频数据之后,终端设备102将音频数据存储至第一缓存,以使应用服务可以从第一缓存中获取音频数据,使得应用服务可以使用音频数据进行多媒体交互。终端设备102还将音频数据存储至第二缓存,以使控制服务可以从第二缓存中获取音频数据,使得控制服务可以根据音频数据对终端设备进行控制。在上述过程中,在应用服务使用音频数据的过程中,控制服务也可以获取得到音频数据,进而使得在应用服务使用音频数据的过程中,控制服务可以根据获取得到的音频数据,对终端设备进行控制,无需控制设备对终端设备进行控制,避免用户频繁切换使用的控制设备和麦克风,进而提高对终端设备进行控制的效率。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的基于麦克风的设备控制方法的流程示意图一。请参见图2,该方法可以包括:
S201、确定终端设备中处于运行状态的应用服务。
可选的,本发明实施例的执行主体可以为终端设备,也可以为设置在终端设备中的基于麦克风的设备控制装置,该基于麦克风的设备控制装置可以通过软件实现,也可以通过软件和硬件的结合实现。
可选的,应用服务可以为安装在终端设备中的多媒体应用程序。
例如,应用服务可以为唱歌应用程序、视频聊天应用程序、会议应用程序等。当然,在实际应用过程中,可以根据实际需要设置应用服务,本发明实施例对此不作具体限定。
可选的,本发明实施例所示的运行状态的应用程序可以包括前台运行应用程序,或者,运行状态的应用程序可以包括前台运行应用程序和后台运行的应用程序。
S202、分别将麦克风采集得到的音频数据存储至第一缓存和第二缓存,其中,应用服务用于从第一缓存中获取音频数据、并根据音频数据进行多媒体信息交互;控制服务用于从第二缓存中获取音频数据、并根据音频数据生成对终端设备进行控制的控制指令。
可选的,在S202之前,需要为运行状态的应用服务分配第一缓存,为控制服务分配第二缓存。
需要说明的是,在应用服务启动之后,为应用服务分配第一缓存,直至应用服务结束运行之后,删除第一缓存中的数据,并清除第一缓存。在控制服务启动之后,为控制服务器分配第二缓存,在控制服务结束运行之后,删除第二缓存中的数据,并清除第二缓存。
可选的,控制服务可以为终端设备中用于对终端设备进行控制的应用程序。
例如,控制服务可以为终端设备中对终端设备进行语音控制的语音助手应用程序。
在终端设备开机之后,终端设备中的LocalSocket服务启动。在终端设备开机过程中,或者终端设备开机之后,控制服务自动启动。在控制服务启动之后,控制服务向LocalSocket服务发送接入请求,LocalSocket服务根据接入请求为控制服务分配第二缓存。
在终端设备开机之后,用户可以控制终端设备中的应用服务启动,在应用服务启动之后,应用服务向LocalSocket服务发送接入请求,LocalSocket服务根据接入请求为应用服务分配第一缓存,为每个应用服务分配的第一缓存不同。
例如,假设终端设备中2个应用服务处于运行状态,当应用服务1启动之后,则LocalSocket服务为应用服务1分配第一缓存,在应用服务2启动之后,则LocalSocket服务为应用服务2分配第一缓存。
可选的,在分配第一缓存之后,可以将第一缓存的标识登记到拷贝服务。
可选的,在麦克风采集得到音频数据之后,将音频数据传输至脉冲编码调制(Pulse Code Modulation,简称PCM)节点。拷贝服务可以从PCM节点读取到音频数据,根据登记的第一缓存的标识,将音频数据存储至第一缓存。
可选的,当应用服务为唱歌应用程序时,则唱歌应用程序可以将获取得到的音频数据作为歌曲内容输入。
可选的,当应用服务为会议应用程序时,则会议应用程序可以将获取得到的音频数据作为会议内容输入。
可选的,在分配第二缓存之后,可以将第二缓存的标识登记到拷贝服务。
可选的,在麦克风采集得到音频数据之后,将音频数据传输至PCM节点。拷贝服务可以从PCM节点读取到音频数据,根据登记的第二缓存的标识,将音频数据存储至第二缓存。
可选的,当控制服务为语音助手应用程序时,语音助手应用程序可以根据音频数据生成的控制指令可以对音量进行控制。
图2A为本发明实施例提供的存储音频数据的过程示意图。下面,结合图2A,对终端设备分别将麦克风采集得到的音频数据存储至第一缓存和第二缓存的过程进行详细说明。
现有技术中,用户需要频繁切换使用控制设备和麦克风以对终端设备进行控制和多媒体交互,例如,在K歌模式下,用户需要通过麦克风采集得到的数据进行当前歌曲的唱歌,同时在切换至下一首歌曲时,用户需要通过遥控器唤醒语音助手应用程序以输入语音控制命令,这是由于现有技术中多个应用程序均使用麦克风采集音频数据时,同一时刻只有一个应用程序可以获取到PCM节点的音频数据。
本实施例中,请参见图2A,终端设备中包括LocalSocket服务、拷贝服务和PCM节点。LocalSocket服务可以为运行的应用服务和控制服务分配缓存,并将分配的缓存的标识登记至拷贝服务。
麦克风采集得到的音频数据传输至PCM节点,拷贝服务可以从PCM节点获取得到音频数据,并根据登记的缓存的标识,将音频数据拷贝至登记的缓存中。
本发明实施例提供的基于麦克风的设备控制方法,终端设备可以为运行状态的应用服务分配第一缓存,为控制服务分配第二缓存,在终端设备接收到麦克风采集的音频数据之后,终端设备将音频数据存储至第一缓存,以使应用服务可以从第一缓存中获取音频数据,使得应用服务可以使用音频数据。终端设备还将音频数据存储至第二缓存,以使控制服务可以从第二缓存中获取音频数据,使得控制服务可以根据音频数据对终端设备进行控制。在上述过程中,在应用服务使用音频数据的过程中,控制服务也可以获取得到音频数据,进而使得在应用服务使用音频数据的过程中,控制服务可以根据获取得到的音频数据,对终端设备进行控制,无需控制设备对终端设备进行控制,避免用户频繁切换使用的控制设备和麦克风,进而提高对终端设备进行控制的效率。
在上述任意一个实施例的基础上,下面,通过图3-图4所示的实施例,对上述方法实施例所示的技术方案进行进一步详细说明。
图3为本发明实施例提供的基于麦克风的设备控制方法的流程示意图二。请参见图3,该方法可以包括:
S301、确定终端设备中运行状态的应用服务。
S302、为运行状态的应用服务分配第一缓存,为控制服务分配第二缓存。
需要说明的是,只需在应用服务启动之后,为应用服务分配一次第一缓存。只需在控制服务启动之后,为控制服务分配一次第二缓存。
S303、将麦克风采集得到的音频数据实时存储至第一缓存和第二缓存。
S304、控制服务实时识别第二缓存中的音频数据,当控制服务在第二缓存中的音频数据中识别到第一关键词时,暂停向第一缓存中存储麦克风采集得到的音频数据。
可选的,第一关键词可以为“嗨小聚”、“你好小聚”等。当然,在实际应用过程中,可以根据实际需要设置第一关键词,本发明实施例对此不作具体限定。
S305、当控制服务在第二缓存中的音频数据中识别得到第二关键词时,继续向第一缓存中存储麦克风采集得到的音频数据。
可选的,第二关键词可以为“可以了”、“结束了”等。当然,在实际应用过程中,可以根据实际需要设置第二关键词,本发明实施例对此不作具体限定。
S306、控制服务根据第一关键词和第二关键词之间的音频数据生成控制指令。
这里,控制服务需要用户通过语音输入的第一关键词而运行于前台,进而开始对终端设备进行控制,同时需要用户通过语音输入的第二关键词而退出于前台,进而退出对终端设备进行控制。
可选的,向第二缓存中存储第一关键词对应的音频数据的第一时刻,早于向第二缓存中存储第二关键词对应的音频数据的第二时刻。
可选的,第一关键词和第二关键词之间的音频数据为第一时刻至第二时刻之间向第二缓存中存储的音频数据。
可选的,控制服务先识别第一关键词和第二关键词之间的音频数据,得到控制信息,并根据控制信息生成控制指令。
例如,假设终端设备当前运行的应用程序为唱歌应用程序,假设控制信息为“下一首歌曲”,则控制服务根据该控制信息生成控制指令1,终端设备可以根据控制指令1打开唱歌应用程序中的下一首歌曲。
S307、应用服务根据第一缓存中的音频数据进行多媒体信息交互。
下面,通过具体示例,对图3实施例所示的方法进行详细说明。
示例性的,终端设备当前运行的应用程序为唱歌应用程序,唤醒语音助手应用程序的第一关键词为“嗨小聚”、退出语音助手应用程序的第二关键词为“可以了”。终端设备为唱歌应用程序分配缓存1,为语音助手应用程序分配缓存2。
在用户通过麦克风唱歌曲“忘情水”时,终端设备将用户通过麦克风输入歌曲音频存储到缓存1和缓存2。唱歌应用程序从缓存1获取得到歌曲音频,并将歌曲音频作为歌曲内容输入。语音助手应用程序从缓存2获取得到歌曲音频,并对歌曲音频进行语音识别。
当用户需要增大歌曲的音量时,用户暂停唱歌,并说“嗨小聚,将音量增大5级,可以了”,在语音助手应用程序识别得到第一关键词(嗨小聚)和第二关键词(可以了)之后,根据“嗨小聚”和“可以了”之间的音频“将音量增大5级”生成音量控制指令,以使终端设备根据该音量控制指令将终端设备的音量增大5级。
终端设备确定语音助手应用程序从缓存2识别得到“嗨小聚”之后,终端设备暂停向缓存1存储音频数据,并在确定语音助手应用程序从缓存2识别得到“可以了”之后,继续向缓存1存储音频数据。
在上述过程中,在用户可以通过麦克风进行唱歌的过程中,当用户需要对终端设备进行控制时,用户可以通过麦克风对终端设备进行控制,无需再通过控制设备对终端设备进行控制,避免用户频繁切换使用的控制设备和麦克风,进而提高对终端设备进行控制的效率。
图4为本发明实施例提供的基于麦克风的设备控制方法的流程示意图三。请参见图4,该方法可以包括:
S401、确定终端设备中运行状态的应用服务。
S402、为运行状态的应用服务分配第一缓存,为控制服务分配第二缓存。
需要说明的是,S401-S402的执行过程可以参见S201-S202,本发明实施例此处不再进行赘述。
S403、在用户开始对麦克风上的物理按键进行预设按压操作时,开始向第二缓存中存储音频数据,并在用户结束对麦克风上的物理按键进行预设按压操作时,结束向第二缓存中存储音频数据。
可选的,这里通过在麦克风上设置物理按键,以在用户按压该物理按键时使得语音助手处于前台运行状态,进而开始对终端设备进行控制。当预设按压操作为长按操作时,则在用户开始对麦克风上的物理按键进行长按操作时,开始向第二缓存中存储音频数据,在用户结束对麦克风上的物理按键进行长按操作时,结束向第二缓存中存储音频数据。
可选的,控制服务还可以根据用户对麦克风上物理按键的第一按压操作,生成第一控制指令,第一控制指令用于打开终端设备中对应的应用程序。
例如,用户对麦克风上的物理按键按压一次,生成的第一控制指令用于指示打开唱歌应用程序。用户对麦克风上的物理按键连续按压两次,生成的第一控制指令用于指示打开会议应用程序。用户对麦克风上的物理按键连续按压三次,生成的第一控制指令用于指示打视频应用程序。
S404、将麦克风采集得到的音频数据实时存储至第一缓存,在用户开始对麦克风上的物理按键进行预设按压操作时,暂停向第一缓存中存储音频数据,并在用户结束对麦克风上的物理按键进行预设按压操作时,继续向第一缓存中存储音频数据。
S405、控制服务根据第二缓存中的音频数据生成控制指令。
S406、应用服务根据第一缓存中的音频数据进行多媒体信息交互。
下面,通过具体示例,对图3实施例所示的方法进行详细说明。
示例性的,终端设备当前运行的应用程序为唱歌应用程序,控制服务包括语音助手应用程序。终端设备为唱歌应用程序分配缓存1,为语音助手应用程序分配缓存2。
在用户通过麦克风唱歌曲“忘情水”时,终端设备将用户通过麦克风输入歌曲音频存储到缓存1。唱歌应用程序从缓存1获取得到歌曲音频,并将歌曲音频作为歌曲内容输入。
当用户需要增大歌曲的音量时,用户可以长按麦克风中的物理按键,并说“将音量增大5级”,并停止对物理按键进行按压。终端设备将该音频数据“将音量增大5级”存储至缓存2,语音助手应用程序从缓存2获取得到音频数据“将音量增大5级”,并根据该音频数据“将音量增大5级”生成音量控制指令,以使终端设备根据该音量控制指令将终端设备的音量增大5级。
在用户开始长按麦克风中的物理按键时,终端设备暂停向缓存1存储音频数据,并在用户停止对物理按键进行按压时,继续向缓存1存储音频数据,以使缓存1中的音频数据不包括音频数据“将音量增大5级”。
在上述过程中,在用户可以通过麦克风进行唱歌的过程中,当用户需要对终端设备进行控制时,用户可以通过麦克风对终端设备进行控制,无需再通过控制设备对终端设备进行控制,避免用户频繁切换使用的控制设备和麦克风,进而提高对终端设备进行控制的效率。
图5为本发明实施例提供的基于麦克风的设备控制装置的结构示意图一。应用于终端设备,请参见图5,该装置可以包括确定模块11和存储模块12,其中,
所述确定模块11用于,确定所述终端设备中处于运行状态的应用服务;
所述存储模块12用于,分别将所述麦克风采集得到的音频数据存储至第一缓存和第二缓存;所述第一缓存是为所述应用服务分配的,所述第二缓存是为所述终端设备中的控制服务分配的;
其中,所述应用服务用于从所述第一缓存中获取所述音频数据、并根据所述音频数据进行多媒体信息交互;所述控制服务用于从所述第二缓存中获取所述音频数据、并根据所述音频数据生成对所述终端设备进行控制的控制指令。
本发明实施例提供的基于麦克风的设备控制装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述存储模块12具体用于:
将所述麦克风采集得到的音频数据实时存储至所述第二缓存,所述控制服务具体用于在所述第二缓存中的音频数据中识别到第一关键词和第二关键词时,根据所述第一关键词和所述第二关键词之间的音频数据生成所述控制指令。
在另一种可能的实施方式中,所述存储模块12具体用于:
将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至所述控制服务在所述第二缓存中的音频数据中识别到所述第一关键词时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述控制服务在所述第二缓存中的音频数据中识别到所述第二关键词时,继续向所述第一缓存中存储所述麦克风采集得到的音频数据。
在另一种可能的实施方式中,所述存储模块12具体用于:
在接收到用户对所述麦克风上的物理按键进行预设按压操作时,将所述麦克风采集得到的、所述预设按压操作对应的音频数据存储至所述第二缓存;
其中,当所述预设按压操作为长按操作,所述预设按压操作对应的音频数据为所述长按操作期间、所述麦克风采集得到的音频数据;当所述预设按压操作包括第一按压操作和第二按压操作时,所述预设按压操作对应的音频数据为所述第一按压操作和所述第二按压操作期间、所述麦克风采集得到的音频数据。
在另一种可能的实施方式中,所述存储模块12具体用于:将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至接收到用户对所述麦克风上的物理按键进行预设按压操作时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述预设按压操作结束时,继续向所述第一缓存存储所述麦克风采集得到的音频数据。
图6为本发明实施例提供的基于麦克风的设备控制装置的结构示意图二。在图5所示实施例的基础上,请参见图6,所述装置还包括分配模块13,其中,
所述分配模块13用于,在所述存储模块12分别将所述麦克风采集得到的音频数据存储至第一缓存和第二缓存之前,为所述应用服务分配第一缓存,为所述控制服务分配第二缓存。
本发明实施例提供的基于麦克风的设备控制装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本发明实施例提供一种终端设备,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述任意方法实施例所述的方法。
本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述任意方法实施例所述的方法被执行。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims (5)

1.一种基于麦克风的设备控制方法,其特征在于,应用于终端设备,所述方法包括:
当所述终端设备中的处于运行状态应用服务为需要通过麦克风采集用户的音频数据而交互的多媒体应用程序时;
为所述多媒体应用程序分配第一缓存,将所述第一缓存的标识登记到拷贝服务,当读取到音频数据时,将所述音频数据传输至脉冲编码调制PCM节点,并根据所述第一缓存的标识存储所述麦克风采集得到的音频数据至第一缓存;其中,所述应用服务根据第一缓存中的音频数据进行多媒体信息交互;响应于启用控制服务的指令,为控制服务分配第二缓存,将所述第二缓存的标识登记到拷贝服务,当读取到音频数据时,将所述音频数据传输至脉冲编码调制PCM节点,并根据所述第二缓存的标识向所述第二缓存中存储音频数据,以及,暂停向第一缓存中存储音频数据,其中所述控制服务用于生成控制指令以控制所述终端设备;
响应于所述控制指令接收结束,结束向第二缓存中存储音频数据,所述控制服务根据第二缓存中的音频数据生成控制指令,以及继续向第一缓存中存储音频数据。
2.根据权利要求1所述的基于麦克风的设备控制方法,其特征在于,响应于启用控制服务的指令,为控制服务分配第二缓存,将所述第二缓存的标识登记到拷贝服务,当读取到音频数据时,将所述音频数据传输至脉冲编码调制PCM节点,并根据所述第二缓存的标识向所述第二缓存中存储音频数据,以及,暂停向第一缓存中存储音频数据,其中所述控制服务用于生成控制指令以控制所述终端设备;响应于所述控制指令接收结束,结束向第二缓存中存储音频数据,所述控制服务根据第二缓存中的音频数据生成控制指令,以及继续向第一缓存中存储音频数据,具体包括:
在用户开始对麦克风上的物理按键进行预设按压操作时,开始向第二缓存中存储音频数据,并在用户结束对麦克风上的物理按键进行预设按压操作时,结束向第二缓存中存储音频数据;
将麦克风采集得到的音频数据实时存储至第一缓存,在用户开始对麦克风上的物理按键进行预设按压操作时,暂停向第一缓存中存储音频数据,并在用户结束对麦克风上的物理按键进行预设按压操作时,继续向第一缓存中存储音频数据。
3.根据权利要求1所述的基于麦克风的设备控制方法,其特征在于,所述方法还包括:
为所述应用服务分配第一缓存,直至应用服务结束运行之后,删除第一缓存中的数据,并清除第一缓存;
在控制服务启动之后,为控制服务器分配第二缓存,在控制服务结束运行之后,删除第二缓存中的数据,并清除第二缓存。
4.根据权利要求1所述的基于麦克风的设备控制方法,其特征在于,向所述第二缓存中存储音频数据,具体包括:
在接收到用户对所述麦克风上的物理按键进行预设按压操作时,将所述麦克风采集得到的、所述预设按压操作对应的音频数据存储至所述第二缓存;
其中,当所述预设按压操作为长按操作,所述预设按压操作对应的音频数据为所述长按操作期间、所述麦克风采集得到的音频数据;当所述预设按压操作包括第一按压操作和第二按压操作时,所述预设按压操作对应的音频数据为所述第一按压操作和所述第二按压操作期间、所述麦克风采集得到的音频数据;
向所述第一缓存中存储音频数据,包括:
将所述麦克风采集得到的音频数据实时存储至所述第一缓存,直至接收到用户对所述麦克风上的物理按键进行预设按压操作时,暂停向所述第一缓存存储所述麦克风采集得到的音频数据,并在所述预设按压操作结束时,继续向所述第一缓存存储所述麦克风采集得到的音频数据。
5.一种基于麦克风的设备控制装置,其特征在于,应用于终端设备,所述终端设备包括处理器和存储器,其中,
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述权利要求 1~4 任一项所述的方法。
CN202110709010.2A 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置 Active CN113473199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110709010.2A CN113473199B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110709010.2A CN113473199B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置
CN201811020431.9A CN109151564B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201811020431.9A Division CN109151564B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置

Publications (2)

Publication Number Publication Date
CN113473199A CN113473199A (zh) 2021-10-01
CN113473199B true CN113473199B (zh) 2023-06-09

Family

ID=64826443

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811020431.9A Active CN109151564B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置
CN202110709010.2A Active CN113473199B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201811020431.9A Active CN109151564B (zh) 2018-09-03 2018-09-03 基于麦克风的设备控制方法及装置

Country Status (1)

Country Link
CN (2) CN109151564B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903763B (zh) * 2019-01-11 2022-02-22 百度在线网络技术(北京)有限公司 服务控制方法、装置及设备
CN111462744B (zh) * 2020-04-02 2024-01-30 深圳创维-Rgb电子有限公司 一种语音交互方法、装置、电子设备及存储介质
CN112882834A (zh) * 2021-02-19 2021-06-01 深圳市云基航空科技有限责任公司 计算机系统及独占资源设备的调用方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
EP2784774A1 (en) * 2013-03-29 2014-10-01 Orange Telephone voice personnal assistant
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN105573709A (zh) * 2014-10-10 2016-05-11 讯飞智元信息科技有限公司 语音输入设备控制方法及系统
CN104572009B (zh) * 2015-01-28 2018-01-09 合肥联宝信息技术有限公司 一种自适应外界环境的音频控制方法及装置
CN107785013A (zh) * 2016-08-24 2018-03-09 中兴通讯股份有限公司 语音控制方法及装置
CN106791071A (zh) * 2016-12-15 2017-05-31 珠海市魅族科技有限公司 通话控制方法及系统
CN106686243A (zh) * 2016-12-31 2017-05-17 深圳市优必选科技有限公司 语音控制方法和装置
CN107748657B (zh) * 2017-10-19 2021-12-21 广东小天才科技有限公司 一种基于麦克风的交互方法及麦克风
CN109976696B (zh) * 2017-12-28 2022-05-10 深圳市优必选科技有限公司 获取音频数据的方法及装置、设备、计算机可读存储介质

Also Published As

Publication number Publication date
CN109151564A (zh) 2019-01-04
CN113473199A (zh) 2021-10-01
CN109151564B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113473199B (zh) 基于麦克风的设备控制方法及装置
US9666190B2 (en) Speech recognition using loosely coupled components
JP2020525903A (ja) 音声アシスタントシステムのための発話による特権の管理
CN109192208B (zh) 一种电器设备的控制方法、系统、装置、设备及介质
CN113168304A (zh) 有条件地将各种自动助理功能分配给与外围助理控制设备的交互
CN110970021B (zh) 一种问答控制方法、装置及系统
CN109360563B (zh) 一种语音控制方法、装置、存储介质及空调
US10540973B2 (en) Electronic device for performing operation corresponding to voice input
CN111737022B (zh) 一种基于微服务的接口调用方法、系统、设备及介质
CN109240107A (zh) 一种电器设备的控制方法、装置、电器设备和介质
US20150199961A1 (en) Methods and nodes for enabling and producing input to an application
CN110557451A (zh) 对话交互处理方法、装置、电子设备和存储介质
CN109920416A (zh) 一种语音控制方法、装置、存储介质及控制系统
JP2023509868A (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
CN110136713A (zh) 用户在多模态交互中的对话方法及系统
CN115424624B (zh) 一种人机互动的服务处理方法、装置及相关设备
CN111816190A (zh) 用于上位机与下位机的语音交互方法和装置
KR20210011021A (ko) 보류 상태를 관리하기 위한 방법 및 장치
CN111145749A (zh) 一种控制方法及控制装置
CN111212327A (zh) 一种播放设备的控制方法、装置和存储介质
CN113012695B (zh) 智能控制方法、装置、电子设备及计算机可读存储介质
CN111292749B (zh) 智能语音平台的会话控制方法及装置
EP1643725A1 (en) Method to manage media resources providing services to be used by an application requesting a particular set of services
WO2023024455A1 (zh) 语音交互方法及电子设备
CN113452853B (zh) 语音交互方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant