CN107424609A - 一种语音控制方法及装置 - Google Patents

一种语音控制方法及装置 Download PDF

Info

Publication number
CN107424609A
CN107424609A CN201710638353.8A CN201710638353A CN107424609A CN 107424609 A CN107424609 A CN 107424609A CN 201710638353 A CN201710638353 A CN 201710638353A CN 107424609 A CN107424609 A CN 107424609A
Authority
CN
China
Prior art keywords
voice
application
order
command
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710638353.8A
Other languages
English (en)
Inventor
龚杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhisheng Information Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201710638353.8A priority Critical patent/CN107424609A/zh
Publication of CN107424609A publication Critical patent/CN107424609A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音控制方法及装置。方法包括:接收针对目标应用输入的语音;根据预先获得的至少一个应用的预设命令集,判断语音的属性是否为语音命令;当语音的属性为语音命令时,根据语音对应的目标语音命令对目标应用进行控制。通过本发明的技术方案,可实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率,以更好地使用语音对执行主体上的第三方应用进行控制,从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题,这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能,有利于提高上述语音输入法的通用性。

Description

一种语音控制方法及装置
技术领域
本发明涉及语音技术领域,特别涉及一种语音控制方法及装置。
背景技术
目前,为了方便对应用进行控制等操作,用户常常会选择通过语音完成对该应用的控制等操作,但在使用语音操作的过程中,常常会出现由于用于识别语音的语音输入法无法解析或者较为准确地解析出针对上述应用的语音控制命令等原因而无法与上述应用兼容的问题,从而导致无法很好地利用语音控制上述应用(其中,上述应用相对应该语音输入法往往是第三方应用),而相关技术中却没有相应的解决方案。
发明内容
本发明提供一种语音控制方法及装置,用以在接收到针对目标应用输入的语音时,通过利用预先获得的至少一个应用的预设命令集,可准确地判断语音的属性是否为语音命令,进而当语音的属性为语音命令时,可根据语音对应的目标语音命令对目标应用进行自动控制,从而实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率,以更好地使用语音对执行主体上的第三方应用进行控制,从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题,这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能,有利于提高上述语音输入法的通用性。
本发明提供一种语音控制方法,包括:
接收针对所述目标应用输入的语音;
根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令;
当所述语音的属性为语音命令时,根据所述语音对应的目标语音命令对所述目标应用进行控制,其中,所述至少一个应用至少包括所述目标应用。
在一个实施例中,在根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令之前,所述方法还包括:
获取所述至少一个应用的命令配置文件;
对所述命令配置文件进行解析,获得所述至少一个应用的预设命令集。
在一个实施例中,所述至少一个应用的预设命令集包括:
所述至少一个应用中各应用的命令配置文件对应的总命令集,或者
所述至少一个应用中各应用的各页面的命令配置文件对应的命令集。
在一个实施例中,所述根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令,包括:
当所述预设命令集包括所述至少一个应用中各应用的各页面的命令配置文件对应的命令集时,获取所述目标应用发送的接收所述语音时其当前运行页面的标识;
根据所述目标应用的各页面的命令配置文件对应的命令集和所述当前运行页面的标识,确定所述当前运行页面对应的命令集;
判断所述语音对应的识别结果与所述当前运行页面对应的命令集是否匹配;
当所述语音对应的识别结果与所述当前运行页面对应的命令集中的若干条命令相匹配时,确定所述语音的属性为语音命令,且所述目标语音命令为所述若干条命令。
在一个实施例中,所述当所述语音的属性为语音命令时,根据所述语音对应的目标语音命令对所述目标应用进行控制,包括:
当所述语音的属性为所述语音命令时,将所述目标语音命令发送至所述目标应用,以使所述目标应用执行所述目标语音命令;或者
当所述语音的属性为所述语音命令时,识别接收所述语音时所述目标应用的当前运行页面,获得所述当前运行页面的页面识别结果;
根据所述页面识别结果在所述目标应用中执行所述目标语音命令。
本发明还提供一种语音控制装置,包括:
接收模块,用于接收针对所述目标应用输入的语音;
判断模块,用于根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令;
控制模块,用于当所述语音的属性为语音命令时,根据所述语音对应的目标语音命令对所述目标应用进行控制,其中,所述至少一个应用至少包括所述目标应用。
在一个实施例中,所述装置还包括:
获取模块,用于在根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令之前,获取所述至少一个应用的命令配置文件;
解析模块,用于对所述命令配置文件进行解析,获得所述至少一个应用的预设命令集。
在一个实施例中,所述至少一个应用的预设命令集包括:
所述至少一个应用中各应用的命令配置文件对应的总命令集,或者
所述至少一个应用中各应用的各页面的命令配置文件对应的命令集。
在一个实施例中,所述判断模块包括:
获取子模块,用于当所述预设命令集包括所述至少一个应用中各应用的各页面的命令配置文件对应的命令集时,获取所述目标应用发送的接收所述语音时其当前运行页面的标识;
第一确定子模块,用于根据所述目标应用的各页面的命令配置文件对应的命令集和所述当前运行页面的标识,确定所述当前运行页面对应的命令集;
判断子模块,用于判断所述语音对应的识别结果与所述当前运行页面对应的命令集是否匹配;
第二确定子模块,用于当所述语音对应的识别结果与所述当前运行页面对应的命令集中的若干条命令相匹配时,确定所述语音的属性为语音命令,且所述目标语音命令为所述若干条命令。
在一个实施例中,所述控制模块包括:
发送子模块,用于当所述语音的属性为所述语音命令时,将所述目标语音命令发送至所述目标应用,以使所述目标应用执行所述目标语音命令;或者
识别子模块,用于当所述语音的属性为所述语音命令时,识别接收所述语音时所述目标应用的当前运行页面,获得所述当前运行页面的页面识别结果;
执行子模块,用于根据所述页面识别结果在所述目标应用中执行所述目标语音命令。
本公开的实施例提供的技术方案可以包括以下有益效果:
由于设置至少一个应用的预设命令集后,有利于该语音输入法更好地识别针对该目标应用的语音命令,因而,在接收到针对目标应用输入的语音时,通过利用预先获得的至少一个应用的预设命令集,可准确地判断语音的属性是否为语音命令,进而当语音的属性为语音命令时,可根据语音对应的目标语音命令对目标应用进行自动控制,从而实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率,以更好地使用语音对执行主体上的第三方应用进行控制,从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题,这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能,有利于提高上述语音输入法的通用性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据一示例性实施例示出的一种语音控制方法的流程图。
图2是根据一示例性实施例示出的另一种语音控制方法的流程图。
图3是根据一示例性实施例示出的又一种语音控制方法的流程图。
图4是根据一示例性实施例示出的一种语音控制装置的框图。
图5是根据一示例性实施例示出的另一种语音控制装置的框图。
图6是根据一示例性实施例示出的又一种语音控制装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
为了解决上述技术问题,本公开实施例提供了一种语音控制方法,该方法适用于语音控制程序、系统或装置中,其执行主体可以是手机、计算机等安装有语音输入法的终端,其中,该语音输入法可对语音进行识别和转换,如图1所示,步骤S101至步骤S103,其中:
在步骤S101中,接收针对目标应用输入的语音;
在步骤S102中,根据预先获得的至少一个应用的预设命令集,判断语音的属性是否为语音命令;
上述至少一个应用与上述语音输入法是不同商家提供的应用,因而,上述至少一个应用相对于上述语音输入法而言属于第三方应用,其中,上述语音输入法可以是云知声、讯飞语音输入法等。
在步骤S103中,当语音的属性为语音命令时,根据语音对应的目标语音命令对目标应用进行控制,其中,至少一个应用至少包括目标应用。
由于设置至少一个应用的预设命令集后,有利于该语音输入法更好地识别针对该目标应用的语音命令,因而,在接收到针对目标应用输入的语音时,通过利用预先获得的至少一个应用的预设命令集,可准确地判断语音的属性是否为语音命令,进而当语音的属性为语音命令时,可根据语音对应的目标语音命令对目标应用进行自动控制,从而实现在使用上述至少一个应用的预设命令集的基础上提高对语音命令的识别率,以更好地使用语音对执行主体上的第三方应用进行控制,从而尽可能地避免由于语音输入法无法很好地识别针对第三方应用的命令而与第三方应用无法兼容的问题,这也可避免需要根据第三方应用的不同而反复修改语音输入法的语音识别/语音控制功能,有利于提高上述语音输入法的通用性。
另外,语音的属性除了为语音命令之外,还有可能为普通的需向目标应用中输入的语音信息,而当该语音的属性为需向目标应用中输入的语音信息时,可识别该语音信息获得该语音信息的识别结果(即文字、数字等字符),进而将该识别结果输入至该目标应用中光标所在的输入框中。
另外,由于预先获得了至少一个应用的预设命令集,因而,对于同一语音将其识别为语音命令的优先级高于需向目标应用中输入的语音信息,如当该语音为“kaishi”时,语音输入法会将其优先识别为“开始”命令而非需向目标应用中输入的“开始”二字,以避免遗漏针对该目标应用的语音命令,当然,至于最后是否确实为语音命令,语音输入法会结合前后语音的语义进行再次确认,以尽可能避免误识别。
如图2所示,在一个实施例中,在根据预先获得的至少一个应用的预设命令集,判断语音的属性是否为语音命令之前,方法还包括:
在步骤S201中,获取至少一个应用的命令配置文件;
在步骤S202中,对命令配置文件进行解析,获得至少一个应用的预设命令集。
在判断语音的属性是否为语音命令之前,需要获取至少一个应用的命令配置文件,进而对命令配置文件进行解析,分析出相应的命令的具体语句,以获得上述至少一个应用的预设命令集;
另外,在对命令配置文件进行解析时,可通过相关的命令解析模型(如使用命令配置文件预先训练的卷积神经网络模型,Convolutional Neural Network,简称CNN)进行解析,进而利用获得的预设命令集对该解析模型再次进行不断训练,以便之后对新的命令配置文件进行更为准确的解析;或者
在对命令配置文件进行解析时,还可以分别建立与至少一个应用中各应用分别对应的命令解析模型,进而再不断进行训练。
在一个实施例中,至少一个应用的预设命令集包括:
至少一个应用中各应用的命令配置文件对应的总命令集,或者
至少一个应用中各应用的各页面的命令配置文件对应的命令集。
至少一个应用中各应用的命令配置文件对应的总命令集即该应用的所有命令配置文件对应的命令集,而各应用的命令配置文件可以包括各应用中所有页面的通用命令配置文件和各应用中每个页面的特有命令配置文件,相应地,各应用对应的总命令集可以包括各应用中所有页面的通用命令和各应用中不同页面的特有命令,当然,也可以对上述各应用的命令配置文件对应的总命令集进行分类,如按照命令所针对的页面,将各应用中不同页面的命令集进行分类。
如图3所示,在一个实施例中,根据预先获得的至少一个应用的预设命令集,判断语音的属性是否为语音命令,包括:
在步骤S301中,当预设命令集包括至少一个应用中各应用的各页面的命令配置文件对应的命令集时,获取目标应用发送的接收语音时其当前运行页面的标识;
在步骤S302中,根据目标应用的各页面的命令配置文件对应的命令集和当前运行页面的标识,确定当前运行页面对应的命令集;
当前运行页面的标识可以是当前运行页面的名称、编号等唯一标识。
在步骤S303中,判断语音对应的识别结果与当前运行页面对应的命令集是否匹配;
在步骤S304中,当语音对应的识别结果与当前运行页面对应的命令集中的若干条命令相匹配时,确定语音的属性为语音命令,且目标语音命令为若干条命令。
当预设命令集包括上述各应用的各页面的命令配置文件对应的命令集时,通过获取目标应用发送的接收语音时其当前运行页面的标识,进而根据目标应用的各页面的命令配置文件对应的命令集和当前运行页面的标识,确定当前运行页面对应的命令集,可判断语音对应的识别结果与当前运行页面对应的命令集是否匹配,进而当语音对应的识别结果与当前运行页面对应的命令集中的若干条命令相匹配时,可准确确定语音的属性为语音命令,且目标语音命令为若干条命令,以便于利用该若干条命令对目标应用进行控制。
在一个实施例中,当语音的属性为语音命令时,根据语音对应的目标语音命令对目标应用进行控制,包括:
当语音的属性为语音命令时,将目标语音命令发送至目标应用,以使目标应用执行目标语音命令;或者
当语音的属性为语音命令时,识别接收语音时目标应用的当前运行页面,获得当前运行页面的页面识别结果;
根据页面识别结果在目标应用中执行目标语音命令。
当语音的属性为语音命令时,上述语音输入法可将目标语音命令发送至目标应用,以使目标应用解析该目标语音命令(即获得该目标语音命令对应的具体语句)后自动执行目标语音命令;
另外,由于预设命令集中的各通用命令往往分别包括多个子命令、分别对应不同的重复性操作(如登录命令中可能包括点击登录按钮命令、输入用户名命令、输入密码命令等多个子命令),因而,当接收到的语音对应的目标语音命令为某个通用命令一个子命令时,语音输入法可直接将该通用命令中的其他子命令一起返回至目标应用以使目标应用解析该通用命令后快速完成相关操作;或者语音输入法也可以在接收到第三方应用发送的“请求发送该通用命令的其他子命令”的指示后再向第三方应用返回该通用命令中的其他子命令,以节省语音输入。
或者
当语音的属性为语音命令时,上述语音输入法可识别接收语音时目标应用的当前运行页面,如对该当前运行页面进行文字、图片识别等,以获得当前运行页面的页面识别结果,然后根据页面识别结果在目标应用中执行目标语音命令,例如:当目标语音命令为“点击插入”命令时,语音输入法可对当前运行页面进行文字、图像识别等,以定位当前运行页面上“插入”二字所在的位置,然后模拟鼠标点击“插入”控件,即可自动执行完“点击插入”命令。
最后,下面将举例说明本发明中的命令配置文件和对第三方应用的具体控制步骤:
其中,执行主体上安装的某个可通过语音控制的第三方应用的命令配置文件可以如下:
生成上述第三方应用的预设命令集和“当语音的属性为语音命令时,将目标语音命令发送至该第三方应用,以使该第三方应用执行目标控制命令”的步骤如下:
语音输入法接收到上述第三方应用的配置文件以后,解析配置文件的内容,生成该第三方应用中每个页面的命令集合,包括命令的名称以及命令对应具体语句(该语句可以包括需向该目标应用返回的内容);
将命令集合进行语音识别优化;
第三方应用运行时,通知语音输入法当前的页面id(identification,即该页面的标识),进而语音输入法将输入的语音对应的识别结果与该id的页面对应的命令集进行匹配,返回与该语音对应的命令,例如:第三方应用处于编辑页面时,通知语音输入法页面id为1001,此时如果语音对应的命令为“字体设置为宋体”,则语音输入法会向该第三方应用返回命令:{“name”:”font”,“value”:”songti”};
第三方应用解析返回值,执行该命令。
当然,对于上述第三方应用的通用命令集(通用命令集为预设的该第三方应用的固定命令集合,如登陆模块”的命令集等)其对第三方应用的控制与上述步骤相同:
当第三方应用正在运行对应的通用模块时,通知语音输入法,则语音输入法识别输入的语音后向该第三方应用返回对应的预设命令。
如图4所示,本发明还提供一种语音控制装置,包括:
接收模块401,用于接收针对目标应用输入的语音;
判断模块402,用于根据预先获得的至少一个应用的预设命令集,判断语音的属性是否为语音命令;
控制模块403,用于当语音的属性为语音命令时,根据语音对应的目标语音命令对目标应用进行控制,其中,至少一个应用至少包括目标应用。
如图5所示,在一个实施例中,装置还包括:
获取模块501,用于在根据预先获得的至少一个应用的预设命令集,判断语音的属性是否为语音命令之前,获取至少一个应用的命令配置文件;
解析模块502,用于对命令配置文件进行解析,获得至少一个应用的预设命令集。
在一个实施例中,至少一个应用的预设命令集包括:
至少一个应用中各应用的命令配置文件对应的总命令集,或者
至少一个应用中各应用的各页面的命令配置文件对应的命令集。
如图6所示,在一个实施例中,判断模块402可以包括:
获取子模块4021,用于当预设命令集包括至少一个应用中各应用的各页面的命令配置文件对应的命令集时,获取目标应用发送的接收语音时其当前运行页面的标识;
第一确定子模块4022,用于根据目标应用的各页面的命令配置文件对应的命令集和当前运行页面的标识,确定当前运行页面对应的命令集;
判断子模块4023,用于判断语音对应的识别结果与当前运行页面对应的命令集是否匹配;
第二确定子模块4024,用于当语音对应的识别结果与当前运行页面对应的命令集中的若干条命令相匹配时,确定语音的属性为语音命令,且目标语音命令为若干条命令。
在一个实施例中,控制模块包括:
发送子模块,用于当语音的属性为语音命令时,将目标语音命令发送至目标应用,以使目标应用执行目标语音命令;或者
识别子模块,用于当语音的属性为语音命令时,识别接收语音时目标应用的当前运行页面,获得当前运行页面的页面识别结果;
执行子模块,用于根据页面识别结果在目标应用中执行目标语音命令。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
最后,本发明中的语音控制装置适用于终端设备。例如,可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音控制方法,用于安装在终端上的语音输入法,且所述终端上还安装有目标应用,其特征在于,包括:
接收针对所述目标应用输入的语音;
根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令;
当所述语音的属性为语音命令时,根据所述语音对应的目标语音命令对所述目标应用进行控制,其中,所述至少一个应用至少包括所述目标应用。
2.根据权利要求1所述的方法,其特征在于,在根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令之前,所述方法还包括:
获取所述至少一个应用的命令配置文件;
对所述命令配置文件进行解析,获得所述至少一个应用的预设命令集。
3.根据权利要求2所述的方法,其特征在于,
所述至少一个应用的预设命令集包括:
所述至少一个应用中各应用的命令配置文件对应的总命令集,或者
所述至少一个应用中各应用的各页面的命令配置文件对应的命令集。
4.根据权利要求3所述的方法,其特征在于,
所述根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令,包括:
当所述预设命令集包括所述至少一个应用中各应用的各页面的命令配置文件对应的命令集时,获取所述目标应用发送的接收所述语音时其当前运行页面的标识;
根据所述目标应用的各页面的命令配置文件对应的命令集和所述当前运行页面的标识,确定所述当前运行页面对应的命令集;
判断所述语音对应的识别结果与所述当前运行页面对应的命令集是否匹配;
当所述语音对应的识别结果与所述当前运行页面对应的命令集中的若干条命令相匹配时,确定所述语音的属性为语音命令,且所述目标语音命令为所述若干条命令。
5.根据权利要求1至4中任一项所述的方法,其特征在于,
所述当所述语音的属性为语音命令时,根据所述语音对应的目标语音命令对所述目标应用进行控制,包括:
当所述语音的属性为所述语音命令时,将所述目标语音命令发送至所述目标应用,以使所述目标应用执行所述目标语音命令;或者
当所述语音的属性为所述语音命令时,识别接收所述语音时所述目标应用的当前运行页面,获得所述当前运行页面的页面识别结果;
根据所述页面识别结果在所述目标应用中执行所述目标语音命令。
6.一种语音控制装置,用于安装在终端上的语音输入法,且所述终端上还安装有目标应用,其特征在于,包括:
接收模块,用于接收针对所述目标应用输入的语音;
判断模块,用于根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令;
控制模块,用于当所述语音的属性为语音命令时,根据所述语音对应的目标语音命令对所述目标应用进行控制,其中,所述至少一个应用至少包括所述目标应用。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
获取模块,用于在根据预先获得的至少一个应用的预设命令集,判断所述语音的属性是否为语音命令之前,获取所述至少一个应用的命令配置文件;
解析模块,用于对所述命令配置文件进行解析,获得所述至少一个应用的预设命令集。
8.根据权利要求7所述的装置,其特征在于,
所述至少一个应用的预设命令集包括:
所述至少一个应用中各应用的命令配置文件对应的总命令集,或者
所述至少一个应用中各应用的各页面的命令配置文件对应的命令集。
9.根据权利要求8所述的装置,其特征在于,
所述判断模块包括:
获取子模块,用于当所述预设命令集包括所述至少一个应用中各应用的各页面的命令配置文件对应的命令集时,获取所述目标应用发送的接收所述语音时其当前运行页面的标识;
第一确定子模块,用于根据所述目标应用的各页面的命令配置文件对应的命令集和所述当前运行页面的标识,确定所述当前运行页面对应的命令集;
判断子模块,用于判断所述语音对应的识别结果与所述当前运行页面对应的命令集是否匹配;
第二确定子模块,用于当所述语音对应的识别结果与所述当前运行页面对应的命令集中的若干条命令相匹配时,确定所述语音的属性为语音命令,且所述目标语音命令为所述若干条命令。
10.根据权利要求6至9中任一项所述的装置,其特征在于,
所述控制模块包括:
发送子模块,用于当所述语音的属性为所述语音命令时,将所述目标语音命令发送至所述目标应用,以使所述目标应用执行所述目标语音命令;或者
识别子模块,用于当所述语音的属性为所述语音命令时,识别接收所述语音时所述目标应用的当前运行页面,获得所述当前运行页面的页面识别结果;
执行子模块,用于根据所述页面识别结果在所述目标应用中执行所述目标语音命令。
CN201710638353.8A 2017-07-31 2017-07-31 一种语音控制方法及装置 Pending CN107424609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710638353.8A CN107424609A (zh) 2017-07-31 2017-07-31 一种语音控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710638353.8A CN107424609A (zh) 2017-07-31 2017-07-31 一种语音控制方法及装置

Publications (1)

Publication Number Publication Date
CN107424609A true CN107424609A (zh) 2017-12-01

Family

ID=60431618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710638353.8A Pending CN107424609A (zh) 2017-07-31 2017-07-31 一种语音控制方法及装置

Country Status (1)

Country Link
CN (1) CN107424609A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085224A (zh) * 2019-04-10 2019-08-02 深圳康佳电子科技有限公司 智能终端全程语音操控处理方法、智能终端及存储介质
CN110827824A (zh) * 2018-08-08 2020-02-21 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN112269556A (zh) * 2020-09-21 2021-01-26 北京达佳互联信息技术有限公司 信息展示方法、装置、系统、设备、服务器及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102395013A (zh) * 2011-11-07 2012-03-28 康佳集团股份有限公司 一种对智能电视机的语音控制方法和系统
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
CN104346127A (zh) * 2013-08-02 2015-02-11 腾讯科技(深圳)有限公司 语音输入的实现方法、装置及终端
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN105094807A (zh) * 2015-06-25 2015-11-25 三星电子(中国)研发中心 一种实现语音控制的方法及装置
US20150379993A1 (en) * 2014-06-30 2015-12-31 Samsung Electronics Co., Ltd. Method of providing voice command and electronic device supporting the same
CN105426224A (zh) * 2015-12-28 2016-03-23 上海银天下科技有限公司 打开应用程序中的web页面的方法及装置
US20160203418A1 (en) * 2009-01-21 2016-07-14 International Business Machines Corporation User-guided teaching an object of a deictic reference to a machine
CN106254915A (zh) * 2016-07-29 2016-12-21 乐视控股(北京)有限公司 基于电视终端的交互方法、装置及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160203418A1 (en) * 2009-01-21 2016-07-14 International Business Machines Corporation User-guided teaching an object of a deictic reference to a machine
CN102395013A (zh) * 2011-11-07 2012-03-28 康佳集团股份有限公司 一种对智能电视机的语音控制方法和系统
CN104346127A (zh) * 2013-08-02 2015-02-11 腾讯科技(深圳)有限公司 语音输入的实现方法、装置及终端
CN103885783A (zh) * 2014-04-03 2014-06-25 深圳市三脚蛙科技有限公司 一种应用程序的语音控制方法及装置
US20150379993A1 (en) * 2014-06-30 2015-12-31 Samsung Electronics Co., Ltd. Method of providing voice command and electronic device supporting the same
CN104599669A (zh) * 2014-12-31 2015-05-06 乐视致新电子科技(天津)有限公司 一种语音控制方法和装置
CN105094807A (zh) * 2015-06-25 2015-11-25 三星电子(中国)研发中心 一种实现语音控制的方法及装置
CN105426224A (zh) * 2015-12-28 2016-03-23 上海银天下科技有限公司 打开应用程序中的web页面的方法及装置
CN106254915A (zh) * 2016-07-29 2016-12-21 乐视控股(北京)有限公司 基于电视终端的交互方法、装置及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827824A (zh) * 2018-08-08 2020-02-21 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN110085224A (zh) * 2019-04-10 2019-08-02 深圳康佳电子科技有限公司 智能终端全程语音操控处理方法、智能终端及存储介质
CN110085224B (zh) * 2019-04-10 2021-06-01 深圳康佳电子科技有限公司 智能终端全程语音操控处理方法、智能终端及存储介质
CN112269556A (zh) * 2020-09-21 2021-01-26 北京达佳互联信息技术有限公司 信息展示方法、装置、系统、设备、服务器及存储介质

Similar Documents

Publication Publication Date Title
US20200388282A1 (en) Intent-specific automatic speech recognition result generation
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
US20180144024A1 (en) Method and apparatus for correcting query based on artificial intelligence
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US20180004729A1 (en) State machine based context-sensitive system for managing multi-round dialog
CN106601257B (zh) 一种声音识别方法、设备和第一电子设备
CN106250474B (zh) 一种语音控制的处理方法及系统
US9984679B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
CN113468302A (zh) 组合共享询问线的多个搜索查询的参数
CN107424609A (zh) 一种语音控制方法及装置
CN111901538B (zh) 一种字幕生成方法、装置、设备及存储介质
CN110890088A (zh) 语音信息反馈方法、装置、计算机设备和存储介质
CN110808038B (zh) 普通话评测方法、装置、设备及存储介质
CN107945802A (zh) 语音识别结果处理方法及装置
CN110059224B (zh) 投影仪设备的视频检索方法、装置、设备及存储介质
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN110136697B (zh) 一种基于多进程/线程并行运算的英语朗读练习系统
CN113901837A (zh) 一种意图理解方法、装置、设备及存储介质
CN108597499A (zh) 语音处理方法以及语音处理装置
CN113628077B (zh) 生成不重复考题的方法、终端及可读存储介质
CN110148414B (zh) 一种语音说法引导方法和装置
CN110543636B (zh) 一种对话系统的训练数据选择方法
CN111859148A (zh) 主题的提取方法、装置、设备及计算机可读存储介质
CN106340293A (zh) 一种音频数据识别结果的调整方法及装置
US20230022515A1 (en) Increasing user engagement through query suggestion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171201

RJ01 Rejection of invention patent application after publication