CN107945796B - 语音识别方法、装置、设备及计算机可读介质 - Google Patents

语音识别方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN107945796B
CN107945796B CN201711117681.XA CN201711117681A CN107945796B CN 107945796 B CN107945796 B CN 107945796B CN 201711117681 A CN201711117681 A CN 201711117681A CN 107945796 B CN107945796 B CN 107945796B
Authority
CN
China
Prior art keywords
instruction
current page
speech recognition
voice
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711117681.XA
Other languages
English (en)
Other versions
CN107945796A (zh
Inventor
刘俊启
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711117681.XA priority Critical patent/CN107945796B/zh
Publication of CN107945796A publication Critical patent/CN107945796A/zh
Application granted granted Critical
Publication of CN107945796B publication Critical patent/CN107945796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明提出一种语音识别方法,包括以下步骤:指令获取步骤,获取与当前页面的业务信息相关联的指令;指令匹配步骤,接收用户输入的语音信息,判断所述语音信息是否与所述指令相匹配;指令执行步骤,若所述语音信息与所述指令相匹配,则显示指令执行结果,同时启动语音交互模式。本发明通过采用动态生成的唤醒词,可以和具体的业务紧密结合,不需要用户特地用固定唤醒词开启语音业务,从而提高用户的体验。另外,本发明还提供了一种语音识别装置、设备和计算机存储介质。

Description

语音识别方法、装置、设备及计算机可读介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及装置、设备和计算机可读介质。
背景技术
随着语音识别的能力的增强,越来越多的场景也应用到了语音识别。而对于语音识别的输入,需要先开启语音输入的功能。常规的开启方式为,在语音设备上设置开启按钮,通过点击该按钮,启动语音识别功能。由于通过点击按钮的方式启动语音识别功能的方式,需要用户额外进行手动操作,这给用户带来不好的体验。
对此,现有技术提供了采用使用固定唤醒词进行启动语音识别的方式。例如,以固定名称“小度小度”等。通过使用对应的唤醒词,进入语音对话。
然而,现有技术都需要使用唤醒词的方案进行语音识别能力开启,虽然不用按钮唤醒语音了,但是仍然需要多说一些特定唤醒词告知语音识别能力开始工作。
发明内容
本发明实施例提供一种语音识别方法、装置、设备及计算机可读介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种语音识别方法,包括以下步骤:
指令获取步骤:获取与当前页面的业务信息相关联的指令;
指令匹配步骤:接收用户输入的语音信息,判断所述语音信息是否与所述指令相匹配;
指令执行步骤:若所述语音信息与所述指令相匹配,则显示指令执行结果,同时启动语音交互模式。
结合第一方面,本发明在第一方面的第一种实现方式中,所述指令获取步骤具体为:接收由服务器生成的与当前页面的业务信息相关联的指令。
结合第一方面,本发明在第一方面的第二种实现方式中,所述指令获取步骤具体为:生成与当前页面的业务信息相关联的指令,并将所述指令发送至服务器。
结合第一方面,本发明在第一方面的第三种实现方式中,所述指令匹配步骤具体为:将接收的语音信息发送至服务器进行比对判断。
结合第一方面,本发明在第一方面的第四种实现方式中,所述指令匹配步骤具体为:对接收的语音信息进行比对判断,并将判断结果发送至服务器。
结合第一方面,本发明在第一方面的第五种实现方式中,所述指令执行步骤之后还包括语音解析步骤:对用户输入的语音解析为对应的指令请求,并将所述指令请求发送给服务器。
结合第一方面第五种实现方式,本发明在第一方面的第六种实现方式中,所述语音解析步骤具体包括:
获取当前页面参数,所述页面参数包括:当前页面展示内容、当前页面X、Y坐标以及当前屏幕大小;
对页面展示的内容进行分词;
根据所述页面参数和分词结果,将用户输入的语音转化为对应的指令。
第二方面,本发明实施例提供了一种语音识别方法,包括以下步骤:
指令获取步骤:获取与当前页面的业务信息相关联的指令;
指令匹配步骤:接收由客户端发送的语音信息,并将该语音信息与所述指令进行匹配判断;
指令执行步骤:若所述语音信息与所述指令相匹配,则执行所述指令操作,将指令执行结果发送至客户端显示。
结合第二方面,本发明在第二方面的第一种实现方式中,所述指令获取步骤具体为:生成与当前页面的业务信息相关联的指令,并将所述指令发送至客户端。
结合第二方面,本发明在第二方面的第二种实现方式中,所述指令获取步骤具体为:接收由客户端生成的与当前页面业务相关联的指令。
第三方面,本发明实施例提供了一种语音识别装置,包括:
第一指令获取单元,用于获取与当前页面的业务信息相关联的指令;
第一指令匹配单元,用于接收用户输入的语音信息,判断所述语音信息是否与所述指令相匹配;
第一指令执行单元,用于若所述语音信息与所述指令相匹配,则显示指令执行结果,同时启动语音交互模式。
结合第三方面,本发明在第三方面的第一种实现方式中,所述第一指令获取单元具体用于接收由服务器生成的与当前页面的业务信息相关联的指令。
结合第三方面,本发明在第三方面的第二种实现方式中,所述第一指令匹配单元具体用于将接收的语音信息发送至服务器进行比对判断。
结合第三方面,本发明在第三方面的第三种实现方式中,所述装置还包括:语音解析单元,用于对用户输入的语音解析为对应的指令请求,并将所述指令请求发送服务器。
结合第三方面的第三种实现方式,本发明在第三方面的第四种实现方式中,所述语音解析单元具体包括:
页面参数获取模块,用于获取当前页面参数,所述页面参数包括:当前页面展示内容、当前页面X、Y坐标以及当前屏幕大小;
分词模块,用于对页面展示的内容进行分词;
指令转化模块,用于根据所述页面参数和分词结果,将用户输入的语音转化为对应的指令。
第四方面,本发明实施例提供一种语音识别装置,包括:
第二指令获取单元,用于获取与当前页面的业务信息相关联的指令;
第二指令判断单元,用于接收由客户端发送的语音信息,并将该语音信息与所述指令进行匹配判断;
第二指令匹配单元,用于若所述语音信息与所述指令相匹配,则执行所述指令操作,将指令执行结果发送至客户端显示。
结合第四方面,本发明在第四方面的第一种实现方式为:所述指令获取单元生成与当前页面的业务信息相关联的指令,并将所述指令发送至客户端。
结合第四方面,本发明在第四方面的第一种实现方式为:所述指令获取单元接收由客户端生成的与当前页面业务相关联的指令。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,语音识别装置的结构中包括处理器和存储器,所述存储器用于存储支持语音识别装置执行上述第一方面和第二方面中语音识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音识别装置还可以包括通信接口,用于语音识别装置与其他设备或通信网络通信。
第五方面,本发明实施例提供了一种计算机可读介质,用于存储语音识别装置所用的计算机软件指令,其包括用于执行上述第一方面中的语音识别方法为语音识别装置所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过采用动态生成的唤醒词,可以和具体的业务紧密结合,不需要用户特地用固定唤醒词开启语音业务,从而提高用户的体验。
上述技术方案中的另一个技术方案具有如下优点或有益效果:可以实现全程语音操作,不用用户手动参与,操作上更加方便。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例一的语音识别方法流程示意图;
图2为本发明实施例一的步骤S140中具体步骤流程图;
图3为本发明实施例四的语音识别方法流程示意图;
图4为本发明实施例五的语音识别装置的连接框图;
图5为本发明实施例五的语音解析单元内部连接框图;
图6为本发明实施例六的语音识别装置的组成结构示意图;
图7为本发明实施例七的语音识别设备的组成结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例旨在解决现有技术中需要使用按钮或者固定唤醒词的方式开启语音识别功能。本发明实施例主要通过采用了动态生成唤醒词的方式,并结合当前页面业务情况,解决现有技术中存在的问题和缺陷。下面分别通过以下实施例进行技术方案的展开描述。
实施例一
如图1所示,本发明实施例一提供了一种语音识别方法,应用于客户端中,包括以下步骤:
S110:指令获取步骤,获取与当前页面的业务信息相关联的指令。具体的,在本实施例中由客户端接收由服务器生成的与当前页面的业务信息相关联的指令。
例如:假设当前页面是一个具备多条检索结果的页面,此时跟页面相关联的指令可以包括:向下翻页、向上翻页、前进、后退、跳转至第几页、进入第几条检索结果等等,也即是动态生成与本页面业务信息相关的指令。关于指令形式可以多种多样,比如:可以“搜索A”,或者“A,搜索”等。所述“A”代表当前页面上的词、或字、或词组等。
结合一个具体例子进行说明,比如说当前页面的内容包括文字:
“就是它啦,萌死人不偿命的设特兰矮马。
设特兰矮马被宠友们又亲切的成为柯基马,原因吗?看看那小短腿,你还不懂。
设特兰矮马集萌、好脾气和好身体于一身,是特别适合作为宠物饲养的马类品种之一。”
那么,先对当前页面的内容进行分词,生成可以发起搜索的关键字或关键词作为语音唤醒词。当用户输入的语音为:“设特兰矮马,是什么马”“设特兰是什么”,“设特兰是什么品种的马”等,则这个“设特兰矮马”则作为当前页面的关键词进行唤醒,并执行对应的搜索操作。
另外,假设当用户仅仅提起“设特兰矮马”,此时启动语音功能,并可以回复“想执行什么操作”。
假设当前页面上有“设特兰矮马”的照片,当用户的语音提到“设特兰矮马”时,也可以进行语音唤醒。也即是可以以“设特兰矮马”作为关键唤醒词,然后再发起后续动作,比如:搜索、翻译、TTS播报等。
进一步,所述指令可以是本地指令,也可以是需要服务器执行的指令。比如,“放大当前字体”,或者“显示当前页面参数”等等,属于可以在本地直接执行的指令。
S120:指令匹配步骤,接收并判断用户输入的语音信息是否与所述指令相匹配。具体的,在本实施例中将接收的语音信息发送至服务器进行比对判断。
例如:客户端收到了“下一页”的这样一条语音信息,则将该语音信息发送至服务器中进行比对判断。当服务器接收到所述语音信息后,与在服务器中动态生成的指令中进行匹配。
S130:指令执行步骤,若所述语音信息与所述指令相匹配,则显示指令执行结果,同时启动语音交互模式。
如果接收的语音信息与生成的指令相匹配,则证明该语音输入的指令为有效指令,则相应由服务器执行该指令内容,同时启动语音交互模式。例如:当接收到的语音信息为“下一页”时,服务器经过比对,发送当前页面的动态生成的指令中包含这样一条指令,则由所述服务器发送下一页的数据至客户端中进行数据显示。同时,客户端也开启语音交互模式,启动语音功能。而如果接收到类似“你好”这样的语音,经过匹配后没有对应的指令,则认为是无效指令,不需要执行任何操作。
所述指令包括需要服务器参与的指令,也包括本地的指令。比如,“搜索A”,则需要向服务器请求数据,然后再将返回的数据进行显示。若“放大当前页面”,则属于本地指令,可以直接由客户端执行,不需要向服务器请求。
S140:语音解析步骤,对用户输入的语音解析为对应的指令请求,并将所述指令请求发送给服务器。
当语音交互功能启动后,此时需要对语音指令进行解析。如果当前访问的服务器内部有对应的语音解析功能,则直接将该语音指令发送至服务器中,由服务器执行对应操作。如果服务器中没有对应的语音解析功能,则需要由客户端将该语音指令转化为可操作的指令请求,并将该指令请求发送至服务器中。
请参阅图2,其为本实施例一的步骤S140中具体步骤流程图。本步骤S140中具体包括以下步骤:
S141:获取当前页面参数,所述页面参数包括:当前页面展示内容、当前页面X、Y坐标以及当前屏幕大小;
S142:对页面展示的内容进行分词;
S143:根据所述页面参数和分词结果,将用户输入的语音转化为对应的指令。
例如,当前用户访问的是某个网站页面,假设而此时用户输入的语音指令是“打开第三行的链接”。如果此时服务器有对应的语音解析系统,则客户端将该语音指令发送至服务器中,直接由服务器执行该语音指令。
而如果此时服务器中没有对应语音识别系统,则需要由客户端根据当前页面的参数将该语音指令转化为操作指令。即:此时客户端对当前页面显示的内容进行识别,找出第三行的链接位置。然后,再发送该链接请求至服务器,由服务器发送对应的数据至客户端进行显示。
又例如接收的语音为“打开体育频道”,则根据页面内容的词语信息,找到包含“体育”对应的链接,然后再请求服务器返回相应的数据。
实施例二
在实施例二中,其与实施例一的区别仅在于步骤S110中获取与当前页面的业务信息相关联的指令的具体实现方式不同,在本实施例二中具体为:在客户端中生成与当前页面的业务信息相关联的指令,并将所述指令发送至服务器,由服务器对所述指令进行匹配。
实施例三
在实施例三中,其与实施例一的区别仅在于步骤S120中接收并判断用户语音输入是否与所述指令相匹配的具体实现方式不同,在本实施例三中具体为:在客户端中对接收的语音信息进行比对判断,并将判断结果发送至服务器,由服务器根据该判断结果执行对应的操作。
实施例四
请参阅图3,其为本实施例四的语音识别方法流程示意图。与实施例一的语音识别方法相对应,本实施例四中,提供了一种应用于服务器的语音识别方法,其具体包括以下步骤:
S210:指令获取步骤,获取与当前页面的业务信息相关联的指令。
具体的,在本实施例四中,所述步骤S210可以在服务器中生成指令,即:在服务器中生成与当前页面的业务信息相关联的指令,并将所述指令发送至客户端。
另外,作为本实施例四的一种变形实施方式,也可以在客户端中生成指令,即:服务器接收由客户端生成的与当前页面业务相关联的指令。
S220:指令匹配步骤,接收由客户端发送的语音信息,并将该语音信息与所述指令进行匹配判断。
S230:指令执行步骤,若所述语音信息与所述指令相匹配,则执行所述指令操作,将指令执行结果发送至客户端显示。
具体的,在本实施例四中的原理和应用过程与实施例一相同,故不再赘述。
实施例五
本实施例五对应实施例一的语音识别方法,提供了一种语音识别装置,具体的方案如下:
请参阅图4,其为本实施例五的语音识别装置的连接框图。本实施例五提供了一种语音识别装置,包括:第一指令获取单元110、第一指令匹配单元120、第一指令执行单元130和语音解析单元140。
所述第一指令获取单元110,用于获取与当前页面的业务信息相关联的指令。
具体的,所述第一指令获取单元110具体用于接收由服务器生成的与当前页面的业务信息相关联的指令。
作为本实施五的一种变形方式,所述第一指令获取单元110具体用于生成与当前页面的业务信息相关联的指令,并将所述指令发送至服务器。
所述第一指令匹配单元120,用于接收并判断用户输入的语音信息是否与所述指令相匹配。
具体的,所述第一指令匹配单元120具体用于将接收的语音信息发送至服务器进行比对判断。
作为本实施例五的另一种变形方式,所述第一指令匹配单元120具体用于对接收的语音信息进行比对判断,并将判断结果发送至服务器。
所述第一指令执行单元130,用于若所述语音信息与所述指令相匹配,则接收并显示服务器的指令执行结果,同时启动语音交互模式。
所述语音解析单元140,用于对用户输入的语音解析为对应的指令请求,并将所述指令请求发送给服务器。
具体的请参阅图5,其为语音解析单元内部连接框图。所述语音解析单元140具体包括:页面参数获取模块141、分词模块142和指令转化模块143。
所述页面参数获取模块141,用于获取当前页面参数。其中,所述页面参数包括:当前页面展示内容、当前页面X、Y坐标以及当前屏幕大小。
所述分词模块142,用于对页面展示的内容进行分词。
所述指令转化模块143,用于根据页面参数和分词结果,将用户输入的语音转化为对应的指令。
本发明实施例所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
实施例六
本实施例六对应实施例四的语音识别方法,提供了一种语音识别装置,具体的方案如下:
请参阅图6,其为本实施例六的语音识别装置的组成结构示意图。本实施例六提供了一种语音识别装置,包括第二指令获取单元210、第二指令判断单元220和第二指令匹配单元230。
所述第二指令获取单元210,用于获取与当前页面的业务信息相关联的指令;
具体的,所述第二指令获取单元210具体用于生成与当前页面业务相关联的指令,并将所述指令发送至客户端。
作为本实施例六的一种变形实施方式,所述第二指令获取单元210具体用于接收由客户端生成的与当前页面业务相关联的指令。
所述第二指令判断单元220,用于接收由客户端发送的语音信息,并将该语音信息与所述指令进行匹配判断。
所述第二指令匹配单元230,用于若所述语音信息与所述指令相匹配,则执行所述指令操作,将指令执行结果发送至客户端显示。
本发明实施例所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
实施例七
本发明实施例七提供一种语音识别设备,如图7所示,该设备包括:存储器31和处理器32,存储器31内存储有可在处理器32上运行的计算机程序。处理器32执行所述计算机程序时实现上述实施例中的语音识别方法。存储器31和处理器32的数量可以为一个或多个。
该设备还包括:
通信接口33,用于与外界设备进行通信,进行数据交互传输。
存储器31可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器31、处理器32和通信接口33独立实现,则存储器31、处理器32和通信接口33可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器31、处理器32及通信接口33集成在一块芯片上,则存储器31、处理器32及通信接口33可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,通过实施本发明实施例的方案,通过采用动态生成的唤醒词,可以和具体的业务紧密结合,不需要用户特地用固定唤醒词开启语音业务,从而提高用户的体验。
另外,本发明实施例还可以实现全程语音操作,不用用户手动参与,操作上更加方便。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种语音识别方法,其特征在于,包括以下步骤:
指令获取步骤:获取动态生成的与当前页面的业务信息相关联的指令,其中所述指令包括根据当前页面的内容生成的用于唤醒所述当前页面的关键词;
指令匹配步骤:接收用户输入的语音信息,判断所述语音信息是否与所述指令相匹配;
指令执行步骤:若所述语音信息与所述指令相匹配,则显示指令执行结果,同时启动语音交互模式。
2.根据权利要求1所述语音识别方法,其特征在于,所述指令获取步骤具体为:接收由服务器根据当前页面的内容,动态生成的与当前页面的业务信息相关联的指令。
3.根据权利要求1所述语音识别方法,其特征在于,所述指令获取步骤具体为:根据当前页面的内容,动态生成与当前页面的业务信息相关联的指令,并将所述指令发送至服务器。
4.根据权利要求1所述语音识别方法,其特征在于,所述指令匹配步骤具体为:将接收的语音信息发送至服务器进行比对判断。
5.根据权利要求1所述语音识别方法,其特征在于,所述指令匹配步骤具体为:对接收的语音信息进行比对判断,并将判断结果发送至服务器。
6.根据权利要求1所述语音识别方法,其特征在于,所述指令执行步骤之后还包括语音解析步骤:对用户输入的语音解析为对应的指令请求,并将所述指令请求发送给服务器。
7.根据权利要求6所述语音识别方法,其特征在于,所述语音解析步骤具体包括:
获取当前页面参数,所述页面参数包括:当前页面展示内容、当前页面X、Y坐标以及当前屏幕大小;
对页面展示的内容进行分词;
根据所述页面参数和分词结果,将用户输入的语音转化为对应的指令。
8.一种语音识别方法,其特征在于,包括以下步骤:
指令获取步骤:获取动态生成的与当前页面的业务信息相关联的指令,其中所述指令包括根据当前页面的内容生成的用于唤醒所述当前页面的关键词;
指令匹配步骤:接收由客户端发送的语音信息,并将该语音信息与所述指令进行匹配判断;
指令执行步骤:若所述语音信息与所述指令相匹配,则执行所述指令操作,将指令执行结果发送至客户端显示。
9.根据权利要求8所述语音识别方法,其特征在于,所述指令获取步骤具体为:根据当前页面的内容,动态生成与当前页面的业务信息相关联的指令,并将所述指令发送至客户端。
10.根据权利要求8所述语音识别方法,其特征在于,所述指令获取步骤具体为:接收由客户端根据当前页面的内容,动态生成的与当前页面的业务信息相关联的指令。
11.一种语音识别装置,其特征在于,包括:
第一指令获取单元,用于获取动态生成的与当前页面的业务信息相关联的指令,其中所述指令包括根据当前页面的内容生成的用于唤醒所述当前页面的关键词;
第一指令匹配单元,用于接收用户输入的语音信息,判断所述语音信息是否与所述指令相匹配;
第一指令执行单元,用于若所述语音信息与所述指令相匹配,则显示指令执行结果,同时启动语音交互模式。
12.根据权利要求11所述语音识别装置,其特征在于,所述第一指令获取单元具体用于接收由服务器根据当前页面的内容,动态生成的与当前页面的业务信息相关联的指令。
13.根据权利要求11所述语音识别装置,其特征在于,所述第一指令匹配单元具体用于将接收的语音信息发送至服务器进行比对判断。
14.根据权利要求11所述语音识别装置,其特征在于,所述装置还包括:语音解析单元,用于对用户输入的语音解析为对应的指令请求,并将所述指令请求发送服务器。
15.根据权利要求14所述语音识别装置,其特征在于,所述语音解析单元具体包括:
页面参数获取模块,用于获取当前页面参数,所述页面参数包括:当前页面展示内容、当前页面X、Y坐标以及当前屏幕大小;
分词模块,用于对页面展示的内容进行分词;
指令转化模块,用于根据所述页面参数和分词结果,将用户输入的语音转化为对应的指令。
16.一种语音识别装置,其特征在于,包括:
第二指令获取单元,用于获取动态生成的与当前页面的业务信息相关联的指令,其中所述指令包括根据当前页面的内容生成的用于唤醒所述当前页面的关键词;
第二指令判断单元,用于接收由客户端发送的语音信息,并将该语音信息与所述指令进行匹配判断;
第二指令匹配单元,用于若所述语音信息与所述指令相匹配,则执行所述指令操作,将指令执行结果发送至客户端显示。
17.根据权利要求16所述语音识别装置,其特征在于,所述第二指令获取单元根据当前页面的内容,动态生成与当前页面的业务信息相关联的指令,并将所述指令发送至客户端。
18.根据权利要求16所述语音识别装置,其特征在于,所述第二指令获取单元接收由客户端根据当前页面的内容,动态生成的与当前页面业务相关联的指令。
19.一种语音识别设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-10中任一所述的语音识别方法。
20.一种计算机可读介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的语音识别方法。
CN201711117681.XA 2017-11-13 2017-11-13 语音识别方法、装置、设备及计算机可读介质 Active CN107945796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711117681.XA CN107945796B (zh) 2017-11-13 2017-11-13 语音识别方法、装置、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711117681.XA CN107945796B (zh) 2017-11-13 2017-11-13 语音识别方法、装置、设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN107945796A CN107945796A (zh) 2018-04-20
CN107945796B true CN107945796B (zh) 2021-05-25

Family

ID=61934933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711117681.XA Active CN107945796B (zh) 2017-11-13 2017-11-13 语音识别方法、装置、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN107945796B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544473B (zh) 2018-05-28 2022-11-08 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN109119075A (zh) * 2018-07-25 2019-01-01 北京小米移动软件有限公司 语音识别场景唤醒方法及装置
CN110795011A (zh) * 2018-08-03 2020-02-14 珠海金山办公软件有限公司 一种页面切换的方法、装置、计算机存储介质及终端
CN109243450A (zh) * 2018-10-18 2019-01-18 深圳供电局有限公司 一种交互式的语音识别方法及系统
CN111383631B (zh) * 2018-12-11 2024-01-23 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN110147216A (zh) * 2019-04-16 2019-08-20 深圳壹账通智能科技有限公司 应用程序的页面切换方法、装置、计算机设备和存储介质
CN111292742A (zh) * 2020-01-14 2020-06-16 京东数字科技控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN113327606A (zh) * 2020-02-28 2021-08-31 浙江宇视科技有限公司 一种业务处理方法、装置、设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621547A (zh) * 2002-02-07 2010-01-06 Sap股份公司 从用户处接收输入或地址项目的方法和设备
CN101895635A (zh) * 2010-07-15 2010-11-24 优视科技有限公司 基于移动终端的图片转换方法及装置
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
CN103674012A (zh) * 2012-09-21 2014-03-26 高德软件有限公司 语音定制方法及其装置、语音识别方法及其装置
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
CN106157955A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
CN106325873A (zh) * 2016-08-26 2017-01-11 乐视控股(北京)有限公司 多窗口页面显示处理方法及装置
CN106373570A (zh) * 2016-09-12 2017-02-01 深圳市金立通信设备有限公司 一种语音控制方法及终端
CN106462617A (zh) * 2014-06-30 2017-02-22 苹果公司 用于电视机用户交互的智能自动化助理
CN106899679A (zh) * 2017-03-07 2017-06-27 腾讯科技(深圳)有限公司 终端处理业务数据的方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
JP6027476B2 (ja) * 2013-03-28 2016-11-16 Kddi株式会社 対話シナリオに動的対話ノードを挿入する対話プログラム、サーバ及び方法
US20150117674A1 (en) * 2013-10-24 2015-04-30 Samsung Electronics Company, Ltd. Dynamic audio input filtering for multi-device systems
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
US9792825B1 (en) * 2016-05-27 2017-10-17 The Affinity Project, Inc. Triggering a session with a virtual companion
CN106098059B (zh) * 2016-06-23 2019-06-18 上海交通大学 可定制语音唤醒方法及系统
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621547A (zh) * 2002-02-07 2010-01-06 Sap股份公司 从用户处接收输入或地址项目的方法和设备
CN101895635A (zh) * 2010-07-15 2010-11-24 优视科技有限公司 基于移动终端的图片转换方法及装置
CN103674012A (zh) * 2012-09-21 2014-03-26 高德软件有限公司 语音定制方法及其装置、语音识别方法及其装置
CN103474068A (zh) * 2013-08-19 2013-12-25 安徽科大讯飞信息科技股份有限公司 实现语音命令控制的方法、设备及系统
CN106462617A (zh) * 2014-06-30 2017-02-22 苹果公司 用于电视机用户交互的智能自动化助理
CN104318924A (zh) * 2014-11-12 2015-01-28 沈阳美行科技有限公司 一种实现语音识别功能的方法
CN106157955A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
CN106325873A (zh) * 2016-08-26 2017-01-11 乐视控股(北京)有限公司 多窗口页面显示处理方法及装置
CN106373570A (zh) * 2016-09-12 2017-02-01 深圳市金立通信设备有限公司 一种语音控制方法及终端
CN106899679A (zh) * 2017-03-07 2017-06-27 腾讯科技(深圳)有限公司 终端处理业务数据的方法及装置

Also Published As

Publication number Publication date
CN107945796A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107945796B (zh) 语音识别方法、装置、设备及计算机可读介质
CN109378000B (zh) 语音唤醒方法、装置、系统、设备、服务器及存储介质
US10783364B2 (en) Method, apparatus and device for waking up voice interaction function based on gesture, and computer readable medium
CN108319489B (zh) 应用页面的启动方法、装置、存储介质及电子设备
CN109871165B (zh) 表情回应的显示方法、装置、终端设备和服务器
US9363551B2 (en) TV program identification method, apparatus, terminal, server and system
CN106888236B (zh) 会话管理方法及会话管理装置
US20190228212A1 (en) Wakeup method, apparatus and device based on lip reading, and computer readable medium
US20200151258A1 (en) Method, computer device and storage medium for impementing speech interaction
CN110196927B (zh) 一种多轮人机对话方法、装置及设备
CN106358059B (zh) 一种多媒体信息处理方法、设备及系统
CN111884908B (zh) 联系人标识显示方法、装置及电子设备
WO2022042609A1 (zh) 提取热词的方法、装置、电子设备及介质
CN112463106A (zh) 基于智能屏幕的语音交互方法、装置、设备及存储介质
CN109168091A (zh) 一种直播间中的连麦方法、装置、设备及存储介质
CN112331213A (zh) 智能家居设备控制方法、装置、电子设备及存储介质
CN109635167A (zh) 快递运单号的查询方法、装置、设备及存储介质
CN112637619B (zh) 直播间置顶消息确定方法、装置、设备和存储介质
JP7462070B2 (ja) インタラクション情報処理方法、装置、電子デバイス及び記憶媒体
US20220374618A1 (en) Interaction information processing method and apparatus, device, and medium
CN108566328B (zh) 数据传输方法、装置、介质及电子设备
CN113823282A (zh) 语音处理方法、系统和装置
CN112383666B (zh) 内容发送方法、装置和电子设备
CN113726584A (zh) 消息发送方法、装置和电子设备
CN112634891A (zh) 识别码响应方法、装置、车载终端以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant