CN106373574A

CN106373574A - 语音识别处理方法及装置

Info

Publication number: CN106373574A
Application number: CN201610792328.0A
Authority: CN
Inventors: 王璟瑶
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-01

Abstract

本发明实施例提供了一种语音识别处理方法及装置。在本发明实施例提供的语音识别处理方法中，浏览器内核在检测到用户触发语音标签后向框架层单元发送语音识别请求，框架层单元通过语音识别工具包将语音识别请求中的语音数据识别并返回给浏览器内核，以使浏览器内核显示识别结果，从而使得用户无需播放语音标签的声音就可以了解网页中语音内容，能够在某些安静的场景下无阻碍的浏览网页中的任何信息，为用户浏览网页带来便利。

Description

语音识别处理方法及装置

技术领域

本发明实施例涉及智能终端技术领域，尤其涉及一种语音识别处理方法及装置。

背景技术

随着信息技术的进步和居民收入的增加，智能终端的普及率大大提高。目前的智能终端能够支持越来越多的功能，使得人们可以使用智能终端进行各式各样的操作。其中，通过智能终端中的浏览器访问网页，是人们获取各类信息的常用手段之一。人们只需在浏览器的搜索栏中输入待访问网页的网址，浏览器就可以通过移动网络访问发布该网页内容的网站服务器，从而使得人们可以通过浏览器浏览该网页发布的内容。

现有的网站服务器发布的网页内容中，除了包含文字以及图片，有时候还包含语音链接。然而，在实现本发明实施例的过程中发明人发现，当用户处于不方便播放声音的环境中时，例如办公室或图书馆等等，为保持安静，用户只能阅读网页中的文字或图片，而不能播放语音链接，从而无法获知网页中语音链接里所包含的语音内容，为用户在这一环境下浏览网页造成了很大的不便。

发明内容

本发明实施例提供一种语音识别处理方法及装置，用以解决现有技术中浏览器在不播放语音链接的情况下无法获知语音内容的缺陷。

第一方面，本发明实施例提供了一种语音识别处理方法，包括：

浏览器的内核单元若检测到用户对网页中的语音标签的触发操作，向所述浏览器的框架层单元发送语音识别请求，所述语音识别请求包括所述语音标签对应的音频数据地址；

所述浏览器的框架层单元获取预设的语音识别工具包以及根据所述语音标签对应的音频数据地址获取存储在所述音频数据地址的语音数据，并应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果；

所述浏览器的框架层单元向所述浏览器的内核单元返回所述识别结果；

所述浏览器的内核单元将所述识别结果显示在所述浏览器的用户界面层。

可选地，所述浏览器的框架层单元应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果包括：

所述浏览器的框架层单元建立音频代理和语音播放器，所述语音播放器与获取的所述语音识别工具包对接；

所述音频代理将所述语音数据发送给所述语音播放器

所述语音播放器应用对接的所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。

所述浏览器的框架层单元建立音频代理；

所述音频代理在浏览器的用户界面层建立语音播放器，所述语音播放器与获取的所述语音识别工具包对接；

所述音频代理将所述语音数据发送给所述语音播放器；

可选地，所述浏览器的框架层单元向所述浏览器的内核单元返回所述识别结果包括：

所述语音播放器将所述识别结果发送给所述音频代理；

所述音频代理将所述识别结果返回给所述浏览器的内核单元。

可选地，所述识别结果为文本信息。

可选地，所述浏览器的内核单元将所述识别结果显示在浏览器的用户界面层上包括：

浏览器的内核单元在所述用户界面层上生成一个浮窗，在所述浮窗中显示所述文本信息。

第二方面，本发明实施例提供了一种语音识别处理装置，应用于浏览器，包括所述浏览器的内核单元和所述浏览器的框架层单元；

所述浏览器的内核单元，用于在检测到用户对网页中的语音标签的触发操作时，则向所述浏览器的框架层单元发送语音识别请求，所述语音识别请求包括所述语音标签对应的音频数据地址；还用于将所述浏览器的框架层单元返回的识别结果显示在所述浏览器的用户界面层上；

所述浏览器的框架层单元，用于获取预设的语音识别工具包以及根据所述语音标签对应的音频数据地址获取存储在所述音频数据地址的语音数据，并应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果，并向所述浏览器内核单元发送所述识别结果。

可选地，所述浏览器的框架层单元，还用于建立音频代理和语音播放器，所述语音播放器与获取的所述语音识别工具包对接；其中，所述音频代理用于将所述语音数据发送给所述语音播放器；所述语音播放器用于应用对接的所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。

可选地，所述浏览器的框架层单元，还用于建立音频代理；

其中，所述音频代理，用于在浏览器的用户界面层建立语音播放器，将所述语音数据发送给所述语音播放器，所述语音播放器与获取的所述语音识别工具包对接；

所述语音播放器，用于应用对接的所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。

可选地，所述语音播放器还用于将所述识别结果发送给所述音频代理；

所述音频代理还用于将所述识别结果返回给所述浏览器的内核单元。

可选地，所述识别结果为文本信息。

可选地，浏览器的内核单元，还用于在所述用户界面层生成一个浮窗，在所述浮窗中显示所述文本信息。

本发明实施例提供的语音识别处理方法及装置中，浏览器内核在检测到用户触发语音标签后向框架层单元发送语音识别请求，框架层单元通过语音识别工具包将语音识别请求中的语音数据识别并返回给浏览器内核，以使浏览器内核显示识别结果，从而使得用户无需播放语音标签的声音就可以了解网页中语音内容，能够在某些安静的场景下无阻碍的浏览网页中的任何信息，为用户浏览网页带来便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种浏览器结构实施例示意图；

图2为本发明提供的一种语音识别处理方法实施例流程图；

图3为图1所示的方法中步骤S201的方法实施例流程图；

图4为本发明提供的一种浏览器结构具体实施例示意图；

图5为本发明提供的一种语音识别处理方法装置实施例结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于理解，首先对本发明实施例涉及到的浏览器的框架结构进行详细说明。如图1所示，本发明实施例涉及到的浏览器10包括用户界面层11、框架层单元12以及内核单元13。其中，用户界面层11主要用于向用户显示浏览器界面；框架层单元主要用于根据各种协议向浏览器的外界获取资源；内核单元13主要用于根据用户对浏览器的各类触发操作产生不同的响应。

该浏览器10可预装在终端设备中，例如，该终端设备包含但不限于：手机、平板电脑和电视等。

基于上述内容，第一方面，本发明实施例提供了一种语音识别处理方法，该方法实现了对接收到的通话对方的语音信息的处理，该方法的执行主体例如可以为浏览器10，如图2所示，该方法例如可以包括：

S101、浏览器的内核单元13若检测到用户对网页中的语音标签的触发操作，向浏览器的框架层单元12发送语音识别请求，语音识别请求包括语音标签对应的音频数据地址。

具体来说，用户在浏览网页时，会遇到带有语音链接的网站，若浏览器所在的终端当前处于静音模式或震动模式下，则认为用户此时处在不便于播放声音的环境中。此时浏览器内核单元13在检测到用户对网页中的语音标签进行了触发操作之后，则认为当前用户想要对该网页上的该语音标签所标识的一段语音进行识别，浏览器内核单元13向框架层单元12发送语音识别请求。其中，这里的语音识别请求包括该语音标签对应的音频数据地址，例如，可以为音频数据的URL地址。

当然，如果终端当前不处于静音或震动模式，但用户对音频标签进行了预设的触控操作，此时也可以认为用户不方便播放声音，则浏览器内核单元13向框架层单元12发送语音识别请求。其中，这里预设的触控操作可以根据实际情况设置，比如，长按语音标签或重力按压语音标签，再例如，点击标签之后弹出浮窗，浮窗中包含进行语音识别的选项，点击该选项便可以执行语音识别操作。本发明对此不作具体限定。

S102、浏览器的框架层单元获取预设的语音识别工具包以及根据所述语音标签对应的音频数据地址获取存储在所述音频数据地址的语音数据，并应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。

具体来说，在收到浏览器的内核单元13发送的语音识别请求之后，框架层单元12将获取预设的语音识别工具包，也即根据某一特定的协议(例如可以根据TCP/IP协议)从浏览器外界(例如某一预设IP的服务器，该服务器存储有该语音识别工具包文件、压缩包或安装包等等)获取预设的语音识别工具包。该语音识别工具包具有语音识别、语义语法分析等功能。框架层单元12首先根据语音识别请求中包含的语音数据地址获取语音数据，再对语音数据进行语音识别，将其中的语音根据预设的语义语法规则进行识别，从而得到识别结果。

S103、浏览器的框架层单元12向浏览器的内核单元13返回识别结果。

可以理解的是，由于只有内核单元1313才能对识别结果进行进一步的控制与处理，因此这里在浏览器的框架层单元1212获得了识别结果之后，可以将将识别结果返回给浏览器的内核单元1313。

S104、浏览器的内核单元13将识别结果显示在浏览器的用户界面层11。

具体来说，在获取了语音识别结果之后，框架层单元12将识别结果发送至浏览器内核单元13，浏览器内核单元13接收到识别结果后将以预设的形式展现在浏览器的用户界面上，从而使得用户能够在不播放语音声音的情况下了解语音标签中的语音内容。

本发明实施例提供的语音识别处理方法中，浏览器内核单元13在检测到用户触发语音标签后向框架层单元12发送语音识别请求，框架层单元12通过语音识别工具包将语音识别请求中的语音数据识别并返回给浏览器内核单元13，以使浏览器内核单元13显示识别结果，从而使得用户无需播放语音标签的声音就可以了解网页中语音内容，能够在某些安静的场景下无阻碍的浏览网页中的任何信息，为用户浏览网页带来便利。

在具体实施时，上述方法实施例的步骤S102可以有多种实现的方式。下面对其中一种可选的实施方式进行详细说明。如图3所示，步骤S102可以具体包括：

S1021、浏览器的框架层单元建立音频代理12a；

具体来说，如图4所示，浏览器的框架层单元12首先建立音频代理12a(AudioProxy)。其中，这里的音频代理12a可以理解为嵌入在浏览器中的一个插件。

S1023、音频代理在浏览器的用户界面层建立语音播放器，并将语音数据发送给语音播放器；

音频代理12a会在用户界面层11也即UI层建立语音播放器11a，其中，这里的语音播放器11a用于识别语音数据。

S1025、语音播放器与获取的语音识别工具包对接，并应用对接的语音识别工具包对语音数据进行识别；

在语音播放器11a获取了语音数据之后，语音播放器11a可以与语音识别工具包对接，

语音播放器11a调用语音识别工具包，由语音识别工具包对该语音数据进行语音识别，并从语音识别工具包处获取识别结果。

S1027、音频播放器将识别结果发送给音频代理。

当然，需要说明的是，语音播放器11a也可以建立在浏览器框架层，即在浏览器框架层建立音频代理12a以及语音播放器11a。则步骤S102可以具体包括：

S1022、浏览器的框架层单元建立音频代理12a和音频播放器11a；

S1024、音频代理将语音数据发送给语音播放器；

S1026、语音播放器与获取的语音识别工具包对接，并应用对接的语音识别工具包对语音数据进行识别；

S1028、音频播放器将识别结果发送给音频代理。

相应地，在上述步骤S102的一种实施方式的基础上，步骤S103的一种可选的实施方式可以包括：

S1031、语音播放器11a将识别结果发送给音频代理；

S1032：音频代理12a将识别结果返回给浏览器的内核单元13。

具体来说，在框架层单元12获取音频内容的识别结果之后，可以通过在框架层单元12建立的音频代理将该识别结果返回给浏览器内核单元13，以供浏览器内核单元13将识别结果按预设的方式显示在浏览器的用户界面层上，使用户能够获知语音标签内包含的语音内容。

这样做的好处是，通过音频代理建立的语音播放器与语音识别工具包进行对接，使得浏览器的框架层单元12可以从音频识别的任务中解脱出来，只需向UI层或浏览器内核单元13传输信息即可，从而可以提高浏览器的性能，提升浏览器运行的流畅性。

在具体实施时，上述方法实施例中的识别结果可以为文本信息。可以理解的是，这里的文本信息可以根据不同的语音内容显示相应的语言文字或数字符号。例如若语音内容为汉语或英语，则文本信息即为相对应的汉语句子或英语句子；若语音内容为用英语或汉语表述的数字，则文本信息即为相对应的数字；若语音内容为利用某种语言表述的特殊符号，例如语音的内容为“乘号”，则文本信息即为相对应的符号“×”。当然，识别结果还可能有多种多样的形式，而文本信息也会存在相应的易于用户理解的多种形式，在这里本发明对此不作具体限定。

进一步地，在上述方法实施例的基础上，为了便于用户查看识别记录，在具体实施时，当浏览器内核接收到文本信息也即识别结果后，浏览器内核可以在用户界面层生成一个浮窗，并在浮窗中显示接收到的文本信息，以使用户可以在不便于播放声音的情况下得知通过该文本信息获知该语音标签中的语音内容，为用户使用提供便利。

第二方面，本发明实施例还提供了一种语音识别处理装置，如图5所示，具体包括浏览器内核单元301和框架层单元302；

其中，浏览器的内核单元301若检测到用户对网页中的语音标签的触发操作，向浏览器的框架层单元302发送语音识别请求，语音识别请求包括语音标签对应的音频数据地址；还用于将所述浏览器的框架层单元返回的识别结果显示在所述浏览器的用户界面层上；

浏览器的框架层单元302获取预设的语音识别工具包以及根据所述语音标签对应的音频数据地址获取存储在所述音频数据地址的语音数据，并应用语音识别工具包对所述语音数据进行语音识别，获得识别结果，向浏览器的内核单元301返回识别结果。

具体来说，浏览器内核单元301在检测到用户对网页中的语音标签的进行了触发操作之后，则向框架层单元302发送语音识别请求。其中，这里的语音识别请求包括该语音标签对应的音频数据地址，例如，可以为音频数据的URL地址。在收到浏览器内核发送的语音识别请求之后，框架层单元302将获取预设的语音识别工具包，其中，该语音识别工具包具有语音识别、语义语法分析等功能。框架层单元302应用该语音识别工具包首先根据语音识别请求中包含的语音数据地址获取语音数据，再对语音数据进行语音识别，将其中的语音根据预设的语义语法规则识别为文字，从而得到识别结果。在获取了语音识别结果之后，框架层单元302将识别结果发送至浏览器内核301，浏览器内核301接收到识别结果后将以预设的形式展现在浏览器的用户界面上，从而使得用户能够在不播放语音声音的情况下了解语音标签中的语音内容。

本发明实施例提供的语音识别处理装置中，浏览器内核301在检测到用户触发语音标签后向框架层单元302发送语音识别请求，框架层单元302通过语音识别工具包将语音识别请求中的语音数据识别并返回给浏览器内核301，以使浏览器内核301显示识别结果，从而使得用户无需播放语音标签的声音就可以了解网页中语音内容，能够在某些安静的场景下无阻碍的浏览网页中的任何信息，为用户浏览网页带来便利。

在具体实施时，所述浏览器的框架层单元，还用于建立音频代理；

所述语音播放器，用于应用对接的所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。具体来说，框架层单元302首先建立音频代理，该音频代理会在用户界面层也即UI层建立语音播放器，音频代理将语音数据发送给语音播放器，语音播放器应用语音识别工具包对由语音播放器读取的语音数据进行语音识别，获取识别结果。这样做的好处是，通过建立音频代理以及音频代理建立的语音播放器与语音识别工具包进行对接，使得浏览器的框架层单元302可以从音频识别的任务中解脱出来，只需向UI层或浏览器内核传输信息即可，从而可以提高浏览器的性能，提升浏览器运行的流畅性。

进一步地，这里的框架层单元302还可以通过音频代理将识别结果返回给所述浏览器内核单元。具体来说，在框架层单元302获取音频内容的识别结果之后，可以通过在框架层建立的音频代理将该识别结果返回给浏览器内核单元301，以供浏览器内核单元301将识别结果按预设的方式显示在浏览器的用户界面层上，使用户能够获知语音标签内包含的语音内容。

在具体实施时，浏览器的框架层单元302，还用于建立音频代理和语音播放器，所述语音播放器与获取的所述语音识别工具包对接；其中，所述音频代理用于将所述语音数据发送给所述语音播放器；所述语音播放器用于应用对接的所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。

在具体实施时，上述装置实施例的中的识别结果可以为文本信息。该文本信息与识别结果的语种类型相对应，对此前文中已经进行了详细说明，在此不再赘述。

进一步地，在上述装置实施例的基础上，为了便于用户查看识别记录，在具体实施时，当浏览器内核单元301接收到文本信息也即识别结果后，浏览器内核单元301还可以生成一浮窗，并在浮窗中显示接收到的文本信息，以使用户可以在不便于播放声音的情况下得知通过该文本信息获知该语音标签中的语音内容，为用户使用提供便利。

由于本实施例所介绍的语音识别处理装置为可以执行本发明实施例中的语音识别处理方法的装置，故而基于本发明实施例中所介绍的语音识别处理方法，本领域所属技术人员能够了解本实施例的语音识别处理装置的具体实施方式以及其各种变化形式，所以在此对于该语音识别处理装置如何实现本发明实施例中的语音识别处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音识别处理方法所采用的装置，都属于本申请所欲保护的范围。

不难理解的是，上述实施例中的举例说明只是为了便于更好地理解本发明实施例提供的方法或装置，并不能构成对本发明的具体限定。且上述的各个优选实施方式之间不会相互影响，各个优选实施方式之间的任意组合所得到的方案均应该落入本发明的保护范围。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述浏览器的框架层单元应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果包括：

所述音频代理将所述语音数据发送给所述语音播放器；

3.根据权利要求1所述的方法，其特征在于，所述浏览器的框架层单元应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果包括：

所述浏览器的框架层单元建立音频代理；

所述音频代理将所述语音数据发送给所述语音播放器；

4.根据权利要求2或3所述的方法，其特征在于，所述浏览器的框架层单元向所述浏览器的内核单元返回所述识别结果包括：

所述语音播放器将所述识别结果发送给所述音频代理；

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述识别结果为文本信息。

6.根据权利要求5所述的方法，其特征在于，所述浏览器的内核单元将所述识别结果显示在浏览器的用户界面层上包括：

7.一种语音识别处理装置，其特征在于，应用于浏览器，包括所述浏览器的内核单元和所述浏览器的框架层单元；

所述浏览器的框架层单元，获取预设的语音识别工具包以及根据所述语音标签对应的音频数据地址获取存储在所述音频数据地址的语音数据，并应用所述语音识别工具包对所述语音数据进行语音识别，获得识别结果，并向所述浏览器内核单元返回所述识别结果。

8.根据权利要求7所述的装置，其特征在于，

所述浏览器的框架层单元，还用于建立音频代理和语音播放器，所述语音播放器与获取的所述语音识别工具包对接；

其中，所述音频代理用于将所述语音数据发送给所述语音播放器；所述语音播放器用于应用对接的所述语音识别工具包对所述语音数据进行语音识别，获得识别结果。

9.根据权利要求7所述的装置，其特征在于，

所述浏览器的框架层单元，还用于建立音频代理；

10.根据权利要求8或9所述的装置，其特征在于，

所述语音播放器还用于将所述识别结果发送给所述音频代理；

11.根据权利要求7-10中任一项所述的装置，其特征在于，所述识别结果为文本信息。

12.根据权利要求10所述的装置，其特征在于，

浏览器的内核单元，还用于在所述用户界面层生成一个浮窗，在所述浮窗中显示所述文本信息。