CN106356057A

CN106356057A - 一种基于计算机应用场景语义理解的语音识别系统

Info

Publication number: CN106356057A
Application number: CN201610712612.2A
Authority: CN
Inventors: 冯海洪; 毛德平
Original assignee: Anhui Mic Technology Co Ltd
Current assignee: Anhui Mic Technology Co Ltd
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2017-01-25

Abstract

本发明公开了一种基于计算机应用场景语义理解的语音识别系统，包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块；本发明使用语音采集模块采集用户语音指令，经语音处理模块形成音频文件，使用语音识别模块将音频文件转换为文字信息，使用身份识模块识别用户身份，经语义理解模块对文字信息进行理解，采用命令执行模块执行相关操作，通过设计基于计算机应用场景的语义理解模块，大大提高了语音识别的智能化程度，让用户获得更加自然的交互体验，提高了语音识别的准确率。

Description

一种基于计算机应用场景语义理解的语音识别系统

技术领域

本发明属于语音识别技术领域，涉及一种语音识别系统，具体是一种基于计算机应用场景语义理解的语音识别系统。

背景技术

场景应用，是指“现场的、互动的、有生命力的场景移动应用”。据悉，场景应用(LiveApp)由云来团队于2012年初自主创新研发而成，它是基于移动互联网的连接引擎技术,是移动互联网一种全新基于用户场景的信息连接方式。鉴于移动互联网用户思维的产品设计理念，场景应用迎合了手机用户的使用习惯，为用户提供极致简单的连接和体验方式。

场景应用(LiveApp)从传播属性来说，它以社交网络为传播路径，极速连接用户，重构企业与用户之间的商业关系。可以连接微信、微博、来往、易信、百度、浏览器、UC、Line、whatsapp、facebook、googlemobile，同时通过二维码、图形二维码、声波识别无缝连接用户和商品。

场景应用主要体现在针对特定客户、特定时间点，出于某一特定情感诉求而产生的应用访问和体验。而计算机应用场景语义理解则是针对特定用户、特定时间点，出于某一特定目的而产生的语音指令，对用户语音的文本信息进行理解。

发明内容

本发明的目的在于提供一种智能程度和准确率高的基于计算机应用场景语义理解的语音识别系统。

本发明的目的可以通过以下技术方案实现：

基于计算机应用场景语义理解的语音识别系统，包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块；

所述的语音采集模块，安装在用户鼠标内，用于采集用户说话的声音信号，并通过USB输出到语音处理模块；

所述的语音处理模块，安装在本地计算机内，用于将接收到用户说话的声音信号转换为数字信号，生成音频文件，通过以太网输出到语音识别模块和用户识别模块；

所述的语音识别模块，安装在线语音识别服务器内，用于将接收到的音频文件转换为文字信息，并发送到语义理解模块，同时获取音频文件中话音的声纹特征发送给用户身份识别单元；

所述的用户识别模块，安装在在线语音识别服务器内，用于根据声纹特征识别出对应的用户身份，并发送给语义理解模块；

所述的语义理解模块，安装在在线语音识别服务器内，根据接收到的文字信息和用户身份信息，基于计算机应用场景，根据特定用户、特定时间点、出于某一特定目的而产生的语音命令判断文字的内涵，理解用户的真实意图，通过以太网输出语义分析信息包到命令执行模块；其中，所述的语义分析信息包包含操作域和内容域；

所述的命令执行模块，安装在本地计算机内，根据接收到语义分析信息包里的操作域，执行不同的操作动作，并将语义分析信息包里的内容域作为该操作动作的参数。

进一步地，所述的语音采集使用麦克风采集用户声音信号，所述的麦克风通过安装在鼠标上的语音按键控制启动和关闭。

本发明的有益效果：本发明使用语音采集模块采集用户语音指令，经语音处理模块形成音频文件，使用语音识别模块将音频文件转换为文字信息，使用身份识模块识别用户身份，经语义理解模块对文字信息进行理解，采用命令执行模块执行相关操作，通过设计基于计算机应用场景的语义理解模块，大大提高了语音识别的智能化程度，让用户获得更加自然的交互体验，提高了语音识别的准确率。

附图说明

下面结合附图和具体实施例对本发明作进一步详细描述。

图1是本发明的系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于计算机应用场景语义理解的语音识别系统，包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块。

语音采集模块，安装在用户鼠标内，用于采集用户说话的声音信号，并通过USB输出到语音处理模块。其中，语音采集使用麦克风采集用户声音信号，通过安装在鼠标上的语音按键控制麦克风启动和关闭。

语音处理模块，安装在本地计算机内，用于将接收到用户说话的声音信号转换为数字信号，生成音频文件，通过以太网输出到语音识别模块和用户识别模块。

语音识别模块，安装在线语音识别服务器内，用于将接收到的音频文件转换为文字信息，并发送到语义理解模块，同时获取音频文件中话音的声纹特征发送给用户身份识别单元。语音识别模块通过抽取音频文件中话音所具有的频谱等物理特征，与预先存储的母音、子音或单词的物理特征模型进行比较，从而将语音转换为文字信息。

用户识别模块，安装在在线语音识别服务器内，用于根据声纹特征识别出对应的用户身份，并发送给语音理解模块。而对于语音识别的身份确认技术，其原理是每个人的生物特征不同，用户识别模块工作原理为：每个人发音特征各不相同，因此可利用人的发音特点、即通话话音来提取话音声纹特征(声纹特征也可称为特征码，是能够反映该话音生物特征的标识，可能是一串数字或是一个数字及其他符号的组合系列或是用来描述变化趋势的数字或坐标点的组合等)，通过不同用户的不同声纹特征区别不同的用户。

语义理解模块，安装在在线语音识别服务器内，根据接收到的文字信息和用户身份信息，基于计算机应用场景，根据特定用户、特定时间点、出于某一特定目的而产生的语音命令判断文字的内涵，理解用户的真实意图，通过以太网输出语义分析信息包到命令执行模块。例如：“听音乐”背后的意图是：打开音乐播放器，并播放音乐。其中，语义分析信息包包含分析出来的操作域和内容域，操作域包含针对用户语音命令形成的操作指令，内容域包含该操作指令的参数信息。

通过设计基于计算机应用场景的语义理解模块，大大提高了语音识别的智能化程度，让用户获得更加自然的交互体验。这主要体现在以下几个方面：

1、不同的语音口令，指向相同的计算机控制动作；例如：“关闭计算机”、“关计算机”“关机”等语音口令，经过语义理解模块处理后，都指向关机操作；

2、简单的口令可以快速实现原本复杂的计算机操作；例如：计算机要实现卸载程序，需要这样操作：开始菜单-控制面板-卸载更改程序，现在可以语音口令“卸载程序”，一步到位。

3、根据计算机应用场景理解用户语音命令的方式引导用户操作计算机；例如：突然网络掉线了，用户可以说口令：“网络掉线了”，计算机根据这个口令，打开网络设置界面，并引导用户检查网络。

命令执行模块，安装在本地计算机内，根据接收到语义分析信息包里的操作域，执行不同的操作动作，并将语义分析信息包里的内容域作为该操作动作的参数，实现相关功能。

本发明工作流程：用户在操作计算机时，突然想打开“控制面板”进行设置，此时，按住鼠标上的语音按键，说：“控制面板”，语音采集模块将采集到的声音信号发送到语音处理模块，形成音频文件，语音识别模块将音频文件转换为文字信息，用户识别模块识别用户身份，语义理解模块基于计算机应用场景对文字信息进行理解，输出语义分析信息包，命令执行模块控制打开“控制面板”。在用语音控制时，用户无需做任何退出现在正在执行的操作界面。

用户在浏览互联网时，想在百度上搜索框里输入：“什么是计算机应用场景？”，用户除了用键盘输入方式，还可用这样操作，按住鼠标上的语音按键，说：“什么是计算机应用场景？”，语音采集模块将采集到的声音信号发送到语音处理模块，形成音频文件，语音识别模块将音频文件转换为文字信息，用户识别模块识别用户身份，语义理解模块基于计算机应用场景对文字信息进行理解，输出语义分析信息包，命令执行模块根据接收到语义分析信息包里的操作域，执行在百度搜索框内输入文字的操作，并将语义分析信息包里的内容域“什么是计算机应用场景？”作为输入的信息，将文本信息输入到百度搜索里，实现相关功能。

本发明使用语音采集模块采集用户语音指令，经语音处理模块形成音频文件，使用语音识别模块将音频文件转换为文字信息，使用身份识模块识别用户身份，经语义理解模块对文字信息进行理解，采用命令执行模块执行相关操作，通过设计基于计算机应用场景的语义理解模块，大大提高了语音识别的智能化程度，让用户获得更加自然的交互体验，提高了语音识别的准确率。

为了描述的方便，描述以上装置时以功能分为各种单元、模块分别描述。当然，在实施本申请时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

以上所描述的装置实施方式仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.基于计算机应用场景语义理解的语音识别系统，其特征在于：包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块；

2.根据权利要求1所述的基于计算机应用场景语义理解的语音识别系统，其特征在于：所述的语音采集使用麦克风采集用户声音信号，所述的麦克风通过安装在鼠标上的语音按键控制启动和关闭。