CN111210821A

CN111210821A - 一种基于互联网应用的智能语音识别系统

Info

Publication number: CN111210821A
Application number: CN202010082693.9A
Authority: CN
Inventors: 何国涛; 司玉景; 马成龙
Original assignee: Puqiang Times Zhuhai Hengqin Information Technology Co Ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co Ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2020-05-29

Abstract

本发明涉及智能交互技术领域，且公开了一种基于互联网应用的智能语音识别系统，采用C/S架构，包括提供语音识别服务的服务器和客户端，所述客户端获取音频信息后发送至云端服务器，所述云端服务器识别结果后按要求返回客户端，述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成。该基于互联网应用的智能语音识别系统，通过多种用户词典和声学模型覆盖全部日常词汇和高频领域词汇，同时其来源也覆盖不同地域说话人口音，在不同的业务场景下都取得较好的识别效果，语言模型的对小众的语言表达方式也实现了支持，在个性化表达的场景下也能获得正确率较高的识别结果，同时输出也支持个性化表达的输出方式。

Description

一种基于互联网应用的智能语音识别系统

技术领域

本发明涉及智能交互技术领域，具体为一种基于互联网应用的智能语音识别系统。

背景技术

语音识别技术将人类语音中的词汇内容转换为计算机可读的输入，作为人机交互的关键技术，语音识别技术在呼叫中心、电信增值、企业信息化系统、智能机器人、智能外呼、智能车载等应用系统中有了广泛的应用。

语音识别技术的应用领域、场景和人群广泛，不同的应用条件下有着不同的要求，因此，一种可以应用在任何领域、任何场景、任何时间、地点以及人群的语音识别技术亟其需要，满足信息时代动态更新和个性化输入的需要。

进一步，由于个性化的表达，在一些小众圈子会出现有别于现有语言的表达方式，按照传动的自然语言表达方式进行理解会存在较大的误差，语音识别系统需要增强对小众表达方式的理解能力。

发明内容

针对上述背景技术的不足，本发明提供了一种基于互联网应用的智能语音识别系统的技术方案，具有使用场景广泛和智能化识别精度高等优点，解决了背景技术提出的问题。

本发明提供如下技术方案：一种基于互联网应用的智能语音识别系统，采用C/S架构，包括提供语音识别服务的服务器和客户端，所述客户端获取音频信息后发送至云端服务器，所述云端服务器识别结果后按要求返回客户端；

所述智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成；

所述接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块；

所述API层对框架内技术按功能进行封装，并提供方便上层调用的API接口；

所述框架层包含有实现具体功能的子系统；

所述框架支持库层是对框架功能的抽象，以更安全、容易扩展的方式为框架层提供接口调用。

优选的，所述框架层内子系统包含有用于端点检测的例子以及系统维护、用于解码的文法系统、自然语言系统以及个性语言系统、用于音频录入的语音录入、功能库系统、用于文法训练的识别引擎系统，所述API层包含有与框架层对应的端点检测API、解码API、音频录入和JSGF文法。

优选的，所述功能模块系统包含有语音增强模块、检测语音端点模块、话者分离模块、情绪识别模块和性别/情绪识别模块，所述语音录入包括有多重采样率支持模块和多重录入方式支持模块。

优选的，所述文法系统模块包含有文法结构器、文法自动构建模块和内置文法模块，所述自然语言系统包括规模语料构建模块和标点符号支持模块，所述个性语言系统包括个性语言构建模块和个性符号支持模块。

优选的，所述识别引擎系统包括在线提取特征模块、解码语音模块、声学模块、发音词典模块、语音模型模块。

优选的，所述识别引擎系统还包括有性能优化模块、灵活参数设置模块和多模型融合模块。

优选的，所述声学模型由声学语料经过训练获得，所述语言模型由文本语料训练获得，所述发音词典包含有方言词典。

本发明具备以下有益效果：

1、该基于互联网应用的智能语音识别系统，通过多种用户词典和声学模型覆盖全部日常词汇和高频领域词汇，同时其来源也覆盖不同地域说话人口音，在不同的业务场景下都取得较好的识别效果。

2、该基于互联网应用的智能语音识别系统，语言模型的对小众的语言表达方式也实现了支持，在个性化表达的场景下也能获得正确率较高的识别结果，同时输出也支持个性化表达的输出方式。

附图说明

图1为本发明的应用结构示意图；

图2为本发明的结构框图；

图3为本发明功能实现框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，一种基于互联网应用的智能语音识别系统，采用C/S架构，包括提供语音识别服务的服务器和客户端，其特征在于：客户端获取音频信息后发送至云端服务器，云端服务器识别结果后按要求返回客户端，智能语音识别系统由接入、API、框架和框架支持四个逻辑层组成；接入层包括客户端上安装的语音识别应用、对应的网络通信协议和服务器上的接入模块，API层对框架内技术按功能进行封装，并提供方便上层调用的API接口，框架层包含有实现具体功能的子系统，框架支持库层是对框架功能的抽象，以更安全、容易扩展的方式为框架层提供接口调用。

例子包括JAVA实现模块、C语言模块，JSDF文法模块等，列举多种语言方式的实现过程，系统维护包括运行日志模块、调用日志模块和实现监控模块。

当音频信息传输至服务器后，通过音频输入调用语音输入模块和功能库系统模块对音频信息进行前端语音处理，通过语音录入内的多种采样率支持模块和多种录入方式支持模块对种种数据进行支持，然后依次通过语音增强模块进行噪音取出，通过检测语音端点模块对语音进行分析，确定语音中包括的用户说话的起始和结束过程，使系统能够快速响应用户输入，以便将语音发送识别服务器开始解码，并且在用户结束输入，快速将识别结果返回客户端，使用户有较好的体验，通过话者分离模块、情绪识别模块和性别/年龄识别模块识别说话人、说话人情绪以及性别、年龄并标注，提高识别引擎时对语义识别的准确性。

经过前端语音处理后，获得最适合识别的语音片段，通过JSGF文法调用识别引擎系统，通过在线提取特征模块提取语音片段特征，通过解码语音模块生成搜索特征，搜索声学模型、发音词典和语言模型相关的声学条件和语言学条件得到文法序列，语言模型包括个性语言模型。

通过解码API选择性调用文法系统模块、自然语言系统模块或个性语言模块，将文法序列解码得到需要的文本序列并输出。

性能优化模块和灵活配置参数模块自动检测系统运行情况，以动态调整语音识别过程的策略，而不使系统情况成为该过程的性能瓶颈，在系统较忙时，为了避免用户等待太长时间，语音过程自动采用计算量小但具有足够精度的策略以保证系统的响应速度。而在系统不忙时，识别过程自动提高识别精度，以达到更优的识别效果。自动优化功能可以保系统稳定可用的前提下，充分利用计算资源，提高资源的利用率。

声学模型由声学语料经过训练获得，语言模型由文本语料训练获得，发音词典包含有方言词典，声学语料和文本语料来自规模语料构建模块和个性语料构建模块。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于互联网应用的智能语音识别系统，采用C/S架构，包括提供语音识别服务的服务器和客户端，其特征在于：所述客户端获取音频信息后发送至云端服务器，所述云端服务器识别结果后按要求返回客户端；

所述框架层包含有实现具体功能的子系统；

2.根据权利要求1所述的一种基于互联网应用的智能语音识别系统，其特征在于：所述框架层内子系统包含有用于端点检测的例子以及系统维护、用于解码的文法系统、自然语言系统以及个性语言系统、用于音频录入的语音录入、功能库系统、用于文法训练的识别引擎系统，所述API层包含有与框架层对应的端点检测API、解码API、音频录入和JSGF文法。

3.根据权利要求2所述的一种基于互联网应用的智能语音识别系统，其特征在于：所述功能模块系统包含有语音增强模块、检测语音端点模块、话者分离模块、情绪识别模块和性别/情绪识别模块，所述语音录入包括有多重采样率支持模块和多重录入方式支持模块。

4.根据权利要求2所述的一种基于互联网应用的智能语音识别系统，其特征在于：所述文法系统模块包含有文法结构器、文法自动构建模块和内置文法模块，所述自然语言系统包括规模语料构建模块和标点符号支持模块，所述个性语言系统包括个性语言构建模块和个性符号支持模块。

5.根据权利要求2所述的一种基于互联网应用的智能语音识别系统，其特征在于：所述识别引擎系统包括在线提取特征模块、解码语音模块、声学模块、发音词典模块、语音模型模块。

6.根据权利要求2所述的一种基于互联网应用的智能语音识别系统，其特征在于：所述识别引擎系统还包括有性能优化模块、灵活参数设置模块和多模型融合模块。

7.根据权利要求5所述的一种基于互联网应用的智能语音识别系统，其特征在于：所述声学模型由声学语料经过训练获得，所述语言模型由文本语料训练获得，所述发音词典包含有方言词典。