CN106531160A

CN106531160A - 一种基于词网语言模型的连续语音识别系统

Info

Publication number: CN106531160A
Application number: CN201610944682.0A
Authority: CN
Inventors: 高陈陈
Original assignee: Anhui Cloud Intelligent Technology Co Ltd
Current assignee: Anhui Cloud Intelligent Technology Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-22

Abstract

本发明公开了一种基于词网语言模型的连续语音识别系统，包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块；声学模型层输入端连接有声学模型；词法层搜索模块的输入端连接有词法信息库；句法层搜索模块的输入端连接有句法信息库。本发明通过将语音识别过程分为声学模型层、词法层和句法层，通过声学模型层对子词进行搜索，得到候选子词序列，然后在词法层上根据词法信息及词的语言模型进行词条的搜索，得到候选词条序列，最后根据语法、词义信息等句子的语言模型进行句法层的搜索，从而得到最终的识别结果，通过这种方式对语音信号逐步处理，有利于提高对语音信号识别的精准度和识别效率。

Description

一种基于词网语言模型的连续语音识别系统

技术领域

本发明属于语音识别技术领域，特别是涉及一种基于词网语言模型的连续语音识别系统。

背景技术

随着计算机科学和信息技术的发展，语音识别技术日渐成为人与机器交互的主要工具。经过几十年的研究和发展，语音识别技术已日渐成熟并逐步走向实用，正在渐渐地改变着人们的生活方式。计算机已经渗透到人类生活的每个角落。在现代社会中，人类正逐渐借助计算机来完成各项任务。在这种形势下，如何实现人与计算机的智能化交互，成了人工智能领域的一个重要研究课题。语音是人际交流最习惯、最自然的方式，因此，语音识别成为人机交互的理想选择。

目前，语音识别已经取得了一定的发展，然而距离真正的人机自由交流还有很大的差距，主要表现在：存在协同发音现象；语音识别系统的适应性差；端点检测困难；如何将语言学、生理学、心里学方面的研究成果有效地应用于语音识别，还需深入研究；对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面还知之甚少，如何把这方面现有的成果用于语音识别，也是一个难题。语音识别技术走向实用需要综合应用语言学、心理学、生理学以及信号处理等各门学科的有关知识。

发明内容

本发明的目的在于提供一种基于词网语言模型的连续语音识别系统，通过该系统的应用，解决了现有的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于词网语言模型的连续语音识别系统，包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块；所述声学模型层输入端连接有声学模型；所述词法层搜索模块的输入端连接有词法信息库；所述句法层搜索模块的输入端连接有句法信息库。

进一步地，所述语音输入模块用于输入语音信号并将该语音信号传至特征提取模块；所述特征提取模块对接收到的语音信号进行语音特征的提取，其中语音特征包括LPC参数、MFCC参数；所述声学模型层搜索模块通过声学模型采用模式匹配的方法查找与语音特征相对应的发音，继而将相关的发音发送至词法层搜索模块；所述词法层搜索模块根据收到的发音，在词法信息库搜索相应的词条，继而将搜索到的词条发至句法层搜索模块；所述句法层搜索模块根据收到的词条，在句法信息库中搜索相应的句法，继而将句法以语句的形式发送至识别结果输出模块；所述识别结果输出模块用于输出语句。

进一步地，所述语音输入模块为话筒和音频解码器。

本发明具有以下有益效果：

本发明通过将语音识别的过程处理分为声学模型层、词法层和句法层，通过声学模型层对所要子词进行搜索，从而得到候选子词序列，然后在词法层上根据词法信息及词的语言模型进行词条的搜索，从而得到候选词条序列，最后根据语法、词义信息等句子的语言模型进行句法层的搜索，从而得到最终的识别结果，通过这种方式对语音信号逐步处理，有利于提高对语音信号识别的精准度和识别效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于词网语言模型的连续语音识别系统的组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于词网语言模型的连续语音识别系统，包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块，其中声学模型层输入端连接有声学模型，词法层搜索模块的输入端连接有词法信息库，句法层搜索模块的输入端连接有句法信息库。

其中，语音输入模块用于输入语音信号并将该语音信号传至特征提取模块；特征提取模块对接收到的语音信号进行语音特征的提取，其中语音特征包括LPC参数、MFCC参数；声学模型层搜索模块通过声学模型采用模式匹配的方法查找与语音特征相对应的发音，继而将相关的发音发送至词法层搜索模块；词法层搜索模块根据收到的发音，在词法信息库搜索相应的词条，继而将搜索到的词条发至句法层搜索模块；句法层搜索模块根据收到的词条，在句法信息库中搜索相应的句法，继而将句法以语句的形式发送至识别结果输出模块；识别结果输出模块用于输出语句。

其中，语音输入模块为话筒和音频解码器。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

最后需要说明的是，以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于词网语言模型的连续语音识别系统，其特征在于：包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块；所述声学模型层输入端连接有声学模型；所述词法层搜索模块的输入端连接有词法信息库；所述句法层搜索模块的输入端连接有句法信息库。

2.根据权利要求1所述的一种基于词网语言模型的连续语音识别系统，其特征在于：

所述语音输入模块用于输入语音信号并将该语音信号传至特征提取模块；

所述特征提取模块对接收到的语音信号进行语音特征的提取，其中语音特征包括LPC参数、MFCC参数；

所述声学模型层搜索模块通过声学模型采用模式匹配的方法查找与语音特征相对应的发音，继而将相关的发音发送至词法层搜索模块；

所述词法层搜索模块根据收到的发音，在词法信息库搜索相应的词条，继而将搜索到的词条发至句法层搜索模块；

所述句法层搜索模块根据收到的词条，在句法信息库中搜索相应的句法，继而将句法以语句的形式发送至识别结果输出模块；

所述识别结果输出模块用于输出语句。

3.根据权利要求1所述的一种基于词网语言模型的连续语音识别系统，其特征在于：所述语音输入模块为话筒和音频解码器。