CN107329996A

CN107329996A - 一种基于模糊神经网络的聊天机器人系统与聊天方法

Info

Publication number: CN107329996A
Application number: CN201710428685.3A
Authority: CN
Inventors: 蔡政英; 胡绍齐; 范红梅
Original assignee: China Three Gorges University CTGU
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2017-11-07
Anticipated expiration: 2037-06-08
Also published as: CN107329996B

Abstract

一种基于模糊神经网络的聊天机器人系统，所述系统包括：语音采集终端；特征提取模块，与语音采集终端相连；带有声音模型数据库的匹配搜索模块，与特征提取模块相连；模糊神经网络分析模块，与匹配搜索模块相连；语音后处理模块，与匹配搜索模块相连；语音播放模块，与语音后处理模块相连；其中，模糊神经网络分析模块带有模糊神经网络训练数据库以及知识数据库。本发明提供的一种基于模糊神经网络的聊天机器人系统与聊天方法，运用模糊识别、模式匹配搜索和人工神经网络等技术，模拟人脑思维和语言的模糊推理过程，能够根据上下文和感情特征做出应答，并具有不同场景下的自学习能力。

Description

一种基于模糊神经网络的聊天机器人系统与聊天方法

技术领域

本发明涉及机器人语音聊天领域，尤其是一种基于模糊神经网络的聊天机器人系统与聊天方法。

背景技术

模糊神经网络在计算机领域内，得到了愈加广泛的重视，随着科学技术的发展和生活水平的提高，人们对智能聊天机器人的需求逐渐增强，同时对其服务要求也越来越高。聊天机器人系统可以看作是机器人产业与“互联网+”的结合，符合国家的科研及产业化发展方向。

然而目前市面上的机器人聊天技能仍然不能满足市场需要，几乎都是基于关键字检索的技术，此模式在器发展的道路上面临着一个巨大的障碍——语言的复杂性，主要表现如下：

一、众所周知，人类语言是基于上下文和感情的。在聊天对话的过程中，语义的理解和聊天的应答都需要建立在上下文和语气两者之上，同一关键词在不同的上下文和语气下，意思是不同的。目前的匹配搜索出最佳的聊天回应文本和语音，对语义理解的准确性不高，无法应答地像人一样是带有感情的。因此，聊天系统需要增加对语音上下文和感情特征的分析，在此基础上综合分析聊天文本和语音的特征。

二、语言是建立一套规则基础之上，而随着人类文明的不断进步和发展，这种规则会随时发展和演变。因此，聊天系统需要不断地进行自我学习，自我扩充，自我完善。目前的聊天机器人在与用户聊天的过程中，即使用户已经告知回答错误，聊天机器人也不能够根据错误进行学习。

三、人类的语言不是精确的关键词和数据，往往带有模糊性。人类思维的语义分析具有一定的模糊性和容错性，用户在交流中经常说出不精确的表述，诸如“大概”、“也许”、“可能”、“左右”等，甚至可能出现字词的误用，然而通常不会影响人类对语义的理解。但是目前的聊天机器显然不具有此类特性，导致其难以满足人们的聊天需求。

在国内，随着机器人及人工智能技术的发展和进步，为开发一种基于模糊神经网络的聊天机器人系统与方法提供了条件，但是，目前市场上黑未出现一种基于模糊神经网络的聊天机器人系统与方法。

发明内容

本发明所要解决的技术问题是提供一种基于模糊神经网络的聊天机器人系统与聊天方法，运用模糊识别、模式匹配搜索和人工神经网络等技术，实现聊天机器人系统对自然语言更加充分的分析理解，并实现不聊天机器人断地自我学习，更新，扩充和完善，在识别上达到一定程度的模糊性和容错性，最后使其带有感情的做出应答，还原出真实准确的聊天场景。

为解决上述技术问题，本发明所采用的技术方案是：一种基于模糊神经网络的聊天机器人系统，所述系统包括：

语音采集终端，用来接收用户与聊天机器人聊天过程中对话信息；

特征提取模块，与语音采集终端相连，用于从对话信息中提取重要的能够反映语义信息的特征参数数据；

带有声音模型数据库的匹配搜索模块，与特征提取模块相连，根据特征提取模块输入的语音信息及特征值，按照一定的规则与声音模型数据库进行匹配与比较，得到最佳识别结果的语音数据；

模糊神经网络分析模块，与匹配搜索模块相连，接收最佳识别结果的语音数据并对其进行语义识别及分析，得出最佳答复结果，将最佳答复结果的信息传送给匹配搜索模块，由匹配搜索模块进行处理并构造出所述聊天机器人的输出语音数据；

语音后处理模块，与匹配搜索模块相连，处理输出语音数据的强度、停顿、频率等声音参数；

语音播放模块，与语音后处理模块相连，将数字音频信号转化为模拟音频信号；

其中，模糊神经网络分析模块带有模糊神经网络训练数据库以及知识数据库，

模糊神经网络训练数据库为模糊神经网络分析模块的训练数据集和模糊规则库；

知识数据库，用于在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合，协助模糊神经网络分析模块对计算得出的量化值和语音单元进行分析，识别该段语音数据的语义，以及协助模糊神经网络分析模块对识别语义之后的量化值和语音单元进行分析，找出该段语音数据最佳答复结果。

语音采集终端与特征提取模块之间连接有语音预处理模块，用于对语音采集终端采集的语音信号进行预处理。

声音模型数据库包括统计声学模型、发音词典和语言模型，是匹配搜索模块进行匹配和比较的模型样本数据库。

模糊神经网络分析模块包括依次设置的输入层、模糊化层、模糊推理层、信息融合层及反模糊化层。

模糊神经网络分析模块中各层如下：

第一层：输入层：假设x＝{x₁,x₂,…,x_n}表示语音输入向量， y＝{y₁,y₂,…,y_n}表示语音输出向量，x和y包括：语气量化值、场景量化值、语速量化值、角色量化值、语音单元、词句单元、音节语音单元、音素语音；输入层将输入向量值传到下一层；语音输出向量也会反馈给输入层作为输入的一部分；

第二层：模糊化层：假设x＝[x₁,x₂,…,x_n]^T，每个分量x_i表示模糊语言向量，并设其中是x_i的第j个语音变量值，它是定义在论域U_i上的一个模糊集合，相应的隶属度函数为隶属度函数取高斯函数，即：

输出量y也为模糊语言变量，且其中 B^j(j＝1,2,…,m_y)是y的第j个语言变量值，它是定义在论域U_y上的一个模糊集合，相应的隶属度函数为

第三层：该层的每个节点代表一条模糊规则，它的作用是计算每条规则的适用度，设描述输入输出关系的模糊规则为

R_j:如果x₁是是则y是B^j

式中，j＝1,2,…,m，m为模糊神经网络推理规则数，m≤m₁m₂…m_n；

若输入量采用单点模糊集合的模糊化方法，则对于给定的输入x，可以求得对于每条规则的适用度为

通过模糊推理可得对于每一条模糊规则的输入量模糊集合B_j的隶属度函数为

第四层：信息融合层：其功能是归一化计算，从而输出量总的模糊集合为

其隶属度为：

第五层：反模糊化输出层：实现清晰化计算，采用加权平均的清晰化方法，得到输出语音清晰化向量为

一种采用上述聊天机器人系统进行聊天的方法，该方法包括以下步骤：

步骤1：对用户语音信息进行采集，将其作为输入数据存入模糊神经网络训练数据库用以形成模糊神经网络学习样本，并提供给语音预处理模块进行语音数据预处理；

步骤2：通过特征提取模块对经过预处理的语音数据进行特征参数提取；

步骤3：匹配搜索模块根据特征提取模块用户输入的语音波形中提取的能够反映语义信息的特征参数，与声音模型数据库进行匹配搜索，计算量化值以及划分语音单元；

步骤4：模糊神经网络分析模块通过读取知识数据库对量化值以及语音单元进行语义识别，输出识别参数，再对输出的识别参数进行分析计算量化值和划分语音单元，将结果数据输出；

步骤5：将结果数据再次输入匹配搜索模块与声音模型数据库进行匹配搜索，输出搜索结果，一方面将输出结果应用于计算输出层各层误差是否小于设定的误差，若小于设定误差则数据传入模糊神经网络训练数据库形成模糊神经网络学习样本，若大于设定误差则调整输出层各层参数并将数据传入模糊神经网络识别语义的分析阶段；另一方面将输出结果输入语音后处理模块进行语音数据处理，将应答语音数据存入模糊神经网络训练数据库形成模糊神经网络学习样本提供给语音预处理模块；

步骤6：将经语音预处理模块处理后的语音数据作为应答语音数据通过语音播放模块进行输出，实现机器人的有声应答。

本发明提供的一种基于模糊神经网络的聊天机器人系统与聊天方法，有益效果如下：

1、基于语音上下文和声音情感相结合的方式：在此基础上建立声音模型数据库，在模糊神经网络数据库和知识数据库中进行模糊匹配，使得聊天系统对应答结果的搜索更为完善，同时还匹配搜索出应答语气和情感。人类思维是具有联想能力的，人类之间的聊天并不是单纯的一问一答模式，而是需要更多的联想使得对话更为生动、活泼，具有更加智能逼真的效果。模糊神经网络具有联想存储功能，通过上下文和情感分析就可以实现这种联想。

2、能够自行学习。采用模糊识别和人工神经网络相结合的方式实现语音语义识别，本发明突破了传统单一的语音识别方式。具有自学习功能。实现语音识别时，先把许多不同的聊天样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的聊天对话，自学习功能对于聊天应答结果分析有特别重要的意义。在面对用户聊天出现错误的时候，具有高速寻找优化解的能力和错误学习能力。语言本身是一个很复杂的，要理解语义，在这个复杂问题中寻找一个优化解，往往需要很大的计算量，利用针对聊天对话而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。

3、具有语义模糊分析功能。将模糊模式识别中引入模糊数学方法，用模糊技术来设计机器识别系统，可简化识别系统的结构，更广泛、更深入地模拟人脑的思维过程，类比人类思维的语义分析具有一定的模糊性和容错性，从而对语音信息进行更为有效的分类与识别。

4、聊天方式更接近人类智能和语言习惯。能够弥补市场上的聊天机器人仅仅依靠预期答案与问句词之间简单共现关系、句法依存关系和浅层语义关系，将聊天对象的语段进行切分，然后进行语段检索，最后进行答案的抽取和生成的模式。本发明建立了声音模型数据库，可以实现参数化的语音特征矢量到语音文字符号和语音特征矢量到聊天情感的相互映射，增加对语音特征的分析，综合分析聊天文本和语音的特征，使得该系统对语义的分析不仅仅局限于语音文本关键词的搜索匹配，而是模拟人类对话场景，同时分析语音文本和语音情感，使得对信息的理解更为充分和完善，同时使得有声应答充满感情，更逼近真实对话场景。

运用模糊识别、模式匹配搜索和人工神经网络等技术，实现聊天机器人系统对自然语言更加充分的分析理解，并实现不聊天机器人断地自我学习，更新，扩充和完善，在识别上达到一定程度的模糊性和容错性，最后使其带有感情的做出应答，还原出真实准确的聊天场景。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明系统的结构示意图；

图2为本发明实施例的语音数据处理过程示意图；

图3为本发明实施例方法的流程示意图。

具体实施方式

实施例一

如图1所示，一种基于模糊神经网络的聊天机器人系统，所述系统包括：

语音采集终端100，安装在聊天机器人头部两侧，用来接收用户与聊天机器人聊天过程中对话信息(实时拾取聊天过程中的语音信息)，

采用专业灵敏的对称双拾音器，是由麦克风、音频放大电路、声卡中的信号调理器、采样保持器和模拟数字转换器等组成成分构成。将获取的声音模拟信息转化为数字信号存储在磁盘中。麦克风采用驻极体电容器麦克风，其工作原理是利用具有永久电荷隔离的聚合材料振动膜。采用对称双拾音器，麦克风的位置决定了进入声音的范围，利用声学现象来确定聊天对象的位置，将采集到的多样而丰富的声音数据传送给语音预处理模块；

所述拾音器，采用雷晟COAXB-CCTV，该款监控拾音器采用高保真低噪声处理芯片，通过多次选频有效的抑制环境噪声，音色纯正，动态威猛，内置自动增益控制(AGC)电路精心设计而成。具有噪声小、保真度高、工作电压范围宽、耗电小、传输距离远等优点。是新型的拾音器系列。内置DSP降噪电路，采用进口IC,耦合电容，表面凹凸设计降低反射，2mm针孔设计，日本进口镀银电容咪，动态闭环降噪电路，

拾音范围:5-120平方米

工作电压：DC 6V～12V

消耗电流：25mA

频率范围：200～10kHz

频率响应：2.5dB

输出阻抗：600Ω，可传输800米

输出电平：0～6V

外观尺寸：Φ＝71mm，h＝42mm。

特征提取模块102使用数字信号处理器完成，优选地，由于语音识别系统算法复杂度较高，同时考虑到实时性，选择TI公司的TMS320C6713DSK作为数字信号处理器核心，其最高工作时钟频率可以达到225MHz，且是高性能的浮点数字信号处理器，通过TLV320AIC23立体编解码器采样语音信号，8M字节32bit的SDRAM， 512k字节，8bit的非易失性Flash存储器。进一步地，可以使用多片数字信号处理器组成功能和性能更强大的特征提取模块。与语音采集终端100相连，用来从语音波形中提取重要的能够反映语义信息的特征参数，安装在声音采集模块的附近，主要包括带通滤波器，过零检测器，频率接收器，非线性处理器等部分。其中主要提取语音信号的声强、响度、音高、周期和基音频率等特征，并计算出声强参数、响度参数、音高参数、周期参数、基音频率参数。响度是一种主观心理量，是人类主观感觉到的声音强弱程度。音高也是一种主观心理量，是人类听觉系统对于声音频率高低的感觉。周期和基音频率反映了声门相邻两次开闭之间的时间间隔或开闭的频率，描述了语音激励源的一个重要特征。

带有声音模型数据库104的匹配搜索模块103，与特征提取模块102相连，根据特征提取模块102输入的语音信息及特征值，按照一定的规则与声音模型数据库 104进行匹配与比较，得到最佳识别结果的语音数据。

匹配搜索模块103，是根据特征提取模块用户输入的语音波形中提取重要的能够反映语义信息的特征参数，按照一定的规则与声音模型数据库进行匹配与比较，将得到最佳的识别结果。本匹配搜索算法采用基于Viterbi算法的宽度优先搜索算法，根据动态时间规整(DTW)理论，使其特征与模板特征对齐，遍历由隐马尔可夫(HMM) 状态构成的网络，并在两者之间不断地进行两个矢量最小的匹配路径计算，保证待识别特征与模板特征之间最大的声学相似性和最小的时差失真，实现大词汇量，连续语音的非特定人语音识别。

所述Viterbi搜索算法，如果给定特征矢量序列Y和模型M，Viterbi搜索算法可以定义为一下迭代过程：

(1)初始计算：

(2)迭代计算：

(3)最后计算：

式中N表示模型的状态总数，状态1为引入状态，状态N为引出状态，其余状态为发射状态，a_ij表示从状态i到j的转移概率，b_j(y₁)表示状态j产生观测矢量y_t的概率，T表示观测矢量的长度，δ_j(t)表示第t帧特征矢量处于状态j的最大概率，表示第t帧特征矢量处于状态j之前最优的状态。由此，当迭代计算至状态N 后，可以根据记录的最优状态进行回溯，最终得到最优路径。

声音模型数据库104，其中包括统计声学模型、发音词典和语言模型，是匹配搜索模块103进行匹配和比较的模型样本数据库，是实现参数化的语音特征矢量到语音文字符号和语音特征矢量到聊天情感的映射的关键。本系统采用隐马尔科夫模型进行建模，同时，为了得到一个好的模型数据库，需要通过大量的原始语音数据来训练该声音模型数据库，不断地调整数据库中模板的参数，使系统的性能不断地向最佳状态逼近。

声音模型数据库104的硬件部分为五盘位磁盘阵列，软件部分为SQL Server2012。所述五盘位磁盘阵列采用USB3.0+Esata双高速接口智能电源联动管理， 30TB的海量存储，可同时读取多达5块2.5寸或3.5寸SATA1/11/111硬盘，USB3.0 提供5Gbps带宽，Esata提供3Gbps带宽，坚固耐用，性能稳定，为不同硬盘设计的稳定构架，防震，防尘，防电磁辐射。

具体的规格参数如下，

产品型号:Y-3359；机身材质为:铝合金；风扇:智能液压静音温控风扇；硬盘：2.5寸 /3.5寸SATA硬盘；硬盘休眠：支持；容量：30TB(6TB*5)；输出接口：USB3.0/Esata；电源：100-240V 50/60HZ；系统支持：Windows XP/2K/Vista/7/8(32&64bit)\Mac OS\Linux。所述软件部分采用Sql server 2012版本。该版本的SQL Server具有以下要求：组件网络软件要求SQL Server2012支持的操作系统具有内置网络软件，独立的安装命名实例和默认实例支持以下网络协议：共享内存、命名管道、TCP/IP和VIA；组件Internet软件要求Microsoft管理控制平台(MMC)、SQL Server Data Tools (SSDT)、Reporting Services的报表设计器组件和HTML帮助都需要Internet Explorer7或更高版本；组件硬板要求SQL Server2012最少6GB的可用硬盘空间；组件驱动器要求从磁盘进行安装时需要相应的DVD驱动器；组件显示器要求SQL Server2012有Super-VGA(800*600)或更高分辨率的显示器；组件Internet要求使用 Internet功能需要连接Internet(可能需要付费)。

模糊神经网络分析模块105，与匹配搜索模块103相连，接收最佳识别结果的语音数据并对其进行语义识别及分析，得出最佳答复结果，将最佳答复结果的信息传送给匹配搜索模块103，由匹配搜索模块103进行处理并构造出所述聊天机器人的输出语音数据；

模糊神经网络分析模块105，是由模糊逻辑与神经网络的有机结合的一种智能系统，是本系统的核心，具有较强的分类分析能力，用于对匹配搜索模块得出的语义信息进行分析，得出基于该语义的最佳反馈信息，该模块模拟大脑运行机制，采用大量的简单的模糊识别处理单元并行连接构成一种信息处理系统，该系统包含神经元、网络拓扑和网络训练算法。

其识别算法如下：

模糊神经网络分析模块105包括依次设置的输入层、模糊化层、模糊推理层、信息融合层及反模糊化层。

模糊神经网络分析模块105中各层如下：

R_j:如果x₁是是则y是B^j

其隶属度为：

由于计算上式的积分很麻烦，实际计算通常采用下面的近似公式

其中是使μ_B(y)取最大值的点，它一般也就是隶属度函数的中心点，所以

从而输出变量的表达式变为

其中

模糊神经网络的学习算法如下

其中有两种信号在流通：一是工作(识别)，它是输入信号与权值的函数。二是误差信号，网络实际输出与应有输出间的差值即为误差，它是输出端开始逐层向后反向传播。根据图2的信号传递图可以设计以下误差调整算法。

设误差代价函数为：

式中t_i和y_i分别表示期望输出和实际输出，i＝1,2,3,…r为迭代计算的次数。

语音后处理模块108，安装在机器人胸部，与匹配搜索模块103相连，处理输出语音数据的强度、停顿、频率等声音参数；

用来将聊天机器人匹配搜索模块103从声音模型数据库104中的反馈信息加工处理，主要为音频处理器。用于弥补系统的频响特性缺陷，控制输出信号的强度，调节频率、带宽或Q值、增益、矫正延时等。

语音后处理模块108用到的硬件部分为Vinal X5前级效果器。

所述Vinal X5前级效果器采用DSP数字处理技术，数控模拟音频处理电路，音乐、麦克风音调采用七段均衡器调节，专业防啸叫技术，X5专业数字前置效果放大器采用数字混响处理，人声效果更加丰富、自然、通透，前面板设有DSP数字控制显示，可调节音调与混响，让效果更细腻更能满足不同听觉的需要，输出有前后左右声道，中置声道，超低频声道，数字自动恢复，100％的器件均采用SMT贴片技术，使得X5具有很高的稳定性和惊人的一致性。

具体的规格参数如下，型号：X5；最大输入电平：4V(RMS)；最大输出电平： 4V(RMS)；Music通道增益：MAX:12DB；麦克风灵敏度：64mv(out：4v)；信噪比：>80db；输入电压：-220v 50HZ；尺寸(长X宽X高):483X218.5X47.5mm；净重：3.5Kg.

语音播放模块109，安装在机器人颈部，与语音后处理模块108相连，将数字音频信号转化为模拟音频信号，用来将语音后处理模块108加工处理后的语音信息播放出来，以实现聊天机器人的有声应答；

语音播放模块109涉及到的硬件部分是语音播放器。

所述语音播放器支持DIY功能配件可自定义，支持2G、SD卡，可读卡播放，内置5-30分钟高音质MP3模块，支持自定义语音内容，10级音量控制，任何场合可调节，内置14W功效，声音洪亮。

具体的规格参数如下，机身尺寸：27*18*13CM；供电方式：DC12V-24V稳压电源；工作电流：待机状态：小于等于50MA，放音状态小于等于35MA；支持音频格式：MP3；音频播放时长：5-30分钟；音频输出功率：32Ω/14W(典型值)。

模糊神经网络分析模块105带有模糊神经网络训练数据库106以及知识数据库107，

模糊神经网络训练数据库106安装在聊天机器人胸部，为模糊神经网络分析模块105的训练数据集和模糊规则库，用来存储语音预处理模块101处理之后的用户语音数据以及模糊神经网络分析模块105对用户语音进行应答的语音数据，并将存储的各类数据作为模糊神经网络学习样本提供给语音数据预处理模块101，作为语音预处理模块101的模板。

模糊神经网络训练数据库106的硬件部分为五盘位磁盘阵列，软件部分为SQLServer2012。所述五盘位磁盘阵列采用USB3.0+Esata双高速接口智能电源联动管理， 30TB的海量存储，可同时读取多达5块2.5寸或3.5寸SATA1/11/111硬盘，USB3.0 提供5Gbps带宽，Esata提供3Gbps带宽，坚固耐用，性能稳定，为不同硬盘设计的稳定构架，防震，防尘，防电磁辐射。

具体的规格参数如下，产品型号:Y-3359；机身材质为:铝合金；风扇:智能液压静音温控风扇；硬盘：2.5寸/3.5寸SATA硬盘；硬盘休眠：支持；容量：30TB(6TB*5)；输出接口：USB3.0/Esata；电源：100-240V 50/60HZ；系统支持：Windows XP/2K/Vista/7/8(32&64bit)\Mac OS\Linux。所述软件部分采用Sql server 2012版本。该版本的SQL Server具有以下要求：组件网络软件要求SQL Server2012支持的操作系统具有内置网络软件，独立的安装命名实例和默认实例支持以下网络协议：共享内存、命名管道、TCP/IP和VIA；组件Internet软件要求Microsoft管理控制平台(MMC)、 SQL Server Data Tools(SSDT)、Reporting Services的报表设计器组件和HTML帮助都需要Internet Explorer7或更高版本；组件硬板要求SQL Server2012最少6GB的可用硬盘空间；组件驱动器要求从磁盘进行安装时需要相应的DVD驱动器；组件显示器要求SQL Server2012有Super-VGA(800*600)或更高分辨率的显示器；组件Internet 要求使用Internet功能需要连接Internet(可能需要付费)。

知识数据库107，安装在聊天机器人胸部，知识库是基于知识的系统，知识库是结构化，易操作，易利用，全面有组织的知识集群，是针对聊天对话的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合，这些知识片包括与聊天相关的理论知识、事实数据，由专家经验得到的启发式知识，如各领域内有关的定义、定理和运算法则以及常识性知识等，是聊天机器人智能应答的信息来源。

知识数据库107协助模糊神经网络分析模块105对计算得出的量化值和语音单元进行分析，识别该段语音数据的语义，以及协助模糊神经网络分析模块105对识别语义之后的量化值和语音单元进行分析，找出该段语音数据最佳答复结果；

知识数据库107的硬件部分为五盘位磁盘阵列，软件部分为SQL Server2012。所述五盘位磁盘阵列采用USB3.0+Esata双高速接口智能电源联动管理，30TB的海量存储，可同时读取多达5块2.5寸或3.5寸SATA1/11/111硬盘，USB3.0提供5Gbps 带宽，Esata提供3Gbps带宽，坚固耐用，性能稳定，为不同硬盘设计的稳定构架，防震，防尘，防电磁辐射。

语音采集终端100与特征提取模块102之间连接有语音预处理模块101，用于对语音采集终端100采集的语音信号进行采样、去除噪音、端点检测、预加重和加窗分帧等预处理。语音预处理模块101，优选地，使用TLV320AIC23对模拟语音信号进行采样，语音采样频率为8kHz，采样量化精度为16bit，双声道。采样信号通过数字信息号处理器进行必要的预处理，优选地，选择TI公司的TMS320C6713DSK作为数字信号处理器核心，其最高工作时钟频率可以达到225MHz，且是高性能的浮点数字信号处理器，通过TLV320AIC23立体编解码器采样语音信号，8M字节32bit 的SDRAM，512k字节，8bit的非易失性Flash存储器。进一步地，可以使用多片数字信号处理器组成功能和性能更强大的特征提取模块。

所述去除噪音，在实际环境中，声音无时无刻不受到各种噪音的干扰，噪音会使得识别率下降甚至失败；根据给定滤波器的性能指标，采用双线性变换设计滤波器；然后用设计的滤波器对采集的信号进行滤波，利用巴特沃斯低通滤波器滤去带外的噪声。

所述端点检测，端点检测包括起点检测和末尾检测，即找出语音段的开始和结尾，端点检测的准确性将影响识别性能；语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段，平均能量最低；浊音段为声带振动发出对应的语音信号段,平均能量最高；清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段，平均能量居于前两者之间。清音段和无声段的波形特点有明显的不同，无声段信号变化较为缓慢,而清音段信号在幅度上变化剧烈,穿越零电平次数也多。经验表明，通常清音段过零率最大。

端点检测首先判断/有声0还是/无声0,如果有声,则还要判断是/清音0还是/浊音0。为正确地实现端点检测,一般综合利用短时能量和过零率两个特征,采用/双门限检测法0。根据信号设置三个阈值：能量阈值，TL，TH；过零率阈值ZCR,当某帧信号大于TL或者大于ZCR时，认为信号的开始、起点，当大于TH时，则认为正式的语音信号，如果保持一段时间，则确认这信号即所需信号。

基于两个公式，即短时能量和短时过零率。

设第n帧语音信号x_n(m)的短时能量用E_n表示，则其计算公式为：

其中N为信号帧长。

过零率公式：

其中

sgn[]是符号函数，即：

所述预加重，语音是由声门激励通过系统声道等产生的，声门激励属于低频，所以语音的能量主要集中在低频，相对于低频来说，高频的能量较低，采用预加重的方法，提升高频分量有助于提高信噪比。预加重第一级滤波器提升高频，公式如下：

x'[n]＝x[n]-α×[n-1] 0.95<α<0.99

所述加窗分帧，语音信号是不断改变的非平稳，但是非平稳的信号不好处理，所以语音处理算法通常假定信号是稳定的。分段短时平稳性：将语音信号看成是由一帧帧构成假定被帧是平稳的加窗：在时域上，波形乘以窗函数即可得到加窗后的波形，公式为

x[n]＝w[n]·s[n]

如果简单地将语音信号分成很多小段，那么这些小段帧就是矩形窗，而矩形窗的边缘是陡峭的，即不连续的，所以应该选取边缘连续的窗函数，采用交叠分段的方法使得相邻两帧可以平滑过渡。在语音处理中，通常使用锥形的窗代替矩形窗，比如汉明窗Hamming或者汉宁窗Hanning，窗函数如下：

其中，α为窗函数的系数，汉明窗为α＝0.46164，汉宁窗为α＝0.5。

声音模型数据库104包括统计声学模型、发音词典和语言模型，是匹配搜索模块103进行匹配和比较的模型样本数据库。

如图2所示，特征提取模块102将语音数据通过带通波滤器、过零检测器、频率接收器、非线性处理器的处理，提取出声强、响度、音高、周期、基因频率这五个语言参数；

将上述的语言特征参数传给匹配搜索模块103，在匹配搜索模,103中将声强参数、响度参数、音高参数、周期参数以及基因频率参数基于动态时间规整(DTW)和隐马尔可夫(HMM)理论与声音模型数据库进行匹配与比较，计算量化值(语气量化值、场景量化值、语速量化值、角色量化值)以及划分语音单元(词句语音单元、音节语音单元、音素语音单元等)；

在模糊神经网络分析模块105，匹配模糊神经网络训练数据库106以及知识数据库107对语气量化值、场景量化值、语速量化值、角色量化值、此举语音单元、音节语音单元、音素语音单元进行模糊化、模糊规则以及信息融合；

将得出的结论传给模糊神经网络训练数据库106和知识数据库107，并作为识别输出层参数输给下一模块。

实施例二

如图3所示：一种采用上述聊天机器人系统进行聊天的方法，该方法包括以下步骤：

步骤1：机器人被启动后进行系统初始化和自检，初步预防系统在聊天过程出现故障。

步骤2：当用户与机器人进行聊天时，系统采集模式初始化已完成，对用户语音信息进行采集，采集的语音数据有两个用途：

一、将其作为输入数据存入模糊神经网络训练数据库106用以形成模糊神经网络学习样本，

二、提供给语音预处理模块101进行采样、去除噪音、端点检测、预加重和加窗分帧等语音数据预处理。

步骤3：通过特征提取模块102对经过预处理的语音数据进行特征参数(声强、响度、音高、周期和基音频率)提取.

步骤4：匹配搜索模块103根据特征提取模块102用户输入的语音波形中提取的能够反映语义信息的特征参数(声强参数、响度参数、音高参数、周期参数、基音频率参数)，按照基于动态时间规整(DTW)和隐马尔可夫(HMM)理论与与声音模型数据库进行匹配搜索，计算量化值(语气量化值、场景量化值、语速量化值、角色量化值)以及划分语音单元(词句语音单元、音节语音单元、音素语音单元等)。

步骤5：模糊神经网络分析模块105通过读取知识数据库对量化值以及语音单元进行语义识别，输出识别参数，再对输出的识别参数进行分析计算量化值和划分语音单元，将结果数据输出；

步骤6：将结果数据再次输入匹配搜索模块103并按照基于动态时间规整(DTW) 和隐马尔可夫(HMM)理论与声音模型数据库104进行匹配搜索，通过匹配搜索模块(103)与声音模型数据库(104)的匹配与比较，组织、构造出该聊天机器人的输出语音数据，一方面将输出语音数据应用于计算输出层各层误差是否小于设定的误差，若小于设定误差则数据传入模糊神经网络训练数据库106形成模糊神经网络学习样本，若大于设定误差则调整输出层各层参数并将数据传入模糊神经网络识别语义的分析阶段；另一方面将输出结果输入语音后处理模块108进行语音数据处理(处理输出语音的强度、停顿、频率等声音参数)，将应答语音数据存入模糊神经网络训练数据库106形成模糊神经网络学习样本提供给语音预处理模块101；

步骤7：将经语音预处理模块101处理后的语音数据(将数字音频信号转化为模拟音频信号)作为应答语音数据通过语音播放模块进行输出，实现机器人的有声应答 (人与机器进行自然语言的交流)。

若用户继续与机器人进行聊天，则从用户语音数据采集模式初始化至机器人的语音播放输出数据进行循环。若用户停止与机器人进行聊天，则保存上述聊天涉及到的数据并关闭该聊天机器人系统。

上述的实施例仅为本发明的优选技术方案，而不应视为对于本发明的限制。本申请中的实施例及实施例中的特征在不冲突的情况下，可以相互任意组合。本发明的保护范围，应以权利要求记载的技术方案，包括权利要求记载的技术方案中技术特征的等同替换方案等，为保护范围。即在此范围内的等同替换改进，也在本发明的保护范围之内。

Claims

1.一种基于模糊神经网络的聊天机器人系统，其特征在于所述系统包括：

语音采集终端(100)，用来接收用户与聊天机器人聊天过程中对话信息；

特征提取模块(102)，与语音采集终端(100)相连，用于从对话信息中提取重要的能够反映语义信息的特征参数数据；

带有声音模型数据库(104)的匹配搜索模块(103)，与特征提取模块(102)相连，根据特征提取模块(102)输入的语音信息及特征值，按照一定的规则与声音模型数据库(104)进行匹配与比较，得到最佳识别结果的语音数据；

模糊神经网络分析模块(105)，与匹配搜索模块(103)相连，接收最佳识别结果的语音数据并对其进行语义识别及分析，得出最佳答复结果，将最佳答复结果的信息传送给匹配搜索模块(103)，由匹配搜索模块(103)进行处理并构造出所述聊天机器人的输出语音数据；

语音后处理模块(108)，与匹配搜索模块(103)相连，处理输出语音数据的强度、停顿、频率等声音参数；

语音播放模块(109)，与语音后处理模块(108)相连，将数字音频信号转化为模拟音频信号；

其中，模糊神经网络分析模块(105)带有模糊神经网络训练数据库(106)以及知识数据库(107)，

模糊神经网络训练数据库(106)为模糊神经网络分析模块(105)的训练数据集和模糊规则库；

知识数据库(107)，用于在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合，协助模糊神经网络分析模块(105)对计算得出的量化值和语音单元进行分析，识别该段语音数据的语义，以及协助模糊神经网络分析模块(105)对识别语义之后的量化值和语音单元进行分析，找出该段语音数据最佳答复结果。

2.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统，其特征在于：语音采集终端(100)与特征提取模块(102)之间连接有语音预处理模块(101)，用于对语音采集终端(100)采集的语音信号进行预处理。

3.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统，其特征在于：声音模型数据库(104)包括统计声学模型、发音词典和语言模型，是匹配搜索模块(103)进行匹配和比较的模型样本数据库。

4.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统，其特征在于：模糊神经网络分析模块(105)包括依次设置的输入层、模糊化层、模糊推理层、信息融合层及反模糊化层。

5.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统，其特征在于模糊神经网络分析模块(105)中各层如下：

第一层：输入层：假设x＝{x₁,x₂,…,x_n}表示语音输入向量，y＝{y₁,y₂,…,y_n}表示语音输出向量，x和y包括：语气量化值、场景量化值、语速量化值、角色量化值、语音单元、词句单元、音节语音单元、音素语音；输入层将输入向量值传到下一层；语音输出向量也会反馈给输入层作为输入的一部分；

<mrow> <msub> <mi>&mu;</mi> <mrow> <msubsup> <mi>A</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>/</mo> <msubsup> <mi>&sigma;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow>

输出量y也为模糊语言变量，且其中B^j(j＝1,2,…,m_y)是y的第j个语言变量值，它是定义在论域U_y上的一个模糊集合，相应的隶属度函数为

R_j:如果x₁是and…andx_n是则y是B^j

其隶属度为：

<mrow> <mi>y</mi> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Integral;</mo> <msub> <mi>U</mi> <mi>y</mi> </msub> </munder> <msub> <mi>y&mu;</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>y</mi> </mrow> <mrow> <munder> <mo>&Integral;</mo> <msub> <mi>U</mi> <mi>y</mi> </msub> </munder> <msub> <mi>&mu;</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>y</mi> </mrow> </mfrac> <mo>.</mo> </mrow>

6.一种采用上述权利要求1-6中任一项所述的聊天机器人系统进行聊天的方法，其特征在于该方法包括以下步骤：

步骤1：对用户语音信息进行采集，将其作为输入数据存入模糊神经网络训练数据库(106)用以形成模糊神经网络学习样本，并提供给语音预处理模块(101)进行语音数据预处理；

步骤2：通过特征提取模块(102)对经过预处理的语音数据进行特征参数提取；

步骤3：匹配搜索模块(103)根据特征提取模块(102)用户输入的语音波形中提取的能够反映语义信息的特征参数，与声音模型数据库进行匹配搜索，计算量化值以及划分语音单元；

步骤4：模糊神经网络分析模块(105)通过读取知识数据库对量化值以及语音单元进行语义识别，输出识别参数，再对输出的识别参数进行分析计算量化值和划分语音单元，将结果数据输出；

步骤5：将结果数据再次输入匹配搜索模块(103)与声音模型数据库(104)进行匹配搜索，输出搜索结果，一方面将输出结果应用于计算输出层各层误差是否小于设定的误差，若小于设定误差则数据传入模糊神经网络训练数据库(106)形成模糊神经网络学习样本，若大于设定误差则调整输出层各层参数并将数据传入模糊神经网络识别语义的分析阶段；另一方面将输出结果输入语音后处理模块(108)进行语音数据处理，将应答语音数据存入模糊神经网络训练数据库(106)形成模糊神经网络学习样本提供给语音预处理模块(101)；

步骤6：将经语音预处理模块(101)处理后的语音数据作为应答语音数据通过语音播放模块进行输出，实现机器人的有声应答。