CN107329996A - 一种基于模糊神经网络的聊天机器人系统与聊天方法 - Google Patents

一种基于模糊神经网络的聊天机器人系统与聊天方法 Download PDF

Info

Publication number
CN107329996A
CN107329996A CN201710428685.3A CN201710428685A CN107329996A CN 107329996 A CN107329996 A CN 107329996A CN 201710428685 A CN201710428685 A CN 201710428685A CN 107329996 A CN107329996 A CN 107329996A
Authority
CN
China
Prior art keywords
voice
mrow
msub
fuzzy
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710428685.3A
Other languages
English (en)
Other versions
CN107329996B (zh
Inventor
蔡政英
胡绍齐
范红梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN201710428685.3A priority Critical patent/CN107329996B/zh
Publication of CN107329996A publication Critical patent/CN107329996A/zh
Application granted granted Critical
Publication of CN107329996B publication Critical patent/CN107329996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Manipulator (AREA)

Abstract

一种基于模糊神经网络的聊天机器人系统,所述系统包括:语音采集终端;特征提取模块,与语音采集终端相连;带有声音模型数据库的匹配搜索模块,与特征提取模块相连;模糊神经网络分析模块,与匹配搜索模块相连;语音后处理模块,与匹配搜索模块相连;语音播放模块,与语音后处理模块相连;其中,模糊神经网络分析模块带有模糊神经网络训练数据库以及知识数据库。本发明提供的一种基于模糊神经网络的聊天机器人系统与聊天方法,运用模糊识别、模式匹配搜索和人工神经网络等技术,模拟人脑思维和语言的模糊推理过程,能够根据上下文和感情特征做出应答,并具有不同场景下的自学习能力。

Description

一种基于模糊神经网络的聊天机器人系统与聊天方法
技术领域
本发明涉及机器人语音聊天领域,尤其是一种基于模糊神经网络的聊天机器人系统与聊天方法。
背景技术
模糊神经网络在计算机领域内,得到了愈加广泛的重视,随着科学技术的发展和生活水平的提高,人们对智能聊天机器人的需求逐渐增强,同时对其服务要求也越来越高。聊天机器人系统可以看作是机器人产业与“互联网+”的结合,符合国家的科研及产业化发展方向。
然而目前市面上的机器人聊天技能仍然不能满足市场需要,几乎都是基于关键字检索的技术,此模式在器发展的道路上面临着一个巨大的障碍——语言的复杂性,主要表现如下:
一、众所周知,人类语言是基于上下文和感情的。在聊天对话的过程中,语义的理解和聊天的应答都需要建立在上下文和语气两者之上,同一关键词在不同的上下文和语气下,意思是不同的。目前的匹配搜索出最佳的聊天回应文本和语音,对语义理解的准确性不高,无法应答地像人一样是带有感情的。因此,聊天系统需要增加对语音上下文和感情特征的分析,在此基础上综合分析聊天文本和语音的特征。
二、语言是建立一套规则基础之上,而随着人类文明的不断进步和发展,这种规则会随时发展和演变。因此,聊天系统需要不断地进行自我学习,自我扩充,自我完善。目前的聊天机器人在与用户聊天的过程中,即使用户已经告知回答错误,聊天机器人也不能够根据错误进行学习。
三、人类的语言不是精确的关键词和数据,往往带有模糊性。人类思维的语义分析具有一定的模糊性和容错性,用户在交流中经常说出不精确的表述,诸如“大概”、“也许”、“可能”、“左右”等,甚至可能出现字词的误用,然而通常不会影响人类对语义的理解。但是目前的聊天机器显然不具有此类特性,导致其难以满足人们的聊天需求。
在国内,随着机器人及人工智能技术的发展和进步,为开发一种基于模糊神经网络的聊天机器人系统与方法提供了条件,但是,目前市场上黑未出现一种基于模糊神经网络的聊天机器人系统与方法。
发明内容
本发明所要解决的技术问题是提供一种基于模糊神经网络的聊天机器人系统与聊天方法,运用模糊识别、模式匹配搜索和人工神经网络等技术,实现聊天机器人系统对自然语言更加充分的分析理解,并实现不聊天机器人断地自我学习,更新,扩充和完善,在识别上达到一定程度的模糊性和容错性,最后使其带有感情的做出应答,还原出真实准确的聊天场景。
为解决上述技术问题,本发明所采用的技术方案是:一种基于模糊神经网络的聊天机器人系统,所述系统包括:
语音采集终端,用来接收用户与聊天机器人聊天过程中对话信息;
特征提取模块,与语音采集终端相连,用于从对话信息中提取重要的能够反映语义信息的特征参数数据;
带有声音模型数据库的匹配搜索模块,与特征提取模块相连,根据特征提取模块输入的语音信息及特征值,按照一定的规则与声音模型数据库进行匹配与比较,得到最佳识别结果的语音数据;
模糊神经网络分析模块,与匹配搜索模块相连,接收最佳识别结果的语音数据并对其进行语义识别及分析,得出最佳答复结果,将最佳答复结果的信息传送给匹配搜索模块,由匹配搜索模块进行处理并构造出所述聊天机器人的输出语音数据;
语音后处理模块,与匹配搜索模块相连,处理输出语音数据的强度、停顿、频率等声音参数;
语音播放模块,与语音后处理模块相连,将数字音频信号转化为模拟音频信号;
其中,模糊神经网络分析模块带有模糊神经网络训练数据库以及知识数据库,
模糊神经网络训练数据库为模糊神经网络分析模块的训练数据集和模糊规则库;
知识数据库,用于在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合,协助模糊神经网络分析模块对计算得出的量化值和语音单元进行分析,识别该段语音数据的语义,以及协助模糊神经网络分析模块对识别语义之后的量化值和语音单元进行分析,找出该段语音数据最佳答复结果。
语音采集终端与特征提取模块之间连接有语音预处理模块,用于对语音采集终端采集的语音信号进行预处理。
声音模型数据库包括统计声学模型、发音词典和语言模型,是匹配搜索模块进行匹配和比较的模型样本数据库。
模糊神经网络分析模块包括依次设置的输入层、模糊化层、模糊推理层、信息融合层及反模糊化层。
模糊神经网络分析模块中各层如下:
第一层:输入层:假设x={x1,x2,…,xn}表示语音输入向量, y={y1,y2,…,yn}表示语音输出向量,x和y包括:语气量化值、场景量化值、语速量化值、角色量化值、语音单元、词句单元、音节语音单元、音素语音;输入层将输入向量值传到下一层;语音输出向量也会反馈给输入层作为输入的一部分;
第二层:模糊化层:假设x=[x1,x2,…,xn]T,每个分量xi表示模糊语言向量,并设其中是xi的第j个语音变量值,它是定义在论域Ui上的一个模糊集合,相应的隶属度函数为隶属度函数取高斯函数,即:
输出量y也为模糊语言变量,且其中 Bj(j=1,2,…,my)是y的第j个语言变量值,它是定义在论域Uy上的一个模糊集合,相应的隶属度函数为
第三层:该层的每个节点代表一条模糊规则,它的作用是计算每条规则的适用度,设描述输入输出关系的模糊规则为
Rj:如果x1则y是Bj
式中,j=1,2,…,m,m为模糊神经网络推理规则数,m≤m1m2…mn
若输入量采用单点模糊集合的模糊化方法,则对于给定的输入x,可以求得对于每条规则的适用度为
通过模糊推理可得对于每一条模糊规则的输入量模糊集合Bj的隶属度函数为
第四层:信息融合层:其功能是归一化计算,从而输出量总的模糊集合为
其隶属度为:
第五层:反模糊化输出层:实现清晰化计算,采用加权平均的清晰化方法,得到输出语音清晰化向量为
一种采用上述聊天机器人系统进行聊天的方法,该方法包括以下步骤:
步骤1:对用户语音信息进行采集,将其作为输入数据存入模糊神经网络训练数据库用以形成模糊神经网络学习样本,并提供给语音预处理模块进行语音数据预处理;
步骤2:通过特征提取模块对经过预处理的语音数据进行特征参数提取;
步骤3:匹配搜索模块根据特征提取模块用户输入的语音波形中提取的能够反映语义信息的特征参数,与声音模型数据库进行匹配搜索,计算量化值以及划分语音单元;
步骤4:模糊神经网络分析模块通过读取知识数据库对量化值以及语音单元进行语义识别,输出识别参数,再对输出的识别参数进行分析计算量化值和划分语音单元,将结果数据输出;
步骤5:将结果数据再次输入匹配搜索模块与声音模型数据库进行匹配搜索,输出搜索结果,一方面将输出结果应用于计算输出层各层误差是否小于设定的误差,若小于设定误差则数据传入模糊神经网络训练数据库形成模糊神经网络学习样本,若大于设定误差则调整输出层各层参数并将数据传入模糊神经网络识别语义的分析阶段;另一方面将输出结果输入语音后处理模块进行语音数据处理,将应答语音数据存入模糊神经网络训练数据库形成模糊神经网络学习样本提供给语音预处理模块;
步骤6:将经语音预处理模块处理后的语音数据作为应答语音数据通过语音播放模块进行输出,实现机器人的有声应答。
本发明提供的一种基于模糊神经网络的聊天机器人系统与聊天方法,有益效果如下:
1、基于语音上下文和声音情感相结合的方式:在此基础上建立声音模型数据库,在模糊神经网络数据库和知识数据库中进行模糊匹配,使得聊天系统对应答结果的搜索更为完善,同时还匹配搜索出应答语气和情感。人类思维是具有联想能力的,人类之间的聊天并不是单纯的一问一答模式,而是需要更多的联想使得对话更为生动、活泼,具有更加智能逼真的效果。模糊神经网络具有联想存储功能,通过上下文和情感分析就可以实现这种联想。
2、能够自行学习。采用模糊识别和人工神经网络相结合的方式实现语音语义识别,本发明突破了传统单一的语音识别方式。具有自学习功能。实现语音识别时,先把许多不同的聊天样板和对应的应识别的结果输入人工神经网络,网络就会通过自学习功能,慢慢学会识别类似的聊天对话,自学习功能对于聊天应答结果分析有特别重要的意义。在面对用户聊天出现错误的时候,具有高速寻找优化解的能力和错误学习能力。语言本身是一个很复杂的,要理解语义,在这个复杂问题中寻找一个优化解,往往需要很大的计算量,利用针对聊天对话而设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快找到优化解。
3、具有语义模糊分析功能。将模糊模式识别中引入模糊数学方法,用模糊技术来设计机器识别系统,可简化识别系统的结构,更广泛、更深入地模拟人脑的思维过程,类比人类思维的语义分析具有一定的模糊性和容错性,从而对语音信息进行更为有效的分类与识别。
4、聊天方式更接近人类智能和语言习惯。能够弥补市场上的聊天机器人仅仅依靠预期答案与问句词之间简单共现关系、句法依存关系和浅层语义关系,将聊天对象的语段进行切分,然后进行语段检索,最后进行答案的抽取和生成的模式。本发明建立了声音模型数据库,可以实现参数化的语音特征矢量到语音文字符号和语音特征矢量到聊天情感的相互映射,增加对语音特征的分析,综合分析聊天文本和语音的特征,使得该系统对语义的分析不仅仅局限于语音文本关键词的搜索匹配,而是模拟人类对话场景,同时分析语音文本和语音情感,使得对信息的理解更为充分和完善,同时使得有声应答充满感情,更逼近真实对话场景。
运用模糊识别、模式匹配搜索和人工神经网络等技术,实现聊天机器人系统对自然语言更加充分的分析理解,并实现不聊天机器人断地自我学习,更新,扩充和完善,在识别上达到一定程度的模糊性和容错性,最后使其带有感情的做出应答,还原出真实准确的聊天场景。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明系统的结构示意图;
图2为本发明实施例的语音数据处理过程示意图;
图3为本发明实施例方法的流程示意图。
具体实施方式
实施例一
如图1所示,一种基于模糊神经网络的聊天机器人系统,所述系统包括:
语音采集终端100,安装在聊天机器人头部两侧,用来接收用户与聊天机器人聊天过程中对话信息(实时拾取聊天过程中的语音信息),
采用专业灵敏的对称双拾音器,是由麦克风、音频放大电路、声卡中的信号调理器、采样保持器和模拟数字转换器等组成成分构成。将获取的声音模拟信息转化为数字信号存储在磁盘中。麦克风采用驻极体电容器麦克风,其工作原理是利用具有永久电荷隔离的聚合材料振动膜。采用对称双拾音器,麦克风的位置决定了进入声音的范围,利用声学现象来确定聊天对象的位置,将采集到的多样而丰富的声音数据传送给语音预处理模块;
所述拾音器,采用雷晟COAXB-CCTV,该款监控拾音器采用高保真低噪声处理芯片,通过多次选频有效的抑制环境噪声,音色纯正,动态威猛,内置自动增益控制(AGC)电路精心设计而成。具有噪声小、保真度高、工作电压范围宽、耗电小、传输距离远等优点。是新型的拾音器系列。内置DSP降噪电路,采用进口IC,耦合电容,表面凹凸设计降低反射,2mm针孔设计,日本进口镀银电容咪,动态闭环降噪电路,
拾音范围:5-120平方米
工作电压:DC 6V~12V
消耗电流:25mA
频率范围:200~10kHz
频率响应:2.5dB
输出阻抗:600Ω,可传输800米
输出电平:0~6V
外观尺寸:Φ=71mm,h=42mm。
特征提取模块102使用数字信号处理器完成,优选地,由于语音识别系统算法复杂度较高,同时考虑到实时性,选择TI公司的TMS320C6713DSK作为数字信号处理器核心,其最高工作时钟频率可以达到225MHz,且是高性能的浮点数字信号处理器,通过TLV320AIC23立体编解码器采样语音信号,8M字节32bit的SDRAM, 512k字节,8bit的非易失性Flash存储器。进一步地,可以使用多片数字信号处理器组成功能和性能更强大的特征提取模块。与语音采集终端100相连,用来从语音波形中提取重要的能够反映语义信息的特征参数,安装在声音采集模块的附近,主要包括带通滤波器,过零检测器,频率接收器,非线性处理器等部分。其中主要提取语音信号的声强、响度、音高、周期和基音频率等特征,并计算出声强参数、响度参数、音高参数、周期参数、基音频率参数。响度是一种主观心理量,是人类主观感觉到的声音强弱程度。音高也是一种主观心理量,是人类听觉系统对于声音频率高低的感觉。周期和基音频率反映了声门相邻两次开闭之间的时间间隔或开闭的频率,描述了语音激励源的一个重要特征。
带有声音模型数据库104的匹配搜索模块103,与特征提取模块102相连,根据特征提取模块102输入的语音信息及特征值,按照一定的规则与声音模型数据库 104进行匹配与比较,得到最佳识别结果的语音数据。
匹配搜索模块103,是根据特征提取模块用户输入的语音波形中提取重要的能够反映语义信息的特征参数,按照一定的规则与声音模型数据库进行匹配与比较,将得到最佳的识别结果。本匹配搜索算法采用基于Viterbi算法的宽度优先搜索算法,根据动态时间规整(DTW)理论,使其特征与模板特征对齐,遍历由隐马尔可夫(HMM) 状态构成的网络,并在两者之间不断地进行两个矢量最小的匹配路径计算,保证待识别特征与模板特征之间最大的声学相似性和最小的时差失真,实现大词汇量,连续语音的非特定人语音识别。
所述Viterbi搜索算法,如果给定特征矢量序列Y和模型M,Viterbi搜索算法可以定义为一下迭代过程:
(1)初始计算:
(2)迭代计算:
(3)最后计算:
式中N表示模型的状态总数,状态1为引入状态,状态N为引出状态,其余状态为发射状态,aij表示从状态i到j的转移概率,bj(y1)表示状态j产生观测矢量yt的概率,T表示观测矢量的长度,δj(t)表示第t帧特征矢量处于状态j的最大概率,表示第t帧特征矢量处于状态j之前最优的状态。由此,当迭代计算至状态N 后,可以根据记录的最优状态进行回溯,最终得到最优路径。
声音模型数据库104,其中包括统计声学模型、发音词典和语言模型,是匹配搜索模块103进行匹配和比较的模型样本数据库,是实现参数化的语音特征矢量到语音文字符号和语音特征矢量到聊天情感的映射的关键。本系统采用隐马尔科夫模型进行建模,同时,为了得到一个好的模型数据库,需要通过大量的原始语音数据来训练该声音模型数据库,不断地调整数据库中模板的参数,使系统的性能不断地向最佳状态逼近。
声音模型数据库104的硬件部分为五盘位磁盘阵列,软件部分为SQL Server2012。所述五盘位磁盘阵列采用USB3.0+Esata双高速接口智能电源联动管理, 30TB的海量存储,可同时读取多达5块2.5寸或3.5寸SATA1/11/111硬盘,USB3.0 提供5Gbps带宽,Esata提供3Gbps带宽,坚固耐用,性能稳定,为不同硬盘设计的稳定构架,防震,防尘,防电磁辐射。
具体的规格参数如下,
产品型号:Y-3359;机身材质为:铝合金;风扇:智能液压静音温控风扇;硬盘:2.5寸 /3.5寸SATA硬盘;硬盘休眠:支持;容量:30TB(6TB*5);输出接口:USB3.0/Esata;电源:100-240V 50/60HZ;系统支持:Windows XP/2K/Vista/7/8(32&64bit)\Mac OS\Linux。所述软件部分采用Sql server 2012版本。该版本的SQL Server具有以下要求:组件网络软件要求SQL Server2012支持的操作系统具有内置网络软件,独立的安装命名实例和默认实例支持以下网络协议:共享内存、命名管道、TCP/IP和VIA;组件Internet软件要求Microsoft管理控制平台(MMC)、SQL Server Data Tools (SSDT)、Reporting Services的报表设计器组件和HTML帮助都需要Internet Explorer7或更高版本;组件硬板要求SQL Server2012最少6GB的可用硬盘空间;组件驱动器要求从磁盘进行安装时需要相应的DVD驱动器;组件显示器要求SQL Server2012有Super-VGA(800*600)或更高分辨率的显示器;组件Internet要求使用 Internet功能需要连接Internet(可能需要付费)。
模糊神经网络分析模块105,与匹配搜索模块103相连,接收最佳识别结果的语音数据并对其进行语义识别及分析,得出最佳答复结果,将最佳答复结果的信息传送给匹配搜索模块103,由匹配搜索模块103进行处理并构造出所述聊天机器人的输出语音数据;
模糊神经网络分析模块105,是由模糊逻辑与神经网络的有机结合的一种智能系统,是本系统的核心,具有较强的分类分析能力,用于对匹配搜索模块得出的语义信息进行分析,得出基于该语义的最佳反馈信息,该模块模拟大脑运行机制,采用大量的简单的模糊识别处理单元并行连接构成一种信息处理系统,该系统包含神经元、网络拓扑和网络训练算法。
其识别算法如下:
模糊神经网络分析模块105包括依次设置的输入层、模糊化层、模糊推理层、信息融合层及反模糊化层。
模糊神经网络分析模块105中各层如下:
第一层:输入层:假设x={x1,x2,…,xn}表示语音输入向量, y={y1,y2,…,yn}表示语音输出向量,x和y包括:语气量化值、场景量化值、语速量化值、角色量化值、语音单元、词句单元、音节语音单元、音素语音;输入层将输入向量值传到下一层;语音输出向量也会反馈给输入层作为输入的一部分;
第二层:模糊化层:假设x=[x1,x2,…,xn]T,每个分量xi表示模糊语言向量,并设其中是xi的第j个语音变量值,它是定义在论域Ui上的一个模糊集合,相应的隶属度函数为隶属度函数取高斯函数,即:
输出量y也为模糊语言变量,且其中 Bj(j=1,2,…,my)是y的第j个语言变量值,它是定义在论域Uy上的一个模糊集合,相应的隶属度函数为
第三层:该层的每个节点代表一条模糊规则,它的作用是计算每条规则的适用度,设描述输入输出关系的模糊规则为
Rj:如果x1则y是Bj
式中,j=1,2,…,m,m为模糊神经网络推理规则数,m≤m1m2…mn
若输入量采用单点模糊集合的模糊化方法,则对于给定的输入x,可以求得对于每条规则的适用度为
通过模糊推理可得对于每一条模糊规则的输入量模糊集合Bj的隶属度函数为
第四层:信息融合层:其功能是归一化计算,从而输出量总的模糊集合为
其隶属度为:
第五层:反模糊化输出层:实现清晰化计算,采用加权平均的清晰化方法,得到输出语音清晰化向量为
由于计算上式的积分很麻烦,实际计算通常采用下面的近似公式
其中是使μB(y)取最大值的点,它一般也就是隶属度函数的中心点,所以
从而输出变量的表达式变为
其中
模糊神经网络的学习算法如下
其中有两种信号在流通:一是工作(识别),它是输入信号与权值的函数。二是误差信号,网络实际输出与应有输出间的差值即为误差,它是输出端开始逐层向后反向传播。根据图2的信号传递图可以设计以下误差调整算法。
设误差代价函数为:
式中ti和yi分别表示期望输出和实际输出,i=1,2,3,…r为迭代计算的次数。
语音后处理模块108,安装在机器人胸部,与匹配搜索模块103相连,处理输出语音数据的强度、停顿、频率等声音参数;
用来将聊天机器人匹配搜索模块103从声音模型数据库104中的反馈信息加工处理,主要为音频处理器。用于弥补系统的频响特性缺陷,控制输出信号的强度,调节频率、带宽或Q值、增益、矫正延时等。
语音后处理模块108用到的硬件部分为Vinal X5前级效果器。
所述Vinal X5前级效果器采用DSP数字处理技术,数控模拟音频处理电路,音乐、麦克风音调采用七段均衡器调节,专业防啸叫技术,X5专业数字前置效果放大器采用数字混响处理,人声效果更加丰富、自然、通透,前面板设有DSP数字控制显示,可调节音调与混响,让效果更细腻更能满足不同听觉的需要,输出有前后左右声道,中置声道,超低频声道,数字自动恢复,100%的器件均采用SMT贴片技术,使得X5具有很高的稳定性和惊人的一致性。
具体的规格参数如下,型号:X5;最大输入电平:4V(RMS);最大输出电平: 4V(RMS);Music通道增益:MAX:12DB;麦克风灵敏度:64mv(out:4v);信噪比:>80db;输入电压:-220v 50HZ;尺寸(长X宽X高):483X218.5X47.5mm;净重:3.5Kg.
语音播放模块109,安装在机器人颈部,与语音后处理模块108相连,将数字音频信号转化为模拟音频信号,用来将语音后处理模块108加工处理后的语音信息播放出来,以实现聊天机器人的有声应答;
语音播放模块109涉及到的硬件部分是语音播放器。
所述语音播放器支持DIY功能配件可自定义,支持2G、SD卡,可读卡播放,内置5-30分钟高音质MP3模块,支持自定义语音内容,10级音量控制,任何场合可调节,内置14W功效,声音洪亮。
具体的规格参数如下,机身尺寸:27*18*13CM;供电方式:DC12V-24V稳压电源;工作电流:待机状态:小于等于50MA,放音状态小于等于35MA;支持音频格式:MP3;音频播放时长:5-30分钟;音频输出功率:32Ω/14W(典型值)。
模糊神经网络分析模块105带有模糊神经网络训练数据库106以及知识数据库107,
模糊神经网络训练数据库106安装在聊天机器人胸部,为模糊神经网络分析模块105的训练数据集和模糊规则库,用来存储语音预处理模块101处理之后的用户语音数据以及模糊神经网络分析模块105对用户语音进行应答的语音数据,并将存储的各类数据作为模糊神经网络学习样本提供给语音数据预处理模块101,作为语音预处理模块101的模板。
模糊神经网络训练数据库106的硬件部分为五盘位磁盘阵列,软件部分为SQLServer2012。所述五盘位磁盘阵列采用USB3.0+Esata双高速接口智能电源联动管理, 30TB的海量存储,可同时读取多达5块2.5寸或3.5寸SATA1/11/111硬盘,USB3.0 提供5Gbps带宽,Esata提供3Gbps带宽,坚固耐用,性能稳定,为不同硬盘设计的稳定构架,防震,防尘,防电磁辐射。
具体的规格参数如下,产品型号:Y-3359;机身材质为:铝合金;风扇:智能液压静音温控风扇;硬盘:2.5寸/3.5寸SATA硬盘;硬盘休眠:支持;容量:30TB(6TB*5);输出接口:USB3.0/Esata;电源:100-240V 50/60HZ;系统支持:Windows XP/2K/Vista/7/8(32&64bit)\Mac OS\Linux。所述软件部分采用Sql server 2012版本。该版本的SQL Server具有以下要求:组件网络软件要求SQL Server2012支持的操作系统具有内置网络软件,独立的安装命名实例和默认实例支持以下网络协议:共享内存、命名管道、TCP/IP和VIA;组件Internet软件要求Microsoft管理控制平台(MMC)、 SQL Server Data Tools(SSDT)、Reporting Services的报表设计器组件和HTML帮助都需要Internet Explorer7或更高版本;组件硬板要求SQL Server2012最少6GB的可用硬盘空间;组件驱动器要求从磁盘进行安装时需要相应的DVD驱动器;组件显示器要求SQL Server2012有Super-VGA(800*600)或更高分辨率的显示器;组件Internet 要求使用Internet功能需要连接Internet(可能需要付费)。
知识数据库107,安装在聊天机器人胸部,知识库是基于知识的系统,知识库是结构化,易操作,易利用,全面有组织的知识集群,是针对聊天对话的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合,这些知识片包括与聊天相关的理论知识、事实数据,由专家经验得到的启发式知识,如各领域内有关的定义、定理和运算法则以及常识性知识等,是聊天机器人智能应答的信息来源。
知识数据库107协助模糊神经网络分析模块105对计算得出的量化值和语音单元进行分析,识别该段语音数据的语义,以及协助模糊神经网络分析模块105对识别语义之后的量化值和语音单元进行分析,找出该段语音数据最佳答复结果;
知识数据库107的硬件部分为五盘位磁盘阵列,软件部分为SQL Server2012。所述五盘位磁盘阵列采用USB3.0+Esata双高速接口智能电源联动管理,30TB的海量存储,可同时读取多达5块2.5寸或3.5寸SATA1/11/111硬盘,USB3.0提供5Gbps 带宽,Esata提供3Gbps带宽,坚固耐用,性能稳定,为不同硬盘设计的稳定构架,防震,防尘,防电磁辐射。
具体的规格参数如下,产品型号:Y-3359;机身材质为:铝合金;风扇:智能液压静音温控风扇;硬盘:2.5寸/3.5寸SATA硬盘;硬盘休眠:支持;容量:30TB(6TB*5);输出接口:USB3.0/Esata;电源:100-240V 50/60HZ;系统支持:Windows XP/2K/Vista/7/8(32&64bit)\Mac OS\Linux。所述软件部分采用Sql server 2012版本。该版本的SQL Server具有以下要求:组件网络软件要求SQL Server2012支持的操作系统具有内置网络软件,独立的安装命名实例和默认实例支持以下网络协议:共享内存、命名管道、TCP/IP和VIA;组件Internet软件要求Microsoft管理控制平台(MMC)、 SQL Server Data Tools(SSDT)、Reporting Services的报表设计器组件和HTML帮助都需要Internet Explorer7或更高版本;组件硬板要求SQL Server2012最少6GB的可用硬盘空间;组件驱动器要求从磁盘进行安装时需要相应的DVD驱动器;组件显示器要求SQL Server2012有Super-VGA(800*600)或更高分辨率的显示器;组件Internet 要求使用Internet功能需要连接Internet(可能需要付费)。
语音采集终端100与特征提取模块102之间连接有语音预处理模块101,用于对语音采集终端100采集的语音信号进行采样、去除噪音、端点检测、预加重和加窗分帧等预处理。语音预处理模块101,优选地,使用TLV320AIC23对模拟语音信号进行采样,语音采样频率为8kHz,采样量化精度为16bit,双声道。采样信号通过数字信息号处理器进行必要的预处理,优选地,选择TI公司的TMS320C6713DSK作为数字信号处理器核心,其最高工作时钟频率可以达到225MHz,且是高性能的浮点数字信号处理器,通过TLV320AIC23立体编解码器采样语音信号,8M字节32bit 的SDRAM,512k字节,8bit的非易失性Flash存储器。进一步地,可以使用多片数字信号处理器组成功能和性能更强大的特征提取模块。
所述去除噪音,在实际环境中,声音无时无刻不受到各种噪音的干扰,噪音会使得识别率下降甚至失败;根据给定滤波器的性能指标,采用双线性变换设计滤波器;然后用设计的滤波器对采集的信号进行滤波,利用巴特沃斯低通滤波器滤去带外的噪声。
所述端点检测,端点检测包括起点检测和末尾检测,即找出语音段的开始和结尾,端点检测的准确性将影响识别性能;语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段,平均能量最低;浊音段为声带振动发出对应的语音信号段,平均能量最高;清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于前两者之间。清音段和无声段的波形特点有明显的不同,无声段信号变化较为缓慢,而清音段信号在幅度上变化剧烈,穿越零电平次数也多。经验表明,通常清音段过零率最大。
端点检测首先判断/有声0还是/无声0,如果有声,则还要判断是/清音0还是/浊音0。为正确地实现端点检测,一般综合利用短时能量和过零率两个特征,采用/双门限检测法0。根据信号设置三个阈值:能量阈值,TL,TH;过零率阈值ZCR,当某帧信号大于TL或者大于ZCR时,认为信号的开始、起点,当大于TH时,则认为正式的语音信号,如果保持一段时间,则确认这信号即所需信号。
基于两个公式,即短时能量和短时过零率。
设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式为:
其中N为信号帧长。
过零率公式:
其中
sgn[]是符号函数,即:
所述预加重,语音是由声门激励通过系统声道等产生的,声门激励属于低频,所以语音的能量主要集中在低频,相对于低频来说,高频的能量较低,采用预加重的方法,提升高频分量有助于提高信噪比。预加重第一级滤波器提升高频,公式如下:
x'[n]=x[n]-α×[n-1] 0.95<α<0.99
所述加窗分帧,语音信号是不断改变的非平稳,但是非平稳的信号不好处理,所以语音处理算法通常假定信号是稳定的。分段短时平稳性:将语音信号看成是由一帧帧构成假定被帧是平稳的加窗:在时域上,波形乘以窗函数即可得到加窗后的波形,公式为
x[n]=w[n]·s[n]
如果简单地将语音信号分成很多小段,那么这些小段帧就是矩形窗,而矩形窗的边缘是陡峭的,即不连续的,所以应该选取边缘连续的窗函数,采用交叠分段的方法使得相邻两帧可以平滑过渡。在语音处理中,通常使用锥形的窗代替矩形窗,比如汉明窗Hamming或者汉宁窗Hanning,窗函数如下:
其中,α为窗函数的系数,汉明窗为α=0.46164,汉宁窗为α=0.5。
声音模型数据库104包括统计声学模型、发音词典和语言模型,是匹配搜索模块103进行匹配和比较的模型样本数据库。
如图2所示,特征提取模块102将语音数据通过带通波滤器、过零检测器、频率接收器、非线性处理器的处理,提取出声强、响度、音高、周期、基因频率这五个语言参数;
将上述的语言特征参数传给匹配搜索模块103,在匹配搜索模,103中将声强参数、响度参数、音高参数、周期参数以及基因频率参数基于动态时间规整(DTW)和隐马尔可夫(HMM)理论与声音模型数据库进行匹配与比较,计算量化值(语气量化值、场景量化值、语速量化值、角色量化值)以及划分语音单元(词句语音单元、音节语音单元、音素语音单元等);
在模糊神经网络分析模块105,匹配模糊神经网络训练数据库106以及知识数据库107对语气量化值、场景量化值、语速量化值、角色量化值、此举语音单元、音节语音单元、音素语音单元进行模糊化、模糊规则以及信息融合;
将得出的结论传给模糊神经网络训练数据库106和知识数据库107,并作为识别输出层参数输给下一模块。
实施例二
如图3所示:一种采用上述聊天机器人系统进行聊天的方法,该方法包括以下步骤:
步骤1:机器人被启动后进行系统初始化和自检,初步预防系统在聊天过程出现故障。
步骤2:当用户与机器人进行聊天时,系统采集模式初始化已完成,对用户语音信息进行采集,采集的语音数据有两个用途:
一、将其作为输入数据存入模糊神经网络训练数据库106用以形成模糊神经网络学习样本,
二、提供给语音预处理模块101进行采样、去除噪音、端点检测、预加重和加窗分帧等语音数据预处理。
步骤3:通过特征提取模块102对经过预处理的语音数据进行特征参数(声强、响度、音高、周期和基音频率)提取.
步骤4:匹配搜索模块103根据特征提取模块102用户输入的语音波形中提取的能够反映语义信息的特征参数(声强参数、响度参数、音高参数、周期参数、基音频率参数),按照基于动态时间规整(DTW)和隐马尔可夫(HMM)理论与与声音模型数据库进行匹配搜索,计算量化值(语气量化值、场景量化值、语速量化值、角色量化值)以及划分语音单元(词句语音单元、音节语音单元、音素语音单元等)。
步骤5:模糊神经网络分析模块105通过读取知识数据库对量化值以及语音单元进行语义识别,输出识别参数,再对输出的识别参数进行分析计算量化值和划分语音单元,将结果数据输出;
步骤6:将结果数据再次输入匹配搜索模块103并按照基于动态时间规整(DTW) 和隐马尔可夫(HMM)理论与声音模型数据库104进行匹配搜索,通过匹配搜索模块(103)与声音模型数据库(104)的匹配与比较,组织、构造出该聊天机器人的输出语音数据,一方面将输出语音数据应用于计算输出层各层误差是否小于设定的误差,若小于设定误差则数据传入模糊神经网络训练数据库106形成模糊神经网络学习样本,若大于设定误差则调整输出层各层参数并将数据传入模糊神经网络识别语义的分析阶段;另一方面将输出结果输入语音后处理模块108进行语音数据处理(处理输出语音的强度、停顿、频率等声音参数),将应答语音数据存入模糊神经网络训练数据库106形成模糊神经网络学习样本提供给语音预处理模块101;
步骤7:将经语音预处理模块101处理后的语音数据(将数字音频信号转化为模拟音频信号)作为应答语音数据通过语音播放模块进行输出,实现机器人的有声应答 (人与机器进行自然语言的交流)。
若用户继续与机器人进行聊天,则从用户语音数据采集模式初始化至机器人的语音播放输出数据进行循环。若用户停止与机器人进行聊天,则保存上述聊天涉及到的数据并关闭该聊天机器人系统。
上述的实施例仅为本发明的优选技术方案,而不应视为对于本发明的限制。本申请中的实施例及实施例中的特征在不冲突的情况下,可以相互任意组合。本发明的保护范围,应以权利要求记载的技术方案,包括权利要求记载的技术方案中技术特征的等同替换方案等,为保护范围。即在此范围内的等同替换改进,也在本发明的保护范围之内。

Claims (6)

1.一种基于模糊神经网络的聊天机器人系统,其特征在于所述系统包括:
语音采集终端(100),用来接收用户与聊天机器人聊天过程中对话信息;
特征提取模块(102),与语音采集终端(100)相连,用于从对话信息中提取重要的能够反映语义信息的特征参数数据;
带有声音模型数据库(104)的匹配搜索模块(103),与特征提取模块(102)相连,根据特征提取模块(102)输入的语音信息及特征值,按照一定的规则与声音模型数据库(104)进行匹配与比较,得到最佳识别结果的语音数据;
模糊神经网络分析模块(105),与匹配搜索模块(103)相连,接收最佳识别结果的语音数据并对其进行语义识别及分析,得出最佳答复结果,将最佳答复结果的信息传送给匹配搜索模块(103),由匹配搜索模块(103)进行处理并构造出所述聊天机器人的输出语音数据;
语音后处理模块(108),与匹配搜索模块(103)相连,处理输出语音数据的强度、停顿、频率等声音参数;
语音播放模块(109),与语音后处理模块(108)相连,将数字音频信号转化为模拟音频信号;
其中,模糊神经网络分析模块(105)带有模糊神经网络训练数据库(106)以及知识数据库(107),
模糊神经网络训练数据库(106)为模糊神经网络分析模块(105)的训练数据集和模糊规则库;
知识数据库(107),用于在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合,协助模糊神经网络分析模块(105)对计算得出的量化值和语音单元进行分析,识别该段语音数据的语义,以及协助模糊神经网络分析模块(105)对识别语义之后的量化值和语音单元进行分析,找出该段语音数据最佳答复结果。
2.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统,其特征在于:语音采集终端(100)与特征提取模块(102)之间连接有语音预处理模块(101),用于对语音采集终端(100)采集的语音信号进行预处理。
3.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统,其特征在于:声音模型数据库(104)包括统计声学模型、发音词典和语言模型,是匹配搜索模块(103)进行匹配和比较的模型样本数据库。
4.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统,其特征在于:模糊神经网络分析模块(105)包括依次设置的输入层、模糊化层、模糊推理层、信息融合层及反模糊化层。
5.根据权利要求1所述的一种基于模糊神经网络的聊天机器人系统,其特征在于模糊神经网络分析模块(105)中各层如下:
第一层:输入层:假设x={x1,x2,…,xn}表示语音输入向量,y={y1,y2,…,yn}表示语音输出向量,x和y包括:语气量化值、场景量化值、语速量化值、角色量化值、语音单元、词句单元、音节语音单元、音素语音;输入层将输入向量值传到下一层;语音输出向量也会反馈给输入层作为输入的一部分;
第二层:模糊化层:假设x=[x1,x2,…,xn]T,每个分量xi表示模糊语言向量,并设其中是xi的第j个语音变量值,它是定义在论域Ui上的一个模糊集合,相应的隶属度函数为隶属度函数取高斯函数,即:
<mrow> <msub> <mi>&amp;mu;</mi> <mrow> <msubsup> <mi>A</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mo>{</mo> <mo>-</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>/</mo> <msubsup> <mi>&amp;sigma;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow>
输出量y也为模糊语言变量,且其中Bj(j=1,2,…,my)是y的第j个语言变量值,它是定义在论域Uy上的一个模糊集合,相应的隶属度函数为
第三层:该层的每个节点代表一条模糊规则,它的作用是计算每条规则的适用度,设描述输入输出关系的模糊规则为
Rj:如果x1and…andxn则y是Bj
式中,j=1,2,…,m,m为模糊神经网络推理规则数,m≤m1m2…mn
若输入量采用单点模糊集合的模糊化方法,则对于给定的输入x,可以求得对于每条规则的适用度为
<mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msub> <mi>&amp;mu;</mi> <msubsup> <mi>A</mi> <mn>1</mn> <mi>j</mi> </msubsup> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>&amp;mu;</mi> <msubsup> <mi>A</mi> <mn>2</mn> <mi>j</mi> </msubsup> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>&amp;mu;</mi> <msubsup> <mi>A</mi> <mi>i</mi> <mi>j</mi> </msubsup> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow>
通过模糊推理可得对于每一条模糊规则的输入量模糊集合Bj的隶属度函数为
第四层:信息融合层:其功能是归一化计算,从而输出量总的模糊集合为
<mrow> <mi>B</mi> <mo>=</mo> <munderover> <mrow> <mi></mi> <mo>&amp;cup;</mo> </mrow> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>B</mi> <mi>j</mi> </msub> </mrow>
其隶属度为:
<mrow> <msub> <mi>&amp;mu;</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;mu;</mi> <msub> <mi>B</mi> <mi>j</mi> </msub> </msub> <mo>(</mo> <mi>y</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
第五层:反模糊化输出层:实现清晰化计算,采用加权平均的清晰化方法,得到输出语音清晰化向量为
<mrow> <mi>y</mi> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&amp;Integral;</mo> <msub> <mi>U</mi> <mi>y</mi> </msub> </munder> <msub> <mi>y&amp;mu;</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>y</mi> </mrow> <mrow> <munder> <mo>&amp;Integral;</mo> <msub> <mi>U</mi> <mi>y</mi> </msub> </munder> <msub> <mi>&amp;mu;</mi> <mi>B</mi> </msub> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>y</mi> </mrow> </mfrac> <mo>.</mo> </mrow>
6.一种采用上述权利要求1-6中任一项所述的聊天机器人系统进行聊天的方法,其特征在于该方法包括以下步骤:
步骤1:对用户语音信息进行采集,将其作为输入数据存入模糊神经网络训练数据库(106)用以形成模糊神经网络学习样本,并提供给语音预处理模块(101)进行语音数据预处理;
步骤2:通过特征提取模块(102)对经过预处理的语音数据进行特征参数提取;
步骤3:匹配搜索模块(103)根据特征提取模块(102)用户输入的语音波形中提取的能够反映语义信息的特征参数,与声音模型数据库进行匹配搜索,计算量化值以及划分语音单元;
步骤4:模糊神经网络分析模块(105)通过读取知识数据库对量化值以及语音单元进行语义识别,输出识别参数,再对输出的识别参数进行分析计算量化值和划分语音单元,将结果数据输出;
步骤5:将结果数据再次输入匹配搜索模块(103)与声音模型数据库(104)进行匹配搜索,输出搜索结果,一方面将输出结果应用于计算输出层各层误差是否小于设定的误差,若小于设定误差则数据传入模糊神经网络训练数据库(106)形成模糊神经网络学习样本,若大于设定误差则调整输出层各层参数并将数据传入模糊神经网络识别语义的分析阶段;另一方面将输出结果输入语音后处理模块(108)进行语音数据处理,将应答语音数据存入模糊神经网络训练数据库(106)形成模糊神经网络学习样本提供给语音预处理模块(101);
步骤6:将经语音预处理模块(101)处理后的语音数据作为应答语音数据通过语音播放模块进行输出,实现机器人的有声应答。
CN201710428685.3A 2017-06-08 2017-06-08 一种基于模糊神经网络的聊天机器人系统与聊天方法 Active CN107329996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710428685.3A CN107329996B (zh) 2017-06-08 2017-06-08 一种基于模糊神经网络的聊天机器人系统与聊天方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710428685.3A CN107329996B (zh) 2017-06-08 2017-06-08 一种基于模糊神经网络的聊天机器人系统与聊天方法

Publications (2)

Publication Number Publication Date
CN107329996A true CN107329996A (zh) 2017-11-07
CN107329996B CN107329996B (zh) 2021-06-29

Family

ID=60194973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710428685.3A Active CN107329996B (zh) 2017-06-08 2017-06-08 一种基于模糊神经网络的聊天机器人系统与聊天方法

Country Status (1)

Country Link
CN (1) CN107329996B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364066A (zh) * 2017-11-30 2018-08-03 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN108573705A (zh) * 2018-07-17 2018-09-25 上海应用技术大学 智能语音聊天器
CN108665893A (zh) * 2018-03-30 2018-10-16 斑马网络技术有限公司 车载声音反应系统及方法
CN109298681A (zh) * 2018-10-16 2019-02-01 山东中衡光电科技有限公司 一种与人共融的镜面加工设备控制系统及方法
CN109451188A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 差异性自助应答的方法、装置、计算机设备和存储介质
CN109492795A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ai的机场登机服务处理方法、装置、设备及介质
CN109492126A (zh) * 2018-11-02 2019-03-19 廊坊市森淼春食用菌有限公司 一种智能交互方法及装置
CN109547320A (zh) * 2018-09-29 2019-03-29 阿里巴巴集团控股有限公司 社交方法、装置及设备
CN109766411A (zh) * 2019-01-14 2019-05-17 广东小天才科技有限公司 一种搜索问题的解析的方法及系统
CN109760041A (zh) * 2017-11-10 2019-05-17 贝斯平环球公司 基于聊天机器人的云管理系统及其操作方法
CN109785828A (zh) * 2017-11-13 2019-05-21 通用汽车环球科技运作有限责任公司 基于用户语音风格的自然语言生成
WO2019233359A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
CN111314451A (zh) * 2020-02-07 2020-06-19 普强时代(珠海横琴)信息技术有限公司 一种基于云计算应用的语言处理系统
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备
CN112201249A (zh) * 2020-09-29 2021-01-08 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN114430378A (zh) * 2020-10-15 2022-05-03 中国移动通信集团浙江有限公司 聊天机器人的异常检测方法、装置、计算设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1298582A1 (en) * 2001-09-27 2003-04-02 BRITISH TELECOMMUNICATIONS public limited company Method and apparatus for data analysis
CN1567431A (zh) * 2003-07-10 2005-01-19 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
US20070061022A1 (en) * 1991-12-23 2007-03-15 Hoffberg-Borghesani Linda I Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
CN202736475U (zh) * 2011-12-08 2013-02-13 华南理工大学 一种聊天机器人
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061022A1 (en) * 1991-12-23 2007-03-15 Hoffberg-Borghesani Linda I Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
EP1298582A1 (en) * 2001-09-27 2003-04-02 BRITISH TELECOMMUNICATIONS public limited company Method and apparatus for data analysis
CN1567431A (zh) * 2003-07-10 2005-01-19 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
CN202736475U (zh) * 2011-12-08 2013-02-13 华南理工大学 一种聊天机器人
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
和兴敏: "基于HMM算法的仿人机器人语音识别技术的研究", 《中国优秀硕士学位论文全文数据库》 *
王鹏: "基于模糊神经网络语音识别系统的研究", 《中国优秀硕士学位论文全文数据库》 *
蔡政英等: "模糊偏好环境下Vague集多层群体决策", 《华中科技大学学报(自然科学版)》 *
陆虎敏: "《飞机座舱显示与控制技术》", 31 December 2015 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109760041A (zh) * 2017-11-10 2019-05-17 贝斯平环球公司 基于聊天机器人的云管理系统及其操作方法
CN109760041B (zh) * 2017-11-10 2022-05-06 贝斯平环球公司 基于聊天机器人的云管理系统及其操作方法
CN109785828A (zh) * 2017-11-13 2019-05-21 通用汽车环球科技运作有限责任公司 基于用户语音风格的自然语言生成
CN109785828B (zh) * 2017-11-13 2023-05-23 通用汽车环球科技运作有限责任公司 基于用户语音风格的自然语言生成
CN108388944A (zh) * 2017-11-30 2018-08-10 中国科学院计算技术研究所 Lstm神经网络芯片及其使用方法
CN108388944B (zh) * 2017-11-30 2019-10-18 中国科学院计算技术研究所 一种基于深度神经网络的自动聊天方法和机器人
CN108364066B (zh) * 2017-11-30 2019-11-08 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN108364066A (zh) * 2017-11-30 2018-08-03 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN108665893A (zh) * 2018-03-30 2018-10-16 斑马网络技术有限公司 车载声音反应系统及方法
WO2019233359A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 对音乐进行通透处理的方法及设备
US11887615B2 (en) 2018-06-05 2024-01-30 Anker Innovations Technology Co., Ltd. Method and device for transparent processing of music
CN108573705A (zh) * 2018-07-17 2018-09-25 上海应用技术大学 智能语音聊天器
CN109547320A (zh) * 2018-09-29 2019-03-29 阿里巴巴集团控股有限公司 社交方法、装置及设备
CN109492795A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ai的机场登机服务处理方法、装置、设备及介质
CN109298681A (zh) * 2018-10-16 2019-02-01 山东中衡光电科技有限公司 一种与人共融的镜面加工设备控制系统及方法
CN109492126B (zh) * 2018-11-02 2022-03-01 廊坊市森淼春食用菌有限公司 一种智能交互方法及装置
CN109492126A (zh) * 2018-11-02 2019-03-19 廊坊市森淼春食用菌有限公司 一种智能交互方法及装置
CN109451188A (zh) * 2018-11-29 2019-03-08 平安科技(深圳)有限公司 差异性自助应答的方法、装置、计算机设备和存储介质
CN109766411A (zh) * 2019-01-14 2019-05-17 广东小天才科技有限公司 一种搜索问题的解析的方法及系统
CN111314451A (zh) * 2020-02-07 2020-06-19 普强时代(珠海横琴)信息技术有限公司 一种基于云计算应用的语言处理系统
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备
CN112201249A (zh) * 2020-09-29 2021-01-08 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN112201249B (zh) * 2020-09-29 2024-05-17 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN114430378A (zh) * 2020-10-15 2022-05-03 中国移动通信集团浙江有限公司 聊天机器人的异常检测方法、装置、计算设备及存储介质
CN114430378B (zh) * 2020-10-15 2023-08-18 中国移动通信集团浙江有限公司 聊天机器人的异常检测方法、装置、计算设备及存储介质

Also Published As

Publication number Publication date
CN107329996B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN107329996A (zh) 一种基于模糊神经网络的聊天机器人系统与聊天方法
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
Song English speech recognition based on deep learning with multiple features
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
Kandali et al. Emotion recognition from Assamese speeches using MFCC features and GMM classifier
Schuller Voice and speech analysis in search of states and traits
CN105374352A (zh) 一种语音激活方法及系统
CN112581964A (zh) 一种面向多领域的智能语音交互方法
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
Kumar et al. Machine learning based speech emotions recognition system
Chenchah et al. A bio-inspired emotion recognition system under real-life conditions
CN114566189A (zh) 基于三维深度特征融合的语音情感识别方法及系统
Lin et al. Multi‐Distributed Speech Emotion Recognition Based on Mel Frequency Cepstogram and Parameter Transfer
Wang et al. A research on HMM based speech recognition in spoken English
Atmaja et al. Jointly predicting emotion, age, and country using pre-trained acoustic embedding
Fan et al. The impact of student learning aids on deep learning and mobile platform on learning behavior
Kshirsagar et al. Task-specific speech enhancement and data augmentation for improved multimodal emotion recognition under noisy conditions
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
Yue English spoken stress recognition based on natural language processing and endpoint detection algorithm
Yang [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring
Wang et al. Relevance units machine based dimensional and continuous speech emotion prediction
Luo The Improving Effect of Intelligent Speech Recognition System on English Learning
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Zheng [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240805

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Country or region after: China

Address before: 443002 No. 8, University Road, Yichang, Hubei

Patentee before: CHINA THREE GORGES University

Country or region before: China