CN111754991A - 一种采用自然语言的分布式智能交互的实现方法及其系统 - Google Patents

一种采用自然语言的分布式智能交互的实现方法及其系统 Download PDF

Info

Publication number
CN111754991A
CN111754991A CN202010594782.1A CN202010594782A CN111754991A CN 111754991 A CN111754991 A CN 111754991A CN 202010594782 A CN202010594782 A CN 202010594782A CN 111754991 A CN111754991 A CN 111754991A
Authority
CN
China
Prior art keywords
user
voice signal
frequency
mfcc
wavelet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010594782.1A
Other languages
English (en)
Inventor
汪秀英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010594782.1A priority Critical patent/CN111754991A/zh
Publication of CN111754991A publication Critical patent/CN111754991A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种智能交互的技术领域,揭露了一种采用自然语言的分布式智能交互的实现方法,包括:接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;利用基于逐级分段的VAD检测方法对用户语音信号中的噪音以及静音帧进行检测;利用WF‑MFCC算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的WF‑MFCC特征;利用结合权重和self‑attention机制的LSTM模型对WF‑MFCC特征进行提取,得到用户语义特征;利用基于信息权重的编码‑解码过程对用户语义特征进行编码、解码处理;利用基于用户信息的注意力调整过程实现自然语言的交互式生成。本发明还提出一种采用自然语言的分布式智能交互的系统。本发明实现了基于自然语言的智能交互。

Description

一种采用自然语言的分布式智能交互的实现方法及其系统
技术领域
本发明涉及智能交互的技术领域,尤其涉及一种采用自然语言的分布式智能交互的实现方法及其系统。
背景技术
随着人机交互技术的不断进步,以互联网技术为代表的信息技术的发展,使得基于对话的交互技术日益受到更广泛的重视和使用。人们在互联网中获取和生活工作息息相关的大量信息,而语言是信息中最直接的一种,如何从众多的语言信息中将合适和重要的信息进行反馈显得尤为重要。人机交互作为信息时代对人类生产生活具有重大影响的基础技术,受到广泛重视。
传统的采用自然语言的智能交互策略主要有两种:基于语言学规则的方法和基于检索的方法。但是随着应用场景的不断复杂化以及用户对于交互体验要求的不断提高,基于规则匹配的方法无法实时进行。而基于检索的聊天机器人虽然可以保证回复语句的语法合理性和语句流畅性,但却受限于训练数据中内容的丰富程度,如果用户需要的回复不在对话数据库之中,对话系统则无法给出较满意的答复。
现有深度学习方法主要采用端到端的自动语音识别模型对用户语音进行识别,然后利用传统的采用自然语言的智能交互策略进行交互,但现有的自动语音识别模型却存在以下问题,一方面,CTC语音识别模型对输出单元之间作了相互独立性假设,但事实上这对上下文紧密相关的语音识别是并不合理的,另一方面,基于注意力机制的语音识别模型将不规则的输入输出进行灵活对齐,但是通常语音识别却具有严格单调对应的输入输出,因此有可能使识别结果包含删除和插入的错误。且现有语言生成模型主要采用编码器-解码器结构对输入语料进行训练,由于缺乏外部知识,该模型只能从来自不同人生产的社交语料库中学习己有的信息,而现有的解码模型总是选择概率更大的词语作为输出,即使这些词语可能存在语义错误或者前后不一致的问题。因此当前的很多端到端的语言生成模型无法提供包含个人特征且有信息量的连贯回复。
鉴于此,在对用户语音进行准确识别的同时,如何根据用户语音识别结果,结合识别结果的上下文,进行流畅且信息丰富的回复,实现智能交互,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种采用自然语言的分布式智能交互的实现方法及其系统,在对用户语音进行准确识别的同时,如何根据用户语音识别结果,结合识别结果的上下文,进行流畅且信息丰富的回复。
为实现上述目的,本发明提供的一种采用自然语言的分布式智能交互的实现方法,包括:
接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;
利用基于逐级分段的VAD检测方法对用户语音信号中的噪音以及静音帧进行检测;
利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的WF-MFCC特征;
利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,得到用户语义特征;
利用基于信息权重的编码-解码过程对用户语义特征进行编码、解码处理;
利用基于用户信息的注意力调整过程实现自然语言的交互式生成。
可选地,所述对用户语音进行预加重、加窗分帧处理,包括:
使用数字滤波器对用户语音信号的频率进行预加重,其公式为:
H(z)=1-μz-1
其中:
z为声音频率;
μ为数字滤波器参数,本发明取为0.9375;
对所述用户语音信号进行分帧处理,通过将用户语音信号分段为每4毫秒长的帧,同时使相邻帧之间重叠约0-0.5倍帧长,防止了信号丢失;
对语音信号进行加窗处理,使帧信号的信号平滑降低到零,相当于在帧信号两端增加了坡度,平缓而不突兀,本发明所选窗函数为汉明窗的窗函数:
Figure BDA0002557126550000021
其中:
N为窗长;
n为用户语音信号。
可选地,所述基于逐级分段的VAD检测方法为:
先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,所述逐级分段处理的流程为:
Figure BDA0002557126550000031
其中:
ai(n),bi(n)分别表示不同的频域空间。
根据求取小波子带系数能量的方法判断语音段是否为静音,所述求取小波子带系数能量公式为:
Figure BDA0002557126550000032
其中:
Figure BDA0002557126550000033
为不同层的小波子带系数能量;
Figure BDA0002557126550000034
为b1(n)~b4(n),a4(n)这些小波子带的小波系数;
N(m)为小波子带中所含有的小波系数的数量;
M为小波子带的个数;
对子带的能量均值以及方差进行计算:
Figure BDA0002557126550000035
Figure BDA0002557126550000036
每一个语音帧信号特征矢量,由五个子带的平均能量以及方差构成,因此每一个语音帧信号的特征矢量为:
Yn=[E1,E2,E3,E4,E5,σ2]T
所述特征矢量由六个特征量所组成,可以看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,因此本发明设置阈值为ω,其中ω的计算公式为:
ω=2×σ2
当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧。
可选地,所述利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,包括:
1)对经预处理的用户语音信号以帧为单位进行小波分解,得到不同频段的小波系数WT,所述小波分解的计算公式为:
Figure BDA0002557126550000041
其中:
a为小波分解的尺度;
τ为小波分解的平移量;
f为用户语音信号的频率;
ω(n)为加窗后的用户语音信号;
根据系数所属的频段将各个排序好的频谱进行重组,最后合成了一个完整的频谱;
2)对不同频段的小波系数,继续采用分层快速傅里叶变化,也就是不同频段分别做快速傅里叶变换,所述快速傅里叶变换的过程为:
Figure BDA0002557126550000042
其中:
N为快速傅里叶变换的点数;
a为小波分解的尺度;
3)经离散余弦变换得到WF-MFCC特征,所述离散余弦变换的过程为:
Figure BDA0002557126550000043
n=1,2,...,L,L指MFCC系数阶数,本发明取为12;
A为小波变换尺度的总数。
可选地,所述利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,包括:
所述LSTM模型将每一个中间节点的结果都进行输出,由于本发明将用户语音信号以帧为单位进行小波分解,因此所得WF-MFCC特征为n个语音帧WF-MFCC特征的组合,若用户语音信号被分为T帧,LSTM的神经元个数为n,则经过本发明所述模型得到的输出结果为:
Figure BDA0002557126550000051
其中:
hi为输入的帧序列X={x1,x2,...,xT}通过LSTM后得到的每帧的学习结果;由于每一帧的维度为神经元的个数,因此H的形状为n*T;
self-attention层将整个H作为层输入,A作为attention的编码输出,其计算公式为:
A=softmax(g(HTW1)W2)
其中:
W1为形如n*a的矩阵,a为小波分解的尺度;
W2为形如a*dr的矩阵,dr为注意力机制中的参数;
g(·)为ReLu激活函数;
最终输入到下一层作为语音的embedding的向量,是通过attention学习到的权重值与输入的H相乘得到的结果计算出,其计算公式为:
M=A×H
其中:
A为通过attention学习到的权重值;
LSTM模型的最终输出即为用户语义特征。
可选地,所述基于信息权重的编码-解码过程为:
在编码的第i步,使用动态计算信息权重的方式生成基于信息权重的上下文矩阵ci,其计算过程如下:
Figure BDA0002557126550000052
Figure BDA0002557126550000053
Figure BDA0002557126550000054
其中:
T为用户语音信号被分为的帧数;
score(si,hi)为第i步解码器的输出;
si,hi分别为解码层和编码层的隐状态,当i=0,h0为用户语义特征;
ai,j为第i步每个编码层隐状态的权重,表示哪个隐状态对上下文向量的贡献更多。
可选地,所述基于用户信息的注意力调整过程为:
将m维的用户信息得分矩阵It通过补零的方式扩充到|V|+m维的矩阵ot
ot=[score(st,d1),...score(st,dk),score(si,h1),...score(si,hi)]
其中:
k为用户信息库中key的个数;
将合并后的分数经过softmax操作得到归一化的概率分布,从其中选择出概率最大的词或者key作为输出,如果输出是key,则从表中查找对应的用户信息进行输出。可由下式得到模型的输出yt
yt=Softmax(ot)
利用重排序方法计算模型输出句子的得分函数,选取所述得分较高的句子作为基于自然语言的交互式输出,所述重排序方法的计算公式为:
Figure BDA0002557126550000061
其中:
logp(Y|X)为给定用户语义特征X生成句子Y的对数概率;
|L|为生成句子的长度;
Figure BDA0002557126550000062
为参数,本发明将
Figure BDA0002557126550000063
设为0.5,λ设为0.3;
logp(X|Y)为将句子Y输入另一个标准的编码-解码模型,输出用户语义特征X的概率。
此外,为实现上述目的,本发明还提供一种采用自然语言的分布式智能交互系统,所述系统包括:
语音传感器装置,用于接收用户的语音信号;
存储处理器,用于对接收到的语音信号进行存储,并进行预加重、加窗分帧以及基于逐级分段的VAD检测处理;
特征提取器,用于提取语音信号中的WF-MFCC特征以及用户语义特征;
语言生成装置,用于基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取指令可被一个或者多个处理器执行,以实现如上所述的采用自然语言的分布式智能交互的实现方法的步骤。
相对于现有技术,本发明提出一种采用自然语言的分布式智能交互的实现方法及其系统,该技术具有以下优势:
首先,现有对语音端点进行检测的方法主要为双门限VAD检测方法,该方法利用了短时能量和短时过零率的两个门限,用门限来确定语音信号的起点和终点,在开始进行端点检测之前,首先为短时能量和短时过零率确定两个门限,其中一个高另一个低,门限低的数值比较小,容易对信号的变化产生敏感,门限高的数值比较大,信号必须超过一定强度后门限才会被超过,由于低门限可能不是语音的起点,噪声也能导致门限较低,当用户语音信号的信噪比较低时,无法准确检测到噪音对用户语音信号的干扰。
因此本发明提出一种结合逐级分段的端点检测方法,首先通过对用户语音x(n)进行逐级分段处理,先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频b2(n)和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,由于语音信号的小波子带内的平均能量具有不均匀分布的特性,它在低频子带中语音信号的能量非常大,而在高频子带中语音信号的能量又非常的小,因此本发明提出一种小波子带系数能量公式对上述五个子带的能量进行计算,从而得到每个语音帧的特征矢量Yn=[E1,E2,E3,E4,E5,σ2]T,所述特征矢量由六个特征量所组成,可以看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,因此本发明设置阈值为ω,其中ω=2×σ2,当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧,相较于现有技术利用短时能量设定门限,本发明对用户语音信号进行逐步分解处理,对每一步处理得到的结果进行能量分部的计算,且基于能量变化情况设定语音帧阈值,当语音帧能量变化的方差达到一定阈值时,则认为该语音帧中存在噪音,从而避免了由于短时能量存在误差导致的语音帧识别错误,能够更为准确识别出用户语音中的噪音语音帧,并通过对识别出的噪音语音帧进行删除处理,减少了噪音信号对用户语音信号的干扰。
由于MFCC特征参数是源自Mel,Mel是一种特殊特征参数,因为人耳在不同条件下的感知能力不同,尤其是在频率大小不同的情况下,它原理上借鉴了人耳听声的特性,它与频率在高频段呈现的是一种对数关系,也就是说加快的频率造成了影响,会让人耳感知能力也就下降,超过一定频率人就听不见语音了,使得高频MFCC特征会被忽略;因此本发明提出一种WF-MFCC算法对用户语音信号的特征进行提取,首先通过对用户语音特征进行小波分解,相较于MFCC特征提取过程中的傅里叶变换处理,将傅里叶变换中无限长的三角函数换成了有限长的会衰减的小波基,
Figure BDA0002557126550000071
Figure BDA0002557126550000081
其中,a为小波分解的尺度,用来控制小波函数的伸缩,τ为小波分解的平移量,用来控制小波的平移,当在小波分解过程中伸缩、平移到一种重合情况时,重合的频率会相乘得到一个更大的值,其中的平移量即为两者之间的时域,相较于傅里叶变换,不仅可以知道信号的频域,而且知道它在时域上存在的具体位置,因此本发明通过利用小波分解技术对传统MFCC语音特征提取方法进行改进,使得本发明所提取出的改进WF-MFCC特征相较于传统MFCC特征,不仅可以直到语音信号的频域,还可以知道信号在时域上存在的具体位置,能更好地表现语音信号的动态性,通过在信号的时域对语音信号进行平移,高频的语音信号能通过相乘得到一个更为高频的语音信号,从而有效过滤掉一些无效、低频的语音信号,相较于传统MFCC特征提取方式,本发明利用改进的WF-MFCC特征提取方式所提取出的特征减少了语音信号中无效、低频的语音信息,包含了更多有效、高频的语音信息。
附图说明
图1为本发明一实施例提供的一种采用自然语言的分布式智能交互的实现方法的流程示意图;
图2为本发明一实施例提供的采用自然语言的分布式智能交互系统的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在对用户语音进行准确识别的同时,根据用户语音识别结果,结合识别结果的上下文,进行流畅且信息丰富的回复,实现智能交互。参照图1所示,为本发明一实施例提供的采用自然语言的分布式智能交互的实现方法的流程示意图。
在本实施例中,采用自然语言的分布式智能交互的实现方法包括:
S1、接收用户语音信号,并对用户语音进行预加重、加窗分帧以及基于逐级分段的VAD检测。
首先,本发明接收用户语音信号,并对其进行相应的语音信号预处理操作,所述预处理操作包括对用户语音信号的预加重、加窗分帧以及基于逐级分段的VAD检测方法;
所述预加重即提高用户语音信号的高频部分,在低频到高频的整个频带中,使得信号频谱变得平坦,信噪比基本一致,以便于后续的一些处理,同时,还能通过增加语音部分能量,抑制随机噪声和直流漂移的影响。在本发明一个实施例中,本发明选择使用数字滤波器对用户语音信号的频率进行预加重,其公式为:
H(z)=1-μz-1
其中:
z为声音频率;
μ为数字滤波器参数,本发明取为0.9375。
进一步地,本发明根据语音信号在一个非常小的时间范围内,其特性基本保持不变即相对稳定的特点,对所述用户语音信号进行分帧处理,通过将用户语音信号分段为每4毫秒长的帧,同时使相邻帧之间重叠约0-0.5倍帧长,防止了信号丢失;同时在对语音信号分帧后,语音信号会在信号连续处突然截止(帧结束),称之为音频帧的截断效应。所以本发明对语音信号进行加窗处理,使帧信号的信号平滑降低到零,相当于在帧信号两端增加了坡度,平缓而不突兀,在本发明实施例中,所选窗函数为汉明窗的窗函数:
Figure BDA0002557126550000091
其中:
N为窗长;
n为用户语音信号。
进一步地,本发明对用户语音信号x(n)进行逐级分段处理,先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,所述逐级分段处理的流程为:
Figure BDA0002557126550000092
其中:
ai(n),bi(n)分别表示不同的频域空间。
在分析语音信号的频域特性时,本发明得到语音信号的小波子带内的平均能量是不均匀分布的特性,它在低频子带中语音信号的能量非常大,而在高频子带中语音信号的能量又非常的小,基于此特性本发明根据求取小波子带系数能量的方法判断语音段是否为静音,所述求取小波子带系数能量公式为:
Figure BDA0002557126550000101
其中:
Figure BDA0002557126550000102
为不同层的小波子带系数能量;
Figure BDA0002557126550000103
为b1(n)~b4(n),a4(n)这些小波子带的小波系数;
N(m)为小波子带中所含有的小波系数的数量;
M为小波子带的个数。
进一步地,本发明对子带的能量均值以及方差进行计算:
Figure BDA0002557126550000104
Figure BDA0002557126550000105
每一个语音帧信号特征矢量,由五个子带的平均能量以及方差构成,因此每一个语音帧信号的特征矢量为:
Yn=[E1,E2,E3,E4,E5,σ2]T
所述特征矢量由六个特征量所组成,可以看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,因此本发明设置阈值为ω,其中ω的计算公式为:
ω=2×σ2
当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧。
S2、利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的WF-MFCC特征。
进一步地,由于MFCC特征参数是源自Mel,Mel是一种特殊特征参数,因为人耳在不同条件下的感知能力不同,尤其是在频率大小不同的情况下,它原理上借鉴了人耳听声的特性,它与频率在高频段呈现的是一种对数关系,也就是说加快的频率造成了影响,会让人耳感知能力也就下降,超过一定频率人就听不见语音了,使得高频MFCC特征会被忽略。
因此本发明提出一种WF-MFCC算法对用户语音信号的特征进行提取,所述WF-MFCC特征提取的过程为:
1)对经预处理的用户语音信号以帧为单位进行小波分解,得到不同频段的小波系数WT,所述小波分解的计算公式为:
Figure BDA0002557126550000111
其中:
a为小波分解的尺度;
τ为小波分解的平移量;
f为用户语音信号的频率;
ω(n)为加窗后的用户语音信号;
根据系数所属的频段将各个排序好的频谱进行重组,最后合成了一个完整的频谱;
2)对不同频段的小波系数,继续采用分层快速傅里叶变化,也就是不同频段分别做快速傅里叶变换,所述快速傅里叶变换的过程为:
Figure BDA0002557126550000112
其中:
N为快速傅里叶变换的点数;
a为小波分解的尺度;
3)经离散余弦变换得到WF-MFCC特征,所述离散余弦变换的过程为:
Figure BDA0002557126550000113
n=1,2,...,L,L指MFCC系数阶数,本发明取为12;
A为小波变换尺度的总数。
S3、利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,得到用户语义特征。
进一步地,本发明将所述WF-MFCC特征输入到LSTM模型中,相较于传统LSTM模型,本发明所述LSTM模型将每一个中间节点的结果都进行输出,由于本发明将用户语音信号以帧为单位进行小波分解,因此所得WF-MFCC特征为n个语音帧WF-MFCC特征的组合,若用户语音信号被分为T帧,LSTM的神经元个数为n,则经过本发明所述模型得到的输出结果为:
Figure BDA0002557126550000121
其中:
hi为输入的帧序列X={x1,x2,…,xT}通过LSTM后得到的每帧的学习结果;由于每一帧的维度为神经元的个数,因此H的形状为n*T;
self-attention层将整个H作为层输入,A作为attention的编码输出,其计算公式为:
A=softmax(g(HTW1)W2)
其中:
W1为形如n*a的矩阵,a为小波分解的尺度;
W2为形如a*dr的矩阵,dr为注意力机制中的参数;
g(·)为ReLu激活函数;
最终输入到下一层作为语音的embedding的向量,是通过attention学习到的权重值与输入的H相乘得到的结果计算出,其计算公式为:
M=A×H
LSTM模型的最终输出即为用户语义特征,相比较于仅仅使用最后一节点的输出作为整个句子的embedding,self-attention的方法不仅加上了所有节点的输出,能够获得整段语音的信息,同时还赋予了不同帧不同的权重,使得有效帧占有更高权重,更加有利于用户语义特征的提取。
S4、将基于交互的自然语言生成过程分为基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成,实现自然语言的交互式生成。
进一步地,对于所述用户语义特征,本发明将基于交互的自然语言生成过程分为基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,两个过程相互独立,相较于传统编码-解码过程,本发明在编码的第i步,使用动态计算信息权重的方式生成基于信息权重的上下文矩阵ci,其计算过程如下:
Figure BDA0002557126550000122
Figure BDA0002557126550000123
Figure BDA0002557126550000124
其中:
T为用户语音信号被分为的帧数;
score(si,hi)为第i步解码器的输出;
si,hi分别为解码层和编码层的隐状态,当i=0,h0为用户语义特征;
ai,j为第i步每个编码层隐状态的权重,表示哪个隐状态对上下文向量的贡献更多;
进一步地,本文使用了4个常用的用户背景信息,例如姓名、年龄、地址、工作内容等,将这些存储为类似数据库的键-值对形式,每种用户信息类别作为key,预先设定的具体值作为value,利用上述编码-解码步骤计算计算用户语义特征和keys之间的相关度,选择相关性最高的key对应的值作为回复信息。
由于模型仅仅能检索到要回复的信息还不够,还需要知道这些用户信息应该处于输出回复的什么位置。为了解决这个问题,本发明把编码-解码过程得到的相关性分数和decoder层得到的所有词的得分整合到一起,因此本发明将m维的用户信息得分矩阵It通过补零的方式扩充到|V|+m维的矩阵ot
ot=[score(st,d1),...Score(st,dk),score(si,h1),...score(si,hi)]
其中:
k为用户信息库中key的个数。
将合并后的分数经过softmax操作得到归一化的概率分布,从其中选择出概率最大的词或者key作为输出,如果输出是key,则从表中查找对应的用户信息进行输出。可由下式得到模型的输出yt
yt=Softmax(ot)
利用重排序方法计算模型输出句子的得分函数,选取所述得分较高的句子作为基于自然语言的交互式输出,所述重排序方法的计算公式为:
Figure BDA0002557126550000131
其中:
logp(Y|X)为给定用户语义特征X生成句子Y的对数概率;
|L|为生成句子的长度;
Figure BDA0002557126550000132
为参数,本发明将
Figure BDA0002557126550000133
设为0.5,λ设为0.3;
logp(X|Y)为将句子Y输入另一个标准的编码-解码模型,输出用户语义特征X的概率。
下面通过一个仿真实验来说明本发明的具体实施方式,并对发明的实现方法进行测试。本发明所述仿真实验的硬件环境为中央处理器(Center Processing Unit,CPU):Intel(R)Xeon(R)E5-2687V3,主频为:2.5GHz,内存为128GB;图像处理器(GraphicProcessing Unit,GPU)CUDA;四路NVIDIA Ge Force GTC1080 Ti。对比算法为采用greedysearch的标准Encoder-Decoder模型,采用beam search的encoder-decoder模型,加入个人信息分类器的Encoder-Decoder模型。
根据所述仿真实验结果,采用greedy search的标准Encoder-Decoder模型的回复准确度为43.5%,采用beam search的encoder-decoder模型的回复准确度为22.1%,加入个人信息分类器的Encoder-Decoder模型的回复准确度为59.7%,本发明所述算法的回复准确度为74.2%;同时本发明所述采用自然语言的分布式智能交互的实现方法相较于传统机器学习计算方法能提高交互式自然语言生成的准确度。
发明还提供一种采用自然语言的分布式智能交互系统。参照图2所示,为本发明一实施例提供的采用自然语言的分布式智能交互系统的内部结构示意图。
在本实施例中,所述采用自然语言的分布式智能交互系统1至少包括语音传感器装置11、存储处理器12、特征提取器13、语言生成装置14,通信总线15,以及网络接口16。
其中,语音传感器装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
存储处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是采用自然语言的分布式智能交互系统1的内部存储单元,例如该采用自然语言的分布式智能交互系统1的硬盘。存储器12在另一些实施例中也可以是采用自然语言的分布式智能交互系统1的外部存储设备,例如采用自然语言的分布式智能交互系统1上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器12还可以既包括采用自然语言的分布式智能交互系统1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于采用自然语言的分布式智能交互系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
特征提取器13在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器12中存储的程序代码或处理数据,例如执行特征提取程序指令等。
语言生成装置14用于基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成。
通信总线15用于实现这些组件之间的连接通信。
网络接口16可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在采用自然语言的分布式智能交互系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-16以及采用自然语言的分布式智能交互系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对采用自然语言的分布式智能交互系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储处理器12中存储有特征提取程序指令;特征提取器13执行存储处理器12中存储的特征提取程序指令的步骤,与采用自然语言的分布式智能交互的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取程序指令可被一个或多个处理器执行,以实现如下操作:
接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;
利用基于逐级分段的VAD检测方法对用户语音信号中的噪音以及静音帧进行检测;
利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的WF-MFCC特征;
利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,得到用户语义特征;
利用基于信息权重的编码-解码过程对用户语义特征进行编码、解码处理;
利用基于用户信息的注意力调整过程实现自然语言的交互式生成。
本发明计算机可读存储介质具体实施方式与上述采用自然语言的分布式智能交互的实时方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种采用自然语言的分布式智能交互的实现方法,其特征在于,所述方法包括:
接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;
利用基于逐级分段的VAD检测方法对用户语音信号中的噪音以及静音帧进行检测;
利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的WF-MFCC特征;
利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,得到用户语义特征;
利用基于信息权重的编码-解码过程对用户语义特征进行编码、解码处理;
利用基于用户信息的注意力调整过程实现自然语言的交互式生成。
2.如权利要求1所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述对用户语音进行预加重、加窗分帧处理,包括:
使用数字滤波器对用户语音信号的频率进行预加重,其公式为:
H(z)=1-μz-1
其中:
z为声音频率;
μ为数字滤波器参数,本发明取为0.9375;
对所述用户语音信号进行分帧处理,将用户语音信号分段为每4毫秒长的帧,使相邻帧之间重叠约0-0.5倍帧长;
对语音信号进行加窗处理,使帧信号的信号平滑降低到零,本发明所选窗函数为汉明窗的窗函数:
Figure FDA0002557126540000011
其中:
N为窗长;
n为用户语音信号。
3.如权利要求2所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述基于逐级分段的VAD检测方法为:
先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,所述逐级分段处理的流程为:
Figure FDA0002557126540000021
其中:
ai(n),bi(n)分别表示不同的频域空间;
根据求取小波子带系数能量的方法判断语音段是否为静音,所述求取小波子带系数能量公式为:
Figure FDA0002557126540000022
其中:
Figure FDA0002557126540000025
为不同层的小波子带系数能量;
Figure FDA0002557126540000026
为b1(n)~b4(n),a4(n)这些小波子带的小波系数;
N(m)为小波子带中所含有的小波系数的数量;
M为小波子带的个数;
对子带的能量均值以及方差进行计算:
Figure FDA0002557126540000023
Figure FDA0002557126540000024
每一个语音帧信号特征矢量,由五个子带的平均能量以及方差构成,因此每一个语音帧信号的特征矢量为:
Yn=[E1,E2,E3,E4,E5,σ2]T
所述特征矢量由六个特征量所组成,看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,设置阈值为ω,其中ω的计算公式为:
ω=2×σ2
当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧。
4.如权利要求3所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,包括:
1)对经预处理的用户语音信号以帧为单位进行小波分解,得到不同频段的小波系数WT,所述小波分解的计算公式为:
Figure FDA0002557126540000031
其中:
a为小波分解的尺度;
τ为小波分解的平移量;
f为用户语音信号的频率;
ω(n)为加窗后的用户语音信号;
根据系数所属的频段将各个排序好的频谱进行重组,最后合成了一个完整的频谱;
2)对不同频段的小波系数,继续采用不同频段分别做快速傅里叶变换,所述快速傅里叶变换的过程为:
Figure FDA0002557126540000032
其中:
N为快速傅里叶变换的点数;
a为小波分解的尺度;
3)经离散余弦变换得到WF-MFCC特征,所述离散余弦变换的过程为:
Figure FDA0002557126540000033
n=1,2,...,L,L指MFCC系数阶数,本发明取为12;
A为小波变换尺度的总数。
5.如权利要求4所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,包括:
所述LSTM模型将每一个中间节点的结果都进行输出,由于本发明将用户语音信号以帧为单位进行小波分解,因此所得WF-MFCC特征为n个语音帧WF-MFCC特征的组合,若用户语音信号被分为T帧,LSTM的神经元个数为n,则经过本发明所述模型得到的输出结果为:
Figure FDA0002557126540000041
其中:
hi为输入的帧序列X={x1,x2,...,xT}通过LSTM后得到的每帧的学习结果;由于每一帧的维度为神经元的个数,因此H的形状为n*T;
self-attention层将整个H作为层输入,A作为attention的编码输出,其计算公式为:
A=softmax(g(HTW1)W2)
其中:
W1为形如n*a的矩阵,a为小波分解的尺度;
W2为形如a*dr的矩阵,dr为注意力机制中的参数;
g(·)为ReLu激活函数;
最终输入到下一层作为语音的embedding的向量,是通过attention学习到的权重值与输入的H相乘得到的结果计算出,其计算公式为:
M=A×H
其中:
A为通过attention学习到的权重值;
LSTM模型的最终输出即为用户语义特征。
6.如权利要求5所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述基于信息权重的编码-解码过程为:
在编码的第i步,使用动态计算信息权重的方式生成基于信息权重的上下文矩阵ci,其计算过程如下:
Figure FDA0002557126540000042
Figure FDA0002557126540000043
其中:
T为用户语音信号被分为的帧数;
score(si,hi)为第i步解码器的输出;
si,hi分别为解码层和编码层的隐状态,当i=0,h0为用户语义特征;
ai,j为第i步每个编码层隐状态的权重,表示哪个隐状态对上下文向量的贡献更多。
7.如权利要求6所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述基于用户信息的注意力调整过程为:
将m维的用户信息得分矩阵It通过补零的方式扩充到|V|+m维的矩阵ot
ot=[score(st,d1),...score(st,dk),score(si,h1),...score(si,hi)]
其中:
k为用户信息库中key的个数;
将合并后的分数经过softmax操作得到归一化的概率分布,从其中选择出概率最大的词或者key作为输出,如果输出是key,则从表中查找对应的用户信息进行输出,由下式得到模型的输出yt
yt=Softmax(ot)
利用重排序方法计算模型输出句子的得分函数,选取所述得分较高的句子作为基于自然语言的交互式输出,所述重排序方法的计算公式为:
Figure FDA0002557126540000051
其中:
logp(Y|X)为给定用户语义特征X生成句子Y的对数概率;
|L|为生成句子的长度;
Figure FDA0002557126540000052
λ为参数,本发明将
Figure FDA0002557126540000053
设为0.5,λ设为0.3;
logp(X|Y)为将句子Y输入另一个标准的编码-解码模型,输出用户语义特征X的概率。
8.一种采用自然语言的分布式智能交互系统,其特征在于,所述系统包括:
语音传感器装置,用于接收用户的语音信号;
存储处理器,用于对接收到的语音信号进行存储,并进行预加重、加窗分帧以及基于逐级分段的VAD检测处理;
特征提取器,用于提取语音信号中的WF-MFCC特征以及用户语义特征;
语言生成装置,用于基于信息权重的编码-解码过程以及基于用户信息的注意力调整过程,分布式进行自然语言的生成。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有特征提取程序指令,所述特征提取程序指令可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的一种采用自然语言的分布式智能交互的实现方法的步骤。
CN202010594782.1A 2020-06-28 2020-06-28 一种采用自然语言的分布式智能交互的实现方法及其系统 Withdrawn CN111754991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594782.1A CN111754991A (zh) 2020-06-28 2020-06-28 一种采用自然语言的分布式智能交互的实现方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594782.1A CN111754991A (zh) 2020-06-28 2020-06-28 一种采用自然语言的分布式智能交互的实现方法及其系统

Publications (1)

Publication Number Publication Date
CN111754991A true CN111754991A (zh) 2020-10-09

Family

ID=72677356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594782.1A Withdrawn CN111754991A (zh) 2020-06-28 2020-06-28 一种采用自然语言的分布式智能交互的实现方法及其系统

Country Status (1)

Country Link
CN (1) CN111754991A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382278A (zh) * 2020-11-18 2021-02-19 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN112908305A (zh) * 2021-01-30 2021-06-04 云知声智能科技股份有限公司 一种提升语音识别准确性的方法和设备
CN116129926A (zh) * 2023-04-19 2023-05-16 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382278A (zh) * 2020-11-18 2021-02-19 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN112382278B (zh) * 2020-11-18 2021-08-17 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN112908305A (zh) * 2021-01-30 2021-06-04 云知声智能科技股份有限公司 一种提升语音识别准确性的方法和设备
CN116129926A (zh) * 2023-04-19 2023-05-16 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法
CN116129926B (zh) * 2023-04-19 2023-06-09 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法

Similar Documents

Publication Publication Date Title
CN111754991A (zh) 一种采用自然语言的分布式智能交互的实现方法及其系统
CN112289299B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN107016994A (zh) 语音识别的方法及装置
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN116560513B (zh) 基于情绪识别的ai数字人交互方法、装置及系统
CN113327586B (zh) 一种语音识别方法、装置、电子设备以及存储介质
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN116386594A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN117493830A (zh) 训练数据质量的评估、评估模型的生成方法、装置及设备
CN114999533A (zh) 基于情绪识别的智能问答方法、装置、设备及存储介质
CN111324710B (zh) 一种基于虚拟人的在线调研方法、装置和终端设备
US20230368777A1 (en) Method And Apparatus For Processing Audio, Electronic Device And Storage Medium
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
CN116665642A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN114330285B (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
CN115985320A (zh) 智能设备控制方法、装置、电子设备及存储介质
CN115221351A (zh) 音频匹配方法、装置、电子设备和计算机可读存储介质
CN115171660A (zh) 一种声纹信息处理方法、装置、电子设备及存储介质
CN110413739B (zh) 用于口语语义理解的数据增强方法及系统
KR20220080999A (ko) 복수의 멀티미디어 컨텐츠들을 참조하여 사용자 단말기와 통신하는 네트워크 서버 및 방법
CN110704623A (zh) 基于Rasa_Nlu框架提高实体识别率的方法、装置、系统和存储介质
CN113705221B (zh) 一种单词推送方法、装置、电子设备及存储介质
KR100545550B1 (ko) 문장 이해 장치 및 방법
CN114038450A (zh) 方言识别方法、装置、设备及存储介质
CN117690413A (zh) 音频处理方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201009