CN112951215B - 语音的智能客服回答方法、装置以及计算机设备 - Google Patents
语音的智能客服回答方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN112951215B CN112951215B CN202110462426.9A CN202110462426A CN112951215B CN 112951215 B CN112951215 B CN 112951215B CN 202110462426 A CN202110462426 A CN 202110462426A CN 112951215 B CN112951215 B CN 112951215B
- Authority
- CN
- China
- Prior art keywords
- voice
- code
- speech
- voiceprint
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000001360 synchronised effect Effects 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 125000004122 cyclic group Chemical group 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 108091026890 Coding region Proteins 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 13
- 238000007726 management method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音的智能客服回答方法、装置以及计算机设备,其中,方法包括:获取客户包含有问题的语音片段;将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;将所述第一语音编码进行音色标准化处理,得到第二语音编码;将所述第二语音编码输入至语音解码器中,得到回答语音。本发明的有益效果:通过基于人工客服服务中,客户提出问题的第一语音片段以及人工客服回答问题对应的第二语音片段组成的样本数据训练同步语音编码器和所述语音解码器,只需要获取客户的语音片段,就能得到对应的回答语音,无需将语音片段转化为文本,从而提高了准确率和计算的效率,进而提升了客户的满意度。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种语音的智能客服回答方法、装置以及计算机设备。
背景技术
传统的智能客服问答系统大致可以划分成三个独立的部分,先是通过语音识别技术识别出提问者的话语内容并将其转化为文本,接着使用文字级别的问答系统根据问题的文字自动生成拟作回答的文字,最后通过语音合成系统将该文字转化为语音输出。但这类系统依赖于中间文本,需要多个模型叠加使用,其准确率会受多个模型的叠加影响,导致准确率不高,并且通过多个模型进行计算的过程较为繁琐,也导致效率不高。
发明内容
本发明的主要目的为提供一种语音的智能客服回答方法、装置以及计算机设备,旨在解决传统的智能客服问答系统依赖于中间文本,需要多个模型叠加使用,导致效率不高的问题。
本发明提供了一种语音的智能客服回答方法,包括:
获取客户包含有问题的语音片段;
将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;
将所述第一语音编码进行音色标准化处理,得到第二语音编码;
将所述第二语音编码输入至语音解码器中,得到回答语音;其中,所述语音编码器和所述语音解码器同步训练得到,所述同步训练的方式为将人工客服服务中,客户提出问题的第一语音片段输入至待训练的语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将所述对应的语音编码和人工客服回答问题对应的第二语音片段同步输入至待训练的语音解码器中,进行训练;
将所述回答语音发送给所述客户。
进一步地,所述将所述第一语音编码进行音色标准化处理,得到第二语音编码的步骤之前,还包括:
提取所述语音片段中的第一声纹特征;
计算声纹模型库中各个声纹模型对应的第二声纹特征与所述第一声纹特征的相似度;
根据计算结果筛选出相似度最大的声纹模型作为预训练的声纹模型,以对所述第一语音编码进行音色标准化处理。
进一步地,所述将所述语音片段输入至语音编码器中,得到编码后的第一语音编码的步骤,包括:
在所述语音编码器中,将所述语音片段进行预处理得到语音信号;其中,所述语音信号为按照时间顺序形成的一维信号;
根据第一预定公式对所述一维信号进行压缩感知处理,得到目标特征信号;
将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码。
进一步地,所述将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码的步骤,包括:
在所述第一循环神经网络的隐含层中,根据第二预定公式对所述目标特征信号的每个特征信号点进行编码;其中,所述第二预定公式为h(i)=σ[z(i)]=σ(Uz(i)+Wh(i-1)+b),σ为所述第一循环神经网络的激活函数;b为第一线性偏移系数;U为所述第一循环神经网络的第一线性关系系数,W为所述第一循环神经网络的第二线性关系系数,z(i)表示所述目标特征信号的第i个所述特征信号点;
按照各个所述特征信号点在所述目标特征信号中的顺序,对各个所述特征信号点对应的编码进行排序,得到所述第一语音编码。
进一步地,所述将所述第二语音编码输入至语音解码器中,得到回答语音的步骤,包括:
获取所述第二语音编码中的语音编码序列;
基于第二循环神经网络对所述语音编码序列进行解码,得到解码后的中间特征信号;
根据所述中间特征信号与回答语音的预设对应关系,得到所述回答语音;其中,所述预设对应关系通过对应的样本数据训练得到。
进一步地,所述将所述回答语音发送给所述客户的步骤之前,还包括:
提取所述语音片段中的第一声纹特征以及所述回答语音中的第三声纹特征;
检测所述第一声纹特征与所述第三声纹特征的相似度,并判断所述相似度是否大于相似度阈值;
若大于所述相似度阈值,则执行所述将所述回答语音发送给所述客户的步骤。
本发明还提供了一种语音的智能客服回答装置,包括:
获取单元,用于获取客户包含有问题的语音片段;
第一输入单元,用于将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;
处理单元,用于将所述第一语音编码进行音色标准化处理,得到第二语音编码;
第二输入单元,用于将所述第二语音编码输入至语音解码器中,得到回答语音;其中,所述语音编码器和所述语音解码器同步训练得到,所述同步训练的方式为将人工客服服务中,客户提出问题的第一语音片段输入至待训练的语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将所述对应的语音编码和人工客服回答问题对应的第二语音片段同步输入至待训练的语音解码器中,进行训练;
发送单元,用于将所述回答语音发送给所述客户。
进一步地,所述语音的智能客服回答装置,还包括:
声纹特征提取单元,用于提取所述语音片段中的第一声纹特征;
计算单元,用于计算声纹模型库中各个声纹模型对应的第二声纹特征与所述第一声纹特征的相似度;
筛选单元,用于根据计算结果筛选出相似度最大的声纹模型作为预训练的声纹模型,以对所述第一语音编码进行音色标准化处理。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过基于人工客服服务中,客户提出问题的第一语音片段以及人工客服回答问题对应的第二语音片段组成的样本数据训练同步语音编码器和所述语音解码器,使只需要获取客户包含有问题的语音片段,就能实现得到对应的回答语音,实现了语音到语音的实现方式,简化了智能客服问答系统,无需将语音片段转化为文本,从而提高了准确率和计算的效率,进而提升了客户的满意度。另外通过预训练的声纹模型对回答语音进行监督训练,使其生成的音色统一,使客户的体验效果更佳。
附图说明
图1是本发明一实施例的一种语音的智能客服回答方法的流程示意图;
图2是本发明一实施例的一种语音的智能客服回答装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种语音的智能客服回答方法,包括:
S1:获取客户包含有问题的语音片段;
S2:将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;
S3:将所述第一语音编码进行音色标准化处理,得到第二语音编码;
S4:将所述第二语音编码输入至语音解码器中,得到回答语音;其中,所述语音编码器和所述语音解码器同步训练得到,所述同步训练的方式为将人工客服服务中,客户提出问题的第一语音片段输入至待训练的语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将所述对应的语音编码和人工客服回答问题对应的第二语音片段同步输入至待训练的语音解码器中,进行训练;
S5:将所述回答语音发送给所述客户。
如上述步骤S1所述,获取客户包含有问题的语音片段。其中,该语音片段发生在智能客服与客户的对话过程中,即用户提问的过程中,例如,采集智能客服发出了“请问有什么可以帮到您”等类似引导性的话语之后,客户发出的语音,获取的方式可以是通过获取手机端传过来的语音数据,具体地,手机麦克风在采集了客户发出的语音后,将该语音发送给智能客服所在的终端或服务器。
如上述步骤S2所述,将所述语音片段输入至语音编码器中,得到编码后的第一语音编码。其中,语音编码器可以是波形编器、声码器以及混合编码器中的任意一种,可以实现对语音片段的编码过程即可,为了便于后续对语音片段进行解码,由于回答语音是回答该语音片段的答案,并非是简单的将语音片段进行还原,因此,编码需要与后续的语音解码器相配合,优选使用第一循环神经网络进行编码,具体地编码过程后续有详细说明,此处不再赘述。
如上述步骤S3所述,将所述第一语音编码进行音色标准化处理,得到第二语音编码。由于参与训练的样本数据中,客户和客服均具有很多个,容易导致最终生成的回答语音的音色不全,具体地,可以设置一个预训练的声纹模型,在回答语音的生成过程中进行监督,即该预训练的声纹模型充当一个speaker encoder,不断纠正回答语音中的音色,使最终的回答语音向speaker encoder看齐,从而完成对回答语音音色的统一,另外concat函数是一种将多个字符串连接成一个字符串的函数,即预训练的声纹模型中有训练好的声纹特征,该声纹特征在声纹模型中的表现一般也为字符串,而第一语音编码则直接为字符串,当然,若声纹特征的表现不为字符串,则可以将声纹特征进行数字化,即根据声纹的大小转化为对应的数字,然后将该语音的转化为对应声纹特征的字符串,再基于concat函数将该声纹特征对应的字符串与第一语音编码的字符串合并为一个字符串,其中,concat函数用于将两个字符串连接起来,形成一个单一的字符串。即第二语音编码中既包含有有声纹模型对应的字符串,也有第一语音编码对应的字符串,后续计算过程中,无需对声纹特征进行分析,忽略掉人的音色信息,只需要关注到用户的语音信息即可,专注于回答语音的生成。
如上述步骤S4所述,将所述第二语音编码输入至语音解码器中,得到回答语音。其中,语音编码器和所述语音解码器基于人工客服服务中,客户提出问题的第一语音片段以及人工客服回答问题对应的第二语音片段组成的样本数据训练而成。训练的方式为将人工客服服务中的客户语音输入至语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将该对应的语音编码输入至语音解码器中,以及将对应的人工客服回答的答案输入至语音解码器中作为输出校正,对应回答语音进行训练,不断调整语音编码器和语音解码器中的参数,使回答语音无限接近或者等于该人工客服回答的答案,从而实现了对语音解码器和语音编码器的训练,使只需要在语音解码器中输入对应的第二语音编码就能得到对应的回答语音。
如上述步骤S5所述,将所述回答语音发送给所述客户。即将所述回答语音发送给客户,以回答客户的语音片段,无需复杂的语音识别-意图识别-语音合成等繁琐的过程,对于客户来说,减少了等待时间,具有更好的体验效果,对于服务器来说,减小了运算量,可以释放出更多的运算空间。
在一个实施例中,所述将所述第一语音编码进行音色标准化处理,得到第二语音编码的步骤S3之前,还包括:
S201:提取所述语音片段中的第一声纹特征;
S202:计算声纹模型库中各个声纹模型对应的第二声纹特征与所述第一声纹特征的相似度;
S203:根据计算结果筛选出相似度最大的声纹模型作为预训练的声纹模型,以对所述第一语音编码进行预处理。
如上述步骤S201-S203所述,实现了对声纹模型的选取。为了适应不同的地域的客户,使客户产生亲近感,可以找出与客户音色相仿的声纹模型,具体地,先提取到语音片段中的第一声纹特征,即先通过麦克风集群采集到客户的声纹,对客户的声纹进行声纹提取,从而得到第一声纹特征,其中提取的方式可以是线性预测分析(LinearPredictionCoefficients,LPC),感知线性预测系数(PerceptualLinearPredictive,PLP),Tandem特征和Bottleneck特征中的任意一种,根据相似度计算公式计算各个声纹模型对应的第二声纹特征与第一声纹特征的相似度,其中相似度计算公式可以是其中/>表示第二声纹特征,/>表示第一声纹特征,/>表示第一声纹特征和第二声纹特征的相似度,然后根据计算的结果,选取相似度最大的声纹模型作为预训练的声纹模型,其中,相似度最大的声纹模型即为与客户语音最相似的声纹模型,采用其作为预训练的声纹模型可以提高客户的好感,提高了客户的满意度。另外,不同的声纹模型采用不同的训练数据进行训练,例如不同地方的方言,亦或者不同年龄段的语言等。在其他实施例中,相似度的计算方式还可以是皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(JaccardCoefficient)、Tanimoto系数(广义Jaccard相似系数)、对数似然相似度/对数似然相似率等。
在一个实施例中,所述将所述语音片段输入至语音编码器中,得到编码后的第一语音编码的步骤S2,包括:
S211:在所述语音编码器中,将所述语音片段进行预处理得到语音信号;其中所述语音信号为按照时间顺序形成的一维信号;
S212:根据第一预定公式对所述一维信号进行压缩感知处理,得到目标特征信号;
S213:将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码。
如上述步骤S211-S213所述,实现了对第一语音编码的获取。即对语音变短进行预处理,其中,预处理的方式为线性预测分析(LinearPredictionCoefficients,LPC),感知线性预测系数(PerceptualLinearPredictive,PLP),Tandem特征和Bottleneck特征中的任意一种,以得到对应的语音片段的数字信号,即一维信号。然后根据第一预定公式进行压缩,其中,第一预定公式为ti=pisi,其中ti表示第t个信号点的压缩值,si表示语音片段中第i个信号点的值,pi表示第i个信号点对应的压缩值,与si相关,即pi=f(si)。得到目标特征信号,再将目标特征信号输入至第一循环神经网络中进行处理,得到第一语音编码,其中处理的方式后续有说明,此处不再赘述。
在一个实施例中,所述将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码的步骤S213,包括:
S2131:在所述第一循环神经网络的隐含层中,根据第二预定公式对所述目标特征信号的每个特征信号点进行编码;其中,所述第二预定公式为h(i)=σ[z(i)]=σ(Uz(i)+Wh(i-1)+b),σ为所述第一循环神经网络的激活函数;b为第一线性偏移系数;U为所述第一循环神经网络的第一线性关系系数,W为所述第一循环神经网络的第二线性关系系数,z(i)表示所述目标特征信号的第i个所述特征信号点,h(i、)表示第i个所述特征信号点对应的编码值;
S2132:按照各个所述特征信号点在所述目标特征信号中的顺序,对各个所述特征信号点对应的编码进行排序,得到所述第一语音编码。
如上述步骤S2131-S2132所述,即在第一循环神经网络的隐含层中,根据第二预定公式对目标特征信号的每个特征点进行编码,便么与对应的信号点的值相关,即采用公式h(i)=σ[z(i)]=σ(Uz(i)+Wh(i-1)+b)进行编码,h(i)表示第i个所述特征信号点对应的编码值,h(i-1)表示第i-1个所述特征信号点对应的编码值,对应各个特征信号点的顺序进行排序,得到第一语音编码。需要说明的是,第二预定公式充分考虑了前一编码的数值,采用卷积的方式进行编码,使得到的第一语音编码的数据更加全面,进而基于该第一语音编码进行计算的结果也会更好,具体地,对应的回答语音所能够参照的参数会更多,得到的结果会更加准确。
在一个实时例中,所述将所述第二语音编码输入至语音解码器中,得到回答语音的步骤S4,包括:
S401:获取所述第二语音编码中的语音编码序列;
S402:基于第二循环神经网络对所述语音编码序列进行解码,得到解码后的中间特征信号;
S403:根据所述中间特征信号与回答语音的预设对应关系,得到所述回答语音;其中,所述预设对应关系通过对应的样本数据训练得到。
如上述步骤S401-S403所述,实现了对第二语音编码的解析,即获取到第二语音编码的语音编码序列,主要是获取到第二语音编码内的第一编码,第二语音编码中的声纹模型其实是在语音生成后对音色进行调控的方式,即先通过第二循环神经网络进行解码,其中解码后可以得到对应语音片段的语音信息,即中间特征信号,由于语音编码器和语音解码器都是通过对应的样本数据进行训练的,即从语音解码器输入对应的问题语音,就能得到对应的回答语音,其中,语音解码器也是通过对语音进行解码,转换成对应的中间特征信号,另外,在语音解码器中有回答语音和中间特征信号的预设对应关系,该预设对应关系可以采用其中,ai表示回答语音的第i段语音,bij表示第i段语音第j个音节对应的值,cij表示第i段语音第j个音节对应的权重,/>l表示语音的长度,从而得到了对应的回答语音。
在一个实施例中,所述将所述回答语音发送给所述客户的步骤S5之前,还包括:
S411:提取所述语音片段中的第一声纹特征以及所述回答语音中的第三声纹特征;
S412:检测所述第一声纹特征与所述第三声纹特征的相似度,并判断所述相似度是否大于相似度阈值;
S413:若大于所述相似度阈值,则执行所述将所述回答语音发送给所述客户的步骤。
如上述步骤S411-S413所述,实现了对回答语音的检测,即先提取到语音片段中的第一声纹特征,以及回答语音中的第三声纹特征,提取的方式上述有说明,此处不再赘述,检测相似度的方法依然可以采用相似度计算公式进行计算,判断其相似度的值是否大于相似度阈值,若大于相似度阈值,则表明预训练的声纹模型对回答语音的纠正起到了作用,可以发送给客户,若小于或等于该相似度阈值时,则说明没有起到对应的作用,该回答语音中的音色与客户的音色相差比较大,此时,可以选择是否发送给客户,或者统计数据,对预训练的模型重新进行训练,使回答语音的音色可以与客户的音色相似。
本发明的有益效果:通过基于人工客服服务中,客户提出问题的第一语音片段以及人工客服回答问题对应的第二语音片段组成的样本数据训练同步语音编码器和所述语音解码器,使只需要获取客户包含有问题的语音片段,就能实现得到对应的回答语音,实现了语音到语音的实现方式,简化了智能客服问答系统,无需将语音片段转化为文本,从而提高了准确率和计算的效率,进而提升了客户的满意度。另外通过预训练的声纹模型对回答语音进行监督训练,使其生成的音色统一,使客户的体验效果更佳。
参照图2,本发明还提供了一种语音的智能客服回答装置,包括:
获取单元10,用于获取客户包含有问题的语音片段;
第一输入单元20,用于将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;
处理单元30,用于将所述第一语音编码进行音色标准化处理,得到第二语音编码;
第二输入单元40,用于将所述第二语音编码输入至语音解码器中,得到回答语音;其中,所述语音编码器和所述语音解码器同步训练得到,其中所述同步训练的方式为将人工客服服务中,客户提出问题的第一语音片段输入至待训练的语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将所述对应的语音编码和人工客服回答问题对应的第二语音片段同步输入至待训练的语音解码器中,进行训练;
发送单元50,用于将所述回答语音发送给所述客户。
在一个实施例中,所述语音的智能客服回答装置,还包括:
声纹特征提取单元,用于提取所述语音片段中的第一声纹特征;
计算单元,用于计算声纹模型库中各个声纹模型对应的第二声纹特征与所述第一声纹特征的相似度;
筛选单元,用于根据计算结果筛选出相似度最大的声纹模型作为预训练的声纹模型,以对所述第一语音编码进行音色标准化处理。
在一个实施例中,第一输入单元20,包括:
预处理子单元,用于在所述语音编码器中,将所述语音片段进行预处理得到语音信号;其中,所述语音信号为按照时间顺序形成的一维信号;
压缩感知处理子单元,用于根据第一预定公式对所述一维信号进行压缩感知处理,得到目标特征信号;
特征信号输入子单元,用于将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码。
在一个实施例中,所述特征信号输入子单元,包括:
编码模块,用于在所述第一循环神经网络的隐含层中,根据第二预定公式对所述目标特征信号的每个特征信号点进行编码;其中,所述第二预定公式为h(i)=σ[z(i)]=σ(Uz(i)+Wh(i-1)+b),σ为所述第一循环神经网络的激活函数;b为第一线性偏移系数;U为所述第一循环神经网络的第一线性关系系数,W为所述第一循环神经网络的第二线性关系系数,z(i)表示所述目标特征信号的第i个所述特征信号点,h(i)表示第i个所述特征信号点对应的编码值;
排序模块,用于按照各个所述特征信号点在所述目标特征信号中的顺序,对各个所述特征信号点对应的编码进行排序,得到所述第一语音编码。
在一个实施例中,第二输入单元40,包括:
编码序列获取子单元,用于获取所述第二语音编码中的语音编码序列;
解码子单元,用于基于第二循环神经网络对所述语音编码序列进行解码,得到解码后的中间特征信号;
回答语音获取子单元,用于根据所述中间特征信号与回答语音的预设对应关系,得到所述回答语音;其中,所述预设对应关系通过对应的样本数据训练得到。
在一个实施例中,语音的智能客服回答装置,还包括:
第三声纹特征提取单元,用于提取所述语音片段中的第一声纹特征以及所述回答语音中的第三声纹特征;
相似度检测单元,用于检测所述第一声纹特征与所述第三声纹特征的相似度,并判断所述相似度是否大于相似度阈值;
执行单元,用于若大于所述相似度阈值,则执行所述将所述回答语音发送给所述客户的步骤。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种语音数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的语音的智能客服回答方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的语音的智能客服回答方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (8)
1.一种语音的智能客服回答方法,其特征在于,包括:
获取客户包含有问题的语音片段;
将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;
提取所述语音片段中的第一声纹特征;
计算声纹模型库中各个声纹模型对应的第二声纹特征与所述第一声纹特征的相似度;
根据计算结果筛选出相似度最大的声纹模型作为预训练的声纹模型,以对所述第一语音编码进行音色标准化处理;不同的所述声纹模型采用不同的训练数据进行训练;
将所述第一语音编码进行音色标准化处理,得到第二语音编码;
将所述第二语音编码输入至语音解码器中,得到回答语音;其中,所述语音编码器和所述语音解码器同步训练得到,所述同步训练的方式为将人工客服服务中,客户提出问题的第一语音片段输入至待训练的语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将所述对应的语音编码和人工客服回答问题对应的第二语音片段同步输入至待训练的语音解码器中,进行训练;
将所述回答语音发送给所述客户。
2.如权利要求1所述的语音的智能客服回答方法,其特征在于,所述将所述语音片段输入至语音编码器中,得到编码后的第一语音编码的步骤,包括:
在所述语音编码器中,将所述语音片段进行预处理得到语音信号;其中,所述语音信号为按照时间顺序形成的一维信号;
根据第一预定公式对所述一维信号进行压缩感知处理,得到目标特征信号;
将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码。
3.如权利要求2所述的语音的智能客服回答方法,其特征在于,所述将所述目标特征信号输入至第一循环神经网络中,得到所述第一语音编码的步骤,包括:
在所述第一循环神经网络的隐含层中,根据第二预定公式对所述目标特征信号的每个特征信号点进行编码;其中,所述第二预定公式为h(i)=σ[z(i)]=σ(Uz(i)+Wh(i-1)+b),σ为所述第一循环神经网络的激活函数;b为第一线性偏移系数;U为所述第一循环神经网络的第一线性关系系数,W为所述第一循环神经网络的第二线性关系系数,z(i)表示所述目标特征信号的第i个所述特征信号点,h(i)表示第i个所述特征信号点对应的编码值;
按照各个所述特征信号点在所述目标特征信号中的顺序,对各个所述特征信号点对应的编码进行排序,得到所述第一语音编码。
4.如权利要求1所述的语音的智能客服回答方法,其特征在于,所述将所述第二语音编码输入至语音解码器中,得到回答语音的步骤,包括:
获取所述第二语音编码中的语音编码序列;
基于第二循环神经网络对所述语音编码序列进行解码,得到解码后的中间特征信号;
根据所述中间特征信号与回答语音的预设对应关系,得到所述回答语音;其中,所述预设对应关系通过对应的样本数据训练得到。
5.如权利要求1所述的语音的智能客服回答方法,其特征在于,所述将所述回答语音发送给所述客户的步骤之前,还包括:
提取所述语音片段中的第一声纹特征以及所述回答语音中的第三声纹特征;
检测所述第一声纹特征与所述第三声纹特征的相似度,并判断所述相似度是否大于相似度阈值;
若大于所述相似度阈值,则执行所述将所述回答语音发送给所述客户的步骤。
6.一种语音的智能客服回答装置,其特征在于,包括:
获取单元,用于获取客户包含有问题的语音片段;
第一输入单元,用于将所述语音片段输入至语音编码器中,得到编码后的第一语音编码;
声纹特征提取单元,用于提取所述语音片段中的第一声纹特征;
计算单元,用于计算声纹模型库中各个声纹模型对应的第二声纹特征与所述第一声纹特征的相似度;
筛选单元,用于根据计算结果筛选出相似度最大的声纹模型作为预训练的声纹模型,以对所述第一语音编码进行音色标准化处理;不同的所述声纹模型采用不同的训练数据进行训练;
处理单元,用于将所述第一语音编码进行音色标准化处理,得到第二语音编码;
第二输入单元,用于将所述第二语音编码输入至语音解码器中,得到回答语音;其中,所述语音编码器和所述语音解码器同步训练得到,所述同步训练的方式为将人工客服服务中,客户提出问题的第一语音片段输入至待训练的语音编码器中,并进行音色标准化处理,得到所述第一语音片段对应的语音编码,将所述对应的语音编码和人工客服回答问题对应的第二语音片段同步输入至待训练的语音解码器中,进行训练;
发送单元,用于将所述回答语音发送给所述客户。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110462426.9A CN112951215B (zh) | 2021-04-27 | 2021-04-27 | 语音的智能客服回答方法、装置以及计算机设备 |
PCT/CN2021/096981 WO2022227188A1 (zh) | 2021-04-27 | 2021-05-28 | 语音的智能客服回答方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110462426.9A CN112951215B (zh) | 2021-04-27 | 2021-04-27 | 语音的智能客服回答方法、装置以及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951215A CN112951215A (zh) | 2021-06-11 |
CN112951215B true CN112951215B (zh) | 2024-05-07 |
Family
ID=76233541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110462426.9A Active CN112951215B (zh) | 2021-04-27 | 2021-04-27 | 语音的智能客服回答方法、装置以及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112951215B (zh) |
WO (1) | WO2022227188A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564280B (zh) * | 2023-07-05 | 2023-09-08 | 深圳市彤兴电子有限公司 | 基于语音识别的显示器控制方法、装置以及计算机设备 |
CN117556087B (zh) * | 2023-10-30 | 2024-04-26 | 广州圈量网络信息科技有限公司 | 一种客服回复数据处理方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648745A (zh) * | 2018-03-15 | 2018-10-12 | 上海电力学院 | 一种由唇部图像序列到语音编码参数的转换方法 |
CN109003614A (zh) * | 2018-07-31 | 2018-12-14 | 上海爱优威软件开发有限公司 | 一种语音传输方法、语音传输系统及终端 |
CN110265008A (zh) * | 2019-05-23 | 2019-09-20 | 中国平安人寿保险股份有限公司 | 智能回访方法、装置、计算机设备及存储介质 |
CN110990543A (zh) * | 2019-10-18 | 2020-04-10 | 平安科技(深圳)有限公司 | 智能对话的生成方法、装置、计算机设备及计算机存储介质 |
CN111312228A (zh) * | 2019-12-09 | 2020-06-19 | 中国南方电网有限责任公司 | 一种基于端到端的应用于电力企业客服的语音导航方法 |
CN111883140A (zh) * | 2020-07-24 | 2020-11-03 | 中国平安人寿保险股份有限公司 | 基于知识图谱和声纹识别的认证方法、装置、设备及介质 |
CN111986675A (zh) * | 2020-08-20 | 2020-11-24 | 深圳Tcl新技术有限公司 | 语音对话方法、设备及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202238A (zh) * | 2016-06-30 | 2016-12-07 | 马根昌 | 真实人物模拟方法 |
CN106448670B (zh) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
KR101937778B1 (ko) * | 2017-02-28 | 2019-01-14 | 서울대학교산학협력단 | 인공지능을 이용한 기계학습 기반의 한국어 대화 시스템과 방법 및 기록매체 |
CN108172209A (zh) * | 2018-01-09 | 2018-06-15 | 上海大学 | 构建语音偶像方法 |
CN112669863A (zh) * | 2020-12-28 | 2021-04-16 | 科讯嘉联信息技术有限公司 | 一种基于变声能力的人机接力服务方法 |
-
2021
- 2021-04-27 CN CN202110462426.9A patent/CN112951215B/zh active Active
- 2021-05-28 WO PCT/CN2021/096981 patent/WO2022227188A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648745A (zh) * | 2018-03-15 | 2018-10-12 | 上海电力学院 | 一种由唇部图像序列到语音编码参数的转换方法 |
CN109003614A (zh) * | 2018-07-31 | 2018-12-14 | 上海爱优威软件开发有限公司 | 一种语音传输方法、语音传输系统及终端 |
CN110265008A (zh) * | 2019-05-23 | 2019-09-20 | 中国平安人寿保险股份有限公司 | 智能回访方法、装置、计算机设备及存储介质 |
CN110990543A (zh) * | 2019-10-18 | 2020-04-10 | 平安科技(深圳)有限公司 | 智能对话的生成方法、装置、计算机设备及计算机存储介质 |
CN111312228A (zh) * | 2019-12-09 | 2020-06-19 | 中国南方电网有限责任公司 | 一种基于端到端的应用于电力企业客服的语音导航方法 |
CN111883140A (zh) * | 2020-07-24 | 2020-11-03 | 中国平安人寿保险股份有限公司 | 基于知识图谱和声纹识别的认证方法、装置、设备及介质 |
CN111986675A (zh) * | 2020-08-20 | 2020-11-24 | 深圳Tcl新技术有限公司 | 语音对话方法、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112951215A (zh) | 2021-06-11 |
WO2022227188A1 (zh) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102198835B1 (ko) | 심층 신경망을 사용한 단-대-단 화자 인식 | |
CN108989341B (zh) | 语音自主注册方法、装置、计算机设备及存储介质 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN113688221B (zh) | 基于模型的话术推荐方法、装置、计算机设备和存储介质 | |
CN109346086A (zh) | 声纹识别方法、装置、计算机设备和计算机可读存储介质 | |
CN109473106A (zh) | 声纹样本采集方法、装置、计算机设备及存储介质 | |
CN112951215B (zh) | 语音的智能客服回答方法、装置以及计算机设备 | |
KR20170105034A (ko) | 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법 | |
CN111883140A (zh) | 基于知识图谱和声纹识别的认证方法、装置、设备及介质 | |
CN113436634B (zh) | 基于声纹识别的语音分类方法、装置及相关设备 | |
CN114360493A (zh) | 语音合成方法、装置、介质、计算机设备和程序产品 | |
CN110265008A (zh) | 智能回访方法、装置、计算机设备及存储介质 | |
CN113851136A (zh) | 基于聚类的说话人识别方法、装置、设备及存储介质 | |
CN111223476A (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN110704618A (zh) | 确定对话数据对应的标准问题的方法及装置 | |
CN113873088B (zh) | 语音通话的交互方法、装置、计算机设备和存储介质 | |
CN114187894A (zh) | 一种意图识别方法、装置及其相关设备 | |
KR20210117827A (ko) | 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN113299274B (zh) | 白话文与文言文互译及语音合成方法、装置、设备及介质 | |
CN111883112B (zh) | 基于多模式标识的语义识别方法、装置和计算机设备 | |
CN114724568A (zh) | 基于神经网络的语音转换方法、系统、设备及存储介质 | |
CN114882865A (zh) | 语音应答方法、装置、计算机设备及计算机可读存储介质 | |
CN114783407A (zh) | 语音合成模型训练方法、装置、计算机设备及存储介质 | |
CN114398487A (zh) | 线上会话的参考信息输出方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |