CN113488057B

CN113488057B - 面向康养的对话实现方法及系统

Info

Publication number: CN113488057B
Application number: CN202110946613.4A
Authority: CN
Inventors: 王本强; 王建华; 尹青山
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-11-14
Anticipated expiration: 2041-08-18
Also published as: CN113488057A

Abstract

本发明公开了面向康养的对话实现方法及系统，属于语音交互领域，解决的技术问题为如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态，提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦，技术方案为：该方法具体如下：S1、用采集设备录制双方谈话声音；S2、对录制的声音转成文字并进行校对；S3、把整理好的语料输入对话模型进行训练，输出个人化对话模型；S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。该系统包括对话模型生成单元及个性化语音合成单元；对话模型生成单元包括对话录音采集模块、语音转文字模块、整理校对模块及模型训练模块；个性化语音合成单元包括声纹编码器、语音合成器及发声器。

Description

面向康养的对话实现方法及系统

技术领域

本发明涉及语音交互技术领域，具体地说是一种面向康养的对话实现方法及系统。

背景技术

近年来，随着智能终端的普及，通过声音、视频、文字的方式，可以随时记录下生活当中的细节，如果这些数据从一个人出生开始收集，数据量是非常大的。

当前老年人口比例上升较快，人口老龄化程度的日益加深，如何提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦，是摆在康养行业的一个亟需解决的问题。

而随着人工智能技术的发展，使得语音识别、语音合成、自然语言处理、对话交互技术也越来越成熟。故如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态，提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种面向康养的对话实现方法及系统，来解决如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态，提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦的问题。

本发明的技术任务是按以下方式实现的，一种面向康养的对话实现方法，该方法具体如下：

S1、用采集设备录制双方谈话声音；

S2、对录制的声音转成文字并进行校对；

S3、把整理好的语料输入对话模型进行训练，输出个人化对话模型；

S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。

作为优选，个人化对话模型使用预训练的transformer模型，采用Encoder编码和Decorder解码结构；具体如下：

Encoder编码时，将说话人的个性化与对话历史编码在一起，并设计个人属性嵌入来模拟更丰富的对话上下文；

Decorder解码时，加入目标个性化信息，同时为了平衡权重，设计一种注意力路由结构，通过使用动态的权重选择器，对从目标个性化和对话上下文抽取的特征进行合并。

作为优选，语音合成模型包括，

声纹编码器，用于从一段参考音频中提取固定维度的声纹特征；

基于Tracotron2的语音合成器，用于将提取出的声纹特征与文本特征按照时间步进行拼接，生成频谱特征；

基于WaveNet的发声器，用于将频谱特征转换为时序波形。

更优地，所述声纹编码器采用3层LSTM架构，提取的声纹特征为256维；

参考音频采用公开的中文语音语料库通过预处理训练而成。

一种面向康养的对话系统，该系统包括，

对话模型生成单元，用于采集对话录音，将录音转换为文字并进行整理校对后，进行模型训练，生成对话模型；

个性化语音合成单元，用于从参考音频中提取声纹特征，将声纹特征与文本特征一起作为输入进行拼接，将拼接后的频谱特征转换为时序波形，完成个性化语音合成。

作为优选，所述对话模型生成单元包括，

对话录音采集模块，用于采用拾音设备，在无噪音环境中录制多轮对话；

语音转文字模块，用于利用静音检测处理从对话录音采集模块得到的音频数据，找到语音开始及结束位置，再借助语音转文字工具，实现语音到文字的转换；

整理校对模块，用于校对语音转文字过程中是否出现错误；

模型训练模块，用于个性化对话模型训练。

更优地，所述模型训练模块使用预训练的transformer模型，采用Encoder编码和Decorder解码结构；具体如下：

作为优选，所述个性化语音合成单元包括，

声纹编码器，用于从一段参考音频中提取固定维度的声纹特征；其中，声纹编码器采用3层LSTM架构，提取的声纹特征为256维；参考音频采用公开的中文语音语料库通过预处理训练而成；

基于WaveNet的发声器，用于将频谱特征转换为时序波形。

作为优选，该系统工作过程具体如下：

(1)、声音采集：对采集到的声音做静音检测，去掉头尾的静音，输入到个性化对话模型中；

(2)、语音转文字：个性化对话模型接收到语音文件后，通过语音转文字识别出语音文字信息；

(3)、个性化对话模型：将文字信息输入到个性化对话模型中，生成带有个人特征的回复文字；

(4)、个性化语音合成：将文字通过个性化语音合成模块，生成音频文件输出。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的面向康养的对话实现方法。

本发明的面向康养的对话实现方法及系统具有以下优点：

(一)本发明可以记录下某个人的声学特征以及说话方式特征，尽可能的模拟出独有的个人的说话方式及语气神态，让其拥有一个“不朽的化身”，提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦；

(二)本发明的基于Tracotron2的语音合成器，相比于声纹编码器，合成器对训练数据的要求要严格得多，准确的文本，足够的时长，还要保证数据中不包含噪音；

(三)本发明的基于Tracotron2的语音合成器生成的频谱特征进入基于WaveNet的发声器，完全独立于声纹编码器的发声器将频谱特征转换为时序波形，保证语音合成的准确性；

(四)本发明构建了个性化对话模型，并采用个性化语音合成方式，且只做过程比较简单，具有良好的市场应用前景。

附图说明

下面结合附图对本发明进一步说明。

附图1为面向康养的对话实现方法的流程框图；

附图2为对话模型生成单元的结构框图；

附图3为个性化语音合成单元的结构框图；

附图4为面向康养的对话系统工作过程的流程框图。

具体实施方式

参照说明书附图和具体实施例对本发明的面向康养的对话实现方法及系统作以下详细地说明。

实施例1：

如附图1所示，本发明的面向康养的对话实现方法，该方法具体如下：

S1、用采集设备录制双方谈话声音；

S2、对录制的声音转成文字并进行校对；

本实施例中步骤S3中的个人化对话模型使用预训练的transformer模型，采用Encoder编码和Decorder解码结构；具体如下：

本实施例中步骤S4的语音合成模型包括，

基于WaveNet的发声器，用于将频谱特征转换为时序波形。

本实施例中的声纹编码器采用3层LSTM架构，提取的声纹特征为256维；

参考音频采用公开的中文语音语料库通过预处理训练而成。

实施例2：

本发明的面向康养的对话系统，该系统包括，

如附图2所示，本发明的对话模型生成单元包括，

整理校对模块，用于校对语音转文字过程中是否出现错误；

模型训练模块，用于个性化对话模型训练。

本实施例中的模型训练模块使用预训练的transformer模型，采用Encoder编码和Decorder解码结构；具体如下：

如附图3所示，本实施例中的个性化语音合成单元包括，

基于WaveNet的发声器，用于将频谱特征转换为时序波形。

如附图4所示，该系统工作过程具体如下：

实施例3：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的面向康养的对话实现方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种面向康养的对话实现方法，其特征在于，该方法具体如下：

S1、用采集设备录制双方谈话声音；

S2、对录制的声音转成文字语料并进行校对，获取整理好的文字语料；

S4、利用整理好的文字语料制作具有个人腔调特征的语音合成模型；

其中，个人化对话模型使用预训练的transformer模型，采用Encoder编码和Decorder解码结构；具体如下：

Decorder解码时，加入目标个性化信息，同时为了平衡权重，设计一种注意力路由结构，通过使用动态的权重选择器，对从目标个性化和对话上下文抽取的特征进行合并；

语音合成模型包括，

声纹编码器，用于从一段参考音频中提取固定维度的声纹特征；其中，声纹编码器采用3层LSTM架构，提取的声纹特征为256维；

基于 WaveNet 的发声器，用于将频谱特征转换为时序波形。

2.根据权利要求1所述的面向康养的对话实现方法，其特征在于，所述参考音频采用公开的中文语音语料库通过预处理训练而成。

3.一种面向康养的对话系统，其特征在于，该系统包括，

对话模型生成单元，用于采集对话录音，将录音转换为文字并进行整理校对获取文本特征后，进行模型训练，生成对话模型；

个性化语音合成单元，用于从参考音频中提取声纹特征，将声纹特征与文本特征一起作为输入进行拼接，将拼接后的频谱特征转换为时序波形，完成个性化语音合成；

通过对话模型生成单元对采集到的声音做静音检测，去掉头尾的静音，输入到个性化对话模型中；个性化对话模型接收到语音文件后，通过语音转文字识别出语音文字信息；将语音文字信息输入到个性化对话模型中，生成带有个人特征的回复文字；将带有个人特征的回复文字通过个性化语音合成单元，生成音频文件输出；

其中，对话模型生成单元包括，

整理校对模块，用于校对语音转文字过程中是否出现错误；

模型训练模块，用于个性化对话模型训练；其中，模型训练模块使用预训练的transformer模型，采用Encoder编码和Decorder解码结构；具体如下：

个性化语音合成单元包括，

基于 WaveNet 的发声器，用于将频谱特征转换为时序波形。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1或2所述的面向康养的对话实现方法。