CN113488057A - 面向康养的对话实现方法及系统 - Google Patents
面向康养的对话实现方法及系统 Download PDFInfo
- Publication number
- CN113488057A CN113488057A CN202110946613.4A CN202110946613A CN113488057A CN 113488057 A CN113488057 A CN 113488057A CN 202110946613 A CN202110946613 A CN 202110946613A CN 113488057 A CN113488057 A CN 113488057A
- Authority
- CN
- China
- Prior art keywords
- voice
- model
- dialogue
- personalized
- health
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000001915 proofreading effect Effects 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 230000036541 health Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000036651 mood Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了面向康养的对话实现方法及系统,属于语音交互领域,解决的技术问题为如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦,技术方案为:该方法具体如下:S1、用采集设备录制双方谈话声音;S2、对录制的声音转成文字并进行校对;S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。该系统包括对话模型生成单元及个性化语音合成单元;对话模型生成单元包括对话录音采集模块、语音转文字模块、整理校对模块及模型训练模块;个性化语音合成单元包括声纹编码器、语音合成器及发声器。
Description
技术领域
本发明涉及语音交互技术领域,具体地说是一种面向康养的对话实现方法及系统。
背景技术
近年来,随着智能终端的普及,通过声音、视频、文字的方式,可以随时记录下生活当中的细节,如果这些数据从一个人出生开始收集,数据量是非常大的。
当前老年人口比例上升较快,人口老龄化程度的日益加深,如何提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦,是摆在康养行业的一个亟需解决的问题。
而随着人工智能技术的发展,使得语音识别、语音合成、自然语言处理、对话交互技术也越来越成熟。故如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种面向康养的对话实现方法及系统,来解决如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦的问题。
本发明的技术任务是按以下方式实现的,一种面向康养的对话实现方法,该方法具体如下:
S1、用采集设备录制双方谈话声音;
S2、对录制的声音转成文字并进行校对;
S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
作为优选,个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
作为优选,语音合成模型包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
更优地,所述声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
参考音频采用公开的中文语音语料库通过预处理训练而成。
一种面向康养的对话系统,该系统包括,
对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
作为优选,所述对话模型生成单元包括,
对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
整理校对模块,用于校对语音转文字过程中是否出现错误;
模型训练模块,用于个性化对话模型训练。
更优地,所述模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
作为优选,所述个性化语音合成单元包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
作为优选,该系统工作过程具体如下:
(1)、声音采集:对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
(2)、语音转文字:个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
(3)、个性化对话模型:将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
(4)、个性化语音合成:将文字通过个性化语音合成模块,生成音频文件输出。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的面向康养的对话实现方法。
本发明的面向康养的对话实现方法及系统具有以下优点:
(一)本发明可以记录下某个人的声学特征以及说话方式特征,尽可能的模拟出独有的个人的说话方式及语气神态,让其拥有一个“不朽的化身”,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦;
(二)本发明的基于Tracotron2的语音合成器,相比于声纹编码器,合成器对训练数据的要求要严格得多,准确的文本,足够的时长,还要保证数据中不包含噪音;
(三)本发明的基于Tracotron2的语音合成器生成的频谱特征进入基于WaveNet的发声器,完全独立于声纹编码器的发声器将频谱特征转换为时序波形,保证语音合成的准确性;
(四)本发明构建了个性化对话模型,并采用个性化语音合成方式,且只做过程比较简单,具有良好的市场应用前景。
附图说明
下面结合附图对本发明进一步说明。
附图1为面向康养的对话实现方法的流程框图;
附图2为对话模型生成单元的结构框图;
附图3为个性化语音合成单元的结构框图;
附图4为面向康养的对话系统工作过程的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的面向康养的对话实现方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的面向康养的对话实现方法,该方法具体如下:
S1、用采集设备录制双方谈话声音;
S2、对录制的声音转成文字并进行校对;
S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
本实施例中步骤S3中的个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
本实施例中步骤S4的语音合成模型包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
本实施例中的声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
参考音频采用公开的中文语音语料库通过预处理训练而成。
实施例2:
本发明的面向康养的对话系统,该系统包括,
对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
如附图2所示,本发明的对话模型生成单元包括,
对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
整理校对模块,用于校对语音转文字过程中是否出现错误;
模型训练模块,用于个性化对话模型训练。
本实施例中的模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
如附图3所示,本实施例中的个性化语音合成单元包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
如附图4所示,该系统工作过程具体如下:
(1)、声音采集:对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
(2)、语音转文字:个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
(3)、个性化对话模型:将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
(4)、个性化语音合成:将文字通过个性化语音合成模块,生成音频文件输出。
实施例3:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的面向康养的对话实现方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种面向康养的对话实现方法,其特征在于,该方法具体如下:
S1、用采集设备录制双方谈话声音;
S2、对录制的声音转成文字并进行校对;
S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
2.根据权利要求1所述的面向康养的对话实现方法,其特征在于,个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
3.根据权利要求1所述的面向康养的对话实现方法,其特征在于,语音合成模型包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
4.根据权利要求1-3中任一所述的面向康养的对话实现方法,其特征在于,所述声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
参考音频采用公开的中文语音语料库通过预处理训练而成。
5.一种面向康养的对话系统,其特征在于,该系统包括,
对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
6.根据权利要求5所述的面向康养的对话系统,其特征在于,所述对话模型生成单元包括,
对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
整理校对模块,用于校对语音转文字过程中是否出现错误;
模型训练模块,用于个性化对话模型训练。
7.根据权利要求6所述的面向康养的对话系统,其特征在于,所述模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
8.根据权利要求5所述的面向康养的对话系统,其特征在于,所述个性化语音合成单元包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
9.根据权利要求1所述的面向康养的对话系统,其特征在于,该系统工作过程具体如下:
(1)、对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
(2)、个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
(3)、将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
(4)、将文字通过个性化语音合成模块,生成音频文件输出。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至4中任一项所述的面向康养的对话实现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946613.4A CN113488057B (zh) | 2021-08-18 | 2021-08-18 | 面向康养的对话实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946613.4A CN113488057B (zh) | 2021-08-18 | 2021-08-18 | 面向康养的对话实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488057A true CN113488057A (zh) | 2021-10-08 |
CN113488057B CN113488057B (zh) | 2023-11-14 |
Family
ID=77945623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110946613.4A Active CN113488057B (zh) | 2021-08-18 | 2021-08-18 | 面向康养的对话实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488057B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833572A (zh) * | 2017-11-06 | 2018-03-23 | 芋头科技(杭州)有限公司 | 一种模拟用户说话的语音合成方法及系统 |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的系统和方法 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
CN110838288A (zh) * | 2019-11-26 | 2020-02-25 | 杭州博拉哲科技有限公司 | 一种语音交互方法及其系统和对话设备 |
CN111048064A (zh) * | 2020-03-13 | 2020-04-21 | 同盾控股有限公司 | 基于单说话人语音合成数据集的声音克隆方法及装置 |
CN111179905A (zh) * | 2020-01-10 | 2020-05-19 | 北京中科深智科技有限公司 | 一种快速配音生成方法及装置 |
CN111681635A (zh) * | 2020-05-12 | 2020-09-18 | 深圳市镜象科技有限公司 | 基于小样本的语音实时克隆的方法、装置、设备和介质 |
CN111696521A (zh) * | 2019-12-18 | 2020-09-22 | 新加坡依图有限责任公司(私有) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 |
CN111968617A (zh) * | 2020-08-25 | 2020-11-20 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN112037793A (zh) * | 2020-08-21 | 2020-12-04 | 北京如影智能科技有限公司 | 一种语音回复方法及装置 |
CN112071325A (zh) * | 2020-09-04 | 2020-12-11 | 中山大学 | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 |
CN112233646A (zh) * | 2020-10-20 | 2021-01-15 | 携程计算机技术(上海)有限公司 | 基于神经网络的语音克隆方法、系统、设备及存储介质 |
CN112669814A (zh) * | 2020-12-17 | 2021-04-16 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
US20210217404A1 (en) * | 2018-05-17 | 2021-07-15 | Google Llc | Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
-
2021
- 2021-08-18 CN CN202110946613.4A patent/CN113488057B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833572A (zh) * | 2017-11-06 | 2018-03-23 | 芋头科技(杭州)有限公司 | 一种模拟用户说话的语音合成方法及系统 |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的系统和方法 |
US20210217404A1 (en) * | 2018-05-17 | 2021-07-15 | Google Llc | Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
WO2020232860A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
CN110838288A (zh) * | 2019-11-26 | 2020-02-25 | 杭州博拉哲科技有限公司 | 一种语音交互方法及其系统和对话设备 |
CN111696521A (zh) * | 2019-12-18 | 2020-09-22 | 新加坡依图有限责任公司(私有) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 |
CN111179905A (zh) * | 2020-01-10 | 2020-05-19 | 北京中科深智科技有限公司 | 一种快速配音生成方法及装置 |
CN111048064A (zh) * | 2020-03-13 | 2020-04-21 | 同盾控股有限公司 | 基于单说话人语音合成数据集的声音克隆方法及装置 |
CN111681635A (zh) * | 2020-05-12 | 2020-09-18 | 深圳市镜象科技有限公司 | 基于小样本的语音实时克隆的方法、装置、设备和介质 |
CN112037793A (zh) * | 2020-08-21 | 2020-12-04 | 北京如影智能科技有限公司 | 一种语音回复方法及装置 |
CN111968617A (zh) * | 2020-08-25 | 2020-11-20 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN112071325A (zh) * | 2020-09-04 | 2020-12-11 | 中山大学 | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 |
CN112233646A (zh) * | 2020-10-20 | 2021-01-15 | 携程计算机技术(上海)有限公司 | 基于神经网络的语音克隆方法、系统、设备及存储介质 |
CN112669814A (zh) * | 2020-12-17 | 2021-04-16 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
CN113178193A (zh) * | 2021-03-22 | 2021-07-27 | 浙江工业大学 | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113488057B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN111667834B (zh) | 一种助听设备及助听方法 | |
US20240221738A1 (en) | Systems and methods for using silent speech in a user interaction system | |
CN113724718A (zh) | 目标音频的输出方法及装置、系统 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
CN112185340B (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN117854492A (zh) | 一种基于大模型的智能交互方法、系统、设备及存储介质 | |
CN114125506B (zh) | 语音审核方法及装置 | |
CN117765932A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN116741144B (zh) | 一种语音音色转换方法和系统 | |
CN117275498A (zh) | 语音转换方法及语音转换模型的训练方法、电子设备和存储介质 | |
CN113488057B (zh) | 面向康养的对话实现方法及系统 | |
CN110298150A (zh) | 一种基于语音识别的身份验证方法及系统 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
CN114627851A (zh) | 一种语音合成方法及系统 | |
CN114333903A (zh) | 一种语音转换方法、装置、电子设备及存储介质 | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
CN118506764B (zh) | 基于自回归类深度学习语音合成的可控输出方法及设备 | |
CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 | |
WO2019106068A1 (en) | Speech signal processing and evaluation | |
CN112820274B (zh) | 一种语音信息识别校正方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |