CN113488057A - 面向康养的对话实现方法及系统 - Google Patents

面向康养的对话实现方法及系统 Download PDF

Info

Publication number
CN113488057A
CN113488057A CN202110946613.4A CN202110946613A CN113488057A CN 113488057 A CN113488057 A CN 113488057A CN 202110946613 A CN202110946613 A CN 202110946613A CN 113488057 A CN113488057 A CN 113488057A
Authority
CN
China
Prior art keywords
voice
model
dialogue
personalized
health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110946613.4A
Other languages
English (en)
Other versions
CN113488057B (zh
Inventor
王本强
王建华
尹青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Original Assignee
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong New Generation Information Industry Technology Research Institute Co Ltd filed Critical Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority to CN202110946613.4A priority Critical patent/CN113488057B/zh
Publication of CN113488057A publication Critical patent/CN113488057A/zh
Application granted granted Critical
Publication of CN113488057B publication Critical patent/CN113488057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了面向康养的对话实现方法及系统,属于语音交互领域,解决的技术问题为如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦,技术方案为:该方法具体如下:S1、用采集设备录制双方谈话声音;S2、对录制的声音转成文字并进行校对;S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。该系统包括对话模型生成单元及个性化语音合成单元;对话模型生成单元包括对话录音采集模块、语音转文字模块、整理校对模块及模型训练模块;个性化语音合成单元包括声纹编码器、语音合成器及发声器。

Description

面向康养的对话实现方法及系统
技术领域
本发明涉及语音交互技术领域,具体地说是一种面向康养的对话实现方法及系统。
背景技术
近年来,随着智能终端的普及,通过声音、视频、文字的方式,可以随时记录下生活当中的细节,如果这些数据从一个人出生开始收集,数据量是非常大的。
当前老年人口比例上升较快,人口老龄化程度的日益加深,如何提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦,是摆在康养行业的一个亟需解决的问题。
而随着人工智能技术的发展,使得语音识别、语音合成、自然语言处理、对话交互技术也越来越成熟。故如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种面向康养的对话实现方法及系统,来解决如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦的问题。
本发明的技术任务是按以下方式实现的,一种面向康养的对话实现方法,该方法具体如下:
S1、用采集设备录制双方谈话声音;
S2、对录制的声音转成文字并进行校对;
S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
作为优选,个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
作为优选,语音合成模型包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
更优地,所述声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
参考音频采用公开的中文语音语料库通过预处理训练而成。
一种面向康养的对话系统,该系统包括,
对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
作为优选,所述对话模型生成单元包括,
对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
整理校对模块,用于校对语音转文字过程中是否出现错误;
模型训练模块,用于个性化对话模型训练。
更优地,所述模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
作为优选,所述个性化语音合成单元包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
作为优选,该系统工作过程具体如下:
(1)、声音采集:对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
(2)、语音转文字:个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
(3)、个性化对话模型:将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
(4)、个性化语音合成:将文字通过个性化语音合成模块,生成音频文件输出。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的面向康养的对话实现方法。
本发明的面向康养的对话实现方法及系统具有以下优点:
(一)本发明可以记录下某个人的声学特征以及说话方式特征,尽可能的模拟出独有的个人的说话方式及语气神态,让其拥有一个“不朽的化身”,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦;
(二)本发明的基于Tracotron2的语音合成器,相比于声纹编码器,合成器对训练数据的要求要严格得多,准确的文本,足够的时长,还要保证数据中不包含噪音;
(三)本发明的基于Tracotron2的语音合成器生成的频谱特征进入基于WaveNet的发声器,完全独立于声纹编码器的发声器将频谱特征转换为时序波形,保证语音合成的准确性;
(四)本发明构建了个性化对话模型,并采用个性化语音合成方式,且只做过程比较简单,具有良好的市场应用前景。
附图说明
下面结合附图对本发明进一步说明。
附图1为面向康养的对话实现方法的流程框图;
附图2为对话模型生成单元的结构框图;
附图3为个性化语音合成单元的结构框图;
附图4为面向康养的对话系统工作过程的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的面向康养的对话实现方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的面向康养的对话实现方法,该方法具体如下:
S1、用采集设备录制双方谈话声音;
S2、对录制的声音转成文字并进行校对;
S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
本实施例中步骤S3中的个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
本实施例中步骤S4的语音合成模型包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
本实施例中的声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
参考音频采用公开的中文语音语料库通过预处理训练而成。
实施例2:
本发明的面向康养的对话系统,该系统包括,
对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
如附图2所示,本发明的对话模型生成单元包括,
对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
整理校对模块,用于校对语音转文字过程中是否出现错误;
模型训练模块,用于个性化对话模型训练。
本实施例中的模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
如附图3所示,本实施例中的个性化语音合成单元包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
如附图4所示,该系统工作过程具体如下:
(1)、声音采集:对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
(2)、语音转文字:个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
(3)、个性化对话模型:将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
(4)、个性化语音合成:将文字通过个性化语音合成模块,生成音频文件输出。
实施例3:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的面向康养的对话实现方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种面向康养的对话实现方法,其特征在于,该方法具体如下:
S1、用采集设备录制双方谈话声音;
S2、对录制的声音转成文字并进行校对;
S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
2.根据权利要求1所述的面向康养的对话实现方法,其特征在于,个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
3.根据权利要求1所述的面向康养的对话实现方法,其特征在于,语音合成模型包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
4.根据权利要求1-3中任一所述的面向康养的对话实现方法,其特征在于,所述声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
参考音频采用公开的中文语音语料库通过预处理训练而成。
5.一种面向康养的对话系统,其特征在于,该系统包括,
对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
6.根据权利要求5所述的面向康养的对话系统,其特征在于,所述对话模型生成单元包括,
对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
整理校对模块,用于校对语音转文字过程中是否出现错误;
模型训练模块,用于个性化对话模型训练。
7.根据权利要求6所述的面向康养的对话系统,其特征在于,所述模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
8.根据权利要求5所述的面向康养的对话系统,其特征在于,所述个性化语音合成单元包括,
声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
基于WaveNet的发声器,用于将频谱特征转换为时序波形。
9.根据权利要求1所述的面向康养的对话系统,其特征在于,该系统工作过程具体如下:
(1)、对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
(2)、个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
(3)、将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
(4)、将文字通过个性化语音合成模块,生成音频文件输出。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至4中任一项所述的面向康养的对话实现方法。
CN202110946613.4A 2021-08-18 2021-08-18 面向康养的对话实现方法及系统 Active CN113488057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110946613.4A CN113488057B (zh) 2021-08-18 2021-08-18 面向康养的对话实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110946613.4A CN113488057B (zh) 2021-08-18 2021-08-18 面向康养的对话实现方法及系统

Publications (2)

Publication Number Publication Date
CN113488057A true CN113488057A (zh) 2021-10-08
CN113488057B CN113488057B (zh) 2023-11-14

Family

ID=77945623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110946613.4A Active CN113488057B (zh) 2021-08-18 2021-08-18 面向康养的对话实现方法及系统

Country Status (1)

Country Link
CN (1) CN113488057B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833572A (zh) * 2017-11-06 2018-03-23 芋头科技(杭州)有限公司 一种模拟用户说话的语音合成方法及系统
CN108630190A (zh) * 2018-05-18 2018-10-09 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的系统和方法
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110767210A (zh) * 2019-10-30 2020-02-07 四川长虹电器股份有限公司 一种生成个性化语音的方法及装置
CN110838288A (zh) * 2019-11-26 2020-02-25 杭州博拉哲科技有限公司 一种语音交互方法及其系统和对话设备
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111696521A (zh) * 2019-12-18 2020-09-22 新加坡依图有限责任公司(私有) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN111968617A (zh) * 2020-08-25 2020-11-20 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112037793A (zh) * 2020-08-21 2020-12-04 北京如影智能科技有限公司 一种语音回复方法及装置
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN112233646A (zh) * 2020-10-20 2021-01-15 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
CN112669814A (zh) * 2020-12-17 2021-04-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
US20210217404A1 (en) * 2018-05-17 2021-07-15 Google Llc Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks
CN113178193A (zh) * 2021-03-22 2021-07-27 浙江工业大学 一种基于智能语音芯片的中文自定义唤醒与物联交互方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833572A (zh) * 2017-11-06 2018-03-23 芋头科技(杭州)有限公司 一种模拟用户说话的语音合成方法及系统
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的系统和方法
US20210217404A1 (en) * 2018-05-17 2021-07-15 Google Llc Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks
CN108630190A (zh) * 2018-05-18 2018-10-09 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
WO2020232860A1 (zh) * 2019-05-22 2020-11-26 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN110767210A (zh) * 2019-10-30 2020-02-07 四川长虹电器股份有限公司 一种生成个性化语音的方法及装置
CN110838288A (zh) * 2019-11-26 2020-02-25 杭州博拉哲科技有限公司 一种语音交互方法及其系统和对话设备
CN111696521A (zh) * 2019-12-18 2020-09-22 新加坡依图有限责任公司(私有) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111048064A (zh) * 2020-03-13 2020-04-21 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN112037793A (zh) * 2020-08-21 2020-12-04 北京如影智能科技有限公司 一种语音回复方法及装置
CN111968617A (zh) * 2020-08-25 2020-11-20 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN112233646A (zh) * 2020-10-20 2021-01-15 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
CN112669814A (zh) * 2020-12-17 2021-04-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN113178193A (zh) * 2021-03-22 2021-07-27 浙江工业大学 一种基于智能语音芯片的中文自定义唤醒与物联交互方法

Also Published As

Publication number Publication date
CN113488057B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN110148427B (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
US6959276B2 (en) Including the category of environmental noise when processing speech signals
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN112185363B (zh) 音频处理方法及装置
CN111667834B (zh) 一种助听设备及助听方法
US20240221738A1 (en) Systems and methods for using silent speech in a user interaction system
CN113724718A (zh) 目标音频的输出方法及装置、系统
CN113948062B (zh) 数据转换方法及计算机存储介质
CN114005428A (zh) 语音合成方法、装置、电子设备、存储介质和程序产品
CN112185340B (zh) 语音合成方法、语音合成装置、存储介质与电子设备
CN117854492A (zh) 一种基于大模型的智能交互方法、系统、设备及存储介质
CN114125506B (zh) 语音审核方法及装置
CN117765932A (zh) 语音识别方法、装置、电子设备和存储介质
CN116741144B (zh) 一种语音音色转换方法和系统
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
CN113488057B (zh) 面向康养的对话实现方法及系统
CN110298150A (zh) 一种基于语音识别的身份验证方法及系统
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN114627851A (zh) 一种语音合成方法及系统
CN114333903A (zh) 一种语音转换方法、装置、电子设备及存储介质
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN118506764B (zh) 基于自回归类深度学习语音合成的可控输出方法及设备
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质
WO2019106068A1 (en) Speech signal processing and evaluation
CN112820274B (zh) 一种语音信息识别校正方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant