CN105989832A - 一种用于在计算机设备中生成个性化语音的方法和装置 - Google Patents

一种用于在计算机设备中生成个性化语音的方法和装置 Download PDF

Info

Publication number
CN105989832A
CN105989832A CN201510071165.2A CN201510071165A CN105989832A CN 105989832 A CN105989832 A CN 105989832A CN 201510071165 A CN201510071165 A CN 201510071165A CN 105989832 A CN105989832 A CN 105989832A
Authority
CN
China
Prior art keywords
information
user
voice
converted
computer equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510071165.2A
Other languages
English (en)
Inventor
李宁
智雷涛
苏庆
王瑞金
孔卫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Optical Networks Israel Ltd
Original Assignee
Alcatel Optical Networks Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Optical Networks Israel Ltd filed Critical Alcatel Optical Networks Israel Ltd
Priority to CN201510071165.2A priority Critical patent/CN105989832A/zh
Publication of CN105989832A publication Critical patent/CN105989832A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种用于在计算机设备中生成个性化语音的方法,其中,该方法包括以下步骤:a.获取为用户转换得到的标准语音信息;b.根据所述用户的语音特征信息,将所述标准语音信息转换为所述用户的个性化语音信息。根据本发明的方法,能够将用户的待转换信息转换为具有用户的声音特性的个性化语音信息,使得能够根据该个性化语音信息确定用户的身份。

Description

一种用于在计算机设备中生成个性化语音的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于在计算机设备中生成个性化语音的方法和装置。
背景技术
现有技术中,能够将一些非语音信息转换为语音信息,如将文本转换为语音等。然而,对相同的非语音信息进行转换而得到的语音信息总是相同的;例如,对同样的文本进行转换得到的语音是相同的。
发明内容
本发明的目的是提供一种用于在计算机设备中生成个性化语音的方法和装置。
根据本发明的一个方面,提供一种用于在计算机设备中生成个性化语音的方法,其中,该方法包括以下步骤:
a.获取为用户转换得到的标准语音信息;
b.根据所述用户的语音特征信息,将所述标准语音信息转换为所述用户的个性化语音信息。
根据本发明的另一个方面,还提供了一种用于在计算机设备中生成个性化语音的装置,其中,该装置包括以下装置:
获取装置,用于获取为用户转换得到的标准语音信息;
第一转换装置,用于根据所述用户的语音特征信息,将所述标准语音信息转换为所述用户的个性化语音信息。
与现有技术相比,本发明具有以下优点:1)可以根据用户的语音特征信息将为用户转换得到的标准语音信息,转换为用户的个性化语音信息,该个性化语音信息具备用户的声音特性,且可用于确定用户的身份;2)当用户基于本实施例的方案进行无声通话时,参与通话的另一个用户能够根据其听到的语音可直接确定该用户的身份,也即,该无声通话产生的听觉效果与通话双方直接进行有声通话产生的听觉效果是相同或者相近的,例如,用户在公共环境(尤其是存在大量噪音的地方)中,采用本发明的方案来进行无声通话时,即保证了无声通话所带来的安全性,又使得通话的另一个用户在听觉上产生与该用户进行实际的有声通话的效果;3)由于本发明的方案使得通话另一方能够通过声音来识别用户身份,从而避免了由于无声通话或者由于使用标准语音信息而降低通信安全的问题;4)计算机设备可根据用户的语音文件,来确定用户的至少一个语音特征信息,且当获取到用户的新语音文件时,可更新现有的语音特征信息,从而实现语音特征信息的不断优化,使得用户的个性化语音信息更接近用户的真实声音。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个实施例的用于在计算机设备中生成个性化语音的方法的流程示意图;
图2为本发明另一个实施例的用于在计算机设备中生成个性化语音的方法的流程示意图;
图3为本发明一个实施例的用于在计算机设备中生成个性化语音的装置的结构示意图;
图4为本发明另一个实施例的用于在计算机设备中生成个性化语音的装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明一个实施例的用于在计算机设备中生成个性化语音的方法的流程示意图。
其中,本实施例的方法主要通过计算机设备来实现;所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;所述网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。所述用户设备包括但不限于PC机、平板电脑、智能手机、PDA、IPTV等。
需要说明的是,所述计算机设备仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
根据本实施例的方法包括步骤S1和步骤S2。
在步骤S1中,计算机设备获取为用户转换得到的标准语音信息。
其中,所述标准语音信息符合预定语音标准。该预定语音标准定义了非语音信息与语音信息之间的映射关系;也即,对相同的非语音信息进行转换得到的标准语音信息是相同的,不会因用户的不同而发生变化。例如,非语音信息为文字“我”,则对文字“我”进行转换得到的标准语音信息总是相同的。
具体地,计算机设备获取为用户转换得到的标准语音信息的实现方式包括但不限于:
1)计算机设备直接获得为用户转换得到的标准语音信息。本实现方式可具体包括:
a)计算机设备获取存储在该计算机设备中的、已为用户转换得到的标准语音信息。
例如,计算机设备为用户设备,用户设备直接从本地读取预存储的标准语音信息。
b)计算机设备接收来自其他设备的、为用户转换得到的标准语音信息。
例如,计算机设备为网络设备,计算机设备接收用户通过用户设备上传至该计算机设备的、为该用户转换得到的标准语音信息。
又例如,计算机设备为网络设备,计算机设备接收来自其他网络设备的、为该用户转换得到的标准语音信息。
2)计算机设备通过执行信息转换来获得标准语音信息。本实现方式中,步骤S1进一步包括步骤S11和步骤S12。
在步骤S11中,计算机设备获取用户的待转换信息。
其中,所述待转换信息包括任何能够转换为标准语音信息的非语音信息。优选地,所述待转换信息包括但不限于:
a)用户的唇语信息。
其中,所述唇语信息包括任何与用户的唇语相关的信息。优选地,所述唇语信息包括但不限于:
i)唇形信息。
其中,所述唇形信息包括任何用户的唇的形状相关的信息。优选地,所述唇形信息包括但不限于用于表示唇的轮廓的信息(如唇的大小、上下唇的厚度)等。
ii)唇动特征信息。
其中,所述唇动特征信息包括任何与用户的唇的动作特征相关的信息;优选地,所述唇动特征信息包括但不限于:唇开高度和宽度、唇的运动速度等。
b)用户指定的文本信息。
优选地,当计算机设备为用户设备时,所述文本信息包括但不限于:用户在该用户设备中输入的文本信息,用户在已存储在该用户设备的文本信息中选择的文本信息等。当计算机设备为网络设备时,所述文本信息包括但不限于:用户通过用户设备发送给网络设备的文本信息,网络设备根据来自用户设备的指示信息,从网络设备中存储的用户数据中提取出的文本信息等;例如,来自用户设备的指示信息指定了用户在网络中存储的网络日志中的特定内容,则网络设备将该指示信息所指定的特定内容作为用户指定的文本信息。
需要说明的是,上述待转换信息仅为举例,而非对本发明的限制,本领域技术人员应能理解,任何能够转换为标准语音信息的信息,均应包含在本发明所述的待转换信息的范围内。
具体地,计算机设备可采用多种方式获取用户的待转换信息。
例如,计算机设备直接获取存储在该计算机设备中的、用户指定的文本信息。
又例如,计算机设备接收来自其他用户设备的、用户的唇语信息。
作为一种优选方案,所述待转换信息包括用户的唇语信息,所述步骤S11进一步包括以下步骤:计算机设备对所述用户进行唇语识别,获得所述用户的唇语信息。其中,本优选方案中的计算机设备为具有摄像功能的用户设备,如智能手机等。
优选地,计算机设备基于摄像功能获得用于指示用户的唇形动作的视频序列,并基于唇语识别技术获得该视频序列所对应的唇语信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取用户的待转换信息的实现方式,均应包含在本发明的范围内。
在步骤S12中,计算机设备将待转换信息转换为标准语音信息。
例如,待转换信息为用户的唇语信息,计算机设备将该唇语信息转换为对应的文本信息,并基于预定语音标准,将该文本信息转换为标准语音信息。
又例如,待转换信息为用户指定的文本信息,计算机设备基于预定语音标准,将该文本信息转换为标准语音信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将待转换信息转换为标准语音信息的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取为用户转换得到的标准语音信息的实现方式,均应包含在本发明的范围内。
在步骤S2中,计算机设备根据用户的语音特征信息,将标准语音信息转换为该用户的个性化语音信息。
其中,所述语音特征信息包括任何与语音的声波特征相关的信息;优选地,所述语音特征信息包括但不限于:
1)与语音对应的声波频率相关的信息,如语音的音调、音高等。
2)与声音对应的声波振幅相关的信息,如语音的响度、音强等。
3)与语音对应的声波周期相关的信息,如语音的音长等。
4)与语音对应的波形特性相关的信息,如语音的音色等。
需要说明的是,上述语音特征信息仅为举例,而非对本发明的限制,本领域技术人员应能理解,任何与语音的声波特征相关的信息,均应包含在本发明所述的语音特征信息的范围内。
需要说明的是,用户可具有多个语音特征信息。例如,用户具有分别对应于多种语言类型的多个语音特征信息;其中,所述语言类型用于指示语言的种类,如普通话、方言、英文等。
其中,所述个性化语音信息表示具有用户的声音特性的语音信息。需要说明的是,对于一个特定的文字,针对该文字为不同用户所生成的个性化语音信息往往是不同的。例如,对于文字“我”,针对该文字为用户A生成的个性化语音信息与为用户B生成的个性化语音信息往往是不同的。
其中,计算机设备获取用户的语音特征信息的实现方式包括但不限于:
1)计算机设备直接获得用户的语音特征信息。本实现方案可具体包括:
a)计算机设备直接读取存储在该计算机设备中的、用户的语音特征信息。
例如,计算机设备为用户设备,该用户设备中预先存储有用户的语音特征信息,则计算机设备直接读取该语音特征信息。
b)计算机设备接收来自其他设备的、该用户的语音特征信息。
例如,计算机设备为网络设备,该计算机设备接收来自用户设备的、该用户的语音特征信息。
优选地,计算机设备接收来自其他设备的、该用户的语音特征信息之后,存储该语音特征信息。
2)计算机设备根据所述用户的语音文件,确定所述用户的至少一个语音特征信息。本实现方式将在后续实施例中予以详述,在此不再赘述。
具体地,计算机设备根据用户的语音特征信息,对标准语音信息进行语音处理,来将该标准语音信息转换为该用户的个性化语音信息。
例如,计算机设备根据用户的语音特征信息,调整标准语音信息所对应的声波特征,如声波频率、声波振幅、声波周期、波形等,来将该标准语音信息转换为该用户的个性化语音信息。
作为本实施例的一种优选方案,本实施例的方法还包括步骤S4,步骤S2进一步包括步骤S21。
在步骤S4中,计算机设备根据用户指定的语言类型,从所述用户的至少一个语音特征信息中选择与所述语言类型相对应的、该用户的语音特征信息。
其中,用户可通过多种方式指定语言类型。例如,计算机设备为用户设备,计算机设备根据用户在该计算机设备中的设置直接确定用户指定的语言类型;又例如,计算机设备为网络设备,该计算机设备向用户设备提供多种可选语言类型,并根据用户在用户设备中的选择操作来确定用户指定的语言类型。
具体地,计算机设备根据用户指定的语言类型,从所获取的用户的至少一个语音特征信息中选择与该语言类型相对应的语音特征信息。
例如,计算机设备中预先存储有以下3个语音特征信息:info1、info2、info3,其中,info1对应的语言类型为普通话,info2对应的语言类型为英文,info3对应的语言类型为日文;则在步骤S4中,计算机设备根据用户指定的语言类型“普通话”,从该3个语音特征信息中选择info1作为用户的语音特征信息。
在步骤S21中,计算机设备根据所选择的语音特征信息,将所述标准语音信息转换为个性化语音信息。
例如,在步骤S4中,计算机设备根据用户指定的语言类型“普通话”,选择与该语言类型相对应的info1作为用户的语音特征信息;则在步骤S21中,计算机设备根据info1,将标准语音信息转换为用户的个性化语音信息。
需要说明的是,步骤S1和步骤S4并无先后顺序。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据用户的语音特征信息,将标准语音信息转换为该用户的个性化语音信息的实现方式,均应包含在本发明的范围内。
作为本实施例的一种优选方案,本实施例的方法还包括步骤S5。
在步骤S5中,计算机设备将所述个性化语音信息发送至其他设备。
其中,所述其他设备包括任何能够与该计算机设备进行通信的设备;例如,计算机设备为用户设备,其他设备为正在与该计算机设备进行语音通话的设备(如智能手机、固定电话等);又例如,计算机设备为网络设备,其他设备为连接至该网络设备的用户设备。
现有技术中,能够将一些非语音信息转换为语音信息,如将文本转换为语音等。然而,对相同的非语音信息进行转换而得到的语音信息总是相同的;例如,对同样的文本进行转换得到的语音是相同的。
然而,本发明发现现有技术存在以下问题:由于标准语音信息的声音效果是单一的,使得用户基于标准语音信息听到的声音缺乏了真实性,从而降低了用户的融入程度和听觉满意度;并且,由于无法根据转换得到的标准语音信息来判断待转换信息的来源用户,可能会因来源用户的不确定性而降低通信的安全性,从而可能对用户产生负面影响。
根据本实施例的方案,可以根据用户的语音特征信息将为用户转换得到的标准语音信息,转换为用户的个性化语音信息,该个性化语音信息具备用户的声音特性,且可用于确定用户的身份;此外,当用户基于本实施例的方案进行无声通话时,参与通话的另一个用户能够根据其听到的语音可直接确定该用户的身份,也即,该无声通话产生的听觉效果与通话双方直接进行有声通话产生的听觉效果是相同或者相近的,例如,用户在公共环境(尤其是存在大量噪音的地方)中,采用本发明的方案来进行无声通话时,即保证了无声通话所带来的安全性,又使得通话的另一个用户在听觉上产生与该用户进行实际的有声通话的效果;此外,由于本实施例的方案使得通话另一方能够通过声音来识别用户身份,从而避免了由于无声通话或者由于使用标准语音信息而降低通信安全的问题。
图2为本发明另一个实施例的用于在计算机设备中生成个性化语音的方法的流程示意图。本实施例的方法主要由计算机设备来实现。其中,参照图1中对计算机设备所做的任何说明,均以引用的方式包含于此。
根据本实施例的方法包括步骤S1、步骤S2和步骤S3。其中,步骤S1和步骤S2已在参照图1中予以详述,在此不再赘述。
在步骤S3中,计算机设备根据用户的语音文件,确定所述用户的至少一个语音特征信息。
其中,所述语音文件包括任何包含用户语音的文件。
其中,计算机设备获取用户的语音文件的实现方式包括但不限于:
1)计算机设备直接获取存储在该计算机设备中的语音文件。
2)计算机设备接收来自其他计算机设备的、用户的语音文件。
例如,计算机设备为网络设备,计算机设备接收用户通过用户设备上传至该计算机设备的语音文件。
具体地,计算机设备根据用户的语音文件,确定所述用户的至少一个语音特征信息的实现方式包括但不限于:
1)计算机设备直接对用户的语音文件进行分析处理,来提取语音文件中的语音特征信息。
例如,音频文件file1为wav格式,计算机设备直接对file1进行FFT(Fast Fourier Transform,快速傅里叶变换)获得该file1文件中的音调。
优选地,在该实现方式中,计算机设备可仅对多个语音文件中用户指定的语音文件进行分析处理,来提取该指定的语音文件中的语音特征信息。
2)计算机设备根据用户的多个语音文件,进行样本训练,获得该用户的个性化语音模型;并且,计算机设备根据该个性化语音模型,获得该用户的语音特征信息。
作为步骤S3的一种优选方案,对于多种语言类型中的每种语言类型,计算机设备根据该语言类型所对应的语音文件,确定该语言类型所对应的语音特征信息。
例如,计算机设备根据普通话所对应的语音文件file1和file2,确定普通话所对应的语音特征信息;并且,计算机设备根据英文所对应的语音文件file3,确定英文所对应的语音特征信息。
需要说明的是,该优选方案可以和步骤S3的实现方式1)和2)相结合。例如,对于多种语言类型中的每种语言类型,计算机设备直接对该语言类型所对应的、用户的语音文件进行分析处理,来提取语音文件中的语音特征信息。又例如,对于多种语言类型中的每种语言类型,计算机设备根据该语言类型所对应的、用户的多个语音文件,进行样本训练,获得该语言类型所对应的个性化语音模型;并且,计算机设备根据该个性化语音模型,获得该语言类型所对应的、用户的语音特征信息。
需要说明的是,当计算机设备获取用户的新语音文件时,计算机设备根据该新语音文件,更新用户的语音特征信息。例如,计算机设备基于该新语音文件进行样本训练来优化已有的个性化语音模型,并根据优化后的个性化语音模型重新获得用户的语音特征信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据用户的语音文件,确定所述用户的至少一个语音特征信息的实现方式,均应包含在本发明的范围内。
需要说明的是,步骤S3和步骤S1、步骤S2之间并无严格的先后顺序。例如,一旦获取用户的语音文件,计算机设备直接执行步骤S3,该情况下,步骤S3和步骤S1、步骤S2之间并无顺序关系。又例如,计算机设备可在执行步骤S1之后,对用户指定的语音文件执行步骤S3,来确定该指定的语音文件对应的语音特征信息,之后,计算机设备执行步骤S2来根据步骤S3中所确定的语音特征信息,将步骤S1中获得的标准语音信息转换为用户的个性化信息。
根据本实施例的方案,计算机设备可根据用户的语音文件,来确定用户的至少一个语音特征信息,且当获取到用户的新语音文件时,可更新现有的语音特征信息,从而实现语音特征信息的不断优化,使得用户的个性化语音信息更接近用户的真实声音。
图3为本发明一个实施例的用于在计算机设备中生成个性化语音的装置的结构示意图。该用于生成个性化语音的装置(以下简称为“生成装置”)包括获取装置1和第一转换装置2。
获取装置1获取为用户转换得到的标准语音信息。
其中,所述标准语音信息符合预定语音标准。该预定语音标准定义了非语音信息与语音信息之间的映射关系;也即,对相同的非语音信息进行转换得到的标准语音信息是相同的,不会因用户的不同而发生变化。例如,非语音信息为文字“我”,则对文字“我”进行转换得到的标准语音信息总是相同的。
具体地,获取装置1获取为用户转换得到的标准语音信息的实现方式包括但不限于:
1)获取装置1直接获得为用户转换得到的标准语音信息。本实现方式可具体包括:
a)计算机设备的获取装置1获取存储在该计算机设备中的、已为用户转换得到的标准语音信息。
例如,计算机设备为用户设备,该用户设备的获取装置1直接从本地读取预存储的标准语音信息。
b)计算机设备的获取装置1接收来自其他设备的、为用户转换得到的标准语音信息。
例如,计算机设备为网络设备,计算机设备的获取装置1接收用户通过用户设备上传至该计算机设备的、为该用户转换得到的标准语音信息。
又例如,计算机设备为网络设备,计算机设备的获取装置1接收来自其他网络设备的、为该用户转换得到的标准语音信息。
2)获取装置1通过执行信息转换来获得标准语音信息。本实现方式中,获取装置1进一步包括子获取装置(图未示)和第二转换装置(图未示)。
子获取装置获取用户的待转换信息。
其中,所述待转换信息包括任何能够转换为标准语音信息的非语音信息。优选地,所述待转换信息包括但不限于:
a)用户的唇语信息。
其中,所述唇语信息包括任何与用户的唇语相关的信息。优选地,所述唇语信息包括但不限于:
i)唇形信息。
其中,所述唇形信息包括任何用户的唇的形状相关的信息。优选地,所述唇形信息包括但不限于用于表示唇的轮廓的信息(如唇的大小、上下唇的厚度)等。
ii)唇动特征信息。
其中,所述唇动特征信息包括任何与用户的唇的动作特征相关的信息;优选地,所述唇动特征信息包括但不限于:唇开高度和宽度、唇的运动速度等。
b)用户指定的文本信息。
优选地,当计算机设备为用户设备时,所述文本信息包括但不限于:用户在该用户设备中输入的文本信息,用户在已存储在该用户设备的文本信息中选择的文本信息等。当计算机设备为网络设备时,所述文本信息包括但不限于:用户通过用户设备发送给网络设备的文本信息,网络设备根据来自用户设备的指示信息,从网络设备中存储的用户数据中提取出的文本信息等;例如,来自用户设备的指示信息指定了用户在网络中存储的网络日志中的特定内容,则网络设备将该指示信息所指定的特定内容作为用户指定的文本信息。
需要说明的是,上述待转换信息仅为举例,而非对本发明的限制,本领域技术人员应能理解,任何能够转换为标准语音信息的信息,均应包含在本发明所述的待转换信息的范围内。
具体地,子获取装置可采用多种方式获取用户的待转换信息。
例如,计算机设备的子获取装置直接获取存储在该计算机设备中的、用户指定的文本信息。
又例如,计算机设备的子获取装置接收来自其他用户设备的、用户的唇语信息。
作为一种优选方案,所述待转换信息包括用户的唇语信息,所述子获取装置执行的操作包括:子获取装置对所述用户进行唇语识别,获得所述用户的唇语信息。其中,本优选方案中的计算机设备为具有摄像功能的用户设备,如智能手机等。
优选地,子获取装置基于计算机设备的摄像功能获得用于指示用户的唇形动作的视频序列,并基于唇语识别技术获得该视频序列所对应的唇语信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取用户的待转换信息的实现方式,均应包含在本发明的范围内。
第二转换装置将待转换信息转换为标准语音信息。
例如,待转换信息为用户的唇语信息,第二转换装置将该唇语信息转换为对应的文本信息,并基于预定语音标准,将该文本信息转换为标准语音信息。
又例如,待转换信息为用户指定的文本信息,第二转换装置基于预定语音标准,将该文本信息转换为标准语音信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将待转换信息转换为标准语音信息的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取为用户转换得到的标准语音信息的实现方式,均应包含在本发明的范围内。
第一转换装置2根据用户的语音特征信息,将标准语音信息转换为该用户的个性化语音信息。
其中,所述语音特征信息包括任何与语音的声波特征相关的信息;优选地,所述语音特征信息包括但不限于:
1)与语音对应的声波频率相关的信息,如语音的音调、音高等。
2)与声音对应的声波振幅相关的信息,如语音的响度、音强等。
3)与语音对应的声波周期相关的信息,如语音的音长等。
4)与语音对应的波形特性相关的信息,如语音的音色等。
需要说明的是,上述语音特征信息仅为举例,而非对本发明的限制,本领域技术人员应能理解,任何与语音的声波特征相关的信息,均应包含在本发明所述的语音特征信息的范围内。
需要说明的是,用户可具有多个语音特征信息。例如,用户具有分别对应于多种语言类型的多个语音特征信息;其中,所述语言类型用于指示语言的种类,如普通话、方言、英文等。
其中,所述个性化语音信息表示具有用户的声音特性的语音信息。需要说明的是,对于一个特定的文字,针对该文字为不同用户所生成的个性化语音信息往往是不同的。例如,对于文字“我”,针对该文字为用户A生成的个性化语音信息与为用户B生成的个性化语音信息往往是不同的。
其中,第一转换装置2获取用户的语音特征信息的实现方式包括但不限于:
1)第一转换装置2直接获得用户的语音特征信息。本实现方案可具体包括:
a)计算机设备的第一转换装置2直接读取存储在该计算机设备中的、用户的语音特征信息。
例如,计算机设备为用户设备,该用户设备中预先存储有用户的语音特征信息,则该用户设备的第一转换装置2直接读取该语音特征信息。
b)计算机设备的第一转换装置2接收来自其他设备的、该用户的语音特征信息。
例如,计算机设备为网络设备,该计算机设备的第一转换装置2接收来自用户设备的、该用户的语音特征信息。
优选地,计算机设备的第一转换装置2接收来自其他设备的、该用户的语音特征信息之后,存储该语音特征信息。
2)第一转换装置2根据所述用户的语音文件,确定所述用户的至少一个语音特征信息。本实现方式将在后续实施例中予以详述,在此不再赘述。
具体地,第一转换装置2根据用户的语音特征信息,对标准语音信息进行语音处理,来将该标准语音信息转换为该用户的个性化语音信息。
例如,第一转换装置2根据用户的语音特征信息,调整标准语音信息所对应的声波特征,如声波频率、声波振幅、声波周期、波形等,来将该标准语音信息转换为该用户的个性化语音信息。
作为本实施例的一种优选方案,本实施例的生成装置还包括选择装置(图未示),第一转换装置2进一步包括子转换装置(图未示)。
选择装置根据用户指定的语言类型,从所述用户的至少一个语音特征信息中选择与所述语言类型相对应的、该用户的语音特征信息。
其中,用户可通过多种方式指定语言类型。例如,计算机设备为用户设备,计算机设备根据用户在该计算机设备中的设置直接确定用户指定的语言类型;又例如,计算机设备为网络设备,该计算机设备向用户设备提供多种可选语言类型,并根据用户在用户设备中的选择操作来确定用户指定的语言类型。
具体地,选择装置根据用户指定的语言类型,从所获取的用户的至少一个语音特征信息中选择与该语言类型相对应的语音特征信息。
例如,计算机设备中预先存储有以下3个语音特征信息:info1、info2、info3,其中,info1对应的语言类型为普通话,info2对应的语言类型为英文,info3对应的语言类型为日文;则选择装置根据用户指定的语言类型“普通话”,从该3个语音特征信息中选择info1作为用户的语音特征信息。
子转换装置根据所选择的语音特征信息,将所述标准语音信息转换为个性化语音信息。
例如,选择装置根据用户指定的语言类型“普通话”,选择与该语言类型相对应的info1作为用户的语音特征信息;子转换装置根据info1,将标准语音信息转换为用户的个性化语音信息。
需要说明的是,获取装置1和选择装置执行的操作之间并无先后顺序。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据用户的语音特征信息,将标准语音信息转换为该用户的个性化语音信息的实现方式,均应包含在本发明的范围内。
作为本实施例的一种优选方案,本实施例的生成装置还包括发送装置(图未示)。
发送装置将所述个性化语音信息发送至其他设备。
其中,所述其他设备包括任何能够与该计算机设备进行通信的设备;例如,计算机设备为用户设备,其他设备为正在与该计算机设备进行语音通话的设备(如智能手机、固定电话等);又例如,计算机设备为网络设备,其他设备为连接至该网络设备的用户设备。
现有技术中,能够将一些非语音信息转换为语音信息,如将文本转换为语音等。然而,对相同的非语音信息进行转换而得到的语音信息总是相同的;例如,对同样的文本进行转换得到的语音是相同的。
然而,本发明发现现有技术存在以下问题:由于标准语音信息的声音效果是单一的,使得用户基于标准语音信息听到的声音缺乏了真实性,从而降低了用户的融入程度和听觉满意度;并且,由于无法根据转换得到的标准语音信息来判断待转换信息的来源用户,可能会因来源用户的不确定性而降低通信的安全性,从而可能对用户产生负面影响。
根据本实施例的方案,可以根据用户的语音特征信息将为用户转换得到的标准语音信息,转换为用户的个性化语音信息,该个性化语音信息具备用户的声音特性,且可用于确定用户的身份;此外,当用户基于本实施例的方案进行无声通话时,参与通话的另一个用户能够根据其听到的语音可直接确定该用户的身份,也即,该无声通话产生的听觉效果与通话双方直接进行有声通话产生的听觉效果是相同或者相近的,例如,用户在公共环境(尤其是存在大量噪音的地方)中,采用本发明的方案来进行无声通话时,即保证了无声通话所带来的安全性,又使得通话的另一个用户在听觉上产生与该用户进行实际的有声通话的效果;此外,由于本实施例的方案使得通话另一方能够通过声音来识别用户身份,从而避免了由于无声通话或者由于使用标准语音信息而降低通信安全的问题。
图4为本发明另一个实施例的用于在计算机设备中生成个性化语音的装置的结构示意图。本实施例的生成装置包括获取装置1、第一转换装置2和确定装置3。其中,获取装置1和第一转换装置2已在参照图3中予以详述,在此不再赘述。
确定装置3根据用户的语音文件,确定所述用户的至少一个语音特征信息。
其中,所述语音文件包括任何包含用户语音的文件。
其中,确定装置3获取用户的语音文件的实现方式包括但不限于:
1)确定装置3直接获取存储在该计算机设备中的语音文件。
2)确定装置3接收来自其他计算机设备的、用户的语音文件。
例如,计算机设备为网络设备,计算机设备的确定装置3接收用户通过用户设备上传至该计算机设备的语音文件。
具体地,确定装置3根据用户的语音文件,确定所述用户的至少一个语音特征信息的实现方式包括但不限于:
1)确定装置3直接对用户的语音文件进行分析处理,来提取语音文件中的语音特征信息。
例如,音频文件file1为wav格式,确定装置3直接对file1进行FFT(Fast Fourier Transform,快速傅里叶变换)获得该file1文件中的音调。
优选地,在该实现方式中,确定装置3可仅对多个语音文件中用户指定的语音文件进行分析处理,来提取该指定的语音文件中的语音特征信息。
2)确定装置3根据用户的多个语音文件,进行样本训练,获得该用户的个性化语音模型;并且,确定装置3根据该个性化语音模型,获得该用户的语音特征信息。
作为确定装置3的一种优选方案,对于多种语言类型中的每种语言类型,确定装置3根据该语言类型所对应的语音文件,确定该语言类型所对应的语音特征信息。
例如,确定装置3根据普通话所对应的语音文件file1和file2,确定普通话所对应的语音特征信息;并且,确定装置3根据英文所对应的语音文件file3,确定英文所对应的语音特征信息。
需要说明的是,该优选方案可以和确定装置3的实现方式1)和2)相结合。例如,对于多种语言类型中的每种语言类型,确定装置3直接对该语言类型所对应的、用户的语音文件进行分析处理,来提取语音文件中的语音特征信息。又例如,对于多种语言类型中的每种语言类型,确定装置3根据该语言类型所对应的、用户的多个语音文件,进行样本训练,获得该语言类型所对应的个性化语音模型;并且,确定装置3根据该个性化语音模型,获得该语言类型所对应的、用户的语音特征信息。
需要说明的是,当计算机设备获取用户的新语音文件时,确定装置3根据该新语音文件,更新用户的语音特征信息。例如,确定装置3基于该新语音文件进行样本训练来优化已有的个性化语音模型,并根据优化后的个性化语音模型重新获得用户的语音特征信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据用户的语音文件,确定所述用户的至少一个语音特征信息的实现方式,均应包含在本发明的范围内。
需要说明的是,确定装置3和获取装置1、第一转换装置2执行的操作之间并无严格的先后顺序。例如,一旦计算机设备获取用户的语音文件,确定装置3直接执行操作,该情况下,确定装置3和获取装置1、第一转换装置2执行的操作之间并无顺序关系。又例如,获取装置1执行操作之后,确定装置3对用户指定的语音文件执行操作,来确定该指定的语音文件对应的语音特征信息,之后,第一转换装置2执行操作来根据确定装置3所确定的语音特征信息,将获取装置1中获得的标准语音信息转换为用户的个性化信息。
根据本实施例的方案,计算机设备可根据用户的语音文件,来确定用户的至少一个语音特征信息,且当获取到用户的新语音文件时,可更新现有的语音特征信息,从而实现语音特征信息的不断优化,使得用户的个性化语音信息更接近用户的真实声音。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (15)

1.一种用于在计算机设备中生成个性化语音的方法,其中,该方法包括以下步骤:
a.获取为用户转换得到的标准语音信息;
b.根据所述用户的语音特征信息,将所述标准语音信息转换为所述用户的个性化语音信息。
2.根据权利要求1所述的方法,其中,所述步骤a包括以下步骤:
a1获取所述用户的待转换信息;
a2将所述待转换信息转换为标准语音信息。
3.根据权利要求2所述的方法,其中,所述用户的待转换信息包括以下至少一项:
-所述用户的唇语信息;
-所述用户指定的文本信息。
4.根据权利要求3所述的方法,其中,所述待转换信息包括所述唇语信息,所述步骤a1包括以下步骤:
对所述用户进行唇语识别,获得所述用户的唇语信息。
5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括以下步骤:
根据用户指定的语言类型,从所述用户的至少一个语音特征信息中选择与所述语言类型相对应的、该用户的语音特征信息;
其中,所述步骤b包括以下步骤:
根据所选择的语音特征信息,将所述标准语音信息转换为个性化语音信息。
6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括以下步骤:
x.根据所述用户的语音文件,确定所述用户的至少一个语音特征信息。
7.根据权利要求1至6中任一项所述的方法,其中,所述语音特征信息包括以下至少一项:
-与语音对应的声波频率相关的信息;
-与声音对应的声波振幅相关的信息;
-与语音对应的声波周期相关的信息;
-与语音对应的波形特性相关的信息。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括以下步骤:
-将所述个性化语音信息发送至其他设备。
9.一种用于在计算机设备中生成个性化语音的装置,其中,该装置包括以下装置:
获取装置,用于获取为用户转换得到的标准语音信息;
第一转换装置,用于根据所述用户的语音特征信息,将所述标准语音信息转换为所述用户的个性化语音信息。
10.根据权利要求9所述的装置,其中,所述获取装置包括以下装置:
子获取装置,用于获取所述用户的待转换信息;
第二转换装置,用于将所述待转换信息转换为标准语音信息。
11.根据权利要求10所述的装置,其中,所述用户的待转换信息包括以下至少一项:
-所述用户的唇语信息;
-所述用户指定的文本信息。
12.根据权利要求9至11中任一项所述的装置,其中,该装置还包括以下装置:
选择装置,用于根据用户指定的语言类型,从所述用户的至少一个语音特征信息中选择与所述语言类型相对应的、该用户的语音特征信息;
其中,所述第一转换装置包括以下装置:
子转换装置,用于根据所选择的语音特征信息,将所述标准语音信息转换为个性化语音信息。
13.根据权利要求9至12中任一项所述的装置,其中,该装置还包括以下装置:
确定装置,用于根据所述用户的语音文件,确定所述用户的至少一个语音特征信息。
14.根据权利要求9至13中任一项所述的装置,其中,所述语音特征信息包括以下至少一项:
-与语音对应的声波频率相关的信息;
-与声音对应的声波振幅相关的信息;
-与语音对应的声波周期相关的信息;
-与语音对应的波形特性相关的信息。
15.根据权利要求9至14中任一项所述的装置,其中,该装置还包括以下装置:
发送装置,用于将所述个性化语音信息发送至其他设备。
CN201510071165.2A 2015-02-10 2015-02-10 一种用于在计算机设备中生成个性化语音的方法和装置 Pending CN105989832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510071165.2A CN105989832A (zh) 2015-02-10 2015-02-10 一种用于在计算机设备中生成个性化语音的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510071165.2A CN105989832A (zh) 2015-02-10 2015-02-10 一种用于在计算机设备中生成个性化语音的方法和装置

Publications (1)

Publication Number Publication Date
CN105989832A true CN105989832A (zh) 2016-10-05

Family

ID=57041686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510071165.2A Pending CN105989832A (zh) 2015-02-10 2015-02-10 一种用于在计算机设备中生成个性化语音的方法和装置

Country Status (1)

Country Link
CN (1) CN105989832A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847256A (zh) * 2016-12-27 2017-06-13 苏州帷幄投资管理有限公司 一种语音转化聊天方法
CN107886963A (zh) * 2017-11-03 2018-04-06 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US20120046948A1 (en) * 2010-08-23 2012-02-23 Leddy Patrick J Method and apparatus for generating and distributing custom voice recordings of printed text
CN102413249A (zh) * 2010-09-20 2012-04-11 阿尔卡特朗讯 基于语音识别的通话
CN202352332U (zh) * 2011-11-30 2012-07-25 李扬德 一种便携式唇语识别器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US20120046948A1 (en) * 2010-08-23 2012-02-23 Leddy Patrick J Method and apparatus for generating and distributing custom voice recordings of printed text
CN102413249A (zh) * 2010-09-20 2012-04-11 阿尔卡特朗讯 基于语音识别的通话
CN202352332U (zh) * 2011-11-30 2012-07-25 李扬德 一种便携式唇语识别器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847256A (zh) * 2016-12-27 2017-06-13 苏州帷幄投资管理有限公司 一种语音转化聊天方法
CN107886963A (zh) * 2017-11-03 2018-04-06 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备
CN107886963B (zh) * 2017-11-03 2019-10-11 珠海格力电器股份有限公司 一种语音处理的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US20240135955A1 (en) Generating audio using neural networks
US10553201B2 (en) Method and apparatus for speech synthesis
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
EP3095113B1 (en) Digital personal assistant interaction with impersonations and rich multimedia in responses
CN105489221B (zh) 一种语音识别方法及装置
CN104538024B (zh) 语音合成方法、装置及设备
US9984679B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
KR20190104941A (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
US20160343366A1 (en) Speech synthesis model selection
CN107705782B (zh) 用于确定音素发音时长的方法和装置
CN107481715B (zh) 用于生成信息的方法和装置
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
US11854533B2 (en) Speaker awareness using speaker dependent speech model(s)
CN113886643A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN114391145A (zh) 具有自适应响应生成的ai驱动的个人助理
KR20190106935A (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN113886644A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN112786028B (zh) 声学模型处理方法、装置、设备和可读存储介质
CN105869631B (zh) 语音预测的方法和装置
CN105989832A (zh) 一种用于在计算机设备中生成个性化语音的方法和装置
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161005