CN109410913B - 一种语音合成方法、装置、设备及存储介质 - Google Patents

一种语音合成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109410913B
CN109410913B CN201811523539.XA CN201811523539A CN109410913B CN 109410913 B CN109410913 B CN 109410913B CN 201811523539 A CN201811523539 A CN 201811523539A CN 109410913 B CN109410913 B CN 109410913B
Authority
CN
China
Prior art keywords
content
attributes
user
label
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811523539.XA
Other languages
English (en)
Other versions
CN109410913A (zh
Inventor
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201811523539.XA priority Critical patent/CN109410913B/zh
Publication of CN109410913A publication Critical patent/CN109410913A/zh
Priority to US16/546,893 priority patent/US10971133B2/en
Priority to US17/195,042 priority patent/US11264006B2/en
Application granted granted Critical
Publication of CN109410913B publication Critical patent/CN109410913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种语音合成方法、装置、设备及存储介质,其中方法包括:将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;将所述推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;采用所述推荐声音模型对所述推荐内容进行语音合成,得到对应的语音文件。本发明实施例能够保证声音模型在适合的内容领域进行语音合成,并为每个用户提供个性化的语音合成,提高用户体验。

Description

一种语音合成方法、装置、设备及存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
语音合成技术是人工智能语音领域重要的技术和应用方向之一,语音合成技术可以将用户或产品输入的文本转换为语音,通过机器模仿人类“说话”的方式,输出拟人的声音。语音合成技术在移动应用、互联网应用、小程序应用、物联网智能硬件设备等场景中均有应用,是人与机器进行自然交互的主要方式之一。
目前的语音合成系统能够为用户提供多种声音模型,各种声音模型可以对应不同的音色、口音等特征。用户可以自主选择适合的声音模型,并采用该声音模型对文本内容进行语音合成,得到对应的语音文本。这种方式只考虑了用户主动的选择,并没有基于用户喜好或用户属性推荐声音模型,也没有考虑推荐的声音模型是否适合该内容。例如,音色深沉厚重的声音模型可能不适合搞笑类内容,英式英语的声音模型可能不适合关于美剧的内容,等等。由于不能保证声音模型在适合的领域进行合成,导致现有的语音合成系统不能提供较好的用户体验。
发明内容
本发明实施例提供一种语音合成方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种语音合成方法,包括:
将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;
将所述推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
采用所述推荐声音模型对所述推荐内容进行语音合成,得到对应的语音文件。
在一种实施方式中,所述进行第一匹配运算之前,还包括:
设置针对用户的用户属性、针对各个声音模型的声音模型属性以及针对各个内容的内容属性;
所述用户属性包括一个以上用户标签、以及各个用户标签对应的权重值;
所述声音模型属性包括一个以上声音模型标签、以及各个声音模型标签对应的权重值;
所述内容属性包括一个以上内容标签、以及各个内容标签对应的权重值。
在一种实施方式中,所述第一匹配运算包括:
根据所述用户属性中的各个用户标签,分别选取声音模型属性中与所述各个用户标签对应的声音模型标签;
根据所述各个用户标签的权重值及对应的声音模型标签的权重值,计算所述各个用户标签与对应的声音模型标签的相关度;
根据所述各个用户标签与对应的声音模型标签的相关度,确定所述用户属性与声音模型属性的匹配程度。
在一种实施方式中,所述第二匹配运算包括:
根据所述声音模型属性中的各个声音模型标签,分别选取内容属性中与所述各个声音模型标签对应的内容标签;
根据所述各个声音模型标签的权重值及对应的内容标签的权重值,计算所述各个声音模型标签与对应的内容标签的相关度;
根据所述各个声音模型标签与对应的内容标签的相关度,确定所述声音模型属性与内容属性的匹配程度。
第二方面,本发明实施例还提出一种语音合成装置,包括:
声音推荐模块,用于将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;
内容推荐模块,用于将所述推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
合成模块,用于采用所述推荐声音模型对所述推荐内容进行语音合成,得到对应的语音文件。
在一种实施方式中,还包括:
属性设置模块,用于设置针对用户的用户属性、针对各个声音模型的声音模型属性以及针对各个内容的内容属性;所述用户属性包括一个以上用户标签、以及各个用户标签对应的权重值;所述声音模型属性包括一个以上声音模型标签、以及各个声音模型标签对应的权重值;所述内容属性包括一个以上内容标签、以及各个内容标签对应的权重值。
在一种实施方式中,所述声音推荐模块包括:
第一标签选取子模块,用于根据所述用户属性中的各个用户标签,分别选取声音模型属性中与所述各个用户标签对应的声音模型标签;
第一相关度计算子模块,用于根据所述各个用户标签的权重值及对应的声音模型标签的权重值,计算所述各个用户标签与对应的声音模型标签的相关度;
第一匹配子模块,用于根据所述各个用户标签与对应的声音模型标签的相关度,确定所述用户属性与声音模型属性的匹配程度。
在一种实施方式中,所述内容推荐模块包括:
第二标签选取子模块,用于根据所述声音模型属性中的各个声音模型标签,分别选取内容属性中与所述各个声音模型标签对应的内容标签;
第二相关度计算子模块,用于根据所述各个声音模型标签的权重值及对应的内容标签的权重值,计算所述各个声音模型标签与对应的内容标签的相关度;
第二匹配子模块,用于根据所述各个声音模型标签与对应的内容标签的相关度,确定所述声音模型属性与内容属性的匹配程度。
第三方面,本发明实施例提供了一种语音合成设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述语音合成设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述语音合成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音合成设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音合成设备所用的计算机软件指令,其包括用于执行上述语音合成方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例提出的语音合成方法和装置,为用户推荐合适的声音模型,并进一步推荐适合该声音模型的内容,之后采用推荐声音模型对推荐内容进行语音合成。由于最终进行语音合成的效果是经过基于用户属性推荐的声音模型、以及根据声音模型推荐的内容来确定的,因此能够基于用户属性推荐适合的声音以及适合的合成内容,使合成的语音文件更能发挥各个声音模型的优势,提高用户体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的一种语音合成方法实现流程图;
图2为本发明实施例的另一种语音合成方法实现流程图;
图3为本发明实施例的一种语音合成方法中步骤S110的第一匹配运算方法实现流程图;
图4为将用户A的用户属性和声音模型I的声音模型属性进行第一匹配运算的实施方式示意图;
图5为本发明实施例的一种语音合成方法中步骤S120的第二匹配运算方法实现流程图;
图6为本发明实施例的一种语音合成装置结构示意图;
图7为本发明实施例的另一种语音合成装置结构示意图;
图8为本发明实施例的一种语音合成设备结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例主要提供了语音合成方法和装置,下面分别通过以下实施例进行技术方案的展开描述。
如图1为本发明实施例的一种语音合成方法实现流程图,包括:
S110:将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;
S120:将推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
S130:采用推荐声音模型对推荐内容进行语音合成,得到对应的语音文件。
本发明实施例可以应用于移动应用、互联网应用、小程序应用、物联网(IoT,Internet of things)智能硬件设备等,例如有声阅读应用、新闻网站、电台小程序、智能音箱等,为用户提供语音文件。
本发明实施例采用的内容可以包括各种来源的文本信息,例如公众号文章、自媒体产品的内容、新闻资讯、用户原创内容(UGC,User Generated Content)、专业生产内容(PGC,Professional Generated Content)等。除了文本形式的内容以外,本发明实施例采用的内容还可以是其他形式的内容。当采用非文本形式的内容时,本发明实施例可以首先将该内容转换为文本形式,之后再对转换之后的文本内容进行语音合成。
如图2为本发明实施例的一种语音合成方法实现流程图,包括:
S200:设置针对用户的用户属性、针对各个声音模型的声音模型属性以及针对各个内容的内容属性;其中,
用户属性包括一个以上用户标签、以及各个用户标签对应的权重值;
声音模型属性包括一个以上声音模型标签、以及各个声音模型标签对应的权重值;
内容属性包括一个以上内容标签、以及各个内容标签对应的权重值。
S110:将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;
S120:将推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
S130:采用推荐声音模型对推荐内容进行语音合成,得到对应的语音文件。
以下采用具体的实施例,介绍用户属性、声音模型属性和内容属性的具体示例。
在设置用户属性时,可以从为用户提供服务的应用服务器等处获取用户信息,根据获取的用户信息设置用户属性。
用户属性可以包括一个以上用户标签、以及各个用户标签对应的权重值。用户标签用于标识用户的自然属性、社会属性、位置属性、兴趣属性等。用户标签可以有多级。标签的级数越高,该用户标签所对应的属性越细节化。例如,“语言能力-汉语”可以作为一个一级标签,“语言能力-粤语”可以作为一个二级标签。
每一个用户标签对应一个权重值,权重值的取值范围可以为[0,100]。权重值取值越大,表示该用户标签与用户的实际情况符合程度越高。例如,用于标识自然属性的用户标签的权重值表示置信度,用于标识兴趣属性的用户标签的权重值表示兴趣程度。
如表1为一个用户属性所包括的用户标签示例。
表1
Figure BDA0001903814050000071
Figure BDA0001903814050000081
声音模型属性可以包括一个以上声音模型标签、以及各个声音模型标签对应的权重值。声音模型标签用于标识声音模型的音色属性、语种语言属性、语料属性、风格属性、情感属性、场景属性等。
其中,音色属性,包括声音模型的性别特点、年龄特点、音色风格特点,明星音等;
语种语言属性,包括声音模型的语言和语种情况;
语料属性,包括声音模型适合的内容情况;
风格属性,包括声音模型适合的风格属性;
情感属性,包括声音模型适合的情感属性;
场景属性,包括声音模型适合的场景属性。
声音模型标签可以有多级。标签的级数越高,该声音模型标签所对应的属性越细节化。
每一个声音模型标签对应一个权重值,权重值的取值范围可以为[0,100]。权重值取值越大,表示该声音模型标签与声音模型的实际情况符合程度越高。例如,用于标识情感属性、场景属性等的声音模型标签的权重值表示符合程度,用于标识语料属性的权重值表示声音模型用于合成对应内容的推荐程度。
如表2为一个声音模型属性所包括的声音模型标签示例。
表2
Figure BDA0001903814050000082
Figure BDA0001903814050000091
内容属性可以包括一个以上内容标签、以及各个内容标签对应的权重值。内容属性用于标识内容的特点和类型等。内容标签可以有多级。标签的级数越高,该内容标签所对应的特点或类型越细节化。
每一个内容标签对应一个权重值,权重值的取值范围可以为[0,100]。权重值取值越大,表示该内容标签与内容的实际情况符合程度越高。
如表3为一个内容属性所包括的声音标签示例。
表3
一级内容标签 二级内容标签
商业财经 商业财经、投资理财、经济评论
新闻资讯 科技、互联网、军事、娱乐等
历史人文 诗词歌赋、经典名著、艺术修养等
国学书院 古代史学、经典名著、佛学心灵、读书会、诗词歌赋等
小说 言情、悬疑、都市、幻想、武侠、历史等
以上介绍了用户属性、声音模型标签和内容属性的具体示例。用户属性、声音模型标签或内容属性可以不断更新和完善,标签越多,对声音模型及内容的推荐越精准。
采用上述属性,可以进行步骤S110所述的第一匹配运算、以及步骤S120所述的第二匹配运算。
如图3所示,在一种可能的实施方式中,步骤S110中的第一匹配运算包括:
S111:根据用户属性中的各个用户标签,分别选取声音模型属性中与各个用户标签对应的声音模型标签;
S112:根据各个用户标签的权重值及对应的声音模型标签的权重值,计算各个用户标签与对应的声音模型标签的相关度;
S113:根据各个用户标签与对应的声音模型标签的相关度,确定用户属性与声音模型属性的匹配程度。
如图4为将用户A的用户属性和声音模型I的声音模型属性进行第一匹配运算的实施方式示意图。
在图4中,用户A的用户属性包括标识自然属性、社会属性和兴趣属性的用户属性标签及其对应的权重值,如表4所示:
表4
Figure BDA0001903814050000101
在图4中,声音模型I的声音模型属性包括标识音色属性、语料属性、风格属性和情感属性的声音模型标签及其对应的权重值,如表5所示:
表5
Figure BDA0001903814050000102
Figure BDA0001903814050000111
在进行第一匹配运算时,针对用户A的各个用户标签,从声音模型I的声音模型属性中选取与用户标签对应的声音模型标签。如表6为一个用户标签与声音模型标签的对应关系示例。
表6
对应关系序列号 用户A的用户标签 权重值 声音模型I的声音模型标签 权重值
1 性别:男 90 性别特点:女 90
2 年龄:18至24岁 95 年龄特点:18至24岁 85
3 兴趣属性:甜蜜 70 声音风格:甜美可爱 90
4 兴趣属性:甜蜜 70 情感属性:甜蜜 80
5 兴趣属性:甜蜜 70 情感属性:欢快 90
如表6可见,一个用户标签可以对应多个声音模型标签,反之亦然。
选取对应关系之后,针对各个对应关系,可以采用用户标签的权重值和声音模型标签的权重值计算用户标签和声音模型标签的相关度。具体的计算式可以根据实际情况设置。原则上,用户标签的权重值或声音模型标签的权重值越大,用户标签的权重值与声音模型标签的权重值差值越小,则用户标签和声音模型标签的相关度越高。相关度的取值范围可以设置为[0,1],取值越大,相关度越高。
之后,可以采用各组对应关系的相关度,确定用户属性与声音模型属性的匹配程度。例如,对所有对应关系的相关度求平均值,得到用户属性与声音模型属性的匹配程度。匹配程度的取值范围可以设置为[0,1],取值越大,匹配程度越高。
匹配程度最高的声音模型属性对应的声音模型可以作为推荐声音模型。如果用户对应推荐声音模型不满意,则可依次向用户推荐匹配程度高的其他声音模型属性对应的声音模型。
确定推荐声音模型之后,可以选取与推荐声音模型匹配程度最高的内容属性所对应的内容,将该内容推荐给用户,即执行步骤S120。
如图5所示,在一种可能的实施方式中,步骤S120中的第二匹配运算包括:
S121:根据声音模型属性中的各个声音模型标签,分别选取内容属性中与各个声音模型标签对应的内容标签;
S122:根据各个声音模型标签的权重值及对应的内容标签的权重值,计算各个声音模型标签与对应的内容标签的相关度;
S123:根据各个声音模型标签与对应的内容标签的相关度,确定声音模型属性与内容属性的匹配程度。
在本实施例中,计算声音模型标签与对应的内容标签相关度的具体方式,与上述实施方式中计算用户标签与声音模型标签相关度的具体方式相似。确定声音模型属性与内容属性匹配程度的具体方式,与上述实施方式中计算用户属性与声音模型属性匹配程度的具体方式相似。在此不再赘述。
匹配程度最高的内容属性对应的内容可以作为推荐内容。如果用户对应推荐内容不满意,则可依次向用户推荐匹配程度高的其他内容属性对应的内容。
在一种可能的实施方式中,可以采用上述确定出的推荐声音模型对推荐内容进行语音合成,并默认调节语音合成的音量、音调、语速、合成背景音乐等参数。或者,也可以采用上述确定出的推荐声音模型对用户自行输入的文本内容进行语音合成。后续地,可以将合成的语音文件发送至相应的应用服务器,由应用服务器向用户播放该语音文件。
本发明实施例还提出一种语音合成装置。参见图6,图6为本发明实施例的一种语音合成装置结构示意图,包括:
声音推荐模块610,用于将用户的用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;
内容推荐模块620,用于将所述推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
合成模块630,用于采用所述推荐声音模型对所述推荐内容进行语音合成,得到对应的语音文件。
如图7为本发明实施例的另一种语音合成装置结构示意图,包括:
属性设置模块700,用于设置针对用户的用户属性、针对各个声音模型的声音模型属性以及针对各个内容的内容属性;所述用户属性包括一个以上用户标签、以及各个用户标签对应的权重值;所述声音模型属性包括一个以上声音模型标签、以及各个声音模型标签对应的权重值;所述内容属性包括一个以上内容标签、以及各个内容标签对应的权重值。
还包括声音推荐模块610、内容推荐模块620和合成模块630,前述三个模块与上述实施例中的相应模块相同,不再赘述。
在一种可能的实施方式中,声音推荐模块610包括:
第一标签选取子模块611,用于根据所述用户属性中的各个用户标签,分别选取声音模型属性中与所述各个用户标签对应的声音模型标签;
第一相关度计算子模块612,用于根据所述各个用户标签的权重值及对应的声音模型标签的权重值,计算所述各个用户标签与对应的声音模型标签的相关度;
第一匹配子模块613,用于根据所述各个用户标签与对应的声音模型标签的相关度,确定所述用户属性与声音模型属性的匹配程度。
在一种可能的实施方式中,内容推荐模块620包括:
第二标签选取子模块621,用于根据所述声音模型属性中的各个声音模型标签,分别选取内容属性中与所述各个声音模型标签对应的内容标签;
第二相关度计算子模块622,用于根据所述各个声音模型标签的权重值及对应的内容标签的权重值,计算所述各个声音模型标签与对应的内容标签的相关度;
第二匹配子模块623,用于根据所述各个声音模型标签与对应的内容标签的相关度,确定所述声音模型属性与内容属性的匹配程度。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本发明实施例还提出一种语音合成设备,如图8为本发明实施例的语音合成设备结构示意图,包括:
存储器11和处理器12,存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的语音合成方法。所述存储器11和处理器12的数量可以为一个或多个。
所述设备还可以包括:
通信接口13,用于与外界设备进行通信,进行数据交换传输。
存储器11可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器11、处理器12和通信接口13独立实现,则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线,外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器11、处理器12和通信接口13集成在一块芯片上,则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例提出的语音合成方法和装置,通过对用户属性分别与各个声音模型的声音模型属性进行匹配运算,为用户推荐合适的声音模型。确定推荐声音模型之后,进一步通过对声音模型属性与各个内容的内容属性进行匹配运算,为用户推荐合适的内容。之后,采用推荐声音模型对推荐内容进行语音合成。由于推荐内容是根据推荐声音模型确定的,因此能够选取推荐声音模型的音色特点所适合的内容,使合成的语音文件更能发挥各个声音模型的优势,提高用户体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音合成方法,其特征在于,包括:
将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;确定出的所述推荐声音模型为与用户喜好相关的声音模型,所述用户属性包括多个标签,所述标签用于标识用户的自然属性、社会属性、位置属性、兴趣属性中的至少一种;
利用声音模型属性中的各个声音模型标签以及内容属性中的内容标签,将所述推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
采用所述推荐声音模型对所述推荐内容进行语音合成,得到对应的语音文件。
2.根据权利要求的1所述的方法,其特征在于,所述进行第一匹配运算之前,还包括:
设置针对用户的用户属性、针对各个声音模型的声音模型属性以及针对各个内容的内容属性;
所述用户属性包括一个以上用户标签、以及各个用户标签对应的权重值;
所述声音模型属性包括一个以上声音模型标签、以及各个声音模型标签对应的权重值;
所述内容属性包括一个以上内容标签、以及各个内容标签对应的权重值。
3.根据权利要求的2所述的方法,其特征在于,所述第一匹配运算包括:
根据所述用户属性中的各个用户标签,分别选取声音模型属性中与所述各个用户标签对应的声音模型标签;
根据所述各个用户标签的权重值及对应的声音模型标签的权重值,计算所述各个用户标签与对应的声音模型标签的相关度;
根据所述各个用户标签与对应的声音模型标签的相关度,确定所述用户属性与声音模型属性的匹配程度。
4.根据权利要求的2所述的方法,其特征在于,所述第二匹配运算包括:
根据所述声音模型属性中的各个声音模型标签,分别选取内容属性中与所述各个声音模型标签对应的内容标签;
根据所述各个声音模型标签的权重值及对应的内容标签的权重值,计算所述各个声音模型标签与对应的内容标签的相关度;
根据所述各个声音模型标签与对应的内容标签的相关度,确定所述声音模型属性与内容属性的匹配程度。
5.一种语音合成装置,其特征在于,包括:
声音推荐模块,用于将用户属性分别与各个声音模型的声音模型属性进行第一匹配运算,将匹配程度最高的声音模型属性所对应的声音模型确定为推荐声音模型;确定出的所述推荐声音模型为与用户喜好相关的声音模型,所述用户属性包括多个标签,所述标签用于标识用户的自然属性、社会属性、位置属性、兴趣属性中的至少一种;
内容推荐模块,用于利用声音模型属性中的各个声音模型标签以及内容属性中的内容标签,将所述推荐声音模型的声音模型属性分别与各个内容的内容属性进行第二匹配运算,将匹配程度最高的内容属性所对应的内容确定为推荐内容;
合成模块,用于采用所述推荐声音模型对所述推荐内容进行语音合成,得到对应的语音文件。
6.根据权利要求的5所述的装置,其特征在于,还包括:
属性设置模块,用于设置针对用户的用户属性、针对各个声音模型的声音模型属性以及针对各个内容的内容属性;所述用户属性包括一个以上用户标签、以及各个用户标签对应的权重值;所述声音模型属性包括一个以上声音模型标签、以及各个声音模型标签对应的权重值;所述内容属性包括一个以上内容标签、以及各个内容标签对应的权重值。
7.根据权利要求的6所述的装置,其特征在于,所述声音推荐模块包括:
第一标签选取子模块,用于根据所述用户属性中的各个用户标签,分别选取声音模型属性中与所述各个用户标签对应的声音模型标签;
第一相关度计算子模块,用于根据所述各个用户标签的权重值及对应的声音模型标签的权重值,计算所述各个用户标签与对应的声音模型标签的相关度;
第一匹配子模块,用于根据所述各个用户标签与对应的声音模型标签的相关度,确定所述用户属性与声音模型属性的匹配程度。
8.根据权利要求的6所述的装置,其特征在于,所述内容推荐模块包括:
第二标签选取子模块,用于根据所述声音模型属性中的各个声音模型标签,分别选取内容属性中与所述各个声音模型标签对应的内容标签;
第二相关度计算子模块,用于根据所述各个声音模型标签的权重值及对应的内容标签的权重值,计算所述各个声音模型标签与对应的内容标签的相关度;
第二匹配子模块,用于根据所述各个声音模型标签与对应的内容标签的相关度,确定所述声音模型属性与内容属性的匹配程度。
9.一种语音合成设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201811523539.XA 2018-12-13 2018-12-13 一种语音合成方法、装置、设备及存储介质 Active CN109410913B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811523539.XA CN109410913B (zh) 2018-12-13 2018-12-13 一种语音合成方法、装置、设备及存储介质
US16/546,893 US10971133B2 (en) 2018-12-13 2019-08-21 Voice synthesis method, device and apparatus, as well as non-volatile storage medium
US17/195,042 US11264006B2 (en) 2018-12-13 2021-03-08 Voice synthesis method, device and apparatus, as well as non-volatile storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523539.XA CN109410913B (zh) 2018-12-13 2018-12-13 一种语音合成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109410913A CN109410913A (zh) 2019-03-01
CN109410913B true CN109410913B (zh) 2022-08-05

Family

ID=65459035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523539.XA Active CN109410913B (zh) 2018-12-13 2018-12-13 一种语音合成方法、装置、设备及存储介质

Country Status (2)

Country Link
US (2) US10971133B2 (zh)
CN (1) CN109410913B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110133B (zh) * 2019-04-18 2020-08-11 贝壳找房(北京)科技有限公司 一种智能语音数据生成方法及装置
CN110211564A (zh) * 2019-05-29 2019-09-06 泰康保险集团股份有限公司 语音合成方法及装置、电子设备和计算机可读介质
CN110795593A (zh) * 2019-10-12 2020-02-14 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
CN110728133B (zh) * 2019-12-19 2020-05-05 北京海天瑞声科技股份有限公司 个性语料获取方法及个性语料获取装置
CN113539230A (zh) * 2020-03-31 2021-10-22 北京奔影网络科技有限公司 语音合成方法及装置
CN112133278B (zh) * 2020-11-20 2021-02-05 成都启英泰伦科技有限公司 一种个性化语音合成模型网络训练及个性化语音合成方法
CN113010138B (zh) * 2021-03-04 2023-04-07 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质
CN113066473A (zh) * 2021-03-31 2021-07-02 建信金融科技有限责任公司 一种语音合成方法、装置、存储介质及电子设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100724868B1 (ko) * 2005-09-07 2007-06-04 삼성전자주식회사 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN101751922B (zh) * 2009-07-22 2011-12-07 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统
JP6350325B2 (ja) * 2014-02-19 2018-07-04 ヤマハ株式会社 音声解析装置およびプログラム
US20150356967A1 (en) * 2014-06-08 2015-12-10 International Business Machines Corporation Generating Narrative Audio Works Using Differentiable Text-to-Speech Voices
CN104485100B (zh) 2014-12-18 2018-06-15 天津讯飞信息科技有限公司 语音合成发音人自适应方法及系统
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
JP6483578B2 (ja) * 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US9697820B2 (en) * 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105895087B (zh) * 2016-03-24 2020-02-07 海信集团有限公司 一种语音识别方法及装置
CN105933413B (zh) * 2016-04-21 2019-01-11 深圳大数点科技有限公司 一种基于用户声音交互的个性化实时内容推送系统
CN106875949B (zh) * 2017-04-28 2020-09-22 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN108536655A (zh) 2017-12-21 2018-09-14 广州市讯飞樽鸿信息技术有限公司 一种基于手持智能终端的场景化朗读音频制作方法及系统

Also Published As

Publication number Publication date
US20210193108A1 (en) 2021-06-24
US10971133B2 (en) 2021-04-06
US11264006B2 (en) 2022-03-01
CN109410913A (zh) 2019-03-01
US20200193962A1 (en) 2020-06-18

Similar Documents

Publication Publication Date Title
CN109410913B (zh) 一种语音合成方法、装置、设备及存储介质
JP6799574B2 (ja) 音声対話の満足度の確定方法及び装置
US20180157960A1 (en) Scalable curation system
US11106983B2 (en) Intelligent interaction method and intelligent interaction system
CN108121800B (zh) 基于人工智能的信息生成方法和装置
US8972265B1 (en) Multiple voices in audio content
CN110188350B (zh) 文本一致性计算方法及装置
WO2019084810A1 (zh) 一种信息处理方法及终端、计算机存储介质
CN107239547B (zh) 用于语音点歌的语音纠错方法、终端及存储介质
CN109582822A (zh) 一种基于用户语音的音乐推荐方法及装置
CN107797984A (zh) 智能交互方法、设备及存储介质
CN105117380B (zh) 粘贴处理方法及装置
CN105190614A (zh) 使用声调细微差别的搜索结果
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN109920409B (zh) 一种声音检索方法、装置、系统及存储介质
CN110162675B (zh) 应答语句的生成方法、装置、计算机可读介质及电子设备
Dethlefs et al. Conditional random fields for responsive surface realisation using global features
CN107203611A (zh) 基于图片内容的信息提供方法和装置
CN110929023B (zh) 动态概要生成器
CN111310440A (zh) 文本的纠错方法、装置和系统
CN112163067A (zh) 一种语句答复方法、语句答复装置及电子设备
CN111326177B (zh) 一种语音评测方法、电子设备及计算机可读存储介质
CN111402864A (zh) 语音处理方法及电子设备
CN110515929B (zh) 书籍展示方法、计算设备及存储介质
CN112732951A (zh) 一种人机交互的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant