CN110619866A - 语音合成方法及装置 - Google Patents

语音合成方法及装置 Download PDF

Info

Publication number
CN110619866A
CN110619866A CN201810628081.8A CN201810628081A CN110619866A CN 110619866 A CN110619866 A CN 110619866A CN 201810628081 A CN201810628081 A CN 201810628081A CN 110619866 A CN110619866 A CN 110619866A
Authority
CN
China
Prior art keywords
preset
word
similarity
unknown
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810628081.8A
Other languages
English (en)
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Putian Information Technology Co Ltd
Original Assignee
Putian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian Information Technology Co Ltd filed Critical Putian Information Technology Co Ltd
Priority to CN201810628081.8A priority Critical patent/CN110619866A/zh
Publication of CN110619866A publication Critical patent/CN110619866A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语音合成方法及装置。所述方法包括:检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;将所述目标候选词替代所述未登录词,进行语音合成。本发明解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。

Description

语音合成方法及装置
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种语音合成方法及装置。
背景技术
语音合成技术(Text To Speech,TTS)是通过机械的或电子的方法产生人造语音的技术。目前,TTS在日常工作生活中已经得到了广泛的应用,比如较为常见的基于隐马尔科夫模型(Hidden Markov Model,HMM)的统计语音合成技术,通过对模型参数的调整达到声音转换的目的,其合成效果较好;而另一方面,用户对语音合成系统的要求也越来越高,比如HMM合成声音仍然存在声音过于平滑、沉闷、缺乏细节以及自然度不高等影响音质的问题。
为了满足用户的使用需求,研发人员提出例如一种在非监督数据上建立多层神经网络,即深度神经网络的有效方法,掀起了机器学习和神经网络等相关研究的一轮热潮。深度神经网络与语音处理技术的结合也开始被研发人员广泛尝试,并在语音合成方面取得了突破性进展。比如,应运而生的一种端到端语音合成系统,该系统可以接收字符的输入,输出相应的原始语谱图,然后将其提供给Griffin-Lim重建算法(大词汇连续语音识别中常用的一种语言模型)直接生产语音。
然而,由于中央处理器(Central Processing Unit,CPU)内存和计算时间的限制,TTS语料库只能维持通过常用语进行常用语的合成,对于一些未登录词(out ofvocabulary,OOV),即没有被收录在分词词表中但必须切分出来的词,合成时通常无法进行合成,只能合成为噪音。而且,随着互联网技术的快速发展,语音合成时不可避免的遇到越来越多的OOV。目前,解决该问题的方式多是扩大TTS语料库,但是TTS神经网络的训练复杂度、解码复杂度很大程度上依赖语料库的大小,语料库增大则复杂度将迅速膨胀。不利于语音合成的进行。
发明内容
本发明实施例提供一种语音合成方法及装置,用以解决现有技术中TTS无法进行未登录词的合成的问题。
一方面,本发明实施例提供一种语音合成方法,所述方法包括:
检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
将所述目标候选词替代所述未登录词,进行语音合成。
另一方面,本发明实施例提供一种语音合成装置,所述装置包括:
检测模块,用于检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
合成模块,用于将所述目标候选词替代所述未登录词,进行语音合成。另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语音合成方法中的步骤。
再一方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述语音合成方法中的步骤。
本发明实施例提供的语音合成方法及装置,在语音合成过程中,检测到待合成语音中包括未登录词时,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;通过将所述目标候选词替代所述未登录词,进行语音合成,解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音合成方法的流程示意图之一;
图2为本发明实施例提供的语音合成方法的流程示意图之二;
图3为本发明实施例提供的语音合成装置的结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的一种语音合成方法的流程示意图。
如图1所示,本发明实施例提供的语音合成方法,所述方法具体包括以下步骤:
步骤101,检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度。
其中,未登录词指未包含在TTS语料库中,但在语音合成过程中必须切分出来的词;在语音合成过程中,首先对待合成语音进行文本预处理,将输入文本转换为词向量,在转换过程中,若检测到未登录词,则查找预设词典中的目标候选词;
目标候选词为与未登录词相似度最高的词汇,相似度根据预设算法确定,包括字面相似度以及语义相似度;字面相似度即两个词汇在字面上的相似程度,语义相似度即两个词汇在语义上的相似程度。
步骤102,将所述目标候选词替代所述未登录词,进行语音合成。
具体地,所述将所述目标候选词替代所述未登录词,进行语音合成即将所述目标候选词替代所述未登录词在所述待合成语音中的语句的位置,并进行语音合成;在语音合成过程中,通常是逐句合成,在合成未登录词所在的语句中,将目标候选词替代未登录词在所述待合成语音中的语句的位置,再对该语句执行文本预处理。
本发明实施例中,在语音合成过程中,检测到待合成语音中包括未登录词时,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;通过将所述目标候选词替代所述未登录词,进行语音合成,解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性;本发明解决了现有技术中TTS无法进行未登录词的合成的问题。
需要说明的是,本发明实施例中,“词”或“词汇”可以包括任意数目个汉字或字符,具体“词”或“词汇”的切分根据文本预处理时的情况确定。
如图2所示,本发明又一实施例提供了一种语音合成方法,所述方法具体包括以下步骤:
步骤201,检测到待合成语音中包括未登录词。
其中,未登录词指未包含在TTS语料库中,但在语音合成过程中必须切分出来的词;在语音合成过程中,首先对待合成语音进行文本预处理,将输入文本转换为词向量,在转换过程中,若检测到未登录词,执行步骤202。
步骤202,根据第一预设规则,确定所述预设词典中的候选词;其中,所述候选词与所述未登录词的字面相似度满足第一预设条件、与所述未登录词的语义相似度满足第二预设条件;
其中,候选词所述未登录词的字面相似度满足第一预设条件,且语义相似度满足第二预设条件;通过第一预设规则,首先从所述预设词典中筛选出一部分候选词。字面相似度即两个词汇在字面上的相似程度,语义相似度即两个词汇在语义上的相似程度。
步骤203,根据第二预设规则,确定所述候选词中,与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度。
其中,从所述预设词典中筛选出一部分候选词之后,再根据第二预设规则,从候选词中筛选出相似度最高的作为目标候选词;其中,相似度包括上述字面相似度和语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。
步骤204,将所述目标候选词替代所述未登录词,进行语音合成。
具体地,将所述目标候选词替代所述未登录词在所述待合成语音中的语句的位置,并进行语音合成;在语音合成过程中,通常是逐句合成,在合成未登录词所在的语句中,将目标候选词替代未登录词在所述待合成语音中的语句的位置,再对该语句执行文本预处理。
将目标候选词,采用预设工具向量化处理,将词向量输入预设语言模型中来最终合成语音。
可选地,本发明实施例中,步骤202包括:
根据第一预设公式,查询所述预设词典中,与所述未登录词的字面相似度满足第一预设条件的第一词汇;
根据第二预设公式,查询所述的第一词汇中的候选词,所述候选词为与所述未登录词的语义相似度满足第二预设条件的第一词汇。
其中,筛选候选词的过程中,首先根据第一预设公式从预设词典中选出满足第一预设条件的第一词汇,第一预设条件为用于对字面相似度的限定,第一预设条件可以是第一词汇与未登录词的字面相似度大于一预设阈值,或与未登录词的字面相似度最大的前预设数目个词汇为第一词汇。
确定第一词汇之后,再根据第二预设公式,查询所述的第一词汇中中语义相似度满足第二预设条件的候选词;第二预设条件为用于对语义相似度的限定,第二预设条件可以是候选词与未登录词的语义相似度大于一预设阈值,或与未登录词的语义相似度最大的前预设数目个词汇为候选词汇。
进一步地,本发明实施例中,所述根据第一预设公式,查询所述预设词典中,与所述未登录词的字面相似度满足第一预设条件的第一词汇的步骤,包括:
根据以下公式,查询所述预设词典中的词汇与所述未登录词的字面相似度;
其中,simD为所述预设词典中的词汇与所述未登录词的字面相似度;w为所述未登录词,w1为所述预设词典中的词汇;
确定所述预设词典中的词汇中,与所述未登录词的字面相似度满足第一预设条件的第一词汇。
上述公式为公式1,公式1即为第一预设公式;根据第一预设公式确定字面相似度;具体地,w∩w1表示w与w1中相同字符(或汉字)的字数,w+w1表示w与w1中字符(或汉字)的字数之和,即总字数,比如,当w为“北方”,w1为“北向”时,
可选地,由于预设词典中词汇量较大,在筛选第一词汇时,可以优先筛选与未登录词至少有一个相同字符(或汉字)的词汇。
确定所述预设词典中的词汇与未登录词的字面相似度之后,再筛选字面相似度满足第一预设条件的词汇作为第一词汇。
进一步地,本发明实施例中,根据第二预设公式,查询所述的第一词汇中的候选词,所述候选词为与所述未登录词的语义相似度满足第二预设条件的第一词汇的步骤,包括:
根据以下公式,确定所述第一词汇与所述未登录词的语义相似度;
sG=γ[p(wi|wi-1,wi-2)+p(wi|wi+1,wi+2)]+(1-γ)
*[p(wi|wi-1)+p(wi|wi+1)]
确定所述第一词汇中,与所述未登录词的语义相似度满足第二预设条件的候选词;
其中,上述公式以下简称为公式2;wi为所述第一词汇;sG为所述第一词汇与所述未登录词的语义相似度;γ为第一预设权值;第一预设权值为根据经验值预先设定的权值,γ取值范围可以设置在0和1之间。
公式2中,wi-1为所述未登录词在所述待合成语音中的语句中依据一预设方向排列的前一个词汇,即在预设方向上,排在所述未登录词之前的词汇。
比如,作为具体示例,对于待合成语音的语句为:“ABCDEF”,其中,A至F,每个字母分别表示一词汇;
若未登录词为“D”,第一词汇为“H”,预设方向为自左向右时,则wi-1为“C”;wi-2为所述wi-1在所述待合成语音中的语句中依据所述预设方向排列的前一个词汇,仍然参考上述具体示例,则wi-2为“B”。
通过第一词汇替代未登录词之后,p(wi|wi-1,wi-2)为wi-2、wi-1、wi在预设的语言模型中依据所述预设方向依次排列的第一预设概率,仍然参考上述具体示例,p(wi|wi-1,wi-2)表示在预设的语言模型中,“B”“C”“H”自左向右依次排列的概率;p(wi|wi-1)为wi-1、wi在预设的语言模型中依据所述预设方向依次排列的第二预设概率,即在预设的语言模型中“C”“H”自左向右依次排列的概率。
wi+1为所述未登录词在所述待合成语音中的语句中依据所述预设方向的排列的后一个词汇,即在预设方向上,排在所述未登录词之后的词汇,仍然参考上述具体示例,若未登录词为“D”,第一词汇为“H”,则wi+1为“E”;wi+2为所述wi+1在所述待合成语音中的语句中所述预设方向排列的后一个词汇,仍然参考上述具体示例,则wi+1为“F”;通过第一词汇替代未登录词之后,p(wi|wi+1,wi+2)为wi、wi+1、wi+2在预设的语言模型中依据所述预设方向依次排列的第三预设概率,即“H”“E”“F”自左向右依次排列的概率;p(wi|wi+1)为wi、wi+1在预设的语言模型中依据所述预设方向依次排列的第四预设概率,即“H”“E”自左向右依次排列的概率。
其中,上述预设的语言模型可以是n-gram语言模型;语言模型是自然语言处理任务中的重要组成部分,其中,n-gram语言模型是目前应用最为广泛的统计语言模型。n-gram语言模型构建为字符串s的概率分布p(s),p(s)反应的是字符串s作为一个句子出现的频率,频率越高表示字符串s组成的句子接近人类语言。
可选地,本发明实施例中,步骤203包括:
根据预设权值,对所述候选词的字面相似度、语义相似度进行加权求和,得到所述候选词的综合权值;其中,综合权值最高的候选词为目标候选词。
其中,根据字面相似度、语义相似度各自预设的权值,对二者加权求和,得出候选词的综合权值,并将综合权值最高的候选词作为目标候选词;具体地,根据以下公式3确定候选词的综合权值:
T=a*simD+b*sG
其中,T表示候选词的综合权值,a为simD(字面相似度)的预设权值,b为sG(语义相似度)的预设权值。
确定所有候选词的综合权值之后,根据以下公式4确定目标候选词:
w*=arg max(T)
其中,w*为目标候选词,公式4表示综合权值最高的候选词作为目标候选词。
本发明上述实施例中,在语音合成过程中,检测到待合成语音中包括未登录词时,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;通过将所述目标候选词替代所述未登录词,进行语音合成,解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,基于公式1以及公式2分别计算字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。
以上介绍了本发明实施例提供的语音合成方法,下面将结合附图介绍本发明实施例提供的语音合成装置。
参见图3,本发明实施例提供了一种语音合成装置,包括:
检测模块301,用于检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度。
其中,未登录词指未包含在TTS语料库中,但在语音合成过程中必须切分出来的词;在语音合成过程中,首先对待合成语音进行文本预处理,将输入文本转换为词向量,在转换过程中,若检测到未登录词,则查找预设词典中的目标候选词;
目标候选词为与未登录词相似度最高的词汇,相似度根据预设算法确定,包括字面相似度以及语义相似度;字面相似度即两个词汇在字面上的相似程度,语义相似度即两个词汇在语义上的相似程度。
合成模块302,用于将所述目标候选词替代所述未登录词,进行语音合成。
具体地,所述将所述目标候选词替代所述未登录词,进行语音合成即将所述目标候选词替代所述未登录词在所述待合成语音中的语句的位置,并进行语音合成;在语音合成过程中,通常是逐句合成,在合成未登录词所在的语句中,将目标候选词替代未登录词在所述待合成语音中的语句的位置,再对该语句执行文本预处理。
可选地,本发明实施例中,所述检测模块301包括;
第一确定子模块,用于根据第一预设规则,确定所述预设词典中的候选词;其中,所述候选词与所述未登录词的字面相似度满足第一预设条件、与所述未登录词的语义相似度满足第二预设条件;
第二确定子模块,用于根据第二预设规则,确定所述候选词中,与所述未登录词的相似度最高的目标候选词。
可选地,本发明实施例中,所述第一确定子模块包括:
第一查询单元,用于根据第一预设公式,查询所述预设词典中,与所述未登录词的字面相似度满足第一预设条件的第一词汇;
第二查询单元,用于根据第二预设公式,查询所述的第一词汇中的候选词,所述候选词为与所述未登录词的语义相似度满足第二预设条件的第一词汇。
可选地,本发明实施例中,所述第一查询单元用于:
根据以下公式,查询所述预设词典中的词汇与所述未登录词的字面相似度;
其中,simD为所述预设词典中的词汇与所述未登录词的字面相似度;w为所述未登录词,w1为所述预设词典中的词汇;
确定所述预设词典中的词汇中,与所述未登录词的字面相似度满足第一预设条件的第一词汇。
可选地,本发明实施例中,所述第二查询单元用于:
根据以下公式,确定所述第一词汇与所述未登录词的语义相似度;
sG=γ[p(wi|wi-1,wi-2)+p(wi|wi+1,wi+2)]+(1-γ)
*[p(wi|wi-1)+p(wi|wi+1)]
确定所述第一词汇中,与所述未登录词的语义相似度满足第二预设条件的候选词;
其中,sG为所述第一词汇与所述未登录词的语义相似度;wi为所述第一词汇;γ为第一预设权值;
wi-1为所述未登录词在所述待合成语音中的语句中依据一预设方向排列的前一个词汇;wi-2为所述wi-1在所述待合成语音中的语句中依据所述预设方向排列的前一个词汇;p(wi|wi-1,wi-2)为wi-2、wi-1、wi在预设的语言模型中依据所述预设方向依次排列的第一预设概率;p(wi|wi-1)为wi-1、wi在预设的语言模型中依据所述预设方向依次排列的第二预设概率;
wi+1为所述未登录词在所述待合成语音中的语句中依据所述预设方向的排列的后一个词汇;wi+2为所述wi+1在所述待合成语音中的语句中所述预设方向排列的后一个词汇;p(wi|wi+1,wi+2)为wi、wi+1、wi+2在预设的语言模型中依据所述预设方向依次排列的第三预设概率;p(wi|wi+1)为wi、wi+1在预设的语言模型中依据所述预设方向依次排列的第四预设概率。
可选地,本发明实施例中,所述第二确定子模块用于:
根据预设权值,对所述候选词的字面相似度、语义相似度进行加权求和,得到所述候选词的综合权值;其中,综合权值最高的候选词为目标候选词。
可选地,本发明实施例中,所述合成模块302用于:
将所述目标候选词替代所述未登录词在所述待合成语音中的语句的位置,并进行语音合成。
本发明上述实施例中,在语音合成过程中,检测模块301检测到待合成语音中包括未登录词时,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;合成模块302通过将所述目标候选词替代所述未登录词,进行语音合成,解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。
图4示出了本发明又一实施例提供的一种电子设备的结构示意图。
参见图4,本发明实施例提供的电子设备,所述电子设备包括存储器(memory)41、处理器(processor)42、总线43以及存储在存储器41上并可在处理器上运行的计算机程序。其中,所述存储器41、处理器42通过所述总线43完成相互间的通信。
所述处理器42用于调用所述存储器41中的程序指令,以执行所述程序时实现如图1的方法。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
将所述目标候选词替代所述未登录词,进行语音合成。
本发明实施例提供的电子设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。
本发明实施例提供的电子设备,在语音合成过程中,检测到待合成语音中包括未登录词时,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;通过将所述目标候选词替代所述未登录词,进行语音合成,解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。
本发明又一实施例提供的一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,所述程序被处理器执行时实现如图1的步骤。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
将所述目标候选词替代所述未登录词,进行语音合成。
本发明实施例提供的非暂态计算机可读存储介质,所述程序被处理器执行时实现上述方法实施例的方法,本实施不再赘述。
本发明实施例提供的非暂态计算机可读存储介质,在语音合成过程中,检测到待合成语音中包括未登录词时,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;通过将所述目标候选词替代所述未登录词,进行语音合成,解决了未登录词无法进行语音合成的问题,且不需要扩大TTS语料库,不会增加TTS神经网络的训练复杂度、解码复杂度;且相似度包括字面相似度以及语义相似度,通过两个维度筛选与未登录词相似的目标候选词,确保目标候选词替代未登录词的准确性。
本发明又一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
将所述目标候选词替代所述未登录词,进行语音合成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音合成方法,其特征在于,包括:
检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
将所述目标候选词替代所述未登录词,进行语音合成。
2.根据权利要求1所述的方法,其特征在于,所述根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词的步骤,包括;
根据第一预设规则,确定所述预设词典中的候选词;其中,所述候选词与所述未登录词的字面相似度满足第一预设条件、与所述未登录词的语义相似度满足第二预设条件;
根据第二预设规则,确定所述候选词中,与所述未登录词的相似度最高的目标候选词。
3.根据权利要求2所述的方法,其特征在于,所述根据第一预设规则,确定所述预设词典中的候选词的步骤,包括:
根据第一预设公式,查询所述预设词典中,与所述未登录词的字面相似度满足第一预设条件的第一词汇;
根据第二预设公式,查询所述的第一词汇中的候选词,所述候选词为与所述未登录词的语义相似度满足第二预设条件的第一词汇。
4.根据权利要求3所述的方法,其特征在于,所述根据第一预设公式,查询所述预设词典中,与所述未登录词的字面相似度满足第一预设条件的第一词汇的步骤,包括:
根据以下公式,查询所述预设词典中的词汇与所述未登录词的字面相似度;
其中,simD为所述预设词典中的词汇与所述未登录词的字面相似度;w为所述未登录词,w1为所述预设词典中的词汇;
确定所述预设词典中的词汇中,与所述未登录词的字面相似度满足第一预设条件的第一词汇。
5.根据权利要求3所述的方法,其特征在于,所述根据第二预设公式,查询所述的第一词汇中的候选词,所述候选词为与所述未登录词的语义相似度满足第二预设条件的第一词汇的步骤,包括:
根据以下公式,确定所述第一词汇与所述未登录词的语义相似度;
sG=γ[p(wi|wi-1,wi-2)+p(wi|wi+1,wi+2)]+(1-γ)
*[p(wi|wi-1)+p(wi|wi+1)]
确定所述第一词汇中,与所述未登录词的语义相似度满足第二预设条件的候选词;
其中,sG为所述第一词汇与所述未登录词的语义相似度;wi为所述第一词汇;γ为第一预设权值;
wi-1为所述未登录词在所述待合成语音中的语句中依据一预设方向排列的前一个词汇;wi-2为所述wi-1在所述待合成语音中的语句中依据所述预设方向排列的前一个词汇;p(wi|wi-1,wi-2)为wi-2、wi-1、wi在预设的语言模型中依据所述预设方向依次排列的第一预设概率;p(wi|wi-1)为wi-1、wi在预设的语言模型中依据所述预设方向依次排列的第二预设概率;
wi+1为所述未登录词在所述待合成语音中的语句中依据所述预设方向的排列的后一个词汇;wi+2为所述wi+1在所述待合成语音中的语句中所述预设方向排列的后一个词汇;p(wi|wi+1,wi+2)为wi、wi+1、wi+2在预设的语言模型中依据所述预设方向依次排列的第三预设概率;p(wi|wi+1)为wi、wi+1在预设的语言模型中依据所述预设方向依次排列的第四预设概率。
6.根据权利要求2所述的方法,其特征在于,所述根据第二预设规则,确定所述候选词中,与所述未登录词的相似度最高的目标候选词的步骤,包括:
根据预设权值,对所述候选词的字面相似度、语义相似度进行加权求和,得到所述候选词的综合权值;其中,综合权值最高的候选词为目标候选词。
7.根据权利要求1所述的方法,其特征在于,所述将所述目标候选词替代所述未登录词,进行语音合成的步骤,包括:
将所述目标候选词替代所述未登录词在所述待合成语音中的语句的位置,并进行语音合成。
8.一种语音合成装置,其特征在于,所述装置包括:
检测模块,用于检测到待合成语音中包括未登录词,根据预设算法,确定预设词典中与所述未登录词的相似度最高的目标候选词;所述相似度包括字面相似度以及语义相似度;
合成模块,用于将所述目标候选词替代所述未登录词,进行语音合成。
9.一种电子设备,其特征在于,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的语音合成方法中的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1至7中任一项所述的语音合成方法中的步骤。
CN201810628081.8A 2018-06-19 2018-06-19 语音合成方法及装置 Pending CN110619866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810628081.8A CN110619866A (zh) 2018-06-19 2018-06-19 语音合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810628081.8A CN110619866A (zh) 2018-06-19 2018-06-19 语音合成方法及装置

Publications (1)

Publication Number Publication Date
CN110619866A true CN110619866A (zh) 2019-12-27

Family

ID=68920168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810628081.8A Pending CN110619866A (zh) 2018-06-19 2018-06-19 语音合成方法及装置

Country Status (1)

Country Link
CN (1) CN110619866A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289302A (zh) * 2020-12-18 2021-01-29 北京声智科技有限公司 音频数据的合成方法、装置、计算机设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1545693A (zh) * 2001-08-22 2004-11-10 �Ҵ���˾ 语调生成方法、应用该方法的语音合成装置及语音服务器
ES2244523T3 (es) * 2000-08-31 2005-12-16 Siemens Aktiengesellschaft Traduccion fonetica para la sintesis de voz.
JP2006227425A (ja) * 2005-02-18 2006-08-31 National Institute Of Information & Communication Technology 音声再生装置及び発話支援装置
CN102378050A (zh) * 2010-07-13 2012-03-14 索尼欧洲有限公司 使用文本转语音转换的广播系统
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN103678272A (zh) * 2012-09-17 2014-03-26 北京信息科技大学 汉语依存树库中未登录词的处理方法
CN103810993A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种文本注音方法及装置
CN103853702A (zh) * 2012-12-06 2014-06-11 富士通株式会社 校正语料中的成语错误的装置和方法
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2244523T3 (es) * 2000-08-31 2005-12-16 Siemens Aktiengesellschaft Traduccion fonetica para la sintesis de voz.
CN1545693A (zh) * 2001-08-22 2004-11-10 �Ҵ���˾ 语调生成方法、应用该方法的语音合成装置及语音服务器
JP2006227425A (ja) * 2005-02-18 2006-08-31 National Institute Of Information & Communication Technology 音声再生装置及び発話支援装置
CN102378050A (zh) * 2010-07-13 2012-03-14 索尼欧洲有限公司 使用文本转语音转换的广播系统
CN103678272A (zh) * 2012-09-17 2014-03-26 北京信息科技大学 汉语依存树库中未登录词的处理方法
CN103810993A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种文本注音方法及装置
CN103853702A (zh) * 2012-12-06 2014-06-11 富士通株式会社 校正语料中的成语错误的装置和方法
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289302A (zh) * 2020-12-18 2021-01-29 北京声智科技有限公司 音频数据的合成方法、装置、计算机设备及可读存储介质
CN112289302B (zh) * 2020-12-18 2021-03-26 北京声智科技有限公司 音频数据的合成方法、装置、计算机设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11948066B2 (en) Processing sequences using convolutional neural networks
CN113439301B (zh) 用于机器学习的方法和系统
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
US9767788B2 (en) Method and apparatus for speech synthesis based on large corpus
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
EP4018437B1 (en) Optimizing a keyword spotting system
CN108766415B (zh) 一种语音测评方法
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN112397056B (zh) 语音评测方法及计算机存储介质
KR20180062003A (ko) 음성 인식 오류 교정 방법
CN112669845B (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
CN111260761A (zh) 一种生成动画人物口型的方法及装置
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
JP5914054B2 (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
CN112017690B (zh) 一种音频处理方法、装置、设备和介质
CN112686041A (zh) 一种拼音标注方法及装置
CN110619866A (zh) 语音合成方法及装置
CN110349570B (zh) 语音识别模型训练方法、可读存储介质和电子设备
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
CN113096649B (zh) 语音预测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20221101