CN113192483B - 一种文本转换为语音的方法、装置、存储介质和设备 - Google Patents
一种文本转换为语音的方法、装置、存储介质和设备 Download PDFInfo
- Publication number
- CN113192483B CN113192483B CN202110302103.3A CN202110302103A CN113192483B CN 113192483 B CN113192483 B CN 113192483B CN 202110302103 A CN202110302103 A CN 202110302103A CN 113192483 B CN113192483 B CN 113192483B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- feature vector
- sentence
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 193
- 230000008451 emotion Effects 0.000 claims abstract description 109
- 238000006243 chemical reaction Methods 0.000 claims abstract description 42
- 230000008909 emotion recognition Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本发明公开一种文本转换为语音的方法,包括:对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量;对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量;所述文本为第一文本或第二文本,所述第二文本为对所述第一文本进行口语化转换得到的;根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
Description
技术领域
本发明涉及语音处理技术,尤其涉及一种文本转换为语音的方法、装置、存储介质和设备。
背景技术
目前,将文本转换为语音时,只是基于文本内容进行简单的语音合成,生成的语音音调生硬、语句不连贯、没有感情、不自然,给用户带来的视听体验不好,在将短文、小说等转换为有声资源时,此种不好视听体验将会更加的明显。而如何基于AI技术将文本转换为媲美真人声音的语音是一个亟待解决的问题。
发明内容
本公开提供一种文本转换为语音的方法、装置、存储介质和设备,以至少解决现有技术中存在的以上技术问题。
本公开第一方面提供一种文本转换为语音的方法,包括:
对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量;
对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量;
所述文本为第一文本或第二文本,所述第二文本为对所述第一文本进行口语化转换得到的;
根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
其中,所述对第一文本进行口语化转换,包括:
利用口语化识别模型对所述第一文本中的每个句子进行识别,得到每个句子对应的口语化转换概率;
使用口语化转换模型,对所述第一文本中口语化转换概率满足阈值的句子一一进行转换,得到所述第二文本。
其中,所述使用口语化转换模型,对所述第一文本中口语化转换概率满足阈值的句子一一进行转换,包括:
利用用户的类型对应的口语化转换模型,对所述句子一一进行转换。
其中,该方法还包括:
获取用户语音;
提取用户语音的梅尔频率倒谱系数MFCC特征和身份特征向量i-vector;
基于所述MFCC特征和所述i-vector,利用语音识别模型对用户语音进行识别,确定用户的类型。
其中,所述每个词的多级情感特征向量包括:词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量;
所述对于所述文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量,包括:
根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的情感识别模型对词进行识别,得到词的情感特征向量;
根据句子中包含的每个词的情感特征向量,使用句子级别的情感识别模型对句子进行识别,得到词所属句子的情感特征向量;
根据段落中包含的每个句子的情感特征向量,使用段落级别的情感识别模型对段落进行识别,得到词所属段落的情感特征向量。
其中,所述每个词的多级内容特征向量包括:词的内容特征向量、词所属句子的内容特征向量、词所属段落的内容特征向量;
对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量,包括:
根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的内容识别模型对词进行识别,得到词的内容特征向量;
根据句子中包含的每个词的内容特征向量,使用句子级别的内容识别模型对句子进行识别,得到词所属句子的内容特征向量;
根据段落中包含的每个句子的内容特征向量,使用段落级别的内容识别模型对段落进行识别,得到词所属段落的内容特征向量。
其中,所述根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到语音,包括:
根据词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量、词的内容特征向量、词所属句子的内容特征向量和词所属段落的内容特征向量,使用语音转换模型对词进行转换得到词对应的语音。
本公开另一方面提供一种文本转换为语音的装置,包括:
情感识别模块,用于对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量;
内容识别模块,用于对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量;
所述文本为第一文本或第二文本,所述第二文本为对所述第一文本进行口语化转换得到的;
语音合成模块,用于根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
本发明再一方面提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行所述的文本转换为语音的方法。
本发明还一方面提供一种设备,包括:
处理器、用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现所述的文本转换为语音的方法。
在本发明中,分别对文本进行情感特征和内容特征的识别,基于识别得到的多级情感特征向量和多级内容特征向量进行转换得到的语音更加接近人声,同时,对文本进行口语化转换,基于较口语化的第二文本进行转换得到的语音更加接近于人声,提高了文本转换为人声的真实度。
附图说明
图1示出了一实施例所示的文本转换为语音的方法流程图;
图2示出了一实施例所示的口语化转换流程示意图;
图3示出了一实施例所示的情感特征识别的过程示意图;
图4示出了一实施例所示的内容特征识别的过程示意图;
图5示出了一实施例所示的文本转换为语音的装置结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高文本转为人声的真实度,本公开示例提供了一种文本转换为语音的方法,如图1所示,该方法包括:
步骤101,对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量。
步骤102,对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量。
步骤103,根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
在该示例中,分别对文本进行情感特征和内容特征的识别,基于识别得到的多级情感特征向量和多级内容特征向量进行转换得到的语音更加接近人声。
步骤101和步骤102中的文本可为第一文本或第二文本,第二文本为对第一文本进行口语化转换得到的,即第一文本的内容较书面化,第二文本的内容较口语化。基于较口语化的第二文本进行转换得到的语音更加接近于人声。
需要指出的是,步骤101的情感特征识别和步骤102的内容特征需基于同一份文本,即同时基于第一文本进行,或者同时基于第二文本进行。
若基于第二文本进行语音的转换,那么需先获取第一文本,然后,对第一文本进行口语化转换得到第二文本,如图2所示为本公开一示例提供的口语化转换过程,包括:
步骤201,利用口语化识别模型对所述第一文本中的每个句子进行识别,得到每个句子对应的口语化转换概率。
首先,可先进行口语化识别模型的训练,训练数据由书面化文本和口语化文本组成,文本以句子为单位,书面化文本中每个句子标注的类别标签是“转”,口语化文本每个句子标注的类别标签是“不转”。
训练过程如下:
1)对文本中的句子进行分词:如果文本是中文,需要先进行分词,如果是英文则不需要分词;
2)将句子转为词向量矩阵:先获取每个词的词向量,进而将句子转为一个由词向量组成的矩阵。
3)将文本输入口语化识别模型,输出两种类别标签的概率(即转的概率和不转的概率)。如果“转”的概率大于“不转”的概率,则识别结果为该文本需要进行口语化转换。或者,“转”的概率大于“不转”的概率,且“转”的概率满足一定的阈值时,识别结果才认为该文本需要进行口语化转换。
4)使用该文本标注的类别标签对口语化模型进行优化,即根据标注的类别标签和识别出的类别标签进行比较,识别结果和标注的类别标签不符时,对模型进行优化,即调整口语化模型中的参数,使口语化模型达到最优。
使用训练好的口语化模型对第一文本中的句子一一进行识别,得到每个句子“转”和“不转”的概率。
当“转”的概率满足条件时,认为需要对该句子进行口语化转换。
这里的条件可以是“转”的概率大于“不转”的概率;也可以是“转”的概率大于“不转”的概率的同时,“转”的概率满足一定的阈值。
步骤202,使用口语化转换模型,对所述第一文本中口语化转换概率满足条件的句子一一进行转换,得到所述第二文本。
对第一文本进行口语化识别之后,对第一文本中需要进行口语化转换的句子进行口语化转换。
在一个示例中,可利用用户的类型对应的口语化转换模型,对第一文本中的句子一一进行转换。这是因为,不同类型的用户的口语化风格不同,例如儿童、老人、青年之间的口语化差异很大。
那么,对于用户类型的识别过程如下:
1)获取用户语音;
2)提取用户语音的MFCC(梅尔频率倒谱系数)特征和i-vector(身份特征向量);
3)基于所述MFCC特征和所述i-vector,利用语音识别模型对用户语音进行识别,确定用户的类型。
语音识别模型的训练数据由用户语音和对应的年龄标签构成,通过有监督的训练过程,得到语音识别模型。例如,采集儿童的语音进行训练可得到儿童对应的语音识别模型,采集老人的语音进行训练可得到老人对应的语音识别模型。
口语化转换模型可以输出和输入文本长度不同的序列,训练数据由书面化文本和口语化文本组成,输入书面化文本,输出口语化文本。例如:
输入文本为:话说天下大势,分久必合,合久必分。
输出文本为:世上的事情总是分分合合。
由于需要对不同类型的用户生成不同的口语化文本,如果用户是老人和儿童,则需要文本更加通俗易懂;如果用户是其他年龄段,则口语化文本的风格需要符合其他年龄段的用户。因此需要使用不同的训练数据训练每种用户类型的口语化转换模型。
将第一文本中的句子进行口语化转换后,可进行情感特征识别和内容特征识别。当然,也可不进行口语化转换,直接针对第一文本进行情感特征识别和内容特征识别。
下面分别对情感特征识别和内容特征识别进行更加详细的说明。
关于情感特征识别:若要语音更加接近于人声,那么文本情感特征识别是重要的一环,例如:愉快的、悲伤的、愤怒的、平静的等。
如图3所示,情感特征识别的过程包括:
步骤301,根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的情感识别模型对词进行识别,得到词的情感特征向量。
该步骤中,采用如下公式计算词的情感特征向量hword:
hword=Mword(xword),其中:
xword=concat([word_embedding;word_id_embedding;sen_id_embedding])
所述Mword为词级别的情感识别模型,所述word_embeddin为词的词向量,所述word_id_embedding为词在所属句子的位置向量,所述sen_id_embedding为词所属句子在段落中的位置向量。
通过该步骤可得到每个词的情感特征向量。
步骤302,根据句子中包含的每个词的情感特征向量,使用句子级别的情感识别模型对句子进行识别,得到词所属句子的情感特征向量。
在该步骤中,采用如下公式计算词所属句子的情感特征向量hsen:
hsen=Msen(xsen),其中:
所述Msen为句子级别的情感识别模型,所述Nword为句子中或包含的词的数量,所述hword-j为句子中第j个词的情感特征向量,j的取值范围为1至Nword,所述aword-j为句子中第j个词的权重。
基于每个词的情感特征向量,可得到一个词所属句子的情感特征向量。
步骤303,根据段落中包含的每个句子的情感特征向量,使用段落级别的情感识别模型对段落进行识别,得到词所属段落的情感特征向量。
在该步骤中,采用如下公式计算词所属段落的情感特征向量hdoc:
hdoc=Mdoc(xdoc);其中:
asen=softmax(randomwalk([hsen-1;hsen-2;...;hword-Nsen]));
所述Mdoc为段落级别的情感识别模型,所述Nsen为段落中或包含的句子数量,所述hsen-i为段落中第i个句子的情感特征向量,i的取值范围为1至Nsen,所述asen-i为段落中第i个句子的权重。
基于每个句子的情感特征向量,可得到一个句子(词)所属段落的情感特征向量。
通过上述的过程可知,本公开示例的情感识别模型分为词、句子和段落三层,在训练阶段,利用句子级别和段落级别的情感分类标注数据(例如一个句子的情感分类为“愉快的”,一个段落的情感分类为“平静的”)来优化模型中的各部分参数。情感识别模型的优化目标函数为:
L=γLsen+(1-γ)Ldoc;
其中,Lsen为句子级别的情感识别模型的优化目标函数,Ldoc为段落级别的情感识别模型的优化目标函数,γ为参数,取值为0-1之间,其中:
Ldoc=MLE(hdoc)
Lsen=MLE(hsen)
关于内容特征识别:文本的内容分类例如:旁白、内心独白、场景描述、角色对话等。内容特征的识别采用与情感特征识别相同的三级模型。
如图4所示,内容特征的识别过程包括:
步骤401,根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的内容识别模型对词进行识别,得到词的内容特征向量。
在该步骤中,采用如下公式计算词的内容特征向量fword:
fword=M'word(xword);其中:
xword=concat([word_embedding;word_id_embedding;sen_id_embedding])
所述M'word为词级别的内容识别模型,所述word_embedding为词的词向量,所述word_id_embedding为词在所属句子的位置向量,所述sen_id_embedding为词所属句子在段落中的位置向量。
通过该步骤可得到每个词的内容特征向量。
步骤402,根据句子中包含的每个词的内容特征向量,使用句子级别的内容识别模型对句子进行识别,得到词所属句子的内容特征向量。
该步骤中,采用如下公式计算词所属句子的内容特征向量fsen:
fsen=M'sen(ysen),其中:
所述M'sen为句子级别的内容识别模型,所述Nword为句子中或包含的词的数量,所述fword-j为句子中第j个词的内容特征向量,j的取值范围为1至Nword,所述bword-j为句子中第j个词的权重。
步骤403,根据段落中包含的每个句子的内容特征向量,使用段落级别的内容识别模型对段落进行识别,得到词所属段落的内容特征向量。
该步骤中,采用如下公式计算词所属段落的内容特征向量fdoc:
fdoc=M'doc(ydoc);其中:
bsen=softmax(randomwalk([fsen-1;fsen-2;...;fword-Nsen]));
所述M'doc为段落级别的内容识别模型,所述Nsen为段落中或包含的句子数量,所述fsen-i为段落中第i个句子的内容特征向量,i的取值范围为1至Nsen,所述bsen-i为段落中第i个句子的权重。
通过上述的过程,可得到文本中每个词的六个特征向量,包括:词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量、词的内容特征向量、词所属句子的内容特征向量和词所属段落的内容特征向量。
关于内容特征的识别,本公开还提供了另一种方式,该过程包括:
1、数据准备:
采集多个文本,采集文本时可以考虑如下的多个因素:文本类型、文本使用的语言,而文本类型可以分为:小说、散文、诗歌等,小说又可以包括:都市、言情、玄幻、科幻、奇幻、恐怖、悬疑等子类型,散文又可以包括:叙事散文、抒情散文、议论散文等子类型,诗歌又可以包括:叙事诗、抒情诗、格律诗、自由诗等子类型;文本使用的语言可以包括:中文古文、中文现代白话文、港澳台中文、英文、日文等类型。对采集的文本可以先按照上述的类型进行分类,并为文本设置对应的分类标签,基于此,还可以分析文本中的每个段落、每个句子甚至是每个词,确定是内心独白、旁白、场景描述、人物描述还是角色之间的对话等,并为每个段落、每个句子甚至是每个词设置对应的分类标签。
2、模型训练:
根据采集的文本(包含分类标签)训练神经网络:首先,将采集到的文本分为训练集和测试集,基于训练集:对于文本进行特征提取,根据提取的特征和该特征对应的分类标签生成特征和标签对,然后基于特征和标签对训练神经网络得到内容识别模型,经过多次迭代之后,内容识别模型收敛;然后,使用测试集对训练好的内容识别进行测试,调整模型中的参数,对模型进行优化。
本公开示例中,神经网络采用端到端网络,基于该网络训练得到的内容识别模型能够充分的考虑上下文信息,能够更好的对文本片段(段落、句子、词)进行分类。
3、模型识别:
使用训练好的内容识别模型对第一文本或第二文本进行识别,得到第一文本或第二文本对应的多种分类,以及第一文本或第二文本中段落、句子、词对应的多种分类。这里,文本对应的分类、段落、句子、词对应的分类即为识别得到的内容特征。
基于上述的情感特征识别和内容特征识别,采用TTS模型对文本进行语音转换,过程包括:
1)预处理
将文本做正则化处理,例如,将阿拉伯数字、单位符号和其他特殊符号转成发音文字。例如:将文本“温度15-35℃”转化为文本“温度十五到三十五摄氏度”。
2)韵律预测
将预处理得到的文本以及文本中各词对应的六个特征向量作为韵律预测模型的输入,预测出各个词的韵律特征,形成对应的文字序列。根据停顿时间从长到短,韵律特征可以分为以下几个层级:语调短语(以逗号等标点分隔的,用#3表示);韵律短语(用#2表示);韵律词(用#1表示)。例如:输入“温度十五到三十五摄氏度”,输出“温度#2十五#1到#1三十五#2摄氏度#2”。
3)音素转换
将韵律预测输出的文字序列转成音素序列。音素是声学中的最小发音单元,对应到中文普通话里,相当于汉语拼音中的声韵母,韵母后面会加上音调(1:一声;2:二声;3:三声;4:四声;5:轻声),结尾会加一个“~”作为终止符。例如:输入“温度#2十五#1到#1三十五#2摄氏度”,输出“w en 1/d u4/#2/sh i2/w u3/#1/d ao4/#1/s an 1/sh i2/w u3/#2/sh e4/sh i4/d u4/~”。
4)声学模型处理
基于音素序列采用声学模型,得到声学特征的梅尔谱或线性谱。
5)声码器
声码器的输入为声学模型输出的梅尔谱或线性谱,输出是最终的语音波形。
通过上述的过程,即可提高文本转换为语音的真实度。
为了实现上述的方法,本公开一示例还提供了一种文本转换为语音的装置,如图5所示,包括:
情感识别模块51,用于对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量;
内容识别模块52,用于对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量;
语音合成模块53,用于根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
其中,上述的文本为第一文本或第二文本,所述第二文本为对所述第一文本进行口语化转换得到的。
在一个示例中,该装置还可包括:
口语化识别模块54,用于利用口语化识别模型对所述第一文本中的每个句子进行识别,得到每个句子对应的口语化转换概率;
口语化转换模块55,用于使用口语化转换模型,对所述第一文本中口语化转换概率满足阈值的句子一一进行转换,得到所述第二文本。在一个示例中,口语化转换模块55,还用于利用用户的类型对应的口语化转换模型,对所述句子一一进行转换。
在一个示例中,该装置还可包括:
语音识别模块56,用于获取用户语音,提取用户语音的梅尔频率倒谱系数MFCC特征和身份特征向量i-vector,并基于所述MFCC特征和所述i-vector,利用语音识别模型对用户语音进行识别,确定用户的类型。
该示例中,所述每个词的多级情感特征向量包括:词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量;
情感识别模块51,用于根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的情感识别模型对词进行识别,得到词的情感特征向量;
根据句子中包含的每个词的情感特征向量,使用句子级别的情感识别模型对句子进行识别,得到词所属句子的情感特征向量;
根据段落中包含的每个句子的情感特征向量,使用段落级别的情感识别模型对段落进行识别,得到词所属段落的情感特征向量。
在该示例中,所述每个词的多级内容特征向量包括:词的内容特征向量、词所属句子的内容特征向量、词所属段落的内容特征向量;
情感识别模块52,用于根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的内容识别模型对词进行识别,得到词的内容特征向量;
根据句子中包含的每个词的内容特征向量,使用句子级别的内容识别模型对句子进行识别,得到词所属句子的内容特征向量;
根据段落中包含的每个句子的内容特征向量,使用段落级别的内容识别模型对段落进行识别,得到词所属段落的内容特征向量。
相应的,语音合成模块53,还用于根据词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量、词的内容特征向量、词所属句子的内容特征向量和词所属段落的内容特征向量,使用语音转换模型对词进行转换得到词对应的语音。
示例性地,本公开还提供了一种设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的文本转换为语音的方法。
示例性地,本发明还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的文本转换为语音的方法。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种文本转换为语音的方法,包括:
对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量;
对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量;
所述文本为第一文本或第二文本,所述第二文本为对所述第一文本进行口语化转换得到的;
根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
2.根据权利要求1所述的方法,对第一文本进行口语化转换,包括:
利用口语化识别模型对所述第一文本中的每个句子进行识别,得到每个句子对应的口语化转换概率;
使用口语化转换模型,对所述第一文本中口语化转换概率满足阈值的句子一一进行转换,得到所述第二文本。
3.根据权利要求2所述的方法,所述使用口语化转换模型,对所述第一文本中口语化转换概率满足阈值的句子一一进行转换,包括:
利用用户的类型对应的口语化转换模型,对所述句子一一进行转换。
4.根据权利要求3所述的方法,该方法还包括:
获取用户语音;
提取用户语音的梅尔频率倒谱系数MFCC特征和身份特征向量i-vector;
基于所述MFCC特征和所述i-vector,利用语音识别模型对用户语音进行识别,确定用户的类型。
5.根据权利要求1所述的方法,所述每个词的多级情感特征向量包括:词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量;
对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量,包括:
根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的情感识别模型对词进行识别,得到词的情感特征向量;
根据句子中包含的每个词的情感特征向量,使用句子级别的情感识别模型对句子进行识别,得到词所属句子的情感特征向量;
根据段落中包含的每个句子的情感特征向量,使用段落级别的情感识别模型对段落进行识别,得到词所属段落的情感特征向量。
6.根据权利要求1所述的方法,所述每个词的多级内容特征向量包括:词的内容特征向量、词所属句子的内容特征向量、词所属段落的内容特征向量;
对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量,包括:
根据词的词向量、词在所属句子的位置向量以及词所属句子在段落中的位置向量,使用词级别的内容识别模型对词进行识别,得到词的内容特征向量;
根据句子中包含的每个词的内容特征向量,使用句子级别的内容识别模型对句子进行识别,得到词所属句子的内容特征向量;
根据段落中包含的每个句子的内容特征向量,使用段落级别的内容识别模型对段落进行识别,得到词所属段落的内容特征向量。
7.根据权利要求5或6所述的方法,所述根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到语音,包括:
根据词的情感特征向量、词所属句子的情感特征向量、词所属段落的情感特征向量、词的内容特征向量、词所属句子的内容特征向量和词所属段落的内容特征向量,使用语音转换模型对词进行转换得到词对应的语音。
8.一种文本转换为语音的装置,包括:
情感识别模块,用于对文本进行情感特征识别,得到所述文本中每个词的多级情感特征向量;
内容识别模块,用于对所述文本进行内容特征识别,得到所述文本中每个词的多级内容特征向量;
所述文本为第一文本或第二文本,所述第二文本为对所述第一文本进行口语化转换得到的;
语音合成模块,用于根据每个词的多级情感特征向量和多级内容特征向量对每个词进行转换得到对应的语音。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行权利要求1-7任一项所述的文本转换为语音的方法。
10.一种电子设备,包括:
处理器、用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现权利要求1-7任一项所述的文本转换为语音的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302103.3A CN113192483B (zh) | 2021-03-22 | 2021-03-22 | 一种文本转换为语音的方法、装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110302103.3A CN113192483B (zh) | 2021-03-22 | 2021-03-22 | 一种文本转换为语音的方法、装置、存储介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113192483A CN113192483A (zh) | 2021-07-30 |
CN113192483B true CN113192483B (zh) | 2024-02-27 |
Family
ID=76973569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110302103.3A Active CN113192483B (zh) | 2021-03-22 | 2021-03-22 | 一种文本转换为语音的方法、装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192483B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287461A (zh) * | 2019-05-24 | 2019-09-27 | 北京百度网讯科技有限公司 | 文本转换方法、装置及存储介质 |
CN110379409A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN110675853A (zh) * | 2019-09-10 | 2020-01-10 | 苏宁云计算有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
CN111653265A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN112489618A (zh) * | 2019-09-12 | 2021-03-12 | 微软技术许可有限责任公司 | 利用多级别上下文特征的神经文本到语音合成 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
US10394959B2 (en) * | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
-
2021
- 2021-03-22 CN CN202110302103.3A patent/CN113192483B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287461A (zh) * | 2019-05-24 | 2019-09-27 | 北京百度网讯科技有限公司 | 文本转换方法、装置及存储介质 |
CN110379409A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 语音合成方法、系统、终端设备和可读存储介质 |
CN110675853A (zh) * | 2019-09-10 | 2020-01-10 | 苏宁云计算有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
CN112489618A (zh) * | 2019-09-12 | 2021-03-12 | 微软技术许可有限责任公司 | 利用多级别上下文特征的神经文本到语音合成 |
CN111653265A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
面向汉语统计参数语音合成的标注生成方法;郝东亮等;《计算机工程与应用》;20161001(第19期);第150-157页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113192483A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230197057A1 (en) | Speech Recognition Using Unspoken Text and Speech Synthesis | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
Liu et al. | Mongolian text-to-speech system based on deep neural network | |
JP2017032738A (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
Ekpenyong et al. | Improved syllable-based text to speech synthesis for tone language systems | |
Zahariev et al. | An approach to speech ambiguities eliminating using semantically-acoustical analysis | |
Wang et al. | Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis | |
Rao et al. | Language identification using excitation source features | |
CN113192483B (zh) | 一种文本转换为语音的方法、装置、存储介质和设备 | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Seong et al. | Multilingual speech synthesis for voice cloning | |
Ajayi et al. | Systematic review on speech recognition tools and techniques needed for speech application development | |
Bohouta | Improving wake-up-word and general speech recognition systems | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
Räsänen | Context induced merging of synonymous word models in computational modeling of early language acquisition | |
Raju et al. | Speech recognition to build context: A survey | |
Azim et al. | Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
Bassan et al. | An experimental study of continuous automatic speech recognition system using MFCC with reference to Punjabi language | |
Weweler | Single-Speaker End-To-End Neural Text-To-Speech Synthesis | |
Unnikrishnan et al. | Non-uniform Region Based Features for Automatic Language Identification | |
Ojha et al. | An Overview of Methodologies and Prototypes involved in Speech Recognition Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |