CN112541078A - 新闻智能播报方法、装置、设备及存储介质 - Google Patents

新闻智能播报方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112541078A
CN112541078A CN202011432581.8A CN202011432581A CN112541078A CN 112541078 A CN112541078 A CN 112541078A CN 202011432581 A CN202011432581 A CN 202011432581A CN 112541078 A CN112541078 A CN 112541078A
Authority
CN
China
Prior art keywords
semantic
news
model
classification
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011432581.8A
Other languages
English (en)
Inventor
苏雪琦
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011432581.8A priority Critical patent/CN112541078A/zh
Publication of CN112541078A publication Critical patent/CN112541078A/zh
Priority to PCT/CN2021/084290 priority patent/WO2022121181A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,公开了一种新闻智能播报方法、装置、设备及存储介质。该新闻智能播报方法包括:获取待处理的新闻播报文本;将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。本申请能够实现合成带有情绪的新闻播报音频。

Description

新闻智能播报方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种新闻智能播报方法、装置、设备及存储介质。
背景技术
社交化传媒丰富了新闻形式,金融新闻从传统的新闻主播、电台主播等模式衍生出了更适应新媒体的趣味形式。例如短视频场景、有声电台场景下的财经新闻/科普层出不穷,可见全场景发展已是新闻媒体的主要趋势。全场景播报的核心在于对多元风格化语音合成的支持,而新媒体背景多元化场景下,情绪合成是其取胜的关键。智能语音合成可以一物多用,输入文本,智能合成适应各种平台风格类型的语音,减少对声优的依赖、提高成品产出效率。
现有技术中,由于针对声音情感表现力方面技术建树较少,且语音合成的情感部分尚未达到逼真拟人化,所以当前无法合成带有情绪的新闻播报音频。
发明内容
本发明的主要目的在于解决当前无法合成带有情绪的新闻播报音频的问题。
本发明第一方面提供了一种新闻智能播报方法,包括:
获取待处理的新闻播报文本;
将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。
可选的,在本发明第一方面的第一种实现方式中,在所述获取待处理的新闻播报文本之前,还包括:
获取语义预测训练样本集合和语义标签集合,并建立样本与标签之间的匹配关系;
对所述预测训练样本集合和语义标签集合进行切分,得到训练样本集合和测试样本集合;
将所述训练样本集合输入预置神经网络模型进行语义预测训练,得到语义预测模型;
将所述测试样本集合输入所述语义预测模型进行模型性能测试,若测试结果为良好,则模型训练结束,否则继续进行模型训练。
可选的,在本发明第一方面的第二种实现方式中,所述所述语义预测模型依次包括特征识别网络、词向量合成网络,所述将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量包括:
对所述新闻播报文本进行分词,得到带词序的多个分词;
将所述各分词依次输入所述特征识别网络进行特征抽取,输出所述各分词对应的词向量和语义权重;
将所述各词向量输入所述词向量合成网络,并根据所述语义权重对所述各词向量进行加权融合,输出相应的语义向量。
可选的,在本发明第一方面的第三种实现方式中,在所述获取待处理的新闻播报文本之前,还包括:
获取语义分类样本,并对所述语义分类样本添加分类标签信息;
对预置决策树模型进行初始化,并将所述语义分类样本与对应的分类标签信息输入所述决策树模型中;
通过所述决策树模型,对所述语义分类样本进行处理,得到所述语义分类样本的分类预测结果;
根据所述分类预测结果和分类标签信息,对所述决策树模型的参数进行优化,直至所述决策树模型收敛,得到语义分类模型。。
可选的,在本发明第一方面的第四种实现方式中,所述语义分类模型依次包括特征提取网络、特征识别网络、分类网络,所述将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签包括:
将所述语义向量输入所述特征提取网络进行特征提取,输出多个对应的特征;
将所述多个对应的特征输入所述特征识别网络进行特征测试,输出测试结果;
将所述测试结果输入所述分类网络,并根据所述测试结果将所述语义向量进行节点分配,输出所述语义向量的分类树;
基于所述语义向量的分类树,生成所述新闻播报文本中各语句对应的情绪标签。
可选的,在本发明第一方面的第五种实现方式中,所述文本转语音模型依次包括文本预处理网络、音律预测网络、语音合成网络,所述将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频包括:
对所述新闻播报文本进行语句划分,得到带语序的多个语句;
将所述各语句和所述各语句对应的情绪标签输入所述文本预处理网络进行音素序列化处理,输出音素序列;
将所述音素序列输入所述音律预测网络进行音律预测,得到音律合成类型信息;
将所述音律合成类型信息输入所述语音合成网络进行波形生成,输出带有多种情绪的新闻播报音频。
可选的,在本发明第一方面的第六种实现方式中,在所述将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频之后,还包括:
根据预置时间戳,对所述新闻播报音频进行可视化剪辑,得到多种不同情绪下的情感语音;
将所述各情感语音及所述各情感语音对应的情绪标签提交人工审核。
本发明第二方面提供了一种新闻智能播报装置,包括:
新闻文本获取模块,用于获取待处理的新闻播报文本;
语义分析模块,用于将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
标签生成模块,用于将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
音频合成模块,用于将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。
可选的,在本发明第二方面的第一种实现方式中,所述新闻文本获取模块具体用于:
获取语义预测训练样本集合和语义标签集合,并建立样本与标签之间的匹配关系;
对所述预测训练样本集合和语义标签集合进行切分,得到训练样本集合和测试样本集合;
将所述训练样本集合输入预置神经网络模型进行语义预测训练,得到语义预测模型;
将所述测试样本集合输入所述语义预测模型进行模型性能测试,若测试结果为良好,则模型训练结束,否则继续进行模型训练。
可选的,在本发明第二方面的第二种实现方式中,所述新闻文本获取模块具体用于:
获取语义分类样本,并对所述语义分类样本添加分类标签信息;
对预置决策树模型进行初始化,并将所述语义分类样本与对应的分类标签信息输入所述决策树模型中;
通过所述决策树模型,对所述语义分类样本进行处理,得到所述语义分类样本的分类预测结果;
根据所述分类预测结果和分类标签信息,对所述决策树模型的参数进行优化,直至所述决策树模型收敛,得到语义分类模型。
可选的,在本发明第二方面的第三种实现方式中,所述语义分析模块具体用于:
对所述新闻播报文本进行分词,得到带词序的多个分词;
将所述各分词依次输入所述特征识别网络进行特征抽取,输出所述各分词对应的词向量和语义权重;
将所述各词向量输入所述词向量合成网络,并根据所述语义权重对所述各词向量进行加权融合,输出相应的语义向量。
可选的,在本发明第二方面的第四种实现方式中,所述标签生成模块具体用于:
将所述语义向量输入所述特征提取网络进行特征提取,输出多个对应的特征;
将所述多个对应的特征输入所述特征识别网络进行特征测试,输出测试结果;
将所述测试结果输入所述分类网络,并根据所述测试结果将所述语义向量进行节点分配,输出所述语义向量的分类树;
基于所述语义向量的分类树,生成所述新闻播报文本中个语句对应的情绪标签。
可选的,在本发明第二方面的第五种实现方式中,所述音频合成模块具体用于:
对所述新闻播报文本进行语句划分,得到带语序的多个语句;
将所述各语句和所述各语句对应的情绪标签输入所述文本预处理网络进行音素序列化处理,输出音素序列;
将所述音素序列输入所述音律预测网络进行音律预测,得到音律合成类型信息;
将所述音律合成类型信息输入所述语音合成网络进行波形生成,输出带有多种情绪的新闻播报音频。
可选的,在本发明第二方面的第六种实现方式中,所述音频合成模块具体用于:
根据预置时间戳,对所述新闻播报音频进行可视化剪辑,得到多种不同情绪下的情感语音;
将所述各情感语音及所述各情感语音对应的情绪标签提交人工审核。
本发明第三方面提供了一种新闻智能播报设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻智能播报设备执行上述的新闻智能播报方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的新闻智能播报方法。
本发明提供的技术方案中,通过对获取的新闻播报文本进行语义预测,将语义预测得到的语义向量进行分类,根据分类结果生成多个情绪标签,最后将新闻播报文本和对应的情绪标签输入到预置文本转语音模型中进行音频合成。本申请能够实现合成带有情绪的新闻播报音频。
附图说明
图1为本发明实施例中新闻智能播报方法的一个实施例示意图;
图2为本发明实施例中新闻智能播报装置的一个实施例示意图;
图3为本发明实施例中新闻智能播报设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种新闻智能播报方法、装置、设备及存储介质,能够丰富情绪的合成效果,提高语音的仿真度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中新闻智能播报方法的一个实施例包括:
101、获取待处理的新闻播报文本;
本实施例中,业务人员将新闻情景文本上传到剧本库中,管理人员可以在剧本管理页面中对剧情进行管理,其中管理页面下分为了“剧本库存”和“角色管理”这两个模块,点击“剧本库存”将获取到上传到剧本库中的剧本,选择一个剧本可以进行查看剧本内容及其剧本描述信息,剧本描述信息包括剧本播报类型、剧本场景、剧本字数统计,例如“单人播报”、“电视新闻场景”、“694个汉字”。
所述新闻播报文本中包含时间戳,时间戳的设定可以通过选中剧本文本中的文字可以将其标注为剧本对白中的关键性语句,关键性语句通过红色字体标识显示,对于关键性语句可以通过剧本查看页面中的时间戳设置栏键入时间来设置该关键性语句对应的时间戳。时间戳设置栏分为开始时间和结束时间,剧本文本中所有设定的时间戳都在标注历史中显示,通过点击标注历史中的时间戳可以快速定位到对应剧本文本中的关键性语句。其中,时间戳设定的作用是在波形音频生成后,干预不同语段在音频中的时间位置,以方便业务人员后续剪辑后期。“角色管理”将根据剧本角色设定进行单独上传小传或非剧本内对白,支持与录制剧本音频进行匹配,实现按角色进行试听与审核。
在本实施例中,在上述步骤101之前,还包括:
获取语义预测训练样本集合和语义标签集合,并建立样本与标签之间的匹配关系;
对所述预测训练样本集合和语义标签集合进行切分,得到训练样本集合和测试样本集合;
将所述训练样本集合输入预置神经网络模型进行语义预测训练,得到语义预测模型;
将所述测试样本集合输入所述语义预测模型进行模型性能测试,若测试结果为良好,则模型训练结束,否则继续进行模型训练。
本实施例中,通过大量的训练样本来对神经网络模型进行语义预测能力的训练,其中训练样本包括了训练文本和语义标签,一个训练文本可对应多个语义标签,每一个训练文本及其对应的语义标签将作为一个训练样本,将集合中若干个这样的样本进行切分,其中一部分作为模型训练的样本材料,另一部分作为检测模型训练效果的测试样本材料,这个比例可以控制为9:1(训练样本材料:测试样本材料),其中90%的样本用于训练,得到了语义预测模型,用剩下的10%去验证所述语义预测模型的性能,如果测试结果达到预先设定的良好评分,那么到此结束模型的训练,良好评分可以用过预测成功比例来规定,例如规定预测成功比例为60%即为良好评分,那么用语义预测模型进行语义预测10次,将每次的预测结果与对应的语义标签对比,当这10次预测中有6次预测准确就达到了“良好”等级。如果没有达到“良好”等级,则重新调整训练参数,继续进行模型训练。
在本实施例中,在上述步骤101之前,还包括:
获取语义分类样本,并对所述语义分类样本添加分类标签信息;
对预置决策树模型进行初始化,并将所述语义分类样本与对应的分类标签信息输入所述决策树模型中;
通过所述决策树模型,对所述语义分类样本进行处理,得到所述语义分类样本的分类预测结果;
根据所述分类预测结果和分类标签信息,对所述决策树模型的参数进行优化,直至所述决策树模型收敛,得到语义分类模型。
本实施例中,采用了决策树模型进行分类,决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点,其中内部结点表示一个特征或属性,叶结点表示一个类。一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。
根据给定的语义分类训练样本构建一个决策树模型,使它能够对实例进行正确的分类,其本质上是从训练数据集中归纳出一组分类规则。而参数是否需要进行优化,是通过计算损失函数来确定的,损失函数越小,生成的决策树则越优良。其损失函数通常是正则化的极大似然函数。
102、将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
本实施例中所采用的语义预测模型为BERT模型(Bidirectional EncoderRepresentation from Transformers),即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和NextSentence Prediction两种方法分别捕捉词语和句子级别的representation。本实施例中,基于BERT模型进行智能语义分析,判别文本是否具有喜怒哀乐等情绪。
在本实施例中,在上述步骤101之前,还包括:
对所述新闻播报文本进行分词,得到带词序的多个分词;
将所述各分词依次输入所述特征识别网络进行特征抽取,输出所述各分词对应的词向量和语义权重;
将所述各词向量输入所述词向量合成网络,并根据所述语义权重对所述各词向量进行加权融合,输出相应的语义向量。
本实施例中,分词是通过获取分析新闻播报文本预设的分词结构,得到带有词序的多个分词,例如得到第一分词、第二分词、第三分词,然后特征识别网络对每一个分词提取特征,输出第一分词的文本向量α及权重3,输出第二分词的文本向量β及权重4,输出第三分词的文本向量ɡ及权重5,最后通过词向量合成网络将这些词向量融合为一个语义向量,其权重计算通过加权算法得到,即向量α、β、ɡ的权重之和3+4+5=12,。将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
103、将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
本实施例中,每一类语义向量即对应一个情绪标签,两者为一对一的关系,而本实例中的语义分类通过分类模型来实现的,分类模型能够将具有共同特征的目标划分出来,常见的分类模型有朴素贝叶斯,最为广泛的两种分类模型是决策树模型(Decision TreeModel)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;逻辑回归:y=sigmoid(wx)函数,根据某个概率阈值划分类别;SVM,假设存在一个超平面,能够将所有样本进行隔开。多层感知机MLP,全连接的神经网络,除了输入层,其他层的激活函数都SIGMOD函数,采用BP算法学习权值:输出向后传递,误差向前传递。传统的boost算法:初始所有样本的权重都是一致的,后续不断增加“被分错”样本的权重,降低分对样本的权重。
在本实施例中,上述103还包括:
将所述语义向量输入所述特征提取网络进行特征提取,输出多个对应的特征;
将所述多个对应的特征输入所述特征识别网络进行特征测试,输出测试结果;
将所述测试结果输入所述分类网络,并根据所述测试结果将所述语义向量进行节点分配,输出所述语义向量的分类树;
基于所述语义向量的分类树,生成所述新闻播报文本中各语句对应的情绪标签。
分类树是一种描述对实例进行分类的树形结构。在使用分类树进行分类时,从根结点开始,对所述语义分类样本的某一特征进行测试,根据测试结果,将某一个语义分类样本分配到其子结点。这时,每一个子结点对应着该特征的一个取值。如此递归地对语义分类样本逐一进行测试并分配,直至达到叶结点。最后将语义分类样本分到叶结点的类中。而每一个叶节点即对应一类语义分类样本,基于每一类的语义分类样本生成一个对应的情绪标签。
104、将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频;
比较好的语音合成模型有WORLD:WORLD是一个基于C语言的开源语音合成系统,语音合成主要包括波形拼接和参数合成两种方法,WORLD是一种基于vocoder的参数合成方法,它相比于STRAIGHT的优势是减少了计算复杂度,并且可以应用于实时的语音合成。由于STRAIGHT不是开源的系统,并且在WORLD论文中已经对比了WORLD相比于STRAIGHT无论是在合成的音频质量上还是合成速度上都处于领先优势。基于神经网络的端到端文本到语音合成(Text-to-Speech,TTS)技术取了快速发展。与传统语音合成中的拼接法(concatenativesynthesis)和参数法(statistical parametric synthesis)相比,端到端语音合成技术生成的声音通常具有更好的声音自然度。但是,这种技术依然面临以下几个问题:
合成语音的速度较慢:端到端模型通常以自回归(Autoregressive)的方式生成梅尔谱(Mel-Spectrogram),再通过声码器(Vocoder)合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;
合成的语音稳定性较差:端到端模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成,由于序列生成的错误传播(ErrorPropagation)以及注意力对齐不准,导致出现重复吐词或漏词现象;
缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,无法显式地控制生成语音的语速或者韵律停顿等。为了解决上述的一系列问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,可以并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音。
本实施例中,预置文本转语音模型采用的是Fast Speech模型,全场景播报是对不同场景语音的高保真表现,关键在于重音停连、气息强弱、音调强弱、情绪起伏等韵律信息。由于需要高表现力,且具有长文本特征,本实施例采用Fast Speech模型作为产品化底层技术的方向。与自回归的Transformer TTS相比,Fast Speech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。并且,Fast Speech去除了注意力机制,降低了合成失败率,能有效避免因长文本合成失败带来的损失;相比Tacotron2模型,Fast Speech是一种非自回归模型,并行计算每个字符的梅尔谱帧,避免了因循环机制带来的合成速度限制,但同时导致互相之间的韵律关联有所缺失,从而降低了声音表现力。但建议引入方差调节器机制,对Pitch、Duration等韵律信息进行预测,提高对于合成声音的音素持续时间/音调强弱/重音音量等方面效果,以此来实现又快又好的效果。
Fast Speech采用一种新型的前馈Transformer网络架构,抛弃掉传统的编码器-注意力-解码器机制。其主要模块采用Transformer的自注意力机制(Self-Attention)以及一维卷积网络(1D Convolution)。前馈Transformer堆叠多个FFT块,用于音素(Phoneme)到梅尔谱变换,音素侧和梅尔谱侧各有N个FFT块。特别注意的是,中间有一个长度调节器(Length Regulator),用来调节音素序列和梅尔谱序列之间的长度差异。
在本实施例中,上述104还包括:
对所述新闻播报文本进行语句划分,得到带语序的多个语句;
将所述各语句和所述各语句对应的情绪标签输入所述文本预处理网络进行音素序列化处理,输出音素序列;
将所述音素序列输入所述音律预测网络进行音律预测,得到音律合成类型信息;
将所述音律合成类型信息输入所述语音合成网络进行波形生成,输出带有多种情绪的新闻播报音频。
本实施例中,把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。作为一个预处理步骤,它的重要性经常被忽视,但是它涉及到很多值得研究的问题,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定,等等。所述音素序列为Fast Speech模型中Pitch、Duration等韵律信息提供参考依据,确定正确的情绪合成类型,例如情景对白A和情绪标签a,Fast Speech模型根据情景对白A和情绪标签a对韵律信息进行预测,预测结果为“愤怒”,那么确定音律合成类型信息即为“愤怒类型”,最终将音律合成类型为“愤怒类型”的信息输入到语音合成网络中,由语音合成网络对输入的信息进行参数解析,由语音合成网络中的声码器根据参数解析结果合成语音。
在本实施例中,在将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频之后,还包括:
根据预置时间戳,对所述新闻播报音频进行可视化剪辑,得到多种不同情绪下的情感语音;
将所述各情感语音及所述各情感语音对应的情绪标签提交人工审核。
本实施例中,按照时间戳将波形音频的对白可视化处理,快速定位对白后可以进行试听与编辑。例如时间戳1为01:08~02:34,时间戳2为02:34~03:28,按照这两个时间段将整个波形音频进行裁剪,得到两个音频文件,将这两个音频文件分别用标签按钮进行标注,例如按钮1(01:08~02:34),按钮2(02:34~03:28),当点击按钮1时,将播放时间戳1对应时段的音频文件,当点击按钮2时,将播放时间戳2对应时段的音频文件。
如果需要对音频文件进行修改与剪辑,通过时间戳快速定位到对应的音频,将相应的音频文件从系统中下载后通过数字音频制作类编辑软件对音频波形进行“反转”、“静音”、“放大”、“扩音”、“减弱”、“淡入”、“淡出”、“规则化”等常规处理,剪贴、复制、粘贴、多文件合并和混音等常规处理,“槽带滤波器”、“带通滤波器”、“高通滤波器”、“低通滤波器”、“高频滤波器”、“低通滤波器”、“FFT滤波器”滤波处理。数字音频制作类编辑软件主要包括录音、混音、后期效果处理等,是以音频处理为核心,集声音记录、播放、编辑、处理和转换于一体的功能强大的数字音频编辑软件,具备制作专业声效所需的丰富效果和编辑功能,用它可以完成各种复杂和精细的专业音频编辑。在声音处理方面包含有频率均衡、效果处理、降噪等多项功能。关于音频的剪辑,在数字音频制作类编辑软件中打开相应时间戳对应的音频文件,将所述音频文件分段后进行拼接、修改等处理,将处理后的音频文件上传到系统中。
本实施例中,人工审核情感语音与情绪标签是否匹配,通过点击按钮后播放相应的情感语音,由工作人员判断所述情感语音的情感色彩,并与所述情感语音绑定的情绪标签进行比对,如果所述情感语音的情感色彩与其绑定的情绪标签是一致的,那么审核通过,将所述情感语音标记为新闻,如果所述情感语音的情感色彩与其绑定的情绪标签不一致,那么将重新对情景对白进行智能语义分析,生成对应情绪标签,合成波形音频,对音频剪辑补充,并再一次发起人工审核。
本实施例,丰富合成效果,提高仿真度、令语音效果多样化,为产品应用场景提供更多可能;针对金融新闻全场景播报而制作,驾驭力更强。
上面对本发明实施例中新闻智能播报方法进行了描述,下面对本发明实施例中新闻智能播报装置进行描述,请参阅图2,本发明实施例中新闻智能播报装置一个实施例包括:
新闻文本获取模块201,用于获取待处理的新闻播报文本;
语义分析模块202,用于将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
标签生成模块203,用于将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
音频合成模块204,用于将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。
可选的,新闻文本获取模块201还可以具体用于:
获取语义预测训练样本集合和语义标签集合,并建立样本与标签之间的匹配关系;
对所述预测训练样本集合和语义标签集合进行切分,得到训练样本集合和测试样本集合;
将所述训练样本集合输入预置神经网络模型进行语义预测训练,得到语义预测模型;
将所述测试样本集合输入所述语义预测模型进行模型性能测试,若测试结果为良好,则模型训练结束,否则继续进行模型训练。
可选的,新闻文本获取模块201还可以具体用于:
获取语义分类样本,并对所述语义分类样本添加分类标签信息;
对预置决策树模型进行初始化,并将所述语义分类样本与对应的分类标签信息输入所述决策树模型中;
通过所述决策树模型,对所述语义分类样本进行处理,得到所述语义分类样本的分类预测结果;
根据所述分类预测结果和分类标签信息,对所述决策树模型的参数进行优化,直至所述决策树模型收敛,得到语义分类模型。
可选的,语义分析模块202还可以具体用于:
对所述新闻播报文本进行分词,得到带词序的多个分词;
将所述各分词依次输入所述特征识别网络进行特征抽取,输出所述各分词对应的词向量和语义权重;
将所述各词向量输入所述词向量合成网络,并根据所述语义权重对所述各词向量进行加权融合,输出相应的语义向量。
可选的,标签生成模块203还可以具体用于:
将所述语义向量输入所述特征提取网络进行特征提取,输出多个对应的特征;
将所述多个对应的特征输入所述特征识别网络进行特征测试,输出测试结果;
将所述测试结果输入所述分类网络,并根据所述测试结果将所述语义向量进行节点分配,输出所述语义向量的分类树;
基于所述语义向量的分类树,生成所述新闻播报文本中各语句对应的情绪标签。
可选的,音频合成模块204还可以具体用于:
对所述新闻播报文本进行语句划分,得到带语序的多个语句;
将所述各语句和所述各语句对应的情绪标签输入所述文本预处理网络进行音素序列化处理,输出音素序列;
将所述音素序列输入所述音律预测网络进行音律预测,得到音律合成类型信息;
将所述音律合成类型信息输入所述语音合成网络进行波形生成,输出带有多种情绪的新闻播报音频。
上面图1和图2从模块化功能实体的角度对本发明实施例中的新闻智能播报装置进行详细描述,下面从硬件处理的角度对本发明实施例中新闻智能播报设备进行详细描述。
图3是本发明实施例提供的一种新闻智能播报设备的结构示意图,该新闻智能播报设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序333或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对新闻智能播报设备300中的一系列指令操作。更进一步地,处理器310可以设置为与存储介质330通信,在新闻智能播报设备300上执行存储介质330中的一系列指令操作。
新闻智能播报设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统331,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的新闻智能播报设备结构并不构成对新闻智能播报设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种新闻智能播报设备,所述新闻智能播报设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述新闻智能播报方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述新闻智能播报方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种新闻智能播报方法,其特征在于,所述新闻智能播报方法包括:
获取待处理的新闻播报文本;
将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。
2.根据权利要求1所述的新闻智能播报方法,其特征在于,在所述获取待处理的新闻播报文本之前,还包括:
获取语义预测训练样本集合和语义标签集合,并建立样本与标签之间的匹配关系;
对所述预测训练样本集合和语义标签集合进行切分,得到训练样本集合和测试样本集合;
将所述训练样本集合输入预置神经网络模型进行语义预测训练,得到语义预测模型;
将所述测试样本集合输入所述语义预测模型进行模型性能测试,若测试结果为良好,则模型训练结束,否则继续进行模型训练。
3.根据权利要求1或2所述的新闻智能播报方法,其特征在于,所述语义预测模型依次包括特征识别网络、词向量合成网络,所述将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量包括:
对所述新闻播报文本进行分词,得到带词序的多个分词;
将所述各分词依次输入所述特征识别网络进行特征抽取,输出所述各分词对应的词向量和语义权重;
将所述各词向量输入所述词向量合成网络,并根据所述语义权重对所述各词向量进行加权融合,输出相应的语义向量。
4.根据权利要求1所述的新闻智能播报方法,其特征在于,在所述获取待处理的新闻播报文本之前,还包括:
获取语义分类样本,并对所述语义分类样本添加分类标签信息;
对预置决策树模型进行初始化,并将所述语义分类样本与对应的分类标签信息输入所述决策树模型中;
通过所述决策树模型,对所述语义分类样本进行处理,得到所述语义分类样本的分类预测结果;
根据所述分类预测结果和分类标签信息,对所述决策树模型的参数进行优化,直至所述决策树模型收敛,得到语义分类模型。
5.根据权利要求1或4所述的新闻智能播报方法,其特征在于,所述语义分类模型依次包括特征提取网络、特征识别网络、分类网络,所述将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签包括:
将所述语义向量输入所述特征提取网络进行特征提取,输出多个对应的特征;
将所述多个对应的特征输入所述特征识别网络进行特征测试,输出测试结果;
将所述测试结果输入所述分类网络,并根据所述测试结果将所述语义向量进行节点分配,输出所述语义向量的分类树;
基于所述语义向量的分类树,生成所述新闻播报文本中各语句对应的情绪标签。
6.根据权利要求1所述的新闻智能播报方法,其特征在于,所述文本转语音模型依次包括文本预处理网络、音律预测网络、语音合成网络,所述将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频包括:
对所述新闻播报文本进行语句划分,得到带语序的多个语句;
将所述各语句和所述各语句对应的情绪标签输入所述文本预处理网络进行音素序列化处理,输出音素序列;
将所述音素序列输入所述音律预测网络进行音律预测,得到音律合成类型信息;
将所述音律合成类型信息输入所述语音合成网络进行波形生成,输出带有多种情绪的新闻播报音频。
7.根据权利要求1所述的新闻智能播报方法,其特征在于,在所述将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频之后,还包括:
根据预置时间戳,对所述新闻播报音频进行可视化剪辑,得到多种不同情绪下的情感语音;
将所述各情感语音及所述各情感语音对应的情绪标签提交人工审核。
8.一种新闻智能播报装置,其特征在于,所述新闻智能播报装置包括:
新闻文本获取模块,用于获取待处理的新闻播报文本;
语义分析模块,用于将所述新闻播报文本输入预置语义预测模型进行语义预测,得到相应的语义向量;
标签生成模块,用于将所述语义向量输入预置语义分类模型进行分类,生成所述新闻播报文本中各语句对应的情绪标签;
音频合成模块,用于将所述新闻播报文本和所述各情绪标签输入预置文本转语音模型进行音频合成,输出带有多种情绪的新闻播报音频。
9.一种新闻智能播报设备,其特征在于,所述新闻智能播报设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻智能播报设备执行如权利要求1-7中任一项所述的新闻智能播报方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的新闻智能播报方法。
CN202011432581.8A 2020-12-10 2020-12-10 新闻智能播报方法、装置、设备及存储介质 Pending CN112541078A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011432581.8A CN112541078A (zh) 2020-12-10 2020-12-10 新闻智能播报方法、装置、设备及存储介质
PCT/CN2021/084290 WO2022121181A1 (zh) 2020-12-10 2021-03-31 新闻智能播报方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011432581.8A CN112541078A (zh) 2020-12-10 2020-12-10 新闻智能播报方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112541078A true CN112541078A (zh) 2021-03-23

Family

ID=75019847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011432581.8A Pending CN112541078A (zh) 2020-12-10 2020-12-10 新闻智能播报方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112541078A (zh)
WO (1) WO2022121181A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761940A (zh) * 2021-09-09 2021-12-07 杭州隆埠科技有限公司 新闻主体判断方法、设备及计算机可读介质
CN113850083A (zh) * 2021-08-17 2021-12-28 北京百度网讯科技有限公司 确定播报风格的方法、装置、设备和计算机存储介质
WO2022121181A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质
CN115083428A (zh) * 2022-05-30 2022-09-20 湖南中周至尚信息技术有限公司 一种新闻播报辅助用语音模型识别装置及其控制方法
US20230059882A1 (en) * 2021-08-17 2023-02-23 Beijing Baidu Netcom Science Technology Co., Ltd. Speech synthesis method and apparatus, device and computer storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130613B (zh) * 2022-07-26 2024-03-15 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115033701B (zh) * 2022-08-12 2022-10-28 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置
CN115662435B (zh) * 2022-10-24 2023-04-28 福建网龙计算机网络信息技术有限公司 一种虚拟教师拟真化语音的生成方法及终端
CN115827854B (zh) * 2022-12-28 2023-08-11 数据堂(北京)科技股份有限公司 语音摘要生成模型训练方法、语音摘要生成方法及装置
CN116166827B (zh) * 2023-04-24 2023-12-15 北京百度网讯科技有限公司 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN117558259A (zh) * 2023-11-22 2024-02-13 北京风平智能科技有限公司 一种数字人播报风格控制方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169430B (zh) * 2017-05-02 2020-12-01 哈尔滨工业大学深圳研究生院 基于图像处理语义分析的阅读环境音效增强系统及方法
CN110276076A (zh) * 2019-06-25 2019-09-24 北京奇艺世纪科技有限公司 一种文本情绪分析方法、装置及设备
CN110941954B (zh) * 2019-12-04 2021-03-23 深圳追一科技有限公司 文本播报方法、装置、电子设备及存储介质
CN111128118B (zh) * 2019-12-30 2024-02-13 科大讯飞股份有限公司 语音合成方法、相关设备及可读存储介质
CN112541078A (zh) * 2020-12-10 2021-03-23 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022121181A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质
CN113850083A (zh) * 2021-08-17 2021-12-28 北京百度网讯科技有限公司 确定播报风格的方法、装置、设备和计算机存储介质
US20230059882A1 (en) * 2021-08-17 2023-02-23 Beijing Baidu Netcom Science Technology Co., Ltd. Speech synthesis method and apparatus, device and computer storage medium
US11996084B2 (en) * 2021-08-17 2024-05-28 Beijing Baidu Netcom Science Technology Co., Ltd. Speech synthesis method and apparatus, device and computer storage medium
CN113761940A (zh) * 2021-09-09 2021-12-07 杭州隆埠科技有限公司 新闻主体判断方法、设备及计算机可读介质
CN113761940B (zh) * 2021-09-09 2023-08-11 杭州隆埠科技有限公司 新闻主体判断方法、设备及计算机可读介质
CN115083428A (zh) * 2022-05-30 2022-09-20 湖南中周至尚信息技术有限公司 一种新闻播报辅助用语音模型识别装置及其控制方法
CN115083428B (zh) * 2022-05-30 2023-05-30 湖南中周至尚信息技术有限公司 一种新闻播报辅助用语音模型识别装置及其控制方法

Also Published As

Publication number Publication date
WO2022121181A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
CN112541078A (zh) 新闻智能播报方法、装置、设备及存储介质
Lee et al. Adversarially trained end-to-end korean singing voice synthesis system
Lorenzo-Trueba et al. Investigating different representations for modeling and controlling multiple emotions in DNN-based speech synthesis
Shahin et al. Novel cascaded Gaussian mixture model-deep neural network classifier for speaker identification in emotional talking environments
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN112863483A (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
KR20230034423A (ko) 2-레벨 스피치 운율 전송
Mu et al. Review of end-to-end speech synthesis technology based on deep learning
US9852743B2 (en) Automatic emphasis of spoken words
Khanam et al. Text to speech synthesis: A systematic review, deep learning based architecture and future research direction
Du et al. Rich prosody diversity modelling with phone-level mixture density network
Joo et al. Effective emotion transplantation in an end-to-end text-to-speech system
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
Fu et al. Focusing on attention: prosody transfer and adaptative optimization strategy for multi-speaker end-to-end speech synthesis
Kang et al. Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion
Wen et al. Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning
Jin Speech synthesis for text-based editing of audio narration
Tran et al. Naturalness improvement of vietnamese text-to-speech system using diffusion probabilistic modelling and unsupervised data enrichment
Chen et al. A new learning scheme of emotion recognition from speech by using mean fourier parameters
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Fong et al. Improving polyglot speech synthesis through multi-task and adversarial learning
Al-Radhi et al. Nonparallel Expressive TTS for Unseen Target Speaker using Style-Controlled Adaptive Layer and Optimized Pitch Embedding
Sawada et al. The blizzard machine learning challenge 2017
Pathak et al. Emotion-Aware Text to Speech: Bridging Sentiment Analysis and Voice Synthesis
Ferreira et al. Deepfake audio as a data augmentation technique for training automatic speech to text transcription models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination