CN115188365B - 一种停顿预测方法、装置、电子设备及存储介质 - Google Patents

一种停顿预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115188365B
CN115188365B CN202211098525.4A CN202211098525A CN115188365B CN 115188365 B CN115188365 B CN 115188365B CN 202211098525 A CN202211098525 A CN 202211098525A CN 115188365 B CN115188365 B CN 115188365B
Authority
CN
China
Prior art keywords
pause
word segmentation
text data
audio data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211098525.4A
Other languages
English (en)
Other versions
CN115188365A (zh
Inventor
韩柳
唐镇坤
陈俊荣
黄文辉
崔权兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Post Consumer Finance Co ltd
Original Assignee
China Post Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Post Consumer Finance Co ltd filed Critical China Post Consumer Finance Co ltd
Priority to CN202211098525.4A priority Critical patent/CN115188365B/zh
Publication of CN115188365A publication Critical patent/CN115188365A/zh
Application granted granted Critical
Publication of CN115188365B publication Critical patent/CN115188365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种停顿预测方法、装置、电子设备及存储介质,包括如下步骤:S1:进行中文分词的文本数据的采集,根据采集的分词文本数据进行分词模型训练,采用语音合成模型进行与分词文本数据对应的音频数据的合成,并保存至语音合成数据库中;S2:获取音频数据中的停顿位置,并通过强制对齐工具获取分词文本数据中的停顿位置,得到预测停顿文本数据;S3:根据预测停顿文本数据进行分词模型的训练,得到目标停顿预测模型。本发明提供的停顿预测方法、装置、电子设备及存储介质,即使在缺少人工停顿标注数据的情况下,也可以训练出高准确率的前端停顿预测系统。

Description

一种停顿预测方法、装置、电子设备及存储介质
技术领域
本发明涉及中文语音合成技术领域,具体涉及一种停顿预测方法、装置、电子设备及存储介质。
背景技术
近年来,智能语音交互已然成为国内外学术界、工业界关注的研究热点话题,相关的智能语音产品如智能客服、智能聊天机器人等也走入了千家万户,深刻地改变着人们与计算机之间的交互模式。
作为智能语音领域核心技术之一的语音合成技术,其主要的功能是模仿人类的说话方式,通过文字产生相应的声音,从而实现机器“发声”。而评价一个语音合成系统是否足够优秀,就要考量它发出的声音是否接近于人类的真实说话风格,如声音是否清晰、词句的停顿是否自然等。因此,语音合成系统中的一个关键问题就是如何预测文字中的停顿,从而使得生成的声音有和人类相似的停顿习惯,提高声音的逼真程度。通常语音合成系统中,关于文字中停顿预测,是由语音合成系统的文本处理模块完成的,也常被成为前端模块。
前端模块的停顿预测类似于自然语言处理领域的分词预测任务,但又有所区别。相同点在于,停顿预测与分词预测的目标都是对句子中的词语进行切分,并做出标记;而不同点在于,自然语言处理领域的分词任务是基于词语划分的,但语音合成领域的停顿预测则是根据人们的说话习惯,对语句中应该停顿的地方进行标记,虽然通常标注的位置也位于词语的边界,但在人类的日常说话中,部分词语间是不存在停顿的。例如,对于“此次疫苗类型有生物科兴和智飞”这句话而言,分词任务的结果可能为“此次/疫苗/类型/有/生物/科兴/和/智飞”,而停顿预测的结果则可能是“此次疫苗类型有/生物/科兴/和智飞”。可见,停顿预测中的划分是需要根据人类说话习惯划分的,这就需要有相应的停顿标注数据集。
然而,此类标注数据集通常需要进行人工划分,因此目前可用的数据相对较少,不足以支撑一个足够鲁棒的文本停顿标注模型,而收集或购买数据的代价又相对昂贵。
发明内容
针对现有技术的不足,本发明提供了一种停顿预测方法、装置、电子设备及存储介质,利用分词预测和停顿预测任务的相似性,以及使用语音强制对齐工具产生少量标注数据,在进行分词模型和停顿预测模型之间的迁移,从而构成停顿预测模型。
为了实现本发明的目的,本发明提供一种停顿预测方法,包括:
S1:进行中文分词的文本数据的采集,根据采集的分词文本数据进行分词模型训练,采用语音合成模型进行与分词文本数据对应的音频数据的合成,并保存至语音合成数据库中;
S2:获取音频数据中的停顿位置,并通过强制对齐工具获取分词文本数据中的停顿位置,得到预测停顿文本数据;
S3:根据预测停顿文本数据进行分词模型的训练,得到目标停顿预测模型。
优选的,所述步骤S2之前还包括步骤S02,所述步骤S02包括:
对合成的音频数据进行单元的拆分,并在相邻两个单元之间插入音素。
优选的,所述步骤S2的具体步骤为:
计算音频数据中相邻两个单元之间的音素时长,将时长为预设值的音素作为音频数据的停顿位置,采用强制对齐工具进行音频数据和分词文本数据的强制对齐,得到预测停顿文本数据。
优选的,所述步骤S1中的分词模型为BERT或LSTM模型,所述音频数据的单元为字或拼音。
优选的,本发明还提供了一种停顿预测装置,包括:
采集模块:用于进行中文分词的文本数据的采集;
合成模块:用于进行与分词文本数据对应的音频数据的合成;
强制对齐模块:根据获取的音频数据中的停顿位置来获取分词文本数据中的停顿位置;
训练模块:用于对采集的分词文本数据和预测停顿文本数据进行分词训练。
优选的,所述强制对齐模块具体包括:
编辑模块:用于进行音频数据中单元的拆分,以及在相邻单元之间音素的添加。
优选的,在所述强制对齐模块中:
先计算音频数据中相邻两个单元之间的音素时长,将时长为预设值的音素作为音频数据的停顿位置,采用强制对齐工具进行音频数据和分词文本数据的强制对齐,得到预测停顿文本数据。
优选的,所述训练模块采用BERT或LSTM进行分词训练,所述编辑模块中的单元为字或拼音。
优选的,本发明还提供了一种电子设备,包括:
存储器和位于存储器上的至少一个计算机程序;
还包括至少一个处理器,用于处理所述存储器中的至少一个计算机程序,所述处理器执行所述计算机程序时,实现中文语音合成的停顿预测方法的步骤。
优选的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现中文语音合成的停顿预测方法的步骤。
本发明的有益效果为:本发明提供的停顿预测方法、装置、电子设备及计算机可读存储介质,通过文本和音频数据之间的强制对齐,以及利用分词模型和停顿预测模型之间的相似性,即使在缺少人工停顿标注数据的情况下,也可以训练出高准确率的前端停顿预测系统。
附图说明
通过附图中所示的本发明优选实施例更具体说明,本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本的主旨。
图1为本发明实施例提供的停顿预测方法的流程示意图;
图2为本发明实施例提供的停顿预测方法提供的实施例的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步的详细描述,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参考图1-2,本发明实施例提供一种停顿预测方法,包括:
S1:进行中文分词的文本数据的采集,根据采集的分词文本数据进行分词模型训练,采用语音合成模型进行与分词文本数据对应的音频数据的合成,并保存至语音合成数据库中;
S2:获取音频数据中的停顿位置,并通过强制对齐工具获取分词文本数据中的停顿位置,得到预测停顿文本数据;
S3:根据预测停顿文本数据进行分词模型的训练,得到目标停顿预测模型。
请参考图1-2,本发明提供的停顿预测方法,首先,进行中文分词的文本数据采集(文本数据集可为人民分词预料等数据集),具体为自然语言处理领域的分词数据采集(自然语言处理领域的分词任务已经存在成熟的解决方案,且有着丰富的相关标注文本数据集),然后通过分词模型对采集的文本数据进行分词训练,例如“达到了九百七十五万人”这句话,将这句话训练为“达到/了/九百/七十五/万/人”,也有可能为“达到了/九百/七十/五/万/人”等多种情况,通过语音合成模型进行这句话对应的音频数据的合成,此时得到音频和相应的文本并存储在语音合成数据库中留作备用;
根据说话习惯将音频数据中的内容进行停顿设置,还是采用这句话(达到了九百七十五万人),此时音频数据的停顿位置为:“达到了/九百/七十五/万人”或“达到了/九百七十五/万人”或“达到了/九百七十五/万/人”等多种情况,主要根据说话人的习惯来进行停顿预测,如存在一句话多种不同的停顿位置,可一并存储在模型中供其训练及使用,此时在采用强制对齐工具对文本数据和音频数据进行强制对齐,在根据音频数据的停顿位置来得到预测的停顿文本数据,在将文本数据进行分词模型的训练即可得到目标停顿预测模型。
本发明的有益效果为:利用分词预测和停顿预测任务的相似性(分词模型和停顿预测模型都是序列标签预测问题,且两者任务可以使用同样的标签符号),将分词模型迁移为停顿预测模型,同时本发明提供的停顿预测方法,即使在缺少人工停顿标注数据的情况下,也可以训练出高准确率的前端停顿预测系统。
请参考图1-2,在优选实施例中,所述步骤S2之前还包括步骤S02,所述步骤S02包括:
对合成的音频数据进行单元的拆分,并在相邻两个单元之间插入音素。
在音频数据合成之后,先对音频数据进行单个单元的拆分,并增加音素,具体为:(达到了九百七十五万人)拆分为:达-到-了-九-百-七-十-五-万-人或达到-了-九-百-七-十-五-万-人等多种类型;
例如:“达”字对应的是A1部分的音频,“到”字对应的是A2部分的音频,以此类推;
我们需要在每个单元之间插如(音素)静音符号,即“SIL”符,该符号在声学模型中通常表示静音片段。如此一来,待对齐的文本将变为“达SIL到SIL了SIL九SIL百SIL七SIL十SIL五SIL万SIL人”。
请参考图1-2,在优选实施例中,所述步骤S2的具体步骤为:
计算音频数据中相邻两个单元之间的音素时长,将时长为预设值的音素作为音频数据的停顿位置,采用强制对齐工具进行音频数据和分词文本数据的强制对齐,得到预测停顿文本数据。
先将每个单元之间的“SIL”符进行时间长度的计算,然后将音素时长大于预设值的“SIL”符作为音频的停顿位置,然后将文本数据和音频数据进行强制对齐,强制对齐后,即可得到预测停顿文本数据,然后保存在数据库中备用,工后续进行分词模型的训练;
预设值主要根据说话人习惯来进行设定,通常情况下预设值为0.1、0.2、0.3s或0.1-0.3s。
强制对齐工具是语音识别系统在训练中的一个流程,只需要有预训练好的声学模型即可进行语音对齐,其功能是求取音频序列和对应文本序列的对应关系,也即是确定文本序列中每一个单元对应音频中的哪一段。
请参考图1-2,在优选实施例中,所述步骤S1中的分词模型包括但不限于BERT或LSTM模型,所述音频数据的单元为字或拼音,单元还可为词语、字符长度等。此处的单元指的是语音合成系统中文本的最小表示单位,包括但不限于字或拼音等。
请参考图1-2,在进一步的优选实施例中,本发明还提供了一种停顿预测装置,包括:
采集模块:用于进行中文分词的文本数据的采集;
合成模块:用于进行与分词文本数据对应的音频数据的合成;
强制对齐模块:根据获取的音频数据中的停顿位置来获取分词文本数据中的停顿位置;
训练模块:用于对采集的分词文本数据和预测停顿文本数据进行分词训练。
请参考图1-2,在优选实施例中,所述强制对齐模块具体包括:
编辑模块:用于进行音频数据中单元的拆分,以及在相邻单元之间音素的添加。
请参考图1-2,在优选实施例中,在所述强制对齐模块中:
先计算音频数据中相邻两个单元之间的音素时长,将时长为预设值的音素作为音频数据的停顿位置,采用强制对齐工具进行音频数据和分词文本数据的强制对齐,得到预测停顿文本数据。
请参考图1-2,在优选实施例中,所述训练模块采用BERT或LSTM进行分词训练,所述编辑模块中的单元为字或拼音。
请参考图1-2,在进一步的优选实施例中,本发明还提供了一种电子设备,包括:
存储器和位于存储器上的至少一个计算机程序;
还包括至少一个处理器,用于处理所述存储器中的至少一个计算机程序,所述处理器执行所述计算机程序时,实现中文语音合成的停顿预测方法的步骤。
处理器可以是集成电路芯片,也可以是通用处理器、数字信号处理器专用集成电路或微处理器等任何常规的处理器等。
请参考图1,在进一步的优选实施例中,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现中文语音合成的停顿预测方法的步骤。
该计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSSMemory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明的有益效果为:本发明提供了一种停顿预测方法、装置、电子设备及存储介质,通过在单元之间增加音素(静音片段),并计算音素的具体长度,来对分词文本数据和音频数据进行强制对齐,同时利用分词模型和停顿预测模型之间的相似度来构成目标停顿预测模型。
本发明提供的停顿预测方法、装置、电子设备及计算机可读存储介质,即使在缺少人工停顿标注数据的情况下,也可以训练出高准确率的前端停顿预测系统。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种停顿预测方法,其特征在于,包括如下步骤:
S1:进行中文分词的文本数据的采集,根据采集的分词文本数据进行分词模型训练,采用语音合成模型进行与分词文本数据对应的音频数据的合成,并保存至语音合成数据库中;
其中,所述分词模型为BERT或LSTM模型;
S02:对合成的音频数据进行单元的拆分,并在相邻两个单元之间插入音素;
其中,所述音频数据的单元为字或拼音;
S2:计算音频数据中相邻两个单元之间的音素时长,将时长为预设值的音素作为音频数据的停顿位置,采用强制对齐工具进行音频数据和分词文本数据的强制对齐,得到预测停顿文本数据;
S3:根据预测停顿文本数据进行分词模型的训练,得到目标停顿预测模型。
2.一种停顿预测装置,其特征在于,包括:
采集模块:用于进行中文分词的文本数据的采集;
合成模块:用于进行与分词文本数据对应的音频数据的合成;
编辑模块:位于强制对齐模块中,用于进行音频数据中单元的拆分,以及在相邻单元之间音素的添加,其中:单元为字或拼音;
强制对齐模块:先计算音频数据中相邻两个单元之间的音素时长,将时长为预设值的音素作为音频数据的停顿位置,采用强制对齐工具进行音频数据和分词文本数据的强制对齐,得到预测停顿文本数据;
训练模块:采用BERT或LSTM对采集的分词文本数据和预测停顿文本数据进行分词训练。
3.一种电子设备,其特征在于,包括:
存储器和位于存储器上的至少一个计算机程序;
还包括至少一个处理器,用于处理所述存储器中的至少一个计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1所述的停顿预测方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1所述的停顿预测方法的步骤。
CN202211098525.4A 2022-09-09 2022-09-09 一种停顿预测方法、装置、电子设备及存储介质 Active CN115188365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211098525.4A CN115188365B (zh) 2022-09-09 2022-09-09 一种停顿预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211098525.4A CN115188365B (zh) 2022-09-09 2022-09-09 一种停顿预测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115188365A CN115188365A (zh) 2022-10-14
CN115188365B true CN115188365B (zh) 2022-12-27

Family

ID=83523185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211098525.4A Active CN115188365B (zh) 2022-09-09 2022-09-09 一种停顿预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115188365B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3141912B2 (ja) * 1994-05-11 2001-03-07 日本電信電話株式会社 音声合成用韻律情報決定方法
CN105185373B (zh) * 2015-08-06 2017-04-05 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN105632484B (zh) * 2016-02-19 2019-04-09 云知声(上海)智能科技有限公司 语音合成数据库停顿信息自动标注方法及系统
CN110444191B (zh) * 2019-01-22 2021-11-26 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
CN111402857B (zh) * 2020-05-09 2023-11-21 广州虎牙科技有限公司 语音合成模型训练方法和装置、电子设备及存储介质
CN112992117B (zh) * 2021-02-26 2023-05-26 平安科技(深圳)有限公司 多语言语音模型生成方法、装置、计算机设备及存储介质
CN113362836B (zh) * 2021-06-02 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 训练声码器方法、终端及存储介质

Also Published As

Publication number Publication date
CN115188365A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN110675854B (zh) 一种中英文混合语音识别方法及装置
CN107039034B (zh) 一种韵律预测方法及系统
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US8069042B2 (en) Using child directed speech to bootstrap a model based speech segmentation and recognition system
WO2017127296A1 (en) Analyzing textual data
US20200184958A1 (en) System and method for detection and correction of incorrectly pronounced words
CN110675855A (zh) 一种语音识别方法、电子设备及计算机可读存储介质
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN105654940B (zh) 一种语音合成方法和装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
CN101515456A (zh) 语音识别接口装置及其语音识别方法
CN113593522B (zh) 一种语音数据标注方法和装置
CN112216284B (zh) 训练数据更新方法及系统、语音识别方法及系统、设备
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
CN115188365B (zh) 一种停顿预测方法、装置、电子设备及存储介质
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant