CN115101042A - 一种文本处理方法、装置及设备 - Google Patents
一种文本处理方法、装置及设备 Download PDFInfo
- Publication number
- CN115101042A CN115101042A CN202210505480.1A CN202210505480A CN115101042A CN 115101042 A CN115101042 A CN 115101042A CN 202210505480 A CN202210505480 A CN 202210505480A CN 115101042 A CN115101042 A CN 115101042A
- Authority
- CN
- China
- Prior art keywords
- text
- alternative
- text information
- standard
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
本申请公开了一种文本处理方法、装置及设备。所述文本处理方法,包括:获取待处理的第一文本信息;基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。采用所述方法,解决了将输入文本转换为用于生成音素序列的可读正则化文本的准确度较低的问题。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本处理方法、装置及设备。
背景技术
随着计算机技术的发展,语音合成(Text To Speech,TTS)技术的应用越来越广泛。所谓TTS,是将输入文本合成为能够播放的人类语音的一种技术,其能够赋予机器说话的能力,在有声书阅读、客服、家居娱乐和人机交互等方面得以广泛应用。输入文本信息中往往包含存在歧义、难以直接正确发音的非标准字符,因此在合成语音之前需要将输入文本信息处理为正则化文本信息,正则化文本信息为可读的规范化文本信息,基于该文本信息生成音素序列,以用于合成语音。准确的音素序列能合成自然而准确的语音,因此,将输入文本处理为用于生成音素序列的正则化文本信息,尤其重要。
现有技术中,一般采用基于规则或基于神经网络模型或将二者结合的方式对输入文本进行规范化处理。基于规则的处理方式中,需要预先总结规则,存在通用性差的缺陷,在复杂语境中准确率存在瓶颈。并且规则准备工作复杂耗时,规则维护困难。基于神经网络模型的处理方式中,需要建模为序列到序列的转换任务,预测得到的转换结果存在一定的不可控性,难以在短时间内快速学习修复。现有的二者结合的处理方式,其思路是利用神经网络模型确定输入文本中非标准字符的类别,再根据类别基于规则进行规范化处理。但是,类别设计比较困难,类别太多会出现数据不足不平衡的问题,类别太少使得覆盖不够全面,难以保证准确率。并且,当需要增添类别和训练数据时,可能需要重新设计类别和标注数据,维护困难。
因此,如何提高将输入文本转换为用于生成音素序列的正则化文本的准确度,以便自然而准确的合成语音,是需要解决的问题。
发明内容
本申请实施例提供的文本处理方法,解决了将输入文本转换为用于生成音素序列的可读正则化文本的准确度较低的问题。
本申请实施例提供一种文本处理方法,包括:获取待处理的第一文本信息;基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
可选的,所述方法还包括:基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,其中,所述第二语义字符序列中不包含非标准词;根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本;获取针对所述目标文本的评分;当针对所述目标文本的评分大于或等于预设阈值时,将所述目标文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
可选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前,还包括:确定针对所述目标文本的评分小于所述预设阈值。
可选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:将所述非标准词拆分为一个或多个子序列,其中,所述子序列中至少存在一个包含非标准词的目标子序列;将所述目标子序列转化为至少一个语义字符子序列,其中,所述语义字符子序列中不包含非标准词;,将所述语义字符子序列进行组合,根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。
可选的,所述将所述非标准词拆分为一个或多个子序列之前,还包括:确定拆分方式;所述将所述非标准词拆分为一个或多个子序列,包括:根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。
可选的于,所述根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列。
可选的,所述根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:对每种拆分方式对应的组合结果的集合进行筛选后,获得所述非标准词对应的至少一个备选的第一语义字符序列。
可选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:确定所述非标准词所属的类别,通过所述类别对应的转化函数将所述非标准词转化为至少一个备选的第一语义字符序列。
可选的,所述根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本,包括:通过语言模型对各个备选文本分别进行评分,得到包含所述各个备选文本的评分的评分结果,所述评分用于表征对应的备选文本的语义的通顺程度;将所述评分结果中的最高的评分对应的备选文本确定为目标备选文本。
可选的,所述方法还包括:获取训练样本,所述训练样本为文本样本;基于所述训练样本对基础模型进行训练,获得所述语言模型。
可选的,所述训练样本包含携带第一标识的正样本、携带第二标识的负样本。
本申请实施例还提供一种文本处理装置,包括:待处理文本获取单元,用于获取待处理的第一文本信息;非标准词转换单元,用于基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;备选文本生成单元,用于根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;评分单元,用于根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
本申请实施例还提供一种电子设备,包括:存储器,以及处理器;所述存储器用于存储计算机程序,所述计算机程序被所述处理器运行后,执行本申请实施例提供的所述方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的一种文本处理方法、装置及电子设备,通过基于预设的备选规则将第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。基于预设的备选规则生成备选结果集,避免了不可控错误的问题。通过根据各备选文本的语义对各备选文本进行评分来选择最终结果,能够根据语义信息来处理复杂语句,提高文本处理准确率。进一步,通过语言模型进行语义评分,能够有效利用语言模型的语义编码能力,根据全局语义信息处理复杂语句。且该语言模型对训练数据要求较低,减少准备训练数据及模型训练所需要的人力耗费,同时该模型复杂度较低,能减少系统计算的耗时和内存占用。
附图说明
图1是本申请实施例提供的系统环境示意图;
图2是本申请其一实施例提供的文本处理方法的处理流程图;
图3是本申请其一实施例提供的一种文本处理流程图;
图4是本申请其一实施例提供的一种文本处理系统示意图;
图5是本申请其一实施例提供的一种文本处理装置示意图;
图6是本申请提供的电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请实施例提供一种文本处理方法、装置、电子设备及存储介质。在下面的实施例中逐一进行说明。
为便于理解,首先对本申请给出的系统环境进行说明。
TTS可以应用于有声书阅读、客服、家居娱乐和人机交互等场景,可以分为前端和后端两部分。
请参考图1,图中包括:语音合成的前端处理系统101以及语音合成的后端处理系统102。其中,语音合成的前端处理系统,用于对输入的文本信息进行分析,将文本信息转换为音素序列,从而能够确定文本信息包含的字符的准确读音。如图中所示,语音合成的前端处理系统包括:正则化处理装置101-1、音素序列生成装置101-2;正则化处理装置,用于对输入的文本信息进行分析处理,将其转换为正则化文本信息;音素序列生成装置,用于根据正则化文本信息生成消除歧义的音素序列。语音合成的后端处理系统,用于获取语音合成的前端处理系统生成的音素序列,根据所述音素序列生成对应的音频数据。进一步,语音合成的后端处理系统包括:声学模型102-1、声码器102-2。所述声学模型,用于将所述音素序列转换为频谱特征。所述声码器,用于将所述频谱特征转换为对应的音频数据。
可以理解的是,以上给出的系统环境为TTS系统实施例,并不构成对本申请实施例提供的方法的限定。
以下结合图2和图3对本申请其一实施例提供的文本处理方法进行详细说明。图2所示的文本处理方法,包括:步骤S201至步骤S204。
步骤S201,获取待处理的第一文本信息。
所述待处理的第一文本信息,为需要进行语音合成的文本的信息。从文本到语音的转换过程中,需要将第一文本信息转换为音素序列,再根据音素序列合成声音。音素序列的准确性直接影响了合成声音的准确性。因此,为保证音素序列的准确性,需要将第一文本信息处理为用于生成所述音素序列的正则化文本信息,尤其是将第一文本信息包含的非标准词准确地转换为具有相应语义及合理读音的字符序列,从而生成与第一文本信息对应的、可直接用于生成所述音素序列的正则化文本信息,即第二文本信息。这一处理过程为文本正则化(Text Normalization,TN),第二文本信息可以理解为正则化文本。
本实施例提供的文本处理方法,融合了基于规则的文本处理方式,具体为基于预设的备选规则生成与所述第一文本信息对应的备选文本集,根据所述备选文本集中的各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息,第二文本信息为可读正则化文本信息。基于规则生成备选结果集,避免了不可控错误的问题。通过根据各备选文本的语义评分来选择最终结果,能够根据语义信息处理语句,提高文本转化的准确率。所谓规则,是指使用正则表达式或者WFST(Weighted Finite State Transducer,加权有限状态转换器)表示规则,通过分析语料,基于上下文关键词和非标准词模式(如数字符号)的特征预先总结出规则以及应用顺序,从而实现非标准词到标准字符序列例如汉字序列的转换。例如,上下文出现“时间”关键词且数字符号组成“XX:XX”模式,将数字符号串转换为时间表达。
本步骤为获取第一文本信息。第一文本信息可以为从界面展示的内容中提取至少部分需要语音合成的文本信息,例如,有声阅读屏幕上显示的内容;也可以是根据指令从文件中获取的需要语音合成的文本信息。第一文本信息可以为复杂句,也可以是对需要语音合成的文本按照标点符号划分的至少部分分句。优选的,第一文本信息为需要合成为中文读音的、包含不能直接可读的字符的中文语境文本,具体为主要语言为汉字的文本。
本实施例中,考虑到基于规则处理文本耗时少,内存占用小,输出结果可控,可以先基于预设的标准规则对需要进行正则化处理的原始文本信息进行转换,若转换结果符合要求则将其作为第二文本信息,否则,将该原始文本信息作为第一文本信息,在后续步骤中转换为第二文本信息。实际实施时具体包括以下处理:基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,其中,所述第二语义字符序列中不包含非标准词;根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本;获取针对所述目标文本的评分;当针对所述目标文本的评分大于或等于预设阈值时,将所述目标文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。优选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前,还包括:确定针对所述目标文本的评分小于所述预设阈值。其中,所述基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,可以具体使用标准规则转换器将所述第一文本信息中的非标准词转化为第二语义字符序列。优先使用标准规则转换器处理后筛选出标准规则转换器无法转换为具有较准确语义的第一文本信息,再对筛选出的第一文本信息通过后续步骤转换为第二文本信息,能够充分利用标准规则转换器内存开销可控及耗时短的优势,提高处理效率,从而更好地满足产品大规模应用的需求。
步骤S202,基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词。
本步骤为将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列。实施时,可以通过备选规则生成器基于其中预设的备选规则拆分出非标准词,对拆分出的非标准词生成多种具有相应语义的转换结果,后续步骤在此基础上生成多个可能的备选文本。例如,备选规则生成器,拆分出某一非标准词如“1/4”,可能转换结果有:“四分之一”,“一比四”,“一月四日”,“一四”,在所有可能转换结果的基础上生成多个备选文本。
所述非标准词,为包含在文本中不能够直接可读以及存在歧义的字符,如数字、符号或特殊字符的词。非标准词中这些不能够直接可读以及存在歧义的字符往往可以有多种可能的读音,其读音与上下文语境关联,在不同上下文语境中往往有不同读音,因此,在生成用于合成语音的音素序列之前需要将非标准词处理为规范化的可读的语义字符序列,以确定准确读音,消除读音歧义。规范化的可读的字符优选为基于汉字发音的字符。例如,2-3、20、@等为非标准词。再如,将2019解读为年份还是数字、将10:30解读为时间还是游戏分数等,均存在多种可能读音,需要依赖各自的上下文语境确定其语义,才能够生成准确的音素序列。基于预设的备选规则生成备选文本集,避免了生成备选文本的不可控错误问题,使得转换结果具有可控性。
本实施例中,还可以将所述非标准词拆分为一个或多个子序列,根据拆分方式记录各子序列的转换结果,根据原有语序对各转换结果任意组合,生成所述非标准词对应的备选的第一语义字符序列。具体的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:将所述非标准词拆分为一个或多个子序列,其中,所述子序列中至少存在一个包含非标准词的目标子序列;将所述目标子序列转化为至少一个语义字符子序列,其中,所述语义字符子序列中不包含非标准词;将所述语义字符子序列进行组合,根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。进一步,所述将所述非标准词拆分为一个或多个子序列之前,还包括:确定拆分方式;所述将所述非标准词拆分为一个或多个子序列,包括:根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。可以理解的是,所述拆分,可以是根据确定的拆分方式,将所述非标准词分割为多个子序列;也可以是不分割所述非标准词,即将所述非标准词整体作为所述目标子序列。具体的,所述拆分方式可以根据所述非标准词自身特征和/或包含所述非标准词的所述第一文本信息包含的分词特征确定。所述第一文本信息包含的分词特征,包括但不限于所述第一文本信息中的各分词的词性特征、命名实体特征等特征。例如,按照一种拆分方式,对于非标准词“1/4-1/9”可以拆分为3个子序列:“1/4”,“-”,“1/9”,这3个子序列均包含非标准词,因此得到3个目标子序列。再如,按照另一种拆分方式,也可以将“1/4-1/9”整体作为一个目标子序列。优选的,将从所述第一文本信息中的非标准词中拆分出的所述目标子序列转化为对应的语义字符子序列,按照所述目标子序列在所述非标准词或所述第一文本信息中的原有语序对所述语义字符子序列进行任意组合,拆分方式不同,得到的组合结果也不相同。优选的,所述根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列。进一步,所述根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:对每种拆分方式对应的组合结果的集合进行筛选后,获得所述非标准词对应的至少一个备选的第一语义字符序列。例如,第一文本为“1/4至1/9举行冬泳比赛”,对其进行分词拆分出“1/4至1/9”为非标准词,对该非标准词拆分出“1/4”以及“1/9”两个目标子序列,将每个目标子序列转换为对应的具有相应语义的语义字符子序列的集合,“1/4”对应“四分之一”、“一或四”、“一比四”、“一月四日”,以及“1/9”对应“九分之一”、“一或九”、“一比九”、“一月九日”等,按照所述目标子序列在非标准词中的语序,对两个语义字符子序列的集合中各语义字符子序列进行组合,得到所述非标准词的备选的第一语义字符序列。
优选的,基于转化函数将非标准词转换为至少一个备选的第一语义字符序列。其中,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:确定所述非标准词所属的类别,通过所述类别对应的转化函数将所述非标准词转化为至少一个备选的第一语义字符序列。
步骤S203,根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集。
本步骤为生成与所述第一文本信息对应的包含一个或多个备选文本的备选文本集。实施时,一个非标准词可以对应一个或多个备选的第一语义字符序列,从而一个第一文本信息对应一个或多个备选文本。
本实施例中,还包括从第一文本信息中拆分出所述非标准词,具体包括:识别所述第一文本信息中的非汉字字符、数字、符号或不可读字符中至少一种字符;按照预设粒度对所述第一文本信息分割,从分割得到的多个分词中确定包含所述非标准词。不可读字符的一个例子为特殊字符,如“-”、“@”等。将拆分出的一个或多个非标准词中至少部分非标准词转换具有相应语义的备选的第一语义字符序列。从第一文本信息中拆分出非标准词的方式不同,得到的备选结果集中备选文本的数量也会不同。拆分出非标准词数量越多,备选文本集中备选文本数量会越多。例如,“每年消耗4.5-6.7吨苹果”,将“4.5-6.7”整体作为一个非标准词,或者,将其分开为“4.5”“-”“6.7”三个非标准词,将得到不同数量的备选文本,将其整体作为一个非标准词,备选文本数量会较少。再例如,“1/4-1/9举行冬泳比赛”,如果按照“1/4”,“-”,“1/9”拆分非标准词,则“1/4”及“1/9”分别有4种转换方式,“-”有5种转换方式,备选文本集会有4*4*5共80个备选结果。若将“1/4-1/9”作为整体考虑,备选结果就会显著减少。实施时,基于第一文本信息的分词处理的特征,以特定方式从第一文本信息中拆分出非标准词,根据从第一文本信息中拆出非标准词的不同拆分方式记录对应的备选转换结果,使得备选文本的数量控制在一定范围内。具体的,所述根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集,包括:针对分割得到的多个分词中的至少部分分词,确定下述至少一种特征信息:分词的词性特征、命名实体特征、非标准词特征;根据所述特征信息至少之一从第一文本信息中拆分出非标准词,生成所述非标准词对应的至少一个备选的第一语义字符序列,将所述备选的第一语义字符序列以及所述第一文本信息中不包括所述非标准词的文本进行组合,根据组合结果得到与所述第一文本信息对应的备选文本集;其中,所述组合,包括:按照所述非标准词在所述第一文本信息中的语序将所述备选的第一语义字符序列与所述不包括所述非标准词的文本进行组合。
步骤S204,根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
本步骤为根据备选文本的语义对各个备选文本进行评分,选择目标备选文本作为正则化处理得到的第二文本信息。可采用基于机器学习的语言模型进行语义评分。其中,所述根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本,包括:通过语言模型对各个备选文本分别进行评分,得到包含所述各个备选文本的评分的评分结果,所述评分用于表征对应的备选文本的语义的通顺程度;将所述评分结果中的最高的评分对应的备选文本确定为目标备选文本。所述语言模型以ALBERT模型为基础增加用于输出分值的线性层而构建。该语言模型为可以自适应训练的模型,其输入可以是第二文本信息,输出为该文本的语义通顺程度分值(即评分结果),所述分值越高代表输入语句越通顺。
本实施例中,还包括:获取训练样本,所述训练样本为文本样本;基于所述训练样本对基础模型进行训练,获得所述语言模型。其中,所述训练样本包含携带第一标识的正样本、携带第二标识的负样本。所述基础模型是指以ALBERT模型为基础增加用于输出分值的线性层而构建得到的、进行训练前的模型。优选的,所述第一标识为表征其对应的文本样本的语义评分大于或等于预设阈值的标识,可以理解为第一标识表示对应的文本样本语义通顺。所述第二标识为表征其对应的文本样本的语义评分小于预设阈值的标识,可以理解为,以第二标识表示对应的文本样本语义不通顺。优选的,所述携带第一标识的正样本,是携带第一标识,且所述第一标识正确反映所述文本样本的真实语义通顺程度的训练样本。所述携带第二标识的负样本,是携带第二标识,且所述评分未正确反映所述文本样本的真实语义通顺程度的训练样本。
进一步,为使得该模型具有一定程度泛化性,本实施例还提供训练样本的准备方式。通过人工标注的正则化文本得到第一训练样本,通过基于人工标注的正则化文本及其对应的原始文本得到第二训练样本,通过网络文本审查第三训练样本以扩充训练样本集。使用丰富的训练样本,训练基础模型,训练后得到的语言模型的输出能够有效反映文本(如一个语句)的语言通顺程度。实施时,可以从第一训练样本、第二训练样本以及第三训练样本中任意抽取训练样本参与模型的预训练。具体的,所述语言模型,使用第一训练样本、第二训练样本及第三训练样本中至少一种训练样本训练得到;其中,所述第一训练样本,基于人工标注得到的正则化文本,以及将所述正则化文本的语义通顺程度分值设置为第一分值而生成;所述第二训练样本,通过下述处理生成:获取人工标注得到的正则化文本信息以及对应的原始文本信息;生成所述原始文本信息对应的备选结果集,从所述原始文本信息对应的备选结果集中剔除与所述正则化文本信息一致的备选文本,将剔除后得到备选文本的语义通顺程度分值设置为第二分值,由设置为第二分值的备选文本及第二分值构成所述第二训练样本;所述第三训练样本,通过下述处理生成:获取网络中的开源文本信息;从所述开源文本信息中筛选出包含具有指定特征的关键词的文本信息,将筛选出的文本信息的语义通顺程度分值设定为第一分值,由设置为第一分值的文本信息及第一分值构成所述第三训练样本。其中,第一分值可以为理解为第一标识,如将第一分值设定为1,表示语义通顺;第二分值可以理解为第二标识,如将第二分值设定为0,表示语义不通顺。当然,第一分值及第二分值也可以设置为其他分值。其中,第一训练样本及第三训练样本,可以理解为携带第一标识的正样本。第二训练样本虽然为携带第二分值,但是能正确表征其对应文本的真实语义通顺程度,因此为正样本。所述开源文本信息优选为NLP数据集,NLP数据集一般为从网页中获取并经过数据清洗筛选得到的文本,由于这些文本在网页中出现是经过人工整理筛选的,可以认为是语义通顺的句子。其中,所述具有指定特征的关键词,是指可以转换为非标准字符且转换后保持语义通顺的词。例如:关键词为包含零、一、二、三、四、五、六、七、八、九、十、百、千、万、亿、兆等特征的词。再如,关键词为“百分之”、“零点”、“零点零”、表征比例的词、日期等。从开源文本信息中筛选出的包含这些关键词的文本给定分值1。具体的,可以根据预设表达式从开源文本信息中筛选出所述关键词。
通过所述语言模型评分来选择最终用于生成音素序列的第二文本信息,能够有效利用所述语言模型的语义编码能力,从而能够根据输入文本全局的语义信息处理复杂语句,提高转换准确率。并且该模型复杂度及对训练样本要求较低,能减少计算耗时和内存占用,减少数据准备及模型训练所需要的人力耗费。
请参考图3,图中示出的文本处理流程图包括:S301,输入文本。即获取待处理的文本信息,将其先输入标准规则转换器处理。S302,标准规则转换器将输入文本转换为规则转换文本。S303,评分模型计算规则转换文本的语义通顺程度分值。S304,判断该规则转换文本的语义通顺程度分值是否大于预设分值阈值。若是,则执行S305;若否,则执行S306。S305,输出规则转换文本。即确定该规则转换文本为准确度符合需求,将其用于生成因素序列,以进行语音合成。S306,如果该规则转换文本的语义通顺程度不符合需求,则进一步将输入文本输入到备选规则生成器。备选规则生成器获取该输入文本,生成与该输入文本对应的备选文本集。S307,评分模型计算备选文本集中各备选文本的语义通顺程度分值。S308,选择分值最高的备选文本。S309,输出该备选文本。即确定备选规则生成器生成的一个备选文本的准确度符合需求,将其用于生成因素序列,以进行语音合成。该流程中,所述评分模型可以理解为所述语言模型,先将待处理的文本输入到标准规则转换器进行转换,得到规则转换文本,对规则转换文本进行评分,如果其语义通顺程度分值高于阈值,则认为该规则转换文本为可靠转换结果,将其输出用于生成音素序列,该音素序列用于TTS能够得到准确的读音。如果其语义通顺程度分值高于阈值低于阈值,则对输入文本生成备选文本集并进行评分选择分值最高的备选文本。从而,在提高复杂文本消除歧义的准确性的同时,能够降低文本正则化处理的耗时及将用于处理文本的计算资源的内存开销控制在一定范围内,满足产品大规模应用的需求。实际应用中,备选规则生成器、标准规则转换器基于各自预设的规则拆分非标准词对其进行转换的处理可以相同也可以不同,不做限定。
举例如下,输入的第一文本信息为“我们计划1/4去上海玩”。标准规则转换器将其转换为“我们计划一比四去上海玩”,语言模型对其评分为0.1045,低于预设分值阈值。因此,将第一文本信息输入备选规则生成器,得到备选文本集包括:我们计划一月四日去上海玩、我们计划一比四去上海玩、我们计划四分之一去上海玩、我们计划一四去上海玩;语言模型对以上四个备选文本评分,分值分别为:0.9546、0.1045、0.2154、0.0198,因此从上述备选文本集中选择的第二文本信息为:我们计划一月四日去上海玩。
需要说明的是,在不冲突的情况下,在本实施例和本申请的其他实施例中给出的特征可以相互组合,并且步骤S201和S202或类似用语不限定步骤必须先后执行。
至此,对本实施例提供的方法进行了说明,所述方法中基于预设的备选规则生成备选结果集,避免了不可控错误的问题。通过根据各备选文本的语义对各个备选文本进行评分来选择最终结果,能够根据语义信息来处理复杂语句,提高文本处理准确率。进一步,通过语言模型进行语义评分,能够有效利用语言模型的语义编码能力,根据全局语义信息处理复杂语句。且该语言模型对训练数据要求较低,减少了准备训练数据及模型训练所需要的人力耗费,同时该模型复杂度较低,能减少系统计算的耗时和内存占用。
以上述实施例为基础,本申请其一实施例提供一种文本处理系统,相应部分的说明请参考上述系统环境及实施例对应部分的说明。以下结合图4对所述系统进行说明。图4所示的文本处理系统:备选规则生成器401、语义通顺程度评分模块402。
所述备选规则生成器401,用于基于预设的备选规则将待处理的第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集。具体的,备选规则生成器从第一文本信息中拆分出非标准词,对拆分出的非标准词基于预设的备选规则转换得到与其对应的多个转换结果,作为备选的第一语义字符序列,可对应得到的多个备选文本。例如,拆分出非标准词“1/4”,可能转换结果有:“四分之一”,“一比四”,“一月四日”,“一四”。因此,对于包含“1/4”的语句,能得到至少4个转换语句,作为备选文本。
本实施例中,从第一文本信息中以不同粒度或不同方式拆分,可以拆分出不同非标准词,且非标准词数量也可能不同,而不同数量的非标准词转换后得到的备选字符序列及其数量可能不同,得到的备选文本及数量也可能不同。因此,根据非标准词的不同拆分方式记录对应的备选文本。鉴于当备选文本数量过大时会对处理效率有影响,因此,根据对第一文本信息分词的词性特征、命名实体特征、非标准词特征,确定分词方式,使备选文本数量在可处理范围内。例如,对“1/4-1/9举行冬泳比赛”,根据实体词的语义特征“举行”、“比赛”,将“1/4-1/9”整体作为一个非标签词从该语句(即文本)中拆分出来进行转换处理,从而降低生成的备选文本的数量。
所述语义通顺程度评分模块402,用于根据所述备选文本集中各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。具体的,使用语言模型对所述备选文本的语义通顺程度进行评分。所述语言模型为对基础模型训练得到,能够较准确的确定备选文本的语义通顺程度分值。非标准词及第一文本信息转换是语义相关问题。所述语言模型能够很好地编码语义信息,可以应用于对转换生成的备选文本进行评分,以从多个备选文本中选出语义通顺的文本。所述语言模型请参见上述实施例中的说明。
本实施例提供的系统,还包括:标准规则转换器403。所述标准规则转换器,用于基于预设的标准规则针对需要进行正则化处理的原始文本信息,转化为用于生成音素序列的转化文本信息。相应的,所述语义通顺程度评分模块,用于确定所述转化文本信息的语义通顺程度分值;判断所述转化文本信息的语义通顺程度分值是否低于预设分值阈值,若是,则将所述原始文本信息作为所述第一文本信息。其中,标准规则转换器中的标准规则与备选规则生成器中的备选规则可以相同也可以不同;标准规则转换器与备选规则生成器中各自对非标准词的筛选方式可以相同也可以不同。标准规则转换器基于预设的标准规则从第一文本信息中拆分出非标准词,并对拆分出的非标准词转换得到与其对应的多个转换结果,根据语义从多个转化结果中选择一种结果生成基于预设的标准规则得到的所述转化文本信息。
至此,对本实施例提供的系统进行了说明,所述系统中备选规则生成器基于预设的备选规则生成备选结果集,避免了不可控错误的问题。语义通顺程度评分模块通过根据各备选文本的语义评分来选择最终结果,能够根据语义信息来处理复杂语句,提高文本处理准确率。
与第一实施例对应,本申请其一实施例提供一种文本处理装置。请参考图5,图5所示的文本处理装置包括:
待处理文本获取单元501,用于获取待处理的第一文本信息;
非标准词转换单元502,用于基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;
备选文本生成单元503,用于根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;
评分单元504,用于根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
可选的,所述装置还包括标准规则转换单元,所述标准规则转换单元用于:基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,其中,所述第二语义字符序列中不包含非标准词;根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本;获取针对所述目标文本的评分;当针对所述目标文本的评分大于或等于预设阈值时,将所述目标文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
可选的,所述标准规则转换单元,还用于:基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前,确定针对所述目标文本的评分小于所述预设阈值。
可选的,所述非标准词转换单元502,具体用于:将所述非标准词拆分为一个或多个子序列,其中,所述子序列中至少存在一个包含非标准词的目标子序列;将所述目标子序列转化为至少一个语义字符子序列,其中,所述语义字符子序列中不包含非标准词;将所述语义字符子序列进行组合,根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。
可选的,所述非标准词转换单元502,具体用于:将所述非标准词拆分为一个或多个子序列之前,确定拆分方式,根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。
可选的,所述非标准词转换单元502,具体用于:根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列。
可选的,所述非标准词转换单元502,具体用于:对每种拆分方式对应的组合结果的集合进行筛选后,获得所述非标准词对应的至少一个备选的第一语义字符序列。
可选的,所述非标准词转换单元502,具体用于:确定所述非标准词所属的类别,通过所述类别对应的转化函数将所述非标准词转化为至少一个备选的第一语义字符序列。
可选的,所述评分单元504,具体用于:通过语言模型对各个备选文本分别进行评分,得到包含所述各个备选文本的评分的评分结果,所述评分用于表征对应的备选文本的语义的通顺程度;将所述评分结果中的最高的评分对应的备选文本确定为目标备选文本。
可选的,所述评分单元504,还用于:获取训练样本,所述训练样本为文本样本;基于所述训练样本对基础模型进行训练,获得所述语言模型。
可选的,所述训练样本包含携带第一标识的正样本、携带第二标识的负样本。
以上述实施例为基础,本申请其一实施例提供一种电子设备,相关的部分请参见上述实施例的对应说明即可。请参考图6,图中所示的电子设备包括:存储器601,以及处理器602;所述存储器用于存储计算机程序,所述计算机程序被处理器运行后,执行本申请实施例提供的所述方法。
以上述实施例为基础,本申请其一实施例提供一种计算机可读存储介质,相关的部分请参见上述实施例的对应说明即可。所述计算机可读存储介质的示意图类似图6。计算机可读存储介质存储有一条或多条计算机指令,所述一条或多条计算机指令被处理器执行以实现如本申请实施例提供的所述方法。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (13)
1.一种文本处理方法,其特征在于,包括:
获取待处理的第一文本信息;
基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;
根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;
根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,其中,所述第二语义字符序列中不包含非标准词;
根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本;
获取针对所述目标文本的评分;
当针对所述目标文本的评分大于或等于预设阈值时,将所述目标文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前,还包括:
确定针对所述目标文本的评分小于所述预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:
将所述非标准词拆分为一个或多个子序列,其中,所述子序列中至少存在一个包含非标准词的目标子序列;
将所述目标子序列转化为至少一个语义字符子序列,其中,所述语义字符子序列中不包含非标准词;
将所述语义字符子序列进行组合,根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。
5.根据权利要求4所述的方法,其特征在于,所述将所述非标准词拆分为一个或多个子序列之前,还包括:
确定拆分方式;
所述将所述非标准词拆分为一个或多个子序列,包括:
根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。
6.根据权利要求5所述的方法,其特征在于,所述根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:
根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列。
7.根据权利要求6所述的方法,其特征在于,所述根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:
对每种拆分方式对应的组合结果的集合进行筛选后,获得所述非标准词对应的至少一个备选的第一语义字符序列。
8.根据权利要求1所述的方法,其特征在于,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:
确定所述非标准词所属的类别,通过所述类别对应的转化函数将所述非标准词转化为至少一个备选的第一语义字符序列。
9.根据权利要求1所述的方法,其特征在于,所述根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本,包括:
通过语言模型对各个备选文本分别进行评分,得到包含所述各个备选文本的评分的评分结果,所述评分用于表征对应的备选文本的语义的通顺程度;
将所述评分结果中的最高的评分对应的备选文本确定为目标备选文本。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本为文本样本;
基于所述训练样本对基础模型进行训练,获得所述语言模型。
11.根据权利要求10所述的方法,其特征在于,所述训练样本包含携带第一标识的正样本、携带第二标识的负样本。
12.一种文本处理装置,其特征在于,包括:
待处理文本获取单元,用于获取待处理的第一文本信息;
非标准词转换单元,用于基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;
备选文本生成单元,用于根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;
评分单元,用于根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
13.一种电子设备,其特征在于,包括:
存储器,以及处理器;所述存储器用于存储计算机程序,所述计算机程序被所述处理器运行后,执行权利要求1-11任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210505480.1A CN115101042A (zh) | 2022-05-10 | 2022-05-10 | 一种文本处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210505480.1A CN115101042A (zh) | 2022-05-10 | 2022-05-10 | 一种文本处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115101042A true CN115101042A (zh) | 2022-09-23 |
Family
ID=83287754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210505480.1A Pending CN115101042A (zh) | 2022-05-10 | 2022-05-10 | 一种文本处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101042A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758990A (zh) * | 2022-10-14 | 2023-03-07 | 美的集团(上海)有限公司 | 文本的规范化方法、装置、存储介质和电子设备 |
-
2022
- 2022-05-10 CN CN202210505480.1A patent/CN115101042A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758990A (zh) * | 2022-10-14 | 2023-03-07 | 美的集团(上海)有限公司 | 文本的规范化方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
CN112966496B (zh) | 一种基于拼音特征表征的中文纠错方法及系统 | |
CN110797006A (zh) | 端到端的语音合成方法、装置及存储介质 | |
CN111739556B (zh) | 一种语音分析的系统和方法 | |
CN112259083B (zh) | 音频处理方法及装置 | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
US20230055233A1 (en) | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
Dongmei | Design of English text-to-speech conversion algorithm based on machine learning | |
CN115101042A (zh) | 一种文本处理方法、装置及设备 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
CN116229935A (zh) | 语音合成方法、装置、电子设备及计算机可读介质 | |
CN112242134A (zh) | 语音合成方法及装置 | |
CN115099222A (zh) | 标点符号误用检测纠正方法、装置、设备及存储介质 | |
CN114242032A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
Kafle et al. | Modeling Acoustic-Prosodic Cues for Word Importance Prediction in Spoken Dialogues | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
CN111090720A (zh) | 一种热词的添加方法和装置 | |
CN111475708A (zh) | 一种跟读内容的推送方法、介质、装置和计算设备 | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
Lounis et al. | Mispronunciation detection and diagnosis using deep neural networks: a systematic review | |
Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |