CN112966476A - 文本处理方法、装置、电子设备及存储介质 - Google Patents
文本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112966476A CN112966476A CN202110417592.7A CN202110417592A CN112966476A CN 112966476 A CN112966476 A CN 112966476A CN 202110417592 A CN202110417592 A CN 202110417592A CN 112966476 A CN112966476 A CN 112966476A
- Authority
- CN
- China
- Prior art keywords
- unit symbol
- pinyin
- text
- determining
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 108091026890 Coding region Proteins 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 42
- 238000013507 mapping Methods 0.000 claims description 24
- 230000014509 gene expression Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种文本处理方法、装置、电子设备及存储介质,属于文本转语音技术领域。该方法包括:获取待处理文本,所述待处理文本包含有第一单位符号;确定所述第一单位符号的第一位置信息,所述第一位置信息用于指示所述第一单位符号在所述待处理文本中的位置;确定所述待处理文本中各个字符对应的编码,得到第一编码序列;基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音。这样,可以基于预先训练的拼音预测模型,直接得到待处理文本中第一单位符号的拼音,无需人为干涉,从而提高了获取第一单位符号拼音的效率,使得文本处理的效率也有所提升。
Description
技术领域
本发明属于文本转语音技术领域,具体涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
在文本转语音(Text To Speech,简称TTS)应用中,一般需要预先对输入TTS模型的文本做归一化表示,即将文本转化为对应的拼音表示。但针对包含有单位符号的文本,常常在不同语境下,单位符号所表示的含义不同,拼音也不尽相同。例如,文本“网速太慢了,只有20K”中的单位符号K的拼音为“kei”,而文本“实验温度200K时,呈现液态”中的单位符号K的拼音为“kai1 er wen”等。因而,现有的文本处理方式,通常需要人为确定文本中单位符号对应的正确拼音,导致文本转化为拼音的效率低。
发明内容
本发明实施例的目的是提供一种文本处理方法、装置、电子设备及存储介质,能够解决现有的文本处理方式,需要人为确定文本中单位符号对应的正确拼音,导致文本转化为拼音的效率低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本处理方法,所述方法包括:
获取待处理文本,所述待处理文本包含有第一单位符号;
确定所述第一单位符号的第一位置信息,所述第一位置信息用于指示所述第一单位符号在所述待处理文本中的位置;
确定所述待处理文本中各个字符对应的编码,得到第一编码序列;
基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音。
第二方面,本发明实施例提供了一种文本处理装置,所述装置包括:
第一获取模块,用于获取待处理文本,所述待处理文本包含有第一单位符号;
第一确定模块,用于确定所述第一单位符号的第一位置信息,所述第一位置信息用于指示所述第一单位符号在所述待处理文本中的位置;
第二确定模块,用于确定所述待处理文本中各个字符对应的编码,得到第一编码序列;
第三确定模块,用于基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本发明实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本发明实施例中,通过获取待处理文本,所述待处理文本包含有第一单位符号;确定所述第一单位符号的第一位置信息,所述第一位置信息用于指示所述第一单位符号在所述待处理文本中的位置;确定所述待处理文本中各个字符对应的编码,得到第一编码序列;基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音。这样,可以基于预先训练的拼音预测模型,直接得到待处理文本中第一单位符号的拼音,无需人为干涉,从而提高了获取第一单位符号拼音的效率,使得文本处理的效率也有所提升。
附图说明
图1是本发明实施例提供的文本处理方法的流程图;
图2是本发明实施例提供的拼音预测模型的结构示意图;
图3是本发明实施例提供的训练拼音预测模型的流程图;
图4是本发明实施例提供的第一编码序列的转换示意图;
图5是本发明实施例提供的使用拼音预测模型进行拼音预测的流程图;
图6是本发明实施提供的文本处理装置的结构图之一;
图7是本发明实施提供的文本处理装置的结构图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本发明实施例提供的文本处理方法进行详细地说明。
本发明实施例提供一种文本处理方法。参见图1,图1是本发明实施例提供的文本处理方法的流程图,如图1所示,该文本处理方法包括以下步骤:
步骤101、获取待处理文本,待处理文本包含有第一单位符号。
在本实施例中,上述第一单位符号可以是当前国际单位制中的单位符号,如长度单位米(对应的单位符号为m)、质量单位千克(对应的单位符号为kg)、时间单位秒(对应的单位符号为s)、电流单位安培(对应的单位符号为A)和频率单位赫兹(对应的单位符号为Hz)等等,也可以是未来衍生出的新的单位符号,还可以是某些文本的简写或者口语表述,如千(对应的单位符号为k)、万(对应的单位符号为w)等,亦可以是标准单位符号的变型表述,如国际单位制中的质量单位千克kg对应的变型表述如KG、Kg、kG等,本发明不做具体限定。
上述待处理文本可以是指需要输入至TTS模型进行文字转拼音的整个文本,也可以是指该整个文本中包含有第一单位符号的部分文本,如包含第一单位符号和第一单位符号的预设数量的上下文的部分文本。例如,假设输入至TTS模型的文本共有100个字符,可以将这100个字符作为待处理文本,也可以将这100个字符中包含有单位符号的10个字符作为待处理文本。
需要说明的是,该待处理文本中包含有至少一个第一单位符号。例如,待处理文本可以为“这台机床加工速度达到25m/s,大大超出我们的预期”,其中,“m/s”为该待处理文本中的第一单位符号。
步骤102、确定第一单位符号的第一位置信息,第一位置信息用于指示第一单位符号在待处理文本中的位置。
该步骤中,可以根据第一单位符号在待处理文本中位置,确定第一位置信息。具体地,可以基于待处理文本,按照从前往后的顺序进行计数,确定第一单位符号对应第几个字符,从而确定出第一位置信息;也可以基于待处理文本,按照从后往前的顺序进行计数,确定第一单位符号对应第几个字符,从而确定出第一位置信息,当然,还可以从待处理文本的某一中间位置如第一单位符号对应位置,开始往前或者往后计数,从而确定出第一位置信息。例如,假设待处理文本为“他月入12k。”,则按照从前往后的顺序进行计算,第一单位符号“k”是对应该待处理文本的第5个字符,则可以得到第一位置信息p=4(从0开始计数)。
步骤103、确定待处理文本中各个字符对应的编码,得到第一编码序列。
在本实施例中,可以预先设置各个字符与编码的映射关系,通过该映射关系确定待处理文本中各个字符对应的编码;也可以是根据待处理文本中各个字符出现的先后顺序,随机为每个字符分配一个编码,分配时确保每个字符对应的编码不相同。此处的字符可以包括但不限于汉字、字母、数字、单位符号、标点符号等,其中,此处的字母可以包括英语、法语、日语、韩语等形式的字母字符。
具体地,在预先设置字符与编码的映射关系时,可以将不同的汉字、字母、数字、单位符号和标点符号分别与不同的编码建立一一映射关系。当然,为了简化编码表示,也可以根据实际需要,将除单位符号外的其他字符与数量较少的编码建立映射关系。在一实施例中,该映射关系可以包括:GB2312编码中的6763个汉字对应的编码(即用6763个编码表示不同的汉字)、1个数值对应的编码(即用一个编码表示不同数值)、1个字母对应的编码(即用一个编码表示不同字母)、23个单位符号对应的编码(即用23个编码表示23种单位符号)、1个编码(即用一个编码表示除上述字符外的其它任意字符),这样,在待处理文本中包含多个不同数值,或者多个不同字母,或者多个不同标点符号时,均可以采用其对应的1个编码来表示,从而减少了所需的编码的数量。
该步骤中,可以根据待处理文本中各个字符和预先设置的字符与编码的映射关系,确定待处理文本中各个字符对应的编码,再根据各个字符在待处理文本中的顺序,得到第一编码序列。例如,假设待处理文本为“他月入12k。”,且各字符“他”、“月”、“入”、“12”、“k”和“。”对应的编码分别为3451,6212,4507,6764,6786和34,则可以得到第一编码序列x=[3451,6212,4507,6764,6786,34]。
步骤104、基于第一编码序列、第一位置信息和预先训练的拼音预测模型,确定第一单位符号对应的拼音。
具体实施时,该拼音预测模型可以是预先训练的神经网络模型,该神经网络模型可以包括但不限于:递归神经网络(Recurrent Neural Networks,简称RNN)模型、长短时记忆网络(Long Short Term Memory Network,简称LSTM)模型、霍普菲尔网络(HopfieldNetwork,简称HN)模型、深度卷积神经网络(Deep Convolutional Neural Networks,简称DCNN)模型、深度残差网络(Deep Residual Network,简称DRN)模型等。当然,该神经网络模型还可以是自定义的其他神经网络模型,本发明不做具体限定。
需要说明的是,上述步骤102和上述步骤103可以同时执行,也可以先后执行,具体地,上述步骤102可以执行于上述步骤103之前,也可以执行于上述步骤103之后,本发明不做具体限定。
在本实施例中,可以将第一编码序列和第一位置信息输入至该拼音预测模型,通过该拼音预测模型对第一单位符号的拼音进行预测,最后得到该第一单位符号的拼音,这样,可以基于预先训练的拼音预测模型,直接得到待处理文本中第一单位符号的拼音,无需人为干涉,从而提高了获取第一单位符号拼音的效率,使得文本处理的效率也有所提升。
可选地,基于图1所示的实施例,上述步骤104,也即基于第一编码序列、第一位置信息和预先训练的拼音预测模型,确定第一单位符号对应的拼音,可以包括如下步骤:
将第一编码序列和第一位置信息输入至拼音预测模型,得到预测结果,其中,预测结果为概率序列,概率序列为概率值组成的序列,概率序列中的概率值的数量与预设拼音集合中的拼音的数量相同;概率序列中的概率值用于指示预设拼音集合中各拼音分别为第一单位符号的拼音的概率;
根据概率序列中的概率值,确定第一单位符号对应的拼音。在本实施例中,上述预测结果是通过拼音预测模型对待处理文本进行预测得到,该预测结果用于指示待处理文本中第一单位符号对应拼音在预设拼音集中的位置。该预测结果可以为以预设拼音集合中的拼音数量为长度的概率序列,通过各概率值的大小分别反映预设拼音集合中各拼音为第一单位符号对应拼音的概率。
此处的预设拼音集合为预先设置的单位符号对应拼音的集合,在该预设拼音集合中,每个单位符号对应的拼音的数量可以为一个或者多个,且该预设拼音集合可以包含一个或者多个单位符号对应的拼音。在一实施例中,预设单位符号集合可以包含23个单位符号,如"K"、"M"、"G"、"P"、"T"、"H"、"F"、"c"、"d"、"r"、"s"、"V"、"W"、"Y"、"″"、"′"、"kw"、"ms"、"l"、"rad"、"N"、"B"和"pps",该23个单位符号中每个单位符号对应的可能的拼音如表一所示。
表一
如表一所示,该23个单位符号可以对应59个拼音,假设将该59个拼音组成预设拼音集合,那么,预测结果为59个概率值所组成的概率序列,该59个概率值是按照预设拼音集合中59个拼音对应的编码的排列顺序依次排列。因而,可以通过预测结果确定出预设拼音集合中各拼音为第一单位符号的拼音的概率。
在实际应用中,该预设单位符号集合中的单位符号还可以为除表一所示的单位符号外的其他单位符号,如m/s、kg等等,预设拼音集合中的拼音还可以为除表一中所示的拼音外的其他拼音。上述举例仅用于解释说明,并不构成对本发明的限定。
在本实施例中,可以将第一编码序列和第一位置信息输入至该拼音预测模型,得到预测结果,通过预测结果确定第一单位符号的拼音,这样,可以基于预先训练的拼音预测模型,直接得到待处理文本中第一单位符号的拼音,无需人为干涉,从而提高了获取第一单位符号拼音的效率,使得文本处理的效率也有所提升。
进一步地,上述步骤、根据概率序列中的概率值,确定第一单位符号对应的拼音,可以包括如下步骤:
确定概率序列中最大概率值对应的目标编码;
根据预设拼音集合中各个拼音与编码之间的映射关系,确定目标编码对应的拼音;
将目标编码对应的拼音,确定为第一单位符号的拼音。
实际应用时,可以根据实际需要,建立预设拼音集合中每个拼音与编码之间的映射关系。这样,在获取拼音预测模型的训练样本时,可以根据该预设拼音集合和该映射关系确定每个文本样本中单位符号对应的拼音在预设拼音集合中的位置,以及每个文本样本中单位符号对应的拼音的编码等,从而训练得到拼音预测模型。在使用拼音预测模型对待处理文本进行预测时,可以确定出待处理文本中第一单位符号的预测结果,找到预测结果中最大概率值对应的目标编码,再基于该映射关系找到目标编码对应的拼音,从而得到第一单位符号的拼音。
在本实施例中,该概率序列中的每个概率值分别与预设拼音集合中的拼音的编码一一对应,即一个概率值对应一个拼音的编码,这样,在得到概率序列后,可以根据概率序列中各概率值的大小,确定最大概率值对应的目标编码,进而根据预设拼音集合中各个拼音与编码之间的映射关系,确定出目标编码对应的拼音,即为第一单位符号的拼音。此处的映射关系中,预设拼音集合中各个拼音分别与一个编码一一映射,且此处的编码与上述字符对应的编码不同。通过这种方式,可以根据概率序列快速确定出第一单位符号的拼音,提升文本转语音的转化效率。
参见图2,图2是本发明实施例提供的拼音预测模型的结构示意图,如图2所示,该拼音预测模型包括嵌入层201、双向循环神经网络层202、注意力层203、全连接层204和分类器层205;
上述步骤、将第一编码序列和第一位置信息输入至拼音预测模型,得到预测结果,包括:
将第一编码序列输入至嵌入层201,得到第一中间序列,并将第一位置信息输入至嵌入层201,得到第一中间向量;
将第一中间序列输入至双向循环神经网络层202,得到第二中间序列;
将第二中间序列和第一中间向量输入至注意力层203,得到第二中间向量;
将第二中间向量输入至全连接层204,得到第三中间向量;
将第三中间向量输入至分类器层205,得到预测结果。
本实施例中,上述嵌入层201可以为Embedding层,该Embedding层设置有embedding表格,可以根据embedding表格中的数值分别对第一编码序列和第一位置信息进行维度转变,得到第一中间序列和第一中间向量。需要说明的是,该Embedding层的隐层节点数可以为N个,N为正整数,如60、80、100等,本发明不做具体限定。在Embedding层对第一编码序列和第一位置信息进行维度转变时,假设该第一编码序列的长度为L,且第一单位符号对应的编码为该第一编码序列中的第K个编码,其中,K为小于L的正整数,那么在经过Embedding层的维度转变后,可以将第一编码序列转化为L*N的第一中间序列,将第一位置信息转化为1*N的第一中间向量,即该第一中间序列是由L个长度为N的向量组成的序列,第一中间向量为该第一中间序列中的第K个向量。
上述双向循环神经网络层202可以为双向长短期记忆(Bidirectional LongShort-Term Memory,BiLSTM)层。该BiLSTM层可以对输入的第一中间序列进行BiLSTM网络计算,得到第二中间序列。需要说明的是,该双向循环神经网络层202的隐层节点数需要与上述嵌入层201的隐层节点数相同,均为N。由于BiLSTM网络计算是双向的,因此得到的第二中间序列是由2L个长度为N的向量组成的序列。
上述注意力层203可以为Attention层,该注意力层203可以基于注意力机制,对输入的第一中间向量和第二中间序列进行注意力权重计算,得到第二中间向量。需要说明的是,该注意力层203的隐层节点数需要与上述嵌入层201和上述双向循环神经网络层202的隐层节点数相同,均为N。因此,这里的第二中间向量为一个长度为N的向量。
上述全连接层204可以为(Fully Connected,简称FC)层,该FC层的全连接隐藏节点需要小于N,如N的0.5倍等,这样,该FC层可以对输入的第二中间向量进行全连接,得到第三中间向量,该第三中间向量为一个长度为0.5N的向量。
上述分类器层205可以为Classifier层,该Classifier层可以将第三中间向量中0.5N个元素分别映射到长度为M的序列中,得到预测结果,即一个概率序列。其中,该M为概率序列的长度,其与预设拼音集合中所有拼音的编码的数量对应。
在实施应用中,上述预设拼音集合,以及拼音预测模型的参数配置,如Embedding层的隐层节点数、BiLSTM层的隐层节点数、Attention层的隐层节点数等等,只是为了方便说明一种实现的细节,并不限制本发明的具体实现。举例的,假如存在新的单位符号转拼音有歧义,则可以将该单位符号添加至预设单位符号集合,并将该单位符号的拼音添加到预设拼音集合中,这时只需要适应性的调整模型参数即可,训练后的模型依然有效。
上述图2所示的拼音预测模型是一个基础概念模型,还可以对其进行改善,进一步提升拼音预测模型的整体性能。例如,可以将上述双向循环神经网络层202设置成多个BiLSTM层堆叠的形式,以增加模型深度;还可以将上述注意力层203设置成多个Attention层,通过残差连接堆叠,以增加模型深度。
在本实施例中,通过在拼音预测模型中引入嵌入层201、双向循环神经网络层202、注意力层203、全连接层204和分类器层205,这样,可以通过双向循环神经网络层202对待处理文本做有序化表示,然后通过注意力层203的注意力机制学习第一单位符号在该有序化文本表示中的加权关联表示,最后利用这种融合了文本上下文环境学习的第一单位符号的特征,进行第一单位符号对应的正确拼音的计算,从而使得预测结果更加准确。
可选地,上述步骤103,也即确定待处理文本中各个字符对应的编码,得到第一编码序列,可以包括如下步骤:
根据预设的字符和编码之间的映射关系,确定待处理文本中各字符对应的编码,得到第一编码序列。
具体地,可以预先设置各个字符与编码的映射关系,通过该映射关系确定待处理文本中各个字符对应的编码。此处的字符可以包括但不限于汉字、字母、数字、单位符号、标点符号等。
该步骤中,可以根据待处理文本中各个字符,确定各个字符对应的编码,再根据各个字符在待处理文本中的顺序,得到第一编码序列。例如,假设待处理文本为“他月入12k。”,且各字符“他”、“月”、“入”、“12”、“k”和“。”对应的编码分别为3451,6212,4507,6764,6786和34,则可以得到第一编码序列x=[3451,6212,4507,6764,6786,34]。
在本实施例中,可以通过预设的字符和编码之间的映射关系,直接得到待处理文本的第一编码序列,使得第一编码序列的获取效率提升,同时,将待处理文本转化为第一编码序列,有利于将文本处理转化为数值处理,方便运用拼音预测模型进行预测。
可选地,上述步骤102、确定第一单位符号的第一位置信息,可以包括如下步骤:
根据预设的正则表达式,确定第一单位符号的第一位置信息。
具体地,上述正则表达式的具体内容可以根据实际情况进行设置,本发明不做具体限定。预设的正则表达式可以是一个,也可以是多个。当正则表达式为一个时,该正则表达式可以对不同单位符号在文本的位置进行确定,以满足各单位符号的使用要求。当正则表达式为多个时,可以根据单位符号的使用场景,或者单位符号的类型等因素,设置不同的正则表达式,以满足不同使用场景或者不同类型的各单位符号的使用要求。例如,K为预设单位符号集合中的一个单位符号,其在不同使用场景(语境)中有来两种拼音读法,为“kei”和“kai er wen”,那么“kei”和“kai er wen”为预设拼音集合中的两个拼音。
在本实施例中,可以通过预设的正则表达式,确定第一单位符号的第一位置信息,从而提高第一位置信息的准确性和自动化程度。
可选地,正则表达式根据目标单位符号的正则化特征生成,目标单位符号的正则化特征包括:
目标单位符号包含于预设单位符号集合;
目标单位符号与数值字符相邻;以及
目标单位符号不与字母字符相邻。
具体地,上述目标单位符号可以为预设单位符号集合中的任意一种单位符号,该目标单位符号可以与上述第一单位符号相同,也可以与上述第一单位符号不同,本发明不做具体限定。基于前述举例继续进行说明,假设将文本“他月入12k。”中的k作为目标单位符号时,可以获取k的正则化特征,进而生成k的正则表达式,确定出k在待处理文本中的位置;当将其他文本中的其他单位符号如M作为目标单位符号时,则需要获取M的正则化特征,进而生成M的正则表达式,确定出M在文本中的位置。
此处的预设单位符号集合可以包含有一个或多个单位符号,该预设单位符号集合中的每个单位符号的可能的拼音包含于预设拼音集合中,这样,在对预设单位符号集合中的任一单位符号进行拼音转化时,均可以找到其对应的正确的拼音。
上述数值字符可以是全角数值字符或者半角数值字符,上述字母符号可以是英语、法语、日语、韩语等形式的字母字符,本发明不做具体限定。
在本实施例中,目标单位符号可以包括如下正则化特征:目标单位符号包含于预设单位符号集合、目标单位符号与数值字符相邻,以及目标单位符号不与字母字符相邻。这样,当待处理文本中存在类似单位符号的字符时,可以确定该字符是否为目标单位符号。例如,在“文件大小是12K。”文本中,由于该文本中的K满足上述正则化特征,因此可以确定该字母字符为目标单位符号;而“这件事OK!”、“扑克牌里的红桃K”等文本中,由于文本中的K不满足上述正则化特征,因此可以确定该字母字符是普通字母符号,不是目标单位符号。因此,通过上述方式,可以将待处理文本中具有上述正则化特征的目标单位符号作为第一单位符号,进一步确定出其在待处理文本中的位置。
可选地,在上述步骤102、确定第一单位符号的第一位置信息之前,该方法还包括:
将第一单位符号按照预设格式进行转换;
上述步骤102确定第一单位符号的第一位置信息,包括:
确定格式转换后的第一单位符号的第一位置信息。
具体地,上述预设格式可以是半角字符、且小写字符格式;也可以是半角字符、且大写字符格式;还可以是全角字符、且小写字符格式;亦或是全角字符、且大写字符格式,本发明不做具体限定。在实际应用中,待处理文本中可能存在单位符号大小写混用的情况,如单位符号千克,在国家标准计量单位表示法GB3100-1993中表示为半角字符全小写字符串kg,而有些文本中可能会随意变更大小写,比如写成KG、Kg等等格式。待处理文本中还有可能存在全角半角混用的情况,如将千克用kg等格式。在本步骤中,可以按照上述预设格式对第一单位符号进行格式转化,如将第一单位符号从全角字符转化为半角字符,将大写字符转化为小写字符等等,具体可以根据预设格式的要求进行转化。
在本实施例中,为兼容待处理文本中第一单位符号不规范的问题,需要在获取到待处理文本后,对待处理文本中的第一单位符号按照预设格式进行转换,从而避免由于书写不规范,导致在预测第一单位符号的拼音时,预测结果的准确性降低的问题。
可选地,参见图3,图3是本发明实施例提供的训练拼音预测模型的流程图。在上述步骤104、基于第一编码序列、第一位置信息和预先训练的拼音预测模型,确定第一单位符号对应的拼音之前,需要训练得到拼音预测模型,该训练拼音预测模型的方法具体可以包括以下步骤:
步骤301、获取多个文本样本,多个文本样本中各文本样本均包含有第二单位符号,第二单位符号包含于预设单位符号集合。
上述文本样本可以从互联网数据获取得到,也可以是预先设置得到。上述第二单位符号可以是预设单位符号集合中的任一单位符号,可以与上述第一单位符号相同,也可以与上述第一单位符号不同。其中,每个文本样本中包含至少一个第二单位符号。
步骤302、分别获取每个文本样本对应的第二编码序列,以及分别获取每个第二单位符号对应的第二位置信息和独热编码序列,其中,第二位置信息用于指示第二单位符号在对应的文本样本中的位置,独热编码序列用于指示第二单位符号在预设拼音集合中的位置。
该步骤中,获取文本样本对应的第二编码序列的方式可参见上述步骤103中获取待处理文本对应的第一编码序列的方式,获取第二单位符号对应的第二位置信息的方式可参见上述步骤102中获取第一单位符号对应的第一位置信息的方式,为避免重复,在此不再赘述。上述独热编码序列即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。上述独热编码序列的长度与预设拼音集合中拼音的总数相匹配,且在独热编码序列中,代表第二单位符号正确拼音的位置的值与其他拼音的位置的值不同。
具体参见图4,图4是本发明实施例提供的第一编码序列的转换示意图,如图4所示,以文本“这批钢材不到50t。”作为文本样本为例进行说明。假设该文本样本中各字符与编码的对应关系为:“这”对应的编码为6216,“批”对应的编码为4212,“钢”对应的编码为3655,“才”对应的编码为1423,“不”对应的编码为823,“到”对应的编码为2312,“50”对应的编码为6764,“t”对应的编码为6790,标点符号“。”对应的编码为34,且假设预设拼音集合中共包含59个拼音,拼音“dun”位于预设拼音集合中的第4个拼音,则该文本样本对应的第二编码序列x=[6216,4212,3655,1423,23,2312,6764,6790,34],第二单位符号对应的第二位置信息p=7(从0开始计数),第二单位符号对应的独热编码序列y=[0,0,0,1,0,…],即该独热编码序列y为总长度为59,且第四个位置是1、其他位置为0的one-hot编码。
针对n个文本样本中的第i个文本样本,分别可以采用上述方式得到第i个文本样本对应的第二编码序列xi、第二位置信息pi和独热编码序列yi,其中,i的取值范围为1至n。由此可以得到n个文本样本的第二编码序列集合,即X=(x1,x2,…,xn),n个文本样本的第二位置信息集合,即P=(p1,p2,…,pn),以及n个文本样本的独热编码序列集合,即Y=(y1,y2,…,yn)。其中,该第二编码序列集合中的xi,表示第i个文本样本对应的第二编码序列,xi的长度可以根据第i个文本样本中所包含的字符的数量来确定。该第二位置信息集合中的pi,表示第i个文本样本对应的第二位置信息,pi的大小可以根据第i个文本样本中的第二单位符号在第i个文本样本中的位置来确定。该独热编码序列集合中的yi,表示第i个文本样本对应的独热编码序列,yi的长度根据预设拼音集合中拼音的数量来确定。对于各文本样本对应的第二编码序列xi、第二位置信息pi和独热编码序列yi的具体获取过程,已在前述实施例中描述,在此不再一一赘述。
步骤303、根据每个第二编码序列、每个第二位置信息和每个独热编码序列训练拼音预测模型。
在该步骤中,可以将文本样本对应的第二编码序列、第二位置信息和独热编码序列输入至基础模型中,对基础模型进行迭代训练。在训练过程中,任一迭代上,将文本样本对应的第二编码序列x和第二位置信息p输入至基础模型后,都会得到一个预测结果y’。此时,基础模型会通过损失函数衡量预测结果y’跟独热编码序列y之间的误差,通过不断迭代训练,使得这个误差不断缩小。当损失函数值不再下降,则该模型收敛,得到拼音预测模型。
在本实施例中,通过对拼音预测模型进行预先训练,这样可以基于预先训练的拼音预测模型,直接得到待处理文本中第一单位符号的拼音,无需人为干涉,从而提高了获取第一单位符号拼音的效率,使得文本处理的效率也有所提升。
在实际应用时,拼音预测模型的结构可以包括嵌入层、双向循环神经网络层、注意力层、全连接层和分类器层。在训练前,可以对该拼音预测模型的参数进行设置,如嵌入层的隐层节点数、双向循环神经网络层的隐层节点数、注意力层的隐层节点数、全连接层的全连接隐藏节点数和分类器层输出维度等。其中,嵌入层的隐层节点数、双向循环神经网络层的隐层节点数、注意力层的隐层节点数相等,而全连接层的全连接隐藏节点数小于嵌入层的隐层节点数,分类器层输出维度需要与预设拼音集合中的拼音数量一致。在设置好该拼音预测模型的参数后,可以将参与本次迭代的文本样本的第二编码序列x和第二位置信息p输入至该拼音预测模型中,具体训练过程如下:
步骤401、输入第二编码序列x,首先进入嵌入层,做特征化处理,得到新序列表示e;
步骤402、对第二编码序列x的embedding表示e,做BiLSTM网络计算,得到新的序列表示k;
步骤403、根据第二位置信息p,从embedding表格中得到对应位置上的向量,即第二单位符号对应的表示向量q;
步骤404、对向量q和序列表示k,输入注意力层,从而将向量q转化为注意力加权的表示形式Q;
步骤405、将注意力层的输出向量Q输入一个全连接层,得到向量x’;
步骤406、最后将向量x’输入一个分类器层,分类结果映射到M维度向量y’,其中,M与预设拼音集合中拼音的总数一致;
步骤407、将向量y’跟独热编码序列y的误差结果最小化,让网络收敛。其中,损失函数可以使用softmax损失函数,通过softmax损失函数衡量预测结果y’跟独热编码序列y之间的误差,当损失函数值不再下降,则收敛该模型,得到拼音预测模型。
在实际应用中,参见图5,图5为本发明实施例提供的使用拼音预测模型进行拼音预测的流程图,如图5所示,使用拼音预测模型进行拼音预测的过程如下:
步骤501、获取待处理文本,待处理文本包含有第一单位符号。
上述第一单位符号可以是当前国际单位制中的单位符号,如长度单位米(对应的单位符号为m)、质量单位千克(对应的单位符号为kg)、时间单位秒(对应的单位符号为s)、电流单位安培(对应的单位符号为A)和频率单位赫兹(对应的单位符号为Hz)等等,也可以是未来随着技术发展衍生出的新的单位符号,还可以是某些文本的简写或者口语表述,如千(对应的单位符号为k)、万(对应的单位符号为w)等,亦可以是标准单位符号的变型表述,如国际单位制中的质量单位千克kg对应的变型表述如KG、Kg、kG等,本发明不做具体限定。
上述待处理文本可以是指需要输入至TTS模型进行文字转拼音的整个文本,也可以是指该整个文本中包含有第一单位符号的部分文本,如包含第一单位符号和第一单位符号的预设数量的上下文的部分文本。例如,假设输入至TTS模型的文本共有100个字符,可以将这100个字符作为待处理文本,也可以将这100个字符中包含有单位符号的10个字符作为待处理文本。
步骤502、根据预设的正则表达式,确定第一单位符号的第一位置信息。
其中,正则表达式可以根据目标单位符号的正则化特征生成,目标单位符号的正则化特征包括:
目标单位符号包含于预设单位符号集合;
目标单位符号与数值字符相邻;以及
目标单位符号不与字母字符相邻。
在该步骤中,将第一单位符号作为目标单位符号,获取可以获取第一单位符号的正则化特征,进而生成第一单位符号的正则表达式,确定出第一单位符号在待处理文本中的位置。
步骤503、对待处理文本中的第一单位符号进行格式转换。
假定待处理文本为“他月入12K。”,需要将待处理文本中的第一单位符号K转化为小写的半角字符表示,则转化后的待处理文本为“他月入12k。”。
步骤504、根据预设的字符和编码之间的映射关系,确定待处理文本中各字符对应的编码,得到第一编码序列。
可以根据待处理文本中各个字符和预先设置的字符与编码的映射关系,确定待处理文本中各个字符对应的编码,再根据各个字符在待处理文本中的顺序,得到第一编码序列。例如,假设待处理文本为“他月入12k。”,且各字符“他”、“月”、“入”、“12”、“k”和“。”对应的编码分别为3451,6212,4507,6764,6786和34,则可以得到第一编码序列x=[3451,6212,4507,6764,6786,34]。。
步骤505、将第一编码序列和第一位置信息输入至拼音预测模型,得到预测结果。
其中,预测结果为概率序列,概率序列为概率值组成的序列,概率序列中的概率值的数量与预设拼音集合中的拼音的数量相同;概率序列中的概率值用于指示预设拼音集合中各拼音分别为第一单位符号的拼音的概率。假设预设拼音集合由59个拼音组成,那么,预测结果为59个概率值所组成的概率序列,该59个概率值是按照预设拼音集合中59个拼音对应的编码的排列顺序依次排列。因而,可以通过预测结果确定出预设拼音集合中各拼音为第一单位符号的拼音的概率。具体地,通过拼音预测模型,得到预测结果的过程在上述实施例中已详细说明,在此不再赘述。
步骤506、根据概率序列中的概率值,确定第一单位符号对应的拼音。
在该步骤中,可以先确定出概率序列中最大概率值对应的目标编码,再根据预设拼音集合中各个拼音与编码之间的映射关系,确定目标编码对应的拼音,进而将目标编码对应的拼音,确定为第一单位符号的拼音。例如,假定预测结果中概率值最大的位置是第25个位置,则在预设拼音集合中找到第25个位置对应的拼音的编码,进而根据拼音与编码的映射关系,找到拼音kei。
通过上述拼音预测模型的训练和使用,可以解决在TTS语音合成中,由于单位符号自身表示冲突,或者文本自身大小写不规范等导致的读法歧义的问题。而且通过拼音预测模型,可以充分学习某个位置的单位符号读法,与其所在整个文本内容的关联性,从而在应用中,可以根据具体文本,准确预测出其单位符号的正确的拼音。
参见图6,图6是本发明实施提供的文本处理装置的结构图之一,如图6所示,该装置600包括:
第一获取模块601,用于获取待处理文本,待处理文本包含有第一单位符号;
第一确定模块602,用于确定第一单位符号的第一位置信息,第一位置信息用于指示第一单位符号在待处理文本中的位置;
第二确定模块603,用于确定待处理文本中各个字符对应的编码,得到第一编码序列;
第三确定模块604,用于基于第一编码序列、第一位置信息和预先训练的拼音预测模型,确定第一单位符号对应的拼音。
可选地,第三确定模块604包括:
输入子模块,用于将第一编码序列和第一位置信息输入至拼音预测模型,得到预测结果,其中,预测结果为以预设拼音集合中的拼音数量为长度的概率序列,概率序列用于指示预设拼音集合中各拼音为第一单位符号的拼音的概率,概率序列中的概率值与预设拼音集合中各拼音对应的编码一一对应;
确定子模块,用于根据概率序列中的概率值,确定第一单位符号对应的拼音。
可选地,确定子模块包括:
第一确定单元,用于确定概率序列中最大概率值对应的目标编码;
第二确定单元,用于根据预设拼音集合中各个拼音与编码之间的映射关系,确定目标编码对应的拼音;
第三确定单元,用于将目标编码对应的拼音,确定为第一单位符号的拼音。
可选地,拼音预测模型包括嵌入层、双向循环神经网络层、注意力层、全连接层和分类器层;
输入子模块包括:
第一输入单元,用于将第一编码序列输入至嵌入层,得到第一中间序列,并将第一位置信息输入至嵌入层,得到第一中间向量;
第二输入单元,用于将第一中间序列输入至双向循环神经网络层,得到第二中间序列;
第三输入单元,用于将第二中间序列和第一中间向量输入至注意力层,得到第二中间向量;
第四输入单元,用于将第二中间向量输入至全连接层,得到第三中间向量;
第五输入单元,用于将第三中间向量输入至分类器层,得到预测结果。
可选地,第二确定模块603具体用于:
根据预设的字符和编码之间的映射关系,确定待处理文本中各字符对应的编码,得到第一编码序列。
可选地,第一确定模块602具体用于:
根据预设的正则表达式,确定第一单位符号的第一位置信息。
可选地,正则表达式根据目标单位符号的正则化特征生成,目标单位符号的正则化特征包括:
目标单位符号包含于预设单位符号集合;
目标单位符号与数值字符相邻;以及
目标单位符号不与字母字符相邻。
可选地,该装置600还包括:
第二获取模块,用于获取多个文本样本,多个文本样本中各文本样本均包含有第二单位符号,第二单位符号包含于预设单位符号集合;
第三获取模块,用于分别获取每个文本样本对应的第二编码序列,以及分别获取每个第二单位符号对应的第二位置信息和独热编码序列,其中,第二位置信息用于指示第二单位符号在对应的文本样本中的位置,独热编码序列用于指示第二单位符号在预设拼音集合中的位置;
训练模块,用于根据每个第二编码序列、每个第二位置信息和每个独热编码序列训练拼音预测模型。
本发明实施例的文本处理装置600,第一获取模块601,用于获取待处理文本,待处理文本包含有第一单位符号;第一确定模块602,用于确定第一单位符号的第一位置信息,第一位置信息用于指示第一单位符号在待处理文本中的位置;第二确定模块603,用于确定待处理文本中各个字符对应的编码,得到第一编码序列;第三确定模块604,用于基于第一编码序列、第一位置信息和预先训练的拼音预测模型,确定第一单位符号对应的拼音。这样,可以基于预先训练的拼音预测模型,直接得到待处理文本中第一单位符号的拼音,无需人为干涉,从而提高了获取第一单位符号拼音的效率,使得文本处理的效率也有所提升。
参见图7,图7是本发明实施提供的文本处理装置的结构图之二,如图7所示,文本处理装置700包括:处理器701、存储器702及存储在存储器702上并可在处理器上运行的计算机程序,文本处理装置700中的各个组件通过总线接口703耦合在一起,计算机程序被处理器701执行时实现如下步骤:
获取待处理文本,待处理文本包含有第一单位符号;
确定第一单位符号的第一位置信息,第一位置信息用于指示第一单位符号在待处理文本中的位置;
确定待处理文本中各个字符对应的编码,得到第一编码序列;
基于第一编码序列、第一位置信息和预先训练的拼音预测模型,确定第一单位符号对应的拼音。
应理解的是,本发明实施例中,上述处理器701能够实现上述文本处理方法实施例的各个过程,为避免重复,这里不再赘述。
本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音服务质量检测方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音服务质量检测方法实施例的各个过程,或者实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (12)
1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理文本,所述待处理文本包含有第一单位符号;
确定所述第一单位符号的第一位置信息,所述第一位置信息用于指示所述第一单位符号在所述待处理文本中的位置;
确定所述待处理文本中各个字符对应的编码,得到第一编码序列;
基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音,包括:
将所述第一编码序列和所述第一位置信息输入至所述拼音预测模型,得到预测结果,其中,所述预测结果为概率序列,所述概率序列为概率值组成的序列,所述概率序列中的概率值的数量与预设拼音集合中的拼音的数量相同;所述概率序列中的概率值用于指示所述预设拼音集合中各拼音分别为所述第一单位符号的拼音的概率;
根据所述概率序列中的概率值,确定所述第一单位符号对应的拼音。
3.根据权利要求2所述的方法,其特征在于,所述根据所述概率序列中的概率值,确定所述第一单位符号对应的拼音,包括:
确定所述概率序列中最大概率值对应的目标编码;
根据所述预设拼音集合中各个拼音与编码之间的映射关系,确定所述目标编码对应的拼音;
将所述目标编码对应的拼音,确定为所述第一单位符号的拼音。
4.根据权利要求2所述的方法,其特征在于,所述拼音预测模型包括嵌入层、双向循环神经网络层、注意力层、全连接层和分类器层;
所述将所述第一编码序列和所述第一位置信息输入至所述拼音预测模型,得到预测结果,包括:
将所述第一编码序列输入至所述嵌入层,得到第一中间序列,并将所述第一位置信息输入至所述嵌入层,得到第一中间向量;
将所述第一中间序列输入至所述双向循环神经网络层,得到第二中间序列;
将所述第二中间序列和所述第一中间向量输入至所述注意力层,得到第二中间向量;
将所述第二中间向量输入至所述全连接层,得到第三中间向量;
将所述第三中间向量输入至所述分类器层,得到所述预测结果。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述确定所述待处理文本中各个字符对应的编码,得到第一编码序列,包括:
根据预设的字符和编码之间的映射关系,确定所述待处理文本中各字符对应的编码,得到第一编码序列。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述确定所述第一单位符号的第一位置信息,包括:
根据预设的正则表达式,确定所述第一单位符号的第一位置信息。
7.根据权利要求6所述的方法,其特征在于,所述正则表达式根据目标单位符号的正则化特征生成,所述目标单位符号的正则化特征包括:
所述目标单位符号包含于预设单位符号集合;
所述目标单位符号与数值字符相邻;以及
所述目标单位符号不与字母字符相邻。
8.根据权利要求1所述的方法,其特征在于,在所述确定所述第一单位符号的第一位置信息之前,所述方法还包括:
将所述第一单位符号按照预设格式进行转换;
所述确定所述第一单位符号的第一位置信息,包括:
确定格式转换后的第一单位符号的第一位置信息。
9.根据权利要求1所述的方法,其特征在于,在所述基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音之前,所述方法还包括:
获取多个文本样本,所述多个文本样本中各文本样本均包含有第二单位符号,所述第二单位符号包含于预设单位符号集合;
分别获取每个所述文本样本对应的第二编码序列,以及分别获取每个所述第二单位符号对应的第二位置信息和独热编码序列,其中,所述第二位置信息用于指示所述第二单位符号在对应的文本样本中的位置,所述独热编码序列用于指示所述第二单位符号在预设拼音集合中的位置;
根据每个所述第二编码序列、每个所述第二位置信息和每个所述独热编码序列训练拼音预测模型。
10.一种文本处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理文本,所述待处理文本包含有第一单位符号;
第一确定模块,用于确定所述第一单位符号的第一位置信息,所述第一位置信息用于指示所述第一单位符号在所述待处理文本中的位置;
第二确定模块,用于确定所述待处理文本中各个字符对应的编码,得到第一编码序列;
第三确定模块,用于基于所述第一编码序列、所述第一位置信息和预先训练的拼音预测模型,确定所述第一单位符号对应的拼音。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的文本处理方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417592.7A CN112966476B (zh) | 2021-04-19 | 2021-04-19 | 文本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417592.7A CN112966476B (zh) | 2021-04-19 | 2021-04-19 | 文本处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966476A true CN112966476A (zh) | 2021-06-15 |
CN112966476B CN112966476B (zh) | 2022-03-25 |
Family
ID=76280866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110417592.7A Active CN112966476B (zh) | 2021-04-19 | 2021-04-19 | 文本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966476B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722444A (zh) * | 2021-09-14 | 2021-11-30 | 口碑(上海)信息技术有限公司 | 文本处理方法、装置及电子设备 |
CN114283045A (zh) * | 2021-11-12 | 2022-04-05 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN114528850A (zh) * | 2022-02-16 | 2022-05-24 | 马上消费金融股份有限公司 | 标点预测模型的训练方法、标点添加方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184028A1 (en) * | 2001-03-13 | 2002-12-05 | Hiroshi Sasaki | Text to speech synthesizer |
CN103165126A (zh) * | 2011-12-15 | 2013-06-19 | 无锡中星微电子有限公司 | 一种手机文本短信的语音播放的方法 |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN111599340A (zh) * | 2020-07-27 | 2020-08-28 | 南京硅基智能科技有限公司 | 一种多音字读音预测方法、装置及计算机可读存储介质 |
-
2021
- 2021-04-19 CN CN202110417592.7A patent/CN112966476B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184028A1 (en) * | 2001-03-13 | 2002-12-05 | Hiroshi Sasaki | Text to speech synthesizer |
CN103165126A (zh) * | 2011-12-15 | 2013-06-19 | 无锡中星微电子有限公司 | 一种手机文本短信的语音播放的方法 |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN111599340A (zh) * | 2020-07-27 | 2020-08-28 | 南京硅基智能科技有限公司 | 一种多音字读音预测方法、装置及计算机可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722444A (zh) * | 2021-09-14 | 2021-11-30 | 口碑(上海)信息技术有限公司 | 文本处理方法、装置及电子设备 |
CN113722444B (zh) * | 2021-09-14 | 2024-05-31 | 口碑(上海)信息技术有限公司 | 文本处理方法、装置及电子设备 |
CN114283045A (zh) * | 2021-11-12 | 2022-04-05 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN114283045B (zh) * | 2021-11-12 | 2024-07-26 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN114528850A (zh) * | 2022-02-16 | 2022-05-24 | 马上消费金融股份有限公司 | 标点预测模型的训练方法、标点添加方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112966476B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966476B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN110196894B (zh) | 语言模型的训练方法和预测方法 | |
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
US20200159755A1 (en) | Summary generating apparatus, summary generating method and computer program | |
CN111667066B (zh) | 网络模型的训练、文字识别方法、装置和电子设备 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN111985213A (zh) | 一种语音客服文本纠错的方法和装置 | |
CN112329476B (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
CN111538809B (zh) | 一种语音服务质量检测方法、模型训练方法及装置 | |
CN111275780B (zh) | 人物图像的生成方法及装置 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN114255159A (zh) | 手写文本图像生成方法、装置、电子设备和存储介质 | |
CN111611791A (zh) | 一种文本处理的方法及相关装置 | |
CN115147849A (zh) | 字符编码模型的训练方法、字符匹配方法和装置 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN115409038A (zh) | 自然语言处理方法及装置、电子设备和存储介质 | |
CN113420121B (zh) | 文本处理模型训练方法、语音文本处理方法及装置 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN114020887A (zh) | 用于确定响应语句的方法、设备、装置和介质 | |
CN113435531A (zh) | 零样本图像分类方法、系统、电子设备及存储介质 | |
CN114707518B (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
CN113177406B (zh) | 文本处理方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |