CN115758990A - 文本的规范化方法、装置、存储介质和电子设备 - Google Patents
文本的规范化方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN115758990A CN115758990A CN202211261757.7A CN202211261757A CN115758990A CN 115758990 A CN115758990 A CN 115758990A CN 202211261757 A CN202211261757 A CN 202211261757A CN 115758990 A CN115758990 A CN 115758990A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- input text
- input
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 128
- 238000002372 labelling Methods 0.000 claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 50
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请提出了一种文本的规范化方法、装置、存储介质和电子设备。该文本的规范化方法包括:获取输入文本;将输入文本输入至第一模型,确定输入文本中字符的标注数据;根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本;其中,第一模型为预先训练的神经网络模型,第二模型为加权有限状态转换机,标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
Description
技术领域
本申请涉及任务型文本规范化技术领域,具体而言,涉及一种文本的规范化方法、装置、存储介质和电子设备。
背景技术
相关技术中,文本规范化(TN,Text Normalization)是语音合成系统的重要组成部分,是将书面形式词(Written-Form Words)转化为朗读形式词(Spoken-Form Words)以消除歧义的过程,主要功能是将文本中的数字、符号、缩写等转换成语言文字,例如“2022年”需转化为“二零二二年”。由于对于输入文本的特殊字符,例如“-”的转化可能歧义,因此,亟需一种快速有效的方式实现文本规范化。
发明内容
本申请旨在至少解决相关技术中存在的技术问题之一。
为此,本申请的第一个方面在于提出一种文本的规范化方法。
本申请的第二个方面在于提出一种文本的规范化装置。
本申请的第三个方面在于提出另一种文本的规范化装置。
本申请的第四个方面在于提出一种可读存储介质。
本申请的第五个方面在于提出一种电子设备。
本申请的第六个方面在于提出一种计算机程序产品。
有鉴于此,根据本申请的一个方面,提出了一种文本的规范化方法,该规范化方法包括:获取输入文本;将输入文本输入至第一模型,确定输入文本中字符的标注数据;根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本;其中,第一模型为预先训练的神经网络模型,第二模型为加权有限状态转换机,标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
需要说明的是,本申请所提出的文本的规范化方法的执行主体可以是文本的规范化装置,为了更加清楚的对本申请提出的文本的规范化方法进行说明,下面技术方案中以文本的规范化方法的执行主体为文本的规范化装置进行示例性说明。
在该技术方案中,上述第一模型表示预先训练神经网络模型得出的能够对输入文本进行文本序列标注的模型,上述第二模型表示定义规则后的加权有限状态转换机,上述标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
具体地,规范化装置首先获取上述输入文本,具体而言,该输入文本表示待进行文本规范化的文本。
进一步地,规范化装置将上述输入文本输入到上述第一模型中,以确定上述标注数据。具体而言,第一模型可以对输入文本中的字符进行文本序列标注,可以预测输入文本中的特殊字符的不同含义的概率分布,可以预测输入文本中多音字和数字的读法,因此,规范化装置可以通过上述第一模型确定出对于输入文本中的字符的标注数据。
进一步地,规范化装置根据上述标注数据,基于第二模型对输入文本进行规范化处理,以得出文本规范化后的输入文本,即上述输出文本。
在该技术方案中,规范化装置能够通过第一模型确定输入文本的标注数据,能够通过第二模型根据标注数据对输入文本进行处理确定输出文本。在本申请的技术方案中,对输入文本的规范化过程中,考虑了第一模型确定的标注数据,避免了对于输入文本的特殊字符规范化过程中,出现歧义的情况,保证了确定出的输入文本的准确性。
此外,由于上述第一模型是通过训练神经网络模型得出的,上述第二模型是对加权有限状态转换机定义规则得到的,使得本申请提出的文本的规范化方法在进行文本规范化的过程中,结合了模型和定义规则,提高了其范化能力,避免了仅采用模型不定义规则可能出现错误的情况。
此外,根据本发明的上述技术方案提出的文本的规范化方法,还可以具有以下附加技术特征:
在上述技术方案中,根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本的步骤具体包括:调用第二模型的标签函数,根据标注数据对输入文本进行标注,确定第一文本;根据第一文本确定输出文本。
在该技术方案中,上述标签函数表示加权有限状态转换机(即上述第二模型)的tagger函数,该标签函数能够根据标注数据对输入文本进行标注;上述第一文本表示经过标签函数标注后的文本。
在该技术方案中,规范化装置可以通过调用上述第二模型中的标签函数,基于标注数据标注输入文本,确定出第一文本,然后根据第一文本确定输出文本。这样,使得确定输出文本的过程中,可以充分利用第一模型预测的标注数据,保证了确定出的输出文本的准确性。
在上述技术方案中,根据第一文本确定输出文本的步骤具体包括:调用第二模型的解码路径函数对第一文本中的字符进行解析和位置调整,确定第二文本;根据第二文本确定输出文本。
在该技术方案中,由于经过上述标签函数得出的第一文本中的字符的位置相比于输入文本中原始字符位置可能会发生改变,这可能会导致确定出的输出文本不准确。所以,在本申请的技术方案中,规范化装置需要调用解码路径函数对第一文本进行处理,这样,保证了确定出的输出文本的准确性。
在上述技术方案中,根据第二文本确定输出文本的步骤具体包括:调用第二模型的语言化函数对第二文本进行转换,确定输出文本。
在该技术方案中,上述语言化函数表示第二模型,即加权有限状态转换机的Verbalizer(语言化)函数。
在该技术方案中,规范化装置可以通过调用语言化函数将第二文本中的标注数据带到输出中,保证了确定出的输出文本的准确性。
在上述技术方案中,特殊字符包括符号、数字、缩写字符和多音字中的一种或多种。
在上述技术方案中,确定输出文本之后,文本的规范化方法还包括:将输入文本转换为可播放语音进行输出。
在该技术方案中,规范化装置在确定出输出文本后,还需要将该输出文本转换成可播放的语音,以使用户能够得到与该输入文本相对应的可播放语音。
在该技术方案中,规范化装置还可以将输出文本转成可播放语音,使得用户可以通过收听语音的方式了解上述输入文本中的内容。
在上述技术方案中,在获取输入文本之前,规范化方法还包括:获取训练数据集;根据训练数据集对预设模型进行训练,确定第一模型;其中,预设模型为神经网络模型。
在该技术方案中,上述预设模型表示神经网络模型,上述训练数据集表示通过人工或者设定规则后的加权有限状态转换机对输入文本进行文本序列标注后的训练文本。
在该技术方案中,在获取上述输入文本前,规范化装置还可以获取训练数据集训练预设模型确定第一模型。这样,使得本申请通过第一模型即可快速确定出关于输入文本的标注数据,保证了标注数据确定的效率和准确性,进而保证了确定出的输出文本的准确性。
在上述技术方案中,获取输入文本之前,规范化方法还包括:根据预设规则设置第二模型对于输入文本和输出文本的转换规则。
在该技术方案中,规范化装置通过预设规则设置第二模型的转换规则,可以保证通过标签函数确定出的第一文本的准确性,可以保证通过解码路径函数确定出的第二文本的准确性,可以保证通过语言化函数确定出的输出文本的准确性。
根据本发明的第二个方面,提出了一种文本的规范化装置,该文本的规范化装置包括:获取模块,用于获取输入文本;第一处理模块,用于将输入文本输入至第一模型,确定输入文本中字符的标注数据;第二处理模块,用于根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本;其中,第一模型为预先训练的神经网络模型,第二模型为加权有限状态转换机,标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
在该技术方案中,上述第一模型表示预先训练神经网络模型得出的能够对输入文本进行文本序列标注的模型,上述第二模型表示定义规则后的加权有限状态转换机,上述标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
具体地,首先获取模块获取上述输入文本,具体而言,该输入文本表示待进行文本规范化的文本。
进一步地,第一处理模块将上述输入文本输入到上述第一模型中,以确定上述标注数据。具体而言,第一模型可以对输入文本中的字符进行文本序列标注,可以预测输入文本中的特殊字符的不同含义的概率分布,可以预测输入文本中多音字和数字的读法,因此,第一处理模块可以通过上述第一模型确定出对于输入文本中的字符的标注数据。
进一步地,第二处理模块根据上述标注数据,基于第二模型对输入文本进行规范化处理,以得出文本规范化后的输入文本,即上述输出文本。
在该技术方案中,第一处理模块能够通过第一模型确定输入文本的标注数据,第二处理模块能够通过第二模型根据标注数据对输入文本进行处理确定输出文本。在本申请的技术方案中,对输入文本的规范化过程中,考虑了第一模型确定的标注数据,避免了对于输入文本的特殊字符规范化过程中,出现歧义的情况,保证了确定出的输入文本的准确性。
此外,由于上述第一模型是通过训练神经网络模型得出的,上述第二模型是对加权有限状态转换机定义规则得到的,使得本申请提出的文本的规范化装置在进行文本规范化的过程中,结合了模型和定义规则,提高了其范化能力,避免了仅采用模型不定义规则可能出现错误的情况。
根据本申请第三个方面,提出了另一种文本的规范化装置,包括:存储器,存储器中存储有程序或指令;处理器,处理器执行存储在存储器中的程序或指令以实现如本申请上述技术方案提出的文本的规范化方法的步骤,因而具有本申请上述技术方案提出的文本的规范化方法的全部有益技术效果,在此不再做过多赘述。
根据本申请的第四个方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如本申请上述技术方案提出的文本的规范化方法的步骤,因而具有本申请上述技术方案提出的文本的规范化方法的全部有益技术效果,在此不再做过多赘述。
根据本申请的第五个方面,提出了一种电子设备,包括如本发明上述技术方案提出的文本的规范化装置,和/或如本发明上述技术方案提出的可读存储介质,因此,该电子设备具备本发明上述技术方案提出的文本的规范化装置和/或本发明上述技术方案提出的可读存储介质的全部有益效果,在此不再赘述。
根据本申请的第六个方面,提出了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本申请上述技术方案提出的文本的规范化方法的步骤,因而具有本申请上述技术方案提出的文本的规范化方法的全部有益技术效果,在此不再做过多赘述。
本申请的附加方面和优点将在下面的描述部分中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本申请实施例的文本的规范化方法的流程示意图之一;
图2示出了本申请实施例的第二模型的示意图之一;
图3示出了本申请实施例的第二模型的示意图之二;
图4示出了本申请实施例的文本的规范化方法的流程示意图之二;
图5示出了本申请实施例的文本的规范化方法的流程示意图之三;
图6示出了本申请实施例的第二模型的示意图之三;
图7示出了本申请实施例的文本的规范化方法的流程示意图之四;
图8示出了本申请实施例的文本的规范化装置的示意框图之一;
图9示出了本申请实施例的文本的规范化装置的示意框图之二。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不限于下面公开的具体实施例的限制。
下面结合图1至图9,通过具体的实施例及其应用场景对本申请实施例提供的一种文本的规范化方法、装置、存储介质和电子设备进行详细地说明。
实施例一:
图1示出了本申请实施例的文本的规范化方法的流程示意图,该规范化方法包括:
S102,获取输入文本;
S104,将输入文本输入至第一模型,确定输入文本中字符的标注数据;
S106,根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本。
其中,第一模型为预先训练的神经网络模型,第二模型为加权有限状态转换机,标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
需要说明的是,本申请所提出的文本的规范化方法的执行主体可以是文本的规范化装置,为了更加清楚的对本申请提出的文本的规范化方法进行说明,下面实施例中以文本的规范化方法的执行主体为文本的规范化装置进行示例性说明。
在该实施例中,上述第一模型表示经过训练之后的神经网络模型,其能够对输入文本进行文本序列标注,上述第二模型表示定义规则后的加权有限状态转换机。
具体地,规范化装置首先获取上述输入文本,具体而言,该输入文本表示待进行文本规范化的文本。
进一步地,规范化装置将上述输入文本输入到上述第一模型中,以确定上述标注数据。具体而言,第一模型可以对输入文本中的字符进行文本序列标注,可以预测输入文本中的特殊字符的不同含义的概率分布,可以预测输入文本中多音字和数字的读法,因此,规范化装置可以通过上述第一模型确定出对于输入文本中的字符的标注数据。
进一步地,规范化装置根据上述标注数据,基于第二模型对输入文本进行规范化处理,以得出文本规范化后的输入文本,即上述输出文本。
示例性地,以输入文本为“1-9之间”为例,规范化装置首先会将文本“1-9之间”输入到第一模型中确定出标注数据:“1,CARDINAL”、“-,不同含义的概率分布的负对数”、“9,CARDINAL”、“之,SELF”、“间,SELF”,其中,CARDINAL表示数字,SELF表示不转化,不同含义的概率分布的负对数表示符号“-”不同含义的概率,例如,“-”表示含义为“比”的概率分布的负对数为152.807,表示含义为“到”的概率分布的负对数为2.9802e-06等。
进一步地,规范化装置会通过第二模型,基于上述标注数据对输入文本进行处理,其示意图如图2所示,图2中,1:1表示输入为1输出为1,ε表示跳转符号,即图2中可以直接从第一步跳转至第三步。具体地,设置跳转符号ε的目的为将数字与特殊符号或者数字与文字进行分离处理,例如,在“1-9之间”在“9”和“之”的中间添加空格。
具体地,第二模型基于标注数据计算求解输出文本的最短路径,即0、1、3、4、6、7、9、10、11,在3至4的步骤中会选取概率分布的负对数最小的路径,确定出输出文本为“1到9之间”。
示例性地,以输入文本为“比分1-9”为例,规范化装置首先会将文本“比分1-9”输入到第一模型中确定出标注数据:“比,SELF”、“分,SELF”,“1,CARDINAL”、“-,不同含义的概率分布的负对数”、“9,CARDINAL”,其中,CARDINAL表示数字,SELF表示不转化,不同含义的概率分布的负对数表示符号“-”不同含义的概率,例如,“-”表示含义为“比”的概率分布的负对数为3.0994e-06,表示含义为“到”的概率分布的负对数为13.658等。
进一步地,规范化装置会通过第二模型,基于上述标注数据对输入文本进行处理,其示意图如图3所示,图3中,“比:比”表示输入为“比”输出为“比”,ε表示跳转符号,即图3中可以直接从第一步跳转至第三步。具体地,第二模型基于标注数据计算求解输出文本的最短路径,即0、1、3、4、6、7、8、9在7至8的步骤中会选取概率分布的负对数最小的路径,确定出输出文本为“比分1比9”。
在该实施例中,规范化装置能够通过第一模型确定输入文本的标注数据,能够通过第二模型根据标注数据对输入文本进行处理确定输出文本。在本申请的实施例中,对输入文本的规范化过程中,考虑了第一模型确定的标注数据,避免了对于输入文本的特殊字符规范化过程中,出现歧义的情况,保证了确定出的输入文本的准确性。
此外,由于上述第一模型是通过训练神经网络模型得出的,上述第二模型是对加权有限状态转换机定义规则得到的,使得本申请提出的文本的规范化方法在进行文本规范化的过程中,结合了模型和定义规则,提高了其范化能力,避免了仅采用模型不定义规则可能出现错误的情况。
图4示出了本申请实施例的文本的规范化方法的流程示意图,该规范化方法包括:
S402,获取输入文本;
S404,将输入文本输入至第一模型,确定输入文本中字符的标注数据;
S406,调用第二模型的标签函数,根据标注数据对输入文本进行标注,确定第一文本;
S408,根据第一文本确定输出文本。
在该实施例中,上述标签函数表示加权有限状态转换机(即上述第二模型)的tagger函数,该标签函数能够根据标注数据对输入文本进行标注;上述第一文本表示经过标签函数标注后的文本。
具体地,确定输出文本的过程为:规范化装置首先会调用上述第二模型中的标签函数,将输入文本和标注数据输入到该函数中,以使标签函数根据上述标注数据标注上述输入文本,以确定出上述第一文本。
进一步地,规范化装置根据上述第一文本确定输出文本。具体而言,根据第一文本可以明确输入文本中的每个字符是否需要转换,以及输入文本中特殊字符不同含义的概率,因此,规范化装置可以根据上述第一文本确定出上述输出文本。
示例性地,上述第一文本如表1所示:
表1
具体地,表1中CARDINAL表示数字,tokens表示标签,integer表示整数,name表示一般字符串的含义,通过第一文本可以看出,确定输出文本的过程中,需要对输入文本进行哪些转换,因此,规范化装置可以根据上述第一文本确定出上述输出文本。
在该实施例中,规范化装置可以通过调用上述第二模型中的标签函数,基于标注数据标注输入文本,确定出第一文本,然后根据第一文本确定输出文本。这样,使得确定输出文本的过程中,可以充分利用第一模型预测的标注数据,保证了确定出的输出文本的准确性。
图5示出了本申请实施例的文本的规范化方法的流程示意图,该规范化方法包括:
S502,获取输入文本;
S504,将输入文本输入至第一模型,确定输入文本中字符的标注数据;
S506,调用第二模型的标签函数,根据标注数据对输入文本进行标注,确定第一文本;
S508,调用第二模型的解码路径函数对第一文本中的字符进行解析和位置调整,确定第二文本;
S510,根据第二文本确定输出文本。
具体地,确定输出文本的过程为:规范化装置首先会调用上述第二模型中的解码路径函数,将上述第一文本输入到该函数中进行处理,对该文本中的每个字符进行解析以及位置调整,使其与原始的输入文本中的字符序列的位置相一致,确定出上述第二文本,这样,可以避免确定出的输出文本的准确性。
进一步地,规范化装置根据上述第二文本确定输出文本。具体而言,第二文本表示对第一文本中的字符位置进行适应性调整后的文本,所以,根据第二文本也可以明确输入文本中的每个字符是否需要转换,以及输入文本中特殊字符不同含义的概率,因此,规范化装置可以根据上述第二文本确定出上述输出文本。
示例性地,由于输入文本中的特殊字符可能包括多种含义,所以会产生多条解码路径,因此,需要通过规范化装置求解出多条解码路径中的最短路径。如图6所示,解码得出其最短路径为0、1、4、6、7,即(a:d)->(b:e)->(c:ε)->(d:a),其对应的输入为abcd,对应的输出为dea,由于ε表示跳转字符,根据路径(a:d)->(b:e)->(c:ε)->(d:a)可以得到输出字符的原始位置为d->0,e->1,a->3。
具体而言,以输入文本为“身高(空格)176”为例,其对应的输出为身高一七六,根据路径(身:身)->(高:高)->(空格:ε)->(1:一)->(7:七)->(6:六)可以得到输出字符的原始位置为:身->0,高->1,一->3,七->4,六->5。
在该实施例中,由于经过上述标签函数得出的第一文本中的字符的位置相比于输入文本中原始字符位置可能会发生改变,这可能会导致确定出的输出文本不准确。所以,在本申请的实施例中,规范化装置需要调用解码路径函数对第一文本进行处理,这样,保证了确定出的输出文本的准确性。
图7示出了本申请实施例的文本的规范化方法的流程示意图,该规范化方法包括:
S702,获取输入文本;
S704,将输入文本输入至第一模型,确定输入文本中字符的标注数据;
S706,调用第二模型的标签函数,根据标注数据对输入文本进行标注,确定第一文本;
S708,调用第二模型的解码路径函数对第一文本中的字符进行解析和位置调整,确定第二文本;
S710,调用第二模型的语言化函数对第二文本进行转换,确定输出文本。
在该实施例中,上述语言化函数表示第二模型,即加权有限状态转换机的Verbalizer(语言化)函数。
具体地,确定上述输出文本的过程为:规范化装置通过调用上述语言化函数将上述第二文本转化成输出文本。具体而言,语言化函数可以将第二文本中的标注数据带到输出中,例如多音字或者数字的读法等。
在该实施例中,规范化装置可以通过调用语言化函数将第二文本中的标注数据带到输出中,保证了确定出的输出文本的准确性。
在上述实施例中,特殊字符包括符号、数字、缩写字符和多音字中的一种或多种。
在该实施例中,上述特殊字符包括但不限于多音字、符号、缩写字符和数字。
在上述实施例中,确定输出文本之后,文本的规范化方法还包括:将输入文本转换为可播放语音进行输出。
在该实施例中,规范化装置在确定出输出文本后,还需要将该输出文本转换成可播放的语音,以使用户能够得到与该输入文本相对应的可播放语音。
在该实施例中,规范化装置还可以将输出文本转成可播放语音,使得用户可以通过收听语音的方式了解上述输入文本中的内容。
在上述实施例中,在获取输入文本之前,规范化方法还包括:获取训练数据集;根据训练数据集对预设模型进行训练,确定第一模型;其中,预设模型为神经网络模型。
在该实施例中,上述预设模型表示神经网络模型,上述训练数据集表示通过人工或者设定规则后的加权有限状态转换机对输入文本进行文本序列标注后的训练文本。
具体地,在获取上述输入文本前,规范化装置还用于获取训练数据集,对预设模型进行训练,以确定出能够对输入文本进行文本序列标注,预测输入文本中的特殊字符的不同含义的概率分布,预测输入文本中多音字和数字读法的第一模型。
具体而言,训练数据集中包括有标注数据和输入文本。在训练过程中,规范化装置需要先将输入文本中输入至预设模型中,确定预设模型的输出结果。然后比较输出结果与标注的差异值,并根据差异值至持续优化预设模型,直至预设模型的输出结果与标注数据的匹配度大于设定阈值。
在该实施例中,在获取上述输入文本前,规范化装置还可以获取训练数据集训练预设模型确定第一模型。这样,使得本申请通过第一模型即可快速确定出关于输入文本的标注数据,保证了标注数据确定的效率和准确性,进而保证了确定出的输出文本的准确性。
在上述实施例中,获取输入文本之前,规范化方法还包括:根据预设规则设置第二模型对于输入文本和输出文本的转换规则。
在该实施例中,在获取上述输入文本前,规范化装置还需要根据预设的规则设置第二模型的转换规则,例如,规范化装置根据用户输入的信息设置第二模型的标签函数的标签规则,设置第二模型的解码路径函数分析和位置调整的规则,设置第二模型的语言化函数的转换规则等。
具体而言,通过预设规则设置第二模型的转换规则后,可以保证通过标签函数确定出的第一文本的准确性,可以保证通过解码路径函数确定出的第二文本的准确性,可以保证通过语言化函数确定出的输出文本的准确性。
实施例二:
图8示出了本申请实施例的文本的规范化装置的示意框图,该文本的规范化装置800包括:获取模块802,用于获取输入文本;第一处理模块804,用于将输入文本输入至第一模型,确定输入文本中字符的标注数据;第二处理模块806,用于根据标注数据,通过第二模型对输入文本进行文本规范化处理,确定输出文本;其中,第一模型为预先训练的神经网络模型,第二模型为加权有限状态转换机,标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
在该实施例中,上述第一模型表示预先训练神经网络模型得出的能够对输入文本进行文本序列标注的模型,上述第二模型表示定义规则后的加权有限状态转换机,上述标注数据包括输入文本中字符的序列标注数据和输入文本中特殊字符的不同含义的概率分布。
具体地,首先获取模块802获取上述输入文本,具体而言,该输入文本表示待进行文本规范化的文本。
进一步地,第一处理模块804将上述输入文本输入到上述第一模型中,以确定上述标注数据。具体而言,第一模型可以对输入文本中的字符进行文本序列标注,可以预测输入文本中的特殊字符的不同含义的概率分布,可以预测输入文本中多音字和数字的读法,因此,第一处理模块804可以通过上述第一模型确定出对于输入文本中的字符的标注数据。
进一步地,第二处理模块806根据上述标注数据,基于第二模型对输入文本进行规范化处理,以得出文本规范化后的输入文本,即上述输出文本。
在该实施例中,第一处理模块804能够通过第一模型确定输出文本的标注数据,第二处理模块806能够通过第二模型根据标注数据对输入文本进行处理确定输出文本。在本申请的实施例中,对输入文本的规范化过程中,考虑了第一模型确定的标注数据,避免了对于输入文本的特殊字符规范化过程中,出现歧义的情况,保证了确定出的输入文本的准确性。
此外,由于上述第一模型是通过训练神经网络模型得出的,上述第二模型是对加权有限状态转换机定义规则得到的,使得本申请提出的文本的规范化装置800在进行文本规范化的过程中,结合了模型和定义规则,提高了其范化能力,避免了仅采用模型不定义规则可能出现错误的情况。
在上述实施例中,第二处理模块806具体用于调用第二模型的标签函数,根据标注数据对输入文本进行标注,确定第一文本;第二处理模块806具体用于根据第一文本确定输出文本。
在该实施例中,第二处理模块806可以通过调用上述第二模型中的标签函数,基于标注数据标注输入文本,确定出第一文本,然后根据第一文本确定输出文本。这样,使得确定输出文本的过程中,可以充分利用第一模型预测的标注数据,保证了确定出的输出文本的准确性。
在上述实施例中,第二处理模块806具体用于调用第二模型的解码路径函数对第一文本中的字符进行解析和位置调整,确定第二文本;第二处理模块806具体用于根据第二文本确定输出文本。
在该实施例中,由于经过上述标签函数得出的第一文本中的字符的位置相比于输入文本中原始字符位置可能会发生改变,这可能会导致确定出的输出文本不准确。所以,在本申请的实施例中,第二处理模块806需要调用解码路径函数对第一文本进行处理,这样,保证了确定出的输出文本的准确性。
在上述实施例中,第二处理模块806具体用于调用第二模型的语言化函数对第二文本进行转换,确定输出文本。
在该实施例中,第二处理模块806可以通过调用语言化函数将第二文本中的标注数据带到输出中,保证了确定出的输出文本的准确性。
在上述实施例中,上述特殊字符包括符号、数字、缩写字符和多音字中的一种或多种。
在上述实施例中,第二处理模块806还用于将输入文本转换为可播放语音进行输出。
在该实施例中,第二处理模块806还可以将输出文本转成可播放语音,使得用户可以通过收听语音的方式了解上述输入文本中的内容。
在上述实施例中,获取模块802还用于获取训练数据集;第一处理模块804还用于根据训练数据集对预设模型进行训练,确定第一模型;其中,预设模型为神经网络模型。
在该实施例中,在获取上述输入文本前,第一处理模块804还可以根据获取模块802获取的训练数据集训练预设模型确定第一模型。这样,使得本申请通过第一模型即可快速确定出关于输入文本的标注数据,保证了标注数据确定的效率和准确性,进而保证了确定出的输出文本的准确性。
在上述实施例中,第一处理模块804还用于根据预设规则设置第二模型对于输入文本和输出文本的转换规则。
在该实施例中,第一处理模块804通过预设规则对第二模型的转换规则进行设置,可以保证通过标签函数确定出的第一文本的准确性,可以保证通过解码路径函数确定出的第二文本的准确性,可以保证通过语言化函数确定出的输出文本的准确性。
实施例三:
图9示出了本申请实施例的另一种文本的规范化装置900的示意框图,该文本的规范化装置900包括:存储器902,存储器902中存储有程序或指令;处理器904,处理器904执行存储在存储器902中的程序或指令以实现如本申请上述实施例提出的文本的规范化方法的步骤,因而具有本申请上述实施例提出的文本的规范化方法的全部有益技术效果,在此不再做过多赘述。
实施例四:
根据本申请的第四个实施例,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如本申请上述实施例提出的文本的规范化方法的步骤,因而具有本申请上述实施例提出的文本的规范化方法的全部有益技术效果,在此不再做过多赘述。
实施例五:
根据本申请的第五个实施例,提出了一种电子设备,包括如本发明上述实施例提出的文本的规范化装置,和/或如本发明上述实施例提出的可读存储介质,因此,该电子设备具备本发明上述实施例提出的文本的规范化装置和/或本发明上述实施例提出的可读存储介质的全部有益效果,在此不再赘述。
实施例六:
根据本申请的第六个实施例,提出了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本申请上述实施例提出的文本的规范化方法的步骤,因而具有本申请上述实施例提出的文本的规范化方法的全部有益技术效果,在此不再做过多赘述。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
另外,本申请各个实施例之间的实施例可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当实施例的结合出现相互矛盾或无法实现时应当认为这种实施例的结合不存在,也不在本申请要求的保护范围之内。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种文本的规范化方法,其特征在于,包括:
获取输入文本;
将所述输入文本输入至第一模型,确定所述输入文本中字符的标注数据;
根据所述标注数据,通过第二模型对所述输入文本进行文本规范化处理,确定输出文本;
其中,所述第一模型为预先训练的神经网络模型,所述第二模型为加权有限状态转换机,所述标注数据包括所述输入文本中字符的序列标注数据和所述输入文本中特殊字符的不同含义的概率分布。
2.根据权利要求1所述的文本的规范化方法,其特征在于,所述根据所述标注数据,通过第二模型对所述输入文本进行文本规范化处理,确定输出文本,具体包括:
调用所述第二模型的标签函数,根据所述标注数据对所述输入文本进行标注,确定第一文本;
根据所述第一文本确定所述输出文本。
3.根据权利要求2所述的文本的规范化方法,其特征在于,所述根据所述第一文本确定所述输出文本,具体包括:
调用所述第二模型的解码路径函数对所述第一文本中的字符进行解析和位置调整,确定第二文本;
根据所述第二文本确定所述输出文本。
4.根据权利要求3所述的文本的规范化方法,其特征在于,所述根据所述第二文本确定所述输出文本,具体包括:
调用所述第二模型的语言化函数对所述第二文本进行转换,确定所述输出文本。
5.根据权利要求1至4中任一项所述的文本的规范化方法,其特征在于,所述特殊字符包括符号、数字、缩写字符和多音字中的一种或多种。
6.根据权利要求1至4中任一项所述的文本的规范化方法,其特征在于,所述确定输出文本之后,所述文本的规范化方法还包括:
将所述输入文本转换为可播放语音进行输出。
7.根据权利要求1至4中任一项所述的文本的规范化方法,其特征在于,所述获取输入文本之前,所述规范化方法还包括:
获取训练数据集;
根据所述训练数据集对预设模型进行训练,确定所述第一模型;
其中,所述预设模型为神经网络模型。
8.根据权利要求1至4中任一项所述的文本的规范化方法,其特征在于,所述获取输入文本之前,所述规范化方法还包括:
根据预设规则设置所述第二模型对于所述输入文本和所述输出文本的转换规则。
9.一种文本的规范化装置,其特征在于,包括:
获取模块,用于获取输入文本;
第一处理模块,用于将所述输入文本输入至第一模型,确定所述输入文本中字符的标注数据;
第二处理模块,用于根据所述标注数据,通过第二模型对所述输入文本进行文本规范化处理,确定输出文本;
其中,所述第一模型为预先训练的神经网络模型,所述第二模型为加权有限状态转换机,所述标注数据包括所述输入文本中字符的序列标注数据和所述输入文本中特殊字符的不同含义的概率分布。
10.一种文本的规范化装置,其特征在于,包括:存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的文本的规范化方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至8中任一项所述的文本的规范化方法的步骤。
12.一种电子设备,其特征在于,包括:
如权利要求9或10所述的文本的规范化装置;和/或
如权利要求11所述的可读存储介质。
13.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器被执行时实现如权利要求1至8中任一项所述的文本的规范化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211261757.7A CN115758990A (zh) | 2022-10-14 | 2022-10-14 | 文本的规范化方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211261757.7A CN115758990A (zh) | 2022-10-14 | 2022-10-14 | 文本的规范化方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115758990A true CN115758990A (zh) | 2023-03-07 |
Family
ID=85351456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211261757.7A Pending CN115758990A (zh) | 2022-10-14 | 2022-10-14 | 文本的规范化方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115758990A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1571980A (zh) * | 2001-10-15 | 2005-01-26 | 西尔弗布鲁克研究有限公司 | 字符串识别 |
CN107680579A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN114444492A (zh) * | 2021-12-21 | 2022-05-06 | 清华大学深圳国际研究生院 | 一种非标准词类判别方法及计算机可读存储介质 |
CN115101042A (zh) * | 2022-05-10 | 2022-09-23 | 网易(杭州)网络有限公司 | 一种文本处理方法、装置及设备 |
-
2022
- 2022-10-14 CN CN202211261757.7A patent/CN115758990A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1571980A (zh) * | 2001-10-15 | 2005-01-26 | 西尔弗布鲁克研究有限公司 | 字符串识别 |
CN107680579A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN114444492A (zh) * | 2021-12-21 | 2022-05-06 | 清华大学深圳国际研究生院 | 一种非标准词类判别方法及计算机可读存储介质 |
CN115101042A (zh) * | 2022-05-10 | 2022-09-23 | 网易(杭州)网络有限公司 | 一种文本处理方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
语音之家: "WeNet 丨 WeTextProcessing", 《HTTPS://BLOG.CSDN.NET/WEIXIN_48827824/ARTICLE/DETAILS/127207360》, pages 2 - 4 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114492363B (zh) | 一种小样本微调方法、系统及相关装置 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN110717039A (zh) | 文本分类方法和装置、电子设备、计算机可读存储介质 | |
CN110211562B (zh) | 一种语音合成的方法、电子设备及可读存储介质 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN111667066A (zh) | 网络模型的训练、文字识别方法、装置和电子设备 | |
CN110377882B (zh) | 用于确定文本的拼音的方法、装置、系统和存储介质 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN111209740A (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN112016303A (zh) | 基于图神经网络的文本纠错方法、装置、设备及存储介质 | |
US20030061030A1 (en) | Natural language processing apparatus, its control method, and program | |
CN111243571A (zh) | 文本的处理方法、装置、设备及计算机可读存储介质 | |
CN111783478A (zh) | 机器翻译质量估计方法、装置、设备及存储介质 | |
KR102251554B1 (ko) | 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법 | |
CN112528003A (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN115758990A (zh) | 文本的规范化方法、装置、存储介质和电子设备 | |
CN112380333B (zh) | 用于问答系统的基于拼音概率的文本纠错方法 | |
CN115630696A (zh) | 知识点预测方法、装置、电子设备及存储介质 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
CN113887724A (zh) | 一种基于深度学习的文本训练增强方法与系统 | |
JP2018077677A (ja) | 文字列変換装置、モデル学習装置、方法、及びプログラム | |
CN109597884B (zh) | 对话生成的方法、装置、存储介质和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |