CN115563951A - 文本序列的标注方法、装置、存储介质和电子设备 - Google Patents
文本序列的标注方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN115563951A CN115563951A CN202211261156.6A CN202211261156A CN115563951A CN 115563951 A CN115563951 A CN 115563951A CN 202211261156 A CN202211261156 A CN 202211261156A CN 115563951 A CN115563951 A CN 115563951A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- alignment
- labeling
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 203
- 238000012549 training Methods 0.000 claims abstract description 188
- 238000000034 method Methods 0.000 claims description 70
- 238000012545 processing Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提出了一种文本序列的标注方法、装置、存储介质和电子设备。该标注方法包括:获取训练文本,训练文本包括输入字符和输出字符;根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
Description
技术领域
本申请涉及文本规范化技术领域,具体而言,涉及一种文本序列的标注方法、装置、存储介质和电子设备。
背景技术
相关技术中,训练文本规范化模型(Text Normalization,TN)模型需要用到完成文本序列标注后的训练样本,目前,训练样本通常通过人工对输入文本进行文本序列标注获得,采用这种方案要标注人员具有相关的专业知识,且耗时耗力。
发明内容
本申请旨在至少解决相关技术中存在的技术问题之一。
为此,本申请的第一个方面在于提出一种文本序列的标注方法。
本申请的第二个方面在于提出一种文本序列的标注装置。
本申请的第三个方面在于提出另一种文本序列的标注装置。
本申请的第四个方面在于提出一种可读存储介质。
本申请的第五个方面在于提出一种电子设备。
本申请的第六个方面在于提出一种计算机程序产品。
有鉴于此,根据本申请的一个方面,提出了一种文本序列的标注方法,该标注方法包括:获取训练文本,训练文本包括输入字符和输出字符;根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
需要说明的是,本申请所提出的文本序列的标注方法的执行主体可以是文本序列的标注装置,为了更加清楚的对本申请提出的文本序列的标注方法进行说明,下面技术方案中以文本序列的标注方法的执行主体为文本序列的标注装置进行示例性说明。
在该技术方案中,上述第一模型表示定义规则后的加权有限状态转换机。
具体地,标注装置首先获取训练文本,具体而言,该训练文本中包括有输入字符以及输出字符,其中,输入字符表示待进行文本规范化的字符,输出字符表示与上述输入字符相对应的文本规范化后的字符。
示例性地,上述训练文本可以通过人工编辑获取,也可以通过获取文本规范化的历史数据获取。
进一步地,标注装置根据预先设定的规则,即上述预设规则配置第一模型的对齐规则。具体而言,上述预设规则表示设置上述第一模型对上述输入字符和上述输出字符进行对齐时,各种对齐操作权重的规则;上述对齐规则表示第一模型对训练文本中输入字符和输出字符如何进行对齐的规则。
进一步地,标注装置把上述训练文本输入到上述第一模型中,并基于设置好的对齐规则确定出上述输入字符与上述输出字符之间的对齐结果。
具体而言,第一模型可以根据预先构建的对齐规则将上述输入字符和上述输出字符进行对齐。因此,标注装置只需将训练文本输入至第一模型中,即可得出对齐结果。这样,提高了对齐结果确定的效率和准确性,进行提高了对文本进行序列标注的效率和准确性。
进一步地,标注装置根据确定出的对齐结果确定关于训练文本中的输入字符的文本序列标注,即上述第一标注数据,并根据该标注数据对上述输入字符进行标注,以得出能够用于对文本规范化模型进行训练的训练样本。
具体而言,根据上述对齐结果,可以明确需要执行什么操作才能够将输入字符转换成输出字符,因此,标注装置可以根据对齐结果确定对于上述第一标注数据。
在该技术方案中,标注装置可以通过预先设置好对齐规则的第一模型,即加权有限状态转换机将训练文本中的输入字符和输出字符进行对齐,确定出对齐结果,并能够根据对齐结果确定第一标注数据对输入字符进行文本序列标注,确定出可以用于训练文本规范化模型的训练样本。这样,保证了对于输入字符进行文本序列标注的效率和准确性,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
此外,根据本发明的上述技术方案提出的文本序列的标注方法,还可以具有以下附加技术特征:
在上述技术方案中,根据预设规则构建第一模型的对齐规则的步骤具体包括:根据预设规则设置第一模型对训练文本进行多种对齐操作的权重,以确定对齐规则;其中,对齐操作包括直接输出操作、转化操作、删除操作和插入操作中的任一种。
在该技术方案中,上述对齐操作表示转化操作、直接输出操作、插入操作和删除操作等操作。
具体地,构建上述第一模型中的对齐规则的过程为:标注装置根据预设规则中各种对齐操作的权重设置上述第一模型关于输入字符和输出字符多种对齐操作的权重,以构建出上述对齐规则。
具体而言,上述对齐操作的权重可以理解为该操作的代价,目的是以最小的代价把输入字符转化为输出字符。
在该技术方案中,标注装置可以根据预设规则设置上述对齐操作的权重的方式构建第一模型的对齐规则,这样,可以便于优化第一模型对输入字符和输出字符进行对齐的效果,保证了确定的对齐结果的准确性。
在上述技术方案中,将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果的步骤具体包括:根据对齐规则调用第一模型中的解码路径函数;根据解码路径函数对输入字符和输出字符进行对齐,确定对齐结果。
在该技术方案中,上述解码路径函数表示第一模型中解码输入字符到输出字符路径的函数。
具体地,确定上述对齐结果的过程为:标注装置首先根据确定出的对齐规则调用上述第一模型中用于求解输入字符转换为输出字符最短路径的解码路径函数。
具体而言,由于对齐规则中的权重设置会对解码路径函数求解最短路径造成影响,因此,标注装置需要根据对齐规则确定相应的解码路径函数。
进一步地,标注装置根据调用的上述解码路径函数将训练文本中的输入字符和输出字符对齐,以确定出上述对齐结果。具体而言,解码路径函数可以通过组合操作求解上述最短路径,其中,组合操作表示第一模型中的一种标准算法,一般用运算符“○”表示。
在该技术方案中,标注装置可以根据设定好的对齐规则调用相应的解码路径函数确定输入字符与输出字符之间的对齐结果,这样,保证了确定的对齐结果的效率和准确性,进而保证了后续步骤中根据该对齐结果确定出的第一标注数据的效率和准确性。
在上述技术方案中,根据对齐结果确定第一标注数据的步骤具体包括:根据对齐结果确定输入字符与输出字符之间对应的对齐操作,并根据对齐操作确定第一标注数据。
在该技术方案中,确定上述第一标注数据的具体过程为:标注装置首先根据上述对齐结果确定将输入字符转换成输出字符所采用的对齐操作有哪些,然后根据确定出的这些对齐操作确定对于输入字符的第一标注数据。
在该技术方案中,标注装置可以根据对齐结果确定出将输入字符转换成输出字符所采用的对齐操作,并能够根据对应的对齐操作确定输入字符的第一标注数据,使得每个输入字符均有对应的第一标注数据,这样,有利于保证后续步骤对于输入字符进行文本序列标注的准确性。
在上述技术方案中,在根据对齐结果确定第一标注数据之后,标注方法还包括:根据第一标注数据和训练文本训练第二模型,第二模型表示神经网络模型。
在该技术方案中,上述第二模型表示待进行训练的神经网络模型,训练后的神经网络模型可以用于对输入字符进行文本序列标注。
具体地,在确定出上述第一标注数据后,标注装置还需要根据该第一标注数据和上述训练文本对上述第二模型进行训练,以确定出可以对输入字符进行文本序列标注的模型。
在该技术方案中,标注装置可以根据上述第一标注数据以及上述训练文本构建出可以直接对输入字符进行文本序列标注的模型,这样,在需要训练样本时,仅需要将输入字符输入至训练好的第二模型中进行序列标注,即可得出相应的训练样本,简化了文本序列标注的流程,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
在上述技术方案中,根据第一标注数据和训练文本训练第二模型的步骤具体包括:根据第一标注数据和输入字符训练第二模型,并通过训练后的第二模型对输入字符进行序列标注,确定第二标注数据;根据第二标注数据对输入字符进行文本规范化,确定第一文本;在第一文本中的字符和输出字符的匹配度大于或等于匹配度阈值的情况下,确定第二模型训练完成。
在该技术方案中,上述第二标注数据标注通过训练后的上述第二模型得出的关于输入字符的文本序列标注。
具体地,训练上述第二模型的过程为:标注装置根据将上述训练文本中的输入字符和上述第一标注数据第二模型。具体而言,标注装置首先将输入字符输入至第二模型中,确定第二模型关于文本序列标注的输出结果;然后比较该输出结果与上述第一标注数据之间的差异数据,并根据该差异数据优化和调整第二模型中的参数,得出训练后的第二模型。
进一步地,标注装置将输入字符输入至训练后的上述第二模型,确定上述第二标注数据,然后根据该标注数据文本规范化上述输入字符,确定出相应的输出文本,即上述第一文本。
进一步地,标注装置计算第一文本中的字符与上述输出字符之间的匹配度,并比较该匹配度与设置的匹配度阈值之间的大小关系。具体而言,根据上述二者之间的大小关系,可以明确训练后的第二模型得出的标注数据是否能够满足文本规范化的要求。因此,标注装置需要计算出第一文本中字符与输入字符之间的匹配度。
进一步地,在标注装置判断得出上述匹配度不小于上述匹配度阈值,即大于或者等于上述匹配度阈值时,标注装置确定完成了对于第二模型的训练,即该训练后的模型可以用于对输入字符进行文本序列进行标注。
具体而言,如果上述第一文本中的字符与上述输出字符之间的匹配度大于或者等于上述匹配度阈值,则表明通过训练后的第二模型得出的标注数据可以满足文本规范化的要求,因此,可以确定完成了对于第二模型的训练。
在该技术方案中,在对第二模型的训练过程中,只有在标注装置判断得出第一文本中的字符与上述输出字符之间的匹配度大于或者等于上述匹配度阈值时,才可以确定完成了对于第二模型的训练,这样,保证了后续通过第二模型对输入字符进行文本序列标注的准确性和可靠性。
在上述技术方案中,标注方法还包括:在第一文本中的字符和输出字符的匹配度小于匹配度阈值的情况下,获取训练数据集;根据训练数据集继续训练第二模型,直至确定第二模型训练完成;其中,训练数据集包括对第二模型训练过程中,符合预设要求的第二标注数据和该第二标注数据对应的输入字符。
在该技术方案中,在标注装置判断得出第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值时,标注装置还需要获取训练数据集继续对上述第二模型进行训练,直至训练后的模型可以用于对输入字符进行文本序列进行标注。
具体而言,如果上述第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值,则表明通过训练后的第二模型得出的标注数据不能够满足文本规范化的要求,因此,确定还需要对于第二模型进行训练。
需要说明的是,在获取训练数据集中,包括了通过上述训练文本和上述第一标注数据对第二模型训练过程中,满足可预设要求的第二标注数据以及与其相对应的输入字符。
具体而言,预设要求表示通过第二标注数据文本规范化出的第一文本中的字符与输出字符之间的匹配度大于上述匹配度阈值的情况。
在该技术方案中,在对第二模型的训练过程中,如果标注装置判断得出第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值时,标注装置还需要获取训练数据集继续对上述第二模型进行训练,直至训练后的模型可以用于对输入字符进行文本序列进行标注,这样,保证了后续通过第二模型对输入字符进行文本序列标注的准确性和可靠性。同时,由于获取的训练数据集中包括了符合要求的第二标注数据,使得对第二模型的训练还参考了通过模型得出的标注数据,这样,有利于提高模型训练的效果。
根据本发明的第二个方面,提出了一种文本序列的标注装置,该文本序列的标注装置包括:获取模块,用于获取训练文本,训练文本包括输入字符和输出字符;第一处理模块,用于根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;第二处理模块,用于将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;第三处理模块,用于根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
在该技术方案中,上述第一模型表示定义规则后的加权有限状态转换机。
具体地,首先通过获取模块获取训练文本,具体而言,该训练文本中包括有输入字符以及输出字符,其中,输入字符表示待进行文本规范化的字符,输出字符表示与上述输入字符相对应的文本规范化后的字符。
进一步地,第一处理模块根据预先设定的规则,即上述预设规则配置第一模型的对齐规则。具体而言,上述预设规则表示设置上述第一模型对上述输入字符和上述输出字符进行对齐时,各种对齐操作权重的规则;上述对齐规则表示第一模型对训练文本中输入字符和输出字符如何进行对齐的规则。
进一步地,第二处理模块把上述训练文本输入到上述第一模型中,并基于设置好的对齐规则确定出上述输入字符与上述输出字符之间的对齐结果。
具体而言,第一模型可以根据预先构建的对齐规则将上述输入字符和上述输出字符进行对齐。因此,第二处理模块只需将训练文本输入至第一模型中,即可得出对齐结果。这样,提高了对齐结果确定的效率和准确性,进行提高了对文本进行序列标注的效率和准确性。
进一步地,第三处理模块根据确定出的对齐结果确定关于训练文本中的输入字符的文本序列标注,即上述第一标注数据,并根据该标注数据对上述输入字符进行标注,以得出能够用于对文本规范化模型进行训练的训练样本。
具体而言,根据上述对齐结果,可以明确需要执行什么操作才能够将输入字符转换成输出字符,因此,第三处理模块可以根据对齐结果确定对于上述第一标注数据。
在该技术方案中,第二处理模块可以通过预先设置好对齐规则的第一模型,即加权有限状态转换机将训练文本中的输入字符和输出字符进行对齐,确定出对齐结果,第三处理模块能够根据对齐结果确定第一标注数据对输入字符进行文本序列标注,确定出可以用于训练文本规范化模型的训练样本。这样,保证了对于输入字符进行文本序列标注的效率和准确性,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
根据本申请第三个方面,提出了另一种文本序列的标注装置,包括:存储器,存储器中存储有程序或指令;处理器,处理器执行存储在存储器中的程序或指令以实现如本申请上述技术方案提出的文本序列的标注方法的步骤,因而具有本申请上述技术方案提出的文本序列的标注方法的全部有益技术效果,在此不再做过多赘述。
根据本申请的第四个方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如本申请上述技术方案提出的文本序列的标注方法的步骤,因而具有本申请上述技术方案提出的文本序列的标注方法的全部有益技术效果,在此不再做过多赘述。
根据本申请的第五个方面,提出了一种电子设备,包括如本发明上述技术方案提出的文本序列的标注装置,和/或如本发明上述技术方案提出的可读存储介质,因此,该电子设备具备本发明上述技术方案提出的文本序列的标注装置和/或本发明上述技术方案提出的可读存储介质的全部有益效果,在此不再赘述。
根据本申请的第六个方面,提出了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本申请上述技术方案提出的文本序列的标注方法的步骤,因而具有本申请上述技术方案提出的文本序列的标注方法的全部有益技术效果,在此不再做过多赘述。
本申请的附加方面和优点将在下面的描述部分中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本申请实施例的文本序列的标注方法的流程示意图之一;
图2示出了本申请实施例的文本序列的标注方法的流程示意图之二;
图3示出了本申请实施例的构建好对齐规则的第一模型的示意图;
图4示出了本申请实施例的文本序列的标注方法的流程示意图之三;
图5示出了本申请实施例的第一模型的组合操作的示意图;
图6示出了本申请实施例的文本序列的标注方法的流程示意图之四;
图7示出了本申请实施例的文本序列的标注方法的流程示意图之五;
图8示出了本申请实施例的文本序列的标注装置的示意框图之一;
图9示出了本申请实施例的文本序列的标注装置的示意框图之二。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不限于下面公开的具体实施例的限制。
下面结合图1至图9,通过具体的实施例及其应用场景对本申请实施例提供的一种文本序列的标注方法、装置、存储介质和电子设备进行详细地说明。
实施例一:
图1示出了本申请实施例的文本序列的标注方法的流程示意图,该标注方法包括:
S102,获取训练文本,训练文本包括输入字符和输出字符;
S104,根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;
S106,将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;
S108,根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
需要说明的是,本申请所提出的文本序列的标注方法的执行主体可以是文本序列的标注装置,为了更加清楚的对本申请提出的文本序列的标注方法进行说明,下面实施例中以文本序列的标注方法的执行主体为文本序列的标注装置进行示例性说明。
在该实施例中,上述第一模型表示定义规则后的加权有限状态转换机。
具体地,标注装置首先获取训练文本,具体而言,该训练文本中包括有输入字符以及输出字符,其中,输入字符表示待进行文本规范化的字符,输出字符表示与上述输入字符相对应的文本规范化后的字符。
示例性地,上述训练文本可以通过人工编辑获取,也可以通过获取文本规范化的历史数据获取。
进一步地,标注装置根据预先设定的规则,即上述预设规则配置第一模型的对齐规则。具体而言,上述预设规则表示设置上述第一模型对上述输入字符和上述输出字符进行对齐时,各种对齐操作权重的规则;上述对齐规则表示第一模型对训练文本中输入字符和输出字符如何进行对齐的规则。
需要说明的是,对训练输入字符和输出字符进行对齐,就是将输入字符和输出字符之间建立对应关系的过程。
进一步地,标注装置把上述训练文本输入到上述第一模型中,并基于设置好的对齐规则确定出上述输入字符与上述输出字符之间的对齐结果。
具体而言,第一模型可以根据预先构建的对齐规则将上述输入字符和上述输出字符进行对齐。因此,标注装置只需将训练文本输入至第一模型中,即可得出对齐结果。这样,提高了对齐结果确定的效率和准确性,进行提高了对文本进行序列标注的效率和准确性。
进一步地,标注装置根据确定出的对齐结果确定关于训练文本中的输入字符的文本序列标注,即上述第一标注数据,并根据该标注数据对上述输入字符进行标注,以得出能够用于对文本规范化模型进行训练的训练样本。
具体而言,根据上述对齐结果,可以明确需要执行什么操作才能够将输入字符转换成输出字符,因此,标注装置可以根据对齐结果确定对于上述第一标注数据。
示例性地,以训练文本中的输入字符为“预计基本每股收益0.313元-0.366元”,输出字符为“预计基本每股收益零点三一三元到零点三六六元”作为示例,通过第一模型进行对齐后,可以得到对齐结果“[['预','预'],['计','计'],['基','基'],['本','本'],['每','每'],['股','股'],['收','收'],['益','益'],['0','零'],['.','点'],['3','三'],['1','一'],['3','三'],['元','元'],['-','到'],['0','零'],['.','点'],['3','三'],['6','六'],['6','六'],['元','元']]”。
进一步地,标注装置根据对齐结果即可确定出用于标注输入字符的第一标注数据,如根据对齐结果中的['-','到']可知,字符“-”转化成了“到”则其对应的第一标注数据为“RANGE(区间)”,根据对齐结果中的['.','点']可知,字符中的“.”转化成了“点”,则其对应的第一标注数据标注为“POINT(点)”,POINT之前的数字标注为CARDINAL(转化为数字读法),POINT之后的数字标注为DIGIT(转化为数字串),没有变化的字符标为SELF(不需要转化)。
在该实施例中,标注装置可以通过预先设置好对齐规则的第一模型,即加权有限状态转换机将训练文本中的输入字符和输出字符进行对齐,确定出对齐结果,并能够根据对齐结果确定第一标注数据对输入字符进行文本序列标注,确定出可以用于训练文本规范化模型的训练样本。这样,保证了对于输入字符进行文本序列标注的效率和准确性,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
图2示出了本申请实施例的文本序列的标注方法的流程示意图,该标注方法包括:
S202,获取训练文本,训练文本包括输入字符和输出字符;
S204,根据预设规则设置第一模型对训练文本进行多种对齐操作的权重,以确定对齐规则;
S206,将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;
S208,根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
在一种实施例中,对齐操作包括直接输出操作、转化操作、删除操作和插入操作中的任一种。
在该实施例中,上述对齐操作表示转化操作、直接输出操作、插入操作和删除操作等操作。
具体地,构建上述第一模型中的对齐规则的过程为:标注装置根据预设规则中各种对齐操作的权重设置上述第一模型关于输入字符和输出字符多种对齐操作的权重,以构建出上述对齐规则。
具体而言,上述对齐操作的权重可以理解为该操作的代价,目的是以最小的代价把输入字符转化为输出字符。
示例性地,构建好对齐规则的第一模型的示意图如图3所示,图3中,“:”前的字母表示输入字符,“:”后的字母表示输出字符,例如“a:a”表示输入字符为a,输出字符也为a。图3中,λ表示对齐操作的权重,UNK表示未知的字符。
示例性地,上述直接输出操作的权重可以设置为0,直接输出操作的对象一般为汉字、英文字符等;上述转化操作的权重可以设置为0.1,转化操作的对象一般为特殊字符;上述删除操作的权重可以设置为0.11,删除操作的对象一般为标点符号或者数字等;上述插入操作的权重可以设置为0.1,删除操作的对象为时间单位或者数量单位等。
在该实施例中,标注装置可以根据预设规则设置上述对齐操作的权重的方式构建第一模型的对齐规则,这样,可以便于优化第一模型对输入字符和输出字符进行对齐的效果,保证了确定的对齐结果的准确性。
图4示出了本申请实施例的文本序列的标注方法的流程示意图,该标注方法包括:
S402,获取训练文本,训练文本包括输入字符和输出字符;
S404,根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;
S406,根据对齐规则调用第一模型中的解码路径函数;
S408,根据解码路径函数对输入字符和输出字符进行对齐,确定对齐结果;
S410,根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
在该实施例中,上述解码路径函数表示第一模型中解码输入字符到输出字符路径的函数。
具体地,确定上述对齐结果的过程为:标注装置首先根据确定出的对齐规则调用上述第一模型中用于求解输入字符转换为输出字符最短路径的解码路径函数。
具体而言,由于对齐规则中的权重设置会对解码路径函数求解最短路径造成影响,因此,标注装置需要根据对齐规则确定相应的解码路径函数。
进一步地,标注装置根据调用的上述解码路径函数将训练文本中的输入字符和输出字符对齐,以确定出上述对齐结果。具体而言,解码路径函数可以通过组合操作求解上述最短路径,其中,组合操作表示第一模型中的一种标准算法,一般用运算符“○”表示。
示例性地,组合操作的示意图如图5所示,组合操作就是将图5(a)所示的A和图5(b)所示的B进行组合,得出图5(c)所示的C,以0至1为例,对于图5(a)中0至1的输入为“a”输出为“b”权重为0.1,对于图5(b)中0至1的输入为“b”输出为“c”权重为0.3,通过组合操作,可以求解出输入为“a”输出为“c”的最短路径,即图5(c)中(0,0)至(1,1)的路径,其输入为“a”输出为“b”权重为0.1+0.3=0.4。
示例性地,解码路径函数的表达式为:
解码路径=ShortestPath(输入字符○EditTransducer○输出字符);
其中,ShortestPath表示最短路径,EditTransducer表示编辑器,根据上述解码路径函数求出上述输入字符与输出字符对应的解码路径,该解码路径即为上述对齐结果。
在该实施例中,标注装置可以根据设定好的对齐规则调用相应的解码路径函数确定输入字符与输出字符之间的对齐结果,这样,保证了确定的对齐结果的效率和准确性,进而保证了后续步骤中根据该对齐结果确定出的第一标注数据的效率和准确性。
图6示出了本申请实施例的文本序列的标注方法的流程示意图,该标注方法包括:
S602,获取训练文本,训练文本包括输入字符和输出字符;
S604,根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;
S606,将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;
S608,根据对齐结果确定输入字符与输出字符之间对应的对齐操作,根据对齐操作确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
在该实施例中,确定上述第一标注数据的具体过程为:标注装置首先根据上述对齐结果确定将输入字符转换成输出字符所采用的对齐操作有哪些,然后根据确定出的这些对齐操作确定对于输入字符的第一标注数据。
示例性地,以对齐结果为['预','预']为例,根据该结果可以确定输入字符为“预”输出结果也为“预”,因此可以确定对应的对齐操作为直接输出,因此,可以确定对于输入字符中的“预”的第一标注数据为SELF。
示例性地,以对齐结果为['-','到']为例,根据该结果可以确定输入字符为“-”输出结果也为“到”,因此可以确定对应的对齐操作为转化操作,因此,可以确定对于输入字符中的“-”的第一标注数据为RANGE。
在该实施例中,标注装置可以根据对齐结果确定出将输入字符转换成输出字符所采用的对齐操作,并能够根据对应的对齐操作确定输入字符的第一标注数据,使得每个输入字符均有对应的第一标注数据,这样,有利于保证后续步骤对于输入字符进行文本序列标注的准确性。
图7示出了本申请实施例的文本序列的标注方法的流程示意图,该标注方法包括:
S702,获取训练文本,训练文本包括输入字符和输出字符;
S704,根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;
S706,将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;
S708,根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注;
S710,根据第一标注数据和训练文本训练第二模型,第二模型表示神经网络模型。
在该实施例中,上述第二模型表示待进行训练的神经网络模型,训练后的神经网络模型可以用于对输入字符进行文本序列标注。
具体地,在确定出上述第一标注数据后,标注装置还需要根据该第一标注数据和上述训练文本对上述第二模型进行训练,以确定出可以对输入字符进行文本序列标注的模型。
在该实施例中,标注装置可以根据上述第一标注数据以及上述训练文本构建出可以直接对输入字符进行文本序列标注的模型,这样,在需要训练样本时,仅需要将输入字符输入至训练好的第二模型中进行序列标注,即可得出相应的训练样本,这样,简化了文本序列标注的流程,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
在上述实施例中,根据第一标注数据和训练文本训练第二模型的步骤具体包括:根据第一标注数据和输入字符训练第二模型,并通过训练后的第二模型对输入字符进行序列标注,确定第二标注数据;根据第二标注数据对输入字符进行文本规范化,确定第一文本;在第一文本中的字符和输出字符的匹配度大于或等于匹配度阈值的情况下,确定第二模型训练完成。
在该实施例中,上述第二标注数据标注通过训练后的上述第二模型得出的关于输入字符的文本序列标注。
具体地,训练上述第二模型的过程为:标注装置根据将上述训练文本中的输入字符和上述第一标注数据第二模型。具体而言,标注装置首先将输入字符输入至第二模型中,确定第二模型关于文本序列标注的输出结果;然后比较该输出结果与上述第一标注数据之间的差异数据,并根据该差异数据优化和调整第二模型中的参数,得出训练后的第二模型。
进一步地,标注装置将输入字符输入至训练后的上述第二模型,确定上述第二标注数据,然后根据该标注数据文本规范化上述输入字符,确定出相应的输出文本,即上述第一文本。
进一步地,标注装置计算第一文本中的字符与上述输出字符之间的匹配度,并比较该匹配度与设置的匹配度阈值之间的大小关系。具体而言,根据上述二者之间的大小关系,可以明确训练后的第二模型得出的标注数据是否能够满足文本规范化的要求。因此,标注装置需要计算出第一文本中字符与输入字符之间的匹配度。
进一步地,在标注装置判断得出上述匹配度不小于上述匹配度阈值,即大于或者等于上述匹配度阈值时,标注装置确定完成了对于第二模型的训练,即该训练后的模型可以用于对输入字符进行文本序列进行标注。
具体而言,如果上述第一文本中的字符与上述输出字符之间的匹配度大于或者等于上述匹配度阈值,则表明通过训练后的第二模型得出的标注数据可以满足文本规范化的要求,因此,可以确定完成了对于第二模型的训练。
在该实施例中,在对第二模型的训练过程中,只有在标注装置判断得出第一文本中的字符与上述输出字符之间的匹配度大于或者等于上述匹配度阈值时,才可以确定完成了对于第二模型的训练,这样,保证了后续通过第二模型对输入字符进行文本序列标注的准确性和可靠性。
在上述实施例中,标注方法还包括:在第一文本中的字符和输出字符的匹配度小于匹配度阈值的情况下,获取训练数据集;根据训练数据集继续训练第二模型,直至确定第二模型训练完成;其中,训练数据集包括对第二模型训练过程中,符合预设要求的第二标注数据和该第二标注数据对应的输入字符。
在该实施例中,在标注装置判断得出第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值时,标注装置还需要获取训练数据集继续对上述第二模型进行训练,直至训练后的模型可以用于对输入字符进行文本序列进行标注。
具体而言,如果上述第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值,则表明通过训练后的第二模型得出的标注数据不能够满足文本规范化的要求,因此,确定还需要对于第二模型进行训练。
需要说明的是,在获取训练数据集中,包括了通过上述训练文本和上述第一标注数据对第二模型训练过程中,满足可预设要求的第二标注数据以及与其相对应的输入字符。
具体而言,预设要求表示通过第二标注数据文本规范化出的第一文本中的字符与输出字符之间的匹配度大于上述匹配度阈值的情况。
在该实施例中,在对第二模型的训练过程中,如果标注装置判断得出第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值时,标注装置还需要获取训练数据集继续对上述第二模型进行训练,直至训练后的模型可以用于对输入字符进行文本序列进行标注,这样,保证了后续通过第二模型对输入字符进行文本序列标注的准确性和可靠性。同时,由于获取的训练数据集中包括了符合要求的第二标注数据,使得对第二模型的训练还参考了通过模型得出的标注数据,这样,有利于提高模型训练的效果。
实施例二:
图8示出了本申请实施例的文本序列的标注装置800的示意框图,该文本序列的标注装置800包括:获取模块802,用于获取训练文本,训练文本包括输入字符和输出字符;第一处理模块804,用于根据预设规则构建第一模型的对齐规则,第一模型为加权有限状态转换机,对齐规则为对输入字符和输出字符进行对齐输出的规则;第二处理模块806,用于将训练文本输入至第一模型,基于对齐规则确定输入字符和输出字符的对齐结果;第三处理模块808,用于根据对齐结果确定第一标注数据,并根据第一标注数据对输入字符进行序列标注。
在该实施例中,上述第一模型表示定义规则后的加权有限状态转换机。
具体地,首先通过获取模块802获取训练文本,具体而言,该训练文本中包括有输入字符以及输出字符,其中,输入字符表示待进行文本规范化的字符,输出字符表示与上述输入字符相对应的文本规范化后的字符。
进一步地,第一处理模块804根据预先设定的规则,即上述预设规则配置第一模型的对齐规则。具体而言,上述预设规则表示设置上述第一模型对上述输入字符和上述输出字符进行对齐时,各种对齐操作权重的规则;上述对齐规则表示第一模型对训练文本中输入字符和输出字符如何进行对齐的规则。
进一步地,第二处理模块806把上述训练文本输入到上述第一模型中,并基于设置好的对齐规则确定出上述输入字符与上述输出字符之间的对齐结果。
具体而言,第一模型可以根据预先构建的对齐规则将上述输入字符和上述输出字符进行对齐。因此,第二处理模块806只需将训练文本输入至第一模型中,即可得出对齐结果。这样,提高了对齐结果确定的效率和准确性,进行提高了对文本进行序列标注的效率和准确性。
进一步地,第三处理模块808根据确定出的对齐结果确定关于训练文本中的输入字符的文本序列标注,即上述第一标注数据,并根据该标注数据对上述输入字符进行标注,以得出能够用于对文本规范化模型进行训练的训练样本。
具体而言,根据上述对齐结果,可以明确需要执行什么操作才能够将输入字符转换成输出字符,因此,第三处理模块808可以根据对齐结果确定对于上述第一标注数据。
在该实施例中,第二处理模块806可以通过预先设置好对齐规则的第一模型,即加权有限状态转换机将训练文本中的输入字符和输出字符进行对齐,确定出对齐结果,第三处理模块808能够根据对齐结果确定第一标注数据对输入字符进行文本序列标注,确定出可以用于训练文本规范化模型的训练样本。这样,保证了对于输入字符进行文本序列标注的效率和准确性,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
在上述实施例中,第一处理模块804具体用于根据预设规则设置第一模型对训练文本进行多种对齐操作的权重,以确定对齐规则;其中,对齐操作包括直接输出操作、转化操作、删除操作和插入操作中的任一种。
在该实施例中,第一处理模块804可以根据预设规则设置上述对齐操作的权重的方式构建第一模型的对齐规则,这样,可以便于优化第一模型对输入字符和输出字符进行对齐的效果,保证了确定的对齐结果的准确性。
在上述实施例中,第二处理模块806具体用于根据对齐规则调用第一模型中的解码路径函数;根据解码路径函数对输入字符和输出字符进行对齐,确定对齐结果。
在该实施例中,第二处理模块806可以根据设定好的对齐规则调用相应的解码路径函数确定输入字符与输出字符之间的对齐结果,这样,保证了确定的对齐结果的效率和准确性,进而保证了后续步骤中根据该对齐结果确定出的第一标注数据的效率和准确性。
在上述实施例中,第三处理模块808具体用于根据对齐结果确定输入字符与输出字符之间对应的对齐操作,并根据对齐操作确定第一标注数据。
在该实施例中,第三处理模块808可以根据对齐结果确定出将输入字符转换成输出字符所采用的对齐操作,并能够根据对应的对齐操作确定输入字符的第一标注数据,使得每个输入字符均有对应的第一标注数据,这样,有利于保证后续步骤对于输入字符进行文本序列标注的准确性。
在上述实施例中,第三处理模块808还用于根据第一标注数据和训练文本训练第二模型,第二模型表示神经网络模型。
在该实施例中,第三处理模块808可以根据上述第一标注数据以及上述训练文本构建出可以直接对输入字符进行文本序列标注的模型,这样,在需要训练样本时,仅需要将输入字符输入至训练好的第二模型中进行序列标注,即可得出相应的训练样本,简化了文本序列标注的流程,解决了相关技术中,采用人工对输入文本进行文本序列标注获得训练样本的方案中,需要标注人员具有相关的专业知识,且耗时耗力的问题,保证了获得的训练样本的准确性。
在上述实施例中,第三处理模块808具体用于根据第一标注数据和输入字符训练第二模型,并通过训练后的第二模型对输入字符进行序列标注,确定第二标注数据;根据第二标注数据对输入字符进行文本规范化,确定第一文本;在第一文本中的字符和输出字符的匹配度大于或等于匹配度阈值的情况下,确定第二模型训练完成。
在该实施例中,在对第二模型的训练过程中,只有在第三处理模块808判断得出第一文本中的字符与上述输出字符之间的匹配度大于或者等于上述匹配度阈值时,才可以确定完成了对于第二模型的训练,这样,保证了后续通过第二模型对输入字符进行文本序列标注的准确性和可靠性。
在上述实施例中,第三处理模块808还用于在第一文本中的字符和输出字符的匹配度小于匹配度阈值的情况下,获取训练数据集;根据训练数据集继续训练第二模型,直至确定第二模型训练完成;其中,训练数据集包括对第二模型训练过程中,符合预设要求的第二标注数据和该第二标注数据对应的输入字符。
在该实施例中,在对第二模型的训练过程中,如果第三处理模块808判断得出第一文本中的字符与上述输出字符之间的匹配度小于上述匹配度阈值时,第三处理模块808还需要获取训练数据集继续对上述第二模型进行训练,直至训练后的模型可以用于对输入字符进行文本序列进行标注,这样,保证了后续通过第二模型对输入字符进行文本序列标注的准确性和可靠性。同时,由于获取的训练数据集中包括了符合要求的第二标注数据,使得对第二模型的训练还参考了通过模型得出的标注数据,这样,有利于提高模型训练的效果。
实施例三:
图9示出了本申请实施例的另一种文本序列的标注装置900的示意框图,该文本序列的标注装置900包括:存储器902,存储器902中存储有程序或指令;处理器904,处理器904执行存储在存储器902中的程序或指令以实现如本申请上述实施例提出的文本序列的标注方法的步骤,因而具有本申请上述实施例提出的文本序列的标注方法的全部有益技术效果,在此不再做过多赘述。
实施例四:
根据本申请的第四个实施例,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如本申请上述实施例提出的文本序列的标注方法的步骤,因而具有本申请上述实施例提出的文本序列的标注方法的全部有益技术效果,在此不再做过多赘述。
实施例五:
根据本申请的第五个实施例,提出了一种电子设备,包括如本发明上述实施例提出的文本序列的标注装置,和/或如本发明上述实施例提出的可读存储介质,因此,该电子设备具备本发明上述实施例提出的文本序列的标注装置和/或本发明上述实施例提出的可读存储介质的全部有益效果,在此不再赘述。
实施例六:
根据本申请的第六个实施例,提出了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如本申请上述实施例提出的文本序列的标注方法的步骤,因而具有本申请上述实施例提出的文本序列的标注方法的全部有益技术效果,在此不再做过多赘述。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种文本序列的标注方法,其特征在于,包括:
获取训练文本,所述训练文本包括输入字符和输出字符;
根据预设规则构建第一模型的对齐规则,所述第一模型为加权有限状态转换机,所述对齐规则为对所述输入字符和所述输出字符进行对齐输出的规则;
将所述训练文本输入至第一模型,基于所述对齐规则确定所述输入字符和输出字符的对齐结果;
根据所述对齐结果确定第一标注数据,并根据所述第一标注数据对所述输入字符进行序列标注。
2.根据权利要求1所述的文本序列的标注方法,其特征在于,所述根据预设规则构建第一模型的对齐规则,具体包括:
根据所述预设规则设置所述第一模型对所述训练文本进行多种对齐操作的权重,以确定所述对齐规则;
其中,所述对齐操作包括直接输出操作、转化操作、删除操作和插入操作中的任一种。
3.根据权利要求1所述的文本序列的标注方法,其特征在于,所述将所述训练文本输入至第一模型,基于所述对齐规则确定所述输入字符和输出字符的对齐结果,具体包括:
根据所述对齐规则调用所述第一模型中的解码路径函数;
根据所述解码路径函数对所述输入字符和所述输出字符进行对齐,确定所述对齐结果。
4.根据权利要求1至3中任一项所述的文本序列的标注方法,其特征在于,所述根据所述对齐结果确定第一标注数据,具体包括:
根据所述对齐结果确定所述输入字符与所述输出字符之间对应的所述对齐操作,并根据所述对齐操作确定所述第一标注数据。
5.根据权利要求1至3中任一项所述的文本序列的标注方法,其特征在于,在所述根据所述对齐结果确定所述第一标注数据之后,所述标注方法还包括:
根据所述第一标注数据和所述训练文本训练第二模型,所述第二模型表示神经网络模型。
6.根据权利要求5所述的文本序列的标注方法,其特征在于,所述根据所述第一标注数据和所述训练文本训练第二模型,具体包括:
根据所述第一标注数据和所述输入字符训练所述第二模型,并通过训练后的第二模型对所述输入字符进行序列标注,确定第二标注数据;
根据所述第二标注数据对所述输入字符进行文本规范化,确定第一文本;
在所述第一文本中的字符和所述输出字符的匹配度大于或等于匹配度阈值的情况下,确定所述第二模型训练完成。
7.根据权利要求6所述的文本序列的标注方法,其特征在于,所述标注方法还包括:
在所述第一文本中的字符和所述输出字符的匹配度小于匹配度阈值的情况下,获取训练数据集;
根据所述训练数据集继续训练所述第二模型,直至确定所述第二模型训练完成;
其中,所述训练数据集包括对所述第二模型训练过程中,符合预设要求的所述第二标注数据和该第二标注数据对应的输入字符。
8.一种文本序列的标注装置,其特征在于,包括:
获取模块,用于获取训练文本,所述训练文本包括输入字符和输出字符;
第一处理模块,用于根据预设规则构建第一模型的对齐规则,所述第一模型为加权有限状态转换机,所述对齐规则为对所述输入字符和所述输出字符进行对齐输出的规则;
第二处理模块,用于将所述训练文本输入至第一模型,基于所述对齐规则确定所述输入字符和输出字符的对齐结果;
第三处理模块,用于根据所述对齐结果确定第一标注数据,并根据所述第一标注数据对所述输入字符进行序列标注。
9.一种文本序列的标注装置,其特征在于,包括:存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的文本序列的标注方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的文本序列的标注方法的步骤。
11.一种电子设备,其特征在于,包括:
如权利要求8或9所述的文本序列的标注装置;和/或
如权利要求10所述的可读存储介质。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器被执行时实现如权利要求1至7中任一项所述的文本序列的标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211261156.6A CN115563951B (zh) | 2022-10-14 | 2022-10-14 | 文本序列的标注方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211261156.6A CN115563951B (zh) | 2022-10-14 | 2022-10-14 | 文本序列的标注方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115563951A true CN115563951A (zh) | 2023-01-03 |
CN115563951B CN115563951B (zh) | 2024-07-05 |
Family
ID=84744165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211261156.6A Active CN115563951B (zh) | 2022-10-14 | 2022-10-14 | 文本序列的标注方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115563951B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536656A (zh) * | 2018-03-09 | 2018-09-14 | 北京云知声信息技术有限公司 | 基于wfst的文本正则化方法及系统 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111695344A (zh) * | 2019-02-27 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 文本的标注方法和装置 |
CN113743101A (zh) * | 2021-08-17 | 2021-12-03 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和计算机存储介质 |
WO2021254411A1 (zh) * | 2020-06-17 | 2021-12-23 | 华为技术有限公司 | 意图识别方法和电子设备 |
US20220284190A1 (en) * | 2021-03-02 | 2022-09-08 | Microsoft Technology Licensing, Llc | Tokenizing alphanumeric text through use of finite state machines |
-
2022
- 2022-10-14 CN CN202211261156.6A patent/CN115563951B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536656A (zh) * | 2018-03-09 | 2018-09-14 | 北京云知声信息技术有限公司 | 基于wfst的文本正则化方法及系统 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111695344A (zh) * | 2019-02-27 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 文本的标注方法和装置 |
WO2021254411A1 (zh) * | 2020-06-17 | 2021-12-23 | 华为技术有限公司 | 意图识别方法和电子设备 |
US20220284190A1 (en) * | 2021-03-02 | 2022-09-08 | Microsoft Technology Licensing, Llc | Tokenizing alphanumeric text through use of finite state machines |
CN113743101A (zh) * | 2021-08-17 | 2021-12-03 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和计算机存储介质 |
Non-Patent Citations (5)
Title |
---|
58技术: "语音识别中的WFST和语言模型", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/339718203> * |
CARLES MARK: "加权有限状态转换器 Weighted Finite State Transducers", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/431415117> * |
WINT THEINGI ZAW等: "Applying Weighted Finite State Transducers and Ripple Down Rules for Myanmar Name Romanization", 2020 17TH INTERNATIONAL CONFERENCE ON ELECTRICAL ENGINEERING/ELECTRONICS, COMPUTER, TELECOMMUNICATIONS AND INFORMATION TECHNOLOGY (ECTI-CON), 4 August 2020 (2020-08-04) * |
王朝松: "基于深度学习的汉语语音关键词检测方法研究", 中国优秀硕士学位论文全文数据库 信息科技专辑, 15 February 2016 (2016-02-15) * |
语音之家: "WeNet丨WeTextProcessing", pages 1, Retrieved from the Internet <URL:http://t.csdnimg.cn/CYdqT> * |
Also Published As
Publication number | Publication date |
---|---|
CN115563951B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135910A1 (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
JP4003468B2 (ja) | 適合性フィードバックによる類似データ検索方法および装置 | |
CN111582169A (zh) | 图像识别数据纠错方法、装置、计算机设备和存储介质 | |
CN114896373B (zh) | 图文互检模型训练方法及装置、图文互检方法、设备 | |
CN115455089B (zh) | 一种无源组件的性能评估方法、系统及存储介质 | |
CN110599131A (zh) | 一种电气图纸识别与审查方法、装置及可读存储介质 | |
CN108388640B (zh) | 一种数据转换方法、装置以及数据处理系统 | |
CN113157854B (zh) | Api的敏感数据泄露检测方法及系统 | |
CN112468658A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN111178537A (zh) | 一种特征提取模型训练方法及设备 | |
CN113360300B (zh) | 接口调用链路生成方法、装置、设备及可读存储介质 | |
CN113326363B (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN114724158A (zh) | 一种工程量审核方法、系统、电子设备和存储介质 | |
CN115563951A (zh) | 文本序列的标注方法、装置、存储介质和电子设备 | |
CN111782774B (zh) | 一种问题推荐的方法及装置 | |
CN112882786B (zh) | 用于辅助推荐图表类型的方法、装置、电子设备及存储介质 | |
CN115563377A (zh) | 企业的确定方法、装置、存储介质及电子设备 | |
CN111400644B (zh) | 一种用于实验室分析样品的计算处理方法 | |
CN114443493A (zh) | 一种测试案例生成方法、装置、电子设备和存储介质 | |
CN114741697A (zh) | 恶意代码分类方法、装置、电子设备和介质 | |
CN112397180B (zh) | 手术影像的智能标记系统及其方法 | |
US8380690B2 (en) | Automating form transcription | |
CN112181796A (zh) | 信息采集方法、装置、服务器及存储介质 | |
CN109784367B (zh) | 用户画像方法、装置、计算机可读存储介质及电子设备 | |
CN115758990A (zh) | 文本的规范化方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |