CN110674629B - 标点符号标注模型及其训练方法、设备、存储介质 - Google Patents
标点符号标注模型及其训练方法、设备、存储介质 Download PDFInfo
- Publication number
- CN110674629B CN110674629B CN201910925881.0A CN201910925881A CN110674629B CN 110674629 B CN110674629 B CN 110674629B CN 201910925881 A CN201910925881 A CN 201910925881A CN 110674629 B CN110674629 B CN 110674629B
- Authority
- CN
- China
- Prior art keywords
- punctuation
- punctuation mark
- word segmentation
- label
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 240
- 238000002372 labelling Methods 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 160
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000013526 transfer learning Methods 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 102
- 239000013598 vector Substances 0.000 description 21
- 241000283725 Bos Species 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 238000000926 separation method Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000001788 irregular Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 102100036962 5'-3' exoribonuclease 1 Human genes 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 2
- 101000804879 Homo sapiens 5'-3' exoribonuclease 1 Proteins 0.000 description 2
- 101000654664 Homo sapiens Neuronal-specific septin-3 Proteins 0.000 description 2
- 101000632314 Homo sapiens Septin-6 Proteins 0.000 description 2
- 101000632054 Homo sapiens Septin-8 Proteins 0.000 description 2
- 102100032769 Neuronal-specific septin-3 Human genes 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 102100027982 Septin-6 Human genes 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100378610 Arabidopsis thaliana AGL3 gene Proteins 0.000 description 1
- 101100365736 Candida albicans (strain SC5314 / ATCC MYA-2876) SEP7 gene Proteins 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 101100365737 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SHS1 gene Proteins 0.000 description 1
- 101100022768 Schizosaccharomyces pombe (strain 972 / ATCC 24843) med18 gene Proteins 0.000 description 1
- 101100478275 Schizosaccharomyces pombe (strain 972 / ATCC 24843) spt8 gene Proteins 0.000 description 1
- 102100032743 Septin-4 Human genes 0.000 description 1
- 101150117471 Septin4 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
标点符号标注模型及其训练方法、设备、存储介质,所述方法包括:获取包含标点符号的第一训练语料;将第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,其中,标点符号标注模型包括预训练的语言子模型,第三训练语料包括无标点文本集合和标签序列集合。上述方案无需人工标注大量的训练数据,提高召回率,获得的标点符号标注模型具有较好的泛化能力及通用性。
Description
技术领域
本发明实施例涉及计算机自然语言处理技术领域,尤其涉及一种标点符号标注模型及其训练方法、设备、存储介质。
背景技术
现有的标点符号恢复的方案通常采用序列标注的方式,主要应用于恢复语音识别得到的文本的标点符号,一般只能增加简单的标点符号,如:逗号、句号。使用这种方式添加的标点,一方面准确度较低、泛化能力差;另一方面标注的标点丰富性差,给人造成很差的阅读体验。
随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的标点符号,提高准确度。然而,神经网络模型的学习训练需要人工标注大量的训练数据,且现有训练方法获得的神经网络模型的召回率较低。此外,所采用的标点符号标注模型泛化能力弱、通用性差。
发明内容
有鉴于此,本发明实施例的一个方面,提供了一种标点符号标注模型的训练方法、设备、存储介质,无需人工标注大量的训练数据,并且可以提高召回率。
本发明实施例的另一个方面,提供了一种标点符号标注模型,具有较好的泛化能力及通用性。
本发明实施例提供了一种标点符号标注模型的训练方法,所述方法包括:
获取包含标点符号的第一训练语料;将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合。
可选地,所述获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,包括:根据预设的标点符号集合,识别所述第二训练语料的标点符号;去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。
可选地,所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,包括以下至少一种:当已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;当已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合,对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。
可选地,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括以下至少一种:当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;当连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。
可选地,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括:
当一个分词单元前后均无标点符号时,在所述分词单元处标注所述空白位置标签。
可选地,所述标点符号标注模型还包括预设的条件随机场子模型;所述将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,包括:从所述无标点文本集合获取一段无标点文本;从所述标签序列集合中获取所述无标点文本相应的第一标签序列;将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,由所述预训练的语言子模型获取所述无标点文本相应的句子特征信息,并将所述句子特征信息输入所述条件随机场子模型中,预测所述无标点文本对应的第二标签序列;将所述第二标签序列与所述第一标签序列进行比较,确定二者之间的误差;确定所述误差是否大于预设的误差阈值,在确定所述误差大于所述误差阈值时,对所述标点符号标注模型的参数进行微调;在确定所述误差不大于所述误差阈值时,得到训练好的标点符号标注模型。
可选地,所述获取包含标点符号的第一训练语料,包括以下至少一种:在互联网中抓取包含标点符号的文本数据;在互联网中抓取语言数据,并将所述语言数据经过语音识别和标注得到相应的文本数据;人工录入包含标点符号的文本数据;所述获取包含标点符号的第二训练语料,包括以下至少一种:抓取所述第一训练语料中的文本数据;在互联网中抓取预设领域的包含标点符号的文本数据;人工录入预设领域的包含标点符号的文本数据。
本发明实施例还提供了一种标点符号标注模型,包括:输入层,适于获得无标点文本和相应的第一标签序列,并对所述无标点文本提取相应的分词单元特征信息;编码层,适于通过预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,其中,所述预训练的语言子模型为具有时间序列的神经网络模型;条件随机场网络层,适于基于所述句子特征信息,预测所述无标点文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,得到所述无标点文本对应的第二标签序列,得到所述无标点文本对应的第二标签序列;输出层,适于在确定所述第二标签序列与所述第一标签序列的误差大于预设的误差阈值时,对所述标点符号标注模型的参数进行微调,在确定所述第二标签序列与所述第一标签序列的误差不大于所述误差阈值时,输出对应的标点符号标注结果。
本发明实施例还提供了一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时执行上述任一实施例所述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一实施例所述方法的步骤。
采用本发明实施例的标点符号标注模型的训练方案,将获取的包含标点符号的第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,可以获得预训练的语言子模型,同时,去除获取的包含标点符号的第二训练语料的标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,可以得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,可以得到训练好的标点符号标注模型。采用上述的标签组合进行标注,能够充分考虑到标点符号前后分词单元的信息,使得训练语料的标签分布更加均衡,可以避免只标注标点符号前面的分词单元导致标签分布不均衡的问题,同时,还可以避免标注的无效标签过多的情况,提升标点符号预测的准确率;并且,具有时间序列的神经网络模型经过预训练后能够深度捕获文本上下文的信息,为之后的标点符号标注模型的迁移学习训练做准备,可以实现半监督的学习,无须人工标注大量数据,且迁移学习训练能够使得整个标点符号标注模型可以快速收敛,提高召回率,使用很少的数据集达到很好的效果,从而可以得到一个通用而强大的标点符号标注模型,使之具有较好的泛化能力及通用性。
进一步地,当已去除的标点符号前后均有分词单元时,可以根据所述标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;当已去除的标点符号之前或之后有一处无分词单元时,可以在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,填补的空位补齐符号在标注标签组合时可以视为分词单元,再根据所述标点符号位置标签集合,对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。采用上述方案,根据所述标点符号位置标签集合对所述标点符号的前后分词单元处标注相应位置关系的标签组合,使得标点符号对应的标点符号位置标签成对出现;在已去除的标点符号之前或之后有一处无分词单元时,添加空位补齐符号填补空缺分词单元的位置,可以避免标点符号在结尾或开头出现而没有分词单元可以给予标注的问题,保证标点符号对应的标签组合能够一直成对出现。
进一步地,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,可以除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;当连续两个已去除的标点符号之间不存在分词单元时,可以在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。采用上述方案,可以优化标签标注的方式,使之后模型训练时对于与分词单元间隔较短、容易连续出现的标点符号的预测更加准确。
进一步地,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签,当一个分词单元前后均无标点符号时,可以根据所述标点符号位置标签集合在所述分词单元处标注空白位置标签。通过空白位置标签可以使第三训练语料中每个分词单元均有相应的标点符号位置标签,可以进一步提高标签分布的均衡性,便于后面的模型训练时候进行微调。
采用本发明实施例的标点符号标注模型,可以通过编码层的预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,然后,通过条件随机场网络层,预测所述无标点文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,得到所述无标点文本对应的第二标签序列,在确定所述第二标签序列与所述第一标签序列的误差大于所述误差阈值时,对所述标点符号标注模型的参数进行微调,在确定所述第二标签序列与所述第一标签序列的误差不大于所述误差阈值时,输出对应的标点符号标注结果。由上可知,所述标点符号标注模型包括预训练的语言子模型,能够充分考虑到标点符号前后分词单元的信息,进而条件随机场网络层可以更加精确地预测标点符号类型,然后,采用标签组合进行标注使标注的标签分布更加均衡,可以避免标签分布不均衡的问题和标注的无效标签过多的情况,提高标点符号标注的准确率;并且,通过迁移训练能够使得整个标点符号标注模型可以快速收敛,提高召回率,从而可以得到一个通用而强大的标点符号标注模型,使之具有较好的泛化能力及通用性。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种标点符号标注模型的训练方法的流程图。
图2为本发明实施例中一种获取第三训练语料的示意图。
图3为本发明实施例中另一种获取第三训练语料的示意图。
图4为本发明实施例中一种标点符号标注模型进行迁移学习训练的流程图。
图5为本发明实施例中一种标点符号标注模型的结构示意图。
具体实施方式
如前所述,虽然标点符号添加方法的准确度已经在神经网络使用下得到了大大的提升,然而,标点符号添加方法需要事先准备大量的训练数据进行神经网络模型训练,这些训练数据往往是通过自动语言识别(Automatic Speech Recognition,ASR)所产生的无标点的语料,需要费时费力进行人工标注之后才能开展训练,然后利用训练好的神经网络模型对语音识别得到的无标点符号的文本进行标点符号预测,得到的标点符号预测结果往往召回率较低。另外,当前神经网络模型的训练数据往往只考虑到了标点符号前一个字的信息,导致训练数据的标签分布很不均衡,以此训练的神经网络模型泛化能力差、不通用。
针对上述问题,本说明书实施例通过将获取的包含标点符号的第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,可以获得预训练的语言子模型,同时,通过去除获取的包含标点符号的第二训练语料的标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,可以得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,可以得到训练好的标点符号标注模型。
其中,分词单元对应于第二训练语料的语言种类的最小语句组成单元,例如,中文的最小语句组成单元是“字”,英文的最小语句组成单元是“单词(word)”,因此,分词单元的具体表述由第二训练语料的语言种类所决定。
采用本说明书实施例的标签组合进行标注,能够充分考虑到标点符号前后分词单元的信息,使得训练语料的标签分布更加均衡,可以避免只标注标点符号前面的分词单元导致标签分布不均衡的问题,同时,还可以避免标注的无效标签过多的情况,提升标点符号预测的准确率;并且,具有时间序列的神经网络模型经过预训练后能够深度捕获文本上下文的信息,为之后的标点符号标注模型的迁移学习训练做准备,可以实现半监督的学习,无须人工标注大量数据,且迁移学习训练能够使得整个标点符号标注模型可以快速收敛,提高召回率,使用很少的数据集达到很好的效果,从而可以得到一个通用而强大的标点符号标注模型,使之具有较好的泛化能力及通用性。
为使本领域技术人员更加清楚地了解及实施本说明书实施例,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书的一部分实施例,而不是全部实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本说明书保护的范围。
参照图1所示的一种标点符号标注模型的训练方法的流程图,在本发明实施例中,具体可以包括如下步骤:
S101,获取包含标点符号的第一训练语料。
在具体实施中,包含标点符号的第一训练语料的来源越广泛、标点符号标注越规范,对后续进行神经网络模型的预训练越有利,可以增加预训练的语言字模型的通用性和准确性。因此,一方面,为了使第一训练语料的来源更加广泛,尽可能在不同领域获取语料,另一方面,为了使第一训练语料中标点符号的使用较为规范,可以获取经过校对的语料。
例如,所述第一训练语料可以包括:偏向于书面用语的新闻语料、百度百科语料和论文语料等;偏向于口语化的聊天语料、微博语料、评论语料等。
S102,将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型。
在具体实施中,具有时间序列的神经网络模型包括:具有自注意力机制(self-attention)的转换器(Transformer)网络模型、双向长短时记忆(Bi-directional LongShort-Term Memory,BiLstm)网络模型、门控循环单元(Gated Recurrent Unit,GRU)网络模型等,利用所述第一训练语料对预设的具有时间序列的神经网络模型进行预训练,得到的预训练的语言子模型能够深度捕获文本上下文的信息,为之后的标点符号标注模型的迁移学习训练做准备。
S103,获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料。
其中,所述第三训练语料可以包括:无标点文本集合和标签序列集合,所述标签序列集合可以包括所述标签组合。
在具体实施中,包含标点符号的第二训练语料可以同上述获取第一训练语料一样,可以在多个不同领域获取语料或者获取经过校对的语料,从而可以增加标点符号标注模型的通用性和准确性。为了节约语料获取的时间,也可以直接从所述第一训练语料中抓取,获得第二训练语料。例如,所述第二训练语料可以包括:偏向于书面用语的新闻语料、百度百科语料和论文语料等;偏向于口语化的聊天语料、微博语料、评论语料等。因此第二训练语料的来源可以比较广泛。
在具体实施中,为了能够准确预测一个或几个特定领域的无标点文本的标点符号,也可以对特定的一个或几个领域获取语料,获得第二训练语料。例如,为了能够预测金融领域的无标点文本的标点符号,第二训练语料可以包括从金融领域获取包含标点符号的语料。
在本发明实施例中,对所述第二训练语料进行去除标点符号和标注标签组合,获得的第三训练语料中无标点文本集合和所述标签序列集合可以进行关联,使得在获取无标点文本集合中部分或全部的无文本合集时,能够获得相应的部分或者全部的标签序列。
在本发明实施例中,标签序列集合中可以包含所有用于在已去除的标点符号的前后分词单元处进行标注的标签组合,采用标签组合进行标注能够充分考虑到第二训练语料的标点符号前后分词单元的信息,使得第三训练语料的标签分布更加均衡,可以避免只标注已去除的标点符号前面分词单元处的标签而导致的标签分布不均衡的问题,以及可以避免标注的无效标签过多的情况,提升标点符号标注模型预测标点符号的准确率。
S104,将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;
其中,所述标点符号标注模型可以包括:所述预训练的语言子模型。
可以理解的是,第一训练语料、第二训练语料和第三训练语料所对应的语言种类可以包含但不仅限于中文,可以根据实际标点符号标注模型所需标注的文本语言种类进行调整。在具体实施中,可以根据后续需要标注或者处理的文本的语言种类,选取相应语言种类的训练语料。
还可以理解的是,获取第一训练语料和第二训练语料的时机可以不限于上述步骤顺序的限制,在预设的具有时间序列的神经网络模型进行预训练之前,可以获取到第一训练语料,以及,在将第三训练语料输入初始的标点符号标注模型进行迁移学习训练之前,可以获取到第二训练语料即可。例如,第一训练语料和第二训练语料可以同时获取。
在具体实施中,由于标点符号标注模型可以包括预训练的语言子模型,因此,标点符号标注模型需要的第三训练语料的数量大大缩小,进而可以减少第二训练语料的数量,节约人工成本和标注时间,减少标点符号标注模型的训练时间。同时,迁移学习训练能够使得整个标点符号标注模型在减少第三训练语料的数量的前提下可以快速收敛,提高召回率。
在具体实施中,为了能够实现自动获取第三训练语料,可以提前预设一个标点符号集合和一个预设的标点符号位置标签集合。在获取包含标点符号的第二训练语料后,可以将用第二训练语料中的各分词单元和标点符号转换为字节型格式的标记(token),这样可以避免分词带来的误差,同时也避免了因为词典过大带来学习成本太高和词向量(wordvector)表示稀疏等问题。
具体而言,根据预设的标点符号集合,可以识别所述第二训练语料的标点符号,然后,去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合,由此获得第三训练语料的无标点文本集合和相应的标签序列集合,用于后续训练标点符号标注模型。
其中,可以根据第一训练语料、第二训练语料和第三训练语料所对应的语言种类,使标点符号集合包括相应常用的标点符号,并且,标点符号位置标签集合可以包括标点符号集合对应的标签组合。例如,如果第一训练语料、第二训练语料和第三训练语料对应的语言种类为中文,则标点符号集合可以包括逗号、句号和顿号等常用的标点符号,标点符号位置标签集合可以包括逗号对应的标签组合、句号对应的标签组合和顿号对应的标签组合等。这些标签组合成对出现,用于标注在已去除的标点符号的前后分词单元处,使得第三训练语料的标签分布更加均衡。标点符号集合和标点符号位置标签集合可以根据具体的应用场景做设定,本说明书的实施例对此不作任何限定。
在具体实施中,在进行语言子模型的预训练和标点符号标注模型的训练之前,可以对获取的第一训练语料和第二训练语料进行数据清洗,主要是剔除明显使用不规范的标点符号,例如,句首有不可用于句首的标点符号,句中有不应该连续出现的标点符号,句尾有非句子结尾标点等使用不规范的标点符号的情况,则可以将这些使用不规范的标点符号删除。由此可以避免语言子模型和标点符号标注模型学习到不规范的标点符号使用方式。
在具体实施中,当已去除的标点符号前后均有分词单元时,可以根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,使得标点符号对应的标点符号位置标签成对出现。例如,第二训练语料为S:{t1t2t3…tn},n为一确定的正整数,表示集合S中包含标记(token)的个数,若文本中包含m个标点符号,m<n,则第三文本语料为集合R:{t1t2…tn-m}并在已去除的标点符号前后ti处打上标签组合,获得对应的标签序列集合L为{L1L2L3…Ln-m}。
但是,当已去除的标点符号之前或之后有一处无分词单元时,标签组合无法成对标注,因此,可以在已去除的标点符号之前或之后添加空位补齐符号填补空缺的分词单元的位置,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合,可以将空位补齐符号视为分词单元,使得标签组合能够成对标注。
在本发明实施例中,以下几种情况可以使用空位补齐符号:
第一种,标点符号位于句尾。例如,第二训练语料为:{今天是星期三。},其中,第二训练语料的分词单元为中文的一个字,句尾出现一个句号,则在去除标点符号时,可以在已去除的句号后面添加用于句尾的空位补齐符号EOS,得到无标点文本集合{今天是星期三EOS},然后就可以在已去除的句号之前的文字“三”处和已去除的句号之后的空位补齐符号“EOS”处标注句号的标签组合。
可以理解的是,本文中“{}”仅用于限定举例的内容范围,并不是在表示训练语料的内容时必不可少的一部分,本领域技术人员可以用其他不容易混淆的符号来限定训练语料的内容范围,而“{}”中的分词单元与标点符号可以是转换为字节型格式的标记,也可以转换为其他格式的标记,以下“{}”均同上所述。
第二种,标点符号位于句首。例如,第二训练语料为:{《读者》是一本好杂志。},其中,第二训练语料的分词单元为中文的一个字,句首出现左书名号,则在去除标点符号时,可以在已去除的左书名号前面添加用于句首的空位补齐符号BOS,得到无标点文本集合{BOS读者是一本好杂志EOS},然后就可以在已去除的左书名号之前的空位补齐符号“BOS”处和左书名号之后的文字“读”处标注上左书名号的标签组合。
可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制,在具体实施过程中,由第二训练语料获得的无标点文本集合和标签序列集合往往是海量的。
采用上述方案,根据所述标点符号位置标签集合对所述标点符号的前后分词单元处标注相应位置关系的标签组合,使得标点符号对应的标点符号位置标签成对出现;在已去除的标点符号之前或之后有一处无分词单元时,根据具体情况添加相应的空位补齐符号填补空缺分词单元的位置,可以避免标点符号没有分词单元可以给予标注的问题,保证标点符号对应的标点符号位置标签能够一直成对出现。
在具体实施中,标点符号位置标签集合可以包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签。所述标点符号位置标签集合可以与所述标点符号集合对应。
在本发明的实施例中,预设一个标点符号集合P和一个标点符号位置标签集合Q,其中,P={。?!,;:、《》“”}时,Q={B-period I-period B-questionmark I-questionmarkB-exclamation I-exclamation B-comma I-comma B-semicolon I-semicolon B-colonI-colon B-caesura I-caesura B-openingchevron I-openingchevron B-closingchevron I-closingchevron B-upperquotationmark I-upperquotationmark B-lowerquotationmark I-lowerquotationmark},标点符号集合P和标点符号位置标签集合Q相关联,由标点符号位置标签集合Q表示标点符号集合P中各个标点符号与其前后分词单元的相应位置关系。当通过标点符号集合P识别出第二训练语料中的标点符号时,能够通过标点符号集合P与标点符号位置标签集合Q之间的关联获得识别出的标点符号相应的标点符号位置标签,进而可以在去除识别出的标点符号后,在其前后分词单元处标注相应的标签组合。
可以理解的是,此处实施例中标点符号位置标签集合用的是“B-标点符号的英文全称”和“I-标点符号的英文全称”的表示形式,但是,也可以采用其他表示方式,例如,考虑到有写标点符号的英文全称过长,标点符号的英文全称可以使用缩写进行代替,又例如,标点符号的英文全称可以直接使用标点符号进行替代,本发明实施例对此不做限制。
标点符号、标点符号集合与标点符号位置标签集合的对照表如表1所示。
表1
继续以上述示例说明,可以在无标点文本集合{今天是星期三EOS}中句号前一个文字“三”处标注句号的起始位置标签“B-per”,在句号后一个空位补齐符号“EOS”处标注句号的结束位置标签“I-per”。同理可得,也可以在无标点文本集合{BOS读者是一本好杂志EOS}中左书名号前一个空位补齐符号“BOS”处标注左书名号的起始位置标签“B-ope”,在左书名号后一个文字“读”处标注左书名号的结束位置标签“I-ope”。
在具体实施中,所述标点符号位置标签集合还可以包括:无标点符号对应的空白位置标签,当一个分词单元前后均无标点符号时,在所述分词单元处标注所述空白位置标签。通过空白位置标签可以使文本语料中每个分词单元均有相应的标点符号位置标签,可以进一步提高标签分布的均衡性,便于后面的标点符号标注模型训练时候进行微调。
发明人在研究中发现,由于语言使用规则,可能会出现以下几种特殊情况:
第一种,连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元。例如,中文的标点符号“、”的使用,按照上述标签组合的标注方法,虽然顿号前后均有文字,但是在顿号之间仅有一个文字时,添加顿号的标签组合会出现重叠问题,为了能够避免这类问题,在研究过程中,发明人观察到其标点符号为同一种,具有同一性,因此,可以除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签,这种标注方法对与分词单元间隔较短的相同标点符号是有效的。例如,第二训练语料为:{牛、羊、马都吃草。},连续多个顿号之间只有一个字,则在文字“牛”和“羊”处标注顿号的起始位置标签“B-cae”,在文字“马”处标注顿号的结束位置标签“I-cae”。
在本发明一实施例中,如图2所示,为本发明的获取第三训练语料的示意图,在本发明实施例中,获取的第二训练语料21为:
{日、月、天三方大对决,准备开始!咱们不可能赢了,对吗?}
然后,根据预设的标点符号集合P,识别并去除第二训练语料中的标点符号,由于句尾问号后面缺少文字,因此在问号后面添加用于句尾的空位补齐符号EOS,获得无标点文本集合221{日月天三方大对决准备开始咱们不可能赢了对吗EOS}。并且,根据预设的标点符号位置标签集合Q在已去除的各标点符号的前后文字处标注相应位置关系的标签组合。
由于在“日”、“月”和“天”中间出现连续的顿号,且顿号中间仅有一个文字,因此,在“日”、“月”处标注“B-cae”,在“天”处标注“B-cae”,在第一个逗号前后文字“决”和“准”处分别标注“B-com”和“I-com”,在感叹号前后文字“始”和“咱”处分别标注“B-exc”和“I-exc”,在第二个逗号前后文字“了”和“对”处分别标注“B-com”和“I-com”,在问号之前文字“吗”和之后空位补齐符号“EOS”处分别标注“B-que”和“I-que”。对于前后均无标点符号的文字,在所述文字处标注所述空白位置标签O,最终得到对应的标签序列集合222{B-cae B-cae I-cae O O O O B-com I-com OOB-exc I-exc O O O O O B-com I-com B-que I-que}。将获得的无标点文本集合221和标签序列集合222进行关联,由此获得第三训练语料22。
第二种,已去除的标点符号为两个连续的标点符号,且标点符号之间不存在分词单元。按照上述标签组合的标注方法,同样也会出现标点符号组合标签重叠问题,为了能够避免这类问题,在研究过程中,发明人观察到这类情况是由于标点符号使用规则导致的,具有普遍规律,因此,可以在每个分词单元后添加间隔符号SEP(separate),并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处分别标注所述后一个标点符号对应的起始位置标签和结束位置标签,将间隔符号可以视为分词单元,使得标签组合能够成对标注,这种标注方法对与连续两个标点符号是有效的。
例如,第二训练语料为:{我喜欢看《读者》。},其中,文中出现两个连续的符号“》。”,则在每个文字后添加间隔符号SEP,并且,由于句尾有标点符号句号,因此还需要添加用于句尾的空位补齐符号EOS补齐缺少的文字,得到无标点文本集合{我SEP1喜SEP2欢SEP3看SEP4读SEP5者SEP6EOS},然后就可以在“者”处标注右书名号的起始位置标签“B-clo”,在“SEP6”处标注句号的起始位置标签“B-per”,在“EOS”处标注句号的结束位置标签“I-per”,对于前后均无标点符号的分词单元,在所述分词单元处标注所述空白位置标签O;对于前后均无标点符号的间隔符号,在所述间隔符号处标注所述间隔标签S。
可以理解的是,此处的“SEP”后方加上数字序列仅用于描述时以作区分,在具体实施过程中可以不再“SEP”后方加上数字序列。
在本发明一实施例中,如图3所示,为本发明的获取第三训练语料的示意图,获取的第二训练语料31为:
{领导说:“实现盈利才是根本目标”。}
然后,根据预设的标点符号集合P,识别并去除第二训练语料中的标点符号,其中,冒号和上引号、句号和下引号均为两个标点符号连续出现的情况,在每个文字后添加间隔符号SEP,由于句尾句号后面缺少文字,因此在句号后面添加用于句尾的空位补齐符号EOS。此外为了方便标点符号标注模型后续训练,还可以在句首添加空位补齐符号BOS,使得无标点文本集合中的符号齐全,得到无标点文本集合321{BOS领SEP1导SEP2说SEP3实SEP4现SEP5盈SEP6利SEP7才SEP8是SEP9根SEP10本SEP11目SEP12标SEP13 EOS},在文字“说”处标注冒号的起始位置标签“B-col”,在间隔符号“SEP3”处标注上引号的起始位置标签“B-upp”,在文字“实”处标注上引号的结束位置标签“I-upp”。同理可得对于句号和下引号的处理方式,在前后均没有标点符号的间隔符号处标注间隔标签S,最终得到对应的标签序列集合322{O O S O S B-colB-uppI-uppS O S O S O S O S O S O S O S O S B-low B-perI-per},将获得的无标点文本集合321和标签序列集合322进行关联,由此获得第三训练语料32。
采用上述方案,可以优化标签标注的方式,使之后模型训练时对于与分词单元间隔较短、容易连续出现的标点符号的预测更加准确。
可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制,在具体实施过程中,由第二训练语料获得的无标点文本集合和标签序列集合往往是海量的。
为使本领域技术人员更好地理解和实现本发明实施例,以下给出一种通过迁移学习,得到训练好的标点符号标注模型的具体示例。
在本发明一实施例中,所述标点符号标注模型可以包括预训练的语言子模型和预设的条件随机场子模型,预训练的语言子模型可以与预设的条件随机场模型连接,参照图4所示的标点符号标注模型进行迁移学习训练的流程图,可以采用如下步骤进行迁移学习训练:
S1041,从所述无标点文本集合获取一段无标点文本。
在具体实施中,整个第三训练语料可以分成多批次输入标点符号标注模型中进行迭代训练,每一次处理一批,每一批次包含一段无标点文本,即一个句子列表,列表的大小由实际情况决定。其中,获取的无标点文本根据上述第二训练语料去除标点符号并标注标签组合时采用的标注方法,可以包括用于句尾的空位补齐符号EOS、用于句首的空位补齐符号BOS和间隔符号SEP中的至少一种。
S1042,从所述标签序列集合中获取所述无标点文本相应的第一标签序列。
在具体实施中,由于无标点文本集合与标签序列集合相关联,因此,可以根据每一批次包含的一段无标点文本获得相应的标签序列作为第一标签序列。
S1043,将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,由所述预训练的语言子模型获取所述无标点文本相应的句子特征信息,并将所述句子特征信息输入所述条件随机场子模型中,预测所述无标点文本对应的第二标签序列。
在具体实施中,获取的一段无标点文本,所以先将无标点文本中的每个分词单元转换为字节型格式的标记,用表示,xi是字典中的索引值。
根据字典的索引值对每个分词单元进行词向量嵌入(word embedding),一个分词单元对应一个词向量,用ei是k维的稠密向量。所述字典根据分词单元的语言种类进行调整,其中,词向量矩阵的获取方式是随机初始化或者使用预训练的词向量,并且作为学习参数存在于整个神经网络中,词向量ei的维度依照具体情况设定。
然后,向量化后的无标点文本通过预训练的语言子模型,把静态词向量表示的转为动态的句子表征,记为/>li是l维的稠密向量,l的大小依照具体情况设定,由此可以深层次加强句子的表征。
为条件随机场(Conditional Random Field,CRF)子模型的输入,条件随机场子模型预设有一个状态转换矩阵[A]i,j和分数矩阵/>[A]i,j表示两个时间步长从第i个状态到第j个状态的状态转换转移概率,分数矩阵/>表示/>输入后第t个位置输出为[y]t的概率,其中θ包含了整个预训练的语言子模型的所有需要迁移学习的参数。此时可以用到条件随机场子模型中预设的特征函数:其表示为输入/>预测输出的标签序列为/>的评分。这个特征函数/>可以避免不符合标注规则的标签序列的出现,为方便表述后续公式,将/>简化为s(l,y)。当s(l,y)的评分最大时,得到第二标签序列/>
在本发明的一实施例中,可以采用维特比(Viterbi)方法计算得出s(l,y)分数最大的路径,即y′=argmaxs(l,y)。
S1044,将所述第二标签序列与所述第一标签序列进行比较,确定二者之间的误差。
在具体实施中,假设第一标签序列为通过比较/>和/>可以得到两者之间的误差。
S1045,确定所述误差是否大于预设的误差阈值,在确定所述误差大于所述误差阈值时,对所述标点符号标注模型的参数进行微调;在确定所述误差不大于所述误差阈值时,得到训练好的标点符号标注模型。
在具体实施中,在经过第三训练语料的迭代训练后,可以获得所有第二标签序列和对应的第一标签序列/>之间的误差。
当至少有一组和/>之间的误差大于预设的误差阈值时,可以对标点符号标注模型的参数进行微调,然后,再次进行标点符号标注模型的迁移学习训练,直至/>和/>之间的误差均不大于预设的误差阈值,得到迁移学习训练好的标点符号标注模型。
在本发明一实施例中,先求出对应所有可能的标注序列的得分∑s(l,y)和第一标签序列为/>对应的得分/>其次,对其进行归一化处理,得到第一标签序列的概率/>然后,对第一标签序列的概率取log得到损失函数:当损失函数的值越小时,表示准确率越高,因此需要求得损失函数的最小值对应的符号标注模型的参数。可以利用梯度下降方法或反向传播方法对所述标点符号标注模型的参数进行微调,范围包括预训练语言子模型的参数和条件随机场子模型的参数,从而减小损失函数的值。采用梯度下降方法或反向传播方法,可以使标点符号标注模型可以快速收敛,缩短训练时间,提升标点符号标注模型的准确度。
在更优的具体实施中,所述标点符号标注模型还包括预设的双向长短时记忆子模型,所述预设的双向长短时记忆(BiLstm)子模型位于所述预训练的语言子模型和条件随机场子模型之间。
在使用预训的语言子模型生成文本信息之后,再输入到双向长短时记忆子模型进一步增强句子特征信息的表征能力。用了两层带有时间序列的神经网络去获取的句子特征信息输入所述条件随机场子模型后,会让最终预测结果变化幅度更小,达到更好的预测效果,此外,在数据量较大的情况下能增加模型的准确度与泛化能力。
在具体实施中,对预设的具有时间序列的神经网络模型进行预训练的方式,可以有多种方式,以下通过以下三种方法示例说明:
方法一、从所述第一训练语料中获取随机的第一训练文本,并输入所述神经网络模型,所述神经网络模型在给定上文的条件下预测所述第一训练文本的下一个分词单元,当预测准确的概率达到预设的第一阈值时,确定已训练好,语言模型(Language Model,LM)训练方式获得预训练的语言子模型。
预训练的语言子模型可以在后续输入无标点文本时,估计所述无标点文本为句子可能性。假设后续输入的无标点文本为:{ω1ω2ω3…ωn},n为无标点文本中分词单元的数量,则预训练的语言子模型表述所述无标点文本为句子的概率为其中i=1,2…n。P(S)概率越大,说明无标点文本为句子的可能性越高。预训练的语言子模型可以增强预训练的语言子模型对文本语料中上下文句子特征的表征能力。
其中,分词单元对应于输入的第一训练语料的语言种类的最小语句组成单元,例如,中文的最小语句组成单元是“字”,英文的最小语句组成单元是“单词(word)”,因此,分词单元的具体表述由第一训练语料的语言种类所决定。
在具体实施中,当第一训练文本为空集时,所述神经网络模型进行首字预测,根据已知的先验概率,将作为首字概率最大的分词单元作为预测结果,例如“今”作为首字概率最大,则取“今”作为首字。
当已经存在前文内容,例如,已经存在上文“今”,根据“今”预测下一个字的概率P(ω2|ω1),当P(ω2|ω1)最大时,两个字表示的一个句子的可能性P(ω1ω2)=P(ω1)P(ω2|ω1)最大,假设“天”的概率最大,则获得“今天”。
又例如,已经存在上文“今天天气很”,根据“今天天气很”预测下一个字的概率P(ω6|ω1ω2ω3ω4ω5),当P(ω6|ω1ω2ω3ω4ω5)最大时,这6个字表示一个句子的可能性 最大,假设“好”的概率最大,则获得“今天天气很好”。
方法二、从所述第一训练语料中获取随机掩盖预设比例部分的第二训练文本,并输入所述神经网络模型,所述神经网络模型在给定上下文的条件下预测被掩盖的预设比例部分,当预测准确的概率达到预设的第二阈值时,确定已训练好,通过屏蔽语言模型(MaskLanguage Model,MLM)训练方式获得预训练的语言子模型。
在具体实施中,先随机掩盖所述包含标点符号的第一训练语料一定百分比的内容,然后通过归一化指数函数(softmax)函数预测那些被掩盖的内容,因为随机掩盖的内容可以包括分词单元和标点符号,所以使用MLM方式预训练得到的语言子模型对句子上下文的句子特征信息表征更强。
方法三、从所述第一训练语料中获取随机掩盖一条语句的第三训练文本,并输入所述神经网络模型,所述神经网络模型在给定上文的条件下预测被掩盖的一条语句,当预测准确的概率达到预设的第三阈值时,确定已训练好,通过下句预测(next sentenceprediction,NSP)训练方式获得预训练的语言子模型。使用NSP方式预训练得到的语言子模型对于理解上下段落之间关系的能力更强。
在本发明一实施例中,NSP方式采用二分类方法,可以从第一训练语料中获取一段文本A,随机掩盖文本A其中一条语句,然后再从第一训练语料中获取一段语句B,预测语句B是否为文本A中被掩盖的语句,如果预测语句B是文本A中被掩盖的语句,则输出“1”或者“TRUE”,否则输出“0”或者“FLASE”,根据输出结果判断预测是否准确并统计预测准确的概率,当预测准确的概率达到预设的第三阈值时,确定已训练好。其中,可以设定获取语句B是被掩盖的语句的时间所占一个训练周期的百分比,例如,在一个训练周期内,50%的时间,获取到的语句B是文本A的实际被掩盖的句子,其余50%的时间,获取到的语句B是随机从第一训练语料中抽取的语句。
在具体实施时,可以分别采用以上三种方法中任意一种训练获得预训练的语言子模型,也可以通过采用方法一和方法三结合、方法二和方法三的结合的方式训练获得预训练的语言子模型。
在具体实施中,可以通过多种方式获取第一训练语料,例如,可以采用如下一种或多种方式来获取所述第一训练语料:
1、在互联网中抓取包含标点符号的文本数据。
2、在互联网中抓取语言数据,并将所述语言数据经过语音识别和标注得到相应的文本数据。
3、人工录入包含标点符号的文本数据。
还可以通过多种方式获取第二训练语料,例如,可以采用如下一种或多种方式来获取所述第二训练语料:
1、抓取所述第一训练语料中的文本数据。
2、在互联网中抓取预设领域的包含标点符号的文本数据。
3、人工录入预设领域的包含标点符号的文本数据。
本发明实施例还提供了采用上述标点符号标注模型的训练方法获得的标点符号标注模型,为使本领域技术人员更好地理解和实现本发明实施例,以下参照附图,通过具体实施例进行详细介绍。
参照图5所示的标点符号标注模型的结构示意图,在本发明实施例中,如图5所示,标点符号标注模型50可以包括输入层51、编码层52、条件随机场网络层54和输出层55,其中:
输入层51,适于获得无标点文本和相应的第一标签序列,并对所述无标点文本提取相应的分词单元特征信息。
在具体实施中,整个第三训练语料可以分成很多批次进行迭代训练,每一次处理一批,每一批次包含一段无标点文本,即一个句子列表,列表的大小由实际情况决定。
并且,由于无标点文本集合与标签序列集合相关联,因此,可以根据每一批次包含的一段无标点文本获得相应的标签序列作为第一标签序列。
将每一批次的无标点文本及相应的第一标签序列输入标点符号标注模型50中,标点符号标注模型50的输入层51可以获得无标点文本和相应的第一标签序列。然后,根据设置的字典对每个分词单元进行词向量嵌入,一个分词单元对应一个词向量(即图5中输入层51的一个方格),用 ei是k维的稠密向量。所述字典根据分词单元的语言种类进行调整,其中的词向量矩阵的获取方式是随机初始化或者使用预训练的词向量,并且作为学习参数存在于整个神经网络中,词向量的维度依照具体情况设定。
其中,无标点文本可以包括用于句尾的空位补齐符号EOS、用于句首的空位补齐符号BOS和间隔符号SEP中的至少一种,具体由标点符号标注模型训练时采用的第三训练语料的标注方式决定。
编码层52,适于通过预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,其中,所述预训练的语言子模型为具有时间序列的神经网络模型,预训练的语言子模型的具体训练过程可参照前文关于LM、MLM和NSP预训练方式的描述。
在具体实施中,向量化后的无标点文本通过预训练的语言子模型,把静态词向量表示的转为动态的句子表征,记为/>li是l维的稠密向量,l的大小依照具体情况设定,由此可以深层次加强句子的表征,/>为条件随机场(Conditional Random Field,CRF)网络层53的输入。
条件随机场网络层54,适于基于所述句子特征信息,预测所述无标点文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,得到所述无标点文本对应的第二标签序列。
在具体实施中,条件随机场网络层54预设有一个状态转换矩阵[A]i,j和分数矩阵[A]i,j表示两个时间步长从第i个状态到第j个状态的状态转换转移概率,分数矩阵/>表示/>输入后第t个位置输出为[y]t的概率,其中θ包含了整个预训练的语言子模型的所有需要迁移学习的参数。此时可以用到条件随机场子模型中预设的特征函数:/> 其表示为输入/>预测输出的标签序列为/>的评分。这个特征函数/>可以避免不符合标注规则的标签序列的出现,为方便表述后续公式,将/>简化为s(l,y)。当s(l,y)的评分最大时,得到第二标签序列/>其中,第二标签序列/>包含了对所述无标点文本预测的标点符号待添加位置的信息及对应标点符号类型的信息。
输出层55,适于在确定所述第二标签序列与所述第一标签序列的误差大于预设的误差阈值时,对所述标点符号标注模型的参数进行微调,在确定所述第二标签序列与所述第一标签序列的误差不大于所述误差阈值时,输出对应的标点符号标注结果。
在具体实施中,假设第一标签序列为通过比较/>和/>可以得到两者之间的误差。在经过第三训练语料的迭代训练后,可以获得所有第二标签序列/>和对应的第一标签序列/>之间的误差。
当至少有一组和/>之间的误差大于预设的误差阈值时,可以对标点符号标注模型50的参数进行微调,然后,再次进行标点符号标注模型的迁移学习训练,直至/>和/>之间的误差均不大于预设的误差阈值,可以输出对应的标点符号标注结果/>表示得到迁移学习训练好的标点符号标注模型50。
作为在本发明实施例中,可以采用维特比方法计算得出s(l,y)分数最大的路径,即y*=argmaxs(l,y)。
在具体实施中,如图5所示,所述标点符号标注模型还可以包括双向长短时记忆网络层53,所述双向长短时记忆网络层53设置于所述编码层52和所述条件随机场网络层54之间,将中的li按顺序分别对应图5中双向长短时记忆网络层53中上下相邻的两个方框内,例如l1对应531和531。通过双向运算增强所述句子特征信息,并输出至所述条件随机场网络层。
在本发明一实施例中,假设词向量的维度设为100,输入无标点文本为:{BOS你好世界EOS},与无标点文本相应的第一标签序列为{O O B-COM I-COM B-EXC I-EXC}。预设的误差阈值为10%。
标点符号标注模型50的输入层51得到初始化句子词向量的表征{1 2 3 4 56},其与{BOS你好世界EOS}一一对应,具体为R6×100的矩阵表示。编码层52通过MLM+NSP方式获得的预训练的语言子模型捕获所述文本中上下文的句子特征信息。条件随机场网络层54,根据句子特征信息进行标签序列预测,假设预设的标点符号位置标签集合Q有15类,则条件随机场网络层54预测得到R6×15的矩阵值与标点符号位置标签集合Q的对应关系,如下所示:
1[0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]O
2[0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]O
3[0 0 0 0 0 0 1 0 0 0 0 0 0 0 0]B-COM
4[0 0 0 0 0 0 0 0 0 1 0 0 0 0 0]I-COM
5[0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]B-EXC
6[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]I-EXC
从而到得到如下第二标签序列:
{O O B-COM I-COM B-EXC I-EXC}
然后,输出层55可以将所述第二标签序列与所述第一标签序列进行比较,确定二者之间的误差为0,小于所述误差阈值,因此,得到迁移学习训练好的标点符号标注模型,输出层55可以输出对应的标点符号标注结果。
可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制,在具体实施过程中,输入标点符号标注模型的无标点文本和相应的第一标签序列往往是多批次的。
还可以理解的是,本文中的“第一”、“第二”、“第三”和“第四”等名词前缀仅用于区分不同作用的名词,并不代表顺序、大小或重要性等。
采用本发明实施例的标点符号标注模型,通过预训练的语言子模型能够充分考虑到标点符号前后分词单元的信息,进而条件随机场网络层可以更加精确地预测标点符号类型,然后,采用标签组合进行标注使标注的标签分布更加均衡,可以避免标签分布不均衡的问题和标注的无效标签过多的情况,提高标点符号标注的准确率;并且,通过迁移训练能够使得整个标点符号标注模型可以快速收敛,提高召回率,从而可以得到一个通用而强大的标点符号标注模型,使之具有较好的泛化能力及通用性。
本发明实施例还提供了一种数据处理设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时可以执行本发明上述任一实施例所述的方法的步骤。所述计算机指令运行时执行的方法具体实现可以参照上述的方法的步骤,不再赘述。其中,所述数据处理设备可以为手机等手持终端、平板电脑、个人台式电脑等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行本发明上述任一实施例方法的步骤。其中,所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等各种适当的可读存储介质。所述计算机可读存储介质上存储的指令执行上述任一实施例所述的方法,具体可参照上述实施例,不再赘述。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (7)
1.一种标点符号标注模型的训练方法,其特征在于,包括:
获取包含标点符号的第一训练语料;
将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;
获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;
将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型;
其中,所述标点符号标注模型包括:所述预训练的语言子模型,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合;
所述获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,包括:根据预设的标点符号集合,识别所述第二训练语料的标点符号;去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,包括以下至少一种:
当已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;
当已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合;
所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括以下至少一种:
当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;
当连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。
2.根据权利要求1所述的标点符号标注模型的训练方法,其特征在于,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括:
当一个分词单元前后均无标点符号时,在所述分词单元处标注所述空白位置标签。
3.根据权利要求1所述的标点符号标注模型的训练方法,其特征在于,所述标点符号标注模型还包括预设的条件随机场子模型;
所述将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,包括:
从所述无标点文本集合获取一段无标点文本;
从所述标签序列集合中获取所述无标点文本相应的第一标签序列;
将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,由所述预训练的语言子模型获取所述无标点文本相应的句子特征信息,并将所述句子特征信息输入所述条件随机场子模型中,预测所述无标点文本对应的第二标签序列;
将所述第二标签序列与所述第一标签序列进行比较,确定二者之间的误差;
确定所述误差是否大于预设的误差阈值,在确定所述误差大于所述误差阈值时,对所述标点符号标注模型的参数进行微调;在确定所述误差不大于所述误差阈值时,得到训练好的标点符号标注模型。
4.根据权利要求1所述的标点符号标注模型的训练方法,其特征在于,所述获取包含标点符号的第一训练语料,包括以下至少一种:
在互联网中抓取包含标点符号的文本数据;
在互联网中抓取语言数据,并将所述语言数据经过语音识别和标注得到相应的文本数据;
人工录入包含标点符号的文本数据;
所述获取包含标点符号的第二训练语料,包括以下至少一种:
抓取所述第一训练语料中的文本数据;
在互联网中抓取预设领域的包含标点符号的文本数据;
人工录入预设领域的包含标点符号的文本数据。
5.一种标点符号标注模型,其特征在于,包括:
输入层,适于获得无标点文本和相应的第一标签序列,并对所述无标点文本提取相应的分词单元特征信息;
编码层,适于通过预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,其中,所述预训练的语言子模型为具有时间序列的神经网络模型;
条件随机场网络层,适于基于所述句子特征信息,预测所述无标点文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,得到所述无标点文本对应的第二标签序列;
输出层,适于在确定所述第二标签序列与所述第一标签序列的误差大于预设的误差阈值时,对所述标点符号标注模型的参数进行微调,在确定所述第二标签序列与所述第一标签序列的误差不大于所述误差阈值时,输出对应的标点符号标注结果;
获取包含标点符号的第二训练语料,将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,包括:根据预设的标点符号集合,识别所述第二训练语料的标点符号;去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,并根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,包括以下至少一种:
当已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;
当已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合;
所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;
所述根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,还包括以下至少一种:
当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;
当连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。
6.一种数据处理设备,包括存储器和处理器;其中,所述存储器适于存储一条或多条计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至4任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910925881.0A CN110674629B (zh) | 2019-09-27 | 2019-09-27 | 标点符号标注模型及其训练方法、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910925881.0A CN110674629B (zh) | 2019-09-27 | 2019-09-27 | 标点符号标注模型及其训练方法、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674629A CN110674629A (zh) | 2020-01-10 |
CN110674629B true CN110674629B (zh) | 2024-01-02 |
Family
ID=69079597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910925881.0A Active CN110674629B (zh) | 2019-09-27 | 2019-09-27 | 标点符号标注模型及其训练方法、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674629B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275120B (zh) * | 2020-01-22 | 2022-07-26 | 支付宝(杭州)信息技术有限公司 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
CN111339750B (zh) * | 2020-02-24 | 2023-09-08 | 网经科技(苏州)有限公司 | 去除停用语并预测句子边界的口语文本处理方法 |
CN111428479B (zh) * | 2020-03-23 | 2024-01-30 | 北京明略软件系统有限公司 | 一种文本中预测标点的方法和装置 |
CN111597458B (zh) * | 2020-04-15 | 2023-11-17 | 北京百度网讯科技有限公司 | 场景元素的抽取方法、装置、设备及存储介质 |
CN111581911B (zh) * | 2020-04-23 | 2022-02-15 | 北京中科智加科技有限公司 | 实时文本自动添加标点的方法、模型构建方法及装置 |
CN111597306B (zh) * | 2020-05-18 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语句识别方法和装置、存储介质及电子设备 |
CN111966831A (zh) * | 2020-08-18 | 2020-11-20 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、文本分类方法、装置及网络模型 |
CN112001167B (zh) * | 2020-08-26 | 2021-04-23 | 四川云从天府人工智能科技有限公司 | 一种标点符号添加方法、系统、设备和介质 |
CN112016320A (zh) * | 2020-09-14 | 2020-12-01 | 深圳市北科瑞声科技股份有限公司 | 基于数据增强的英文标点符号添加方法和系统及设备 |
CN112148856B (zh) * | 2020-09-22 | 2024-01-23 | 北京百度网讯科技有限公司 | 建立标点预测模型的方法、装置 |
CN112906366B (zh) * | 2021-01-29 | 2023-07-07 | 深圳力维智联技术有限公司 | 基于albert的模型构建方法、装置、系统及介质 |
CN113449489B (zh) * | 2021-07-22 | 2023-08-08 | 深圳追一科技有限公司 | 标点符号标注方法、装置、计算机设备和存储介质 |
CN114065709A (zh) * | 2021-11-26 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种标点符号添加方法、装置、电子设备及存储介质 |
CN114528850B (zh) * | 2022-02-16 | 2023-08-04 | 马上消费金融股份有限公司 | 标点预测模型的训练方法、标点添加方法及装置 |
CN115129877A (zh) * | 2022-07-12 | 2022-09-30 | 北京有竹居网络技术有限公司 | 标点符号预测模型的生成方法、装置和电子设备 |
CN117113941B (zh) * | 2023-10-23 | 2024-02-06 | 新声科技(深圳)有限公司 | 标点符号恢复方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932226A (zh) * | 2018-05-29 | 2018-12-04 | 华东师范大学 | 一种对无标点文本添加标点符号的方法 |
CN109918666B (zh) * | 2019-03-06 | 2024-03-15 | 北京工商大学 | 一种基于神经网络的中文标点符号添加方法 |
CN110276069B (zh) * | 2019-05-17 | 2021-04-02 | 中国科学院计算技术研究所 | 一种中国盲文错误自动检测方法、系统及存储介质 |
-
2019
- 2019-09-27 CN CN201910925881.0A patent/CN110674629B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110674629A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674629B (zh) | 标点符号标注模型及其训练方法、设备、存储介质 | |
WO2019084867A1 (zh) | 自动回答方法、装置、存储介质及电子设备 | |
CN109697291B (zh) | 文本的语义段落识别方法和装置 | |
CN110688822A (zh) | 标点符号的添加方法及设备、介质 | |
CN111428485B (zh) | 司法文书段落分类方法、装置、计算机设备及存储介质 | |
CN110705264A (zh) | 标点符号的校正方法及设备、介质 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110909549B (zh) | 对古汉语进行断句的方法、装置以及存储介质 | |
CN112580326A (zh) | 标点符号标注模型及其训练系统 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN112131881A (zh) | 信息抽取方法及装置、电子设备、存储介质 | |
CN110610180A (zh) | 错别字词识别集的生成方法、装置、设备及存储介质 | |
CN112541095A (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
CN111160026B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN112861864A (zh) | 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115862040A (zh) | 文本纠错方法、装置、计算机设备及可读存储介质 | |
CN112151019A (zh) | 文本处理方法、装置及计算设备 | |
CN111079433A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN108090044B (zh) | 联系方式的识别方法和装置 | |
CN112307749A (zh) | 文本检错方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |