CN111222321A - 一种标点符号的处理方法及装置 - Google Patents

一种标点符号的处理方法及装置 Download PDF

Info

Publication number
CN111222321A
CN111222321A CN201911348229.3A CN201911348229A CN111222321A CN 111222321 A CN111222321 A CN 111222321A CN 201911348229 A CN201911348229 A CN 201911348229A CN 111222321 A CN111222321 A CN 111222321A
Authority
CN
China
Prior art keywords
sentence
model
word
punctuation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911348229.3A
Other languages
English (en)
Other versions
CN111222321B (zh
Inventor
陈栋
付骁弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911348229.3A priority Critical patent/CN111222321B/zh
Publication of CN111222321A publication Critical patent/CN111222321A/zh
Application granted granted Critical
Publication of CN111222321B publication Critical patent/CN111222321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本文公开了一种标点符号的处理方法及装置。所述标点符号的处理方法,包括:从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。本文的技术方案能够通过神经网络的深度学习自动对标点符号进行勘误。

Description

一种标点符号的处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及的是一种标点符号的处理方法及装置。
背景技术
在自然语言的理解中正确的标点符号对语义理解起着至关重要的作用,没有标点符号或标点符号使用不当,直接影响到语言文字的表达功能。人们往往不注意或不重视标点符号的运用,写文章常常是一逗到底或一点到底。标点符号的作用主要体现在两个方面:一是语法作用,如表示停顿、语气、词语性质和作用等;二是修辞作用,即我们通常所说的标点符号的活用、妙用。
书面语言中同一句话,同一位置标点符号不同,语气大不一样。例如:正确句子是:他来了。错误句子1:他来了?错误句子2:他来了!在正确句子中,用句号表示的是陈述语气,说的是一件事实。在错误句子1中,用问号表示的是疑问语气,表达的是说话人不相信“他来了”这个判断的疑问心态。在错误句子2中,用叹号表现的是感慨或惊讶的语气,表达的是说话人对“他来了”这个事实的感慨或惊异的感情色彩。
目前针对标点符号勘误,一般采用人工勘误的方法,费时费力,效率较低。
发明内容
本文提供一种标点符号的处理方法及装置,能够通过神经网络的深度学习自动对标点符号进行勘误。
根据本申请的第一方面,本发明实施例提供一种标点符号的处理方法,包括:
从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;
向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;
向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。
根据本申请的第二方面,本发明实施例提供一种标点符号的处理装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标点符号的处理程序,所述标点符号的处理程序被所述处理器执行时实现上述标点符号的处理方法的步骤。
根据本申请的第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有标点符号的处理程序,所述标点符号的处理程序被处理器执行时实现上述标点符号的处理方法的步骤。
与相关技术相比,本发明实施例提供的一种标点符号的处理方法及装置,从语料库中选择句子样本作为训练样本,所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。本发明实施例的技术方案能够通过神经网络的深度学习自动对标点符号进行勘误。
附图说明
图1为本发明实施例1的一种标点符号的处理方法的流程图;
图2为本发明实施例1中Transformer编码器的结构示意图;
图3-a为本发明实施例1中词嵌入矩阵的示意图;
图3-b为本发明实施例1中位置嵌入矩阵的示意图;
图3-c为本发明实施例1中标点符号掩码嵌入矩阵的示意图;
图4为本发明实施例1中模型的输入输出示意图;
图5为本发明实施例2的一种标点符号的处理装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例1
如图1所示,本发明实施例提供了一种标点符号的处理方法,包括:
步骤S110,从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;
步骤S120,向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;
步骤S130,向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。
步骤S110中,在训练语料准备阶段,在一种实施方式中,所述从语料库中选择句子样本作为训练样本,包括:
从语料库中选择一部分句子样本作为第一语料集合,从语料库中选择另一部分句子样本作为第二语料集合;
对所述第一语料集合中的任意一条句子样本,将所述句子样本中的正确标点符号随机替换为错误标点符号,将替换后的句子样本作为模型输入的句子样本,将替换前的句子样本作为用于模型输出标注的参考样本;
对所述第二语料集合中的任意一条句子样本,将所述句子样本复制一份得到所述句子样本的副本,将所述句子样本原件作为模型输入的句子样本,将所述句子样本的副本作为用于模型输出标注的参考样本;
其中,所述语料库可以是新闻语料构成的语料库。相对于其他文本语料,新闻语料的标点符号正确率较高。
其中,所述第一语料集合和第二语料集合包含的句子样本数量相等;
在训练语料准备阶段,初始语料获取时,可以先获取大量的新闻语料,然后以预设的概率随机替换样本中的正确标点符号为错误标点符号。由原始语料和随机替换了所述原始语料中的标点符号生成的新语料可以构成第一类型的语料对样本,由原始语料和原始语料的副本(将所述原始语料复制一份)可以构成第二类型的语料对样本。第一类型的语料对样本作为训练的负样本,第二类型的语料对样本作为训练的正样本,通过正负样本的均衡,能够使得模型的学习范围更加全面。
以下是一条第一类型的语料对样本的示意:
Y:在一次军事行动失败后,他们逃到了邻国。在邻国,他们也面临死亡威胁,其它六名逃亡的活动人士失踪了。
X:在一次军事行动失败后!他们逃到了邻国。在邻国?他们也面临死亡威胁。其它六名逃亡的活动人士失踪了:
在上述的语料对样本中,Y为原始语料中的一条样本,X为随机替换标点符号后的样本。X与Y可以构成一条语料对样本。在模型训练时,Y作为模型输出的标注参考(可以根据Y对模型输出进行自动标注),X作为模型的输入。
步骤S120中,在模型训练阶段,可以采用Transformer作为特征抽取器。在其他的实施方式中,所述模型也可以采用其他的神经网络编码器作为特征抽取器,比如采用CNN(Convolutional Neural Network,卷积神经网络)或 RNN(Recurrent Neural Networks,循环神经网络)作为特征抽取器。
Transformer是谷歌公司于2017年提出的网络架构。Transformer采用层叠的Transformer Encoder(Transformer编码器)架构。如图2所示, Transformer Encoder采用了前馈神经网络(Feed Forword Neural Network)和自注意力(Self-Attention)机制。
在一种实施方式中,所述模型是采用Transformer作为特征抽取器的神经网络模型。
模型的输入是对输入句子中的每个字进行三种向量表达:词嵌入矩阵 (WordEmbedding)的向量表达(字向量索引),位置嵌入矩阵(Position Embedding)的向量表达(位置向量索引),和标点符号掩码嵌入矩阵 (Punctuation Masking Embedding)的向量表达(标点符号掩码向量索引)。将三个向量进行相加得到所述字的输入向量。
其中,如图3-a所示,对于中文语言来说,词嵌入矩阵是一个V行Ed 列的矩阵,V的数值是字表的大小,Ed代表矩阵的维度。比如,字表有5000 个字,那么V就有5000行;字表有10000个字,那么V就有10000行。词嵌入矩阵的每一行是一个中文字对应的字向量。
如下表1所示,“我!喜欢你”中的字和标点符号可以表示为向量 (Vector)和字索引(Word Index)。
Figure RE-GDA0002460323160000051
表1
在表1中,[a1,a2,….,aEd]代表Ed维的向量,a1,a2,…,aEd是数值,不同的字对应的向量的数值不同。字索引(Word Index)代表字(包括标点符号)在词嵌入矩阵中是哪一行,比如,“我”的字索引是109,也即,“我”在词嵌入矩阵中是第109行(当索引从1开始时)。“!”的字索引是76,也即,“!”在词嵌入矩阵中是第76行(当索引从1开始时)。所以可通过上述词嵌入矩阵来获得每个字(包括标点符号)的文本内容对应的向量表达。
其中,如图3-b所示,对于中文语言来说,位置嵌入矩阵是L行Ed列的矩阵,L是句子的最大输入长度,Ed代表矩阵的维度。比如,句子的最大输入长度为512个字,那么L就有512行。位置嵌入矩阵的每一行是一个中文字在句子中对应的位置向量。
如下表2所示,“我!喜欢你”中的字和标点符号可以表示为向量 (Vector)和位置索引(Position Index)。
Figure RE-GDA0002460323160000061
表2
在表2中,[a1,a2,….,aEd]代表Ed维的向量,a1,a2,…,aEd是数值,句子中不同的位置的向量的数值不同。位置索引(Position Index)代表字(包括标点符号)在位置嵌入矩阵中是哪一行,比如,“我”的位置索引是0,也即,“我”在位置嵌入矩阵中是第0行(当索引从0开始时)。“!”的位置索引是1,也即,“!”在位置嵌入矩阵中是第1行(当索引从0开始时)。所以可通过上述位置嵌入矩阵来获得每个字(包括标点符号)在句子中的位置对应的向量表达。
其中,如图3-c所示,对于中文语言来说,标点符号掩码嵌入矩阵是P 行Ed列的矩阵,P是标点符号掩码的个数(P有两行),Ed代表矩阵的维度,第一个标点符号掩码代表该字不是标点符号,第二个标点符号掩码代表该字是标点符号。标点符号掩码嵌入矩阵的每一行是一个中文字对应的标点符号掩码向量。
如下表3所示,“我!喜欢你”中的字和标点符号可以表示为向量 (Vector)和标点符号掩码索引(Punctuation Masking Index)。
Figure RE-GDA0002460323160000071
表3
在表3中,[a1,a2,….,aEd]代表Ed维的向量,a1,a2,…,aEd是数值,第一行行向量和第二行行向量的数值不同。标点符号掩码索引(Punctuation Masking Index)代表字(包括标点符号)在标点符号掩码嵌入矩阵中是哪一行,比如,“我”的标点符号掩码位置索引是0,也即,“我”在标点符号掩码嵌入矩阵中是第0行(当索引从0开始时)。“!”的标点符号掩码索引是1,也即,“!”在标点符号掩码嵌入矩阵中是第1行(当索引从0开始时)。所以可通过上述标点符号掩码嵌入矩阵来获得每个字(包括标点符号)是否为标点符号的信息对应的向量表达。
在模型训练阶段,通过有监督训练的方式训练所述模型预测所述输入句子的正确标点符号表述。句子中的每个字对应的输入向量经过模型运算后得到所述字的输出向量,对于句子中标点符号的字对应的输出向量,计算所述输出向量在序列标注时的输出标签与实际模型输出之间的差异,对于句子中非标点符号的字对应的输出向量,不计算所述输出向量在序列标注时的输出标签与实际模型输出之间的差异;根据计算得到的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数。
如下表4所示,假设模型输入的句子是“我!喜欢你”,对模型输出标注的输出标签是“我?喜欢你”。表4中记录了标点符号掩码向量索引 (Punctuation Masking Index),模型的输出向量索引(Output Index)、输出标签(Target Index)和输出标签对应的字(Target Word)。其中,所述模型的输出向量索引是经过分类器(比如Softmax分类器)分类后的索引。
Figure RE-GDA0002460323160000081
表4
在一种实施方式中,所述通过有监督训练的方式训练所述模型预测所述输入句子样本的正确标点符号表述,包括:
根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,生成所述句子的输入矩阵;
对所述输入矩阵进行模型运算输出输出矩阵,所述输出矩阵包括句子样本中的每个字对应的输入向量经过模型运算后得到的输出向量;
根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数。
在一种实施方式中,所述根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,包括:
将句子样本中的每一个字通过文本数字化表示为词嵌入矩阵的向量;将句子样本中的每一个字在句子中的位置信息表示为位置嵌入矩阵的向量;将句子样本中的每一个字是否为标点符号的信息表示为标点符号掩码嵌入矩阵的向量;
对句子样本中的任意一个字,将所述字对应的词嵌入矩阵的向量,位置嵌入矩阵的向量以及标点符号掩码嵌入矩阵的向量进行相加生成所述字的输入向量;
其中,所述词嵌入矩阵的长度为字表的长度,所述位置嵌入矩阵的长度是模型输入的句子的最大长度,所述标点符号掩码嵌入矩阵的长度为2。
在一种实施方式中,根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数,包括:
对于句子样本中标点符号的字对应的输出向量,计算所述输出向量对应的输出标签与实际模型输出之间的差异,对于句子样本中非标点符号的字对应的输出向量,不计算所述输出向量对应的输出标签与实际模型输出之间的差异;根据计算得到的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数;其中,所述输出标签包括句子样本中非标点符号的字对应的标签和标点符号对应的标签。
在一种实施方式中,根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数,包括:
对于句子样本中标点符号的字对应的输出向量,计算所述输出向量对应的输出标签与实际模型输出之间的差异,根据计算得到的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数;其中,所述输出标签包括句子样本的标点符号对应的标签。
步骤S130中,在模型预测阶段,向所述模型输入待预测的句子和标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。
如图4所示,向模型输入待预测的句子,模型可以采用层叠的TransformerEncoder(Transformer编码器)作为特征抽取器。Transformer Encoder的层数越多,模型的复杂度越高,预测结果越准确。模型的输出包括两部分,一部分是将非标点符号的字复制到输出,另一部分是模型预测的标点符号的正确表达。
其中,所述利用所述模型预测所述句子中标点符号的正确表达,包括:
计算所述待预测的句子中每一个字的输入向量;所述输入向量是由所述字对应的词嵌入矩阵中的向量,所述字对应的位置嵌入矩阵中的向量,以及所述字对应的标点符号掩码嵌入矩阵中的向量相加而成的复合向量;
对每一个字的输入向量进行模型运算得到所述字的模型输出向量;
对于句子中非标点符号的字对应的模型输出向量,用所述字在输入时的词嵌入矩阵中的向量代替所述模型的输出向量作为该字最终的输出向量;对于句子中标点符号的字对应的模型输出向量,直接使用所述模型输出向量作为该字最终的输出向量;
将所述句子中每一个字的最终的输出向量翻译成文本信息进行输出。
如下表5所示,向模型输入的待预测句子是“天呐。好美,”。对输入句子中的每个字(Input Word)进行三种向量表达。表5中记录了所述字对应的位置嵌入矩阵中的向量的索引,也即字索引(Word Index),所述字对应的位置嵌入矩阵中的向量的索引,也即位置索引(Position Index),所述字对应的标点符号掩码嵌入矩阵中的向量的索引,也即标点符号掩码索引 (Punctuation Masking Index)。模型最终的输出向量的索引(Output Index),模型最终输出的字(Output Word)。模型最终的输出是“天呐!好美!”。
Figure RE-GDA0002460323160000101
表5
实施例2
如图2所示,本发明实施例提供了一种标点符号的处理装置,包括:
语料准备模块10,用于从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;
模型训练模块20,用于向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;
模型预测模块30,用于向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。
在一种实施方式中,语料准备模块,用于采用以下方式从语料库中选择句子样本作为训练样本:从语料库中选择一部分句子样本作为第一语料集合,从语料库中选择另一部分句子样本作为第二语料集合;对所述第一语料集合中的任意一条句子样本,将所述句子样本中的正确标点符号随机替换为错误标点符号,将替换后的句子样本作为模型输入的句子样本,将替换前的句子样本作为用于模型输出标注的参考样本;对所述第二语料集合中的任意一条句子样本,将所述句子样本复制一份得到所述句子样本的副本,将所述句子样本原件作为模型输入的句子样本,将所述句子样本的副本作为用于模型输出标注的参考样本。
在一种实施方式中,所述第一语料集合和第二语料集合包含的句子样本数量相等。
在一种实施方式中,模型训练模块,用于采用以下方式述通过有监督训练的方式训练所述模型预测所述输入句子样本的正确标点符号表述:根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,生成所述句子的输入矩阵;对所述输入矩阵进行模型运算输出输出矩阵,所述输出矩阵包括句子样本中的每个字对应的输入向量经过模型运算后得到的输出向量;根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数。
在一种实施方式中,模型训练模块,用于采用以下方式根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达:
将句子样本中的每一个字通过文本数字化表示为词嵌入矩阵的向量;将句子样本中的每一个字在句子中的位置信息表示为位置嵌入矩阵的向量;将句子样本中的每一个字是否为标点符号的信息表示为标点符号掩码嵌入矩阵的向量;对句子样本中的任意一个字,将所述字对应的词嵌入矩阵的向量,位置嵌入矩阵的向量以及标点符号掩码嵌入矩阵的向量进行相加生成所述字的输入向量。
在一种实施方式中,模型训练模块,用于采用以下方式根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数:对于句子样本中标点符号的字对应的输出向量,计算所述输出向量对应的输出标签与实际模型输出之间的差异,对于句子样本中非标点符号的字对应的输出向量,不计算所述输出向量对应的输出标签与实际模型输出之间的差异;根据计算得到的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数;其中,所述输出标签还包括句子样本中非标点符号的字对应的标签。
在一种实施方式中,模型预测模块,用于采用以下方式利用所述模型预测所述句子中标点符号的正确表达:计算所述待预测的句子中每一个字的输入向量;所述输入向量是由所述字对应的词嵌入矩阵中的向量,所述字对应的位置嵌入矩阵中的向量,以及所述字对应的标点符号掩码嵌入矩阵中的向量相加而成的复合向量;对每一个字的输入向量进行模型运算得到所述字的模型输出向量;对于句子中非标点符号的字对应的模型输出向量,用所述字在输入时的词嵌入矩阵中的向量代替所述模型的输出向量作为该字最终的输出向量;对于句子中标点符号的字对应的模型输出向量,直接使用所述模型输出向量作为该字最终的输出向量;将所述句子中每一个字的最终的输出向量翻译成文本信息进行输出。
在一种实施方式中,所述模型是采用Transformer作为特征抽取器的神经网络模型。
实施例3
本发明实施例提供了一种标点符号的处理装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标点符号的处理程序,所述标点符号的处理程序被所述处理器执行时实现上述实施例1中的标点符号的处理方法的步骤。
实施例4
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有标点符号的处理程序,所述标点符号的处理程序被处理器执行时实现上述实施例1中的标点符号的处理方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种标点符号的处理方法,包括:
从语料库中选择句子样本作为训练样本;所述训练样本包括标点符号正确的句子样本和标点符号错误的句子样本;
向模型输入句子样本以及所述句子样本中标点符号的位置信息,为所述模型标注输出标签,通过有监督训练的方式训练所述模型预测所述输入的句子样本的正确标点符号表述;其中,所述输出标签至少包括句子样本的标点符号的正确表述方式对应的标签;
向所述模型输入待预测的句子和所述句子中标点符号的位置信息,利用所述模型预测所述句子的正确标点符号表述。
2.如权利要求1所述的方法,其特征在于:
所述从语料库中选择句子样本作为训练样本,包括:
从语料库中选择一部分句子样本作为第一语料集合,从语料库中选择另一部分句子样本作为第二语料集合;
对所述第一语料集合中的任意一条句子样本,将所述句子样本中的正确标点符号随机替换为错误标点符号,将替换后的句子样本作为模型输入的句子样本,将替换前的句子样本作为用于模型输出标注的参考样本;
对所述第二语料集合中的任意一条句子样本,将所述句子样本复制一份得到所述句子样本的副本,将所述句子样本原件作为模型输入的句子样本,将所述句子样本的副本作为用于模型输出标注的参考样本。
3.如权利要求1所述的方法,其特征在于:
所述通过有监督训练的方式训练所述模型预测所述输入句子样本的正确标点符号表述,包括:
根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,生成所述句子的输入矩阵;
对所述输入矩阵进行模型运算输出输出矩阵,所述输出矩阵包括句子样本中的每个字对应的输入向量经过模型运算后得到的输出向量;
根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数。
4.如权利要求3所述的方法,其特征在于:
所述根据句子样本以及所述句子样本中标点符号的位置信息对所述句子样本中的每一个字进行向量表达,包括:
将句子样本中的每一个字通过文本数字化表示为词嵌入矩阵的向量;将句子样本中的每一个字在句子中的位置信息表示为位置嵌入矩阵的向量;将句子样本中的每一个字是否为标点符号的信息表示为标点符号掩码嵌入矩阵的向量;
对句子样本中的任意一个字,将所述字对应的词嵌入矩阵的向量,位置嵌入矩阵的向量以及标点符号掩码嵌入矩阵的向量进行相加生成所述字的输入向量。
5.如权利要求3所述的方法,其特征在于:
根据所述模型的输出矩阵与所述模型标注的输出标签之间的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数,包括:
对于句子样本中标点符号的字对应的输出向量,计算所述输出向量对应的输出标签与实际模型输出之间的差异,对于句子样本中非标点符号的字对应的输出向量,不计算所述输出向量对应的输出标签与实际模型输出之间的差异;根据计算得到的差异确定模型的梯度信息,通过所述梯度信息进行反向传播以调整所述模型的参数;其中,所述输出标签包括句子样本中非标点符号的字对应的标签和标点符号对应的标签。
6.如权利要求1所述的方法,其特征在于:
所述利用所述模型预测所述句子中标点符号的正确表达,包括:
计算所述待预测的句子中每一个字的输入向量;所述输入向量是由所述字对应的词嵌入矩阵中的向量,所述字对应的位置嵌入矩阵中的向量,以及所述字对应的标点符号掩码嵌入矩阵中的向量相加而成的复合向量;
对每一个字的输入向量进行模型运算得到所述字的模型输出向量;
对于句子中非标点符号的字对应的模型输出向量,用所述字在输入时的词嵌入矩阵中的向量代替所述模型的输出向量作为该字最终的输出向量;对于句子中标点符号的字对应的模型输出向量,直接使用所述模型输出向量作为该字最终的输出向量;
将所述句子中每一个字的最终的输出向量翻译成文本信息进行输出。
7.如权利要求1-6中任一项所述的方法,其特征在于:
所述模型是采用Transformer作为特征抽取器的神经网络模型。
8.如权利要求2所述的方法,其特征在于:
所述第一语料集合和第二语料集合包含的句子样本数量相等。
9.一种标点符号的处理装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标点符号的处理程序,所述标点符号的处理程序被所述处理器执行时实现上述权利要求1-8中任一项所述的标点符号的处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有标点符号的处理程序,所述标点符号的处理程序被处理器执行时实现上述权利要求1-8中任一项所述的标点符号的处理方法的步骤。
CN201911348229.3A 2019-12-24 2019-12-24 一种标点符号的处理方法及装置 Active CN111222321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911348229.3A CN111222321B (zh) 2019-12-24 2019-12-24 一种标点符号的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911348229.3A CN111222321B (zh) 2019-12-24 2019-12-24 一种标点符号的处理方法及装置

Publications (2)

Publication Number Publication Date
CN111222321A true CN111222321A (zh) 2020-06-02
CN111222321B CN111222321B (zh) 2023-05-09

Family

ID=70830920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911348229.3A Active CN111222321B (zh) 2019-12-24 2019-12-24 一种标点符号的处理方法及装置

Country Status (1)

Country Link
CN (1) CN111222321B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129877A (zh) * 2022-07-12 2022-09-30 北京有竹居网络技术有限公司 标点符号预测模型的生成方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120281A1 (en) * 2013-10-30 2015-04-30 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
CN108564953A (zh) * 2018-04-20 2018-09-21 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN109918666A (zh) * 2019-03-06 2019-06-21 北京工商大学 一种基于神经网络的中文标点符号添加方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120281A1 (en) * 2013-10-30 2015-04-30 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
CN108564953A (zh) * 2018-04-20 2018-09-21 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN109918666A (zh) * 2019-03-06 2019-06-21 北京工商大学 一种基于神经网络的中文标点符号添加方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129877A (zh) * 2022-07-12 2022-09-30 北京有竹居网络技术有限公司 标点符号预测模型的生成方法、装置和电子设备

Also Published As

Publication number Publication date
CN111222321B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110674629B (zh) 标点符号标注模型及其训练方法、设备、存储介质
CN108133038B (zh) 一种基于动态记忆网络的实体级别情感分类系统及方法
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN112016310A (zh) 文本纠错方法、系统、设备及可读存储介质
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN114386371B (zh) 中文拼写纠错方法、系统、设备及存储介质
CN110781663A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN110347802B (zh) 一种文本分析方法及装置
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN108549644A (zh) 面向神经机器翻译的省略代词翻译方法
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN109408803A (zh) 一种针对主观题自然语言的语义理解及批改的方法
US20230104662A1 (en) Systems and methods for refining pre-trained language models with improved gender fairness
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN111222321A (zh) 一种标点符号的处理方法及装置
CN113988063A (zh) 一种文本纠错方法、装置、设备及计算机可读存储介质
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN112395858A (zh) 融合试题数据和解答数据的多知识点标注方法和系统
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113420121B (zh) 文本处理模型训练方法、语音文本处理方法及装置
CN112685543B (zh) 一种基于文本回答问题的方法及装置
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant