CN112949288B - 一种基于字符序列的文本检错方法 - Google Patents

一种基于字符序列的文本检错方法 Download PDF

Info

Publication number
CN112949288B
CN112949288B CN201911263558.8A CN201911263558A CN112949288B CN 112949288 B CN112949288 B CN 112949288B CN 201911263558 A CN201911263558 A CN 201911263558A CN 112949288 B CN112949288 B CN 112949288B
Authority
CN
China
Prior art keywords
text
character
characters
error detection
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911263558.8A
Other languages
English (en)
Other versions
CN112949288A (zh
Inventor
彭俊杰
胡淼
张换香
胡敬响
谭书华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201911263558.8A priority Critical patent/CN112949288B/zh
Publication of CN112949288A publication Critical patent/CN112949288A/zh
Application granted granted Critical
Publication of CN112949288B publication Critical patent/CN112949288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于字符序列的文本检错方法,包括:S1、从问答系统的日志信息中提取出样本语料;S2、基于样本语料,构建领域词表及各样本文本对应的决策权重矩阵;S3、构建文本检错模型;S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及决策权重矩阵,以训练文本检错模型;S5、获取实际文本并构建对应的决策权重矩阵;S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果。与现有技术相比,本发明通过构建对应于文本的决策权重矩阵,并将其与Bi‑LSTM的隐藏输出相结合,能够有效突出错误字符特征,提高检错结果准确性。

Description

一种基于字符序列的文本检错方法
技术领域
本发明涉及文本分析技术领域,尤其是涉及一种基于字符序列的问答文本检错方法。
背景技术
问答系统的快速发展为信息检索系统注入了新的活力,不同于传统的搜索引擎,它能用准确、简洁的自然语言回答用户用自然语言表达的问题。因此问答系统成为了目前各大厂商大力发展的新一代信息检索工具,例如:面向医疗行业的智能问答系统,基于移动通讯领域的问答系统以及面向电商领域的智能问答系统等。尽管目前问答系统已经被广泛应用于上述领域,但在实际中,用户输入文本往往会存在一些错误,如果问答系统不能识别文本中的错误,那么就很难正确地理解用户的意图并给出对应的答案。例如在物流行业,当用户输入“为什么我的建议直不发?”时,实际是将“件一”错误写成了“建议”,此时文本表达的含义与原始的信息完全不同,为此需要能够对输入拼写进行自动检错,以保证问答系统能够准确地进行人机交互。
不同于英文文本的拼写错误,中文的输入不存在非词错误,无法像英文那样以字典匹配的方式进行错误查找,中文的输入错误主要集中在同音字错误以及形近字错误,并且中文没有词边界,即词与词之间没有间隔符,在不同的语境下,同一个词语的组合可能会导致正确与错误两种相反的结果。例如:“快递有快的吗”和“我要寄快的”,前一个文本中的“快的”使用正确,而后一个文本中的“快的”却是一个错误的组合。因此传统的英文文本检错方法不适用中文的文本检错。中文的特殊性使得自然语言的自动检错工作更为困难。
目前常用的中文文本检错方法是基于概率统计的方法,包括:N元匹配检错算法,NMWS的检错算法以及基于混合系统的检错算法等。大量正确的语料是保证这些检错方法能够准确检查出错误字符的重要前提,一旦语料中存在错误,则这些错误就会被一直保留下去,并且在检错算法的处理过程中,用来判断文本表述是否合理的阈值是一个难以确定的超参数,与此同时基于规则统计的方法将导致文本检错只能从局部进行,而无法考虑长距离依赖关系。
鉴于以上情况,一些研究者开始将深度学习中的序列模型运用到文本检错中,利用该类模型进行自动提取上下文特征,进而利用上下文信息来进行目标字符的正误判断。比较常见的模型有:RNN模型,Bi-LSTM模型,Bi-GRU模型等,然而,当文本数量比较小时,由于文本中错误字符与正确字符的类别分布不均衡,通常正确字符的数量要远远多于错误字符的数量,使得模型均很难学习到在语料库中占小比例的错误字符的特征,无法准确地对目标字符进行正误判断,导致文本检错结果的准确率不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于字符序列的问答文本检错方法,利用Bi-LSTM神经网络来提取文本中的上下文特征,通过构建决策权重矩阵,并将该权重矩阵与Bi-LSTM的隐藏输出相结合,以突出错误字符特征,提高文本检错结果的准确率。
本发明的目的可以通过以下技术方案来实现:一种基于字符序列的文本检错方法,包括以下步骤:
S1、获取问答系统的日志信息,并从日志信息中提取出样本语料,其中,样本语料包括多个样本文本,样本文本由字符序列组成;
S2、基于样本语料,构建领域词表,并根据领域词表,构建各样本文本对应的决策权重矩阵;
S3、构建文本检错模型,该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层,全连接层以及输出层;
S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及各样本文本对应的决策权重矩阵,对文本检错模型进行训练,以得到训练好的文本检错模型;
S5、获取实际文本,并根据领域词表,构建该实际文本对应的决策权重矩阵;
S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果,其中,检错结果具体为对应于实际文本字符序列的类别标签序列。
进一步地,所述步骤S1具体包括以下步骤:
S11、获取问答系统的日志信息,从日志信息中筛选出由字符序列组成的多个样本文本;
S12、依次对多个样本文本的字符序列进行正确字符和错误字符的人工标注,得到各字符序列对应的人工标签序列。
进一步地,所述步骤S2具体包括以下步骤:
S21、对样本语料中的多个样本文本进行分词处理,以得到领域词表;
S22、根据领域词表,以及文本中其余字符与目标字符的相对位置,首先将样本文本的字符数量填充至与预设的文本字符数量相同,之后依次计算得到文本中其余字符对目标字符的影响权重,其中,若文本的字符数量小于预设的文本字符数量,则从该文本的最后一个字符开始依次填充0字符,直至该文本的字符数量与预设的文本字符数量相同,若文本的字符数量等于预设的文本字符数量,则无需对该文本进行0字符填充,预设的文本字符数量等于样本语料中长度最长的样本文本所包含的字符数量;
S23、将其余字符对目标字符的各影响权重分别平均化处理,之后按照字符序列的排列顺序,将平均化处理后目标字符的各影响权重按顺序排列组成该目标字符的决策权重向量;
S24、基于字符序列的排列顺序,将各目标字符的决策权重向量按顺序排列组成文本的决策权重矩阵。
进一步地,所述步骤S22中计算文本中其余字符对各目标字符的影响权重的规则为:
若文本中其余字符与目标字符的相对位置越大,则其余字符对目标字符的影响权重越小;
若文本中其余字符与目标字符之间的片段存在于领域词表中,则该其余字符对目标字符的影响权重随着该其余字符与目标字符之间相对位置的增大而增大。
进一步地,所述领域词表具体为:
words_table=(words1,words2,words3,…wordsm)
其中,words_table为领域词表,wordsm为领域词表中第m个分词,m是一个正整数。
进一步地,所述决策权重矩阵具体为:
sen_matrixj=(avg_vector1,…avg_vectork)
avg_vectori=(avi1,avi2,…,avil,…,avik)
Figure BDA0002312236680000041
Figure BDA0002312236680000042
sentencej=(w1,w2,w3,…,wn,…,wk),k≥n
其中,sen_matrixj为文本j的决策权重矩阵,avg_vectori为目标字符i的决策权重向量,k为预设的文本字符数量,n为文本j的实际字符数量,avil为字符l对目标字符i的影响权重平均值,vil为字符l对目标字符i的影响权重,dil为字符l与目标字符i的相对位置,wordsil为字符l与目标字符i之间的片段,sentencej为文本j的字符序列,wk为字符序列中第k个字符。
进一步地,所述步骤S4具体包括以下步骤:
S41、根据样本文本的数量,将多个样本文本平均分成A个batch,并对A个batch中各样本文本进行向量化处理,其中,A个batch构成一个epoch,一个batch中包含B个样本文本;
S42、将A个batch依次输入文本检错模型,结合各样本文本对应的决策权重矩阵,每输入一个batch,则计算一次loss值,根据该loss值反向调节文本检错模型的参数;
S43、根据预设的迭代次数T,重复执行T次步骤S42的过程,即重复输入T次epoch给文本检错模型,最终得到训练好的文本检错模型。
进一步地,所述步骤S42的具体过程为:将A个batch依次输入文本检错模型,每输入一个batch,即依次输入B个向量化处理后的样本文本,每输入一个向量化处理后的样本文本,则在文本检错模型中Bi-LSTM层的隐藏输出和该样本文本对应的决策权重矩阵相乘,从而突出该样本文本中错误字符的特征,在输出层计算得到一个子loss值;
一个batch输入完成后,得到B个子loss值,对这B个子loss值求取平均值,则得到该batch对应的loss值,根据该loss值反向调节文本检错模型的参数,当A个batch全部输入完成后,则根据这A个batch对应的loss值先后对文本检错模型的参数进行了A次反向调节。
进一步地,所述loss值具体是采用均方差损失函数计算输出类别标签序列与输入文本字符序列对应的人工标签序列之间的均方误差。
与现有技术相比,本发明具有以下优点:
一、本发明充分利用隐含在文本中字符与字符之间的位置关系,并基于领域词表获得文本中字符与字符之间的上下文关联信息,以构建文本中各字符对应的决策权重向量,最终得到文本对应的决策权重矩阵,克服了文本中错误字符与正确字符的类别分布不均衡的问题,通过与Bi-LSTM层的隐藏输出相接合,能够有效突出文本中错误字符的特征,使得文本检错模型能够准确地对文本进行检错,保证了文本检错结果的准确性。
二、本发明通过对文本的字符序列进行向量化处理,使得文本检错能够从语义层面分析输入文本,基于Bi-LSTM的文本检错模型,能够充分利用输入文本中的上下文信息来对目标字符进行正误判断,且文本检错模型输出为对应于字符序列的类别标签序列,即针对字符序列中各字符进行检错,能够精确定位文本中错误字符所在的位置。
三、本发明通过计算比较文本输出类别标签序列与该文本人工标签序列之间的均方误差,并利用该均方误差值反向调节文本检错模型的参数,进一步提高了文本检错模型的可靠性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中文本检错模型的结构示意图;
图3为本发明与传统的文本检错方法在数据集1情况下的检错结果对比示意图;
图4为本发明与传统的文本检错方法在数据集2情况下的检错结果对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,一种基于字符序列的文本检错方法,包括以下步骤:
S1、获取问答系统的日志信息,并从日志信息中提取出样本语料,其中,样本语料包括多个样本文本,样本文本由字符序列组成;
S2、基于样本语料,构建领域词表,并根据领域词表,构建各样本文本对应的决策权重矩阵;
S3、构建文本检错模型,该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层,全连接层以及输出层;
S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及各样本文本对应的决策权重矩阵,对文本检错模型进行训练,以得到训练好的文本检错模型;
S5、获取实际文本,并根据领域词表,构建该实际文本对应的决策权重矩阵;
S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果,其中,检错结果具体为对应于实际文本字符序列的类别标签序列。
在本实施例构建及训练文本检错模型的过程中,首先利用Bi-LSTM神经网络来提取文本中的上下文信息,利用获得的上下文信息对目标字符进行正误判断,与此同时,为了突出文本中错误字符的特征,减缓类别分布不均问题,通过构建决策权重矩阵并将其与Bi-LSTM的隐藏输出相结合,最后通过计算比较文本的输出类别标签序列与人工标注的one-hot标签序列,以得到均方误差,通过计算的均方误差反向调节文本检错模型每一层的参数,从而得到训练好的文本检错模型。
具体的,本实施例应用上述方法的主要过程包括以下:
P1、获取问答系统的日志信息,得到包含多个样本文本的样本语料,并对其进行预处理操作:对语料中各文本的每个字符进行人工标注,并将所有文本按照一定的比例分为训练语料,验证语料和测试语料,预处理后的数据格式如表1所示,
表1
ID Sequence Tagging
1 我/r 想/r 差/e 异/e 下/r 快/r 递/r 物/r 流/r
2 请/r 问/r 什/r 么/r 侍/e 候/r 派/r 件/r
3 请/r 问/r 查/r 得/r 到/r 货/r 运/r 进/r 度/r 码/e
其中,r表示该字符为正确字符,e表示该字符为错误字符。
P2、利用jieba工具对语料进行分词,以制作问答系统的领域词表,然后利用该词表以及文本中其他字符与目标字符的相对位置,计算得到各目标字符的决策权重向量,最终构建文本对应的决策权重矩阵,其中,决策权重的构建考虑到其他字符与目标字符的相对位置以及其他字符与目标字符之间的片段是否存在于领域词表中,若其他字符与目标字符的距离越远,则其他字符对目标字符的影响权重越小;但如果其他字符与目标字符之间的片段存在领域词表中,那么该字符对目标字符的影响权重就越大并且随着距离的增大而增大;
决策权重矩阵的构建是以中文字符为单位,以文本长度作为每个字符的权重向量维度,具体表达如以下公式所示:
words_table=(words1,words2,words3,…wordsm)
sen_matrixj=(avg_vector1,…avg_vectork)
avg_vectori=(avi1,avi2,…,avil,…,avik)
Figure BDA0002312236680000071
Figure BDA0002312236680000072
sentencej=(w1,w2,w3,…,wn,…,wk),k≥n
其中,words_table为领域词表,wordsm为领域词表中第m个分词,m是一个正整数,因为权重的计算主要依据字符之间的相对位置和其他字符与目标字符之间的片段是否处于词汇表中,而这两种因素计算的数值范围不同,所以为了加快网络的收敛,本发明采用标准化的sen_matrixj作为文本j的决策权重矩阵,avg_vectori为目标字符i的决策权重向量,它的主要作用是结合Bi-LSTM的隐藏输出值,从而影响目标字符的正误判决,k为预设的文本字符数量,n为文本j的实际字符数量,avil为字符l对目标字符i的影响权重平均值,vil为字符l对目标字符i的影响权重,dil为字符l与目标字符i的相对位置,wordsil为字符l与目标字符i之间的片段,sentencej为文本j的字符序列,wk为字符序列中第k个字符。
P3、构建文本检错的网络模型结构,如图2所示,它由输入层,嵌入层,Bi-LSTM层,全连接层,输出层5部分组成,其中输入层的层数据为文本字符序列,输出为类别标签序列,图中的r表示该位置处字符是正确的,e表示该位置处字符是错误的,为了从语义层面分析文本,嵌入层采用了word2vec词向量模型获取文本中的字符的表示向量,将向量化后的字符序列作为文本检错网络模型的输入,以输出对应于该文本字符序列的类别标签序列,并且利用Bi-LSTM获取输入文本的上下文信息,由于在一个数据集中正确字符要远远多于错误字符,甚至一句话中只有一个字符是错误的或者不存在错误字符,所以为了缓解上述类别分布不均问题,在全连接层引入文本对应的决策权重矩阵,以增加目标字符正误判断时的参考信息,表2为文本检错网络模型的输入输出格式示意,
表2
ID 输入字符序列 输出类别序列
1 我的订单到了几天都不排送 rrrrrrrrrrer
2 你的围巾是围巾品 rrrrreer
P4、调用输入文本对应的决策权重矩阵,将Bi-LSTM的隐藏输出和该文本的决策权重矩阵相结合,从而突出该文本中错误字符的特征,并通过均方误差计算loss值,利用loss值反向调节文本检错网络模型的参数,最终得到训练好的文本检错网络模型。
P5、利用训练好的文本检错网络模型对实际文本进行检错。
为验证本发明方法的检错准确性及可靠性,本实施例根据如表3所示的两个物流数据集:
表3
数据集类别 数据总量 错误文本 错误字符
Dataset1 120 42 46
Dataset2 240 82 95
分别采用基于统计的n元匹配检错方法,基于Bi-LSTM的文本检错方法以及本发明方法进行检错结果的比较,其中,评估指标为Sighan Bake-off中文输入拼写纠错大赛中使用的拼写检错评价指标,其具体表达含义如下公式所示:
Figure BDA0002312236680000081
Figure BDA0002312236680000082
Figure BDA0002312236680000083
Figure BDA0002312236680000084
Figure BDA0002312236680000085
其中,TC表示模型正确识别的文本数目,即正确的文本能被正确的识别并且错误的文本能被正确的识别出文本中包含的所有错误,表4描述了表达式中其余各个指标在数据集中的表示情况:
表4
Figure BDA0002312236680000091
图3和图4分别为数据集1和数据集2情况下不同检错方法的检错结果对比示意图,从图中可以看出,在两种不同的数据集中,基于深度学习模型测试的结果在准确率(Accuracy),召回率(Recall)和F1等评估指标上测试结果远远高于基于规则和统计的n元匹配文本检错算法,但基于n元匹配文本检错算法在负正类率(FPR)和精确率(Precision)两项评估指标上略高于深度学习的模型。上述现象产生的原因是因为当语料库的质量比较高时,基于统计规则的匹配方法可以准确的检测出错误句子中存在的一些字符错误,但基于统计的方法存在不能关联上下文信息,无法识别长距离依赖等问题导致其它三项指标的结果偏低。此外本发明方法在三项综合指标上的测试结果均要高于传统Bi-LSTM算法。这是由于本发明在Bi-LSTM神经网络的基础上加入了基于字符的决策权重矩阵,该决策权重矩阵为字符正误判决提供了更多的参考信息。

Claims (9)

1.一种基于字符序列的文本检错方法,其特征在于,包括以下步骤:
S1、获取问答系统的日志信息,并从日志信息中提取出样本语料,其中,样本语料包括多个样本文本,样本文本由字符序列组成;
S2、基于样本语料,构建领域词表,并根据领域词表,构建各样本文本对应的决策权重矩阵;
S3、构建文本检错模型,该文本检错模型包括依次连接的输入层、嵌入层、Bi-LSTM层,全连接层以及输出层;
S4、将多个样本文本分别向量化处理后依次输入文本检错模型,根据预设的迭代次数以及各样本文本对应的决策权重矩阵,对文本检错模型进行训练,以得到训练好的文本检错模型;
S5、获取实际文本,并根据领域词表,构建该实际文本对应的决策权重矩阵;
S6、将实际文本向量化处理后输入训练好的文本检错模型,结合该实际文本对应的决策权重矩阵,得到该实际文本对应的检错结果,其中,检错结果具体为对应于实际文本字符序列的类别标签序列。
2.根据权利要求1所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、获取问答系统的日志信息,从日志信息中筛选出由字符序列组成的多个样本文本;
S12、依次对多个样本文本的字符序列进行正确字符和错误字符的人工标注,得到各字符序列对应的人工标签序列。
3.根据权利要求2所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、对样本语料中的多个样本文本进行分词处理,以得到领域词表;
S22、根据领域词表,以及文本中其余字符与目标字符的相对位置,首先将样本文本的字符数量填充至与预设的文本字符数量相同,之后依次计算得到文本中其余字符对目标字符的影响权重,其中,若文本的字符数量小于预设的文本字符数量,则从该文本的最后一个字符开始依次填充0字符,直至该文本的字符数量与预设的文本字符数量相同,若文本的字符数量等于预设的文本字符数量,则无需对该文本进行0字符填充,预设的文本字符数量等于样本语料中长度最长的样本文本所包含的字符数量;
S23、将其余字符对目标字符的各影响权重分别平均化处理,之后按照字符序列的排列顺序,将平均化处理后目标字符的各影响权重按顺序排列组成该目标字符的决策权重向量;
S24、基于字符序列的排列顺序,将各目标字符的决策权重向量按顺序排列组成文本的决策权重矩阵。
4.根据权利要求3所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S22中计算文本中其余字符对各目标字符的影响权重的规则为:
若文本中其余字符与目标字符的相对位置越大,则其余字符对目标字符的影响权重越小;
若文本中其余字符与目标字符之间的片段存在于领域词表中,则该其余字符对目标字符的影响权重随着该其余字符与目标字符之间相对位置的增大而增大。
5.根据权利要求4所述的一种基于字符序列的文本检错方法,其特征在于,所述领域词表具体为:
words_table=(words1,words2,words3,…wordsm)
其中,words_table为领域词表,wordsm为领域词表中第m个分词,m是一个正整数。
6.根据权利要求5所述的一种基于字符序列的文本检错方法,其特征在于,所述决策权重矩阵具体为:
sen_matrixj=(avg_vector1,…avg_vectork)
avg_vectori=(avi1,avi2,…,avil,…,avik)
Figure FDA0003856105900000021
Figure FDA0003856105900000022
sentencej=(w1,w2,w3,…,wn,…,wk),k≥n
其中,sen_matrixj为文本j的决策权重矩阵,avg_vectori为目标字符i的决策权重向量,k为预设的文本字符数量,n为文本j的实际字符数量,avil为字符l对目标字符i的影响权重平均值,vil为字符l对目标字符i的影响权重,dil为字符l与目标字符i的相对位置,wordsil为字符l与目标字符i之间的片段,sentencej为文本j的字符序列,wk为字符序列中第k个字符,words_table为领域词表。
7.根据权利要求2所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、根据样本文本的数量,将多个样本文本平均分成A个batch,并对A个batch中各样本文本进行向量化处理,其中,A个batch构成一个epoch,一个batch中包含B个样本文本;
S42、将A个batch依次输入文本检错模型,结合各样本文本对应的决策权重矩阵,每输入一个batch,则计算一次loss值,根据该loss值反向调节文本检错模型的参数;
S43、根据预设的迭代次数T,重复执行T次步骤S42的过程,即重复输入T次epoch给文本检错模型,最终得到训练好的文本检错模型。
8.根据权利要求7所述的一种基于字符序列的文本检错方法,其特征在于,所述步骤S42的具体过程为:将A个batch依次输入文本检错模型,每输入一个batch,即依次输入B个向量化处理后的样本文本,每输入一个向量化处理后的样本文本,则在文本检错模型中Bi-LSTM层的隐藏输出和该样本文本对应的决策权重矩阵相乘,从而突出该样本文本中错误字符的特征,在输出层计算得到一个子loss值;
一个batch输入完成后,得到B个子loss值,对这B个子loss值求取平均值,则得到该batch对应的loss值,根据该loss值反向调节文本检错模型的参数,当A个batch全部输入完成后,则根据这A个batch对应的loss值先后对文本检错模型的参数进行了A次反向调节。
9.根据权利要求7所述的一种基于字符序列的文本检错方法,其特征在于,所述loss值具体是采用均方差损失函数计算输出类别标签序列与输入文本字符序列对应的人工标签序列之间的均方误差。
CN201911263558.8A 2019-12-11 2019-12-11 一种基于字符序列的文本检错方法 Active CN112949288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911263558.8A CN112949288B (zh) 2019-12-11 2019-12-11 一种基于字符序列的文本检错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911263558.8A CN112949288B (zh) 2019-12-11 2019-12-11 一种基于字符序列的文本检错方法

Publications (2)

Publication Number Publication Date
CN112949288A CN112949288A (zh) 2021-06-11
CN112949288B true CN112949288B (zh) 2022-11-11

Family

ID=76226097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911263558.8A Active CN112949288B (zh) 2019-12-11 2019-12-11 一种基于字符序列的文本检错方法

Country Status (1)

Country Link
CN (1) CN112949288B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970506B (zh) * 2022-06-09 2024-07-23 广东外语外贸大学 基于多粒度语法错误模板学习微调的语法纠错方法和系统
CN116187304A (zh) * 2023-04-26 2023-05-30 中国传媒大学 一种基于改进bert的自动文本纠错算法及系统
CN117350283B (zh) * 2023-10-11 2024-10-01 西安栗子互娱网络科技有限公司 文本缺陷检测方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、系统、计算机设备及存储介质
CN110222178A (zh) * 2019-05-24 2019-09-10 新华三大数据技术有限公司 文本情感分类方法、装置、电子设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049103B2 (en) * 2017-01-17 2018-08-14 Xerox Corporation Author personality trait recognition from short texts with a deep compositional learning approach
CN107168954B (zh) * 2017-05-18 2021-03-26 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN109635279B (zh) * 2018-11-22 2022-07-26 桂林电子科技大学 一种基于神经网络的中文命名实体识别方法
CN110162669B (zh) * 2019-04-04 2021-07-02 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、系统、计算机设备及存储介质
CN110222178A (zh) * 2019-05-24 2019-09-10 新华三大数据技术有限公司 文本情感分类方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112949288A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN112949288B (zh) 一种基于字符序列的文本检错方法
CN109165284B (zh) 一种基于大数据的金融领域人机对话意图识别方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
US10665122B1 (en) Application of semantic vectors in automated scoring of examination responses
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN108021555A (zh) 一种基于深度卷积神经网络的问句相似度度量方法
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN111597356B (zh) 智能化教育知识图谱构建系统与方法
CN110059183B (zh) 一种基于大数据的汽车行业用户观点情感分类方法
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN110096572A (zh) 一种样本生成方法、装置及计算机可读介质
CN109213998A (zh) 中文错字检测方法及系统
CN111414746A (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN110781673A (zh) 文档验收方法、装置、计算机设备及存储介质
CN107239449A (zh) 一种英语识别方法和翻译方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN105243053A (zh) 提取文档关键句的方法及装置
CN112447172A (zh) 一种语音识别文本的质量提升方法和装置
CN115688789B (zh) 一种基于动态标签的实体关系抽取模型训练方法及系统
CN108304366B (zh) 一种上位词检测方法及设备
CN112000767B (zh) 一种基于文本的信息抽取方法和电子设备
CN115809655A (zh) 一种基于归因网络和bert的中文字符纠正方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant