CN116127952A - 一种多粒度中文文本纠错方法和装置 - Google Patents

一种多粒度中文文本纠错方法和装置 Download PDF

Info

Publication number
CN116127952A
CN116127952A CN202310088091.8A CN202310088091A CN116127952A CN 116127952 A CN116127952 A CN 116127952A CN 202310088091 A CN202310088091 A CN 202310088091A CN 116127952 A CN116127952 A CN 116127952A
Authority
CN
China
Prior art keywords
word
granularity
error
text
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310088091.8A
Other languages
English (en)
Inventor
赵鑫安
宋伟
朱世强
谢冰
袭向明
尹越
王雨菡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310088091.8A priority Critical patent/CN116127952A/zh
Publication of CN116127952A publication Critical patent/CN116127952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种多粒度中文文本纠错方法,包括:对待纠错的中文文本进行预处理;构建名词知识库和文本纠错训练语料;使用预训练语言模型对输入待纠错的文本进行向量编码,并融合文本的语音信息,得到字符向量序列;基于神经网络检测文本中的字粒度和词粒度错误,得到错误字集合和错误词集合;对检测得到的字粒度和词粒度的错误分别进行纠正,得到字、词粒度错误的候选替换字、词;使用多任务学习的方式联合训练整个模型;将字、词粒度纠正结果进行融合,得到纠错后的文本。本发明还包括一种多粒度中文文本纠错装置。本发明可以有效地对文本中的多粒度(字粒度和词粒度)错误进行纠错,并采用多任务学习的方式训练整个模型,具有很好的纠错准确性和实用性。

Description

一种多粒度中文文本纠错方法和装置
技术领域
本发明涉及文本纠错领域,具体涉及一种多粒度中文文本纠错方法和装置。
背景技术
近些年来,随着人工智能技术的快速发展,自动语音识别技术在理论和应用方面都取得了重大突破,被广泛应用于智能机器人、智能客服、语音识别听写器等领域。但是由于用户的口音、方言、表达方式、背景噪声以及语音识别模型自身缺陷等因素的影响,语音识别技术无法完全正确地将语音信号转化为文本,特别是针对垂直领域的专有名词(比如人名、事物名词等,这些名词出现的频率较低)的识别准确率较低。并且语音识别错误会极大地影响下游任务(比如意图识别、文本检索、实体识别等)的准确率和召回率。
为了解决语音识别错误的问题,需要利用文本纠错技术对语音识别得到的文本进行错误检测和纠正。文本纠错技术在许多自然语言处理(NLP)应用中有着重要的作用,是不可或缺的前置模块。现有的文本纠错技术方案与存在的问题如下:
(1)基于统计语言模型的文本纠错方法首先通过对待纠错文本的局部n-gram进行打分来检测字词错误,然后使用预先构建的混淆集得到错误字词对应的候选字词依次进行替换生成候选文本,最后通过计算各候选文本的困惑度得分或者使用设定的规则来筛选得到最优文本。由于统计语言模型仅仅使用了文本语料库中的字词频率信息,它无法使用语义表征,无法利用较长距离的上下文信息,且纠错效果受到混淆集的影响,因此该方法的准确率有限。
(2)近些年来,以CNN、RNN为代表的深度学习模型在许多NLP任务上证明了其有效性,特别是以BERT为代表的预训练语言模型。同样地,许多方法利用BERT等预训练语言模型来实现端到端的文本纠错,由于其强大的语言理解和表征能力,这些文本纠错方法在许多文本纠错任务上达到了不错的效果,特别是在常见的字粒度错误上。但是基于预训练语言模型的文本纠错方法容易受到上下文噪声的干扰,对有多个错误的文本的纠错效果较差,且对于词粒度错误,特别是垂直领域的专有名词的纠错效果较差。
(3)为了解决词粒度的错误,现有方法大多是通过分词(例如jieba、corenlp等分词工具)或者使用命名实体识别(比如隐马尔可夫HMM、条件随机场CRF,以及BiLSTM+CRF等模型)方法识别出可能存在错误的词,然后再使用候选词召回、排序、筛选进行纠错。但是由于分词算法性能的限制,常会出现字词的错误切分,此外以上列举的命名实体识别模型也经常会出现实体错误识别和未识别的情况,特别是无法解决文本中出现嵌套实体名词的情况,导致整体的纠错准确率有限,且只能纠正词粒度的错误。
此外,以上几种方法均容易受到训练数据分布的影响,对于低频的专有名词错误识别效果较差。因此如何同时纠正字粒度和词粒度的错误,包括常见的、高频的字词粒度的错误和不常见、低频的专有名词错误(特别是垂直领域的专有名词错误),对提升文本纠错算法性能具有重要的意义。
发明内容
本发明要克服现有技术的上述不足,提出一种多粒度中文文本纠错方法和装置。
为实现上述目的,本发明的技术方案为:本发明实施例的第一方面提供了一种多粒度中文文本纠错方法,包括如下步骤:
S1:对待纠错的中文文本进行预处理;
S2:构建名词知识库,收集纠错原始数据并构建文本纠错模型的训练语料;
S3:使用预训练语言模型对输入的待纠错文本进行向量编码,并融合文本的语音信息,得到对应的字符向量序列;
S4:在步骤S3中得到文本字符向量序列后,使用一层全连接层构成的字粒度错误检测层来检测文本中的字粒度错误,使用基于字符片段首字符、尾字符、相对距离特征构成的词粒度错误检测神经网络来检测文本中的词粒度错误,得到错误字集合和错误词集合;
S5:对S4步骤中检测得到的错误字集合和错误词集合分别进行纠正,得到字粒度错误的候选替换字和词粒度错误的候选替换词;对于S4中检测得到的错误字,使用一层全连接层构成的字粒度错误纠正层来预测正确字符,得到候选替换字;对于S4中检测得到的错误词,采用候选召回、候选排序筛选的方式从S2中构建的名词知识库中得到对应的纠正词,得到候选替换词;
S6:使用S2中构建得到训练语料,采用多任务学习的方式联合训练S3中的拼音编码模块和预训练语言模型的embedding模块、编码器,S4中的字粒度错误检测层、词粒度错误检测神经网络和S5中的字粒度错误纠正层;
S7:对于待纠错文本,从S5得到字粒度错误的候选替换字和词粒度错误的候选替换词后,按预设规则对字词粒度纠错结果进行融合,得到纠错后的文本。
进一步,步骤S1具体包括:为提高后续纠错的准确率,需预先对待纠错的中文文本进行预处理,预处理步骤包括Unicode文本标准化、繁简转换处理、标点恢复、数字预处理。
进一步,步骤S2中构建的名词知识库中包含从公开的已有名词知识库等中获取的普通名词,以及从垂直领域或限定领域的文本语料数据通过人工、或者统计/规则的方法获取的专有名词;进一步地,从智能问答系统或语音识别系统中收集得到的纠错原始数据,按步骤S1中所述方式进行预处理,并人工标注其中每条文本的字粒度错误标签序列、字粒度正确字符序列、词粒度错误标签,标注完毕后将其随机划分为训练集、验证集、测试集,用于后续纠错模型的训练。
进一步,步骤S3具体包括:首先使用预训练语言模型的词库得到输入待纠错文本的字符索引序列,接着使用预训练语言模型的embedding模块得到每个字符的字符嵌入向量和位置嵌入向量,然后使用神经网络对每个字符的拼音序列进行编码得到语音嵌入向量,三者相加得到的该字符最终的嵌入向量,进一步地将其输入预训练语言模型基于transformer的编码器得到该文本的字符向量序列。
进一步,步骤S4中分别对待纠错的文本进行字粒度错误检测和词粒度错误检测方法具体为:在步骤S3中得到文本字符向量序列后,字粒度错误检测使用一层全连接层构成的字粒度错误检测层来得到文本中每个字符字粒度的错误概率,收集错误概率大于预设字粒度错误阈值vchar的字符得到错误字集合。
再进一步地,词粒度错误检测步骤中对于从字符xi到字符xj(1<=i<j<=n,n是文本长度)构成的字符片段,以字符片段首字符、尾字符、相对距离作为特征,分别使用一个全连接层和RELU层得到字符片段首字符的表征向量
Figure BDA0004074043460000031
和字符片段尾字符的表征向量
Figure BDA0004074043460000032
以及使用一个相对距离编码函数对xi和xj之间的距离进行编码得到edist,将
Figure BDA0004074043460000033
edist三者拼接输入一个错误片段分类层得到该片段错误的概率,若该片段的错误概率大于等于预先设定的词粒度错误阈值εspan,则该字符片段有误,需要进行纠正,收集错误概率大于预设阈值的字符片段得到错误词集合。对步骤S4检测得到的错误字集合和错误词集合分别进行字粒度错误纠正和词粒度错误进行错误纠正。
进一步,步骤S5具体包括:对于S4中检测得到的错误字,字粒度错误纠正步骤以错误字和错误概率为特征,使用一层全连接层构成的字粒度错误纠正层来预测每个错误字纠正为词表中每个字符的概率,选择其中概率最大值作为该错误字的候选替换字;对于S4中检测得到的错误词,词粒度错误纠正步骤先基于拼音编辑距离从S2中构建的名词知识库中分别召回等长候选词和不等长候选词,然后使用截断的线性回归模型,输入中文字符层面、拼音层面等特征计算综合相似度来对候选词进行排序筛选,将得分最高且大于预设阈值的候选词作为该错误词的候选替换词。
进一步,步骤S6中总损失函数为S4中的字粒度错误检测层的损失、S4中的词粒度错误检测神经网络的损失、S5中的字粒度错误纠正层的损失的加权平均,通过最小化总损失函数来优化模型的参数。
进一步,步骤S7具体包括:根据预设的规则对字词粒度的纠正结果进行融合,避免字词粒度的纠正结果冲突和误纠情况的发生,将输入待纠错文本中每个字词粒度替换为替换字词,得到纠错后的文本;所述预设规则当字粒度纠错结果和词粒度纠错结果产生冲突时,优先采用词粒度纠错结果。
本发明实施例的第二方面提供了一种多粒度中文文本纠错的装置,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的一种多粒度中文文本纠错方法。
本发明实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的一种多粒度中文文本纠错方法。
本发明的有益效果为:
1、本发明利用预训练语言模型对文本特征提取能力强的优点,对输入的待纠错的文本进行编码,并且编码时融入了文本的语音信息,提升后续文本纠错的准确性。
2、在检测文本中错误的过程中,基于预训练语言模型编码得到的文本向量序列,分别对文本中的字粒度错误和词粒度错误进行检测,同时兼顾字粒度和词粒度的错误。且基于字符片段首字符、尾字符、相对距离构成的词粒度错误检测神经网络检测文本中的词粒度错误,不受分词错误带来的影响,并能解决传统命名实体识别模型无法识别嵌套实体名词的问题。
3、在错误纠正过程中,分别对字粒度的错误和词粒度的错误进行纠正。其中针对字粒度错误直接使用预训练语言模型来预测正确字符。针对词粒度错误,采用候选召回、排序的方式进行纠正,并且采用了中文字符、拼音等特征、基于截断的线性回归模型构建性能更佳的综合相似度函数,能对高频和低频的词粒度错误进行纠正,不受数据分布的影响。因此该方法不仅能对多粒度错误(字粒度和词粒度错误)进行纠正,还能同时兼顾高频词粒度错误和低频词粒度错误(特别是低频的专有名词错误),通过相互补充得到更高纠错准确性。
4、采用多任务学习的方式联合训练预训练语言模型的embedding模块、编码器,字粒度错误检测层、词粒度错误检测神经网络和字粒度错误纠正层来优化模型的参数,一方面各个模块共享预训练语言模型的transformer编码器,减少内存占用和推理时间,另一方面多个模块之间的信息进行共享,相互补充,提升彼此的准确率。
附图说明
图1是本发明方法的流程图;
图2是本发明所述的整体模型结构图;
图3是词粒度错误检测神经网络结构图;
图4是字粒度错误检测层和纠正层结构图;
图5是本发明装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
下面结合附图,对本发明的一种多粒度中文文本纠错方法进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本发明提出了一种多粒度中文文本纠错方法,包括如下步骤:
S1:对待纠错的中文文本进行预处理。
具体地,所述预处理步骤包括Unicode文本标准化、繁简转换处理、标点恢复、数字预处理。具体描述如下:
S11:Unicode文本标准化。
由于输入的待纠错文本可能来自于不同来源,可能会使用不同的编码方式,为了避免对后续模块的影响,首先需要将待纠错文本进行Unicode标准化处理。
S12:繁简转换处理。
由于来自不同地区的中文用户会使用不同的汉字标准,因此需要使用OpenCC等开源的工具包将输入的待纠错文本统一转换为简体中文。
S13:标点恢复。
从语音识别等系统中得到的文本通常是不包含标点符号、未切分的字符序列,这就导致文本的可读性低、语义不连贯,影响后续纠错模型等下游任务的效果。因此需要使用标点恢复技术在文本中添加省略的标点符号。在本方法中使用基于神经网络(比如RNN、CNN、Transformer等)的序列标注方法来预测文本中缺失的标点符号。
S14:数字预处理。
语音识别等系统可能会将中文字符错误识别为阿拉伯数字,例如某个语音识别模型将“这个方案是怎么实现的”错误识别成“这个方案是怎么10现的”(“实”错误识别成“10”),而阿拉伯数字无法使用工具转换为拼音。因此需要先将文本中的非日期、非时间、非序号、非数量等简单阿拉伯数字(0,1,…,9,10,20,…,90,100,200,…900)替换为对应的中文,比如将“10”转化为“十”。
S2:构建名词知识库,收集纠错原始数据并构建文本纠错模型的训练语料。
具体地,该步骤包括构建名词知识库和构建文本纠错模型的训练语料两个子步骤,具体描述如下:
S21:构建名词知识库。
具体地,在进行文本纠错前,需要预先构建包含普通名词和专有名词的名词知识库。名词是指人、事、物、地点、概念等实体或抽象事物词,按照通用性可以分成普通名词和专有名词。普通名词可以从公开的已有名词知识库中获取,专有名词可以从垂直领域或限定领域的文本语料数据通过人工、或者统计/规则的方法获取,这里不对具体方法进行限制。
S22:收集纠错原始数据并构建文本纠错模型的训练语料。具体如下:
文本纠错模型的训练需要用到纠错语料。纠错原始数据可以从智能问答系统的历史记录中获取,也可以人工地使用语音识别系统生成。
得到纠错原始数据后,使用步骤S1中所述预处理方式对其中每条文本进行预处理。
纠错原始数据中的文本中出现的字词识别错误通过人工的形式进行标注,用于构建文本纠错模型的训练语料。具体地,对于每条待纠错的文本X,其文本字符序列为(x1,x2,…,xn)(n是文本的长度,xi是文本中第i个字符,X可能包含错误,也可能不包含错误),通过人工标注的形式得到字粒度的错误标签序列G=(g1,g2,…,gn),其中gi=1代表第i个字符xi是错误的,gi=0代表第i个字符xi是正确的;并标注字粒度的正确字符序列Y=(y1,y2,…,yn),其中yi是第i个字符xi对应的正确字符,若字符xi无错误,则xi=yi。并标注词粒度(字符片段)的错误标签为Z={(i,j,zi,j):1<=i<j<=n},其中zi,j=1代表从i到j的字符片段Xi:j是一个错误名词,zi,j=0代表从i到j的字符片段Xi:j无错误或者是一个正确词。需要注意的是语音识别系统可能会将某个名词识别为长度不相等的错误名词,因此在字粒度错误标注时,若错误名词长度小于正确名词,仿照最长公共子序列算法得到该错误名词中每个字符对应的正确字符;若错误名词长度大于正确名词,则对于错误名词中多余的字符对应的正确字符设为空字符。通过以上方式得到待纠错的文本X对应的一个标注样本为(X,G,Y,Z)。
例如,语音识别系统将“这个项目的负责人是谁?”错误识别为“这个项木的负责人是水?”(其中,将“项目”的“目”错误识别为“木”,将“谁”错误识别为“水”)。从待纠错文本“这个项木的负责人是水?”得到的标注数据为:
X=(这,个,项,木,的,负,责,人,是,水,?),
G=(0,0,0,1,0,0,0,0,0,1,0),
Y=(这,个,项,目,的,负,责,人,是,谁,?),
Z={(2,3,1)}∪{(i,j,0):1<=i<j<=11,i!=2,j!=3}。
若收集到的纠错原始数据中有K条文本,按照上述标注方式得到以下的数据:{(Xk,Gk,Yk,Zk):1<=k<=K},其中
Figure BDA0004074043460000081
Figure BDA0004074043460000082
Zk={(i,j,zk,i,j):
1<=i<j<=nk}是第k条文本对应的文本字符序列、字粒度错误标签序列、字粒度正确字符序列、词粒度(字符片段)的错误标签,nk是该文本的字符序列长度,K是数据集中总的样本数。
对纠错原始数据标注完毕后,按照随机划分的方式,将标注后得到的数据集随机打乱,按照8:1:1的比例划分为训练集、验证集和测试集,分别用于训练文本纠错模型、调整模型的超参数和评估模型的效果。
S3:使用预训练语言模型对输入的待纠错文本进行向量编码,并融合文本的语音信息,得到对应的字符向量序列。
具体地,对于输入的带纠错中文文本X=(x1,x2,…,xn)(n是文本的长度,xi是文本中第i个字符)使用预训练语言模型(比如BERT、RoBERTa、ALBERT等预训练语言模型)的词表(该词表包含常见的字符和字符片段,词表大小是N)得到对应的整数索引序列。使用预训练模型的embedding模块得到每个字符xi的字符嵌入向量
Figure BDA0004074043460000083
和位置嵌入向量
Figure BDA0004074043460000084
考虑到语音识别系统通常会将字词错误地识别成同音或近音字词,因此在对文本进行编码时引入字词的语音信息(即拼音信息)可以得到更丰富的特征,有助于提升文本纠错模型的准确率。对于字符xi,如果该字符为中文字符,则使用xpinyin等python汉字转拼音工具得到对应的拼音字母序列pi;如果该字符非中文,比如英文字母、数字等,则令该字符的拼音字母序列pi=xi。例如,中文字符“项”对应的拼音字母序列为(x,i,a,n,g),英文字符“b”对应的拼音字母序列为(b),数字字符“3”对应的拼音字母序列为(3)。得到字符xi的拼音字母序列pi后,使用一层神经网络(具体可以使用RNN、LSTM、GRU、CNN等神经网络)的拼音编码模块对拼音字母序列pi进行编码,得到字符xi语音嵌入向量
Figure BDA0004074043460000085
进一步地,得到字符xi的字符嵌入向量
Figure BDA0004074043460000091
位置嵌入向量
Figure BDA0004074043460000092
和语音嵌入向量
Figure BDA0004074043460000093
后,将这三者相加,得到字符xi最终的嵌入向量
Figure BDA0004074043460000094
按照以上方式得到每隔字符的嵌入向量后,文本X的嵌入向量序列为E=(e1,e2,…,en)。
进一步地,将文本X的嵌入向量序列E输入由多个transformer层构成的预训练语言模型的编码器。以BERTbase预训练语言模型为例,BERTbase的编码器由12个相同的transformer层构成。每个transformer层的输入是上一个transformer层输出的隐藏状态向量序列,经由多头自注意力机制(multi-head self-attention)、feed-forwardnetwork、残差连接和层归一化,得到该transformer层的隐藏状态向量序列输出。本实例中,将最后一个transformer层输出的隐藏状态向量序列作为文本X的最终编码向量序列,记为H=(h1,h2,…,hn),其中hi是字符xi的编码向量。借助预训练语言模型强大的性能可以有效获取待纠错文本中每个字符的语义和语法信息,并且融入了文本的语音信息,可以提升后续纠错效果。
S4:在步骤S3中得到文本字符向量序列后,使用一层全连接层构成的字粒度错误检测层来检测文本中的字粒度错误,使用基于字符片段首字符、尾字符、相对距离构成的词粒度错误检测神经网络来检测文本中的词粒度错误,得到错误字集合和错误词集合,具体步骤如下:
S41:使用一层全连接层构成的字粒度错误检测层来检测文本中的字粒度错误,得到错误字集合。具体如下:
对于字粒度错误,将文本X中每一个字符xi输入一个由全连接层构成的字粒度错误检测层,得到该字符是否错误的概率
Figure BDA0004074043460000095
定义如下:
Figure BDA0004074043460000096
其中Wd和bd是该全连接层的权重矩阵和偏置项,σ是sigmoid函数。
按照预先设定的字粒度错误阈值εchar,若错误概率
Figure BDA0004074043460000097
大于等于εchar,则判定该字符有误,需要进行纠正,若错误概率
Figure BDA0004074043460000098
小于εchar,则判定该字符无误,无需纠正。得到错误字集合{xi:i∈SETchar},SETchar是字粒度检测模块检测到的错误字符的序号集合。
S42:使用基于字符片段首字符、尾字符、相对距离构成的词粒度错误检测神经网络检测文本中的词粒度错误,得到错误词集合。具体如下:
对于词粒度错误,对于文本X中从字符xi到字符xj构成的字符片段,记为Xij=[xi,xi+1,…,xj](其中i、j满足1<=i<j<=n),Xij对应的字符向量序列为Hij=[hi,hi+1,…,hj],按如下方式使用多层神经网络计算其是一个错误词的概率:
Figure BDA0004074043460000101
Figure BDA0004074043460000102
edist=fdist(j – i),                                 (4)
Figure BDA0004074043460000103
Figure BDA0004074043460000104
其中将首字符xi的编码向量hi输入一个全连接层得到它作为字符片段首字符的表征向量
Figure BDA0004074043460000105
其中Wstart,bstart是该全连接层的权重矩阵和偏置项,RELU(·)是relu激活函数,RELU(x)=max(x,0);将尾字符xj的编码向量hj输入一个全连接层得到它作为字符片段尾字符的表征向量
Figure BDA0004074043460000106
其中Wend,bend是该全连接层的权重矩阵和偏置项;fdist是距离编码函数,将字符xi到字符xj之间的相对距离j-i输入该函数得到字符xi到字符xj的距离编码edist,用于保留字符片段的长度信息;将
Figure BDA0004074043460000107
edist三者拼接起来得到字符xi到字符xj构成的片段的表征向量
Figure BDA0004074043460000108
Figure BDA0004074043460000109
输入一个词粒度错误分类层得到该字符片段错误的概率
Figure BDA00040740434600001010
其中
Figure BDA00040740434600001011
是该词粒度错误分类层中的全连接层的权重矩阵和偏置项,σ是sigmoid函数。
按照预先设定的词粒度错误阈值εspan,若错误概率
Figure BDA00040740434600001012
大于等于εspan,则该字符片段是一个错误词,需要进行纠正,若错误概率
Figure BDA00040740434600001013
小于εspan,则该字符片段无误,无需纠正。通过该错误字符片段检测方式不仅能有效地识别出嵌套的错误名词,还能通过并行进行加速运算。得到错误词(错误字符片段)集合{Xi:j:(i,j)∈SETspan},其中SETspan是词粒度检错模块检测到的错误词(错误字符片段)的起始、结束位置的序号集合。
以往的方法一般是使用分词工具来检测错误名词,或者采用CRF、BiLSTM+CRF、BERT+CRF等命名实体识别方法来检测错误名词,但是分词工具经常会出现错误切分的情况,特别是在限定领域的文本数据上,以往的命名实体识别方法无法解决嵌套实体的问题。采用本发明中的错误字符片段检测方法无需分词即可进行错误词的检测,避免了分词错误带来的影响,同时也能对嵌套的错误名词进行识别,具有更加准确的词粒度检测准确率。
S5:对S4步骤中检测得到的错误字集合和错误词集合分别进行纠正,得到字粒度错误的候选替换字和词粒度错误的候选替换词。对于S4中检测得到的错误字,使用一层全连接层构成的字粒度错误纠正层来预测正确字符,得到候选替换字;对于S4中检测得到的错误词,采用候选召回、候选排序筛选的方式从S2中构建的名词知识库中得到对应的纠正词,得到候选替换词。具体步骤如下:
S51:字粒度错误纠正步骤对于步骤S41检测得到错误字集合中每个错误字,使用一层全连接层构成的字粒度错误纠正层来预测正确字符,得到候选替换字。具体如下:
按照S41字粒度错误检测得到的错误字集合中的错误字符xi,其字粒度错误概率为
Figure BDA0004074043460000111
将其输入一个由一层全连接层构成的字粒度错误纠正层,得到字符xi被纠正为词表中的字符j的概率为:
Figure BDA0004074043460000112
其中Wc,bc是该字粒度错误纠正层的权重矩阵和偏置项,oi是字符xi的one-hot向量(该向量长度为词表中字符的数量,字符xi所在的位置值为1,其余位置值为0),softmax(·)是归一化指数函数,用于计算字符xi处的正确字符是词表中第j个字符的概率;yi是字符xi对应的正确字符。
得到字符xi被纠正为词表中各个字符的概率后,将其中概率最大的字符作为xi的候选替换字符,记为
Figure BDA0004074043460000113
该方法能有效地纠正高频的字粒度错误和高频词粒度错误中的错误字符中的字粒度。
S52:词粒度错误纠正步骤对于步骤S42检测得到错误词集合中的每个错误词,采用候选召回、候选排序筛选的方式从S2中构建的名词知识库中得到对应的纠正词,得到候选替换词。具体如下:
按照S42词粒度错误检测得到的词粒度错误集合后,不妨假设字符xi到字符xj构成的片段Xi:j是一个错误词(错误字符片段),采用候选召回、候选排序筛选的方式来从预先构建的名词知识库中得到对应的纠正词作为候选替换词。
首先定义需要用的编辑距离相似度和Jaccard相似度如下:
编辑距离,也叫莱文斯坦距离(Levenshtein),是对两个字符串之间差异化程度的度量,其定义为至少需要多少次处理才能将一个字符串变成另一个字符串。定义基于编辑距离的相似度
Figure BDA0004074043460000121
其中x,y是两个字符串,edit_dist(x,y)是字符串x,y之间的编辑距离,len(x)是字符串x的长度。Jaccard相似度是用于比较两个有限样本集之间的相似性,对于两个字符串,首先得到对应的字符集合A和B,然后定义这两个集合的Jaccard相似度J(A,B)为这两个字符集合交集元素的个数在两个集合并集中所占的比例:
Figure BDA0004074043460000122
Jaccard相似度越大,两个结合越相似。
考虑到语音识别场景下,大部分错误是由于口音、方言、表达方式、背景噪声等因素造成的同音字、近音字识别错误,因此在候选召回步骤使用基于拼音的相似度来召回候选词。
对于S42检测得到的待纠错的字符片段Xi:j,利用粗搜的方式从名词知识库中候选词集合。考虑到语音识别时可能会将名词识别为不等长的错误名词,比如多识别一个字或者少识别一个字,因此在召回时,分别对知识库中的等长名词和不等长名词进行召回。
具体地,针对等长名词召回,首先获取名词知识库中长度为j-i+1的所有名词,得到知识库中每个等长名词的拼音序列和字符片段Xi:j的拼音序列,计算两者之间的编辑距离相似度,将所有该相似度大于等于预先设定的等长名词召回阈值的名词作为初选的等长候选词,得到初始等长候选词集合。
针对不等长名词召回,首先获取名词知识库中长度不为j-i+1的所有名词,得到每个不等长名词的拼音序列和字符片段Xi:j的拼音序列,计算两者之间的编辑距离相似度,将所有该相似度大于等于预先设定的不等长名词召回阈值的名词作为初选的不等长候选词,得到初始不等长候选词集合。
对于每个待纠错的字符片段Xi:j,得到召回的初始等长候选词集合和初始不等长候选词集合后,还需要对候选词打分进行候选排序筛选,选择分数最高并且大于预定阈值作为该错误片段的替换词。
以往的候选排序筛选方法通常是将带纠错文本句中的错误字符片段替换为候选词得到一系列候选句子,然后使用n-gram语言模型或者基于神经网络的语言模型计算困惑度得分来选择最佳的候选句子(即选择最佳的候选词),以此实现文本纠错。但是n-gram语言模型和基于神经网络的语言模型依赖于训练语料的规模和分布,当某个专有名词在训练语料中出现次数较少、甚至不出现时(即低频情况),使用n-gram语言模型和基于神经网络的语言模型对包含该专有名词的正确句子计算得到的困惑度本身就很高,导致语言模型会倾向于选择另一个在训练语料中出现频率较高的名词,导致出现无法纠正和误纠的情况发生。因此使用基于语言模型的困惑度得分进行候选排序筛选方法无法解决词粒度的低频错误。
为了解决词粒度的低频错误难以纠正的问题,本方案中的候选排序筛选方法仅使用错误字符片段和候选词之间的相似度等特征,不使用n-gram语言模型等模型计算得到的困惑度等易受训练语料分布影响的特征,对候选词进行排序筛选。
用于候选排序筛选的特征计算方式如下:对于待纠错的字符片段Xi:j和通过召回得到的初始等长候选词集合和初始不等长候选词集合中的每个候选词,计算其中文字符层面、语音层面的特征和长度特征,具体如下:
中文字符层面特征:将待纠错的字符片段Xi:j和候选词都转化为中文字符序列,然后计算两者之间的基于编辑距离的相似度和Jaccard相似度作为中文字层面的特征。
语音层面特征:将待纠错的字符片段Xi:j和候选词都转化拼音序列,并得到其声母、韵母序列,分别对拼音、声母、韵母序列计算两者之间的编辑距离相似度和Jaccard相似度作为语音层面的特征。语音层面特征可以捕捉待纠错字符片段与候选词之间的发音相似度。
长度特征:计算每个待纠错的字符片段Xi:j的长度,以及它与候选词之间的长度差作为字符长度特征。字符长度特征可以让不同长度的字符片段纠错时自适应的调整阈值。
候选排序筛选时采用的评分函数如下:得到中文字符层面、语音层面的特征和长度特征后,使用从步骤二中所述训练集中抽离出来文本中的错词与对应的正确词构成词对训练一个得到线性回归模型,该线性回归模型可以基于上述特征计算得到待纠错字符片段和候选词之间的一个综合相似度得分soverall,将其截断得到一个处于0~1之间的得分s=max(0,min(soverall,1)),该相似度得分综合各方面特征,能有效提升纠错的准确率。
对于待纠错的字符片段和初始等长候选词集合和初始不等长候选词集合中的每个候选词,分别计算两者之间的得分s,保留得分s大于等于预先设定的筛选阈值的候选词,剔除小于筛选阈值的候选词,得到新的等长候选词集合和不等长候选词集合。
若经筛选得到的等长候选词集合非空,对其中的候选词按照得分s从大到小排序,选择得分最高的等长候选词作为该待纠错的字符片段的最终替换词;若经筛选得到的等长候选词集合为空,经筛选得到的不等长候选词集合非空,则对不等长候选词集合中的候选词按照得分s从大到小进行排序,选择得分最高的不等长候选词作为该待纠错的字符片段的最终替换词;若等长和不等长候选词集合均为空,则不对该待纠错字符片段进行纠错。该错误词纠正方法能不仅能有效地纠正高频的词粒度错误,还能对低频的词粒度错误和未出现过的错误(特别是在训练语料中出现次数很少的专有名词)进行纠正。
S6:使用S2中构建得到训练语料,采用多任务学习的方式联合训练S3中的拼音编码模块和预训练语言模型的embedding模块、编码器,S4中的字粒度错误检测层、词粒度错误检测神经网络和S5中的字粒度错误纠正层。具体如下:
具体地,考虑到S4中的字粒度错误检测、词粒度错误检测和S5中的字粒度错误纠正三个步骤是都是基于预训练语言模型(比如BERT,RoBERTa,ALBERT等)的编码器,共享预训练语言模型的参数,且三个步骤相互之间也是相辅相成的。字粒度错误检测的准确率提高有助于提高字粒度错误纠正的准确率。字粒度错误检测和词粒度错误检测之间是相互增益的效果。若检测到文本中某个字符是错误字符,那文本中包含该字符的词(字符片段)也是错误的;若检测到文本中某个字符片段是错误的,那其中也必定包含某个错误字符。为使多个步骤之间的信息进行共享,相互补充,提升彼此的准确率,本发明采用多任务学习的方式对S3中的拼音编码模块和预训练语言模型的embedding模块、编码器,S4中的字粒度错误检测层、词粒度错误检测神经网络和S5中的字粒度错误纠正层进行联合训练。此外这多个步骤共享一个模型可以减少内存占用,加快模型推理预测的速度。
具体地,以样本(X,G,Y,Z)为例,其中X=(x1,x2,…,xn)、G=(g1,g2,…,gn)、Y=(y1,y2,…,yn)、Z={(i,j,zi,j):1<=i<j<=n},n是文本X的长度。
定义S4中的字粒度错误检测层的损失为:
Figure BDA0004074043460000151
定义S4中的词粒度错误检测神经网络的损失为:
Figure BDA0004074043460000152
定义S5中的字粒度错误纠正层的损失为:
Figure BDA0004074043460000153
将以上三个损失函数线性组合得到以下的总损失函数:
Figure BDA0004074043460000154
其中0<λ123<=1(λ123=1)为三个损失函数的权重系数,用于平衡各个损失的作用。λ123通过模型在验证集上的效果进行选取。
使用S2中构建的训练数据集,使用AdamW优化器,使用批梯度下降算法最小化总损失L来优化模型的参数。
训练后得到的模型保存其模型结构和参数,预测时再加载该模型进行预测。
S7:对于待纠错文本,从S5得到字粒度错误的候选替换字和词粒度错误的候选替换词后,按照预设的规则对字词粒度纠错结果进行融合,得到纠错后的文本。具体过程如下:
从S51的字粒度纠正步骤得到纠正结果
Figure BDA0004074043460000155
其中SETchar是S41字粒度错误检测到的错误字符的序号集合,xi是输入待纠错文本X的第i个字符,
Figure BDA0004074043460000156
是S51字粒度纠正步骤中模型预测的正确字符,即候选替换字。
从S52词粒度纠正步骤中得到纠正结果CORspan={(Xi:j,Wij):(i,j)∈
SETspan},其中SETspan是S42词粒度错误检测得到的错误字符片段的起始、结束位置的序号集合,Xi:j是输入待纠错文本X中的从序号i到j的待纠错字符片段,Wij是S52词粒度纠正步骤中从名词知识库中候选召回、排序筛选得到的候选替换词。
考虑到文本中每个字粒度错误可能是包含在某一个词粒度错误中的,因此字粒度错误纠正步骤和词粒度错误纠正步骤得到的结果中对该错误字的纠正结果可能不一致。为避免以上这种情况和误纠情况的发生,本发明对于每个字粒度错误纠正结果
Figure BDA0004074043460000157
如果xi包含在CORspan中某个错误字符片段中,那么不从字粒度角度对该错误字进行纠正,反之则对其纠正,将输入的待纠错文本X中的xi替换为
Figure BDA0004074043460000161
对于每个词粒度错误纠正结果(Xi:j,Wij),将输入的待纠错文本X中的Xi:j替换为Wij。按照以上方式最终得到纠正后的文本Xcor
实施例2
与前述一种多粒度中文文本纠错方法的实施例相对应,本发明还提供了一种多粒度中文文本纠错装置的实施例。
参见图5,本发明实施例提供的一种多粒度中文文本纠错装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种多粒度中文文本纠错方法。
本发明实施例提供的一种多粒度中文文本纠错装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明实施例提供的多粒度中文文本纠错装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
实施例3
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种多粒度中文文本纠错方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多粒度中文文本纠错方法,其特征在于,包括以下步骤:
S1:对待纠错的中文文本进行预处理;
S2:构建名词知识库,收集纠错原始数据并构建文本纠错模型的训练语料;
S3:使用预训练语言模型对输入的待纠错文本进行向量编码,并融合文本的语音信息,得到对应的字符向量序列;
S4:在步骤S3中得到文本字符向量序列后,使用一层全连接层构成的字粒度错误检测层来检测文本中的字粒度错误,使用基于字符片段首字符、尾字符、相对距离特征构成的词粒度错误检测神经网络来检测文本中的词粒度错误,得到错误字集合和错误词集合;
S5:对S4步骤中检测得到的错误字集合和错误词集合分别进行纠正,得到字粒度错误的候选替换字和词粒度错误的候选替换词;对于S4中检测得到的错误字,使用一层全连接层构成的字粒度错误纠正层来预测正确字符,得到候选替换字;对于S4中检测得到的错误词,采用候选召回、候选排序筛选的方式从S2中构建的名词知识库中得到对应的纠正词,得到候选替换词;
S6:使用S2中构建得到训练语料,采用多任务学习的方式联合训练S3中的拼音编码模块和预训练语言模型的embedding模块、编码器,S4中的字粒度错误检测层、词粒度错误检测神经网络和S5中的字粒度错误纠正层;
S7:对于待纠错文本,从S5得到字粒度错误的候选替换字和词粒度错误的候选替换词后,按预设规则对字词粒度纠错结果进行融合,得到纠错后的文本。
2.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于,所述步骤S1中对待纠错的中文文本进行预处理的步骤包括Unicode文本标准化、繁简转换处理、标点恢复、数字预处理。
3.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于,所述步骤S2中构建的名词知识库中包含从公开的已有名词知识库等中获取的普通名词,以及从垂直领域或限定领域的文本语料数据通过人工、或者统计/规则的方法获取的专有名词;所述步骤S2中训练语料为:从智能问答系统或语音识别系统中收集得到的纠错原始数据,按步骤S1中所述方式进行预处理,并人工标注其中每条文本的字粒度错误标签序列、字粒度正确字符序列、词粒度错误标签,标注完毕后将其随机划分为训练集、验证集、测试集,用于后续纠错模型的训练。
4.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于,所述步骤S3中对待纠错的文本进行向量编码的方式为:首先使用预训练语言模型的词库得到输入待纠错文本的字符索引序列,接着使用预训练语言模型的embedding模块得到每个字符的字符嵌入向量和位置嵌入向量,然后使用神经网络对每个字符的拼音序列进行编码得到语音嵌入向量,三者相加得到的该字符最终的嵌入向量,然后输入预训练语言模型基于transformer的编码器得到该文本的字符向量序列。
5.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于,所述S4中分别对待纠错的文本进行字粒度错误检测和词粒度错误检测方法分别具体为:在步骤S3中得到文本字符向量序列后,字粒度错误检测使用一层全连接层构成的字粒度错误检测层来得到文本中每个字符字粒度的错误概率,收集错误概率大于预设阈值的字符得到错误字集合;词粒度错误检测以基于字符片段首字符、尾字符、相对距离作为特征,使用多层神经网络计算该字符片段的错误概率,收集错误概率大于预设阈值的字符片段得到错误词集合。
6.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于,所述步骤S5对步骤S4检测得到的错误字集合和错误词集合分别进行字粒度错误纠正和词粒度错误进行错误纠正:所述字粒度错误纠正步骤以错误字和错误概率为特征,使用一层全连接层构成的字粒度错误纠正层来预测每个错误字纠正为词表中每个字符的概率,选择其中概率最大值作为该错误字的候选替换字;所述词粒度错误纠正步骤先基于拼音编辑距离从S2中构建的名词知识库中分别召回等长候选词和不等长候选词,然后使用截断的线性回归模型,输入中文字符层面、拼音层面等特征计算综合相似度来对候选词进行排序筛选,将得分最高且大于预设阈值的候选词作为该错误词的候选替换词。
7.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于所述步骤S6使用步骤S2构建的训练语料,采用多任务学习的方式联合训练S3中的拼音编码模块和预训练语言模型的embedding模块、编码器,S4中的字粒度错误检测层、词粒度错误检测神经网络和S5中的字粒度错误纠正层,其总损失函数为S4中的字粒度错误检测层的损失、S4中的词粒度错误检测神经网络的损失、S5中的字粒度错误纠正层的损失的加权平均,通过最小化总损失函数来优化模型的参数。
8.根据权利要求1所述的一种多粒度中文文本纠错方法,其特征在于,所述步骤S7中,从S5得到字粒度错误的候选替换字和词粒度错误的候选替换词后,对字词粒度纠错结果按照预设的规则进行融合,得到纠错后的文本;所述预设规则当字粒度纠错结果和词粒度纠错结果产生冲突时,优先采用词粒度纠错结果。
9.一种多粒度中文文本纠错装置,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-8任一项所述的一种多粒度中文文本纠错方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的一种多粒度中文文本纠错方法。
CN202310088091.8A 2023-01-16 2023-01-16 一种多粒度中文文本纠错方法和装置 Pending CN116127952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310088091.8A CN116127952A (zh) 2023-01-16 2023-01-16 一种多粒度中文文本纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310088091.8A CN116127952A (zh) 2023-01-16 2023-01-16 一种多粒度中文文本纠错方法和装置

Publications (1)

Publication Number Publication Date
CN116127952A true CN116127952A (zh) 2023-05-16

Family

ID=86309757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310088091.8A Pending CN116127952A (zh) 2023-01-16 2023-01-16 一种多粒度中文文本纠错方法和装置

Country Status (1)

Country Link
CN (1) CN116127952A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306600A (zh) * 2023-05-25 2023-06-23 山东齐鲁壹点传媒有限公司 一种基于MacBert的中文文本纠错方法
CN116502629A (zh) * 2023-06-20 2023-07-28 神州医疗科技股份有限公司 基于自训练文本纠错和文本匹配的医学直报方法及系统
CN116681070A (zh) * 2023-08-04 2023-09-01 北京永辉科技有限公司 文本纠错方法、系统、模型训练方法、介质及设备
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN117094311A (zh) * 2023-10-19 2023-11-21 山东齐鲁壹点传媒有限公司 一种关于中文语法纠错的误纠过滤器的建立方法
CN117151084A (zh) * 2023-10-31 2023-12-01 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备
CN117556363A (zh) * 2024-01-11 2024-02-13 中电科大数据研究院有限公司 基于多源数据联合检测的数据集异常识别方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306600B (zh) * 2023-05-25 2023-08-11 山东齐鲁壹点传媒有限公司 一种基于MacBert的中文文本纠错方法
CN116306600A (zh) * 2023-05-25 2023-06-23 山东齐鲁壹点传媒有限公司 一种基于MacBert的中文文本纠错方法
CN116502629A (zh) * 2023-06-20 2023-07-28 神州医疗科技股份有限公司 基于自训练文本纠错和文本匹配的医学直报方法及系统
CN116502629B (zh) * 2023-06-20 2023-08-18 神州医疗科技股份有限公司 基于自训练文本纠错和文本匹配的医学直报方法及系统
CN116681070A (zh) * 2023-08-04 2023-09-01 北京永辉科技有限公司 文本纠错方法、系统、模型训练方法、介质及设备
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN116991874A (zh) * 2023-09-26 2023-11-03 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN117094311A (zh) * 2023-10-19 2023-11-21 山东齐鲁壹点传媒有限公司 一种关于中文语法纠错的误纠过滤器的建立方法
CN117094311B (zh) * 2023-10-19 2024-01-26 山东齐鲁壹点传媒有限公司 一种关于中文语法纠错的误纠过滤器的建立方法
CN117151084B (zh) * 2023-10-31 2024-02-23 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备
CN117151084A (zh) * 2023-10-31 2023-12-01 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备
CN117556363A (zh) * 2024-01-11 2024-02-13 中电科大数据研究院有限公司 基于多源数据联合检测的数据集异常识别方法
CN117556363B (zh) * 2024-01-11 2024-04-09 中电科大数据研究院有限公司 基于多源数据联合检测的数据集异常识别方法

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
Abandah et al. Automatic diacritization of Arabic text using recurrent neural networks
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN112836496B (zh) 一种基于bert和前馈神经网络的文本纠错方法
Fornés et al. ICDAR2017 competition on information extraction in historical handwritten records
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
US20070219777A1 (en) Identifying language origin of words
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
Jauhiainen et al. Language model adaptation for language and dialect identification of text
CN110909144A (zh) 问答对话方法、装置、电子设备及计算机可读存储介质
CN111930939A (zh) 一种文本检测的方法及装置
CN112784576B (zh) 一种文本依存句法分析方法
CN114386399A (zh) 一种文本纠错方法及装置
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN114818669B (zh) 一种人名纠错模型的构建方法和计算机设备
Hládek et al. Learning string distance with smoothing for OCR spelling correction
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
CN112183060B (zh) 多轮对话系统的指代消解方法
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination