CN114218926A - 一种基于分词与知识图谱的中文拼写纠错方法及系统 - Google Patents

一种基于分词与知识图谱的中文拼写纠错方法及系统 Download PDF

Info

Publication number
CN114218926A
CN114218926A CN202111551684.0A CN202111551684A CN114218926A CN 114218926 A CN114218926 A CN 114218926A CN 202111551684 A CN202111551684 A CN 202111551684A CN 114218926 A CN114218926 A CN 114218926A
Authority
CN
China
Prior art keywords
character
sequence
error
chinese
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111551684.0A
Other languages
English (en)
Inventor
陈锦坤
卓汉逵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111551684.0A priority Critical patent/CN114218926A/zh
Publication of CN114218926A publication Critical patent/CN114218926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于分词与知识图谱的中文拼写纠错方法及系统,该方法包括:对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。该系统包括:输入表示模块、检错网络模块、Soft‑Mask模块、知识三元组整合模块和纠错网络模块。通过使用本发明,能够提高现有中文拼写纠错模型的纠错效果。本发明可广泛应用于拼写纠错领域。

Description

一种基于分词与知识图谱的中文拼写纠错方法及系统
技术领域
本发明涉及中文拼写纠错领域,尤其涉及一种基于分词与知识图谱的中文拼写纠错方法及系统。
背景技术
中文拼写纠错是自然语言处理领域里的一项重要任务,目标是检查并纠正中文文本中存在的拼写错误。中文拼写纠错由于实现了纠错的自动化,可以节省大量人力与时间成本,故具有重大的研究价值。目前,中文拼写纠错被广泛应用于搜索、问答系统、文章评分、光学字符识别(optical character recognition,OCR)等自然语言应用场景。具体地,中文拼写纠错的任务是分析并理解中文文本,找到拼写错误,挑选最恰当的汉字将其替换。一般来说,中文拼写纠错任务仅考虑替换的错误,对删除和插入的错误研究较少。现有的基于字符级表征的中文拼写纠错模型根据上下文字符进行检错纠错,未能充分利用可能提高纠错效果的分词信息,因为无法组词的字符相比其他可组词的字符具有更大的错误几率。此外,这些模型未能引入外部知识,在某些特定领域纠错能力不足。引入知识图谱可以增强词信息表达,使模型获得更丰富的语义信息。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于分词与知识图谱的中文拼写纠错方法及系统,能够提高现有中文拼写纠错模型的纠错效果。
本发明所采用的第一技术方案是:一种基于分词与知识图谱的中文拼写纠错方法,包括以下步骤:
对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;
根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;
根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;
对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;
根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。
进一步,所述对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列这一步骤,其具体包括:
获取中文字符序列并基于Word2Vec方法将各字符转换为向量表示;
基于词典整合中文字符序列中的词汇信息和词频信息,得到整合信息后的字符嵌入序列。
进一步,所述根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率具体为采用检错网络计算错误概率,公式表示如下:
Figure BDA0003417361180000021
上式中,
Figure BDA0003417361180000022
表示双向GRU的隐藏状态,Wd和bd表示可训练参数。
进一步,所述对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列这一步骤,其具体包括:
在知识图谱中检索各个字符的BMES词汇集合中的每个词汇,得到相关的BMES三元组集合;
基于TransE对相关的BMES三元组集合进行表征并拼接,得到整合知识三元组序列。
进一步,所述根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列这一步骤,其具体包括:
基于BERT的多分类器构建纠错网络;
基于残差层根据整合知识三元组序列对掩盖后的字符序列进行理解和分析;
基于全连接层和softmax函数计算各字符被纠正为候选字列表中字符的概率,选择候选字列表中最可能正确的字替换掉出错的字符,生成正确的字符序列。
进一步,还包括网络训练步骤:
将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。
本发明所采用的第二技术方案是:一种基于分词与知识图谱的中文拼写纠错系统,包括:
输入表示模块,用于对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;
检错网络模块,用于根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;
Soft-Mask模块,用于根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;
知识三元组整合模块,用于对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;
纠错网络模块,用于根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。
进一步,还包括:
训练模块,用于将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。
本发明方法及系统的有益效果是:本发明在字符级表征的基础上,引入了分词信息和组词词频,提高了模型的检错精确度,另外,整合了外部知识,丰富了字符表达内容,使模型可以利用文本相关的知识三元组辅助纠错,改善了纠错的效果,还通过知识图谱提高纠错模型对文本的理解能力,降低了模型对数据集的依赖性。
附图说明
图1是本发明一种基于分词与知识图谱的中文拼写纠错方法的步骤流程图;
图2是本发明一种基于分词与知识图谱的中文拼写纠错系统的结构框图;
图3是本发明具体实施例词汇BMES集合示意图;
图4是本发明具体实施例词汇信息辅助检错示意图;
图5是本发明具体实施例部分知识图谱三元组示意图;
图6是本发明具体实施例知识图谱辅助纠错示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图2,本发明提供了一种基于分词与知识图谱的中文拼写纠错方法,该方法包括以下步骤:
S1、基于输入表示模块,对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;
具体地,模型的输入是一个中文字符序列X=(x1,x2,...,xn)。首先使用Word2Vec方法获得各字符的向量表示
Figure BDA0003417361180000031
其中
Figure BDA0003417361180000033
为字符xi在BERT中的词嵌入、位置嵌入、段嵌入之和。然后,找出句子中所有出现的词典词汇,将与字符xi相关的词汇按照匹配类型放入集合Bi、Mi、Ei、Si中,其中B代表begin、M代表middle、E代表end、S代表single。Bi表示以第i个字符为首的词汇的集合;Mi以第i个字符为中间字符的词汇的集合;Ei以第i个字符结尾的词汇的集合;Si表示字符xi单字在词典中的词汇集合。关于BMES集合的定义与操作详见图3。记词汇w在某集合中出现的次数为t(w),则总频次T=∑w∈B∪M∪E∪St(W)。词汇集合Sw的表征为
Figure BDA0003417361180000032
其中υw(w)为词w通过Word2Vec方法所得的词嵌入。接着,为了倾注更多注意力在组词少的字符,模型需要统计各字符组词的词汇个数。字符xi的组词频次记为f(xi)=|Bi|+|Mi|+|Ei|+|Si|。最终,整合词汇信息,即字符xi表征为
Figure BDA0003417361180000041
其中[]表示拼接操作。
图3所示为词汇BMES集合示意图。字符的B集合表示在词典能检索到的以该字符起始的连续字符构成的词的集合。例如从示意图的“中”字为首的连续字符序列中,可以在词典搜索到“中山”和“中山大学,故“中”的B集合为{“中山”,“中山大学”}。以此类推,字符的M集合表示在词典能检索到的包含该字符的连续字符构成的词的集合,字符的E集合表示在词典能检索到的以该字符为结尾的连续字符构成的词的集合,字符的S集合表示在词典能检索到该单字的集合。
S2、基于检错网络模块,根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;
检错网络的输入是表征序列(e1,e2,...,en)。检错网络的输出是概率序列P=(p1,p2,...,pn),其中pi表示字符xi出错的概率。检错网络使用双向GRU(Bi-GRU)来计算错误概率P:
Figure BDA0003417361180000042
其中
Figure BDA0003417361180000046
表示Bi-GRU的隐藏状态,wd和bd是可训练的参数。Bi-GRU的隐藏状态定义如下:
Figure BDA0003417361180000043
Figure BDA0003417361180000044
Figure BDA0003417361180000045
图4所示为词汇信息辅助检错示意图。正确的句子为“中山大学在广州市”,句子中存在于词典中的词汇为{“中山”,“中山大学”,“山大”,“大学”,“广州”,“广州市”},各字符对应的f为该字符所能构成的词汇(包括单字)的个数,例如“山”字相关的词汇有“中山”、“中山大学”、“山大”、“山”,故其对应的词频为4。错误的句子为“中山大学在广周市”,其中词频为1的字符有{“在”,“广”,“周”,“市”},这4个字为高概率错字,模型会对这些高概率错字分配更多的注意力来检错;而对于{“中”、“山”、“大”、“学”},模型更倾向于认为这4个字是正确的。最终经过检错网络模块的判断,“周”字为错误的字符。
S3、基于Soft-Mask模块,根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;
具体地,Soft-Mask模块根据字符的出错概率将ei与掩模emask加权求和,掩盖高概率出错的字符表征,得到soft-mask后的表征e′i:e′i=pi·emask+(1-pi)·ei
S4、基于知识三元组整合模块,对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;
具体地,在知识图谱中检索各个字符的BMES词汇集合中的每个词汇,得到与之相关的BMES三元组集合TBi/TMi/TEi/TSi。一个三元组集合St={k1,k2,...,kN},其中N为集合中三元组的个数,ki=(hi,ri,ti)为(头实体,关系,尾实体)三元组。为了更好地表示实体间的关系,使用TransE对三元组进行表征:ki=(hi,ri,ti)=TransE(hi,ri,ti)。应用图注意力机制,可以将一个三元组集合St的表征为:
Figure BDA0003417361180000051
Figure BDA0003417361180000052
Figure BDA0003417361180000053
其中Wh,Wr,Wt分别是参数。将xi对应的BMES三元组表征拼接在e′i后,得到整合知识三元组后的表征
Figure BDA0003417361180000054
图5所示为“中山大学”相关的部分知识图谱三元组示意图。通过检索知识图谱,可以得到<中山大学,位于,广东省>、<中山大学,位于,广州市>、<中山大学,种类,学校>、<中山大学,创立于,1924年>等三元组,对于包含“中山大学”的句子纠错有积极作用。
S5、基于纠错网络模块,根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。
纠错网络模块是基于BERT的多分类器,输入是整合知识三元组后的表征序列
Figure BDA0003417361180000055
输出是纠错后的字符序列Y=(y1,y2,...,yn)。BERT的最后一层的隐状态可以表示为
Figure BDA0003417361180000056
输入表示层的表征和BERT的最后一层隐状态之间还建立了残差连接,隐状态
Figure BDA0003417361180000057
最后采用全连接层与softmax函数,计算各字符被纠正为候选字列表中字符j的概率Pc(yi=j|X)=softmax(Wh′i+b)[j],其中W和b都是参数。
图6所示为知识图谱辅助纠错示意图。错误的句子为“中山大学在广周市”,“州”字被错写成“周”。根据句子中的潜在词汇检索知识图谱,可以获得“广东省”、“广州市”、“山东省”、“学习”等知识三元组实体/概念,通过模型将这些外部知识嵌入句子的表示中。在纠错阶段,实体“广州市”就会对“广周市”的纠错产生辅助作用,改善了纠错的效果,并且提高了纠错的可解释性。
进一步作为本方法优选实施例,还包括:
S6、基于训练模块,将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。
具体地,检错的直观结果可以表示为标签序列M=(m1,m2,...,mn),其中mi是基于pi判断的拼写错误标签,mi=1表示字符xi错误,mi=0表示字符xi是正确的。检错网络和纠错网络的损失函数分别为:
Figure BDA0003417361180000061
Figure BDA0003417361180000062
对上述损失函数线性加和得到联合损失函数L=λ·Lc+(1-λ)·Ld,其中λ∈[0,1]为超参数。训练的优化目标是最小化联合损失函数L。
一种基于分词与知识图谱的中文拼写纠错系统,包括:
输入表示模块,用于对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;
检错网络模块,用于根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;
Soft-Mask模块,用于根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;
知识三元组整合模块,用于对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;
纠错网络模块,用于根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。
进一步作为本系统优选实施例,还包括:
训练模块,用于将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。
本发明主要包括输入表示模块、检错网络模块、Soft-Mask模块、知识三元组整合模块、纠错网络模块。首先输入表示模块对输入字符序列进行向量表示,并根据词典整合词汇信息及词频信息。然后将整合了词汇信息的字符嵌入序列输入基于Bi-GRU的检错网络模块,得到各字符出错的概率。Soft-Mask模块根据此概率将高出错概率的字符嵌入掩盖。接着知识三元组整合模块检索知识图谱,将知识三元组的向量表示附加在当前字符嵌入之后。纠错网络模块对字符序列进行理解与分析,并在残差连接后选择候选字列表中最可能正确的字替换掉出错的字,生成正确的字符序列。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种基于分词与知识图谱的中文拼写纠错装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种基于分词与知识图谱的中文拼写纠错方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种基于分词与知识图谱的中文拼写纠错方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于分词与知识图谱的中文拼写纠错方法,其特征在于,包括以下步骤:
对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;
根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;
根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;
对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;
根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。
2.根据权利要求1所述一种基于分词与知识图谱的中文拼写纠错方法,其特征在于,所述对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列这一步骤,其具体包括:
获取中文字符序列并基于Word2Vec方法将各字符转换为向量表示;
基于词典整合中文字符序列中的词汇信息和词频信息,得到整合信息后的字符嵌入序列。
3.根据权利要求2所述一种基于分词与知识图谱的中文拼写纠错方法,其特征在于,所述根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率具体为采用检错网络计算错误概率,公式表示如下:
Figure FDA0003417361170000011
上式中,
Figure FDA0003417361170000012
表示双向GRU的隐藏状态,Wd和bd表示可训练参数。
4.根据权利要求3所述一种基于分词与知识图谱的中文拼写纠错方法,其特征在于,所述对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列这一步骤,其具体包括:
在知识图谱中检索各个字符的BMES词汇集合中的每个词汇,得到相关的BMES三元组集合;
基于TransE对相关的BMES三元组集合进行表征并拼接,得到整合知识三元组序列。
5.根据权利要求4所述一种基于分词与知识图谱的中文拼写纠错方法,其特征在于,所述根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列这一步骤,其具体包括:
基于BERT的多分类器构建纠错网络;
基于残差层根据整合知识三元组序列对掩盖后的字符序列进行理解和分析;
基于全连接层和softmax函数计算各字符被纠正为候选字列表中字符的概率,选择候选字列表中最可能正确的字替换掉出错的字符,生成正确的字符序列。
6.根据权利要求5所述一种基于分词与知识图谱的中文拼写纠错方法,其特征在于,还包括网络训练步骤:
将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。
7.一种基于分词与知识图谱的中文拼写纠错系统,其特征在于,包括:
输入表示模块,用于对中文字符序列进行向量表示并整合词汇信息,得到字符嵌入序列;
检错网络模块,用于根据字符上下文及词汇信息判断中文字符序列中各字符出错的概率,得到出错概率;
Soft-Mask模块,用于根据出错概率对字符嵌入序列进行处理,掩盖出错概率高的字符向量,得到掩盖后的字符序列;
知识三元组整合模块,用于对掩盖后的字符序列中各个字符进行三元组整合,得到整合知识三元组序列;
纠错网络模块,用于根据整合知识三元组序列对掩盖后的字符序列进行纠错,得到正确字符序列。
8.根据权利要求7所述一种基于分词与知识图谱的中文拼写纠错系统,其特征在于,包括:
训练模块,用于将检错网络和纠错网络的损失函数线性加和得到联合损失函数并将训练的优化目标设为最小化联合损失函数。
CN202111551684.0A 2021-12-17 2021-12-17 一种基于分词与知识图谱的中文拼写纠错方法及系统 Pending CN114218926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111551684.0A CN114218926A (zh) 2021-12-17 2021-12-17 一种基于分词与知识图谱的中文拼写纠错方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111551684.0A CN114218926A (zh) 2021-12-17 2021-12-17 一种基于分词与知识图谱的中文拼写纠错方法及系统

Publications (1)

Publication Number Publication Date
CN114218926A true CN114218926A (zh) 2022-03-22

Family

ID=80703582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111551684.0A Pending CN114218926A (zh) 2021-12-17 2021-12-17 一种基于分词与知识图谱的中文拼写纠错方法及系统

Country Status (1)

Country Link
CN (1) CN114218926A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115312127A (zh) * 2022-08-05 2022-11-08 抖音视界有限公司 识别模型的预训练方法、识别方法、装置、介质和设备
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115312127A (zh) * 2022-08-05 2022-11-08 抖音视界有限公司 识别模型的预训练方法、识别方法、装置、介质和设备
CN115312127B (zh) * 2022-08-05 2023-04-18 抖音视界有限公司 识别模型的预训练方法、识别方法、装置、介质和设备
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116662579B (zh) * 2023-08-02 2024-01-26 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质

Similar Documents

Publication Publication Date Title
CN112036167B (zh) 数据处理方法、装置、服务器及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
CN114218926A (zh) 一种基于分词与知识图谱的中文拼写纠错方法及系统
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN114386371B (zh) 中文拼写纠错方法、系统、设备及存储介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
US20200279079A1 (en) Predicting probability of occurrence of a string using sequence of vectors
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN115618045A (zh) 一种视觉问答方法、装置及存储介质
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN115293138A (zh) 一种文本纠错方法及计算机设备
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN112446217B (zh) 情感分析方法、装置及电子设备
WO2023035883A1 (zh) 用于文档和摘要的一致性检测的方法、设备和介质
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114444492A (zh) 一种非标准词类判别方法及计算机可读存储介质
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination