CN117236319B - 一种基于Transformer生成模型的真实场景中文文本纠错方法 - Google Patents
一种基于Transformer生成模型的真实场景中文文本纠错方法 Download PDFInfo
- Publication number
- CN117236319B CN117236319B CN202311244618.8A CN202311244618A CN117236319B CN 117236319 B CN117236319 B CN 117236319B CN 202311244618 A CN202311244618 A CN 202311244618A CN 117236319 B CN117236319 B CN 117236319B
- Authority
- CN
- China
- Prior art keywords
- training
- text
- error correction
- model
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000012805 post-processing Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 230000006872 improvement Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 2
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于Transformer生成模型的真实场景中文文本纠错方法,涉及计算机软件技术。根据初始数据集建立多任务训练数据集,并对其进行训练,以获取Tokenizer;将开源T5生成模型作为预训练模型;通过Tokenizer对多任务训练数据集进行数据转换,并将数据转换后的多任务训练数据集输入至预训练模型进行训练,以获得文本纠错模型;将待纠错的文档中的文本数据进行拆句处理,以获取句子集合;将句子集合输入至Tokenizer进行预处理,以获取模型输入数据;将模型输入数据输入至文本纠错模型进行预测推理,获得初始推理结果;将初始推理结果进行筛选,获得文本纠错结果。本发明可以对真实场景下的办公文本文档进行比较准确的错误内容纠正,进一步获得更为准确的中文纠错结果。
Description
技术领域
本发明涉及计算机软件技术,更具体地说,它涉及一种基于Transformer生成模型的真实场景中文文本纠错方法。
背景技术
目前在文本办公场景中,尚未找到高效的自动化方法完全纠正各种文本和文档的编写错误,这给办公文件的准确性带来了严峻挑战。这些文本编写错误包含语义错误、拼写错误、语法错误、用词不当以及漏字错字等,它们可能会误导读者、降低可信度、影响形象和声誉,同时也会造成沟通障碍并增加错误修正成本,这些潜在问题会对个人、企业、政府部门甚至整个社会造成非常严重和恶劣的负面影响。
针对真实场景中文文本纠错,目前主要采用统计方法、规则库方法、RNN以及BERT等方法。然而这些方法的自动检测纠错率依然不能满足自动纠错的要求,准确率仍然具有较大的提升空间。
发明内容
本发明要解决的技术问题是针对现有技术的不足,提供一种基于Transformer生成模型的真实场景中文文本纠错方法,进一步获得更为准确的中文纠错结果,可以对真实场景下的办公文本文档进行比较准确的错误内容纠正。
本发明所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,该方法包括:
步骤1:采集公开数据集和内部数据集;
步骤2:根据所述公开数据集和内部数据集建立具有标准提示语的多任务训练数据集;
步骤3:将所述多任务训练数据集输入到BPE算法中进行训练,以获取Tokenizer;
步骤4:获取由多语言数据库训练得到的开源T5生成模型作为预训练模型;
步骤5:通过所述Tokenizer对多任务训练数据集进行数据转换,并将数据转换后的多任务训练数据集输入至所述预训练模型进行训练,以获得文本纠错模型;
步骤6:将待纠错的文档中的文本数据进行拆句处理,以获取句子集合;将所述句子集合输入至Tokenizer进行预处理,以获取模型输入数据;
步骤7:将所述模型输入数据输入至文本纠错模型进行预测推理,获得初始推理结果;
步骤8:将所述初始推理结果进行筛选,获得最终的文本纠错结果。
作进一步的改进,所述步骤2具体为,
对所述内部数据集进行预处理操作,合并所述公开数据集和预处理后的内部数据集;根据所述公开数据集建立标准提示语,同时清洗掉所述公开数据集中的原始提示语,将所述标准提示语添加合并后的数据集中,以建立多任务训练数据集。
进一步地,所述预处理操作,具体为,对所述内部数据集进行清洗、格式化处理、自动化标注和人工标注。
作进一步的改进,在所述多任务训练数据集输入到BPE算法中前,对所述BPE算法的参数进行配置。
更进一步地,所述BPE算法的参数配置具体为,
所述BPE算法中的Normalizer使用NFKC方法,预处理使用Whitespace方法,解码器使用ByteLevel方法,设置词矩阵大小为固定值一,设置起始、结束、未知、mak标识作为特殊字符,采用所述多任务训练数据集总长度作为训练长度,批大小设置为固定值二。
作进一步的改进,在步骤4中,所述多语言数据库采用mC4多语言数据;所述预训练模型采用Large版本T5生成模型。
作进一步的改进,在步骤6中,所述拆句处理具体为,
去除待纠错的文档中的所述文本数据的表格和图片,依据标题、中文句号、中文感叹号、中文问号、中文双引号整体的规则将所述文本数据进行拆句。
作进一步的改进,在步骤6中,将所述句子集合输入至Tokenizer进行预处理,具体为,
为所述句子集合中的每个句子添加所述标准提示语。
作进一步的改进,在步骤8中,所述筛选具体为,
配置所述文本纠错模型中的do_sample后处理策略,将所述初始推理结果进行do_sample后处理筛选,通过所述Tokenizer将经过后处理筛选的初始推理结果转换回文本数据,获得输出的文本纠错结果。
进一步地,所述do_sample后处理策略具体为,
采集N个真实场景的办公文档,保留已有文本错误;并对所述办公文档进行人工添加语义错误、拼写错误、语法错误、用词不当以及漏字错字,作为测试样本;通过所述文本纠错模型对测试样本进行测试,找到do_sample后处理相关参数temperature、top_p、top_k和no_repeat_ngram_size的最佳参数值。
有益效果
本发明的优点在于:本发明基于Transformer生成模型,通过内部数据叠加公开数据打造训练数据集的方式,采用基于提示语的多任务训练提高模型语义理解能力的思路,训练中文文本纠错模型,在推理检测时,经过分句输入和do_sample后处理筛选,进一步获得更为准确的中文纠错结果,可以对真实场景下的办公文本文档进行比较准确的错误内容纠正。与以往统计方法、规则库方法、RNN以及BERT的方法相比,其具有准确率更高、语义理解能力更强、泛化能力更广等优点,可以对中文办公文本和文档中的语义错误、拼写错误、语法错误、用词不当和漏字错字等错误实现自动检测纠正,有效降低办公过程中的文档文字错误带来的的负面影响。
附图说明
图1为本发明的真实场景中文文本纠错方法流程图。
具体实施方式
下面结合实施例,对本发明作进一步的描述,但不构成对本发明的任何限制,任何人在本发明权利要求范围所做的有限次的修改,仍在本发明的权利要求范围内。
参阅图1,本发明的一种基于Transformer生成模型的真实场景中文文本纠错方法,其具备包括如下步骤。
第一阶段为训练阶段。该阶段主要由以下五个步骤组成。
步骤1:初始数据准备。
采集公开的数据,包括SIGHAN中文纠错数据集、Wang271k中文纠错数据集、今日头条中文新闻分类数据集、THUCNews文本分类数据集、DuReader阅读理解数据集、OCNLI文本推理数据集、MSRA命名实体识别数据集、CLUENER2020命名实体识别数据集、pCLUE文本数据集等数据集,将这些数据集合为公开数据集。采集互联网内公开的办公文档数据、在用户内部收集各类办公文档,将其集合成内部数据集;合并公开数据集和内部数据集作为初始数据集。
公开数据集具体包含有纠错、分类、理解、推理和提取类文本处理任务的数据,总计300万条数据。其中,SIGHAN和Wang271k数据集提供中文文本纠错任务数据,共含27万条数据;今日头条中文新闻和THUCNews数据集提供中文文本分类任务数据,共含112万条数据;DuReader数据集提供中文阅读理解任务数据,共含20万条数据;OCNLI数据集提供中文文本推理任务数据,共含5.6万条数据;MSRA和CLUENER2020数据集提供实体识别类的中文提取任务数据,共含6万条数据;pCLUE数据集提供中文分类、理解、推理和提取类等综合任务数据,共含130万条数据。
内部数据集包含有互联网采集部分和用户内部收集部分,共计5000份。其中,在互联网内采集的数据4000份,具体包含政府公开网站内公开的办公、公文、通知、宣传等文档数据;在用户内部收集的数据1000份,具体包含办公、公文、通知、流程、项目管理、学习资料和脱敏合同等文档数据。
步骤2:数据预处理。
主要是预处理步骤1中的初始数据集,建立多任务训练数据集。
其中,预处理为,对内部数据集部分进行清洗、格式化处理、自动化标注和人工标注,合并公开数据集和预处理后的内部数据集,添加对应任务的提示语,建立多任务训练数据集。
具体的,如内部数据集中的办公文档,需要对其文本数据去除表格和图片内容,依据标题、中文句号、中文问号、中文感叹号以及双引号整体的规则将文本数据进行拆句,去除错误、重复、空白、全符号、全数字、全代码和非中文的内容。将清洗和分句完毕的数据进行复制,将90%的复制数据通过自动化方式增加“邻近汉字换位”、“同音词替换”、“随机增删字符”和“中-英-中机器回译”的方式改变为错误样本一,将10%的复制数据通过人工方式添加语义错误、拼写错误、语法错误、用词不当以及漏字错字等常见错误作为错误样本二,然后对齐复制前的数据和错误样本的数据。
检查具有纠错、分类、理解、推理和提取类功能的公开数据集的数据完整性和正确性,确保其准确无误。
根据这些纠错、分类、理解、推理和提取类的公开数据集建立标准提示语,同时清洗掉原始公开数据集内的原始提示语。将建立的标准提示语依据分类加入所有的数据中,形成最终的多任务训练数据集。
步骤3:Tokenizer(即分词器)建立。
将步骤2中的多任务训练数据集作为Tokenizer训练集,采用BPE算法,并配置BPE算法的参数。将Tokenizer训练集输入到配置好参数的BPE算法中进行训练,训练完成即可得到文本纠错模型的Tokenizer。
其中,BPE算法的参数配置具体为,BPE算法中的Normalizer使用NFKC方法,预处理使用Whitespace方法,解码器使用ByteLevel方法,词矩阵大小选择32000,设置起始、结束、未知、mak等标识作为特殊字符,使用Tokenizer训练集总长度作为训练长度,批大小选择1024。
步骤4:获取预训练模型。
通过互联网,获取由mC4多语言数据训练得到的开源T5(Text-to-Text TransferTransformer)生成模型,并选择其中拥有7.8亿参数的Large版本T5生成模型作为预训练模型,损失函数与预训练模型的损失函数对齐。
步骤5:文本纠错模型训练。
其训练策略为,使用步骤3中训练得到的Tokenizer作为预训练模型的Tokenizer,将步骤2得到的多任务训练数据集通过步骤3中训练得到的Tokenizer转换并输入预训练模型进行训练,获得训练好的T5生成模型,即为文本纠错模型。
具体的训练策略为,Tokenizer将多任务训练数据集转化为预训练模型型适用的输入数据,输入数据最大长度设定为640;训练采用全参数微调训练;训练和验证数据集分割选用K-fold方法,其中K=5,K-fold在比例分割训练和验证集时,采用相同比例分别分割每个类别任务数据的方法进行切分,最终5个fold训练出的模型使用SWA(stochaticweight averaging)方法融合得到一个训练好的最终模型,作为文本纠错模型。在训练过程中,优化器选用Adafactor优化器,学习率选择预训练模型学习率值的四分之一,使用余弦退火学习率调整策略,训练总epoch数、热身步数、批大小、Early stop、Dropout等参数根据预训练模型训练时的损失和准确率反馈进行优化调整。
第二阶段为推理阶段。包括以下三个步骤。
步骤6:纠错文本预处理。
抽取需要纠错的文档中的文本数据,并去除表格和图片等数据,依据标题、中文句号、中文感叹号、中文问号、中文双引号整体的规则将文本数据进行拆句,获得具有多个句子的句子集合。将句子集合输入至Tokenizer进行预处理,以获取模型输入数据。即为句子集合中的每个句子添加步骤2中纠错类任务的标准提示语,从而形成模型输入数据。
步骤7:模型推理。
将模型输入数据输入步骤5训练得到的文本纠错模型进行预测推理,获得初始推理结果。
步骤8:推理结果后处理。
其中,后处理筛选为do_sample后处理筛选。具体的,配置文本纠错模型(即训练后的开源T5生成模型)中的do_sample后处理策略,并将步骤7中的初始推理结果进行do_sample后处理筛选,最终通过步骤3训练好的Tokenizer将经过后处理筛选的初始推理结果转换回文本数据,获得输出的文本纠错结果。其中,无纠错时输出原始文本数据,有纠错时输出修正过的文本数据。
具体的,do_sample后处理策略为,采集100个真实场景的办公文档,保留已有文本错误,并人工添加语义错误、拼写错误、语法错误、用词不当以及漏字错字等常见错误,通过测试,找到do_sample后处理相关参数temperature、top_p、top_k和no_repeat_ngram_size的最佳参数值。
随着大语言模型(LLM)的快速发展和落地,人工智能四大领域中的自然语言处理得到了人们的肯定,而自然语言处理中基于Transformer的生成模型可以实现真实场景下文本自动纠错的功能。因此,本发明的中文文本纠错方法与以往统计方法、规则库方法、RNN以及BERT的方法相比,其具有准确率更高、语义理解能力更强、泛化能力更广等优点,可以对中文办公文本和文档中的语义错误、拼写错误、语法错误、用词不当和漏字错字等错误实现自动检测纠正,有效降低办公过程中的文档文字错误带来的的负面影响。
以上所述的仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。
Claims (7)
1.一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,该方法包括:
步骤1:采集公开数据集和内部数据集;
步骤2:根据所述公开数据集和内部数据集建立具有标准提示语的多任务训练数据集;
步骤3:将所述多任务训练数据集输入到BPE算法中进行训练,以获取Tokenizer;
步骤4:获取由多语言数据库训练得到的开源T5生成模型作为预训练模型;
步骤5:通过所述Tokenizer对多任务训练数据集进行数据转换,并将数据转换后的多任务训练数据集输入至所述预训练模型进行训练,以获得文本纠错模型;
步骤6:将待纠错的文档中的文本数据进行拆句处理,以获取句子集合;将所述句子集合输入至Tokenizer进行预处理,以获取模型输入数据;
步骤7:将所述模型输入数据输入至文本纠错模型进行预测推理,获得初始推理结果;
步骤8:将所述初始推理结果进行筛选,获得文本纠错结果;
在所述多任务训练数据集输入到BPE算法中前,对所述BPE算法的参数进行配置;
所述BPE算法的参数配置具体为,
所述BPE算法中的Normalizer使用NFKC方法,预处理使用Whitespace方法,解码器使用ByteLevel方法,设置词矩阵大小为固定值一,设置起始、结束、未知、mak标识作为特殊字符,采用所述多任务训练数据集总长度作为训练长度,批大小设置为固定值二;
在步骤4中,所述多语言数据库采用mC4多语言数据;所述预训练模型采用Large版本T5生成模型。
2.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,所述步骤2具体为,
对所述内部数据集进行预处理操作,合并所述公开数据集和预处理后的内部数据集;根据所述公开数据集建立标准提示语,同时清洗掉所述公开数据集中的原始提示语,将所述标准提示语添加合并后的数据集中,以建立多任务训练数据集。
3.根据权利要求2所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,所述预处理操作,具体为,对所述内部数据集进行清洗、格式化处理、自动化标注和人工标注。
4.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,在步骤6中,所述拆句处理具体为,
去除待纠错的文档中的所述文本数据的表格和图片,依据标题、中文句号、中文感叹号、中文问号、中文双引号整体的规则将所述文本数据进行拆句。
5.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,在步骤6中,将所述句子集合输入至Tokenizer进行预处理,具体为,
为所述句子集合中的每个句子添加所述标准提示语。
6.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,在步骤8中,所述筛选具体为,
配置所述文本纠错模型中的do_sample后处理策略,将所述初始推理结果进行do_sample后处理筛选,通过所述Tokenizer将经过后处理筛选的初始推理结果转换回文本数据,获得输出的文本纠错结果。
7.根据权利要求6所述的一种基于Transformer生成模型的真实场景中文文本纠错方法,其特征在于,所述do_sample后处理策略具体为,
采集N个真实场景的办公文档,保留已有文本错误;并对所述办公文档进行人工添加语义错误、拼写错误、语法错误、用词不当以及漏字错字,作为测试样本;通过所述文本纠错模型对测试样本进行测试,找到do_sample后处理相关参数temperature、top_p、top_k和no_repeat_ngram_size的最佳参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244618.8A CN117236319B (zh) | 2023-09-25 | 2023-09-25 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244618.8A CN117236319B (zh) | 2023-09-25 | 2023-09-25 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117236319A CN117236319A (zh) | 2023-12-15 |
CN117236319B true CN117236319B (zh) | 2024-04-19 |
Family
ID=89082306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311244618.8A Active CN117236319B (zh) | 2023-09-25 | 2023-09-25 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117236319B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569553A (zh) * | 2021-07-28 | 2021-10-29 | 广州芳禾数据有限公司 | 基于改进Adaboost算法的句子相似性判断方法 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114896966A (zh) * | 2022-05-17 | 2022-08-12 | 西安交通大学 | 一种中文文本语法错误定位方法、系统、设备及介质 |
CN114970502A (zh) * | 2021-12-29 | 2022-08-30 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
CN115130465A (zh) * | 2022-07-18 | 2022-09-30 | 浙大城市学院 | 文献数据集上知识图谱实体标注错误识别方法和系统 |
CN116306502A (zh) * | 2023-03-16 | 2023-06-23 | 上海捷晓信息技术有限公司 | 一种针对bert分类任务的数据标注优化系统及方法 |
CN116484948A (zh) * | 2023-03-23 | 2023-07-25 | 中银金融科技有限公司 | 事件预测方法、装置及电子设备 |
CN116758918A (zh) * | 2023-06-14 | 2023-09-15 | 平安科技(深圳)有限公司 | 地址信息识别方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210227223A1 (en) * | 2020-01-21 | 2021-07-22 | General Electric Company | System and methods for artificial intelligence explainability via symbolic generative modeling |
US11978258B2 (en) * | 2021-04-06 | 2024-05-07 | Nvidia Corporation | Techniques for identification of out-of-distribution input data in neural networks |
-
2023
- 2023-09-25 CN CN202311244618.8A patent/CN117236319B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569553A (zh) * | 2021-07-28 | 2021-10-29 | 广州芳禾数据有限公司 | 基于改进Adaboost算法的句子相似性判断方法 |
CN114970502A (zh) * | 2021-12-29 | 2022-08-30 | 中科大数据研究院 | 一种应用于数字政府的文本纠错方法 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114896966A (zh) * | 2022-05-17 | 2022-08-12 | 西安交通大学 | 一种中文文本语法错误定位方法、系统、设备及介质 |
CN115130465A (zh) * | 2022-07-18 | 2022-09-30 | 浙大城市学院 | 文献数据集上知识图谱实体标注错误识别方法和系统 |
CN116306502A (zh) * | 2023-03-16 | 2023-06-23 | 上海捷晓信息技术有限公司 | 一种针对bert分类任务的数据标注优化系统及方法 |
CN116484948A (zh) * | 2023-03-23 | 2023-07-25 | 中银金融科技有限公司 | 事件预测方法、装置及电子设备 |
CN116758918A (zh) * | 2023-06-14 | 2023-09-15 | 平安科技(深圳)有限公司 | 地址信息识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
Construct-Extract: An Effective Model for Building Bilingual Corpus to Improve English-Myanmar Machine Translation;Zin May Myo 等;《ICAART 2021》;20211231;第2卷;333-342 * |
Tsinghua University Neural Machine Translation Systems for CCMT 2020;Chen Gang 等;《China Conference on Machine Translation》;20210114;98-104 * |
基于Transformer模型的中文语法错误诊断研究;张金宏;《中国优秀硕士学位论文全文数据库哲学与人文科学辑》;20221115(第11期);F084-193 * |
多模态特征自适应融合的虚假新闻检测;王腾 等;《计算机工程与应用》;20230825;1-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN117236319A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN105975558B (zh) | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 | |
CN111930966A (zh) | 一种用于数字政务的智能政策匹配方法及系统 | |
CN108363704A (zh) | 一种基于统计短语表的神经网络机器翻译语料扩展方法 | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
Deléger et al. | Translating medical terminologies through word alignment in parallel text corpora | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN116070599A (zh) | 智能化题库生成及辅助管理系统 | |
Banerjee et al. | Dblp-quad: A question answering dataset over the dblp scholarly knowledge graph | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
CN117216226A (zh) | 一种知识定位方法、装置、存储介质及设备 | |
CN117236319B (zh) | 一种基于Transformer生成模型的真实场景中文文本纠错方法 | |
Goh | Using named entity recognition for automatic indexing | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
CN113722421B (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN114528459A (zh) | 一种基于语义的网页信息抽取方法及系统 | |
CN113343667A (zh) | 一种基于多源信息的网络人物属性提取及关系分析方法 | |
CN110688453A (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 | |
CN117828007B (zh) | 基于自然语言处理的建设征地移民档案管理方法及系统 | |
CN118377896B (zh) | 一种基于大数据的智慧政务信息识别处理系统及识别方法 | |
CN118277645B (zh) | 基于大语言模型的数据增强方法和装置 | |
US20240119547A1 (en) | Generating legal research recommendations from an input data source | |
Wang et al. | A New Benchmark and OCR-Free Method for Document Image Topic Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |