CN112016322B - 一种英文粘连词错误的还原方法 - Google Patents
一种英文粘连词错误的还原方法 Download PDFInfo
- Publication number
- CN112016322B CN112016322B CN202010883348.5A CN202010883348A CN112016322B CN 112016322 B CN112016322 B CN 112016322B CN 202010883348 A CN202010883348 A CN 202010883348A CN 112016322 B CN112016322 B CN 112016322B
- Authority
- CN
- China
- Prior art keywords
- data
- adhesion
- words
- word
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 239000000853 adhesive Substances 0.000 claims description 6
- 230000001070 adhesive effect Effects 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 101150069124 RAN1 gene Proteins 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种英文粘连词错误的还原方法,步骤为:在现有的已清洗过的高质量英文数据集中随机抽取数据;对采集到的问题数据进行抽样统计,得到粘连词数及粘连位置的分布概率;数据构造,根据粘连词的分布情况构造伪粘连词数据,根据对待清洗数据的抽样统计出含有粘连词的句子占比,结合粘连词数及粘连位置的分布构造伪粘连数据;在将构造的伪粘连词数据送入模型训练之前,对其做预处理操作;数据训练,对模型参数进行调整,选取最优模型,利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正,得到还原后的正确数据。本发明能够精确地识别英文粘连词,并将其还原成独立词汇,整个过程由训练的模型完成,高效且便捷,且具备可迁移性。
Description
技术领域
本发明涉及一种英文数据清洗技术,具体为一种英文数据中粘连词错误的还原方法。
背景技术
在以海量数据为驱动的自然语言处理任务中,数据清洗是保证数据质量的首要工作。数据获取的渠道繁多,在使用网络爬虫、OCR(Optical Character Recognition,光学字符识别)识别等计算机自动采集技术获取英文数据单语或包含英文的双语数据的过程中,会因为以下几种错误导致英文数据中单词之间空格丢失,造成多词粘连的情况,以下统称为粘连词。
造成粘连词问题的几种常见错误:
1)转换错误:在转换过程中,单词之间的一些空格可能会丢失,例如,通过删除换行符而不是将其替换为空格;
2)OCR错误:原始文档或手写文本的质量较差可能会导致无法正确识别单词之间的所有空格;
3)传输错误:在嘈杂的信道上传输时,空格可能会丢失或引入拼写错误;
4)获取错误:从URL地址、域名、表列描述或编程变量中提取的关键字,这些变量不带空格。
粘连词错误数据如下所示:
错误句子:There is the prospectof employment once the training iscompleted.
正确形式:There is the prospect of employment once the training iscompleted.
目前大多自然语言处理任务(机器翻译、命名实体识别、语义分析等)均依赖语料库,在任务训练过程中,使用训练语料的数量越多,在训练过程中能够学到的信息就越丰富,效果就会更好;同时,训练语料中数据的质量好坏也尤为重要,数据质量越好,效果就越好,数据数量和质量是相辅相成的关系,在自然语言处理任务中缺一不可。
英文粘连词问题严重影响了英文数据的质量,因此,在清洗数据的过程中考虑对英文粘连词进行还原是非常重要的,并进一步影响语料库的质量,而目前能够提高语料库质量的英文粘连词错误的还原方法尚未见报道。
发明内容
针对在获取大量数据时,使用网络爬虫、OCR识别等计算机自动采集技术造成的英文数据中有粘连词的数据错误,本发明要解决的问题是提供一种可避免英文数据出现粘连词的数据错误、提高英文数据质量的英文数据粘连词的还原方法。
为解决上述粘连词问题,本发明采用的技术方案是:
本发明提供一种英文数据中粘连词的还原方法,包括以下步骤:
1)在现有的已清洗过的高质量英文数据集中随机抽取数据,为任务训练所需的高质量数据做准备;
2)观察获取到的待清洗的英文数据集中含有粘连词的数据,对采集到的问题数据进行抽样统计,得到粘连词数及粘连位置的分布概率;
3)利用步骤1)中抽取的数据进行数据构造,根据粘连词的分布情况构造伪粘连词数据,根据对待清洗数据的抽样统计出含有粘连词的句子占比,结合粘连词数及粘连位置的分布构造伪粘连数据;
4)在将构造的伪粘连词数据送入模型训练之前,对其做预处理操作,使数据更利于模型训练;
5)使用fairSeq下的Transformer模型对预处理后的数据进行训练,对模型参数进行调整,模型训练完成后,根据困惑度(ppl)和loss损失选取最优模型,利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正,得到还原后的正确数据。
步骤2)中粘连词数及粘连位置的分布概率为:
粘连词数为2词粘连的概率为0.6,3词粘连的概率为0.25,4词粘连的概率为0.14,5词粘连的概率为0.01,统计粘连位置为句首句尾位置粘连占其他位置的1/3。
步骤3)中利用步骤1)中抽取的数据进行数据构造,具体为:
301)根据粘连词数及粘连位置的概率分布构造粘连数据模块;
302)判定粘连句子,随机选取句子作为含有粘连词的句子,利用random()函数在遍历1)中得到的文件时,每读取一句话得到一个0-1之间的随机数x,按照70%占比构造伪粘连词数据,即若x<=0.7则将该句子作为含有粘连词的句子,进入构造粘连词模块进行处理;若x>0.7则不做处理,直接输出伪粘连词数据到文件1。
步骤301)中构造粘连数据模块为:
30101)确定粘连词数,根据粘连词数的分布,利用random()函数得到一个0-1随机数m,m的不同取值对应着构造该句话粘连词的粘连词数gram,gram的取值结果如下:
30102)确定可选取的位置n,n的取值具体如下,其中words为该语句的单词数目;
n=words-gram+1
30103)确定粘连的位置,根据粘连位置分布得知,第一个位置和最后一个位置的概率相等均为其余位置的1/3,按比例构造随机数的范围[1,x],其中x=3*n-4,根据随机范围映射粘连位置的周期为:T=x/(n-1),得到的随机数ran映射的位置信息为:(ran-1)/T;
30104)按照得到的位置信息构造粘连词,将构造好的数据进行输出,将经上述步骤处理后的数据作为源语,原始数据作为目标语输出到文件1。
步骤4)中数据预处理包括:
401)将步骤3)中得到的源语和目标语作为句对进行分词,分词按空格标点进行切分;
402)对粘连词进行变化,利用一个判定粘连词函数寻找数据中可能的粘连词,将粘连词按字符用指定符号切分,以区别于真正单词间的空格;
403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE,以减少词表的大小。
步骤402)中判定粘连词函数设计方法如下:
40201)从现有的已清洗过的高质量英文数据集抽取高质量英文数据作为该函数的语料库,该语料库与步骤1)中抽取的数据呈互斥的关系;
40202)利用n-gram模型统计出Tri-Gram的词对,并保留词对信息;
40203)读取源语数据,遍历源语数据句子,根据当前词w的后面3个词利用步骤40202)中得到的词对信息进行查询,若可查询到词w,则判断词w不是粘连词;
40204)继续遍历,若未查询到词w,则判定词w是粘连词,将词w按字符用指定符号切分。
本发明具有以下有益效果及优点为:
1.本发明提出一种英文粘连词还原的方法,能够精确地识别英文粘连词,并将其还原成独立词汇,整个过程由训练的模型完成,高效且便捷。
2.本发明方法具备可迁移性,对其他单词间用空格分隔的语言,面对粘连词问题可采用同样的方法。
3.本发明采用Transformer模型训练出一套针对英文粘连词还原的模型,并在后处理时,对更改数据进行检测,对于英文粘连词问题能够达到很高的检测和修正精度,保障处理结果的准确。
附图说明
图1为本发明方法的流程图;
图2为本发明方法应用的Transformer框架图;
图3为本发明方法中随机数ran映射的位置信息图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明提出一种英文粘连词错误的还原方法,用于解决英文数据中粘连词的问题。
如图1所示,本发明英文粘连词错误的还原方法英文粘连词还原,包括以下步骤:
1)在现有的已清洗过的高质量英文数据集中随机抽取数据,为任务训练所需的高质量数据做准备;
2)观察获取到的待清洗的英文数据集中含有粘连词的数据,对采集到的问题数据进行抽样统计,得到粘连词数及粘连位置的分布概率;
3)利用步骤1)中抽取的数据进行数据构造,根据粘连词的分布情况构造伪粘连词数据,根据对待清洗数据的抽样统计出含有粘连词的句子占比,结合粘连词数及粘连位置的分布构造伪粘连数据;
4)在将构造的伪粘连词数据送入模型训练之前,对其做预处理操作,使数据更利于模型训练;
5)使用fairSeq下的Transformer模型对预处理后的数据进行训练,对模型参数进行调整,模型训练完成后,根据困惑度(ppl)和loss损失选取最优模型,利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正,得到还原后的正确数据。
步骤2)中,观察待清洗的英文数据中含有粘连词的数据,发现2词粘连的数量是最多的,其次依次是3词、4词、5词粘连,整体上随着粘连词数的增多粘连数量呈下降趋势;除此之外另一个需要考虑的问题是:粘连位置,大部分的粘连词都出现在句中,偶尔有句首和句尾是粘连词的情况,经统计句首句尾粘连占其他位置的1/3。为了促使构造的数据更贴合真实数据,对采集到的问题数据进行抽样统计,得到粘连词数的分布如下:
步骤3)中,利用步骤1)中抽取的数据进行数据构造:选用的Transformer模型需要大量的句对做训练,如果使用现有的真实数据,人工标注的成本过高,因此需要根据粘连词的分布情况构造大量的伪粘连词数据,根据对待清洗数据的抽样统计出含有粘连词的句子占比为65%,为了提高容错率,在构造数据时,选定为70%占比的粘连词,粘连词数及粘连位置的分布如步骤2)中所示;
301)判定粘连句子:在构造数据时,随机选取句子作为含有粘连词的句子,利用random()函数在遍历步骤1)中得到的文件时,每读取一句话得到一个0-1之间的随机数x,按照70%占比构造伪粘连词数据,即若x<=0.7则将该句子作为含有粘连词的句子,进入构造粘连词模块进行处理;若x>0.7则不做处理,直接输出伪粘连词数据到文件1。
302)构造粘连数据模块:
30201)要确定粘连词数,根据步骤2)中粘连词数的分布,利用random()函数得到一个0-1随机数m,m的不同取值对应着构造该句话粘连词的粘连词数gram,gram的取值结果如下:
30202)得到可选取的位置n,n的取值具体如下,其中words为这句话的单词数目;
n=words-gram+1
30203)选取粘连的位置,根据步骤2)中得到的粘连位置分布得知,句首和句尾即第一个位置和最后一个位置的概率相等均为其余的1/3,因此按比例构造随机数的范围[1,x],其中x=3*n-4,根据随机范围映射粘连位置的周期为:T=x/(n-1),得到的随机数ran映射的位置信息为:(ran-1)/T
示例:粘连词数为3,句子信息如下:
There is the prospect of employment once the training is completed.
该句话中能够选取的位置有n=words-gram+1=11-3+1=9种,如图3所示;
随机数的最大值为x=3*n-4=3*9-4=23,即随机数范围为[1,23],周期T=3,
得到的随机数ran的映射如下:
30204)按照得到的位置信息构造粘连词,将构造好的数据进行输出,将经上述步骤处理后的数据作为源语,原始数据作为目标语输出到文件1。
步骤4)中,数据预处理:在将构造的伪粘连词数据送入模型训练之前,对其做预处理操作,使数据更利于模型训练。
401)将步骤3)中得到的源语和目标语作为句对进行分词,分词按空格标点进行切分;
402)为了给模型一个强有力的信息,避免模型将粘连词视为未登录词处理,将粘连词做一个变化,要利用一个函数寻找数据中可能的粘连词,将粘连词按字符用‘^^’切分,这样做的目的是区别于真正单词间的空格;
函数的设计:
40201)从现有的已清洗过的高质量英文数据集抽取高质量英文数据作为该函数的语料库,该语料库与步骤1)中抽取的数据呈互斥的关系;
40202)利用n-gram模型(本实施例采用Tri-Gram)的思想,统计出Tri-Gram的词对,将词对信息保留;
40203)读取源语数据,按行遍历源语数据句子,根据当前词w的后面3个词Tri去步骤40202)中得到的词对信息中查询,若可查询到词w,则判断词w不是粘连词;
40204)继续遍历,若未查询到词w,则判定词w是粘连词,将词w按字符用‘^^’切分;
403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE,(byte pairencoder,字节对编码),BPE的目的是减少词表的大小,BPE参数设置为10000;
步骤5)中,使用fairSeq下的Transformer模型(模型结构如图2所示)进行训练,对模型参数进行适当的调整,具体参数如下所示:
模型训练完成,根据困惑度(ppl)和loss损失选取最优模型,利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正,得到还原后的正确数据。
还原数据示例:
通过分析以上实验数据可知,本发明提出的针对英文粘连词的还原方法能够准确识别并还原英文粘连词,经人工统计,英文粘连词还原的准确率为99%,满足粘连词清洗的需求。本发明方法由Transformer训练得到一套针对英文粘连词还原的模型,高效且便捷,对于英文粘连词问题能够达到很高的检测和修正精度,能够保障处理结果的准确性,进一步提高了数据质量。
Claims (3)
1.一种英文粘连词错误的还原方法,其特征在于包括以下步骤:
1)在现有的已清洗过的高质量英文数据集中随机抽取数据,得到文件1,为任务训练所需的高质量数据做准备;
2)观察获取到的待清洗的英文数据集中含有粘连词的数据,对采集到的问题数据进行抽样统计,得到粘连词数及粘连位置的分布概率;
3)利用步骤1)中抽取的数据进行数据构造,根据粘连词的分布情况构造伪粘连词数据,根据对待清洗数据的抽样统计出含有粘连词的句子占比,结合粘连词数及粘连位置的分布构造伪粘连词数据;
4)在将构造的伪粘连词数据送入模型训练之前,对其做预处理操作,使数据更利于模型训练;
5)使用fairSeq下的Transformer模型对预处理后的数据进行训练,对模型参数进行调整,模型训练完成后,根据困惑度ppl和loss损失选取最优模型,利用最优模型对获取到的待清洗的英文数据中的粘连词进行修正,得到还原后的正确数据;
步骤3)中利用步骤1)中抽取的数据进行数据构造,具体为:
301)根据粘连词数及粘连位置的概率分布构造粘连数据模块;
302)判定粘连句子,随机选取句子作为含有粘连词的句子,利用random()函数在遍历步骤1)中得到的文件时,每读取一句话得到一个0-1之间的随机数x,按照70%占比构造伪粘连词数据,即若x<=0.7则将该句子作为含有粘连词的句子,进入构造粘连词模块进行处理;若x>0.7则不做处理,直接输出伪粘连词数据到文件1;
步骤301)中构造粘连数据模块为:
30101)确定粘连词数,根据粘连词数的分布,利用random()函数得到一个0-1随机数m,m的不同取值对应着构造该句话粘连词的粘连词数gram,gram的取值结果如下:
30102)确定可选取的位置n,n的取值具体如下,其中words为该语句的单词数目;
n=words-gram+1
30103)确定粘连的位置,根据粘连位置分布得知,第一个位置和最后一个位置的概率相等均为其余位置的1/3,按比例构造随机数的范围[1,x],其中x=3*n-4,根据随机范围映射粘连位置的周期为:T=x/(n-1),得到的随机数ran映射的位置信息为:(ran-1)/T;
30104)按照得到的位置信息构造粘连词,将构造好的数据进行输出,将经上述步骤处理后的数据作为源语,原始数据作为目标语输出到文件1。
2.根据权利要求1所述的英文粘连词错误的还原方法,其特征在于:2)中粘连词数及粘连位置的分布概率为:
粘连词数为2词粘连的概率为0.6,3词粘连的概率为0.25,4词粘连的概率为0.14,5词粘连的概率为0.01,统计粘连位置为句首句尾位置粘连占其他位置的1/3。
3.根据权利要求1所述的英文粘连词错误的还原方法,其特征在于:步骤4)中数据预处理包括:
401)将步骤3)中得到的源语和目标语作为句对进行分词,分词按空格标点进行切分;
402)对粘连词进行变化,利用一个判定粘连词函数寻找数据中可能的粘连词,将粘连词按字符用指定符号切分,以区别于真正单词间的空格;
403)将步骤402)中的源语和步骤401)中分词后的目标语进行BPE,以减少词表的大小;
所述步骤402)中判定粘连词函数设计方法如下:
40201)从现有的已清洗过的高质量英文数据集抽取高质量英文数据作为该函数的语料库,该语料库与步骤1)中抽取的数据呈互斥的关系;
40202)利用n-gram模型统计出Tri-Gram的词对,并保留词对信息;
40203)读取源语数据,遍历源语数据句子,根据当前词w的后面3个词利用步骤40202)中得到的词对信息进行查询,若可查询到词w,则判断词w不是粘连词;
40204)继续遍历,若未查询到词w,则判定词w是粘连词,将词w按字符用指定符号切分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010883348.5A CN112016322B (zh) | 2020-08-28 | 2020-08-28 | 一种英文粘连词错误的还原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010883348.5A CN112016322B (zh) | 2020-08-28 | 2020-08-28 | 一种英文粘连词错误的还原方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016322A CN112016322A (zh) | 2020-12-01 |
CN112016322B true CN112016322B (zh) | 2023-06-27 |
Family
ID=73502809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010883348.5A Active CN112016322B (zh) | 2020-08-28 | 2020-08-28 | 一种英文粘连词错误的还原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016322B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010063799A (ko) * | 1999-12-24 | 2001-07-09 | 오길록 | 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법 |
KR101626500B1 (ko) * | 2015-02-09 | 2016-06-01 | 동의대학교 산학협력단 | 광학 문자 인식을 기반으로 한 단어 정리 시스템 및 방법 |
WO2016144963A1 (en) * | 2015-03-10 | 2016-09-15 | Asymmetrica Labs Inc. | Systems and methods for asymmetrical formatting of word spaces according to the uncertainty between words |
CN108921152A (zh) * | 2018-06-29 | 2018-11-30 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
CN110738045A (zh) * | 2019-10-25 | 2020-01-31 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的英文词法分析方法及系统 |
CN110852117A (zh) * | 2019-11-08 | 2020-02-28 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
CN111178060A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种基于语言模型的韩语分词还原方法 |
-
2020
- 2020-08-28 CN CN202010883348.5A patent/CN112016322B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010063799A (ko) * | 1999-12-24 | 2001-07-09 | 오길록 | 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법 |
KR101626500B1 (ko) * | 2015-02-09 | 2016-06-01 | 동의대학교 산학협력단 | 광학 문자 인식을 기반으로 한 단어 정리 시스템 및 방법 |
WO2016144963A1 (en) * | 2015-03-10 | 2016-09-15 | Asymmetrica Labs Inc. | Systems and methods for asymmetrical formatting of word spaces according to the uncertainty between words |
CN108921152A (zh) * | 2018-06-29 | 2018-11-30 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
CN110738045A (zh) * | 2019-10-25 | 2020-01-31 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的英文词法分析方法及系统 |
CN110852117A (zh) * | 2019-11-08 | 2020-02-28 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
CN111178060A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种基于语言模型的韩语分词还原方法 |
Non-Patent Citations (4)
Title |
---|
图书索书号粘连字符的切分;胡小锋,陈超,叶庆泰;上海交通大学学报(第04期);全文 * |
基于识别的粘连手写数字串切分系统;雷云,刘长松,丁晓青,付强;清华大学学报(自然科学版)(第04期);全文 * |
汉语文本自动分词算法的研究;何国斌;赵晶璐;;计算机工程与应用(第03期);全文 * |
神经机器翻译数据增强方法研究;刘兴宇;《中国优秀硕士论文全文数据集(信息科技)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112016322A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN1159661C (zh) | 用于中文的标记和命名实体识别的系统 | |
Hamdi et al. | An analysis of the performance of named entity recognition over ocred documents | |
CN111695385B (zh) | 文本识别方法、装置及设备 | |
CN110807338B (zh) | 英汉机器翻译术语一致性自修正系统及方法 | |
CN114201975B (zh) | 翻译模型训练方法和翻译方法及其装置 | |
CN112417897B (zh) | 词对齐模型训练、文本处理的方法、系统、设备和介质 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN111310468B (zh) | 一种利用不确定分词信息实现中文命名实体识别方法 | |
CN112417823A (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN112016322B (zh) | 一种英文粘连词错误的还原方法 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN109325098B (zh) | 用于数学题目语义解析的指代消解方法 | |
CN109871550B (zh) | 一种基于后处理技术的提高数字翻译质量的方法 | |
CN116416634A (zh) | 一种文档中数学公式识别方法及系统 | |
Hocking et al. | Optical character recognition for South African languages | |
CN113627191A (zh) | 一种气象预警样本语义自动化标注方法及系统 | |
CN114462427A (zh) | 基于术语保护的机器翻译方法及装置 | |
WO2023035332A1 (zh) | 一种日期提取方法、装置、计算机设备及存储介质 | |
Généreux et al. | NLP challenges in dealing with OCR-ed documents of derogated quality | |
CN114065777A (zh) | 双语语料检测方法、设备以及计算机可读介质 | |
CN113569974B (zh) | 编程语句纠错方法、装置、电子设备及存储介质 | |
CN113033188B (zh) | 一种基于神经网络的藏文语法纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Method for Restoring Errors in English Adhesive Words Granted publication date: 20230627 Pledgee: China Construction Bank Shenyang Hunnan sub branch Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD. Registration number: Y2024210000102 |