CN114239546A - 一种基于语法树剪枝的翻译机测试方法 - Google Patents
一种基于语法树剪枝的翻译机测试方法 Download PDFInfo
- Publication number
- CN114239546A CN114239546A CN202111471991.8A CN202111471991A CN114239546A CN 114239546 A CN114239546 A CN 114239546A CN 202111471991 A CN202111471991 A CN 202111471991A CN 114239546 A CN114239546 A CN 114239546A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- dependency
- machine translation
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013138 pruning Methods 0.000 title claims abstract description 23
- 238000010998 test method Methods 0.000 title abstract description 10
- 238000013519 translation Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000012217 deletion Methods 0.000 claims abstract description 5
- 230000037430 deletion Effects 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 claims 3
- 244000141353 Prunus domestica Species 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 abstract 1
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000014616 translation Effects 0.000 description 36
- 230000006870 function Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 101000818376 Homo sapiens Palmitoyltransferase ZDHHC17 Proteins 0.000 description 1
- 102100021061 Palmitoyltransferase ZDHHC17 Human genes 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种机器翻译测试方法。该方法对语句构建依存语法树,按特定规则对语法树剪枝,基于一组依存语法树级别的删除运算符来破坏句子的有效性,从原始句子中删除单词或短语来生成新的语法和语义有效的句子,然后将原文和新生成的句子输入被测试的机器翻译系统,通过计算词袋距离,按照词袋距离大小排序扩增句子,选择距离最大的5个句子,通过手动为原句和翻译句子结果贴标签,标记出错的句子,完成对机器翻译系统的测试。本发明目的在于解决目前机器翻译测试主要通过替换句子中的部分单词来生成测试用例,测试性能主要受到所采用的语言模型的成熟度的限制。在数据扩增的同时,保证了句子的基本结构的不变性,从而发现了较多对错误,这些错误很多是过去机器翻译测试技术发现不了的。
Description
技术领域
本发明属于信息技术中机器翻译领域,特别适用于机器翻译中的机器翻译测试,其目的在于针对机器翻译测试中测试语句的生成,是一种能够大量生成测试语句的翻译机测试方法。
背景技术
机器翻译是利用计算机将一种自然语言转换成另一种自然语言的任务,是人工智能领域研究的热点问题之一。近年来,随着深度学习的发展,基于序列到序列结构的神经机器翻译模型在多种语言对的翻译任务上都取得了超过统计机器翻译模型的效果,并被广泛应用于商用翻译系统中.虽然商用翻译系统的实际应用效果直观表明了神经机器翻译模型性能有很大的提升,与统计机器翻译模型相比,神经机器翻译模型存在更显著的鲁棒性问题。
近年来,由于深度神经网络的发展,机器翻译软件得到了迅速的发展。人们在日常生活中经常使用机器翻译软件,比如在外国餐馆点餐,接受外国医生的医疗诊断和治疗,以及在网上阅读国际政治新闻。然而,由于底层神经网络的复杂性和难解性,现代机器翻译软件仍然远远不够健壮。与传统软件(如Web服务器)类似,机器翻译软件的可靠性非常重要。然而,由于驱动这些系统的神经网络的复杂性,现代翻译软件可能会返回错误的翻译,导致对语义产生误解、导致经济损失、甚至威胁个人安全和健康,以及产生政治冲突。在现有的机器翻译测试技术研究中,大多生成测试用例的方法是通过语言模型替换句子中的一个词。虽然能够在特定语句上发现一些翻译结果的错误,但它们的性能受到现有语言模型成熟度的限制。因此通过基于语法树剪枝的翻译机测试方法,具有较大的研究意义和实用价值。
在传统系统中,决策逻辑体现在源代码中。相反,DNN系统的输出主要取决于数百万个参数,这些参数是在训练后优化的。神经机器翻译系统采用的神经网络模型缺乏可解释性和可理解性。在进行神经机器翻译时,待翻译语句在神经网络结构中会被转换为多维向量,这种转换涉及到的步骤繁杂,参数众多,很难理解每一个步骤的实际含义。另一方面,神经网络模型对训练数据具有很强的依赖性,相同的网络结构在不同的训练数据集下,训练出的参数取值会存在较大差异,造成输出的稳定性较低。其次,最近对DNN系统的测试方法主要集中在具有少量可能输出的模型(例如图像分类器)。相反,枚举所有可能的输出是机器翻译的一个棘手问题使机器翻译系统难以测试。还有,现有的机器翻译技术主要通过替换句子中的一个单词来生成测试用例。
神经网络模型的测试困难性意味着采用白盒测试方法可行性较低,而机器翻译主要采用黑盒测试方法.目前常见的解决深度神经网络系统测试预言的方法,将其分为两类.第1类基于差异测试,即通过检测同一输入在基于相同规约的实现下的输出是否相同来判断是否出错.另一类基于蜕变测试,即通过定义蜕变关系来描述系统的输入变化和输出变化之间的关系.在以往的神经机器翻译系统质量评估工作中,基于蜕变测试的方法较为常见,这种方法的关键在于蜕变关系的定义。对此,本发明提出一种基于语法树剪枝的翻译机测试方法,基于消除无关信息生成的新句子应该保留原句子的核心语义信息,对翻译机进行测试.
发明内容
本发明通过提出一种基于语法树剪枝的翻译机测试方法,来解决目前存在的翻译机测试困难的问题,进而帮助机器翻译系统提高翻译的质量降低翻译错误的可能性,从而为大众提供更好的翻译质量。
为达成上述目标,本发明提出了一种基于语法树剪枝的翻译机测试方法.首先产生修剪过的句子。对于每个未标记的句子,本发明通过依存语法树剪枝生成一个新句子列表;其次,通过语法和语义信息过滤。我们筛选出那些相似(与其源句)小于给定阈值的新句子,这表明了相关内容的保留程度;然后收集目标句子.我们将源句和新生成的句子反馈给正在测试的机器翻译系统,并收集它们的目标句子.最后检测翻译错误,将翻译生成的句子的结构与翻译的原句的结构进行比较。如果结构之间有很大的差异,报告存在一个潜在的错误。具体而言,该方法包括以下步骤:
1)从文件中读取机器翻译的源语句,对句子进行语法分析,通过基于神经网络的解析器建立语法树,输出基本的依存语法解析,根据依存语法解析构建语法树;
步骤如下:
1a)使用来自Stanford大学的Stanford CoreNLP,对文本的句子进行解析,将输入的语句,转换成依存关系三元组,斯坦福依赖提供了一个句子中单词之间的语法关系的表示。它们被设计为易于理解并被想要提取文本关系的人有效使用。通用依赖(UD)是三元组:关系名称、调控器和依赖。
2b)根据通用依赖,使用python treelib库中的tree,实现依据通用依赖关系构建依存语法树,树形关系中每个节点由当前单词,与父节点所属关系,叶子节点构成.
2)扫描句子,以确定它属于哪个句型,确定其是否为简单句、复杂句和复合句;将复合句分割成简单句,并保留不可操作的依赖关系;
句子总共有5大基本类型,包括SV,SVC,SVO,SVOO,SVOC五种。设置这些成分为不可拆分内容。
SV,Subject(主语)+Verb(谓语)。主谓结构,指由一个或者若干个主语,加上一个或若干个谓语,所组成的句式。主谓句由表示陈述和被陈述关系的2个成分组成,表示被陈述对象是主语,主谓短语作谓语的句子叫主谓谓语句。
SVC,Subject(主语)+Link.V(系动词)+predicate(表语)。主系表结构是指英语句子中的主要成分是主语、系动词和表语。主语是一句话的中心,系词本身有一定的意义,不能单独使用,表语是用来修饰的。
SVO,Subject(主语)+Verb(谓语)+Object(宾语)。主谓宾,语法顺序为主语一谓语一宾语的结构。
SVOO,Subject(主语)+Verb(谓语)+Indirect object(间接宾语)+Direct object(直接宾语)句子中有两个宾语时,其中指物或指事的就是直接宾语。指人(或动物)的就是间接宾语.间接宾语指受影响的事或人,直接宾语为动作的承受者,如He passes me theball.中,me为间接宾语, the ball为直接宾语。
SVOC,Subject(主语)+Verb(动词)+Object(宾语)+Complement(补语)。宾语补足语指在句子中有些及物动词,接了宾语意义仍不完整,还需要有一个其他的句子成分,来补充说明宾语的意义、状态等,简称宾补。宾语和它的补足语构成复合宾语。而复合宾语的第一部分通常由名词或代词充当,第二部分表示第一部分的名词或代词发出的动作或身份、特征等,称为宾语补足语。
步骤如下:
1a)使用来自Stanford大学的Stanford CoreNLP,对文本的句子进行成分分析,成分解析树将一段文本转化为短语,树中的非叶子结点是短语的类型,而叶子结点是句子中的 word,边是没有标记的。通过对非叶节点的识别,判断语句的类型是简单句,复杂句和复合句。
2b)依据成分分析结果,将复合句拆分为简单句或者复杂句,来规避出现多次S,V,O, C的情况,根据通用依赖,把S,V,O,C类型的单词设置为不可删除成分。
3)从下到上对依存语法树进行剪枝过程,并删除依赖关系右侧的内容。同时,STP需要参考映射表,并确定是否应该有一个级联剪枝,直到只剩下基本的依存语法树结构;
1a)若遇到并列关系的句子,拆分成多个独立的句子,将他们放入扩增结果列表中,并生成新的依存语法树,进入新的Prune函数中进行剪枝。
2b)进入Prune函数,语句的依存语法树进行剪枝,依照参考映射表,对确定是否应该有一个级联剪枝,判断是否存在并列关系的句子。
3c)如果可以进行剪枝,剪枝并将结果放入扩增结果列表中。
4)翻译原句以及扩增语句,按照词袋距离筛选潜在翻译出错语句,通过人工对其进行标注。
附图说明
图1为基于语法树剪枝的翻译机测试方法的流程图
图2为图1中构建语法树流程图
图3为图1中注释中语句类型分析及预处理流程图
图4为图1中注释中语句剪枝流程图
具体实施方式
为了更好了解本发明的技术内容,特举具体实例并配合所附图式说明如下。
图1为本发明实施的基于语法树剪枝的翻译机测试方法的流程图。
构建语法树:使用相关的语法分析的库获得依存语法结构信息,抽取其中的语义主干及相关语义成分,从三元组构建为树形存储结构。
句型检测:根据源语句中提取语句的依存语法树,对依存语法树进行句型检测。其中,句型是指语言学中,语句的基本类型,其他类型都由这些基本类型扩展而来,句子总共有5 大基本类型,包括SV,SVC,SVO,SVOO,SVOC五种。
语法树剪枝:依照源语句生成的依存语法树,按照特定的规则进行删除树的节点,找出其中可以删除的节点,其中删除方法是从层数最高的节点开始删除。通过这种方法,获得较多的扩增语句。
筛选语句:按照词袋距离筛选潜在出错语句,选择距离较大的语句作为潜在出错的语句。词袋距离指的是基于词袋模型,一种简单的表示方法,不考虑语法,甚至不考虑词序,但保留多义性的前提下,比较词袋向量中不同的元素数量,即为词袋距离。
人工检查;在经过筛选之后,仍然不能确定是否翻译语句存在错误,需要进行专业人士 (相关语言专业的人员)进行语句的筛查,确定是否语句合法正确。
图2为构建语法树的流程图,主要是从基本的通用依赖三元组转换成树形数据结构。具体步骤如下:
步骤1:使用python的基本IO方法read函数读取需要读取的文件内容,并判断是否存在非法的字符,遇到相关的非法字符,抛出异常并等待人工处理,否则将所有读取到的语句放入一个列表中,等待语法解析。
步骤2:使用Stanford University的自然语言处理工具Stanford CoreNLP,导入StanfordCoreNLP 对语句进行语法分析,获得通用依赖(UD)三元组:关系名称、调控器和依赖。
步骤3:使用python的treelib库,基于通用依赖三元组构建树形结构数据,保存到对应语句的字典中。
图3是句型检测检测流程图。主要检测确定它属于哪个句型,确定其是否为简单句、复杂句和复合句。具体步骤如下:
步骤1:句子成分分析:使用Stanford University的自然语言处理工具StanfordCoreNLP里面的Parse方法将源语句转为String类型的字符串,再通过python Nltk库中的tree包中的 fromstring方法,将句子成分分析的结果转换为树形存储结构。
步骤2:判断简单句:遍历句子成分分析的树形存储结构,遵循以下规则,将复杂句转化为简单句,并保留不可拆分成分,具体规则实现如下:
A1:识别标签为SBAR的节点,如果该节点的叶子节点大于1,则认为其存在从句.将语句拆分为两个语句包括不含SBAR节点的语句和只含有SBAR节点的语句,并存储到相应的数据列表中。
A2:识别标签为HYPH的节点,如果该节点的叶子节点大于1,则认为这是不可拆分的词语,并将该词语放入不可拆分列表中。
步骤三:判断句子的句型结构:通过编写的Depd_Travesal函数,依照语句的依存语法树,将相应的主句成分设置为不可修改部分。规则如下:
A:标签是如下几个名称的认为是句子的主要成分:ROOT,cop,obj,dobj,iobj,nsubj,xsubj
图4为依存语法树剪枝流程图。主要从下到上对依存语法树进行剪枝过程,并删除依赖关系右侧的内容。具体步骤如下:
步骤一:并列句判断:遍历依存语法树,判断是否存在并列成分并将并列句拆分为非并列句,具体规则实现如下:
A1:读取节点的依存关系,为tag,begin,end,识别tag为conj,cc的节点,当出现conj 时,认为存在并列成分,并放入一个字典,其中key为begin,内容为end。当出现cc时,认为cc的begin的begin为字典的key,并将内容设置为key。
例如:(cc,N1,N2),(conj,N3,N1),对应于cc的字典[n3]=N2。
A2:读取完并列成分以后,判断并列成分,生成非并列语句,具体规则如下:
A3:读取取消并列的语句,进入剪枝剪枝函数,删除节点规则如下:
A4:存储数据,翻译原句以及扩增语句,计算词袋距离,将候选错误按照设置的候选错误数量统一输出到Excel中。
最后,寻找相关专业人士进行审查。
下面通过实例说明本发明的实现效果:
我们采样来自CNN的新闻数据,包括来自政治新闻的100条语句和经济新闻的100条语句,进行机器翻译测试。经过我们的测试,我们发现了Google翻译的214条错误,Bing翻译的242条错误。找出的错误示例如下:
源句:Young people of color became a majority of K12 public schoolstudents in 2014.
2014年,有色人种成为K12公立学校学生的大多数.
目的句:
Young people became a majority in 2014.
2014年,年轻人成为多数。
发现在原句中没有翻译出Young这个单词,即我们认为翻译机漏译了Young这个单词,这就是一次错误翻译结果。
并列句拆分为非并列句示例如下:
源句:The old rule started to seem dated and out of place.
旧规则开始显得过时和过时了。
目的句:
The old rule started to seem dated.
旧规则似乎过时了。
The old rule started to seem out of place.
旧规则似乎开始显得不对。
源语句被拆分成两个并列的语句,在保证合法的情况下,生成了新的语句,并发现了机器翻译中源语句的错误翻译,重复了两次过时的翻译结果。
Claims (3)
1.一种面向翻译机的缺陷检测方法,其特征是基于对对语句构建依存语法树,按特定则对语法树剪枝,基于一组依存语法树级别的删除运算符来破坏句子的有效性,从原始句子中删除单词或短语来生成新的语法和语义有效的句子,然后将原文和新生成的句子输入被测试的机器翻译系统,通过计算词袋距离,按照词袋距离大小排序扩增句子,选择距离最大的5个句子,手动为原句和翻译句子结果贴标签,标记出错的句子,完成对机器翻译系统的测试。涵盖了机器翻译的主要错误类型,包括:过度翻译,不足翻译,语句翻译错误,错误修改,逻辑错误,具体步骤如下:
1)从文件中读取机器翻译的源语句,对句子进行句法分析,并通过Stanford CoreNLP提供的基于神经网络的解析器建立语法树;
2)扫描句子,以确定它属于哪个句型,确定其是否为简单句、复杂句和复合句;保留不可操作的依赖关系,并将复合句分割成简单句;
3)从下到上对依存语法树进行剪枝过程,并删除依赖关系右侧的内容。同时,STP需要参考映射表,并确定是否应该有一个级联剪枝,直到只剩下基本的依存语法树结构。
4)按照词袋距离筛选潜在出错语句,通过人工对其进行标注。
2.根据权利要求1中的翻译机的缺陷检测方法,其特征是,在步骤二中,进行句型的模式检测;通过Stanford CoreNLP模块,识别出简单句、复杂句和复合句,将复合句分割成简单句,并以字典列表的形式存储分割前的句子和分割后的句子。并且,提出识别并保留基本的句型结构,包括主-动-补(SVC)结构,主-动结构(SV),主-动-宾(SVO)结构,主-动-宾-宾结构(SVOO),主-动-宾-补(SVOC)结构,设置其为不可操作的依赖关系,保存到Map中。
3.根据权利要求1中的翻译机的缺陷检测方法,其特征是,在步骤三中,从下到上对依存语法树进行剪枝过程,并删除依赖关系右侧的内容,依赖关系为(关系类型,单词1,单词2)构成。本方法设计了一种关系映射表,根据相应的关系类型,设计了相关的基本操作,包括是否直接删除或级联删除,拆分操作等。根据映射表对语句进行剪枝,对每次剪枝后的代码存放到扩增列表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111471991.8A CN114239546A (zh) | 2021-11-30 | 2021-11-30 | 一种基于语法树剪枝的翻译机测试方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111471991.8A CN114239546A (zh) | 2021-11-30 | 2021-11-30 | 一种基于语法树剪枝的翻译机测试方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114239546A true CN114239546A (zh) | 2022-03-25 |
Family
ID=80753139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111471991.8A Pending CN114239546A (zh) | 2021-11-30 | 2021-11-30 | 一种基于语法树剪枝的翻译机测试方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114239546A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997175A (zh) * | 2022-05-16 | 2022-09-02 | 电子科技大学 | 一种基于领域对抗训练的情感分析方法 |
CN116232967A (zh) * | 2023-05-09 | 2023-06-06 | 中国科学技术大学先进技术研究院 | 网络安全检测方法、装置、设备及存储介质 |
WO2024055919A1 (zh) * | 2021-12-18 | 2024-03-21 | 北京捷茂迪华能源技术有限公司 | 一种图解西文句子结构的方法及其使用方法 |
CN118504642A (zh) * | 2024-07-18 | 2024-08-16 | 广东省连听科技有限公司 | 一种基于参数剪枝调优的机器翻译模型训练方法和系统 |
-
2021
- 2021-11-30 CN CN202111471991.8A patent/CN114239546A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024055919A1 (zh) * | 2021-12-18 | 2024-03-21 | 北京捷茂迪华能源技术有限公司 | 一种图解西文句子结构的方法及其使用方法 |
CN114997175A (zh) * | 2022-05-16 | 2022-09-02 | 电子科技大学 | 一种基于领域对抗训练的情感分析方法 |
CN116232967A (zh) * | 2023-05-09 | 2023-06-06 | 中国科学技术大学先进技术研究院 | 网络安全检测方法、装置、设备及存储介质 |
CN116232967B (zh) * | 2023-05-09 | 2023-07-04 | 中国科学技术大学先进技术研究院 | 网络安全检测方法、装置、设备及存储介质 |
CN118504642A (zh) * | 2024-07-18 | 2024-08-16 | 广东省连听科技有限公司 | 一种基于参数剪枝调优的机器翻译模型训练方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114239546A (zh) | 一种基于语法树剪枝的翻译机测试方法 | |
US7707026B2 (en) | Multilingual translation memory, translation method, and translation program | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN111488466B (zh) | 中文带标记错误语料生成方法、计算装置和存储介质 | |
EP1023676A1 (en) | Automatically recognizing the discourse structure of a body of text | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
Moore et al. | A convolutional neural network for language-agnostic source code summarization | |
CN102360346A (zh) | 基于受限的语义依存分析的文本推理方法 | |
CN107784048A (zh) | 问答语料库的问题分类方法及装置 | |
JP6614152B2 (ja) | テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム | |
KR20090061158A (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치 | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和系统 | |
US20220366135A1 (en) | Extended open information extraction system | |
CN112579444B (zh) | 基于文本认知的自动分析建模方法、系统、装置及介质 | |
van de Camp et al. | Resolving relative time expressions in dutch text with constraint handling rules | |
Bloodgood et al. | Data cleaning for xml electronic dictionaries via statistical anomaly detection | |
He et al. | [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning | |
Nguyen et al. | Systematic knowledge acquisition for question analysis | |
Samani et al. | A content-based method for persian real-word spell checking | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
Chen | Natural language processing in web data mining | |
Goonawardena et al. | Automated spelling checker and grammatical error detection and correction model for sinhala language | |
CN117828007B (zh) | 基于自然语言处理的建设征地移民档案管理方法及系统 | |
Vayadande et al. | Spell Checker Model for String Comparison in Automata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |