CN113051937A - 机器纠错方法、装置、电子设备和可读存储介质 - Google Patents

机器纠错方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN113051937A
CN113051937A CN202110298083.7A CN202110298083A CN113051937A CN 113051937 A CN113051937 A CN 113051937A CN 202110298083 A CN202110298083 A CN 202110298083A CN 113051937 A CN113051937 A CN 113051937A
Authority
CN
China
Prior art keywords
text
corrected
translation
original
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110298083.7A
Other languages
English (en)
Other versions
CN113051937B (zh
Inventor
陈昌儒
吴雨璇
杨惠
徐培来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202110298083.7A priority Critical patent/CN113051937B/zh
Publication of CN113051937A publication Critical patent/CN113051937A/zh
Application granted granted Critical
Publication of CN113051937B publication Critical patent/CN113051937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种机器纠错方法、装置、电子设备和可读存储介质,涉及计算机技术领域,通过本申请实施例,可以至少通过待纠错文本以及待纠错文本对应的译文(第一文本)确定与待纠错文本同语种的第二文本,其中,该第二文本可以作为针对待纠错文本的正确答案。由于第二文本是至少基于上述待纠错文本和待纠错文本对应的第一文本确定的,所以,第二文本实质上是针对待纠错文本改正后得到的文本,其对待纠错文本具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。

Description

机器纠错方法、装置、电子设备和可读存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种机器纠错方法、装置、电子设备和可读存储介质。
背景技术
目前,随着互联网技术的发展,线上教育的方式越来越多,例如在线批改作业等等。
相关技术中,可以通过语言模型(例如翻译模型)来辅助老师进行作业批改。以英语教育为例,在面对“汉译英”题目时,学生往往会出现拼写错误、语法错误、用词不当等等问题,在将学生写出的英文输入语言模型后,语言模型可以输出对应题目的正确答案。
然而,目前的在线批改作业方法仅是针对题目给出一个唯一的正确答案,也就是说,无论学生出现什么样的错误都会给出同样的答案,即没有根据学生的实际情况进行自适应的修改,使得在线批改作业时没有针对性。
发明内容
有鉴于此,本申请实施例提供一种机器纠错方法、装置、电子设备和可读存储介质,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
第一方面,提供了一种机器纠错方法,所述方法应用于电子设备,所述方法包括:
获取待纠错文本。
基于预先设置的中间翻译网络,对所述待纠错文本进行翻译,确定所述待纠错文本对应的第一文本。
至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,所述第二文本与所述待纠错文本的语种相同。
第二方面,提供了一种机器纠错装置,所述装置应用于电子设备,所述装置包括:
获取模块,用于获取待纠错文本。
中间翻译模块,用于基于预先设置的中间翻译网络,对所述待纠错文本进行翻译,确定所述待纠错文本对应的第一文本。
融合翻译模块,用于至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,所述第二文本与所述待纠错文本的语种相同。
第三方面,本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
通过本申请实施例,可以至少通过待纠错文本以及待纠错文本对应的译文(第一文本)确定与待纠错文本同语种的第二文本,其中,该第二文本可以作为针对待纠错文本的正确答案。由于第二文本是至少基于上述待纠错文本和待纠错文本对应的第一文本确定的,所以,第二文本实质上是针对待纠错文本改正后得到的文本,其对待纠错文本具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
附图说明
通过以下参照附图对本申请实施例的描述,本申请实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本申请实施例提供的一种机器纠错方法的流程图;
图2为本申请实施例提供的另一种机器纠错方法的流程图;
图3为本申请实施例提供的一种融合翻译网络的示意图;
图4为本申请实施例提供的另一种机器纠错方法的流程图;
图5是本申请实施例提供的一种显示界面的示意图;
图6是本申请实施例提供的另一种显示界面的示意图;
图7为本申请实施例提供的一种机器纠错装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本申请进行描述,但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
目前,随着互联网技术的发展,线上教育的方式越来越多,例如在线批改作业等等。
相关技术中,可以通过语言模型(例如翻译模型)来辅助老师进行作业批改。以英语教育为例,在面对“汉译英”题目时,学生往往会出现拼写错误、语法错误、用词不当等等问题,在将学生写出的英文输入语言模型后,语言模型可以输出对应题目的正确答案。
再例如,针对英语作文一类的开放性试题,学生书写的句子同样会出现拼写错误、语法错误、用词不当等等问题,此时,在将学生的答案输入语言模型后,语言模型可以输出对应题目的标准答案。
然而,目前的在线批改作业方法仅是针对题目给出一个唯一的正确答案,也就是说,无论学生出现什么样的错误都会给出同样的答案,使得在线批改作业时没有针对性。例如在开放性试题中,由于开放性试题的答题思路更多,所以会导致不同学生写出的答案之间的差异性较大,若针对每个学生仅给出一份标准答案,则会使得对学生的作业纠错缺乏针对性。
为了解决上述问题,本申请实施例提供一种机器纠错方法,使得机器纠错的结果具有针对性,具体的,如图1所示,图1为本申请实施例提供的一种机器纠错方法的流程图。
在本申请实施例中,可以先获取待纠错文本11,其中,待纠错文本11可以是学生在答题过程中给出的答题结果,该答题结果可以为语言类的答题结果,例如“汉译英”题目的答题结果、英语作文的答题结果、给定问题的主观题的答题结果等等。
在获取纠错文本11后,可以根据中间翻译网络12对纠错文本11进行翻译,确定第一文本13,例如,若待纠错文本11为英文的文本,则第一文本13可以是除英文以外的其它语言的文本(例如中文等等),若待纠错文本11为中文的文本,则第一文本13可以是除中文以外的其它语言的文本(例如英文等等)。
在确定第一文本13后,融合翻译网络14可以针对待纠错文本11和第一文本13进行融合翻译,确定第二文本15,其中,第二文本15是与待纠错文本11语种相同的文本,例如,若待纠错文本11为英文的文本,则第二文本15也为英文的文本。
在确定第二文本15后,第二文本15可以作为待纠错文本11的纠错版本的文本,也就是说,在本申请实施例中,第二文本15可以作为针对待纠错文本11的正确答案。
通过本申请实施例,可以至少通过待纠错文本11以及待纠错文本11对应的译文(第一文本13)确定与待纠错文本11同语种的第二文本15,其中,该第二文本15可以作为针对待纠错文本11的正确答案。由于第二文本15是至少基于上述待纠错文本11和待纠错文本11对应的第一文本13确定的,所以,第二文本15实质上是针对待纠错文本11改正后得到的文本,其对待纠错文本11具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
下面将结合具体实施方式,对本申请实施例提供的一种机器纠错方法进行详细的说明,其中,该方法可以应用至电子设备,电子设备可以是终端或者服务器,终端可以是智能手机、平板电脑或者个人计算机(Personal Computer,PC)等,服务器可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
如图2所示,图2为本申请实施例提供的另一种机器纠错方法的流程图,具体步骤如下:
在步骤21,获取待纠错文本。
在一种应用场景下,待纠错文本可以是学生输入的答题结果,在电子设备针对该答题结果进行纠错时,可以获取该答题结果(也即纠错文本)。
若电子设备为学生终端(例如安装有在线教育应用程序的智能手机、平板电脑等),则电子设备可以直接获取学生通过触摸显示屏输入的答题结果。
若电子设备为在线教育平台服务器,则电子设备可以通过无线通信获取学生终端上传的答题结果。
在步骤22,基于预先设置的中间翻译网络,对待纠错文本进行翻译,确定待纠错文本对应的第一文本。
其中,中间翻译网络可以是基于深度神经网络(Deep Neural Networks,DNN)构建的翻译网络,深度神经网络是机器学习常用的神经网络,是基于感知机的扩展,其是由输入层、输出层和中间的多个隐藏层构成。在本申请实施例中,可以基于深度神经网络构建翻译网络,并应用至机器纠错方法中。
在本申请实施例中,中间翻译网络可以基于待纠错文本的语义对待纠错文本进行翻译,以确定第一文本。其中,第一文本是与待纠错文本语种不同的文本,同时,由于第一文本是由中间翻译网络翻译得到的(非人工翻译),所以第一文本具有较为准确的语法、用词。
另外,由于第一文本是基于待纠错文本翻译得到的,因此,第一文本的用词是与待纠错文本向对应的,也就是说,第一文本与待纠错文本之间具有较强的关联关系。
在步骤23,至少基于预先设置的融合翻译网络、第一文本和待纠错文本,对第一文本进行融合翻译,确定第二文本。
其中,第二文本与待纠错文本的语种相同。另外,融合翻译网络可以是基于深度神经网络构建的翻译网络。
在一种情况下,待纠错文本没有对应的原始文本,例如,在英语作文题目中,学生需要根据一段简单的描述来撰写一篇英文版本的作文,此时,该学生撰写的英文作文没有对应的中文原始文本。当然,待纠错文本也可以是根据一段简单描述撰写的其它语种(例如汉语、韩语、德语等等)的文本。
进而,在该情况下,本申请实施例可以基于预先设置的融合翻译网络、第一文本和待纠错文本,对第一文本进行融合翻译,确定第二文本(即上述图1所示的流程)。
更进一步的,在一种可选的实施方式中,在基于预先设置的融合翻译网络、第一文本和待纠错文本,对第一文本进行融合翻译确定第二文本的过程中,可以根据第一预定翻译策略对融合翻译网络的各个输入量的权重以及拼接方式进行调整。
具体的,该过程可以执行为:基于预先设置的融合翻译网络、第一文本、待纠错文本和第一预定翻译策略,对第一文本进行融合翻译,确定第二文本。
其中,第一预定翻译策略用于表征第一文本在融合翻译网络中的权重、待纠错文本在融合翻译网络中的权重、第一文本和待纠错文本在融合翻译网络中的拼接方式。
另外,在将第一文本和待纠错文本输入融合翻译网络之前,可以对第一文本和待纠错文本进行数据预处理。其中,数据预处理至少包括特征提取。
如图3所示,图3为本申请实施例提供的一种融合翻译网络的示意图,该示意图包括基于深度神经网络构建的融合翻译网络,其中包括输入神经元x1-输入神经元xa、隐层神经元31-隐层神经元3b、输出神经元y1-输出神经元yc。
其中,输入神经元用于接收融合翻译网络的输入数据,例如,在对第一文本和待纠错文本进行特征提取后得到了a个特征向量,然后,融合翻译网络在进行融合翻译时,输入神经元x1-输入神经元xa可以接收上述a个特征向量并向隐层神经元进行传递。
需要说明的,每个输入神经元可以分别对应一个权重,该权重可以通过权重系数的形式参与融合翻译网络的处理过程,其中,每个输入神经元的权重可以通过对第一预定翻译策略的配置而改变。也就是说,通过对每个输入神经元设置权重,可以改变各输入数据(例如第一文本或者待纠错文本)的权重,从而改变各输入数据在融合翻译过程中的重要程度。
隐层神经元31-隐层神经元3b接收到输入神经元x1-输入神经元xa传递的信息后,可以基于各个传递的信息进行计算,并将计算结果传递至输出神经元y1-输出神经元yc,以使得输出神经元y1-输出神经元yc进行输出。
在图3所示的网络结构中,输入神经元、隐层神经元和输出神经元之间通过全连接的方式进行连接,在其他情况下,各个神经元之间的连接方式可以通过对第一预定翻译策略的配置而改变。也就是说,通过改变各个神经元之间的连接方式,可以改变各个输入数据之间的拼接方式,从而影响各输入数据在融合翻译过程中的重要程度。
通过本申请实施例,可以至少通过待纠错文本以及待纠错文本对应的译文(第一文本)确定与待纠错文本同语种的第二文本,其中,该第二文本可以作为针对待纠错文本的正确答案。由于第二文本是至少基于上述待纠错文本和待纠错文本对应的第一文本确定的,所以,第二文本实质上是针对待纠错文本改正后得到的文本,其对待纠错文本具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
在另一种情况下,待纠错文本有对应的原始文本,例如,在“汉译英”题目中,学生需要对中文的原始文本进行翻译,写出该中文原始文本对应的英语译文,此时,题目中给出的中文文本即为英语译文的原始文本。当然,待纠错文本也可以是针对其它语种的翻译,例如“英译汉”等等。
在该情况下,第一文本与原始文本的语种相同,进而,本申请实施例可以先确定第一文本与原始文本之间的文本相似度,然后基于预先设置的融合翻译网络、第一文本、原始文本、待纠错文本和文本相似度,对第一文本进行融合翻译,确定第二文本。
具体的,上述机器纠错方法还可以包括:获取待纠错文本对应的原始文本。
其中,原始文本与第一文本的语种相同。
在获取待纠错文本对应的原始文本之后,步骤23可以执行为:确定第一文本与原始文本之间的文本相似度,以及基于预先设置的融合翻译网络、第一文本、原始文本、待纠错文本和文本相似度,对第一文本进行融合翻译,确定第二文本。
如图4所示,图4为本申请实施例提供的另一种机器纠错方法的流程图。
在获取待纠错文本41后,可以通过中间翻译网络42对待纠错文本41进行翻译,确定第一文本43,其中,第一文本43是与待纠错文本语种不同的文本。
在确定第一文本43后,可以将第一文本43与第一文本43对应的原始文本44输入文本相似度单元,以确定第一文本43和原始文本44之间的文本相似度46。
在一种可选的实施方式中,文本相似度可以基于如下步骤确定:对第一文本进行特征提取,确定第一文本对应的第一文本特征向量,对原始文本进行特征提取,确定原始文本对应的原始文本特征向量,以及确定第一文本特征向量和原始文本特征向量之间的特征距离。
其中,特征距离用于表征第一文本与原始文本之间的文本相似度。特征距离可以为欧氏距离、曼哈顿距离或者余弦距离等等。
需要说明的,确定第一文本对应的第一文本特征向量的过程和确定原始文本对应的原始文本特征向量的过程可以是同步进行的步骤,也可以是异步进行的步骤,二者之间没有固定的执行顺序。
通过本申请实施例,第一文本和原始文本之间的文本相似度可以用于表征第一文本和原始文本之间的差异程度,该差异程度可以用于间接表征待纠错文本相较于原始文本的准确程度,进而,将文本相似度用于融合翻译过程可以提高融合翻译的精准度。
在另一种可选的实施方式中,文本相似度可以基于如下步骤确定:将第一文本和原始文本输入预先设置的语言统计模型,确定第一文本和原始文本之间的文本相似度。
其中,语言统计模型可以是n-gram模型,n-gram模型是大词汇连续语音识别中常用的一种语言模型,在本申请实施例中,n-gram模型可以基于对语音的统计,确定第一文本和原始文本之间的文本相似度。
通过本申请实施例,第一文本和原始文本之间的文本相似度可以用于表征第一文本和原始文本之间的差异程度,该差异程度可以用于间接表征待纠错文本相较于原始文本的准确程度,进而,将文本相似度用于融合翻译过程可以提高融合翻译的精准度。
如图4所示,在确定文本相似度46后,可以将待纠错文本41、第一文本43、原始文本44和文本相似度46输入融合翻译网络47,以确定第二文本48。
在一种可选的实施方式中,该过程可以执行为:基于预先设置的融合翻译网络、第一文本、原始文本、待纠错文本、文本相似度和第二预定翻译策略,对第一文本进行融合翻译,确定第二文本。
其中,第二预定翻译策略用于表征第一文本在融合翻译网络中的权重、原始文本在融合翻译网络中的权重、待纠错文本在融合翻译网络中的权重、文本相似度在融合翻译网络中的权重,以及第一文本、原始文本、待纠错文本和文本相似度在融合翻译网络中的拼接方式。
结合图3所述的内容,融合翻译网络可以是基于深度神经网络构建的翻译网络,在融合翻译网络中,每个输入神经元可以分别对应一个权重,该权重可以通过权重系数的形式参与融合翻译网络的处理过程,其中,每个输入神经元的权重可以通过对第二预定翻译策略的配置而改变。也就是说,通过对每个输入神经元设置权重,可以改变各输入数据(例如第一文本、原始文本、待纠错文本或者文本相似度)的权重,从而改变各输入数据在融合翻译过程中的重要程度。
另外,各个神经元之间的连接方式也可以通过对第二预定翻译策略的配置而改变。也就是说,通过改变各个神经元之间的连接方式,可以改变各个输入数据之间的拼接方式,从而影响各输入数据在融合翻译过程中的重要程度。
在一种可选的实施方式中,在将待纠错文本、第一文本、原始文本和文本相似度输入融合翻译网络之前,可以对各输入数据进行数据预处理。具体的,该过程可以执行为:对第一文本、原始文本、待纠错文本和文本相似度进行数据预处理。
其中,数据预处理至少包括特征提取。具体的,由于第一文本、原始文本和待纠错文本为文本类的数据,所以,针对第一文本、原始文本、待纠错文本,可以进行特征提取预处理,由于文本相似度是数值类的数据,所以可以对文本相似度进行归一化预处理,使得文本相似度更易于处理。其中,归一化处理一般用于对数值类数据(例如文本相似度)进行预处理,具体的,通过归一化处理,可以将数值类数据映射到(0,1)之间,以使得可以更加便捷快速的处理数值类数据。
通过本申请实施例,可以通过待纠错文本、第一文本、原始文本以及文本相似度,确定与待纠错文本同语种的第二文本,其中,该第二文本可以作为针对待纠错文本的正确答案。由于第二文本是基于待纠错文本、第一文本、原始文本以及文本相似度确定的,所以,第二文本实质上是针对待纠错文本改正后得到的文本,其对待纠错文本具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
在线上教育场景中,当学生输入答题结果(待纠错文本)后,电子设备可以基于上述机器纠错方法确定该答题结果对应的第二文本(即针对该答题结果的正确答案)。在确定第二文本后,可以针对第二文本进行显示操作,该过程可以执行为:在预定显示界面显示第二文本。
例如,如图5所示,图5是本申请实施例提供的一种显示界面的示意图,其中,该显示界面为上述预定显示界面,在该显示界面中,包括“题目”、“你的答案”和“正确答案”3个部分。
其中,“题目”部分也即原始文本,“你的答案”部分也即待纠错文本,“正确答案”部分也即第二文本。
由图5可知,当学生输入答题结果(即待纠错文本)后,本申请实施例可以根据学生输入的答题结果确定该答题结果对应的正确答案(即第二文本),然后,本申请实施例可以将第二文本显示先预定显示界面。
再例如,如图6所示,图6是本申请实施例提供的另一种显示界面的示意图,其中,该显示界面为上述预定显示界面,在该显示界面中,包括“题目”、“你的答案”和“正确答案”3个部分。
其中,“题目”部分也即原始文本,“你的答案”部分也即待纠错文本,“正确答案”部分也即第二文本。
由图6可知,当学生输入答题结果(即待纠错文本)后,本申请实施例可以根据学生输入的答题结果确定该答题结果对应的正确答案(即第二文本),然后,本申请实施例可以将第二文本显示先预定显示界面。
结合图5和图6所示的内容,在本申请实施例中,即使给出的题目相同,本申请实施例也可以针对不同的待纠错文本确定不同的第二文本,这样,可以使得在线批改时具有较好的针对性。
基于相同的技术构思,本申请实施例还提供了一种机器纠错装置,如图7所示,该装置包括:获取模块71、中间翻译模块72和融合翻译模块73。
获取模块71,用于获取待纠错文本。
中间翻译模块72,用于基于预先设置的中间翻译网络,对所述待纠错文本进行翻译,确定所述待纠错文本对应的第一文本。
融合翻译模块73,用于至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,所述第二文本与所述待纠错文本的语种相同。
可选的,所述装置还包括:
原始文本模块,用于获取所述待纠错文本对应的原始文本,所述原始文本与所述第一文本的语种相同。
所述融合翻译模块73,具体用于:
确定所述第一文本与所述原始文本之间的文本相似度。
基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度,对所述第一文本进行融合翻译,确定第二文本。
可选的,所述融合翻译模块73,具体用于:
对所述第一文本进行特征提取,确定所述第一文本对应的第一文本特征向量。
对所述原始文本进行特征提取,确定所述原始文本对应的原始文本特征向量。
确定所述第一文本特征向量和所述原始文本特征向量之间的特征距离,所述特征距离用于表征所述第一文本与所述原始文本之间的文本相似度。
可选的,所述融合翻译模块73,具体用于:
将所述第一文本和所述原始文本输入预先设置的语言统计模型,确定所述第一文本和所述原始文本之间的文本相似度。
可选的,所述融合翻译模块73,具体用于:
基于预先设置的融合翻译网络、所述第一文本、所述待纠错文本和第一预定翻译策略,对所述第一文本进行融合翻译,确定第二文本。
其中,所述第一预定翻译策略用于表征所述第一文本在所述融合翻译网络中的权重、所述待纠错文本在所述融合翻译网络中的权重、所述第一文本和所述待纠错文本在所述融合翻译网络中的拼接方式。
可选的,所述融合翻译模块73,具体用于:
基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本、所述文本相似度和第二预定翻译策略,对所述第一文本进行融合翻译,确定第二文本。
其中,所述第二预定翻译策略用于表征所述第一文本在所述融合翻译网络中的权重、所述原始文本在所述融合翻译网络中的权重、所述待纠错文本在所述融合翻译网络中的权重、所述文本相似度在所述融合翻译网络中的权重,以及所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度在所述融合翻译网络中的拼接方式。
可选的,所述融合翻译网络基于深度神经网络构建;
所述装置还包括:
数据预处理模块,用于对所述第一文本和所述待纠错文本进行数据预处理,或者,对所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度进行数据预处理,所述数据预处理至少包括特征提取。
可选的,所述装置还包括:
显示模块,用于在预定显示界面显示所述第二文本。
通过本申请实施例,可以至少通过待纠错文本以及待纠错文本对应的译文(第一文本)确定与待纠错文本同语种的第二文本,其中,该第二文本可以作为针对待纠错文本的正确答案。由于第二文本是至少基于上述待纠错文本和待纠错文本对应的第一文本确定的,所以,第二文本实质上是针对待纠错文本改正后得到的文本,其对待纠错文本具有针对性,也就是说,通过本申请实施例,可以针对不同的待纠错文本给出不同的第二文本,使得在线批改时具有较好的针对性。
图8是本申请实施例的电子设备的示意图。如图8所示,图8所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本申请实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本申请的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域技术人员而言,本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种机器纠错方法,其特征在于,所述方法包括:
获取待纠错文本;
基于预先设置的中间翻译网络,对所述待纠错文本进行翻译,确定所述待纠错文本对应的第一文本;以及
至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,所述第二文本与所述待纠错文本的语种相同。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待纠错文本对应的原始文本,所述原始文本与所述第一文本的语种相同;
所述至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,包括:
确定所述第一文本与所述原始文本之间的文本相似度;以及
基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度,对所述第一文本进行融合翻译,确定第二文本。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一文本与所述原始文本之间的文本相似度,包括:
对所述第一文本进行特征提取,确定所述第一文本对应的第一文本特征向量;
对所述原始文本进行特征提取,确定所述原始文本对应的原始文本特征向量;以及
确定所述第一文本特征向量和所述原始文本特征向量之间的特征距离,所述特征距离用于表征所述第一文本与所述原始文本之间的文本相似度。
4.根据权利要求2所述的方法,其特征在于,所述确定所述第一文本与所述原始文本之间的文本相似度,包括:
将所述第一文本和所述原始文本输入预先设置的语言统计模型,确定所述第一文本和所述原始文本之间的文本相似度。
5.根据权利要求1所述的方法,其特征在于,所述至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,包括:
基于预先设置的融合翻译网络、所述第一文本、所述待纠错文本和第一预定翻译策略,对所述第一文本进行融合翻译,确定第二文本;
其中,所述第一预定翻译策略用于表征所述第一文本在所述融合翻译网络中的权重、所述待纠错文本在所述融合翻译网络中的权重、所述第一文本和所述待纠错文本在所述融合翻译网络中的拼接方式。
6.根据权利要求2所述的方法,其特征在于,所述基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度,对所述第一文本进行融合翻译,确定第二文本,包括:
基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本、所述文本相似度和第二预定翻译策略,对所述第一文本进行融合翻译,确定第二文本;
其中,所述第二预定翻译策略用于表征所述第一文本在所述融合翻译网络中的权重、所述原始文本在所述融合翻译网络中的权重、所述待纠错文本在所述融合翻译网络中的权重、所述文本相似度在所述融合翻译网络中的权重,以及所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度在所述融合翻译网络中的拼接方式。
7.根据权利要求5或6所述的方法,其特征在于,所述融合翻译网络基于深度神经网络构建;
所述方法还包括:
对所述第一文本和所述待纠错文本进行数据预处理,或者,对所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度进行数据预处理,所述数据预处理至少包括特征提取。
8.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在预定显示界面显示所述第二文本。
9.一种机器纠错装置,其特征在于,所述装置包括:
获取模块,用于获取待纠错文本;
中间翻译模块,用于基于预先设置的中间翻译网络,对所述待纠错文本进行翻译,确定所述待纠错文本对应的第一文本;以及
融合翻译模块,用于至少基于预先设置的融合翻译网络、所述第一文本和所述待纠错文本,对所述第一文本进行融合翻译,确定第二文本,所述第二文本与所述待纠错文本的语种相同。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
原始文本模块,用于获取所述待纠错文本对应的原始文本,所述原始文本与所述第一文本的语种相同;
所述融合翻译模块,具体用于:
确定所述第一文本与所述原始文本之间的文本相似度;以及
基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度,对所述第一文本进行融合翻译,确定第二文本。
11.根据权利要求10所述的装置,其特征在于,所述融合翻译模块,具体用于:
对所述第一文本进行特征提取,确定所述第一文本对应的第一文本特征向量;
对所述原始文本进行特征提取,确定所述原始文本对应的原始文本特征向量;以及
确定所述第一文本特征向量和所述原始文本特征向量之间的特征距离,所述特征距离用于表征所述第一文本与所述原始文本之间的文本相似度。
12.根据权利要求10所述的装置,其特征在于,所述融合翻译模块,具体用于:
将所述第一文本和所述原始文本输入预先设置的语言统计模型,确定所述第一文本和所述原始文本之间的文本相似度。
13.根据权利要求9所述的装置,其特征在于,所述融合翻译模块,具体用于:
基于预先设置的融合翻译网络、所述第一文本、所述待纠错文本和第一预定翻译策略,对所述第一文本进行融合翻译,确定第二文本;
其中,所述第一预定翻译策略用于表征所述第一文本在所述融合翻译网络中的权重、所述待纠错文本在所述融合翻译网络中的权重、所述第一文本和所述待纠错文本在所述融合翻译网络中的拼接方式。
14.根据权利要求10所述的装置,其特征在于,所述融合翻译模块,具体用于:
基于预先设置的融合翻译网络、所述第一文本、所述原始文本、所述待纠错文本、所述文本相似度和第二预定翻译策略,对所述第一文本进行融合翻译,确定第二文本;
其中,所述第二预定翻译策略用于表征所述第一文本在所述融合翻译网络中的权重、所述原始文本在所述融合翻译网络中的权重、所述待纠错文本在所述融合翻译网络中的权重、所述文本相似度在所述融合翻译网络中的权重,以及所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度在所述融合翻译网络中的拼接方式。
15.根据权利要求13或14所述的装置,其特征在于,所述融合翻译网络基于深度神经网络构建;
所述装置还包括:
数据预处理模块,用于对所述第一文本和所述待纠错文本进行数据预处理,或者,对所述第一文本、所述原始文本、所述待纠错文本和所述文本相似度进行数据预处理,所述数据预处理至少包括特征提取。
16.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
显示模块,用于在预定显示界面显示所述第二文本。
17.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。
CN202110298083.7A 2021-03-19 2021-03-19 机器纠错方法、装置、电子设备和可读存储介质 Active CN113051937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110298083.7A CN113051937B (zh) 2021-03-19 2021-03-19 机器纠错方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110298083.7A CN113051937B (zh) 2021-03-19 2021-03-19 机器纠错方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN113051937A true CN113051937A (zh) 2021-06-29
CN113051937B CN113051937B (zh) 2024-07-23

Family

ID=76513893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110298083.7A Active CN113051937B (zh) 2021-03-19 2021-03-19 机器纠错方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113051937B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804428A (zh) * 2018-06-12 2018-11-13 苏州大学 一种译文中术语错译的纠正方法、系统及相关装置
CN109033091A (zh) * 2017-06-08 2018-12-18 松下知识产权经营株式会社 翻译信息提供方法、程序以及装置
US20190213261A1 (en) * 2018-01-09 2019-07-11 Panasonic Intellectual Property Management Co., Ltd. Translation device, translation method, and recording medium
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质
CN111950301A (zh) * 2020-08-25 2020-11-17 莱芜职业技术学院 一种中译英的英语译文质量分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033091A (zh) * 2017-06-08 2018-12-18 松下知识产权经营株式会社 翻译信息提供方法、程序以及装置
US20190213261A1 (en) * 2018-01-09 2019-07-11 Panasonic Intellectual Property Management Co., Ltd. Translation device, translation method, and recording medium
CN108804428A (zh) * 2018-06-12 2018-11-13 苏州大学 一种译文中术语错译的纠正方法、系统及相关装置
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质
CN111950301A (zh) * 2020-08-25 2020-11-17 莱芜职业技术学院 一种中译英的英语译文质量分析方法及系统

Also Published As

Publication number Publication date
CN113051937B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
CN111310440B (zh) 文本的纠错方法、装置和系统
CN109817201B (zh) 一种语言学习方法、装置、电子设备及可读存储介质
CN104933158B (zh) 数学问题求解模型的训练方法和装置、推理方法和装置
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN114841164A (zh) 一种实体链接方法、装置、设备及存储介质
CN106649294B (zh) 一种分类模型的训练及其从句识别方法和装置
CN117252217A (zh) 一种翻译文本的校验方法和相关装置
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
CN113705198B (zh) 场景图生成方法、装置、电子设备及存储介质
CN113673702B (zh) 一种预训练语言模型的评测方法、装置以及存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
CN113076736A (zh) 多维度的文本评分方法、装置、计算机设备及存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN113051937B (zh) 机器纠错方法、装置、电子设备和可读存储介质
CN113850235B (zh) 一种文本处理方法、装置、设备及介质
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN116806338A (zh) 确定和利用辅助语言熟练度量度
CN114035796A (zh) 检测多语言代码编程规范的在线判题方法、装置及介质
CN102955842A (zh) 一种多特征融合识别中文机构名的控制方法
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品
CN108304362B (zh) 一种从句检测方法及装置
Thaiprasert et al. Development of a Class Materials Search System using LINE Chatbot
CN110929504A (zh) 语句诊断方法、装置和系统
He Automatic detection of grammatical errors in english verbs based on rnn algorithm: auxiliary objectives for neural error detection models
CN117313754B (zh) 智能翻译方法、装置以及翻译机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant