CN112183117A - 一种翻译评价的方法、装置、存储介质及电子设备 - Google Patents

一种翻译评价的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112183117A
CN112183117A CN201910517820.0A CN201910517820A CN112183117A CN 112183117 A CN112183117 A CN 112183117A CN 201910517820 A CN201910517820 A CN 201910517820A CN 112183117 A CN112183117 A CN 112183117A
Authority
CN
China
Prior art keywords
text
translated
translation
determining
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910517820.0A
Other languages
English (en)
Other versions
CN112183117B (zh
Inventor
王强
王永杰
李若冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Liulishuo Information Technology Co ltd
Original Assignee
Shanghai Liulishuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Liulishuo Information Technology Co ltd filed Critical Shanghai Liulishuo Information Technology Co ltd
Priority to CN201910517820.0A priority Critical patent/CN112183117B/zh
Publication of CN112183117A publication Critical patent/CN112183117A/zh
Application granted granted Critical
Publication of CN112183117B publication Critical patent/CN112183117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种翻译评价的方法、装置、存储介质及电子设备,其中,该方法包括:获取源语言的原始文本,以及用户输入的目标语言的翻译文本;根据原始文本生成目标语言的多个参考文本;确定翻译文本与参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本;提取翻译文本的特征信息,将特征信息作为预设的评价模型的输入,基于评价模型确定翻译文本的评价值。通过本发明实施例提供的翻译评价的方法、装置、存储介质及电子设备,基于多元相似值可以更加准确地确定翻译文本与参考文本之间的相似度;通过多个参考文本来对用户输入的翻译文本进行评价,评价结果可以更加准确。

Description

一种翻译评价的方法、装置、存储介质及电子设备
技术领域
本发明涉及翻译评价的技术领域,具体而言,涉及一种翻译评价的方法、装置、存储介质及电子设备。
背景技术
目前,一些语言教学类应用程序能够对用户输入的翻译文本或语发音进行评测打分,可以给用户一个直观的分数反馈,以帮助用户尽快定位到薄弱位置。
传统打分方式一般是通过比较用户输入的句子与标准句子的关键词是否相同进行打分,但是由于源语言翻译为目标语言的复杂多样性,翻译方式多种多样,导致传统打分方式的结果不一定准确,即用户的翻译结果即使很好,也可能被评为一个较低的分数,导致打分结果错误。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种翻译评价的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种翻译评价的方法,包括:
获取源语言的原始文本,以及用户针对所述原始文本输入的目标语言的翻译文本;
根据所述原始文本生成所述目标语言的多个参考文本;
确定所述翻译文本与所述参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本;
提取所述翻译文本的特征信息,所述特征参数包括所述翻译文本与所述有效参考文本之间的差别信息;
将所述特征信息作为预设的评价模型的输入,基于所述评价模型确定所述翻译文本的评价值。
在一种可能的实现方式中,所述根据所述原始文本生成所述目标语言的多个参考文本包括:
获取预先设置的与所述原始文本相对应的目标语言的预设文本,并将所述预设文本作为参考文本;
确定所述原始文本的近义词,并根据所述近义词排列生成参考文本;其中,所述近义词包括在目标语言中与所述原始文本的分词语义相近的词或词组,或者与所述预设文本的分词语义相近的词或词组。
在一种可能的实现方式中,所述确定所述翻译文本与所述参考文本之间的多元相似值包括:
对所述翻译文本进行分词处理,确定所述翻译文本的分词,并将所述翻译文本的n个连续的分词组成所述翻译文本的第一n元参数;对所述参考文本进行分词处理,确定所述参考文本的分词,并将所述参考文本的n个连续的分词组成所述参考文本的第二n元参数;其中,n为正整数;
根据所有的所述第一n元参数和所有的所述第二n元参数确定所述翻译文本与所述参考文本之间的n元相似值,并基于所有的n元相似值生成所述翻译文本与所述参考文本之间的多元相似值;
其中,n元相似值Fn为:
Figure BDA0002095579210000021
β为预设的平衡参数,
Figure BDA0002095579210000022
Figure BDA0002095579210000023
表示与至少一个所述第二n元参数之间的相似度不小于第一预设阈值的第一n元参数的数量,
Figure BDA0002095579210000024
表示所述第一n元参数的总数量;
Figure BDA0002095579210000025
表示与至少一个所述第一n元参数之间的相似度不小于第二预设阈值的第二n元参数的数量,
Figure BDA0002095579210000026
表示所述第二n元参数的总数量。
在一种可能的实现方式中,所述提取所述翻译文本的特征信息,包括:
对所述翻译文本进行预处理,提取预处理后的翻译文本的特征信息;
其中,对所述翻译文本进行预处理包括:
确定所述翻译文本的分词、句法树和时态信息,根据所述句法树去除所述翻译文本中的无效分词,将保留的分词和所述时态信息作为预处理后的翻译文本。
在一种可能的实现方式中,在所述基于所述评价模型确定所述翻译文本的评价值之后,该方法还包括:
根据所述翻译文本与所述有效参考文本之间的差别信息生成对所述翻译文本的修改建议。
在一种可能的实现方式中,所述特征参数还包括所述翻译文本的目标语言模型评分、语法错误信息、非法词汇信息中的一种或多种。
第二方面,本发明实施例还提供了一种翻译评价的装置,包括:
获取模块,用于获取源语言的原始文本,以及用户针对所述原始文本输入的目标语言的翻译文本;
参考文本生成模块,用于根据所述原始文本生成所述目标语言的多个参考文本;
相似值确定模块,用于确定所述翻译文本与所述参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本;
特征提取模块,用于提取所述翻译文本的特征信息,所述特征参数包括所述翻译文本与所述有效参考文本之间的差别信息;
评价模块,用于将所述特征信息作为预设的评价模型的输入,基于所述评价模型确定所述翻译文本的评价值。
在一种可能的实现方式中,所述参考文本生成模块包括:
预设文本确定单元,用于获取预先设置的与所述原始文本相对应的目标语言的预设文本,并将所述预设文本作为参考文本;
参考文本扩展单元,用于确定所述原始文本的近义词,并根据所述近义词排列生成参考文本;其中,所述近义词包括在目标语言中与所述原始文本的分词语义相近的词或词组,或者与所述预设文本的分词语义相近的词或词组。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的翻译评价的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的翻译评价的方法。
本发明实施例上述第一方面提供的方案中,根据原始文本生成多个参考文本,之后再基于多元相似值从中选取出有效参考文本,将该有效参考文本作为基准对用户提交的翻译文本进行评价。该方式基于多元相似值可以更加准确地确定翻译文本与参考文本之间的相似度;通过多个参考文本来对用户输入的翻译文本进行评价,评价结果可以更加准确。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种翻译评价的方法的流程图;
图2示出了本发明实施例所提供的翻译评价的方法中,根据原始文本生成目标语言的多个参考文本的具体方法的流程图;
图3示出了本发明实施例所提供的一种翻译评价的装置的结构示意图;
图4示出了本发明实施例所提供的用于执行翻译评价的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种翻译评价的方法,用于对用户的翻译结果进行评价。参见图1所示,该方法包括:
步骤101:获取源语言的原始文本,以及用户针对原始文本输入的目标语言的翻译文本。
本发明实施例中,“源语言”指的是翻译场景中翻译前原始的语言,“目标语言”指的是翻译后的语言,即通过翻译的方式由源语言引导出目标语言。例如,当前需要将汉语翻译成英语,则汉语为源语言,英语为目标语言。
本实施例中的原始文本即为需要翻译的文本,可通过屏幕显示或语音播放的方式将该原始文本提供给用户,供用户进行翻译;当用户看到或听到原始文本之后,即能够以目标语言的方式输入相应的翻译文本,用户输入翻译文本的方式可以是文本输入,也可以是语音输入,本实施例对此不做限定。例如,当前场景为中翻英,原始文本为汉语的“我喜欢吃苹果”,用户可以输入翻译文本“I like eat apple”。
步骤102:根据原始文本生成目标语言的多个参考文本。
本发明实施例中,参考文本为系统生成的与该原始文本相对应的目标语言文本,即标准的翻译答案。由于源语言翻译为目标语言的复杂多样性,仅仅将一个参考文本作为标准答案会导致后续评价不准确的问题,本实施例中生成多个参考文本,通过多个参考文本来对用户输入的翻译文本进行评价,评价结果可以更加准确。
步骤103:确定翻译文本与参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本。
本发明实施例中,从多个参考文本中选取出一个与翻译文本最相近的文本,即有效参考文本,基于该有效参考文本对用户的翻译文本进行评价。具体的,本实施例基于翻译文本与参考文本之间的多元相似值来作为二者之间的相似度,进而可以确定与翻译文本最相近的参考文本。其中,该多元相似值指的是基于多元模型或多元参数确定的相似值、或者基于多个相似值综合确定的数值,多元相似值本质上仍然是一种相似度。基于多元相似值可以更加准确地确定翻译文本与参考文本之间的相似度。
步骤104:提取翻译文本的特征信息,特征参数包括翻译文本与有效参考文本之间的差别信息。
步骤105:将特征信息作为预设的评价模型的输入,基于评价模型确定翻译文本的评价值。
本发明实施例中,在确定有效参考文本之后,即可将翻译文本与有效参考文本之间的差别信息作为特征信息,进而对翻译文本的翻译质量进行评价。其中,翻译文本与有效参考文本之间的差别信息指的是对二者进行比较后所确定的二者之间的不同,例如,翻译文本是“I like eat apple”,有效参考文本是“I like have apple”,则二者之间的区别信息在于“吃”这个动词上,翻译文本用的是“eat”,有效参考文本中是“have”。同时,本实施例中通过评价模型来对翻译文本进行评价,确定相应的评价值。其中,该评价模型是预先训练好的模型,评价模型具体可以为分类模型,将不同的评价值作为一个类别进行输出。例如,评价模型可以为梯度提升决策树分类器,将上述特征信息输入到该分类器后可以得到1到10分的概率,选取概率最大的分数作为最终确定的评价值。
可选的,该特征参数还可以包括其他特征。本实施例中,该特征信息还包括:翻译文本的目标语言模型评分、语法错误信息、非法词汇信息中的一种或多种。综合多种特征信息可以更加准确的对翻译文本进行评分。
本发明实施例提供的一种翻译评价的方法,根据原始文本生成多个参考文本,之后再基于多元相似值从中选取出有效参考文本,将该有效参考文本作为基准对用户提交的翻译文本进行评价。该方式基于多元相似值可以更加准确地确定翻译文本与参考文本之间的相似度;通过多个参考文本来对用户输入的翻译文本进行评价,评价结果可以更加准确。
在上述实施例的基础上,参见图2所示,上述步骤102“根据原始文本生成目标语言的多个参考文本”包括:
步骤1021:获取预先设置的与原始文本相对应的目标语言的预设文本,并将预设文本作为参考文本。
本发明实施例中,该预设文本可以是系统预先设置的,预设文本的数量可以是一个,也可以是多个。例如在中翻英场景中,原始文本是“我喜欢吃苹果”,若认为标准的翻译为“I like eat apple”,则可以将“I like eat apple”作为预设文本,且该预设文本也是一个参考文本。或者,还可以基于现有的翻译模型或者翻译记录来提取出原始文本对应的目标语言文本,即预设文本。例如,从中翻英模型n-best中收取可能翻译结果作为预设文本。
步骤1022:确定原始文本的近义词,并根据近义词排列生成参考文本;其中,近义词包括在目标语言中与原始文本的分词语义相近的词或词组,或者与预设文本的分词语义相近的词或词组。
本发明实施例中,可以对原始文本进行分词,之后确定目标语言中与原始文本的分词语义相近的词或词组,并将该词或词组作为原始文本的近义词。例如,“喜欢”是原始文本的一个分词,在中翻英场景中,目标语言为英语,与“喜欢”语义相近的英文可以是“like”、“love”、“be fond of”等,则上述英文词均可以作为原始文本的近义词。
或者,在确定预设文本之后,也可以基于该预设文本进行扩展,从而可以生成更多的参考文本。具体的,对预设文本进行分词处理,将与预设文本的分词语义相近的词或词组作为原始文本的近义词。例如,预设文本为“I like eat apple”,其中的分词“like”的近义词包含“love”、“be fond of”等,“eat”的近义词有“have”、“take”等。在确定原始文本的近义词之后即可排列组合得到更多的参考答案。本领域技术人员可以理解,由于排列组合出来的文本中可能存在不常用的描述,此时可以剔除这些不常用甚至错误的文本,以提高最终确定的参考文本的质量。例如,一般英文中不会说“I love eat apple”或者“I liketake apple”,此时即可将排列生成的问题剔除。
在上述实施例的基础上,步骤103“确定翻译文本与参考文本之间的多元相似值”具体包括:
步骤A1:对翻译文本进行分词处理,确定翻译文本的分词,并将翻译文本的n个连续的分词组成翻译文本的第一n元参数;对参考文本进行分词处理,确定参考文本的分词,并将参考文本的n个连续的分词组成参考文本的第二n元参数;其中,n为正整数。
本发明实施例中,多元相似值是基于多元模型确定的相似值。具体的,首先对翻译文本进行分词,然后确定翻译文本的多元参数,即第一n元参数;其中,该多元参数具体与选取的多元模型相关;若n=2,则多元模型为二元模型,此时的多元参数(此时为:二元参数)是由两个连续的分词组成的。例如,用户提交的翻译文本为“I like eat apple”,分词后确定四个连续的分词:“I”、“like”、“eat”、“apple”,此时将两个连续的分词可以组成一个第一n元参数,共3个第一n元参数:“I like”、“like eat”、“eat apple”。同理,若n=3,则确定的第一n元参数共两个,分别是:“I like eat”和“like eat apple”。同样的,对于参考文本,在分词后也可以确定相应的第二n元参数。其中,n为正整数,一般取值是1,2,3。
步骤A2:根据所有的第一n元参数和所有的第二n元参数确定翻译文本与参考文本之间的n元相似值,并基于所有的n元相似值生成翻译文本与参考文本之间的多元相似值;
其中,n元相似值Fn为:
Figure BDA0002095579210000091
β为预设的平衡参数,
Figure BDA0002095579210000092
Figure BDA0002095579210000093
表示与至少一个第二n元参数之间的相似度不小于第一预设阈值的第一n元参数的数量,
Figure BDA0002095579210000094
表示第一n元参数的总数量;
Figure BDA0002095579210000095
表示与至少一个第一n元参数之间的相似度不小于第二预设阈值的第二n元参数的数量,
Figure BDA0002095579210000096
表示第二n元参数的总数量。
本发明实施例中,在多元模型确定后(即n确定后),即可根据翻译文本的多元参数(即第一n元参数)和参考文本的多元参数(即第二n元参数)来确定在当前的多元模型下的相似值,即n元相似值;由于n可以取多个值,即存在多个n元相似值,在之后基于所有的n元相似值即可生成翻译文本与参考文本之间的多元相似值。其中,可以直接将所有的n元相似值的算数平均值、调和平均值等作为最终的多元相似值,也可以将所有的n元相似值的加权平均值作为最终的多元相似值,本实施例对此不做限定。例如,n取值为2和3,则可以先计算n=2时的相似值,即二元相似值;之后再计算n=3时的相似值,即三元相似值,最后基于上述的二元相似值和三元相似值确定翻译文本与参考文本之间的多元相似值。
此外,本申请中的n元相似值基于相似的第一n元参数和第二n元参数的比例(即Pn和Rn)来确定n元相似值。具体的,翻译文本共有
Figure BDA0002095579210000104
个第一n元参数,参考文本共有
Figure BDA0002095579210000103
个第二n元参数。对于翻译文本来说,计算第一n元参数与其他所有的第二n元参数之间的相似度,具体可采用简单比较的方式,也可采用其他方式,本实施例对此不做限定。若存在至少一个第二n元参数,其与第一n元参数之间的相似度大于第一预设阈值,则将该第一n元参数作为有效的第一n元参数,并统计所有有效的第一n元参数的数量,即
Figure BDA0002095579210000105
进而即可确定比值Pn,该比值Pn用户输入的翻译文本的正确率。
同样的,对于参考文本,可以计算第二n元参数与其他所有的第一n元参数之间的相似度(与上述的“第一n元参数与其他所有的第二n元参数之间的相似度”相同),进而将与至少一个第一n元参数之间的相似度不小于第二预设阈值的第二n元参数作为有效地第二n元参数,并统计其数量
Figure BDA0002095579210000101
计算得到比值Rn;该比值Rn表示该参数文本可以正确预测得到翻译文本的概率。之后即可基于Pn和Rn计算n元相似值。其中,平衡参数β用于平衡在计算n元相似值时Pn和Rn的权重;若β=1,则Pn和Rn的权重相同,即二者一样重要;若β<1,则Pn的的权重更大;若β>1,则Rn的权重更大。
下面通过一个例子详细介绍计算n元相似的的过程。为方便描述,以n=1为例说明。同时,一般选第一预设阈值和第二预设阈值均为1,即只有第一n元参数与第二n元参数完全相同时,才认为某个n元参数是有效的,此时,
Figure BDA0002095579210000102
具体的,假设翻译文本为“I like eat apple”,参考文本为“I like to haveapple”,则翻译文本有四个分词,由于n=1,相应的第一n元参数共有四个,即
Figure BDA0002095579210000111
四个第一n元参数分别为:“I”、“like”、“eat”、“apple”;同理,若参考文本有五个分词,第二n元参数为“I”、“like”、“to”、“have”、“apple”,且
Figure BDA0002095579210000112
由于第二n元参数中包含第一n元参数“I”,故第一n元参数“I”是一个有效的第一n元参数;同理可知四个第一n元参数均是有效的第一n元参数,即
Figure BDA0002095579210000113
Pn=1。同样的,可以确定Rn=0.8,之后即可确定相应的n元相似值。若用户输入的翻译文本与该参考文本完全相同,则Pn=Rn,此时的n元相似值Fn=1,其为最大值。基于n元相似值可以确定翻译文本与参考文本之间的相似度。
可选的,步骤104“提取翻译文本的特征信息”可以包括:对翻译文本进行预处理,提取预处理后的翻译文本的特征信息。
其中,对翻译文本进行预处理包括:确定翻译文本的分词、句法树和时态信息,根据句法树去除翻译文本中的无效分词,将保留的分词和时态信息作为预处理后的翻译文本。
本发明实施例中,句法树具体可以是成分句法树、依赖句法树等,时态信息表示该用户文本的时态,例如现在时、过去时等。通过对翻译文本进行预处理,可以剔除用户输入的无效信息(例如冠词、无用的副词等无效分词),方便后续进行分类和评价,可以提高处理效率。
在上述实施例的基础上,在步骤105“基于评价模型确定翻译文本的评价值”之后,该方法还包括:根据翻译文本与有效参考文本之间的差别信息生成对翻译文本的修改建议。
本发明实施例中,在基于有效参考文本对用户的翻译文本进行打分的同时,还基于该有效参考文本生成相应的修改建议,该修改建议对用户的翻译文本更具有针对性,方便用户纠正错误。
本发明实施例提供的一种翻译评价的方法,根据原始文本生成多个参考文本,之后再基于多元相似值从中选取出有效参考文本,将该有效参考文本作为基准对用户提交的翻译文本进行评价。该方式基于多元相似值可以更加准确地确定翻译文本与参考文本之间的相似度;通过多个参考文本来对用户输入的翻译文本进行评价,评价结果可以更加准确。基于n元相似值能够以相同的标准综合确定翻译文本与参考文本之间的多元相似值,计算标准更加统一且准确。
以上详细介绍了翻译评价的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种翻译评价的装置,参见图3所示,包括:
获取模块31,用于获取源语言的原始文本,以及用户针对所述原始文本输入的目标语言的翻译文本;
参考文本生成模块32,用于根据所述原始文本生成所述目标语言的多个参考文本;
相似值确定模块33,用于确定所述翻译文本与所述参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本;
特征提取模块34,用于提取所述翻译文本的特征信息,所述特征参数包括所述翻译文本与所述有效参考文本之间的差别信息;
评价模块35,用于将所述特征信息作为预设的评价模型的输入,基于所述评价模型确定所述翻译文本的评价值。
在上述实施例的基础上,所述参考文本生成模块32包括:
预设文本确定单元,用于获取预先设置的与所述原始文本相对应的目标语言的预设文本,并将所述预设文本作为参考文本;
参考文本扩展单元,用于确定所述原始文本的近义词,并根据所述近义词排列生成参考文本;其中,所述近义词包括在目标语言中与所述原始文本的分词语义相近的词或词组,或者与所述预设文本的分词语义相近的词或词组。
在上述实施例的基础上,所述相似值确定模块33包括:
参数确定单元,用于对所述翻译文本进行分词处理,确定所述翻译文本的分词,并将所述翻译文本的n个连续的分词组成所述翻译文本的第一n元参数;对所述参考文本进行分词处理,确定所述参考文本的分词,并将所述参考文本的n个连续的分词组成所述参考文本的第二n元参数;其中,n为正整数;
相似值确定单元,用于根据所有的所述第一n元参数和所有的所述第二n元参数确定所述翻译文本与所述参考文本之间的n元相似值,并基于所有的n元相似值生成所述翻译文本与所述参考文本之间的多元相似值;
其中,n元相似值Fn为:
Figure BDA0002095579210000131
β为预设的平衡参数,
Figure BDA0002095579210000132
Figure BDA0002095579210000133
表示与至少一个所述第二n元参数之间的相似度不小于第一预设阈值的第一n元参数的数量,
Figure BDA0002095579210000134
表示所述第一n元参数的总数量;
Figure BDA0002095579210000135
表示与至少一个所述第一n元参数之间的相似度不小于第二预设阈值的第二n元参数的数量,
Figure BDA0002095579210000136
表示所述第二n元参数的总数量。
在上述实施例的基础上,所述特征提取模块34用于:对所述翻译文本进行预处理,提取预处理后的翻译文本的特征信息;
其中,对所述翻译文本进行预处理包括:
确定所述翻译文本的分词、句法树和时态信息,根据所述句法树去除所述翻译文本中的无效分词,将保留的分词和所述时态信息作为预处理后的翻译文本。
在上述实施例的基础上,还包括修改模块;
在所述评价模块35基于所述评价模型确定所述翻译文本的评价值之后,所述修改模块用于:根据所述翻译文本与所述有效参考文本之间的差别信息生成对所述翻译文本的修改建议。
在上述实施例的基础上,所述特征参数还包括所述翻译文本的目标语言模型评分、语法错误信息、非法词汇信息中的一种或多种。
本发明实施例提供的一种翻译评价的装置,根据原始文本生成多个参考文本,之后再基于多元相似值从中选取出有效参考文本,将该有效参考文本作为基准对用户提交的翻译文本进行评价。该方式基于多元相似值可以更加准确地确定翻译文本与参考文本之间的相似度;通过多个参考文本来对用户输入的翻译文本进行评价,评价结果可以更加准确。基于n元相似值能够以相同的标准综合确定翻译文本与参考文本之间的多元相似值,计算标准更加统一且准确。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的翻译评价的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的翻译评价的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种翻译评价的方法,其特征在于,包括:
获取源语言的原始文本,以及用户针对所述原始文本输入的目标语言的翻译文本;
根据所述原始文本生成所述目标语言的多个参考文本;
确定所述翻译文本与所述参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本;
提取所述翻译文本的特征信息,所述特征参数包括所述翻译文本与所述有效参考文本之间的差别信息;
将所述特征信息作为预设的评价模型的输入,基于所述评价模型确定所述翻译文本的评价值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始文本生成所述目标语言的多个参考文本包括:
获取预先设置的与所述原始文本相对应的目标语言的预设文本,并将所述预设文本作为参考文本;
确定所述原始文本的近义词,并根据所述近义词排列生成参考文本;其中,所述近义词包括在目标语言中与所述原始文本的分词语义相近的词或词组,或者与所述预设文本的分词语义相近的词或词组。
3.根据权利要求1所述的方法,其特征在于,所述确定所述翻译文本与所述参考文本之间的多元相似值包括:
对所述翻译文本进行分词处理,确定所述翻译文本的分词,并将所述翻译文本的n个连续的分词组成所述翻译文本的第一n元参数;对所述参考文本进行分词处理,确定所述参考文本的分词,并将所述参考文本的n个连续的分词组成所述参考文本的第二n元参数;其中,n为正整数;
根据所有的所述第一n元参数和所有的所述第二n元参数确定所述翻译文本与所述参考文本之间的n元相似值,并基于所有的n元相似值生成所述翻译文本与所述参考文本之间的多元相似值;
其中,n元相似值Fn为:
Figure FDA0002095579200000021
β为预设的平衡参数,
Figure FDA0002095579200000022
Figure FDA0002095579200000023
表示与至少一个所述第二n元参数之间的相似度不小于第一预设阈值的第一n元参数的数量,
Figure FDA0002095579200000024
表示所述第一n元参数的总数量;
Figure FDA0002095579200000025
表示与至少一个所述第一n元参数之间的相似度不小于第二预设阈值的第二n元参数的数量,
Figure FDA0002095579200000026
表示所述第二n元参数的总数量。
4.根据权利要求1所述的方法,其特征在于,所述提取所述翻译文本的特征信息,包括:
对所述翻译文本进行预处理,提取预处理后的翻译文本的特征信息;
其中,对所述翻译文本进行预处理包括:
确定所述翻译文本的分词、句法树和时态信息,根据所述句法树去除所述翻译文本中的无效分词,将保留的分词和所述时态信息作为预处理后的翻译文本。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述基于所述评价模型确定所述翻译文本的评价值之后,还包括:
根据所述翻译文本与所述有效参考文本之间的差别信息生成对所述翻译文本的修改建议。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述特征参数还包括所述翻译文本的目标语言模型评分、语法错误信息、非法词汇信息中的一种或多种。
7.一种翻译评价的装置,其特征在于,包括:
获取模块,用于获取源语言的原始文本,以及用户针对所述原始文本输入的目标语言的翻译文本;
参考文本生成模块,用于根据所述原始文本生成所述目标语言的多个参考文本;
相似值确定模块,用于确定所述翻译文本与所述参考文本之间的多元相似值,并将与最大的多元相似值相对应的参考文本作为有效参考文本;
特征提取模块,用于提取所述翻译文本的特征信息,所述特征参数包括所述翻译文本与所述有效参考文本之间的差别信息;
评价模块,用于将所述特征信息作为预设的评价模型的输入,基于所述评价模型确定所述翻译文本的评价值。
8.根据权利要求7所述的装置,其特征在于,所述参考文本生成模块包括:
预设文本确定单元,用于获取预先设置的与所述原始文本相对应的目标语言的预设文本,并将所述预设文本作为参考文本;
参考文本扩展单元,用于确定所述原始文本的近义词,并根据所述近义词排列生成参考文本;其中,所述近义词包括在目标语言中与所述原始文本的分词语义相近的词或词组,或者与所述预设文本的分词语义相近的词或词组。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的翻译评价的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任意一项所述的翻译评价的方法。
CN201910517820.0A 2019-06-14 2019-06-14 一种翻译评价的方法、装置、存储介质及电子设备 Active CN112183117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517820.0A CN112183117B (zh) 2019-06-14 2019-06-14 一种翻译评价的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517820.0A CN112183117B (zh) 2019-06-14 2019-06-14 一种翻译评价的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112183117A true CN112183117A (zh) 2021-01-05
CN112183117B CN112183117B (zh) 2022-12-30

Family

ID=73914223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517820.0A Active CN112183117B (zh) 2019-06-14 2019-06-14 一种翻译评价的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112183117B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836529A (zh) * 2021-02-19 2021-05-25 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (ja) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体
CN101714136A (zh) * 2008-10-06 2010-05-26 株式会社东芝 将基于语料库的机器翻译系统适应到新领域的方法和装置
JP2013089116A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 最適翻訳文選択装置、翻訳文選択モデル学習装置、方法、及びプログラム
WO2014147674A1 (ja) * 2013-03-22 2014-09-25 パナソニック株式会社 広告翻訳装置、広告表示装置、および広告翻訳方法
WO2017035382A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for generation of candidate translations
US20180089169A1 (en) * 2016-09-27 2018-03-29 Panasonic Intellectual Property Management Co., Ltd. Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN109118109A (zh) * 2018-08-31 2019-01-01 传神语联网网络科技股份有限公司 基于etm的质量评估
CN109522564A (zh) * 2018-12-17 2019-03-26 北京百度网讯科技有限公司 语音翻译方法和装置
CN109858042A (zh) * 2018-11-20 2019-06-07 科大讯飞股份有限公司 一种翻译质量的确定方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (ja) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体
CN101714136A (zh) * 2008-10-06 2010-05-26 株式会社东芝 将基于语料库的机器翻译系统适应到新领域的方法和装置
JP2013089116A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 最適翻訳文選択装置、翻訳文選択モデル学習装置、方法、及びプログラム
WO2014147674A1 (ja) * 2013-03-22 2014-09-25 パナソニック株式会社 広告翻訳装置、広告表示装置、および広告翻訳方法
WO2017035382A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for generation of candidate translations
US20180089169A1 (en) * 2016-09-27 2018-03-29 Panasonic Intellectual Property Management Co., Ltd. Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN109118109A (zh) * 2018-08-31 2019-01-01 传神语联网网络科技股份有限公司 基于etm的质量评估
CN109858042A (zh) * 2018-11-20 2019-06-07 科大讯飞股份有限公司 一种翻译质量的确定方法及装置
CN109522564A (zh) * 2018-12-17 2019-03-26 北京百度网讯科技有限公司 语音翻译方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836529A (zh) * 2021-02-19 2021-05-25 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置
CN112836529B (zh) * 2021-02-19 2024-04-12 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置

Also Published As

Publication number Publication date
CN112183117B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
US20170242840A1 (en) Methods and systems for automated text correction
Wilcox-O’Hearn et al. Real-word spelling correction with trigrams: A reconsideration of the Mays, Damerau, and Mercer model
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US10665122B1 (en) Application of semantic vectors in automated scoring of examination responses
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US11372942B2 (en) Method, apparatus, computer device and storage medium for verifying community question answer data
JP6335898B2 (ja) 製品認識に基づく情報分類
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
US20070005345A1 (en) Generating Chinese language couplets
US11941361B2 (en) Automatically identifying multi-word expressions
CN111626042B (zh) 指代消解方法及装置
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
JP6830226B2 (ja) 換言文識別方法、換言文識別装置及び換言文識別プログラム
KR101745349B1 (ko) 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
CN111324831A (zh) 一种欺诈网站的检测方法及装置
CN116579327B (zh) 文本纠错模型训练方法、文本纠错方法、设备及存储介质
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
CN112380845B (zh) 句子噪声设计方法、设备及计算机存储介质
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
CN114444491A (zh) 新词识别方法和装置
Stehouwer Statistical language models for alternative sequence selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant