CN106776587A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN106776587A
CN106776587A CN201611179649.XA CN201611179649A CN106776587A CN 106776587 A CN106776587 A CN 106776587A CN 201611179649 A CN201611179649 A CN 201611179649A CN 106776587 A CN106776587 A CN 106776587A
Authority
CN
China
Prior art keywords
sentence
vocabulary
translated
technical terms
translation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611179649.XA
Other languages
English (en)
Inventor
田亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Technology (shenzhen) Co Ltd
Original Assignee
Information Technology (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Technology (shenzhen) Co Ltd filed Critical Information Technology (shenzhen) Co Ltd
Priority to CN201611179649.XA priority Critical patent/CN106776587A/zh
Publication of CN106776587A publication Critical patent/CN106776587A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种数据处理方法和装置。本发明提供的数据处理方法,包括:获取待翻译语句的参数信息,所述参数信息包括:所述待翻译语句中的第一专业术语词汇、和/或、所述待翻译语句对应的第一模板句,根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果;其中,所述参数库包括预设的专业术语词汇库和预设的模板库,所述专业术语词汇库包括不同的专业术语词汇与所述专业术语词汇的翻译结果,所述模板库包括不同的模板句与所述模板句的翻译结果。本发明提供的数据处理方法和装置,在对简历进行翻译时,翻译结果不仅准确,而且简洁。

Description

数据处理方法和装置
技术领域
本发明涉及计算机技术,尤其涉及一种数据处理方法和装置。
背景技术
随着经济全球化和国际交流的发展,越来越多的毕业生申请到外资企业实习或工作,因此,常需要将中文简历翻译成外文简历。
机器翻译是利用计算机对人类自然语言进行自动翻译的技术,是利用计算机把一种自然语言转换成另一种自然语言的过程。具体为:当客户输入一段文本信息之后,通过机器翻译直接对该文本信息进行翻译,从而获取到该文本信息对应的翻译结果。由于现代汉语词汇丰富,同样的一个词,在不同的语境中有可能表达的意思不尽相同,这就使结构短小但信息含量庞大的简历翻译有着极大的难度。当采用机器翻译的方法来对中文简历进行字对字、词对词地翻译时,存在翻译结果繁琐及翻译结果不准确的问题。
发明内容
本发明提供一种数据处理方法,以解决现有技术中的机器翻译方法对简历进行翻译时,存在的翻译结果繁琐及翻译结果不准确的问题。
本发明第一方面提供一种数据处理方法,本发明提供的数据处理方法,包括:
获取待翻译语句的参数信息,所述参数信息包括:所述待翻译语句中的第一专业术语词汇、和/或、所述待翻译语句对应的第一模板句;
根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果;其中,所述参数库包括预设的专业术语词汇库和预设的模板库,所述专业术语词汇库包括不同的专业术语词汇与所述专业术语词汇的翻译结果,所述模板库包括不同的模板句与所述模板句的翻译结果。
进一步地,若所述参数信息包括所述待翻译语句中的第一专业术语词汇和所述待翻译语句对应的第一模板句,所述根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果,具体包括:
根据所述专业术语词汇库,确定所述第一专业术语词汇对应的第一翻译结果;
根据所述模板库,确定所述第一模板句对应的第二翻译结果;
根据所述第一翻译结果和所述第二翻译结果的语义匹配度,确定所述待翻译语句的翻译结果。
进一步地,所述获取待翻译语句的参数信息,具体包括;
确定所述待翻译语句中的词汇与所述专业术语词汇库的专业术语词汇的第一匹配度;
当所述第一匹配度大于预设的第一匹配阈值时,确定所述词汇为第一专业术语词汇。
进一步地,所述获取待翻译语句的参数信息,具体包括;
确定所述待翻译语句与所述模板库的模板句的第二匹配度;
将第二匹配度大于预设的第二匹配阈值的模板句确定为所述待翻译语句对应的第一模板句。
进一步地,所述获取待翻译语句的参数信息之前,所述方法还包括:
预先建立所述专业术语词汇库和所述模板库。
进一步地,所述预先建立所述专业术语词汇库和所述模板库,具体包括:
根据预设的简历属性信息遍历多份简历,将与所述简历属性信息对应的词汇确定为专业术语词汇;
对所述专业术语词汇进行翻译处理,获得所述专业术语词汇的翻译结果;
根据所述专业术语词汇和所述专业术语词汇的翻译结果,得到所述专业术语词汇库。
本发明第二方面提供一种数据处理装置,包括:获取模块和处理模块,其中,
所述获取模块,用于获取待翻译语句的参数信息,其中,所述参数信息包括:所述待翻译语句中的第一专业术语词汇、和/或、所述待翻译语句对应的第一模板句;
所述处理模块,用于根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果;其中,所述参数库包括预设的专业术语词汇库和预设的模板库,所述专业术语词汇库包括不同的专业术语词汇与所述专业术语词汇的翻译结果,所述模板库包括不同的模板句与所述模板句的翻译结果。
进一步地,若所述参数信息包括所述待翻译语句中的第一专业术语词汇和所述待翻译语句对应的第一模板句,所述处理模块具体用于根据所述专业术语词汇库,确定所述第一专业术语词汇对应的第一翻译结果,并根据所述模板库,确定所述第一模板句对应的第二翻译结果,以及根据所述第一翻译结果和所述第二翻译结果的语义匹配度,确定所述待翻译语句的翻译结果。
进一步地,所述获取模块,具体用于确定所述待翻译语句中的词汇与所述专业术语词汇库的专业术语词汇的第一匹配度,并在所述第一匹配度大于预设的第一匹配阈值时,确定所述词汇为第一专业术语词汇。
进一步地,所述获取模块,具体用于确定所述待翻译语句与所述模板库的模板句的第二匹配度,并将第二匹配度大于预设的第二匹配阈值的模板句确定为所述待翻译语句对应的第一模板句。
进一步地,所述处理模块,还用于在所述获取模块获取待翻译语句的参数信息之前,预先建立所述专业术语词汇块和所述模板库。
进一步地,所述处理模块,具体用于根据预设的简历属性信息遍历多份简历,将与所述简历属性信息对应的词汇确定为专业术语词汇,并对所述专业术语词汇进行翻译处理,获得所述专业术语词汇的翻译结果,以及根据所述专业术语词汇和所述专业术语词汇的翻译结果,得到所述专业术语词汇库。
本发明提供的数据处理方法和装置,通过获取待翻译语句的参数信息,其中,上述参数信息包括:上述待翻译语句中的第一专业术语词汇、和/或、上述待翻译语句对应的第一模板句,进而根据上述参数信息和预设的参数库,确定上述待翻译语句的翻译结果;其中,上述参数库包括预设的专业术语词汇库和预设的模板库,上述专业术语词汇库包括不同的专业术语词汇与上述专业术语词汇的翻译结果,上述模板库包括不同的模板句与上述模板句的翻译结果。这样,可提高翻译结果的准确度,并避免现有的翻译方法存在的翻译结果繁琐的问题,使得翻译结果简洁,符合简历翻译的要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据处理方法实施例一的流程图;
图2为本发明数据处理方法实施例二的流程图;
图3为本发明数据处理方法实施例三的流程图;
图4为本发明数据处理方法实施例四的流程图;
图5为本发明数据处理方法实施例五的流程图;
图6为本发明数据处理装置实施例一的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种数据处理方法,以解决现有技术中的机器翻译方法对简历进行翻译时,存在的翻译结果繁琐及翻译结果不准确的问题。
本发明提供的数据处理方法,可应用于机器翻译领域,具体地,可应用本发明提供的数据处理方法,将中文简历翻译为以另一种语言编辑的简历,例如,将中文简历翻译为英文简历。
图1为本发明数据处理方法实施例一的流程图。本实施例涉及的是获取待翻译语句的参数信息,进而根据参数信息和预设的参数库确定待翻译语句的翻译结果的具体过程。本实施例的执行主体可以是单独的数据处理装置,还可以是集成了数据处理装置的其他设备,例如,可以是集成了数据处理装置的计算机或集成了数据处理装置的终端等。本发明实施例以执行主体为集成了数据处理装置的计算机为例来进行说明。如图1所示,本实施例提供的数据处理方法,可以包括:
S101、获取待翻译语句的参数信息,上述参数信息包括:上述待翻译语句中的第一专业术语词汇、和/或、上述待翻译语句对应的第一模板句。
需要说明的是,待翻译语句可以是已经经过标记的语句。具体地,例如,可以是,待翻译语句中的某些词汇已经被标记为专业术语词汇、和/或、待翻译语句已经被标记为模板句。例如,待翻译语句A为:就读于陕西省西安市西安科技大学计算机科学与技术专业,在该待翻译语句A中,已经将以下词汇标记为专业术语词汇:陕西、西安、西安科技大学、计算机科学与技术。此时,可以根据标记信息将上述词汇从待翻译语句A中提取出来,得到待翻译语句A中的第一专业术语词汇。再例如,待翻译语句B为:精通听、说、度、写,该待翻译语句B也为已经标记过的语句,具体地,该待翻译语句B被标记为模板句,此时,则可以根据标记信息,获取到待翻译语句B对应的第一模板句,其中,待翻译语句B对应的第一模板句为:_听、说、读、写。需要说明的是,若待翻译语句中的部分词汇已经被标记为专业术语词汇,且待翻译语句也已经被标记为模板句,此时,则根据标记信息,即可以获取到待翻译语句中的第一专业术语词汇,也可以获取到待翻译语句对应的第一模板句。
当然,待翻译语句也可以是未经过标记的语句,此时,则需要将待翻译语句与预设的参数库进行匹配,根据待翻译语句与预设的参数库的匹配度提取出待翻译语句中的第一专业术语词汇、和/或、待翻译语句对应的第一模板句子。具体地,关于待翻译语句与预设的参数库的具体匹配过程将在下面的实施例详细介绍,此处不再赘述。
S102、根据上述参数信息和预设的参数库,确定上述待翻译语句的翻译结果;其中,上述参数库包括预设的专业术语词汇库和预设的模板库,上述专业术语词汇库包括不同的专业术语词汇与上述专业术语词汇的翻译结果,上述模板库包括不同的模板句与上述模板句的翻译结果。
具体地,结合上面的例子,当获取到待翻译语句中的第一专业术语、和/或、待翻译语句对应的第一模板句时,可以根据预设的参数库,确定待翻译语句的翻译结果。例如,针对待翻译语句A,当通过步骤S101,获取到待翻译语句A中的第一专业术语词汇(陕西、西安、西安科技大学、计算机科学与技术)时,在本步骤中,此时,可以根据预设的专业术语词汇库(预设的专业术语词汇库中存储有上述第一专业术语词汇和上述第一专业词汇的翻译结果),得到上述第一专业术语词汇的翻译结果,当得到待翻译语句A中的第一专业术语词汇的翻译结果后,此时,再对待翻译语句A中的剩下部分进行机器翻译,然后根据两个翻译结果得到待翻译语句A的翻译结果。
再例如,针对待翻译语句B,当通过步骤S101,获取到待翻译语句B对应的第一模板句(_听、说、读、写)时,在本步骤中,可根据模板库得到第一模板句的翻译结果(模板库中存储有上述第一模板句和上述第一模板句的翻译结果),之后,再对待翻译语句B中的剩下部分进行机器翻译,然后根据两个翻译结果得到待翻译语句B的翻译结果。
本实施例中,通过预设的专业术语词汇库和预设的模板库,这样,在对简历进行翻译的过程中,通过获取待翻译语句中的第一专业术语词汇、和/或、待翻译语句对应的第一模板句,这样,当获取到待翻译语句中的第一专业术语词汇、和/或、待翻译语句对应的第一模板句,可以从预设的专业术语词汇库中获取到上述第一专业术语词汇的翻译结果,从预设的模板库中获取到上述第一模板句的翻译结果,这样,一方面,根据预设的专业术语词汇库对第一专业术语词汇进行翻译,可避免对专业术语词汇进行字对字、词对词翻译时存在的翻译不准确的问题,另一方面,通过获取待翻译语句对应的第一模板句,对待翻译语句按照模板句进行翻译,可解决现有技术中的翻译方法存在的翻译结果繁琐的问题。
本实施例提供的数据处理方法,通过获取待翻译语句的参数信息,其中,上述参数信息包括:上述待翻译语句中的第一专业术语词汇、和/或、上述待翻译语句对应的第一模板句,进而根据上述参数信息和预设的参数库,确定上述待翻译语句的翻译结果;其中,上述参数库包括预设的专业术语词汇库和预设的模板库,上述专业术语词汇库包括不同的专业术语词汇与上述专业术语词汇的翻译结果,上述模板库包括不同的模板句与上述模板句的翻译结。这样,可提高翻译结果的准确度,并避免现有的翻译方法存在的翻译结果繁琐的问题,使得翻译结果简洁,符合简历翻译的要求。
图2为本发明数据处理方法实施例二的流程图。本实施例涉及的是若参数信息包括待翻译语句中的第一专业术语词汇和待翻译语句对应的第一模板句,根据参数信息和预设的参数库确定待翻译语句的翻译结果的具体过程。在上述实施例的基础上,本实施例提供的数据处理方法,若上述参数信息包括上述待翻译语句中的第一专业术语词汇和上述待翻译语句对应的第一模板句,则步骤S102具体包括:
S201、根据上述专业术语词汇库,确定上述第一专业术语词汇对应的第一翻译结果。
具体地,预设的专业术语词汇库中存储有不同的专业术语词汇与上述专业术语词汇的翻译结果。当获取到待翻译语句中的第一专业术语词汇时,可在上述专业术语词汇库中查找到上述第一专业术语词汇,进而得到上述第一专业术语词汇对应的第一翻译结果。
S202、根据所述模板库,确定所述第一模板句对应的第二翻译结果。
具体地,模板库中存储有不同的模板句与上述模板句的翻译结果。当获取到待翻译语句对应的第一模板句时,可在上述模板库中查找到上述第一模板句,进而得到上述第一模板句对应的第二翻译结果。
S203、根据上述第一翻译结果和上述第二翻译结果的语义匹配度,确定上述待翻译语句的翻译结果。
具体地,当通过步骤S201确定出第一专业术语词汇对应的第一翻译结果,通过步骤S202确定出第一模板句对应的第二翻译结果后,本步骤中,则根据第一翻译结果和第二翻译结果的语义匹配度,将第一翻译结果和第二翻译结果组合,得到待翻译语句的翻译结果。
下面给出一个具体的例子,用以详细说明本实施例的技术方案。具体的,例如,待翻译语句C为:荣获黑龙江省优秀毕业生称号,该待翻译语句C为已经标记过的语句,其中,该待翻译语句C中的以下词汇被标记为专业术语词汇:黑龙江、优秀毕业生,并且,该待翻译语句C还被标记为模板句。这样,在步骤S101中,可以根据标记信息,获取到待翻译语句C中的第一专业术语词汇,其中,待翻译语句C中的第一专业术语词汇包括:黑龙江、优秀毕业生,且获取到待翻译语句C对应的第一模板句,其中,待翻译语句C对应的第一模板句为:荣获_省_称号。
这样,在本实施例中,通过步骤S201,可直接根据预设的专业术语词汇库得到第一专业术语词汇的翻译结果,例如,预设的专业术语词汇库中预先存储有黑龙江、优秀毕业生及其对应的翻译结果Heilongjiang、outstanding graduates,此时,可通过查找预设的专业术语词汇库,得到第一专业术语词汇黑龙江、优秀毕业生对应的第一翻译结果Heilongjiang、outstanding graduates。然后,在步骤S202中,可根据模板库得到第一模板句对应的第二翻译结果,例如,预设的模板库中预先存储有以下模板句及上述模板句的翻译结果,其中,模板句为:荣获_省_称号,上述模板句的翻译结果为:From_Province thetitle of_)。此时,可通过查找预设的模板库,得到第一模板句(荣获_省_称号)对应的第二翻译结果(From_Province the title of_)。最后,在步骤S203中,根据第一翻译结果和第二翻译结果的语义匹配度,得到待翻译语句B的翻译结果(From heilongjiang provincethe title of outstanding graduates)。
本实施例提供的数据处理方法,若参数信息包括待翻译语句中的第一专业术语词汇和待翻译语句对应的第一模板句时,在根据参数信息和预设的参数库确定待翻译语句的翻译结果时,通过专业术语词汇库确定第一专业术语词汇对应的第一翻译结果,通过模板库确定第一模板句对应的第二翻译结果,进而根据第一翻译结果和第二翻译结果的语义匹配度,得到待翻译语句的翻译结果,这样,不仅能够提高翻译的准确度,还能够使得翻译结果简洁,符合简历翻译的要求。
图3为本发明数据处理方法实施例三的流程图。本实施例涉及的是如何获取待翻译语句的参数信息的具体过程。在上述实施例的基础上,本实施例提供的数据处理方法,步骤S101具体包括:
S301、确定上述待翻译语句中的词汇与上述专业术语词汇库的专业术语词汇的第一匹配度。
本步骤中,将待翻译语句中的词汇与专业术语词汇库的专业术语词汇进行匹配,以确定待翻译语句中的词汇与上述专业术语词汇库的专业术语词汇的第一匹配度。具体地,结合上面的例子,例如,针对待翻译语句A:就读于陕西省西安市西安科技大学计算机科学与技术专业。本实施例中,待翻译语句A是未经过标记的语句。本步骤中,可以将待翻译语句进行拆分,得到待翻译语句中的词汇,例如,可以先将待翻译语句以一个字为单位进行拆分,得到待翻译语句中的词汇,例如,待翻译语句A的词汇包括:就、读、于等);再将待翻译语句以两个字为单位进行拆分,得到待翻译翻译语句中的词汇,例如待翻译语句A的词汇包括:就读、读于、于陕、陕西、西省等,还可以将待翻译语句以三个字为单位进行拆分,……,以得到待翻译语句中的词汇,进而将待翻译语句中的词汇与专业术语词汇库的专业术语词汇进行匹配。需要说明的是,也可以利用分词工具对上述待翻译语句进行分词处理,得到上述待翻译语句中的词汇,进而将待翻译语句中的词汇与专业术语词汇库中的专业术语词汇进行匹配,以确定待翻译语句中的词汇与专业术语词汇库的专业术语词汇的第一匹配度。例如,将上述待翻译语句A经过分词工具处理后,得到待翻译语句A中的词汇包括:就读于、陕西、省、西安、市、西安科技大学,计算机科学与技术、专业。此时,将上述词汇与专业术语词汇库中的专业术语词汇进行匹配,确定上述词汇与专业术语词汇库中的专业术语词汇的第一匹配度。
S302、当上述第一匹配度大于预设的第一匹配阈值时,确定上述词汇为第一专业术语词汇。
需要说明的是,第一匹配阈值是预先设定的,例如,第一匹配阈值的具体值可以是95%、90%等。本实施例中,不对第一匹配阈值的具体值进行限定。例如,本步骤中,预设的第一匹配阈值为90%。在步骤S301中,将待翻译语句中的词汇与专业术语词汇库中的专业术语词汇进行匹配,确定待翻译语句中的词汇与专业术语词汇库中的专业术语词汇的第一匹配度,例如,确定待翻译语句中的如下词汇与专业术语词汇库中的专业术语词汇的第一匹配度为100%,此时,确定如下词汇为第一专业术语词汇。其中,如下词汇包括:陕西、西安、西安科技大学,计算机科学与技术。
本实施例提供的数据处理方法,当待翻译语句为未经过标记的语句时,此时,可通过将待翻译语句中的词汇与专业术语词汇库的专业术语词汇进行匹配,并确定待翻译语句中的词汇与专业术语词汇库的专业术语词汇的第一匹配度,进而将第一匹配度大于预设的第一匹配阈值的词汇确定为第一专业术语词汇,这样,通过匹配的方法,可以获取到待翻译语句中的第一专业术语词汇,进而根据预设的专业术语词汇库对上述第一专业术语词汇进行翻译,这样,可提高翻译的准确性。
图4为本发明数据处理方法实施例的流程图。本实施例涉及的如何获取待翻译语句中的参数信息的具体过程。在上述实施例的基础上,本实施例提供的数据处理方法,步骤S101具体包括:
S401、确定上述待翻译语句与上述模板库的模板句的第二匹配度。
本步骤中,将待翻译语句与模板库的模板句进行匹配,并确定待翻译语句与模板库的模板句中的第二匹配度。例如,待翻译语句D为:听、说、读、写能力优秀,则在本步骤中,将该待翻译语句D与模板库中模板句进行一一匹配。
需要说明的是,本步骤中,第二匹配度可以是根据待翻译语句与模板句的语义相似度确定的匹配度,还可以是根据待翻译语句与模板句的句子结构相似度确定的匹配度,还可以是根据待翻译语句与模板句中包括的字的相同度确定的匹配度,本实施例不做具体限定。
S402、将第二匹配度大于预设的第二匹配阈值的模板句确定为上述待翻译语句对应的第一模板句。
需要说明的是,第二匹配阈值的具体值是预先设定的,例如,可以是80%。
结合上面的例子,本步骤中,例如,确定待翻译语句D与以下模板句Q(模板句Q:_听、说、读、写)的第二匹配度大于第二预设阈值,此时,则将模板句Q确定为待翻译语句D对应的第一模板句。
本实施例提供的数据处理方法,当待翻译语句为未标记的语句时,可以通过将待翻译语句与模板库的模板句进行匹配,并确定待翻译语句与模板库的模板句的第二匹配度,进而将第二匹配度大于预设的第二匹配阈值的模板句确定为上述待翻译语句对应的第一模板句,这样,通过将待翻译语句与模板库中的模板句匹配的方法,可以获取待翻译语句对应的第一模板句,进而根据第一模板句对待翻译语句进行翻译,这样,可使得翻译结果简洁,符合简历翻译的要求。
进一步地,本实施例提供的数据处理方法,在获取待翻译语句的参数信息之前,还包括:
预先建立上述专业术语词汇库和上述模板库。
具体地,根据简历的特点,可以将简历中经常出现的词汇确定为专业术语词汇,进而将上述专业术语词汇和上述专业术语词汇的翻译结果存储在专业术语词汇库中,得到预先的专业术语词汇库。
进一步,根据简历的特点,可以构建多个模板句,形成模板库。上述模板句一般为简单句,且上述模板句中的动词大都使用过去时态、另外,上述模板句大多无主语。例如,模板句可以为:工作于_;熟练运用_。
本实施例提供的数据处理方法,在获取待翻译语句的参数信息之前,通过预先简历上述专业术语词汇库和上述模板库,这样,在对简历进行翻译时,可通过上述专业术语词汇库和上述模板库,对待翻译语句中的第一专业术语词汇、和/或、上述待翻译语句对应的第一模板句进行翻译,这样,不仅能够提高翻译的准确性,还能够使得翻译结果简洁,符合简历翻译的要求。
图5为本发明数据处理方法实施例五的流程图。本实施例涉及的是如何预先建立专业术语词汇库和模板库的具体过程。在上述实施例的基础上,本实施例提供的数据处理方法,预先建立专业术语词汇库和模板库的过程,可以包括如下步骤:
S501、根据预设的简历属性信息遍历多份简历,将与所述简历属性信息对应的词汇确定为专业术语词汇。
预设的简历属性信息可以是人名、地名、学校名、专业名、邮箱、工作经历等。本步骤中,例如,当预设的简历属性信息为人名时,此时,遍历多分简历,将多份简历中的人名提取出来,并将提取出来的人名确定为专业术语词汇。再例如,当预设的简历属性信息为学校名时,此时,遍历多份简历,将多份简力中的学校名提取出来,并将提取出来的学校名确定为专业术语。
S502、对所述专业术语词汇进行翻译处理,获得所述专业术语词汇的翻译结果。
具体地,本步骤中,可以先对提取出来的专业术语词汇进行机器翻译,得到机器翻译结果,然后再对机器翻译结果进行校验,得到专业术语词汇的翻译结果。
S503、根据所述专业术语词汇和所述专业术语词汇的翻译结果,得到所述专业术语词汇库。
本步骤中,将经过步骤S501提取出来的专业术语词汇以及经过步骤S502得到的上述专业术语词汇的翻译结果存储在专业术语词汇库中,得到专业术语词汇库。
本实施例提供的数据处理方法,在预先建立专业术语词汇库时,通过遍历多份简历,并根据预设的简历属性信息提取与上述简历属性信息对应的词汇作为专业术语词汇,这样,可保证专业术语词汇库中含有简历中用到的词汇,进而在对简历翻译的过程中,可根据上述专业术语词汇库进行翻译,以提高翻译的准确性。
图6为本发明数据处理装置实施例一的结构示意图。该装置可以通过软件、硬件或者软硬结合的方式实现,且该装置可以是单独的数据处理装置,也可以是集成了数据处理装置的其他设备,例如,可以是集成了数据处理装置的计算机或集成了数据处理装置的终端。如图6所示,本实施例提供的数据处理装置,包括:获取模块100和处理模块200,其中,
获取模块100,用于获取待翻译语句的参数信息,其中,所述参数信息包括:所述待翻译语句中的第一专业术语词汇、和/或、所述待翻译语句对应的第一模板句;
处理模块200,用于根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果;其中,所述参数库包括预设的专业术语词汇库和预设的模板库,所述专业术语词汇库包括不同的专业术语词汇与所述专业术语词汇的翻译结果,所述模板库包括不同的模板句与所述模板句的翻译结果。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,若所述参数信息包括所述待翻译语句中的第一专业术语词汇和所述待翻译语句对应的第一模板句,处理模块200具体用于根据所述专业术语词汇库,确定所述第一专业术语词汇对应的第一翻译结果,并根据所述模板库,确定所述第一模板句对应的第二翻译结果,以及根据所述第一翻译结果和所述第二翻译结果的语义匹配度,确定所述待翻译语句的翻译结果。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,获取模块100,具体用于确定所述待翻译语句中的词汇与所述专业术语词汇库的专业术语词汇的第一匹配度,并在所述第一匹配度大于预设的第一匹配阈值时,确定所述词汇为第一专业术语词汇。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,获取模块100,具体用于确定所述待翻译语句与所述模板库的模板句的第二匹配度,并将第二匹配度大于预设的第二匹配阈值的模板句确定为所述待翻译语句对应的第一模板句。
本实施例的装置,可以用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,处理模块200,还用于在获取模块100获取待翻译语句的参数信息之前,预先建立所述专业术语词汇块和所述模板库。
进一步地,处理模块200,具体用于根据预设的简历属性信息遍历多份简历,将与所述简历属性信息对应的词汇确定为专业术语词汇,并对所述专业术语词汇进行翻译处理,获得所述专业术语词汇的翻译结果,以及根据所述专业术语词汇和所述专业术语词汇的翻译结果,得到所述专业术语词汇库。
本实施例的装置,可以用于执行图5所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待翻译语句的参数信息,所述参数信息包括:所述待翻译语句中的第一专业术语词汇、和/或、所述待翻译语句对应的第一模板句;
根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果;其中,所述参数库包括预设的专业术语词汇库和预设的模板库,所述专业术语词汇库包括不同的专业术语词汇与所述专业术语词汇的翻译结果,所述模板库包括不同的模板句与所述模板句的翻译结果。
2.根据权利要求1所述的方法,其特征在于,若所述参数信息包括所述待翻译语句中的第一专业术语词汇和所述待翻译语句对应的第一模板句,所述根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果,具体包括:
根据所述专业术语词汇库,确定所述第一专业术语词汇对应的第一翻译结果;
根据所述模板库,确定所述第一模板句对应的第二翻译结果;
根据所述第一翻译结果和所述第二翻译结果的语义匹配度,确定所述待翻译语句的翻译结果。
3.根据权利要求2所述的方法,其特征在于,所述获取待翻译语句的参数信息,具体包括;
确定所述待翻译语句中的词汇与所述专业术语词汇库的专业术语词汇的第一匹配度;
当所述第一匹配度大于预设的第一匹配阈值时,确定所述词汇为第一专业术语词汇。
4.根据权利要求2所述的方法,其特征在于,所述获取待翻译语句的参数信息,具体包括;
确定所述待翻译语句与所述模板库的模板句的第二匹配度;
将第二匹配度大于预设的第二匹配阈值的模板句确定为所述待翻译语句对应的第一模板句。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取待翻译语句的参数信息之前,所述方法还包括:
预先建立所述专业术语词汇库和所述模板库。
6.根据权利要求5所述的方法,其特征在于,所述预先建立所述专业术语词汇库和所述模板库,具体包括:
根据预设的简历属性信息遍历多份简历,将与所述简历属性信息对应的词汇确定为专业术语词汇;
对所述专业术语词汇进行翻译处理,获得所述专业术语词汇的翻译结果;
根据所述专业术语词汇和所述专业术语词汇的翻译结果,得到所述专业术语词汇库。
7.一种数据处理装置,其特征在于,包括:获取模块和处理模块,其中,
所述获取模块,用于获取待翻译语句的参数信息,其中,所述参数信息包括:所述待翻译语句中的第一专业术语词汇、和/或、所述待翻译语句对应的第一模板句;
所述处理模块,用于根据所述参数信息和预设的参数库,确定所述待翻译语句的翻译结果;其中,所述参数库包括预设的专业术语词汇库和预设的模板库,所述专业术语词汇库包括不同的专业术语词汇与所述专业术语词汇的翻译结果,所述模板库包括不同的模板句与所述模板句的翻译结果。
8.根据权利要求7所述的装置,其特征在于,若所述参数信息包括所述待翻译语句中的第一专业术语词汇和所述待翻译语句对应的第一模板句,所述处理模块具体用于根据所述专业术语词汇库,确定所述第一专业术语词汇对应的第一翻译结果,并根据所述模板库,确定所述第一模板句对应的第二翻译结果,以及根据所述第一翻译结果和所述第二翻译结果的语义匹配度,确定所述待翻译语句的翻译结果。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于确定所述待翻译语句中的词汇与所述专业术语词汇库的专业术语词汇的第一匹配度,并在所述第一匹配度大于预设的第一匹配阈值时,确定所述词汇为第一专业术语词汇。
10.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于确定所述待翻译语句与所述模板库的模板句的第二匹配度,并将第二匹配度大于预设的第二匹配阈值的模板句确定为所述待翻译语句对应的第一模板句。
CN201611179649.XA 2016-12-19 2016-12-19 数据处理方法和装置 Pending CN106776587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611179649.XA CN106776587A (zh) 2016-12-19 2016-12-19 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611179649.XA CN106776587A (zh) 2016-12-19 2016-12-19 数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN106776587A true CN106776587A (zh) 2017-05-31

Family

ID=58890679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611179649.XA Pending CN106776587A (zh) 2016-12-19 2016-12-19 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106776587A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146487A (zh) * 2017-07-21 2017-09-08 锦州医科大学 一种英语语音翻译方法
CN108491399A (zh) * 2018-04-02 2018-09-04 上海杓衡信息科技有限公司 基于语境迭代分析的汉译英机器翻译方法
CN109062913A (zh) * 2018-09-17 2018-12-21 福建天泉教育科技有限公司 国际化资源智能获取方法、存储介质
CN110287498A (zh) * 2019-05-30 2019-09-27 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251840A (zh) * 2008-04-17 2008-08-27 北京百问百答网络技术有限公司 一种基于语义模板的问题自动翻译方法及其系统
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251840A (zh) * 2008-04-17 2008-08-27 北京百问百答网络技术有限公司 一种基于语义模板的问题自动翻译方法及其系统
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146487A (zh) * 2017-07-21 2017-09-08 锦州医科大学 一种英语语音翻译方法
CN108491399A (zh) * 2018-04-02 2018-09-04 上海杓衡信息科技有限公司 基于语境迭代分析的汉译英机器翻译方法
CN108491399B (zh) * 2018-04-02 2021-08-06 上海杓衡信息科技有限公司 基于语境迭代分析的汉译英机器翻译方法
CN109062913A (zh) * 2018-09-17 2018-12-21 福建天泉教育科技有限公司 国际化资源智能获取方法、存储介质
CN110287498A (zh) * 2019-05-30 2019-09-27 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
CN110675854B (zh) 一种中英文混合语音识别方法及装置
WO2020143163A1 (zh) 基于注意力机制的命名实体识别方法、装置和计算机设备
CN112836052B (zh) 一种汽车评论文本观点挖掘方法、设备及存储介质
CN106776587A (zh) 数据处理方法和装置
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及系统
CN108280065B (zh) 一种外文文本评价方法及装置
CN104750820A (zh) 一种语料库的过滤方法及装置
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN116523031B (zh) 语言生成模型的训练方法、语言生成方法及电子设备
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN108182173A (zh) 一种提取关键词的方法、装置及电子设备
Gugliotta et al. Tarc: Incrementally and semi-automatically collecting a tunisian arabish corpus
Shah et al. A deep learning approach for Hindi named entity recognition
CN111161703B (zh) 带语气的语音合成方法、装置、计算设备及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
Duan et al. Automatically build corpora for chinese spelling check based on the input method
CN107092669A (zh) 一种建立机器人智能交互的方法
Ataa Allah Finite-state transducer for Amazigh verbal morphology
CN106815189B (zh) 一种汉语新动词识别方法
TW200919223A (en) Language learning method and system applying to full text interpretation
Kumar et al. Bilingual code-mixing in Indian social media texts for Hindi and English
Halawa et al. Exploiting bert for malformed segmentation detection to improve scientific writings
Somsap et al. Isarn Dharma word segmentation
Flanagan et al. Automatic extraction and prediction of word order errors from language learning SNS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531