CN106933813A - 一种用于英语翻译的文本数据处理方法 - Google Patents

一种用于英语翻译的文本数据处理方法 Download PDF

Info

Publication number
CN106933813A
CN106933813A CN201710083766.4A CN201710083766A CN106933813A CN 106933813 A CN106933813 A CN 106933813A CN 201710083766 A CN201710083766 A CN 201710083766A CN 106933813 A CN106933813 A CN 106933813A
Authority
CN
China
Prior art keywords
translation
characteristic item
processing method
translated
urtext
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710083766.4A
Other languages
English (en)
Inventor
张林影
孙强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mudanjiang Normal University
Original Assignee
Mudanjiang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mudanjiang Normal University filed Critical Mudanjiang Normal University
Priority to CN201710083766.4A priority Critical patent/CN106933813A/zh
Publication of CN106933813A publication Critical patent/CN106933813A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明公开了英语翻译技术领域的一种用于英语翻译的文本数据处理方法,该用于英语翻译的文本数据处理方法的具体步骤如下:S1:将待翻译的原始文本提取特征项,并建立布尔逻辑模型;S2:对步骤S1中提取的特征项进行分类,并将原始文本数据中除去特征项的语句存储至数据库中;S3:在数据库中将特征项连同非特征项的待翻译的语句进行翻译后输出,本发明通过对文本模型的建立,实现对待翻译的原始文本数据的处理,同时在数据库中预先存储需要特定翻译的语法知识,避免在翻译过程中出现的时态和语序的错误,本发明充分发挥了计算机翻译上的优势,大大减少了人工翻译的工作量,减少在翻译工作上的资金投入。

Description

一种用于英语翻译的文本数据处理方法
技术领域
本发明涉及英语翻译技术领域,具体为一种用于英语翻译的文本数据处理方法。
背景技术
随着国际交流的不断深入,对英语文件的翻译需求也越来越大,促使了一大批英语翻译的工具的出现,这些英语翻译工具通常分为在线版和本地版,而无论在线版和本地版都是在数据库中搜索译文进行翻译,这些翻译工具的出现极大的满足了用户的翻译需求,对提高翻译效率,推动社会进步作出了贡献。
而由于英语的语法、规则众多,翻译工具的数据库中不一定能够完全匹配到需要翻译的语句,基本上都是将待翻译的语句进行一对一的单词翻译,时态和语序经常发生错误,并且翻译生硬,达不到翻译中常说的信、达、雅的翻译要求。此时还需要有英语基础的用户进行逐句的校对,理顺语序,调整时态,根据自己的语法知识重新组织语言,这些对于英语基础差的用户来说就显得无能无力了。
请专业的翻译人员进行人工翻译是另一种对资料进行翻译的方法,只是目前请专业的翻译人员进行翻译还需要支付昂贵的佣金,并且需等待较长的时间,翻译人员的水平也参差不齐,翻译人员的主观意识也会对翻译结果产生影响,为此,我们提出了一种用于英语翻译的文本数据处理方法投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种用于英语翻译的文本数据处理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种用于英语翻译的文本数据处理方法,该用于英语翻译的文本数据处理方法的具体步骤如下:
S1:将待翻译的原始文本提取特征项,并建立布尔逻辑模型,使待翻译的原始文本数据转变为计算机可识别的形式;
S2:对步骤S1中提取的特征项进行分类,并将原始文本数据中除去特征项的语句存储至数据库中;
S3:在数据库中将特征项连同非特征项的待翻译的语句进行翻译后输出。
优选的,所述步骤S1中,布尔逻辑模型以原始文本数据中的特征项作为判断标准,文本中有该特征项,则它的权重值为“1”,若无,则其权重值为“0”。
优选的,所述特征项为较难翻译及需要特定翻译的英语语法。
优选的,所述步骤S2中,数据库预先存储较难翻译及需要特定翻译的英语语法和中英词语对照表。
优选的,所述步骤S2中,在进行特征项的分类时,假设原始文本中有类别集合C={C1,C2,…,Cn},待分类文本d={w1,w2,…,w3},实现对文本d的分类,转化成对p(c1/d,c2/d,…,cn/d)的求解,若P(ck|d)=max{P(c1|d),P(c2|d),…,P(cn|d)},则d∈ck,其计算公式如下:
其中,
与现有技术相比,本发明的有益效果是:本发明通过对文本模型的建立,实现对待翻译的原始文本数据的处理,将待翻译的原始文本数据转化为计算机能够识别的形式,同时在数据库中预先存储需要特定翻译的语法知识,避免在翻译过程中出现的时态和语序的错误,本发明充分发挥了计算机翻译上的优势,大大减少了人工翻译的工作量,减少在翻译工作上的资金投入。
附图说明
图1为本发明工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种用于英语翻译的文本数据处理方法,该用于英语翻译的文本数据处理方法的具体步骤如下:
S1:将待翻译的原始文本提取特征项,并建立布尔逻辑模型,使待翻译的原始文本数据转变为计算机可识别的形式,布尔逻辑模型以原始文本数据中的特征项作为判断标准,文本中有该特征项,则它的权重值为“1”,若无,则其权重值为“0”,特征项为较难翻译及需要特定翻译的英语语法;
S2:对步骤S1中提取的特征项进行分类,并将原始文本数据中除去特征项的语句存储至数据库中,数据库预先存储较难翻译及需要特定翻译的英语语法和中英词语对照表,在进行特征项的分类时,假设原始文本中有类别集合C={C1,C2,…,Cn},待分类文本d={w1,w2,…,w3},实现对文本d的分类,转化成对p(c1/d,c2/d,…,cn/d)的求解,若P(ck|d)=max{P(c1|d),P(c2|d),…,P(cn|d)},则d∈ck,其计算公式如下:
其中,
S3:在数据库中将特征项连同非特征项的待翻译的语句进行翻译后输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种用于英语翻译的文本数据处理方法,其特征在于:该用于英语翻译的文本数据处理方法的具体步骤如下:
S1:将待翻译的原始文本提取特征项,并建立布尔逻辑模型,使待翻译的原始文本数据转变为计算机可识别的形式;
S2:对步骤S1中提取的特征项进行分类,并将原始文本数据中除去特征项的语句存储至数据库中;
S3:在数据库中将特征项连同非特征项的待翻译的语句进行翻译后输出。
2.根据权利要求1所述的一种用于英语翻译的文本数据处理方法,其特征在于:所述步骤S1中,布尔逻辑模型以原始文本数据中的特征项作为判断标准,文本中有该特征项,则它的权重值为“1”,若无,则其权重值为“0”。
3.根据权利要求1和2所述的一种用于英语翻译的文本数据处理方法,其特征在于:所述特征项为较难翻译及需要特定翻译的英语语法。
4.根据权利要求1所述的一种用于英语翻译的文本数据处理方法,其特征在于:所述步骤S2中,数据库预先存储较难翻译及需要特定翻译的英语语法和中英词语对照表。
5.根据权利要求1所述的一种用于英语翻译的文本数据处理方法,其特征在于:所述步骤S2中,在进行特征项的分类时,假设原始文本中有类别集合C={C1,C2,…,Cn},待分类文本d={w1,w2,…,w3},实现对文本d的分类,转化成对p(c1/d,c2/d,…,cn/d)的求解,若P(ck|d)=max{P(c1|d),P(c2|d),…,P(cn|d)},则d∈ck,其计算公式如下:
P ( c j | d ) = P ( c j ) P ( d | c j ) P ( d ) = P ( c j ) P ( w 1 | c j ) P ( w 2 | c j ) ... P ( w n | c j ) P ( d ) = P ( c j ) Π 1 n P ( w n | c j ) P ( d )
其中,
CN201710083766.4A 2017-02-16 2017-02-16 一种用于英语翻译的文本数据处理方法 Pending CN106933813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710083766.4A CN106933813A (zh) 2017-02-16 2017-02-16 一种用于英语翻译的文本数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710083766.4A CN106933813A (zh) 2017-02-16 2017-02-16 一种用于英语翻译的文本数据处理方法

Publications (1)

Publication Number Publication Date
CN106933813A true CN106933813A (zh) 2017-07-07

Family

ID=59423213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710083766.4A Pending CN106933813A (zh) 2017-02-16 2017-02-16 一种用于英语翻译的文本数据处理方法

Country Status (1)

Country Link
CN (1) CN106933813A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
CN102750315A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于主权迭代搜索的概念关系快速发现方法
CN104503960A (zh) * 2015-01-07 2015-04-08 渤海大学 一种用于英语翻译的文本数据处理方法
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
CN102750315A (zh) * 2012-04-25 2012-10-24 北京航空航天大学 基于主权迭代搜索的概念关系快速发现方法
CN104503960A (zh) * 2015-01-07 2015-04-08 渤海大学 一种用于英语翻译的文本数据处理方法
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法

Similar Documents

Publication Publication Date Title
Yatskar et al. For the sake of simplicity: Unsupervised extraction of lexical simplifications from Wikipedia
CN111680094B (zh) 文本结构化方法、装置、系统和非易失性存储介质
CN102693303B (zh) 一种公式化数据的搜索方法及装置
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
Kunchukuttan et al. Sata-anuvadak: tackling multiway translation of Indian languages
CN107766318A (zh) 一种关键词的抽取方法、装置及电子设备
TW201841121A (zh) 一種自動生成語義相近句子樣本的方法
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
Chen et al. FCAMapX results for OAEI 2018.
Zhang et al. Sciencebenchmark: A complex real-world benchmark for evaluating natural language to SQL systems
Sarkar et al. Concept annotation from users perspective: A new challenge
CN104572624B (zh) 一种基于词向量发现单味药与疾病之间的治疗关系的方法
Asubiaro Entropy-based generic stopwords list for Yoruba texts
CN106933813A (zh) 一种用于英语翻译的文本数据处理方法
Pandanaboyana et al. Requirements tracing on target (retro) enhanced with an automated thesaurus builder: An empirical study
US9146918B2 (en) Compressing data for natural language processing
CN116629215A (zh) 教学文档生成方法、装置、电子设备、存储介质
Singla et al. Reducing the impact of data sparsity in statistical machine translation
CN102346777B (zh) 一种对例句检索结果进行排序的方法和装置
Ravinuthala et al. A keyword extraction approach for single document extractive summarization based on topic centrality
CN105653516B (zh) 平行语料对齐的方法和装置
Reinel et al. Sentiment phrase generation using statistical methods
Huang et al. Lul’s WMT22 automatic post-editing shared task submission
CN109828775B (zh) 一种多语言翻译文本内容的web管理系统及方法
Tianwen et al. Evaluate the chinese version of machine translation based on perplexity analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707