CN111626066A - 一种基于大数据的段落翻译系统及其方法 - Google Patents

一种基于大数据的段落翻译系统及其方法 Download PDF

Info

Publication number
CN111626066A
CN111626066A CN202010463822.9A CN202010463822A CN111626066A CN 111626066 A CN111626066 A CN 111626066A CN 202010463822 A CN202010463822 A CN 202010463822A CN 111626066 A CN111626066 A CN 111626066A
Authority
CN
China
Prior art keywords
translated
translation
paragraph
module
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010463822.9A
Other languages
English (en)
Other versions
CN111626066B (zh
Inventor
辛钧意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Liuhua Network Technology Co.,Ltd.
Original Assignee
辛钧意
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 辛钧意 filed Critical 辛钧意
Priority to CN202010463822.9A priority Critical patent/CN111626066B/zh
Publication of CN111626066A publication Critical patent/CN111626066A/zh
Application granted granted Critical
Publication of CN111626066B publication Critical patent/CN111626066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于大数据的段落翻译系统及其方法,所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块,所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别,所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统,所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言,所述待翻译段落获取模块包括段落采集模块、关键词提取模块和段落归类模块,所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型。

Description

一种基于大数据的段落翻译系统及其方法
技术领域
本发明涉及大数据领域,具体是一种基于大数据的段落翻译系统及其方法。
背景技术
近年来,随着科学技术的发展,人工智能在不同地区、不同级别的智能大会以及其他科技成果交流场合大放异彩,成为人们讨论的热点话题,而人工智能翻译更是热点中的焦点但是人工智能翻译的产品。但是现有的人工智能翻译系统翻译质量层次不齐,从种类众多的翻译系统中选取最佳的翻译版本效率较低。
发明内容
本发明的目的在于提供一种基于大数据的段落翻译系统及其方法,以解决现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于大数据的段落翻译系统,所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块,所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别,所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统,所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言。
较优化地,所述待翻译段落获取模块包括段落采集模块、关键词提取模块、段落归类模块,所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型,所述关键词提取模块用于确定待翻译段落中的各个关键词以及每个关键词所属的行业类别,所述段落归类模块用于统计待翻译段落中的关键词所属最多的行业类别,将关键词所属最多的行业类别作为所述待翻译段落的行业类别。
较优化地,所述优选翻译系统选取模块包括句落划分模块、优选句落选取模块和优选系统选取模块,所述句落划分模块用于将待翻译段落划分成若干个待翻译句落,所述优选句落选取模块包括专业词汇采集模块、文献数据库搜索模块、句落稀有情况统计模块、难度情况统计模块和难度情况排序模块,所述专业词汇采集模块用于采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇,所述文献数据库搜索模块用于搜索统计专业词汇以及专业词汇的目标语言在语言类型为源语言的文献数据库中的出现情况,所述句落稀有情况统计模块根据文献数据库搜索模块的统计结果统计每个待翻译句落中的综合稀有指数,所述难度情况统计模块用于统计每个待翻译句落中的词汇情况以及每个待翻译句落中停顿情况,并结合每个待翻译句落中的综合稀有指数计算每个待翻译句落的难度指数,所述难度情况排序模块将待翻译句落按照难度指数从大到小的顺序排序,选取排序第一的待翻译句落为优选翻译句落;所述优选系统选取模块采集对优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译,根据人工翻译与各个翻译系统人工智能翻译的相似度选取优选翻译系统;所述最佳翻译目标语言选取模块包括目标语言相似度比较模块和目标语言排序模块,所述目标语言相似度比较模块用于比较其中一个优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度,并据此计算所选翻译系统的综合相似度,所述目标语言排序模块将所有优选翻译系统按照综合相似度从大到小的顺序排序,选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。
一种基于大数据的段落翻译方法,所述翻译方法包括以下步骤:
步骤S1:获取待翻译段落,确定所述待翻译段落的源语言、目标语言类型以及所述待翻译段落的所属行业类别;
步骤S2:根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统;
步骤S3:各个优选翻译系统分别将待翻译段落从源语言翻译成目标语言,比较各个优选翻译系统翻译的目标语言,并从中选取最佳翻译目标语言。
较优化地,所述步骤S1进一步包括:
确定待翻译段落中的各个关键词以及每个关键词所属的行业类别;
统计所述待翻译段落中的关键词所属最多的行业类别,将关键词所属最多的行业类别作为所述待翻译段落的行业类别。
较优化地,所述步骤S2包括:
步骤S21:将待翻译段落划分成若干个待翻译句落,根据多维数据从待翻译句落中选取优选翻译句落;
步骤S22:采集对所述优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译,比较所述人工翻译与所述各个翻译系统人工智能翻译的相似度,将相似度按照从大到小的顺序排序,选取排序前三名的翻译系统为优选翻译系统。
较优化地,所述步骤S21中将待翻译段落划分成若干个待翻译句落进一步包括:将相邻两个划分符号之间词汇划分为一个待翻译句落,其中,所述划分符号包括句号、问号和感叹号。
较优化地,所述步骤S3进一步包括:选取其中一个优选翻译系统为待评估优选翻译系统,分别比较待评估优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度,
则该待评估优选翻译系统的综合相似度K=u1+u2,其中,u1为待评估优选翻译系统与其中一个优选翻译系统翻译出来的目标语言的相似度,u2为待评估优选翻译系统与另一个优选翻译系统翻译出来的目标语言的相似度,
计算所有优选翻译系统为待评估优选翻译系统时的综合相似度,并将所有优选翻译系统按照综合相似度从大到小的顺序排序,选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。
较优化地,所述步骤S21中根据多维数据从待翻译句落中选取优选翻译句落包括:
步骤S211:采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇,并确定待翻译段落中的词汇数量Bm
步骤S212:在语言类型为源语言的文献数据库中搜索优选文献,其中,如果一篇文献中包含有某个专业词汇,那么该篇文献为该专业词汇的优选文献,
统计所有专业词汇的优选文献的篇数M以及每个专业词汇的优选文献篇数N,
在各个专业词汇的优选文献中筛选出包含出现专业词汇的目标语言的文献并统计相应的文献篇数P,
分别计算每个专业词汇的稀度指数
r=0.4*N/M+0.6*P/N;
计算每个待翻译句落中的综合稀有指数
Figure BDA0002511867850000051
Figure BDA0002511867850000052
其中,j表示待翻译句落中专业词汇的个数,rj表示待翻译句落中第i个专业词汇的稀有指数,ti表示第i个专业词汇在待翻译段落中出现的频数,tz表示所有专业词汇在待翻译段落中出现的频数之和;
步骤S213:统计每个待翻译句落中的词汇数量Bm、待翻译句落中的判别符号的个数Dm以及待翻译段落中判别符号的个数Dz
分别计算每个待翻译句落的难度指数
M=0.22*Bm/Bz+0.25*Dm/Dz+0.53*X,
其中,所述判别符号包括逗号、顿号、分号、冒号和破折号;
步骤S214:将待翻译句落按照难度指数从大到小的顺序排序,选取排序第一的待翻译句落为优选翻译句落。
与现有技术相比,本发明的有益效果是:本发明通过从待翻译的段落中选取翻译难度较高的句落来进行人工翻译和人工智能翻译系统翻译,接着比较人工翻译和人工智能翻译系统翻译的相似度,选取几个与人工翻译相似度较高的翻译系统翻译整个待翻译段落,最后再从完整的翻译版本中选取质量较高的翻译版本,在保证选取翻译版本质量的同时提高了选取翻译版本的效率;本发明还从句落的专业词汇稀有度情况、句落的词汇数量情况以及词汇的划分符号情况等多维角度来分析选取优选翻译句落,提高了所选取的优选翻译句落的合理性。
附图说明
图1为本发明一种基于大数据的段落翻译系统的模块示意图;
图2为本发明一种基于大数据的段落翻译方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~2,本发明实施例中,一种基于大数据的段落翻译系统,所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块,所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别,所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统,所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言。
所述待翻译段落获取模块包括段落采集模块、关键词提取模块、段落归类模块,所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型,所述关键词提取模块用于确定待翻译段落中的各个关键词以及每个关键词所属的行业类别,所述段落归类模块用于统计待翻译段落中的关键词所属最多的行业类别,将关键词所属最多的行业类别作为所述待翻译段落的行业类别。
所述优选翻译系统选取模块包括句落划分模块、优选句落选取模块和优选系统选取模块,所述句落划分模块用于将待翻译段落划分成若干个待翻译句落,所述优选句落选取模块包括专业词汇采集模块、文献数据库搜索模块、句落稀有情况统计模块、难度情况统计模块和难度情况排序模块,所述专业词汇采集模块用于采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇,所述文献数据库搜索模块用于搜索统计专业词汇以及专业词汇的目标语言在语言类型为源语言的文献数据库中的出现情况,所述句落稀有情况统计模块根据文献数据库搜索模块的统计结果统计每个待翻译句落中的综合稀有指数,所述难度情况统计模块用于统计每个待翻译句落中的词汇情况以及每个待翻译句落中停顿情况,并结合每个待翻译句落中的综合稀有指数计算每个待翻译句落的难度指数,所述难度情况排序模块将待翻译句落按照难度指数从大到小的顺序排序,选取排序第一的待翻译句落为优选翻译句落;所述优选系统选取模块采集对优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译,根据人工翻译与各个翻译系统人工智能翻译的相似度选取优选翻译系统;所述最佳翻译目标语言选取模块包括目标语言相似度比较模块和目标语言排序模块,所述目标语言相似度比较模块用于比较其中一个优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度,并据此计算所选翻译系统的综合相似度,所述目标语言排序模块将所有优选翻译系统按照综合相似度从大到小的顺序排序,选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。
一种基于大数据的段落翻译方法,所述翻译方法包括以下步骤:
步骤S1:获取待翻译段落,确定所述待翻译段落的源语言、目标语言类型以及所述待翻译段落的所属行业类别:
确定待翻译段落中的各个关键词以及每个关键词所属的行业类别;
统计所述待翻译段落中的关键词所属最多的行业类别,将关键词所属最多的行业类别作为所述待翻译段落的行业类别;
步骤S2:根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统:
步骤S21:将待翻译段落划分成若干个待翻译句落,根据多维数据从待翻译句落中选取优选翻译句落:
将待翻译段落划分成若干个待翻译句落进一步包括:将相邻两个划分符号之间词汇划分为一个待翻译句落,其中,所述划分符号包括句号、问号和感叹号;
根据多维数据从待翻译句落中选取优选翻译句落包括:
步骤S211:采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇,并确定待翻译段落中的词汇数量Bm
步骤S212:在语言类型为源语言的文献数据库中搜索优选文献,其中,如果一篇文献中包含有某个专业词汇,那么该篇文献为该专业词汇的优选文献,
统计所有专业词汇的优选文献的篇数M以及每个专业词汇的优选文献篇数N,
在各个专业词汇的优选文献中筛选出包含出现专业词汇的目标语言的文献并统计相应的文献篇数P,
分别计算每个专业词汇的稀度指数
r=0.4*N/M+0.6*P/N;
计算每个待翻译句落中的综合稀有指数
Figure BDA0002511867850000101
Figure BDA0002511867850000102
其中,j表示待翻译句落中专业词汇的个数,rj表示待翻译句落中第i个专业词汇的稀有指数,ti表示第i个专业词汇在待翻译段落中出现的频数,tz表示所有专业词汇在待翻译段落中出现的频数之和;
步骤S213:统计每个待翻译句落中的词汇数量Bm、待翻译句落中的判别符号的个数Dm以及待翻译段落中判别符号的个数Dz
分别计算每个待翻译句落的难度指数
M=0.22*Bm/Bz+0.25*Dm/Dz+0.53*X,
其中,所述判别符号包括逗号、顿号、分号、冒号和破折号;
步骤S214:将待翻译句落按照难度指数从大到小的顺序排序,选取排序第一的待翻译句落为优选翻译句落。
步骤S22:采集对所述优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译,比较所述人工翻译与所述各个翻译系统人工智能翻译的相似度,将相似度按照从大到小的顺序排序,选取排序前三名的翻译系统为优选翻译系统。
步骤S3:各个优选翻译系统分别将待翻译段落从源语言翻译成目标语言,选取其中一个优选翻译系统为待评估优选翻译系统,分别比较待评估优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度,
则该待评估优选翻译系统的综合相似度K=u1+u2,其中,u1为待评估优选翻译系统与其中一个优选翻译系统翻译出来的目标语言的相似度,u2为待评估优选翻译系统与另一个优选翻译系统翻译出来的目标语言的相似度,
计算所有优选翻译系统为待评估优选翻译系统时的综合相似度,并将所有优选翻译系统按照综合相似度从大到小的顺序排序,选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于大数据的段落翻译系统,其特征在于:所述翻译系统包括待翻译段落获取模块、优选翻译系统选取模块和最佳翻译目标语言选取模块,所述待翻译段落获取模块用于获取待翻译段落的源语言、目标语言类型以及待翻译段落的所属行业类别,所述优选翻译系统选取模块根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统,所述最佳翻译目标语言选取模块用于从各个优选翻译系统翻译出的目标语言中选取最佳翻译目标语言。
2.根据权利要求1所述的一种基于大数据的段落翻译系统,其特征在于:所述待翻译段落获取模块包括段落采集模块、关键词提取模块和段落归类模块,所述段落采集模块用于采集待翻译段落的源语言和待翻译段落要翻译的目标语言类型,所述关键词提取模块用于确定待翻译段落中的各个关键词以及每个关键词所属的行业类别,所述段落归类模块用于统计待翻译段落中的关键词所属最多的行业类别,将关键词所属最多的行业类别作为所述待翻译段落的行业类别。
3.根据权利要求2所述的一种基于大数据的段落翻译系统,其特征在于:所述优选翻译系统选取模块包括句落划分模块、优选句落选取模块和优选系统选取模块,所述句落划分模块用于将待翻译段落划分成若干个待翻译句落,所述优选句落选取模块包括专业词汇采集模块、文献数据库搜索模块、句落稀有情况统计模块、难度情况统计模块和难度情况排序模块,所述专业词汇采集模块用于采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇,所述文献数据库搜索模块用于搜索统计专业词汇以及专业词汇的目标语言在语言类型为源语言的文献数据库中的出现情况,所述句落稀有情况统计模块根据文献数据库搜索模块的统计结果统计每个待翻译句落中的综合稀有指数,所述难度情况统计模块用于统计每个待翻译句落中的词汇情况以及每个待翻译句落中停顿情况,并结合每个待翻译句落中的综合稀有指数计算每个待翻译句落的难度指数,所述难度情况排序模块将待翻译句落按照难度指数从大到小的顺序排序,选取排序第一的待翻译句落为优选翻译句落;所述优选系统选取模块采集对优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译,根据人工翻译与各个翻译系统人工智能翻译的相似度选取优选翻译系统。
4.根据权利要求3所述的一种基于大数据的段落翻译系统,其特征在于:所述最佳翻译目标语言选取模块包括目标语言相似度比较模块和目标语言排序模块,所述目标语言相似度比较模块用于比较其中一个优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度,并据此计算所选翻译系统的综合相似度,所述目标语言排序模块将所有优选翻译系统按照综合相似度从大到小的顺序排序,选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。
5.一种基于大数据的段落翻译方法,其特征在于:所述翻译方法包括以下步骤:
步骤S1:获取待翻译段落,确定所述待翻译段落的源语言、目标语言类型以及所述待翻译段落的所属行业类别;
步骤S2:根据多维数据从多个人工智能翻译系统中选取多个优选翻译系统;
步骤S3:各个优选翻译系统分别将待翻译段落从源语言翻译成目标语言,比较各个优选翻译系统翻译的目标语言,并从中选取最佳翻译目标语言。
6.根据权利要求5所述的一种基于大数据的段落翻译方法,其特征在于:所述步骤S1进一步包括:
确定待翻译段落中的各个关键词以及每个关键词所属的行业类别;
统计所述待翻译段落中的关键词所属最多的行业类别,将关键词所属最多的行业类别作为所述待翻译段落的行业类别。
7.根据权利要求5所述的一种基于大数据的段落翻译方法,其特征在于:所述步骤S2包括:
步骤S21:将待翻译段落划分成若干个待翻译句落,根据多维数据从待翻译句落中选取优选翻译句落;
步骤S22:采集对所述优选翻译句落的从源语言到目标语言的人工翻译以及各个翻译系统的人工智能翻译,比较所述人工翻译与所述各个翻译系统人工智能翻译的相似度,将相似度按照从大到小的顺序排序,选取排序前三名的翻译系统为优选翻译系统。
8.根据权利要求7所述的一种基于大数据的段落翻译方法,其特征在于:所述步骤S21中将待翻译段落划分成若干个待翻译句落进一步包括:将相邻两个划分符号之间词汇划分为一个待翻译句落,其中,所述划分符号包括句号、问号和感叹号。
9.根据权利要求7所述的一种基于大数据的段落翻译方法,其特征在于:所述步骤S3进一步包括:
选取其中一个优选翻译系统为待评估优选翻译系统,分别比较待评估优选翻译系统翻译出来的目标语言与另外两个优选翻译系统翻译出来的目标语言的相似度,
则该待评估优选翻译系统的综合相似度K=u1+u2,其中,u1为待评估优选翻译系统与其中一个优选翻译系统翻译出来的目标语言的相似度,u2为待评估优选翻译系统与另一个优选翻译系统翻译出来的目标语言的相似度,
计算所有优选翻译系统为待评估优选翻译系统时的综合相似度,并将所有优选翻译系统按照综合相似度从大到小的顺序排序,选取排序第一的优选翻译系统翻译的目标语言为最佳翻译目标语言。
10.根据权利要求7所述的一种基于大数据的段落翻译方法,其特征在于:所述步骤S21中根据多维数据从待翻译句落中选取优选翻译句落包括:
步骤S211:采集待翻译段落中属于所述待翻译段落的所属行业类别的专业词汇,并确定待翻译段落中的词汇数量Bm
步骤S212:在语言类型为源语言的文献数据库中搜索优选文献,其中,如果一篇文献中包含有某个专业词汇,那么该篇文献为该专业词汇的优选文献,
统计所有专业词汇的优选文献的篇数M以及每个专业词汇的优选文献篇数N,
在各个专业词汇的优选文献中筛选出包含出现专业词汇的目标语言的文献并统计相应的文献篇数P,
分别计算每个专业词汇的稀度指数
r=0.4*N/M+0.6*P/N;
计算每个待翻译句落中的综合稀有指数
Figure FDA0002511867840000051
Figure FDA0002511867840000052
其中,j表示待翻译句落中专业词汇的个数,rj表示待翻译句落中第i个专业词汇的稀有指数,ti表示第i个专业词汇在待翻译段落中出现的频数,tz表示所有专业词汇在待翻译段落中出现的频数之和;
步骤S213:统计每个待翻译句落中的词汇数量Bm、待翻译句落中的判别符号的个数Dm以及待翻译段落中判别符号的个数Dz
分别计算每个待翻译句落的难度指数
M=0.22*Bm/Bz+0.25*Dm/Dz+0.53*X,
其中,所述判别符号包括逗号、顿号、分号、冒号和破折号;
步骤S214:将待翻译句落按照难度指数从大到小的顺序排序,选取排序第一的待翻译句落为优选翻译句落。
CN202010463822.9A 2020-05-27 2020-05-27 一种基于大数据的段落翻译系统及其方法 Active CN111626066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010463822.9A CN111626066B (zh) 2020-05-27 2020-05-27 一种基于大数据的段落翻译系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010463822.9A CN111626066B (zh) 2020-05-27 2020-05-27 一种基于大数据的段落翻译系统及其方法

Publications (2)

Publication Number Publication Date
CN111626066A true CN111626066A (zh) 2020-09-04
CN111626066B CN111626066B (zh) 2021-04-13

Family

ID=72272324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010463822.9A Active CN111626066B (zh) 2020-05-27 2020-05-27 一种基于大数据的段落翻译系统及其方法

Country Status (1)

Country Link
CN (1) CN111626066B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595398A (zh) * 2003-09-09 2005-03-16 株式会社国际电气通信基础技术研究所 选择改良多个候补译文所生成的最优译文的机器翻译系统
CN107870904A (zh) * 2017-11-22 2018-04-03 北京搜狗科技发展有限公司 一种翻译方法、装置以及用于翻译的装置
CN109299481A (zh) * 2018-11-15 2019-02-01 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法、装置及电子设备
CN109344408A (zh) * 2018-08-24 2019-02-15 腾讯科技(深圳)有限公司 一种译文检测方法、装置及电子设备
CN109710948A (zh) * 2018-11-27 2019-05-03 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法及装置
CN110532574A (zh) * 2019-08-20 2019-12-03 语联网(武汉)信息技术有限公司 机器翻译引擎选择方法及装置
CN110543642A (zh) * 2019-08-20 2019-12-06 语联网(武汉)信息技术有限公司 基于机器翻译引擎的翻译方法及装置
CN110837742A (zh) * 2019-11-15 2020-02-25 广州市汇泉翻译服务有限公司 一种包含人工智能的人机结合译文批量处理翻译方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595398A (zh) * 2003-09-09 2005-03-16 株式会社国际电气通信基础技术研究所 选择改良多个候补译文所生成的最优译文的机器翻译系统
CN107870904A (zh) * 2017-11-22 2018-04-03 北京搜狗科技发展有限公司 一种翻译方法、装置以及用于翻译的装置
CN109344408A (zh) * 2018-08-24 2019-02-15 腾讯科技(深圳)有限公司 一种译文检测方法、装置及电子设备
CN109299481A (zh) * 2018-11-15 2019-02-01 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法、装置及电子设备
CN109710948A (zh) * 2018-11-27 2019-05-03 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法及装置
CN110532574A (zh) * 2019-08-20 2019-12-03 语联网(武汉)信息技术有限公司 机器翻译引擎选择方法及装置
CN110543642A (zh) * 2019-08-20 2019-12-06 语联网(武汉)信息技术有限公司 基于机器翻译引擎的翻译方法及装置
CN110837742A (zh) * 2019-11-15 2020-02-25 广州市汇泉翻译服务有限公司 一种包含人工智能的人机结合译文批量处理翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐艳平: "人工智能翻译应用前景分析", 《合作经济与科技》 *
罗华珍 等: "人工智能翻译的发展现状和前景分析", 《电子世界》 *

Also Published As

Publication number Publication date
CN111626066B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN112699246A (zh) 基于知识图谱的领域知识推送方法
CN112581006A (zh) 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN111460091B (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN110738053A (zh) 基于语义分析与监督学习模型的新闻主题推荐算法
CN111949774A (zh) 一种智能问答方法和系统
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN112418331A (zh) 一种基于聚类融合的半监督学习伪标签赋值方法
CN117171333A (zh) 一种电力文件问答式智能检索方法及系统
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN113032550B (zh) 一种基于预训练语言模型的观点摘要评价系统
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
CN108399238A (zh) 一种融合文本概念化和网络表示的观点检索系统及方法
CN109344248B (zh) 一种基于科技文献摘要聚类的学术主题生命周期分析方法
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN111626066B (zh) 一种基于大数据的段落翻译系统及其方法
CN117633148A (zh) 一种基于融合多策略对比学习的医学术语标准化方法
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN116628192A (zh) 基于Seq2Seq-Attention的文本主题表示方法
CN115809312A (zh) 一种基于多路召回的搜索召回方法
CN114610941A (zh) 基于对比学习的文物图像检索系统
CN112926340A (zh) 一种用于知识点定位的语义匹配模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210324

Address after: No. 188, Yulong Avenue, Yufengshan Town, Yubei District, Chongqing

Applicant after: Chongqing Liuhua Network Technology Co.,Ltd.

Address before: No.88, Jiangzhou South Road, Hailing District, Taizhou City, Jiangsu Province 225300

Applicant before: Xin Junyi

GR01 Patent grant
GR01 Patent grant