CN111191469B - 大规模语料清洗对齐方法及装置 - Google Patents

大规模语料清洗对齐方法及装置 Download PDF

Info

Publication number
CN111191469B
CN111191469B CN201911303493.5A CN201911303493A CN111191469B CN 111191469 B CN111191469 B CN 111191469B CN 201911303493 A CN201911303493 A CN 201911303493A CN 111191469 B CN111191469 B CN 111191469B
Authority
CN
China
Prior art keywords
sentence
corpus
sentences
alignment
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911303493.5A
Other languages
English (en)
Other versions
CN111191469A (zh
Inventor
袁建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201911303493.5A priority Critical patent/CN111191469B/zh
Publication of CN111191469A publication Critical patent/CN111191469A/zh
Application granted granted Critical
Publication of CN111191469B publication Critical patent/CN111191469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种大规模语料清洗对齐方法及装置,所述方法包括:对历史稿件进行解析和分句,获得句子集合;取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。本发明实施例提供的大规模语料清洗对齐方法及装置,无须花费大量人力,计算复杂度低、准确率高,能够自动地对大规模语料进行清洗对齐。

Description

大规模语料清洗对齐方法及装置
技术领域
本发明涉及机器翻译技术领域,更具体地,涉及一种大规模语料清洗对齐方法及装置。
背景技术
随着翻译技术的发展,机器翻译被广泛地使用,产生了大量的翻译语料。但是,目前翻译行业很多项目采取Word、Excel、PDF、PPT、TEXT等文件做为翻译载体,积累了大量语料,且相关语料中原文、译文文件无法匹配对应,而解析对齐这些语料将形成巨大数字资产,为后续相关业务提供支撑。
传统的语料对齐方案,要么基于长度对齐方法,要么基于词汇对齐方法,均需要花费大量人力,计算复杂度高、准确率低。因此,亟需提供一种无须花费大量人力,计算复杂度低、准确率高的对大规模语料进行清洗对齐的方法。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的大规模语料清洗对齐方法及装置。
第一方面,本发明实施例提供一种大规模语料清洗对齐方法,包括:
对历史稿件进行解析和分句,获得句子集合;
取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。
其中,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算,具体为:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
其中,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后,还包括:
若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
其中,所述确定匹配到的句子与所述句子为一组双语对齐语料之后,还包括:
构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
第二方面,本发明实施例提供一种大规模语料清洗对齐装置,包括:
解析模块,用于对历史稿件进行解析和分句,获得句子集合;
翻译模块,用于取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
相似度匹配模块,用于对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
判断模块,用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。
其中,所述相似度匹配模块具体用于:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
其中,还包括:
删除模块,用于若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
其中,还包括:
对齐语料库生成模块,用于构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的大规模语料清洗对齐方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所提供的大规模语料清洗对齐方法的步骤。
本发明实施例提供的大规模语料清洗对齐方法及装置,无须花费大量人力,计算复杂度低、准确率高,能够自动地对大规模语料进行清洗对齐。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的大规模语料清洗对齐方法的流程示意图;
图2为本发明实施例提供的大规模语料清洗对齐装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例提供的大规模语料清洗对齐方法的流程示意图,包括:
步骤100、对历史稿件进行解析和分句,获得句子集合;
具体地,对各种类型的历史稿件进行解析,获得文本语料,然后对所述文本语料进行分句,获得由句子组成的集合,即形成句子集合。
步骤101、取出所述句子集合中的任意一个句子进行语种识别,并并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
具体地,取出所述句子集合中的任意一个句子,然后首先对该句子进行语种识别,再利用与该句子的语种识别结果相对应的机器翻译引擎对该句子进行翻译,获得该句子对应的译文。
步骤102、对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
具体地,从取出了该句子的句子集合中匹配出与该句子对应的译文最相似的句子。具体通过逐一从取出了该句子的句子集合中提取出一个句子,与该句子对应的译文进行相似度匹配计算。
例如,若句子集合包含了N个句子,则取出了该句子的句子集合还剩下N-1个句子,那么,将这N-1个句子逐一与该句子进行相似度匹配计算。
步骤103、若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。
具体地,根据相似度匹配计算的结果,确定句子集合中是否存在某个句子与该句子对应的译文之间的相似度达到、甚至是高于预先设定的阈值,若存在,则匹配到一个句子,与该句子能够组成一组双语对齐语料。然后取出所述句子集合中剩下的N-2个句子中的任意一个句子,执行如上步骤101至103,直至所述句子集合为空。
本发明实施例提供的大规模语料清洗对齐方法,无须花费大量人力,计算复杂度低、准确率高,能够自动地对大规模语料进行清洗对齐。
基于上述实施例的内容,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算,具体为:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
具体地,余弦相似度计算方法用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,差异越小,余弦值越大。本发明实施例中利用余弦相似度来衡量两个句子之间的相似度,即基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。余弦相似度计算方法简单、易实现,适合本发明实施例大规模语料对齐场景。
基于上述实施例的内容,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后,还包括:
若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
具体地,若确定取出了该句子的句子集合中的每个句子与该句子对应的译文之间的相似度均未达到预设阈值,则说明该句子集合中不存在该句子的译文,则从句子集合中删除该句子。然后取出所述句子集合中剩下的N-1个句子中的任意一个句子,执行如上步骤101至103,直至所述句子集合为空。
基于上述实施例的内容,所述确定匹配到的句子与所述句子为一组双语对齐语料之后,还包括:
构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
具体地,构建双语对齐语料库,用于对齐后的语料。
若确定匹配到的句子与该句子为一组双语对齐语料,则从句子集合中删除匹配到的句子与该句子,将匹配到的句子与该句子加入至双语对齐语料库中。然后继续执行上述步骤101至103,直至句子集合为空。
如图2所示,为本发明实施例提供的大规模语料清洗对齐装置的结构示意图,包括:解析模块210、翻译模块220、相似度匹配模块230和判断模块240,其中,
解析模块210,用于对历史稿件进行解析和分句,获得句子集合;
具体地,解析模块210对各种类型的历史稿件进行解析,获得文本语料,然后对所述文本语料进行分句,获得由句子组成的集合,即形成句子集合。
翻译模块220,用于取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
具体地,翻译模块取出所述句子集合中的任意一个句子,然后首先对该句子进行语种识别,再利用与该句子的语种识别结果相对应的机器翻译引擎对该句子进行翻译,获得该句子对应的译文。
相似度匹配模块230,用于对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
具体地,相似度匹配模块230从取出了该句子的句子集合中匹配出与该句子对应的译文最相似的句子。具体通过逐一从取出了该句子的句子集合中提取出一个句子,与该句子对应的译文进行相似度匹配计算。
例如,若句子集合包含了N个句子,则相似度匹配模块230取出了该句子的句子集合还剩下N-1个句子,那么,将这N-1个句子逐一与该句子进行相似度匹配计算。
判断模块240,用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。
具体地,判断模块240根据相似度匹配计算的结果,确定句子集合中是否存在某个句子与该句子对应的译文之间的相似度达到、甚至是高于预先设定的阈值,若存在,则匹配到一个句子,与该句子能够组成一组双语对齐语料。
然后由翻译模块、相似度匹配模块和判断模块继续交互完成相关步骤,取出所述句子集合中剩下的N-2个句子中的任意一个句子,进行下一个双语语料的对齐过程,直至所述句子集合为空。
本发明实施例提供的大规模语料清洗对齐装置,无须花费大量人力,计算复杂度低、准确率高,能够自动地对大规模语料进行清洗对齐。
基于上述实施例的内容,所述相似度匹配模块230具体用于:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
具体地,余弦相似度计算方法用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,差异越小,余弦值越大。本发明实施例中相似度匹配模块230利用余弦相似度来衡量两个句子之间的相似度,即基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。余弦相似度计算方法简单、易实现,适合本发明实施例大规模语料对齐场景。
基于上述实施例的内容,所述大规模语料清洗对齐装置还包括:
删除模块,用于若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
具体地,若确定取出了该句子的句子集合中的每个句子与该句子对应的译文之间的相似度均未达到预设阈值,则说明该句子集合中不存在该句子的译文,则利用删除模块从句子集合中删除该句子。然后由翻译模块、相似度匹配模块和判断模块继续交互完成相关步骤,取出所述句子集合中剩下的N-1个句子中的任意一个句子,进行下一个双语语料的对齐过程,直至所述句子集合为空。
基于上述实施例的内容,所述大规模语料清洗对齐装置还包括:
对齐语料库生成模块,用于构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
具体地,对齐语料库生成模块首先构建双语对齐语料库,用于对齐后的语料,若确定匹配到的句子与该句子为一组双语对齐语料,则从句子集合中删除匹配到的句子与该句子,将匹配到的句子与该句子加入至双语对齐语料库中。然后由翻译模块、相似度匹配模块和判断模块继续交互完成相关步骤,取出所述句子集合中剩下的句子中的任意一个句子,进行下一个双语语料的对齐过程,直至所述句子集合为空。
图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,所述电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各方法实施例所提供的大规模语料清洗对齐方法,例如包括:对历史稿件进行解析和分句,获得句子集合;取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各方法实施例提供的大规模语料清洗对齐方法,例如包括:对历史稿件进行解析和分句,获得句子集合;取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,所述计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种大规模语料清洗对齐方法,其特征在于,包括:
对历史稿件进行解析和分句,获得句子集合;
取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料;
其中,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算,具体为:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
2.根据权利要求1所述的大规模语料清洗对齐方法,其特征在于,对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算之后,还包括:
若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
3.根据权利要求1所述的大规模语料清洗对齐方法,其特征在于,所述确定匹配到的句子与所述句子为一组双语对齐语料之后,还包括:
构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
4.一种大规模语料清洗对齐装置,其特征在于,包括:
解析模块,用于对历史稿件进行解析和分句,获得句子集合;
翻译模块,用于取出所述句子集合中的任意一个句子进行语种识别,并调用与语种识别结果相对应的机器翻译引擎对所述句子进行翻译,获得所述句子对应的译文;
相似度匹配模块,用于对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算;
判断模块,用于若匹配到某个句子与所述句子对应的译文之间的相似度达到预设阈值,则确定匹配到的句子与所述句子为一组双语对齐语料;
其中,所述相似度匹配模块具体用于:
基于余弦相似度对所述句子对应的译文和取出了所述句子的句子集合进行相似度匹配计算。
5.根据权利要求4所述的大规模语料清洗对齐装置,其特征在于,还包括:
删除模块,用于若确定取出了所述句子的句子集合中的每个句子与所述句子对应的译文之间的相似度均未达到预设阈值,则删除所述句子。
6.根据权利要求4所述的大规模语料清洗对齐装置,其特征在于,还包括:
对齐语料库生成模块,用于构建双语对齐语料库,将匹配到的句子与所述句子加入至所述双语对齐语料库中。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述大规模语料清洗对齐方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述大规模语料清洗对齐方法的步骤。
CN201911303493.5A 2019-12-17 2019-12-17 大规模语料清洗对齐方法及装置 Active CN111191469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303493.5A CN111191469B (zh) 2019-12-17 2019-12-17 大规模语料清洗对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303493.5A CN111191469B (zh) 2019-12-17 2019-12-17 大规模语料清洗对齐方法及装置

Publications (2)

Publication Number Publication Date
CN111191469A CN111191469A (zh) 2020-05-22
CN111191469B true CN111191469B (zh) 2023-09-19

Family

ID=70709596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303493.5A Active CN111191469B (zh) 2019-12-17 2019-12-17 大规模语料清洗对齐方法及装置

Country Status (1)

Country Link
CN (1) CN111191469B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257472B (zh) * 2020-11-13 2024-04-26 腾讯科技(深圳)有限公司 一种文本翻译模型的训练方法、文本翻译的方法及装置
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法
CN108021560A (zh) * 2017-12-07 2018-05-11 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN109830229A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 音频语料智能清洗方法、装置、存储介质和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法
CN108021560A (zh) * 2017-12-07 2018-05-11 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109299480A (zh) * 2018-09-04 2019-02-01 上海传神翻译服务有限公司 基于上下文语境的术语翻译方法及装置
CN109830229A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 音频语料智能清洗方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王闻慧.基于谷歌翻译及Doc2vec的中英句子相似度计算.《电脑知识与技术》.2019,第15卷(第15期),224-227. *

Also Published As

Publication number Publication date
CN111191469A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN111191469B (zh) 大规模语料清洗对齐方法及装置
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
CN110309516B (zh) 机器翻译模型的训练方法、装置与电子设备
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN110727880A (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN113408272A (zh) 摘要生成模型的训练方法、装置、设备和存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN113806486A (zh) 长文本相似度的计算方法及装置、存储介质、电子装置
CN110147558B (zh) 一种翻译语料处理的方法和装置
CN110245361B (zh) 短语对提取方法、装置、电子设备及可读存储介质
CN111859950A (zh) 一种自动化生成讲稿的方法
CN112395866B (zh) 报关单数据匹配方法及装置
CN110929022A (zh) 一种文本摘要生成方法及系统
CN109977430B (zh) 一种文本翻译方法、装置及设备
CN115994544A (zh) 平行语料筛选方法、平行语料筛选设备和可读存储介质
CN109684357A (zh) 信息处理方法及装置、存储介质、终端
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN109492224B (zh) 一种词表构建的方法及装置
CN113312903A (zh) 一种5g移动业务产品词库的构建方法及系统
CN111178090A (zh) 一种用于企业名称翻译的方法及系统
CN112395865B (zh) 报关单校验方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant