CN110210041A - 互译句对齐方法、装置及设备 - Google Patents

互译句对齐方法、装置及设备 Download PDF

Info

Publication number
CN110210041A
CN110210041A CN201910432979.2A CN201910432979A CN110210041A CN 110210041 A CN110210041 A CN 110210041A CN 201910432979 A CN201910432979 A CN 201910432979A CN 110210041 A CN110210041 A CN 110210041A
Authority
CN
China
Prior art keywords
sentence
aligned
semantic vector
intertranslation
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910432979.2A
Other languages
English (en)
Other versions
CN110210041B (zh
Inventor
王一鸣
张睿卿
何中军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910432979.2A priority Critical patent/CN110210041B/zh
Publication of CN110210041A publication Critical patent/CN110210041A/zh
Application granted granted Critical
Publication of CN110210041B publication Critical patent/CN110210041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种互译句对齐方法、装置及设备,其中,方法包括:获取待对齐语句;将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量;将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,降低了互译句对齐的计算量,扩充了互译句挖掘的适用场景。

Description

互译句对齐方法、装置及设备
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种互译句对齐方法、装置及设备。
背景技术
互译句是指对于两个单语数据集D1和D2,其中部分或全部数据存在互译关系,即对于D1中的一条数据d1,在D2中存在一条数据d2与d1所表达意思相同。比如D1={"今天天气怎么样","今天天气很好"},D2={“how is the weather today”,"i am fine","hello"},对于d1=“今天天气怎么样”和d2=“how is the weather today"其表达的意思是相同的,存在互译关系。而句对齐是指将两个数据集中存在互译关系的句对提取出来。机器翻译在训练和预测的时候需要大量的互译句对,因而互译句对齐对于机器翻译的语料获取来说非常重要。
相关技术中,通常通过词典或者机器翻译将两个句子统一到同一种语言,进而通过编辑距离等字符串相似度计算方法判定两个句子是否存在互译关系。然而,该方案中互译关系判定的计算量较大,无法进行全局搜索,计算量大的问题使得现有句对齐工具的适用场景非常局限。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种互译句对齐方法,能够根据语句的语义向量相似度确定互译句对齐结果,降低了互译句对齐的计算量,扩充了互译句挖掘的适用场景。
本发明的第二个目的在于提出一种互译句对齐装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
本发明第一方面实施例提出了一种互译句对齐方法,包括:
获取待对齐语句;
将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果。
本发明实施例的互译句对齐方法,通过获取待对齐语句,进而将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。进一步,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。进一步,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
另外,根据本发明上述实施例的互译句对齐方法还可以具有如下附加技术特征:
可选地,所述获取待对齐语句包括:获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;判断所述待处理的语句数据的语种类别是否为预设的语种类别;若是,则将所述待处理的语句数据作为所述待对齐语句。
可选地,在将所述待对齐语句输入到预先训练的语言模型中进行处理之前,还包括:获取目标语种的语句训练数据;根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
可选地,在将所述语义向量输入到预先训练的映射模型中进行处理之前,还包括:从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
可选地,所述根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果包括:根据第一语种的目标待对齐语句,从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果。
可选地,在获取映射到目标向量空间的目标语义向量之后,还包括:针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
本发明第二方面实施例提出了一种互译句对齐装置,包括:
获取模块,用于获取待对齐语句;
处理模块,用于将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
映射模块,用于将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
确定模块,用于获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果。
本发明实施例的互译句对齐装置,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
另外,根据本发明上述实施例的互译句对齐装置还可以具有如下附加技术特征:
可选地,所述获取模块具体用于:获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;判断所述待处理的语句数据的语种类别是否为预设的语种类别;若是,则将所述待处理的语句数据作为所述待对齐语句。
可选地,所述的装置还包括:第一训练模块,用于获取目标语种的语句训练数据;根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
可选地,所述的装置还包括:第二训练模块,用于从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
可选地,所述确定模块具体用于:根据第一语种的目标待对齐语句,从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果。
可选地,所述的装置还包括:存储模块,用于针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的互译句对齐方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的互译句对齐方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种互译句对齐方法的流程示意图;
图2为本发明实施例所提供的另一种互译句对齐方法的流程示意图;
图3为本发明实施例所提供的一种互译句对齐装置的结构示意图;
图4为本发明实施例所提供的另一种互译句对齐装置的结构示意图;
图5示出了适于用来实现本发明实施例的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的互译句对齐方法、装置及设备。
图1为本发明实施例所提供的一种互译句对齐方法的流程示意图,如图1所示,该方法包括:
步骤101,获取待对齐语句。
本发明实施例中,在进行互译句对齐时,可以先收集海量数据并对收集的数据进行分句处理,从而获取待对齐语句。例如,可以从互联网上收集新闻文本、视频字幕等数据,并进行分句处理,进而将分句后的句子作为待对齐语句。
步骤102,将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。
在本发明的一个实施例中,可以获取目标语种的语句训练数据,并根据语句训练数据训练预设模型的处理参数,生成目标语种的语言模型,使语言模型的输入为目标语种的语句数据,输出为该语句数据对应的语义向量。其中,语言模型可以基于深度神经网络训练,用于学习语义表示。
作为一种示例,当训练中文的语言模型时,可以收集中文的语料数据,并根据中文的语句训练中文的语言模型,使语言模型输入为中文语句,输出为对应的语义向量。进而,当获取中文的待对齐语句时,将该语句输入到中文的语言模型中进行处理,输出与该语句对应的语义向量。
步骤103,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。
在本发明的一个实施例中,可以收集不同语种的互译句语料数据,并从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,第一语句与第二语句为互译句,进而根据第一语义向量和第二语义向量训练机器翻译模型的处理参数,生成映射模型。
作为一种示例,可以先收集语种1和语种2的互译句数据,比如收集中文的语句“今天天气怎么样”和存在对应互译关系的英文语句“how is the weather today”。进而,根据中文对应的语言模型,以及英文对应的语言模型分别对上述语句进行处理,分别获取相应的语义向量A和语义向量B。进而根据语义向量A和B训练机器翻译模型的处理参数,生成映射模型,使映射模型输入为语义向量A时,输出为语义向量B,以及输入为语义向量B时,输出为语义向量B。由此,能够将不同语种的语义向量转换至同一向量空间。
可选地,还可以预先设置判别条件,在输入语义向量时判定该语义向量是否需要映射。例如,当输入的语义向量对应的语种为预设的语种时,不需要进行映射直接将该语义向量作为目标语义向量。
需要说明的是,上述将语义向量映射到目标向量空间的解释说明仅为一种示例,此处不作具体限制。
本实施例中,在获取待对齐语句对应的语义向量后,将语义向量输入到映射模型中进行处理,获取该语句对应的目标语义向量,其中,目标语义向量为上述语义向量映射到目标向量空间中得到的。作为一种示例,对于语种1、语种2和语种3中的语义向量A、B、C,将语义向量B和C分别输入到映射模型中,分别获取映射到语义向量A的向量空间的目标语义向量,将语义向量A输入到映射模型中,输出语义向量A作为对应的目标语义向量。
步骤104,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。
本实施例中,在根据映射模型获取待对齐语句对应的目标语义向量后,由于语义向量被映射至同一向量空间,因此可以获取各目标语义向量之间的相似度,并根据相似度确定互译句对齐结果。例如,对于一语种的目标语义向量A,可以获取另一语种中相似度最高的目标语义向量B,根据A和B对应的语句生成相应语种的互译句对齐结果。
其中,相似度包括但不限于距离算法、相关系数等。
作为一种可能的实现方式,可以通过上述步骤获取不同语种的待对齐语句和对应的目标语义向量,进而将待对齐语句和目标语义向量根据不同语种进行存储,从而实现线下训练过程。当确定语种1中待对齐语句A在语种2中的互译句时,可以将待对齐语句A的目标语义向量与语种2中各存储的目标语义向量进行匹配,获取相似程度最高的目标语义向量对应的语句B,作为语句A的互译句,从而重复上述方式可以获取各语种的互译句对齐结果。
本发明实施例的互译句对齐方法,通过获取待对齐语句,进而将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。进一步,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。进一步,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
基于上述实施例,进一步地,在获取待对齐语句对应的目标语义向量后,可以基于图搜索算法根据相似度确定互译句对齐结果,从而能够在有噪的数据中进行句对齐。
图2为本发明实施例所提供的另一种互译句对齐方法的流程示意图,如图2所示,该方法包括:
步骤201,获取待对齐语句。
本实施例中,在获取互译句对齐结果时,通常根据需要对相应语种进行互译句对齐。因此,在对海量数据进行互译句对齐时,可以先通过分类模型对语句进行分类,确定各语句对应的语种类别。
作为一种可能的实现方式,可以收集不同语种的语料数据,并对每条数据标注对应的语种类别。进而,根据标注的数据进行训练,生成分类模型,使分类模型输入为语句,输出为语种类别。进而,获取待处理的语句数据,并将待处理的语句数据输入到分类模型中进行处理,获取待处理的语句数据的语种类别;判断待处理的语句数据的语种类别是否为预设的语种类别;若是,则将待处理的语句数据作为待对齐语句。
作为一种示例,对中文和英文进行互译句对齐时,分类模型输出可以为中文、英文、其他,将待处理的语句数据输入到分类模型中进行处理,获取语种类别为中文、英文时确定待对齐语句,获取语种类别为其他时不作为待对齐语句。其中,分类模型可以根据需要选取相应神经网络实现。
步骤202,将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。
步骤203,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。
在本发明的一个实施例中,在获取待对齐语句对应的目标语义向量后,可以针对每一语种通过KD树(k-dimensional树的简称,用于高维向量匹配和存储)存储待对齐语句和对应的目标语义向量。当后续有其他数据加入时,可以直接插入到存储结构中,不需要对已有数据进行重新建树存储。
前述实施例对步骤102、步骤103的解释说明同样适用于步骤202、步骤203,此处不再赘述。
步骤204,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据第一语种的目标待对齐语句,从第二语种的待对齐语句中确定相似度大于预设阈值的候选语句。
作为一种示例,可以选中一个语种的KD树,并对树中存储的待对齐语句和对应的目标语义表示向量逐条抽取,并根据目标语义向量在另一个语种的KD树中进行匹配,通过预设的相似度阈值进行筛选,若另一个语种的KD树中没有匹配到符合相似度阈值的语句,则表示该句在当前数据中不存在互译句对齐关系,将该句舍弃。若在另一个语种的KD树中匹配到符合相似度阈值的句子,则按照相似度排序,取前N个语句作为该句的候选语句。当所有待对齐语句遍历完成,将所有待对齐语句和对应的候选语句作为挖掘候选数据集合。
步骤205,根据目标待对齐语句和候选语句生成有向图,其中,有向图中每两个相似度大于预设阈值的不同语种的句子之间建立相互的两条有向边。
本实施例中,对于每两个相似度符合阈值的不同语种的待对齐语句之间建立相互的两条有向边,其中,每条有向边对应的权值为相应目标语义向量之间的相似度值。
作为一种示例,对于存在交叉相似的集合,例如s11和s21相似、s11和s22相似、s12和s21相似的情况,存在s11分别指向s21和s22的边,s12存在指向s21的边,s21存在指向s11和s12的边,s22存在指向s11的边。
步骤206,通过关键路径算法获取有向图中的最优路径,根据最优路径确定互译句对齐结果。
本实施例中,可以根据待对齐语句和对应的候选语句生成一个或多个有向图,每个有向图中包括相似度大于预设阈值的句子。进而,通过关键路径算法对每个有向图分别进行计算,获取有向图中的最优路径,并获取最优路径上的待对齐语句作为互译句对齐结果。
作为一种示例,对于第一语种的待对齐语句1,在第二语种中存在候选语句2、3、4,则根据生成有向图,其中1和2、1和3、1和4之间存在相互的有向边。进而,通过关键路径算法根据相似度计算出该有向图中的最优路径为1-2的路径,则确定语句1在第二语种中的互译句为语句2,由此生成互译句对齐结果。
本发明实施例的互译句对齐方法,能够基于语义理解获取互译句关系,并且,将相似度计算这一计算量较大的步骤分解为离线步骤,只需要执行一次,后续每次挖掘都不需要重复执行,进一步降低了计算量。通过图搜索算法根据语义向量相似度获取互译句对齐结果,从而可以在有噪的数据中进行句对齐。
为了实现上述实施例,本发明还提出一种互译句对齐装置。
图3为本发明实施例所提供的一种互译句对齐装置的结构示意图,如图3所示,该装置包括:获取模块100,处理模块200,映射模块300,确定模块400。
其中,获取模块100,用于获取待对齐语句。
处理模块200,用于将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。
映射模块300,用于将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。
确定模块400,用于获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。
在图3的基础上,图4所示的互译句对齐装置还包括:第一训练模块500,第二训练模块600,存储模块700。
其中,第一训练模块500,用于获取目标语种的语句训练数据;根据语句训练数据训练预设模型的处理参数,生成目标语种的语言模型。
第二训练模块600,用于从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,第一语句与第二语句为互译句;根据第一语义向量和第二语义向量训练机器翻译模型的处理参数,生成映射模型。
存储模块700,用于针对每一语种通过KD树存储待对齐语句和对应的目标语义向量。
在本发明的一个实施例中,获取模块100具体用于:获取待处理的语句数据,并将待处理的语句数据输入到分类模型中进行处理,获取待处理的语句数据的语种类别;判断待处理的语句数据的语种类别是否为预设的语种类别;若是,则将待处理的语句数据作为待对齐语句。
在本发明的一个实施例中,确定模块400具体用于:根据第一语种的目标待对齐语句,从第二语种的待对齐语句中确定相似度大于预设阈值的候选语句;根据目标待对齐语句和候选语句生成有向图,其中,有向图中每两个相似度大于预设阈值的不同语种的句子之间建立相互的两条有向边;通过关键路径算法获取有向图中的最优路径,根据最优路径确定互译句对齐结果。
需要说明的是,前述实施例对互译句对齐方法的解释说明同样适用于本实施例的装置,此处不再赘述。
本发明实施例的互译句对齐装置,通过获取待对齐语句,进而将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。进一步,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。进一步,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的互译句对齐方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的互译句对齐方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的互译句对齐方法。
图5示出了适于用来实现本发明实施例的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种互译句对齐方法,其特征在于,包括:
获取待对齐语句;
将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果。
2.如权利要求1所述的方法,其特征在于,所述获取待对齐语句包括:
获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;
判断所述待处理的语句数据的语种类别是否为预设的语种类别;
若是,则将所述待处理的语句数据作为所述待对齐语句。
3.如权利要求1所述的方法,其特征在于,在将所述待对齐语句输入到预先训练的语言模型中进行处理之前,还包括:
获取目标语种的语句训练数据;
根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
4.如权利要求1所述的方法,其特征在于,在将所述语义向量输入到预先训练的映射模型中进行处理之前,还包括:
从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;
根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
5.如权利要求1所述的方法,其特征在于,所述根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果包括:
根据第一语种的目标待对齐语句,从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;
根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;
通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果。
6.如权利要求1所述的方法,其特征在于,在获取映射到目标向量空间的目标语义向量之后,还包括:
针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
7.一种互译句对齐装置,其特征在于,包括:
获取模块,用于获取待对齐语句;
处理模块,用于将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
映射模块,用于将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
确定模块,用于获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果。
8.如权利要求7所述的装置,其特征在于,所述获取模块具体用于:
获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;
判断所述待处理的语句数据的语种类别是否为预设的语种类别;
若是,则将所述待处理的语句数据作为所述待对齐语句。
9.如权利要求7所述的装置,其特征在于,还包括:
第一训练模块,用于获取目标语种的语句训练数据;
根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
10.如权利要求7所述的装置,其特征在于,还包括:
第二训练模块,用于从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;
根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
11.如权利要求7所述的装置,其特征在于,所述确定模块具体用于:
根据第一语种的目标待对齐语句,从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;
根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;
通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果。
12.如权利要求7所述的装置,其特征在于,还包括:
存储模块,用于针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
13.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一项所述的互译句对齐方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的互译句对齐方法。
CN201910432979.2A 2019-05-23 2019-05-23 互译句对齐方法、装置及设备 Active CN110210041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910432979.2A CN110210041B (zh) 2019-05-23 2019-05-23 互译句对齐方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910432979.2A CN110210041B (zh) 2019-05-23 2019-05-23 互译句对齐方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110210041A true CN110210041A (zh) 2019-09-06
CN110210041B CN110210041B (zh) 2023-04-18

Family

ID=67788231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910432979.2A Active CN110210041B (zh) 2019-05-23 2019-05-23 互译句对齐方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110210041B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674260A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111859997A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN112825109A (zh) * 2019-11-20 2021-05-21 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
US20160103916A1 (en) * 2014-10-10 2016-04-14 Salesforce.Com, Inc. Systems and methods of de-duplicating similar news feed items
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
US9684543B1 (en) * 2016-02-05 2017-06-20 Sas Institute Inc. Distributed data set storage, retrieval and analysis
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
US20180120594A1 (en) * 2015-05-13 2018-05-03 Zhejiang Geely Holding Group Co., Ltd Smart glasses
CN108021560A (zh) * 2017-12-07 2018-05-11 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108701118A (zh) * 2016-02-11 2018-10-23 电子湾有限公司 语义类别分类
CN108765472A (zh) * 2018-05-18 2018-11-06 安徽大学 基于稀疏有向图的图像集配准方法
CN109753571A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于二次主题空间投影的场景图谱低维空间嵌入方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
US20160103916A1 (en) * 2014-10-10 2016-04-14 Salesforce.Com, Inc. Systems and methods of de-duplicating similar news feed items
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
US20180120594A1 (en) * 2015-05-13 2018-05-03 Zhejiang Geely Holding Group Co., Ltd Smart glasses
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
US9684543B1 (en) * 2016-02-05 2017-06-20 Sas Institute Inc. Distributed data set storage, retrieval and analysis
CN108701118A (zh) * 2016-02-11 2018-10-23 电子湾有限公司 语义类别分类
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN108021560A (zh) * 2017-12-07 2018-05-11 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108765472A (zh) * 2018-05-18 2018-11-06 安徽大学 基于稀疏有向图的图像集配准方法
CN109753571A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于二次主题空间投影的场景图谱低维空间嵌入方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674260A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN110674260B (zh) * 2019-09-27 2022-05-24 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN112825109A (zh) * 2019-11-20 2021-05-21 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备
CN112825109B (zh) * 2019-11-20 2024-02-23 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111259652B (zh) * 2020-02-10 2023-08-15 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111859997A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111859997B (zh) * 2020-06-16 2024-01-26 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110210041B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110210041A (zh) 互译句对齐方法、装置及设备
JP6842167B2 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
JP5452868B2 (ja) トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
CN108280061A (zh) 基于歧义实体词的文本处理方法和装置
US8548791B2 (en) Validation of the consistency of automatic terminology translation
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN107301227A (zh) 基于人工智能的搜索信息解析方法及装置
CN114341862A (zh) 使用基于本体的概念嵌入模型的自然语言处理
CN109408826A (zh) 一种文本信息提取方法、装置、服务器及存储介质
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN113052023A (zh) Cad图纸解析方法、装置、设备及存储介质
JP2023022845A (ja) ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US11892998B2 (en) Efficient embedding table storage and lookup
CN110377694A (zh) 标注文本对逻辑关系的方法、装置、设备和计算机存储介质
US11869264B2 (en) Pre-processing a table in a document for natural language processing
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
EP4060526A1 (en) Text processing method and device
US20190095525A1 (en) Extraction of expression for natural language processing
CN113468371A (zh) 实现自然语句图像检索的方法、系统、装置、处理器及其计算机可读存储介质
CN107862045A (zh) 一种基于多特征的跨语言剽窃检测方法
JP4594992B2 (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
CN109241281A (zh) 软件失效原因生成方法、装置及设备
CN109346060A (zh) 语音识别方法、装置、设备及存储介质
Simard et al. TransSearch: A bilingual concordance tool
JP2006518502A (ja) テキスト分析のためのシステムと方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant