CN110210041B - 互译句对齐方法、装置及设备 - Google Patents

互译句对齐方法、装置及设备 Download PDF

Info

Publication number
CN110210041B
CN110210041B CN201910432979.2A CN201910432979A CN110210041B CN 110210041 B CN110210041 B CN 110210041B CN 201910432979 A CN201910432979 A CN 201910432979A CN 110210041 B CN110210041 B CN 110210041B
Authority
CN
China
Prior art keywords
sentences
aligned
language
sentence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910432979.2A
Other languages
English (en)
Other versions
CN110210041A (zh
Inventor
王一鸣
张睿卿
何中军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910432979.2A priority Critical patent/CN110210041B/zh
Publication of CN110210041A publication Critical patent/CN110210041A/zh
Application granted granted Critical
Publication of CN110210041B publication Critical patent/CN110210041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种互译句对齐方法、装置及设备,其中,方法包括:获取待对齐语句;将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量;将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,降低了互译句对齐的计算量,扩充了互译句挖掘的适用场景。

Description

互译句对齐方法、装置及设备
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种互译句对齐方法、装置及设备。
背景技术
互译句是指对于两个单语数据集D1和D2,其中部分或全部数据存在互译关系,即对于D1中的一条数据d1,在D2中存在一条数据d2与d1所表达意思相同。比如D1={"今天天气怎么样","今天天气很好"},D2={“how is the weather today”,"i am fine","hello"},对于d1=“今天天气怎么样”和d2=“how is the weather today"其表达的意思是相同的,存在互译关系。而句对齐是指将两个数据集中存在互译关系的句对提取出来。机器翻译在训练和预测的时候需要大量的互译句对,因而互译句对齐对于机器翻译的语料获取来说非常重要。
相关技术中,通常通过词典或者机器翻译将两个句子统一到同一种语言,进而通过编辑距离等字符串相似度计算方法判定两个句子是否存在互译关系。然而,该方案中互译关系判定的计算量较大,无法进行全局搜索,计算量大的问题使得现有句对齐工具的适用场景非常局限。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种互译句对齐方法,能够根据语句的语义向量相似度确定互译句对齐结果,降低了互译句对齐的计算量,扩充了互译句挖掘的适用场景。
本发明的第二个目的在于提出一种互译句对齐装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
本发明第一方面实施例提出了一种互译句对齐方法,包括:
获取待对齐语句;
将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果。
本发明实施例的互译句对齐方法,通过获取待对齐语句,进而将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。进一步,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。进一步,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
另外,根据本发明上述实施例的互译句对齐方法还可以具有如下附加技术特征:
可选地,所述获取待对齐语句包括:获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;判断所述待处理的语句数据的语种类别是否为预设的语种类别;若是,则将所述待处理的语句数据作为所述待对齐语句。
可选地,在将所述待对齐语句输入到预先训练的语言模型中进行处理之前,还包括:获取目标语种的语句训练数据;根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
可选地,在将所述语义向量输入到预先训练的映射模型中进行处理之前,还包括:从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
可选地,所述根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果包括:根据第一语种的目标待对齐语句,从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果。
可选地,在获取映射到目标向量空间的目标语义向量之后,还包括:针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
本发明第二方面实施例提出了一种互译句对齐装置,包括:
获取模块,用于获取待对齐语句;
处理模块,用于将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
映射模块,用于将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
确定模块,用于获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果。
本发明实施例的互译句对齐装置,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
另外,根据本发明上述实施例的互译句对齐装置还可以具有如下附加技术特征:
可选地,所述获取模块具体用于:获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;判断所述待处理的语句数据的语种类别是否为预设的语种类别;若是,则将所述待处理的语句数据作为所述待对齐语句。
可选地,所述的装置还包括:第一训练模块,用于获取目标语种的语句训练数据;根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
可选地,所述的装置还包括:第二训练模块,用于从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
可选地,所述确定模块具体用于:根据第一语种的目标待对齐语句,从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果。
可选地,所述的装置还包括:存储模块,用于针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的互译句对齐方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的互译句对齐方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种互译句对齐方法的流程示意图;
图2为本发明实施例所提供的另一种互译句对齐方法的流程示意图;
图3为本发明实施例所提供的一种互译句对齐装置的结构示意图;
图4为本发明实施例所提供的另一种互译句对齐装置的结构示意图;
图5示出了适于用来实现本发明实施例的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的互译句对齐方法、装置及设备。
图1为本发明实施例所提供的一种互译句对齐方法的流程示意图,如图1所示,该方法包括:
步骤101,获取待对齐语句。
本发明实施例中,在进行互译句对齐时,可以先收集海量数据并对收集的数据进行分句处理,从而获取待对齐语句。例如,可以从互联网上收集新闻文本、视频字幕等数据,并进行分句处理,进而将分句后的句子作为待对齐语句。
步骤102,将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。
在本发明的一个实施例中,可以获取目标语种的语句训练数据,并根据语句训练数据训练预设模型的处理参数,生成目标语种的语言模型,使语言模型的输入为目标语种的语句数据,输出为该语句数据对应的语义向量。其中,语言模型可以基于深度神经网络训练,用于学习语义表示。
作为一种示例,当训练中文的语言模型时,可以收集中文的语料数据,并根据中文的语句训练中文的语言模型,使语言模型输入为中文语句,输出为对应的语义向量。进而,当获取中文的待对齐语句时,将该语句输入到中文的语言模型中进行处理,输出与该语句对应的语义向量。
步骤103,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。
在本发明的一个实施例中,可以收集不同语种的互译句语料数据,并从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,第一语句与第二语句为互译句,进而根据第一语义向量和第二语义向量训练机器翻译模型的处理参数,生成映射模型。
作为一种示例,可以先收集语种1和语种2的互译句数据,比如收集中文的语句“今天天气怎么样”和存在对应互译关系的英文语句“how is the weather today”。进而,根据中文对应的语言模型,以及英文对应的语言模型分别对上述语句进行处理,分别获取相应的语义向量A和语义向量B。进而根据语义向量A和B训练机器翻译模型的处理参数,生成映射模型,使映射模型输入为语义向量A时,输出为语义向量B,以及输入为语义向量B时,输出为语义向量B。由此,能够将不同语种的语义向量转换至同一向量空间。
可选地,还可以预先设置判别条件,在输入语义向量时判定该语义向量是否需要映射。例如,当输入的语义向量对应的语种为预设的语种时,不需要进行映射直接将该语义向量作为目标语义向量。
需要说明的是,上述将语义向量映射到目标向量空间的解释说明仅为一种示例,此处不作具体限制。
本实施例中,在获取待对齐语句对应的语义向量后,将语义向量输入到映射模型中进行处理,获取该语句对应的目标语义向量,其中,目标语义向量为上述语义向量映射到目标向量空间中得到的。作为一种示例,对于语种1、语种2和语种3中的语义向量A、B、C,将语义向量B和C分别输入到映射模型中,分别获取映射到语义向量A的向量空间的目标语义向量,将语义向量A输入到映射模型中,输出语义向量A作为对应的目标语义向量。
步骤104,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。
本实施例中,在根据映射模型获取待对齐语句对应的目标语义向量后,由于语义向量被映射至同一向量空间,因此可以获取各目标语义向量之间的相似度,并根据相似度确定互译句对齐结果。例如,对于一语种的目标语义向量A,可以获取另一语种中相似度最高的目标语义向量B,根据A和B对应的语句生成相应语种的互译句对齐结果。
其中,相似度包括但不限于距离算法、相关系数等。
作为一种可能的实现方式,可以通过上述步骤获取不同语种的待对齐语句和对应的目标语义向量,进而将待对齐语句和目标语义向量根据不同语种进行存储,从而实现线下训练过程。当确定语种1中待对齐语句A在语种2中的互译句时,可以将待对齐语句A的目标语义向量与语种2中各存储的目标语义向量进行匹配,获取相似程度最高的目标语义向量对应的语句B,作为语句A的互译句,从而重复上述方式可以获取各语种的互译句对齐结果。
本发明实施例的互译句对齐方法,通过获取待对齐语句,进而将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。进一步,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。进一步,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
基于上述实施例,进一步地,在获取待对齐语句对应的目标语义向量后,可以基于图搜索算法根据相似度确定互译句对齐结果,从而能够在有噪的数据中进行句对齐。
图2为本发明实施例所提供的另一种互译句对齐方法的流程示意图,如图2所示,该方法包括:
步骤201,获取待对齐语句。
本实施例中,在获取互译句对齐结果时,通常根据需要对相应语种进行互译句对齐。因此,在对海量数据进行互译句对齐时,可以先通过分类模型对语句进行分类,确定各语句对应的语种类别。
作为一种可能的实现方式,可以收集不同语种的语料数据,并对每条数据标注对应的语种类别。进而,根据标注的数据进行训练,生成分类模型,使分类模型输入为语句,输出为语种类别。进而,获取待处理的语句数据,并将待处理的语句数据输入到分类模型中进行处理,获取待处理的语句数据的语种类别;判断待处理的语句数据的语种类别是否为预设的语种类别;若是,则将待处理的语句数据作为待对齐语句。
作为一种示例,对中文和英文进行互译句对齐时,分类模型输出可以为中文、英文、其他,将待处理的语句数据输入到分类模型中进行处理,获取语种类别为中文、英文时确定待对齐语句,获取语种类别为其他时不作为待对齐语句。其中,分类模型可以根据需要选取相应神经网络实现。
步骤202,将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。
步骤203,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。
在本发明的一个实施例中,在获取待对齐语句对应的目标语义向量后,可以针对每一语种通过KD树(k-dimensional树的简称,用于高维向量匹配和存储)存储待对齐语句和对应的目标语义向量。当后续有其他数据加入时,可以直接插入到存储结构中,不需要对已有数据进行重新建树存储。
前述实施例对步骤102、步骤103的解释说明同样适用于步骤202、步骤203,此处不再赘述。
步骤204,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据第一语种的目标待对齐语句,从第二语种的待对齐语句中确定相似度大于预设阈值的候选语句。
作为一种示例,可以选中一个语种的KD树,并对树中存储的待对齐语句和对应的目标语义表示向量逐条抽取,并根据目标语义向量在另一个语种的KD树中进行匹配,通过预设的相似度阈值进行筛选,若另一个语种的KD树中没有匹配到符合相似度阈值的语句,则表示该句在当前数据中不存在互译句对齐关系,将该句舍弃。若在另一个语种的KD树中匹配到符合相似度阈值的句子,则按照相似度排序,取前N个语句作为该句的候选语句。当所有待对齐语句遍历完成,将所有待对齐语句和对应的候选语句作为挖掘候选数据集合。
步骤205,根据目标待对齐语句和候选语句生成有向图,其中,有向图中每两个相似度大于预设阈值的不同语种的句子之间建立相互的两条有向边。
本实施例中,对于每两个相似度符合阈值的不同语种的待对齐语句之间建立相互的两条有向边,其中,每条有向边对应的权值为相应目标语义向量之间的相似度值。
作为一种示例,对于存在交叉相似的集合,例如s11和s21相似、s11和s22相似、s12和s21相似的情况,存在s11分别指向s21和s22的边,s12存在指向s21的边,s21存在指向s11和s12的边,s22存在指向s11的边。
步骤206,通过关键路径算法获取有向图中的最优路径,根据最优路径确定互译句对齐结果。
本实施例中,可以根据待对齐语句和对应的候选语句生成一个或多个有向图,每个有向图中包括相似度大于预设阈值的句子。进而,通过关键路径算法对每个有向图分别进行计算,获取有向图中的最优路径,并获取最优路径上的待对齐语句作为互译句对齐结果。
作为一种示例,对于第一语种的待对齐语句1,在第二语种中存在候选语句2、3、4,则根据生成有向图,其中1和2、1和3、1和4之间存在相互的有向边。进而,通过关键路径算法根据相似度计算出该有向图中的最优路径为1-2的路径,则确定语句1在第二语种中的互译句为语句2,由此生成互译句对齐结果。
本发明实施例的互译句对齐方法,能够基于语义理解获取互译句关系,并且,将相似度计算这一计算量较大的步骤分解为离线步骤,只需要执行一次,后续每次挖掘都不需要重复执行,进一步降低了计算量。通过图搜索算法根据语义向量相似度获取互译句对齐结果,从而可以在有噪的数据中进行句对齐。
为了实现上述实施例,本发明还提出一种互译句对齐装置。
图3为本发明实施例所提供的一种互译句对齐装置的结构示意图,如图3所示,该装置包括:获取模块100,处理模块200,映射模块300,确定模块400。
其中,获取模块100,用于获取待对齐语句。
处理模块200,用于将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。
映射模块300,用于将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。
确定模块400,用于获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。
在图3的基础上,图4所示的互译句对齐装置还包括:第一训练模块500,第二训练模块600,存储模块700。
其中,第一训练模块500,用于获取目标语种的语句训练数据;根据语句训练数据训练预设模型的处理参数,生成目标语种的语言模型。
第二训练模块600,用于从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,第一语句与第二语句为互译句;根据第一语义向量和第二语义向量训练机器翻译模型的处理参数,生成映射模型。
存储模块700,用于针对每一语种通过KD树存储待对齐语句和对应的目标语义向量。
在本发明的一个实施例中,获取模块100具体用于:获取待处理的语句数据,并将待处理的语句数据输入到分类模型中进行处理,获取待处理的语句数据的语种类别;判断待处理的语句数据的语种类别是否为预设的语种类别;若是,则将待处理的语句数据作为待对齐语句。
在本发明的一个实施例中,确定模块400具体用于:根据第一语种的目标待对齐语句,从第二语种的待对齐语句中确定相似度大于预设阈值的候选语句;根据目标待对齐语句和候选语句生成有向图,其中,有向图中每两个相似度大于预设阈值的不同语种的句子之间建立相互的两条有向边;通过关键路径算法获取有向图中的最优路径,根据最优路径确定互译句对齐结果。
需要说明的是,前述实施例对互译句对齐方法的解释说明同样适用于本实施例的装置,此处不再赘述。
本发明实施例的互译句对齐装置,通过获取待对齐语句,进而将待对齐语句输入到预先训练的语言模型中进行处理,获取与待对齐语句对应的语义向量。进一步,将语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量。进一步,获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据相似度满足预设条件的目标语义向量确定互译句对齐结果。由此,通过获取待对齐语句的语义向量,并计算不同语种间语义向量的相似度,基于语义的相似度确定互译句关系,降低了计算量,从而带来适用场景的扩充,使句对齐方法不再局限于特定的场景,可以在任意的海量数据中进行挖掘,提高了挖掘效率。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的互译句对齐方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的互译句对齐方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的互译句对齐方法。
图5示出了适于用来实现本发明实施例的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种互译句对齐方法,其特征在于,包括:
获取待对齐语句;
将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果;
所述根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果包括:
根据第一语种的目标待对齐语句,从第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;
根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;
通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果;
其中,所述从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句,包括:
选中一个语种的KD树,并对树中存储的所述待对齐语句和所述待对齐语句对应的目标语义表示向量逐条抽取,并根据所述目标语义向量在另一个语种的KD树中进行匹配,通过预设的相似度阈值进行筛选,若所述另一个语种的KD树中没有匹配到符合所述相似度阈值的语句,则表示所述待对齐语句在当前数据中不存在互译句对齐关系,将所述待对齐语句舍弃,若在所述另一个语种的KD树中匹配到符合所述相似度阈值的句子,则按照相似度排序,取前N个语句作为所述候选语句。
2.如权利要求1所述的方法,其特征在于,所述获取待对齐语句包括:
获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;
判断所述待处理的语句数据的语种类别是否为预设的语种类别;
若是,则将所述待处理的语句数据作为所述待对齐语句。
3.如权利要求1所述的方法,其特征在于,在将所述待对齐语句输入到预先训练的语言模型中进行处理之前,还包括:
获取目标语种的语句训练数据;
根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
4.如权利要求1所述的方法,其特征在于,在将所述语义向量输入到预先训练的映射模型中进行处理之前,还包括:
从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;
根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
5.如权利要求1所述的方法,其特征在于,在获取映射到目标向量空间的目标语义向量之后,还包括:
针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
6.一种互译句对齐装置,其特征在于,包括:
获取模块,用于获取待对齐语句;
处理模块,用于将所述待对齐语句输入到预先训练的语言模型中进行处理,获取与所述待对齐语句对应的语义向量;
映射模块,用于将所述语义向量输入到预先训练的映射模型中进行处理,获取映射到目标向量空间的目标语义向量;
确定模块,用于获取不同语种中待对齐语句对应的目标语义向量之间的相似度,根据所述相似度满足预设条件的目标语义向量确定互译句对齐结果;
所述确定模块具体用于:
根据第一语种的目标待对齐语句,从第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句;
根据所述目标待对齐语句和所述候选语句生成有向图,其中,所述有向图中每两个所述相似度大于所述预设阈值的不同语种的句子之间建立相互的两条有向边;
通过关键路径算法获取所述有向图中的最优路径,根据所述最优路径确定互译句对齐结果;
其中,所述从所述第二语种的待对齐语句中确定所述相似度大于预设阈值的候选语句,包括:
选中一个语种的KD树,并对树中存储的所述待对齐语句和所述待对齐语句对应的目标语义表示向量逐条抽取,并根据所述目标语义向量在另一个语种的KD树中进行匹配,通过预设的相似度阈值进行筛选,若所述另一个语种的KD树中没有匹配到符合所述相似度阈值的语句,则表示所述待对齐语句在当前数据中不存在互译句对齐关系,将所述待对齐语句舍弃,若在所述另一个语种的KD树中匹配到符合所述相似度阈值的句子,则按照相似度排序,取前N个语句作为所述候选语句。
7.如权利要求6所述的装置,其特征在于,所述获取模块具体用于:
获取待处理的语句数据,并将所述待处理的语句数据输入到分类模型中进行处理,获取所述待处理的语句数据的语种类别;
判断所述待处理的语句数据的语种类别是否为预设的语种类别;
若是,则将所述待处理的语句数据作为所述待对齐语句。
8.如权利要求6所述的装置,其特征在于,还包括:
第一训练模块,用于获取目标语种的语句训练数据;
根据所述语句训练数据训练预设模型的处理参数,生成所述目标语种的语言模型。
9.如权利要求6所述的装置,其特征在于,还包括:
第二训练模块,用于从不同语种的互译句训练数据中,获取第一语种中第一语句对应的第一语义向量和第二语种中第二语句对应的第二语义向量,其中,所述第一语句与所述第二语句为互译句;
根据所述第一语义向量和所述第二语义向量训练机器翻译模型的处理参数,生成所述映射模型。
10.如权利要求6所述的装置,其特征在于,还包括:
存储模块,用于针对每一语种通过KD树存储所述待对齐语句和对应的所述目标语义向量。
11.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的互译句对齐方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的互译句对齐方法。
CN201910432979.2A 2019-05-23 2019-05-23 互译句对齐方法、装置及设备 Active CN110210041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910432979.2A CN110210041B (zh) 2019-05-23 2019-05-23 互译句对齐方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910432979.2A CN110210041B (zh) 2019-05-23 2019-05-23 互译句对齐方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110210041A CN110210041A (zh) 2019-09-06
CN110210041B true CN110210041B (zh) 2023-04-18

Family

ID=67788231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910432979.2A Active CN110210041B (zh) 2019-05-23 2019-05-23 互译句对齐方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110210041B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674260B (zh) * 2019-09-27 2022-05-24 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN112825109B (zh) * 2019-11-20 2024-02-23 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备
CN111259652B (zh) * 2020-02-10 2023-08-15 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN111859997B (zh) * 2020-06-16 2024-01-26 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
US9684543B1 (en) * 2016-02-05 2017-06-20 Sas Institute Inc. Distributed data set storage, retrieval and analysis
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN109753571A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于二次主题空间投影的场景图谱低维空间嵌入方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
US9984166B2 (en) * 2014-10-10 2018-05-29 Salesforce.Com, Inc. Systems and methods of de-duplicating similar news feed items
CN104880835A (zh) * 2015-05-13 2015-09-02 浙江吉利控股集团有限公司 智能眼镜
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
US10599701B2 (en) * 2016-02-11 2020-03-24 Ebay Inc. Semantic category classification
CN108021560B (zh) * 2017-12-07 2021-04-27 苏州大学 一种数据增强方法、系统、装置及计算机可读存储介质
CN108549629B (zh) * 2018-03-19 2021-06-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108765472B (zh) * 2018-05-18 2022-11-08 安徽大学 基于稀疏有向图的图像集配准方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
US9684543B1 (en) * 2016-02-05 2017-06-20 Sas Institute Inc. Distributed data set storage, retrieval and analysis
CN107291699A (zh) * 2017-07-04 2017-10-24 湖南星汉数智科技有限公司 一种句子语义相似度计算方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN109753571A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于二次主题空间投影的场景图谱低维空间嵌入方法

Also Published As

Publication number Publication date
CN110210041A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210041B (zh) 互译句对齐方法、装置及设备
US11544459B2 (en) Method and apparatus for determining feature words and server
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN107229627B (zh) 一种文本处理方法、装置及计算设备
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN112163405B (zh) 问题的生成方法和装置
WO2017177809A1 (zh) 语言文本的分词方法和系统
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
US20180075017A1 (en) Computer-readable recording medium, retrieval device, and retrieval method
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
WO2014187069A1 (en) Systems and methods for adding punctuations
CN112528653B (zh) 短文本实体识别方法和系统
EP4060526A1 (en) Text processing method and device
WO2021051877A1 (zh) 人工智能面试中获取输入文本和相关装置
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113963197A (zh) 图像识别方法、装置、电子设备和可读存储介质
CN116935287A (zh) 视频理解方法和装置
CN109325237B (zh) 用于机器翻译的完整句识别方法与系统
CN111832302A (zh) 一种命名实体识别方法和装置
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
Li et al. Chinese spelling check based on neural machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant