CN111539228B - 向量模型训练方法及装置、相似度确定方法及装置 - Google Patents

向量模型训练方法及装置、相似度确定方法及装置 Download PDF

Info

Publication number
CN111539228B
CN111539228B CN202010358085.6A CN202010358085A CN111539228B CN 111539228 B CN111539228 B CN 111539228B CN 202010358085 A CN202010358085 A CN 202010358085A CN 111539228 B CN111539228 B CN 111539228B
Authority
CN
China
Prior art keywords
language
word
vector
corpus
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010358085.6A
Other languages
English (en)
Other versions
CN111539228A (zh
Inventor
钱隽夫
邹泊滔
王爱凌
赵云
王膂
曾威龙
王嘉浩
刘丹丹
孙清清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010358085.6A priority Critical patent/CN111539228B/zh
Publication of CN111539228A publication Critical patent/CN111539228A/zh
Application granted granted Critical
Publication of CN111539228B publication Critical patent/CN111539228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了向量模型训练方法及装置、相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行高效的训练,得到精确的向量模型。

Description

向量模型训练方法及装置、相似度确定方法及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种向量模型训练方法以及一种相似度确定方法。本说明书一个或者多个实施例同时涉及一种向量模型训练装置,一种相似度确定装置,两种计算设备,以及两种计算机可读存储介质。
背景技术
近年来,自然语言处理技术的水平在不断提高,各种语言也都逐渐形成了越来越丰富庞大的语料库,从中我们可以挖掘出各种语言中存在的实体,如人名、地名、品牌名等。然而,各语言的实体之间却无法直接比较,这导致跨语言的检索、推理等任务的准确性不够令人满意。
因此,急需提供一种可以实现各语言的实体之间进行相似度比较的方法。
发明内容
有鉴于此,本说明书施例提供了一种向量模型训练方法以及一种相似度确定方法。本说明书一个或者多个实施例同时涉及一种向量模型训练装置,一种相似度确定装置,两种计算设备,以及两种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种向量模型训练方法,包括:
获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
根据本说明书实施例的第二方面,提供了一种向量模型训练方法,包括:
接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量;
在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
根据本说明书实施例的第三方面,提供了一种向量模型训练装置,包括:
初始词获取模块,被配置为获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
字符拆分模块,被配置为将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
向量确定模块,被配置为为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
模型训练模块,被配置为基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
根据本说明书实施例的第四方面,提供了一种相似度确定装置,包括:
初始词接收模块,被配置为接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
第一词向量获得模块,被配置为在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量;
第二词向量获得模块,被配置为在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
目标向量获得模块,被配置为基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
相似度确定模块,被配置为根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
根据本说明书实施例的第六方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量;
在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述向量模型训练方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述相似度确定方法的步骤。
本说明书一个实施例实现了一种向量模型训练方法及装置、一种相似度确定方法及装置,其中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量;所述向量模型训练方法通过将多语言语料分割后的初始词转译为统一编码格式的转译词,然后将转译词拆分为N元字符后,基于初始词以及每个初始词对应的N元字符形成大规模语料对向量模型进行训练,以使得训练得到的向量模型可以输出准确的词向量和/或字符向量。
附图说明
图1是本说明书一个实施例提供的一种向量模型训练方法的流程图;
图2是本说明书一个实施例提供的一种相似度确定方法的流程图;
图3是本说明书一个实施例提供的一种向量模型训练装置的结构示意图;
图4是本说明书一个实施例提供的一种相似度确定装置的结构示意图;
图5是本说明书一个实施例提供的一种计算设备的结构框图;
图6是本说明书一个实施例提供的另一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
词向量:自然语言处理中的一种表示词的方式,将每个词汇(文本)表示为多维的连续实数向量。
N元字符:对一个词(字符串),取其长度为N的所有连续子字符串。
在本说明书中,提供了一种向量模型训练方法以及一种相似度确定方法。本说明书一个或者多个实施例同时涉及一种向量模型训练装置,一种相似度确定装置,两种计算设备,以及两种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种向量模型训练方法的流程图,包括步骤102至步骤108。
步骤102:获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合。
其中,多语种语料库中包括多种语言语料,例如中文语料、英文语料、法文语料、日语语料、韩语语料、泰语语料、阿拉伯语语料等;而语料则可以为各种语言的文本,例如人名、地名、品牌名、文章、新闻等。
具体的,多语种语料库中存放有各种语言语料,在实际使用时,为了可以快速的获取到多语种语料库中每种语言语料的初始词集合,以提高所述向量模型训练方法的工作效率,会提前对多语种语料库中每种语言语料进行预先分词;而每种语言语料对应的初始词集合的具体获取方式如下所述:
所述获取多语种语料库中每种语言语料对应的初始词之前,还包括:
获取所述多语种语料库中的多语言语料;
对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合。
具体实施时,会先获取多语种语料库中的所有多语言语料,然后采用自然语言处理的方式对每种语言语料进行分词,以获得每种语言语料对应的、包含至少一个初始词的初始词集合;例如,中文语言语料为地名:a省b市c区,对该中文语言语料进行分词后,则为a省、b市、c区,而【a省、b市、c区】即为该中文语言语料的初始词集合;而在某种语言语料为一个不可分割的词语时,则不对其进行分词,其对应的初始词集合则为包含其自身的初始词集合。
而在获取多语种语料库中每种语言语料对应的初始词集合后,将每种语言语料对应的初始词集合中的每个初始词根据发音转译为统一编码格式的转译词,以形成每种语言语料对应的转译词集合;假设初始词为wo,转译后的转译词为wt,而所有语言语料对应的所有初始词组成词表Vo
其中,统一编码格式包括但不限于拉丁字母,也可以是其他中间编码格式,可以实现各种语言语料的编码格式统一即可,在此不做任何限定。
举例说明,例如统一编码格式为拉丁字母,则可以将中文语料转译为拼音、将阿拉伯语语料、泰语语料等根据各自的转译规则转译为拉丁字母,而本身使用拉丁字母的语言,则可以使用其自身字母作为统一编码,例如英语语料其统一编码与自身一致,则可以使用自身的语言作为统一编码;具体,使得不同语言语料对应的每个初始词均是由一套统一的字符组成的即可实现统一编码格式的转译。
实际应用中,由于中文、泰语、阿拉伯语、英语等的发音均为拉丁字母,因此在获取多语种语料库中每种语言语料对应的初始词集合后,将每种语言语料对应的初始词集合中的每个初始词根据发音转译为统一编码格式的转译词更为合适、准确。
步骤104:将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合。
其中,所述字符集合中包括至少一个预设字符长度的字符。
具体的,在将每种语言语料对应的初始词转译为统一编码格式的转译词之后,利用窗口滑动的方式将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;其中,预设字符长度根据实际应用进行设置,在此不做任何限定,例如将预设字符长度设置为2、3、4或5等,而根据实际经验所知,大部分的转译词的最小字符长度一般为3,而最大的字符长度一般为5,若预设字符长度过短或过长可能会造成转译词的拆分不精确,会对后续训练向量模型造成影响,因此实际应用中,预设字符长度一般为3~5。
具体实施时,将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,即是利用窗口滑动将所述转译词集合中的每个转译词拆分为多个N元字符;例如,转译词为aardvark,而利用窗口滑动可以将该转译词拆分为2元字符集合{aa,ar,rd,dv,va,ar,rk},3元字符集合{aar,ard,rdv,dva,var,ark},即对每种语言语料对应的每个转译词wt,利用窗口滑动的方式均可以得到一个对应的N元字符集合sub(w),而将所有转译词的N元字符集合组合起来,可以得到所有语言语料对应的N元字符词表Vsub
步骤106:为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量。
具体的,在获得每种语言语料对应的初始词组成词表Vo以及N元字符词表Vsub之后,为所述初始词组成词表Vo中的每个初始词定义对应的词向量以及为所述N元字符词表Vsub中的每个N元字符定义对应的字符向量。
例如,定义两组向量Esub和Eo,其中,Esub表示N元字符词表Vsub中元素(即每个N元字符)的字符向量,Eo表示原始词表Vo中元素(即每个初始词)的词向量,而字符向量以及词向量的长度均为d。
步骤108:基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
具体的,在为每个字符集合中的每个字符定义了对应的字符向量以及为每个初始词定义了对应的词向量之后,基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,而训练得到的向量模型可以输出每个字符对应的字符向量以及每个初始词对应的词向量。
具体实施时,基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型包括:
基于所述字符确定每个字符的字符向量以及基于所述词向量确定每个初始词的词向量;
根据所述字符向量以及所述词向量通过第一算法最小化初始向量模型的损失函数,得到所述向量模型。
具体的,在训练向量模型时,先定义两组向量Esub和Eo,其中,Esub表示N元字符词表Vsub中元素(即每个N元字符)的字符向量,Eo表示原始词表Vo中元素(即每个初始词)的词向量,而字符向量以及词向量的长度均为d;
然后通过如下公式计算词的相似函数:
其中,表示Esub中的N元字符向量,/>表示未转译词t的词向量,来自Eo,Hl表示当前语言l的映射矩阵,大小为d×d,用于将不同语言映射到同一向量空间。
再根据所述字符向量以及所述词向量通过第一算法最小化初始向量模型的损失函数,其中,所述第一算法包括但不限于负采样算法。
而以第一算法为负采样算法为例,采用负采样的方式最小化向量模型的损失函数,以得到向量模型,具体如下:
D表示多语种语料库;T(w)表示词w在窗口内的上下文词集合;σ表示sigmoid函数,即σ(x)=1/(1+e-x);t′表示从原始词表Vo中随机选取的词,且不在上下文中,称为负例;表示负例t′的函数f的期望,本身无法精确计算,这里采用负采样的方式近似计算,具体方法如下:
1)按照原始词表Vo中词的词频分布进行采样K次,其中,语料中出现次数越多的词语越容易被采样到,K可以是任意正整数,一般在3~10之间;
2)计算相似度函数sim(w,t′k),代入以下近似表达式:
最后,调整参数,最小化损失函数实现对初始向量模型的训练,得到向量模型,基于向量模型得到Esub,Eo和Hl
实际应用中,训练词向量时,相似函数sim(w,t)的计算方式,还可以有其他选择,例如而对于向量模型的损失函数的计算,除了负采样之外,还可以使用softmax(归一化指数函数)或类似word2vec中的做法。
采用上述方式实现对初始向量模型的训练,可以提高训练得到的向量模型的精度,并且采用负采样的方式计算损失函数可以大大降低最小化损失函数的计算量,以提高向量模型的训练效率。
本说明书实施例中,所述向量模型训练方法包括获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合;为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量;所述向量模型训练方法通过将多语言语料分割后的初始词根据发音转译为统一编码格式的转译词,然后将转译词拆分为N元字符后,基于初始词以及每个初始词对应的N元字符形成大规模训练语料对向量模型进行训练,以使得训练得到的向量模型可以输出准确的词向量和/或字符向量。
参见图2,图2示出了根据本说明书一个实施例提供的一种向量模型训练方法的流程图,包括步骤202至步骤210。
步骤202:接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合。
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词。
具体的,所述第一语言语料语与所述第二语言语料属于不同语种的语料,其中,语料包括但不限于人名、地名或者品牌名等;例如第一语言语料为中文地名,第二语言语料为英文地名。
而在实际应用中,为了降低所述相似度确定方法的处理时间,提高相似度确定的工作效率,会对接收的第一语言语料以及第二语言语料进行预先处理,具体实现方式如下:
所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之前,还包括:
接收第一语言语料以及第二语言语料;
对所述第一语言语料进行分词以获得所述第一语言语料对应的第一语言初始词集合,
以及对所述第二语言语料进行分词,以获得所述第二语言语料对应的第二语言初始词集合。
具体的,接收到需要进行相似度比较的第一语言语料以及第二语言语料后,会对第一语言语料通过自然语言处理的方式进行分词,以获得所述第一语言语料对应的第一语言初始词集合;以及对第二语言语料通过自然语言处理的方式进行分词,以获得所述第二语言语料对应的第二语言初始词集合,其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词。
步骤204:在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量。
而在接收第一语言初始词集合以及第二语言初始词集合后,将第一语言初始词集合中的每个第一语言初始词与多语种语料库中的初始词进行匹配,在匹配成功的情况下,将第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量。
而多语种语料库中的初始词则是通过对多语种语料库中的每种语言语料进行分词后获得的,且实际应用中,会采用多语种语料库中的初始词实现对向量模型的训练,因此,若第一语言初始词与多语种语料库中的初始词匹配的情况下,可以基于通过多语种语料库中的初始词训练得到的向量模型实现对第一语言初始词对应的第一语言词向量的获得。
具体实施时,多语种语料库中的初始词的实现方式如下:
所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之前,还包括:
获取多语种语料库中的多语言语料;
对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合,其中,所述初始词集合中包括至少一个初始词。
然后根据所述多语种语料库中每种语言语料对应的初始词集合训练得到向量模型,具体实现方式如下:
所述获得每种语言语料对应的初始词集合之后,还包括:
将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
具体的,所述向量模型的训练方式可以参见上述实施例,在此不再赘述。
实际应用中,在第一语言初始词与训练向量模型的多语种语料库中的初始词匹配的情况下,可以确定第一语言初始词在向量模型的训练样本中出现过,通过该向量模型即可得到该第一语言初始词准确的词向量,因此,在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,即可以快速得到所述第一语言初始词对应的、准确的第一语言词向量。
步骤206:在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量。
与第二语言初始词对应的第二语言词向量的获得方式相同,在所述第二语言初始词与训练向量模型的多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,即可以快速得到所述第二语言初始词对应的、准确的第二语言词向量。
实际应用中,步骤204以及步骤206的具体实施没有先后顺序之分,根据具体应用处理即可,在此不作任何限定。
而对应的,若所述第一语言初始词或所述第二语言初始词没有在训练向量模型的多语种语料库中的初始词中出现过,此时直接通过第一语言初始词或第二语言初始词获得对应的第一语言词向量或第二语言词向量可能会存在不准确的现象;这种情况下,为了保证获得准确的第一语言词向量以及第二语言词向量,会采用将第一语言初始词以及第二语言初始词对应的N元字符输入向量模型的方式,实现第一语言词向量以及第二语言词向量的获取,具体实现方式如下:
所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之后,还包括:
在所述第一语言初始词与所述多语种语料库中的初始词不匹配的情况下,将所述第一语言初始词集合转译为第一编码格式的第一语言转译词集合;
按照预设字符长度对所述第一语言转译词集合中的每个第一语言转译词进行拆分,形成每个第一语言转译词的第一语言字符集合;
将每个第一语言字符输入向量模型,得到每个第一语言字符对应的第一语言字符向量;
将每个第一语言转译词对应的所有第一语言字符向量相加,得到每个第一语言转译词对应的第一语言初始词的第一语言词向量。
具体的,在所述第一语言初始词与所述多语种语料库中的初始词不匹配的情况下,首先将所述第一语言初始词集合中的每个第一语言初始词转译为第一编码格式的第一语言转译词,形成第一语言转译词集合;
然后利用窗口滑动方式将每个第一语言转译词拆分为N元字符,形成每个第一语言转译词的第一语言字符集合,其中,第一语言字符集合中包含至少一个第一语言字符;
再将每个第一语言字符输入向量模型,得到每个第一语言字符对应的第一语言字符向量;
最后将所有第一语言转译词对应的第一语言字符的第一语言字符向量相加,得到每个第一语言转译词对应的第一语言初始词的第一语言词向量。
本说明书另一实施例中,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之后,还包括:
在所述第二语言初始词与所述多语种语料库中的初始词不匹配的情况下将所述第二语言初始词集合转译为第一编码格式的第二语言转译词集合;
按照预设字符长度对所述第二语言转译词集合中的每个第二语言转译词进行拆分,形成每个第二语言转译词的第二语言字符集合;
将每个第二语言字符输入向量模型,得到每个第二语言字符对应的第二语言字符向量;
将每个第二语言转译词对应的所有第二语言字符向量相加,得到每个第二语言转译词对应的第二语言初始词的第二语言词向量。
具体的,在所述第二语言初始词与所述多语种语料库中的初始词不匹配的情况下,首先将所述第二语言初始词集合中的每个第二语言初始词转译为第一编码格式的第二语言转译词,形成第二语言转译词集合;
然后利用窗口滑动方式将每个第二语言转译词拆分为N元字符,形成每个第二语言转译词的第二语言字符集合,其中,第二语言字符集合中包含至少一个第二语言字符;
再将每个第二语言字符输入向量模型,得到每个第二语言字符对应的第二语言字符向量;
最后将所有第二语言转译词对应的第二语言字符的第二语言字符向量相加,得到每个第二语言转译词对应的第二语言初始词的第二语言词向量。
具体实施时,第一编码格式可以为拉丁字母编码格式,即将第一语言初始词以及第二语言初始词均转译为统一格式的拉丁字母;而具体的按照预设字符长度对第一语言转译词以及第二语言转译词进行拆分的方式可以参见上述实施例,在此不再赘述。
实际应用中,向量模型训练时,会基于N元字符向量实现对向量模型的获取,而每个初始词会由多个N元字符组成,因此只要将初始词进行转译、拆分为N元字符,在确定了每个N元字符的字符向量之后,就可以基于多个通过向量模型得到的准确的字符向量叠加得到对应的、准确的初始词的词向量,例如apple的2元字符le和people的2元字符le向量是一个,只要在训练向量模型时,采用了2元字符le实现对向量模型的训练,那么初始词中只要包含2元字符le就可以基于向量模型得到该2元字符le的准确的字符向量,然后通过多个准确的字符向量的叠加就可以获得准确的初始词的词向量。
本说明书实施例中,对于每种语言语料,若分割后的初始词在训练向量模型的多语种语料库中的初始词中出现过,就可以直接获得该初始词的词向量,而对于没有在训练向量模型的多语种语料库中的初始词中出现过的初始词,就可以通过将字符向量叠加的方式获取词向量,通过此种方式可以快速且准确的获得每个初始词对应的词向量。
步骤208:基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量。
而在获取第一语言语料对应的所有第一语言初始词的词向量以及第二语言语料对应的所有第二语言初始词的词向量之后,就可以通过对第一语言初始词的词向量的计算以及第二语言初始词的词向量的计算,获得所述第一语言语料的第一目标向量以及所述第二语言语料的第二目标向量。
实际应用中,可以通过求和、取平均值或者取最大值的方式实现对所述第一语言语料的第一目标向量以及所述第二语言语料的第二目标向量的获得,具体实现方式如下:
所述基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量包括:
将所述第一语言语料对应的所有第一语言词向量相加,获得所述第一语言语料的第一目标向量,
以及将所述第二语言语料对应的所有第二语言词向量相加,获得所述第二语言语料的第二目标向量。
具体的,通过将所述第一语言语料对应的所有第一语言初始词的第一语言词向量相加,以及将所述第二语言语料对应的所有第二语言初始词的第二语言词向量相加的此种求和方式,简单、快速的获得所述第一语言语料的第一目标向量以及所述第二语言语料的第二目标向量。
本说明书另一实施例中,所述基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量包括:
确定所述第一语言语料对应的所有第一语言词向量,以最大值的第一语言词向量作为所述第一语言语料的第一目标向量,
以及确定所述第二语言语料对应的所有第二语言词向量,以最大值的第二语言词向量作为所述第二语言语料的第二目标向量。
具体的,通过将所述第一语言语料对应的所有第一语言初始词的第一语言词向量中最大值的第一语言词向量作为所述第一语言语料的第一目标向量,以及将所述第二语言语料对应的所有第二语言初始词的第二语言词向量中最大值的第二语言词向量作为所述第二语言语料的第二目标向量的方式,方便、快捷的实现对第一目标向量以及第二目标向量的获取。
本说明书另一实施例中,所述基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量包括:
将所述第一语言语料对应的所有第一语言词向量相加,以所有第一语言词向量相加后获得的平均值作为所述第一语言语料的第一目标向量,
以及将所述第二语言语料对应的所有第二语言词向量相加,以所有第二语言词向量相加后获得的平均值作为所述第二语言语料的第二目标向量。
具体的,通过将所述第一语言语料对应的所有第一语言初始词的第一语言词向量相加后,取平均值作为所述第一语言语料的第一目标向量;以及将所述第二语言语料对应的所有第二语言初始词的第二语言词向量相加后,取平均值作为所述第二语言语料的第二目标向量的方式,可以使得通过取平均值的方式获得所述第一语言语料的第一目标向量以及所述第二语言语料的第二目标向量更为准确。
步骤210:根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
其中,所述预设相似度算法包括但不限于余弦相似度或欧氏距离算法。
具体的,所述根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度包括:
根据余弦相似度或欧氏距离算法确定所述第一目标向量以及所述第二目标向量的相似度。
具体实施时,根据余弦相似度或欧氏距离算法确定所述第一目标向量以及所述第二目标向量的相似度,而根据所述第一目标向量以及所述第二目标向量的相似度即可以确定所述第一语言语料以及所述第二语言语料的相似度,即可以根据所述相似度确定所述第一语言语料与所述第二语言语料的关联关系;例如所述第一语言语料为中文地名与所述第二语言语料为英文地名,此时根据所述第一目标向量以及所述第二目标向量的相似度即可以确定第一语言语料的中文地名与第二语言语料的英文地名是否表示同一个地方,比如所述第一目标向量以及所述第二目标向量的相似度为95%以上则表示同一个地方,而所述第一目标向量以及所述第二目标向量的相似度为95%以下则表示不是同一个地方。
本说明书实施例提供的所述相似度确定方法,在多语种场景下通过向量模型准确获得第一语言语料的所有第一语言初始词对应的第一语言词向量,以及第二语言语料的所有第二语言初始词对应的第二语言词向量;然后通过所有第一语言初始词对应的第一语言词向量以及所有第二语言初始词对应的第二语言词向量快速获得所述第一语言语料的第一目标向量以及所述第二语言语料的第二目标向量;最后通过预设相似度算法精确的计算出所述第一目标向量以及所述第二目标向量的相似度,后续可以基于该相似度精确的确定出第一语言语料与第二语言语料的关联关系。
与上述方法实施例相对应,本说明书还提供了向量模型训练装置实施例,图3示出了本说明书一个实施例提供的一种向量模型训练装置的结构示意图。
如图3所示,该装置包括:
初始词获取模块302,被配置为获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
字符拆分模块304,被配置为将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
向量确定模块306,被配置为为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
模型训练模块308,被配置为基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
可选的,所述装置,还包括:
第一语料获取模块,被配置为获取所述多语种语料库中的多语言语料;
第一分词模块,被配置为对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合。
可选的,所述模型训练模块308,进一步被配置为:
基于所述字符确定每个字符的字符向量以及基于所述词向量确定每个初始词的词向量;
根据所述字符向量以及所述词向量通过第一算法最小化初始向量模型的损失函数,得到所述向量模型。
可选的,所述第一算法包括负采样算法。
上述为本实施例的一种向量模型训练装置的示意性方案。需要说明的是,该向量模型训练装置的技术方案与上述的向量模型训练方法的技术方案属于同一构思,向量模型训练装置的技术方案未详细描述的细节内容,均可以参见上述向量模型训练方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了相似度确定装置实施例,图4示出了本说明书一个实施例提供的一种相似度确定装置的结构示意图。如图4所示,该装置包括:
初始词接收模块402,被配置为接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
第一词向量获得模块404,被配置为在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量;
第二词向量获得模块406,被配置为在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
目标向量获得模块408,被配置为基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
相似度确定模块410,被配置为根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
可选的,所述装置,还包括:
语料接收模块,被配置为接收第一语言语料以及第二语言语料;
第二分词模块,被配置为对所述第一语言语料进行分词以获得所述第一语言语料对应的第一语言初始词集合,
以及对所述第二语言语料进行分词,以获得所述第二语言语料对应的第二语言初始词集合。
可选的,所述装置,还包括:
第二语料获取模块,被配置为获取多语种语料库中的多语言语料;
第三分词模块,被配置为对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合,其中,所述初始词集合中包括至少一个初始词。
可选的,所述装置,还包括:
第一转译模块,被配置为在所述第一语言初始词与所述多语种语料库中的初始词不匹配的情况下,将所述第一语言初始词集合转译为第一编码格式的第一语言转译词集合;
第一拆分模块,被配置为按照预设字符长度对所述第一语言转译词集合中的每个第一语言转译词进行拆分,形成每个第一语言转译词的第一语言字符集合;
第一字符向量确定模块,被配置为将每个第一语言字符输入向量模型,得到每个第一语言字符对应的第一语言字符向量;
第三词向量获得模块,被配置为将每个第一语言转译词对应的所有第一语言字符向量相加,得到每个第一语言转译词对应的第一语言初始词的第一语言词向量。
可选的,所述装置,还包括:
第二转译模块,被配置为在所述第二语言初始词与所述多语种语料库中的初始词不匹配的情况下将所述第二语言初始词集合转译为第一编码格式的第二语言转译词集合;
第二拆分模块,被配置为按照预设字符长度对所述第二语言转译词集合中的每个第二语言转译词进行拆分,形成每个第二语言转译词的第二语言字符集合;
第二字符向量确定模块,被配置为将每个第二语言字符输入向量模型,得到每个第二语言字符对应的第二语言字符向量;
第四词向量获得模块,被配置为将每个第二语言转译词对应的所有第二语言字符向量相加,得到每个第二语言转译词对应的第二语言初始词的第二语言词向量。
可选的,所述装置,还包括:
第三转译模块,被配置为将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
第三拆分模块,被配置为将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
第一向量确定模块,被配置为为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
向量模型获得模块,被配置为基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
可选的,所述目标向量获得模块408,进一步被配置为:
将所述第一语言语料对应的所有第一语言词向量相加,获得所述第一语言语料的第一目标向量,
以及将所述第二语言语料对应的所有第二语言词向量相加,获得所述第二语言语料的第二目标向量。
可选的,所述目标向量获得模块408,进一步被配置为:
确定所述第一语言语料对应的所有第一语言词向量,以最大值的第一语言词向量作为所述第一语言语料的第一目标向量,
以及确定所述第二语言语料对应的所有第二语言词向量,以最大值的第二语言词向量作为所述第二语言语料的第二目标向量。
可选的,所述目标向量获得模块408,进一步被配置为:
将所述第一语言语料对应的所有第一语言词向量相加,以所有第一语言词向量相加后获得的平均值作为所述第一语言语料的第一目标向量,
以及将所述第二语言语料对应的所有第二语言词向量相加,以所有第二语言词向量相加后获得的平均值作为所述第二语言语料的第二目标向量。
可选的,所述相似度确定模块410,进一步被配置为:
根据余弦相似度或欧氏距离算法确定所述第一目标向量以及所述第二目标向量的相似度。
上述为本实施例的一种相似度确定装置的示意性方案。需要说明的是,该相似度确定装置的技术方案与上述的相似度确定方法的技术方案属于同一构思,相似度确定装置的技术方案未详细描述的细节内容,均可以参见上述相似度确定方法的技术方案的描述。
图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的向量模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述向量模型训练方法的技术方案的描述。
图6示出了根据本说明书一个实施例提供的另一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令:
接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量;
在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的相似度确定方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述相似度确定方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述向量模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的向量模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述向量模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述相似度确定方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的相似度确定方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述相似度确定方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (18)

1.一种向量模型训练方法,包括:
获取多语种语料库中的多语言语料;
对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合;
获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
2.根据权利要求1所述的向量模型训练方法,基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型包括:
基于所述字符确定每个字符的字符向量以及基于所述词向量确定每个初始词的词向量;
根据所述字符向量以及所述词向量通过第一算法最小化初始向量模型的损失函数,得到所述向量模型。
3.根据权利要求2所述的向量模型训练方法,所述第一算法包括负采样算法。
4.一种相似度确定方法,包括:
接收第一语言语料以及第二语言语料;
对所述第一语言语料进行分词以获得所述第一语言语料对应的第一语言初始词集合,以及对所述第二语言语料进行分词,以获得所述第二语言语料对应的第二语言初始词集合;
接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量,其中,所述向量模型是由权利要求1至3任意一项对应的向量模型训练方法训练得到的向量模型;
在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
5.根据权利要求4所述的相似度确定方法,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之前,还包括:
获取多语种语料库中的多语言语料;
对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合,其中,所述初始词集合中包括至少一个初始词。
6.根据权利要求5所述的相似度确定方法,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之后,还包括:
在所述第一语言初始词与所述多语种语料库中的初始词不匹配的情况下,将所述第一语言初始词集合转译为第一编码格式的第一语言转译词集合;
按照预设字符长度对所述第一语言转译词集合中的每个第一语言转译词进行拆分,形成每个第一语言转译词的第一语言字符集合;
将每个第一语言字符输入向量模型,得到每个第一语言字符对应的第一语言字符向量;
将每个第一语言转译词对应的所有第一语言字符向量相加,得到每个第一语言转译词对应的第一语言初始词的第一语言词向量。
7.根据权利要求5所述的相似度确定方法,所述接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合之后,还包括:
在所述第二语言初始词与所述多语种语料库中的初始词不匹配的情况下将所述第二语言初始词集合转译为第一编码格式的第二语言转译词集合;
按照预设字符长度对所述第二语言转译词集合中的每个第二语言转译词进行拆分,形成每个第二语言转译词的第二语言字符集合;
将每个第二语言字符输入向量模型,得到每个第二语言字符对应的第二语言字符向量;
将每个第二语言转译词对应的所有第二语言字符向量相加,得到每个第二语言转译词对应的第二语言初始词的第二语言词向量。
8.根据权利要求5所述的相似度确定方法,所述获得每种语言语料对应的初始词集合之后,还包括:
将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
9.根据权利要求4所述的相似度确定方法,所述基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量包括:
将所述第一语言语料对应的所有第一语言词向量相加,获得所述第一语言语料的第一目标向量,
以及将所述第二语言语料对应的所有第二语言词向量相加,获得所述第二语言语料的第二目标向量。
10.根据权利要求4所述的相似度确定方法,所述基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量包括:
确定所述第一语言语料对应的所有第一语言词向量,以最大值的第一语言词向量作为所述第一语言语料的第一目标向量,
以及确定所述第二语言语料对应的所有第二语言词向量,以最大值的第二语言词向量作为所述第二语言语料的第二目标向量。
11.根据权利要求4所述的相似度确定方法,所述基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量包括:
将所述第一语言语料对应的所有第一语言词向量相加,以所有第一语言词向量相加后获得的平均值作为所述第一语言语料的第一目标向量,
以及将所述第二语言语料对应的所有第二语言词向量相加,以所有第二语言词向量相加后获得的平均值作为所述第二语言语料的第二目标向量。
12.根据权利要求4所述的相似度确定方法,所述根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度包括:
根据余弦相似度或欧氏距离算法确定所述第一目标向量以及所述第二目标向量的相似度。
13.一种向量模型训练装置,包括:
第一语料获取模块,被配置为获取多语种语料库中的多语言语料;
第一分词模块,被配置为对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合;
初始词获取模块,被配置为获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
字符拆分模块,被配置为将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
向量确定模块,被配置为为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
模型训练模块,被配置为基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
14.一种相似度确定装置,包括:
语料接收模块,被配置为接收第一语言语料以及第二语言语料;
第二分词模块,被配置为对所述第一语言语料进行分词以获得所述第一语言语料对应的第一语言初始词集合,以及对所述第二语言语料进行分词,以获得所述第二语言语料对应的第二语言初始词集合;
初始词接收模块,被配置为接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
第一词向量获得模块,被配置为在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量,其中,所述向量模型是由权利要求1至3任意一项对应的向量模型训练方法训练得到的向量模型;
第二词向量获得模块,被配置为在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
目标向量获得模块,被配置为基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
相似度确定模块,被配置为根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
15.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取多语种语料库中的多语言语料;
对所述多语言语料的每种语言语料进行分词,以获得每种语言语料对应的初始词集合;
获取多语种语料库中每种语言语料对应的初始词集合,且将每种语言语料对应的初始词集合转译为统一编码格式的转译词集合;
将所述转译词集合中的每个转译词按照预设字符长度进行拆分,形成每个转译词的字符集合,其中,所述字符集合中包括至少一个预设字符长度的字符;
为每个字符确定对应的字符向量以及为每个初始词确定对应的词向量;
基于所述字符以及所述字符对应的字符向量、所述初始词以及所述初始词对应的词向量对初始向量模型进行训练,得到向量模型,所述向量模型输出每个字符对应的字符向量以及每个初始词对应的词向量。
16.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
接收第一语言语料以及第二语言语料;
对所述第一语言语料进行分词以获得所述第一语言语料对应的第一语言初始词集合,以及对所述第二语言语料进行分词,以获得所述第二语言语料对应的第二语言初始词集合;
接收第一语言语料对应的第一语言初始词集合以及第二语言语料对应的第二语言初始词集合;
其中,所述第一语言初始词集合包含至少一个第一语言初始词,所述第二语言初始词集合包含至少一个第二语言初始词;
在所述第一语言初始词与多语种语料库中的初始词匹配的情况下,将所述第一语言初始词输入向量模型,得到所述第一语言初始词对应的第一语言词向量,其中,所述向量模型是由权利要求1至3任意一项对应的向量模型训练方法训练得到的向量模型;
在所述第二语言初始词与所述多语种语料库中的初始词匹配的情况下,将所述第二语言初始词输入向量模型,得到所述第二语言初始词对应的第二语言词向量;
基于所述第一语言词向量确定所述第一语言语料的第一目标向量,以及基于所述第二语言词向量确定所述第二语言语料的第二目标向量;
根据预设相似度算法确定所述第一目标向量以及所述第二目标向量的相似度。
17.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至3任意一项所述向量模型训练方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求4至12任意一项所述相似度确定方法的步骤。
CN202010358085.6A 2020-04-29 2020-04-29 向量模型训练方法及装置、相似度确定方法及装置 Active CN111539228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010358085.6A CN111539228B (zh) 2020-04-29 2020-04-29 向量模型训练方法及装置、相似度确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010358085.6A CN111539228B (zh) 2020-04-29 2020-04-29 向量模型训练方法及装置、相似度确定方法及装置

Publications (2)

Publication Number Publication Date
CN111539228A CN111539228A (zh) 2020-08-14
CN111539228B true CN111539228B (zh) 2023-08-08

Family

ID=71978898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010358085.6A Active CN111539228B (zh) 2020-04-29 2020-04-29 向量模型训练方法及装置、相似度确定方法及装置

Country Status (1)

Country Link
CN (1) CN111539228B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017643B (zh) * 2020-08-24 2023-10-31 广州市百果园信息技术有限公司 语音识别模型训练方法、语音识别方法及相关装置
CN112487833A (zh) * 2020-12-01 2021-03-12 中译语通科技(青岛)有限公司 一种机器翻译方法及其翻译系统
CN112507203B (zh) * 2021-02-05 2021-05-07 浙江口碑网络技术有限公司 一种信息处理方法、装置、电子设备以及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
WO2007124385A2 (en) * 2006-04-19 2007-11-01 Google Inc. Processing of query terms
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
WO2013138503A1 (en) * 2012-03-13 2013-09-19 Stieglitz Avi Language learning platform using relevant and contextual content
CN105843801A (zh) * 2016-03-25 2016-08-10 北京语言大学 多译本平行语料库的构建系统
JP2017091192A (ja) * 2015-11-10 2017-05-25 国立大学法人 東京大学 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置
CN107562716A (zh) * 2017-07-18 2018-01-09 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
US9990339B1 (en) * 2012-04-10 2018-06-05 Symantec Corporation Systems and methods for detecting character encodings of text streams
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
US10268676B1 (en) * 2017-06-09 2019-04-23 Act, Inc. Automated detection of linguistic uniqueness
WO2019105134A1 (zh) * 2017-11-30 2019-06-06 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
FI20185865A1 (fi) * 2018-10-13 2020-04-14 Iprally Tech Oy Menetelmä luonnollisen kielen hakujärjestelmän opettamiseksi, hakujärjestelmä ja vastaava käyttö

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102396250B1 (ko) * 2015-07-31 2022-05-09 삼성전자주식회사 대역 어휘 결정 장치 및 방법
US20170212872A1 (en) * 2016-01-22 2017-07-27 International Business Machines Corporation Duplicate post handling with natural language processing
US10319019B2 (en) * 2016-09-14 2019-06-11 Ebay Inc. Method, medium, and system for detecting cross-lingual comparable listings for machine translation using image similarity

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
WO2007124385A2 (en) * 2006-04-19 2007-11-01 Google Inc. Processing of query terms
JP2009140499A (ja) * 2007-12-07 2009-06-25 Toshiba Corp 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
WO2013138503A1 (en) * 2012-03-13 2013-09-19 Stieglitz Avi Language learning platform using relevant and contextual content
US9990339B1 (en) * 2012-04-10 2018-06-05 Symantec Corporation Systems and methods for detecting character encodings of text streams
JP2017091192A (ja) * 2015-11-10 2017-05-25 国立大学法人 東京大学 画像を媒介した異言語文書間の学習法及び装置、言語横断文書検索方法及び装置
CN105843801A (zh) * 2016-03-25 2016-08-10 北京语言大学 多译本平行语料库的构建系统
US10268676B1 (en) * 2017-06-09 2019-04-23 Act, Inc. Automated detection of linguistic uniqueness
CN107562716A (zh) * 2017-07-18 2018-01-09 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
WO2019105134A1 (zh) * 2017-11-30 2019-06-06 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
FI20185865A1 (fi) * 2018-10-13 2020-04-14 Iprally Tech Oy Menetelmä luonnollisen kielen hakujärjestelmän opettamiseksi, hakujärjestelmä ja vastaava käyttö
WO2020074788A1 (en) * 2018-10-13 2020-04-16 IPRally Technologies Oy Method of training a natural language search system, search system and corresponding use

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程蔚 ; 线岩团 ; 周兰江 ; 余正涛 ; 王红斌 ; .基于双语LDA的跨语言文本相似度计算方法研究.计算机工程与科学.2017,(05),第978-983页. *

Also Published As

Publication number Publication date
CN111539228A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111539228B (zh) 向量模型训练方法及装置、相似度确定方法及装置
CN110348535B (zh) 一种视觉问答模型训练方法及装置
JP7366984B2 (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
US20180365231A1 (en) Method and apparatus for generating parallel text in same language
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
WO2023241410A1 (zh) 数据处理方法、装置、设备及计算机介质
CN111008266A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN113450759A (zh) 语音生成方法、装置、电子设备以及存储介质
EP4170542A2 (en) Method for sample augmentation
CN114550239A (zh) 视频生成方法及装置、存储介质、终端
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN109213988B (zh) 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN113268989A (zh) 多音字处理方法及装置
CN113947091A (zh) 用于语言翻译的方法、设备、装置和介质
CN113722436A (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN113157852A (zh) 语音处理的方法、系统、电子设备及存储介质
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN114841172A (zh) 文本匹配双塔模型的知识蒸馏方法、装置及程序产品
CN114997395A (zh) 文本生成模型的训练方法、生成文本的方法以及各自装置
WO2022141855A1 (zh) 文本正则方法、装置、电子设备及存储介质
CN114692610A (zh) 关键词确定方法及装置
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置
CN111159339A (zh) 一种文本匹配处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant