CN107957989B9 - 基于集群的词向量处理方法、装置以及设备 - Google Patents

基于集群的词向量处理方法、装置以及设备 Download PDF

Info

Publication number
CN107957989B9
CN107957989B9 CN201710992297.8A CN201710992297A CN107957989B9 CN 107957989 B9 CN107957989 B9 CN 107957989B9 CN 201710992297 A CN201710992297 A CN 201710992297A CN 107957989 B9 CN107957989 B9 CN 107957989B9
Authority
CN
China
Prior art keywords
word
words
training
vectors
word vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710992297.8A
Other languages
English (en)
Other versions
CN107957989A (zh
CN107957989B (zh
Inventor
曹绍升
杨新星
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201710992297.8A priority Critical patent/CN107957989B9/zh
Publication of CN107957989A publication Critical patent/CN107957989A/zh
Priority to SG11202001204RA priority patent/SG11202001204RA/en
Priority to PCT/CN2018/101053 priority patent/WO2019080615A1/zh
Priority to EP18870742.6A priority patent/EP3678038A4/en
Priority to TW107129401A priority patent/TWI721310B/zh
Priority to US16/743,224 priority patent/US10769383B2/en
Application granted granted Critical
Publication of CN107957989B publication Critical patent/CN107957989B/zh
Publication of CN107957989B9 publication Critical patent/CN107957989B9/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了基于集群的词向量处理方法、装置以及设备,方案包括:集群包括服务器集群和工作机集群,工作机集群中的各工作机并行地分别读取部分语料,并从读取的语料中提取词及其上下文词,从服务器集群中的服务器获取对应的词向量并进行训练,由服务器根据一个或者多个工作机对相同词的词向量分别的训练结果,对训练前保存的相同词的词向量进行更新。

Description

基于集群的词向量处理方法、装置以及设备
技术领域
本说明书涉及计算机软件技术领域,尤其涉及基于集群的词向量处理方 法、装置以及设备。
背景技术
如今的自然语言处理的解决方案,大都采用基于神经网络的架构,而在这 种架构下一个重要的基础技术就是词向量。词向量是将词映射到一个固定维度 的向量,该向量表征了该词的语义信息。
在现有技术中,常见的用于生成词向量的算法比如包括谷歌公司的单词向 量算法、微软公司的深度神经网络算法等,往往在单机上运行。
基于现有技术,需要高效的大规模词向量训练方案。
发明内容
本说明书实施例提供基于集群的词向量处理方法、装置以及设备,用以解 决如下技术问题:需要高效的大规模词向量训练方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于集群的词向量处理方法,所述集群包括多 个工作机,所述方法包括:
各所述工作机分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述 相同词的词向量进行更新。
本说明书实施例提供的一种基于集群的词向量处理装置,所述集群包括多 个工作机,所述装置位于所述集群,包括整合更新模块、位于所述工作机的训 练模块;
各所述工作机的训练模块分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
所述整合更新模块,根据一个或者多个所述工作机对相同词的词向量分别 的训练结果,对所述相同词的词向量进行更新。
本说明书实施例提供的一种基于集群的词向量处理设备,所述设备属于所 述集群,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述 至少一个处理器执行,以使所述至少一个处理器能够:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个所述处理器对相同词的词向量分别的训练结果,对所述 相同词的词向量进行更新。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:集 群的分布式并行处理能力使得该方案能够适用于大规模词向量训练且效率较 高。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意 图;
图2为本说明书实施例提供的一种基于集群的词向量处理方法的流程示意 图;
图3为本说明书实施例提供的一种实际应用场景下,基于集群的词向量处 理方法的原理示意图;
图4为本说明书实施例提供的对应于图3的一种基于集群的词向量处理方 法的详细流程示意图;
图5为本说明书实施例提供的对应于图2的一种基于集群的词向量处理装 置的结构示意图。
具体实施方式
本说明书实施例提供基于集群的词向量处理方法、装置以及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合 本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施 例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下 所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书的方案适用于集群,在集群下对于大规模词向量的处理效率更 高,具体地:可以拆分训练语料,进而由集群中的多个工作机分布式地分别根 据拆分的部分语料,训练所述部分语料对应的词向量,由于各部分语料可能包 含相同词,因此,对于各工作机对相同词的词向量分别的训练结果进行整合, 以便于进一步地对训练前保存的该相同词的词向量进行更新。
方案涉及的集群可以有一个或者多个,以图1为例,涉及了两个集群。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意 图。该整体架构中,主要涉及三部分:服务器集群、工作机集群、数据库。数 据库保存有用于训练的语料,供工作机集群读取,服务器集群保存原始的词向 量,工作机集群与服务器集群进行配合,实现对词向量的训练以及根据训练结 果对服务器集群上的词向量的更新。
图1中的架构是示例性的,并非唯一。比如,方案也可以只涉及一个集群, 该集群中包含至少一个调度机和多个工作机,由调度机完成上述服务器集群的 工作;再比如,方案也可以涉及一个工作机集群和一个服务器;等等。
下面对本说明书的方案进行详细说明。
图2为本说明书实施例提供的一种基于集群的词向量处理方法的流程示意 图,所述集群包括多个工作机。图2中各步骤由集群中的至少一个机器(或者 机器上的程序)执行,不同步骤的执行主体可以不同,图2中的流程可以执行 多轮,每轮可以使用不同组的语料。
图2中的流程包括以下步骤:
S202:集群包含的各工作机分别获取从部分语料中提取的词及其上下文 词。
S204:所述工作机获取所述词及其上下文词的词向量。
S206:所述工作机根据所述词及其上下文词,训练对应的词向量。
S208:集群根据一个或者多个所述工作机对相同词的词向量分别的训练结 果,对所述相同词的词向量进行更新。
在本说明书实施例中,各工作机可以分布式地并行执行步骤S202~S206, 其中,各工作机对应的部分语料通常是不同的,如此能够高效利用大规模的训 练语料,也能够提高词向量的训练效率。比如,对于当前用于训练词向量的语 料,可以将语料拆分为多份,各工作机可以分别读取一部分,进而基于自己读 取的部分语料执行步骤S202~S206。
为了便于描述,对于步骤S202~S204,以下各实施例主要从某一个工作机 的角度进行说明。
在本说明书实施例中,若本轮流程是第一轮流程,步骤S204中获取的词 向量可以是初始化得到的。比如,可以采用随机初始化的方式或者按照指定概 率分布初始化的方式,初始化各词的词向量,以及各词的上下文词的词向量, 指定概率分布比如是0-1分布等。而若本轮流程并非第一轮流程,则步骤S204 中获取的词向量可以是上轮流程执行完毕后更新并保存的词向量。
在本说明书实施例中,一般地,步骤S208可以由工作机集群以外的服务 器集群执行,或者由与工作机属于同一集群的调度机或服务器执行,如此可以 降低工作机的负担。相应地,更新后的词向量可以保存于服务器上,以便下轮 流程使用。
以此类推,进行多轮流程直至所有组的训练语料全部使用完毕后,可以将 最终更新得到的词向量写出到数据库,以便用于需求词向量的各种场景,或者 也可以仍然保存于集群中。
通过图2的方法,集群的分布式并行处理能力使得该方法能够适用于大规 模词向量训练且效率较高,不仅如此,也能够高效地利用大规模的训练数据。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案, 以及扩展方案,下面以图1中的架构为例,进行说明。
在本说明书的实施例中,基于图1的架构,图2中的集群包括服务器集群 和工作机集群,由工作机集群执行步骤S202~S206,服务器集群执行步骤S208。
图1的架构也可以称为参数服务器,通过参数服务器能够实现常见的并行 需求:数据并行、模型并行。数据并行指:每台机器载入不同的训练数据,同 步进行模型训练,每隔一段时间,可能会进行一次全局信息同步。模型并行指: 每台机器仅载入部分模型参数,所有机器载入的模型参数放在一起为全量的模 型参数。
服务器集群主要是实现模型并行,即服务器集群内存中维护一份全量的模 型参数,而工作机集群读入不同的训练数据并行进行训练。整个过程为:服务 器集群将参数分发给工作机集群(每个工作机可能读入全量模型参数,也可以 只是部分模型参数);每个工作机读入不同训练数据开始并行训练、更新本机 的模型参数;工作机集群将训练好的模型参数回传到服务器集群;服务器集群 综合所有更新数据做出汇总处理,即模型更新,然后将新的模型参数再传给工 作机集群;按照此过程,交互进行,直到所有训练数据训练完毕,或者达到最 大训练次数。具体到本说明书的场景,上述训练数据即可以是语料,模型参数 即可以是词向量。
在本说明书实施例中,从语料中提取词及其上下文词可以由工作机执行, 也可以由其他设备预先执行。以前一种方式为例,则对于步骤S202,所述获取 从部分语料中提取的词及其上下文词前,还可以执行:各所述工作机分布式地 读取得到部分语料。语料若保存于数据库,则可以从数据库读取。
在本说明书实施例中。所述获取从部分语料中提取的词及其上下文词,具 体可以包括:根据自己所读取得到的语料,建立相应的词对,所述词对包含当 前词及其上下词。比如,可以扫描自己所读取得到的语料中的词,当前扫描的 词为当前词记作w,根据设定的滑窗距离确定包含w的一个滑窗,将该滑窗内 的其他每个词分别作为w的一个上下文词,记作c,如此构成词对{w,c}。
进一步地,假定词向量保存于服务器集群包含的多个服务器上。则对于步 骤S204,所述获取所述词及其上下文词的词向量,具体可以包括:根据自己建 立的各所述词对,提取得到当前词集合和上下文词集合;从所述服务器获取所 述当前词集合和上下文词集合包含的词的词向量。当然,这并非唯一实施方式, 比如,也可以在扫描语料时,同步地从服务器获取当前扫描到的词的词向量而 未必要依赖于建立的词对,等等。
在本说明书实施例中,可以根据指定的损失函数和建立的词对,训练对应 的词向量。
为了获得更好的训练效果以及更快地收敛,还可以结合指定的负样例词对 照地进行训练,负样例词被视为:相比于上下文词,与对应的当前词相关性相 对低的词,一般可以在全部词中随机选择若干个。在这种情况下,对于步骤 S206,所述根据所述词及其上下文词,训练对应的词向量,具体可以包括:根 据指定的损失函数、负样例词,以及自己建立的各所述词对,训练对应的词向 量。当前词和每个负样例词也可以构成一个词对,假定有λ个负样例词,相应 的词可以记作{w,c’1}、{w,c’2}、…、{w,c’λ},为了便于描述将负样例词对和上面 的上下文词对统一记作{w,c},并用y来区分,对于上下文词对,y=1,对于负 样例词对,y=0。
为了便于理解,给出损失函数的一个实例如下:
Figure BDA0001441761420000071
其中,L(w,c)表示损失函数,c'表示负样例词,
Figure BDA0001441761420000072
表示w的词向量,
Figure BDA0001441761420000073
表示 c的词向量,
Figure BDA0001441761420000074
表示c'的词向量,λ为w的负样例词数量,σ是激活函数,比如 Sigmoid函数等。
当然,除了上例以外,损失函数也可以有其他实现形式,训练目标是使得
Figure BDA0001441761420000075
Figure BDA0001441761420000076
的相似度尽量大,以及
Figure BDA0001441761420000077
Figure BDA0001441761420000078
的相似度尽量小,上例是用向量点乘度量相 似度的,也可以采用其他方式度量相似度。
进一步地,若采用梯度下降法训练词向量,则所述根据指定的损失函数、 负样例词,以及自己建立的各所述词对,训练对应的词向量,具体可以包括: 对自己所读取得到的语料进行遍历;根据指定的损失函数、负样例词,以及自 己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上下文 词的词向量进行迭代更新。
在实际应用中,每个工作机上的一个或者多个线程可以以异步计算且不加 锁的方式,所述对遍历的当前词及其上下文词的词向量进行迭代更新。从而, 工作机内各线程也可以并行更新且不会相互妨碍,能够进一步地提高训练效 率。
在本说明书实施例中,当采用不同的损失函数和不同的激活函数时,梯度 以及训练结果也可能不同。沿用损失函数的上例,对训练过程中的计算进行说 明。
所述根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算 梯度,并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新, 具体可以包括:
按照以下公式,对遍历的当前词及其上下文词的词向量进行迭代更新:
Figure BDA0001441761420000081
Figure BDA0001441761420000082
其中,
Figure BDA0001441761420000083
w表示当前词,c表示w的上下文词, c'表示负样例词,
Figure BDA0001441761420000084
表示w的词向量,
Figure BDA0001441761420000085
表示c的词向量,
Figure BDA0001441761420000086
Figure BDA0001441761420000087
表示第t个工 作机上第i次更新,Bi,k表示第i个工作机上第k组语料,Γ(w)表示w的上下文词 集合,α表示学习率,比如可以取0.025,σ为Sigmoid函数,也即
Figure BDA0001441761420000088
进一步地对梯度的计算进行说明:
Figure BDA0001441761420000089
▽σ(-z)|z=-(1-σ(-z))=-σ(z);则有:
Figure BDA00014417614200000810
Figure BDA00014417614200000811
在本说明书实施例中,当由服务器根据训练结果更新词向量时,对于步骤 S208,所述根据一个或者多个所述工作机对相同词的词向量分别的训练结果, 对所述相同词的词向量进行更新,具体可以包括:所述服务器获取一个或者多 个所述工作机对相同词的词向量分别的训练结果;根据各所述训练结果,以及 训练前保存的所述相同词的词向量,进行平均计算,得到向量增量值,并根据 所述向量增量值对所述相同词的词向量进行更新。
该更新过程即是模型平均过程,平均计算可以有多种实现方式,比如,以 词的在各工作机的出现次数作为权重对各工作机的训练结果进行平均;再比 如,直接对各工作机的训练结果进行平均;等等。以前一种方式为例,比如可 以按照以下公式,计算得到上述的向量增量值:
Figure BDA0001441761420000091
Figure BDA0001441761420000092
其中,
Figure BDA0001441761420000093
Figure BDA0001441761420000094
表示第i个工作机上迭代更新结果,λi(w)表示w在第i个工 作机上出现的次数,
Figure BDA0001441761420000095
表示服务器训练前保存的
Figure BDA0001441761420000096
更新前的词向量加上计算出的对应的向量增量值,即可以得到更新后的词 向量。
根据上面的说明,本说明书实施例还提供了一种实际应用场景下,基于集 群的词向量处理方法的原理示意图,如图3所示,进一步地,本说明书实施例 还提供了对应于图3的一种基于集群的词向量处理方法的详细流程示意图,如 图4所示。
在图3中,示例性地示出了工作机0~2、服务器0~2,主要针对工作机0 进行说明,而工作机1和2简略地进行了表示,工作方式与工作机0是一致的。 “wid”、“cid”为标识,分别表示当前词和上下文词,“wid list”、“cid list”是 标识列表,分别表示当前词集合和上下文词集合。图3中的简略工作流程包括: 各工作机分布式地读取语料,建立词对;各工作机从服务器集群获取相应的词 向量;各工作机利用读取的语料训练词向量;服务器集群根据各工作机的训练 结果进行模型平均。
图4中示出了更详细的流程,主要包括以下步骤:
S402:各工作机分布式地读取部分语料,建立词对{w,c},从词对中提取 wid list和cid list,如图4中的工作机0所示。
S404:工作机根据wid list和cid list,从服务器集群获取相应的词向量。
S406:工作机根据词对,计算梯度,进而迭代更新词向量,具体采用上述 的公式一和公式二进行计算。
S408:在各工作机迭代更新完毕后,服务器集群进行模型平均,以对迭代 更新结果进行整合,具体采用上述的公式三和公式四进行计算。
基于同样的思路,本说明书实施例还提供了上述方法的对应装置,如图5 所示。
图5为本说明书实施例提供的对应于图2的一种基于集群的词向量处理装 置的结构示意图,所述集群包括多个工作机,所述装置位于所述集群,包括整 合更新模块501、位于所述工作机的训练模块502;
各所述工作机的训练模块502分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
所述整合更新模块501,根据一个或者多个所述工作机对相同词的词向量 分别的训练结果,对所述相同词的词向量进行更新。
可选地,所述工作机还具有读取模块503,在所述训练模块502获取从部 分语料中提取的词及其上下文词前,各所述工作机的读取模块503分布式地读 取得到部分语料;
所述训练模块502获取从部分语料中提取的词及其上下文词,具体包括:
所述训练模块502根据自己所在工作机的读取模块503所读取得到的语 料,建立相应的词对,所述词对包含当前词及其上下词。
可选地,所述集群还包括多个服务器,所述训练模块502获取所述词及其 上下文词的词向量,具体包括:
所述训练模块502根据自己建立的各所述词对,提取得到当前词集合和上 下文词集合;
从所述服务器获取所述当前词集合和上下文词集合包含的词的词向量。
可选地,所述训练模块502根据所述词及其上下文词,训练对应的词向量, 具体包括:
所述训练模块502根据指定的损失函数、负样例词,以及自己建立的各所 述词对,训练对应的词向量。
可选地,所述训练模块502根据指定的损失函数、负样例词,以及自己建 立的各所述词对,训练对应的词向量,具体包括:
所述训练模块502对自己所读取得到的语料进行遍历;
根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度, 并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新。
可选地,所述训练模块502根据指定的损失函数、负样例词,以及自己建 立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上下文词的 词向量进行迭代更新,具体包括:
所述训练模块502按照以下公式,对遍历的当前词及其上下文词的词向量 进行迭代更新:
Figure BDA0001441761420000111
Figure BDA0001441761420000112
其中,
Figure BDA0001441761420000113
w表示当前词,c表示w的上下文词, c'表示负样例词,
Figure BDA0001441761420000114
表示w的词向量,
Figure BDA0001441761420000115
表示c的词向量,
Figure BDA0001441761420000116
Figure BDA0001441761420000117
表示第t个工 作机上第i次更新,Bi,k表示第i个工作机上第k组语料,Γ(w)表示w的上下文词 集合,α表示学习率,σ为Sigmoid函数。
可选地,所述训练模块502对遍历的当前词及其上下文词的词向量进行迭 代更新,具体包括:
所述训练模块502通过所在工作机上的一个或者多个线程,以异步计算且 不加锁的方式,所述对遍历的当前词及其上下文词的词向量进行迭代更新。
可选地,所述整合更新模块501位于所述服务器,所述整合更新模块501 根据一个或者多个所述工作机对相同词的词向量分别的训练结果,对所述相同 词的词向量进行更新,具体包括:
所述整合更新模块501获取一个或者多个所述工作机对相同词的词向量分 别的训练结果;
根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均 计算,得到向量增量值,并根据所述向量增量值对所述相同词的词向量进行更 新。
可选地,所述整合更新模块501根据各所述训练结果,以及训练前保存的 所述相同词的词向量,进行平均计算,得到向量增量值,具体包括:
所述整合更新模块501按照以下公式,计算得到向量增量值:
Figure BDA0001441761420000121
Figure BDA0001441761420000122
其中,w表示当前词,c表示w的上下文词,
Figure BDA0001441761420000123
表示w的词向量,
Figure BDA0001441761420000124
表示c的 词向量,
Figure BDA0001441761420000125
Figure BDA0001441761420000126
表示第i个工作机上迭代更新结果,λi(w)表示w在第i个工作 机上出现的次数,
Figure BDA0001441761420000127
表示服务器训练前保存的
Figure BDA0001441761420000128
基于同样的思路,本说明书实施例还提供了对应于图2的一种基于集群的 词向量处理设备,该设备属于所述集群,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述 至少一个处理器执行,以使所述至少一个处理器能够:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个对相同词的词向量分别的训练结果,对所述相同词的词 向量进行更新。
基于同样的思路,本说明书实施例还提供了对应于图2的一种非易失性计 算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个对相同词的词向量分别的训练结果,对所述相同词的词 向量进行更新。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的 范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实 施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过 程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施 方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之 处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基 本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分 说明即可。
本说明书实施例提供的装置、设备、非易失性计算机存储介质与方法是对 应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的 有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此, 这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改 进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对 于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已 经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程 编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的 改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array, FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设 计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造 厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电 路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它 与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用 特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、 Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (Ruby Hardware Description Language)等,目前最普遍使用的是VHDL (Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。 本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作 逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件 电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器 或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件 或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器 的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存 储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序 代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制 器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形 式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包 括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以 将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件 部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实 体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。 具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、 智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制 台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然, 在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计 算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施 例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在 一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不 限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程 序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程 和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过 计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装 置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出 接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内 存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他 类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储 器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、 数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他 磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信 息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设 备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述, 例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型 的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践 本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设 备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的 本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之 处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的 比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (19)

1.一种基于集群的词向量处理方法,所述集群包括多个工作机和多个服 务器,所述方法包括:
将训练语料拆分为多个部分语料,以便各工作机分别读取一部分语料,进 而使多个工作机分布式地分别根据拆分的部分语料,训练所述部分语料对应的 词向量;
其中,各所述工作机分别执行以下操作以便训练对应的词向量:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
服务器根据一个或者多个所述工作机对相同词的词向量分别的训练结果, 对所述相同词的词向量进行更新;
其中,所述训练语料保持在数据库中,以供集群中的工作机读取部分语料; 所述训练语料的原始词向量保存在所述集群的服务器。
2.如权利要求1所述的方法,所述获取从部分语料中提取的词及其上下 文词前,所述方法还包括:
各所述工作机分布式地读取得到部分语料;
所述获取从部分语料中提取的词及其上下文词,具体包括:
根据自己所读取得到的语料,建立相应的词对,所述词对包含当前词及其 上下词。
3.如权利要求2所述的方法,所述获取所述词及其上下文词的词向量, 具体包括:
根据自己建立的各所述词对,提取得到当前词集合和上下文词集合;
从所述服务器获取所述当前词集合和上下文词集合包含的词的词向量。
4.如权利要求2所述的方法,所述根据所述词及其上下文词,训练对应 的词向量,具体包括:
根据指定的损失函数、负样例词,以及自己建立的各所述词对,训练对应 的词向量。
5.如权利要求4所述的方法,所述根据指定的损失函数、负样例词,以 及自己建立的各所述词对,训练对应的词向量,具体包括:
对自己所读取得到的语料进行遍历;
根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度, 并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新。
6.如权利要求5所述的方法,所述根据指定的损失函数、负样例词,以 及自己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当前词及其上 下文词的词向量进行迭代更新,具体包括:
按照以下公式,对遍历的当前词及其上下文词的词向量进行迭代更新:
Figure FDA0002764567690000021
Figure FDA0002764567690000022
其中,
Figure FDA0002764567690000023
w表示当前词,c表示w的上下 文词,c'表示负样例词,
Figure FDA0002764567690000024
表示w的词向量,
Figure FDA0002764567690000025
表示c的词向量,
Figure FDA0002764567690000026
Figure FDA0002764567690000027
表 示第t个工作机上第i次更新,Bi,k表示第i个工作机上第k组语料,Γ(w)表 示w的上下文词集合,α表示学习率,σ为Sigmoid函数。
7.如权利要求6所述的方法,所述对遍历的当前词及其上下文词的词向 量进行迭代更新,具体包括:
所述工作机上的一个或者多个线程以异步计算且不加锁的方式,所述对遍 历的当前词及其上下文词的词向量进行迭代更新。
8.如权利要求3所述的方法,所述根据一个或者多个所述工作机对相同 词的词向量分别的训练结果,对所述相同词的词向量进行更新,具体包括:
所述服务器获取一个或者多个所述工作机对相同词的词向量分别的训练 结果;
根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均 计算,得到向量增量值,并根据所述向量增量值对所述相同词的词向量进行更 新。
9.如权利要求8所述的方法,所述根据各所述训练结果,以及训练前保 存的所述相同词的词向量,进行平均计算,得到向量增量值,具体包括:
按照以下公式,计算得到向量增量值:
Figure FDA0002764567690000031
Figure FDA0002764567690000032
其中,w表示当前词,c表示w的上下文词,
Figure FDA0002764567690000033
表示w的词向量,
Figure FDA0002764567690000034
表 示c的词向量,
Figure FDA0002764567690000035
Figure FDA0002764567690000036
表示第i个工作机上迭代更新结果,λi(w)表示w在 第i个工作机上出现的次数,
Figure FDA0002764567690000037
表示服务器训练前保存的
Figure FDA0002764567690000038
10.一种基于集群的词向量处理装置,所述集群包括多个工作机,所述装 置位于所述集群,包括整合更新模块、位于所述工作机的训练模块;
所述训练模块用于将训练语料拆分为多个部分语料,以便各工作机分别读 取一部分语料,进而使多个工作机分布式地分别根据拆分的部分语料,训练所 述部分语料对应的词向量;
各所述工作机的训练模块分别执行:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
所述整合更新模块,根据一个或者多个所述工作机对相同词的词向量分别 的训练结果,对所述相同词的词向量进行更新;
其中,所述训练语料保持在数据库中,以供集群中的工作机读取部分语料; 所述训练语料的原始词向量保存在所述集群的服务器。
11.如权利要求10所述的装置,所述工作机还具有读取模块,在所述训 练模块获取从部分语料中提取的词及其上下文词前,各所述工作机的读取模块 分布式地读取得到部分语料;
所述训练模块获取从部分语料中提取的词及其上下文词,具体包括:
所述训练模块根据自己所在工作机的读取模块所读取得到的语料,建立相 应的词对,所述词对包含当前词及其上下词。
12.如权利要求11所述的装置,所述集群还包括多个服务器,所述训练 模块获取所述词及其上下文词的词向量,具体包括:
所述训练模块根据自己建立的各所述词对,提取得到当前词集合和上下文 词集合;
从所述服务器获取所述当前词集合和上下文词集合包含的词的词向量。
13.如权利要求11所述的装置,所述训练模块根据所述词及其上下文词, 训练对应的词向量,具体包括:
所述训练模块根据指定的损失函数、负样例词,以及自己建立的各所述词 对,训练对应的词向量。
14.如权利要求13所述的装置,所述训练模块根据指定的损失函数、负 样例词,以及自己建立的各所述词对,训练对应的词向量,具体包括:
所述训练模块对自己所读取得到的语料进行遍历;
根据指定的损失函数、负样例词,以及自己建立的各所述词对,计算梯度, 并根据所述梯度对遍历的当前词及其上下文词的词向量进行迭代更新。
15.如权利要求14所述的装置,所述训练模块根据指定的损失函数、负 样例词,以及自己建立的各所述词对,计算梯度,并根据所述梯度对遍历的当 前词及其上下文词的词向量进行迭代更新,具体包括:
所述训练模块按照以下公式,对遍历的当前词及其上下文词的词向量进行 迭代更新:
Figure FDA0002764567690000041
Figure FDA0002764567690000051
其中,
Figure FDA0002764567690000052
w表示当前词,c表示w的上下文词, c'表示负样例词,
Figure FDA0002764567690000053
表示w的词向量,
Figure FDA0002764567690000054
表示c的词向量,
Figure FDA0002764567690000055
Figure FDA0002764567690000056
表示第t个工 作机上第i次更新,Bi,k表示第i个工作机上第k组语料,Γ(w)表示w的上下文词 集合,α表示学习率,σ为Sigmoid函数。
16.如权利要求15所述的装置,所述训练模块对遍历的当前词及其上下 文词的词向量进行迭代更新,具体包括:
所述训练模块通过所在工作机上的一个或者多个线程,以异步计算且不加 锁的方式,所述对遍历的当前词及其上下文词的词向量进行迭代更新。
17.如权利要求12所述的装置,所述整合更新模块位于所述服务器,所 述整合更新模块根据一个或者多个所述工作机对相同词的词向量分别的训练 结果,对所述相同词的词向量进行更新,具体包括:
所述整合更新模块获取一个或者多个所述工作机对相同词的词向量分别 的训练结果;
根据各所述训练结果,以及训练前保存的所述相同词的词向量,进行平均 计算,得到向量增量值,并根据所述向量增量值对所述相同词的词向量进行更 新。
18.如权利要求17所述的装置,所述整合更新模块根据各所述训练结果, 以及训练前保存的所述相同词的词向量,进行平均计算,得到向量增量值,具 体包括:
所述整合更新模块按照以下公式,计算得到向量增量值:
Figure FDA0002764567690000057
Figure FDA0002764567690000061
其中,w表示当前词,c表示w的上下文词,
Figure FDA0002764567690000062
表示w的词向量,
Figure FDA0002764567690000063
表示c的 词向量,
Figure FDA0002764567690000064
Figure FDA0002764567690000065
表示第i个工作机上迭代更新结果,λi(w)表示w在第i个工作 机上出现的次数,
Figure FDA0002764567690000066
表示服务器训练前保存的
Figure FDA0002764567690000067
19.一种基于集群的词向量处理设备,所述设备属于所述集群,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述 至少一个处理器执行,以使所述至少一个处理器能够:
获取从部分语料中提取的词及其上下文词;
获取所述词及其上下文词的词向量;
根据所述词及其上下文词,训练对应的词向量;
根据一个或者多个对相同词的词向量分别的训练结果,对所述相同词的词 向量进行更新;
其中,所述训练语料保持在数据库中,以供集群中的工作机读取部分语料; 所述训练语料的原始词向量保存在所述集群的服务器。
CN201710992297.8A 2017-10-23 2017-10-23 基于集群的词向量处理方法、装置以及设备 Active CN107957989B9 (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201710992297.8A CN107957989B9 (zh) 2017-10-23 2017-10-23 基于集群的词向量处理方法、装置以及设备
SG11202001204RA SG11202001204RA (en) 2017-10-23 2018-08-17 Cluster-based word vector processing method, device, and apparatus
PCT/CN2018/101053 WO2019080615A1 (zh) 2017-10-23 2018-08-17 基于集群的词向量处理方法、装置以及设备
EP18870742.6A EP3678038A4 (en) 2017-10-23 2018-08-17 METHOD, APPARATUS AND DEVICE FOR PROCESSING A CLUSTER-BASED WORD VECTOR
TW107129401A TWI721310B (zh) 2017-10-23 2018-08-23 基於集群的詞向量處理方法、裝置以及設備
US16/743,224 US10769383B2 (en) 2017-10-23 2020-01-15 Cluster-based word vector processing method, device, and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710992297.8A CN107957989B9 (zh) 2017-10-23 2017-10-23 基于集群的词向量处理方法、装置以及设备

Publications (3)

Publication Number Publication Date
CN107957989A CN107957989A (zh) 2018-04-24
CN107957989B CN107957989B (zh) 2020-11-17
CN107957989B9 true CN107957989B9 (zh) 2021-01-12

Family

ID=61963958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710992297.8A Active CN107957989B9 (zh) 2017-10-23 2017-10-23 基于集群的词向量处理方法、装置以及设备

Country Status (6)

Country Link
US (1) US10769383B2 (zh)
EP (1) EP3678038A4 (zh)
CN (1) CN107957989B9 (zh)
SG (1) SG11202001204RA (zh)
TW (1) TWI721310B (zh)
WO (1) WO2019080615A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957989B9 (zh) * 2017-10-23 2021-01-12 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
CN108170663A (zh) 2017-11-14 2018-06-15 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
US20190251595A1 (en) * 2018-02-09 2019-08-15 Oath Inc. Method and system for matching query to ads using query subword vectors
CN109063886B (zh) * 2018-06-12 2022-05-31 创新先进技术有限公司 一种异常检测方法、装置以及设备
JP7116309B2 (ja) * 2018-10-10 2022-08-10 富士通株式会社 コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
CN110321552A (zh) * 2019-05-30 2019-10-11 泰康保险集团股份有限公司 词向量构建方法、装置、介质及电子设备
US11227128B2 (en) * 2019-06-07 2022-01-18 Raytheon Bbn Technologies Corp. Linguistically rich cross-lingual text event embeddings
CN111552785A (zh) * 2020-04-09 2020-08-18 深圳壹账通智能科技有限公司 人机交互系统数据库更新方法、装置、计算机设备和介质
CN111813910B (zh) * 2020-06-24 2024-05-31 平安科技(深圳)有限公司 客服问题的更新方法、系统、终端设备及计算机存储介质
CN112287662B (zh) * 2020-10-29 2023-10-20 平安科技(深圳)有限公司 基于多个机器学习模型的自然语言处理方法、装置和设备
CN112800178A (zh) * 2021-01-28 2021-05-14 平安科技(深圳)有限公司 答案生成方法、装置、电子设备及可读存储介质
CN113760778B (zh) * 2021-11-09 2022-02-08 浙江大学滨海产业技术研究院 一种基于词向量模型的微服务接口划分评价方法
CN116881463B (zh) * 2023-09-05 2024-01-26 南京艺术学院 基于数据的艺术多模态语料库构建系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN106802888A (zh) * 2017-01-12 2017-06-06 北京航空航天大学 词向量训练方法和装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107247704A (zh) * 2017-06-09 2017-10-13 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5317507A (en) 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5233681A (en) 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US7251637B1 (en) 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5828999A (en) 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US6137911A (en) 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6882990B1 (en) * 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
US20030069873A1 (en) 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6317707B1 (en) 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US6922699B2 (en) 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6904405B2 (en) 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US7376618B1 (en) 2000-06-30 2008-05-20 Fair Isaac Corporation Detecting and measuring risk with predictive models using content mining
US7007069B2 (en) 2002-12-16 2006-02-28 Palo Alto Research Center Inc. Method and apparatus for clustering hierarchically related information
US7280957B2 (en) 2002-12-16 2007-10-09 Palo Alto Research Center, Incorporated Method and apparatus for generating overview information for hierarchically related information
US7340674B2 (en) 2002-12-16 2008-03-04 Xerox Corporation Method and apparatus for normalizing quoting styles in electronic mail messages
EP1894125A4 (en) 2005-06-17 2015-12-02 Nat Res Council Canada MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION
US9600568B2 (en) 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
US9275129B2 (en) 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US20080109454A1 (en) 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
US8027938B1 (en) * 2007-03-26 2011-09-27 Google Inc. Discriminative training in machine learning
US7877258B1 (en) 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
US8756229B2 (en) 2009-06-26 2014-06-17 Quantifind, Inc. System and methods for units-based numeric information retrieval
US8719257B2 (en) 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
US8488916B2 (en) 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
CN105378699B (zh) * 2013-11-27 2018-12-18 Ntt都科摩公司 基于机器学习的自动任务分类
US10366327B2 (en) * 2014-01-31 2019-07-30 Google Llc Generating vector representations of documents
US20160070748A1 (en) * 2014-09-04 2016-03-10 Crimson Hexagon, Inc. Method and apparatus for improved searching of digital content
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN107102981B (zh) 2016-02-19 2020-06-23 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN107133622B (zh) 2016-02-29 2022-08-26 阿里巴巴集团控股有限公司 一种单词的分割方法和装置
EP3430526A4 (en) * 2016-03-18 2020-02-26 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR TRAINING A LEARNING MACHINE
CN105786782B (zh) * 2016-03-25 2018-10-19 北京搜狗信息服务有限公司 一种词向量的训练方法和装置
US10789545B2 (en) * 2016-04-14 2020-09-29 Oath Inc. Method and system for distributed machine learning
JP6671020B2 (ja) * 2016-06-23 2020-03-25 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP6199461B1 (ja) 2016-09-13 2017-09-20 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN106897265B (zh) 2017-01-12 2020-07-10 北京航空航天大学 词向量训练方法及装置
US10303681B2 (en) * 2017-05-19 2019-05-28 Microsoft Technology Licensing, Llc Search query and job title proximity computation via word embedding
US10380259B2 (en) * 2017-05-22 2019-08-13 International Business Machines Corporation Deep embedding for natural language content based on semantic dependencies
CN107273355B (zh) 2017-06-12 2020-07-14 大连理工大学 一种基于字词联合训练的中文词向量生成方法
CN107957989B9 (zh) * 2017-10-23 2021-01-12 创新先进技术有限公司 基于集群的词向量处理方法、装置以及设备
CN108170663A (zh) 2017-11-14 2018-06-15 阿里巴巴集团控股有限公司 基于集群的词向量处理方法、装置以及设备
US10678830B2 (en) * 2018-05-31 2020-06-09 Fmr Llc Automated computer text classification and routing using artificial intelligence transfer learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095444A (zh) * 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN106802888A (zh) * 2017-01-12 2017-06-06 北京航空航天大学 词向量训练方法和装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107247704A (zh) * 2017-06-09 2017-10-13 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备

Also Published As

Publication number Publication date
TWI721310B (zh) 2021-03-11
US10769383B2 (en) 2020-09-08
US20200151395A1 (en) 2020-05-14
WO2019080615A1 (zh) 2019-05-02
EP3678038A4 (en) 2020-10-07
EP3678038A1 (en) 2020-07-08
TW201917603A (zh) 2019-05-01
SG11202001204RA (en) 2020-03-30
CN107957989A (zh) 2018-04-24
CN107957989B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN107957989B9 (zh) 基于集群的词向量处理方法、装置以及设备
CN108170667B (zh) 词向量处理方法、装置以及设备
CN108345580B (zh) 一种词向量处理方法及装置
CN108874765B (zh) 词向量处理方法及装置
CN108346107B (zh) 一种社交内容风险识别方法、装置以及设备
TWI686713B (zh) 詞向量產生方法、裝置以及設備
CN113011483B (zh) 一种模型训练和业务处理的方法及装置
CN108073687B (zh) 随机游走、基于集群的随机游走方法、装置以及设备
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
US10846483B2 (en) Method, device, and apparatus for word vector processing based on clusters
CN107423269B (zh) 词向量处理方法及装置
CN111652286A (zh) 一种基于图嵌入的物体识别方法、设备及介质
CN110033092B (zh) 数据标签生成、模型训练、事件识别方法和装置
CN114972774A (zh) 特定区域的图像描述生成方法、装置、设备及存储介质
CN117409466B (zh) 一种基于多标签控制的三维动态表情生成方法及装置
CN107247704B (zh) 词向量处理方法、装置以及电子设备
CN107577658B (zh) 词向量处理方法、装置以及电子设备
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
CN107562715B (zh) 词向量处理方法、装置以及电子设备
CN107844472B (zh) 词向量处理方法、装置以及电子设备
CN110321433B (zh) 确定文本类别的方法及装置
CN111598092A (zh) 图像中目标区域的确定方法、目标识别方法及装置
CN112825121A (zh) 深度卷积神经网络初始化和训练方法、装置、介质及设备
CN116415103B (zh) 一种数据处理的方法、装置、存储介质以及电子设备
CN112287130A (zh) 一种图形题目的搜索方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1253990

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20201019

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201019

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent

Correction item: Claims

Correct: Correct

False: error

Number: 47-01

Page: full text

Volume: 36

CI03 Correction of invention patent