CN108681490B - 针对rpc信息的向量处理方法、装置以及设备 - Google Patents

针对rpc信息的向量处理方法、装置以及设备 Download PDF

Info

Publication number
CN108681490B
CN108681490B CN201810215719.5A CN201810215719A CN108681490B CN 108681490 B CN108681490 B CN 108681490B CN 201810215719 A CN201810215719 A CN 201810215719A CN 108681490 B CN108681490 B CN 108681490B
Authority
CN
China
Prior art keywords
rpc information
rpc
information unit
context
designated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810215719.5A
Other languages
English (en)
Other versions
CN108681490A (zh
Inventor
曹绍升
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810215719.5A priority Critical patent/CN108681490B/zh
Publication of CN108681490A publication Critical patent/CN108681490A/zh
Priority to TW108100046A priority patent/TWI705378B/zh
Priority to PCT/CN2019/071853 priority patent/WO2019174392A1/zh
Priority to US16/960,302 priority patent/US20210011788A1/en
Application granted granted Critical
Publication of CN108681490B publication Critical patent/CN108681490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了针对RPC信息的向量处理方法、装置以及设备。方案包括:获取由用户的多个RPC信息单元构成的RPC信息序列,建立并初始化RPC信息单元的特征向量,根据RPC信息序列和特征向量,对特征向量进行训练,从而得到表达较为准确的特征向量。

Description

针对RPC信息的向量处理方法、装置以及设备
技术领域
本说明书涉及计算机软件技术领域,尤其涉及针对远程过程调用(RemoteProcedure Call,RPC)向量处理方法、装置以及设备。
背景技术
RPC是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。在商业应用中常常会记录用户的RPC信息序列,用来做推荐,自动问答、风控等。RPC信息序列由多个RPC信息单元构成,每个RPC单元通常是一个特定的字符串编码,代表一定的特定含义,比如,某些RPC信息单元可能会代表“查询某理财产品的实时值”,“搜索某服装品牌的新品毛衣”等。
在现有技术中,往往人工对不同的RPC单元归类,以及进行业务角度的知识总结等,以用于实现相关功能。
基于现有技术,需要更为有效的RPC信息特征刻画方案。
发明内容
本说明书实施例提供针对RPC信息的向量处理方法、装置以及设备,用以解决如下技术问题:需要更为有效的RPC信息特征刻画方案。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种针对RPC信息的向量处理方法,包括:
获取由用户的多个RPC信息单元构成的RPC信息序列;
建立并初始化所述RPC信息单元的特征向量;
根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
本说明书实施例提供的一种针对RPC信息的向量处理装置,包括:
获取模块,获取由用户的多个RPC信息单元构成的RPC信息序列;
构建模块,建立并初始化所述RPC信息单元的特征向量;
训练模块,根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
本说明书实施例提供的另一种针对RPC信息的向量处理方法,包括:
步骤1,收集用户的RPC信息序列,统计所述RPC信息序列中出现过且出现次数少于设定次数的RPC信息单元并建表保存;跳转步骤2;
步骤2,建立并初始化所述表中各RPC信息单元的特征向量;跳转步骤3;
步骤3,遍历所述RPC信息序列,分别对当前遍历到的RPC信息单元w执行步骤4,若遍历完成则结束,否则继续遍历;
步骤4,以w为中心,向两侧分别滑动至多k个RPC信息单元建立窗口,从所述窗口中选择w的多个上下文RPC信息单元,以及从所述RPC信息序列中随机选择w的λ个负样例RPC信息单元;跳转步骤5;
步骤5,为w的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量,按照如下损失函数计算对应的损失表征值l(w,c):
Figure BDA0001598539210000021
其中,
Figure BDA0001598539210000022
表示w的特征向量,
Figure BDA0001598539210000023
表示所述上下文向量,c’表示w的负样例RPC信息单元,⊙表示相似度运算,所述相似度运算为点积运算、或者夹角余弦运算,
Figure BDA0001598539210000024
表示c’的特征向量,Ec'∈p(V)[x]是指c’满足概率分布p(V)的情况下,表达式x的期望值,σ()是神经网络激励函数,定义为
Figure BDA0001598539210000025
根据计算出的l(w,c)计算对应的梯度,根据所述梯度,对
Figure BDA0001598539210000026
及其上下文RPC信息单元的特征向量进行更新。
本说明书实施例提供的一种针对RPC信息的向量处理设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取由用户的多个RPC信息单元构成的RPC信息序列;
建立并初始化所述RPC信息单元的特征向量;
根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:能够构建并训练RPC信息单元的特征向量,训练后的特征向量能够更为有效地刻画RPC信息单元间的内在的语义特征。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;
图2为本说明书实施例提供的一种针对RPC信息的向量处理方法的流程示意图;
图3为本说明书实施例提供的另一种针对RPC信息的向量处理方法的流程示意图;
图4为本说明书实施例提供的实际应用场景下,上述向量处理方法的一种具体实施方案的流程示意图;
图5为本说明书实施例提供的实际应用场景下,上述向量处理方法的另一种具体实施方案的流程示意图;
图6为本说明书实施例提供的对应于图2的一种针对RPC信息的向量处理装置的结构示意图。
具体实施方式
本说明书实施例提供针对RPC信息的向量处理方法、装置以及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
针对背景技术中的问题,本说明书提供了一种无监督的算法,将不同的RPC信息单元映射到同一个固定维度的向量空间中,得到特征向量(也可以称为:RPC信息单元的向量表示、或者RPC向量表示)。基于这种算法,反映用户的业务行为的RPC信息序列就可以进一步地向量化,直接用于意图识别、商品推荐等任务中;另一方面,RPC向量表示还可以进一步降维得到平面可视化图,方便业务人员直接进行数据分析。
为了便于理解,以一个风控场景的例子说明。比如,有代表以下信息的RPC信息序列“…‘登录’‘改密验证信息错误’‘改密验证信息错误’‘改密验证信息错误’‘改密验证信息错误’…”,此时,风控系统就应该察觉到用户操作有异常,传统的方法是人工总结RPC信息序列的这种特定模式,但是,RPC信息单元数量一直增多,而且不断有新的模式产生,人工总结难以覆盖全面。可以使用机器学习中的分类模型,即将相同的RPC信息单元看成是一个特征,但是,这种方案的缺点在于难以刻画RPC信息单元间的内在联系,只是表面上把不同的RPC信息单元不同对待而已。本说明书提出的就是能够将RPC信息单元转化成向量表示,进而刻画RPC信息单元间的内在的语义特性的方案。
图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中,主要涉及四部分:用户的RPC信息序列、RPC信息序列包含的多个RPC信息单元、RPC信息单元的特征向量、向量训练服务器。通过向量训练服务器对RPC信息单元的特征向量进行训练,可以获得更为准确的特征向量。在实际应用中,前三部分涉及的动作可以由相应的软件和/或硬件功能模块执行。
下面主要基于图1的示例性架构,对本说明书的方案详细说明。
图2为本说明书实施例提供的一种针对RPC信息的向量处理方法的流程示意图。从程序角度而言,该流程的执行主体可以是具有向量训练功能的程序等;从设备角度而言,该流程的执行主体可以包括但不限于可搭载所述程序的以下至少一种设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图2中的流程可以包括以下步骤:
S202:获取由用户的多个RPC信息单元构成的RPC信息序列。
在本说明书实施例中,RPC信息序列中的RPC信息单元一般按照时序排列,反映用户一段时间内依次的若干个业务行为。在上述风控场景的例子中,RPC信息序列可以反映用户登录、进而连续几次尝试修改密码(但是由于改密验证信息错误,改密失败)的行为,‘登录’、‘改密验证信息错误’等信息可以分别由RPC信息序列中的一个RPC信息单元代表,RPC信息单元本身的表现形式不限,可以是字符串本身,也可以是该字符串的编码等。
S204:建立并初始化所述RPC信息单元的特征向量。
在本说明书实施例中,步骤S204中的RPC信息单元指:RPC信息序列中出现过的至少部分RPC信息单元。为了便于后续处理,可以将这些RPC信息单元记录在表中,需要使用时根据表中读取RPC信息单元即可。
在本说明书实施例中,每个RPC信息单元分别有自己的特征向量,相同的RPC信息单元的特征向量相同。
在本说明书实施例中,在初始化特征向量时,可能会有一些限制条件,比如,不将各特征向量都初始化为相同的向量;又比如,某些特征向量中的元素取值不全为0;等等。可以采用随机初始化的方式或者按照指定概率分布(如0-1分布等)初始化的方式,初始化各RPC信息单元的特征向量。
另外,若之前已经基于其他训练数据,训练过某些RPC信息单元的特征向量,则在进一步地基于图2中的RPC信息序列训练时,可以不再重新建立并初始化这些RPC信息单元的特征向量,而是基于之前的训练结果,进一步地训练即可。
S208:根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
在本说明书实施例中,可以根据RPC信息序列中的上下文关系,通过无监督学习,对特征向量进行训练。
通过图2的方法,能够构建并训练RPC信息单元的特征向量,训练后的特征向量能够更为有效地刻画RPC信息单元间的内在的语义特征。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在本说明书实施例中,考虑到若某个RPC信息单元在RPC信息序列中出现的次数太少,则基于该RPC信息序列训练时对应的训练样本与训练次数也较少,会给训练结果的可信度带来不利影响,因此,可以将这类RPC信息单元筛除,暂不训练。后续可以利用其他合适的训练数据进行训练。在实际应用中,RPC信息序列本身也可以预先被筛除过这类RPC信息单元。
基于上一段的分析,对于步骤S204,所述建立并初始化所述RPC信息单元的特征向量,具体可以包括:确定在所述RPC信息序列中出现次数不少于设定次数的RPC信息单元;建立并初始化确定的各RPC信息单元的特征向量,其中,相同RPC信息单元的特征向量也相同。设定次数不少于1次,具体是多少次可以根据实际需要设定。
在本说明书实施例中,对于步骤S206,具体的训练方式可以有多种,比如基于上下文的训练方式、基于近义或同义RPC信息单元的训练方式等,为了便于理解,以前一种方式为例进行详细介绍。
所述根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体可以包括:确定所述RPC信息序列中的指定RPC信息单元,以及所述指定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;为所述指定RPC信息单元的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量;根据所述指定RPC信息单元的特征向量,以及所述上下文向量,确定所述指定RPC信息单元与其上下文RPC信息单元的相似度;根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新。
其中,若有多个上下文RPC信息单元:对于分别确定特征向量的情况,则上下文向量相应地有多个,即为各上下文RPC信息单元的特征向量;而对于整体确定特征向量的情况,则上下文向量可以只有一个,比如是根据各上下文RPC信息单元分别的特征向量,进行取平均值或者取最值等运算确定的。
本说明书对相似度的度量方式并不做限定。比如,可以基于向量的夹角余弦运算度量相似度,可以基于向量的平方和运算度量相似度,等等。
所述指定RPC信息单元可以有多个,指定RPC信息单元可以重复而在RPC信息序列中的位置不同,可以分别针对每个指定RPC信息单元执行上一段中的处理动作。优选地,可以将RPC信息序列中包含的RPC信息单元(可以筛除一部分RPC信息单元)分别作为一个指定RPC信息单元。
在本说明书实施例中,步骤S206中的训练可以使得:指定RPC信息单元与其上下文RPC信息单元的相似度相对变高(在这里,相似度可以反映关联度,RPC信息单元与其上下文RPC信息单元的关联度相对较高,而且语义相同或相近的各RPC信息单元分别的上下文RPC信息单元的语义往往也是相同或相近的),而指定RPC信息单元与其非上下文RPC信息单元的相似度相对地变低,非上下文RPC信息单元可以作为下述的负样例RPC信息单元,上下文RPC信息单元相对地可以作为正样例RPC信息单元。
由此可见,在训练过程中,可以确定一些负样例RPC信息单元作为对照,有利于提高训练效果。可以在RPC信息序列中随机选择一个或多个RPC信息单元作为负样例RPC信息单元,也可以严格地选择非上下文RPC信息单元作为负样例RPC信息单元。以前一种方式为例,所述根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新,具体可以包括:从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元;确定所述指定RPC信息单元与其负样例RPC信息单元的相似度;根据指定的损失函数、所述指定RPC信息单元与其上下文RPC信息单元的相似度,以及所述指定RPC信息单元与其负样例RPC信息单元的相似度,确定所述指定RPC信息单元对应的损失表征值;根据所述损失表征值,对所述指定RPC信息单元的特征向量进行更新;另外,根据所述损失表征值,还可以对所述指定RPC信息单元的上下文RPC信息单元和/或负样例RPC信息单元的特征向量进行更新。
其中,所述损失表征值用于衡量当前的向量值与训练目标之间的误差程度。所述损失函数的参数可以以上述的几种相似度作为参数,具体的损失函数表达式本说明书并不做限定,后面会详细举例说明。
在本说明书实施例中,对特征向量更新实际上对所述误差程度的修正。当采用神经网络实现本说明书的方案时,这种修正可以基于反向传播和梯度下降法实现。在这种情况下,所述梯度即为损失函数对应的梯度。
则所述根据所述损失表征值,对所述指定RPC信息单元的特征向量进行更新,具体可以包括:根据所述损失表征值,确定所述损失函数对应的梯度;根据所述梯度,对所述指定RPC信息单元的特征向量进行更新。
在本说明书实施例中,对特征向量的训练过程可以是基于RPC信息序列中的至少部分RPC信息单元迭代进行的,直至训练收敛。
前面已经提到两种训练时确定上下文向量的方案:为各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量。分别基于这两种方案,对训练过程进一步地说明。
以基于RPC信息序列中的全部RPC信息单元进行训练为例。若采用第一种确定上下文向量的方案,则对于步骤S206,所述根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体可以包括:
对所述RPC信息序列进行遍历,分别对遍历到的RPC信息单元(即作为上述的指定RPC信息单元)执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
分别对所述上下文RPC信息单元执行:
根据该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量,确定该RPC信息单元与该上下文RPC信息单元的相似度;
根据该RPC信息单元与该上下文RPC信息单元的相似度,对该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量进行更新。
以基于RPC信息序列中的全部RPC信息单元进行训练为例。若采用第二种确定上下文向量的方案,则对于步骤S206,所述根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体可以包括:
对所述RPC信息序列进行遍历,分别对所述RPC信息序列中的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;根据所述一个或多个上下文RPC信息单元分别的特征向量,通过求平均值运算或者求最值运算,确定上下文向量;根据该RPC信息单元的特征向量,以及所述上下文向量,确定该RPC信息单元与其上下文RPC信息单元的相似度;根据该RPC信息单元与其上下文RPC信息单元的相似度,对该RPC信息单元及其上下文RPC信息单元的特征向量进行更新。
具体如何进行更新上面已经进行说明,不再赘述。
在本说明书实施例中,为了便于计算机处理,可以基于窗口实现上面的遍历过程。
例如,确定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元,具体可以包括:在所述RPC信息序列中,通过以该RPC信息单元为中心,向左和/或向右滑动指定数量个RPC信息单元的距离,建立窗口;在所述窗口中确定一个或多个RPC信息单元,作为上下文RPC信息单元。
当然,也可以以RPC信息序列的第一个RPC信息单元为开始位置,建立一个设定长度的窗口,窗口中包含第一个RPC信息单元以及之后连续的设定数量个RPC信息单元;处理完窗口内的各RPC信息单元后,将窗口向后滑动以处理RPC信息序列中的下一批RPC信息单元,直至遍历完RPC信息序列。
基于与图2同样的思路,本说明书实施例提供了另一种针对RPC信息的向量处理方法。图3为该另一种针对RPC信息的向量处理方法的流程示意图。
图3中的流程可以包括以下步骤:
步骤1,收集用户的RPC信息序列,统计所述RPC信息序列中出现过且出现次数少于设定次数的RPC信息单元并建表保存;跳转步骤2;
步骤2,建立并初始化所述表中各RPC信息单元的特征向量;跳转步骤3;
步骤3,遍历所述RPC信息序列,分别对当前遍历到的RPC信息单元w执行步骤4,若遍历完成则结束,否则继续遍历;
步骤4,以w为中心,向两侧分别滑动至多k个RPC信息单元建立窗口,从所述窗口中选择w的多个上下文RPC信息单元,以及从所述RPC信息序列中随机选择w的λ个负样例RPC信息单元;跳转步骤5;
步骤5,为w的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量,按照如下损失函数计算对应的损失表征值l(w,c):
Figure BDA0001598539210000101
其中,
Figure BDA0001598539210000111
表示w的特征向量,
Figure BDA0001598539210000112
表示所述上下文向量,c’表示w的负样例RPC信息单元,⊙表示相似度运算,所述相似度运算为点积运算、或者夹角余弦运算,
Figure BDA0001598539210000113
表示c’的特征向量,Ec'∈p(V)[x]是指c’满足概率分布p(V)的情况下,表达式x的期望值,σ()是神经网络激励函数,定义为
Figure BDA0001598539210000114
根据计算出的l(w,c)计算对应的梯度,根据所述梯度,对
Figure BDA0001598539210000115
及其上下文RPC信息单元的特征向量进行更新。
为了便于理解,本说明书实施例还提供了实际应用场景下,图3的方法的两种具体实施方案(分别对应上述的两种确定上下文向量的方案)的流程示意图。分别如图4、图5所示,一般地,图4的方案准确性相对高,图5的方案处理速度较快,区别主要在于步骤4,可以根据实际需求选择采用哪种方案。
图4中的流程主要包括以下步骤:
步骤1,收集用户的RPC信息序列,统计所有出现过的RPC信息单元并建表保存,在表中筛除在RPC信息序列中出现次数小于b次(也即,上述的设定次数)的RPC信息单元;跳转步骤2;
步骤2,针对表中每个RPC信息单元都建立一个维度为d的特征向量,随机初始化建立的所有特征向量;跳转步骤3;
步骤3,从第一个RPC信息单元开始逐一滑动,每次选择一个RPC信息单元作为“当前遍历到的RPC信息单元w”,若w遍历过RPC信息序列中所有RPC信息单元,则结束;否则跳转步骤4;
步骤4,以w为中心,向两侧滑动k个RPC信息单元建立窗口,从窗口内的第一个RPC信息单元到最后一个RPC信息单元(可以除w以外),每次选择一个RPC信息单元作为“上下文RPC信息单元c”,若c遍历过窗口内的所有RPC信息单元,则跳转步骤3;否则,跳转步骤5;
步骤5,对于w,随机抽取λ个词作为负样例RPC信息单元,并且按照如下公式计算损失得分l(w,c),损失得分即可以作为上述的损失表征值:
Figure BDA0001598539210000121
根据损失得分计算梯度,根据梯度更新
Figure BDA0001598539210000122
Figure BDA0001598539210000123
图5中的流程主要包括以下步骤:
步骤1,收集用户的RPC信息序列,统计所有出现过的RPC信息单元并建表保存,在表中筛除在RPC信息序列中出现次数小于b次(也即,上述的设定次数)的RPC信息单元;跳转步骤2;
步骤2,针对表中每个RPC信息单元都建立一个维度为d的特征向量,随机初始化建立的所有特征向量;跳转步骤3;
步骤3,从第一个RPC信息单元开始逐一滑动,每次选择一个RPC信息单元作为“当前遍历到的RPC信息单元w”,若w遍历过RPC信息序列中所有RPC信息单元,则结束;否则跳转步骤4;
步骤4,以w为中心,向两侧滑动k个RPC信息单元建立窗口,从窗口内确定多个上下文RPC信息单元,并根据这些上下文RPC信息单元的特征向量,按照以下两个公式中的任一公式,整体地计算出一个上下文向量c:
Figure BDA0001598539210000124
Figure BDA0001598539210000125
其中,yi(j)表示第i个上下文RPC信息单元的特征向量的第j维的值,c(j)表示c的第j维的值;跳转步骤5;
步骤5,对于w,随机抽取λ个词作为负样例RPC信息单元,并且按照公式(1)公式计算损失得分l(w,c),损失得分即可以作为上述的损失表征值:
Figure BDA0001598539210000126
根据损失得分计算梯度,根据梯度更新
Figure BDA0001598539210000131
以及更新
Figure BDA0001598539210000132
和/或上下文RPC信息单元的特征向量。
上面对本说明书实施例提供的针对RPC信息的向量处理方法进行了说明,基于同样的思路,本说明书实施例还提供了对应的装置,如图6所示。
图6为本说明书实施例提供的对应于图2的一种针对RPC信息的向量处理装置的结构示意图,该装置可以位于图2中流程的执行主体,包括:
获取模块601,获取由用户的多个RPC信息单元构成的RPC信息序列;
构建模块602,建立并初始化所述RPC信息单元的特征向量;
训练模块603,根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
可选地,所述构建模块602建立并初始化所述RPC信息单元的特征向量,具体包括:
所述构建模块602确定在所述RPC信息序列中出现次数不少于设定次数的RPC信息单元;
建立并初始化确定的各RPC信息单元的特征向量,其中,相同RPC信息单元的特征向量也相同。
可选地,所述训练模块603根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
所述训练模块603确定所述RPC信息序列中的指定RPC信息单元,以及所述指定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
为所述指定RPC信息单元的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量;
根据所述指定RPC信息单元的特征向量,以及所述上下文向量,确定所述指定RPC信息单元与其上下文RPC信息单元的相似度;
根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新。
可选地,所述训练模块603根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新,具体包括:
所述训练模块603从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元;
确定所述指定RPC信息单元与其负样例RPC信息单元的相似度;
根据指定的损失函数、所述指定RPC信息单元与其上下文RPC信息单元的相似度,以及所述指定RPC信息单元与其负样例RPC信息单元的相似度,确定所述指定RPC信息单元对应的损失表征值;
根据所述损失表征值,对所述指定RPC信息单元的特征向量进行更新。
可选地,所述训练模块603从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元,具体包括:
所述训练模块603从所述RPC信息序列中随机选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元。
可选地,所述训练模块603根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
所述训练模块603对所述RPC信息序列进行遍历,分别对遍历到的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
分别对所述上下文RPC信息单元执行:
根据该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量,确定该RPC信息单元与该上下文RPC信息单元的相似度;
根据该RPC信息单元与该上下文RPC信息单元的相似度,对该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量进行更新。
可选地,所述训练模块603根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
所述训练模块603对所述RPC信息序列进行遍历,分别对所述RPC信息序列中的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
根据所述一个或多个上下文RPC信息单元分别的特征向量,通过求平均值运算或者求最值运算,确定上下文向量;
根据该RPC信息单元的特征向量,以及所述上下文向量,确定该RPC信息单元与其上下文RPC信息单元的相似度;
根据该RPC信息单元与其上下文RPC信息单元的相似度,对该RPC信息单元及其上下文RPC信息单元的特征向量进行更新。
可选地,所述训练模块603确定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元,具体包括:
所述训练模块603在所述RPC信息序列中,通过以该RPC信息单元为中心,向左和/或向右滑动指定数量个RPC信息单元的距离,建立窗口;
在所述窗口中确定一个或多个RPC信息单元,作为上下文RPC信息单元。
基于同样的思路,本说明书实施例还提供了对应于图2的一种针对RPC信息的向量处理设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取由用户的多个RPC信息单元构成的RPC信息序列;
建立并初始化所述RPC信息单元的特征向量;
根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
基于同样的思路,本说明书实施例还提供了对应于图2的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取由用户的多个RPC信息单元构成的RPC信息序列;
建立并初始化所述RPC信息单元的特征向量;
根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的,因此,装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (16)

1.一种针对远程过程调用RPC信息的向量处理方法,包括:
获取由用户的多个RPC信息单元构成的RPC信息序列;
建立并初始化所述RPC信息单元的特征向量;
根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:确定所述RPC信息序列中的指定RPC信息单元,以及所述指定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;所述指定RPC信息单元为所述RPC信息序列中包含的未进行特性向量更新处理的RPC信息单元;为所述指定RPC信息单元的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量;根据所述指定RPC信息单元的特征向量,以及所述上下文向量,确定所述指定RPC信息单元与其上下文RPC信息单元的相似度;根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新。
2.如权利要求1所述的方法,所述建立并初始化所述RPC信息单元的特征向量,具体包括:
确定在所述RPC信息序列中出现次数不少于设定次数的RPC信息单元;
建立并初始化确定的各RPC信息单元的特征向量,其中,相同RPC信息单元的特征向量也相同。
3.如权利要求1所述的方法,所述根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新,具体包括:
从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元;
确定所述指定RPC信息单元与其负样例RPC信息单元的相似度;
根据指定的损失函数、所述指定RPC信息单元与其上下文RPC信息单元的相似度,以及所述指定RPC信息单元与其负样例RPC信息单元的相似度,确定所述指定RPC信息单元对应的损失表征值;
根据所述损失表征值,对所述指定RPC信息单元的特征向量进行更新。
4.如权利要求3所述的方法,所述从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元,具体包括:
从各所述RPC信息单元中随机选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元。
5.如权利要求1所述的方法,所述根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
对所述RPC信息序列进行遍历,分别对遍历到的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
分别对所述上下文RPC信息单元执行:
根据该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量,确定该RPC信息单元与该上下文RPC信息单元的相似度;
根据该RPC信息单元与该上下文RPC信息单元的相似度,对该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量进行更新。
6.如权利要求1所述的方法,所述根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
对所述RPC信息序列进行遍历,分别对所述RPC信息序列中的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
根据所述一个或多个上下文RPC信息单元对应的特征向量,通过求平均值运算或者求最值运算,确定上下文向量;
根据该RPC信息单元的特征向量,以及所述上下文向量,确定该RPC信息单元与其上下文RPC信息单元的相似度;
根据该RPC信息单元与其上下文RPC信息单元的相似度,对该RPC信息单元及其上下文RPC信息单元的特征向量进行更新。
7.如权利要求1~6任一项所述的方法,确定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元,具体包括:
在所述RPC信息序列中,通过以该RPC信息单元为中心,向左和/或向右滑动指定数量个RPC信息单元的距离,建立窗口;
在所述窗口中确定一个或多个RPC信息单元,作为上下文RPC信息单元。
8.一种针对远程过程调用RPC信息的向量处理装置,包括:
获取模块,获取由用户的多个RPC信息单元构成的RPC信息序列;
构建模块,建立并初始化所述RPC信息单元的特征向量;
训练模块,根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:所述训练模块确定所述RPC信息序列中的指定RPC信息单元,以及所述指定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;所述指定RPC信息单元为所述RPC信息序列中包含的未进行特性向量更新处理的RPC信息单元;为所述指定RPC信息单元的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量;根据所述指定RPC信息单元的特征向量,以及所述上下文向量,确定所述指定RPC信息单元与其上下文RPC信息单元的相似度;根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新。
9.如权利要求8所述的装置,所述构建模块建立并初始化所述RPC信息单元的特征向量,具体包括:
所述构建模块确定在所述RPC信息序列中出现次数不少于设定次数的RPC信息单元;
建立并初始化确定的各RPC信息单元的特征向量,其中,相同RPC信息单元的特征向量也相同。
10.如权利要求8所述的装置,所述训练模块根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新,具体包括:
所述训练模块从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元;
确定所述指定RPC信息单元与其负样例RPC信息单元的相似度;
根据指定的损失函数、所述指定RPC信息单元与其上下文RPC信息单元的相似度,以及所述指定RPC信息单元与其负样例RPC信息单元的相似度,确定所述指定RPC信息单元对应的损失表征值;
根据所述损失表征值,对所述指定RPC信息单元的特征向量进行更新。
11.如权利要求10所述的装置,所述训练模块从所述RPC信息序列中选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元,具体包括:
所述训练模块从所述RPC信息序列中随机选择一个或多个RPC信息单元,作为所述指定RPC信息单元的负样例RPC信息单元。
12.如权利要求8所述的装置,所述训练模块根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
所述训练模块对所述RPC信息序列进行遍历,分别对遍历到的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
分别对所述上下文RPC信息单元执行:
根据该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量,确定该RPC信息单元与该上下文RPC信息单元的相似度;
根据该RPC信息单元与该上下文RPC信息单元的相似度,对该RPC信息单元的特征向量,以及该上下文RPC信息单元的特征向量进行更新。
13.如权利要求8所述的装置,所述训练模块根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:
所述训练模块对所述RPC信息序列进行遍历,分别对所述RPC信息序列中的RPC信息单元执行:
确定该RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;
根据所述一个或多个上下文RPC信息单元分别的特征向量,通过求平均值运算或者求最值运算,确定上下文向量;
根据该RPC信息单元的特征向量,以及所述上下文向量,确定该RPC信息单元与其上下文RPC信息单元的相似度;
根据该RPC信息单元与其上下文RPC信息单元的相似度,对该RPC信息单元及其上下文RPC信息单元的特征向量进行更新。
14.如权利要求8~13任一项所述的装置,所述训练模块确定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元,具体包括:
所述训练模块在所述RPC信息序列中,通过以该RPC信息单元为中心,向左和/或向右滑动指定数量个RPC信息单元的距离,建立窗口;
在所述窗口中确定一个或多个RPC信息单元,作为上下文RPC信息单元。
15.一种针对远程过程调用RPC信息的向量处理方法,包括:
步骤1,收集用户的RPC信息序列,统计所述RPC信息序列中出现过且出现次数少于设定次数的RPC信息单元并建表保存;跳转步骤2;
步骤2,建立并初始化所述表中各RPC信息单元的特征向量;跳转步骤3;
步骤3,遍历所述RPC信息序列,分别对当前遍历到的RPC信息单元w执行步骤4,若遍历完成则结束,否则继续遍历;
步骤4,以w为中心,向两侧分别滑动至多k个RPC信息单元建立窗口,从所述窗口中选择w的多个上下文RPC信息单元,以及从所述RPC信息序列中随机选择w的λ个负样例RPC信息单元;跳转步骤5;
步骤5,为w的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量,按照如下损失函数计算对应的损失表征值l(w,c):
Figure FDA0002409845770000061
其中,
Figure FDA0002409845770000062
表示w的特征向量,
Figure FDA0002409845770000063
表示所述上下文向量,c’表示w的负样例RPC信息单元,⊙表示相似度运算,所述相似度运算为点积运算、或者夹角余弦运算,
Figure FDA0002409845770000064
表示c’的特征向量,Ec'∈p(V)[x]是指c’满足概率分布p(V)的情况下,表达式x的期望值,σ()是神经网络激励函数,定义为
Figure FDA0002409845770000065
根据计算出的l(w,c)计算对应的梯度,根据所述梯度,对
Figure FDA0002409845770000066
及其上下文RPC信息单元的特征向量进行更新。
16.一种针对远程过程调用RPC信息的向量处理设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取由用户的多个RPC信息单元构成的RPC信息序列;
建立并初始化所述RPC信息单元的特征向量;
根据所述RPC信息序列和所述特征向量,对所述特征向量进行训练,具体包括:所述训练模块确定所述RPC信息序列中的指定RPC信息单元,以及所述指定RPC信息单元在所述RPC信息序列中的一个或多个上下文RPC信息单元;所述指定RPC信息单元为所述RPC信息序列中包含的未进行特性向量更新处理的RPC信息单元;为所述指定RPC信息单元的各上下文RPC信息单元分别确定或者整体确定特征向量,作为上下文向量;根据所述指定RPC信息单元的特征向量,以及所述上下文向量,确定所述指定RPC信息单元与其上下文RPC信息单元的相似度;根据所述指定RPC信息单元与其上下文RPC信息单元的相似度,对所述指定RPC信息单元的特征向量进行更新。
CN201810215719.5A 2018-03-15 2018-03-15 针对rpc信息的向量处理方法、装置以及设备 Active CN108681490B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810215719.5A CN108681490B (zh) 2018-03-15 2018-03-15 针对rpc信息的向量处理方法、装置以及设备
TW108100046A TWI705378B (zh) 2018-03-15 2019-01-02 針對rpc資訊的向量處理方法、裝置以及設備
PCT/CN2019/071853 WO2019174392A1 (zh) 2018-03-15 2019-01-16 针对rpc信息的向量处理
US16/960,302 US20210011788A1 (en) 2018-03-15 2019-01-16 Vector processing for rpc information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810215719.5A CN108681490B (zh) 2018-03-15 2018-03-15 针对rpc信息的向量处理方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN108681490A CN108681490A (zh) 2018-10-19
CN108681490B true CN108681490B (zh) 2020-04-28

Family

ID=63800141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810215719.5A Active CN108681490B (zh) 2018-03-15 2018-03-15 针对rpc信息的向量处理方法、装置以及设备

Country Status (4)

Country Link
US (1) US20210011788A1 (zh)
CN (1) CN108681490B (zh)
TW (1) TWI705378B (zh)
WO (1) WO2019174392A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681490B (zh) * 2018-03-15 2020-04-28 阿里巴巴集团控股有限公司 针对rpc信息的向量处理方法、装置以及设备
CN110990164B (zh) * 2019-11-08 2022-05-24 支付宝(杭州)信息技术有限公司 账户检测方法和装置、账户检测模型的训练方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115288A (ja) * 1994-10-03 1996-05-07 Internatl Business Mach Corp <Ibm> 通信管理方法
US5682534A (en) * 1995-09-12 1997-10-28 International Business Machines Corporation Transparent local RPC optimization
CN103123712A (zh) * 2011-11-17 2013-05-29 阿里巴巴集团控股有限公司 一种网络行为数据的监控方法和系统
CN102567306B (zh) * 2011-11-07 2013-11-27 苏州大学 一种不同语言间词汇相似度的获取方法及系统
CN106357654A (zh) * 2016-09-27 2017-01-25 青岛海信电器股份有限公司 远程过程调用方法、装置及通信系统
CN107292412A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种问题预测方法及预测系统
CN107451199A (zh) * 2017-07-05 2017-12-08 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
CN107665230A (zh) * 2017-06-21 2018-02-06 海信集团有限公司 用于智能家居控制的用户行为预测模型的训练方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1293502C (zh) * 1999-06-30 2007-01-03 倾向探测公司 用于监控网络流量的方法和设备
US6925452B1 (en) * 2000-05-22 2005-08-02 International Business Machines Corporation Method and system for recognizing end-user transactions
US7146617B2 (en) * 2001-09-29 2006-12-05 Siebel Systems, Inc. Method, apparatus, and system for implementing view caching in a framework to support web-based applications
GB2403636A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US20190188566A1 (en) * 2016-08-25 2019-06-20 Google Llc Reward augmented model training
CN107025270A (zh) * 2017-03-09 2017-08-08 珠海昊星自动化系统有限公司 一种分布式高性能高并发大数据系统
CN108681490B (zh) * 2018-03-15 2020-04-28 阿里巴巴集团控股有限公司 针对rpc信息的向量处理方法、装置以及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115288A (ja) * 1994-10-03 1996-05-07 Internatl Business Mach Corp <Ibm> 通信管理方法
US5682534A (en) * 1995-09-12 1997-10-28 International Business Machines Corporation Transparent local RPC optimization
CN102567306B (zh) * 2011-11-07 2013-11-27 苏州大学 一种不同语言间词汇相似度的获取方法及系统
CN103123712A (zh) * 2011-11-17 2013-05-29 阿里巴巴集团控股有限公司 一种网络行为数据的监控方法和系统
CN107292412A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种问题预测方法及预测系统
CN106357654A (zh) * 2016-09-27 2017-01-25 青岛海信电器股份有限公司 远程过程调用方法、装置及通信系统
CN107665230A (zh) * 2017-06-21 2018-02-06 海信集团有限公司 用于智能家居控制的用户行为预测模型的训练方法及装置
CN107451199A (zh) * 2017-07-05 2017-12-08 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全局信息的图结点特征向量学习算法;曹绍升,;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20170315(第03期);I140-189 *

Also Published As

Publication number Publication date
CN108681490A (zh) 2018-10-19
WO2019174392A1 (zh) 2019-09-19
TWI705378B (zh) 2020-09-21
US20210011788A1 (en) 2021-01-14
TW201939278A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN108345580B (zh) 一种词向量处理方法及装置
CN108170667B (zh) 词向量处理方法、装置以及设备
CN108920654B (zh) 一种问答文本语义匹配的方法和装置
CN107957989B (zh) 基于集群的词向量处理方法、装置以及设备
US11494614B2 (en) Subsampling training data during artificial neural network training
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
CN108681490B (zh) 针对rpc信息的向量处理方法、装置以及设备
CN115712866A (zh) 数据处理方法、装置及设备
CN107423269B (zh) 词向量处理方法及装置
CN116049761A (zh) 数据处理方法、装置及设备
CN112100509B (zh) 信息推荐方法、装置、服务器和存储介质
CN107247704B (zh) 词向量处理方法、装置以及电子设备
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN112883736A (zh) 医疗实体关系抽取方法和装置
CN115130621B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN107577658B (zh) 词向量处理方法、装置以及电子设备
CN107562715B (zh) 词向量处理方法、装置以及电子设备
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN114912513A (zh) 一种模型训练的方法、识别信息的方法及装置
CN115204395A (zh) 数据的处理方法、装置及设备
CN107844472B (zh) 词向量处理方法、装置以及电子设备
WO2019230465A1 (ja) 類似性評価装置、その方法、及びプログラム
CN115905464A (zh) 基于重复度权重的地址匹配方法及装置
CN114861665B (zh) 一种强化学习模型训练以及确定数据关系的方法及装置
WO2022199261A1 (zh) 一种模型推荐的方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1262429

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201021

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201021

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right