CN113568901B - 一种数据处理方法、装置及存储介质 - Google Patents
一种数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113568901B CN113568901B CN202110125698.XA CN202110125698A CN113568901B CN 113568901 B CN113568901 B CN 113568901B CN 202110125698 A CN202110125698 A CN 202110125698A CN 113568901 B CN113568901 B CN 113568901B
- Authority
- CN
- China
- Prior art keywords
- node
- matching degree
- added
- tree
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004873 anchoring Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 61
- 238000005516 engineering process Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 244000269722 Thea sinensis Species 0.000 description 3
- 235000006468 Thea sinensis Nutrition 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 235000013361 beverage Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 235000020333 oolong tea Nutrition 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004326 stimulated echo acquisition mode for imaging Methods 0.000 description 2
- 235000013616 tea Nutrition 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001036215 Hypenetes Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 235000020279 black tea Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据处理方法、装置及存储介质,该方法包括:获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及存储介质。
背景技术
目录树(Taxonomy)是一种表示上下位词关系的树状结构的知识图谱。在目录树中的每一个节点均表示一个概念(如“水果”、“苹果”等),对于目录树中的每条边,若存在一条边从A指向B,则节点A为节点B的父节点,表示具有“B是一种A”的关系。
在目录树扩展(Taxonomy Expansion)的任务上,即确定欲加入目录树的待添加节点(请求节点)和目录树中的每个节点作为请求节点的父节点(锚定节点)的匹配度的过程。早期的方法多是仅仅基于上下位词发现的方法,这些方法要么仅考虑了锚定节点和请求节点之间的匹配度,要么仅考虑了在目录树扩展过程中新加入的一条边的正确性,没有充分利用目录树的树状结构,导致请求节点添加到目录树中的位置不合适,不利于目录树的扩展和使用。
发明内容
本发明实施例提供了一种数据处理方法、装置及存储介质,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;
利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;
根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
另一方面,本发明实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;
处理模块,用于利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;
所述处理模块,还用于根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
相应地,本发明实施例提供了一种计算机设备,该设备包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行上述任一可能实现方式所述的数据处理方法。
相应地,本发明实施例提供了一种计算机可读存储介质,存储有计算机程序,所述处理器执行上述任一可能实现方式所述的数据处理方法所涉及的程序。
相应地,本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一可能实现方式所述的数据处理方法。
本发明实施例中,通过评分模型确定待添加节点和第一目录树中的每个节点之间在路径和层级两个方面的匹配度,并根据匹配度从第一目录树中确定目标节点,使得可以根据目标节点的位置将待添加节点添加到第一目录树中,其中,评分模型包括路径选择网络和层级选择网络,路径选择网络用于确定待添加节点和每个节点之间的路径匹配度,层级选择网络用于确定待添加节点和每个节点之间的层级匹配度,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理系统的架构示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的一种目录树的结构示意图;
图4为本申请实施例提供的一种数据处理方法的流程示意图;
图5为本申请实施例提供的另一种数据处理方法的流程示意图;
图6是本发明实施例提供的一种数据处理装置的结构示意图;
图7是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,本申请实施例提供的方案涉及人工智能的机器学习技术等技术,具体通过如下实施例进行说明。
目录树涉及诸多应用领域,例如电子商务的商品目录,浏览器的优化推荐及大型数据库的树状索引等等,而本申请实施例中的数据处理方法,能够保持这些应用底层的目录树的实时更新。具体地,本申请实施例中的数据处理方法可以用于扩展腾讯医典已有的树状医疗概念分类体系,通过将从网络上获取的最新医疗名词和概念添加进已有的医疗目录树中实现对于一系列基于目录树的下游任务的实时更新支持。此外,本申请实施例中的数据处理方法也可以应用在浏览器的搜一搜业务中,以解决个性化推荐所使用目录树难以自动地准确实时更新的问题。
请参阅图1,图1是本申请实施例提供的一种数据处理系统的示意图。该数据处理系统具体可以包括终端设备101和服务器102,终端设备101与服务器102之间通过网络连接,比如,通过无线网络连接等。终端设备101也称为终端(Terminal)、用户设备(userequipment,UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能电视、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,PC)、车载设备、可穿戴设备或者其他智能装置等,但并不局限于此。终端设备101可以是负责目录树扩展任务的管理终端。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,终端设备101与服务器102之间通过网络连接,比如,通过无线网络连接等。用户在对应的终端设备101上将待添加节点发送给服务器102,服务器102通过网络获取待添加节点和第一目录树,并通过评分模型确定待添加节点和第一目录树中的每个节点之间在路径和层级两个方面的匹配度,从而根据匹配度从第一目录树中确定目标节点,使得可以根据目标节点的位置将待添加节点添加到第一目录树中,其中,评分模型包括路径选择网络和层级选择网络,路径选择网络用于确定待添加节点和每个节点之间的路径匹配度,层级选择网络用于确定待添加节点和每个节点之间的层级匹配度,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
可以理解的是,本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在一个实施例中,如图2所示,是本申请实施例基于图1的数据处理系统提供的一种数据处理方法。以应用于图1中提及的服务器102为例。以下结合图2对本申请实施例的所述方法进行说明。
S201、获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点。
在一个实施例中,服务器将每个待添加到第一目录树的概念作为一个待添加节点,待添加节点可以有两个来源,一个是终端设备提交,由用户人工筛选过滤得到的,一个是服务器从网络获取,并基于一定的规则筛选过滤得到的,如从网络中获取针对医疗概念分类体系中的最新名词作为待添加节点。第一目录树存储在服务器上或云端中,可以包括一个或多个节点。
S202、利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度。
在一个实施例中,服务器利用评分模型中的路径选择网络确定待添加节点和第一目录树中的每个节点之间的路径匹配度,并利用评分模型中的层级选择网络确定待添加节点和第一目录树中的每个节点之间的层级匹配度,接着根据得到的路径匹配度和层级匹配度之间的乘积确定待添加节点和第一目录树中的每个节点之间的匹配度。评分模型是利用第一目录树的种子目录树进行自监督训练得到的,种子目录树为添加节点前的目录树。
S203、根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
在一个实施例中,服务器在获取到待添加节点和第一目录树中的每个节点之间的匹配度之后,将在第一目录树中最大匹配度对应的节点作为目标节点,从而将目标节点作为待添加节点的父节点,然后根据目标节点的位置(路径位置和层级位置)将待添加节点添加到第一目录树中。
在本申请实施例中,通过评分模型确定待添加节点和第一目录树中的每个节点之间在路径和层级两个方面的匹配度,并根据匹配度从第一目录树中确定目标节点,使得可以根据目标节点的位置将待添加节点添加到第一目录树中,其中,评分模型包括路径选择网络和层级选择网络,路径选择网络用于确定待添加节点和每个节点之间的路径匹配度,层级选择网络用于确定待添加节点和每个节点之间的层级匹配度,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
在一个实施例中,所述评分模型还包括特征提取网络,所述利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,包括:利用所述特征提取网络确定所述待添加节点和所述第一目录树中的每个节点之间的路径关系编码表示和层级关系编码表示;利用所述路径关系编码表示和所述路径选择网络确定所述待添加节点和所述每个节点之间的路径匹配度;利用所述层级关系编码表示和所述层级选择网络确定所述待添加节点和所述每个节点之间的层级匹配度;根据所述路径匹配度和所述层级匹配度确定所述待添加节点和所述每个节点之间的匹配度。
在一个实施例中,特征提取网络包括关系探测模块和一致性探测模块。关系探测模块用于获取待添加节点和第一目录树中的每个节点之间的关系向量表示,关系向量表示是用于探测待添加节点与每个节点之间是否构成上下位词关系。
具体地,关系探测模块通过一个释义生成算法将待添加节点和第一目录树中的每个节点转化为一个对应的名词解释,从而得到节点的释义信息。对于英文目录树,可以使用WordNet数据库生成名词解释,对于中文目录树可以使用百度百科或中文维基百科的第一句解释,如“食物”在百度百科中的名词解释为“为生物提供能量的物质”。其中,WordNet数据库是一个广泛使用的英文词典数据库,其中包括了超过11万个英文概念的解释。
在一个实施例中,由于待添加节点的概念不一定包含在WordNet数据库中,因此本申请采用了一个基于动态规划的释义生成算法将节点的名称转换为其释义信息,其包括以下步骤:
1、输入节点的概率n。
2、得到数组N←对节点n进行分词处理。
3、遍历循环i←0,1…,length(N)。
1)、初始化得分数组S[i]=0。
2)、初始化位置C[i]=0。
4、遍历循环i←0,1…,length(N)-1。
1)、遍历循环j←0,1…,i。
(1)、如果N[j;i+1]存在释义信息,则保存最大得分sij=(i-j+1)2。
(2)、如果N[j;i+1]不存在释义信息,则保存最大得分sij=1。
(3)、如果S[j]+sij>S[j+1],则S[i+1]←S[j]+sij,C[i]=j。
5、初始化释义信息D←“”。
6、生成切分点位置p←length(N)。
7、当p≠-1时。
1)、令DWN等于N[C[p]:p+1]的释义信息。
2)、如果length(DWN)大于0,则其中,CosSimilarity为计算余弦相似度,nroot可以为目录树的根节点。
3)、如果length(DWN)小于等于0,d←join(N[C[p]:p+1])。
4)、D←d+D,p←C[p]-1。
在本申请实施例中,利用简单而高效的释义生成算法可以在降低外部数据使用量的同时实现更直接的上下位词关系发现。
进一步地,在得到待添加节点和第一目录树中的每个节点的释义信息后,将待添加节点和每个节点的释义信息组合后输入基于变换器的双向编码表示模型,可以得到待添加节点和每个节点之间的关系向量表示。
在一个实施例中,可以利用关系探测模型得到的关系向量表示、以及一致性探测模块确定待添加节点和每个节点之间的路径关系编码表示和层级关系编码表示。其中,一致性探测模块用于探测加入待添加节点后是否保持了原有目录树的设计。
具体地,根据每个节点在第一目录树中的位置,确定每个节点的自我中心树,其中,每个节点的自我中心树包括每个节点本身、每个节点在第一目录树中的全部祖先节点,以及每个节点的子节点中选取的至多三个子节点。然后根据每个节点的自我中心树和待添加节点确定将待添加节点作为每个节点的子节点的自我中心树,利用待添加节点作为每个节点的子节点的自我中心树包括的所有节点得到待添加节点作为每个节点的子节点的自我中心树对应的特征矩阵,并将特征矩阵输入一致性探测模块,得到待添加节点和每个节点对应的路径关系编码表示和层级关系编码表示。其中,在确定待待添加节点作为每个节点的子节点的自我中心树对应的特征矩阵之前,需要确定待添加节点作为每个节点的子节点的自我中心树中包括的任一节点的总向量表示,从而根据所有节点的总向量表示得到特征矩阵,其中,总向量表示是通过将任一节点和待添加节点之间的关系向量表示、任一节点的绝对层级向量表示、相对层级向量表示以及分段向量表示相加得到的。通过新设计的待添加节点作为每个节点的子节点的自我中心树可以充分利用树结构中父子节点间的上下位词关系和兄弟节点间的相似性关系,从而优化第一目录树的一致性,以及提升评分模型的准确度。
在一个实施例中,路径选择网络用于判断待添加节点是否处在第一目录树的正确路径上,通过将待添加节点和每个节点之间的路径关系编码表示输入路径选择网络,得到待添加节点和每个节点之间的路径匹配度,当且仅当待添加节点与每个节点在同一条根路径上时,路径选择网络输出的路径匹配度为1,其余为0。例如,如图3所示,假设“乌龙茶”为待添加节点,则“食物”、“饮料”、“茶”对应的节点的路径匹配度为1,其他节点的路径匹配度为0。路径选择网络为一个2层的全连接层,其激活函数分别为Tanh函数和sigmoid函数,路径选择网络输出的路径匹配度如下述公式(1)所示。
Sp(a,q)=σ(Wp2tanh(Wp1pa,q+bp1)+bp2) (1)
其中,σ为sigmoid函数,Wp1,Wp2,bp1,bp2为路径选择网络的可训练参数,a为与待添加节点计算匹配度的节点,q为待添加节点,pa,q为路径关系编码表示,Sp为路径匹配度。
在一个实施例中,层级选择网络用于判定待添加节点是否处在第一目录树的正确层级上。层级选择网络进行一个三分类任务,其输出共有3位,第一位为前进概率,其为1时表示待添加节点假设的父节点的节点层级过低,其子节点更适合作为待添加节点的父节点;第二位为当前层级概率,其为1时表示待添加节点假设的父节点处在正确的层级上;第三位为后退概率,其为1时表示待添加节点假设的父节点的层级过高,其父节点更适合作为待添加节点的父节点。例如,如图3所示,假设“乌龙茶”为待添加节点,则“食物”、“饮料”对应的节点的前进概率为1,“咖啡”、“红茶”、“营养素”、“维他命”对应的节点的后退概率为1,“茶”对应的节点的当前层级概率为1。这一设计充分利用了目录树中存在的父子节点关系。层级选择网络为一个2层的全连接层,其激活函数分别为Tanh函数和softmax函数,则最后层级选择网络输出的三个概率(层级匹配度)如下述公式(2)所示:
[Sf(a,q),Sc(a,q),Sb(a,q)]=softmax(Ws2tanh(Ws1da,q+bs1)+bs2) (2)
其中,Ws1,Ws2,bs1,bs2为层级选择网络的可训练参数,da,q为层级关系编码表示,Sf为前进概率,Sc为当前层级概率,Sb为后退概率。
在一个实施例中,利用层级关系编码表示和层级选择网络确定待添加节点和每个节点之间的层级匹配度。首先将待添加节点和每个节点之间的层级关系编码表示输入层级选择网络,可以得到待添加节点和每个节点之间的前进概率,若每个节点为根节点(即没有父节点时),这前进概率人为设置为1×10-4,表示不鼓励在第一目录树的第一层添加待添加节点;然后将待添加节点和每个节点的父节点之间的层级关系编码表示输入层级选择网络,可以得到待添加节点和每个节点的父节点之间的当前层级概率;接着将待添加节点和每个节点包括的各个子节点之间的层级关系编码表示输入层级选择网络,可以得到待添加节点和每个节点包括的各个子节点之间的后退概率中的最大后退概率,若每个节点为叶子节点(即没有子节点时),这最大后退概率被设置为第一目录树中叶子节点数与总节点数之比。最后根据路径匹配度和层级匹配度包括的前进概率、当前层级概率以及最大后退概率之间的乘积确定待添加节点和每个节点之间的匹配度,如下述公式(3)-(4)所示。
其中,ca表示为a的任一子节点,为a的子节点中最大后退概率对应的节点,parent(a)表示a的父节点,child(a)表示a的子节点。
在一个实施例中,所述层级匹配度包括前进概率、当前层级概率以及最大后退概率;所述利用所述层级关系编码表示和所述层级选择网络确定所述待添加节点和所述每个节点之间的层级匹配度,包括:利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点之间的当前层级概率;利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的父节点之间的前进概率;利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的各个子节点之间的后退概率中的最大后退概率;根据所述前进概率、所述当前层级概率以及所述最大后退概率确定所述待添加节点和所述每个节点之间的层级匹配度。
在一个实施例中,层级匹配度包括前进概率、当前层级概率以及最大后退概率,其中,前进概率为1时表示待添加节点假设的父节点的节点层级过低,其子节点更适合作为待添加节点的父节点;当前层级概率为1时表示待添加节点假设的父节点处在正确的层级上;后退概率为1时表示待添加节点假设的父节点的层级过高,其父节点更适合作为待添加节点的父节点,最大后退概率为待添加节点和待添加节点假设的父节点包括的各个子节点之间的后退概率中的最大概率。
在一个实施例中,将待添加节点和每个节点之间的层级关系编码表示输入层级选择网络确定待添加节点和每个节点之间的当前层级概率;然后将待添加节点和每个节点的父节点之间的层级关系编码表示输入层级选择网络确定待添加节点和每个节点的父节点之间的前进概率,若每个节点为根节点(即没有父节点时),这前进概率人为设置为1×10-4,表示不鼓励在第一目录树的第一层添加待添加节点;接着将待添加节点和每个节点包括的各个子节点之间的层级关系编码表示输入层级选择网络,可以得到待添加节点和每个节点包括的各个子节点之间的前进概率中的最大后退概率,若每个节点为叶子节点(即没有子节点时),这最大后退概率被设置为第一目录树中叶子节点数与总节点数之比。通过将前进概率、当前层级概率以及最大后退概率相乘得到待添加节点和每个节点之间的层级匹配度。
在本申请实施例中,通过路径选择网络和层级选择网络将路径和层级的选择分离以实现更多维度的树结构评价,以及在层级选择网络中加入父子节点相关的评分概率来显式地将正确节点与和其最容易混淆的父子节点进行分辨。
在一个实施例中,所述利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度之前,如图4所示,所述方法还包括以下步骤:
S401、获取训练样本集,所述训练样本集中的每个样本包括由锚定节点和请求节点组成的节点对以及所述节点对包括的锚定节点和请求节点之间的真实匹配度,所述锚定节点和所述请求节点为第二目录树中任意两个不同的节点,所述真实匹配度包括真实路径匹配度和真实层级匹配度,所述第二目录树是第一目录树的种子目录树。
在一个实施例中,第二目录树是第一目录树的种子目录树,种子目录树是未加入新节点前原有的目录树。将第二目录树作为初始模型的自监督训练时的数据来源和增加待添加节点的目标。
在一个实施例中,利用第二目录树中包括的节点构建训练样本集,训练样本集中的每个样本中的节点对包括的锚定节点a和请求节点q都是第二目录树中任意两个不同的节点。训练样本集中包括的节点对需要同时顾及路径和层级两个方面的匹配度,经过排列组合后可以得出对于每一个请求节点,共有4类锚定节点,从而构成4类节点对:1)锚定节点为请求节点的真实父节点(Ground Truth Parent),则请求节点与这类节点组成的节点对的真实匹配度为Sp=1,Sc=1;2)锚定节点为请求节点的真实父节点的祖先节点(Ancestors),祖先节点即是该锚定节点的父节点、父节点的父节点等等,一直到根节点,则请求节点与这类节点组成的节点对的真实匹配度Sp=1,Sf=1;3)锚定节点为真实父节点的后代节点(Descendants),即是该锚定节点的子节点、子节点的子节点等等,一直到叶子节点,则请求节点与这类节点组成的节点对的真实匹配度为Sp=1,Sb=1;4)锚定节点为其他节点(OtherNodes),则请求节点与这类节点组成的节点对的真实匹配度Sp=0,Sb=1。
S302、根据所述每个样本包括的节点对和所述第二目录树确定所述每个样本的自我中心树,所述请求节点在所述自我中心树中为所述锚定节点的子节点。
在一个实施例中,利用每个样本包括的节点对中的锚定节点和第二目录树确定锚定节点的自我中心树,再将请求节点作为锚定节点的子节点添加到锚定节点的自我中心树中,得到每个样本的自我中心树。
具体地,第二目录树为为第二目录树包括的节点,ε0第二目录树包括的每条边。根据每个样本包括的节点对中的锚定节点a从第二目录树中确定锚定节点a的自我中心树/>其中,/>表示锚定节点在第二目录树/>中的全部祖先节点,sample_child(a)表示在锚定节点的子节点中选取至多3个子节点。则将请求节点q作为锚定节点a的子节点添加到锚定节点a的自我中心树中,得到每个样本的自我中心树:/>
S303、利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型,所述初始模型包括特征提取网络、路径选择网络和层级选择网络。
在一个实施例中,特征提取网络包括关系探测模块和一致性探测模块,用于获取每个样本包括的节点对的路径关系编码表示和层级关系编码表示。路径选择网络用于确定节点对中请求节点和锚定节点之间的路径匹配度,层级选择网络用于确定节点对中请求节点和锚定节点之间的层级匹配度。利用每个样本的自我中心树构建每个样本包括的节点对的路径关系编码表示和层级关系编码表示,并将路径关系编码表示输入路径选择网络得到每个样本对应的预测路径匹配度,以及将层级关系编码表示输入层级选择网络得到每个样本对应的预测层级匹配度,利用预测路径匹配度、预测层级匹配度和真实匹配度对初始模型进行训练,得到评分模型。
在本申请实施例中,通过将第二目录树中包括的节点构成训练样本集,使得可以利用训练样本集中的每个样本的自我中心树和每个样本的真实匹配度对初始模型训练,从而得到评分模型。通过本申请实施例得到的评分模型,可以从层级和路径两个方面准确地探测节点间的匹配度,使得可以提升扩展目录树时的准确性与一致性。
在一个实施例中,所述特征提取网络包括关系探测模块和一致性探测模块,所述利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型,包括:利用所述关系探测模块和所述一致性探测模块对所述每个样本的自我中心树进行处理,得到所述每个样本对应的路径关系编码表示和层级关系编码表示;将所述路径关系编码表示输入所述初始模型中的路径选择网络,得到所述每个样本对应的预测路径匹配度;将所述层级关系编码表示输入所述初始模型中的层级选择网络,得到所述每个样本对应的预测层级匹配度;基于所述真实匹配度、所述每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对所述初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型。
在一个实施例中,特征提取网络包括关系探测模块和一致性探测模块。关系探测模块用于获取每个样本包括的节点对中请求节点和锚定节点之间的关系向量表示,关系向量表示是用于探测请求节点和锚定节点之间是否构成上下位词关系。利用每个样本的自我中心树、关系探测模块获取自我中心树中所有节点的总向量表示组成的特征矩阵,并将特征矩阵输入一致性探测获取节点对中请求节点和锚定节点之间的路径关系编码表示和层级关系编码表示。
在一个实施例中,将路径关系编码表示输入初始模型中的路径选择网络,得到每个样本对应的预测路径匹配度,将层级关系编码表示输入初始模型中的层级选择网络,得到每个样本对应的预测层级匹配度。路径选择网络和层级选择网络都为一个2层的全连接层,路径选择网络的激活函数分别为Tanh函数和sigmoid函数,层级选择网络的激活函数分别为Tanh函数和softmax函数。则预测路径匹配度和预测层级匹配度可以分别通过上述公式(1)和(2)确定。最后基于真实匹配度、每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型。
在一个实施例中,所述基于所述真实匹配度、所述每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对所述初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型之前,所述方法还包括:根据所述每个样本中节点对的真实路径匹配度以及预测路径匹配度,确定第一损失函数的损失值;根据所述每个样本中节点对的真实层级匹配度以及预测层级匹配度,确定第二损失函数的损失值;基于所述第一损失函数的损失值、所述第二损失函数的损失值以及所述第一损失函数和所述第二损失函数各自的权重系数确定总损失值。
在一个实施例中,将每个样本的真实匹配度中的真实路径匹配度和每个样本对应的预测路径匹配度输入路径选择网络对应的第一损失函数确定第一损失函数的损失值。由于路径选择网络为一个二分类任务,则路径选择网络的第一损失函数如下述公式(6)所示:
其中,为训练样本集,sk(a,q)为节点对中请求节点与锚定节点之间真实路径匹配度,/>为节点对中请求节点与锚定节点之间预测路径匹配度。
进一步地,将每个样本的真实匹配度中的真实层级匹配度和每个样本对应的预测层级匹配度输入层级选择网络对应的第二损失函数确定第二损失函数的损失值。由于层级选择网络为一个三分类任务,则层级选择网络的第二损失函数如下述公式(7)所示:
其中,BCELoss(·)表示二分类的交叉熵,sp(a,q)为节点对中请求节点与锚定节点之间真实层级匹配度,为节点对中请求节点与锚定节点之间预测层级匹配度。
则最后基于第一损失函数的损失值、第二损失函数的损失值以及第一损失函数和第二损失函数各自的权重系数确定总损失值,总损失值的计算公式如下述公式(8)所示。
lall=-η1l1-η2l2 (8)
其中,η1和η2为第一损失函数和第二损失函数各自的权重系数,η1和η2是一个自定义的超参数。
在本申请实施例中,通过对初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行训练,可以使得到的特征提取模型可以从层级和路径两个方面进行评价,使得可以提升扩展目录树时的准确性与一致性。
在一个可行的实施例中,在对初始模型进行训练时,在每一轮的训练中,可以从第二目录树中取样4类节点对共计32个参与训练,其中针对任一请求节点,锚定节点包括:1个真实父节点,至多6个真实父节点的祖先节点,至多8个真实父节点的后代节点,以及至少16个其他节点。根据每个请求节点与锚定节点组成的节点对在初始模型中得到的预测路径匹配度、预测层级匹配度,以及上述公式(6)-(8)计算总损失值,并进行反向传播从而对初始模型的网络参数更新。
在一个实施例中,在对初始模型进行训练时,包括以下步骤:
1、用随机化权值θ’初始化初始模型。
2、针对第二目录树中除根节点以外的任一请求节点q。
1)、令数组χq={},确定任一请求节点q的父节点p,父节点p的全部祖先节点父节点p的至多三个子节点Dp。
2)、令
3)、针对χq中的任一节点a。
(1)、利用上述公式(1)计算路径匹配度Sp(a,q),利用上述公式(2)-(4)计算层级匹配度[Sf(a,q),Sc(a,q),Sb(a,q)]。
(2)、利用上述公式(6)-(8)计算总损失值,并根据总损失值对初始模型的θ’使用梯度下降法更新,得到评分模型更新后的权值θ。
在一个实施例中,所述利用所述关系探测模块和所述一致性探测模块对所述每个样本的自我中心树进行处理,得到所述每个样本对应的路径关系编码表示和层级关系编码表示,包括;针对所述每个样本的自我中心树中的任一节点,将所述任一节点和所述每个样本中的请求节点输入所述关系探测模块,确定所述任一节点和所述请求节点之间的关系向量表示;根据所述任一节点的绝对层级、相对层级以及节点类别分别确定所述任一节点的绝对层级向量表示、相对层级向量表示以及分段向量表示;根据所述任一节点的关系向量表示、绝对层级向量表示、相对层级向量表示以及分段向量表示,确定所述任一节点的总向量表示;将所述自我中心树中所有节点的总向量表示组成的特征矩阵输入所述一致性探测模块,得到所述每个样本对应的路径关系编码表示和层级关系编码表示。
在一个实施例中,在获取每个样本对应的路径关系编码表示和层级关系编码表示时,需要对每个样本的自我中心树进行处理,从而得到一致性探测模块的输入。
具体地,针对每个样本的自我中心树中的任一节点,将任一节点和每个样本中的请求节点输入关系探测模块,确定任一节点和请求节点之间的关系向量表示。首先可以利用前述实施例说明的释义生成算法分别获取任一节点和请求节点之间的释义信息,并将任一节点和请求节点之间的释义信息输入基于变换器的双向编码表示模型,从而可以得到任一节点和请求节点之间的关系向量表示rn,q。
在一个实施例中,在获取到自我中心树中的任一节点和请求节点之间的关系向量表示,根据任一节点的绝对层级、相对层级以及节点类别分别确定任一节点的绝对层级向量表示、相对层级向量表示以及分段向量表示,然后再根据任一节点的关系向量表示、绝对层级向量表示、相对层级向量表示以及分段向量表示之和确定任一节点的总向量表示。
具体地,将自我中心树中任一节点n的绝对层级经过一个随机初始化的嵌入层得到绝对层级向量表示ln,q。其中,绝对层级为任一节点n在扩展后的第二目录树中的位置,如任一节点在扩展后的第二目录树中的第5层,则绝对层级为5。将自我中心树中任一节点n的相对层级经过一个随机初始化的嵌入层得到相对层级向量表示en,q。其中,相对层级为任一节点相对请求节点在扩展后的第二目录树中的位置,如任一节点在扩展后的第二目录树中的第5层,请求节点在扩展后的第二目录树中的第7层,则相对层级为-2。分段向量表示gn,q,用于区分任一节点的节点类别是锚定节点、请求节点和其他节点中的哪一个,例如任一节点为锚定节点,则节点类别为0,任一节点为请求节点,则节点类别为1,任一节点为锚定节点,则节点类别为2,然后再通过随机初始化的嵌入层对节点类别进行处理得到分段向量表示gn,q。则最终任一节点n的总向量表示为(rn,q+ln,q+en,q+gn,q)。
在一个实施例中,将自我中心树中所有节点的总向量表示组成的特征矩阵输入一致性探测模块,得到每个样本对应的路径关系编码表示和层级关系编码表示。
具体地,在一致性探测模块中使用转换器(Transformer)中的编码器(Encoder),将特征矩阵Ra,q为 输入一致性探测模块,特征矩阵Ra,q大小为/>其中,/>表示拼接,e<CLS>表示一个随机初始化的d维向量,作为分类标识符,如路径关系编码表示pa,q为TransformerEncoder(Ra,q)[0],层级关系编码表示da,q为TransformerEncoder(Ra,q)[1],其中0和1分别表示第一个和第二个e<CLS><位置索引。
在本申请实施例中,在一致性探测模块中创新性地使用转换器进行树结构建模,同时利用节点的绝对层级和相对层级的信息使得一致性探测模块可以学习不同层级之间的节点特征。
在一个实施例中,所述将所述任一节点和所述每个样本中的请求节点输入所述关系探测模块,确定所述任一节点和所述请求节点之间的关系向量表示,包括:利用释义生成算法分别确定所述任一节点的释义信息和所述每个样本中的请求节点的释义信息;将所述任一节点的释义信息和所述请求节点的释义信息输入基于变换器的双向编码表示模型,得到所述任一节点和所述请求节点之间的关系向量表示。
在一个实施例中,利用前述实施例说明的释义生成算法分别确定任一节点n的释义信息descr(n)和每个样本中的请求节点q的释义信息descr(q),然后采用基于变换器的双向编码表示模型获取任一节点和请求节点之间的关系向量表示。
其中,基于变换器的双向编码表示(Bidirectional Encoder Representationfrom Transformers,BERT)模型是目前自然语言处理领域最常用的语言模型之一,它是一种基于Transformer的编码器的预训练模型,被证明在多种句间关系探测任务上取得最佳效果。
具体地,为了减少关系探测模块的模型参数量,本申请采用了参数量较少的DistilBERT(A Distilled Version of BERT)模型,该模型是经过了模型蒸馏后的BERT,可以在大幅减少模型参数量的情况下基本保持BERT模型的性能。对于任一节点n的释义信息descr(n)和每个样本中的请求节点q的释义信息descr(q)需要处理为BERT类模型的输入:首先获得释义序列 其中<CLS>是开始的标志,<SEP>是结尾的标志,用来断开任一节点和请求节点的释义信息。再将释义序列Dn,q转换为对应的词向量序列En,q=Embedding(Dn,q),En,q记录了请求节点和任一节点的释义信息的词嵌入编码、分割编码和位置编码。再将词向量序列En,q输入DistilBERT模型,并输出<CLS>表示的关系向量表示rn,q=DistilBERT(En,q)。利用<CLS>表示的向量,可以同时代表任一节点的释义信息和请求节点的释义信息。
在本申请实施例中,关系探测模块中利用简单而高效的释义生成算法可以在降低外部数据使用量的同时实现更直接的上下位词关系发现,同时BERT模型可以获取节点释义信息的向量表示,便于一致性探测模块探测节点间的上下位词关系。
在一个实施例中,关系探测模块中用于获取关系向量表示的模型可以替换为任意BERT变体,随机初始化的转换器中的编码器或RNN模型等,本申请对此不作限定。
请参见图5,显示了本申请实施例提供的一种数据处理方法的流程示意图。首先通过锚定节点a和请求节点q确定由锚定节点a和请求节点q构成的节点对的自我中心树,进一步地,利用关系探测模块中的释义生成算法获取自我中心树中包括的每个节点的释义信息,并将每个节点的释义信息与请求节点的释义信息组合后输入关系探测模块中的BERT模型确定每个节点与请求节点之间的关系向量表示,进一步地,获取每个节点的分段向量表示、绝对层级向量表示和相对层级向量表示,并将其与关系向量表示相加,得到每个节点的总向量表示,最后通过将自我中心树中包括的所有节点的总向量表示组成的特征矩阵输入转换器中的编码器得到路径关系编码表示和层级关系编码表示,并将路径关系编码表示输入层级选择网络得到层级匹配度,将路径关系编码表示输入路径选择网络得到层级匹配度,最后根据层级匹配度与路径匹配度相乘得到锚定节点a和请求节点q之间的匹配度。其中,关系探测模块和一致性探测模块相当于前述实施例中的特征提取网络。其他步骤在前述实施例中以详细说明,本申请实施例不再赘述。
在一个实施例中,将本申请实施例提出的评分模型在公开数据集SemEval16中进行实验,根据准确度(Accuracy,Acc)、平均倒数排名(Mean Reciprocal Rank,MRR)、Wu&P(Wu&Palmer Similarity)三个指标,同BERT+MLP、TAXI(A Taxonomy Induction MethodBased on Lexico-Syntactic Patterns)、HypeNet、TaxoExpan(Self-SupervisedTaxonomy Expansion With Position Enhanced Graph Neural Network)、STEAM(Self-Supervised Taxonomy Expansion With Mini-Paths)进行比较,如下述表1所示,本申请提出的方法在SemEval16中的三个测试中均在所有指标上大幅超越之前的最佳算法STEAM。
表1
如图6所示,图6是本申请实施例提供的一种数据处理装置的结构示意图,所述装置包括:
获取模块601,用于获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;
处理模块602,用于利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;
所述处理模块602,还用于根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
在一个实施例中,所述处理模块602,具体用于:
利用所述特征提取网络确定所述待添加节点和所述第一目录树中的每个节点之间的路径关系编码表示和层级关系编码表示;
利用所述路径关系编码表示和所述路径选择网络确定所述待添加节点和所述每个节点之间的路径匹配度;
利用所述层级关系编码表示和所述层级选择网络确定所述待添加节点和所述每个节点之间的层级匹配度;
根据所述路径匹配度和所述层级匹配度确定所述待添加节点和所述每个节点之间的匹配度。
在一个实施例中,所述处理模块602,具体用于:
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点之间的当前层级概率;
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的父节点之间的前进概率;
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的各个子节点之间的后退概率中的最大后退概率;
根据所述前进概率、所述当前层级概率以及所述最大后退概率确定所述待添加节点和所述每个节点之间的层级匹配度。
在一个实施例中,所述处理模块602,具体用于:
获取训练样本集,所述训练样本集中的每个样本包括由锚定节点和请求节点组成的节点对以及所述节点对包括的锚定节点和请求节点之间的真实匹配度,所述锚定节点和所述请求节点为第二目录树中任意两个不同的节点,所述真实匹配度包括真实路径匹配度和真实层级匹配度,所述第二目录树是第一目录树的种子目录树;
根据所述每个样本包括的节点对和所述第二目录树确定所述每个样本的自我中心树,所述请求节点在所述自我中心树中为所述锚定节点的子节点;
利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型,所述初始模型包括特征提取网络、路径选择网络和层级选择网络。
在一个实施例中,所述处理模块602,具体用于:
利用所述关系探测模块和所述一致性探测模块对所述每个样本的自我中心树进行处理,得到所述每个样本对应的路径关系编码表示和层级关系编码表示;
将所述路径关系编码表示输入所述初始模型中的路径选择网络,得到所述每个样本对应的预测路径匹配度;
将所述层级关系编码表示输入所述初始模型中的层级选择网络,得到所述每个样本对应的预测层级匹配度;
基于所述真实匹配度、所述每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对所述初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型。
在一个实施例中,所述处理模块602,具体用于:
根据所述每个样本中节点对的真实路径匹配度以及预测路径匹配度,确定第一损失函数的损失值;
根据所述每个样本中节点对的真实层级匹配度以及预测层级匹配度,确定第二损失函数的损失值;
基于所述第一损失函数的损失值、所述第二损失函数的损失值以及所述第一损失函数和所述第二损失函数各自的权重系数确定总损失值。
在一个实施例中,所述处理模块602,具体用于:
确定所述演员模型的损失函数和所述评论家模型的损失函数,所述演员模型的损失函数包括策略梯度损失函数和权重参数损失函数;
根据所述演员模型的损失函数和所述评论家模型的损失函数确定所述演员-评论家模型的总损失函数。
在一个实施例中,所述处理模块602,具体用于:
针对所述每个样本的自我中心树中的任一节点,将所述任一节点和所述每个样本中的请求节点输入所述关系探测模块,确定所述任一节点和所述请求节点之间的关系向量表示;
根据所述任一节点的绝对层级、相对层级以及节点类别分别确定所述任一节点的绝对层级向量表示、相对层级向量表示以及分段向量表示;
根据所述任一节点的关系向量表示、绝对层级向量表示、相对层级向量表示以及分段向量表示,确定所述任一节点的总向量表示;
将所述自我中心树中所有节点的总向量表示组成的特征矩阵输入所述一致性探测模块,得到所述每个样本对应的路径关系编码表示和层级关系编码表示。
在一个实施例中,所述处理模块602,具体用于:
利用释义生成算法分别确定所述任一节点的释义信息和所述每个样本中的请求节点的释义信息;
将所述任一节点的释义信息和所述请求节点的释义信息输入基于变换器的双向编码表示模型,得到所述任一节点和所述请求节点之间的关系向量表示。
在本申请实施例中,通过评分模型确定待添加节点和第一目录树中的每个节点之间在路径和层级两个方面的匹配度,并根据匹配度从第一目录树中确定目标节点,使得可以根据目标节点的位置将待添加节点添加到第一目录树中,其中,评分模型包括路径选择网络和层级选择网络,路径选择网络用于确定待添加节点和每个节点之间的路径匹配度,层级选择网络用于确定待添加节点和每个节点之间的层级匹配度,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
如图7所示,图7是本申请实施例提供的一种计算机设备的结构示意图,该设备内部结构如图7所示,包括:一个或多个处理器701、存储器702、通信接口703。上述处理器701、存储器702和通信接口703可通过总线704或其他方式连接,本申请实施例以通过总线704连接为例。
其中,处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如:CPU可以用于解析用户向计算机设备所发送的开关机指令,并控制计算机设备进行开关机操作;再如:CPU可以在计算机设备内部结构之间传输各类交互数据,等等。通信接口703可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器701的控制用于收发数据。存储器702(Memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器702既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器702提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:Windows系统、Linux系统等等,本申请对此并不作限定。
在一个实施例中,所述处理器701,具体用于:
获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;
利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;
根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
在一个实施例中,所述处理器701,具体用于:
利用所述特征提取网络确定所述待添加节点和所述第一目录树中的每个节点之间的路径关系编码表示和层级关系编码表示;
利用所述路径关系编码表示和所述路径选择网络确定所述待添加节点和所述每个节点之间的路径匹配度;
利用所述层级关系编码表示和所述层级选择网络确定所述待添加节点和所述每个节点之间的层级匹配度;
根据所述路径匹配度和所述层级匹配度确定所述待添加节点和所述每个节点之间的匹配度。
在一个实施例中,所述处理器701,具体用于:
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点之间的当前层级概率;
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的父节点之间的前进概率;
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的各个子节点之间的后退概率中的最大后退概率;
根据所述前进概率、所述当前层级概率以及所述最大后退概率确定所述待添加节点和所述每个节点之间的层级匹配度。
在一个实施例中,所述处理器701,具体用于:
获取训练样本集,所述训练样本集中的每个样本包括由锚定节点和请求节点组成的节点对以及所述节点对包括的锚定节点和请求节点之间的真实匹配度,所述锚定节点和所述请求节点为第二目录树中任意两个不同的节点,所述真实匹配度包括真实路径匹配度和真实层级匹配度,所述第二目录树是第一目录树的种子目录树;
根据所述每个样本包括的节点对和所述第二目录树确定所述每个样本的自我中心树,所述请求节点在所述自我中心树中为所述锚定节点的子节点;
利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型,所述初始模型包括特征提取网络、路径选择网络和层级选择网络。
在一个实施例中,所述处理器701,具体用于:
利用所述关系探测模块和所述一致性探测模块对所述每个样本的自我中心树进行处理,得到所述每个样本对应的路径关系编码表示和层级关系编码表示;
将所述路径关系编码表示输入所述初始模型中的路径选择网络,得到所述每个样本对应的预测路径匹配度;
将所述层级关系编码表示输入所述初始模型中的层级选择网络,得到所述每个样本对应的预测层级匹配度;
基于所述真实匹配度、所述每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对所述初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型。
在一个实施例中,所述处理器701,具体用于:
根据所述每个样本中节点对的真实路径匹配度以及预测路径匹配度,确定第一损失函数的损失值;
根据所述每个样本中节点对的真实层级匹配度以及预测层级匹配度,确定第二损失函数的损失值;
基于所述第一损失函数的损失值、所述第二损失函数的损失值以及所述第一损失函数和所述第二损失函数各自的权重系数确定总损失值。
在一个实施例中,所述处理器701,具体用于:
确定所述演员模型的损失函数和所述评论家模型的损失函数,所述演员模型的损失函数包括策略梯度损失函数和权重参数损失函数;
根据所述演员模型的损失函数和所述评论家模型的损失函数确定所述演员-评论家模型的总损失函数。
在一个实施例中,所述处理器701,具体用于:
针对所述每个样本的自我中心树中的任一节点,将所述任一节点和所述每个样本中的请求节点输入所述关系探测模块,确定所述任一节点和所述请求节点之间的关系向量表示;
根据所述任一节点的绝对层级、相对层级以及节点类别分别确定所述任一节点的绝对层级向量表示、相对层级向量表示以及分段向量表示;
根据所述任一节点的关系向量表示、绝对层级向量表示、相对层级向量表示以及分段向量表示,确定所述任一节点的总向量表示;
将所述自我中心树中所有节点的总向量表示组成的特征矩阵输入所述一致性探测模块,得到所述每个样本对应的路径关系编码表示和层级关系编码表示。
在一个实施例中,所述处理器701,具体用于:
利用释义生成算法分别确定所述任一节点的释义信息和所述每个样本中的请求节点的释义信息;
将所述任一节点的释义信息和所述请求节点的释义信息输入基于变换器的双向编码表示模型,得到所述任一节点和所述请求节点之间的关系向量表示。
在本申请实施例中,通过评分模型确定待添加节点和第一目录树中的每个节点之间在路径和层级两个方面的匹配度,并根据匹配度从第一目录树中确定目标节点,使得可以根据目标节点的位置将待添加节点添加到第一目录树中,其中,评分模型包括路径选择网络和层级选择网络,路径选择网络用于确定待添加节点和每个节点之间的路径匹配度,层级选择网络用于确定待添加节点和每个节点之间的层级匹配度,可以利用层级和路径两个方面的匹配度准确地确定出待添加节点在目录树中的添加位置,从而提升扩展目录树时的准确性与一致性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述数据处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本申请一个或多个实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;
获取训练样本集,所述训练样本集中的每个样本包括由锚定节点和请求节点组成的节点对以及所述节点对包括的锚定节点和请求节点之间的真实匹配度,所述锚定节点和所述请求节点为第二目录树中任意两个不同的节点,所述真实匹配度包括真实路径匹配度和真实层级匹配度,所述第二目录树是第一目录树的种子目录树;
根据所述每个样本包括的节点对和所述第二目录树确定所述每个样本的自我中心树,所述请求节点在所述自我中心树中为所述锚定节点的子节点;每个样本的自我中心树是通过将每个样本包括的节点对中的请求节点作为该节点对中的锚定节点的子节点添加至该节点对中的锚定节点的自我中心树中得到的;其中,节点的自我中心树包括该节点本身、该节点在第一目录树中的全部祖先节点,以及从该节点的子节点中选取的至多三个子节点;
利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型;
利用所述评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;
根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
2.根据权利要求1所述的方法,其特征在于,所述评分模型还包括特征提取网络,所述利用评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,包括:
利用所述特征提取网络确定所述待添加节点和所述第一目录树中的每个节点之间的路径关系编码表示和层级关系编码表示;
利用所述路径关系编码表示和所述路径选择网络确定所述待添加节点和所述每个节点之间的路径匹配度;
利用所述层级关系编码表示和所述层级选择网络确定所述待添加节点和所述每个节点之间的层级匹配度;
根据所述路径匹配度和所述层级匹配度确定所述待添加节点和所述每个节点之间的匹配度。
3.根据权利要求2所述的方法,其特征在于,所述层级匹配度包括前进概率、当前层级概率以及最大后退概率;所述利用所述层级关系编码表示和所述层级选择网络确定所述待添加节点和所述每个节点之间的层级匹配度,包括:
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点之间的当前层级概率;
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的父节点之间的前进概率;
利用所述层级关系编码表示和所述层级选择网络,确定所述待添加节点和所述每个节点的各个子节点之间的后退概率中的最大后退概率;
根据所述前进概率、所述当前层级概率以及所述最大后退概率确定所述待添加节点和所述每个节点之间的层级匹配度。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述初始模型包括特征提取网络、路径选择网络和层级选择网络。
5.根据权利要求4所述的方法,其特征在于,所述特征提取网络包括关系探测模块和一致性探测模块,所述利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型,包括:
利用所述关系探测模块和所述一致性探测模块对所述每个样本的自我中心树进行处理,得到所述每个样本对应的路径关系编码表示和层级关系编码表示;
将所述路径关系编码表示输入所述初始模型中的路径选择网络,得到所述每个样本对应的预测路径匹配度;
将所述层级关系编码表示输入所述初始模型中的层级选择网络,得到所述每个样本对应的预测层级匹配度;
基于所述真实匹配度、所述每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对所述初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述真实匹配度、所述每个样本对应的预测路径匹配度、预测层级匹配度以及总损失值,对所述初始模型中的特征提取网络、路径选择网络和层级选择网络的网络参数进行调整,以训练得到评分模型之前,所述方法还包括:
根据所述每个样本中节点对的真实路径匹配度以及预测路径匹配度,确定第一损失函数的损失值;
根据所述每个样本中节点对的真实层级匹配度以及预测层级匹配度,确定第二损失函数的损失值;
基于所述第一损失函数的损失值、所述第二损失函数的损失值以及所述第一损失函数和所述第二损失函数各自的权重系数确定总损失值。
7.根据权利要求5所述的方法,其特征在于,所述利用所述关系探测模块和所述一致性探测模块对所述每个样本的自我中心树进行处理,得到所述每个样本对应的路径关系编码表示和层级关系编码表示,包括;
针对所述每个样本的自我中心树中的任一节点,将所述任一节点和所述每个样本中的请求节点输入所述关系探测模块,确定所述任一节点和所述请求节点之间的关系向量表示;
根据所述任一节点的绝对层级、相对层级以及节点类别分别确定所述任一节点的绝对层级向量表示、相对层级向量表示以及分段向量表示;
根据所述任一节点的关系向量表示、绝对层级向量表示、相对层级向量表示以及分段向量表示,确定所述任一节点的总向量表示;
将所述自我中心树中所有节点的总向量表示组成的特征矩阵输入所述一致性探测模块,得到所述每个样本对应的路径关系编码表示和层级关系编码表示。
8.根据权利要求7所述的方法,其特征在于,所述将所述任一节点和所述每个样本中的请求节点输入所述关系探测模块,确定所述任一节点和所述请求节点之间的关系向量表示,包括:
利用释义生成算法分别确定所述任一节点的释义信息和所述每个样本中的请求节点的释义信息;
将所述任一节点的释义信息和所述请求节点的释义信息输入基于变换器的双向编码表示模型,得到所述任一节点和所述请求节点之间的关系向量表示。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待添加节点和第一目录树,所述第一目录树中包括一个或多个节点;
处理模块,用于获取训练样本集,所述训练样本集中的每个样本包括由锚定节点和请求节点组成的节点对以及所述节点对包括的锚定节点和请求节点之间的真实匹配度,所述锚定节点和所述请求节点为第二目录树中任意两个不同的节点,所述真实匹配度包括真实路径匹配度和真实层级匹配度,所述第二目录树是第一目录树的种子目录树;
所述处理模块,还用于根据所述每个样本包括的节点对和所述第二目录树确定所述每个样本的自我中心树,所述请求节点在所述自我中心树中为所述锚定节点的子节点;每个样本的自我中心树是通过将每个样本包括的节点对中的请求节点作为该节点对中的锚定节点的子节点添加至该节点对中的锚定节点的自我中心树中得到的;其中,节点的自我中心树包括该节点本身、该节点在第一目录树中的全部祖先节点,以及从该节点的子节点中选取的至多三个子节点;
所述处理模块,还用于利用所述自我中心树和所述真实匹配度对初始模型进行训练,得到评分模型;
所述处理模块,还用于利用所述评分模型确定所述待添加节点和所述第一目录树中的每个节点之间的匹配度,所述评分模型包括路径选择网络和层级选择网络,所述路径选择网络用于确定所述待添加节点和所述每个节点之间的路径匹配度,所述层级选择网络用于确定所述待添加节点和所述每个节点之间的层级匹配度;
所述处理模块,还用于根据所述匹配度从所述第一目录树中确定目标节点,并根据所述目标节点的位置将所述待添加节点添加到所述第一目录树中。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8任一项所述的数据处理方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质中读取并执行所述计算机指令,使得所述计算机设备执行如权利要求1~8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110125698.XA CN113568901B (zh) | 2021-01-29 | 2021-01-29 | 一种数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110125698.XA CN113568901B (zh) | 2021-01-29 | 2021-01-29 | 一种数据处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568901A CN113568901A (zh) | 2021-10-29 |
CN113568901B true CN113568901B (zh) | 2024-04-19 |
Family
ID=78161066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110125698.XA Active CN113568901B (zh) | 2021-01-29 | 2021-01-29 | 一种数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568901B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297338B (zh) * | 2021-12-02 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、存储介质和程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109032937A (zh) * | 2018-07-16 | 2018-12-18 | 江苏满运软件科技有限公司 | 一种基于网页的数据选取方法及系统 |
CN109241256A (zh) * | 2018-08-20 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 对话处理方法、装置、计算机设备和可读存储介质 |
US10360581B1 (en) * | 2014-10-22 | 2019-07-23 | Quantcast Corporation | Automatic performance-triggered feature discovery |
CN110377884A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、计算机设备及存储介质 |
CN111046170A (zh) * | 2018-10-15 | 2020-04-21 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN111814176A (zh) * | 2020-05-29 | 2020-10-23 | 上海申铁信息工程有限公司 | 一种基于区块链的数据访问权限控制方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8584046B2 (en) * | 2007-04-09 | 2013-11-12 | Microsoft Corporation | Visualizing differences in similarity metrics of hierarchies |
-
2021
- 2021-01-29 CN CN202110125698.XA patent/CN113568901B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10360581B1 (en) * | 2014-10-22 | 2019-07-23 | Quantcast Corporation | Automatic performance-triggered feature discovery |
CN109032937A (zh) * | 2018-07-16 | 2018-12-18 | 江苏满运软件科技有限公司 | 一种基于网页的数据选取方法及系统 |
CN109241256A (zh) * | 2018-08-20 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 对话处理方法、装置、计算机设备和可读存储介质 |
CN111046170A (zh) * | 2018-10-15 | 2020-04-21 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
CN110377884A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、计算机设备及存储介质 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN111814176A (zh) * | 2020-05-29 | 2020-10-23 | 上海申铁信息工程有限公司 | 一种基于区块链的数据访问权限控制方法和装置 |
Non-Patent Citations (2)
Title |
---|
Optimal random matchings, tours, and spanning trees in hierarchically separated trees;Béla Csaba 等;《Theoretical Computer Science》;20130819;68-89 * |
工业过程故障根源诊断与传播路径识别技术综述;马亮 等;《自动化学报 》;20200907;1650-1663 * |
Also Published As
Publication number | Publication date |
---|---|
CN113568901A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
WO2021139229A1 (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
Yan et al. | Adatag: Multi-attribute value extraction from product profiles with adaptive decoding | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN112149400B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
US20210018332A1 (en) | Poi name matching method, apparatus, device and storage medium | |
CN107463658A (zh) | 文本分类方法及装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110717038B (zh) | 对象分类方法及装置 | |
US20210406687A1 (en) | Method for predicting attribute of target object based on machine learning and related device | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
WO2019114618A1 (zh) | 一种深度神经网络训练方法、装置及计算机设备 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
US20240177506A1 (en) | Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption | |
CN110851609A (zh) | 表示学习方法及装置 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN112948505A (zh) | 一种实体关系分类的模型构建方法、设备及存储介质 | |
CN111881292A (zh) | 一种文本分类方法及装置 | |
CN111291565A (zh) | 一种用于命名实体识别的方法与装置 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
CN114676233A (zh) | 基于骨骼肌知识图谱的医疗自动问答方法 | |
CN115455226A (zh) | 一种文本描述驱动的行人搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |