CN111881928A - 一种编码模型训练方法、装置、存储介质及电子设备 - Google Patents

一种编码模型训练方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111881928A
CN111881928A CN202010426286.5A CN202010426286A CN111881928A CN 111881928 A CN111881928 A CN 111881928A CN 202010426286 A CN202010426286 A CN 202010426286A CN 111881928 A CN111881928 A CN 111881928A
Authority
CN
China
Prior art keywords
nodes
node
digit
estimated
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010426286.5A
Other languages
English (en)
Other versions
CN111881928B (zh
Inventor
陆韵
沈贝伦
李冰
江易
王鸿儒
赵尚上
王魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chinaoly Technology Co ltd
Original Assignee
Hangzhou Chinaoly Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chinaoly Technology Co ltd filed Critical Hangzhou Chinaoly Technology Co ltd
Priority to CN202010426286.5A priority Critical patent/CN111881928B/zh
Publication of CN111881928A publication Critical patent/CN111881928A/zh
Application granted granted Critical
Publication of CN111881928B publication Critical patent/CN111881928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提出一种编码模型训练方法、装置、存储介质及电子设备。数据元网络依据训练文件生成至少1条游走路径,其中,游走路径包含至少两个节点和节点的游走顺序;依据游走顺序构建距离矩阵;依据节点总数量和平均度生成预估位数;依据距离矩阵和哈希函数生成与每一个节点对应的编码;依据每一个节点对应的编码的结果调整预估位数,作为最终的编码位数。当编码位数统一后,即编码标准统一,便于对不同的数据源进行统一的编码管理,便于系统整合,便于实现数据资产的价值。

Description

一种编码模型训练方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机处理技术领域领域,具体而言,涉及一种编码模型训练方法、装置、存储介质及电子设备。
背景技术
随着人类各种活动的计算机化、网络化,数据在解决治安安全、企业生产和个体衣食住行之需的过程中发挥的作用越来越大,成为对各类行为主体进行分析、规范、调整的基础。随着互联网技术及其应用的发展,加强数据治理能力更加重要、更加紧迫。获取数据、使用数据进行社会管理、社会管制及社会治理,是现代治理能力最重要的组成部分,对数据的掌控能力、运用能力,是处理好公共事务的前提,也是预防和应对突发事件,尤其是对突发事件进行前端物理控制和后端舆论防控的基础。
公安数据作为数据的一种,更需要严谨的管理和控制,但是现在对公安数据还缺少一个统一数据标准。数据标准的缺乏和滞后,导致数据源以多种形式存在,业务口径差异大、基础信息编码多套并存、数据填报规则缺乏,将加剧数据跨系统整合的难度,从而无法真正实现数据资产的价值。
发明内容
本申请的目的在于提供一种编码模型训练方法、装置、存储介质及电子设备,以解决上述问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种编码模型训练方法,所述方法包括:
数据元网络依据训练文件生成至少1条游走路径,其中,所述游走路径包含至少两个节点和节点的游走顺序;
依据所述游走顺序构建距离矩阵,其中,所述距离矩阵包含任意一个节点到其他任意节点的距离;
依据节点总数量和平均度生成预估位数,其中,所述预估位数为每一个节点对应的编码预估的位数,所述平均度为每一个节点所连接的节点的平均数;
依据所述距离矩阵和哈希函数生成与每一个节点对应的编码,其中,所述编码的总位数等于所述预估位数;
依据每一个节点对应的编码的结果调整所述预估位数,作为最终的编码位数。
第二方面,本申请实施例提供一种编码模型训练装置,所述装置包括:
预处理单元,用于数据元网络依据训练文件生成至少1条游走路径,其中,所述游走路径包含至少两个节点和节点的游走顺序;还用于依据所述游走顺序构建距离矩阵,其中,所述距离矩阵包含任意一个节点到其他任意节点的距离:
编码单元,用于依据节点总数量和平均度生成预估位数,其中,所述预估位数为每一个节点对应的编码预估的位数,所述平均度为每一个节点所连接的节点的平均数;还用于依据所述距离矩阵和哈希函数生成与每一个节点对应的编码,其中,所述编码的总位数等于所述预估位数;还用于依据每一个节点对应的编码的结果调整所述预估位数,作为最终的编码位数。
第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
第四方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现上述的方法。
相对于现有技术,本申请实施例所提供的一种编码模型训练方法、装置、存储介质及电子设备的有益效果为:数据元网络依据训练文件生成至少1条游走路径,其中,游走路径包含至少两个节点和节点的游走顺序;依据游走顺序构建距离矩阵;依据节点总数量和平均度生成预估位数;依据距离矩阵和哈希函数生成与每一个节点对应的编码;依据每一个节点对应的编码的结果调整预估位数,作为最终的编码位数。当编码位数统一后,即编码标准统一,便于对不同的数据源进行统一的编码管理,便于系统整合,便于实现数据资产的价值。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的电子设备的结构示意图;
图2为本申请实施例提供的编码模型训练方法的流程示意图;
图3为本申请实施例提供的游走路径示意图;
图4为本申请实施例提供的S102的子步骤示意图;
图5为本申请实施例提供的编码过程示意图;
图6为本申请实施例提供的S105的子步骤示意图;
图7为本申请实施例提供的编码模型训练装置的单元示意图。
图中:10-处理器;11-存储器;12-总线;13-通信接口;201-预处理单元;202-编码单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请实施例提供了一种电子设备,可以是计算机设备。请参照图1,电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接,处理器10用于执行存储器11中存储的可执行模块,例如计算机程序。
处理器10可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,编码模型训练方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器11可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
总线12可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图1中仅用一个双向箭头表示,但并不表示仅有一根总线12或一种类型的总线12。
存储器11用于存储程序,例如编码模型训练装置对应的程序。编码模型训练装置包括至少一个可以软件或固件(firmware)的形式存储于存储器11中或固化在电子设备的操作系统(operating system,OS)中的软件功能模块。处理器10在接收到执行指令后,执行所述程序以实现编码模型训练方法。
可能地,本申请实施例提供的电子设备还包括通信接口13。通信接口13通过总线与处理器10连接。电子设备可以通过通信接口13获取其他设备传输的文本数据。
应当理解的是,图1所示的结构仅为电子设备的部分的结构示意图,电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例提供的一种编码模型训练方法,可以但不限于应用于图1所示的电子设备,具体的流程,请参考图2:
S101,数据元网络依据训练文件生成至少1条游走路径,其中,游走路径包含至少两个节点和节点的游走顺序。
具体地,请参考图3,图3为游走路径的示意图。该游走路径包含节点e1、e2、e3、e4以及e5。并包含3种游走顺序,即为①、②、③分别对应的游走顺序。在游走顺序①中,节点e1到节点e5的距离为3;在游走顺序②中,节点e1到节点e5的距离为1。即相同两个节点在不同的游走顺序中的距离可能不同。
S102,依据游走顺序构建距离矩阵。
其中,距离矩阵包含任意一个节点到其他任意节点的距离。以图3为例,即距离矩阵包含节点e1分别到节点e2、e3、e4以及e5的距离,还包含节点e2分别到节点e1、e3、e4以及e5的距离,以此类推。当还包括图3以外的节点所组成的游走路径时,距离矩阵还包含节点e1到其他节点的距离。
S103,依据节点总数量和平均度生成预估位数。
其中,预估位数为每一个节点对应的编码预估的位数,平均度为每一个节点所连接的节点的平均数。
以图3为例,图3中的节点总数为5,平均度为2.8。具体地,将每一个节点分别连接的节点数累加除以节点总数,即为平均度。同一个节点在不同的游走路径中时,节点总数不重复统计。相同连接关系的两个节点在不同的游走路径中时,不需要重复统计。
S104,依据距离矩阵和哈希函数生成与每一个节点对应的编码。
其中,编码的总位数等于预估位数。
具体地,通过数量与预估位数相同的哈希函数结合距离矩阵(任意一个节点到其他任意节点的距离),生成每一节点对应的编码。每一种哈希函数分别对应编码中的一位。
S105,依据每一个节点对应的编码的结果调整预估位数,作为最终的编码位数。
具体地,当编码位数统一过后,统一了编码标准,解决了缺少一个统一数据标准的问题。即解决了数据标准的缺乏和滞后,导致数据源以多种形式存在,业务口径差异大、基础信息编码多套并存、数据填报规则缺乏,将加剧数据跨系统整合的难度,从而无法真正实现数据资产的价值的问题。训练完成后的模型的编码标准统一后,便于对不同的数据源进行统一的编码管理,便于系统整合,便于实现数据资产的价值。
可能地,编码位数为编码不冗余的情况下,每一个节点对应的编码最少的位数,在保证编码效果的前提下,降低运算量,提升编码效率。编码不冗余为任意两个节点对应的编码不相同。
综上所述,本申请实施例提供的编码模型训练方法中,数据元网络依据训练文件生成至少1条游走路径,其中,游走路径包含至少两个节点和节点的游走顺序;依据游走顺序构建距离矩阵;依据节点总数量和平均度生成预估位数;依据距离矩阵和哈希函数生成与每一个节点对应的编码;依据每一个节点对应的编码的结果调整预估位数,作为最终的编码位数。当编码位数统一后,即编码标准统一,便于对不同的数据源进行统一的编码管理,便于系统整合,便于实现数据资产的价值。
对于上述的训练文件,本申请实施例还提出了一种可能的实现方式,具体地,训练文件为包含分层结构或上下位关系的目录文件。例如,犯罪嫌疑人是刑事犯罪的下位词,刑事犯罪是犯罪的下位词。数据元网络利用词的上下位关系即语义关系可以生成多条不同的游走路径。其中的各个词汇,即为本申请方案中的各个节点。
对于图2中的S102,本申请实施例还提供了一种可能的实现方式,请参考图4,S102包括:
S102-1,依据游走顺序获取每一条游走路径中的任意两个节点之间的期望距离。
具体地,依据以下算式获取游走路径中的任意两个节点之间的期望距离:
Figure BDA0002498781960000091
其中,节点x、y属于游走路径,de(x,y)为节点x、y在游走路径中的期望距离;c为同时包含节点x、y的子路径的个数;max_d为节点x、y之间所有路径中的最大距离;dx,y k为节点x、y在游走路径内的第k条路径上的距离;pc(x│y)为节点x、y在游走路径中同时出现的概率。
请继续参考图3,依据图3中的3种游走顺序,获取该游走路径中的任意两个节点之间的期望距离。假设节点x、y分别为节点e1、e5,de(x,y)为节点e1、e5在图3所示的游走路径中的期望距离。对应地,c为2;pc(x│y)为2/3;max_d为3;dx,y 1为3;dx,y 2为2。
同理,可以得到该游走路径中其他任意两个节点之间的期望距离,以及其他游走路径中其他任意两个节点之间的期望距离。
S102-2,依据任意两个节点之间的期望距离构建距离矩阵。
具体地,通过以下算式构建所述距离矩阵:
Figure BDA0002498781960000101
其中,Dx,y为距离矩阵中第x行、第y列元素的值,即节点x到节点y的距离;i为包含节点x,y的第i条游走路径;Ox,y为包含节点x,y的游走路径的数量;de(x,y)i为节点x、y在第i条游走路径中的期望距离。
在此基础上,对于如何生成与每一个节点对应的编码,本申请实施例还提供了一种可能的实现方式方式,请参考下文:
依据下列算式生成与每一个节点对应的编码:
Figure BDA0002498781960000102
其中,ψx,m为节点x的第m位编码;N为节点的总数量;hm为哈希函数集合H中的第m个哈希函数;ζ()为哈希符号函数。
可能地,哈希函数集合包括至少数量大于或等于预估位数的哈希函数,每一个哈希函数均不宠护。
具体地,请参考图5,图5为编码示意图
Figure BDA0002498781960000103
为Di,E乘以哈希符号的值。即距离矩阵中的值乘以哈希符号函数后求和,得到一个值,再把这个值带入第m个哈希函数中得到第m个位置的编码。通过哈希符号函数降低不同的节点被编码成同一个编码的概率。
哈希符号函数的作用为输入任意一个数字都会产生一个值,这个值为1或-1。
对于图2中的S105,本申请实施例提供了一种可能的实现方式,请参考图6,S105包括:
S105-1,判断每一个节点对应的编码是否发生冗余。若是,则执行S105-6;若否,则执行S105-2。
具体地,当发生冗余时,表征编码位数不足,需要增加编码位数,此时执行S105-6。反之。当未发生冗余时,则表示当前的编码位数可能过长,增加了运算量,降低了编码效率,为了进一步验证,需要执行S105-2。
S105-2,将预估位数减少1位,作为新的预估位数。
通过调节预估位数,从而改变需要使用的哈希函数的数量,从而调整每一个节点对应的编码的位数。
S105-3,依据距离矩阵和哈希函数生成与每一个节点对应的编码。
S105-4,判断每一个节点对应的编码是否发生冗余。若是,则执行S105-5;若否,则执行S105-2。
具体地,若未发生冗余,则表示新的预估位数仍然有可能过长,需要进一步验证,此时需要执行S105-2。若发生冗余,则表示新的预估位数已经不足,此时需要将预估位数调整为上一次的值,执行S105-5。
S105-5,将预估位数增加1位,作为编码位数。
此时的编码位数,即为不发生冗余的情况下,每一个节点对应的编码的最小位数。
S105-6,将预估位数增加1位,作为新的预估位数。
通过调节预估位数,从而改变需要使用的哈希函数的数量,从而调整每一个节点对应的编码的位数。
S105-7,依据距离矩阵和哈希函数生成与每一个节点对应的编码。
S105-8,判断每一个节点对应的编码是否发生冗余。是,则执行S105-6;若否,则执行S105-9。
具体地,若未发生冗余,则表示新的预估位数为不发生冗余的情况下,每一个节点对应的编码的最小位数,此时需要执行S105-9。若发生冗余,则表示新的预估位数还是不足,需要进一步验证,执行S105-6。
S105-9,将新的预估位数作为编码位数。
请参阅图7,图7为本申请实施例提供的一种编码模型训练装置,可选的,该编码模型训练装置被应用于上文所述的电子设备。
编码模型训练装置包括:预处理单元201和编码单元202。
预处理单元201,用于数据元网络依据训练文件生成至少1条游走路径,其中,游走路径包含至少两个节点和节点的游走顺序;还用于依据游走顺序构建距离矩阵,其中,距离矩阵包含任意一个节点到其他任意节点的距离。具体地,预处理单元201可以上述的执行S101和S102。
编码单元202,用于依据节点总数量和平均度生成预估位数,其中,预估位数为每一个节点对应的编码预估的位数,平均度为每一个节点所连接的节点的平均数;还用于依据距离矩阵和哈希函数生成与每一个节点对应的编码,其中,编码的总位数等于预估位数;还用于依据每一个节点对应的编码的结果调整预估位数,作为最终的编码位数。具体地,编码单元202可以上述的执行S103、S104和S105。
预处理单元201具体用于依据游走顺序获取每一条游走路径中的任意两个节点之间的期望距离;依据任意两个节点之间的期望距离构建距离矩阵。具体地,预处理单元201可以上述的执行S102-1和S102-2。
需要说明的是,本实施例所提供的编码模型训练装置,其可以执行上述方法流程实施例所示的方法流程,以实现对应的技术效果。为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。
本发明实施例还提供了一种存储介质,该存储介质存储有计算机指令、程序,该计算机指令、程序在被读取并运行时执行上述实施例的编码模型训练方法。该存储介质可以包括内存、闪存、寄存器或者其结合等。
下面提供一种电子设备,可以是计算机设备,该电子设备如图1所示,可以实现上述的编码模型训练方法;具体的,该电子设备包括:处理器10,存储器11、总线12。处理器10可以是CPU。存储器11用于存储一个或多个程序,当一个或多个程序被处理器10执行时,执行上述实施例的编码模型训练方法。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种编码模型训练方法,其特征在于,所述方法包括:
数据元网络依据训练文件生成至少1条游走路径,其中,所述游走路径包含至少两个节点和节点的游走顺序;
依据所述游走顺序构建距离矩阵,其中,所述距离矩阵包含任意一个节点到其他任意节点的距离;
依据节点总数量和平均度生成预估位数,其中,所述预估位数为每一个节点对应的编码预估的位数,所述平均度为每一个节点所连接的节点的平均数;
依据所述距离矩阵和哈希函数生成与每一个节点对应的编码,其中,所述编码的总位数等于所述预估位数;
依据每一个节点对应的编码的结果调整所述预估位数,作为最终的编码位数。
2.如权利要求1所述的编码模型训练方法,其特征在于,所述“依据所述游走顺序构建距离矩阵”的步骤,包括:
依据所述游走顺序获取每一条游走路径中的任意两个节点之间的期望距离;
依据任意两个节点之间的期望距离构建所述距离矩阵。
3.如权利要求2所述的编码模型训练方法,其特征在于,通过以下算式构建所述距离矩阵:
Figure FDA0002498781950000011
其中,Dx,y为距离矩阵中第x行、第y列元素的值,即节点x到节点y的距离;i为包含节点x,y的第i条游走路径;Ox,y为包含节点x,y的游走路径的数量;de(x,y)i为节点x、y在第i条游走路径中的期望距离。
4.如权利要求3所述的编码模型训练方法,其特征在于,所述“依据所述距离矩阵和哈希函数生成与每一个节点对应的编码”的步骤包括:
依据下列算式生成与每一个节点对应的编码:
Figure FDA0002498781950000021
其中,ψx,m为节点x的第m位编码;N为节点的总数量;hm为哈希函数集合H中的第m个哈希函数;ζ()为哈希符号函数。
5.如权利要求2所述的编码模型训练方法,其特征在于,依据以下算式获取游走路径中的任意两个节点之间的期望距离:
Figure FDA0002498781950000022
其中,节点x、y属于所述游走路径,de(x,y)为节点x、y在所述游走路径中的期望距离;c为同时包含节点x、y的子路径的个数;max_d为节点x、y之间所有路径中的最大距离;dx,y k为节点x、y在所述游走路径内的第k条路径上的距离;pc(x│y)为节点x、y在所述游走路径中同时出现的概率。
6.如权利要求1所述的编码模型训练方法,其特征在于,所述“依据每一个节点对应的编码的结果调整所述预估位数,作为最终的编码位数”的步骤包括:
判断每一个节点对应的编码是否发生冗余;
若未发生冗余,则将所述预估位数减少1位,作为新的预估位数,其中,所述冗余表征存在对应的编码相同的两个节点;
重复依据所述距离矩阵和哈希函数生成与每一个节点对应的编码,直至冗余,将所述预估位数增加1位,作为编码位数;
若发生冗余,则将所述预估位数增加1位,作为新的预估位数;
重复依据所述距离矩阵和哈希函数生成与每一个节点对应的编码,直至没有冗余,将新的预估位数作为编码位数。
7.一种编码模型训练装置,其特征在于,所述装置包括:
预处理单元,用于数据元网络依据训练文件生成至少1条游走路径,其中,所述游走路径包含至少两个节点和节点的游走顺序;还用于依据所述游走顺序构建距离矩阵,其中,所述距离矩阵包含任意一个节点到其他任意节点的距离:
编码单元,用于依据节点总数量和平均度生成预估位数,其中,所述预估位数为每一个节点对应的编码预估的位数,所述平均度为每一个节点所连接的节点的平均数;还用于依据所述距离矩阵和哈希函数生成与每一个节点对应的编码,其中,所述编码的总位数等于所述预估位数;还用于依据每一个节点对应的编码的结果调整所述预估位数,作为最终的编码位数。
8.如权利要求7所述的编码模型训练装置,其特征在于,所述预处理单元具体用于依据所述游走顺序获取每一条游走路径中的任意两个节点之间的期望距离;依据任意两个节点之间的期望距离构建所述距离矩阵。
9.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
CN202010426286.5A 2020-05-19 2020-05-19 一种编码模型训练方法、装置、存储介质及电子设备 Active CN111881928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010426286.5A CN111881928B (zh) 2020-05-19 2020-05-19 一种编码模型训练方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010426286.5A CN111881928B (zh) 2020-05-19 2020-05-19 一种编码模型训练方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111881928A true CN111881928A (zh) 2020-11-03
CN111881928B CN111881928B (zh) 2022-07-29

Family

ID=73154353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010426286.5A Active CN111881928B (zh) 2020-05-19 2020-05-19 一种编码模型训练方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111881928B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040101191A1 (en) * 2002-11-15 2004-05-27 Michael Seul Analysis, secure access to, and transmission of array images
CN104008174A (zh) * 2014-06-04 2014-08-27 北京工业大学 一种海量图像检索的隐私保护索引生成方法
CN106649782A (zh) * 2016-12-28 2017-05-10 电子科技大学 一种图片检索方法和系统
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN110489585A (zh) * 2019-07-08 2019-11-22 南京邮电大学 基于监督学习的分布式图像搜索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040101191A1 (en) * 2002-11-15 2004-05-27 Michael Seul Analysis, secure access to, and transmission of array images
CN104008174A (zh) * 2014-06-04 2014-08-27 北京工业大学 一种海量图像检索的隐私保护索引生成方法
CN106649782A (zh) * 2016-12-28 2017-05-10 电子科技大学 一种图片检索方法和系统
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN110489585A (zh) * 2019-07-08 2019-11-22 南京邮电大学 基于监督学习的分布式图像搜索方法

Also Published As

Publication number Publication date
CN111881928B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111539502B (zh) 防伪二维码的生成方法、装置、服务器及存储介质
CN110674188A (zh) 一种特征提取方法、装置及设备
KR20210086849A (ko) 문서를 생성하기 위한 방법
CN111669366A (zh) 一种本地化差分隐私数据交换方法及存储介质
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN113032580B (zh) 关联档案推荐方法、系统及电子设备
CN113836128A (zh) 一种异常数据识别方法、系统、设备及存储介质
CN113792816B (zh) 数据编码方法、装置、计算机设备及存储介质
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN113708987A (zh) 网络异常检测方法及装置
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
CN111881928B (zh) 一种编码模型训练方法、装置、存储介质及电子设备
CN116521899B (zh) 一种基于改进的图神经网络的文档级关系抽取方法及系统
CN112804029A (zh) 基于ldpc码的bats码的传输方法、装置、设备及可读存储介质
CN111741009A (zh) 一种业务数据管理方法、系统、服务器及存储介质
CN115659942A (zh) 合同模板的生成、装置及设备
Standish Complexity of networks (reprise)
Cardona et al. The Comparison of Tree‐Sibling Time Consistent Phylogenetic Networks Is Graph Isomorphism‐Complete
CN114547310A (zh) 一种假新闻早期检测方法、系统、设备及介质
CN114913008A (zh) 基于决策树的债券价值分析方法、装置、设备及存储介质
CN113780467A (zh) 模型训练方法、装置、计算机设备及存储介质
CN114579744A (zh) 基于GraphSAGE的社交网络意见领袖挖掘方法
CN112346737A (zh) 编程语言翻译模型的训练方法、装置、设备及存储介质
CN112085104B (zh) 一种事件特征提取方法、装置、存储介质及电子设备
CN106326425B (zh) 数据分类处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310000 room 1408, building 2, Caizhi Shunfeng innovation center, No. 99, housheng street, Gongshu District, Hangzhou City, Zhejiang Province

Applicant after: HANGZHOU CHINAOLY TECHNOLOGY CO.,LTD.

Address before: 2 / F, building A04, 9 Jiusheng Road, Jianggan District, Hangzhou City, Zhejiang Province 310000

Applicant before: HANGZHOU CHINAOLY TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant