CN117708616A - 人员相似度计算方法、装置、电子设备和计算机存储介质 - Google Patents
人员相似度计算方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN117708616A CN117708616A CN202410160580.4A CN202410160580A CN117708616A CN 117708616 A CN117708616 A CN 117708616A CN 202410160580 A CN202410160580 A CN 202410160580A CN 117708616 A CN117708616 A CN 117708616A
- Authority
- CN
- China
- Prior art keywords
- identity information
- information set
- standard
- standardized
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000010276 construction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 42
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010411 cooking Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009958 sewing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种人员相似度计算方法、装置、电子设备和计算机存储介质。其中,方法包括:从预先建立的标准化身份信息集中查找第一标准化身份信息和第二标准化身份信息;标准化身份信息集通过下述方式构建得到:获取服刑人员的身份信息,根据身份信息构建身份信息集;对身份信息集进行结构化处理,得到结构化身份信息集;对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;计算第一标准化身份信息和第二标准化身份信息的向量距离;基于向量距离,确定第一目标人员和第二目标人员的相似度;通过重新设计向量距离计算公式,将数字型特征和文本型特征在一个向量计算公式中融合,减少了计算量,提高了用户体验。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种人员相似度计算方法、装置、电子设备和计算机存储介质。
背景技术
目前存在较多相似度计算方式,但大多方式都是将待比较的对象转换为纯数字向量后,利用各类向量距离公式计算出相似度算法。
但是,将文本指标转为数字化向量时,涉及到额外的计算,并且随着文本指标数量的增加,利用传统的文本转数量方式计算出来的纯数字向量内容庞杂,不利于后续计算和阅读,用户体验不佳。
发明内容
本发明的目的在于提供一种人员相似度计算方法、装置、电子设备和计算机存储介质,通过重新设计向量距离计算公式,将数字型特征和文本型特征在一个向量计算公式中融合,减少了计算量,提高了用户体验。
第一方面,本发明提供了一种人员相似度计算方法,包括:从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;标准化身份信息集通过下述方式构建得到:获取服刑人员的身份信息,根据身份信息构建身份信息集;其中,身份信息包括:数字型信息和文本型信息;对身份信息集进行结构化处理,得到结构化身份信息集;对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;计算第一标准化身份信息和第二标准化身份信息的向量距离;基于向量距离,确定第一目标人员和第二目标人员的相似度。
在本发明一些较佳的实施例中,对身份信息集进行结构化处理,得到结构化身份信息集的步骤包括:将服刑人员按列排序,并将数字型信息的类型和文本型信息的类型按行排序后与服刑人员对应,得到结构化身份信息集。
在本发明一些较佳的实施例中,通过下述公式对结构化身份信息集进行量纲统一化处理:;其中,为标准化身份信息集,/>为标准化身份信息集内的元素,/>为量纲统一化处理函数,/>为结构化身份信息集,/>为结构化身份信息集内的元素,/>为结构化身份信息集内第i个类型的身份信息的中位数,A为第一预设常数,B为第二预设常数。
在本发明一些较佳的实施例中,第一预设常数为5,第二预设常数为1。
在本发明一些较佳的实施例中,通过下述公式计算第一标准化身份信息和第二标准化身份信息的向量距离:;其中,/>为第一标准化身份信息,/>为第二标准化身份信息,/>为第一标准化身份信息内第i个类型的身份信息,/>为第二标准化身份信息内第i个类型的身份信息,/>为第一标准化身份信息和第二标准化身份信息的向量距离。
在本发明一些较佳的实施例中,通过下述公式确定第一目标人员和第二目标人员的相似度:;其中,/>为第一目标人员和第二目标人员的相似度,/>为第一标准化身份信息和第二标准化身份信息的向量距离。
第二方面,本发明提供了一种人员相似度计算装置,包括:身份信息确定模块,用于从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;标准化身份信息集构建模块,用于获取服刑人员的身份信息,根据身份信息构建身份信息集;其中,身份信息包括:数字型信息和文本型信息;对身份信息集进行结构化处理,得到结构化身份信息集;对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;向量距离确定模块,用于计算第一标准化身份信息和第二标准化身份信息的向量距离;相似度确定模块,用于基于向量距离,确定第一目标人员和第二目标人员的相似度。
在本发明一些较佳的实施例中,标准化身份信息集构建模块,用于将服刑人员按列排序,并将数字型信息的类型和文本型信息的类型按行排序后与服刑人员对应,得到结构化身份信息集。
第三方面,本发明提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述人员相似度计算方法。
第四方面,本发明提供了一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述人员相似度计算方法。
本发明带来了以下有益效果:
本发明提供了一种人员相似度计算方法、装置、电子设备和计算机存储介质,该方法包括:从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;标准化身份信息集通过下述方式构建得到:获取服刑人员的身份信息,根据身份信息构建身份信息集;其中,身份信息包括:数字型信息和文本型信息;对身份信息集进行结构化处理,得到结构化身份信息集;对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;计算第一标准化身份信息和第二标准化身份信息的向量距离;基于向量距离,确定第一目标人员和第二目标人员的相似度;通过重新设计向量距离计算公式,将数字型特征和文本型特征在一个向量计算公式中融合,减少了计算量,提高了用户体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人员相似度计算方法的流程图;
图2为本发明实施例提供的一种标准化身份信息集构建方法的流程图;
图3为本发明实施例提供的一种人员相似度计算装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
图标:310-身份信息确定模块;320-标准化身份信息集构建模块;330-向量距离确定模块;340-相似度确定模块;400-存储器;401-处理器;402-总线;403-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
目前存在较多相似度计算方式,但大多方式都是将待比较的对象转换为纯数字向量后,利用各类向量距离公式计算出相似度算法。
例如,罪犯1的特征:罪名_抢劫(文本型)、年龄_60岁(数值型)、擅长_烹饪(文本型);
罪犯2的特征:罪名_盗窃(文本型)、年龄_20岁(数值型)、擅长_计算机(文本型);
原有技术在比较罪犯1与罪犯2的特征时,需要先将文本型的特征转化为纯数字向量,具体步骤如下:
1.特征“罪名”是文本型,需要将该特征转为向量;假设罪名有10个,则罪犯1的特征为[1,0,0,0,0,0,0,0,0,0],罪犯2的特征为[0,1,0,0,0,0,0,0,0,0];
2.特征“年龄”是数值型,直接保留,则罪犯1的特征为[60],罪犯2的特征为[20];
3.特征“擅长”是文本型,需要将该特征转为向量;并且在转化特征向量的过程中,需要将多个罪犯的特征列举出来作为转化的标准向量,如:特征“擅长”的标准向量可能为:[烹饪、计算机、会计、电工、木工、缝纫、养殖、喷漆、钳工、修车];基于上述标准向量,罪犯1的特征为[1,0,0,0,0,0,0,0,0,0],罪犯2的特征为[0,1,0,0,0,0,0,0,0,0];
4.合并特征向量,得到罪犯1的特征是[1,0,0,0,0,0,0,0,0,0,60,1,0,0,0,0,0,0,0,0,0,],罪犯2的特征为[0,1,0,0,0,0,0,0,0,0,60,0,1,0,0,0,0,0,0,0,0,];
5,计算两个向量的距离公式,如欧式距离;
由上可知,将文本指标转为数字化向量时,涉及到额外的计算,并且随着文本指标数量的增加,利用传统的文本转数量方式计算出来的纯数字向量内容庞杂,不利于后续计算和阅读,用户体验不佳。
有鉴于此,本发明的目的在于提供一种人员相似度计算方法、装置、电子设备和计算机存储介质,通过重新设计向量距离计算公式,将数字型特征和文本型特征在一个向量计算公式中融合,减少了计算量,提高了用户体验。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例一
本发明实施例提供了一种人员相似度计算方法,参见图1所示的本发明实施例提供的一种人员相似度计算方法的流程图,该方法包括:
步骤S110,从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;
具体的,预先建立的标准化身份集包括了多个身份的信息,并且按照人员与信息对应的方式排列存储,在确定人员相似度的过程中,任意抽取两个目标人员的准化身份信息,准化身份信息包括对应人员的身份信息。
示例性的,目标人员的身份信息分别表示[姓名,年龄,身高,体重,罪名,擅长],将其中的数字型信息通过统一量纲转化,如,第一目标人员的年龄为60岁,预设基准年龄为40岁,通过统一量纲转化后,第一目标人员的年龄信息为1.5000;将数字型信息统一量纲后填入,将文本型信息直接填入,形成标准化身份信息;举例如:第一目标人员对应的第一标准化身份信息可以是[甲,1.5000,1.0588,1.1428,抢劫,烹饪],第二目标人员对应的第一标准化身份信息可以是[乙,0.5000,1.0000,1.0714,盗窃,计算机]。
需要强调的是,身份信息还包括多种信息,如:籍贯、民族、住址、疾病、是否五独、是否五涉、顽危等级等。
进一步的,参见图2所示的本发明实施例提供的一种标准化身份信息集构建方法的流程图,标准化身份信息集通过下述方式构建得到:
步骤S112,获取服刑人员的身份信息,根据身份信息构建身份信息集;其中,身份信息包括:数字型信息和文本型信息;
具体的,获取服刑人员的身份信息,身份信息包括基本信息、健康状况、涉案信息等;其中,基本信息包括身高、体重等信息、健康状况主要描述服刑人员的身体状况,涉案信息一般包括是否五独、是否五涉、顽危等级等。身份信息还可以分为数字型和文本型。
步骤S114,对身份信息集进行结构化处理,得到结构化身份信息集;
具体的,将服刑人员按列排序,并将数字型信息的类型和文本型信息的类型按行排序后与服刑人员对应,得到结构化身份信息集,参见表1所示的服刑人员结构化身份信息集:
表1
通过结构化处理,是信息更完备、公正,有利于后续处理。
步骤S116,对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;
具体的,可以确定基准身份信息,如[XX,40,1.70,70,盗窃,烹饪,无],也可以将其中某一个服刑人员的身份信息作为基准值,对结构化身份信息集进行统一化处理,对于数字型信息,将实际值和基准值的上作为结果,对于文本型信息,如果实际值与标准值相同就赋值1,如果不相同就赋值-1,示例性的,以基准信息为标准,对应表1确定的标准化身份信息集如表2所示:
表2
本发明实施例提供了一种标准化处理方法,不需要将相同类型的文本型信息穷举列出,减少了文本转化的计算量,节约了存储空间。
本发明实施例提供了一种标准化身份信息集构建方法,减少了身份信息转化的计算量,节约了存储空间。
步骤S120,计算第一标准化身份信息和第二标准化身份信息的向量距离;
具体的,计算向量距离的公式有很多,比如欧式距离、余弦距离、曼哈顿距离、切比雪夫距离等。
步骤S130,基于向量距离,确定第一目标人员和第二目标人员的相似度;
具体的,相似计算方式很有多,各类距离公式均可以对纯数字型向量进行计算。
本发明提供了一种人员相似度计算方法,包括:从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;标准化身份信息集通过下述方式构建得到:获取服刑人员的身份信息,根据身份信息构建身份信息集;其中,身份信息包括:数字型信息和文本型信息;对身份信息集进行结构化处理,得到结构化身份信息集;对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;计算第一标准化身份信息和第二标准化身份信息的向量距离;基于向量距离,确定第一目标人员和第二目标人员的相似度;通过重新设计向量距离计算公式,将数字型特征和文本型特征在一个向量计算公式中融合,减少了计算量,提高了用户体验。
实施例二
在上述实施例的基础上,本发明实施例提供了另一种人员相似度计算方法,对上述实施例中相关步骤做了一步说明。
在本发明一些较佳的实施例中,通过下述公式对结构化身份信息集进行量纲统一化处理:;其中,为标准化身份信息集,/>为标准化身份信息集内的元素,/>为量纲统一化处理函数,/>为结构化身份信息集,/>为结构化身份信息集内的元素,/>为结构化身份信息集内第i个类型的身份信息的中位数,A为第一预设常数,B为第二预设常数。
在本发明一些较佳的实施例中,第一预设常数为5,第二预设常数为1。示例性的,表1中,年龄中位数为30,身高中位数为1.75,体重中位数为75,通过上述公式得到的标准化身份信息集如表3所示:
表3
上述量纲统一化处理只是对数字型信息进行了处理,对文本型信息做了完整的保留,也就是说,在要求一定程度保密的条件下,本实施例提供的人员相似度计算方法,由于不需要像现有技术一样将文本型信型列举出来以确定标准向量,因此可以在不提前知晓文本型信息的基础上进行相似度计算,可以达到保密要求;进一步的,也可以兼容一些未知的文本型特征。
进一步的,在本发明一些较佳的实施例中,通过下述公式计算第一标准化身份信息和第二标准化身份信息的向量距离:;其中,/>为第一标准化身份信息,/>为第二标准化身份信息,/>为第一标准化身份信息内第i个类型的身份信息,/>为第二标准化身份信息内第i个类型的身份信息,/>为第一标准化身份信息和第二标准化身份信息的向量距离。
在本发明一些较佳的实施例中,通过下述公式确定第一目标人员和第二目标人员的相似度:;其中,/>为第一目标人员和第二目标人员的相似度,/>为第一标准化身份信息和第二标准化身份信息的向量距离。
在本发明一些较佳的实施例中,将计算得到的多个相似度进行排序。
本发明提供了一种人员相似度计算方法,采用兼容文本型与数值型的计算公式,在保留文本的情况下,不将文本转为数字直接涵盖文本与数字的计算相似度,减少了计算量,提高了用户体验。
实施例三
在上述实施例的基础上,本发明实施例提供了一种人员相似度计算装置,参见图3所示的本发明实施例提供的一种人员相似度计算装置的结构示意图,该人员相似度计算装置包括:
身份信息确定模块310,用于从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;
标准化身份信息集构建模块320,用于获取服刑人员的身份信息,根据身份信息构建身份信息集;其中,身份信息包括:数字型信息和文本型信息;对身份信息集进行结构化处理,得到结构化身份信息集;对结构化身份信息集进行量纲统一化处理得到标准化身份信息集;
向量距离确定模块330,用于计算第一标准化身份信息和第二标准化身份信息的向量距离;
相似度确定模块340,用于基于向量距离,确定第一目标人员和第二目标人员的相似度。
在本发明一些较佳的实施例中,标准化身份信息集构建模块320,用于将服刑人员按列排序,并将数字型信息的类型和文本型信息的类型按行排序后与服刑人员对应,得到结构化身份信息集。
在本发明一些较佳的实施例中,标准化身份信息集构建模块320,用于通过下述公式对结构化身份信息集进行量纲统一化处理:;其中,/>为标准化身份信息集,/>为标准化身份信息集内的元素,/>为量纲统一化处理函数,/>为结构化身份信息集,/>为结构化身份信息集内的元素,/>为结构化身份信息集内第i个类型的身份信息的中位数,A为第一预设常数,B为第二预设常数。
在本发明一些较佳的实施例中,第一预设常数为5,第二预设常数为1。
在本发明一些较佳的实施例中,向量距离确定模块330,用于通过下述公式计算第一标准化身份信息和第二标准化身份信息的向量距离:;其中,/>为第一标准化身份信息,/>为第二标准化身份信息,/>为第一标准化身份信息内第i个类型的身份信息,/>为第二标准化身份信息内第i个类型的身份信息,/>为第一标准化身份信息和第二标准化身份信息的向量距离。
在本发明一些较佳的实施例中,相似度确定模块340,用于通过下述公式确定第一目标人员和第二目标人员的相似度:;其中,/>为第一目标人员和第二目标人员的相似度,/>为第一标准化身份信息和第二标准化身份信息的向量距离。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的人员相似度计算装置的具体工作过程,可以参考前述的人员相似度计算方法的实施例中的对应过程,在此不再赘述。
实施例四
本发明实施例还提供了一种电子设备,用于运行人员相似度计算方法;参见图4所示的本发明实施例提供的一种电子设备的结构示意图,该电子设备包括存储器400和处理器401,其中,存储器400用于存储一条或多条计算机指令,一条或多条计算机指令被处理器401执行,以实现上述人员相似度计算方法。
进一步地,图4所示的电子设备还包括总线402和通信接口403,处理器401、通信接口403和存储器400通过总线402连接。
其中,存储器400可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器400,处理器401读取存储器400中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机存储介质,该计算机存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述业务推荐方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的人员相似度计算方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种人员相似度计算方法,其特征在于,包括:
从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;
所述标准化身份信息集通过下述方式构建得到:
获取服刑人员的身份信息,根据所述身份信息构建身份信息集;其中,所述身份信息包括:数字型信息和文本型信息;对所述身份信息集进行结构化处理,得到结构化身份信息集;对所述结构化身份信息集进行量纲统一化处理得到标准化身份信息集;
计算所述第一标准化身份信息和所述第二标准化身份信息的向量距离;
基于所述向量距离,确定所述第一目标人员和所述第二目标人员的相似度。
2.根据权利要求1所述的人员相似度计算方法,其特征在于,所述对所述身份信息集进行结构化处理,得到结构化身份信息集的步骤包括:
将所述服刑人员按列排序,并将所述数字型信息的类型和所述文本型信息的类型按行排序后与所述服刑人员对应,得到结构化身份信息集。
3.根据权利要求1所述的人员相似度计算方法,其特征在于,通过下述公式对所述结构化身份信息集进行量纲统一化处理:
;
其中,为所述标准化身份信息集,/>为所述标准化身份信息集内的元素,/>为量纲统一化处理函数,/>为所述结构化身份信息集,/>为所述结构化身份信息集内的元素,为所述结构化身份信息集内第i个类型的身份信息的中位数,A为第一预设常数,B为第二预设常数。
4.根据权利要求3所述的人员相似度计算方法,其特征在于,所述第一预设常数为5,所述第二预设常数为1。
5.根据权利要求1所述的人员相似度计算方法,其特征在于,通过下述公式计算所述第一标准化身份信息和所述第二标准化身份信息的向量距离:
;
其中,为所述第一标准化身份信息,/>为所述第二标准化身份信息,/>为所述第一标准化身份信息内第i个类型的身份信息,/>为所述第二标准化身份信息内第i个类型的身份信息,/>为所述第一标准化身份信息和所述第二标准化身份信息的向量距离。
6.根据权利要求5所述的人员相似度计算方法,其特征在于,通过下述公式确定所述第一目标人员和所述第二目标人员的相似度:
;
其中,为所述第一目标人员和所述第二目标人员的相似度,/>为所述第一标准化身份信息和所述第二标准化身份信息的向量距离。
7.一种人员相似度计算装置,其特征在于,包括:
身份信息确定模块,用于从预先建立的标准化身份信息集中查找第一目标人员对应的第一标准化身份信息和第二目标人员对应的第二标准化身份信息;
标准化身份信息集构建模块,用于获取服刑人员的身份信息,根据所述身份信息构建身份信息集;其中,所述身份信息包括:数字型信息和文本型信息;对所述身份信息集进行结构化处理,得到结构化身份信息集;对所述结构化身份信息集进行量纲统一化处理得到标准化身份信息集;
向量距离确定模块,用于计算所述第一标准化身份信息和所述第二标准化身份信息的向量距离;
相似度确定模块,用于基于所述向量距离,确定所述第一目标人员和所述第二目标人员的相似度。
8.根据权利要求7所述的人员相似度计算装置,其特征在于,标准化身份信息集构建模块,用于将所述服刑人员按列排序,并将所述数字型信息的类型和所述文本型信息的类型按行排序后与所述服刑人员对应,得到结构化身份信息集。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至6任一项所述的人员相似度计算方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至6任一项所述的人员相似度计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160580.4A CN117708616B (zh) | 2024-02-05 | 2024-02-05 | 人员相似度计算方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160580.4A CN117708616B (zh) | 2024-02-05 | 2024-02-05 | 人员相似度计算方法、装置、电子设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708616A true CN117708616A (zh) | 2024-03-15 |
CN117708616B CN117708616B (zh) | 2024-05-24 |
Family
ID=90151940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410160580.4A Active CN117708616B (zh) | 2024-02-05 | 2024-02-05 | 人员相似度计算方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708616B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280952A1 (en) * | 2013-03-15 | 2014-09-18 | Advanced Elemental Technologies | Purposeful computing |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN114298081A (zh) * | 2021-09-29 | 2022-04-08 | 浙江大华技术股份有限公司 | 目标行为的身份识别方法、装置、电子设备和存储介质 |
CN114691868A (zh) * | 2022-03-16 | 2022-07-01 | 中国工商银行股份有限公司 | 文本聚类方法、装置及电子设备 |
CN115169342A (zh) * | 2022-07-13 | 2022-10-11 | 珠海格力电器股份有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN115392961A (zh) * | 2022-08-18 | 2022-11-25 | 百威投资(中国)有限公司 | 一种线下商户信息的匹配方法、设备及存储介质 |
CN115470344A (zh) * | 2022-08-24 | 2022-12-13 | 西南财经大学 | 一种基于文本聚类的视频弹幕与评论主题融合的方法 |
CN115798003A (zh) * | 2022-11-25 | 2023-03-14 | 山东产研鲲云人工智能研究院有限公司 | 身份核对方法、设备及存储介质 |
CN116010916A (zh) * | 2023-01-13 | 2023-04-25 | 北京海致星图科技有限公司 | 用户身份信息识别方法、装置、电子设备及存储介质 |
CN116452381A (zh) * | 2023-03-09 | 2023-07-18 | 中国戏曲学院 | 学籍信息识别方法、装置及电子设备 |
CN117150309A (zh) * | 2023-07-27 | 2023-12-01 | 三一集团有限公司 | 相似物料的识别方法、装置及电子设备 |
US20230409896A1 (en) * | 2022-06-10 | 2023-12-21 | Idemia Identity & Security USA LLC | Method and system for training matting neural network, and method and device for generating portrait to be used on identity document |
-
2024
- 2024-02-05 CN CN202410160580.4A patent/CN117708616B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280952A1 (en) * | 2013-03-15 | 2014-09-18 | Advanced Elemental Technologies | Purposeful computing |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN114298081A (zh) * | 2021-09-29 | 2022-04-08 | 浙江大华技术股份有限公司 | 目标行为的身份识别方法、装置、电子设备和存储介质 |
CN114691868A (zh) * | 2022-03-16 | 2022-07-01 | 中国工商银行股份有限公司 | 文本聚类方法、装置及电子设备 |
US20230409896A1 (en) * | 2022-06-10 | 2023-12-21 | Idemia Identity & Security USA LLC | Method and system for training matting neural network, and method and device for generating portrait to be used on identity document |
CN115169342A (zh) * | 2022-07-13 | 2022-10-11 | 珠海格力电器股份有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN115392961A (zh) * | 2022-08-18 | 2022-11-25 | 百威投资(中国)有限公司 | 一种线下商户信息的匹配方法、设备及存储介质 |
CN115470344A (zh) * | 2022-08-24 | 2022-12-13 | 西南财经大学 | 一种基于文本聚类的视频弹幕与评论主题融合的方法 |
CN115798003A (zh) * | 2022-11-25 | 2023-03-14 | 山东产研鲲云人工智能研究院有限公司 | 身份核对方法、设备及存储介质 |
CN116010916A (zh) * | 2023-01-13 | 2023-04-25 | 北京海致星图科技有限公司 | 用户身份信息识别方法、装置、电子设备及存储介质 |
CN116452381A (zh) * | 2023-03-09 | 2023-07-18 | 中国戏曲学院 | 学籍信息识别方法、装置及电子设备 |
CN117150309A (zh) * | 2023-07-27 | 2023-12-01 | 三一集团有限公司 | 相似物料的识别方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
OMID SHAHMIRZADI等: "Text Similarity in Vector Space Models: A Comparative Study", 2019 18TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA), 17 February 2020 (2020-02-17), pages 659 - 666 * |
赵琪: "基于深度学习的文本语义相似度研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 March 2022 (2022-03-15), pages 138 - 2976 * |
马东什么: "一些文本相似度/距离的综述", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/436941411?utm_id=0> * |
Also Published As
Publication number | Publication date |
---|---|
CN117708616B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979426B2 (en) | Clustering-based interest computation | |
CN108090068B (zh) | 医院数据库中的表的分类方法及装置 | |
US20220414131A1 (en) | Text search method, device, server, and storage medium | |
CN111159413A (zh) | 日志聚类方法、装置、设备及存储介质 | |
CN110727787A (zh) | 案件文本匹配方法、装置、电子设备和存储介质 | |
US20180032579A1 (en) | Non-transitory computer-readable recording medium, data search method, and data search device | |
Erpolat Taşabat | A Novel Multicriteria Decision‐Making Method Based on Distance, Similarity, and Correlation: DSC TOPSIS | |
US9223804B2 (en) | Determining capacity of search structures | |
CN111783805A (zh) | 图像检索方法及装置、电子设备、可读存储介质 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
EP3681121B1 (en) | Domain name recognition method and domain name recognition device | |
Kaur et al. | Fuzzy clustering‐based image segmentation techniques used to segment magnetic resonance imaging/computed tomography scan brain tissues: Comparative analysis | |
CN112148880A (zh) | 一种客服对话语料聚类方法、系统、设备及存储介质 | |
CN107305615B (zh) | 数据表识别方法和系统 | |
CN111783830A (zh) | 基于oct的视网膜分类方法、装置、计算机设备及存储介质 | |
CN117708616A (zh) | 人员相似度计算方法、装置、电子设备和计算机存储介质 | |
CN117315730A (zh) | 基于掌静脉的用户识别方法、系统、计算机及存储介质 | |
CN112396048A (zh) | 图片信息提取方法、装置、计算机设备及存储介质 | |
CN116189090A (zh) | 金融场景合法性校验方法及装置 | |
CN113781180B (zh) | 一种物品推荐方法、装置、电子设备及存储介质 | |
CN113449102A (zh) | 文本聚类方法、设备及存储介质 | |
CN114579762B (zh) | 知识图谱对齐方法、装置、设备、存储介质及程序产品 | |
Huang et al. | Salient object detection based on background feature clustering | |
CN115272253B (zh) | 一种前哨淋巴结图像分析的方法、装置及存储介质 | |
CN111654472B (zh) | 一种域名检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |