CN111461186A - 数据相似度的处理方法、装置、存储介质和计算机设备 - Google Patents

数据相似度的处理方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN111461186A
CN111461186A CN202010200760.2A CN202010200760A CN111461186A CN 111461186 A CN111461186 A CN 111461186A CN 202010200760 A CN202010200760 A CN 202010200760A CN 111461186 A CN111461186 A CN 111461186A
Authority
CN
China
Prior art keywords
service
business
data
elements
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010200760.2A
Other languages
English (en)
Other versions
CN111461186B (zh
Inventor
刘一平
邓力
王凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010200760.2A priority Critical patent/CN111461186B/zh
Publication of CN111461186A publication Critical patent/CN111461186A/zh
Application granted granted Critical
Publication of CN111461186B publication Critical patent/CN111461186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063112Skill-based matching of a person or a group to a task

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种数据相似度的处理方法、装置、存储介质和计算机设备。该方法包括:获取多个业务人员的业务技能数据;计算出不同的业务人员的业务技能数据之间的最小编辑距离;根据所述最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。本说明书实施例中通过业务技能数据计算出的相似度可作为分配依据进行业务分配以及分组,提高了分配的准确性和公平性,从而提高了业务处理的效率。

Description

数据相似度的处理方法、装置、存储介质和计算机设备
【技术领域】
本说明书实施例涉及数据处理技术领域,特别涉及一种数据相似度的处理方法、装置、存储介质和计算机设备。
【背景技术】
目前,在一个业务团队中,每个业务人员可处理不同业务类型的业务,且每个业务人员均具备各自的业务技能特长。现有技术中,在为业务团队中的业务人员分配业务时,通常是由管理人员人工进行分配或者由业务人员自己申请。上述业务分配方式为人工分配方式,未考虑到业务人员自身的业务技能特长,分配方式过于简单和暴力。此外,在对业务人员进行分组时,也是通过人工分配的方式进行分组,分配方式同样过于简单和暴力。
在业务数量快速增长且业务人员人数不断扩大的背景下,这种人工分配方式,会导致分配的准确度和公平性降低,降低了业务处理的效率。
【发明内容】
有鉴于此,本说明书实施例提供了一种数据相似度的处理方法、装置、存储介质和计算机设备,用于提高分配的准确性和公平性,从而提高了业务处理的效率。
一方面,本说明书实施例提供了一种数据相似度的处理方法,包括:
获取多个业务人员的业务技能数据;
计算出不同的业务人员的业务技能数据之间的最小编辑距离;
根据所述最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。
可选地,所述获取不同业务人员的业务技能数据包括:
采集每个所述业务人员的历史业务数据;
根据每个业务人员的历史业务数据,按照预先设置的节点排列顺序生成每个业务人员的树形数据结构;
按照所述节点排列顺序,通过深度搜索算法将所述树形数据结构转换为所述业务技能数据,所述业务技能数据包括字符串,所述树形数据结构的每个节点对应于所述字符串中的一个子串。
可选地,所述业务技能数据包括业务类型以及每个所述业务类型的业务子类型;
所述树形数据结构包括根节点、与所述根节点对应的至少一个第一子节点以及与每个所述第一子节点对应的至少一个第二子节点,其中,所述第二子节点为所述第一子节点的子节点;
所述第一子节点用于存储所述业务类型,所述第二子节点用于存储所述业务子类型。
可选地,所述计算出不同的业务人员的业务技能数据之间的最小编辑距离包括:
根据不同业务人员的业务技能数据的字符串建立矩阵,所述矩阵的第一行元素包括一个业务人员的业务技能数据的字符串的子串,所述矩阵的第一列元素包括另一个业务人员的业务技能数据的字符串的子串;
计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离;
将所述矩阵中最后一行最后一列元素的编辑距离作为所述最小编辑距离。
可选地,所述计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离,包括:
根据获取的第一列元素中子串对应的业务权重以及第一列元素中子串对应的业务技能值,计算出第二列元素的编辑距离;
根据获取的第一行元素中子串对应的业务权重以及第一行元素中子串对应的业务技能值,计算出第二行元素的编辑距离;
根据获取的第一列元素中子串对应的业务权重、第一行元素中子串对应的业务权重、所述第一列元素的编辑距离和所述第二行元素的编辑距离,计算出第一行元素、第一列元素、第二行元素以及第二列元素之外的其余元素的编辑距离。
可选地,所述根据所述最小编辑距离,计算出不同的业务技能数据之间的相似度包括:
通过预先设置的相似度公式对最小编辑距离进行计算,生成所述相似度;
其中,在所述相似度公式中所述最小编辑距离和所述相似度负相关。
可选地,所述根据所述最小编辑距离,计算出不同的业务技能数据之间的相似度之后,还包括:
根据所述相似度,对不同的业务人员进行分组。
另一方面,本说明书实施例提供了一种数据相似度的处理装置,包括:
获取模块,用于获取多个业务人员的业务技能数据;
第一计算模块,用于计算出不同的业务人员的业务技能数据之间的最小编辑距离;
第二计算模块,用于根据所述最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。
可选地,所述获取模块包括:
采集子模块,用于采集每个所述业务人员的历史业务数据;
生成子模块,用于根据每个业务人员的历史业务数据,按照预先设置的节点排列顺序生成每个业务人员的树形数据结构;
转换子模块,用于按照所述节点排列顺序,通过深度搜索算法将所述树形数据结构转换为所述业务技能数据,所述业务技能数据包括字符串,所述树形数据结构的每个节点对应于所述字符串中的一个子串。
可选地,所述第一计算模块包括:
建立子模块,用于根据不同业务人员的业务技能数据的字符串建立矩阵,所述矩阵的第一行元素包括一个业务人员的业务技能数据的字符串的子串,所述矩阵的第一列元素包括另一个业务人员的业务技能数据的字符串的子串;
计算子模块,用于通过预先构建的编辑距离公式,计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离,所述编辑距离公式根据预先设置的业务权重构建;
确定子模块,用于将所述矩阵中最后一行最后一列元素的编辑距离作为所述最小编辑距离。
可选地,所述第二计算模块具体用于通过预先设置的相似度公式对最小编辑距离进行计算,生成所述相似度;
其中,在所述相似度公式中所述最小编辑距离和所述相似度负相关。
可选地,还包括:
分组模块,用于根据所述相似度,对不同的业务人员进行分组。
另一方面、本说明书提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述数据相似度的处理方法。
另一方面、本说明书提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现上述数据相似度的处理方法的步骤。
本说明书实施例提供的技术方案中,获取多个业务人员的业务技能数据,计算出不同的业务人员的业务技能数据之间的最小编辑距离,根据最小编辑距离计算出不同的业务人员的业务技能数据之间的相似度,本说明书实施例中通过业务技能数据计算出的相似度可作为分配依据进行业务分配以及分组,提高了分配的准确性和公平性,从而提高了业务处理的效率。
【附图说明】
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书一实施例提供的一种数据相似度的处理方法的流程图;
图2为本说明书实施例中获取业务技能数据的流程图;
图3为本说明书实施例中业务人员的树形数据结构的一种示意图;
图4为本说明书实施例中业务人员的树形数据结构的另一种示意图;
图5本说明书实施例中计算最小编辑距离的流程图;
图6为本说明书一实施例提供的一种数据相似度的处理装置的结构示意图;
图7是本说明书实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本说明书的技术方案,下面结合附图对本说明书实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本说明书一实施例提供的一种数据相似度的处理方法的流程图,如图1所示,该方法包括:
步骤101、获取多个业务人员的业务技能数据。
步骤102、计算出不同的业务人员的业务技能数据之间的最小编辑距离。
步骤103、根据最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。
本说明书实施例中,以一个业务团队为例进行描述。一个业务团队包括多个业务人员,业务团队可处理不同业务类型的业务,因此每个业务人员具备处理至少一种类型业务的业务技能。例如:对于银行的业务团队来说,每个业务人员可处理业务的业务类型可包括:贷款、转账、办卡、缴费等,其中,贷款可包括对公贷款、房贷、车贷,转账可包括同行转账、跨行转账,办卡可包括办理储蓄卡、办理信用卡,缴费包括代收水费、代收电费、代收燃气费、代收电话费、代收交通罚款。
图2为本说明书实施例中获取业务技能数据的流程图,如图2所示,步骤101具体可包括:
步骤1011、采集每个业务人员的历史业务数据。
本说明书实施例中,历史业务数据可包括业务人员在一定时间段内处理业务的业务数据,历史业务数据可包括贷款业务数据、转账业务数据、办卡业务数据、缴费业务数据。
本说明书实施例中,以业务人员张三和业务人员李四为例进行描述。
采集的张三的历史业务数据包括贷款业务数据、转账业务数据和缴费业务数据,其中,贷款业务数据包括对公贷款数据、房贷数据、车贷数据,转账业务数据包括跨行转账数据,缴费业务数据包括代收水费数据、代收电费数据。
采集的李四的历史业务数据包括贷款业务数据、转账业务数据和缴费业务数据,其中,贷款业务数据包括对公贷款数据、房贷数据,转账业务数据包括跨行转账数据,缴费业务数据包括代收水费数据、代收电费数据、代收交通罚款数据。
步骤1012、根据每个业务人员的历史业务数据,按照预先设置的节点排列顺序生成每个业务人员的树形数据结构。
作为一种可选方案,历史业务数据中包括业务类型,则步骤1012具体包括:从历史业务数据中提取出业务类型;按照预先设置的节点排列顺序,根据提取出的业务类型生成每个业务人员的树形数据结构。
例如:贷款业务数据中包括的业务类型为贷款,则提取出的业务类型为贷款。
本说明书实施例中,根据业务类型生成的该树形数据结构包括根节点、与根节点对应的至少一个第一子节点以及与每个第一子节点对应的至少一个第二子节点,其中,第一子节点为根节点的子节点,第二子节点为第一子节点的子节点,第一子节点用于存储业务类型,第二子节点用于存储业务子类型。
图3为本说明书实施例中业务人员的树形数据结构的一种示意图,如图3所示,图3中示出了张三的树形数据结构,张三的树形数据结构包括根节点root、三个第一子节点和六个第二子节点。其中,三个第一子节点分别用于存储贷款、转账和缴费,贷款采用字符“str”表示,转账采用字符“edd”表示,缴费采用字符“qa”表示;存储贷款的第一子节点对应于三个第二子节点,三个第二子节点分别用于存储对公贷款、房贷、车贷,对公贷款采用字符“1001”表示,房贷采用字符“1002”表示,车贷采用字符“1003”表示;存储转账的第一子节点对应于一个第二子节点,该第二子节点用于存储跨行转账,跨行转账采用字符“2001”表示;存储缴费的第一子节点对应于二个第二子节点,该二个第二子节点分别用于存储代收水费、代收电费,代收水费采用字符“3001”表示,代收电费采用字符“3002”表示。
图4为本说明书实施例中业务人员的树形数据结构的另一种示意图,如图4所示,图4中示出了李四的树形数据结构,李四的树形数据结构包括根节点root、三个第一子节点和六个第二子节点。其中,三个第一子节点分别用于存储贷款、转账和缴费,贷款采用字符“str”表示,转账采用字符“edd”表示,缴费采用字符“qa”表示;存储贷款的第一子节点对应于二个第二子节点,二个第二子节点分别用于存储对公贷款、房贷,对公贷款采用字符“1001”表示,房贷采用字符“1002”表示;存储转账的第一子节点对应于一个第二子节点,该第二子节点用于存储跨行转账,跨行转账采用字符“2001”表示;存储缴费的第一子节点对应于三个第二子节点,该三个第二子节点分别用于存储代收水费、代收电费、代收交通罚款,代收水费采用字符“3001”表示,代收电费采用字符“3002”表示,代收交通罚款采用字符“3003”表示。
如图3和图4所示,例如:预先设置的节点排列顺序中,第一子节点的节点排列顺序包括贷款--转账--缴费,第二子节点的节点排列顺序包括对公贷款--房贷—车贷、跨行转账、代收水费--代收电费--代收交通罚款。
本步骤中,按照节点排列顺序生成的树形数据结构,便于后续步骤中对树形数据结构的转换。
步骤1013、按照节点排列顺序,通过深度搜索算法将树形数据结构转换为业务技能数据,业务技能数据包括字符串,树形数据结构中的每个节点对应于字符串中的一个子串。
本说明书实施例中,业务技能数据包括业务类型以及每个业务类型的业务子类型。
如图3所示,通过深度搜索算法将张三的树形数据结构转换为业务技能数据,张三的业务技能数据的字符串包括:root-str-1001-1002-1003-edd-2001-qa-3001-3002,张三的业务技能数据的字符串包括依次排列的10个子串。其中,str、edd和qa为业务类型,1001、1002和1003为str的业务子类型;2001为edd的的业务子类型;3001和3002为qa的业务子类型。
如图4所示,通过深度搜索算法将李四的树形数据结构转换为业务技能数据,李四的业务技能数据的字符串包括:root-str-1001-1002-edd-2001-qa-3001-3002-3003,李四的业务技能数据的字符串包括依次排列的10个子串。其中,str、edd和qa为业务类型,1001和1002为str的业务子类型;2001为edd的的业务子类型;3001、3002和3003为qa的业务子类型。
本说明书实施例中,按照节点排列顺序通过深度搜索算法对树形数据结构进行有效的转换,转换成的业务技能数据的字符串便于后续进行最小编辑距离和相似度的计算。
图5本说明书实施例中计算最小编辑距离的流程图,如图5所示,步骤102具体可包括:
步骤1021、根据不同业务人员的业务技能数据的字符串建立矩阵,该矩阵的第一行元素包括一个业务人员的业务技能数据的字符串的子串,该矩阵的第一列元素包括另一个业务人员的业务技能数据的字符串的子串。
例如:可根据张三的字符串root-str-1001-1002-1003-edd-2001-qa-3001-3002和李四的字符串root-str-1001-1002-edd-2001-qa-3001-3002-3003建立矩阵,建立的矩阵如下表1所示:
表1
0 root str 1001 1002 1003 edd 2001 qa 3001 3002
0 0
root
str
1001
1002
edd
2001
qa
3001
3002
3003
如上表1所示,第一行元素包括张三的业务技能数据的字符串的子串,第一列元素包括李四的业务技能数据的字符串的子串。在表1的矩阵中,第一行元素和第一列元素之外的其余元素为空。
步骤1022、计算出矩阵中第一行元素和第一列元素之外的其余元素,其余元素包括不同长度的子串之间的编辑距离。
作为一种可选方案,编辑距离公式根据预先设置的业务权重构建。
本步骤具体可包括:
根据获取的第一列元素中子串对应的业务权重以及第一列元素中子串对应的业务技能值,计算出第二列元素的编辑距离,具体的计算过程可通过下述编辑距离公式中的公式(2)实现;
根据获取的第一行元素中子串对应的业务权重以及第一行元素中子串对应的业务技能值,计算出第二行元素的编辑距离,具体的计算过程可通过下述编辑距离公式中的公式(3)实现;
根据获取的第一列元素中子串对应的业务权重、第一行元素中子串对应的业务权重、所述第一列元素的编辑距离和所述第二行元素的编辑距离,计算出第一行元素、第一列元素、第二行元素以及第二列元素之外的其余元素的编辑距离,具体的计算过程可通过下述编辑距离公式中的公式(4)实现;
作为一种可选方案,编辑距离公式可包括:
If i=0且j=0时,edit(i,j)=0 (1)
if i=0且j>0时,edit(i,j)=∑αj*weightαj (2)
if i>0且j=0时,edit(i,j)=∑βi*weightβi (3)
if i≥1且j≥1时,edit(i,j)==min{edit(i-1,j)+weightβi,edit(i,j-1)+weightαj,edit(i-1,j-1)+f(i,j)} (4)
其中,i为第一行元素中子串的长度,j为第一列元素中子串的长度,edit(i,j)为长度为i的子串和长度为j的子串之间的编辑距离。
在公式(2)中,αj为第一列元素中第j个子串对应的业务技能值,weightαj为第一列元素中第j个子串对应的业务权重。
在公式(3)中,βi为第一行元素中第i个子串对应的业务技能值,weightβi为第一行元素中第i个子串对应的业务权重。
在公式(4)中,当第i个子串与第j个子串不同时,f(i,j)=weightαj+weightβi;当第i个子串与第j个子串相同时,f(i,j)=0。
本说明书实施例中,可预先设置业务技能值,该业务技能值可以为子串对应的初始值。具体地,可根据业务技能数据中每个子串的技能分数设置该子串对应的业务技能值,子串的技能分数越高,则对应的业务技能值越大。可将子串对应的业务技能值设置为技能分数对应的数值或者将子串的技能分数设置为业务技能值。其中,技能分数表示业务人员对子串对应的业务类型的熟练程度。本说明书实施例中,可根据业务人员处理该业务类型的数量、质量和效率等因素对业务人员处理该子串对应的业务类型的业务的能力进行打分以得出技能分数。例如:业务人员处理子串str对应的贷款这一业务类型的业务的技能分数较高,则子串str对应的业务技能值也较大。特别地,子串root对应的业务技能值可设置为一个较小的值。
本说明书实施例中,可根据子串对应的业务类型的业务的数量和/或重要性设置该子串对应的业务权重。业务的数量越大和/或重要性越高,业务权重就越大。例如:子串str对应的贷款这一业务类型的业务的数量较大且重要性较高,则子串str对应的业务权重也较大。特别地,子串root对应的业务权重可设置为一个较小的值。
例如:第一行元素中,长度为1的子串为root,长度为2的子串为root-str,以此类推;第一列元素中,长度为1的子串为root,长度为2的子串为root-str,以此类推。如上表1所示,通过公式(1)计算出的编辑距离为0。
表2示出了计算出的编辑距离,如下表2所示:
表2
0 root str 1001 1002 1003 edd 2001 qa 3001 3002
0 0 1 2
root 1
str 2
1001
1002
edd
2001
qa
3001
3002
3003 3
通过公式(2):edit(0,1)=∑α1*weightα1=α1*weightα1可计算出第一列元素中长度为1的子串root与第一行元素中字符0之间的编辑距离,例如:上表2中该编辑距离为1;edit(0,2)=∑α2*weightα2=α1*weightα12*weightα2可计算出第一列元素中长度为2的子串root-str与第一行元素中字符0之间的编辑距离,例如:上表2中该编辑距离为2;以此类推。
通过公式(3):edit(1,0)=∑β1*weightβ1=β1*weightβ1可计算出第一行元素中长度为1的子串root与第一列元素中字符0之间的编辑距离,例如:上表2中该编辑距离为1;edit(2,0)=∑β2*weightβ2=β1*weightβ12*weightβ2可计算出第一行元素中长度为2的子串root-str与第一列元素中字符0之间的编辑距离,例如:上表2中该编辑距离为2;以此类推。
通过公式(4):edit(10,10)==min{edit(9,10)+weightβ10,edit(10,9)+weightα10,edit(9,9)+f(10,10)}可计算出第一行元素中长度为10的子串root-str-1001-1002-1003-edd-2001-qa-3001-3002与第一列元素中长度为10的子串root-str-1001-1002-edd-2001-qa-3001-3002-3003之间的编辑距离。其中,由于第一行元素中第10个子串为3002,第一列元素中第10个子串为3003,二者不同,因此,f(10,10)=weightα10+weightβ10。例如:上表2中该编辑距离为3。
需要说明的是:通过上述公式(2)、(3)和(4)可计算出所有其余元素不同长度的子串之间的编辑距离,表2中仅示出了部分编辑距离,此处不再一一列举。
步骤1023、将矩阵中最后一行最后一列元素的编辑距离作为最小编辑距离。
本步骤中计算出的最小编辑距离为张三的业务技能数据与李四的业务技能数据之间的最小编辑距离。
如表2所示,将矩阵中右下角的元素的编辑距离作为最小编辑距离。例如:如表2所示,最小编辑距离为3。
本说明书实施例中,步骤103具体包括:通过预先设置的相似度公式对最小编辑距离进行计算,生成相似度,其中,在所述相似度公式中所述最小编辑距离和所述相似度负相关。
本说明书实施例中相似度公式可采用如下三种方案实现:
第一种方案,相似度公式包括:gamma=1/(d+1),其中,gamma为相似度,d为最小编辑距离。例如:若d=3时,gamma=1/(d+1)=1/(3+1)=0.25。
第二种方案,相似度公式包括:gamma=1/(d+1)+beta,其中,beta为偏移常量。例如:若d=3且beta=10时,gamma=1/(d+1)+10=1/(3+1)+10=10.25。
第三种方案,相似度公式包括:gamma=1/(d+1)*beta。例如:d=3且beta=10时,gamma=1/(d+1)*beta=1/(3+1)*10=25。
本说明书实施例中,采用第一种方案的相似度公式计算出的相似度均为小于1的小数,对于用户来说,小于1的小数之间的大小难以分辨。与第一种方案的相似度公式相比,第二种方案和第三种方案的相似度公式中均增加了预先设置的偏移常量,该偏移常量可将小于1的小数放大为大于1的整数或者小数,放大了相似度的数值,从而使得用户容易分辨出相似度之间的大小。
步骤103中计算出的最小编辑距离为张三的业务技能数据与李四的业务技能数据之间的相似度。
步骤103中计算出的相似度越大,表明不同的业务人员之间的业务技能越相近;相反,计算出的相似度越小,表明不同的业务人员之间的业务技能差异越大。
进一步地,在步骤103之后还可以包括:
步骤104、根据相似度,对不同的业务人员进行分组。
本步骤中,若两个业务人员的业务技能数据之间的相似度较大,可将该两个业务人员分配至同一组中。
具体地,可按照预先设置的分组规则,通过相似度对不同的业务人员进行分组。作为一种可选方案,分组规则可包括将相似度大于设定阈值的业务人员分配至同一组中。例如:业务人员A与业务人员B之间的相似度大于设定阈值,则将业务人员A与业务人员B分配至第一组中;业务人员C和业务人员A之间的相似度大于设定阈值,则将业务人员C也分配至第一组中;业务人员D和业务人员E之间的相似度大于设定阈值,且业务人员D以及业务人员E和业务人员A之间的相似度均小于设定阈值,业务人员D以及业务人员E和业务人员B之间的相似度均小于设定阈值,业务人员D以及业务人员E和业务人员C之间的相似度均小于设定阈值,则将业务人员D和业务人员E分配至第二组中。上述分组规则仅为一种示例,在实际应用中还可以设置其它的分组规则,此处不再一一列举。
作为一种可选方案,该方法还包括:根据步骤104中的分组结果,为不同组中的业务人员分配业务。例如,可为同一组中的业务人员分配同一业务类型的业务。
作为一种可选方案,本说明书实施例还可以不对业务人员进行分组,则该方法还包括:根据相似度为业务人员分配业务。例如,可为相似度较大的业务人员分配同一业务类型的业务。
本说明书实施例提供的技术方案可应用于多种业务领域,例如,该业务领域可以为银行业务领域、反洗钱业务领域或者生产制造业务领域,此处不再一一列举。
本说明书实施例提供的技术方案中,获取多个业务人员的业务技能数据,计算出不同的业务人员的业务技能数据之间的最小编辑距离,根据最小编辑距离计算出不同的业务人员的业务技能数据之间的相似度,本说明书实施例中通过业务技能数据计算出的相似度可作为分配依据进行业务分配以及分组,提高了分配的准确性和公平性,从而提高了业务处理的效率。本说明书实施例中,通过业务技能数据计算最小编辑距离的过程中引入了业务权重,提高了计算出的最小编辑距离的准确性,从而提高了计算出的相似度的准确性。
图6为本说明书一实施例提供的一种数据相似度的处理装置的结构示意图,如图6所示,该装置包括:获取模块11、第一计算模块12和第二计算模块13。
获取模块11用于获取多个业务人员的业务技能数据。
第一计算模块12用于计算出不同的业务人员的业务技能数据之间的最小编辑距离。
第二计算模块13用于根据所述最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。
本说明书实施例中,获取模块11包括:采集子模块111、生成子模块112和转换子模块113。
采集子模块111用于采集每个所述业务人员的历史业务数据。
生成子模块112用于根据每个业务人员的历史业务数据,按照预先设置的节点排列顺序生成每个业务人员的树形数据结构。
转换子模块113用于按照所述节点排列顺序,通过深度搜索算法将所述树形数据结构转换为所述业务技能数据,所述业务技能数据包括字符串,所述树形数据结构的每个节点对应于所述字符串中的一个子串。
本说明书实施例中,第一计算模块12包括:建立子模块121、计算子模块122和确定子模块123。
建立子模块121用于根据不同业务人员的业务技能数据的字符串建立矩阵,所述矩阵的第一行元素包括一个业务人员的业务技能数据的字符串的子串,所述矩阵的第一列元素包括另一个业务人员的业务技能数据的字符串的子串;
计算子模块122用于通过预先构建的编辑距离公式,计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离,所述编辑距离公式根据预先设置的业务权重构建;
确定子模块123用于将所述矩阵中最后一行最后一列元素的编辑距离作为所述最小编辑距离。
本说明书实施例中,第二计算模块13具体用于通过预先设置的相似度公式对最小编辑距离进行计算,生成所述相似度。所述相似度公式包括:gamma=1/(d+1),或者gamma=1/(d+1)+beta,或者gamma=1/(d+1)*beta。其中,gamma为所述相似度,d为所述最小编辑距离,beta为偏移常量。
本说明书实施例中,该装置还包括:分组模块14。
分组模块14用于根据所述相似度,对不同的业务人员进行分组。
本说明书实施例提供的技术方案中,获取多个业务人员的业务技能数据,计算出不同的业务人员的业务技能数据之间的最小编辑距离,根据最小编辑距离计算出不同的业务人员的业务技能数据之间的相似度,本说明书实施例中通过业务技能数据计算出的相似度可作为分配依据进行业务分配以及分组,提高了分配的准确性和公平性,从而提高了业务处理的效率。本说明书实施例中,通过业务技能数据计算最小编辑距离的过程中引入了业务权重,提高了计算出的最小编辑距离的准确性,从而提高了计算出的相似度的准确性。
本说明书实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述数据相似度的处理方法的实施例的各步骤,具体描述可参见上述数据相似度的处理方法的各个实施例。
本说明书实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述数据相似度的处理方法的实施例的各步骤,具体描述可参见上述数据相似度的处理方法的实施例。
图7是本说明书实施例提供的一种计算机设备的示意图。如图7所示,该实施例的计算机设备2包括:处理器21、存储器22以及存储在存储器22中并可在处理器21上运行的计算机程序23,该计算机程序23被处理器21执行时实现数据相似度的处理方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器21执行时实现实施例中数据相似度的处理装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备2可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,图7仅仅是计算机设备2的示例,并不构成对计算机设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备2还可以包括输入输出设备、网络接入设备、总线等。
所称处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器22可以是计算机设备2的内部存储单元,例如计算机设备2的硬盘或内存。存储器22也可以是计算机设备2的外部存储设备,例如计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器22还可以既包括计算机设备2的内部存储单元也包括外部存储设备。存储器22用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器22还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (14)

1.一种数据相似度的处理方法,包括:
获取多个业务人员的业务技能数据;
计算出不同的业务人员的业务技能数据之间的最小编辑距离;
根据所述最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。
2.根据权利要求1所述的方法,所述获取不同业务人员的业务技能数据包括:
采集每个所述业务人员的历史业务数据;
根据每个业务人员的历史业务数据,按照预先设置的节点排列顺序生成每个业务人员的树形数据结构;
按照所述节点排列顺序,通过深度搜索算法将所述树形数据结构转换为所述业务技能数据,所述业务技能数据包括字符串,所述树形数据结构的每个节点对应于所述字符串中的一个子串。
3.根据权利要求2所述的方法,所述业务技能数据包括业务类型以及每个所述业务类型的业务子类型;
所述树形数据结构包括根节点、与所述根节点对应的至少一个第一子节点以及与每个所述第一子节点对应的至少一个第二子节点,其中,所述第二子节点为所述第一子节点的子节点;
所述第一子节点用于存储所述业务类型,所述第二子节点用于存储所述业务子类型。
4.根据权利要求2所述的方法,所述计算出不同的业务人员的业务技能数据之间的最小编辑距离包括:
根据不同业务人员的业务技能数据的字符串建立矩阵,所述矩阵的第一行元素包括一个业务人员的业务技能数据的字符串的子串,所述矩阵的第一列元素包括另一个业务人员的业务技能数据的字符串的子串;
计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离;
将所述矩阵中最后一行最后一列元素的编辑距离作为所述最小编辑距离。
5.根据权利要求4所述的方法,所述计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离,包括:
根据获取的第一列元素中子串对应的业务权重以及第一列元素中子串对应的业务技能值,计算出第二列元素的编辑距离;
根据获取的第一行元素中子串对应的业务权重以及第一行元素中子串对应的业务技能值,计算出第二行元素的编辑距离;
根据获取的第一列元素中子串对应的业务权重、第一行元素中子串对应的业务权重、所述第一列元素的编辑距离和所述第二行元素的编辑距离,计算出第一行元素、第一列元素、第二行元素以及第二列元素之外的其余元素的编辑距离。
6.根据权利要求1所述的方法,所述根据所述最小编辑距离,计算出不同的业务技能数据之间的相似度包括:
通过预先设置的相似度公式对最小编辑距离进行计算,生成所述相似度;其中,在所述相似度公式中所述最小编辑距离和所述相似度负相关。
7.根据权利要求1所述的方法,所述根据所述最小编辑距离,计算出不同的业务技能数据之间的相似度之后,还包括:
根据所述相似度,对不同的业务人员进行分组。
8.一种数据相似度的处理装置,包括:
获取模块,用于获取多个业务人员的业务技能数据;
第一计算模块,用于计算出不同的业务人员的业务技能数据之间的最小编辑距离;
第二计算模块,用于根据所述最小编辑距离,计算出不同的业务人员的业务技能数据之间的相似度。
9.根据权利要求8所述的装置,所述获取模块包括:
采集子模块,用于采集每个所述业务人员的历史业务数据;
生成子模块,用于根据每个业务人员的历史业务数据,按照预先设置的节点排列顺序生成每个业务人员的树形数据结构;
转换子模块,用于按照所述节点排列顺序,通过深度搜索算法将所述树形数据结构转换为所述业务技能数据,所述业务技能数据包括字符串,所述树形数据结构的每个节点对应于所述字符串中的一个子串。
10.根据权利要求9所述的装置,所述第一计算模块包括:
建立子模块,用于根据不同业务人员的业务技能数据的字符串建立矩阵,所述矩阵的第一行元素包括一个业务人员的业务技能数据的字符串的子串,所述矩阵的第一列元素包括另一个业务人员的业务技能数据的字符串的子串;
计算子模块,用于通过预先构建的编辑距离公式,计算出所述矩阵中第一行元素和第一列元素之外的其余元素,所述其余元素包括不同长度的子串之间的编辑距离,所述编辑距离公式根据预先设置的业务权重构建;
确定子模块,用于将所述矩阵中最后一行最后一列元素的编辑距离作为所述最小编辑距离。
11.根据权利要求9所述的装置,所述第二计算模块具体用于通过预先设置的相似度公式对最小编辑距离进行计算,生成所述相似度;其中,在所述相似度公式中所述最小编辑距离和所述相似度负相关。
12.根据权利要求9所述的装置,还包括:
分组模块,用于根据所述相似度,对不同的业务人员进行分组。
13.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的数据相似度的处理方法。
14.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述程序指令被处理器加载并执行时实现权利要求1至7任意一项所述的数据相似度的处理方法的步骤。
CN202010200760.2A 2020-03-20 2020-03-20 数据相似度的处理方法、装置、存储介质和计算机设备 Active CN111461186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010200760.2A CN111461186B (zh) 2020-03-20 2020-03-20 数据相似度的处理方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010200760.2A CN111461186B (zh) 2020-03-20 2020-03-20 数据相似度的处理方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN111461186A true CN111461186A (zh) 2020-07-28
CN111461186B CN111461186B (zh) 2022-11-04

Family

ID=71680186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010200760.2A Active CN111461186B (zh) 2020-03-20 2020-03-20 数据相似度的处理方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN111461186B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204177A (zh) * 2023-03-17 2023-06-02 湖北坤盈数字科技有限公司 一种系统业务模块开发耦合组装方法、装置及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
US20170323211A1 (en) * 2016-05-09 2017-11-09 Mighty AI, Inc. Automated accuracy assessment in tasking system
CN108513020A (zh) * 2017-12-25 2018-09-07 平安科技(深圳)有限公司 一种呼入分配方法、电子装置及计算机可读存储介质
CN108537398A (zh) * 2017-03-02 2018-09-14 北京嘀嘀无限科技发展有限公司 人力资源对象分类方法及装置
CN110110218A (zh) * 2018-02-01 2019-08-09 重庆邮电大学 一种身份关联方法及终端
CN110197375A (zh) * 2018-11-28 2019-09-03 腾讯科技(深圳)有限公司 一种相似用户识别方法、装置、相似用户识别设备和介质
CN110276510A (zh) * 2018-03-15 2019-09-24 国际商业机器公司 具有技能差异分析的协作平台
CN110570097A (zh) * 2019-08-15 2019-12-13 中国平安人寿保险股份有限公司 基于大数据的业务人员风险识别方法、装置及存储介质
CN110633912A (zh) * 2019-09-20 2019-12-31 苏州思必驰信息科技有限公司 监测服务人员服务质量的方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033416A (zh) * 2015-03-09 2016-10-19 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
US20170323211A1 (en) * 2016-05-09 2017-11-09 Mighty AI, Inc. Automated accuracy assessment in tasking system
CN108537398A (zh) * 2017-03-02 2018-09-14 北京嘀嘀无限科技发展有限公司 人力资源对象分类方法及装置
CN108513020A (zh) * 2017-12-25 2018-09-07 平安科技(深圳)有限公司 一种呼入分配方法、电子装置及计算机可读存储介质
CN110110218A (zh) * 2018-02-01 2019-08-09 重庆邮电大学 一种身份关联方法及终端
CN110276510A (zh) * 2018-03-15 2019-09-24 国际商业机器公司 具有技能差异分析的协作平台
CN110197375A (zh) * 2018-11-28 2019-09-03 腾讯科技(深圳)有限公司 一种相似用户识别方法、装置、相似用户识别设备和介质
CN110570097A (zh) * 2019-08-15 2019-12-13 中国平安人寿保险股份有限公司 基于大数据的业务人员风险识别方法、装置及存储介质
CN110633912A (zh) * 2019-09-20 2019-12-31 苏州思必驰信息科技有限公司 监测服务人员服务质量的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204177A (zh) * 2023-03-17 2023-06-02 湖北坤盈数字科技有限公司 一种系统业务模块开发耦合组装方法、装置及计算机设备
CN116204177B (zh) * 2023-03-17 2023-10-03 湖北坤盈数字科技有限公司 一种系统业务模块开发耦合组装方法、装置及计算机设备

Also Published As

Publication number Publication date
CN111461186B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN104317650B (zh) 一种面向Map/Reduce型海量数据处理平台的作业调度方法
Rubinovitch The slow server problem: a queue with stalling
CN112241421A (zh) 一种数据血缘确定方法和装置
CN110096630A (zh) 一类基于聚类分析的大数据处理方法
CN111461186B (zh) 数据相似度的处理方法、装置、存储介质和计算机设备
CN114626735A (zh) 催收案件分配方法、装置、设备及计算机可读存储介质
CN113807553A (zh) 预约服务的数量分析方法、装置、设备及存储介质
CN110717092B (zh) 为文章匹配对象的方法、系统、设备及存储介质
CN113868529A (zh) 知识推荐方法、装置、电子设备及可读存储介质
CN109949010A (zh) 基于信息系统整合的大数据的医院高层次人才测评系统
CN113032403A (zh) 数据洞察方法、装置、电子设备及存储介质
CN113535739B (zh) 一种基于电网能源数据的数据集市层表建立方法
CN114021005A (zh) 网点信息查询方法、装置、设备及存储介质
CN109272340B (zh) 参数阈值确定方法、装置及计算机存储介质
CN114372060A (zh) 数据存储方法、装置、设备及存储介质
CN114187096A (zh) 基于用户画像的风险评估方法、装置、设备及存储介质
CN116596284B (zh) 基于客户需求的差旅决策管理方法及系统
Nichols et al. MagmaDNN: accelerated deep learning using MAGMA
CN116562373A (zh) 数据挖掘方法、装置、设备和介质
CN105740604A (zh) 基于冗余距离消除和极端点优化的并行k-means聚类方法
CN113656187A (zh) 基于5g的公安大数据算力服务系统
CN113095064A (zh) 代码字段识别方法、装置、电子设备及存储介质
CN112561500A (zh) 基于用户数据的薪酬数据生成方法、装置、设备及介质
CN111143333B (zh) 标注数据处理方法、装置、设备及计算机可读存储介质
CN109598644A (zh) 基于高斯分布的窃电用户识别方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant