CN114003674A - 双录地址确定方法、装置、设备及存储介质 - Google Patents

双录地址确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114003674A
CN114003674A CN202111277106.2A CN202111277106A CN114003674A CN 114003674 A CN114003674 A CN 114003674A CN 202111277106 A CN202111277106 A CN 202111277106A CN 114003674 A CN114003674 A CN 114003674A
Authority
CN
China
Prior art keywords
double
node
binary tree
data
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111277106.2A
Other languages
English (en)
Inventor
李萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111277106.2A priority Critical patent/CN114003674A/zh
Publication of CN114003674A publication Critical patent/CN114003674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Remote Sensing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请涉及人工智能及定位识别领域,具体公开了一种双录地址确定方法、装置、设备及存储介质,所述方法包括:获取多个终端设备上报的双录记录数据;将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集;基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型;利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假;获取待校验的终端设备上报的目标双录记录数据和目标双录地址;利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。

Description

双录地址确定方法、装置、设备及存储介质
技术领域
本申请涉及定位识别领域,尤其涉及一种双录地址确定方法、装置、设备及存储介质。
背景技术
目前,机构通过代理人进行保险展业,在双录时,从用户设备端获取GPS信息和双录数据,解析上述GPS信息得到双录地址。而市面上的GPS外接硬件设备可以实现GPS重定位,帮助代理人实现双录虚假定位。双录地址信息有误,给后期回溯重要信息、查找问题带来麻烦,保单客户被恶意误导,增加了后期退保、投诉的风险,这都将给保险公司带来巨大的损失,因此如何确定双录地址的准确性成为目前亟需解决的问题。
发明内容
本申请提供一种双录地址确定方法、装置、设备及存储介质,用于检测双录地址,确保双录地址的准确性。
第一方面,本申请提供一种双录地址确定方法,所述方法包括:
获取多个终端设备上报的双录记录数据;
将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集;
基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型;
利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假;
获取待校验的终端设备上报的目标双录记录数据和目标双录地址;
利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
第二方面,本申请还提供了一种双录地址确定装置,所述双录地址确定装置包括:
数据获取模块,用于获取多个终端设备上报的双录记录数据;
特征处理模块,用于将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集;
模型构建模块,用于基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型;
规则生成模块,用于利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假;
数据接收模块,用于获取待校验的终端设备上报的目标双录记录数据和目标双录地址;
对比判断模块,用于利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如本申请实施例中提供的任意一种双录地址确定方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请实施例中提供的任意一种双录地址确定方法。
本申请公开了一种双录地址确定方法、装置、设备及存储介质,利用多个维度地理位置标签信息,通过利用基尼指数构建二叉树模型,并基于提升指数确定决策规则集以确定双录地址是否造假,能够减少由于单一地址指标被篡改造成双录地址误判的情况,提高双录虚假定位识别率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种双录地址确定方法的应用场景框图;
图2是本申请实施例提供的一种双录地址确定法的示意流程图;
图3是本申请实施例提供的一种二叉树模型的示意性框图;
图4是本申请实施例提供的一种双录地址确定装置的示意性框图;
图5是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了减少保险展业时由于单一地址指标被篡改造成双录地址误判的情况,提高虚假定位识别率,本申请提供了一种双录地址确定方法、装置、设备及存储介质。
下面结合结合附图,对本申请的实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
该双录地址确定方法的具体应用场景如图1所示,该确定方法可以应用于服务器中,具体地应用于保险应用程序的服务端,该服务端运行在服务器中,用于获取保险代理人通过保险应用程序的客户端上传的双录记录数据,客户端运行在保险代理人使用的终端设备中。
在终端设备中安装该保险应用程序时需要终端设备授权相应的权限。比如可以获取GPS信息、IP地址、Wi-Fi物理地址、基站位置信息和小区标识码信息等信息的权限。
需要说明的是,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参阅图2,请参阅图2,图2是本申请实施例提供的一种双录地址确定方法的示意流程图。该双录地址确定方法利用多个维度的地理位置标签信息以确定双录地址是否造假,能够减少由于单一地址指标被篡改造成双录地址误判的情况,提高双录虚假定位识别率。
如图2所示,该双录地址确定方法,具体包括:步骤S101至步骤S106。
S101、获取多个终端设备上报的双录记录数据。
在本申请的实施例中,终端设备可以包括保险代理人使用的智能手机、平板电脑、笔记本电脑或者台式电脑等。保险代理人的终端设备中安装有保险应用程序,该保险应用程序的格式可以是App,通过该保险应用程序实现保险订单的签约。在签约的某个环节需要要求代理人对关键环节进行录音录像,即得到对应的录音录像,同时通过终端设备的授权获取终端设备的系统信息、GPS经纬度、GPS经纬度的精准度、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息、超宽带(UWB)信号、以及当前检测到的小区标识码信息、客户端保单信息、联系地址等信息,将这些信息和录音录像打包成双录记录数据上报给服务器。
需要说明的是,本申请实施例中提供的定位技术以及定位信息获取方式仅作为特定实施例的详细说明分析使用,而并不意在限制本申请,根据实际应用场景,本申请的定位技术还包括:超声波室内定位技术、射频识别(RFID)室内定位技术、红外线定位技术、iBeacon蓝牙室内定位技术、Wi-Fi室内定位技术、超宽带室内定位技术、ZigBee室内定位技术和北斗导航定位技术;本申请的定位技术还可以是一种或多种的定位技术的任何组合以及所有可能组合。
在一些实施例中,每个终端设备上报的双录记录数据除了包括录音录像外,还包括录音录像时相关的位置信息、网络信息和保单信息。
所述位置信息至少包括:GPS经纬度、GPS经纬度的精准度和基于基站定位的终端位置信息。
所述网络信息至少包括:终端设备的系统信息、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息和当前检测到的小区标识码信息。
所述保单信息至少包括:客户端保单信息和联系地址。
S102、将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集。
具体地,特征提取是指提取样本的特征值过程,每个样本是指每个双录记录数据,例如,可根据保单单号划分每个样本数据集。其中,样本的特征及特征值是根据双录记录数据中的多项信息确定的。完成特征提取后,根据提取的特征和特征值构建样本数据集。
示例性的,双录记录数据的多项信息包括终端设备的系统信息、GPS经纬度、GPS经纬度的精准度、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息以及当前检测到的小区标识码信息、客户端保单信息、联系地址等信息分别对应各自的标签。样本的特征可以包括GPS经纬度与IP地址信息,或者是GPS经纬度与Wi-Fi物理地址,采用这样的方式可以提取更多类型的特征,其中对应的特征值的提取方式也可以包括多种,比如采用两者比对的方式,例如GPS经纬度与IP地址信息是否相符合,特征值就包括“是”和“否”,可以用1和0表示。特征值的提取方式包括多种,以上仅是举例,不做具体限定。
在一些实施例中,在将每个所述双录记录数据作为一个样本,对每个样本进行特征提取之前,还可以对该双录记录数据进行清洗,所述数据清洗用于清理不符合要求的双录记录数据。这样,可以提高提取特征和特征值的准确率,提升样本数据集的参考价值。
示例性的,比如清洗掉没有录音录像的双录记录数据,或者清洗掉终端设备的系统信息、GPS经纬度、GPS经纬度的精准度、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息以及当前检测到的小区标识码信息、客户端保单信息、联系地址中一个或多个为空值的用户双录记录信息。
示例性的,还可以根据空值率删除相应的双录记录数据,比如空值率大于预设阈值的双录记录数据删除,举例而言,比如双录记录数据1中的终端设备的系统信息、GPS经纬度、GPS经纬度的精准度、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息以及当前检测到的小区标识码信息、客户端保单信息、联系地址等9项信息中有5项为空值,即空值率为5/9,即约为55.56%,预设阈值为50,则删除该双录记录数据1,其中,预设阈值可以根据实际进行设定,比如设置50%或60%。
S013、基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型。
需要说明的是,二叉树(binary tree)是指树中节点的度不大于2的有序树,它是一种最简单且最重要的树。二叉树的递归定义为:二叉树是一棵空树,或者是一棵由一个根节点和两棵互不相交的,分别称作根的左子树和右子树组成的非空树;左子树和右子树又同样都是二叉树。遍历是对树的一种最基本的运算,所谓遍历二叉树,就是按一定的规则和顺序走遍二叉树的所有结点,使每一个结点都被访问一次,而且只被访问一次。由于二叉树是非线性结构,因此,树的遍历实质上是将二叉树的各个结点转换成为一个线性序列来表示。
具体地,根据每个特征下样本数据集的基尼指数确定根节点,其中,最小基尼指数对应的特征作为根节点;根据所述特征以及所述特征对应的特征值将所述样本数据集分为左节点数据集和右节点数据集,并确定所述左节点数据集和右节点数据集的根节点直至遍历所有特征,得到二叉树模型。其中,基尼指数代表了特征的不纯度,基尼指数越小,则不纯度越低,特征越好。
示例性的,根据每个特征下样本数据集的基尼指数先确定根节点,具体为最小基尼指数对应的特征作为根节点。再选择基尼指数最小的特征A和对应的特征值a,根据这个最优特征A和最优特征值a,把样本数据集D划分为两部分D1和D2,同时建立当前节点的左右子节点,左节点的数据集为D1,右节点的数据集为D2。对左右的子节点数据集采用同样方式进行递归划分直至遍历所有特征,最终生成二叉树模型。
请参阅图3,图3展示了一种包含四个层级的双录地址确定的二叉树模型,该双录地址确定二叉树包含七个特征,采用了两者比对的方式,H:双录地址与GPS经纬度是否处于预设区域范围内;I:IP地址信息与Wi-Fi物理地址是否处于预设区域范围内;J:GPS经纬度精准度是否大于97%;K:IP地址信息与客户端保单信息否处于预设区域范围内;L:Wi-Fi物理地址与基站位置是否处于预设区域范围内;M:IP地址信息与当前检测到的小区标识码信息是否处于预设区域范围内;N:客户端保单信息和联系地址是否处于预设区域范围内。特征值就包括“是”和“否”,可以用“1”和“0”表示。根据该二叉树模型,可以将全部特征值都为“1”设置为双录地址不涉嫌造假的条件,当且仅当一个样本数据集在该二叉树模型中的全部特征值都为“1”时,确定该样本数据集中的双录地址不涉嫌造假。
在一些实施例中,对于给定的样本数据集D,假设有k个类别,第k个类别的数量为,则样本数据集D的基尼指数表达式为:
Figure BDA0003329845380000071
在一些实施例中,对于样本数据集D,如果根据特征A的某个特征值a,据此可以把D分成和两部分,即两个子样本数据集D1和D2,则在特征A的条件下,样本数据集D的基尼指数表达式为:
Figure BDA0003329845380000072
Gini(D,A)表示特征A的条件下样本数据集D的基尼指数。由此可以求出样本数据集中每个特征的下样本数据集D的基尼指数。
S104、利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假。
具体地,根据样本数据集对应的所述二叉树模型,计算所述二叉树模型中每个节点对应的提升指数;根据所述节点的所述提升指数确定所述二叉树模型的目标节点层数,并根据所述目标节点层数涉及的节点确定决策规则集。
需要说明的是,所述提升指数是评估一个预测模型是否有效的一个度量,衡量一个模型或规则的预测能力优于随机选择的倍数,提升指数越大,则表示模型或规则的运行效果越好。具体地,在本实施例中,提升指数统计使用该规则与不使用该规则捕获到的坏样本(地址造假样本)占总体样本比值之比。
示例性的,比如确定的目标节点层数为5层,那么这5层所涉及的节点对应的规则以及节点对应规则组成的规则链,构成用于确定用户双录记录地址的是否造假的规则集,即为决策规则集。
在一些实施方式中,可以根据二叉树模型中节点的提升指数的变化趋势确定目标节点层数,比如从根节点开始节点的提升指数由大变小,则确定变小前的节点对应的层数为目标节点层数,比如由第5层节点的提升指数开始变小,则确定第5层节点为目标节点层数。
在另一些实施方式中,还可以根据二叉树模型中节点的提升指数是否小于或等于预设指数阈值来确定目标节点层数,若某层的节点的提升指数小于预设指数阈值,则确定该层为目标节点层数,预设指数阈值可以根据实际设定,比如由第5层节点的提升指数小于或等于预设指数阈值,则确定第5层节点为目标节点层数。
S105、获取待校验的终端设备上报的目标双录记录数据和目标双录地址。
需要说明的是,保险代理人通过终端设备签订保险订单时,保险代理人使用的签订保险订单的终端设备即为待校验的终端设备。
获取待校验的终端设备上报的目标双录记录数据和目标双录地址,例如,该目标双录记录数据和目标双录地址的确定方式包括:机构名称、代理人、地区。该目标双录记录数据包括终端设备的系统信息(具体比如是sdk采集的设备指纹信息)、GPS经纬度、GPS经纬度的精准度、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息以及当前检测到的小区标识码信息、客户端保单信息、联系地址等信息,该目标双录地址具体为保险代理人上报签订该保险订单的地址。
依据上述实施例中提供的方法步骤,将获取的每份目标双录记录数据和目标双录地址转换成对应的二叉树模型,并获取二叉树模型中每个节点的预设判定条件,将所述判定条件封装生成决策规则集。
S106、利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
由于上述过程中已经确定决策规则集,该决策规则集包括一些最优的节点,进而可以利用决策规则集结合保险代理人签订保险订单时的双录记录数据,确定其上报的双录地址的真假,进而确定保险代理人上报的双录地址是否造假。
示例性的,结合基于人工智能的大数据检测技术,获取服务器中保存的目标双录记录数据和目标双录地址,生成二叉树模型和决策规则,提取涉嫌造假的全部样本数据集,进一步地,可根据机构名称和地区判断双录地址范围性的造假情况,或者根据代理人追究个人性质的造假行为,以便更进一步地将问题责任具体落实。
上述实施例提供的双录地址确定方法利用多个维度地理位置标签信息,通过利用基尼指数构建二叉树模型,并基于提升指数确定决策规则集以确定双录地址是否造假,能够减少由于单一地址指标被篡改造成双录地址误判的情况,提高双录虚假定位识别率。
请参阅图4,图4是本申请的实施例还提供一种双录地址确定装置的示意性框图,该双录地址确定装置300用于执行前述的双录地址确定方法。其中,该双录地址确定装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图4所示,双录地址确定装置300包括:数据获取模块301、特征处理模块302、模型构建模块303、规则生成模块304、数据接收模块305、对比判断模块306。
数据获取模块301,用于获取多个终端设备上报的双录记录数据。
特征处理模块302,用于将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集。
在一些实施例中,特征处理模块302在用于将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集之前,还具体用于:
对双录记录数据进行数据清洗,所述数据清洗用于清理不符合要求的双录记录数据。
模型构建模块303,用于基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型。
模型构建模块303具体用于根据每个特征下样本数据集的基尼指数确定根节点,其中,最小基尼指数对应的特征作为根节点;根据所述特征以及所述特征对应的特征值将所述样本数据集分为左节点数据集和右节点数据集,并确定所述左节点数据集和右节点数据集的根节点直至遍历所有特征,得到二叉树模型。
规则生成模块304,用于利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假。
规则生成模块304具体用于根据样本数据集对应的所述二叉树模型,计算所述二叉树模型中每个节点对应的提升指数;根据所述节点的所述提升指数确定所述二叉树模型的目标节点层数,并根据所述目标节点层数涉及的节点确定决策规则集。
在一些实施例中,规则生成模块304还具体用于根据所述二叉树模型中节点的提升指数的变化趋势确定目标节点层数;其中,所述根据所述二叉树模型中节点的提升指数的变化趋势确定目标节点层数,包括:从所述二叉树模型中根节点开始确定提审指数的变化趋势,若出现节点的提升指数由大变小,则确定变小前的节点对应的层数为目标节点层数。
在一些实施例中,规则生成模块304还具体用于根据所述二叉树模型中节点的所述提升指数是否小于或等于预设指数阈值来确定所述目标节点层数;若某层的节点的所述提升指数小于或等于所述预设指数阈值,则确定所述层为所述目标节点层数。
数据接收模块305,用于获取待校验的终端设备上报的目标双录记录数据和目标双录地址。
对比判断模块306,用于利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的模型训练装置和各模块的具体工作过程,可以参考前述双录地址确定方法实施例中的对应过程,在此不再赘述。
上述的双录地址确定装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图5,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行本申请实施例提供的任意一种双录地址确定方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行本申请实施例提供的任意一种双录地址确定方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
示例性的,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取多个终端设备上报的双录记录数据;
将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集;
基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型;
利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假;
获取待校验的终端设备上报的目标双录记录数据和目标双录地址;
利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
在一些实施例中,所述处理器在用于将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集之前,还具体用于实现:
对双录记录数据进行数据清洗,所述数据清洗用于清理不符合要求的双录记录数据。
所述处理器在实现基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型时,还具体用于实现:
根据每个特征下样本数据集的基尼指数确定根节点,其中,最小基尼指数对应的特征作为根节点;根据所述特征以及所述特征对应的特征值将所述样本数据集分为左节点数据集和右节点数据集,并确定所述左节点数据集和右节点数据集的根节点直至遍历所有特征,得到二叉树模型。
所述处理器在实现利用构建的二叉树模型,确定决策规则集时,还具体用于实现根据样本数据集对应的所述二叉树模型,计算所述二叉树模型中每个节点对应的提升指数;根据所述节点的所述提升指数确定所述二叉树模型的目标节点层数,并根据所述目标节点层数涉及的节点确定决策规则集。
在一些实施例中,所述处理器在实现根据节点的所述提升指数确定所述二叉树模型的目标节点层数时,还具体用于实现:
根据所述二叉树模型中节点的提升指数的变化趋势确定目标节点层数;其中,所述根据所述二叉树模型中节点的提升指数的变化趋势确定目标节点层数,包括:从所述二叉树模型中根节点开始确定提审指数的变化趋势,若出现节点的提升指数由大变小,则确定变小前的节点对应的层数为目标节点层数。
在一些实施例中,所述处理器在实现根据节点的所述提升指数确定所述二叉树模型的目标节点层数时,还具体用于实现:
根据所述二叉树模型中节点的所述提升指数是否小于或等于预设指数阈值来确定所述目标节点层数;若某层的节点的所述提升指数小于或等于所述预设指数阈值,则确定所述层为所述目标节点层数。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项双录地址确定方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘、智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种双录地址确定方法,其特征在于,所述方法包括:
获取多个终端设备上报的双录记录数据;
将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集;
基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型;
利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假;
获取待校验的终端设备上报的目标双录记录数据和目标双录地址;
利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
2.根据权利要求1所述的方法,其特征在于,所述双录记录数据包括录音录像与录制所述录音录像时相关的位置信息、网络信息和保单信息;
所述位置信息至少包括:GPS经纬度、GPS经纬度的精准度和基于基站定位的终端位置信息;
所述网络信息至少包括:终端设备的系统信息、IP地址信息、Wi-Fi物理地址、当前检测到的基站位置信息和当前检测到的小区标识码信息;
所述保单信息至少包括:客户端保单信息和联系地址。
3.根据权利要求1所述的方法,其特征在于,所述基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型,包括:
根据每个特征下样本数据集的基尼指数确定根节点,其中,最小基尼指数对应的特征作为根节点;
根据所述特征以及所述特征对应的特征值将所述样本数据集分为左节点数据集和右节点数据集,并确定所述左节点数据集和右节点数据集的根节点直至遍历所有特征,得到所述二叉树模型。
4.根据权利要求1所述的方法,其特征在于,所述利用所述二叉树模型,确定决策规则集,包括:
根据样本数据集对应的所述二叉树模型,计算所述二叉树模型中每个节点对应的提升指数;
根据所述节点的所述提升指数确定所述二叉树模型的目标节点层数,并根据所述目标节点层数涉及的节点确定决策规则集。
5.根据权利要求4所述的方法,其特征在于,所述根据节点的所述提升指数确定所述二叉树模型的目标节点层数,包括:
根据所述二叉树模型中节点的提升指数的变化趋势确定目标节点层数;
其中,所述根据所述二叉树模型中节点的提升指数的变化趋势确定目标节点层数,包括:从所述二叉树模型中根节点开始确定提升指数的变化趋势,若出现节点的提升指数由大变小,则确定变小前的节点对应的层数为目标节点层数。
6.根据权利要求4所述的方法,其特征在于,所述根据节点的所述提升指数确定所述二叉树模型的目标节点层数,包括:
根据所述二叉树模型中节点的所述提升指数是否小于或等于预设指数阈值来确定所述目标节点层数;
若某层的节点的所述提升指数小于或等于所述预设指数阈值,则确定所述层为所述目标节点层数。
7.根据权利要求1所述的方法,其特征在于,在所述将每个所述双录记录数据作为一个样本,对每个样本进行特征提取之前,所述方法还包括:
对所述双录记录数据进行数据清洗,所述数据清洗用于清理不符合要求的双录记录数据。
8.一种双录地址确定装置,其特征在于,包括:
数据获取模块,用于获取多个终端设备上报的双录记录数据,其中,所述每个双录记录数据包括录音录像与录制所述录音录像时相关的位置信息、网络信息和保单信息;
特征处理模块,用于将每个所述双录记录数据作为一个样本,对每个所述样本进行特征提取,并根据提取的特征和特征值构建样本数据集;
模型构建模块,用于基于基尼指数作为选择划分节点的依据,对所述样本数据集进行节点划分以构建二叉树模型;
规则生成模块,用于利用所述二叉树模型,确定决策规则集,其中,所述决策规则集用于判断双录记录数据的双录地址的真假;
数据接收模块,用于获取待校验的终端设备上报的目标双录记录数据和目标双录地址;
对比判断模块,用于利用所述决策规则集,根据所述目标双录记录数据确定所述目标双录地址是否正确。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的双录地址确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的双录地址确定方法。
CN202111277106.2A 2021-10-29 2021-10-29 双录地址确定方法、装置、设备及存储介质 Pending CN114003674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111277106.2A CN114003674A (zh) 2021-10-29 2021-10-29 双录地址确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111277106.2A CN114003674A (zh) 2021-10-29 2021-10-29 双录地址确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114003674A true CN114003674A (zh) 2022-02-01

Family

ID=79925646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111277106.2A Pending CN114003674A (zh) 2021-10-29 2021-10-29 双录地址确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114003674A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023185972A1 (zh) * 2022-03-31 2023-10-05 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023185972A1 (zh) * 2022-03-31 2023-10-05 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US11645571B2 (en) Scheduling in a dataset management system
US9435878B1 (en) Positioning using audio recognition
CN111612039B (zh) 异常用户识别的方法及装置、存储介质、电子设备
CN108304423A (zh) 一种信息识别方法及装置
CN110335139A (zh) 基于相似度的评估方法、装置、设备及可读存储介质
CN111522838A (zh) 地址相似度计算方法及相关装置
CN111192153A (zh) 人群关系网络构建方法、装置、计算机设备和存储介质
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN111259167B (zh) 用户请求风险识别方法及装置
CN114357319A (zh) 网络请求处理方法、装置、设备、存储介质及程序产品
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN114003674A (zh) 双录地址确定方法、装置、设备及存储介质
CN112163019B (zh) 基于区块链的可信电子批记录处理方法及区块链服务平台
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN111949696A (zh) 一种全要素关联分析方法及装置
CN117093477A (zh) 一种软件质量评估方法、装置、计算机设备及存储介质
WO2021151354A1 (zh) 一种单词识别方法、装置、计算机设备和存储介质
CN115129804A (zh) 地址联想方法及其装置、设备、介质、产品
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN114117037A (zh) 意图识别方法、装置、设备和存储介质
CN110070371B (zh) 一种数据预测模型建立方法及其设备、存储介质、服务器
CN115358379B (zh) 神经网络处理、信息处理方法、装置和计算机设备
CN115795289B (zh) 特征识别方法、装置、电子设备及存储介质
CN116886991B (zh) 生成视频资料的方法、装置、终端设备以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination