CN114125815A

CN114125815A - 一种身份识别方法、装置及计算机可读存储介质

Info

Publication number: CN114125815A
Application number: CN202111424909.6A
Authority: CN
Inventors: 张晴晴; 程新洲; 韩玉辉; 张恒; 曹丽娟
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-01
Anticipated expiration: 2041-11-26
Also published as: CN114125815B

Abstract

本申请提供一种身份识别方法、装置及计算机可读存储介质，涉及无线通信技术领域，能够基于运营商数据，精准的识别出婴幼儿家长用户。该方法包括：获取目标区域内的所有用户的运营商数据，以及目标区域内的婴幼儿家长的数目N，N为大于1的整数；根据用户的运营商数据，确定目标区域内的每个用户的身份概率值，身份概率值为用户的身份是婴幼儿家长的概率值；从目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

Description

一种身份识别方法、装置及计算机可读存储介质

技术领域

本申请涉及无线通信技术领域，尤其涉及一种身份识别方法、装置及计算机可读存储介质。

背景技术

目前，针对婴幼儿的特色教育行业持续蓬勃发展，与婴幼儿教育相关的各类应用软件为婴幼儿家长提供了丰富的教育资源和服务。因此，识别婴幼儿家长用户群体，了解婴幼儿家长的需求，够帮助婴幼儿教育行业提供更有针对性的专业服务。

通过收集各类婴幼儿教育应用软件的用户使用数据，能够帮助婴幼儿教育行业精准掌握婴幼儿家长用户的需求。

其中，若想了解婴幼儿家长的需求，首先需要准确的识别出婴幼儿家长用户。目前，大多数婴幼儿教育企业通过用户调研、分析特定教育产品用户使用习惯等方式来识别婴幼儿家长用户，进而分析婴幼儿家长的需求，但是，这种方式具有很大的局限性，一方面，企业能够调研的人数有限，导致分析样本小，分析结果不具有代表性；另一方面，识别精度较低，识别效率不高。

因此，亟待一种身份识别方法，能够精准的识别出婴幼儿家长用户，进而能够准确的分析婴幼儿家长用户的需求。

发明内容

本申请提供一种身份识别方法、装置及计算机可读存储介质，能够基于运营商数据，精准的识别出婴幼儿家长用户。

第一方面，本申请提供一种身份识别方法，包括：获取目标区域内的所有用户的运营商数据，以及目标区域内的婴幼儿家长的数目N，N为大于1的整数；根据用户的运营商数据，确定目标区域内的每个用户的身份概率值，身份概率值为用户的身份是婴幼儿家长的概率值；从目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

本申请提供的技术方案至少可以带来以下有益效果：获取目标区域内的所有用户的运营商数据，根据每个用户的运营商数据确定该用户为婴幼儿家长用户的概率值。如此，一方面，基于海量的运营商数据，可以得到目标区域内所用用户的运营商数据，扩大身份识别的样本集；另一方面，从婴幼儿家长群体与其他群体的不同之处着手，选取具有代表性的运营商数据进行分析，可以准确的确定每个用户为婴幼儿家长用户的概率值。此外，本申请实施例还可以获取目标区域内婴幼儿家长用户的数目N，这样一来，根据目标区域内的婴幼儿家长用户的数目和目标区域内所有用户的身份概率值，就能够精准的识别出目标区域内所有的婴幼儿家长用户。

可选的，上述运营商数据包括：语音通话数据、应用访问数据和流量使用数据；根据用户的运营商数据，确定用户的身份概率值，包括：根据语音通话数据，确定通话特征参数，通话特征参数包括：第一通话数目和/或第一通话时长，第一通话数目为用户与婴幼儿相关的机构通话的数目，第一通话时长为用户与婴幼儿相关的机构通话的平均时长；根据应用访问数据，确定应用访问特征参数；其中，应用访问特征参数包括以下一项或者多项：第一得分、第二得分或者第三得分；第一得分用于反映用户属于第一家长的可能性，第一家长为婴幼儿的年龄为第一年龄段的家长；第二得分用于反映用户属于第二家长的可能性，第二家长为婴幼儿的年龄为第二年龄段的家长；第三得分用于反映用户属于婴幼儿家长的可能性；根据流量使用数据，确定流量使用特征参数，流量使用特征参数包括以下一项或多项：白天时间段的流量方差或者夜间时间段的流量平均值；根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

可选的，上述通话特征参数还包括以下一项或者多项：第二通话时长、第二通话时间点或者第三通话时长，第二通话时长为用户与家庭成员通话的平均时长，第二通话时间点为用户与家庭成员通话的时间点，第三通话时长为用户与工作伙伴通话的平均时长。

可选的，上述根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值，包括：基于层次分析法(analytic hierarchy process，AHP)算法，根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

可选的，上述目标区域内婴幼儿家长的数目满足以下关系：

其中，α表示目标区域在第一年份的家庭人口数量，m表示目标区域在第一年份的幼儿园在校生数量，d表示从第一年份到当前调查日期所经历的月份数，n表示目标区域在第一年份的新生儿数量。第一年份指官方公布人口调查数据的年份。

第二方面，本申请提供一种身份识别装置，包括：数据获取模块，用于获取目标区域内的所有用户的运营商数据，以及目标区域内的婴幼儿家长的数目N，N为大于1的整数；数据处理模块，用于根据用户的运营商数据，确定目标区域内的每个用户的身份概率值，身份概率值为用户的身份是婴幼儿家长的概率值；身份识别模块，用于从目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

可选的，上述运营商数据包括：语音通话数据、应用访问数据和流量使用数据；上述数据处理模块，具体用于根据语音通话数据，确定通话特征参数，通话特征参数包括：第一通话数目和/或第一通话时长，第一通话数目为用户与婴幼儿相关的机构通话的数目，第一通话时长为用户与婴幼儿相关的机构通话的平均时长；根据应用访问数据，确定应用访问特征参数；其中，应用访问特征参数包括以下一项或者多项：第一得分、第二得分或者第三得分；第一得分用于反映用户属于第一家长的可能性，第一家长为婴幼儿的年龄为第一年龄段的家长；第二得分用于反映用户属于第二家长的可能性，第二家长为婴幼儿的年龄为第二年龄段的家长；第三得分用于反映用户属于婴幼儿家长的可能性；根据流量使用数据，确定流量使用特征参数，流量使用特征参数包括以下一项或多项：白天时间段的流量方差或者夜间时间段的流量平均值；根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

可选的，数据处理模块，具体用于基于AHP算法，根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

可选的，上述目标区域内婴幼儿家长的数目满足以下关系：

第三方面，提供一种身份识别装置，包括：一个或多个处理器；处理器用于执行存储器中的计算机程序代码，计算机程序代码包括指令、使得身份识别装置执行上述第一方面所提供的任一种身份识别方法。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行上述第一方面所提供的任一种身份识别方法。

第五方面，提供一种计算机程序产品，该计算机程序产品可直接加载到存储器中，并含有软件代码，计算机程序产品经由计算机载入并执行后能够实现如上述第一方面所提供任一种身份识别方法。

本申请中第二方面至第五方面的描述，可以参考第一方面的详细描述；并且，第二方面至第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

附图说明

图1为本申请实施例提供的一种身份识别系统的示意图；

图2为本申请实施例提供的一种终端设备的结构示意图；

图3为本申请实施例提供的一种身份识别方法的流程图；

图4为本申请实施例提供的另一种身份识别方法的流程图；

图5为本申请实施例提供的一种层次结构模型的示意图；

图6为本申请实施例提供的另一种层次结构模型的示意图；

图7为本申请实施例提供的一种身份识别装置的结构示意图；

图8为本申请实施例提供的另一种身份识别装置的结构示意图。

具体实施方式

下面将结合附图对本申请提供的一种身份识别方法、装置及计算机可读存储介质进行详细的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括其他没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

如背景技术所述，目前，大多数婴幼儿教育企业通过用户调研、分析特定教育产品用户使用习惯等方式来识别婴幼儿家长用户，进而分析婴幼儿家长的需求，但是，这种方式具有很大的局限性，一方面，企业能够调研的人数有限，导致分析样本小，分析结果不具有代表性；另一方面，识别精度较低，识别效率不高。

针对上述技术问题，本申请实施例提供了一种身份识别方法，其思路在于：从婴幼儿家长群体与其他群体的不同之处着手，选取具有代表性的运营商数据进行分析，根据每个用户的运营商数据确定该用户的身份概率值，进而结合目标区域内的婴幼儿家长用户的数目和目标区域内所有用户的身份概率值确定目标区域内的婴幼儿家长。这种方式基于海量的运营商数据，以目标区域内所有用户的身份概率值为样本，以目标区域内婴幼儿家长的数目为阈值，可以准确的识别出目标区域内所有的婴幼儿家长，有效的提高了身份识别的精度和效率。

如图1所示，本申请实施例提供了一种身份识别系统，该身份识别系统包括：服务器和终端设备。其中，服务器与终端设备之间可以通过无线的方式进行连接。例如，服务器和终端设备之间通过无线局域网连接。

其中，服务器可以获取目标区域内所有用户的运营商数据，并对该运营商数据进行数据分析。服务器具有数据处理能力、数据存储能力以及数据传输能力。

示例性的，服务器可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。

终端设备是与用户进行人机交互的设备，用户在与终端设备进行人机交互的过程中产生运营商数据。

示例性的，终端设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等。本申请实施例对该终端设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

如图2所示，本申请实施例中的终端设备可以为手机100。下面以手机100为例对实施例进行具体说明。手机100可包括总线110、处理器120、存储器130、用户输入模块150、显示模块160、通信接口170和其它相似和/或合适组件。

总线110可以是将上述元件相互连接并在上述元件之间传递通信(例如控制消息)的电路。

处理器120可以通过总线110从上述其它元件(例如存储器130、用户输入模块150、显示模块160、通信接口170等)接收命令，可以解释接收到的命令，并可以根据所解释的命令来执行计算或数据处理。

存储器130可以存储从处理器120或其它元件(例如用户输入模块150、显示模块160、通信接口170等)接收的命令或数据或者由处理器120或其它元件产生的命令或数据。

用户输入模块150可以接收经由输入-输出手段(例如，传感器、键盘、触摸屏等)从用户输入的命令或数据，并可以通过总线110向处理器120或存储器130传送接收到的命令或数据。显示模块160可以向用户显示视频、图像、数据等。

显示模块160可以显示从上述元件接收到的各种信息(例如多媒体数据、文本数据)。

通信接口170可以控制与另一终端设备之间的短距离通信连接。

应该理解的时，如图2所示的手机100仅是上述终端设备的一个范例，并且手机100可以具有比图2中所示出的更多或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。

下面结合说明书附图，对本申请提供的实施例进行具体介绍。

如图3所示，本申请实施例提供了一种身份识别方法，该方法包括：

S101、获取目标区域内的所有用户的运营商数据，以及目标区域内的婴幼儿家长的数目N。

其中，上述目标区域是指计划进行身份识别的一个区域。目标区域可以是人口聚集区或行政划区。示例性的，目标区域可以是朝阳区、北京市、河北省等。

在一些实施例中，运营商数据指运营商用户在语音通话、流量使用、网页浏览、应用访问等方面的行为数据。由于大多数运营商数据产生于网络设备，因此可以采用探针技术来进行数据采集。

作为一种可能的实现方式，通过在网络设备的接口上部署相应的探针，来采集移动电话网络、固定电话网络、终端设备以及基站等产生的运营商数据。

在本申请实施例中，运营商数据包括：语音通话数据、应用访问数据和流量使用数据。

其中，语音通话数据为用户使用终端设备进行通话而产生的数据，例如：通话对象、通话时长、通话次数以及通话时间点等。

应用访问数据为用户通过终端设备访问相关应用软件而产生的数据，例如：应用访问流量、应用访问时长以及应用访问次数等。

流量使用数据为用户通过终端设备使用流量而产生的数据，例如：流量使用时间段、流量均值、流量方差等。

在一些实施例中，目标区域内婴幼儿家长的数目N(N为大于1的整数)满足以下公式(1)：

示例性的，假设目标区域为河北省，河北省2019年新生儿数量n为8万人，幼儿园在校生数量m为30万人，家庭人口数量α为2.5，则2021年6月河北省内婴幼儿家长数目为N＝2.5×[30+(8/12)×d]＝2.5×[30+(8/12)×18]＝105万人。其中，d取值为18，表示自2019年至2021年6月的调查期间一共有18个月。

S102、根据用户的运营商数据，确定目标区域内的每个用户的身份概率值。

其中，身份概率值为用户的身份是婴幼儿家长的概率值。

S103、从目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

作为一种可能的实现方式，将目标区域内的所有用户的身份概率值按倒序排列(也即从大到小的顺序排序)，然后将前N个用户的身份确定为婴幼儿家长。

可选的，如图4所示，上述步骤S102可以具体实现为以下步骤：

S1021、根据语音通话数据，确定通话特征参数。

其中，通话特征参数包括：第一通话数目和/或第一通话时长。第一通话数目为用户与婴幼儿相关的机构通话的数目，第一通话时长为用户与婴幼儿相关的机构通话的平均时长。

在一些实施例中，可以通过网络爬虫(Web crawler)技术以及人工收集等手段，收集与婴幼儿相关的机构的电话，建立电话数据库。通过判断主叫电话或被叫电话是否在电话数据库中，来确定用户与婴幼儿相关的机构的语音通话交互行为。根据用户与婴幼儿相关的机构的语音通话交互行为，确定与该用户联系的婴幼儿相关的机构的列表O＝{o₁，o₂，o₃，……，o_k}。其中，o代表与婴幼儿相关的机构，k代表与婴幼儿相关的机构的编号。

其中，上述网络爬虫技术，是指按照一定的规则来编写程序或脚本，以实现自动地抓取信息的技术。

作为一种可能的实现方式，可以根据与用户联系的婴幼儿相关的机构的列表来计算第一通话数目和第一通话时长。其中，第一通话数目可以满足以下公式(2)，第一通话时长可以满足以下公式(3)：

ONum_i＝K^* 公式(2)

其中，ONum_i表示第一通话数目，K^*表示与用户发生通话关系的婴幼儿相关机构的数目，K^*≤k。

其中，ODur_i表示用户i与婴幼儿相关的机构通话的平均时长，ODur_ik表示用户i与婴幼儿相关的机构k之间通话的总时长。

可选的，上述通话特征参数还可以包括：第二通话时长和/或第二通话时间点，第二通话时长为用户与家庭成员通话的平均时长，第二通话时间点为用户与家庭成员通话的时间点。

在一些实施例中，可以根据家庭常驻地的地址，以及在特定时间段内拨打电话是否超过一定阈值，来确定用户的家庭成员列表F＝{f₁，f₂，f₃，……，f_n}，其中f代表家庭成员，n表示家庭成员的编号。示例性的，可以将家庭常驻地的地址相同，且在夜晚时间段内拨打电话低于一定阈值的用户，归属于同一家庭。

作为一种可能的实现方式，根据家庭成员列表来计算第二通话时长和第二通话时间点。其中，第二通话时长可以满足以下公式(4)，第二通话时间点可以满足以下公式(5)：

其中，FDur_i表示用户i与家庭成员通话的平均时长，N^*表示与用户发生通话关系的家庭成员的数目，N^*≤n，FDur_in表示用户i与家庭成员n之间的通话总时长

其中，FDur_it表示用户i在t时刻发生的人均通话时长，t∈[0，24]且t为整数，取值为0-24的整数表示自然时间，Time_i表示用户i的人均通话时长最大的时刻，Time∈[0，24]且Time为整数。

可选的，上述通话特征参数还可以包括：第三通话时长，第三通话时长为用户与工作伙伴通话的平均时长。

在一些实施例中，可以根据工作地址，或者在工作时间段拨打电话是否超过一定阈值，来确定用户的工作伙伴列表W＝{w₁，w₂，w₃，……，w_m}，其中，w代表工作伙伴，代表工作伙伴的编号。示例性的，可以将工作地址相同，或者在工作时间段内拨打电话超过一定阈值的用户，确定为工作伙伴。

作为一种可能的实现方式，根据工作伙伴列表来计算第三通话时长。第三通话时长可以满足以下公式(6)：

其中，WDur_i表示用户i与工作伙伴通话的平均时长，M^*表示与用户发生通话关系的工作伙伴的数目，M^*≤m，WDur_im表示用户i与工作伙伴m之间的通话总时长。

由于，婴幼儿家长在语音通话方面的表现与其他群体不同，例如，婴幼儿家长与家庭通话的时长更长，且婴幼儿家长会接到较多的与婴幼儿相关的机构的电话等。因此本申请实施例通过采集用户的语音通话数据，计算用户和与婴幼儿相关的机构的通话时长和通话数目，用户和家庭成员的通话时长和通话时间点，以及用户和工作伙伴的通话时长，将这些通话特征参数作为判断用户是否属于婴幼儿家长的特征参数。

应理解，上述通话特征参数还可以包含其他参数，本申请实施例对此不作限定。

S1022、根据应用访问数据，确定应用访问特征参数。

在一些实施例中，应用访问特征参数包括以下一项或者多项：第一得分、第二得分或者第三得分。

其中，第一得分用于反映用户属于第一家长的可能性，第一家长为婴幼儿的年龄为第一年龄段的家长。第二得分用于反映用户属于第二家长的可能性，第二家长为婴幼儿的年龄为第二年龄段的家长。第三得分用于反映用户属于婴幼儿家长的可能性。

可选的，上述婴幼儿的年龄段的划分可以根据教育领域对婴幼儿的培养特点进行划分，示例性的，上述第一年龄段可以为0至3岁，上述第二年龄段可以为3至6岁。

应理解，教育领域将婴幼儿群体按照年龄划分为第一年龄段的婴幼儿和第二年龄段的婴幼儿，根据不同年龄段的婴幼儿的特点，进行有针对性的培养。例如0至3岁的婴幼儿重点培养语言、动作和认知习惯等，3至6岁的婴幼儿重点培养识读和表达能力。当前教育行业针对这两个年龄段的婴幼儿群体分别提供相应的应用软件。因此，可以根据用户的应用访问数据，来确定用户属于第一家长的可能性、用户属于第二家长的可能性或者用户属于婴幼儿家长的可能性。

在一些实施例中，基于AHP算法，根据应用访问数据建立层次机构模型，来确定应用访问特征参数。

其中，AHP算法是将与决策有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法。AHP算法的本质是将要分析的问题层次化，根据问题的性质和所要达成的总目标，将问题分解成不同的组成因素，并按照这些因素的关联影响及其隶属关系，建立层次结构模型。

具体的，步骤S1022要解决的问题是：根据应有访问数据，确定应用访问特征参数，即确定第一得分、第二得分和第三得分；影响第一得分、第二得分和第三得分的因素为：用户对n(n为大于零的整数)个与婴幼儿相关的应用软件的访问得分；影响用户对n个与婴幼儿相关的应用软件的访问得分的因素为：用户对n个与婴幼儿相关的应用软件的访问流量、访问时长和访问次数。基于此，如图5所示，本申请实施例建立的层次结构模型包括：目标层、准则层和方案层。其中，目标层为第一得分A、第二得分B和第三得分C；准则层为用户对n个与婴幼儿相关的应用软件的访问得分；方案层为用户对n个与婴幼儿相关的应用软件的访问流量、访问时长和访问次数。

下面，基于图5，以用户i的应用访问数据为例，对计算用户i的应用访问参数的具体步骤进行介绍：

步骤一：数据标准化处理

对用户i访问与婴幼儿相关的n个应用软件的访问流量FLOW、访问时长DURI和访问次数NUM，进行数据标准化处理。可选的，可以采用正规化方法进行数据标准化处理，处理过程满足以下公式(7)：

其中，x＝{FLOW，DURI，NUM}，x_i表示用户i的三个指标的取值，y_i表示用户i的三个指标经标准化处理后的取值，y的均值为0，方差为1，并且无量纲。

上述公式(7)中的

可以满足以下公式(8)：

其中，n代表用户i访问的与婴幼儿相关的应用软件的数量。

上述公式(7)中的s可以满足以下公式(9)：

步骤二：计算准则层得分

采用1-5分标度法，评估用户i对与婴幼儿相关的应用软件k(k为整数且0＜k≤n)的访问流量FLOW、访问时长DURI、访问次数NUM，对于用户i对与婴幼儿相关的应用软件k的访问得分的重要性，得到判断矩阵a_pq。

其中，1-5分标度法中标度的含义可以参考表1：

表1

示例性的，采用1-5分标度法可以得到如表2所示的判断矩阵a_pq：

表2

根据判断矩阵a_pq，分别对用户i对与婴幼儿相关的应用软件k的访问流量FLOW、访问时长DURI、访问次数NUM进行归一化处理，得到访问流量FLOW的特征向量值、访问时长DURI的特征向量值和访问次数NUM的特征向量值，进而根据访问流量FLOW的特征向量值得到访问流量FLOW的权重值a，根据访问时长DURI的特征向量值得到访问时长DURI的权重值b，根据访问次数NUM的特征向量值得到访问次数NUM的权重值c。

如此，根据用户对域婴幼儿相关的应用软件k的访问流量FLOW、访问时长DURI、访问次数NUM，以及访问流量FLOW的权重值a，访问时长DURI的权重值b，访问次数NUM的权重值c，可以得到基准层中，用户对与婴幼儿相关的应用软件k的访问得分。可选的，用户对与婴幼儿相关的应用软件k的访问得分可以满足以下公式(10)：

Sckre_ik＝a×FLOW_ik+b×DURI_ik+c×NUM_ik 公式(10)

其中，Sckre_ik表示用户i使用与婴幼儿相关的应用软件k的得分，FLOW_ik表示用户i访问应用软件k使用的流量，DURI_ik表示用户i访问应用软件k的时长，NUM_ik表示用户i访问应用软件k的次数。

步骤三：计算目标层得分

可选的，用户i的第一得分A、第二得分B或第三得分C，可以满足以下公式(11)：

其中，Score_ij表示用户i的第一得分A、第二得分B或第三得分C(当j为A时，Score_ij为第一得分A；当j为B时，Score_ij为第二得分B；j为C时，Score_ij为第三得分C)，a_k表示用户i使用与婴幼儿相关的应用软件k的得分的权重值，a_k由与婴幼儿相关的应用软件k的时长占有率决定，

由于婴幼儿的年龄为不同年龄段的婴幼儿家长的关注点和使用习惯不同，例如婴幼儿的年龄属于0至3岁的婴幼儿家长更关注婴幼儿的语言、动作和认知习惯等方面的培养，婴幼儿的年龄属于3至6岁的婴幼儿家长更关注婴幼儿的识读和表达能力等方面的培养。因此本申请实施例通过采集用户对婴幼儿相关的应用软件的访问流量、访问时长以及访问次数，来分析用户属于婴幼儿的年龄为第一年龄段的家长的可能性(即第一得分)、用户属于婴幼儿的年龄为第二年龄段的家长的可能性(即第二得分)以及用户属于婴幼儿家长的可能性(即第三得分)，将这些应用访问特征参数作为判断用户是否属于婴幼儿家长用户的特征参数。

应理解，上述应用访问特征参数还可以包含其他参数，本申请实施例对此不作限定。

S1023、根据流量使用数据，确定流量使用特征参数。

可选的，流量使用特征参数包括以下一项或多项：白天时间段的流量方差或者夜间时间段的流量平均值。

其中，本申请实施例将一天24小时划分为白天时间段和夜间时间段，示例性的，白天时间段可以为7:00～18:00，夜间时间段可以为19:00～6:00。

作为一种可能的实现方式，白天时间段的流量方差可以满足以下公式(12)，夜间时间段的流量平均值可以满足以下公式(14)：

其中，D表示观察天数，DVFlow_i表示用户i的白天时间段的流量方差，DVFlow_id表示用户i在第d天的白天时间段的流量方差，DVFlow_id可以满足以下公式(13)：

其中，H表示观察小时，DFlow_ih表示用户i在第d天的白天时间段中每小时使用的流量，

表示用户i在第d天白天时间段中每小时使用流量的均值，hour表示白天时间段的整点取值。

其中，NFlow_i表示用户i的夜间时间段的流量平均值，NFlow_id表示用户i在第d天的夜间时间段使用的流量，hour表示夜间时间段的整点取值。

示例性的，表3列出了用户i的某3天的用户流量数据：

表3

根据表3所提供的数据，计算用户i的白天时间段的流量方差，计算过程如下：

用户i在第1天的白天时间段的流量方差：

用户i在第2天的白天时间段的流量方差：

用户i在第3天的白天时间段的流量方差：

用户i在白天时间段的流量方差：

根据表3所提供的数据，计算用户i的夜间时间段的流量平均值，计算过程如下：

用户i在第1天的夜间时间段使用的流量：

NFlow₁＝10+5+6+8+9+30+70+20+15+20＝193

用户i在第2天的夜间时间段使用的流量：

NFlow₂＝20+6+8+4+12+40+60+10+30+40＝230

用户i在第3天的夜间时间段使用的流量：

NFlow₃＝30+8+6+6+6+50+20+40+10+10＝148

用户i的夜间时间段的流量平均值：

NFlow＝(NFlow₁+NFlow₂+NFlow₃)/3＝(193+230+148)/3＝190.3

由于，婴幼儿家长在流量使用方面的表现与其他群体有差异，例如，婴幼儿家长需要周期性的照顾婴幼儿，因此夜间流量使用较少，而白天流量具有明显的周期性波动趋势。因此，本申请实施例通过采集用户的流量使用数据，计算用户的白天时间段的流量方差和夜间时间段的流量平均值，将这些流量使用特征参数作为判断用户是否属于婴幼儿家长用户的特征参数。

应理解，上述流量使用特征参数还可以包含其他参数，本申请实施例对此不作限定。

S1024、根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

在一些实施例中，基于AHP算法，根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

具体的，首先确定步骤S1024要解决的问题是：确定用户的身份概率值。在本申请实施例中，影响用户的身份概率值的因素包括：用户的通话指标得分、用户的身份分类指标得分和用户的流量使用指标得分；影响用户的通话指标得分的因素为用户的通话特征参数，包括用户的第一通话数目、第一通话时长、第二通话时长、第二通话时间点以及第三通话时长；影响用户的身份分类指标得分的因素为用户的应用访问特征参数，包括用户的第一得分、第二得分和第三得分，影响用户的流量使用指标得分的因素为用户的流量使用特征参数，包括用户的白天时间段的流量方差和夜间时间段的流量平均值。

基于此，如图6所示，本申请实施例建立的层次结构模型包括：目标层、准则层和方案层。其中，目标层为用户的身份概率值；准则层为用户的通话指标得分、身份分类指标得分和流量使用指标得分；方案层为影响通话指标得分的用户通话特征参数、影响身份分类指标得分的用户的应用访问特征参数，以及影响流量使用指标得分的用户的流量使用特征参数。

下面，基于图6，以用户i的通话特征参数、应用访问特征参数以及流量使用特征参数为例，对确定用户i的身份概率值的具体步骤进行介绍：

步骤一：数据标准化处理

对用户i的通话特征参数、应用访问特征参数以及流量使用特征参数进行标准化处理。可选的，可以采用正规划方法进行数据标准化处理，处理过程满足上述公式(7)、公式(8)以及公式(9)，此处以不再赘述。

步骤二：计算准则层得分

1、通话指标得分

采用1-5分标度法，评估用户i的通话特征参数对用户i的通话指标得分的重要性，得到判断矩阵A1。

示例性的，用户i的通话特征参数对用户i的通话指标得分的判断矩阵A1，可以如表4所示：

表4

其中，表4中的第一通话包括：第一通话数目和第一通话时长；第二通话包括：第二通话时长和第二通话时间点；第三通话包括：第三通话时长。

根据用户i的通话特征参数对用户i的通话指标得分的判断矩阵A1，计算特征向量值，进而根据特征向量值，得到用户i的通话特征参数对用户i的通话指标得分的权重矩阵WA1。

示例性的，用户i的通话特征参数对用户i的通话指标得分的权重矩阵WA1可以为：WA1＝(0.57，0.29，0.14)。

根据用户i的通话特征参数和用户i的通话特征参数对用户i的通话指标得分的权重矩阵WA1，得到用户i的通话指标得分。

2、身份分类指标得分

采用1-5分标度法评估用户i的应用访问特征参数对用户i的身份分类指标的得分的重要性，得到判断矩阵A2。

示例性的，用户i的应用访问特征参数对用户i的身份分类指标的得分的判断矩阵A2，可以如表5所示：

表5

根据用户i的应用访问特征参数对用户i的身份分类指标的得分的判断矩阵A2，计算特征向量值，进而根据特征向量值，得到用户i的应用访问特征参数对用户i的身份分类指标的得分的权重矩阵WA2。

示例性的，用户i的应用访问特征参数对用户i的身份分类指标的得分的权重矩阵WA2可以为：WA2＝(0.54，0.3，0.16)。

根据用户i的应用访问特征参数和用户i的应用访问特征参数对用户i的身份分类指标的得分的权重矩阵WA2，得到用户i的身份分类指标得分。

3、流量使用指标得分

采用1-5分标度法，评估用户i的流量使用特征参数对用户i的流量使用指标得分的重要性，得到判断矩阵A3。

示例性的，用户i的流量使用特征参数对用户i的流量使用指标得分的判断矩阵A3，可以如表6所示：

表6

根据用户i的流量使用特征参数对用户i的流量使用指标得分的判断矩阵A3，计算特征向量值，进而根据特征向量值，得到用户i的流量使用特征参数对用户i的流量使用指标得分的权重矩阵WA3。

示例性的，用户i的流量使用特征参数对用户i的流量使用指标得分的权重矩阵WA3可以为：WA3＝(0.67，0.33)。

根据用户i的流量使用特征参数和用户i的流量使用特征参数对用户i的流量使用指标得分的权重矩阵WA3，得到用户i的流量使用指标得分。

步骤三：计算身份概率值

采用1-5分标度法，评估用户i的通话指标得分、身份分类指标得分以及流量使用指标得分对用户i的身份概率值的重要性，得到判断矩阵B。

示例性的，用户i的通话指标得分、身份分类指标得分以及流量使用指标得分对用户i的身份概率值的判断矩阵B，可以如表7所示：

表7

根据用户i的通话指标得分、身份分类指标得分以及流量使用指标得分对用户i的身份概率值的判断矩阵B，计算特征向量值，根据特征向量值，得到用户i的通话指标得分、身份分类指标得分以及流量使用指标得分对用户i的身份概率值的权重矩阵WB。

示例性的，用户i的通话指标得分、身份分类指标得分以及流量使用指标得分对用户i的身份概率值的权重矩阵WB可以为：WB＝(0.54，0.3，0.16)。

根据用户i的通话指标得分、身份分类指标得分和流量使用指标得分，以及权重矩阵WB，得到用户i的身份概率值。

基于上述技术方案，本申请实施例采用AHP算法，建立层次机构模型，将影响用户为婴幼儿家长的概率值的因素，按照隶属关系自上而下的划分至不同的层次，根据下层因素对上层因素的影响确定权重，进而确定用户的身份概率值。如此，通过AHP算法综合全面的分析，可以准确的确定用户为婴幼儿家长的概率值，提高身份识别的精度。

可以看出，上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，本申请实施例提供了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本申请实施例可以根据上述方法示例对网络节点进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图7所示，为本申请实施例提供的一种身份识别装置的结构示意图。该身份识别装置可以用于执行如图1所示的身份识别方法。该身份识别装置300包括：数据获取模块301、数据处理模块302和身份识别模块303。

数据获取模块301，用于获取目标区域内的所有用户的运营商数据，以及目标区域内的婴幼儿家长的数目N，N为大于1的整数。

数据处理模块302，用于根据用户的运营商数据，确定目标区域内的每个用户的身份概率值，身份概率值为用户的身份是婴幼儿家长的概率值。

身份识别模块303，用于从目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

在一些实施例中，上述运营商数据包括：语音通话数据、应用访问数据和流量使用数据；上述数据处理模块302，具体用于根据语音通话数据，确定通话特征参数，通话特征参数包括：第一通话数目和/或第一通话时长，第一通话数目为用户与婴幼儿相关的机构通话的数目，第一通话时长为用户与婴幼儿相关的机构通话的平均时长；根据应用访问数据，确定应用访问特征参数；其中，应用访问特征参数包括以下一项或者多项：第一得分、第二得分或者第三得分；第一得分用于反映用户属于第一家长的可能性，第一家长为婴幼儿的年龄为第一年龄段的家长；第二得分用于反映用户属于第二家长的可能性，第二家长为婴幼儿的年龄为第二年龄段的家长；第三得分用于反映用户属于婴幼儿家长的可能性；根据流量使用数据，确定流量使用特征参数，流量使用特征参数包括以下一项或多项：白天时间段的流量方差或者夜间时间段的流量平均值；根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

在一些实施例中，上述通话特征参数还包括以下一项或者多项：第二通话时长、第二通话时间点或者第三通话时长，第二通话时长为用户与家庭成员通话的平均时长，第二通话时间点为用户与家庭成员通话的时间点，第三通话时长为用户与工作伙伴通话的平均时长。

在一些实施例中，数据处理模块，具体用于基于AHP算法，根据通话特征参数、应用访问特征参数以及流量使用特征参数，确定用户的身份概率值。

在一些实施例中，上述目标区域内婴幼儿家长的数目满足以下关系：

在采用硬件的形式实现上述集成的模块的功能的情况下，本发明实施例提供了上述实施例中所涉及的身份识别装置的另一种可能的结构示意图。如图8所示，该身份识别装置400包括：处理器402，通信接口403，总线404。可选的，该身份识别装置还可以包括存储器401。

处理器402，可以是实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器402可以是中央处理器，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器402也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信接口403，用于与其他设备通过通信网络连接。该通信网络可以是以太网，无线接入网，无线局域网(wireless local area networks，WLAN)等。

存储器401，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

作为一种可能的实现方式，存储器401可以独立于处理器402存在，存储器401可以通过总线404与处理器402相连接，用于存储指令或者程序代码。处理器402调用并执行存储器401中存储的指令或程序代码时，能够实现本发明实施例提供的身份识别方法。

另一种可能的实现方式中，存储器401也可以和处理器402集成在一起。

总线404，可以是扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线404可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将身份识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机指令来指示相关的硬件完成，该程序可存储于上述计算机可读存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的或内存。上述计算机可读存储介质也可以是上述身份识别装置的外部存储设备，例如上述身份识别装置上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，上述计算机可读存储介质还可以既包括上述身份识别装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述身份识别装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供一种计算机程序产品，该计算机产品包含计算机程序，当该计算机程序产品在计算机上运行时，使得该计算机执行上述实施例中所提供的任一项身份识别方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种身份识别方法，其特征在于，包括：

获取目标区域内的所有用户的运营商数据，以及所述目标区域内的婴幼儿家长的数目N，N为大于1的整数；

根据所述用户的运营商数据，确定所述目标区域内的每个用户的身份概率值，所述身份概率值为所述用户的身份是婴幼儿家长的概率值；

从所述目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

2.根据权利要求1所述的方法，其特征在于，所述运营商数据包括：语音通话数据、应用访问数据和流量使用数据；

所述根据所述用户的运营商数据，确定所述用户的身份概率值，包括：

根据所述语音通话数据，确定通话特征参数，所述通话特征参数包括：第一通话数目和/或第一通话时长，所述第一通话数目为所述用户与婴幼儿相关的机构通话的数目，所述第一通话时长为所述用户与婴幼儿相关的机构通话的平均时长；

根据所述应用访问数据，确定应用访问特征参数；其中，所述应用访问特征参数包括以下一项或者多项：第一得分、第二得分或者第三得分；所述第一得分用于反映所述用户属于第一家长的可能性，所述第一家长为婴幼儿的年龄为第一年龄段的家长；所述第二得分用于反映所述用户属于第二家长的可能性，所述第二家长为婴幼儿的年龄为第二年龄段的家长；所述第三得分用于反映所述用户属于婴幼儿家长的可能性；

根据所述流量使用数据，确定流量使用特征参数，所述流量使用特征参数包括以下一项或多项：白天时间段的流量方差或者夜间时间段的流量平均值；

根据所述通话特征参数、所述应用访问特征参数以及所述流量使用特征参数，确定所述用户的身份概率值。

3.根据权利要求2所述的方法，其特征在于，所述通话特征参数还包括以下一项或者多项：第二通话时长、第二通话时间点或者第三通话时长，所述第二通话时长为所述用户与家庭成员通话的平均时长，所述第二通话时间点为所述用户与家庭成员通话的时间点，所述第三通话时长为所述用户与工作伙伴通话的平均时长。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述通话特征参数、所述应用访问特征参数以及所述流量使用特征参数，确定所述用户的身份概率值，包括：

基于层次分析法AHP算法，根据所述通话特征参数、所述应用访问特征参数以及所述流量使用特征参数，确定所述用户的身份概率值。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述目标区域内婴幼儿家长的数目满足以下关系：

其中，α表示所述目标区域在第一年份的家庭人口数量，m表示所述目标区域在所述第一年份的幼儿园在校生数量，d表示从所述第一年份到当前调查日期所经历的月份数，n表示所述目标区域在所述第一年份的新生儿数量，所述第一年份指官方公布人口调查数据的年份。

6.一种身份识别装置，其特征在于，包括：

数据获取模块，用于获取目标区域内的所有用户的运营商数据，以及所述目标区域内的婴幼儿家长的数目N，N为大于1的整数；

数据处理模块，用于根据所述用户的运营商数据，确定所述目标区域内的每个用户的身份概率值，所述身份概率值为所述用户的身份是婴幼儿家长的概率值；

身份识别模块，用于从所述目标区域内的所有用户中，确定身份概率值最大的前N个用户的身份为婴幼儿家长。

7.根据权利要求6所述的装置，其特征在于，所述运营商数据包括：语音通话数据、应用访问数据和流量使用数据；

所述数据处理模块，具体用于根据所述语音通话数据，确定通话特征参数，所述通话特征参数包括：第一通话数目和/或第一通话时长，所述第一通话数目为所述用户与婴幼儿相关的机构通话的数目，所述第一通话时长为所述用户与婴幼儿相关的机构通话的平均时长；

8.根据权利要求7所述的装置，其特征在于，所述通话特征参数还包括以下一项或者多项：第二通话时长、第二通话时间点或者第三通话时长，所述第二通话时长为所述用户与家庭成员通话的平均时长，所述第二通话时间点为所述用户与家庭成员通话的时间点，所述第三通话时长为所述用户与工作伙伴通话的平均时长。

9.根据权利要求7或8所述的装置，其特征在于，所述数据处理模块，具体用于基于层次分析法AHP算法，根据所述通话特征参数、所述应用访问特征参数以及所述流量使用特征参数，确定所述用户的身份概率值。

10.根据权利要求6至8任一项所述的装置，其特征在于，所述目标区域内婴幼儿家长的数目满足以下关系：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机执行指令，当所述计算机执行指令在计算机上运行，使得计算机执行如权利要求1至5任一项所述的身份识别方法。