CN109241428B - 用户性别的确定方法、装置、服务器及存储介质 - Google Patents

用户性别的确定方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109241428B
CN109241428B CN201811030097.5A CN201811030097A CN109241428B CN 109241428 B CN109241428 B CN 109241428B CN 201811030097 A CN201811030097 A CN 201811030097A CN 109241428 B CN109241428 B CN 109241428B
Authority
CN
China
Prior art keywords
application software
user
gender
determining
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811030097.5A
Other languages
English (en)
Other versions
CN109241428A (zh
Inventor
方建生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201811030097.5A priority Critical patent/CN109241428B/zh
Publication of CN109241428A publication Critical patent/CN109241428A/zh
Application granted granted Critical
Publication of CN109241428B publication Critical patent/CN109241428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了用户性别的确定方法、装置、服务器及存储介质。所述方法包括:根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。利用该方法,无需通过特殊平台获取用户注册的性别信息或用户填写的信息,能够仅通过对终端用户历史上网数据的分析挖掘,准确高效的实现终端用户性别的确定,同时也提高了用户性别确定的准确率,进而达到了移动终端产业链上商家能够基于确定的用户性别针对性的进行产品推广和投放的效果。

Description

用户性别的确定方法、装置、服务器及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及用户性别的确定方法、装置、服务器及存储介质。
背景技术
随着移动终端(如智能手机以及智能平板等)的发展和普及,适用于移动终端的各种应用软件也应运而生。对于移动终端产业链上的供应商而言,为提高自身产品在移动互联网上的掌控能力,往往需要了解不同用户的使用偏好,从而针对性的进行产品功能设计,来不断提升自身产品的用户体验。一般情况下,用户的使用偏好往往可以通过用户性别体现。
在传统技术中,用户性别的确定依赖于用户的自行填写,或者通过用户注册时填写的性别信息获取,但是用户注册的个人信息属于隐私信息,往往需要特殊途径才能获取,而且传统的方法往往只能覆盖50%的用户,且可信度不高,有可能导致移动终端产业链上的开发商无法基于用户性别信息进行自身产品的准确推荐或投放。
发明内容
本发明实施例提供的用户性别的确定方法、装置、服务器及存储介质,能够准确有效的识别移动终端用户的性别。
第一方面,本发明实施例提供了一种用户性别的确定方法,包括:
根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;
根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;
获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
第二方面,本发明实施例还提供了一种用户性别的确定装置,包括:
词项集确定模块,用于根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;
关键应用筛选模块,用于根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;
性别确定模块,用于获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
第三方面,本发明实施例也提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的用户性别的确定方法。
第四方面,本发明实施例又提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例第一方面提供的用户性别的确定方法。
本发明实施例提供了用户性别的确定方法、装置、服务器及存储介质,该技术方案,能够通过终端用户在一定时间段内的历史上网行为数据,确定终端用户访问过哪些应用软件,并将这些应用软件以应用软件词项集的形式体现,还能够根据终端用户在一定时间内所访问应用软件之间的共现关系,准确的筛选出终端用户所访问的关键应用软件,并通过关键应用软件所具有的性别倾向标签,就能够准确有效的确定出终端用户的性别。与现有技术相比,本技术方案无需通过特殊平台获取用户注册的性别信息或用户填写的信息,能够仅通过对终端用户历史上网数据的分析挖掘,准确高效的实现终端用户性别的确定,同时也提高了用户性别确定的准确率,进而达到了移动终端产业链上商家能够基于确定的用户性别针对性的进行产品推广和投放的效果。
附图说明
图1是本发明实施例一提供的一种用户性别的确定方法的流程图;
图2是本发明实施例二提供的一种用户性别的确定方法的流程图;
图3是本发明实施例三提供的一种用户性别的确定装置的结构示意图;
图4是本发明实施例四提供的一种服务器的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种用户性别的确定方法的流程图,本实施例可适用于对移动终端用户的性别进行确定的情况,该方法可以由本发明实施例提供的用户性别的确定装置来执行,该装置可以由硬件和/或软件实现,并一般集成在服务器中。
需要说明的是,本实施例中服务器可看作一个对数据挖掘与分析处理的计算平台,可以对所有移动终端的使用者(终端用户)通过数据分析进行性别的确定。本实施例中的移动终端可以是手机以及平板电脑等能够通过移动互联网上网的电子设备。
如图1所述,本发明实施例一提供的一种用户性别的确定方法,包括如下步骤:
S101、根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集。
在本实施例中,对于移动终端而言,其上安装有多种多样的可以供终端用户使用的应用软件。可以理解的是,在移动终端处于联网状态时,移动互联网的服务器端可以实时记录各终端用户基于移动终端中各应用软件进行上网操作时的上网行为数据。本步骤可以通过移动互联网的服务器端采集获取终端用户在一定时间段内的历史上网行为数据。
在本实施例中,可以认为初始采集的上网行为数据仅以记录日期进行区分,同一记录日期下实际包含有多个终端用户的上网行为数据,本实施例可以根据用户标识(如终端用户的手机号或者移动终端的国际移动设备身份码等,能够唯一体现移动终端或移动终端用户的标识信息)对不同终端用户的上网行为数据进行分类整理,最终可获得对应于每个终端用户的在一定时间段内的历史上网行为数据。
本实施例中,历史上网行为数据中包括了终端用户访问各应用软件时的访问信息,示例性地,如访问时间信息、应用软件的名称信息以及应用软件对应的统一资源定位符信息等。由此,基于一定时间内的历史上网行为数据,可以确定中终端用户在该段时间内具体访问了哪些应用软件。所述应用软件词项集具体可理解为包含了终端用户所访问应用软件的应用名称且应用名称以词汇形式存在的应用软件集合,本步骤可以根据历史上网行为数据确定出终端用户所访问的应用软件及各应用软件的访问时序,由此可根据应用软件及访问时序确定出终端用户对应的应用软件词项集。
S102、根据应用软件词项集中应用软件间的共现关系筛选获得关键应用软件。
需要说明的是,共现关系可以理解为词语间的结伴关系,即在出现一个词语时,总会相应出现另一个与之搭配的词语,此时,可认为两词语间存在共现关系。本实施例中,应用软件词项集中应用软件间的共现关系具体可表现在当一个应用软件被终端用户访问后,另一个应用软件在一定时间内也被终端用户访问,这是可认为两应用软件间存在共现关系。
本实施例优选的认为应用软件词项集中各应用软件根据终端用户的访问时序进行排列,由此,本步骤可根据应用软件词项集中各应用软件的排列顺序,确定应用软件间的共现关系,示例性地,如,本步骤可认为一个应用软件与顺序排在其后的设定数量的应用软件均存在共现关系。本实施例可以根据应用软件间的共现关系,筛选出哪些应用软件是终端用户在一定时间内经常访问的,并由此将应用软件词项集中终端用户经常访问的应用软件确定为关键应用软件。本实施例基于该步骤往往可以确定出多个关键应用软件。
可以理解的是,通过终端用户的历史上网行为数据可以分析出终端用户在什么时间具体访问了哪些应用软件,且还可能存在终端用户在不同时间对同一应用软件进行多次访问的情况,因此同一应用软件可以在本实施例确定出的应用软件词项集中多次出现,此外,也可能存在同一应用软件连续被访问的情况,此时,同一应用软件应用软件词项集中连续出现多次,可以理解的是,当一个应用软件后排列的仍是该应用软件时,可认为该应用软件与自身也存在共现关系。
S103、获取各关键应用软件的性别倾向标签,并基于各性别倾向标签确定终端用户的性别。
在本实施例中,上述确定出的关键应用软件相当于终端用户偏好访问的应用软件,本实施例可以根据这些终端用户偏好访问的关键应用软件,来确定终端用户的性别。具体地,本实施例可以获取各关键应用软件的性别倾向标签,然后通过对各性别倾向标签中男性倾向占比与女性倾向占比的比较,具体确定终端用户的性别为女性还是男性。示例性地,当在应用软件词项集中确定出11个关键应用软件时,假设这11个关键应用软件所对应的性别倾向标签有7个标注为女性倾向,则可认为该终端用户的性别为女性。
在本实施例中,可以认为在确定关键应用软件之后,人为为各关键应用软件进行了性别倾向标签的标注,由此可以获取到各关键应用软件的性别倾向标签,也可以是从预先建立的应用软件与性别倾向的关系表中直接获取各关键应用软件的性别倾向标签。
本发明实施例一提供的一种用户性别的确定方法,能够通过终端用户在一定时间段内的历史上网行为数据,确定终端用户访问过哪些应用软件,并将这些应用软件以应用软件词项集的形式体现,还能够根据终端用户在一定时间内所访问应用软件之间的共现关系,准确的筛选出终端用户所访问的关键应用软件,并通过关键应用软件所具有的性别倾向标签,就能够准确有效的确定出终端用户的性别。与现有技术相比,该方法无需通过特殊平台获取用户注册的性别信息或用户填写的信息,能够仅通过对终端用户历史上网数据的分析挖掘,准确高效的实现终端用户性别的确定,同时也提高了用户性别确定的准确率,进而达到了移动终端产业链上商家能够基于确定的用户性别针对性的进行产品推广和投放的效果。
实施例二
图2是本发明实施例二提供的一种用户性别的确定方法的流程图,本实施例二在上述各实施例的基础上进行优化。在本实施例中,将根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件,进一步具体化为:根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,其中,所述应用软件间的共现关系基于所述应用软件词项集中应用软件的排列顺序确定;根据设定的得分计算公式,确定所述有向有权关系图中各顶点的实际得分值;将满足筛选条件的实际得分值对应的顶点确定为对应于所述终端用户的关键应用软件。
进一步的,本实施例还将根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集,进一步优化为:从运营商核心网络侧采集设定时间段内对应于终端用户的历史上网行为数据;从所述历史上网行为数据中提取所述终端用户对应的应用软件访问数据;根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集。
此外,本实施例在上述优化的基础上,还将获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别,具体优化为:在预设的应用软件标签类库中查找各所述关键应用软件对应的性别倾向标签;采用投票估测策略基于各所述关键应用软件的性别倾向标签,确定所述终端用户所对应关键应用软件的男性倾向占比和女性倾向占比;当所述男性倾向占比高于所述女性倾向占比时,确定所述终端用户为男性;否则,确定所述终端用户为女性。
如图2所示,本发明实施例二提供的一种用户性别的确定方法,具体包括如下步骤:
S201、从运营商核心网络侧采集设定时间段内对应于终端用户的历史上网行为数据。
具体地,本实施例可以直接从支持移动终端联网的运营商核心网络侧采集终端用户在设定时间段内的历史上网行为数据。可以理解的是,本步骤初始采集的历史上网行为数据含盖了多个终端用户(可以是该运营商核心网络所对应小区内的所有终端用户)的上网行为记录,由此需要进一步分类处理,以基于终端用户的用户标识,确定出不同终端用户对应的历史上网行为数据。本实施例优选采用的用户标识为终端用户的用户身份标识卡号码。
此外,本实施例中的设定时间段可以人为设置,如设置为1个月、3个月、半年或者更长,本实施例为保证所采集历史上网行为数据的有效性,优选将所述设定时间端设置为为半年,即本步骤可以从运营商核心网络侧采集半年内的历史上网行为数据进行分析挖掘。
S202、从历史上网行为数据中提取终端用户对应的应用软件访问数据。
具体地,终端用户的历史上网行为数据中包含了用户访问应用软件时的应用软件访问数据,本步骤可以根据应用软件对应的统一资源定位符从历史上网行为数据中提取出用户在设定时间段内的应用软件访问数据。
S203、根据应用软件访问数据,获得终端用户对应的应用软件词项集。
具体地,本实施例中的应用软件访问数据相当于包含了终端用户在设定时间段内所访问应用软件的数据包,一般地,终端用户进行对应用软件进行一次访问操作就会生成一个数据包,由此可认为应用软件访问数据中的每个数据包都相应存在一个生成时间并对应一个终端用户访问的应用软件,该生成时间也可看做用户访问应用软件的访问时间。本步骤可以确定出终端用户在设定时间段内访问了哪些应用软件,并可确定用户访问各应用软件的访问时间,之后可以根据各应用软件的访问时间对应用软件排序,形成包含排序后应用软件的应用软件词项集。
可以理解的是,该应用软件词项集中通过应用软件名称来表示对应的应用软件,且根据用户的访问时间和访问次数,同一应用软件可以连续或重复出现在应用软件词项集中。
进一步地,根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集,包括:获取所述应用软件访问数据中所包含应用软件数据包对应的生成时间和应用软件;根据各所述生成时间,确定相应各所述应用软件的用户访问时序及用户访问时长;根据所述用户访问时序和用户访问时长排列各所述应用软件,形成所述终端用户对应的应用软件词项集。
在本实施例中,应用软件访问数据中包含了终端用户在设定时间段内进行应用软件访问时生成的应用软件数据包,每个应用软件数据包中包含了该应用软件数据包的生成时间,同时包含了该应用软件数据包对应的应用软件(应用软件可以基于各自的应用名称进行区分确认),其中,对所述生成时间的记录可以详细到毫秒级,基于该生成时间可以确定终端用户访问各应用软件的访问时序,如,前一个应用软件数据包的生成时间对应第一应用软件app1,相邻后一个应用软件数据包的生成时间对应第二应用软件app2,则可认为此时的访问时序为终端用户先访问了第一应用软件app1,又访问了第二应用软件app2。此时,在应用软件词项集中,该第二应用软件app2排列在第一应用软件app1之后。
此外,基于应用软件数据包的生成时间,还可以确定应用软件的访问时长。示例性地,假设连续多个应用软件数据包都对应一个应用软件,此时可确定出该连续多个应用软件数据包中首个应用软件数据包的生成时间,并可确定出最后一个应用软件数据包的生成时间,由此可确定出该应用软件的持续时长,本实施例可将该持续时长确定为终端用户对该应用软件的访问时长。
一般情况下,本实施例可在应用软件词项集中对访问时长内的应用软件进行一次记录,但很多情况下,终端用户对一个应用软件的访问时长往往较长,仅在应用软件词项集对该应用软件进行一次记录无法表达终端用户对该应用软件的偏好,因此本实施例考虑基于访问时长对应用软件进行访问频次划分,以此来强调终端用户对应用软件的偏好程度。具体地,本实施例首先设定一个时长阈值,然后将应用软件的访问时长基于该时长阈值进行整除,并将整除结果加1作为该应用软件在应用软件词项集中的出现次数。示例性地,假设时长阈值为10分钟,第三应用软件app3的访问时长为25分钟,则整除结果为2,加1后为3,此时需要在应用软件词项集对第三应用软件进行3次记录,即,应用软件词项集中将以[app3,app3,app3]来表示终端用户对第三应用软件app3的访问。
基于本步骤的操作,本实施例可以获得一个以应用软件名称表示的应用软件词项集,对于包含在应用软件词项集中的应用软件,不仅表征了终端用户访问各应用软件的访问时序,也同时表征了终端用户对某应用软件的偏好程度。示例性地,假设本实施例最终获得的应用软件词项集为:{app1,app2,app3,app2,app1,app9,[app2,app2,app2,app2],app6,[app1,app1],......,app7},则基于该应用软件词项集,可以确定终端用户在设定时间段内具体访问了哪些应用软件,同时可以知道终端用户对各应用软件的访问时序,如,终端用户先访问app1接着访问app2,随后是app3;此外还可知终端用户偏好访问哪些应用软件,如终端用户访问app2的时长较长,所以app2连续出现4次。
S204、根据应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图。
在本实施例中,所述应用软件间的共现关系基于所述应用软件词项集中应用软件的排列顺序确定,具体地,可以将应用软件词项集中各应用软件之间存在的访问先后关系看作应用软件间的共现关系,示例性地,当第二应用软件紧跟在第一应用软件之后时,可认为第二应用软件与第一应用软件存在共现关系。可以理解的是,本实施例并不仅限定相连两应用软件之前存在共现关系,具体可根据实际设定共现关系规则来确定应用软件具体与哪些应用软件存在共现关系。
本实施例可以将应用软件词项集中的应用软件看作顶点,根据应用软件间的共现关系进行顶点间有向连接,且顶点间每进行一次有向连接就进行一次加权,最终可获取一个应用软件的有向有权关系图。
进一步地,根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,包括:从所述应用软件词项集中基于所述终端用户访问时序排列的首个应用软件开始,基于设定的共现关系圈定窗口,确定应用软件之间的共现关系;将所述应用软件词项集中的应用软件作为顶点,在存在共现关系的两顶点间形成有向边,并确定所述有向边的权重值;基于各顶点及顶点间的有向边构建形成应用软件的有向有权关系图。
在本实施例中,优选设定了一个共现关系的确定规则,即,设置一个共现关系圈定窗口,具体地,从应用软件词项集中首个应用软件开始,基于共现关系圈定窗口顺序圈定应用软件,然后认为落在共现关系圈定窗口中的应用软件间存在共现关系。
示例性地,对于第i个终端用户而言,在设定时间内可能访问了m个应用软件,最后可获得一个表示为si=[ti1,ti2,......,tin]的应用软件词项集,假设共现关系圈定窗口的大小为k,则[ti1,ti2,......,tik]、[ti2,ti3,......,tik+1]以及[ti3,ti4,......,tik+2]等都相当于一个共现关系圈定窗口,可认为落在共现关系圈定窗口中的应用软件都存在共现关系,此时可将落在一个共现关系圈定窗口中的任两个应用软件间构建一条边,且该条边的指向是共现关系圈定窗口中位于前面的应用软件指向位于后面的应用软件,如,ti1和ti2之间存在一条由ti1指向ti2的有向边,此时,该有向边的权值可记为1,如果在后续又出现ti1指向ti2的情况,则将该有向边的权值加1。基于上述描述,最终可以形成一个应用软件的有向有权关系图。
需要说明的是,假设遇到上述[app2,app2,app2,app2]的情况,且此时共现关系圈定窗口的大小为4,则可认为app2存在一条指向自身的边,还可计算出该边的权值为6。
S205、根据设定的得分计算公式,确定有向有权关系图中各顶点的实际得分值。
基于上述步骤构建有向有权关系图后,本实施例可基于该有向有权关系图中各边的权值通过设定的得分计算公式确定各顶点的实际得分值。
具体地,所述得分计算公式表示为:
Figure BDA0001789506160000131
其中,m为大于0的整数,表示得分计算的第m次迭代,d为阻尼系数,WS(m)(Vi)表示顶点Vi在第m次迭代时对应的实际得分值;In(Vi)表示顶点Vi的入边顶点集合;Wji表示顶点Vj指向顶点Vi时对应的权重值;Out(Vj)表示顶点Vj的出边顶点集合;Wjk表示顶点Vj指向顶点Vk时对应的权重值;WS(m-1)(Vj)表示顶点Vj在第m-1次迭代时对应的实际得分值。
在本实施例中,可以确定出有向有权关系图中顶点Vi对应的入边顶点集合In(Vi)和出边顶点集合Out(Vi),且基于上述得分计算公式计算实际得分值的过程实际为一个不断迭代计算的过程。具体地,本实施例首先需要为有向有权关系图中各顶点设定一个初始得分值,该初始得分值可以随机设定,然后基于上述得分计算公式,可以计算出各顶点在当前迭代下对应的实际得分值,之后将各顶点在当前迭代下对应的实际得分值与上一次迭代下确定的实际得分值进行求差计算,如果计算所得差值均小于或等于设定极限值(如0.0001),则可结束得分的迭代计算,并将当前迭代下对应的实际得分值确定为各顶点最终的实际得分值;否则,在当前迭代的基础上继续进行下一次迭代计算,并重复进行迭代收敛验证。需要说明的是,上述得分计算公式中的阻尼系数d可优选设定为0.85。
S206、将满足筛选条件的实际得分值对应的顶点所代表的应用软件确定为终端用户的关键应用软件。
在本实施例中,通过S205的计算,获得各顶点最终的实际得分值后,可以基于实际得分值由高到低对各顶点进行排序,本实施例可优选设定筛选条件为实际得分值大于设定得分阈值,或者,设定由大到小排序后排在前t位的实际得分值等。由此获得符合筛选条件的实际得分值,进一步可确定各实际得分值对应的顶点,最终可确定出筛选获得的各顶点所代表的应用软件,并将这些应用软件确定为终端用户的关键应用软件。
需要说明的是,为避免后续进行男女性别确定时占比结果出现等值的情况,本步骤可优选设定筛选获得奇数个关键应用软件。
S207、在预设的应用软件标签类库中查找各关键应用软件对应的性别倾向标签。
在本实施例中,可认为预先存在一个应用软件标签类库,该应用软件标签类库具体汇集了各应用软件及其对应的性别倾向标签,示例性地,如应用名称为妈妈帮的应用软件,其对应的性别倾向标签为女性倾向,又如,应用名称为一起踢球的应用软件,其对应的性别倾向标签为男性倾向,以及,应用名称为微信的应用软件,其对应的性别倾向标签为中性倾向。可以理解的是,本实施例中的应用软件标签类库可以实时进行人工更新积累,以保证基于该应用软件标签库就可以全面的获取各应用软件的性别倾向标签。
此外,本实施例为保证终端用户性别确定结果的准确度,在确定关键应用软件后,可以基于各关键应用软件的性别倾向标签,筛选剔除性别倾向标签为中性的关键应用软件,同时,如果筛选剔除后关键应用软件的数量剩余较少,可优选的在之前确定关键应用软件的基础上,再次确定出设定个数的关键应用软件进行填补。
S208、采用投票估测策略基于各关键应用软件的性别倾向标签,确定终端用户所对应关键应用软件的男性倾向占比和女性倾向占比。
本实施例具体采用了投票法机制,通过关键应用软件的性别倾向标签,可以确定中关键应用软件中的男性倾向占比和女性倾向占比。示例性地,如最终确定出15个关键应用软件,其中9个关键应用软件的性别倾向标签为女性倾向,6个关键应用软件的性别倾向标签为男性倾向,则可确定女性倾向占比为9/15,男性倾向占比为6/15。
S209、当男性倾向占比高于女性倾向占比时,确定终端用户为男性;否则,确定终端用户为女性。
在本实施例中,通过男性倾向占比与女性倾向占比的结果比较,可以在男性倾向占比高于女性倾向占比时,将终端用户确定为男性;并在男性倾向占比低于女性倾向占比时,将终端用户确定为女性。接上述示例,可以发现男性倾向占比6/15低于女性倾向占比9/15,因此,可将对应的终端用户确定为女性。
本发明实施例二提供的一种用户性别的确定方法,具体化了应用软件词项集的确定操作,同时具体化了关键应用软件的确定操作,以及具体化了终端用户性别的确定操作。本实施例中应用软件词项集的确定,具体表征了终端用户的应用软件访问情况和访问时序,之后通过对终端用户所访问应用软件之间的共现关系实现了关键应用软件的筛选确定,通过该步骤的操作有效确定了终端用户的软件访问偏好,最终根据终端用户所偏好关键应用软件的性别倾向,实现了终端用户性别的有效确定。利用该方法,有效提高了终端用户性别确定的覆盖率,并相应提高了终端用户性别确定的准确率,进而保证了移动终端产业链上商家能够准确有效的基于用户性别针对性的进行产品推广和投放。
实施例三
图3是本发明实施例三提供的一种用户性别的确定装置的结构示意图,本实施例可适用于对移动终端用户的性别进行确定的情况,该装置可以由硬件和/或软件实现,并一般集成在服务器中。如图3所示,该装置包括:词项集确定模块31、关键应用筛选模块32以及性别确定模块33。
其中,词项集确定模块31,用于根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;
关键应用筛选模块32,用于根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;
性别确定模块33,用于获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
在本实施例中,该装置首先词项集确定模块31根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;然后通过关键应用筛选模块32根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;最终通过性别确定模块33获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
本发明实施例三提供的一种用户性别的确定装置,能够通过终端用户在一定时间段内的历史上网行为数据,确定终端用户访问过哪些应用软件,并将这些应用软件以应用软件词项集的形式体现,还能够根据终端用户在一定时间内所访问应用软件之间的共现关系,准确的筛选出终端用户所访问的关键应用软件,并通过关键应用软件所具有的性别倾向标签,就能够准确有效的确定出终端用户的性别。与现有技术相比,本技术方案无需通过特殊平台获取用户注册的性别信息或用户填写的信息,能够仅通过对终端用户历史上网数据的分析挖掘,准确高效的实现终端用户性别的确定,同时也提高了用户性别确定的准确率,进而达到了移动终端产业链上商家能够基于确定的用户性别针对性的进行产品推广和投放的效果。
进一步的,关键应用筛选模块32,包括:
关系图构建单元,用于根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,其中,所述应用软件间的共现关系基于所述应用软件词项集中应用软件的排列顺序确定;
得分值确定单元,用于根据设定的得分计算公式,确定所述有向有权关系图中各顶点的实际得分值;
关键应用获取单元,用于将满足筛选条件的实际得分值对应的顶点所代表的应用软件确定为所述终端用户的关键应用软件。
在上述优化的基础上,所述关系图构建单元,具体用于:
从所述应用软件词项集中基于所述终端用户访问时序排列的首个应用软件开始,基于设定的共现关系圈定窗口,确定应用软件之间的共现关系;将所述应用软件词项集中的应用软件作为顶点,在存在共现关系的两顶点间形成有向边,并确定所述有向边的权重值;基于各顶点及顶点间的有向边构建形成应用软件的有向有权关系图。
基于上述技术方案,所述得分计算公式表示为:
Figure BDA0001789506160000181
其中,m为大于0的整数,表示得分计算的第m次迭代,d为阻尼系数,WS(m)(Vi)表示顶点Vi在第m次迭代时对应的实际得分值;In(Vi)表示顶点Vi的入边顶点集合;Wji表示顶点Vj指向顶点Vi时对应的权重值;Out(Vj)表示顶点Vj的出边顶点集合;Wjk表示顶点Vj指向顶点Vk时对应的权重值;WS(m-1)(Vj)表示顶点Vj在第m-1次迭代时对应的实际得分值。
进一步的,词项集确定模块31,包括:
行为数据采集单元,用于从运营商核心网络侧采集设定时间段内对应于终端用户的历史上网行为数据;
访问数据提取单元,用于从所述历史上网行为数据中提取所述终端用户对应的应用软件访问数据;
词项集获取单元,用于根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集。
进一步地,词项集获取单元,具体用于:
获取所述应用软件访问数据中所包含应用软件数据包对应的生成时间和应用软件;根据各所述生成时间,确定相应各所述应用软件的用户访问时序及用户访问时长;根据所述用户访问时序和用户访问时长排列各所述应用软件,形成所述终端用户对应的应用软件词项集。
在上述优化的基础上,性别确定模块33,具体用于:
在预设的应用软件标签类库中查找各所述关键应用软件对应的性别倾向标签;采用投票估测策略基于各所述关键应用软件的性别倾向标签,确定所述终端用户所对应关键应用软件的男性倾向占比和女性倾向占比;当所述男性倾向占比高于所述女性倾向占比时,确定所述终端用户为男性;否则,确定所述终端用户为女性。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四提供的一种服务器的硬件结构示意图。如图4所示,该服务器包括:一个或多个处理器41,图4中以一个处理器41为例;存储器42;所述服务器还可以包括:输入装置43和输出装置44。
所述服务器中的处理器41、存储器42、输入装置43和输出装置44可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器42作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的用户性别的确定方法对应的程序指令/模块(例如,附图3所示的词项集确定模块31、关键应用筛选模块32以及性别确定模块33)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的用户性别的确定方法。
存储器42可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器42可选包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
并且,当上述服务器所包括一个或者多个程序被所述一个或者多个处理器41执行时,程序进行如下操作:根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
此外,输入装置43可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
此外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例一或实施例二提供用户性别的确定方法,该方法包括:根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
同时,本发明实施例还提供了一种计算机程序,该计算机程序被执行时可以实现本发明实施例提供的用户性别的确定方法,该方法包括:
根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集;根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别。
进一步地,所述根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件,包括:根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,其中,所述应用软件间的共现关系基于所述应用软件词项集中应用软件的排列顺序确定;根据设定的得分计算公式,确定所述有向有权关系图中各顶点的实际得分值;将满足筛选条件的实际得分值对应的顶点所代表的应用软件确定为所述终端用户的关键应用软件。
进一步地,所述根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,包括:从所述应用软件词项集中基于所述终端用户访问时序排列的首个应用软件开始,基于设定的共现关系圈定窗口,确定应用软件之间的共现关系;将所述应用软件词项集中的应用软件作为顶点,在存在共现关系的两顶点间形成有向边,并确定所述有向边的权重值;基于各顶点及顶点间的有向边构建形成应用软件的有向有权关系图。
进一步地,所述得分计算公式表示为:
Figure BDA0001789506160000221
其中,m为大于0的整数,表示得分计算的第m次迭代,d为阻尼系数,WS(m)(Vi)表示顶点Vi在第m次迭代时对应的实际得分值;In(Vi)表示顶点Vi的入边顶点集合;Wji表示顶点Vj指向顶点Vi时对应的权重值;Out(Vj)表示顶点Vj的出边顶点集合;Wjk表示顶点Vj指向顶点Vk时对应的权重值;WS(m-1)(Vj)表示顶点Vj在第m-1次迭代时对应的实际得分值。
进一步地,所述根据采集的历史上网行为数据,确定终端用户对应的应用软件词项集,包括:从运营商核心网络侧采集设定时间段内对应于终端用户的历史上网行为数据;从所述历史上网行为数据中提取所述终端用户对应的应用软件访问数据;根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集。
进一步地,所述根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集,包括:获取所述应用软件访问数据中所包含应用软件数据包对应的生成时间和应用软件;根据各所述生成时间,确定相应各所述应用软件的用户访问时序及用户访问时长;根据所述用户访问时序和用户访问时长排列各所述应用软件,形成所述终端用户对应的应用软件词项集。
进一步地,所述获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别,包括:在预设的应用软件标签类库中查找各所述关键应用软件对应的性别倾向标签;采用投票估测策略基于各所述关键应用软件的性别倾向标签,确定所述终端用户所对应关键应用软件的男性倾向占比和女性倾向占比;当所述男性倾向占比高于所述女性倾向占比时,确定所述终端用户为男性;否则,确定所述终端用户为女性。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种用户性别的确定方法,其特征在于,包括:
从运营商核心网络侧采集设定时间段内对应于终端用户的历史上网行为数据;
从所述历史上网行为数据中提取所述终端用户对应的应用软件访问数据;
根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集;
根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;
获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别;
其中,根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集,包括:
获取所述应用软件访问数据中所包含应用软件数据包对应的生成时间和应用软件;
根据各所述生成时间,确定相应各所述应用软件的用户访问时序及用户访问时长;
根据所述用户访问时序和用户访问时长排列各所述应用软件,形成所述终端用户对应的应用软件词项集,所述用户访问时长用于对应用软件的访问频次进行划分,且所述应用软件在所述应用软件词项集中的记载次数至少为所述访问频次;所述应用软件词项集中应用软件按照访问时序排列;
历史上网行为数据中包括了终端用户访问各应用软件时的访问时间信息、应用软件的名称信息以及应用软件对应的统一资源定位符信息,
所述从历史上网行为数据中提取终端用户对应的应用软件访问数据,包括:
根据应用软件对应的统一资源定位符,从历史上网行为数据中提取用户在设定时间段内的应用软件访问数据;
所述应用软件在所述应用软件词项集中的记载次数的确定包括:
将所述应用软件的用户访问时长与预设的时长阈值进行整除;
将整除结果加1作为所述应用软件所述应用软件词项集中的记载次数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件,包括:
根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,其中,所述应用软件间的共现关系基于所述应用软件词项集中应用软件的排列顺序确定;
根据设定的得分计算公式,确定所述有向有权关系图中各顶点的实际得分值;
将满足筛选条件的实际得分值对应的顶点所代表的应用软件确定为所述终端用户的关键应用软件。
3.根据权利要求2所述的方法,其特征在于,所述根据所述应用软件词项集中应用软件间的共现关系,构建以应用软件为顶点的有向有权关系图,包括:
从所述应用软件词项集中基于所述终端用户访问时序排列的首个应用软件开始,基于设定的共现关系圈定窗口,确定应用软件之间的共现关系;
将所述应用软件词项集中的应用软件作为顶点,在存在共现关系的两顶点间形成有向边,并确定所述有向边的权重值;
基于各顶点及顶点间的有向边构建形成应用软件的有向有权关系图。
4.根据权利要求2所述的方法,其特征在于,所述得分计算公式表示为:
Figure FDA0002937125160000031
其中,m为大于0的整数,表示得分计算的第m次迭代,d为阻尼系数,WS(m)(Vi)表示顶点Vi在第m次迭代时对应的实际得分值;In(Vi)表示顶点Vi的入边顶点集合;Wji表示顶点Vj指向顶点Vi时对应的权重值;Out(Vj)表示顶点Vj的出边顶点集合;Wjk表示顶点Vj指向顶点Vk时对应的权重值;WS(m-1)(Vj)表示顶点Vj在第m-1次迭代时对应的实际得分值。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别,包括:
在预设的应用软件标签类库中查找各所述关键应用软件对应的性别倾向标签;
采用投票估测策略基于各所述关键应用软件的性别倾向标签,确定所述终端用户所对应关键应用软件的男性倾向占比和女性倾向占比;
当所述男性倾向占比高于所述女性倾向占比时,确定所述终端用户为男性;否则,确定所述终端用户为女性。
6.一种用户性别的确定装置,其特征在于,包括:
词项集确定模块,包括:
行为数据采集单元,用于从运营商核心网络侧采集设定时间段内对应于终端用户的历史上网行为数据;
访问数据提取单元,用于从所述历史上网行为数据中提取所述终端用户对应的应用软件访问数据;
词项集获取单元,用于根据所述应用软件访问数据,获得所述终端用户对应的应用软件词项集;
关键应用筛选模块,用于根据所述应用软件词项集中应用软件间的共现关系筛选获得关键应用软件;
性别确定模块,用于获取各所述关键应用软件的性别倾向标签,并基于各所述性别倾向标签确定所述终端用户的性别;
其中,词项集获取单元获取所述应用软件访问数据中所包含应用软件数据包对应的生成时间和应用软件;根据各所述生成时间,确定相应各所述应用软件的用户访问时序及用户访问时长;根据所述用户访问时序和用户访问时长排列各所述应用软件,形成所述终端用户对应的应用软件词项集;
所述用户访问时长用于对应用软件的访问频次进行划分,且所述应用软件在所述应用软件词项集中的记载次数至少为所述访问频次;所述应用软件词项集中应用软件按照访问时序排列;
历史上网行为数据中包括了终端用户访问各应用软件时的访问时间信息、应用软件的名称信息、应用软件对应的统一资源定位符信息,
所述访问数据提取单元执行从历史上网行为数据中提取终端用户对应的应用软件访问数据的步骤包括:
根据应用软件对应的统一资源定位符,从历史上网行为数据中提取用户在设定时间段内的应用软件访问数据;
所述词项集获取单元执行应用软件在所述应用软件词项集中的记载次数的确定步骤包括:
将所述应用软件的用户访问时长与预设的时长阈值进行整除;
将整除结果加1作为所述应用软件所述应用软件词项集中的记载次数。
7.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5任一所述的用户性别的确定方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一所述的用户性别的确定方法。
CN201811030097.5A 2018-09-05 2018-09-05 用户性别的确定方法、装置、服务器及存储介质 Active CN109241428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811030097.5A CN109241428B (zh) 2018-09-05 2018-09-05 用户性别的确定方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811030097.5A CN109241428B (zh) 2018-09-05 2018-09-05 用户性别的确定方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109241428A CN109241428A (zh) 2019-01-18
CN109241428B true CN109241428B (zh) 2021-07-02

Family

ID=65060607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811030097.5A Active CN109241428B (zh) 2018-09-05 2018-09-05 用户性别的确定方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109241428B (zh)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630768B2 (en) * 2006-05-22 2014-01-14 Inthinc Technology Solutions, Inc. System and method for monitoring vehicle parameters and driver behavior
JP6039287B2 (ja) * 2011-08-01 2016-12-07 ネイバー コーポレーションNAVER Corporation ブログを推薦するシステム及び方法
US9747330B2 (en) * 2013-03-15 2017-08-29 Brightcove Inc. Demographic determination for media consumption analytics
CN104750704B (zh) * 2013-12-26 2018-06-26 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN106033428B (zh) * 2015-03-11 2019-08-30 北大方正集团有限公司 统一资源定位符的选择方法和统一资源定位符的选择装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN105469284A (zh) * 2015-12-30 2016-04-06 深圳市鼎芯无限科技有限公司 判断用户兴趣度的方法及装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107357782B (zh) * 2017-06-29 2020-12-18 深圳市金立通信设备有限公司 一种识别用户性别的方法及终端
CN107704547B (zh) * 2017-09-26 2022-01-14 英望科技(山东)有限公司 一种通过手机使用行为识别性别的方法
CN108230101B (zh) * 2017-12-29 2022-05-17 百度在线网络技术(北京)有限公司 信息推荐方法和装置

Also Published As

Publication number Publication date
CN109241428A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN110245165B (zh) 风险传导关联图谱优化方法、装置和计算机设备
CN112543176A (zh) 一种异常网络访问检测方法、装置、存储介质及终端
CN108399180B (zh) 一种知识图谱构建方法、装置及服务器
WO2021027595A1 (zh) 用户画像生成方法、装置、计算机设备和计算机可读存储介质
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104899220A (zh) 应用程序推荐方法和系统
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
CN109063000A (zh) 问句推荐方法、客服系统以及计算机可读存储介质
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN105721629A (zh) 用户标识匹配方法和装置
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN106844550B (zh) 一种虚拟化平台操作推荐方法及装置
CN111932308A (zh) 数据推荐方法、装置和设备
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN112463859A (zh) 基于大数据和业务分析的用户数据处理方法及大数据平台
CN103324641A (zh) 信息记录推荐方法和装置
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN111062736A (zh) 模型训练、线索排序方法、装置及设备
CN108959289B (zh) 网站类别获取方法和装置
US20160292258A1 (en) Method and apparatus for filtering out low-frequency click, computer program, and computer readable medium
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
CN111882224A (zh) 对消费场景进行分类的方法和装置
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant