CN112685618A - 用户特征识别方法、装置、计算设备及计算机存储介质 - Google Patents

用户特征识别方法、装置、计算设备及计算机存储介质 Download PDF

Info

Publication number
CN112685618A
CN112685618A CN201910990278.0A CN201910990278A CN112685618A CN 112685618 A CN112685618 A CN 112685618A CN 201910990278 A CN201910990278 A CN 201910990278A CN 112685618 A CN112685618 A CN 112685618A
Authority
CN
China
Prior art keywords
user
industry
list
data
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910990278.0A
Other languages
English (en)
Inventor
蔡韵
全东方
储晶星
傅一平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910990278.0A priority Critical patent/CN112685618A/zh
Publication of CN112685618A publication Critical patent/CN112685618A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及大数据技术领域,公开了一种用户特征识别方法、装置、计算设备及计算机存储介质,该方法包括:采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。通过上述方式,本发明实施例能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。

Description

用户特征识别方法、装置、计算设备及计算机存储介质
技术领域
本发明实施例涉及大数据技术领域,具体涉及一种用户特征识别方法、装置、计算设备及计算机存储介质。
背景技术
随着移动通信技术与互联网的快速发展,通信运营商在生产经营中产生、收集、存储海量的数据信息。如何让数据呈现价值,驱动企业精细化运营?是企业大数据运营亟待解决的问题。然而面对的是一个个冰冷的号码、海量的详单数据以及庞大的文本数据、图片、音频视频等非结构化数据,如何从海量数据中洞察用户需求,发现市场商机,通信运营商们纷纷做了各种尝试,试图通过大数据方法解开数据背后的奥秘,意图清晰地了解用户行为特征。
目前常用的用户特征识别方法包括:利用挖掘模型识别潜在需求用户,以业务营销目标导向,进行已购买用户的特征分析,利用数据挖掘算法构建潜在识别模型,找出营销潜在目标用户群;利用企业自身运营数据进行用户画像,通过生产经营过程中,收集到的用户基本信息、使用行为、消费历史、触点记录等数据源,提炼业务特征,构建用户的各类标签属性,进行用户画像分析,了解用户特征;收集外部数据与内部数据结合,如收集酒店类号码、餐饮外卖数据等,与企业已有的用户行为数据结合,利用数据分析方法,识别用户的偏好特征;利用互联网公开信息,通过网络爬虫工具,对指定网站的页面信息进行抓取,收集用户的购买信息、商品信息、价格等,根据需要开展特定产品的用户偏好特征分析或市场竞争报告;一些管理咨询公司、调研公司通过设定问卷,以人工外呼方式对圈定用户进行逐个甄别收集。有的企业则通过渠道人员逐个拜访,填写上报的方式了解用户的特征及需求。
现有用户特征识别技术可使用的数据信息较少,相关联数据无法解读,对用户特征的解读并不全面,导致模型识别的用户特征准确性不高;分析维度单一,一次建模只能获取用户某一个方面的需求,单一维度预判用户对某些行为的倾向性概率,营销人员并不能理解用户的需求,有哪些其他偏好可能。
发明内容
鉴于上述问题,本发明实施例提供了一种用户特征识别方法、装置、计算设备及计算机存储介质,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种用户特征识别方法,所述方法包括:采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
在一种可选的方式中,所述采集用户行为数据,包括:采集运营域用户上网的DPI数据、以及用户移动位置数据;采集业务域的用户基本资料数据和账务行为数据,以及交换机上的通话详单数据、短信详单数据、测量报告详单数据。
在一种可选的方式中,所述根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单之前,包括:通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;根据所述带业务标签的事件清单构建行业知识图谱库。
在一种可选的方式中,所述通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单,包括:对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据;对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据;对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。
在一种可选的方式中,所述根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单,包括:对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单;对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。
在一种可选的方式中,所述根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,包括:将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型;基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式;基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
在一种可选的方式中,所述应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求,包括:
应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值,其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一;应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向;对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。
根据本发明实施例的另一个方面,提供了一种用户特征识别装置,所述装置包括:数据采集单元,用于采集用户行为数据;知识解读单元,用于根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;特征识别单元,用于根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述用户特征识别方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述用户特征识别方法的步骤。
本发明实施例通过采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的用户特征识别方法的流程示意图;
图2示出了本发明实施例提供的用户特征识别方法的步骤S13的方法示意图;
图3示出了本发明实施例提供的用户特征识别装置的结构示意图;
图4示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的用户特征识别方法的流程示意图。如图1所示,本发明实施例的用户特征识别方法应用于大数据平台,包括:
步骤S11:采集用户行为数据。
采集运营域(O域)用户上网深度包检测(Deep Packet Inspection,DPI)数据、以及用户移动位置数据。还采集业务域(B域)的用户基本资料数据和账务行为数据、以及交换机上的通话详单数据、短信详单数据、测量报告详单数据等,并将采集的用户行为数据输入大数据平台。
步骤S12:根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单。
在步骤S12之前,需要构建并存储行业知识图谱库。具体地,通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;根据所述带业务标签的事件清单构建行业知识图谱库,并进行存储。
在本发明实施例中,构建行业知识图谱库时,对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据。其中,通话维度数据可以是语音或短信相关通信数据。更具体地,基于用户通话详单数据按照爬虫能力估算提取活跃的主叫号码,可以取排名靠前的若干主叫号码形成主叫活跃清单,从百度、360等网站爬取与主叫号码相关的统一资源定位符(Uniform Resource Locator,URL),获取主叫活跃清单中的主叫号码的互联网标记,形成知识库清单数据。因为是主叫活跃所以号码鲜活,每天爬取最新网页信息,动态更新,且可从通话、位置、上网等多维度校验修正。
对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据。具体地,为获取用户DPI访问内容信息,可以应用DPI深度解析技术对互联网日志进行解析;再根据解析规则过滤相应DPI日志还原真实URL;通过此URL爬取页面内容;最终解析页面要素形成知识库清单数据。即对用户行为数据根据URL、公众号、APP、关键词、位置等进行踢重处理,解析提取出踢重处理后的唯一特征编码,进而爬取还原真实URL,对特征标注业务标签形成知识库清单数据。以视频解析为例,通过DPI日志解析,总结视频解析规则,获取资源特征编码,根据解析出的资源特征编码还原出真实URL,以供爬取对应页面内容,爬取页面要素,形成视频播放日志。
进一步地,对于根据用户行为数据形成的知识库清单数据,对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。具体地,借鉴互联网热门网站行业分类,结合传统移动黄页、兴趣点(Point ofInterest,POI)分类等形成带业务标签的事件清单,进而可以根据带业务标签的事件清单构建行业知识图谱库。将通过外部爬取和号码黄页构建的知识库清单数据,通过自然语言的分词、分类和映射形成带业务标签的事件清单,最终形成行业知识图谱库,并进行存储。如获取商家的url、id、名称、地址经纬度、电话号码、原始网站分类、简介、评论等互联网信息,作为待分类项目。根据待分类项目的原始分类、项目名称、简介、评论等信息,基于自然语言处理算法,计算爬取文本与行业体系内各分类的相似度,形成带业务标签的事件清单,逐一归并到行业知识图谱库中,完成待分类项目与行业体系的映射。
在步骤S12中,对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单。具体地,基于行业知识图谱库将用户行为数据转化成带业务标签的事件清单,构成用户行为的用户行业知识清单。带业务标签的事件清单包括关键字搜索行为、上网内容、APP使用、公众号访问、通话行为、测量报告(Measurement Report,MR)位置、短信行为等七个维度的行业事件清单。
对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。即,对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据,然后对知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单,进而构成用户行为的用户行业知识清单;同时将带业务标签的事件清单纳入行业知识图谱库,并更新行业知识图谱库。对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据,然后对知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单,进而构成用户行为的用户行业知识清单;同时将带业务标签的事件清单纳入行业知识图谱库,并更新行业知识图谱库。
相比于传统的用户挖掘模型与用户画像往往针对单个业务领域进行探索建模,要扩充新行业领域减时仍需重新建模的问题,本发明实施例基于大数据平台数据,采用DPI解析、爬取自更新公台构建自适应的行业知识图谱库,能够实现自动及时扩充有效行业领域画像识别,提高应用成效与应用领域。
步骤S13:根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
用户行为数据通过前置流程处理,仅是将用户的通话信息、上网信息、搜索行为、APP行为、MR位置信息转换成带业务标签和归类的事件清单,还只是用户的事件翻译,在用户洞察和用户画像方面,仍需进一步工作。
在步骤S13中,如图2所示,包括:
步骤S131:将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型。
用户行业知识清单可以包括关键字搜索行为、上网内容、APP使用、公众号访问、通话行为、MR位置、短信行为等七个维度的行业事件清单中的至少其中之一。用户基本属性包括但不限于身份属性、业务使用属性以及消费属性。本发明实施例将行业事件清单和用户基本属性进行汇总,制成汇总的标准融合模型。标准融合模型包括全行业事件融合模型和用户基本属性融合模型。其中,用户基本属性融合模型包括:用户编号、年龄、入网时间、常驻地、工作地、籍贯、机型、终端品牌、订购产品、消费的每用户平均收入(ARPU-AverageRevenuePerUser,ARPU)等信息。全行业事件融合模型包括:用户编号、一级行编码、二级行编码、三级行编码、…、一级行业、二级行业、三级行业、…、主叫通话时长、主叫通话个数、主叫通话次数、…、主叫通话时长、…、收到短信个数、收到短信次数、…、APP访问个数、APP访问次数、APP活跃天数、…。
步骤S132:基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式。
后续需要应用多种不同算法识别用户的个性化特征与需求,在步骤S132中,基于全行业事件融合模型和用户基本属性融合模型以及用户行业知识清单制成多种算法的标准输入格式,以便后续应用对应的算法识别用户的个性化特征与需求。
步骤S133:基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
在本发明实施例中,应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值。其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一。
应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向。用户的行为特征与偏好需求随着时间的变化会出现变迁,同时用户特征之间可能存在一定的时序关系,利用大数据平台Aster的时间序列分析函数Sessionize和nPath,可以捕捉时间序列上的通用模式和频繁路径,将用户的行为轨迹特征结合行业知识预设模式及行业事件提炼的频繁路径进行分析,进而更精准的识别用户潜在行为特征。例如,捕捉到用户先拨打酒店类电话,并在两小时后位置变更到另外城市,同时对景区旅游类信息查询频次高,进而预判出用户的差旅需求倾向,如此能够有助进一步精确识别用户某一领域的最新的动态需求倾向。
对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。根据用户亲情网、统付情况以及用户的语音、短信等通话行为,分析诸如通话频次、通话时长、通话基站、通话时间段等指标,生成用户交往圈信息,利用主被叫通话频次、通话时长、交往对象主要偏好行业特征等指标,构建社交发现和社交影响关系算法,识别出用户的交往圈与行业特征标记关系,进而输出圈子关系需求推荐。
相比于传统的用户特征识别多采用单一维度模型法、第三方交换或人工逐个收集而造成可用数据少、人工记录不准、维度单一,难以对用户进行全面的了解并发现用户需求,本发明实施例将用户的行为数据通过构建行业知识图谱库,应用行业知识图谱库进行解析,再结合通信系统中的消费行为、使用行为、位置信息等,利用大数据人工智能算法进行识别用户特征识别,能够多维度地对用户特征进行剖析,较全面获知用户各行业偏好特征与潜在需求。
本发明实施例通过采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。
图3示出了本发明实施例的用户特征识别装置的结构示意图。如图3所示,该用户特征识别装置包括:数据采集单元301、知识解读单元302以及特征识别单元303。其中:
数据采集单元301用于采集用户行为数据。知识解读单元302用于根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单。特征识别单元303用于根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
在一种可选的方式中,数据采集单元301用于:采集运营域用户上网的DPI数据、以及用户移动位置数据;采集业务域的用户基本资料数据和账务行为数据,以及交换机上的通话详单数据、短信详单数据、测量报告详单数据。
在一种可选的方式中,知识解读单元302用于:通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;根据所述带业务标签的事件清单构建行业知识图谱库。
在一种可选的方式中,知识解读单元302还用于:对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据;对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据;对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。
在一种可选的方式中,知识解读单元302用于:对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单;对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。
在一种可选的方式中,特征识别单元303用于:将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型;基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式;基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
在一种可选的方式中,特征识别单元303用于:应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值,其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一;应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向;对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。
本发明实施例通过采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用户特征识别方法。
可执行指令具体可以用于使得处理器执行以下操作:
采集用户行为数据;
根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;
根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
采集运营域用户上网的DPI数据、以及用户移动位置数据;
采集业务域的用户基本资料数据和账务行为数据,以及交换机上的通话详单数据、短信详单数据、测量报告详单数据。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;
根据所述带业务标签的事件清单构建行业知识图谱库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据;
对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据;
对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单;
对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型;
基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式;
基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值,其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一;
应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向;
对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。
本发明实施例通过采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。
本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意方法实施例中的用户特征识别方法。
可执行指令具体可以用于使得处理器执行以下操作:
采集用户行为数据;
根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;
根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
采集运营域用户上网的DPI数据、以及用户移动位置数据;
采集业务域的用户基本资料数据和账务行为数据,以及交换机上的通话详单数据、短信详单数据、测量报告详单数据。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;
根据所述带业务标签的事件清单构建行业知识图谱库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据;
对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据;
对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单;
对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型;
基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式;
基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值,其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一;
应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向;
对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。
本发明实施例通过采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。
图4示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如用户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用户特征识别方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器,可以是同一类型的处理器,如一个或各个CPU;也可以是不同类型的处理器,如一个或各个CPU以及一个或各个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
采集用户行为数据;
根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;
根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
在一种可选的方式中,所述程序410使所述处理器执行以下操作:
采集运营域用户上网的DPI数据、以及用户移动位置数据;
采集业务域的用户基本资料数据和账务行为数据,以及交换机上的通话详单数据、短信详单数据、测量报告详单数据。
在一种可选的方式中,所述程序410使所述处理器执行以下操作:
通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;
根据所述带业务标签的事件清单构建行业知识图谱库。
在一种可选的方式中,所述程序410使所述处理器执行以下操作:
对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据;
对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据;
对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。
在一种可选的方式中,所述程序410使所述处理器执行以下操作:
对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单;
对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。
在一种可选的方式中,所述程序410使所述处理器执行以下操作:
将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型;
基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式;
基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
在一种可选的方式中,所述程序410使所述处理器执行以下操作:
应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值,其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一;
应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向;
对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。
本发明实施例通过采集用户行为数据;根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,能够实现自动及时扩充有效行业领域画像识别,全面获知用户各行业偏好特征与潜在需求,提高应用成效与应用领域。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种用户特征识别方法,其特征在于,所述方法包括:
采集用户行为数据;
根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;
根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
2.根据权利要求1所述的方法,其特征在于,所述采集用户行为数据,包括:
采集运营域用户上网的DPI数据、以及用户移动位置数据;
采集业务域的用户基本资料数据和账务行为数据,以及交换机上的通话详单数据、短信详单数据、测量报告详单数据。
3.根据权利要求1所述的方法,其特征在于,所述根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单之前,包括:
通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单;
根据所述带业务标签的事件清单构建行业知识图谱库。
4.根据权利要求3所述的方法,其特征在于,所述通过对所述用户行为数据进行DPI深度解析、网络信息爬取以及分类处理获取与所述用户行为数据对应的带业务标签的事件清单,包括:
对于通话维度数据,按照爬虫能力估算提取活跃的主叫号码,形成主叫活跃清单,从网站获取所述主叫活跃清单中的号码的互联网标记,形成知识库清单数据;
对于非通话维度数据,应用DPI深度解析技术对互联网日志进行解析还原URL,根据所述URL爬取页面内容,解析页面要素形成知识库清单数据;
对所述知识库清单数据进行自然语言的分词、分类识别和映射获取与所述用户行为数据对应的所述带业务标签的事件清单。
5.根据权利要求3所述的方法,其特征在于,所述根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单,包括:
对于可用构建的所述行业知识图谱库进行解读的部分,将所述用户行为数据与所述行业知识图谱库匹配后生成的字段信息进行合并,得到所述用户行业知识清单;
对于不可用构建的所述行业知识图谱库进行解读的部分,对所述用户行为数据进行二次DPI深度解析、网络信息爬取以及分类处理,获取带业务标签的事件清单,构成所述用户行业知识清单,同时将所述带业务标签的事件清单增补至所述行业知识图谱库。
6.根据权利要求1所述的方法,其特征在于,所述根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求,包括:
将所述用户行业知识清单和用户基本属性制成汇总的标准融合模型;
基于输入的所述标准融合模型和所述用户行业知识清单,制成多种算法的标准输入格式;
基于所述标准输入格式应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求。
7.根据权利要求6所述的方法,其特征在于,所述应用各种算法对所述用户行业知识清单进行运算,识别用户的个性化特征与需求,包括:
应用用户特征识别综合评测算法提炼任一领域内的行业行为特征、基本特征以及用户偏好特征的契合程度,评测出用户在各类行业偏好特征的概率值,其中,用户特征识别综合评测算法至少包括深度神经网络算法、逻辑回归算法以及随机森林算法的其中之一;
应用时间序列分析函数捕捉时间序列上的行业知识预设模式和频繁路径,对用户的行为轨迹特征进行分析,识别用户潜在行为特征,作为用户在一领域的动态需求倾向;
对用户的通话行为进行分析,生成用户交往圈信息,根据所述用户交往圈信息应用社交发现和社交影响关系算法识别出用户的交往圈与行业特征标记关系,输出用户圈子关系需求。
8.一种用户特征识别装置,其特征在于,所述装置包括:
数据采集单元,用于采集用户行为数据;
知识解读单元,用于根据行业知识图谱对所述用户行为数据进行知识解读,获取用户行业知识清单;
特征识别单元,用于根据所述用户行业知识清单应用多种用户特征识别模型识别并输出用户的个性化特征与需求。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-7任一项所述用户特征识别方法的步骤。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述用户特征识别方法的步骤。
CN201910990278.0A 2019-10-17 2019-10-17 用户特征识别方法、装置、计算设备及计算机存储介质 Pending CN112685618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990278.0A CN112685618A (zh) 2019-10-17 2019-10-17 用户特征识别方法、装置、计算设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990278.0A CN112685618A (zh) 2019-10-17 2019-10-17 用户特征识别方法、装置、计算设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112685618A true CN112685618A (zh) 2021-04-20

Family

ID=75444586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990278.0A Pending CN112685618A (zh) 2019-10-17 2019-10-17 用户特征识别方法、装置、计算设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112685618A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312531A (zh) * 2021-04-22 2021-08-27 广州丰石科技有限公司 一种基于dpi解析与决策树模型的用户画像识别方法
CN114079971A (zh) * 2021-11-17 2022-02-22 中国电信股份有限公司 业务流量管控方法、系统、dpi节点及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678457A (zh) * 2016-01-06 2016-06-15 成都小步创想畅联科技有限公司 基于地点挖掘的用户行为评估方法
CN107590224A (zh) * 2017-09-04 2018-01-16 北京京东尚科信息技术有限公司 基于大数据的用户偏好分析方法与装置
CN108959603A (zh) * 2018-07-13 2018-12-07 北京印刷学院 基于深度神经网络的个性化推荐系统及方法
CN109087140A (zh) * 2018-08-07 2018-12-25 广州航海学院 一种基于spark大数据的闭环目标客户识别方法
CN109711459A (zh) * 2018-12-24 2019-05-03 广东德诚科教有限公司 用户个性化行为评测方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678457A (zh) * 2016-01-06 2016-06-15 成都小步创想畅联科技有限公司 基于地点挖掘的用户行为评估方法
CN107590224A (zh) * 2017-09-04 2018-01-16 北京京东尚科信息技术有限公司 基于大数据的用户偏好分析方法与装置
CN108959603A (zh) * 2018-07-13 2018-12-07 北京印刷学院 基于深度神经网络的个性化推荐系统及方法
CN109087140A (zh) * 2018-08-07 2018-12-25 广州航海学院 一种基于spark大数据的闭环目标客户识别方法
CN109711459A (zh) * 2018-12-24 2019-05-03 广东德诚科教有限公司 用户个性化行为评测方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中国指挥与控制学会青年工作委员会: "《严肃游戏中个性化建模及认知机制研究》", vol. 1, 哈尔滨工程大学出版社, pages: 148 - 150 *
浙江移动三墩IT人: ""神灯•大数据行业知识图谱"", 《HTTPS://WWW.SOHU.COM/A/233990817_282674》, 4 June 2018 (2018-06-04), pages 1 - 5 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312531A (zh) * 2021-04-22 2021-08-27 广州丰石科技有限公司 一种基于dpi解析与决策树模型的用户画像识别方法
CN114079971A (zh) * 2021-11-17 2022-02-22 中国电信股份有限公司 业务流量管控方法、系统、dpi节点及存储介质

Similar Documents

Publication Publication Date Title
US11157926B2 (en) Digital content prioritization to accelerate hyper-targeting
US10796316B2 (en) Method and system for identifying fraudulent publisher networks
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
US20120123993A1 (en) Action Prediction and Identification Temporal User Behavior
US20170206416A1 (en) Systems and Methods for Associating an Image with a Business Venue by using Visually-Relevant and Business-Aware Semantics
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
WO2019169978A1 (zh) 资源推荐方法及装置
KR20140026932A (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
CN108885624A (zh) 信息推荐系统及方法
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
US20170357987A1 (en) Online platform for predicting consumer interest level
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
CN111160783B (zh) 数字资产价值的评价方法、系统及电子设备
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN107977678A (zh) 用于输出信息的方法和装置
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
US11567851B2 (en) Mathematical models of graphical user interfaces
CN112269906A (zh) 网页正文的自动抽取方法及装置
KR20100046421A (ko) 상품 선호도를 평가하는 방법 및 쇼핑몰 서버
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210420

RJ01 Rejection of invention patent application after publication