CN113901206A - 一种基于词嵌入的设备失联预测方法、装置和电子设备 - Google Patents

一种基于词嵌入的设备失联预测方法、装置和电子设备 Download PDF

Info

Publication number
CN113901206A
CN113901206A CN202111052106.2A CN202111052106A CN113901206A CN 113901206 A CN113901206 A CN 113901206A CN 202111052106 A CN202111052106 A CN 202111052106A CN 113901206 A CN113901206 A CN 113901206A
Authority
CN
China
Prior art keywords
equipment
app installation
word
loss
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111052106.2A
Other languages
English (en)
Inventor
冯海杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiyu Information Technology Co Ltd
Original Assignee
Beijing Qiyu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiyu Information Technology Co Ltd filed Critical Beijing Qiyu Information Technology Co Ltd
Priority to CN202111052106.2A priority Critical patent/CN113901206A/zh
Publication of CN113901206A publication Critical patent/CN113901206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于词嵌入的设备失联预测方法、装置和电子设备,所述方法包括以下步骤:基于历史设备的APP安装包列表,通过APP安装包的词向量矩阵获得历史设备中各APP安装包的词向量;基于历史设备中各APP安装包的词向量,通过数据聚合得到历史设备的词向量;基于历史设备的词向量和历史设备失联数据,构建设备失联预测模型;获取新设备的APP安装包列表,通过APP安装包的词向量矩阵获取新设备中各APP安装包的词向量,并通过数据聚合得到新设备的词向量;基于新设备的词向量,通过设备失联预测模型预测新设备的失联概率。本发明便于维护且可直接根据词向量获取设备失联概率,无需挖掘者对APP数据充分了解,降低设备失联概率预测的条件。

Description

一种基于词嵌入的设备失联预测方法、装置和电子设备
技术领域
本发明数据数据处理技术领域,具体涉及移动互联网领域中设备失联预测,特别是基于词嵌入的设备失联预测方法、装置、电子设备和记录介质。
背景技术
随着互联网业务的发展,越来越多用户在移动设备上安装APP实现互联网业务的快速处理,但是在互联网业务开展过程中,往往会存在部分用户失联的情况导致业务中断,这严重损害了互联网平台的合法权益。
APP数据是一块非常有用的数据源,用户特征与其关注的内容是相互对称的,由此可通过用户的APP数据进行数据挖掘,从而判别用户是否存在可能失联的情况。目前传统的APP数据挖掘方法包括以下4种:
1)APP分类统计特征。根据APP中文名称、安装包特征等对APP进行分类,维护APP名单库,统计不同类别的APP的安装数量和占比。例如游戏类、金融类、聊天类、娱乐类等;这些挖掘方法具有很高的准确性和直观的解释性,但是名单库的维护需要人工确认,非常耗时耗力。
2)APP独热编码特征。其含义为是否安装了某个APP。由于APP类目繁多,此类变量容易出现大量稀疏值,需要做前置的APP筛选,剔除一些安装率变化较大的APP。此类变量适配于处理稀疏变量的机器学习模型。
3)APP风险指数特征。根据历史上APP对应的风险事件来刻画APP的风险属性,进而推广应用至未来,将APP风险属性转移至用户维度。
4)APP使用序列特征。根据不同时期APP安装卸载的变化情况来刻画用户的风险变化。
以上方法确实可以判别用户是否可能失联的情况,但都存在维护难度较大,衍生变量的质量较大程度依赖于挖掘者对APP数据的了解程度。
发明内容
本发明所要解决的技术问题是现有的数据挖掘方法维护难度较大,衍生变量的质量较大程度依赖于挖掘者对APP的了解程度。
为解决上述技术问题,本发明的第一方面提出一种基于词嵌入的设备失联预测方法,所述方法包括以下步骤:
基于历史设备的APP安装包列表,通过APP安装包的词向量矩阵获得历史设备中各APP安装包的词向量;
基于历史设备中各APP安装包的词向量,通过数据聚合得到历史设备的词向量;
基于历史设备的词向量和历史设备失联数据,构建设备失联预测模型;
获取新设备的APP安装包列表,通过APP安装包的词向量矩阵获取新设备中各APP安装包的词向量,并通过数据聚合得到新设备的词向量;
基于新设备的词向量,通过设备失联预测模型预测新设备的失联概率。
根据本发明的其中一种优选实施方式,所述APP安装包的词向量矩阵的生成方法包括以下步骤:
获取历史设备的APP安装包列表,将每一APP安装包作为一个单词,得到关于APP安装包列表的一条文本;
基于各历史设备的APP安装包列表获得文本数据集;
基于文本数据集,通过word2vec算法训练得到APP安装包的词向量矩阵。
根据本发明的其中一种优选实施方式,所述APP安装包列表为对所有APP安装包进行数据清洗后的集合。
根据本发明的其中一种优选实施方式,所述数据清洗包括剔除安装率小于安装率阈值的APP安装包、对APP安装包剔除版本号、剔除重复记录的APP安装包。
根据本发明的其中一种优选实施方式,所述数据聚合为取最大值、取最小值、取平均值中至少一种。
根据本发明的其中一种优选实施方式,获取新设备中各APP安装包的词向量后,对各APP安装包的词向量聚类,选择各类中最接近簇心的APP安装包的词向量进行数据聚合,得到新设备的词向量。
本发明的第二方面提出一种基于词嵌入的设备失联预测装置,包括:数据获取模块,用于获取APP安装包列表和设备失联数据;词向量获取模块,用于基于历史设备的APP安装包列表获取APP安装包的词向量矩阵,并基于APP安装包的词向量矩阵获取各APP安装包的词向量;数据聚合模块,用于基于各APP安装包的词向量获取历史设备或者新设备的词向量;设备失联预测模块,用于建立基于历史设备的词向量和历史设备的设备失联数据的设备失联预测模型,并基于新设备的词向量,通过设备失联预测模型预测新设备的设备失联概率。
根据本发明的其中一种优选实施方式,所述设备失联预测模块包括:模型建立单元,用于建立设备失联预测模型;模型训练单元,用于对所述设备失联预测模型进行训练,训练样本包括历史设备的词向量和历史设备失联数据。
根据本发明的其中一种优选实施方式,所述词向量获取模块包括:Word2vec模型建立单元,用于建立word2vec模型;Word2vec训练单元,用于基于各历史设备的APP安装包列表对Word2vec模型训练,获得APP安装包的词向量矩阵。
本发明的第三方面提出一种电子设备包括:存储器,用于存储计算机可执行程序;数据处理装置,用于读取所述存储器中的计算机可执行程序,以执行任一项所述的基于词嵌入的设备失联预测方法。
本发明的第四方面提出一种计算机可读介质,用于存储计算机可读程序,所述计算机可读程序用于执行任一项所述的基于词嵌入对的设备失联预测方法。
与现有技术相比,本发明的有益效果为:
本发明通过APP安装包的词向量矩阵获取APP安装包的词向量,从而得到设备的词向量,基于历史设备的词向量和历史设备失联数据进行关联,构建设备失联预测模型,对新设备的词向量通过设备失联预测模型寻求新设备的失联概率,便于维护且可直接根据词向量获取设备失联概率,无需挖掘者对APP数据充分了解,降低设备失联概率预测的条件。
附图说明
图1本发明的一种基于词嵌入的设备失联预测方法所应用的场景示意图。
图2是本发明基于词嵌入的设备失联预测方法的流程示意图。
图3是本发明基于词嵌入的设备失联预测方法的一个实施例示意图。
图4是本发明基于词嵌入的设备失联预测装置的架构示意图。
图5是本发明设备失联预测模块的架构示意图。
图6是本发明词向量获取模块的架构示意图。
图7是本发明的电子设备的结构框架示意图。
图8是本发明的一个计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
图1本发明的一种基于词嵌入的设备失联预测方法所应用的场景示意图。
如图1所示,设备1通过网络2与互联网平台的服务器3进行信息交互。网络2用以在设备1和服务器3之间提供通信链路的介质。网络2可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用设备1通过网络2与服务器3交互,以接收或发送消息等。设备1上可以安装有各种通讯客户端APP应用,例如购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。
设备1可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器3可以是提供各种服务的服务器,例如对用户利用设备1所浏览的服务类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户数据进行分析等处理,并将处理结果反馈给平台管理员和/或设备1。
所述设备1上可以安装有多个应用,即APP。设备1上安装的APP的特征从某种程度上反应了设备1对于提高互联网服务的某种特性。本发明使用各APP间的关联度来预测设备1的失联概率,以便以某种策略避免或降低具有失联风险的设备1在互联网服务平台注册或接受服务。
图2是本发明基于词嵌入的设备失联预测方法的流程示意图。如图2所示,本发明的方法具体包括以下步骤。
S1、基于历史设备的APP安装包列表,通过APP安装包的词向量矩阵获得历史设备中各APP安装包的词向量。
本发明中,每一设备均设有一个或多个APP,每一APP安装时均通过一APP安装包进行安装,APP安装包均有对应的APP包名称,记为“packge name”,APP安装包列表为安装的所有APP对应的App包名称的集合,记为{packge name1,packge name2,...}。
词向量(Word embedding),又叫Word嵌入,是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量把每个词表征为K维的实数向量,每个实数都对应着一个特征,可以是和其他单词之间的联系,而词向量矩阵则将相似的单词分组映射到向量空间的不同部分。
本发明中,APP安装包的词向量矩阵则有多个APP安装包的词向量构成,APP安装包的词向量为将APP包名称作为一个词得到的K维度的实数向量,每个实数对应着一个特征,用于表示和其他APP安装包之间的联系。由于APP安装包的词向量矩阵中记载了多个APP安装包的词向量,因此可直接根据APP安装包的词向量矩阵得到历史设备中各APP安装包的词向量,若历史设备的APP安装包有N个,则APP安装包的词向量就有N条。
APP安装包的词向量矩阵的生成方法具体包括以下步骤:
S1.1、获取历史设备的APP安装包列表,将每一APP安装包作为一个单词,得到关于APP安装包列表的一条文本。
本发明中,“将每一APP安装包作为一个单词”为将APP安装包的包名称作为单词,虽然这里APP安装包的包名称为由多个词构成的词组,但仍将该词组作为一个单词,则多个单词构成一条句子。
所述APP安装包列表为对所有APP安装包进行数据清洗后的集合。
数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。本发明中,通过对APP安装包进行数据清洗,降低错误率。
进一步地,所述数据清洗包括剔除安装率小于安装率阈值的APP安装包、对APP安装包剔除版本号、剔除重复记录的APP安装包。
本发明中,安装次数小于预设安装次数的APP不纳入APP安装包的词向量矩阵的计算,以降低APP安装包的词向量矩阵的计算量的同时,保证统计数据的有效性,防止大量的小安装率APP对设备失联概率存在影响。
本发明中,APP在使用过程中,互联网平台会对APP进行升级,用户需要下载APP安装包进行升级,但使用的APP仍不变,因此需要通过剔除版本号,然后来判断是否是针对同一APP的APP安装包,若是,在APP安装包列表中剔除重复记录的APP安装包。防止针对同一APP的不同APP安装包纳入APP安装包的词向量矩阵的计算,增加计算量的同时会影响APP安装包的词向量矩阵中各APP安装包向量的值。
S1.2、基于各历史设备的APP安装包列表获得文本数据集。
本发明中由于有多个历史设备,因此有多个关于历史设备的APP安装包列表,那么就可以得到多条文本,作为文本数据集。
S1.3、基于文本数据集,通过word2vec算法训练得到APP安装包的词向量矩阵。
本发明中,需要对word2vec设置超参数,主要涉及的超参数有窗口长度(window)、最低选入数量(min_count)、词向量长度(size)等;窗口长度为当前词与预测词在一个句子中的最大距离,最低选入数量可以对字典做截断,词频少于min_count次数的单词会被丢弃掉,词向量长度是指特征向量的维度,也即APP安装包的词向量的维度。
作为本发明的其中一具体实施方式,本发明采用google的word2vec模型,调整词向量长度size为50,窗口大小window为5,最低选入数量min_count为100。
Word2Vec模型有两种主要的实现方式,本发明主要使用连续词袋模型CBOW模型,是一个三层神经网络,输入已知上下文输出对下个单词的预测;第一层是输入层,输入已知上下文的词向量;中间一层称为线性隐含层,它将所有输入的词向量累加;第三层是一棵哈夫曼树,树的的叶节点与语料库中的单词一一对应,而树的每个非叶节点是一个二分类器(一般是softmax感知机等),树的每个非叶节点都直接与隐含层相连。将上下文的词向量输入CBOW模型,由隐含层累加得到中间向量。将中间向量输入哈夫曼树的根节点,根节点会将其分到左子树或右子树。每个非叶节点都会对中间向量进行分类,直到达到某个叶节点.该叶节点对应的单词就是对下个单词的预测。以每一APP安装包作为一个单词,构建词汇表,通过文本数据集对word2vec进行训练,在训练结束后即可从词汇表中得到每个单词对应的词向量。
S2、基于历史设备中各APP安装包的词向量,通过数据聚合得到历史设备的词向量。
本发明中,针对每一历史设备通过步骤S1得到了N条APP安装包的词向量,数据聚合用于将该N条APP安装包的词向量执行计算,并返回单个值,该值即为历史设备的词向量。本发明中,由于不同的设备安装的APP不同,且安装的APP数量也不同,因此通过对N条APP维度的词向量进行聚合用于表征用户维度的词向量,并将该用户维度的词向量与设备失联数据相关联,从而获取历史设备的词向量与设备失联情况之间的关系。
所述数据聚合为取最大值、取最小值、取平均值的至少一种。
本发明中,取最大值为对历史设备中所有APP安装包的词向量,在每一维中选取一最大值,得到一词向量;去最小值为对历史设备中所有的APP安装包的词向量,在每一维中选取一最大值,得到词向量;具体来说,遍历所有APP安装包的词向量中的第i维特征值,选取该第i维特征值的最大值或者最小值。
本发明中,取平均值为对历史设备中所有APP安装包的词向量,计算第i维特征值的平均值,得到一词向量。
作为本发明的其中一具体实施方式,所述的数据聚合为对历史设备中所有APP安装包的词向量分别取最大值、取最小值及取平均值之后得到最大向量、最小向量及平均向量,将最大向量、最小向量及平均向量相加,得到历史设备的词向量,由于步骤S1中向量维度为50,因此这里的历史设备的词向量维度为50。
作为本发明的另一具体实施方式,所述的数据聚合也可以为将最小向量、平均向量从上往下依次添加入最大向量之后,得到历史设备的词向量,由于步骤S1中向量维度为50,因此,这里的历史设备的词向量维度为150。
进一步地,获取历史设备中各APP安装包的词向量后,对各APP安装包的词向量聚类,选择各类中最接近簇心的APP安装包的词向量进行数据聚合,得到历史设备的词向量。
本发明中,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性,本发明中,通过聚类分析,构建相似的APP安装包的向量作为同一个簇,将距离簇心最近的APP安装包的词向量作为该类的基准词向量,若有S个类,则有S个基准词向量,对这S个基准词向量进行数据聚合,得到历史设备的词向量。这里的聚类分析方法可以为K-MENS算法或者k-均值算法等。本发明首先通过聚类算法获得具有类别表征意义的若干个基准词向量,通过这些基准词向量聚合得到历史设备的词向量,更加精准的表征用户维度的向量特征,提高设备失联预测的准确率。
S3、基于历史设备的词向量和历史设备失联数据,构建设备失联预测模型。
本发明中,历史设备失联数据可以为APP在用户认证过程中记录的手机号无法接通的情况占APP总数的比例,当然历史设备失联数据也可以为历史设备中APP卸载的情况,当对应的APP已经卸载或者其认证时的手机号无法接通时,APP对应的历史设备的设备失联数加1。
本发明中,基于S1、S2得到每一历史设备的词向量,每一历史设备有一对应的设备失联概率,将每一历史设备的词向量和对应的设备失联概率作为一个样本,由于有多个历史设备,因此可以获得多个样本,以获得的多个样本作为数据集,来构建设备失联预测模型,来预测设备可能失联的概率,该概率为0到100的概率值。更详细来说,由于每一个样本中对应每一历史设备的词向量都有一设备失联概率,那么必然存在某种规律,使得每一个历史设备的词向量都有其映射,该映射为设备失联概率,而设备失联预测模型即为这种规律的表征。这里的设备失联预测模型可以为参数模型,也可以为非参数模型,参数模型包括线性回归模型、逻辑回归模型等,非参模型包括决策树、神经网络、线性规划等,举例来说,可以为XGBoost,这些模型都可以从现有的库里面调用,可以对参数进行调整,然后利用历史设备的词向量——历史设备失联数据构建的样本数据集对参数进一步调整,从而得到最优的参数来获得设备失联预测模型。
图3是本发明基于词嵌入的设备失联预测方法的一个实施例示意图。
S4、获取新设备的APP安装包列表,通过APP安装包的词向量矩阵获取新设备中各APP安装包的词向量,并通过数据聚合得到新设备的词向量。
本发明中,基于新设备的APP安装包列表,可在APP安装包的词向量矩阵中查询获取新设备中各APP安装包的词向量;这里的APP安装包列表也为对所有APP安装包进行数据清洗后的集合。这里的数据聚合与步骤S2中的数据聚合所用的方法一致,防止不同的数据聚合方法计算得到的新设备的词向量处于不同维度。
S5、基于新设备的词向量,通过设备失联预测模型预测新设备的失联概率。
根据所预测得到的设备失联概率为0至100的概率值,因此通过设置失联概率阈值来判断设备是否失联,举例来说,设备失联概率阈值为70,若通过设备失联预测模型输出的新设备的失联概率大于70,这说明该新设备可能失联,那么互联网服务平台可以依据既定的策略来规避设备失联带来的风险,例如,对于失联概率超过特定阈值的设备,可以阻止其注册,或者不允许其使用平台的服务,或者对使用平台服务作出限制。本发明不限于具体的平台服务,诸如网络购物、电子商务、出行、共享单车等等,都不特定的排除。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由数据处理设备(包括计算机)执行的程序,即计算机程序。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
图4是本发明基于词嵌入的设备失联预测装置的架构示意图。如图4所示,本装置包括:
数据获取模块,用于获取APP安装包列表和设备失联数据;词向量获取模块,用于基于历史设备的APP安装包列表获取APP安装包的词向量矩阵,并基于APP安装包的词向量矩阵获取各APP安装包的词向量;数据聚合模块,用于基于各APP安装包的词向量获取历史设备或者新设备的词向量;设备失联预测模块,用于建立基于历史设备的词向量和历史设备的设备失联数据的设备失联预测模型,并基于新设备的词向量,通过设备失联预测模型预测新设备的设备失联概率。
本发明中,数据获取模块中的历史设备的APP安装包列表、历史设备的设备失联数据可以从既有的历史设备安装列表数据库中获取,新设备的APP安装包列表在经过用户授权之后可以直接获取新设备的安装包列表数据,此为本领域的公知常识,本领域技术人员可根据实际情况自行设置。
图5是本发明设备失联预测模块的架构示意图。如图5所示,所述设备失联预测模块包括:模型建立单元,用于建立设备失联预测模型;模型训练单元,用于对所述设备失联预测模型进行训练,训练样本包括历史设备的词向量和历史设备失联数据。
本发明中模型建立单元用于建立模型的结构,如该模型可以为神经网络,需要设置模型的网络层数,层与层之间的连接关系,如稠密连接、残差连接等,此为本领域的公知常识,本领域技术人员可根据实际情况自行设置。在得到模型后,需要对该模型进行训练,使得该模型能够学习历史设备的词向量和设备失联数据间的关系,从而在输入新设备的词向量时,能够得到对应的设备失联概率。
图6是本发明词向量获取模块的架构示意图。如图6所示,所述词向量获取模块包括:Word2vec模型建立单元,用于建立word2vec模型;Word2vec训练单元,用于基于各历史设备的APP安装包列表对Word2vec模型训练,获得APP安装包的词向量矩阵。
本发明中word2vec模型建立单元用于建立word2vec模型,设置模型超参数,包括黄口长度、最低选入数量、词向量等,此为本领域的公知常识,本领域技术人员可根据实际情况自行设置,在得到模型后,需要对该模型进行训练,使得该模型能够得到任意两个APP安装包间不同特征的关联度,即APP安装包的词向量矩阵。
本领域技术人员可以理解,上述装置实施例中的各模块或单元可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块或单元可以合并为一个模块或单元,也可以进一步拆分成多个子模块或单元。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
此外,本发明还提出一种电子设备,其能够基于词嵌入来预测设备失联。图7是本发明的电子设备的结构框架示意图,如图7所示,该电子设备包括存储器和数据处理装置,存储器用于存储计算机可执行程序,数据处理装置,用于读取所述存储器中的计算机可执行程序,以执行所述的基于词嵌入的设备失联预测方法。本发明的存储器可以是本地存储器,也可以是分布式存储系统,例如云存储系统。而数据处理器则包括至少一个具人数字信息处理能力的装置,例如CPU、GPU、多处理器系统或云处理器。
再者,本发明还提出计算机可读介质,用于存储计算机可读程序,所述计算机可读程序用于执行所述的基于APP特征衍生的设备失联预测方法。图8是本发明的一个计算机可读介质实施例的示意图。如图8所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的基于词嵌入的设备失联预测方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当理解,可以对本发明的一个实施例的设备中包括的模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备中。可以把实施例的设备包括的不同模块、单元或组件组合成一个模块、单元或组件,也可以把它们分成多个子模块、子单元或子组件。本发明的实施例中的模块、单元或组件可以以硬件方式实现,也可以以一个或者多个处理器上运行的软件方式实现,或者以它们的组合实现。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种基于词嵌入的设备失联预测方法,其特征在于,所述方法包括以下步骤:
基于历史设备的APP安装包列表,通过APP安装包的词向量矩阵获得历史设备中各APP安装包的词向量;
基于历史设备中各APP安装包的词向量,通过数据聚合得到历史设备的词向量;
基于历史设备的词向量和历史设备失联数据,构建设备失联预测模型;
获取新设备的APP安装包列表,通过APP安装包的词向量矩阵获取新设备中各APP安装包的词向量,并通过数据聚合得到新设备的词向量;
基于新设备的词向量,通过设备失联预测模型预测新设备的失联概率。
2.如权利要求1所述的一种基于词嵌入的设备失联预测方法,其特征在于,所述APP安装包的词向量矩阵的生成方法包括以下步骤:
获取历史设备的APP安装包列表,将每一APP安装包作为一个单词,得到关于APP安装包列表的一条文本;
基于各历史设备的APP安装包列表获得文本数据集;
基于文本数据集,通过word2vec算法训练得到APP安装包的词向量矩阵。
3.如权利要求1或2所述的一种基于词嵌入的设备失联预测方法,其特征在于,所述APP安装包列表为对所有APP安装包进行数据清洗后的集合。
4.如权利要求3所述的一种基于词嵌入的设备失联预测方法,其特征在于,所述数据清洗包括剔除安装率小于安装率阈值的APP安装包、对APP安装包剔除版本号、剔除重复记录的APP安装包。
5.如权利要求1所述的一种基于词嵌入的设备失联预测方法,其特征在于,所述数据聚合为取最大值、取最小值、取平均值中至少一种。
6.如权利要求1所述的一种基于词嵌入的设备失联预测方法,其特征在于,获取新设备或历史设备中各APP安装包的词向量后,对各APP安装包的词向量聚类,选择各类中最接近簇心的APP安装包的词向量进行数据聚合,得到新设备或历史设备的词向量。
7.一种基于词嵌入的设备失联预测装置,其特征在于,包括
数据获取模块,用于获取APP安装包列表和设备失联数据;
词向量获取模块,用于基于历史设备的APP安装包列表获取APP安装包的词向量矩阵,并基于APP安装包的词向量矩阵获取各APP安装包的词向量;
数据聚合模块,用于基于各APP安装包的词向量获取历史设备或者新设备的词向量;
设备失联预测模块,用于建立基于历史设备的词向量和历史设备的设备失联数据的设备失联预测模型,并基于新设备的词向量,通过设备失联预测模型预测新设备的设备失联概率。
8.如权利要求7所述的一种基于词嵌入的设备失联预测装置,其特征在于,所述设备失联预测模块包括:
模型建立单元,用于建立设备失联预测模型;
模型训练单元,用于对所述设备失联预测模型进行训练,训练样本包括历史设备的词向量和历史设备失联数据。
9.如权利要求7所述的一种基于词嵌入的设备失联预测装置,其特征在于,所述词向量获取模块包括:
Word2vec模型建立单元,用于建立word2vec模型;
Word2vec训练单元,用于基于各历史设备的APP安装包列表对Word2vec模型训练,获得APP安装包的词向量矩阵。
10.一种电子设备,其特征在于,包括
存储器,用于存储计算机可执行程序;
数据处理装置,用于读取所述存储器中的计算机可执行程序,以执行权利要求1至6中任一项所述的基于词嵌入的设备失联预测方法。
11.一种计算机可读介质,用于存储计算机可读程序,其特征在于,所述计算机可读程序用于执行权利要求1至6中任一项所述的基于词嵌入的设备失联预测方法。
CN202111052106.2A 2021-09-08 2021-09-08 一种基于词嵌入的设备失联预测方法、装置和电子设备 Pending CN113901206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111052106.2A CN113901206A (zh) 2021-09-08 2021-09-08 一种基于词嵌入的设备失联预测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111052106.2A CN113901206A (zh) 2021-09-08 2021-09-08 一种基于词嵌入的设备失联预测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN113901206A true CN113901206A (zh) 2022-01-07

Family

ID=79188884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111052106.2A Pending CN113901206A (zh) 2021-09-08 2021-09-08 一种基于词嵌入的设备失联预测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113901206A (zh)

Similar Documents

Publication Publication Date Title
CN110413780B (zh) 文本情感分析方法和电子设备
CN108108743B (zh) 异常用户识别方法和用于识别异常用户的装置
CN110995459B (zh) 异常对象识别方法、装置、介质及电子设备
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN112085565A (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
US20220277031A1 (en) Guided exploration for conversational business intelligence
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN110941964A (zh) 双语语料筛选方法、装置及存储介质
US20200311525A1 (en) Bias correction in deep learning systems
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
US11783221B2 (en) Data exposure for transparency in artificial intelligence
CN112231299B (zh) 一种特征库动态调整的方法和装置
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN113448821B (zh) 一种识别工程缺陷的方法和装置
CN113282433A (zh) 集群异常检测方法、装置和相关设备
CN117725220A (zh) 文档表征和文档检索的方法、服务器及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
US20230222358A1 (en) Artificial intelligence operations adaptive multi-granularity event grouping
US20230162518A1 (en) Systems for Generating Indications of Relationships between Electronic Documents
US20230186074A1 (en) Fabricating data using constraints translated from trained machine learning models
CN115860147A (zh) 基于非平衡集成学习的报关单预判模型训练方法及装置
CN113901206A (zh) 一种基于词嵌入的设备失联预测方法、装置和电子设备
CN114861004A (zh) 一种社交事件检测方法、装置及系统
CN111242519B (zh) 用户特征数据生成方法、装置及电子设备
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination