CN110598070B - 应用类型识别方法及装置、服务器及存储介质 - Google Patents

应用类型识别方法及装置、服务器及存储介质 Download PDF

Info

Publication number
CN110598070B
CN110598070B CN201910857961.7A CN201910857961A CN110598070B CN 110598070 B CN110598070 B CN 110598070B CN 201910857961 A CN201910857961 A CN 201910857961A CN 110598070 B CN110598070 B CN 110598070B
Authority
CN
China
Prior art keywords
application
user
information
type
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910857961.7A
Other languages
English (en)
Other versions
CN110598070A (zh
Inventor
程权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910857961.7A priority Critical patent/CN110598070B/zh
Publication of CN110598070A publication Critical patent/CN110598070A/zh
Application granted granted Critical
Publication of CN110598070B publication Critical patent/CN110598070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种应用类型识别方法及装置、服务器及存储介质,该方法在确定需要识别的目标应用之后,获取该目标应用的应用描述信息以及对应用户的用户信息,然后基于自然语言处理以及机器学习等人工智能根据应用描述信息得到应用描述信息包括预设目标类型信息的概率,同时根据各用户的用户信息确定各用户的用户类型,并得到应用对应用户中预设目标类型用户的用户占比,进而根据概率以及用户占比是否满足预设条件,以确定目标应用的应用类型是否包括预设目标类型;这样本申请在识别应用的应用类型时,根据应用的应用描述信息以及对应用户的用户信息即可以识别得到应用的应用类型,所依据的数据更客观,提高了识别准确率。

Description

应用类型识别方法及装置、服务器及存储介质
技术领域
本申请涉及应用推广领域,具体涉及一种应用类型识别方法及装置、服务器及存储介质。
背景技术
目前市场上,即时通讯、游戏、视频、小说等应用的种类成千上万,用户为了满足某些需求,例如阅读、广告投放等需求,会根据对应的关键词进行应用搜索,以获得对应类型的应用。根据关键词搜索应用的前提是,每个应用都有对应的标签来标记应用的应用类型。
当前利用应用开发者为应用配置的标签,来标记应用的应用类型;处于种种原因,应用开发者往往提供一些误导性标签或者不提供标签,导致应用的应用类型识别错误等,使得应用的应用类型识别准确率较低。
发明内容
本申请实施例提供一种应用类型识别方法及装置、服务器及存储介质,以提高应用的应用类型识别准确率。
为解决上述技术问题,本申请实施例提供以下技术方案:
一方面,本申请实施例提供了一种应用类型确定方法,其包括:
获取目标应用的应用描述信息;
对应用描述信息进行处理,得到应用描述信息包括预设目标类型信息的概率;
获取目标应用对应用户的用户信息;
根据各用户的用户信息确定各用户的用户类型,基于各用户的用户类型得到目标应用对应用户中预设目标类型用户的用户占比;
在概率以及用户占比满足预设条件时,确定目标应用的应用类型包括预设目标类型。
一方面,本申请实施例提供了一种应用类型识别装置,其包括:
第一获取模块,用于获取目标应用的应用描述信息;
第一处理模块,用于对应用描述信息进行处理,得到应用描述信息包括预设目标类型信息的概率;
第二获取模块,用于获取目标应用对应用户的用户信息;
第二处理模块,用于根据各用户的用户信息确定各用户的用户类型,基于各用户的用户类型得到目标应用对应用户中预设目标类型用户的用户占比;
结果输出模块,用于在概率以及用户占比满足预设条件时,确定目标应用的应用类型包括预设目标类型。
一方面,本申请实施例提供了一种服务器,其包括处理器和存储器,存储器存储有多条指令,指令适于处理器进行加载,以执行上述应用类型识别方法中的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行上述应用类型识别方法中的步骤。
本申请实施例提供了一种应用类型识别方法及装置、服务器及存储介质,该方法在确定需要识别的目标应用之后,获取该目标应用的应用描述信息以及对应用户的用户信息,在此基础上,使用机器训练模型根据应用描述信息得到应用描述信息包括预设目标类型信息的概率,同时根据各用户的用户信息确定各用户的用户类型,并得到应用对应用户中预设目标类型用户的用户占比,进而根据概率以及用户占比是否满足预设条件,以确定目标应用的应用类型是否包括预设目标类型;这样本申请在识别应用的应用类型时,根据应用的应用描述信息以及对应用户的用户信息即可以识别得到应用的应用类型,与当前技术相比,不需要参考应用开发者为应用配置的标签,降低了对应用开发者的依赖,并且所依据的数据更客观,提高了识别准确率。进一步的,本申请还独创性的提供了一种用户分类模型,该用户分类模型基于用户的设备信息和已使用应用的应用信息,不需要采集用户的应用操作行为数据,在保证用户隐私的基础上,即可以确定用户是否为预设目标类型用户,提高了用户分类准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的应用类型识别系统的组网示意图;
图2是本申请实施例提供的应用类型识别方法的第一种流程示意图;
图3是本申请实施例提供的应用类型识别方法的第二种流程示意图;
图4是本申请实施例提供的应用类型识别方法的第三种流程示意图;
图5是本申请实施例提供的应用类型识别装置的结构示意图;
图6是本申请实施例提供的服务器的结构示意图;
图7至图12是本申请实施例提供的模型示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于下文描述,现将本申请涉及到的术语进行说明。
在本申请实施例中,目标应用是指需要识别应用类型的应用,可以是开发者所开发应用的正式版等各种应用;应用类型是指应用的类型,例如阅读应用、休闲应用、游戏应用、激励应用等,同一个应用可以包括多种应用类型。
在本申请实施例中,应用描述信息是描述应用对应的信息,可以包括应用开发者针对该应用的推荐信息,应用名称,搜索网站针对该应用的搜索结果(一定程度上体现了用户对该应用的评价分析)等。
在本申请实施例中,用户信息是指一些非隐私信息,例如用户所使用设备的设备信息(包括设备型号、系统版本等)、或者在应用商店中所下载应用的应用信息(包括应用标识以及该应用开发者标识等)等,这些信息在管理服务器内都是公开的。设备信息和应用信息可以反映某用户的用户类型,例如游戏用户所使用的设备型号一般为某果X,系统版本一般为最新版本等,具备一定的共性,而下载应用的应用标识一般为某某游戏,应用开发者标识一般为某某游戏公司等,也具备一定的共性;又如手赚用户所使用的设备型号一般为某为mate10,系统版本一般为最新版本等,具备一定的共性,而下载应用的应用标识一般为某某头条,应用开发者标识一般为某某推广公司等,也具备一定的共性。因此,通过自然语言处理以及机器学习等人工智能技术,基于设备信息和应用信息可以确定某个用户是某类型用户的概率。
在本申请实施例中,激励应用是指使用红包、现金、实物奖励等方式激励用户使用的应用,针对这类应用,用户有较大动机出于激励而非应用本身内容去使用应用,如某头条等激励阅读应用、某划等锁屏广告应用等。
在本申请实施例中,手赚用户是指利用手机等终端上安装的激励应用赚钱的用户,即使用激励应用做任务来赚取红包、现金、实物等奖励的用户。
在本申请实施例中,应用安装包是应用开发者上传到应用服务器的文件包,该应用安装包包括应用程序文件和一些推荐文件(一般为文本txt格式),推荐文件记载了应用开发者对该应用的推荐信息,例如该应用的应用名称,具备哪些功能,具备哪些好处等,用来吸引用户下载安装,推荐信息在一定程度上可以反映出该应用的应用类型,例如直接采用明确的文本说明该应用是游戏应用等,也可能隐含的体现应用类型,例如包括红包等字样,隐含体现该应用是手赚应用等。
在本申请实施例中,目标应用对应用户可以是指所有下载并安装目标应用的用户,也可以是至在预定时间段(如近30天等任意时间段)内目标应用使用频率大于频率阈值(例如100次)的用户。预设目标类型用户是指用户类型包括预先设置的目标类型的用户,例如用户类型包括游戏的用户为游戏用户,又如用户类型包括手赚的用户为手赚用户,手赚是利用手机赚钱的简称;用户占比是指预设目标类型用户的数量与目标应用对应用户的数量的比值,例如预设目标类型用户的数量为350,而目标应用对应用户的数量为700,那么用户占比为350÷700=50%。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机器学习等技术,具体通过如下实施例进行说明。
请参阅图1,图1为本申请实施例所提供的应用类型识别系统的场景示意图,该系统可以包括用户侧设备以及服务侧设备,用户侧设备与服务侧设备通过各种网关组成的互联网等方式连接,不再赘述,其中,用户侧设备包括开发者终端11以及用户终端12,服务侧设备包括应用服务器13以及管理服务器14;其中:
开发者终端11以及用户终端12包括但不局限于手机、平板等便携终端,电脑、查询机、广告机等固定终端,以及各种虚拟终端等;例如,应用开发者使用开发者终端11上传其开发的应用,用户user使用用户终端12下载并使用应用;
应用服务器21、管理服务器22以及模型服务器23均可以通过本地服务器和/或远程服务器实现。应用服务器21提供应用商店,应用开发者使用开发者终端11上传的应用出现在应用商店的应用列表中,供用户user搜索下载,用户user通过用户终端12接入应用商店下载应用安装并使用。管理服务器22提供应用管理功能,例如应用搜索、应用推荐等,在本申请中,其需要为每个应用确定对应的应用类型。模型服务器23用于进行模型训练,在本申请中,其执行文本分类模型的训练、用户分类模型的训练、以及文本分类模型和用户分类模型的联合训练。
在本申请实施例中,管理服务器22在确定需要识别的目标应用之后,基于自然语言处理以及机器学习等技术根据应用描述信息得到应用描述信息包括预设目标类型信息的概率,同时根据各用户的用户信息确定各用户的用户类型并得到应用对应用户中预设目标类型用户的用户占比,进而根据概率以及用户占比是否满足预设条件,以确定目标应用的应用类型是否包括预设目标类型;这样本申请在识别应用的应用类型时,根据应用的应用描述信息以及对应用户的用户信息即可以识别得到应用的应用类型,所依据的数据更客观,提高了识别准确率。
由于本申请是基于NLP技术对目标应用的应用描述信息以及对应用户的用户信息进行处理,而得到目标应用的应用类型的,不需要应用开发者配置标签,降低了应用开发者的工作负担。
同时,由于本申请是基于深度学习的机器训练模型对应用的描述信息以及用户的设备信息和已使用应用的应用信息进行处理的,该数据不涉及用户对应用的操作数据,保护了用户的隐私。
需要说明的是,图1所示的系统场景示意图仅仅是一个示例,本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下针对本申请提供的应用类型识别方法进行详细说明。
图2是本申请实施例提供的应用类型识别方法的第一种流程示意图,请参阅图2,该应用类型识别方法包括以下步骤:
S201:确定目标应用。
在一种实施例中,由于本申请需要获取目标应用对应用户的数据,那么目标应用可以是完成测试之后发布的正式版应用,此时,本步骤包括:
管理服务器接收开发者终端上传的应用;
解析应用的应用安装包,得到测试标识;
在测试标识表征应用为正式版应用时,将其作为目标应用。
本实施例可以将正式版应用实时作为目标应用以判断应用类型,可以实时为目标应用配置正确的应用类型,便于用户搜索。
在一种实施例中,应用的用户接纳度需要时间来体现,此时,本步骤包括:
管理服务器获取某应用(可以是测试版应用或者正式版应用)的上架时间;
在上架时间大于时间阈值(如30天等任意时间段)时,将其作为目标应用。
本实施例将上架一定时长的应用作为目标应用以判断应用类型,可以采集到更准确的应用描述信息和用户信息,进而可以为目标应用配置正确的应用类型,提高用户搜索结果反馈的准确性。
在一种实施例中,应用的用户接纳度可以通过下载数量来体现,此时,本步骤包括:
管理服务器获取某应用(可以是测试版应用或者正式版应用)的下载数量;
在下载数量大于数量阈值(如1000等任意数值)时,将其作为目标应用。
本实施例将下载数量较多的应用作为目标应用以判断应用类型,可以采集到更准确的应用描述信息和用户信息,进而可以为目标应用配置正确的应用类型,提高用户搜索结果反馈的准确性。
在一种实施例中,管理服务器可以根据用户搜索的应用进行应用推广,此时,本步骤包括:
管理服务器接收用户终端的搜索请求;
解析搜索请求,确定搜索请求对应的应用;例如根据搜索请求内的关键词等确定该应用;
将该应用确定为目标应用,便于向用户终端反馈推荐列表;推荐列表包括与目标应用的应用类型相同的其他应用。
其中,搜索请求对应应用的数量可以为一个或者多个,那么此时目标应用的数量也可以是一个或者多个,在目标应用的数量是一个时,仅需识别该应用的应用类型,若目标应用的数量是多个时,则需分别识别这些应用的应用类型。
本实施例根据用户搜索确定目标应用,进而实现相同应用类型的推荐,推荐结果更准确,提高用户搜索结果反馈的体验。
在一种实施例中,管理服务器可以根据应用类型进行应用推广,此时,本步骤包括:
将应用商店内没有确定应用类型的应用,作为目标应用,以识别得到这些应用的应用类型,使得应用商店内所有应用都确定了应用类型;
管理服务器接收用户终端的搜索请求;
解析搜索请求,确定搜索请求对应的应用;例如根据搜索请求内的关键词等确定该应用;
根据该应用的应用类型,在目标应用中进行筛选,将筛选结果中的应用添加到推荐列表中,便于向用户终端反馈推荐列表;推荐列表包括与应用的应用类型相同的目标应用。
本实施例将应用商店内所有应用都确定应用类型,这样就可以根据用户搜索从目标应用中选择需要添加到推荐列表中的应用,进而实现相同应用类型的推荐,推荐结果更准确,提高用户搜索结果反馈的体验。
S202:获取目标应用的应用描述信息。
在一种实施例中,本步骤包括以下方式中的至少一个:
解析目标应用的应用安装包,将应用安装包中的推荐信息作为应用描述信息;或者,
获取与目标应用的关键词对应的搜索结果,将搜索结果作为应用描述信息。
在一种实施例中,获取与目标应用的关键词对应的搜索结果的方式可以是管理服务器向搜索服务器发送搜索请求,该搜索请求携带目标应用的关键词(例如应用名称等应用标识),然后接收搜索服务器返回的搜索结果,将搜索结果中用户对目标应用的评价分析、意见反馈等内容,作为应用描述信息。
在一种实施例中,应用描述信息仅包括推荐信息,该方式仅需要解析应用安装包即可获得,实现简单。
在一种实施例中,应用描述信息仅包括搜索结果,该方式以用户对目标应用的评价分析、意见反馈等内容作为目标应用的应用描述信息,可以更大程度上提醒出用户对该应用的理解,而不受应用开发者的舞蹈。
在一种实施例中,应用描述信息同时包括推荐信息和搜索结果,以避免应用开发者配置误导性的推荐信息,保证了应用描述信息的多维度、全面性和客观性。
在一种实施例中,应用描述信息可以同时包括推荐信息和搜索结果,本申请实施例还设置一个文本阈值,例如2000bit,先解析应用安装包获取推荐信息,判断推荐信息的文本内容是否大于文本阈值;若推荐信息的文本内容小于该文本阈值,则认为推荐信息不能准确的描述应用,需要获取搜索结果,此时得到的应用描述信息同时包括推荐信息和搜索结果,可以从多个交底更全面的描述应用;若推荐信息的文本内容大于该文本阈值,则认为推荐信息可以准确的描述应用,不需要获取搜索结果,此时得到的应用描述信息仅包括推荐信息,降低了数据获取的繁杂度。
S203:对应用描述信息进行处理,得到应用描述信息包括预设目标类型信息的概率G。
在一种实施例中,可以采用关键文本检索的方式实现本步骤,此时本步骤可以包括:
获取预设目标类型信息;例如预设目标类型为游戏,那么预设目标类型信息包括“游戏”等关键文本,又如预设目标类型为手赚,那么预设目标类型信息包括“红包”、“返现”等关键文本;
在应用描述信息中进行检索处理,确定应用描述信息是否包含预设目标类型信息,若是,则应用描述信息包括预设目标类型信息的概率为100%,若否,则应用描述信息包括预设目标类型信息的概率为0%。
在一种实施例中,可以采用机器学习的方式实现本步骤,此时本步骤可以包括:
获取训练后的文本分类模型;
对应用描述信息进行分词处理,得到应用描述信息对应的单词;
使用训练后的文本分类模型,对单词进行特征提取及识别处理,得到概率。
在一种实施例中,获取训练后的文本分类模型的步骤可以包括:
获取应用类型包括预设目标类型的第一应用的应用描述信息,作为第一正样本;
获取应用类型不包括预设目标类型的第二应用的应用描述信息,作为第一负样本;
使用第一正样本和第一负样本,对文本分类模型进行训练,得到训练后的文本分类模型。
采用机器学习的方式实现本步骤的方式,将在后文进行描述。
S204:获取目标应用对应用户的用户信息。
在一种实施例中,本步骤包括以下方式中的至少一个:
获取目标应用对应用户的设备信息,将设备信息作为用户信息;或者,
获取目标应用对应用户下载应用的应用信息,将应用信息作为用户信息。
在一种实施例中,用户信息同时包括设备信息和下载应用的应用信息,以避免某些用户的个性化需求;例如某些用户是为了省钱等目的而使用低价格的设备,并不是为了赚钱等目的使用低价格的设备,这些用户实际上并不是手赚用户,若用户信息仅包括设备信息,则容易将这些用户识别为手赚用户,而用户信息同时包括设备信息和下载应用的应用信息,则不会将这些用户识别为手赚用户,保证了用户信息的多维度、全面性和客观性,以用户类型识别的准确性。
在一种实施例中,当前设备一般为智能终端,智能终端内安装有应用商店APP(如某果手机的APP store等),用户使用账号登录应用商店APP并购买应用后,就可以将这些应用下载到智能终端内,而应用往往针对不同类型的智能终端开发出多个版本,因此应用商店APP需要获取到设备信息进行应用版本的推荐。因此,获取目标应用对应用户的设备信息的方式可以为:管理服务器通过应用服务器获取用户的设备信息,获取结果可以如下表1所示:
用户标识 设备型号 系统版本 用户标识 设备型号 系统版本
User1 某为mate10 9.0 User2 某为honor10 9.0
User3 某果10 14.2 ……
表1
在表1中,用户标识可以是用户登录应用商店的登录账号,或者是登录账号对应的虚拟账号,这样就可以隐藏用户的真实登录账号,避免信息泄露。
在一种实施例中,用户在应用商店APP下载应用后,会生成下载历史,该下载历史记录了用户所下载过的应用,若用户下载了这些应用,也表征了用户使用了这些应用,根据应用下载历史也可以确定用户类型,例如用户下载了很多游戏应用,则代表用户为游戏用户等。因此,获取目标应用对应用户下载应用的应用信息的方式可以为:管理服务器通过应用服务器获取用户的下载历史,获取结果可以如下表2所示:
用户标识 下载历史 用户标识 下载历史
User1 应用1、应用2、应用3…… User2 应用2、应用3、应用4……
User3 应用5、应用6、应用7…… ……
表2
一个应用可以包括多个不同的版本,这些不同的版本在表2中,被表示为同一个应用。
S205:根据各用户的用户信息确定各用户的用户类型,基于各用户的用户类型得到应用对应用户中预设目标类型用户的用户占比Z。
在一种实施例中,可以基于简单的特性标记来实现本步骤,此时本步骤包括以下步骤:
获取预定用户信息;预定用户信息包括预定设备型号(例如某米6)、预定系统版本、预定应用标识(例如某某游戏)、预定应用开发者标识(例如某某推广公司)中的至少一个,与预设目标类型用户的用户信息对应;
针对各用户的用户信息进行检索处理,若某用户的用户信息包括预定用户信息中的至少一个,那么将该用户确定为预设目标类型用户;
统计预设目标类型用户的数量,并计算得到用户占比。
本方式实现简单,服务器运算量小。
在一种实施例中,可以基于机器学习实现本步骤,此时本步骤包括以下步骤:
获取训练后的用户分类模型;
使用训练后的用户分类模型,依次对各用户的用户信息进行特征提取及识别,确定各用户的用户类型;
获取用户类型为预设目标类型的用户数量,根据用户数量得到用户占比。
在一种实施例中,获取训练后的用户分类模型的步骤包括以下步骤:
获取预设目标类型用户的用户信息,作为第二正样本;
获取非预设目标类型用户的用户信息,作为第二负样本;
使用第二正样本和第二负样本,对用户分类模型进行训练,得到训练后的用户分类模型。
本申请将在下文进行描述。
S206:判断概率G是否大于第一阈值th1,并判断用户占比Z是否大于第二阈值th2。
在一种实施例中,第一阈值和第二阈值的大小可以相同,也可以不同。
若概率大于第一阈值,且用户占比大于第二阈值,则判定为概率以及用户占比满足预设条件,此时执行步骤S207。
若概率小于第一阈值且用户占比大于第二阈值,或者概率大于第一阈值且用户占比小于第二阈值,或者概率小于第一阈值且用户占比小于第二阈值,则判定为概率以及用户占比不满足预设条件,此时执行步骤S208。
在一种实施例中,概率是否大于第一阈值、以及用户占比是否大于第二阈值的判断可以并列同时进行,也可以顺序先后执行。
在一种实施例中,本步骤可以先判断概率G是否大于第一阈值th1,若概率G不大于第一阈值th1,则不进行用户占比Z是否大于第二阈值th2的判断,直接判定为概率以及用户占比不满足预设条件,此时执行步骤S208;若概率G大于第一阈值th1,则判断用户占比Z是否大于第二阈值th2。或者,本步骤可以先判断用户占比Z是否大于第二阈值th2,若用户占比Z不大于第二阈值th2,则不进行概率G是否大于第一阈值th1的判断,直接判定为概率以及用户占比不满足预设条件,此时执行步骤S208;若用户占比Z大于第二阈值th2,则判断概率G是否大于第一阈值th1。这样可能节省一次判断步骤,简化流程
S207:确定目标应用的应用类型包括预设目标类型。
S208:确定目标应用的应用类型不包括预设目标类型。
管理服务器根据步骤S206的判断结果,确定目标应用的应用类型是否包括预设目标类型,并记录在如下表3所示的表格中,便于后续进行应用推荐时使用。
应用标识 应用类型 用户标识 应用类型
应用1 阅读、手赚、…… 应用2 阅读、……
应用3 游戏、手赚、…… ……
表3
本实施例提供了一种应用类型识别方法,该方法使用机器训练模型确定目标应用的应用类型是否包括预设目标类型;这样本申请在识别应用的应用类型时,根据应用的应用描述信息以及对应用户的用户信息即可以识别得到应用的应用类型,提高了识别准确率。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在一种实施例中,本申请提供的服务器作为可以作为区块链系统中的一个节点,在得到目标应用的应用类型之后,对目标应用的应用类型进行验证,在验证通过后,作为一个新的区块,存储到区块链中,以保证这些识别结果不会被篡改。
图3是本申请实施例提供的应用类型识别方法的第二种流程示意图,本实施例针对如何基于机器学习识别应用类型进行详细描述;请参阅图3,该应用类型识别方法包括以下步骤:
S301:构建应用类型识别模型。
在一种实施例中,构建如图7所示的应用类型识别模型70,该应用类型识别模型70包括文本分类模型71、用户分类模型72、分词模型73、统计模块74以及输出模块75。
文本分类模型71主要用于识别应用描述信息中包含预设目标类型信息的概率,可以是卷积神经网络(CNN,Convolutional Neural Network)、循环神经网络(RNN,RecurrentNeural Network)、BERT(Bidirectional Encoder Representations from Transformers)模型等可以进行训练学习的神经网络或者模型,本申请实施例以文本分类模型71为卷积神经网络为例,进行简单说明。
如图8所示,通过卷积神经网络实现的文本分类模型71,按照模型由输入到输出的层次划分,分为输入层、卷积层、池化层和全连接层这四个层次,其中:
输入层用于将分词模型73对应用描述信息进行分词得到的单词,转化为相同维度的稠密特征;
卷积层用于对相邻单词对应的稠密特征,做卷积计算来提取语言信息,例如类似N-gram(大词汇连续语音识别中常用的一种语言模型)的信息;
池化层用于提取最重要的关键词并缩小模型的规模;
全连接层由多层全连接的神经元组成,用于输出应用描述信息包含预设目标类型信息的概率,例如包含激励信息的概率。
用户分类模型72主要用于识别用户为预设目标类型用户的概率,可以是卷积神经网络、循环神经网络等可以进行训练学习的人工神经网络(ANN,Artificial NeuralNetwork),本申请实施例以用户分类模型72为人工神经网络为例,进行简单说明。
如图9所示,通过人工神经网络实现的用户分类模型72,按照模型由输入到输出的层次划分,分为稀疏特征层、特征嵌入层、隐藏层和输出层这四个层次,其中:
稀疏特征层用于输入用户信息等稀疏特征,例如分别设备型号、系统版本、应用标识、应用开发者标识等稀疏特征;
特征嵌入层将稀疏特征转化为多维的稠密特征,例如将某为Mate10转化为[0.12,0.25,…,0.36]的100维向量;
隐藏层由多层全连接的神经元构成,神经元的激活函数可以为稀疏激活(ReLU,Rectified Liner Uints)函数等函数,其输入为特征嵌入后的特征向量,输出的维度为最后一层神经元的个数;
输出层可以通过SoftMax等函数给出用户是预设目标类型用户的用户概率,SoftMax函数得到的是一个[0,1]之间的值,当某用户对应的用户概率大于0.5时,本申请实施例为该用户为是预设目标类型用户,例如某用户是手赚用户的概率为0.6时,认为该用户为手赚用户。
特征嵌入层可以使用Skip-Gram模型或CBOW(Continuous Bag of Words)模型,利用下载同一个应用的用户设备的手机型号和系统版本具有一定的相似性、以及同一个用户点击过的不同应用和应用开发者具有一定的相似性,将手机型号、系统版本、应用标识、应用开发者标识分别嵌入到100维的向量中。特征嵌入后,向量的余弦距离表示了特征值之间的相似度,例如某为Mate10的特征向量与某为Honor10的特征向量之间的余弦距离,小于某为Mate10的特征向量与某果8的特征向量之间的余弦距离。Skip-Gram和CBOW是Word2Vec(从大量文本语料中以无监督的方式学习语义知识的一种模型,被大量地用在自然语言处理NLP中)中的两种模型,Skip-Gram是给定input word来预测上下文,而CBOW是给定上下文,来预测input word。
分词模型73可以通过基于机器学习的方法实现分词,例如通过循环神经网络实现,首先使用训练语料对模型进行训练,然后使用训练好的模型进行分词,以实现对应用描述信息的分词处理。
S302:训练应用类型识别模型。
如图10所示,应用类型识别模型70的训练过程包括以下步骤:
文本分类模型71的训练。
在一种实施例,文本分类模型71的训练步骤包括:
对分词模型73的训练;本步骤使用大量文本语料,以无监督方式进行循环神经网络的训练,得到训练后的分词模型73;
人工确定多个应用的应用类型;
获取应用类型包括预设目标类型的多个第一应用的应用描述信息,作为第一正样本,获取应用类型不包括预设目标类型的多个第二应用的应用描述信息,作为第一负样本,以构建第一训练集;并获取应用类型不确定是否包括预设目标类型的多个第三应用的应用描述信息,作为第一测试样本,以构建第一测试集;
将第一训练集内的正负样本通过训练后的分词模型73进行分词处理,输入到卷积神经网络模型(与文本分类模型71的架构相同)中进行训练;
对训练得到的卷积神经网络模型在第一测试集上进行测试,人工确定其在第一测试集上的表现;
根据其在第一测试集上的表现对卷积神经网络模型进行优化,直至其在第一测试集上的表现合格,完成卷积神经网络模型的训练;
输出训练后的卷积神经网络模型对应的第一模型参数至文本分类模型71。
用户分类模型72的训练。
在一种实施例,用户分类模型72的训练步骤包括:
人工确定多个用户的用户类型;
获取多个预设目标类型用户的用户信息,作为第二正样本,获取多个非预设目标类型用户的用户信息,作为第二负样本,以构建第二训练集;并获取多个用户类型不确定是否包括预设目标类型用户的多个第三用户的用户信息,作为第二测试样本,以构建第二测试集;
将第二训练集内的正负样本输入到神经网络模型(与用户分类模型72的架构相同)中进行训练;
对训练得到的神经网络模型在第二测试集上进行测试,人工确定其在第二测试集上的表现;
根据其在第二测试集上的表现对神经网络模型进行优化,直至其在第二测试集上的表现合格,完成神经网络模型的训练;
输出训练后的神经网络模型对应的第二模型参数至用户分类模型72。
对应用类型识别模型进行联合训练。
在一种实施例,联合训练步骤包括:
人工确定多个应用的应用类型、概率阈值、占比阈值;
获取应用类型包括预设目标类型的多个第一应用,作为第三正样本,获取应用类型不包括预设目标类型的多个第二应用,作为第三负样本,以构建第三训练集;并获取应用类型不确定是否包括预设目标类型的多个第三应用,作为第三测试样本,以构建第三测试集;
加载分词模型训练后的参数至分词模型73,加载第一模型参数至文本分类模型71,加载第二模型参数至用户分类模型72;
将第三训练集内的正负样本的应用描述信息和用户信息,输入到应用类型识别模型70中进行联合训练;
对联合训练得到的应用类型识别模型70在第三测试集上进行测试,人工确定其在第三测试集上的表现;
根据其在第三测试集上的表现对第一模型参数、第二模型参数、概率阈值和占比阈值进行优化调整,直至其在第三测试集上的表现合格,完成联合训练;
此时,训练后的概率阈值即上文中的第一阈值,训练后的占比阈值即上文中的第二阈值。
S303:使用训练后的应用类型识别模型,识别应用的应用类型。
在一种实施例,本步骤包括:
管理服务器获取某应用的下载数量,在下载数量大于数量阈值时,将其作为目标应用;
解析目标应用的应用安装包,并根据目标应用的关键词进行搜索,将应用安装包中的推荐信息以及搜索结果作为目标应用的应用描述信息;
使用分词模型73对应用描述信息进行分词处理,输出至文本分类模型71得到应用描述信息包括预设目标类型信息的概率;
获取目标应用对应用户的设备信息以及下载应用的应用信息,将设备信息以及下载应用的应用信息作为目标应用对应用户的用户信息;
使用用户分类模型72,依次对各用户的用户信息进行处理,得到各用户为预设目标类型用户的用户概率,在某用户对应的用户概率大于0.5时,将其作为是预设目标类型用户;
统计预设目标类型用户的数量、以及目标应用对应用户的数量,并计算得到用户占比;
判断概率是否大于第一阈值,并判断用户占比是否大于第二阈值;
在概率大于第一阈值、且用户占比大于第二阈值时,确定目标应用的应用类型包括预设目标类型。
本实施例基于机器学习来识别应用的应用类型,降低了对人工的依赖,并且提高了识别准确率。
图4是本申请实施例提供的应用类型识别方法的第三种流程示意图,本实施例以预设目标类型为激励应用为例进行说明,其他类型的应用识别方案与此类型;请参阅图4,该应用类型识别方法包括以下步骤:
S401:模型服务器23构建激励应用识别模型110。
在一种实施例中,模型服务器23构建如图11所示的激励应用识别模型110,该激励应用识别模型110包括激励信息识别模型111、手赚用户识别模型112、分词模型73、统计模块74以及输出模块75等。其与图7所示的应用类型识别模型70相比,仅仅是部分模型的名称不同;具体的,激励信息识别模型111的模型架构和文本分类模型71相同,为了识别不同预设目标类型信息,文本分类模型71的第一模型参数可能存在一定的区别,体现不同分词的识别侧重点,在本实施例中,文本分类模型71的第一模型参数侧重在识别激励信息,因此称为激励信息识别模型111;具体的,手赚用户识别模型112的模型架构和用户分类模型72相同,为了识别不同用户类型,用户分类模型72的第二模型参数可能存在一定的区别,体现不同用户的识别侧重点,在本实施例中,用户分类模型72的第二模型参数侧重在识别手赚用户,因此称为手赚用户识别模型112;其他场景需要对应调整第一模型参数和第二模型参数即可。
S402:模型服务器23训练激励应用识别模型110。
如图12所示,激励应用识别模型110的训练过程包括以下步骤:
激励信息识别模型111的训练。
在一种实施例,激励信息识别模型111的训练步骤包括:
对分词模型73的训练,本步骤使用大量的激励信息文本语料,以无监督方式进行循环神经网络的训练,得到训练后的分词模型73;
人工确定多个激励应用和多个正常应用(即非激励应用);
获取多个激励应用的应用描述信息,作为激励信息正样本,获取多个正常应用的应用描述信息,作为激励信息负样本,以构建激励信息训练集;并获取多个不确定是否为激励应用的应用描述信息,作为激励信息测试样本,以构建激励信息测试集;
将激励信息训练集内的正负样本通过训练后的分词模型73进行分词处理,输入到卷积神经网络模型(与激励信息识别模型111的架构相同)中进行训练;
对训练得到的卷积神经网络模型在激励信息测试集上进行测试,人工确定其在激励信息测试集上的表现;
根据其在激励信息测试集上的表现对卷积神经网络模型进行优化,直至其在激励信息测试集上的表现合格,完成卷积神经网络模型的训练;
输出训练后的卷积神经网络模型对应的激励信息识别模型参数至激励信息识别模型111。
手赚用户识别模型112的训练。
在一种实施例,手赚用户识别模型112的训练步骤包括:
人工确定多个手赚用户以及正常用户(即非手赚用户);
获取多个手赚用户的用户信息,作为手赚用户正样本,获取多个正常用户的用户信息,作为手赚用户负样本,以构建手赚用户训练集;并获取用户类型不确定是否为手赚用户的多个用户的用户信息,作为手赚用户测试样本,以构建手赚用户测试集;
将手赚用户训练集内的正负样本输入到神经网络模型(与手赚用户识别模型112的架构相同)中进行训练;
对训练得到的神经网络模型在手赚用户测试集上进行测试,人工确定其在手赚用户测试集上的表现;
根据其在手赚用户测试集上的表现对神经网络模型进行优化,直至其在手赚用户测试集上的表现合格,完成神经网络模型的训练;
输出训练后的神经网络模型对应的手赚用户识别模型参数至手赚用户识别模型112。
对激励应用识别模型进行联合训练。
在一种实施例,联合训练步骤包括:
人工确定多个激励应用以及正常应用、概率阈值、占比阈值;
获取多个激励应用,作为激励应用正样本,获取多个正常应用,作为激励应用负样本,以构建激励应用训练集;并获取应用类型不确定是否包括激励类型的多个第三应用,作为激励应用测试样本,以构建激励应用测试集;
加载分词模型训练后的参数至分词模型73,加载激励信息识别模型参数至激励信息识别模型111,加载手赚用户识别模型参数至手赚用户识别模型112;
将激励应用训练集内的正负样本的应用描述信息和用户信息,输入到激励应用识别模型110中进行联合训练;
对联合训练得到的激励应用识别模型110在激励应用测试集上进行测试,人工确定其在激励应用测试集上的表现;
根据其在激励应用测试集上的表现对激励信息识别模型参数、手赚用户识别模型参数、概率阈值和占比阈值进行优化,直至其在激励应用第三测试集上的表现合格,完成联合训练;
此时,训练后的概率阈值即上文中的第一阈值,训练后的占比阈值即上文中的第二阈值。
S403:管理服务器22调用模型服务器23训练后的激励应用识别模型110。
S404:应用服务器21接收应用。
在一种实施例中,应用开发者通过开发者终端11上传应用“某头条”,应用服务器21接收到应用之后,对应用进行合法性和安全性验证,在验证通过后,将其加入到应用商店内,供用户通过用户终端下载安装使用。
S405:应用服务器21触发管理服务器22识别应用是否为激励应用。
在一种实施例中,应用服务器21在该应用“某头条”上架到应用商店的上架时间大于时间阈值,如3个月时,或者在该应用“某头条”下载数量大于数量,如2万时,向管理服务器22发送触发请求,以触发管理服务器22识别该应用“某头条”是否为激励应用。
S406:管理服务器22获取目标应用对应的应用描述信息和对应用户的用户信息。
在一种实施例中,管理服务器22在接收到应用服务器21发送的触发请求后,将该应用“某头条”作为目标应用。
在此基础上,管理服务器22从应用服务器21获取该应用“某头条”的应用安装包,并解析得到推荐信息“某头条,一种能赚钱的APP”;并以“某头条”为关键词,从搜索服务器得到该应用“某头条”对应的搜索结果“门槛低入驻即开通广告分成告别新手期提现快符合规则**日到账不限次数活动多入驻就送钱,邀请送更多就这么任性收益高内容同步推送用户超**万”,最后得到该应用“某头条”的应用描述信息“某头条,一种能赚钱的APP门槛低入驻即开通广告分成告别新手期提现快符合规则**日到账不限次数活动多入驻就送钱,邀请送更多就这么任性收益高内容同步推送用户超**万”。
进一步的,管理服务器22从应用服务器21获取下载该应用“某头条”的用户列表,将用户列表内的用户作为该应用“某头条”对应用户。
进而管理服务器22从应用服务器21获取这些应用“某头条”对应用户的设备信息以及下载应用的应用信息,设备信息以及下载应用的应用信息作为应用“某头条”对应用户的用户信息。
S407:管理服务器22使用激励应用识别模型110识别目标应用是否为激励应用。
在一种实施例中,管理服务器22将该应用“某头条”的应用描述信息“某头条,一种能赚钱的APP门槛低入驻即开通广告分成告别新手期提现快符合规则**日到账不限次数活动多入驻就送钱,邀请送更多就这么任性收益高内容同步推送用户超**万”输入到分词模型73,使用分词模型73对该应用“某头条”的应用描述信息进行分词处理得到“某头条”、“赚钱”、“分成”、“提现”、“到账”、“送钱”、“收益”等分词,然后依次输出至激励信息识别模型111得到应用描述信息包括激励信息的概率为98%;
在一种实施例中,管理服务器22使用手赚用户识别模型112,依次对该应用“某头条”对应用户的用户信息进行处理,得到各用户为手赚用户的用户概率,在某用户对应的用户概率大于0.5时,将其作为是手赚用户,例如将用户信息包括“某米”(对应设备型号)、“安卓1”(对应系统版本)、“某某赚钱”(对应应用标识)以及“某某推广公司”(对应应用开发者标识)中任意一项的用户识别为手赚用户;统计手赚用户的数量为280万、以及该应用“某头条”对应用户的数量为350万,并计算得到用户占比为80%;
在一种实施例中,管理服务器22判断概率98%是否大于第一阈值(例如60%),并判断用户占比80%是否大于第二阈值(例如50%);此时,概率大于第一阈值、且用户占比大于第二阈值,确定该应用“某头条”为激励应用。
S408:管理服务器22向应用服务器21返回识别结果。
在一种实施例中,管理服务器22向应用服务器21返回触发响应,该触发响应携带识别结果:应用“某头条”为激励应用。
S409:应用服务器21存储识别结果。
在一种实施例中,应用服务器21通过表格等方式,将应用“某头条”为激励应用的识别结果进行存储。
S410:应用服务器21接收用户的应用搜索请求。
在一种实施例中,用户在用户终端12展示的应用商店界面输入关键词“赚钱”,用户终端12生成应用搜索请求发送至应用服务器21,该应用搜索请求携带关键词“赚钱”。
S411:应用服务器21发送应用搜索结果。
在一种实施例中,应用服务器21在接收到应用搜索请求后,提取关键词“赚钱”,根据该关键词“赚钱”进行激励应用的检索,检索结果为检索到应用“某头条”为激励应用。
在一种实施例中,应用服务器21然后将应用“某头条”的下载地址、推荐信息等应用搜索结果,通过应用搜索响应发送至对应的用户终端12。
本实施例以激励应用的识别为例,详细说明了本申请如何基于机器学习来识别应用的应用类型,降低了对人工的依赖,并且提高了识别准确率,其他类型应用的识别与其相似。
相应的,图5是本申请实施例提供的应用类型识别装置的结构示意图,请参阅图5,该应用类型识别装置包括以下模块:
第一获取模块51,用于获取目标应用的应用描述信息;
第一处理模块52,用于对应用描述信息进行处理,得到应用描述信息包括预设目标类型信息的概率;
第二获取模块53,用于获取目标应用对应用户的用户信息;
第二处理模块54,用于根据各用户的用户信息确定各用户的用户类型,基于各用户的用户类型得到应用对应用户中预设目标类型用户的用户占比;
结果输出模块55,用于在概率以及用户占比满足预设条件时,确定目标应用的应用类型包括预设目标类型。
在一种实施例中,第一获取模块51包括以下模块中的至少一个:
解析模块,用于解析目标应用的应用安装包,将应用安装包中的推荐信息作为应用描述信息;或者,
搜索模块,用于获取与目标应用的关键词对应的搜索结果,将搜索结果作为应用描述信息。
在一种实施例中,第二获取模块53包括以下模块中的至少一个:
设备信息获取模块,用于获取目标应用对应用户的设备信息,将设备信息作为用户信息;或者,
应用信息获取模块,用于获取目标应用对应用户下载应用的应用信息,将应用信息作为用户信息。
在一种实施例中,第二处理模块54包括:
模型调用模块,用于获取训练后的用户分类模型;
模型处理模块,用于使用训练后的用户分类模型,依次对各用户的用户信息进行特征提取及识别,确定各用户的用户类型;
占比获取模块,用于获取用户类型为预设目标类型的用户数量,根据用户数量得到用户占比。
在一种实施例中,第一处理模块52包括:
分词模块,用于对应用描述信息进行分词处理,得到应用描述信息对应的单词;
模型调用模块还用于获取训练后的文本分类模型;
模型处理模块还用于使用训练后的文本分类模型,对单词进行特征提取及识别处理,得到概率。
在一种实施例中,应用类型识别装置还包括:
正样本获取模块,用于获取预设目标类型用户的用户信息,作为第二正样本;
负样本获取模块,用于获取非预设目标类型用户的用户信息,作为第二负样本;
模型训练模块,用于使用第二正样本和第二负样本,对用户分类模型进行训练,得到训练后的用户分类模型。
在一种实施例中,正样本获取模块还用于获取应用类型包括预设目标类型的第一应用的应用描述信息,作为第一正样本;
此时,负样本获取模块还用于获取应用类型不包括预设目标类型的第二应用的应用描述信息,作为第一负样本;
模型训练模块还用于使用第一正样本和第一负样本,对文本分类模型进行训练,得到训练后的文本分类模型。
在一种实施例中,应用类型识别装置还包括:
存储模块,用于将目标应用的应用类型存储至区块链中。
在一种实施例中,结果输出模块55包括:
判断模块,用于判断概率是否大于第一阈值,并判断用户占比是否大于第二阈值;
确定模块,用于在概率大于第一阈值、且用户占比大于第二阈值时,确定目标应用的应用类型包括预设目标类型。
相应的,本申请实施例还提供一种服务器,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
服务器还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现本申请实施例所提供的任一种方法中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对应用类型识别方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的任一种方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种应用类型识别方法及装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种应用类型识别方法,其特征在于,包括:
获取目标应用的应用描述信息;
利用激励信息识别模型对所述应用描述信息进行处理,得到所述应用描述信息包括预设目标类型信息的概率;其中,所述激励信息识别模型为卷积神经网络模型,基于激励应用的应用描述信息训练得到;
获取所述目标应用对应用户的用户信息;
通过手赚用户识别模型根据各用户的用户信息确定各用户的用户类型,基于所述各用户的用户类型得到所述目标应用对应用户中预设目标类型用户的用户占比;其中,所述手赚用户识别模型为神经网络模型,基于手赚用户的用户信息训练得到;
在所述概率以及所述用户占比满足预设条件时,确定所述目标应用的应用类型包括所述预设目标类型。
2.根据权利要求1所述的应用类型识别方法,其特征在于,所述获取目标应用的应用描述信息的步骤,包括以下方式中的至少一个:
解析所述目标应用的应用安装包,将所述应用安装包中的推荐信息作为所述应用描述信息;或者,
获取与所述目标应用的关键词对应的搜索结果,将所述搜索结果作为所述应用描述信息。
3.根据权利要求1所述的应用类型识别方法,其特征在于,所述对所述应用描述信息进行处理,得到所述应用描述信息包括预设目标类型信息的概率的步骤,包括:
获取训练后的文本分类模型;
对所述应用描述信息进行分词处理,得到所述应用描述信息对应的单词;
使用训练后的文本分类模型,对所述单词进行特征提取及识别处理得到所述概率。
4.根据权利要求3所述的应用类型识别方法,其特征在于,还包括:
获取应用类型包括所述预设目标类型的第一应用的应用描述信息,作为第一正样本;
获取应用类型不包括所述预设目标类型的第二应用的应用描述信息,作为第一负样本;
使用所述第一正样本和所述第一负样本,对文本分类模型进行训练,得到所述训练后的文本分类模型。
5.根据权利要求1所述的应用类型识别方法,其特征在于,所述获取所述目标应用对应用户的用户信息的步骤,包括以下方式中的至少一个:
获取所述目标应用对应用户的设备信息,将所述设备信息作为所述用户信息;或者,
获取所述目标应用对应用户下载应用的应用信息,将所述应用信息作为所述用户信息。
6.根据权利要求1所述的应用类型识别方法,其特征在于,所述根据各用户的用户信息确定各用户的用户类型,基于所述各用户的用户类型得到所述目标应用对应用户中预设目标类型用户的用户占比的步骤,包括:
获取训练后的用户分类模型;
使用训练后的用户分类模型,依次对各用户的用户信息进行特征提取及识别,确定各用户的用户类型;
获取用户类型为预设目标类型的用户数量,根据所述用户数量得到所述用户占比。
7.根据权利要求6所述的应用类型识别方法,其特征在于,还包括:
获取预设目标类型用户的用户信息,作为第二正样本;
获取非预设目标类型用户的用户信息,作为第二负样本;
使用所述第二正样本和所述第二负样本,对用户分类模型进行训练,得到所述训练后的用户分类模型。
8.根据权利要求1所述的应用类型识别方法,其特征在于,在确定所述目标应用的应用类型包括所述预设目标类型的步骤之后,还包括:
将所述目标应用的应用类型存储至区块链中。
9.根据权利要求1至8任一项所述的应用类型识别方法,其特征在于,所述在所述概率以及所述用户占比满足预设条件时,确定所述目标应用的应用类型包括所述预设目标类型的步骤,包括:
判断所述概率是否大于第一阈值,并判断所述用户占比是否大于第二阈值;
在所述概率大于第一阈值、且所述用户占比大于第二阈值时,确定所述目标应用的应用类型包括所述预设目标类型。
10.一种应用类型识别装置,其特征在于,包括:
第一获取模块,用于获取目标应用的应用描述信息;
第一处理模块,用于利用激励信息识别模型对所述应用描述信息进行处理,得到所述应用描述信息包括预设目标类型信息的概率;其中,所述激励信息识别模型为卷积神经网络模型,基于激励应用的应用描述信息训练得到;
第二获取模块,用于获取所述目标应用对应用户的用户信息;
第二处理模块,用于通过手赚用户识别模型根据各用户的用户信息确定各用户的用户类型,基于所述各用户的用户类型得到所述目标应用对应用户中预设目标类型用户的用户占比;其中,所述手赚用户识别模型为神经网络模型,基于手赚用户的用户信息训练得到;
结果输出模块,用于在所述概率以及所述用户占比满足预设条件时,确定所述目标应用的应用类型包括所述预设目标类型。
11.根据权利要求10所述的应用类型识别装置,其特征在于,所述第二获取模块包括以下模块中的至少一个:
设备信息获取模块,用于获取所述目标应用对应用户的设备信息,将所述设备信息作为所述用户信息;或者,
应用信息获取模块,用于获取所述目标应用对应用户下载应用的应用信息,将所述应用信息作为所述用户信息。
12.根据权利要求11所述的应用类型识别装置,其特征在于,所述第二处理模块包括:
模型调用模块,用于获取训练后的用户分类模型;
模型处理模块,用于使用训练后的用户分类模型,依次对各用户的用户信息进行特征提取及识别,确定各用户的用户类型;
占比获取模块,用于获取用户类型为预设目标类型的用户数量,根据所述用户数量得到所述用户占比。
13.根据权利要求10至12任一项所述的应用类型识别装置,其特征在于,所述结果输出模块包括:
判断模块,用于判断所述概率是否大于第一阈值,并判断所述用户占比是否大于第二阈值;
确定模块,用于在所述概率大于第一阈值、且所述用户占比大于第二阈值时,确定所述目标应用的应用类型包括所述预设目标类型。
14.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的应用类型识别方法中的步骤。
15.一种计算机可读存储介质,其内存储有处理器可执行指令,该处理器通过执行所述指令提供如权利要求1至9任一项所述的应用类型识别方法中的步骤。
CN201910857961.7A 2019-09-09 2019-09-09 应用类型识别方法及装置、服务器及存储介质 Active CN110598070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910857961.7A CN110598070B (zh) 2019-09-09 2019-09-09 应用类型识别方法及装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910857961.7A CN110598070B (zh) 2019-09-09 2019-09-09 应用类型识别方法及装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110598070A CN110598070A (zh) 2019-12-20
CN110598070B true CN110598070B (zh) 2022-01-25

Family

ID=68858802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910857961.7A Active CN110598070B (zh) 2019-09-09 2019-09-09 应用类型识别方法及装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110598070B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159507B (zh) * 2019-12-27 2023-10-31 Oppo广东移动通信有限公司 终端帐户的分类方法、装置、终端及存储介质
CN110874491B (zh) * 2020-01-16 2020-05-08 支付宝(杭州)信息技术有限公司 基于机器学习的隐私数据处理方法、装置及电子设备
CN112306517A (zh) * 2020-03-30 2021-02-02 尼尔森网联媒介数据服务有限公司 处理应用程序的数据的方法、装置、存储介质和电子设备
CN111880872A (zh) * 2020-06-28 2020-11-03 华为技术有限公司 一种管理应用程序app的方法、终端设备、服务器和系统
CN111859370B (zh) * 2020-06-30 2024-05-17 百度在线网络技术(北京)有限公司 识别服务的方法、装置、电子设备和计算机可读存储介质
CN112036572B (zh) * 2020-08-28 2024-03-12 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置
CN114416600B (zh) * 2022-03-29 2022-06-28 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577252A (zh) * 2012-07-26 2014-02-12 腾讯科技(深圳)有限公司 一种软件分类的方法及装置
CN104424307A (zh) * 2013-09-04 2015-03-18 腾讯科技(深圳)有限公司 一种智能终端应用程序分类方法、系统及智能终端
CN104778178A (zh) * 2014-01-13 2015-07-15 腾讯科技(深圳)有限公司 一种应用分类方法、装置、及业务服务器
CN105511587A (zh) * 2015-11-28 2016-04-20 广东欧珀移动通信有限公司 一种射频链路控制的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236799A1 (en) * 2002-06-20 2003-12-25 International Business Machines Corporation Method for managing files and dependent applications that act on them
US20080276177A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Tag-sharing and tag-sharing application program interface
CN102170495B (zh) * 2011-04-07 2013-11-13 宇龙计算机通信科技(深圳)有限公司 手机应用分类管理方法及装置
CN106874279B (zh) * 2015-12-11 2021-01-15 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106155789B (zh) * 2016-06-28 2020-02-21 宇龙计算机通信科技(深圳)有限公司 一种应用冻结方法及移动终端
CN106682169B (zh) * 2016-12-27 2020-09-18 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN107169021A (zh) * 2017-04-07 2017-09-15 华为机器有限公司 用于预测应用功能标签的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577252A (zh) * 2012-07-26 2014-02-12 腾讯科技(深圳)有限公司 一种软件分类的方法及装置
CN104424307A (zh) * 2013-09-04 2015-03-18 腾讯科技(深圳)有限公司 一种智能终端应用程序分类方法、系统及智能终端
CN104778178A (zh) * 2014-01-13 2015-07-15 腾讯科技(深圳)有限公司 一种应用分类方法、装置、及业务服务器
CN105511587A (zh) * 2015-11-28 2016-04-20 广东欧珀移动通信有限公司 一种射频链路控制的方法及装置

Also Published As

Publication number Publication date
CN110598070A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN111506722A (zh) 基于深度学习技术的知识图谱问答方法、装置及设备
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN111680147A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN111371767A (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN107193974A (zh) 基于人工智能的地域性信息确定方法和装置
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN112988963A (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN114118451A (zh) 智能交互模型的训练方法、交互方法、装置及设备
CN115392237A (zh) 情感分析模型训练方法、装置、设备及存储介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN113821587A (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN116974626B (zh) 分析序列图生成方法、装置、设备和计算机可读存储介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
CN113761193A (zh) 日志分类方法、装置、计算机设备和存储介质
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN116340516A (zh) 实体关系的聚类提取方法、装置、设备及存储介质
WO2023137918A1 (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN113628043A (zh) 基于数据分类的投诉有效性判断方法、装置、设备及介质
JP2022111020A (ja) 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant