CN114818987B - 一种科技服务数据的处理方法、装置以及系统 - Google Patents

一种科技服务数据的处理方法、装置以及系统 Download PDF

Info

Publication number
CN114818987B
CN114818987B CN202210699236.3A CN202210699236A CN114818987B CN 114818987 B CN114818987 B CN 114818987B CN 202210699236 A CN202210699236 A CN 202210699236A CN 114818987 B CN114818987 B CN 114818987B
Authority
CN
China
Prior art keywords
application
classification
user
category
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210699236.3A
Other languages
English (en)
Other versions
CN114818987A (zh
Inventor
周凡
刘海亮
苏航
汤武惊
张怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Shenzhen Research Institute of Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Shenzhen Research Institute of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, Shenzhen Research Institute of Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210699236.3A priority Critical patent/CN114818987B/zh
Publication of CN114818987A publication Critical patent/CN114818987A/zh
Application granted granted Critical
Publication of CN114818987B publication Critical patent/CN114818987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于智能终端的技术领域,提供了一种科技服务数据的处理方法、装置以及系统。该方法包括:获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类。本申请实施例解决分类结果无法满足用户的个性化需求的问题。

Description

一种科技服务数据的处理方法、装置以及系统
技术领域
本发明涉及的智能终端技术领域,尤其涉及一种科技服务数据的处理方法、装置以及系统。
背景技术
随着智能终端(例如手机、平板等设备)越来越普及和互联网发展越来越快,人们对应用软件的需求量越来越大,各种各样的移动应用不断地增加。对这些日增月累的应用软件进行分类整理,能够帮助用户快速找到要使用的程序。
现有的应用程序分类方法内部具有一个预定义的分类框架,该分类框架不可更改,使得用户使用现有的应用程序分类软件进行应用分类时,只能按照预定义的分类框架进行分类。然而,每个用户使用应用程序的场景不同,使用应用程序的方法也不相同,导致开发人员预定义的分类框架用户不一定都认同。当使用现有的应用程序分类软件进行应用分类后,用户还需要根据自己的使用习惯重新对各个分类好的应用程序再次进行分类调整。
因此,在现有技术中,通过直接采用应用分类软件对终端桌面中的应用软件进行分类时,分类结果无法满足用户的个性化需求。
发明内容
有鉴于此,本发明实施例提供了一种科技服务数据的处理以及分类方法,以解决分类结果无法满足用户的个性化需求的问题。
本发明实施例的第一方面提供了一种科技服务数据的处理方法,包括:
获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识;
将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;
将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类;所述第一应用程序以及所述第二应用程序为对科技服务数据进行处理的应用程序。
在一个实施示例中,所述将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,包括:
若任一所述修改记录中的第一自定义类别属于预设应用类别,则生成所述第一自定义类别关联的各个应用标识的一条分类记录;所述分类记录包括所述修改记录中的用户终端标识和所述第一自定义类别;
对所述分类记录进行聚类,得到数据库中各个应用标识的分类统计数;所述应用标识被分类为各个所述自定义类别的次数为所述分类统计数;
若所述数据库中任一应用标识的任一所述第一自定义类别的分类统计数超出第一阈值,则将所述应用标识添加至所述第一自定义类别的语料库中。
在一个实施示例中,所述应用分类模型包括各个所述预设应用类别对应的二分类器;
所述根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,包括:
获取所述第一自定义类别更新后的语料库中包含的应用标识的应用信息;
将所述应用信息输入所述第一自定义类别对应的二分类器中进行迭代训练,得到第一优化分类器;
将所述应用分类模型中所述第一自定义类别对应的二分类器更新为所述第一优化分类器。
在一个实施示例中,所述获取所述第一自定义类别更新后的语料库中包含的应用标识的应用信息,包括:
从应用商店和/或网络网页中抓取所述自定义类别更新后的语料库中包含的各个应用标识对应的应用程序的应用信息。
在一个实施示例中,所述将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,包括:
若任一所述修改记录中的第二自定义类别不属于预设应用类别,则设定所述第二自定义类别为候选应用类别;
将所述第二自定义类别关联的应用标识添加至所述候选应用类别的语料库中。
在一个实施示例中,所述根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,包括:
若任一所述候选应用类别的语料库中包含的应用标识数量超出第二阈值,则获取所述候选应用类别的语料库中包含的应用标识的应用信息;
将所述应用信息输入二分类器中进行训练,得到所述候选应用类别对应的二分类器;
将所述候选应用类别对应的二分类器加入所述应用分类模型中。
在一个实施示例中,所述获取所述候选应用类别的语料库中包含的应用标识的应用信息,包括:
从应用商店和/或网络网页中抓取所述候选应用类别的语料库中包含的应用标识对应的应用程序的应用信息。
本发明实施例的第二方面提供了一种科技服务数据的处理装置,包括:
修改记录获取模块,用于获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的第一应用程序的应用标识;
分类模型优化模块,用于将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;
模型更新模块,用于将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类;所述第一应用程序以及所述第二应用程序为对科技服务数据进行处理的应用程序。
本发明实施例的第三方面提供了一种科技服务数据的处理方法,包括:
采用应用分类模型对用户终端中的应用程序分类,得到若干应用分类组;
若检测到任一所述应用分类组的命名变更,则采集所述应用分类组的当前名称并获取所述应用分类组包含的各个应用程序的应用标识,得到用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识;
获取所述用户终端的标识,根据所述标识、所述自定义类别以及所述自定义类别关联的应用标识生成应用分类组的修改记录;所述应用分类组包括对科技服务数据进行处理的应用程序。
本发明实施例的第四方面提供了一种应用分类系统,包括:用户终端和服务器;
所述用户终端与所述服务器通信连接;
所述服务器包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面中科技服务数据的处理以及实现第一方面中科技服务数据的处理方法。
本发明实施例提供的一种科技服务数据的处理方法、装置以及系统,采用预设的应用分类模型对用户终端具有的应用程序分类后,得到若干应用分类组。若用户对分类结果不满意,则会对应用分组的类别以及包含的应用程序进行修改。通过获取各个第一用户终端的应用分类组的修改记录,能够得到用户个性化设定的自定义类别以及被定义为所述自定义类别的各个应用程序。应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识;将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,通过将用户个性化认定的自定义类别关联的应用标识加入语料库,实现在训练数据中增加自定义类别的样本数据;并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,使得应用分类模型能够不断学习用户的个性化应用程序分类规则,得到优化分类模型。将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类。实现优化分类模型划分得到的应用分类组满足用户的个性化需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的科技服务数据的处理方法的流程示意图;
图2是本发明实施例一提供的一种实施方式中将自定义类别关联的应用标识添加至所述自定义类别的语料库的流程示意图;
图3是本发明实施例一提供的另一种实施方式中将自定义类别关联的应用标识添加至所述自定义类别的语料库的流程示意图;
图4是本发明实施例二提供的科技服务数据的处理方法的流程示意图;
图5是本发明实施例三提供的科技服务数据的处理装置的结构示意图;
图6是本发明实施例四提供的应用分类系统的结构示意图;
图7是本发明实施例四提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
实施例一
如图1所示,是本发明实施例一提供的科技服务数据的处理方法的流程示意图。本实施例可适用于对用户的个性化应用分类进行学习的应用场景。该方法可以由科技服务数据的处理装置执行,该装置可为控制设备或终端平板、PC或服务器等;在本申请实施例中以科技服务数据的处理装置作为执行主体进行说明,该方法具体包括如下步骤:
由于现有技术中现有的应用程序分类方法内部具有一个预定义的分类框架,该分类框架不可更改,使得用户使用现有的应用程序分类软件进行应用分类时,只能按照预定义的分类框架进行分类。预定义的分类框架不一定使用户都认同,导致使用现有的应用程序分类软件进行应用分类后,用户还需要根据自己的使用习惯或喜好重新对各个分类好的应用程序再次进行分类调整。为解决这一技术问题,本申请实施例通过将各个应用分类组的修改记录中被定义为所述自定义类别的各个应用程序的应用标识添加至对应的自定义类别的语料库中,通过将用户个性化认定的自定义类别关联的应用标识加入存储语料库中,实现在训练数据中增加自定义类别的样本数据;并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,使得应用分类模型能够不断学习用户的个性化应用程序分类规则,得到优化分类模型。
S110、获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识。
为提高用户的体验感,用户终端(例如移动终端、平板、智能手表等设备)中常常安装有预设的应用分类模型对用户终端中的应用程序进行分类。通过应用分类模型可对用户终端内分布位置杂乱无章的应用程序进行分类整理,使得用户终端中的应用程序按照预设应用类别划分成若干应用分类组,每个应用分类组的名称为该应用分类组对应的应用类别。具体的,安装在用户终端的预设的应用分类模型根据预设的分类框架训练得到,该分类框架包括若干预设应用类别,例如:“游戏”、“理财”和“餐饮生活”等。
但用户终端中预设的应用分类模型的分类框架并不一定符合每一个用户的应用使用习惯或应用分类喜好。在用户终端中应用分类模型进行应用分类后,用户还需要根据自己的使用习惯或喜好重新对各个分类好的应用分类组再次进行分类调整,例如添加或移除原有应用分类组中的应用程序并按照用户自身需求对修改后的应用分类组重新命名或按照用户自身需求直接对原有的应用分类组重新命名。若用户终端检测到现有的任一应用分类组的命名发生变更,则判断应用分类发生一次修改,采集发生命名变更的应用分类组的当前名称并获取该应用分类组包含的各个应用程序的应用标识,从而得到此次应用分类修改用户设置的自定义类别以及被定义为该自定义类别的各个应用程序的应用标识。然后获取用户终端的标识,根据用户终端的标识、此次应用分类修改得到的自定义类别以及被定义为该自定义类别的各个应用程序的应用标识生成应用分类组的修改记录。可选的,用户终端的标识可为用户终端的IMEI和MAC地址组合后通过密码散列函数(MD5)加密得到的一个唯一的标识码。
用户终端将生成的修改记录发生至科技服务数据的处理装置,使得科技服务数据的处理装置接收到各个第一用户终端的应用分类组的修改记录。其中,每一条修改记录代表对应的一个用户终端发生的一次应用分类修改。每一修改记录包含发生应用分类修改的用户终端标识,以及在该次应用分类修改过程中用户设置的自定义类别以及被定义为自定义类别的各个应用程序的应用标识。具体的,第一用户终端为移动终端、平板、智能手表等设备。
S120、将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型。
为实现应用终端中的预设应用分类模型能够按照预设应用类别对用户终端中的应用程序进行分类,该应用分类模型需要经过由各个预设应用类别标签的应用程序的语料组成的训练数据训练得到。科技服务数据的处理装置包括数据库,该数据库由存储各个预设应用类别标签的应用程序的语料的语料库构成;且各个应用程序的语料包括从网页以及应用商店中爬取得到的应用信息。可选的,该数据库可为MongoDB数据库。
当科技服务数据的处理装置获取到各个第一用户终端的应用分类组的修改记录后,由于各个修改记录中自定义类别关联的应用标识是用户个性化设定的应用分类关联。为使得预设的应用分类模型能够不断学习用户的个性化应用程序分类规则,将各个修改记录中的自定义类别关联的应用标识添加至对应的自定义类别的语料库中,从而实现将用户个性化设定的自定义类别关联的应用程序标识作为样本数据添加至自定义类别的语料库中,在预设应用分类模型的训练数据中增加自定义类别的样本数据。之后,根据所有自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;使得应用分类模型能够按照用户个性化设定的应用程序与自定义类别的分类关联对用户终端中的应用程序进行分类。
在一个实施示例中,当用户终端中的应用分类模型对用户终端中具有的应用程序进行分类后,用户对分类结果不满意时,会通过添加或移除原有应用分类组中的应用程序并按照用户自身需求对修改后的应用分类组重新命名或按照用户自身需求直接对原有的应用分类组重新命名,即自定义类别。此时,用户设定的自定义类别可为应用分类模型中已有的预设应用类别,为实现应用分类模型根据用户个性需求进行应用准确分类,可以直接将修改记录中包含的应用程序的应用标识作为样本加入应用分类模型原有的训练数据中。如图2所示,将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中具体过程包括步骤11至步骤13:
步骤11、若任一所述修改记录中的第一自定义类别属于预设应用类别,则生成所述第一自定义类别关联的各个应用标识的一条分类记录;所述分类记录包括所述修改记录中的用户终端标识和所述第一自定义类别;
当科技服务数据的处理装置获取到各个第一用户终端的应用分类组的修改记录后,判断每一修改记录中的第一自定义类别是否属于预设应用分类模型中已有的预设应用类别。若任一修改记录中的第一自定义类别属于某一预设应用分类模型中已有的预设应用类别,则说明该修改记录中的第一自定义类别在预设应用分类模型中早有定义但预设应用分类模型并不认为该修改记录中第一自定义类别关联的各个应用标识对应的应用程序属于该自定义类别;此时,根据该修改记录生成第一自定义类别关联的各个应用标识的一条分类记录,以对各个应用标识被用户自定义分类为第一自定义类别的分类行为以及次数进行记录。使得当某一应用程序被多个用户定义为不同的应用类别时,该应用程序对应的应用标识具有多条分类记录,每条分类记录包含用户终端标识和被定义的自定义类别。可选的,生成的各个应用标识的分类记录可存储在科技服务数据的处理装置中的用户行为存储模块中,且可采用MYSQL数据库中“multiclass”字段的存储方式对各个应用标识的分类记录进行存储。
步骤12、对所述分类记录进行聚类,得到数据库中各个应用标识的分类统计数;所述应用标识被分类为各个所述自定义类别的次数为所述分类统计数;
当任一修改记录中的第一自定义类别属于预设应用类别时,为避免个例样本对应用分类模型的分类准确度的干扰,需对个性化的应用分类装置中存储的各个应用标识的分类记录进行分析,确定是否存在大多数用户均将某一应用定义为自定义类别。具体的,可通过对个性化的应用分类装置中存储的各个应用标识的分类记录进行聚类,得到数据库中各个应用标识的分类统计数。由于分类记录中包括用户终端标识,当分类记录中包含的用户终端标识不同时即可认定为是两条不同的分类记录。在聚类过程中以数据库中每一个应用标识为一个单位进行分类记录聚类,能够得到每一应用标识被定义为不同自定义类别的聚类集群;通过统计每一应用标识被定义为任一自定义类别的聚类集群中包含的分类记录的数量,得到每一应用标识被定义为各个自定义类别的次数,即分类统计数。
步骤13、若所述数据库中任一应用标识的任一所述第一自定义类别的分类统计数超出第一阈值,则将所述应用标识添加至所述第一自定义类别的语料库中。
个性化的应用分类装置能够根据数据库中各个应用标识的分类统计数,确定是否存在大多数用户均将某一应用定义为自定义类别,从而将被少数用户定义为属于预设应用类别的第一自定义类别的应用程序剔除,避免个例样本对应用分类模型的分类准确度的干扰;并且得到被大多数用户定义为属于预设应用类别的第一自定义类别的应用程序,将该类应用程序的应用标识添加至关联的第一自定义类别的语料库中,实现将用户自定义分类的应用标识作为样本数据加入应用分类模型中预设应用类别原有的训练数据中。
具体的,确定是否存在大多数用户均将某一应用定义为自定义类别,可以通过判断数据库中任一应用标识的任一第一自定义类别的分类统计数超出第一阈值得到。其中,第一自定义类别指代预设应用分类模型中已具有的预设应用类别;该第一阈值的取值可为安装有预设应用分类模型的用户终端总数的一半,以确保筛选得到的应用标识关联的自定义类别为多数用户共同的认可的。
若数据库中任一应用标识的任一第一自定义类别的分类统计数未超出第一阈值,则说明该应用标识对应的应用程序被定义为该第一自定义类别为个例,无需将该应用标识添加至该第一自定义类别原有的语料库中。若数据库中任一应用标识的任一第一自定义类别的分类统计数超出第一阈值,则说明该应用标识对应的应用程序被定义为该第一自定义类别为多数用户共同的认可的,将该应用标识添加至该第一自定义类别原有的语料库中。从而实现将多数用户个性化设定的自定义类别关联的应用程序标识作为样本数据添加至属于预设应用类别的自定义类别的语料库中,在预设应用分类模型的训练数据中增加自定义类别的样本数据。
在一个实施示例中,应用分类模型包括各个所述预设应用类别对应的二分类器。在将所述应用标识添加至所述第一自定义类别的语料库中后,根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练的具体过程包括步骤21至步骤23:
步骤21、获取所述第一自定义类别更新后的语料库中包含的应用标识的应用信息;
在将多数用户个性化设定的自定义类别关联的应用程序标识作为样本数据添加至属于预设应用类别的自定义类别的语料库后,得到第一自定义类别更新后的语料库。其中,第一自定义类别指代预设应用分类模型中已具有的预设应用类别。为实现预设应用分类模型能够将第一自定义类别更新后的语料库中包含的应用标识对应的应用程序分类为该第一自定义类别,根据所有自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,对现有的应用分类模型进行优化。具体的,需获取第一自定义类别更新后的语料库中包含的应用标识的应用信息作为模型迭代训练的训练数据。该应用信息为由应用程序名称、应用程序的功能介绍文本等信息构成。
由于科技服务数据的处理装置包括数据库,该数据库由存储各个预设应用类别标签的应用程序的语料的语料库构成;且各个应用程序的语料包括从网页以及应用商店中爬取得到的应用信息。在获取第一自定义类别更新后的语料库中包含的应用标识的应用信息时,可先从个性化的应用分类装置的数据库中查找是否具有第一自定义类别更新后的语料库中包含的应用标识的应用信息。若查找到数据库中存储有第一自定义类别更新后的语料库中包含的任一应用标识对应的应用信息,则直接从数据库中获取该应用标识对应的应用信息。若未查找到数据库中存储有第一自定义类别更新后的语料库中包含的任一应用标识对应的应用信息,则需从外部获取该应用标识对应的应用信息。可选的,从外部获取该应用标识对应的应用信息的方法可为从应用商店和/或网络网页中抓取该应用标识的应用信息。
在一个实施示例中,从应用商店和/或网络网页中抓取所述自定义类别更新后的语料库中包含的各个应用标识对应的应用程序的应用信息。
具体的,也可直接从应用商店和/或网络网页中抓取第一自定义类别更新后的语料库中包含的所有应用标识对应的应用程序的应用信息。详细的,通过网络爬虫从应用商店和/或网络网页中抓取第一自定义类别更新后的语料库中包含的所有应用标识对应的应用程序的应用信息。网络爬虫为收集线上信息,可以遍历应用商店网站(例如“豌豆荚”或“谷歌商店”等),访问网站中多个需抓取信息的应用程序的网页URL,从该网页中抓取目标应用程序的名字(name)、主题(title)、标签(tag)、类别(type)、描述(describe)和编辑点评(comment)等APK信息,并将抓取得到的APK信息作为应用信息。并且网页爬虫将目标界面中各个应用程序的中文名字输入到搜索引擎的搜索栏中进行访问查询,最后对搜寻返回的结果进行爬取得到目标界面中各个应用程序的网页信息,并将抓取到的网页信息作为应用信息。可选的,抓取得到的应用信息可存储在科技服务数据的处理装置的数据库中,该数据库可为MongoDB数据库。
步骤22、将所述应用信息输入所述第一自定义类别对应的二分类器中进行迭代训练,得到第一优化分类器;
具体的,获取第一自定义类别更新后的语料库中包含的应用标识的应用信息作为模型的迭代训练数据后,由于应用分类模型包括各个预设应用类别对应的二分类器,因此无需将迭代训练数据输入整个应用分类模型进行迭代训练,减少计算量。只需将迭代训练数据输入应用分类模型中第一自定义类别对应的二分类器进行迭代训练,得到第一优化分类器。通过第一优化分类器就能够实现将第一自定义类别更新后的语料库中包含的应用标识对应的应用程序分类为该第一自定义类别。
步骤23、将所述应用分类模型中所述第一自定义类别对应的二分类器更新为所述第一优化分类器。
通过将应用分类模型中第一自定义类别对应的二分类器更新为所述第一优化分类器,使得应用分类模型更新为优化后的优化分类模型,实现应用分类模型不断学习用户的个性化应用程序分类规则后的自动更新。
在一个实施示例中,当用户终端中的应用分类模型对用户终端中具有的应用程序进行分类后,用户对分类结果不满意时,会通过添加或移除原有应用分类组中的应用程序并按照用户自身需求对修改后的应用分类组重新命名或按照用户自身需求直接对原有的应用分类组重新命名,即自定义类别。此时,用户设定的自定义类别可为应用分类模型中不具有的预设应用类别,为实现应用分类模型根据用户个性需求进行应用准确分类,可以将修改记录中包含的应用程序的应用标识作为样本加入自定义类别的训练数据中。如图3所示,将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中具体过程包括步骤31至步骤32:
步骤31、若任一所述修改记录中的第二自定义类别不属于预设应用类别,则设定所述第二自定义类别为候选应用类别;
当科技服务数据的处理装置获取到各个第一用户终端的应用分类组的修改记录后,判断每一修改记录中的第二自定义类别是否属于预设应用分类模型中已有的预设应用类别。若任一修改记录中的第二自定义类别不属于某一预设应用分类模型中已有的预设应用类别,则说明该修改记录中的第二自定义类别在预设应用分类模型中未有定义,属于一个新的应用类别;此时,设定该修改记录中的第二自定义类别为候选应用类别。
步骤32、将所述第二自定义类别关联的应用标识添加至所述候选应用类别的语料库中。
通过将第二自定义类别关联的应用标识添加至该第二自定义类别对应的候选应用类别的语料库中,以对各个应用标识被用户自定义分类为第二自定义类别的分类行为进行记录。
在一个实施示例中,应用分类模型包括各个所述预设应用类别对应的二分类器。将所述第二自定义类别关联的应用标识添加至所述候选应用类别的语料库中,根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练的具体过程包括步骤41至步骤43:
步骤41、若任一所述候选应用类别的语料库中包含的应用标识数量超出第二阈值,则获取所述候选应用类别的语料库中包含的应用标识的应用信息;
在将多数用户个性化设定的自定义类别关联的应用程序标识作为样本数据添加至候选应用类别的语料库后,得到候选应用类别更新后的语料库。为实现预设应用分类模型能够将候选应用类别的语料库中包含的应用标识对应的应用程序分类为该候选应用类别,需根据所有候选应用类别的语料库对预设的应用分类模型进行迭代训练,对现有的应用分类模型进行优化。
训练得到的应用分类模型的分类准确度与训练数据中包含的样本数量有关;若训练数据中的样本数量少,反而会导致训练得到的应用分类模型的分类准确度低。因此,为确保训练得到的应用分类模型的分类准确度,需确定候选应用类别的语料库中包含的应用标识数量是否满足样本数量要求。具体的,可以通过判断候选应用类别的语料库中包含的应用标识数量是否超出第二阈值,来确定候选应用类别的语料库中包含的应用标识数量是否满足样本数量要求。可选的,该第二阈值根据样本数量要求进行设定,可设为50。
若任一所述候选应用类别的语料库中包含的应用标识数量未超出第二阈值,则说明该候选应用类别的语料库中包含的应用标识数量不满足样本数量要求,为确保应用分类模型的分类准确度,无需将该候选应用类别的语料库包含的应用标识作为迭代训练数据对预设的应用分类模型进行迭代训练。若任一所述候选应用类别的语料库中包含的应用标识数量超出第二阈值,则说明该候选应用类别的语料库中包含的应用标识数量满足样本数量要求,获取所述候选应用类别的语料库中包含的应用标识的应用信息。从而实现将该候选应用类别的语料库包含的应用标识作为迭代训练数据对预设的应用分类模型进行迭代训练。该应用信息为由应用程序名称、应用程序的功能介绍文本等信息构成。
由于科技服务数据的处理装置包括数据库,该数据库由存储各个预设应用类别标签的应用程序的语料的语料库构成;且各个应用程序的语料包括从网页以及应用商店中爬取得到的应用信息。在获取所述候选应用类别的语料库中包含的应用标识的应用信息时,可先从个性化的应用分类装置的数据库中查找是否具有各个候选应用类别的语料库中包含的应用标识的应用信息。若查找到数据库中存储有任一候选应用类别的语料库中包含的任一应用标识对应的应用信息,则直接从数据库中获取该应用标识对应的应用信息。若未查找到数据库中存储有任一候选应用类别的语料库中包含的任一应用标识对应的应用信息,则需从外部获取该应用标识对应的应用信息。可选的,从外部获取该应用标识对应的应用信息的方法可为从应用商店和/或网络网页中抓取该应用标识的应用信息。
在一个实施示例中,从应用商店和/或网络网页中抓取所述候选应用类别的语料库中包含的应用标识对应的应用程序的应用信息。
具体的,也可直接从应用商店和/或网络网页中抓取候选应用类别的语料库中包含的所有应用标识对应的应用程序的应用信息。详细的,通过网络爬虫从应用商店和/或网络网页中抓取第一自定义类别更新后的语料库中包含的所有应用标识对应的应用程序的应用信息。网络爬虫为收集线上信息,可以遍历应用商店网站(例如“豌豆荚”或“谷歌商店”等),访问网站中多个需抓取信息的应用程序的网页URL,从该网页中抓取目标应用程序的名字(name)、主题(title)、标签(tag)、类别(type)、描述(describe)和编辑点评(comment)等APK信息,并将抓取得到的APK信息作为应用信息。并且网页爬虫将目标界面中各个应用程序的中文名字输入到搜索引擎的搜索栏中进行访问查询,最后对搜寻返回的结果进行爬取得到目标界面中各个应用程序的网页信息,并将抓取到的网页信息作为应用信息。可选的,抓取得到的应用信息可存储在科技服务数据的处理装置的数据库中,该数据库可为MongoDB数据库。
步骤42、将所述应用信息输入二分类器中进行训练,得到所述候选应用类别对应的二分类器;
具体的,获取候选应用类别的语料库中包含的应用标识的应用信息作为模型的迭代训练数据后,由于应用分类模型只包括各个预设应用类别对应的二分类器,因此为使应用分类模型能够实现将候选应用类别的语料库中包含的应用标识对应的应用程序分类为该候选应用类别,还需重新训练一个新的二分类器,该二分类器为候选应用类别对应的二分类器。将迭代训练数据输入新的二分类器进行训练,得到候选应用类别对应的二分类器。通过候选应用类别对应的二分类器就能够将候选应用类别的语料库中包含的应用标识对应的应用程序分类为该候选应用类别。
步骤43、将所述候选应用类别对应的二分类器加入所述应用分类模型中。
通过将候选应用类别对应的二分类器加入所述应用分类模型中,使得应用分类模型更新为优化后的优化分类模型,实现应用分类模型不断学习用户的个性化应用程序分类规则后的自动更新。
S130、将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类;所述第一应用程序以及所述第二应用程序为对科技服务数据进行处理的应用程序。
将优化分类模型发送给各个第二用户终端(例如移动终端、平板、智能手表等设备),使得第二用户终端能够基于接收到的优化分类模型对安装的第二应用程序进行分类。由于优化分类模型学习了用户的个性化应用程序分类规则,使得优化分类模型的应用分类符合多数用户的应用使用习惯或应用分类喜好,避免在优化分类模型进行应用分类后,用户还需要根据自己的使用习惯或喜好重新对各个分类好的应用分类组再次进行分类调整。
可选的,该第二用户终端还可与步骤110中的第一用户终端为同一用户终端,通过将优化分类模型发送给各个第一用户终端,实现将用户终端原有的应用分类模型更新为优化分类模型,当第一用户终端安装有新的应用程序后,优化分类模型能够基于多数用户的应用使用习惯或应用分类喜好对应用程序进行分类,使得划分得到的应用分类组满足用户的个性化需求,提高用户的体验感。
本发明实施例提供的一种科技服务数据的处理方法,采用预设的应用分类模型对用户终端具有的应用程序分类后,得到若干应用分类组。若用户对分类结果不满意,则会对应用分组的类别以及包含的应用程序进行修改。通过获取各个第一用户终端的应用分类组的修改记录,能够得到用户个性化设定的自定义类别以及被定义为所述自定义类别的各个应用程序。应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识;将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,通过将用户个性化认定的自定义类别关联的应用标识加入语料库,实现在训练数据中增加自定义类别的样本数据;并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,使得应用分类模型能够不断学习用户的个性化应用程序分类规则,得到优化分类模型。将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类。实现优化分类模型划分得到的应用分类组满足用户的个性化需求。
实施例二
如图4所示的是本发明实施例三提供的科技服务数据的处理方法。在实施例一的基础上,该方法可以用户终端执行,该装置可为移动终端、平板、智能手表等设备;在本申请实施例中用户终端作为执行主体进行说明,该方法具体包括如下步骤:
S210、采用应用分类模型对用户终端中的应用程序分类,得到若干应用分类组。
为提高用户的体验感,用户终端(例如移动终端、平板、智能手表等设备)采用应用分类模型对用户终端中的应用程序进行分类。应用分类模型对用户终端内分布位置杂乱无章的应用程序进行分类整理,使得用户终端中的应用程序按照预设应用类别划分成若干应用分类组,每个应用分类组的名称为该应用分类组对应的应用类别。具体的,安装在用户终端的预设的应用分类模型根据预设的分类框架训练得到,该分类框架包括若干预设应用类别,例如:“游戏”、“理财”和“餐饮生活”等。
S220、若检测到任一所述应用分类组的命名变更,则采集所述应用分类组的当前名称并获取所述应用分类组包含的各个应用程序的应用标识,得到用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识。
但用户终端中预设的应用分类模型的分类框架并不一定符合每一个用户的应用使用习惯或应用分类喜好。在用户终端中应用分类模型进行应用分类后,用户还需要根据自己的使用习惯或喜好重新对各个分类好的应用分类组再次进行分类调整,例如添加或移除原有应用分类组中的应用程序并按照用户自身需求对修改后的应用分类组重新命名或按照用户自身需求直接对原有的应用分类组重新命名。若用户终端检测到现有的任一应用分类组的命名发生变更,则判断应用分类发生一次修改,采集发生命名变更的应用分类组的当前名称并获取该应用分类组包含的各个应用程序的应用标识,从而得到此次应用分类修改用户设置的自定义类别以及被定义为该自定义类别的各个应用程序的应用标识。
S230、获取所述用户终端的标识,根据所述标识、所述自定义类别以及所述自定义类别关联的应用标识生成应用分类组的修改记录;所述应用分类组包括对科技服务数据进行处理的应用程序。
获取用户终端的标识,根据用户终端的标识、此次应用分类修改得到的自定义类别以及被定义为该自定义类别的各个应用程序的应用标识生成应用分类组的修改记录。可选的,用户终端的标识可为用户终端的IMEI和MAC地址组合后通过密码散列函数(MD5)加密得到的一个唯一的标识码。用户终端将生成的修改记录发生至科技服务数据的处理装置,使得科技服务数据的处理装置接收到各个第一用户终端的应用分类组的修改记录。
实施例三
如图5所示的是本发明实施例三提供的科技服务数据的处理装置。在实施例一的基础上,本发明实施例还提供了一种科技服务数据的处理装置5,该装置包括:
修改记录获取模块501,用于获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的第一应用程序的应用标识;
分类模型优化模块502,用于将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;
模型更新模块503,用于将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类。
应当理解的是,图5示出的科技服务数据的处理装置的结构框图中,各单元用于执行图1对应的实施例中的各步骤,而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1以及图1所对应的实施例中的相关描述,此处不再赘述。
实施例四
图6是本发明实施例四提供的应用分类系统的结构示意图。该应用分类系统包括用户终端61和服务器62;所述用户终端61与所述服务器62通信连接;如图7所示是服务器的结构示意图,所述服务器包括包括:处理器71、存储器72以及存储在所述存储器72中并可在所述处理器71上运行的计算机程序73,例如用于科技服务数据的处理方法的程序。所述处理器71执行所述计算机程序73时实现上述科技服务数据的处理方法实施例中的步骤,例如图1所示的步骤S110至S130。
示例性的,所述计算机程序73可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器72中,并由所述处理器71执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序73在服务器中的执行过程。例如,所述计算机程序73可以被分割成修改记录获取模块、分类模型优化模块和模型更新模块,各模块具体功能如下:
修改记录获取模块,用于获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的第一应用程序的应用标识;
分类模型优化模块,用于将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;
模型更新模块,用于将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类。
所述服务器可包括,但不仅限于,处理器71、存储器72以及存储在所述存储器72中的计算机程序73。本领域技术人员可以理解,图7仅仅是服务器的示例,并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述科技服务数据的处理装置还可以包括输入输出设备、网络接入设备、总线等。
所述处理器71可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器72可以是所述科技服务数据的处理装置的内部存储单元,例如科技服务数据的处理装置的硬盘或内存。所述存储器72也可以是外部存储设备,例如科技服务数据的处理装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器72还可以既包括科技服务数据的处理装置的内部存储单元也包括外部存储设备。所述存储器72用于存储所述计算机程序以及科技服务数据的处理方法所需的其他程序和数据。所述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种科技服务数据的处理方法,其特征在于,包括:
获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的各个应用程序的应用标识;
将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;
将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类;第一应用程序以及所述第二应用程序为对科技服务数据进行处理的应用程序;
所述将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,包括:
若任一所述修改记录中的第一自定义类别属于预设应用类别,则生成所述第一自定义类别关联的各个应用标识的一条分类记录;所述分类记录包括所述修改记录中的用户终端标识和所述第一自定义类别;
对所述分类记录进行聚类,得到数据库中各个应用标识的分类统计数;所述应用标识被分类为各个所述自定义类别的次数为所述分类统计数;
若所述数据库中任一应用标识的任一所述第一自定义类别的分类统计数超出第一阈值,则将所述应用标识添加至所述第一自定义类别的语料库中。
2.如权利要求1所述的科技服务数据的处理方法,其特征在于,所述应用分类模型包括各个所述预设应用类别对应的二分类器;
所述根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,包括:
获取所述第一自定义类别更新后的语料库中包含的应用标识的应用信息;
将所述应用信息输入所述第一自定义类别对应的二分类器中进行迭代训练,得到第一优化分类器;
将所述应用分类模型中所述第一自定义类别对应的二分类器更新为所述第一优化分类器。
3.如权利要求2所述的科技服务数据的处理方法,其特征在于,所述获取所述第一自定义类别更新后的语料库中包含的应用标识的应用信息,包括:
从应用商店和/或网络网页中抓取所述自定义类别更新后的语料库中包含的各个应用标识对应的应用程序的应用信息。
4.如权利要求1所述的科技服务数据的处理方法,其特征在于,所述将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,包括:
若任一所述修改记录中的第二自定义类别不属于预设应用类别,则设定所述第二自定义类别为候选应用类别;
将所述第二自定义类别关联的应用标识添加至所述候选应用类别的语料库中。
5.如权利要求4所述的科技服务数据的处理方法,其特征在于,所述根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,包括:
若任一所述候选应用类别的语料库中包含的应用标识数量超出第二阈值,则获取所述候选应用类别的语料库中包含的应用标识的应用信息;
将所述应用信息输入二分类器中进行训练,得到所述候选应用类别对应的二分类器;
将所述候选应用类别对应的二分类器加入所述应用分类模型中。
6.如权利要求5所述的科技服务数据的处理方法,其特征在于,所述获取所述候选应用类别的语料库中包含的应用标识的应用信息,包括:
从应用商店和/或网络网页中抓取所述候选应用类别的语料库中包含的应用标识对应的应用程序的应用信息。
7.一种科技服务数据的处理装置,其特征在于,包括:
修改记录获取模块,用于获取各个第一用户终端的应用分类组的修改记录;所述修改记录包括用户终端标识和应用分类变动信息;所述应用分类变动信息包括用户设置的自定义类别以及被定义为所述自定义类别的第一应用程序的应用标识;
分类模型优化模块,用于将各个所述修改记录中的所述自定义类别关联的应用标识添加至所述自定义类别的语料库中,并根据所有所述自定义类别更新后的语料库对预设的应用分类模型进行迭代训练,得到优化分类模型;
模型更新模块,用于将所述优化分类模型发送给各个第二用户终端,以使所述第二用户终端基于所述优化分类模型对安装的第二应用程序进行分类;所述第一应用程序以及所述第二应用程序为对科技服务数据进行处理的应用程序
所述分类模型优化模块还用于:若任一所述修改记录中的第一自定义类别属于预设应用类别,则生成所述第一自定义类别关联的各个应用标识的一条分类记录;所述分类记录包括所述修改记录中的用户终端标识和所述第一自定义类别;对所述分类记录进行聚类,得到数据库中各个应用标识的分类统计数;所述应用标识被分类为各个所述自定义类别的次数为所述分类统计数;若所述数据库中任一应用标识的任一所述第一自定义类别的分类统计数超出第一阈值,则将所述应用标识添加至所述第一自定义类别的语料库中。
8.一种应用分类系统,其特征在于,包括用户终端和服务器;
所述用户终端与所述服务器通信连接;
所述服务器包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述科技服务数据的处理方法的步骤。
CN202210699236.3A 2022-06-20 2022-06-20 一种科技服务数据的处理方法、装置以及系统 Active CN114818987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210699236.3A CN114818987B (zh) 2022-06-20 2022-06-20 一种科技服务数据的处理方法、装置以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210699236.3A CN114818987B (zh) 2022-06-20 2022-06-20 一种科技服务数据的处理方法、装置以及系统

Publications (2)

Publication Number Publication Date
CN114818987A CN114818987A (zh) 2022-07-29
CN114818987B true CN114818987B (zh) 2022-11-08

Family

ID=82520926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210699236.3A Active CN114818987B (zh) 2022-06-20 2022-06-20 一种科技服务数据的处理方法、装置以及系统

Country Status (1)

Country Link
CN (1) CN114818987B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135992A (zh) * 2011-03-15 2011-07-27 宇龙计算机通信科技(深圳)有限公司 终端应用程序的归类方法和终端
CN103309554A (zh) * 2012-03-08 2013-09-18 中兴通讯股份有限公司 移动终端应用程序图标管理的方法及移动终端
CN103440140A (zh) * 2013-09-11 2013-12-11 昆山富泰科电脑有限公司 智能设备应用分类及使用权限设定的系统
CN103955536A (zh) * 2014-05-15 2014-07-30 深圳市中兴移动通信有限公司 应用程序的分类方法和装置
CN104462889A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 一种应用权限管理方法及装置
CN104850301A (zh) * 2015-03-31 2015-08-19 北京畅游天下网络技术有限公司 一种在系统桌面上将应用程序图标分类的方法和系统
CN105988799A (zh) * 2015-02-12 2016-10-05 广东欧珀移动通信有限公司 一种软件商店页面管理的方法及服务器
CN105989112A (zh) * 2015-02-12 2016-10-05 广东欧珀移动通信有限公司 一种应用程序分类的方法及服务器
CN106055973A (zh) * 2016-05-30 2016-10-26 深圳市永兴元科技有限公司 应用程序权限管理方法和装置
CN106951232A (zh) * 2017-02-23 2017-07-14 广东小天才科技有限公司 一种移动终端应用程序的管理方法及装置
CN107092610A (zh) * 2016-05-24 2017-08-25 口碑控股有限公司 App应用的搜索方法和装置、app应用图标的分类方法和装置
CN109375843A (zh) * 2018-08-31 2019-02-22 平安科技(深圳)有限公司 基于快捷方式的应用检索方法、装置、设备及介质
CN109491556A (zh) * 2017-09-08 2019-03-19 天津三星通信技术研究有限公司 终端中的应用程序控制方法和设备
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN110221753A (zh) * 2019-05-27 2019-09-10 维沃移动通信有限公司 应用程序下载分类方法及终端设备
WO2020082800A1 (zh) * 2018-10-23 2020-04-30 平安医疗健康管理股份有限公司 信息推送方法、装置、服务器及计算机可读存储介质
CN111797239A (zh) * 2020-09-08 2020-10-20 中山大学深圳研究院 应用程序的分类方法、装置及终端设备
CN113553434A (zh) * 2021-09-17 2021-10-26 支付宝(杭州)信息技术有限公司 一种应用的分类方法、装置及设备
WO2021258968A1 (zh) * 2020-06-23 2021-12-30 腾讯科技(深圳)有限公司 小程序分类方法、装置、设备及计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364438A (zh) * 2011-10-10 2012-02-29 宇龙计算机通信科技(深圳)有限公司 一种应用程序的显示及分类方法、系统及移动终端
US20150213365A1 (en) * 2014-01-30 2015-07-30 Shine Security Ltd. Methods and systems for classification of software applications
CN106484504A (zh) * 2015-08-28 2017-03-08 中兴通讯股份有限公司 应用程序桌面位置的排序方法、装置及系统
CN106445555A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 应用的分组显示设定方法
CN108768821B (zh) * 2018-03-29 2021-03-12 Oppo广东移动通信有限公司 信息推送方法、装置、服务器及计算机可读介质
WO2020185235A1 (en) * 2019-03-14 2020-09-17 Rovi Guides, Inc. Automatically assigning application shortcuts to folders with user-defined names
CN111414966B (zh) * 2020-03-25 2023-08-15 抖音视界有限公司 分类方法、装置、电子设备及计算机存储介质
CN112528021B (zh) * 2020-12-08 2022-06-03 深圳市优必选科技股份有限公司 一种模型训练方法、模型训练装置及智能设备
CN113486325A (zh) * 2021-07-23 2021-10-08 上海传英信息技术有限公司 应用程序权限管理方法、终端及存储介质
CN114491530B (zh) * 2021-12-20 2024-05-17 西安电子科技大学 基于抽象流图和图神经网络的安卓应用程序分类方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135992A (zh) * 2011-03-15 2011-07-27 宇龙计算机通信科技(深圳)有限公司 终端应用程序的归类方法和终端
CN103309554A (zh) * 2012-03-08 2013-09-18 中兴通讯股份有限公司 移动终端应用程序图标管理的方法及移动终端
CN103440140A (zh) * 2013-09-11 2013-12-11 昆山富泰科电脑有限公司 智能设备应用分类及使用权限设定的系统
CN104462889A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 一种应用权限管理方法及装置
CN103955536A (zh) * 2014-05-15 2014-07-30 深圳市中兴移动通信有限公司 应用程序的分类方法和装置
CN105988799A (zh) * 2015-02-12 2016-10-05 广东欧珀移动通信有限公司 一种软件商店页面管理的方法及服务器
CN105989112A (zh) * 2015-02-12 2016-10-05 广东欧珀移动通信有限公司 一种应用程序分类的方法及服务器
CN104850301A (zh) * 2015-03-31 2015-08-19 北京畅游天下网络技术有限公司 一种在系统桌面上将应用程序图标分类的方法和系统
CN107092610A (zh) * 2016-05-24 2017-08-25 口碑控股有限公司 App应用的搜索方法和装置、app应用图标的分类方法和装置
CN106055973A (zh) * 2016-05-30 2016-10-26 深圳市永兴元科技有限公司 应用程序权限管理方法和装置
CN106951232A (zh) * 2017-02-23 2017-07-14 广东小天才科技有限公司 一种移动终端应用程序的管理方法及装置
CN109491556A (zh) * 2017-09-08 2019-03-19 天津三星通信技术研究有限公司 终端中的应用程序控制方法和设备
CN109375843A (zh) * 2018-08-31 2019-02-22 平安科技(深圳)有限公司 基于快捷方式的应用检索方法、装置、设备及介质
WO2020082800A1 (zh) * 2018-10-23 2020-04-30 平安医疗健康管理股份有限公司 信息推送方法、装置、服务器及计算机可读存储介质
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN110221753A (zh) * 2019-05-27 2019-09-10 维沃移动通信有限公司 应用程序下载分类方法及终端设备
WO2021258968A1 (zh) * 2020-06-23 2021-12-30 腾讯科技(深圳)有限公司 小程序分类方法、装置、设备及计算机可读存储介质
CN111797239A (zh) * 2020-09-08 2020-10-20 中山大学深圳研究院 应用程序的分类方法、装置及终端设备
CN113553434A (zh) * 2021-09-17 2021-10-26 支付宝(杭州)信息技术有限公司 一种应用的分类方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"一种Android系统上对应用程序权限进行限制的方法";宁强等;《计算机应用与软件》;20140630;第31卷(第6期);第308-311页和第333页 *
"基于深度学习的匿名协议流量识别技术研究";白惠文等;《计算机仿真》;20210731;第38卷(第7期);第360-365页 *
"网络应用程序分类的多样化组合特征选择算法";张文祥等;《聊城大学学报(自然科学版)》;20210630;第34卷(第3期);第18-27页 *

Also Published As

Publication number Publication date
CN114818987A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111782965B (zh) 意图推荐方法、装置、设备及存储介质
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN105701498B (zh) 一种用户分类方法及服务器
CN108304429B (zh) 信息推荐方法、装置和计算机设备
CN108268617B (zh) 用户意图确定方法及装置
WO2017097231A1 (zh) 话题处理方法及装置
CN104090888A (zh) 一种用户行为数据的分析方法和装置
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN104462301A (zh) 一种网络数据的处理方法和装置
KR102108683B1 (ko) 비관심사 컨텐츠를 포함하는 추천 컨텐츠를 제공하는 방법
CN109241392A (zh) 目标词的识别方法、装置、系统及存储介质
CN111914159A (zh) 一种信息推荐方法及终端
CN113177160A (zh) 一种推送文案生成方法、装置、电子设备及存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN113962199A (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN110196805B (zh) 数据处理方法、装置、存储介质和电子装置
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN107025567A (zh) 一种数据处理方法和装置
CN114818987B (zh) 一种科技服务数据的处理方法、装置以及系统
CN110008352B (zh) 实体发现方法及装置
CN110020078B (zh) 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN115795156A (zh) 物料召回和神经网络训练方法、装置、设备及存储介质
CN114492584A (zh) 一种针对安卓中文应用市场的自动内容分级方法
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant