CN112052330A - 一种应用程序关键词的分配方法及装置 - Google Patents

一种应用程序关键词的分配方法及装置 Download PDF

Info

Publication number
CN112052330A
CN112052330A CN201910488203.2A CN201910488203A CN112052330A CN 112052330 A CN112052330 A CN 112052330A CN 201910488203 A CN201910488203 A CN 201910488203A CN 112052330 A CN112052330 A CN 112052330A
Authority
CN
China
Prior art keywords
application program
ith
keyword
ith application
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910488203.2A
Other languages
English (en)
Other versions
CN112052330B (zh
Inventor
方桢
赵轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Youkun Information Technology Co ltd
Original Assignee
Shanghai Youkun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youkun Information Technology Co ltd filed Critical Shanghai Youkun Information Technology Co ltd
Priority to CN201910488203.2A priority Critical patent/CN112052330B/zh
Publication of CN112052330A publication Critical patent/CN112052330A/zh
Application granted granted Critical
Publication of CN112052330B publication Critical patent/CN112052330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

本申请提供一种应用程序关键词的分配方法及装置,该方法包括:根据N个应用程序的描述信息,确定M个主题以及N个应用程序中的每个应用程序分别对应M个主题的权重。针对所述N个应用程序中的第i应用程序,i取遍1至N,执行以下操作:根据第i应用程序对应的M个主题的权重,为第i应用程序分配M个主题中的至少一个主题,进而确定第i应用程序对应的关键词以及每个关键词的权重,并根据每个关键词的权重,为第i应用程序分配关键词。关键词的权重可以更好的反映该关键词对于应用程序的重要性,因此,通过该方法为应用程序分配的关键词更加准确,并且无需投入人力资源来为应用程序分配关键词,因此更加方便。

Description

一种应用程序关键词的分配方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种应用程序关键词的分配方法及装置。
背景技术
用户在下载应用程序前,通常先通过应用程序的标签去了解应用程序的功能。这里的标签一般是一些可以表示应用程序特征及功能的关键词。标签对于应用程序来说也变得十分重要。
目前,对应用程序分配标签往往是通过人力去为应用程序分配关键词来实现的。这种方法需要消耗大量的人力资源,并且为应用程序分配的关键词可能并不能准确地反映该应用程序的特点。
如何实现方便准确地为应用程序分配关键词作为应用程序的标签,是目前需要解决的问题。
发明内容
本申请提供一种应用程序关键词的分配方法及装置,用以方便准确地为应用程序分配关键词。
第一方面,本申请提供一种应用程序关键词的分配方法,该方法包括:根据N个应用程序的描述信息,确定M个主题以及N个应用程序中的每个应用程序分别对应M个主题的权重,其中,一个主题对应至少一个关键词,一个权重用于表示一个主题与应用程序的关联度,M和N均为正整数。针对所述N个应用程序中的第i应用程序,i取遍1至N,执行以下操作:首先根据第i应用程序对应的M个主题的权重,为第i应用程序分配M个主题中的至少一个主题。然后根据为第i应用程序分配的M个主题中的至少一个主题,确定第i应用程序对应的关键词。再确定第i应用程序对应的每个关键词的权重,并根据第i 应用程序对应的每个关键词的权重,为第i应用程序分配关键词。该方案中,首先确定了多个主题,每个主题都对应了至少一个关键词,然后根据每个主题对于每个应用程序来说所对应的主题的权重为每个应用程序分配部分主题,再根据应用程序分配到的主题对应的关键词的关键词权重,从应用程序分配到的主题对于的关键词中选取部分关键词分配至应用程序。关键词的权重可以更好的反映该关键词对于应用程序的重要性,因此,通过该方法为应用程序分配的关键词更加准确,并且无需投入人力资源来为应用程序分配关键词,因此更加方便。
在一种可能的实现方式中,上述根据第i应用程序对应的M个主题的权重,为第i应用程序分配M个主题中的至少一个主题,具体可以通过以下方式实现:
首先,确定第i应用程序对应的M个主题中的X个主题,其中,第i应用程序对应的X个主题的权重大于或等于第i应用程序对应的其他M-X个主题的权重,X为小于M的正整数。
然后,根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配P个主题,P为不大于X的正整数。
最后,确定第i应用程序对应的X个主题中的P个主题,为第i应用程序分配的主题,其中,第i应用程序对应的P个主题的权重大于或等于第i应用程序对应的X个主题中的其他X-P个主题的权重。
上述方案,先筛选出部分对于应用程序来说相对重要的(即主题的权要高的)主题,再根据筛选出来的部分主题的权重,来确定筛选出来的主题中能更准确的对应应用程序的主题的个数,最终确定的应用程序对应的主题更加准确。
在一种可能的实现方式中,上述根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配P个主题,具体可以包括:将X个主题的权重进行排序。根据排序后的权重中每两个相邻的权重的比值与预设值之间的大小关系中的至少一个,确定需要为第i应用程序分配P个主题。该方案中,将相邻权重的主题进行权重的比较,当一个主题的权重与其相邻的主题的权重比值较大时,说明其中权重较小的主题无法准确地体现应用程序的特点,即该主题不能分配至应用程序。因此,通过比较各个相邻的主题之间的主题的权重大小,可以更准确地为应用程序分配主题。
在一种可能的实现方式中,上述根据为第i应用程序分配的M个主题中的至少一个主题,确定第i应用程序对应的关键词,具体可以包括以下两种方式:方式一,确定为第i应用程序分配的M个主题中的至少一个主题对应的所有关键词,为第i应用程序对应的关键词。方式二,确定为第i应用程序分配的M 个主题中的至少一个主题对应的所有关键词中的预设数量的关键词,为第i应用程序对应的关键词。该方案中,方式一在后续中进行权重值判断的关键词的数量更多,因此更加准确。方式二筛选一部分词后,在后续为应用程序分配关键词时,可以更快的完成。
在一种可能的实现方式中,上述确定第i应用程序对应的每个关键词的权重,具体可以包括:
根据第i应用程序对应的每个关键词在第i应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的词频。
根据第i应用程序对应的每个关键词在N个应用程序中的其他应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的逆文档频率,一个关键词的逆文档频率表示该关键词在其他应用程序的描述信息中出现的频率。
根据上述第i应用程序对应的每个关键词的词频以及逆文档频率,确定第 i应用程序对应的每个关键词的权重。
该方案中,对于一个应用程序来说,一个关键词在该应用程序的描述信息中出现的越多,那么该关键词对于该应用程序来说更加重要。同时,如果一个词在其他应用程序中也频繁出现,那么该词能体现应用程序特征的可能性越低。根据这两项来判断一个关键词的权重,最终可以更准确地为应用程序分配关键词。
在一种可能的实现方式中,上述根据每个应用程序对应的每个关键词的权重,为每个应用程序分配关键词,具体可以包括:将第i应用程序对应的每个关键词中关键词的权重大于阈值的所有关键词分配给所述第i应用程序。或者,将第i应用程序对应的每个关键词按关键词的权重由大到小选取预设数量的关键词分配给第i应用程序。
第二方面,本申请提供一种应用程序关键词的分配装置,该装置包括:预处理单元、主题分配单元、关键词确定单元、关键词分配单元。其中,预处理单元,用于根据N个应用程序的描述信息,确定M个主题以及N个应用程序中的每个应用程序分别对应M个主题的权重,其中,一个主题对应至少一个关键词,一个权重用于表示一个主题与应用程序的关联度,M和N均为正整数。主题分配单元,用于针对N个应用程序中的第i应用程序,根据第i应用程序对应的M个主题的权重,为第i应用程序分配M个主题中的至少一个主题,i取遍1至N。关键词确定单元,用于根据为第i应用程序分配的M个主题中的至少一个主题,确定第i应用程序对应的关键词。关键词分配单元,用于确定第 i应用程序对应的每个关键词的权重,并根据第i应用程序对应的每个关键词的权重,为第i应用程序分配关键词。该方案中,首先确定了多个主题,每个主题都对应了至少一个关键词,然后根据每个主题对于每个应用程序来说所对应的主题的权重为每个应用程序分配部分主题,再根据应用程序分配到的主题对应的关键词的关键词权重,从应用程序分配到的主题对于的关键词中选取部分关键词分配至应用程序。关键词的权重可以更好的反映该关键词对于应用程序的重要性,因此,通过该方法为应用程序分配的关键词更加准确,并且无需投入人力资源来为应用程序分配关键词,因此更加方便。
在一种可能的实现方式中,上述主题分配单元具体可以用于执行以下步骤:
确定第i应用程序对应的M个主题中的X个主题,其中,第i应用程序对应的X个主题的权重大于或等于第i应用程序对应的其他M-X个主题的权重,X为小于M的正整数。
根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配 P个主题,P为不大于X的正整数。
确定第i应用程序对应的X个主题中的P个主题,为第i应用程序分配的主题,其中,第i应用程序对应的P个主题的权重大于或等于第i应用程序对应的X个主题中的其他X-P个主题的权重。
上述方案,先筛选出部分对于应用程序来说相对重要的(即主题的权要高的)主题,再根据筛选出来的部分主题的权重,来确定筛选出来的主题中能更准确的对应应用程序的主题的个数,最终确定的应用程序对应的主题更加准确。
在一种可能的实现方式中,上述主题分配单元具体用于:将X个主题的权重进行排序。根据排序后的权重中每两个相邻的权重的比值与预设值之间的大小关系中的至少一个,确定需要为第i应用程序分配P个主题。该方案中,将相邻权重的主题进行权重的比较,当一个主题的权重与其相邻的主题的权重比值较大时,说明其中权重较小的主题无法准确地体现应用程序的特点,即该主题不能分配至应用程序。因此,通过比较各个相邻的主题之间的主题的权重大小,可以更准确地为应用程序分配主题。
在一种可能的实现方式中,上述关键词确定单元具体可以用于:确定为第 i应用程序分配的M个主题中的至少一个主题对应的所有关键词,为第i应用程序对应的关键词。或者,确定为第i应用程序分配的M个主题中的至少一个主题对应的所有关键词中的预设数量的关键词,为第i应用程序对应的关键词。该方案中,前者在后续中进行权重值判断的关键词的数量更多,因此更加准确。后者筛选一部分词后,在后续为应用程序分配关键词时,可以更快的完成。
在一种可能的实现方式中,上述关键词分配单元,用于确定第i应用程序对应的每个关键词的权重,具体可以包括:根据第i应用程序对应的每个关键词在第i应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的词频。根据第i应用程序对应的每个关键词在N个应用程序中的其他应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的逆文档频率,一个关键词的逆文档频率表示关键词在其他应用程序的描述信息中出现的频率。根据第i应用程序对应的每个关键词的词频以及逆文档频率,确定第i应用程序对应的每个关键词的权重。该方案中,对于一个应用程序来说,一个关键词在该应用程序的描述信息中出现的越多,那么该关键词对于该应用程序来说更加重要。同时,如果一个词在其他应用程序中也频繁出现,那么该词能体现应用程序特征的可能性越低。根据这两项来判断一个关键词的权重,最终可以更准确地为应用程序分配关键词。
在一种的实现方式中,上述关键词分配单元,用于根据第i应用程序对应的每个关键词的权重,为第i应用程序分配关键词,具体可以包括:将第i应用程序对应的每个关键词中关键词的权重大于阈值的所有关键词分配给第i应用程序。或者,将第i应用程序对应的每个关键词按关键词的权重由大到小选取预设数量的关键词分配给第i应用程序。
第三方面,本申请提供一种网络设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行前述第一方面或第一方面中任一实施例所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行前述第一方面或第一方面中任一实施例所述的方法。
附图说明
图1为本申请提供的一种应用程序关键词的分配方法的流程示意图;
图2为本申请提供的一种应用程序关键词的分配装置示意图;
图3为本申请提供的一种网络设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。其中,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为本申请提供的一种应用程序关键词的分配方法的流程示意图,此处的应用程序例如可以为手机软件或者电脑软件等,为应用程序分配关键词也可以理解为为应用程序确定合适的标签。如图1所示,该方法包括:
步骤101,根据N个应用程序的描述信息,确定M个主题以及N个应用程序中的每个应用程序分别对应M个主题的权重。
其中,一个主题对应至少一个关键词,一个权重用于表示一个主题与应用程序的关联度,M和N均为正整数。
步骤102,针对N个应用程序中的第i应用程序,根据第i应用程序对应的M个主题的权重,为第i应用程序分配M个主题中的至少一个主题。
其中,i取遍1至N。
步骤103,根据为第i应用程序分配的M个主题中的至少一个主题,确定第i应用程序对应的关键词。
步骤104,确定第i应用程序对应的每个关键词的权重,并根据第i应用程序对应的每个关键词的权重,为第i应用程序分配关键词。
上述方案中,首先确定了多个主题,每个主题都对应了至少一个关键词,然后根据每个主题对于每个应用程序来说所对应的主题的权重为每个应用程序分配部分主题,再根据应用程序分配到的主题对应的关键词的关键词权重,从应用程序分配到的主题对于的关键词中选取部分关键词分配至应用程序。关键词的权重可以更好的反映该关键词对于应用程序的重要性,因此,通过该方法为应用程序分配的关键词更加准确,并且无需投入人力资源来为应用程序分配关键词,因此更加方便。
针对上述步骤101,在一种可能的实现方式中,一个应用程序的描述信息例如可以是该应用程序的标题、简介等信息。应用程序的描述信息可以从应用程序的下载中心获取,例如从豌豆荚、应用宝等手机软件下载中心获取N个手机软件的描述信息。
在获取到N个应用程序的描述信息之后,对获取到的描述信息进行分词,分词后得到一个关键词集合。之后可以对该关键词集合中的所有关键词进行一次筛选,例如可以删除该关键词集合中的停用词“的”等词语,以减少后续的计算量。然后可以使用筛选后的关键词集合构建文档主题生成模型(Latent Dirichlet Allocation,LDA)。构建LDA后会得到两个文档,文档1记录有各个主题名称以及主题对于的关键词,文档2记录有各个应用程序分别对应的所有的主题的权重。
举个例子,得到的文档1记录有以下内容:……,主题104:酒店、预定、机票、航班、特价,……,主题129:旅游、旅行、**国家、签证、出国、潜水,……。其中,主题104和主题129即为主题名称,酒店、预定、机票、航班、特价为主题104对应的关键词,旅游、旅行、**国家、签证、出国、潜水为主题129对应的关键词。得到的文档2记录有以下内容:……,去哪儿:主题129:17.1%、主题104:14.3%、……,……。其中,“去哪儿”为一个应用程序的名称,主题129:17.1%表示“去哪儿”对应主题129的权重为17.1%,主题104:14.3%表示“去哪儿”对应主题104的权重为14.3%。
当然,步骤101的实现方式并不限于此,在实际应用中还可以使用其他方式,例如根据词义解析来划分主题以及确定每个应用程序分别对应的主题的权重。
以上是对步骤101的说明,下面对步骤102进行说明。
在一种可能的实现方式中,上述步骤102可以通过以下方式实现:
首先,确定第i应用程序对应的M个主题中的X个主题,其中,第i应用程序对应的X个主题的权重大于或等于第i应用程序对应的其他M-X个主题的权重,X为小于M的正整数。
然后,根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配P个主题,P为不大于X的正整数。
最后,确定第i应用程序对应的X个主题中的P个主题,为第i应用程序分配的主题,其中,第i应用程序对应的P个主题的权重大于或等于第i应用程序对应的X个主题中的其他X-P个主题的权重。
举例来说,若在步骤101中一共确定了150个主题,某个应用程序A对应 150个主题的权重由大小依次为:主题1、主题2、主题3、主题4、主题5、……。若X取3,则为该应用程序A确定的X个主题分别为主题1、主题2、主题3。若X取4,则为该应用程序A确定的X个主题分别为主题1、主题2、主题3、主题4。以X取3为例,在后续确定为应用程序A分配主题个数P时,是根据主题1、主题2、主题3各自的权重来确定的。当确定P为2时,则从主题1、主题2、主题3中由权重大小确定2个主题(即主题1、主题2)作为分配给应用程序A的主题,当确定P为1时,则选择主题1作为分配给应用程序A的主题。
下面对上述根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配P个主题进行说明。在一种可能的实现方式中,根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配P个主题,具体可以包括:将X个主题的权重进行排序。根据排序后的权重中每两个相邻的权重的比值与预设值之间的大小关系中的至少一个,确定需要为第i应用程序分配P个主题。
其中,若相邻两个主题的权重的比值小于预设值,说明这两个主题对于应用程序的重要程度相近,即在前一个主题被分配给应用程序时,后一个主题也会被分配给应用程序。若相邻两个主题的权重的比值大于预设值,说明这两个主题相对于应用程序的重要程度相差很大,在前一个主题被分配给应用程序时,后一个主题无需分配给应用程序。当然,具体分配给应用程序的主题个数可以根据实际需要进行调整,如分配个数必须大于3个时,在分配给应用程序的主题个数不大于3个时,无需对各个主题之间的权重进行比较。
以上述X取3时,为应用程序A分配主题1、主题2、主题3为例继续说明。首先对主题1、主题2、主题3按权重进行排序,排序后3个主题的顺序为主题1、主题2、主题3。然后确定相邻两个主题的权重的比值,即确定主题 1和主题2的比值,以及确定主题2和主题3的比值,假设主题1和主题2的比值为1.03、主题2与主题3的比值为1.4。若预设值为1.1,则说明主题1 和主题2对于应用程序A的重要程度接近,也可以理解为主题1和主题2的内容比较类似,同时主题2与主题3相差过大,因此,确定为应用程序A分配的主题的个数P为2,最终分配给应用程序A的主题为主题1和主题2。若主题1 和主题2的比值为1.3、主题2与主题3的主题为1.3,预设值为1.1,分配个数必须不小于3个,那么虽然主题1、主题2、主题3之间相差较大,但在最终为应用程序A分配主题时,仍然会将主题1、主题2、主题3分配至应用程序A。
在一种可能的实现方式中,上述根据为第i应用程序分配的M个主题中的至少一个主题,确定第i应用程序对应的关键词,具体可以包括以下两种方式:
方式一,确定为第i应用程序分配的M个主题中的至少一个主题对应的所有关键词,为第i应用程序对应的关键词。
以上述步骤101中的例子继续说明,假设最终分配给“去哪儿”的主题为主题129和主题104,那么将主题129和主题104对应的所有关键词作为“去哪儿”对应的关键词,即“去哪儿”对应的关键词为酒店、预定、机票、航班、特价、旅游、旅行、**国家、签证、出国、潜水。
该方式一的方案在后续中进行权重值判断的关键词的数量更多,因此更加准确。
方式二,确定为第i应用程序分配的M个主题中的至少一个主题对应的所有关键词中的预设数量的关键词,为第i应用程序对应的关键词。其中,预设数量可以为一个具体的值,如10个、20个,也可以是一个百分比,如80%等,在挑选时,可以随机进行选择也可以为其它方式,本申请对此不作具体限制。
以上述步骤101中的例子继续说明,假设最终分配给“去哪儿”的主题为主题129和主题104,那么将主题129和主题104对应的所有关键词中选取一定数量的关键词作为“去哪儿”对应的关键词。如选取10个作为“去哪儿”对应的关键词,在选取时采用随机选择的方式,即从酒店、预定、机票、航班、特价、旅游、旅行、**国家、签证、出国、潜水11个关键词中随机选择10个关键词作为“去哪儿”对应的关键词。
该方式二的方法在筛选一部分词后,可以更快的完成为应用程序分配关键词。
在确定第i应用程序对应的关键词后,需要在从第i应用程序对应的关键词中选择出需要分配给第i应用程序的关键词,下面对如何为第i应用程序分配关键词进行说明。
在为第i应用程序分配关键词之前,首先需要确定第i应用程序对应的每个关键词的权重,在一种可能的实现方式中,确定第i应用程序对应的每个关键词的权重,具体可以包括:
根据第i应用程序对应的每个关键词在第i应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的词频。一个关键词的在应用程序中出现的频率越高,表示该词对于该应用程序来说越重要,即该词更能反映该应用程序的特征,也更适合被分配给该应用程序作为标签。
根据第i应用程序对应的每个关键词在N个应用程序中的其他应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的逆文档频率,一个关键词的逆文档频率表示该关键词在其他应用程序的描述信息中出现的频率。一个关键词在多个应用程序中都出现了,表示这个词对于某个特定的应用程序来说越不重要,因为在多个应用程序中均出现了该次,该词无法反映出某个特定的应用程序的特点。举个例子,如关键词“助手”,由于很多应用程序都会以“XX助手”的格式命名,因此“助手”这个关键词同时出现在多个应用程序的可能性较高,并且“助手”无法反映出某个特定的应用程序的特点,因此,“助手”被分配给某个特定的应用程序作为标签的可能性越低。
根据上述第i应用程序对应的每个关键词的词频以及逆文档频率,确定第 i应用程序对应的每个关键词的权重。由于一个关键词的词频和逆文档频率均可以表示一个关键词对于一个应用程序的重要性,因此可以由每个关键词的词频以及逆文档频率,确定第i应用程序对应的每个关键词的权重。其中,根据一个关键词的词频以及逆文档频率确定关键词的权重具体公式本申请不做限制,可以为简单的加减乘除,也可以为复杂的公式运算。
在确定第i应用程序对应的每个关键词对应的关键词的权重后,根据每个关键词的权重,为每个应用程序分配关键词,具体可以包括:将第i应用程序对应的每个关键词中关键词的权重大于阈值的所有关键词分配给所述第i应用程序。或者,将第i应用程序对应的每个关键词按关键词的权重由大到小选取预设数量的关键词分配给第i应用程序。
如“去哪儿”对应的11个关键词由关键词的权重大小从大到小依次为旅游、旅行、机票、航班、预定、酒店、**国家、出国、签证、特价、潜水。按关键词的权重由大到小选取4个关键词分配给“去哪儿”作为“去哪儿”的标签,则最终确定“去哪儿”的标签为旅游、旅行、机票、航班。
以上为本申请提供的一种应用程序关键词的分配方法,该方法通过确定应用程序对应的主题的权重为应用程序分配主题,并从分配的主题对应的关键词中按关键词的权重为应用程序分配关键词,实现了更方便准确地为应用程序分配关键词。
基于同一发明构思,图2示例性的示出了本申请提供的一种应用程序关键词的分配装置,该装置可以执行上述应用程序关键词的分配方法的流程。如图 2所示,该装置包括:
预处理单元201,用于根据N个应用程序的描述信息,确定M个主题以及N个应用程序中的每个应用程序分别对应M个主题的权重。
其中,一个主题对应至少一个关键词,一个权重用于表示一个主题与应用程序的关联度,M和N均为正整数。
主题分配单元202,用于针对N个应用程序中的第i应用程序,根据第i 应用程序对应的M个主题的权重,为第i应用程序分配M个主题中的至少一个主题,i取遍1至N。
关键词确定单元203,用于根据为第i应用程序分配的M个主题中的至少一个主题,确定第i应用程序对应的关键词。
关键词分配单元204,用于确定第i应用程序对应的每个关键词的权重,并根据第i应用程序对应的每个关键词的权重,为第i应用程序分配关键词。
上述方案中,首先确定了多个主题,每个主题都对应了至少一个关键词,然后根据每个主题对于每个应用程序来说所对应的主题的权重为每个应用程序分配部分主题,再根据应用程序分配到的主题对应的关键词的关键词权重,从应用程序分配到的主题对于的关键词中选取部分关键词分配至应用程序。关键词的权重可以更好的反映该关键词对于应用程序的重要性,因此,通过该方法为应用程序分配的关键词更加准确,并且无需投入人力资源来为应用程序分配关键词,因此更加方便。
在一种可能的实现方式中,上述主题分配单元202具体可以用于执行以下步骤:
确定第i应用程序对应的M个主题中的X个主题,其中,第i应用程序对应的X个主题的权重大于或等于第i应用程序对应的其他M-X个主题的权重, X为小于M的正整数。
根据第i应用程序对应的X个主题的权重,确定需要为第i应用程序分配P个主题,P为不大于X的正整数。
确定第i应用程序对应的X个主题中的P个主题,为第i应用程序分配的主题,其中,第i应用程序对应的P个主题的权重大于或等于第i应用程序对应的X个主题中的其他X-P个主题的权重。
上述方案,先筛选出部分对于应用程序来说相对重要的(即主题的权要高的)主题,再根据筛选出来的部分主题的权重,来确定筛选出来的主题中能更准确的对应应用程序的主题的个数,最终确定的应用程序对应的主题更加准确。
在一种可能的实现方式中,上述主题分配单元202具体还可以用于:将X 个主题的权重进行排序。根据排序后的权重中每两个相邻的权重的比值与预设值之间的大小关系中的至少一个,确定需要为第i应用程序分配P个主题。该方案中,将相邻权重的主题进行权重的比较,当一个主题的权重与其相邻的主题的权重比值较大时,说明其中权重较小的主题无法准确地体现应用程序的特点,即该主题不能分配至应用程序。因此,通过比较各个相邻的主题之间的主题的权重大小,可以更准确地为应用程序分配主题。
在一种可能的实现方式中,上述关键词确定单元203具体可以用于:确定为第i应用程序分配的M个主题中的至少一个主题对应的所有关键词,为第i 应用程序对应的关键词。或者,确定为第i应用程序分配的M个主题中的至少一个主题对应的所有关键词中的预设数量的关键词,为第i应用程序对应的关键词。该方案中,前者在后续中进行权重值判断的关键词的数量更多,因此更加准确。后者筛选一部分词后,在后续为应用程序分配关键词时,可以更快的完成。
在一种可能的实现方式中,上述关键词分配单元204,用于确定第i应用程序对应的每个关键词的权重,具体可以包括:根据第i应用程序对应的每个关键词在第i应用程序的描述信息中出现的频率确定第i应用程序对应的每个关键词的词频。根据第i应用程序对应的每个关键词在N个应用程序中的其他应用程序的描述信息中出现的频率,确定第i应用程序对应的每个关键词的逆文档频率,一个关键词的逆文档频率表示关键词在其他应用程序的描述信息中出现的频率。根据第i应用程序对应的每个关键词的词频以及逆文档频率,确定第i应用程序对应的每个关键词的权重。该方案中,对于一个应用程序来说,一个关键词在该应用程序的描述信息中出现的越多,那么该关键词对于该应用程序来说更加重要。同时,如果一个词在其他应用程序中也频繁出现,那么该词能体现应用程序特征的可能性越低。根据这两项来判断一个关键词的权重,最终可以更准确地为应用程序分配关键词。
在一种的实现方式中,上述关键词分配单元204,用于根据第i应用程序对应的每个关键词的权重,为第i应用程序分配关键词,具体可以包括:将第 i应用程序对应的每个关键词中关键词的权重大于阈值的所有关键词分配给第 i应用程序。或者,将第i应用程序对应的每个关键词按关键词的权重由大到小选取预设数量的关键词分配给第i应用程序。
上述装置所涉及的与本申请提供的技术方案相关的概念,解释和详细说明及其它步骤请参见前述应用程序关键词的分配方法或其它实施例中关于这些内容的描述,此处不做赘述。
基于与上述实施例相同的构思,本申请还提供一种网络设备。
图3为本申请提供的一种网络设备的结构示意图。如图3所示,该网络设备300包括:
存储器301,用于存储程序指令;
处理器302,用于调用所述存储器中存储的程序指令,按照获得的程序执行前述任一实施例中所述的应用程序关键词的分配方法。
基于与上述实施例相同的构思,本申请还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行前述任一实施例中所述的应用程序关键词的分配方法。
需要说明的是,本申请中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在本申请中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线 (例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域内的技术人员应明白,本申请可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种应用程序关键词的分配方法,其特征在于,包括:
根据N个应用程序的描述信息,确定M个主题以及所述N个应用程序中的每个应用程序分别对应所述M个主题的权重,其中,一个主题对应至少一个关键词,一个权重用于表示一个主题与所述应用程序的关联度,M和N均为正整数;
针对所述N个应用程序中的第i应用程序,i取遍1至N,执行以下操作:
根据所述第i应用程序对应的所述M个主题的权重,为所述第i应用程序分配所述M个主题中的至少一个主题;
根据为所述第i应用程序分配的所述M个主题中的至少一个主题,确定所述第i应用程序对应的关键词;
确定所述第i应用程序对应的每个关键词的权重,并根据所述第i应用程序对应的每个关键词的权重,为所述第i应用程序分配关键词。
2.如权利要求1所述的方法,其特征在于,所述根据所述第i应用程序对应的所述M个主题的权重,为所述第i应用程序分配所述M个主题中的至少一个主题,包括:
确定所述第i应用程序对应的所述M个主题中的X个主题,所述第i应用程序对应的所述X个主题的权重大于或等于所述第i应用程序对应的其他M-X个主题的权重,X为小于M的正整数;
根据所述第i应用程序对应的所述X个主题的权重,确定需要为所述第i应用程序分配P个主题,P为不大于X的正整数;
确定所述第i应用程序对应的所述X个主题中的P个主题,为所述第i应用程序分配的主题,所述第i应用程序对应的所述P个主题的权重大于或等于所述第i应用程序对应的所述X个主题中的其他X-P个主题的权重。
3.如权利要求2所述的方法,其特征在于,所述根据所述第i应用程序对应的所述X个主题的权重,确定需要为所述第i应用程序分配P个主题,包括:
将所述X个主题的权重进行排序;
根据排序后的权重中每两个相邻的权重的比值与预设值之间的大小关系中的至少一个,确定需要为所述第i应用程序分配P个主题。
4.如权利要求1-3任一项所述的方法,其特征在于,所述根据为所述第i应用程序分配的所述M个主题中的至少一个主题,确定所述第i应用程序对应的关键词,包括:
确定为所述第i应用程序分配的所述M个主题中的至少一个主题对应的所有关键词,为所述第i应用程序对应的关键词;或者,
确定为所述第i应用程序分配的所述M个主题中的至少一个主题对应的所有关键词中的预设数量的关键词,为所述第i应用程序对应的关键词。
5.如权利要求1-3任一项所述的方法,其特征在于,所述确定所述第i应用程序对应的每个关键词的权重,包括:
根据所述第i应用程序对应的每个关键词在所述第i应用程序的描述信息中出现的频率,确定所述第i应用程序对应的每个关键词的词频;
根据所述第i应用程序对应的每个关键词在所述N个应用程序中的其他应用程序的描述信息中出现的频率,确定所述第i应用程序对应的每个关键词的逆文档频率,一个关键词的逆文档频率表示所述关键词在所述其他应用程序的描述信息中出现的频率;
根据所述第i应用程序对应的每个关键词的词频以及逆文档频率,确定所述第i应用程序对应的每个关键词的权重。
6.如权利要求5所述的方法,其特征在于,所述根据所述每个应用程序对应的每个关键词的权重,为所述每个应用程序分配关键词,包括:
将所述第i应用程序对应的每个关键词中关键词的权重大于阈值的所有关键词分配给所述第i应用程序;或者,
将所述第i应用程序对应的每个关键词按关键词的权重由大到小选取预设数量的关键词分配给所述第i应用程序。
7.一种应用程序关键词的分配装置,其特征在于,包括:
预处理单元,用于根据N个应用程序的描述信息,确定M个主题以及所述N个应用程序中的每个应用程序分别对应所述M个主题的权重,其中,一个主题对应至少一个关键词,一个权重用于表示一个主题与所述应用程序的关联度,M和N均为正整数;
主题分配单元,用于针对所述N个应用程序中的第i应用程序,根据所述第i应用程序对应的所述M个主题的权重,为所述第i应用程序分配所述M个主题中的至少一个主题,i取遍1至N;
关键词确定单元,用于根据为所述第i应用程序分配的所述M个主题中的至少一个主题,确定所述第i应用程序对应的关键词;
关键词分配单元,用于确定所述第i应用程序对应的每个关键词的权重,并根据所述第i应用程序对应的每个关键词的权重,为所述第i应用程序分配关键词。
8.如权利要求7所述的装置,其特征在于,所述主题分配单元具体用于:
确定所述第i应用程序对应的所述M个主题中的X个主题,所述第i应用程序对应的所述X个主题的权重大于或等于所述第i应用程序对应的其他M-X个主题的权重,X为小于M的正整数;
根据所述第i应用程序对应的所述X个主题的权重,确定需要为所述第i应用程序分配P个主题,P为不大于X的正整数;
确定所述第i应用程序对应的所述X个主题中的P个主题,为所述第i应用程序分配的主题,所述第i应用程序对应的所述P个主题的权重大于或等于所述第i应用程序对应的所述X个主题中的其他X-P个主题的权重。
9.如权利要求8所述的装置,其特征在于,所述主题分配单元具体用于:
将所述X个主题的权重进行排序;
根据排序后的权重中每两个相邻的权重的比值与预设值之间的大小关系中的至少一个,确定需要为所述第i应用程序分配P个主题。
10.如权利要求7-9任一项所述的装置,其特征在于,所述关键词确定单元具体用于:
确定为所述第i应用程序分配的所述M个主题中的至少一个主题对应的所有关键词,为所述第i应用程序对应的关键词;或者,
确定为所述第i应用程序分配的所述M个主题中的至少一个主题对应的所有关键词中的预设数量的关键词,为所述第i应用程序对应的关键词。
11.如权利要求7-9任一项所述的装置,其特征在于,所述关键词分配单元,用于确定所述第i应用程序对应的每个关键词的权重,具体包括:
根据所述第i应用程序对应的每个关键词在所述第i应用程序的描述信息中出现的频率,确定所述第i应用程序对应的每个关键词的词频;
根据所述第i应用程序对应的每个关键词在所述N个应用程序中的其他应用程序的描述信息中出现的频率,确定所述第i应用程序对应的每个关键词的逆文档频率,一个关键词的逆文档频率表示所述关键词在所述其他应用程序的描述信息中出现的频率;
根据所述第i应用程序对应的每个关键词的词频以及逆文档频率,确定所述第i应用程序对应的每个关键词的权重。
12.如权利要求11所述的装置,其特征在于,所述关键词分配单元,用于根据所述第i应用程序对应的每个关键词的权重,为所述第i应用程序分配关键词,具体包括:
将所述第i应用程序对应的每个关键词中关键词的权重大于阈值的所有关键词分配给所述第i应用程序;或者,
将所述第i应用程序对应的每个关键词按关键词的权重由大到小选取预设数量的关键词分配给所述第i应用程序。
CN201910488203.2A 2019-06-05 2019-06-05 一种应用程序关键词的分配方法及装置 Active CN112052330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910488203.2A CN112052330B (zh) 2019-06-05 2019-06-05 一种应用程序关键词的分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910488203.2A CN112052330B (zh) 2019-06-05 2019-06-05 一种应用程序关键词的分配方法及装置

Publications (2)

Publication Number Publication Date
CN112052330A true CN112052330A (zh) 2020-12-08
CN112052330B CN112052330B (zh) 2021-11-26

Family

ID=73609723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910488203.2A Active CN112052330B (zh) 2019-06-05 2019-06-05 一种应用程序关键词的分配方法及装置

Country Status (1)

Country Link
CN (1) CN112052330B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948526A (zh) * 2021-02-01 2021-06-11 大箴(杭州)科技有限公司 用户画像的生成方法及装置、电子设备、存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530339A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 移动应用信息推送方法和装置
US20150170243A1 (en) * 2013-12-13 2015-06-18 International Business Machines Corporation Creating a house of quality for product design
CN105247566A (zh) * 2013-06-23 2016-01-13 英特尔公司 基于上下文关系信息的对用户信息的选择性共享,例如用于给接收方众包感兴趣的礼物
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN106682170A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用搜索方法和装置
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN106970991A (zh) * 2017-03-31 2017-07-21 北京奇虎科技有限公司 相似应用的识别方法、装置和应用搜索推荐方法、服务器
US20180322516A1 (en) * 2017-05-08 2018-11-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Quality evaluation method, apparatus and device, and computer readable storage medium

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247566A (zh) * 2013-06-23 2016-01-13 英特尔公司 基于上下文关系信息的对用户信息的选择性共享,例如用于给接收方众包感兴趣的礼物
CN103530339A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 移动应用信息推送方法和装置
US20150170243A1 (en) * 2013-12-13 2015-06-18 International Business Machines Corporation Creating a house of quality for product design
CN106815297A (zh) * 2016-12-09 2017-06-09 宁波大学 一种学术资源推荐服务系统与方法
CN106599194A (zh) * 2016-12-14 2017-04-26 北京小米移动软件有限公司 标签确定方法及装置
CN106682170A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用搜索方法和装置
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106970991A (zh) * 2017-03-31 2017-07-21 北京奇虎科技有限公司 相似应用的识别方法、装置和应用搜索推荐方法、服务器
US20180322516A1 (en) * 2017-05-08 2018-11-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Quality evaluation method, apparatus and device, and computer readable storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948526A (zh) * 2021-02-01 2021-06-11 大箴(杭州)科技有限公司 用户画像的生成方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN112052330B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN102725753B (zh) 优化数据访问的方法及装置、优化数据存储的方法及装置
CN109255072B (zh) 信息召回方法及装置、计算机存储介质、电子设备
CN107423085B (zh) 用于部署应用的方法和装置
CN110245140B (zh) 数据分箱处理方法及装置、电子设备和计算机可读介质
JP6779231B2 (ja) データ処理方法及びシステム
CN109447253B (zh) 显存分配的方法、装置、计算设备及计算机存储介质
US10956470B2 (en) Facet-based query refinement based on multiple query interpretations
CN106775470B (zh) 一种数据存储的方法及系统
US10909180B2 (en) Dynamic query processing and document retrieval
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN111813517A (zh) 任务队列的分配方法、装置、计算机设备及介质
CN112052330B (zh) 一种应用程序关键词的分配方法及装置
CN111191434A (zh) 基于自然语言的体育新闻写作方法、装置及电子设备
CN108551478B (zh) 一种事务处理方法、服务器及事务处理系统
CN116842012A (zh) 一种Redis集群的分片存储方法、装置、设备及存储介质
CN110825953A (zh) 数据查询方法、装置和设备
CN111625615B (zh) 用于处理文本数据的方法和系统
CN115238194A (zh) 书籍推荐方法、计算设备及计算机存储介质
CN110688223B (zh) 数据处理方法及相关产品
CN115794876A (zh) 针对业务数据包的分片处理方法、装置、设备及存储介质
CN109299112B (zh) 用于处理数据的方法和装置
US20200356564A1 (en) Candidate data record prioritization for match processing
CN112988383A (zh) 一种资源分配方法、装置、设备以及存储介质
CN113297267A (zh) 数据缓存和任务处理方法、装置、设备以及存储介质
CN112148461A (zh) 应用的调度方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant