CN104933044A - 应用卸载原因的分类方法及分类装置 - Google Patents

应用卸载原因的分类方法及分类装置 Download PDF

Info

Publication number
CN104933044A
CN104933044A CN201410098025.XA CN201410098025A CN104933044A CN 104933044 A CN104933044 A CN 104933044A CN 201410098025 A CN201410098025 A CN 201410098025A CN 104933044 A CN104933044 A CN 104933044A
Authority
CN
China
Prior art keywords
keyword
classification
subclass
application
unloading reason
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410098025.XA
Other languages
English (en)
Other versions
CN104933044B (zh
Inventor
孙鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410098025.XA priority Critical patent/CN104933044B/zh
Publication of CN104933044A publication Critical patent/CN104933044A/zh
Application granted granted Critical
Publication of CN104933044B publication Critical patent/CN104933044B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种应用卸载原因的分类方法及分类装置,属于计算机技术领域。所述分类方法包括:获取应用对应的卸载原因字符串;对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。本发明提高了应用卸载原因分类的效率和准确性。

Description

应用卸载原因的分类方法及分类装置
技术领域
本发明涉及计算机技术领域,具体涉及一种应用卸载原因的分类方法及分类装置。
背景技术
应用提供商提供了很多应用(应用程序),供用户在计算设备例如个人电脑中安装和使用。在一些情况下,用户安装使用某个应用一段时间后,由于种种原因可能会卸载该应用,并在网页中填写应用卸载原因发送到应用提供商的日志服务器中。
举个例子,如图1所示,用户卸载完成“360安全桌面”这一应用后,在网页中填写的卸载原因字符串为:“安装360安全桌面后,导致桌面图标太乱,影响对电脑的使用”。日志服务器接收到该应用的该卸载原因后,对该卸载原因进行存储。
应用卸载原因反映的是用户声音,可以通过其改善应用提供商的产品。应用提供商针对各种应用,需要对用户反馈的卸载原因进行分类。在现有的实现方式中,一般是由人工对日志服务器中存储的应用卸载原因进行分类和统计。一方面,日志服务器中存储的应用卸载原因的数据量较大,导致人力耗费太大;另一方面,用户反馈的卸载原因描述不集中,分类人员采取的分类标准可能不一致,导致分类的准确性较低。
因此,如何提高应用卸载原因分类的效率和准确性就成为亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的应用卸载原因的分类方法及分类装置。
根据本发明的一个方面,提供了一种应用卸载原因的分类方法,包括:
获取应用对应的卸载原因字符串;
对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;
对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;
将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。
可选地,采用基于用户字典的预定分词算法进行所述分词处理,所述用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类。
可选地,所述预定分词算法为正向最大匹配算法。
可选地,所述用户字典包括多个用户分字典,每个用户分字典对应一种关键词长度;
在进行分词处理的过程中,根据候选字符串的长度选择相应的用户分字典进行关键词匹配。
可选地,所述基本信息还包括与关键词对应的组合词;
在进行分词处理过程中,每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词。
可选地,所述子类的权重为所述用户字典中该子类对应的关键词的数目的倒数。
可选地,在进行分词处理之前,所述分类方法还包括,判断所述卸载原因字符串是否包含汉字,若是,进行所述分词处理,否则,将所述应用的卸载原因归类为“其他”类别中的“无语义”子类。
根据本发明的另一方面,提供了一种应用卸载原因的分类装置,包括:
卸载原因字符串获取单元,适于获取应用对应的卸载原因字符串;
分词处理单元,适于对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;
权重计算单元,适于对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;
卸载原因分类单元,适于将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。
可选地,所述分词处理单元采用基于用户字典的预定分词算法进行所述分词处理,所述用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类。
可选地,所述预定分词算法为正向最大匹配算法。
可选地,所述用户字典包括多个用户分字典,每个用户分字典对应一种关键词长度;
所述分词处理单元在进行分词处理的过程中,根据候选字符串的长度选择相应的用户分字典进行关键词匹配。
可选地,所述基本信息还包括与关键词对应的组合词;
所述分词处理单元在进行分词处理的过程中,每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词。
可选地,所述子类的权重为所述用户字典中该子类对应的关键词的数目的倒数。
可选地,所述分类装置还包括:
判断单元,适于判断所述卸载原因字符串是否包含汉字,若是,通知所述分词处理单元进行所述分词处理,否则,通知所述卸载原因分类单元将所述应用的卸载原因归类为“其他”类别中的“无语义”子类。
根据本发明上述的一个或多个技术方案,通过对卸载原因字符串进行分词处理,并获取分词处理得到的关键词所属的类别和子类,根据关键词对应的类别的优先级以及子类的权重,计算关键词的权重,将应用的卸载原因归类为权重最大的关键词所属的类别和子类,实现了应用卸载原因的自动分类。一方面,通过对应用卸载原因的自动分类,提高了应用卸载原因分类的效率,节约了人力成本;另一方面,通过引入类别的优先级以及子类的权重,统一和优化了分类的标准,从而提高了应用卸载原因分类的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了应用卸载完成后填写应用卸载原因字符串的界面;
图2示出了根据本发明一个实施例的应用卸载原因的分类方法流程图;
图3示出了本发明实施例中使用的一种用户字典的存储结构示意图;
图4示出了本发明实施例中基于用户字典的正向最大匹配算法流程图;
图5示出了根据本发明一个实施例的应用卸载原因的分类装置结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图2示出了根据本发明一个实施例的应用卸载原因的分类方法流程图。参照图2,所述分类方法可以包括:
步骤202,获取应用对应的卸载原因字符串;
用户卸载应用后,通常会在应用提供商提供的网页中填写卸载原因,并发送到应用提供商的日志服务器中。因此,针对某个待分析的应用,可以从日志服务器中获取其对应的卸载原因字符串。
在日志服务器中,目标应用通常对应许多用户填写的大量卸载原因字符串。在本发明实施例中,可以对每个卸载原因字符串分别进行处理,即每次提取一个卸载原因字符串后执行后续的步骤,得到在该卸载原因字符串下该应用的卸载原因所属的类别和子类。
步骤204,对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;
对字符串进行分词处理的算法有多种,本发明实施例对具体的算法不做限制,可以采用现有技术中或者将来可能出现的各种分词算法。在本步骤中,通过分词处理得到一个或多个关键词后,还可以获取各关键词分别对应的表征应用卸载原因的类别和子类,以及,各类别的优先级和各子类的权重。
在具体实现时,可以预先设置关键词与类别和子类的对应关系,并将该对应关系以例如关键词表或者用户字典的方式存储。在所述对应关系中,一个类别具有一个或多个子类,每个关键词对应一个类别下的一个子类。其中,关键词与类别和子类的对应关系、各类别的优先级、以及各子类的权重可以由本领域技术人员根据经验或者根据对应用卸载时各关键词的统计分析来合理设置。
步骤206,对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;
由于每个类别具有不同的优先级,优先级越高,则表示应用的卸载原因属于该类别的可能性越大。因此,在通过分词处理得到一个或多个关键词,并获取到各关键词分别对应的表征应用卸载原因的类别和子类后,首先从获取到的所有类别中确定出优先级最高的类别,该优先级最高的类别即为该应用的卸载原因对应的类别。
然后,从这些关键词中筛选出所属的类别的优先级最高的关键词作为目标关键词,目标关键词的数量可能是一个或多个,由于各目标关键词可能对应同一类别下的不同的子类,因此,还需要确定应用的卸载原因对应的所述类别下的子类。在本发明实施例中,子类具有对应的权重,且由于目标关键词有可能在所述卸载原因字符串中出现多次(出现的次数越多,说明该目标关键词越重要),因此,可以将目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积作为目标关键词的权重。
步骤208,将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。
本发明实施例的上述技术方案实现了应用卸载原因的自动分类,一方面提高了应用卸载原因分类的效率,节约了人力成本;另一方面,通过引入类别的优先级以及子类的权重,统一和优化了分类的标准,从而提高了应用卸载原因分类的准确性。
如前所述,对卸载原因字符串进行分词处理的算法有多种,本领域技术人员可以根据需要合理选择。作为一种实现方式,可以采用基于用户字典的分词算法来进行所述分词处理,其中,所述用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重。
对卸载原因字符串的原始数据进行分析后,发现进行语义分析的分词,粒度越大越好,即单词的字数越多,所能表示的含义越确切,如:“加速球”可以分为“加速”和“球”,也可以分为“加速球”,但是如果要用于语义分析,则“加速球”的分词结果是最好的(当然前提是所使用的用户字典中有这个词)。因此,为了保证分词粒度,可以采用最大匹配算法,而对比正向、逆向、双向最大匹配算法,发现使用正向最大匹配算法的准确率最高,在后文中,是以正向最大匹配算法为例进行说明。
在本发明实施例中,为了提高分词效率,所使用的用户字典可以包括多个用户分字典,每个用户分字典对应一种关键词长度,这样,在进行分词处理的过程中,可以根据候选字符串的长度选择相应的用户分字典进行关键词匹配。
具体实现时,可以建立包括字数索引表、词索引表和词项基本信息的用户字典。首先,将词按字数分类,加载进字数索引表,字数索引表中每一项对应一个词索引表;然后,在词索引表中,每项记录一个词以及词项基本信息。这样,在进行正向最大匹配算法时,是“逐字数逐词匹配”,而不是“全匹配”,从而在一定程度上提高了匹配的效率。
其中,所述词项基本信息包括表征应用卸载原因的类别和子类,进一步,所述词项基本信息还可以包括一个或多个与词项对应的组合词。所谓组合词,可以理解为“用于进行组合的词”,是指能够与词项组合后形成另外一个词的词。例如,对于“加速”,其对应的一个组合词为“球”,则二者组合后形成的词为“加速球”,又例如,对于“某某”,其对应的一个组合词为“卫士”,则二者组合后形成的词为“某某卫士”。
相应地,当所述词项基本信息包括组合词时,在进行分词处理过程中,每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词,若否,直接将该关键词作为最终的关键词。
通过增加组合词,可以使应用卸载原因的定位更加准确。例如,用户输入的卸载原因字符串中包括“某某卫士”或者“某某的卫士”,如果用户字典中包括基本的词项“某某”和“卫士”,但不包括组合词,则进行分词处理后,得到的关键词只能是“某某”和“卫士”;如果用户字典中包括与词项“某某”对应的组合词“卫士”,则进行分词处理后,得到的关键词是“某某卫士”。由于“某某卫士”直接对应于具体的产品或应用,因此,采用组合词的方案能够使得应用卸载原因的定位更加准确。
图3示出了本发明实施例中使用的一种用户字典的存储结构示意图。参照图3,所述用户字典包括字数索引表、词索引表和词项基本信息。字数索引表包括字数和指向两个字段,每种长度的字数指向一个词索引表,例如,字数为5时,指向的是包括“流量防火墙”和“默认浏览器”的词索引表,又例如,字数为3时,指向的是包括“浏览器”的词索引表。词索引表包括词和指向两个字段,每个词指向一个词项基本信息。词项基本信息包括组合词、类别和子类三个字段,其中,组合词可能为空也可能为多个,例如,“流量防火墙”对应的组合词为空,对应的类别为“产品”,对应的子类为“加速球”;又例如,“浏览器”对应的组合词为“锁定”和“网址”,则可以组合成“浏览器锁定”和“浏览器网址”两个关键词,对应的类别均为“产品”,对应的子类分别为“默认浏览器”和“主页锁定”。在所述用户字典中,词、组合词、类别和子类的组合是唯一的,可以利用哈希表(HashMap)来存储该用户字典。
以下对基于上述用户字典的正向最大匹配算法进行详细说明。
首先介绍算法思想。正向最大匹配是指以用户字典为依据,取字典中最长的单词为第一次取字数量的扫描串,在用户字典中进行扫描,为了提高扫描效率,在建立用户字典HashMap表的时候,根据字数多少索引,然后根据不同字数扫描不同的词索引表。例如:用户字典中最长的词是“流量防火墙”共5个汉字,则最大匹配的起始字数为5个汉字。然后从左向右,逐字递减,在用户字典中进行查找和匹配。
图4示出了本发明实施例中基于用户字典的正向最大匹配算法流程图。参照图4,所述算法包括如下步骤:
(1)初始化:输入待切分字符串S1(包含汉字),设置输出词串S2为空,设置最大词长WORD_LENTGH_MAX,例如为5;
(2)判断S1是否为空,若是,输出S2,结束分词处理流程,若否,进入步骤(3);
(3)从S1左边开始,取出候选字串W,且W的长度不大于WORD_LENTGH_MAX;
(4)查看W是否在用户字典中,若是,进入步骤(5);若否,将W最右边一个字符去掉,继续查看更新后的W是否在用户字典中,如果每次更新后的W都不在用户字典中,则将S1最左边的一个字符去掉后返回步骤(2);
(5)判断W是否对应组合词,若是,将W与对应的组合词进行组合后作为新的W,若否,保持W不变;
(6)令S2=S2+W+”\t”,S1=S1-W,返回步骤(2),其中,“\t”为词与词之间的分割符。
需要说明的是,步骤(1)中的S1包含汉字,如果步骤S1中不包含汉字,则可以不进行上述的分词处理流程。也就是说,作为一种可选方式,在本发明实施例中,在进行分词处理之前,所述分类方法还包括,判断所述卸载原因字符串是否包含汉字,若是,进行所述分词处理,否则,将所述应用的卸载原因归类为“其他”类别中的“无语义”子类。
这里举一个具体的例子。
假如输入的卸载原因字符串为:S1=“某某卫士360不兼容”。
定义:最大词长WORD_LENTGH_MAX=5;S2=“”;词与词间的分隔符=“\t”,词与类别间的分隔符=“/”,词与次数间的分隔符=“”;“-”表示词与组合词间的分隔符。
假设存在字典:某某-卫士/竞品/某某,不兼容/竞品/其他,360/公司/名称,...。
具体过程如下:
(1)先判断S1是否包含汉字,如果包含则进行分词处理,否则,将其放入到“其他”类别中的“无语义”子列。
(2)S2=“”;S1不为空,从S1右边取出候选字符串W=“某某卫士3”;
(3)查找字典,W不在字典中,将W最右边的一个字去掉,得到W=“某某卫士”;
(4)由于组合词的位置不限,这里采用将词和组合词分别查找,再组合的策略,因此,查找字典,W不在字典中,将W最右边的一个字去掉,得到W=“某某卫”;
(5)查找字典,W不在字典中,将W最右边的一个字去掉,得到W=“某某”;
(6)查找字典,“某某”在字典中,将W加入到S2中,S2=“某某-\t”,由于“某某”是组合词,所以将继续从S1查找“卫士”,如果找到,将“某某-卫士”从S1中去掉,此时S1=“360不兼容”,S2=“某某-卫士/竞品/某某1\t”;
(7)S1不为空,于是从S1左边取出候选子串W=“360不兼”;
(8)查找字典,W不在字典中,将W最右边的一个字去掉,得到W=“360不”;
(9)查找字典,W不在字典中,将W最右边的一个字去掉,得到W=“360”;
(10)查找字典,W在字典中,且没有组合词,将W从S1中去掉,此时S1=“不兼容”,S2=“某某-卫士/竞品/某某1\t360/公司/名称1”;
(11)S1不为空,于是从S1左边取出候选子串W=“不兼容”;
(12)查找字典,W在字典中,且没有组合词,将W从S1中去掉,此时S1=“”,S2=“某某-卫士/竞品/某某1\t360/公司/名称1\t不让用/竞品/其他1”;
(13)S1为空,输出S2作为分词结果,分词过程结束。
在进行分词处理后,就可以根据分词处理结果对应用卸载原因进行分类。首先,获取分词处理得到的各关键词对应的类别的优先级,从所有关键词中筛选出对应的类别的优先级最高的一个或多个关键词作为目标关键词;其次,获取各目标关键词所对应的子类的权重wsubclass,以及,各目标关键词在输入的卸载原因字符串中出现的次数ttimes;然后,计算每个目标关键词的权重wword=wsubclass×wtimes;最后,将权重最高的目标关键词所代表的类别和子类赋予该应用卸载原因。如果计算得到的每个目标关键词的权重wword都相同,则可以采用随机游走算法,随机赋予应用卸载原因一个类别和子类。另外,由于在信息论中,如果一句话包含的词语越多,则每个词能代表这句话的信息量越少,因此,对于子类的权重,可以将其设置为用户字典中该子类对应的关键词的数目的倒数。
这里举一个应用卸载原因分类的具体例子。
假设输入的卸载原因字符串为S1=“今天用那个真人专家,我给那货说我电脑蓝屏,他接管后~他妈傻的二话不说直接给我把鼠标和键盘的驱动给老子卸了。。你说你卸就卸了吧,你倒是给我吧电脑蓝屏给劳资弄好吧,他妈的直接不管老子了,然后我把电脑重启了。。。”
分词处理结果为:S2=“妈/负面/其他3傻/负面/其他2重启/产品/关机-重启1专家/产品/电脑专家1蓝屏/产品/蓝屏2”;
则应用卸载原因分类的具体过程如下:
(1)查看S2,得到包括产品和负面的两个类别,由事先设定的优先级,确定S2的类别为产品。
(2)在S2中,产品对应的子类包括关机-重启、电脑专家、蓝屏,通过采用上述算法,计算得到wsubclass(关机-重启)=1/2、wsubclass(电脑专家)=1/6、wsubclass(蓝屏)=1;ttimes(关机-重启)=1、ttimes(电脑专家)=1、ttimes(蓝屏)=2;
(3)最后,通过计算得到wword(蓝屏)的权重最大,这样确定S2的级类别为产品类,子类为蓝屏。
对应于本发明实施例的应用卸载原因分类方法,本发明实施例还提供一种应用卸载原因的分类装置。
图5示出了根据本发明一个实施例的应用卸载原因的分类装置结构图,参照图5,所述分类装置可以包括:卸载原因字符串获取单元52、分词处理单元54、权重计算单元56和卸载原因分类单元58,各模块的具体工作原理如下:
卸载原因字符串获取单元52适于获取应用对应的卸载原因字符串。用户卸载应用后,通常会在应用提供商提供的网页中填写卸载原因,并发送到应用提供商的日志服务器中。因此,针对某个待分析的应用,卸载原因字符串获取单元52可以从日志服务器中获取其对应的卸载原因字符串。
分词处理单元54于对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重。
在具体实现时,可以预先设置关键词与类别和子类的对应关系,并将该对应关系以例如关键词表或者用户字典的方式存储。在所述对应关系中,一个类别具有一个或多个子类,每个关键词对应一个类别下的一个子类。其中,关键词与类别和子类的对应关系、各类别的优先级、以及各子类的权重可以由本领域技术人员根据经验或者根据对应用卸载时各关键词的统计分析来合理设置。
对字符串进行分词处理的算法有多种,本发明实施例对具体的算法不做限制,可以采用现有技术中或者将来可能出现的各种分词算法。例如,分词处理单元54可以采用基于用户字典的预定分词算法进行所述分词处理,所述用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类。其中,所述预定分词算法可以是正向最大匹配算法。
另外,所述用户字典还可以包括多个用户分字典,每个用户分字典对应一种关键词长度,这样,分词处理单元54在进行分词处理的过程中,可以根据候选字符串的长度选择相应的用户分字典进行关键词匹配。
进一步,所述基本信息还可以包括与关键词对应的组合词,这样,分词处理单元54在进行分词处理的过程中,每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词。
权重计算单元56适于对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重。其中,所述子类的权重可以为所述用户字典中该子类对应的关键词的数目的倒数。
卸载原因分类单元58适于将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。
另外,所述分类装置还可以包括判断单元(图未示),适于判断所述卸载原因字符串是否包含汉字,若是,通知所述分词处理单元进行所述分词处理,否则,通知所述卸载原因分类单元将所述应用的卸载原因归类为“其他”类别中的“无语义”子类。
需要说明的是,由于本发明实施例的应用卸载原因的分类装置与应用卸载原因的分类方法是相对应的,因此,对上述分类装置的描述相对简略,对于该分类装置中相应模块的具体功能和实现,本领域技术人员参照上述分类方法实施例容易得到。
另外,在根据本发明实施例的上述应用卸载原因的分类方法或分类装置得到各种卸载原因字符串对应的分类结果后,还可以对一段时间内的分类结果进行统计。
例如,可以提取一天的分类结果数据,进行统计后得到如下结果:
类别 数量 占比
负面 67 9.19%
竞品 27 3.70%
推广 56 7.68%
应用 15 2.06%
不兼容 16 2.19%
卡慢 72 9.88%
安装 32 4.39%
产品 200 27.43%
其他 244 33.47%
总计 729 100.00%
表1类别统计表
表2子类统计表
从表1和表2中可以看出各个类别和子类的占比,如果区分其他类别与已知类别,可以发现准确率在66.53%,但是其他类别中还包含了无语义的一些卸载原因,因此,通过表2,可以发现去除无语义的数据后准确率在74.9%。
综上所述,根据本发明实施例的一个或多个技术方案,通过对卸载原因字符串进行分词处理,并获取分词处理得到的关键词所属的类别和子类,根据关键词对应的类别的优先级以及子类的权重,计算关键词的权重,将应用的卸载原因归类为权重最大的关键词所属的类别和子类,实现了应用卸载原因的自动分类。一方面,通过对应用卸载原因的自动分类,提高了应用卸载原因分类的效率,节约了人力成本;另一方面,通过引入类别的优先级以及子类的权重,统一和优化了分类的标准,从而提高了应用卸载原因分类的准确性。
本发明的实施例还公开了:
B11、如权利要求B9所述的分类装置,其中,所述用户字典包括多个用户分字典,每个用户分字典对应一种关键词长度;
所述分词处理单元在进行分词处理的过程中,根据候选字符串的长度选择相应的用户分字典进行关键词匹配。
B12、如权利要求B9所述的分类装置,其中,所述基本信息还包括与关键词对应的组合词;
所述分词处理单元在进行分词处理的过程中,每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词。
B13、如权利要求B9所述的分类装置,其中,所述子类的权重为所述用户字典中该子类对应的关键词的数目的倒数。
B14、如权利要求B8所述的分类装置,其中,还包括:
判断单元,适于判断所述卸载原因字符串是否包含汉字,若是,通知所述分词处理单元进行所述分词处理,否则,通知所述卸载原因分类单元将所述应用的卸载原因归类为“其他”类别中的“无语义”子类。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的应用卸载原因的分类装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种应用卸载原因的分类方法,包括:
获取应用对应的卸载原因字符串;
对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;
对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;
将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。
2.如权利要求1所述的分类方法,其中,采用基于用户字典的预定分词算法进行所述分词处理,所述用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类。
3.如权利要求2所述的分类方法,其中,所述预定分词算法为正向最大匹配算法。
4.如权利要求2所述的分类方法,其中,所述用户字典包括多个用户分字典,每个用户分字典对应一种关键词长度;
在进行分词处理的过程中,根据候选字符串的长度选择相应的用户分字典进行关键词匹配。
5.如权利要求2所述的分类方法,其中,所述基本信息还包括与关键词对应的组合词;
在进行分词处理过程中,每得到一个关键词,还进一步根据该关键词的基本信息判断该关键词是否对应组合词,若是,则从所述卸载原因字符串中匹配所述组合词,并将该关键词与匹配到的组合词组合成最终的关键词。
6.如权利要求2所述的分类方法,其中,所述子类的权重为所述用户字典中该子类对应的关键词的数目的倒数。
7.如权利要求1所述的分类方法,其中,在进行分词处理之前,所述分类方法还包括,判断所述卸载原因字符串是否包含汉字,若是,进行所述分词处理,否则,将所述应用的卸载原因归类为“其他”类别中的“无语义”子类。
8.一种应用卸载原因的分类装置,包括:
卸载原因字符串获取单元,适于获取应用对应的卸载原因字符串;
分词处理单元,适于对所述卸载原因字符串进行分词处理得到一个或多个关键词,所述关键词对应于表征应用卸载原因的类别和子类,且每个类别具有不同的优先级,每个子类具有预定的权重;
权重计算单元,适于对于所述一个或多个关键词中所属的类别的优先级最高的一个或多个目标关键词,分别计算各目标关键词所属的子类的权重与其在所述卸载原因字符串中的出现次数的乘积,得到各目标关键词的权重;
卸载原因分类单元,适于将所述应用的卸载原因归类为权重最大的目标关键词所属的类别和子类。
9.如权利要求8所述的分类装置,其中,所述分词处理单元采用基于用户字典的预定分词算法进行所述分词处理,所述用户字典包括关键词以及关键词的基本信息,所述基本信息包括所述表征应用卸载原因的类别和子类。
10.如权利要求9所述的分类装置,其中,所述预定分词算法为正向最大匹配算法。
CN201410098025.XA 2014-03-17 2014-03-17 应用卸载原因的分类方法及分类装置 Expired - Fee Related CN104933044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410098025.XA CN104933044B (zh) 2014-03-17 2014-03-17 应用卸载原因的分类方法及分类装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410098025.XA CN104933044B (zh) 2014-03-17 2014-03-17 应用卸载原因的分类方法及分类装置

Publications (2)

Publication Number Publication Date
CN104933044A true CN104933044A (zh) 2015-09-23
CN104933044B CN104933044B (zh) 2019-05-31

Family

ID=54120213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410098025.XA Expired - Fee Related CN104933044B (zh) 2014-03-17 2014-03-17 应用卸载原因的分类方法及分类装置

Country Status (1)

Country Link
CN (1) CN104933044B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095496A (zh) * 2016-06-06 2016-11-09 百度在线网络技术(北京)有限公司 用于确定卸载原因的方法和装置
CN106708500A (zh) * 2016-08-26 2017-05-24 腾讯科技(深圳)有限公司 卸载界面的显示方法及装置
CN107729334A (zh) * 2016-08-11 2018-02-23 英业达科技有限公司 数据分类系统及数据分类方法
CN111191665A (zh) * 2018-11-14 2020-05-22 北京奇虎科技有限公司 图像分类方法、装置及电子设备
CN111797279A (zh) * 2020-07-17 2020-10-20 西安数据如金信息科技有限公司 一种存储数据的方法及装置
CN112559733A (zh) * 2019-09-26 2021-03-26 阿里巴巴集团控股有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统
CN113837572A (zh) * 2021-09-10 2021-12-24 畅销家(深圳)科技有限公司 一种物流监控方法及相关设备
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083224A1 (en) * 2002-10-16 2004-04-29 International Business Machines Corporation Document automatic classification system, unnecessary word determination method and document automatic classification method
CN102694895A (zh) * 2011-03-23 2012-09-26 中兴通讯股份有限公司 来电原因的判定方法及装置
CN102831035A (zh) * 2012-08-20 2012-12-19 腾讯科技(深圳)有限公司 备份信息的方法及装置
CN102880969A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 广告投放方法、广告投放服务器及广告投放系统
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN103577252A (zh) * 2012-07-26 2014-02-12 腾讯科技(深圳)有限公司 一种软件分类的方法及装置
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083224A1 (en) * 2002-10-16 2004-04-29 International Business Machines Corporation Document automatic classification system, unnecessary word determination method and document automatic classification method
CN102694895A (zh) * 2011-03-23 2012-09-26 中兴通讯股份有限公司 来电原因的判定方法及装置
CN102880969A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 广告投放方法、广告投放服务器及广告投放系统
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
CN103577252A (zh) * 2012-07-26 2014-02-12 腾讯科技(深圳)有限公司 一种软件分类的方法及装置
CN102831035A (zh) * 2012-08-20 2012-12-19 腾讯科技(深圳)有限公司 备份信息的方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095496A (zh) * 2016-06-06 2016-11-09 百度在线网络技术(北京)有限公司 用于确定卸载原因的方法和装置
CN107729334A (zh) * 2016-08-11 2018-02-23 英业达科技有限公司 数据分类系统及数据分类方法
CN106708500A (zh) * 2016-08-26 2017-05-24 腾讯科技(深圳)有限公司 卸载界面的显示方法及装置
WO2018036337A1 (zh) * 2016-08-26 2018-03-01 腾讯科技(深圳)有限公司 卸载界面的显示方法及装置
CN106708500B (zh) * 2016-08-26 2019-07-30 腾讯科技(深圳)有限公司 卸载界面的显示方法及装置
CN111191665A (zh) * 2018-11-14 2020-05-22 北京奇虎科技有限公司 图像分类方法、装置及电子设备
CN112559733A (zh) * 2019-09-26 2021-03-26 阿里巴巴集团控股有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN111797279A (zh) * 2020-07-17 2020-10-20 西安数据如金信息科技有限公司 一种存储数据的方法及装置
CN111797279B (zh) * 2020-07-17 2024-01-19 西安数据如金信息科技有限公司 一种存储数据的方法及装置
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统
CN113837572A (zh) * 2021-09-10 2021-12-24 畅销家(深圳)科技有限公司 一种物流监控方法及相关设备
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN104933044B (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN104933044A (zh) 应用卸载原因的分类方法及分类装置
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
US10565273B2 (en) Tenantization of search result ranking
AU2016225947B2 (en) System and method for multimedia document summarization
US8214361B1 (en) Organizing search results in a topic hierarchy
CN110163476A (zh) 项目智能推荐方法、电子装置及存储介质
US20170091670A1 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
US9652472B2 (en) Service requirement analysis system, method and non-transitory computer readable storage medium
US7818278B2 (en) Large scale item representation matching
US20220309332A1 (en) Automated contextual processing of unstructured data
CN110706015B (zh) 一种面向广告点击率预测的特征选取方法
CN112818218B (zh) 信息推荐方法、装置、终端设备及计算机可读存储介质
CN103970748A (zh) 一种相关关键词推荐方法和装置
US9684726B2 (en) Realtime ingestion via multi-corpus knowledge base with weighting
CN109657044A (zh) 数据检索方法、数据排序方法、装置、终端以及存储介质
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
CN115827895A (zh) 一种漏洞知识图谱处理方法、装置、设备及介质
CN113204621A (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN116406459A (zh) 一种代码处理方法、装置、设备及介质
CN105164672A (zh) 内容分类
US10884996B1 (en) Systems and methods for optimizing automatic schema-based metadata generation
CN111858366B (zh) 一种测试用例生成方法、装置、设备及存储介质
CN104462552A (zh) 问答页面核心词提取方法和装置
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
US10180938B2 (en) Assisted free form decision definition using rules vocabulary

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220801

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190531

CF01 Termination of patent right due to non-payment of annual fee