CN101673305A - 行业分类方法、装置和服务器 - Google Patents
行业分类方法、装置和服务器 Download PDFInfo
- Publication number
- CN101673305A CN101673305A CN200910235273A CN200910235273A CN101673305A CN 101673305 A CN101673305 A CN 101673305A CN 200910235273 A CN200910235273 A CN 200910235273A CN 200910235273 A CN200910235273 A CN 200910235273A CN 101673305 A CN101673305 A CN 101673305A
- Authority
- CN
- China
- Prior art keywords
- speech
- auction
- cluster
- industry
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种行业分类方法、装置和服务器,该方法包括:确定跨行业用户,将跨行业用户分离为多个单一行业的虚拟用户,根据跨行业用户的拍卖词确定虚拟用户对应的拍卖词;将虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定虚拟用户对应的拍卖词的初始行业;根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,重复执行聚类的步骤,根据达到预定条件时的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。本发明实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
Description
技术领域
本发明实施例涉及网络通信技术领域,特别涉及一种行业分类方法、装置和服务器。
背景技术
随着互联网在全球的普及,以及互联网应用的不断发展,网页上的文本信息近年来呈现爆炸式增长,如何充分有效地利用网页上的文本信息成为关注的焦点。文本分类通过自动为文本标注类别,可以有效地组织和管理文本信息,已经渐渐成为数据挖掘领域中一个重要的研究方向并且具有很高的商业价值。目前,文本分类已经被应用到许多领域中,包括:抽取符号知识、分发电子邮件、生成用户兴趣模式和邮件内容监控等。
文本分类就是将大量文本信息划分为若干组,每组一个类别,每个类别代表不同的概念主题。文本分类是一个有指导的学习过程,文本分类根据一个已经被标注的训练文本集合,找到文本特征和文本类别之间的关系模型,然后利用学习得到的关系模型对新的文本进行类别判断。文本分类的基础技术由文本的预处理、文本的表示、分类方法及效果评估三部分组成。
现有的分类方法主要采用自动分类算法,自动分类算法主要有Rocchio算法、决策树算法、K-近邻(K-Nearest Neighbor;以下简称:KNN)算法、贝叶斯(Bayes)算法、神经网络算法、步进(boosting)算法和支持向量机(Support Vector Machines;以下简称:SVM)等。Rocchio算法根据待分类文本的向量与每一个类别的中心向量的距离来确定类别属性。KNN算法通过查询已知的类似文档的分类情况,来判断新文档和已知文档是否属于统一类别。贝叶斯算法将训练的文档分解为特征向量和决策类别向量,是一种统计学的分类方法,计算新文档属于各类的概率,最大概率对应的类别即为新文档所属的类别。SVM算法是一种建立在统计学习理论基础上的机器学习的放大,主要针对两类分类的问题,在高维空间上寻找一个超平面对两类的样本进行分割。决策树算法实际上是把搜索空间划分为一些矩阵区域,然后根据文本落入区域对文本进行分类。
文本分类包括两个方面:一方面是长文本分类,另一方面是短文本分类。现有的分类方法主要面向较长文本分类,例如:文章级别或者段落级别的分类。由于短文本的长度较短,一般只有几个汉字至十几个汉字,现有的文本分类方法并不适用于短文本分类,在应用现有的文本分类方法对短文本进行分类时,准确度较低。
而用于搜索用户的拍卖词均为几个汉字至十几个汉字的短文本,应用现有的分类方法无法在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
发明内容
本发明提供一种行业分类方法、装置和服务器,以实现根据用户和该用户对应的拍卖词的关联关系对短文本进行分类,将用户和拍卖词分类到对应的行业中。
本发明提供一种行业分类方法,包括:
确定跨行业用户,将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词;
将所述虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;
根据所述虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。
本发明还提供一种行业分类装置,包括:
用户确定模块,用于确定跨行业用户;
用户分离模块,用于将所述用户确定模块确定的跨行业用户分离为多个单一行业的虚拟用户;
拍卖词确定模块,用于根据所述跨行业用户的拍卖词确定所述用户分离模块分离的虚拟用户对应的拍卖词;
初始行业确定模块,用于将所述拍卖词确定模块确定的虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;
行业确定模块,用于根据所述初始行业确定模块确定的虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。
本发明还提供一种服务器,包括上述的行业分类装置。
本发明通过将跨行业用户分离为多个单一行业的虚拟用户,然后根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,最后,根据最终的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。从而实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,将虚拟用户和拍卖词分类到对应的行业中,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明行业分类方法一个实施例的流程图;
图2为本发明分离跨行业用户一个实施例的流程图;
图3为本发明行业分类装置一个实施例的结构示意图;
图4为本发明行业分类装置另一个实施例的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明行业分类方法一个实施例的流程图,如图1所示,本实施例包括:
步骤101,确定跨行业用户。具体可以为:将用户的每个拍卖词与预定行业包括的所有行业的种子词进行匹配;如果该用户的拍卖词中与种子词匹配的拍卖词的个数大于或等于预设的第一阈值,并且该用户的拍卖词在该预定行业包括的各行业的分布熵小于或等于预设的第二阈值,则确定该用户为上述预定行业的跨行业用户。具体地,假设预定行业为行业T,确定一个用户U是否为行业T的跨行业用户可以为:
1011,设定用户U的拍卖词中与行业T包括的所有行业的种子词匹配的拍卖词的个数的数组为trade_matched数组,初始化trade_matched数组的值为0;
1012,将用户U的每个拍卖词与行业T包括的所有行业的种子词进行匹配,每匹配上一个种子词,将trade_matched数组中与匹配上种子词的拍卖词所对应的记录位置处的值加1;
1013,假设行业T中包括N个行业,如果 并且, 则可以确定用户U是行业T的跨行业用户,其中,thres_match_words为第一阈值,thres_cross_trades为第二阈值。
其中,行业可以划分为多级体系,例如:一级行业可以包括医疗和机电等行业;一级行业中的医疗行业可以包括多个二级行业,例如:医疗药品、医疗器械和医疗机构等。本实施例中的预定行业T可以为一级行业中的任一行业,包括多个二级行业;也可以为一级行业之上的一个虚拟行业,该虚拟行业包括多个一级行业。
本实施例中,种子词指描述行业特征的短语,种子词的属性包括字面、否定和肯定标识,以及权重。其中字面可以为医院或机械等;肯定标识为行业的特性,否定标识为排除行业的特性;权重为行业的优先级别。
步骤102,将跨行业用户分离为多个单一行业的虚拟用户,根据跨行业用户的拍卖词确定该虚拟用户对应的拍卖词。
图2为本发明分离跨行业用户一个实施例的流程图,如图2所示,本实施例包括:
步骤201,对跨行业用户的所有拍卖词进行切词。
下面以拍卖词为W为例,对切词的方法进行介绍。
假设拍卖词W的形式为ABS1CDS2E,其中S1、S2均为行业的种子词,长度分别为L1和L2,A、B、C、D和E为基本的中文单词。
2011,在拍卖词W中查找种子词,记录下种子词在拍卖词W中的位置和对应长度,本实施例中,种子词在拍卖词W中的位置和对应长度为{3:L1,5:L2},并标注种子词的行业标识;其中,查找到的种子词相互之间可能有重叠,且本实施例不限制查找到的种子词的个数。
在查找种子词时,可以遵循以下原则:
(1)种子词完全包含,长词优先原则;
例如:当种子词为“鼻”和“鼻窦炎”,拍卖词为“患了鼻窦炎怎么办”时,在该拍卖词中查找到的种子词为“鼻窦炎”;
当种子词为“鼻窦炎”和“炎”,拍卖词为“患了鼻窦炎怎么办”时,在该拍卖词中查找到的种子词为“鼻窦炎”;
(2)种子词部分重叠原则
a)后匹配原则:例如:当种子词为“交通法规”和“法规培训”,拍卖词为“交通法规培训学校”时,在该拍卖词中查找到的种子词为“法规培训”;
b)被选出的种子词数量最多匹配原则:例如:当种子词为“交通法”、“法规培训”和“学校”,拍卖词为“交通法规培训学校”时,在该拍卖词中查找到的种子词为“法规培训”和“学校”。
2012,以种子词为分隔符将拍卖词W拆分成若干字符串,如下所示:“AB”、“S1”、“CD”、“S2”和“E”。
2013,对拍卖词W中种子词以外的字符串进行切词,切词过程中,对中文单字和英文单字母过滤。本实施例中,需要对“AB”、“CD”和“E”这三部分进行切词,假设切词结果为“A”、“B”、“CD”和“E”。
2014,根据拍卖词W中词的出现顺序组合切词结果和种子词,并以“\t”分隔各切词结果和种子词。本实施例中,组合的结果为“A \t B \t S1 \t CD \t S2\t E”。
步骤202,对切词结果进行停用词过滤,并在过滤后的切词结果中按照预定的规则确定跨行业用户的高频切词。
具体地,该预定的规则可以为词覆盖和词频覆盖算法,即在过滤后的切词结果中按照词覆盖和词频覆盖算法确定跨行业用户的高频切词。
下面对本实施中采用的词覆盖和词频覆盖算法进行介绍。
2021,初始化切词数组term_array,数组term_array中的每一个数组元素记录一个切词出现的次数;
2022,初始化覆盖词数目的数组term_coverage_array,数组term_coverage_array用于记录切词数组term_array中的对应切词覆盖的拍卖词的数目;对应term_array里面的每一个切词,数组term_coverage_array中的对应元素记录该切词覆盖了多少个拍卖词;
2023,对跨行业用户的所有拍卖词进行切词,得到若干个切词,记为集合A,统计集合A中每个切词出现的次数(频率);将每个拍卖词对应的切词记为集合B,因此集合B中的每个切词肯定在集合A中出现,同时对应一个频率;找出每个集合B包含的切词中在集合A里频率最高的切词,将数组term_coverage_array中与该频率最高的切词对应的记录位置处的数组元素的数值加1;
2024,将term_array数组按词频由高到低进行排序,其中词频指切词出现的次数;
2025,设term_freq_cnt为所有切词的词频总和,定义两个变量least_term和least_word,初始化least_word=(unsigned int)(thres_wc_percent×word_num)+1;如果term_freq_cnt<配置参数,则least_term=term_freq_cnt;如果term_freq_cnt≥配置参数,则least_term=(unsigned int)(thres_tc_percent*term_num)+1;其中,thres_tc_percent是词频覆盖率的阈值,thres_wc_percent是词覆盖率的阈值,term_num是切词的词频总和,word_num是切词的数量;配置参数可以为任意正整数,例如:1000。
2026,寻找最小的m,使得 且
2027,确定term_array数组的前m个切词为跨行业用户的高频切词。
步骤203,对高频切词进行聚类。
具体地,对高频切词进行聚类可以为:将高频切词与预定行业包括的所有行业的种子词进行模糊匹配,在匹配成功之后,将该高频切词标上行业标注,将具有相同行业标注的高频切词划分到同一聚类中;
根据没有行业标注的高频切词与具有行业标注的聚类中每个高频切词的相似度,将没有行业标注的高频切词聚到具有行业标注的聚类中;其中,相似度的计算方法为:按照频率从高到低的顺序,计算没有行业标注的高频切词与具有行业标注的聚类中每个高频切词的相似度,对计算得到的相似度求和得到sum;设具有行业标注的聚类中高频切词的个数为term_num,设tmp_div为对term_num进行优化后的值,
tmp_div=int(double(375×(-333+double(sqrt(double(333×333+4×520×term_num)))))/1040)+1,
则最终相似度=sum/tmp_div;
如果一个没有行业标注的高频切词与某个聚类的所有高频切词计算得到的最终相似度最大,且大于预设的阈值,则将该没有行业标注的高频切词聚到该最终相似度最大的聚类中。
对于经过上述聚类过程后剩余的高频切词可以按一个较小的阈值thres_two进行聚类。具体可以为:以一个没有行业标注的高频切词X为例,计算所有未曾与X计算过相似度的聚类与X的相似度,如果一个聚类与X的相似度高于thres_two,将X聚到相似度高于thres_two的该聚类中。在对剩余的高频切词按照较小的阈值thres_two进行聚类时,可以按照剩余的高频切词的频率由高到低的顺序依次进行。
步骤204,根据高频切词的聚类确定高频切词所属拍卖词的聚类。
具体地,在对高频切词进行聚类之后,根据行业标注和每个聚类中高频切词的数量计算权值。该权值=1+log(24×term_num),其中term_num为聚类中包含的高频切词的数量;如果该聚类有行业标注,则将通过上式计算的权值再加10。
对于仅包括一个高频切词的拍卖词,该高频切词的聚类即为该拍卖词的聚类;对于包括多个高频切词的拍卖词,确定高频切词所属的聚类中,计算得到的上述权值最大的聚类为拍卖词的聚类;例如:假设拍卖词Y包括三个高频切词A、B和C,分别属于聚类1、2和3,通过计算,获得聚类1的权值为10,聚类2的权值为20,聚类3的权值为30,则可以确定拍卖词的聚类为高频切词C所属的聚类3。
另外,如果允许将拍卖词划分到多个聚类中,假设权值最大的聚类有行业标注,权值第二的聚类无行业标注,则可以将拍卖词输出到这两个聚类;仍以上述包括三个高频切词A、B和C的拍卖词Y为例,假定聚类3有行业标注,聚类2无行业标注,则可以确定拍卖词Y的聚类为聚类3和聚类2。
对于不包括高频切词的拍卖词,可以集中划分到一个单独的聚类中。
步骤205,确定拍卖词的一个聚类为一个单一行业的虚拟用户,该聚类对应的拍卖词为虚拟用户的拍卖词。
在确定了拍卖词的聚类之后,将每一个聚类单独作为一个单一行业的虚拟用户;而每个聚类所对应的拍卖词,作为该虚拟用户的拍卖词。
通过上述分离跨行业用户的过程,可以去除跨行业用户对于用户和拍卖词的双向关联关系的噪声。
步骤103,将虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定该虚拟用户对应的拍卖词的初始行业。
在将虚拟用户对应的拍卖词与各行业的种子词进行匹配时,可以采用以下匹配规则:
(1)最高优先级匹配原则:权重越大,优先级越高。如果一个拍卖词匹配到多个种子词,那么以最大权重的种子词的行业作为该拍卖词的初始行业;
(2)否定种子词不匹配原则:如果一个拍卖词匹配到一个种子词S1,S1在行业T1,但是该拍卖词同时匹配到种子词S2,S2为否定标识,S2也在行业T1,那么该拍卖词不能匹配到行业T1里面去;
(3)为了实现某些特定的策略,对某些特定优先级的种子词进行特殊处理。例如:
特殊规则编号 | 种子词权重W | 特殊处理 |
1 | W≥配置参数,该配置参数默认为1024,可任意配置 | 匹配该类型种子词的拍卖词将作为基准词处理,但必须遵循第(2)条“否定种子词不匹配原则”;基准词在聚类过程中行业标注不发生改变。 |
(4)在种子词的权重相同的情况下,优先根据后匹配原则进行匹配,在根据后匹配原则进行匹配时,根据长词优先原则进行匹配。
在将虚拟用户对应的拍卖词与各行业的种子词进行匹配时,必须满足上述每一条规则。
步骤104,根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对该虚拟用户对应的拍卖词进行聚类,重复执行上述聚类的步骤,根据达到预定条件时的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。
具体地,对于任意虚拟用户,该虚拟用户对应的每个拍卖词为该拍卖词所属的聚类投一票,得票最多的聚类为该虚拟用户的聚类;其中,该虚拟用户对应的每个拍卖词的初始行业为每个拍卖词的初始聚类。然后,再根据虚拟用户的聚类结果对该虚拟用户对应的拍卖词进行聚类,具体地,对于任意拍卖词,该拍卖词对应的每个虚拟用户均为该虚拟用户所属的聚类投一票,得票最多的聚类为该拍卖词的聚类。重复执行上述聚类的步骤,直至满足预定的循环结束条件,然后,可以根据达到预定条件时的聚类结果确定虚拟用户和该虚拟用户对应的拍卖词所属的行业。其中,预定的循环结束条件可以为:循环步骤达到预设的数值,例如:100步;或者,虚拟用户所在的聚类和拍卖词所在的聚类都不再有任何变动;当然,还可以设定其他的循环结束条件,本实施例对循环结束条件的设定不作限定。
在上述聚类过程中,还可以引入基准拍卖词和基准虚拟用户,引入基准拍卖词和基准虚拟用户是人工干预措施的接口,利用已知的资源来强化分类的效果。具有行业标注的基准拍卖词和基准虚拟用户在上述聚类过程中,行业标注不会发生变化。
其中,在上述每次聚类过程中,可以通过计算虚拟用户和拍卖词所属聚类的权重,确定虚拟用户和拍卖词的聚类。具体地,对于任意虚拟用户,可以计算该虚拟用户对应的每个拍卖词的初始行业的权重,确定权重最大的初始行业为该虚拟用户的聚类。对于任意拍卖词,可以计算每个拍卖词对应的所有虚拟用户所属聚类的权重,确定权重最大的聚类为该拍卖词的聚类。
下面详细介绍上述聚类过程中权重的计算过程。本实施例以虚拟用户或该虚拟用户对应的拍卖词作为投票者,对应地,以虚拟用户所在的聚类或拍卖词所在的聚类作为被投票者,介绍上述聚类过程中权重的计算过程。
1041,计算虚拟用户和该虚拟用户对应的拍卖词的初始权重。
具体地,拍卖词的初始权重=(1/sqrt(log(拍卖词对应的虚拟用户的数量+2))),
虚拟用户的初始权重=1/sqrt(log(虚拟用户对应的拍卖词的数量+2)))。
本实施例中,投票者的聚类必须大于0,且初始权重大于0.0001;即,虚拟用户或该虚拟用户对应的拍卖词的聚类必须大于0,且虚拟用户或该虚拟用户对应的拍卖词的初始权重必须大于0.0001。
1042,对每一个投票者的聚类的权重进行求和,
设一共有M个投票者,每个投票者有一个聚类号,投票者聚类号组成的集合为N,求出每一个聚类i(i∈N)上属于聚类i的投票者的权重的和,并记为Wtrade[i],
其中,W为投票者的权重,i为标号为i的聚类,W对应的投票者属于聚类i。
1043,当被投票者只有一个投票者时,被投票者的权重不变,将被投票者的聚类设置为投票者的聚类;当一个被投票者有多个投票者时,设多个投票者的集合为集合S,多个投票者所对应的聚类号的集合为P,那么对这些投票者,计算集合S中的投票者在集合P中的各个聚类的权重和sumwcate[j],其中,j表示标号为j的聚类,j∈N;并计算集合S中所有投票者的权值总和sumw和集合S中所有投票者的W×log(W)的总和sumwlgw;其中,集合S中投票者的总数为vvs。
1044,在给被投票者赋值新的聚类号的时候,每一个投票者的聚类的比较权重V为:
本实施例在聚类过程中,选择最大的权重V所对应的聚类j作为被投票者的聚类。
同时为了计算被投票者的权重,计算临时变换权值,具体可以为:
1045,计算被投票者的权重。
具体地,被投票者的权重
在上述计算权重的过程中,引入的基准拍卖词和基准虚拟用户的权重不会发生变化。
上述实施例通过将跨行业用户分离为多个单一行业的虚拟用户,然后根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,最后,根据最终的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。从而实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,将虚拟用户和拍卖词分类到对应的行业中,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图3为本发明行业分类装置一个实施例的结构示意图,该实施例的行业分类装置可以作为一个服务器,或者位于服务器中,实现本发明图1所示实施例的流程。如图3所示,该行业分类装置包括:用户确定模块31、用户分离模块32、拍卖词确定模块33、初始行业确定模块34和行业确定模块35。
其中,用户确定模块31可以用于确定跨行业用户;具体地,将用户的每个拍卖词与预定行业包括的所有行业的种子词进行匹配;如果该用户的拍卖词中与种子词匹配的拍卖词的个数大于或等于预设的第一阈值,并且该用户的拍卖词在该预定行业包括的各行业的分布熵小于或等于预设的第二阈值,则确定该用户为上述预定行业的跨行业用户。
用户分离模块32可以将用户确定模块31确定的跨行业用户分离为多个单一行业的虚拟用户;具体地,在用户分离模块32将跨行业用户分离为多个单一行业的虚拟用户时,可以采用本发明图2所示实施例中提供的方法。
拍卖词确定模块33可以根据跨行业用户的拍卖词确定用户分离模块32分离的虚拟用户对应的拍卖词。
初始行业确定模块34可以将拍卖词确定模块33确定的虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定该虚拟用户对应的拍卖词的初始行业;初始行业确定模块34在将虚拟用户对应的拍卖词与各行业的种子词进行匹配时,可以采用以下匹配规则:
(1)最高优先级匹配原则:权重越大,优先级越高。如果一个拍卖词匹配到多个种子词,那么以最大权重的种子词的行业作为该拍卖词的初始行业;
(2)否定种子词不匹配原则:如果一个拍卖词匹配到一个种子词S1,S1在行业T1,但是该拍卖词同时匹配到种子词S2,S2为否定标识,S2也在行业T1,那么该拍卖词不能匹配到行业T1里面去;
(3)为了实现某些特定的策略,对某些特定优先级的种子词进行特殊处理。例如:
特殊规则编号 | 种子词权重W | 特殊处理 |
1 | W≥配置参数,该配置参数默认为1024,可任意配置 | 匹配该类型种子词的拍卖词将作为基准词处理,但必须遵循第(2)条“否定种子词不匹配原则”;基准词在聚类过程中行业标注不发生改变。 |
(4)在种子词的权重相同的情况下,优先根据后匹配原则进行匹配,在根据后匹配原则进行匹配时,根据长词优先原则进行匹配。
初始行业确定模块34在将虚拟用户对应的拍卖词与各行业的种子词进行匹配时,必须满足上述每一条规则。
行业确定模块35可以根据初始行业确定模块34确定的虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据该虚拟用户的聚类结果对该虚拟用户对应的拍卖词进行聚类,重复执行上述聚类的步骤,根据达到预定条件时的聚类结果确定虚拟用户和该虚拟用户对应的拍卖词所属的行业。
具体地,对于任意虚拟用户,该虚拟用户对应的每个拍卖词为该拍卖词所属的聚类投一票,得票最多的聚类为该虚拟用户的聚类;其中,该虚拟用户对应的每个拍卖词的初始行业为每个拍卖词的初始聚类。然后,行业确定模块35再根据虚拟用户的聚类结果对该虚拟用户对应的拍卖词进行聚类,具体地,对于任意拍卖词,该拍卖词对应的每个虚拟用户均为该虚拟用户所属的聚类投一票,得票最多的聚类为该拍卖词的聚类。重复执行上述聚类的步骤,直至满足预定的循环结束条件,然后,行业确定模块35可以根据达到预定条件时的聚类结果确定虚拟用户和该虚拟用户对应的拍卖词所属的行业。其中,预定的循环结束条件可以为:循环步骤达到预设的数值,例如:100步;或者,虚拟用户所在的聚类和拍卖词所在的聚类都不再有任何变动;当然,还可以设定其他的循环结束条件,本实施例对循环结束条件的设定不作限定。
在上述聚类过程中,还可以引入基准拍卖词和基准虚拟用户,引入基准拍卖词和基准虚拟用户是人工干预措施的接口,利用已知的资源来强化分类的效果。具有行业标注的基准拍卖词和基准虚拟用户在上述聚类过程中,行业标注不会发生变化。
其中,在上述每次聚类过程中,行业确定模块35可以通过计算虚拟用户和拍卖词所属聚类的权重,确定虚拟用户和拍卖词的聚类。具体地,对于任意虚拟用户,可以计算该虚拟用户对应的每个拍卖词的初始行业的权重,确定权重最大的初始行业为该虚拟用户的聚类。对于任意拍卖词,可以计算每个拍卖词对应的所有虚拟用户所属聚类的权重,确定权重最大的聚类为该拍卖词的聚类。
上述实施例中,用户分离模块32通过将用户确定模块31确定的跨行业用户分离为多个单一行业的虚拟用户,然后行业确定模块35根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,最后,行业确定模块35根据最终的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。从而实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,将虚拟用户和拍卖词分类到对应的行业中,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
图4为本发明行业分类装置另一个实施例的结构示意图,该实施例的行业分类装置可以作为一个服务器,或者位于服务器中,实现本发明图1所示实施例的流程。如图4所示,该行业分类装置包括:用户确定模块41、用户分离模块42、拍卖词确定模块43、初始行业确定模块44和行业确定模块45。
其中,用户确定模块41可以用于确定跨行业用户;具体地,用户确定模块41可以包括:匹配子模块411和确定子模块412。其中,匹配子模块411可以将用户的每个拍卖词与预定行业包括的所有行业的种子词进行匹配;确定子模块412可以在用户的拍卖词中与所述种子词匹配的拍卖词的个数大于或等于预设的第一阈值,并且该用户的拍卖词在该预定行业包括的各行业的分布熵小于或等于预设的第二阈值时,确定该用户为预定行业的跨行业用户。
用户分离模块42可以将用户确定模块41确定的跨行业用户分离为多个单一行业的虚拟用户;具体地,在用户分离模块42将跨行业用户分离为多个单一行业的虚拟用户时,可以采用本发明图2所示实施例中提供的方法。
该用户分离模块42可以包括:切词子模块421、高频切词确定子模块422和聚类确定子模块423。其中,切词子模块421可以对跨行业用户的所有拍卖词进行切词;高频切词确定子模块422可以对切词子模块421的切词结果进行停用词过滤,并在过滤后的切词结果中按照预定的规则确定跨行业用户的高频切词;聚类确定子模块423可以对高频切词确定子模块422确定的高频切词进行聚类,并根据高频切词的聚类确定高频切词所属拍卖词的聚类,确定该拍卖词的一个聚类为一个单一行业的虚拟用户,该聚类对应的拍卖词为虚拟用户的拍卖词。
高频切词确定子模块422具体用于将高频切词与预定行业包括的所有行业的种子词进行模糊匹配,在匹配成功之后,将该高频切词标上行业标注,将具有相同行业标注的高频切词划分到同一聚类中;并根据没有行业标注的高频切词与具有行业标注的聚类中每个高频切词的相似度,将没有行业标注的高频切词聚到具有行业标注的聚类中。
拍卖词确定模块43可以根据跨行业用户的拍卖词确定用户分离模块42分离的虚拟用户对应的拍卖词。
初始行业确定模块44可以将拍卖词确定模块43确定的虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定该虚拟用户对应的拍卖词的初始行业;初始行业确定模块44在将虚拟用户对应的拍卖词与各行业的种子词进行匹配时,可以采用本发明图3所示实施例中提到的4种匹配规则,初始行业确定模块44在将虚拟用户对应的拍卖词与各行业的种子词进行匹配时,必须满足这4种规则。
行业确定模块45可以根据初始行业确定模块44确定的虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据该虚拟用户的聚类结果对该虚拟用户对应的拍卖词进行聚类,重复执行上述聚类的步骤,根据达到预定条件时的聚类结果确定虚拟用户和该虚拟用户对应的拍卖词所属的行业。
具体地,对于任意虚拟用户,该虚拟用户对应的每个拍卖词为该拍卖词所属的聚类投一票,得票最多的聚类为该虚拟用户的聚类;其中,该虚拟用户对应的每个拍卖词的初始行业为每个拍卖词的初始聚类。然后,行业确定模块45再根据虚拟用户的聚类结果对该虚拟用户对应的拍卖词进行聚类,具体地,对于任意拍卖词,该拍卖词对应的每个虚拟用户均为该虚拟用户所属的聚类投一票,得票最多的聚类为该拍卖词的聚类。重复执行上述聚类的步骤,直至满足预定的循环结束条件,然后,行业确定模块45可以根据达到预定条件时的聚类结果确定虚拟用户和该虚拟用户对应的拍卖词所属的行业。其中,预定的循环结束条件可以为:循环步骤达到预设的数值,例如:100步;或者,虚拟用户所在的聚类和拍卖词所在的聚类都不再有任何变动;当然,还可以设定其他的循环结束条件,本实施例对循环结束条件的设定不作限定。
在上述聚类过程中,还可以引入基准拍卖词和基准虚拟用户,引入基准拍卖词和基准虚拟用户是人工干预措施的接口,利用已知的资源来强化分类的效果。具有行业标注的基准拍卖词和基准虚拟用户在上述聚类过程中,行业标注不会发生变化。
其中,行业确定模块45可以包括:用户聚类确定子模块451和拍卖词聚类确定子模块452。具体地,用户聚类确定子模块451可以计算该虚拟用户对应的每个拍卖词的初始行业的权重,确定权重最大的初始行业为该虚拟用户的聚类;拍卖词聚类确定子模块452可以计算每个拍卖词对应的所有虚拟用户所属聚类的权重,确定权重最大的聚类为该拍卖词的聚类。
上述实施例中,用户分离模块42通过将用户确定模块41确定的跨行业用户分离为多个单一行业的虚拟用户,然后行业确定模块45根据虚拟用户对应的拍卖词的初始行业对虚拟用户进行聚类,根据虚拟用户的聚类结果对虚拟用户对应的拍卖词进行聚类,最后,行业确定模块45根据最终的聚类结果确定虚拟用户和虚拟用户对应的拍卖词所属的行业。从而实现了根据虚拟用户和该虚拟用户对应的拍卖词的关联关系对短文本进行分类,将虚拟用户和拍卖词分类到对应的行业中,实现了在行业体系下对用户和该用户对应的拍卖词进行准确的分类。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (12)
1、一种行业分类方法,其特征在于,包括:
确定跨行业用户,将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词;
将所述虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;
根据所述虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。
2、根据权利要求1所述的方法,其特征在于,所述确定跨行业用户包括:
将用户的每个拍卖词与预定行业包括的所有行业的种子词进行匹配;
如果所述用户的拍卖词中与所述种子词匹配的拍卖词的个数大于或等于预设的第一阈值,并且所述用户的拍卖词在所述预定行业所包括的各行业的分布熵小于或等于预设的第二阈值,则确定所述用户为所述预定行业的跨行业用户。
3、根据权利要求1或2所述的方法,其特征在于,所述将所述跨行业用户分离为多个单一行业的虚拟用户,根据所述跨行业用户的拍卖词确定所述虚拟用户对应的拍卖词包括:
对所述跨行业用户的所有拍卖词进行切词,并对切词结果进行停用词过滤,并在过滤后的切词结果中按照预定的规则确定所述跨行业用户的高频切词;
对所述高频切词进行聚类,并根据所述高频切词的聚类确定所述高频切词所属拍卖词的聚类;
确定所述拍卖词的一个聚类为一个单一行业的虚拟用户,所述聚类对应的拍卖词为所述虚拟用户的拍卖词。
4、根据权利要求3所述的方法,其特征在于,所述对所述高频切词进行聚类包括:
将所述高频切词与所述预定行业包括的所有行业的种子词进行模糊匹配,在匹配成功之后,将所述高频切词标上行业标注,将具有相同行业标注的高频切词划分到同一聚类中;
根据没有行业标注的高频切词与具有行业标注的聚类中每个高频切词的相似度,将所述没有行业标注的高频切词聚到所述具有行业标注的聚类中。
5、根据权利要求1所述的方法,其特征在于,所述根据所述虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类包括:
计算所述虚拟用户对应的每个拍卖词的初始行业的权重,确定权重最大的初始行业为所述虚拟用户的聚类。
6、根据权利要求1所述的方法,其特征在于,所述根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类包括:
计算每个拍卖词对应的所有虚拟用户所属聚类的权重,确定权重最大的聚类为所述拍卖词的聚类。
7、一种行业分类装置,其特征在于,包括:
用户确定模块,用于确定跨行业用户;
用户分离模块,用于将所述用户确定模块确定的跨行业用户分离为多个单一行业的虚拟用户;
拍卖词确定模块,用于根据所述跨行业用户的拍卖词确定所述用户分离模块分离的虚拟用户对应的拍卖词;
初始行业确定模块,用于将所述拍卖词确定模块确定的虚拟用户对应的拍卖词与各行业的种子词进行匹配,确定所述虚拟用户对应的拍卖词的初始行业;
行业确定模块,用于根据所述初始行业确定模块确定的虚拟用户对应的拍卖词的初始行业对所述虚拟用户进行聚类,根据所述虚拟用户的聚类结果对所述虚拟用户对应的拍卖词进行聚类,重复执行所述聚类的步骤,根据达到预定条件时的聚类结果确定所述虚拟用户和所述虚拟用户对应的拍卖词所属的行业。
8、根据权利要求7所述的装置,其特征在于,所述用户确定模块包括:
匹配子模块,用于将用户的每个拍卖词与预定行业包括的所有行业的种子词进行匹配;
确定子模块,用于当所述用户的拍卖词中与所述种子词匹配的拍卖词的个数大于或等于预设的第一阈值,并且所述用户的拍卖词在所述预定行业所包括的各行业的分布熵小于或等于预设的第二阈值时,确定所述用户为所述预定行业的跨行业用户。
9、根据权利要求8所述的装置,其特征在于,所述用户分离模块包括:
切词子模块,用于对所述跨行业用户的所有拍卖词进行切词;
高频切词确定子模块,用于对所述切词子模块的切词结果进行停用词过滤,并在过滤后的切词结果中按照预定的规则确定所述跨行业用户的高频切词;
聚类确定子模块,用于对所述高频切词确定子模块确定的高频切词进行聚类,并根据所述高频切词的聚类确定所述高频切词所属拍卖词的聚类,确定所述拍卖词的一个聚类为一个单一行业的虚拟用户,所述聚类对应的拍卖词为所述虚拟用户的拍卖词。
10、根据权利要求9所述的装置,其特征在于,所述高频切词确定子模块具体用于将所述高频切词与所述预定行业包括的所有行业的种子词进行模糊匹配,在匹配成功之后,将所述高频切词标上行业标注,将具有相同行业标注的高频切词划分到同一聚类中;并根据没有行业标注的高频切词与具有行业标注的聚类中每个高频切词的相似度,将所述没有行业标注的高频切词聚到所述具有行业标注的聚类中。
11、根据权利要求7所述的装置,其特征在于,所述行业确定模块包括:
用户聚类确定子模块,用于计算所述虚拟用户对应的每个拍卖词的初始行业的权重,确定权重最大的初始行业为所述虚拟用户的聚类;
拍卖词聚类确定子模块,用于计算每个拍卖词对应的所有虚拟用户所属聚类的权重,确定权重最大的聚类为所述拍卖词的聚类。
12、一种服务器,其特征在于,包括根据权利要求7-11任意一项所述的行业分类装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910235273.3A CN101673305B (zh) | 2009-09-29 | 2009-09-29 | 行业分类方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910235273.3A CN101673305B (zh) | 2009-09-29 | 2009-09-29 | 行业分类方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101673305A true CN101673305A (zh) | 2010-03-17 |
CN101673305B CN101673305B (zh) | 2015-04-08 |
Family
ID=42020528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910235273.3A Active CN101673305B (zh) | 2009-09-29 | 2009-09-29 | 行业分类方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101673305B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN103176975A (zh) * | 2011-12-20 | 2013-06-26 | 腾讯科技(深圳)有限公司 | 一种购买词聚类方法和装置 |
CN104679738A (zh) * | 2013-11-27 | 2015-06-03 | 北京拓尔思信息技术股份有限公司 | 互联网热词挖掘方法及装置 |
CN103617192B (zh) * | 2013-11-07 | 2017-06-16 | 北京奇虎科技有限公司 | 一种数据对象的聚类方法和装置 |
CN107122980A (zh) * | 2011-01-25 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 识别商品所属类目的方法和装置 |
CN112100389A (zh) * | 2020-11-18 | 2020-12-18 | 智者四海(北京)技术有限公司 | 一种长文本分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060026190A1 (en) * | 2004-07-30 | 2006-02-02 | Hewlett-Packard Development Co. | System and method for category organization |
CN101458708A (zh) * | 2008-12-05 | 2009-06-17 | 北京大学 | 检索结果聚类方法及装置 |
CN101477563A (zh) * | 2009-01-21 | 2009-07-08 | 北京百问百答网络技术有限公司 | 一种短文本聚类的方法、系统及其数据处理装置 |
CN101504667A (zh) * | 2009-03-20 | 2009-08-12 | 北京学之途网络科技有限公司 | 关键词的确定方法及系统、权值向量的学习方法及系统 |
-
2009
- 2009-09-29 CN CN200910235273.3A patent/CN101673305B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060026190A1 (en) * | 2004-07-30 | 2006-02-02 | Hewlett-Packard Development Co. | System and method for category organization |
CN101458708A (zh) * | 2008-12-05 | 2009-06-17 | 北京大学 | 检索结果聚类方法及装置 |
CN101477563A (zh) * | 2009-01-21 | 2009-07-08 | 北京百问百答网络技术有限公司 | 一种短文本聚类的方法、系统及其数据处理装置 |
CN101504667A (zh) * | 2009-03-20 | 2009-08-12 | 北京学之途网络科技有限公司 | 关键词的确定方法及系统、权值向量的学习方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122980A (zh) * | 2011-01-25 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 识别商品所属类目的方法和装置 |
CN102426572A (zh) * | 2011-07-05 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种对业务词条进行分类的方法和设备 |
CN103176975A (zh) * | 2011-12-20 | 2013-06-26 | 腾讯科技(深圳)有限公司 | 一种购买词聚类方法和装置 |
CN103176975B (zh) * | 2011-12-20 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 一种购买词聚类方法和装置 |
CN103617192B (zh) * | 2013-11-07 | 2017-06-16 | 北京奇虎科技有限公司 | 一种数据对象的聚类方法和装置 |
CN104679738A (zh) * | 2013-11-27 | 2015-06-03 | 北京拓尔思信息技术股份有限公司 | 互联网热词挖掘方法及装置 |
CN104679738B (zh) * | 2013-11-27 | 2018-02-27 | 北京拓尔思信息技术股份有限公司 | 互联网热词挖掘方法及装置 |
CN112100389A (zh) * | 2020-11-18 | 2020-12-18 | 智者四海(北京)技术有限公司 | 一种长文本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101673305B (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rendón et al. | A comparison of internal and external cluster validation indexes | |
Saini et al. | Automatic scientific document clustering using self-organized multi-objective differential evolution | |
CN104951548A (zh) | 一种负面舆情指数的计算方法及系统 | |
CN108984518A (zh) | 一种面向裁判文书的文本分类方法 | |
CN109783818A (zh) | 一种企业行业多标签分类方法 | |
CN110795564B (zh) | 一种缺少负例的文本分类方法 | |
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
Nezhadi et al. | Ontology alignment using machine learning techniques | |
CN101673305B (zh) | 行业分类方法、装置和服务器 | |
Brucker et al. | Multi-label classification and extracting predicted class hierarchies | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
Asadi et al. | Developing a course recommender by combining clustering and fuzzy association rules | |
CN109858518A (zh) | 一种基于MapReduce的大型数据集聚类方法 | |
CN104142960A (zh) | 互联网数据分析系统 | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
CN117272204A (zh) | 异常数据检测方法、装置、存储介质和电子设备 | |
Rezaei et al. | Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation | |
CN105117466A (zh) | 一种互联网信息筛选系统及方法 | |
CN101923650A (zh) | 基于对比模式的随机森林分类方法和分类器 | |
Al Mahmud et al. | A New Technique to Classification of Bengali News Grounded on ML and DL Models | |
Ha et al. | FC-MST: Feature correlation maximum spanning tree for multimedia concept classification | |
CN110580286A (zh) | 一种基于类间信息熵的文本特征选择方法 | |
CN115510269A (zh) | 视频推荐的方法、装置、设备和存储介质 | |
Mustapa et al. | Implementation of Feature Selection and Data Split using Brute Force to Improve Accuracy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |