CN102929937A - 基于文本主题模型的商品分类的数据处理方法 - Google Patents

基于文本主题模型的商品分类的数据处理方法 Download PDF

Info

Publication number
CN102929937A
CN102929937A CN2012103663746A CN201210366374A CN102929937A CN 102929937 A CN102929937 A CN 102929937A CN 2012103663746 A CN2012103663746 A CN 2012103663746A CN 201210366374 A CN201210366374 A CN 201210366374A CN 102929937 A CN102929937 A CN 102929937A
Authority
CN
China
Prior art keywords
commodity
word
theme
classification
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103663746A
Other languages
English (en)
Other versions
CN102929937B (zh
Inventor
刘德建
陈宏展
欧宁
吴拥民
陈澄宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu com Times Technology Beijing Co Ltd
Original Assignee
FUZHOU BOYUAN WIRELESS NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUZHOU BOYUAN WIRELESS NETWORK TECHNOLOGY Co Ltd filed Critical FUZHOU BOYUAN WIRELESS NETWORK TECHNOLOGY Co Ltd
Priority to CN201210366374.6A priority Critical patent/CN102929937B/zh
Publication of CN102929937A publication Critical patent/CN102929937A/zh
Application granted granted Critical
Publication of CN102929937B publication Critical patent/CN102929937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于文本主题模型的商品分类的数据处理方法,对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;进一步扩充分词系统的停用词词库;对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。本发明考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。

Description

基于文本主题模型的商品分类的数据处理方法
【技术领域】
本发明涉及一种电子商务的数据处理技术,涉及一种基于文本主题模型的商品分类的数据处理方法。
【背景技术】
在互联网的电子商务市场上,现有的商品分类系统都是通过网站编辑进行手工分类。存在3个问题:1)大量的商品可能会导致过多人力的消耗;2)一个商品可能具有多个类别属性,可以分到多个类别,而人工分类会因编辑个人对事物属性理解的不到位或其对事物的某些偏见导致最终分类效果并不理想;3)对某个商品进行分类时,编辑无法准确地给出一个该分类的可信度。
2011-9-21公开的,公开号为102193936A的中国发明专利揭示了一种数据分类方法及装置,该方法为:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。但该专利仍存在如下不足:
1、其仅针对商品标题文本进行分析,而未针对商品相关的所有文本,包括商品简述,购买用户评论等;
2、其使用文本分词方法是为了得出关键词(分词结果)并通过出现频率确定其权重,这种分类的结果不会很精确;
3、并未考虑文本的潜在语义问题,因此仅能从商品类型层面对其进行分类合并;
4、需要对分词结果人工编辑各商品的主属性,该方法依赖编辑人员的个人经验,由于编辑人员信息不足,可能导致结果偏离客观事实。
【发明内容】
本发明要解决的技术问题,在于提供一种基于文本主题模型的商品分类的数据处理方法,考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。
本发明是这样实现的:一种基于文本主题模型的商品分类的数据处理方法,包括:步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库;步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;步骤30、根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
进一步的,所述步骤20之前,还可包括步骤10’、先人工将商品简单地分进具有明显差异的大类;且所述步骤10’与步骤10无先后顺序之分。
进一步的,所述步骤30中是根据TF-IDF算法过滤出对商品描述贡献较大的关键词,并统计得到频率较高的非常用词汇,以此构建一优先词库,其中,所述TF-IDF算法是先采用通用词典进行分词,然后统计每件商品文本描述中每个词的出现次数以及每个词在所有商品中出现的次数,然后通过TF-IDF公式
Figure BDA00002202717000021
计算出每件商品中每个词的权重,根据阈值保留高权重的词放入优先词库,式中,tfij表示文档i中词汇j出现的频率,nij表示j在文档i中出现的次数,分母则是文档j中所有字词出现的次数之和;再用逆向文档频率idfj计算一个词普遍重要性的度量,计算式为:
idf i = log | D | | { d : d ∋ t i } | ,
其中,|D|是文档总数,分母是包含词ti的文档数目;
tfidij权值wij计算公式为:
wij=tfi,j*idfj*
该权值即为词j在文档i中的TF-IDF值,该值表明了词j能够在多大程度上反映文档i的内容。
进一步的,本发明还包括步骤40、对商品的描述进行分析,分析时假设所有商品的描述是一个LDA主题模型,LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA模型对每一个商品描述的文档,从主题分布中抽取一个主题赋予给一个商品,并从上述被抽到的主题所对应的词的分布中抽取一个词,重复上述过程直至遍历商品文档中的每一个词,由此得出的计算结果是,可以对每件商品赋予相关度最高的A个主题,A为可变阈值,同时可得出每个主题中各关键字对主题的贡献度,抽取对商品主题贡献度最高的10个关键词作为商品的主要属性,并以此计算各商品之间的相似度。
本发明具有如下优点:本发明采用的LDA(Latent Dirichlet Allocation)模型,LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。由于本发明考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。
【附图说明】
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法一较佳实施例的执行流程图。
【具体实施方式】
本发明的基于文本主题模型的商品分类的数据处理方法,包括:
步骤10’、先人工将商品简单地分进具有明显差异的大类;
步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库;
其中,所述步骤10’与步骤10无先后顺序之分。
步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;
步骤30、根据对分词结果进行统计后,根据TF-IDF算法过滤出对商品描述贡献较大的关键词,并统计得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
其中,TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency-inversedocument frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF其主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse DocumentFrequency)是指,如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。使用TF-IDF可以计算某个关键字在某篇文章里面的重要性,可以用此关键词来表达文档所包含的含义。词频Term Frequency(tfij)表示文档i中词汇j出现的频率,计算公式如下:
tf i , j = n i , j ∑ k n k , j
其中nij表示j在文档i中出现的次数,分母则是文档j中所有字词出现的次数之和。
再用逆向文档频率Inverse Document Frequency(idfj)计算一个词普遍重要性的度量,由下面的式子计算:
idf i = log | D | | { d : d ∋ t i } | ,
其中,|D|是文档总数,分母是包含词ti的文档数目。
tfidfij权值wij计算公式为:
wij=tfi,j*idfj*
该权值即为词j在文档i中的TF-IDF值,该值表明了词j能够在多大程度上反映文档i的内容。
Gibbs抽样是计算LDA主题模型参数的一种数学实现方法。在本发明中我们采用的是改进的快速Gibbs抽样方法。在实现LDA主题模型的时候,其中和潜在语义关连的两个重要参数在数学上很难直接求解,Gibbs抽样是通过蒙特卡罗方法(即类积分方法,通过大量的循环随机抽样,利用上一次计算结果作为先验概率,之后再计算后验概率,根据贝叶斯和统计学相关理论,在循环次数足够多的时候其计算结果将逼近真实值)。快速Gibbs抽样则进一步利用了真实文本数据往往会在循环计算一定次数后逐渐聚合到前几十个主题这个特性,进一步降低了Gibbs采样的计算时间。因此,可以认为在本专利中Gibbs抽样是实现LDA主题模型的必须算法。虽然也有其他算法可以实现LDA主题模型,但是目前在理论上快速Gibbs抽样是最好的一种实现方式。
分词系统主要是将连续的中文文本切分为几个能够表述语义的词语,例如,文本描述:“来自美国高校的智商测验。据说哈佛的精英也做不出来几道,快来尝试一下这个超搞的测验吧!”通过文本过滤和分词系统将给出如下词语:“智商 测验 美国 高校 智商 测验 哈佛 精英 尝试 搞 测验”。将连续中文文本进行分词几乎是进行所有自然语言处理方法处理中文文本必须的步骤。在经过分词之后,才能使用LDA模型对文本进行分类(聚类)。分词的实现同样也牵涉到语言模型的学习问题,但因为和本专利的主要内容关系不大,并且分词系统是一个目前理论较为成熟的系统,差别只在于以何种数学模型学习不同领域的语料,所以在此仅作为一个步骤陈述。
步骤40、对商品的描述进行分析,分析时假设所有商品的描述是一个LDA主题模型,LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA模型对每一个商品描述的文档,从主题分布中抽取一个主题赋予给一个商品,并从上述被抽到的主题所对应的词的分布中抽取一个词,重复上述过程直至遍历商品文档中的每一个词,由此得出的计算结果是,可以对每件商品赋予相关度最高的A个主题,A为可变阈值,同时可得出每个主题中各关键字对主题的贡献度,抽取对商品主题贡献度最高的10个关键词作为商品的主要属性,并以此计算各商品之间的相似度。
就此完成二级分类,当然,本发明另一个实施例中,没有步骤10’,那么,步骤10到40可以是完成一级分类。
现举例说明本发明的分类过程:例子:
商品1摘要:360是一款安全软件,利润可观。
商品2摘要:诺顿是一款安全软件,也能够杀毒。
商品3摘要:symantec的诺顿软件,是一款安全软件。
商品4摘要:华尔街时报是一本金融杂志,提供经济相关内容,帮助企业获取利润。
商品5摘要:《货币战争》世界经济危机往往潜伏在巨额的利润之下。
商品6摘要:《每天懂点经济学》在金融上,国企的利润高,央企的利润也高,但税收更高。
经过分词和文本过滤后,结果为:
商品1:360安全 软件 利润
商品2:诺顿 安全 软件 杀毒
商品3:symantec诺顿 软件 安全 软件
商品4:华尔街时报 金融 杂志 经济 帮助 企业 利润
商品5:货币战争 世界 经济 危机 潜伏 利润
商品6:每天懂点经济学 金融 国企 利润 央企 利润 税收
经过快速Gibbs采样并整理后得出的结果(主题数设置为2):
主题1具有2个核心词汇分别为--→软件:0.306813安全:0.230301
主题2具有2个核心词汇分别为--→利润:0.224874经济:0.109885
属于主题1的商品有3个--→
商品1->隶属于本主题的概率为0,970061
商品2->隶属于本主题的概率为0,999749
商品3->隶属于本主题的概率为0,999801
属于主题2的商品有3个--→
商品4->隶属于本主题的概率为0,999833
商品5->隶属于本主题的概率为0,998183
商品6->隶属于本主题的概率为0,999833
这里可以明显看出前三件商品对主题1的隶属度很高(超过0.8的阈值),而后三件商品对主题2的隶属度很高,因此运算结果将商品分为2类。由于参考样例商品数量较少,这里把Gibbs抽样的循环抽样设置为2000次。
本发明具有如下优点:本发明采用的LDA(Latent Dirichlet Allocation)模型,LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。由于本发明考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (4)

1.一种基于文本主题模型的商品分类的数据处理方法,其特征在于:包括:
步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库;
步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;
步骤30、根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
2.根据权利要求1所述的基于文本主题模型的商品分类的数据处理方法,其特征在于:所述步骤20之前,还包括
步骤10’、先人工将商品简单地分进具有明显差异的大类;
且所述步骤10’与步骤10无先后顺序之分。
3.根据权利要求1所述的基于文本主题模型的商品分类的数据处理方法,其特征在于:
所述步骤30中是根据TF-IDF算法过滤出对商品描述贡献较大的关键词,并统计得到频率较高的非常用词汇,以此构建一优先词库,其中,所述TF-IDF算法是先采用通用词典进行分词,然后统计每件商品文本描述中每个词的出现次数以及每个词在所有商品中出现的次数,然后通过TF-IDF公式
Figure FDA00002202716900011
计算出每件商品中每个词的权重,根据阈值保留高权重的词放入优先词库,式中,tfij表示文档i中词汇j出现的频率,nij表示j在文档i中出现的次数,分母则是文档j中所有字词出现的次数之和;
再用逆向文档频率idfi计算一个词普遍重要性的度量,计算式为:
idf i = log | D | | { d : d ∋ t i | ,
其中,|D|是文档总数,分母是包含词ti的文档数目;
tfidfij权值wij计算公式为:
wij=tfi,j*idfj
该权值即为词j在文档i中的TF-IDF值,该值表明了词j能够在多大程度上反映文档i的内容。
4.根据权利要求1所述的基于文本主题模型的商品分类的数据处理方法,其特征在于:还包括
步骤40、对商品的描述进行分析,分析时假设所有商品的描述是一个LDA主题模型,LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档三层结构,文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA模型对每一个商品描述的文档,从主题分布中抽取一个主题赋予给一个商品,并从上述被抽到的主题所对应的词的分布中抽取一个词,重复上述过程直至遍历商品文档中的每一个词,由此得出的计算结果是,可以对每件商品赋予相关度最高的A个主题,A为可变阈值,同时可得出每个主题中各关键字对主题的贡献度,抽取对商品主题贡献度最高的10个关键词作为商品的主要属性,并以此计算各商品之间的相似度。
CN201210366374.6A 2012-09-28 2012-09-28 基于文本主题模型的商品分类的数据处理方法 Active CN102929937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210366374.6A CN102929937B (zh) 2012-09-28 2012-09-28 基于文本主题模型的商品分类的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210366374.6A CN102929937B (zh) 2012-09-28 2012-09-28 基于文本主题模型的商品分类的数据处理方法

Publications (2)

Publication Number Publication Date
CN102929937A true CN102929937A (zh) 2013-02-13
CN102929937B CN102929937B (zh) 2015-09-16

Family

ID=47644735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210366374.6A Active CN102929937B (zh) 2012-09-28 2012-09-28 基于文本主题模型的商品分类的数据处理方法

Country Status (1)

Country Link
CN (1) CN102929937B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559510A (zh) * 2013-11-12 2014-02-05 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN104966109A (zh) * 2015-07-17 2015-10-07 北京旷视科技有限公司 医疗化验单图像分类方法及装置
CN105793846A (zh) * 2016-01-21 2016-07-20 马岩 一种基于app的会员信息分类方法及系统
CN105786781A (zh) * 2016-03-14 2016-07-20 裴克铭管理咨询(上海)有限公司 一种基于主题模型的职位描述文本相似度计算方法
CN105931082A (zh) * 2016-05-17 2016-09-07 北京奇虎科技有限公司 一种商品类目关键词提取方法和装置
CN106156142A (zh) * 2015-04-13 2016-11-23 深圳市腾讯计算机系统有限公司 一种文本聚类的处理方法、服务器及系统
CN106202349A (zh) * 2016-06-29 2016-12-07 杭州华三通信技术有限公司 网页分类字典生成方法及装置
CN106681984A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种针对文档的签名信息提取方法
CN107066442A (zh) * 2017-02-15 2017-08-18 阿里巴巴集团控股有限公司 情绪值的检测方法、装置及电子设备
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN107451168A (zh) * 2016-05-30 2017-12-08 中华电信股份有限公司 基于词汇统计的档案分类系统及方法
CN107766394A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 业务数据处理方法及其系统
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN108304533A (zh) * 2018-01-29 2018-07-20 上海名轩软件科技有限公司 关键词推荐方法及设备
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109522407A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN109726286A (zh) * 2018-12-24 2019-05-07 杭州东信北邮信息技术有限公司 一种基于lda主题模型的图书自动分类方法
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
CN110223092A (zh) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN110223095A (zh) * 2018-03-02 2019-09-10 阿里巴巴集团控股有限公司 确定商品属性的方法、装置、设备和存储介质
CN111310024A (zh) * 2020-01-16 2020-06-19 深圳市广道高新技术股份有限公司 面向群体用户的信息推荐方法及计算机可读存储介质
CN111753526A (zh) * 2020-06-18 2020-10-09 北京无忧创想信息技术有限公司 一种相似竞品数据分析方法及系统
CN112287108A (zh) * 2020-10-29 2021-01-29 四川长虹电器股份有限公司 一种物联领域的意图识别优化方法
CN112395878A (zh) * 2020-12-14 2021-02-23 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
TWI725568B (zh) * 2019-10-08 2021-04-21 台達電子工業股份有限公司 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體
CN113128211A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种物品分类方法及装置
TWI790990B (zh) * 2016-01-27 2023-02-01 香港商阿里巴巴集團服務有限公司 業務處理方法、資料處理方法及裝置
CN117573811A (zh) * 2024-01-16 2024-02-20 卓世科技(海南)有限公司 基于深度迁移学习的大语言模型数据挖掘方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙玉婷: "《基于概率主题模型的中文话题检测与追踪研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》, 31 July 2012 (2012-07-31), pages 138 - 2640 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559510A (zh) * 2013-11-12 2014-02-05 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
CN103559510B (zh) * 2013-11-12 2017-01-18 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
CN103605815A (zh) * 2013-12-11 2014-02-26 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103605815B (zh) * 2013-12-11 2016-08-31 焦点科技股份有限公司 一种适用于b2b电子商务平台的商品信息自动分类推荐方法
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN104199857B (zh) * 2014-08-14 2017-06-27 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106156142A (zh) * 2015-04-13 2016-11-23 深圳市腾讯计算机系统有限公司 一种文本聚类的处理方法、服务器及系统
CN106156142B (zh) * 2015-04-13 2020-06-02 深圳市腾讯计算机系统有限公司 一种文本聚类的处理方法、服务器及系统
CN104966109B (zh) * 2015-07-17 2018-08-14 北京旷视科技有限公司 医疗化验单图像分类方法及装置
CN104966109A (zh) * 2015-07-17 2015-10-07 北京旷视科技有限公司 医疗化验单图像分类方法及装置
WO2017124367A1 (zh) * 2016-01-21 2017-07-27 马岩 一种基于app的会员信息分类方法及系统
CN105793846A (zh) * 2016-01-21 2016-07-20 马岩 一种基于app的会员信息分类方法及系统
TWI790990B (zh) * 2016-01-27 2023-02-01 香港商阿里巴巴集團服務有限公司 業務處理方法、資料處理方法及裝置
CN105786781A (zh) * 2016-03-14 2016-07-20 裴克铭管理咨询(上海)有限公司 一种基于主题模型的职位描述文本相似度计算方法
CN105931082A (zh) * 2016-05-17 2016-09-07 北京奇虎科技有限公司 一种商品类目关键词提取方法和装置
CN105931082B (zh) * 2016-05-17 2020-02-11 北京奇虎科技有限公司 一种商品类目关键词提取方法和装置
CN107451168A (zh) * 2016-05-30 2017-12-08 中华电信股份有限公司 基于词汇统计的档案分类系统及方法
CN106202349A (zh) * 2016-06-29 2016-12-07 杭州华三通信技术有限公司 网页分类字典生成方法及装置
CN106202349B (zh) * 2016-06-29 2020-08-21 新华三技术有限公司 网页分类字典生成方法及装置
CN107766394A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 业务数据处理方法及其系统
CN107992501B (zh) * 2016-10-27 2021-12-14 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN106681984A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种针对文档的签名信息提取方法
CN107066442A (zh) * 2017-02-15 2017-08-18 阿里巴巴集团控股有限公司 情绪值的检测方法、装置及电子设备
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN108304533A (zh) * 2018-01-29 2018-07-20 上海名轩软件科技有限公司 关键词推荐方法及设备
CN110223092A (zh) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 选品方法、装置和计算机可读存储介质
CN110223095A (zh) * 2018-03-02 2019-09-10 阿里巴巴集团控股有限公司 确定商品属性的方法、装置、设备和存储介质
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN108920456B (zh) * 2018-06-13 2022-08-30 北京信息科技大学 一种关键词自动抽取方法
CN109522407A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN109726286A (zh) * 2018-12-24 2019-05-07 杭州东信北邮信息技术有限公司 一种基于lda主题模型的图书自动分类方法
CN109726286B (zh) * 2018-12-24 2020-10-16 杭州东信北邮信息技术有限公司 一种基于lda主题模型的图书自动分类方法
CN110188352B (zh) * 2019-05-28 2023-05-26 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
TWI725568B (zh) * 2019-10-08 2021-04-21 台達電子工業股份有限公司 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體
CN113128211A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种物品分类方法及装置
CN111310024A (zh) * 2020-01-16 2020-06-19 深圳市广道高新技术股份有限公司 面向群体用户的信息推荐方法及计算机可读存储介质
CN111753526A (zh) * 2020-06-18 2020-10-09 北京无忧创想信息技术有限公司 一种相似竞品数据分析方法及系统
CN112287108A (zh) * 2020-10-29 2021-01-29 四川长虹电器股份有限公司 一种物联领域的意图识别优化方法
CN112287108B (zh) * 2020-10-29 2022-08-16 四川长虹电器股份有限公司 一种物联领域的意图识别优化方法
CN112395878A (zh) * 2020-12-14 2021-02-23 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
CN112395878B (zh) * 2020-12-14 2024-01-02 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
CN117573811A (zh) * 2024-01-16 2024-02-20 卓世科技(海南)有限公司 基于深度迁移学习的大语言模型数据挖掘方法
CN117573811B (zh) * 2024-01-16 2024-03-19 卓世科技(海南)有限公司 基于深度迁移学习的大语言模型数据挖掘方法

Also Published As

Publication number Publication date
CN102929937B (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
Shivaprasad et al. Sentiment analysis of product reviews: A review
Gautam et al. Sentiment analysis of twitter data using machine learning approaches and semantic analysis
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN109101477A (zh) 一种企业领域分类及企业关键词筛选方法
Ghag et al. SentiTFIDF–Sentiment classification using relative term frequency inverse document frequency
Qi et al. Sentiment analysis using Twitter data: a comparative application of lexicon-and machine-learning-based approach
El-Shishtawy et al. Arabic keyphrase extraction using linguistic knowledge and machine learning techniques
Hidayat et al. Automatic text summarization using latent Drichlet allocation (LDA) for document clustering
Hu et al. A user profile modeling method based on word2vec
Bhatia et al. Opinion target extraction with sentiment analysis
Irsan et al. Hierarchical multi-label news article classification with distributed semantic model based features
Tian et al. Product feature taxonomy learning based on user reviews
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
Jong Predicting rating with sentiment analysis
Dabholkar et al. Automatic document summarization using sentiment analysis
Kumar et al. Aspect-Based Sentiment Analysis of Tweets Using Independent Component Analysis (ICA) and Probabilistic Latent Semantic Analysis (pLSA)
Pavan et al. Author profiling using LDA and Maximum Entropy
Wang et al. A semantic path based approach to match subgraphs from large financial knowledge graph
Pandi et al. Reputation based online product recommendations
Qu et al. Computer-aided off-topic composition detection
Gella et al. Unsupervised word usage similarity in social media texts
Gupta SENTIMENT ANALYSIS ON MOVIE REVIEWS
Kaviya et al. Micro-blogging sentimental analysis on Twitter data using Naïve Bayes machine learning algorithm in Python
Fanjin et al. The research of Chinese word segmentation disambiguation dased on context information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160106

Address after: 100000, No. two, building 17, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, A2

Patentee after: BAIDU.COM TIMES TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: 350000, 403A building, four floor, Torch Innovation Building, 8 star road, Fuzhou Development Zone, Fuzhou, Fujian, China

Patentee before: Fuzhou Boyuan Wireless Network Technology Co., Ltd.