CN105608166A - 一种标签提取方法及装置 - Google Patents

一种标签提取方法及装置 Download PDF

Info

Publication number
CN105608166A
CN105608166A CN201510963621.4A CN201510963621A CN105608166A CN 105608166 A CN105608166 A CN 105608166A CN 201510963621 A CN201510963621 A CN 201510963621A CN 105608166 A CN105608166 A CN 105608166A
Authority
CN
China
Prior art keywords
label
candidate
designated key
theme
evaluation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510963621.4A
Other languages
English (en)
Inventor
吴成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201510963621.4A priority Critical patent/CN105608166A/zh
Publication of CN105608166A publication Critical patent/CN105608166A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明使用于信息处理技术领域,提供了一种标签提取方法及装置,所述标签提取方法包括:获取商品的多个评价信息;按照预设的标签语法规则提取每一个评价信息中的候选标签;通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。本发明解决了现有的标签提取算法对短文本稀疏性问题解决不够好的问题,提高了计算商品评价的相似度的准确性和对商品评价挖掘的程度。

Description

一种标签提取方法及装置
技术领域
本发明属于信息处理技术领域,尤其涉及一种标签提取方法及装置。
背景技术
网上商城提供了从细小的生活用品到大且贵重的家电商品,极大地节省了消费者的购物时间。在网购时,消费者主要通过商品评价来获取商品的整体质量及其使用信息。当产品评价越来越多时,消费者花费在浏览商品评价上的时间和精力也将增大,因此,必须对商品评价进行挖掘。
然而,消费者对商品的评价一般都是短而简洁的,对这些评价进行标签化属于短文本挖掘范畴。现有的标签提取算法,比如基于TF*IDF、信息增益、卡方选择等算法,均存在以下不足:
1.过于依赖评价信息文本的词频,对短文本的稀疏性问题解决不好;
2.较多地依赖关键词,对评鉴潜在的挖掘程度不够;
3.过多地依赖向量空间模型,对短文本的相似度计算不够准确。
发明内容
鉴于此,本发明实施例提供了一种标签提取方法及装置,解决了现有的标签提取算法对短文本稀疏性问题解决不够好的问题,提高了计算商品评价的相似度的准确性和对商品评价挖掘的程度。
第一方面,提供了一种标签提取方法,所述标签提取方法包括:
获取商品的多个评价信息;
按照预设的标签语法规则提取每一个评价信息中的候选标签;
通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;
根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签;
其中,所述权重值是根据所述候选标签集的所述候选标签数量以及每一个所述候选标签隶属于每个所述指定主题的概率计算得出的。
第二方面,提供了一种标签提取装置,所述标签提取装置包括:
获取模块,用于获取商品的多个评价信息;
提取模块,用于按照预设的标签语法规则提取每一个评价信息中的候选标签;
主题分析模块,用于通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;
代表标签确定模块,用于根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。
与现有技术相比,本发明实施例通过获取商品的多个评价信息,按照预设的标签语法规则提取每一个评价信息中的候选标签;通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;然后根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。从而解决了现有的标签提取算法对短文本稀疏性问题解决不够好的问题,避免了对文本词频的依赖和对向量空间模型的依赖,有效地提高了计算商品评价的相似度的准确性和对商品评价挖掘的程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的标签提取方法的实现流程图;
图2是本发明实施例提供的标签提取方法中步骤S102的实现流程图;
图3是本发明实施例提供的标签提取方法中步骤S203的实现流程图;
图4是本发明另一实施例提供的标签提取方法中步骤S102的实现流程图;
图5是本发明实施例提供的标签提取方法中步骤S104的实现流程图;
图6是本发明实施例提供的标签提取装置的组成结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过获取商品的多个评价信息,按照预设的标签语法规则提取每一个评价信息中的候选标签;通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;然后根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签,其中,所述权重值是根据所述候选标签集的所述候选标签数量以及每一个所述候选标签隶属于每个所述指定主题的概率计算得出的。从而解决了现有的标签提取算法对短文本稀疏性问题解决不够好的问题,避免了对文本词频的依赖和对向量空间模型的依赖,有效地提高了计算商品评价的相似度的准确性和对商品评价挖掘的程度。本发明实施例还提供了相应的装置,以下分别进行详细的说明。
图1示出了本发明实施例提供的标签提取方法的实现流程。
参阅图1,所述标签提取方法包括:
在步骤S101中,获取商品的多个评价信息。
在这里,所述商品为在电子商务网站上销售且累计了大量商品评价的商品。可选地,可以采用对京东商城、国美电器、苏宁易购、天猫商城等大型购物网站上的商品评论集中进行爬取,得到指定商品的多个评价信息。对得到的多个评价信息进行清洗,以剔除无效的评价信息,比如纯符号、纯数字等的评价信息,将清洗后的评价信息按字段存入数据库,得到评价语料库。
在步骤S102中,按照预设的标签语法规则提取每一个评价信息中的候选标签。
由于每一个评价信息中可能包括对产品的多个方面的评价,比如产品的具体功能、部件和性能的评价。本发明实施例根据对大量评价语料库的总结分析,得到预设的标签语法规则,通过所述预设的标签语法规则来提取每一个评价信息中的候选标签。
作为本发明的一个优选示例,图2示出了本发明实施例提供的标签提取方法中步骤S102的具体实现流程。
参阅图2,所述步骤S102包括:
步骤S201,对所述评价信息中的每一个评价信息进行预处理,所述预处理包括分词处理以及词性标注。
在得到评价语料库后,进一步对语料库中的评价信息进行分词处理以及词性标注,比如标注评价信息中的每一个词语是名词、形容词还是助动词等。
可选地,分词处理可采用IKAnalyzer中文分词系统、庖丁中文分词系统或者ICTCLAS分词系统,优选采用ICTCLAS分词系统进行分词处理。
步骤S202,根据预设的标签语法规则对预处理后的评价信息进行分析,获取每一个评价信息中的候选标签。
示例性地,所述预设的标签语法规则包括但不限于以下两种:
句式1:(属性)+(否定词)+(程度副词)+情感词
句式2:(属性)+(程度副词)+(否定词)+情感词
根据上述标签语法规则分析预处理后的评价信息,提取每一个评价信息中的候选标签,得到所述评价信息对应的候选标签集合,即
L={Lj|Lj={lj1,……,ljk}}
在这里,Lj表示第j个评价信息中所提起的候选标签的集合,ljk表示第j个评价信息中提取的第k个候选标签。
为了便于理解,下述表1示出了候选标签的提取示例。
表1
步骤S203,根据词语的语义相似度对所述候选标签进行语义去重处理。
在得到候选标签后,通过预设的语义词典计算候选标签所包括的词语的语义相似度,进行语义去重处理。图3示出了本发明实施例提供的标签提取方法中步骤S203的具体实现流程。参阅图3,步骤S203具体包括:
步骤S301,按照预设的语义词典计算所述候选标签中的属性词语的相似度和特征词语的相似度。
步骤S302,对所述候选标签中属性词语的相似度和特征词语的相似度均大于预设阈值的候选标签进行去重处理。
在这里,所述语义词典包括但不限于知网HowNet、同义词词林、中文概念词典CCD等。
作为本发明的一个优选示例,优选采用同义词词林。由于《同义词词林》是按照树状的层次结构把所有收录的词条组织在一起,把词语分成大、中、小三类,具备5层结构。随着级别的递增,词义刻画越来越细,同一层的词语要么词义相同,要么词义有很强的相关性。
示例性地,假如给定两个词语word1和word2,其语义的相似度sim的计算公式为:
s i m ( w o r d 1 , w o r d 2 ) = 1 + f ( l ) 5 ( 1 - n 2 2 N 2 ) ( 1 - k 2 2 n 2 )
其中,sim(word1,word2)表示word1和word2的语义的相似度;n表示分支层的节点总数,k表示两个分支间的距离;N表示最大分支层节点总数;l表示两个词所在的分支层,f(l)为递增函数,且0<f(l)<4。因此,可以得到:
0<sim(word1,word2)<1
当两个词的语义的相似度sim值越大,其语义相关性越大。可通过设置阈值来判断是否对词语进行去重处理。当sim值大于预设阈值时,则认为该标签的语义相似,予以去重处理,而当sim值小于该预设阈值时,则保留该标签。
在本发明实施例中,一个候选标签主要由属性等名词和特征等形容词组成,因此,两个候选标签之间的语义的相似度包括属性词语的相似度和特征词语的相似度。当且仅当候选标签的属性词语的相似度和特征词语的相似度均大于预设阈值时,才对该候选标签进行去重处理,从而提高了相似度计算的准确性,进行适当的去重处理。
作为本发明的另一个优选示例,图4示出了本发明实施例提供的标签提取方法中步骤S102的具体实现流程。
参阅图4,所述步骤S102包括步骤S401、S402,其中,步骤S401与图2实施例中的步骤S201相同,步骤S402与图2实施例中的步骤S202相同,具体请参见上述图2实施例的叙述,此处不再赘述。
进一步地,所述图4还包括步骤S403:
步骤S403,获取每一个候选标签对应的情感倾向信息,并将所述情感倾向信息添加至所述候选标签中。
步骤S404,根据词语的语义相似度对所述候选标签进行语义去重处理。
在这里,可以根据预设的标签语法规则,进一步判断每一个候选标签的情感倾向信息S。所述情感倾向信息S包括但不限于正面P、负面N、中立Ne。将所述情感倾向信息作为特征词语添加至所述候选标签中,并更新所述候选标签为包含所述情感倾向信息S的候选标签。
更新后的候选标签为:
L ~ = { ( L j , S j ) | ( L j , S j ) = { ( l j 1 , s j 1 ) , ... ... , ( l j k , s j k ) } }
其中,sjk为候选标签ljk的情感倾向信息。
通过增加情感倾向信息,以情感倾向信息作为候选标签的特征词语,来计算该候选标签的语义的相似度,能够进一步提高了计算的准确性,以及提高步骤S103中进行主题分析的准确性。
在步骤S103中,通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率。
在这里,LDA为LatentDirichletAllocation的缩写,翻译成中文为潜在狄利克雷分配模型。所述潜在狄利克雷分配模型LDA以候选标签作为文档,并且是长度较短的文档。然而短文档的LDA应用会产生稀疏性的问题,鉴于此,在本发明实施例中,所述潜在狄利克雷分配模型LDA通过计算候选标签中单个字的主题概率分布,即以候选标签中的每一个字作为词语,来将该候选标签映射到不同的指定主题,获取该候选标签隶属于每一个指定主题的概率,从而得到该候选标签的主体概率分布;从而无需依赖文本的词频,有效地解决了短文本的稀疏性问题。
在这里,所述指定主题由用户按需从潜在狄利克雷分配模型LDA中选取。假设所选取的指定主题的个数为NT,候选标签ljk隶属于指定主题ti的概率则为P(ti|ljk),且候选标签ljk隶属于所有指定主题ti的概率的和为1,即:
&Sigma; i = 1 N T P ( t i | l j k ) = 1.
在步骤S104中,根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。
在这里,所述候选标签对应的主题概率分布包括了该候选标签隶属于每一个指定主题的概率。本发明实施例首先筛选出每一个候选标签的隶属主题,然后再对候选标签及其对应的隶属主题进行统计,得到每一个指定主题对应的候选标签集。
图5给出了本发明实施例提供的标签提取方法中步骤S104的具体实现流程。参阅图5,所述步骤S104具体包括:
在步骤S501中,针对每一个候选标签,获取该候选标签对应的主题概率分布中的概率最大值,以该概率最大值对应的指定主题作为所述候选标签的隶属主题,并统计每一个指定主题所包括的候选标签,得到对应的候选标签集。
在步骤S502中,针对每一个指定主题对应的候选标签集,按照预设的权重计算公式计算所述候选标签集中每一个候选标签对应的权重值,并选取权重值最大的候选标签作为所述指定主题的代表标签。
在这里,所述权重计算公式为:
W i g h t ( l j k &RightArrow; t i ) = w 1 * P ( t i | l j k ) + w 2 * | Lt i | | L |
其中,ti表示第i个指定主题;ljk表示第j个评价信息中的第k个候选标签;Wight(ljk→ti)表示候选标签ljk在指定主题ti下的权重值;P(ti|ljk)表示权重置信度,大小为候选标签ljk隶属于指定主题ti的概率;|Lti|表示隶属于主题ti的候选标签的个数;|L|表示候选标签的总个数(在这里,应当理解为去重处理后的候选标签的总个数);表示支持度;w1表示置信度的权重系数,且0≤w1≤1;w2表示支持度的权重系数,且0≤w2≤1。
通过步骤S502确定的隶属于一个指定主题的候选标签的权重值表示了该候选标签在该指定主题中的重要程度。在按照预设的权重计算公式计算指定主题所包括的每一个候选标签对应的权重值后,选取权重值最大的候选标签作为所述指定主题的代表标签,即以重要程度最大的候选标签作为该指定主题的代表标签。
所述代表标签集中反应了消费者对某一种产品的某一个方面的关注点,能够帮助企业了解在售商品的口碑信息,进行口碑分析,发现商品的优势和不足,并及时作出相应的措施以改进产品,提高企业自身的竞争力。
为了便于理解,以下给出步骤S104的实现示例。
在这里,假设步骤S101从京东商城爬虫获取某型号智能电视的用户评价,步骤S102通过预设的标签语法规则从评价信息中提取了4347条候选标签,步骤S103选取的指定主题的个数为20,分别记为主题1、……、主题20,且通过预设的潜在狄利克雷分配模型LDA获取的指定主题的概率分布如表2所示。
表2候选标签对应的主题概率分布
经统计,每个指定主题所包括的候选标签的个数如表3所示。
总数 主题1 主题2 主题3 主题18 主题19 主题20
4347 34 265 184 273 222 112
在上述表2中,可以知道,候选标签“物流很快P”隶属于主题1的概率为0.051645,为最大值(这里假设在表中未显示的主题4至主题17的概率均小于0.051645),则以主题1作为所述候选标签“物流很快P”的隶属主题。依次类推,以主题2作为候选标签“做工比较粗糙N”(这里假设未表中未显示的主题4至主题17的概率均小于0.056477)的隶属主题;以主题2作为候选标签“质量好P”(这里假设在表中未显示的主题4至主题17的概率均小于0.052330)的隶属主题,等等,此处不一一列举。从上述表2可以看出,主题1主要涉及物流方面,主题2主要涉及质量方面,主题3主要涉及服务方面,其他主题涉及价格方面、性价比方面、分辨率方面等,此处不全部列举。
在计算权重值时,对于每一个指定主题对应的候选标签集,按照预设的权重计算公式计算候选标签集中每一个候选标签对应的权重值。比如,对于主题1,则分别计算其所包括的34个候选标签对应的权重值;对于主题2,则分别计算其所包括的265个候选标签对应的权重值,以此类推。
在这里,w1和w2由用户按需设置。
示例性地,假设w1取1,w2取0.5,则候选标签“物流很快P”的权重值为:
W i g h t ( l j k &RightArrow; t i ) = w 1 * P ( t i | l j k ) + w 2 * | Lt i | | L | = 1 * 0.051645 + 0.5 * 34 4347 = 0.05555574
候选标签“做工比较粗糙N”的权重值为:
W i g h t ( l j k &RightArrow; t i ) = w 1 * P ( t i | l j k ) + w 2 * | Lt i | | L | = 1 * 0.056477 + 0.5 * 265 4347 = 0.08695779
在得到每一个指定主题所包括的候选标签对应的权重值后,对所述权重值按从大到小进行排序,并选取权重值最大的候选标签作为该指定主题的代表标签。
可选地,在步骤S104获取到每一个指定主题的代表标签后,对所述代表标签统一进行可视化展示。示例性地,表4给出了w1=1,w2=0.5时提取所得到的代表标签。表5给出了w1=1,w2=0.02时提取所得到的代表标签。
表4
表5
综上所述,本发明实施例通过获取商品的多个评价信息,按照预设的标签语法规则提取每一个评价信息中的候选标签;通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;然后根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。从而解决了现有的标签提取算法对短文本稀疏性问题解决不够好的问题,避免了对文本词频的依赖和对向量空间模型的依赖,有效地提高了计算商品评价的相似度的准确性和对商品评价挖掘的程度。
图6示出了本发明实施例提供的标签提取装置的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。
在这里,所述标签提取装置用于实现上述图1至图5任一实施例中所述的标签提取方法,可以是内置于终端设备的软件单元、硬件单元或者软硬件结合的单元。所述终端设备优选为计算机。
参阅图6,所述标签提取装置包括:
获取模块61,用于获取商品的多个评价信息。
提取模块62,用于按照预设的标签语法规则提取每一个评价信息中的候选标签。
主题分析模块63,用于通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率。
代表标签确定模块64,用于根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。
进一步地,所述提取模块62包括:
预处理单元621,用于对所述评价信息中的每一个评价信息进行预处理,所述预处理包括分词处理以及词性标注。
第一获取单元622,用于根据预设的标签语法规则对预处理后的评价信息进行分析,获取每一个评价信息中的候选标签。
去重处理单元623,用于根据词语的语义相似度对所述候选标签进行语义去重处理。
进一步地,所述提取模块62还包括:
第二获取单元624,用于获取每一个候选标签对应的情感倾向信息,并将所述情感倾向信息添加至所述候选标签中。
在这里,通过增加情感倾向信息,以情感倾向信息作为特征词语来进行相似度计算,能够进一步提高去重处理单元623中计算候选标签的语义的相似度的准确性,以及提高主题分析模块63中进行主题分析的准确性。
进一步地,所述去重处理单元623具体用于:
按照预设的语义词典计算所述候选标签中的属性词语的相似度和特征词语的相似度;
对所述候选标签中属性词语的相似度和特征词语的相似度均大于预设阈值的候选标签进行去重处理。
进一步地,所述潜在狄利克雷分配模型LDA以候选标签作为文档,并且是长度较短的文档。然而短文档的LDA应用会产生稀疏性的问题,鉴于此,在本发明实施例中,所述潜在狄利克雷分配模型LDA通过计算候选标签中单个字的主题概率分布,即以候选标签中的每一个字作为词语,来将该候选标签映射到不同的指定主题,获取该候选标签隶属于每一个指定主题的概率,从而得到该候选标签的主题概率分布,从而无需依赖文本的词频,有效地解决了短文本的稀疏性问题。
进一步地,所述代表标签确定模块64包括:
隶属主题选取单元641,用于针对每一个候选标签,获取该候选标签对应的主题概率分布中的概率最大值,以该概率最大值对应的指定主题作为所述候选标签的隶属主题,并统计每一个指定主题所包括的候选标签,得到对应的候选标签集。
代表标签选取单元642,用于针对每一个指定主题对应的候选标签集,按照预设的权重计算公式计算所述候选标签集中每一个候选标签对应的权重值,并选取权重值最大的候选标签作为所述指定主题的代表标签。
在这里,所述权重计算公式为:
W i g h t ( l j k &RightArrow; t i ) = w 1 * P ( t i | l j k ) + w 2 * | Lt i | | L |
其中,ti表示第i个指定主题;ljk表示第j个评价信息中的第k个候选标签;Wight(ljk→ti)表示候选标签ljk在指定主题ti下的权重值;P(ti|ljk)表示权重置信度;|Lti|表示隶属于主题ti的候选标签的个数;|L|表示候选标签的总个数;w1表示置信度的权重系数,且0≤w1≤1;w2表示支持度的权重系数,且0≤w2≤1。
通过步骤S502确定的隶属于一个指定主题的候选标签的权重值表示了该候选标签在该指定主题中的重要程度。在按照预设的权重计算公式计算指定主题所包括的每一个候选标签对应的权重值后,选取权重值最大的候选标签作为所述指定主题的代表标签,即以重要程度最大的候选标签作为该指定主题的代表标签。所述代表标签集中反应了消费者对某一种产品的某一个方面的关注点,能够帮助企业了解在售商品的口碑信息,进行口碑分析,发现商品的优势和不足,并及时作出相应的措施以改进产品,提高企业自身的竞争力。
需要说明的是,本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实例中的相关描述,此处不再赘述。
本发明实施例通过获取商品的多个评价信息,按照预设的标签语法规则提取每一个评价信息中的候选标签;通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;然后根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签;从而解决了现有的标签提取算法对短文本稀疏性问题解决不够好的问题,避免了对文本词频的依赖和对向量空间模型的依赖,有效地提高了计算商品评价的相似度的准确性和对商品评价挖掘的程度。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的标签提取装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块、单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元、模块单独物理存在,也可以两个或两个以上单元、模块集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种标签提取方法,其特征在于,所述标签提取方法包括:
获取商品的多个评价信息;
按照预设的标签语法规则提取每一个评价信息中的候选标签;
通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;
根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签;
其中,所述权重值是根据所述候选标签集的所述候选标签数量以及每一个所述候选标签隶属于每个所述指定主题的概率计算得出的。
2.如权利要求1所述的标签提取方法,其特征在于,所述按照预设的标签语法规则提取每一个评价信息中的候选标签包括:
对所述评价信息中的每一个评价信息进行预处理,所述预处理包括分词处理以及词性标注;
根据预设的标签语法规则对预处理后的评价信息进行分析,获取每一个评价信息中的候选标签;
根据词语的语义相似度对所述候选标签进行语义去重处理。
3.如权利要求2所述的标签提取方法,其特征在于,在根据预设的标签语法规则对预处理后的评价信息进行分析,获取每一个评价信息中的候选标签之后,所述方法还包括:
获取每一个候选标签对应的情感倾向信息,并将所述情感倾向信息添加至所述候选标签中。
4.如权利要求2所述的标签提取方法,其特征在于,所述根据词语的语义相似度对所述候选标签进行语义去重处理包括:
按照预设的语义词典计算所述候选标签中的属性词语的相似度和特征词语的相似度;
对所述候选标签中属性词语的相似度和特征词语的相似度均大于预设阈值的候选标签进行去重处理。
5.如权利要求1至4任一项所述的标签提取方法,其特征在于,所述潜在狄利克雷分配模型LDA以候选标签作为文档,以候选标签中的每一个字作为词语。
6.如权利要求5所述的标签提取方法,其特征在于,所述根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签包括:
针对每一个候选标签,获取该候选标签对应的主题概率分布中的概率最大值,以该概率最大值对应的指定主题作为所述候选标签的隶属主题,并统计每一个指定主题所包括的候选标签,得到对应的候选标签集;
针对每一个指定主题对应的候选标签集,按照预设的权重计算公式计算所述候选标签集中每一个候选标签对应的权重值,并选取权重值最大的候选标签作为所述指定主题的代表标签;
所述权重计算公式为:
W i g h t ( l j k &RightArrow; t i ) = w 1 * P ( t i | l j k ) + w 2 * | Lt i | | L |
其中,ti表示第i个指定主题;ljk表示第j个评价信息中的第k个候选标签;Wight(ljk→ti)表示候选标签ljk在指定主题ti下的权重值;P(ti|ljk)表示权重置信度;|Lti|表示隶属于主题ti的候选标签的个数;|L|表示候选标签的总个数;w1表示置信度的权重系数,且0≤w1≤1;w2表示支持度的权重系数,且0≤w2≤1。
7.一种标签提取装置,其特征在于,所述标签提取装置包括:
获取模块,用于获取商品的多个评价信息;
提取模块,用于按照预设的标签语法规则提取每一个评价信息中的候选标签;
主题分析模块,用于通过潜在狄利克雷分配模型LDA对每一个候选标签进行主题分析,获取每一个候选标签对应的主题概率分布,所述主题概率分布包括该候选标签隶属于每一个指定主题的概率;
代表标签确定模块,用于根据所述主题概率分布确定每一个指定主题对应的候选标签集,根据所述候选标签集中每一个候选标签的权重值确定所述指定主题对应的代表标签。
8.如权利要求7所述的标签提取装置,其特征在于,所述提取模块包括:
预处理单元,用于对所述评价信息中的每一个评价信息进行预处理,所述预处理包括分词处理以及词性标注;
第一获取单元,用于根据预设的标签语法规则对预处理后的评价信息进行分析,获取每一个评价信息中的候选标签;
去重处理单元,用于根据词语的语义相似度对所述候选标签进行语义去重处理。
9.如权利要求8所述的标签提取装置,其特征在于,所述提取模块还包括:
第二获取单元,用于获取每一个候选标签对应的情感倾向信息,并将所述情感倾向信息添加至所述候选标签中。
10.如权利要求8所述的标签提取装置,其特征在于,所述去重处理单元具体用于:
按照预设的语义词典计算所述候选标签中的属性词语的相似度和特征词语的相似度;
对所述候选标签中属性词语的相似度和特征词语的相似度均大于预设阈值的候选标签进行去重处理。
11.如权利要求7至10任一项所述的标签提取装置,其特征在于,所述潜在狄利克雷分配模型LDA以候选标签作为文档,以候选标签中的每一个字作为词语。
12.如权利要求11所述的标签提取装置,其特征在于,所述代表标签确定模块包括:
隶属主题选取单元,用于针对每一个候选标签,获取该候选标签对应的主题概率分布中的概率最大值,以该概率最大值对应的指定主题作为所述候选标签的隶属主题,并统计每一个指定主题所包括的候选标签,得到对应的候选标签集;
代表标签选取单元,用于针对每一个指定主题对应的候选标签集,按照预设的权重计算公式计算所述候选标签集中每一个候选标签对应的权重值,并选取权重值最大的候选标签作为所述指定主题的代表标签;
所述权重计算公式为:
W i g h t ( l j k &RightArrow; t i ) = w 1 * P ( t i | l j k ) + w 2 * | Lt i | | L |
其中,ti表示第i个指定主题;ljk表示第j个评价信息中的第k个候选标签;Wight(ljk→ti)表示候选标签ljk在指定主题ti下的权重值;P(ti|ljk)表示权重置信度;|Lti|表示隶属于主题ti的候选标签的个数;|L|表示候选标签的总个数;w1表示置信度的权重系数,且0≤w1≤1;w2表示支持度的权重系数,且0≤w2≤1。
CN201510963621.4A 2015-12-18 2015-12-18 一种标签提取方法及装置 Pending CN105608166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510963621.4A CN105608166A (zh) 2015-12-18 2015-12-18 一种标签提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510963621.4A CN105608166A (zh) 2015-12-18 2015-12-18 一种标签提取方法及装置

Publications (1)

Publication Number Publication Date
CN105608166A true CN105608166A (zh) 2016-05-25

Family

ID=55988106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510963621.4A Pending CN105608166A (zh) 2015-12-18 2015-12-18 一种标签提取方法及装置

Country Status (1)

Country Link
CN (1) CN105608166A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN107133730A (zh) * 2017-04-24 2017-09-05 天津大学 一种基于潜在狄利克雷分配模型的潜在特征提取方法
CN107145469A (zh) * 2017-03-23 2017-09-08 四川省公安科研中心 基于狄利克雷特分布的置信度计算方法
CN107169021A (zh) * 2017-04-07 2017-09-15 华为机器有限公司 用于预测应用功能标签的方法和设备
CN108021579A (zh) * 2016-10-28 2018-05-11 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN109726384A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 评价关系的生成方法及相关装置
CN109885674A (zh) * 2019-02-14 2019-06-14 腾讯科技(深圳)有限公司 一种主题标签的确定、信息推荐方法及装置
CN109978624A (zh) * 2019-03-27 2019-07-05 联想(北京)有限公司 信息处理方法、电子设备及计算机可读存储介质
CN110019783A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 属性词聚类方法及装置
CN110309294A (zh) * 2018-03-01 2019-10-08 优酷网络技术(北京)有限公司 内容集合的标签确定方法及装置
CN110309298A (zh) * 2018-03-23 2019-10-08 优酷网络技术(北京)有限公司 主题预测方法及装置
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN103970863A (zh) * 2014-05-08 2014-08-06 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及系统
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN104915405A (zh) * 2015-06-02 2015-09-16 华东师范大学 一种基于多层次的微博查询扩展方法
CN104951430A (zh) * 2014-03-27 2015-09-30 携程计算机技术(上海)有限公司 产品特征标签的提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN104239373A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 为文档添加标签的方法及装置
CN104951430A (zh) * 2014-03-27 2015-09-30 携程计算机技术(上海)有限公司 产品特征标签的提取方法及装置
CN103970863A (zh) * 2014-05-08 2014-08-06 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及系统
CN104915405A (zh) * 2015-06-02 2015-09-16 华东师范大学 一种基于多层次的微博查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李丕绩等: ""用户评论中的标签抽取以及排序"", 《中文信息学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN108021579A (zh) * 2016-10-28 2018-05-11 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN108021579B (zh) * 2016-10-28 2021-10-15 上海优扬新媒信息技术有限公司 信息输出方法及装置
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN107145469A (zh) * 2017-03-23 2017-09-08 四川省公安科研中心 基于狄利克雷特分布的置信度计算方法
CN107169021A (zh) * 2017-04-07 2017-09-15 华为机器有限公司 用于预测应用功能标签的方法和设备
CN107133730A (zh) * 2017-04-24 2017-09-05 天津大学 一种基于潜在狄利克雷分配模型的潜在特征提取方法
CN110019783B (zh) * 2017-09-27 2021-01-22 北京国双科技有限公司 属性词聚类方法及装置
CN110019783A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 属性词聚类方法及装置
CN109726384A (zh) * 2017-10-31 2019-05-07 北京国双科技有限公司 评价关系的生成方法及相关装置
CN110309294A (zh) * 2018-03-01 2019-10-08 优酷网络技术(北京)有限公司 内容集合的标签确定方法及装置
CN110309298A (zh) * 2018-03-23 2019-10-08 优酷网络技术(北京)有限公司 主题预测方法及装置
CN109885674A (zh) * 2019-02-14 2019-06-14 腾讯科技(深圳)有限公司 一种主题标签的确定、信息推荐方法及装置
CN109885674B (zh) * 2019-02-14 2022-10-25 腾讯科技(深圳)有限公司 一种主题标签的确定、信息推荐方法及装置
CN109978624A (zh) * 2019-03-27 2019-07-05 联想(北京)有限公司 信息处理方法、电子设备及计算机可读存储介质
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112434158B (zh) * 2020-11-13 2024-05-28 海创汇科技创业发展股份有限公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备

Similar Documents

Publication Publication Date Title
CN105608166A (zh) 一种标签提取方法及装置
CN102902700B (zh) 基于在线增量演化主题模型的软件自动分类方法
CN103838789A (zh) 一种文本相似度计算方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN104239373B (zh) 为文档添加标签的方法及装置
CN105069102A (zh) 信息推送方法和装置
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN104731923A (zh) 互联网商品评论挖掘本体词库的构建方法
CN101706812B (zh) 一种文档的检索方法和装置
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN104281565B (zh) 语义词典构建方法和装置
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
Yin et al. Feature–opinion pair identification of product reviews in Chinese: a domain ontology modeling method
CN103646099A (zh) 一种基于多层图的论文推荐方法
CN103869999A (zh) 对输入法所产生的候选项进行排序的方法及装置
Tang et al. Topic-level social network search
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
Eirinaki et al. Introducing semantics in web personalization: The role of ontologies
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
Chen et al. Joint model for subsentence‐level sentiment analysis with M arkov logic
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
Radoulov Exploring automatic citation classification
CN111259661A (zh) 一种基于商品评论的新情感词提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160525

RJ01 Rejection of invention patent application after publication