CN110019783B - 属性词聚类方法及装置 - Google Patents

属性词聚类方法及装置 Download PDF

Info

Publication number
CN110019783B
CN110019783B CN201710888988.3A CN201710888988A CN110019783B CN 110019783 B CN110019783 B CN 110019783B CN 201710888988 A CN201710888988 A CN 201710888988A CN 110019783 B CN110019783 B CN 110019783B
Authority
CN
China
Prior art keywords
attribute
word
words
attribute word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710888988.3A
Other languages
English (en)
Other versions
CN110019783A (zh
Inventor
韩旭红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710888988.3A priority Critical patent/CN110019783B/zh
Publication of CN110019783A publication Critical patent/CN110019783A/zh
Application granted granted Critical
Publication of CN110019783B publication Critical patent/CN110019783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种属性词聚类方法及装置。通过获取属性词,构建第一属性词关系图,获取评价词,基于评价词计算所述属性词之间新相似度值,并基于新相似度值对第一属性词关系图中的边指代的初始相似度值进行更新,得到第二属性词关系图;根据预设删除阈值对第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应第三属性词关系图的属性词聚类结果。通过评价词计算属性词之间的新相似度值,并按照预设删除阈值,对属性词关系图中的边进行删除,也就是调整属性词之间的相似度,从而在不依靠人工标注的情况下,得到准确度更高的属性词聚类结果。

Description

属性词聚类方法及装置
技术领域
本发明涉及计算机应用技术领域,更具体地说涉及一种属性词聚类方法及装置。
背景技术
目前针对一些应用领域实体属性抽取的特定计算机技术领域中,属性词的聚类是领域实体属性抽取中的一个重要步骤。例如,在评价关系抽取中,如果抽取的评价属性词较多且部分属性词不规范,或者对于同一零部件或者同一属性会有很多描述,导致直接展示不够直观。此时,通过属性词的聚类,可以直观的展示评论中某个属性下的评价,也可以帮助用户了解产品细粒度的情感及评价,以及发现产品优缺点,从而进行改进。
现有技术中,属性词聚类的方法一般分两种。一种是多采用词语相似度计算获取两个词之间的相似程度,进而对属性词进行聚类。但是,这种方法往往领域性不强,且准确率不高;另一种,是通过人工标注对属性词进行聚类或分类,虽然能确保准确率,但人工耗时耗力,成本较高。
因此,目前亟需一种新的属性词聚类方案解决上述问题。
发明内容
有鉴于此,本发明提供了一种属性词聚类方法及装置,以实现在维持或降低成本的情况下,提高属性词聚类准确率的目的。
为了实现上述目的,现提出的方案如下:
本发明第一方面公开了一种属性词聚类方法,包括:
获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;
获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,得到第二属性词关系图;
根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
优选的,所述获取属性词,构建第一属性词关系图,包括:
获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;
基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。
优选的,所述获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,包括:
获取评价词,所述评价词来自所述属性词对应的评价词集合;
基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
Figure GDA0002719681720000021
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure GDA0002719681720000022
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;
基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
优选的,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,所述根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果,包括:
判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则删除所述第二属性词关系图中最小相似度值对应的边,返回执行判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值这一步骤。
优选的,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,所述根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果,包括:
判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则删除所述第二属性词关系图中最小相似度值对应的边,返回执行判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数这一步骤。
本发明第二方面公开了一种属性词聚类装置,包括:
构建模块,用于获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;
更新模块,用于获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,得到第二属性词关系图;
结果确定模块,用于根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
优选的,所述构建模块,包括:
第一计算单元,用于获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;
构建单元,基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。
优选的,所述更新模块,包括:
获取单元,用于获取评价词,所述评价词来自所述属性词对应的评价词集合;
第二计算单元,用于基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
Figure GDA0002719681720000041
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure GDA0002719681720000042
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;
更新单元,用于基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
本发明第三方面公开了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述本发明第一方面公开的属性词聚类方法。
本发明第四方面公开了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述本发明第一方面公开的属性词聚类方法。
经由上述技术方案可知,本发明公开一种属性词聚类方法、装置、存储介质及处理器。获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新,得到第二属性词关系图;根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。通过评价词计算属性词之间的新相似度值,并按照预设删除阈值,对属性词关系图中的边进行删除,也就是调整属性词之间的相似度,从而在不依靠人工标注的情况下,得到准确度更高的属性词聚类结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种属性词聚类方法的流程示意图;
图2为本发明实施例公开的一种属性词聚类方法中的删除边的方法流程示意图;
图3为本发明实施例公开的一种属性词聚类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由背景技术可知,现有技术中,采用词语相似度计算获取两个词之间的相似程度,进而对属性词进行聚类得到的属性词聚类结果准确率不高;若通过人工标注对属性词进行聚类或分类,虽然能确保准确率,但人工耗时耗力,成本较高。因此,本发明公开了一种新的属性词聚类的实现技术方案,以实现在维持或降低成本的情况下,提高属性词聚类准确率的目的。
如图1所示,为本发明实施例公开的一种属性词聚类方法的流程示意图。该属性词聚类方法应用于某一领域文档中,具体包括:
步骤S101:获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值。
在具体实现过程中,首先,获取需要进行聚类的属性词。然后,根据词语相似度算法获取各个属性词之间的初始相似度值。然后,采用级联序列标注方式,基于各个属性词,以及各个属性词之间的初始相似度值构建第一属性词关系图。所构建的第一属性词关系图中包括节点和节点之间的边。节点则指代属性词,节点之间的边则指代属性词之间的初始相似度值。
在本发明实施例中,将词语相似度算法作为级联序列标注中的模型进行使用。在本发明实施例中,词语相似度算法包括word2vec词语相似度算法,但是并不仅限于该词语相似度算法,也可以是其他词语相似度算法。
步骤S102:获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新,得到第二属性词关系图。
在具体实现过程中,首先,从属性词对应的评价词集合中,获取各个属性词对应的评价词。然后,基于评价词和属性词之间的权重关系,以及公式(1)计算属性词之间的相似度值,也就是计算属性词之间新相似度值Sim(f1,f2)。最后,基于所述新相似度值Sim(f1,f2)对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
Figure GDA0002719681720000061
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure GDA0002719681720000062
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度。
在本发明实施例中,Correlation(oi,f1,f2)的计算公式如公式(2)所示。
Figure GDA0002719681720000063
其中,Count(oi,f1)为评价词oi和属性词f1共现词频,Count(f1)为属性词f1的词频;Count(oi,f2)为评价词oi和属性词f2共现词频,Count(f2)为属性词f2的词频。tfidf即TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF指词频(Term Frequency),IDF指逆向文件频率(Inverse DocumentFrequency)。该TF-IDF可以看做是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在本发明实施例中,采用TF-IDF来统计评价词在当前属性词搭配中的重要性。tfidf(oi,fj)反映评价词oi在同fj搭配的重要性。
Figure GDA0002719681720000064
Figure GDA0002719681720000065
其中,tf为fj的评价词搭配中oi所占比例;
Figure GDA0002719681720000066
以上添加TF-IDF的计算即在计算属性词之间的新相似度值时,将评价词在属性词搭配中的重要性添加至对属性词相似度的计算中,从而对属性词之间的相似度进行更新。能够有效的提高属性词相似度计算的准确率。
在本发明实施例中,对所述第一属性词关系图中的边指代的所述初始相似度进行更新,通过对第一属性词关系图中的边的权重更新属性相似度。
步骤S103:根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
在具体的实现过程中,在上述基于属性词对应的评价词计算得到的属性词相似度构成的第二属性词关系图中,进一步的,通过属性词关系图中边的权重进行剪枝操作,也就是对构成的第二属性词关系图中不满足要求的边进行删除,得到进一步优化准确度的属性词聚类结果。
在本发明实施例中,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,具体的,步骤S103,根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果的过程如图2所示,主要包括:
步骤S201:判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,如果是,则执行步骤S204,如果否,则执行步骤S202。
步骤S202:判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,如果是,则执行步骤S204,如果否,则执行步骤S203。
步骤S203:删除所述第二属性词关系图中最小相似度值对应的边,返回执行步骤S201。
步骤S204:得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果。
在上述判断过程中,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,并不局限于上述的顺序进行判断,也可以先判断预设属性类别数,后判断预设相似度阈值。
本发明实施例公开的一种属性词聚类方法,在计算属性词之间的新相似度值时,将属性词对应的评价词添加至对属性词相似度的计算中,能够一定程度上弥补语料不足导致上下文词语等相关信息统计不准确。也就是说,通过提高相关评价词的权重,从而对属性词之间的相似度也就是权重进行更新。能够有效的提高属性词相似度计算的准确率。并且,通过剪枝操作,更准确得到有效的属性词聚类结果,进一步保证属性词聚类结果的准确性。
基于上述本发明实施例公开的属性词聚类方法,本发明实施例还对应公开了一种属性词聚类装置,如图3所示,该属性词聚类装置300包括:
构建模块301,用于获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值。
该构建模块301包括:
第一计算单元,用于获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法。
构建单元,用于采用级联序列标注方式,基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。
更新模块302,用于获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新,得到第二属性词关系图。
该更新模块302包括:
获取单元,用于获取评价词,所述评价词来自所述属性词对应的评价词集合。
第二计算单元,用于基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值Sim(f1,f2),所述
Figure GDA0002719681720000081
Figure GDA0002719681720000082
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure GDA0002719681720000083
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度。
更新单元,用于基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
结果确定模块303,用于根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
若所述预设删除阈值包括预设相似度阈值和预设属性类别数,该结果确定模块303,可以包括:
第一判断单元,用于判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则执行结果确定单元,若否,则执行第二判断单元。
第二判断单元,用于判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则执行所述结果确定单元,若否,则执行删除单元。
删除单元,用于删除所述第二属性词关系图中最小相似度值对应的边,并返回执行第一判断单元。
结果确定单元,用于得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果。
该结果确定模块303,还可以包括:
第三判断单元,用于判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则执行结果确定单元,若否,则执行第四判断单元。
第四判断单元,用于判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则执行所述结果确定单元,若否,则执行删除单元。
删除单元,用于删除所述第二属性词关系图中最小相似度值对应的边,并返回执行第一判断单元。
结果确定单元,用于得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果。
上述本发明实施例公开的属性词聚类装置中的各个模块具体的原理和执行过程,与上述本发明实施例公开的属性词聚类方法相同,可参见上述本发明实施例公开的属性词聚类方法中相应的部分,这里不再进行赘述。
基于上述本发明实施例公开的属性词聚类装置,上述各个模块可以通过一种由处理器和存储器构成的硬件设备实现。具体为:上述各个模块作为程序单元存储于存储器中,由处理器执行存储在存储器中的上述程序单元来实现属性词聚类。
其中,处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现属性词聚类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
进一步的,本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述属性词聚类方法。
进一步的,本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新,得到第二属性词关系图;根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
具体的,获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;采用级联序列标注方式,基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。获取评价词,所述评价词来自所述属性词对应的评价词集合;基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
Figure GDA0002719681720000101
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure GDA0002719681720000102
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新。
优选的,若所述预设删除阈值包括预设相似度阈值,根据所述预设相似度阈值,查找所述第二属性词关系图中不大于所述预设相似度阈值的相似度值;删除查找到的不大于所述预设相似度阈值的相似度值对应的边,得到第三属性词关系图;确定对应所述第三属性词关系图的属性词聚类结果。
优选的,若所述预设删除阈值包括预设属性类别数,根据所述预设属性类别数,依次查找并删除所述第二属性词关系图中最小相似度值对应的边,直至所述第二属性词关系图中的属性类别数等于所述预设属性类别数,得到第三属性词关系图;确定对应所述第三属性词关系图的属性词聚类结果。
本发明实施例中公开的设备可以是服务器、PC、PAD、手机等。
进一步的,本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现属性词聚类方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新,得到第二属性词关系图;根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
具体的,获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。获取评价词,所述评价词来自所述属性词对应的评价词集合;基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
Figure GDA0002719681720000111
Figure GDA0002719681720000112
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure GDA0002719681720000113
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相关度值进行更新。
优选的,若所述预设删除阈值包括预设相似度阈值,根据所述预设相似度阈值,查找所述第二属性词关系图中不大于所述预设相似度阈值的相似度值;删除查找到的不大于所述预设相似度阈值的相似度值对应的边,得到第三属性词关系图;确定对应所述第三属性词关系图的属性词聚类结果。
优选的,若所述预设删除阈值包括预设属性类别数,根据所述预设属性类别数,依次查找并删除所述第二属性词关系图中最小相似度值对应的边,直至所述第二属性词关系图中的属性类别数等于所述预设属性类别数,得到第三属性词关系图;确定对应所述第三属性词关系图的属性词聚类结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、客户端、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种属性词聚类方法,其特征在于,包括:
获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;
获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,得到第二属性词关系图;
根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取属性词,构建第一属性词关系图,包括:
获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;
基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。
3.根据权利要求1所述的方法,其特征在于,所述获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,包括:
获取评价词,所述评价词来自所述属性词对应的评价词集合;
基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
Figure FDA0002719681710000011
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure FDA0002719681710000012
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;
基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,所述根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果,包括:
判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则删除所述第二属性词关系图中最小相似度值对应的边,返回执行判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值这一步骤。
5.根据权利要求1-3中任意一项所述的方法,其特征在于,若所述预设删除阈值包括预设相似度阈值和预设属性类别数,所述根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果,包括:
判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则判断所述第二属性词关系图中的所有边的相似度值是否都大于所述预设相似度阈值,若是,则得到第三属性词关系图,确定对应所述第三属性词关系图的属性词聚类结果;
若否,则删除所述第二属性词关系图中最小相似度值对应的边,返回执行判断所述第二属性词关系图中的属性类别数是否等于所述预设属性类别数这一步骤。
6.一种属性词聚类装置,其特征在于,包括:
构建模块,用于获取属性词,构建第一属性词关系图,所述第一属性词关系图由节点和节点之间的边构成,其中,所述节点指代所述属性词,所述边指代所述属性词之间的初始相似度值;
更新模块,用于获取评价词,基于所述评价词计算所述属性词之间新相似度值,并基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新,得到第二属性词关系图;
结果确定模块,用于根据预设删除阈值对所述第二属性词关系图中的边进行删除,得到第三属性词关系图,并确定对应所述第三属性词关系图的属性词聚类结果。
7.根据权利要求6所述的装置,其特征在于,所述构建模块,包括:
第一计算单元,用于获取属性词,根据词语相似度算法获取所述属性词之间的初始相似度值,所述词语相似度算法包括word2vec词语相似度算法;
构建单元,基于所述属性词,以及所述属性词之间的初始相似度值构建第一属性词关系图。
8.根据权利要求6所述的装置,其特征在于,所述更新模块,包括:
获取单元,用于获取评价词,所述评价词来自所述属性词对应的评价词集合;
第二计算单元,用于基于所述评价词和所述属性词之间的权重关系,计算所述属性词之间新相似度值
Figure FDA0002719681710000031
其中,Simo(f1,f2)指构成一个边的相邻属性词f1和属性词f2之间的初始相似度,oi为评价词,
Figure FDA0002719681710000032
表示属性词f1和属性词f2对应的评价词集合中共同包含的评价词,Correlation(oi,f1,f2)为属性词f1和属性词f2在所述评价词oi上的相关度;
更新单元,用于基于所述新相似度值对所述第一属性词关系图中的边指代的所述初始相似度值进行更新。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的属性词聚类方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的属性词聚类方法。
CN201710888988.3A 2017-09-27 2017-09-27 属性词聚类方法及装置 Active CN110019783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710888988.3A CN110019783B (zh) 2017-09-27 2017-09-27 属性词聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710888988.3A CN110019783B (zh) 2017-09-27 2017-09-27 属性词聚类方法及装置

Publications (2)

Publication Number Publication Date
CN110019783A CN110019783A (zh) 2019-07-16
CN110019783B true CN110019783B (zh) 2021-01-22

Family

ID=67186418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710888988.3A Active CN110019783B (zh) 2017-09-27 2017-09-27 属性词聚类方法及装置

Country Status (1)

Country Link
CN (1) CN110019783B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797663A (zh) * 2019-08-02 2020-10-20 北京京东尚科信息技术有限公司 搭配场景识别方法和装置
CN115841120B (zh) * 2023-02-27 2023-05-23 文灵科技(北京)有限公司 一种基于方面词的主语义分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
CN103778214A (zh) * 2014-01-16 2014-05-07 北京理工大学 一种基于用户评论的商品属性聚类方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN105608166A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种标签提取方法及装置
CN106021433A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种商品评论数据的口碑分析方法和装置
US9558266B1 (en) * 2012-09-24 2017-01-31 Anthony Bernard Diepenbrock, IV System and method for discovering groups whose members have a given attribute

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713017B2 (en) * 2009-04-23 2014-04-29 Ebay Inc. Summarization of short comments
US9082047B2 (en) * 2013-08-20 2015-07-14 Xerox Corporation Learning beautiful and ugly visual attributes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
US9558266B1 (en) * 2012-09-24 2017-01-31 Anthony Bernard Diepenbrock, IV System and method for discovering groups whose members have a given attribute
CN103778214A (zh) * 2014-01-16 2014-05-07 北京理工大学 一种基于用户评论的商品属性聚类方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN105608166A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种标签提取方法及装置
CN106021433A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种商品评论数据的口碑分析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Bootstrapping的英文产品评论属性词抽取方法;王辉,等;《山东大学学报(理学版)》;20141231;第49卷(第12期);第23-29页 *

Also Published As

Publication number Publication date
CN110019783A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US20210256047A1 (en) System and method for providing technology assisted data review with optimizing features
JP6676167B2 (ja) 情報推薦方法及び装置
CN108268617B (zh) 用户意图确定方法及装置
TW202029079A (zh) 異常群體識別方法及裝置
US20160042298A1 (en) Content discovery and ingestion
US10346496B2 (en) Information category obtaining method and apparatus
US20150356072A1 (en) Method and Apparatus of Matching Text Information and Pushing a Business Object
US20180114136A1 (en) Trend identification using multiple data sources and machine learning techniques
JP2017508214A (ja) 検索推奨の提供
US9679018B1 (en) Document ranking based on entity frequency
US9785421B1 (en) External dependency attribution
CN108536745B (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
US20150339700A1 (en) Method, apparatus and system for processing promotion information
CN104933134A (zh) 一种用户特征的分析方法及装置
WO2015070798A1 (en) Image clustering method, image clustering system, and image clustering server
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
US20140229496A1 (en) Information processing device, information processing method, and computer program product
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
US20130179418A1 (en) Search ranking features
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN110019783B (zh) 属性词聚类方法及装置
CN114328983A (zh) 文档碎化方法、数据检索方法、装置及电子设备
CN103995831A (zh) 基于物品间相似度的物品处理方法、系统和装置
CN103530345A (zh) 短文本特征扩展及拟合特征库构建方法、装置
CN107562533A (zh) 一种数据加载处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant