CN108228587A - 群体识别方法及群体识别装置 - Google Patents

群体识别方法及群体识别装置 Download PDF

Info

Publication number
CN108228587A
CN108228587A CN201611144762.4A CN201611144762A CN108228587A CN 108228587 A CN108228587 A CN 108228587A CN 201611144762 A CN201611144762 A CN 201611144762A CN 108228587 A CN108228587 A CN 108228587A
Authority
CN
China
Prior art keywords
destination document
word
demographic categories
assemblage characteristic
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611144762.4A
Other languages
English (en)
Inventor
蔡慧慧
张丹
于晓明
王九硕
于琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201611144762.4A priority Critical patent/CN108228587A/zh
Publication of CN108228587A publication Critical patent/CN108228587A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种群体识别方法及群体识别装置,其中,群体识别方法包括:获取目标文档对应的组合特征词集,其中,组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词;获取参考文档集中的多篇关联于组合特征词集的参考文档,并对多篇参考文档进行归类处理,以得到多个群体类别;获取目标文档对应的特征向量,以及组合特征词集中的目标词对应的词向量;根据目标文档对应的特征向量与多个群体类别对应的特征向量之间的相似性,确定目标文档所属群体类别;以及根据组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性,确定目标文档所属群体类别的关注对象。

Description

群体识别方法及群体识别装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种群体识别方法和一种群体识别装置。
背景技术
随着互联网的迅猛发展,越来越多的人们热衷在网上通过发帖、写博客、发微博等来表达自己对某些事件的看法和观点。其中不乏出现一些对事实真相的误导,对大众了解事情真相造成了困扰,一旦传播开来对社会造成的危害之大也无法想象。所以通过了解人们对某个事件的看法就能够了解到人们对所关注对象的大概观点倾向,而“物以类聚,人以群分”,通过对拥有相似观点或者相似关注点的群体分析来识别有害群体提供了新的切入点。
目前关于群体发现的方法大都基于目标特征词选择的聚类,即将人们发表在网络上的文章进行特征词选择并用向量表示,利用聚类方法对相似文章聚类,从而将相似人群归类,最后通过计算目标文章的特征向量与各类的中心向量的相似性找出与之相似的群体。这类方法中目标特征词一般是通过特征提取方法提取出的有意义的实词,而对于真正可以反映人们观点的态度词没有特别给予表示,态度词则是能直观反映人们对事件观点和看法的词,缺少了这类词会在特征选择上损失有用信息,降低聚类时语义匹配的准确率,同时,对聚类出的各个群体,未给出其所重点关注的目标对象,不利于识别群体所重点关注的各个方面,对此,目前还没有有效的解决方案。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的群体识别方案,能够准确识别出和目标文档所表达的观点和看法相似的群体以及群体的关注对象,从而辅助用户更好地识别所传播类似信息的群体。
有鉴于此,本发明提出了一种群体识别方法,包括:获取目标文档对应的组合特征词集,其中,所述组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词;获取参考文档集中的多篇关联于所述组合特征词集的参考文档,并对多篇所述参考文档进行归类处理,以得到多个群体类别;获取所述目标文档对应的特征向量,以及所述组合特征词集中的目标词对应的词向量;根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别;以及根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象。
在该技术方案中,通过获取目标文档对应的组合特征词集以及多篇关联于组合特征词集的参考文档,以基于多篇参考文档得到多个群体类别,并基于目标文档对应的特征向量和多个群体类别对应的特征向量,来确定目标文档所属群体类别,其中,组合特征词集至少包含用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词,从而确保了对目标文档所属群体类别的识别结果的准确性,同时根据组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性,确定目标文档所属群体类别的关注对象,能够辅助用户更好地识别所传播类似信息的群体。其中,目标文档包括用户指定的待分析文档,参考文档集包括通过爬虫技术或其他方式从互联网上采集到的文档,以作为分析目标文档时所使用的参考文档。
在上述技术方案中,优选地,所述组合特征词集中还包括所述目标词的近义词以及所述态度词的近义词。
在该技术方案中,考虑到组合特征词集中若仅包含目标词和态度词,可能会造成特征向量稀疏,影响群体类别的识别准确率,可对目标词和态度词进行语义的近似扩充,以为组合特征词集添加目标词的近义词以及态度词的近义词,从而有效地避免了特征向量稀疏的问题,进一步地提高群体类别的识别准确率。
在上述任一项技术方案中,优选地,所述获取所述目标文档对应的特征向量的步骤,具体包括:计算所述组合特征词集中的目标词和态度词共同出现的次数和逆文档频率;根据所述次数和所述逆文档频率的乘积,确定所述目标文档对应的组合权重;基于所述目标文档对应的组合权重,确定所述目标文档对应的特征向量。
在该技术方案中,基于目标词和态度词来确定目标文档对应的特征向量,为后续准确识别出目标文档所属群体类别提供前提保障。
在上述任一项技术方案中,优选地,所述根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的步骤,具体包括:将多个所述群体类别中的与所述目标文档对应的特征向量之间相似性大于第一阈值的群体类别,作为所述目标文档所属群体类别。
在该技术方案中,通过目标文档对应的特征向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象的步骤,具体包括:将所述组合特征词集中的与所述目标文档所属群体类别对应的特征向量之间相似性大于第二阈值的目标词,作为所述目标文档所属群体类别对应的目标词,以表示所述目标文档所属群体类别的关注对象。
在该技术方案中,通过组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述获取目标文档对应的组合特征词集的步骤,具体包括:对所述目标文档进行分词以及词性标注处理;基于依存句法对处理后的目标文档进行分析,以得到所述组合特征词集。
在该技术方案中,依存句法是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者,利用依存句法分析,可以确定词之间的修饰关系,所以通过依存句法对经过分词以及词性标注处理后的目标文档进行分析,可准确地获取到目标特征词集。
根据本发明的第二方面,提出了一种群体识别装置,包括:第一获取单元,用于获取目标文档对应的组合特征词集,其中,所述组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词;第二获取单元,用于获取参考文档集中的多篇关联于所述组合特征词集的参考文档,并对多篇所述参考文档进行归类处理,以得到多个群体类别;第三获取单元,用于获取所述目标文档对应的特征向量,以及所述组合特征词集中的目标词对应的词向量;第一确定单元,用于根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别;以及第二确定单元,用于根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象。
在该技术方案中,通过获取目标文档对应的组合特征词集以及多篇关联于组合特征词集的参考文档,以基于多篇参考文档得到多个群体类别,并基于目标文档对应的特征向量和多个群体类别对应的特征向量,来确定目标文档所属群体类别,其中,组合特征词集至少包含用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词,从而确保了对目标文档所属群体类别的识别结果的准确性,同时根据组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性,确定目标文档所属群体类别的关注对象,能够辅助用户更好地识别所传播类似信息的群体。其中,目标文档包括用户指定的待分析文档,参考文档集包括通过爬虫技术或其他方式从互联网上采集到的文档,以作为分析目标文档时所使用的参考文档。
在上述技术方案中,优选地,所述组合特征词集中还包括所述目标词的近义词以及所述态度词的近义词。
在该技术方案中,考虑到组合特征词集中若仅包含目标词和态度词,可能会造成特征向量稀疏,影响群体类别的识别准确率,可对目标词和态度词进行语义的近似扩充,以为组合特征词集添加目标词的近义词以及态度词的近义词,从而有效地避免了特征向量稀疏的问题,进一步地提高群体类别的识别准确率。
在上述任一项技术方案中,优选地,所述第三获取单元具体用于:计算所述组合特征词集中的目标词和态度词共同出现的次数和逆文档频率;根据所述次数和所述逆文档频率的乘积,确定所述目标文档对应的组合权重;基于所述目标文档对应的组合权重,确定所述目标文档对应的特征向量。
在该技术方案中,基于目标词和态度词来确定目标文档对应的特征向量,为后续准确识别出目标文档所属群体类别提供前提保障。
在上述任一项技术方案中,优选地,所述第一确定单元具体用于:将多个所述群体类别中的与所述目标文档对应的特征向量之间相似性大于第一阈值的群体类别,作为所述目标文档所属群体类别。
在该技术方案中,通过目标文档对应的特征向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述第二确定单元具体用于:将所述组合特征词集中的与所述目标文档所属群体类别对应的特征向量之间相似性大于第二阈值的目标词,作为所述目标文档所属群体类别对应的目标词,以表示所述目标文档所属群体类别的关注对象。
在该技术方案中,通过组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述第一获取单元具体用于:对所述目标文档进行分词以及词性标注处理;基于依存句法对处理后的目标文档进行分析,以得到所述组合特征词集。
在该技术方案中,依存句法是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者,利用依存句法分析,可以确定词之间的修饰关系,所以通过依存句法对经过分词以及词性标注处理后的目标文档进行分析,可准确地获取到目标特征词集。
通过以上技术方案,能够准确识别出和目标文档所表达的观点和看法相似的群体以及群体的关注对象,从而辅助用户更好地识别所传播类似信息的群体。
附图说明
图1示出了根据本发明的一个实施例的群体识别方法的示意流程图;
图2示出了根据本发明的实施例的群体识别装置的示意框图;
图3示出了根据本发明的另一个实施例的群体识别方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的群体识别方法的示意流程图。
如图1所示,根据本发明的一个实施例的群体识别方法,包括:
步骤102,获取目标文档对应的组合特征词集,其中,所述组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词。
步骤104,获取参考文档集中的多篇关联于所述组合特征词集的参考文档,并对多篇所述参考文档进行归类处理,以得到多个群体类别。
步骤106,获取所述目标文档对应的特征向量,以及所述组合特征词集中的目标词对应的词向量。
步骤108,根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别。
步骤110,根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象。
在该技术方案中,通过获取目标文档对应的组合特征词集以及多篇关联于组合特征词集的参考文档,以基于多篇参考文档得到多个群体类别,并基于目标文档对应的特征向量和多个群体类别对应的特征向量,来确定目标文档所属群体类别,其中,组合特征词集至少包含用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词,从而确保了对目标文档所属群体类别的识别结果的准确性,同时根据组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性,确定目标文档所属群体类别的关注对象,能够辅助用户更好地识别所传播类似信息的群体。其中,目标文档包括用户指定的待分析文档,参考文档集包括通过爬虫技术或其他方式从互联网上采集到的文档,以作为分析目标文档时所使用的参考文档。
在上述技术方案中,优选地,所述组合特征词集中还包括所述目标词的近义词以及所述态度词的近义词。
在该技术方案中,考虑到组合特征词集中若仅包含目标词和态度词,可能会造成特征向量稀疏,影响群体类别的识别准确率,可对目标词和态度词进行语义的近似扩充,以为组合特征词集添加目标词的近义词以及态度词的近义词,从而有效地避免了特征向量稀疏的问题,进一步地提高群体类别的识别准确率。
在上述任一项技术方案中,优选地,所述获取所述目标文档对应的特征向量的步骤,具体包括:计算所述组合特征词集中的目标词和态度词共同出现的次数和逆文档频率;根据所述次数和所述逆文档频率的乘积,确定所述目标文档对应的组合权重;基于所述目标文档对应的组合权重,确定所述目标文档对应的特征向量。
在该技术方案中,基于目标词和态度词来确定目标文档对应的特征向量,为后续准确识别出目标文档所属群体类别提供前提保障。
在上述任一项技术方案中,优选地,所述根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的步骤,具体包括:将多个所述群体类别中的与所述目标文档对应的特征向量之间相似性大于第一阈值的群体类别,作为所述目标文档所属群体类别。
在该技术方案中,通过目标文档对应的特征向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象的步骤,具体包括:将所述组合特征词集中的与所述目标文档所属群体类别对应的特征向量之间相似性大于第二阈值的目标词,作为所述目标文档所属群体类别对应的目标词,以表示所述目标文档所属群体类别的关注对象。
在该技术方案中,通过组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述获取目标文档对应的组合特征词集的步骤,具体包括:对所述目标文档进行分词以及词性标注处理;基于依存句法对处理后的目标文档进行分析,以得到所述组合特征词集。
在该技术方案中,依存句法是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者,利用依存句法分析,可以确定词之间的修饰关系,所以通过依存句法对经过分词以及词性标注处理后的目标文档进行分析,可准确地获取到目标特征词集。
图2示出了根据本发明的实施例的群体识别装置的示意框图。
如图2所示,根据本发明的实施例的群体识别装置200,包括:第一获取单元202、第二获取单元204、第三获取单元206、第一确定单元208和第二确定单元210。
其中,第一获取单元202用于获取目标文档对应的组合特征词集,其中,所述组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词;第二获取单元204用于获取参考文档集中的多篇关联于所述组合特征词集的参考文档,并对多篇所述参考文档进行归类处理,以得到多个群体类别;第三获取单元206用于获取所述目标文档对应的特征向量,以及所述组合特征词集中的目标词对应的词向量;第一确定单元208用于根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别;以及第二确定单元210用于根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象。
在该技术方案中,通过获取目标文档对应的组合特征词集以及多篇关联于组合特征词集的参考文档,以基于多篇参考文档得到多个群体类别,并基于目标文档对应的特征向量和多个群体类别对应的特征向量,来确定目标文档所属群体类别,其中,组合特征词集至少包含用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词,从而确保了对目标文档所属群体类别的识别结果的准确性,同时根据组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性,确定目标文档所属群体类别的关注对象,能够辅助用户更好地识别所传播类似信息的群体。其中,目标文档包括用户指定的待分析文档,参考文档集包括通过爬虫技术或其他方式从互联网上采集到的文档,以作为分析目标文档时所使用的参考文档。
在上述技术方案中,优选地,所述组合特征词集中还包括所述目标词的近义词以及所述态度词的近义词。
在该技术方案中,考虑到组合特征词集中若仅包含目标词和态度词,可能会造成特征向量稀疏,影响群体类别的识别准确率,可对目标词和态度词进行语义的近似扩充,以为组合特征词集添加目标词的近义词以及态度词的近义词,从而有效地避免了特征向量稀疏的问题,进一步地提高群体类别的识别准确率。
在上述任一项技术方案中,优选地,所述第三获取单元206具体用于:计算所述组合特征词集中的目标词和态度词共同出现的次数和逆文档频率;根据所述次数和所述逆文档频率的乘积,确定所述目标文档对应的组合权重;基于所述目标文档对应的组合权重,确定所述目标文档对应的特征向量。
在该技术方案中,基于目标词和态度词来确定目标文档对应的特征向量,为后续准确识别出目标文档所属群体类别提供前提保障。
在上述任一项技术方案中,优选地,所述第一确定单元208具体用于:将多个所述群体类别中的与所述目标文档对应的特征向量之间相似性大于第一阈值的群体类别,作为所述目标文档所属群体类别。
在该技术方案中,通过目标文档对应的特征向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述第二确定单元210具体用于:将所述组合特征词集中的与所述目标文档所属群体类别对应的特征向量之间相似性大于第二阈值的目标词,作为所述目标文档所属群体类别对应的目标词,以表示所述目标文档所属群体类别的关注对象。
在该技术方案中,通过组合特征词集中的目标词对应的词向量与多个群体类别对应的特征向量之间的相似性的比较,确保了能够准确识别出目标文档所属群体类别。其中,多个群体类别对应的特征向量包括中心向量。
在上述任一项技术方案中,优选地,所述第一获取单元202具体用于:对所述目标文档进行分词以及词性标注处理;基于依存句法对处理后的目标文档进行分析,以得到所述组合特征词集。
在该技术方案中,依存句法是通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者,利用依存句法分析,可以确定词之间的修饰关系,所以通过依存句法对经过分词以及词性标注处理后的目标文档进行分析,可准确地获取到目标特征词集。
以下结合图3对本发明的技术方案作进一步说明。
如图3所示,根据本发明的另一个实施例的群体识别方法,包括:
(1)、对用户给定的目标文档进行分词、词性标注,利用依存句法分析文章中的主体词和修饰词,即目标词和态度词,抽取有代表性的目标词和态度词搭配作为组合特征词。
具体地,组合特征词的选择,组合特征词即目标词和态度词的组合搭配,目标词是指一句话中所描述的对象,即主体词,如“反腐”、“个人崇拜”等,态度词则是对该对象的情感修饰,如“支持”、“反对”、“拥护”、“赞成”等。该步骤是为了得到文章作者所描述的对象及对其持有的态度的特征词。目标词和态度词搭配作为组合特征词,丰富了作者对某个主体的认知情感,能直观反映其对某个事件的态度。其中,目标文档即为用户需要分析的文章,目的是通过该文档的组合特征词提取及分析,从大量文章中找出与之有相同观点倾向的人群并给予描述关注的对象。
(2)、利用word2vec训练大规模语料,根据(1)中抽取的目标词和态度词,从训练出的词向量模型中扩充出更多相似的目标词和态度词。扩充出的相似目标词和态度词与(1)中抽取出的目标词和态度词被看作是可以语义相近故可相互替换的词,即对于(1)中的每个目标词都对应其相似目标词集合,每个态度词都对应其相似态度词集合。
具体地,组合特征词的扩充,通过训练大量采集到的文档,得到词向量模型,通过词向量之间的语义相似性计算来得到更多的候选特征词。由于作者在表达相似观点时,不免会用到不同的词,但这些词却含有相似的意义,故应被看作是可以替换的词,如“同意”与“认同”语义相近,“反对”与“抵制”也具有同等的意思。如果不对目标词和态度词进行语义的近似扩充,仅仅抽取(1)中含有的目标词和态度词作为组合特征词,会导致特征向量中含有大量的0,造成向量稀疏,降低语义匹配的准确率。所以通过组合特征词的扩充,可以有效避免了特征向量稀疏的问题,为准确表达作者的意图提供依据。其中,大规模训练语料可以通过爬虫技术从互联网上采集相应领域或事件的文章,用作分析的原始数据,包括作者信息相关信息,每个作者的文章数应大体相同,word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,通过大规模语料的训练,将词表示成向量的形式,对有效计算词与词之间的相似性起到了关键作用。其中,计算词之间相似的方法可采用余弦相似度算法。
(3)、对参考文档进行分词、词性标注,利用依存句法分析每篇参考文档中的目标词和态度词,如果该目标词存在与(1)中的目标词集合或者存在于某个目标词的扩充集合中,并且该态度词存在与(1)中的态度词集合或者存在于某个态度词的扩充集合中,则计算其组合权重,计算公式如下,否则置为0。同样对目标文档也计算出其组合权重,每个权重占据特征向量中的一维,并对该特征向量归一化。依据以下公式来计算组合权重:
weight=tf(目标词,态度词)×idf(目标词,态度词);
其中,tf为该文档中目标词和态度词共同出现的次数,idf为所有文档中目标词和态度词共同出现的逆文档频率。
具体地,对参考文档利用依存句法分析来提取主题词和修饰词的搭配,一般情况下,主体词即目标词,修饰词即态度词,统计各组合特征中目标词和态度词出现的次数,计算其tf×idf作为该组合特征的权重,从而构成n维特征向量,对目标文档同样计算其特征向量。
(4)、利用聚类算法对(3)中提取出的特征向量归类,以得到各个类别。计算目标文章的特征向量与各类别的中心向量的相似性,过滤出相似性大于一定阈值的类别。计算(1)中提取出的组合特征词中的目标词的词向量与过滤出的各个类别的中心向量的相似性,取相似性大于一定阈值的目标词作为该类别中的群体的关注对象。
具体地,利用各参考文档的特征向量进行聚类,从而得到含有相似关注点的群体的各个类别。其中聚类算法包括LDA(Latent Dirichlet Allocation,文档主体生成模型)、层次聚类、k-Means(K-均值算法)等。取与目标文档相似性大于一定阈值的类别作为后续分析重点。由于这些类别中的群体关注的方面也各有侧重,因此给出一定的描述信息来发现群体的关注点也格外重要。由于目标文档中含有已经提取出的目标词,即(1)中的目标词,通过(2)中的词向量模型即可得到目标词的词向量表示,故通过计算各目标词的词向量与各个类别的中心向量的相似性便可给各个类别的群体打上关注的对象标签,对群体的关注点给予发现。
在上述实施例中,组合特征词能够丰富所选择的特征词,准确表达人们对事件的态度和看法,利用聚类技术发现与目标文档观点相似或者关注点相似的群体,并识别出其重点关注的对象,对需要预警的人群进行提示。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种新的群体识别方案,能够准确识别出和目标文档所表达的观点和看法相似的群体以及群体的关注对象,从而辅助用户更好地识别所传播类似信息的群体。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种群体识别方法,其特征在于,包括:
获取目标文档对应的组合特征词集,其中,所述组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词;
获取参考文档集中的多篇关联于所述组合特征词集的参考文档,并对多篇所述参考文档进行归类处理,以得到多个群体类别;
获取所述目标文档对应的特征向量,以及所述组合特征词集中的目标词对应的词向量;
根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别;以及
根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象。
2.根据权利要求1所述的群体识别方法,其特征在于,所述组合特征词集中还包括所述目标词的近义词以及所述态度词的近义词。
3.根据权利要求1所述的群体识别方法,其特征在于,所述获取所述目标文档对应的特征向量的步骤,具体包括:
计算所述组合特征词集中的目标词和态度词共同出现的次数和逆文档频率;
根据所述次数和所述逆文档频率的乘积,确定所述目标文档对应的组合权重;
基于所述目标文档对应的组合权重,确定所述目标文档对应的特征向量。
4.根据权利要求1至3中任一项所述的群体识别方法,其特征在于,所述根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的步骤,具体包括:
将多个所述群体类别中的与所述目标文档对应的特征向量之间相似性大于第一阈值的群体类别,作为所述目标文档所属群体类别。
5.根据权利要求4所述的群体识别方法,其特征在于,所述根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象的步骤,具体包括:
将所述组合特征词集中的与所述目标文档所属群体类别对应的特征向量之间相似性大于第二阈值的目标词,作为所述目标文档所属群体类别对应的目标词,以表示所述目标文档所属群体类别的关注对象。
6.根据权利要求1至3中任一项所述的群体识别方法,其特征在于,所述获取目标文档对应的组合特征词集的步骤,具体包括:
对所述目标文档进行分词以及词性标注处理;
基于依存句法对处理后的目标文档进行分析,以得到所述组合特征词集。
7.一种群体识别装置,其特征在于,包括:
第一获取单元,用于获取目标文档对应的组合特征词集,其中,所述组合特征词集中至少包含有用于表示关注对象的目标词以及有用于表示对关注对象的观点的态度词;
第二获取单元,用于获取参考文档集中的多篇关联于所述组合特征词集的参考文档,并对多篇所述参考文档进行归类处理,以得到多个群体类别;
第三获取单元,用于获取所述目标文档对应的特征向量,以及所述组合特征词集中的目标词对应的词向量;
第一确定单元,用于根据所述目标文档对应的特征向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别;以及
第二确定单元,用于根据所述组合特征词集中的目标词对应的词向量与多个所述群体类别对应的特征向量之间的相似性,确定所述目标文档所属群体类别的关注对象。
8.根据权利要求7所述的群体识别装置,其特征在于,所述组合特征词集中还包括所述目标词的近义词以及所述态度词的近义词。
9.根据权利要求7所述的群体识别装置,其特征在于,所述第三获取单元具体用于:
计算所述组合特征词集中的目标词和态度词共同出现的次数和逆文档频率;
根据所述次数和所述逆文档频率的乘积,确定所述目标文档对应的组合权重;
基于所述目标文档对应的组合权重,确定所述目标文档对应的特征向量。
10.根据权利要求7至9中任一项所述的群体识别装置,其特征在于,所述第一确定单元具体用于:
将多个所述群体类别中的与所述目标文档对应的特征向量之间相似性大于第一阈值的群体类别,作为所述目标文档所属群体类别。
11.根据权利要求10所述的群体识别装置,其特征在于,所述第二确定单元具体用于:
将所述组合特征词集中的与所述目标文档所属群体类别对应的特征向量之间相似性大于第二阈值的目标词,作为所述目标文档所属群体类别对应的目标词,以表示所述目标文档所属群体类别的关注对象。
12.根据权利要求7至9中任一项所述的群体识别装置,其特征在于,所述第一获取单元具体用于:
对所述目标文档进行分词以及词性标注处理;
基于依存句法对处理后的目标文档进行分析,以得到所述组合特征词集。
CN201611144762.4A 2016-12-13 2016-12-13 群体识别方法及群体识别装置 Pending CN108228587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611144762.4A CN108228587A (zh) 2016-12-13 2016-12-13 群体识别方法及群体识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611144762.4A CN108228587A (zh) 2016-12-13 2016-12-13 群体识别方法及群体识别装置

Publications (1)

Publication Number Publication Date
CN108228587A true CN108228587A (zh) 2018-06-29

Family

ID=62638091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611144762.4A Pending CN108228587A (zh) 2016-12-13 2016-12-13 群体识别方法及群体识别装置

Country Status (1)

Country Link
CN (1) CN108228587A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633468A (zh) * 2019-09-04 2019-12-31 山东旗帜信息有限公司 一种关于对象特征提取的信息处理方法及装置
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
CN110858313A (zh) * 2018-08-24 2020-03-03 国信优易数据有限公司 一种人群分类方法以及人群分类系统
CN112101024A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 基于app信息的目标对象识别系统
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189600A1 (en) * 2007-02-07 2008-08-07 Ibm System and Method for Automatic Stylesheet Inference
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN106096004A (zh) * 2016-06-23 2016-11-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080189600A1 (en) * 2007-02-07 2008-08-07 Ibm System and Method for Automatic Stylesheet Inference
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN106096004A (zh) * 2016-06-23 2016-11-09 北京工业大学 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
CN110858313A (zh) * 2018-08-24 2020-03-03 国信优易数据有限公司 一种人群分类方法以及人群分类系统
CN110858313B (zh) * 2018-08-24 2023-01-31 国信优易数据股份有限公司 一种人群分类方法以及人群分类系统
CN110633468A (zh) * 2019-09-04 2019-12-31 山东旗帜信息有限公司 一种关于对象特征提取的信息处理方法及装置
CN112101024A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 基于app信息的目标对象识别系统
CN112101024B (zh) * 2020-11-12 2021-02-05 北京云真信科技有限公司 基于app信息的目标对象识别系统
CN112380344A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112380344B (zh) * 2020-11-19 2023-08-22 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Zhou et al. Fake news early detection: A theory-driven model
Schakel et al. Measuring word significance using distributed representations of words
Kaushik et al. A comprehensive study of text mining approach
US20190057310A1 (en) Expert knowledge platform
Ramnial et al. Authorship attribution using stylometry and machine learning techniques
CN108228587A (zh) 群体识别方法及群体识别装置
Bisandu et al. Clustering news articles using efficient similarity measure and N-grams
Chang et al. Research on detection methods based on Doc2vec abnormal comments
WO2014039897A1 (en) System and method for mapping semiotic relationships
KR20120108095A (ko) 소셜 데이터 분석 시스템
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN106537387B (zh) 检索/存储与事件相关联的图像
Tabak et al. Comparison of emotion lexicons
Rygl Automatic adaptation of author’s stylometric features to document types
Riahi et al. Implicit emotion detection from text with information fusion
Li et al. A hybrid model for role-related user classification on twitter
Yuan et al. Research of deceptive review detection based on target product identification and metapath feature weight calculation
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Sahu et al. Detecting factual and non-factual content in news articles
Hou et al. HITSZ-ICRC at NTCIR-11 Temporalia Task.
Hendrickson et al. Identifying exceptional descriptions of people using topic modeling and subgroup discovery
Saqib et al. Grouping of aspects into relevant category based on wordnet definitions
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.
Cunha et al. How you post is who you are: Characterizing Google+ status updates across social groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629