CN105654144A - 一种基于机器学习的社交网络本体构建方法 - Google Patents

一种基于机器学习的社交网络本体构建方法 Download PDF

Info

Publication number
CN105654144A
CN105654144A CN201610115254.7A CN201610115254A CN105654144A CN 105654144 A CN105654144 A CN 105654144A CN 201610115254 A CN201610115254 A CN 201610115254A CN 105654144 A CN105654144 A CN 105654144A
Authority
CN
China
Prior art keywords
label
rcs
represent
hyponymy
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610115254.7A
Other languages
English (en)
Other versions
CN105654144B (zh
Inventor
吴天星
李丞
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610115254.7A priority Critical patent/CN105654144B/zh
Publication of CN105654144A publication Critical patent/CN105654144A/zh
Application granted granted Critical
Publication of CN105654144B publication Critical patent/CN105654144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的社交网络本体构建方法,主要用于处理社交网络上的标签之间的上下位关系(即传统意义上的包含关系)的判定以及相应的本体的构建问题;从社交网络上抓取标签作为原始的数据集。本发明首先设计了6个特征值用于刻画任意两个标签之间的相似性,接着从原始数据集中挑选了部分标签对,结合它们的相似性特征值构成训练数据集,并人工对训练数据集中的标签对是否具有上下位关系进行标注;然后利用RandomForest的机器学习模型训练我们的训练数据集得到分类器模型;之后利用分类器模型对原始数据中任意两个标签之间的上下位关系进行判定并标注;抽取出所有具有上下位关系的标签对,构建出最终的社交网络本体。

Description

一种基于机器学习的社交网络本体构建方法
技术领域
本发明属于本体构建领域,涉及一种基于机器学习的社交网络本体构建方法。
背景技术
近年来,社交网络飞速发展,越来越多的人开始使用社交网络。随着社交网络的普及,社交网络之中的数据量也越来越大。很多社交站点允许用户通过自定义标签的方式对一些内容进行标注和分类,即我们所说的分众分类法。这些通过用户自定义的方式产生的分类标签缺乏规范性,可能会有语义模糊、用词不准确、一词多义以及同词异意等问题。这就给基于分众分类法的社交本体的构建带来了极大的挑战。
社交网络上存在大量的平面的、杂乱的、无组织的数据,这些数据得不到充分的利用。而构建本体就是对这些数据进行建模的一个很好的方式。将这些平面的数据通过本体组织起来,能让我们更好的去利用这些数据,同时也可以利用本体的结构去挖掘更多社交网络上不断涌现的新知识。
不同的本体构建方法,其构建效果也千差万别。近年来,国内外研究人员为了解决分众分类的本体构建问题,提出了许多不同的本体构建方法,包括周鑫等人提出的基于概念外延的Folksonomy语义关系挖掘方法、XianceSi等人提出的基于标签共现的本体构建方法、HuairenLin等人提出的一种基于关联规则挖掘和本体概念匹配的社交本体的构建方法以及Wen-haoChen等人提出的一种基于基础概念的分众分类本体构建方法等。但这些方法都是仅仅基于标签共现和关联规则挖掘来实现本体的构建,无法深入挖掘本体中标签之间的语义关系,因此构建效果并不尽如人意,达不到实用要求。
本文中所提出的基于机器学习的社交本体的构建方法,通过设计包括标签共现在内的七个相似性特征值去刻画两个标签之间的相似程度,从语言学、语义以及标签共现三个角度,全方位描述两个标签的语义关系,让计算机能够深入理解这两个标签的语义关系,而不仅仅停留于字面的意思,很好地提升了最终的社交的本体构建的效果。
发明内容
技术问题:本发明提供一种对于给定的两个标签,能够自动判断这两个标签是否具有上下位关系的基于机器学习的社交网络本体构建方法。同时,本发明从社交网络上抓取标签,对这些标签自动进行上下位关系的标注之后,抽取出所有具有上下位关系的标签对,并利用这些标签,构建出最终的社交本体。
技术方案:本发明的基于机器学习的社交网络本体构建方法,首先从社交网络上抓取标签作为原始数据集;然后从原始数据集中随机生成m对标签并人工从原始数据抽取出n对具有上下位关系的标签作为训练数据集,m和n的比例在3∶1到5∶1之间;接着人工对训练数据集中的每对标签是否具有上下位关系进行标注;然后设计了6个用于刻画两个标签之间的相似性的特征,并计算训练数据集中每对标签的这七个特征值,一并加入到训练数据集之中;使用机器学习中的RandomForest分类模型和十层交叉验证的方式对我们的训练数据集进行分类和验证之后,导出该训练数据集对应的分类器模型;利用导出的分类器模型对原始数据进行自动标注;最后抽取出所有被标注为具有上下位关系的标签对,构建最终的社交本体。
本发明的基于机器学习的社交网络本体构建方法,包括如下步骤:
1)从社交网络抓取标签构成原始数据集。
2)从所述原始数据集中随机生成n对标签,从原始数据集抽取m对具有上下位关系的标签对构成训练数据集,n和m的比例保持在3∶1到5∶1之间;然后计算所述训练数据集中每对标签的相似性特征值,并把它们加入到训练数据集之中;
3)使用机器学习中的RandomForest分类模型和十层交叉验证的方式对所述步骤2)最终得到的训练数据集进行自动分类后,导出该训练数据集对应的分类器模型;
4)考虑标签的前后顺序,将原始数据中所有标签两两搭配,得到所有的标签对,然后利用所述步骤3)中所得的分类器模型对所有的标签对是否具有上下位关系自动进行判定并标注;
5)抽取出所有被标注为具有上下位关系的标签对,按照如下规则构建一个有向无环图,即为社交网络本体:
a)在构建过程中,如果出现环路,则去除该环路中权值最小的边;
b)在构建过程中,如果两个节点之间不止一条路径,则保留最长的路径,即保留边的数目最多的路径。
本发明的优选方案中,所述步骤2)中计算训练数据集中每对标签的相似性特征值,具体是按如下各公式分别计算用于刻画标签之间相似性的6个特征值:
CLsim ( c 1 , c 2 ) = LCS ( L ( c 1 ) , L ( c 2 ) ) | L ( c 1 ) |
其中,c1,c2为任意两个标签,L(c1)表示标签c1的文本字符串,L(c2)表示标签c2的文本字符串,LCS(L(c1),L(c2))表示标签c1,c2的公共字符串长度,|L(c1)|表示标签c1的字符串长度;
RCSsim ( c 1 , c 2 ) = | RCS ( c 1 ) ∩ RCS ( c 2 ) | | RCS ( c 1 ) |
其中,RCS(c1)表示标签c1的relatedcategory集合,RCS(c2)表示标签c2的relatedcategory集合,|RCS(c1)|表示标签c1的relatedcategory集合中的元素个数,|RCS(c1)∩RCS(c2)|表示标签c1的relatedcategory集合和标签c2的relatedcategory集合的交集的元素个数;
RCVsim ( c 1 , c 2 ) = Σ r ∈ RCS ( c 1 ) ∩ RCS ( c 2 ) rc ( c 1 ) * rc ( c 2 ) Σ r ∈ RCS ( c 1 ) rc ( c 1 ) ^ 2
其中,rc(c1)表示标签r在RCS(c1)中的权重,rc(c2)表示r在RCS(c2)中的权重;
TCsim ( c 1 , c 2 ) = Σ i = 1 n TC ( c 1 ) i * TC ( c 2 ) i Σ i = 1 n TC ( c 1 ) i ^ 2
其中,TC(c1)为c1的相似性特征向量,TC(c2)为c2的相似性特征向量,TC(c1)i是TC(c1)的第i维的值,TC(c2)i是TC(c2)的第i维的值,n是TC(c1)和TC(c2)的维度;
CAGsim ( c 1 , c 2 ) = | C ( c 1 ) ∩ C ( c 2 ) | | C ( c 1 ) |
其中,C(c1)=(c11,c12,….,c1n),c11~c1n是与标签c1标注过同一个问题的所有标签,C(c2)=(c21,c22,….,c2n),c21~c2n是与标签c2标注过同一个问题的所有标签,C(c1)∩C(c2)表示C(c1)和C(c2)的交集,|C(c1)∩C(c2)|等于C(c1)和C(c2)的集合的交集标签个数,|C(c1)|表示C(c1)的集合内的标签个数;
CAVsim ( c 1 , c 2 ) = Σ c ∈ C ( c 1 ) ∩ C ( c 2 ) V 1 ( c ) * V 2 ( c ) Σ c ∈ C ( c 1 ) V 1 ( c ) ^ 2
其中,V1(c)表示标签c在C(c1)的集合中的权重,V2(c)表示标签c在C(c2)的集合中的权重。
本发明的优选方案中,所述步骤2)中,权重rc(c1)设置为r在RCS(c1)中重复出现的次数;权重rc(c2)设置为r在RCS(c2)中重复出现的次数;权重V1(c)设置为c在C(c1)中重复出现的次数;权重V2(c)设置为c在C(c2)中重复出现的次数。
有益效果:本发明与现有技术相比,具有以下优点:
由于本体的构建方法不同,因此不同方法构建本体的效果也千差万别。近年来,国内外研究人员为了解决基于分众分类的本体的构建问题,提出了很多不同的本体构建方法,其中与本发明最接近的是基于概念外延的Folksonomy语义关系挖掘方法、基于标签共现的本体构建方法以及基于关联规则挖掘和本体概念匹配的社交本体的构建方法。
基于概念外延的Folksonomy语义关系挖掘方法,引入了一个“概念外延”的概念。一个标签Tag1的概念外延是指所有被Tag1标注的次数大于某一阈值的资源的集合。通过界定两个标签的概念外延之间的关系来判断两个标签的语义关系。该方法提出:如果Tag2的外延是Tag1的外延的真子集,那么Tag2和Tag1具有上下位关系,并且Tag1是Tag2的上位。用公式来刻画该观点即:
P ( A | B ) = P ( A ∩ B ) P ( B ) = | EO ( A ) ∩ EO ( B ) | | EO ( B ) |
其中EO(A)和EO(B)分别表示标签A的概念外延和标签B的概念外延。如果P(A|B)大于某一阈值,则可判定标签A和B是具有上下位关系的。
通过以上对该方法的过程分析可以看出,基于概念外延的Folksonomy语义挖掘方法本质上是用一系列和该标签相关的资源所构成的集合来代表该标签。通过两个标签的集合的相交的情况来判定两个标签的语义关系。该方法和本发明的6个特征之一的RCSsim特征最为类似。但是由于该方法没有考虑集合中每个资源的权值是不一样的,所以在很多情况下该方法效果不理想。
本发明受该方法的启发,在该方法的基础上创新性地进行了改进。相比较而言,本发明在相似性特征的设计方面进行了创新性的改变。本发明不仅设计了和该方法类似的RCSsim这个特征,利用两个标签的相关资源集合的相交情况来刻画两个标签的语义关系,还更进一步地考虑不了资源集合中每个资源的权值,设计了RCVsim这个特征。通过为集合中每个资源引入权值,使得这些资源对该标签的刻画更加精确,一些重要的资源被赋予较高的权值,而集合中的噪声数据在被赋予一个较小的权值之后,就减弱了噪声数据对实验结果的影响,这使得本发明相较于该方法效果更加理想。除此之外,该方法仅仅从集合相交这一个角度来设计相似性特征,非常容易受到一些不稳定因素的影响,如异常数据等。而本发明除了从这个角度之外,还从语言学以及标签共现的角度对两个标签之间的语义关系进行相似性特征的设计。通过从三个方面进行相似性特征设计,对两个标签之间的语义关系进行全面的刻画,使得原来单一角度的异常数据所造成的不稳定缺陷被其他特征所弥补,效果更加理想。
基于标签共现的本体构建方法,该方法提出了基于标签和标签的共现、标签和文档的共现以及标签和描述信息的共现三种共现的刻画方式,该方法使用了三个不同的方式来刻画了标签之间的共现关系。该方法于本发明所采用的方法的区别在于,该方法虽然使用了三种共现方式,但其仍然是仅仅从共现这一个角度来进行相似性特征设计,单一角度的相似性特征对标签之间的语义关系的刻画不够深入,必然会导致结果的不稳定性,结果容易受到异常数据、噪声数据的影响而导致效果不佳。本发明受该方法的启发,在该方法的基础上,对相似性特征设计的方法做了改进。在相似性特征设计方面,本发明除了从标签共现角度,还从语言学以及语义关系的角度进行了相似性特征的设计。通过设计这三个角度的相似性特征,利用它们共同去刻画标签间的语义关系而不仅仅采用标签共现这个单一的角度,可以使相似性特征对标签间的语义关系的刻画更加精确深入。因而最终的效果更加理想。
基于关联规则挖掘和本体概念匹配的社交本体的构建方法,该方法首先采用了关联规则挖掘对标签之间的关联规则进行挖掘,对标签之间的语义关系首先进行了一个模糊的判定,接着利用一些已有的本体库中的语义关系和已有的关系进行匹配,最终得到标签之间的语义关系。该方法和本发明所采用的方法的区别在于,该方法在判定两个标签的语义关系之前并未设计相关相似性特征对两个标签间的语义关系进行刻画,而是直接使用关联规则挖掘和本体概念匹配的方式确定两个标签之间的语义关系。而本发明是先设计了相似性特征对两个标签间的语义关系进行定量的刻画,然后再使用机器学习中的监督学习法确定标签间的语义关系。该方法的缺陷在于:第一步关联规则挖掘得到的语义关系大部分都是模糊的、不精确的语义关系,即使通过第二步的和本体库中的语义关系进行匹配后,部分语义关系变精确,但是对于本体库中不存在的,无法进行匹配的标签对间的语义关系,仍然存在大量语义模糊、不精确的现象。而本发明所采用的方法的核心是设计相似性特征,通过相似性特征的设计并不需要依赖于已有的本体库,相较于该方法适用的情形更广。本发明也并未使用关联规则挖掘的方法,而是通过设计相关相似性特征去精确刻画两个标签的语义关系,再使用机器学习中的监督学习法,确定两个标签间的语义关系,因此语义关系中语义模糊、不精确的现象也不存在。
此外,以上几种方法,在对规范化的词语构成的标签之间的语义关系进行判定时,效果都比较好。然而它们对社交网络上涌现出的一些新词的判定效果都不太理想。这是因为以上几种方法对标签间的语义关系的刻画都不够深入,仅仅从单一的角度或者根本没有对标签间的语义关系进行刻画,相似性特征设计也只考虑到了单一的角度。而本发明的发明点在于,受已有方法的启发,不仅设计了相似性特征,而且在设计相似性特征的方法上做出了创新。本发明从语言学、语义以及标签共现三个角度,设计了6个相似性特征,来对标签间的语义关系进行刻画。这种刻画更加全面深入,使计算机能够“理解”标签间的语义关系,因此本发明在对社交网络上出现的一些新词间的语义关系的判定上表现的也很好。
经对实验结果的抽样统计,本发明对不具备上下位关系的标签对的判定正确率高达96%,而我们重点关注的具有上下位关系的标签对的判定正确率为88%,最终的效果很好。
附图说明
图1是本发明的基本过程示意图;
图2是层次体系结构构建算法图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的基于机器学习的本体构建方法,包括以下几个步骤:
1)利用爬虫技术,从社交网络中抓取标签。可根据本体构建规模的需要调整原始数据集中标签对的数量,原始数据集中标签对数量越多,则最终的本体构建的规模也越大
2)生成训练数据集。
(2a)利用已有的随机函数从原始数据集随机生成m对的标签对。
(2b)人工从原始数据集中挑选n对具有上下位关系的标签对。这n对标签均匀地分布在整个原始数据集中,而不是集中在某一区域。
(2c)m和n的比例在3∶1到5∶1之间均可。
(2d)以上三个步骤得到的标签是初始的训练数据集,人工对训练数据集中的标签对进行标注,具有上下位关系,则标注为“Y”,不具有上下位关系则标注为“N”。
3)计算训练数据集中每对标签的相似特征值,并加入到训练数据集之中。具体按如下公式计算6个用于刻画标签之间相似性的特征值:
CLsim ( c 1 , c 2 ) = LCS ( L ( c 1 ) , L ( c 2 ) ) | L ( c 1 ) |
其中,c1,c2为任意两个标签,L(c1)表示标签c1的文本字符串,L(c2)表示标签c2的文本字符串,LCS(L(c1),L(c2))表示标签c1,c2的公共字符串长度,|L(c1)|表示标签c1的字符串长度;
RCSsim ( c 1 , c 2 ) = | RCS ( c 1 ) ∩ RCS ( c 2 ) | | RCS ( c 1 ) |
其中,RCS(c1)表示标签c1的relatedcategory集合,RCS(c2)表示标签c2的relatedcategory集合,|RCS(c1)|表示标签c1的relatedcategory集合中的元素个数,|RCS(c1)∩RCS(c2)|表示标签c1的relatedcategory集合和标签c2的relatedcategory集合的交集的元素个数;
标签c1的relatedcategory集合是指:将标签c1提交到百度知道搜索引擎,获取搜索结果的前n页的所有问题,n大于等于10。每一个问题都有标签(category)来标注它们。由所有的这些category构成的集合就是标签c1的relatedcategory集合。
RCVsim ( c 1 , c 2 ) = Σ r ∈ RCS ( c 1 ) ∩ RCS ( c 2 ) rc ( c 1 ) * rc ( c 2 ) Σ r ∈ RCS ( c 1 ) rc ( c 1 ) ^ 2
其中,rc(c1)表示标签r在RCS(c1)中的权重,即r在RCS(c1)中重复出现的次数,rc(c2)表示r在RCS(c2)中的权重,即r在RCS(c2)中重复出现的次数;
TCsim ( c 1 , c 2 ) = Σ i = 1 n TC ( c 1 ) i * TC ( c 2 ) i Σ i = 1 n TC ( c 1 ) i ^ 2
其中,TC(c1)为c1的相似性特征向量,TC(c2)为c2的相似性特征向量,TC(c1)i是TC(c1)的第i维的值,TC(c2)i是TC(c2)的第i维的值,n是TC(c1)和TC(c2)的维度;
任意一个标签c1的特征向量的计算方法如下:
将标签c1提交到百度搜索引擎,获取前m条搜索记录,m大于等于20。抓取每条记录的snippet部分,即我们通常所说的百度快照部分。
这些内容用来代表标签c1。接着我们使用中文分词算法来对每一个标签的这些内容进行分词,得到n个关键词。这n个关键词形成一个虚拟的文档来表示标签c1,记为l(c1)=(k1,k2,...,kn)。
我们定义标签c1的特征向量为TC(c1)。TC(c1)是一个N维的向量。N是所有标签的所有关键词个数总和。
TC(c1)的第i维TC(c1)i的值等于第i个关键词在标签c1的文档中的TF-IDF值
CAGsim ( c 1 , c 2 ) = | C ( c 1 ) ∩ C ( c 2 ) | | C ( c 1 ) |
其中,C(c1)=(c11,c12,….,c1n),c11~c1n是与标签c1标注过同一个问题的所有标签,C(c2)=(c21,c22,….,c2n),c21~c2n是与标签c2标注过同一个问题的所有标签,C(c1)∩C(c2)表示C(c1)和C(c2)的交集,|C(c1)∩C(c2)|等于C(c1)和C(c2)的集合的交集标签个数,|C(c1)|表示C(c1)的集合内的标签个数;
CAVsim ( c 1 , c 2 ) = Σ c ∈ C ( c 1 ) ∩ C ( c 2 ) V 1 ( c ) * V 2 ( c ) Σ c ∈ C ( c 1 ) V 1 ( c ) ^ 2
其中,V1(c)表示标签c在C(c1)中的权重,即标签c在C(c1)中出现的次数,V2(c)表示标签c在C(c2)中的权重,即标签c在C(c2)中出现的次数;
4)使用机器学习中的RandomForest分类模型和十层交叉验证的方式对以上步骤最终得到的训练数据集进行自动分类后,导出该训练数据集对应的分类器模型;
5)设原始数据集内任意两个标签c1和c2,考虑标签的前后顺序,将这两个标签搭配成两对标签:c1,c2和c2,c1;将原始数据集内的所有标签按此方式两两搭配,得到所有的标签对。
6)利用导出分类器模型,自动给出标签对的两个标签之间具有上下位关系的预测概率,并标注。如果两个标签具有上下位关系预测概率大于0.9,则标注为“Y”,否则标注为“N”。
7)抽取出所有被分类器自动标注为具有上下位关系(“Y”类别)的标签对,按照如下规则构建一个有向无环图,即为社交网络本体:
a)在构建过程中,如果出现环路,则去除该环路中权值最小的边;
b)在构建过程中,如果两个节点之间不止一条路径,则保留最长的路径,即保留边的数目最多的路径;
具体构建的算法流程如下:
算法:构建层次体系结构
输入:R={ta→tb|ta∈T,tb∈T}
输出:G=(V,E)
该算法中T表示标签集,R表示所有上下位关系的集合。每个上下位关系的权值设置为该上下位关系的预测概率,由分类器在自动标注时给出。该算法首先从R中取出权值最大的上下位关系,作为初始的层次结构。接着从R中取出所有和当前的层次结构有交集的上下位关系并将其加入到当前的层次结构中,对当前层次结构进行扩展。如若R中不再有与当前层次结构有交集的上下位关系,重复第一步的步骤,从R中重新选择权值最大的一个上下位关系,继续重复上述步骤,直到所有的上下位关系都被加入到当前层次体系结构之中。每次往当前层次结构中加入一个新的上下位关系之后,都要判断当前层次结构中是否有环,如若有环,则去掉该环中权值最小的边,以保证无环。层次结构构建完毕之后,对层次结构中任意两个节点而言,如果有不止一条路径连接这两个节点,则只保留最长的路径。
通过以上的层次体系构建算法,所有的上下位关系便被连接成了一个层次体系结构。至此,本发明所提出的基于机器学习的社交网络本体构建方法已经构建成功。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (3)

1.一种基于机器学习的社交网络本体构建方法,其特征在于,该方法包括如下步骤:
1)从社交网络抓取标签构成原始数据集;
2)从所述原始数据集中随机生成n对标签,从原始数据集抽取m对具有上下位关系的标签对构成训练数据集,n和m的比例保持在3∶1到5∶1之间;然后计算所述训练数据集中每对标签的相似性特征值,并把它们加入到训练数据集之中;
3)使用机器学习中的RandomForest分类模型和十层交叉验证的方式对所述步骤2)最终得到的训练数据集进行自动分类后,导出该训练数据集对应的分类器模型;
4)考虑标签的前后顺序,将原始数据中所有标签两两搭配,得到所有的标签对,然后利用所述步骤3)中所得的分类器模型对所有的标签对是否具有上下位关系自动进行判定并标注;
5)抽取出所有被标注为具有上下位关系的标签对,按照如下规则构建一个有向无环图,即为社交网络本体:
a)在构建过程中,如果出现环路,则去除该环路中权值最小的边;
b)在构建过程中,如果两个节点之间不止一条路径,则保留最长的路径,即保留边的数目最多的路径。
2.根据权利要求书1所述的基于机器学习的社交网络本体构建方法,其特征在于,所述步骤2)中计算训练数据集中每对标签的相似性特征值,具体是按如下各公式分别计算用于刻画标签之间相似性的6个特征值:
CLsim ( c 1 , c 2 ) = LCS ( L ( c 1 ) , L ( c 2 ) ) | L ( c 1 ) |
其中,c1,c2为任意两个标签,L(c1)表示标签c1的文本字符串,L(c2)表示标签c2的文本字符串,LCS(L(c1),L(c2))表示标签c1,c2的公共字符串长度,|L(c1)|表示标签c1的字符串长度;
RCSsim ( c 1 , c 2 ) = | RCS ( c 1 ) ∩ RCS ( c 2 ) | | RCS ( c 1 ) |
其中,RCS(c1)表示标签c1的relatedcategory集合,RCS(c2)表示标签c2的relatedcategory集合,|RCS(c1)|表示标签c1的relatedcategory集合中的元素个数,|RCS(c1)∩RCS(c2)|表示标签c1的relatedcategory集合和标签c2的relatedcategory集合的交集的元素个数;
RCVsim ( c 1 , c 2 ) = Σ r ∈ RCS ( c 1 ) ∩ RCS ( c 2 ) rc ( c 1 ) * rc ( c 2 ) Σ r ∈ RCS ( c 1 ) rc ( c 1 ) ^ 2
其中,rc(c1)表示标签r在RCS(c1)中的权重,rc(c2)表示r在RCS(c2)中的权重;
TCsim ( c 1 , c 2 ) = Σ i = 1 n TC ( c 1 ) i * TC ( c 2 ) i Σ i = 1 n TC ( c 1 ) i ^ 2
其中,TC(c1)为c1的相似性特征向量,TC(c2)为c2的相似性特征向量,TC(c1)i是TC(c1)的第i维的值,TC(c2)i是TC(c2)的第i维的值,n是TC(c1)和TC(c2)的维度;
CAGsim ( c 1 , c 2 ) = | C ( c 1 ) ∩ C ( c 2 ) | | C ( c 1 ) |
其中,C(c1)=(c11,c12,….,c1n),c11~c1n是与标签c1标注过同一个问题的所有标签,C(c2)=(c21,c22,….,c2n),c21~c2n是与标签c2标注过同一个问题的所有标签,C(c1)∩C(c2)表示C(c1)和C(c2)的交集,|C(c1)∩C(c2)|等于C(c1)和C(c2)的集合的交集标签个数,|C(c1)|表示C(c1)的集合内的标签个数;
CAVsim ( c 1 , c 2 ) = Σ c ∈ C ( c 1 ) ∩ C ( c 2 ) V 1 ( c ) * V 2 ( c ) Σ c ∈ C ( c 1 ) V 1 ( c ) ^ 2
其中,V1(c)表示标签c在C(c1)的集合中的权重,V2(c)表示标签c在C(c2)的集合中的权重。
3.根据权利要求2所述的基于机器学习的社交网络本体构建方法,其特征在于,所述步骤2)中,权重rc(c1)设置为r在RCS(c1)中重复出现的次数,权重rc(c2)设置为r在RCS(c2)中重复出现的次数,权重V1(c)设置为c在C(c1)中重复出现的次数,权重V2(c)设置为c在C(c2)中重复出现的次数。
CN201610115254.7A 2016-02-29 2016-02-29 一种基于机器学习的社交网络本体构建方法 Active CN105654144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610115254.7A CN105654144B (zh) 2016-02-29 2016-02-29 一种基于机器学习的社交网络本体构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610115254.7A CN105654144B (zh) 2016-02-29 2016-02-29 一种基于机器学习的社交网络本体构建方法

Publications (2)

Publication Number Publication Date
CN105654144A true CN105654144A (zh) 2016-06-08
CN105654144B CN105654144B (zh) 2019-01-29

Family

ID=56492044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610115254.7A Active CN105654144B (zh) 2016-02-29 2016-02-29 一种基于机器学习的社交网络本体构建方法

Country Status (1)

Country Link
CN (1) CN105654144B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN107220900A (zh) * 2017-05-03 2017-09-29 陕西师范大学 基于中心投影的学生课堂社交网络自动构建方法
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN108932299A (zh) * 2018-06-07 2018-12-04 北京迈格威科技有限公司 用于对线上系统的模型进行更新的方法以及装置
CN108932530A (zh) * 2018-06-29 2018-12-04 新华三大数据技术有限公司 标签体系的构建方法及装置
CN109272036A (zh) * 2018-09-14 2019-01-25 西南交通大学 一种基于深度残差网络的随机蕨目标跟踪方法
CN111125418A (zh) * 2020-01-15 2020-05-08 广东工业大学 一种商标检索系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
US7899764B2 (en) * 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
CN102117281A (zh) * 2009-12-30 2011-07-06 北京亿维讯科技有限公司 一种构建领域本体的方法
CN102662923A (zh) * 2012-04-23 2012-09-12 天津大学 一种基于机器学习的本体实例学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899764B2 (en) * 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN102117281A (zh) * 2009-12-30 2011-07-06 北京亿维讯科技有限公司 一种构建领域本体的方法
CN102662923A (zh) * 2012-04-23 2012-09-12 天津大学 一种基于机器学习的本体实例学习方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MISSIKOFF M 等: "Integrated approach to web ontology learning and engineering", 《COMPUTER》 *
NAVIGLI R 等: "Ontology learning and its application to automated terminology", 《IEEE INTELLIGENT SYSTEMS》 *
李丽双: "领域本体学习中术语及关系抽取方法的研究", 《中国博士学位论文全文数据库 信息科技辑》 *
欧灵 等: "基于机器学习的本体概念相似性研究", 《计算机科学》 *
王海雄: "领域本体中的术语和上下位、同位关系抽取的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106875014B (zh) * 2017-03-02 2021-06-15 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN108733702B (zh) * 2017-04-20 2020-09-29 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN107220900A (zh) * 2017-05-03 2017-09-29 陕西师范大学 基于中心投影的学生课堂社交网络自动构建方法
CN107220900B (zh) * 2017-05-03 2020-10-16 陕西师范大学 基于中心投影的学生课堂社交网络自动构建方法
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN108932299A (zh) * 2018-06-07 2018-12-04 北京迈格威科技有限公司 用于对线上系统的模型进行更新的方法以及装置
CN108932530A (zh) * 2018-06-29 2018-12-04 新华三大数据技术有限公司 标签体系的构建方法及装置
CN109272036A (zh) * 2018-09-14 2019-01-25 西南交通大学 一种基于深度残差网络的随机蕨目标跟踪方法
CN111125418A (zh) * 2020-01-15 2020-05-08 广东工业大学 一种商标检索系统

Also Published As

Publication number Publication date
CN105654144B (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN105654144A (zh) 一种基于机器学习的社交网络本体构建方法
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN111159395B (zh) 基于图神经网络的谣言立场检测方法、装置和电子设备
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN103617280B (zh) 一种中文事件信息挖掘方法和系统
CN105975984B (zh) 基于证据理论的网络质量评价方法
CN106815293A (zh) 一种面向情报分析的构建知识图谱的系统及方法
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN109919368B (zh) 一种基于关联图的法条推荐预测系统及方法
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN108183956B (zh) 一种传播网络的关键路径提取方法
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN103164428B (zh) 确定微博与给定实体的相关性的方法和装置
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN111597331A (zh) 一种基于贝叶斯网络的裁判文书分类方法
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN103136358A (zh) 一种自动抽取论坛数据的方法
CN103942224B (zh) 一种获取网页分块的标注规则的方法及装置
CN105119910A (zh) 基于模板的在线社交网络垃圾信息实时检测方法
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210009 No. 87 Dingjiaqiao, Gulou District, Nanjing City, Jiangsu Province

Applicant after: Southeast University

Address before: 210096 No. four archway, 2, Jiangsu, Nanjing

Applicant before: Southeast University

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant