CN102591988B - 基于语义图的短文本分类方法 - Google Patents

基于语义图的短文本分类方法 Download PDF

Info

Publication number
CN102591988B
CN102591988B CN201210012077.1A CN201210012077A CN102591988B CN 102591988 B CN102591988 B CN 102591988B CN 201210012077 A CN201210012077 A CN 201210012077A CN 102591988 B CN102591988 B CN 102591988B
Authority
CN
China
Prior art keywords
node
text
semantic
steps
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210012077.1A
Other languages
English (en)
Other versions
CN102591988A (zh
Inventor
宋胜利
陈平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201210012077.1A priority Critical patent/CN102591988B/zh
Publication of CN102591988A publication Critical patent/CN102591988A/zh
Application granted granted Critical
Publication of CN102591988B publication Critical patent/CN102591988B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义图的短文本分类方法,其特征在于:其步骤如下:步骤A,对每条文本信息构建文本语义图模型,合并各条文本语义图模型;步骤B,对文本语义图模型采用相似度计算法比较不同文本之间的相似程度;步骤C,根据文本相似程度,使用文本语义图分类器进行分类。本发明中这种图结构表示文本可以极大程度上突出文档的语义内涵,所以利用这种方法构建出的TSG模型可以很大程度上精确的描述出文本中的隐含语义信息和主题特征,利用这一特征可以使得利用TSG的分类方法对比其他的分类方法更加可靠高效,极大程度上减小了人工的开销,避免了很大程度上的对文本信息的人工的整理,而使用计算机来自动进行组织。

Description

基于语义图的短文本分类方法
技术领域
本发明涉及一种语言处理、表示和文本分类领域,具体涉及一种基于语义图的短文本分类方法。
背景技术
互联网技术的快速变革使得人类社会进入了信息极大丰富和快速更新的时代,特别是近年来各种社交网络的出现,每天有海量文本信息不断产生和传播,这些文本信息通常都是由简短的话语构成。人们每日都要处理海量的信息资源,但利用人工是非常低效的。因此,我们迫切需要解决的问题是:如何更好的利用网络上的海量信息中潜在的语义信息来对文本信息进行高效的整理和分类,从而更为有效的对海量文本进行管理和维护。近年来出现了大量的针对文本信息的分类方法,但大多数的方法都无法准确高效以文本语义信息来进行分类。语义图式的短文本分类技术就是为了解决这一问题而提出的。它以图结构作为表示文本信息,利用图的相似性来计算文本之间的相似性,最终利用计算出的相似度运用于分类方法中把海量的文本资源根据涵义分到不同的类别。
文本分类技术是在预先给定的类别标记集合下,根据文本内容判定它的类别,其广泛应用于自然语言处理与理解、内容信息过滤和舆情管理等多个领域。利用计算机处理文本信息,首先必须把文本表示成计算机可以理解的形式。文本表示(Text Representation)是将自然语言文本描述为便于计算机处理的形式,它是文本分类处理及其它文本挖掘任务的基础和关键步骤。文本如何表示对分类方法的选择和分类的效果以及速度有极大的影响,好的文本表示方法可以极大的减少计算机处理的开销,同时好的文本表示方法可以充分的表示出一个文本单元的内在涵义而不丢失信息。文本表示需要满足两个基本条件:首先文本表示过程中应保证文本语义信息的一致性,其次要求文本表示模型应便于进行后续计算过程。
通常文本表示方法按照结构特征可以分为五类:(1)集合理论:文本表示为特征词的集合;(2)代数理论:文本表示为向量、元组或矩阵;(3)概率统计:利用马尔可夫模型等将文本处理看作概率推理,能够考虑有限的组合关系;(4)图论:利用有向图描述文本概念之间的语义关系;(5)混合模型。使用最广泛的文本表示方法有两种:基于词频统计的向量空间模型(Vector Space Model,简称VSM)和基于语义分析的隐含语义索引(LatentSemantic Indexing,简称LSI)。SVM利用词袋(Bag Of Words,简称BOW)作为文本表示单元,将文档中包含的特征词看作多维的特征空间,每篇文档分别对应于该特征空间向量的一个实例。LSI利用词语与概念之间的映射关系,通过奇异值分析将文本中的索引词映射到低维空间中进行分析。
目前对英文文本表示已经有了一定的研究,但对中文的文本表示研究方面还有所欠缺。这是因为,从自然语言理解的角度分析,英语是形合(Merplotactic)语言,造句要求词的形态变化符合规则,注重句法平面;而汉语是意合(Semotactic)语言,造句要求词的意义搭配符合情理,注重语义平面。VSM作为英文文本的一种有效表示方法在中文文本表示方法有一定的缺陷和不足:(1)缺少词根特征,文本通常表示为一个高维度稀疏向量;(2)不同词语包含的信息熵及其对于文档主题的贡献度没有作区分;(3)中文词语丰富的含义使得语义相同或者相近的文档中相同的词语并不多,文本表示中丢失了概念之间天然的语义联系。LSI利用本体库或者概念词典实现词语的语义映射,其应用于中文信息处理中也会受到限制:(1)中文缺乏实用的语义词典;(2)这类模型通常过于复杂,其通用性受到限制,不便于进行后续计算。
近年来,基于图结构模型的文本表示方法成为研究热点,Schenker[2]等(Classification of Web Documents Using a Graph Model)等首次将图结构引入到文本表示中,将Web文本中的英文特征项作为节点,以节点间的邻接共现关系为边进行构图,并用三种位置名称定义边的类别,这种方法在中文语境下无法直接使用,而且该模型构图时只考虑了边的位置信息,没有考虑特征项出现的频率及边的权重对文本表示效果的影响原因在于中文缺乏实用的语义词典,以及这类模型通常过于复杂,其通用性受到限制,不便于进行后续计算。
基于图的文本语义表示方法主要是从2000年后开始的,这种方法首先用在了信息检索领域,将两个文本分别利用概念图表示,利用概念图的二分特性加入了新的比较元素计算文档之间的相关性,并在信息检索中使用了关键词和概念图两层表示方法。Bhoopesh和Pushpa k针对词包表示方法在表示词语语义内涵的不足,利用句子中词语之间的语义关系产生新的特征向量,利用特征向量构建UNL图表示文本并结合SOM进行了聚类分析的神经网络方法,在特征向量统计中加入词频信息获得了更好的聚类效果;Adam Schenker在2003提出了用于网页聚类和分类的图结构文本表示模型,这种模型能够保留文档中不同部件之间的结构信息,分别在现有的分类和聚类算法上进行了扩展,其与传统的向量表示模型相比,提升了分类和聚类的准确性,但是这个模型仅考虑了特征词之间是否共现而并未考虑共现的频率。Svetlana提出了基于VerbNet和WordNet构建文本概念图,通过识别句子中不同的语义角色结合半自动化编译的领域特定知识构建概念图表示结构。虽然这些模型能够体现出文本的语义信息,但是由于其结构过于复杂没有一种有效的方法来计算图表示结构之间的相似度。
近年来,文本语义表示方法作为一个研究热点开展了大量的研究工作,并被广泛应用于各种不同的文本挖掘任务中。Wei Song[7]和Soon CheolPark根据词语对句子含义贡献度的不同,提出了一种包含统计分析器、概念本体图表示和概念提取器文档表示方法。Hang-Shing Lee[8]等针对领域本体构建方法研究了基于剧情构建文本本体模型,剧情包含文本中的概念属性和相关操作。Anna Stavrianou和Periklis Andritsos[9]总结了文本语义表示模型并给出了比较分析,对后续的研究工作有很大的促进作用。Wei Jin和Rohini K.Srihari[10]提出了一种基于图的文本表示结构,节点表示一个特征概念,链接关系表示了概念之间的联系,链接的权重基于概念之间在同一个段落或句子中的共现率,利用骰子系数或极大似然估计的方法计算。MW Chang[11]等利用类别标签作为原子概念,从维基百科词典中获取文本片段的显式语义分析[12](Explicit Semantic Analysis,ESA)表示,构建带权向量来表示文本以便于进行后续计算。Yanjun Li[13]等认为基于词语在文本中出现的顺序对于文本主题的重要意义,通过计算在文本中出现的词的统计频率,然后按照词在文本词集中所占的比例,筛选出高频词和高频词义表示文本内容。Khaled Shaban[14]利用语义图模型作为文本的表示模式,分析句子的谓语结构并将结构中各个元素赋值,所有经过解析的句子合并后形成一个树结构表示文本的内容。Walaa K.Gad和Mohamed S.Kamel[15]利用WordNet作为本体模型计算词项之间的语义关系,在表示文档时,加入了新的语义权重,在词频权重中引入了词项之间语义相似度的值,在语义上相关的词项被赋予更高的语义权重以强化文档所表示的语义中心。国内关于文本语义表示方法的研究相对较少,刘建毅等利用词语网络描述文本语义信息,将词语之间的语义关系分为共现网络、句法网络和语义网络分别进行处理。吴江宁等提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,将文本特征项表示为图结构中的节点,特征项间的关系表示成节点间的有向边,提高了文本分类系统的性能。但这些方法都或多或少有所缺陷。
发明内容
本发明的目的在于针对现有技术的不足,结合词语的语境和语义背景信息,提出了一种基于语义图的短文本分类方法。
实现本发明目的的技术方案是提供一种基于语义图的短文本分类方法,其特征在于:其步骤如下:
步骤A,对每条文本信息构建文本语义图模型,合并各条文本语义图模型;
步骤B,对文本语义图模型采用相似度计算法比较不同文本之间的相似程度;
步骤C,根据文本相似程度,使用文本语义图分类器进行分类。
进一步,所述步骤A包括如下步骤:
步骤A-1,构造出每条语句的核心词语并列表统计;
步骤A-2,基于语句核心词语列表,分别构造各条语句对应的文本语义图模型,然后合并各条语句的文本语义图模型,输出整个文章的文本语义图模型。
进一步,所述步骤A-2包括如下步骤:
步骤A-2-1,构造当前语句的文本语义图模型;
步骤A-2-2,合并节点,计算新增节点与原节点之间的语义关系,如果节点之间词语相同或者语义相似度满足阈值条件,则将两个节点词语合并,节点权值相加,否则保留该节点;
步骤A-2-3,合并有向边,如果新增有向边的相邻节点均被合并且合并后的节点之间存在有向边,则合并该两条有向边,有向边权值相加;
步骤A-2-4,比较合并节点的权值与相邻节点的权值,如果相邻节点的权值大于该节点的权值,则更新邻接边的权值为该节点的权值以强化节点之间的语义联系;
步骤A-2-5,直到合并所有语句的文本语义图模型,则对应整个文章的文本语义图模型,完成文章的文本语义图模型的构造。
进一步,所述步骤B包括如下步骤:所述相似度计算法包括文本相似度算法、类别隶属度算法。
或,所述文本相似度算法的计算公式为:
TextSim ( G 1 , G 2 ) = η Wtnode ( V 1 , V 2 ) Wtnode ( V 1 , V 2 ) + | ⫬ RNSet ( V 1 , V 2 ) | + ( 1 - η ) Wtedge ( E 1 , E 2 ) Wtedge ( E 1 , E 2 ) + | ⫬ RESet ( E 1 , E 2 ) |
其中G1=(V1,E1,α1,β1),G2=(V2,E2,α2,β2);
G1与G2为两个不同文本,V1、V2为一组节点的集合;E1、E2为一组有向边的集合;α1、α2为节点有权值函数;β1、β2为有向边权值函数;η∈(0,1]为权重调节因子;
G1和G2之间语义关联节点的权值之和Wtnode(V1,V2)=Wtnode(V1→V2)+Wtnode(V2→V1),V1相对于V2的关联节点集中各个节点的权值之和表示为 Wtnode ( V 1 → V 2 ) = Σ v i ∈ RNSet ( V 1 → V 2 ) α 1 ( v i ) ;
两个文本语义图之间语义关联边的权值之和Wtedge(E1,E2)=Wtedge(E1→E2)+Wtedge(E2→E1),E1相对于E2的关联边集中各条边的权重之和表示为 Wtedge ( E 1 → E 2 ) = Σ ( v i , v j ) ∈ RESet ( E 1 → E 2 ) β 1 ( v i , v j ) ;
G1和G2之间没有关联的节点集可表示为 ⫬ RESet ( E 1 , E 2 ) = ( E 1 - RESet ( E 1 → E 2 ) ) ∪ ( E 2 - RESet ( E 2 → E 1 ) ) , 有向边集E1中邻接点属于V1相对于V2的关联节点集中所有有向边所构成的集合称为E1相对于E2的关联边集,它是有向边集E1的子集,记为RESet(E1→E2)={(vi,vj)|(vi,vj)∈E1;vi,vj∈RNSet(V1→V2)};
G1和G2之间没有语义关联的节点集可表示为 ⫬ RNSet ( V 1 , V 2 ) = ( V 1 - RNSet ( V 1 → V 2 ) ) ∪ ( V 2 - RNSet ( V 2 → V 1 ) ) , 节点集V1中与节点集V2中任意节点vj之间词包相似度大于等于μ的的所有节点vi所构成的集合称为V1相对于V2的关联节点集,它是节点集V1的子集,记为RNSet(V1→V2)={vi|μSim(Λμ(vi),Λμ(vj))≥μ;vi∈V1;vj∈V2}。
所述类别隶属度算法的计算公式为:
MemDegree ( G 1 , G ) = η Wtnode ( V 1 → V ) Σ v i ∈ V 1 α 1 ( v i ) + ( 1 - η ) Wtedge ( E 1 → E ) Σ ( v i , v j ) ∈ E 1 β 1 ( v i , v j )
其中G1=(V1,E1,α1,β1),G2=(V2,E2,α2,β2);
G1与G2为两个不同文本,V1、V2为一组节点的集合;E1、E2为一组有向边的集合;α1、α2为节点有权值函数;β1、β2为有向边权值函数;η∈(0,1]为权重调节因子;
V1相对于V的关联节点集中各个节点的权值之和表示为Wtnode(V1→V)=∑V1∈R(v1→v)α1(Vi)Wtnode(V1→V);
E1相对于E的关联边集中各条边的权重之和表示为Wtedge(E1→E)=∑(Vi,Vj)∈Rest(E1→E)β1(Vi,Vj)。
本发明具有积极的效果:(1)本发明中这种图结构表示文本可以极大程度上突出文档的语义内涵,所以利用这种方法构建出的TSG模型可以很大程度上精确的描述出文本中的隐含语义信息和主题特征,利用这一特征可以使得利用TSG的分类方法对比其他的分类方法更加可靠高效,极大程度上减小了人工的开销,避免了很大程度上的对文本信息的人工的整理,而使用计算机来自动进行组织。
(2)本发明中的TSG模型所表示的文档相似度计算中不仅考虑词条集合的覆盖程度,而且考虑两篇文档之间语义上的关联度,这两点通过上面步骤中的TSG模型构建可以看出,词义相同的或相近的词合并,由于这种方法就可以即充分考虑到词条集合的覆盖程度以及文档之间语义的关联程度。
(3)本发明中采用文本相似度计算法,一方面考虑到了节点的权重,另一方面考虑到了边的权重。同时在该计算方法不仅考虑到了相似节点或边的加成,也同时考虑到了无关节点或边的削弱。无关节点或边的消弱利用了关联节点集和关联边集的非概念。这种方法体现了一个显然的事实,即无关的越多,相似性越低;而相似的内容越多,相似性越高。这样可以进一步提高文本相似性计算的准确性。
(4)本发明采用类别隶属度计算法,体现了该文本中和给定样本训练模型之间的包含和相近程度,在数学上和实际的应用中都可以被证明是可靠的,符合事实的,从而可以准确的运用于文本的分类中而不出现偏差。
附图说明
图1为本发明的方法框图;
图2为图1所示的短文本分类方法中的步骤A的实现步骤;
图3为图2所示的短文本分类方法中的步骤A-2的实现步骤;
图4为实施例中文本1构造的文本语图结构;
图5为实施例中文本2构造的文本语图结构。
具体实施方式
(实施例1)
见图1-图4,一种基于语义图的短文本分类方法,其步骤如下:
步骤A,对每条文本信息构建文本语义图模型,合并各条文本语义图模型;
步骤B,对文本语义图模型采用相似度计算法比较不同文本之间的相似程度;
步骤C,根据文本相似程度,使用文本语义图分类器进行分类。
本实施例中,步骤A包括如下步骤:
步骤A-1,构造出每条语句的核心词语并列表统计;
步骤A-2,基于语句核心词语列表,分别构造各条语句对应的文本语义图模型,然后合并各条语句的文本语义图模型,输出整个文章的文本语义图模型。
步骤A-2包括如下步骤:
步骤A-2-1,构造当前语句的文本语义图模型;
步骤A-2-2,合并节点,计算新增节点与原节点之间的语义关系,如果节点之间词语相同或者语义相似度满足阈值条件,则将两个节点词语合并,节点权值相加,否则保留该节点;
步骤A-2-3,合并有向边,如果新增有向边的相邻节点均被合并且合并后的节点之间存在有向边,则合并该两条有向边,有向边权值相加;
步骤A-2-4,比较合并节点的权值与相邻节点的权值,如果相邻节点的权值大于该节点的权值,则更新邻接边的权值为该节点的权值以强化节点之间的语义联系;
步骤A-2-5,直到合并所有语句的文本语义图模型,则对应整个文章的文本语义图模型,完成文章的文本语义图模型的构造。
在步骤B包括如下步骤:所述相似度计算法包括文本相似度算法、类别隶属度算法。
其中文本相似度算法的计算公式为:
TextSim ( G 1 , G 2 ) = η Wtnode ( V 1 , V 2 ) Wtnode ( V 1 , V 2 ) + | ⫬ RNSet ( V 1 , V 2 ) | + ( 1 - η ) Wtedge ( E 1 , E 2 ) Wtedge ( E 1 , E 2 ) + | ⫬ RESet ( E 1 , E 2 ) |
其中G1=(V1,E1,α1,β1),G2=(V2,E2,α2,β2);
G1与G2为两个不同文本,V1、V2为一组节点的集合;E1、E2为一组有向边的集合;α1、α2为节点有权值函数;β1、β2为有向边权值函数;η∈(0,1]为权重调节因子;
G1和G2之间语义关联节点的权值之和Wtnode(V1,V2)=Wtnode(V1→V2)+Wtnode(V2→V1),V1相对于V2的关联节点集中各个节点的权值之和表示为 Wtnode ( V 1 → V 2 ) = Σ v i ∈ RNSet ( V 1 → V 2 ) α 1 ( v i ) ;
两个文本语义图之间语义关联边的权值之和Wtedge(E1,E2)=Wtedge(E1→E2)+Wtedge(E2→E1),E1相对于E2的关联边集中各条边的权重之和表示为 Wtedge ( E 1 → E 2 ) = Σ ( v i , v j ) ∈ RESet ( E 1 → E 2 ) β 1 ( v i , v j ) ;
G1和G2之间没有关联的节点集可表示为 ⫬ RESet ( E 1 , E 2 ) = ( E 1 - RESet ( E 1 → E 2 ) ) ∪ ( E 2 - RESet ( E 2 → E 1 ) ) , 有向边集E1中邻接点属于V1相对于V2的关联节点集中所有有向边所构成的集合称为E1相对于E2的关联边集,它是有向边集E1的子集,记为RESet(E1→E2)={(vi,vj)|(vi,vj)∈E1;vi,vj∈RNSet(V1→V2)};
G1和G2之间没有语义关联的节点集可表示为 ⫬ RNSet ( V 1 , V 2 ) = ( V 1 - RNSet ( V 1 → V 2 ) ) ∪ ( V 2 - RNSet ( V 2 → V 1 ) ) , 节点集V1中与节点集V2中任意节点vj之间词包相似度大于等于μ的的所有节点vi所构成的集合称为V1相对于V2的关联节点集,它是节点集V1的子集,记为RNSet(V1→V2)={vi|μSim(Λμ(vi),Λμ(vj))≥μ;vi∈V1;vj∈V2}。
其中类别隶属度算法的计算公式为:
MemDegree ( G 1 , G ) = η Wtnode ( V 1 → V ) Σ v i ∈ V 1 α 1 ( v i ) + ( 1 - η ) Wtedge ( E 1 → E ) Σ ( v i , v j ) ∈ E 1 β 1 ( v i , v j )
其中G1=(V1,E1,α1,β1),G2=(V2,E2,α2,β2);
G1与G2为两个不同文本,V1、V2为一组节点的集合;E1、E2为一组有向边的集合;α1、α2为节点有权值函数;β1、β2为有向边权值函数;η∈(0,1]为权重调节因子;
V1相对于V的关联节点集中各个节点的权值之和表示为Wtnode(V1→V)=∑V1∈R(v1→v)α1(Vi)Wtnode(V1→V);
E1相对于E的关联边集中各条边的权重之和表示为Wtedge(E1→E)=∑(Vi,Vj)∈Rest(E1→E)β1(Vi,Vj)。
这里详细介绍利用该方法的一个实例。
主要包括基于维基百科的语义相似度计算、TSG模型的构造、TSG模型间相似度的计算、以及分类。
一、基于维基百科的词语相似度计算
这里仅给出计算的方法以及一个简单的实例。
文档T={wi}表示输入文档,<vi>表示与{wi}相对应的TF·IDF向量;用<kj>表示词语wi的倒排索引向量,其中kj为词语wi相对于词条cj(cj∈{c1,c2,...,cN})的倒排权值,N为维基百科中所有词条的数目;文档T对应为长度为N的语义解释向量V,其第i维度词条cj对应的词条权重为文档Ti和Tj之间的语义相似度可以用其对应向量Vi和Vj夹角的余弦值表示,词语wi和wj之间的语义相似度可以用其对应向量Ki和Kj夹角的余弦值表示,即 WordSim w i , w j = K i &CenterDot; K j / | | K i | | | | K j | | .
假设,存在维基百科文章A、B、C、D。这些文章中存在词{a,b,c,d},其中A中包含词{a:1,b:2,c:3,d:0},B中包含词{a:0,b:3,c:2,d:4},C中包含词{a:1,b:0,c:1,d:3},D中包含词{a:1,b:1,c:1,d:1}。
所以对每篇文章可以建立向量A[1,2,3,0],B[0,3,2,4],C[1,0,1,3],D[1,1,1,1]。这样各个词条之间的相似度可以利用文章向量之间的相似度来进行计算。可得出:
WordSim(A,B)=A·B/|A||B|=0.596WordSim(A,C)=0.322WordSim(A,D)=0.82
WordSim(B,C)=0.784WordSim(B,D)=0.836WordSim(C,D)=0.754
这样就得出了各个词条之间的相似程度。
二、TSG构造实例
这里μ=0.7,这是通过多次试验得到的经验值。
通过两个新闻文本片段实例来说明具体如何构建文本对应的文本语义图模型。
文本1:
(1)经过中文分词和词性过滤,以逗号或者句号作为语句结束标志,获得了每条语句的核心词语列表。
s1=(日本,财务,省,数据,显示)s2=(日本,月,调整,贸易,盈余,减少,圆)s3=(经济学家,预期,减少)
(2)根据算法1中所描述的TSG构建过程,输入s={s1,s2,s3},μ=0.7,根据词语语义相似度阈值合并后产生的μ词包如表2所示。
表2文本语义图节点信息
所构建TSG中包含的有向边及权值信息:
β(v1,v2)=β(v1,v6)=β(v2,v3)=β(v2,v8)=β(v7,v2)=β(v8,v9)=β(v9,v6)=β(v11,v9)=2
β(v3,v4)=β(v4,v5)=β(v6,v7)=β(v10,v11)=1
最后输出文本1对应的TSG表示,TSG如图4所示,都用G1表示。
文本2:
这里的计算方法和上面相同,所以文本2对应的TSG表示结构如图5所示,都用G2表示。
三、TSG相似度计算
该计算需要利用上面所得到的结果和之前书写的一些定义内容才能完成文本之间的相似度的计算。
G1和G2文本相似度计算过程如下,设置参数μ=0.7,η=0.5,Wtnode(V1,V2)=10+11=21,Wtedge(E1,E2)=12+21=33, | &Not; RESet ( E 1 , E 2 ) | = 6 + 2 = 8 .
最后,计算文本相似度TextSim(G1,G2)=0.5×(21/(21+7))+(1-0.5)×(33/(33+8))=0.7775,即说明两篇文本之间的相似度为0.7775,符合人工理解和判断的结果。
四、分类过程
首先,从互联网中抽取信息。先进行训练样本的学习,然后利用分类训练模型对未分类文本进行分类处理。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。

Claims (1)

1.一种基于语义图的短文本分类方法,其特征在于:其步骤如下:
步骤A,对每条文本信息构建文本语义图模型,合并各条文本语义图模型;
步骤B,对文本语义图模型采用相似度计算法比较不同文本之间的相似程度;
步骤C,根据文本相似程度,使用文本语义图分类器进行分类;
所述步骤A包括如下步骤:
步骤A-1,构造出每条语句的核心词语并列表统计;
步骤A-2,基于语句核心词语列表,分别构造各条语句对应的文本语义图模型,然后合并各条语句的文本语义图模型,输出整个文章的文本语义图模型;
所述步骤A-2包括如下步骤:
步骤A-2-1,构造当前语句的文本语义图模型;
步骤A-2-2,合并节点,计算新增节点与原节点之间的语义关系,如果节点之间词语相同或者语义相似度满足阈值条件,则将两个节点词语合并,节点权值相加,否则保留该节点;
步骤A-2-3,合并有向边,如果新增有向边的相邻节点均被合并且合并后的节点之间存在有向边,则合并该两条有向边,有向边权值相加;
步骤A-2-4,比较合并节点的权值与相邻节点的权值,如果相邻节点的权值大于该节点的权值,则更新邻接边的权值为该节点的权值以强化节点之间的语义联系;
步骤A-2-5,直到合并所有语句的文本语义图模型,则对应整个文章的文本语义图模型,完成文章的文本语义图模型的构造;
所述步骤B包括如下步骤:所述相似度计算法包括文本相似度算法、类别隶属度算法;
所述文本相似度算法的计算公式为:
TextSim ( G 1 , G 2 ) = &eta; Wtnode ( V 1 , V 2 ) Wtnode ( V 1 , V 2 ) + | &Not; RNSet ( V 1 , V 2 ) | + ( 1 - &eta; ) Wtedge ( E 1 , E 2 ) Wtedge ( E 1 , E 2 ) + | &Not; RESet ( E 1 , E 2 ) |
其中G1=(V1,E1,α1,β1),G2=(V2,E2,α2,β2);
G1与G2为两个不同文本,V1、V2为一组节点的集合;E1、E2为一组有向边的集合;α1、α2为节点有权值函数;β1、β2为有向边权值函数;η∈(0,1]为权重调节因子;
G1和G2之间语义关联节点的权值之和Wtnode(V1,V2)=Wtnode(V1→V2)+Wtnode(V2→V1),V1相对于V2的关联节点集中各个节点的权值之和表示为 Wtnode ( V 1 &RightArrow; V 2 ) = &Sigma; v i &Element; RNSet ( V 1 &RightArrow; V 2 ) &alpha; 1 ( v i ) ;
两个文本语义图之间语义关联边的权值之和Wtedge(E1,E2)=Wtedge(E1→E2)+Wtedge(E2→E1),E1相对于E2的关联边集中各条边的权重之和表示为 Wtedge ( E 1 &RightArrow; E 2 ) = &Sigma; ( v i , v j ) &Element; RESet ( E 1 &RightArrow; E 2 ) &beta; 1 ( v i , v j ) ;
G1和G2之间没有关联的节点集可表示为 &Not; RESet ( E 1 , E 2 ) = ( E 1 - RESet ( E 1 &RightArrow; E 2 ) ) &cup; ( E 2 - RESet ( E 2 &RightArrow; E 1 ) ) , 有向边集E1中邻接点属于V1相对于V2的关联节点集中所有有向边所构成的集合称为E1相对于E2的关联边集,它是有向边集E1的子集,记为RESet(E1→E2)={(vi,vj)|(vi,vj)∈E1;vi,vj∈RNSet(V1→V2)};
G1和G2之间没有语义关联的节点集可表示为 &Not; RNSet ( V 1 , V 2 ) = ( V 1 - RNSet ( V 1 &RightArrow; V 2 ) ) &cup; ( V 2 - RNSet ( V 2 &RightArrow; V 1 ) ) , 节点集V1与节点集V2中任意节点vj之间词包相似度大于等于μ的所有节点vi所构成的集合称为V1相对于V2的关联节点集,它是节点集V1的子集,记为RNSet(V1→V2)={vi|μSim(Λμ(vi),Λβ(vj))≥μ;vi∈V1;vj∈V2};
所述类别隶属度算法的计算公式为:
MemDegree ( G 1 , G ) = &eta; Wtnode ( V 1 &RightArrow; V ) &Sigma; v i &Element; V 1 &alpha; 1 ( v i ) + ( 1 - &eta; ) Wtedge ( E 1 &RightArrow; E ) &Sigma; ( v i , v j ) &Element; E 1 &beta; 1 ( v i , v j )
其中G1=(V1,E1,α1,β1),G2=(V2,E2,α2,β2);
G1与G2为两个不同文本,V1、V2为一组节点的集合;E1、E2为一组有向边的集合;α1、α2为节点有权值函数;β1、β2为有向边权值函数;η∈(0,1]为权重调节因子;
V1相对于V的关联节点集中各个节点的权值之和表示为Wtnode(V1→V)=∑V1∈R(v1→v)α1(Vi)Wtnode(V1-V);
E1相对于E的关联边集中各条边的权重之和表示为Wtedge(E1→E)=∑(Vi,Vj)∈Rest(E1→E)β1(Vi,Vj)。
CN201210012077.1A 2012-01-16 2012-01-16 基于语义图的短文本分类方法 Expired - Fee Related CN102591988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210012077.1A CN102591988B (zh) 2012-01-16 2012-01-16 基于语义图的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210012077.1A CN102591988B (zh) 2012-01-16 2012-01-16 基于语义图的短文本分类方法

Publications (2)

Publication Number Publication Date
CN102591988A CN102591988A (zh) 2012-07-18
CN102591988B true CN102591988B (zh) 2014-10-15

Family

ID=46480623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210012077.1A Expired - Fee Related CN102591988B (zh) 2012-01-16 2012-01-16 基于语义图的短文本分类方法

Country Status (1)

Country Link
CN (1) CN102591988B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092828B (zh) * 2013-02-06 2015-08-12 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103838803A (zh) * 2013-04-28 2014-06-04 电子科技大学 一种基于节点Jaccard相似度的社交网络社团发现方法
CN103678499A (zh) * 2013-11-19 2014-03-26 肖冬梅 一种基于多源异构专利数据语义集成的数据挖掘方法
CN104504082B (zh) * 2014-12-24 2018-05-18 北京德塔普博软件有限公司 多个知识网络的目标知识节点集合的路径展现方法和系统
CN104484461B (zh) * 2014-12-29 2018-03-23 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN106372117B (zh) * 2016-08-23 2019-06-14 电子科技大学 一种基于词共现的文本分类方法及其装置
CN108108345B (zh) * 2016-11-25 2021-08-10 南京尚网网络科技有限公司 用于确定新闻主题的方法与设备
CN108572953B (zh) * 2017-03-07 2023-06-20 上海颐为网络科技有限公司 一种词条结构的合并方法
CN107545033B (zh) * 2017-07-24 2020-12-01 清华大学 一种基于表示学习的知识库实体分类的计算方法
CN107368611B (zh) * 2017-08-11 2018-06-26 同济大学 一种短文本分类方法
CN109145085B (zh) * 2018-07-18 2020-11-27 北京市农林科学院 语义相似度的计算方法及系统
CN109242042B (zh) * 2018-09-28 2019-12-20 百度在线网络技术(北京)有限公司 图片训练样本挖掘方法、装置、终端及计算机可读存储介质
CN109800296B (zh) * 2019-01-21 2022-03-01 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN110188342B (zh) * 2019-04-19 2020-04-07 杭州电子科技大学 一种基于知识图谱与语义图技术的口语理解方法
CN112380344B (zh) * 2020-11-19 2023-08-22 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112580370B (zh) * 2020-12-24 2023-09-26 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN114434435B (zh) * 2022-03-18 2024-05-28 上汽通用五菱汽车股份有限公司 一种高柔性的侧围总成预装抓手、侧围安装工位及其纠偏方法
CN114741429A (zh) * 2022-04-20 2022-07-12 西安电子科技大学 一种基于图神经网络的Web API关联模式挖掘方法
CN115033772B (zh) * 2022-06-20 2024-06-21 浙江大学 一种基于语义网络的创意激发方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
EP1903454A1 (en) * 2006-09-19 2008-03-26 Alcatel Lucent Method, used by computers, for developing an ontology from a text in natural language

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1903454A1 (en) * 2006-09-19 2008-03-26 Alcatel Lucent Method, used by computers, for developing an ontology from a text in natural language
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法

Also Published As

Publication number Publication date
CN102591988A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102591988B (zh) 基于语义图的短文本分类方法
Hidayat et al. Sentiment analysis of twitter data related to Rinca Island development using Doc2Vec and SVM and logistic regression as classifier
Deshwal et al. Twitter sentiment analysis using various classification algorithms
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
US20170364503A1 (en) Multi-stage recognition of named entities in natural language text based on morphological and semantic features
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN104408173A (zh) 一种基于b2b平台的核心关键词自动提取方法
CN103778215A (zh) 一种基于情感分析和隐马尔科夫模型融合的股市预测方法
CN109871955A (zh) 一种航空安全事故因果关系抽取方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN111344695A (zh) 促进特定于域和客户端的应用程序接口推荐
CN102779119B (zh) 一种抽取关键词的方法及装置
CN116383399A (zh) 一种事件舆情风险预测方法及系统
Zhang et al. A hybrid neural network approach for fine-grained emotion classification and computing
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
Rezaei et al. Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation
Liu et al. Internet news headlines classification method based on the n-gram language model
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN112613318B (zh) 实体名称归一化系统及其方法、计算机可读介质
CN106156259A (zh) 一种用户行为信息展示方法及系统
Ismail et al. Using custom fuzzy thesaurus to incorporate semantic and reduce data sparsity for twitter sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: CHEN PING

Effective date: 20130407

Owner name: XIDIAN UNIVERSITY

Free format text: FORMER OWNER: SONG SHENGLI

Effective date: 20130407

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 710071 XI'AN, SHAANXI PROVINCE TO: 710068 XI'AN, SHAANXI PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20130407

Address after: 710068, No. two Taibai South Road, Yanta District, Shaanxi, Xi'an

Applicant after: Xidian University

Address before: 168 mailbox, Xi'an Electronic and Science University, Shaanxi, Xi'an 710071, China

Applicant before: Song Shengli

Applicant before: Chen Ping

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141015

Termination date: 20160116

EXPY Termination of patent right or utility model