CN110020439B - 一种基于隐藏关联网络的多领域文本隐式特征抽取方法 - Google Patents

一种基于隐藏关联网络的多领域文本隐式特征抽取方法 Download PDF

Info

Publication number
CN110020439B
CN110020439B CN201910304794.3A CN201910304794A CN110020439B CN 110020439 B CN110020439 B CN 110020439B CN 201910304794 A CN201910304794 A CN 201910304794A CN 110020439 B CN110020439 B CN 110020439B
Authority
CN
China
Prior art keywords
word
feature
clustering
viewpoint
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910304794.3A
Other languages
English (en)
Other versions
CN110020439A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongsenyunlian Chengdu Technology Co ltd
Original Assignee
Zhongsenyunlian Chengdu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongsenyunlian Chengdu Technology Co ltd filed Critical Zhongsenyunlian Chengdu Technology Co ltd
Priority to CN201910304794.3A priority Critical patent/CN110020439B/zh
Priority to CN202010623820.1A priority patent/CN111859898B/zh
Publication of CN110020439A publication Critical patent/CN110020439A/zh
Application granted granted Critical
Publication of CN110020439B publication Critical patent/CN110020439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明属于计算机自然语言处理领域,公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法。该方法包括下列步骤:通过语料预处理得到主体、特征、观点词集,统计得到主体、特征、观点词在语料中的同现频率矩阵;根据同现频率矩阵对三个词集双向增强聚类;计算关联强度,构建主体‑特征‑观点隐藏关联网络;利用隐藏关联网络抽取隐式特征。针对之前隐式特征抽取方法在多领域文本中效果不佳的问题,本方法通过考虑特征与领域知识之间的关联,构造主体‑特征‑观点隐藏关联网络,可以在多领域文本中更好地抽取隐式特征。

Description

一种基于隐藏关联网络的多领域文本隐式特征抽取方法
技术领域
本发明涉及计算机自然语言处理领域,具体涉及一种基于隐藏关联网络的多领域文本隐式特征抽取方法。
背景技术
随着电子商务、社交网络的兴起,带有用户主观情绪色彩的信息或者短文本,例如微博、商品评论的数量正在高速增长,这些用户产生的信息是宝贵的资源,其中的主观性情感和意见等信息能够帮助人们做出决策,因此挖掘这种带有用户主观情绪文本中所表达的观点吸引了人们大量的研究。其中,越来越多的研究者开始关注更细致的意见挖掘,这些研究挖掘人们对事物某一方面的观点,它们在这些研究中被称为特征层面的观点。
该领域内的研究大多数都是着眼于发现文本中的显式的特征,然而许多情况下特征词是由观点词隐含表达的,比如:“电脑便宜”隐含的是主体——“电脑”的特征——“价格”具有观点——“便宜”,这种不显式出现在文本中的特征被称为隐式特征。针对隐式特征的研究大多只考虑文本中特征词与观点词之间的关联,通过语料中特征词与观点词的同现频率矩阵挖掘它们之间的隐藏关联,利用这种隐藏关联能够在得到观点词的情况下预测可能的隐式特征。
但如今很多文本都是混合领域文本,包含多种领域的内容,比如:政治、生物、经济等等。前人提出的隐式特征识别方法只考虑文本中特征词与观点词之间的关联,没有考虑在多领域文本中的应用,对如今日益增多的混合领域文本不能得到很好的效果。
发明内容
本发明的目的在于克服上述隐式特征识别方法在多领域文本效果不佳的问题,提供一种基于隐藏关联网络进行多领域文本隐式特征抽取的方法。本发明加入主体词作为文本所属领域的先验知识约束,参与隐藏关联网络的构建,考虑了主体-特征-观点三方间的隐藏关联,使得本发明在多领域文本的隐式特征抽取中也能得到很好的应用。
本发明是一种基于隐藏关联网络的多领域文本隐式特征抽取方法,包括以下步骤:
步骤1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵;
步骤2:根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果;
步骤3:利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络;
步骤4:对于需要进行隐式特征抽取的句子,首先得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该隐式特征类中得到最可能的隐式特征词。
所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量,通过对语料进行分句分词、词性标注、依存分析预处理得到每个句子的主体词、特征词、观点词,最终得到语料的主体、特征、观点词集合,同时统计得到主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。
所述步骤2中首先根据步骤1中训练得到的词向量在三个词集内部进行初步聚类,然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联,得到相互关联矩阵,利用词与词之间的关联相似度和内容相似度进行两个词集之间的相互增强聚类,最终收敛得到主体-特征词集、特征-观点词集的聚类结果。利用主体-特征词集相互增强聚类得到的主体词集聚类结果,对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类,保证最后得到的特征词集聚类结果同时包含主体和观点信息。
聚类时,词之间的相似度度量定义如下:
Figure GDA0002387218500000021
其中,Scontent(Wi,Wj)表示词Wi和词Wj之间的词向量相似度,这里称Scontent(Wi,Wj)为词Wi和词Wj之间的内容相似度;Srel(Wi,Wj)表示词Wi和词Wj之间的相互关联矩阵中对应的关联向量相似度,这里称Srel(Wi,Wj)为词Wi和词Wj之间的关联相似度;
Figure GDA0002387218500000022
表示内部相似度所占权重,
Figure GDA0002387218500000023
两个词集F和O之间进行双向增强聚类的过程为:
a.只考虑内部相似度,即词向量间的余弦相似度,将集合F中的词聚类成k个类;
b.根据集合F的聚类结果更新集合O的相互关联矩阵M1,对于集合O中的任何一个词Oi,词Oi对应的与集合F聚类结果之间的关联向量由
Figure GDA0002387218500000024
表示,关联向量
Figure GDA0002387218500000025
中的每个分量对应F聚类后的k个类之一,其中
Figure GDA0002387218500000026
是词Oi与F聚类后的第x个类之间的权重,是词Oi与第x个类中的所有词的同现频率之和,x∈[1,k];最终由集合O中n个词的关联向量构成新的n×k相互关联矩阵M1
c.根据b中更新的集合O和集合F之间的相互关联矩阵M1,将集合O中的数据对象聚类成l个类;
d.根据集合O的聚类结果更新集合F的相互关联矩阵M2,对于集合F中的任何一个词Fi,词Fi对应的与集合O聚类结果之间的关联向量由
Figure GDA0002387218500000027
表示,关联向量
Figure GDA0002387218500000028
中的每个分量对应O聚类后的l个类之一,其中
Figure GDA0002387218500000031
是词Fi与O聚类后的第y个类之间的权重,是词Fi与第y个类中的所有词的同现频率之和,y∈[1,l];最终由集合F中m个词的关联向量构成新的m×l相互关联矩阵M2
e.根据d中更新的集合F和集合O之间的相互关联矩阵M2,将集合F中的数据对象重新聚类为k个类;
f.迭代上述步骤b-e,直到两个词集的聚类结果收敛。
利用主体-特征词集相互增强聚类得到的主体词集聚类结果Sr,对特征-观点词集相互增强聚类得到的特征词集聚类结果Fr进行重新聚类的过程为:假设主体词集聚类结果Sr包含p个双向增强聚类得到的类,特征词集聚类结果Fr包含q个双向增强聚类得到的类;对于需要重新聚类的特征词集聚类结果Fr,Fr中的任意一个特征词Yi对应的与主体词集聚类结果Sr之间的关联向量由
Figure GDA0002387218500000032
表示;关联向量R″i中的每个分量对应主体词集聚类结果Sr的p个类之一,其中
Figure GDA0002387218500000033
是特征词Yi与主体词集聚类结果Sr的第z个类之间的权重,z∈[1,p];在Fr的每个类中,特征词两两配对计算关联向量相似度进行比较,对关联向量相似度小于阈值t的特征词划分到新的类中,最终得到重新聚类后的特征词集Ffr
所述步骤3中根据步骤2中得到的主体词集聚类结果Sr、特征词集聚类结果Fr、特征词集聚类结果Ffr,利用同现频率矩阵计算主体-特征、特征-观点词集各个聚类类之间的关联强度,最终构建出主体-特征-观点关联网络。关联强度由两个类之间的PMI表示,定义为:
Figure GDA0002387218500000034
这里的P(c1)和P(c2)是类c1和类c2中的词语在语料库中出现的频率,P′(c1,c2)是类c1中所有词语和类c2中所有词语,在语料库中的句子层面上的同现频率之和。利用互信息PMI作为类之间的关联强度,关联主体-特征词集、特征-观点词集,构造出主体-特征-观点关联网络。
所述步骤4中利用主体-特征-观点关联网络对句子中可能的隐式特征进行抽取,基本流程是:对于需要进行隐式特征抽取的句子,利用分词、词性标注、依存分析等技术得到句子中的主体词和观点词,考虑与该主体词和观点词属于的的主体类和观点类,根据主体-特征-观点关联网络得到与这两个主体类和观点类加权关联度最高的特征类,最终预测这个特征类中最可能的特征词作为隐式特征。因为考虑了与主体词之间的关联,所以这种隐式特征识别对多领域文本也有较好的效果。
附图说明
图1为本发明的流程示意图;
图2为主体-特征-观点关联网络图;
图3为主体-特征-观点关联网络的构建流程;
图4为利用主体-特征-观点关联网络进行隐式特征识别的示例。
具体实施方式
下面结合附图和实施例对本发明内容作进一步详细说明,但不是对本发明的限定。
参照图1,一种基于隐藏关联网络的多领域文本隐式特征抽取方法,包括以下步骤:
ST1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵。具体流程如下:
a.对语料进行分句、分词处理得到训练数据,使用训练数据进行词向量训练得到语料中每个词对应的词向量。
b.对语料进行分句、分词、词性标注、依存分析。如果句子中的名词与标注的句子所属主体进行词向量相似度比较,若二者词向量相似度大于阈值T,则该名词作为主体词加入主体词集,否则作为特征词候选,句子中的形容词作为观点词候选。根据依存分析得到的句子依存树,挑选在依存树上被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集,比如观点词和特征词之间常常被关系为“amod”和“nsubj”的边连接,选择这些关系连接的候选特征词和候选观点词进入特征词集、观点词集,最终得到语料的主体、特征、观点词集合。
c.在确定了主体词s的句子中按照上述方法确定特征词f和观点词o,统计出主体词s和特征词f、特征词f和观点词o在语料中的同现频率,遍历语料中所有句子最终得到主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵Msf和Mfo
ST2:根据ST1中统计得到的同现频率矩阵Msf和Mfo在主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果。
首先根据ST1中训练得到的词向量在三个词集内部进行初步聚类,然后在主体-特征词集、特征-观点词集之间使用同现频率矩阵Msf和Mfo考虑一个词集的每个词与另一个词集内聚类类之间的关联,得到相互关联矩阵。利用词与词之间的关联相似度和内容相似度进行两个词集之间的相互增强聚类,最终收敛得到主体-特征词集、特征-观点词集的双向增强聚类结果。
聚类时,词之间的相似度度量定义如下:
Figure GDA0002387218500000041
其中,Scontent(Wi,Wj)表示词Wi和词Wj之间的词向量相似度,这里称Scontent(Wi,Wj)为词Wi和词Wj之间的内容相似度;Srel(Wi,Wj)表示词Wi和词Wj之间的相互关联矩阵中对应的关联向量相似度,这里称Srel(Wi,Wj)为词Wi和词Wj之间的关联相似度;
Figure GDA0002387218500000042
表示内部相似度所占权重,
Figure GDA0002387218500000043
两个词集F和O之间进行相互增强聚类的具体流程为:
a.只考虑内部相似度,即词向量间的余弦相似度,将集合F中的词聚类成k个类;
b.根据集合F的聚类结果更新集合O的相互关联矩阵M1,对于集合O中的任何一个词Oi,词Oi对应的与集合F聚类结果之间的关联向量由
Figure GDA0002387218500000051
表示,关联向量
Figure GDA0002387218500000052
中的每个分量对应F聚类后的k个类之一,其中
Figure GDA0002387218500000053
是词Oi与F聚类后的第x个类之间的权重,是词Oi与第x个类中的所有词的同现频率之和,x∈[1,k];最终由集合O中n个词的关联向量构成新的n×k相互关联矩阵M1
c.根据b中更新的集合O和集合F之间的相互关联矩阵M1,将集合O中的数据对象聚类成l个类;
d.根据集合O的聚类结果更新集合F的相互关联矩阵M2,对于集合F中的任何一个词Fi,词Fi对应的与集合O聚类结果之间的关联向量由
Figure GDA0002387218500000054
表示,关联向量
Figure GDA0002387218500000055
中的每个分量对应O聚类后的l个类之一,其中
Figure GDA0002387218500000056
是词Fi与O聚类后的第y个类之间的权重,是词Fi与第y个类中的所有词的同现频率之和,y∈[1,l];最终由集合F中m个词的关联向量构成新的m×l相互关联矩阵M2
e.根据d中更新的集合F和集合O之间的相互关联矩阵M2,将集合F中的数据对象重新聚类为k个类;
f.迭代上述步骤b-e,直到两个词集的聚类结果收敛。
最后利用主体-特征词集相互增强聚类得到的主体词集聚类结果Sr,对特征-观点词集相互增强聚类得到的特征词集聚类结果Fr进行重新聚类,保证最后得到的特征词集聚类结果Ffr同时包含主体和观点信息。重新聚类过程如下:
假设主体词集聚类结果Sr包含p个双向增强聚类得到的类,特征词集聚类结果Fr包含q个双向增强聚类得到的类;对于需要重新聚类的特征词集聚类结果Fr,Fr中的任意一个特征词Yi对应的与主体词集聚类结果Sr之间的关联向量由
Figure GDA0002387218500000057
表示;关联向量R″i中的每个分量对应主体词集聚类结果Sr的p个类之一,其中
Figure GDA0002387218500000058
是特征词Yi与主体词集聚类结果Sr的第z个类之间的权重,z∈[1,p];在Fr的每个类中,特征词两两配对计算关联向量相似度进行比较,对关联向量相似度小于阈值t的特征词划分到新的类中,最终得到重新聚类后的特征词集Ffr
ST3:根据步骤ST2中得到的主体词集聚类结果Sr、特征词集聚类结果Fr、特征词集聚类结果Ffr,利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络。
主体-特征-观点关联网络参考图2,其中词语被分为三个部分:主体词集、特征词集、观点词集。三个词集通过ST2中的聚类得到最终聚类结果,每个词集被聚类为若干个类,图中每个虚线圈定的部分表示一个类,主体-特征词集、特征-观点词集的各个类之间含有关联,类之间的关联在图中使用虚线表示,代表两个类中的词在语料中的句子里共同出现过。
图2中类之间的关联由类之间的虚线表示,本方法利用类之间的点互信息PMI作为类之间的关联强度,PMI的计算公式为:
Figure GDA0002387218500000061
这里的P(c1)和P(c2)是类c1和类c2中的词语在语料库中出现的频率,P′(c1,c2)是类c1中所有词语和类c2中所有词语,在语料库中的句子层面上的同现频率之和。
参照图3,主体-特征-观点关联网络的具体构造流程如下:
a.仅根据内容相似度,即词向量间的余弦相似度,特征词集F内容聚类成k个类,得到初步聚类后的特征词集F1
b.根据ST2中的相互增强的聚类方法,在特征词集F1与主体词集S之间进行双向增强聚类得到聚类后的主体词集S1,在特征词集F1与观点词集O之间进行双向增强聚类得到聚类后的观点词集O1和特征词集F2
c.由于F2中某些类中含有多领域的特征,因此需要根据与主体词集S1之间的关联权重矩阵对F2进行重新聚类,重新聚类方法如ST2所述,最终得到重新聚类后的特征词集F3;
d.根据从语料中统计得到的主体-特征、特征-观点共现频率矩阵Msf和Mfo,构造主体词集S1与特征词集F3、特征词集F3与观点词集O1之间类与类的关联强度,关联强度由上述的PMI表示。利用点互信息PMI作为类之间的关联强度,关联主体-特征词集、特征-观点词集,得到三个词集的聚类结果以及关联信息:类的个数、每个类的类中心向量、每个词所属类的标号、类之间的关联强度等,这些信息构成了主体-特征-观点关联网络。
ST4:对于需要进行隐式特征抽取的句子,首先得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该隐式特征类中得到最可能的隐式特征词。具体的流程参照图4:
a.对要识别隐式特征的一个句子进行分词、词性标注和依存分析,将名词作为主体词候选,形容词作为观点词,查询哪些名词和形容词在依存树上被特定关系连接;当一个名词与一个形容词被特定关系连接:如果该名词存在于特征词集则把该名词作为显式特征抽取出来,否则把该名词当做主体词,把与它连接的形容词作为观点词;
b.判断识别出的主体词和观点词所属的主体类s和观点类o,根据关联网络里存储的主体-特征词集、特征-观点词集各个类之间的关联强度,选择与主体类s和观点类o的平均关联强度最强的特征类s;
c.从特征类s中抽取最可能的词作为隐式特征词,这里我们抽取类中在语料里出现次数最多的词作为隐式特征词w。
一个具体的示例参考图4,以句子“张子枫还很小,但是她的演技已经得到了认可”为例进行隐式特征抽取:
a.对句子“张子枫还很小,但是她的演技已经得到了认可”进行分词、词性标注和依存分析,人名“张子枫”与形容词“小”在依存树上存在指定关系“nsubj”的连接,判断“张子枫”不存在与特征词集中,将“张子枫”作为主体词,形容词“小”作为观点词;
b.根据a中识别出的主体词“张子枫”和观点词“小”,将它们的词向量分别和主体词集的各个类中心向量、观点词集的各个类中心向量计算相似度,选择与其相似度最高的主体类——“人”和观点类——“大小”作为它们所属的类别,根据构建的主体-特征-观点关联网络,选择与主体类——“人”和观点类——“大小”关联强度最高的特征类,这里通过选择与主体类——“人”和观点类——“大小”都存在的关联的特征类,然后计算与两个类的平均关联强度最高的特征类“年龄”(这里指该特征类的代称为年龄类,并非年龄这个词)作为最可能的特征类;
c.从b中得到的最可能的特征类“年龄”中选择最可能的特征词作为预测的隐式特征,这里选择该特征类中在语料里出现频率最高的特征词“年龄”作为隐式特征词。

Claims (5)

1.一种基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于包括以下步骤:
步骤1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵;
步骤2:根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果;
步骤3:利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络;
步骤4:对于需要进行隐式特征抽取的句子,得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该隐式特征类中得到最可能的隐式特征词。
2.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于:所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵,具体为:对语料进行分句、分词处理得到训练数据,使用训练数据进行词向量训练得到语料中每个词的词向量;对语料进行分句、分词、词性标注、依存分析预处理,从句子中选择可能的名词作为主体词加入主体词集,否则作为特征词候选,句子中的形容词作为观点词候选,根据依存分析得到的依存树,挑选被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集;统计出主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。
3.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于:所述步骤2中根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果,具体为:首先根据所述步骤1训练得到的词向量在三个词集内部进行初步聚类,然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联,得到相互关联矩阵,利用词与词之间的关联相似度和内容相似度进行相互增强的迭代聚类,最终收敛得到主体-特征、特征-观点词集的聚类结果;利用主体-特征词集相互增强聚类得到的主体词集聚类结果,对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类,保证最后得到的特征词集聚类结果同时包含主体和观点信息;
聚类时,词之间的相似度度量定义如下:
Figure FDA0002496858290000011
其中,Scontent(Wi,Wj)表示词Wi和词Wj之间的词向量相似度,这里称Scontent(Wi,Wj)为词Wi和词Wj之间的内容相似度;Srel(Wi,Wj)表示词Wi和词Wj之间的相互关联矩阵中对应的关联向量相似度,这里称Srel(Wi,Wj)为词Wi和词Wj之间的关联相似度;
Figure FDA0002496858290000021
表示内部相似度所占权重,
Figure FDA0002496858290000022
对于两个词集F和O之间的相互增强聚类流程如下:
a.只考虑内容相似度,即词向量间的余弦相似度,将集合F中的词聚类成k个类;
b.根据集合F的聚类结果更新集合O的相互关联矩阵M1,对于集合O中的任何一个词Oi,词Oi对应的与集合F聚类结果之间的关联向量由
Figure FDA0002496858290000023
表示,关联向量
Figure FDA0002496858290000024
中的每个分量对应集合F聚类后的k个类之一,其中
Figure FDA0002496858290000025
词Oi与集合F聚类后的第x个类之间的权重,是词Oi与第x个类中的所有词的同现频率之和,x∈[1,k];最终由集合O中n个词的关联向量构成新的n×k维的相互关联矩阵M1
c.根据b中更新的集合O和集合F之间的相互关联矩阵M1,将集合O中的数据对象聚类成l个类;
d.根据集合O的聚类结果更新集合F的相互关联矩阵M2,对于集合F中的任何一个词Fi,词Fi对应的与集合O聚类结果之间的关联向量由
Figure FDA0002496858290000026
表示,关联向量
Figure FDA0002496858290000027
中的每个分量对应集合O聚类后的l个类之一,其中
Figure FDA0002496858290000028
词Fi与集合O聚类后的第y个类之间的权重,是词Fi与第y个类中的所有词的同现频率之和,y∈[1,l];最终由集合F中m个词的关联向量构成新的m×l维的相互关联矩阵M2
e.根据d中更新的集合F和集合O之间的相互关联矩阵M2,将集合F中的数据对象重新聚类为k个类;
f.迭代步骤b-e,直到两个词集的聚类结果收敛;
利用主体-特征词集相互增强聚类得到的主体词集聚类结果Sr,对特征-观点词集相互增强聚类得到的特征词集聚类结果Fr进行重新聚类的过程如下:
假设主体词集聚类结果Sr包含p个双向增强聚类得到的类,特征词集聚类结果Fr包含q个双向增强聚类得到的类;对于需要重新聚类的特征词集聚类结果Fr,Fr中的任意一个特征词Yi对应的与主体词集聚类结果Sr之间的关联向量由
Figure FDA0002496858290000029
表示;关联向量R″i中的每个分量对应主体词集聚类结果Sr的p个类之一,其中
Figure FDA00024968582900000210
是特征词Yi与主体词集聚类结果Sr的第z个类之间的权重,z∈[1,p];在特征词集聚类结果Fr的每个类中,特征词两两配对计算关联向量相似度进行比较,对关联向量相似度小于阈值t的特征词划分到新的类中,最终得到重新聚类后的特征词集Ffr
4.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于:所述步骤3中利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络,具体为:
a.仅根据内容相似度,即词向量之间的余弦相似度,将特征词集F聚类成k个类,得到初步聚类后的特征词集F1
b.根据所述步骤2中的双向增强的聚类方法,使用集合F1与主体词集S之间进行双向增强聚类得到聚类后的主体词集S1,使用集合F1与观点词集O之间进行双向增强聚类得到聚类后的观点词集O1和特征词集F2
c.由于集合F1与观点词集O之间进行双向增强聚类得到聚类后的特征词集F2中某些类中含有多领域的特征,因此需要根据特征词集F2与主体词集S1之间的相互关联矩阵M对特征词集F2进行重新聚类,相互关联矩阵M是由特征词集F2中的每一个特征词与主体词集S1的关联向量构成,每个关联向量的分量代表对应特征词与主体词集S1每个类的权重;根据相互关联矩阵M对特征词集F2进行重新聚类的方法如步骤2所述,最终得到重新聚类后的特征词集F3
d.根据从语料中统计得到的主体-特征、特征-观点共现频率矩阵,构造主体词集S1与特征词集F3、特征词集F3与观点词集O1之间类与类的关联强度,关联强度由PMI表示,计算公式为:
Figure FDA0002496858290000031
这里的P(c1)和P(c2)是类c1和类c2中的词语在语料库中出现的频率,P′(c1,c2)是类c1中所有词语和类c2中所有词语,在语料库中的句子层面上的同现频率之和,利用互信息PMI作为类之间的关联强度,关联主体-特征词集、特征-观点词集,构造出主体-特征-观点关联网络。
5.根据权利要求1所述的基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于:所述步骤4中对于需要进行隐式特征抽取的句子,得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该隐式特征类中得到最可能的隐式特征词,具体为:对要识别隐式特征的句子进行分词、词性标注和依存分析,从句子中识别可能的主体词和观点词;判断识别出的主体词和观点词所属的主体类s和观点类o,根据关联网络里主体-特征词集、特征-观点词集里各个类之间的关联强度,选择与主体类s和观点类o的平均关联强度最强的特征类f;从特征类f中抽取在语料里出现次数最多的词作为隐式特征词w。
CN201910304794.3A 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法 Active CN110020439B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910304794.3A CN110020439B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN202010623820.1A CN111859898B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304794.3A CN110020439B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010623820.1A Division CN111859898B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110020439A CN110020439A (zh) 2019-07-16
CN110020439B true CN110020439B (zh) 2020-07-07

Family

ID=67191503

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010623820.1A Active CN111859898B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN201910304794.3A Active CN110020439B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010623820.1A Active CN111859898B (zh) 2019-04-16 2019-04-16 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质

Country Status (1)

Country Link
CN (2) CN111859898B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168600B (zh) * 2022-06-23 2023-07-11 广州大学 一种个性化定制下的价值链知识发现方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338342A (ja) * 2005-06-02 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム
US9704102B2 (en) * 2013-03-15 2017-07-11 William Marsh Rice University Sparse factor analysis for analysis of user content preferences
CN103365999A (zh) * 2013-07-16 2013-10-23 盐城工学院 一种基于相似度矩阵谱分解的文本聚类集成方法
CN103412880B (zh) * 2013-07-17 2017-02-22 百度在线网络技术(北京)有限公司 一种用于确定多媒体资源间隐式关联信息的方法与设备
CN103646097B (zh) * 2013-12-18 2016-09-07 北京理工大学 一种基于约束关系的意见目标和情感词联合聚类方法
US9594746B2 (en) * 2015-02-13 2017-03-14 International Business Machines Corporation Identifying word-senses based on linguistic variations
CN105007262B (zh) * 2015-06-03 2017-12-22 浙江大学城市学院 Wlan多步攻击意图预先识别方法
EP3101563B1 (en) * 2015-06-05 2018-01-10 Technische Universität Kaiserslautern Automated determination of network motifs
CN106354754A (zh) * 2016-08-16 2017-01-25 清华大学 基于离散独立成分分析的自展式隐式特征挖掘方法和系统
CN106372117B (zh) * 2016-08-23 2019-06-14 电子科技大学 一种基于词共现的文本分类方法及其装置
CN107358014B (zh) * 2016-11-02 2021-01-26 华南师范大学 一种生理数据的临床前处理方法及系统
CN107391575B (zh) * 2017-06-20 2020-08-04 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN107562717B (zh) * 2017-07-24 2021-08-03 南京邮电大学 一种基于Word2Vec与词共现相结合的文本关键词抽取方法

Also Published As

Publication number Publication date
CN110020439A (zh) 2019-07-16
CN111859898A (zh) 2020-10-30
CN111859898B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
Shi et al. Functional and contextual attention-based LSTM for service recommendation in mashup creation
CN110717106B (zh) 信息推送的方法及装置
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN104899322A (zh) 搜索引擎及其实现方法
CN107766323B (zh) 一种基于互信息和关联规则的文本特征提取方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN114997288A (zh) 一种设计资源关联方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114818674A (zh) 商品标题关键词提取方法及其装置、设备、介质、产品
CN110020439B (zh) 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management
CN114218948A (zh) 关键词识别方法及其装置、设备、介质、产品
CN106294295B (zh) 基于词频的文章相似度识别方法
Xie et al. Construction of unsupervised sentiment classifier on idioms resources
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115203514A (zh) 商品查询重定向方法及其装置、设备、介质、产品
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant