CN104050302A - 一种基于图谱模型的话题探测系统 - Google Patents
一种基于图谱模型的话题探测系统 Download PDFInfo
- Publication number
- CN104050302A CN104050302A CN201410326508.0A CN201410326508A CN104050302A CN 104050302 A CN104050302 A CN 104050302A CN 201410326508 A CN201410326508 A CN 201410326508A CN 104050302 A CN104050302 A CN 104050302A
- Authority
- CN
- China
- Prior art keywords
- word
- degree
- collection
- module
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Abstract
本发明公开了一种基于图谱模型的话题探测系统,该系统包括预处理模块、图谱结构构造模块和子图探测模块,预处理模块对语料文本集预处理;图谱结构构造模块用于构造表示原型的图谱结构,其顶点为语料文档的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心的无向图;子图探测模块处理相关度图谱得到每个子图对应的词汇集合,再进行排序筛选得到每个子话题的最终结果。利用本发明,能够自动获得离散文本集合中隐含的话题,可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。
Description
技术领域
本发明涉及信息抽取、浅语义分析、特征空间降维、命名实体识别、依存句法解析、聚类算法、无向图模型等技术领域,具体地说是一种基于利用实体词和句法信息的图谱模型去探测离散文本集合中隐含话题的话题探测系统。
背景技术
浅语义分析在自然语言处理领域中有着重要应用,在判断文档的相关性时需要考虑文档的隐含语义,如何发现离散文档中相似的概念或话题是文本挖掘(Text Mining)研究中的热点问题。作为浅语义分析的重要技术之一,话题模型是其中一种比较有效的模型,并在机器学习其他领域中也有着重要应用。例如,对于相对宽泛的话题“国际政治”可细分为多个相似的子话题:中东局势、朝鲜半岛核问题,美俄关系等等,这涉及到话题的粒度问题,在发现这些主题时,表达这些主题的词汇集合可能包括:冲突、死亡、爆炸、谈判、对话、协商、武装、领导人等等。
传统的潜语义分析(LSA)通过对矢量语义(向量空间模型)进行奇异值分解把高维词汇空间映射到低维的浅语义空间,文档的相似性在这个空间内进行比较,LSA的缺点在于缺少统计基础。近年来,基于概率浅语义分析模型PLSA而改进的更一般化的LDA成为主流方法,这些方法基于词汇的共现而建立统计模型。然而从语义的角度思考,这些方法没用考虑词汇特别是实体词本身携带的语义信息和词汇所在句子上下文存在的依存信息。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于图谱模型的话题探测系统,该系统基于实体和词对所在共现句中存在的句法依存关系来对词语的相关度进行度量得到词汇之间的相关度并构造词汇相关图谱模型,该图谱模型由相关度邻接矩阵存储表示,随后对得到的邻接矩阵进行聚类,得到话题探测的初步结果,再进行重要性排序之后取top-N,得到了表示每个话题的最终词汇列表。
实现本发明目的的具体技术方案是:
一种基于图谱模型的话题探测系统,特点是该系统包括预处理模块、图谱结构构造模块和子图探测模块,其中:
预处理模块:对语料文本集的分句、分词、命名实体识别和依存句法解析的预处理;
图谱结构构造模块:用于构造表示原型的图谱结构,图谱结构为一个无向图,其顶点为语料文档的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心即话题中心的无向图;其中,词对之间的相关度定义如下:
根据词对( )是否有实体词和词对之间是否存在依存关系,计算词对的依存相关度和自然距离相关度:
1) 如果词对()存在依存关系,则其相关度值为:
其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,是平滑参数;当词对中至少有一个是实体词,;或者,都不是实体词;其中满足条件,e为自然对数底数常数;
2) 当词对不存在依存关系,定义词对的自然相关度和所在句子中的位置关系如下:
对相同词对多次出现,则对其求和,作为图谱中词对的最终相关度:
其中
式中表示词对在语料中共现的次数,为依存相关度和自然距离相关度的权重设置参数;
子图探测模块:探测图谱中相似的结点,并将相似的结点聚到相同的簇中,得到话题探测结果;具体包括:
1)对图谱结构进行子图划分,采用谱聚类算法(Spectral Clustering Algorithm)进行子图探测、划分,得到每个簇的词列表;
2)得到词列表后,根据词所在行向量的相关度值求和作为该词的权值,再进行排序,取top-N作为话题探测结果;其中,词的权值定义为。
与传统的话题探测系统相比,本发明更多地结合了语言自身属性如:命名实体和依存解析关系。图谱结构构造模块利用处理后的文本特征建立词汇相关度无向图;然后对无向图应用子图探测算法,采用谱聚类算法得到每个子图对应的词集合列表,最后利用每个词的权值再进行排序,选取top-N作为对应话题的最终探测结果。
利用本发明,可以自动获得离散文本集合中隐含的话题,是对传统基于概率的主题模型的一种补充,可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。
附图说明
图1为本发明流程图;
图2为本发明图谱结构图,图中,每个顶点代表一个词项,顶点1和顶点10,这里代表实体词,为中心点即图心,其它顶点为非实体词;边代表词汇之间的相关度,两点距离越近则表示相关度越高;
图3为发明实施在搜狗文本分类语料库上的话题探测结果图。
具体实施方式
本发明可针对文本语料集,进行主题探测分析后,获得语料隐藏的主题信息。
实施例
本发明以探测多分类文本为例探测其隐藏的主题信息。下面以搜狗文本分类语料库为例,结合附图对本发明作进一步说明。
搜狗文本分类语料库(链接:http://www.sogou.com/labs/dl/c.html)包括9大类领域新闻文本,分别是:体育、文化、招聘、教育、军事、信息技术、健康、经济、旅游。
参阅图1,本发明包括以下三个模块:
模块1预处理模块,在本实施例中,所述预处理模块利用哈工大语言技术平台云(http://www.ltp-cloud.com/)完成分句、分词、命名实体识别和依存句法解析等预处理工作。该模块的结果用于图谱结构构造模块中的相关度计算。
模块2图谱结构构造模块。在本实施例中,主要是计算词与词之间的相关度,考虑的因素包括词汇本身是否为实体词,所在的句子中的词对是否存在依存关系,并赋予其不同的权值:
1) 如果词对()存在依存关系,则其相关度值为:
其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,是平滑参数。当词对中至少有一个是实体词,;或者,都不是实体词。其中满足条件,e为自然对数底数常数。
2) 当词对不存在依存关系,定义词对的自然相关度和所在句子中的位置关系如下:
对相同词对多次出现,则对其求和,作为图谱中词对的最终相关度:
其中
式中表示词对在语料中共现的次数,为依存相关度和自然距离相关度的权重设置参数,在这里设置为0.5。
模块3为子图探测模块。在本实施例中所述的子图探测模块利用谱聚类算法探测图谱中相似的结点,使得相似的结点聚到相同的簇中,簇间尽可能的表现出差异性。包括以下步骤:
1) 对图谱结构进行子图划分,采用谱聚类算法进行子图探测、划分,得到每个簇的词列表;这里簇的个数k默认设置为9。
2) 得到词列表后,根据词所在行向量的相关度值求和作为该词的权值,再进行排序选取top-N,作为每个话题对应的最终表示结果,如图表3所示。其中词的权值定义为。
本发明首次将语言学特征信息引入到话题探测任务中来,用于构造共现词对的相关度计算,形成一个以实体词为话题图谱中心的话题探测系统。实验表明,该系统可以有效地进行探测话题,达到特征空间降维的目的,并且降维后的特征空间可以有效地用于分类任务。
Claims (1)
1.一种基于图谱模型的话题探测系统,其特征在于该系统包括预处理模块、图谱结构构造模块和子图探测模块,其中:
预处理模块:对语料文本集的分句、分词、命名实体识别和依存句法解析的预处理;
图谱结构构造模块:用于构造表示原型的图谱结构,图谱结构为一个无向图,其顶点为语料文档的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心即话题中心的无向图;其中,词对之间的相关度定义如下:
根据词对( )是否有实体词和词对之间是否存在依存关系,计算词对的依存相关度和自然距离相关度:
如果词对()存在依存关系,则其相关度值为:
其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,是平滑参数;当词对中至少有一个是实体词,;或者,都不是实体词;其中满足条件,e为自然对数底数常数;
当词对不存在依存关系,定义词对的自然相关度和所在句子中的位置关系如下:
对相同词对多次出现,则对其求和,作为图谱中词对的最终相关度:
其中
式中表示词对在语料中共现的次数,为依存相关度和自然距离相关度的权重设置参数;
子图探测模块:探测图谱中相似的结点,并将相似的结点聚到相同的簇中,得到话题探测结果;具体包括:
1)对图谱结构进行子图划分,采用谱聚类算法进行子图探测、划分,得到每个簇的词列表;
2)得到词列表后,根据词所在行向量的相关度值求和作为该词的权值,再进行排序,取top-N作为话题探测结果;其中,词的权值定义为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410326508.0A CN104050302B (zh) | 2014-07-10 | 2014-07-10 | 一种基于图谱模型的话题探测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410326508.0A CN104050302B (zh) | 2014-07-10 | 2014-07-10 | 一种基于图谱模型的话题探测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104050302A true CN104050302A (zh) | 2014-09-17 |
CN104050302B CN104050302B (zh) | 2017-05-24 |
Family
ID=51503134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410326508.0A Active CN104050302B (zh) | 2014-07-10 | 2014-07-10 | 一种基于图谱模型的话题探测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104050302B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462253A (zh) * | 2014-11-20 | 2015-03-25 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN107273362A (zh) * | 2017-07-04 | 2017-10-20 | 联想(北京)有限公司 | 数据处理方法及其设备 |
CN107451388A (zh) * | 2016-05-31 | 2017-12-08 | 百度(美国)有限责任公司 | 用于使医疗诊断自动化的方法、装置和系统 |
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置 |
CN110096484A (zh) * | 2019-04-12 | 2019-08-06 | 华东师范大学 | 一种基于Revit的3D模型批量导出方法 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN110941697A (zh) * | 2019-11-12 | 2020-03-31 | 清华大学 | 未收录术语检测方法及系统 |
CN112988994A (zh) * | 2021-03-04 | 2021-06-18 | 网易(杭州)网络有限公司 | 对话处理方法、装置及电子设备 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2048605A2 (en) * | 2007-10-12 | 2009-04-15 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
-
2014
- 2014-07-10 CN CN201410326508.0A patent/CN104050302B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2048605A2 (en) * | 2007-10-12 | 2009-04-15 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
Non-Patent Citations (2)
Title |
---|
郑珊珊: "基于中文语法特征的开放领域实体关系抽取", 《中国优秀硕士学位论文全文数据库》 * |
高汉东: "面向微博的消费意图挖掘与分类", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462253A (zh) * | 2014-11-20 | 2015-03-25 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN104462253B (zh) * | 2014-11-20 | 2018-05-18 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105068661B (zh) * | 2015-09-07 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN107451388A (zh) * | 2016-05-31 | 2017-12-08 | 百度(美国)有限责任公司 | 用于使医疗诊断自动化的方法、装置和系统 |
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置 |
CN107273362A (zh) * | 2017-07-04 | 2017-10-20 | 联想(北京)有限公司 | 数据处理方法及其设备 |
CN110096484A (zh) * | 2019-04-12 | 2019-08-06 | 华东师范大学 | 一种基于Revit的3D模型批量导出方法 |
CN110096484B (zh) * | 2019-04-12 | 2023-04-21 | 华东师范大学 | 一种基于Revit的3D模型批量导出方法 |
CN110941697A (zh) * | 2019-11-12 | 2020-03-31 | 清华大学 | 未收录术语检测方法及系统 |
CN110941697B (zh) * | 2019-11-12 | 2023-08-08 | 清华大学 | 未收录术语检测方法及系统 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN112988994A (zh) * | 2021-03-04 | 2021-06-18 | 网易(杭州)网络有限公司 | 对话处理方法、装置及电子设备 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104050302B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050302A (zh) | 一种基于图谱模型的话题探测系统 | |
Peng et al. | Fine-grained event categorization with heterogeneous graph convolutional networks | |
US9710544B1 (en) | Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents | |
Raj et al. | Cyberbullying detection: Hybrid models based on machine learning and natural language processing techniques | |
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
US20170228435A1 (en) | Measuring accuracy of semantic graphs with exogenous datasets | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
Gómez-Adorno et al. | Automatic authorship detection using textual patterns extracted from integrated syntactic graphs | |
Wang et al. | A machine learning analysis of Twitter sentiment to the Sandy Hook shootings | |
Lou et al. | Multilabel subject-based classification of poetry | |
Zul et al. | Social media sentiment analysis using K-means and naïve bayes algorithm | |
Zubiaga et al. | Content-based clustering for tag cloud visualization | |
Maiya et al. | Topic similarity networks: visual analytics for large document sets | |
Mandal et al. | Pso-based text summarization approach using sentiment analysis | |
Hossny et al. | Enhancing keyword correlation for event detection in social networks using SVD and k-means: Twitter case study | |
Rezaei et al. | Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Song et al. | Topic modeling and sentiment analysis of social media data to drive experiential redesign | |
Trihanto et al. | Information Retrieval System for Determining The Title of Journal Trends in Indonesian Language Using TF-IDF and Na? ve Bayes Classifier | |
US8819023B1 (en) | Thematic clustering | |
Duong-Trung et al. | On discovering the number of document topics via conceptual latent space | |
Castano et al. | A new approach to security system development | |
Singh et al. | An Insight into Word Sense Disambiguation Techniques | |
Li et al. | What users care about: A framework for social content alignment | |
RU2775358C1 (ru) | Способ и система получения векторного представления электронного текстового документа для классификации по категориям конфиденциальной информации |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |