CN107329954B - 一种基于文档内容和相互关系的主题检测方法 - Google Patents
一种基于文档内容和相互关系的主题检测方法 Download PDFInfo
- Publication number
- CN107329954B CN107329954B CN201710516534.3A CN201710516534A CN107329954B CN 107329954 B CN107329954 B CN 107329954B CN 201710516534 A CN201710516534 A CN 201710516534A CN 107329954 B CN107329954 B CN 107329954B
- Authority
- CN
- China
- Prior art keywords
- matrix
- document
- word
- documents
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文档内容和相互关系的主题检测方法,通过获取文档进行预处理,得到文档特征的共现矩阵和两两关系矩阵,基于此构建目标函数,迭代计算文档代表度矩阵、文档隶属度矩阵、词代表度矩阵及词隶属度矩阵,输出词代表度矩阵,其每一列对应一个主题,以每列中值最大的词作为描述该主题的关键词,获取用于描述主题的关键词。本发明文档聚类和词聚类的同时、联合进行比对各自聚类更加有效,同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型,隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。
Description
技术领域
本发明属于特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域,特别涉及一种基于文档内容和相互关系的主题检测方法。
背景技术
在很多自然语言处理和分析问题中,需要通过主题建模方法从海量的互联网数据中自动检测出文本内容的语义主题,同时对文档进行分组归类。
现在的主题建模方法以LDA或pLDA为代表,认为主题模型是隐变量,从而基于隐狄利克雷分布来求解主题模型。大多现有的基于概率分布的主题建模方法只考虑文档内容。
然而,在很多现实应用中,文档间往往存在相互的关联关系,比如网页之间的超链接、微博之间的转发、文献之间的引用等。显然,除了内容,两两关系也给主题模型的建立提供了重要的信息。
因此,如何在利用文档内容的同时有效利用文档间的相互关系来进行主题建模是主题检测的一个重要研究方向。
发明内容
本发明解决的技术问题是,现有技术中,主题建模方法以LDA或pLDA为代表,认为主题模型是隐变量,大多现有的基于概率分布的主题建模方法只考虑文档内容,而导致的没有有效利用文档间的相互关系进行主题模型的建立,可能导致漏检、错检的问题,进而提供了一种优化的基于文档内容和相互关系的主题检测方法。
本发明所采用的技术方案是,一种基于文档内容和相互关系的主题检测方法,所述方法包括以下步骤:
步骤1:获取N个文档,对所述文档进行预处理,得到文档-特征的共现矩阵X和两两关系矩阵R;
步骤2:基于X和R,构建目标函数,设定聚类数为K,1<K<N;迭代计算文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw;
步骤3:基于输出的矩阵Vw,矩阵Vw每一列对应一个主题,以每列中值最大的p个词作为描述该主题的关键词,获取用于描述K个主题的关键词。
优选地,所述步骤1包括以下步骤:
步骤1.1:基于向量空间模型,N个文档一共包含T个不同的词,以所述N个文档的每个文档表示为一个向量,向量的每个维度对应一个出现在文档中的词,则每个文档表示为一个T维向量;
步骤1.3:以元素Rij表示第i个文档和第j个文档之间的关联程度,0≤Rij≤1,得到两两关系矩阵R。
优选地,所述步骤1中,预处理包括英文文本预处理和中文文本预处理;所述英文文本预处理包括词干还原、停用词消除;所述中文文本预处理包括分词、去除低频词。
优选地,所述步骤2包括以下步骤:
步骤2.1:基于X和R,设定文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw;
步骤2.2:构建目标函数
步骤2.3:初始化N×K的Ut矩阵为非负随机矩阵,初始化N×K的Vt矩阵为非负随机矩阵;置迭代次数l=0;
步骤2.6:l=l+1,检测是否满足约束条件,若是,则输出Vw,若否,则进行步骤2.4。
优选地,所述约束条件为迭代次数超过设定值,或K个Ut向量更新前后的差别小于设定值ε。
优选地,ε∈[10-5,10-3]。
本发明提供了一种优化的基于文档内容和相互关系的主题检测方法,通过获取N个文档进行预处理,得到文档-特征的共现矩阵X和两两关系矩阵R,基于X和R构建目标函数,迭代计算文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw,输出矩阵Vw,矩阵Vw每一列对应一个主题,以每列中值最大的p个词作为描述该主题的关键词,获取用于描述K个主题的关键词。
本发明利用基于文档和词联合聚类的方法,充分利用文档内容和文档之间的两两关系这两种信息同时得到文档和词在每个类中的代表度和隶属度,每个类对应一个主题,因此根据词到每个类的代表度就可以得到每个主题的关键词。
本发明的有益效果在于:
1、文档聚类和词聚类的同时、联合进行比对各自聚类更加有效;
2、同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型;
3、隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
本发明涉及一种基于文档内容和相互关系的主题检测方法,所述方法包括以下步骤。
步骤1:获取N个文档,对所述文档进行预处理,得到文档-特征的共现矩阵X和两两关系矩阵R。
所述步骤1中,预处理包括英文文本预处理和中文文本预处理;所述英文文本预处理包括词干还原、停用词消除;所述中文文本预处理包括分词、去除低频词。
本发明中,文档-特征的共现矩阵X是指基于文档和词的矩阵。
本发明中,两两关系矩阵R表示的是两个文档之间的关系。
本发明中,英文文本预处理可以包括词干还原(Stemming)、停用词消除(stopword removing)等,对中文文本,预处理还包括分词、去除低频词等。
本发明中,除了以单个词为特征,文档-特征矩阵还可以是用更复杂的方法得到的特征比如通过语义分析、特征选择以及特征提取等操作后得到的特征。
所述步骤1包括以下步骤。
步骤1.1:基于向量空间模型,N个文档一共包含T个不同的词,以所述N个文档的每个文档表示为一个向量,向量的每个维度对应一个出现在文档中的词,则每个文档表示为一个T维向量。
本发明中,步骤1.1和1.2用于获得文档-特征的共现矩阵X。基于向量空间模型(vector space model)把每个文档表示为一个向量,每个维度对应一个出现在给定文档集的词。
本发明中,以tf-idf来计算每个词在对应文档的权重,举例来说,经过一定预处理后,给定的N个文档一共包含了T个不同的词,则每个文档表示为一个T维向量,假设这T个词中的第j个词出现在了第i个文档t次,并且同时出现在m个文档中,则 以Ii表示第i个文档包含的词的总个数。
步骤1.3:以元素Rij表示第i个文档和第j个文档之间的关联程度,0≤Rij≤1,得到两两关系矩阵R。
本发明中,两两关系矩阵R中的每一个元素Rij的取值在不同的实施例中是不同的。举例来说,对于网页数据,Rij可以定义为两个网页之间是否有直接的超链接等。
本发明中,元素Rij的取值具体看实施例中对R的定义以及获取的途径,一般情况下,0≤Rij≤1。
步骤2:基于X和R,构建目标函数,设定聚类数为K,1<K<N;迭代计算文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw。
本发明中,基本思路为把文档和特征看作两种不同类型的对象,把文档内容表示为文档-特征的共现矩阵X,文档之间的关联表示为文档-文档关系矩阵R,引入文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw,隶属度包含某个对象到所有类的隶属程度,用于得到聚类结果,而代表度是指某个类中所有对象在该类的代表性,用于得到对某个类的描述。
所述步骤2包括以下步骤。
步骤2.1:基于X和R,设定文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw。
本发明中,Vt(i,c)、Ut(i,c)分别表示第i个文档在第c个主题的代表度和隶属度,Vw(j,c)、Uw(j,c)分别表示第j个词在第c个主题中的代表度和隶属度。
步骤2.2:构建目标函数
本发明中,构建的目标函数需要进行迭代优化,当目标函数最大时,即第一项最大且后四项(不含负号)较小,使得如果与某个对象相关的其他对象在某个类有高的代表度,则这个对象到这个类的隶属度较高,如果与某个对象相关的其他对象在某个类的隶属度很大,则这个对象在这个类有较高代表度。
本发明中,主要是第一项矩阵的迹最大,即所有对角元素之和最大,后四项的正则项较小,即对应的矩阵产生较多非0元素。
步骤2.3:初始化N×K的Ut矩阵为非负随机矩阵,初始化N×K的Vt矩阵为非负随机矩阵;置迭代次数l=0。
步骤2.6:l=l+1,检测是否满足约束条件,若是,则输出Vw,若否,则进行步骤2.4。
所述约束条件为迭代次数超过设定值,或K个Ut向量更新前后的差别小于设定值ε。
ε∈[10-5,10-3]。
本发明中,以上为目标函数的计算与迭代过程。
本发明中,对于Ut、Vt、Uw和Vw的计算采用拉格朗日法对目标函数求最大化得到,此为本领域技术人员容易理解的内容。
步骤3:基于输出的矩阵Vw,矩阵Vw每一列对应一个主题,以每列中值最大的p个词作为描述该主题的关键词,获取用于描述K个主题的关键词。
本发明结合实施例说明。
取Cora数据集,共收集19396篇文献,包含12313个词,其中每篇文档的关键词已经由Cora提取并将文档表示为向量形式,得到共现矩阵X;数据集一共包含75021条文献-文献引用关系,得到关系矩阵R;基于X和R,设置K为10,输出19396×10的文档代表度矩阵Vt、文档隶属度矩阵Ut和12313×10的词代表度矩阵Vw及词隶属度矩阵Uw,β1和β2设为1,ρ1和ρ2设为0.01,μ1和μ2设为1,设定迭代次数最大值为100,ε=10-5;基于输出的Vw,取对Cora数据集聚类后得到的词代表度矩阵Vw的前25行,代表每个词在10个类中的代表度,此处数据精确到小数点后至少4位;取实施例的第6个主题中最具有代表性的25个词,即取Vw矩阵中的第6列结果,按照值从大到小排列后取出前25个权重所对应的关键词,如表1所示。
表1:Vw矩阵第6列的前25个权重所对应的关键词
本实施例经其他主题建模方法交叉核实,准确率高。
本发明解决了现有技术中,主题建模方法以LDA或pLDA为代表,认为主题模型是隐变量,大多现有的基于概率分布的主题建模方法只考虑文档内容,而导致的没有有效利用文档间的相互关系进行主题模型的建立,可能导致漏检、错检的问题,通过获取N个文档进行预处理,得到文档-特征的共现矩阵X和两两关系矩阵R,基于X和R构建目标函数,迭代计算文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw,输出矩阵Vw,矩阵Vw每一列对应一个主题,以每列中值最大的p个词作为描述该主题的关键词,获取用于描述K个主题的关键词。
本发明利用基于文档和词联合聚类的方法,充分利用文档内容和文档之间的两两关系这两种信息同时得到文档和词在每个类中的代表度和隶属度,每个类对应一个主题,因此根据词到每个类的代表度就可以得到每个主题的关键词。
本发明的有益效果在于:1、文档聚类和词聚类的同时、联合进行比对各自聚类更加有效;2、同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型;3、隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。
Claims (5)
1.一种基于文档内容和相互关系的主题检测方法,其特征在于:所述方法包括以下步骤:
步骤1:获取N个文档,对所述文档进行预处理,得到文档-特征的共现矩阵X和两两关系矩阵R;
步骤2:基于X和R,构建目标函数,设定聚类数为K,1<K<N;迭代计算文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw;
所述步骤2包括以下步骤:
步骤2.1:基于X和R,设定文档代表度矩阵Vt、文档隶属度矩阵Ut、词代表度矩阵Vw及词隶属度矩阵Uw;
步骤2.2:构建目标函数
步骤2.3:初始化N×K的Ut矩阵为非负随机矩阵,初始化N×K的Vt矩阵为非负随机矩阵;置迭代次数l=0;
步骤2.4:基于当前的Ut、Vt,更新 其中,H2=β2XUt,G2=β2XVt,Q2为T×K的全部元素为1的矩阵;其中,T为N个文档中包含的不同的词的个数;步骤2.5:基于当前的Ut、Vt、Uw和Vw,更新 其中,H1=β1RUt+β2XUw,G1=β1RVt+β2XVw,Q1为N×K的全部元素为1的矩阵;
步骤2.6:l=l+1,检测是否满足约束条件,若是,则输出Vw,若否,则进行步骤2.4;
步骤3:基于输出的矩阵Vw,矩阵Vw每一列对应一个主题,以每列中值最大的p个词作为描述该主题的关键词,获取用于描述K个主题的关键词。
3.根据权利要求1所述的一种基于文档内容和相互关系的主题检测方法,其特征在于:所述步骤1中,预处理包括英文文本预处理和中文文本预处理;所述英文文本预处理包括词干还原、停用词消除;所述中文文本预处理包括分词、去除低频词。
4.根据权利要求1所述的一种基于文档内容和相互关系的主题检测方法,其特征在于:所述约束条件为迭代次数超过设定值,或K个Ut向量更新前后的差别小于设定值ε。
5.根据权利要求4所述的一种基于文档内容和相互关系的主题检测方法,其特征在于:ε∈[10-5,10-3]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710516534.3A CN107329954B (zh) | 2017-06-29 | 2017-06-29 | 一种基于文档内容和相互关系的主题检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710516534.3A CN107329954B (zh) | 2017-06-29 | 2017-06-29 | 一种基于文档内容和相互关系的主题检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107329954A CN107329954A (zh) | 2017-11-07 |
CN107329954B true CN107329954B (zh) | 2020-10-30 |
Family
ID=60199230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710516534.3A Active CN107329954B (zh) | 2017-06-29 | 2017-06-29 | 一种基于文档内容和相互关系的主题检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107329954B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197175B (zh) * | 2017-12-20 | 2021-12-10 | 国网北京市电力公司 | 技术监督数据的处理方法和装置、存储介质、处理器 |
CN108255809B (zh) * | 2018-01-10 | 2021-10-08 | 北京海存志合科技股份有限公司 | 考虑词语相似度的计算文档所对应的主题的方法 |
CN108681557B (zh) * | 2018-04-08 | 2022-04-01 | 中国科学院信息工程研究所 | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 |
CN109960749B (zh) * | 2019-02-22 | 2021-04-06 | 清华大学 | 模型获取方法、关键词生成方法、装置、介质及计算设备 |
CN110889293B (zh) * | 2019-12-06 | 2020-11-27 | 浙江大搜车软件技术有限公司 | 多层级主题向量空间的构建方法、装置、设备和存储介质 |
CN112527964B (zh) * | 2020-12-18 | 2022-07-01 | 重庆邮电大学 | 基于多模态流形学习和社交网络特征的微博摘要生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761264A (zh) * | 2013-12-31 | 2014-04-30 | 浙江大学 | 基于商品评论文档集的概念层次创建方法 |
US9183288B2 (en) * | 2010-01-27 | 2015-11-10 | Kinetx, Inc. | System and method of structuring data for search using latent semantic analysis techniques |
CN106295688A (zh) * | 2016-08-02 | 2017-01-04 | 浙江工业大学 | 一种基于稀疏均值的模糊聚类方法 |
CN106708969A (zh) * | 2016-12-02 | 2017-05-24 | 山西大学 | 文献资源主题聚类共现潜在语义向量空间模型语义核方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10055479B2 (en) * | 2015-01-12 | 2018-08-21 | Xerox Corporation | Joint approach to feature and document labeling |
-
2017
- 2017-06-29 CN CN201710516534.3A patent/CN107329954B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183288B2 (en) * | 2010-01-27 | 2015-11-10 | Kinetx, Inc. | System and method of structuring data for search using latent semantic analysis techniques |
CN103761264A (zh) * | 2013-12-31 | 2014-04-30 | 浙江大学 | 基于商品评论文档集的概念层次创建方法 |
CN106295688A (zh) * | 2016-08-02 | 2017-01-04 | 浙江工业大学 | 一种基于稀疏均值的模糊聚类方法 |
CN106708969A (zh) * | 2016-12-02 | 2017-05-24 | 山西大学 | 文献资源主题聚类共现潜在语义向量空间模型语义核方法 |
Non-Patent Citations (2)
Title |
---|
A Fuzzy Approach for Multi-Type Relational Data Clustering;Jian-Ping Mei et al.;《IEEE TRANSACTIONS ON FUZZY SYSTEMS》;20120430;第358-371页 * |
面向大规模微博消息流的突发话题检测;申国伟 等;《计算机研究与发展》;20150228;第512-521页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107329954A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107329954B (zh) | 一种基于文档内容和相互关系的主题检测方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN110222160A (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN107908698B (zh) | 一种主题网络爬虫方法、电子设备、存储介质、系统 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN110569920B (zh) | 一种多任务机器学习的预测方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN104142995B (zh) | 基于视觉属性的社会事件识别方法 | |
CN108537257B (zh) | 基于判别性字典矩阵对的零样本图像分类方法 | |
CN104572634B (zh) | 一种交互式抽取可比语料与双语词典的方法及其装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
WO2022116324A1 (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN109766553A (zh) | 一种基于多正则化结合的胶囊模型的中文分词方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
Wei et al. | Semantic pixel labelling in remote sensing images using a deep convolutional encoder-decoder model | |
CN112417152A (zh) | 涉案舆情的话题检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220919 Address after: Building B2, Phase 1, Longshan Innovation Park, Future City, No. 999, Gaoxin Avenue, Wuhan East Lake New Technology Development Zone, Wuhan City, Hubei Province 430000 Patentee after: TRANSN IOL TECHNOLOGY Co.,Ltd. Address before: 310014 No. 18 Chao Wang Road, Xiacheng District, Zhejiang, Hangzhou Patentee before: JIANG University OF TECHNOLOGY |
|
TR01 | Transfer of patent right |