CN109726402B - 一种文档主题词自动提取方法 - Google Patents

一种文档主题词自动提取方法 Download PDF

Info

Publication number
CN109726402B
CN109726402B CN201910028660.3A CN201910028660A CN109726402B CN 109726402 B CN109726402 B CN 109726402B CN 201910028660 A CN201910028660 A CN 201910028660A CN 109726402 B CN109726402 B CN 109726402B
Authority
CN
China
Prior art keywords
words
word
subject
cluster
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910028660.3A
Other languages
English (en)
Other versions
CN109726402A (zh
Inventor
陈雍君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 7 Research Institute
Original Assignee
CETC 7 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 7 Research Institute filed Critical CETC 7 Research Institute
Priority to CN201910028660.3A priority Critical patent/CN109726402B/zh
Publication of CN109726402A publication Critical patent/CN109726402A/zh
Application granted granted Critical
Publication of CN109726402B publication Critical patent/CN109726402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种文档主题词自动提取方法的实现方法是一种非监督的方法,全程不需要人为干涉,从主题的划分还是关联词的寻找,都是根据文章自身的词语特征形成的;本发明提出了关联度来衡量主题词的关系,这种关联度充分考虑了共现度和词语间的互信息两种情况;本发明采用重叠矩阵来划分文章的主题,CPM算法作为社团划分的主流,用派系变异系数来衡量词语关联的稳定性,更有助于划分有效稳定的主题;采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征,这种连接特很好反映不同主题之间的承上启下的作用,有助于文章摘要顺序的生成。

Description

一种文档主题词自动提取方法
技术领域
本发明涉及进信息处理领域,更具体地,涉及一种文档主题词自动提取方法。
背景技术
采用数据技术和计算机算法提取文档中具有特征意义和概括性质的主题词,即代替人脑进行内容的初步审阅,是编辑出版行业一直以来的需要。
目前的文档主题词提取技术一般仅仅利用词语之间的关联度来衡量文本主题词关联度,在一定程度上体现该文档的主题词的重要性,但是它仅仅是从词语的本身来衡量,忽略了词语相邻之间的关系,以及词语与相邻词语出现的稳定性。共现度、互信息等关联度,它们仅仅关注词语在本文的一个句子或者一段话中一起出现的概率或者相似性,并没有从本质上衡量词语的相邻关系以及相邻关系的稳定性。或者采用关联度的主题词划分不能反映不同主题特征的承上启下作用,能够有助于中文摘要自动生成的主题转换。过分关注反映主题特征的承上启下作用,虽然能够有助于中文摘要自动生成的主题转换,但是没有体现每一个簇的中心性,也就是每一个主题的几个重要特征词。
发明内容
为解决现有文档主题词自动提取技术仅利用词语间的关联度来衡量文本主题词关联度,在一定程度上体现该文档的主题词的重要性,但是它仅仅是从词语的本身来衡量,忽略了词语相邻之间的关系,以及词语与相邻词语出现的稳定性或过分关注反映主题特征的承上启下作用,虽然能够有助于中文摘要自动生成的主题转换,但是没有体现每一个簇的中心性的问题。
本发明提出一种文档主题词自动提取方法,本发明采用的技术方案是:
一种文档主题词自动提取方法,包括以下步骤:
S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;
S2.利用词汇之间的关联关系衡量文本主题词关联度;
S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;
S4.采用派系过滤算法,即CPM算法对词的网络空间模型图进行重叠社区划分;
S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;
S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;
S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;
S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;
S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;
S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词;
优选的,所述的S2包括以下步骤;
S21.计算文档中每一个词的相对共现度C:
Figure BDA0001943424100000021
Figure BDA0001943424100000022
其中wx表示词语a,wy表示词语b,(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下,出现词语“词语a”的概率;
S22.用互信息进行衡量词与词之间的相似性PMI:
Figure BDA0001943424100000023
其中x表示词语c,y表示词语d;p(x)表示词语c在一段文本中出现的概率、p(x,y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率;
S23.根据S21所得的共现度与S22互信息定义,两个词汇之间的关联性S为:
S(x,y)=αC(x,y)+βPMI(x,y) (4)
其中,α和β是人为设定的参数,两者之和为1。
优选的,所述的S4包括以下步骤:
S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系,首先根据预知的k,提取复杂网络中度数大于k-1的节点,k为先验系数,缩小派系搜索过程所花费的时间;
S412.寻找度数最大值为g-1的节点集合:从该集合中随机一个节点出发,找到包含该节点大小为g-1的派系后,g为当前网络中度的最大值,删除该节点以及其连接的边,再另选一个节点直至集合中没有节点为止;
S413.g-2派系、g-3派系…、k派系的寻找方法按照上述步骤进行,当g=k时,停止寻找;
S421.根据上述的方法找到了满足度数要求的大小不同的派系之后,引用词间关联性;接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v;结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V*;如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于关联性变异系数的带权派系,否则,则忽略该k派系;该方法设置派系关联性变异系数的阈值C.V*,把派系变异系数大于该阈值的派系忽略掉,缩小整个算法的搜索空间,改进了空间网络的社团划分的流程,大大提升算法的速度。
S422.采用变异系数来衡量词语之间的关联度的稳定性,其公式为:
Figure BDA0001943424100000031
其中,σ表示该派系中权重的标准差,μ表示该派系中权重的平均值;
S423.在求出每一个派系的变异系数后,借助法卡斯的派系强度函数计算派系权重变异系数阈值C.V*,其公式为:
Figure BDA0001943424100000032
其中,c为派系集合,u和v表示派系,k表示集合中派系的个数;
如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于变异系数的带权派系,否则,则忽略该k派系。
优选的,还包括步骤S9.根据对主题词与连接词进行分析,获取主题词和连接词中关键句子的位置,提取相关句子生成文本摘要。
优选的,所述的步骤S9步骤中,根据对主题词与连接词进行分析,提取相关句子后借助开源摘要自动生成算法——Sequence-to-Sequence序列,生成文本摘要。
优选的,所述S8的连接权重为主题簇内一词语与其他词语关联度之和。
优选的,所述的滑动窗口大小为4个词汇。
与现有技术相比,本发明技术方案的有益效果是:
(1)提出了一种主题词自动提取的方法;是一种非监督的方法,全程不需要人为干涉,从主题的划分还是关联词的寻找,都是根据文章自身的词语特征形成的。
(2)提出了关联度来衡量主题词的关系,这种关联度充分考虑了共现度和词语间的互信息两种情况。
(3)采用重叠矩阵来划分文章的主题,CPM作为社团划分的主流,采用,用派系变异系数来衡量词语关联的稳定性,更有助于划分有效稳定的主题。
(4)采用重叠社区划分后结果的不同主题簇之间的连接词来反映不同主题之间的连接特征,这种连接特很好反映不同主题之间的承上启下的作用,有助于文章摘要顺序的生成。
附图说明
图1是本发明提供的一种文档主题词自动提取方法的流程示意图。
图2是实施例1中通过共现度和互信息描述关键词的示意图。
图3是实施例2中滑动窗口在文档中移动的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种文档主题词自动提取方法,请参考图1,包括以下步骤:
S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;
S2.利用词汇之间的关联关系衡量文本主题词关联度;
S21.计算文档中每一个词的相对共现度C:
Figure BDA0001943424100000051
Figure BDA0001943424100000052
其中wx表示词语a,wy表示词语b,(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下,出现词语“词语a”的概率;
S22.用互信息进行衡量词与词之间的相似性PMI:
Figure BDA0001943424100000053
其中x表示词语c,y表示词语d;p(x)表示词语c在一段文本中出现的概率、p(x,y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率;
S23.根据S21所得的共现度与S22互信息定义,两个词汇之间的关联性S为:
S(x,y)=αC(x,y)+βPMI(x,y) (4)
其中,α和β是人为设定的参数,两者之和为1。
S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;
S4.采用派系过滤算法,即CPM算法对词的网络空间模型图进行重叠社区划分;
S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;
S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系,首先根据预知的k,提取复杂网络中度数大于k-1的节点,k为先验系数,缩小派系搜索过程所花费的时间;
S412.寻找度数最大值为g-1的节点集合:从该集合中随机一个节点出发,找到包含该节点大小为g-1的派系后,g为当前网络中度的最大值,删除该节点以及其连接的边,再另选一个节点直至集合中没有节点为止;
S413.g-2派系、g-3派系…、k派系的寻找方法按照上述步骤进行,当g=k时,停止寻找;
S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;
S421.根据上述的方法找到了满足度数要求的大小不同的派系之后,引用词间关联性;接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v;结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V*;如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于关联性变异系数的带权派系,否则,则忽略该k派系;该方法设置派系关联性变异系数的阈值C.V*,把派系变异系数大于该阈值的派系忽略掉,缩小整个算法的搜索空间,改进了空间网络的社团划分的流程,大大提升算法的速度。
S422.采用变异系数来衡量词语之间的关联度的稳定性,其公式为:
Figure BDA0001943424100000061
其中,σ表示该派系中权重的标准差,μ表示该派系中权重的平均值;
S423.在求出每一个派系的变异系数后,借助法卡斯的派系强度函数计算派系权重变异系数阈值C.V*,其公式为:
Figure BDA0001943424100000062
其中,c为派系集合,u和v表示派系,k表示集合中派系的个数;
如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于变异系数的带权派系,否则,则忽略该k派系。
S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;
S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;
S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;
S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词;
S9.根据对主题词与连接词进行分析,获取主题词和连接词中关键句子的位置,提取相关句子生成文本摘要。
作为进一步的优选实施方案,所述的步骤S9步骤中,根据对主题词与连接词进行分析,提取相关句子后借助开源摘要自动生成算法——Sequence-to-Sequence序列,生成文本摘要。
其中,所述S8的连接权重为主题簇内一词语与其他词语关联度之和。
其中,所述的滑动窗口大小为4个词汇。
如图2所示,若最终形成2个簇,其中一个簇的主题词是共现度,另一个簇的主题词是互信息。两个簇之间的关联词是“关键词”。也就是,互信息和共现度通过关键词形成了文本的两个主题的合并。第一个主题是描述互信息形成关键词的主题,第二个主题是描述共现度形成关键词的主题,该文本是采用共现度和互信息这两个不同的角度来共同描述关键词的。
生成式文本摘要主要依靠深度神经网络结构实现,Sequence-to-Sequence又称为编、解码器架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decoder负责从这个向量C中提取信息,获取语义,生成文本摘要。
实施例2
本实施例提供一段文本,如图3所示,计算文本中词汇的共现度与词汇之间的相似性。
计算词汇的共现度:
从第一次出现共现度的窗口,到第二次出现共现度的窗口,再到第三次出现共现度的窗口,由此可知,共现度在本文出现两次,但是在滑动窗口中,与共现度一起出现的词语只出现一次,因此,
f(wxwy)=1,f(wy)=2.R(wx|wy)=1/2。同理,R(wy|wx)=1/2。C(wy,wx)=1/2。
计算词汇之间的相似性:
除去停用词之后,文章有51个词语(包括重复的词,有一个算一个),然后“词语”在文章出现了2次,“共现度”也出现了2次。“词语共现度”出现了1次。那么p(x)=2/51;p(y)=2/51;p(xy)=1/51.PMI(x,y)就能根据公式求出来。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种文档主题词自动提取方法,其特征在于,包括以下步骤:
S1.对文档进行预处理,包括分词、停用词的去除以及筛选词频最高前N位的词作为候选主题词的词集;
S2.利用词汇之间的关联关系衡量文本主题词关联度;
S3.构建词汇的网络空间模型,词的空间模型以词为节点,以关联性作为边的无向派系网络;
S4.采用派系过滤算法对词的网络空间模型图进行重叠社区划分;
S41.按照迭代递归的方法找到满足度数要求的网络的大小不同派系;
S42.构建基于词间关联性的带权派系,用派系变异系数来衡量词语关联稳定性;
S5.根据S4所得的所有带权派系,建立带权派系重叠矩阵;
S6.根据输入值k和带权派系重叠矩阵,构建带权派系连接矩阵,产生k个主题划分结果,即形成k个主题簇,构成文章表达的特定主题;
S7.根据划分结果找到不同主题簇之间的连接特征,找到不同主题簇之间的连接词;
S8.找到主题簇里面的主题词,通过对主题簇进行提取,根据S2所得的主题簇里面的关联度求出主题簇内的连接权重,比较主题簇里面的各个词语的连接性得出该主题簇的主题词,主题簇内连接权重最大的词语即为该主题簇的主题词。
2.根据权利要求1所述的文档主题词自动提取方法,其特征在于,所述的S2包括以下步骤;
S21.计算文档中每一个词的相对共现度C:
Figure FDA0003857962440000011
Figure FDA0003857962440000012
其中wx表示词语a,wy表示词语b,(wx|wy)在一定的滑动窗口下表示在词语“词语b”出现的情况下,出现词语“词语a”的概率;
S22.用互信息进行衡量词与词之间的相似性PMI:
Figure FDA0003857962440000021
其中x表示词语c,y表示词语d;p(x)表示词语c在一段文本中出现的概率、p(x,y)表示在一段文本中词语c与词语d同时出现的概率、p(y|x)表示在一段文本中出现词语c的情况下出现词语d的概率、p(x|y)表示在一段文本中出现词语d的情况下出现词语c的概率;
S23.根据S21所得的共现度与S22互信息定义,两个词汇之间的关联性S为:
S(x,y)=αC(x,y)+βPMI(x,y) (4)
其中,α和β是人为设定的参数,两者之和为1。
3.根据权利要求2所述的文档主题词自动提取方法,其特征在于,所述的S4包括以下步骤:
S411.按照迭代递归的方法找到满足度数要求的网络的大小不同派系,首先根据预知的k,提取复杂网络中度数大于k-1的节点,k为先验系数;
S412.寻找度数最大值为g-1的节点集合:从该集合中随机一个节点出发,找到包含该节点大小为g-1的派系后,g为当前网络中度的最大值,删除该节点以及其连接的边,再另选一个节点直至集合中没有节点为止;
S413.g-2派系、g-3派系…、k派系的寻找方法按照上述步骤进行,当g=k时,停止寻找;
S421.根据上述的方法找到了满足度数要求的大小不同的派系之后,引用词间关联性;接着根据关联性的公式计算每一个大小不同派系的关联性变异系数c.v;结合法卡斯的派系强度函数公式计算每一类派系的关联性变异系数阈值C.V*;如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于关联性变异系数的带权派系,否则,则忽略该k派系;
S422.采用变异系数来衡量词语之间的关联度的稳定性,其公式为:
Figure FDA0003857962440000022
其中,σ表示该派系中权重的标准差,μ表示该派系中权重的平均值;
S423.在求出每一个派系的变异系数后,借助法卡斯的派系强度函数计算派系权重变异系数阈值C.V*,其公式为:
Figure FDA0003857962440000031
其中,c为派系集合,u和v表示派系,k表示集合中派系的个数;
如果c.v小于设定的阈值C.V*,则认为该k节点构成一个基于变异系数的带权派系,否则,则忽略该k派系。
4.根据权利要求1所述的文档主题词自动提取方法,其特征在于,还包括
S9.根据对主题词与连接词进行分析,获取主题词和连接词中关键句子的位置,提取相关句子生成文本摘要。
5.根据权利要求4所述的文档主题词自动提取方法,其特征在于,所述的步骤S9步骤中提取相关句子后借助开源摘要自动生成算法生成文本摘要。
6.根据权利要求1所述的文档主题词自动提取方法,其特征在于,所述S8的连接权重为主题簇内一词语与其他词语关联度之和。
7.根据权利要求2所述的文档主题词自动提取方法,其特征在于,所述的滑动窗口大小为4个词汇。
CN201910028660.3A 2019-01-11 2019-01-11 一种文档主题词自动提取方法 Active CN109726402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910028660.3A CN109726402B (zh) 2019-01-11 2019-01-11 一种文档主题词自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910028660.3A CN109726402B (zh) 2019-01-11 2019-01-11 一种文档主题词自动提取方法

Publications (2)

Publication Number Publication Date
CN109726402A CN109726402A (zh) 2019-05-07
CN109726402B true CN109726402B (zh) 2022-12-23

Family

ID=66298306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910028660.3A Active CN109726402B (zh) 2019-01-11 2019-01-11 一种文档主题词自动提取方法

Country Status (1)

Country Link
CN (1) CN109726402B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339296B (zh) * 2020-02-20 2023-03-28 电子科技大学 基于在hdp模型中引入自适应窗口的文档主题提取方法
CN111222333A (zh) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 一种基于网络高阶结构和主题模型融合的关键词抽取方法
CN111639189B (zh) * 2020-04-29 2023-03-21 西北工业大学 一种基于文本内容特征的文本图构建方法
CN114726570A (zh) * 2021-12-31 2022-07-08 中国电信股份有限公司 一种基于图模型的主机流量异常检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN103995866A (zh) * 2014-05-19 2014-08-20 北京邮电大学 一种基于链路预测的商品信息推送方法及装置
CN104166731A (zh) * 2014-08-29 2014-11-26 河海大学常州校区 一种社交网络重叠社区发现系统及其方法
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN108132927A (zh) * 2017-12-07 2018-06-08 西北师范大学 一种融合图结构与节点关联的关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738361B2 (en) * 2009-07-01 2014-05-27 International Business Machines Corporation Systems and methods for extracting patterns from graph and unstructered data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN103995866A (zh) * 2014-05-19 2014-08-20 北京邮电大学 一种基于链路预测的商品信息推送方法及装置
CN104166731A (zh) * 2014-08-29 2014-11-26 河海大学常州校区 一种社交网络重叠社区发现系统及其方法
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN108009225A (zh) * 2017-11-27 2018-05-08 石家庄铁道大学 基于科技政策文本的主题发现与趋势分析方法
CN108132927A (zh) * 2017-12-07 2018-06-08 西北师范大学 一种融合图结构与节点关联的关键词提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于主题词集的自动文摘方法;刘兴林等;《计算机应用研究》;20110415;第28卷(第4期);第1322-1324页 *

Also Published As

Publication number Publication date
CN109726402A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109726402B (zh) 一种文档主题词自动提取方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
CN108287922B (zh) 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110188359B (zh) 一种文本实体抽取方法
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN110390099B (zh) 一种基于模板库的对象关系抽取系统和抽取方法
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN112231476B (zh) 一种改进的图神经网络科技文献大数据分类方法
Soni et al. Emotion based social media text classification using optimized improved ID3 classifier
Schraagen Aspects of record linkage
CN108280772B (zh) 社交网络中基于事件关联的故事脉络生成方法
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
Chiorrini et al. Emotionalberto: Emotion recognition of italian social media texts through bert
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Yongjun

Inventor before: Chen Yongjun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant