CN104933032A - 一种基于复杂网络的博客关键词提取方法 - Google Patents

一种基于复杂网络的博客关键词提取方法 Download PDF

Info

Publication number
CN104933032A
CN104933032A CN201510368622.4A CN201510368622A CN104933032A CN 104933032 A CN104933032 A CN 104933032A CN 201510368622 A CN201510368622 A CN 201510368622A CN 104933032 A CN104933032 A CN 104933032A
Authority
CN
China
Prior art keywords
node
word
blog
blog text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510368622.4A
Other languages
English (en)
Inventor
屈鸿
王晓斌
吴诗雯
冯旻昱
冯鲁桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510368622.4A priority Critical patent/CN104933032A/zh
Publication of CN104933032A publication Critical patent/CN104933032A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于复杂网络的博客关键词提取方法,涉及基于复杂网络建模技术领域,解决所提取的关键字不包括高频单词和短语问题。本发明步骤为通过爬虫获取博客文本;对爬虫获取的博客文本进行预处理;对博客文本进行预处理后,将博客文本中单词之间的相邻关系对应于博客文本网络节点之间公知的连接关系,根据博客文本中单词之间的相邻关系进行网络模型构建;运用节点拓扑性质制定节点重要性指标计算公式;根据节点重要性指标计算公式提取的关键词;输出提取的对博客文本进行预处理后的博客文本中的关键词。本发明利用复杂网络的拓扑特性中的节点介数、节点的度,提出节点综合重要性计算公式进行博客文本关键词的提取。

Description

一种基于复杂网络的博客关键词提取方法
技术领域
一种基于复杂网络的博客关键词提取方法,利用复杂网络的拓扑特性中的节点介数、节点的度,提出节点综合重要性计算公式进行博客文本关键词的提取,涉及复杂网络建模,复杂网络拓扑特性,机器学习等领域,具体涉及基于复杂网络建模技术领域。
背景技术
随着信息技术的飞速发展和互联网的普及,博客的文本数据库呈现出几何级数的增长。如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决这个问题,然而除学术论文包含关键字外,大量的文档没有关键字,尤其是互联网上的众多网页。语言专家手工提取关键字,其准确率较高,但对海量文档信息手工提取是一个繁重并不可行的方法。如果能采用人工智能的方法提取关键字,会大大地提高效率。因此,运用何种方法进行关键词自动提取的研究具有重要的现实意义。
关键词提取算法可分为两类:基于训练集的关键词提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键词提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,再从关键字类中选择若干个词语作为关键字,该类算法由Peter.D.Turney首次提出,其技术己日趋成熟。不需要训练集的算法,可分为以下四类:基于统计的方法,如频率统计;基于词语图的方法,如KeyGraph;基于词语网络的方法,如中介性指标(BC,Betweenness Centrality);基于SWN的方法;上述四种方法都是建立在词频基础上。基于统计的方法简单快速,能够提取高频词语,却忽略对文档具有重要意义但出现频率不高的词语,因此提取的关键字具有片面性传统的关键词提取算法只注重文档表层统计特性(如词频、词句位置、词语长度等),忽略文档的语义结构和结构信息,导致关键词语义和结构信息的缺失。
随着网络科学已被越来越多的人了解与熟知,并且已经成为许多的科学家进行跨领域研究的工具,其中运用网络科学进行自然语言分析也是研究者所热衷的课题。其中运用复杂网络理论对实际网络进行建模进而根据网络拓扑特性进行具 体问题的分析已成为研究者进行实际问题的探索中有力的方式。现有关键词提取方法的不足之处在于:在分析已有基于词语网络的关键字提取算法的基础上,所提取的关键字不包括高频单词和短语,而且对文档中心内容贡献大但出现频率不高的单词和短语提取不到。
发明内容
本发明针对现有技术的不足之处提供了一种基于复杂网络的博客关键词提取方法,可以提取包括高频词汇和短语的关键字,而且对提取文档中心内容贡献大但出现频率不高的单词短语有较好的效果。
为了实现上述目的,本发明采用的技术方案为:
一种基于复杂网络的博客关键词提取方法,其特征在于,如下步骤:
(1)通过爬虫获取博客文本;
(2)对爬虫获取的博客文本进行预处理,即得到已断句、分词和无停用词的格式规范的博客文本;
(3)对博客文本进行预处理后,将博客文本中单词之间的相邻关系对应于博客文本网络节点之间的连接关系,根据博客文本中单词之间的相邻关系进行网络模型构建;
(4)根据博客文本中单词之间的相邻关系进行网络模型构建后,运用节点拓扑性质制定节点重要性指标计算公式,节点的重要性是指节点的度和节点的介数;
(5)根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词;
(6)输出提取的对博客文本进行预处理后的博客文本中的关键词。
进一步,所述步骤(2)中,对爬虫获取的博客文本进行预处理的具体步骤如下:
(21)文本规范化,即将其他格式的博客文本转化成标准的txt格式进行关键词的提取;
(22)断句、分词处理,即根据博客文本中标点符号以及单词与单词之间的空格进行单词与短语的分割;
(23)大小写变换,即将断句、分词处理后的博客文本中的大写字母全部改 为小写字母;
(24)词态变换,即将大小写变换后的博客文本中存在英文单词的,将英文单词统一变换成该单词的原型模式;
(25)去停用词,即预先收集好停用词,实验中去除这些停用词,减少无关词的干扰,提高关键词提取的准确率。
进一步,所述步骤(3)中,根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下:
(31)对经过预处理后的博客文本的单词进行标号,标号对应于构建的博客文本中单词网络的节点编号,网络的节点编号是根据阿拉伯数字顺序增长进行标记,同一个单词有且仅有一个标号;
(32)根据博客文本中单词之间的位置关系构建单词网络,若两个单词是相邻的,那么这两个单词在网络中对应标号的节点之间则增加一条连边,否则这两个单词在网络中对应标号的节点之间则不增加连边;
(33)根据步骤(31)和步骤(32)遍历博客文本中的单词,得到网络模型。
进一步,所述步骤(4)中,运用节点拓扑性质制定节点重要性指标计算公式的具体步骤如下:
(41)计算构建的网络模型的每一个节点的度和节点的介数;
(42)通过计算的节点的度和节点的介数,对比PageRank算法,制定出节点重要性计算公式。
进一步,所述步骤(41)中,计算构建的网络模型的每一个节点的度和节点的介数的公式如下:
B i = Σ m ≠ n ≠ i p m n ( i ) Σ m ≠ n ≠ i p m n ,
其中m,n,i均代表网络中节点编号,Bi代表网络中节点vi的介数值,pmn代表网络中任意的两个节点vm,vn之间最短路径的总条数,pmn(i)代表网络中任意两个节点vm,vn之间的需要经过该节点vi的最短路径的条数。
进一步,所述步骤(42)中,制定出节点重要性计算公式如下:
DB i = α D i Σ k D k + ( 1 - α ) B i ,
其中i和k均表示节点编号,DBi表示节点vi重要性指标,Di表示节点vi的度,Dk表示节点vk的度,Bi表示节点vi的介数,α表示阻尼系数。
进一步,所述步骤(5)中,根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词的具体步骤如下:
(51)利用制定出节点重要性指标计算公式对网络中的所有节点进行节点重要性指标的计算,并按降序排列各节点的重要性指标;
(52)根据降序排列后的各节点的重要性指标,提取所要的关键词的个数,即选择前k个节点所对应的单词为该博客文本的关键词。
与现有技术相比,本发明的优点在于:
一、不需要训练集样本,节约了时间和空间成本;
二、在网络模型构建前,进行博客文本预处理,防止提取出的关键词中含有停用词等;
三、以单词间的邻居关系基础,并以跨度为1、2建网络的依据,跨度适中,使得数据处理不会那么繁重,也全面体现了博客文本中单词之间的关系;
四、综合考虑单词所对应节点的度以及介数,从局部和全局两个方面综合衡量节点重要程度;
五、通过对比PageRank方法,采用其中的阻尼系数取为0.85,把综合重要性指标计算式中的参数设为0.15,使得计算方法更具有现实价值。
附图说明
图1为本发明的整体流程示意图;
图2为本发明的预处理流程示意图;
图3为本发明的网络构建流程示意图;
图4为本发明的计算节点综合重要性指标流程图;
图5为本发明的提取关键词的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
一种基于复杂网络的博客关键词提取方法,首先需要对博客进行文本单词网络模型的构建,包括:网络节点之间的连边,节点如何对应于博客的文本中的单词,如何输出得到的结果。本发明通过分析博客的文本单词之间的语义与位置关系,进而利用词与词之间的关系进行博客文本单词网络的建模。然后对所构建的网络中节点进行分析,找出节点的度以及节点介数两个衡量指标,它们可以从局部和全局两个方面共同决定节点综合重要程度。最后进行关键词提取时依据节点综合重要性指标由小到达选取所需的k个关键词。一种基于复杂网络的博客关键词提取方法,如下步骤:
(1)通过爬虫获取博客文本。
(2)对爬虫获取的博客文本进行预处理,即得到已断句、分词和无停用词等的格式规范的博客文本。对爬虫获取的博客文本进行预处理的具体步骤如下:
(21)文本规范化,即将其他格式的博客文本转化成标准的txt格式进行关键词的提取,本发明处理的博客文本均为txt格式,获取的任何其他格式的博客文本均需通过转化成标准的txt格式才可以进行关键词的提取;
(22)断句、分词处理,即根据博客文本中标点符号以及单词与单词之间的空格进行单词与短语的分割;
(23)大小写变换,即将断句、分词处理后的博客文本中的大写字母全部改为小写字母,本发明由于文本中有单词有大小写的不同,为了避免单词不受大小写影响,把文本中的字母全部改为小写形式;
(24)词态变换,即将大小写变换后的博客文本中存在英文单词的,将英文单词统一变换成该单词的原型模式,通过本发明获取的博客文本可能存在英文,英文单词中,同一个单词存在多种形式,为了不错分单词,必须对文本中的单词统一变换成该单词的原型模式;
(25)去停用词,即预先收集好停用词,实验中去除这些停用词,减少无关词的干扰,提高关键词提取的准确率,本发明获取的博客文本可能存在很多无意义的单词,比如:the、a、and等等,预先收集好大部分的停用词,关键词的提取中去除这些停用,减少无关词的干扰,提高关键词提取的准确率。
(3)对博客文本进行预处理后,将博客文本中单词之间的相邻关系对应于 博客文本网络节点之间公知的连接关系,根据博客文本中单词之间的相邻关系进行网络模型构建;根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下:
(31)对经过预处理后的博客文本的单词进行标号,标号对应于构建的博客文本中单词网络的节点编号,网络的节点编号是根据阿拉伯数字顺序增长进行标记,同一个单词有且仅有一个标号;
(32)根据博客文本中单词之间的位置关系(即单词之间是否是相邻关系)构建单词网络,若两个单词是相邻的,那么这两个单词在网络中对应标号的节点之间则增加一条连边,否则这两个单词在网络中对应标号的节点之间则不增加连边。
(33)根据步骤(31)和步骤(32)遍历博客文本中的单词,得到网络模型。
(4)根据博客文本中单词之间的相邻关系进行网络模型构建后,运用节点拓扑性质制定节点重要性指标计算公式,节点的重要性是指节点的度和节点的介数。运用节点拓扑性质制定节点重要性指标计算公式的具体步骤如下:
(41)计算构建的网络模型的每一个节点的度以及节点的介数;节点的度表示该节点在网络图形中与之相连的边的数目,计算构建的网络模型的节点的度以及节点的介数的公式如下:
B i = Σ m ≠ n ≠ i p m n ( i ) Σ m ≠ n ≠ i p m n ,
其中m,n,i均代表网络中节点编号,Bi代表网络中节点vi的介数值,pmn代表网络中任意的两个节点vm,vn之间最短路径的总条数,pmn(i)代表网络中任意两个节点vm,vn之间的需要经过该节点vi的最短路径的条数。
(42)通过计算的节点的度和节点的介数,对比PageRank算法,制定出节点重要性计算公式。制定出节点重要性计算公式如下:
DB i = α D i Σ k D k + ( 1 - α ) B i ,
其中i和k均表示节点编号,DBi表示节点vi重要性指标,Di表示节点vi的度,Dk表示节点vk的度,Bi表示节点vi的介数,α表示阻尼系数,本公式中把α设为0.15。
(5)根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词;根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词的具体步骤如下:
(51)利用制定出节点重要性指标计算公式对网络中的所有节点进行节点重要性指标的计算,并按降序排列各节点的重要性指标;
(52)根据降序排列后的各节点的重要性指标,提取所要的关键词的个数,即选择前k个节点所对应的单词为该博客文本的关键词。
(6)输出提取的对博客文本进行预处理后的博客文本中的关键词。
本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims (7)

1.一种基于复杂网络的博客关键词提取方法,其特征在于,如下步骤:
(1)通过爬虫获取博客文本;
(2)对爬虫获取的博客文本进行预处理,即得到已断句、分词和无停用词的格式规范的博客文本;
(3)对博客文本进行预处理后,将博客文本中单词之间的相邻关系对应于博客文本网络节点之间的连接关系,根据博客文本中单词之间的相邻关系进行网络模型构建;
(4)根据博客文本中单词之间的相邻关系进行网络模型构建后,运用节点拓扑性质制定节点重要性指标计算公式,节点的重要性是指节点的度和节点的介数;
(5)根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词;
(6)输出提取的对博客文本进行预处理后的博客文本中的关键词。
2.根据权利要求1所述的一种基于复杂网络的博客关键词提取方法,其特征在于,所述步骤(2)中,对爬虫获取的博客文本进行预处理的具体步骤如下:
(21)文本规范化,即将其他格式的博客文本转化成标准的txt格式进行关键词的提取;
(22)断句、分词处理,即根据博客文本中标点符号以及单词与单词之间的空格进行单词与短语的分割;
(23)大小写变换,即将断句、分词处理后的博客文本中的大写字母全部改为小写字母;
(24)词态变换,即将大小写变换后的博客文本中存在英文单词的,将英文单词统一变换成该单词的原型模式;
(25)去停用词,即预先收集好停用词,实验中去除这些停用词,减少无关词的干扰,提高关键词提取的准确率。
3.根据权利要求1所述的一种基于复杂网络的博客文本关键词提取方法,其特征在于,所述步骤(3)中,根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下:
(31)对经过预处理后的博客文本的单词进行标号,标号对应于构建的博客文本中单词网络的节点编号,网络的节点编号是根据阿拉伯数字顺序增长进行标记,同一个单词有且仅有一个标号;
(32)根据博客文本中单词之间的位置关系构建单词网络,若两个单词是相邻的,那么这两个单词在网络中对应标号的节点之间则增加一条连边,否则这两个单词在网络中对应标号的节点之间则不增加连边;
(33)根据步骤(31)和步骤(32)遍历博客文本中的单词,得到网络模型。
4.根据权利要求1所述的一种基于复杂网络的博客关键词提取方法,其特征在于,所述步骤(4)中,运用节点拓扑性质制定节点重要性指标计算公式的具体步骤如下:
(41)计算构建的网络模型的每一个节点的度和节点的介数;
(42)通过计算的节点的度和节点的介数,对比PageRank算法,制定出节点重要性计算公式。
5.根据权利要求4所述的一种基于复杂网络的博客关键词提取方法,其特征在于,所述步骤(41)中,计算构建的网络模型的每一个节点的度和节点的介数的公式如下:
B i = Σ m ≠ n ≠ i p m n ( i ) Σ m ≠ n ≠ i p m n ,
其中m,n,i均代表网络中节点编号,Bi代表网络中节点vi的介数值,pmn代表网络中任意的两个节点vm,vn之间最短路径的总条数,pmn(i)代表网络中任意两个节点vm,vn之间的需要经过该节点vi的最短路径的条数。
6.根据权利要求4所述的一种基于复杂网络的博客关键词提取方法,其特征在于,所述步骤(42)中,制定出节点重要性计算公式如下:
DB i = α D i Σ k D k + ( 1 - α ) B i ,
其中i和k均表示节点编号,DBi表示节点vi重要性指标,Di表示节点vi的度,Dk表示节点vk的度,Bi表示节点vi的介数,α表示阻尼系数。
7.根据权利要求1所述的一种基于复杂网络的博客关键词提取方法,其特征在于,所述步骤(5)中,根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词的具体步骤如下:
(51)利用制定出节点重要性指标计算公式对网络中的所有节点进行节点重要性指标的计算,并按降序排列各节点的重要性指标;
(52)根据降序排列后的各节点的重要性指标,提取所要的关键词的个数,即选择前k个节点所对应的单词为该博客文本的关键词。
CN201510368622.4A 2015-06-29 2015-06-29 一种基于复杂网络的博客关键词提取方法 Pending CN104933032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510368622.4A CN104933032A (zh) 2015-06-29 2015-06-29 一种基于复杂网络的博客关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510368622.4A CN104933032A (zh) 2015-06-29 2015-06-29 一种基于复杂网络的博客关键词提取方法

Publications (1)

Publication Number Publication Date
CN104933032A true CN104933032A (zh) 2015-09-23

Family

ID=54120201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510368622.4A Pending CN104933032A (zh) 2015-06-29 2015-06-29 一种基于复杂网络的博客关键词提取方法

Country Status (1)

Country Link
CN (1) CN104933032A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740381A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN107133271A (zh) * 2017-04-01 2017-09-05 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法
CN108132927A (zh) * 2017-12-07 2018-06-08 西北师范大学 一种融合图结构与节点关联的关键词提取方法
CN109257207A (zh) * 2018-08-28 2019-01-22 浙江工业大学 一种基于耦合链接介数差异指标的提高相互依存网络鲁棒性的方法
CN109885669A (zh) * 2019-01-30 2019-06-14 中国地质大学(武汉) 一种基于复杂网络的文本关键词获取方法及系统
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040098381A1 (en) * 2002-11-19 2004-05-20 Prashant Parikh Navigation in a hierarchical structured transaction processing system
US7734589B1 (en) * 2005-09-16 2010-06-08 Qurio Holdings, Inc. System and method for optimizing data uploading in a network based media sharing system
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN104298746A (zh) * 2014-10-10 2015-01-21 北京大学 一种基于短语网络图排序的领域文献关键词提取方法
CN104731819A (zh) * 2013-12-24 2015-06-24 苏州开眼数据技术有限公司 广告关键词提取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040098381A1 (en) * 2002-11-19 2004-05-20 Prashant Parikh Navigation in a hierarchical structured transaction processing system
US7734589B1 (en) * 2005-09-16 2010-06-08 Qurio Holdings, Inc. System and method for optimizing data uploading in a network based media sharing system
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN104731819A (zh) * 2013-12-24 2015-06-24 苏州开眼数据技术有限公司 广告关键词提取方法和装置
CN104298746A (zh) * 2014-10-10 2015-01-21 北京大学 一种基于短语网络图排序的领域文献关键词提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
左晓飞: "基于复杂网络的关键词提取研究", 《中国优秀硕士学位论文全文数据库.基础科学辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740381A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN105740381B (zh) * 2016-01-27 2019-05-17 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN107133271A (zh) * 2017-04-01 2017-09-05 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法
WO2018177411A1 (zh) * 2017-04-01 2018-10-04 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法
CN107133271B (zh) * 2017-04-01 2021-04-06 上海半坡网络技术有限公司 语义脑图实时表达系统及其操作方法
US10970489B2 (en) 2017-04-01 2021-04-06 Shanghai Banpo Network Technologies Ltd. System for real-time expression of semantic mind map, and operation method therefor
CN108132927A (zh) * 2017-12-07 2018-06-08 西北师范大学 一种融合图结构与节点关联的关键词提取方法
CN108132927B (zh) * 2017-12-07 2022-02-11 西北师范大学 一种融合图结构与节点关联的关键词提取方法
CN109257207A (zh) * 2018-08-28 2019-01-22 浙江工业大学 一种基于耦合链接介数差异指标的提高相互依存网络鲁棒性的方法
CN109885669A (zh) * 2019-01-30 2019-06-14 中国地质大学(武汉) 一种基于复杂网络的文本关键词获取方法及系统
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法

Similar Documents

Publication Publication Date Title
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN102831184B (zh) 根据对社会事件的文字描述来预测社会情感的方法及系统
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN100489863C (zh) 一种新词发现方法和系统
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
CN102253930B (zh) 一种文本翻译的方法及装置
CN103678412B (zh) 一种文档检索的方法及装置
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN106021222A (zh) 一种科研文献主题演化的分析方法和装置
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923

RJ01 Rejection of invention patent application after publication