CN107832457A - 基于TextRank算法的输变电设备缺陷词库建立方法及系统 - Google Patents
基于TextRank算法的输变电设备缺陷词库建立方法及系统 Download PDFInfo
- Publication number
- CN107832457A CN107832457A CN201711192266.0A CN201711192266A CN107832457A CN 107832457 A CN107832457 A CN 107832457A CN 201711192266 A CN201711192266 A CN 201711192266A CN 107832457 A CN107832457 A CN 107832457A
- Authority
- CN
- China
- Prior art keywords
- mrow
- node
- power transmission
- msub
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 46
- 230000005540 biological transmission Effects 0.000 title claims abstract description 39
- 230000001131 transforming effect Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 230000001902 propagating effect Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 230000002950 deficient Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 206010052804 Drug tolerance Diseases 0.000 description 1
- 206010028916 Neologism Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000026781 habituation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于TextRank算法的输变电设备缺陷词库建立方法及系统,包括:把给定的输变电设备缺陷文本T按照完整句子进行分割;对于任何一个子句子,进行分词处理和词性标注处理;构建候选关键词图;采用共现关系构造任两个节点之间的边;采用TextRank算法对传播各节点的权重进行迭代,得到每个节点的权重分值;对各节点权重分值进行倒序排序,从而得到最重要的T个单词,构建缺陷词库。本发明有益效果:本发明针对输变电的缺陷数据,通过TextRank算法进行关键词的提取,从而建立输变电设备缺陷的关键词词库,帮助后续的研究。
Description
技术领域
本发明涉及的是一种基于TextRank算法的输变电设备缺陷词库建立方法及系统。
背景技术
输变电设备的安全运行是整个电网运行的基础,对设备能够进行全面、准确的分析和判断,是输变电设备状态检修和全生命周期管理的一个前提。目前对电力设备的缺陷分析,通常是人工或者半智能的通过字符串比对等方法进行,缺乏更有效、更智能的分析手段,导致人工工作量大,同时分析结果具有主观性,无法体现设备缺陷的关联性,从而无法对设备的缺陷进行更进一步的分析。
随着智能电网的发展,电力行业也步入到了“大数据的时代”,各项数据挖掘的技术也在电力设备的状态评估中应用开来,但是作为能够反映输变电设备状态的缺陷,由于存储在数据库中的数据通常为人工填写,数据缺乏规范性,故做数据分析时存在难度。
发明内容
本发明的目的就是为了解决上述问题,提出了一种基于TextRank算法的输变电设备缺陷词库建立方法及系统,该方法及系统通过开源的TextRank算法对输变电设备的缺陷数据进行关键字提取,然后建立缺陷词库。
为了实现上述目的,本发明采用如下技术方案:
一种基于TextRank算法的输变电设备缺陷词库建立方法,包括:
(1)把给定的输变电设备缺陷文本T按照完整句子进行分割,将文本T分为m个子句子,即T=[S1,S2,···,Sm];
(2)对于任何一个子句子Si∈T,进行分词处理和词性标注处理,只保留指定词性的单词,即Si=[ti,1,ti,2···ti,m],其中ti,j∈Sj是保留后的候选关键词;
(3)构建候选关键词图G=(V,E),其中V为节点集,由步骤(2)中生成的候选关键词组成;E为图的边集合,E是V×V的子集;对于一个给定的点Vi,lnVi为指向该点的点集合,点Vi指向的点集合表示为Out(Vi);
(4)采用共现关系构造任两个节点之间的边,设置滑动窗口为K,如果两个节点对应的词汇在长度为K的窗口中共现,则两个节点之间存在边;
(5)采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值;
(6)对各节点权重分值进行倒序排序,从而得到最重要的T个单词,构建缺陷词库。
进一步地,所述步骤(2)中,采用分词器实现分词处理和词性标注处理。
进一步地,在构建有向有权图时,只筛选设定词性的词作为节点,同时删除停用词。
进一步地,所述步骤(5)的具体方法为:
构建有向有权图G=(V,E),其中,V为节点集,E为图的边集合,E是V×V的子集;
设Wji为在图中任两个节点Vi,Vj之间边的权重;
对于一个给定的点Vi,lnVi为指向该点的点集合,点Vi指向的点集合表示为Out(Vi);
其中点Vi的得分权重定义如下所示:
其中,d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,取值范围为0到1;
计算各节点权重的时候,给图中的节点指定任意的初值,然后递归计算直到权重结果收敛。
进一步地,所述步骤(6)中,对得到的最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
本发明还公开了一种基于TextRank算法的输变电设备缺陷词库建立系统,包括:
用于把给定的输变电设备缺陷文本T按照完整句子进行分割,将文本T分为m个子句子装置;
用于对任何一个子句子,进行分词处理和词性标注处理的装置;
用于构建候选关键词图的装置;
用于采用共现关系构造任两个节点之间的边的装置;
用于采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值的装置;
用于对各节点权重分值进行倒序排序,从而得到最重要的T个单词,构建缺陷词库的装置。
进一步地,用于对任何一个子句子,进行分词处理和词性标注处理的装置具体为:分词器。
进一步地,所述用于采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值的装置具体包括:
构建有向有权图G=(V,E)的单元,其中,V为节点集,E为图的边集合,E是V×V的子集;
计算点Vi的得分权重的单元;
计算各节点权重的时候,给图中的节点指定任意的初值,然后递归计算直到权重结果收敛。
进一步地,还包括:
对得到的最重要的T个单词,在原始文本中进行标记的装置;
若形成相邻词组,则组合成多词关键词的装置。
本发明有益效果:
本发明利用TextRank算法设计了一种输变电设备缺陷词库建立方法,可以建立一个输变电设备缺陷的关键词词库,用于后续缺陷数据的比对和分析。
本发明针对输变电的缺陷数据,通过TextRank算法进行关键词的提取,从而建立输变电设备缺陷的关键词词库,帮助后续的研究。
附图说明
图1为本发明关键词提取方法流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步的说明。
本发明提供了一种基于TextRank算法的输变电设备缺陷词库建立方法,能够对输变电缺陷数据进行关键词提取,建立缺陷词库。
TextRank算法主要根据文本本身的特征去提取关键词。TextRank算法是文本基于图的排序算法当中的一种。TextRank算法通过将文本分割为若干个组成单元(单词或句子)并建立相应的图模型,然后利用投票机制对文本中的重要的成分进行相应的排序,它仅利用单篇文档本身提供的信息就可以实现关键词提取。
TextRank的一般模型是可以用一个有向有权图G=(V,E)来进行表示的。由点集合V以及图的边集合E组成,其中E是V×V的子集。Wji为在图中任两点Vi,Vj之间边的权重,对于一个给定的点Vi,lnVi为指向该点的点集合,点Vi指向的点集合表示为Out(Vi)。其中点Vi的得分定义如下所示:
式中d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,取值范围为0到1在使用TextRank算法来计算图中各个点的得分的时候,需要给图中的点指定以下任意的初值,然后递归计算直到收敛。
本发明基于TextRank算法的输变电设备缺陷词库建立方法,如图1所示,包括以下步骤:
1)把给定的文本T按照完整句子进行分割,即T=[S1,S2,···,Sm]。
2)对于任何一个句子Si∈T,进行分词处理和词性标注处理,然后过滤掉停用词,只保留指定词性的单词,比如动词、名词、形容词,即Si=[ti,1,ti,2···ti,m],其中ti,j∈Sj是保留后的候选关键词。
本实施例采用ANSJ中文分词器实现分词处理和词性标注处理,它采用了高频词的匹配方式,不使用规则,用统计重复串识别新词,根据词性去掉干扰词的做法。分词器自带词性标注功能,可以将名词、动词、形容词等进行标注,如:词性类别包括形容词(/a)、动词(/v)、名词(/n)、动名词(/vn)、副词(/d)。
3)构建候选关键词图G=(V,E),其中V为节点集,由步骤(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示的是窗口的大小,也就是最多共现的单词数目为K个。
共现即共同出现,也就是词语搭配可能共同出现,习惯性搭配中词项相互期待和预见。设置滑动窗口为K,窗口里面的词组若存在共现关系则构造边。
在构建有向有权图时候,只筛选特定词性的词作为节点,比如名词,动词,形容词等,同时删除停用词。
4)采用TextRank算法对传播各节点的权重进行迭代,直至其收敛。
构建有向有权图G=(V,E),其中,V为节点集,E为图的边集合,E是V×V的子集;
设Wji为在图中任两个节点Vi,Vj之间边的权重;
对于一个给定的点Vi,lnVi为指向该点的点集合,点Vi指向的点集合表示为Out(Vi);
其中点Vi的得分定义如下所示:
其中,d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,取值范围为0到1;
得分相当于权重,通过结点之间的投票或推荐机制,实现重要性排序,一个结点链入的结点集表示其投票支持者,投票者越重要、数量越多,则被投票者的排名越靠前。
计算各节点权重的时候,给图中的节点指定任意的初值,然后递归计算直到权重结果收敛。当两次迭代结果之间的差异非常小,趋近于零时,停止迭代运算,然后按照分值大小进行排序输出。
5)对节点权重进行倒序排序,从而得到最重要的T个单词,以此构建输变电设备缺陷词库。
6)由步骤(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
本发明还公开了一种基于TextRank算法的输变电设备缺陷词库建立系统,包括:
用于把给定的输变电设备缺陷文本T按照完整句子进行分割,将文本T分为m个子句子装置;
用于对任何一个子句子,进行分词处理和词性标注处理的装置;具体为:分词器。
用于构建候选关键词图的装置;
用于采用共现关系构造任两个节点之间的边的装置;
用于采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值的装置;具体包括:
构建有向有权图G=(V,E)的单元,其中,V为节点集,E为图的边集合,E是V×V的子集;
计算点Vi的得分权重的单元;
用于对各节点权重分值进行倒序排序,从而得到最重要的T个单词,构建缺陷词库的装置。计算各节点权重的时候,给图中的节点指定任意的初值,然后递归计算直到权重结果收敛。
进一步地,还包括:
对得到的最重要的T个单词,在原始文本中进行标记的装置;
若形成相邻词组,则组合成多词关键词的装置。
为验证上面提出的基于TextRank算法的输变电设备缺陷词库建立方法及系统的可行性和准确性,采用实际的输变电设备缺陷数据进行词库建立的评估。
以下面缺陷数据为例
通过该方法提取关键词如下:
将提取到的关键词可以加入到输变电设备关键词词库,同时提取到关键词可以与设备所处位置、气象信息、负载信息等进行关联分析。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于TextRank算法的输变电设备缺陷词库建立方法,其特征在于,包括:
(1)把给定的输变电设备缺陷文本T按照完整句子进行分割,将文本T分为m个子句子,即T=[S1,S2,···,Sm];
(2)对于任何一个子句子Si∈T,进行分词处理和词性标注处理,只保留指定词性的单词,即Si=[ti,1,ti,2···ti,m],其中ti,j∈Sj是保留后的候选关键词;
(3)构建候选关键词图G=(V,E),其中V为节点集,由步骤(2)中生成的候选关键词组成;E为图的边集合,E是V×V的子集;对于一个给定的点Vi,lnVi为指向该点的点集合,点Vi指向的点集合表示为Out(Vi);
(4)采用共现关系构造任两个节点之间的边,设置滑动窗口为K,如果两个节点对应的词汇在长度为K的窗口中共现,则两个节点之间存在边;
(5)采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值;
(6)对各节点权重分值进行倒序排序,从而得到最重要的T个单词,构建缺陷词库。
2.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法,其特征在于,所述步骤(2)中,采用分词器实现分词处理和词性标注处理。
3.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法,其特征在于,在构建有向有权图时,只筛选设定词性的词作为节点,同时删除停用词。
4.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法,其特征在于,所述步骤(5)的具体方法为:
构建有向有权图G=(V,E),其中,V为节点集,E为图的边集合,E是V×V的子集;
设Wji为在图中任两个节点Vi,Vj之间边的权重;
对于一个给定的点Vi,lnVi为指向该点的点集合,点Vi指向的点集合表示为Out(Vi);
其中点Vi的得分权重定义如下所示:
<mrow>
<mi>W</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>d</mi>
<mo>&times;</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mfrac>
<msub>
<mi>W</mi>
<mrow>
<mi>j</mi>
<mi>i</mi>
</mrow>
</msub>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>V</mi>
<mi>k</mi>
</msub>
<mo>&Element;</mo>
<mi>O</mi>
<mi>u</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>W</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mi>W</mi>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,d为阻尼系数,代表从图中某一特定点指向其他任意点的概率,取值范围为0到1;
计算各节点权重的时候,给图中的节点指定任意的初值,然后递归计算直到权重结果收敛。
5.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法,其特征在于,所述步骤(6)中,对得到的最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
6.一种基于TextRank算法的输变电设备缺陷词库建立系统,其特征在于,包括:
用于把给定的输变电设备缺陷文本T按照完整句子进行分割,将文本T分为m个子句子装置;
用于对任何一个子句子,进行分词处理和词性标注处理的装置;
用于构建候选关键词图的装置;
用于采用共现关系构造任两个节点之间的边的装置;
用于采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值的装置;
用于对各节点权重分值进行倒序排序,从而得到最重要的T个单词,构建缺陷词库的装置。
7.如权利要求6所述的基于TextRank算法的输变电设备缺陷词库建立系统,其特征在于,用于对任何一个子句子,进行分词处理和词性标注处理的装置具体为:分词器。
8.如权利要求6所述的基于TextRank算法的输变电设备缺陷词库建立系统,其特征在于,所述用于采用TextRank算法对传播各节点的权重进行迭代,直至其收敛,得到每个节点的权重分值的装置具体包括:
构建有向有权图G=(V,E)的单元,其中,V为节点集,E为图的边集合,E是V×V的子集;
计算点Vi的得分权重的单元;
计算各节点权重的时候,给图中的节点指定任意的初值,然后递归计算直到权重结果收敛。
9.如权利要求6所述的基于TextRank算法的输变电设备缺陷词库建立系统,其特征在于,还包括:
对得到的最重要的T个单词,在原始文本中进行标记的装置;
若形成相邻词组,则组合成多词关键词的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711192266.0A CN107832457A (zh) | 2017-11-24 | 2017-11-24 | 基于TextRank算法的输变电设备缺陷词库建立方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711192266.0A CN107832457A (zh) | 2017-11-24 | 2017-11-24 | 基于TextRank算法的输变电设备缺陷词库建立方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107832457A true CN107832457A (zh) | 2018-03-23 |
Family
ID=61652587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711192266.0A Pending CN107832457A (zh) | 2017-11-24 | 2017-11-24 | 基于TextRank算法的输变电设备缺陷词库建立方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832457A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681574A (zh) * | 2018-05-07 | 2018-10-19 | 中国科学院合肥物质科学研究院 | 一种基于文本摘要的非事实类问答答案选择方法及系统 |
CN109101483A (zh) * | 2018-07-04 | 2018-12-28 | 浙江大学 | 一种针对电力巡检文本的错误识别方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109460895A (zh) * | 2018-09-28 | 2019-03-12 | 龙马智芯(珠海横琴)科技有限公司 | 构建社会单位画像的方法及系统 |
CN109817217A (zh) * | 2019-01-17 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于语音识别的自助贩卖方法、装置、设备及介质 |
CN109902153A (zh) * | 2019-04-02 | 2019-06-18 | 杭州安脉盛智能技术有限公司 | 基于自然语言处理和案例推理的设备故障诊断方法及系统 |
CN109995450A (zh) * | 2019-04-08 | 2019-07-09 | 南京航空航天大学 | 一种基于云技术语音识别与智能鉴别“黑广播”方法 |
CN110136688A (zh) * | 2019-04-15 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种基于语音合成的文字转语音方法及相关设备 |
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN111859962A (zh) * | 2020-08-03 | 2020-10-30 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
CN112016010A (zh) * | 2020-05-27 | 2020-12-01 | 中汽数据有限公司 | 一种自动驾驶测试场景描述的自然语言语义库构建方法 |
CN112487245A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种基于视频内容的分类聚合方法及装置 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114357142A (zh) * | 2022-01-12 | 2022-04-15 | 南京题麦壳斯信息科技有限公司 | 一种无监督的英文写作切题评估方法及其系统和设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
-
2017
- 2017-11-24 CN CN201711192266.0A patent/CN107832457A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
Non-Patent Citations (4)
Title |
---|
RADA MIHALCEA: "TextRank: Bringing Order into Texts", 《EMNLP》 * |
向中希: "基于分布式爬虫的云健康资讯平台设计与实现", 《中国优秀硕士学位论文信息科技辑》 * |
张莉婧等: "基于改进 TextRank 的关键词抽取算法", 《北京印刷学院学报》 * |
蒲梅等: "基于加权TextRank的新闻关键事件主题句提取", 《计算机工程》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681574B (zh) * | 2018-05-07 | 2021-11-05 | 中国科学院合肥物质科学研究院 | 一种基于文本摘要的非事实类问答答案选择方法及系统 |
CN108681574A (zh) * | 2018-05-07 | 2018-10-19 | 中国科学院合肥物质科学研究院 | 一种基于文本摘要的非事实类问答答案选择方法及系统 |
CN109101483B (zh) * | 2018-07-04 | 2020-04-14 | 浙江大学 | 一种针对电力巡检文本的错误识别方法 |
CN109101483A (zh) * | 2018-07-04 | 2018-12-28 | 浙江大学 | 一种针对电力巡检文本的错误识别方法 |
CN109460895A (zh) * | 2018-09-28 | 2019-03-12 | 龙马智芯(珠海横琴)科技有限公司 | 构建社会单位画像的方法及系统 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109817217A (zh) * | 2019-01-17 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于语音识别的自助贩卖方法、装置、设备及介质 |
CN109902153A (zh) * | 2019-04-02 | 2019-06-18 | 杭州安脉盛智能技术有限公司 | 基于自然语言处理和案例推理的设备故障诊断方法及系统 |
CN109902153B (zh) * | 2019-04-02 | 2020-11-06 | 杭州安脉盛智能技术有限公司 | 基于自然语言处理和案例推理的设备故障诊断方法及系统 |
CN109995450B (zh) * | 2019-04-08 | 2020-09-29 | 南京航空航天大学 | 一种基于云技术语音识别与智能鉴别“黑广播”方法 |
CN109995450A (zh) * | 2019-04-08 | 2019-07-09 | 南京航空航天大学 | 一种基于云技术语音识别与智能鉴别“黑广播”方法 |
CN110136688A (zh) * | 2019-04-15 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种基于语音合成的文字转语音方法及相关设备 |
CN110136688B (zh) * | 2019-04-15 | 2023-09-29 | 平安科技(深圳)有限公司 | 一种基于语音合成的文字转语音方法及相关设备 |
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN112016010A (zh) * | 2020-05-27 | 2020-12-01 | 中汽数据有限公司 | 一种自动驾驶测试场景描述的自然语言语义库构建方法 |
CN111859962A (zh) * | 2020-08-03 | 2020-10-30 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
CN111859962B (zh) * | 2020-08-03 | 2021-06-08 | 广州威尔森信息科技有限公司 | 一种提取汽车口碑词云所需数据的方法及装置 |
CN112487245A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种基于视频内容的分类聚合方法及装置 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114328826B (zh) * | 2021-12-20 | 2024-06-11 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114357142A (zh) * | 2022-01-12 | 2022-04-15 | 南京题麦壳斯信息科技有限公司 | 一种无监督的英文写作切题评估方法及其系统和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832457A (zh) | 基于TextRank算法的输变电设备缺陷词库建立方法及系统 | |
Zou et al. | Retrieving similar cases for construction project risk management using Natural Language Processing techniques | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
Li et al. | Comparison of word embeddings and sentence encodings as generalized representations for crisis tweet classification tasks | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
Le et al. | Text classification: Naïve bayes classifier with sentiment Lexicon | |
US10430717B2 (en) | Complex predicate template collecting apparatus and computer program therefor | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN106649260A (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN106844331A (zh) | 一种句子相似度计算方法和系统 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
Pota et al. | A subword-based deep learning approach for sentiment analysis of political tweets | |
Kashmira et al. | Generating entity relationship diagram from requirement specification based on nlp | |
Gopal et al. | Machine learning based classification of online news data for disaster management | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN102779119A (zh) | 一种抽取关键词的方法及装置 | |
Hasanati et al. | Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter | |
Tiwari et al. | Comparative Analysis of Different Machine Learning Methods for Hate Speech Recognition in Twitter Text Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180323 |
|
RJ01 | Rejection of invention patent application after publication |