CN102831159B - 一种基于专家投票的文本相似网络构建方法 - Google Patents

一种基于专家投票的文本相似网络构建方法 Download PDF

Info

Publication number
CN102831159B
CN102831159B CN201210243861.3A CN201210243861A CN102831159B CN 102831159 B CN102831159 B CN 102831159B CN 201210243861 A CN201210243861 A CN 201210243861A CN 102831159 B CN102831159 B CN 102831159B
Authority
CN
China
Prior art keywords
text
similarity
expert
ballot
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210243861.3A
Other languages
English (en)
Other versions
CN102831159A (zh
Inventor
陈雪
吴超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201210243861.3A priority Critical patent/CN102831159B/zh
Publication of CN102831159A publication Critical patent/CN102831159A/zh
Application granted granted Critical
Publication of CN102831159B publication Critical patent/CN102831159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于专家投票的文本相似网络构建方法。该方法具体步骤如下:(1)输入领域文集;(2)文本表示与相似性度量;(3)使用专家投票法建立文本间的链接;(4)输出文本相似网络。该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;该方法简便易操作,效果好。

Description

一种基于专家投票的文本相似网络构建方法
技术领域
本发明涉及一种文本相似网络构建方法,具体是涉及采用专家投票法确定任意两篇文本间是否建立链接的相似度阈值,然后根据该局部阈值建立文本的相似网络,是一种基于专家投票的文本相似网络构建方法。
背景技术
目前构建文本相似网络的普遍方法是全局阈值法。全局阈值法是通过人工或机器学习等方法设定的所有文本的相似度阈值,然后根据该全局阈值建立文本的相似网络的方法,但是这种全局阈值法存在以下不足:
(1)全局阈值法不能够体现不同文本的不同链接特点。
(2)全局阈值法不能够根据链接涉及的两个文本的相似度进行精确的控制。
(3)全局阈值法不能够支持文本相似网络的动态扩展,当增加新的文本时,需要重新计算全局阈值。
发明内容
本发明的目的在于针对全局阈值法的不足,提供一种基于专家投票的文本相似网络构建方法,该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展。
为了达到上述的目的,本发明的构思如下:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两个文本间是否建立链接的相似度阈值。
根据上述的发明思想,本发明采用下述技术方案:
一种基于专家投票的文本相似网络构建方法,其特征在于,其具体步骤如下:
(1)输入领域文集;
(2)文本表示与相似性度量;
(3)使用专家投票法建立文本间的链接;
所述的专家投票法,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值。
(4)输出文本相似网络。
本发明的一种基于专家投票的文本相似网络构建方法与现有的技术相比较,具有如下突出特点和优点:能够体现不同文本的不同链接特点;能够对文本间的链接进行精确的控制;支持相似网络的动态扩展。
附图说明
图1是本发明的一种基于专家投票的文本相似网络构建方法。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;
所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;
所述的专家投票法,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值。
实施例二:本基于专家投票的文本相似网络构建方法,从TKDE的2011年到2012年的70篇论文进行文本相似网络的构建。如图1所示,本实施例的一种基于专家投票的文本相似网络构建方法,其步骤如下:
S1.输入领域文集,例如,输入TKDE的70篇文本;
S2.文本表示与相似性度量,例如,使用基于图结构的文本表示模型与相似性度量方法;
S3.使用专家投票法建立文本间的链接;专家投票法公式,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值;
S4.输出文本相似网络。

Claims (1)

1.一种基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;其具体步骤如下:
(1)输入领域文集;
(2)对于领域文集中的每一篇文本,使用基于图结构的文本表示方法对其进行表示和相似度计算;
(3)使用专家投票法建立文本间的链接,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值;
(4)输出文本相似网络。
CN201210243861.3A 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法 Expired - Fee Related CN102831159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210243861.3A CN102831159B (zh) 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210243861.3A CN102831159B (zh) 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法

Publications (2)

Publication Number Publication Date
CN102831159A CN102831159A (zh) 2012-12-19
CN102831159B true CN102831159B (zh) 2016-04-27

Family

ID=47334296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210243861.3A Expired - Fee Related CN102831159B (zh) 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法

Country Status (1)

Country Link
CN (1) CN102831159B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763271B (zh) * 2018-04-08 2022-09-23 浙江工业大学 一种结合二分网络和文本的医院科室相似性分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LexRank:Graph-based Centrality as Salience in Text Summarization;Gunes Erkan;《Journal of Artificial Intelligence Research》;20041231;1-23 *
基于向量空间模型的多主题Web文本分类方法;周炎涛;《计算机应用研究》;20080131;第25卷(第1期);142-144 *

Also Published As

Publication number Publication date
CN102831159A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
WO2011143154A3 (en) Automated social networking graph mining and visualization
WO2014137854A3 (en) Relational similarity measurement
CN106537429A8 (zh) 用于针对一个或多个建筑物提供优化或改进措施的系统和方法
EP2833295A3 (en) Convolutional-neural-network-based classifier and classifying method and training methods for the same
MX2013001141A (es) Metodo y sistema para prepoblar una comunidad web.
WO2014021961A3 (en) Systems and methods for vehicle survivability planning
EP2423768A3 (en) Sensor validation and value replacement for continuous emissions monitoring
CN103020423A (zh) 基于copula函数获取风电场出力相关特性的方法
EP2811417A3 (en) Systems and methods for synchronizing geographic information system (GIS) network models
CN109145446B (zh) 一种基于模态应变能和卷积神经网络的结构损伤识别方法
IN2014DE00772A (zh)
WO2014013227A3 (en) Assessing performance of a system
WO2014122295A3 (en) Methods and systems for data cleaning
WO2015000943A3 (fr) Procédé de mise à disposition par un compteur électrique de données compressées
CA2912019C (en) Systems and methods for generating issue networks
CN102831159B (zh) 一种基于专家投票的文本相似网络构建方法
GB201120877D0 (en) A method and system for managing data
CN105956363A (zh) 一种河流生态需水分段分析、补充以及分流方法
CN105447598A (zh) 一种基于误差修正模型的电力系统中负荷预测装置及方法
Pasquino et al. Automotive processes simulated by an ODE-PDE model
Tcvetkov et al. A modified hausdorff distance between intuitionistic fuzzy sets
Yadav et al. A characteristic mapping method for two-dimensional incompressible Euler flows
Kovalevskaia Linguistic Dimension of Global Politics: Hispanophone
Fadda et al. A contribution to enhance the integrated approach of ecological footprint assessment. A data collection tool intended for office buildings
GIANOTTI Development of a unit commitment model for the simulation of the day-ahead electricity market and capacity planning in Italy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160427

Termination date: 20180716

CF01 Termination of patent right due to non-payment of annual fee