CN102831159A - 一种基于专家投票的文本相似网络构建方法 - Google Patents

一种基于专家投票的文本相似网络构建方法 Download PDF

Info

Publication number
CN102831159A
CN102831159A CN2012102438613A CN201210243861A CN102831159A CN 102831159 A CN102831159 A CN 102831159A CN 2012102438613 A CN2012102438613 A CN 2012102438613A CN 201210243861 A CN201210243861 A CN 201210243861A CN 102831159 A CN102831159 A CN 102831159A
Authority
CN
China
Prior art keywords
text
expert
similarity
ballot
similar network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102438613A
Other languages
English (en)
Other versions
CN102831159B (zh
Inventor
陈雪
吴超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201210243861.3A priority Critical patent/CN102831159B/zh
Publication of CN102831159A publication Critical patent/CN102831159A/zh
Application granted granted Critical
Publication of CN102831159B publication Critical patent/CN102831159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于专家投票的文本相似网络构建方法。该方法具体步骤如下:(1)输入领域文集;(2)文本表示与相似性度量;(3)使用专家投票法建立文本间的链接;(4)输出文本相似网络。该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;该方法简便易操作,效果好。

Description

一种基于专家投票的文本相似网络构建方法
技术领域
本发明涉及一种文本相似网络构建方法,具体是涉及采用专家投票法确定任意两篇文本间是否建立链接的相似度阈值,然后根据该局部阈值建立文本的相似网络,是一种基于专家投票的文本相似网络构建方法。
背景技术
目前构建文本相似网络的普遍方法是全局阈值法。全局阈值法是通过人工或机器学习等方法设定的所有文本的相似度阈值,然后根据该全局阈值建立文本的相似网络的方法,但是这种全局阈值法存在以下不足:
(1)全局阈值法不能够体现不同文本的不同链接特点。
(2)全局阈值法不能够根据链接涉及的两个文本的相似度进行精确的控制。
(3)全局阈值法不能够支持文本相似网络的动态扩展,当增加新的文本时,需要重新计算全局阈值。
发明内容
本发明的目的在于针对全局阈值法的不足,提供一种基于专家投票的文本相似网络构建方法,该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展。
为了达到上述的目的,本发明的构思如下:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两个文本间是否建立链接的相似度阈值。
根据上述的发明思想,本发明采用下述技术方案:
一种基于专家投票的文本相似网络构建方法,其特征在于,其具体步骤如下:
(1)输入领域文集;
(2)文本表示与相似性度量;
(3)使用专家投票法建立文本间的链接;
所述的专家投票法,其局部阈值                                                
Figure 2012102438613100002DEST_PATH_IMAGE001
计算式如下:
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE007
其中,
Figure 301906DEST_PATH_IMAGE008
为文本i的专家投票值,
Figure DEST_PATH_IMAGE009
为文本i与其它文本的相似度集合,
Figure 264046DEST_PATH_IMAGE010
为集合中相似度的总和,
Figure DEST_PATH_IMAGE013
为集合
Figure 866246DEST_PATH_IMAGE012
中的最大的相似度,为集合
Figure 692568DEST_PATH_IMAGE012
中的最小的相似度,为集合中相似度的个数, 
Figure 15282DEST_PATH_IMAGE016
为文本i与文本j的专家投票值中的最小值。
 (4)输出文本相似网络。
本发明的一种基于专家投票的文本相似网络构建方法与现有的技术相比较,具有如下突出特点和优点:能够体现不同文本的不同链接特点;能够对文本间的链接进行精确的控制;支持相似网络的动态扩展。
附图说明
图1是本发明的一种基于专家投票的文本相似网络构建方法。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;
所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;
所述的专家投票法,其局部阈值
Figure 812336DEST_PATH_IMAGE001
计算式如下:
Figure 421172DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE017
Figure 407714DEST_PATH_IMAGE018
其中,
Figure 418395DEST_PATH_IMAGE008
为文本i的专家投票值,
Figure 386351DEST_PATH_IMAGE009
为文本i与其它文本的相似度集合,
Figure 482483DEST_PATH_IMAGE010
为集合
Figure 928508DEST_PATH_IMAGE012
中相似度的总和,
Figure 121592DEST_PATH_IMAGE013
为集合中的最大的相似度,为集合中的最小的相似度,
Figure 888986DEST_PATH_IMAGE015
为集合
Figure 198745DEST_PATH_IMAGE012
中相似度的个数,
Figure 269469DEST_PATH_IMAGE016
为文本i与文本j的专家投票值中的最小值。
实施例二:本基于专家投票的文本相似网络构建方法,从TKDE的2011年到2012年的70篇论文进行文本相似网络的构建。如图1所示,本实施例的一种基于专家投票的文本相似网络构建方法,其步骤如下:
S1. 输入领域文集,例如,输入TKDE的70篇文本;
S2. 文本表示与相似性度量,例如,使用基于图结构的文本表示模型与相似性度量方法;
S3. 使用专家投票法建立文本间的链接;专家投票法公式,其局部阈值计算式如下:
Figure 705633DEST_PATH_IMAGE005
Figure 998074DEST_PATH_IMAGE007
其中,
Figure 855171DEST_PATH_IMAGE008
为文本i的专家投票值,
Figure 362507DEST_PATH_IMAGE009
为文本i与其它文本的相似度集合,
Figure 14068DEST_PATH_IMAGE010
为集合
Figure 59385DEST_PATH_IMAGE012
中相似度的总和,
Figure 454594DEST_PATH_IMAGE013
为集合
Figure 65704DEST_PATH_IMAGE012
中的最大的相似度,
Figure 153746DEST_PATH_IMAGE014
为集合
Figure 420779DEST_PATH_IMAGE012
中的最小的相似度,
Figure 354100DEST_PATH_IMAGE015
为集合
Figure 836028DEST_PATH_IMAGE012
中相似度的个数, 为文本i与文本j的专家投票值中的最小值;
S4. 输出文本相似网络。

Claims (2)

1.一种基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;其具体步骤如下:
(1)输入领域文集;
(2)文本表示与相似性度量;
(3)使用专家投票法建立文本间的链接;
(4)输出文本相似网络。
2.按权利要求1所述的基于专家投票的文本相似网络构建方法,其特征在于:所述步骤(3)中的专家投票法,其局部阈值                                               
Figure DEST_PATH_IMAGE002
计算式如下:
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE010
为文本i的专家投票值,为文本i与其它文本的相似度集合,
Figure DEST_PATH_IMAGE014
为集合
Figure DEST_PATH_IMAGE016
中相似度的总和,
Figure DEST_PATH_IMAGE018
为集合
Figure DEST_PATH_IMAGE016A
中的最大的相似度,
Figure DEST_PATH_IMAGE020
为集合中的最小的相似度,
Figure DEST_PATH_IMAGE022
为集合
Figure DEST_PATH_IMAGE016AAA
中相似度的个数, 
Figure DEST_PATH_IMAGE024
为文本i与文本j的专家投票值中的最小值。
CN201210243861.3A 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法 Expired - Fee Related CN102831159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210243861.3A CN102831159B (zh) 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210243861.3A CN102831159B (zh) 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法

Publications (2)

Publication Number Publication Date
CN102831159A true CN102831159A (zh) 2012-12-19
CN102831159B CN102831159B (zh) 2016-04-27

Family

ID=47334296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210243861.3A Expired - Fee Related CN102831159B (zh) 2012-07-16 2012-07-16 一种基于专家投票的文本相似网络构建方法

Country Status (1)

Country Link
CN (1) CN102831159B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763271A (zh) * 2018-04-08 2018-11-06 浙江工业大学 一种结合二分网络和文本的医院科室相似性分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724A (zh) * 2010-12-23 2011-04-06 哈尔滨工业大学 文档段落分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUNES ERKAN: "LexRank:Graph-based Centrality as Salience in Text Summarization", 《JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 *
周炎涛: "基于向量空间模型的多主题Web文本分类方法", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763271A (zh) * 2018-04-08 2018-11-06 浙江工业大学 一种结合二分网络和文本的医院科室相似性分析方法
CN108763271B (zh) * 2018-04-08 2022-09-23 浙江工业大学 一种结合二分网络和文本的医院科室相似性分析方法

Also Published As

Publication number Publication date
CN102831159B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
WO2011143154A3 (en) Automated social networking graph mining and visualization
MX2013001141A (es) Metodo y sistema para prepoblar una comunidad web.
WO2011019550A3 (en) System and method for associating a load demand with a variable power generation
EP2458333A3 (en) Road estimation device and method for estimating road
CN103729378A (zh) 一种ip地理信息的更新方法和装置
CA2912019C (en) Systems and methods for generating issue networks
WO2015000943A3 (fr) Procédé de mise à disposition par un compteur électrique de données compressées
NZ712245A (en) Wind park and method for controlling a wind park
EP2653796A3 (en) System and method for controlling air conditioner
EP2584486A3 (en) Meter access management system
EP2407893A3 (en) Information processing device, information processing method, and program for string analysis
WO2017106293A3 (en) Dynamic design of complex system-of-systems for planning and adaptation to unplanned scenarios
CN102831159A (zh) 一种基于专家投票的文本相似网络构建方法
WO2009061218A3 (en) Method of creating a financial instrument
WO2014092533A8 (en) A method to construct bijective substitution box from non-permutation power functions
GB201120877D0 (en) A method and system for managing data
WO2014168744A3 (en) Carbon bond financial system and method for reducing green house gases and carbon footprint
CN105092008A (zh) 电子秤
CN103646065A (zh) 一种面向对象的业务报表模型构建方法
CN205772350U (zh) 连续对折装置
Tcvetkov et al. A modified hausdorff distance between intuitionistic fuzzy sets
MAZZANTI et al. Waste management in spatial environments
WO2014018692A3 (en) Systems and methods involving features of terminal operation including tos-agnostic and/or other features
CN102654892A (zh) 含平行线路的大规模电力系统的分析方法
Oliveri et al. An overview of collapsibility

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160427

Termination date: 20180716

CF01 Termination of patent right due to non-payment of annual fee