CN102831159B - 一种基于专家投票的文本相似网络构建方法 - Google Patents
一种基于专家投票的文本相似网络构建方法 Download PDFInfo
- Publication number
- CN102831159B CN102831159B CN201210243861.3A CN201210243861A CN102831159B CN 102831159 B CN102831159 B CN 102831159B CN 201210243861 A CN201210243861 A CN 201210243861A CN 102831159 B CN102831159 B CN 102831159B
- Authority
- CN
- China
- Prior art keywords
- text
- similarity
- expert
- ballot
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于专家投票的文本相似网络构建方法。该方法具体步骤如下:(1)输入领域文集;(2)文本表示与相似性度量;(3)使用专家投票法建立文本间的链接;(4)输出文本相似网络。该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;该方法简便易操作,效果好。
Description
技术领域
本发明涉及一种文本相似网络构建方法,具体是涉及采用专家投票法确定任意两篇文本间是否建立链接的相似度阈值,然后根据该局部阈值建立文本的相似网络,是一种基于专家投票的文本相似网络构建方法。
背景技术
目前构建文本相似网络的普遍方法是全局阈值法。全局阈值法是通过人工或机器学习等方法设定的所有文本的相似度阈值,然后根据该全局阈值建立文本的相似网络的方法,但是这种全局阈值法存在以下不足:
(1)全局阈值法不能够体现不同文本的不同链接特点。
(2)全局阈值法不能够根据链接涉及的两个文本的相似度进行精确的控制。
(3)全局阈值法不能够支持文本相似网络的动态扩展,当增加新的文本时,需要重新计算全局阈值。
发明内容
本发明的目的在于针对全局阈值法的不足,提供一种基于专家投票的文本相似网络构建方法,该方法通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展。
为了达到上述的目的,本发明的构思如下:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两个文本间是否建立链接的相似度阈值。
根据上述的发明思想,本发明采用下述技术方案:
一种基于专家投票的文本相似网络构建方法,其特征在于,其具体步骤如下:
(1)输入领域文集;
(2)文本表示与相似性度量;
(3)使用专家投票法建立文本间的链接;
所述的专家投票法,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值。
(4)输出文本相似网络。
本发明的一种基于专家投票的文本相似网络构建方法与现有的技术相比较,具有如下突出特点和优点:能够体现不同文本的不同链接特点;能够对文本间的链接进行精确的控制;支持相似网络的动态扩展。
附图说明
图1是本发明的一种基于专家投票的文本相似网络构建方法。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;
所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;
所述的专家投票法,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值。
实施例二:本基于专家投票的文本相似网络构建方法,从TKDE的2011年到2012年的70篇论文进行文本相似网络的构建。如图1所示,本实施例的一种基于专家投票的文本相似网络构建方法,其步骤如下:
S1.输入领域文集,例如,输入TKDE的70篇文本;
S2.文本表示与相似性度量,例如,使用基于图结构的文本表示模型与相似性度量方法;
S3.使用专家投票法建立文本间的链接;专家投票法公式,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值;
S4.输出文本相似网络。
Claims (1)
1.一种基于专家投票的文本相似网络构建方法,其特征在于:通过专家投票法产生的局部阈值对文本间的链接进行精确的控制,体现了不同文本间的不同链接特点,且支持相似网络的动态扩展;所述的局部阈值就是任意两篇文本间是否建立链接的相似度阈值;其具体步骤如下:
(1)输入领域文集;
(2)对于领域文集中的每一篇文本,使用基于图结构的文本表示方法对其进行表示和相似度计算;
(3)使用专家投票法建立文本间的链接,其局部阈值计算式如下:
其中,为文本i的专家投票值,为文本i与其它文本的相似度集合,为集合中相似度的总和,为集合中的最大的相似度,为集合中的最小的相似度,为集合中相似度的个数,为文本i与文本j的专家投票值中的最小值;
(4)输出文本相似网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210243861.3A CN102831159B (zh) | 2012-07-16 | 2012-07-16 | 一种基于专家投票的文本相似网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210243861.3A CN102831159B (zh) | 2012-07-16 | 2012-07-16 | 一种基于专家投票的文本相似网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102831159A CN102831159A (zh) | 2012-12-19 |
CN102831159B true CN102831159B (zh) | 2016-04-27 |
Family
ID=47334296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210243861.3A Expired - Fee Related CN102831159B (zh) | 2012-07-16 | 2012-07-16 | 一种基于专家投票的文本相似网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831159B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763271B (zh) * | 2018-04-08 | 2022-09-23 | 浙江工业大学 | 一种结合二分网络和文本的医院科室相似性分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
-
2012
- 2012-07-16 CN CN201210243861.3A patent/CN102831159B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
Non-Patent Citations (2)
Title |
---|
LexRank:Graph-based Centrality as Salience in Text Summarization;Gunes Erkan;《Journal of Artificial Intelligence Research》;20041231;1-23 * |
基于向量空间模型的多主题Web文本分类方法;周炎涛;《计算机应用研究》;20080131;第25卷(第1期);142-144 * |
Also Published As
Publication number | Publication date |
---|---|
CN102831159A (zh) | 2012-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2011143154A3 (en) | Automated social networking graph mining and visualization | |
WO2014137854A3 (en) | Relational similarity measurement | |
CN106537429A8 (zh) | 用于针对一个或多个建筑物提供优化或改进措施的系统和方法 | |
EP2833295A3 (en) | Convolutional-neural-network-based classifier and classifying method and training methods for the same | |
MX2013001141A (es) | Metodo y sistema para prepoblar una comunidad web. | |
WO2014021961A3 (en) | Systems and methods for vehicle survivability planning | |
EP2423768A3 (en) | Sensor validation and value replacement for continuous emissions monitoring | |
CN103020423A (zh) | 基于copula函数获取风电场出力相关特性的方法 | |
EP2811417A3 (en) | Systems and methods for synchronizing geographic information system (GIS) network models | |
CN109145446B (zh) | 一种基于模态应变能和卷积神经网络的结构损伤识别方法 | |
IN2014DE00772A (zh) | ||
WO2014013227A3 (en) | Assessing performance of a system | |
WO2014122295A3 (en) | Methods and systems for data cleaning | |
WO2015000943A3 (fr) | Procédé de mise à disposition par un compteur électrique de données compressées | |
CA2912019C (en) | Systems and methods for generating issue networks | |
CN102831159B (zh) | 一种基于专家投票的文本相似网络构建方法 | |
GB201120877D0 (en) | A method and system for managing data | |
CN105956363A (zh) | 一种河流生态需水分段分析、补充以及分流方法 | |
CN105447598A (zh) | 一种基于误差修正模型的电力系统中负荷预测装置及方法 | |
Pasquino et al. | Automotive processes simulated by an ODE-PDE model | |
Tcvetkov et al. | A modified hausdorff distance between intuitionistic fuzzy sets | |
Yadav et al. | A characteristic mapping method for two-dimensional incompressible Euler flows | |
Kovalevskaia | Linguistic Dimension of Global Politics: Hispanophone | |
Fadda et al. | A contribution to enhance the integrated approach of ecological footprint assessment. A data collection tool intended for office buildings | |
GIANOTTI | Development of a unit commitment model for the simulation of the day-ahead electricity market and capacity planning in Italy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160427 Termination date: 20180716 |
|
CF01 | Termination of patent right due to non-payment of annual fee |