CN105243121A

CN105243121A - 一种基于数据挖掘的文本数据网络构建系统

Info

Publication number: CN105243121A
Application number: CN201510632794.8A
Authority: CN
Inventors: 毕经元; 王立伟; 贾倩; 张冶; 王长庆; 池元成; 陆小兵; 朱亚亚; 杨玉堃; 李一帆; 康磊晶
Original assignee: China Academy of Launch Vehicle Technology CALT
Current assignee: China Academy of Launch Vehicle Technology CALT
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2016-01-13
Anticipated expiration: 2035-09-29
Also published as: CN105243121B

Abstract

本发明公开了一种基于数据挖掘的专业领域人际网络构建系统，包括数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库：数据采集模块接收新增文本数据，并对文本数据依次进行分词；数据挖掘模块提取数据库中经过分词处理的新增文本数据的特征值，并与数据库中已经存储的、已提取特征值的文本数据进行比对，取与新增文本数据特征值最相近的数据进行关联映射；人际网络构建模块以数据采集模块接收到的文本数据发送者为文件名称，以新增文本数据名称、进行关联映射的数据名称以及关联映射数据对应的数据发送者为文件属性，构建文件，形成人际网络本体库；可视化展示模块，解析文件对应的数据，并使用线段、节点方式展现。

Description

一种基于数据挖掘的文本数据网络构建系统

技术领域

本发明涉及一种基于数据挖掘技术的文本数据网络构建系统。

背景技术

专家知识是企业的宝贵资源，而专家的知识主要以文本数据的形式体现。因此，对专家知识的管理即为对专家创造的文本数据的管理。目前，对专家知识的管理手段分为两方面，一方面，构建专家黄页或专家地图，但该种方法以专家自身申报的研究领域为关联点，对专家研究方向的定位过于宽泛，不易于掌握专家精准的研究技术，也忽略了专家研究领域的多样性、细微性以及研究方向的动态变更或调整；另一方面，采用文本分析技术对专家研究成果进行智能分析，自动分析专家研究领域，该种方法虽然有利于精确掌握专家的研究方向，但仅关注于专家本身，忽视了专家与专家之间的关联程度，未实现同领域、同方向、同技术点专家群体的聚合分析。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于数据挖掘技术的文本数据网络构建系统，实现专家研究领域的精准分析与专家之间关系的准确关联，为企业智力资产的精细化、系统化管理提供手段。

本发明的技术解决方案是：

一种基于数据挖掘的专业领域人际网络构建系统：数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库：

数据采集模块，接收系统外部发送的新增文本数据，记录数据发送者信息，并对文本数据依次进行分词，将分词后的数据存储于数据库；

数据挖掘模块，提取数据库中经过分词处理的新增文本数据的特征值，并与数据库中已经存储的、已提取特征值的文本数据进行比对，取与新增文本数据特征值最相近的数据进行关联映射；

人际网络构建模块，根据数据之间的关联映射关系，以数据采集模块接收到的文本数据发送者为文件名称，以新增文本数据名称、进行关联映射的数据名称以及关联映射数据对应的数据发送者为文件属性，构建文件，形成人际网络本体库；

可视化展示模块，接收人际网络构建模块发送的人际网络本体库，解析文件对应的数据，并使用线段、节点方式展现。

数据采集模块，读取发送的新增文本数据后，为每一条数据进行命名和生成唯一ID，所述的新增文本数据命名采用新增文本数据ID+新增文本数据上传人ID+新增文本数据名称的格式；

数据采集模块，采用隐马尔科夫模型对新增数据进行分词，识别并去除分词结果约定的人名、地名和机构名，以空格作为分词结果的分隔符，将分词结果以.txt文件格式保存；

数据采集模块，对分词.txt文件进行格式转换，生成.xml文件，存入分词结果数据库，.xml文件包含分词结果、新增文本数据ID、新增文本数据上传人ID、新增文本数据名称。

数据挖掘模块提取数据库中的新增文本数据的特征值的具体方式如下：

数据挖掘模块，将新生成的分词结果与数据库已经存储的历史分词数据进行逐一比对，统计出各分词出现的次数D，将满足Dmin<D<Dmax的分词，作为特征词t_p，其中Dmax表示预设的分词出现的最高阈值，Dmin表示预设的分词出现的最低阈值；

数据挖掘模块，计算出每个新增文本分词结果中每项特征词t_p在当前分词结果中出现的频率tf_p以及每个新增数据文本分词结果中出现特征词t_p的数目n_p，利用特征权重计算公式得到每个特征词t_p在当前分词结果中的权重进一步计算每个新增文本数据的特征向量T_q：

T_q＝Z(t₁,w₁；t₂,w₂；……t_n,w_n)

其中，M表示新增文本数据的总数，n表示每个新增文本数据中特征词的总数，n小于等于每个新增数据文本分词后的分词结果数。

数据挖掘模块与数据库中已经存储的、已提取特征值的文本数据进行比对，取与新增文本数据特征值最相近的数据进行关联映射的具体方式如下：

(1)判断数据库中是否已经存在文本数据，若存在直接进入步骤(4)，否则进入步骤(2)建立聚类中心特征向量；

(2)数据挖掘模块，通过对特征向量T_q的处理进行文本数据分类，计算得到分类类别数K＝round((logM)²，0)；

(3)数据挖掘模块，随机选取K个特征向量作为聚类中心，分别为T₁，T₂，……T_k，将剩余的M-K个特征向量T_k+1,T_k+2,……T_M—k进行聚类划分，聚类划分的具体方式为：

(3a)利用下式计算M-K个特征向量中每一项向量与K项聚类中心空间向量T₁，T₂，……T_k的距离S(T_i,T_j)：

S_{i} = S (T_{i}, T_{j}) = c o s (T_{i}, T_{j}) = \frac{T_{i}^{T} T_{j}}{| | T_{i} | | | | T_{j} | |} - - - (1)

其中，||T_i||和||T_j||分别表示向量T_i和T_j的长度，i小于等于K、j小于等于M-K；

(3b)将M-K个特征向量中的每一项向量，与K个聚类中心特征向量的距离记为S＝{S₁，S₂，……s_k}，取M-K个特征向量中的每一项向量对应的S中的最小值S_min＝min(S)，最小值S_min对应的聚类中心即为该M-K个特征向量中的特征向量对应的类别，重复上述过程完成M-K个特征向量的分类；

(3c)将K个聚类中心包含的所有特征向量分别求取特征向量平均值，然后将该平均值作为新的聚类中心，重复步骤(3a)-(3b)，直到M-K个特征向量中每一项向量的S_i前后两次变化幅度不超过特定阈值时，记此时的K个聚类中心对应的特征向量为F；

(4)对于数据采集模块新增文本数据分词结果对应的特征向量，利用公式(1)计算其与步骤(3c)中新求出的K个聚类中心对应的特征向量F的距离，并根据特征向两种的最小值对应的聚类中心，划分该新增文本数据所属的分类；

(5)利用下式计算新增文本分词结果对应的特征向量与其分类中已存的分词结果的特征向量的距离L_close，取L_close最小值对应的已存分词结果的特征向量对应的文本数据，作为映射数据，建立映射关系；

L_{c l o s e} = \sqrt[2]{{(T_{a d d} - T_{i_c l o s e})}^{2}}

其中，T_add表示新增文本分词结果对应的特征向量，T_{i_close}表示分类中已存的每项分词结果的特征向量。

可视化展示模块对人际网络本体库进行解析并可视化显示的具体方式如下：

可视化展示模块，解析人际网络构建模块生成的本体文件，提取本体名称及本体属性内容；

可视化展示模块，根据解析的本体内容，以本体名称作为网络节点，以关联映射数据对应的数据发送者属性作为节点间连线的依据，形成由点、线组成的可视化网络图。

本发明与现有技术相比有益效果为：

(1)本发明给出的数据采集、数据挖掘以及人际网络构建功能，实现了人与人之间通过上传文本数据相关程度的关联映射，有助于发现系统用户之间的关联关系，进而在不需要更多用户背景信息的前提下快速构建专业领域人际网络。

(2)本发明建立形成基于数据挖掘的文本数据网络构建系统，实现对文本数据的深入分析及关联映射，动态、精准定位专家研究方向的同时，解决专家与多种文本数据、多个专家的多维度关联问题，使某领域专家之间能够通过所上传的文本数据挖掘分析结果进行准确关联。

(3)本发明通过随机选取K个特征向量与剩余向量进行距离求解，通过距离幅度确定新的聚类分组，使得最终的聚类中心分组准确，数据划分清楚，便于文本数据的分类与查找，工程应用价值高，大大提高了工作效率。

(4)本发明通过比较新增文本数据的特征向量与K个分类特征向量进行首次比较，再选取最近距离的分类中的特征向量进行逐个对比，提高了系统求解计算效率。

(5)本发明给出的可视化展示功能，实现了专业领域人际网络的图形化展示，展示要素包含了系统用户、用户间关联以及发生关联的文本数据，在形象化展示人际网络的同时，可以给出有价值的数据内容。

附图说明

图1为本发明系统框图。

具体实施方式

下面结合附图及实施例对本发明做详细的说明，具体如下：

本发明建立形成基于数据挖掘的文本数据网络构建系统，实现对文本数据的深入分析及关联映射，动态、精准定位专家研究方向的同时，解决专家与多种文本数据、多个专家的多维度关联问题，使某领域专家之间能够通过所上传的文本数据挖掘分析结果进行准确关联。

如图1所示，本发明一种基于数据挖掘的文本数据网络构建系统包括：数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库：

本发明给出的数据采集、数据挖掘以及人际网络构建功能，实现了人与人之间通过上传文本数据相关程度的关联映射，有助于发现系统用户之间的关联关系，进而在不需要更多用户背景信息的前提下快速构建专业领域人际网络。

数据采集模块

数据挖掘模块

T_q＝Z(t₁,w₁；t₂,w₂；……t_n,w_n)

S_{i} = S (T_{i}, T_{j}) = c o s (T_{i}, T_{j}) = \frac{T_{i}^{T} T_{j}}{| | T_{i} | | | | T_{j} | |} - - - (1)

(3b)将M-K个特征向量中的每一项向量，与K个聚类中心特征向量的距离记为S＝{S₁，S₂，……s_k}，取M-K个特征向量中的每一项向量对应的S中的最小值S_min＝min(S)(例如T_k+1与K个聚类中心特征向量的距离记为S_d(_k+1)＝{S₁₁，S₁₂，……S_1k}、T_k+2与K个聚类中心特征向量的距离记为S_d(_k+2)＝{S₂₁，S₂₂，……s_2k}，这里分别取S_d(_k+1)和S_d(_k+2)的最小值，假如是S₁₂，S₂₂)，最小值S_min对应的聚类中心即为该M-K个特征向量中的特征向量对应的类别，重复上述过程完成M-K个特征向量的分类；

(3c)将K个聚类中心包含的所有特征向量分别求取特征向量平均值，然后将该平均值作为新的聚类中心，重复步骤(3a)-(3b)，直到M-K个特征向量中每一项向量的S_i前后两次变化幅度不超过特定阈值时，记此时的K个聚类中心对应的特征向量为F；例如：K取2、M取8时，K项聚类中心包含2个空间向量T₁和T₂，M-K个特征向量T₃、T₄、T₅、T₆，经过步骤(3b)处理，假如特征向量T₃、T₄属于空间向量T₁对应的聚类，特征向量T₅、T₆属于空间向量T₂对应的聚类，那么就称空间向量T₁包含的所有特征向量为T₃、T₄，空间向量T₂包含的所有特征向量为T₅、T₆，然后T₁、T₃、T₄求取平均值作为新的聚类中心，将T₂、T₅、T₆求取平均值作为新的聚类中心，重复步骤(3a)-(3b)；

本发明通过随机选取K个特征向量与剩余向量进行距离求解，通过距离幅度确定新的聚类分组，使得最终的聚类中心分组准确，数据划分清楚，便于文本数据的分类与查找，工程应用价值高，大大提高了工作效率，另外通过比较新增文本数据的特征向量与K个分类特征向量进行首次比较，再选取最近距离的分类中的特征向量进行逐个对比，提高了系统求解计算效率。

L_{c l o s e} = \sqrt[2]{{(T_{a d d} - T_{i_c l o s e})}^{2}}

可视化展示模块

本发明给出的可视化展示功能，实现了专业领域人际网络的图形化展示，展示要素包含了系统用户、用户间关联以及发生关联的文本数据，在形象化展示人际网络的同时，可以给出有价值的数据内容。

本发明未详细说明部分属于本领域技术人员公知常识。

Claims

1.一种基于数据挖掘的文本数据网络构建系统，其特征在于包括：数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库：

2.根据权利要求1所述的一种基于数据挖掘的文本数据网络构建系统，其特征在于：数据采集模块，读取发送的新增文本数据后，为每一条数据进行命名和生成唯一ID，所述的新增文本数据命名采用新增文本数据ID+新增文本数据上传人ID+新增文本数据名称的格式；

3.根据权利要求1所述的一种基于数据挖掘的文本数据网络构建系统，其特征在于：数据挖掘模块提取数据库中的新增文本数据的特征值的具体方式如下：

T_q＝Z(t₁,w₁；t₂,w₂；……t_n,w_n)

4.根据权利要求3所述的一种基于数据挖掘的文本数据网络构建系统，其特征在于：数据挖掘模块与数据库中已经存储的、已提取特征值的文本数据进行比对，取与新增文本数据特征值最相近的数据进行关联映射的具体方式如下：

S_{i} = S (T_{i}, T_{j}) = c o s (T_{i}, T_{j}) = \frac{T_{i}^{T} T_{j}}{| | T_{i} | | | | T_{j} | |} - - - (1)

L_{c l o s e} = \sqrt[2]{{(T_{a d d} - T_{i_c l o s e})}^{2}}

5.根据权利要求1所述的一种基于数据挖掘的文本数据网络构建系统，其特征在于：可视化展示模块对人际网络本体库进行解析并可视化显示的具体方式如下：