CN105243121A - 一种基于数据挖掘的文本数据网络构建系统 - Google Patents

一种基于数据挖掘的文本数据网络构建系统 Download PDF

Info

Publication number
CN105243121A
CN105243121A CN201510632794.8A CN201510632794A CN105243121A CN 105243121 A CN105243121 A CN 105243121A CN 201510632794 A CN201510632794 A CN 201510632794A CN 105243121 A CN105243121 A CN 105243121A
Authority
CN
China
Prior art keywords
data
text data
newly
word segmentation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510632794.8A
Other languages
English (en)
Other versions
CN105243121B (zh
Inventor
毕经元
王立伟
贾倩
张冶
王长庆
池元成
陆小兵
朱亚亚
杨玉堃
李一帆
康磊晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Original Assignee
China Academy of Launch Vehicle Technology CALT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201510632794.8A priority Critical patent/CN105243121B/zh
Publication of CN105243121A publication Critical patent/CN105243121A/zh
Application granted granted Critical
Publication of CN105243121B publication Critical patent/CN105243121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据挖掘的专业领域人际网络构建系统,包括数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库:数据采集模块接收新增文本数据,并对文本数据依次进行分词;数据挖掘模块提取数据库中经过分词处理的新增文本数据的特征值,并与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射;人际网络构建模块以数据采集模块接收到的文本数据发送者为文件名称,以新增文本数据名称、进行关联映射的数据名称以及关联映射数据对应的数据发送者为文件属性,构建文件,形成人际网络本体库;可视化展示模块,解析文件对应的数据,并使用线段、节点方式展现。

Description

一种基于数据挖掘的文本数据网络构建系统
技术领域
本发明涉及一种基于数据挖掘技术的文本数据网络构建系统。
背景技术
专家知识是企业的宝贵资源,而专家的知识主要以文本数据的形式体现。因此,对专家知识的管理即为对专家创造的文本数据的管理。目前,对专家知识的管理手段分为两方面,一方面,构建专家黄页或专家地图,但该种方法以专家自身申报的研究领域为关联点,对专家研究方向的定位过于宽泛,不易于掌握专家精准的研究技术,也忽略了专家研究领域的多样性、细微性以及研究方向的动态变更或调整;另一方面,采用文本分析技术对专家研究成果进行智能分析,自动分析专家研究领域,该种方法虽然有利于精确掌握专家的研究方向,但仅关注于专家本身,忽视了专家与专家之间的关联程度,未实现同领域、同方向、同技术点专家群体的聚合分析。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于数据挖掘技术的文本数据网络构建系统,实现专家研究领域的精准分析与专家之间关系的准确关联,为企业智力资产的精细化、系统化管理提供手段。
本发明的技术解决方案是:
一种基于数据挖掘的专业领域人际网络构建系统:数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库:
数据采集模块,接收系统外部发送的新增文本数据,记录数据发送者信息,并对文本数据依次进行分词,将分词后的数据存储于数据库;
数据挖掘模块,提取数据库中经过分词处理的新增文本数据的特征值,并与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射;
人际网络构建模块,根据数据之间的关联映射关系,以数据采集模块接收到的文本数据发送者为文件名称,以新增文本数据名称、进行关联映射的数据名称以及关联映射数据对应的数据发送者为文件属性,构建文件,形成人际网络本体库;
可视化展示模块,接收人际网络构建模块发送的人际网络本体库,解析文件对应的数据,并使用线段、节点方式展现。
数据采集模块,读取发送的新增文本数据后,为每一条数据进行命名和生成唯一ID,所述的新增文本数据命名采用新增文本数据ID+新增文本数据上传人ID+新增文本数据名称的格式;
数据采集模块,采用隐马尔科夫模型对新增数据进行分词,识别并去除分词结果约定的人名、地名和机构名,以空格作为分词结果的分隔符,将分词结果以.txt文件格式保存;
数据采集模块,对分词.txt文件进行格式转换,生成.xml文件,存入分词结果数据库,.xml文件包含分词结果、新增文本数据ID、新增文本数据上传人ID、新增文本数据名称。
数据挖掘模块提取数据库中的新增文本数据的特征值的具体方式如下:
数据挖掘模块,将新生成的分词结果与数据库已经存储的历史分词数据进行逐一比对,统计出各分词出现的次数D,将满足Dmin<D<Dmax的分词,作为特征词tp,其中Dmax表示预设的分词出现的最高阈值,Dmin表示预设的分词出现的最低阈值;
数据挖掘模块,计算出每个新增文本分词结果中每项特征词tp在当前分词结果中出现的频率tfp以及每个新增数据文本分词结果中出现特征词tp的数目np,利用特征权重计算公式得到每个特征词tp在当前分词结果中的权重进一步计算每个新增文本数据的特征向量Tq
Tq=Z(t1,w1;t2,w2;……tn,wn)
其中,M表示新增文本数据的总数,n表示每个新增文本数据中特征词的总数,n小于等于每个新增数据文本分词后的分词结果数。
数据挖掘模块与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射的具体方式如下:
(1)判断数据库中是否已经存在文本数据,若存在直接进入步骤(4),否则进入步骤(2)建立聚类中心特征向量;
(2)数据挖掘模块,通过对特征向量Tq的处理进行文本数据分类,计算得到分类类别数K=round((logM)2,0);
(3)数据挖掘模块,随机选取K个特征向量作为聚类中心,分别为T1,T2,……Tk,将剩余的M-K个特征向量Tk+1,Tk+2,……TM—k进行聚类划分,聚类划分的具体方式为:
(3a)利用下式计算M-K个特征向量中每一项向量与K项聚类中心空间向量T1,T2,……Tk的距离S(Ti,Tj):
S i = S ( T i , T j ) = c o s ( T i , T j ) = T i T T j | | T i | | | | T j | | - - - ( 1 )
其中,||Ti||和||Tj||分别表示向量Ti和Tj的长度,i小于等于K、j小于等于M-K;
(3b)将M-K个特征向量中的每一项向量,与K个聚类中心特征向量的距离记为S={S1,S2,……sk},取M-K个特征向量中的每一项向量对应的S中的最小值Smin=min(S),最小值Smin对应的聚类中心即为该M-K个特征向量中的特征向量对应的类别,重复上述过程完成M-K个特征向量的分类;
(3c)将K个聚类中心包含的所有特征向量分别求取特征向量平均值,然后将该平均值作为新的聚类中心,重复步骤(3a)-(3b),直到M-K个特征向量中每一项向量的Si前后两次变化幅度不超过特定阈值时,记此时的K个聚类中心对应的特征向量为F;
(4)对于数据采集模块新增文本数据分词结果对应的特征向量,利用公式(1)计算其与步骤(3c)中新求出的K个聚类中心对应的特征向量F的距离,并根据特征向两种的最小值对应的聚类中心,划分该新增文本数据所属的分类;
(5)利用下式计算新增文本分词结果对应的特征向量与其分类中已存的分词结果的特征向量的距离Lclose,取Lclose最小值对应的已存分词结果的特征向量对应的文本数据,作为映射数据,建立映射关系;
L c l o s e = ( T a d d - T i _ c l o s e ) 2 2
其中,Tadd表示新增文本分词结果对应的特征向量,Ti_close表示分类中已存的每项分词结果的特征向量。
可视化展示模块对人际网络本体库进行解析并可视化显示的具体方式如下:
可视化展示模块,解析人际网络构建模块生成的本体文件,提取本体名称及本体属性内容;
可视化展示模块,根据解析的本体内容,以本体名称作为网络节点,以关联映射数据对应的数据发送者属性作为节点间连线的依据,形成由点、线组成的可视化网络图。
本发明与现有技术相比有益效果为:
(1)本发明给出的数据采集、数据挖掘以及人际网络构建功能,实现了人与人之间通过上传文本数据相关程度的关联映射,有助于发现系统用户之间的关联关系,进而在不需要更多用户背景信息的前提下快速构建专业领域人际网络。
(2)本发明建立形成基于数据挖掘的文本数据网络构建系统,实现对文本数据的深入分析及关联映射,动态、精准定位专家研究方向的同时,解决专家与多种文本数据、多个专家的多维度关联问题,使某领域专家之间能够通过所上传的文本数据挖掘分析结果进行准确关联。
(3)本发明通过随机选取K个特征向量与剩余向量进行距离求解,通过距离幅度确定新的聚类分组,使得最终的聚类中心分组准确,数据划分清楚,便于文本数据的分类与查找,工程应用价值高,大大提高了工作效率。
(4)本发明通过比较新增文本数据的特征向量与K个分类特征向量进行首次比较,再选取最近距离的分类中的特征向量进行逐个对比,提高了系统求解计算效率。
(5)本发明给出的可视化展示功能,实现了专业领域人际网络的图形化展示,展示要素包含了系统用户、用户间关联以及发生关联的文本数据,在形象化展示人际网络的同时,可以给出有价值的数据内容。
附图说明
图1为本发明系统框图。
具体实施方式
下面结合附图及实施例对本发明做详细的说明,具体如下:
本发明建立形成基于数据挖掘的文本数据网络构建系统,实现对文本数据的深入分析及关联映射,动态、精准定位专家研究方向的同时,解决专家与多种文本数据、多个专家的多维度关联问题,使某领域专家之间能够通过所上传的文本数据挖掘分析结果进行准确关联。
如图1所示,本发明一种基于数据挖掘的文本数据网络构建系统包括:数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库:
数据采集模块,接收系统外部发送的新增文本数据,记录数据发送者信息,并对文本数据依次进行分词,将分词后的数据存储于数据库;
数据挖掘模块,提取数据库中经过分词处理的新增文本数据的特征值,并与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射;
人际网络构建模块,根据数据之间的关联映射关系,以数据采集模块接收到的文本数据发送者为文件名称,以新增文本数据名称、进行关联映射的数据名称以及关联映射数据对应的数据发送者为文件属性,构建文件,形成人际网络本体库;
可视化展示模块,接收人际网络构建模块发送的人际网络本体库,解析文件对应的数据,并使用线段、节点方式展现。
本发明给出的数据采集、数据挖掘以及人际网络构建功能,实现了人与人之间通过上传文本数据相关程度的关联映射,有助于发现系统用户之间的关联关系,进而在不需要更多用户背景信息的前提下快速构建专业领域人际网络。
数据采集模块
数据采集模块,读取发送的新增文本数据后,为每一条数据进行命名和生成唯一ID,所述的新增文本数据命名采用新增文本数据ID+新增文本数据上传人ID+新增文本数据名称的格式;
数据采集模块,采用隐马尔科夫模型对新增数据进行分词,识别并去除分词结果约定的人名、地名和机构名,以空格作为分词结果的分隔符,将分词结果以.txt文件格式保存;
数据采集模块,对分词.txt文件进行格式转换,生成.xml文件,存入分词结果数据库,.xml文件包含分词结果、新增文本数据ID、新增文本数据上传人ID、新增文本数据名称。
数据挖掘模块
数据挖掘模块提取数据库中的新增文本数据的特征值的具体方式如下:
数据挖掘模块,将新生成的分词结果与数据库已经存储的历史分词数据进行逐一比对,统计出各分词出现的次数D,将满足Dmin<D<Dmax的分词,作为特征词tp,其中Dmax表示预设的分词出现的最高阈值,Dmin表示预设的分词出现的最低阈值;
数据挖掘模块,计算出每个新增文本分词结果中每项特征词tp在当前分词结果中出现的频率tfp以及每个新增数据文本分词结果中出现特征词tp的数目np,利用特征权重计算公式得到每个特征词tp在当前分词结果中的权重进一步计算每个新增文本数据的特征向量Tq
Tq=Z(t1,w1;t2,w2;……tn,wn)
其中,M表示新增文本数据的总数,n表示每个新增文本数据中特征词的总数,n小于等于每个新增数据文本分词后的分词结果数。
数据挖掘模块与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射的具体方式如下:
(1)判断数据库中是否已经存在文本数据,若存在直接进入步骤(4),否则进入步骤(2)建立聚类中心特征向量;
(2)数据挖掘模块,通过对特征向量Tq的处理进行文本数据分类,计算得到分类类别数K=round((logM)2,0);
(3)数据挖掘模块,随机选取K个特征向量作为聚类中心,分别为T1,T2,……Tk,将剩余的M-K个特征向量Tk+1,Tk+2,……TM—k进行聚类划分,聚类划分的具体方式为:
(3a)利用下式计算M-K个特征向量中每一项向量与K项聚类中心空间向量T1,T2,……Tk的距离S(Ti,Tj):
S i = S ( T i , T j ) = c o s ( T i , T j ) = T i T T j | | T i | | | | T j | | - - - ( 1 )
其中,||Ti||和||Tj||分别表示向量Ti和Tj的长度,i小于等于K、j小于等于M-K;
(3b)将M-K个特征向量中的每一项向量,与K个聚类中心特征向量的距离记为S={S1,S2,……sk},取M-K个特征向量中的每一项向量对应的S中的最小值Smin=min(S)(例如Tk+1与K个聚类中心特征向量的距离记为Sd(k+1)={S11,S12,……S1k}、Tk+2与K个聚类中心特征向量的距离记为Sd(k+2)={S21,S22,……s2k},这里分别取Sd(k+1)和Sd(k+2)的最小值,假如是S12,S22),最小值Smin对应的聚类中心即为该M-K个特征向量中的特征向量对应的类别,重复上述过程完成M-K个特征向量的分类;
(3c)将K个聚类中心包含的所有特征向量分别求取特征向量平均值,然后将该平均值作为新的聚类中心,重复步骤(3a)-(3b),直到M-K个特征向量中每一项向量的Si前后两次变化幅度不超过特定阈值时,记此时的K个聚类中心对应的特征向量为F;例如:K取2、M取8时,K项聚类中心包含2个空间向量T1和T2,M-K个特征向量T3、T4、T5、T6,经过步骤(3b)处理,假如特征向量T3、T4属于空间向量T1对应的聚类,特征向量T5、T6属于空间向量T2对应的聚类,那么就称空间向量T1包含的所有特征向量为T3、T4,空间向量T2包含的所有特征向量为T5、T6,然后T1、T3、T4求取平均值作为新的聚类中心,将T2、T5、T6求取平均值作为新的聚类中心,重复步骤(3a)-(3b);
本发明通过随机选取K个特征向量与剩余向量进行距离求解,通过距离幅度确定新的聚类分组,使得最终的聚类中心分组准确,数据划分清楚,便于文本数据的分类与查找,工程应用价值高,大大提高了工作效率,另外通过比较新增文本数据的特征向量与K个分类特征向量进行首次比较,再选取最近距离的分类中的特征向量进行逐个对比,提高了系统求解计算效率。
(4)对于数据采集模块新增文本数据分词结果对应的特征向量,利用公式(1)计算其与步骤(3c)中新求出的K个聚类中心对应的特征向量F的距离,并根据特征向两种的最小值对应的聚类中心,划分该新增文本数据所属的分类;
(5)利用下式计算新增文本分词结果对应的特征向量与其分类中已存的分词结果的特征向量的距离Lclose,取Lclose最小值对应的已存分词结果的特征向量对应的文本数据,作为映射数据,建立映射关系;
L c l o s e = ( T a d d - T i _ c l o s e ) 2 2
其中,Tadd表示新增文本分词结果对应的特征向量,Ti_close表示分类中已存的每项分词结果的特征向量。
可视化展示模块
可视化展示模块对人际网络本体库进行解析并可视化显示的具体方式如下:
可视化展示模块,解析人际网络构建模块生成的本体文件,提取本体名称及本体属性内容;
可视化展示模块,根据解析的本体内容,以本体名称作为网络节点,以关联映射数据对应的数据发送者属性作为节点间连线的依据,形成由点、线组成的可视化网络图。
本发明给出的可视化展示功能,实现了专业领域人际网络的图形化展示,展示要素包含了系统用户、用户间关联以及发生关联的文本数据,在形象化展示人际网络的同时,可以给出有价值的数据内容。
本发明未详细说明部分属于本领域技术人员公知常识。

Claims (5)

1.一种基于数据挖掘的文本数据网络构建系统,其特征在于包括:数据采集模块、数据挖掘模块、人际网络构建模块、可视化展示模块和数据库:
数据采集模块,接收系统外部发送的新增文本数据,记录数据发送者信息,并对文本数据依次进行分词,将分词后的数据存储于数据库;
数据挖掘模块,提取数据库中经过分词处理的新增文本数据的特征值,并与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射;
人际网络构建模块,根据数据之间的关联映射关系,以数据采集模块接收到的文本数据发送者为文件名称,以新增文本数据名称、进行关联映射的数据名称以及关联映射数据对应的数据发送者为文件属性,构建文件,形成人际网络本体库;
可视化展示模块,接收人际网络构建模块发送的人际网络本体库,解析文件对应的数据,并使用线段、节点方式展现。
2.根据权利要求1所述的一种基于数据挖掘的文本数据网络构建系统,其特征在于:数据采集模块,读取发送的新增文本数据后,为每一条数据进行命名和生成唯一ID,所述的新增文本数据命名采用新增文本数据ID+新增文本数据上传人ID+新增文本数据名称的格式;
数据采集模块,采用隐马尔科夫模型对新增数据进行分词,识别并去除分词结果约定的人名、地名和机构名,以空格作为分词结果的分隔符,将分词结果以.txt文件格式保存;
数据采集模块,对分词.txt文件进行格式转换,生成.xml文件,存入分词结果数据库,.xml文件包含分词结果、新增文本数据ID、新增文本数据上传人ID、新增文本数据名称。
3.根据权利要求1所述的一种基于数据挖掘的文本数据网络构建系统,其特征在于:数据挖掘模块提取数据库中的新增文本数据的特征值的具体方式如下:
数据挖掘模块,将新生成的分词结果与数据库已经存储的历史分词数据进行逐一比对,统计出各分词出现的次数D,将满足Dmin<D<Dmax的分词,作为特征词tp,其中Dmax表示预设的分词出现的最高阈值,Dmin表示预设的分词出现的最低阈值;
数据挖掘模块,计算出每个新增文本分词结果中每项特征词tp在当前分词结果中出现的频率tfp以及每个新增数据文本分词结果中出现特征词tp的数目np,利用特征权重计算公式得到每个特征词tp在当前分词结果中的权重进一步计算每个新增文本数据的特征向量Tq
Tq=Z(t1,w1;t2,w2;……tn,wn)
其中,M表示新增文本数据的总数,n表示每个新增文本数据中特征词的总数,n小于等于每个新增数据文本分词后的分词结果数。
4.根据权利要求3所述的一种基于数据挖掘的文本数据网络构建系统,其特征在于:数据挖掘模块与数据库中已经存储的、已提取特征值的文本数据进行比对,取与新增文本数据特征值最相近的数据进行关联映射的具体方式如下:
(1)判断数据库中是否已经存在文本数据,若存在直接进入步骤(4),否则进入步骤(2)建立聚类中心特征向量;
(2)数据挖掘模块,通过对特征向量Tq的处理进行文本数据分类,计算得到分类类别数K=round((logM)2,0);
(3)数据挖掘模块,随机选取K个特征向量作为聚类中心,分别为T1,T2,……Tk,将剩余的M-K个特征向量Tk+1,Tk+2,……TM—k进行聚类划分,聚类划分的具体方式为:
(3a)利用下式计算M-K个特征向量中每一项向量与K项聚类中心空间向量T1,T2,……Tk的距离S(Ti,Tj):
S i = S ( T i , T j ) = c o s ( T i , T j ) = T i T T j | | T i | | | | T j | | - - - ( 1 )
其中,||Ti||和||Tj||分别表示向量Ti和Tj的长度,i小于等于K、j小于等于M-K;
(3b)将M-K个特征向量中的每一项向量,与K个聚类中心特征向量的距离记为S={S1,S2,……sk},取M-K个特征向量中的每一项向量对应的S中的最小值Smin=min(S),最小值Smin对应的聚类中心即为该M-K个特征向量中的特征向量对应的类别,重复上述过程完成M-K个特征向量的分类;
(3c)将K个聚类中心包含的所有特征向量分别求取特征向量平均值,然后将该平均值作为新的聚类中心,重复步骤(3a)-(3b),直到M-K个特征向量中每一项向量的Si前后两次变化幅度不超过特定阈值时,记此时的K个聚类中心对应的特征向量为F;
(4)对于数据采集模块新增文本数据分词结果对应的特征向量,利用公式(1)计算其与步骤(3c)中新求出的K个聚类中心对应的特征向量F的距离,并根据特征向两种的最小值对应的聚类中心,划分该新增文本数据所属的分类;
(5)利用下式计算新增文本分词结果对应的特征向量与其分类中已存的分词结果的特征向量的距离Lclose,取Lclose最小值对应的已存分词结果的特征向量对应的文本数据,作为映射数据,建立映射关系;
L c l o s e = ( T a d d - T i _ c l o s e ) 2 2
其中,Tadd表示新增文本分词结果对应的特征向量,Ti_close表示分类中已存的每项分词结果的特征向量。
5.根据权利要求1所述的一种基于数据挖掘的文本数据网络构建系统,其特征在于:可视化展示模块对人际网络本体库进行解析并可视化显示的具体方式如下:
可视化展示模块,解析人际网络构建模块生成的本体文件,提取本体名称及本体属性内容;
可视化展示模块,根据解析的本体内容,以本体名称作为网络节点,以关联映射数据对应的数据发送者属性作为节点间连线的依据,形成由点、线组成的可视化网络图。
CN201510632794.8A 2015-09-29 2015-09-29 一种基于数据挖掘的文本数据网络构建系统 Active CN105243121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510632794.8A CN105243121B (zh) 2015-09-29 2015-09-29 一种基于数据挖掘的文本数据网络构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510632794.8A CN105243121B (zh) 2015-09-29 2015-09-29 一种基于数据挖掘的文本数据网络构建系统

Publications (2)

Publication Number Publication Date
CN105243121A true CN105243121A (zh) 2016-01-13
CN105243121B CN105243121B (zh) 2018-08-21

Family

ID=55040769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510632794.8A Active CN105243121B (zh) 2015-09-29 2015-09-29 一种基于数据挖掘的文本数据网络构建系统

Country Status (1)

Country Link
CN (1) CN105243121B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN110263318A (zh) * 2018-04-23 2019-09-20 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备
CN113392637A (zh) * 2021-06-24 2021-09-14 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN116366436A (zh) * 2023-04-21 2023-06-30 南京弘竹泰信息技术有限公司 一种基于广域组网提供各种电信增值业务的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398834B (zh) * 2007-09-29 2010-08-11 北京搜狗科技发展有限公司 一种针对输入信息的处理方法和装置及一种输入法系统
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN104268292B (zh) * 2014-10-23 2018-03-16 广州智索信息科技有限公司 画像系统的标签词库更新方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263318A (zh) * 2018-04-23 2019-09-20 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备
CN110263318B (zh) * 2018-04-23 2022-10-28 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN113392637A (zh) * 2021-06-24 2021-09-14 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN116366436A (zh) * 2023-04-21 2023-06-30 南京弘竹泰信息技术有限公司 一种基于广域组网提供各种电信增值业务的方法
CN116366436B (zh) * 2023-04-21 2024-03-05 南京弘竹泰信息技术有限公司 一种基于广域组网提供各种电信增值业务的方法

Also Published As

Publication number Publication date
CN105243121B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN103970873B (zh) 一种音乐推荐方法和系统
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
Do et al. Multiview deep learning for predicting twitter users' location
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN105095433A (zh) 实体推荐方法及装置
CN106055604A (zh) 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN105243121A (zh) 一种基于数据挖掘的文本数据网络构建系统
CN102231151B (zh) 一种农业领域本体自适应学习建模方法
CN107609469B (zh) 社会网络关联用户挖掘方法及系统
CN104408033A (zh) 一种文本信息提取的方法及系统
CN105426381A (zh) 一种基于微博情绪上下文的音乐推荐方法
CN105574541A (zh) 一种基于紧密度排序的网络社区发现方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN104573070A (zh) 一种针对混合长度文本集的文本聚类方法
CN104008182A (zh) 社交网络交流影响力的测定方法及系统
CN102236641B (zh) 一种农业领域概念相似度矩阵生成方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN109960722A (zh) 一种信息处理方法及装置
Zul et al. Social media sentiment analysis using K-means and naïve bayes algorithm
CN113934936A (zh) 融合知识图卷积网络和用户偏好的推荐算法
CN103095849B (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN111241425A (zh) 一种基于层次注意力机制的poi推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant