CN106649844A - 非结构化文本数据增强型分布式大规模数据维度抽取方法 - Google Patents

非结构化文本数据增强型分布式大规模数据维度抽取方法 Download PDF

Info

Publication number
CN106649844A
CN106649844A CN201611254128.6A CN201611254128A CN106649844A CN 106649844 A CN106649844 A CN 106649844A CN 201611254128 A CN201611254128 A CN 201611254128A CN 106649844 A CN106649844 A CN 106649844A
Authority
CN
China
Prior art keywords
text
word
descriptor
threshold
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611254128.6A
Other languages
English (en)
Other versions
CN106649844B (zh
Inventor
刘东升
许翀寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201611254128.6A priority Critical patent/CN106649844B/zh
Publication of CN106649844A publication Critical patent/CN106649844A/zh
Application granted granted Critical
Publication of CN106649844B publication Critical patent/CN106649844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本发明提供了一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括文本分词,词频统计,输入文本主题提取以及过滤主题词,输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算得出在输入文本中主题词与主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值做对比,当稳定性不小于第二阈值时,能得到输入文本主题相关的左侧主题词的集合。有效将海量非结构化文本数据转换为结构或半结构化数据,从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。

Description

非结构化文本数据增强型分布式大规模数据维度抽取方法
技术领域
本发明涉及大数据维度抽取领域,特别涉及一种非结构化文本数据增强型分布式大规模数据维度抽取方法。
背景技术
随着信息的爆炸式增长,大数据时代下,数据在企业中正成为管理变革过程中提供重要决策依据的关键资产,数据在公共事业领域,也正越来越显示出其重要作用。传统观念下看似不相关的数据经,在大数据时代中,经过大规模的并行分布式计算处理,变得可以理解,从而能产生重大意义。但是,大数据由于数据体量大、速度快、种类多带来了大数的大量异构非结构化问题,使得许多传统数据分析和挖掘领域的优秀算法和工具,无法处理大数据,为这些数据发挥作用带来了很大困难。传统的数据仓库中,要进行数据挖掘,会面临数据维度高的问题,通常可以进行降维操作。因此数据集的维度,对于数据挖掘和分析有着十分重要的作用。
大数据中,海量非结构化文本数据,占据很大比例。通常的信息抽取能从这些非结构化的文本数据中,抽出结构化的信息,但主要针对的结构化信息为实体、事件及关系,无法用于构建维度,更无法形成高维数据集。而常规的数据挖掘算法在处理数据前的数据预处理阶段,为了进行数据转换,需要人工制定数据维度,难度系数高。
发明内容
为解决分析海量非结构化文本数据时难度大无法构建维度等技术问题,本发明提出一种非结构化文本数据增强型分布式大规模数据维度抽取方法来实现。
一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括以下步骤:
步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;
步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;
步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;
步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。
作为一种可实施方式,在步骤1中,最小语义单位之间的互信息值公式如下:
在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin
MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;
第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:
MIV(X,Y)≥THmiv (2)。
作为一种可实施方式,在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。
作为一种可实施方式,在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:
在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;
p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:
第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定性ESleft不小于该值时sil与描述输入文本的主题相关,得到输入文本主题相关的左侧主题词sil的集合,关系如下:
表示输入文本主题相关的左侧主题词sil的集合,计算输入文本中主题词si与主题词si所有右侧词sir共同出现时的稳定性:
输入文本中主题词si所在位置p(sir|si)是利用极大似然估计得到:
p(sir|si)表示主题词si所在位置其右侧词Sir出现的条件概率;
第二阈值用THes表示,当输入文本中主题词si与其所有右侧词sir共同出现时的稳定性ESleft不小于该值时sir与描述输入文本的主题相关,得到输入文本主题相关的右侧主题词sir的集合,关系如下:
由公式(3)~(8)可得输入文本主题相关的主题词集合:
作为一种可实施方式,在步骤4中,根据词频统计的结果对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,词频统计的结果用TWF表示,输入文本主题提取的主题词集合用表示,Tcandi为候选维度词集合,则有以下关系:
根据公式(10),得到Tcandi中所有词在输入文本中的平均词频,平均词频用表示;
计算度量函数:
公式(11)中的DISm,w表示平均词频的欧式距离DISm,w,候选维度词集合Tcandi可以表示为Tcandi={t1,t2,…,ti}以及度量函数,计算Tcandi的熵值,公式如下:
Im,w表示度量函数,ETcandi表示熵值,取这些熵值最前面几个词作为提取的维度词。
作为一种可实施方式,所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的,所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。
作为一种可实施方式,所述第一阈值表示输出的分词结果中成词的比例最大化。
作为一种可实施方式,所述第二阈值表示候选维度词在主题词集合中的占比最大化。
本发明相比于现有技术的有益效果在于:
本发明在数据特征抽取技术的基础上,提出了一种非结构化文本数据增强型分布式大规模数据维度抽取方法,该方法通过文本分词、词频统计、主题词提取和过滤等步骤,分析海量非结构化文本数据,提取数据特征,筛选出相应的数据维度,可通过维度的提取,有效将海量非结构化文本数据转换为结构或半结构化数据,从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。
附图说明
图1是本发明的流程图;
图2是本发明方法的计算环境整体架构图;
图3是本发明方法的底层分布式环境物理架构图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
请参阅以下实施例:
发明概述
一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括:
步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;
步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;
步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;
步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。
本发明在数据特征抽取技术的基础上,提出了一种非结构化文本数据增强型分布式大规模数据维度抽取方法,该方法通过文本分词、词频统计、主题词提取和过滤等步骤,分析海量非结构化文本数据,提取数据特征,筛选出相应的数据维度,可通过维度的提取,有效将海量非结构化文本数据转换为结构或半结构化数据,从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。
实施例1:
一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括:
步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;
步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;
步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;在此所讲到的第一阈值和所述第二阈值分别是训练架构通过数据训练得到的,所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络,并且所述第一阈值表示输出的分词结果中成词的比例最大化,所述第二阈值表示候选维度词在主题词集合中的占比最大化;
步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。
更具体地,在步骤1中,最小语义单位之间的互信息值公式如下:
在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin
MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;
第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:
MIV(X,Y)≥THmiv (2)。
在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。
在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:
在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;
p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:
第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定性ESleft不小于该值时sil与描述输入文本的主题相关,得到输入文本主题相关的左侧主题词sil的集合,关系如下:
表示输入文本主题相关的左侧主题词sil的集合,计算输入文本中主题词si与主题词si所有右侧词sir共同出现时的稳定性:
输入文本中主题词si所在位置p(sir|si)是利用极大似然估计得到:
p(sir|si)表示主题词si所在位置其右侧词Sir出现的条件概率;
第二阈值用THes表示,当输入文本中主题词si与其所有右侧词sir共同出现时的稳定性ESleft不小于该值时sir与描述输入文本的主题相关,得到输入文本主题相关的右侧主题词sir的集合,关系如下:
由公式(3)~(8)可得输入文本主题相关的主题词集合:
在步骤4中,根据词频统计的结果对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,词频统计的结果用TWF表示,输入文本主题提取的主题词集合用表示,Tcandi为候选维度词集合,则有以下关系:
根据公式(10),得到Tcandi中所有词在输入文本中的平均词频,平均词频用表示;
计算度量函数:
公式(11)中的DISm,w表示平均词频的欧式距离DISm,w,候选维度词集合Tcandi可以表示为Tcandi={t1,t2,…,ti}以及度量函数,计算Tcandi的熵值,公式如下:
Im,w表示度量函数,ETcandi表示熵值,取这些熵值最前面几个词作为提取的维度词。
本发明一种非结构化文本数据增强型分布式大规模数据维度抽取方法是基于计算环境整体架构实现的,计算环境整体架构如图2所示,在这个计算环境整体架构中包括了Redis缓存内存系统,在此用作数据库、缓存和消息中间件,可以支持多种类型的数据结构,用来做内存高速缓存;计算环境整体架构还包括了storm实时计算框架,用于实时流数据处理,举例来说,淘宝的商品推荐数据处理,直接挂在业务系统上进行的话,系统负载和开销极大,会拖跨业务系统,为了不影响白天用户的使用体验,不会直接在业务数据库上运行分析程序,而是会将白天的数据DUMP到数据仓库,在夜间对完整数据脱机进行处理;而实时流数据处理,可以让系统保持运行的同时,用户边产生数据,storm实时计算框架边分析,这就有一个数据流的概念而不是完整的数据库,而且性能上不会对业务系统产生多少影响。
计算环境整体架构还包括了分布式物理环境层,分布式物理环境层由弹性Map-Reduce服务前端、Master集群、Task集群、数据存储集群和外部数据源通过高速计算机网络互连构成,用户通过服务器或者主机发出指令和数据,弹性Map-Reduce服务前端根据数据来源是外部数据还是内部的存储来取用数据,并根据用户指令将任务分解,分别发送到Task集群上进行运算,运算结果由弹性Map-Reduce服务前端汇总,最终反馈给用户。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:包括以下步骤:
步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;
步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;
步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;
步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。
2.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤1中,最小语义单位之间的互信息值公式如下:
M I V ( X , Y ) = log 2 p ( X , Y ) p ( X ) p ( Y ) - - - ( 1 )
在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin
MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;
第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:
MIV(X,Y)≥THmiv (2)。
3.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。
4.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:
ES l e f t = - Σ l ∈ S L p ( s i l | s i ) log 2 p ( s i l | s ) - - - ( 3 )
在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;
p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:
p ( s i l | s i ) = N ( s i l ) N ( s i ) - - - ( 4 )
第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定性ESleft不小于该值时sil与描述输入文本的主题相关,得到输入文本主题相关的左侧主题词sil的集合,关系如下:
T l t h e m e i n p u t = { s i l | ES l e f t ≥ TH e s } - - - ( 5 )
表示输入文本主题相关的左侧主题词sil的集合,计算输入文本中主题词si与主题词si所有右侧词sir共同出现时的稳定性:
ES r i g h t = - Σ r ∈ S R p ( s i r | s i ) log 2 p ( s i r | s ) - - - ( 6 )
输入文本中主题词si所在位置p(sir|si)是利用极大似然估计得到:
p ( s i r | s i ) = N ( s i r ) N ( s i ) - - - ( 7 )
p(sir|si)表示主题词si所在位置其右侧词Sir出现的条件概率;
第二阈值用THes表示,当输入文本中主题词si与其所有右侧词sir共同出现时的稳定性ESleft不小于该值时sir与描述输入文本的主题相关,得到输入文本主题相关的右侧主题词sir的集合,关系如下:
T r t h e m e i n p u t = { s i r | ES r i g h t ≥ TH e s } - - - ( 8 )
由公式(3)~(8)可得输入文本主题相关的主题词集合:
T t h e m e i n p u t = { s i | s i ∈ T l t h e m e i n p u t ∪ T r t h e m e i n p u t } - - - ( 9 ) .
5.根据权利要求4所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤4中,根据词频统计的结果对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,词频统计的结果用TWF表示,输入文本主题提取的主题词集合用表示,Tcandi为候选维度词集合,则有以下关系:
T c a d i = T W F ∩ T t h e m e i n p u t - - - ( 10 )
根据公式(10),得到Tcandi中所有词在输入文本中的平均词频,平均词频用表示;
计算度量函数:
I m , w = exp ( 1 2 ln DIS m , w DIS m , w ) - - - ( 11 )
公式(11)中的DISm,w表示平均词频的欧式距离DISm,w,候选维度词集合Tcandi可以表示为Tcandi={t1,t2,…,ti}以及度量函数,计算Tcandi的熵值,公式如下:
ET c a n d i = Σ n = 1 i I m , w log I m , w + ( 1 - I m , w ) l o g ( 1 - I m , w ) - - - ( 12 )
Im,w表示度量函数,ETcandi表示熵值,取这些熵值最前面几个词作为提取的维度词。
6.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的,所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。
7.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:所述第一阈值表示输出的分词结果中成词的比例最大化。
8.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:所述第二阈值表示候选维度词在主题词集合中的占比最大化。
CN201611254128.6A 2016-12-30 2016-12-30 非结构化文本数据增强型分布式大规模数据维度抽取方法 Active CN106649844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254128.6A CN106649844B (zh) 2016-12-30 2016-12-30 非结构化文本数据增强型分布式大规模数据维度抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254128.6A CN106649844B (zh) 2016-12-30 2016-12-30 非结构化文本数据增强型分布式大规模数据维度抽取方法

Publications (2)

Publication Number Publication Date
CN106649844A true CN106649844A (zh) 2017-05-10
CN106649844B CN106649844B (zh) 2019-10-18

Family

ID=58835519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254128.6A Active CN106649844B (zh) 2016-12-30 2016-12-30 非结构化文本数据增强型分布式大规模数据维度抽取方法

Country Status (1)

Country Link
CN (1) CN106649844B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170792A (zh) * 2017-12-27 2018-06-15 北京百度网讯科技有限公司 基于人工智能的问答引导方法、装置和计算机设备
CN108764314A (zh) * 2018-05-17 2018-11-06 北京邮电大学 一种结构化数据分类方法、装置、电子设备及存储介质
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BING LI 等: "Feature extraction for rolling element bearing fault diagnosis utilizing generalized S transform and two-dimensional non-negative matrix factorization", 《JOURNAL OF SOUND AND VIBRATION》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170792A (zh) * 2017-12-27 2018-06-15 北京百度网讯科技有限公司 基于人工智能的问答引导方法、装置和计算机设备
CN108170792B (zh) * 2017-12-27 2021-12-28 北京百度网讯科技有限公司 基于人工智能的问答引导方法、装置和计算机设备
CN108764314A (zh) * 2018-05-17 2018-11-06 北京邮电大学 一种结构化数据分类方法、装置、电子设备及存储介质
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110275966B (zh) * 2019-07-01 2021-10-01 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
US11507882B2 (en) 2019-09-12 2022-11-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for optimizing training set for text classification and storage medium

Also Published As

Publication number Publication date
CN106649844B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN111339427B (zh) 一种图书信息推荐方法、装置、系统及存储介质
CN106649844A (zh) 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
CN103886501B (zh) 一种基于语义情感分析的贷后风险预警系统
CN104679738A (zh) 互联网热词挖掘方法及装置
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN104504024A (zh) 基于微博内容的关键词挖掘方法及系统
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
Farseev et al. bbridge: A big data platform for social multimedia analytics
CN106202065A (zh) 一种跨语言话题检测方法及系统
CN112001184A (zh) 面向视频弹幕的用户情感差异区域检测方法和系统
CN109376231A (zh) 一种媒体热点跟踪方法及系统
CN108595421B (zh) 一种中文实体关联关系的抽取方法、装置及系统
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN107992549B (zh) 动态短文本流聚类检索方法
CN114595635A (zh) 火电机组主汽温度数据的特征选择方法、系统及设备
CN104199947A (zh) 一种对重点人员言论监督与关联关系挖掘的方法
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
CN106126495A (zh) 一种基于大规模语料提词方法和装置
CN108830735B (zh) 一种线上人际关系分析方法与系统
Corso et al. Big social data and GIS: visualize predictive crime
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN115587192A (zh) 关系信息抽取方法、设备及计算机可读存储介质
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant