CN106649844A

CN106649844A - 非结构化文本数据增强型分布式大规模数据维度抽取方法

Info

Publication number: CN106649844A
Application number: CN201611254128.6A
Authority: CN
Inventors: 刘东升; 许翀寰
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-05-10
Anticipated expiration: 2036-12-30
Also published as: CN106649844B

Abstract

本发明提供了一种非结构化文本数据增强型分布式大规模数据维度抽取方法，包括文本分词，词频统计，输入文本主题提取以及过滤主题词，输入文本主题提取：根据抽取所关注的目标领域，确定目标领域的主题词集合，通过计算得出在输入文本中主题词与主题词所有左侧词共同出现时的稳定性，通过训练设定第二阈值，将稳定性与第二阈值做对比，当稳定性不小于第二阈值时，能得到输入文本主题相关的左侧主题词的集合。有效将海量非结构化文本数据转换为结构或半结构化数据，从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。

Description

非结构化文本数据增强型分布式大规模数据维度抽取方法

技术领域

本发明涉及大数据维度抽取领域，特别涉及一种非结构化文本数据增强型分布式大规模数据维度抽取方法。

背景技术

随着信息的爆炸式增长，大数据时代下，数据在企业中正成为管理变革过程中提供重要决策依据的关键资产，数据在公共事业领域，也正越来越显示出其重要作用。传统观念下看似不相关的数据经，在大数据时代中，经过大规模的并行分布式计算处理，变得可以理解，从而能产生重大意义。但是，大数据由于数据体量大、速度快、种类多带来了大数的大量异构非结构化问题，使得许多传统数据分析和挖掘领域的优秀算法和工具，无法处理大数据，为这些数据发挥作用带来了很大困难。传统的数据仓库中，要进行数据挖掘，会面临数据维度高的问题，通常可以进行降维操作。因此数据集的维度，对于数据挖掘和分析有着十分重要的作用。

大数据中，海量非结构化文本数据，占据很大比例。通常的信息抽取能从这些非结构化的文本数据中，抽出结构化的信息，但主要针对的结构化信息为实体、事件及关系，无法用于构建维度，更无法形成高维数据集。而常规的数据挖掘算法在处理数据前的数据预处理阶段，为了进行数据转换，需要人工制定数据维度，难度系数高。

发明内容

为解决分析海量非结构化文本数据时难度大无法构建维度等技术问题，本发明提出一种非结构化文本数据增强型分布式大规模数据维度抽取方法来实现。

一种非结构化文本数据增强型分布式大规模数据维度抽取方法，包括以下步骤：

步骤1：文本分词：对输入文本进行分词，找出最小语义单位之间的互信息值，通过训练设定第一阈值，第一阈值与最小语义单位之间的互所述信息值进行比较，当互信息值大于等于第一阈值时，取得分词结果；

步骤2：词频统计：根据分词结果，对输入文本进行词频统计，并且建立相应的词频关系表；

步骤3：输入文本主题提取：根据抽取所关注的目标领域，确定目标领域的主题词集合，通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性，通过训练设定第二阈值，将稳定性与第二阈值进行对比，当稳定性不小于第二阈值时，取得输入文本主题相关的左侧主题词的集合；通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性，将稳定性与第二阈值进行对比，当稳定性不小于第二阈值时，取得输入文本主题相关的右侧主题词的集合；所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合；

步骤4：过滤主题词：根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤，筛选出候选维度词，计算候选维度词的熵值，取这些值中最前面几个词为提取的维度词。

作为一种可实施方式，在步骤1中，最小语义单位之间的互信息值公式如下：

在公式(1)中，X、Y分别表示出现的最小语义单位，用C_min表示最小语义单位集合，则X、Y和C_min满足X,Y∈C_min；

MIV(X,Y)表示最小语义单位中X，Y之间的互信息值；p(X)，p(Y)表示X和Y在输入文本中分别出现的概率，p(X,Y)表示X和Y在输入文本中共同出现的概率；

第一阈值用TH_miv表示，第一阈值TH_miv与最小语义单位中X，Y之间的互信息值满足以下关系时取得分词结果，关系如下：

MIV(X,Y)≥TH_miv (2)。

作为一种可实施方式，在步骤2中：词频关系表用T_WF＝[{ω₁:f₁},{ω₂:f₂},…]表示，其中ω₁…ω_i表示输入文本经过分词得到的词汇，f₁…f_i表示ω₁…ω_i这些词汇在输入文本中出现的对应次数。

作为一种可实施方式，在步骤3中，主题词集合用S_theme＝{s₁,s₂,…,s_i}表示，计算出在输入文本中主题词s_i与主题词s_i所有左侧词s_il共同出现时的稳定性：

在公式(3)中：S_L表示主题词s_i左侧的所有词集合；p(s_il|s_i)表示主题词s_i所在的位置其左侧词S_il出现的条件概率；

p(s_il|s_i)表示主题词s_i所在的位置其左侧词S_il出现的条件概率是利用极大似然估计得到，公式如下：

第二阈值用TH_es表示，当输入文本中主题词s_i与其所有左侧词s_il共同出现时的稳定性ES_left不小于该值时s_il与描述输入文本的主题相关，得到输入文本主题相关的左侧主题词s_il的集合，关系如下：

表示输入文本主题相关的左侧主题词s_il的集合，计算输入文本中主题词s_i与主题词s_i所有右侧词s_ir共同出现时的稳定性：

输入文本中主题词s_i所在位置p(s_ir|s_i)是利用极大似然估计得到：

p(s_ir|s_i)表示主题词s_i所在位置其右侧词S_ir出现的条件概率；

第二阈值用TH_es表示，当输入文本中主题词s_i与其所有右侧词s_ir共同出现时的稳定性ES_left不小于该值时s_ir与描述输入文本的主题相关，得到输入文本主题相关的右侧主题词s_ir的集合，关系如下：

由公式(3)～(8)可得输入文本主题相关的主题词集合：

作为一种可实施方式，在步骤4中，根据词频统计的结果对输入文本主题提取的主题词集合进行过滤，筛选出候选维度词，词频统计的结果用T_WF表示，输入文本主题提取的主题词集合用表示，T_candi为候选维度词集合，则有以下关系：

根据公式(10)，得到T_candi中所有词在输入文本中的平均词频，平均词频用表示；

计算度量函数：

公式(11)中的DIS_m,w表示平均词频的欧式距离DIS_m,w，候选维度词集合T_candi可以表示为T_candi＝{t₁,t₂,…,t_i}以及度量函数，计算T_candi的熵值，公式如下：

I_m,w表示度量函数，ET_candi表示熵值，取这些熵值最前面几个词作为提取的维度词。

作为一种可实施方式，所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的，所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。

作为一种可实施方式，所述第一阈值表示输出的分词结果中成词的比例最大化。

作为一种可实施方式，所述第二阈值表示候选维度词在主题词集合中的占比最大化。

本发明相比于现有技术的有益效果在于：

本发明在数据特征抽取技术的基础上，提出了一种非结构化文本数据增强型分布式大规模数据维度抽取方法，该方法通过文本分词、词频统计、主题词提取和过滤等步骤，分析海量非结构化文本数据，提取数据特征，筛选出相应的数据维度，可通过维度的提取，有效将海量非结构化文本数据转换为结构或半结构化数据，从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。

附图说明

图1是本发明的流程图；

图2是本发明方法的计算环境整体架构图；

图3是本发明方法的底层分布式环境物理架构图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

请参阅以下实施例：

发明概述

一种非结构化文本数据增强型分布式大规模数据维度抽取方法，包括：

实施例1：

步骤3：输入文本主题提取：根据抽取所关注的目标领域，确定目标领域的主题词集合，通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性，通过训练设定第二阈值，将稳定性与第二阈值进行对比，当稳定性不小于第二阈值时，取得输入文本主题相关的左侧主题词的集合；通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性，将稳定性与第二阈值进行对比，当稳定性不小于第二阈值时，取得输入文本主题相关的右侧主题词的集合；所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合；在此所讲到的第一阈值和所述第二阈值分别是训练架构通过数据训练得到的，所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络，并且所述第一阈值表示输出的分词结果中成词的比例最大化，所述第二阈值表示候选维度词在主题词集合中的占比最大化；

更具体地，在步骤1中，最小语义单位之间的互信息值公式如下：

MIV(X,Y)≥TH_miv (2)。

在步骤2中：词频关系表用T_WF＝[{ω₁:f₁},{ω₂:f₂},…]表示，其中ω₁…ω_i表示输入文本经过分词得到的词汇，f₁…f_i表示ω₁…ω_i这些词汇在输入文本中出现的对应次数。

在步骤3中，主题词集合用S_theme＝{s₁,s₂,…,s_i}表示，计算出在输入文本中主题词s_i与主题词s_i所有左侧词s_il共同出现时的稳定性：

由公式(3)～(8)可得输入文本主题相关的主题词集合：

在步骤4中，根据词频统计的结果对输入文本主题提取的主题词集合进行过滤，筛选出候选维度词，词频统计的结果用T_WF表示，输入文本主题提取的主题词集合用表示，T_candi为候选维度词集合，则有以下关系：

计算度量函数：

本发明一种非结构化文本数据增强型分布式大规模数据维度抽取方法是基于计算环境整体架构实现的，计算环境整体架构如图2所示，在这个计算环境整体架构中包括了Redis缓存内存系统，在此用作数据库、缓存和消息中间件，可以支持多种类型的数据结构，用来做内存高速缓存；计算环境整体架构还包括了storm实时计算框架，用于实时流数据处理，举例来说，淘宝的商品推荐数据处理，直接挂在业务系统上进行的话，系统负载和开销极大，会拖跨业务系统，为了不影响白天用户的使用体验，不会直接在业务数据库上运行分析程序，而是会将白天的数据DUMP到数据仓库，在夜间对完整数据脱机进行处理；而实时流数据处理，可以让系统保持运行的同时，用户边产生数据，storm实时计算框架边分析，这就有一个数据流的概念而不是完整的数据库，而且性能上不会对业务系统产生多少影响。

计算环境整体架构还包括了分布式物理环境层，分布式物理环境层由弹性Map-Reduce服务前端、Master集群、Task集群、数据存储集群和外部数据源通过高速计算机网络互连构成，用户通过服务器或者主机发出指令和数据，弹性Map-Reduce服务前端根据数据来源是外部数据还是内部的存储来取用数据，并根据用户指令将任务分解，分别发送到Task集群上进行运算，运算结果由弹性Map-Reduce服务前端汇总，最终反馈给用户。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤1中，最小语义单位之间的互信息值公式如下：

M I V (X, Y) = \log_{2} \frac{p (X, Y)}{p (X) p (Y)} - - - (1)

MIV(X,Y)≥TH_miv (2)。

3.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤2中：词频关系表用T_WF＝[{ω₁:f₁},{ω₂:f₂},…]表示，其中ω₁…ω_i表示输入文本经过分词得到的词汇，f₁…f_i表示ω₁…ω_i这些词汇在输入文本中出现的对应次数。

4.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤3中，主题词集合用S_theme＝{s₁,s₂,…,s_i}表示，计算出在输入文本中主题词s_i与主题词s_i所有左侧词s_il共同出现时的稳定性：

{ES}_{l e f t} = - Σ_{l &Element; S_{L}} p (s_{i l} | s_{i}) \log_{2} p (s_{i l} | s) - - - (3)

p (s_{i l} | s_{i}) = \frac{N (s_{i l})}{N (s_{i})} - - - (4)

T_{l t h e m e}^{i n p u t} = {s_{i l} | {ES}_{l e f t} &GreaterEqual; {TH}_{e s}} - - - (5)

{ES}_{r i g h t} = - Σ_{r &Element; S_{R}} p (s_{i r} | s_{i}) \log_{2} p (s_{i r} | s) - - - (6)

p (s_{i r} | s_{i}) = \frac{N (s_{i r})}{N (s_{i})} - - - (7)

T_{r t h e m e}^{i n p u t} = {s_{i r} | {ES}_{r i g h t} &GreaterEqual; {TH}_{e s}} - - - (8)

由公式(3)～(8)可得输入文本主题相关的主题词集合：

T_{t h e m e}^{i n p u t} = {s_{i} | s_{i} &Element; T_{l t h e m e}^{i n p u t} \cup T_{r t h e m e}^{i n p u t}} - - - (9) .

5.根据权利要求4所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤4中，根据词频统计的结果对输入文本主题提取的主题词集合进行过滤，筛选出候选维度词，词频统计的结果用T_WF表示，输入文本主题提取的主题词集合用表示，T_candi为候选维度词集合，则有以下关系：

T_{c a d i} = T_{W F} \cap T_{t h e m e}^{i n p u t} - - - (10)

计算度量函数：

I_{m, w} = \exp (\frac{1}{2} \ln \sqrt{{DIS}_{m, w}} {DIS}_{m, w}) - - - (11)

公式(11)中的DIS_m，w表示平均词频的欧式距离DIS_m,w，候选维度词集合T_candi可以表示为T_candi＝{t₁,t₂,…,t_i}以及度量函数，计算T_candi的熵值，公式如下：

{ET}_{c a n d i} = Σ_{n = 1}^{i} I_{m, w} \log I_{m, w} + (1 - I_{m, w}) l o g (1 - I_{m, w}) - - - (12)

6.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的，所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。

7.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：所述第一阈值表示输出的分词结果中成词的比例最大化。

8.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：所述第二阈值表示候选维度词在主题词集合中的占比最大化。