CN105022740A

CN105022740A - 非结构化数据的处理方法和装置

Info

Publication number: CN105022740A
Application number: CN201410165877.6A
Authority: CN
Inventors: 赵关荣; 刘政; 张天扬; 王雯; 程志刚; 马一人
Original assignee: Suzhou Yiweixun Information Technology Co Ltd
Current assignee: Suzhou Yiweixun Information Technology Co Ltd
Priority date: 2014-04-23
Filing date: 2014-04-23
Publication date: 2015-11-04

Abstract

本发明实施例提供一种非结构化数据的处理方法和装置。该非结构化数据的处理方法包括：根据预先配置的字典树，对待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号；采用向量空间模型VSM，进行向量化处理，获取向量化结果；采用主成分分析法PCA或奇异值分解算法SVD，进行降维处理，获取降维结果；采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果，有效的提高了非结构化数据的聚类处理的质量和效率。<pb pnum="1" />

Description

非结构化数据的处理方法和装置

技术领域

本发明实施例涉及计算机领域，尤其涉及一种非结构化数据的处理方法和装置。

背景技术

列车的客服系统在实际的运行过程中会产生大量的客运服务系统报表记录数据，这些数据中蕴含了丰富的与系统运行相关的信息，且这些数据一般都是非结构化的，即没有一定的格式，因此，主要采用非结构化数据聚类的方法对这些数据进行处理。

目前，该非结构化数据聚类的方法主要包括隐含语义分析(LatentSemantic Analysis，简称LSA)方法。该LSA方法主要分为三步：分词、向量化和聚类。具体的，先采用汉语词法分析系统(Institute of ComputingTechnology，Chinese Lexical Analysis System，简称ICTCLAS)对待聚类数据进行分词，获取分词结果；然后采用DF算法对该分词结果进行特征提取，获取特征词，再采用向量空间模型(Vector Space Model，简称VSM)对获取到的特征词进行向量化，得到一个矩阵Y来表示所有的特征词，并采用奇异值分解(Singular value decomposition，简称SVD)对该矩阵Y进行降维，获取降维后的数据矩阵W。最后，采用Kmeans算法对数据矩阵W进行聚类，得到最终的数据聚类结果。需要说明的是，对分词结果进行特征提取的原理是：如果一个词的出现频率很高或者很低，那么这个词的信息含量很少，大部分数据都含有这个词或者都不含这个词，那么该词对分辨这些数据是毫无意义的，可以不提取该词。

但是，现有的LSA方法在处理客运服务系统报表记录数据时会存在如下缺陷：一是由于客运服务系统报表记录数据的专业化程度很高，即含有丰富的专业词汇，因此在分词过程中容易将这些数据中的专业词汇删除；二是由于客运服务系统报表记录数据并不是一个完整的语句，有可能仅仅是一些短语，甚至不一定符合语法规范，因此，采用ICTCLAS对其进行分词很难得到合适的分词结果，从而造成了在采用LSA方法在处理客运服务系统报表记录数据时获取的聚类结果质量较低的问题。

发明内容

本发明实施例提供一种非结构化数据的处理方法和装置，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了对非结构化数据的聚类处理的质量和效率。

本发明实施例第一方面提供一种非结构化数据的处理方法，包括：

根据预先配置的字典树，对获取的待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，其中，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号；

采用向量空间模型VSM，对所述分词结果进行向量化处理，获取向量化结果；

采用主成分分析法PCA或奇异值分解算法SVD，对所述向量化结果进行降维处理，获取降维结果；

采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果。

本发明第二方面提供一种非结构化数据的处理装置，包括：

分词模块，用于根据预先配置的字典树，对获取的待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，其中，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号；

向量化模块，用于采用向量空间模型VSM，对所述分词结果进行向量化处理，获取向量化结果；

降维模块，用于采用主成分分析法PCA或奇异值分解算法SVD，对所述向量化结果进行降维处理，获取降维结果；

聚类模块，用于采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果。

本发明提供的非结构化数据的处理方法和装置，根据知识数据库构建的字典树对待处理的数据进行分词处理获得分词结果，并对该分词结果进行向量化，进一步进行降维处理获得降维结果，再对该降维结果进行连续两次的聚类计算，获取聚类结果，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了数据进行聚类处理的质量和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明非结构化数据的处理方法实施例一的流程图；

图2为本发明非结构化数据的处理方法实施例二的流程图；

图3为本发明非结构化数据的处理方法实施例三的流程图；

图4为本发明非结构化数据的处理方法实施例七字典树示意图；

图5为现有基于Web数据的文本聚类的方法的聚类结果样本点二维投影图；

图6为本发明非结构化数据的处理方法的聚类结果样本点二维投影图；

图7为本发明非结构化数据的处理装置实施例一的结构示意图；

图8为本发明非结构化数据的处理装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明非结构化数据的处理方法实施例一的流程图。如图1所示，本实施例提供的非结构化数据的处理方法包括：

S101：根据预先配置的字典树，对获取的待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，其中，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号。

在本实施例中，待处理的数据为非结构化的数据，预先配置相应数据的的字典树，以对待处理数据进行关键词的获取，即分词处理，将待处理的数据中的文本信息，汉子，或者符号等转化为数学模型。

S102：采用向量空间模型(Vector Space Model，简称VSM)，对所述分词结果进行向量化处理，获取向量化结果。

在本实施例中，VSM是指：把对待处理的数据(例如：文本内容)的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度。其中最常用的是将该向量化结果用于获取余弦相似度或者欧氏距离。

S103：采用主成分分析法(Principal Component Analysis，简称PCA)或奇异值分解算法(Singular Value Decomposition，简称SVD)，对所述向量化结果进行降维处理，获取降维结果。

在本实施例中，PCA是一种数学变换的方法，它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列，用以解释资料的综合性指标。

SVD是线性代数中一种重要的矩阵分解，在信号处理、统计学等领域有重要应用。SVD在某些方面与对称矩阵或Hermite矩阵基于特征向量的对角化类似，SVD是谱分析理论在任意矩阵上的推广。

S104：采用K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果。

在本实施例中，欧氏距离还可以称为欧几里得度量(euclidean metric)，是一个通常采用的距离定义，指在多维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离的就是两点之间的实际距离。

根据对降维结果的进一步处理，将所述待处理的数据最终根据欧氏距离或余弦相似度全部进行归类，获取归类结果。

本实施例提供的非结构化数据的处理方法，根据知识数据库构建的字典树对待处理的数据进行分词处理获得分词结果，并对该分词结果进行向量化，进一步进行降维处理获得降维结果，再对该降维结果进行连续两次的聚类计算，获取聚类结果，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了数据进行聚类处理的质量和效率。

图2为本发明非结构化数据的处理方法实施例二的流程图。在上述实施例的基础上，如图2所示，在S101之前，该方法还包括如下步骤：

S201：构建所述字典树的根节点root＝(a,flag,next)。

在本实施例中，首先，定义三元组g＝(a,flag,next)表示所述字典树的节点，其中，a代表所述节点g的字符，flag表示所述节点g的编号，next表示所述节点g的子节点集合；在三元组g上定义函数A(g)表示所述节点g表示的字符a，FLAG(g)表示所述节点g的编号flag，NEXT(g)表示所述节点g的子节点集合next。其中，根节点root＝(a,flag,next)中的，a表示所述根节点代表的字符，flag表示所述根节点对应的编号，且flag＝-1；next表示所述根节点的子节点的集合，且所述next为空集。

其次，根据所述知识数据库，提炼数据中出现的专业词汇及其各种简称，并将同义词赋予相同的编号id；

再次，构建字典树的根节点root，令所述root＝(a,flag,next)，其中a为任意属于所述知识数据库的字符，flag＝-1，

S202：对于与所述知识数据库中每个二元组r＝(id,t)，获取二元组中的字符a_len；并判断节点p的子节点集合NEXT(p)中会否存在节点p+1满足A(p+1)＝a_len。

在本实施例中，首先构建所述知识数据库为U＝{(id,t)}；其中，U表示知识数据库，t表示所述文本信息，该文本信息可以是一个字，也可以是一个词语，也可以是一个短语，或者一句话；id表示所述文本信息对应的编号，且1≤id≤maxid，所述知识数据库中所有二元组的编号是从1到maxid连续选取的，所述maxid为所述知识数据库U中的二元组的最大编号；所述二元组表示为r＝(id,t)；所述a为二元组；a_len表示所述二元组中文本信息中的字符；len表示a_len在所述二元组中的位置；len为正整数，且大于或等于1，小于或等于所述二元组中的字符总数；初始时，len等于1，且节点p为所述根节点对应的字树中的第1节点。

其次，判断所述知识数据库U中的二元组是否被处理过；若所有二元组都已处理，则结束计算；若存在二元组还未被处理，则该二元组的文本信息可以表示为a₁a₂...a_n，用len表示当前处理的字符在文本信息中的下标，令初始时len＝1，p＝root，其中，所述p表示当前处理的节点，在初始时从根节点开始，进行S203。

S203：若所述节点p的所述子节点集合NEXT(p)中存在节点p+1满足A(p+1)＝a_len，将len和p分别加1，重复执行该步骤，直至len等于所述二元组中的字符总数。其中，节点p+1为节点p的子节点。

在本实施例中，若所述节点p的子节点集合NEXT(p)中存在节点p+1满足A(p+1)＝a_len，则将len加1，移位处理下一个字符，并将节点p+1作为当前处理节点p，继续处理下一个字符，直至处理完所有的二元组(即文本信息)则结束计算，或者当前节点p的所述子节点集合NEXT(p)中不存在节点p+1满足A(p+1)＝a_len则进行S204。

S204：若所述节点p的所述子节点集合NEXT(p)中不存在节点p+1满足A(p+1)＝a_len，则在所述节点p下增加一个子节点q，并使得且NEXT(p)＝NEXT(p)Yq。

在本实施例中，若所述节点p的所述子节点集合NEXT(p)中不存在节点p+1满足A(p+1)＝a_len，则在所述节点p下增加一个子节点q，并使得且将当前处理节点移至新建的节点q，可以表示为p＝q，其中，新建的节点q初始时并没有子节点，故表示空集

重复S202-S204，直至只是数据库中所有的二元组全部被处理完成，获取最终的根节点root＝(a,flag,next)，此时，根节点的子节点的集合next中包括字典树根节点下一层的所有节点，可以用该根节点表示该字典树。

本实施例提供的非结构化数据的处理方法，对知识数据库中所有的二元组进行处理，构建的字典树，进一步根据该字典树对待处理的数据进行分词处理获得分词结果，并对该分词结果进行向量化，进一步进行降维处理获得降维结果，再对该降维结果进行连续两次的聚类计算，获取聚类结果，通过对知识数据库的专业词汇的处理，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了数据进行聚类处理的质量和效率。

图3为本发明非结构化数据的处理方法实施例三的流程图，在上述两个实施例的基础上，如图3所示，根据知识数据库构建好字典树之后，S101中对待处理的数据进行分词处理，具体的步骤如下：

S301：对于待处理的数据中的每一条信息，根据预先配置的字典树，判断节点p的子节点集合NEXT(p)中是否存在节点q中的字符A(q)等于所述信息中的字符a_n；初始时，n等于1。

在本实施例中，首先，令D_f表示所述待处理的数据中的第f条信息，D_f表示为a₁a₂La_n的形式，其中，a_j∈ψ,1≤j≤n，L＝{(id,num)}表示对D_f的分词结果，其中id代表文本信息的编号，num代表编号为id的文本信息出现的次数。

对于待处理的每一条信息D_f，从第一个字符，即n等于1时，从所述字典树的根节点开始判断p的子节点集合NEXT(p)中是否存在节点q中的字符A(q)等于所述信息中的字符a_n。

S302：若存在节点q中的字符A(q)等于待处理的数据中的所述信息的字符a_n，则记录所述待处理数据的所述信息的匹配长度为s；判断节点q的子节点集合NEXT(q)中是否存在节点q+1中的字符A(q+1)等于待处理的数据中的所述信息的字符a_n+1，若存在节点q+1中的字符A(q+1)等于待处理的数据中的所述信息的字符a_n+1，则将s，n和q分别加1，重复执行该步骤，直至节点q的子节点集合中不存在节点中的字符等于待处理的数据中的所述信息的字符a_l，获取分词结果，所述分词结果包括字符a_n至a_l，且所述分词结果的长度等于当前记录的所述待处理数据的所述信息的匹配长度s；

在本实施例中，当n等于1时，s的初始值等于0，具体的执行过程如下：

步骤3-1、若存在节点q中的字符A(q)等于待处理的数据中的字符a_n，则记录所述待处理数据的匹配长度为s，即在q的子节点中存在一个节点q的字符与a_n(n等于1)相同，则将匹配长度为s加1(此时s为1)，并当前处理节点移至节点q，继续进行判断；若不存在则进行步骤3-3。

步骤3-2、判断节点q的子节点集合NEXT(q)中是否存在节点q+1中的字符A(q+1)等于待处理的数据中的字符a_n+1。即在步骤3-1的基础上进一步判断节点q的子节点集合中是否存在A(q+1)等于待处理的数据中的所述信息的字符a_n+1(即a₂)，若存在，则将匹配长度为s继续加1(此时的s为2)；若不存在则进行步骤3-3。其中，节点q+1为节点q的子节点。

步骤3-3、若不存在节点q中的字符A(q)等于待处理的数据中的字符a_n，则将该字符a_n排除，继续依照步骤3-1和3-1处理a_n+1。

重复上述步骤直到处理完所述信息的所有字符即n大于等于所述信息的总长度。

具体的，还可以通过如下过程执行分词处理：

步骤4-1、令L＝{(id,0),1≤id≤maxid}，用len表示当前处理字符在D_f中的下标，令len＝1，用h表示从下标len开始能匹配到的词的最大长度，令h＝-1，用v表示从下标len开始能匹配到的词的编号，令v＝-1，用s表示当前匹配的长度，令s＝0，用p表示当前处理的节点，令p＝root作为根节点开始处理。

步骤4-2、若所述len大于所述D_f的长度n，则结束计算。

若len+s小于或等于n，且当前处理的所述节点p的子节点集合NEXT(p)中存在节点q满足节点q代表的字符A(q)等于a_len+s，则令s＝s+1，p＝q。

若len+s小于或等于n，且当前处理的节点p的子节点集合NEXT(p)中不存在节点q满足节点q代表的字符A(q)等于a_len+s或者len+s大于n，则进行步骤4-4。

步骤4-3、若所述节点p的编号FLAG(p)不等于-1，则令从下标len开始能匹配到的词的最大长度h＝s，令从下标len开始能匹配到的词的编号v＝FLAG(p)，返回所述步骤(4-2)。

步骤4-4、若从所述h不等于-1，则将分词结果L中编号为v的词的出现次数增加1，令len＝len+s；若所述h等于-1，则令len＝len+1。

步骤4-5、令h＝-1，v＝-1，s＝0，p＝root，返回所述步骤4-2。

S303：分别获取所述分词结果在所述待处理的数据中每一条信息中出现的次数。

在本实施例中，通过步骤3-1至3-3或者4-1至4-5的方式处理所述待处理的数据中的所有的信息，获取每条的信息的分词结果L_f＝{(f,num)}，f代表文本信息的编号，num代表编号为f的文本信息出现的次数。

本实施例提供的非结构化数据的处理方法，对知识数据库中所有的二元组进行处理，构建的字典树，对对待处理的数据的每条信息进行分词处理，将其中在只是数据库中存在的文本信息提取出来，放弃无关的字符，获得分词结果，并对该分词结果进行向量化，进一步进行降维处理获得降维结果，再对该降维结果进行连续两次的聚类计算，获取聚类结果，通过对知识数据库的专业词汇的处理，有效的剔除了无关词汇，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了数据进行聚类处理的质量和效率。

在本发明非结构化数据的处理方法实施例四中，在上述实施例的基础上，S102中，采用VSM模型，对所述分词结果进行向量化处理，获取向量化结果，具体的实现方式为：

采用公式获取所述待处理的数据中每条信息D_f中的分词结果L_f＝{(f,num)}对应的向量化结果y_f，并获取所述待处理的数据中的每条信息D_f对应的向量化结果

其中，所述y_f,id的表示编号为id的文本信息(即经过分词处理获得的分词结果)L_f在所述信息D_f中的权重，所述表示编号为id的词在所述信息D_f中出现的次数，所述m_id表示编号为id的词在所述待处理的数据中出现的总数量，所述m表示所述待处理数据的信息的总数量，f表示所述信息在所述待处理的数据中的位置标识，且1≤f≤m。

其中，

m_{id} = Σ_{i = 1}^{m} I_{f} (id),

其中，

I_{f} (id) = \{\begin{matrix} 0 & {TF}_{id, D_{f}} = 0 \\ 1 & {TF}_{id, D_{f} > 0} \end{matrix}

I_f(id)为1表示某字符出现，所述I_f(id)为0表示某字符没有出现。

本实施例提供的非结构化数据的处理方法，对知识数据库中所有的二元组进行处理，构建的字典树，对对待处理的数据的每条信息进行分词处理，将其中在只是数据库中存在的文本信息提取出来，放弃无关的字符，获得分词结果，并通过本实施例的方式对该分词结果进行向量化，进一步进行降维处理获得降维结果，再对该降维结果进行连续两次的聚类计算，获取聚类结果，通过对知识数据库的专业词汇的处理，有效的剔除了无关词汇，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了数据进行聚类处理的质量和效率。

在本发明非结构化数据的处理方法实施例五中，在上述实施例的基础上，S103的具体的实现方式可以为：

步骤5-1、根据所述待处理器中的每条信息D_f对应的向量化结果获取待处理的数据对应的数据矩阵

步骤5-2、根据所述以及所述PCA，获取正交矩阵Z和对角矩阵Λ，以使得所述正交矩阵Z和对角矩阵Λ满足

步骤5-3、根据向量和所述获取均一化矩阵

步骤5-4、根据矩阵和所述采用公式获取所述降维结果W；其中，

其中，所述对角矩阵Λ的对角线元素依次为Λ₁₁,Λ₂₂,L,Λ_maxid,maxid且满足Λ₁₁≥Λ₂₂≥L≥Λ_maxid,maxid，所述正交矩阵Z为维度为maxid的正交矩阵，其中所述为所述正交矩阵Z的前dim列，所述dim表示所述待处理的数据的降维后的维度，为dim维的列向量。

在本发明非结构化数据的处理方法实施例六中，在上述实施例的基础上，S104的具体的实现方式可以为：

步骤6-1、获取所述降维结果中的每个样本点与所有样本点中心的欧式距离；其中，初始样本点中心为表示数据集合O_e的第一样本点中心，且1≤e≤c；c表示将待处理的数据聚类的数据集合的总数。

步骤6-2、遍历计算降维结果中的每个样本点获取所述样本点与所述第e类的数据集合O_e的第一样本点中心的第一欧式距离Dis_f；获取所述第一欧式距离Dis_f中的最小值对应的样本点加入O_e；重复该步骤，直至将所述每个样本点全部归类，获取第一归类结果。

步骤6-3、根据所述第一归类结果和获取所述第一归类结果对应的第二样本点中心其中，所述|O_e|表示O_e中数据的数量。

步骤6-4、若所述第二样本点中心与所述第一样本点中心相同时，记录所述第二样本点中心并获取最终的聚类结果。

可选的，S104的具体的实现方式还可以为：

步骤7-1、获取所述降维结果中的每个样本点与所有样本点中心的余弦相似度；其中，初始样本点中心为表示数据集合O_e的第一样本点中心，且1≤e≤c；c表示将待处理的数据聚类的数据集合的总数。

步骤7-2、遍历计算降维结果中的每个样本点获取所述样本点与所述第e类的数据集合O_e的第一样本点中心的第一余弦相似度Sim_f；获取所述第一余弦相似度Sim_f中的最小值对应的样本点加入O_e；重复该步骤，直至将所述每个样本点全部归类，获取第二归类结果。

步骤7-3根据所述第二归类结果和获取所述第二归类结果对应的第二样本点中心其中，所述|O_e|表示O_e中数据的数量。

步骤7-4、若所述第二样本点中心与所述第一样本点中心相同时，记录所述第二样本点中心并获取最终的聚类结果。

本实施例提供的非结构化数据的处理方法，根据预先配置的知识数据构建字典树，然后根据该字典树对待处理的数据进行分词处理，然后根据VSM模型对待处理的数据的分词结果进行向量化处理，再对向量化结果进行降维，最后连续两次利用Kmeans算法计算欧氏距离和余弦相似度得到最终的聚类结果，将待处理的数据按照其特征聚集成为几类，为后续的其他研究提供基础。该方法通过引入知识数据库，避免现有分词方法将重要的专业词汇删除，而且使得向量化之后的结果更具有针对性，从而可以得到更合理的聚类结果，提高了数据聚类的质量，并且知识数据库的引入还降低了样本点的维度，有利于提高算法效率。另外，本发明提出的可利用PCA算法代替现有的SVD算法进行降维处理，大大提高了整个处理过程的效率。

基于上述各实施例，详细介绍本发明非结构类数据的处理方法的具体实施过程，在进行处理之前，在行业长期积累过程中，可构建相关行业的知识数据库，其中对于本行业的专业词汇以及各类简称都进行了归档，本发明提供的方法可在该知识数据库的基础上，对于记录的数据进行归类，为后续研究提供基础。

以下介绍本发明非结构类数据的处理方法在具体场景中的应用实施例七，本实施例通过实际的客运服务系统报表记录数据以及一些虚拟的客运服务系统报表记录数据说明本发明的非结构化数据的处理方法的优越性。结合附图对测试过程说明如下：

以表1给出的待处理的数据为例，基于知识数据库构建字典树，假设得到的客运服务系统报表记录的待处理数据如下表1所示：

表1客运服务系统报表记录的待处理的数据表

数据编号	客运服务系统报表记录数据
		1	闸机门翼损坏
2	找零模块卡钞
		3	找零箱损坏
4	闸机门打不开

基于上表，可以配置得到知识数据库如下表2所示：

表2知识数据库表

id	t
		1	闸机门翼
1	闸机门
		2	找零模块

2	找零箱
		3	卡钞

表2所示的知识数据库表表明：“闸机门翼”和“闸机门”代表着同样的含义，而“损坏”之类的非专业词汇，不在算法的考虑范围之内。

图4为本发明非结构化数据的处理方法实施例七字典树示意图。根据表2，得到的字典树如图4所示。针对实际的客运服务系统报表记录的待处理的数据，在技术人员的帮助下统计得到的知识数据库一共有99条文本信息，有52个不同的编号，即maxid＝52。而如果采用传统的基于Web数据的文本聚类算法，则会提取出403个关键词。

基于上述构建的字典树对客运服务系统报表记录数据进行分词处理和向量化处理，针对表1所示的客运服务系统报表记录的待处理的数据表记录的数据以及图2所示的字典树，得到分词结果如下表所示：

表3分词结果

数据编号	分词结果
		1	(1,0,0)
2	(0,1,1)
		3	(0,1,0)
4	(1,0,0)

于是根据上述实施例中的公式

y_{f, id} = {TF}_{id, D_{f}} \times \log \frac{m}{m_{id}}, {TF}_{id, D_{f}} = num,

(id,num)∈L_f，以及

m_{id} = Σ_{i = 1}^{m} I_{f} (id),

计算得到数据矩阵如下：

Y = [\begin{matrix} 0.30 & 0 & 0 & 0.30 \\ 0 & 0.30 & 0.30 & 0 \\ 0 & 0.60 & 0 & 0 \end{matrix}]

均一化之后可以得到：

\overset{&OverBar;}{Y} = [\begin{matrix} 0.15 & - 0.15 & - 0.15 & 0.15 \\ - 0.15 & 0.15 & 0.15 & - 0.15 \\ - 0.15 & 0.45 & - 0.15 & - 0.15 \end{matrix}]

对进行特征值分解，可以得到：

[\begin{matrix} - 0.4082 & - 0.5774 & 0.7071 \\ 0.4082 & 0.5774 & 0.7071 \\ 0.8165 & - 0.5774 & 0 \end{matrix}], Λ = [\begin{matrix} 0.36 & 0 & 0 \\ 0 & 0.09 & 0 \\ 0 & 0 & 0 \end{matrix}]

于是，将样本降低到二维，即dim＝2可以得到新的文本矩阵如下：

W = U_{2}^{T} \overset{&OverBar;}{Y} = [\begin{matrix} - 0.2449 & 0.4899 & 0 & - 0.2449 \\ - 0.0866 & - 0.0866 & 0.2598 & - 0.0866 \end{matrix}]

本实施例提出可以使用PCA来替代LSA方法中的SVD进行降维处理，从而提高算法效率。通过实验得出，使用PCA进行降维和使用SVD进行降维处理的时间对比表4所示：

表4PCA与SVD时间对比表

算法	SVD	PCA
			时间(毫秒)	24509	118

如表4可知，通过利用PCA来替代SVD，可以明显提高算法效率。

基于向量化并降维之后的客服系统核心设备的非结构化数据，利用连续两次Kmeans算法进行聚类：

针对表1所示的样例数据，根据欧氏距离公式

{Dis}_{f} (\overset{&RightArrow;}{w_{f}}, \overset{&RightArrow;}{u_{e}}) = {(\overset{&RightArrow;}{w_{f}} - \overset{&RightArrow;}{u_{e}})}^{T} (\overset{&RightArrow;}{w_{f}} - \overset{&RightArrow;}{u_{e}})

以及余弦相似度的公式

{Sim}_{f} (\overset{&RightArrow;}{w_{f}}, \overset{&RightArrow;}{u_{e}}) = \frac{\overset{&RightArrow;}{w_{f}} \cdot \overset{&RightArrow;}{u_{e}}}{| | \overset{&RightArrow;}{w_{f}} | | \cdot | | \overset{&RightArrow;}{u_{e}} | |},

可以求出任意样本点与第一样本点中心之间的欧式距离Dis_f以及余弦相似度Sim_f如下表所示：

表5样本点与样本点中心之间的欧氏距离以及相似度

文本信息编号	文本信息编号	欧式距离	余弦相似度
				1	2	0.5399	-0.8704
1	3	0.1800	-0.3334
				1	4	0	1
2	3	0.3600	-0.1741
				2	4	0.5473	-0.8735
3	4	0.1824	-0.3274

假定要将所有的样本点分为两类，即c＝2，则根据上述实施例的方法，通过欧氏距离可以得到的聚类结果为O₁＝{1,3,4},O₂＝{2}，通过预先相似度得到的聚类结果为O₁＝{1,4},O₂＝{2,3}。显然由于编号为1和4的客运服务系统报表记录数据均与闸机门相关，而编号2和3的客运服务系统报表记录数据均与找零相关，确认得到的结果是合理的。

图5现有基于Web数据的文本聚类的方法的聚类结果样本点二维投影图；图6为本发明非结构化数据的处理方法的聚类结果样本点二维投影图。针对实际的客运服务系统报表记录的待处理的数据，采用传统的基于Web数据的文本聚类的方法，得到的样本点在二维上的投影如图5所示，采用本发明所述的处理方法，得到的样本点在二维上的投影如图6所示。可以看到，传统的处理方法在二维上的投影是混杂在一起的，很难得到高质量的结果，而本发明提出的处理方法在二维上的投影是沿着几条直线分布的，可以得到合适的聚类结果。

针对实际的客服系统核心设备的非结构化数据，最终可以将所有的客运服务系统报表记录的待处理的数据聚类成为20个类别，代表了设备经常发生的20类主要故障，其中发生较频繁的几类故障分别于“制票机”、“卡票”和“卡钞”相关。经过专家的评判，认为本发明得到的聚类结果是合理的。根据上述实施例的实验结果，说明本发明提出的非结构化数据的处理方法在非结构类数据的聚类应用中的优越性，其次，通过知识数据库的构建，本发明忽略了大部分的非专业词汇，大大降低了分词的难度以及样本的维度，有利于提高算法结果的质量，最后，通过使用PCA替代SVD，可以大大提高降维时的算法效率。

图7为本发明非结构化数据的处理装置实施例一的结构示意图。如图7所示，该装置包括：分词模块71、向量化模块72、降维模块73和聚类模块74。分词模块71，用于根据预先配置的字典树，对获取的待处理的数据进行分词处理，获取分词结果；所述字典树是根据所述预先配置的知识数据库建立的，其中，所述知识数据库为二元组的集合，且所述二元组的集合包括文本信息和对应的编号；向量化模块72，用于采用向量空间模型VSM，对所述分词结果进行向量化处理，获取向量化结果；降维模块73，用于采用主成分分析法PCA或奇异值分解算法SVD，对所述向量化结果进行降维处理，获取降维结果；聚类模块74，用于采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度，对所述待处理数据进行聚类，获取聚类结果。

本实施例提供的非结构化数据的处理装置，分析模块根据知识数据库构建的字典树对待处理的数据进行分词处理获得分词结果，向量化模块对该分词结果进行向量化，进一步的，降维模块进行降维处理获得降维结果，聚类模块再对该降维结果进行连续两次的聚类计算，获取聚类结果，解决了现有技术中将出现次数很高和很低的词汇删除，造成不合适的分词结果，导致聚类结果的质量较低的问题，有效的提高了数据进行聚类处理的质量和效率。

图8为本发明非结构化数据的处理装置实施例二的结构示意图，如图8所示，在上述图7所示的实施例的基础上，所述装置还包括字典树构建模块75，用于：构建所述字典树的根节点root＝(a,flag,next)；其中，a表示所述根节点代表的字符，flag表示所述根节点对应的编号，且flag＝-1；next表示所述根节点的子节点的集合，且所述next为空集；

对于与所述知识数据库中每个二元组r＝(id,t)，获取二元组中的字符a_len；并判断节点p的子节点集合NEXT(p)中会否存在节点p+1满足A(p+1)＝a_len；其中，t表示所述文本信息；id表示所述文本信息对应的编号，且1≤id≤maxid；所述二元组表示为r＝(id,t)；所述a为二元组；a_len表示所述二元组中文本信息中的字符；len表示a_len在所述二元组中的位置；len为正整数，且大于或等于1，小于或等于所述二元组中的字符总数；初始时，len等于1，且节点p为所述根节点对应的字树中的第1节点；

若所述节点p的所述子节点集合NEXT(p)中存在节点p+1满足A(p+1)＝a_len，将len和p分别加1，重复执行该步骤，直至len等于所述二元组中的字符总数；其中，节点p+1为节点p的子节点。

进一步的，所述字典树构建模块75还用于：若所述节点p的所述子节点集合NEXT(p)中不存在节点p+1满足A(p+1)＝a_len，则在所述节点p下增加一个子节点q，并使得且NEXT(p)＝NEXT(p)Yq。

本实施例提供的非结构化数据的处理装置用于执行图2所示的方法，其原理及效果与图2所示实施例的原理和效果类似，在此不做赘述。

进一步的，在上述图7和图8所示的实施例的基础上，所述分词模块71具体用于：

对于待处理的数据中的每一条信息，根据预先配置的字典树，判断节点p的子节点集合NEXT(p)中是否存在节点q中的字符A(q)等于所述信息中的字符a_n；初始时，n等于1；

若存在节点q中的字符A(q)等于待处理的数据中的所述信息的字符an，则记录所述待处理数据的所述信息的匹配长度为s；判断节点q的子节点集合NEXT(q)中是否存在节点q+1中的字符A(q+1)等于待处理的数据中的所述信息的字符a_n+1，若存在节点q+1中的字符A(q+1)等于待处理的数据中的所述信息的字符a_n+1，则将s，n和q分别加1，重复执行该步骤，直至节点q的子节点集合中不存在节点中的字符等于待处理的数据中的所述信息的字符a_l，获取分词结果，所述分词结果包括字符a_n至a_l，且所述分词结果的长度等于当前记录的所述待处理数据的所述信息的匹配长度s；

分别获取所述分词结果在所述待处理的数据中每一条信息中出现的次数；

其中，当n等于1时，s的初始值等于0；节点q+1为节点q的子节点。

所述向量化模块72具体用于：

其中，所述y_f,id的表示编号为id的文本信息L_f在所述信息D_f中的权重，所述表示编号为id的词在所述信息D_f中出现的次数，所述m_id表示编号为id的词在所述待处理的数据中出现的总数量，所述m表示所述待处理数据的信息的总数量，f表示所述信息在所述待处理的数据中的位置标识，且1≤f≤m。

所述降维模块73具体用于：

根据所述待处理器中的每条信息D_f对应的向量化结果获取待处理的数据对应的数据矩阵

根据所述以及所述PCA，获取正交矩阵Z和对角矩阵Λ，以使得所述正交矩阵Z和对角矩阵Λ满足

根据向量和所述获取均一化矩阵

根据矩阵和所述采用公式获取所述降维结果W；其中，

所述聚类模块74具体用于：

获取所述降维结果中的每个样本点与所有样本点中心的欧式距离；其中，初始样本点中心为表示数据集合O_e的第一样本点中心，且1≤e≤c；c表示将待处理的数据聚类的数据集合的总数；

遍历计算降维结果中的每个样本点获取所述样本点与所述第e类的数据集合O_e的第一样本点中心的第一欧式距离Dis_f；获取所述第一欧式距离Dis_f中的最小值对应的样本点加入O_e；重复该步骤，直至将所述每个样本点全部归类，获取第一归类结果；

根据所述第一归类结果和获取所述第一归类结果对应的第二样本点中心其中，所述|O_e|表示O_e中数据的数量；

若所述第二样本点中心与所述第一样本点中心相同时，记录所述第二样本点中心并获取最终的聚类结果。

可选的，所述聚类模块74还可以具体用于：

获取所述降维结果中的每个样本点与所有样本点中心的余弦相似度；其中，初始样本点中心为表示数据集合O_e的第一样本点中心，且1≤e≤c；c表示将待处理的数据聚类的数据集合的总数；

遍历计算降维结果中的每个样本点获取所述样本点与所述第e类的数据集合O_e的第一样本点中心的第一余弦相似度Sim_f；获取所述第一余弦相似度Sim_f中的最小值对应的样本点加入O_e；重复该步骤，直至将所述每个样本点全部归类，获取第二归类结果；

根据所述第二归类结果和获取所述第二归类结果对应的第二样本点中心其中，所述|O_e|表示O_e中数据的数量；

若所述第二样本点中心与所述第一样本点中心相同时，记录所述第二样本点中心

本实施例提供的非结构化数据的处理装置用于执行图1-图6所示的方法，其原理及效果与方法实施例的原理和效果类似，在此不做赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种非结构化数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据预先配置的字典树之前，还包括：

构建所述字典树的根节点root＝(a,flag,next)；其中，a表示所述根节点代表的字符，flag表示所述根节点对应的编号，且flag＝-1；next表示所述根节点的子节点的集合，且所述next为空集；

3.根据权利要求2所述的方法，其特征在于，还包括：

若所述节点p的所述子节点集合NEXT(p)中不存在节点p+1满足A(p+1)＝a_len，则在所述节点p下增加一个子节点q，并使得且NEXT(p)＝NEXT(p)Yq。

4.根据权利要求3所述的方法，其特征在于，所述根据预先配置的字典树，对获取的待处理的数据进行分词处理，获取分词结果，包括：

若存在节点q中的字符A(q)等于待处理的数据中的所述信息的字符a_n，则记录所述待处理数据的所述信息的匹配长度为s；判断节点q的子节点集合NEXT(q)中是否存在节点q+1中的字符A(q+1)等于待处理的数据中的所述信息的字符a_n+1，若存在节点q+1中的字符A(q+1)等于待处理的数据中的所述信息的字符a_n+1，则将s，n和q分别加1，重复执行该步骤，直至节点q的子节点集合中不存在节点中的字符等于待处理的数据中的所述信息的字符a_l，获取分词结果，所述分词结果包括字符a_n至a_l，且所述分词结果的长度等于当前记录的所述待处理数据的所述信息的匹配长度s；

5.根据权利要求4所述的方法，其特征在于，所述采用VSM模型，对所述分词结果进行向量化处理，获取向量化结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用主成分分析法PCA或奇异值分解算法SVD，对所述向量化结果进行降维处理，获取降维结果，包括：

根据向量和所述获取均一化矩阵

根据矩阵和所述采用公式获取所述降维结果W；其中，

7.根据权利要求6所述的方法，其特征在于，所述采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度对所述待处理数据进行聚类，获取聚类结果，包括：

8.根据权利要求6所述的方法，其特征在于，所述采用数据挖掘算法K-means算法对所述降维结果进行连续两次聚类计算，并根据所述聚类计算获取的欧氏距离或余弦相似度对所述待处理数据进行聚类，获取聚类结果，包括：

9.一种非结构化数据的处理装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括字典树构建模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述字典树构建模块还用于：

12.根据权利要求11所述的装置，其特征在于，所述分词模块具体用于：

13.根据权利要求12所述的装置，其特征在于，所述向量化模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述降维模块具体用于：

根据所述待处理器中的每条信息Df对应的向量化结果获取待处理的数据对应的数据矩阵

根据向量和所述获取均一化矩阵

根据矩阵和所述采用公式获取所述降维结果W；其中，

15.根据权利要求14所述的装置，其特征在于，所述聚类模块具体用于：

16.根据权利要求14所述的方法，其特征在于，所述聚类模块具体用于：