CN103761337A

CN103761337A - 非结构化数据处理方法及系统

Info

Publication number: CN103761337A
Application number: CN201410054773.8A
Authority: CN
Inventors: 叶向维
Original assignee: SHANGHAI JINEN INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI JINEN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-02-18
Filing date: 2014-02-18
Publication date: 2014-04-30
Anticipated expiration: 2034-02-18
Also published as: CN103761337B

Abstract

本发明公开了一种非结构化数据处理方法及系统。该非结构化数据处理方法包括以下步骤：设置多个包括关键词的特征模板；分别使用各个特征模板扫描存储有多条非结构化数据的数据库，针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容，并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录；生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度。本发明的非结构化数据处理方法及系统，通过利用特征模板将非结构化数据处理成向量形式，使得后续的计算处理针对模板向量进行，降低了对于非结构化数据的数据分析所需要的计算资源和时间。

Description

非结构化数据处理方法及系统

技术领域

本发明涉及一种非结构化数据处理方法及系统。

背景技术

近十来年，电子商务和网络服务技术的快速发展，使得其中包含的信息数量迅速提高，越来越多地涉及到海量信息的处理，这对于信息处理而言可以说是一个新的挑战。在这些领域中的很多应用场合中不但具有大量的结构化数据，还产生了更大容量的非结构化数据。由于非结构化数据的处理相对而言会消耗更多的计算资源，在传统的数据分析系统中通常较为忽视非结构化数据的价值。

以在线视频网站为例，系统记录了用户的点击视频，视频类型、观看时段、观看方式等结构化数据，同时还记录有更多的用户评价、视频讨论、评级等非结构化数据。现有的数据挖掘工具难以完成对于非结构化数据中的特征的挖掘，而要综合其他技术手段来实现非结构化数据的挖掘不仅在技术上较为复杂，还需要耗费大量的计算时间和资源。此外，主要面向结构化数据的现有数据处理方法通常是是基于已有的系统特征进行数据分析，而在大量的实际需求中企业对于数据挖掘的需求会不断更新。根据更新的需求重新设置整个数据处理的方法难免消耗资源、推高成本，因此电子商务等领域的企业迫切需要一种能够以较灵活地适应于不断改变的数据挖掘的需求的数据处理方法。

发明内容

本发明要解决的技术问题是为了克服现有技术中对于非结构化数据的挖掘需要消耗大量的计算资源和时间，并且无法灵活适用于不断改变的需求，从而导致数据挖掘的效率较低成本过高的缺陷，提出一种非结构化数据处理方法及系统。

本发明是通过下述技术方案来解决上述技术问题的：

本发明提供了一种非结构化数据处理方法，其特点在于，包括以下步骤：

S₁、设置多个特征模板，每个特征模板包括关键词；

S₂、分别使用各个特征模板扫描存储有多条非结构化数据的一数据库，针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容，并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录；

S₃、生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度，该多个维度中，各条非结构化数据匹配的特征模板对应的维度的标量值为1、不匹配的特征模板对应的维度的标量值为0。

每个特征模板包括关键词，而特征模板也可以部分或全部采用仅包括关键词的特征模板。在步骤S₁中所设置的多个特征模板可以理解为是针对某种数据挖掘需求的，每个特征模板可以包括一个或数个关键词。并且，容易理解地，若针对的数据挖掘需求的范围非常广，则应当在步骤S₁中设置更大数量的特征模板。在步骤S₂中，对于每条非结构化数据，均需要判断其中是否记载有和特征模板一致的内容，从而确定和各条非结构化数据匹配的特征模板有哪些。本领域技术人员应当理解，该多条非结构化数据即本发明的非结构化数据处理方法所面对的处理对象，且在通常情况下该多条非结构化数据的数量应当是较为庞大的。

在步骤S₃中进一步地根据非结构化数据生成模板向量，实质上就建立了和非结构化数据一一对应的模板向量，模板向量的维度对应于各个特征模板。这也就意味着，当需要对该多条非结构化数据进行数据挖掘等分析时，只需要将数据挖掘中的需求以特征模板的形式表达，就能够基于对模板向量的处理完成数据分析。

更具体地，数据挖掘中通常是基于某一个特征进行挖掘，而在很多情况下需要对于在含义上相互有关联的多个特征进行挖掘。而在对于原始的非结构数据根据上述方法进行处理后，实质上就能够将数据挖掘中涉及的特征的关联性转换为特征模板的关联性并且充分地反映在模板向量中。模板向量具有明确的结构，用于挖掘、分类等数据分析过程中，毫无疑问地在计算时间和计算资源的消耗上都会显著优于直接对于无结构数据进行分析。本领域技术人应当理解，在上述方法的实际实施过程中，非结构化数据的数量、特征模板的数量越是庞大，越能够体现出在成本和效率上的优势。

较佳地，S₂还包括：记录各条非结构化数据中和各个特征模板一致的内容的出现次数；

S₃由S_3a替代，S_3a为：生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度，每个模板向量的多个维度的标量值分别为在对应的非结构化数据中和对应的该多个特征模板一致的内容的出现次数。

步骤S_3a生成的模板向量更适用于单条非结构化数据就较长、包含的内容较多的情况。在这种情况下，步骤S_3a生成的模板向量能够针对各个特征模板的匹配情况统计出现次数作为模板向量中相应维度的标量值。

较佳地，该多个特征模板中至少部分为包括关键词和逻辑运算符的检索式。

也就是说，该多个特征模板中可以有一部分特征模板，其为包括关键词和逻辑运算符的检索式。对于这一类特征模板，判断各条非结构化数据中是否记载有和特征模板一致的内容，即判断各条非结构化数据中是否记载有部分内容，其能够符合对应的检索式，其中涉及的匹配过程和检索式对于文本的常规检索是相似的。

较佳地，该非结构化数据处理方法还包括在S₂后执行的是S₃的情况下在S₃后执行、在S₂后执行的是S_3a的情况下在S_3a后执行的以下步骤：

S₄、读取待挖掘特征；

S₅、判断该多个特征模板中是否存在和该待挖掘特征一致的特征模板，若是则执行S₆，若否则执行S₇；

S₆、选取和该待挖掘特征一致的特征模板对该多个模板向量进行匹配，选取匹配成功的模板向量作为待输出向量，并执行S₉；

S₇、生成一特征模板组合以表示该待挖掘特征，该特征模板组合为由逻辑运算符连接的若干特征模板；

S₈、采用该特征模板组合对该多个模板向量进行匹配，选取匹配成功的模板向量作为待输出向量，并执行S₉；

S₉、选取和待输出向量对应的非结构化数据，并输出选取的非结构化数据。

本领域技术人员应当理解，这里的步骤S₄-S₉是在上述方法执行了S₃和S_3a之后执行的。S₄中读取待挖掘特征，既可以是读取预设的值，也可以是在上述方法的进行过程读取由用户输入的待挖掘特征。在S₄之后，判断是否有和该待挖掘特征一致的特征模板。

在判断结果为是的情况下，可以直接调出一致的特征模板。由于在此前已经采用特征模板对该多条非结构化数据进行了扫描并相应地生成了多个模板向量，因此这种情况下可以容易地找出和一致的特征模板成功匹配的模板向量。其中，使用特征模板对该多个模板向量进行匹配的方式即通过比对特征模板和该多个模板向量中和特征模板对应的维度的标量值来确定两者是否一致，两者一致则确定比对涉及的特征模板和模板向量匹配成功。也就是说，这里所说的匹配成功仅仅是针对模板向量中和特征模板相对应的维度而言，而非针对模板向量的全部维度。

若判断结果为否，则需要执行S₇以生成一特征模板组合以表示该待挖掘特征，该特征模板组合为由逻辑运算符连接的若干特征模板。而采用该特征模板组合对该多个模板向量进行匹配的过程相对来说也更为复杂。在该特征模板组合对一个模板向量的匹配中，该特征模板组合实质上是确定了匹配成功的模板向量在对应于该若干特征模板的维度上的标量值需要满足的条件，而这一条件由该若干特征模板和逻辑运算符共同确定。从这个角度来说，在匹配过程中可以将该特征模板组合看作一检索式，而成功匹配的模板向量就是能够符合该检索式的模板向量。通过以该特征模板组合表示待挖掘特征的方式，就使得当数据挖掘中出现了新的需求时，仍能够充分利用原先设置的特征模板，以减小数据挖掘中的成本。

举例来说，若该特征模板组合为以逻辑与连接的若干特征模板，那么能够和该若干特征模板同时成功匹配的模板向量就是和该特征模板组合成功匹配的模板向量。若该特征模板组合为以逻辑或连接的若干特征模板，那么能够和该若干特征模板中的任意一个成功匹配的模板向量就是和该特征模板组合成功匹配的模板向量。

在上述步骤中，处理和计算的对象始终是模板向量，因而相比于直接对非结构化数据进行处理而言，具有明显更高的效率。

S_4b、采用一聚类算法对该多个模板向量进行聚类，以将该多个模板向量划分为若干类；

S_5b、生成和该若干类模板向量一一对应的若干类非结构化数据。

这样就使得在聚类算法的执行前无需增加额外的针对非结构化数据的信息提取手段比如文字处理或图像处理等，所有的计算均基于模板向量进行。依靠特征模板对于各种特征良好的代表性，通过上述步骤S_4b、S_5b能够在同样实现聚类分析的前提下大大提高聚类分析的速度和效率。

本发明还提供了一种非结构化数据处理系统，其特点在于，包括：

一模板设置模块，用于设置多个特征模板，其中每个特征模板包括关键词；

一数据匹配模块，用于分别使用各个特征模板扫描存储有多条非结构化数据的一数据库，针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容，并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录；

一第一模板向量生成模块，用于生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度，该多个维度中，各条非结构化数据匹配的特征模板对应的维度的标量值为1、不匹配的特征模板对应的维度的标量值为0。

较佳地，该数据匹配模块还用于记录各条非结构化数据中和各个特征模板一致的内容的出现次数；

该第一模板向量生成模块由一第二模板向量生成模块替代，该第二模板向量生成模块用于生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度，每个模板向量的多个维度的标量值分别为在对应的非结构化数据中和对应的该多个特征模板一致的内容的出现次数。

较佳地，该非结构化数据处理系统还包括：

一输入模块，用于读取待挖掘特征；

一判断模块，用于判断该多个特征模板中是否存在和该待挖掘特征一致的特征模板，在判断结果为是的情况下启用一第一输出向量模块，在判断结果为否的情况下启用一模板组合模块；

该第一输出向量模块，用于选取和该待挖掘特征一致的特征模板对该多个模板向量进行匹配，选取匹配成功的模板向量作为待输出向量，并启用一输出模块；

该模板组合模块，用于生成一特征模板组合以表示该待挖掘特征，该特征模板组合为由逻辑运算符连接的若干特征模板；

一第二输出向量模块，用于采用该特征模板组合对该多个模板向量进行匹配，选取匹配成功的模板向量作为待输出向量，并启用该输出模块；

该输出模块，用于选取和待输出向量对应的非结构化数据，并输出选取的非结构化数据。

较佳地，该非结构化数据处理系统还包括：

一聚类模块，用于采用一聚类算法对该多个模板向量进行聚类，以将该多个模板向量划分为若干类；

一非结构化数据分类模块，用于生成和该若干类模板向量一一对应的若干类非结构化数据。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明的非结构化数据处理方法及系统，通过利用特征模板将非结构化数据处理成模板向量，即处理为向量的形式，从而在后续处理过程中进行的计算和处理都是针对模板向量而非非结构化数据进行，这样能够大大降低对于非结构化数据的数据分析所需要的计算资源和时间，同时能够灵活适用于不断改变的需求。

附图说明

图1为本发明实施例1的非结构化数据处理方法的流程图。

图2为本发明实施例2的非结构化数据处理方法的流程图。

图3为本发明实施例4的非结构化数据处理方法的流程图。

图4为本发明实施例5的非结构化数据处理系统的示意图。

图5为本发明实施例6的非结构化数据处理系统的示意图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例的非结构化数据处理方法包括以下步骤：

S₁、设置多个特征模板，每个特征模板包括关键词；

本实施例中，该数据库属于一在线视频网站，该多条非结构化数据则是多条用户的评论，所采用的全部特征模板均仅包括关键词。为便于理解，此处仅以几个具体的特征模板作为例子进行说明。举例来说，该多个特征模板的数量为8个，这8个特征模板分别仅包括关键词“艺术”、“惊险”、“动画效果”、“演技”、“暴力”、“唯美”、“恐怖”、“可怕”。在S₂中分别使用这8个特征模板扫描该数据库实质上就是采用特征模板中的8个关键词分别扫描数据库或者说在数据库中进行检索。扫描后在S₃中生成的多个模板向量，每个模板向量都具有8个维度，即每条非结构化数据对应于一个8维向量。实质上，每个8维向量在影片的类型风格等方面能够直接表现相对应的非结构化数据的内容。

当需要对该数据库中的所有非结构化数据进行一些分析和运算，比如聚类分析或者特征挖掘时，就可以直接对这些8维向量进行运算。由于数据挖掘或者分析中通常是基于某一类需求进行的，而这一类需求下相应地关注的特征通常应当是具有一定的范围的。基于对这一类需求的了解，本领域技术人员自然能够合适地选择具体的特征模板，在本实施例中即选择具体的关键词。比如，本实施例的8个特征模板就能够适应于对于影片类型、或者观众对于影片风格上的理解等方面进行分析的需求。

本领域技术人员应当理解，本实施例中出现的这8个特征模板仅仅是示意性的举例说明，以便于理解。实际上，更多的特征模板数量能够起到更大的实际作用。通过上述方法，就将数据挖掘中涉及的需求或者特征的关联性转换为特征模板的关联性并且充分地反映在模板向量中。由于模板向量具有明确且整齐划一的结构，用于挖掘、分类等数据分析过程中，毫无疑问在计算时间和计算资源的消耗上都会显著优于直接对于非结构化数据进行分析。

实施例2

如图2所示，本实施例的非结构化数据处理方法和实施例1相比，区别仅在于本实施例的方法还包括在S₃后执行的以下步骤：

S₄、读取待挖掘特征；

S₄中读取待挖掘特征，是指在上述方法的进行过程读取由用户输入的待挖掘特征。在S₄之后，判断是否有和该待挖掘特征一致的特征模板，而该待挖掘特征实际上就是在数据挖掘中的挖掘需求。

在判断结果为是的情况下，可以直接调出一致的特征模板。由于在此前已经采用特征模板对该多条非结构化数据进行了扫描并相应地生成了多个模板向量，因此这种情况下可以容易地找出和一致的特征模板成功匹配的模板向量。其中，使用特征模板对该多个模板向量进行匹配的方式即通过比对特征模板和该多个模板向量中和特征模板对应的维度的标量值来确定两者是否一致，两者一致则确定比对涉及的特征模板和模板向量匹配成功。也就是说，这里所说的匹配成功仅仅是针对模板向量中和特征模板相对应的维度而言，而非针对模板向量的全部维度。容易理解地，S₆中的运算由于是针对模板向量进行，而和该待挖掘特征一致的特征模板对于该多个模板向量的匹配过程能够充分利用此前这一特征模板对数据库的扫描过程，因而运算量是显著较小的。

若判断结果为否，则需要执行S₇以生成一特征模板组合以表示该待挖掘特征，该特征模板组合为由逻辑运算符连接的若干特征模板。在此情况下，仍以实施例1中举例说明的8个特征模板的情况作为条件进行说明。若最终目标是根据用户评论（即该多条非结构化数据）找出哪些影片是适合儿童观看的，这样的需求显然并不能直接采用一个已有的特征模板对于模板向量匹配来选取，但通过对特征模板的组合来形成特征模板组合却可以达成这样的目标。

举例来说，可以设置特征模板组合，该特征模板组合为“动画效果”andnot（“惊险”or“暴力”or“恐怖”or“可怕”），以该特征模板组合来表示适合儿童观看这一挖掘需求。这一特征模板组合实质上就确定了匹配成功的模板向量在对应于“动画效果”的特征模板的维度上的标量值为1，同时在对应于“惊险”、“暴力”、“恐怖”和“可怕”的特征模板的维度上的标量值均为0。通过以该特征模板组合表示待挖掘特征的方式，就使得当数据挖掘中出现了新的需求时，仍能够充分利用原先设置的特征模板，并且仍然以模板向量作为处理对象，提高了数据分析的效率。应当理解的是，在以上说明中为了更简明地叙述，以8个特征模板对应的关键词直接指代相应的特征模板。并且，在特征模板的数量远远超过8个的情况下，不仅能够以特征模板或者特征模板组合的方式来表示的挖掘需求的数量大大增加，而且在数据分析中所涉及的运算，仍然是和上述例子中的运算相类似的。仅仅在某一挖掘需求对应的特征模板组合涉及的特征模板的数量较大的情况下，运算中涉及对应的模板向量的维度数较多，但由此带来的运算量的增大仍然是极为有限的，在数据分析的效率上仍然具有很大的优势。

实施例3

本实施例的非结构化数据处理方法和实施例2相比，区别仅在于本实施例的方法中，S₂还包括：记录各条非结构化数据中和各个特征模板一致的内容的出现次数。

并且，该多个特征模板中的部分为包括关键词和逻辑运算符的检索式。举例来说，其中有一个特征模板“欧美影片”，这一特征模板为包含逻辑运算符“or”的检索式“法国影片”or“英国影片”or“美国影片”，其中“法国影片”、“英国影片”、“美国影片”均为关键词。

实施例4

如图3所示，本实施例的非结构化数据处理方法和实施例1相比，区别仅在于本实施例的方法还包括在S₃后执行的以下步骤：

S_4b、采用K-means聚类算法对该多个模板向量进行聚类，以将该多个模板向量划分为若干类；

仍以上述实施例中该多条非结构化数据为针对影片的用户评论为例。通过设置包括上述8个特征模板在内的大量特征模板，每个特征模板均在一定程度上反应出相关影片的类型风格。在将用户评论转换为模板向量后，在步骤S_4b中利用K-means聚类算法对模板向量进行聚类，就能够实现在类型风格上对涉及的影片进行划分，甚至能够基于大量的用户评论对影片进行分级。对于影片分级的具体实现方式，可以是和上述实施例2中针对“适合儿童观看”这一挖掘需求所进行的数据挖掘是相类似的，在此不再赘述。

实施例5

如图4所示，本实施例的非结构化数据处理系统包括一模板设置模块1、一数据匹配模块2、一第一模板向量生成模块3、一输入模块4、一判断模块5、一第一输出向量模块6、一第二输出向量模块7、一模板组合模块8和一输出模块9。

其中，该模板设置模块用于设置多个特征模板，其中每个特征模板包括关键词。该数据匹配模块，用于分别使用各个特征模板扫描存储有多条非结构化数据的一数据库，针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容，并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录

该第一模板向量生成模块，用于生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度，该多个维度中，各条非结构化数据匹配的特征模板对应的维度的标量值为1、不匹配的特征模板对应的维度的标量值为0。

该输入模块用于读取待挖掘特征。该判断模块，用于判断该多个特征模板中是否存在和该待挖掘特征一致的特征模板，在判断结果为是的情况下启用该第一输出向量模块，在判断结果为否的情况下启用该模板组合模块。该第一输出向量模块，用于选取和该待挖掘特征一致的特征模板对该多个模板向量进行匹配，选取匹配成功的模板向量作为待输出向量，并启用一输出模块。

该模板组合模块用于生成一特征模板组合以表示该待挖掘特征，该特征模板组合为由逻辑运算符连接的若干特征模板。该第二输出向量模块，用于采用该特征模板组合对该多个模板向量进行匹配，选取匹配成功的模板向量作为待输出向量，并启用该输出模块。

其中，该多个特征模板中部分为包括关键词和逻辑运算符的检索式。

实施例6

如图5所示，本实施例的非结构化数据处理系统包括一模板设置模块1、一数据匹配模块2、一第二模板向量生成模块30、一聚类模块10和一非结构化数据分类模块11。

该模板设置模块，用于设置多个特征模板，其中每个特征模板包括关键词。该数据匹配模块，用于分别使用各个特征模板扫描存储有多条非结构化数据的一数据库，针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容，并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录，然后记录各条非结构化数据中和各个特征模板一致的内容的出现次数。

该第二模板向量生成模块，用于生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度，每个模板向量的多个维度的标量值分别为在对应的非结构化数据中和对应的该多个特征模板一致的内容的出现次数。

该聚类模块，用于采用一聚类算法对该多个模板向量进行聚类，以将该多个模板向量划分为若干类。该非结构化数据分类模块，用于生成和该若干类模板向量一一对应的若干类非结构化数据。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种非结构化数据处理方法，其特征在于，包括以下步骤：

S₁、设置多个特征模板，每个特征模板包括关键词；

2.如权利要求1所述的非结构化数据处理方法，其特征在于，S₂还包括：记录各条非结构化数据中和各个特征模板一致的内容的出现次数；

3.如权利要求1所述的非结构化数据处理方法，其特征在于，该多个特征模板中至少部分为包括关键词和逻辑运算符的检索式。

4.如权利要求1-3中任意一项所述的非结构化数据处理方法，其特征在于，该非结构化数据处理方法还包括在S₂后执行的是S₃的情况下在S₃后执行、在S₂后执行的是S_3a的情况下在S_3a后执行的以下步骤：

S₄、读取待挖掘特征；

5.如权利要求1-3中任意一项所述的非结构化数据处理方法，其特征在于，该非结构化数据处理方法还包括在S₂后执行的是S₃的情况下在S₃后执行、在S₂后执行的是S_3a的情况下在S_3a后执行的以下步骤：

6.一种非结构化数据处理系统，其特征在于，包括：

7.如权利要求6所述的非结构化数据处理系统，其特征在于，该数据匹配模块还用于记录各条非结构化数据中和各个特征模板一致的内容的出现次数；

8.如权利要求6所述的非结构化数据处理系统，其特征在于，该多个特征模板中至少部分为包括关键词和逻辑运算符的检索式。

9.如权利要求6-8中任意一项所述的非结构化数据处理系统，其特征在于，该非结构化数据处理系统还包括：

一输入模块，用于读取待挖掘特征；

10.如权利要求6-8中任意一项所述的非结构化数据处理系统，其特征在于，该非结构化数据处理系统还包括：