CN106815253B

CN106815253B - 一种基于混合数据类型数据的挖掘方法

Info

Publication number: CN106815253B
Application number: CN201510867137.1A
Authority: CN
Inventors: 周柳阳; 何超; 梁颖琪
Original assignee: Wisers Information Ltd
Current assignee: Wisers Information Ltd
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2020-04-10
Anticipated expiration: 2035-12-01
Also published as: US20190258629A1; WO2017092574A1; CN106815253A

Abstract

本发明公开的数据挖掘方法，用于挖掘混合数据类型数据，通过在图像数据中挖掘主体信息，并在文本数据中挖掘场景或情感信息，并对获取的信息进行分类聚合从而获得特定主体信息与特定场景或情感信息的相关性。由于本发明基于混合数据类型数据，从而有效地避免了仅对一种数据类型数据进行挖掘所造成的信息的遗失，同时能够更为准确地挖掘出信息的关联性，减少无关信息干扰。

Description

一种基于混合数据类型数据的挖掘方法

技术领域

本发明涉及多种混合数据类型数据的挖掘，尤其涉及在混合数据类型的数据中挖掘信息相关性的方法。

背景技术

随着大数据时代的到来，如何挖掘海量数据中的有效信息成为重要课题，其中尤其涉及信息间相关性的挖掘。社交网络媒体成为新的媒体载体，网络用户在使用社交网络媒体(例如微博、微信、Facebook、Instagram)发布信息时，通常会使用多种混合数据类型的数据，例如图像数据以及文本数据混合的数据。

现有技术通常仅侧重于对文本数据的分析，例如采用LDA或是PLSA等模型对文本进行信息提取，这一定程度上解决了文字表层含义和其高层语义之间的“语义鸿沟”，从而进一步挖掘得到隐藏在文字表层含义下的信息间相关性。然而，信息通常不仅仅存在于文本数据中，例如对于社交网络媒体，除了文本数据，大量的信息常常存在于图像数据或是视频数据中，仅在文本数据中进行数据挖掘使得大量信息遗失。

发明内容

针对以上问题，本发明的目的在于提供一种数据挖掘方法，用于挖掘混合数据类型数据中的信息，并进一步获取信息间的相关性。

根据本发明的第一方面，提供一种数据挖掘方法，用于挖掘混合数据类型数据，混合数据类型数据包括图像数据和文本数据，图像数据中至少包括主体信息，文本数据中至少包括场景信息或情感信息，数据挖掘方法包括步骤：a建立主体信息库，建立场景或情感信息库；b获取多个数据单元，至少部分数据单元包括图像数据以及文本数据，图像数据中至少包括主体信息，文本数据中至少包括场景信息或情感信息；c将每一个数据单元分解成图像数据以及文本数据；d基于主体信息库，对每一个数据单元的图像数据采用自动化图像识别方法从而识别图像数据的主体信息；e对每一个数据单元按主体信息进行分类，从而形成至少一个主体域，每一个主体域对应数个数据单元；f基于场景或情感信息库，对每一个主体域中的每一个数据单元的文本数据采用自动化文本识别方法来识别文本数据的场景信息或情感信息，从而得到至少一个按照特定主体信息分类的场景域或情感域；g对每一个场景域或情感域中的元素，按场景信息或情感信息进行分类，从而获得数个特定域，每个特定域包含相同的主体信息以及相同的场景信息，或包含相同的主体信息以及相同的情感信息。

优选地，数据单元设有数据标识码，属于同一数据单元的图像数据以及文本数据具有相同的数据标识码并通过数据标识码相互关联。

优选地，自动化图像识别方法包括步骤：提取需要识别的图像数据的识别特征；将图像数据的识别特征输入主体信息库进行计算，从而判断是否包含特定主体信息。

优选地，自动化文本识别方法包括步骤：提取文本数据的识别特征；将文本数据的识别特征输入场景或情感信息库进行计算，从而判断是否包含特定场景信息或情感信息。

优选地，自动化文本识别方法包括步骤：对目标文本提取关键字；将关键字输入场景或情感信息库，通过句法规则判断目标文本是否包含特定场景信息或情感信息。

优选地，数据挖掘方法还包括步骤：h将所有具有同一特定主体信息的特定域按其中元素的数量多少进行排序。

优选地，数据挖掘方法还包括步骤：h将所有具有同一特定场景信息或情感信息的特定域按其中元素数量多少进行排序。

优选地，数据挖掘方法还包括步骤：h对所有的特定域按筛选条件进行筛选，将筛选后的特定域按其中的元素数量多少进行排序。

根据本发明的第二方面，提供一种数据挖掘方法，用于挖掘混合数据类型数据，数据挖掘方法包括步骤：a建立主体信息库，建立场景或情感信息库；b获取多个数据单元，至少部分数据单元包括图像数据以及文本数据，图像数据中至少包括主体信息，文本数据中至少包括场景信息或情感信息；c将每一个数据单元分解成图像数据以及文本数据；d基于主体信息库，对每一个数据单元的图像数据采用自动化图像识别方法从而识别图像数据的主体信息；e基于场景或情感信息库，对每一个数据单元的文本数据采用自动化文本识别方法从而识别文本数据的场景信息或情感信息；f对主体信息进行分类，从而形成至少一个主体域；g对每一个主体域，找出其中每一个主体信息所对应数据单元的场景信息或情感信息，从而得到按照特定主体信息分类的场景域或情感域；h对每一个场景域或情感域，按场景信息或情感信息进行分类，从而获得数个特定域，每个特定域包含相同的主体信息以及相同的场景信息，或包含相同的主体信息以及相同的情感信息。

根据本发明的第三方面，提供一种数据挖掘方法，用于挖掘混合数据类型数据，混合数据类型数据包括图像数据和文本数据，图像数据中至少包括主体信息，文本数据中至少包括场景信息或情感信息，其特征在于数据挖掘方法包括步骤：a建立主体信息库，建立场景或情感信息库；b获取多个数据单元，至少部分数据单元包括图像数据以及文本数据，图像数据中至少包括主体信息，文本数据中至少包括场景信息或情感信息；c将每一个数据单元分解成图像数据以及文本数据；d基于场景或情感信息库，对每一个数据单元的文本数据采用自动化文本识别方法从而识别文本数据的场景信息或情感信息；e对每一个数据单元按场景信息或情感信息进行分类，从而形成至少一个场景域或情感域，每一个场景域或情感域对应数个数据单元；f基于主体信息库，对每一个场景域或情感域中的每一个数据单元的图像数据采用自动化图像识别方法来识别图像数据的主体信息，从而得到至少一个按照特定场景信息或情感信息分类的主体域；g对每一个主体域中的元素，按主体信息进行分类，从而获得数个特定域，每个特定域包含相同的主体信息以及相同的场景信息，或包含相同的主体信息以及相同的情感信息。

根据本发明的第四方面，提供一种数据挖掘方法，用于挖掘混合数据类型数据，其特征在于数据挖掘方法包括步骤：a建立主体信息库，建立场景或情感信息库；b获取多个数据单元，至少部分数据单元包括图像数据以及文本数据，图像数据中至少包括主体信息，文本数据中至少包括场景信息或情感信息；c将每一个数据单元分解成图像数据以及文本数据；d基于主体信息库，对每一个数据单元的图像数据采用自动化图像识别方法从而识别图像数据的主体信息；e基于场景或情感信息库，对每一个数据单元的文本数据采用自动化文本识别方法从而识别文本数据的场景信息或情感信息；f对场景信息或情感信息进行分类，从而形成至少一个场景域或情感域；g对每一个场景域或情感域，找出其中每一个场景信息或情感信息所对应数据单元的主体信息，从而得到按照特定场景信息或情感信息分类的主体域；h对每一个主体域，按主体信息进行分类，从而获得数个特定域，每个特定域中的元素包含相同的主体信息以及场景信息，或包含相同的主体信息以及相同的情感信息。

相对于现有技术，本发明至少具有以下优点：

本发明通过在图像数据中挖掘主体信息，并在文本数据中挖掘场景或情感信息，并对获取的信息进行分类聚合，从而获得特定主体信息与特定场景或情感信息间的相关性。由于本发明在多种数据类型的数据中挖掘信息，从而有效地避免了仅对一种数据类型数据进行挖掘所造成的信息的遗失，同时能够更为准确地挖掘出信息间的相关性，减少无关信息干扰。

附图说明

下面结合附图，对本发明进一步详细说明：

图1为本发明中获取混合数据类型数据单元后的示意图；

图2a为本发明的对实施例1中部分数据单元的分解及按自动化的图像识别方法识别主体信息的示意图；

图2b为本发明的对实施例1中另一部分数据单元的分解及按自动化的图像识别方法识别主体信息的示意图；

图3为本发明实施例1的数个主体域的示意图；

图4为对本发明实施例1的主体域中每一个数据单元的文本数据按自动化文本识别方法识别场景信息的示意图；

图5为本发明的数个场景域的示意图；

图6为本发明的数个特定域的示意图；

图7为本发明实施例1的数据挖掘方法的流程示意图；

图8a为本发明自动化图像识别方法中图像识别模型训练方法的流程示意图；

图8b为本发明自动化图像识别方法中通过图像识别模型识别主体信息的流程示意图；

图9a为本发明自动化文本识别方法中文本识别模型训练方法的流程示意图；

图9b为本发明自动化文本识别方法中通过文本识别模型识别场景信息的流程示意图；

图10为本发明自动化的文本识别方法又一实施方式的流程示意图

图11a为本发明实施例2中部分数据单元的分解并按自动化的图像识别方法识别主体信息，及按自动化的文本识别方法识别场景信息的示意图；

图11b为本发明实施例2中另一部分数据单元的分解并按自动化的图像识别方法识别主体信息，按自动化的文本识别方法识别场景信息的示意图；

图12为本发明实施例2的数个主体域的示意图；

图13为本发明实施例2的数据挖掘方法的流程示意图；

图14为本发明的数据挖掘方法所对应的硬件系统结构图；

图15为本发明实施例3的数据挖掘方法的流程示意图；

图16为本发明实施例4的数据挖掘方法的流程示意图。

具体实施方式

下面将结合本发明的附图对本发明的实施例进行描述。

实施例1

通过本实施例中的方法，将从大量数据中识别主体信息以及场景信息，并找出特定主体信息以及特定场景信息间的相关性。其中主体通常是指产品、人物或品牌，场景一般是指地点、场合，例如过生日，吃火锅，KTV等。需要注意的是，本实施例中示例性地说明了从数据中识别场景信息，以及挖掘场景信息与主体信息间相关性的过程，通过与识别场景信息以及挖掘场景信息与主体信息间相关性类似的方法，另外还可以从数据中识别情感信息，并挖掘情感信息与主体信息间的相关性。情感信息是指对某样事物的评价，例如：喜好，厌恶，怀疑，通常情感信息还具有评分等级，用于表示情感的程度。

图1-6示例性地表示了本实施例中关键步骤或其处理后的结果，图7为本实施例的数据挖掘方法的流程示意图，下面结合图1-7介绍本实施例的数据挖掘方法。

如图7所示，首先按照步骤700，建立主体信息库(未示出)以及场景信息库(未示出)。当需要识别情感信息时，则需要建立情感信息库。

主体信息库中包括有数个主体信息，每一个特定主体信息都包括有主体名称(例如：麦当劳、可乐、姚明)、与特定主体信息对应的唯一主体标识码(即主体ID)，特定主体的附属属性(例如：主体所属行业、所属公司、所属地域)。主体信息库中还包括图像识别模型，基于主体数据库中的图像识别模型，可以从图像数据中读取主体信息，图像识别模型的训练以及应用将在下文中具体介绍。

场景信息库中包括有数个场景信息，每一个特定场景信息都包括有场景主题词(如：过生日、吃火锅)、与特定场景信息对应的唯一场景标识码(即场景ID)。场景信息库中还包括文本识别模型，基于场景数据库中的文本识别模型，可以从文本数据中读取场景信息，文本识别模型的训练以及应用将在下文中具体介绍。情感信息库的建立方法与建立场景信息库的方法类似。

接着如步骤710获取多个数据单元102，多个数据单元102可以从互联网中抓取，例如从社交平台网络中采集数据，也可以由用户提供。获取多个数据单元102后形成图1所示的数据域101。

具体而言，以在社交平台网络采集数据为例，通过调用开放平台提供的应用程序编程接口(API，Application Programming Interface)抓取数据单元102，每个单独发表的文章或帖子作为一个数据单元102，部分数据单元102包括多种数据类型，例如文字数据，图像数据或是视频数据。在多种数据类型的数据中，包含了主体信息以及场景信息。除此以外，数据单元102还包括附属信息(未示出)，例如发布者信息，发布时间，发布地点等。数据单元102还包括用于标识在同一数据单元102中不同数据类型对应关系的信息，在本实施例中，通过对每个数据单元102设置唯一的数据标识码(即数据ID)来标识该数据单元102。通过设置数据ID，多个数据类型的数据在后续的操作步骤中快速便捷地相互关联，从而快速定位查找。

容易想到的是，抓取数据也可以采用其他已知的方法，例如通过网页爬虫程序实现。

如图1所示，在本实施例中，数据域101示例性地包含6个数据单元102，每个数据单元102均包括图像数据以及文本数据。容易想到的是，在实际运用中数据域101中的部分数据也可能仅包括一种数据类型，但至少部分数据包括两种数据类型。在图像数据中包含主体信息，在文本数据中包含场景信息。对于6个数据单元102分别设置数据ID为D1、D2、D3、D4、D5和D6.

根据步骤720，将每个数据单元102分解成图像数据103以及文本数据104，同一个数据单元102分解出的图像数据103以及文本数据104具有相同的数据ID，并可以通过对数据ID设置不同标识码后缀来区分图像数据以及文本数据，例如对数据ID设置后缀.zt表示图像数据，设置后缀.cj表示文本数据。由于不同数据类型的数据的编码方式不同，因此通过API或是读取网页标记代码等方法可以将不同数据类型的数据进行区分。本实施例中的6个数据单元102分解后的结果如图2a，2b所示。对于不同类型的数据将采用不同的处理方法，因此对数据单元102进行分解能够便于后续处理。

仍然参考图2a，2b，根据步骤730，基于所述主体信息库的图像识别模型，采用自动化的图像识别方法从而识别图像数据103中的主体信息201。

具体而言，在本实施例中，如图8b所示，自动化的图像识别方法包括利用图像识别模型识别图像数据103中的主体信息201。在通过图像识别模型识别主体信息201之前，需要如图8a的流程所示，训练图像识别模型。

下面对图像识别模型的训练方法进行介绍。

如图8a，首先在步骤810，选定和某一特定主体信息对应的大量图片作为训练图片，并对图片进行标注，例如注释该图片对应的主体信息以及该主体信息在图片中的具体位置。接着如步骤820，提取每一张训练图片中主体信息所在位置处的图像识别特征，图像识别特征包括用于描述图像的一系列颜色特征、纹理特征、形状特征、空间关系特征的数字化表达，图像识别特征的提取方法可以采用任何一种针对该问题的解决方法，例如基于提取局部兴趣点的MSER,SIFT,SURF,ASIFT,BRICK,ORB等方法，例如基于视觉词典的词袋特征提取方法，例如更先进地利用深度学习技术自动学习出的特征提取方法等。接着如步骤830，将训练图片的图像识别特征以及特定主体信息输入图像识别模型，通过统计方法或是机器学习方法进行计算，从而获得图像识别模型中特定主体信息所对应的参数以及判定阈值。对主体信息库中的每一个主体信息均采用以上的方法，具体如步骤831，判断是否获得主体信息库中的所有主体信息的参数以及判断阈值，如判断否则回到步骤810进行循环，如判断是则完成图像识别模型，从而使得图像识别模型包含主体信息库中所有主体信息所对应的参数以及判定阈值。当主体信息库中加入新的主体信息时，也同样执行以上步骤，从而在图像识别模型中加入新的主体信息所对应的参数以及判定阈值。

如图8b所示通过图像识别模型识别图像数据103中的主体信息201。如步骤840，提取需要识别的图像数据(即目标图像)的图像识别特征，此处的提取图像识别特征的方法同步骤820中的提取图像识别特征的方法应保持一致，从而减少判断结果误差。如步骤850，将目标图像的图像识别特征输入图像识别模型计算目标图像与每一个特定主体信息的相似度或者概率。根据具体建模方法的不同，相似度或者概率计算既可以使用基于图像识别特征的直接匹配方法(例如核相似度、第二范式相似度、核交叉相似度等)来计算输入图像识别特征与每一个特定主体信息的相似度，也可以通过使用提前训练好的机器学习模型来计算该图片可能包含某个主体信息的概率。如步骤860，将前一步骤850中得到的相似度或者概率与图像识别模型中特定主体所对应的判定阈值进行对比，从而判断目标图像数据中是否包含特定的主体信息。

如图2a，2b所示，在本实施例中，基于主体信息库，通过以上自动化的图像识别方法，从图像数据103中读取主体信息201(即步骤730)。需要注意的是，图2a，2b中的主体信息201为了方便理解，示例性地使用了图像数据103中的主体信息201的示意图像，在实际使用时，通常使用数据ID附加特定主体标识码(即主体ID)来标识所提取的主体信息，例如D1.A1表示该主体信息来自于数据单元D1，其识别出的主体ID为A1，对应主体信息库中的主体名称“麦当劳”。相同的主体信息具有相同的主体ID，例如，如图2a，2b中的示例，数据单元D1、D2的图像数据中都包含相同的主体信息“麦当劳”，其对应的主体ID为A1，数据单元D3、D4和D5的图像数据中都包含相同的主体信息“加多宝”，其对应的主体ID为A2，而数据单元D6的图像数据在经过自动化的图像识别方法识别后没有找到匹配的主体信息，在图2b中用“×”示例性表示。

然后，如步骤740，对每一个数据单元102按主体信息201进行分类，从而形成至少一个主体域301.1、301.2。图3示例性地说明了执行步骤740后形成数个主体域301.1、301.2的结果，数据单元D1以及数据单元D2由于具有相同的主体信息A1而分在同一个主体域301.1中，数据单元D3、D4以及D5由于具有相同的主体信息A2而分在另一个主体域301.2中，而数据单元D6未识别出主体信息，因此未被归入特定主体域。需要注意的是，本实施例中的分类是通过主体信息直接对数据单元进行分类，因此虽然图3中仅示例性示出了主体信息201，但实际上主体域301.1、301.2中的元素是主体信息201相对应的数据单元102。

接着，如步骤750以及图4所示，在本实施例中，基于所述场景信息库使用自动化的文本识别方法，对步骤740中已形成的主体域301.1、301.2中的每一个数据单元102的文本数据104进行识别，从而得到场景信息202。

具体而言，自动化的文本识别方法包括利用文本识别模型识别文本数据104中的场景信息202。在通过文本识别模型识别场景信息202之前，需要如图9a的流程所示，训练文本识别模型。

图9a为自动化文本识别方法中文本识别模型训练方法的流程示意图。在步骤910，选定和某一特定场景信息对应的大量文本作为训练数据，并对文本按照场景信息进行标注，例如注释该文本对应的场景信息。接着如步骤920，对每一个训练文本进行分词，并对分词后的训练文本提取文本识别特征，文本识别特征包括用于描述主题词的一系列单词表达，文本识别特征的提取方法可以采用任何一种针对该问题的解决方法，例如基于词频的TF-IDF特征，基于词与词组合共现关系的n-gram特征，或基于词性分析或句法依存关系分析得出的语法特征，又比如更先进地利用深度学习技术自动学习出的特征提取方法等。需要注意的是在部分特征识别方法中，可以不对文本进行分词而直接提取文本识别特征，例如n-gram特征。接着如步骤930，将训练文本的文本识别特征以及特定场景信息输入文本识别模型，通过统计方法或是机器学习方法计算获得文本识别模型中特定场景信息所对应的参数以及判定阈值。对场景信息库中的每一个场景信息均采用以上的方法，具体如步骤931，判断是否获得场景信息库中的所有场景信息的参数以及判断阈值，如判断否则回到步骤910进行循环，如判断是则完成图像识别模型，从而使得文本识别模型包含场景信息库中所有场景信息所对应的参数以及判定阈值。当场景信息库中加入新的场景信息时，也同样执行以上步骤，从而在文本识别模型中加入新的文本信息所对应的参数以及判定阈值。

图9b为本实施例中通过文本识别模型识别场景信息的流程示意图。如步骤940，对需要识别的文本数据(即目标文本)进行分词，并对分词后的目标文本提取文本识别特征，此处的分词以及提取文本识别特征的方法同步骤920中的提取文本识别特征的方法应保持一致，从而减少判断结果误差。在步骤950中，将目标文本的文本识别特征输入文本识别模型计算目标文本相对于每一个特定场景信息的得分或者概率。如步骤960，将前一步骤950中得到的得分或者概率与文本识别模型中特定场景信息所对应的判定阈值进行对比，从而判断目标文本数据中是否包含特定的场景信息202。

对于自动化的文本识别方法，在其他实施例中，还可以使用如图10所示的方法。

具体而言，如步骤970，首先定义包含多个特定场景信息的文本识别模型，文本识别模型中包括与特定场景信息关联的关键字以及句法规则。如步骤972，对目标文本进行分词并提取关键字，在部分提取方法中也可以直接提取关键字，接着如步骤974将关键字输入文本识别模型，使用句法规则判断目标文本符合哪个或哪些特定场景信息，从而得到目标文本所包含的场景信息。

在其他实施例中，还可以将上述两种自动化的文本识别方法进行结合，即在构建的文本识别模型中既包括文本识别特征也包括关键字。

需要注意的是，图4中的场景信息202为了方便理解，示例性地使用了用于描述该特定场景信息202的主题词，在实际使用时，通常使用数据ID附加特定场景标识码(即场景ID)来标识所提取的场景信息，例如D1.B1表示该主体信息来自于数据单元D1，其识别出的场景ID为B1，对应场景信息库中的主题词为“过生日”。相同的场景信息具有相同的场景ID。例如，如图4中的示例，数据单元D1，D2和D5的文本数据都具有相同的场景信息“过生日”，其对应的场景ID为B1，数据单元D3和D4的文本数据都具有相同的场景信息“吃火锅”，其对应的场景ID为B2。由于每个主体域301.1、301.2中的主体信息201相同，因此在识别场景信息202后，得到如图5所示，按照特定主体信息201分类的场景域401.1、401.2。每个场景域401.1、401.2中具有数个由相互关联的特定主体信息201与特定场景信息202构成的元素。需要注意的是，在此时场景域401.1、401.2中的元素不再是数据单元102，而是由相互关联的主体信息201以及场景信息202构成的元素。

当需要识别情感信息时，也可以采用与以上从文本数据中识别场景信息类似的方法，基于情感信息库采用自动化的文本识别方法识别情感信息，并进一步得到至少一个按照特定主体信息分类的情感域。

如步骤760以及图6所示，对每一个场景域401.1、401.2按场景信息202进行分类，从而获得数个具有特定主体以及特定场景的特定域501.1、501.2、501.3。如图5，图6所示，由于场景域401.1中的元素仅包含一个场景ID，因此得到的特定域501.1中的元素与场景域401.1相同，都具有相同的主体ID A1以及相同的场景ID B1。场景域中的元素也可以包含多个场景ID，例如本实施中的场景域401.2中的元素包含场景ID B1以及B2，因此经过步骤760后，得到其中的元素具有主体ID A2及场景ID B2的特定域501.2，以及其中的元素具有主体ID A2及场景ID B1的特定域501.3。

采用同样的方法，对于情感域中的元素，按情感信息进行分类从而获得数个特定域，每个特定域中的元素包含相同的主体信息以及相同的情感信息。

每个特定域501.1、501.2都表示了特定主体信息与特定场景信息或情感信息的相关性，特定域中的元素越多，就表明该特定主体信息与特定场景信息或情感信息的相关性越强。

对图像数据中的信息进行挖掘的方法，通常通过分类获得图片的标签，通过标签描述图片，然而这样的方法只能获得图片的粗糙场景，无法获得确切的信息，并且这样的方法同样也仅能挖掘图像中信息。对比以上方法或是仅仅在文本中挖掘信息的方法，本发明在多种数据类型(图像数据以及文本数据)的数据中挖掘不同信息(主体信息以及场景或情感信息)，从而有效地避免了仅对一种数据类型数据进行挖掘所造成的信息的遗失，更为准确地挖掘出信息的关联性。

在得到特定域501.1、501.2、501.3后，根据需要，可便捷地进行各种应用。

以下将示例性地说明应用的实例。

例如找出特定主体在哪些场景中出现的频率最高。具体方法包括筛选出具有特定主体ID的特定域，将这些出现同一特定主体信息的特定域按其中的元素数量多少进行排序，从而得到元素数量最多的特定域，根据该特定域所对应的场景ID从而获得对应的场景主题词。例如，找出“加多宝”在哪个场景中出现的频率最高，首先通过“加多宝”所对应的主体ID A2筛选出特定域501.2以及特定域501.3，对特定域501.2以及特定域501.3中的元素数量进行计数后按数量多少进行排序，从而得到元素最多的特定域501.2，根据特定域501.2所对应的场景ID B2从而得出主体ID A2，即加多宝出现频率最高的场景ID为B2，即吃火锅。与之相似的应用还包括根据特定主体的使用次数对场景进行排序等。

例如找出特定场景中哪些主体出现的频率最高。具体方法包括筛选出具有特定场景ID的特定域，将这些出现同一特定主体信息的特定域按其中的元素数量多少进行排序，从而得到元素数量最多的特定域，根据该特定域所对应的主体ID从而获得对应的主体名称。与之类似的应用还包括找出特定场景中各个主体被使用的次数。

还例如按筛选条件进行筛选，然后再找出出现频率最高的主体与场景。这里的筛选条件包括数据单元中的附属信息(例如发布者信息，发布时间，发布地点)或是主体信息库中主体信息的附属属性(例如所属行业)。通过筛选条件可以对原始的数据单元进行筛选，从而通过数据ID进一步定位到相应的主体ID，筛选条件也可以直接对主体信息进行筛选。将筛选后的特定域按其中的元素数量多少进行排序，即可得到出现频率最高的主体与场景。

下面介绍本实施的数据挖掘方法所对应的硬件系统结构图。

参考图14，数据挖掘方法所对应的硬件系统包括外存储部件(硬盘)1301，处理部件1302，内存部件1303，磁盘驱动器接口1304，显示器1305,显示接口1306，网络通讯接口1307，输入输出接口1308。

本实施例中的数据挖掘方法通过代码存储在内存部件1303或硬盘1301中，处理部件1302通过读取内存部件1303或硬盘1301中的代码执行数据挖掘方法。硬盘1301通过磁盘驱动器接口1304与处理部件1302连接。通过网络通讯接口1307，硬件系统与外部计算机网络连接。显示器1305通过显示接口1306与处理部件1302连接，用于显示执行结果。通过输入输出接口1308，鼠标1309与键盘1310与硬件系统连接的其他部件连接，从而用于操作者操作。数据挖掘过程中所涉及的数据单元以及各类信息存储在硬盘1301中。

在其他实施例中，硬件结构可以采用云存储以及云端运算实现。具体而言，将数据挖掘方法所对应的代码、数据挖掘过程中所涉及的数据单元以及各类信息存储在云端，所有的数据抓取、挖掘过程也在云端进行。用户可以通过客户端计算机、手机、或平板电脑等通过网络通讯接口对云端数据进行操作，或对挖掘结果进行查询或显示。

实施例2

本实施例同样用于从大量数据中识别主体信息以及场景信息，并找出特定主体信息以及特定场景信息的关联性。本实施例的方法与实施例1部分相同。图11a,11b以及图12示出了本实例区别实施例1的关键步骤，图13是本实施例的流程示意图。下面介绍本实施中的数据挖掘方法。

本实施例的方法与实施例1部分相同，如图13所示，本实施例步骤600-630与实施例1中的步骤700-730完全相同。所不同是的如图11a，11b以及步骤640，本实施例在识别主体信息201后，对所有数据单元102的文本数据104进行基于场景信息库采用自动化的文本识别方法识别场景信息。自动化的文本识别方法与实施例1中的方法相同，此处不再赘述。

接着参考图12以及步骤650，对主体信息201进行分类，从而形成至少一个主体域311.1、311.2。需要注意的是，和实施例1不同，本实施例中的主体域311.1、311.2仅仅包括主体信息201，即由数据ID附加主体ID构成的元素，而非原始数据单元102。由于不再对原始数据单元102进行直接操作，因此能够在一定程度上减少数据存储量，加快处理速度。

如步骤660以及图5，找出每一个主体域311.1、311.2中的每一个主体信息201所对应数据单元的场景信息202，从而得到按照特定主体信息201分类的场景域401.1、401.2。由于每个主体信息201由数据ID附加主体ID标识，场景信息202由数据ID附加主体ID标识，因此通过数据ID，很便捷地将主体信息201与场景信息202进行关联。每个场景域401.1、401.2中具有至少一个相互关联的特定主体信息201与特定场景信息202构成的元素。如步骤670以及图6，对每一个场景域401.1、401.2，按场景信息202进行分类，从而获得数个特定域501.1、501.2、501.3。步骤670的具体内容和实施例1中的步骤760相同，此处不再赘述。

本实施例中的硬件系统结构和实施例中类似，此处不再赘述。

需要注意的是，本实施例中的方法也同样适用于从数据中识别情感信息，并挖掘主体信息与情感信息间的相关性。

实施例3

本实施例在实施1的方法基础上进行调整。

如图15所示，本实施例中的数据挖掘方法的步骤701-721与实施例1中的700-720相同。主要区别在于，实施例1首先识别主体信息201，并通过主体信息201进行数据单元的分类，然后再识别场景信息202，并根据场景信息202进行二次分类得到特定域，而本实施例中首先识别场景信息202，并通过场景信息202进行数据单元的分类，然后再识别主体信息201，并根据主体信息201进行二次分类得到特定域。

具体而言，在步骤731中识别场景信息202而非主体信息201，即基于场景信息库对每一个数据单元102的文本数据104采用自动化文本识别方法从而识别文本数据104中的场景信息202。在步骤741中，对每一个数据单元102按场景信息202进行分类，从而形成至少一个场景域。在步骤751中基于主体信息库，对场景域中的每一个数据单元的图像数据103采用自动化图像识别方法识别图像数据103中的主体信息201，从而得到至少一个按照特定场景信息分类的主体域。在步骤761中，对每个主体域中的元素，按特定主体信息201进行分类，从而获得数个特定域，每个特定域中的元素包含相同的主体信息201以及相同的场景信息202。

实施例4

本实施例在实施例2的方法基础上进行调整。

如图16所示，本实施例中的数据挖掘方法的步骤601-641与实施例2中的600-640相同。主要区别在于，实施2首先通过主体信息201进行分类，然后通过主体信息201关联相应的场景信息202，再对场景信息202进行二次分类，从而得到特定域，而本实施例中首先对场景信息202进行分类，然后通过场景信息202关联相应的主体信息201，再对主体信息201进行二次分类，从而得到特定域。

具体而言，在步骤651中，对场景信息202进行分类，从而形成至少一个场景域，在步骤661中，找出每一个场景域中的每一个场景信息202所对应数据单元的主体信息201，从而得到按照特定场景信息分类的主体域，在步骤671中，对每一个主体域中的元素，按主体信息201进行分类，从而获得数个特定域，每个特定域中的元素具有包含相同的主体信息201以及相同的场景信息202。

上述描述的各实施例中的技术特征可以进行任意组合。以上是本发明的实施例以及附图，上述实施例和附图并非用于限制本发明的权利范围，凡以相同的技术手段、或为下述权利要求内容所涵盖的权利范围而实施的，均不脱离本发明的范畴而是申请人的权利范围。

Claims

1.一种数据挖掘方法，用于挖掘混合数据类型数据，所述混合数据类型数据包括图像数据和文本数据，所述图像数据中至少包括主体信息，所述文本数据中至少包括场景信息或情感信息，其特征在于所述数据挖掘方法包括步骤：

a建立主体信息库，建立场景或情感信息库；

b获取多个数据单元，至少部分所述数据单元包括图像数据以及文本数据，所述图像数据中至少包括所述主体信息，所述文本数据中至少包括所述场景信息或情感信息；

c将每一个所述数据单元分解成图像数据以及文本数据；

d基于所述主体信息库，对每一个数据单元的图像数据采用自动化图像识别方法从而识别图像数据的主体信息；

e对每一个数据单元按主体信息进行分类，从而形成至少一个主体域，每一个所述主体域对应数个数据单元；

f基于所述场景或情感信息库，对每一个主体域中的每一个数据单元的文本数据采用自动化文本识别方法来识别文本数据的场景信息或情感信息，从而得到至少一个按照特定主体信息分类的场景域或情感域；

g对每一个所述场景域或情感域中的元素，按场景信息或情感信息进行分类，从而获得数个特定域，每个所述特定域包含相同的主体信息以及相同的场景信息，或包含相同的主体信息以及相同的情感信息。

2.如权利要求1所述的数据挖掘方法，其特征在于：

所述数据单元设有数据标识码，属于同一数据单元的图像数据以及文本数据具有相同的数据标识码并通过数据标识码相互关联。

3.如权利要求1所述的数据挖掘方法，其特征在于：

所述自动化图像识别方法，包括步骤：

提取需要识别的图像数据的识别特征；

将所述图像数据的识别特征输入主体信息库进行计算，从而判断是否包含特定主体信息。

4.如权利要求1所述的数据挖掘方法，其特征在于：

所述自动化文本识别方法，包括步骤：

提取文本数据的识别特征；

将所述文本数据的识别特征输入场景或情感信息库进行计算，从而判断是否包含特定场景信息或情感信息。

5.如权利要求1所述的数据挖掘方法，其特征在于：

所述自动化文本识别方法，包括步骤：

对目标文本提取关键字；

将关键字输入场景或情感信息库，通过句法规则判断目标文本是否包含特定场景信息或情感信息。

6.如权利要求1-5中任意一项所述的数据挖掘方法，其特征在于，所述数据挖掘方法还包括步骤：

h将所有具有同一特定主体信息的特定域按其中元素的数量多少进行排序。

7.如权利要求1-5中任意一项所述的数据挖掘方法，其特征在于，所述数据挖掘方法还包括步骤：

h将所有具有同一特定场景信息或情感信息的特定域按其中元素数量多少进行排序。

8.如权利要求1-5中任意一项所述的数据挖掘方法，其特征在于，所述数据挖掘方法还包括步骤：

h对所有的特定域按筛选条件进行筛选，将筛选后的特定域按其中的元素数量多少进行排序。

9.一种数据挖掘方法，用于挖掘混合数据类型数据，其特征在于所述数据挖掘方法包括步骤：

a建立主体信息库，建立场景或情感信息库；

b获取多个数据单元，至少部分所述数据单元包括图像数据以及文本数据，所述图像数据中至少包括主体信息，所述文本数据中至少包括场景信息或情感信息；

c将每一个所述数据单元分解成图像数据以及文本数据；

e基于所述场景或情感信息库，对每一个数据单元的文本数据采用自动化文本识别方法从而识别文本数据的场景信息或情感信息；

f对主体信息进行分类，从而形成至少一个主体域；

g对每一个主体域，找出其中每一个主体信息所对应数据单元的场景信息或情感信息，从而得到按照特定主体信息分类的场景域或情感域；

h对每一个所述场景域或情感域，按场景信息或情感信息进行分类，从而获得数个特定域，每个所述特定域包含相同的主体信息以及相同的场景信息，或包含相同的主体信息以及相同的情感信息。

10.一种数据挖掘方法，用于挖掘混合数据类型数据，所述混合数据类型数据包括图像数据和文本数据，所述图像数据中至少包括主体信息，所述文本数据中至少包括场景信息或情感信息，其特征在于所述数据挖掘方法包括步骤：

a建立主体信息库，建立场景或情感信息库；

c将每一个所述数据单元分解成图像数据以及文本数据；

d基于所述场景或情感信息库，对每一个数据单元的文本数据采用自动化文本识别方法从而识别文本数据的场景信息或情感信息；

e对每一个数据单元按场景信息或情感信息进行分类，从而形成至少一个场景域或情感域，每一个所述场景域或情感域对应数个数据单元；

f基于所述主体信息库，对每一个场景域或情感域中的每一个数据单元的图像数据采用自动化图像识别方法来识别图像数据的主体信息，从而得到至少一个按照特定场景信息或情感信息分类的主体域；

g对每一个所述主体域中的元素，按主体信息进行分类，从而获得数个特定域，每个所述特定域包含相同的主体信息以及相同的场景信息，或包含相同的主体信息以及相同的情感信息。

11.一种数据挖掘方法，用于挖掘混合数据类型数据，其特征在于所述数据挖掘方法包括步骤：

a建立主体信息库，建立场景或情感信息库；

c将每一个所述数据单元分解成图像数据以及文本数据；

f对场景信息或情感信息进行分类，从而形成至少一个场景域或情感域；

g对每一个场景域或情感域，找出其中每一个场景信息或情感信息所对应数据单元的主体信息，从而得到按照特定场景信息或情感信息分类的主体域；

h对每一个所述主体域，按主体信息进行分类，从而获得数个特定域，每个所述特定域中的元素包含相同的主体信息以及场景信息，或包含相同的主体信息以及相同的情感信息。