CN106372232B

CN106372232B - 基于人工智能的信息挖掘方法和装置

Info

Publication number: CN106372232B
Application number: CN201610815019.0A
Authority: CN
Inventors: 洪婉玲; 孙珂; 郭伟东; 张希娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-09-09
Filing date: 2016-09-09
Publication date: 2020-01-10
Anticipated expiration: 2036-09-09
Also published as: CN106372232A

Abstract

本申请公开了基于人工智能的信息挖掘方法和装置。所述方法的一具体实施方式包括：获取目标网页的源代码；根据源代码的代码块是否包括预定标签和/或代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块；将所确定出的代码块包括的元素的内容确定为候选信息；基于预先设置的筛选条件组，从候选信息中筛选出结果信息。该实施方式提高了信息挖掘的效率与准确性。

Description

基于人工智能的信息挖掘方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及信息处理技术领域，尤其涉及基于人工智能的信息挖掘方法和装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

词汇是由单个或多个语素组成的不可拆分、可独立表义的紧密语言片段，是自然语言理解和信息检索的基础。随着互联网的迅速发展，大量的新词迅速的产生，这些新词包括品牌名、网络热词、专业名词、缩略语等等，它们的产生机制似乎完全无规律可寻。如“紫砂/茶/宠/怎样”里的“茶宠”，“阿芒/拿/硝胺/炸药/爆炸力/如何”里的“阿芒拿硝胺炸药”等。由于新词不能被正确有效识别而出现过多分词碎片，影响信息提取的正确率，导致用户需求难以满足。

新词，又称为未登录词(Out Of Vocabulary，OOV)，是指词典中未收录的词或短语，常见的未登录词包括人名、地名和企业名等。新词对于自然语言处理领域的多个浅层词法分析任务有着至关重要的影响。新词挖掘解决了词汇不完备的问题，使得用户的需求更好的被理解和满足。

然而，现有的信息挖掘方法通常是基于统计或基于规则。基于规则，是指通过语法规则或句式等，从目标文本中抽取符合这些规则的新词。规则的生成包括人工提取及自动模式学习两种方式。基于统计，是指通过对大规模语料的学习，发现潜在的新词，并提取其特征(独立词概率、字符序列)，使用机器学习模型进行训练以挖掘出新词。基于规则，灵活性低，人工提取规则耗费人力，而且需要不断的更新识别规则；此外容易出现大量半截词，如规则“X的歌很好听”，该规则对文本“王菲的歌很好听”能正确抽取出“王菲”，但对文本“他唱的歌很好听”抽取的词“他唱”属于半截词。基于统计的方法，经常会出现边界错误问题，且对“长词中含有短词”的现象,如“苏丹”与“苏丹红”的识别比较困难。

发明内容

本申请的目的在于提出一种改进的基于人工智能的信息挖掘方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种基于人工智能的信息挖掘方法，其特征在于，所述方法包括：获取目标网页的源代码；根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；将所确定出的代码块包括的元素的内容确定为候选信息；基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息。

在一些实施例中，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：去除所述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；根据所述去除处理后的源代码中的区隔标记将所述源代码划分成代码块；根据所述代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

在一些实施例中，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：检测所述源代码的代码块是否包括预定标签，其中，所述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

在一些实施例中，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：计算代码块包括的元素的内容的长度的标准差以及所述内容的构成成分的相似度，其中，所述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；若计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将所述计算出的标准差以及所述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

在一些实施例中，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：获取根据所述源代码构建的文档对象模型；采用树对齐方式分析所述文档对象模型中并列的节点的子树的结构，根据所述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

在一些实施例中，所述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，所述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：将满足所述筛选条件组的候选信息确定为结果信息。

在一些实施例中，所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：获取预设时间段内用户的搜索信息和点击信息集合，其中，所述点击信息集合包括在响应于搜索所述搜索信息而呈现的搜索结果中被点击的信息的集合；查询所述候选信息在所述搜索信息中出现的频率，以及所述候选信息与所述被点击的信息重合的部分为一个整体的概率；若查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将所述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

在一些实施例中，所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：获取预先建立的语料库；基于所述语料库计算所述候选信息跨词语切分的边界的次数；若计算出的次数大于预设的跨词语切分的边界的次数阈值，则将所述计算出的次数对应的候选信息确定为结果信息。

第二方面，本申请提供了一种基于人工智能的信息挖掘装置，其特征在于，所述装置包括：源代码获取单元，配置用于获取目标网页的源代码；代码块确定单元，配置用于根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；候选信息确定单元，配置用于将所确定出的代码块包括的元素的内容确定为候选信息；结果信息筛选单元，配置用于基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息。

在一些实施例中，所述代码块确定单元包括：去除子单元，配置用于去除所述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；划分子单元，配置用于根据所述去除处理后的源代码中的区隔标记将所述源代码划分成代码块；确定子单元，配置用于根据所述代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

在一些实施例中，所述代码块确定单元包括：检测子单元，配置用于检测所述源代码的代码块是否包括预定标签，其中，所述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；确定子单元，配置用于将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

在一些实施例中，所述代码块确定单元包括：标准差和相似度计算子单元，配置用于计算代码块包括的元素的内容的长度的标准差以及所述内容的构成成分的相似度，其中，所述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；确定子单元，配置用于若标准差和相似度计算子单元计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将所述计算出的标准差以及所述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

在一些实施例中，所述代码块确定单元包括：文档对象模型获取子单元，配置用于获取根据所述源代码构建的文档对象模型；确定子单元，配置用于采用树对齐方式分析所述文档对象模型中并列的节点的子树的结构，根据所述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

在一些实施例中，所述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，所述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及所述结果信息筛选单元进一步配置用于：将满足所述筛选条件组的候选信息确定为结果信息。

在一些实施例中，所述结果信息筛选单元包括：搜索信息和点击信息集合获取子单元，配置用于获取预设时间段内用户的搜索信息和点击信息集合，其中，所述点击信息集合包括在响应于搜索所述搜索信息而呈现的搜索结果中被点击的信息的集合；查询子单元，配置用于查询所述候选信息在所述搜索信息中出现的频率，以及所述候选信息与所述被点击的信息重合的部分为一个整体的概率；确定子单元，配置用于若查询子单元查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将所述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

在一些实施例中，所述结果信息筛选单元包括：语料库获取子单元，配置用于预先建立的语料库；次数计算子单元，配置用于基于所述语料库计算所述候选信息跨词语切分的边界的次数；确定子单元，配置用于若次数计算子单元计算出的次数大于预设的跨词语切分的边界的次数阈值，则将所述计算出的次数对应的候选信息确定为结果信息。

本申请提供的基于人工智能的信息挖掘方法和装置，通过获取目标网页的源代码，而后根据源代码的代码块是否包括预定标签和/或代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块，并将所确定出的代码块包括的元素的内容确定为候选信息，最后基于预先设置的筛选条件组，从候选信息中筛选出结果信息，提高了信息挖掘的效率与准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于人工智能的信息挖掘方法的一个实施例的流程图；

图3是根据本申请的基于人工智能的信息挖掘方法的一个应用场景的示意图；

图4是根据本申请的基于人工智能的信息挖掘方法的又一个实施例的流程图；

图5是根据本申请的基于人工智能的信息挖掘装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的基于人工智能的信息挖掘方法或基于人工智能的信息挖掘装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如，网页浏览器应用、搜索类应用、输入法应用等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上安装的网页浏览器应用、搜索类应用、输入法应用提供支持的后台服务器。服务器105可以获取目标网页的源代码；而后根据源代码的各个代码块是否包括预定标签和/或各个代码块包括的元素的相似度，分别确定各个代码块包括的元素之间是否为并列关系；并将确定出的包括的元素之间为并列关系的代码块包括的元素的内容确定为候选信息；最后基于预先设置的筛选条件组，从候选信息中筛选出目标信息。后续可以存储目标信息，以供为终端上的相关应用提供服务时使用。

需要说明的是，本申请实施例所提供的基于人工智能的信息挖掘方法一般由服务器105执行，相应地，基于人工智能的信息挖掘装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于人工智能的信息挖掘方法的一个实施例的流程200。所述的基于人工智能的信息挖掘方法，包括以下步骤：

步骤201，获取目标网页的源代码。

在本实施例中，基于人工智能的信息挖掘方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式获取目标网页的源代码。其中，目标网页是待挖掘的网页，即信息来源网页，可以是搜索引擎索引到的任意网页，也可以预先设置一个待挖掘网页的网址列表，根据列表中的网址依次获取其对应的网页的源代码。还可以基于预先建立的规则对网页进行过滤，过滤后的网页即为目标网页，作为示例，可以对黄色网站、赌博网站、广告网站进行过滤，这些网页为了能被搜索引擎索引到，通常会罗列大量无意义的词条或片段，这些词条或片段的引入会导致信息挖掘准确率下降。网页的源代码可以是指网页的HTML(Hyper Text Mark-up Language，超文本标记语言)源码，也可以是用于描述网页的其他语言形式的代码。

步骤202，根据源代码的代码块是否包括预定标签和/或代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

在本实施例中，在步骤201获取到目标网页的源代码之后，上述电子设备可以根据源代码的代码块是否包括预定标签和/或代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块。在HTML中，元素指的是从开始标签到结束标签的所有代码。在比较代码块包括的元素的相似度时，可以直接比较最小粒度的元素，即最内侧的元素的相似度，为了提高效率，可以先进行筛选，仅比较非空元素的内容的相似度，或标签相同的元素的相似度。并列关系是指元素内容相似或属于同一类型，例如，网站导航栏或筛选项的各个条目，购物页面中筛选项可以有品牌，各个品牌之间即为并列关系，导航栏中的食品类别，坚果炒货、肉干果铺、蜜饯果干和饼干蛋糕之间即为并列关系。

在本实施例中，预定标签可以是HTML中的列表项标签<li>、有序列表标签<ul>、无序列表标签<ol>、定义列表标签<dl>、定义列表中的项目的标签<dt>、描述列表中的项目的标签<dd>或其他用于并列关系的标签。无序列表是一个项目的列表，此列项目使用粗体圆点进行标记。无序列表始于<ul>标签。每个列表项始于<li>标签，同样，有序列表也是一列项目，列表项目使用数字进行标记。有序列表始于<ol>标签。每个列表项始于<li>标签。自定义列表不仅仅是一列项目，而是项目及其注释的组合。自定义列表以<dl>标签开始。每个自定义列表项以<dt>开始。每个自定义列表项的定义以<dd>开始。

在本实施例的一些可选的实现方式中，可以去除上述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；根据上述去除处理后的源代码中的区隔标记将上述源代码划分成代码块；根据上述代码块是否包括预定标签和/或上述代码块包括的元素的相似度，从上述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。上述去除处理还可以包括去除页面中用于显示广告的代码块。

在本实施例的一些可选的实现方式中，可以检测上述源代码的代码块是否包括预定标签；将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

在本实施例的一些可选的实现方式中，可以计算代码块包括的元素的内容的长度的标准差以及上述内容的构成成分的相似度，其中，上述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；若计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将上述计算出的标准差以及上述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

在本实施例的一些可选的实现方式中，也可以根据源代码的代码块是否包括预定标签和代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块，具体的可以给各信息项设置不同权值，综合各个信息项来确定，权值可以人工设置，也可以通过机器学习方法确定。

在本实施例的一些可选的实现方式中，可以获取根据上述源代码构建的DOM(Document Object Model，文档对象模型)；分析代码块中并列的节点的DOM子树结构是否相似，采用树对齐Tree-alignment方式进行判断。最后根据上述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。具体的，可以通过节点是否具有相同的XPath(Extensive Markup Language Path，可扩展标示语言路径语言)路径，XPath路径上的CSS(Cascading Style Sheets，层叠样式表)标签是否类似，树之间的编辑距离是否较近来判断。XPath为XML(Extensive Markup Language，可扩展标示语言)路径语言，用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。同样，也可以通过节点是否拥有共同的父节点，节点的兄弟节点是否较多，节点之间相似度是否高，节点是否是相邻的来判断，可以先根遍历网页的DOM树，对遇到每一个节点，获取其第一层子节点，然后从左到右计算相邻两个子节点的相似度，根据设置相似度阈值以及备选代码块最少兄弟节点个数等限制，从中挖掘出备选代码块，没有被当作备选代码块的节点继续递归处理，被当作备选代码块的节点不再对其子节点进一步处理，备选代码块即为所包括的元素之间为并列关系。

步骤203，将所确定出的代码块包括的元素的内容确定为候选信息。

在本实施例中，上述电子设备可以将步骤202中确定出的代码块包括的元素的内容确定为候选信息。在HTML中，元素的内容是开始标签与结束标签之间的内容。

步骤204，基于预先设置的筛选条件组，从候选信息中筛选出结果信息。

在本实施例中，上述电子设备可以基于预先设置的筛选条件组，从步骤203确定的候选信息中筛选出结果信息。筛选出的结果信息可以以词云的形式挖掘到的词语，其中，词云是对网络文本中出现频率较高的“关键词”予以视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使浏览网页者只要一眼扫过文本就可以领略文本的主旨；上述电子设备也可以提供上述词语的查询接口，方便用户查询历史时间段内挖掘出的词语；上述电子设备还可以为自然语言处理领域的中文分词系统、命名实体识别等词法分析系统提供基础资源以辅助提高这些系统的性能。

在本实施例的一些可选的实现方式中，上述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，上述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词。其中，预先设置的长度范围可以是长度小于2字符大于8字符；预先设置的黑名单可以包括一些禁止传播的敏感词或短语等；预先设置的非法词汇可以根据相关法规确定；预设的劣质词表可以包括带有广告性质的词或短语，预定构成成分的词可以包括类似地名+动词这种构成成分的词，例如，“北京招商”、“上海办证”。还可以设置一些前缀后缀，候选信息不能包含设置的前缀后缀，例如，求购手机、品牌加盟中的“求购”、“加盟”等。可以将满足上述筛选条件组的候选信息确定为结果信息。

在本实施例的一些可选的实现方式中，可以获取预设时间段内用户的搜索信息和点击信息集合，查询上述候选信息在上述搜索信息中出现的频率，以及上述候选信息与上述被点击的信息重合的部分为一个整体的概率；若查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将上述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。预设的时间段可以是一个月、一周等。其中，上述点击信息集合包括在响应于搜索上述搜索信息而呈现的搜索结果中被点击的信息的集合，例如，候选信息为“茶宠”，用户搜索“茶宠有什么寓意”之后，呈现的检索结果有“茶宠的讲究，茶宠图片赏析”、“茶台上放什么茶宠好”等，用户在搜索结果中点击“茶宠的讲究，茶宠图片赏析”之后，上述点击信息集合中的被点击信息可以为“茶宠的讲究，茶宠图片赏析”，“茶宠”与“茶宠的讲究，茶宠图片赏析”重合的部分为一个整体的概率是百分之百。上述阈值可以根据实际设置，或者通过机器学习方法，建立模型，以训练完善。

在本实施例的一些可选的实现方式中，可以获取预先建立的语料库；基于上述语料库计算上述候选信息跨词语切分的边界的次数；若计算出的次数大于预设的跨词语切分的边界的次数阈值，则将上述计算出的次数对应的候选信息确定为结果信息。同样，也可以使用切词工具，通过切分歧义来过滤，若词条在语料中大量跨切词边界，说明该词条很大概率属于非法词条，应对其过滤。切分歧义得分的计算公式如下：

其中，S代表切分歧义得分，right代表候选信息没有跨切词边界的频次，wrong代表候选信息跨切词边界的频次，可据此过滤得分低于预先设置的分数阈值的候选信息。

继续参见图3，图3是根据本实施例的基于人工智能的信息挖掘方法的应用场景的一个示意图。在图3的应用场景中，目标网页为论文数据库网站中某篇论文的页面的一部分。获取此页面的源码后，将此页面的源码分为各个代码块，在与关键词相关的代码块中包括以下内容：

<a…href＝"…">马尔科夫过程</a>；

<a…href＝"…">长江源区</a>；

<a…href＝"…">土地覆盖</a>；

分析上述元素的相似度，或者获取此页面的DOM，分析DOM树中各个并列的节点的子树的结构的相似度，确定此代码块包括的元素之间是并列关系，元素的内容“马尔科夫过程”“长江源区”“土地覆盖”为候选信息，再基于预先设置的筛选条件组，对“马尔科夫过程”“长江源区”“土地覆盖”进行筛选，三者为中文，长度在预先设置的长度范围内，不包含预先设置的非法词汇，且劣质词的占比不超过预设的劣质词的占比阈值，可将其确定为目标信息，即可将其作为新词存储在词典中，供后续使用。例如，可将其作为输入法或搜索引擎的联想词，或者加入切词工具的语料库中。

本申请的上述实施例提供的方法通过获取目标网页的源代码，而后根据源代码的代码块是否包括预定标签和/或代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块，并将所确定出的代码块包括的元素的内容确定为候选信息，最后基于预先设置的筛选条件组，从候选信息中筛选出结果信息，提高了信息挖掘的效率与准确性。

进一步参考图4，其示出了基于人工智能的信息挖掘方法的又一个实施例的流程400。该信息挖掘方法的流程400，包括以下步骤：

步骤401，获取目标网页的源代码。

在本实施例中，基于人工智能的信息挖掘方法运行于其上的电子设备(例如图1所示的服务器)可以通过浏览器从其他服务器处获取目标网页的源代码。

步骤402，去除源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码。

在本实施例中，上述电子设备可以去除步骤401中获取的源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码。上述信息会使网页分析复杂度加大，通过去除处理，过滤掉以上信息，可以得到较干净的网页文本，有利于提高后续流程的效率。

步骤403，根据去除处理后的源代码中的区隔标记将源代码划分成代码块。

在本实施例中，上述电子设备可以根据步骤402中去除处理后的源代码中的区隔标记将源代码划分成代码块。在HTML中，在HTML中，区隔标记可以是标签<div>，标签<div>可定义文档中的分区或节。<div>标签可以把文档分割为独立的、不同的部分。它可以用作严格的组织工具，并且不使用任何格式与其关联。

步骤404，计算代码块包括的元素的内容的长度的标准差以及内容的构成成分的相似度。

在本实施例中，上述电子设备可以计算步骤403中得到的代码块包括的元素的内容的长度的标准差以及内容的构成成分的相似度。其中，构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度。内容的长度可以用字符数衡量。词语的词性可以包括动词、名词等，构成词语的类别可以包括地名、化学成分名称等。进行计算之前需要对代码块包括的元素进行切分，抽取记录中的锚文本(anchor)内容。网页中存在并列关系的元素可以划分为两种：一种是单层anchor，例如，<a>苹果</a>；另一种是多层嵌套anchor，如<li><a>联想<\a><\li>，对多层嵌套，需要统计频繁出现的并列结构，根据此结构进行词条抽取。

步骤405，判断计算出的标准差是否在预设的标准差范围内，且计算出的构成成分的相似度是否超过预设的相似度阈值，如果是，则进入步骤406。

在本实施例中，上述电子设备可以判断步骤404计算出的标准差是否在预设的标准差范围内，且计算出的构成成分的相似度是否超过预设的相似度阈值，如果是，则进入步骤406。标准差范围、相似度阈值可以根据实际情况设定，也可以通过机器学习方法，通过样本训练确定。

步骤406，将计算出的标准差以及计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

在本实施例中，步骤405中的判断结果为是，上述电子设备可以将计算出的标准差以及计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

步骤407，将所确定出的代码块包括的元素的内容确定为候选信息。

在本实施例中，上述电子设备可以将步骤406中确定出的代码块包括的元素的内容确定为候选信息。

步骤408，基于预先设置的筛选条件组，从候选信息中筛选出结果信息。

在本实施例中，上述电子设备可以基于预先设置的筛选条件组，从步骤407确定的候选信息中筛选出结果信息。

从图4中可以看出，与图2对应的实施例相比，本实施例中的基于人工智能的信息挖掘方法的流程400突出了根据搜索信息生成关联搜索信息的步骤。由此，本实施例描述的方案进一步提高了信息挖掘的效率与准确性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种基于人工智能的信息挖掘装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的基于人工智能的信息挖掘装置500包括：源代码获取单元501、代码块确定单元502、候选信息确定单元503和结果信息筛选单元504。其中，源代码获取单元501，配置用于获取目标网页的源代码；代码块确定单元502，配置用于根据上述源代码的代码块是否包括预定标签和/或上述代码块包括的元素的相似度，从上述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；候选信息确定单元503，配置用于将所确定出的代码块包括的元素的内容确定为候选信息；结果信息筛选单元504，配置用于基于预先设置的筛选条件组，从上述候选信息中筛选出结果信息。

在本实施例中，基于人工智能的信息挖掘装置500的源代码获取单元501、代码块确定单元502、候选信息确定单元503和结果信息筛选单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203以及的步骤204实现方式的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述代码块确定单元502包括：去除子单元，配置用于去除上述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；划分子单元，配置用于根据上述去除处理后的源代码中的区隔标记将上述源代码划分成代码块；确定子单元，配置用于根据上述代码块是否包括预定标签和/或上述代码块包括的元素的相似度，从上述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

在本实施例的一些可选的实现方式中，上述代码块确定单元502包括：检测子单元，配置用于检测上述源代码的代码块是否包括预定标签，其中，上述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；确定子单元，配置用于将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

在本实施例的一些可选的实现方式中，上述代码块确定单元502包括：标准差和相似度计算子单元，配置用于计算代码块包括的元素的内容的长度的标准差以及上述内容的构成成分的相似度，其中，上述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；确定子单元，配置用于若标准差和相似度计算子单元计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将上述计算出的标准差以及上述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

在本实施例的一些可选的实现方式中，上述代码块确定单元502包括：文档对象模型获取子单元，配置用于获取根据上述源代码构建的文档对象模型；确定子单元，配置用于采用树对齐方式分析上述文档对象模型中并列的节点的子树的结构，根据上述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

在本实施例的一些可选的实现方式中，上述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，上述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及上述结果信息筛选单元504进一步配置用于：将满足上述筛选条件组的候选信息确定为结果信息。

在本实施例的一些可选的实现方式中，上述结果信息筛选单元504包括：搜索信息和点击信息集合获取子单元，配置用于获取预设时间段内用户的搜索信息和点击信息集合，其中，上述点击信息集合包括在响应于搜索上述搜索信息而呈现的搜索结果中被点击的信息的集合；查询子单元，配置用于查询上述候选信息在上述搜索信息中出现的频率，以及上述候选信息与上述被点击的信息重合的部分为一个整体的概率；确定子单元，配置用于若查询子单元查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将上述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

在本实施例的一些可选的实现方式中，上述结果信息筛选单元504包括：语料库获取子单元，配置用于预先建立的语料库；次数计算子单元，配置用于基于上述语料库计算上述候选信息跨词语切分的边界的次数；确定子单元，配置用于若次数计算子单元计算出的次数大于预设的跨词语切分的边界的次数阈值，则将上述计算出的次数对应的候选信息确定为结果信息。

下面参考图6，其示出了适于用来实现本发明实施例的服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括源代码获取单元、代码块确定单元、候选信息确定单元和结果信息筛选单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。例如，源代码获取单元还可以被描述为“获取目标网页的源代码”。

作为另一方面，本发明还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：获取目标网页的源代码；根据源代码的代码块是否包括预定标签和/或代码块包括的元素的相似度，从源代码的代码块中确定出所包括的元素之间为并列关系的代码块；将所确定出的代码块包括的元素的内容确定为候选信息；基于预先设置的筛选条件组，从候选信息中筛选出结果信息。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于人工智能的信息挖掘方法，其特征在于，所述方法包括：

获取目标网页的源代码；

根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；

将所确定出的代码块包括的元素的内容确定为候选信息；

基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息；

其中，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

根据所述代码块包括的最小粒度的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，其中，所述代码块包括的最小粒度的元素的相似度包括：最小粒度的元素的内容的长度的标准差以及所述内容的构成成分的相似度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

去除所述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；

根据所述去除处理后的源代码中的区隔标记将所述源代码划分成代码块；

根据所述代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

检测所述源代码的代码块是否包括预定标签，其中，所述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；

将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

计算代码块包括的元素的内容的长度的标准差以及所述内容的构成成分的相似度，其中，所述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；

若计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将所述计算出的标准差以及所述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

5.根据权利要求1所述的方法，其特征在于，所述根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块，包括：

获取根据所述源代码构建的文档对象模型；

采用树对齐方式分析所述文档对象模型中并列的节点的子树的结构，根据所述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

6.根据权利要求1、2、5中任一项所述的方法，其特征在于，所述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，所述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及

所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：

将满足所述筛选条件组的候选信息确定为结果信息。

7.根据权利要求1、2、5中任一项所述的方法，其特征在于，所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：

获取预设时间段内用户的搜索信息和点击信息集合，其中，所述点击信息集合包括在响应于搜索所述搜索信息而呈现的搜索结果中被点击的信息的集合；

查询所述候选信息在所述搜索信息中出现的频率，以及所述候选信息与所述被点击的信息重合的部分为一个整体的概率；

若查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将所述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

8.根据权利要求1、2、5中任一项所述的方法，其特征在于，所述基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息，包括：

获取预先建立的语料库；

基于所述语料库计算所述候选信息跨词语切分的边界的次数；

若计算出的次数大于预设的跨词语切分的边界的次数阈值，则将所述计算出的次数对应的候选信息确定为结果信息。

9.一种基于人工智能的信息挖掘装置，其特征在于，所述装置包括：

源代码获取单元，配置用于获取目标网页的源代码；

代码块确定单元，配置用于根据所述源代码的代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块；

候选信息确定单元，配置用于将所确定出的代码块包括的元素的内容确定为候选信息；

结果信息筛选单元，配置用于基于预先设置的筛选条件组，从所述候选信息中筛选出结果信息；

10.根据权利要求9所述的装置，其特征在于，所述代码块确定单元包括：

去除子单元，配置用于去除所述源代码中的注释信息、脚本信息、层叠样式表信息、标签的属性信息，以获取去除处理后的源代码；

划分子单元，配置用于根据所述去除处理后的源代码中的区隔标记将所述源代码划分成代码块；

确定子单元，配置用于根据所述代码块是否包括预定标签和/或所述代码块包括的元素的相似度，从所述源代码的代码块中确定出所包括的元素之间为并列关系的代码块。

11.根据权利要求9或10所述的装置，其特征在于，所述代码块确定单元包括：

检测子单元，配置用于检测所述源代码的代码块是否包括预定标签，其中，所述预定标签包括以下至少一项：列表项标签、有序列表标签、无序列表标签、定义列表标签、定义列表中的项目的标签、描述列表中的项目的标签；

确定子单元，配置用于将包括预定标签的代码块确定为所包括的元素之间为并列关系的代码块。

12.根据权利要求9或10所述的装置，其特征在于，所述代码块确定单元包括：

标准差和相似度计算子单元，配置用于计算代码块包括的元素的内容的长度的标准差以及所述内容的构成成分的相似度，其中，所述构成成分的相似度包括构成词语的词性的相似度和/或构成词语的类别的相似度；

确定子单元，配置用于若标准差和相似度计算子单元计算出的标准差在预设的标准差范围内，且计算出的构成成分的相似度超过预设的相似度阈值，则将所述计算出的标准差以及所述计算出的构成成分的相似度对应的代码块确定为所包括的元素之间为并列关系的代码块。

13.根据权利要求9所述的装置，其特征在于，所述代码块确定单元包括：

文档对象模型获取子单元，配置用于获取根据所述源代码构建的文档对象模型；

确定子单元，配置用于采用树对齐方式分析所述文档对象模型中并列的节点的子树的结构，根据所述子树的结构的相似度，确定代码块所包括的元素之间是否为并列关系。

14.根据权利要求9、10、13中任一项所述的装置，其特征在于，所述筛选条件组，包括：候选信息为中文；候选信息的长度在预先设置的长度范围内；候选信息不在预先设置的黑名单中；候选信息不包含预先设置的非法词汇；候选信息中劣质词的占比不超过预设的劣质词的占比阈值，其中，所述劣质词包括以下至少一项：虚词、助词、预设的劣质词表中的词以及预定构成成分的词；以及

所述结果信息筛选单元进一步配置用于：

将满足所述筛选条件组的候选信息确定为结果信息。

15.根据权利要求9、10、13中任一项所述的装置，其特征在于，所述结果信息筛选单元包括：

搜索信息和点击信息集合获取子单元，配置用于获取预设时间段内用户的搜索信息和点击信息集合，其中，所述点击信息集合包括在响应于搜索所述搜索信息而呈现的搜索结果中被点击的信息的集合；

查询子单元，配置用于查询所述候选信息在所述搜索信息中出现的频率，以及所述候选信息与所述被点击的信息重合的部分为一个整体的概率；

确定子单元，配置用于若查询子单元查询到的频率超过预设的频率阈值和/或查询到的概率超过预设的概率阈值，则将所述查询到的频率和/或查询到的概率对应的候选信息确定为结果信息。

16.根据权利要求9、10、13中任一项所述的装置，其特征在于，所述结果信息筛选单元包括：

语料库获取子单元，配置用于预先建立的语料库；

次数计算子单元，配置用于基于所述语料库计算所述候选信息跨词语切分的边界的次数；

确定子单元，配置用于若次数计算子单元计算出的次数大于预设的跨词语切分的边界的次数阈值，则将所述计算出的次数对应的候选信息确定为结果信息。