CN108509571A

CN108509571A - 一种网页信息数据挖掘通用方法

Info

Publication number: CN108509571A
Application number: CN201810254857.4A
Authority: CN
Inventors: 刘莎
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-09-07
Anticipated expiration: 2038-03-26
Also published as: CN108509571B

Abstract

本发明在对网页信息全文关键字搜索结果进行信息特征系统分析的基础之上，针对网页信息数据挖掘中主要难点：信息分类及其权重、关键词搜索及其摘要提取，提供了系统化的全新解决方案。该方法不仅是网页信息通用数据挖掘的系统方法，并且在根本改善网页信息全文关键词搜索领域具有重要和普遍的应用价值。

Description

一种网页信息数据挖掘通用方法

技术领域

本发明涉及计算机及通信领域，特别是涉及互联网信息数据挖掘通用方法。

背景技术

在数据挖掘领域，面向各类用户提供互联网信息数据挖掘服务，无疑是数据挖掘服务的最大应用市场。但网页信息的80%左右是半结构或无结构文本信息，导致互联网信息数据挖掘服务质量差，效率低下。

如何才能根本改善网页信息的通用化分类水平及摘要抽取质量,是互联网信息数据挖中迫切需要解决的重大问题。为了解决网页信息的数据挖掘这一难点，提高互联网信息数据挖掘质量，发明人对网页信息全文关键字搜索结果进行了信息特征分析，发现了互联网信息组织结构的双十定律：（参见图1）。无论在全文关键词搜索框中输入任意关键字（例如：国家发改委、苹果公司、智能手机、云计算、普金、世界杯、欧美大片……），其相关信息的高频顶层分类均在10项左右。例如，任意主题关键字的相关信息高频顶层分类结果均包括：新闻、公告、知识、产品、服务、论坛、点播/下载、论坛、微博/微信、大黄页。并且，每个信息分类下的常用高频信息组织结构词也在10项左右。

例如：招聘、应聘、征婚、交友等不同功能信息的常用高频通用组织结构词均包括：交往目的、年龄、性别、学历、职业、性格、爱好.....。因此，均属于“人际交往”类信息。

根据上述互联网信息组织双十定律，本发明提供一种网页信息通用数据挖掘方法（包括各种非结构化文本信息），以提高互联网信息数据挖掘通用服务的质量与效率。

发明内容

本发明提供一种网页信息数据挖掘通用方法，以根本改善互联网信息数据挖掘通用服务质量与效率。其主流程如下：

获得数据挖掘组织结构词及数据挖据内容关键词；

用获得的数据挖掘组织结构词匹配网页信息全文关键词；

根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判断网页信息类型；

在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数；

根据匹配成功的网页信息组织结构词、网页信息内容关键词以及获得的关键词参数抽取和整理网页信息摘要；

用获得的与数据挖掘目的相匹配的数据挖掘算法处理抽取到的网页信息摘要；

将网页信息摘要处理结果转换为用户所需的数据挖掘可视化结果并进行显示。

其中，

所述的数据挖掘组织结构词，是指从数据挖掘需求方获得的互联网信息通用顶层组织结构词及相关下层组织结构词。

所述的数据挖据内容关键词，是指从数据挖掘需求方获得的数据挖掘组织结构词下的关键词。

所述的网页信息全文关键词，是指任意网页文字信息中的可直接检索到的关键词，但不包括关键词属性标记。

所述的网页信息组织结构词，是指用数据挖掘方提供的数据挖掘组织结构词检索到的网页信息关键词。

所述的网页信息内容关键词，是指用数据挖掘方提供的数据挖掘内容关键词检索到的网页信息关键词。

所述的关键词参数，是指在进行网页信息摘要抽取和整理时为关键词匹配结果提供的辅助性参数。

所述的网页信息类型，是指可对任意网页信息进行通用分类的网页信息类型。

所述的获得网页信息数据挖掘组织结构词及数据挖据内容关键词的方法，包括从网页信息数据挖掘人机交互通用模板上获得数据挖掘组织结构词、数据挖据内容关键词。

其中所述的网页信息数据挖掘人机交互通用模板的预设内容包括：主题关键词输入框，各项分类下的数据挖掘通用组织结构词以及该数据挖掘组织结构词下的数据挖据内容关键词输入框和供用户选择数据挖掘相关需求及挖掘目的自由输入框。

其中，

本发明主流程所述的“根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判定网页信息类型”的方法还包括以下步骤：

用数据挖掘组织结构词匹配网页信息全文关键词的语用属性标记；

用数据挖掘组织结构词与网页信息全文关键词的匹配结果，以及数据挖掘组织结构词与网页信息全文关键词的语用属性标记的匹配结果之和，判定某网页信息的数据类型。

其中所述的语用属性标记，是指表示网页信息全文关键词的功能和应用范围的网页信息通用组织结构词或其数字编码。

其中，

本发明主流程中所述的在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数的方法还包括以下步骤：

获得关键词的相关参数；

用获得的关键词参数辅助抽取和整理网页信息全文摘要；

获得摘要质量评估数据；

根据网页信息摘要质量评估数据调整预设的关键词参数；

采用调整后的关键词参数再次抽取相同网页信息摘要并进行摘要信息整理。

其中，

所述的关键词参数包括：网页信息关键词位置参数、关键字比例参数1、关键字比例参数2关键词距离参数、关键词相关性参数1、关键词相关性参数2、相关性参数1和参数2的关联参数、数据挖掘组织结构词权重参数、数据挖掘内容关键词权重参数、网页信息可结构化参数、各类参数的权重参数、网页信息分类效率指数、网页信息摘要质量指数。

其中，

所述的关键词位置参数，是指某一匹配成功的关键词在网页信息中的所处位置。

所述的关键字匹配度参数1，是指不同网页信息或文本中的相同关键词匹配成功的次数之比。

所述的关键字匹配度参数2，是指同一网页信息或文本中的不同关键词匹配成功的次数之比。

所述的关键词距离参数，是指在同一网页信息中的核心关键词之间的其它关键词插入数量。

所述的关键词相关性参数1，是指数据挖掘组织结构词与数据挖掘内容关键词之间的组合频率。

所述的关键词相关性参数2，是指用数据挖掘组织结构词、数据挖掘内容关键字检索到的网页信息全文中的网页信息组织结构词与网页信息内容关键词的组合频率。

所述的相关性参数1和参数2的关联参数，是指相关性参数1与相关性参数2的动态比值。

所述的数据挖掘组织结构词权重参数，是指本发明预设的数据挖掘组织结构词之间的权重参数。

所述的数据挖掘内容关键词权重参数，是指根据数据挖掘组织结构词的权重参数所获得的该组织结构词下的数据挖掘内容关键词的权重参数。

所述的网页信息可结构化参数，是指用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词后，获得的某条网页信息的组织结构词的数量与网页信息内容关键词的数量之乘积。

所述的各类参数之间的权重参数，是指预设的各类关键词参数之间的价值参数。

其中，

所述的摘要质量评估数据，包括网页信息分类效率指数、网页信息摘要质量指数。

所述的网页信息分类效率指数，是指已获得的网页信息自动分类结果与专业化人工分类结果的准确度之比。

所述的网页信息摘要质量指数，是指根据预设的网页信息摘要参数计算出的网页信息摘要质量指数。

其中所述的网页信息摘要质量参数包括网页信息摘要信息的可用性、完整性、可靠性；

其中，

所述的网页信息摘要可用性，是指所检索到的网页信息组织结构词与网页信息内容关键词之间的相关性；

所述的网页信息摘要完整性是指抽取到的摘要信息的完整性；

所述的网页信息摘要可靠性，是指抽取到的摘要信息的准确性。

其中，

所述的关键词位置参数、关键字比例参数1-2、关键词距离参数，从网页信息检索结果数据库获得；

所述的关键词相关性参数1从数据挖掘需求信息数据库获得；

所述的关键词相关性参数2从网页信息检索结果数据库获得；

所述的相关性参数1和参数2的关联参数，从数据挖掘需求数据库和网页信息检索结果数据库获得；

所述的数据挖掘组织结构词之间的权重参数、数据挖掘内容关键词之间的权重参数、网页信息可结构化参数、各类参数之间的权重参数，从本发明应用系统中预设的关键词参数数据库获得；

所述的网页信息分类效率指数、网页信息摘要质量指数，从本发明应用系统中的摘要质量检测参数数据库获得。

其中，

本发明主流程所述的在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数中的获得关键词距离参数的方法包括以下步骤：

确定网页信息关键词的位置；

抽取核心关键词集中匹配成功的上下文；

计算上下文中所有关键词数量与核心关键词数量之比。

其中，所述的网页信息核心关键词，是指与数据挖掘核心组织结构词相对应的网页信息关键词。所述的数据挖掘核心组织结构词，是指在同类型信息中最为重要和典型的组织结构词。

本发明所述的网页信息数据挖掘方法，将在推动互联网信息数据挖掘服务、根本改善互联网网页信息全文搜索领域起到关键性作用。

具体实施方式

下面结合附图进一步说明本发明

说明书附图

图1 是互联网信息组织双十定律示意图

图2是本发明主流程

图3是互联网信息数据挖据人机交互通用模板

图4是数据挖掘组织结构词与下层组织结构词获得方式示意图

图5是数据挖掘内容关键词获得方式示意图

图6为是网页信息数据挖据结果的图形化表达示意图

图7为实施例3主流程

图8为检索结果示意图

其中，图3所示的网页信息数据挖掘人机交互通用模板的预设内容包括：主题关键词输入框，各项分类下的数据挖掘通用顶层组织结构词，以及该数据挖掘组织结构词下的数据挖据内容关键词输入框和供用户选择数据挖掘相关需求及挖掘目的自由输入框。

其中，图3中顶部的输入框是互联网信息数据挖据人机交互通用的主题关键词输入框。以下文字为使用方法说明。中部是预设的各项分类下的数据挖掘通用顶层组织结构词，各个组织结构词下的“（）”符号是该数据挖掘组织结构词下的数据挖据内容关键词输入框。再下层是供用户选择的数据挖掘相关需求及挖掘目的自由输入框。

实施例1

参见附图1、2、3、4、5。一种网页信息数据挖掘通用方法，用于提高互联网信息数据挖掘通用服务的质量与效率。其主流程包括以下步骤：

步骤1：获得数据挖掘组织结构词以及数据挖据内容关键词；

参见图4，例如，所述的数据挖掘组织结构词，可以是从数据挖掘人机交互通用模板上的获得的数据挖掘组织结构词“产品说明”，以及相关的下层组织结构词“产品性能”、“技术参数”、“使用方法”。

参见图5，例如, 所述的数据挖据内容关键词，可以是从数据挖掘人机交互通用模板上的数据挖掘组织结构词“使用说明”下获得的内容关键词“使用说明已经修正”中的“使用说明”。

所述的获得网页信息数据挖掘组织结构词及数据挖据内容关键词的方法，包括从网页信息数据挖掘人机交互通用模板上获得数据挖掘组织结构词、数据挖据内容关键词；

参见图3及相关说明。所述的网页信息数据挖掘人机交互通用模板的预设内容包括：主题关键词输入框，各项分类下的数据挖掘通用顶层组织结构词，以及该数据挖掘组织结构词下的数据挖据内容关键词输入框和供用户选择数据挖掘相关需求及挖掘目的自由输入框。

步骤2：用获得的数据挖掘组织结构词匹配网页信息全文关键词；

其中，

所述的网页信息全文关键词，是指可通过网页文字信息叙词表检索到的任意关键词；但不包括关键词属性标记。

其中所述的网页文字信息叙词表，是指用于标引、存储和检索文献的词典；所述的关键词属性标记，是指指定关键词应用范围及功能的关键词属性标记。

例如，关键词“智能手机”的属性标记，可以是指定关键词应用范围及功能的通用属性标记“产品”或代码。

步骤3：根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判断网页信息类型；

参见图1。例如，根据互联网信息组织双十定律提供的网页信息通用组织结构词分类：新闻、告示、知识、产品……。

步骤4：在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数；

其中所述的关键词参数，是指在进行网页信息摘要抽取和整理时提供的辅助性参数。

步骤5：根据匹配成功的网页信息组织结构词、网页信息内容关键词以及获得的关键词参数抽取和整理网页信息摘要；

步骤6：用获得的与数据挖掘目的相匹配的数据挖掘算法处理抽取到的网页信息摘要；

参见图3，其中，

所述的从数据挖掘需求方获得的挖掘目的，是指从数据挖掘需求方获得的数据挖掘目的。

例如，从数据挖掘需求方获得的数据挖掘目的可以是在网页信息数据挖掘人机交互通用模板上获得数据挖掘用户选择的“历史数据演变分析、数据关联分析、未来趋势分析”。

所述的处理抽取到的网页信息摘要，是指用与挖掘目的相匹配的数据挖掘相关算法及程序，对抽取到的摘要信息进行分析、计算等相关处理。

例如，所述的数据挖掘相关算法及程序可以是历史数据演变分析算法与程序、数据关联算法及分析程序、未来趋势相关算法及分析程序。

步骤7：用相关程序将网页信息摘要处理结果转换为用户所需的数据挖掘可视化结果并进行显示。

参见图6，其中所述的数据挖掘可视化结果是指以数据挖据结果图形化表达方式为代表的数据挖掘结果。

本发明实施例1所述的网页信息数据挖掘方法的应用价值在于：

从实施例1可以看出，本发明提供了非结构化网页信息向结构化信息转换的系统方法。

其中，将网页信息组织通用组织结构词作为网页信息分类特征词，与现有的从网页信息标签中、正文关键词中直接抽取网页信息特征词相比，可根本改善网页信息分类质量。

并且，将结构化、系统化的关键词参数引入互联网信息数据挖掘，可大幅度改善互联网信息摘要抽取、摘要整理、数据挖掘结果的质量。

实施例2

由于大量网页信息并没有直接提供网页信息组织结构词。例如，新闻信息中的组织结构词（如，主体、行为、时间、地点）一般不直接出现在新闻类网页信息文本中，将导致数据挖掘组织结构词在网页信息全文关键词中的匹配结果为空。

为了解决这一问题，本发明主流程中的“根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判定网页信息类型”的方法还包括以下步骤：

步骤1：用数据挖掘组织结构词匹配网页信息全文关键词的语用属性标记；

例如，网页信息全文关键词“上市、3月10号、深圳”所对应的语用属性标记可以是网页信息组织结构词“行为、时间、地点”，其数字编码可以是11、12、13。其中的第一位数字是信息分类编码（如新闻），第二位数字是同一信息分类下的组织结构词编码（如行为、时间、地点）。

步骤2：用数据挖掘组织结构词与网页信息全文关键词的匹配结果，以及用数据挖掘组织结构词与网页信息全文关键词的语用属性标记的匹配结果之和，判定某网页信息的数据类型。

例如，用在实施例1步骤2中获得的数据挖掘组织结构词（如，新闻类组织结构词中的“行为、时间、地点”）与网页信息全文关键词的匹配结果，以及用数据挖掘组织结构词与网页信息全文关键词“上市、3月10号、深圳”的语用属性标记“行为、时间、地点”的匹配结果之和，判定某网页信息的数据类型是否为新闻类信息。

实施例2所述的网页信息数据挖掘通用方法的应用价值在于，网页信息分类是数据挖掘的基础环节。在网页信息分类时增加数据挖掘组织结构词与网页信息内容关键词的语用属性标记匹配结果，可大幅度改善网页信息分类的质量与效率。

但是，采用上述数据挖掘组织结构词间接匹配方法（用数据挖掘组织结构词匹配网页信息全文关键词的语用属性标记）所获得的网页信息分类结果，还是有可能不能实现网页信息准确分类。

例如，与新闻类数据挖掘组织结构词（行为、时间、地点）间接匹配成功的网页信息全文关键词中的“上市、3月10号、深圳”的网页信息，既可能是新闻类信息，也可能是对某一“上市”事件的评论信息。此时，网页信息全文关键词的位置、距离、数量、比率、权重及组织结构关系等参数对网页信息类型判定具有重要参考价值。

同时，网页信息关键词的位置、距离、数量、比率、权重及组织结构关系等参数，不仅对判定网页信息分类有重要作用，也对网页信息摘要抽取质量、数据挖掘质量具有重要影响。

因此，获得和应用网页信息关键词参数对提高和保障网页信息数据挖掘质量具有普遍和重要价值。

实施例3

参见图7 ，为了提高网页信息数据挖掘质量，本发明实施例1中的步骤4所述的在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数的方法还包括以下步骤：

步骤1：获得关键词的相关参数；

步骤2：用获得的关键词参数辅助抽取和整理网页信息全文摘要；

所述的辅助抽取、整理网页信息全文摘要，是指用匹配成功的关键词的相关参数对网页信息进行摘要抽取与整理。

具体示例请见后文。

步骤3：获得摘要质量评估数据；

所述的摘要质量评估数据包括人工和自动评估数据。

步骤4：根据网页信息摘要质量评估数据调整预设的关键词参数；

其中的关键词参数调整包括自动调整以及人工调整。

步骤5：采用调整后的关键词参数再次抽取相同网页信息摘要并进行摘要信息整理。

其中，所述的关键词参数包括：

网页信息关键词位置参数、关键字比例参数1、关键字比例参数2、关键词距离参数、关键词相关性参数1、关键词相关性参数2、相关性参数1和参数2的关联参数、数据挖掘组织结构词之间的权重参数、数据挖掘内容关键词之间的权重参数、网页信息可结构化参数、各类参数之间的权重参数、网页信息分类效率指数、网页信息摘要质量指数。

其中，

1、关键词位置参数，是指某一匹配成功的关键词在网页信息中的所处位置。

例如，某一匹配成功的关键词“气候变化”出现在网页信息的标题，其关键词位置参数可设为3；如果关键词“气候变化”出现在网页信息的正文第1段，其关键词位置参数可设为2。

关键字位置参数的应用价值在于，关键字位置参数可根据匹配成功的关键词所在位置，判断该匹配成功关键词的重要程度。

2、关键字匹配度参数1，是指不同网页信息或文本中的相同关键词匹配成功的次数。

例如，当数据挖掘组织结构词“生产商”，在某网页信息中的匹配成功次数为5，而在另一网页信息中的匹配成功次数为3时，其关键字匹配度参数1为5或3。

关键字匹配度参数1的应用价值在于：在数据挖掘的关键词搜索环节中，相同关键词在不同网页信息中的匹配成功次数，可以在一定程度上反应该条信息与数据挖掘需求信息的相关程度。

虽然上述两类参数（关键词位置参数、关键字比例参数）在网页信息全文检索中已经普遍使用。但是，仅靠这两类参数进行互联网信息数据检索和挖掘，所抽取到的信息摘要仍然质量低下。

3、关键字匹配度参数2：是指同一网页信息或文本中的不同关键词匹配成功的次数之比。

例如，当获得的产品类数据挖掘组织结构词“生产商、产品说明、出售价格”与某网页信息全文关键词“生产商、产品说明、出售价格”进行匹配时的匹配成功数量分别是：“生产商”匹配成功56次、“产品说明”匹配成功0次、“出售价格”匹配成功2次，则以上多个关键词的匹配比例参数为56：0：2。

如果对匹配比例中的“出售价格”加入权重系数3，则以上多个关键词的匹配比例参数为56：0：6。

关键字匹配度参数2的应用价值在于：采用多个相关关键词的匹配度参数之比来判断网页信息与数据挖掘需求信息的匹配度，比采用单一关键词来判断数据挖掘需求信息的匹配度更有价值。

例如，当某一网页信息中的“生产商、产品说明、出售价格”匹配比例参数为56：0：2，而另一网页信息中的“生产商、产品说明、出售价格”的匹配比例参数为56：50：2时，后一检索结果显然比前一检索结果更符合数据挖掘方的信息需求。

4、关键词距离参数：指网页信息核心关键词之间的其它关键词插入数量。

例如，在新闻类信息（如，“2016年5月1日某乐队在巴黎中央公园举办音乐会”）中的核心关键词之间几乎没有其它关键词。而在该事件的评论信息中，主体、行为、时间和地点的对应关键词之间可能被不少其它关键字隔开。例如，“某乐队在巴黎举行的音乐会已进入全球巡演的最后阶段。眼下，音乐会正在2016年的5月的巴黎举行，明年，可能在……”

其中，所述的获得关键词距离参数的方法可以是，在确定摘要关键词的位置之后，在核心关键词集中匹配成功的上下文中，计算所有关键词数量与核心关键词数量之比。

其中所述的网页信息核心关键词，是指与数据挖掘核心组织结构词相对应的网页信息关键词。所述的数据挖掘核心组织结构词，是指在同类型信息中最为重要和典型的组织结构词。例如，在新闻类信息的10个组织结构词中，行为主体、行为、时间、地点是最为重要和典型的新闻类信息组织结构词。

本发明引入关键词距离参数的价值在于，关键词距离参数在网页信息分类和摘要抽取中均具有普遍实用价值。

例如，在各类网页信息摘要抽取时，可根据核心关键词之间的距离判断网页信息的分类结果；也可在摘要信息抽取时，根据核心关键词之间的距离，优先抽取距离较近的核心关键词的上下文。

5、关键词相关性参数1，是指数据挖掘组织结构词与数据挖掘内容关键词之间的组合频率。

例如，在某一特定时间段内（如，24小时内），如果从数据挖掘通用人机交互模板上获得的服务类数据挖掘组织结构词（服务内容）与在该组织结构词下获得的数据挖掘内容关键词（电影票预售）的组合频率为1个：45次，则1：45代表了数据挖掘需求中的组织结构词“服务内容”与其下的数据挖掘内容关键字“电影票预售”之间在特定时间段的相关性参数。

再例如，从数据挖掘通用人机交互模板上获得的两个数据挖掘组织结构词“服务内容”、“服务标题”下，均出现了数据挖掘内容关键词“电影票销售”，并且其总数为45次，则数据挖掘组织结构词“服务标题”、“服务内容”与数据挖掘内容关键词“电影票预售”之间的相关性参数为2：45。

在网页信息数据挖掘中引入关键词相关性参数1的价值在于，根据数据挖掘组织结构词与数据挖掘内容关键词之间的组合频率，可以判断数据挖掘需求的活跃度。

例如，当获得的数据挖掘组织结构词（如，服务内容）与数据挖掘内容关键词（如，电影票销售）在某一时间段的组合频率低于与其它各项数据挖掘组织结构词的组合频率，则也可以说明此短时间内相关信息的数据挖掘需求活跃度低。而当组合频率升高时，则说明相关信息挖掘的活跃度升高。因此，可以根据数据挖掘组织结构词、数据挖掘内容关键词之间的组合频率判断数据挖掘信息的活跃程度。而采用关键词结构化组合频率来判断数据挖掘需求方的信息需求活跃度，显然比仅用全文关键词计算信息需求活跃度更为精准。

6、关键词相关性参数2：是指用数据挖掘组织结构词、数据挖掘内容关键字检索到的网页信息全文中的网页信息组织结构词与网页信息内容关键词的组合频率。

例如，用数据挖掘组织结构词“服务价格”、数据挖掘内容关键词“长城故事票价”组合检索到的网页信息全文中，网页信息通用组织结构词“服务价格”与网页信息内容关键词“长城故事电影票价”在某一时间段的组合频率为1：20（如，20个检索结果），则在网页信息全文关键词中的网页信息通用组织结构词“服务价格”与网页信息内容关键词“电影长城故事”之间的相关性参数为1：20。

本发明引入关键词相关性参数2的应用价值在于，根据网页信息组织结构词与网页信息内容关键词之间的组合频率，可以判断相关网页发布信息的活跃度。

例如，当网页信息内容关键词“长城故事电影票价”与网页信息通用组织结构词“服务价格”的组合频率低与其它网页信息通用组织结构词的组合频率时，说明此相关发布信息的活跃度低。当组合频率升高时，则说明相关发布信息的活跃度升高。因此，可以根据网页信息组织结构词与网页信息内容关键词之间的组合频率，判断网页信息的活跃程度。而采用关键词结构化组合的方式判断网页信息活跃度，显然比仅用全文关键词判断网页信息活跃度更有价值，也更为准确。

7、相关性参数1和参数2的关联参数：是指相关性参数1与相关性参数2的动态比值。

例如，当在某段时间内从数据挖掘需求方获得的数据挖掘组织结构词（服务内容）与数据挖掘内容关键词（电影票出售）的相关性参数1为1：30，而被检索到的网页信息组织结构词“服务价格”与网页信息内容关键词“电影长城故事”之间的相关性参数2为 2 :20时，则此时的相关性参数1和相关性参数2之间可以获得一个动态比值。

例如，在同一时间的相关性参数1为1：30，相关性参数2为2：20时，我们可以在此时获得一个关联参数比值1：30/2：20。当在另一时间的相关性参数1变为2：30，相关性参数2为1：30时，我们可以获得另一个的关联参数2：30/1：30。其中的“/”代表相关性参数1和参数2的比值。

此关联参数的应用价值在于，随着相关性参数1、2之间的关联参数在不同时间的变化，可以得到用户信息需求和信息检索结果之间的动态关联数据，以便及时向数据应用双方提供行为导向。

8、数据挖掘组织结构词之间的权重参数：是指本发明预设的数据挖掘组织结构词之间的权重参数。

例如，可以根据新闻类数据挖掘组织结构词的重要性，分别给新闻类数据挖掘组织结构词权重参数为：主体1，行为1.5、时间1，地点2，以此类推。然后根据数据挖掘组织结构词的预设权重参数给检索到的网页信息组织结构词进行数据重要性加权。

引入数据挖掘组织结构词之间的权重参数的价值在于，数据挖掘组织结构词之间的权重参数可以反映相关内容的重要性程度。以便在摘要信息抽取时能够抽取到相关重要内容。

9、数据挖掘内容关键词之间的权重参数：是指根据数据挖掘组织结构词的权重参数所获得的该组织结构词下的数据挖掘内容关键词权重参数。

例如，如果在数据挖掘的新闻类信息、产品类信息需求中均出现了数据挖掘内容关键词“手机型号”。则可根据内容关键词“手机型号”在新闻类、产品类信息中的不同组织结构词获得不同的权重分值。

由于数据挖掘组织结构词是数量有限的结构化关键词，而数据挖掘内容关键词是理论上无限的无结构关键词。因此，本发明所述的对数据挖掘内容关键词加入权重系数的实际方法可以是：根据组织结构词的权重参数获得组织结构词下的内容关键词权重参数。

虽然数据挖掘内容关键词之间的权重参数是由数据挖掘组织结构词的权重参数决定的。但是，一旦赋予不同信息分类下的数据挖掘内容关键词以不同的权重参数，则在各类网页信息中检索到的相同内容关键词将可获得不同的价值参数。这也将为信息分类、信息摘要、摘要整理提供重要的参数依据。

10、网页信息可结构化参数：是指用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词后，获得的某条网页信息的组织结构词的数量，以及网页信息内容关键词的数量之乘积。

例如，如果在数据挖掘通用人机交互模板上预设的新闻类全部组织结构词数量为10，而某网页信息中匹配成功的新闻分类下的组织结构词数量为4项（如，主体、行为、时间、地点），则该条信息的结构化参数为4；如果每个数据挖掘组织结构词下均能检索到内容关键词，则该条信息的可结构化指数为4X100%。

引入网页信息可结构化参数的基本意义在于，在网页信息检索结果排序和网页摘要整理中，可结构化参数具有重要应用价值。

例如，可在网页信息检索结果排序中将结构化程度高的网页信息作为检索对象。

例如，参见图8，也可以在对检索到的摘要信息进行整理时，根据网页信息内容关键词“北京队对新疆队、篮球赛、2018年5月5日晚8点、北京”所对应的网页信息通用组织结构词，在网页信息摘要整理时，在上述检索结果之前或之后，分别加入网页信息通用组织结构词（主体、行为、时间、地点），以使数据挖掘结果更为实用。

11、各类参数之间的权重参数：是指预设的各类关键词参数之间的价值参数。

例如，预设网页信息的关键词位置参数的价值指数为1、关键字数量与比例指数的参考价值指数为2、关键词距离参数的参考价值指数为3；关键词权重指数参考价值指数为4、以此类推。

由于各类关键词参数对提高网页信息摘要质量具有不同价值，因此,可以通过调整各类参数之间的价值参数，提高网页信息摘要抽取质量。

例如，对于网页信息检索而言，如果关键词位置参数、关键字比例参数具有较高的应用价值，可在进行网页信息检索环节对这2类参数给以加权，或者仅使用这2类参数。

例如，对于网页信息摘要抽取而言，如果关键词距离参数、关键词权重参数、关键词相关性参数具有更高的应用价值。则可以在网页信息摘要抽取阶段，将这2类参数给以加权，或者仅使用这2类参数。

例如，对于网页信息摘要质量判断而言，如果网页信息可结构化参数具有普遍应用价值。在对网页信息摘要质量判断时，则可对网页信息可结构化参数给以加权，或者仅使用这2类参数。

简言之，上述各类参数之间的权重参数，可以在执行网页数据挖掘的不同任务时（如，网页信息分类、网页信息检索、网页信息摘要整理），通过各类参数权重分调整，提高不同应有功能下的数据获取、分析等能力。

显然，在以上各类关键参数的组合应用中，很可能还会产生各类参数的组合联动结果和相关应用价值。而各类参数的组合联动结果，还将进一步提高网页信息摘要的抽取和整理效率。

12、网页信息分类效率指数：是指本本发明所述的已获得的网页信息自动分类结果与专业化人工分类结果的准确度之比。

13、网页信息摘要质量指数：是指直接计算出的网页信息摘要抽取的质量指数，以及对抽取出的网页信息摘要采用同一数据挖掘相关算法后的获得的网页信息摘要质量指数。

其中，所述的网页信息摘要质量指数包括网页信息摘要信息的可用性、完整性、可靠性；

所述的网页信息摘要可用性是指所检索到的网页信息组织结构词与网页信息内容关键词之间的相关性；所述的网页信息摘要完整性是指抽取到的摘要信息的完整性；所述的网页信息摘要可靠性，是指抽取到的摘要信息的准确性。

例如，

（参见上述关键词相关性参数1、2）如果在网页信息全文检索结果中的网页信息内容关键词（北京队对新疆队、篮球赛、2018年5月5日晚8点、北京）与网页信息服务分类下的组织结构词（如，服务内容、服务方式、服务价格）之间的相关度低（包括网页信息组织结构词的间接匹配结果），则代表该条摘要信息作为服务类信息的可用性差。

换句话说，虽然网页信息内容关键词（北京队对新疆队、篮球赛、2018年5月5日晚8点、北京）均与新闻类信息中的数据挖掘内容关键词匹配成功，但均是在新闻信息中的组织结构词“评论”中匹配成功，则该条信息与新闻信息的相关度低，可用性差。

如果在同一条新闻信息摘要中，10个新闻类信息组织结构关键词下均有内容可供匹配，则代表该条摘要信息的完整性为100%；

如果在同一条新闻信息摘要中的关键性组织结构词（如，新闻类信息中的主体、行为、时间、地点）下均有内容关键词直接匹配成功，则代表该条摘要信息的可靠性为100%。

其中，

所述的关键词相关性参数1从数据挖掘需求信息数据库获得；

所述的关键词相关性参数2从网页信息检索结果数据库获得；

本发明提供的网页信息数据挖掘通用方法，与发明人已获授权的上一相关专利（CN103970848 B一种通用型互联网信息数据挖掘方法专利名及专利号）之间的关系是：

首先，本发明所述的网页信息数据挖掘通用方法中的人机交互模板与前一专利所述的网页信息数据挖掘通用人机交互模板的内容及应用方法相同。

其次，前一发明所要解决的基本问题是，提供面向互联网信息结构化摘要的数据挖掘方法。而本发明所要解决的基本问题是，提供直接进行非结构化网页信息数据挖掘的方法。

因此，本发明与前一发明在应用功能上具有互补关系，并可视为对互联网结构化信息、非结构化信息进行数据挖掘的系统方法之一。

同时，不仅网页信息摘要抽取是互联网信息数据挖掘的重要环节，网页信息全文关键词检索也需要不断提高信息检索质量。而本发明提供的互联网信息数据挖掘需求方法的前5个步骤，以及在网页信息数据挖掘参数中新增加的8类关键词参数，也均可直接用于网页信息全文关键词检索结果摘要抽取和整理，以大幅度改善网页信息全文关键词检索质量。因此，在网页信息全文关键词检索时采用本发明所述方法（互联网信息数据挖掘需求方法的前5个步骤，以及在网页信息数据挖掘参数中新增加的8类关键词参数），也属于本发明所述的知识产权保护范围。

综上所述，本发明提供的网页信息数据挖掘通用方法，在网页信息分类、摘要抽取、摘要整理的各个环节，都做出了重要和系统性的创新。本发明基于网页信息通用组织结构词提供的12类关键词参数，可大幅度提高各类非结构化网页信息的摘要抽取质量，为网页信息通用数据挖掘铺平了道路。因此，本发明所述的网页信息数据挖掘方法，将在推动互联网信息数据挖掘服务、根本改善互联网网页信息全文搜索领域起到关键性作用。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种网页信息数据挖掘通用方法，其特征在于包括以下步骤：

获得数据挖掘组织结构词及数据挖据内容关键词；

用获得的数据挖掘组织结构词匹配网页信息全文关键词；

将网页信息摘要处理结果转换为用户所需的数据挖掘可视化结果并进行显示；

其中，

所述的数据挖掘组织结构词，是指从数据挖掘需求方获得的互联网信息通用顶层组织结构词及相关下层组织结构词；

所述的数据挖据内容关键词，是指从数据挖掘需求方获得的数据挖掘组织结构词下的关键词；

所述的网页信息全文关键词，是指任意网页文字信息中的可直接检索到的关键词，但不包括关键词属性标记；

所述的网页信息组织结构词，是指用数据挖掘方提供的数据挖掘组织结构词检索到的网页信息关键词；

所述的网页信息内容关键词，是指用数据挖掘方提供的数据挖掘内容关键词检索到的网页信息关键词；

所述的关键词参数，是指在进行网页信息摘要抽取和整理时提供的辅助性参数；

所述的网页信息类型，是指可对任意网页信息进行通用分类的网页信息类型；

2.权利要求1中所述的在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数的方法还包括以下步骤：

获得关键词的相关参数；

用获得的关键词参数辅助抽取和整理网页信息全文摘要；

获得摘要质量评估数据；

根据网页信息摘要质量评估数据调整预设的关键词参数；

采用调整后的关键词参数再次抽取相同网页信息摘要并进行摘要信息整理；

其中，

所述的关键词参数包括：网页信息关键词位置参数、关键字比例参数1、关键字比例参数2关键词距离参数、关键词相关性参数1、关键词相关性参数2、相关性参数1和参数2的关联参数、数据挖掘组织结构词权重参数、数据挖掘内容关键词权重参数、网页信息可结构化参数、各类参数的权重参数、网页信息分类效率指数、网页信息摘要质量指数；

其中，

所述的关键词位置参数，是指某一匹配成功的关键词在网页信息中的所处位置；

所述的关键字匹配度参数1，是指不同网页信息或文本中的相同关键词匹配成功的次数之比；

所述的关键字匹配度参数2，是指同一网页信息或文本中的不同关键词匹配成功的次数之比；

所述的关键词距离参数，是指在同一网页信息中的核心关键词之间的其它关键词插入数量；

所述的关键词相关性参数1，是指数据挖掘组织结构词与数据挖掘内容关键词之间的组合频率；

所述的关键词相关性参数2，是指用数据挖掘组织结构词、数据挖掘内容关键字检索到的网页信息全文中的网页信息组织结构词与网页信息内容关键词的组合频率；

所述的相关性参数1和参数2的关联参数，是指相关性参数1与相关性参数2的动态比值；

所述的数据挖掘组织结构词权重参数，是指本发明预设的数据挖掘组织结构词之间的权重参数；

所述的数据挖掘内容关键词权重参数，是指根据数据挖掘组织结构词的权重参数所获得的该组织结构词下的数据挖掘内容关键词的权重参数；

所述的网页信息可结构化参数，是指用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词后，获得的某条网页信息的组织结构词的数量与网页信息内容关键词的数量之乘积；

所述的各类参数之间的权重参数，是指预设的各类关键词参数之间的价值参数；

其中，

所述的摘要质量评估数据，包括网页信息分类效率指数、网页信息摘要质量指数；

所述的网页信息分类效率指数，是指已获得的网页信息自动分类结果与专业化人工分类结果的准确度之比；

所述的网页信息摘要质量指数，是指根据预设的网页信息摘要参数计算出的网页信息摘要质量指数；

其中，

所述的网页信息摘要可靠性，是指抽取到的摘要信息的准确性；

其中，

所述的关键词相关性参数1从数据挖掘需求信息数据库获得；

所述的关键词相关性参数2从网页信息检索结果数据库获得；

3.权利要求1中的“根据数据挖掘组织结构词与网页信息全文关键词的匹配结果判定网页信息类型 ”的方法还包括以下步骤：

用数据挖掘组织结构词与网页信息全文关键词的匹配结果，以及数据挖掘组织结构词与网页信息全文关键词的语用属性标记的匹配结果之和，判定某网页信息的数据类型；

4.权利要求1中的在已确定信息类型的网页信息中，用数据挖掘组织结构词、数据挖据内容关键词匹配网页信息全文关键词以及获得关键词参数中的获得关键词距离参数的方法包括以下步骤：

确定网页信息关键词的位置；

抽取核心关键词集中匹配成功的上下文；

计算上下文中所有关键词数量与核心关键词数量之比；

其中，所述的网页信息核心关键词，是指与数据挖掘核心组织结构词相对应的网页信息关键词；

所述的数据挖掘核心组织结构词，是指在同类型信息中最为重要和典型的组织结构词。