CN115630154A

CN115630154A - 一种面向大数据环境的动态摘要信息构建方法及系统

Info

Publication number: CN115630154A
Application number: CN202211629830.1A
Authority: CN
Inventors: 曹红雨
Original assignee: Racing Information Technology Langfang Co ltd
Current assignee: Racing Information Technology Langfang Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-01-20
Anticipated expiration: 2042-12-19
Also published as: CN115630154B

Abstract

本申请公开了一种面向大数据环境的动态摘要信息构建方法及系统，根据第一搜索关键词建立第一关键词拓展树，并以第一搜索关键词为根节点，以第一附加关键词为子节点，且每层节点只与上一层节点之间建立关联性连接，以此基于第一搜索关键词拓展出若干第一附加关键词，进而得到关键词组，根据关键词组进行全文扫描分析后截取语句，对核心内容的确定更加精准；基于第一搜索关键词在互联网大数据中数据信息体量，确定出关键词第一组合程度因子，并根据第一组合程度因子，确定出在第一关键词拓展树上筛选的第一附加关键词，实现了基于互联网大数据对第一附加关键词截取数量的调整，进而有效避免了构建的一次动态摘要的解释过于单极化。

Description

一种面向大数据环境的动态摘要信息构建方法及系统

技术领域

本发明涉及大数据分析技术领域，尤其是涉及一种面向大数据环境的动态摘要信息构建方法及系统。

背景技术

摘要又称概要、内容提要，意思是摘录要点或摘录下来的要点。摘要是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文。其基本要素包括研究目的、方法、结果和结论。具体地讲就是研究工作的主要对象和范围，采用的手段和方法，得出的结果和重要的结论，有时也包括具有情报价值的其它重要的信息。

由于近年信息的爆炸式的增长，依靠人工从海量的数据中获取重要信息已经越来越困难，因此需要一种能够自动提取重要信息的方法；对于文字类的信息来说，提取其重要的信息其实就是提取其摘要，有些文字类的信息配套有摘要，但是配套有的摘要所属于静态摘要，是编辑人员或审核人员针对文字类的信息配套的信息段，很明显的，大数据环境中的海量文字类信息并非都有实现整理好的静态摘要，所以就需要计算机对各种文字类数据进行分析，以构建出动态摘要信息，便于搜索人员通过对关键词的搜索就可以得出相匹配的动态摘要信息，并且该动态摘要信息应当能够有效的展示出其对应的文字类信息的主要内容。

现有技术中，对于不同文字类信息生成动态摘要的方法主要是，将搜索的关键词的出现频次高的语句或者段落作为动态摘要，这样的方式生成的动态摘要的准确度偏低，无法有效的展示其对应的文字类信息的主要内容。

发明内容

本发明的目的是提供一种能够更加准确的展示出文字类信息的主要内容的动态摘要信息构建方法。

所以本发明公开了一种面向大数据环境的动态摘要信息构建方法，包括：

获取智能化终端设备输入的第一搜索关键词，并以所述第一搜索关键词为根节点建立第一关键词拓展树，所述第一关键词拓展树的子节点为第一附加关键词，且每层节点只与上一层节点之间建立关联性连接；

针对第一关键词拓展树的每层节点之间的连接，进行第一关联值的赋值，所述第一关联值用于表达每层节点之间的关联性强度；

基于所述第一搜索关键词在互联网大数据中所对应的数据信息体量，确定出关键词第一组合程度因子；

根据所述关键词第一组合程度因子，确定所需第一关联值以及所需第一关键词拓展树层级；

根据所需第一关联值和所需第一关键词拓展树层级，确定从所述第一关键词拓展树上筛选的若干第一附加关键词；

将所述第一搜索关键词和第一附加关键词进行全文分析扫描，根据分析扫描结果，按照所述第一搜索关键词和第一附加关键词在语句中的出现频次将语句进行排序，并基于预设的摘要展示字数，将排序靠前的若干语句构建为一次动态摘要。

在本申请的一些实施例中，为了能够确定出第一附加关键词，公开了一种确定第一附加关键词的方法，确定所述第一附加关键词的方法包括：

建立关键词关联信息库，所述关键词关联信息库包括若干关键词类别，且每个关键词类别都包括有若干关键词；

基于在互联网大数据中对不同的关键词类别之间的检索分析，对不同关键词类别之间的联系进行类别第一关联值的赋值，所述类别第一关联值用于表达不同关键词类别之间的关联性强度；

根据所述类别第一关联值以及所述所需第一关联值，确定用于构建所述第一关键词拓展树的关键词类别，并确定不同关键词类别占用层级的数量，并将所述关键词类别内的关键词确定为第一附加关键词。

在本申请的一些实施例中，为了能够确定出第一附加关键词所在第一关键词拓展树中的层级，对应用所述关键词类别的方式做了进一步的补充，在所述关键词类别中确定关键词为第一附加关键词的前提是：

确定关键词的影响因子，所述影响因子用于表达关键词在互联网大数据的展示次数；

根据关键词的影响因子，确定所述关键词类别中的关键词的次序；

根据所述关键词类别中的关键词次序，将关键词补充于所述关键词类别在所述第一关键词拓展树中的占用的层级，并将关键词确定为第一附加关键词。

在本申请的一些实施例中，为了能够使一次动态摘要的连贯性更好，对语句进行排序的方法进行了改进，构建动态摘要时，将语句进行排序的方法还包括：

按照所述第一搜索关键词和第一附加关键词在语句中的出现频次将语句进行一次排序，并根据一次排序结果，对语句进行标记赋值，使不同次序的语句得到不同的标记值；

对语句进行分析扫描，提取所述语句中的他类关键词，所述他类关键词为除第一搜索关键词和第一附加关键词以外的其他关键词；

针对所述语句中的他类关键词生成他类关键词对应表；

将次序第一的语句确定为主摘要语句，并将主摘要语句的他类关键词对应表与其他语句的他类关键词对应表进行对比分析，得到他类关键词的重合度；

根据所述主摘要语句与其他语句的他类关键词的重合度，对不同语句的标记值进行修正，并根据修正后的标记值，对不同的语句进行二次排序。

在本申请的一些实施例中，公开了一种对一次动态摘要进行二次排序的规律，对语句进行一次排序时，次序越靠前标记值越大；

二次修正时，若一个语句与所述主摘要语句的他类关键词重合度越高，则对标记值的修正则越高，并且修正后的标记值越高，次序越靠前。

在本申请的一些实施例中，公开了一种具体的，根据关键词第一组合程度因子确定所需第一关联值和所需第一关键词拓展树层级之间的方法，所述关键词第一组合程度因子、所需第一关联值以及所需第一关键词拓展树层级之间的关系为：

所述关键词第一组合程度因子越高，所需第一关联值则越低，那么在所述第一关键词拓展树的同一层级筛选的第一附加关键词则越多；

所述关键词第一组合程度因子越高，则所需第一关键词拓展树层级则越高，那么在所述第一关键词拓展树的不同层级筛选的第一附加关键词则越多；

所述关键词第一组合程度因子、所需第一关联值以及所需第一关键词拓展树层级之间的关系表达为：

其中，a为所需第一关联值，k1第一关联值调整系数，b为所述第一关键词拓展树层级，k2为层级调整系数，z为关键词第一组合程度因子，ln表示对数函数符号。

在本申请的一些实施例中，为了能够更加精确地确定出附加关键词，公开了一种放弃关键词的方法，若所述第一关键词拓展树上存在一个层级的节点与上一层级的节点之间的第一关联值小于所需第一关联值，则这一层级的节点的以下层级节点所对应的关键词均被放弃。

在本申请的一些实施例中，为了能够对动态摘要信息做出评价并改进，所述摘要信息构建方法还包括：

基于一次动态摘要的打开浏览次数，生成对所述第一关键词拓展树的评价值；

若所述第一关键词拓展树的评价值大于预设值，则保持动态摘要与所述第一搜索关键词的对应关系；

若所述第一关键词拓展树的评价值小于预设值，则改变所述动态摘要的构建策略。

在本申请的一些实施例中，公开了一种改变所述动态摘要的构建策略的方法，改变所述动态摘要的构建策略的方法包括：

计算每个第一附加关键词在全文中的单个出现次数与平均出现次数的偏差值，将偏差值大于预设值的第一附加关键词确定为第二搜索关键词，并以所述第二搜索关键词为根节点建立第二关键词拓展树，所述第二关键词拓展树的子节点为第二附加关键词，且每层节点只与上一层节点之间建立关联性联系；

针对第二关键词拓展树的每层节点之间的连接，进行第二关联值的赋值，所述第二关联值用于表达每层节点之间的关联性强度；

基于所述第二搜索关键词在互联网大数据中所对应的数据信息体量，确定出关键词第二组合程度因子；

根据所述关键词第二组合程度因子，确定所需第二关联值以及所需第二关键词拓展树层级；

根据所需第二关联值和所需第二关键词拓展树层级，确定从所述第二关键词拓展树上筛选的若干第一附加关键词；

将所述第二搜索关键词和第二附加关键词进行全文分析扫描，根据分析扫描结果，按照所述第二搜索关键词和第二附加关键词在语句中的出现频次将语句进行排序，并基于预设的摘要展示字数，将排序靠前的若干语句构建为二次动态摘要。

在本申请的一些实施例中，还公开了一种面向大数据环境的动态摘要信息构建系统，包括：

获取单元，所述获取单元用于获取第一搜索关键词；

拓展树生成单元，所述拓展树生成单元用于将所述获取单元获取的第一搜索关键词作为根节点建立第一关键词拓展树，并向下延伸出若干子节点，所述子节点为第一附加关键词，且每层节点只与上一层节点之间建立关联性连接，针对第一关键词拓展树的每层节点之间的连接，进行第一关联值的赋值，所述第一关联值用于表达每层节点之间的关联性强度；

大数据确定单元，用于根据所述第一搜索关键词在互联网大数据中所对应的数据信息体量，确定出关键词第一组合程度因子；

附加关键词截取单元，用于根据所述关键词第一组合程度因子，确定所需第一关联值以及所需第一关键词拓展树层级，并根据所需第一关联值和所需第一关键词拓展树层级，确定从所述第一关键词拓展树上筛选的若干第一附加关键词；

动态摘要生成单元，用于将所述第一搜索关键词和第一附加关键词进行全文分析扫描，根据分析扫描结果，按照所述第一搜索关键词和第一附加关键词在语句中的出现频次将语句进行排序，并基于预设的摘要展示字数，将排序靠前的若干语句构建为一次动态摘要。

本申请公开的一种面向大数据环境的动态摘要信息构建方法，相比于一般仅仅依靠搜索关键词出现频次进行语句截取的动态摘要构建方法，具有如下优点：

1.根据第一搜索关键词建立第一关键词拓展树，并以第一搜索关键词为根节点，以第一附加关键词为子节点，且每层节点只与上一层节点之间建立关联性连接，以此基于第一搜索关键词拓展出若干第一附加关键词，进而得到关键词组，根据关键词组进行全文扫描分析后截取语句，对核心内容的确定更加精准。

2.基于第一搜索关键词在互联网大数据中数据信息体量，确定出关键词第一组合程度因子，并根据第一组合程度因子，确定出在第一关键词拓展树上筛选的第一附加关键词，实现了基于互联网大数据对第一附加关键词截取数量的调整，进而有效避免了构建的一次动态摘要的解释过于单极化。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本申请实施例中一种面向大数据环境的动态摘要信息构建方法的方法步骤图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例：

步骤S100，获取智能化终端设备输入的第一搜索关键词，并以所述第一搜索关键词为根节点建立第一关键词拓展树，所述第一关键词拓展树的子节点为第一附加关键词，且每层节点只与上一层节点之间建立关联性连接。

其中，所述第一搜索关键词具体是指用户在智能化终端设备上输入的关键词，基于该关键词，从互联网大数据或者其他数据库中搜索相关文字类信息。

所述第一关键词拓展树可以理解为由所述第一附加关键词为起点的关键词关系延伸网络，以此表现出所述第一搜索关键词和第一附加关键词的连接关系，每个子节点相当于关键词延伸网络的每个网络节点，具体而言，子节点和网络节点具体代表为所述第一附加关键词。

步骤S200，针对第一关键词拓展树的每层节点之间的连接，进行第一关联值的赋值，所述第一关联值用于表达每层节点之间的关联性强度。

其中，对每层节点之间的关联性强度的赋值的目的，主要是表达所述第一搜索关键词和第一附加关键词之间的关联性强度，以及不同层级间的第一附加关键词间的关联性强度，并通过对不同层节点之间连接的第一关联值的赋值，实现对关联性强度的定量分析，进而便于后续过程中对不同子节点对应的附加关键词的截取。

步骤S300，基于所述第一搜索关键词在互联网大数据中所对应的数据信息体量，确定出关键词第一组合程度因子。

其中，对于所述关键词第一组合程度因子的理解可以为，所述第一搜索关键词在互联网大数据中所对应的数据信息体量，同比于所述第一搜索关键词可能在全文中搜索出来的次数，若所述第一搜索关键词在全文中搜索出来的次数过多，则难以通过在全文中扫描所述第一搜索关键词而确定出核心语句。

若在互联网大数据中确定出更多的数据信息体量，则可以确定所述第一搜索关键词的应用次数普遍偏多，为了提升对全文扫描的精准性，需要在进行全文扫描前，连同若干所述第一附加关键词进行扫描，相当于增加扫描条件，减少扫描出来的语句数量，提升选中核心语句的概率。

步骤S400，根据所述关键词第一组合程度因子，确定所需第一关联值以及所需第一关键词拓展树层级。

其中，所述关键词第一组合程度因子越高，则所需第一关联值越低，且所需第一关键词拓展树层级越多，进而选出若干符合条件的第一附加关键词，连同所述第一搜索关键词对全文进行扫描。

步骤S500，根据所需第一关联值和所需第一关键词拓展树层级，确定从所述第一关键词拓展树上筛选的若干第一附加关键词。

对应上述步骤S400，在所述第一关键词拓展树上筛选出若干第一附加关键词。

步骤S600，将所述第一搜索关键词和第一附加关键词进行全文分析扫描，根据分析扫描结果，按照所述第一搜索关键词和第一附加关键词在语句中的出现频次将语句进行排序，并基于预设的摘要展示字数，将排序靠前的若干语句构建为一次动态摘要。

其中，若所述第一搜索关键词和第一附加关键词在语句中的出现频次越高，则证明该语句相对于全文来说越重要，解释的内容越核心，基于这一原理，根据所述第一搜索关键词和第一附加关键词在语句中的频次进行排序，能够有效的根据语句的重要程度进行全文的排序，进而更加合理的构建出一次动态摘要。

为了能够确定出第一附加关键词，在本申请的一些实施例中，公开了一种确定第一附加关键词的方法，确定所述第一附加关键词的方法包括：

第一步，建立关键词关联信息库，所述关键词关联信息库包括若干关键词类别，且每个关键词类别都包括有若干关键词。

第二步，基于在互联网大数据中对不同的关键词类别之间的检索分析，对不同关键词类别之间的联系进行类别第一关联值的赋值，所述类别第一关联值用于表达不同关键词类别之间的关联性强度。

第三步，根据所述类别第一关联值以及所述所需第一关联值，确定用于构建所述第一关键词拓展树的关键词类别，并确定不同关键词类别占用层级的数量，并将所述关键词类别内的关键词确定为第一附加关键词。

这里需要理解的是，关键词类别之间的关联性强度也进行了定量化的分析，进而实现和所需第一关联值的比对，通过确定所述第一搜索关键词的所属关键词类别，然后判断与该关键词类别关联性强度符合条件的的关键词类别，并将关键词类别内的关键词确定为第一附加关键词。

根据关联性强度的关系，即根据所述所需第一关联值进行判断，在所述关键词类别中确定出应用的关键词，并将该关键词确定为所述第一关键词拓展树的不同层级子节点的第一附加关键词。

第一步，确定关键词的影响因子，所述影响因子用于表达关键词在互联网大数据的展示次数。

第二步，根据关键词的影响因子，确定所述关键词类别中的关键词的次序。

第三步，根据所述关键词类别中的关键词次序，将关键词补充于所述关键词类别在所述第一关键词拓展树中的占用的层级，并将关键词确定为第一附加关键词。

第一步，按照所述第一搜索关键词和第一附加关键词在语句中的出现频次将语句进行一次排序，并根据一次排序结果，对语句进行标记赋值，使不同次序的语句得到不同的标记值。

第二步，对语句进行分析扫描，提取所述语句中的他类关键词，所述他类关键词为除第一搜索关键词和第一附加关键词以外的其他关键词。

第三步，针对所述语句中的他类关键词生成他类关键词对应表。

第四步，将次序第一的语句确定为主摘要语句，并将主摘要语句的他类关键词对应表与其他语句的他类关键词对应表进行对比分析，得到他类关键词的重合度。

第五步，根据所述主摘要语句与其他语句的他类关键词的重合度，对不同语句的标记值进行修正，并根据修正后的标记值，对不同的语句进行二次排序。

在本申请的一些实施例中，公开了一种对一次动态摘要进行二次排序的规律，对语句进行一次排序时，次序越靠前标记值越大，二次修正时，若一个语句与所述主摘要语句的他类关键词重合度越高，则对标记值的修正则越高，并且修正后的标记值越高，次序越靠前。

在本申请的一些实施例中，公开了一种具体的，根据关键词第一组合程度因子确定所需第一关联值和所需第一关键词拓展树层级之间的方法，所述关键词第一组合程度因子、所需第一关联值以及所需第一关键词拓展树层级之间的关系为：所述关键词第一组合程度因子越高，所需第一关联值则越低，那么在所述第一关键词拓展树的同一层级筛选的第一附加关键词则越多，所述关键词第一组合程度因子越高，则所需第一关键词拓展树层级则越高，那么在所述第一关键词拓展树的不同层级筛选的第一附加关键词则越多。

第一步，基于一次动态摘要的打开浏览次数，生成对所述第一关键词拓展树的评价值。

第二步，若所述第一关键词拓展树的评价值大于预设值，则保持动态摘要与所述第一搜索关键词的对应关系。

第三步，若所述第一关键词拓展树的评价值小于预设值，则改变所述动态摘要的构建策略。

为了解释上述技术方案，公开了一种对所述第一关键词拓展树的具体评价方法。如下：

设定浏览次数对应组A[A1、A2、A3、…、An]，其中A1为第一预设浏览次数，A2为第二预设浏览次数，A3为第三预设浏览次数，An为第n预设浏览次数，且A1＜A2＜A3＜…＜An。

设定评价值对应组B[B1、B2 、B3、…、Bn]，其中B1为第一预设评价值，B2为第二预设评价值，B3为第三预设评价值，Bn为第n预设评价值，且B1＜B2＜B3 ＜…＜Bn。

获取动态摘要的打开浏览次数a。

若a≤A1，则将第一预设评价值B1确定为第一关键词拓展树的评价值。

若A1＜a≤A2，则将第二预设评价值B2确定为第一关键词拓展树的评价值。

若A2＜a≤A3，则将第三预设评价值B3确定为第一关键词拓展树的评价值。

…。

若An-1＜a≤An，则将第n预设评价值Bn确定为第一关键词拓展树的评价值。

第一步，计算每个第一附加关键词在全文中的单个出现次数与平均出现次数的偏差值，将偏差值大于预设值的第一附加关键词确定为第二搜索关键词，并以所述第二搜索关键词为根节点建立第二关键词拓展树，所述第二关键词拓展树的子节点为第二附加关键词，且每层节点只与上一层节点之间建立关联性联系。

第二步，针对第二关键词拓展树的每层节点之间的连接，进行第二关联值的赋值，所述第二关联值用于表达每层节点之间的关联性强度。

第三步，基于所述第二搜索关键词在互联网大数据中所对应的数据信息体量，确定出关键词第二组合程度因子。

第四步，根据所述关键词第二组合程度因子，确定所需第二关联值以及所需第二关键词拓展树层级。

第五步，根据所需第二关联值和所需第二关键词拓展树层级，确定从所述第二关键词拓展树上筛选的若干第一附加关键词。

第六步，将所述第二搜索关键词和第二附加关键词进行全文分析扫描，根据分析扫描结果，按照所述第二搜索关键词和第二附加关键词在语句中的出现频次将语句进行排序，并基于预设的摘要展示字数，将排序靠前的若干语句构建为二次动态摘要。

在本申请的一些实施例中，还公开了一种面向大数据环境的动态摘要信息构建系统，包括获取单元、拓展树生成单元、大数据确定单元、附加关键词截取单元和动态摘要生成单元。

获取单元，所述获取单元用于获取第一搜索关键词。

拓展树生成单元，所述拓展树生成单元用于将所述获取单元获取的第一搜索关键词作为根节点建立第一关键词拓展树，并向下延伸出若干子节点，所述子节点为第一附加关键词，且每层节点只与上一层节点之间建立关联性连接，针对第一关键词拓展树的每层节点之间的连接，进行第一关联值的赋值，所述第一关联值用于表达每层节点之间的关联性强度。

所述大数据确定单元用于根据所述第一搜索关键词在互联网大数据中所对应的数据信息体量，确定出关键词第一组合程度因子。

所述附加关键词截取单元用于根据所述关键词第一组合程度因子，确定所需第一关联值以及所需第一关键词拓展树层级，并根据所需第一关联值和所需第一关键词拓展树层级，确定从所述第一关键词拓展树上筛选的若干第一附加关键词。

所述动态摘要生成单元用于将所述第一搜索关键词和第一附加关键词进行全文分析扫描，根据分析扫描结果，按照所述第一搜索关键词和第一附加关键词在语句中的出现频次将语句进行排序，并基于预设的摘要展示字数，将排序靠前的若干语句构建为一次动态摘要。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种面向大数据环境的动态摘要信息构建方法，其特征在于，包括：

2.根据权利要求1所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，确定所述第一附加关键词的方法包括：

3.根据权利要求2所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，在所述关键词类别中确定关键词为第一附加关键词的前提是：

4.根据权利要求1所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，构建动态摘要时，将语句进行排序的方法还包括：

针对所述语句中的他类关键词生成他类关键词对应表；

5.根据权利要求4所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，对语句进行一次排序时，次序越靠前标记值越大；

6.根据权利要求1所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，所述关键词第一组合程度因子、所需第一关联值以及所需第一关键词拓展树层级之间的关系为：

7.根据权利要求6所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，若所述第一关键词拓展树上存在一个层级的节点与上一层级的节点之间的第一关联值小于所需第一关联值，则这一层级的节点的以下层级节点所对应的关键词均被放弃。

8.根据权利要求6所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，所述摘要信息构建方法还包括：

9.根据权利要求8所述的一种面向大数据环境的动态摘要信息构建方法，其特征在于，改变所述动态摘要的构建策略的方法包括：

10.一种面向大数据环境的动态摘要信息构建系统，其特征在于，包括：

获取单元，所述获取单元用于获取第一搜索关键词；