CN116681042B

CN116681042B - 基于关键字提取的内容概要生成方法、系统及介质

Info

Publication number: CN116681042B
Application number: CN202310953169.8A
Authority: CN
Inventors: 邱洪涛; 高健豪
Original assignee: Chengdu Ict Information Technology Co ltd
Current assignee: Chengdu Ict Information Technology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-10-10
Anticipated expiration: 2043-08-01
Also published as: CN116681042A

Abstract

本发明公开了基于关键字提取的内容概要生成方法、系统及介质；涉及数据处理技术领域；本方案针对格式固定的表单文档，主要是企业备案或申请表类的表单文档，提供基于关键字提取的内容概要生成方法，通过表单中的概要标识所指示的内容特征，进行词汇关联分析提取出关键字特征，基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息，自动生成内容概要；一方面本方案避免了不同角色的前期填写和相关工作人员的后期统计，提高信息统计的准确性和时效性；另一方面在提取概要标识的关键字特征时，考虑了文本词汇之间的关联性，基于词汇关联分析方法提取关键字特征，避免了关键字特征提取不全面影响信息统计准确性的问题。

Description

基于关键字提取的内容概要生成方法、系统及介质

技术领域

本发明涉及数据处理技术领域，具体涉及基于关键字提取的内容概要生成方法、系统及介质。

背景技术

表单文档的格式相对固定，在日常生活和工作中，有大量的表单文档需要填写，如雇佣劳动文档，银行交易文档，以及备案文档等，这些表单文档格式固定，但是其中需填写的角色信息、约定信息内容各不相同。

在填写这类表单文档时，一般做法是分配后给不同角色去填写，然而填写过程往往容易出错，并且事后还需要相关工作人员统计重新录入，从而导致信息统计的准确性和效率低下。

发明内容

本发明所要解决的技术问题是：传统填写格式固定表单文档的方法，准确性和时效性较低；本发明目的在于提供基于关键字提取的内容概要生成方法、系统及介质，对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，由内容特征及匹配的内容信息自动生成内容概要，有效解决了填写格式固定表单文档准确性和时效性低的问题。

本发明通过下述技术方案实现：

本方案提供基于关键字提取的内容概要生成方法，包括：

接收内容概要生成请求，内容概要生成请求包括原始内容文档和概要标识；

基于概要标识所指示的内容特征，将原始内容文档转换成内容概要；包括：对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，基于内容特征及匹配的内容信息生成内容概要；内容特征包括内容引导标识；

输出内容概要。

本方案工作原理：在填写格式固定的表单文档时，传统方法是分配后给不同角色去填写，然而填写过程往往容易出错，并且填写完成后还需要相关工作人员统计重新录入，从而导致信息统计的准确性和效率低；因此本方案针对格式固定的表单文档，主要是企业备案或申请表类的表单文档，提供基于关键字提取的内容概要生成方法，通过表单中的概要标识所指示的内容特征，进行词汇关联分析提取出关键字特征，基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息，自动生成内容概要；一方面本方案避免了不同角色的前期填写和相关工作人员的后期统计，提高信息统计的准确性和时效性；另一方面在提取概要标识的关键字特征时，考虑了文本词汇之间的关联性，基于词汇关联分析方法提取关键字特征，避免了关键字特征提取不全面影响信息统计准确性的问题。

现有技术中存在，在角色填写表单文档过程中进行自动录入的方式，即手动填写+自动录入，但是依然存在角色填写过程中容易出错的问题；本方案提供的基于关键字提取的内容概要生成方法，不依赖于角色自主填写，从概要标识中进行词汇关联分析提取得到关键字特征，根据关键字从原始内容文档中提取出目标信息后进行自动填写，避免了角色介入影响表单文档填写准确率的问题。

本方案中原始内容文档主要包括：企业宣传页、单位宣传页、项目报告书等由企业自主提供的文档，还包括从第三方信息网站获取的企业信息。

填写企业备案或申请表类的表单文档时，填写区可能存在语义性文本填写的情况（比如项目建设进度、出资进度计划、企业工作职责等），语义性文本填写内容难以直接从原始内容文档中获取，因此本方案词汇关联分析提取出内容引导标识的关键字特征，根据关键字特征从原始内容文档中搜索组合出匹配的内容信息；考虑了文本中词汇间的关联性，避免关键字特征提取不全面导致准确性低的问题。

进一步优化方案为，对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，包括方法：

获取当前概要标识的一个或多个内容引导标识；

判断当前内容引导标识为通用引导标识或隐含引导标识：

若当前内容引导标识为通用引导标识，则以当前内容引导标识及其延伸标识作为关键字特征；延伸标识表示与当前内容引导标识引导指向相同的字或词；（比如，当前内容引导标识为“单位名称”时，则延伸标识可以为“企业名称”、“企业中文名称”、“法人名称”等）

若当前内容引导标识为隐含引导标识，则词汇关联分析当前概要标识的历史数据得到关键字特征。

（通用引导标识表示内容引导标识本身就可以作为关键字，如：内容引导标识为“企业名称”、“注册资本”、“组织代码”、“网址”、“地址”等，可以直接作为关键字的标识；而隐含引导标识表示根据内容引导标识本身无法搜索得到针对内容的标识，如：企业简介、项目服务情况、企业标准化情况等需要总结概述的标识。）

进一步优化方案为，词汇关联分析当前概要标识的历史数据得到关键字特征，包括方法：

获取当前内容引导标识对应的历史内容概要，并对历史内容概要进行预处理得到文本文档：对历史内容概要的文本进行句子切割，并基于分词器得到文本词汇，标记文本词汇的属性，保留重要词汇，剔除停用词汇和无关语义词汇；本方案中重要词汇包括的动词、名词、形容词等；

对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S；

遍历整个关联高频词汇集S，计算文本文档中各重要词汇在关联高频词汇集S中的权重值；

以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。

进一步优化方案为，对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S，包括方法：

以句子为单位将文本文档K划分成k个句子；其中每个句子中包含一个或多个重要词汇；

包含在同一个句子中的重要词汇a₁和重要词汇a₂定义为有关联关系，将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项；对整个文本文档K进行关联迭代得到n个关联高频词汇项S_a,S_b,…,S_n，所有关联高频词汇项组成的集合作为高频词汇集S=(S_a,S_b,…,S_n)。

进一步优化方案为，遍历整个关联高频词汇集S，计算文本文档中各重要词汇在关联高频词汇集S中的权重值，包括方法：

计算重要词汇i在各关联高频词汇项中的关联权重值G_ui：

其中，g_i为重要词汇i在文本文档K中出现的次数，P_ui为重要词汇i在关联高频词汇项u中出现的概率；

计算重要词汇i在关联高频词汇集S中的平均关联权重值：

以平均关联权重值平衡TextWank模型的阻尼系数计算出重要词汇i的权重值：在TextWank模型中，平衡后的阻尼系数为/>；其中d为平衡前的阻尼系数。

传统的关键字提取过程主要以词汇频率的大小来进行，具备简单易行的特点，其中频率高的词汇成为关键字的比例较大，而频率较低的词汇成为关键字的可能性较小，这种统计方法忽略了词汇在文本中所包含的意义，使得关键字的提取不全面，造成文本语义的缺失。本方案对于关键字的选取时计算了词汇在文本中的关联信息，弱化了词汇频率的重要性，为低频出现的重要词汇提供了更多机会，提高文本关键字的提取效果。

进一步优化方案为，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，包括方法：

获取原始内容文档，并将原始内容文档转换成文本文档，以段落为单位将原始内容文档划分成多个段落；

遍历搜索所有段落，筛选出包含关键字特征的段落；

对包含关键字特征的段落进行重复筛除得到关键语句集；

建立组合式模型生成关键语句集的内容信息；组合式模型为在关键语句集中随机组合各关键语句得到一个关键语句子集，所述关键语句子集能够最全面的概括关键语句集的主要内容，且关键语句子集中包含不同关键字特征的数量达到数量阈值Q；

本方案中组合式模型为BERT模型，在BERT特征提取器后接入线性分类器作为内容概要层，内容概要层会输出一个向量，向量中的第i个位置的小数表示第i条语句是否被选为内容概要的概率；内容概要层设置为sigmoid函数；最后选择出概率最高的k条语句作为最终的内容概要。

以关键语句子集内的语句作为与内容特征相匹配的内容信息。

本方案一方面以句子为单位对文本文档K中的各重要词汇进行关联规则挖掘构建关联高频词汇集S，另一方面还以段落为单位对关键语句集进行包含关键字特征的筛选，减少冗余项，提炼出精简的匹配内容信息；

进一步优化方案为，对包含关键字特征的段落进行重复筛除得到关键语句集，包括方法：

将包含关键字特征的段落分别以一个句子为单位切割成多个语句；

对所有语句进行语义分析；

剔除同一段落中与关键字特征无关的语句，剔除段落之间语义重复的语句后，得到关键语句集。

本方案在一方面以段落为单位对关键语句集进行包含关键字特征的筛除，筛除无关段落；另一方面以句子为单位进行语义分析，剔除无关句子，精准生成内容引导标识的内容信息。

进一步优化方案为，基于内容特征及匹配的内容信息生成内容概要，包括方法：将与内容特征匹配的内容信息对应填充至内容引导标识的填写区，当概要标识内所有内容引导标识的填写区均填写后生成内容概要。

本方案还提供基于关键字提取的内容概要生成系统，用于实现上述的基于关键字提取的内容概要生成方法，包括：

请求接收模块，用于接收内容概要生成请求，内容概要生成请求包括原始内容文档和概要标识；

内容概要生成模块，用于基于概要标识所指示的内容特征，将原始内容文档转换成内容概要；包括：对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，基于内容特征及匹配的内容信息生成内容概要；内容特征包括内容引导标识；

输出模块，用于输出内容概要。

本方案还提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行可实现如上的基于关键字提取的内容概要生成方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明提供的基于关键字提取的内容概要生成方法、系统及介质；本方案针对格式固定的表单文档，提供基于关键字提取的内容概要生成方法，通过表单中的概要标识所指示的内容特征，提取出关键字特征，基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息，自动生成内容概要；避免了不同角色的前期填写和相关工作人员的后期统计，提高信息统计的准确性和时效性。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为基于关键字提取的内容概要生成方法流程示意图。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在填写格式固定的表单文档时，传统方法是分配后给不同角色去填写，然而填写过程往往容易出错，并且填写完成后还需要相关工作人员统计重新录入，从而导致信息统计的准确性和效率低下；因此本方案针对格式固定的表单文档，提供以下实施例解决上述技术问题。

实施例1

本实施例提供基于关键字提取的内容概要生成方法，如图1所示，包括：

步骤一：接收内容概要生成请求，内容概要生成请求包括原始内容文档和概要标识；

步骤二：基于概要标识所指示的内容特征，将原始内容文档转换成内容概要；包括：

T1，对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征；包括方法：

T11，获取当前概要标识的一个或多个内容引导标识；

T12，判断当前内容引导标识为通用引导标识或隐含引导标识：

词汇关联分析当前概要标识的历史数据得到关键字特征，包括方法：

T121，获取当前内容引导标识对应的历史内容概要，并对历史内容概要进行预处理得到文本文档：对历史内容概要的文本进行句子切割，并基于分词器得到文本词汇，标记文本词汇的属性，保留重要词汇，剔除停用词汇和无关语义词汇；重要词汇包括的动词、名词、形容词等；

T122，对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S；包括方法：

T123，遍历整个关联高频词汇集S，计算文本文档中各重要词汇在关联高频词汇集S中的权重值；包括方法：

计算重要词汇i在各关联高频词汇项中的关联权重值G_ui：

计算重要词汇i在关联高频词汇集S中的平均关联权重值：

T124，以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。

T2，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息；

T21，获取原始内容文档，并将原始内容文档转换成文本文档，以段落为单位将原始内容文档划分成多个段落；

T22，遍历搜索所有段落，筛选出包含关键字特征的段落；

T23，对关键语句集中包含关键字特征的段落进行重复筛除得到关键语句集；

T231，将包含关键字特征的段落分别以一个句子为单位切割成多个语句；

T232，对所有语句进行语义分析；

T233，对包含关键字特征的段落进行重复筛除得到关键语句集：剔除同一段落中与关键字特征无关的语句，剔除段落之间语义重复的语句后，得到关键语句集。

T24，建立组合式模型生成关键语句集的内容信息；组合式模型为在关键语句集中随机组合各关键语句得到一个关键语句子集，所述关键语句子集能够最全面的概括关键语句集的主要内容，且关键语句子集中包含不同关键字特征的数量达到数量阈值Q；

本实施例中组合式模型为BERT模型，在BERT特征提取器后接入线性分类器作为内容概要层，内容信息层会输出一个向量，向量中的第i个位置的小数表示第i条语句是否被选为内容信息的概率；内容信息层设置为sigmoid函数；最后选择出概率最高的k条语句作为最终的内容信息。

T25，以关键语句子集内的语句作为与内容特征相匹配的内容信息。

T3，基于内容特征及匹配的内容信息生成内容概要；内容特征包括内容引导标识；

步骤三：基于内容特征及匹配的内容信息生成内容概要，包括方法：将与内容特征匹配的内容信息对应填充至内容引导标识的填写区，当概要标识内所有内容引导标识的填写区均填写后生成内容概要。

实施例2

本实施例基于关键字提取的内容概要生成系统，用于实现实施例1的基于关键字提取的内容概要生成方法，包括：

输出模块，用于输出内容概要。

实施例3

本实施例提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行可实现如实施例1的基于关键字提取的内容概要生成方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于关键字提取的内容概要生成方法，其特征在于，包括：

接收内容概要生成请求，所述内容概要生成请求包括原始内容文档和概要标识；

基于概要标识所指示的内容特征，将原始内容文档转换成内容概要；包括：对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，基于内容特征及匹配的内容信息生成内容概要；所述内容特征包括内容引导标识；

所述对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，包括方法：

获取当前概要标识的一个或多个内容引导标识；

判断当前内容引导标识为通用引导标识或隐含引导标识：

若当前内容引导标识为通用引导标识，则以当前内容引导标识及其延伸标识作为关键字特征；所述延伸标识表示与当前内容引导标识引导指向相同的字或词；

若当前内容引导标识为隐含引导标识，则词汇关联分析当前概要标识的历史数据得到关键字特征；

所述基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，包括方法：

遍历搜索所有段落，筛选出包含关键字特征的段落；

对包含关键字特征的段落进行重复筛除得到关键语句集；

以所述关键语句子集内的语句作为与内容特征相匹配的内容信息；

所述基于内容特征及匹配的内容信息生成内容概要，包括方法：将与内容特征匹配的内容信息对应填充至内容引导标识的填写区，当概要标识内所有内容引导标识的填写区均填写后生成内容概要；

输出所述内容概要。

2.根据权利要求1所述的基于关键字提取的内容概要生成方法，其特征在于，所述词汇关联分析当前概要标识的历史数据得到关键字特征，包括方法：

获取当前内容引导标识对应的历史内容概要，并对历史内容概要进行预处理得到文本文档：对历史内容概要的文本进行句子切割，并基于分词器得到文本词汇，标记文本词汇的属性，保留重要词汇，剔除停用词汇和无关语义词汇；

3.根据权利要求2所述的基于关键字提取的内容概要生成方法，其特征在于，所述对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S，包括方法：

包含在同一个句子中的重要词汇a₁和重要词汇a₂定义为有关联关系，将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项；

对整个文本文档K进行关联迭代得到n个关联高频词汇项S_a,S_b ,…,S_n，所有关联高频词汇项组成的集合作为高频词汇集S=(S_a ,S_b ,…,S_n)。

4.根据权利要求2所述的基于关键字提取的内容概要生成方法，其特征在于，所述遍历整个关联高频词汇集S，计算文本文档中各重要词汇在关联高频词汇集S中的权重值，包括方法：

计算重要词汇i在各关联高频词汇项中的关联权重值G_ui：

；

计算重要词汇i在关联高频词汇集S中的平均关联权重值：

;

5.根据权利要求1所述的基于关键字提取的内容概要生成方法，其特征在于，所述对包含关键字特征的段落进行重复筛除得到关键语句集，包括方法：

将关键语句集中包含关键字特征的段落分别以一个句子为单位切割成多个语句；

对所有语句进行语义分析；

6.基于关键字提取的内容概要生成系统，其特征在于，用于实现权利要求1-5任意一项所述的基于关键字提取的内容概要生成方法，包括：

请求接收模块，用于接收内容概要生成请求，所述内容概要生成请求包括原始内容文档和概要标识；

内容概要生成模块，用于基于概要标识所指示的内容特征，将原始内容文档转换成内容概要；包括：对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征，基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息，基于内容特征及匹配的内容信息生成内容概要；所述内容特征包括内容引导标识；

输出模块，用于输出所述内容概要。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行可实现如权利要求1-5中任意一项所述的基于关键字提取的内容概要生成方法。