CN116681042A - 基于关键字提取的内容概要生成方法、系统及介质 - Google Patents
基于关键字提取的内容概要生成方法、系统及介质 Download PDFInfo
- Publication number
- CN116681042A CN116681042A CN202310953169.8A CN202310953169A CN116681042A CN 116681042 A CN116681042 A CN 116681042A CN 202310953169 A CN202310953169 A CN 202310953169A CN 116681042 A CN116681042 A CN 116681042A
- Authority
- CN
- China
- Prior art keywords
- content
- vocabulary
- keyword
- features
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000012098 association analyses Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims description 11
- 238000013016 damping Methods 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 3
- 238000005429 filling process Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于关键字提取的内容概要生成方法、系统及介质;涉及数据处理技术领域;本方案针对格式固定的表单文档,主要是企业备案或申请表类的表单文档,提供基于关键字提取的内容概要生成方法,通过表单中的概要标识所指示的内容特征,进行词汇关联分析提取出关键字特征,基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息,自动生成内容概要;一方面本方案避免了不同角色的前期填写和相关工作人员的后期统计,提高信息统计的准确性和时效性;另一方面在提取概要标识的关键字特征时,考虑了文本词汇之间的关联性,基于词汇关联分析方法提取关键字特征,避免了关键字特征提取不全面影响信息统计准确性的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于关键字提取的内容概要生成方法、系统及介质。
背景技术
表单文档的格式相对固定,在日常生活和工作中,有大量的表单文档需要填写,如雇佣劳动文档,银行交易文档,以及备案文档等,这些表单文档格式固定,但是其中需填写的角色信息、约定信息内容各不相同。
在填写这类表单文档时,一般做法是分配后给不同角色去填写,然而填写过程往往容易出错,并且事后还需要相关工作人员统计重新录入,从而导致信息统计的准确性和效率低下。
发明内容
本发明所要解决的技术问题是:传统填写格式固定表单文档的方法,准确性和时效性较低;本发明目的在于提供基于关键字提取的内容概要生成方法、系统及介质,对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,由内容特征及匹配的内容信息自动生成内容概要,有效解决了填写格式固定表单文档准确性和时效性低的问题。
本发明通过下述技术方案实现:
本方案提供基于关键字提取的内容概要生成方法,包括:
接收内容概要生成请求,内容概要生成请求包括原始内容文档和概要标识;
基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;内容特征包括内容引导标识;
输出内容概要。
本方案工作原理:在填写格式固定的表单文档时,传统方法是分配后给不同角色去填写,然而填写过程往往容易出错,并且填写完成后还需要相关工作人员统计重新录入,从而导致信息统计的准确性和效率低;因此本方案针对格式固定的表单文档,主要是企业备案或申请表类的表单文档,提供基于关键字提取的内容概要生成方法,通过表单中的概要标识所指示的内容特征,进行词汇关联分析提取出关键字特征,基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息,自动生成内容概要;一方面本方案避免了不同角色的前期填写和相关工作人员的后期统计,提高信息统计的准确性和时效性;另一方面在提取概要标识的关键字特征时,考虑了文本词汇之间的关联性,基于词汇关联分析方法提取关键字特征,避免了关键字特征提取不全面影响信息统计准确性的问题。
现有技术中存在,在角色填写表单文档过程中进行自动录入的方式,即手动填写+自动录入,但是依然存在角色填写过程中容易出错的问题;本方案提供的基于关键字提取的内容概要生成方法,不依赖于角色自主填写,从概要标识中进行词汇关联分析提取得到关键字特征,根据关键字从原始内容文档中提取出目标信息后进行自动填写,避免了角色介入影响表单文档填写准确率的问题。
本方案中原始内容文档主要包括:企业宣传页、单位宣传页、项目报告书等由企业自主提供的文档,还包括从第三方信息网站获取的企业信息。
填写企业备案或申请表类的表单文档时,填写区可能存在语义性文本填写的情况(比如项目建设进度、出资进度计划、企业工作职责等),语义性文本填写内容难以直接从原始内容文档中获取,因此本方案词汇关联分析提取出内容引导标识的关键字特征,根据关键字特征从原始内容文档中搜索组合出匹配的内容信息;考虑了文本中词汇间的关联性,避免关键字特征提取不全面导致准确性低的问题。
进一步优化方案为,对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,包括方法:
获取当前概要标识的一个或多个内容引导标识;
判断当前内容引导标识为通用引导标识或隐含引导标识:
若当前内容引导标识为通用引导标识,则以当前内容引导标识及其延伸标识作为关键字特征;延伸标识表示与当前内容引导标识引导指向相同的字或词;(比如,当前内容引导标识为“单位名称”时,则延伸标识可以为“企业名称”、“企业中文名称”、“法人名称”等)
若当前内容引导标识为隐含引导标识,则词汇关联分析当前概要标识的历史数据得到关键字特征。
(通用引导标识表示内容引导标识本身就可以作为关键字,如:内容引导标识为“企业名称”、“注册资本”、“组织代码”、“网址”、“地址”等,可以直接作为关键字的标识;而隐含引导标识表示根据内容引导标识本身无法搜索得到针对内容的标识,如:企业简介、项目服务情况、企业标准化情况等需要总结概述的标识。)
进一步优化方案为,词汇关联分析当前概要标识的历史数据得到关键字特征,包括方法:
获取当前内容引导标识对应的历史内容概要,并对历史内容概要进行预处理得到文本文档:对历史内容概要的文本进行句子切割,并基于分词器得到文本词汇,标记文本词汇的属性,保留重要词汇,剔除停用词汇和无关语义词汇;本方案中重要词汇包括的动词、名词、形容词等;
对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S;
遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值;
以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。
进一步优化方案为,对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S,包括方法:
以句子为单位将文本文档K划分成k个句子;其中每个句子中包含一个或多个重要词汇;
包含在同一个句子中的重要词汇a1和重要词汇a2定义为有关联关系,将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项;对整个文本文档K进行关联迭代得到n个关联高频词汇项Sa,Sb,…,Sn,所有关联高频词汇项组成的集合作为高频词汇集S=(Sa,Sb,…,Sn)。
进一步优化方案为,遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值,包括方法:
计算重要词汇i在各关联高频词汇项中的关联权重值Gui:
其中,gi为重要词汇i在文本文档K中出现的次数,Pui为重要词汇i在关联高频词汇项u中出现的概率;
计算重要词汇i在关联高频词汇集S中的平均关联权重值:
以平均关联权重值平衡TextWank模型的阻尼系数计算出重要词汇i的权重值:在TextWank模型中,平衡后的阻尼系数为/>;其中d为平衡前的阻尼系数。
传统的关键字提取过程主要以词汇频率的大小来进行,具备简单易行的特点,其中频率高的词汇成为关键字的比例较大,而频率较低的词汇成为关键字的可能性较小,这种统计方法忽略了词汇在文本中所包含的意义,使得关键字的提取不全面,造成文本语义的缺失。本方案对于关键字的选取时计算了词汇在文本中的关联信息,弱化了词汇频率的重要性,为低频出现的重要词汇提供了更多机会,提高文本关键字的提取效果。
进一步优化方案为,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,包括方法:
获取原始内容文档,并将原始内容文档转换成文本文档,以段落为单位将原始内容文档划分成多个段落;
遍历搜索所有段落,筛选出包含关键字特征的段落;
对包含关键字特征的段落进行重复筛除得到关键语句集;
建立组合式模型生成关键语句集的内容信息;组合式模型为在关键语句集中随机组合各关键语句得到一个关键语句子集,所述关键语句子集能够最全面的概括关键语句集的主要内容,且关键语句子集中包含不同关键字特征的数量达到数量阈值Q;
本方案中组合式模型为BERT模型,在BERT特征提取器后接入线性分类器作为内容概要层,内容概要层会输出一个向量,向量中的第i个位置的小数表示第i条语句是否被选为内容概要的概率;内容概要层设置为sigmoid函数;最后选择出概率最高的k条语句作为最终的内容概要。
以关键语句子集内的语句作为与内容特征相匹配的内容信息。
本方案一方面以句子为单位对文本文档K中的各重要词汇进行关联规则挖掘构建关联高频词汇集S,另一方面还以段落为单位对关键语句集进行包含关键字特征的筛选,减少冗余项,提炼出精简的匹配内容信息;
进一步优化方案为,对包含关键字特征的段落进行重复筛除得到关键语句集,包括方法:
将包含关键字特征的段落分别以一个句子为单位切割成多个语句;
对所有语句进行语义分析;
剔除同一段落中与关键字特征无关的语句,剔除段落之间语义重复的语句后,得到关键语句集。
本方案在一方面以段落为单位对关键语句集进行包含关键字特征的筛除,筛除无关段落;另一方面以句子为单位进行语义分析,剔除无关句子,精准生成内容引导标识的内容信息。
进一步优化方案为,基于内容特征及匹配的内容信息生成内容概要,包括方法:将与内容特征匹配的内容信息对应填充至内容引导标识的填写区,当概要标识内所有内容引导标识的填写区均填写后生成内容概要。
本方案还提供基于关键字提取的内容概要生成系统,用于实现上述的基于关键字提取的内容概要生成方法,包括:
请求接收模块,用于接收内容概要生成请求,内容概要生成请求包括原始内容文档和概要标识;
内容概要生成模块,用于基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;内容特征包括内容引导标识;
输出模块,用于输出内容概要。
本方案还提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行可实现如上的基于关键字提取的内容概要生成方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提供的基于关键字提取的内容概要生成方法、系统及介质;本方案针对格式固定的表单文档,提供基于关键字提取的内容概要生成方法,通过表单中的概要标识所指示的内容特征,提取出关键字特征,基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息,自动生成内容概要;避免了不同角色的前期填写和相关工作人员的后期统计,提高信息统计的准确性和时效性。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为基于关键字提取的内容概要生成方法流程示意图。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在填写格式固定的表单文档时,传统方法是分配后给不同角色去填写,然而填写过程往往容易出错,并且填写完成后还需要相关工作人员统计重新录入,从而导致信息统计的准确性和效率低下;因此本方案针对格式固定的表单文档,提供以下实施例解决上述技术问题。
实施例1
本实施例提供基于关键字提取的内容概要生成方法,如图1所示,包括:
步骤一:接收内容概要生成请求,内容概要生成请求包括原始内容文档和概要标识;
步骤二:基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:
T1,对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征;包括方法:
T11,获取当前概要标识的一个或多个内容引导标识;
T12,判断当前内容引导标识为通用引导标识或隐含引导标识:
若当前内容引导标识为通用引导标识,则以当前内容引导标识及其延伸标识作为关键字特征;延伸标识表示与当前内容引导标识引导指向相同的字或词;(比如,当前内容引导标识为“单位名称”时,则延伸标识可以为“企业名称”、“企业中文名称”、“法人名称”等)
若当前内容引导标识为隐含引导标识,则词汇关联分析当前概要标识的历史数据得到关键字特征。
(通用引导标识表示内容引导标识本身就可以作为关键字,如:内容引导标识为“企业名称”、“注册资本”、“组织代码”、“网址”、“地址”等,可以直接作为关键字的标识;而隐含引导标识表示根据内容引导标识本身无法搜索得到针对内容的标识,如:企业简介、项目服务情况、企业标准化情况等需要总结概述的标识。)
词汇关联分析当前概要标识的历史数据得到关键字特征,包括方法:
T121,获取当前内容引导标识对应的历史内容概要,并对历史内容概要进行预处理得到文本文档:对历史内容概要的文本进行句子切割,并基于分词器得到文本词汇,标记文本词汇的属性,保留重要词汇,剔除停用词汇和无关语义词汇;重要词汇包括的动词、名词、形容词等;
T122,对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S;包括方法:
以句子为单位将文本文档K划分成k个句子;其中每个句子中包含一个或多个重要词汇;
包含在同一个句子中的重要词汇a1和重要词汇a2定义为有关联关系,将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项;对整个文本文档K进行关联迭代得到n个关联高频词汇项Sa,Sb,…,Sn,所有关联高频词汇项组成的集合作为高频词汇集S=(Sa,Sb,…,Sn)。
T123,遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值;包括方法:
计算重要词汇i在各关联高频词汇项中的关联权重值Gui:
其中,gi为重要词汇i在文本文档K中出现的次数,Pui为重要词汇i在关联高频词汇项u中出现的概率;
计算重要词汇i在关联高频词汇集S中的平均关联权重值:
以平均关联权重值平衡TextWank模型的阻尼系数计算出重要词汇i的权重值:在TextWank模型中,平衡后的阻尼系数为/>;其中d为平衡前的阻尼系数。
T124,以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。
T2,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息;
T21,获取原始内容文档,并将原始内容文档转换成文本文档,以段落为单位将原始内容文档划分成多个段落;
T22,遍历搜索所有段落,筛选出包含关键字特征的段落;
T23,对关键语句集中包含关键字特征的段落进行重复筛除得到关键语句集;
T231,将包含关键字特征的段落分别以一个句子为单位切割成多个语句;
T232,对所有语句进行语义分析;
T233,对包含关键字特征的段落进行重复筛除得到关键语句集:剔除同一段落中与关键字特征无关的语句,剔除段落之间语义重复的语句后,得到关键语句集。
T24,建立组合式模型生成关键语句集的内容信息;组合式模型为在关键语句集中随机组合各关键语句得到一个关键语句子集,所述关键语句子集能够最全面的概括关键语句集的主要内容,且关键语句子集中包含不同关键字特征的数量达到数量阈值Q;
本实施例中组合式模型为BERT模型,在BERT特征提取器后接入线性分类器作为内容概要层,内容信息层会输出一个向量,向量中的第i个位置的小数表示第i条语句是否被选为内容信息的概率;内容信息层设置为sigmoid函数;最后选择出概率最高的k条语句作为最终的内容信息。
T25,以关键语句子集内的语句作为与内容特征相匹配的内容信息。
T3,基于内容特征及匹配的内容信息生成内容概要;内容特征包括内容引导标识;
步骤三:基于内容特征及匹配的内容信息生成内容概要,包括方法:将与内容特征匹配的内容信息对应填充至内容引导标识的填写区,当概要标识内所有内容引导标识的填写区均填写后生成内容概要。
实施例2
本实施例基于关键字提取的内容概要生成系统,用于实现实施例1的基于关键字提取的内容概要生成方法,包括:
请求接收模块,用于接收内容概要生成请求,内容概要生成请求包括原始内容文档和概要标识;
内容概要生成模块,用于基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;内容特征包括内容引导标识;
输出模块,用于输出内容概要。
实施例3
本实施例提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行可实现如实施例1的基于关键字提取的内容概要生成方法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于关键字提取的内容概要生成方法,其特征在于,包括:
接收内容概要生成请求,所述内容概要生成请求包括原始内容文档和概要标识;
基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;所述内容特征包括内容引导标识;
输出所述内容概要。
2.根据权利要求1所述的基于关键字提取的内容概要生成方法,其特征在于,所述对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,包括方法:
获取当前概要标识的一个或多个内容引导标识;
判断当前内容引导标识为通用引导标识或隐含引导标识:
若当前内容引导标识为通用引导标识,则以当前内容引导标识及其延伸标识作为关键字特征;所述延伸标识表示与当前内容引导标识引导指向相同的字或词;
若当前内容引导标识为隐含引导标识,则词汇关联分析当前概要标识的历史数据得到关键字特征。
3.根据权利要求2所述的基于关键字提取的内容概要生成方法,其特征在于,所述词汇关联分析当前概要标识的历史数据得到关键字特征,包括方法:
获取当前内容引导标识对应的历史内容概要,并对历史内容概要进行预处理得到文本文档:对历史内容概要的文本进行句子切割,并基于分词器得到文本词汇,标记文本词汇的属性,保留重要词汇,剔除停用词汇和无关语义词汇;
对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S;
遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值;
以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。
4.根据权利要求3所述的基于关键字提取的内容概要生成方法,其特征在于,所述对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S,包括方法:
以句子为单位将文本文档K划分成k个句子;其中每个句子中包含一个或多个重要词汇;
包含在同一个句子中的重要词汇a1和重要词汇a2定义为有关联关系,将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项;
对整个文本文档K进行关联迭代得到n个关联高频词汇项Sa,Sb ,…,Sn,所有关联高频词汇项组成的集合作为高频词汇集S=(Sa ,Sb ,…,Sn)。
5.根据权利要求3所述的基于关键字提取的内容概要生成方法,其特征在于,所述遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值,包括方法:
计算重要词汇i在各关联高频词汇项中的关联权重值Gui:;
其中,gi为重要词汇i在文本文档K中出现的次数,Pui为重要词汇i在关联高频词汇项u中出现的概率;
计算重要词汇i在关联高频词汇集S中的平均关联权重值:/>;
以平均关联权重值平衡TextWank模型的阻尼系数计算出重要词汇i的权重值:在TextWank模型中,平衡后的阻尼系数为/>;其中d为平衡前的阻尼系数。
6.根据权利要求1所述的基于关键字提取的内容概要生成方法,其特征在于,所述基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,包括方法:
获取原始内容文档,并将原始内容文档转换成文本文档,以段落为单位将原始内容文档划分成多个段落;
遍历搜索所有段落,筛选出包含关键字特征的段落;
对包含关键字特征的段落进行重复筛除得到关键语句集;
建立组合式模型生成关键语句集的内容信息;组合式模型为在关键语句集中随机组合各关键语句得到一个关键语句子集,所述关键语句子集能够最全面的概括关键语句集的主要内容,且关键语句子集中包含不同关键字特征的数量达到数量阈值Q;
以所述关键语句子集内的语句作为与内容特征相匹配的内容信息。
7.根据权利要求6所述的基于关键字提取的内容概要生成方法,其特征在于,所述对包含关键字特征的段落进行重复筛除得到关键语句集,包括方法:
将关键语句集中包含关键字特征的段落分别以一个句子为单位切割成多个语句;
对所有语句进行语义分析;
剔除同一段落中与关键字特征无关的语句,剔除段落之间语义重复的语句后,得到关键语句集。
8.根据权利要求1所述的基于关键字提取的内容概要生成方法,其特征在于,所述基于内容特征及匹配的内容信息生成内容概要,包括方法:将与内容特征匹配的内容信息对应填充至内容引导标识的填写区,当概要标识内所有内容引导标识的填写区均填写后生成内容概要。
9.基于关键字提取的内容概要生成系统,其特征在于,用于实现权利要求1-8任意一项所述的基于关键字提取的内容概要生成方法,包括:
请求接收模块,用于接收内容概要生成请求,所述内容概要生成请求包括原始内容文档和概要标识;
内容概要生成模块,用于基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;所述内容特征包括内容引导标识;
输出模块,用于输出所述内容概要。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行可实现如权利要求1-8中任意一项所述的基于关键字提取的内容概要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310953169.8A CN116681042B (zh) | 2023-08-01 | 2023-08-01 | 基于关键字提取的内容概要生成方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310953169.8A CN116681042B (zh) | 2023-08-01 | 2023-08-01 | 基于关键字提取的内容概要生成方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681042A true CN116681042A (zh) | 2023-09-01 |
CN116681042B CN116681042B (zh) | 2023-10-10 |
Family
ID=87791288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310953169.8A Active CN116681042B (zh) | 2023-08-01 | 2023-08-01 | 基于关键字提取的内容概要生成方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681042B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6825945B1 (en) * | 1999-05-25 | 2004-11-30 | Silverbrook Research Pty Ltd | Method and system for delivery of a brochure |
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
CN112183036A (zh) * | 2019-06-18 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种格式文档生成方法、装置、设备及存储介质 |
CN112434496A (zh) * | 2020-12-11 | 2021-03-02 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
CN116308221A (zh) * | 2023-05-25 | 2023-06-23 | 成都信通信息技术有限公司 | 一种基于人工智能的低碳奖章自动生成系统 |
-
2023
- 2023-08-01 CN CN202310953169.8A patent/CN116681042B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6825945B1 (en) * | 1999-05-25 | 2004-11-30 | Silverbrook Research Pty Ltd | Method and system for delivery of a brochure |
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
CN112183036A (zh) * | 2019-06-18 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种格式文档生成方法、装置、设备及存储介质 |
CN112434496A (zh) * | 2020-12-11 | 2021-03-02 | 深圳司南数据服务有限公司 | 一种公告文档表格数据识别方法及终端 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
CN116308221A (zh) * | 2023-05-25 | 2023-06-23 | 成都信通信息技术有限公司 | 一种基于人工智能的低碳奖章自动生成系统 |
Non-Patent Citations (2)
Title |
---|
向彩霞 等: "自动标引在研究院知识资源自建数据库中的研究与应用", 《航天工业管理》, no. 9, pages 84 - 88 * |
潘晓 等: "支持OR语义的高效受限Top-k空间关键字查询技术", 《软件学报》, vol. 31, no. 10, pages 3197 - 3212 * |
Also Published As
Publication number | Publication date |
---|---|
CN116681042B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
US20150356091A1 (en) | Method and system for identifying microblog user identity | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
CN113971210B (zh) | 一种数据字典生成方法、装置、电子设备及存储介质 | |
CN112035599A (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
US11379527B2 (en) | Sibling search queries | |
US20230067069A1 (en) | Document digitization, transformation and validation | |
US20240054281A1 (en) | Document processing | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
US11423219B2 (en) | Generation and population of new application document utilizing historical application documents | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
US20160034456A1 (en) | Managing credibility for a question answering system | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
CN118132669A (zh) | 一种基于大语言模型的智能索引方法 | |
US20090182759A1 (en) | Extracting entities from a web page | |
CN114391142A (zh) | 使用结构化和非结构化数据的解析查询 | |
US20240062572A1 (en) | Text data structuring method and apparatus using line information | |
CN116681042B (zh) | 基于关键字提取的内容概要生成方法、系统及介质 | |
CN116521837A (zh) | 基于上下文语义检索的图谱问答方法、系统与计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |