CN111767393A - 一种文本核心内容提取方法及装置 - Google Patents
一种文本核心内容提取方法及装置 Download PDFInfo
- Publication number
- CN111767393A CN111767393A CN202010575748.XA CN202010575748A CN111767393A CN 111767393 A CN111767393 A CN 111767393A CN 202010575748 A CN202010575748 A CN 202010575748A CN 111767393 A CN111767393 A CN 111767393A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- processed
- paragraph
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000006835 compression Effects 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 239000002245 particle Substances 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000013209 evaluation strategy Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 239000000872 buffer Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种文本核心内容提取方法及装置,所述方法包括:获取待处理文本并提取所述待处理文本中的关键词;将所述待处理文本中的各段落划分为多个主题;根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;将所述核心句子按照预设的组合策略进行组合,形成摘要文本。本申请提供的文本核心内容提取方法及装置,采用多维度的综合评价策略,能够根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
Description
技术领域
本申请涉及自然语言处理技术领域,具体的是一种文本核心内容提取方法及装置。
背景技术
随着互联网技术的蓬勃发展,各种信息资源越发丰富,文本数量越发庞大,呈待提供一种能够进行自然语言处理,提取文本核心内容的方法。文本核心内容提取是实现客户交互、建设资讯系统、进行知识管理等的一个核心功能。文本核心内容提取可用于对文本内容进行压缩,进行高效集中展示等场景。
在现有文本核心内容提取的相关技术中,关键字的提取不能做到在全文中均匀散布,据此所生成的文本核心内容有失平衡性,不能准确代表文本的核心思想。另有现有技术应用句法结构分析,生成知识网络的方法对文本核心内容进行提取,据此生成文本摘要。但句法结构分析具有特定性,普适性差,对文本核心内容的提取存在片面性;另外利用知识网络对文本进行分析,缺乏有效的评判手段,不能准确地提取出文本的核心内容。
发明内容
针对现有技术中的问题,本申请提供一种文本核心内容提取方法及装置,能够对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种文本核心内容提取方法,包括:
获取待处理文本并提取所述待处理文本中的关键词;
将所述待处理文本中的各段落划分为多个主题;
根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;
将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
进一步地,所述获取待处理文本并提取所述待处理文本中的关键词,包括:
对所述待处理文本进行句子分割,得到全文句子列表;
对所述全文句子列表进行分词得到全文词汇,对所述全文词汇进行共现指标统计和词频统计,得到共现指标数据集及词频统计数据集;
根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇;
将所述候选词汇输入至预先创建的词汇领域倾向性判断模型,得到所述关键词。
进一步地,在对所述全文句子列表进行分词得到全文词汇之后,包括:对分词得到的全文词汇进行词性标注及停用词和虚词过滤。
进一步地,所述根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇,包括:
根据所述共现指标数据集及词频统计数据集计算所述全文词汇中各词汇的评分;
根据所述评分及句子候选词汇数量阈值筛选出所述候选词汇。
进一步地,将所述待处理文本中的各段落划分为多个主题,包括:
根据段落尾部标志将所述待处理文本进行段落划分,得到段落列表;
根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题。
进一步地,所述文本核心内容提取方法,还包括:对所述段落列表中的各段落进行预处理,得到预处理后的段落列表。
进一步地,所述根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题,包括:
对所述段落列表中各段落进行分词处理,并计算所述各相邻段落的相似度;
将所述相似度大于预设阈值的所述相邻段落划分入相同主题,得到所述待处理文本对应的多个主题。
进一步地,所述根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次,包括:
对所述全文句子列表中的各句子进行顺序标号,并根据所述顺序标号计算所述主题中各句子的位置;
统计所述主题中各句子所含的设定词汇的数量、关键词的频次及词频总数占所在主题词频总数的比重;
对所述主题中各句子的各指标参数进行归一化处理;
根据归一化处理结果及各指标参数权重计算所述主题中各句子的得分,对所述主题中各句子按照得分进行排序;
根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值;
根据所述主题的内容长度阈值按照从高到低的顺序对排序后的各主题进行句子截取,得到各所述主题的核心句子。
进一步地,根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值,包括:
根据所述预设的摘要文本长度阈值及所述待处理文本的长度计算所述待处理文本的压缩率;
根据所述压缩率及所述主题的内容长度计算所述主题的内容长度阈值。
第二方面,本申请提供一种文本核心内容提取装置,包括:
关键词提取单元,用于获取待处理文本并提取所述待处理文本中的关键词;
主题划分单元,用于将所述待处理文本中的各段落划分为多个主题;
主题核心句子获取单元,用于根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;
摘要文本组合单元,用于将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
进一步地,所述关键词提取单元,包括:
全文句子分割模块,用于对所述待处理文本进行句子分割,得到全文句子列表;
数据集生成模块,用于对所述全文句子列表进行分词得到全文词汇,对所述全文词汇进行共现指标统计和词频统计,得到共现指标数据集及词频统计数据集;
候选词汇筛选模块,用于根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇;
关键词生成模块,用于将所述候选词汇输入至预先创建的词汇领域倾向性判断模型,得到所述关键词。
进一步地,所述关键词提取单元还包括:过滤模块,用于对分词得到的全文词汇进行词性标注及停用词和虚词过滤。
进一步地,所述候选词汇筛选模块,包括:
词汇评分子模块,用于根据所述共现指标数据集及词频统计数据集计算所述全文词汇中各词汇的评分;
候选词汇生成子模块,用于根据所述评分及句子候选词汇数量阈值筛选出所述候选词汇。
进一步地,所述主题划分单元,包括:
段落划分模块,用于根据段落尾部标志将所述待处理文本进行段落划分,得到段落列表;
主题生成模块,用于根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题。
进一步地,所述的文本核心内容提取装置,还包括:段落预处理单元,用于对所述段落列表中的各段落进行预处理,得到预处理后的段落列表。
进一步地,所述主题生成模块,包括:
相似度计算子模块,用于对所述段落列表中各段落进行分词处理,并计算所述各相邻段落的相似度;
主题生成子模块,用于将所述相似度大于预设阈值的所述相邻段落划分入相同主题,得到所述待处理文本对应的多个主题。
进一步地,所述主题核心句子获取单元,包括:
句子位置确定模块,用于对所述全文句子列表中的各句子进行顺序标号,并根据所述顺序标号计算所述主题中各句子的位置;
统计模块,用于统计所述主题中各句子所含的设定词汇的数量、关键词的频次及词频总数占所在主题词频总数的比重;
归一化处理模块,用于对所述主题中各句子的各指标参数进行归一化处理;
排序模块,用于根据归一化处理结果及各指标参数权重计算所述主题中各句子的得分,对所述主题中各句子按照得分进行排序;
主题内容长度阈值计算模块,用于根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值;
主题核心句子生成模块,用于根据所述主题的内容长度阈值按照从高到低的顺序对排序后的各主题进行句子截取,得到各所述主题的核心句子。
进一步地,所述主题内容长度阈值计算模块,包括:
压缩率计算子模块,用于根据所述预设的摘要文本长度阈值及所述待处理文本的长度计算所述待处理文本的压缩率;
主题内容长度阈值计算子模块,用于根据所述压缩率及所述主题的内容长度计算所述主题的内容长度阈值。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的文本核心内容提取方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的文本核心内容提取方法的步骤。
由上述技术方案可知,本申请提供一种文本核心内容提取方法及装置,采用多维度的综合评价策略,能够根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的文本核心内容提取方法的流程示意图之一;
图2为本申请实施例中的文本核心内容提取方法的流程示意图之二;
图3为本申请实施例中的文本核心内容提取方法的流程示意图之三;
图4为本申请实施例中的文本核心内容提取方法的流程示意图之四;
图5为本申请实施例中的文本核心内容提取方法的流程示意图之五;
图6为本申请实施例中的文本核心内容提取方法的流程示意图之六;
图7为本申请实施例中的文本核心内容提取方法的流程示意图之七;
图8为本申请实施例中的文本核心内容提取装置的结构图之一;
图9为本申请实施例中的文本核心内容提取装置的结构图之二;
图10为本申请实施例中的文本核心内容提取装置的结构图之三;
图11为本申请实施例中的文本核心内容提取装置的结构图之四;
图12为本申请实施例中的文本核心内容提取装置的结构图之五;
图13为本申请实施例中的文本核心内容提取装置的结构图之六;
图14为本申请实施例中的文本核心内容提取装置的结构图之七;
图15为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了能够根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容,本申请提供一种文本核心内容提取方法的具体实施方式,参见图1,所述文本核心内容提取方法具体包括如下内容:
步骤S101:获取待处理文本并提取所述待处理文本中的关键词。
可以理解的是,为了更好地把握待处理文本的核心思想,需要对待处理文本的全文进行关键词提取。在提取之前,首先需要对待处理文本进行句子分割,形成全文句子列表;再遍历全文句子列表中的各句子,针对每个句子进行分词处理;利用对各所分词汇进行打分筛选出预设数量的关键词。
步骤S102:将所述待处理文本中的各段落划分为多个主题。
可以理解的是,为了更好地把握待处理文本的核心思想,需要将待处理文本中的各段落划分为多个主题,并为每个主题打上主题标签,用以区分。这些主题根据待处理文本中各段落的文意进行划分,将文意接近的段落划分入同一主题,方便后续对各主题的核心句子进行提取。
步骤S103:根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次。
可以理解的是,为了提取各主题的核心句子,需为各主题中的各句子设置指标参数,并对这些指标参数进行计算,最终得到各主题中各句子的综合得分,进而可以客观地评价各主题中各句子的重要性,并根据其重要性对各主题中的各句子进行排序,最终确定各主题的核心句子。
步骤S104:将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
可以理解的是,在得到各主题的核心句子以后,可以根据预设的组合策略对各主题的核心句子进行组合。组合策略是多样化的,本申请不以此为限,例如,可以根据这些核心句子在待处理文本中的原始顺序进行排列,也可以对这些核心句子进行格式处理,比如剔除或更改位于句首或句尾的不必要的或错误的标点符号等,最终形成摘要文本。
从上述描述可知,本申请实施例提供的文本核心内容提取方法,通过提取待处理文本中的关键词,将待处理文本中的段落进行主题划分,再提取各主题的核心句子,最后将各主题的核心句子按照预设的组合策略进行组合,形成摘要文本的步骤,能够采用多维度的综合评价策略,根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
为了提取待处理文本中的关键词,在本申请的文本核心内容提取方法的一实施例中,参见图2,获取待处理文本并提取所述待处理文本中的关键词,包括:
步骤S201:对所述待处理文本进行句子分割,得到全文句子列表。
可以理解的是,如果直接针对整个待处理文本进行关键词筛选,逻辑性不强,运算量过大。因此,首先对所述待处理文本进行句子分割,得到全文句子列表,以便后续针对全文句子列表中的各句子,分别进行关键词的筛选。
步骤S202:对所述全文句子列表进行分词得到全文词汇,对所述全文词汇进行共现指标统计和词频统计,得到共现指标数据集及词频统计数据集。
可以理解的是,为了得到共现指标数据集及词频统计数据集,需首先对步骤S201中所得到的全文句子列表中的各句子进行遍历,对每个句子进行分词处理,对获取的分词结果进行共现指标统计和词频统计。设共现指标数据集为G(w,(k,v)),其中w表示分词结果中的一个词汇,k表示和w共现在一个句子中的词汇,v表示w和k共现在各句子中的次数的累计值,每共现一次,累加值增加1。另设词频统计数据集为F(w,f),其中w表示分词结果中的一个词汇,f表示词汇w在待处理文本中出现的频次。
步骤S203:根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇。
可以理解的是,统计共现指标和词频可以获知一个词汇在待处理文本中的重要程度。如果一个词汇总是和其他词汇共同出现在句子中,可以认为这个词汇比较重要;同时如果一个词汇在待处理文本中出现的频次很高,同样可以认为这个词汇比较重要。
步骤S204:将所述候选词汇输入至预先创建的词汇领域倾向性判断模型,得到所述关键词。
可以理解的是,词汇领域倾向性判断模型需要利用海量文本进行预先训练之后得到。该模型可以对候选词汇的业务倾向性进行判断,去除不符合待处理文本业务领域的词汇,将剩下的候选词汇在待处理文本中进行标记。若候选词汇中有些词汇形成了相邻词组,则可将其组合为多词关键词,形成最终的关键词。
从上述描述可知,通过句子分割、分词处理、共现指标统计、词频统计、模型过滤等几步操作,可以实现对待处理文本中关键词的提取,为后续主题核心句子的提取提供基础。
为了更好地提取待处理文本中的关键词,在本申请的文本核心内容提取方法的一实施例中,在对所述全文句子列表进行分词得到全文词汇之后,还可以对分词得到的全文词汇进行词性标注及停用词和虚词过滤。
可以理解的是,对上一步骤中所得到的全文句子列表中的各句子进行遍历,对每个句子进行分词处理后,还可对这些词汇进行词性标注,并过滤掉停用词和虚词,最终只保留指定词性的词汇,如名词、动词、形容词,这样的实词。
从上述描述可知,通过对分词得到的全文词汇进行词性标注及停用词和虚词过滤,可使之后的共现指标统计和词频统计更加精准,从而更好地获知一个词汇在待处理文本中的重要程度。
为了从全文词汇中筛选出候选词汇,在本申请的文本核心内容提取方法的一实施例中,参见图3,所述根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇,包括:
步骤S301:根据所述共现指标数据集及词频统计数据集计算所述全文词汇中各词汇的评分;
可以理解的是,通过共现指标数据集G和词频统计数据集F可以对待处理文本中的各词汇进行综合评价,给出各词汇的评分,从而获知各词汇的重要程度。
综合评价利用如下公式(1),采用加权计算的方式进行:
Vw=Wg×α+Wf×β 公式(1)
其中,Vw表示词汇w的评分,Wg表示词汇w在共现指标数据集G中的累计值,α表示共现指标数据集G的权重值,Wf表示词汇w在词频统计数据集F中的频次数值,β表示词频统计数据集F的权重值。例如,α的值取范围可以在0.5~0.6,β的值取范围可以在0.4~0.5,其中α与β之和应为1。
步骤S302:根据所述评分及候选词汇数量阈值筛选出所述候选词汇。
可以理解的是,在获得了各词汇对应的评分后,候选词汇可按照各词汇对应的评分的高低进行排序,根据预设数量,从高到低进行选取。
从上述描述可知,共现指标数据集及词频统计数据集分别对应的权重值可以根据实际情况进行调节,待处理文本的候选词汇能够根据统计得出的共现指标数据集及词频统计数据集获得。
为了对待处理文本进行逻辑上的梳理,同时为后续生成主题核心句子,在本申请的文本核心内容提取方法的一实施例中,参见图4,将所述待处理文本中的各段落划分为多个主题,包括:
步骤S401:根据段落尾部标志将所述待处理文本进行段落划分,得到段落列表。
可以理解的是,段落尾部标志一般为“\n”,当检索到“\n”时,即表示一个段落结束,两个“\n”之间的内容被视为一个段落。对于文首段落,则取第一个“\n”之前内容;对于文末段落,则取最后一个“\n”之后的内容。根据划分结果,生成段落列表。
步骤S402:根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题。
可以理解的是,对经过上一步骤处理后的各段落可以进行分词处理。根据分词结果,统计同时出现在两个相邻段落中的词汇的个数以及各段落所包含的词频总数。再根据以上两个参数,计算相邻段落的相似度。当相邻两个段落Si和Sj的相似度大于预设阈值时,可将两者视为同一主题,划归到相应的主题集合中,否则将两者视为不同主题,划归到不同的主题集合中。主题划分后,还可对各主题进行命名,方便后续提取各主题的核心句子。
从上述描述可知,通过对待处理文本进行段落划分,并计算相邻段落的相似度,可以将所述待处理文本中的各段落划分为多个主题,为后续主题核心句子提取提供基础。
为了使段落列表中的段落更加整齐清晰,在本申请的文本核心内容提取方法的一实施例中,所述文本核心内容提取方法,还包括:对所述段落列表中的各段落进行预处理,得到预处理后的段落列表。
可以理解的是,在通过步骤S401得到段落列表后,可以对段落列表进行预处理,去除段落前后的空格、换行符、制表符及回车符等干扰字符,同时去除段落字数少于50字的段落、未包含汉字的段落、纯英文字符的段落、包含无法识别字符的段落以及包含图例和列表的特殊段落等,最终得到预处理后的段落列表。
从上述描述可知,对段落进行预处理可以对段落进行初步筛选,以免在后续相似度计算过程中,出现错误或误差。
为了计算各段落的相似度,进而对待处理文本进行主题划分,在本申请的文本核心内容提取方法的一实施例中,参见图5,所述根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题,包括:
步骤S501:对所述段落列表中各段落进行分词处理,并计算所述各相邻段落的相似度;
可以理解的是,在得到段落列表后,需对段落列表中各段落进行分词处理,并根据分词结果统计各段落中所包含词汇的情况。此处的段落列表可以是经过步骤S401处理后直接所得,也可以是对步骤S401处理后,再经过段落预处理操作后所得。
计算相邻段落的相似度,计算公式(2)如下:
其中Si,Sj表示段落列表中相邻的两个段落,ωk表示段落中的词汇,分子部分表示同时出现在两个相邻段落中的词汇的个数,分母表示段落Si和Sj各自对应的词汇数量的对数之和。考虑到较长段落在待处理文本中的重要性可能更高,因此根据对数曲线的特征,在分母部分计算对数之和可以平衡较长段落在相似度计算中的优势。
为了完成对整个待处理文本中各段落之间相似度的计算和对比,需对整个待处理文本中各段落进行遍历,分别计算每两个相邻段落的相似度。
步骤S502:将所述相似度大于预设阈值的所述相邻段落划分入相同主题,得到所述待处理文本对应的多个主题。
可以理解的是,为了判断相邻两个段落是否相似,可以为相似度计算结果预设阈值。当相邻两个段落Si和Sj的相似度大于预设阈值时,可将两者视为同一主题,划归到相应的主题集合中,否则将两者视为不同主题,划归到不同的主题集合中。
从上述描述可知,通过对待处理文本进行段落划分,进而对各段落进行分词,而后根据分词结果,统计同时出现在两个相邻段落中的词汇的个数以及各段落的词汇数量,可以实现对任意两个相邻段落相似度的计算,根据相似度计算结果,划分主题。
为了计算主题中各句子的指标参数,在本申请的文本核心内容提取方法的一实施例中,参见图6,所述根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次,包括:
步骤S601:对所述全文句子列表中的各句子进行顺序标号,并根据所述顺序标号计算所述主题中各句子的位置。
可以理解的是,通常情况下,根据书写习惯,文本首尾内容往往起到提纲挈领的作用,所以文本在布局上呈V形分布,越接近待处理文本首尾的句子,其重要性相对越强,反之越弱。也就是说,句子在待处理文本中的位置可以作为反映句子重要性的一个指标参数。
具体而言,需先对待处理文本中各句子进行顺序标号,第i个句子的位置指标参数,计算公式(3)如下:
其中,Fi表示第i个句子在待处理文本中的位置指标参数,Ii表示第i个句子在待处理文本中的句子标号,Imax/2表示待处理文本中,中间句子的句子标号。
得到待处理文本中各句子的位置指标参数后,筛选出各主题中各句子对应的位置指标参数。
步骤S602:统计所述主题中各句子所含的设定词汇的数量;
可以理解的是,根据对大量待处理文本内容进行的统计,待处理文本中包含“总之”、“总而言之”、“综述”、“最后”等词汇的句子通常具有更重要的意义,其内容更接近待处理文本的核心思想。因此,可以将这样的词汇作为预设词汇,在各主题的各句子中进行检索,判断各主题中的各句子是否包含这些预设词汇。对于每个句子而言,每包含一个预设词汇,句子的该项指标参数得分增加1,否则增加0。
具体计算公式(4)如下:
其中,Ti表示第i个句子对应的该项指标参数,ωik表示第i个句子包含预设词汇k的得分,如果包含得分为1,否则得分0,其中,预设词汇k可为多个,因此,每个句子在该项的指标参数可以大于1。
步骤S603:统计所述主题中各句子包含的关键词的频次;
可以理解的是,主题中各句子包含的待处理文本中的关键词的频次对句子的重要程度具有一定的指示作用,句子所包含的关键词越多,句子的该项指标参数越高,句子越重要,反之越不重要。计算公式(5)如下:
其中,Ki表示第i个句子的该项指标参数,ωim表示第i个句子包含关键词m的得分,如果包含得分增加1,否则增加0。对于主题中的每个句子,均需遍历通过步骤S101所获得的待处理文本所对应的所有关键词。
步骤S604:统计所述主题中各句子的词频总数占所在主题词频总数的比重;
可以理解的是,词频总数占所在主题词频总数的比重这一指标参数主要考量主题中各句子的词频总数在该主题词频总数中所占的比重,比重越大,句子所包含的信息相对越丰富,该项指标参数得分越高,句子越重要,否则,该项指标参数得分越低,句子越不重要。具体计算公式(6)如下:
其中Ci表示第i个句子的该项指标参数得分,Pij表示词汇j在第i个句子中的词频,出现一次词频计数增加1,其中,j包含第i个句子中出现的所有词汇或第i个句子中出现的对全文分词结果进行过滤后得到的所有实词,因此,分子部分表示第i个句子中所包含的所有词汇总数或实词总数,Pk表示词汇k在该主题中的词频,出现一次词频计数增加1,其中,k包含该主题中出现的所有词汇或该主题中出现的对全文分词结果进行过滤后得到的所有实词,因此,分母部分表示该主题中包含的所有词汇总数或实词总数。分子分母之比即为所述主题中各句子的词频总数占所在主题词频总数的比重。
步骤S605:对所述主题中各句子的各指标参数进行归一化处理;
具体实施时,对主题中各句子的各指标参数进行归一化处理的方法所对应的公式(7)如下:
其中,Pij表示第i个句子的指标参数j进行归一化后的得分,fij表示第i个句子在指标参数j上的原始得分,fjmax和fjmin分别表示该主题中所有句子在指标参数j上的最高得分和最低得分。
经过计算,主题中的每个句子都有对应的四项归一化指标参数。
步骤S606:根据归一化处理结果及各指标参数权重计算所述主题中各句子的得分,对所述主题中各句子按照得分进行排序;
可以理解的是,对于主题中的每个句子而言,四项归一化指标参数分别设有不同的权重,将归一化指标参数各自乘以对应的权重,即可得到主题中各句子的综合得分。具体计算公式(8)如下:
其中,Sj为第j个句子的综合得分,Pi为第j个句子对应的第i项归一化指标参数,βi为第j个句子对应的第i项指标参数对应的权重。
最后,根据各句子的综合得分,对主题中的各句子进行由高到低的排序,得到候选句子列表。
步骤S607:根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值;
可以理解的是,摘要文本长度阈值需根据实际情况预先设定,再结合待处理文本的长度,即可计算出文本压缩率;再根据文本压缩率及主题的内容长度即可计算出待处理文本中各个主题的内容长度阈值。其中,长度指的是各部分对应的字数。
步骤S608:根据所述主题的内容长度阈值按照从高到低的顺序对排序后的各主题进行句子截取,得到各所述主题的核心句子。
可以理解的是,根据当前主题的内容长度阈值,在候选句子列表中,从高到低选取当前主题的核心句子。举例而言,比如当前主题的内容长度阈值为200字,在按照从高到低的顺序截取句子时,发现前10个句子的字数累加结果为205字,前9个句子的字数累加结果为190字,则在这一步骤中,仅截取前9个句子,保证主题的核心句子的字数累加结果小于200字。
从上述描述可知,通过对各句子在待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次进行统计,再经过归一化计算,能够对主题中各句子的重要程度做出排序,进而得到各所述主题的核心句子。
为了计算主题的内容长度阈值,在本申请的文本核心内容提取方法的一实施例中,参见图7,根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值,包括:
步骤S701:根据所述预设的摘要文本长度阈值及所述待处理文本的长度计算所述待处理文本的压缩率;
可以理解的是,根据预设的摘要文本长度阈值及待处理文本的长度,计算文本压缩率,如公式(9)所示:
α=β/L 公式(9)
其中,α为文本压缩率,β为摘要文本长度阈值,L为待处理文本的长度。
步骤S702:根据所述压缩率及所述主题的内容长度计算所述主题的内容长度阈值。
可以理解的是,根据文本压缩率,计算当前主题的内容长度阀值,如公式(10)所示:
w=α×l 公式(10)
其中,w为主题的内容长度阈值,α为文本压缩率,l为当前主题内容的长度。
从上述描述可知,通过预设摘要文本长度阈值,结合待处理文本的长度能够计算出文本压缩率,进而结合主题的内容长度,能够计算出主题的内容长度阈值,为后续选取适当长度的主题核心句子提供基础。
基于同一发明构思,本申请实施例还提供了一种文本核心内容提取装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于文本核心内容提取装置解决问题的原理与文本核心内容提取方法相似,因此文本核心内容提取装置的实施可以参见基于软件性能基准确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
参见图8,所述文本核心内容提取装置,包括:
关键词提取单元801,用于获取待处理文本并提取所述待处理文本中的关键词;
主题划分单元802,用于将所述待处理文本中的各段落划分为多个主题;
主题核心句子获取单元803,用于根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;
摘要文本组合单元804,用于将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
从上述描述可知,本申请实施例提供的文本核心内容提取装置,通过提取待处理文本中的关键词,将待处理文本中的段落进行主题划分,再提取各主题的核心句子,最后将各主题的核心句子按照预设的组合策略进行组合,形成摘要文本的步骤,能够采用多维度的综合评价策略,根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
参见图9,所述关键词提取单元,包括:
全文句子分割模块901,用于对所述待处理文本进行句子分割,得到全文句子列表;
数据集生成模块902,用于对所述全文句子列表进行分词得到全文词汇,对所述全文词汇进行共现指标统计和词频统计,得到共现指标数据集及词频统计数据集;
候选词汇筛选模块903,用于根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇;
关键词生成模块904,用于将所述候选词汇输入至预先创建的词汇领域倾向性判断模型,得到所述关键词。
在对所述全文句子列表进行分词得到全文词汇之后,所述关键词提取单元还包括:过滤模块,用于对分词得到的全文词汇进行词性标注及停用词和虚词过滤。
参见图10,所述候选词汇筛选模块,包括:
词汇评分子模块1001,用于根据所述共现指标数据集及词频统计数据集计算所述全文词汇中各词汇的评分;
候选词汇生成子模块1002,用于根据所述评分及句子候选词汇数量阈值筛选出所述候选词汇。
参见图11,所述主题划分单元,包括:
段落划分模块1101,用于根据段落尾部标志将所述待处理文本进行段落划分,得到段落列表;
主题生成模块1102,用于根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题。
所述的文本核心内容提取装置,还包括:段落预处理单元,用于对所述段落列表中的各段落进行预处理,得到预处理后的段落列表。
参见图12,所述主题生成模块,包括:
相似度计算子模块1201,用于对所述段落列表中各段落进行分词处理,并计算所述各相邻段落的相似度;
主题生成子模块1202,用于将所述相似度大于预设阈值的所述相邻段落划分入相同主题,得到所述待处理文本对应的多个主题。
参见图13,所述主题核心句子获取单元,包括:
句子位置确定模块1301,用于对所述全文句子列表中的各句子进行顺序标号,并根据所述顺序标号计算所述主题中各句子的位置;
统计模块1302,用于统计所述主题中各句子所含的设定词汇的数量、所述主题中各句子包含的关键词的频次及所述主题中各句子的词频总数占所在主题词频总数的比重;
归一化处理模块1303,用于对所述主题中各句子的各指标参数进行归一化处理;
排序模块1304,用于根据归一化处理结果及各指标参数权重计算所述主题中各句子的得分,对所述主题中各句子按照得分进行排序;
主题内容长度阈值计算模块1305,用于根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值;
主题核心句子生成模块1306,用于根据所述主题的内容长度阈值按照从高到低的顺序对排序后的各主题进行句子截取,得到各所述主题的核心句子。
参见图14,所述主题内容长度阈值计算模块,包括:
压缩率计算子模块1401,用于根据所述预设的摘要文本长度阈值及所述待处理文本的长度计算所述待处理文本的压缩率;
主题内容长度阈值计算子模块1402,用于根据所述压缩率及所述主题的内容长度计算所述主题的内容长度阈值。
从硬件层面来说,为了能够根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容,本申请提供一种用于实现所述文本核心内容提取方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(Processor)、存储器(Memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述文本核心内容提取装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的文本核心内容提取方法的实施例,以及文本核心内容提取装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,文本核心内容提取方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图15为本申请实施例的电子设备9600的系统构成的示意框图。如图15所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图15是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,文本核心内容提取方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:获取待处理文本并提取所述待处理文本中的关键词。
步骤S102:将所述待处理文本中的各段落划分为多个主题。
步骤S103:根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次。
步骤S104:将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
从上述描述可知,本申请实施例提供的文本核心内容提取方法,通过提取待处理文本中的关键词,将待处理文本中的段落进行主题划分,再提取各主题的核心句子,最后将各主题的核心句子按照预设的组合策略进行组合,形成摘要文本的步骤,能够采用多维度的综合评价策略,根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
在另一个实施方式中,文本核心内容提取装置可以与中央处理器9100分开配置,例如可以将文本核心内容提取装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现文本核心内容提取方法功能。
如图15所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图15中所示的所有部件;此外,电子设备9600还可以包括图15中没有示出的部件,可以参考现有技术。
如图15所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的文本核心内容提取方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的文本核心内容提取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:获取待处理文本并提取所述待处理文本中的关键词。
步骤S102:将所述待处理文本中的各段落划分为多个主题。
步骤S103:根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次。
步骤S104:将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
从上述描述可知,本申请实施例提供的文本核心内容提取方法,通过提取待处理文本中的关键词,将待处理文本中的段落进行主题划分,再提取各主题的核心句子,最后将各主题的核心句子按照预设的组合策略进行组合,形成摘要文本的步骤,能够采用多维度的综合评价策略,根据文本中的不同主题,对文本核心内容进行有代表性的提取,全面客观地反映文本内容。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种文本核心内容提取方法,其特征在于,包括:
获取待处理文本并提取所述待处理文本中的关键词;
将所述待处理文本中的各段落划分为多个主题;
根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;
将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
2.根据权利要求1所述的文本核心内容提取方法,其特征在于,所述获取待处理文本并提取所述待处理文本中的关键词,包括:
对所述待处理文本进行句子分割,得到全文句子列表;
对所述全文句子列表进行分词得到全文词汇,对所述全文词汇进行共现指标统计和词频统计,得到共现指标数据集及词频统计数据集;
根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇;
将所述候选词汇输入至预先创建的词汇领域倾向性判断模型,得到所述关键词。
3.根据权利要求2所述的文本核心内容提取方法,其特征在于,在对所述全文句子列表进行分词得到全文词汇之后,包括:对分词得到的全文词汇进行词性标注及停用词和虚词过滤。
4.根据权利要求2所述的文本核心内容提取方法,其特征在于,所述根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇,包括:
根据所述共现指标数据集及词频统计数据集计算所述全文词汇中各词汇的评分;
根据所述评分及候选词汇数量阈值筛选出所述候选词汇。
5.根据权利要求1所述的文本核心内容提取方法,其特征在于,将所述待处理文本中的各段落划分为多个主题,包括:
根据段落尾部标志将所述待处理文本进行段落划分,得到段落列表;
根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题。
6.根据权利要求5所述的文本核心内容提取方法,其特征在于,还包括:对所述段落列表中的各段落进行预处理,得到预处理后的段落列表。
7.根据权利要求5所述的文本核心内容提取方法,其特征在于,所述根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题,包括:
对所述段落列表中各段落进行分词处理,并计算所述各相邻段落的相似度;
将所述相似度大于预设阈值的所述相邻段落划分入相同主题,得到所述待处理文本对应的多个主题。
8.根据权利要求2所述的文本核心内容提取方法,其特征在于,所述根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次,包括:
对所述全文句子列表中的各句子进行顺序标号,并根据所述顺序标号计算所述主题中各句子的位置;
统计所述主题中各句子所含的设定词汇的数量、关键词的频次及词频总数占所在主题词频总数的比重;
对所述主题中各句子的各指标参数进行归一化处理;
根据归一化处理结果及各指标参数权重计算所述主题中各句子的得分,对所述主题中各句子按照得分进行排序;
根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值;
根据所述主题的内容长度阈值按照从高到低的顺序对排序后的各主题进行句子截取,得到各所述主题的核心句子。
9.根据权利要求8所述的文本核心内容提取方法,其特征在于,所述根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值,包括:
根据所述预设的摘要文本长度阈值及所述待处理文本的长度计算所述待处理文本的压缩率;
根据所述压缩率及所述主题的内容长度计算所述主题的内容长度阈值。
10.一种文本核心内容提取装置,其特征在于,包括:
关键词提取单元,用于获取待处理文本并提取所述待处理文本中的关键词;
主题划分单元,用于将所述待处理文本中的各段落划分为多个主题;
主题核心句子获取单元,用于根据所述主题中各句子对应的指标参数分别提取各所述主题的核心句子,其中,所述指标参数包括:各句子在所述待处理文本的位置、各句子的词频总数占所在主题词频总数的比重、各句子的设定词汇的数量及各句子包含的关键词的频次;
摘要文本组合单元,用于将所述核心句子按照预设的组合策略进行组合,形成摘要文本。
11.根据权利要求10所述的文本核心内容提取装置,其特征在于,所述关键词提取单元包括:
全文句子分割模块,用于对所述待处理文本进行句子分割,得到全文句子列表;
数据集生成模块,用于对所述全文句子列表进行分词得到全文词汇,对所述全文词汇进行共现指标统计和词频统计,得到共现指标数据集及词频统计数据集;
候选词汇筛选模块,用于根据所述共现指标数据集及词频统计数据集从所述全文词汇中筛选出候选词汇;
关键词生成模块,用于将所述候选词汇输入至预先创建的词汇领域倾向性判断模型,得到所述关键词。
12.根据权利要求11所述的文本核心内容提取装置,其特征在于,所述关键词提取单元还包括:过滤模块,用于对分词得到的全文词汇进行词性标注及停用词和虚词过滤。
13.根据权利要求11所述的文本核心内容提取装置,其特征在于,所述候选词汇筛选模块包括:
词汇评分子模块,用于根据所述共现指标数据集及词频统计数据集计算所述全文词汇中各词汇的评分;
候选词汇生成子模块,用于根据所述评分及句子候选词汇数量阈值筛选出所述候选词汇。
14.根据权利要求10所述的文本核心内容提取装置,其特征在于,所述主题划分单元包括:
段落划分模块,用于根据段落尾部标志将所述待处理文本进行段落划分,得到段落列表;
主题生成模块,用于根据所述段落列表中各相邻段落的相似度对各段落进行主题划分,得到多个主题。
15.根据权利要求14所述的文本核心内容提取装置,其特征在于,还包括:段落预处理单元,用于对所述段落列表中的各段落进行预处理,得到预处理后的段落列表。
16.根据权利要求14所述的文本核心内容提取装置,其特征在于,所述主题生成模块包括:
相似度计算子模块,用于对所述段落列表中各段落进行分词处理,并计算所述各相邻段落的相似度;
主题生成子模块,用于将所述相似度大于预设阈值的所述相邻段落划分入相同主题,得到所述待处理文本对应的多个主题。
17.根据权利要求11所述的文本核心内容提取装置,其特征在于,所述主题核心句子获取单元包括:
句子位置确定模块,用于对所述全文句子列表中的各句子进行顺序标号,并根据所述顺序标号计算所述主题中各句子的位置;
统计模块,用于统计所述主题中各句子所含的设定词汇的数量、关键词的频次及词频总数占所在主题词频总数的比重;
归一化处理模块,用于对所述主题中各句子的各指标参数进行归一化处理;
排序模块,用于根据归一化处理结果及各指标参数权重计算所述主题中各句子的得分,对所述主题中各句子按照得分进行排序;
主题内容长度阈值计算模块,用于根据预设的摘要文本长度阈值、所述待处理文本的长度及所述主题的内容长度计算所述主题的内容长度阈值;
主题核心句子生成模块,用于根据所述主题的内容长度阈值按照从高到低的顺序对排序后的各主题进行句子截取,得到各所述主题的核心句子。
18.根据权利要求17所述的文本核心内容提取装置,其特征在于,所述主题内容长度阈值计算模块,包括:
压缩率计算子模块,用于根据所述预设的摘要文本长度阈值及所述待处理文本的长度计算所述待处理文本的压缩率;
主题内容长度阈值计算子模块,用于根据所述压缩率及所述主题的内容长度计算所述主题的内容长度阈值。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述的文本核心内容提取方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述的文本核心内容提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575748.XA CN111767393A (zh) | 2020-06-22 | 2020-06-22 | 一种文本核心内容提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575748.XA CN111767393A (zh) | 2020-06-22 | 2020-06-22 | 一种文本核心内容提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767393A true CN111767393A (zh) | 2020-10-13 |
Family
ID=72721527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010575748.XA Pending CN111767393A (zh) | 2020-06-22 | 2020-06-22 | 一种文本核心内容提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767393A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112804580A (zh) * | 2020-12-31 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 一种视频打点的方法和装置 |
CN112926320A (zh) * | 2021-03-24 | 2021-06-08 | 山东亿云信息技术有限公司 | 一种基于主题词优化的文本关键内容智能抽取方法及系统 |
CN113033163A (zh) * | 2021-03-24 | 2021-06-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN113449073A (zh) * | 2021-06-21 | 2021-09-28 | 福州米鱼信息科技有限公司 | 一种关键词的选取方法及系统 |
CN113626583A (zh) * | 2021-07-14 | 2021-11-09 | 北京海泰方圆科技股份有限公司 | 文本摘要标注方法、装置、电子设备和存储介质 |
CN114492375A (zh) * | 2020-10-26 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
CN114841171A (zh) * | 2022-04-29 | 2022-08-02 | 北京思源智通科技有限责任公司 | 一种文本分段主题提取方法、系统、可读介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN110110332A (zh) * | 2019-05-06 | 2019-08-09 | 中国联合网络通信集团有限公司 | 文本摘要生成方法及设备 |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
-
2020
- 2020-06-22 CN CN202010575748.XA patent/CN111767393A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN110110332A (zh) * | 2019-05-06 | 2019-08-09 | 中国联合网络通信集团有限公司 | 文本摘要生成方法及设备 |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492375A (zh) * | 2020-10-26 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
CN112804580A (zh) * | 2020-12-31 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 一种视频打点的方法和装置 |
CN112926320A (zh) * | 2021-03-24 | 2021-06-08 | 山东亿云信息技术有限公司 | 一种基于主题词优化的文本关键内容智能抽取方法及系统 |
CN113033163A (zh) * | 2021-03-24 | 2021-06-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN112926320B (zh) * | 2021-03-24 | 2022-12-27 | 山东亿云信息技术有限公司 | 一种基于主题词优化的文本关键内容智能抽取方法及系统 |
CN113449073A (zh) * | 2021-06-21 | 2021-09-28 | 福州米鱼信息科技有限公司 | 一种关键词的选取方法及系统 |
CN113626583A (zh) * | 2021-07-14 | 2021-11-09 | 北京海泰方圆科技股份有限公司 | 文本摘要标注方法、装置、电子设备和存储介质 |
CN114841171A (zh) * | 2022-04-29 | 2022-08-02 | 北京思源智通科技有限责任公司 | 一种文本分段主题提取方法、系统、可读介质及设备 |
CN114841171B (zh) * | 2022-04-29 | 2023-04-28 | 北京思源智通科技有限责任公司 | 一种文本分段主题提取方法、系统、可读介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN108920649B (zh) | 一种信息推荐方法、装置、设备和介质 | |
CN103970791B (zh) | 一种从视频库推荐视频的方法、装置 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN111241813B (zh) | 语料扩展方法、装置、设备及介质 | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN117609444B (zh) | 一种基于大模型的搜索问答方法 | |
CN108733644A (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112911326A (zh) | 弹幕信息处理方法、装置、电子设备和存储介质 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220927 Address after: 12 / F, 15 / F, 99 Yincheng Road, Pudong New Area pilot Free Trade Zone, Shanghai, 200120 Applicant after: Jianxin Financial Science and Technology Co.,Ltd. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |