CN113032552A - 一种基于文本摘要的政策要点抽取方法与提取系统 - Google Patents

一种基于文本摘要的政策要点抽取方法与提取系统 Download PDF

Info

Publication number
CN113032552A
CN113032552A CN202110568578.7A CN202110568578A CN113032552A CN 113032552 A CN113032552 A CN 113032552A CN 202110568578 A CN202110568578 A CN 202110568578A CN 113032552 A CN113032552 A CN 113032552A
Authority
CN
China
Prior art keywords
policy
sentence
word
document
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110568578.7A
Other languages
English (en)
Other versions
CN113032552B (zh
Inventor
麦丞程
仇学明
黄宜华
吕爽
周昌东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hongcheng Information Technology Co ltd
Original Assignee
Nanjing Hongcheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hongcheng Information Technology Co ltd filed Critical Nanjing Hongcheng Information Technology Co ltd
Priority to CN202110568578.7A priority Critical patent/CN113032552B/zh
Publication of CN113032552A publication Critical patent/CN113032552A/zh
Application granted granted Critical
Publication of CN113032552B publication Critical patent/CN113032552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于文本摘要的政策要点抽取方法与提取系统。本发明的方法包括如下步骤:S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。本发明充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。结合多任务学习框架,克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题;基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。

Description

一种基于文本摘要的政策要点抽取方法与提取系统
技术领域
本发明涉及人工智能和自然语言处理领域,特别涉及一种基于文本摘要的政策要点抽取方法与提取系统。
背景技术
近年来,由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息,互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类,可分为抽取式文本摘要(Extractive Summarization)和生成式文本摘要(Abstractive Summarization)。其中,抽取式文本摘要能够直接从原文中抽取句子,并对其进行重要性排序,形成最终的摘要。生成式文本摘要在对原文进行语义理解的基础上,对信息进行压缩,生成包含新的词汇与具有不同描述风格的摘要内容。
这两种方法各有其优点与局限性。抽取式文本摘要虽然能够抽取原文中的重要句子,但是受摘要长度的限制,其所抽取的句子可能不能完全覆盖原文内容。相较而言,生成式文本摘要在直观上更符合人类摘要书写的习惯,可以生成原文中没有的单词,灵活性更强。但其描述内容容易出现事实性错误以及存在连贯性差等问题。
“智慧政务”是文本摘要技术应用的重要场景,为了从每年各级政务服务部门发布的大量政策文件中抽取出关键信息,为企业提供政策解读的辅助能力,在政策服务领域,政策要点抽取是抽取式文本摘要技术的一个重要应用场景。从长篇幅的政策原文中抽取出重要的内容与政策要求对于提升政策的易理解性与传播效率具有重要作用。
发明内容
发明目的:本发明提出了一种基于文本摘要的政策要点抽取方法与提取系统,充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。
为了实现上述目的,本发明提出的技术方案为:
一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
进一步地,步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S12.初始化每个句子标签为
Figure DEST_PATH_IMAGE001
,预测摘要集合S为空
Figure 600123DEST_PATH_IMAGE002
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)(文本摘要算法经典评价指标:衡量预测摘要与标准摘要之间的1-gram重合度)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。
进一步地,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档
Figure 407542DEST_PATH_IMAGE003
n表示该政策文档d中包含n个句子,s i 表示该政策文本中的第i个句子,每个句子由m个单词构成,即
Figure 437815DEST_PATH_IMAGE004
,所以,
Figure DEST_PATH_IMAGE005
w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签
Figure 628887DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档
Figure 199546DEST_PATH_IMAGE008
,输出每个单词对应的词性标签
Figure DEST_PATH_IMAGE009
,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:
1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;
2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态
Figure 658209DEST_PATH_IMAGE010
,即第i句话中的第j个单词的隐状态;
3)将每个单词的隐状态
Figure DEST_PATH_IMAGE011
输入到分类器得到每个单词所对应的词性标签
Figure 154656DEST_PATH_IMAGE012
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子s i ,进行词嵌入式表示,即:
Figure 269243DEST_PATH_IMAGE013
,其中,s ij 表示句子s i 中的第j个单词,
Figure 315696DEST_PATH_IMAGE014
表示该单词采用词嵌入式表示后的向量;
2)词性标注层:将每条句子的词嵌入示表示结果
Figure 97707DEST_PATH_IMAGE015
输入到前向和后向LSTM中,得到词性标注任务的隐状态:
Figure 971248DEST_PATH_IMAGE016
其中,
Figure 838710DEST_PATH_IMAGE017
表示词性标注层中句子s i 中的第j个单词的隐状态;
3)单词层:将词性标注中每个单词的隐状态
Figure 954433DEST_PATH_IMAGE019
输入到单词层前向和后向LSTM中,得到单词层的隐状态:
Figure 325372DEST_PATH_IMAGE021
其中,
Figure DEST_PATH_IMAGE023
表示单词层句子s i 中的第j个单词的隐状态;
4)句子层:采用将句内单词的单词层隐状态
Figure 163621DEST_PATH_IMAGE024
叠加的形式,构成句子的语义表示
Figure DEST_PATH_IMAGE025
,公式表示如下:
Figure 783958DEST_PATH_IMAGE026
其中,wb为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新该语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
Figure 437794DEST_PATH_IMAGE027
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
Figure 663239DEST_PATH_IMAGE028
其中,
Figure 878582DEST_PATH_IMAGE029
表示
Figure 455056DEST_PATH_IMAGE030
的向量转置,
Figure 912583DEST_PATH_IMAGE031
表示句子向量
Figure 258113DEST_PATH_IMAGE032
与该句子内的第j个单词的相似程度得分;
Figure 142893DEST_PATH_IMAGE033
表示以常数e为底的指数函数;
Figure 206664DEST_PATH_IMAGE034
表示句子向量
Figure 700837DEST_PATH_IMAGE035
在该句子内第j个单词上的权重分布;
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
Figure 635295DEST_PATH_IMAGE036
其中,
Figure 956555DEST_PATH_IMAGE037
表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;
Figure 242042DEST_PATH_IMAGE038
表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;
Figure 775792DEST_PATH_IMAGE039
表示文档级别的语义信息doc与句子
Figure 597380DEST_PATH_IMAGE040
的矩阵相乘,
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
Figure 558382DEST_PATH_IMAGE041
其中,
Figure 331166DEST_PATH_IMAGE042
Figure 934186DEST_PATH_IMAGE043
Figure 108815DEST_PATH_IMAGE044
为文本第i个句子预测为摘要句的概率;
Figure 240719DEST_PATH_IMAGE045
n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数,
Figure 264914DEST_PATH_IMAGE046
表示文本中第i个句子中第j个单词真实词性为 QUOTE
Figure 140466DEST_PATH_IMAGE048
Figure 169602DEST_PATH_IMAGE048
的概率,
Figure DEST_PATH_IMAGE049
表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
进一步地,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率(freq(w z ))与单词总数(allwords)的占比,称之为TF,即:
Figure 269145DEST_PATH_IMAGE050
统计一篇政策文件内容中句子数目(allsent)与每个单词所在的句子数目(sent(w z ))的对数比率,称之为IDF,即:
Figure DEST_PATH_IMAGE051
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
Figure 580303DEST_PATH_IMAGE052
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
本发明还提供一种基于文本摘要技术的政策要点抽取系统,该系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能;
人机交互模型预测层:用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后,通过训练好的模型进行推断得到候选政策要点,然后后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中;
算法训练层:利用现有的政策文档及解读内容作为数据集来训练文本摘要模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练基于多任务学习的抽取式,提升算法精度。
有益效果:
相对于现有技术,本发明的优点在于:(1)结合多任务学习框架,克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题;(2)基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。
附图说明
图1为本发明的基于多任务学习的抽取式文本摘要模型流程图;
图2为基于神经网络搭建的词性标注模型框架图;
图3为本发明的政策要点系统工作流程框架图;
图4为本发明的多任务学习文本摘要神经网络架构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明公开的基于文本摘要的政策要点抽取方法,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
由于国内外尚无公开的政策要点数据集,本发明首先整理了一个百篇规模的政策要点数据集,然后对该数据集使用pyltp工具进行分句、分词、构建词表、词性标注等操作。
然后,为了构造适合抽取式文本摘要算法的数据集,对中文政策解读数据集进行句子标签构造。即:如果当前句子在政策文件中比较重要,则将该句子标注为“1”,表示该句子出现在政策解读内容中;否则,将该句子标住为“0”,表示该句不出现在政策解读内容中。
具体操作过程为:步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S12.初始化每个句子标签为
Figure 259546DEST_PATH_IMAGE001
,预测摘要集合S为空
Figure 143188DEST_PATH_IMAGE002
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)(文本摘要算法经典评价指标:衡量预测摘要与标准摘要之间的1-gram重合度)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。通过上述过程即可得到适合抽取式文本摘要的数据集。
所述的基于文本摘要的政策要点抽取方法,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档
Figure 148053DEST_PATH_IMAGE003
n表示该政策文档d中包含n个句子,s i 表示该政策文本中的第i个句子,每个句子由m个单词构成,即
Figure 382726DEST_PATH_IMAGE004
,所以,
Figure 833036DEST_PATH_IMAGE005
w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签
Figure 367923DEST_PATH_IMAGE006
Figure 746951DEST_PATH_IMAGE007
,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:目前的抽取式文本摘要算法存在着重要性不足与覆盖原文内容不全的问题,并且存在着模型容易过拟合、泛化性差等问题。为解决上述问题,本发明基于多任务学习,针对文本内容具备的“单词-句子-篇章”层次化结构进行学习,解决了抽取式文本摘要重要性不足与覆盖原文内容不全的问题,同时,提升了模型的泛化性。其中,词性标注任务是从“单词”层面对文本信息的捕获,所以本文引入词性标注任务作为辅助任务。
给定一篇包含n个句子,每个句子包含m个单词的政策文档
Figure 468920DEST_PATH_IMAGE008
,输出每个单词对应的词性标签
Figure 755545DEST_PATH_IMAGE009
,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,基于神经网络搭建的词性标注任务框架如图2所示,图2中最底层的LSTM代表前向循环神经网络,较上层的LSTM代表后向循环神经网络。具体方法是:
1)对输入的文档进行嵌入式词表示,向量维度为300;然后,输入到前向和后向LSTM中进行特征提取;
2)将前向和后向LSTM的的输出隐状态拼接后(如图2中的concat所示)得到每个单词的隐状态
Figure 613779DEST_PATH_IMAGE010
,即第i句话中的第j个单词的隐状态,隐藏层维度为256;
3)将每个单词的隐状态
Figure 930753DEST_PATH_IMAGE011
输入到分类器(如图2中的classfier所示)得到每个单词所对应的词性标签
Figure DEST_PATH_IMAGE053
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子s i ,进行词嵌入式表示,即:
Figure 202335DEST_PATH_IMAGE013
,其中,s ij 表示句子s i 中的第j个单词,
Figure 27071DEST_PATH_IMAGE014
表示该单词采用词嵌入式表示后的向量;
2)词性标注层:将每条句子的词嵌入示表示结果
Figure 792943DEST_PATH_IMAGE015
输入到前向和后向LSTM中,得到词性标注任务的隐状态:
Figure 44933DEST_PATH_IMAGE016
其中,
Figure 741494DEST_PATH_IMAGE017
表示词性标注层中句子s i 中的第j个单词的隐状态;
3)单词层:将词性标注中每个单词的隐状态
Figure 369921DEST_PATH_IMAGE019
输入到单词层前向和后向LSTM中,得到单词层的隐状态:
Figure 94426DEST_PATH_IMAGE021
其中,
Figure 517317DEST_PATH_IMAGE023
表示单词层句子s i 中的第j个单词的隐状态。
4)句子层:采用将句内单词的单词层隐状态
Figure 701174DEST_PATH_IMAGE024
叠加的形式,构成句子的语义表示
Figure 602134DEST_PATH_IMAGE025
,公式表示如下:
Figure 53581DEST_PATH_IMAGE026
其中,wb为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新该语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
Figure 912953DEST_PATH_IMAGE027
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
Figure 584106DEST_PATH_IMAGE028
其中,
Figure 819915DEST_PATH_IMAGE029
表示
Figure 128799DEST_PATH_IMAGE030
的向量转置,
Figure 893492DEST_PATH_IMAGE031
表示句子向量
Figure 940689DEST_PATH_IMAGE032
与该句子内的第j个单词的相似程度得分;
Figure 917873DEST_PATH_IMAGE033
表示以常数e为底的指数函数;
Figure 845377DEST_PATH_IMAGE034
表示句子向量
Figure 780972DEST_PATH_IMAGE035
在该句子内第j个单词上的权重分布;
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
Figure 161138DEST_PATH_IMAGE036
其中,
Figure 207592DEST_PATH_IMAGE037
表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;
Figure 491068DEST_PATH_IMAGE038
表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;
Figure 331985DEST_PATH_IMAGE039
表示文档级别的语义信息doc与句子
Figure 199446DEST_PATH_IMAGE040
的矩阵相乘,
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
Figure 315170DEST_PATH_IMAGE041
其中,
Figure 686109DEST_PATH_IMAGE042
Figure 697927DEST_PATH_IMAGE043
Figure 816799DEST_PATH_IMAGE044
为文本第i个句子预测为摘要句的概率;
Figure 798531DEST_PATH_IMAGE045
n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数,
Figure 23976DEST_PATH_IMAGE046
表示文本中第i个句子中第j个单词真实词性为 QUOTE
Figure 504898DEST_PATH_IMAGE048
Figure 346952DEST_PATH_IMAGE048
的概率,
Figure 601216DEST_PATH_IMAGE049
表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数。
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,阈值采用经验设置,将概率高于阈值的句子抽取出来作为候选政策要点内容。
所述的基于文本摘要的政策要点抽取方法,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率(freq(w z ))与单词总数(allwords)的占比,称之为TF,即:
Figure 445281DEST_PATH_IMAGE050
统计一篇政策文件内容中句子数目(allsent)与每个单词所在的句子数目(sent(w z ))的对数比率,称之为IDF,即:
Figure 330061DEST_PATH_IMAGE051
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
Figure 393832DEST_PATH_IMAGE052
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
以上是本发明提出的基于多任务学习的抽取式文本摘要算法的具体实施过程。为了更好的评估算法模型的性能,本发明采用了文本摘要算法经典的ROUGE评价指标,其中R-1,R-2,R-L的指标越高说明抽取出来的内容重要程度越高,结果越准确。其实验结果如表1所示。
表1政策要点数据集ROUGE分数
Figure 858311DEST_PATH_IMAGE054
表1中算法Lead-10表示取每篇政策的前10句话作为要点内容。可以看出,本文的方法相较于经典的Lead算法,可以实现更高ROUGE分数,说明本文方法可以抽取到政策文本中的核心内容,覆盖更全面的内容。
如图4所示,本发明公开的基于文本摘要技术的政策要点抽取系统是基于上述提出的基于文本摘要技术的政策要点抽取算法进行系统设计的。该系统主要包括数据库、用户层、人机交互模型预测层、算法训练层。
数据库:数据库主要用来存储本系统的政策文件及其结果,提供用户层所需要的数据。该过程是一个动态交互过程,当用户从用户层触发一个功能,意味着对数据库的一次读写操作。
用户层:该层主要为系统用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询等核心功能。上述系统功能基于Web技术实现与用户交互,系统从数据库读取已经分析过的政策文件及其结果,然后展示在Web页面上,提供给用户进行查询、管理。
人机交互模型预测层:具体流程为(1)后台管理员不断利用用户层提供的政策采集接口采集新的政策文件,如图4中的①所示。即:用户通过Web页面输入新的政策文件内容或者通过录入功能上传政策文件;(2)对这些政策文件进行预处理后,通过训练好的摘要系统模型进行推断得到候选政策要点,如图4中的②③④所示。其中,预处理主要包括对政策文件内容进行提取、分句、分词等,预处理结束后输入到算法模型中进行推断,生成候选政策要点内容;(3)后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中,如图4中的⑤⑥所示。
算法训练层:利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型(初始阶段,数据集内带有标注的数据规模较少)如图4中的⑦所示;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练多任务文本摘要算法模型,提升算法精度如图4中的⑧⑨⑩所示。
该系统是人机交互的过程。首先,利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型;然后,管理员不断提供新的政策文件到摘要系统,使用训练好的摘要模型进行推断得到候选政策要点;其次,管理员对与本专利发明自动生成的候选政策要点内容进行人工调整之后,再次作为训练数据保存到数据库中,成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明提出的政策要点抽取算法模型的准确度。因此,该人机过程由管理员、摘要系统、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。
在本申请所提供的实施例中,应该理解到,所揭露的方法,在没有超过本申请的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本申请的目的。例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
2.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S12.初始化每个句子标签为
Figure 730251DEST_PATH_IMAGE001
,预测摘要集合S为空
Figure 473823DEST_PATH_IMAGE002
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。
3.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档
Figure 50298DEST_PATH_IMAGE003
n表示该政策文档d中包含n个句子,s i 表示该政策文本中的第i个句子,每个句子由m个单词构成,即
Figure 507824DEST_PATH_IMAGE004
,所以,
Figure 118934DEST_PATH_IMAGE005
w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签
Figure 505178DEST_PATH_IMAGE006
Figure 568949DEST_PATH_IMAGE007
,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档
Figure 830166DEST_PATH_IMAGE008
,输出每个单词对应的词性标签
Figure 561362DEST_PATH_IMAGE009
,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:
1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;
2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态
Figure 85884DEST_PATH_IMAGE010
,即第i句话中的第j个单词的隐状态;
3)将每个单词的隐状态
Figure 401066DEST_PATH_IMAGE011
输入到分类器得到每个单词所对应的词性标签
Figure 934815DEST_PATH_IMAGE012
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子s i ,进行词嵌入式表示,即:
Figure 254938DEST_PATH_IMAGE013
,其中,s ij 表示句子s i 中的第j个单词,
Figure 747099DEST_PATH_IMAGE014
表示该单词采用词嵌入式表示后的向量;
2)词性标注层:将每条句子的词嵌入示表示结果
Figure 519883DEST_PATH_IMAGE015
输入到前向和后向LSTM中,得到词性标注任务的隐状态:
Figure 93209DEST_PATH_IMAGE016
其中,
Figure 533418DEST_PATH_IMAGE017
表示词性标注层中句子s i 中的第j个单词的隐状态;
3)单词层:将词性标注中每个单词的隐状态
Figure 665322DEST_PATH_IMAGE019
输入到单词层前向和后向LSTM中,得到单词层的隐状态:
Figure 190981DEST_PATH_IMAGE021
其中,
Figure 66533DEST_PATH_IMAGE023
表示单词层句子s i 中的第j个单词的隐状态;
4)句子层:采用将句内单词的单词层隐状态
Figure 859784DEST_PATH_IMAGE024
叠加的形式,构成句子的语义表示
Figure 428168DEST_PATH_IMAGE025
,公式表示如下:
Figure 175544DEST_PATH_IMAGE026
其中,wb为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新该语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
Figure 589208DEST_PATH_IMAGE027
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
Figure 269588DEST_PATH_IMAGE028
其中,
Figure 41497DEST_PATH_IMAGE029
表示
Figure 541749DEST_PATH_IMAGE030
的向量转置,
Figure 493524DEST_PATH_IMAGE031
表示句子向量
Figure 762832DEST_PATH_IMAGE032
与该句子内的第j个单词的相似程度得分;
Figure 673019DEST_PATH_IMAGE033
表示以常数e为底的指数函数;
Figure 916960DEST_PATH_IMAGE034
表示句子向量
Figure 203585DEST_PATH_IMAGE035
在该句子内第j个单词上的权重分布;
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
Figure 61819DEST_PATH_IMAGE036
其中,
Figure 142908DEST_PATH_IMAGE037
表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;
Figure 119216DEST_PATH_IMAGE038
表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;
Figure 678374DEST_PATH_IMAGE039
表示文档级别的语义信息doc与句子
Figure 656694DEST_PATH_IMAGE040
的矩阵相乘,
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
Figure 643104DEST_PATH_IMAGE041
其中,
Figure 339665DEST_PATH_IMAGE042
Figure 436934DEST_PATH_IMAGE043
Figure 299454DEST_PATH_IMAGE044
为文本第i个句子预测为摘要句的概率;
Figure 722345DEST_PATH_IMAGE045
n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数,
Figure 906202DEST_PATH_IMAGE046
表示文本中第i个句子中第j个单词真实词性为v的概率,
Figure 72741DEST_PATH_IMAGE047
表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
4.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率(freq(w z ))与单词总数(allwords)的占比,称之为TF,即:
Figure 494495DEST_PATH_IMAGE048
统计一篇政策文件内容中句子数目(allsent)与每个单词所在的句子数目(sent (w z ))的对数比率,称之为IDF,即:
Figure 855332DEST_PATH_IMAGE049
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
Figure 995326DEST_PATH_IMAGE050
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
5.一种基于文本摘要技术的政策要点抽取系统,其特征在于,该系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能;
人机交互模型预测层:用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后,通过训练好的模型进行推断得到候选政策要点,然后后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中;
算法训练层:利用现有的政策文档及解读内容作为数据集来训练文本摘要模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练基于多任务学习的抽取式,提升算法精度。
CN202110568578.7A 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统 Active CN113032552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110568578.7A CN113032552B (zh) 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110568578.7A CN113032552B (zh) 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统

Publications (2)

Publication Number Publication Date
CN113032552A true CN113032552A (zh) 2021-06-25
CN113032552B CN113032552B (zh) 2021-08-27

Family

ID=76455733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110568578.7A Active CN113032552B (zh) 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统

Country Status (1)

Country Link
CN (1) CN113032552B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592368A (zh) * 2021-09-29 2021-11-02 深圳市指南针医疗科技有限公司 指标数据的提取方法、装置、设备及存储介质
CN113723058A (zh) * 2021-11-02 2021-11-30 深圳市北科瑞讯信息技术有限公司 文本摘要与关键词抽取方法、装置、设备及介质
CN115859968A (zh) * 2023-02-27 2023-03-28 四川省计算机研究院 基于自然语言解析及机器学习的政策颗粒化分析系统
WO2024013369A1 (en) * 2022-07-14 2024-01-18 Swiss Reinsurance Company Ltd. Automated, parameter-pattern-driven, data mining system based on customizable chain of machine-learning-structures providing an automated data-processing pipeline, and method thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164302A1 (en) * 2012-12-07 2014-06-12 At&T Intellectual Property I, L.P. Hybrid review synthesis
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法
CN111400486A (zh) * 2020-03-13 2020-07-10 重庆大学 一种文本摘要自动生成系统及方法
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164302A1 (en) * 2012-12-07 2014-06-12 At&T Intellectual Property I, L.P. Hybrid review synthesis
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN111400486A (zh) * 2020-03-13 2020-07-10 重庆大学 一种文本摘要自动生成系统及方法
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯丽微等: "主题关键词信息融合的中文生成式自动摘要研究", 《自动化学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592368A (zh) * 2021-09-29 2021-11-02 深圳市指南针医疗科技有限公司 指标数据的提取方法、装置、设备及存储介质
CN113723058A (zh) * 2021-11-02 2021-11-30 深圳市北科瑞讯信息技术有限公司 文本摘要与关键词抽取方法、装置、设备及介质
WO2024013369A1 (en) * 2022-07-14 2024-01-18 Swiss Reinsurance Company Ltd. Automated, parameter-pattern-driven, data mining system based on customizable chain of machine-learning-structures providing an automated data-processing pipeline, and method thereof
CN115859968A (zh) * 2023-02-27 2023-03-28 四川省计算机研究院 基于自然语言解析及机器学习的政策颗粒化分析系统
CN115859968B (zh) * 2023-02-27 2023-11-21 四川省计算机研究院 一种基于自然语言解析及机器学习的政策颗粒化分析系统

Also Published As

Publication number Publication date
CN113032552B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
Weiss et al. Text mining: predictive methods for analyzing unstructured information
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
Moussa et al. A survey on opinion summarization techniques for social media
CN113360646B (zh) 基于动态权重的文本生成方法、设备及存储介质
CN111723295A (zh) 一种内容分发方法、装置和存储介质
Rafail et al. Natural language processing
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN114611520A (zh) 一种文本摘要生成方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
Zhang et al. A method of constructing a fine-grained sentiment lexicon for the humanities computing of classical chinese poetry
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
Jiang et al. A hierarchical bidirectional LSTM sequence model for extractive text summarization in electric power systems
Akhmetov et al. A Comprehensive Review on Automatic Text Summarization
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN114238617A (zh) 一种行业热点推荐方法及系统
Zhang Exploration of Cross-Modal Text Generation Methods in Smart Justice
CN115130453A (zh) 互动信息生成方法和装置
Chen et al. Sentimental analysis of Chinese new social media for stock market information
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos
Kasmuri et al. Building a Malay-English code-switching subjectivity corpus for sentiment analysis
Elmenshawy et al. Automatic arabic text summarization (AATS): A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant