CN113032552B - 一种基于文本摘要的政策要点抽取方法与提取系统 - Google Patents

一种基于文本摘要的政策要点抽取方法与提取系统 Download PDF

Info

Publication number
CN113032552B
CN113032552B CN202110568578.7A CN202110568578A CN113032552B CN 113032552 B CN113032552 B CN 113032552B CN 202110568578 A CN202110568578 A CN 202110568578A CN 113032552 B CN113032552 B CN 113032552B
Authority
CN
China
Prior art keywords
policy
sentence
word
document
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110568578.7A
Other languages
English (en)
Other versions
CN113032552A (zh
Inventor
麦丞程
仇学明
黄宜华
吕爽
周昌东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hongcheng Information Technology Co ltd
Original Assignee
Nanjing Hongcheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hongcheng Information Technology Co ltd filed Critical Nanjing Hongcheng Information Technology Co ltd
Priority to CN202110568578.7A priority Critical patent/CN113032552B/zh
Publication of CN113032552A publication Critical patent/CN113032552A/zh
Application granted granted Critical
Publication of CN113032552B publication Critical patent/CN113032552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本摘要的政策要点抽取方法与提取系统。本发明的方法包括如下步骤:S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。本发明充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。结合多任务学习框架,克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题;基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。

Description

一种基于文本摘要的政策要点抽取方法与提取系统
技术领域
本发明涉及人工智能和自然语言处理领域,特别涉及一种基于文本摘要的政策要点抽取方法与提取系统。
背景技术
近年来,由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息,互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类,可分为抽取式文本摘要(Extractive Summarization)和生成式文本摘要(Abstractive Summarization)。其中,抽取式文本摘要能够直接从原文中抽取句子,并对其进行重要性排序,形成最终的摘要。生成式文本摘要在对原文进行语义理解的基础上,对信息进行压缩,生成包含新的词汇与具有不同描述风格的摘要内容。
这两种方法各有其优点与局限性。抽取式文本摘要虽然能够抽取原文中的重要句子,但是受摘要长度的限制,其所抽取的句子可能不能完全覆盖原文内容。相较而言,生成式文本摘要在直观上更符合人类摘要书写的习惯,可以生成原文中没有的单词,灵活性更强。但其描述内容容易出现事实性错误以及存在连贯性差等问题。
“智慧政务”是文本摘要技术应用的重要场景,为了从每年各级政务服务部门发布的大量政策文件中抽取出关键信息,为企业提供政策解读的辅助能力,在政策服务领域,政策要点抽取是抽取式文本摘要技术的一个重要应用场景。从长篇幅的政策原文中抽取出重要的内容与政策要求对于提升政策的易理解性与传播效率具有重要作用。
发明内容
发明目的:本发明提出了一种基于文本摘要的政策要点抽取方法与提取系统,充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。
为了实现上述目的,本发明提出的技术方案为:
一种基于文本摘要的政策要点抽取方法,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
所述的基于文本摘要的政策要点抽取方法,步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S12.初始化每个句子标签为
Figure DEST_PATH_IMAGE001
,预测摘要集合S为空
Figure 100002_DEST_PATH_IMAGE002
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)(文本摘要算法经典评价指标:衡量预测摘要与标准摘要之间的1-gram重合度)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。
所述的基于文本摘要的政策要点抽取方法,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档
Figure DEST_PATH_IMAGE003
n表示该政策文档d中包含n个句子,s i 表示该政策文档中的第i个句子,每个句子由m个单词构成,即
Figure 100002_DEST_PATH_IMAGE004
,所以,
Figure DEST_PATH_IMAGE005
w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签
Figure 100002_DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档
Figure 100002_DEST_PATH_IMAGE008
,输出每个单词对应的词性标签
Figure DEST_PATH_IMAGE009
,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:
1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;
2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态
Figure 100002_DEST_PATH_IMAGE010
,即第i句话中的第j个单词的隐状态;
3)将每个单词的隐状态
Figure DEST_PATH_IMAGE011
输入到分类器得到每个单词所对应的词性标签
Figure 100002_DEST_PATH_IMAGE012
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子s i ,进行词嵌入式表示,即:
Figure DEST_PATH_IMAGE013
,其中,s ij 表示句子s i 中的第j个单词,
Figure 100002_DEST_PATH_IMAGE014
表示该单词采用词嵌入式表示后的向量;
2)词性标注层:将每条句子的词嵌入示表示结果
Figure DEST_PATH_IMAGE015
输入到前向和后向LSTM中,得到词性标注任务的隐状态:
Figure 100002_DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
表示词性标注层中句子s i 中的第j个单词的隐状态;
3)单词层:将词性标注中每个单词的隐状态
Figure 100002_DEST_PATH_IMAGE018
输入到单词层前向和后向LSTM中,得到单词层的隐状态:
Figure DEST_PATH_IMAGE019
其中,
Figure 100002_DEST_PATH_IMAGE020
表示单词层句子s i 中的第j个单词的隐状态;
4)句子层:采用将句内单词的单词层隐状态
Figure DEST_PATH_IMAGE021
叠加的形式,构成句子的语义表示
Figure 100002_DEST_PATH_IMAGE022
,公式表示如下:
Figure DEST_PATH_IMAGE023
其中,wb为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
Figure 100002_DEST_PATH_IMAGE024
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
Figure DEST_PATH_IMAGE025
其中,
Figure 100002_DEST_PATH_IMAGE026
表示
Figure DEST_PATH_IMAGE027
的向量转置,
Figure 100002_DEST_PATH_IMAGE028
表示句子向量
Figure DEST_PATH_IMAGE029
与该句子内的第j个单词的相似程度得分;
Figure 100002_DEST_PATH_IMAGE030
表示以常数e为底的指数函数;
Figure DEST_PATH_IMAGE031
表示句子向量
Figure 100002_DEST_PATH_IMAGE032
在该句子内第j个单词上的权重分布;
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
Figure DEST_PATH_IMAGE033
其中,
Figure 100002_DEST_PATH_IMAGE034
表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;
Figure DEST_PATH_IMAGE035
表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;
Figure 100002_DEST_PATH_IMAGE036
表示文档级别的语义信息doc与句子
Figure DEST_PATH_IMAGE037
的矩阵相乘,
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
Figure 100002_DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE039
Figure 100002_DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
为文本第i个句子预测为摘要句的概率;
Figure 100002_DEST_PATH_IMAGE042
n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数,
Figure DEST_PATH_IMAGE043
表示文本中第i个句子中第j个单词真实词性为
Figure 100002_DEST_PATH_IMAGE044
的概率,
Figure DEST_PATH_IMAGE045
表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
所述的基于文本摘要的政策要点抽取方法,步骤S3中所述基于关键单词的候选进行政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率freq(w z )与单词总数allwords的占比,称之为TF,即:
Figure 100002_DEST_PATH_IMAGE046
统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent(w z )的对数比率,称之为IDF,即:
Figure DEST_PATH_IMAGE047
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
Figure 100002_DEST_PATH_IMAGE048
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
一种基于文本摘要技术的政策要点抽取系统,该系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能;
人机交互模型预测层:用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后,通过训练好的模型进行推断得到候选政策要点,然后后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中;
算法训练层:利用现有的政策文档及解读内容作为数据集来训练文本摘要模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练基于多任务学习的抽取式,提升算法精度。
有益效果:
相对于现有技术,本发明的优点在于:(1)结合多任务学习框架,克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题;(2)基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。
附图说明
图1为本发明的基于多任务学习的抽取式文本摘要模型流程图;
图2为基于神经网络搭建的词性标注模型框架图;
图3为本发明的政策要点系统工作流程框架图;
图4为本发明的多任务学习文本摘要神经网络架构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明公开的基于文本摘要的政策要点抽取方法,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
由于国内外尚无公开的政策要点数据集,本发明首先整理了一个百篇规模的政策要点数据集,然后对该数据集使用pyltp工具进行分句、分词、构建词表、词性标注等操作。
然后,为了构造适合抽取式文本摘要算法的数据集,对中文政策解读数据集进行句子标签构造。即:如果当前句子在政策文件中比较重要,则将该句子标注为“1”,表示该句子出现在政策解读内容中;否则,将该句子标住为“0”,表示该句不出现在政策解读内容中。
具体操作过程为:步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S12.初始化每个句子标签为
Figure 421902DEST_PATH_IMAGE001
,预测摘要集合S为空
Figure 433982DEST_PATH_IMAGE002
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)(文本摘要算法经典评价指标:衡量预测摘要与标准摘要之间的1-gram重合度)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。通过上述过程即可得到适合抽取式文本摘要的数据集。
所述的基于文本摘要的政策要点抽取方法,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档
Figure 338353DEST_PATH_IMAGE003
n表示该政策文档d中包含n个句子,s i 表示该政策文本中的第i个句子,每个句子由m个单词构成,即
Figure 202404DEST_PATH_IMAGE004
,所以,
Figure 846137DEST_PATH_IMAGE005
w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签
Figure 793234DEST_PATH_IMAGE006
Figure 951945DEST_PATH_IMAGE007
,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:目前的抽取式文本摘要算法存在着重要性不足与覆盖原文内容不全的问题,并且存在着模型容易过拟合、泛化性差等问题。为解决上述问题,本发明基于多任务学习,针对文本内容具备的“单词-句子-篇章”层次化结构进行学习,解决了抽取式文本摘要重要性不足与覆盖原文内容不全的问题,同时,提升了模型的泛化性。其中,词性标注任务是从“单词”层面对文本信息的捕获,所以本文引入词性标注任务作为辅助任务。
给定一篇包含n个句子,每个句子包含m个单词的政策文档
Figure 868954DEST_PATH_IMAGE008
,输出每个单词对应的词性标签
Figure 632773DEST_PATH_IMAGE009
,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,基于神经网络搭建的词性标注任务框架如图2所示,图2中最底层的LSTM代表前向循环神经网络,较上层的LSTM代表后向循环神经网络。具体方法是:
1)对输入的文档进行嵌入式词表示,向量维度为300;然后,输入到前向和后向LSTM中进行特征提取;
2)将前向和后向LSTM的的输出隐状态拼接后(如图2中的concat所示)得到每个单词的隐状态
Figure 750771DEST_PATH_IMAGE010
,即第i句话中的第j个单词的隐状态,隐藏层维度为256;
3)将每个单词的隐状态
Figure 131199DEST_PATH_IMAGE011
输入到分类器(如图2中的classfier所示)得到每个单词所对应的词性标签
Figure DEST_PATH_IMAGE049
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子s i ,进行词嵌入式表示,即:
Figure 461686DEST_PATH_IMAGE013
,其中,s ij 表示句子s i 中的第j个单词,
Figure 91730DEST_PATH_IMAGE014
表示该单词采用词嵌入式表示后的向量;
2)词性标注层:将每条句子的词嵌入示表示结果
Figure 974104DEST_PATH_IMAGE015
输入到前向和后向LSTM中,得到词性标注任务的隐状态:
Figure 841828DEST_PATH_IMAGE016
其中,
Figure 241586DEST_PATH_IMAGE017
表示词性标注层中句子s i 中的第j个单词的隐状态;
3)单词层:将词性标注中每个单词的隐状态
Figure 979997DEST_PATH_IMAGE018
输入到单词层前向和后向LSTM中,得到单词层的隐状态:
Figure 705376DEST_PATH_IMAGE019
其中,
Figure 100002_DEST_PATH_IMAGE050
表示单词层句子s i 中的第j个单词的隐状态。
4)句子层:采用将句内单词的单词层隐状态
Figure 450610DEST_PATH_IMAGE021
叠加的形式,构成句子的语义表示
Figure 358785DEST_PATH_IMAGE022
,公式表示如下:
Figure 184658DEST_PATH_IMAGE023
其中,wb为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新该语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
Figure 847983DEST_PATH_IMAGE024
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
Figure 923256DEST_PATH_IMAGE025
其中,
Figure 25335DEST_PATH_IMAGE026
表示
Figure 971294DEST_PATH_IMAGE027
的向量转置,
Figure 71099DEST_PATH_IMAGE028
表示句子向量
Figure 633668DEST_PATH_IMAGE029
与该句子内的第j个单词的相似程度得分;
Figure 871927DEST_PATH_IMAGE030
表示以常数e为底的指数函数;
Figure 734710DEST_PATH_IMAGE031
表示句子向量
Figure 51422DEST_PATH_IMAGE032
在该句子内第j个单词上的权重分布;
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
Figure 337172DEST_PATH_IMAGE033
其中,
Figure 420534DEST_PATH_IMAGE034
表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;
Figure 373709DEST_PATH_IMAGE035
表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;
Figure 782694DEST_PATH_IMAGE036
表示文档级别的语义信息doc与句子
Figure 149215DEST_PATH_IMAGE037
的矩阵相乘,
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
Figure 567427DEST_PATH_IMAGE038
其中,
Figure 375108DEST_PATH_IMAGE039
Figure 892677DEST_PATH_IMAGE040
Figure 526921DEST_PATH_IMAGE041
为文本第i个句子预测为摘要句的概率;
Figure 922392DEST_PATH_IMAGE042
n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数,
Figure 942170DEST_PATH_IMAGE043
表示文本中第i个句子中第j个单词真实词性为
Figure 397684DEST_PATH_IMAGE044
的概率,
Figure 253645DEST_PATH_IMAGE045
表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数。
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,阈值采用经验设置,将概率高于阈值的句子抽取出来作为候选政策要点内容。
所述的基于文本摘要的政策要点抽取方法,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率freq(w z )与单词总数allwords的占比,称之为TF,即:
Figure 13659DEST_PATH_IMAGE046
统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent(w z )的对数比率,称之为IDF,即:
Figure 999195DEST_PATH_IMAGE047
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
Figure 717621DEST_PATH_IMAGE048
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
以上是本发明提出的基于多任务学习的抽取式文本摘要算法的具体实施过程。为了更好的评估算法模型的性能,本发明采用了文本摘要算法经典的ROUGE评价指标,其中R-1,R-2,R-L的指标越高说明抽取出来的内容重要程度越高,结果越准确。其实验结果如表1所示。
表1政策要点数据集ROUGE分数
Figure 100002_DEST_PATH_IMAGE052
表1中算法Lead-10表示取每篇政策的前10句话作为要点内容。可以看出,本文的方法相较于经典的Lead算法,可以实现更高ROUGE分数,说明本文方法可以抽取到政策文本中的核心内容,覆盖更全面的内容。
如图4所示,本发明公开的基于文本摘要技术的政策要点抽取系统是基于上述提出的基于文本摘要技术的政策要点抽取算法进行系统设计的。该系统主要包括数据库、用户层、人机交互模型预测层、算法训练层。
数据库:数据库主要用来存储本系统的政策文件及其结果,提供用户层所需要的数据。该过程是一个动态交互过程,当用户从用户层触发一个功能,意味着对数据库的一次读写操作。
用户层:该层主要为系统用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询等核心功能。上述系统功能基于Web技术实现与用户交互,系统从数据库读取已经分析过的政策文件及其结果,然后展示在Web页面上,提供给用户进行查询、管理。
人机交互模型预测层:具体流程为(1)后台管理员不断利用用户层提供的政策采集接口采集新的政策文件,如图4中的①所示。即:用户通过Web页面输入新的政策文件内容或者通过录入功能上传政策文件;(2)对这些政策文件进行预处理后,通过训练好的摘要系统模型进行推断得到候选政策要点,如图4中的②③④所示。其中,预处理主要包括对政策文件内容进行提取、分句、分词等,预处理结束后输入到算法模型中进行推断,生成候选政策要点内容;(3)后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中,如图4中的⑤⑥所示。
算法训练层:利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型(初始阶段,数据集内带有标注的数据规模较少)如图4中的⑦所示;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练多任务文本摘要算法模型,提升算法精度如图4中的⑧⑨⑩所示。
该系统是人机交互的过程。首先,利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型;然后,管理员不断提供新的政策文件到摘要系统,使用训练好的摘要模型进行推断得到候选政策要点;其次,管理员对与本专利发明自动生成的候选政策要点内容进行人工调整之后,再次作为训练数据保存到数据库中,成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明提出的政策要点抽取算法模型的准确度。因此,该人机过程由管理员、摘要系统、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。
在本申请所提供的实施例中,应该理解到,所揭露的方法,在没有超过本申请的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本申请的目的。例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (3)

1.一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果;
步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S12.初始化每个句子标签为
Figure DEST_PATH_IMAGE002
,预测摘要集合S为空
Figure DEST_PATH_IMAGE004
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)最大的句子;
S14.如果句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句子加入预测摘要集合S,同时将句子标签置为1;否则退出循环;
步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档
Figure DEST_PATH_IMAGE006
n表示该政策文档d中包含n个句子,s i 表示该政策文档中的第i个句子,每个句子由m个单词构成,即
Figure DEST_PATH_IMAGE008
,所以,
Figure DEST_PATH_IMAGE010
w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档
Figure DEST_PATH_IMAGE016
,输出每个单词对应的词性标签
Figure DEST_PATH_IMAGE018
,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:
1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;
2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态
Figure DEST_PATH_IMAGE020
,即第i句话中的第j个单词的隐状态;
3)将每个单词的隐状态
Figure DEST_PATH_IMAGE022
输入到分类器得到每个单词所对应的词性标签
Figure DEST_PATH_IMAGE024
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子s i ,进行词嵌入式表示,即:
Figure DEST_PATH_IMAGE026
,其中,s ij 表示句子s i 中的第j个单词,
Figure DEST_PATH_IMAGE028
表示该单词采用词嵌入式表示后的向量;
2)词性标注层:将每条句子的词嵌入示表示结果
Figure DEST_PATH_IMAGE030
输入到前向和后向LSTM中,得到词性标注任务的隐状态:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
表示词性标注层中句子s i 中的第j个单词的隐状态;
3)单词层:将词性标注中每个单词的隐状态
Figure DEST_PATH_IMAGE036
输入到单词层前向和后向LSTM中,得到单词层的隐状态:
Figure DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE040
表示单词层句子s i 中的第j个单词的隐状态;
4)句子层:采用将句内单词的单词层隐状态
Figure DEST_PATH_IMAGE042
叠加的形式,构成句子的语义表示
Figure DEST_PATH_IMAGE044
,公式表示如下:
Figure DEST_PATH_IMAGE046
其中,wb为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
Figure DEST_PATH_IMAGE048
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
Figure DEST_PATH_IMAGE050
其中,
Figure DEST_PATH_IMAGE052
表示
Figure DEST_PATH_IMAGE054
的向量转置,
Figure DEST_PATH_IMAGE056
表示句子向量
Figure DEST_PATH_IMAGE058
与该句子内的第j个单词的相似程度得分;
Figure DEST_PATH_IMAGE060
表示以常数e为底的指数函数;
Figure DEST_PATH_IMAGE062
表示句子向量
Figure DEST_PATH_IMAGE064
在该句子内第j个单词上的权重分布;
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
Figure DEST_PATH_IMAGE066
其中,
Figure DEST_PATH_IMAGE068
表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;
Figure DEST_PATH_IMAGE070
表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;
Figure DEST_PATH_IMAGE072
表示文档级别的语义信息doc与句子
Figure DEST_PATH_IMAGE074
的矩阵相乘,
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
Figure DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
为文本第i个句子预测为摘要句的概率;
Figure DEST_PATH_IMAGE084
n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数,
Figure DEST_PATH_IMAGE086
表示文本中第i个句子中第j个单词真实词性为v的概率,
Figure DEST_PATH_IMAGE088
表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
2.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率freq(w z )与单词总数allwords的占比,称之为TF,即:
Figure DEST_PATH_IMAGE090
统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent (w z )的对数比率,称之为IDF,即:
Figure DEST_PATH_IMAGE092
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
Figure DEST_PATH_IMAGE094
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
3.一种基于文本摘要技术的政策要点抽取系统,其特征在于,该系统用于执行权利要求1或2所述的方法,改系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能;
人机交互模型预测层:用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后,通过训练好的模型进行推断得到候选政策要点,然后后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中;
算法训练层:利用现有的政策文档及解读内容作为数据集来训练文本摘要模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练基于多任务学习的抽取式,提升算法精度。
CN202110568578.7A 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统 Active CN113032552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110568578.7A CN113032552B (zh) 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110568578.7A CN113032552B (zh) 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统

Publications (2)

Publication Number Publication Date
CN113032552A CN113032552A (zh) 2021-06-25
CN113032552B true CN113032552B (zh) 2021-08-27

Family

ID=76455733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110568578.7A Active CN113032552B (zh) 2021-05-25 2021-05-25 一种基于文本摘要的政策要点抽取方法与提取系统

Country Status (1)

Country Link
CN (1) CN113032552B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592368B (zh) * 2021-09-29 2021-12-28 深圳市指南针医疗科技有限公司 指标数据的提取方法、装置、设备及存储介质
CN113723058B (zh) * 2021-11-02 2022-03-08 深圳市北科瑞讯信息技术有限公司 文本摘要与关键词抽取方法、装置、设备及介质
WO2024013369A1 (en) * 2022-07-14 2024-01-18 Swiss Reinsurance Company Ltd. Automated, parameter-pattern-driven, data mining system based on customizable chain of machine-learning-structures providing an automated data-processing pipeline, and method thereof
CN115859968B (zh) * 2023-02-27 2023-11-21 四川省计算机研究院 一种基于自然语言解析及机器学习的政策颗粒化分析系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164302A1 (en) * 2012-12-07 2014-06-12 At&T Intellectual Property I, L.P. Hybrid review synthesis
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法
CN111400486A (zh) * 2020-03-13 2020-07-10 重庆大学 一种文本摘要自动生成系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153864A (zh) * 2017-12-25 2018-06-12 北京牡丹电子集团有限责任公司数字电视技术中心 基于神经网络生成文本摘要的方法
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164302A1 (en) * 2012-12-07 2014-06-12 At&T Intellectual Property I, L.P. Hybrid review synthesis
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法
CN109493265A (zh) * 2018-11-05 2019-03-19 北京奥法科技有限公司 一种基于深度学习的政策解读方法及政策解读系统
CN111400486A (zh) * 2020-03-13 2020-07-10 重庆大学 一种文本摘要自动生成系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
主题关键词信息融合的中文生成式自动摘要研究;侯丽微等;《自动化学报》;20190331;第45卷(第3期);第530-539页 *

Also Published As

Publication number Publication date
CN113032552A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
Weiss et al. Text mining: predictive methods for analyzing unstructured information
Moussa et al. A survey on opinion summarization techniques for social media
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN113360646B (zh) 基于动态权重的文本生成方法、设备及存储介质
CN111723295A (zh) 一种内容分发方法、装置和存储介质
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
Alhojely et al. Recent progress on text summarization
WO2024169426A1 (zh) 一种基于模板的中文隐私政策摘要生成方法和装置
Sandhiya et al. A review of topic modeling and its application
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Jiang et al. A hierarchical bidirectional LSTM sequence model for extractive text summarization in electric power systems
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN114238617A (zh) 一种行业热点推荐方法及系统
Zhang Exploration of Cross‐Modal Text Generation Methods in Smart Justice
CN115130453A (zh) 互动信息生成方法和装置
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos
Lin et al. Generative Adversarial Network for Joint Headline and Summary Generation
Elmenshawy et al. Automatic arabic text summarization (AATS): A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant