CN113032552B - 一种基于文本摘要的政策要点抽取方法与提取系统 - Google Patents
一种基于文本摘要的政策要点抽取方法与提取系统 Download PDFInfo
- Publication number
- CN113032552B CN113032552B CN202110568578.7A CN202110568578A CN113032552B CN 113032552 B CN113032552 B CN 113032552B CN 202110568578 A CN202110568578 A CN 202110568578A CN 113032552 B CN113032552 B CN 113032552B
- Authority
- CN
- China
- Prior art keywords
- policy
- sentence
- word
- document
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 229910000831 Steel Inorganic materials 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000010959 steel Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本摘要的政策要点抽取方法与提取系统。本发明的方法包括如下步骤:S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。本发明充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。结合多任务学习框架,克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题;基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。
Description
技术领域
本发明涉及人工智能和自然语言处理领域,特别涉及一种基于文本摘要的政策要点抽取方法与提取系统。
背景技术
近年来,由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息,互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类,可分为抽取式文本摘要(Extractive Summarization)和生成式文本摘要(Abstractive Summarization)。其中,抽取式文本摘要能够直接从原文中抽取句子,并对其进行重要性排序,形成最终的摘要。生成式文本摘要在对原文进行语义理解的基础上,对信息进行压缩,生成包含新的词汇与具有不同描述风格的摘要内容。
这两种方法各有其优点与局限性。抽取式文本摘要虽然能够抽取原文中的重要句子,但是受摘要长度的限制,其所抽取的句子可能不能完全覆盖原文内容。相较而言,生成式文本摘要在直观上更符合人类摘要书写的习惯,可以生成原文中没有的单词,灵活性更强。但其描述内容容易出现事实性错误以及存在连贯性差等问题。
“智慧政务”是文本摘要技术应用的重要场景,为了从每年各级政务服务部门发布的大量政策文件中抽取出关键信息,为企业提供政策解读的辅助能力,在政策服务领域,政策要点抽取是抽取式文本摘要技术的一个重要应用场景。从长篇幅的政策原文中抽取出重要的内容与政策要求对于提升政策的易理解性与传播效率具有重要作用。
发明内容
发明目的:本发明提出了一种基于文本摘要的政策要点抽取方法与提取系统,充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。
为了实现上述目的,本发明提出的技术方案为:
一种基于文本摘要的政策要点抽取方法,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
所述的基于文本摘要的政策要点抽取方法,步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(S,R)(文本摘要算法经典评价指标:衡量预测摘要与标准摘要之间的1-gram重合度)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。
所述的基于文本摘要的政策要点抽取方法,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档,n表示该政策文档d中包含n个句子,s i 表示该政策文档中的第i个句子,每个句子由m个单词构成,即,所以,,w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签,,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档,输出每个单词对应的词性标签 ,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:
1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
其中,w,b为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
其中,,,为文本第i个句子预测为摘要句的概率;,n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数, 表示文本中第i个句子中第j个单词真实词性为的概率,表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
所述的基于文本摘要的政策要点抽取方法,步骤S3中所述基于关键单词的候选进行政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率freq(w z )与单词总数allwords的占比,称之为TF,即:
统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent(w z )的对数比率,称之为IDF,即:
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
一种基于文本摘要技术的政策要点抽取系统,该系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能;
人机交互模型预测层:用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后,通过训练好的模型进行推断得到候选政策要点,然后后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中;
算法训练层:利用现有的政策文档及解读内容作为数据集来训练文本摘要模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练基于多任务学习的抽取式,提升算法精度。
有益效果:
相对于现有技术,本发明的优点在于:(1)结合多任务学习框架,克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题;(2)基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。
附图说明
图1为本发明的基于多任务学习的抽取式文本摘要模型流程图;
图2为基于神经网络搭建的词性标注模型框架图;
图3为本发明的政策要点系统工作流程框架图;
图4为本发明的多任务学习文本摘要神经网络架构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明公开的基于文本摘要的政策要点抽取方法,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果。
由于国内外尚无公开的政策要点数据集,本发明首先整理了一个百篇规模的政策要点数据集,然后对该数据集使用pyltp工具进行分句、分词、构建词表、词性标注等操作。
然后,为了构造适合抽取式文本摘要算法的数据集,对中文政策解读数据集进行句子标签构造。即:如果当前句子在政策文件中比较重要,则将该句子标注为“1”,表示该句子出现在政策解读内容中;否则,将该句子标住为“0”,表示该句不出现在政策解读内容中。
具体操作过程为:步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(S,R)(文本摘要算法经典评价指标:衡量预测摘要与标准摘要之间的1-gram重合度)最大的句子;
S14.如果该句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句加入预测摘要集合S,同时将句子标签置为1;否则退出循环。通过上述过程即可得到适合抽取式文本摘要的数据集。
所述的基于文本摘要的政策要点抽取方法,步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档,n表示该政策文档d中包含n个句子,s i 表示该政策文本中的第i个句子,每个句子由m个单词构成,即,所以,,w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签,,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:目前的抽取式文本摘要算法存在着重要性不足与覆盖原文内容不全的问题,并且存在着模型容易过拟合、泛化性差等问题。为解决上述问题,本发明基于多任务学习,针对文本内容具备的“单词-句子-篇章”层次化结构进行学习,解决了抽取式文本摘要重要性不足与覆盖原文内容不全的问题,同时,提升了模型的泛化性。其中,词性标注任务是从“单词”层面对文本信息的捕获,所以本文引入词性标注任务作为辅助任务。
给定一篇包含n个句子,每个句子包含m个单词的政策文档,输出每个单词对应的词性标签 ,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,基于神经网络搭建的词性标注任务框架如图2所示,图2中最底层的LSTM代表前向循环神经网络,较上层的LSTM代表后向循环神经网络。具体方法是:
1)对输入的文档进行嵌入式词表示,向量维度为300;然后,输入到前向和后向LSTM中进行特征提取;
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
其中,w,b为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新该语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
其中,,,为文本第i个句子预测为摘要句的概率;,n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数, 表示文本中第i个句子中第j个单词真实词性为的概率,表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数。
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,阈值采用经验设置,将概率高于阈值的句子抽取出来作为候选政策要点内容。
所述的基于文本摘要的政策要点抽取方法,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率freq(w z )与单词总数allwords的占比,称之为TF,即:
统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent(w z )的对数比率,称之为IDF,即:
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
以上是本发明提出的基于多任务学习的抽取式文本摘要算法的具体实施过程。为了更好的评估算法模型的性能,本发明采用了文本摘要算法经典的ROUGE评价指标,其中R-1,R-2,R-L的指标越高说明抽取出来的内容重要程度越高,结果越准确。其实验结果如表1所示。
表1政策要点数据集ROUGE分数
表1中算法Lead-10表示取每篇政策的前10句话作为要点内容。可以看出,本文的方法相较于经典的Lead算法,可以实现更高ROUGE分数,说明本文方法可以抽取到政策文本中的核心内容,覆盖更全面的内容。
如图4所示,本发明公开的基于文本摘要技术的政策要点抽取系统是基于上述提出的基于文本摘要技术的政策要点抽取算法进行系统设计的。该系统主要包括数据库、用户层、人机交互模型预测层、算法训练层。
数据库:数据库主要用来存储本系统的政策文件及其结果,提供用户层所需要的数据。该过程是一个动态交互过程,当用户从用户层触发一个功能,意味着对数据库的一次读写操作。
用户层:该层主要为系统用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询等核心功能。上述系统功能基于Web技术实现与用户交互,系统从数据库读取已经分析过的政策文件及其结果,然后展示在Web页面上,提供给用户进行查询、管理。
人机交互模型预测层:具体流程为(1)后台管理员不断利用用户层提供的政策采集接口采集新的政策文件,如图4中的①所示。即:用户通过Web页面输入新的政策文件内容或者通过录入功能上传政策文件;(2)对这些政策文件进行预处理后,通过训练好的摘要系统模型进行推断得到候选政策要点,如图4中的②③④所示。其中,预处理主要包括对政策文件内容进行提取、分句、分词等,预处理结束后输入到算法模型中进行推断,生成候选政策要点内容;(3)后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中,如图4中的⑤⑥所示。
算法训练层:利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型(初始阶段,数据集内带有标注的数据规模较少)如图4中的⑦所示;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练多任务文本摘要算法模型,提升算法精度如图4中的⑧⑨⑩所示。
该系统是人机交互的过程。首先,利用现有的政策文件及解读内容作为数据集来训练文本摘要任务模型;然后,管理员不断提供新的政策文件到摘要系统,使用训练好的摘要模型进行推断得到候选政策要点;其次,管理员对与本专利发明自动生成的候选政策要点内容进行人工调整之后,再次作为训练数据保存到数据库中,成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明提出的政策要点抽取算法模型的准确度。因此,该人机过程由管理员、摘要系统、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。
在本申请所提供的实施例中,应该理解到,所揭露的方法,在没有超过本申请的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本申请的目的。例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (3)
1.一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果;
步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;
S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(S,R)最大的句子;
S14.如果句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句子加入预测摘要集合S,同时将句子标签置为1;否则退出循环;
步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档,n表示该政策文档d中包含n个句子,s i 表示该政策文档中的第i个句子,每个句子由m个单词构成,即,所以,,w ij 表示第i句话中的第j个单词,模型的输出为每个句子对应的标签,,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;
S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档,输出每个单词对应的词性标签 ,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:
1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
其中,w,b为可学习的参数;
5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新语义信息参数,以捕获政策文档级别的语义信息;
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(y i ),其计算公式如下:
其中,softmax为归一化指数函数,sent i 表示句子s i 在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:
h doc 表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
其中,,,为文本第i个句子预测为摘要句的概率;,n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数, 表示文本中第i个句子中第j个单词真实词性为v的概率,表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
2.根据权利要求1所述的基于文本摘要的政策要点抽取方法,其特征在于,步骤S3中所述基于关键单词进行候选政策要点抽取的具体方法是:
使用词频逆文档频率TFIDF作为二次过滤,得到更加准确的政策要点内容,所述词频逆文档频率TFIDF的计算方式如下:统计一篇政策文件中每个单词出现的频率freq(w z )与单词总数allwords的占比,称之为TF,即:
统计一篇政策文件内容中句子数目allsent与每个单词所在的句子数目sent (w z )的对数比率,称之为IDF,即:
其中,分母加1示为了防止分母出现为0的情况,然后计算TFIDF的值:
选取TFIDF值最高的前20个单词作为该政策文件的关键单词,然后,将这些关键单词所在的候选政策要点内容中的句子抽取出来,作为最终政策要点内容。
3.一种基于文本摘要技术的政策要点抽取系统,其特征在于,该系统用于执行权利要求1或2所述的方法,改系统包括:
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;
用户层:用于基于Web技术实现与用户交互,给用户提供政策采集、辅助解读、政策管理、政策抽取以及政策查询功能;
人机交互模型预测层:用于通过用户层提供的政策采集接口采集新的政策文档并对这些政策文档进行预处理后,通过训练好的模型进行推断得到候选政策要点,然后后台管理员对候选政策要点进行辅助解读,将解读结果保存在数据库中;
算法训练层:利用现有的政策文档及解读内容作为数据集来训练文本摘要模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,构造政策要点标签,来训练基于多任务学习的抽取式,提升算法精度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110568578.7A CN113032552B (zh) | 2021-05-25 | 2021-05-25 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110568578.7A CN113032552B (zh) | 2021-05-25 | 2021-05-25 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032552A CN113032552A (zh) | 2021-06-25 |
CN113032552B true CN113032552B (zh) | 2021-08-27 |
Family
ID=76455733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110568578.7A Active CN113032552B (zh) | 2021-05-25 | 2021-05-25 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032552B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592368B (zh) * | 2021-09-29 | 2021-12-28 | 深圳市指南针医疗科技有限公司 | 指标数据的提取方法、装置、设备及存储介质 |
CN113723058B (zh) * | 2021-11-02 | 2022-03-08 | 深圳市北科瑞讯信息技术有限公司 | 文本摘要与关键词抽取方法、装置、设备及介质 |
WO2024013369A1 (en) * | 2022-07-14 | 2024-01-18 | Swiss Reinsurance Company Ltd. | Automated, parameter-pattern-driven, data mining system based on customizable chain of machine-learning-structures providing an automated data-processing pipeline, and method thereof |
CN115859968B (zh) * | 2023-02-27 | 2023-11-21 | 四川省计算机研究院 | 一种基于自然语言解析及机器学习的政策颗粒化分析系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140164302A1 (en) * | 2012-12-07 | 2014-06-12 | At&T Intellectual Property I, L.P. | Hybrid review synthesis |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读系统 |
CN109597886A (zh) * | 2018-10-23 | 2019-04-09 | 中国科学院自动化研究所 | 抽取生成混合型摘要生成方法 |
CN111400486A (zh) * | 2020-03-13 | 2020-07-10 | 重庆大学 | 一种文本摘要自动生成系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153864A (zh) * | 2017-12-25 | 2018-06-12 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于神经网络生成文本摘要的方法 |
CN112464656B (zh) * | 2020-11-30 | 2024-02-13 | 中国科学技术大学 | 关键词抽取方法、装置、电子设备和存储介质 |
-
2021
- 2021-05-25 CN CN202110568578.7A patent/CN113032552B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140164302A1 (en) * | 2012-12-07 | 2014-06-12 | At&T Intellectual Property I, L.P. | Hybrid review synthesis |
CN109597886A (zh) * | 2018-10-23 | 2019-04-09 | 中国科学院自动化研究所 | 抽取生成混合型摘要生成方法 |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读系统 |
CN111400486A (zh) * | 2020-03-13 | 2020-07-10 | 重庆大学 | 一种文本摘要自动生成系统及方法 |
Non-Patent Citations (1)
Title |
---|
主题关键词信息融合的中文生成式自动摘要研究;侯丽微等;《自动化学报》;20190331;第45卷(第3期);第530-539页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113032552A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
Weiss et al. | Text mining: predictive methods for analyzing unstructured information | |
Moussa et al. | A survey on opinion summarization techniques for social media | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN113360646B (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
CN111723295A (zh) | 一种内容分发方法、装置和存储介质 | |
CN115374781A (zh) | 文本数据信息挖掘方法、装置、设备 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
Alhojely et al. | Recent progress on text summarization | |
WO2024169426A1 (zh) | 一种基于模板的中文隐私政策摘要生成方法和装置 | |
Sandhiya et al. | A review of topic modeling and its application | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
Jiang et al. | A hierarchical bidirectional LSTM sequence model for extractive text summarization in electric power systems | |
CN116977992A (zh) | 文本信息识别方法、装置、计算机设备和存储介质 | |
CN114238617A (zh) | 一种行业热点推荐方法及系统 | |
Zhang | Exploration of Cross‐Modal Text Generation Methods in Smart Justice | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
Das et al. | Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos | |
Lin et al. | Generative Adversarial Network for Joint Headline and Summary Generation | |
Elmenshawy et al. | Automatic arabic text summarization (AATS): A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |