CN110209802B - 一种提取摘要文本的方法及装置 - Google Patents

一种提取摘要文本的方法及装置 Download PDF

Info

Publication number
CN110209802B
CN110209802B CN201910487862.4A CN201910487862A CN110209802B CN 110209802 B CN110209802 B CN 110209802B CN 201910487862 A CN201910487862 A CN 201910487862A CN 110209802 B CN110209802 B CN 110209802B
Authority
CN
China
Prior art keywords
sentence
text
context
original document
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910487862.4A
Other languages
English (en)
Other versions
CN110209802A (zh
Inventor
李长亮
冯晓阳
唐剑波
陈楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN201910487862.4A priority Critical patent/CN110209802B/zh
Publication of CN110209802A publication Critical patent/CN110209802A/zh
Application granted granted Critical
Publication of CN110209802B publication Critical patent/CN110209802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请提供一种提取摘要文本的方法及装置,包括:获取原始文档,根据所述原始文档确定语境标签文本;根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量;基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率;提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本,这样生成的摘要文本中的待选句与原始文档的语境相关,减少摘要文本中的待选句产生歧义的情况,最后生成的摘要文本中的待选句的语义在原始文档的语境之中,使得摘要文本中的待选句的语义准确,确保用户阅读摘要文本能够准确获知原始文档中所记述的内容,节约用户查找到需要的原始文档的时间。

Description

一种提取摘要文本的方法及装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种提取摘要文本的方法及装置、计算设备、计算机可读存储介质及芯片。
背景技术
随着互联网技术的发展,在互联网中每天都会产生大量的文章、新闻、评论等长篇文本,为了获知长篇文本中所记述的内容,用户需要通篇阅读长篇文本才能够获知长篇文本中所记述的内容,由于长篇文本的篇幅一般较大,用户获知长篇文本中的关键的内容花费的时间长,导致用户查找到想要的长篇文本的效率低。
发明内容
有鉴于此,本申请实施例提供了一种提取摘要文本的方法及装置、计算设备、计算机可读存储介质及芯片,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种提取摘要文本的方法,包括:
获取原始文档,根据所述原始文档确定语境标签文本;
对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量;
基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率;
提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本。
本申请实施例还公开了一种提取摘要文本的装置,包括:
处理模块,所述处理模块被配置为获取原始文档,根据所述原始文档确定语境标签文本;
生成模块,所述生成模块被配置为对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量;
计算模块,所述计算模块被配置为基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率;
提取模块,所述提取模块被配置为提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的提取摘要文本的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的提取摘要文本的方法的步骤。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如上所述的提取摘要文本的方法的步骤。
本申请提供的一种提取摘要文本的方法及装置,通过获取原始文档,根据所述原始文档确定语境标签文本,将原始文档中的每个所述待选句与语境标签文本进行关联,这样生成的摘要文本中的待选句与原始文档的语境相关,减少摘要文本中的待选句产生歧义的情况,最后生成的摘要文本中的待选句的语义在原始文档的语境之中,使得摘要文本中的待选句的语义准确,确保用户阅读摘要文本能够准确获知原始文档中所记述的内容,节约用户查找到需要的原始文档的时间,提高用户查找到需要的原始文档的效率。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请一实施例的提取摘要文本方法的流程示意图;
图3是本申请提取摘要文本的方法中确定每个所述待选句的隐层表示向量的流程示意图;
图4是本申请提取摘要文本的方法中双向长短期记忆模型编码句子的示意图;
图5是本申请中计算所述待选句作为摘要文本的概率的流程示意图;
图6是本申请一实施例提取摘要文本的方法的流程示意图;
图7是本申请实施例的提取摘要文本的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
语境:即语言环境,又叫情景或情境,是语言中的各级单位在语言体系中出现的影响语言使用的因素。
特征工程模型:是一种预测模型,简单定义为从数据集的已有特征创建新特征的过程,通过数据集来训练特征工程模型,能够通过创建新特征来向特征工程模型提供有关目标变量的更多信息,提升特征工程模型的性能。
知识增强的语义表示模型(Enhanced Representation from kNowledgeIntEgration,ERNIE):通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识,直接对语义知识进行建模,具有语义表示能力。
在本申请中,提供了一种提取摘要文本的方法及装置、计算设备、计算机可读存储介质和芯片,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2示出了根据本申请一实施例的提取摘要文本的方法的示意性流程图,包括步骤201至步骤204。
步骤201:获取原始文档,根据所述原始文档确定语境标签文本。
上述原始文档可以为论文文本、新闻文本或评论文本等文档,根据实际的处理需求,上述原始文档也可以为其它文本。
其中,语境标签文本为根据原始文档中文本使用的语境所生成的语境文本。
本实施例中,根据原始文档确定语境标签文本,可以包括:将原始文档输入特征工程模型,所述特征工程模型生成所述语境标签文本。
可选地,下面举例对上述特征工程模型进行说明。
例如,如表1所示,通过表1中的数据集来训练特征工程模型。在特征工程模型的使用过程中,在输入新的原始文档的情况下,根据新的原始文档的特征来预测对应的语境标签文本。在原始文档与语境标签文本对应表中,原始文档的特征包括发布年代、文体类型和原始文档中的实体名称。
表1
原始文档 发布年代 文体类型 实体名称 语境标签文本
T1 1995 记叙文 中国 Y1
T2 2010 说明文 美国 Y2
T3 2000 说明文 美国 Y3
T4 2015 议论文 中国 Y4
当输入一个原始文档T5至特征工程模型,根据原始文档T5的发布年代、文体类型、原始文档中的实体名称,特征工程模型输出原始文档T5对应的语境标签文本Y5。
在特征工程模型中预先设置发布年代、文体类型和原始文档中的实体名称这三个特征,特征工程模型自动确定特征类型并自动输出语境标签文本。
需要说明的是,上述只是举出了原始文档的三个特征,实际上,特征工程模型能够预测语境标签文本,会运算大量的数据集中的特征数据,以此来对原始文档对应的语境标签文本进行预测。
通过特征工程模型,生成的语境标签文本可以包括语义语境文本、情景语境文本、认知语境文本、背景语境文本中的至少一种。
其中,语义语境文本即是由特定的上下文中词或句子乃至整个文本的特殊含义的文本。
情景语境文本是各种具体的场景,情景语境文本包括时间、地点、话题、气氛以及涉及到的人物等因素的文本。
认知语境文本即主观语境文本,认知语境文本是语言信息的发出人和接受人的交际动机、交际能力和交际行为构成的文本。
背景语境文本包括文化背景、社会背景、时代背景(如称呼小姐,美女)、文体背景构成的文本。
步骤202:对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量。
本申请是通过抽取原始文档分句处理获取的待选句来生成摘要文本。
参见图3所示,步骤202包括步骤301至步骤302。
步骤301:对所述待选句进行分词处理获取待选词,对所述语境标签文本进行分词处理获取语境词。
利用语句分词模型对所述待选句和所述语境标签文本进行分词处理。
具体地,语句分词模型可以为多种,利用知识增强的语义表示模型,即ERNIE模型,能够精确地实现所述待选句和语境标签文本语义级分词,为下述步骤中所述自注意力模型提供更高层次的隐藏层输入。
步骤302:根据每个所述待选句的待选词和所述语境词,确定每个所述待选句的隐层表示向量。
所述步骤302具体包括下述步骤3021至步骤3022。
步骤3021:将每个所述待选句的待选词和所述语境词输入双向长短期记忆模型。
步骤3022:获取所述双向长短期记忆模型输出的每个所述待选句的隐层表示向量。
本申请利用双向长短期记忆模型建立每个所述待选句与所述语境标签文本的双向词级分布表征向量,得到每个所述待选句的隐层表示向量。
下面结合图4所示的双向长短期记忆模型编码句子的示意图,对双向长短期记忆模型进行详细说明,下述的BiLSTM为双向长短期记忆模型,BiLSTM为前向的长短期记忆模型(即LSTML)与后向的长短期记忆模型(即LSTMR)结合而成。
将其中一个待选句进行分词处理,得到待选词为W1、W2和W3,将语境标签文本进行分词处理,得到语境词为w4和w5。
隐向量是所述待选词和所述语境词输入前向和后向长短期记忆模型后得到的过程向量。
隐层表示向量即是将前向和后向的隐向量进行拼接得到的向量。
将“W1”,“W2”,“W3”,“w4”和“w5”依次输入LSTML,得到五个隐向量{hL0,hL1,hL2,hL3,hL4},LSTMR依次输入“w5”,“w4”,“W3”,“W2”和“W1”,得到五个隐向量{hR0,hR1,hR2,hR3,hR4}。最后将前向和后向的隐向量进行拼接得到{[hL0,hR4],[hL1,hR3],[hL2,hR2],[hL3,hR1],[hL4,hR0]},其中[hL0,hR4]为H0,[hL1,hR3]为H1,[hL2,hR2]为H2,[hL3,hR1]为H3,[hL4,hR0]为H4,即得到上述待选句的隐层表示向量HS为{H0,H1,H2,H3,H4}。
步骤203:基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率。
可选地,图5示出了计算所述待选句作为摘要文本的概率的流程示意图,包括步骤501和步骤502。
步骤501:将所述待选句的隐层表示向量输入自注意力模型,生成注意力权重矩阵。
所述待选句的隐层表示向量输入自注意力模型,通过动态配置相应维度的训练权重矩阵Ws1和Ws2,再利用softmax分类器,基于HS计算融合所述语境标签文本和所述待选句语义信息的自注意力权重矩阵AS,参见下述公式(1):
Figure GDA0003010769340000091
其中,AS为自注意力权重矩阵;Ws1和Ws2为训练权重矩阵;HST为HS的转置矩阵。
步骤502:根据所述注意力权重矩阵和所述待选句的隐层表示向量,确定所述待选句作为摘要文本的概率。
利用自注意力权重矩阵AS和所述待选句的隐层表示向量HS进行点乘计算,通过softmax分类器,确定所述待选句作为摘要文本的概率P,参见下述公式(2):
P=softmax(ASHS) (2)
其中,AS为自注意力权重矩阵;HS为待选句的隐层表示向量,P为待选句作为摘要文本的概率。
步骤204:提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本。
可选地,将超过预设阈值的所述待选句的二值标签设置为1,那么低于预设阈值的所述待选句的二值标签为0。
提取二值标签为1的所述待选句,根据所述二值标签为1的待选句生成摘要文本。
本实施例的提取摘要文本的方法,通过获取原始文档,根据所述原始文档确定语境标签文本,将原始文档中的每个所述待选句与语境标签文本进行关联,这样生成的摘要文本中的待选句与原始文档的语境相关,减少摘要文本中的待选句产生歧义的情况,最后生成的摘要文本中的待选句的语义在原始文档的语境之中,使得摘要文本中的待选句的语义准确,确保用户阅读摘要文本能够准确获知原始文档中所记述的内容,节约用户查找到需要的原始文档的时间,提高用户查找到需要的原始文档的效率。
图6示出了根据本申请另一实施例的提取摘要文本的方法的示意性流程图,包括步骤601至步骤609。
步骤601:获取原始文档,根据所述原始文档确定语境标签文本。
步骤602:对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量。
步骤603:分析第n个待选句与第n+1个待选句的语义相似度,其中,所述待选句为m个,且1≤n≤m-1。
步骤604:判断语义相似度是否超过预设相似阈值,若是,执行步骤606,若否,执行步骤605。
步骤605:将第n个所述待选句作为筛选待选句。
步骤606:将n自增1,判断自增1后的n是否等于m,若是,则执行步骤607,若否,继续执行步骤603。
步骤607:将第m个所述待选句作为筛选待选句。
在步骤603至步骤607中,筛选所述待选句后获取筛选待选句,不仅减少了所述待选句作为摘要文本概率的计算量,而且避免重复提取关键的待选句,能够更好地捕捉原始文档应用的语境和所述待选句之间的语义关联,保证最终生成的摘要文本精简且语义准确。
步骤608:基于所述筛选待选句的隐层表示向量,计算所述筛选待选句作为摘要文本的概率。
可选地,将所述筛选待选句的隐层表示向量输入自注意力模型,生成注意力权重矩阵,根据所述注意力权重矩阵和所述筛选待选句的隐层表示向量,确定所述筛选待选句作为摘要文本的概率。
其中,对于注意力权重矩阵以及筛选待选句作为摘要文本的概率的计算过程,参见前述实施例的步骤501至步骤502,在本实施例中不再赘述。
步骤609:提取所述概率超过预设阈值的筛选待选句并根据提取的所述筛选待选句生成摘要文本。
可选地,将超过预设阈值的所述筛选待选句的二值标签设置为1,那么低于预设阈值的所述筛选待选句的二值标签设置为0。
提取二值标签为1的所述筛选待选句,根据所述二值标签为1的筛选待选句生成摘要文本。
上述实施例中通过对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量,将原始文档中的每个所述待选句与语境标签文本进行关联,能够更好地捕捉原始文档应用目标语境和所述待选句之间的语义关联,这样生成的摘要文本中的待选句与原始文档的语境相关,最后生成的摘要文本中的待选句的语义在原始文档的语境之中,使得摘要文本中的待选句的语义准确,减少摘要文本中的待选句产生歧义的情况,确保用户阅读摘要文本能够准确获知原始文档中所记述的内容。利用知识增强的语义表示模型,即ERNIE模型,能够精确地实现所述待选句和语境标签文本语义级分词,为所述自注意力模型提供更高层次的隐藏层输入。
进一步地,通过设置步骤603至步骤607,避免了重复提取关键的待选句,能够大幅度降低最终摘要文本中的重复语句,加速模型训练收敛,节约用户阅读摘要文本的时间,使得用户能够快速获知摘要文本的内容。
为了便于理解,本申请一实施例以下述的原始文档为例,来对本申请的提取摘要文本的技术方案进行示意性的说明。
其中,原始文档为“在此次新闻发布工作中,需要对新闻进行准确地翻译,主任找到三个翻译公司的人员,他们都精通外语,王二是英语,张三是法语,李四是日语,这三人将对此次发布的新闻分别进行翻译,三人分别翻译后的新闻译文将刊登在明天的报纸上,此次新闻翻译工作十分重要。”
基于上述原始文档,本实施例的提取摘要文本的方法包括:
步骤1:获取原始文档,将上述原始文档输入至特征工程模型中,特征工程模型根据上述原始文档确定的语境标签文本为“新闻发布工作中,主任找到翻译公司的三人对新闻翻译”。
步骤2:对所述原始文档进行分句处理获取待选句,表2为待选句表,表2示出了原始文档分句后的待选句S1至S10
表2
Figure GDA0003010769340000121
Figure GDA0003010769340000131
对所述待选句S1至S10进行分词处理获取待选词,对上述语境标签文本进行分词处理获取语境词;
表3示出了待选词表,表4示出了语境词表。需要说明的是,由于篇幅的原因,表3中并未列出待选句所有的待选词,待选句S8和S9中后续的待选词以省略号替代,但是并不影响本实施例的说明。
表3
Figure GDA0003010769340000132
Figure GDA0003010769340000141
表4
序号 t<sub>1</sub> t<sub>2</sub> t<sub>3</sub> t<sub>4</sub> t<sub>5</sub> t<sub>6</sub>
语境词 新闻 发布 工作 主任 找到
序号 t<sub>7</sub> t<sub>8</sub> t<sub>9</sub> t<sub>10</sub> t<sub>11</sub>
语境词 公司 新闻 翻译
步骤3:将所述待选句S1的所有待选词和所述语境词表中的语境词输入双向长短期记忆模型,获取所述双向长短期记忆模型输出的待选句S1的隐层表示向量HS1
将所述待选句S2的所有待选词和所述语境词输入双向长短期记忆模型,获取所述双向长短期记忆模型输出的待选句S2的隐层表示向量HS2,依次类推,分别获取待选句S3至S10的隐层表示向量为HS3至HS10
步骤4:根据待选句S1~S10得到筛选待选句。
分析待选句S1的隐层表示向量HS1与待选句S2的隐层表示向量HS2的语义相似度,然后判断语义相似度是否超过预设相似阈值,若否,将待选句S1作为筛选待选句,若是,则进行待选句S2的隐层表示向量HS2与待选句S3的隐层表示向量HS3的语义相似度的判断。
分析待选句S2的隐层表示向量HS2与待选句S3的隐层表示向量HS3的语义相似度,然后判断语义相似度是否超过预设相似阈值,若否,将待选句S2作为筛选待选句;若是,则进行待选句S3的隐层表示向量HS3与待选句S4的隐层表示向量HS4的语义相似度的判断。
依次类推,得到的筛选待选句为S1、S3、S4、S7、S9和S10
步骤5:依次将筛选待选句为S1、S3、S4、S7、S9和S10的隐层表示向量HS1、HS3、HS4、HS7、HS9和HS10输入自注意力模型,生成注意力权重矩阵AS1、AS3、AS4、AS7、AS9和AS10
根据所述注意力权重矩阵AS1和所述待选句S1的隐层表示向量HS1,确定所述待选句S1作为摘要文本的概率PS1=0.95。
依次类推,得到筛选待选句S3、S4、S7、S9和S10作为摘要文本的概率分别为PS3=0.9、PS4=0.75、PS7=0.6、PS9=0.94和PS10=0.8。
步骤6:提取所述概率超过预设阈值的筛选待选句并根据提取的筛选待选句生成摘要文本。
本实施例中,预设阈值为0.85,然后依次将筛选待选句作为摘要文本的概率与预设阈值进行比较,若大于预设阈值,则将筛选待选句的二值标签设置为1;若小于等于预设阈值,则将筛选待选句的二值标签设置为0。
具体地,表5示出了筛选待选句作为摘要文本的概率及每个所述筛选待选句的二值标签。
表5
筛选待选句 S<sub>1</sub> S<sub>3</sub> S<sub>4</sub> S<sub>7</sub> S<sub>9</sub> S<sub>10</sub>
概率 0.95 0.9 0.75 0.6 0.94 0.8
二值标签 1 1 0 0 1 0
提取二值标签为1的所述筛选待选句,即提取的筛选待选句为S1、S3和S9,最终根据所述二值标签为1的筛选待选句生成的摘要文本为“在此次新闻发布工作中,主任找到三个翻译公司的人员,三人分别翻译后的新闻译文将刊登在明天的报纸上”。
本申请一实施例还公开一种提取摘要文本的装置,参见图7所示,包括:
处理模块701,所述处理模块701被配置为获取原始文档,根据所述原始文档确定语境标签文本;
生成模块702,所述生成模块702被配置为对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量;
计算模块703,所述计算模块703被配置为基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率;
提取模块704,所述提取模块704被配置为提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本。
可选地,所述处理模块被进一步配置为根据所述原始文档确定语义语境文本、情景语境文本、认知语境文本、背景语境文本中的至少一种。
可选地,所述生成模块被进一步配置为对所述待选句进行分词处理获取待选词,对所述语境标签文本进行分词处理获取语境词;根据每个所述待选句的待选词和所述语境词,确定每个所述待选句的隐层表示向量。
可选地,所述生成模块被进一步配置为将每个所述待选句的待选词和所述语境词输入双向长短期记忆模型;获取所述双向长短期记忆模型输出的每个所述待选句的隐层表示向量。
可选地,本申请提取摘要文本的装置还包括:
分析模块,所述分析模块被配置为分析第n个待选句与第n+1个待选句的语义相似度,其中,所述待选句为m个,且1≤n≤m-1;
第一判断模块,所述第一判断模块被配置为判断语义相似度是否超过预设相似阈值,若是,执行第二判断模块,若否,执行第一筛选待选句生成模块;
第一筛选待选句生成模块,所述第一筛选待选句生成模块被配置为将第n个所述待选句作为筛选待选句;
第二判断模块,所述第二判断模块被配置为将n自增1,判断自增1后的n是否等于m,若是,则执行第二筛选待选句生成模块,若否,继续执行分析模块;
第二筛选待选句生成模块,所述第二筛选待选句生成模块被配置为将第m个所述待选句作为筛选待选句。
可选地,所述计算模块还被配置为基于所述筛选待选句的隐层表示向量,计算所述筛选待选句作为摘要文本的概率;所述提取模块还被配置为提取所述概率超过预设阈值的筛选待选句并根据提取的所述筛选待选句生成摘要文本。
可选地,所述计算模块被进一步配置为将所述筛选待选句的隐层表示向量输入自注意力模型,生成注意力权重矩阵;根据所述注意力权重矩阵和所述筛选待选句的隐层表示向量,确定所述筛选待选句作为摘要文本的概率。
可选地,所述计算模块还被配置为将所述待选句的隐层表示向量输入自注意力模型,生成注意力权重矩阵;根据所述注意力权重矩阵和所述待选句的隐层表示向量,确定所述待选句作为摘要文本的概率。
可选地,所述提取模块被进一步配置为:将所述概率超过预设阈值的待选句的二值标签设置为1;提取二值标签为1的所述待选句,根据所述二值标签为1的待选句生成摘要文本。
本申请提供的一种提取摘要文本的装置,通过获取原始文档,根据所述原始文档确定语境标签文本,将原始文档中的每个所述待选句与语境标签文本进行关联,这样生成的摘要文本中的待选句与原始文档的语境相关,减少摘要文本中的待选句产生歧义的情况,最后生成的摘要文本中的待选句的语义在原始文档的语境之中,使得摘要文本中的待选句的语义准确,确保用户阅读摘要文本能够准确获知原始文档中所记述的内容,节约用户查找到需要的原始文档的时间。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述提取摘要文本的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述提取摘要文本的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述提取摘要文本的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述提取摘要文本的方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述提取摘要文本的方法的步骤。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种提取摘要文本的方法,其特征在于,包括:
获取原始文档,根据所述原始文档确定语境标签文本,其中,所述语境标签文本为根据原始文档中文本使用的语境所生成的语境文本;
对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量;
基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率;
提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本。
2.根据权利要求1所述的方法,其特征在于,根据所述原始文档确定语境标签文本,包括:根据所述原始文档确定语义语境文本、情景语境文本、认知语境文本、背景语境文本中的至少一种。
3.根据权利要求1所述的方法,其特征在于,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量,包括:
对所述待选句进行分词处理获取待选词,对所述语境标签文本进行分词处理获取语境词;
根据每个所述待选句的待选词和所述语境词,确定每个所述待选句的隐层表示向量。
4.根据权利要求3所述的方法,其特征在于,根据每个所述待选句的待选词和所述语境词,确定每个所述待选句的隐层表示向量,包括:
将每个所述待选句的待选词和所述语境词输入双向长短期记忆模型;
获取所述双向长短期记忆模型输出的每个所述待选句的隐层表示向量。
5.根据权利要求3或4所述的方法,其特征在于,确定每个所述待选句的隐层表示向量之后,还包括:
S301:分析第n个待选句与第n+1个待选句的语义相似度,其中,所述待选句为m个,且1≤n≤m-1;
S302:判断语义相似度是否超过预设相似阈值,若是,执行步骤S304,若否,执行步骤S303;
S303:将第n个所述待选句作为筛选待选句;
S304:将n自增1,判断自增1后的n是否等于m,若是,则执行步骤S305,若否,继续执行步骤S301;
S305:将第m个所述待选句作为筛选待选句。
6.根据权利要求5所述的方法,其特征在于,基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率,包括:
基于所述筛选待选句的隐层表示向量,计算所述筛选待选句作为摘要文本的概率;
提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本,包括:
提取所述概率超过预设阈值的筛选待选句并根据提取的所述筛选待选句生成摘要文本。
7.根据权利要求6所述的方法,其特征在于,基于所述筛选待选句的隐层表示向量,计算所述筛选待选句作为摘要文本的概率,包括:
将所述筛选待选句的隐层表示向量输入自注意力模型,生成注意力权重矩阵;
根据所述注意力权重矩阵和所述筛选待选句的隐层表示向量,确定所述筛选待选句作为摘要文本的概率。
8.根据权利要求1所述的方法,其特征在于,基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率,包括:
将所述待选句的隐层表示向量输入自注意力模型,生成注意力权重矩阵;
根据所述注意力权重矩阵和所述待选句的隐层表示向量,确定所述待选句作为摘要文本的概率。
9.根据权利要求1所述的方法,其特征在于,提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本,包括:
将所述概率超过预设阈值的待选句的二值标签设置为1;
提取二值标签为1的所述待选句,根据所述二值标签为1的待选句生成摘要文本。
10.一种提取摘要文本的装置,其特征在于,包括:
处理模块,所述处理模块被配置为获取原始文档,根据所述原始文档确定语境标签文本,其中,所述语境标签文本为根据原始文档中文本使用的语境所生成的语境文本;
生成模块,所述生成模块被配置为对所述原始文档进行分句处理获取待选句,根据每个所述待选句和所述语境标签文本生成每个所述待选句的隐层表示向量;
计算模块,所述计算模块被配置为基于所述待选句的隐层表示向量,计算所述待选句作为摘要文本的概率;
提取模块,所述提取模块被配置为提取所述概率超过预设阈值的待选句并根据提取的所述待选句生成摘要文本。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。
13.一种芯片,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。
CN201910487862.4A 2019-06-05 2019-06-05 一种提取摘要文本的方法及装置 Active CN110209802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487862.4A CN110209802B (zh) 2019-06-05 2019-06-05 一种提取摘要文本的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487862.4A CN110209802B (zh) 2019-06-05 2019-06-05 一种提取摘要文本的方法及装置

Publications (2)

Publication Number Publication Date
CN110209802A CN110209802A (zh) 2019-09-06
CN110209802B true CN110209802B (zh) 2021-12-28

Family

ID=67791120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487862.4A Active CN110209802B (zh) 2019-06-05 2019-06-05 一种提取摘要文本的方法及装置

Country Status (1)

Country Link
CN (1) CN110209802B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688857B (zh) * 2019-10-08 2023-04-21 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
WO2021092730A1 (zh) * 2019-11-11 2021-05-20 深圳市欢太科技有限公司 摘要生成方法、装置、电子设备和存储介质
CN112925902B (zh) * 2021-02-22 2024-01-30 新智认知数据服务有限公司 案情文本中智能提取文本摘要的方法、系统及电子设备
CN114386390B (zh) * 2021-11-25 2022-12-06 马上消费金融股份有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114741499B (zh) * 2022-06-08 2022-09-06 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
CN108427771A (zh) * 2018-04-09 2018-08-21 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109635103A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 摘要生成方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN108427771A (zh) * 2018-04-09 2018-08-21 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN109635103A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 摘要生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Dynamic presentation of phrasally-based document abstractions";B. Boguraev等;《Proceedings of the 32nd Annual Hawaii International Conference on Systems Sciences. 1999. HICSS-32. Abstracts and CD-ROM of Full Papers》;20020806;全文 *
"基于主题的短文本自动摘要抽取研究与应用";陈晓萍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;全文 *

Also Published As

Publication number Publication date
CN110209802A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209802B (zh) 一种提取摘要文本的方法及装置
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN110457676B (zh) 评价信息的提取方法及装置、存储介质、计算机设备
CN106778878B (zh) 一种人物关系分类方法及装置
CN113961685A (zh) 信息抽取方法及装置
CN110347802B (zh) 一种文本分析方法及装置
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN112597366B (zh) 基于Encoder-Decoder的事件抽取方法
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN114118022A (zh) 文本表示方法、装置、电子设备与存储介质
CN114138969A (zh) 文本处理方法及装置
CN110309513B (zh) 一种文本依存分析的方法和装置
CN114077655A (zh) 一种答案抽取模型的训练方法及装置
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN114492410A (zh) 合约信息提取方法及装置
CN115357720A (zh) 基于bert的多任务新闻分类方法及装置
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114722817A (zh) 事件处理方法及装置
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
CN113361260A (zh) 一种文本处理方法、装置、设备以及存储介质
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
Niu et al. Innovative System for Analyzing English Translation Software Based on IoT Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant