CN110852064A - 关键句提取方法及装置 - Google Patents

关键句提取方法及装置 Download PDF

Info

Publication number
CN110852064A
CN110852064A CN201911051620.7A CN201911051620A CN110852064A CN 110852064 A CN110852064 A CN 110852064A CN 201911051620 A CN201911051620 A CN 201911051620A CN 110852064 A CN110852064 A CN 110852064A
Authority
CN
China
Prior art keywords
sentence
candidate
sentences
key
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911051620.7A
Other languages
English (en)
Other versions
CN110852064B (zh
Inventor
费志辉
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911051620.7A priority Critical patent/CN110852064B/zh
Publication of CN110852064A publication Critical patent/CN110852064A/zh
Application granted granted Critical
Publication of CN110852064B publication Critical patent/CN110852064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种关键句提取方法及装置,该方法先获取需要确定关键句的目标文章,然后对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息,再对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息,最后根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句;即本申请基于神经网络模型即可确定文章的关键句,不需人工参与,并且在寻找文章的关键句时,会根据候选句及候选句对应的上下文信息得到候选句的特征信息,使得候选句考虑了候选句本身以及文章的其他句子信息,从而使得得到的关键句考虑了全文,使得得到的关键句较为准确。

Description

关键句提取方法及装置
技术领域
本申请涉及数据处理领域,尤其是涉及一种关键句提取方法及装置。
背景技术
为了得到文章的标题,会通过在文章中寻找关键句,将关键句作为文章的标题,由于文章中具有数量较多的句子,且随着文章内容的增大,句子的数量增大,使得寻找关键句较难,且寻找的关键句不准确。
为了保证关键句的准确性,当前需通过人工寻找文章中的关键句。
发明内容
本申请提供一种关键句提取方法及装置,以解决当前需要人工确定文章关键句的技术问题。
为解决上述技术问题,本申请实施例提供以下技术方案:
一方面,本申请实施例提供了一种关键句提取方法,其包括:
获取需要确定关键句的目标文章;
对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
一方面,本申请实施例提供了一种关键句提取装置,其包括:
获取模块,用于获取需要确定关键句的目标文章;
提取处理模块,用于对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
特征获取模块,用于对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
关键句获取模块,用于根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
在一实施例中,提取处理模块用于对目标文章进行分句处理,得到按序排列的分句;从分句中选择分句作为候选句;根据上下文信息提取条件,从分句中选择分句作为候选句对应的上下文信息。
在一实施例中,提取处理模块用于根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与候选句的相对位置;根据分句数量以及相对位置,从分句中选择分句作为候选句对应的上下文信息。
在一实施例中,提取处理模块用于根据相对位置,确定候选句的上下文信息候选集,上下文信息候选集包括至少一个分句;根据分句数量,从上下文信息候选集中选择分句作为候选句对应的上下文信息。
在一实施例中,提取处理模块用于确定分句的字数;从分句中选择字数处于预设字数范围的分句作为候选句。
在一实施例中,提取处理模块用于对目标文章提取出现频率大于预设频率的词,将出现频率大于预设频率的词作为关键分词;从分句中寻找具有关键分词的分句,得到具有关键分词的分句;将具有关键分词的分句作为候选句。
在一实施例中,特征获取模块用于获取训练后的神经网络模型;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
在一实施例中,特征获取模块用于获取样本文章以及样本文章的关键句;利用样本文章以及样本文章的关键句,对预设的神经网络模型进行训练,得到训练后的神经网络模型。
在一实施例中,特征获取模块用于预先处理候选句以及对应候选句的上下文信息,得到候选句的特征信息;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息;对比预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息,在预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息相同时,确定训练后的神经网络模型。
一方面,本申请实施例提供了一种计算机设备,其包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时实现如上述方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现上述方法中的步骤。
本申请实施例提供了一种关键句提取方法及装置,该方法先获取需要确定关键句的目标文章,然后对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息,再对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息,最后根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句;即本申请基于神经网络模型即可确定文章的关键句,不需人工参与,并且在寻找文章的关键句时,会先确定可能作为关键句的候选句,同时确定候选句对应的上下文,根据候选句及候选句对应的上下文信息得到候选句的特征信息,使得候选句考虑了候选句本身以及文章的其他句子信息,从而使得得到的关键句考虑了全文,使得得到的关键句较为准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的关键句提取系统的场景示意图;
图1b为本申请实施例提供的关键句提取系统的组网示意图;
图2为本申请实施例提供的关键句提取方法的第一种流程示意图;
图3为本申请实施例提供的关键句提取方法的第二种流程示意图;
图4为本申请实施例提供的关键句提取方法的第三种流程示意图;
图5为本申请实施例提供的目标文章示例的示意图;
图6a为本申请实施例提供的第一种神经网络模型运行示意图;
图6b为本申请实施例提供的第二种神经网络模型运行示意图;
图7a为本申请实施例提供的关键句提取装置的第一种结构示意图;
图7b为本申请实施例提供的关键句提取装置的第二种结构示意图;
图7c为本申请实施例提供的关键句提取装置的第三种结构示意图;
图8为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种关键句提取方法及装置、计算机设备和计算机可读存储介质,其中,该关键句提取装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
本申请实施例中,文章可以是文章数据库内的各种文章,可以是终端和服务器内存储的文章,可以是网络上的文章、也可以是用户上传的文章,例如终端内部存储的多个文章,或者网络文章、或者书本上的课文转换的电子版文章等。
本申请实施例中,文章数据库中存在大量的文章,由于文章都需要查找关键句,以方便理解文章的内容,但人工寻找文章的关键句较难实现,且人工寻找的文章的关键句也不太确定,使得关键句不准确影响文章的阅读,因此需要采用其他的方式寻找文章的关键句。该方法是指从文章数据库中寻找文章的关键句,留下目标文章以及对应目标文章的关键句。
本申请实施例中,目标文章指需要得到关键句的文章,可以是从文章数据库中提取的任意文章,也可以是用户上传需要即时得到关键句的文章。
本申请实施例中,关键句指可以表达文章中心思想的句子,或者指可以表达文章某一部分的中心思想的句子,关键句在文章中可能为一句,也可能为多句,关键句在提取出来后,可以方便阅读,对于比较长的文章,可以在知晓文章的关键句后,以文章的关键句对文章进行阅读,从而更快、更好的理解文章的内容,同时,在获取文章的关键句中,可将文章的关键句作为文章的标题或者小标题,例如对于新闻,可以将文章的关键句作为新闻的标题,而对于较长的文章,在文章的关键句为多句时,将文章的关键句分别作为标题和小标题,以系统的显示文章的中心内容,方便理解文章中各个部分的内容,或者可在获取文章的关键句后,对文章的关键句进行略微的修改,则可将修改后的关键句作为文章的标题或者小标题。
本申请实施例中,候选句指可能作为目标文章的关键句的句子,全文中可以通过特定方式选择候选句,也可以通过将文章中的任意句子作为候选句,然后对候选句进行处理分析,从候选句中得到关键句。
本申请实施例中,候选句对应的上下文信息指对候选句进行补充的部分,候选句对应的上下文信息指与候选句相邻一个或者多个的句子。
本申请实施例中,候选句的特征信息指能表达候选句的内容的特定信息,可以是候选句中的某几个关键词,也可以是对候选句的概括,或者是对候选句中的信息的整合等。
本申请实施例中,上下文信息候选集指将可能作为候选句对应的上下文信息的文章中的句子的组合,上下文信息候选集中可以包括一个句子,也可以包括多个句子,上下文信息候选集作为选择上下文信息的候选部分,可以使得选择的上下文信息较少,需要的分析量较少,从而加快获取速度,且获取的候选句对应的上下文信息较为准确。
本申请实施例中,关键分词指在文章中出现频率较多的词,即该关键分词能够表示文章的重要内容,以及文章的中心思想,且关键分词的获取可通过设定预设频率范围,即使得在文章中出现的频率大于一定频率且小于一定频率的词作为关键分词,因为会考虑到连接词会出现频率较高,例如“以及”等词语,去除掉这些词语可以使得选择的关键分词更加准确,关键分词为表达文章内容的词语,也可以通过将频率大于预设频率的词作为关键分词,使得词语出现频率大于预设频率时,该词语可能为文章所要表达的重要内容。
本申请实施例中,神经网络模型(Neural Networks,NN)是由大量的、简单的处理单元互相连接形成的复杂网络系统,神经网络模型通过模拟人脑神经网络形成以处理单元构成的数学模型,具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,适用于需要考虑多种因素和条件的、不精确和模糊的信息处理问题,且在神经网络模型的形成过程中,会对神经网络模型进行训练,在训练过程中对神经网络模型中的数据或者参数进行调整,使得神经网络模型在进行工作时,较为准确的得到结果。
本申请实施例中,样本文章指用于训练神经网络模型的文章,该文章可以为文章数据库中存储的具有关键句的文章、也可以是人工输入的具有关键句的文章。
本申请实施例中,BERT模型(Bidirectional Encoder Representations fromTransformers,来自变压器的双向编码器表示)是一种由双向Transformers组成的特征抽取神经网络模型,该模型采用masked language model(蒙面语言模型)随机mask(掩码)输入中的一些tokens(符号),然后在预训练时对其进行预测,并增加句子级别的任务,最后得到训练好的BERT模型,训练好的BERT模型可以抽取句子中的特征。
例如,参见图1a,以该关键句提取装置集成在计算机设备中为例,该计算机可以获取需要确定关键句的目标文章;对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
请参阅图1b,图1b为本申请实施例所提供的关键句提取系统的场景示意图,该系统可以包括终端以及服务器,终端之间、服务器之间、以及终端与服务器之间通过各种网关组成的互联网等方式连接通信,不再赘述,其中,终端包括用户终端11等,服务器包括数据服务器12以及通信服务器13等;其中:
用户终端11包括但不局限于平板电脑、笔记本电脑、个人计算(PC,PersonalComputer)、微型处理盒子、或者其他设备等;主要提供文章关键句提取功能等;
服务器包括本地服务器和/或远程服务器等。数据服务器12以及通信服务器13都可以部署在本地服务器,也可以部分或者全部部署在远程服务器上。
需要说明的是,图1b所示的系统场景示意图仅仅是一个示例,本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
图2为本申请实施例提供的关键句提取方法的第一种流程示意图,请参阅图2,该关键句提取方法包括以下步骤:
201:获取需要确定关键句的目标文章。
在一种实施例中,目标文章可以为文章数据库内的任意一篇文章,也可以是一个新的需要加入文章数据库的文章,或者目标文章为用户上传到文章数据库的文章。
在一种实施例中,针对目标文章为文章数据库内的任意一篇文章,该文章可能具有关键句、也可能不具有关键句,对具有关键句的文章可以通过本申请实施例提供的关键句提取方法重新得到文章的关键句,使得得到的文章的关键句更加准确,或者对文章对应的关键句起到验证作用,对不具有关键句的文章,可以先提取文章的关键句,将不具有关键句的文章的关键句提取出来,并将关键句与文章对应存储,使得后续读取该文章时,同时能阅读到文章的关键句。
在一种实施例中,针对新的加入文章数据库的文章,在文章加入文章数据库后,对其进行处理,使得新加入的文章能够有相应的关键句,并将新加入的文章与其关键句对应存储,使得后续读取新加入的文章时,能相应的获取到文章的关键句。
在一种实施例中,针对用户上传至文章数据库的文章,用户上传文章到文章数据库的方式包括:用户以一篇文章上传一次的方式上传,或者将多篇文章同时上传至文章数据库,用户上传的文章的数量可以为一篇,也可以为多篇。
202:对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息。
在一种实施例中,为了得到需要的候选句和候选句对应的上下文信息,使得候选句比较符合关键句的特点,此时,得到候选句和候选句对应的上下文信息的步骤包括:对目标文章进行分句处理,得到按序排列的分句;从分句中选择分句作为候选句;根据上下文信息提取条件,从分句中选择分句作为候选句对应的上下文信息;其中,对目标文章进行分句处理,指通过特定的要求将文章分为多个句子,且是通过从文章的开头至文章的结尾的按序排列的分句,使得后续在通过分句得到候选句和候选句对应的上下文信息时,可以知道分句的位置,或者按照分句的顺序选择,或者按照特定的要求选择候选句及候选句对应的上下文信息。
在一种实施例中,基于上下文信息提取条件,选择分句作为候选句对应的上下文信息,使得得到的上下文信息与候选句具有较好的相关性,从而使得选择的上下文信息较好,能更好的结合候选句,从而使得候选句更加符合关键句,此时,得到候选句对应的上下文信息的步骤包括:根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与候选句的相对位置;根据分句数量以及相对位置,从分句中选择分句作为候选句对应的上下文信息;在选择候选句对应的上下文信息时,由于文章的分句按序排列,使得在确定候选句后,候选句对应的上下文信息与候选句的相对位置也可以确定,且可以根据上下文信息提取条件确定上下文信息包括的分句数量,从而使得确定分句数量以及分句与候选句的相对位置,同时,在确定分句数量和相对位置后,从分句中选择候选句对应的上下文信息,可以通过选择候选句相邻的前面一句或者相邻的后面一句作为候选句对应的上下文信息,也可以选择候选句相邻的前一句和后一句作为候选句对应的上下文信息,还可以选择与候选句相邻的多个句子作为候选句对应的上下文信息。
在一种实施例中,可将上下文信息提取条件设定为将与候选句相邻的句子作为候选句对应的上下文信息,则对应的针对文章中存在只有一个相邻的句子的候选句,可能相邻的句子为上一句或者下一句,则将该相邻的句子作为候选句的上下文信息,而对于具有两个相邻的句子,则可将上一句和下一句作为候选句对应的上下文信息;或者针对只有一个相邻句子的候选句,可将与候选句相邻的句子、以及与候选句相隔一个句子的句子作为候选句对应的上下文信息,同时,对于有两个相邻句子的候选句,也可将上下文信息提取条件设定为将与候选句相邻的句子、以及与候选句相隔一个句子的句子作为候选句对应的上下文信息。
在一种实施例中,在确定分句的数量和相对位置后,可相应的确定作为上下文信息的候选集,先筛选一次上下文信息,使得选择的上下文信息较为准确,此时,选择候选句对应的上下文信息的步骤包括:根据相对位置,确定候选句的上下文信息候选集,上下文信息候选集包括至少一个分句;根据分句数量,从上下文信息候选集中选择分句作为候选句对应的上下文信息。
在一种实施例中,可以根据分句的字数确定候选句,由于字数过少和字数过多的句子作为关键句的可能性较低,通过字数确定候选句使得需要处理的候选句较少,从而使得得到的关键句准确,且处理较快,此时,确定候选句的步骤包括:确定分句的字数;选择字数处于预设字数范围的分句作为候选句。
在一种实施例中,可以先通过符号筛选分句,然后筛选分句的字数确定候选句,此时,获取候选句的步骤包括:从目标文章中查找符号,并设定预设符号;根据预设符号筛选查找的符号,得到分句符号;根据分句符号将目标文章划分为多个分句;对分句中的字数进行统计,得到分句的字数;筛选位于预设字数范围的分句,得到候选句。
在一种实施例中,在确定候选句前,可先通过测试确定预设字数范围,可通过获取已有关键句的文章中的关键句,然后统计关键句的字数,最后根据关键句的字数确定预设字数范围,在根据关键句的字数确定预设字数范围中,可以在关键句的字数范围上加上一个数字,得到预设字数范围,因为考虑到测试的样本较少,会出现一定的误差,可略微增大字数范围。
在一种实施例中,可以根据关键分词确定候选句,此时,得到候选句的步骤包括:获取目标文章的关键分词;将包含关键分词的分句作为候选句;可以通过对目标文章提取出现频率大于预设频率的词,将出现频率大于预设频率的词作为关键分词;从分句中寻找具有关键分词的分句,得到具有关键分词的分句;将具有关键分词的分句作为候选句。
在一种实施例中,在确定候选句前,可先通过测试得到预设频率,可通过获取文章中的关键词,然后统计关键词在文章中出现的频率、以及非关键词在文章中出现的频率,然后对比关键词在文章中出现的频率和非关键词在文章中出现的频率,得到预设频率范围,然后根据预设频率范围选择预设频率。
203:对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息。
在一种实施例中,通过神经网络模型得到候选句的特征信息,使得获取候选句的特征信息的方法较为便捷,此时,获取候选句的特征信息的步骤包括:获取训练后的神经网络模型;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
在一种实施例中,在使用神经网络模型前,需要先对神经网络模型进行训练,可使用样本文章对神经网络模型进行训练,此时,获取训练后的神经网络模型的步骤包括:获取样本文章以及样本文章的关键句;利用样本文章以及样本文章的关键句,对预设的神经网络模型进行训练,得到训练后的神经网络模型。
在一种实施例中,在得到训练后的神经网络模型后,可以对神经网络模型进行检测,确定得到的神经网络模型较为准确,此时,检测训练后的神经网络模型的步骤包括:预先处理候选句以及对应候选句的上下文信息,得到候选句的特征信息;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息;对比预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息,在预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息相同时,确定训练后的神经网络模型,预先处理包括人为处理。
204:根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
在一种实施例中,可以通过候选句中文章关键词的数量确定关键句,此时,从候选句中选择关键句的步骤包括:根据候选句的特征信息确定候选句中的文章关键词的数量;在文章关键词的数量符合关键句提取条件时,将文章关键词的数量符合关键句提取条件的候选句作为目标文章的关键句。
在一种实施例中,可以通过将候选句进行分类得到关键句,此时,从候选句中选择关键句的步骤包括:根据候选句的特征信息将候选句分类,统计不同类别的候选句的数量,获取候选句的数量符合关键句提取条件的候选句类别,从符合关键句提取条件的候选句类别中选择候选句作为目标文章的关键句;从候选句类别中选择候选句时,可通过候选句中词语在候选句类别中出现的次数,以及候选句中存在的多次出现的词语的数量来确定关键句,即将出现词语较多、词语出现次数较多的候选句作为关键句。
本申请实施例提供一种关键句提取方法,该方法通过提取处理得到候选句和候选句对应的上下文信息,可以根据需求将目标文章中的所有句子作为候选句或者根据特定条件得到候选句,使得选择的候选句较为准确,同时,在获取候选句的特征信息时,将候选句和候选句对应的上下文信息结合起来,作为候选句的特征信息,使得选择的候选句充分考虑了全文的信息,从而使得从候选句中选择的关键句考虑了全文的信息,使得得到的关键句较为准确。
图3为本申请实施例提供的关键句提取方法的第二种流程示意图,本实施例针对如何获取神经网络模型、以及目标文章的关键句的作用进行详细描述,请参阅图3,该关键句提取方法包括:
在获取需要确定关键句的目标文章的步骤之前,还包括:
301:训练预设的神经网络模型。
具体的,训练预设的神经网络模型的步骤包括:获取预设的神经网络模型;获取样本文章以及对应样本文章的关键句;使用样本文章以及样本文章对应的关键句对神经网络模型进行训练;得到训练后的神经网络模型。
针对获取预设的神经网络模型。
具体的,即选择一个神经网络模型,并对其中的参数进行调整,得到一个预设的神经网络模型,具体到BERT模型,即可以设定BERT内的各个参数的大小,以及各个参数所占的权值,得到一个未训练的BERT模型,该BERT模型对候选句的预测存在一定的误差。
针对获取样本文章以及对应样本文章的关键句。
具体的,获取样本文章的步骤包括:获取多篇样本文章,并设定样本文章选择条件;根据样本文章选择条件从样本文章中选出样本文章;可以通过从文章数据库中随机选择多篇文章,且在选择的样本文章中尽量包括各种类型的文章或者选择文章中的一部分,例如课文、科普文章、新闻等文章或者其节选部分,对于不具有关键句的文章,也可将文章的标题或者小标题作为关键句,同时,还可以将已经使用关键句提取方法得到的目标文章和目标文章对应的关键句作为样本文章。
具体的,可以通过在文章数据库中随机选择100篇文章,然后设定字数小于预定字数的文章不作为样本文章,例如字数小于500字的文章不作为样本文章,然后在通过字数进行筛选后,从剩余的文章中选择不同类型的文章作为样本文章,具体可以选择图5中的《我与**(节选)》部分作为样本文章,以文章中的第一句作为样本文章的关键句。
针对使用样本文章以及样本文章对应的关键句对神经网络模型进行训练。
具体的,先将样本文章输入至神经网络模型;使用神经网络模型对样本文章中的候选句和候选句对应的上下文信息的特征进行预测,得到候选句的特征信息;根据神经网络模型得到的候选句的特征信息得到关键句;比对依据神经网络模型得到的关键句和输入的样本文章对应的关键句;在依据神经网络模型得到的关键句与输入的样本文章的关键句存在差异时,对神经网络模型进行调整;在依据神经网络模型得到的关键句与输入的样本文章的关键句相同或者相似度大于预设值时,停止对神经网络模型进行训练。
具体的,在得到样本文章以及对应样本文章的关键句后,将样本文章例如图5中的《我与**(节选)》部分输入至神经网络模型,采用神经网络模型对样本文章中的候选句和候选句对应的上下文信息进行特征预测,将样本文章的每一句作为候选句,以句号划分句子,即对文章中的第一句:“还有一些人,我还能想起一些常到这园子里来的人。”至第十句:“她走出北门回家去”的特征进行预测,得到文章中第一句至第十句的特征信息,然后采用得到的文章中的第一句至第十句的特征信息得到关键句,该步骤可以通过采用其他模型实现或者采用人工实现,然后得到根据神经网络模型得到的候选句的特征信息,然后得到的关键句,可能是第一句、也可能是第二句,比对该关键句和样本文章对应的关键句,即第一句,在依据神经网络模型得到的关键句,例如为第二句,与输入的关键句不同时,对神经网络模型进行调整,直至依据神经网络模型对候选句和候选句对应的上下文信息得到的候选句的特征信息,依据候选句的特征信息得到的关键句为第一句时,停止对神经网络模型进行训练;在神经网络模型的训练过程中,是将神经网络模型中的参数或者参数所占权值等数据进行调整,然后使用神经网络模型预测候选句的特征信息,依据神经网络模型得到关键句的重复过程,该重复过程直到神经网络模型预测的候选句的特征信息,依据神经网络模型能够得到正确的关键句为止。
具体的,针对将文章标题或者文章中的小标题作为候选句的样本文章,可通过使用神经网络模型处理样本文章中的候选句和候选句对应的上下文信息,依据神经网络模型得到关键句,使得依据神经网络模型得到的关键句包含标题的内容,或者神经网络模型得到的关键句与标题的相似度大于预设值例如90%时,表示神经网络模型预测准确,符合该关键句提取方法的预测需求。
具体的,采用的神经网络模型包括BERT模型,采用BERT模型能生成高质量的句子特征信息。
针对得到训练后的神经网络模型。
具体的,在得到训练后的神经网络模型后,还可以对训练后的神经网络模型进行检测,使得得到的神经网络模型能够准确得到候选句的特征信息,从而使得依据神经网络模型得到的关键句准确,例如采用上述方法对BERT模型进行训练,得到训练后的BERT模型,在得到训练后的BERT模型后,还可以对BERT模型进行检测,选择一篇样本文章,得到样本文章对应的候选句,在处理样本文章得到样本文章的候选句以及候选句对应的上下文信息后,通过人工处理样本文章的候选句以及候选句对应的上下文信息,得到候选句的特征信息,同时采用训练后的BERT模型处理样本文章的候选句以及候选句对应的上下文信息,得到候选句的特征信息,比对BERT模型得到的候选句的特征信息和人工得到的候选句的特征信息,在BERT模型得到的候选句的特征信息和人工得到的候选句的特征信息相同时,确定训练后的BERT模型,或者在BERT模型得到的候选句的特征信息和人工得到的候选句的特征信息相似度大于预设值例如90%时,确定训练后的BERT模型。
在根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句的步骤之后,还包括:
302:根据目标文章的关键句得到目标文章的标题。
具体的,在获取目标文章的关键句后,可以依据目标文章的关键句,在对目标文章的关键句上进行删减,或者对目标文章的关键句进行概括,使得能得到目标文章的标题,则在后续阅读目标文章时,可以获取到目标文章的标题和目标文章的关键句,方便理解目标文章。
具体到图5中的《我与**(节选)》部分,在获取到关键句“还有一些人,我还能想起一些常到这园子里来的人。”后,可以根据关键句中的内容,将关键句的关键内容提取出来,作为文章的标题,在这里可以将“园中”和“一些人”提取出来,将“园中的一些人”或者“园中的人”作为该部分的小标题,相应的可以根据《我与**》的全文部分将全文部分的关键句提取出来,然后根据该关键句得到全文部分的标题。
图4为本申请实施例提供的关键句提取方法的第三种流程示意图,本实施例针对用户终端、服务器和存储服务器三者之间如何交互进行详细描述,请参阅图4,该关键句提取方法包括:
401:数据服务器从存储服务器中获取训练数据。
在对目标文章进行关键句提取前,先对神经网络模型进行训练,具体的,可以对BERT模型进行训练,需要数据服务器向存储服务器发送请求指令,请求存储服务器向数据服务器发送训练的数据,存储服务器在接收到请求指令后,向数据服务器发送训练数据,使得数据服务器得到神经网络模型的训练数据,并在后续过程中进行训练,该训练数据可以包括上述实施例中的样本文章,其中,存储服务器可以作为区块链的一个节点。
402:数据服务器处理训练数据,得到训练后的神经网络模型。
在数据服务器从存储服务器中得到训练数据后,数据服务器对神经网络模型进行训练,该训练过程可以通过训练数据对神经网络模型进行重复多次的训练,并在训练过程中对神经网络模型中的数据参数进行调整,直到训练得到的神经网络模型预测的数据符合需求,得到训练后的神经网络模型。
403:第一用户终端向数据服务器发送目标文章。
在服务器完成对神经网络模型的训练后,第一用户终端向数据服务器发送目标文章,从而使得数据服务器根据目标文章,得到目标文章的关键句,即使得用户输入至数据服务器的文章能够得到关键句。
404:数据服务器处理目标文章,得到关键句。
在第一用户终端向数据服务器发送目标文章后,数据服务器中包括训练后的神经网络模型,使用数据服务器处理目标文章,包括使用神经网络模型对目标文章进行处理,对目标文章的候选句及候选句对应的上下文信息进行特征提取,得到候选句的特征信息,相应的使用数据服务器对候选句的特征信息进行处理,得到关键句。
405:数据服务器根据关键句得到目标文章的标题。
在数据服务器得到目标文章的关键句后,数据服务器对关键句进行处理,可以根据对关键句进行删减或者对关键句进行概括的方式得到目标文章的标题,从而使得服务器处理得到了目标文章的标题。
406:存储服务器接收服务器发送的文章关键句和标题,并存储文章关键句和标题。
在数据服务器得到了目标文章的关键句和标题后,数据服务器可以向存储服务器发送指令,使得存储服务器在接收到数据服务器的指令后,存储服务器接收并存储数据服务器发送的目标文章的关键句和标题,同时,可以将目标文章的关键句和目标文章的标题存储在一起,或者将目标文章的关键句和目标文章的标题分开存储。
407:第二用户终端向数据服务器发送文章列表请求。
在存储服务器存储了具有关键句和标题的目标文章后,第二用户终端需要阅读文章列表,则第二用户终端会向数据服务器发送文章列表请求,从而使得第二用户终端能够从数据服务器中获取到文章列表,进行文章列表的阅读。
408:数据服务器从存储服务器中获取文章标题。
数据服务器在接收到第二用户终端发送的列表请求后,数据服务器向存储服务器发送请求指令,存储服务器在接收到请求指令后向数据服务器发送文章标题,数据服务器得到以文章标题以基准的文章列表。
409:数据服务器向第二用户终端发送文章列表。
在数据服务器获取到文章标题得到文章列表后,数据服务器向第二用户终端发送文章列表,使得第二用户终端能够阅读到文章列表。
410:第二用户终端向数据服务器发送阅读文章请求。
在第二用户终端阅读到文章列表后,第二用户终端向数据服务器发送阅读文章请求,请求数据服务器向第二用户终端发送文章列表中的一篇文章。
411:数据服务器从存储服务器中获取文章。
在数据服务器接收到第二用户终端发送的阅读文章请求后,数据服务器向存储服务器发出请求指令,存储服务器在接收到数据服务器发送的请求指令后,向数据服务器发送文章,数据服务器从存储服务器中获取到文章。
412:数据服务器向第二用户终端发送文章。
在数据服务器得到文章后,数据服务器向第二用户终端发送文章,使得第二用户终端能够阅读到文章的内容。
图6a、图6b为本申请实施例提供的神经网络模型运行的两种示意图,本实施例针对如何使用神经网络模型获取目标文章的关键句进行详细描述,请参阅图6a、图6b,该神经网络模型的运行包括以下步骤:
获取需要确定关键句的目标文章。
具体的,本实施例可以从文章数据库中选择文章作为目标文章,例如图5所示的《我与**(节选)》部分。
将目标文章进行分句处理,得到候选句以及候选句对应的上下文信息。
具体的,先根据文章中的逗号或者句号的位置,将文章中的句子进行分句处理,对其他的符号,例如感叹号,问号,分号,将其作为分句的符号,而双引号和引号等不作为分句的符号;并将分句按照顺序排列。
具体到《我与**(节选)》,在这里通过句号划分目标文章,可以得到《我与**(节选)》的第一句至第十句,同时可以得到第一句至第十句的位置,例如第一句位于目标文章的开头,第十句位于目标文章的结尾,当然,还可以通过逗号将句子进行划分,在这里可以同时将字数少于预定字数范围的句子不作为候选句,例如在这里设定预定字数范围为大于10字,则具体到在《我与**(节选)》部分,可将第十句“她走出北门回家去”不作为候选句,在预定字数范围的设定过程中,预定字数范围可以根据多次测试得到;
然后在按序排列中的分句中选择候选句,将文章中第k个句子作为候选句,可以根据上下文信息提取条件,可以将与候选句相隔两个句子以内的句子均作为上下文信息候选集,即将第k-1个句子和第k+1个句子作为上下文信息候选集,然后从上下文信息候选集中选择分句候选句对应的上下文信息,在这里上下文信息提取条件可以设定为将与候选句相邻的句子,即与第k个句子相邻的句子作为候选句对应的上下文信息;
同时,对于文章中存在只具有下一相邻句子、不具有上一相邻句子的句子,确定了上下文信息候选集中包括的分句数量为1个,以及该句子与候选句相邻后,将第k+1个句子作为候选句对应的上下文信息;对于文章中存在只具有上一相邻句子、不具有下一相邻句子的句子,确定了上下文信息候选集中包括的分句数量为1个,以及该句子与候选句相邻后,将第k-1个句子作为候选句对应的上下文信息;对于文章中存在具有下一相邻句子和上一相邻句子的句子,确定了上下文信息候选集中包括的分句数量为2个,以及该句子与候选句相邻后,将第k-1个句子和第k+1个句子作为候选句第k个句子的对应的上下文信息。
具体应用到《我与**(节选)》部分,则可以将第一个句子“还有一些人,我还能想起一些常到这园子里来的人。”作为第k个句子,即作为候选句,而该句子相邻的句子只有一个,则将第二个句子“有一个老头,算是一个真正的饮者;他在腰间挂提供扁瓷瓶,瓶里当然装满了酒,常来这园里消磨午后的时光。”作为第k+1个句子,即作为候选句对应的上下文信息,或者提取第k+1个句子中的关键信息,例如“有一个老头”,将其作为对应第k个句子的上下文信息;而对于第二个句子,将其作为候选句第k个句子时,该句子与第一个句子第k-1个句子和第三个句子第k+1个句子:“他在园中四处游逛……你就会相信这是个独一无二的老头”相邻,则可提取第二句的特征,并将第一句和第三句作为第二句的上下文信息。
具体的,可根据文章的关键分词确定候选句,具体到《我与**(节选)》部分,设定“一些人”和“园子”为关键分词,则可将具有关键分词或者具有与关键分词相似的分词的句子提取出来,作为候选句,例如第一句中包括“一些人”和“园子”,则可将第一句作为候选句,同时,还可以根据目标文章中出现的词语的次数确定关键分词,例如《我与**(节选)》中“园子”出现次数较多,可将“园子”作为关键分词,或者在获取目标文章《我与**(节选)》时,从目标文章中获取关键分词,以便后续使用关键分词获取候选句。
使用BERT模型对候选句以及候选句对应的上下文信息进行特征提取。
具体的,在使用BERT模型前,需要先对BERT模型进行训练,例如将《我与**(节选)》中的句子输入到BERT模型中,从BERT模型中输出句子的特征,同时人工得到句子的特征,并比对BERT模型得到的句子的特征以及人工得到的特征,对BERT模型进行调整,直到BERT模型对句子的特征提取准确,得到BERT模型,可将10篇文章输入到BERT模型中,同时人工得到这10篇文章的句子的特征信息,比对每篇文章的人工得到的句子的特征信息和BERT模型得到的句子的特征信息,在BERT模型预测的句子的特征信息与人工得到的句子的特征信息相同时,得到的训练后的BERT模型。
得到的各个候选句的特征信息。
具体的,将每个句子作为候选句输入到BERT模型中,得到相应的第一k-1个句子的特征信息、第k个句子的特征信息、第k+1个句子的特征信息,例如从《我与**(节选)》中可以得到第一句的特征信息,得到第二句的特征信息,以及后续每一句的特征信息,将第一句作为候选句时,从BERT模型中可以知道第一句的特征包括“一些人”、“一些常到园子里来的人”,以及从第二句中得到的“一个老头”,从而得到第一句的特征信息包括“一些人”、“一些常到园子里来的人”,相应的可以得到第二句的特征信息,第二句的特征包括第二句的“一个老头”、“饮者”、“酒”、第一句和第三句中对应的上下文信息“一些人”、“一些园子里来的人”、“园中”、“老头”、“饮酒情状”,得到第二句中的特征信息包括“一个老头”、“园中”、“饮酒”,相应得到后续的句子的特征信息,第三句的特征信息包括“园中”、“老头”“饮酒情状”、第四句“还有一个捕鸟的汉子……羽毛戗在网眼里便不能自拔”的特征信息包括“一个捕鸟的汉子”、“鸟”、“网”、第五句“他单等一种过去很多面现在非常罕见的鸟……结果他又等了好多年”的特征信息包括“汉子”、“罕见的鸟”、“好多年”,第六句“早晨和傍晚……傍晚她从南向北穿过这园子回家”的特征信息包括“中年女工程师”、“园子”,第七句“事实上……别样的人很难有她那般的素朴并优雅”的特征信息包括“中年女工程师”、“知识分子”、“素朴并优雅”,第八句“当她在园子穿行……才好”的特征信息包括“中年女工程师”、“琴声”、“园子”,第九句“我没有见过……最好不要出现”的特征信息包括“中年女工程师的丈夫”,第十句不作为候选句,则不需要提取特征信息,可以降低工作量,加快速度,而对于第十句作为候选句的情况,将第九句作为第十句的上下文信息即可。
使用分类器处理候选句的特征信息,以及关键句提取条件。
具体的,对获取的候选句的特征信息,根据特征信息的相似度将候选句进行分类,例如《我与**(节选)》中第一句的特征信息包括“一些人”、“一些常到园子里来的人”,第二句的特征信息包括“一个老头”、“园中”、“饮酒”,则第一句与第二句具有一定的相似度,可以将第一句和第二句划分为同一类,相应的可以根据第三句“他在园中四处游逛……你就会相信这是个独一无二的老头”的特征信息:“园中”、“老头”“饮酒情状”,可将第三句与第一句和第二句分为同一类,同时还可以将第二句和第三句作为同一类,最后将候选句分为多个类别,第一个类别为具有“园中”和“一些人”的类别,该类别包括第一句、第二句、第三句、第六句、第八句,第二个类别可以为具有“老头”的类别,该类别包括第二句和第三句,第三个类别可以为具有“汉子”的类别,该类别包括第四句和第五句,第四个类别可以为具有“中年女工程师”的类别,该类别包括第六句、第七句、第八句和第九句,当然,还可以根据其他的方式划分类别,例如将“饮酒”作为类别依据作为一个类别,将“鸟”作为类别依据作为一个类别等;在这里将关键句提取条件设定为具有类别依据最多的句子作为关键句,且关键句为一句。
得到目标文章的关键句。
在使用分类器将候选句进行分类后,并设定关键句提取条件,可以得到目标文章的关键句,由于在本实施例中设定关键句为一句,则需要从候选句中选择一句最符合关键句提取条件的句子作为关键句。
具体的,对于《我与**(节选)》部分,将上一步骤划分得到的类别进行统计,可以知道第一个类别包括的候选句最多,同时第一个类别的类别依据“一些人”包括了第二个类别、第三个类别和第四个类别,可以将第一个类别作为提取关键句的类别,同时根据候选句提取条件,则可知第一句中包括了第一个类别的类别一句“园中”和“一些人”,则可将第一句作为《我与**(节选)》部分的关键句,得到目标文章《我与**(节选)》的关键句“还有一些人,我还能想起一些常到这园子里来的人。”。
具体的,对于《我与**(节选)》部分,还可以通过候选句中文章关键词的数量确定关键句,例如将“园子”、“一些人”设定为关键词,而第一句中包含了这两个词,可将第一句作为文章的关键句。
本实施例通过从文章数据库中获取目标文章,然后通过采用句号所处位置对目标文章进行分句处理,得到按序排列的分句,然后通过设定预设字数范围,排除掉不能作为候选句的句子,得到候选句和候选句对应的上下文信息,使得降低了分析的工作量,然后采用BERT模型对候选句和候选句对应的上下文信息进行特征提取,采用BERT模型能够较快的处理文章中的候选句和候选句对应的上下文信息,避免采用人工,降低人工成本,且采用模型能出来大量的文章,效率较高,然后得到候选句的特征信息,并采用分类器出来候选句的特征信息,通过将候选句进行分类,可进一步筛选可以作为关键句的候选句,同时设定关键句提取条件,使得依据关键句提取条件,从候选句中选出关键句,使得得到的关键句考虑了全文信息,使得得到的关键句较为准确。
本实施例还可以适用于其他查找关键句的任务。
相应的,图7a、图7b、图7c是本申请实施例提供的关键句提取装置的结构示意图,请参阅图7a、图7b、图7c,该关键句提取装置包括以下模块:
获取模块701,用于获取需要确定关键句的目标文章;
提取处理模块702,用于对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
特征获取模块703,用于对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
关键句获取模块704,用于根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
在一实施例中,提取处理模块702包括分句模块7021,候选句选择模块7022和上下文信息选择模块7023,分句模块7021用于对目标文章进行分句处理,得到按序排列的分句;候选句选择模块7022用于从分句中选择分句作为候选句;上下文信息选择模块7023用于根据上下文信息提取条件,从分句中选择分句作为候选句对应的上下文信息。
在一实施例中,上下文信息选择模块7023用于根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与候选句的相对位置;根据分句数量以及相对位置,从分句中选择分句作为候选句对应的上下文信息。
在一实施例中,上下文信息选择模块7023用于根据相对位置,确定候选句的上下文信息候选集,上下文信息候选集包括至少一个分句;根据分句数量,从上下文信息候选集中选择分句作为候选句对应的上下文信息。
在一实施例中,候选句选择模块7022用于确定各分句的字数;选择字数处于预设字数范围的分句作为候选句。
在一实施例中,候选句选择模块7022用于获取所述目标文章的关键分词;将包含所述关键分词的分句作为候选句。
在一实施例中,特征获取模块703包括模型获取模块7031和特征信息模块7032,模型获取模块7031用于获取训练后的神经网络模型;特征信息模块7032使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
在一实施例中,模型获取模块7031用于获取样本文章以及样本文章的关键句;利用样本文章以及样本文章的关键句,对预设的神经网络模型进行训练,得到训练后的神经网络模型。
在一实施例中,模型获取模块7031用于预先处理候选句以及对应候选句的上下文信息,得到候选句的特征信息;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息;对比预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息,在预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息相同时,确定训练后的神经网络模型。
相应的,本申请实施例还提供一种计算机设备,如图8所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器801是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器801可包括一个或多个处理核心;优选的,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器802还可以包括存储器控制器,以提供处理器801对存储器802的访问。
计算机设备还包括给各个部件供电的电源803,优选的,电源803可以通过电源管理系统与处理器801逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元804,该输入单元804可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现各种功能,如下:
获取需要确定关键句的目标文章;
对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
在一种实施例中,实现功能:
对目标文章进行分句处理,得到按序排列的分句;
从分句中选择分句作为候选句;
根据上下文信息提取条件,从分句中选择分句作为候选句对应的上下文信息。
在一种实施例中,实现功能:
根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与候选句的相对位置;
根据分句数量以及相对位置,从分句中选择分句作为候选句对应的上下文信息。
在一种实施例中,实现功能:
根据相对位置,确定候选句的上下文信息候选集,上下文信息候选集包括至少一个分句;
根据分句数量,从上下文信息候选集中选择分句作为候选句对应的上下文信息。
在一种实施例中,实现功能:
确定各分句的字数;
选择字数处于预设字数范围的分句作为候选句。
在一种实施例中,实现功能:
获取目标文章的关键分词;
将包含关键分词的分句作为候选句。
在一种实施例中,实现功能:
获取训练后的神经网络模型;
使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
在一种实施例中,实现功能:
获取样本文章以及样本文章的关键句;
利用样本文章以及样本文章的关键句,对预设的神经网络模型进行训练,得到训练后的神经网络模型。
在一种实施例中,实现功能:
预先处理候选句以及对应候选句的上下文信息,得到候选句的特征信息;使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息;对比预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息,在预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息相同时,确定训练后的神经网络模型。。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对关键句提取方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。例如,该指令可以执行如下步骤:
获取需要确定关键句的目标文章;
对目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
对候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
根据候选句的特征信息以及关键句提取条件,从至少一个候选句中确定目标文章的关键句。
在一种实施例中,实现功能:
对目标文章进行分句处理,得到按序排列的分句;
从分句中选择分句作为候选句;
根据上下文信息提取条件,从分句中选择分句作为候选句对应的上下文信息。
在一种实施例中,实现功能:
根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与候选句的相对位置;
根据分句数量以及相对位置,从分句中选择分句作为候选句对应的上下文信息。
在一种实施例中,实现功能:
根据相对位置,确定候选句的上下文信息候选集,上下文信息候选集包括至少一个分句;
根据分句数量,从上下文信息候选集中选择分句作为候选句对应的上下文信息。
在一种实施例中,实现功能:
确定各分句的字数;
选择字数处于预设字数范围的分句作为候选句。
在一种实施例中,实现功能:
获取目标文章的关键分词;
将包含关键分词的分句作为候选句。
在一种实施例中,实现功能:
获取训练后的神经网络模型;
使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
在一种实施例中,实现功能:
获取样本文章以及样本文章的关键句;
利用样本文章以及样本文章的关键句,对预设的神经网络模型进行训练,得到训练后的神经网络模型。
在一种实施例中,实现功能:
将目标文章以及目标文章对应的关键句存储至存储服务器。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的任一种方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种关键句提取方法及装置、计算机设备及可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种关键句提取方法,其特征在于,包括:
获取需要确定关键句的目标文章;
对所述目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
对所述候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
根据所述候选句的特征信息以及关键句提取条件,从所述至少一个候选句中确定所述目标文章的关键句。
2.如权利要求1所述的关键句提取方法,其特征在于,所述对所述目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息的步骤,包括:
对所述目标文章进行分句处理,得到按序排列的分句;
从所述分句中选择分句作为候选句;
根据上下文信息提取条件,从所述分句中选择分句作为所述候选句对应的上下文信息。
3.如权利要求2所述的关键句提取方法,其特征在于,所述根据上下文信息提取条件,从所述分句中选择分句作为所述候选句对应的上下文信息的步骤,包括:
根据上下文信息提取条件,确定上下文信息所包含的分句数量以及与所述候选句的相对位置;
根据所述分句数量以及所述相对位置,从所述分句中选择分句作为所述候选句对应的上下文信息。
4.如权利要求3所述的关键句提取方法,其特征在于,所述根据所述分句数量以及所述相对位置,从所述分句中选择分句作为所述候选句对应的上下文信息的步骤,包括:
根据所述相对位置,确定所述候选句的上下文信息候选集,所述上下文信息候选集包括至少一个分句;
根据所述分句数量,从所述上下文信息候选集中选择分句作为所述候选句对应的上下文信息。
5.如权利要求2所述的关键句提取方法,其特征在于,所述从所述分句中选择分句作为候选句的步骤,包括:
确定各分句的字数;
选择字数处于预设字数范围的分句作为候选句。
6.如权利要求2所述的关键句提取方法,其特征在于,所述从所述分句中选择分句作为候选句的步骤,包括:
获取所述目标文章的关键分词;
将包含所述关键分词的分句作为候选句。
7.如权利要求1所述的关键句提取方法,其特征在于,所述对所述候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息的步骤,包括:
获取训练后的神经网络模型;
使用训练后的神经网络模型对所述候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息。
8.如权利要求7所述的关键句提取方法,其特征在于,所述获取训练后的神经网络模型的步骤,包括:
获取样本文章以及所述样本文章的关键句;
利用所述样本文章以及所述样本文章的关键句,对预设的神经网络模型进行训练,得到训练后的神经网络模型。
9.如权利要求7所述的关键句提取方法,其特征在于,所述获取训练后的神经网络模型的步骤,包括:
预先处理候选句以及对应候选句的上下文信息,得到候选句的特征信息;
使用训练后的神经网络模型对候选句以及对应候选句的上下文信息进行特征提取,得到候选句的特征信息;
对比预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息,在预先处理得到的候选句的特征信息和训练后的神经网络模型得到的候选句的特征信息相同时,确定训练后的神经网络模型。
10.一种关键句提取装置,其特征在于,包括:
获取模块,用于获取需要确定关键句的目标文章;
提取处理模块,用于对所述目标文章进行提取处理,得到至少一个候选句以及候选句对应的上下文信息;
特征获取模块,用于对所述候选句以及候选句对应的上下文信息进行特征提取,得到候选句的特征信息;
关键句获取模块,用于根据所述候选句的特征信息以及关键句提取条件,从所述至少一个候选句中确定所述目标文章的关键句。
CN201911051620.7A 2019-10-31 2019-10-31 关键句提取方法及装置 Active CN110852064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911051620.7A CN110852064B (zh) 2019-10-31 2019-10-31 关键句提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911051620.7A CN110852064B (zh) 2019-10-31 2019-10-31 关键句提取方法及装置

Publications (2)

Publication Number Publication Date
CN110852064A true CN110852064A (zh) 2020-02-28
CN110852064B CN110852064B (zh) 2021-10-26

Family

ID=69599683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911051620.7A Active CN110852064B (zh) 2019-10-31 2019-10-31 关键句提取方法及装置

Country Status (1)

Country Link
CN (1) CN110852064B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784601A (zh) * 2021-02-03 2021-05-11 中山大学孙逸仙纪念医院 关键信息提取方法、装置、电子设备和存储介质
CN113836892A (zh) * 2021-09-08 2021-12-24 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质
CN113849600A (zh) * 2021-09-08 2021-12-28 南京烽火星空通信发展有限公司 一种基于神经网络的文本定位技术

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631812A (zh) * 2012-08-24 2014-03-12 北京百度网讯科技有限公司 一种语义冗余的挖掘方法和装置
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109614490A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于lstm的金融新闻倾向性分析方法
KR20190114195A (ko) * 2018-03-29 2019-10-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631812A (zh) * 2012-08-24 2014-03-12 北京百度网讯科技有限公司 一种语义冗余的挖掘方法和装置
KR20190114195A (ko) * 2018-03-29 2019-10-10 네이버 주식회사 핵심 키워드 추출 방법 및 시스템
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109614490A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于lstm的金融新闻倾向性分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784601A (zh) * 2021-02-03 2021-05-11 中山大学孙逸仙纪念医院 关键信息提取方法、装置、电子设备和存储介质
CN113836892A (zh) * 2021-09-08 2021-12-24 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质
CN113849600A (zh) * 2021-09-08 2021-12-28 南京烽火星空通信发展有限公司 一种基于神经网络的文本定位技术
CN113836892B (zh) * 2021-09-08 2023-08-08 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110852064B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
US11288444B2 (en) Optimization techniques for artificial intelligence
CN107066621B (zh) 一种相似视频的检索方法、装置和存储介质
CN110852064B (zh) 关键句提取方法及装置
CN108280155B (zh) 基于短视频的问题检索反馈方法、装置及其设备
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
CN109255053A (zh) 资源搜索方法、装置、终端、服务器、计算机可读存储介质
CN110232109A (zh) 一种网络舆情分析方法以及系统
CN109598307B (zh) 数据筛选方法、装置、服务器及存储介质
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
WO2013170587A1 (zh) 一种多媒体问答系统及方法
CN108733651A (zh) 表情符号预测方法及模型构建方法、装置、终端
CN109862397A (zh) 一种视频分析方法、装置、设备和存储介质
CN108810642A (zh) 一种弹幕显示方法、装置及电子设备
US20220083580A1 (en) Information processing apparatus and information processing method
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN117520800A (zh) 一种营养学文献模型训练方法、系统、电子设备及介质
CN113515699A (zh) 信息推荐方法及装置、计算机可读存储介质、处理器
JP5876396B2 (ja) 情報収集プログラム、情報収集方法および情報処理装置
CN112926341A (zh) 文本数据处理方法、装置
CN116955534A (zh) 投诉工单智能处理方法、装置、设备及存储介质
CN116543798A (zh) 基于多分类器的情感识别方法和装置、电子设备、介质
US20170185578A1 (en) Information analysis system, information analysis method, and information analysis program
CN109299400A (zh) 一种观点抽取方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021494

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant