CN111309916A - 摘要抽取方法和装置、存储介质和电子装置 - Google Patents
摘要抽取方法和装置、存储介质和电子装置 Download PDFInfo
- Publication number
- CN111309916A CN111309916A CN202010149255.XA CN202010149255A CN111309916A CN 111309916 A CN111309916 A CN 111309916A CN 202010149255 A CN202010149255 A CN 202010149255A CN 111309916 A CN111309916 A CN 111309916A
- Authority
- CN
- China
- Prior art keywords
- scene
- keywords
- target
- keyword
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了一种摘要抽取方法和装置、存储介质和电子装置,其中,该方法包括:对同一剧本的多个场景进行聚类,得到多个情节,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。通过本申请,解决了相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题,提高了摘要抽取的准确率。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种摘要抽取方法和装置、存储介质和电子装置。
背景技术
目前,对于剧本场景的自动摘要工作,可以使用TextRank(文本排名)的方法进行摘要抽取。然而,TextRank的方法适合新闻类的文章,这类文章通过比较短的文字表达一个完整的主题,能够找到主题句。然而,对于包含多个剧集的剧本可以包含多个场次,例如,一部30集的剧本大约会有1200个场次,而每个场次不是独立的,与前后连续的一些场次会组成一个情节,因此,单独对每个场景来进行分析是不符合业务场景的。
可见,相关技术中的剧本摘要抽取方式,存在摘要抽取准确率低的问题。
发明内容
本申请实施例提供了一种摘要抽取方法和装置、存储介质和电子装置,以至少解决相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题。
根据本申请实施例的一个方面,提供了一种摘要抽取方法,包括:对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
根据本申请实施例的另一个方面,提供了一种摘要抽取装置,包括:聚类单元,用于对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;确定单元,用于根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;排序单元,用于根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;抽取单元,用于按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
可选地,聚类单元包括:生成模块,用于按照词频-逆文档频率,生成与多个场景中的每个场景对应的特征向量;聚类模块,用于使用与每个场景对应的特征向量对多个场景进行聚类,得到多个场景类簇,其中,多个场景类簇与多个情节一一对应。
可选地,确定单元包括:第一提取模块,用于提取每个情节的情节关键词,并对情节关键词进行排序,得到第一排序结果;第二提取模块,用于提取目标场景的场景关键词,并对场景关键词进行排序,得到初始排序结果;调整模块,用于根据第一排序结果调整初始排序结果,得到第二排序结果,以使场景关键词中,属于情节关键词的关键词的顺序与第一排序结果一致、且位于不属于情节关键词的关键词之前。
可选地,调整模块包括:获取子模块,用于获取场景关键词的第一关键词和第二关键词;第一调整子模块,用于在第一关键词属于情节关键词,第二关键词不属于情节关键词,且初始排序结果中第一关键词的位置在第二关键词的位置之后的情况下,将初始排序结果中第一关键词的位置调整到第二关键词的位置之前;第二调整子模块,用于在第一关键词和第二关键词均属于情节关键词,且第一关键词和第二关键词在情节关键词的第一排序结果中的第一位置关系与第一关键词和第二关键词在初始排序结果中的第二位置关系不同的情况下,将第二位置关系调整为第一位置关系。
可选地,排序单元包括:选取模块,用于根据第二排序结果中场景关键词的顺序,从场景关键词选取出目标数量的目标关键词;第一获取模块,用于按照第二排序结果从目标关键词中获取当前关键词;第一确定模块,用于从待排序句子中确定包含当前关键词的一个或多个目标句子,其中,待排序句子为多个句子中未排序的句子;第二确定模块,用于根据一个或多个目标句子包含的目标关键词,确定一个或多个目标句子的子排序结果,其中,第三排序结果包括子排序结果。
可选地,抽取单元包括:第二获取模块,用于按照第三排序结果从多个句子中获取当前句子;第三确定模块,用于在当前句子中包含场景关键词中的动词或者名词,且从当前句子识别出当前句子中包含的目标主语、目标谓语和目标宾语的情况下,根据目标主语、目标谓语和目标宾语,确定目标场景的摘要。
可选地,上述装置还包括:获取单元,用于在根据目标主语、目标谓语和目标宾语,确定目标场景的摘要之前,获取关键词的关键词列表,其中,关键词包括场景关键词中的动词和场景关键词中的名词;分析单元,用于对当前句子进行依存语法分析,得到当前句子的语法分析结果,其中,语法分析结果为词关系矩阵;识别单元,用于在从当前句子中查找到关键词列表中包含的目标关键词的情况下,根据语法分析结果,识别当前句子中包含的目标主语、目标谓语和目标宾语。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请实施例的又一个方面,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,采用对场景进行聚类,并根据聚类得到的情节抽取每个场景的关键词的方式,对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要,由于根据情节关键词的顺序抽取每个场景的关键词并确定其顺序,能够保证上下文连续的场景(同一情节中的场景)的摘要有一定的连贯性,符合剧本的情节主题,达到了提高摘要抽取的准确率的效果,从而解决了相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的服务器的硬件结构框图;
图2是根据本申请实施例的一种可选的摘要抽取方法的流程图;
图3是根据本申请实施例的一种可选的摘要抽取方法的示意图;
图4是根据本申请实施例的另一种可选的摘要抽取方法的示意图;
图5是根据本申请实施例的一种可选的系统架构的示意图;
图6是根据本申请实施例的另一种可选的摘要抽取方法的流程图;
图7是根据本申请实施例的一种可选的摘要抽取装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
根据本申请实施例的一个方面,提供了一种摘要抽取方法。可选地,该方法可以在服务器或者类似的运算装置中执行。以运行在服务器上为例,图1是根据本申请实施例的一种可选的服务器的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于MCU(Microcontroller Unit,微处理器)或者FPGA(Field Programmable Gate Array,现场可编程逻辑们阵列)等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的摘要抽取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个NIC(Network Interface Controller,网络适配器),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为RF(Radio Frequency,射频)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述服务器的摘要抽取方法,图2是根据本申请实施例的一种可选的摘要抽取方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;
步骤S204,根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;
步骤S206,根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;
步骤S208,按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
可选地,上述步骤的执行主体可以为服务器、终端设备等,但不限于此,其他能够进行摘要抽取的装置,均可以用于执行本申请实施例中的方法。
通过本实施例,采用对场景进行聚类,并根据聚类得到的情节抽取每个场景的关键词的方式,由于根据情节关键词的顺序抽取每个场景的关键词并确定其顺序,能够保证上下文连续的场景(同一情节中的场景)的摘要有一定的连贯性,符合剧本的情节主题,解决了相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题,提高了摘要抽取的准确率。
下面结合图2对本申请实施例中的摘要抽取方法进行解释说明。
在步骤S202中,对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景。
对于同一剧本,可以包含多个场景,不同的场景可以通过场景标识进行区分。每个场景通过文本信息进行表示,表示每个场景的文本信息可以包含多个句子,每个句子包含多个词语。
服务器(或者,类似的处理设备)可以获取同一剧本的多个场景,对多个场景进行聚类,得到多个情节,多个情节中的每个情节包括多个场景中的一个或多个场景。场景聚类可以是由场景聚类模块执行的(该场景聚类模块可以是单独的处理器或者处理器的部分),场景聚类模块可以对场景内容进行聚类,每个类可以称为一个情节,每个情节包含至少一个场景。
例如,一个剧本包含30个场景,通过场景聚类,可以得到6个情节,每个情节包含至少一个场景。
对多个场景进行聚类的方式可以有多种。作为一种可选的实施例,对同一剧本的多个场景进行聚类,得到多个情节包括:按照词频-逆文档频率,生成与多个场景中的每个场景对应的特征向量;使用与每个场景对应的特征向量对多个场景进行聚类,得到多个场景类簇,其中,多个场景类簇与多个情节一一对应。
对于多个场景中的每个场景,可以将各个场景表示为特征向量的形式。例如,按照词频-逆文档频率(Term Frequency-Inverse Document Frequency,简称为TF-IDF),生成与每个场景对应的特征向量。
TF-IDF可以评估一个字词对于一个文件集或一个语料库(例如,同一剧本)的其中一份文件(例如,一个场景)的重要程度。如果某个单词或者短语在一份文件中出现的频率高,并且在其他文件中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。例如,TF的计算公式可以如公式(1)所示,IDF的计算公式可以如公式(2)所示:
在得到每个场景对应的特征向量之后,可以使用与每个场景对应的特征向量对多个场景进行聚类,得到多个场景类簇。例如,可以利用K-Means或者其他的聚类方法对多个场景进行聚类,得到多个场景类簇,每个场景类簇可以称为一个情节。
需要说明的是,在进行场景聚类之前,可以对多个场景进行预处理,预处理可以包括:配置词典,对场景进行分词及词性标注等。在配置词典时,可以配置演员列表,包括:主要演员列表main_actors和角色演员列表guest_actors,以便进行更好的分词和词性标注。
通过本实施例,利用TF-IDF的方式生成每个场景的特征向量,并根据每个场景的特征向量进行场景聚类,可以提高场景聚类的效率。
在步骤S204中,根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果。
在得到多个情节之后,可以将每个情节作为一个整体考虑,按照情节确定每个情节中的目标场景的场景关键词,并确定场景关键词的第二排序结果,上述目标场景可以是一个情节中的任意场景。
每个场景中抽取的场景关键词的数量可以根据需要进行设定,例如,可以是10个,从各个场景中抽取的场景关键词以及场景关键词的排序结果不仅与场景的内容有关,还与该场景所在的情节有关。在一个情节中,情节关键词的排序结果影响每个场景中的场景关键词的排序结果。
作为一种可选的实施例,根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果包括:提取每个情节的情节关键词,并对情节关键词进行排序,得到第一排序结果;提取目标场景的场景关键词,并对场景关键词进行排序,得到初始排序结果;根据第一排序结果调整初始排序结果,得到第二排序结果,以使场景关键词中,属于情节关键词的关键词的顺序与第一排序结果一致、且位于不属于情节关键词的关键词之前。
场景关键词可以是由关键词抽取模块执行的(该关键词抽取模块可以是单独的处理器或者处理器的部分)。关键词抽取模块可以分别对每个情节及其包含的每个场景进行关键词抽取。
在进行关键词提取时,可以首先提取每个情节的情节关键词,并按照重要程度(例如,权重)从高到低的顺序进行排序,然后提取该情节下的各个场景的场景关键词,并按照重要程度(例如,权重)从高到低的顺序进行排序。进行情节关键词和场景关键词的提取和排序的方法可以是任意能够分析单篇文档、并提取该文档的关键词方法,例如,TextRank。使用TextRank可以确定一个文本(例如,情节,场景)中最重要的T个单词。
需要说明的是,关键词的抽取和排序可以是同时进行的,也就是,同时确定关键词以及关键词的顺序。例如,在进行文档(例如,一个情节,一个场景等)包含的词语排序时,根据关键词的限定条件(例如,将排序靠前的N个词作为关键词),可以同时确定该文档的关键词和关键词的顺序。或者,根据词语之间的关联关系,可以确定出关键词,并根据关键词与其他词之间的关联性强弱,确定关键词的顺序。
作为一个示例,TextRank用于关键词提取的算法如下:
步骤1,把给定文本T按照完整句子进行分割,即:T=[S1,S2,…,Sm],其中,Si为一个完整句子。
步骤2,对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如,名词、动词、形容词,其中,ti,j是保留后的候选关键词,Si=[ti,1,ti,2,...,ti,n]。
步骤3,构建候选关键词图G=(V,E),其中,V为节点集,由步骤2生成的候选关键词组成,然后采用共现关系(Co-Occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
步骤4,根据TextRank的公式,迭代传播各节点的权重,直至收敛。
步骤5,对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
可选地,由步骤5得到最重要的T个单词,可以在原始文本中进行标记,若形成相邻词组,可以组合成多词关键词。
例如,利用TextRank方法对每个情节的整体内容以及情节中的每个场景的内容进行关键词抽取,得到的关键词按照权重由高到低排序。从情节中提取的情节关键词的数量和从场景中提取的场景关键词的数量可以根据需要进行设定,两个数量可以相同,也可以不同。
需要说明的是,关键词抽取可以限定仅抽取动词和名词,或者,动词、名词和形容词。如果关键词抽取的预处理步骤(例如,句子分割,分词和词性标注处理等)与场景聚类的预处理步骤重复,可以保存先执行的预处理结果,以避免重复操作,提高处理效率。
在得到情节关键词的排序结果(第一排序结果)和各个场景的场景关键词的排序结果(初始排序结果),可以根据情节关键词的排序结果调整场景关键词的排序结果,得到场景关键词的最终排序结果(第二排序结果)。
情节关键词体现了整个情节的走向,因此,可以将场景关键词中,属于情节关键词的关键词的顺序调整为与第一排序结果一致,且属于情节关键词的关键词位于不属于情节关键词的关键词之前,以保证提取的场景摘要与整体情节保持一致。
通过本实施例,通过分别提取情节关键词和场景关键词,并根据情节关键词的排序结果调整场景关键词的排序结果,可以提高场景关键词的排序结果的合理性,进而提高同一情节下的场景摘要的连贯性。
根据情节关键词的排序结果调整初始排序结果的方式可以有多种。例如,将场景关键词属于情节关键词的部分靠前排序,不属于情节关键词的部分靠后排序,且场景关键词的顺序与初始排序结果保持一致。又例如,将场景关键词属于情节关键词的部分靠前排序,且该部分关键词的顺序与情节关键词的排序结果保持一致,不属于情节关键词的部分靠后排序,且该部分关键词的顺序与初始排序结果保持一致。
作为一种可选的实施例,根据第一排序结果调整初始排序结果,得到第二排序结果包括:获取场景关键词的第一关键词和第二关键词。在初始排序结果中,第一关键词和第二关键词的位置关系可以是多种位置关系中的一种,对于不同的位置关系,可以采用不同的调整方式:
(1)第一关键词和第二关键词均是情节关键词,且第一位置关系(第一关键词和第二关键词在情节关键词的第一排序结果中的顺序)与第二位置关系(第一关键词和第二关键词在初始排序结果中的顺序)相同,无需调整;
(2)第一关键词和第二关键词均是情节关键词,且第一位置关系与第二位置关系不同,则将第二位置关系调整为与第一位置关系相同;
(3)第一关键词和第二关键词均不是情节关键词,第一关键词和第二关键词在初始排序结果中的位置关系无需调整;
(4)第一关键词和第二关键词有一个属于情节关键词,一个不属于情节关键词,且在初始排序结果中属于情节关键词的一个在不属于情节关键词的一个之前,无需调整;
(5)第一关键词和第二关键词有一个属于情节关键词,一个不属于情节关键词,且在初始排序结果中属于情节关键词的一个在不属于情节关键词的一个之后,则将初始排序结果中属于情节关键词的一个调整到不属于情节关键词的一个之前。
通过上述调整,可以保证调整后的场景关键词的排序结果即符合情节走向,又符合本场景的实际场景内容。
例如,某一个情节Q的整体关键词(情节关键词)排序为KQ,其中某一个场景S的关键词(场景关键词)排序为KS,对于KS中的两个关键词x和y(第一关键词和第二关键词),以下几个条件满足任何一个,则将KS中x的顺序调到y之前:
(1)x在KQ中,y不在KQ中;
(2)x和y都不在KQ中,但是在KS中x排在y之前;
(3)x和y都在KQ中,但是在KQ中x排在y之前。
经过上述排序,得到了每个场景中的关键词上下文排序KSQ(第二排序结果)。
可选地,为了提高排序效率,可以将场景关键词中属于情节关键词的部分(第一部分)和不属于情节关键词的部分(第二部分)分别提取出来,按照情节关键词的第一排序结果对第一部分中包含的关键词进行排序,得到第一子排序结果,按照初始排序结果对第二部分中包含的关键词进行排序,得到第二子排序结果,将第一子排序结果放到第二子排序结果之前,即可得到第二排序结果。
例如,场景关键词有10个,各场景关键词及排序结果为:K0,K1,K2,K3,K4,K5,K6,K7,K8,K9,其中,属于情节关键词的场景关键词包括:K0,K3,K6,K9,其在情节关键词中的排序结果为:K3,K0,K9,K6,则,场景关键词的最终排序结果为:K3,K0,K9,K6,K1,K2,K4,K5,K7,K8。
通过本实施例,可以保证调整后的场景关键词的排序结果即符合情节走向,又符合本场景的实际场景内容,进而提高同一情节下的场景摘要的连贯性。
在步骤S206中,根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词。
根据得到的场景关键词的排序结果(关键词上下文排序),可以对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果。
上述多个句子可以是该目标场景中包含场景关键词的句子,多个句子中的不同句子所包含的场景关键词的个数可以相同,也可以不同。
例如,目标场景包含10个句子,确定出的场景关键词有5个,包含场景关键词的句子有6个,则可以根据场景关键词的排序结果对这6个句子进行排序,而不考虑其余不包含任一场景关键词的4个句子。
对目标场景中的多个句子进行排序的方式可以有多种。例如,可以根据包含的场景关键词的个数对多个句子进行排序,根据包含的场景关键词在第二排序结果中的顺序对多个句子进行排序等。
例如,可以根据KSQ中的关键词选取一定阈值范围内(例如,前5个)的关键词,统计场景S中每个句子包含关键词的个数,根据句子包含一定阈值范围内的关键词个数对句子进行降序排序,然后将所有的动作描述句子顺序调到有对白的句子之前,得到句子排序结果DS。
作为一种可选的实施例,根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果可以包括:根据第二排序结果中场景关键词的顺序,从场景关键词选取出目标数量的目标关键词;按照第二排序结果从目标关键词中获取当前关键词;从待排序句子中确定包含当前关键词的一个或多个目标句子,其中,待排序句子为多个句子中未排序的句子;根据一个或多个目标句子包含的目标关键词,确定一个或多个目标句子的子排序结果,其中,第三排序结果包括子排序结果。
每个场景的场景关键词的数量可以有多个,例如,不同的关键词提取算法提取出的关键词的数量可以预定的,或者,可以根据需要设定成一个较多的数量(例如,10个)。根据场景关键词的排序结果,可以抽取出部分场景关键词作为目标关键词(例如,抽取5个场景关键词作为目标关键词),用于进行句子排序。
例如,场景关键词有10个,最终排序结果为:K3,K0,K9,K6,K1,K2,K4,K5,K7,K8,可以抽取前5个场景关键词作为目标关键词,K3,K0,K9,K6,K1。
在得到目标关键词之后,可以根据第二排序结果(例如,K3,K0,K9,K6,K1)从目标关键词中依次获取目标关键词作为当前关键词。从待排序句子(未排序的句子)中确定包含当前关键词的一个或多个目标句子,并根据一个或多个目标句子包含的目标关键词的个数,确定一个或多个目标句子的子排序结果。包含的目标关键词的个数越多,在排序结果中越靠前。
可选地,除了根据包含的目标关键词的个数以外,还可以根据包含的目标关键词的顺序,确定一个或多个目标句子的子排序结果。
例如,目标场景包含10个句子,S0,S1,S2,S3,S4,S5,S6,S7,S8,S9,目标关键词,K3,K0,K9,K6,K1,首先选取K3作为当前关键词,包含K3的句子有:S0,S3,S5,S6,S9。S0中还包含:K0,K9;而S3中还包含:K6;S5中还包含:K9,K6;S6中还包含:K0;S9中还包含:K9,K6,K1。
如果仅根据包含的目标关键词的个数进行排序(个数相同按照句子的出现顺序排序),则S0,S3,S5,S6,S9的排序结果为:S9,S0,S5,S3,S6。
如果根据包含的目标关键词的个数以及目标关键词的顺序进行排序(优先个数,个数相同按照包含的目标关键词的顺序排序),则S0,S3,S5,S6,S9的排序结果为:S9,S0,S5,S6,S3。
如果根据包含的目标关键词的顺序进行排序,则S0,S3,S5,S6,S9的排序结果为:S0,S6,S9,S5,S3。
在根据当前关键词将部分句子排序完之后,可以继续选取新的目标关键词作为当前关键词,继续对未排序的句子进行排序,直到所有的句子均已完成排序,或者,已排序的句子的个数达到预定数量。
例如,通过K3已经对S0,S3,S5,S6,S9进行排序,未排序的句子包括:S1,S2,S4,S7,S8。继续选取K0作为当前关键词,继续对S1,S2,S4,S7,S8进行排序,直到所有的句子均已完成排序。
通过本实施例,通过选取部分场景关键词作为目标关键词对句子进行排序,并依据目标关键词的顺序对句子进行排序,可以提高生成的场景摘要的准确性。
在步骤S208中,按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
可以按照第三排序结果从目标场景包含的多个句子中抽取出一个或多个句子,并基于抽取的句子得到目标场景的摘要。对于抽取的句子的数量,可以根据目标场景中包含的演员或者主要演员的数量确定,也可以根据场景中包含的句子的数量确定。
例如,如果目标场景包含的演员或者主要演员的数量小于第一数量阈值,可以抽取一个句子,如果目标场景包含的演员或者主要演员的数量大于或者等于第一数量阈值,可以抽取至少两个句子。
又例如,如果目标场景包含的句子的数量小于第二数量阈值,可以抽取一个句子,如果目标场景包含的句子的数量大于或者等于第二数量阈值,可以抽取至少两个句子。
抽取句子的方式可以有多种。例如,可以按照第三排序结果抽取位置靠前的一个或多个句子。又例如,可以按照第三排序结果依次选取句子进行分析,并抽取第三排序结果中位置靠前且包含预定词语的一个或多个句子。
对于抽取的句子,可以将抽取的句子直接作为目标场景的摘要,也可以按照摘要模板提取句子成分,按照提取的句子成分生成摘要。
作为一种可选的实施例,按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要包括:按照第三排序结果从多个句子中获取当前句子;在当前句子中包含场景关键词中的动词或者名词,且从当前句子识别出当前句子中包含的目标主语、目标谓语和目标宾语的情况下,根据目标主语、目标谓语和目标宾语,确定目标场景的摘要。
可以按照第三排序结果从多个句子中获取依次获取句子作为当前句子。根据当前句子的句子结构,如果当前句子中包含场景关键词中的动词或者名词,且从当前句子识别出当前句子中包含的主语、谓语和宾语(目标主语、目标谓语和目标宾语,宾语可以是非必须的)时,根据目标主语、目标谓语和目标宾语,确定目标场景的摘要。
例如,可以构建摘要语法有限状态机,摘要有限状态机包括摘要构建状态机SDFM-B(如图3所示)和摘要输出状态机SDFM-O(如图4所示)两个子模块。
构建状态机根据摘要模板,以关键词(场景关键词或者目标关键词)中的动词和名词为起始点,搜索文本(当前句子)中的符合摘要模板的句子成分,可以优先从动作描述中抽取句子成分生成摘要。
摘要输出状态机可以根据摘要模板和摘要构建状态机的搜索结果,以最长路径匹配的原则输出摘要结果。
如果找到的主谓宾(目标主语、目标谓语和目标宾语),为了生成场景摘要,可以将多主语和多宾语之间的定状补保留,进行连接。
为了保证摘要的可读性,可以对摘要进行如下处理:
(1)若该主谓宾结构从对话内容中识别出,则添加人物对话说明,例如“A说”。
(2)若对话内容中识别到的主语是“你”,则替换成前一句话的对话发出者名字。
例如,一个场景的摘要为:B(本场景中的一个人物)说你冤枉学生,根据场景正文:
A(本场景中的另一个人物)不抬头:人赃并获。
B:钓鱼执法!
A:签字,我都看见了……
摘要中的“你”指代的是“A”,因此,该场景的摘要为:B说A冤枉学生。
(3)摘要中的主语如果是“我”,则替换成“自己”。
例如,一个场景的摘要为:B说我是学生,将主语“我”替换成“自己”,则该场景的摘要为:B说自己是学生。
如果使用摘要有限状态机按照第三排序结果对各个句子进行分析之后无法得到摘要,则可以按照第三排序结果依次确定是否是主要演员所在的句子,并将确定的主要演员所在的一个或多个句子,直接输出为该场景的摘要(如图3和图4所示)。
通过本实施例,根据句子成分进行句子抽取,并按照摘要模板提取句子成分生成场景摘要,可以提高生成场景摘要的准确性,以及同一情节下多个场景的场景摘要的连贯性。
为了生成场景摘要,可以预先生成场景关键词中的动词名词列表(关键词列表)以及句子的句法分析结果。
作为一种可选的实施例,在根据目标主语、目标谓语和目标宾语,确定目标场景的摘要之前,可以获取关键词的关键词列表,其中,关键词包括场景关键词中的动词和场景关键词中的名词;对当前句子进行依存语法分析,得到当前句子的语法分析结果;在从当前句子中查找到关键词列表中包含的目标关键词的情况下,根据语法分析结果,识别当前句子中包含的目标主语、目标谓语和目标宾语。
对于目标场景的场景关键词列表(如,场景关键词列表KSQ),可以从场景关键词列表中根据词性得到的动词名词列表(action_object)。
例如,场景关键词列表可以仅包含动词和名词,关键词列表即为场景关键词列表,或者,关键词列表为两个,一个仅包含场景关键词列表中的动词,一个仅包含场景关键词列表中的名词。
又例如,场景关键词列表可以包含动词、名词以及其他词,关键词列表为场景关键词列表去除其他词之后得到的列表,或者,关键词列表为两个,一个仅包含场景关键词列表中的动词,一个仅包含场景关键词列表中的名词。
对于多个句子,可以预先获取各个句子的分析结果,并在摘要抽取时按照句子的排序结果直接使用各个句子的分析结果确定场景摘要,也可以在摘要抽取时按照句子的排序结果依次选取句子进行依存语法分析,得到选取句子(当前句子)的分析结果,并使用句子的分析结果确定场景摘要。句子的分析结果用于表示句子中包含的词与词之间的关系。句子的分析结果可以有多种形式,例如,具有关联关系的词关系对(或者,词标识对),以及,词关系对所具备的关系(或者,关系标识)。又例如,词关系矩阵,词关系矩阵的行列为句子中包含的词,词关系矩阵中的每个元素表示两个词之间的关系。
需要说明的是,同一句子中并不是任意两个词之间均具有依存关系,例如,词关系对的数量小于或者等于C2Num,其中,Num为句子中包含的词的个数,又例如,词关系矩阵中的元素可以为依存关系标识,依存关系标识可以表示两个词之间的依存关系,依存关系可以是:主谓关系,动宾关系,没有关系等。
对于当前句子,可以预先得到当前句子的句法分析结果,该句法分析结果可以表示为词关系矩阵的形式。
为了得到句子的分析结果,可以利用依存语法对目标场景(例如,场景S)中的每个句子(D,例如,当前句子)进行依存语法分析,得到每个句子的分析结果,其中,分析结果可以为词关系矩阵,每个句子的分析结果可以为句法依存关系矩阵(sentence_analyse)。
例如,一个句子包含5个词,对该句子进行依存语法分析,得到该句子的分析结果,即,5×5的词关系矩阵,矩阵中的每个元素表示两个词之间的关系,例如,主谓关系,动宾关系等。
可以对当前句子进行如下处理,得到目标主语、目标谓语(和目标宾语):查找关键词列表,如果查找到关键动词(场景关键词中的动词,目标谓语),从词关系矩阵中找其对应的主语列表actors(目标主语)和宾语列表objects(目标宾语);如果查找到关键名词(场景关键词中的名词),从词关系矩阵中找其对应的同级宾语列表objects(目标宾语)和谓语action(目标谓语),再根据action找对应的主语列表actors(目标主语)。
例如,若识别到两个人A和B(演员列表中的两个演员)在连续对话中谈论某一名词N(场景关键词中的名词),则确定A和B在谈论N,即,查找到关键名词。
通过本实施例,根据句子的依存语法分析结果对句子包含句子成分进行分析,可以提高句子分析的准确性,进而提高生成的场景摘要的可读性。
需要说明的是,对于剧本,为了便于管理人员了解剧本故事线,更倾向于生成主语为演员列表中的演员的摘要。因此,在按照第三排序结果对目标场景进行摘要抽取,如果按照摘要模板得到了一个模板匹配的结果(第一匹配结果),例如,“椅子碎了”,但该第一匹配结果的主语不是演员列表中的演员,可以将该匹配结果作为备选,按照第三排序结果继续进行匹配,如果能够找到另个模板匹配的结果(第二匹配结果),且该结果的主语为演员列表中的演员,则将该第二匹配结果作为该场景的模板,如果找不到其他模板匹配的结果则将该第一匹配结果作为该场景的模板。
下面结合可选示例对上述的摘要抽取方法进行说明。该摘要抽取方法可以应用于如图5所示的系统架构中。如图5所示,该系统架构可以包括:场景聚类模型(K-Means),关键词抽取模型(TextRank),上下文关键词及句子排序模型和基于语法的元素摘要构成有限状态机,其中,图5中的有限状态机待提取的元素可以是任务、动作、物品、地点、修饰词和时间中的一种或几种,也可以除了上述几种元素以外的其他元素。并且,对于不同的句子,由于其句子成分的不同,能够提取出的元素可以是图5所示的元素中的一部分。
本示例中的摘要抽取方法可以利用聚类找到一个情节相关的场次,并且根据情节来抽取每个场次的关键词,然后利用摘要业务模式,生成每一个场次的摘要。该方法是一种基于聚类和摘要模式识别对剧本场景进行自动摘要的方法,可以应用于剧本统筹和剧本评估,得到的上下文连续的场次的摘要具有一定的连贯性,符合剧本的情节主题,从而可以帮助剧本管理人员快速掌握剧本的故事线脉络。
如图6所示,本示例中的摘要抽取方法可以包括以下步骤:
步骤S602,场景预处理。
对于同一剧本的多个场景,可以分别对各个场景进行预处理。例如,对于各个场景按照完整句子进行分割,并对各个句子进行分词和词性标注处理。
分词和词性标注使用的词典可以包括:主要演员列表和角色演员列表,以提高分词和词性标注的准确性。
步骤S604,场景聚类。
利用TFIDF方法生成每个场景的特征,然后利用K-Means方法对场景进行聚类,每个场景类簇称为一个情节。
步骤S606,关键词抽取。
利用TextRank方法对每个情节整体内容以及情节中的每个场景的内容进行关键词抽取,得到的关键词按照权重由高到低排序。对于每个情节,可以得到多个情节关键词及其排序结果,对于每个场景,可以得到多个场景关键词及其排序结果。
步骤S608,上下文关键词及句子排序。
可以根据情节中的上下文关系对每个场景的关键词进行排序,并根据关键词排序结果对每个场景中的句子进行排序。
假设某一个情节Q的整体关键词排序为KQ,其中某一个场景S的关键词排序为KS,对于KS中的两个关键词x和y,以下几个条件满足任何一个,则将KS中x的顺序调到y之前:
(1)x在KQ中,y不在KQ中;
(2)x和y都不在KQ中,但是在KS中x排在y之前;
(3)x和y都在KQ中,但是在KQ中x排在y之前。
经过上述排序,得到了每个场景中的关键词上下文排序KSQ。
根据KSQ中的关键词,选取一定阈值范围内(前5个)的关键词,统计场景S中每个句子包含关键词的个数,根据句子包含一定阈值范围内的关键词个数对句子进行降序排序,将所有的动作描述句子顺序调到有对白的句子之前,得到句子排序结果DS。
步骤S610,使用摘要有限状态机生成摘要。
在进行摘要生成时,可以利用预设定好的摘要语法有限状态机,从句子排序由高到底,生成摘要。
可以构建摘要语法有限状态机,摘要有限状态机包括摘要构建状态机SDFM-B和摘要输出状态机SDFM-O两个子模块(如图3和图4所示)。
构建状态机根据摘要模板,以关键词中的动词和名词为起始点,搜索文本中的符合摘要模板的句子成分,优先从动作描述中抽取句子成分生成摘要。
摘要输出状态机根据摘要模板和摘要构建状态机的搜索结果,以最长路径匹配的原则输出摘要结果。
为了生成摘要,可以从场景关键词列表KSQ中根据词性得到的动词名词列表action_object,并利用依存语法对场景S中的每个句子D进行依存语法分析,得到每个句子的分析结果sentence_analyse,其中,sentence_analyse为词关系矩阵(句法依存关系矩阵)。
按照句子排序结果依次选取句子(当前句子)进行处理,处理过程可以为:
步骤1,查找动词名词列表。
如图3所示,若找到关键动词,则从当前句子的sentence_analyse中找其对应的主语列表actors(第一主语和其他主语)和宾语列表objects。同时,还可以保留主语之间的连接词(例如,A和B)。
如图3所示,若找到关键名词,例如,若识别到两个人A和B(可以均为演员列表中的演员)在连续对话中谈论某一名词N,则生成A和B在谈论N(关键名词),可以从当前句子的sentence_analyse中找其对应的同级宾语列表objects(该关键名词可以作为宾语)和谓语action,再根据action找对应的主语列表actors。
其中,对于找到的主谓宾,多主语和多宾语之间的定状补保留。
步骤2,将找到的主谓宾进行连接。
可以将找到的主谓宾(以及,定状补等句子成分)输入到如图4所示的摘要输出状态机,生成该场景的摘要。
若该主谓宾结构从对话内容中识别出,则添加人物对话说明。若对话内容中识别到的主语是“你”,则替换成前一句话的对话发出者名字。若主语是“我”则替换成“自己”。可以使用演员列表辅助进行指代词替换。
一个场景摘要的输出结果可以是一个,也就是,若找到模板匹配的结果,将该结果进行输出,并忽略之后的句子。
如果从动词名词出发找不到模板匹配的结果,则可以利用标点符号分割的句子进行筛选,优先进行动作描述筛选,筛选优先级从高到低为:包含关键词排序最高的人物、包含主要人物、包含角色演员、第一句。通过本示例,对上下文相关的场景进行关键词抽取,使得处在同一故事情节的场景摘要有一定的连贯性,更容易帮助剧本管理人员了解剧本故事线,可以应用在剧本等原创作品中;采用基于模板匹配的摘要有限状态机,可以高效率的提取场景的摘要,保证逻辑准确和摘要的简洁。
需要说明的是,不是所有的句子成分都是完整的,例如,有些句子仅包含主语(一个或多个)和谓语,或者,包含主语(一个或多个)、谓语和宾语(一个或多个)。此外,还可以包含、定语、状语、补语中的至少一个。对于不同的句子,状态机跳转到结束的位置不同(例如,由3跳转到6,4跳转到6等),同时,根据生成的摘要需求,生成摘要状态机可以是与图3和图4不同的形式,本实施例中对此不作具体限定。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,提供了一种用于实施上述实施例中的摘要抽取方法的摘要抽取装置。可选地,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本申请实施例的一种可选的摘要抽取装置的结构框图,如图7所示,该装置包括:
(1)聚类单元72,用于对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;
(2)确定单元74,与聚类单元72相连,用于根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;
(3)排序单元76,与确定单元74相连,用于根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;
(4)抽取单元78,与排序单元76相连,用于按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
可选地,聚类单元72可以用于上述实施例中的步骤S202,确定单元74可以用于上述实施例中的步骤S204,排序单元76可以用于执行上述实施例中的步骤S206,抽取单元78可以用于执行上述实施例中的步骤S208。
通过本实施例,采用对场景进行聚类,并根据聚类得到的情节抽取每个场景的关键词的方式,由于根据情节关键词的顺序抽取每个场景的关键词并确定其顺序,能够保证上下文连续的场景(同一情节中的场景)的摘要有一定的连贯性,符合剧本的情节主题,解决了相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题,提高了摘要抽取的准确率。
作为一种可选的实施例,聚类单元72包括:
(1)生成模块,用于按照词频-逆文档频率,生成与多个场景中的每个场景对应的特征向量;
(2)聚类模块,用于使用与每个场景对应的特征向量对多个场景进行聚类,得到多个场景类簇,其中,多个场景类簇与多个情节一一对应。
作为一种可选的实施例,确定单元74包括:
(1)第一提取模块,用于提取每个情节的情节关键词,并对情节关键词进行排序,得到第一排序结果;
(2)第二提取模块,用于提取目标场景的场景关键词,并对场景关键词进行排序,得到初始排序结果;
(3)调整模块,用于根据第一排序结果调整初始排序结果,得到第二排序结果,以使场景关键词中,属于情节关键词的关键词的顺序与第一排序结果一致、且位于不属于情节关键词的关键词之前。
作为一种可选的实施例,调整模块包括:
(1)获取子模块,用于获取场景关键词的第一关键词和第二关键词;
(2)第一调整子模块,用于在第一关键词属于情节关键词,第二关键词不属于情节关键词,且初始排序结果中第一关键词的位置在第二关键词的位置之后的情况下,将初始排序结果中第一关键词的位置调整到第二关键词的位置之前;
(3)第二调整子模块,用于在第一关键词和第二关键词均属于情节关键词,且第一关键词和第二关键词在情节关键词的第一排序结果中的第一位置关系与第一关键词和第二关键词在初始排序结果中的第二位置关系不同的情况下,将第二位置关系调整为第一位置关系。
作为一种可选的实施例,排序单元76包括:
(1)选取模块,用于根据第二排序结果中场景关键词的顺序,从场景关键词选取出目标数量的目标关键词;
(2)第一获取模块,用于按照第二排序结果从目标关键词中获取当前关键词;
(3)第一确定模块,用于从待排序句子中确定包含当前关键词的一个或多个目标句子,其中,待排序句子为多个句子中未排序的句子;
(4)第二确定模块,用于根据一个或多个目标句子包含的目标关键词,确定一个或多个目标句子的子排序结果,其中,第三排序结果包括子排序结果。
作为一种可选的实施例,抽取单元78包括:
(1)第二获取模块,用于按照第三排序结果从多个句子中获取当前句子;
(2)第三确定模块,用于在当前句子中包含场景关键词中的动词或者名词,且从当前句子识别出当前句子中包含的目标主语、目标谓语和目标宾语的情况下,根据目标主语、目标谓语和目标宾语,确定目标场景的摘要。
作为一种可选的实施例,上述装置还包括:
(1)获取单元,用于在根据目标主语、目标谓语和目标宾语,确定目标场景的摘要之前,获取关键词的关键词列表,其中,关键词包括场景关键词中的动词和场景关键词中的名词;
(2)分析单元,用于对当前句子进行依存语法分析,得到当前句子的语法分析结果,其中,语法分析结果为词关系矩阵;
(3)识别单元,用于在从当前句子中查找到关键词列表中包含的目标关键词的情况下,根据语法分析结果,识别当前句子中包含的目标主语、目标谓语和目标宾语。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本申请实施例的又一个方面,提供了一种计算机可读的存储介质。可选地,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行本申请实施例中所提供的上述任一项方法中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;
S2,根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;
S3,根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;
S4,按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
根据本申请实施例的又一个方面,提供了一种电子装置,包括:处理器(该存储器可以是图1中的处理器102)和存储器(该存储器可以是图1中的存储器104),该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行本申请实施例中所提供的上述任一项方法中的步骤。
可选地,上述电子装置还可以包括传输设备(该传输设备可以是图1中的传输设备106)以及输入输出设备(该输入输出设备可以是图1中的输入输出设备108),其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;
S2,根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;
S3,根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;
S4,按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。
可选地,本实施例中的可选示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种摘要抽取方法,其特征在于,包括:
对同一剧本的多个场景进行聚类,得到多个情节,其中,所述多个情节中的每个情节包括所述多个场景中的一个或多个场景;
根据对所述每个情节中包含的情节关键词进行排序得到的第一排序结果,确定所述每个情节中的目标场景的场景关键词和对所述场景关键词进行排序得到的第二排序结果;
根据所述第二排序结果对所述目标场景中包含的多个句子进行排序,得到所述多个句子的第三排序结果,其中,所述多个句子中的每个句子至少包含一个所述场景关键词;
按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要。
2.根据权利要求1所述的方法,其特征在于,对所述同一剧本的所述多个场景进行聚类,得到所述多个情节包括:
按照词频-逆文档频率,生成与所述多个场景中的每个场景对应的特征向量;
使用与所述每个场景对应的特征向量对所述多个场景进行聚类,得到多个场景类簇,其中,所述多个场景类簇与所述多个情节一一对应。
3.根据权利要求1所述的方法,其特征在于,根据对所述每个情节中包含的所述情节关键词进行排序得到的所述第一排序结果,确定所述每个情节中的所述目标场景的所述场景关键词和对所述场景关键词进行排序得到的所述第二排序结果包括:
提取所述每个情节的所述情节关键词,并对所述情节关键词进行排序,得到所述第一排序结果;
提取所述目标场景的所述场景关键词,并对所述场景关键词进行排序,得到初始排序结果;
根据所述第一排序结果调整所述初始排序结果,得到所述第二排序结果,以使所述场景关键词中,属于所述情节关键词的关键词的顺序与所述第一排序结果一致、且位于不属于所述情节关键词的关键词之前。
4.根据权利要求3所述的方法,其特征在于,根据所述第一排序结果调整所述初始排序结果,得到所述第二排序结果包括:
获取所述场景关键词的第一关键词和第二关键词;
在所述第一关键词属于所述情节关键词,所述第二关键词不属于所述情节关键词,且所述初始排序结果中所述第一关键词的位置在所述第二关键词的位置之后的情况下,将所述初始排序结果中所述第一关键词的位置调整到所述第二关键词的位置之前;
在所述第一关键词和所述第二关键词均属于所述情节关键词,且所述第一关键词和所述第二关键词在所述第一排序结果中的第一位置关系与所述第一关键词和所述第二关键词在所述初始排序结果中的第二位置关系不同的情况下,将所述第二位置关系调整为所述第一位置关系。
5.根据权利要求1所述的方法,其特征在于,根据所述第二排序结果对所述目标场景中包含的所述多个句子进行排序,得到所述多个句子的所述第三排序结果包括:
根据所述第二排序结果中所述场景关键词的顺序,从所述场景关键词选取出目标数量的目标关键词;
按照所述第二排序结果从所述目标关键词中获取当前关键词;
从待排序句子中确定包含所述当前关键词的一个或多个目标句子,其中,所述待排序句子为所述多个句子中未排序的句子;
根据所述一个或多个目标句子包含的所述目标关键词,确定所述一个或多个目标句子的子排序结果,其中,所述第三排序结果包括所述子排序结果。
6.根据权利要求1至5中任一项所述的方法,其特征在于,按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要包括:
按照所述第三排序结果从所述多个句子中获取当前句子;
在所述当前句子中包含所述场景关键词中的动词或者名词,且从当前句子识别出所述当前句子中包含的目标主语、目标谓语和目标宾语的情况下,根据所述目标主语、所述目标谓语和所述目标宾语,确定所述目标场景的摘要。
7.根据权利要求6所述的方法,其特征在于,在根据所述目标主语、所述目标谓语和所述目标宾语,确定所述目标场景的摘要之前,所述方法还包括:
获取关键词的关键词列表,其中,所述关键词包括所述场景关键词中的动词和所述场景关键词中的名词;
对所述当前句子进行依存语法分析,得到所述当前句子的语法分析结果,其中,所述语法分析结果为词关系矩阵;
在从所述当前句子中查找到所述关键词列表中包含的目标关键词的情况下,根据所述语法分析结果,识别所述当前句子中包含的所述目标主语、所述目标谓语和所述目标宾语。
8.一种摘要抽取装置,其特征在于,包括:
聚类单元,用于对同一剧本的多个场景进行聚类,得到多个情节,其中,所述多个情节中的每个情节包括所述多个场景中的一个或多个场景;
确定单元,用于根据所述每个情节中包含的情节关键词的第一排序结果,确定所述每个情节中的目标场景的场景关键词和所述场景关键词的第二排序结果;
排序单元,用于根据所述第二排序结果对所述目标场景中包含的多个句子进行排序,得到所述多个句子的第三排序结果;
抽取单元,用于按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010149255.XA CN111309916B (zh) | 2020-03-05 | 2020-03-05 | 摘要抽取方法和装置、存储介质和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010149255.XA CN111309916B (zh) | 2020-03-05 | 2020-03-05 | 摘要抽取方法和装置、存储介质和电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309916A true CN111309916A (zh) | 2020-06-19 |
CN111309916B CN111309916B (zh) | 2023-06-30 |
Family
ID=71160448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010149255.XA Active CN111309916B (zh) | 2020-03-05 | 2020-03-05 | 摘要抽取方法和装置、存储介质和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309916B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632973A (zh) * | 2020-12-31 | 2021-04-09 | 中国农业银行股份有限公司 | 一种文本处理的方法、装置、设备及存储介质 |
CN113407739A (zh) * | 2021-07-14 | 2021-09-17 | 海信视像科技股份有限公司 | 信息标题中概念的确定方法、装置和存储介质 |
CN113590810A (zh) * | 2021-08-03 | 2021-11-02 | 北京奇艺世纪科技有限公司 | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 |
CN114996441A (zh) * | 2022-04-27 | 2022-09-02 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272517A (ja) * | 2006-03-31 | 2007-10-18 | National Institute Of Multimedia Education | マイクロシナリオデータ分析システムおよびマイクロシナリオデータ分析プログラム |
CN102902756A (zh) * | 2012-09-24 | 2013-01-30 | 南京邮电大学 | 一种基于故事情节的视频摘要提取方法 |
US20180336417A1 (en) * | 2017-05-18 | 2018-11-22 | Wipro Limited | Method and a system for generating a contextual summary of multimedia content |
-
2020
- 2020-03-05 CN CN202010149255.XA patent/CN111309916B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272517A (ja) * | 2006-03-31 | 2007-10-18 | National Institute Of Multimedia Education | マイクロシナリオデータ分析システムおよびマイクロシナリオデータ分析プログラム |
CN102902756A (zh) * | 2012-09-24 | 2013-01-30 | 南京邮电大学 | 一种基于故事情节的视频摘要提取方法 |
US20180336417A1 (en) * | 2017-05-18 | 2018-11-22 | Wipro Limited | Method and a system for generating a contextual summary of multimedia content |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632973A (zh) * | 2020-12-31 | 2021-04-09 | 中国农业银行股份有限公司 | 一种文本处理的方法、装置、设备及存储介质 |
CN113407739A (zh) * | 2021-07-14 | 2021-09-17 | 海信视像科技股份有限公司 | 信息标题中概念的确定方法、装置和存储介质 |
CN113590810A (zh) * | 2021-08-03 | 2021-11-02 | 北京奇艺世纪科技有限公司 | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 |
CN114996441A (zh) * | 2022-04-27 | 2022-09-02 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN114996441B (zh) * | 2022-04-27 | 2024-01-12 | 京东科技信息技术有限公司 | 文档处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111309916B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102455616B1 (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
KR101737887B1 (ko) | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN112131863B (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN112052356B (zh) | 多媒体分类方法、装置和计算机可读存储介质 | |
CN108538286A (zh) | 一种语音识别的方法以及计算机 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
WO2018227930A1 (zh) | 智能提示答案的方法及装置 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN112633011B (zh) | 融合词语义与词共现信息的研究前沿识别方法及设备 | |
CN115795061B (zh) | 一种基于词向量和依存句法的知识图谱构建方法及系统 | |
CN109325122A (zh) | 词表生成方法、文本分类方法、装置、设备及存储介质 | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN110427626B (zh) | 关键词的提取方法及装置 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN109992651A (zh) | 一种问题目标特征自动识别和抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |