CN110110332B - 文本摘要生成方法及设备 - Google Patents
文本摘要生成方法及设备 Download PDFInfo
- Publication number
- CN110110332B CN110110332B CN201910370948.9A CN201910370948A CN110110332B CN 110110332 B CN110110332 B CN 110110332B CN 201910370948 A CN201910370948 A CN 201910370948A CN 110110332 B CN110110332 B CN 110110332B
- Authority
- CN
- China
- Prior art keywords
- text
- core
- word
- words
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本摘要生成方法及设备,该方法包括:获取待处理的文本,对文本进行分词处理,得到包含多个词语的词语集合,并对词语集合进行共指消解,得到文本包含的各实体对应的共指链,根据各实体对应的共指链确定文本的核心句子,根据核心句子生成对应的图模型,其中核心句子为图模型中的节点,获取图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成文本的摘要。本发明的方法通过确定文本包含的各实体对应的共指链筛选出文本的核心句子,并确定核心句子对应的图模型,对图模型中的中心节点所对应的核心句子进行排列,得到可以反映文本关键信息的摘要,提高生成的摘要的准确度。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本摘要生成方法及设备。
背景技术
摘要是能够反映文章中心内容的一段文本,能够帮助人们在阅读长篇的文章时缩短阅读时间。文章摘要生成技术是知识管理系统核心功能之一,近年来得到了迅速的发展。
目前,现有技术在生成文章摘要时,一般是根据句子在文章中所处的位置来确定文章的摘要,即先设定出重要句子会放置的位置,然后从待处理的文章中提取该位置上的句子,将提取到的句子作为该文章的重要句子,对重要句子进行组合得到该文章的摘要。
然而,发明人发现现有技术中至少存在如下问题:由于作者的写作方式是不一样的,对于重要句子放置的位置也是不一样的,因此,在设定的位置上放置的句子并不一定是文章的重要句子,从而使基于该位置上的句子生成的摘要并不能够准确地反映文章的中心内容,导致生成的文章摘要准确度较低。
发明内容
本发明实施例提供一种文本摘要生成方法及设备,以解决现有技术中生成的文章摘要准确度较低的问题。
第一方面,本发明实施例提供一种文本摘要生成方法,包括:
获取待处理的文本;
对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;
根据所述各实体对应的共指链确定所述文本的核心句子;
根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;
获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要。
在一种可能的设计中,在所述对所述词语集合进行共指消解之前,还包括:
对所述词语集合包含的词语进行术语整合。
在一种可能的设计中,所述对所述词语集合包含的词语进行术语整合,包括:
分别统计所述词语集合包含的各个词语在所述文本中出现的次数;
根据各个词语在所述文本中出现的次数,从所述词语集合中选取高频词语;
计算高频词语之间的词语相关度;
若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系;
对存在连接关系的高频词语进行连接,得到词汇网络图;
分别统计所述词汇网络图中的每相邻两个高频词语在所述文本中共同出现的次数;
若相邻两个高频词语在所述文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。
在一种可能的设计中,所述对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链,包括:
对所述词语集合进行共指消解,确定所述词语集合中的实体,其中所述实体包含所述词语集合中指代同一对象的多个词语;
分别根据各实体包含的词语以及各实体包含的词语在所述文本中出现的顺序,得到各实体对应的共指链。
在一种可能的设计中,所述根据所述各实体对应的共指链确定所述文本的核心句子,包括:
分别获取各实体对应的共指链所包含的词语的数目;
根据所述各实体对应的共指链所包含的词语的数目,选取目标实体;
从所述文本中选取包含所述目标实体的句子,得到多个所述核心句子。
在一种可能的设计中,所述根据所述核心句子生成对应的图模型,包括:
计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度;
若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系;
对存在连接关系的核心句子进行连接,得到所述图模型。
在一种可能的设计中,所述计算各核心句子的句子向量,包括:
获取核心句子包含的多个词语,并根据预设词袋算法计算所述核心句子包含的各词语对应的词向量;
根据无监督算法确定各词向量的权重值;
根据所述各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。
在一种可能的设计中,所述获取所述图模型中的所有中心节点,包括:
根据随机游走算法,查找所述图模型中的中心节点。
第二方面,本发明实施例提供一种文本摘要生成设备,包括:
文本获取模块,用于获取待处理的文本;
共指链生成模块,用于对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;
核心句子确定模块,用于根据所述各实体对应的共指链确定所述文本的核心句子;
图模型生成模块,用于根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;
摘要生成模块,用于获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要。
在一种可能的设计中,所述文本摘要生成设备还包括术语整合模块;
所述术语整合模块,用于在所述对所述词语集合进行共指消解之前,对所述词语集合包含的词语进行术语整合。
在一种可能的设计中,所述术语整合模块具体用于:
分别统计所述词语集合包含的各个词语在所述文本中出现的次数;
根据各个词语在所述文本中出现的次数,从所述词语集合中选取高频词语;
计算高频词语之间的词语相关度;若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系;
对存在连接关系的高频词语进行连接,得到词汇网络图;
分别统计所述词汇网络图中的每相邻两个高频词语在所述文本中共同出现的次数;
若相邻两个高频词语在所述文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。
在一种可能的设计中,所述共指链生成模块具体用于:
对所述词语集合进行共指消解,确定所述词语集合中的实体,其中所述实体包含所述词语集合中指代同一对象的多个词语;
分别根据各实体包含的词语以及各实体包含的词语在所述文本中出现的顺序,得到各实体对应的共指链。
在一种可能的设计中,所述核心句子确定模块具体用于:
分别获取各实体对应的共指链所包含的词语的数目;
根据所述各实体对应的共指链所包含的词语的数目,选取目标实体;
从所述文本中选取包含所述目标实体的句子,得到多个所述核心句子。
在一种可能的设计中,所述图模型生成模块具体用于:
计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度;
若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系;
对存在连接关系的核心句子进行连接,得到所述图模型。
在一种可能的设计中,所述图模型生成模块还用于:
获取核心句子包含的多个词语,并根据预设词袋算法计算所述核心句子包含的各词语对应的词向量;
根据无监督算法确定各词向量的权重值;
根据所述各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。
在一种可能的设计中,所述摘要生成模块具体用于:
根据随机游走算法,查找所述图模型中的中心节点。
第三方面,本发明实施例提供一种文本摘要生成设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的文本摘要生成方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本摘要生成方法。
本实施例提供的文本摘要生成方法及设备,该方法通过对待处理的文本对应的词语集合进行共指消解,得到该文本包含的各实体对应的共指链,该共指链有助于提取文本的关键信息,即有助于获取文本的摘要信息,当得到各实体对应的共指链后,根据各实体对应的共指链确定该文本的核心句子,得到的核心句子包含文本关键信息的可能性较大,建立核心句子对应的图模型,对图模型的中心节点对应的核心句子进行排列,得到文本的摘要,在生成文本摘要时,不是将设定位置上的句子作为文本摘要,而是利用有助于提取文本关键信息的共指链确定文本核心句子,从所有核心句子中筛选出反映文本关键信息的核心句子,并对其进行组合,生成文本摘要,从而生成的文本摘要可以反映文本关键信息,提高文本摘要的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本摘要生成方法的流程示意图一;
图2为本发明实施例提供的文本摘要生成方法的流程示意图二;
图3为本发明实施例提供的词汇网络图的示意图;
图4为本发明实施例提供的文本摘要生成设备的结构示意图一;
图5为本发明实施例提供的文本摘要生成设备的结构示意图二;
图6为本发明实施例提供的文本摘要生成设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的文本摘要生成方法的流程示意图一,本实施例的执行主体可以为终端设备。如图1所示,该方法包括:
S101、获取待处理的文本。
在本实施例中,待处理的文本为需要提取摘要信息的文本。
S102、对文本进行分词处理,得到包含多个词语的词语集合,并对词语集合进行共指消解,得到文本包含的各实体对应的共指链。
在本实施例中,可以利用预设分词算法,对文本进行分词处理,即对文本进行切分,得到多个包含该多个词语的词语集合。
其中,预设分词算法可以为基于字典的分词算法、基于统计的分词算法或基于轨迹的分词算法,本实施例此处不对文本进行分词所使用的分词算法进行特别限制。
在得到词语集合后,对词语集合进行共指消解,得到文本中的各实体对应的共指链,该共指链有助于提取文本的关键信息,因为一般共指链的长度越长,表示作者对对应的实体描述的内容越多,该实体越有可能是文本的描述核心目标。
在本实施例中,可以通过多种方式来得到文本中包含的各实体对应的共指链,本实施例此处以一个具体的实施例为例进行详细说明,对于其它的实现方式本实施例此处不做特别限制。
在具体实现过程中:对词语集合进行共指消解,确定词语集合中的实体,其中实体包含词语集合中指代同一对象的多个词语。分别根据各实体包含的词语以及各实体包含的词语在文本中出现的顺序,得到各实体对应的共指链。
实体是由文本中指代同一对象的词语组成的集合,人们在写文章时,为了避免重复,习惯用代词、称谓和缩略语来指代前面提到的对象的全称,例如,文本内容为张小明和张小小一起去动物园看动物,小明去售票处买票,然后他和小小拿着票一起进入动物园,张小明、小明和他指代同一对象,即都是指张小明,则该对象对应的实体包含的词语为张小明、小明和他。
在本实施例中,对文本对应的词语集合进行共指消解,确定词语集合中指代同一对象的多个词语,并将指代同一对象的多个词语组成的集合作为该对象对应的实体,根据各实体包含的词语在文本中出现的先后顺序,得到各实体对应的共指链,例如,张小明这个对象对应的实体所对应的共指链为张小明—小明—他。
S103、根据各实体对应的共指链确定文本的核心句子。
在得到各实体对应的共指链后,可以通过共指链的长度确定出目标实体,共指链的长度越长,表示其越有可能是文本的描述核心目标,共指链的长度可以通过共指链包含的词语的数目进行体现。当确定出目标实体后,根据目标实体确定出文本的核心句子。
其中,通过共指链包含的词语的数目确定目标实体,并根据目标实体确定出文本的核心句子的具体过程可以为:分别获取各实体对应的共指链所包含的词语的数目。根据各实体对应的共指链所包含的词语的数目,选取目标实体。从文本中选取包含目标实体的句子,得到多个核心句子。
获取各实体对应的共指链包含的词语的数目后,按照预设方式选取包含词语较多的共指链,并将选取的共指链对应的实体作为目标实体,从文本中选取包含目标实体的句子,得到所需的核心句子,核心句子包含文本关键信息的可能性较大,后续在提取文本的摘要信息时,仅需从得到的核心句子中进行提取即可,无需在整个文本中进行提取,大大降低文本摘要信息提取的计算复杂度,并提高文本摘要提取的精度。
其中,按照预设方式选取包含词语较多的共指链的具体过程可以为将包含词语的数目大于预设词语数目的共指链作为包含词语较多的共指链,也可以为按照词语数目由大到小的顺序,对对应的共指链进行排序,选取排名大于预设共指链排名的共指链作为包含词语较多的共指链。
S104、根据核心句子生成对应的图模型,其中核心句子为图模型中的节点。
在本实施例中,可以通过多种方式来根据核心句子生成图模型,本实施例此处以一个具体的实施例为例进行详细说明,对于其它的实现方式本实施例此处不做特别限制。
在具体实现过程中:计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度。若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系。对存在连接关系的核心句子进行连接,得到图模型。
在本实施例中,计算各核心句子的句子向量,并通过核心句子对应的句子向量之间的相似度,确定出对应的核心句子之间的相似度,若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系,例如,核心句子A对应的句子向量a与核心句子B对应的句子向量b之间的相似度大于预设句子相似度,则确定核心句子A和核心句子B之间存在连接关系,对存在连接关系的核心句子进行连接,得到图模型,该核心句子为图模型中的节点。
在确定核心句子之间的相似度时,需要利用到核心句子的句子向量,计算核心句子的句子向量的具体过程可以为:获取核心句子包含的多个词语,并根据预设词袋算法计算核心句子包含的各词语对应的词向量。根据无监督算法确定各词向量的权重值。根据各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。
在本实施例中,在确定句子向量时,需要考虑到语义相似度(表示两个句子用了不同但语义相近的词语表达),语篇关系(研究句子之间的语句衔接和语义上的连贯等内容,强调文本的一致性和连贯性)以及共指消除(上述生成的共指链),在使用基于这三者构建的句子向量计算核心句子之间的相似度时,可以更加准确地计算出句子表达的语义是否相似。
句子向量是基于词向量生成的,词向量,就是词语的向量表示,即一个词语可以对应到一个向量。在考虑到语义相似度的基础上,使用预设词袋算法(Continuous Bag-Of-Words Model,CBOW)计算核心句子中的各词语对应的词向量,也可以通过其它算法计算核心句子包含的词语的词向量,在此,不对词向量的计算方法有所限制。
词袋算法是使用上下文中的单词来预测目标单词,其可以确定单词之间的语义是否相似。
在根据核心句子对应的词向量构建对应的句子向量时,可以给核心句子对应各词向量赋予不同的权重,以使句子向量之间的区分度更大,更能准确地判断出句子向量之间的相似度。
可以采用数据驱动的方式学习各词向量的权重值,即对核心句子包含的各个词语的词向量的权重值进行初始化,初始化后的各个词向量的权重值均为预设值(例如,预设值为1),通过无监督算法调整各个词向量的权重值,该无监督算法的原理是相邻的句子或者共指句子更加相似,然后通过最小化代价函数max(uz-uv,0)来优化各个词向量调整后的权重值,得到各个词向量的权重值,其中u是某个句子的向量,v是与该句子相邻或者共指的句子向量,z是与该句子不相邻或者不共指的句子向量。
其中,共指句子是指多个核心句子各自包含的多个词语中存在属于同一条共指链的词语,例如,核心句子A包含的词语对应的共指链有共指链a,核心句子B包含的词语对应的共指链也有共指链a,则核心句子A和核心句子B为共指句子。
计算上述上述两个核心句子对应的句子向量的相似度。其中,计算相似度的方式有多种,此处以余弦相似度为例进行说明。
S105、获取图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成文本的摘要。
在本实施例中,获取图模型中的中心节点的方式可以为:根据随机游走算法,查找图模型中的中心节点。
基于随机游走算法,可以查找出图模型中的中心节点为相关度较高的节点,并将查找到的节点作为图模型中的中心节点。
在本实施例中,可以通过多种方式对各中心节点对应的核心句子进行排列,本实施例此处以一个具体的实施例为例进行详细说明,对于其它的实现方式本实施例中不做特征限制。
本实施例提供的语音交互方法,通过判断当前接收到的第一询问语句是否为预设时间段内接收到的首个询问语句;若否,则获取第二询问语句,该第二询问语句为接收第一询问语句之前接收到的最后一个询问语句;根据第一询问语句的第一句子向量和第二询问语句的第二句子向量,得到第三句子向量,本实施例通过结合上一个询问语句来获取句子向量,充分考虑了用户的对话场景,使得问答结果能够考虑上下文信息,在兜底语料库中获取与第三句子向量相似度满足预设条件的第四句子向量对应的第一问答结果,并返回第一问答结果,通过句子向量的相似度来获取匹配的问答结果,计算过程简单,能够快速精准的获取问答结果。
从上述描述可知,通过对待处理的文本对应的词语集合进行共指消解,得到该文本包含的各实体对应的共指链,该共指链有助于提取文本的关键信息,即有助于获取文本的摘要信息,当得到各实体对应的共指链后,根据各实体对应的共指链确定该文本的核心句子,得到的核心句子包含文本关键信息的可能性较大,建立核心句子对应的图模型,对图模型的中心节点对应的核心句子进行排列,得到文本的摘要,在生成文本摘要时,不是将设定位置上的句子作为文本摘要,而是利用有助于提取文本关键信息的共指链确定文本核心句子,从所有核心句子中筛选出反映文本关键信息的核心句子,并对其进行组合,生成文本摘要,从而生成的文本摘要可以反映文本关键信息,提高文本摘要的准确度。
图2为本发明实施例提供的文本摘要生成的流程示意图二,本实施例在图1实施例的基础上,对本实施例的具体实现过程进行了详细说明。如图2所示,该方法包括:
S201、获取待处理的文本。
S202、对文本进行分词处理,得到包含多个词语的词语集合。
在本实施例中,上述S201与图1实施例中的S201类似,S202与图1实施例中的S102的内容类似,这里不在赘述。
S203、对词语集合包含的词语进行术语整合。
在本实施例中,在对文本进行分词处理后,有可能会将文本中的术语进行切分,例如,将“大数据”、“云计算”等未包含在预设分词所用字典中的术语分割,因此,在对文本进行分词处理后,需要对词语集合包含的词语进行术语整合。
在本实施例中,可以通过多种方式来对词语集合包含的词语进行术语整合,本实施例此处以一个具体的实施例为例进行详细说明,对于其它的实现方式本实施例此处不做特别限制。
在具体实现过程中,分别统计词语集合包含的各个词语在文本中出现的次数。根据各个词语在文本中出现的次数,从词语集合中选取高频词语。计算高频词语之间的词语相关度。若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系。对存在连接关系的高频词语进行连接,得到词汇网络图。分别统计词汇网络图中的每相邻两个高频词语在文本中共同出现的次数。若相邻两个高频词语在文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。
在本实施例中,基于词频算法,分别统计词语集合包含的各个词语在文本中出现的次数,基于各个词语在文本中出现的次数,从包含该各个词语的词语集合中选取高频词语。计算选取的高频词语之间的词语相关度,若词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系,对存在连接关系的高频词语进行连接,得到词汇网络图(例如,如图3所示的词汇网络图),词汇网络图中存在连接关系的高频词语可能为对术语进行切割后得到的两个词语,因此,需要进一步验证词汇网络图中的相邻两个高频词语是否可以形成术语,即验证存在连接关系的高频词语是否可以形成术语。
其中,高频词语是在文本中出现次数较多的词语,从词语集合中选取高频词语的方式可以为选取在文本中出现的次数大于预设次数的词语,并将其作为高频词语,也可以按照次数由多到少的顺序,对词语进行排序,选取排名大于预设排名的词语作为高频词语,也可以为其它方式从词语集合中选取高频词语。
其中,若高频词语之间的相关度大于一定数值,表示该两个高频词语可能可以形成一个术语,计算高频词语之间的相关度可以通过互信息、左熵和/或右熵等统计量进行计算。
具体地,在验证词汇网络图中的每相邻两个高频词语是否可以形成术语时,可以通过每相邻两个高频词语在文本共同出现的次数进行验证,若相邻两个高频词语在文本中共同出现的次数大于预设整合次数,则表示该相邻两个词语可以形成术语,则按照该相邻两个高频词语在文本中出现的先后顺序,将该相邻两个高频词语整合为术语。
在获取每相邻两个高频词语在文本共同出现的次数时,需要遍历整个文本,为了减少遍历文本所需的时间,可以设定固定窗口,只遍历该固定窗口内的文本,统计相邻两个高频词语在固定窗口内的文本共同出现的次数。其中,相邻两个高频词语在文本共同出现标识相邻两个高频词语整体在文本中出现的次数,例如,相邻两个高频词语为A和B,统计AB整体在文本中出现的次数。
在对词汇网络图中的相邻两个高频词语进行术语整合后,还可以对得到的术语进行进一步整合,例如,在对“神经网络模型”进行切分后,可能将其切分为“神经”、“网络”和“模型”三个词语,该三个词语均为相邻的高频词语,在对相邻两个高频词语进行术语整合后,得到的术语为“神经网络”和“网络模型”,不是文本所述的“神经网络模型”,此时,可以按照术语之间在文本中共同出现的次数确定是否需要对术语进行进一步整合,以得到更加精准的术语。
在本实施例中,为了提高术语整合的精度,使整合后的术语与文本中的术语更加相符,可以设置进行术语整合的次数,例如,进行术语进行整合的次数为2,则对词汇网络图中的词语进行第一次术语整合,得到第一次整合后的术语,然后再进行术语整合,得到第二次整合后的术语。
其中,在对词汇网络图中的词语进行第一次术语整合,得到第一整合后的术语后,若还需要进行术语整合,则查找存在首尾重叠的术语,将存在首尾重叠的术语进行组合,(例如,神经网络与网络模型是存在首尾重叠的术语),然后统计组合后的术语在整个文本或设定窗口内的文本出现的次数,并根据出现的次数确定是否需要对术语进行整合。
在本实施例中,词语在文本中出现的次数可能与其重要程度有关,在文本中出现次数较多的词语,可能对应的重要程度较高,因此,可以仅从高频词语中确定出术语,可以有效减少对于重要程度较低的词语进行的计算量,提高术语整合的效率。
S204、对进行术语整合后的词语集合进行共指消解,得到文本包含的各实体对应的共指链。
S205、根据各实体对应的共指链确定文本的核心句子。
S206、根据核心句子生成对应的图模型,其中核心句子为图模型中的节点。
S207、获取图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成文本的摘要。
上述S204与图1实施例中的S102中对词语集合进行共指消解,得到文本包含的各实体对应的共指链类似,S205至S207与图1实施例中的S103至S105类似,本实施例中不再赘述。
图4为本发明实施例提供的文本摘要生成设备的结构示意图一。如图4所示,该文本摘要生成设备40包括:文本获取模块401、共指链生成模块402、核心句子确定模块403、图模型生成模块404以及摘要生成模块405。
其中,文本获取模块401,用于获取待处理的文本。
共指链生成模块402,用于对文本进行分词处理,得到包含多个词语的词语集合,并对词语集合进行共指消解,得到文本包含的各实体对应的共指链。
核心句子确定模块403,用于根据各实体对应的共指链确定文本的核心句子。
图模型生成模块404,用于根据核心句子生成对应的图模型,其中核心句子为图模型中的节点。
摘要生成模块405,用于获取图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成文本的摘要。
在一种可能的设计中,共指链生成模块402具体用于:对词语集合进行共指消解,确定词语集合中的实体,其中实体包含词语集合中指代同一对象的多个词语。分别根据各实体包含的词语以及各实体包含的词语在文本中出现的顺序,得到各实体对应的共指链。
在一种可能的设计中,核心句子确定模块403具体用于:分别获取各实体对应的共指链所包含的词语的数目。根据各实体对应的共指链所包含的词语的数目,选取目标实体。从文本中选取包含目标实体的句子,得到多个核心句子。
在一种可能的设计中,图模型生成模块404具体用于:计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度。若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系。对存在连接关系的核心句子进行连接,得到图模型。
在一种可能的设计中,图模型生成模块404还用于:获取核心句子包含的多个词语,并根据预设词袋算法计算核心句子包含的各词语对应的词向量。根据无监督算法确定各词向量的权重值。根据各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。
在一种可能的设计中,摘要生成模块405具体用于:根据随机游走算法,查找图模型中的中心节点。
本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图5为本发明实施例提供的文本摘要生成设备的结构示意图二。如图5所示,本实施例在图4实施例的基础上,还包括:术语整合模块406。
在一种可能的设计中,术语整合模块406,用于在对词语集合进行共指消解之前,对词语集合包含的词语进行术语整合。
在一种可能的设计中,术语整合模块406具体用于:分别统计词语集合包含的各个词语在文本中出现的次数。根据各个词语在文本中出现的次数,从词语集合中选取高频词语。计算高频词语之间的词语相关度;若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系。对存在连接关系的高频词语进行连接,得到词汇网络图。分别统计词汇网络图中的每相邻两个高频词语在文本中共同出现的次数。若相邻两个高频词语在文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。
本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图6为本发明实施例提供的文本摘要生成设备的硬件结构示意图。如图6所示,本实施例的文本摘要生成设备60包括:处理器601以及存储器602;其中
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中接收设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该语音交互设备还包括总线603,用于连接所述存储器602和处理器601。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的文本摘要生成方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种文本摘要生成方法,其特征在于,包括:
获取待处理的文本;
对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;
根据所述各实体对应的共指链确定所述文本的核心句子;
根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;
获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要;
其中,在所述对所述词语集合进行共指消解之前,还包括:
对所述词语集合包含的词语进行术语整合;
其中,所述对所述词语集合包含的词语进行术语整合,包括:
分别统计所述词语集合包含的各个词语在所述文本中出现的次数;
根据各个词语在所述文本中出现的次数,从所述词语集合中选取高频词语;
计算高频词语之间的词语相关度;
若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系;
对存在连接关系的高频词语进行连接,得到词汇网络图;
分别统计所述词汇网络图中的每相邻两个高频词语在所述文本中共同出现的次数;
若相邻两个高频词语在所述文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。
2.根据权利要求1所述的方法,其特征在于,所述对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链,包括:
对所述词语集合进行共指消解,确定所述词语集合中的实体,其中所述实体包含所述词语集合中指代同一对象的多个词语;
分别根据各实体包含的词语以及各实体包含的词语在所述文本中出现的顺序,得到各实体对应的共指链。
3.根据权利要求1所述的方法,其特征在于,所述根据所述各实体对应的共指链确定所述文本的核心句子,包括:
分别获取各实体对应的共指链所包含的词语的数目;
根据所述各实体对应的共指链所包含的词语的数目,选取目标实体;
从所述文本中选取包含所述目标实体的句子,得到多个所述核心句子。
4.根据权利要求1所述的方法,其特征在于,所述根据所述核心句子生成对应的图模型,包括:
计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度;
若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系;
对存在连接关系的核心句子进行连接,得到所述图模型。
5.根据权利要求4所述的方法,其特征在于,所述计算各核心句子的句子向量,包括:
获取核心句子包含的多个词语,并根据预设词袋算法计算所述核心句子包含的各词语对应的词向量;
根据无监督算法确定各词向量的权重值;
根据所述各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。
6.根据权利要求1至2任一项所述的方法,其特征在于,所述获取所述图模型中的所有中心节点,包括:
根据随机游走算法,查找所述图模型中的中心节点。
7.一种文本摘要生成设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的文本摘要生成方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的文本摘要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910370948.9A CN110110332B (zh) | 2019-05-06 | 2019-05-06 | 文本摘要生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910370948.9A CN110110332B (zh) | 2019-05-06 | 2019-05-06 | 文本摘要生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110332A CN110110332A (zh) | 2019-08-09 |
CN110110332B true CN110110332B (zh) | 2023-04-25 |
Family
ID=67488300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910370948.9A Active CN110110332B (zh) | 2019-05-06 | 2019-05-06 | 文本摘要生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110332B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339780B (zh) * | 2020-05-14 | 2020-11-06 | 北京金山数字娱乐科技有限公司 | 一种基于多任务模型的词语处理方法及装置 |
CN111767393A (zh) * | 2020-06-22 | 2020-10-13 | 中国建设银行股份有限公司 | 一种文本核心内容提取方法及装置 |
CN111898363B (zh) * | 2020-07-27 | 2023-07-28 | 平安科技(深圳)有限公司 | 文本长难句的压缩方法、装置、计算机设备及存储介质 |
CN112733545A (zh) * | 2020-12-28 | 2021-04-30 | 中电金信软件有限公司 | 文本分块方法、装置、计算机设备和存储介质 |
CN113515627B (zh) * | 2021-05-19 | 2023-07-25 | 北京世纪好未来教育科技有限公司 | 文档检测方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189514B1 (en) * | 2014-09-04 | 2015-11-17 | Lucas J. Myslinski | Optimized fact checking method and system |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8280885B2 (en) * | 2007-10-29 | 2012-10-02 | Cornell University | System and method for automatically summarizing fine-grained opinions in digital text |
KR20110012890A (ko) * | 2009-07-31 | 2011-02-09 | 경북대학교 산학협력단 | 소형 이동 단말기를 위한 웹 기반 텍스트 요약 방법 및 시스템 |
CN102306144B (zh) * | 2011-07-18 | 2013-05-08 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
US20150120788A1 (en) * | 2013-10-28 | 2015-04-30 | Xerox Corporation | Classification of hashtags in micro-blogs |
CN104536950B (zh) * | 2014-12-11 | 2018-04-20 | 北京百度网讯科技有限公司 | 生成文本摘要的方法及装置 |
US20170270096A1 (en) * | 2015-08-04 | 2017-09-21 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Method and system for generating large coded data set of text from textual documents using high resolution labeling |
US20170060826A1 (en) * | 2015-08-26 | 2017-03-02 | Subrata Das | Automatic Sentence And Clause Level Topic Extraction And Text Summarization |
CN107766320A (zh) * | 2016-08-23 | 2018-03-06 | 中兴通讯股份有限公司 | 一种中文代词消解模型建立方法及装置 |
CN106294863A (zh) * | 2016-08-23 | 2017-01-04 | 电子科技大学 | 一种针对海量文本快速理解的文摘方法 |
CN109190098A (zh) * | 2018-08-15 | 2019-01-11 | 上海唯识律简信息科技有限公司 | 一种基于自然语言处理的文档自动生成方法和系统 |
-
2019
- 2019-05-06 CN CN201910370948.9A patent/CN110110332B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189514B1 (en) * | 2014-09-04 | 2015-11-17 | Lucas J. Myslinski | Optimized fact checking method and system |
Also Published As
Publication number | Publication date |
---|---|
CN110110332A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110332B (zh) | 文本摘要生成方法及设备 | |
CN108959312B (zh) | 一种多文档摘要生成的方法、装置和终端 | |
US9495358B2 (en) | Cross-language text clustering | |
US11734508B2 (en) | Method and system for expansion to everyday language by using word vectorization technique based on social network content | |
Gunawan et al. | Named-entity recognition for indonesian language using bidirectional lstm-cnns | |
EP3489837A1 (en) | Method and system for key phrase extraction and generation from text | |
Zeng et al. | Domain-specific Chinese word segmentation using suffix tree and mutual information | |
CN109271641B (zh) | 一种文本相似度计算方法、装置及电子设备 | |
US20130185060A1 (en) | Phrase based document clustering with automatic phrase extraction | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
WO2008043582A1 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary | |
WO2005064490A1 (en) | System for recognising and classifying named entities | |
CN112347758B (zh) | 文本摘要的生成方法、装置、终端设备及存储介质 | |
CN109635297A (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
Ji et al. | Data selection in semi-supervised learning for name tagging | |
CN109885813A (zh) | 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质 | |
CN109063184A (zh) | 多语言新闻文本聚类方法、存储介质及终端设备 | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN111444712B (zh) | 一种关键词提取方法、终端、计算机可读存储介质 | |
Zhu et al. | A unified tagging approach to text normalization | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
CN112182448A (zh) | 页面信息处理方法、装置及设备 | |
CN115391551A (zh) | 事件检测方法及装置 | |
Üstün et al. | Incorporating word embeddings in unsupervised morphological segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |