CN114841146B - 文本摘要生成方法和装置、电子设备及存储介质 - Google Patents

文本摘要生成方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114841146B
CN114841146B CN202210508627.2A CN202210508627A CN114841146B CN 114841146 B CN114841146 B CN 114841146B CN 202210508627 A CN202210508627 A CN 202210508627A CN 114841146 B CN114841146 B CN 114841146B
Authority
CN
China
Prior art keywords
target
graph structure
word
preset
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210508627.2A
Other languages
English (en)
Other versions
CN114841146A (zh
Inventor
潘荣峰
王健宗
黄章成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210508627.2A priority Critical patent/CN114841146B/zh
Publication of CN114841146A publication Critical patent/CN114841146A/zh
Application granted granted Critical
Publication of CN114841146B publication Critical patent/CN114841146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本摘要生成方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取目标文本集合;对目标文本集合进行图结构化处理,得到初步图结构数据,其中,初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据;对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征;对融合图结构特征进行第一编码处理,得到节点语义表征向量;对节点语义表征向量进行第二编码处理,得到图结构表征向量;根据预设单词对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要。本申请能够提高生成文本摘要的准确性。

Description

文本摘要生成方法和装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本摘要生成方法和装置、电子设备及存储介质。
背景技术
目前的文本摘要生成方法大多是通过提取文本特征,并对文本特征进行重要性排序,从而选取重要程度较高的文本特征生成摘要,这一方式生成的摘要存在着语义不通顺的问题,生成的文本摘要准确性不高,因此,如何提高生成文本摘要的准确性,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出一种文本摘要生成方法和装置、电子设备及存储介质,旨在提高生成文本摘要的准确性。
为实现上述目的,本申请实施例的第一方面提出了一种文本摘要生成方法,所述方法包括:
获取目标文本集合;
对所述目标文本集合进行图结构化处理,得到初步图结构数据,其中,所述初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据;
对所述第一图结构数据、所述第二图结构数据和所述第三图结构数据进行特征拼接,得到融合图结构特征;
对所述融合图结构特征进行第一编码处理,得到节点语义表征向量;
对所述节点语义表征向量进行第二编码处理,得到图结构表征向量;
根据预设单词对所述图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据所述词概率值对所述预设单词进行筛选处理,得到目标摘要。
在一些实施例,所述目标文本集合包括至少两个目标文本,所述对所述目标文本集合进行图结构化处理,得到初步图结构数据的步骤,包括:
通过预设算法对每一所述目标文本进行关键词提取,得到每一所述目标文本对应的目标关键词;
对每一所述目标关键词进行向量化处理,得到每一所述目标文本对应的关键词向量;
计算每两个所述关键词向量之间的相似度值,并根据所述相似度值对对应的所述目标文本进行图结构化处理,得到所述第一图结构数据。
在一些实施例,所述目标文本集合包括至少两个目标文本,所述对所述目标文本集合进行图结构化处理,得到初步图结构数据的步骤,包括:
对每一所述目标文本进行分词处理,得到目标词段;
通过预设公式和预设主题类型对所述目标词段进行概率计算,得到所述目标词段属于所述预设主题类型的分类概率值;
根据所述分类概率值对所述目标文本进行图结构化处理,得到所述第二图结构数据。
在一些实施例,所述目标文本集合包括至少两个目标文本,所述对所述目标文本集合进行图结构化处理,得到初步图结构数据的步骤,包括:
对每一所述目标文本进行节点提取,得到目标节点,其中,所述目标节点包括单词节点、句子节点以及文本节点;
通过预设算法构建所述单词节点和所述句子节点的第一边特征;
根据预设权重构建所述句子节点和所述文本节点的第二边特征;
根据所述第一边特征和所述第二边特征构建目标异构图,并根据所述目标异构图得到所述第三图结构数据。
在一些实施例,所述对所述第一图结构数据、所述第二图结构数据和所述第三图结构数据进行特征拼接,得到融合图结构特征的步骤,包括:
对所述第一图结构数据向量化处理,得到第一图结构特征向量,对所述第二图结构数据向量化处理,得到第二图结构特征向量,并对所述第三图结构数据向量化处理,得到第三图结构特征向量;
对所述第一图结构特征向量、所述第二图结构特征向量以及所述第三图结构特征向量进行特征拼接,得到所述融合图结构特征。
在一些实施例,所述对所述节点语义表征向量进行第二编码处理,得到图结构表征向量的步骤,包括:
通过预设的权重矩阵对所述节点语义表征向量进行注意力计算,得到图节点特征;
通过预设函数对所述图节点特征进行编码处理,得到所述图结构表征向量。
在一些实施例,所述根据预设单词对所述图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据所述词概率值对所述预设单词进行筛选处理,得到目标摘要的步骤,包括:
对所述图结构表征向量进行解码处理,得到图结构隐向量;
对所述图结构隐向量进行词概率计算,得到每一预设单词对应的词概率值;
选取所述词概率值大于或者等于预设词概率阈值的预设单词作为目标单词;
根据预设的拼接顺序对所述目标单词进行拼接处理,得到所述目标摘要。
为实现上述目的,本申请实施例的第二方面提出了一种文本摘要生成装置,所述装置包括:
文本获取模块,用于获取目标文本集合;
图结构化模块,用于对所述目标文本集合进行图结构化处理,得到初步图结构数据,其中,所述初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据;
特征拼接模块,用于对所述第一图结构数据、所述第二图结构数据和所述第三图结构数据进行特征拼接,得到融合图结构特征;
第一编码模块,用于对所述融合图结构特征进行第一编码处理,得到节点语义表征向量;
第二编码模块,用于对所述节点语义表征向量进行第二编码处理,得到图结构表征向量;
摘要生成模块,用于根据预设单词对所述图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据所述词概率值对所述预设单词进行筛选处理,得到目标摘要。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
本申请提出的文本摘要生成方法和装置、电子设备及存储介质,其通过获取目标文本集合,通过对目标文本集合进行图结构化处理,得到初步图结构数据,其中,初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据,能够通过多种图结构处理方式,融合同构图、异构图等图结构数据,以便从不同的图结构中获取相应的节点语义信息,提高节点语义表达的效果。进一步地,对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征,并对融合图结构特征进行第一编码处理,得到节点语义表征向量;对节点语义表征向量进行第二编码处理,得到图结构表征向量,能够通过编码的方式得到不同节点的语义表示,捕捉到文本之间的语义相关性。最后,根据预设单词对对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要,这一方式能够得到通过计算词概率值的方式筛选出符合需求的单词,根据这一系列单词构成目标文本集合对应的文本摘要,实现了多文本的摘要生成,同时,通过编码的方式能够关注到文本之间的语义相关性和主题相关性,使得生成的摘要语义完整,语法准确,能够提高生成的摘要的准确性。
附图说明
图1是本申请实施例提供的文本摘要生成方法的流程图;
图2是图1中的步骤S102的流程图;
图3是图1中的步骤S102的另一流程图;
图4是图1中的步骤S102的另一流程图;
图5是图1中的步骤S103的流程图;
图6是图1中的步骤S105的流程图;
图7是图1中的步骤S106的流程图;
图8是本申请实施例提供的文本摘要生成装置的结构示意图;
图9是本申请实施例提供的电子设备的硬件结构示意图;
图10是本申请实施例提供的第一图结构数据的结构示意图;
图11是本申请实施例提供的第二图结构数据的结构示意图;
图12是本申请实施例提供的第三图结构数据的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(Natural Language Processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
编码(Encoder):将输入序列转化成一个固定长度的向量。
解码(Decoder):将之前生成的固定向量再转化成输出序列;其中,输入序列可以是文字、语音、图像、视频;输出序列可以是文字、图像。
图结构:在数据的逻辑结构D=(KR)中,如果K中结点对于关系R的前趋和后继的个数不加限制,即仅含一种任意的关系,则称这种数据结构为图形结构。图(Graph)是由顶点和连接顶点的边构成的离散结构。图的结构很简单,就是由顶点V集和边E集构成,因此,本申请实施例的图结构数据可以表示成G=(V,E),其中,V表示目标文本的文本节点、句子节点或者词段节点,E表示这些节点之间的关系边。
同构图:假设G=(V,E)和G1=(V1,E1)是两个图,如果存在一个双射m:V→V1,使得对所有的x,y∈V均有xy∈E等价于m(x)m(y)∈E1,则称G和G1是同构的。
异构图:节点类别的数量加边的类别的数量大于或者等于2,也就是包含不同类型节点和连接的图。
注意力机制(Attention Mechanism):注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力,选择特定的输入,可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下,注意力机制是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。
目前的文本摘要生成方法大多是通过提取文本特征,并对文本特征进行重要性排序,从而选取重要程度较高的文本特征生成摘要,这一方式生成的摘要存在着语义不通顺的问题,生成的文本摘要准确性不高,因此,如何提高生成文本摘要的准确性,成为了亟待解决的技术问题。
基于此,本申请实施例提供了一种文本摘要生成方法和装置、电子设备及存储介质,旨在提高生成文本摘要的准确性。
本申请实施例提供的文本摘要生成方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的文本摘要生成方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的文本摘要生成方法,涉及人工智能技术领域。本申请实施例提供的文本摘要生成方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现文本摘要生成方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
图1是本申请实施例提供的文本摘要生成方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S106。
步骤S101,获取目标文本集合;
步骤S102,对目标文本集合进行图结构化处理,得到初步图结构数据,其中,初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据;
步骤S103,对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征;
步骤S104,对融合图结构特征进行第一编码处理,得到节点语义表征向量;
步骤S105,对节点语义表征向量进行第二编码处理,得到图结构表征向量;
步骤S106,根据预设单词对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要。
本申请实施例所示意的步骤S101至步骤S106,通过对目标文本集合进行图结构化处理,得到初始图结构数据,其中,初始图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据,能够通过多种图结构处理方式,融合同构图、异构图等图结构数据,以便从不同的图结构中获取相应的节点语义信息,提高节点语义表达的效果。通过对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征,并对融合图结构特征进行第一编码处理,得到节点语义表征向量;对节点语义表征向量进行第二编码处理,得到图结构表征向量,能够通过编码的方式得到不同节点的语义表示,捕捉到文本之间的语义相关性。最后,根据预设单词对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要,能够得到通过计算词概率值的方式筛选出符合需求的单词,根据这一系列单词构成目标文本集合对应的文本摘要,实现了多文本的摘要生成,同时,通过编码的方式能够关注到文本之间的语义相关性和主题相关性,使得生成的摘要语义完整,语法准确,能够提高生成的摘要的准确性。
在一些实施例的步骤S101之前,文本摘要生成方法还包括构建文本摘要生成模型,文本摘要生成模型用于对目标文本集合进行文本摘要生成处理,得到目标摘要,其中,文本摘要生成模型包括输入层、图结构数据处理层、融合图嵌入层、预训练编码层、图神经网络编码层以及解码层。
在对文本摘要生成模型进行训练时,可以将样本数据输入至输入层,其中,样本数据包括样本文本集合以及与样本文本对应的原始样本摘要,原始样本摘要由人工撰写而成,通过图结构数据处理层将样本文本集合中的样本文本处理成不同类型的图结构数据,并通过融合图嵌入层将多种类型的图结构数据的节点信息和边信息进行特征融合,得到样本融合特征。进一步地,通过预训练编码层以及图神经网络编码层对样本融合特征进行编码处理,得到样本图结构表征向量,将样本图结构表征向量输入至解码层,通过解码层的transformer算法计算每个预设单词的概率,从而生成实际样本摘要。通过文本摘要生成模型的损失函数对实际样本摘要和原始样本摘要进行相似度计算,得到摘要相似值,根据摘要相似值对损失函数进行参数优化,从而实现对文本摘要生成模型的训练。
在一些实施例的步骤S101中,可以通过编写网络爬虫,设置好数据源之后进行有目标性的爬取数据,得到目标文本集合。也可以通过其他方式获取目标文本集合,不限于此,其中,目标文本集合包括多个文本,文本可以是相同主题的文本也可以是不同主题的文本,不做限制。
请参阅图2,在一些实施例中,目标文本集合包括至少两个目标文本,步骤S102可以包括但不限于包括步骤S201至步骤S203:
步骤S201,通过预设算法对每一目标文本进行关键词提取,得到每一目标文本对应的目标关键词;
步骤S202,对每一目标关键词进行向量化处理,得到每一目标文本对应的关键词向量;
步骤S203,计算每两个关键词向量之间的相似度值,并根据相似度值对对应的目标文本进行图结构化处理,得到第一图结构数据。
在一些实施例的步骤S201中,预设算法可以为TF-IDF算法,,将每一目标文本处理成若干个句子节点,具体地,通过TF-IDF算法计算目标文本中每一句子的每一词段出现的频率,得到每一词段的词频(Term Frequency,TF),其中,TF=词段W出现的次数/目标文本中的词段数量;进一步地,计算每一词段的逆向文件频率(Inverse Document Frequency,IDF),其中,IDF=log(目标文本集合内的目标文本总数/(包含词段w的目标文本数量+1)),最后,根据词频和逆向文件频率计算出每一词段的综合频率值,综合频率值=词频*逆向文件频率。在每一目标文本中选取综合频率值最大的词段作为目标关键词。
在一些实施例的步骤S202中,对每一目标关键词进行向量化处理,将目标关键词映射至预设的向量空间,得到每一目标文本对应的关键词向量。
在一些实施例的步骤S203中,通过余弦相似度算法计算每两个关键词向量之间的相似度值,通过相似度值能够反映出句子节点之间的语义相关性。例如,选取关键词向量A、B,根据计算公式计算出这两个关键词向量的相似度值,其中,计算公式如公式(1)所示,其中,i为目标文本的句子编号,n为目标文本的数量。进一步地,根据相似度值和目标关键词对目标文本进行图结构化处理,构建出目标文本对应的全连通权重图,得到第一图结构数据(如图10所示)。
Figure BDA0003638397410000081
请参阅图3,在一些实施例中,目标文本集合包括至少两个目标文本,步骤S102可以包括但不限于包括步骤S301至步骤S303:
步骤S301,对每一目标文本进行分词处理,得到目标词段;
步骤S302,通过预设公式和预设主题类型对目标词段进行概率计算,得到目标词段属于预设主题类型的分类概率值;
步骤S303,根据分类概率值对目标文本进行图结构化处理,得到第二图结构数据。
在一些实施例的步骤S301中,通过预设的分词器对目标文本集合的每一目标文本进行分词处理,得到目标词段,具体地,分词器可以根据词性类别、基础语法对目标文本进行分词处理,得到的目标词段可以是名词、形容词、修饰词等等。
在一些实施例的步骤S302中,由于目标文本之间的主题相关性应该是强相关的,因而可以通过预设的主题模型(Latent Dirichlet Allocation,LDA模型)将多个目标文本与多个主题进行关联,通过主题相关程度去评估目标文本之间的主题相关性。具体地,LDA模型为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,通过LDA模型中的预设公式和预设主题类型可以计算每一目标词段的分类概率值,预设公式可以如公式(2)所示,通过分类概率值可以反映出目标文本属于每一主题类型的概率分布情况。
Figure BDA0003638397410000091
在一些实施例的步骤S303中,根据分类概率值和预设的主题类型对目标文本进行图结构化处理,构建出目标文本属于每一主题类型的概率分布情况,得到第二图结构数据(如图11所示)。
请参阅图4,在一些实施例中,目标文本集合包括至少两个目标文本,步骤S102可以包括但不限于包括步骤S401至步骤S404:
步骤S401,对每一目标文本进行节点提取,得到目标节点,其中,目标节点包括单词节点、句子节点以及文本节点;
步骤S402,通过预设算法构建单词节点和句子节点的第一边特征;
步骤S403,根据预设权重构建句子节点和文本节点的第二边特征;
步骤S404,根据第一边特征和第二边特征构建目标异构图,并根据目标异构图得到第三图结构数据。
在一些实施例的步骤S401中,通过命名实体算法对目标文本集合的每一目标文本进行实体特征提取,具体地,可以通过长短期记忆算法、最大熵算法等等进行特征提取,得到目标节点,其中,根据不同的节点层级,目标节点包括单词节点、句子节点以及文本节点。
在一些实施例的步骤S402中,预设算法可以为TF-IDF算法,通过TF-IDF算法构建出单词节点和句子节点的第一边特征,将每一目标文本处理成若干个句子节点,具体地,通过TF-IDF算法计算目标文本中每一句子的目标单词出现的频率,得到目标单词的词频TF,其中,TF=目标单词W出现的次数/目标文本中的词段数量;进一步地,计算目标单词的逆向文件频率IDF,其中,IDF=log(目标文本集合内的目标文本总数/(包含目标单词w的目标文本数量+1)),最后,根据词频和逆向文件频率计算出目标单词的综合频率值,综合频率值=词频*逆向文件频率,根据目标单词的综合频率值构建单词节点与句子节点的第一边特征。
在一些实施例的步骤S403中,根据句子在目标文本中的所处位置,提取出句子节点在目标文本中的语义结构信息,根据预设的权重参数和语义结构信息构建句子节点和文本节点的第二边特征。
在一些实施例的步骤S404中,根据第一边特征和第二边特征构建目标异构图,并根据目标异构图得到第三图结构数据(如图12所示)。
请参阅图5,在一些实施例中,步骤S103可以包括但不限于包括步骤S501至步骤S502:
步骤S501,对第一图结构数据向量化处理,得到第一图结构特征向量,对第二图结构数据向量化处理,得到第二图结构特征向量,并对第三图结构数据向量化处理,得到第三图结构特征向量;
步骤S502,对第一图结构特征向量、第二图结构特征向量以及第三图结构特征向量进行特征拼接,得到融合图结构特征。
在一些实施例的步骤S501中,提取第一图结构数据中的节点信息和边信息,并对节点信息和边信息进行向量化处理,将第一图结构数据的节点信息和边信息映射到预设的向量空间,得到第一图结构特征向量。同样地,提取第二图结构数据中的节点信息和边信息,并对节点信息和边信息进行向量化处理,将第二图结构数据的节点信息和边信息映射到预设的向量空间,得到第二图结构特征向量,提取第三图结构数据中的节点信息和边信息,并对节点信息和边信息进行向量化处理,将第三图结构数据的节点信息和边信息映射到预设的向量空间,得到第三图结构特征向量。通过这一方式可以使得第一图结构数据、第二图结构数据以及第三图结构数据的节点信息和边信息处于相同的特征维度。
在一些实施例的步骤S502中,对第一图结构特征向量、第二图结构特征向量以及第三图结构特征向量进行特征拼接,需要说明的是,本申请实施例的特征拼接可以是将第一图结构特征向量、第二图结构特征向量以及第三图结构特征向量进行向量相加,得到融合图结构特征,其中,融合图结构特征为融合了多种图结构的特征向量。
在一些实施例的步骤S104中,可以通过预设的BERT编码器对融合图结构特征进行第一编码处理,获取融合图结构特征中的每一节点的语义信息,得到节点语义表征向量。
请参阅图6,在一些实施例,步骤S105包括但不限于包括步骤S601至步骤S602:
步骤S601,通过预设的权重矩阵对节点语义表征向量进行注意力计算,得到图节点特征;
步骤S602,通过预设函数对图节点特征进行编码处理,得到图结构表征向量。
在一些实施例的步骤S601中,为了提高生成的文本摘要的准确性,需要对节点语义表征向量进行更新,得到图节点特征。在本申请实施例中,对于每一个节点语义表征向量在进行特征转换时都引入了自注意力机制,该注意力机制a可以表示节点与节点之间的特征重要性,从而提高节点i与节点j之间的语义关联性。具体地,通过预设的权重矩阵对节点语义表征向量进行注意力计算,得到图节点特征,其中,权重矩阵可以表示为W,注意力权重可以表示为eij,具体的计算公式可以如公式(3)所示。
eij=a(Whi,Whj) 公式(3)
在一些实施例的步骤S602中,为了进一步提高节点与节点之间的语义相关性,还可以通过预设函数(如softmax函数等)对图节点特征进行编码处理,得到图结构表征向量∝ij,具体地,通过softmax函数对图节点特征进行编码处理的过程可以如公式(4)所示。
Figure BDA0003638397410000111
请参阅图7,在一些实施例中,步骤S106可以包括但不限于包括步骤S701至步骤S704:
步骤S701,对图结构表征向量进行解码处理,得到图结构隐向量;
步骤S702,对图结构隐向量进行词概率计算,得到每一预设单词对应的词概率值;
步骤S703,选取词概率值大于或者等于预设词概率阈值的预设单词作为目标单词;
步骤S704,根据预设的拼接顺序对目标单词进行拼接处理,得到目标摘要。
在一些实施例的步骤S701和步骤S702中,通过transformer算法对图结构表征向量进行解码处理,得到图结构隐向量,并通过Softmax函数对图结构隐向量进行词概率计算,得到每一预设单词对应的词概率值,以便根据词概率值来预测输出单词。
在一些实施例的步骤S703中,预设词概率阈值可以根据实际情况设置,比对词概率值大于或者等于预设词概率阈值的大小,词概率值越大,表明对应的预设单词更能够反映目标文本的语义内容,因而,选取词概率值大于或者等于预设词概率阈值的预设单词作为目标单词。
在一些实施例的步骤S704中,可以根据预设的拼接顺序和拼接函数对目标单词进行拼接处理,预设的拼接顺序可以是获取到目标单词的时间先后顺序等等,预设的拼接函数可以为CONCAT()函数或者CONCAT_WS()函数。例如,在数据库平台上,根据获取到目标单词的时间先后顺序,将多个目标单词进行标注处理,使得每一目标单词带上序列标签,该序列标签可以是阿拉伯序列(1、2、3、…),也可以是英文字母序列(A、B、C、…);进而,通过CONCAT()函数对多个带有序列标签的目标单词按照序列标签顺序进行拼接融合,得到目标摘要。
本申请实施例的文本摘要生成方法,其通过获取目标文本集合,通过对目标文本集合进行图结构化处理,得到初步图结构数据,其中,初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据,能够通过多种图结构处理方式,融合同构图、异构图等图结构数据,以便从不同的图结构中获取相应的节点语义信息,提高节点语义表达的效果。进一步地,对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征,并对融合图结构特征进行第一编码处理,得到节点语义表征向量;对节点语义表征向量进行第二编码处理,得到图结构表征向量,能够通过编码的方式得到不同节点的语义表示,捕捉到文本之间的语义相关性。最后,对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要,这一方式能够得到通过计算词概率值的方式筛选出符合需求的单词,根据这一系列单词构成目标文本集合对应的文本摘要,实现了多文本的摘要生成,同时,通过编码的方式能够关注到文本之间的语义相关性和主题相关性,使得生成的摘要语义完整,语法准确,能够提高生成的摘要的准确性。
请参阅图8,本申请实施例还提供一种文本摘要生成装置,可以实现上述文本摘要生成方法,该装置包括:
文本获取模块801,用于获取目标文本集合;
图结构化模块802,用于对目标文本集合进行图结构化处理,得到初步图结构数据,其中,初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据;
特征拼接模块803,用于对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征;
第一编码模块804,用于对融合图结构特征进行第一编码处理,得到节点语义表征向量;
第二编码模块805,用于对节点语义表征向量进行第二编码处理,得到图结构表征向量;
摘要生成模块806,用于根据预设单词对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要
在一些实施例中,图结构化模块802包括:
关键词提取单元,用于通过预设算法对每一目标文本进行关键词提取,得到每一目标文本对应的目标关键词;
第一向量化单元,用于对每一目标关键词进行向量化处理,得到每一目标文本对应的关键词向量;
相似度计算单元,用于计算每两个关键词向量之间的相似度值,并根据相似度值对对应的目标文本进行图结构化处理,得到第一图结构数据。
在一些实施例中,图结构化模块802包括:
分词单元,用于对每一目标文本进行分词处理,得到目标词段;
分类概率计算单元,用于通过预设公式和预设主题类型对目标词段进行概率计算,得到目标词段属于预设主题类型的分类概率值;
图结构化单元,用于根据分类概率值对目标文本进行图结构化处理,得到第二图结构数据。
在一些实施例中,图结构化模块802包括:
节点提取单元,用于对每一目标文本进行节点提取,得到目标节点,其中,目标节点包括单词节点、句子节点以及文本节点;
第一边特征构建单元,用于通过预设算法构建单词节点和句子节点的第一边特征;
第二边特征构建单元,用于根据预设权重构建句子节点和文本节点的第二边特征;
异构图构建单元,用于根据第一边特征和第二边特征构建目标异构图,并根据目标异构图得到第三图结构数据。
在一些实施例中,特征拼接模块803包括:
第二向量化单元,用于对第一图结构数据向量化处理,得到第一图结构特征向量,对第二图结构数据向量化处理,得到第二图结构特征向量,并对第三图结构数据向量化处理,得到第三图结构特征向量;
第一拼接单元,用于对第一图结构特征向量、第二图结构特征向量以及第三图结构特征向量进行特征拼接,得到融合图结构特征。
在一些实施例中,第二编码模块805包括:
注意力计算单元,用于通过预设的权重矩阵对节点语义表征向量进行注意力计算,得到图节点特征;
编码单元,用于通过预设函数对图节点特征进行编码处理,得到图结构表征向量。
在一些实施例中,摘要生成模块806包括:
解码单元,用于对图结构表征向量进行解码处理,得到图结构隐向量;
词概率计算单元,用于对图结构隐向量进行词概率计算,得到每一预设单词对应的词概率值;
筛选单元,用于选取词概率值大于或者等于预设词概率阈值的预设单词作为目标单词;
第二拼接单元,用于根据预设的拼接顺序对目标单词进行拼接处理,得到目标摘要。
该文本摘要生成装置的具体实施方式与上述文本摘要生成方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述文本摘要生成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器901,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器902,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本申请实施例的文本摘要生成方法;
输入/输出接口903,用于实现信息输入及输出;
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述文本摘要生成方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的文本摘要生成方法、文本摘要生成装置、电子设备及存储介质,其通过获取目标文本集合,通过对目标文本集合进行图结构化处理,得到初步图结构数据,其中,初步图结构数据包括第一图结构数据、第二图结构数据和第三图结构数据,能够通过多种图结构处理方式,融合同构图、异构图等图结构数据,以便从不同的图结构中获取相应的节点语义信息,提高节点语义表达的效果。进一步地,对第一图结构数据、第二图结构数据和第三图结构数据进行特征拼接,得到融合图结构特征,并对融合图结构特征进行第一编码处理,得到节点语义表征向量;对节点语义表征向量进行第二编码处理,得到图结构表征向量,能够通过编码的方式得到不同节点的语义表示,捕捉到文本之间的语义相关性。最后,对图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据词概率值对预设单词进行筛选处理,得到目标摘要,这一方式能够得到通过计算词概率值的方式筛选出符合需求的单词,根据这一系列单词构成目标文本集合对应的文本摘要,实现了多文本的摘要生成,同时,通过编码的方式能够关注到文本之间的语义相关性和主题相关性,使得生成的摘要语义完整,语法准确,能够提高生成的摘要的准确性。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-7中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (7)

1.一种文本摘要生成方法,其特征在于,所述方法包括:
获取目标文本集合,其中,所述目标文本集合包括至少两个目标文本;
通过第一预设算法对每一所述目标文本进行关键词提取,得到每一所述目标文本对应的目标关键词;计算每两个所述目标关键词之间的相似度值,并根据所述相似度值对对应的所述目标文本进行图结构化处理,得到第一图结构数据;
对每一所述目标文本进行分词处理,得到目标词段;通过预设公式和预设主题类型对所述目标词段进行概率计算,得到所述目标词段属于所述预设主题类型的分类概率值;根据所述分类概率值对所述目标文本进行图结构化处理,得到第二图结构数据;
对每一所述目标文本进行节点提取,得到目标节点,其中,所述目标节点包括单词节点、句子节点以及文本节点;通过第二预设算法构建所述单词节点和所述句子节点的第一边特征;根据预设权重构建所述句子节点和所述文本节点的第二边特征;根据所述第一边特征和所述第二边特征构建目标异构图,并根据所述目标异构图得到第三图结构数据;
对所述第一图结构数据、所述第二图结构数据和所述第三图结构数据进行特征拼接,得到融合图结构特征;
对所述融合图结构特征进行第一编码处理,得到节点语义表征向量;
对所述节点语义表征向量进行第二编码处理,得到图结构表征向量;
根据预设单词对所述图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据所述词概率值对所述预设单词进行筛选处理,得到目标摘要;
其中,所述预设公式为P目标词段|目标文本)=∑主题P目标词段|主题)×P主题|目标文本);
其中,所述主题是所述预设主题类型,P目标词段|目标文本)是目标词段属于目标文本的概率,P主题|目标文本)是目标文本属于所述预设主题类型的概率,P目标词段|主题)是所述目标词段属于所述预设主题类型的分类概率值。
2.根据权利要求1所述的文本摘要生成方法,其特征在于,所述对所述第一图结构数据、所述第二图结构数据和所述第三图结构数据进行特征拼接,得到融合图结构特征的步骤,包括:
对所述第一图结构数据向量化处理,得到第一图结构特征向量,对所述第二图结构数据向量化处理,得到第二图结构特征向量,并对所述第三图结构数据向量化处理,得到第三图结构特征向量;
对所述第一图结构特征向量、所述第二图结构特征向量以及所述第三图结构特征向量进行特征拼接,得到所述融合图结构特征。
3.根据权利要求1所述的文本摘要生成方法,其特征在于,所述对所述节点语义表征向量进行第二编码处理,得到图结构表征向量的步骤,包括:
通过预设的权重矩阵对所述节点语义表征向量进行注意力计算,得到图节点特征;
通过预设函数对所述图节点特征进行编码处理,得到所述图结构表征向量。
4.根据权利要求1至3任一项所述的文本摘要生成方法,其特征在于,所述根据预设单词对所述图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据所述词概率值对所述预设单词进行筛选处理,得到目标摘要的步骤,包括:
对所述图结构表征向量进行解码处理,得到图结构隐向量;
对所述图结构隐向量进行词概率计算,得到每一预设单词对应的词概率值;
选取所述词概率值大于或者等于预设词概率阈值的预设单词作为目标单词;
根据预设的拼接顺序对所述目标单词进行拼接处理,得到所述目标摘要。
5.一种文本摘要生成装置,其特征在于,所述装置包括:
文本获取模块,用于获取目标文本集合,其中,所述目标文本集合包括至少两个目标文本;
图结构化模块,用于:
通过第一预设算法对每一所述目标文本进行关键词提取,得到每一所述目标文本对应的目标关键词;计算每两个所述目标关键词之间的相似度值,并根据所述相似度值对对应的所述目标文本进行图结构化处理,得到第一图结构数据;
对每一所述目标文本进行分词处理,得到目标词段;通过预设公式和预设主题类型对所述目标词段进行概率计算,得到所述目标词段属于所述预设主题类型的分类概率值;根据所述分类概率值对所述目标文本进行图结构化处理,得到第二图结构数据;
对每一所述目标文本进行节点提取,得到目标节点,其中,所述目标节点包括单词节点、句子节点以及文本节点;通过第二预设算法构建所述单词节点和所述句子节点的第一边特征;根据预设权重构建所述句子节点和所述文本节点的第二边特征;根据所述第一边特征和所述第二边特征构建目标异构图,并根据所述目标异构图得到第三图结构数据;
特征拼接模块,用于对所述第一图结构数据、所述第二图结构数据和所述第三图结构数据进行特征拼接,得到融合图结构特征;
第一编码模块,用于对所述融合图结构特征进行第一编码处理,得到节点语义表征向量;
第二编码模块,用于对所述节点语义表征向量进行第二编码处理,得到图结构表征向量;
摘要生成模块,用于根据预设单词对所述图结构表征向量进行词概率计算,得到每一预设单词对应的词概率值,并根据所述词概率值对所述预设单词进行筛选处理,得到目标摘要;
其中,所述预设公式为P目标词段|目标文本)=∑主题P目标词段|主题)×P主题|目标文本);
其中,所述主题是所述预设主题类型,P目标词段|目标文本)是目标词段属于目标文本的概率,P主题|目标文本)是目标文本属于所述预设主题类型的概率,P目标词段|主题)是所述目标词段属于所述预设主题类型的分类概率值。
6.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至4任一项所述的文本摘要生成方法的步骤。
7.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至4中任一项所述的文本摘要生成方法的步骤。
CN202210508627.2A 2022-05-11 2022-05-11 文本摘要生成方法和装置、电子设备及存储介质 Active CN114841146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210508627.2A CN114841146B (zh) 2022-05-11 2022-05-11 文本摘要生成方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210508627.2A CN114841146B (zh) 2022-05-11 2022-05-11 文本摘要生成方法和装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114841146A CN114841146A (zh) 2022-08-02
CN114841146B true CN114841146B (zh) 2023-07-04

Family

ID=82570967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210508627.2A Active CN114841146B (zh) 2022-05-11 2022-05-11 文本摘要生成方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114841146B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828912B (zh) * 2022-12-20 2023-08-29 北京数字政通科技股份有限公司 一种智能识别多人同诉工单的方法及系统
CN117725928B (zh) * 2024-02-18 2024-04-30 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN113590811A (zh) * 2021-08-19 2021-11-02 平安国际智慧城市科技股份有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018032213A (ja) * 2016-08-24 2018-03-01 シャープ株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN113590811A (zh) * 2021-08-19 2021-11-02 平安国际智慧城市科技股份有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114841146A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN114841146B (zh) 文本摘要生成方法和装置、电子设备及存储介质
CN114519356B (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN114722069A (zh) 语言转换方法和装置、电子设备及存储介质
CN114897060B (zh) 样本分类模型的训练方法和装置、样本分类方法和装置
CN114359810A (zh) 视频摘要生成方法、装置、电子设备及存储介质
CN114926039A (zh) 风险评估方法、风险评估装置、电子设备及存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN114942994A (zh) 文本分类方法、文本分类装置、电子设备及存储介质
CN114358020A (zh) 疾病部位识别方法、装置、电子设备及存储介质
CN116719999A (zh) 文本相似度检测方法和装置、电子设备及存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN116364054A (zh) 基于diffusion的语音合成方法、装置、设备、存储介质
CN114492437B (zh) 关键词识别方法、装置、电子设备及存储介质
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN114998041A (zh) 理赔预测模型的训练方法和装置、电子设备及存储介质
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN115130432B (zh) 文本处理方法、文本处理装置、电子设备及存储介质
CN114519395B (zh) 模型的训练方法和装置、文本摘要生成方法和装置、设备
CN116700691A (zh) 前端组件的代码生成方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant