CN113935314A - 基于异构图网络的摘要抽取方法、装置、终端设备及介质 - Google Patents

基于异构图网络的摘要抽取方法、装置、终端设备及介质 Download PDF

Info

Publication number
CN113935314A
CN113935314A CN202111231702.7A CN202111231702A CN113935314A CN 113935314 A CN113935314 A CN 113935314A CN 202111231702 A CN202111231702 A CN 202111231702A CN 113935314 A CN113935314 A CN 113935314A
Authority
CN
China
Prior art keywords
sentence
sentences
similarity
document
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111231702.7A
Other languages
English (en)
Inventor
宋威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202111231702.7A priority Critical patent/CN113935314A/zh
Publication of CN113935314A publication Critical patent/CN113935314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能分析领域,尤其涉及一种基于异构图网络的摘要抽取方法、装置、终端设备及介质。该方法根据待抽取文档中每个句子的句向量和位置信息,得到对应句子间的句子相似度,并将句子作为节点,根据句子相似度和位置信息,对节点进行连接,得到异构图网络,对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定重要程度大于阈值的节点对应的句子为待抽取文档的摘要句子,实现了摘要抽取,结合句子的句子相似度和位置信息构建的异构图网络,能够较好地反映句子的远程依赖关系,从而提高了摘要抽取的准确率。

Description

基于异构图网络的摘要抽取方法、装置、终端设备及介质
技术领域
本申请属于人工智能分析领域,尤其涉及一种基于异构图网络的摘要抽取方法、装置、终端设备及介质。
背景技术
目前,抽取式文档摘要是指从原始文档中提取出相关的句子,并将其重组为摘要。为了有效地从文档中提取出相关的句子,需要对句子间关系进行建模。现有建立的模型是使用递归神经网络来捕获句子间关系,而在长文档或多文档的情况下该基于递归神经网络的模型不易捕获语句子的远程依赖关系。因此,如何在抽取摘要过程中有效地捕获句子的远程依赖关系成为亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种基于异构图网络的摘要抽取方法、装置、终端设备及介质,以解决如何在抽取摘要过程中有效地捕获句子的远程依赖关系的问题。
第一方面,本申请实施例提供一种基于异构图网络的摘要抽取方法,所述摘要抽取方法包括:
获取待抽取文档中每个句子的句向量和位置信息;
根据任意两个句子的句向量,得到对应句子间的句子相似度;
将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络,其中,节点的信息为对应句子的句向量;
对所述异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为所述待抽取文档的摘要句子,所述目标句子为重要程度大于阈值的节点对应的句子。
第二方面,本申请实施例提供一种基于异构图网络的摘要抽取装置,所述摘要抽取装置包括:
信息获取模块,用于获取待抽取文档中每个句子的句向量和位置信息;
句子相似度确定模块,用于根据任意两个句子的句向量,得到对应句子间的句子相似度;
异构图构建模块,用于将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络,其中,节点的信息为对应句子的句向量;
摘要抽取模块,用于对所述异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为所述待抽取文档的摘要句子,所述目标句子为重要程度大于阈值的节点对应的句子。
第三方面,本申请实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的摘要抽取方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的摘要抽取方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面所述的摘要抽取方法。
本申请实施例与现有技术相比存在的有益效果是:本申请根据待抽取文档中每个句子的句向量和位置信息,得到对应句子间的句子相似度,并将句子作为节点,根据句子相似度和位置信息,对节点进行连接,得到异构图网络,对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定重要程度大于阈值的节点对应的句子为待抽取文档的摘要句子,实现了摘要抽取,结合句子的句子相似度和位置信息构建的异构图网络,能够较好地反映句子的远程依赖关系,从而提高了摘要抽取的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种基于异构图网络的摘要抽取方法的流程示意图;
图2是本申请实施例二提供的一种基于异构图网络的摘要抽取方法的流程示意图;
图3是本申请实施例三提供的一种基于异构图网络的摘要抽取装置的结构示意图;
图4是本申请实施例四提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例中的终端设备可以是掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant,PDA)等,本申请实施例对终端设备的具体类型不作任何限制。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
参见图1,是本申请实施例一提供的一种基于异构图网络的摘要抽取方法的流程示意图,上述摘要抽取方法应用于终端设备。如图1所示,该摘要抽取方法可以包括以下步骤:
步骤S101,获取待抽取文档中每个句子的句向量和位置信息。
其中,句子可以是指以句号、逗号、感叹号等标点符号分割形成的文字,句子的句向量可以是指表征句子特征的向量,本申请中,可以使用双向语言表征(BidirectionalEncoder Representation from Transformers,BERT)模型、Word2Vec、Doc2vec等技术来计算句子的句向量。当然,在对待抽取文档中句子的句向量进行计算时,所有句子的计算均基于上述的一种技术,以保证句向量结构的一致性。
位置信息可以是指句子在待抽取文档中所处的段落等信息。在对待抽取文档进行处理时,可以根据定义的句子分割规则对每个句子进行标注,标注用于体现句子所处段落以及所处段落的具体位置。例如,针对有两个段落的待抽取文档,以句号、感叹号、问号等作为句子的分割符号,第一个段落的第一个句子可以标注为1-1,第一个段落的第二个句子可以标注为1-2,第二个段落的第一个句子可以标注为2-1。
本申请的终端设备中可以设置相应的软件以提供配置的相应服务界面,以提供摘要抽取服务。用户在上述服务界面中上传待抽取文档,并触发摘要抽取服务,即可得到该待抽取文档的摘要。在上述服务界面中配置有上传组件,点击上述上传组件可以获取终端设备中存储的任意文件,另外,上述服务界面的上传组件可支持同时上传多个文档,在执行摘要抽取后,针对每个文档均输出一个摘要,从而实现批量的摘要抽取。
可选的是,在获取待抽取文档中每个句子的句向量和位置信息之前,还包括:
对待抽取文档进行文本切分,得到待抽取文档中的每个句子以及句子所处段落,将句子所处的段落作为该句子的位置信息;
提取每个句子的特征向量,得到对应句子的句向量。
其中,大多数处理的待抽取文档为由多个句子和段落构成的文本档,需要对文本档进行文本切分以获取到每个句子,以及每个句子的位置信息。
计算句子的特征向量,将特征相向量作为表征该句子特征的句向量。基于BERT模型、Word2Vec、Doc2vec等技术可以计算句子的特征向量。
上述待抽取文档可以是word格式、TXT格式等文档,本申请可以使用jieba工具并设定切分规则,将待抽取文档切分为一个个句子,形成一个或者多个句子集合。具体的是,在对待抽取文档进行切分时,可以将一个段落中的句子划为一个句子集合。其中,待抽取文档的一个段落中的句子可以作为一个句子集合,若获取句子的位置信息仅为句子所在段落,则标注每个句子集合,句子集合中每个句子与该句子集合的标注关联,从而实现句子的位置信息的获取。
在一种实施方式中,上述待抽取文档可以为PDF格式的文件、图片等,此时,可先基于光学字符识别(Optical Character Recognition,OCR)技术将PDF格式文件、图片等转化为文本的格式,再对转化后的文件进行摘要抽取。
上述jieba工具是基于前缀词典实现高效的词图扫描,生成句子中所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,采用基于成词能力的隐马尔可夫模型(Hidden Markov Model,HMM)和Viterbi算法,自动将段落切分为句子,以及将句子切分为词。
步骤S102,根据任意两个句子的句向量,得到对应句子间的句子相似度。
其中,句子相似度指的是两个句子之间相似的程度,在对自然语言处理进行处理的过程中,需要找出相似句子,或者找出句子的近似表达,从而可以把类似的句子归到一起,因此,需要在得到每个句子的句向量之后,计算句子相似度。
常见的句子相似度计算方法包括:编辑距离计算方法、杰卡德系数计算方法、词频(Term Frequency,TF)计算方法、词频逆文本频率指数(Inverse Document Frequency,TFIDF)计算方法、Word2Vec计算方法。
本申请中可以采用TF计算方法,具体是,根据每个句向量,生成TF矩阵,计算TF矩阵中两个向量的相似度,即求解两个向量夹角的余弦值,余弦值越大,句子间的句子相似度越高。
步骤S103,将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络。
其中,一个节点对应一个句子,节点的信息为对应句子的句向量。
每个句子在异构图网络中形成对应的节点,每个节点的信息为对应句子的句向量,节点之间的连接形成边。其中,节点之间的连接需要依据对应句子之间的关系,本申请是根据对应句子间的相似度和每个句子的位置信息,对异构图网络中对应的节点进行连接。
异构图(Heterogeneous Graph)相较于非异构图而言,区别在于异构图中可以存在多种类型的节点和边,因此,允许不同类型的节点拥有不同维度的特征或属性,能够更好的表达节点的真实情况。
本申请中构建边的方式有两种,第一种利用句子相似度进行边的连接,结合设定相应的阈值,将句子相似度与阈值比较,在比较结果满足一定条件时,将两个句子对应的节点进行连接;第二种方式利用上述位置信息,将位置信息满足条件的两个句子对应的节点进行连接起来。
可选的是,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接包括:
将句子相似度大于相似度阈值的两个句子对应的节点进行连接;
将位置信息表征处于同一段落的任意两个句子对应的节点进行连接。
其中,句子相似度大于相似度阈值可以用于表明两个句子之间有一定的相似关系,处于同一段落的两个句子之间具备一定的位置关系。因此,在异构图中包含两种类型的边,一种是根据句子相似度形成的边,一种是根据位置信息形成的边。
举例说明,针对四个句子,分别为第一句子、第二句子、第三句子和第四句子,其中,第一句子和第二句子处于同一段落,第三句子和第四句子处于同一段落,第一句子与第二句子、第三句子、第四句子的句子相似度分别为0.5、0.6、0.9,第二句子与第三句子、第四句子的句子相似度分别为0.8、0.9,第三句子与第四句子的句子相似度为0.6,设置相似度阈值为0.7,异构图网络的节点分别为第一节点、第二节点、第三节点和第四节点,第一节点对应第一句子,第一节点的信息为第一句子的句向量,第二节点对应第二句子,第二节点的信息为第二句子的句向量,第三节点对应第三句子,第三节点的信息为第三句子的句向量,第四节点对应第四句子,第四节点的信息为第四句子的句向量,由于第一句子与第二句子处于一个段落,因此,异构图网络中第一节点与第二节点连接,由于第一句子与第四句子的句子相似度大于0.7,因此,异构图网络中第一节点与第四节点连接,由于第三句子与第四句子处于一个段落,因此,异构图网络中第三节点与第四节点连接,由于第二句子与第三句子的句子相似度大于0.7,因此,异构图网络中第二节点与第三节点连接,由于第二句子与第四句子的句子相似度大于0.7,因此,异构图网络中第二节点与第四节点连接。
步骤S104,对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为待抽取文档的摘要句子。
其中,目标句子为重要程度大于阈值的节点对应的句子。重要程度可以是指节点参与异构图网络的程度,参与异构图网络的程度越高,节点的重要程度越高。
重要程度分析可以参考以下规则:某一节点上第一类型的边越多,表明该节点越重要,其中,第一类型可以是指上述根据句子相似度形成的边,某一节点上第二类型的边越少,表明该节点越重要,其中,第二类型可以是指上述根据位置信息形成的边,节点的信息用于计算在图神经网络的某一层上该节点的重要程度。
摘要句子的抽取本质上为从待抽取文档中抽取较为重要或关键的句子,在抽取到摘要句子后,可以按照摘要句子在待抽取文档中的位置来排序,以摘要句子在待抽取文档出现的先后顺序将所有摘要句子进行整合得到摘要。
本申请中,对异构图网络中节点的重要程度分析可以基于训练好的图卷积网络(Graph Convolution Networks,GCN)、训练好的图注意力网络(Graph AttentionNetworks,GAN)、训练好的图自编码器(Graph Autoencoders,GA)、训练好的图生成网络(Graph Generative Networks,GGN)以及训练好的图时空网络(Graph Spatial-temporalNetworks,GSN)等来实现。
可选的是,对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为待抽取文档的摘要句子,目标句子为重要程度大于阈值的节点对应的句子包括:
使用GraphSAGE算法对异构图网络中每个节点的信息和连接关系进行重要程度分析,输出重要程度大于阈值的目标节点,目标节点对应的句子为目标句子;
确定目标句子为待抽取文档的摘要句子。
本申请使用基于GraphSAGE算法构成的GCN,对训练用的异构图网络中的边进行抽样和聚合,GraphSAGE算法可以有效的聚合与节点相关的信息。通过不断的分类迭代,可以得到该GCN的参数数据,然后,使用该GCN的参数数据对上述异构图网络的节点进行预测,得到关键节点或者重要程度较高的节点。
举例说明,针对一个文档,该文档包括两个段落,通过jieba工具将文档切分为两个句子集,将一个段落中的句子作为一个句子集,使用BERT模型获取每个句子的句向量,计算每个句子间的句子相似度,构建异构图网络,其中,每个句子对应一个节点,句子相似度大于相似度阈值以及处于一个段落中的两个句子对应的节点进行连接,使用GraphSAGE算法对异构图网络进行分析,输出目标节点,该目标节点对应的句子即为文档中作为摘要的句子。
目标节点的输出为输出目标节点的信息,即句向量,根据句向量从所有句子中检索到对应的句子,从而确定目标句子。
Spectral-based GCN是通过卷积训练每一个节点的embedding的方式来表达该节点,而基于GraphSAGE算法构成的GCN通过对该节点紧邻节点进行sample&aggregate的方式表达该节点。因此,基于GraphSAGE算法构成的GCN解决了传统GCN无法对新节点预估以及必须对整个网络进行训练的问题。
GraphSAGE中最重要的两个阶段为采样和聚合,采样是对于句子v对应节点的邻居节点,通过固定数量的采样方式来聚合生成句子v对应节点的embedding,以表达该句子v对应节点。其中,设置需要的邻居节点的数量S,即采样数量,若节点的邻居节点的数量少于S,则采用有放回的抽样方法,直到采样出S个邻居节点,若节点的邻居节点的数量大于S,则采用无放回的抽样,直接采样出S个邻居节点。聚合函数采用平均值聚合函数,将某个节点及其邻居节点的第k-1层向量拼接起来,然后对向量的每个维度进行求均值的操作,将得到的结果做一次非线性变换产生该节点的第k层的表示向量。
举例说明,构建一个2层(k=2)的图神经网络,将邻居节点的数据设置为25,利用标注好的文档进行迭代训练,使其分类的F1-score达到最大,训练完成后得到该图神经网络的参数数据。其中,文档的标注方式为:若该句子是文档的摘要,则标注为1,若该句子不是文档的摘要,则标注为0。
可选的是,确定目标句子为待抽取文档的摘要句子包括:
检测目标句子中句子数量是否大于预设值;
若检测到目标句子中句子数量大于与这支,则对目标句子中每个句子的重要程度按照从大到小排序,确定排列在前N位的句子为待抽取文档的摘要句子,N为大于零的整数。
其中,根据需求摘要中的句子可能不超过一定的数量(即预设值),因此,在目标句子的句子数量较多时,需要从中选择部分的句子作为摘要句子。本申请中对节点的重要程度分析后,还对节点的重要程度进行排序,也即是对句子的重要程度进行排序,取重要程度较高的前N个句子(即topN)作为摘要句子。在一种实施方式中,预设值等于N。
本申请中能够应用于医疗文档的摘要抽取,通过使用句向量以及句子在医疗文档中的位置信息,构建医疗文档的异构图网络,再对医疗文档中的句子进行预测,得到医疗文档的关键句子,取其topN个句子作为医疗文档的摘要句子,将文档进行图结构化的方式可以很好的学习到句子前后的信息以及句子隐层的含义信息,对医疗文档的摘要提取具有重要的意义。
本申请实施例根据待抽取文档中每个句子的句向量和位置信息,得到对应句子间的句子相似度,并将句子作为节点,根据句子相似度和位置信息,对节点进行连接,得到异构图网络,对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定重要程度大于阈值的节点对应的句子为待抽取文档的摘要句子,实现了摘要抽取,结合句子的句子相似度和位置信息构建的异构图网络,能够较好地反映句子的远程依赖关系,从而提高了摘要抽取的准确率。
参见图2,是本申请实施例二提供的一种基于异构图网络的摘要抽取方法的流程示意图,如图2所示,该摘要抽取方法可以包括以下步骤:
步骤S201,获取待抽取文档中每个句子的句向量和位置信息。
其中,步骤S201与上述步骤S101的内容相同,可参考步骤S101的描述,在此不再赘述。
步骤S202,根据任意两个句子的句向量,得到对应句子间的向量相似度。
其中,参考上述步骤S102的内容,通过TF计算方法可以计算两个句子的句向量之前的余弦距离,该余弦距离为句子间的向量相似度,该向量相似度用于表征句子间句向量特征的相似度。
步骤S203,根据所述的任意两个句子中的词,得到所述的对应句子间的词语相似度。
其中,句子的相似度包括句向量的相似度、词语的相似度、语法的相似度等多种维度的相似度。本申请为了得到更好的语义关系,将句向量的相似度和词语的相似度融合处理,得到句子相似度。
上述步骤S202中取任意两个句子计算句子间的向量相似度,步骤S203需要处理对象需要是这两个句子,从而得到该句子间的词语相似度。
可选的是,根据所述的任意两个句子中的词,得到所述的对应句子间的词语相似度包括:
获取两个句子中相同的词的个数和两个句子中每个句子的词的个数;
根据两个句子中相同的词的个数和两个句子中每个句子的词的个数,得到两个句子的句子间的词语相似度。
本申请中,词语相似度可以通过TextRank算法,基于单词序列计算两个句子之间的词语相似度。其中,上述TextRank算法计算词语相似度的公式如下:
Figure BDA0003316149310000121
公式中,Si表示第i个句子,Sj表示第j个句子,wk表示任一句子中的词,其中,分子部分的意思是同时出现在两个句子中的相同词的个数,分母是对句子中词的个数求对数之和。此时,分母可以遏制较长的句子在相似度计算上的优势。
步骤S204,计算句子间的向量相似度与词语相似度的加权平均值,确定加权平均值为对应句子间的句子相似度。
其中,在计算加权平均值时,可以设定向量相似度和词语相似度的权重。例如,向量相似度的权重为0.5,因此,词语相似度的权重为0.5,相当于将向量相似度与词语相似度相加求平均。若要凸显向量相似度的重要性,可将向量相似度的权重设置为大于0.5,若要凸显词语相似度的重要性,可将词语相似度的权重设置为大于0.5。
步骤S205,将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络。
步骤S206,对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为待抽取文档的摘要句子。
其中,步骤S205和步骤S206分别与上述步骤S103和步骤S104的内容相同,可参考步骤S103和步骤S104的描述,在此不再赘述。
举例说明,针对一个文档,该文档包括两个段落,通过jieba工具将文档切分为两个句子集,将一个段落中的句子作为一个句子集,使用BERT模型获取每个句子的句向量,并使用TF计算方法计算句子间的向量相似度,使用TextRank算法计算句子间的词语相似度,将向量相似度与词语相似度结合计算句子间的句子相似度,从而再根据句子相似度和位置信息构建异构图网络,其中,每个句子对应一个节点,句子相似度大于相似度阈值以及处于一个段落中的两个句子对应的节点进行连接,使用GraphSAGE算法对异构图网络进行分析,输出目标节点,该目标节点对应的句子即为文档中作为摘要的句子。
本申请实施例计算句子间的向量相似度与词语相似度的加权平均值,确定加权平均值为对应句子间的句子相似度,将句子间的向量相似度和词语相似度共同作用,可以更准确地表征句子间的句子相似度,从而有助于提高对长句语义关系的提取,使得后续异构图网络的构建更加准确,提取到的摘要句子更加准确。
对应于上文实施例的摘要抽取方法,图3示出了本申请实施例三提供的基于异构图网络的摘要抽取装置的结构框图,上述摘要抽取装置应用于终端设备,终端设备上配置有训练好的文本分类模型和关系抽取模型,终端设备可以连接的相应服务器或对话采集器等,以获取待分析对话语句等数据。为了便于说明,仅示出了与本申请实施例相关的部分。
参见图3,该摘要抽取装置包括:
信息获取模块31,用于获取待抽取文档中每个句子的句向量和位置信息;
句子相似度确定模块32,用于根据任意两个句子的句向量,得到对应句子间的句子相似度;
异构图构建模块33,用于将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络,其中,节点的信息为对应句子的句向量;
摘要抽取模块34,用于对异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为待抽取文档的摘要句子,目标句子为重要程度大于阈值的节点对应的句子。
可选的是,上述异构图构建模块33包括:
第一连接单元,用于将向量相似度大于相似度阈值的两个句子对应的节点进行连接;
第二连接单元,用于将位置信息表征处于同一段落的任意两个句子对应的节点进行连接。
可选的是,上述摘要抽取装置还包括:
文本切分模块,用于在获取待抽取文档中每个句子的句向量和位置信息之前,对待抽取文档进行文本切分,得到待抽取文档中的每个句子以及句子所处段落,将句子所处的段落作为该句子的位置信息;
句向量确定模块,用于提取每个句子的特征向量,得到对应句子的句向量。
可选的是,上述句子相似度确定模块32包括:
向量相似度确定单元,用于根据任意两个句子的句向量,得到对应句子间的向量相似度;
词语相似度确定单元,用于根据所述的任意两个句子中的词,得到所述的对应句子间的词语相似度;
句子相似度确定单元,用于计算句子间的向量相似度与词语相似度的加权平均值,确定加权平均值为对应句子间的句子相似度。
可选的是,上述词语相似度确定单元包括:
获取子单元,用于获取两个句子中相同的词的个数和两个句子中每个句子的词的个数;
相似度确定子单元,用于根据两个句子中相同的词的个数和两个句子中每个句子的词的个数,得到两个句子的句子间的词语相似度。
可选的是,上述摘要抽取模块34包括:
检测单元,用于检测目标句子中句子数量是否大于预设值;
排序单元,用于若检测到目标句子中句子数量大于预设值,则对目标句子中每个句子的重要程度按照从大到小排序,确定排列在前N位的句子为待抽取文档的摘要句子,N为大于零的整数。
可选的是,上述摘要抽取模块34包括:
节点确定单元,用于使用GraphSAGE算法对异构图网络中每个节点的信息和连接关系进行重要程度分析,输出重要程度大于阈值的目标节点,目标节点对应的句子为目标句子;
句子确定单元,用于确定目标句子为待抽取文档的摘要句子。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本申请实施例四提供的一种终端设备的结构示意图。如图4所示,该实施例的终端设备4包括:至少一个处理器40(图4中仅示出一个)、存储器41以及存储在存储器41中并可在至少一个处理器40上运行的计算机程序42,处理器40执行计算机程序42时实现上述任意各个摘要抽取方法实施例中的步骤。
该终端设备4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的举例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是CPU,该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器41在一些实施例中可以是终端设备4的内部存储单元,例如终端设备4的硬盘或内存。存储器41在另一些实施例中也可以是终端设备4的外部存储设备,例如终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器41还可以既包括终端设备4的内部存储单元也包括外部存储设备。存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如计算机程序的程序代码等。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于异构图网络的摘要抽取方法,其特征在于,所述摘要抽取方法包括:
获取待抽取文档中每个句子的句向量和位置信息;
根据任意两个句子的句向量,得到对应句子间的句子相似度;
将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络,其中,节点的信息为对应句子的句向量;
对所述异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为所述待抽取文档的摘要句子,所述目标句子为重要程度大于阈值的节点对应的句子。
2.根据权利要求1所述的摘要抽取方法,其特征在于,所述根据句子间的句子相似度和每个句子的位置信息,对节点进行连接包括:
将所述句子相似度大于相似度阈值的两个句子对应的节点进行连接;
将所述位置信息表征处于同一段落的任意两个句子对应的节点进行连接。
3.根据权利要求1所述的摘要抽取方法,其特征在于,在所述获取待抽取文档中每个句子的句向量和位置信息之前,还包括:
对所述待抽取文档进行文本切分,得到所述待抽取文档中的每个句子以及句子所处段落,将句子所处的段落作为该句子的位置信息;
提取每个句子的特征向量,得到对应句子的句向量。
4.根据权利要求1所述的摘要抽取方法,其特征在于,所述根据任意两个句子的句向量,得到对应句子间的句子相似度包括:
根据任意两个句子的句向量,得到对应句子间的向量相似度;
根据所述的任意两个句子中的词,得到所述的对应句子间的词语相似度;
计算句子间的向量相似度与词语相似度的加权平均值,确定所述加权平均值为对应句子间的句子相似度。
5.根据权利要求4所述的摘要抽取方法,其特征在于,所述根据所述的任意两个句子中的词,得到所述的对应句子间的词语相似度包括:
获取两个句子中相同的词的个数和两个句子中每个句子的词的个数;
根据所述两个句子中相同的词的个数和所述两个句子中每个句子的词的个数,得到两个句子的句子间的词语相似度。
6.根据权利要求1所述的摘要抽取方法,其特征在于,所述确定目标句子为所述待抽取文档的摘要句子包括:
检测所述目标句子中句子数量是否大于预设值;
若检测到所述目标句子中句子数量大于预设值,则对所述目标句子中每个句子的重要程度按照从大到小排序,确定排列在前N位的句子为所述待抽取文档的摘要句子,N为大于零的整数。
7.根据权利要求1至6任一项所述的摘要抽取方法,其特征在于,所述对所述异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为所述待抽取文档的摘要句子,所述目标句子为重要程度大于阈值的节点对应的句子包括:
使用GraphSAGE算法对所述异构图网络中每个节点的信息和连接关系进行重要程度分析,输出重要程度大于阈值的目标节点,所述目标节点对应的句子为目标句子;
确定目标句子为所述待抽取文档的摘要句子。
8.一种基于异构图网络的摘要抽取装置,其特征在于,所述摘要抽取装置包括:
信息获取模块,用于获取待抽取文档中每个句子的句向量和位置信息;
句子相似度确定模块,用于根据任意两个句子的句向量,得到对应句子间的句子相似度;
异构图构建模块,用于将句子作为节点,根据句子间的句子相似度和每个句子的位置信息,对节点进行连接,得到异构图网络,其中,节点的信息为对应句子的句向量;
摘要抽取模块,用于对所述异构图网络中每个节点的信息和连接关系进行重要程度分析,确定目标句子为所述待抽取文档的摘要句子,所述目标句子为重要程度大于阈值的节点对应的句子。
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的摘要抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的摘要抽取方法。
CN202111231702.7A 2021-10-22 2021-10-22 基于异构图网络的摘要抽取方法、装置、终端设备及介质 Pending CN113935314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111231702.7A CN113935314A (zh) 2021-10-22 2021-10-22 基于异构图网络的摘要抽取方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111231702.7A CN113935314A (zh) 2021-10-22 2021-10-22 基于异构图网络的摘要抽取方法、装置、终端设备及介质

Publications (1)

Publication Number Publication Date
CN113935314A true CN113935314A (zh) 2022-01-14

Family

ID=79283722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111231702.7A Pending CN113935314A (zh) 2021-10-22 2021-10-22 基于异构图网络的摘要抽取方法、装置、终端设备及介质

Country Status (1)

Country Link
CN (1) CN113935314A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996441A (zh) * 2022-04-27 2022-09-02 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114996294A (zh) * 2022-05-26 2022-09-02 阿里巴巴(中国)有限公司 回复生成方法、电子设备及计算机存储介质
CN116306687A (zh) * 2023-05-25 2023-06-23 北京梆梆安全科技有限公司 一种医疗咨询平台自检测系统及医疗咨询平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996441A (zh) * 2022-04-27 2022-09-02 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114996441B (zh) * 2022-04-27 2024-01-12 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114996294A (zh) * 2022-05-26 2022-09-02 阿里巴巴(中国)有限公司 回复生成方法、电子设备及计算机存储介质
CN116306687A (zh) * 2023-05-25 2023-06-23 北京梆梆安全科技有限公司 一种医疗咨询平台自检测系统及医疗咨询平台
CN116306687B (zh) * 2023-05-25 2023-08-18 北京梆梆安全科技有限公司 一种医疗咨询平台自检测系统及医疗咨询平台

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN111898366A (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN108027814B (zh) 停用词识别方法与装置
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN113688631B (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN114330343B (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
WO2012158572A2 (en) Exploiting query click logs for domain detection in spoken language understanding
CN111666766A (zh) 数据处理方法、装置和设备
CN111177375A (zh) 一种电子文档分类方法及装置
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111639500A (zh) 语义角色标注方法、装置、计算机设备及存储介质
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220921

Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.