CN112148871A - 摘要生成方法、装置、电子设备及存储介质 - Google Patents
摘要生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112148871A CN112148871A CN202010993704.9A CN202010993704A CN112148871A CN 112148871 A CN112148871 A CN 112148871A CN 202010993704 A CN202010993704 A CN 202010993704A CN 112148871 A CN112148871 A CN 112148871A
- Authority
- CN
- China
- Prior art keywords
- node
- word
- representation
- text
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000015654 memory Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了摘要生成方法、装置、电子设备及存储介质,涉及自然语言处理、深度学习及知识图谱领域,其中的方法可包括:获取待处理文本对应的知识图,知识图中的结点表示待处理文本中的语义概念,知识图中的边表示语义概念间的语义关系;对待处理文本进行词级别的编码,得到各词的上下文编码表示;根据各词的上下文编码表示,分别确定出知识图中的各结点的初始表示;根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;根据各结点的结点表示进行解码,得到待处理文本的摘要。应用本申请所述方案,可提升生成的摘要的语义连贯性和准确性等。
Description
技术领域
本申请涉及计算机应用技术,特别涉及自然语言处理、深度学习及知识图谱领域的摘要生成方法、装置、电子设备及存储介质。
背景技术
自动摘要技术,即指为一个或多个主题相关的文本(文档)自动生成一份摘要。在信息爆炸的今天,自动摘要技术可为读者提供简洁而重要的摘要信息,从而极大地节省读者的阅读时间以提高信息获取效率等。
目前比较常用的自动摘要方法包括抽取式方法和生成式方法。其中,抽取式方法是指从文本中抽取出多个重要的句子组合成一份摘要。生成式方法通常采用端到端生成式架构,先利用解码器将文本信息映射到高维向量,再利用解码器从高维向量中解码生成摘要。
但抽取式方法抽取的句子之间常常缺乏语义连贯性,准确性也较差。另外,生成式方法并未像人类一样真正的理解文本中的语义,生成的摘要的准确性也较差。
发明内容
有鉴于此,本申请提供了摘要生成方法、装置、电子设备及存储介质。
一种摘要生成方法,包括:
获取待处理文本对应的知识图,所述知识图中的结点表示所述待处理文本中的语义概念,所述知识图中的边表示语义概念间的语义关系;
对所述待处理文本进行词级别的编码,得到各词的上下文编码表示;
根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示;
根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;
根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
一种摘要生成装置,包括:图解析模块、词编码模块、融合模块、图编码模块以及图解码模块;
所述图解析模块,用于获取待处理文本对应的知识图,所述知识图中的结点表示所述待处理文本中的语义概念,所述知识图中的边表示语义概念间的语义关系;
所述词编码模块,用于对所述待处理文本进行词级别的编码,得到各词的上下文编码表示;
所述融合模块,用于根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示;
所述图编码模块,用于根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;
所述图解码模块,用于根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:基于端到端生成式架构,将文本信息转换成知识图结构信息,在考虑上下文信息的词级别编码基础上,显式的为文本中的语义概念以及语义概念之间的语义关系进行建模,从而可以更为清晰准确的理解和筛选文本中的重要信息,进而提升了生成的摘要的语义连贯性和准确性等。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请所述摘要生成方法实施例的流程图;
图2为本申请所述知识图的示意图;
图3为本申请所述摘要生成方法的整体实现过程示意图;
图4为本申请所述摘要生成装置实施例40的组成结构示意图;
图5为根据本申请实施例所述方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请所述摘要生成方法实施例的流程图。如图1所示,包括以下具体实现方式。
步骤101:获取待处理文本对应的知识图,知识图中的结点表示待处理文本中的语义概念,知识图中的边表示语义概念间的语义关系。
步骤102:对待处理文本进行词级别的编码,得到各词的上下文编码表示。
步骤103:根据各词的上下文编码表示,分别确定出知识图中的各结点的初始表示。
步骤104:根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示。
步骤105:根据各结点的结点表示进行解码,得到待处理文本的摘要。
上述实施例中,基于端到端生成式架构,将文本信息转换成知识图结构信息,在考虑上下文信息的词级别编码基础上,显式的为文本中的语义概念以及语义概念之间的语义关系进行建模,从而可以更为清晰准确的理解和筛选文本中的重要信息,进而提升了生成的摘要的语义连贯性和准确性等。
待处理文本中可包括N个文本,N为正整数,具体取值可根据实际需要而定。也就是说,待处理文本中可以仅包括一个文本,也可以包括多个文本,若为多个,这多个文本通常为主题相关的文本。
如步骤101中所述,可获取待处理文本对应的知识图,知识图中的结点表示待处理文本中的语义概念,知识图中的边表示语义概念间的语义关系。
文本中的语义概念以及语义概念间的语义关系对于文本理解以及生成摘要时的信息选择等都有着重要的作用。对于待处理文本,可通过文本分析工具如图解析器得到其对应的知识图,即将文本结构转换为具有语义结构的图表示。基于句法分析转换的知识图有效提取了文本中较小且完整的语义概念作为结点,并将语义概念间的语义关系用边进行表示。语义概念也可理解为可划分出的最小语义单元。
图2为本申请所述知识图的示意图。如图2所示,假设待处理文本中包括一个文本,该文本中包括以下内容:阿尔伯特·爱因斯坦(Albert Einstein),德国理论物理学家(aGerman theoretical physicist),发表了相对论(published the theory ofrelativity);他获得了诺贝尔奖(He won the Nobel Prize);相对论是现代物理学的两大支柱之一(The theory of relativity is one of the two pillars of modernphysics);这一伟大的奖项是为了表彰他对光电效应的解释(The great Prize was forhis explanation of the photoelectric effect),针对该文本,可得到如图2所示的知识图。通过融合不同句子中的语义概念等,在引入语义关系的同时,知识图中同时提供了跨句子关系和神经网络模型难以建模的长依赖关系。
如步骤102中所述,针对待处理文本,还可对其进行词(token)级别的编码,从而得到各词的上下文编码表示(向量表示)。具体地,可利用预训练模块对待处理文本进行词级别的编码,从而得到待处理文本中的各词的上下文编码表示。通过对待处理文本进行词级别的编码,可保留文本上下文相关的语义。
如步骤103中所述,在得到各词的上下文编码表示之后,还可根据各词的上下文编码表示,分别确定出知识图中的各结点的初始表示(向量表示)。
其中,对于任一结点,若能够获取到该结点对应的待融合词,则可根据待融合词的上下文编码表示确定出该结点的初始表示,待融合词的数量大于一,否则,可将该结点对应的语义概念的上下文编码表示作为该结点的初始表示,该结点对应的语义概念为一个词。
具体地,对于对应的语义概念为一个词的任一结点,若确定该词出现在待处理文本中的至少两个不同位置,则可将出现在不同位置的该词均作为该结点对应的待融合词,若确定存在与该词的表达方式不同、但表达的语义相同的其它词,则可将所述其它词及该词均作为该结点对应的待融合词。
对于同一词来说,当其出现在待处理文本中的不同位置时,其上下文编码表示也可能不同。比如,对于某一结点a来说,其对应的语义概念为词a,且词a出现在了待处理文本中的三个不同位置,那么可将出现在这三个不同位置的词a均作为结点a对应的待融合词。
再比如,对于某一结点a来说,其对应的语义概念为词a,词b与词a的表达方式不同,但表达的语义即为词a,即两者表达的语义相同,那么可将词b和词a均作为结点a对应的待融合词。
另外,对于对应的语义概念为一个短语的任一结点,可将出现在待处理文本中的各位置的、组成该短语的各词均作为该结点对应的待融合词,并且,若确定存在与该结点对应的语义概念表达方式不同、但表达的语义相同的词,则可将确定出的词也作为该结点对应的待融合词。
以图2中所示的结点“Albert Einstein”为例,其对应的语义概念为一个短语,由“Albert”和“Einstein”两个词组成,那么可将这两个词均作为该结点对应的待融合词,并且,假设这两个词均出现在了待处理文本中的两个不同位置,那么可将出现在不同位置的这两个词均作为该结点对应的待融合词,另外,如图2中所示,词“he”和“his”与“AlbertEinstein”的表达方式不同,但表达的语义均为“Albert Einstein”,那么可将“he”和“his”也作为该结点对应的待融合词。
对于知识图中的任一结点来说,若确定存在与其对应的语义概念表达方式不同、但表达的语义相同的词,可将该结点称为共指关系结点,如图2中所示的结点“AlbertEinstein”和“the Nobel Prize”等,其中,对于结点“the Nobel Prize”来说,“the greatPrize”与其表达方式不同,但表达的语义即为“the Nobel Prize”。
以上关于如何确定待融合词的方式仅为举例说明,并不用于限制本申请的技术方案,具体实现方式可根据实际需要而定。
对于任一节点,可根据其对应的待融合词的上下文编码表示确定出该结点的初始表示。比如,可计算该结点对应的各待融合词的上下文编码表示相加之和,并计算相加之和与该结点对应的待融合词的数量之商,将计算出的商作为该结点的初始表示。
假设待处理文本为前述的“Albert Einstein,a German theoreticalphysicist,published the theory of relativity;He won the Nobel Prize;Thetheory of relativity is one of the two pillars of modern physics;The greatPrize was for his explanation of the photoelectric effect”,其对应的知识图如图2所示。以其中的结点“Albert Einstein”为例,由两个词“Albert”和“Einstein”组成,这两个词在待处理文本中均只出现在了一个位置,将其均作为该结点的待融合结点,另外,词“he”和“his”与“Albert Einstein”的表达方式不同,但表达的语义即为“AlbertEinstein”,也可作为该结点对应的待融合词,这样,共可得到四个待融合词,可将这四个待融合词的上下文编码表示相加,并用相加之和除以4,得到的商即可作为结点“AlbertEinstein”的初始表示。
通过上述处理,可准确地获取到知识图中的各结点的初始表示,从而为后续处理奠定了良好的基础。
如步骤104中所述,还可根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示(向量表示),即可利用图编码器对知识图进行结点级别的编码,从而得到考虑了知识图结构的结点表示。
传统的基于图神经网络的图编码器往往不能很好的对多跳关系进行建模,然而在实际应用中多跳关系往往十分重要。具体到本申请中,待处理文本在转换成知识图后,句子中的主语和宾语往往是二阶邻居关系,而主语和宾语的关系往往比主语和谓语以及谓语和宾语更加重要。
因此,本申请中提出,可在知识图中增加结点与其二阶邻居结点之间的捷径边,对于任一结点,其二阶邻居结点为通过一个其它结点与该结点相连的结点。以图2中所示的结点“Albert Einstein”为例,结点“the Nobel Prize”等即为其二阶邻居结点,可将二阶邻居结点“the Nobel Prize”等与结点“Albert Einstein”直接通过边相连。进一步地,可根据各结点的初始表示以及增加捷径边后的各结点间的连接关系进行编码,从而得到各结点的结点表示。
上述处理方式中,通过增加结点到其二阶邻居结点的捷径边,实现了图编码器对于图中的多跳关系建模的加强,从而提升了获取到的结点表示的准确性等。
如步骤105中所述,还可根据各结点的结点表示进行解码,从而得到待处理文本的摘要,即可利用图解码器,根据知识图中的各结点的结点表示进行解码,从而得到最终所需的待处理文本的摘要。
优选地,可基于图传递的注意力机制,根据各结点的结点表示进行解码,从而得到待处理文本的摘要。传统的注意力机制对于编码信息往往是线性的序列化处理,未考虑图结构,本申请中提出,可使用图传递的注意力机制,即先像传统的注意力机制一样线性的预测每个结点的重要程度,然后将重要程度在图中传播从而得到考虑了图结构的注意力,进而提升了解码结果的准确性等。
另外,借助于知识图来进行编码和解码,并借助于上述的图传递的注意力机制等,相比于现有方式可以更为有效、准确地处理输入的长文本。
基于上述介绍,图3为本申请所述摘要生成方法的整体实现过程示意图。如图3所示,在预处理阶段,可利用图解析器解析得到待处理文本对应的知识图,并且,针对待处理文本,可利用预训练模型进行词级别的编码,从而得到待处理文本中的各词的上下文编码表示,之后,可根据得到的各词的上下文编码表示,通过融合等处理,分别确定出知识图中的各结点的初始表示,之后,可根据各结点的初始表示以及各结点间的连接关系等进行编码,从而得到各结点的结点表示,进一步地,可根据各结点的结点表示进行解码,从而得到待处理文本的摘要,其中,在解码时,可采用图传递的注意力机制等。
如何获取待处理文本对应的知识图、如何得到各词的上下文编码表示以及如何进行编码和解码等均为现有技术,其它具体实现请参照前述相关说明,不再赘述。
另外,需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图4为本申请所述摘要生成装置实施例40的组成结构示意图。如图4所示,包括:图解析模块401、词编码模块402、融合模块403、图编码模块404以及图解码模块405。
图解析模块401,用于获取待处理文本对应的知识图,知识图中的结点表示待处理文本中的语义概念,知识图中的边表示语义概念间的语义关系。
词编码模块402,用于对待处理文本进行词级别的编码,得到各词的上下文编码表示。
融合模块403,用于根据各词的上下文编码表示,分别确定出知识图中的各结点的初始表示。
图编码模块404,用于根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示。
图解码模块405,用于根据各结点的结点表示进行解码,得到待处理文本的摘要。
其中,待处理文本包括:N个文本,N为正整数。也就是说,待处理文本中可以仅包括一个文本,也可以包括多个文本,若为多个,这多个文本通常为主题相关的文本。
对于待处理文本,图解析模块401可通过文本分析工具如图解析器得到其对应的知识图,即将文本结构转换为具有语义结构的图表示。
针对待处理文本,词编码模块402还可利用预训练模型对其进行词级别的编码,从而得到各词的上下文编码表示。
在得到各词的上下文编码表示之后,融合模块403还可根据各词的上下文编码表示,分别确定出知识图中的各结点的初始表示。
其中,融合模块403针对任一结点,若能够获取到该结点对应的待融合词,则可根据待融合词的上下文编码表示确定出该结点的初始表示,待融合词的数量大于一,否则,可将该结点对应的语义概念的上下文编码表示作为该结点的初始表示,该结点对应的语义概念为一个词。
具体地,融合模块403可针对对应的语义概念为一个词的任一结点,若确定该词出现在待处理文本中的至少两个不同位置,则可将出现在不同位置的该词均作为该结点对应的待融合词,若确定存在与该词的表达方式不同、但表达的语义相同的其它词,则可将所述其它词及该词均作为该结点对应的待融合词。
另外,融合模块403可针对对应的语义概念为一个短语的任一结点,将出现在待处理文本中的各位置的、组成该短语的各词均作为该结点对应的待融合词,并且,若确定存在与该结点对应的语义概念表达方式不同、但表达的语义相同的词,则可将确定出的词作为该结点对应的待融合词。
针对任一结点,融合模块403可计算该结点对应的各待融合词的上下文编码表示相加之和,并计算相加之和与该结点对应的待融合词的数量之商,将计算出的商作为该结点的初始表示。
进一步地,图编码模块404可根据各结点的初始表示以及各结点间的连接关系进行编码,从而得到各结点的结点表示。优选地,图编码模块404还可在知识图中增加结点与其二阶邻居结点之间的捷径边,对于任一结点,其二阶邻居结点为通过一个其它结点与该结点相连的结点,并可根据各结点的初始表示以及增加捷径边后的各结点间的连接关系进行编码,得到各结点的结点表示。
图解码模块405可根据各结点的结点表示进行解码,从而得到待处理文本的摘要。优选地,图解码模块405可基于图传递的注意力机制,根据各结点的结点表示进行解码,从而得到待处理文本的摘要。
图4所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本申请装置实施例所述方案,基于端到端生成式架构,将文本信息转换成知识图结构信息,在考虑上下文信息的词级别编码基础上,显式的为文本中的语义概念以及语义概念之间的语义关系进行建模,从而可以更为清晰准确的理解和筛选文本中的重要信息,进而提升了生成的摘要的语义连贯性和准确性等。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管或者液晶显示器监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网、广域网、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种摘要生成方法,包括:
获取待处理文本对应的知识图,所述知识图中的结点表示所述待处理文本中的语义概念,所述知识图中的边表示语义概念间的语义关系;
对所述待处理文本进行词级别的编码,得到各词的上下文编码表示;
根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示;
根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;
根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
2.根据权利要求1所述的方法,其中,
所述待处理文本包括:N个文本,N为正整数;
所述对所述待处理文本进行词级别的编码包括:利用预训练模型对所述待处理文本进行词级别的编码。
3.根据权利要求1所述的方法,其中,所述根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示包括:
对于任一结点,若能够获取到所述结点对应的待融合词,则根据所述待融合词的上下文编码表示确定出所述结点的初始表示,所述待融合词的数量大于一,否则,将所述结点对应的语义概念的上下文编码表示作为所述结点的初始表示,所述结点对应的语义概念为一个词。
4.根据权利要求3所述的方法,其中,
所述能够获取到所述结点对应的待融合词包括:
对于对应的语义概念为一个词的任一结点,若确定所述词出现在所述待处理文本中的至少两个不同位置,则将出现在不同位置的所述词均作为所述结点对应的待融合词,若确定存在与所述词的表达方式不同、但表达的语义相同的其它词,则将所述其它词及所述词均作为所述结点对应的待融合词;
对于对应的语义概念为一个短语的任一结点,将出现在所述待处理文本中的各位置的、组成所述短语的各词均作为所述结点对应的待融合词,并且,若确定存在与所述结点对应的语义概念表达方式不同、但表达的语义相同的词,则将确定出的词作为所述结点对应的待融合词。
5.根据权利要求3所述的方法,其中,所述根据所述待融合词的上下文编码表示确定出所述结点的初始表示包括:
对于任一结点,计算所述结点对应的各待融合词的上下文编码表示相加之和,并计算所述相加之和与所述结点对应的待融合词的数量之商,将计算出的商作为所述结点的初始表示。
6.根据权利要求1所述的方法,还包括:
在所述知识图中增加结点与其二阶邻居结点之间的捷径边,对于任一结点,其二阶邻居结点为通过一个其它结点与所述结点相连的结点;
根据各结点的初始表示以及增加所述捷径边后的各结点间的连接关系进行编码,得到各结点的结点表示。
7.根据权利要求1所述的方法,其中,所述根据各结点的结点表示进行解码,得到所述待处理文本的摘要包括:
基于图传递的注意力机制,根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
8.一种摘要生成装置,包括:图解析模块、词编码模块、融合模块、图编码模块以及图解码模块;
所述图解析模块,用于获取待处理文本对应的知识图,所述知识图中的结点表示所述待处理文本中的语义概念,所述知识图中的边表示语义概念间的语义关系;
所述词编码模块,用于对所述待处理文本进行词级别的编码,得到各词的上下文编码表示;
所述融合模块,用于根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示;
所述图编码模块,用于根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;
所述图解码模块,用于根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
9.根据权利要求8所述的装置,其中,
所述待处理文本包括:N个文本,N为正整数;
所述词编码模块利用预训练模型对所述待处理文本进行词级别的编码。
10.根据权利要求8所述的装置,其中,所述融合模块针对任一结点,若能够获取到所述结点对应的待融合词,则根据所述待融合词的上下文编码表示确定出所述结点的初始表示,所述待融合词的数量大于一,否则,将所述结点对应的语义概念的上下文编码表示作为所述结点的初始表示,所述结点对应的语义概念为一个词。
11.根据权利要求10所述的装置,其中,
所述融合模块针对对应的语义概念为一个词的任一结点,若确定所述词出现在所述待处理文本中的至少两个不同位置,则将出现在不同位置的所述词均作为所述结点对应的待融合词,若确定存在与所述词的表达方式不同、但表达的语义相同的其它词,则将所述其它词及所述词均作为所述结点对应的待融合词;
所述融合模块针对对应的语义概念为一个短语的任一结点,将出现在所述待处理文本中的各位置的、组成所述短语的各词均作为所述结点对应的待融合词,并且,若确定存在与所述结点对应的语义概念表达方式不同、但表达的语义相同的词,则将确定出的词作为所述结点对应的待融合词。
12.根据权利要求10所述的装置,其中,所述融合模块针对任一结点,计算所述结点对应的各待融合词的上下文编码表示相加之和,并计算所述相加之和与所述结点对应的待融合词的数量之商,将计算出的商作为所述结点的初始表示。
13.根据权利要求8所述的装置,其中,所述图编码模块进一步用于,在所述知识图中增加结点与其二阶邻居结点之间的捷径边,对于任一结点,其二阶邻居结点为通过一个其它结点与所述结点相连的结点,根据各结点的初始表示以及增加所述捷径边后的各结点间的连接关系进行编码,得到各结点的结点表示。
14.根据权利要求8所述的装置,其中,所述图解码模块基于图传递的注意力机制,根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010993704.9A CN112148871B (zh) | 2020-09-21 | 2020-09-21 | 摘要生成方法、装置、电子设备及存储介质 |
JP2021048484A JP7178441B2 (ja) | 2020-09-21 | 2021-03-23 | 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体 |
US17/212,331 US20220092252A1 (en) | 2020-09-21 | 2021-03-25 | Method for generating summary, electronic device and storage medium thereof |
EP21170145.3A EP3971761A1 (en) | 2020-09-21 | 2021-04-23 | Method and apparatus for generating summary, electronic device and storage medium thereof |
KR1020210113179A KR20220039576A (ko) | 2020-09-21 | 2021-08-26 | 요약 생성 방법, 장치, 전자 기기 및 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010993704.9A CN112148871B (zh) | 2020-09-21 | 2020-09-21 | 摘要生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148871A true CN112148871A (zh) | 2020-12-29 |
CN112148871B CN112148871B (zh) | 2024-04-12 |
Family
ID=73893401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010993704.9A Active CN112148871B (zh) | 2020-09-21 | 2020-09-21 | 摘要生成方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220092252A1 (zh) |
EP (1) | EP3971761A1 (zh) |
JP (1) | JP7178441B2 (zh) |
KR (1) | KR20220039576A (zh) |
CN (1) | CN112148871B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484870A (zh) * | 2022-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备、介质及计算机产品 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580354B (zh) * | 2022-05-05 | 2022-10-28 | 阿里巴巴达摩院(杭州)科技有限公司 | 基于同义词的信息编码方法、装置、设备和存储介质 |
WO2024167035A1 (ko) * | 2023-02-08 | 2024-08-15 | 엘지전자 주식회사 | 시맨틱 통신에서 시맨틱 표현에 기반하여 배경 지식 업데이트를 수행하기 위한 장치 및 방법 |
CN115905598B (zh) * | 2023-02-24 | 2023-05-16 | 中电科新型智慧城市研究院有限公司 | 一种社会事件摘要生成的方法、装置、终端设备及介质 |
CN116484010B (zh) * | 2023-03-15 | 2024-01-16 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
CN116595192B (zh) * | 2023-05-18 | 2023-11-21 | 中国科学技术信息研究所 | 科技前沿信息获取方法、装置、电子设备和可读存储介质 |
CN116562275B (zh) * | 2023-06-09 | 2023-09-15 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
CN116561299B (zh) * | 2023-07-10 | 2023-10-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 代码摘要生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES1049384Y (es) * | 2001-06-12 | 2002-09-01 | Figueras Int Seating Sa | Respaldo para butacas perfeccionado. |
US7774198B2 (en) * | 2006-10-06 | 2010-08-10 | Xerox Corporation | Navigation system for text |
US9886501B2 (en) * | 2016-06-20 | 2018-02-06 | International Business Machines Corporation | Contextual content graph for automatic, unsupervised summarization of content |
JP6635307B2 (ja) * | 2016-10-20 | 2020-01-22 | 日本電信電話株式会社 | 要約生成装置、テキスト変換装置、方法、及びプログラム |
JP6622236B2 (ja) * | 2017-03-06 | 2019-12-18 | 株式会社日立製作所 | 発想支援装置及び発想支援方法 |
US11615240B2 (en) * | 2019-08-15 | 2023-03-28 | Salesforce.Com, Inc | Systems and methods for a transformer network with tree-based attention for natural language processing |
US11397575B2 (en) * | 2020-12-15 | 2022-07-26 | Sap Se | Microservices graph generation |
-
2020
- 2020-09-21 CN CN202010993704.9A patent/CN112148871B/zh active Active
-
2021
- 2021-03-23 JP JP2021048484A patent/JP7178441B2/ja active Active
- 2021-03-25 US US17/212,331 patent/US20220092252A1/en not_active Abandoned
- 2021-04-23 EP EP21170145.3A patent/EP3971761A1/en not_active Withdrawn
- 2021-08-26 KR KR1020210113179A patent/KR20220039576A/ko not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
Non-Patent Citations (2)
Title |
---|
JOSEPH L. GASTWIRTH: "Some important statistical issues courts should consider in their assessment of statistical analyses submitted in class certification motions: implications for Dukes v. Wal-mart", IEEE, 30 September 2011 (2011-09-30) * |
尹延洁;崔雷;: "利用MeSH组配规则自动抽取表达特定语义关系句子的探索", 中华医学图书情报杂志, no. 10, 15 October 2019 (2019-10-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484870A (zh) * | 2022-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备、介质及计算机产品 |
CN116484870B (zh) * | 2022-09-09 | 2024-01-05 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112148871B (zh) | 2024-04-12 |
JP2022051666A (ja) | 2022-04-01 |
KR20220039576A (ko) | 2022-03-29 |
US20220092252A1 (en) | 2022-03-24 |
EP3971761A1 (en) | 2022-03-23 |
JP7178441B2 (ja) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148871B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
KR102497945B1 (ko) | 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 | |
KR102521765B1 (ko) | 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체 | |
JP7264866B2 (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
KR20210124938A (ko) | 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체 | |
US11537792B2 (en) | Pre-training method for sentiment analysis model, and electronic device | |
JP7267342B2 (ja) | 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN111859994A (zh) | 机器翻译模型获取及文本翻译方法、装置及存储介质 | |
JP2022018095A (ja) | マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体 | |
JP2021149916A (ja) | ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
CN111831814A (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 | |
CN112507101A (zh) | 一种建立预训练语言模型的方法和装置 | |
CN114281968B (zh) | 一种模型训练及语料生成方法、装置、设备和存储介质 | |
CN112506949A (zh) | 结构化查询语言查询语句生成方法、装置及存储介质 | |
JP2022008207A (ja) | トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体 | |
JP7286737B2 (ja) | テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム | |
CN113723278A (zh) | 表格信息提取模型的训练方法及装置 | |
CN112528669A (zh) | 多语言模型的训练方法、装置、电子设备和可读存储介质 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN113641830A (zh) | 模型预训练方法、装置、电子设备和存储介质 | |
CN112507697A (zh) | 事件名的生成方法、装置、设备及介质 | |
CN112507705B (zh) | 一种位置编码的生成方法、装置及电子设备 | |
CN111310481B (zh) | 语音翻译方法、装置、计算机设备和存储介质 | |
CN114580439B (zh) | 翻译模型训练方法、翻译方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |