CN113268588A - 文本摘要提取方法、装置、设备、存储介质及程序产品 - Google Patents
文本摘要提取方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN113268588A CN113268588A CN202110667820.6A CN202110667820A CN113268588A CN 113268588 A CN113268588 A CN 113268588A CN 202110667820 A CN202110667820 A CN 202110667820A CN 113268588 A CN113268588 A CN 113268588A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- text unit
- unit
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本摘要提取方法、装置、设备、存储介质及程序产品,所述方法包括:对待提取文本进行依存句法分析得到待提取文本中各文本单元对应的依存关系分析结果;将各文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各文本单元的拼接向量;根据拼接向量对各文本单元进行预测得到表征各文本单元是否属于摘要的预测结果;根据预测结果确定属于文本摘要的目标文本单元,根据各目标文本单元得到待提取文本的摘要。本发明结合文本中各个文本单元本身的内容信息和依存关系分析结果作为摘要提取依据,提高了摘要提取的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本摘要提取方法、装置、设备、存储介质及程序产品。
背景技术
在大数据时代,文本摘要是一项举足轻重的任务,有着广泛的应用。一方面,通过文本摘要可以使得用户快速获取相关文本的重点信息;另一方面,在智能问答领域,通过文本摘要,可以有效提升文本匹配的准确性。然而,目前的文本摘要提取方法简单地将文本中词频较高的词提取出来作为摘要,准确度不高。
发明内容
本发明的主要目的在于提供一种文本摘要提取方法、装置、设备、存储介质及程序产品,旨在解决目前通过将文本中词频较高的词提取出来作为摘要的摘要提取方法准确度不高的技术问题。
为实现上述目的,本发明提供一种文本摘要提取方法,所述方法包括以下步骤:
对待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
可选地,所述依存关系分析结果包括所述文本单元所属的依存关系类型,所述将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量的步骤包括:
将各所述文本单元分别进行向量化得到文本单元向量;
将各所述文本单元所属的依存关系类型分别进行向量化得到类型向量;
至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量。
可选地,所述依存关系分析结果还包括所述文本单元对应的依存位置,所述依存位置为与所述文本单元存在依存关系的另一文本单元在所述待提取文本中的位置,所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤之前,还包括:
将各所述文本单元对应的所述依存位置分别进行向量化得到位置向量;
所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤包括:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述位置向量拼接得到所述文本单元的拼接向量。
可选地,所述依存关系分析结果还包括所述文本单元在所属依存关系中的关系成分,所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤之前,还包括:
将各所述文本单元对应的所述关系成分分别进行向量化得到成分向量;
所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤包括:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述成分向量拼接得到所述文本单元的拼接向量。
可选地,所述将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量的步骤包括:
将所述文本单元输入预设的预训练模型进行处理得到文本单元向量;
将所述文本单元的依存关系分析结果进行向量化得到分析结果向量;
将所述文本单元向量和所述分析结果向量进行拼接得到所述文本单元的拼接向量。
可选地,所述根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果的步骤包括:
将各所述文本单元的拼接向量输入预设的多层感知机进行预测得到各所述文本单元属于摘要的概率,将所述概率作为预测结果。
可选地,所述根据各所述目标文本单元得到所述待提取文本的摘要的步骤包括:
按照各所述目标文本单元在所述待提取文本中出现的先后顺序将各所述目标文本单元拼接得到所述待提取文本的摘要。
为实现上述目的,本发明还提供一种文本摘要提取装置,所述文本摘要提取装置包括:
分析模块,用于对所述待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
拼接模块,用于将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
预测模块,用于根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
确定模块,用于根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
为实现上述目的,本发明还提供一种文本摘要提取设备,所述文本摘要提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本摘要提取程序,所述文本摘要提取程序被所述处理器执行时实现如上所述的文本摘要提取方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本摘要提取程序,所述文本摘要提取程序被处理器执行时实现如上所述的文本摘要提取方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的文本摘要提取方法的步骤。
本发明中,通过对待提取文本进行依存句法分析得到待提取文本中各文本单元对应的依存关系分析结果,将各文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各文本单元的拼接向量,根据拼接向量对各文本单元进行预测得到表征各文本单元是否属于摘要的预测结果,根据预测结果确定属于文本摘要的目标文本单元,根据各目标文本单元得到待提取文本的摘要。相比于仅简单地依据词频来提取摘要的方法,本发明中实现了在提取文本摘要时,不只简单地将文本中各个文本单元本身的内容信息作为提取依据,还结合了文本中各个文本单元的依存关系分析结果作为提取依据,提高了摘要提取的准确度。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明文本摘要提取方法第一实施例的流程示意图;
图3为本发明实施例涉及的一种文本摘要提取流程示意图;
图4为本发明文本摘要提取装置较佳实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例文本摘要提取设备可以是智能手机、个人计算机和服务器等设备,在此不做具体限制。
如图1所示,该文本摘要提取设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对文本摘要提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本摘要提取程序。操作系统是管理和控制设备硬件和软件资源的程序,支持文本摘要提取程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的文本摘要提取程序,并执行以下操作:
对待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
进一步地,所述依存关系分析结果包括所述文本单元所属的依存关系类型,所述将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量的步骤包括:
将各所述文本单元分别进行向量化得到文本单元向量;
将各所述文本单元所属的依存关系类型分别进行向量化得到类型向量;
至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量。
进一步地,所述依存关系分析结果还包括所述文本单元对应的依存位置,所述依存位置为与所述文本单元存在依存关系的另一文本单元在所述待提取文本中的位置,所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤之前,处理器1001还可以用于调用存储器1005中存储的文本摘要提取程序,执行以下操作:
将各所述文本单元对应的所述依存位置分别进行向量化得到位置向量;
所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤包括:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述位置向量拼接得到所述文本单元的拼接向量。
进一步地,所述依存关系分析结果还包括所述文本单元在所属依存关系中的关系成分,所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤之前,处理器1001还可以用于调用存储器1005中存储的文本摘要提取程序,执行以下操作:
将各所述文本单元对应的所述关系成分分别进行向量化得到成分向量;
所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤包括:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述成分向量拼接得到所述文本单元的拼接向量。
进一步地,所述将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量的步骤包括:
将所述文本单元输入预设的预训练模型进行处理得到文本单元向量;
将所述文本单元的依存关系分析结果进行向量化得到分析结果向量;
将所述文本单元向量和所述分析结果向量进行拼接得到所述文本单元的拼接向量。
进一步地,所述根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果的步骤包括:
将各所述文本单元的拼接向量输入预设的多层感知机进行预测得到各所述文本单元属于摘要的概率,将所述概率作为预测结果。
进一步地,所述根据各所述目标文本单元得到所述待提取文本的摘要的步骤包括:
按照各所述目标文本单元在所述待提取文本中出现的先后顺序将各所述目标文本单元拼接得到所述待提取文本的摘要。
基于上述的结构,提出文本摘要提取方法的各个实施例。
参照图2,图2为本发明文本摘要提取方法第一实施例的流程示意图。
本发明实施例提供了文本摘要提取方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,文本摘要提取方法执行主体可以是智能手机、个人计算机、服务器等设备,为便于描述,以下以省略执行主体进行各实施例的阐述。在本实施例中,文本摘要提取方法包括:
步骤S10,对待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
将需要提取摘要的文本作为待提取文本,对待提取文本进行依存句法分析,得到待提取文本中各文本单元对应的依存关系分析结果(以下或简称为分析结果),也即,得到每个文本单元分别对应的依存关系分析结果。其中,在本实施例中,依存句法分析可以是指分析句子中词与词之间的依存关系,如主谓、动宾、定中等依存关系。文本单元可以是文本中的词或字,也即,若以词(一个词可能包括多个字)划分,那么对待提取文本中的各个词即各个文本单元,若以字划分,那么待提取文本中的各个字即各个文本单元。
文本单元的依存关系分析结果可以包括该文本单元是否与另一文本单元之间存在依存关系;或者,若该文本单元与另一文本单元之间存在依存关系,则分析结果还可以进一步包括该文本单元所属的依存关系类型,也即与另一文本单元之间的依存关系的类型;或者,若确定了该文本单元所属的依存关系类型,则分析结果还可以进一步包括该文本单元在其所属的依存关系中的成分(以下称为该文本单元的关系成分),例如,是主谓关系中的主语成分还是谓语成分;或者,若确定了该文本单元与另一文本单元之间存在依存关系,则分析结果还可以进行一步包括与该文本单元存在依存关系的另一文本单元在待提取文本中的位置(以下称为该文本单元的依存位置)。
在一实施方式中,对于两个不存在依存关系的文本单元,可以将这两个文本单元所属的依存关系类型、关系成分和依存位置都视为空,那么,文本单元的依存关系分析结果可以包括该文本单元所属的依存关系类型、关系成分和依存位置中的一项或多项。可以理解的是,当依存关系分析结果所包括的信息项越多,对待提取文本提取摘要时所依据的内容就越丰富,提取得到的摘要就越准确,而同时地,由于所依据的内容越多,提取摘要是算法处理的内容越多,计算效率也越低,因此,在具体应用场景中,可以根据对准确度和计算效率的要求,对依存关系分析结果所包括的信息项进行调整,以使得文本摘要提取满足准确度和计算效率的要求。
在本实施例中,对依存句法分析的具体方法并不做限制,可以采用常规的依存句法分析方法,例如基于图的依存句法分析方法。需要说明的是,依存句法分析是针对词的依存关系分析,得到的是各个词的依存关系分析结果,当文本单元是字时,可以将该字所属的词的依存关系分析结果作为该字的依存关系分析结果,那么,可以理解的是,一个词中的各个字的依存关系分析结果是相同的。
步骤S20,将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
在得到各个文本单元的依存关系分析结果后,可以将各个文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各个文本单元的拼接向量。具体地,可以先将待提取文本通过分词或字符切分的方式划分得到各个文本单元,再将每个文本单元转换为向量,得到各个文本单元的向量表示(或称为文本单元向量)。将文本单元转换为向量的方法有多种,在本实施例中并不做限制,例如,可以采用预训练模型进行转换;其中,预训练模型可以是预先设置的自然语言处理领域的一种预训练模型,具体是哪一种在本实施例中不作限制,例如,可以是BERT、Roberta、AlBERT、XLNet等预训练模型;自然语言处理领域的预训练模型是采用领域无关的文本训练集(也即通用领域的文本训练集)进行训练得到的,用于对文本语句进行语义理解给出语义表示。将各个文本单元的依存关系分析结果也分别转换为向量,得到各个依存关系分析结果的向量表示(或称为分析结果向量)。将依存关系分析结果转换为向量的方法也有多种,在本实施例中并不做限制;例如,可以预先对各种可能的依存关系分析结果进行编码(例如独热编码),得到每种依存关系分析结果的向量表示,在转换时,将依存关系分析结果转换为对应的向量表示即可。将文本单元的向量表示和该文本单元对应的依存关系分析结果的向量表示进行拼接,即可得到该文本单元的拼接向量,对每个文本单元进行同样的处理,即可得到各个文本单元分别对应的拼接向量。其中,对两个向量表示进行拼接的方式具体可以是:将长度为n的向量表示后拼接长度为m的向量表示得到长度为(n+m)的拼接向量。
步骤S30,根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
在得到各个文本单元的拼接向量后,可以根据拼接向量对各个文本单元进行预测,得到表征各个文本单元是否属于摘要的预测结果。具体地,可以将各个拼接向量作为多层感知机的输入,经过网络中各隐藏层的处理,输出得到各个文本单元属于摘要的概率,将概率作为预测结果;或者将概率与一个设定的阈值进行比较,若大于该阈值,则得到该文本单元属于摘要的预测结果,若不大于该阈值,则得到该文本单元部署于摘要的预测结果。多层感知机的隐藏层结构可以根据具体需要进行设置,模型参数可以通过预先采集的训练数据集训练得到,训练过程在本实施例中不做限制。
步骤S40,根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
在得到各个文本单元对应的预测结果后,即可根据预测结果确定待提取文本中属于文本摘要的文本单元(以下称为目标文本单元),根据各个目标文本单元即可得到待提取文本的摘要。具体地,可以将各个目标文本单元拼接得到摘要,拼接的顺序在本实施例中不做限制;例如,可以是根据各个目标文本单元的关系成分确定拼接顺序,如可以按照主谓宾的顺序拼接。
进一步地,在一实施方式中,可以按照各目标文本单元在待提取文本中出现的先后顺序将各目标文本单元拼接得到待提取文本的摘要。例如,对于待提取文本“喂,那个就是我那个还款没有成功”,确定其中的“还”、“款”、“没”、“有”、“成”、“功”是属于摘要的目标文本单元,将各个目标文本单元按照其在待提取文本中出现的先后顺序拼接得到摘要“还款没有成功”。
在本实施例中,通过对待提取文本进行依存句法分析得到待提取文本中各文本单元对应的依存关系分析结果,将各文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各文本单元的拼接向量,根据拼接向量对各文本单元进行预测得到表征各文本单元是否属于摘要的预测结果,根据预测结果确定属于文本摘要的目标文本单元,根据各目标文本单元得到待提取文本的摘要。相比于仅简单地依据词频来提取摘要的方法,本实施例中实现了在提取文本摘要时,不只简单地将文本中各个文本单元本身的内容信息作为提取依据,还结合了文本中各个文本单元的依存关系分析结果作为提取依据,提高了摘要提取的准确度。
进一步地,基于上述第一实施例,提出本发明文本摘要提取方法第二实施例,在本实施例中,所述步骤S20包括:
步骤S201,将各所述文本单元分别进行向量化得到文本单元向量;
在本实施例中,文本单元的依存关系分析结果可包括该文本单元所属的依存关系类型。其中,若一个文本单元与其他文本单元之间不存在依存关系,则可以将该文本单元的依存关系类型记为空。
将各个文本单元分别进行向量化得到文本单元向量。其中,若在对待提取文本进行依存句法分析时已对待提取文本切分得到各个文本单元,则可以直接对切分得到的各个文本单元进行向量化。否则,可以先将待提取文本进行切分得到各个文本单元,再对各个文本单元件向量化。需要说明的是,将文本单元进行向量化的方式有多种,在本实施例中并不做限制。
步骤S202,将各所述文本单元所属的依存关系类型分别进行向量化得到类型向量;
将各文本单元所属的依存关系类型分别进行向量化得到类型向量。可以预先对所有可能的依存关系类型进行编码,将编码作为该依存关系类型对应的类型向量。例如,假设一共有5种类型(包括空类型),采用独热编码的方式进行编码,类型向量一共有5位,分别对应5种类型,第一种是10000,第二种是01000,第三种是00100,依次类推。
步骤S203,至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量。
在得到文本单元的文本单元向量和该文本单元的依存关系类型的类型向量后,可以至少根据文本单元向量和类型向量拼接得到该文本单元的拼接向量。在一实施方式中,可以仅将文本单元向量和类型向量进行拼接,得到该文本单元的拼接向量。例如,文本单元向量的长度是128位,类型向量的长度是5位,拼接得到132位的拼接向量。在其他实施方式中,还可以在文本单元向量和类型向量的基础上拼接其他信息,例如还可以拼接文本单元的词性向量。
在本实施例中,通过将待提取文本中的各个文本单元转换为文本单元向量,将文本单元所属的依存关系类型转换为类型向量,将文本单元向量和类型向量进行拼接得到文本单元的拼接向量,根据拼接向量预测得到表征文本单元是否属于文本摘要的预测结果,根据预测结果确定属于文本摘要的目标文本单元,并根据目标文本单元得到待提取文本的摘要,实现了结合待提取文本中各个文本单元本身的内容和文本单元的依存关系类型来判断文本单元是否属于摘要,提高了文本摘要提取的准确度。
进一步地,在一实施方式中,所述步骤S203之前,还包括:
步骤S204,将各所述文本单元对应的所述依存位置分别进行向量化得到位置向量;
在本实施例中,文本单元的依存关系分析结果还可包括该文本单元对应的依存位置,也即与该文本单元存在依存关系的另一文本单元在待提取文本中的位置。
在得到文本单元对应的依存位置后,将依存位置进行向量化得到位置向量。具体地,将依存位置进行向量化的方式可以是采用一个长度为待提取文本长度的向量来表示位置向量,位置向量中各个元素分别对应待提取文本中的各个文本单元,将与该文本单元存在依存关系的文本单元多对应位置的元素置1,其余元素置0,即可得到该文本向量的依存位置转换得到的位置向量。需要说明的是,若一个文本单元与其他文本单元不存在依存关系,那么该文本单元的位置向量的各个元素可都置为0。
所述步骤S203包括:
步骤S2031,至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述位置向量拼接得到所述文本单元的拼接向量。
在得到文本单元的文本单元向量、类型向量和位置向量后,可以至少拼接根据文本单元向量、类型向量和位置向量拼接得到文本单元的拼接向量。在一实施方式中,可以将文本单元向量、类型向量和位置向量三者拼接得到文本单元的拼接向量。例如,文本单元向量的长度为128位,类型向量的长度为5位,位置向量的长度为10位,拼接得到长度为142位的拼接向量。在其他实施方式中,还可以在文本单元向量、类型向量和位置向量的基础上拼接其他信息,例如还可以拼接文本单元的词性向量。
在本实施例中,通过将文本单元的依存位置转换为位置向量,根据文本单元的文本单元向量、类型向量和位置向量拼接得到拼接向量,根据拼接向量预测得到表征文本单元是否属于文本摘要的预测结果,根据预测结果确定属于文本摘要的目标文本单元,并根据目标文本单元得到待提取文本的摘要,实现了结合待提取文本中各个文本单元本身的内容和文本单元的依存关系类型以及依存位置来判断文本单元是否属于摘要,利用了具备依存关系的文本单元之间的位置关系来进行摘要提取,进一步地提高了文本摘要提取的准确度。
进一步地,在一实施方式中,所述步骤S203之前,还包括:
步骤S205,将各所述文本单元对应的所述关系成分分别进行向量化得到成分向量;
在本实施例中,文本单元的依存关系分析结果还可以包括该文本单元在所属依存关系中的关系成分。
在得到文本单元的关系成分后,将关系成分进行向量化得到成分向量。具体地,文本单元在其所属依存关系中的关系成分有2种,一个是关系头一个是关系尾,可以直接采用一个位元素来表示这两种关系成分,例如,1表示关系头,0表示关系尾。若将文本单元不存在依存关系的情况也考虑进来,则可以采用2位元素的向量表示三种关系,例如,00表示不存在依存关系,10表示该文本单元是关系头,01表示该文本单元是关系尾。
所述依存关系分析结果还包括所述文本单元所述步骤S203包括:
步骤S2032,至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述成分向量拼接得到所述文本单元的拼接向量。
在得到文本单元的文本单元向量、类型向量和成分向量后,可以至少根据这三个向量拼接得到文本单元的拼接向量。在一实施方式中,可以将文本单元向量、类型向量和成分向量三者拼接得到文本单元的拼接向量。例如,文本单元向量的长度为128位,类型向量的长度为5位,成分向量的长度为2位,拼接得到长度为135位的拼接向量。在其他实施方式中,还可以在文本单元向量、类型向量和成分向量的基础上拼接其他信息,例如还可以拼接文本单元的词性向量。
在本实施例中,通过将文本单元在所属依存关系中的关系成分转换为成分向量,根据文本单元的文本单元向量、类型向量和成分向量拼接得到拼接向量,根据拼接向量预测得到表征文本单元是否属于文本摘要的预测结果,根据预测结果确定属于文本摘要的目标文本单元,并根据目标文本单元得到待提取文本的摘要,实现了结合待提取文本中各个文本单元本身的内容和文本单元的依存关系类型以及关系成分来判断文本单元是否属于摘要,利用了具备依存关系的文本单元具体所属的关系成分来进行摘要提取,进一步地提高了文本摘要提取的准确度。
进一步地,在一实施方式中,可以将文本单元的文本单元向量、类型向量、位置向量和成分向量拼接得到拼接向量,以实现结合待提取文本中各个文本单元本身的内容和文本单元的依存关系类型、关系成分以及依存位置来判断文本单元是否属于摘要,利用了具备依存关系的文本单元具体所属的关系成分以及具备依存关系的文本单元之间的位置关系来进行摘要提取,进一步地提高了文本摘要提取的准确度。
进一步地,基于上述第一和/或第二实施例,提出本发明文本摘要提取方法第三实施例,在本实施例中,所述步骤S20包括:
步骤S206,将所述文本单元输入预设的预训练模型进行处理得到文本单元向量;
在本实施例中,可以采用预训练模型对文本单元进行向量化。具体地,将文本单元输入预先设置的预训练模型进行处理,得到文本单元向量。其中,预训练模型可以采用BERT、Roberta、AlBERT或XLNet等,具体在本实施例中不做限制。
在一实施方式中,文本单元的划分可以是按字划分,也即一个字是一个文本单元,可以采用预训练模型BERT对文本单元进行向量化。具体地,可以先对待提取文本进行预处理,以得到符合BERT模型输入规则的文本。例如,将待提取文本中每个句子的句首置[CLS]标签,句末置[SEP]标签,然后将待提取文本进行字符级切分并转换为ID形式,同时将每个句子变为定长,对长度不够的句子用‘0’进行补齐,超过定长的进行截断。再将预处理好的各个句子输入到BERT中,得到句子中各个字的向量表示(也即文本单元向量)。
步骤S207,将所述文本单元的依存关系分析结果进行向量化得到分析结果向量;
在得到各个文本单元对应的依存关系分析结果后,可以分别将各个文本单元的依存关系分析结果进行向量化得到分析结果向量。具体地,可以预先对统计所有可能出现的依存关系分析结果,对各种可能出现的依存关系分析结果进行编码,得到每种依存关系分析结果的向量表示,在对文本单元的依存关系分析结果进行向量化时,采用该依存关系分析结果对应的向量表示作为转换得到的分析结果向量。
步骤S208,将所述文本单元向量和所述分析结果向量进行拼接得到所述文本单元的拼接向量。
在得到文本单元的文本单元向量和分析结果向量后,将文本单元向量和分析结果向量进行拼接得到文本单元的拼接向量。其中,拼接可采用常用的向量拼接方法。
进一步地,在一实施方式中,所述步骤S30包括:
步骤S301,将各所述文本单元的拼接向量输入预设的多层感知机进行预测得到各所述文本单元属于摘要的概率,将所述概率作为预测结果。
在得到各个文本单元的拼接向量后,将拼接向量输入预设的多层感知机进行预测得到各个文本单元属于摘要的概率,将概率作为预测结果。其中,多层感知机的具体网络结构可以根据需要进行设置,在本实施例中并不做限制。多层感知机中的模型参数可以预先采用训练数据集训练得到。
进一步地,在一实施方式中,可以预先采集用于训练预训练模型和多层感知机的训练数据集。训练数据集中包括多条训练样本,每条训练样本包括一条文本和该文本中各个词的依存关系信息,还包括人工标注的该文本的摘要。根据人工标注的文本摘要,通过将文本中属于摘要的文本单元标注为1,不属于摘要的文本单元标注为0,得到该文本的训练标签;例如,对于句子“喂,那个就是我那个还款没有成功”,人工标注的摘要为“还款没有成功”,生成的训练标签为“0 0 0 0 0 0 0 0 0 1 1 1 1 1 1”。训练时,对于每条训练样本,将文本切分为文本单元,采用预训练模型将文本单元转换为文本单元向量,与文本单元的依存关系信息的向量表示拼接得到拼接向量,将各个文本单元的拼接向量输入多层感知机预测得到各个文本单元属于摘要的概率,与训练标签计算损失,根据损失更新预训练模型和多层感知机中的模型参数;再采用更新模型参数后的预训练模型将文本单元转换为文本单元向量,再将拼接向量输入更新模型参数后的多层感知机进行预测,计算损失,更新参数;经过多轮迭代更新后,当损失收敛、达到一定的训练轮次或达到一定的训练时长时,停止训练,即可得到训练完成的预训练模型和多层感知机,并采用训练完成预训练模型进行向量转换,以及采用训练完成的多层感知机进行预测。
进一步地,在一实施方式中,文本摘要的提取可按照如图3所示的流程进行。具体地,1、先采集数据集对依存句法分析模型进行训练。其中,依存句法分析模型的结构可以采用常用的依存句法分析模型结构,例如,采用基于Transformer-多层感知机(MLP)-双仿射变换网络(Biaffine)的结构。数据集可以是收集公开的已标注的依存句法分析数据集D1,收集具体领域的数据,并组织标注人员对数据进行标注,得到数据集D2,将D2与D1合并得到最终的数据集D。可按照如下的训练过程进行训练:
a)对数据集D中的每条数据中的每个词进行向量化,每个词的向量表示由词向量、词性向量以及位置向量构成;即:Xi=(Ew·Et)+Ep,其中Ew代表该词的词向量,可以由word2vec、Glove、ELMO、bert等模型得到,Et代表该词的词性向量,训练时随机初始化,Ep代表该词的位置向量,由正、余弦函数得到;·代表向量之间的拼接操作;
b)将向量化后的句子输入到Transformer模型中进行特征提取;
c)将Transformer的输出分别输入到两个MLP网络中,得到两个句子向量Rh和Rd,Rh中的每个词向量为该词作为一对依存关系中头的向量表示,Rd中的每个词向量为该词作为一对依存关系中尾的向量表示;
d)将Rh和Rd输入到Biaffine层,经过双仿射变换得到得分矩阵S,然后通过最大生成树算法得到句子中的依存关系;
e)将模型输出的依存关系与真实标签计算误差,通过反向传播算法对模型的参数进行更新,直至模型收敛。
2、采集数据集对文本摘要模型进行训练。其中,文本摘要模型可以包括预训练模型和多层感知机。数据集可以是收集的具体领域的文本数据集,并对各文本进行人工标注摘要,根据标注生成训练标签。训练过程可参照前述实施例,再次不进行详细赘述。
3、将待分析文本(也即待提取文本)输入到依存句法分析模型进行依存句法分析,得到待提取文本中各个文本单元的依存分析结果(也即依存关系分析结果)。
4、将待分析文本和依存句法分析结果(也即依存关系分析结果)输入到文本摘要模型。具体地将待分析文本输入到文本摘要模型中的预训练模型处理得到各个文本单元的文本单元向量,将各个文本单元向量与依存句法分析结果的向量表示拼接后输入文本摘要模型的多层感知机中预测得到各个文本单元属于摘要的概率,将概率作为预测结果。
5、根据预测结果得到待分析文本的摘要。
此外本发明实施例还提出一种文本摘要提取装置,参照图4,所述装置包括:
分析模块10,用于对所述待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
拼接模块20,用于将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
预测模块30,用于根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
确定模块40,用于根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
进一步地,所述依存关系分析结果包括所述文本单元所属的依存关系类型,所述拼接模块20包括:
第一向量化单元,用于将各所述文本单元分别进行向量化得到文本单元向量;
第二向量化单元,用于将各所述文本单元所属的依存关系类型分别进行向量化得到类型向量;
第一拼接单元,用于至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量。
进一步地,所述依存关系分析结果还包括所述文本单元对应的依存位置,所述依存位置为与所述文本单元存在依存关系的另一文本单元在所述待提取文本中的位置,所述拼接模块20还包括:
第三向量化单元,用于将各所述文本单元对应的所述依存位置分别进行向量化得到位置向量;
所述第一拼接单元还用于:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述位置向量拼接得到所述文本单元的拼接向量。
进一步地,所述依存关系分析结果还包括所述文本单元在所属依存关系中的关系成分,所述拼接模块20还包括:
第四向量化单元,用于将各所述文本单元对应的所述关系成分分别进行向量化得到成分向量;
所述第一拼接单元还用于:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述成分向量拼接得到所述文本单元的拼接向量。
进一步地,所述拼接模块20包括:
输入单元,用于将所述文本单元输入预设的预训练模型进行处理得到文本单元向量;
第五向量化单元,用于将所述文本单元的依存关系分析结果进行向量化得到分析结果向量;
第二拼接单元,用于将所述文本单元向量和所述分析结果向量进行拼接得到所述文本单元的拼接向量。
进一步地,所述预测模块30还用于:
将各所述文本单元的拼接向量输入预设的多层感知机进行预测得到各所述文本单元属于摘要的概率,将所述概率作为预测结果。
进一步地,所述确定模块40包括:
第三拼接单元,用于按照各所述目标文本单元在所述待提取文本中出现的先后顺序将各所述目标文本单元拼接得到所述待提取文本的摘要。
本发明文本摘要提取装置的具体实施方式的拓展内容与上述文本摘要提取方法各实施例基本相同,在此不做赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有文本摘要提取程序,所述文本摘要提取程序被处理器执行时实现如下所述的文本摘要提取方法的步骤。
本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的文本摘要提取方法的步骤。
本发明文本摘要提取设备、计算机可读存储介质和计算机程序产品的各实施例,均可参照本发明文本摘要提取方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (11)
1.一种文本摘要提取方法,其特征在于,所述方法包括以下步骤:
对待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
2.如权利要求1所述的文本摘要提取方法,其特征在于,所述依存关系分析结果包括所述文本单元所属的依存关系类型,所述将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量的步骤包括:
将各所述文本单元分别进行向量化得到文本单元向量;
将各所述文本单元所属的依存关系类型分别进行向量化得到类型向量;
至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量。
3.如权利要求2所述的文本摘要提取方法,其特征在于,所述依存关系分析结果还包括所述文本单元对应的依存位置,所述依存位置为与所述文本单元存在依存关系的另一文本单元在所述待提取文本中的位置,所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤之前,还包括:
将各所述文本单元对应的所述依存位置分别进行向量化得到位置向量;
所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤包括:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述位置向量拼接得到所述文本单元的拼接向量。
4.如权利要求2所述的文本摘要提取方法,其特征在于,所述依存关系分析结果还包括所述文本单元在所属依存关系中的关系成分,所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤之前,还包括:
将各所述文本单元对应的所述关系成分分别进行向量化得到成分向量;
所述至少根据所述文本单元对应的所述文本单元向量和所述类型向量拼接得到所述文本单元的拼接向量的步骤包括:
至少根据所述文本单元对应的所述文本单元向量、所述类型向量和所述成分向量拼接得到所述文本单元的拼接向量。
5.如权利要求1所述的文本摘要提取方法,其特征在于,所述将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量的步骤包括:
将所述文本单元输入预设的预训练模型进行处理得到文本单元向量;
将所述文本单元的依存关系分析结果进行向量化得到分析结果向量;
将所述文本单元向量和所述分析结果向量进行拼接得到所述文本单元的拼接向量。
6.如权利要求1所述的文本摘要提取方法,其特征在于,所述根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果的步骤包括:
将各所述文本单元的拼接向量输入预设的多层感知机进行预测得到各所述文本单元属于摘要的概率,将所述概率作为预测结果。
7.如权利要求1至6中任一项所述的文本摘要提取方法,其特征在于,所述根据各所述目标文本单元得到所述待提取文本的摘要的步骤包括:
按照各所述目标文本单元在所述待提取文本中出现的先后顺序将各所述目标文本单元拼接得到所述待提取文本的摘要。
8.一种文本摘要提取装置,其特征在于,所述文本摘要提取装置包括:
分析模块,用于对所述待提取文本进行依存句法分析得到所述待提取文本中各文本单元对应的依存关系分析结果;
拼接模块,用于将各所述文本单元的向量表示与对应的依存关系分析结果的向量表示进行拼接,得到各所述文本单元的拼接向量;
预测模块,用于根据所述拼接向量对各所述文本单元进行预测得到表征各所述文本单元是否属于摘要的预测结果;
确定模块,用于根据所述预测结果确定属于文本摘要的目标文本单元,根据各所述目标文本单元得到所述待提取文本的摘要。
9.一种文本摘要提取设备,其特征在于,所述文本摘要提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本摘要提取程序,所述文本摘要提取程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本摘要提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本摘要提取程序,所述文本摘要提取程序被处理器执行时实现如权利要求1至7中任一项所述的文本摘要提取方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本摘要提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667820.6A CN113268588A (zh) | 2021-06-16 | 2021-06-16 | 文本摘要提取方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667820.6A CN113268588A (zh) | 2021-06-16 | 2021-06-16 | 文本摘要提取方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113268588A true CN113268588A (zh) | 2021-08-17 |
Family
ID=77235149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667820.6A Pending CN113268588A (zh) | 2021-06-16 | 2021-06-16 | 文本摘要提取方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268588A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510563A (zh) * | 2022-02-18 | 2022-05-17 | 杭州数梦工场科技有限公司 | 一种摘要文本抽取方法及装置 |
CN114611487A (zh) * | 2022-03-10 | 2022-06-10 | 昆明理工大学 | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
-
2021
- 2021-06-16 CN CN202110667820.6A patent/CN113268588A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510563A (zh) * | 2022-02-18 | 2022-05-17 | 杭州数梦工场科技有限公司 | 一种摘要文本抽取方法及装置 |
CN114611487A (zh) * | 2022-03-10 | 2022-06-10 | 昆明理工大学 | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
CN114611487B (zh) * | 2022-03-10 | 2022-12-13 | 昆明理工大学 | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN109284399B (zh) | 相似度预测模型训练方法、设备及计算机可读存储介质 | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111460807A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
CN111507083A (zh) | 文本解析方法、装置、设备及存储介质 | |
CN112084769A (zh) | 依存句法模型优化方法、装置、设备及可读存储介质 | |
CN112633007B (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN111552783A (zh) | 内容分析查询方法、装置、设备和计算机存储介质 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN112735465B (zh) | 无效信息确定方法、装置、计算机设备及存储介质 | |
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN115115432A (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN114780678A (zh) | 文本检索方法、装置、设备及存储介质 | |
CN114357164A (zh) | 情感-原因对抽取方法、装置、设备及可读存储介质 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |