CN115952279A - 文本大纲的提取方法、装置、电子装置和存储介质 - Google Patents

文本大纲的提取方法、装置、电子装置和存储介质 Download PDF

Info

Publication number
CN115952279A
CN115952279A CN202211533215.0A CN202211533215A CN115952279A CN 115952279 A CN115952279 A CN 115952279A CN 202211533215 A CN202211533215 A CN 202211533215A CN 115952279 A CN115952279 A CN 115952279A
Authority
CN
China
Prior art keywords
text
sentence
extracted
paragraph
extracted based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211533215.0A
Other languages
English (en)
Other versions
CN115952279B (zh
Inventor
金征雷
周创
张俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ruicheng Information Technology Co ltd
Original Assignee
Hangzhou Ruicheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ruicheng Information Technology Co ltd filed Critical Hangzhou Ruicheng Information Technology Co ltd
Priority to CN202211533215.0A priority Critical patent/CN115952279B/zh
Publication of CN115952279A publication Critical patent/CN115952279A/zh
Application granted granted Critical
Publication of CN115952279B publication Critical patent/CN115952279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本大纲的提取方法、装置、电子装置和存储介质,该方法包括:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。本申请解决了相关技术中文本大纲提取的准确性不高的问题,丰富了文本特征的层次,融合了不同层次的文本特征之间的相关性,提高了文本大纲提取的准确性。

Description

文本大纲的提取方法、装置、电子装置和存储介质
技术领域
本申请涉及语义识别领域,特别是涉及一种文本大纲的提取方法、装置、电子装置和存储介质。
背景技术
随着信息技术的不断发展,语义识别技术的应用变得越来越广泛。其中,文本大纲提取技术作为语义识别领域的重要分支,在政务、医药等场景内具有重要用途。例如,通过大纲提取技术可以自动提取政务公文、医学文献等文本的大纲内容。
在现有的大纲提取技术中,通常以字、词、句为维度提取文本特征,然后将文本特征输入至预先设置的序列特征提取模型,通过序列特征提取模型对文本特征进行分析,最终得到大纲内容。但是,相关技术中对文本进行分析时,往往孤立地对同一维度的每个特征进行分析,没有考虑同一维度的不同特征之间的相关性以及不同维度的特征之间的相关性,在对特征进行分析时往往忽略了其上下文语境,导致相关技术中文本大纲提取的准确性不高。
针对相关技术中存在的文本大纲提取的准确性不高的技术问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种文本大纲的提取方法、装置、电子装置和存储介质,以解决相关技术中文本大纲提取的准确性不高的问题。
第一个方面,在本实施例中提供了一种文本大纲的提取方法,包括:
基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征;
基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;
基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;
基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。
在其中的一些实施例中,所述基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征包括:
基于所述待提取文本的可读字符,获取所述待提取文本的字特征;
基于每句文本中多个可读字符的字特征及对应的权重,获取所述待提取文本中每句文本的句内容特征。
在其中的一些实施例中,所述句格式特征包括句位置特征、句长度特征以及句占位符特征。
在其中的一些实施例中,所述句占位符特征的获取方法包括:
基于所述待提取文本中的格式占位符,获取所述待提取文本中每句文本的句占位符特征。
在其中的一些实施例中,所述基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征包括:
对所述句长度特征、所述句占位符特征以及所述句内容特征进行融合处理,得到句初始融合特征;
对所述句初始融合特征以及所述句位置特征进行融合处理,得到所述句融合特征。
在其中的一些实施例中,所述基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征包括:
构建所有句文本的所述句内容特征对应的权重矩阵以及偏置矩阵;
基于所述句内容特征、所述权重矩阵以及所述偏置矩阵,得到段落初始特征;
对所述段落初始特征进行归一化处理以及聚合处理,得到所述段落特征。
在其中的一些实施例中,所述基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息包括:
对所述句融合特征以及所述段落特征进行加权处理,并对处理结果进行归一化处理;
基于归一化处理的结果,确定所述待提取文本的大纲信息。
第二个方面,在本实施例中提供了一种文本大纲的提取装置,包括:
第一获取模块,用于基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征,所述句内容特征包含对应句文本的字特征;
第二获取模块,用于基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;
第三获取模块,用于基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;
第四获取模块,用于基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的文本大纲的提取方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的文本大纲的提取方法。
与相关技术相比,本申请提供了一种文本大纲的提取方法、装置、电子装置和存储介质,其中,该方法包括:基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征,所述句内容特征包含对应句文本的字特征;基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。通过融合每句文本的句内容特征以及句格式特征,从而获取每句文本的内容和格式之间的关联信息,进一步通过句融合特征以及段落特征的融合,获取句文本与段落文本之间的隐含关系,通过多层次文本的融合以获取大纲信息,避免孤立地对文本特征进行分析而忽略其上下文语境,解决了相关技术中文本大纲提取的准确性不高的技术问题,丰富了文本特征的层次,并融合了不同层次的文本特征之间的相关性,从而提高了文本大纲提取的准确性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请一实施例的文本大纲的提取方法的终端硬件结构框图;
图2是本申请一实施例的文本大纲的提取方法的流程示意图;
图3是本申请另一实施例的文本大纲的提取方法的流程示意图;
图4是本申请一实施例的文本大纲的提取装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的文本大纲的提取方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。具体的,处理器102可以设置为中央处理器(central processing unit,CPU),处理器102中包括运算器以及控制器。其中,运算器主要用于终端执行各种算数和逻辑运算操作,运算器的基本操作包括加、减、乘、除四则运算以及与、或、非、异或等逻辑运算,还包括张量运算、矩阵数学运算,以及移位、比较以及传送等操作。控制器主要用于对指令进行分析并发出相应的控制信号。上述终端还可以包括输入输出设备106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的文本大纲的提取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在相关技术中,通常以字、词、句为维度提取特征,然后将特征输入至预先设置的序列特征提取模型,通过序列特征提取模型对目标特征进行分析,最终得到大纲内容。但是,相关技术中对于同一维度的特征进行分析时,往往孤立地对每个特征进行分析,没有考虑同一维度的不同特征以及不同维度的特征之间的相关性,在对特征进行分析时往往忽略了其上下文语境。
具体的,相关技术中的主要存在以下缺陷:1)相关技术中没有考虑大纲篇幅与文本内容篇幅之间存在的篇幅比例关系,以及文本内容篇幅中各部分内容之间的相对位置关系;2)相关技术中没有考虑不同领域的文本中,大纲在文本中呈现格式的内在规律,虽然不同领域的文本内容各不相同,但是大纲文本作为重点归纳性的提示信息,往往使用一定的格式在文章中进行凸显;3)相关技术中没有考虑到大纲作为文本内容的概括,其包含的语义与其他句文本之间具有相关性,在大纲涵盖的内容范围内,大纲句与其他句的相关性往往较高。
请参阅图2,图2是本申请一实施例的文本大纲的提取方法的流程示意图。
在一个实施例中,文本大纲的提取方法包括:
S202:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征。
示例性地,对待提取文本中的内容进行处理,以获取待提取文本中的可读字符,其中,待提取文本即为需要进行大纲信息提取的文本,包括但不限于政务公文、学术文献、新闻报道等文本;可读字符即为待提取文本中可以显示的字符,包括但不限于中文、英文、数字以及标点等字符。
示例性地,获取待提取文本中的可读字符后,基于每句文本的可读字符获取该句文本对应的句内容特征,句内容特征用于表征对应句文本的内容信息。具体的,分别基于每个可读字符提取对应的字特征,再基于每句文本的所有字符对应的字特征进行融合处理,得到该句文本对应的句内容特征,例如,分别基于每个可读字符的编码提取对应的字特征,再对每句文本中所有的字特征进行加权融合;或者,直接基于每句文本的所有字符,构建该句文本对应的句内容特征,例如,对每句文本的所有可读字符的编码进行拼接,构建句编码,再基于该句编码提取句内容特征。
示例性地,对待提取文本的格式进行识别,以获取待提取文本的格式信息,进而获取每句文本的句格式特征。其中,每句文本的句格式特征用于表征该句文本的格式信息,格式信息包括但不限于该句文本的位置、长度、格式控制字符等。
S204:基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征。
示例性地,获取每句文本的句内容特征以及句格式特征后,对句内容特征以及句格式特征进行融合,从而获取该句文本的句融合特征。可以理解的,该句融合特征同时包含了对应句文本的内容信息以及格式信息。
S206:基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征。
示例性地,根据每段文本中的每句文本对应的句内容特征,确定其对应的权重,例如对于包含概括性词语的句文本,可以对其句内容特征分配更高的权重。其中,句内容特征对应的权重可以以句权重矩阵的形式进行存储。确定每个句内容特征对应的权重后,基于句内容特征的权重对所有句内容特征进行加权处理,从而得到表征段内的所有句文本的内容信息的段落特征。可以理解的,段落特征反映了对应的段文本的语境。
S208:基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。
示例性地,结合句融合特征以及段落特征对对应的句文本进行分析,并将满足条件的句文本作为段文本对应的大纲信息。具体的,针对每句文本,通过句融合特征中的格式信息,确定该句文本在格式上是否重要性较高,通过句融合特征中的内容信息与段落特征的相关性,确定该句文本是否与段文本的整体语境的相关性较高,最终确定该句文本是否能作为大纲信息。
本实施例基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。通过融合每句文本的句内容特征以及句格式特征,从而获取每句文本的内容和格式之间的关联信息,进一步通过句融合特征以及段落特征的融合,获取句文本与段落文本之间的隐含关系,通过多层次文本的融合以获取大纲信息,避免孤立地对文本特征进行分析而忽略其上下文语境,解决了相关技术中文本大纲提取的准确性不高的技术问题,丰富了文本特征的层次,并融合了不同层次的文本特征之间的相关性,从而提高了文本大纲提取的准确性。
在另一个实施例中,基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征包括:
步骤1:基于待提取文本的可读字符,获取待提取文本的字特征;
步骤2:基于每句文本中多个可读字符的字特征及对应的权重,获取待提取文本中每句文本的句内容特征。
示例性地,对待提取文本中的字符进行划分,将其划分成可读字符以及格式占位符,基于可读字符提取待提取文本的字特征。其中,可读字符即为待提取文本中可以显示的字符,包括但不限于中文、英文、数字以及标点等字符;格式占位符为在待提取文本中不可显示但是占据文本位置并对文本格式进行控制的字符,包括但不限于“\t”、“\r”、“\n”、“\s”等。
具体的,获取待提取文本的可读字符后,基于训练网络模型对可读字符进行训练,从而得到字维度的字特征。具体的,训练网络模型用于对输入的可读字符的编码进行特征提取以生成特征向量,包括但不限于GPT(Generative Pre-Training,一种生成式预训练模型)或者BERT(Bidirectional Encoder Representation from Transformers,一种双向编码的语言表征模型)等。
示例性地,获取可读字符的字特征后,确定不同的可读字符对应的权重,基于每句文本中的所有可读字符的字特征以及对应的权重,对字特征进行加权处理,从而融合生成该句文本的句内容特征。
具体的,基于不同的可读字符,确定其对应的权重,进而构建对应的字权重矩阵Ww、uw及字偏置矩阵bw;获取每句文本中所有可读字符对应的字特征后,从字权重矩阵Ww、uw及字偏置矩阵bw中抽取该句文本中所有可读字符对应的权重,再基于抽取的权重对该可读字符对应的字特征进行加权计算,得到每个字特征对应的加权结果,具体计算过程如下:
Figure BDA0003976628680000081
其中,j为段落文本中的句文本的序号,t为句文本中的可读字符的序号,hjt为段落文本中第j句文本的第t个可读字符对应的字特征,αjt为段落文本中第j句文本的第t个可读字符附加权重的字特征。
获取附加权重的字特征后,对字特征进行归一化处理,得到每个字特征对应的归一化结果:
Figure BDA0003976628680000082
其中,ajt为段落文本中第j句文本的第t个可读字符对应的字特征的归一化结果。
获取归一化结果后,对段落文本中每句文本的所有可读字符对应的字特征的归一化结果进行聚合处理,得到该句文本的句内容特征Sj
Figure BDA0003976628680000083
本实施例基于待提取文本的可读字符,获取待提取文本的字特征;基于每句文本中多个可读字符的字特征及对应的权重,获取待提取文本中每句文本的句内容特征,从而充分结合了可读字符的特征信息以及可读字符之间的关联关系,提高了句内容特征的准确性,进而提高了文本大纲提取的准确性。
在另一个实施例中,句格式特征包括句位置特征、句长度特征以及句占位符特征。
示例性地,本实施例中的句格式特征,至少包括句位置特征、句长度特征以及句占位符特征。其中,句位置特征用于表征该句文本在段落文本中的位置信息,句长度特征用于表征该句文本在段落文本中所占的长度信息,一般以该句文本在段落文本中的长度占比作为句长度特征;句占位符特征用于表征该句文本中的格式占位符。
具体的,句位置特征包括段首特征、段中特征以及段尾特征,以分别用于表征该句文本位于段落文本的段首、段中以及段尾。在其中一个具体实施例中,获取句文本的句位置特征时,若该句文本位于段首,则在句首添加字符“<PAS>”;若该句文本位于段中,则在句首添加字符“<PAB>”;若该句文本位于段尾,则在句首添加字符“<PAE>”。通过该句文本句首的添加字符,确定该句文本的位置特征。
具体的,句长度特征可基于该句文本在段落文本中的长度占比进行确定。在其中一个具体实施例中,根据该句文本在段落文本中的长度占比进行分类,若该句文本在段落文本中的长度占比低于0.15,则将句长度特征设置为S1;若该句文本在段落文本中的长度占比高于0.98,则将句长度特征设置为F1;若该句文本在段落文本中的长度占比介于0.15以及0.98之间,则将句长度特征设置为L1。
具体的,句占位符特征可基于该句文本中的格式占位符确定。在其中一个具体实施例中,对格式占位符的编码进行特征提取,从而获取对应的特征向量,将该特征向量作为句占位符特征。
在另一个实施例中,句占位符特征的获取方法包括:
基于待提取文本中的格式占位符,获取待提取文本中每句文本的句占位符特征。
示例性地,对待提取文本中的字符进行划分,得到可读字符以及格式占位符;基于每句文本中的格式占位符,确定该句文本对应的句占位符特征。
具体的,获取每句文本的格式占位符后,基于训练网络模型对格式占位符进行训练,从而得到该句文本对应的句占位符特征。具体的,训练网络模型用于对输入的格式占位符的编码进行特征提取以生成特征向量,包括但不限于GPT(Generative Pre-Training,一种生成式预训练模型)或者BERT(Bidirectional Encoder Representation fromTransformers,一种双向编码的语言表征模型)等。
本实施例基于待提取文本中的格式占位符,获取待提取文本中每句文本的句占位符特征,使得每句文本的句占位符特征与每个格式占位符相关联,从而提高了句占位符特征的准确性,进而提高了文本大纲提取的准确性。
在另一个实施例中,基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征包括:
步骤1:对句长度特征、句占位符特征以及句内容特征进行融合处理,得到句初始融合特征;
步骤2:对句初始融合特征以及句位置特征进行融合处理,得到句融合特征。
示例性地,本实施例中的句格式特征同时包含句位置特征、句长度特征以及句占位符特征。获取上述句格式特征后,首先对句长度特征Fl、句占位符特征Fb以及句内容特征Sj相加进行融合处理,得到句初始融合特征Sr
Sr=(wlFl+wbFb+wrSj)+brr
其中,wl、wb、wr以及brr为学习参数。进一步,将该句文本在段落文本中的位置信息添加至该句初始融合特征,即对句初始融合特征Sr以及句位置特征Fp进行融合拼接,得到最终的句融合特征Srr
Figure BDA0003976628680000101
可选的,本实施例中的方法仅仅作为示例,本申请中还可以直接将句长度特征Fl、句占位符特征Fb、句内容特征Sj以及句位置特征Fp直接进行拼接,从而得到句融合特征Srr
本实施例结合句长度特征、句占位符特征、句位置特征以及句内容特征以生成句融合特征,从而充分结合了待提取文本内的字、句、段以及标点等相关内容信息、句文本的长度信息、大纲与文本的表达篇幅以及相互位置的隐含关系等不同维度的文本特征,提高了句融合特征的丰富性,进而提高了句融合特征的准确性。
在另一个实施例中,基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征包括:
步骤1:构建所有句文本的句内容特征对应的权重矩阵以及偏置矩阵;
步骤2:基于句内容特征、权重矩阵以及偏置矩阵,得到段落初始特征;
步骤3:对段落初始特征进行归一化处理以及聚合处理,得到段落特征。
示例性地,基于段落文本中每个句文本的句内容特征,确定对应的权重,进而构建权重矩阵以及偏置矩阵。基于权重矩阵以及偏置矩阵对句内容特征进行加权处理,得到对应的段落初始特征。进一步,对所有的段落初始特征进行归一化处理以及聚合处理,从而得到最终的段落特征。
可选的,在进行加权计算前,还可以先将句内容特征sij送入序列特征提取模型models进行特征提取,再基于构建的权重矩阵Ww2、uw2以及偏置矩阵bw2进行加权处理,得到段落初始特征βij,具体计算过程如下:
Figure BDA0003976628680000102
其中,i为段落文本的序号,j为段落文本中句文本的序号。计算得到段落初始特征后,对每个段落文本中的所有段落文本进行归一化处理,得到归一化处理的结果eij
Figure BDA0003976628680000103
进一步,对归一化处理的结果以及序列特征提取模型models提取的特征进行聚合训练,得到段落特征PSi
Figure BDA0003976628680000111
具体的,本实施例中的序列特征提取模型包括但不限于Transformer(自注意力机制模型)以及BiLSTM(双向长短期记忆模型)等,通过序列特征提取模型对句内容特征再次进行特征提取,从而提高句内容特征的表达效果。
本实施例构建所有句文本的句内容特征对应的权重矩阵以及偏置矩阵;基于句内容特征、权重矩阵以及偏置矩阵,得到段落初始特征;对段落初始特征进行归一化处理以及聚合处理,得到段落特征,使得段落特征能充分反映段落文本的内容信息,提高了段落特征的准确性,进而提高了文本大纲提取的准确性。
在另一个实施例中,基于句融合特征以及段落特征,获取待提取文本对应的大纲信息包括:
步骤1:对句融合特征以及段落特征进行加权处理,并对处理结果进行归一化处理;
步骤2:基于归一化处理的结果,确定待提取文本的大纲信息。
示例性地,获取句融合特征以及段落特征后,对句融合特征以及段落特征进行加权融合以及归一化处理,得到对应的处理结果。进一步,对处理结果进行分析和预测,得到对应的预测结果,基于每句文本对应的预测结果确定该句文本是否为大纲语句。
具体的,在训练阶段,得到句融合特征Srr以及段落特征PSi后,将句融合特征Srr以及段落特征PSi堆叠为一列的特征,通过权重矩阵wi以及偏置矩阵bi对堆叠的特征进行加权处理,进一步通过归一化函数对加权结果进行处理,从而计算每句文本属于大纲语句的概率值P:
Figure BDA0003976628680000112
进一步,根据每句文本的各级概率值计算交叉熵损失,通过交叉熵损失进行损失调节。其中,交叉熵损失L(y,p)的计算方法如下:
Figure BDA0003976628680000113
其中,N为样本总数,K为标签值总数,i为样本序号,k为标签序号,Pi,k为第i个样本的第k个标签值的概率,yi,k为对应的预测值。
具体的,在训练过程中,在每轮训练结束后(或者经过一定训练轮数后),在验证集上获取测试结果,记录测试结果最好的验证集精度。随着训练轮数的增加,若网络模型在验证集上的测试误差上升,则停止训练。训练完成后,通过经训练的网络模型对待提取文本进行大纲信息的提取。
本实施例对句融合特征以及段落特征进行加权处理,并对处理结果进行归一化处理;基于归一化处理的结果,确定待提取文本的大纲信息,从而充分结合了每句文本与其他句文本之间的相关性权重关系,在确定每句文本是否为大纲语句时考虑了其段落文本的上下文语境及该句的格式信息,从而提高了大纲信息提取的准确性。
在另一个实施例中,结合以上实施例,本申请还公开了一种具体的文本大纲的提取方法的流程示意图。请参阅图3,图3是本申请另一实施例的文本大纲的提取方法的流程示意图。具体的,如图3所示,文本大纲的提取方法包括:
S1:划分待提取文本为可读字符及格式占位符。其中Cjt表示第j个句子中的第t个可读字符,Bt表示第t个格式占位符;
S2:对可读字符Cjt及格式占位符Bt使用训练模型进行训练,得到字特征hjt及格式占位符特征Fb;
S3:构建字权重矩阵,通过聚合训练得到句内容特征Sj;
S4:获取句格式特征:提取在段落中的句文本的句位置特征Fp,包含段首、段中、段尾三种信息;提取句子的长度占比特征Fl,根据该句在段落中的长度占比进行分类;提取句子中包含的句占位符特征Fb;
S5:将句内容特征Sj与句格式特征进行特征融合得到句融合特征Srr。具体的,将句内容特征Sj、句位置特征Fp、句长度特征Fl、句占位符特征Fb进行特征融合,得到句融合特征Srr;
S6:对句内容特征Sj再次进行特征抽取,构建句权重矩阵对抽取的特征进行加权计算,通过聚合训练得到融合句权重的段落特征PSi;
S7:将句融合特征Srr与段落特征PSi进行融合训练,得到训练完成的大纲抽取模型。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种文本大纲的提取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本实施例的文本大纲的提取装置的结构框图,如图4所示,该装置包括:
第一获取模块10,用于基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;
第一获取模块10,还用于基于待提取文本的可读字符,获取待提取文本的字特征;
基于每句文本中多个可读字符的字特征及对应的权重,获取待提取文本中每句文本的句内容特征;
第一获取模块10,还用于基于待提取文本中的格式占位符,获取待提取文本中每句文本的句占位符特征;
第二获取模块20,用于基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;
第二获取模块20,还用于对句长度特征、句占位符特征以及句内容特征进行融合处理,得到句初始融合特征;
对句初始融合特征以及句位置特征进行融合处理,得到句融合特征;
第三获取模块30,用于基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;
第三获取模块30,还用于构建所有句文本的句内容特征对应的权重矩阵以及偏置矩阵;
基于句内容特征、权重矩阵以及偏置矩阵,得到段落初始特征;
对段落初始特征进行归一化处理以及聚合处理,得到段落特征;
第四获取模块40,用于基于句融合特征以及段落特征,获取待提取文本对应的大纲信息;
第四获取模块40,还用于对句融合特征以及段落特征进行加权处理,并对处理结果进行归一化处理;
基于归一化处理的结果,确定待提取文本的大纲信息。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括输入输出设备,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤1:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征;
步骤2:基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;
步骤3:基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;
步骤4:基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的文本大纲的提取方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种文本大纲的提取方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本大纲的提取方法,其特征在于,包括:
基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征;
基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;
基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;
基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。
2.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征包括:
基于所述待提取文本的可读字符,获取所述待提取文本的字特征;
基于每句文本中多个可读字符的字特征及对应的权重,获取所述待提取文本中每句文本的句内容特征。
3.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述句格式特征包括句位置特征、句长度特征以及句占位符特征。
4.根据权利要求3所述的文本大纲的提取方法,其特征在于,所述句占位符特征的获取方法包括:
基于所述待提取文本中的格式占位符,获取所述待提取文本中每句文本的句占位符特征。
5.根据权利要求3所述的文本大纲的提取方法,其特征在于,所述基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征包括:
对所述句长度特征、所述句占位符特征以及所述句内容特征进行融合处理,得到句初始融合特征;
对所述句初始融合特征以及所述句位置特征进行融合处理,得到所述句融合特征。
6.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征包括:
构建所有句文本的所述句内容特征对应的权重矩阵以及偏置矩阵;
基于所述句内容特征、所述权重矩阵以及所述偏置矩阵,得到段落初始特征;
对所述段落初始特征进行归一化处理以及聚合处理,得到所述段落特征。
7.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息包括:
对所述句融合特征以及所述段落特征进行加权处理,并对处理结果进行归一化处理;
基于归一化处理的结果,确定所述待提取文本的大纲信息。
8.一种文本大纲的提取装置,其特征在于,包括:
第一获取模块,用于基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征,所述句内容特征包含对应句文本的字特征;
第二获取模块,用于基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;
第三获取模块,用于基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;
第四获取模块,用于基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的文本大纲的提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本大纲的提取方法的步骤。
CN202211533215.0A 2022-12-02 2022-12-02 文本大纲的提取方法、装置、电子装置和存储介质 Active CN115952279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211533215.0A CN115952279B (zh) 2022-12-02 2022-12-02 文本大纲的提取方法、装置、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211533215.0A CN115952279B (zh) 2022-12-02 2022-12-02 文本大纲的提取方法、装置、电子装置和存储介质

Publications (2)

Publication Number Publication Date
CN115952279A true CN115952279A (zh) 2023-04-11
CN115952279B CN115952279B (zh) 2023-09-12

Family

ID=87295872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211533215.0A Active CN115952279B (zh) 2022-12-02 2022-12-02 文本大纲的提取方法、装置、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN115952279B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0329223D0 (en) * 2003-01-07 2004-01-21 Hewlett Packard Development Co Methods and systems for organizing electronic documents
US20040225667A1 (en) * 2003-03-12 2004-11-11 Canon Kabushiki Kaisha Apparatus for and method of summarising text
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法
WO2011035425A1 (en) * 2009-09-25 2011-03-31 Shady Shehata Methods and systems for extracting keyphrases from natural text for search engine indexing
CN103399924A (zh) * 2013-08-05 2013-11-20 河海大学 一种水文水资源数据目录生成系统及方法
CN107122350A (zh) * 2017-04-27 2017-09-01 北京易麦克科技有限公司 一种多段落文本的特征抽取系统及方法
CN109522523A (zh) * 2018-09-14 2019-03-26 维沃移动通信有限公司 一种显示大纲信息的方法及终端设备
CN109710945A (zh) * 2018-12-29 2019-05-03 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
US20190325029A1 (en) * 2018-04-18 2019-10-24 HelpShift, Inc. System and methods for processing and interpreting text messages
CN110781276A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111695341A (zh) * 2020-06-16 2020-09-22 北京理工大学 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
CN113688633A (zh) * 2021-08-02 2021-11-23 珠海金山办公软件有限公司 一种提纲确定方法及装置
CN114118053A (zh) * 2021-11-26 2022-03-01 武汉天喻信息产业股份有限公司 一种合同信息提取方法及装置
CN114254637A (zh) * 2021-12-21 2022-03-29 科大讯飞股份有限公司 一种纪要生成方法、装置、设备及存储介质
CN114330313A (zh) * 2021-11-30 2022-04-12 广州金山移动科技有限公司 识别文档章节标题的方法及装置、电子设备、存储介质
CN115129817A (zh) * 2022-07-05 2022-09-30 上海晏鼠计算机技术股份有限公司 一种Word文档大纲抽取的方法
CN115270738A (zh) * 2022-09-30 2022-11-01 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质
CN115310436A (zh) * 2021-05-07 2022-11-08 珠海金山办公软件有限公司 一种文档提纲的抽取方法、装置、电子设备及存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0329223D0 (en) * 2003-01-07 2004-01-21 Hewlett Packard Development Co Methods and systems for organizing electronic documents
US20040225667A1 (en) * 2003-03-12 2004-11-11 Canon Kabushiki Kaisha Apparatus for and method of summarising text
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法
WO2011035425A1 (en) * 2009-09-25 2011-03-31 Shady Shehata Methods and systems for extracting keyphrases from natural text for search engine indexing
CN103399924A (zh) * 2013-08-05 2013-11-20 河海大学 一种水文水资源数据目录生成系统及方法
CN107122350A (zh) * 2017-04-27 2017-09-01 北京易麦克科技有限公司 一种多段落文本的特征抽取系统及方法
US20190325029A1 (en) * 2018-04-18 2019-10-24 HelpShift, Inc. System and methods for processing and interpreting text messages
CN109522523A (zh) * 2018-09-14 2019-03-26 维沃移动通信有限公司 一种显示大纲信息的方法及终端设备
CN109710945A (zh) * 2018-12-29 2019-05-03 北京百度网讯科技有限公司 基于数据生成文本方法、装置、计算机设备和存储介质
CN110781276A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111695341A (zh) * 2020-06-16 2020-09-22 北京理工大学 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
CN115310436A (zh) * 2021-05-07 2022-11-08 珠海金山办公软件有限公司 一种文档提纲的抽取方法、装置、电子设备及存储介质
CN113688633A (zh) * 2021-08-02 2021-11-23 珠海金山办公软件有限公司 一种提纲确定方法及装置
CN114118053A (zh) * 2021-11-26 2022-03-01 武汉天喻信息产业股份有限公司 一种合同信息提取方法及装置
CN114330313A (zh) * 2021-11-30 2022-04-12 广州金山移动科技有限公司 识别文档章节标题的方法及装置、电子设备、存储介质
CN114254637A (zh) * 2021-12-21 2022-03-29 科大讯飞股份有限公司 一种纪要生成方法、装置、设备及存储介质
CN115129817A (zh) * 2022-07-05 2022-09-30 上海晏鼠计算机技术股份有限公司 一种Word文档大纲抽取的方法
CN115270738A (zh) * 2022-09-30 2022-11-01 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANPENG CHENG: "Neural Summarization by Extracting Sentences and Words", 《2016 ASSOCIATION FOR COMPUTATIONAL LINGUISTIC》, pages 484 *
解艳: "基于LSA和段落聚类的自动文摘系统的研究", 《中国优秀硕士学位论文全文数据库 信息科技》, pages 138 - 2352 *

Also Published As

Publication number Publication date
CN115952279B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
US20190287142A1 (en) Method, apparatus for evaluating review, device and storage medium
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112183085A (zh) 机器阅读理解方法、装置、电子设备及计算机存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN110162624A (zh) 一种文本处理方法、装置以及相关设备
CN111209297B (zh) 数据查询方法、装置、电子设备及存储介质
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
US20220083745A1 (en) Method, apparatus and electronic device for determining word representation vector
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
CN114281983B (zh) 分层结构的文本分类方法、系统、电子设备和存储介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN113935312A (zh) 长文本匹配方法及装置、电子设备及计算机可读存储介质
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
CN116244442A (zh) 文本分类方法、装置、存储介质及电子设备
CN115952279B (zh) 文本大纲的提取方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant