CN111460141A

CN111460141A - 一种文本处理方法、装置及电子设备

Info

Publication number: CN111460141A
Application number: CN202010148655.9A
Authority: CN
Inventors: 余红
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-28
Anticipated expiration: 2040-03-05
Also published as: CN111460141B

Abstract

本说明书公开了一种文本处理方法、装置及电子设备，该方法包括获取目标文件的正文文本；通过预先训练好的标号抽取模型抽取目标文件的正文文本中包含有的标号；根据抽取到的标号的结构对相应的标号进行分类，并根据分类获得的结构类型确定正文文本中各标号之间的层级关系，进而根据确定出的各标号之间的层级关系构建目标文件的树形结构，实现文件层级关系的快速构建。

Description

一种文本处理方法、装置及电子设备

技术领域

本说明书涉及软件技术领域，特别涉及一种文本处理方法、装置及电子设备。

背景技术

文件的电子化归档是提高智能化办公的重要过程。电子化归档包括文件录入、文件层级关系构建、文件目录构建等。文件层级关系用于反应文件内容之间的包含关系，能够提高文件的预览和查找效率，有利于文件的目录层级关系的提取。文件层级关系构建通常由人工完成，费时费力，效率极低。亟需一种新的方法来提高文件层级关系构建的效率。

发明内容

本说明书实施例提供一种文本处理方法、装置及电子设备，用于实现文件层级关系的快速，以提高文件层级关系构建的效率。

第一方面，本说明书实施例提供一种文本处理方法，该方法包括:

获取目标文件的正文文本；

通过预先训练好的标号抽取模型抽取所述正文文本中包含有的标号；

根据所述标号的结构对所述标号进行分类，并根据分类获得的结构类型确定所述正文文本中各标号之间的层级关系；

根据所述层级关系构建所述目标文件的树形结构。

可选的，所述标号抽取模型的训练方法包括：

将参考文件中的句子作为训练样本；

针对每个所述训练样本，获取所述训练样本的标注序列，所述标注序列为对句子按字进行标号标注获得的标注结果；根据所述训练样本和所述标注序列对所述标号抽取模型进行模型训练；

其中，所述标号抽取模型包括向量转换模型、深度学习模型及条件随机场模型。

可选的，所述根据所述训练样本和所述标注序列对所述标号抽取模型进行模型训练，包括：

将所述训练样本输入所述向量转换模型获得所述训练样本的表示向量；

将所述表示向量作为第一输入特征、所述标注序列作为所述第一输入特征的标签进行所述深度学习模型的模型训练；

将所述深度学习模型输出的标签概率作为第二输入特征、所述标注序列作为所述第二输入特征的标签进行条件随机场模型的模型训练。

可选的，所述根据所述标号的结构对所述标号进行分类，包括：

通过不同的预设通配符对不同表达方式的所述标号进行替换；

将替换结果相同的所述标号确定为结构类型相同的所述标号。

可选的，所述根据分类获得的结构类型确定所述正文文本中各标号之间的层级关系，包括：

将同一结构类型的所述标号确定为同一层级；

不同结构类型的所述标号按所述标号在所述正文文本中出现的顺序和/或所述表达方式确定层级关系。

第二方面，本说明书实施例提供一种文本处理装置，该装置包括:

文本获取单元，用于获取目标文件的正文文本；

标号抽取单元，用于通过预先训练好的标号抽取模型抽取所述正文文本中包含有的标号；

分类单元，用于根据所述标号的结构对所述标号进行分类，并根据分类获得的结构类型确定所述正文文本中各标号之间的层级关系；

构建单元，用于根据所述层级关系构建所述目标文件的树形结构。

可选的，所述装置还包括：

训练单元，用于将参考文件中的句子作为训练样本；针对每个所述训练样本，获取所述训练样本的标注序列，所述标注序列为对句子按字进行标号标注获得的标注结果；根据所述训练样本和所述标注序列对所述标号抽取模型进行模型训练；

可选的，所述训练单元还用于：

可选的，所述分类单元用于：

可选的，所述分类单元还用于：

将同一结构类型的所述标号确定为同一层级；

本说明书实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本说明书实施例提供一种文本处理方法，获取目标文件的正文文本；通过预先训练好的标号抽取模型抽取正文文本中包含有的标号；根据标号的结构对标号进行分类，并根据分类获得的结构类型确定正文文本中各标号之间的层级关系；根据该层级关系构建目标文件的树形结构，该树形结构的构建过程可通过应用程序执行完成，实现了文件层级关系的快速构建，提高了文件层级关系构建的效率。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种文本处理方法的流程图；

图2a为本说明书实施例提供的文件的简略树形结构示意图；

图2b为本说明书实施例提供的文件树形结构示意图；

图3为本说明书实施例提供的一种文本处理装置示意图；

图4为本说明书实施例提供的一种电子设备的示意图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书实施例提供一种文本处理方法、装置及电子设备，用于实现文件层级关系构建的自动化，提高文件层级关系构建的效率。

下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

请参考图1，本实施例提供一种文本处理方法，该方法包括如下S11～S17：

S11、获取目标文件的正文文本。

其中，目标文件可以是论文、小说、工作文档、合同等文件。目标文件的正文文本可以通过电子设备的输入设备获得，也可以通过网络下载获得。

S13、通过预先训练好的标号抽取模型抽取正文文本中包含有的标号。

标号，指文本中用于标示顺序、层级的符号，如一、二、三、1、2、3等，使文本内容更加一目了然。预先训练好的标号抽取模型，是通过获得大量的文件样本，将文件样本的正文内容转换为模型可以识别的特征数据如向量并对正文文本中的标号进行标记，将特征数据作为模型输入特征、标号标记结果作为标签进行模型训练，从而训练获得可以识别并抽取文件中标号的标号抽取模型。

S15、根据标号的结构对标号进行分类，并根据分类获得的结构类型确定正文文本中各标号之间的层级关系。

其中，标号的结构指标号的表达方式和构造方式，例如：“1.11”的表达方式是阿拉伯数字、构造方式是“X.XX”。通常情况下，不同结构类型的标号在文本中所属的层级不同，同一结构类型的标号在文本中所属的层级相同，例如：“1.11”与“1.12”往往属于同一层级。

S17、根据标号之间的层级关系构建目标文件的树形结构。

其中，树形结构是指一种数据结构，它是由n(n≥1)个有限结点组成一个具有层级关系的集合。标号之间的层级关系标示着相应文本内容之间的层级关系，根据标号之间的层级关系构建目标文件的树形结构，构建树形结构后的目标文件层级关系清楚明了，极大地方便了文件的预览、查找，更有助于快速完成文件目录的建立。

通过上述方法构建文件的树形结构，只需在标号提取模型的训练时进行标注，其余步骤均可以由电子设备上的应用程序执行完成，实现了文件层级关系构建的自动化，大大提高了文件层级关系构建的效率。

在具体实施过程中，S13中的标号抽取模型可以包括向量转换模型、深度学习模型及条件随机场模型(Conditional Random Field，CRF)。其中，向量转换模型可以采用基于Transformer的双向编码器(Bidirectional Encoder Representations fromTransformers，BERT)，深度学习模型可以采用长短期记忆网络(Long Short-Term Memory，LSTM)或双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)。

在训练标号抽取模型之前，先对参考文件进行数据标注。参考文件为与标号抽取模型所要检测的目标文件类型相同的文件，例如，若目标文件为合同，相应的参考文件也为合同。具体的，数据标注方法如下：

从文件中读取出文本之后以句子为单位，按字进行标注：用L表示标号， B表示标号开始字节，M表示标号的中间字节，E表示标号的最后字节，S表示标号实体是单字节，O表示无关字节，每个字的标注结果称为一个标签。例如：对于句子“1.1、核”进行标注，“1.1”为一个完整的标签，该标签的开始字节为“1”标注标签“B-L”、中间字节为“.”标注标签“M-L”以此类推，完成标注后得到标注序列：B-L M-L M-L E-L O。

完成数据标注后，对标号抽取模型进行模型训练：将参考文件中的句子作为训练样本；针对每个训练样本，获取训练样本的标注序列，该标注序列为对句子按字进行标号标注获得的标注结果；根据训练样本和标注序列对标号抽取模型进行模型训练。具体的，模型训练时依次执行如下步骤①～③：

①、将训练样本输入向量转换模型获得训练样本的表示向量。

例如，将文本中的句子输入BERT模型，BERT模型将句子中的每个字转换为字向量得到训练样本的表示向量。

②、将向量转换模型输出的表示向量作为第一输入特征、该训练样本的标注序列作为第一输入特征的标签进行深度学习模型的模型训练。

深度学习模型的训练用于计算获得每个字向量作为各标签的标签概率。针对每一个训练样本，深度学习模型均会预测得到样本中每个字向量作为各标签的标签概率，并预测得到的标签概率输出至条件随机场模型。

③、将深度学习模型输出的标签概率作为第二输入特征、该训练样本的标注序列作为第二输入特征的标签进行条件随机场模型的模型训练。

条件随机场模型的训练用于计算各个标签之间的转移概率，使得条件随机场模型在使用时，可以根据该转移概率获得标号预测序列，并根据预测序列获得标号在句子中的位置，根据该位置在句子中抽取对应的标号。例如：标签 M-L和O之间直接的转移概率为0，因为M-L后面只可能出现M-L或者E-L，若第二输入特征中某一个字向量的作为标签O、E-L的概率各位0.5，那么通过转移概率可以根据该字向量与其相邻字向量之间的标签转移概率来进一步确认，若该字向量作为标签E-L与其相邻字向量作为标签M-L之前的转移概率大于其他标签组合，那么确认该字向量对应的标签为E-L，反之确认其标签为 O。通过计算标签之间的转移概率，可以过滤掉一个根本不符合逻辑的预测，提高模型预测的准确性，进而提高标号抽取的准确性。

对于训练好的标号抽取模型，在标号抽取时，将目标文件的正文文本中的句子输入标号抽取模型，标号抽取模型即可进行预测：首先，将句子输入预训练好的BERT模型，得到每个字的字向量；接着，将BERT模型的输出作为深度学习模型和条件随机场模型组成的序列标注模型的输入，得到预测序列结果；进一步的，对预测序列的结构进行处理，也就是找到标号结构的开头和结尾，再从对应句子里把开头至结尾部分信息抽取出来，得到相应的标号。例如：假设预测序列的结果是：“第/B-L一/M-L章/E-L”，找到B-L和E-L，或者找到S-L，提取从B-L至E-L的信息或S-L对应的信息，即可提取到“第一章”并将其作为该句的标号。

在提取到正文文本中的标号之后，进一步执行S15根据标号的结构对标号进行分类。具体的，可以先通过不同的预设通配符对不同表达方式的标号进行替换；然后，将替换结果相同的标号确定为结构类型相同的标号；进一步的，将同一结构类型的标号确定为同一层级；不同结构类型的标号按标号在正文文本中出现的顺序和/或标号的表达方式确定层级关系。其中，标号的表达方式指其文字表现形式，如阿拉伯语、中文、罗马字、字母等。在进行通配符替换时，可以只替换标号中的数字：中文数字用预设通配符C替换，阿拉伯数字用预设通配符A替换，字母用预设通配符L替换。例如：“一、”替换后为“C、”，“2.21”替换后为“A.AA”，如果替换后的模式即替换结果一样，将其确认为同一个类型。对于不同的表达方式，也可以确定其层级关系，例如：有中文数字的标号，也就是替换后有“C”的层级默认高于有阿拉伯数字“A”的标号。对于标号在文本中出现的先后顺序也可以确定其层级关系，先出现的标号层级高于后出现的。例如：文本中先出现“A.A”类型的标号，后出现“A.AA”类型的标号，那么确认层级关系时“A.A”高于“A.AA”。

在确认层级关系时，可以依次标注1、2、3……来表示层级高低，数字越小层级越高，在构建树形结构时，将低层级自动归到高层级。具体的，执行S17 根据标号的层级关系构建目标文件的树形结构时，可以采用Anytree(Any Python Tree Data，任意python树数据结构)算法进行树形结构构建。例如：假设确定出的标号的层级关系为：1，2，1，2，2，2，那么据此构建的目标文件的树形结构如图2a所示。

下面以一个具体的实例对上述方法进行举例说明。

请参考图2b，图2b中的内容为一合同，对该合同构建树形结构：

1)通过输入设备获得该合同的正文文本。

2)将正文文本中的句子依次输入预先训练好的标号抽取模型进行标号抽取。通过标号抽取模型依次抽取到标号：“一、”“1.”、“2.”……。

3)对抽取到的标号进行分类：将标号“一、”至“五、”替换为“C、”，标号“1.”及“2.”替换为“A.”。

4)确定标号之间的层级关系：标号“一、”至“五、”的通配结果均为“C、”，将“一、”至“五、”确认为同一层级；标号“1.”及“2.”的通配结果均为“A.”，也将其确认为同一层级；在合同正文文本中“C、”均出现在“A.”之前，确认“C、”对应的标号的层级高于“A.”对应的标号，为此确定出该合同中标号的层级关系为：1 2 2 1 2 2 1 2 2 1 2 2 1 2 2 1 2 2。

5)构建合同的树形结构：采用Anytree算法根据合同中标号的层级关系：1 2 2 12 2 1 2 2 1 2 2 1 2 2 1 2 2构建合同的树形结构，如图2b所示。

基于上述实施例提供的一种文本处理方法，本实施例还对应提供一种文本处理装置，如图3所述，该装置包括：

文本获取单元31，用于获取目标文件的正文文本；

标号抽取单元32，用于通过预先训练好的标号抽取模型抽取所述正文文本中包含有的标号；

分类单元33，用于根据所述标号的结构对所述标号进行分类，并根据分类获得的结构类型确定所述正文文本中各标号之间的层级关系；

构建单元34，用于根据所述层级关系构建所述目标文件的树形结构。

作为一种可选的实施方式，所述装置还包括：

训练单元35，用于将参考文件中的句子作为训练样本；针对每个所述训练样本，获取所述训练样本的标注序列，所述标注序列为对句子按字进行标号标注获得的标注结果；根据所述训练样本和所述标注序列对所述标号抽取模型进行模型训练；其中，所述标号抽取模型包括向量转换模型、深度学习模型及条件随机场模型。

作为一种可选的实施方式，所述训练单元35还用于：

作为一种可选的实施方式，所述分类单元33用于：

作为一种可选的实施方式，所述分类单元33还用于：

将同一结构类型的所述标号确定为同一层级；

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关方法的实施例中进行了详细描述，此处不再详细阐述。

请参考图4，是根据一示例性实施例示出的一种用于文本处理方法的电子设备700的框图。例如，电子设备700可以是计算机，数据库控制台，平板设备，个人数字助理等。

参照图4，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，输入/输出(I/O)的接口710，以及通信组件712。

处理组件702通常控制电子设备700的整体操作，诸如与显示，数据通信，及记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器 (SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

I/O接口710为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

通信组件712被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件712经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件712还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC 模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB) 技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得电子设备能够执行一种文本处理方法，所述方法包括：

获取目标文件的正文文本；通过预先训练好的标号抽取模型抽取所述正文文本中包含有的标号；根据所述标号的结构对所述标号进行分类，并根据分类获得的结构类型确定所述正文文本中各标号之间的层级关系；根据所述层级关系构建所述目标文件的树形结构。

应当理解的是，本实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本实施例的范围仅由所附的权利要求来限制

以上所述仅为本实施例的较佳实施例，并不用以限制本实施例，凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.一种文本处理方法，该方法包括:

获取目标文件的正文文本；

根据所述层级关系构建所述目标文件的树形结构。

2.如权利要求1所述的方法，所述标号抽取模型的训练方法包括：

将参考文件中的句子作为训练样本；

3.如权利要求2所述的方法，所述根据所述训练样本和所述标注序列对所述标号抽取模型进行模型训练，包括：

4.如权利要求1所述的方法，所述根据所述标号的结构对所述标号进行分类，包括：

5.如权利要求4所述的方法，所述根据分类获得的结构类型确定所述正文文本中各标号之间的层级关系，包括：

将同一结构类型的所述标号确定为同一层级；

6.一种文本处理装置，该装置包括:

文本获取单元，用于获取目标文件的正文文本；

7.如权利要求6所述的装置，所述装置还包括：

8.如权利要求7所述的装置，所述训练单元还用于：

9.如权利要求6所述的装置，所述分类单元用于：

10.如权利要求9所述的装置，所述分类单元还用于：

将同一结构类型的所述标号确定为同一层级；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5任一所述方法的步骤。

12.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以的上程序所包含的用于进行如权利要求1～5任一所述方法对应的操作指令。