CN114462385A

CN114462385A - 一种文本分段方法及装置

Info

Publication number: CN114462385A
Application number: CN202210122962.9A
Authority: CN
Inventors: 汪洲; 李长亮; 毛璐
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-07-13
Filing date: 2022-02-09
Publication date: 2022-05-10

Abstract

本申请提供一种文本分段方法及装置，其中所述文本分段方法包括：接收针对目标文本的分段指令；响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。通过本方法，无需对文本进行截取或压缩，可以有效地参考文本的前后文语义信息，达到更好的文本分段效果，提升用户的使用体验。

Description

一种文本分段方法及装置

技术领域

本申请涉及计算机技术领域的人工智能领域，特别涉及一种文本分段方法及装置、计算设备和计算机可读存储介质。

背景技术

人工智能(artificial intelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。近年来，机器学习领域印象最深刻的进步出现在深度学习子领域(又称深度神经网络学习)。深度学习(deep learning)是指通过训练具有许多隐层的神经网络来创建丰富层次表示的方法。深层学习利用简单计算单元(即“神经元”)组成多层网络。其中，每个单元将一组输入值组合以产生一个输出值，并将该值传递给下游其他神经元。深度学习中的神经网络都由若干隐藏层组成。自然语言处理(Natural LanguageProcessing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，对文本进行分段处理，尤其是对长文本是自然语言处理领域的一个重要分支，可以通过深度学习技术解决自然语言处理领域的各个技术问题。

随着计算机技术的发展，通过神经网络模型在处理文本已经越来越成熟，但是神经网络模型在处理文本时，通常有字符限制，对于文字较多的长文本，通常无法一次性输入到神经网络模型中进行处理，因此需要对文本进行分段，文本分段是指将一段文本，按照不同的语义或结构，分割为长度较小的段落，目前通常是通过神经网络模型的处理字符限制对文本进行截断，或将文本分为多个分句，通过预先训练的神经网络模型筛选有用的语句，达到缩短长文本字数的目的，但是，对于一篇文本通常存在前后语句的相互关系，使用上述方法会使得文本丢失大量的语义信息，导致分段效果较差，无法达到用户的要求。

发明内容

有鉴于此，本申请实施例提供了一种文本分段方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种文本分段方法，包括：

接收针对目标文本的分段指令；

响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；

将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；

将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；

根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。

根据本申请实施例的第二方面，提供了一种文本分段装置，包括：

接收模块，被配置为接收针对目标文本的分段指令；

分句模块，被配置为响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；

特征提取模块，被配置为将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；

分类模块，被配置为将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；

分段模块，被配置为根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述文本分段方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述文本分段方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机指令，该计算机指令被芯片执行时实现所述文本分段方法的步骤。

本申请实施例中提供的文本分段方法，包括接收针对目标文本的分段指令；响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。通过本方法，无需对文本进行截取或压缩，可以有效地参考文本的前后文语义信息，达到更好的文本分段效果，提升用户的使用体验。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的文本分段方法的流程图；

图3是本申请实施例提供的文本分段方法的架构示意图；

图4是本申请实施例提供的应用于对目标长文本数据进分段的文本分段方法的处理流程图；

图5是本申请实施例提供的文本分段装置的结构示意图；

图6是本申请实施例提供的简历处理系统的架构图；

图7是本申请实施例提供的应用于对简历文本的文本分段方法的处理流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

自然语言处理(Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。

神经网络(neural network/neural net/artificial neural network)，是指一种网络，由带可调权重的加权链路将各原始处理元互连，通过对输入值使用非线性函数使每个元素都产生一个值，然后将此值传到其他元素，或表示为一个输出值。

神经网络模型(neural-network model)是指神经网络的抽象模型，它能用软件来模拟或作为神经计算机加以实现。

基于变换器的双向编码器表示技术(BERT：Bidirectional EncoderRepresentation from Transformers)，一种深度双向的、无监督的语言表示，且仅使用纯文本语料库进行预训练的模型，用于自然语言处理(NLP)的预训练技术。

BiLSTM：双向长短期记忆人工神经网络(Bidirectional Long Short-TermMemory)模型。

端到端框架：指使用者直接输入原始材料，直接得到可用的结果，而不用去关心中间的产物。

全连接层：全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

文本分段具体是指将一段很长的文本，按照不同的语义或结构，分割为长度较小的段落，针对文本进行分段，主要有以下几种方法：(1)截断法，可以分为头截断、尾截断、头尾截断，头截断法指从文本开头直到BERT限制的字数，尾截断法指从文本结尾直到BERT限制的字数，头尾截断指头尾各保留一部分，直到BERT限制的字数。(2)池化法：将一段文字截断为多个分句，然后接全连接层提取特征。(3)压缩法：将文本分割成多个分句，通过规则或预训练的小模型来挑选有意义的分句，舍弃无意义的分句，达到缩短文本的作用。但是在实际应用中，由于长文本字数较多，BERT支持的最长序列长度为512，有效字符数为510，无法一次性输入BERT模型提取文本特征。同时文本在前后句之间存在相互关系，直接进行截取或压缩会丢失前后文大量语义信息，导致分段不准确。

基于此，在本申请中，提供了一种文本分段方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示文本分段方法中的步骤。图2示出了根据本申请一实施例的文本分段方法的流程图，包括步骤202至步骤210。

步骤202：接收针对目标文本的分段指令。

目标文本即本申请中需要进行分段的文本，通常情况下，目标文本为长文本，如一篇文章、一篇新闻、一份简历文档等等，目标文本的字数较多。

所述分段指令即针对目标文本进行分段的指令。根据所述分段指令执行对目标文本进行分段的操作。

在本申请提供的一具体实施方式中，以目标文本为简历文档为例，在简历文档中包括基本信息、技能信息、教育经历、工作经历等部分，接收针对简历文档的分段指令。需要注意的是，在实际应用中，简历文档如果是表格形式，还需要预先对简历文档进行OCR识别和信息抽取，将简历中的信息提取生成简历文本信息。

步骤204：响应于所述分段指令对所述目标文本进行分句处理，生成语句序列。

目标文本通常为包括很多语句的文本，在本申请中，响应于分段指令会对该目标文本进行分句处理，获得有多个语句组成的语句序列。具体的，响应于所述分段指令对所述目标文本进行分句处理，生成语句序列，包括S2042-S2046：

S2042、响应于所述分段指令获取预设的分句标识符。

预设的分句标识符是用于表明某一个句子已经完整表达的标识符。可以包括分号、句号、感叹号、换行符(/n)、问号，以及上述符号的全角、半角格式。不包括逗号、顿号、冒号、括号、省略号、书名号、空格等。

作为一个具体实施例，预设的分句标识符包括分号、句号、感叹号、换行符等。其他特殊字符包括数学符号、单位、几何图、公式、序号、拉丁字母、拼音、偏旁部首等。关于本申请预设的分句标识符，我们认为日文、韩文、俄文，不属于标识符，属于文字。罗马数字、中文数字均属于文字，也不属于标识符。对于一些英文与数字、符号的结合，例如MBA Ⅲ、PETS4、￥35K等，在本申请中也视为文字，而不是标识符；对于数字前后为文字、符号的情况，例如“in 1998.”、“2010年1月-2020年5月”等在本申请中也视为文字，而不是标识符。

预设的分句标识符可以直接保存在文本分段系统中用于分句的相关代码中；也可以放在文本分段系统的分句标识符数据库中，当需要对文本分句处理时，从分句标识符数据库中读取该预设的分句标识符。

S2044、根据所述分句标识符对所述目标文本进行分句处理，获得多个语句，并记录每个语句的位置标识。

在获取预设的分句标识符后，将目标文本与预设的分句标识符逐一比对，只要遇到预设的分句标识符，则将目标文本由此断开，从而获得一个语句，将目标文本全部遍历完成之后，获得多个根据分句标识符分隔出来的语句。

依次识别简历文本信息，在识别到分句标识符后，划分为一个语句，将全部简历文本信息识别完成后，获得多个语句，例如，以句号、换行符为例，对目标文本信息进行分句，获得目标文本对应的多个语句。

例如，目标文本为：“张三/n工作经历/n 2010年1月至2020年5月在金山软件担任专利工程师。”，根据预设的分句标识符“/n”、“。”可以将目标文本分为三个语句，分别为“张三”、“工作经历”、“2010年1月至2020年5月在金山软件担任专利工程师。”。

在根据分句标识符对目标文本进行分句处理的同时，还会记录每个语句在目标文本中的位置标识，所述位置标识具体是指用于标记每个语句在目标文本中的位置信息。例如，第一个语句记录为01，第二个语句记录为02，依次类推。

作为一个具体的实施例，位置标识是指语句第一个字符所在文本的位置坐标，可以是向量标识，也可以是数组。位置标识与语句对应存储在待处理语句数据库中，便于在后续的处理过程中从待处理数据库中获取待处理语句。

具体的，所述根据所述分句标识符对所述目标文本进行分句处理，获得多个语句，包括：

获取预设的语句阈值；

根据所述分句标识符和所述语句阈值对所述目标文本进行分句处理，获得多个语句，其中，分句处理获得的语句数量小于等于所述语句阈值。

预设的语句阈值即将目标文本进行分句处理后获得的语句数量的上限，在实际应用中，可以根据后续的特征分类模型的处理能力来确定语句阈值，例如，后续的特征分类模型可以一次处理64条数据，则目标文档最多可以被划分为64条语句。获取语句阈值后，对目标文本进行分句，使得语句序列中的语句数量少于语句阈值。

需要注意的是，在实际应用中，会出现分句的数量大于语句阈值的情况，则根据语句阈值对分句进行划分，获得至少两个语句集合，例如，某个目标文本在经过分句处理后，共计获得80个语句，预设语句阈值为64，则生成两个语句集合，其中，第一个语句集合包括第1-64条语句，第二个语句集合包括第65-80条语句。语句阈值是根据后续的特征分类模型的处理能力来确定的，在输入至特征分类模型时，也是要根据特征分类模型的设置输入，例如第二个语句集合实际只有16条语句，也需要将第二个语句集合中补充0的方式，将第二个语句集合补充到64条语句。

S2046、根据每个语句的位置标识获得所述多个语句对应的语句序列。

在分句处理完成后，获得多个语句，再根据每个语句的位置标识将多个语句组成语句序列。

在本申请提供的一具体实施方式中，沿用上例，对简历文档进行分句处理后，获得50个句子，句子的位置标识分别确定为S01、S02……S50，用这些位置标识组成语句序列(S01、S02……S50)，其中，S01中的01代表这个语句在简历文档中是第1个语句，S02中的02代表这个语句在简历文档中是第2个语句等等。

步骤206：将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息。

特征提取模型用于提取每个语句的特征信息的神经网络模型，特征提取模型可以为BERT模型、Ernie模型、Robert模型等等，优选的，特征提取模型为BERT模型(Bidirectional Encoder Representation from Transformers，基于变换器的双向编码器表示技术模型)，在本申请的实施例中，以BERT模型包括顺次连接的嵌入层和编码器，所述编码器中包括12个顺次连接的编码层为例进行解释说明。

语句在输入BERT模型之前，通常会在语句前添加[CLS]标识，[CLS]标识为句首标志符号，在添加了[CLS]标识的语句输入至BERT模型后，经过嵌入层处理，获得语句对应的待编码矩阵，再将待编码矩阵输入至编码器做编码处理，获得该语句的编码矩阵，在编码矩阵中与CLS标识对应位置的向量为CLS向量。将语句序列中每个语句经过特征提取模型的处理后，获得每个语句的对应的语句特征向量，即获取每个语句对应的CLS向量。

具体的，所述将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，包括：

S2062、在所述语句序列中确定目标语句。

其中，目标语句即为进入特征提取模型进行特征提取的语句，每个语句在进行特征提取时，均可作为目标语句。

例如，从语句序列中选取需要提取特征的语句为“张三，性别男，年龄24。”，则该语句为目标语句。

S2064、对所述目标语句做分词处理，获得所述目标语句对应的词单元集合。

其中，对目标词语做分词处理，是为了在后续的嵌入化过程中，根据嵌入化词典将每个词语转换为对应的词向量，基于此，在确定目标语句后，需要为目标语句做分词处理，获得目标语句对应的词单元集合，需要注意点是，在此时，需要为每个目标具体添加CLS标识，获得的词单元集合是包括CLS标识的词单元集合。

例如目标语句为“张三，性别男，年龄24。”，对其进行分词处理后，获得的词单元集合为[CLS，张三，性别，男，年龄，24]。

S2066、将所述词单元集合输入至所述嵌入层做嵌入化处理，获得所述词单元集合对应的词单元向量集合。

其中，将词单元集合输入至嵌入层做嵌入化处理，是为了将自然语言转换为计算机可以识别的向量，便于计算机后续从词单元向量中提取特征信息。

例如，沿用上例，词单元集合为[CLS，张，三，性，别，男，年，龄，2，4]，经过特征提取模型的嵌入层做嵌入化处理，获得词单元向量集合(A_CLS、A_张、A_三、A_性、A_别、A_男、A_年、A_龄、A₂、A₄)。

S2068、将所述词单元向量集合输入所述编码器做编码处理，获得所述目标语句对应的语句特征向量。

其中，将词单元向量集合输入至编码器中，经过编码器中12个顺次连接的编码层的编码处理，提取词单元向量集合中词单元向量之间的位置特征、关键词特征、语义特征、语句间关联特征等，从而获得目标语句对应的编码向量。其中，目标语句中的CLS向量即为该目标语句的语句特征向量。在获得CLS向量后，便于后续根据CLS向量来计算该目标语句作为起始句的概率。

例如，将词单元向量集合(A_CLS、A_张、A_三、A_性、A_别、A_男、A_年、A_龄、A₂、A₄)输入至语句特征提取模型的嵌入层做编码处理，获得语句特征向量(B_CLS、B_张、B_三、B_性、B_别、B_男、B_年、B_龄、B₂、B₄)，其中，B_CLS向量为所述目标语句对应的语句特征向量。B_CLS向量即CLS向量，用于标识语句的特征，作为语句的语义表示。

在本申请提供的一具体实施例中，沿用上例，将语句序列(S01、S02……S50)经过特征提取模型后，获得每个语句对应的CLS向量组成向量序列(B_CLS-01、B_CLS-02……B_CLS-50)，其中，B_CLS-01表示第01个句子的CLS向量。

步骤208：将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别。

在获得每个语句对应的CLS向量之后，即可将每个CLS向量一起输入至特征分类模型，特征分类模型用于根据每个语句的特征向量来确定每个语句的类别。

在本申请提供的一具体实施方式中，所述特征分类模型包括应用循环神经网络的特征分类模型；

所述将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别，包括：

将每个语句对应的语句特征向量输入至应用循环神经网络的特征分类模型，获得所述应用循环神经网络的特征分类模型输出的每个语句对应的语句类别。

在本申请提供的又一具体实施方式中，所述特征分类模型包括二分类模型。

所述将每个语句对应的语句特征向量输入至应用循环神经网络的特征分类模型，获得所述应用循环神经网络的特征分类模型输出的每个语句对应的语句类别，包括：

将每个语句对应的语句特征向量输入至应用循环神经网络的二分类模型，获得所述应用循环神经网络的二分类模型输出的每个语句对应的第一类别或第二类别。

所述特征分类模型在实际应用中，需要使用应用了循环神经网络的特征分类模型，例如LSTM网络、BiLSTM网络、RNN网络等等，应用了循环神经网络的特征分类模型可以参考每个向量之间的前后关系，每个语句特征向量(CLS向量)用于表示每个语句的语义特征，通过特征分类模型在输出层的二分类函数来计算每个CSL向量对应语句的类型，具体的，语句类型分为第一类别或第二类别，其中，第一类别为起始句，可以用1表示；第二类别为中间句，可以用0表示。在确定起始句和中间句后，即可根据起始句和中间句来将目标文本进行分段，每一段包括一个起始句和该起始句后面的中间句。

在本申请提供的一具体实施例中，沿用上例，将向量序列(B_CLS-01、B_CLS-02……B_CLS-50)输入至以BiLSTM网络构建的特征分类模型中，经过BiLSTM提取每个CLS向量的特征并进行分类，判断每个CLS向量的分类并确定向量序列中每个CLS向量对应的语句类别为(1₀₀₁、0₀₀₂、…、1₀₀₇、…、0₀₅₀)。其中，1₀₀₁表示001句为起始句，0₀₀₂表示002句为中间句……，1₀₀₇表示001句为起始句，……0₀₅₀表示050句为中间句。

步骤210：根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。

在确定每个语句对应的语句类别后，即可根据每个语句的语句类别来对目标文本进行分段处理，具体的，根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合，包括：

根据每个语句对应的第一类别或第二类别对所述目标文本进行分段处理，获得段落集合。

在实际应用中，通过每个语句对应的语句类别即可对目标文本进行分段，由于语句类别分为第一类别和第二类别，其中，第一类别为起始句，第二类别为中间句，根据每个语句对应的语句类别和语句序列，即可对目标文本进行分段处理，获得多个段落集合。具体的分段规则为：每一段的第一条语句为第一类别，其他的语句为第二类别。即每个第一类别的语句均作为一个段落的第一句，将两个第一类别的语句间的中间句作为前一个第一类别的语句所在段落的语句。

其中，根据每个语句对应的第一类别或第二类别对所述目标文本进行分段处理，获得段落集合，具体包括：

根据每个语句对应的位置标识对每个语句进行排序；

根据第一类别对应的语句对所述目标文本进行分段，获得多个段落，其中，每个段落的第一个语句为第一类别，除第一个语句外的其他语句为第二类别。

从前述的待处理语句数据库获取每个待处理语句，并根据每个待处理语句对应的类别，将每个待处理语句进行分段。具体的，将每个第一类别的语句作为每个段落的第一句话，并将两个第一类别中的第二类别的语句作为前一个段落的语句。例如一共有10个语句，向量序列为(1₀₀₁、0₀₀₂、0₀₀₃、1₀₀₄、0₀₀₅、1₀₀₆、0₀₀₇、0₀₀₈、1₀₀₉、0₀₁₀)，其中，第1、4、6、9个语句对应的类别为第一类别，则目标文本一共分为4段，其中，第1段包括第1-3个语句，第2段包括第4-5个语句，第3段包括第6-8个语句，第4段包括第9-10个语句。

在本申请提供的一具体实施例中，沿用上例，将向量序列(B_CLS-01、B_CLS-02……B_CLS-50)输入至以BiLSTM网络构建的特征分类模型中，经过BiLSTM提取每个CLS向量的特征并进行分类，判断每个CLS向量的分类并确定向量序列中每个CLS向量对应的语句类别为(1₀₀₁、0₀₀₂、…、1₀₀₇、…、0₀₅₀)。其中，第1个语句、第7个语句、第18个语句、第23个语句是第一类别(即起始句)，其他语句均为第二类别(即中间句)，因此可以确定第1-6个语句为第一段落，第7-17个语句为第二段落，第18-22个语句为第三段落，第23-50个语句为第四段落，同时第1个语句对应的CLS向量对应的语义表示为“基本信息”，第7个语句对应的CLS向量对应的语义表示为“技能信息”，第18个语句对应的CLS向量对应的语义表示为“教育经历”，第23个语句对应的CLS向量对应的语义表示为“工作经历”，因此可以确定，第一个段落是目标简历中的基本信息，第二个段落是目标简历中的技能信息，第三个段落是目标简历中的教育经历，第四个段落是目标简历中的工作经历。

通过本申请实施例提供的文本分段方法，包括接收针对目标文本的分段指令；响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。通过本申请提供的文本分段方法，语句特征提取模型可以获得每个语句的特征信息，再根据特征分类模型将每个语句的特征信息进行分类，完整文本分段任务，无需对文本进行截取或压缩，可以有效地参考文本的前后文语义信息，达到更好的文本分段效果，提升用户的使用体验。

下面结合图3和图4，以本申请提供的文本分段方法在对目标长文本数据进行分段为例，对所述文本分段方法进行进一步解释说明，图3示出了本申请实施例提供的文本分段方法的架构示意图，在本申请实施例中采用BERT+BiLSTM相结合的模型架构，其中，语句特征提取模型采用BERT模型，特征分类模型采用BiLSTM模型。

图4示出了本申请一实施例提供的应用于对目标长文本数据进分段的文本分段方法的处理流程图，包括步骤402至步骤410。

步骤402：接收针对目标长文本数据的分段指令。

步骤404：根据预设的分句标识符对所述目标长文本数据进行分句处理，生成由多个分句组成的语句序列。

步骤406：将所述语句序列中的每个分句依次输入至BERT模型，获得所述BERT模型输出的每个分句对应的CLS向量。

步骤408：将每个分句对应的CLS向量输入至BiLSTM模型做二分类处理，获得所述BiLSTM模型输出的每个分句对应的语句类别。

步骤410：根据每个分句对应的语句类别对所述目标长文本数据进行分段处理，获得段落集合。

与上述文本分段方法实施例相对应，本申请还提供了文本分段装置实施例，图5示出了本申请一个实施例的文本分段装置的结构示意图。如图5所示，该装置包括：

接收模块502，被配置为接收针对目标文本的分段指令；

分句模块504，被配置为响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；

特征提取模块506，被配置为将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；

分类模块508，被配置为将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；

分段模块510，被配置为根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。

可选的，所述分句模块504，进一步被配置为：

响应于所述分段指令获取预设的分句标识符；

根据所述分句标识符对所述目标文本进行分句处理，获得多个语句，并记录每个语句的位置标识；

根据每个语句的位置标识获得所述多个语句对应的语句序列。

可选的，所述分句模块504，进一步被配置为：

获取预设的语句阈值；

可选的，所述语句特征提取模型包括嵌入层和编码器；

所述特征提取模块506，进一步被配置为：

在所述语句序列中确定目标语句；

对所述目标语句做分词处理，获得所述目标语句对应的词单元集合；

将所述词单元集合输入至所述嵌入层做嵌入化处理，获得所述词单元集合对应的词单元向量集合；

将所述词单元向量集合输入所述编码器做编码处理，获得所述目标语句对应的语句特征向量。

可选的，所述特征分类模型包括应用循环神经网络的特征分类模型；

所述分类模块508，进一步被配置为：

可选的，所述特征分类模型包括二分类模型；

所述分类模块508，进一步被配置为：

可选的，所述分段模块510，进一步被配置为：

可选的，每个语句对应位置标识；

所述分段模块510，进一步被配置为：

根据每个语句对应的位置标识对每个语句进行排序；

通过本申请实施例提供的文本分段装置，包括接收针对目标文本的分段指令；响应于所述分段指令对所述目标文本进行分句处理，生成语句序列；将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，其中，每个语句特征向量表示对应语句的特征信息；将每个语句对应的语句特征向量输入至特征分类模型，获得所述特征分类模型输出的每个语句对应的语句类别；根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合。通过本申请提供的文本分段装置，语句特征提取模型可以获得每个语句的特征信息，再根据特征分类模型将每个语句的特征信息进行分类，完整文本分段任务，无需对文本进行截取或压缩，可以有效地参考文本的前后文语义信息，达到更好的文本分段效果，提升用户的使用体验。

上述为本实施例的一种文本分段装置的示意性方案。需要说明的是，该文本分段装置的技术方案与上述的文本分段方法的技术方案属于同一构思，文本分段装置的技术方案未详细描述的细节内容，均可以参见上述文本分段方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

参见图6和图7，以对简历文档进行文本分段方法的应用为例，对本申请的文本分段方法做进一步解释说明，参见图6，图6示出了本申请实施例提供的简历处理系统的架构图，如图6所示，简历处理系统600包括简历文档数据库602、文本提取系统604、文本分段系统606、信息抽取系统608。其中，简历文档数据库602存放多篇简历文档，简历文档分为中文、外文简历，且带有表格、图像、页眉页脚等内容。文本提取系统604负责提取简历文档中的文本信息，将简历文档转换为对应的简历文本。文本分段系统606负责将每份简历文本分段，获得多个段落集合，再将每个段落集合传输至信息抽取系统。由信息抽取系统608抽取段落集合中的信息。

参见图7，图7示出了本申请一实施例提供的应用于对简历文档进分段的文本分段方法的处理流程图，包括步骤702至步骤710。

步骤702：接收简历文档，并提取该简历文档中的简历文本。

在本申请提供的实施例中，简历文档中分为基本信息、教育经历、工作经历、技能描述、个人总结等几部分。可以通过文本提取和/或OCR识别的方式提取简历文档中文本内容，并将提取到的文本内容进行顺次连接保存。

步骤704：根据预设的分句标识符对该简历文本进行分句处理，生成由多个语句组成的语句序列。

预设的分句标识符是用于表明某一个句子已经完整表达的标识符。可以包括分号、句号、感叹号、换行符(/n)、问号，以及上述符号的全角、半角格式。不包括逗号、顿号、冒号、括号、省略号、书名号、空格等。预设的分句标识符可以直接保存在文本分段系统中用于分句的相关代码中；也可以放在文本分段系统的分句标识符数据库中，当需要对文本分句处理时，从分句标识符数据库中读取该预设的分句标识符。

在本申请提供的实施例中，将简历文本与预设的分句标识符逐一匹配，根据预设的分号、句号、感叹号、换行符、问号等分句标识符，只要遇到分句标识符，就将简历文本由此断开。断开后的语句字节数可能大于510个字符，可能小于510个字符，甚至非常小。由于510个字符是BERT模型最大可处理序列长度，因此将510个字符作为一个语句保留的字符的最大长度，当语句长度小于510字符时，将该语句存储到待处理语句数据库中，便于进行后续的处理；当语句长度大于510字符时，只保留该语句的前510字符，将超过510字符的后面的字符删去，并将该语句存储到待处理语句数据库中，由于本申请提供的方法，是要识别每个语句的语句类型，通过前510个字符足够识别出该语句的语句类型，因此，可以将超过510个字符的部分舍去。于是，一个简历文本被划分为n个待处理语句，n个待处理语句组成一个语句序列，每个待处理语句的长度均小于510个字符，其中，510个字符是BERT模型最大可处理序列长度。

在实际应用中，分句的数量与后续的特征分类模型设置的语句阈值相关，语句阈值保存在文本分段系统的相关代码中，分句的数量n小于等于特征分类模型设置的语句阈值。当分句的数量确定后，根据该语句阈值对分句的数量进行调整，例如语句阈值为64，分句的数量为90，则将1-64个语句作为第一批次，将65-90作为第二批次，在第二批次中，不足64个语句，还需要通过补0的方式，将第二批次的语句补充到64。

步骤706：将该语句序列中的每个语句依次输入至语句特征提取模型，获得该语句特征提取模型输出的每个语句对应的CLS向量。

在本申请提供的实施例中，将语句序列中的n个语句依次输入至基于BERT模型的语句特征提取模型中进行处理，语句特征提取模型在每个语句前加入“CLS”标识，并将语句转换为语句向量。

将每个语句向量输入至语句特征提取模型，语句特征提取模型提取每个语句向量的位置特征、关键词特征、语义特征、语句间关联特征等，语句序列中的每个语句共享语句特征提取模型的模型参数，获得语句特征提取模型输出的每个语句对应的CSL向量“CLS₁，CLS₂，……CLS_n”。

步骤708：将每个语句对应的CLS向量输入至特征分类模型做二分类处理，获得特征分类模型输出的每个语句对应的语句类别。

在本申请提供的实施例中，特征分类模型采用BiLSTM模型，通过BiLSTM模型提取简历文本的全文特征，参考简历文本的上下文信息。每篇简历文档为一个Batch(处理批次)，由BiLSTM模型对每个Batch进行特征提取和特征分类，Batch_Size表示Batch的处理数量(即语句阈值)，Batch_Size作为模型的超参数，当Batch_Size的大小被设置为64时，则简历文档执行分句处理后，获得的n个语句中，n小于等于64，以CSL向量的维度为768位、n＝64为例，则简历文档的特征向量的大小为64*768。

特征分类模型根据每个语句的CLS向量进行特征分类，输出每个语句对应的语句类别，特征分类模型的分类任务为二分类，判断该语句是否为起始语句，若语句为起始语句，则其对应的语句类别为1，若语句为非起始语句，则其对应的语句类别为0。特征分类模型被训练于识别某个语句是否为起始语句，用于确定该语句是否为某一个段落的第一句话，进而可以通过起始语句将文本进行分段，以简历文本为例，姓名、工作经历、教育经历、职业技能、资格证书等均可以作为起始语句，用于表述该语句后的信息与该语句相关。

步骤710：根据每个语句对应的语句类别对该简历文本进行分段处理，获得段落集合。

比如，简历文本为“

个人简历

姓名：张三男22岁(1999年4月)1年工作经验本科

现居住地：北京|户口：北京|运维工程师

手机：185********

E-mail：*********@qq.com

求职意向

期望工作地区：北京

期望月薪：10000-20000元/月

期望工作性质：全职

期望从事职业：运维工程师

期望从事行业：互联网

自我评价

我毕业于清华大学计算机学院，学习成绩优秀、认真负责。

工作经历

2021.08-至今XXX科技有限公司

运维工程师10001-15000元/月

工作描述：1、主要负责运维相关工作

2、全面负责对运维相关工作

项目经历

2021.10-至今搜索算法

项目描述：搜索算法。

在项目中负责处理搜索算法。

2021.08-2021.10智能对话

项目描述：智能对话。

在项目中负责自然语言处理。

教育经历

2016.09-2020.07清华大学计算机本科

证书

2018.08计算机二级

2019.12大学英语

专业技能

熟练使用相关计算机技能。”该简历文本经过分句处理后，获得多个语句，参见下述表1：

将上述分句输入语句特征提取模型进行处理，获得每个语句对应的CLS向量，即“CLS₁，CLS₂，……CLS₃₂”。将每个CLS向量输入至特征分类模型做二分类处理，特征分类模型中的二分类函数根据每个CLS向量计算CLS向量作为起始句的概率，当概率大于预设阈值时，则该CLS向量为起始句(1)，否则该CLS向量为中间句(0)。二分类函数可以是sigmoid函数、softmax函数等，以sigmoid函数为例，参见下述公式1：

其中，x为CLS向量，e为欧拉数。

基于此获得每个CLS向量对应的语句类别为如下述表2所示：

CLS<sub>1</sub>	1	CLS<sub>2</sub>	0	CLS<sub>3</sub>	0	CLS<sub>4</sub>	0
								CLS<sub>5</sub>	0	CLS<sub>6</sub>	1	CLS<sub>7</sub>	0	CLS<sub>8</sub>	0
CLS<sub>9</sub>	0	CLS<sub>10</sub>	0	CLS<sub>11</sub>	0	CLS<sub>12</sub>	1
								CLS<sub>13</sub>	0	CLS<sub>14</sub>	1	CLS<sub>15</sub>	0	CLS<sub>16</sub>	0
CLS<sub>17</sub>	0	CLS<sub>18</sub>	0	CLS<sub>19</sub>	1	CLS<sub>20</sub>	0
								CLS<sub>21</sub>	0	CLS<sub>22</sub>	0	CLS<sub>23</sub>	0	CLS<sub>24</sub>	0
CLS<sub>25</sub>	0	CLS<sub>26</sub>	1	CLS<sub>27</sub>	0	CLS<sub>28</sub>	1
								CLS<sub>29</sub>	0	CLS<sub>30</sub>	0	CLS<sub>31</sub>	1	CLS<sub>32</sub>	0

以1为段落的起始句，0为段落的中间句，则1-5为一个段落，6-11为一个段落，12-13为一个段落，14-18为一个段落，19-25为一个段落，26-27为一个段落，28-30为一个段落，31-32为一个段落。共计8个段落。即：

1、“个人简历

姓名：张三男22岁(1999年4月)1年工作经验本科

现居住地：北京|户口：北京|运维工程师

手机：18573123456

E-mail：458888888@qq.com”

2、“求职意向

期望工作地区：北京

期望月薪：10000-20000元/月

期望工作性质：全职

期望从事职业：运维工程师

期望从事行业：互联网”

3、“自我评价

我毕业于清华大学计算机学院，学习成绩优秀、认真负责。”

4、“工作经历

2021.08-至今XXX科技有限公司

运维工程师10001-15000元/月

工作描述：1、主要负责运维相关工作

2、全面负责对运维相关工作”

5、“项目经历

2021.10-至今搜索算法

项目描述：搜索算法。

在项目中负责处理搜索算法。

2021.08-2021.10智能对话

项目描述：智能对话。

在项目中负责自然语言处理。”

6、“教育经历

2016.09-2020.07清华大学计算机本科”

7、“证书

2018.08计算机二级

2019.12大学英语”

8、“专业技能

熟练使用相关计算机技能。”

将分好的段落集合，保存到待处理段落数据库中，用于后续的简历信息处理，可以输入到上述的简历处理系统的信息抽取模块中，抽取每个段落中的信息。

通过本申请提供的文本分段方法，基于分句的基础上，通过BERT模型提取每个分句的特征，并通过BiLSTM模型提取分句的特征并进行分类，根据分类结果完成文本分段任务，无需对文本的分句进行筛选，也无需用BERT模型提取特征后再使用全连接层进行分类，是一种端到端的文本分段方法，达到更好的文本分段效果，提升用户的使用体验。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述的文本分段方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本分段方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本分段方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述文本分段方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本分段方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本分段方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述文本分段方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本分段方法，其特征在于，包括：

接收针对目标文本的分段指令；

2.如权利要求1所述的文本分段方法，其特征在于，响应于所述分段指令对所述目标文本进行分句处理，生成语句序列，包括：

响应于所述分段指令获取预设的分句标识符；

3.如权利要求2所述的文本分段方法，其特征在于，所述根据所述分句标识符对所述目标文本进行分句处理，获得多个语句，包括：

获取预设的语句阈值；

4.如权利要求1所述的文本分段方法，其特征在于，所述语句特征提取模型包括嵌入层和编码器；

所述将所述语句序列中的每个语句依次输入至语句特征提取模型，获得所述语句特征提取模型输出的每个语句对应的语句特征向量，包括：

在所述语句序列中确定目标语句；

5.如权利要求1所述的文本分段方法，其特征在于，所述特征分类模型包括应用循环神经网络的特征分类模型；

6.如权利要求5所述的文本分段方法，其特征在于，所述特征分类模型包括二分类模型；

7.如权利要求6所述的文本分段方法，其特征在于，根据每个语句对应的语句类别对所述目标文本进行分段处理，获得段落集合，包括：

8.如权利要求7所述的文本分段方法，其特征在于，每个语句对应位置标识；

根据每个语句对应的第一类别或第二类别对所述目标文本进行分段处理，获得段落集合，包括：

根据每个语句对应的位置标识对每个语句进行排序；

9.一种文本分段装置，其特征在于，包括：

接收模块，被配置为接收针对目标文本的分段指令；

10.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-8任意一项所述方法的步骤。

11.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。