CN115526176A

CN115526176A - 文本识别方法及装置、电子设备、存储介质

Info

Publication number: CN115526176A
Application number: CN202110706283.1A
Authority: CN
Inventors: 陈敬
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-12-27

Abstract

本申请实施例提供一种文本识别方法，包括：获取待识别文本；通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到文本语义向量；对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本。本申请实施例同时还提供一种文本识别装置、电子设备、存储介质。

Description

文本识别方法及装置、电子设备、存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本识别方法及装置、电子设备、存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是人工智能的一个子领域。在NLP的众多研究方向中，信息抽取(Information Extraction，IE)一直是一项热门的研究课题。信息抽取指的是从一段文本中识别并抽取出时间、地域等信息。如此，可以及时掌握相关事件(主要是负面事件)的动态，及时做好舆情监控，用户预警等相关工作，无论对于政府还是企业，都是至关重要的。

目前，针对信息抽取常用的模型大多基于长短期记忆(Long Short-Term Memory，LSTM)，例如Bilstm-CRF模型和Bert-Bilstm-CRF模型，是将长文本截取或者针对长文本提取出摘要信息，减少模型输入的长度，然后基于序列标注模型进行信息抽取。但由于长文本截取或者提取摘要信息会造成信息缺失，导致抽取到的信息较为片面，影响信息抽取的准确率。

发明内容

有鉴于此，本申请实施例提供了一种文本识别方法及装置、设备、存储介质。

本申请实施例提供一种文本识别方法，该方法包括：

获取待识别文本；

通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到文本语义向量；

对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本。

在上述实施例的基础上，本申请实施例还提供一种文本识别装置，该装置包括：获取模块，提取模块和识别模块，其中，

所述获取模块，用于获取待识别文本；

所述提取模块，用于通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息的语义特征，得到文本语义向量；

所述识别模块，用于对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本。

在上述实施例的基础上，本申请实施例还提供一种电子设备，该电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述实施例中所述方法的步骤。

在上述实施例的基础上，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现上述实施例中所述方法的步骤。

本申请实施例所提供的文本识别方法，通过获取待识别文本；利用文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，得到文本语义向量；对文本语义向量进行识别处理，得到待识别文本中的目标文本。如此，通过构建文本语义提取模型，使得截断后的待识别文本的上下文关系更加紧密，避免了由于长文本截取或者提取摘要信息造成的信息缺失，提高了信息抽取的准确率。

附图说明

图1为本申请实施例提供的一种文本识别方法的流程示意图；

图2为本申请实施例提供的另一种文本识别方法的流程示意图；

图3为本申请实施例提供的一种文本识别方法中BERT子模型的结构示意图；

图4为本申请实施例提供的一种文本识别方法中EDC子模型的结构示意图；

图5为本申请实施例提供的一种文本识别方法中多任务协同学习的流程示意图；

图6为本申请实施例提供的一种文本识别装置的结构示意图；

图7为本申请实施例提供的电子设备的实体示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

众所周知，在自然语言处理(Natural Language Processing，NLP)的众多研究方向中，信息抽取(Information Extraction，IE)一直是一项热门的研究课题。地域提取是信息抽取的一项基本任务，旨在通过从文本信息中抽取出相关事件发生的地域信息，其在很多自然语言处理应用中已经成为不可或缺的步骤。

本申请旨在从新闻文本中识别出地名信息并确定对应事件所属地点，进而准确识别新闻事件发生地点。基于新闻文本识别事件的地域信息，及时掌握事件(主要是负面事件)的发生地点，做好舆情监控。

相关技术提出的识别方法大多是基于长短期记忆(Long Short-Term Memory，LSTM)，例如，Bilstm-CRF模型和Bert-Bilstm-CRF模型等，其不足之处在于新闻文本较长时，模型顺序解码所需的时间就越长，因此，如何从长文本中快速提取新闻事件相关地域信息是相关技术提出的识别方法目前面临的主要问题。此外，由于新闻文本中出现的地域信息可能是不完整的，如“界首”，其可能是“江苏省扬州市界首镇”，也可能是“安徽省阜阳市界首市”，因此如何进行准确的地域补全是新闻地域提取任务面临的第二个问题。最后，新闻文本中提取的地域信息可能会有多个，如何从多个地域信息中确定出新闻事件相关的地域信息是地域提取任务面临的第三个问题。

针对以上问题，相关技术目前大致有以下几种方案：

针对如何从长文本中快速提取新闻事件相关地域信息的问题，相关技术目前常用的方法如Bilstm-CRF模和Bert-Bilstm-CRF模型，其原理是采用相应策略减少模型输入的长度，例如，长文本截取或者针对新闻长文本提取摘要信息，之后基于序列标注模型进行地域信息提取。其不足之处在于，新闻长文本的截断或者摘要方式会造成新闻文本地域信息的损失，导致最后获得的地域信息较为片面。同时，由于LSTM的特殊性，整个模型在训练及预测时只能串行，无法并行加速，加上最后基于CRF选取全局最优解，模型的整体耗时较长。

针对如何进行地域补全的问题，相关技术目前常用的实现方法都是引入外部地域词典，基于最大匹配算法(Maximum Matching)或者其他算法进行地域补全。其不足之处在于，基于外部地域词典引入的地域补全方法简单粗暴，当遇到某一个地域词在外部地域词典中涉及的省、市、县，街道多次出现时，容易出现地域补全错误的情况。如“中山路”补全为“广东省中山市”，“温泉”补全为“新疆维吾尔自治区博尔塔拉自治州温泉县”等。虽然以上地域补全方法能够进行地域补全，但是其又引入了地域补全错误的问题。

针对如何从多个地域信息中提取出新闻事件相关的地域信息的问题，相关技术目前常见且简单的方法是直接计算该地域词在新闻文本中出现的频率，直接将新闻文本中出现频率较高的地域词作为事件的主地域词。其不足之处在于，前述在介绍针对如何从长文本中快速提取新闻事件相关地域信息的问题时，已经说明目前常用的方法是长文本截取或者针对新闻长文本提取摘要信息。该方法在一定程度上损害了地域词在新闻文本中的词频信息。此外，主地域词应该是多种因素综合考虑下的一个最优结果，而该方法忽略了主地域词相关的其他信息，如位置信息，一般主地域词在新闻文本前面出现的概率较大，因此这种主地域词判定的方式简单粗暴，易造成误判。

为了解决相关技术存在的上述问题，本申请实施例提供了一种文本识别方法，如图1所示，该方法可以包括以下步骤：

S101、获取待识别文本。

这里，待识别文本可以是输入文本经过预处理后得到的文本。对应地，在获取待识别文本之前，需要对获取到的输入文本进行预处理。输入文本可以是网络上直接获取到的新闻文本、微博文本、博客文本、用户发表的评论文本等。在对输入文本进行预处理后，去除输入文本中多余的空格和/或干扰字段，并对去除多余的空格和/或干扰字段的输入文本进行词性标注，得到的待识别文本即可直接输入模型进行信息提取。

S102、通过文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息的语义特征，得到文本语义向量。

这里，在获取到待识别文本后，需要对待识别文本进行编码，以加强待识别文本的上下文关系。首先，通过文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息对应的语义特征来加强待识别文本的上下文关系。这里，局部文本信息，可以是待识别文本进行词性标注以后形成的汉语词语和/或汉字字符。局部文本信息的语义特征，可以是相邻的汉语词语和/或汉字字符之间可能存在的上下文关系。通过对待识别文本进行词性标注，并提取词性标注后的汉语词语和汉字字符之间的上下文关系，即可得到含有丰富语义信息的文本语义向量。再对该文本语义向量进行识别处理，就可以从待识别文本中提取目标文本。

需要说明的是，词性标注可以按照BIO模式或BIOES模式进行标注。BIO 模式中，B即Begin，表示标注的词的开始；I，即Inside，表示标注的词的内部； O，即Outside，表示标注的词的外部。BIOES模式中，B即Begin，表示标注的词的开始；I，即Inside，表示标注的词的内部；O，即Outside，表示标注的词的外部；E，即End，表示标注的词的结尾；S，即Singleton，表示单字成词。

S103、对文本语义向量进行识别处理，得到待识别文本中的目标文本。

这里，在获取了含有丰富语义特征的文本语义向量后，需要对文本语义向量进行识别处理。这里的识别处理，通过条件随机场模型进行全局优化，考虑标注后的文本语义向量中不同标签之间的相邻关系，提取文本语义向量的类别特征，从而获取最优的预测结果，再从待识别文本中提取目标文本。

由此可见，本申请实施例所提供的文本识别方法，通过获取待识别文本；利用文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，得到文本语义向量；对文本语义向量进行识别处理，得到待识别文本中的目标文本。如此，通过构建文本语义提取模型，使得截断后的待识别文本的上下文关系更加紧密，避免了由于长文本截取或者针对长文本提取摘要信息造成的信息缺失，提高了识别的准确率。

基于上述实施例，S102中的文本语义提取模型可以包括：双向转换编码表示(Bidirectional Encoder Representations from Transformers，BERT)子模型和增强型空洞卷积(Enhanced Dilated Convolution，EDC)子模型；

对应地，S102中通过文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，得到文本语义向量，可以通过以下步骤实现：

S1021、通过BERT子模型提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，得到含有语义特征的序列向量；

S1022、通过EDC子模型对序列向量进行局部语义特征提取，得到文本语义向量。

这里，文本语义提取模型可以包括：BERT子模型和EDC子模型。

需要说明的是，通过BERT子模型提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，即可得到含有丰富语义特征的序列向量，再将序列向量输入EDC子模型中进行局部特征提取，进一步可以得到含有丰富语义特征的文本语义向量。

这里BERT子模型是一种预训练模型，可以用于自然语言处理领域内的多种任务，例如文本分类、生成摘要、机器翻译等，同时也可以用于生成序列向量。相关技术一般采用Word2Vec来生成序列向量，其不足之处是，生成的序列向量是静态的，没有结合上下文信息，导致在不同的文本中词对应的序列向量都是相同值。而通过BERT预训练模型得到的序列向量是动态的，能够根据词在不同文本中的上下文信息生成不同的序列向量，这样就能弥补Word2Vec 的缺陷，得到含有丰富语义特征的序列向量。

EDC子模型是对传统的空洞卷积模型进行了优化的版本，通过网络层成组后，基于连续增加的空洞率进行卷积，可以进一步改善模型在训练时局部信息丢失的问题。

基于上述实施例，S1021中通过BERT子模型提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，得到含有语义特征的序列向量，可以通过以下步骤实现：

S1021a、通过BERT子模型提取待识别文本的多个局部文本信息，得到文本序列；

S1021b、随机选择文本序列中的部分词进行语义特征表示，得到语义特征序列；

S1021c、对语义特征序列进行特征提取，得到序列向量。

具体地，首先通过BERT子模型提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，通过BERT子模型对待识别文本进行词性标注。这里的词性标注可以是根据BERT子模型的要求设定最大序列长度，根据此参数对输入序列进行填充，使得输入输出序列的长度一致；通过词性标注得到文本序列，然后对文本序列的部分词随机进行语义特征表示，得到语义特征序列；在语义特征序列的开头添加一个分类标记，句子间添加分隔标记，再将添加分类标记和分隔标记后的语义特征序列，输入到双向转换网络结构进行特征提取，得到含有丰富语义特征的序列向量；接着，将含有丰富语义特征的序列向量输入自注意力模块，编码单元最主要的是自注意力模块，自注意力模块中包括多头注意力机制，为了防止过拟合，将多头注意力机制得到的不同自注意力模块结果拼接起来，得到最终输出序列向量。

需要说明的是，BERT预训练模型的核心是转换(Transformer)网络结构。Transformer通过自注意力机制建模一段文本，实现语义增强。此外，Transformer 通过多头注意力机制(MultiHead)增大注意力单元的表示子空间，进而从不同方面捕捉文本语义信息。这里，通过将多头注意力机制得到的不同Attention结果拼接起来，得到最终输出序列向量。最后，Transformer通过引入残差神经网络和归一化约束，来改善参数退化的问题。通过BERT子模型提取待识别文本中的多个局部文本信息，即可得到含有丰富语义特征的序列向量，再将序列向量输入EDC子模型中进行局部特征提取，进一步可以得到含有丰富语义特征的文本语义向量。

基于上述实施例，S1022中通过EDC子模型对序列向量进行局部语义特征提取，得到文本语义向量，可以通过以下步骤实现：

S1022a、通过EDC子模型对序列向量进行特征提取，得到目标特征向量；

S1022b、通过增强型空洞卷积子模型对序列向量进行分类特征提取，得到分类特征向量；

S1022c、对目标特征向量和分类特征向量进行拼接处理，得到文本语义向量。

具体地，本申请提出的文本识别方法在模型层面和模型后处理层面同时做了优化，进一步提升新闻文本中目标文本的识别效果。模型层面在引入EDC子模型的基础上，通过多任务协同学习的方式(引入分类的学习任务进行协同配合)，极大地提升了目标文本识别的速度和效果。

这里，对提出的多任务协同学习的方式进行简要说明，其主要思想是通过将目标提取任务和分类任务划分为主任务和辅任务的方式，借助辅任务形成的特征向量增强主任务的特征向量，其中主任务的特征向量和辅任务的特征向量通过一个深度复用层进行权重共享，该深度复用层同时集合了目标提取任务的语义向量和分类任务的语义向量，以提升目标文本的提取效果。此外，多任务协同学习模型可以进一步提升目标提取任务的效率，分类任务针对文本内容做出有无目标文本的判断，对目标提取任务而言相当于已经做了有无目标文本的前置判断。

需要说明的是，EDC子模型主要是为了扩大感受视野，主要实现方式是在经典的空洞卷积神经网络之上增加了一个连续增加的空洞率，在进行卷积操作时会跳过空洞宽度中间的数据，卷积核的大小保持不变，这样一个同样大小的卷积核就能够获得更广的输入矩阵数据，增大了卷积核的感受视野。

经过EDC子模型，能够解决空洞卷积神经网络在长文本处理上的缺陷，即不能学习长期依赖关系，从而实现在提高识别效率的同时保证识别效果。此外，为了优化传统空洞卷积神经网络模型存在的局信息丢失和长距离信息相关性较弱的问题，进一步将一定数量的网络层成组后基于连续增加的空洞率进行卷积，可以从更加宽广的范围获取上下文信息，收集到更多不一致的局部信息，改善传统模型的局限。

通过EDC子模型，对BERT子模型输出的序列向量进行局部语义特征提取，得到了上下文信息更为紧密的文本语义向量，进而通过CRF模型识别到的目标文本更为准确。同时，在进行局部特征提取时，通过引入一个新的学习任务，即新闻文本有无目标文本的预测，将这两个任务做联合学习，利用二分类学习到的语法语义信息辅助新闻文本目标文本提取，即通过一个深度共享神经网络层，同时获取包含提取任务和分类任务的语义向量，共享其权重信息，利用二者的协同配合作用，极大地提升了目标文本的识别效率和效果。

基于上述实施例，S103中对文本语义向量进行识别处理，得到待识别文本中的目标文本，可以通过以下步骤实现：

S1031、通过条件随机场(Conditional Random Fields，CRF)模型对文本语义向量进行标签序列预测，确定待识别文本对应的预测标签序列；

S1032、基于预测标签序列，确定目标文本。

这里，目标提取任务最终会基于CRF模型进行全局优化，对文本语义向量进行标签序列预测，确定待识别文本对应的预测标签序列。并通过考虑标签间的相邻关系(例如，B-loc后面不能是E-loc，只能是I-loc等)获取全局最优预测结果，对预测结果中的目标标签进行识别，即可得到目标文本。

基于上述实施例，S1032中基于预测标签序列，确定目标文本，可以通过以下步骤实现：

S1032a、对预测标签序列进行评分，将评分最高的预测标签序列作为输出标签序列；

S1032b、获取输出标签序列中的目标标签，得到目标文本。

这里，对预测标签序列进行筛选可以通过对预测标签序列进行评分实现， CRF通过定义标签转移分数计算文本语义向量映射到预测标签序列的得分，将评分最高的序列作为最优预测标签序列。在得到所有预测标签序列的分数后，将评分最高的预测标签序列作为输出标签序列。进而识别输出标签序列中的目标标签，即可识别处目标文本。

基于上述实施例，S101中获取待识别文本，可以通过以下步骤实现：

S1011、获取输入文本；

S1012、对输入文本进行预处理操作，得到待识别文本；预处理操作包括：去除输入文本中多余的空格和/或干扰字段；对去除多余的空格和/或干扰字段的输入文本进行词性标注。

这里，待识别文本可以是对获取到的输入文本进行预处理后得到的。具体地，预处理可以包括文本清洗和文本截断。文本清洗可以包括：将制表符/换行符替换为空格并清除文本中多余的空格、文本中的统一资源定位器(Uniform Resource Locator，URL)、干扰字段(例如“北京时间”)等。一般通过正则表达式(Normalization)实现。文本清洗还可以包括：根据停用词表去除停用词。文本截断可以是将清洗后的文本拆分成不同的符号(Token)，一般通过符号拆分(Tokenization)实现。具体地，本申请实施例中将文本截断后，仅保留前512 个token。这里，仅保留前512个token能够覆盖99％的包含实体的文本，效果最佳。

由此可见，本申请实施例所提供的文本识别方法，通过获取待识别文本；利用文本语义提取模型中的BERT子模型提取待识别文本中的多个局部文本信息，即可得到含有丰富语义特征的序列向量，再将序列向量输入EDC子模型中进行局部特征提取，进一步可以得到含有丰富语义特征的文本语义向量；最后对文本语义向量进行识别处理，得到待识别文本中的目标文本。如此，通过构建包含BERT子模型和EDC子模型的文本语义提取模型，利用BERT子模型提取待识别文本中的多个局部文本信息，即可得到含有丰富语义特征的序列向量，再将序列向量输入EDC子模型中进行局部特征提取，进一步可以得到含有丰富语义特征的文本语义向量，使得截断后的待识别文本的上下文关系更加紧密，避免了由于长文本截取或者针对长文本提取摘要信息造成的信息缺失，提高了识别的准确率。同时，在进行局部特征提取时，通过引入一个新的学习任务，即新闻文本有无目标文本的预测，将这两个任务做联合学习，利用二分类学习到的语法语义信息辅助新闻文本目标文本提取，即通过一个深度共享神经网络层，同时获取包含提取任务和分类任务的语义向量，共享其权重信息，利用二者的协同配合作用，极大地提升了目标文本的识别效率和效果。

基于上述实施例，该方法还可以包括以下步骤：

S104、若目标文本存在信息缺失，则基于预设词典和规则矫正词典对目标文本进行补全处理，得到补全处理后的目标文本；预设词典，用于存储已知的与目标文本类型相同的同类文本；规则矫正词典，用于存储同类文本对应的规则信息。

这里，在基于预设词典和规则矫正词典进行补全时，一般采用最大匹配算法进行补全，例如，在目标文本为“中山路”和“温泉”时，基于最大匹配算法进行补全时，可能会将“中山路”补全为“广东省中山市”,将“温泉”补全为“新疆维吾尔自治区博尔塔拉自治州温泉县”等，产生补全错误。对于补全错误，本申请实施例通过规则矫正词典中预先配置的规则信息对补全错误进行矫正。需要说明的是，预设词典和规则矫正词典可动态扩增。

具体地，可以直接在字典中加入类似“南昌县：江西省南昌市南昌县”这样的规则，一旦模型预测的结果中出现“南昌县”，自动补全为“江西省南昌市南昌县”，补全过程灵活方便，缓解了基于预设词典和最大匹配方法带来的补全错误问题；此外，预设词典和规则矫正词典可实时动态扩增，进一步提升补全的准确率。

基于上述实施例，该方法中目标文本的数量为多个，该方法还可以包括以下步骤：

S105、确定多个目标文本中每一个目标文本的词频信息和位置信息；词频信息用于表征目标文本在待识别文本中出现的次数；位置信息用于表征目标文本在待识别文本中第一次出现的位置；

S106、基于词频信息和位置信息确定每一个目标文本的权重信息；

S107、基于权重信息对多个目标文本进行排序处理，得到排序处理后的目标文本。

这里，在进行补全处理后，得到的目标文本可能是多个，需要从多个目标文本中确定出最合适的目标文本。具体通过以下步骤实现：

首先，统计每个目标文本的词频信息和位置信息。词频信息用于表征目标文本在待识别文本中出现的次数。在统计位置信息时，将目标文本第一次出现的位置作为位置信息。

接着，将词频信息和位置信息转化为权重信息，对于词频信息，采用非线性变换count/(count+1)，得到词频权重信息；对于位置信息，采用先验知识，先验知识认为重要性：标题(5)>文首/文末(3)>正文(1)，得到位置权重信息。

具体地，词频信息经过非线性变换可以作为词频权重信息；而对于位置权重信息通过构建权重矩阵。例如目标文本i的权重为5，目标文本j的权重为3，则权重矩阵A＝(a_ij)_n×n中：a_ij＝5/3，n为目标文本的总数；确定出每个目标文本，即可确定目标文本对应的权重；对应地，可以确定a_i1、a_i2…a_ij…a_in；同理，可以确定出权重矩阵A，对该矩阵A求主特征向量，主特征向量上每一维的值就是对应目标文本的位置信息。

最后，根据权重信息计算最终结果。实验结果显示重要性(位置信息)> 重要性(词频信息)，根据相应的权重信息对多个目标文本进行排序。

如此，在后处理过程中确定最合适的目标文本时，除了利用目标文本的词频信息，进一步引入目标文本的位置信息，通过采用“成对比较法”，构建权重矩阵。最后联合目标文本的词频权重信息和位置权重信息有效地计算所有目标文本的权重，根据目标文本的重要性进行排序，挑选出重要性最高的目标文本作为最合适的目标文本。

这里，通过引入基于规则和统计的目标文本识别方法，同时考虑词频信息和位置信息对目标文本识别的影响。目标文本的词频信息进过非线性变换直接变为词频特征，而位置权重采用“成对比较法”，构建权重矩阵，之后获取位置特征，结合词频特征和位置特征，更有效的识别目标文本。

由此可见，本申请实施例所提供的文本识别方法，通过获取待识别文本；利用文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息之间的语义特征，得到文本语义向量；对文本语义向量进行识别处理，得到待识别文本中的目标文本。如此，通过构建文本语义提取模型，使得截断后的待识别文本的上下文关系更加紧密，避免了由于长文本截取或者针对长文本提取摘要信息造成的信息缺失，提高了识别的准确率。同时，在进行局部特征提取时，通过引入一个新的学习任务，即新闻文本有无目标文本的预测，将这两个任务做联合学习，利用二分类学习到的语法语义信息辅助新闻文本目标文本提取，即通过一个深度共享神经网络层，同时获取包含提取任务和分类任务的语义向量，共享其权重信息，利用二者的协同配合作用，极大地提升了目标文本的识别效率和效果。

本申请在上述实施例的基础上，还提供了一种文本识别方法，如图2所示，该方法包括：

S201、获取输入文本，对输入文本进行预处理，得到待识别文本；

这里，输入文本可以是网络上直接获取到的新闻文本、微博文本、博客文本、用户发表的评论文本等。待识别文本可以是输入文本经过预处理后得到的文本。对应地，在获取待识别文本之前，需要对获取到的输入文本进行预处理。预处理可以包括文本清洗和文本截断。文本清洗可以包括：将制表符/换行符替换为空格、清除文本中多余的空格、文本中的统一资源定位器(Uniform Resource Locator，URL)、干扰字段(例如“北京时间”)等。一般通过正则表达式 (Normalization)实现。文本清洗还可以包括：根据停用词表去除停用词。文本截断可以是将清洗后的文本拆分成不同的符号(Token)，一般通过符号拆分(Tokenization)实现。具体地，本申请实施例中将文本截断后，仅保留前512 个token。在对输入文本进行预处理后，得到的待识别文本即可直接输入模型进行目标文本提取。

S202、通过BERT子模型提取待识别文本中的多个局部文本信息，得到文本序列；

S203、随机选择文本序列中的部分词进行语义特征表示，得到语义特征序列；

S204、对语义特征序列进行局部特征提取，得到序列向量。

这里，BERT子模型是一种预训练模型，可以用于自然语言处理领域内的多种任务，例如文本分类、生成摘要、机器翻译等，同时也可以用于生成序列向量。相关技术一般采用Word2Vec来生成序列向量，其不足之处是，生成的序列向量是静态的，没有结合上下文信息，导致在不同的文本中词对应的序列向量都是相同值。而通过BERT预训练模型得到的序列向量是动态的，能够根据词在不同文本中的上下文信息生成不同的序列向量，这样就能弥补Word2Vec 的缺陷，得到含有丰富语义特征的序列向量。

具体地，首先通过BERT子模型提取待识别文本中的多个局部文本信息。这里，通过BERT子模型提取待识别文本中的多个局部文本信息可以是根据 BERT子模型的要求设定最大序列长度，根据最大序列长度对输入序列进行填充，使得输入输出序列的长度一致；接着，通过词性标注得到文本序列，然后对文本序列的部分词随机进行语义特征表示，得到语义特征序列；在语义特征序列的开头添加一个分类标记，句子间添加分隔标记，再将添加分类标记和分隔标记后的语义特征序列，输入到双向转换网络结构进行特征提取，得到含有丰富语义特征的序列向量；最后，将含有丰富语义特征的序列向量输入自注意力模块，自注意力模块中包括多头注意力机制，为了防止过拟合，将多头注意力机制得到的不同自注意力模块结果拼接起来，得到最终输出序列向量。

需要说明的是，BERT预训练模型的核心是转换(Transformer)结构，其内部结构如图3所示。Transformer通过自注意力机制建模一段文本，实现语义增强，计算方式如下所示：

其中，Attention(·)为序列向量的Attention分数归一化后的值，Q，K，V 分别表示查询向量，键向量，值向量，d_k表示键向量的维数，Q，K，T表示计算输入序列向量之间的关系。通过以上计算方式，每个词的表示都蕴含了上下文信息。

此外，Transformer通过多头注意力机制(MultiHead)增大注意力单元的表示子空间，进而从不同方面捕捉文本语义信息。这里，通过将多头注意力机制得到的不同Attention结果拼接起来，得到最终输出序列向量，计算方式如下所示：

MultiHead(Q,K,V)＝Concat(head₁,...,head_k)W^O (2-2)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2-3)

其中，MultiHead(·)为得到的最终输出序列向量，head_h为第h次投影得到的Attention值，h为投影的次数，W^o为附加的权重矩阵，Concat(·)为向量拼接，W_i ^Q为Q向量训练权重矩阵，W_i ^K为K向量训练权重矩阵，W_i ^V为为V向量训练权重矩阵。

最后，Transformer通过引入残差神经网络和归一化约束，来改善参数退化的问题，具体计算方式如下所示：

FFN＝max(0,xW₁+b₁)W₂+b₂ (2-5)

其中，α和β是需要学习的参数，μ和σ表示输入层的均值与方差。

需要说明的是，通过BERT子模型提取待识别文本中的多个局部文本信息，即可得到含有丰富语义特征的序列向量，再将序列向量输入EDC子模型中进行局部特征提取，进一步可以得到含有丰富语义特征的文本语义向量。

S205、通过EDC子模型对序列向量进行特征提取，得到目标特征向量。

S206、通过EDC子模型对序列向量进行分类特征提取，得到分类特征向量。

S207、对目标特征向量和分类特征向量进行拼接处理，得到文本语义向量。

这里，对EDC子模型进行简要说明，如图4所示，EDC子模型主要是为了扩大感受视野，主要实现方式是在经典的空洞卷积神经网络之上增加了一个连续增加的空洞率，在进行卷积操作时会跳过空洞宽度中间的数据，卷积核的大小保持不变，这样一个同样大小的卷积核就能够获得更广的输入矩阵数据，增大了卷积核的感受视野。

经过EDC子模型，能够解决卷空洞积神经网络在长文本处理上的缺陷，即不能学习长期依赖关系，从而实现在提高识别效率的同时保证识别效果。此外，为了优化传统空洞卷积神经网络模型存在的局信息丢失和长距离信息相关性较弱的问题，进一步将一定数量的网络层成组后基于连续增加的空洞率进行卷积，可以从更加宽广的范围获取上下文信息，收集到更多不一致的局部信息，改善传统模型的局限。

这里，对提出的多任务协同学习的方式进行简要说明，其主要思想是通过将目标提取任务和分类任务划分为主任务和辅任务的方式，借助辅任务形成的特征向量增强主任务的特征向量，其中主任务的特征向量和辅任务的特征向量通过一个深度复用层进行权重共享，该深度复用层同时集合了目标提取任务的语义向量和分类任务的语义向量，以提升目标文本的提取效果。此外，多任务协同学习模型可以进一步提升目标提取任务的效率，分类任务针对文本内容做出有无目标文本的判断，对目标提取任务而言相当于已经做了有无目标文本的前置判断，其具体实现流程如图5所示。

首先，定义目标提取任务为主任务，分类任务为辅任务。主任务输出向量和辅任务输出向量的计算方式如下所示：

h_main＝Bert-EDC_main(T^input) (2-6)

h_aux＝Bert-EDC_aux(T^input) (2-7)

其中，h_main为主任务输出向量，表示主任务输入文本输入经过Bert-EDC模型进行主任务编码后产生的文本向量表示，h_aux为辅任务输出向量，表示辅任务输入文本经过Bert-EDC模型进行辅任务编码后产生的向量表示，需要说明的是，以上公式中的主任务输入文本与辅任务输入文本相同，均为T^input。

接着，将主任务输出向量h_main和辅任务输出向量h_aux通过隐藏层(Hidden Layer)进行连接，计算方式如下所示：

其中，

表示隐藏层的向量输出，

表示向量连接操作。

最后，定义整个模型的损失函数，即主任务损失函数和辅任务损失函数的加权线性融合：

loss_All＝l(loss_main)+(1-λ)(loss_aux) (2-9)

在以上公式中，λ为权重参数，loss_main为主任务的损失函数，loss_aux为辅任务的损失函数。整个模型使用前向均方根梯度下降(Root Mean Square propagation， RMSprop)算法作为优化函数。整个模型中所有矩阵和向量参数基于

范围内的参数进行初始化，其中参数r和c分别代表矩阵的行和列。

S208、通过CRF模型对文本语义向量进行标签序列预测，确定待识别文本对应的预测标签序列。

S209、对预测标签序列进行评分，将评分最高的预测标签序列作为输出标签序列。

S210、获取输出标签序列中的目标标签，得到目标文本。

这里，目标提取任务最终会基于CRF模型进行全局优化，对文本语义向量进行标签序列预测，提取文本语义向量的类别特征，确定待识别文本对应的预测标签序列。并通过考虑标签间的相邻关系(例如，B-loc后面不能是E-loc，只能是I-loc等)获取全局最优预测结果。假设给定的文本语义向量为 x＝(x₁,x₂,x₃,...,x_n)、文本语义向量对应的标签为y＝(y₁,y₂,y₃,...,y_n)，经过EDC子模型进行局部特征提取之后，最终结果的计算方式如下所示：

p_i＝W_sh^(t)+b_s (2-10)

其中p_i表示文本语义向量对应的第i个标签的分数，h^(t)表示EDC子模型t 时刻的输出向量，W_s表示标签转移分数，b_s表示偏置量。

基于上述预测标签序列，需要进一步对预测标签序列进行筛选，得到最优的标签序列。这里，对预测标签序列进行筛选可以通过对预测标签序列进行评分实现，CRF通过定义标签转移分数计算文本语义向量映射到预测标签序列的得分，将评分最高的序列作为最优预测标签序列，计算方式如下所示：

其中W表示转换矩阵，W_i,j表示标签转移分数，

表示该字符的第y_i个标签的分数。

W基于最大条件似然估计法最小化预测标签序列与真实标签序列之间的误差，计算方式如下所示：

其中，L表示损失函数，a表示采用的对数底数，λ为优化参数，θ为分布参数，P为原序列到预测序列对应的概率。

在得到所有预测标签序列的分数后，将评分最高的预测标签序列作为输出标签序列。进而识别输出标签序列中的目标标签，即可识别处目标文本。

S211、若目标文本存在信息缺失，则基于预设词典和规则矫正词典对目标文本进行补全处理，得到补全处理后的目标文本；预设词典，用于存储已知的与目标文本类型相同的同类文本；规则矫正词典，用于存储同类文本对应的规则信息。

S212、确定多个目标文本中每一个目标文本的词频信息和位置信息；词频信息用于表征目标文本在待识别文本中出现的次数；位置信息用于表征目标文本在待识别文本中第一次出现的位置；

S213、基于所述词频信息和位置信息确定每一个目标文本的权重信息；

S214、基于所述权重信息对多个目标文本进行排序处理，得到排序处理后的目标文本。

这里，在进行补全处理后，得到的目标文本可能是多个，需要从多个目标文本中确定出最合适的目标文本。主要通过以下步骤实现：

接着，将词频信息和位置信息转化为权重信息，对于词频信息，采用非线性变换，得到词频权重信息；对于位置信息，采用先验知识，先验知识认为重要性：标题(5)>文首/文末(3)>正文(1)，得到位置权重信息。

本申请在上述实施例的基础上，还提供了一种文本识别装置60，如图6所示，该装置60可以包括：获取模块61，提取模块62和识别模块63，其中，

获取模块61，用于获取待识别文本；

提取模块62，用于通过文本语义提取模型，提取待识别文本中的多个局部文本信息，以及多个局部文本信息的语义特征，得到文本语义向量；

识别模块63，用于对文本语义向量进行识别处理，得到待识别文本中的目标文本。

基于上述实施例，所述文本语义提取模型可以包括：双向转换编码表示子模型和增强型空洞卷积子模型；

所述提取模块，还可以包括：第一提取子模块621和第二提取子模块622，其中，

所述第一提取子模块621，用于通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到含有语义特征的序列向量；

所述第二提取子模块622，用于通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取，得到所述文本语义向量。

基于上述实施例，所述第一提取子模块621还可以包括：第一文本提取子单元621a、第一特征表示子单元621b和第一特征提取子单元621c，其中，

所述第一文本提取子单元621a，用于通过所述双向转换编码表示子模型提取所述待识别文本中的所述多个局部文本信息，得到文本序列；

所述第一特征表示子单元621b，用于随机选择所述文本序列中的部分词进行语义特征表示，得到语义特征序列；

所述第一特征提取子单元621c，用于对所述语义特征序列进行特征提取，得到所述序列向量。

基于上述实施例，所述第二提取子模块622还可以包括：第二特征提取子单元622a、分类特征提取子单元622b和拼接子单元622c

所述第二特征提取子单元622a，用于通过所述增强型空洞卷积子模型对所述序列向量进行特征提取，得到目标特征向量；

所述分类特征提取子单元622b，用于通过所述增强型空洞卷积子模型对所述序列向量进行分类特征提取，得到分类特征向量；

所述拼接子单元622c，用于对所述目标特征向量和所述分类特征向量进行拼接处理，得到所述文本语义向量。

基于上述实施例，所述识别模块63还可以包括：预测子模块631、评分子模块632和获取子模块633，其中，

所述预测子模块631，用于通过条件随机场模型对所述文本语义向量进行标签序列预测，确定所述待识别文本对应的预测标签序列；所述条件随机场模型用于提取所述文本语义向量的类别特征；

所述评分子模块632，用于对所述预测标签序列进行评分，将评分最高的预测标签序列作为输出标签序列；

所述获取子模块633，用于获取所述输出标签序列中的目标标签，得到所述目标文本。

基于上述实施例，所述装置60还可以包括：补全模块64，用于若所述目标文本存在信息缺失，则基于预设词典和规则矫正词典对所述目标文本进行补全处理，得到补全处理后的目标文本；其中，所述预设词典，用于存储已知的与所述目标文本类型相同的同类文本；所述规则矫正词典，用于存储所述同类文本对应的规则信息。

基于上述实施例，所述装置60还可以包括：排序模块65，用于确定多个目标文本中每一个目标文本的词频信息和位置信息；所述词频信息用于表征目标文本在待识别文本中出现的次数；所述位置信息用于表征目标文本在待识别文本中第一次出现的位置；基于所述词频信息和所述位置信息确定每一个目标文本的权重信息；基于所述权重信息对所述多个目标文本进行排序处理，得到排序处理后的目标文本。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请在上述实施例的基础上，还提供了一种电子设备，对应于一种数据库配置方法；图7为本申请实施例的电子设备的硬件组成结构示意图，如图7 所示，本申请实施例提出的电子设备可以包括处理器71、以及存储有所述处理器可执行指令的存储器72；

所述处理器71和所述存储器72通过总线73连接；

所述处理器71，运行所述存储器72中存储的计算机程序时，可以执行以下指令：

获取待识别文本；

在本申请提供的实施例中，上述处理器71可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Progmable Logic Device，PLD)、现场可编程门阵列(Field Progmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

在实际应用中，存储器72可以是易失性存储器(volatile memory)，例如 RAM；或者非易失性存储器(non-volatile memory)，例如ROM，快闪存储器 (flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive， SSD)；或者上述种类的存储器的组合，并向处理器71提供指令和数据。

本申请实施例还提供了一种计算机存储介质，具体为计算机可读存储介质。其上存储有计算机指令，在计算机存储介质位于电子设备时，该计算机指令被处理器执行时实现本申请实施例上述文本识别方法中的任意步骤。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory， EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory， FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘 (Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“本申请实施例”或“前述实施例”或“一些实施例”意味着与实施例有关的目标特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本申请实施例”或“前述实施例”或“一些实施例”未必一定指相同的实施例。此外，这些目标的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在未做特殊说明的情况下，检测设备执行本申请实施例中的任一步骤，可以是检测设备的处理器执行该步骤。除非特殊说明，本申请实施例并不限定检测设备执行下述步骤的先后顺序。另外，不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是，本申请实施例中的任一步骤是检测设备可以独立执行的，即检测设备执行上述实施例中的任一步骤时，可以不依赖于其它步骤的执行。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、检测设备、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请实施例中，不同实施例中相同步骤和相同内容的说明，可以互相参照。在本申请实施例中，术语“并”不对步骤的先后顺序造成影响。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取待识别文本；

2.根据权利要求1所述的方法，其特征在于，所述文本语义提取模型包括：双向转换编码表示子模型和增强型空洞卷积子模型；

所述通过文本语义提取模型，提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到文本语义向量，包括：

通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到含有语义特征的序列向量；

通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取，得到所述文本语义向量。

3.根据权利要求2所述的方法，其特征在于，所述通过双向转换编码表示子模型提取所述待识别文本中的多个局部文本信息，以及所述多个局部文本信息之间的语义特征，得到含有语义特征的序列向量，包括：

通过所述双向转换编码表示子模型提取所述待识别文本中的所述多个局部文本信息，得到文本序列；

随机选择所述文本序列中的部分词进行语义特征表示，得到语义特征序列；

对所述语义特征序列进行特征提取，得到所述序列向量。

4.根据权利要求2所述的方法，其特征在于，所述通过增强型空洞卷积子模型对所述序列向量进行局部语义特征提取，得到所述文本语义向量，包括：

通过所述增强型空洞卷积子模型对所述序列向量进行特征提取，得到目标特征向量；

通过所述增强型空洞卷积子模型对所述序列向量进行分类特征提取，得到分类特征向量；

对所述目标特征向量和所述分类特征向量进行拼接处理，得到所述文本语义向量。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述文本语义向量进行识别处理，得到所述待识别文本中的目标文本，包括：

通过条件随机场模型对所述文本语义向量进行标签序列预测，确定所述待识别文本对应的预测标签序列；所述条件随机场模型用于提取所述文本语义向量的类别特征；

对所述预测标签序列进行评分，将评分最高的预测标签序列作为输出标签序列；

获取所述输出标签序列中的目标标签，得到所述目标文本。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

若所述目标文本存在信息缺失，则基于预设词典和规则矫正词典对所述目标文本进行补全处理，得到补全处理后的目标文本；

其中，所述预设词典，用于存储已知的与所述目标文本类型相同的同类文本；所述规则矫正词典，用于存储所述同类文本对应的规则信息。

7.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标文本的数量为多个，所述方法还包括：

确定多个目标文本中每一个目标文本的词频信息和位置信息；所述词频信息用于表征目标文本在待识别文本中出现的次数；所述位置信息用于表征目标文本在待识别文本中第一次出现的位置；

基于所述词频信息和所述位置信息确定每一个目标文本的权重信息；

基于所述权重信息对所述多个目标文本进行排序处理，得到排序处理后的目标文本。

8.一种文本识别装置，其特征在于，所述装置包括：获取模块，提取模块和识别模块，其中，

所述获取模块，用于获取待识别文本；

9.一种电子设备，其特征在于，所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现权利要求1至7中任一项所述方法的步骤。