CN110162749B

CN110162749B - 信息提取方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN110162749B
Application number: CN201811231847.5A
Authority: CN
Inventors: 林浚玮; 邵轶男; 陈伟; 刘婷婷
Original assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Tencent Technology Shenzhen Co Ltd; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2023-07-21
Anticipated expiration: 2038-10-22
Also published as: CN110162749A

Abstract

本发明实施例提供一种信息提取方法、装置、计算机设备及计算机存储介质，该方法包括：在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签。

Description

信息提取方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种信息提取方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着互联网的迅速扩张，许多网络购物网站、阅读应用软件、视频播放软件等都提供了产品评价平台，方便用户分享产品使用经验，以及对产品进行评价，这些评价无论对于消费者还是产品提供者都有重要参考价值。

目前，相关技术使用观点挖掘(也称为评论挖掘)技术对来自产品评价平台的评价文本(也称为语料)进行分析，以提取出评价文本中的结构化知识信息加以保存，以对后续任务，比如画像、舆情分析、产品描述生成等都起到了至关重要的作用。比如在舆情分析中，网络上存在海量的用户评论，通过观点挖掘装置让计算机自动理解评论内容，得到用户对于产品的观点信息。

但是测试证明，相关的观点挖掘技术所得到的用户观点信息识别的性能(例如准确率和召回率)较低，从而严重影响后续任务的性能表现。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种信息提取方法、装置、计算机设备及计算机可读存储介质，能够提升对文本进行信息抽取的性能。

为达到上述目的，本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种信息提取方法，包括：在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签。

第二方面，本发明实施例提供一种信息提取装置，该装置包括：字符级编码器层，用于根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；词级编码器层，用于进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；条件随机场层，用于在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签。

第三方面，本发明实施例提供一种计算机设备，包括存储器，用于存储可执行程序；处理器，用于通过执行所述存储器中存储的可执行程序时，实现本发明任一实施例提供的信息提取方法。

第四方面，本发明实施例提供一种可读存储介质，存储有可执行程序，所述可执行程序被处理器执行时实现本发明任一实施例提供的信息提取方法。

本发明实施例具有以下有益效果：

1)基于字符级编码器层和字级编码器层结合，能够从文本的字符级信息和词级信息中共同发现特征并加以利用和识别，进而能够有效识别未登录词以外的特征，避免了重要信息的遗漏；

2)基于字符级编码器层从文本的字符级信息进行编码，从而不需要针对不同业务场景进行特征工程以形成专门的训练数据，克服了对特征功能的依赖；

3)基于字符级编码器层和词级编码器共同提取的特征能够强力表达文本原始信息的特性，使得在条件随机场层预测的语义标签的准确率和召回率明显改善，从而可以显著地提高鲁棒性。

附图说明

图1为本发明一实施例中信息提取方法的可选应用场景示意图；

图2为本发明另一实施例中信息提取方法的可选应用场景示意图；

图3为本发明再一实施例中信息提取方法的可选应用场景示意图；

图4为本发明一提供的信息提取装置的示意图；

图5为本发明一实施例中信息提取方法的流程示意图；

图6为本发明一实施例中循环神经网络在时间上展开的示意图；

图7为本发明一实施例中双向循环神经网络沿时间展开的示意图；

图8为本发明一实施例中长短时记忆模块的示意图；

图9为本发明一实施例提供的字符级编码器层的网络层次结构示意图；

图10为本发明一实施例提供的词级编码器层的网络层次结构示意图；

图11为本发明另一实施例提供的信息提取方法的流程示意图；

图12为本发明一实施例提供的层次注意力神经网络半马尔科夫随机场模型的结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)信息提取，也称为信息抽取，从非结构化的自然语言的文本提取使用语义标签标注的结构化的知识的过程，典型的信息提取任务包括：分词、词性标注、命名实体识别、语义依存分析和语义角色标注等。

2)特征工程，是指把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限。

3)条件随机场，本文中特指在已知目前状态(现在)的条件下，未来的演变(将来)不依赖于它以往的演变(过去)的随机场，例如，马尔科夫条件随机场。

4)片段，即文本的字符级别/字级别的特征向量序列中连续的、且具有相同语义标签的序列。

5)词嵌入(word embedding)，将单个词在预定义的向量空间中表示为实数向量，每个单词都映射到一个向量。举个例子，比如在一个文本中包含“猫”“狗”“爱情”等若干单词，而这若干单词映射到向量空间中，“猫”对应的向量为(0.1 0.2 0.3)，“狗”对应的向量为(0.2 0.2 0.4)，“爱情”对应的映射为(-0.4-0.5 -0.2)。像这种将文本X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn}，这个映射的过程就叫做词嵌入。

6)准确率，系统正确提取的结果占所有提取结果的比例。其中，所述所有提取结果可以是指待提取文本中包含的提取结果的总数。准确率是用于评价命名实体识别的性能的主要指标之一。

7)召回率，系统正确提取的结果占所有可能正确结果的比例。其中，所述可能正确结果可以是指系统找到的提取结果的总数。召回率是用于评价命名实体识别的性能的主要指标之一。

8)自然语言处理，计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

9)语料，语言材料，本文主要是指文本数据。

10)命名实体(Named Entity Recognition，NER)，识别文本中具有特定意义的以名称为标识的实体，如人名、公司名、地名等。

11)神经网络，是指模拟人脑的神经网络以期能够实现类人工智能的机器学习技术，其中，机器学习(Machine Learning)是指从训练数据集中的训练文本(简称为样本)包样本特征和是否属于目标类别(如命名实体)的语义标签标记，对分类器进行训练，使训练后的分类器具有对待提取文本判断是否属于目标类别的特征词的性能。

12)注意力机制，与人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。而人类视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

本发明实施例提供信息提取方法、实施信息提取方法的信息提取装置、实施信息提取方法的计算机设备以及存储用于实现信息提取方法的可执行程序的存储介质。就信息提取方法的实施例而言，本发明实施例提供终端侧和服务器侧实施的方案，将对信息提取的示例性实施场景进行说明。

如图1所示，为本发明一实施例提供的信息提取方法的可选应用场景示意图，用户通过在终端100中安装购物应用客户端购买产品后，通过购物应用客户端提供的产品评价平台发表购物体验、对产品的评价等评价文本，终端100将携带有用户身份标识的评价文本发送至服务器200。服务器200获取到携带有用户身份标识的评价文本并存储至数据库，并通过对数据库中的评价文本进行分析，以提取出能够表征不同用户分别对于相应产品的观点信息，便于后续任务，如画像分析，通过提取出其中的命名实体(如人名、公司名、地名等)，以有效解析出评价文本的主体，再结合句法依存分析算法可分析出主体之间依赖关系，使得能够准确理解用户评论的语义信息并进行汇总分析。如，通过画像分析实现多维度用户分群，洞察目标用户需求，实现个性化内容推荐。以某公司发布一款全新的手机产品，新产品的发布带来了来自不同媒体的相关报道，用户反馈，面对这些海量数据，可能希望了解大家关注的是这款手机的哪些特征，通过购买过用户发表的对这款手机的评价如何、以及哪些用户发表评价文本表达了购买的意愿，面对这些海量评论文本，可以通过本发明实施例所提供的信息提取方法，以提取出能够表征不同用户分别对于产品的观点信息，便于后续任务。

如图2所示，为本发明实施例提供的信息提取方法的另一可选应用场景示意图，用户通过在终端100中安装阅读应用客户端，在阅读应用客户端中阅读书籍/文章，通过阅读应用客户端提供的产品评价平台发表阅读评论，或者通过阅读应用客户端提供的产品评价平台对其它用户发表的阅读评论的补充评论或评论回复，终端100将携带有用户身份标识的阅读评论、补充评论和评论回复等评价文本发送至服务器200。服务器200获取到携带有用户身份标识的评价文本并存储至数据库，并通过对数据库中的评价文本进行分析，以提取出能够表征不同用户对于相应书籍/文章的观点信息，便于后续任务，如产品描述生成分析，通过产品描述生成分析可以为书籍/文章生成准确的推荐描述，可以进一步结合画像分析，通过画像分析对用户进行分类，并将相应的携带有推荐描述的书籍/文章准确地推荐给相同类别的用户。

如图3所示，为本发明实施例提供的信息提取方法的另一可选应用场景示意图，用户通过在终端100中安装新闻应用客户端，在新闻应用客户端阅读服务器200即时推送的新闻，通过新闻应用客户端在对应新闻的评价平台发表新闻评论，或者通过新闻应用客户端提供的评价平台对其它用户发表的新闻评论的补充评论或评论回复，终端100将携带有用户身份标识的新闻评论、补充评论和评论回复等评价文本发送至服务器200。服务器200获取到携带有用户身份标识的评价文本并存储至数据库，并通过对数据库中的评价文本进行分析，以提取出能够表征不同用户对于相应新闻的观点信息，便于后续任务，如舆情分析，通过舆情分析可以准确地掌握民众作为客体的社会管理者、企业、个人及其它各类组织及其社会、道德等方面的取向产生和持有的社会态度，便于整体把握较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现。

上述的应用场景分别以购物应用客户端、阅读应用客户端和新闻应用客户端所提供的产品评价平台中发表的评价文本作为待提取文本为例，但实际应用中并不局限于此，其可以是不限于用户的评价文本的其它语料数据，且对将语料数据作为待提取文本进行信息提取后，进行的后续任务也不限于如上所述的画像、舆情分析、产品描述生成等，其可以是通过提取文本中的结构化知识信息加以保存，方便后续各种自然语言处理技术手段进行文本处理，如，使用信息提取技术构建面向特定任务的知识库(如学术论文库、商品库、旅游景点库、电影库、音乐库等等)，并在此基础上实现智能知识服务(如垂直搜索引擎)等。

接下来，进一步对本发明实施例提供的信息提取装置的实施进行说明，如前所述，本发明实施例所提供的信息提取装置可以采用服务器侧实施，就信息提取装置的硬件结构而言，请参阅图4，为本发明实施例提供的信息提取装置的一个可选的硬件结构示意图，该信息提取装置可以是一种计算机设备，该计算机设备包括：处理器201以及用于存储在处理器201上运行的计算机程序的存储器203，其中，所述处理器201用于运行所述计算机程序时，执行本发明实施例提供的信息提取方法。这里，处理器201和存储器203并非指代对应的数量为一个，而可以为一个或者多个。可以理解的，该计算机设备还可以包括用于将所述处理器201和存储器203连接通信的系统总线。

存储器203可以是易失性存储器或非易失性存储器，也可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)，其用作外部高速缓存。作为示例性但不是限制性说明，存储器203可以是不同形式的RAM，例如，静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous StaticRandom Access Memory)。本发明实施例描述的存储器203旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器203用于存储各种类别的数据以支持信息提取装置的操作。这些数据的示例包括：用于在信息提取装置上操作的任何可执行程序，如操作系统和应用程序；其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如各种购物应用、阅读应用、新闻应用、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例信息提取方法可以包含在应用程序中。

本发明实施例提供的信息提取方法可以应用于处理器201中，或者由处理器201实现。处理器201可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。处理器201可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器201还可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供信息提取方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器203，处理器201读取存储器203中的信息，结合其硬件完成前述方法的步骤。

该计算机设备还包括网络接口202，通过该网络接口实现与终端之间的通信连接。

在示例性实施例中，请继续参阅图4，示出了本发明实施例提供的应用程序的一个可选的结构示意图，包括：字符级编码器层11，用于根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码；词级编码器层13，用于进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；条件随机场层15，用于在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的语义标签。

在一个实施例中，所述字符级编码器层11，具体用于在字符级编码器层中接收待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，以及，根据所述字符特征向量及其对应的上下文特征向量进行编码，得到对应的词级特征向量序列。

在一个实施例中，所述词级编码器层13，具体用于在词级编码器层中接收所述词级特征向量序列对应的词级信息，并进行编码得到所述词级信息对应的词特征向量，以及，根据所述词特征向量及其对应的上下文特征向量进行编码，得到片段特征向量序列。

在一个实施例中，所述字符级编码器层11包括第一双向循环神经网络，所述第一双向循环神经网络具体用于将所述待提取文本的字符级信息输入所述字符级编码器层中的第一双向循环网络；在所述第一双向循环网络进行编码，得到所述字符级信息对应的字符特征向量。

在一个实施例中，所述字符级编码器层11还包括第一注意力模型，将所述字符特征向量输入所述字级编码器层中的第一注意力模型，在所述第一注意力模型中执行以下操作：根据输入的字符级信息对应字符特征向量、及其对应的上下文特征向量的余弦相似度，确定输入的字符级信息对应的字符特征向量的重要性权值；根据所述字符特征向量的重要性权值进行加权平均，得到词级特征向量序列。

在一个实施例中，所述词级编码器层13包括第二双向循环神经网络，所述第二双向循环神经网络具体用于将所述词级特征向量序列对应的词级信息输入所述词级编码器层中的第二双向循环网络；在所述第二双向循环网络中进行编码，得到所述词级信息对应的词特征向量。

在一个实施例中，所述词级编码器层13还包括第二注意力模型，将所述词特征向量输入所述词级编码器层中的第二注意力模型，在所述第二注意力模型中执行以下操作：根据输入的词级信息对应的词特征向量、及其对应的上下文特征向量的余弦相似度，确定所述输入的词级信息对应词特征向量的重要性权值，以及，根据所述词特征向量的重要性权值进行加权平均得到所述片段特征向量序列。

在一个实施例中，所述条件随机场层15，具体用于在所述条件随机场层中对将所述片段特征向量标注语义标签，得到所述片段特征向量对应的不同标注序列；确定满足概率条件的标注序列中对应所述片段特征向量的语义标签。

在一个实施例中，所述信息提取装置还包括训练模块，所述字符级编码器层11，还用于在所述字符级编码器层中接收训练数据集包括的训练文本的字符级信息，进行编码得到对应的词级特征向量序列；所述词级编码器层13，还用于在所述词级编码器层中接收所述词级特征向量序列对应的词级信息，进行编码得到对应的预训练片段特征向量序列；所述训练模块，用于根据所述预训练片段特征向量序列对所述条件随机场层进行训练，直至满足收敛条件。

在一个实施例中，所述字符级编码器层11，具体用于在所述字符级编码器层中的第一双向循环神经网络中接收所述训练数据集包括的训练文本的字符级信息，进行编码得到对应的预训练字符特征向量；在所述字符级编码器层中的第一注意力模型中接收所述预训练字符特征向量以执行以下操作：根据输入的预训练字符特征向量与其对应的上下文预训练特征向量的余弦相似度，确定所述输入的预训练字符特征向量的重要性权值，以及，将所述预训练字符特征向量的重要性权值进行加权平均得到对应的词级特征向量序列。

在一个实施例中，所述词级编码器层13，具体用于在所述词级编码器层的第二双向循环神经网络中接收所述词级特征向量序列对应的词级信息，进行编码得到对应的预训练词特征向量；在所述词级编码器层的第二注意力模型中接收所述预训练词特征向量，以执行以下操作：根据输入的预训练词特征向量与其对应的上下文预训练特征向量的余弦相似度，确定所述输入的预训练词特征向量的重要性权值，以及，根据所述预训练词特征向量的重要性权值进行加权平均，得到预训练片段特征向量序列。

在一个实施例中，所述训练模块，具体用于确定所述训练数据集中所述训练文本的输入序列相对于目标输出序列的条件概率；迭代更新所述条件概率中对应所述词级特征向量序列、以及所述预训练片段特征向量序列的权重因子，直至，所述条件概率的对数似然函数满足所述收敛条件。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，如图4所示的包括可执行程序的存储器203，上述可执行程序可由处理器201执行，以完成前述信息提取方法所述步骤。可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如计算机设备。

如图5所示，为本发明一实施例提供的信息提取方法的可选的流程示意图，可应用于图1～图3中所示的服务器侧，该方法包括如下步骤：

步骤101，在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码。

这里，待提取文本是指用于通过本发明实施例所提供的信息提取方法对其进行分析以得到目标语义标签序列的文本数据。字符级信息是指表示数据或信息的单个的字母、数字或文字。以待提取文本为“Kobe Bath willgo”为例，与该待提取文本对应的字符级信息为“K o b e B a t h w i l l g o”，此时，将该待提取文本的字符级信息作为字符级编码器层的输入x＝{K,o,b,e,B,a,t,h,w,I,l,l,g,o}；又以待提取文本为“长沙是中国美丽的城市”，与该待提取文本对应的字符级信息为“长沙是中国美丽的城市”，此时，将该待提取文本的字符级信息作为字符级编码器层的输入x＝{长,沙,是,中,国,美,丽,的,城,市}。以对待提取文本的中文命名实体识别为例，中文命名实体识别的本质是进行序列标注，假设用三种标注符号B、I、N来表示每个输入单元分别代表指定命名实体的实体开始、实体中间、其它。在字一级的识别任务中，对于人名、地名、公司名三种命名实体，可以定义七种标记的集合，L＝{B-PER，I-PER，B-LOC，I-LOC，B-ORG，I-ORG，N}，分别表示人名、地名、公司名的首部、内部和其它。

在一些实施例中，所述步骤101，具体包括：在字符级编码器层中接收待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，以及，根据所述字符特征向量及其对应的上下文特征向量进行编码，得到对应的词级特征向量序列。

这里，上下文特征可以只考虑语料中的字本身，也就是输入序列本身。例如，以待提取文本“Kobe Bath will go”为例，这句话可以标注为：K/B-PER o/I-PER b/I-PER e/I-PER B/B-PER a/I-PER t/I-PER h/I-PER w/N i/N l/N l/N g/N o/N，通过以每个字符级信息对应的字符特征向量及其对应的上下文的字符级信息对应的上下文特征向量，可以获取上下文特征，从而得到特征函数。

在采用CRF进行命名实体识别中，特征函数f(yi-1,yi,x,i)各占一定权重，且权重值可以从训练文本中获取得到，通常只能取0或取1两个值。假设观察函数用b(x,i)表示，特征函数的取值可以由b(x,i)决定的。对于同一时刻i的观察值，需要考虑这个时刻的几个窗口的值，也就是说，时刻i的特征函数是由几个连续的窗口的观察值来确定，假如考虑前后2个窗口，那个特征函数就是i-2,i-1,i,i+1,i+2这几个窗口决定。假设特征函数的表达式为{yt-1＝L1,yt＝L2,Xw＝C}，此时，t和t-1分别表示这个时刻和上一时刻，yt表示的当前标记，yt-1表示的是前一个标记，L1，L2∈{B-PER，I-PER，B-LOC，I-LOC，B-ORG，I-ORG，N}，W表示考察的位置，W∈{-2,-1,0,+1,+2}，C表示对应W位置的内容。与转移特征函数一样，状态函数的表达式可以为{Sk(yi,x,i)}，由于状态函数通常不考虑前面的标签标注，所以在下文中可以用“#”来代表前一标签标注。

仍以待提取文本为“Kobe Bath will go”为例而言，假设i＝3，当i＝3时字面的观察特征有：b(x-2＝“K”，i＝3)、b(x-1＝“o”，i＝3)、b(x0＝“b”，i＝3)、b(x+1＝“e”，i＝3)、b(x+2＝“B”，i＝3)，此时上下文特征表示可以如下表一所示：

表一字符级信息上下文特征表示示例

又例如，对待提取文本“长沙是中国美丽的城市”为例而言，该待提取文本可以标注为：长/B-LOC沙/I-LOC是/N中/B-LOC国/I-LOC美/N丽/N的/N城/N市/N，通过以每个字符级信息对应的字符特征向量及其上下文字符级信息对应的上下文字符特征向量，可以获取上下文特征，从而得到相应特征函数。假设i＝5，当i＝5时字面的观察特征有：b(x-2＝“是”，i＝5)、b(x-1＝“中”，i＝5)、b(x0＝“国”，i＝5)、b(x+1＝“美”，i＝5)、b(x+2＝“丽”，i＝5)，此时上下文特征表可以如下表所示：

表二字符级信息上下文特征表示示例

转移特征函数	状态特征函数
		{yt-1＝O,yt＝O,x-2＝“是”}	{yt-1＝#,yt＝O,x-2＝“是”}
{yt-1＝O,yt＝O,x-1＝“中”}	{yt-1＝#,yt＝O,x-1＝“中”}
		{yt-1＝O,yt＝O,x0＝“国”}	{yt-1＝#,yt＝O,x0＝“国”}
{yt-1＝O,yt＝O,x1＝“美”}	{yt-1＝#,yt＝O,x1＝“美”}
		{yt-1＝O,yt＝O,x2＝“丽”}	{yt-1＝#,yt＝O,x2＝“丽”}

通过根据当前字符特征向量及其上下文字符特征向量，根据观察词性信息从而可以得到词级特征向量序列，实现对待提取文本的分词。采用字符级信息作为输入可以对词汇外(Out Of Vocabulary,OOV)词进行建模，采用字符级信息还可以提供单词字符的外部形态信息，比如英文中的”ing”，”ed”这样的后缀是词性标签中形容词的重要标志，英文中的大写字母是词性标签中的人名、地名等实体名词的重要标志，中文中常用的姓氏词是词性标签中的人名的重要标志等，从而对于组织或个人这样的实体，常常是出现频率稀疏的单词或词，也可以做到有效识别。

步骤103，在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；

通过字符级编码器层得到的词级特征向量序列，将词级特征向量对应的词级信息作为词级编码器层的输入，可以实现将字符级编码器层得到的分词结果作为词级编码器层的输入。其中，词级信息是指表示数据或信息的单词、词组及整个词汇，是文字组成语句文章的最小组词结构形式。

在一些实施例中，所述步骤103，具体包括：在词级编码器层中接收所述词级特征向量序列对应的词级信息，并进行编码得到所述词级信息对应的词特征向量，以及，根据所述词特征向量及其对应的上下文特征向量进行编码，得到片段特征向量序列。

这里，将字符级编码器层基于各字符级信息对应的字符特征向量及其对应的上下文字符级信息所对应的上下文特征向量得到的词级特征向量序列，将词级特征向量对应的词级信息作为词级编码器层的输入，从而实现将字符级编码器层得到的分词结果作为词级编码器层的输入。该字符级编码器层和词级编码器层可以分别是基于注意力机制的神经网络，为了便于描述，将该字符级编码器层对应的基于注意力机制的神经网络称为第一注意力机制的神经网络，将该词级编码器层对应的基于注意力机制的神经网络称为第二注意力机制的神经网络。通过基于注意力机制的神经网络基于各字符级信息对应的字符特征向量及其对应的上下文特征向量得到的词级特征向量序列，可以实现将基于第一注意力机制的神经网络基于字符级信息得到的分词结果作为第二基于注意力机制的神经网络的输入。

仍以待提取文本为“Kobe Bath will go”为例，与该待提取文本对应的词级信息为“Kobe Bath will go”，此时，将该待提取文本的词级信息作为词级编码器层的输入x＝{Kobe,Bath,will,go}；又以待提取文本为“长沙是中国美丽的城市”为例，将该待提取文本的词级信息作为词级编码器层的输入x＝{长沙,是,中国,美丽,的,城市}。词级编码器层与字符级编码器层的实现原理相似。仍然以标注符号B、I、N来表示每个输入单元，分别代表实体命名的实体开始、实体中间、其它。在词一级的识别任务中，对于待提取文本“Kobe Bathwill go”，这句话可以标注为“Kobe/B-PER Bath/I-PER will/N go/N”，上下文特征可以指输入序列中的词本身，通过以分词结果中的词级信息对应的词特征向量及其上下文词级信息对应的上下文特征向量，可以获取上下文特征，从而得到特征函数。

以待提取文本为“Kobe Bath will go”而言，以i＝2为例，当i＝2时词面的观察特征有：b(x-1＝“Kobe”，i＝2)、b(x0＝“Bath”，i＝2)、b(x+1＝“will”，i＝2)、b(x+2＝“go”，i＝2)，此时上下文特征表可以如下表三所示：

表三词级信息上下文特征表示示例

转移特征函数	状态特征函数
		{yt-1＝O,yt＝O,x-1＝“Kobe”}	{yt-1＝#,yt＝O,x-2＝“Kobe”}
{yt-1＝O,yt＝O,x0＝“Bath”}	{yt-1＝#,yt＝O,x0＝“Bath”}
		{yt-1＝O,yt＝O,x1＝“will”}	{yt-1＝#,yt＝O,x1＝“will”}
{yt-1＝O,yt＝O,x2＝“go”}	{yt-1＝#,yt＝O,x2＝“go”}

在词一级的识别任务中，对于待提取文本“长沙是中国美丽的城市”，这句话可以标注为“长沙/B-LOC是/N中国/I-LOC美丽/N的/N城市/N”，通过以词级信息对应的词特征向量及其上下文词级信息对应的上下文特征向量，可以获取上下文特征，从而得到特征函数。以i＝3为例，当i＝3时，词面的观察特征有：b(x-2＝“长沙”，i＝3)、b(x-1＝“是”，i＝3)、b(x0＝“中国”，i＝3)、b(x+1＝“美丽”，i＝3)、b(x+2＝“的”，i＝3)，此时上下文特征表示可以如下表四所示：

表四词级信息上下文特征表示示例

通过根据当前词特征向量及其上下文词特征向量，根据观察词性标签转换特征从而可以得到片段特征向量序列，实现对待提取文本的分句或分语段。对于一句话或一个语段中的词，并不是每个词都对分类任务有用，为了能够使得词级编码器层能够自动将注意力放在这些词汇上，可以通过基于注意力机制的神经网络，根据当前词级信息对应的词特征向量及其上下文词级信息对应的词特征向量，可以计算出词的重要性，最后根据词级信息及其对应的重要性权值进行计算，得到对应的片段特征向量序列。

其中，通过字符级编码器层和词级编码器层分别从字符级信息和词级信息中共同发现特征，加以利用与识别，可以处理日常应用中许多在训练集合中未出现的词语(未登录词)，使得不做任何特征工程的情况下，能够有效适用于目标词性类型的语义标签序列的标注任务。

步骤105，在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的语义标签。

条件随机场(conditional random field,CRF)是指给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔科夫随机场，本发明实施例中，CFR是指用于根据一系列的特征去预测每个词的语义标签。马尔科夫随机场(Markov)是指，若随机变量Y的联合概率分布P(Y)代表的无向图G＝(V,E)的每个节点均满足马尔科夫性，则G是一个马尔科夫随机场。

在一个实施例中，所述条件随机场为半马尔科夫条件随机场(Semi-MarkovCRFs)。其中，半马尔科夫条件随机场是指输入特征向量之间遵循马尔科夫规则，而输入特征向量内之间可以被灵活的赋予各种规则。以输入序列x为字符级信息，s为目标语义标签序列为例，半马尔科夫条件随机场通过建立输入序列x上的可能输出序列s的条件概率模型，通过训练文本对基于半马尔科夫条件随机场层的条件概率模型进行训练，直至满足收敛条件。如此，通过将字符级编码器层和词级编码器层对应的基于注意力机制的神经网络与半马尔科夫条件随机场层的条件概率模型结合，将待提取文本输入神经网络通过深度学习得到特征函数，再将特征函数输入半马尔科夫条件随机场层的条件概率模型进行应用，从而实现实体命名的识别。

本发明实施例所提供的信息提取方法，通过分别基于字符级编码器层和字级编码器层结合，可以从待提取文本的字符级信息和词级信息中共同发现特征并加以利用和识别，从而能够有效解决未登录词的识别问题，提升信息提取能力，在不同的信息提取任务中，可以通过提供相应训练数据即可，无需任何特征工程；将字符级编码器层和词级编码器层结合提取的特征，输入条件随机场层中，使得条件随机场层可以利用字符级编码器层和词级编码器共同提取的强特征，根据观察词性标签转换特征，比如，在片段特征向量序列中，“动词”前面通常是为名词等词性标签的标识，“连词”前后通常均为相同词性标签的词的标识等完成目标语义标签的序列标注任务，从而可以显著地提高鲁棒性。

在一个实施例中，所述在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码之前，还包括：

在所述字符级编码器层中接收训练数据集包括的训练文本的字符级信息，进行编码得到对应的词级特征向量序列；

在所述词级编码器层中接收所述词级特征向量序列对应的词级信息，进行编码得到对应的预训练片段特征向量序列；

根据所述预训练片段特征向量序列对所述条件随机场层进行训练，直至满足收敛条件。

训练数据集，是指包括训练所述条件随机场层的条件概率模型的训练文本的集合。信息类别，是指训练文本中目标提取信息对应的语义标签。基于大量已经进行语义标签标注后的训练文本，利用统计机器学习模型学习各字符对应位于目标语义标签上的规律(称为训练)，从而实现对待提取文本的目标语义标签的序列的提取，所述训练文本是指带有语义标签的评论文本。以训练文本包括“长沙是中国美丽的城市”为例，训练文本对应的信息类别对应为“长/B-LOC沙/I-LOC是/N中/B-LOC国/I-LOC美/N丽/N的/N城/N市/N”，以训练文本包括“Kobe Bath will go”为例，训练文本的信息类别对应的语义标签为“K/B-PERo/I-PER b/I-PER e/I-PER B/B-PER a/I-PER t/I-PER h/I-PER w/N i/N l/N l/N g/No/N”。

其中，所述字符级编码器层和所述字级编码器层分别包括基于注意力机制的神经网络，具体可以是基于注意力机制的片段循环神经网络(AS Recurrent Neural Networks，ASRNN)。所述在所述字符级编码器层中接收训练数据集包括的训练文本的字符级信息，进行编码得到对应的词级特征向量序列，包括：

在所述字符级编码器层中的第一双向循环神经网络中接收所述训练数据集包括的训练文本的字符级信息，进行编码得到对应的预训练字符特征向量；

在所述字符级编码器层中的第一注意力模型中接收所述预训练字符特征向量以执行以下操作：

根据输入的预训练字符特征向量与其对应的上下文预训练特征向量的余弦相似度，确定所述输入的预训练字符特征向量的重要性权值，以及，

将所述预训练字符特征向量的重要性权值进行加权平均得到对应的词级特征向量序列。

双向循环神经网路(Bi-directional Recurrent Neural Network，BRNN)的基本思想是，提出每一个训练序列向前和向后分别是两个循环神经网络(Recurrent NeuralNetwork，RNN)，而且这两个循环神经网络都连接着一个输出层，提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。RNN通常包括输入层(Input Layer)、隐藏层(Hidden Layer)和输出层(Output Layer)。如图6所示，为一实施例提供的RNN沿时间展开的示意图，包括输入单元、输入集标记为{x0,x1,…xt-1,xt,xt+1,…}，输出单元，输出集标记为{y0,y1,…yt-1,yt,yt+1,…}，以及隐含单元，输出集标记为{s0,s1,…st-1,st,st+1,…}，从输入层连接到隐含层的权值被标记为U，从隐含层到自己的连接权值被标记为W，从隐含层到输出层的权值被标记为V，在每一个时步的时候同样的权值被再使用。在RNN中每输入一步，每一层都共享参数U,V,W，从而RNN中的每一时步都在做相同的事情，只是输入不同。如图7所示为双向循环神经网络沿时间展开的示意图，其中，六个权值在每一个时步都被重复的利用，该六个权值分别对应是：输入层到向前和向后隐含层(w1,w3)，隐含层到隐含层自己(w2,w5)，向前和向后隐含层到输出层(w4,w6)。其中，BRNN的计算过程同样主要包括向前推算(forward pass)和向后推算(backward pass)，对于BRNN的隐含层，向前推算与单向的RNN基本相同，除了输入序列对于两个隐含层是相反方向的，输出层直到两个隐含层处理完所有的全部输入序列才更新；BRNN的向后推算与标准的RNN通过时间反向传播相似，除了所有的输出层激活函数首先被计算，然后返回给两个不同方向的隐含层。注意力模型(Attention Model)是指基于注意力机制的计算模型，通过计算输入序列中各字符级信息对应的注意力分配概率分布，也即各字符级信息对应的字符特征向量的重要性权值，实现使得循环神经网络能够自动将注意力放在目标语义标签标注的字符级信息。

本发明实施例中，第一双向循环神经网络可以包括底部双向长短时记忆网络(LSTM)和顶部双向长短时记忆网络(LSTM)。LSTM是一种RNN，其与典型的RNN的不同在于，将RNN中隐含层的节点替换成用如图8所示的长短时记忆模块，该长短时记忆模块包括输入门Input Gate、忘记门Forget Gate、神经元cell、输出门Output Gate。该LSTM的计算过程同样包括向前推算和后向推算，具体介绍如下。

向前推算：

从图8可以看出，Input Gate连接t时刻外面的输入，t-1时刻隐含单元的输出以及来自t-1时刻cell的输出，累积求和之后进行激活函数的计算，其中表达式如下所示：

Forget Gate与Input Gate的计算意义相同，Forget Gate的输入来自t时刻外面的输入，t-1时刻隐含单元的输出以及来自t-1时刻cell的输出，其中表达式如下表示：

Cell的输入包括t时刻Forget Gate的输出、t-1时刻cell的输出、t时刻InputGate的输出、激活函数的计算，其表达式如下表示：/>

Output Gate的输入包括t时刻外面的输入，t-1时刻隐含单元的输出以及t时刻cell单元的输出，其表达式如下表示：

Output Gate的输出表达式为最后模块的输出是t时刻OutputGate的输出与t时刻cell单元的输出乘积。

向后推算：

如同标准的反向传播，通过与标准的RNN通过时间反向传播，目标函数依赖于隐含层的激活函数，其表达式如下：

Cell输出：

Output Gate输出：

Cell输出：

Forget Gate输出：

Input Gate输出：

对于全部的序列激活函数δ项，可以从时刻t＝T通过递归计算得到，在每一个时步对于隐含层单元的输出和输出权值相同，通过序列求和得到网络权值的导数，其表达式如下：

根据上述对RNN、BRN以及LTSM的工作过程的说明，将所述训练数据集包括的训练文本的字符级信息输入所述字符级编码器层中的第一双向循环神经网络进行编码，得到对应的预训练字符特征向量可以是，使用底部LSTM获取输入序列的上下文信息，然后使用顶部双向LSTM根据输入序列的上下文信息得到对应字符级信息对应的预训练字符特征向量。对于第一双向循环神经网络的输入为每个字符级信息u_it的编码处理，其计算公式可以如下公式一～公式三所示：

x_it＝w_eu_it t∈[1, T] (公式一)

第一注意力模型是采用余弦相似度的乘性注意力机制，其表达式可以如下公式四至公式六所示：

u_it＝tanh(W_wh_it+b_w)(公式四)

s_i＝∑_tα_ith_it(公式六)

其中，u_w表示全局向量，在训练开始前进行一次随机初始化，作为问句“句子中最重要的字符是哪个？”的抽象特征表示，u_it表示字符特征向量，用余弦相似度进行两者的问答相似度匹配，以获得不同字符特征向量的权重α_it，再通过相应权重α_it与对应时间步长上字符特征向量进行加权求和，得到词极特征向量序列。

请参阅图9，为本发明一实施例提供的字符级编码器层的网络层次结构示意图，其包括底部LSTM1011、顶部LSTM1012和采用余弦相似度的乘性注意力机制的第一注意力模型1013，其中，底部LSTM和顶部LSTM之间连接一个输出层1014。以训练文本为“Kobe Bathwillgo”为例，底部LSTM1011的输入为字符级信息“K o b e B a t h w I l l g o”，通过底部LSTM1011获取输入序列中字符级信息对应的上下文字符级信息，其中输入序列对于底部LSTM1011中的两个隐含层是相反方向，输出层1014直到两个隐含层处理完所有的全部输入序列才更新，提供给输出层1014输入序列中每一字符级信息的完整的过去和未来的上下文字符信息；顶部双向LSTM1012首先计算所有的输出层1014的激活函数项，然后返回给两个不同方向的隐含层，顶部双向LSTM1012根据时刻t确定相应时间步长内特征函数，确定输入序列各字符级特征信息对应的上下文特征向量，得到与各字符级信息对应的预训练字符特征向量，再通过第一注意力模型1013对循环神经网络的输出进行计算，确定各字符级信息对应的字符特征向量的重要性权值，根据字符级信息对应的字符特征向量的重要性权值及对应时间步长上字符特征向量进行加权求和，得到词级特征向量序列Si。

在一个实施例中，所述在所述词级编码器层中接收所述词级特征向量序列对应的词级信息，进行编码得到对应的预训练片段特征向量序列，包括：

在所述词级编码器层的第二双向循环神经网络中接收所述词级特征向量序列对应的词级信息，进行编码得到对应的预训练词特征向量；

在所述词级编码器层的第二注意力模型中接收所述预训练词特征向量，以执行以下操作：

根据输入的预训练词特征向量与其对应的上下文预训练特征向量的余弦相似度，确定所述输入的预训练词特征向量的重要性权值，以及，

根据所述预训练词特征向量的重要性权值进行加权平均，得到预训练片段特征向量序列。

本发明实施例中，词级编码器层与字符级编码器层的实现原理相似。第二双向循环神经网络与第一双向循环神经网络的网络结构可以相同，包括底部双向长短时记忆网络(LSTM)和顶部双向长短时记忆网络(LSTM)。通过第二双向循环神经网络的底部LSTM获取字符级编码器层确定的分词结果对应的词级信息作为输入。通过底部LSTM获取输入序列的上下文词级信息，然后通过顶部双向LSTM根据输入序列的上下文词级信息得到相应词级信息对应的预训练片段特征向量。其中，第二注意力模型与第一注意力模型的网络结构也可以相同，通过采用余弦相似度的乘性注意力机制，利用预先相似度进行两者的问答相似度匹配，以获得不同词级特征向量的权重，再通过相应权重与对应时间步长上词特征向量进行加权求和，得到片段特征向量序列。

请参阅图10，为本发明一实施例提供的词级编码器层的网络层次结构示意图，其包括底部LSTM1031、顶部LSTM1032和采用余弦相似度的乘性注意力机制的第二注意力模型1033，其中，底部LSTM1031和顶部LSTM1032之间连接一个输出层1034。以训练文本为“KobeBath will go”为例，底部LSTM的输入为字符级编码器层的分词结果，词级特征向量对应的词级信息“Kobe Bath will go”，通过底部LSTM1031获取输入序列的上下文词级信息，其中输入序列对于底部LSTM中的两个隐含层是相反方向，输出层1034直到两个隐含层处理完所有的全部输入序列才更新，提供给输出层1034输入序列中每一词级信息的完整的过去和未来的上下文词级信息；顶部双向LSTM1032首先计算所有的输出层1034激活函数项，然后返回给两个不同方向的隐含层，顶部双向LSTM1032根据时刻t确定相应时间步长内特征函数，确定输入序列各词级信息的上下文词级信息得到与各词级信息对应的预训练词特征向量，再通过第二注意力模型1032对循环神经网络的输出进行计算，确定各词级信息对应的词特征向量的重要性权值，根据各词级信息对应的词特征向量的重要性权值及对应时间步长上词特征向量进行加权求和，得到片段特征向量序列Segi。

在一个实施例中，所述根据所述预训练片段特征向量序列对所述条件随机场层进行训练，直至满足收敛条件，包括：

确定所述训练数据集中所述训练文本的输入序列相对于目标输出序列的条件概率；

迭代更新所述条件概率中对应所述词级特征向量序列、以及所述预训练片段特征向量序列的权重因子，直至，

所述条件概率的对数似然函数满足所述收敛条件。

这里，对数似然函数可以采用极大条件似然估计函数，根据所述训练数据集中所述训练文本的输入序列相对于目标输出序列的条件概率的似然度最大时时，则确定满足收敛条件。

请再次参阅图9，条件随机场层位于词级编码器层的顶部。以条件随机场层为基于半马尔科夫条件随机场层的条件概率模型为例，seg1、seg2分别表示神经网络提取的片段特征向量序列，圆节点y1、y2分别表示观察到的输出序列s，虚线表示包含在半马尔科夫条件随机场层中的特征。以输入序列x为字符级信息，s为目标语义标签标注序列的文本数据为例，半马尔科夫条件随机场层将输入序列x上的可能输出序列s的条件概率建模的表达式可以如下公式七所示：

其中，G(x，s)是传统的半马尔科夫条件随机场特征分数，N(x，s)是由神经网络计算的神经网络特征分数，Z(x)是所有可能的目标语义标签序列s在输入序列x上的归一化因子，w1、w2分别表示半马尔科夫条件随机场特征分数和神经网络特征分数的相应权重。其中，采用极大条件似然估计函数作为损失函数，通过极大似然训练选择参数以使得极大似然参数最大化，使得满足收敛条件。其中，该极大条件似然估计函数的表达式可以如下公式八所示：

其中，迭代更新所述条件概率中对应所述词级特征向量序列、以及所述预训练片段特征向量序列的权重因子，直至，所述条件概率的对数似然函数满足所述收敛条件，对于训练集{(xi,si)}，可以通过训练，确定极大似然训练选择参数以使得对数似然度最大化，以确定满足收敛条件。

在一个实施例中，所述在字符级编码器层中接收待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，包括：

将所述待提取文本的字符级信息输入所述字符级编码器层中的第一双向循环网络；

在所述第一双向循环网络进行编码，得到所述字符级信息对应的字符特征向量。

其中，所述根据输入的字符级信息对应字符特征向量及其对应的上下文特征向量进行编码，得到对应的词级特征向量序列，包括：

将所述字符特征向量输入所述字级编码器层中的第一注意力模型，在所述第一注意力模型中执行以下操作：

根据输入的字符级信息对应字符特征向量、及其对应的上下文特征向量的余弦相似度，确定输入的字符级信息对应的字符特征向量的重要性权值；

根据所述字符特征向量的重要性权值进行加权平均，得到词级特征向量序列。

这里，所述字符级编码器层包括基于注意力机制的神经网络，具体可以是基于注意力机制的片段循环神经网络。第一双向循环神经网络可以包括底部双向长短时记忆网络(LSTM)和顶部双向长短时记忆网络(LSTM)。其中，第一双向循环神经网络的输入为待提取文本的每个字符级信息，对其进行编码处理的机制可以如前述公式一～公式三所示。第一注意力模型为采用余弦相似度的乘性注意力机制，其表达式可以如前述公式四至公式六所示。

在一个实施例中，所述在词级编码器层中接收所述词级特征向量序列对应的词级信息，并进行编码得到所述词级信息对应的词特征向量，包括：

将所述词级特征向量序列对应的词级信息输入所述词级编码器层中的第二双向循环网络；

在所述第二双向循环网络中进行编码，得到所述词级信息对应的词特征向量。

其中，所述根据输入的词级信息对应的词特征向量及其对应的上下文特征向量进行编码，得到片段特征向量序列，包括：

将所述词特征向量输入所述词级编码器层中的第二注意力模型，在所述第二注意力模型中执行以下操作：

根据输入的词级信息对应的词特征向量、及其对应的上下文特征向量的余弦相似度，确定所述输入的词级信息对应词特征向量的重要性权值，以及，

根据所述词特征向量的重要性权值进行加权平均得到所述片段特征向量序列。

这里，所述词级编码器层包括基于注意力机制的神经网络，具体可以是基于注意力机制的片段循环神经网络。第二双向循环神经网络可以包括底部双向长短时记忆网络(LSTM)和顶部双向长短时记忆网络(LSTM)。其中，第二双向循环神经网络的输入是指，字符级编码器层输出的词级特征序列对应的词级信息，第二双向循环神经网络对词级信息进行编码处理的机制可以如前述公式一～公式三所示。第二注意力模型为采用余弦相似度的乘性注意力机制，其表达式可以如前述公式四至公式六所示。

在一个实施例中，所述在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签，包括：

在所述条件随机场层中对将所述片段特征向量标注语义标签，得到所述片段特征向量对应的不同标注序列；

确定满足概率条件的标注序列中对应所述片段特征向量的语义标签。

这里，条件随机场是指，通过将训练数据集包括的训练文本的字符级信息输入所述字符级编码器层中进行编码，得到对应的词级特征向量序列；将所述词级特征向量序列对应的词级信息输入所述词级编码器层中进行编码，得到对应的预训练片段特征向量序列；根据所述预训练片段特征向量序列对所述条件随机场层进行训练，直至满足收敛条件，从而得到的通过训练后的条件随机场层。

为了能够对本发明实施例提供的信息提取方法的实现进一步理解，下面以提取待提取文本的命名实体作为目标标签序列为例，对本发明实施例的信息提取方法的流程进行说明，请结合参阅图11和12，实现本实施例的信息提取方法的信息提取装置包括：字符级编码器层、词级编码器层及条件随机场层。其中，该信息提取装置为层次注意力神经网络半马尔科夫随机场模型，该字符级编码器层、词级编码器层分别包括基于注意力机制的双向循环神经网络，为了便于描述区别，分别称为第一基于注意力机制的双向循环神经网络和第二基于注意力机制的双向循环神经网络；该条件随机场层包括基于半马尔科夫条件随机场层的条件概率模型。该方法包括：

步骤S11，接收训练数据集包括的训练文本的字符级信息输入所述字符级编码器层中进行编码，得到对应的词级特征向量序列；

其中，所述字符级编码器层为基于注意机制的片段循环神经网络，包括底部双向长短时记忆网络1011、顶部双向长短时记忆网络1012及注意力模型1013。该底部双向长短时记忆网络1011获取输入序列的上下文信息，计算每个字符级信息对应的字符特征向量，然后使用顶部双向长短时记忆网络1012计算词的段表示，得到词级特征向量。通过将注意力机制应用于字层面和词层面的神经网络中，使得能够在构建片段特征向量时，能够自动识别出每个片段特征向量中重要的字和词，使得无需特征工程介入的请况下具有更强的特征表示能力。相对比传统的直接采用词嵌入作为输入，通过字符级编码器层相当于将每个输入表示为底部双向长短时记忆网络的输出和预训练的词嵌入的串联，从而允许词对他们出现的上下文信息更加敏感，且与直接连接双向长短时记忆网络中两个方向的最终状态不同，使用注意力机制在组合所有时间步长的输出，有效地利用了字级别信息和字符级别信息来提升模型的信息提取能力。注意力模型的表达式可以如下所示：

u_it＝tanh(W_wh_it+b_w)

s_i＝∑_tα_ith_it

其中，注意力模型1013包括与顶部双向长短时记忆网络1012的输出层连接的一层感知器网络，该感知器网络可以为全连接层，用于对顶部双向长短时记忆网络1012的输出进行线性变换，增强网络的转达能力，其中感知器网络的输出即为当前字符级信息对应的字符特征向量；然后通过计算当前字符特征向量与上下文字符级信息对应的字符特征向量的余弦相似度，并通过softmax函数获得标准化后的重要性权值。该注意力模型1013的注意力机制可以理解为一个问答匹配的环节，是一个全局向量，在训练开始前进行一次随机初始化，作为问句“句子中最重要的字符是哪个？”的抽象特征表示，是各字符级信息对应的字符特征表示，用余弦相似度进行两者的问答相似度匹配，以获得不同字符级信息对应的权重值；之后，相应权重与每个时步上特征表示加权求和，得到词级特征表示，将输入序列输出对应的词特征向量序列作为字符级编码器层的输出，如图12中所示，字符级编码器层的输出包括词级信息“Kobe”、“Bath”、“will”、“go”分别对应的词特征向量序列。

步骤S12，接收所述词级特征向量序列对应的词级信息输入所述词级编码器层中进行编码，得到对应的预训练片段特征向量序列；

所述词级编码器层与字符级编码器层的工作原理相似，词级编码器层同样为基于注意机制的片段循环神经网络，包括底部双向长短时记忆网络1031、顶部双向长短时记忆网络1032及注意力模型1033。该字符级编码器层输出的词特征向量序列相应的预训练字作为词级编码器层的输入序列。该底部双向长短时记忆网络1031获取字符级编码器层输出的词级特征向量序列相应的预训练词级信息，提取上下文词级信息对应的词特征向量，然后使用顶部双向长短时记忆网络1032计算句的片段表示，得到片段特征向量。注意力模型1033的表达式与字符级编码器层相同，在此不再赘述。将输入序列输出对应的片段特征向量序列作为字符级编码器层的输出。

步骤S13，根据所述预训练片段特征向量序列对半马尔科夫条件随机场层进行训练，直至满足收敛条件。

半马尔科夫条件随机场层获取词级编码器层输出的片段特征向量，通过片段特征向量中语义标签转换特征，采用最大条件似然估计函数进行最大似然训练，直至最大似然选择参数以使得对数似然度最大化。创建基于半马尔科夫条件随机场层的条件概率模型可以如下所示：

最大似然估计函数可以如下所示：

其中，G(x，s)是传统的半马尔科夫条件随机场特征分数，N(x，s)是由神经网络计算的神经网络特征分数，Z(x)是所有可能的目标语义标签序列s在输入序列x上的归一化因子，w1、w2分别表示半马尔科夫条件随机场特征分数和神经网络特征分数的相应权重。采用极大条件似然估计函数作为损失函数，通过极大似然训练选择参数以使得极大似然参数最大化，使得满足收敛条件。

步骤S14，获取待提取文本，接收所述待提取文本的字符级信息输入该层次注意力神经网络半马尔科夫随机场模型，得到目标语义标签的文本数据。

所述将所述待提取文本的字符级信息输入该层次注意力神经网络半马尔科夫随机场模型，得到目标语义标签的文本数据，包括：

在字符级编码器层中接收待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，以及，根据所述字符特征向量及其对应的上下文特征向量进行编码，得到对应的词级特征向量序列；在词级编码器层中接收所述词级特征向量序列对应的词级信息，并进行编码得到所述词级信息对应的词特征向量，以及，根据所述词特征向量及其对应的上下文特征向量进行编码，得到片段特征向量序列；在训练后的半马尔科夫条件随机场层中接收所述片段特征向量序列，并预测得到满足概率条件的语义标签。

该本发明实施例提供的信息提取方法，通过字符级编码器层和字级编码器层结合，该字符级编码器层和字级编码器层分别为基于注意机制的片段循环神经网络，可以从待提取文本的字符级信息和词级信息中共同发现特征并加以利用和识别，能够有效解决未登录词的识别问题，从而可提升信息提取能力，从而在不同的信息提取任务中，可以通过提供相应训练数据即可，无需任何特征工程；将字符级编码器层和词级编码器层结合提取的特征，输入半马尔科夫条件随机场层中，使得半马尔科夫条件随机场层可以利用字符级编码器层和词级编码器提取的强特征，根据观察词性标签转换特征，比如，在片段级特征向量序列中，“动词”前面通常是为名词等词性标签的标识，“连词”前后通常均为相同词性标签的词的标识等完成目标语义标签的序列标注任务，无需任何特征工程，有效降低开发成本，且能够提升识别的准确率和召回率，从而可以显著地提高鲁棒性。

综上，本发明实施例所提供的信息提取方法，至少包括如下技术效果：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息提取方法，其特征在于，包括：

在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码，其中，所述字符级信息表示单个的字母、数字或文字；

在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；

在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签；

所述在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码包括：在所述字符级编码器层中接收所述待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，以及，

将所述字符特征向量输入所述字符级编码器层中的第一注意力模型，在所述第一注意力模型中执行以下操作：根据输入的字符级信息对应的字符特征向量、及其对应的上下文特征向量的余弦相似度，确定所述输入的字符级信息对应的字符特征向量的重要性权值，根据所述字符特征向量的重要性权值进行加权平均，得到所述词级特征向量序列。

2.如权利要求1所述的信息提取方法，其特征在于，所述在词级编码器层中，进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码，包括：

在词级编码器层中接收所述词级特征向量序列对应的词级信息，并进行编码得到所述词级信息对应的词特征向量，以及，

根据所述词特征向量及其对应的上下文特征向量进行编码，得到对应的片段特征向量序列。

3.如权利要求1所述的信息提取方法，其特征在于，所述进行编码得到所述字符级信息对应的字符特征向量，包括：

4.如权利要求2所述的信息提取方法，其特征在于，所述进行编码得到所述词级信息对应的词特征向量，包括：

5.如权利要求4所述的信息提取方法，其特征在于，所述根据输入的词级信息对应的词特征向量及其对应的上下文特征向量进行编码，得到片段特征向量序列，包括：

6.如权利要求1所述的信息提取方法，其特征在于，所述在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签，包括：

7.如权利要求1至6任一项所述的信息提取方法，其特征在于，所述在字符级编码器层中，根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码之前，还包括：

8.如权利要求7所述的信息提取方法，其特征在于，所述进行编码得到对应的词级特征向量序列，包括：

9.如权利要求8所述的信息提取方法，其特征在于，所述进行编码得到对应的预训练片段特征向量序列，包括：

10.如权利要求9所示的所述信息提取方法，其特征在于，所述根据所述预训练片段特征向量序列对所述条件随机场层进行训练，直至满足收敛条件，包括：

所述条件概率的对数似然函数满足所述收敛条件。

11.一种信息提取装置，其特征在于，包括：

字符级编码器层，用于根据待提取文本的字符级信息，进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码，其中，所述字符级信息表示单个的字母、数字或文字；

词级编码器层，用于进行从所述词级特征向量序列对应的词级信息到词特征向量，以及从所述词特征向量到片段特征向量序列的编码；

条件随机场层，用于在条件随机场层中接收所述片段特征向量序列并标注语义标签，确定满足概率条件的所述语义标签；

所述字符级编码器层，还用于在所述字符级编码器层中接收所述待提取文本的字符级信息，并进行编码得到所述字符级信息对应的字符特征向量，以及，将所述字符特征向量输入所述字符级编码器层中的第一注意力模型，在所述第一注意力模型中执行以下操作：根据输入的字符级信息对应的字符特征向量、及其对应的上下文特征向量的余弦相似度，确定所述输入的字符级信息对应的字符特征向量的重要性权值，根据所述字符特征向量的重要性权值进行加权平均，得到所述词级特征向量序列。

12.一种计算机设备，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行如权利要求1至10中任一项所述的信息提取方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至10中任一项所述信息提取方法。