CN110569332B

CN110569332B - 一种语句特征的提取处理方法及装置

Info

Publication number: CN110569332B
Application number: CN201910849343.8A
Authority: CN
Inventors: 徐程程; 郑孙聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2023-01-06
Anticipated expiration: 2039-09-09
Also published as: CN110569332A

Abstract

本发明提供一种语句特征的提取处理方法、装置、电子设备及存储介质，语句特征的提取处理方法包括：将语句分解为待标记字段，通过序列标注模型对语句中的实体字段进行标注，得到实体字段的标签；将语句与规则模板进行匹配，得到语句中的标准字段，并基于规则模板的类型确定标准字段的标签，其中，标准字段的格式与规则模板的格式相匹配；基于语句中的字段检索词典，得到语句中的穷举字段，并基于词典获取穷举字段的标签，其中，穷举字段为词典中存在的字段；基于实体字段的标签、标准字段的标签和穷举字段的标签确定语句中各字段的标签。可以降低引入新的标签的难度，缩短引入新的标签耗费的时长。

Description

一种语句特征的提取处理方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种语句特征的提取处理方法。

背景技术

自然语言处理(NLP，Nature Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、信息检索、机器人问答系统和知识图谱等技术。知识图谱可以为文本处理、语义理解、机器翻译、信息检索、机器人问答系统等多种自然语言处理技术提供知识源。

在构建知识图谱时需要对自然语句中的词进行标注，相关的自然语言处理技术通过序列标注模型对自然语句中的词进行标注，得到自然语句中的词的标签，这种处理方法引入新的标签的难度大，且引入新的标签耗费的时间长。

发明内容

本发明实施例提供一种语句特征的提取方法、装置、电子设备及存储介质，能够降低引入新标签的难度，并缩短引入新的标签所耗费的时长。

为达到上述目的，本发明实施例的方案是这样实现的。

本发明实施例提供一种语句特征的提取处理方法，包括：

将语句分解为待标记字段，通过序列标注模型对所述语句中的实体字段进行标注，得到所述实体字段的标签；

将所述语句与规则模板进行匹配，得到所述语句中的标准字段，并基于所述规则模板的类型确定所述标准字段的标签，其中，所述标准字段的格式与所述规则模板的格式相匹配；

基于所述语句中的字段检索词典，得到所述语句中的穷举字段，并基于所述词典获取所述穷举字段的标签，其中，所述穷举字段为所述词典中存在的字段；

基于所述实体字段的标签、所述标准字段的标签和所述穷举字段的标签确定所述语句中各字段的标签。

本发明实施例还提供一种语句特征的提取处理装置，包括：

实体字段标注模块，用于将语句分解为待标记字段，通过序列标注模型对所述语句中的实体字段进行标注，得到所述实体字段的标签；

标准字段标注模块，用于将所述语句与规则模板进行匹配，得到所述语句中的标准字段，并基于所述规则模板的类型确定所述标准字段的标签，其中，所述标准字段的格式与所述规则模板的格式相匹配；

穷举字段标注模块，用于基于所述语句中的字段检索词典，得到所述语句中的穷举字段，并基于所述词典获取所述穷举字段的标签，其中，所述穷举字段为所述词典中存在的字段。

汇总模块，用于基于所述实体字段的标签、所述标准字段的标签和所述穷举字段的标签确定所述语句中各字段的标签。

在上述方案中，所述实体字段标注模块，还用于将所述语句分解为单字字段；通过所述序列标注模型对所述单字字段进行标注，得到所述单字字段的标签；将所述语句中相邻且具有相同标签的所述单字字段组合为候选实体字段；将所述候选实体字段中具有实体类型的标签确定为实体字段，并获取各实体字段的标签。

在上述方案中，所述标准字段标注模块，还用于获取所述规则模板的正则表达式和类型；将所述语句中满足所述正则表达式的字段确定为标准字段；将所述规则模板的类型确定为所述标准字段的标签。

在上述方案中，所述穷举字段标注模块，还用于基于所述语句中的字段检索所述词典，当检索到所述字段时，将所述字段确定为所述穷举字段；获取所述穷举字段在所述词典中的类型，并将所述词典中的类型确定为所述穷举字段的标签。

在上述方案中，所述穷举字段标注模块，还用于将所述语句中相邻且具有相同标签的所述单字字段组合为候选实体字段；将所述候选实体字段中具有非实体类型标签的字段确定为候选穷举字段；基于所述候选穷举字段检索所述词典。

在上述方案中，所述汇总模块，还用于当所述实体字段和所述标准字段为所述语句中的相同的字段时，将所述实体字段的标签确定为所述字段的标签；当所述实体字段和所述穷举字段为所述语句中的相同的字段时，将所述实体字段的标签确定为所述字段的标签。

在上述方案中，所述实体字段标注模块，还用于通过未经训练的序列标注模型对具有训练标签的训练语句进行序列标注处理，得到所述训练语句中各字段的标签；调整所述未经训练的序列标注模型的参数；将调整后的参数保存为训练完成的所述序列标注模型。

在上述方案中，所述实体字段标注模块包括：

分词模块，用于将所述训练语句分解为训练单字字段；

词嵌入模块，用于将所述训练单字字段转化为字向量；

编码模块，用于将所述字向量转化为特征向量；

解码模块，用于对所述特征向量进行解码处理，得到所述训练语句中的各所述训练单字字段的标签；调整所述解码层的参数，直至所述解码层输出的各所述训练单字字段的标签与所述训练标签一致。

在上述方案中，所述汇总模块，还用于存储所述语句中的字段与所述字段的标签的对应关系，得到字段与标签的对应关系库。

本发明实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的语句特征的提取处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的语句特征的提取处理方法。

本发明实施例具有以下有益效果：

通过序列标注模型确定实体字段的标签，通过将语句与规则模板进行匹配，确定标准字段的标签，通过基于语句中的字段检索词典，确定穷举字段的标签，在保证实体字段的标签的准确度的前提下，降低了引入新的标签的难度，缩短了引入新的标签耗费的时长。

附图说明

图1为本发明实施例提供的信息检索系统的一种可选的构架示意图；

图2是本发明实施例提供的用于文本的实体关系抽取的电子设备200的结构示意图；

图3为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图4为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图5为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图6为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图7为基于cat和cart两个字段构建的前缀树的结构示意图；

图8为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图9为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图10为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图11为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图12为本发明实施例提供的一种语句特征的提取处理方法的流程；

图13为本发明实施例提供的一种语句特征的提取处理方法的流程示意图；

图14为本发明实施例提供的一种语句特征的提取处理方法中的通过序列标注模型确定语句中的实体字段的标签的流程示意图；

图15为本发明实施例提供的一种可选的规则模板示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

本发明实施例涉及人工智能的自然语言处理技术，具体在下文中进行说明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

字段(mention)，也称为提及，语句中的单字或由单字拼接而成的名词或代词，包括命名实体、一般的名词、指代词等。命名实体一般指人名、地名、机构名等实体，而有些特殊的名词、代词，由于无法对其分类，统称为mention，在申请文件中将均将mention翻译为字段。

实体：现实世界中具有可区别性且独立存在的某种事物，比如，人名、地名、游戏名称等。

非实体：现实世界中抽象的概念，比如，日期、长度、金额等。

实体字段：语句中表示实体的字段。

标准字段：字段的形式和表列顺序具有明显的规则的字段，例如表示手机号码、日期或尺寸的字段。

穷举字段：封闭集合中的字段，封闭集合是指集合中具有有限多个元素的集合，该封闭集合例如可以是某省的所有城市的名称的集合，该封闭集合例如还可以是某公司的所有下属部门的名称的集合。

序列标注：在给定的文本序列上预测标签,并根据预测结果对文本中的字段进行标注，得到各字段的标签。

序列标注模型：用于对字段进行标注的人工智能模型，该人工智能模型例如可以为隐马尔科夫模型(HMM，Hidden Markov Model)或条件随机场(CRF， Conditional RandomField)模型。

如图1所示，图1为本发明实施例提供的信息检索系统的一种可选的构架示意图，以下结合图1具体说明知识图谱的构建过程以及信息检索系统如何通过知识图谱提供的知识源获得精确的搜索结果的过程。

如图1所示，信息检索系统100包括电子设备200和用户终端400，用户终端400通过网络300连接电子设备200，网络300可以是广域网或者局域网，又或者是二者的组合。

电子设备200从数据库中获取文本数据，通过语句特征的提取处理装置255 对文本数据进行处理，得到文本数据中各字段的标签，并将带有标签的字段和文本数据发送给关系抽取装置256。关系抽取装置256基于字段的标签对文本数据进行处理，得到字段之间的关系，并将字段之间的关系存入知识图谱库257 中。知识图谱库257将获取的字段之间的关系进行汇总融合后，得到知识图谱。

响应于用户在用户终端的操作，用户终端400通过网络将搜索请求和检索文本发送给电子设备200，通过语句特征的提取处理装置255对检索文本进行处理，得到文本数据中各字段的标签，并将带有标签的字段和检索文本发送给关系抽取装置256。关系抽取装置256基于字段的标签对检索文本进行处理，得到字段之间的关系，并基于检索文本中的字段之间的关系检索知识图谱。基于检索结果得到符合用户意图的精确搜索结果，并通过网络将精确搜索结果发送给用户终端400。

例如，电子设备200从数据库500中获取的文本数据包括：小张的职业是导演、小张导演了电影A、小张导演过电影B、小张参演过电影C和小张的父亲是老张。语句特征的提取处理装置255对获取文本数据进行处理后得到，带有标签的字段：小张，标签为人名；导演，标签为职业；电影A，标签为电影名；电影B，标签为电影名；电影C，标签为电影名；老张，标签为人名。

将带有标签的字段和文本数据传输至关系抽取装置中，装置抽取装置基于带有标签的字段对文本数据进行处理，得到字段之间的关系向量：小张，职业，导演；小张，导演，电影A；小张，导演，电影B；小张，参演，电影C；老张，父亲，小张。

知识图谱库257接收到字段之间的关系向量后，对接收到的关系向量进行汇总，得到知识图谱，该知识图谱以小张为中心，存储了小张的职业，小张导演的电影，小张参演的电影以及小张的父亲的名字。

用户在用户终端400中输入检索文本“小张的电影”并在搜索界面中点击“搜索”，用户终端400通过网络向电子设备200发送搜索请求及检索文本“小张的电影”。电子设备200通过语句的特征的提取处理装置255对检索文本进行处理，得到带有标签的字段：小张，标签为人名；电影，标签为电影名。将带有标签的字段和检索文本传输至关系抽取装置256，电子设备200通过关系抽取装置256基于带有标签的字段对检索文本进行处理，得到检索文本中的字段的关系向量：小张，缺省，电影，其中，小张和电影的关系为缺省，表示小张和电影之间的关系有多种可能，该电影可能是小张导演的也可能是小张参演的。基于该检索文本中的字段的关系向量检索知识图谱，由于小张和电影之间的关系为缺省，故检索所有与小张有关的电影。

检索结果为知识图谱中与小张有关的电影为：电影A、电影B和电影C，获取电影A、电影B和电影C的详细信息，并将电影A、电影B和电影C的详细信息作为精确的搜索结果发送给用户终端。

参见图2，图2是本发明实施例提供的用于文本的实体关系抽取的电子设备200的结构示意图，图2所示的电子设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可以理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现服务器状态的一个或多个输出装置231，包括服务器状态指示灯。用户接口230还包括一个或多个输入装置232，包括有助于控制服务器的运行状态的部件，例如，服务器的开关或服务器的重启按钮。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

呈现单元253，用于经由一个或多个与用户接口230相关联的输出装置23 1使得能够呈现信息。

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

关系抽取装置256，用于抽取语句中各字段的关系。

知识图谱库257，用于汇总并存储各字段的关系数据，构建知识图谱。

在一些实施例中，本发明实施例提供的语句特征的提取处理装置255可以采用软件方式实现，图2示出了存储在存储器250中的语句特征的提取处理装置255，包括实体字段标注模块2551、标准字段标注模块2552、穷举字段标注模块2553和标签汇总模块2554四个模块，其可以是程序和插件等形式的软件，并可以嵌入各种服务器中，例如信息检索系统、机器翻译系统或问答系统的服务器中。实体字段标注模块2551，用于将语句分解为待标记字段，通过序列标注模型对语句中的实体字段进行标注，得到实体字段的标签。标准字段标注模块2552，用于将语句与规则模板进行匹配，得到语句中的标准字段，并基于规则模板的类型确定标准字段的标签，其中，标准字段的格式与规则模板的格式相匹配。穷举字段标注模块2553，用于基于语句中的字段检索词典，得到语句中的穷举字段，并基于词典获取穷举字段的标签，其中，穷举字段为词典中存在的字段。

本发明实施例提供的语句特征的提取处理方法可以由服务器或终端执行，下面将结合上文记载的服务器的示例性应用和结构，说明服务器中通过嵌入的语句特征的提取处理装置而在服务器中实现语句特征的提取处理方法的过程，服务器的类型可以是多样化的，例如可以是信息检索专用的服务器、机器翻译的服务器和问答系统的服务器等；也可以是通过虚拟化技术构建的网络云端服务器等。在一个实施例中，客户端可以通过虚拟化技术将多个物理计算节点虚拟化为一个网络云端服务器，将多个物理计算节点的计算资源、网络资源和存储资源抽象为计算资源池、网络资源池和存储资源池，通过调用计算资源池、网络资源池和存储资源池实现语句特征的提取处理方法。

请参阅图3，图3为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图3所示，该方法的流程包括：

步骤S201、将语句分解为待标记的字段。

在一些实施例中，以预设的字数为间隔，将语句分解为待标记字段，例如，以一个字为间隔对语句进行分解得到待标记字段，每个待标记字段包括由两个单字组合成的词。在另一些实施例中，将语句中的每个单字分解为待标记字段，每个待标记字段均为语句中的一个单字。

步骤S202、通过序列标注模型对语句中的实体字段进行标注，得到实体字段的标签。

在一些实施例中，序列标注模型为训练完成后的人工智能模型，将待标记字段输入序列标注模型，基于序列标注模型的输出结果得到实体字段的标签，其中，实体字段是指语句中表示实体的字段。

步骤S203、将语句与规则模板进行匹配，得到语句中的标准字段，其中，标准字段的格式与规则模板的格式相匹配。

在一些实施例中，规则模板的格式包括字段的形式和字段的排列顺序，当语句中的字段的形式与规则模板的格式中的字段的形式一致，且语句中的字段的排列与规则模板的格式中的字段的排列顺序一致时，确定该字段的格式与规则模板的格式相匹配。

例如，规则模板的格式中字段的形式为连续11位的数字，排列顺序为前3 位数字为网络识别号列表中的数字，第4至第7位数字为地区代码列表中的数字。当语句中存在字段与该规则模板的格式匹配时，将该字段确定为标准字段。

步骤S204、基于规则模板的类型确定标准字段的标签。

在一些实施例中，每个规则模板对应一个标签，当确定字段与规则模板的格式匹配后，获取该规则模板对应的标签，并将该标签确定为该字段的标签。

例如，规则模板对应的标签为“手机号码”，当语句中存在字段与该规则模板的格式匹配时，将“手机号码”确定为该字段的标签。

步骤S205、基于语句中的字段检索词典，得到语句中的穷举字段，其中，穷举字段为词典中存在的字段。

在一些实施例中，词典为用户预先输入的数据，词典包括单字或词语，将语句中的各字段逐个与词典中的单字或词语对比，当语句中的字段与词典中的单字或词语相同时，将该字段确定为穷举字段。

步骤S206、基于词典获取穷举字段的标签。

在一些实施例中，词典还包括词典中每个单字或词语的标签，当语句中的字段与词典中的单字或词语相同时，获取该字段在词典中对应的标签，并将该标签确定为该字段的标签。

在一些实施例中，执行步骤S201至步骤S202，步骤S203至步骤S204以及步骤S205至步骤S206，为并行的步骤，语句特征的提取处理装置255同时执行步骤S201至步骤S202，步骤S203至步骤S204以及步骤S205至步骤S206，缩短了对语句中的字段进行标注所耗费的时间。

步骤S207、基于实体字段的标签、标准字段的标签和穷举字段的标签确定语句中各字段的标签。

在一些实施例中，将得到的实体字段的标签、标准字段的标签和穷举字段的标签进行汇总，得到语句中各字段的标签。例如，将语句中相邻且具有相同标签的字段合并为一个字段；例如，当实体字段的标签和标准字段的标签为语句中同一个字段的标签时，将实体字段的标签确认为该字段的标签。

在一些实施例中，通过序列标注模型对语句中的重要字段进行标注，得到重要字段的标签，其中，重要字段是指会对语义分析造成较大影响的字段，例如作为主语的字段。

在另一些实施例中，通过序列标注模型对语句中的易混淆字段进行标注，得到易混淆字段的标签，其中易混淆字段是指，在语句中具有多种含义的字段，例如，在语句中“clutch”同时具有“抓取”和“离合器”两种含义，则需要通过序列标注模型通过前后文判断字段“clutch”的意义为“抓取”还是“离合器”，并将意义为“离合器”的字段“clutch”的标签标注为“零件”。

相关技术通过序列标注模型对自然语句进行标注，在需要引入新的标签时，需要通过具有新的标签的文本数据对序列标注模型进行重新训练，获取具有新的标签的文本数据的难度大，重新训练模型耗费的时间长。

本发明实施例提供的语句特征的提取处理方法通过序列标注模型确定语句中实体字段的标签，保证了实体字段的标签的准确度。通过规则模板确定语句中标准字段的标签，通过词典确定语句中穷举字段的标签，在引入新的标签时，可以通过更新规则模板和词典实现新的标签的快速引入，无需获取具有新的标签的文本数据，也无需对序列标注模型进行重新训练，降低了引入新的标签的难度，缩短了引入新的标签耗费的时长。

请参阅图4，图4为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，基于图3，步骤S201包括：

步骤S2011、将语句分解为单字字段。

在一些实施例中，单字字段为具有一个单字的字段，每一个单字字段为一个待标记字段。以语句为“小刘是歌手”为例对将语句分解为单字字段的过程进行示例性说明，将语句“小刘是歌手”分解为单字字段后，各单字字段为：“小”、“刘”、“是”、“歌”和“手”。

通过将语句分解为单字字段，能够避免分词时由于词语切分的错误对序列标注模型的影响，进一步保证实体字段的标签的准确度。

步骤S202包括：

步骤S2021、通过序列标注模型对单字字段进行标注，得到单字字段的标签。

在一些实施例中，将单字字段输入序列标注模型中，将序列标注模型输出的标签确定为对应单字字段的标签，其中，序列标注模型输出的标签均属于标签空间，标签空间为所有字段可能选取的标签的集合，包括实体类型的标签和非实体类型的标签。

在一些实施例中，序列标注模型包括词嵌入层、编码层和解码层，序列标注模型通过词嵌入层对输入的单字字段进行处理，将单字字段转化为字向量；序列标注模型通过编码层对自向量进行处理，得到能够反映各自向量之间的语义关联的特征向量；序列标注模型通过解码层对特征向量进行处理，得到每个字段选取标签空间中各标签的概率，并将最大概率对应的标签确定为该单字字段的标签。

例如，标签空间包括“人名”、“地名”、“机构名”、“作品名”和“非实体”，其中“人名”、“地名”、“机构名”和“作品名”均为实体类型的标签，将单字字段“小”、“刘”、“在”、“湖”和“南”输入序列标注模型，序列标注模型通过词嵌入层，分别将“小”、“刘”、“在”、“湖”和“南”转化为字向量。

通过编码层将各字向量转化为特征向量，其中，特征向量将单字字段“小”对应的字向量和单字字段“刘”对应的字向量关联，将单字字段“湖”对应的字向量和单字字段“南”对应的字向量相关联。

通过解码层基于特征向量计算单字字段“小”选取“人名”、“地名”、“机构名”和“作品名”为标签的概率，各标签对应的概率依次分别为0.8、0.05、0.05、 0.05和0.05，标签“人名”对应的概率最高，将“人名”确定为单字字段“小”的标签，基于类似的过程，将“人名”确定为单字字段“刘”的标签，将“非实体”确定为单字字段“在”的标签，将“地名”确定为单字字段“湖”的标签，将“地名”确定为单字字段“南”的标签。

步骤S2022、将语句中相邻且具有相同标签的单字字段组合为候选实体字段。

在一些实施例中，将带有标签的单字字段按照语句的排列顺序进行排列，将相邻且具有相同标签的单字字段组合为候选实体字段。例如，语句为“小刘在湖南”，单字字段“小”的标签为“人名”，单字字段“刘”的标签为“人名”，单字字段“在”的标签为“非实体”，单字字段“湖”的标签为“地名”、单字字段“南”的标签为“地名”。基于各单字字段在语句中的排列顺序，将各单字字段排列为“小”、“刘”、“在”、“湖”、“南”，其中，单字字段“小”和单字字段“刘”相邻且具有相同的标签，故将单字字段“小”和单字字段“刘”组合为候选实体字段“小刘”，单字字段“湖”和单字字段“南”相邻且具有相同的标签，故将单字字段“湖”和单字字段“南”组合为候选实体字段“湖南”。

步骤S2023、将候选实体字段中具有实体类型的标签确定为实体字段，并获取各实体字段的标签。

在一些实施例中，标签空间中包括实体类型的标签和非实体类型的标签，获取候选实体字段的标签，当候选实体字段的标签为实体类型时，将该候选实体字段确定为实体字段，并获取各实体字段的标签。

请参阅图5，图5为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图5所示，基于图3，步骤S203包括：

步骤S2031、获取规则模板的正则表达式和类型。

在一些实施例中，正则表达式是字符串进行逻辑操作的一种表达式，用于表示规则模板的格式。

步骤S2032、将语句中满足正则表达式的字段确定为标准字段。

步骤S204包括：

步骤S2041、将规则模板的类型确定为标准字段的标签。

例如，规则模板的正则表达式为“数字.数字”+“万|多|万多|”？“人”，其中“.”表示小数点，“？”表示任意字符，“|”表示“或者”，“+”表示字段连续排列，该规则模板的类型为“人数”。”语句中的字段“23.2万的人”满足该正则表达式，将字段“23.2万的人”确定为标准字段。

请参阅图6，图6为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，基于图3，步骤S205包括：

步骤S2051、基于语句中的字段检索词典，当检索到该字段时，将该字段确定为穷举字段。

在一些实施例中，通过AC自动机(Aho-Corasick automation)算法，将语句中的字段与词典中的单字或词语进行对比，当在词典中检索到该字段时，将该字段确定为穷举字段。

以语句中包括“cat”和“cart”两个字段为例，对通过AC自动机算法，将语句中的字段语词典中的单字或词语进行对比的过程进行示例性说明。请参阅图7，图7为基于cat和cart两个字段构建的前缀树的结构示意图，如图7所示，前缀树10，该前缀树10包括根节点11，第一节点12，第二节点13、第三节点 14、第四节点15和第五节点16。第一节点12是根节点11的子节点，表示字母“c”，第二节点13是第一节点12的子节点，表示字母“a”，第三节点14是第二节点13的第一子节点，表示字母“r”，第四节点15是第三节点14的子节点，表示字母“t”，第五节点16是第二节点13的第二子节点，表示字母“t”。并建立失配指针17，该失配指针17由第四节点15指向第五节点16。

沿前缀树10的父节点向子节点的方向，依次在词典中检索节点对应的字母，首先在词典中检索字母“c”，词典中存在；在词典中检索“ca”，词典中存在；在词典中检索“car”，词典中存在；在词典中检索“cart”，词典中不存在；由于设置有失配指针17，在词典中检索“cart”失败后，直接在词典中检索“cat”而非在词典中重新由“c”开始检索，节省了重新检索“c”和“ca”的时间。

步骤S206包括：

步骤S2061、获取穷举字段在词典中的类型，并将词典中的类型确定该穷举字段的标签。

请参阅图8，图8为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图8所示，基于图6，步骤S2051包括：

步骤S20511、将语句中相邻且具有相同标签的单字字段组合为候选实体字段。

步骤S20512、将候选实体字段中具有非实体类型标签的字段确定为候选穷举字段。

在一些实施例中，标签空间中包括实体类型标签和非实体类型标签，将候选实体字段中具有非实体类型标签的字段确定为候选穷举字段。

步骤S20513、基于候选穷举字段检索词典。

在一些实施例中，通过将候选穷举字段中的字段检索词典，当词典中存在该候选穷举字段时，将该候选穷举字段确定为穷举字段。

通过将候选穷举字段检索词典，利用了序列标注模型对语句中各单字字段之间的语义关联能力，将具有关联关系的字段检索词典，而无需在检索词典时，再次对语句进行分词，同时，还避免了对实体字段的重复检索，节省了检索实体字段的时间。

请参阅图9，图9为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图9所示，基于图3，步骤S207包括：

步骤S2071、当实体字段和标准字段为语句中的相同字段时，将实体字段的标签确定为该字段的标签。

在一些实施例中，有可能存在通过序列标注模型和规则模板将语句中的相同的字段标注为不同的标签，在这种情况下将序列标注模型对该字段进行标注得到的标签确定为该字段的标签。

例如，语句为“游戏名叫1955”，通过序列标注模型将字段“1955”的标签确定为“游戏名”，通过规则模板将字段“1955”的标签确定为“日期”，在这种情况下将字段“1955”的标签确定为“游戏名”。

步骤S2072、当实体字段和穷举字段为语句中的相同的字段时，将实体字段的标签确定为该字段的标签。

在一些实施例中，有可能存在通过序列标注模型和词典将语句中的相同的字段标注为不同的标签，在这种情况下将序列标注模型对该字段进行标注得到的标签确定为该字段的标签。

例如，语句为“记者的名字叫唐朝”，通过序列标注模型将字段“唐朝”的标签确定为“朝代名”，通过规则模板将字段“唐朝”的标签确定为“人名”，在这种情况下将字段“唐朝”的标签确定为“人名”。

请参阅图10，图10为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图10所示，基于图3，该语句特征的提取处理方法还包括：

步骤S208、通过未经训练的序列标注模型对具有训练标签的训练语句进行序列标注处理，得到训练语句中各字段的标签。

在一些实施例中，将具有训练标签的训练语句输入未经训练的序列标注模型，未经训练的序列标注模型输出各训练语句的字段的标签。

步骤S209、调整未经训练的序列标注模型的参数。

在一些实施例中，调整未经训练的序列标注模型的参数，直至序列标注模型输出的字段的标签与训练标签一致。

步骤S210、将调整后的参数保存为训练完成的序列标注模型。

请参阅图11，图11为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图11所示，基于图10，步骤S208包括：

步骤S2081、将训练语句分解为训练单字字段。

在一些实施例中，各训练单字字段均为带有训练标签的单字。

步骤S2082、通过未经训练的序列标注模型的词嵌入层，将训练单字字段转化为字向量。

在一些实施例中，通过词语-向量(word2vec)工具将训练单字转化为字向量。在另一些实施例中，通过预先训练好的模型将训练单字字段转化为字向量。在另一些实施例中，通过词语-向量工具将以当前训练单字字段为开始的词语转化为第一词向量，将以当前训练单字字段为结束的词语转化为第二词向量，将第一词向量和第二词向量求平均后与字向量拼接。

步骤S2083、通过未经训练的序列标注模型的编码层将字向量转化为特征向量。

在一些实施例中，通过卷积神经网络模型将字向量转化为特征向量。在另一些实施例中，通过长短时记忆机制模型将字向量转化为特征向量，能够解决语句中的长时间依赖问题，即，能够根据语句中与当前字段间隔较远的字段之间的语义关联，将当前字段的字向量转化为特征向量。在另一些实施例中，长短时记忆机制模型还包括注意力层，通过注意力机制在将字向量转化为特征向量的过程中根据字向量的重要性为字向量分配权重，提高将字向量转化为特征向量的效率。

步骤S2084、通过未经训练的序列标注模型的解码层对特征向量进行解码处理，得到训练语句中各训练单字字段的标签。

步骤S209包括：

步骤S2091、调整解码层的参数，直至解码层输出的各训练单字字段的标签与训练标签一致。

在一些实施例中，通过条件随机场模型计算出各训练单字字段选取标签空间中的标签的概率，并将具有最大概率的标签确定为该训练单字字段的标签。基于各训练单字字段选取标签空间中的标签的概率对条件随机场模型的参数进行调整，直至条件随机场模型的参数输出的各训练单字字段的标签与训练标签一致。

请参阅图12，图12为本发明实施例提供的一种语句特征的提取处理方法的流程，如图12所示，基于图3，该语句特征的提取处理方法还包括：

步骤S211、存储语句中的字段与该字段的标签的对应关系，得到字段与标签的对应关系库。

在一些实施例中，通过字段与标签的对应关系库以及字段之间的关系向量，可以构建知识图谱，为文本处理、语义理解、机器翻译、信息检索和机器人问答系统等多种自然语言处理技术提供知识源。

为了更加清楚地说明本发明实施例提供的语句特征的提取处理方法，以下对服务器对语言特征的提取处理的过程进行实例性说明：

请参阅图13，图13为本发明实施例提供的一种语句特征的提取处理方法的流程示意图，如图13所示，该方法的流程包括：

步骤S11、通过序列标注模型确定语句中的实体字段的标签。

请参阅图14，图14为本发明实施例提供的一种语句特征的提取处理方法中的通过序列标注模型确定语句中的实体字段的标签的流程示意图，如图14 所示，通过序列标注模型确定语句中的实体字段的标签的流程包括：

步骤S111、输入训练文本。

步骤S112、将训练文本进行分词或分字。

在一些实施例中，对文本进行分字处理，得到训练单字字段。训练文本为标记有训练标签的文本。

步骤S113、通过序列标注模型的词嵌入层将训练单字字段转化为字向量。

在一些实施例中，从“词语-向量(word2vec)”的映射表中取出对应的向量。在另一些实施例中，通过将随机值作为字向量的初始值，并通过训练完成的模型将训练单字字段转化为字向量。

在另一些实施例中，通过二元语言模型(bigram)，将以当前训练单字字段为开始的词转化为第一向量，将以当前训练单字字段为结束的词转化为第二向量，将第一向量和第二向量求平均后与字向量进行拼接，从而将语句转化为由字向量组成的矩阵。

步骤S114、通过序列标注模型的编码层将字向量转化为特征向量。

在一些实施例中，通过卷积神经网络模型、长短时记忆力机制或注意力机制学习语句中每个字之间的语义关联，并将字向量转化为特征向量。在一些实施例中，通过长短时记忆力机制和注意力机制相结合的方式，充分学习语句中每个字之间的语义关联，将各字向量转化为特征向量。

步骤S115、通过序列标注模型的解码层将特征向量映射到最可能的标签。

在一些实施例中，通过条件随机场模型或通过最大似然(softmax)函数将特征向量映射到最可能的标签。在一些实施例中通过随机条件场模型计算得到各训练单字字段选取标签空间中各标签的概率，并将最大概率对应的标签确定为训练单字字段的标签。通过调整随机条件场模型的参数对各训练单字字段的标签进行学习和校正，直至条件随机场模型输出的标签与训练单字字段的训练标签一致。

步骤S116、存储训练好的序列标注模型的参数。

步骤S117、输入待标记文本。

步骤S118、将待标记文本进行分词或分字，得到待标记字段。

在一些实施例中，对待标记文本进行分词或分字的方法与对于训练文本进行分词或分字的方法一致。在一些实施例中，对待标记文本进行分字处理。

以待标记文本为“小刘出生在中国香港”为例，分字处理后，得到的结果为“小/刘/出/生/在/中/国/香/港”。

步骤S119、读取训练好的序列标注模型，并通过训练好的序列标注模型对待标记字段进行标签预测，确定各待标记字段的标签。

步骤S1110、对标注结果进行后处理。

在一些实施例中，将连续的属于同一类别的标签进行组合，得到语句中实体字段的标签。

下面以采用的标签空间为{B,M,E,S,O}，分别代表字段的开始位置，中间位置，结束位置，单字字段，非实体字段，为例对步骤S119和步骤S1110 的具体过程进行示例性说明。

通过同一个标签空间同时识别人名，地名，机构名和作品名，具体的标签如表1所示，表1为命名实体识别序列标注模型的标签空间中的标签列表。

表1

将待标记字段序列“小/刘/出/生/在/中/国/香/港”输入训练好的序列标注模型后，序列标注模型输出的标签依次为：“B-PER/E-PER/O/O/O/B-LOC/E-LOC”。

在一些实施例中，通过序列标注模型识别上位词字段，其中，上位词字段为普通名词或者名词短语，没有明显的规则特征，也无法用词典进行穷举，如果一个实体A和一个词B具有上下位关系(通常表现为包含关系)，那么B就是 A的上位词。例如：小周是中国台湾艺人，“中国台湾艺人”即为“小周”的上位词。

通过上位词序列标注模型对上位词进行标注，上位词的标签空间包括：“O， B-HYPER,M-HYPER,E-HYPER,S-HYPER”，分别表示非上位词字段，上位词开始字段、上位词中间字段、上位词结束字段，单字上位词字段。

步骤S12、通过规则模板确定语句中的标准字段的标签。

在一些实施例中，通过正则表达式识别格式固定但不可穷举的非实体字段，这些字段例如可以为面积或电话号码。

请参阅图15，图15为本发明实施例提供的一种可选的规则模板示意图，以下结合图15对通过规则模板确定语句中的标准字段的标签的过程进行示例性说明。

如图15所示，规则模板包括面积标签21和面积标签对应的面积正则表达式22，高度标签23和高度标签对应的高度正则表达式24，金额标签25和金额标签对应的金额正则表达式26，以及，人数标签27和人数标签对应的人数正则表达式28。

当语句中有字段满足金额正则表达式26时，则将该字段确定为标准字段，并将金额确定为该标准字段的标签。

步骤S13、通过词典确定语句中穷举字段的标签。

在一些实施例中，通过词典确定可以穷举的字段，这些可穷举的字段例如可以为表示名族的字段、表示语言的字段或表示国家名的字段。

例如，在词典中收录世界上所有国家的国家名，并在词典中将所有国家名的标签均对应为国家名。

在一些实施例中，通过词典确定专有名词，而非确定具有多重含义的词，保证通过词典确定的字段的歧义较小，保证标签的准确度。

下面以“小娜，1967年11月27日出生于辽宁省沈阳市，满族人，是一名歌手”为待标记文本为例，对得到的标签进行示例性说明。

通过序列标注模型获取待标记文本中所有实体字段的标签，实体字段：“小娜”，对应的标签为：“人名”；实体字段：“辽宁省沈阳市”，对应的标签为：“地名”。

还通过序列标注模型获取待标记文本中的所有上位词字段的标签，上位词字段：“歌手”，对应的标签为“上位词”。

通过规则模板获取待标记文本中所有标准字段的标签，标准字段：“1967 年11月27日”，对应的标签为“日期”。

通过词典获取待标记文本中所有穷举字段的标签，穷举字段：“满族”，对应的标签为“满族”。

在一些实施例中，当通过序列标注模型、规则模板和词典同时对相同的字段进行标签标注时，优先选取序列标注模型输出的标签为该字段的标签。比如句子“记者名字叫做唐朝”，通过序列标注模型，识别“唐朝”为一个人名，而通过词典，识别“唐朝”为朝代名，这种情况下，应该优先选用序列标注模型识别出的标签，将“唐朝”的标签确定为“人名”，因为通过序列标注模型可以联系语句待标记字段的上下文的语义联系标注该字段的标签，因此得到的标签更加准确。

在一些实施例中，当引入新的标签的类别比较重要，或者对标签的准确率要求较高时，需要通过带有新的标签的文本对未经训练的序列标注模型进行训练，并通过训练后的序列标注模型对新的标签对应的字段进行标注。

下面继续说明本发明实施例提供的语句特征的提取处理装置实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的语句特征的提取处理装置255中的软件模块可以包括：实体字段标注模块2551、标准字段标注模块2552、穷举字段标注模块2553和汇总模块2554 。

实体字段标注模块2551，用于将语句分解为待标记字段；通过序列标注模型对语句中的实体字段进行标注，得到实体字段的标签。

标准字段标注模块2552，用于将语句与规则模板进行匹配，得到语句中的标准字段，其中，标准字段的格式与规则模板的格式相匹配；基于规则模板的类型确定标准字段的标签。

穷举字段标注模块2553，用于基于语句中的字段检索词典，得到语句中的穷举字段，其中，穷举字段为词典中存在的字段；基于词典获取穷举字段的标签。

汇总模块2554，用于基于实体字段的标签、标准字段的标签和穷举字段的标签确定语句中各字段的标签。

进一步的，实体字段标注模块2551，还用于将语句分解为单字字段；通过序列标注模型对单字字段进行标注，得到单字字段的标签；将语句中相邻且具有相同标签的单字字段组合为候选实体字段；将候选实体字段中具有实体类型的标签确定为实体字段，并获取各实体字段的标签。

进一步的，标准字段标注模块2552，还用于获取规则模板的正则表达式和类型；将语句中满足正则表达式的字段确定为标准字段；将规则模板确定为标准字段的标签。

进一步的，穷举字段标注模块2553，还用于基于语句中的字段检索词典，当检索到语句中的字段时，将该字段确定为穷举字段；获取穷举字段在词典中的类型，并该穷举字段在词典中的类型确定为该穷举字段的标签。

进一步的，汇总模块2554，还用于当实体字段和标准字段为语句中的相同的字段时，将实体字段的标签确定为该字段的标签；当实体字段和穷举字段为语句中的相同的字段时，将实体字段的标签确定为该字段的标签。

进一步的，实体字段标注模块2551，还用于通过未经训练的序列标注模型对具有训练标签的训练语句进行序列标注处理，得到训练语句中各字段的标签；调整未经训练的序列标注模型的参数；将调整后的参数保存为训练完成的序列标注模型。

进一步的，实体字段标注模块2551包括：

分词模块25111，用于将训练语句分解为训练单字字段；

词嵌入模块25112，用于将字向量转化为特征向量；

编码模块25113，用于将字向量转化为特征向量；

解码模块25114，用于对特征向量进行解码处理，得到训练语句中的各训练单字字段的标签；调整解码层的参数，直至解码层输出的各训练单字字段的标签与训练标签一致。

进一步的，汇总模块2554，还用于存储语句中的字段与该字段的标签的对应关系，得到字段与标签的对应关系库。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图3至图6以及图8至图14中任一附图示出的语句特征的提取处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例具有以下有益效果：

1)通过序列标注模型确定实体字段的标签，通过将语句与规则模板进行匹配，确定标准字段的标签，通过基于语句中的字段检索词典，确定穷举字段的标签，在保证实体字段的标签的准确度的前提下，降低了引入新的标签的难度，缩短了引入新的标签耗费的时长。

2)将候选实体字段中具有非实体类型标签的字段确定为候选穷举字段，并基于候选穷举字段检索词典，能够利用序列标注模型对前后文的语义关联进行分词，防止由于分词错误导致得到的穷举字段的标签错误，提高了穷举字段的标签的准确度。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种语句特征的提取处理方法，其特征在于，包括：

当所述实体字段和所述标准字段为所述语句中的相同的字段时，将所述实体字段的标签确定为所述字段的标签；

当所述实体字段和所述穷举字段为所述语句中的相同的字段时，将所述实体字段的标签确定为所述字段的标签。

2.根据权利要求1所述的方法，其特征在于，所述将语句分解为待标记字段，包括：

将所述语句分解为单字字段；

所述通过序列标注模型对所述语句中的实体字段进行标注，得到所述实体字段的标签，包括：

通过所述序列标注模型对所述单字字段进行标注，得到所述单字字段的标签；

将所述语句中相邻且具有相同标签的所述单字字段组合为候选实体字段；

将所述候选实体字段中具有实体类型的标签确定为实体字段，并获取各实体字段的标签。

3.根据权利要求1所述的方法，其特征在于，所述将所述语句与规则模板进行匹配，得到所述语句中的标准字段，包括：

获取所述规则模板的正则表达式和类型；

将所述语句中满足所述正则表达式的字段确定为标准字段；

所述基于所述规则模板的类型确定所述标准字段的标签，包括：

将所述规则模板的类型确定为所述标准字段的标签。

4.根据权利要求1所述的方法，其特征在于，所述基于所述语句中的字段检索词典，得到所述语句中的穷举字段，包括：

基于所述语句中的字段检索所述词典，当检索到所述字段时，将所述字段确定为所述穷举字段；

所述基于所述词典获取所述穷举字段的标签，包括：

获取所述穷举字段在所述词典中的类型，并将所述词典中的类型确定为所述穷举字段的标签。

5.根据权利要求4所述的方法，其特征在于，所述基于所述语句中的字段检索所述词典，包括：

将所述语句中相邻且具有相同标签的单字字段组合为候选实体字段；

将所述候选实体字段中具有非实体类型标签的字段确定为候选穷举字段；

基于所述候选穷举字段检索所述词典。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

通过未经训练的序列标注模型对具有训练标签的训练语句进行序列标注处理，得到所述训练语句中各字段的标签；

调整所述未经训练的序列标注模型的参数；

将调整后的参数保存为训练完成的所述序列标注模型。

7.根据权利要求6所述的方法，其特征在于，所述通过未经训练的序列标注模型对具有训练标签的训练语句进行序列标注处理，得到所述训练语句中各字段的标签，包括：

将所述训练语句分解为训练单字字段；

通过所述未经训练的序列标注模型的词嵌入层，将所述训练单字字段转化为字向量；

通过所述未经训练的序列标注模型的编码层将所述字向量转化为特征向量；

通过所述未经训练的序列标注模型的解码层对所述特征向量进行解码处理，得到所述训练语句中的各所述训练单字字段的标签；

所述调整所述未经训练的序列标注模型的参数，包括：

调整所述解码层的参数，直至所述解码层输出的各所述训练单字字段的标签与所述训练标签一致。

8.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

存储所述语句中的字段与所述字段的标签的对应关系，得到字段与标签的对应关系库。

9.一种语句特征的提取处理装置，其特征在于，包括：

穷举字段标注模块，用于基于所述语句中的字段检索词典，得到所述语句中的穷举字段，并基于所述词典获取所述穷举字段的标签，其中，所述穷举字段为所述词典中存在的字段

汇总模块，用于当所述实体字段和所述标准字段为所述语句中的相同的字段时，将所述实体字段的标签确定为所述字段的标签；当所述实体字段和所述穷举字段为所述语句中的相同的字段时，将所述实体字段的标签确定为所述字段的标签。

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的方法。

11.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至8任一项所述的方法。