CN109684631A

CN109684631A - 命名实体抽取方法、装置及介质

Info

Publication number: CN109684631A
Application number: CN201811516849.9A
Authority: CN
Inventors: 吴云鹤; 李德彦
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: Beijing Shenzhou Taiyue Software Co Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-04-26

Abstract

本发明实施例公开一种命名实体抽取方法、装置及计算机可读存储介质。该方法包括：利用命名实体识别模型从待抽取的文本中识别出第一命名实体；获取抽取规则，抽取规则包括定位表达式和抽取表达式，抽取规则与预设的命名实体的细分类型相对应；利用定位表达式在文本中确定有效抽取区域，有效抽取区域包含第一命名实体；从有效抽取区域中抽取出第二命名实体；其中，第二命名实体为与抽取表达式匹配的字符串，第二命名实体的细分类型为抽取规则对应的细分类型。采用上述技术方案中的方法，可以较准确地从文本中抽取出细分类型的命名实体，并且可以采用通用性较高的命名实体识别模型，降低了完成抽取任务所需的成本。

Description

命名实体抽取方法、装置及介质

技术领域

本发明涉及信息抽取与文本挖掘领域，具体涉及一种命名实体抽取方法。此外，本发明还涉及一种命名实体抽取装置及介质。

背景技术

命名实体(named entity)一般是指人名、机构名、地名，以及其他所有以名称为标识的实体，更广泛地说，命名实体还包括数字、日期、货币等。命名实体的类型可以根据问题来定义，例如，在一种现有的定义中，命名实体可以包括三个大类：实体类、时间类和数值类。其中，实体类包括了人名、地名、机构名；时间类包括日期、时刻等；数值类包括货币、度量衡、百分比等。命名实体在信息提取、问答系统、句法分析、机器翻译等多个应用领域，都占据着重要的地位。

从文本中抽取出命名实体，一般可以采用命名实体识别模型来实现。命名实体识别模型是已经被训练好的机器学习模型，利用其可以从文本中识别出前述的各种命名实体，以及其对应的类型。这样的识别模型通用性较强，可以识别出大部分命名实体，但是无法被应用到对命名实体分类粒度较细的任务中，即无法识别出命名实体的细分类型。例如，一个命名实体抽取任务的目标是抽取出文本中的三个细分类型的机构名称：招标机构名称、中标机构名称和候选机构名称。利用一般的命名实体识别模型，可以从文本中识别出多个属于机构名称这个粗分类型的命名实体，但是无法将其区分对应到前述的三个细分类型。

为此，有人利用“文本-机构名称-细分类型”这样形式的训练样本来训练机器学习模型，以期得到能够区分命名实体的细分类型的识别模型。但一般来说，同一个命名实体大类下往往包括多个相近的细分类型，属于这样的细分类型的几个命名实体，在文本中的担任的句子成分往往很相似，或者在文本中的上下文结构很相似。因此，利用上述训练样本训练得到的识别模型，在使用时容易混淆多个相近的命名实体的细分类型。例如，在文本中A的细分类型应当为招标机构名称，而采用上述识别模型，容易将A的细分类型错误地判断为中标机构名称或者候选机构名称。即，利用前述的识别模型来抽取细分类型的命名实体时，抽取的准确率较差，这是本领域技术人员亟待解决的问题。

发明内容

为解决上述技术问题，本申请提供一种命名实体抽取方法、装置及介质，以较为准确地抽取出细分类型的命名实体。

第一方面，提供一种命名实体抽取方法，包括：

利用命名实体识别模型从待抽取的文本中识别出第一命名实体；

获取抽取规则，所述抽取规则包括定位表达式和抽取表达式，所述抽取规则与预设的命名实体的细分类型相对应；

利用所述定位表达式在所述文本中确定有效抽取区域，所述有效抽取区域包含第一命名实体；

从所述有效抽取区域中抽取出第二命名实体；其中，所述第二命名实体为与所述抽取表达式匹配的字符串，所述第二命名实体的细分类型为所述抽取规则对应的细分类型。

结合第一方面，在第一方面第一种可能的实现方式中，所述定位表达式中包含预设的第一标识；

利用命名实体识别模型从待抽取的文本中识别出第一命名实体的步骤之后，还包括：

在所述文本中的第一命名实体之前和/或之后插入第一标识，其中，所述第一标识用于指示所述第一命名实体在所述文本中的位置。

结合第一方面及上述可能的实现方式，在第一方面第二种可能的实现方式中，所述定位表达式中还包含预设的第二标识；

在所述文本中的第一命名实体之前或之后插入第二标识，其中，所述第二标识用于指示所述命名实体识别模型所确定的第一命名实体的粗分类型。

结合第一方面及上述可能的实现方式，在第一方面第三种可能的实现方式中，所述定位表达式包括前缀表达式和后缀表达式；

利用所述定位表达式确定有效抽取区域的步骤，包括：

在所述文本中确定开始位置，所述开始位置为与所述前缀表达式匹配的字符串之后的第一个位置；

在所述文本中确定结束位置，所述结束位置为与所述后缀表达式匹配的字符串之前的第一个位置；

将所述开始位置至所述结束位置的区域确定为有效抽取区域。

结合第一方面及上述可能的实现方式，在第一方面第四种可能的实现方式中，在利用命名实体识别模型从待抽取的文本中识别出第一命名实体的步骤之前，还包括：

获取原始文本；

如果所述原始文本中包含第一标识，则将所有的所述第一标识替换为预设的第三标识，得到待抽取文本，其中，所述第三标识与所述第一标识不相同。

结合第一方面及上述可能的实现方式，在第一方面第四种可能的实现方式中，所述命名实体识别模型为预先训练好的双向长短时记忆网络-条件随机场模型。

第二方面，提供一种命名实体抽取装置，包括：

获取模块，用于获取抽取规则；其中，所述抽取规则包括定位表达式和抽取表达式，所述抽取规则与预设的命名实体的细分类型相对应；

处理模块，用于利用命名实体识别模型从待抽取的文本中识别出第一命名实体；利用所述定位表达式在所述文本中确定有效抽取区域；以及，从所述有效抽取区域中抽取出第二命名实体；其中，所述有效抽取区域包含第一命名实体，所述第二命名实体为与所述抽取表达式匹配的字符串，所述第二命名实体的细分类型为所述抽取规则对应的细分类型。

结合第二方面，在第二方面第一种可能的实现方式中，所述定位表达式中包含预设的第一标识；

所述处理模块还用于在所述文本中的第一命名实体之前和/或之后插入第一标识；其中，所述第一标识用于指示所述第一命名实体在所述文本中的位置。

结合第二方面及上述可能的实现方式，在第二方面第二种可能的实现方式中，所述定位表达式中还包含预设的第二标识；

所述处理模块还用于在所述文本中的第一命名实体之前或之后插入第二标识；其中，所述第二标识用于指示所述命名实体识别模型所确定的第一命名实体的粗分类型。

第三方面，提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得所述计算机执行第一方面的任一种命名实体抽取方法。

上述的命名实体抽取方法，首先利用命名实体识别模型识别出文本中的第一命名实体，然后利用抽取规则中的定位表达式在文本中确定包含第一命名实体的有效抽取区域，最后利用抽取规则中的抽取表达式从有效抽取区域中抽取出第二命名实体，同时，将该抽取规则对应的细分类型赋予给抽取出的第二命名实体。通过这样的方法，就可以准确地将文本中的属于某一个细分类型的命名实体抽取出来。也就是说，将这样的方法应用于需要抽取细分类型的命名实体的业务场景时，抽取出的命名实体的准确率较高。

同时，采用上述的抽取方法，无需针对不同的业务场景来训练不同的命名实体识别模型，可以采用通用性较高的命名实体识别模型，从而降低了完成抽取任务所需的成本。

此外，与采用纯规则来抽取细分类型的命名实体的方法相比，上述的方法兼顾了抽取的召回率和准确率，并且总体成本更低。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请命名实体抽取方法的第一个实施例的具体实现方式之一的流程图；

图2为本申请命名实体抽取方法的第一个实施例中，S300步骤的其中一种实现方式的流程图；

图3为本申请命名实体抽取方法的第一个实施例的具体实现方式之二的流程图；

图4为本申请的命名实体抽取装置的具体实施方式之一的结构示意图。

具体实施方式

利用识别模型来抽取细分类型的命名实体，除了准确率较差之外，还存在识别模型训练成本高、复用率低的问题。具体来说，训练识别模型需要大量的训练样本，而“文本-机构名称-细分类型”这样形式的训练样本，需要根据抽取任务、文本领域的不同来有针对性地人工标注语料，构建训练样本，这导致模型训练的成本过高。同时，由于每一个识别模型都是根据抽取任务、文本领域的不同，采用有针对性的训练样本所训练得到的，因此这样的识别模型无法用于其他抽取任务，也无法用于处理不同领域的文本，这导致识别模型的复用率较低。

为此，本申请提供一种新的命名实体抽取方法，结合命名实体识别模型和抽取规则，以此来提高抽取细分类型的命名实体的准确率。此外，就某一个单一的抽取任务而言，由于避免了使用前述的有针对性训练得到的识别模型，从而减少了完成该抽取任务所需的成本。

图1为命名实体抽取方法的具体实现方式之一的流程图。请参见图1，该命名实体抽取方法包括以下S100至S400的步骤。

S100：利用命名实体识别模型从待抽取的文本中识别出第一命名实体。

这里的待抽取的文本可以是格式不规范的文本，也可以是格式规范的文本，本申请对此不做限定。例如，待抽取的文本可以是网页上爬取的文本，或者是利用光学字符识别(Optical Character Recognition，OCR)技术从图片、PDF等格式的文件上识别出的文本。这样的文本字符之间可能没有像标点符号、空格、换行符等分隔标识，也可能存在多个分隔标识，属于格式不规范的文本。

举例来说，待抽取的文本1就是一篇格式不规范的文本，该文本是从网页上爬取得到的文本，与常见的格式规范的文本相比缺少了部分标点符号。其具体内容如下：

采购项目名称办公设备采购项目编号510000000000001采购方式询价采购行政区域省本级公告类型询价采购公告公告发布时间2017-01-01 18:00采购人四川省绵阳监狱。采购代理机构名称绵阳市本级采购中心项目包个数1各包描述附件

命名实体识别模型可以是现有的训练好的端到端(end to end)深度学习模型。例如条件随机场(conditional random field，CRF)模型、卷积神经网络(ConvolutionalNeural Networks,CNNs)模型、双向长短时记忆网络(Bi Long Short-Term Memory，Bi-LSTM)模型等。此外，端到端深度学习模型还可以是多个深度学习模型结合而得到的复合的模型，例如双向长短时记忆网-络-卷积神经网络-条件随机场(Bi-LSTM+CNNs+CRF)模型，就是结合了三种深度学习模型得到的复合的模型。

利用“文本-命名实体名称-命名实体粗分类型”这样形式的训练样本，训练这些端到端深度学习模型，从而得到前述的命名实体识别模型。具体的训练方法可以采用现有的方法，此处不再赘述。

这样的命名实体模型通用性较高，可以较为准确地识别出粗分类型的命名实体，复用率高，有利于降低完成抽取任务的成本。

例如，利用命名实体识别模型，可以从前述文本1中识别出2个第一命名实体，分别为：

第一命名实体1：四川省绵阳监狱；

第一命名实体2：绵阳市本级采购中心。

需要说明的是，从一个待抽取的文本中可能会抽取出多个第一命名实体，对于每一个第一命名实体，都可以执行后续的S300和S400的步骤。当该第一命名实体在文本中能够与某一个抽取规则的定位表达式和抽取表达式匹配时，就可以从包含该第一命名实体的有效抽取区域中抽取出细分类型的第二命名实体。而当该第一命名实体在文本中不能够与任何一个抽取规则匹配时，则不抽取任何字符串。

识别模型的准确率＝正确识别出的命名实体数量/识别出的命名实体总量；召回率＝正确识别出的命名实体数量/文本中实际存在的命名实体总量。在现有的命名实体识别模型中，有的模型的召回率较高、准确率较低，有的则准确率较高、召回率较低。对于容易将文本中不是命名实体的字符串识别为命名实体的模型来说，由于其正确识别出的命名实体数量，以及识别出的命名实体总量都上升，总体而言，一般其召回率较高、准确率较低。相反地，对于不容易将文本中不是命名实体的字符串识别为命名实体的模型来说，由于其正确识别出的命名实体数量，以及识别出的命名实体总量都下降，总体而言，一般其准确率较高、召回率较低。

基于此，将前述的召回率较高、准确率较低的模型用于本申请的命名实体抽取方法中，与后续的抽取规则的步骤结合，可以从整体上提高了本申请命名实体抽取方法的召回率和准确率。可选地，命名实体识别模型可以采用训练好的双向长短时记忆网络-条件随机场(Bi-LSTM+CRF)模型。

举例来说，待抽取的文本2内容如下：

一、采购人名称:广州市公安局CH区分局。二、采购项目名称:CH分局交通事故车辆技术检验鉴定服务采购项目。三、采购代理机构名称：广东资交所。

利用一般的命名实体识别模型，可以从中识别出1个第一命名实体：广州市公安局CH区分局。

而利用前述的训练好的Bi-LSTM+CRF模型，可以从中识别出3个第一命名实体，分别为：广州市公安局CH区分局、CH分局、广东资交所。尽管“CH分局”、“广东资交所”是简称，并且“广东资交所”中间还存在一个空格符，但利用该Bi-LSTM+CRF模型，仍然会将这两个字符串识别为第一命名实体。

采用该Bi-LSTM+CRF模型，可以尽可能多地从文本中识别出第一命名实体，即识别出的第一命名实体总量较大。这其中可能包含了一部分识别错误的第一命名实体，即不是命名实体的字符串。然后再利用本申请的抽取规则中的定位表达式来确定有效抽取区域，最后从有效抽取区域中抽取出第二命名实体。通过上述方法可以准确地抽取出细分类型的命名实体，同时抽取的召回率也较高。

S200：获取抽取规则，所述抽取规则包括定位表达式和抽取表达式，所述抽取规则与预设的命名实体的细分类型相对应。

这里的抽取规则可以由专业的建模人员根据抽取任务来预先构建。建模人员可以根据抽取任务的目标，构建抽取模型，该抽取模型中可以存储有多条抽取规则。本步骤中的抽取规则，就可以从该抽取模型中获取得到。

在抽取模型的一种实现方式中，其可以是树状结构存储的模型，故而也可以称之为抽取树。抽取树包括至少一个父节点，每个父节点下可以包括至少一个子节点。将命名实体的每一个粗分类型，对应存储为抽取树中的一个父节点的名称。将隶属于某一个粗分类型的细分类型，对应存储为该父节点下的子节点的名称。

例如，表1为一个应用于招投标领域的文本、为抽取细分类型的命名实体而构建的抽取树的局部示例。其中，三个父节点的名称分别为三个命名实体的粗分类型，即：机构名、货币、日期；父节点机构名下包括三个子节点，其名称分别为三个机构名的细分类型，即：招标公司、中标公司、招标代理公司；父节点货币下包括一个子节点，其名称为货币的其中一个细分类型，即：中标金额；父节点日期下包括两个子节点，其名称为日期的两个细分类型，即：截标时间、公告时间。

表1

需要说明的是，在面对不同的抽取任务、不同领域的文本时，有时对于命名实体类型的划分，需要划分出三个甚至更多的层级。例如，一个命名实体的粗分类型包括一个或多个二级类型，每一个二级类型下又包括一个或多个三级类型，每一个三级类型下又包括一个或多个四级类型。本申请中的细分类型，可以指前述的二级类型，也可以指二级之下的三级类型、四级类型等，本申请对此不做限定。

在名称为细分类型的子节点上，对应存储有至少一个预设的抽取规则，该抽取规则表征了用户期望在文本中抽取的属于该细分类型的命名实体。每一个抽取规则可以包括定位表达式和抽取表达式，定位表达式用于在文本中确定有效抽取区域，抽取表达式则用于在定位表达式确定的有效抽取区域中抽取匹配的字符串。定位表达式和抽取表达式可以用“@”分隔，例如，一个抽取规则的形式可以为“定位表达式@抽取表达式”。

在定位表达式的一种实现方式中，其是表述根据第一命名实体在文本中的位置而设定的一个规则。例如，可以根据第一命名实体在文本中的位置向上下文扩展，得到一个区域，如果区域中包含了预设的字符串，就可以将该区域确定为有效抽取区域。

举例来说，前述的待抽取的文本1，从其中识别出的一个第一命名实体1为“四川省绵阳监狱”，预设字符串为“采购人”。将该第一命名实体1向前扩展9个字符，向后扩展0个字符，得到的区域为“18:00采购人四川省绵阳监狱”。由于其包含了预设的字符串“采购人”，故而可以将该区域确定为有效抽取区域。

在定位表达式的另一种实现方式中，其可以包括前缀表达式和后缀表达式，前缀表达式用于确定有效抽取区域的开始位置，后缀表达式用于确定有效抽取区域的结束位置。此时，一个抽取规则的形式可以为“前缀表达式@抽取表达式@后缀表达式”。这里，前缀表达式、后缀表达式都可以是正则表达式，如前述表1中所示。

举例来说，表1中的细分类型“招标公司”所对应的抽取规则为“采购人@[\S]*@。|.”，其中，“采购人”为前缀表达式，表示在文本中匹配“采购人”这一字符串；“。|.”为后缀表达式，表示在文本中匹配“。”或者“.”这一字符串；“[\S]*”为抽取表达式，表示匹配任何可见字符任意次。

需要说明的是，前缀表达式和后缀表达式都可以省略，即为空。当前缀表达式为空时，则默认为以整篇文本的第一个字符为有效抽取区域的起始位置；当后缀表达式为空时，则默认为以整篇文本的最后一个字符为有效抽取区域的结束位置。前缀表达式和后缀表达式为空的情况可以视为抽取表达式的一种特殊情况，即该抽取规则仅包含抽取表达式。

为便于理解这些抽取规则的含义，以下对表1和后续将出现的抽取规则中的符号含义作简要说明。

“|”表示逻辑或。“()”表示多元取整。“[\S]*”表示匹配任何可见字符任意次。

{x1,x2}表示前后的间隔字符数为x1至x2个。例如，“代理机构{0,5}【”表示在匹配文本时，只要“代理机构”和“【”之间包含0～5个字符的文本，都会被“代理机构{0,5}【”匹配上。

“[]”表示匹配指定范围内的任意字符。

“[]+”表示匹配方括号内的字符串至少一次。例如，“[一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾万亿百佰仟元]+”表示在匹配文本时，只要出现[]内的任意一个字符，出现多少次就匹配多少次。即，例如文本中的“一元”、“二百元”、“叁佰肆拾万伍仟”等，都可以被匹配上。

“[^】]*”表示匹配若干个不是‘】’的字符。

“\s*”表示匹配0个或多个空格，尽可能多地匹配。

“[]{x3,x4}”表示匹配方括号内的字符串，其长度为x3至x4个字符。

“\d”表示匹配数字字符。“\d{x5,x6}”匹配x5至x6个数字字符。

“c_”表示引用辅助树中的某一个定位表达式。例如，“c_中标金额开始：”即表示引用后续辅助树中的“中标金额”节点下的“中标金额开始”这一前缀表达式。

S300：利用所述定位表达式在所述文本中确定有效抽取区域，所述有效抽取区域包含第一命名实体。

如前所述，定位表达式主要用于在文本中确定一个与第一命名实体对应的、包含第一命名实体的有效抽取区域，以便于利用抽取表达式从中准确地抽取出第二命名实体。同时，定位表达式还起到确定即将抽取出的第二命名实体的细分类型的作用，即通过第一命名实体在文本中的上下文，来验证其是否属于该定位表达式所对应的细分类型。

定位表达式可以有多种不同的实现形式，具体可以参考前述S200中的相关描述和举例，此处不再赘述。图2为S300的步骤的一种实现方式的流程图。请参见图2，可选地，当定位表达式包括前缀表达式和后缀表达式时，S300的步骤可以包括：

S301：在所述文本中确定开始位置，所述开始位置为与所述前缀表达式匹配的字符串之后的第一个位置；

S302：在所述文本中确定结束位置，所述结束位置为与所述后缀表达式匹配的字符串之前的第一个位置；

S303：将所述开始位置至所述结束位置的区域确定为有效抽取区域。

一般来说，一个字符串包括了若干个字符，以及字符之间的位置。例如，对于字符串“一二三”而言，“一”、“二”、“三”均为字符，而“一”之前、“一”和“二”之间、“二”和“三”之间、“三”之后都分别是一个位置，故而对于这个包含了3个字符的字符串来说，其实际上可以被划分为3个字符和4个位置。本申请中的开始位置、结束位置，可以是指字符之间的位置。

以前述文本1和表1所示的“招标公司”所对应的抽取规则为例，与前缀表达式匹配的为文本1中的“采购人”，开始位置为字符“人”和其后一个字符“四”之间的位置。与后缀表达式匹配的为文本1中的“。”，结束位置为字符“。”和其前一个字符“狱”之间的位置。

待抽取的文本1：

↑[结束位置]

因此，可以确定有效抽取区域为“四川省绵阳监狱”。

应理解，基于上述的确定有效抽取区域的思想，采用其他类似的方法也应当属于本申请的保护范围之内。例如，可以利用前缀表达式来确定出有效抽取区域的第一个字符，利用后缀表达式来确定出有效抽取区域的最后一个字符，然后将这第一个字符至最后一个字符的区域确定为有效抽取区域。

S400：从所述有效抽取区域中抽取出第二命名实体；其中，所述第二命名实体为与所述抽取表达式匹配的字符串，所述第二命名实体的细分类型为所述抽取规则对应的细分类型。

由于有效抽取区域包含了第一命名实体，因此，利用抽取表达式从有效抽取区域中抽取出的第二命名实体可能与第一命名实体相同。当然，根据定位表达式和抽取表达式的不同，最后抽取出的第一命名实体也可能与第二命名实体不同。

仍然以文本1和表1所示的“招标公司”所对应的抽取规则为例，有效抽取区域为“四川省绵阳监狱”，由于该抽取规则中的抽取表达式为“[\S]*”，即匹配任何可见字符任意次，故而可以将有效抽取区域中的全部字符串匹配出来，即第二命名实体为“四川省绵阳监狱”，与第一命名实体相同。“四川省绵阳监狱”的细分类型是“招标公司”。

针对第一命名实体2，也执行前述的S300和S400的步骤，可以从文本1中抽取出另一个第二命名实体“绵阳市本级采购中心”，其细分类型是“招标代理机构”。

在输出的时候，可以按照“细分类型：第二命名实体”的形式来输出。这样，对文本1进行命名实体抽取，输出的结果如下：

招标公司：四川省绵阳监狱

招标代理机构：绵阳市本级采购中心。

需要说明的是，在获取抽取规则时，可以获取整个抽取树中的所有抽取规则。然后遍历所有的抽取规则，一旦利用某一个抽取规则在文本中匹配出第二命名实体，就可以将该第二命名实体存储到该抽取规则所对应的节点下。当抽取树中所有的抽取规则都遍历完之后，再将所有抽取出的第二命名实体及其所属的细分类型一起输出。

除了使用针对性训练得到的识别模型以外，一般还可以采用纯规则的方法来抽取细分类型的命名实体。与一般的采用纯规则的方法相比，采用上述方法可以提高抽取的召回率，降低抽取成本。具体来说，纯规则的方法需要尽可能穷举出所有的情况并编写到抽取规则中去，耗费大量人力和物力。并且，由于难以穷举出所有的情况，已穷举出的抽取规则无法匹配到部分命名实体，故而导致抽取的召回率较低。尤其是在应用于格式不规范的文本的情况下，由于纯规则的方法对于未知情况几乎没有预知能力，即其泛化能力较弱，导致其召回率更低。而采用本申请的方法，首先利用通用性较高的命名实体识别模型尽可能多地识别出第一命名实体，然后通过抽取规则，根据第一命名实体来抽取第二命名实体，并确定第二命名实体的细分类型。这就兼顾了抽取的召回率和准确率，同时训练识别模型和构建抽取规则的成本都更加低。

从前述“招标公司”所对应的抽取规则可见，将“采购人”作为前缀表达式，“。”作为后缀表达式时，有效确定区域中可能会包含除第一命名实体之外的其他字符。例如，利用“招标公司”所对应的抽取规则的定位表达式，可以从文本2中确定一个有效抽取区域“名称:广州市公安局从化区分局”，如果也按照抽取表达式“[\S]*”来抽取，则与该抽取表达式匹配的字符，即第二命名实体为“名称:广州市公安局从化区分局”，该第二命名实体的细分类型是“招标公司”。显然，此时抽取出的第二命名实体会存在多余字符，即尽管抽取出的第二命名实体的细分类型是准确的，但其具体名称会存在错误。

而且，在面临不同的文本时，第一命名实体之前和之后的字符可能存在多种情况。例如对于文本1中识别出的第一命名实体“四川省绵阳监狱”，其之后可能是“采购代理机构名称绵阳市本级采购中心”，也可能是“项目包个数1”等。也即是说，文本中第一命名实体之后的字符串千变万化，难以总结出一定的规律，故而要通过穷举的方法将所有的情况都预设在定位表达式中，所耗费的成本过大。而一旦无法穷举所有的情况，就可能会造成遗漏的情况，降低第二命名实体抽取的召回率。

为此，在利用命名实体识别模型识别出第一命名实体之后，可以通过在文本中插入第一标识，来指示该第一命名实体在文本中的位置。相应地，可以在定位表达式中添加第一标识，从而可以准确地从文本中确定出有效抽取区，进而抽取出准确的第二命名实体。同时，使建模人员构建抽取规则更加方便，减少了构建所需的时间，减少了抽取遗漏的情况。

图3为名实体抽取方法的具体实现方式之二的流程图。请参见图3，在一种实现方式中，在S100的步骤之后，可以执行以下S500的步骤：

S500：在所述文本中的第一命名实体之前和/或之后插入第一标识。

这里的第一标识可以是预设的用于指示第一命名实体在文本中的位置的标识。例如可以是“【”、“】”、“&”“&～”等符号或者符号的组合，本申请对于第一标识的具体形式不做限定。

这里的之前或者之后，指的是第一命名实体的第一个字符之前的预设位置，或者第一命名实体的最后一个字符之后的预设位置。一般来说，可以在第一命名实体的第一个字符之前的第一个位置，或者第一命名实体的最后一个字符之后的第一个位置，插入第一标识。

一般地，可以在第一命名实体之前和之后都插入第一标识，以便利用包含第一标识的定位表达式来准确地确定出有效抽取区域。为了便于区分第一命名实体在文本中的开始位置和结束位置，还可以用两个不同形式的第一标识来分别指示这两个位置。例如，可以用“【”来指示开始位置，用“】”来指示结束位置。

举例来说，对于前述的文本2，从中识别出2个第一命名实体，都插入第一标识之后，其具体内容如下：

一、采购人名称:【广州市公安局CH区分局】。二、采购项目名称:【CH分局】交通事故车辆技术检验鉴定服务采购项目。三、采购代理机构名称：【广东资交所】。

相应地，可以将表1中“招标公司”所对应的抽取规则修改为“采购人{0,6}【@[^】]*@】”。此时，前缀表达式为“采购人{0,6}【”，后缀表达式为“】”。将该定位表达式与文本2匹配，可以确定出一个有效抽取区域“广州市公安局CH区分局”。然后，利用抽取表达式从中抽取出第二命名实体“广州市公安局CH区分局”，该第二命名实体的细分类型是“招标公司”。

需要说明的是，为了避免抽取遗漏，尤其是对于某些格式不规范的文本，故而在前缀表达式和后缀表达式中，预设的字符串和第一标识之间可以通过距离表达式“{X1,X2}”来限定二者之间的间隔距离，以便减少抽取遗漏的情况，提高抽取的召回率。该方法同样也可以用在后续的第二标识的实现方式中，后续将不再赘述。

类似地，利用“招标代理机构”所对应的抽取规则“代理机构{0,5}【@[^】]*@】”，可以从文本2中抽取出另一个第二命名实体“广东资交所”，该第二命名实体的细分类型是“招标代理机构”。

可见，通过插入第一标识，将第一命名实体的位置在文本中标记出来，以及在定位表达式中使用第一标识，可以提高细分类型下命名实体抽取的准确率和召回率。

需要说明的是，如果仅在第一命名实体的之前插入第一标识，则可以在定位表达式中写入确定有效抽取区域的结束位置的规则，以便能够使有效抽取区域包含第一命名实体，又不包含其他多余的字符，从而有利于准确地抽取出第二命名实体，减少遗漏的情况。例如，可以获取第一命名实体的长度，然后根据第一标识在文本中的位置，以此加上第一命名实体的长度，从而确定出有效抽取区域的结束位置。类似地，如果仅在第一命名实体的之后插入第一标识，相应地可以在定位表达式中写入确定有效抽取区域的开始位置的规则。

在某些文本中，某一个抽取规则与文本匹配，可以从中抽取出一个第二命名实体，但是该抽取规则所对应的细分类型所隶属的粗分类型，与命名实体识别模型所识别出的第一命名实体的粗分类型不同。如果出现这样的问题，会降低抽取的准确率。

举例来说，待抽取的文本3是一个格式不规范的文本，具体内容如下：

采购人的名称、地址和联系方式采购人名称///:广州市政法委员会采购人地址///:法政路x号采购人联系方式/t/t/:陈某,(020)00000000。

利用命名实体识别模型，可以从中识别出3个第一命名实体，分别为：

第一命名实体3：广州市政法委员会；

第一命名实体4：法政路x号；

第一命名实体5：陈某。

针对每一个抽取出的第一命名实体，在其之前插入第一标识“【”，在其之后插入另一个第一标识“】”，则文本3变为：

采购人的名称、地址和联系方式采购人名称///:【广州市政法委员会】采购人地址///:【法政路x号】采购人联系方式/t/t/:【陈某】,(020)00000000。

然后利用“招标公司”所对应的抽取规则“采购人{0,6}【@[^】]*@】”，可以从中抽取出两个第二命名实体：广州市政法委员会、法政路x号。这两个第二命名实体的细分类型均为“招标公司”。显然，“法政路x号”并不是一个招标公司的名称，而是一个地址。即细分类型“招标公司”下的其中一个命名实体抽取错误，这就降低了细分类型的命名实体的抽取准确率。

为此，在利用命名实体识别模型识别出第一命名实体之后，可以通过在文本中插入第二标识，来指示命名实体识别模型所确定的第一命名实体的粗分类型。相应地，建模人员在构建抽取规则时，也可以在定位表达式中添加第二标识，该第二标识应当与该定位表达式对应的细分类型所隶属的粗分类型一致。这样，在利用定位表达式与文本进行匹配时，如果第一命名实体的粗分类型与定位表达式中指示的用户期望抽取出的命名实体的粗分类型不一致时，二者就无法匹配上，以避免前述的抽取错误的情况。

请参见图3，在S100的步骤之后，可以执行以下S600的步骤：

S600：在所述文本中的第一命名实体之前或之后插入第二标识。

这里的第二标识是用于指示命名实体识别模型所确定的第一命名实体的粗分类型的标识。本申请对于第二标识的具体形式不做限定。例如，下表2给出了指示部分粗分类型的第二标识的一种示例。

表2

粗分类型	第二标识
		机构名	ORG
人名	PER
		地名	LOC
货币	CUR
		日期	TIM
……	……

第二标识可以插入到第一命名实体之前，也可以在其之后。与前述的之前和之后类似，这里的之前或者之后，也是指第一命名实体的第一个字符之前的预设位置，或者第一命名实体的最后一个字符之后的预设位置。

此外，第二标识也可以与前述的第一标识同时插入到文本中，本申请对第一标识和第二标识之间的位置关系不作限定。

举例来说，对于前述的文本3，从中识别出3个第一命名实体，插入第一标识和第二标识之后，其具体内容如下：

采购人的名称、地址和联系方式采购人名称///:【广州市政法委员会】ORG采购人地址///:【法政路x号】LOC采购人联系方式///:【陈某】PER,(020)00000000。

相应地，将“招标公司”所对应的抽取规则修改为“采购人{0,6}【@[^】]*@】ORG”。此时，前缀表达式为“采购人{0,6}【”，后缀表达式为“】ORG”。将该定位表达式与文本3匹配，可以确定出一个有效抽取区域“广州市政法委员会”。然后，利用抽取表达式从中抽取出第二命名实体“广州市政法委员会”，该第二命名实体的细分类型是“招标公司”。

可见，通过插入第二标识，将第一命名实体的粗分类型在文本中标记出来，以及在定位表达式中使用第二标识，可以提高细分类型下命名实体抽取的准确率。

此外，有的原始文本中原本就包含了第一标识，这些第一标识会影响其指示第一命名实体的位置的作用，进而影响抽取结果的准确性。故而，对于这样的原始文本，可以对其进行预处理，将第一表示先替换为与第一标识不相同的第三标识，从而得到前述的待抽取的文本。

例如，预设的第一标识为“【”和“】”，文本4具体内容如下：

【一】采购人名称:///广州市水务安全监督站采购人地址:///广州市白云区心谊路xx号采购人联系方式///:方某某,(020)00000000【二】采购代理机构名称:广州公共资源交易中心。

则可以将文本4中的“【”统一替换为“[”，将“】”统一替换为“]”，得到如下的待抽取的文本，再执行前述的S100的步骤。

[一]采购人名称:///广州市水务安全监督站采购人地址:///广州市白云区心谊路xx号采购人联系方式///:方某某,(020)00000000[二]采购代理机构名称:广州公共资源交易中心。

为了便于使用和维护，在构建前述的抽取树时，建模人员还可以构建辅助模型，用来单独管理定位表达式。辅助模型也可以是树状结构存储的模型，故而也可以称之为辅助树。辅助树可以包括至少一个节点，每个节点可以对应存储一个细分类型作为该节点的名称。每一个节点对应至少一个定位表达式，在抽取该细分类型的命名实体时，可以利用该定位表达式来确定对应的有效抽取区域。例如，表3为一个应用于招投标领域的文本、为抽取细分类型的命名实体而构建的、与表1所示的抽取树可以配合使用的辅助树的局部示例。其中，两个节点的名称分别为两个命名实体的细分类型，即：招标公司、中标公司。每一个节点下还可以包括两个子节点，分别用于存储前缀表达式和后缀表达式。

表3

此时，抽取树中的抽取规则可以通过引用辅助树中的定位表达式来表述，而不需要直接在抽取规则中列出具体的定位表达式。

举例来说，对抽取规则“采购人{0,6}【|采\s*购\s*人\s*名\s*称.{0,5}【@[^】]*@】ORG”而言，当使用辅助树时，抽取树中细分类型“招标公司”所对应抽取规则可以表示为“c_招标公司开始@[^】]*@c_招标公司结束”。

可见，通过构建辅助树，可以将定位表达式与抽取规则分开管理，从而使抽取规则、定位表达式和抽取表达式之间的逻辑层次更加清晰，便于使用和维护。尤其在定位表达式比较复杂的情况下，采用这种方法的优势更加明显。

在本申请的第二个实施例中，提供了一种与前述命名实体抽取方法对应的命名实体抽取装置。请参考图4，该命名实体抽取装置，包括：

获取模块1，用于获取抽取规则；其中，所述抽取规则包括定位表达式和抽取表达式，所述抽取规则与预设的命名实体的细分类型相对应；

处理模块2，用于利用命名实体识别模型从待抽取的文本中识别出第一命名实体；利用所述定位表达式在所述文本中确定有效抽取区域；以及，从所述有效抽取区域中抽取出第二命名实体；其中，所述有效抽取区域包含第一命名实体，所述第二命名实体为与所述抽取表达式匹配的字符串，所述第二命名实体的细分类型为所述抽取规则对应的细分类型。

可选地，所述定位表达式中包含预设的第一标识；

处理模块2还用于在所述文本中的第一命名实体之前和/或之后插入第一标识；其中，所述第一标识用于指示所述第一命名实体在所述文本中的位置。

可选地，所述定位表达式中还包含预设的第二标识；

处理模块2还用于在所述文本中的第一命名实体之前或之后插入第二标识；其中，所述第二标识用于指示所述命名实体识别模型所确定的第一命名实体的粗分类型。

可选地，所述定位表达式包括前缀表达式和后缀表达式；

处理模块2还用于在所述文本中确定开始位置；在所述文本中确定结束位置；以及，将所述开始位置至所述结束位置的区域确定为有效抽取区域。其中，所述开始位置为与所述前缀表达式匹配的字符串之后的第一个位置；所述结束位置为与所述后缀表达式匹配的字符串之前的第一个位置。

可选地，获取模块1还用于获取原始文本；

处理模块2还用于在所述原始文本中包含第一标识的情况下，将所有的所述第一标识替换为预设的第三标识，得到待抽取文本。其中，所述第三标识与所述第一标识不相同。

可选地，所述命名实体识别模型为预先训练好的双向长短时记忆网络-条件随机场模型。

此外，本实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得所述计算机执行第一个实施例中的任一种命名实体抽取方法的部分或全部步骤。

这里的可读存储介质可为磁碟、光盘、DVD、USB、只读存储记忆体(ROM)或随机存储记忆体(RAM)等，本申请对具体的存储介质形式不作限定。

命名实体抽取装置以及计算机可读存储介质用于执行第一个实施例中的任一种方法的部分或全部步骤，相应地具有前述方法所具有的有益效果，此处不再赘述。

应理解，在本申请的各种实施例中，各步骤的执行顺序应以其功能和内在逻辑确定，各步骤序号的大小并不意味着执行顺序的先后，不对实施例的实施过程构成限定。例如，S100的步骤可以在S200的步骤之前执行，也可以在S200的步骤之后执行，还可以与S200的步骤同时执行。还例如，S500和S600的步骤，可以在S200的步骤之前执行，也可以在S200的步骤之后执行，还可以与S200的步骤同时执行，但从该方法的内在逻辑上可以确定其必须在S100的步骤之后执行。

除非另外说明，本说明书中的“多个”和“若干个”，指的是两个或者两个以上。此外，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解，“第一”、“第二”等字样并不对数量和执行次序构成限定，并且“第一”、“第二”等字样也并不限定一定不同。

应理解，本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于命名实体抽取装置、计算机可读存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种命名实体抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述定位表达式中包含预设的第一标识；

3.根据权利要求1或2所述的方法，其特征在于，所述定位表达式中包含预设的第二标识；

4.根据权利要求1所述的方法，其特征在于，所述定位表达式包括前缀表达式和后缀表达式；

利用所述定位表达式确定有效抽取区域的步骤，包括：

5.根据权利要求2所述的方法，其特征在于，在利用命名实体识别模型从待抽取的文本中识别出第一命名实体的步骤之前，还包括：

获取原始文本；

6.根据权利要求1所述的方法，其特征在于，所述命名实体识别模型为预先训练好的双向长短时记忆网络-条件随机场模型。

7.一种命名实体抽取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述定位表达式中包含预设的第一标识；

9.根据权利要求7或8所述的装置，其特征在于，所述定位表达式中还包含预设的第二标识；

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1至6中任一项所述的方法。