CN111723575A

CN111723575A - 识别文本的方法、装置、电子设备及介质

Info

Publication number: CN111723575A
Application number: CN202010541344.9A
Authority: CN
Inventors: 陈曦; 刘芳; 王振众; 龚小龙; 麻志毅
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-29

Abstract

本申请公开了一种识别文本的方法、装置、电子设备及介质。其中，本申请中，可以利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表并将候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果，从而将至少一个匹配结果中高于命中匹配率的候选名称实体作为识别目标文本所得到的名称实体。通过应用本申请的技术方案，可以采用深度学习模型提取文本中可能存在的名称实体，利用过滤词表过滤掉一部分识别错误的实体作为候选公司实体，再借助于企业名称库和企业实体映射表，将候选公司对应到具体的企业名称库中。进而避免相关技术中存在的从文本中提取有效名称实体的效率很低的问题。

Description

识别文本的方法、装置、电子设备及介质

技术领域

本申请中涉及数据处理技术，尤其是一种识别文本的方法、装置、电子设备及介质。

背景技术

由于通信时代和社会的兴起，通信领域已经随着越来越多用户的参与而不断发展。

进一步的，名称实体是指人名、机构名、地名以及其他所有以名称为标识的实体，更广泛地说，名称实体还包括数字、日期、货币、地址、数量短语等。命名实体识别(NamedEntity Recognition NER)的主要任务就是从某些文本中提取出名称实体并加以归类。名称实体识别是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。

然而，相关技术中在名称实体提取方法的过程中，通常需要对整篇文本进行逐一遍历和匹配，耗时较长，且在文本噪声较大的文本匹配过程中会出现大量的无效匹配，从而导致从文本中提取有效名称实体的效率很低。

发明内容

本申请实施例提供一种识别文本的方法、装置、电子设备及介质，本申请实施例用于解决相关技术中存在的通常需要对整篇文本进行逐一遍历和匹配，耗时较长，从而导致提取有效名称实体的效率很低的问题。

其中，根据本申请实施例的一个方面，提供的一种识别文本的方法，其特征在于，包括：

利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表；

将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果；

将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。

可选地，在基于本申请上述方法的另一个实施例中，所述利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表之前，包括：

获取未训练的深度学习模型，所述深度学习模型包括双向长短期记忆神经网络和条件随机场模型中；

对预设的样本语料数据进行预处理，得到预设长度且带有标注的标准语料；

构造所述预设长度且带有标注的标准语料中，每个字符的维度向量；

基于每个字符的维度向量，训练所述双向长短期记忆神经网络，得到训练后的双向长短期记忆神经网络。

可选地，在基于本申请上述方法的另一个实施例中，所述得到训练后的目标双向长短期记忆神经网络之后，包括：

基于所述训练后的双向长短期记忆神经网络，获取标准语料中每个字符的预测标签值；

根据所述每个字符的预测标签值和字符的真实标签值训练所述条件随机场模型，得到训练后的条件随机场模型。

可选地，在基于本申请上述方法的另一个实施例中，所述得到训练后的条件随机场模型之后，包括：

利用所述训练好的双向长短期记忆神经网络以及所述训练好的条件随机场模型逐句对所述目标文本进行实体特征识别，得到所述候选名称实体列表。

可选地，在基于本申请上述方法的另一个实施例中，所述将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配之前，包括：

将所述候选名称实体列表与企业实体映射表中的多个实体信息进行一一比对，当确定所述候选名称实体列表与所述企业实体映射表比对不成功时，将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配。

可选地，在基于本申请上述方法的另一个实施例中，所述将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配，包括：

将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配，得到至少一个匹配结果；

当确定所述匹配结果的数量为一个时，将所述匹配结果对应的候选实体作为识别所述目标文本所得到的名称实体；

当确定所述匹配结果的数量为多个时，分别计算多个匹配结果与所述多个候选名称实体的编辑距离，并将其中编辑距离最小的候选名称实体作为识别所述目标文本所得到的名称实体。

可选地，在基于本申请上述方法的另一个实施例中，所述分别计算多个匹配结果与所述多个候选名称实体的编辑距离之后，包括：

将所述编辑距离最小的候选名称实体加入到所述企业实体映射表中。

可选的，一种识别文本的装置，其特征在于，包括：

识别模块，被设置为利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表；

匹配模块，被设置为将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果；

生成模块，被设置为将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述识别文本的方法的操作。

本申请中，可以利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表并将候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果，从而将至少一个匹配结果中高于命中匹配率的候选名称实体作为识别目标文本所得到的名称实体。通过应用本申请的技术方案，可以采用深度学习模型提取文本中可能存在的名称实体，利用过滤词表过滤掉一部分识别错误的实体作为候选公司实体，再借助于企业名称库和企业实体映射表，将候选公司对应到具体的企业名称库中。进而避免相关技术中存在的从文本中提取有效名称实体的效率很低的问题。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请提出的识别文本的流程示意图；

图2为本申请提出的深度学习模型的架构图；

图3为本申请提出的设备界面显示图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

下面结合图1-图3来描述根据本申请示例性实施方式的用于进行识别文本的方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种识别文本的方法、装置、目标终端及介质。

图1示意性地示出了根据本申请实施方式的一种识别文本的方法的流程示意图。如图1所示，该方法包括：

S101，利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表。

首先，本申请不对深度学习模型进行具体限定，例如可以为双向长短期记忆神经网络以及条件随机场模型。其中，双向长短时记忆循环神经网络详解(Bi-directionalLong-Short Term Memory BILSTM RNN)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。而对于条件随机场模型(Conditional RandomFields CRF)，是一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。

进一步的，本申请在利用预先训练的深度学习模型对目标文本进行实体特征识别以得到候选名称实体列表的过程中，不对候选名称实体列表中的后续名称实体的个数做具体限定。例如可以为一个，也可以为多个。

其中，本申请以目标文本为新闻类文本，待识别的名称实体为企业类名称实体为例进行说明：

命名实体识别(Named Entity Recognition，简称NER)，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。本实施例要识别的实体类型为企业名称实体(包含全称和简称)，由于深度学习在自然语言处理的广泛应用，系统采用基于深度学习的算法进行命名实体识别，把命名实体识别当做序列标注任务来做，采用的算法为可以为利用序列标注算法BiLSTM-CRF(双向长短期记忆神经网络和条件随机场)的深度学习模型来实现。本实施例可以将企业名称识别看作一种命名实体识别任务。

首先，可以根据现有已标注的新闻语料训练一个BiLSTM-CRF模型，根据训练好的深度学习模型对新闻文本中出现的可能为企业实体进行预测，从而得到一篇新闻中出现的所有可能的公司实体的候选名称实体列表。

S102，将候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果。

进一步的，本申请在利用预先训练的深度学习模型对目标文本进行实体特征识别主要过程为：融合现有数据对样本语料进行预处理(分句、分词、词性标注、word2vec词向量表示等)，生成预设长度且带有标注的标准语料作为训练数据；构造标准语料中每个字符的embedding向量(包括字向量、词向量、词性标注(POS)等)；根据字向量训练预设的双向长短期记忆网络，以获取每个字符的预测标签值；根据预测标签值和字符的真实标签值优化预设的条件随机场模型；使用由长短期记忆网络和条件随机场模型组成的神经网络模型进行公司名称实体提取，得到文本中的公司名称实体列表，即一篇新闻中可能出现的公司名称，然后将识别出的企业名称实体放入到实体过滤表中进行逐一过滤，过滤掉识别不准确的实体，得到候选名称实体列表。

另外，在得到候选名称实体列表之后，即可以将候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果。需要说明的是，本申请不对将候选名称实体列表与企业名称库进行匹配的次数做具体限定，例如可以为多次匹配。以确保识别目标文本的名称实体的准确度。

S103，将至少一个匹配结果中高于命中匹配率的候选名称实体作为识别目标文本所得到的名称实体。

其中，本申请在得到候选名称实体列表之后，由于候选实体形式多样且采用的通常不是一家公司完整统一公司名称(例如一家公司通常有多个别称)。因此要想通过企业名称对应到具体的公司信息还需要进行企业名称的对齐。该步骤的主要目的是实现企业实体名称的对齐和消歧，从而将企业实体对应到企业名称库中的具体公司。其主要实施方案为对企业名称识别模块中识别和过滤后得到的候选实体列表中的每个候选名称实体与企业名称库中的企业全称逐一进行模糊匹配，返回所有的匹配结果并计算候选实体与每一个匹配结果的最小编辑距离，取最小编辑距离最小的企业全称作为候选名称实体匹配到的结果识别目标文本所得到的名称实体。

进一步的，每个候选名称实体至多对应一个企业id，当匹配不到任何结果或匹配到的结果超过阈值的话，可以认为该候选实体识别错误，自动将该候选实体加入到过滤词表中。并将一篇文本中所有候选实体对应的企业id作为结果返回，即可得到一篇新闻中出现的所有企业的详细信息，实现新闻文本的企业名称识别与对齐。

需要说明的是，本申请不对命中匹配率做具体限定，例如可以为70％，也可以为90％等等。

可选的，在本申请一种可能的实施方式中，在S101(利用预先训练的深度学习模型对目标文本进行实体特征识别)之前，可以通过下述步骤实施：

获取未训练的深度学习模型，深度学习模型包括双向长短期记忆神经网络和条件随机场模型中；

构造预设长度且带有标注的标准语料中，每个字符的维度向量；

基于每个字符的维度向量，训练双向长短期记忆神经网络，得到训练后的双向长短期记忆神经网络。

基于训练后的双向长短期记忆神经网络，获取标准语料中每个字符的预测标签值；

根据每个字符的预测标签值和字符的真实标签值训练条件随机场模型，得到训练后的条件随机场模型。

利用训练好的双向长短期记忆神经网络以及训练好的条件随机场模型逐句对目标文本进行实体特征识别，得到候选名称实体列表。

更进一步的，本申请可以利用训练好的BiLSTM+CRF模型识别目标文本从而得到候选名称实体列表。具体的，对于BiLSTM来说，可以借助存储单元的结构来保存较长的依赖关系，并且通过输入门、输出门和遗忘门来调整之前状态对当前存储单元状态的影响。另外，为了解决BiLSTM模型在整句层面的无法精准识别的问题，本申请还需要利用条件随机场(Conditional Random Fields,CRF)进行识别。

其中，CRF将可以对文本中逐句进行序列标注，根据特征模板来进行标注，通过Viterbi解码来获得最优解。本申请在利用BiLSTM+CRF模型识别目标文本从而得到候选名称实体列表的过程中，可以保证能够提取足够整句特征的同时，使用有效的序列标注方法进行标注。具体的，目标文本输入经过BiLSTM之后，会把前后向的隐藏态结果进行结合，生成BiLSTM的输出。最后，将BiLSTM的输出喂给CRF作为输入，这样就形成了BiLSTM-CRF结构。这种结构结合了BiLSTM和CRF的特点和优势：作为BiLSTM，它可以有效地保存整句的前后信息，提取句子中的特征信息；为CRF能够利用上下文的信息，进行具有很高准确率的序列标注。例如如图2所示，为本申请提出的深度学习模型(BiLSTM-CRF)的结构架构图。

可选的，在本申请另外一种可能的实施方式中，在S103(将候选名称实体列表与企业名称库中的名称信息进行一一匹配)之前，可以通过下述步骤实施：

将候选名称实体列表与企业实体映射表中的多个实体信息进行一一比对，当确定候选名称实体列表与企业实体映射表比对不成功时，将候选名称实体列表与企业名称库中的多个名称信息进行一一匹配。

其中，将候选名称实体列表与企业名称库中的名称信息进行一一匹配，包括以下方式：

将候选名称实体列表与企业名称库中的名称信息进行一一匹配，得到至少一个匹配结果；

当确定匹配结果的数量为一个时，将匹配结果对应的候选实体作为识别目标文本所得到的名称实体；

当确定匹配结果的数量为多个时，分别计算多个匹配结果与多个候选名称实体的编辑距离，并将其中编辑距离最小的候选名称实体作为识别目标文本所得到的名称实体。

将编辑距离最小的候选名称实体加入到企业实体映射表中。

进一步的，为了进一步保证识别目标文本的名称实体的准确性，因此本申请可以加入实体过滤表用来过滤掉候选实体中识别不准确的实体(通常是一些指代性不明确但被机器错误识别的实体，例如：贸易有限公司、汽车公司等)，从而提升系统的准确度。实体列表经过实体过滤表过滤后得到候选实体列表。

过滤词表以自动生成为主，人工筛选为辅。过滤表生成方式：如果一个实体在企业名称库中模糊匹配的结果(第3步)超过一定阈值则可认为该实体识别不准确，自动将该实体加入到实体过滤表中。例如“农业技术有限公司”，“百货连锁经营有限公司”，“汽车部件有限公司”等等。此外，考虑到该方法会有一定误差，例如：中国银行等公司有大量分公司，匹配结果很多，所以需要粗略的人工筛选将类似这样识别正确的实体从过滤词表中剔除出去。

更进一步的，本申请还可以利用企业实体映射表将候选名称实体列表中的每一个实体放入企业实体映射表进行查找，若找到则返回该实体以及对应的的公司名称和公司ID。而当企业实体映射表中不存在于候选名称实体列表中时，该则进行下一步并将匹配到的结果存入该映射表中。这一步的目的是为了避免重复模糊检索，提升系统的效率。

再进一步的，本申请还可以将候选实体列表中的每一个候选实体放入预设的企业名称库中与各个名称实体一一进行匹配。其中可能包括多种情况，当当确定匹配结果的数量为一个时，将匹配结果对应的候选实体作为识别目标文本所得到的名称实体。而当确定匹配结果的数量为多个时，分别计算多个匹配结果与多个候选名称实体的编辑距离，并将其中编辑距离最小的候选名称实体作为识别目标文本所得到的名称实体。并将该候选实体、匹配到的公司名称和公司ID存入企业实体映射表中，便于下一次直接调用匹配结果。以使下一次遇到同样的名称实体可直接从企业实体全称映射表查找返回结果。

如图3所示，本申请还提供一种识别文本的装置。其中，该装置应用于客户端中，包括识别模块301，匹配模块302，生成模块303，其中，

识别模块301，被设置为利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表；

匹配模块302，被设置为将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果；

生成模块303，被设置为将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。

在本申请的另一种实施方式中，获取模块304，还包括：

获取模块304，被配置为获取未训练的深度学习模型，所述深度学习模型包括双向长短期记忆神经网络和条件随机场模型中；

获取模块304，被配置为对预设的样本语料数据进行预处理，得到预设长度且带有标注的标准语料；

获取模块304，被配置为构造所述预设长度且带有标注的标准语料中，每个字符的维度向量；

获取模块304，被配置为基于每个字符的维度向量，训练所述双向长短期记忆神经网络，得到训练后的双向长短期记忆神经网络。

在本申请的另一种实施方式中，获取模块304，还包括：

获取模块304，被配置为基于所述训练后的双向长短期记忆神经网络，获取标准语料中每个字符的预测标签值；

获取模块304，被配置为根据所述每个字符的预测标签值和字符的真实标签值训练所述条件随机场模型，得到训练后的条件随机场模型。

在本申请的另一种实施方式中，获取模块304，还包括：

获取模块304，被配置为利用所述训练好的双向长短期记忆神经网络以及所述训练好的条件随机场模型逐句对所述目标文本进行实体特征识别，得到所述候选名称实体列表。

在本申请的另一种实施方式中，获取模块304，还包括：

获取模块304，被配置为将所述候选名称实体列表与企业实体映射表中的多个实体信息进行一一比对，当确定所述候选名称实体列表与所述企业实体映射表比对不成功时，将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配。

在本申请的另一种实施方式中，还包括，匹配模块302，其中：

匹配模块302，被配置为将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配，得到至少一个匹配结果；

匹配模块302，被配置为当确定所述匹配结果的数量为一个时，将所述匹配结果对应的候选实体作为识别所述目标文本所得到的名称实体；

匹配模块302，被配置为当确定所述匹配结果的数量为多个时，分别计算多个匹配结果与所述多个候选名称实体的编辑距离，并将其中编辑距离最小的候选名称实体作为识别所述目标文本所得到的名称实体。

在本申请的另一种实施方式中，加入模块305，还包括：

加入模块305，被配置为将所述编辑距离最小的候选名称实体加入到所述企业实体映射表中。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述识别文本的方法，该方法包括：利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表；将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果；将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。可选地，上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备400的处理器420执行，以完成上述识别文本的方法，该方法包括：利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表；将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配，得到至少一个匹配结果；将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。可选地，上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种识别文本的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述利用预先训练的深度学习模型对目标文本进行实体特征识别，得到候选名称实体列表之前，包括：

获取未训练的深度学习模型，所述深度学习模型包括双向长短期记忆神经网络和条件随机场模型；

3.如权利要求2所述的方法，其特征在于，所述得到训练后的目标双向长短期记忆神经网络之后，包括：

4.如权利要求3所述的方法，其特征在于，所述得到训练后的条件随机场模型之后，包括：

5.如权利要求1所述的方法，其特征在于，所述将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配之前，包括：

6.如权利要求5所述的方法，其特征在于，所述将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配，包括：

7.如权利要求6所述的方法，其特征在于，所述分别计算多个匹配结果与所述多个候选名称实体的编辑距离之后，包括：

8.一种识别文本的装置，其特征在于，包括：

9.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-7中任一所述识别文本的方法的操作。