CN117973383A

CN117973383A - 用于机器人流程自动化的分词标注和实体抽取方法及系统

Info

Publication number: CN117973383A
Application number: CN202410381382.0A
Authority: CN
Inventors: 闫一凡; 郑艳伟; 黄博文; 张欣睿; 何康泽; 于东晓
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-05-03

Abstract

本发明属于自然语言处理技术领域，特别涉及一种用于机器人流程自动化的分词标注和实体抽取方法及系统，本申请结合传统词典前缀匹配与HMM模型进行分词以及词性标注，能够在保证效率的同时有效提高准确率。同时对于实体抽取功能模块，采用分级标签训练BiLSTM+CRF模型，在完成传统实体提取任务的前提下赋予文本实体多级概念，能够满足多样化办公需求。

Description

用于机器人流程自动化的分词标注和实体抽取方法及系统

技术领域

本发明属于自然语言处理技术领域，特别涉及一种用于机器人流程自动化的分词标注和实体抽取方法及系统。

背景技术

近年来随着深度学习技术的快速发展，自然语言处理这个领域也正在逐渐迈向成熟，产业应用需求也在进一步发展，同时各种机器人流程自动化软件（RPA）也在蓬勃兴起，但是现存的RPA系统在智能化领域往往比较薄弱，不能很好地满足企业日常办公中自然语言处理任务的需求。如何在已有技术的基础上进一步创新，更加高效地实现分词标注和实体抽取这两个自然语言处理中的重要课题，同时将其融入RPA系统的自动化流程中，是一个值得研究的方向。

发明内容

为进一步推动办公流程的自动化，为传统基于文本字段的分词标注和实体抽取提供更为便捷的解决方案，本发明提供了一种用于RPA办公流程自动化系统的分词标注和实体抽取方法，使用HMM模型改进传统分词标注形式，同时借助BiLSTM和CRF相结合的命名实体识别模型进行实体抽取，综合实现了分词标注和实体抽取流程的自动化。

为达到上述目的，本发明的技术方案如下：

一种用于机器人流程自动化的分词标注和实体抽取方法，包括以下步骤：

S1. 初始化统计词典，RPA系统接受前端上传的待处理字段, 并选择分词标注或实体抽取；

S2.分词和词性标注：接收前端用户的待处理字段，采用传统词典前缀匹配的方法进行分词和词性标注，对于未包含在统计词典中的词则使用预训练好的HMM模型进行分词和词性标注;实体抽取：接受前端用户的待处理字段，使用多种分级标签预训练好的BiLSTM+CRF模型对文本进行命名实体提取，并赋予文本实体多级概念；

S3.将文本处理的结果返回给前端，并优化统计词典。

优选的，步骤S1中， RPA系统接受前端上传的待处理字段；并进行以下步骤处理，

S11.通过前端RPA系统选择分词标注或实体抽取功能模块；

S12.编写图形语言，上传待处理字段；

S13.运行设定的流程，封装请求的字段数据并向后台RPA服务器发送相应请求。

优选的，步骤S2中，分词和词性标注具体步骤如下：

S2-11.定义txt格式的统计词典，每个词占一行，每一行分三部分：词语、词频、词性；

S2-12.构建统计词典中各个词的前缀词典，用以存储所有词的前缀以及词本身，前缀词典的构造会将统计词典中出现的每一个词的每一个前缀提取出来，统计词频，如果某个前缀词在统计词典中没有出现，词频统计为0，如果这个前缀词已经统计过，则不再重复；

S2-13. 接受用户上传的文本字段并扫描前缀词典构造有向无环图，有向无环图的节点数等于文本字段的长度，从起点到终点的任意一条路径则代表了一种候选的分词方案；

S2-14. 用动态规划的方法在步骤S2-13中构造的有向无环图上查找最大概率的路径，先预估每条候选路径的概率，并选取概率连乘最大的路径作为最终分词的结果，具体选择路径的原理如下：

（1）；

式子（1）通过函数寻找概率连乘最大的路径，其中/>表示不同路径，/>为/>路径的一种切词方案，/>为/>路径下的第/>个切词的概率，等于第/>个切词出现的概率除以总词频/>。

优选的，步骤S2中,

S2-15. 对于未包含在统计词典中词，将其组合成buf，并使用隐马尔科夫模型HMM进行分词；HMM模型将分词问题转化为字的分类问题，即序列标注问题，输入文本句子为观测序列，分词结果为状态序列；

S2-16. HMM模型规定每个文本字的词位有四种，包括词首B、词中M、词尾E、单字成词S; HMM是一个生成式模型，基于马尔可夫链的思想，即对于序列中一个字的预测结果只与前一个字的状态有关，

（2）；

在上述式子中，为隐藏状态序列（B，M，E，S），/>为待预测的输入序列，/>为状态初始概率，即输入观察序列，首个字符是"B","M", "E", "S"的概率；/>为状态转移概率，即 "B","M", "E", "S"四个状态之间相互转化的概率；/>为状态发射概率，即在观测序列是某个字的情况下，被标注为"B","M", "E", "S"的概率，而/>即为序列中第一个字的状态发射概率，HMM通过最大化公式（2）的概率，从而完成分词。

优选的，步骤S2中实体抽取具体步骤如下：

采用BiLSTM得到Emission Score矩阵，利用CRF反向传播算法更新TransitionScore矩阵，CRF模型训练过程中，模型损失函数定义如下：

（3）；

（4）；

其中为待预测序列中的文本字，/>为真实标签，/>和/>分别表示标注序列/>中的Emission Score和Transition Score，通过查找BiLSTM的Emission Score和序列标注转移矩阵可以得到每个字符位置的得分，整个序列相加得到最终的得分/>；

模型训练过程中的最大化对数似然函数如下，

（5）；

通过上述的计算和反向传播步骤，CRF层将经过BiLSTM输出的Emission_score作为输入，最终输出符合标注转移约束条件的、最大可能的预测标注序列，完成命名实体的识别。

一种用于机器人流程自动化的分词标注和实体抽取系统，包括获取和反馈模块、分词和词性标注模块、实体抽取；

所述获取和反馈模块用于接收前端上传的待处理字段和将文本处理的结果返回给前端；

所述分词和词性标注模块接收前端用户的待处理字段，采用传统词典前缀匹配的方法进行分词和词性标注，对于未包含在统计词典中的词则使用预训练好的HMM模型进行分词和词性标注；

所述实体抽取接受前端用户的待处理字段，使用分级标签预训练好的BiLSTM+CRF模型对文本进行命名实体提取，并赋予文本实体多级概念。

优选的，所述BiLSTM+CRF模型包括双向长短时记忆网络BiLSTM和条件随机场CRF，BiLSTM+CRF模型的输入是字符特征，输出每个字符对应的预测标签，对于输入的自然语言序列，可通过特征工程的方法定义序列字符特征，将其输入模型，双向长短时记忆网络BiLSTM负责接收每个字符的embedding，并通过双向LSTM，利用上下文信息预测每个字符的对每个标注标签的概率，Emission Score是由BiLSTM生成的、对当前字符标注的概率分布；Transition Score是加入CRF约束条件，CRF层将经过BiLSTM输出的Emission_score作为输入，最终输出符合标注转移约束条件的、最大可能的预测标注序列，完成命名实体的识别。

与现有技术相比，本申请有益效果如下：

（1）本发明使用构造字典和无环图的方式实现分词，而对于未包含的词则使用预训练好的HMM模型进行分词和词性标注。（2）本发明使用通过多级标签训练好的BiLSTM+CRF模型对用户输入的文本字段进行命名实体识别，赋予文本实体多级概念，满足多样化办公需求。（3）本发明通过前端RPA系统界面，为用户提供了便捷的文本字段上传功能，并能及时清晰地将结果返回给用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明流程图。

图2为本发明实施例使用的CRF模型原理图。

图3为本发明实施例使用的模型整体架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于RPA技术的票据识别自动化流程方法，如图1所示，整体分为两个功能模块，在分词标注模块中，使用传统的词典前缀匹配进行分词标注，而对于未登录的词，使用预训练好的HMM模型进行处理；在实体抽取功能模块中，通过BiLSTM+CRF相结合的命名实体识别模型，利用LSTM提取序列特征，利用CRF建模序列级别的损失，综合两者的优点，实现了实体抽取。

具体实施例如下：

图1-图3所示，一种用于RPA办公流程自动化系统的分词标注和实体抽取方法，包括以下步骤：

（1）准备阶段：

（1.0）利用现有技术初始化统计词典；

（1.1）通过前端RPA系统选择分词标注或实体抽取功能模块；

（1.2）编写图形语言，设计自动化流程步骤并上传待处理字段；

（1.3）运行编写好的流程，封装请求的字段数据并向后台RPA服务器发送相应请求。

（2）分词标注功能模块：

（2.1）定义txt格式的统计词典，每个词占一行，每一行分三部分：词语、词频、词性，如下所示；

这 261791 r

是 796991 v

怎 6736 r

么 11322 y

回 23572 v

事 44769 n

怎么 27339 r

回事 1195 v 。

（2.2）构建统计词典中各个词的前缀词典（实际上是一个HashSet），用以存储所有词的前缀以及词本身，前缀词典的构造会将统计词典中出现的每一个词的每一个前缀提取出来，统计词频，如果某个前缀词在统计词典中没有出现，词频统计为0，如果这个前缀词已经统计过，则不再重复，如下所示；

{

"这": 261791,

"是": 796991,

"怎": 6736,

"怎么": 27339,

"怎么回": 0,

"怎么回事": 3,

"么": 11322,

"回": 796991,

"回事": 1195,

"事": 44769

}。

（2.3）接受用户上传的文本字段并扫描前缀词典构造有向无环图（DAG），有向无环图的节点数等于文本字段的长度，从起点到终点的任意一条路径则代表了一种候选的分词方案。例如输入“这是怎么回事”，通过前缀词典的快速扫描，获取的DAG如下所示（词频大于0的才加入对应边）：

；

其中，key为输入的每个字的位置，value为其对应的可组合词的末尾字。1: [1]表示“是”只能组合成“是”，2: [2, 3, 5]表示“怎”可以组合成“怎”/“怎么”/“怎么回事”。所以“这是怎么回事”的DAG有五条路径，即五种分词方案，分别为：

0/1/2/3/4/5：“这/是/怎/么/回/事” ；

0/1/2/3/45：“这/是/怎/么/回事” ；

0/1/23/4/5：“这/是/怎么/回/事” ；

0/1/23/45：“这/是/怎么/回事” ；

0/1/2345：“这/是/怎么回事” 。

（2.4）用动态规划的方法在（2.3）步骤中构造的有向无环图上查找最大概率的路径，先预估每条候选路径的概率，并选取概率连乘最大的路径作为最终分词的结果，具体选择路径的原理如下：

（1）；

上述式子通过函数寻找概率连乘最大的路径，其中/>表示不同路径，/>为路径的一种切词方案，/>为i路径下的第/>个切词的概率，它等于这个词出现的概率除以总词频/>；

以“怎么回事”和“怎么/回事”为例，应比较（怎么回事）和/>（怎么）*/>（回事）大小。

（2.5）对于未登录词（指未包含在词典中的词），将它们组合成buf，并使用隐马尔科夫模型HMM进行分词。HMM模型将分词问题转化为字的分类问题（即序列标注问题），输入文本句子为观测序列，分词结果为状态序列。HMM模型规定每个文本字的词位有四种，包括词首B；词中M；词尾E；单字成词S，如表1所示：

表1为HMM模型分词示例

X

我

就

读

于

山

东

大

学

Y

S

B

E

S

B

M

E

HMM是一个生成式模型，基于马尔可夫链的思想，即对于序列中一个字的预测结果只与前一个字的状态有关。

（2）；

在上述式子中，为隐藏状态序列（B，M，E，S），/>为待预测的输入序列，/>为状态初始概率，即输入观察序列（带分词句子）首个字符是"B","M", "E", "S"的概率。/>为状态转移概率，即 "B","M", "E", "S"四个状态之间相互转化的概率。/>为态发射概率，即在观测序列是某个字的情况下，被标注为"B","M", "E", "S"的概率，而/>即为序列中第一个字的状态发射概率，HMM通过最大化上述公式的概率，从而完成分词。

（3）实体抽取功能模块：

（3.1）提前定义好词典，词性部分采用多级标签标注的文本词分类（例如饮食类、饮食类_菜品、饮食类_饮品）；表2为本发明实施例相较于传统命名实体识别方法的改进之处。

表2 本发明实施例与传统命名实体识别方法的区别

	传统命名识别方法	用于RPA系统的新型命名实体识别方法
			命名实体分类方法	通常将命名实体分为三大类（实体类、时间类和数字类），七小类（人名、机构名、地名、时间、日期、货币和百分比）	将命名实体划分为超过九十个类别，采用更加详细的分级概念，例如在传统的时间类基础上，进一步划分为时间类，时间类_特殊日期，时间类_朝代，时间类_具体时间，时间类_时长等，以满足办公中的多样化需求。

（3.2）通过结合BiLSTM和CRF模型，对文本字段进行命名实体识别，最终针对每个文本实体预测多级概念（例如“狮子的鬃毛犹如一束束金色的阳光”这个句子中，“狮子”这一文本词的一级标签为“生物类”，二级标签为“动物类”），完成实体抽取任务；BiLSTM+CRF模型有双向长短时记忆网络（BiLSTM）和条件随机场（CRF）构成，模型的输入是字符特征，输出每个字符对应的预测标签，对于输入的自然语言序列，可通过特征工程的方法定义序列字符特征，如词性特征、前后词等，将其输入模型。双向长短时记忆网络（BiLSTM）负责接收每个字符的embedding，并通过双向LSTM，充分利用上下文信息预测每个字符的对每个标注标签的概率。CRF模型实际上就是一个神经网络，如附图2所示，Emission Score是由BiLSTM生成的、对当前字符标注的概率分布，Transition Score是加入CRF约束条件的、字符标注之间的概率转移矩阵，结合上述原理以及附图2可知，BiLSTM+CRF模型其实就是一个CRF模型，只不过我们用BiLSTM得到Emission Score矩阵，用反向传播算法去更新我们的Transition Score矩阵。CRF模型训练过程中，模型损失函数定义如下：

（3）；

（4）；

其中为待预测序列中的文本字，/>为真实标签，/>和/>分别表示标注序列/>中的Emission Score和Transition Score，通过查找BiLSTM的Emission Score和序列标注转移矩阵可以得到每个字符位置的得分，整个序列相加得到最终的得分/>。

模型训练过程中的最大化对数似然函数如下，其中字母含义同上：

（5）；

通过上述的计算和反向传播步骤，CRF层将经过BiLSTM输出的Emission_score作为输入，最终输出符合标注转移约束条件的、最大可能的预测标注序列，完成命名实体的识别，进一步优化词典。BiLSTM+CRF模型整体架构如附图3所示。

该方法通过改进传统的分词标注算法实现了分词以及词性标注，同时通过BiLSTM+CRF相结合的命名实体识别模型实现了实体抽取，利用LSTM提取序列特征，利用CRF建模序列级别的损失，综合了两者的优点，取得了较为理想的结果。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于机器人流程自动化的分词标注和实体抽取方法，其特征在于，包括以下步骤：

S2.分词和词性标注：接收前端用户的待处理字段，采用传统词典前缀匹配的方法进行分词和词性标注，对于未包含在统计词典中的词则使用预训练好的HMM模型进行分词和词性标注；

实体抽取：接受前端用户的待处理字段，使用多种分级标签预训练好的BiLSTM+CRF模型对文本进行命名实体提取，并赋予文本实体多级概念；

S3.将文本处理的结果返回给前端，并优化统计词典。

2.根据权利要求1所述的用于机器人流程自动化的分词标注和实体抽取方法，其特征在于，步骤S1中， RPA系统接受前端上传的待处理字段；并进行以下步骤处理，

S11.通过前端RPA系统选择分词标注或实体抽取功能模块；

S12.编写图形语言，上传待处理字段；

3.根据权利要求1所述的用于机器人流程自动化的分词标注和实体抽取方法，其特征在于，步骤S2中，分词和词性标注具体步骤如下：

（1）；

式子（1）通过函数寻找概率连乘最大的路径，其中/>表示路径，/>为/>路径的一种切词方案，/>为/>路径下的第/>个切词的概率，等于第/>个切词出现的概率/>除以总词频/>。

4.根据权利要求3所述的用于机器人流程自动化的分词标注和实体抽取方法，其特征在于，步骤S2中,

S2-16. HMM模型规定每个文本字的词位有四种，包括词首B、词中M、词尾E、单字成词S;HMM是一个生成式模型，基于马尔可夫链的思想，即对于序列中一个字的预测结果只与前一个字的状态有关，

（2）；

5.根据权利要求3所述的用于机器人流程自动化的分词标注和实体抽取方法，其特征在于，步骤S2中实体抽取具体步骤如下：采用BiLSTM得到Emission Score矩阵，利用CRF反向传播算法更新Transition Score矩阵，CRF模型训练过程中，模型损失函数定义如下：

（3）；

（4）；

其中为待预测序列中的文本字，/>为真实标签，/>和/>分别表示标注序列/>中/> 的Emission Score和Transition Score，通过查找BiLSTM的Emission Score和序列标注转移矩阵可以得到每个字符位置的得分，整个序列相加得到最终的得分/>；

模型训练过程中的最大化对数似然函数如下：

（5）；

6.一种用于机器人流程自动化的分词标注和实体抽取系统，其特征在于，包括获取和反馈模块、分词和词性标注模块、实体抽取；

7.根据权利要求6所述的用于机器人流程自动化的分词标注和实体抽取系统，其特征在于，所述BiLSTM+CRF模型包括双向长短时记忆网络BiLSTM和条件随机场CRF，BiLSTM+CRF模型的输入是字符特征，输出每个字符对应的预测标签，对于输入的自然语言序列，可通过特征工程的方法定义序列字符特征，将其输入模型，双向长短时记忆网络BiLSTM负责接收每个字符的embedding，并通过双向LSTM，利用上下文信息预测每个字符的对每个标注标签的概率，Emission Score是由BiLSTM生成的、对当前字符标注的概率分布；TransitionScore是加入CRF约束条件，CRF层将经过BiLSTM输出的Emission_score作为输入，最终输出符合标注转移约束条件的、最大可能的预测标注序列，完成命名实体的识别。