CN112884354B

CN112884354B - 一种字词双维度的化妆品安全监管领域事件信息抽取方法

Info

Publication number: CN112884354B
Application number: CN202110278179.7A
Authority: CN
Inventors: 左敏; 张宝宇; 张青川; 颜文婧
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2023-07-11
Anticipated expiration: 2041-03-15
Also published as: CN112884354A

Abstract

本发明涉及一种字词双维度的化妆品安全监管领域事件信息抽取方法，包括：对互联网上爬取到的舆情事件数据进行预处理，在公共领域资源库的基础上构建化妆品安全领域word embedding资源库、对其使用领域语料进行增量训练、通过基于BERT的神经网络提取字词双维度文本特征，完成化妆品安全监管领域事件信息抽取。本发明一定程度上解决了化妆品安全监管领域事件信息抽取准确程度不高，领域性强的难题，通过构建新的模型，将字维度作为文本向量化表示的基础上再加入词维度进行辅助表示，提高事件信息抽取准确性。

Description

一种字词双维度的化妆品安全监管领域事件信息抽取方法

技术领域

本发明涉及人工智能领域，尤其是指一种字词双维度的化妆品安全监管领域事件信息抽取方法。

背景技术

随着人们生活质量的普遍提高，化妆品的安全逐渐成为了人们日常生活中重点关注的一方面，在化妆品安全监管领域内加强化妆品安全风险管理能力是重点内容，如应强化突发事件应急处置。化妆品安全事件的发生往往会伴随生成大量的信息，监管部门和大众很难从第一时间从互联网上大量的信息中获取到准确的事件信息，事件信息抽取技术作为信息抽取技术的一种，可以为监管部门提供决策支撑的辅助作用，为化妆品安全事件发生后的舆情监控提供支持，也可以为普通群众提供第一时间的信息收集与发布作用。所以建立起事件信息抽取模型对化妆品安全的监管是具有重大意义的。

事件信息抽取从模式匹配逐渐发展到基于统计的机器学习方法，机器学习方法中当下以人工神经网络为基础的深度学习最为高效，深度学习不仅将事件抽取看作是分类任务，还看作是序列标注任务。

目前有些模型使用级联(pipline)的方式，先进行触发词的识别，再进行论元的提取。这种方法会一定的不足，会导致前一阶段的误差传播到后一阶段导致误差传播。本发明采用联合抽取的方式，将触发词和论元同时抽取，进而提高两个子任务的性能，同时加入了全局特征以表示触发词和论元之间的全局信息。

本发明采用标注序列标注模式，将事件论元抽取问题变成一个端到端的问题。同时采用双网络模型结构，一个使用以字维度文本向量化表示作为输入，另一个引入了领域词机制，使用词维度文本向量化表示作为输入。

发明内容

本发明的技术解决问题是：克服了现有技术领域针对性不强，事件信息抽取不完全的问题，提供一种字词双维度的化妆品安全监管领域事件信息抽取方法，提高化妆品安全领域舆情事件信息抽取准确性，以解决目前化妆品安全领域相关的监管需求，在此处提出的方法能够快速准确的对化妆品安全事件进行信息抽取，大幅提高监管者的工作效率，辅助监管者做出判断。

本发明所提出的方法是：一种字词双维度的化妆品安全监管领域事件信息抽取方法，包括以下步骤：

步骤1、使用python编程语言根据化妆品安全监管领域的特点，针对发生的舆情事件编写网络爬虫，并对爬虫爬取到的原始文本数据进行去重和筛选预处理，再去除原始文本数据中没有含义的停用词，提取化妆品安全监管领域的专业词汇，同时形成可用的舆情事件文本语料。

步骤2、根据步骤1获得的化妆品安全监管领域的专业词汇，结合公共领域的词嵌入(word embedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上，使用化妆品安全监管领域的专业词汇对词嵌入资源库进行增量训练，获得化妆品安全领域词嵌入资源库。

步骤3、首先基于双向深度自注意力变换网络的编码器(BERT-BidirectionalEncoder Representations from Transformers)构建的字维度和词维度两个维度上的预训练模型，步骤2得到化妆品安全领域词嵌入资源库来获取字词双维度文本向量化表示。首先使用第二步构建的化妆品安全领域词嵌入资源库词嵌入资源库对两个维度上的预训练模型进行增量训练，得到了针对化妆品安全领域的预训练模型。然后将步骤1形成的舆情事件文本语料输入在字维度上构建的预训练模型，运行模型得到字维度上的文本向量化表示；然后同样将步骤1形成的舆情事件文本语料输入词维度上构建的预训练模型得到词维度上的文本向量化表示。

步骤4、根据步骤3的结果，获得所需的词维度和字维度两种不同维度的输入向量，将字维度文本向量化表示作为主要输入信息，将文本向量化表示扩展到字向量长度，并作为辅助输入信息，输入到基于双向深度自注意力变换网络的编码器BERT模型中并对进行训练，得到融合全文语义信息后的文本向量。

步骤5、根据步骤4得到模型训练后的输出后，将输出的融合全文语义信息后的文本向量再输入到条件随机场CRF(Conditional Random Fields)中，在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。

进一步的，所述步骤1中，构建的适用于化妆品安全领域的网络爬虫，其爬取主要内容有化妆品安全领域词汇百科，化妆品安全突发事件发生后的舆情新闻报道，人们对于化妆品安全突发事件的评论信息。爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇，化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成可以使用的事件文本语料。

进一步的，所述步骤2中，在公共领域词嵌入资源库的基础上，将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中，对公共领域词嵌入资源库进行增量训练，随着步骤1中爬取内容的不断增多，每隔一段时间，当积累一定数量的可以进行增量训练的内容后，再次将其输入到跳跃式(skip-gram)模型中对公共领域词嵌入资源库进行增量训练，最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。

进一步的，所述步骤3中，将步骤1中形成的可以使用的舆情事件文本语料输入到预训练模型中获取文本的向量化表示，其中具体执行过程为对整段文本输入按句子进行分割，然后使用深度自注意力变换网络对输入进行编码，编码后对句子的部分内容进行掩盖(mask)，掩盖后通过句子剩余内容对掩盖内容进行预测，并将预测掩盖结果与真实掩盖内容进行对比，得到预测的误差，根据预测误差对模型的参数进行调整，通过这种预测任务将输入文本映射到了向量空间中，从而得到了字维度(以中文字为单位)的文本向量化表示。但是词维度需要在输入到预训练前首先进行中文的分词工作，然后同样可得词维度(以中文词为单位)上的文本输入向量。

进一步的，所述步骤4中，字维度文本向量化表示作为主要输入信息，词维度文本向量化表示作为辅助输入信息时，首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合，再将不同维度的两种向量输入统一到同一个维度，字维度文本向量化表示v_c∈Rⁿ，词维度文本向量表示为v_w∈R^m，通过线性变换将向量统一到同一维度后，然后将两种文本向量化表示进行相加，最后添加与文本等长的向量存储文本的分句信息，作为分割嵌入向量与和文本向量化表示，一并输入到双向深度自注意力变换网络的编码器BERT中。

进一步的，所述步骤5中，通过条件随机场得到最终舆情事件信息抽取结果，根据化妆品安全领域的特点，同时参考ACE2005语料库以及CEC语料库的数据标签和标注内容，舆情事件抽取得到的主要信息内容重新定义并分为6类：事件发生时间(Happened Time)、事件发生地点(Location)、事件参与者(Event Participant)、参与者行为(ParticipantsBehavior)、事件受影响对象(Affect Object)、受影响对象的状态变化(Affect State)。

本发明与现有技术相比的优点在于：

本发明能够通过双向深度自注意力变换网络的编码器BERT(BERT-BidirectionalEncoder Representations from Transformers)网络的字词双维度事件信息抽取模型快速判断出化妆品安全突发事件中的关键信息，并针对化妆品安全领域事件信息抽取方面构建更全面、针对性更强的化妆品安全领域Embedding资源库，将字符级和词语级两种不同的文本分布式表示作为模型输入，最后结合双路网络的特征提取结果对事件信息进行抽取标记。本发明提出的模型充分利用BERT的特性，从预训练模型中获取字向量表示和词向量表示，从而借助预训练模型使用的海量的文本来更加准确的将文本进行分布式的表示。同时，将文本的词向量表示作为字向量表示的补充信息，为双向深度自注意力变换网络的编码器网络BERT加入中文组词的语言信息。从字向量级别对文本语义进行进一步挖掘，避免因为非结构化的、缺少规范的文本语料，造成特征提取不全面而损失分类精度，有效提高事件信息抽取效果。

附图说明

图1是本发明方法流程示意图；

图2是字词双维度的事件信息抽取模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明一种字词双维度的化妆品安全监管领域事件信息抽取方法包括：对互联网上爬取到的舆情事件数据进行预处理，在公共领域资源库的基础上构建化妆品安全领域word embedding资源库、使用领域语料进行增量训练、基于BERT神经网络的字词双维度文本特征提取。本发明一定程度上解决了化妆品领域事件信息抽取准确程度不高，领域性强的难题，通过构建新的模型，将字维度作为文本向量化表示的基础上再加入词维度进行辅助表示，提高事件信息抽取准确性。

具体包括以下步骤：

步骤1、使用python编程语言根据化妆品安全监管领域的特点，针对发生的舆情事件编写网络爬虫，其爬取主要内容有化妆品安全领域词汇百科，化妆品安全突发事件发生后的舆情新闻报道，人们对于化妆品安全突发事件的评论信息。对爬虫爬取到的原始文本数据进行去重和筛选预处理，再去除原始文本数据中没有含义的停用词，爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇，化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成可以使用的事件文本语料。

步骤2、根据步骤1获得的化妆品安全监管领域的专业词汇，结合公共领域的词嵌入(word embedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上，将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中，对公共领域词嵌入资源库进行增量训练，随着步骤1中爬取内容的不断增多，每隔一段时间，当积累一定数量的可以进行增量训练的内容后，再次将其输入到跳跃式(skip-gram)模型中对公共领域词嵌入资源库进行增量训练，最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。

步骤3、首先基于双向深度自注意力变换网络的编码器(BERT-BidirectionalEncoder Representations from Transformers)构建的字维度和词维度两个维度上的预训练模型，步骤2得到化妆品安全领域词嵌入资源库来获取字词双维度文本向量化表示。首先使用步骤2构建的化妆品安全领域词嵌入资源库词嵌入资源库对两个维度上的预训练模型进行增量训练，得到了针对化妆品安全领域的预训练模型。然后将步骤1形成的事件文本语料输入在字维度上构建的预训练模型，运行模型得到字维度上的文本向量化表示；其中具体执行过程为对整段文本输入按句子进行分割，然后使用深度自注意力变换网络器BERT对输入进行编码，编码后对句子的部分内容进行掩盖(mask)，掩盖后通过句子剩余内容对掩盖内容进行预测，并将预测掩盖结果与真实掩盖内容进行对比，得到预测的误差，根据预测误差对模型的参数进行调整，通过这种预测任务将输入文本映射到了向量空间中，从而得到了字维度(以中文字为单位)的文本向量化表示。然后同样将步骤1形成的舆情事件文本语料输入词维度上构建的预训练模型得到词维度上的文本向量化表示。但是词维度需要在输入到预训练前首先进行中文的分词工作。

步骤4、根据步骤3的结果，可以获得所需的词维度和字维度两种不同维度的输入向量。模型的输入为字维度文本向量化表示和词维度文本向量化表示，字维度文本向量化表示作为主要输入信息，词维度文本向量化表示作为辅助输入信息。首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合，首先将不同维度的两种向量输入统一到同一个维度，字维度文本向量化表示v_c∈Rⁿ，词维度文本向量表示为v_w∈R^m，通过线性变换将向量统一到同一维度后，然后将两种文本向量化表示进行相加。再使用与文本等长的向量存储文本的分句信息，作为分割嵌入向量与和文本向量化表示一并输入到双向深度自注意力变换网络的编码器中。输入向量输入到模型中并对模型进行训练后，得到模型的输出是步骤3输入预训练模型的文本语料对应的融合全文语义信息后的文本向量。

步骤5、根据步骤4得到模型训练后的输出后，将输出的融合全文语义信息后的文本向量再输入到条件随机场CRF(Conditional Random Fields)中，在通过条件随机场计算最优概率后得到最终的事件信息抽取结果，根据化妆品安全领域的特点，同时参考ACE2005语料库以及CEC语料库的数据标签和标注内容，舆情事件抽取得到的主要信息内容重新定义并分为6类：事件发生时间(Happened Time)、事件发生地点(Location)、事件参与者(Event Participant)、参与者行为(Participants Behavior)、事件受影响对象(AffectObject)、受影响对象的状态变化(Affect State)。

参见图1中，展示了本发明所提出的方法的整体示意图，对爬取的化妆品安全舆情微博数据进行预处理，结合开放域word embedding资源库构建化妆品安全领域wordembedding资源库，然后爬取多个可信网站的化妆品安全事件新闻对word embedding资源库进行增量训练，通过预训练模型获取字维度的文本向量化表示以及词维度的文本向量化表示，最终得到字词双维度文本特征向量并进行化妆品安全事件的信息抽取。

在图2所示模型图中，首先左侧网络通过预训练模型得到词维度的文本向量化表示，然后输入到右侧网络中结合得到的字维度文本向量化表示，然后进行字词融合，然后通过BERT神经网络后将输出经过CRF层，得到最佳的输出信息标记序列，根据序列标记结果对应相应位置的文本得到事件信息抽取结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种字词双维度的化妆品安全监管领域事件信息抽取方法，其特征在于，包括以下步骤：

步骤1、针对基于化妆品安全监管领域发生的舆情事件，构建的适用于化妆品安全领域的网络爬虫，并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理，再去除原始文本数据中没有含义的停用词，提取化妆品安全监管领域的专业词汇，同时形成事件文本语料；

步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇，对公共领域的词嵌入资源库进行增量训练，获得化妆品安全领域词嵌入资源库；

步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型，再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练，得到针对化妆品安全领域的字维度和词维度预训练模型，然后将事件文本语料输入到在字维度预训练模型，得到字维度文本向量化表示，将事件文本语料输入词维度预训练模型得到词维度文本向量化表示；

步骤4、根据步骤3的结果，获得所需的词维度和字维度两种不同维度的输入向量，将字维度文本向量化表示作为主要输入信息，将文本向量化表示扩展到字向量长度，并作为辅助输入信息，输入到基于双向深度自注意力变换网络的编码器BERT中并对进行训练，得到融合全文语义信息后的文本向量；

步骤5、将融合全文语义信息后的文本向量再输入到条件随机场CRF中，在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。

2.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法，其特征在于：所述步骤1中，构建的适用于化妆品安全领域的网络爬虫时，爬取主要内容有化妆品安全领域词汇百科，化妆品安全突发事件发生后的舆情新闻报道，人们对于化妆品安全突发事件的评论信息；爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇，化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成使用的事件文本语料。

3.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法，其特征在于：所述步骤2中，在公共领域词嵌入资源库的基础上，将步骤1中得到的化妆品领域专业词汇输入到跳跃式模型中，对公共领域词嵌入资源库进行增量训练，随着步骤1中爬取内容的不断增多，每隔一段时间，当积累一定数量的进行增量训练的内容后，再次将其输入到跳跃式模型中对公共领域词嵌入资源库进行增量训练，最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。

4.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法，其特征在于：所述步骤3中，将舆情事件文本语料输入到预训练模型中获取文本的向量化表示时，其中具体执行过程为对整段文本输入按句子进行分割，然后使用深度自注意力变换网络对输入进行编码，编码后对句子的部分内容进行掩盖，掩盖后通过句子剩余内容对掩盖内容进行预测，并将预测掩盖结果与真实掩盖内容进行对比，得到预测的误差，根据预测误差对模型的参数进行调整，通过这种预测将输入文本映射到了向量空间中，得到字维度文本向量化表示；词维度在输入到预训练前首先进行中文的分词工作，然后同样得到词维度文本输入向量。

5.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法，其特征在于：所述步骤4中，字维度文本向量化表示作为主要输入信息，词维度文本向量化表示作为辅助输入信息时，首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合，再将不同维度的两种向量输入统一到同一个维度，字维度文本向量化表示v_c∈Rⁿ，词维度文本向量表示为v_w∈R^m，通过线性变换将向量统一到同一维度后，然后将两种文本向量化表示进行相加，最后添加与文本等长的向量存储文本的分句信息，作为分割嵌入向量与和文本向量化表示，一并输入到双向深度自注意力变换网络的编码器BERT中。

6.根据权利要求1所述的面向化妆品安全监管领域的字词双维度舆情事件信息抽取方法，其特征在于：所述步骤5中，事件信息抽取结果的内容分为6类：事件发生时间、事件发生地点、事件参与者、参与者行为、事件受影响对象、受影响对象的状态变化。