CN117390175B

CN117390175B - 基于bert的智能家居使用事件抽取方法

Info

Publication number: CN117390175B
Application number: CN202311704985.1A
Authority: CN
Inventors: 陈吉; 王星; 冯兆阳; 姚双龙; 杨亭; 刘烨; 蒋文杰; 刘亚; 刘皓; 宋怡辰
Original assignee: Linyi University
Current assignee: Linyi University
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-03-12
Anticipated expiration: 2043-12-13
Also published as: CN117390175A

Abstract

本发明涉及一种基于BERT的智能家居使用事件抽取方法，属于智能家居技术领域。其包括以下步骤：使用数据挖掘的方法获取用户使用智能家居的行为数据并做数据清洗，根据获得到的数据以及专家知识，构建用户使用智能家居的事件类别；根据事件类型准备论元角色槽位，将候选实体、事件触发词通过WordPiece方法进行分词并获取token词元，传入BERT预训练模型获取其隐藏层编码，在BERT模块后添加CRF层进行结果先后顺序的约束，并计算论元角色的最大似然估计，实现角色与论元的链接；以事件触发词和事件论元为核心，根据事件之间的关系进行事件知识图谱的构建。

Description

基于BERT的智能家居使用事件抽取方法

技术领域

本发明涉及一种事件抽取方法，具体涉及一种基于BERT的智能家居使用事件抽取方法，属于智能家居技术领域。

背景技术

随着生活水平的提高，越来越多的家庭选择智能家居。在智能家居的使用过程中，对用户的行为数据进行收集处理是提升用户体验的重要步骤。随着用户对智能家居的使用，会产生大量的用户行为数据，如何高效的利用这些数据并产生知识，面临着很多急需解决的问题。

由于传统智能家居系统有着较为封闭的人机交互与单一知识库结构，所以传统的数据收集与处理方法无法对数据进行充分的利用，造成数据的浪费。最终造成智能家居的自我学习能力较差，并导致用户体验不佳。而事件抽取以及事件知识图谱构建技术，将打破这一问题。以事件作为依托，将用户使用智能家居的行为抽象为事件，构建用户使用智能家居行为的知识体系，从而优化用户体验。用户使用智能家居事件的抽取，主要基于计算机对用户行为数据的采集分析。随着BERT预训练模型在信息抽取任务中的广泛应用，事件抽取可以提供实时的在线信息抽取。将用户行为数据转换为事件并做事件抽取比传统的数据处理方式要复杂的多，比如用户的指令的识别，智能家居的响应都会影响事件抽取效果，因此事件抽取模型的选择格外重要。

BERT是近年来兴起的一种自然语言处理的预训练模型，它可以学习上下文的内在关系，这些学习过程中获得的信息对文本数据的解释具有很大的帮助。它的目标是让机器能够像人一样具有分析学习能力，能够识别文章的内在含义以及文字的相互关联关系，BERT预训练模型在文字表示方面取得的效果，远超其他表示学习模型。智能家居行业的蓬勃发展不仅来源于传感器的发展，更在于对用户使用智能家居时产生的海量数据的收集和处理。因此对数据的处理方式直接决定着用户对智能家居的使用便捷程度。

发明内容

本发明目的是提供了一种基于BERT的智能家居使用事件抽取方法，来解决现有技术对数据利用率低的问题。

本发明为实现上述目的，通过以下技术方案实现：

一种基于BERT的智能家居使用事件抽取方法，包括以下步骤：

S1.使用数据挖掘的方法获取用户使用智能家居的行为数据并做数据清洗，根据获得到的数据以及专家知识，构建用户使用智能家居的事件类别；

S2. 根据事件类型准备论元角色槽位，将候选实体、事件触发词通过WordPiece方法进行分词并获取Token词元，传入BERT预训练模型获取其隐藏层编码，在BERT模块后添加CRF层进行结果先后顺序的约束，并计算论元角色的最大似然估计，实现角色与论元的链接；

S3. 以事件触发词和事件论元为核心，根据事件之间的关系进行事件知识图谱的构建。

所述基于BERT的智能家居使用事件抽取方法优选方案，步骤S1通过使用神经网络对多模态信息进行协同特征表示，接着使用全连接神经网络结合专家知识的方式对事件类型进行划分，具体步骤如下：

S11.多模态信息协同特征表示学习：

所有的模态数据信息进行特征提取，获得特征集合/>，其中/>表示第/>个特征元素，将多模态所输出的不同的特征通过池化的方式进行合成，得到多模态数据特征间的多阶关系抽象特征表示/>，通过协同特征的方法进行表示学习可以得到多模态抽象空间，进而可以通过获取到的特征直接共享同一神经网络模型；

S12.基于专家知识的事件角色划定：

专家知识初步获取用户使用智能家居事件的角色集合其中/>表示第/>个角色元素，针对每个事件类型，为其分配相应的角色集合/>，/>。

所述基于BERT的智能家居使用事件抽取方法优选方案，步骤S2具体步骤如下：

S21.事件触发词指定；

将用户指令集合，其中/>表示第/>个用户指令元素，映射为事件触发词集合

，其中/>表示第/>个事件触发词元素，即：

，

为用户指令到事件触发词的映射函数，映射类型为满的单射，即事件触发词与用户指令一一对应，将事件触发词使用WordPiece分词方法进行切词获取/>词元，接着构造预训练语言模型BERT的输入，即“[CLS]/>[SEP]”，传入BERT后获取触发词的隐藏层表示，将[CLS]的隐藏层表示外接一个全连接神经网络DNN进行事件分类，最后经过/>进行事件类别输出，获取事件类型/>，其计算方式如下：

，

其中，[CLS]表示输入的标记，用于分类任务，[SEP]表示Token词元之间的分隔符，表示第m个词元，/>表示在抽象特征表示E的条件下，事件被判定为类别i的概率，表示激活函数，/>表示返回函数最大值，/>是可学习的权重矩阵，/>是偏置项，/>，/>是事件类别数；

S22.事件槽位准备；

在此模块中，将上面获取到的事件触发词以及事件类别进行保存，并根据事件类型准备事件角色槽位，首先，动态获取事件类型对应的角色集合，以/>中的角色作为原子节点，通过集合扩展的方式对事件角色进行top-k数据遍历扩展，在整个智能家居语料库中，获取实体集，其次，聚集角色集合/>中的每一个实体/>以及实体集/>中每一个实体/>相关度来计算两个实体的语义相关度，定义为/>，计算公式为：

，

其中，表示相似度函数，/>是实体的概念集；

然后对上面生成的进行排序，选择top-k作为角色集合/>的扩充，对于k的个数选定，规定扩展后的集合大小/>，即/>，并将最终角色集合/>用于事件论元与角色链接流程中；

S23.候选实体与事件角色的链接；

在这个模块中，利用上面的事件触发词、事件类型以及事件角色，进行候选实体与事件角色链接，同样，利用WordPiece方法对智能家居的响应具体内容进行分词，获取词元，接着构造预训练语言模型BERT的输入，即“[CLS]/>[SEP]sequence [SEP]”，传入BERT后获取输入序列的隐藏层表示，将每个/>的隐藏层表示输入到条件随机场模型(CRF),用来约束命名实体标签出现的先后关系，设置的优化目标函数为：

，

其中，为路径的打分函数，包括发射分数和转移分数，/>为BERT的输出表示，/>为真实序列，/>为其他可能序列。

所述基于BERT的智能家居使用事件抽取方法优选方案，步骤S3具体步骤如下：

给定一个事件，其对应的节点属性应该是唯一的事件/>，事件触发词/>，事件论元/>，规定每个事件必须有/>角色，其对应论元为时间戳；

使用BERT模型将两个事件拼接进行编码，用以识别两个事件之间的关系，在输入时将触发词的位置以及时间戳的位置进行标记，将拼接后的向量输入到一个全连接层后，接入进行分类，判别出共指关系、时序关系、因果关系和子事件关系，，

其中表示两事件之间的关系，/>代表拼接操作，/>代表全连接网络的输出，/>表示事件1，/>表示事件2。

本发明的优点在于：

1.将用户行为信息的处理转换成基于BERT的事件提取并构建事件知识图谱，可以有效地将离散的数据抽取为高度可用的知识，解决数据处理方法对数据的不充分利用，无法捕获数据的内在关系等问题。同时还能够构建完整智能家居领域知识体系，对模型和算法的不断改进，还能够使得用户数据转换为知识的效率得到提升，从而优化用户体验，增加智能家居的销量。

2.根据收集到的用户行为数据以及专家知识定义用户使用智能家居的事件类别，并设定每个事件类别的角色；接下来使用BERT预训练模型作为基础进行事件抽取，用于提高事件抽取的准确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的一种将用户使用智能家居的行为数据抽象为事件方法的模型图；

图2为本发明的一种多模态协同特征表示学习的模型图；

图3为本发明的一种事件角色槽位扩展的流程图；

图4为本发明的事件论元抽取与角色链接的模型图；

图5为本发明的事件知识图谱构模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本公开实施例提供了一种基于BERT的智能家居使用事件抽取方法。

如图1所示，针对用户使用智能家居的行为数据进行事件抽取并构建事件知识图谱，用以丰富智能家居知识库，使用户获得更好的智能家居使用体验。其具体包括以下步骤：

本实施例中，步骤S1通过使用神经网络对多模态信息进行协同特征表示（Collaborative feature representation），接着使用全连接神经网络结合专家知识的方式对事件类型进行划分，具体步骤如下：

S11.多模态信息协同特征表示学习：

如图2所示，对所有的模态数据信息进行特征提取，对于用户使用智能家居的触觉信息采用A/D模数转换；对于图像信息，如用户的手势，进行基于YOLO的目标检测，YOLO全称为You Only Look Once，是一种实时目标检测算法，以单次推理实现快速精准的物体定位识别；对于语音信息，如用户在使用家居时发出的指令，采用HMM模型进行特征提取，HMM隐马尔可夫模型是一种统计模型，用于描述一个隐藏的马尔可夫链随机生成可观察数据的过程。它能处理观察序列中的时间依赖性问题；对于文本信息进行标识化处理，从而获得特征集合/>，其中/>表示第/>个特征元素，将多模态所输出的不同的特征通过池化的方式进行合成，得到多模态数据特征间的多阶关系抽象特征表示/>，通过协同特征的方法进行表示学习可以得到多模态抽象空间，进而可以通过获取到的特征直接共享同一神经网络模型，进而提升事件分类的效能；

S12.基于专家知识的事件角色划定：

专家知识初步获取用户使用智能家居事件的角色集合，其中/>表示第/>个角色元素，针对每个事件类型，为其分配相应的角色集合/>，/>。

本实施例中，步骤S2具体步骤如下：

S21.事件触发词指定；

将用户指令集合，其中/>表示第/>个用户指令元素，映射为事件触发词集合/>，其中/>表示第/>个事件触发词元素，即：

，

为用户指令到事件触发词的映射函数，映射类型为满的单射，即事件触发词与用户指令一一对应，将事件触发词使用WordPiece方法进行切词获取/>词元，接着构造预训练语言模型BERT的输入，即“[CLS]/>[SEP]”，传入BERT后获取触发词的隐藏层表示，将[CLS]的隐藏层表示外接一个全连接神经网络DNN进行事件分类，最后经过/>进行事件类别输出，获取事件类型/>，其计算方式如下：

，

其中，[CLS]表示输入的标记，用于分类任务，[SEP]表示Token词元之间的分隔符，表示第m个词元，/>表示在抽象特征表示E的条件下，事件被判定为类别i的概率，/>表示激活函数，/>表示返回函数最大值，/>是可学习的权重矩阵，/>是偏置项，/>，/>是事件类别数；

S22.事件槽位准备；

如图3所示，在此模块中，将上面获取到的事件触发词以及事件类别进行保存，并根据事件类型准备事件角色槽位，首先，动态获取事件类型对应的角色集合，以/>中的角色作为原子节点，通过集合扩展的方式对事件角色进行top-k数据遍历扩展，在整个智能家居语料库中，获取实体集，其次，聚集角色集合/>中的每一个实体/>以及实体集/>中每一个实体/>相关度来计算两个实体的语义相关度，定义为/>，计算公式为：，

其中，表示相似度函数，/>是实体的概念集；

然后对上面生成的进行排序，选择top-k作为角色集合/>的扩充，对于k的个数选定，规定扩展后的集合大小/>，即/>并将最终角色集合/>用于事件论元与角色链接流程中；

S23.候选实体与事件角色的链接；

如图4所示，在这个模块中，首先根据用户使用智能家居时产生的多模态信息，如触觉信息、视觉信息、语音信息以及用户指令等，利用上面获取的事件触发词、事件类型以及事件角色，进行候选实体与事件角色链接，同样，利用WordPiece方法对智能家居的响应具体内容进行分词，获取词元，接着构造预训练语言模型BERT的输入，即“[CLS][SEP]sequence [SEP]”，传入BERT后获取输入序列的隐藏层表示，将每个/>的隐藏层表示输入到条件随机场模型CRF,用来约束命名实体标签出现的先后关系，设置的优化目标函数为：

，

其中，为路径的打分函数，包括发射分数和转移分数，/>为BERT的输出表示，/>为真实序列，/>为其他可能序列。经过这一步骤，就可以将用户使用智能家居产生的具体事件进行论元的角色链接，从而对智能家居使用事件进行完整的标注。

本实施例中，步骤S3具体步骤如下：

如图5所示，给定一个智能家居使用事件，如用户使用空调的这一行文，其对应的节点属性应该是唯一的事件/>，事件触发词/>，事件论元/>，规定每个事件必须有/>角色，其对应论元为时间戳；

使用BERT模型将两个智能家居使用事件拼接进行编码，用以识别两个事件之间的关系，如“打开加湿器”与“给加湿器加水”这两个事件，在输入时将触发词的位置以及时间戳的位置进行标记，将拼接后的向量输入到一个全连接层后，接入进行分类，判别出两个家居使用事件的共指关系、时序关系、因果关系和子事件关系，，

这样，我们就建立起了事件与事件之间的关系。最后，我们根据事件节点以及事件之间关系构建智能家居使用的事件知识图谱。

详细步骤与实施例一提供的基于BERT的智能家居使用事件抽取方法相同，在此不再赘述。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BERT的智能家居使用事件抽取方法，其特征在于，包括以下步骤：

步骤S1通过使用神经网络对多模态信息进行协同特征表示，接着使用全连接神经网络结合专家知识的方式对事件类型进行划分，具体步骤如下：

S11.多模态信息协同特征表示学习：

所有的模态数据信息I进行特征提取，获得特征集合Feature＝(f₁，f₂，...，f_n)，其中f_n表示第n个特征元素，将多模态所输出的不同的特征通过池化的方式进行合成，得到多模态数据特征间的多阶关系抽象特征表示E，通过协同特征的方法进行表示学习可以得到多模态抽象空间，进而可以通过获取到的特征直接共享同一神经网络模型；

S12.基于专家知识的事件角色划定：

专家知识初步获取用户使用智能家居事件的角色集合R＝(role₁，role₂，...，role_n)，其中role_n表示第n个角色元素，针对每个事件类型，为其分配相应的角色集合r，

S2.根据事件类型准备论元角色槽位，将候选实体、事件触发词通过WordPiece方法进行分词并获取token词元，传入BERT预训练模型获取其隐藏层编码，在BERT模块后添加CRF层进行结果先后顺序的约束，并计算论元角色的最大似然估计，实现角色与论元的链接；

步骤S2具体步骤如下：

S21.事件触发词指定：

将用户指令集合C＝(command₁，command₂，...，command_n)，

其中command_n表示第n个用户指令元素，映射为事件触发词集合T_r＝(Trigger₁，Trigger₂，...，Trigger_n)，其中Trugger_n表示第n个事件触发词元素，即：

T_r＝f(C)，

f(·)为用户指令到事件触发词的映射函数，映射类型为满的单射，即事件触发词与用户指令一一对应，将事件触发词使用WordPiece分词方法进行切词获取Token词元，接着构造预训练语言模型BERT的输入，即“[CLS]Token₁，Token₂，...，Token_m[SEP]”，传入BERT后获取触发词的隐藏层表示，将[CLS]的隐藏层表示外接一个全连接神经网络DNN进行事件分类，最后经过Softmax进行事件类别输出，获取事件类型Type，其计算方式如下：

P(i|E)＝soft max(WE+b)，

Type＝arg max(P(i|E))，

其中，[CLS]表示输入的标记，用于分类任务，[SEP]表示Token词元之间的分隔符，Token_m表示第m个词元，P(i|E)表示在抽象特征表示E的条件下，事件被判定为类别i的概率，softmax(·)表示激活函数，argmax(·)表示返回函数最大值，W是可学习的权重矩阵，b是偏置项，i∈T，T是事件类别数；

S22.事件槽位准备：

在此模块中，将上面获取到的事件触发词以及事件类别进行保存，并根据事件类型准备事件角色槽位，首先，动态获取事件类型对应的角色集合r，以r中的角色作为原子节点，通过集合扩展的方式对事件角色进行top-k数据遍历扩展，在整个智能家居语料库中，获取实体集，其次，聚集角色集合r中的每一个实体t_m以及实体集E_n中每一个实体t_n相关度来计算两个实体的语义相关度，定义为Sim(t_m,t_n)，计算公式为：

其中，Jaccard(·)表示相似度函数，C(·)是实体的概念集；

然后对上面生成的Sim进行排序，选择top-k作为角色集合r的扩充，对于k的个数选定，规定扩展后的集合大小|r^*|≤10，即k＝max((10-|r|)，0)，并将最终角色集合r^*用于事件论元与角色链接流程中；

S23.候选实体与事件角色的链接：

在这个模块中，利用上面的事件触发词、事件类型以及事件角色，进行候选实体与事件角色链接，同样，利用WordPiece方法对智能家居的响应具体内容进行分词，获取token词元，接着构造预训练语言模型BERT的输入，即“[CLS]Trigger[SEP]sequence[SEP]”，传入BERT后获取输入序列的隐藏层表示，将每个Token的隐藏层表示输入到条件随机场模型(CRF),用来约束命名实体标签出现的先后关系，设置的优化目标函数为：

其中，s(·)为路径的打分函数，包括发射分数和转移分数，T为BERT的输出表示，y为真实序列，y’为其他可能序列；

S3.以事件触发词和事件论元为核心，根据事件之间的关系进行事件知识图谱的构建。

2.根据权利要求1所述基于BERT的智能家居使用事件抽取方法，其特征在于：

给定一个事件Event，其对应的节点属性应该是唯一的事件id，事件触发词Trigger，事件论元argument，规定每个事件必须有Time角色，其对应论元为时间戳；

使用BERT模型将两个事件拼接进行编码，用以识别两个事件之间的关系，在输入时将触发词的位置以及时间戳的位置进行标记，将拼接后的向量输入到一个全连接层后，接入Softmax进行分类，判别出共指关系、时序关系、因果关系和子事件关系，

Rel＝Softmax(FC(combine(eυent₁,eυent₂)))，

其中Rel(·)表示两事件之间的关系，combine(·)代表拼接操作，FC(·)代表全连接网络的输出，event₁表示事件1，event₂表示事件2。