CN115982381A

CN115982381A - 基于违法广告案例的广告领域知识图谱构建方法

Info

Publication number: CN115982381A
Application number: CN202211686229.6A
Authority: CN
Inventors: 赵华; 曾庆田; 张培信; 毕丽君; 倪维健; 张峰
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-18

Abstract

本发明公开了一种基于违法广告案例的广告领域知识图谱构建方法，涉及知识图谱构建技术领域。该基于违法广告案例的广告领域知识图谱构建方法包括以下步骤：广告命名实体获取、实体定义、采用Bi‑LSTM‑CRF模型实现命名实体的抽取、提取体系作为法律文书的关系、关系抽取模型的建立以及基于GRU和Attention机制实现实体关系抽取。该基于违法广告案例的广告领域知识图谱构建方法，针对关系抽取任务，该文提出融合平移嵌入的多任务联合的语义关系抽取模型，同时获得了结合上下文的案情知识表示学习，通过对大量的数据进行知识图谱的自动构建，为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用提供语义支撑，从而能够基于违法广告案例进行更多的知识图谱构建，有效的提升的构建效率。

Description

基于违法广告案例的广告领域知识图谱构建方法

技术领域

本发明涉及知识图谱构建技术领域，具体为一种基于违法广告案例的广告领域知识图谱构建方法。

背景技术

在人工智能推动下的司法改革当中，以法学知识为中心的认知智能是当前人工智能发展的重要方向；知识图谱是存储知识的数据库，知识图谱是由谷歌公司在2012年正式提出的概念，它的主要目的是在面对互联网高速发展，网络数据爆炸增长的时代，增强搜索效率，完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性，为信息智能应用建立了基础，广泛运用于搜索、问答、情报分析等方面，促进信息技术从信息服务向知识服务发展。近几年，各行各业都在研究将知识图谱应用于专业领域，更好的服务特定领域；

在现有技术中，目前知识图谱的构建采用人工建立的方式进行，其在实际使用的过程中，未采用自动构建流程的方式，其不能对相似案例进行检索，类案在整理过程中不能进行精准推动，裁判文书需要人工的对其进行制作和核对，导致整体构建的流程繁琐且效率低；鉴于此，我们提出了一种基于违法广告案例的广告领域知识图谱构建方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于违法广告案例的广告领域知识图谱构建方法，解决了上述背景技术提到的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于违法广告案例的广告领域知识图谱构建方法，所述知识图谱构建方法包括以下步骤：

S1、广告命名实体获取，对于法律文书的语料，采用BIO序列标注格式，在序列标注中，序列指的是一个句子，元素指的是句子中的一个词，信息提取问题可以转换成序列标注问题，BIO标注格式将每个元素标注为“B-XX”、“I-XX”或者“O”；

S2、实体定义；

S3、采用Bi-LSTM-CRF模型实现命名实体的抽取，所述实体抽取模型分为词嵌入层、Bi-LSTM特征学习层和CRF实体识别层；

S4、提取体系作为法律文书的关系；

S5、关系抽取模型的建立；

S6、基于GRU和Attention机制实现实体关系抽取。

可选的，所述S2进一步的包括：提取“广告发布者”、“广告内容”、“违法条例”、“宣发平台”、“惩罚类型”、“监管部门”、“广告类型”、“处罚时间”、“违法原因”作为法律文书的实体名称。

可选的，所述B-XX代表此元素在自定义实体中属于X类型，并且位于此元素片段的开头，I-XX表示此元素所在片段属于X类型并且此元素在片段的中间位置，O表示不属于任何类型。

可选的，所述关系抽取包括全局关系抽取和提及关系抽取，全局关系抽取基于一个很大的语料库，抽取其中的所有关系对。

可选的，所述词嵌入层是模型的输入，采用词嵌入的方法将文本中的词转化为数字向量，根据句子的one-hot向量进行词嵌入操作。

可选的，所述词嵌入模型是Word2Vec。

可选的，所述Bi-LSTM由前向LSTM与后向LSTM组合而成，LSTM是RNN的一个变种，改变在于LSTM引入了细胞状态的概念。

可选的，所述CRF实体识别层使用Bi-LSTM+CRF模型，并使用中文命名实体识别进行识别。

可选的，在中文命名实体识别的任务分为两步：第一步首先将句子embedding输入到BiLSTM模型中，BiLSTM模型输出每个词对应的标签的分数，将对应的标签分数输入到CRF模型中，由CRF层选出最合适的表达并输出句子对应的标注格式。

(三)有益效果

本发明提供了一种基于违法广告案例的广告领域知识图谱构建方法。具备以下有益效果：

该基于违法广告案例的广告领域知识图谱构建方法，针对关系抽取任务，该文提出融合平移嵌入的多任务联合的语义关系抽取模型，同时获得了结合上下文的案情知识表示学习，通过对大量的数据进行知识图谱的自动构建，为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用提供语义支撑，从而能够基于违法广告案例进行更多的知识图谱构建，有效的提升的构建效率，同时结合广告领域的特点，定义了实体类型和实体间关系类型，然后基于Bi-LSTM-CRF模型实现实体识别，并提出基于GRU和Attention机制的实体关系抽取方法。

附图说明

图1为本发明结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于违法广告案例的广告领域知识图谱构建方法，包括以下步骤：

S1、广告命名实体获取，对于法律文书的语料，采用BIO序列标注格式，在序列标注中，序列指的是一个句子，元素指的是句子中的一个词，信息提取问题可以转换成序列标注问题，BIO标注格式将每个元素标注为“B-XX”、“I-XX”或者“O”。B-XX代表此元素在自定义实体中属于X类型，并且位于此元素片段的开头，I-XX表示此元素所在片段属于X类型并且此元素在片段的中间位置，O表示不属于任何类型；

具体实体的命名规则如下表所示：

实体名称	实体开始	实体结束
			广告发布者	B-APE	I-APE
广告内容	B-ACT	I-ACT
			违法条例	B-IRG	I-IRG
宣发平台	B-PPF	I-PPF
			惩罚类型	B-TYP	I-TYP
监管部门	B-RAS	I-RAS
			广告类型	B-TYA	I-TYA
处罚时间	B-TOP	I-TOP
			违法原因	B-IRS	I-IRS

S2、实体定义，提取“广告发布者”、“广告内容”、“违法条例”、“宣发平台”、“惩罚类型”、“监管部门”、“广告类型”、“处罚时间”、“违法原因”作为法律文书的实体名称；

S3、采用Bi-LSTM-CRF模型实现命名实体的抽取，实体抽取模型分为词嵌入层、Bi-LSTM特征学习层和CRF实体识别层；

S4、提取体系作为法律文书的关系，其中关系定位如下表所示：

S5、关系抽取模型的建立，关系抽取包括全局关系抽取和提及关系抽取，全局关系抽取基于一个很大的语料库，抽取其中的所有关系对；

S6、基于GRU和Attention机制实现实体关系抽取，注意力机制的研究本质上受到人类观察人眼观察物体的启发，人们在观察图像时，通常会根据需求着重关注图像上的某一个部分。注意力机制首先应用于图像领域，通过注意力机制学习某一副图像时不处理所有像素点而是着重处理部分的像素点。注意力机制在NLP的首次应用是机器翻译，利用注意力机制将翻译和对齐同时进行。随后注意力机制在循环神经网络和卷积神经网络中大量使用。采用在双向GRU的神经网络基础上同时应用基于字级别的注意力机制和基于句子级别的注意力机制来提升抽取任务的效果。

同时结合广告领域的特点，定义了实体类型和实体间关系类型，然后基于Bi-LSTM-CRF模型实现实体识别，并提出基于GRU和Attention机制的实体关系抽取方法。

其中，词嵌入层是模型的输入，采用词嵌入的方法将文本中的词转化为数字向量，根据句子的one-hot向量进行词嵌入操作，其中使用的词嵌入模型是Word2Vec。基于上下文，先用向量代表各个词，然后通过一个预测目标函数学习这些向量的参数；

进一步的是，Bi-LSTM由前向LSTM与后向LSTM组合而成，LSTM是RNN的一个变种，改变在于LSTM引入了细胞状态的概念，LSTM的细胞状态会决定那些状态应该留下来，那些状态会被遗忘。LSTM可以捕捉较长距离的依赖关系，使用LSTM模型可以更好的捕捉长距离的依赖关系。Bi-LSTM是LSTM算法的变种，其由前向LSTM和后向LSTM组成，选择Bi-LSTM的原因是因为LSTM的建模算法无法编码从前到后的信息，通过Bi-LSTM可以捕捉一句话中的双向的语义依赖。W＝[w₁,…,w_n]为句子中每个词的词向量，H＝[h₁,…,h_n]为经过Bi-LSTM计算得到的每个词的隐向量。Bi-LSTM按句子顺序，从正向反向两个方向学习句中信息，能够提高情感分类的准确度，其计算公式如下：

其中所涉及到的参数含义如下表所示。

CRF实体识别层，使用Bi-LSTM+CRF模型取得更优的效果，并使用中文命名实体识别进行识别，其在中文命名实体识别的任务分为两步：第一步首先将句子embedding输入到BiLSTM模型中，BiLSTM模型输出每个词对应的标签的分数，将对应的标签分数输入到CRF模型中，由CRF层选出最合适的表达并输出句子对应的标注格式。

该基于违法广告案例的广告领域知识图谱构建方法，针对关系抽取任务，该文提出融合平移嵌入的多任务联合的语义关系抽取模型，同时获得了结合上下文的案情知识表示学习，通过对大量的数据进行知识图谱的自动构建，为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用提供语义支撑，从而能够基于违法广告案例进行更多的知识图谱构建，有效的提升的构建效率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述知识图谱构建方法包括以下步骤：

S2、实体定义；

S4、提取体系作为法律文书的关系；

S5、关系抽取模型的建立；

S6、基于GRU和Attention机制实现实体关系抽取。

2.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述S2进一步的包括：提取“广告发布者”、“广告内容”、“违法条例”、“宣发平台”、“惩罚类型”、“监管部门”、“广告类型”、“处罚时间”、“违法原因”作为法律文书的实体名称。

3.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述B-XX代表此元素在自定义实体中属于X类型，并且位于此元素片段的开头，I-XX表示此元素所在片段属于X类型并且此元素在片段的中间位置，O表示不属于任何类型。

4.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述关系抽取包括全局关系抽取和提及关系抽取，全局关系抽取基于一个很大的语料库，抽取其中的所有关系对。

5.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述词嵌入层是模型的输入，采用词嵌入的方法将文本中的词转化为数字向量，根据句子的one-hot向量进行词嵌入操作。

6.根据权利要求5所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述词嵌入模型是Word2Vec。

7.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述Bi-LSTM由前向LSTM与后向LSTM组合而成，LSTM是RNN的一个变种，改变在于LSTM引入了细胞状态的概念。

8.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：所述CRF实体识别层使用Bi-LSTM+CRF模型，并使用中文命名实体识别进行识别。

9.根据权利要求8所述的基于违法广告案例的广告领域知识图谱构建方法，其特征在于：在中文命名实体识别的任务分为两步：第一步首先将句子embedding输入到BiLSTM模型中，BiLSTM模型输出每个词对应的标签的分数，将对应的标签分数输入到CRF模型中，由CRF层选出最合适的表达并输出句子对应的标注格式。