CN115982381A - 基于违法广告案例的广告领域知识图谱构建方法 - Google Patents

基于违法广告案例的广告领域知识图谱构建方法 Download PDF

Info

Publication number
CN115982381A
CN115982381A CN202211686229.6A CN202211686229A CN115982381A CN 115982381 A CN115982381 A CN 115982381A CN 202211686229 A CN202211686229 A CN 202211686229A CN 115982381 A CN115982381 A CN 115982381A
Authority
CN
China
Prior art keywords
advertisement
knowledge graph
illegal
advertising
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211686229.6A
Other languages
English (en)
Inventor
赵华
曾庆田
张培信
毕丽君
倪维健
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202211686229.6A priority Critical patent/CN115982381A/zh
Publication of CN115982381A publication Critical patent/CN115982381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于违法广告案例的广告领域知识图谱构建方法,涉及知识图谱构建技术领域。该基于违法广告案例的广告领域知识图谱构建方法包括以下步骤:广告命名实体获取、实体定义、采用Bi‑LSTM‑CRF模型实现命名实体的抽取、提取体系作为法律文书的关系、关系抽取模型的建立以及基于GRU和Attention机制实现实体关系抽取。该基于违法广告案例的广告领域知识图谱构建方法,针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习,通过对大量的数据进行知识图谱的自动构建,为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用提供语义支撑,从而能够基于违法广告案例进行更多的知识图谱构建,有效的提升的构建效率。

Description

基于违法广告案例的广告领域知识图谱构建方法
技术领域
本发明涉及知识图谱构建技术领域,具体为一种基于违法广告案例的广告领域知识图谱构建方法。
背景技术
在人工智能推动下的司法改革当中,以法学知识为中心的认知智能是当前人工智能发展的重要方向;知识图谱是存储知识的数据库,知识图谱是由谷歌公司在2012年正式提出的概念,它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,更好的服务特定领域;
在现有技术中,目前知识图谱的构建采用人工建立的方式进行,其在实际使用的过程中,未采用自动构建流程的方式,其不能对相似案例进行检索,类案在整理过程中不能进行精准推动,裁判文书需要人工的对其进行制作和核对,导致整体构建的流程繁琐且效率低;鉴于此,我们提出了一种基于违法广告案例的广告领域知识图谱构建方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于违法广告案例的广告领域知识图谱构建方法,解决了上述背景技术提到的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于违法广告案例的广告领域知识图谱构建方法,所述知识图谱构建方法包括以下步骤:
S1、广告命名实体获取,对于法律文书的语料,采用BIO序列标注格式,在序列标注中,序列指的是一个句子,元素指的是句子中的一个词,信息提取问题可以转换成序列标注问题,BIO标注格式将每个元素标注为“B-XX”、“I-XX”或者“O”;
S2、实体定义;
S3、采用Bi-LSTM-CRF模型实现命名实体的抽取,所述实体抽取模型分为词嵌入层、Bi-LSTM特征学习层和CRF实体识别层;
S4、提取体系作为法律文书的关系;
S5、关系抽取模型的建立;
S6、基于GRU和Attention机制实现实体关系抽取。
可选的,所述S2进一步的包括:提取“广告发布者”、“广告内容”、“违法条例”、“宣发平台”、“惩罚类型”、“监管部门”、“广告类型”、“处罚时间”、“违法原因”作为法律文书的实体名称。
可选的,所述B-XX代表此元素在自定义实体中属于X类型,并且位于此元素片段的开头,I-XX表示此元素所在片段属于X类型并且此元素在片段的中间位置,O表示不属于任何类型。
可选的,所述关系抽取包括全局关系抽取和提及关系抽取,全局关系抽取基于一个很大的语料库,抽取其中的所有关系对。
可选的,所述词嵌入层是模型的输入,采用词嵌入的方法将文本中的词转化为数字向量,根据句子的one-hot向量进行词嵌入操作。
可选的,所述词嵌入模型是Word2Vec。
可选的,所述Bi-LSTM由前向LSTM与后向LSTM组合而成,LSTM是RNN的一个变种,改变在于LSTM引入了细胞状态的概念。
可选的,所述CRF实体识别层使用Bi-LSTM+CRF模型,并使用中文命名实体识别进行识别。
可选的,在中文命名实体识别的任务分为两步:第一步首先将句子embedding输入到BiLSTM模型中,BiLSTM模型输出每个词对应的标签的分数,将对应的标签分数输入到CRF模型中,由CRF层选出最合适的表达并输出句子对应的标注格式。
(三)有益效果
本发明提供了一种基于违法广告案例的广告领域知识图谱构建方法。具备以下有益效果:
该基于违法广告案例的广告领域知识图谱构建方法,针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习,通过对大量的数据进行知识图谱的自动构建,为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用提供语义支撑,从而能够基于违法广告案例进行更多的知识图谱构建,有效的提升的构建效率,同时结合广告领域的特点,定义了实体类型和实体间关系类型,然后基于Bi-LSTM-CRF模型实现实体识别,并提出基于GRU和Attention机制的实体关系抽取方法。
附图说明
图1为本发明结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于违法广告案例的广告领域知识图谱构建方法,包括以下步骤:
S1、广告命名实体获取,对于法律文书的语料,采用BIO序列标注格式,在序列标注中,序列指的是一个句子,元素指的是句子中的一个词,信息提取问题可以转换成序列标注问题,BIO标注格式将每个元素标注为“B-XX”、“I-XX”或者“O”。B-XX代表此元素在自定义实体中属于X类型,并且位于此元素片段的开头,I-XX表示此元素所在片段属于X类型并且此元素在片段的中间位置,O表示不属于任何类型;
具体实体的命名规则如下表所示:
实体名称 实体开始 实体结束
广告发布者 B-APE I-APE
广告内容 B-ACT I-ACT
违法条例 B-IRG I-IRG
宣发平台 B-PPF I-PPF
惩罚类型 B-TYP I-TYP
监管部门 B-RAS I-RAS
广告类型 B-TYA I-TYA
处罚时间 B-TOP I-TOP
违法原因 B-IRS I-IRS
S2、实体定义,提取“广告发布者”、“广告内容”、“违法条例”、“宣发平台”、“惩罚类型”、“监管部门”、“广告类型”、“处罚时间”、“违法原因”作为法律文书的实体名称;
S3、采用Bi-LSTM-CRF模型实现命名实体的抽取,实体抽取模型分为词嵌入层、Bi-LSTM特征学习层和CRF实体识别层;
S4、提取体系作为法律文书的关系,其中关系定位如下表所示:
Figure BDA0004016435650000041
Figure BDA0004016435650000051
S5、关系抽取模型的建立,关系抽取包括全局关系抽取和提及关系抽取,全局关系抽取基于一个很大的语料库,抽取其中的所有关系对;
S6、基于GRU和Attention机制实现实体关系抽取,注意力机制的研究本质上受到人类观察人眼观察物体的启发,人们在观察图像时,通常会根据需求着重关注图像上的某一个部分。注意力机制首先应用于图像领域,通过注意力机制学习某一副图像时不处理所有像素点而是着重处理部分的像素点。注意力机制在NLP的首次应用是机器翻译,利用注意力机制将翻译和对齐同时进行。随后注意力机制在循环神经网络和卷积神经网络中大量使用。采用在双向GRU的神经网络基础上同时应用基于字级别的注意力机制和基于句子级别的注意力机制来提升抽取任务的效果。
同时结合广告领域的特点,定义了实体类型和实体间关系类型,然后基于Bi-LSTM-CRF模型实现实体识别,并提出基于GRU和Attention机制的实体关系抽取方法。
其中,词嵌入层是模型的输入,采用词嵌入的方法将文本中的词转化为数字向量,根据句子的one-hot向量进行词嵌入操作,其中使用的词嵌入模型是Word2Vec。基于上下文,先用向量代表各个词,然后通过一个预测目标函数学习这些向量的参数;
进一步的是,Bi-LSTM由前向LSTM与后向LSTM组合而成,LSTM是RNN的一个变种,改变在于LSTM引入了细胞状态的概念,LSTM的细胞状态会决定那些状态应该留下来,那些状态会被遗忘。LSTM可以捕捉较长距离的依赖关系,使用LSTM模型可以更好的捕捉长距离的依赖关系。Bi-LSTM是LSTM算法的变种,其由前向LSTM和后向LSTM组成,选择Bi-LSTM的原因是因为LSTM的建模算法无法编码从前到后的信息,通过Bi-LSTM可以捕捉一句话中的双向的语义依赖。W=[w1,…,wn]为句子中每个词的词向量,H=[h1,…,hn]为经过Bi-LSTM计算得到的每个词的隐向量。Bi-LSTM按句子顺序,从正向反向两个方向学习句中信息,能够提高情感分类的准确度,其计算公式如下:
Figure BDA0004016435650000061
Figure BDA0004016435650000062
Figure BDA0004016435650000063
Figure BDA0004016435650000064
Figure BDA0004016435650000065
Figure BDA0004016435650000066
Figure BDA0004016435650000067
Figure BDA0004016435650000068
Figure BDA0004016435650000069
Figure BDA00040164356500000610
Figure BDA00040164356500000611
Figure BDA00040164356500000612
Figure BDA00040164356500000613
其中所涉及到的参数含义如下表所示。
Figure BDA00040164356500000614
Figure BDA0004016435650000071
CRF实体识别层,使用Bi-LSTM+CRF模型取得更优的效果,并使用中文命名实体识别进行识别,其在中文命名实体识别的任务分为两步:第一步首先将句子embedding输入到BiLSTM模型中,BiLSTM模型输出每个词对应的标签的分数,将对应的标签分数输入到CRF模型中,由CRF层选出最合适的表达并输出句子对应的标注格式。
该基于违法广告案例的广告领域知识图谱构建方法,针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习,通过对大量的数据进行知识图谱的自动构建,为相似案例检索、类案精准推送、裁判文书自动生成等一系列司法应用提供语义支撑,从而能够基于违法广告案例进行更多的知识图谱构建,有效的提升的构建效率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述知识图谱构建方法包括以下步骤:
S1、广告命名实体获取,对于法律文书的语料,采用BIO序列标注格式,在序列标注中,序列指的是一个句子,元素指的是句子中的一个词,信息提取问题可以转换成序列标注问题,BIO标注格式将每个元素标注为“B-XX”、“I-XX”或者“O”;
S2、实体定义;
S3、采用Bi-LSTM-CRF模型实现命名实体的抽取,所述实体抽取模型分为词嵌入层、Bi-LSTM特征学习层和CRF实体识别层;
S4、提取体系作为法律文书的关系;
S5、关系抽取模型的建立;
S6、基于GRU和Attention机制实现实体关系抽取。
2.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述S2进一步的包括:提取“广告发布者”、“广告内容”、“违法条例”、“宣发平台”、“惩罚类型”、“监管部门”、“广告类型”、“处罚时间”、“违法原因”作为法律文书的实体名称。
3.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述B-XX代表此元素在自定义实体中属于X类型,并且位于此元素片段的开头,I-XX表示此元素所在片段属于X类型并且此元素在片段的中间位置,O表示不属于任何类型。
4.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述关系抽取包括全局关系抽取和提及关系抽取,全局关系抽取基于一个很大的语料库,抽取其中的所有关系对。
5.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述词嵌入层是模型的输入,采用词嵌入的方法将文本中的词转化为数字向量,根据句子的one-hot向量进行词嵌入操作。
6.根据权利要求5所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述词嵌入模型是Word2Vec。
7.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述Bi-LSTM由前向LSTM与后向LSTM组合而成,LSTM是RNN的一个变种,改变在于LSTM引入了细胞状态的概念。
8.根据权利要求1所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:所述CRF实体识别层使用Bi-LSTM+CRF模型,并使用中文命名实体识别进行识别。
9.根据权利要求8所述的基于违法广告案例的广告领域知识图谱构建方法,其特征在于:在中文命名实体识别的任务分为两步:第一步首先将句子embedding输入到BiLSTM模型中,BiLSTM模型输出每个词对应的标签的分数,将对应的标签分数输入到CRF模型中,由CRF层选出最合适的表达并输出句子对应的标注格式。
CN202211686229.6A 2022-12-26 2022-12-26 基于违法广告案例的广告领域知识图谱构建方法 Pending CN115982381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211686229.6A CN115982381A (zh) 2022-12-26 2022-12-26 基于违法广告案例的广告领域知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211686229.6A CN115982381A (zh) 2022-12-26 2022-12-26 基于违法广告案例的广告领域知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN115982381A true CN115982381A (zh) 2023-04-18

Family

ID=85962163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211686229.6A Pending CN115982381A (zh) 2022-12-26 2022-12-26 基于违法广告案例的广告领域知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN115982381A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701357A (zh) * 2023-06-15 2023-09-05 深圳市象无形信息科技有限公司 基于语义网络的ifc数据管理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701357A (zh) * 2023-06-15 2023-09-05 深圳市象无形信息科技有限公司 基于语义网络的ifc数据管理方法及装置

Similar Documents

Publication Publication Date Title
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109062893A (zh) 一种基于全文注意力机制的商品名称识别方法
CN104376010B (zh) 用户推荐方法和装置
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN113553429B (zh) 一种规范化标签体系构建及文本自动标注方法
CN109753602A (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN111309936A (zh) 一种电影用户画像的构建方法
CN110909529B (zh) 一种公司形象提升系统的用户情感分析和预判系统
CN110390084A (zh) 文本查重方法、装置、设备及存储介质
CN110532398A (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN117033721A (zh) 一种基于法律知识图谱的法律咨询报告生成系统及方法
CN109446423A (zh) 一种新闻以及文本的情感判断系统及方法
CN115982381A (zh) 基于违法广告案例的广告领域知识图谱构建方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN113244627B (zh) 识别外挂的方法、装置、电子设备以及存储介质
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN109816443A (zh) 一种基于情感分析的用户痛点量化方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
Wang et al. Joint Learning on Relevant User Attributes in Micro-blog.
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
Lu et al. A military named entity recognition method based on pre-training language model and BiLSTM-CRF
CN112699684A (zh) 命名实体识别方法和装置、计算机可读存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination