CN116227496A - 一种基于深度学习的电力舆情实体关系抽取方法及系统 - Google Patents
一种基于深度学习的电力舆情实体关系抽取方法及系统 Download PDFInfo
- Publication number
- CN116227496A CN116227496A CN202310498522.8A CN202310498522A CN116227496A CN 116227496 A CN116227496 A CN 116227496A CN 202310498522 A CN202310498522 A CN 202310498522A CN 116227496 A CN116227496 A CN 116227496A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- public opinion
- electric public
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 196
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,具体提供了一种基于深度学习的电力舆情实体关系抽取方法及系统,包括:将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。本发明提供的技术方案,可以有效的从电力舆情文本中自动的将包含的实体内容与实体之间的关系抽取出来。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习的电力舆情实体关系抽取方法及系统。
背景技术
随着网络技术的发展,每天会产生大量的文本数据,人们需要处理的数据量呈现爆炸性激增的趋势。在文本数据的研究中,信息抽取作为一种基本的文本处理方式,主要有三个子任务:实体识别、关系抽取和事件抽取。在自然语言处理领域,实体关系抽取是信息抽取、信息检索中的核心任务和重要的环节,即从文本中抽取出其中包含的实体内容以及实体之间的关系。
在进行实体关系抽取的过程中,有众多的学者通过多种的相关技术在该领域进行深入的研究,其中经典的实体关系抽取方法有监督、半监督、弱监督和无监督的实体关系抽取方法,但是经典的方法在特征的提取方面是存在误差传播的情况,这些问题的存在极大的影响着实体关系抽取的一个结果。
发明内容
为了克服上述缺陷,本发明提出了一种基于深度学习的电力舆情实体关系抽取方法及系统。
第一方面,提供一种基于深度学习的电力舆情实体关系抽取方法,所述基于深度学习的电力舆情实体关系抽取方法包括:
将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;
获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。
优选的,所述方法还包括:
将所述属性特征作为预先构建的实体抽取模型的输入,得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果;
判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合,若是,则所述电力舆情文本的实体关系标注结果正确,否则,删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。
优选的,所述属性特征包括下述中的至少一种:五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。
进一步的,所述BERT特征的获取过程包括:将所述电力舆情文本代入BERT模型进行特征提取,得到BERT模型输出的BERT特征。
进一步的,所述预先构建的关系抽取模型包括:依次连接的BERT模型、全连接层和sigmoid激活函层;
所述预先构建的实体抽取模型包括:依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型;
所述预先构建的实体关系抽取模型包括:依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型;
所述第一特征融合层,用于将所述属性特征进行特征融合,得到第一融合特征;
所述第二特征融合层,用于将所述属性特征和关系特征标注结果进行特征融合,得到第二融合特征。
进一步的,所述预先构建的关系抽取模型的获取过程包括:
利用含关系特征标注结果的电力舆情文本建立训练数据,其中,若电力舆情文本的字的含义表示关系,则该字的关系特征标注结果为S,否则,该字的关系特征标注结果为空;
利用所述训练数据对初始关系抽取模型进行训练,得到所述预先构建的关系抽取模型。
进一步的,所述预先构建的实体抽取模型的获取过程包括:
利用含实体标注结果的电力舆情文本建立训练数据,其中,当电力舆情文本的字为实体名称的起始字时,该字的实体标注结果为B,当电力舆情文本的字为实体名称除起始字以外的字时,该字的实体标注结果为I,当电力舆情文本的字不是实体名称中的字时,该字的实体特征标注结果为空;
利用所述训练数据对初始实体抽取模型进行训练,得到所述预先构建的实体抽取模型。
进一步的,所述预先构建的实体关系抽取模型的获取过程包括:
利用含实体关系特征标注结果的电力舆情文本建立训练数据;
利用所述训练数据对初始实体关系抽取模型进行训练,得到所述预先构建的实体关系抽取模型。
进一步的,所述利用含实体关系特征标注结果的电力舆情文本建立训练数据,包括:
当电力舆情文本的字的含义表示关系时,该字的关系特征标注结果为S,当电力舆情文本的字为主体名称的起始字时,该字的实体关系标注结果为B-o,当电力舆情文本的字为主体名称除起始字以外的字时,该字的实体关系标注结果为I-o,当电力舆情文本的字为客体名称的起始字时,该字的实体关系标注结果为B-s,当电力舆情文本的字为客体名称除起始字以外的字时,该字的实体关系标注结果为I-s,当电力舆情文本的字的含义不表示关系且不是实体名称中的字时,该字的实体关系特征标注结果为空。
第二方面,提供一种基于深度学习的电力舆情实体关系抽取系统,所述基于深度学习的电力舆情实体关系抽取系统包括:
第一分析模块,用于将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;
第二分析模块,用于获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。
优选的,所述系统还包括第一分析模块,具体用于:
将所述属性特征作为预先构建的实体抽取模型的输入,得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果;
判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合,若是,则所述电力舆情文本的实体关系标注结果正确,否则,删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。
优选的,所述属性特征包括下述中的至少一种:五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。
进一步的,所述BERT特征的获取过程包括:将所述电力舆情文本代入BERT模型进行特征提取,得到BERT模型输出的BERT特征。
进一步的,所述预先构建的关系抽取模型包括:依次连接的BERT模型、全连接层和sigmoid激活函层;
所述预先构建的实体抽取模型包括:依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型;
所述预先构建的实体关系抽取模型包括:依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型;
所述第一特征融合层,用于将所述属性特征进行特征融合,得到第一融合特征;
所述第二特征融合层,用于将所述属性特征和关系特征标注结果进行特征融合,得到第二融合特征。
进一步的,所述预先构建的关系抽取模型的获取过程包括:
利用含关系特征标注结果的电力舆情文本建立训练数据,其中,若电力舆情文本的字的含义表示关系,则该字的关系特征标注结果为S,否则,该字的关系特征标注结果为空;
利用所述训练数据对初始关系抽取模型进行训练,得到所述预先构建的关系抽取模型。
进一步的,所述预先构建的实体抽取模型的获取过程包括:
利用含实体标注结果的电力舆情文本建立训练数据,其中,当电力舆情文本的字为实体名称的起始字时,该字的实体标注结果为B,当电力舆情文本的字为实体名称除起始字以外的字时,该字的实体标注结果为I,当电力舆情文本的字不是实体名称中的字时,该字的实体特征标注结果为空;
利用所述训练数据对初始实体抽取模型进行训练,得到所述预先构建的实体抽取模型。
进一步的,所述预先构建的实体关系抽取模型的获取过程包括:
利用含实体关系特征标注结果的电力舆情文本建立训练数据;
利用所述训练数据对初始实体关系抽取模型进行训练,得到所述预先构建的实体关系抽取模型。
进一步的,所述利用含实体关系特征标注结果的电力舆情文本建立训练数据,包括:
当电力舆情文本的字的含义表示关系时,该字的关系特征标注结果为S,当电力舆情文本的字为主体名称的起始字时,该字的实体关系标注结果为B-o,当电力舆情文本的字为主体名称除起始字以外的字时,该字的实体关系标注结果为I-o,当电力舆情文本的字为客体名称的起始字时,该字的实体关系标注结果为B-s,当电力舆情文本的字为客体名称除起始字以外的字时,该字的实体关系标注结果为I-s,当电力舆情文本的字的含义不表示关系且不是实体名称中的字时,该字的实体关系特征标注结果为空。
第三方面,提供一种计算机设备,包括:一个或多个处理器;
所述处理器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,实现所述的基于深度学习的电力舆情实体关系抽取方法。
第四方面,提供一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现所述的基于深度学习的电力舆情实体关系抽取方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明提供了一种基于深度学习的电力舆情实体关系抽取方法及系统,包括:将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。本发明提供的技术方案,可以有效的从电力舆情文本中自动的将包含的实体内容与实体之间的关系抽取出来;
进一步的,从大量的电力舆情文本中进行分析每条文本中包含的实体名称以及各个名称之间的关系是一项繁杂且低效的工作,通过本发明提供的技术方案,可以大大减少人工的工作量,提高效率,节约成本;
本发明提供的技术方案通过使用电力舆情文本的五笔顺序、偏旁部首和拼音等多种编码方式进行特征的提取,从而使得到的实体更加准确;
本发明提供的技术方案通过采用实体抽取,关系抽取,主体名称客体名称的关系抽取模型,综合来进行实体关系抽取,提高了整体实体关系抽取的准确率。
附图说明
图1是本发明实施例的基于深度学习的电力舆情实体关系抽取方法的主要步骤流程示意图;
图2是本发明实施例的关系抽取模型结构示意图;
图3是本发明实施例的实体抽取模型结构示意图;
图4是本发明实施例的实体关系抽取模型结构示意图;
图5是本发明实施例的基于深度学习的电力舆情实体关系抽取方法的原理示意图;
图6是本发明实施例的基于深度学习的电力舆情实体关系抽取系统的主要结构框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如背景技术中所公开的,随着网络技术的发展,每天会产生大量的文本数据,人们需要处理的数据量呈现爆炸性激增的趋势。在文本数据的研究中,信息抽取作为一种基本的文本处理方式,主要有三个子任务:实体识别、关系抽取和事件抽取。在自然语言处理领域,实体关系抽取是信息抽取、信息检索中的核心任务和重要的环节,即从文本中抽取出其中包含的实体内容以及实体之间的关系。
在进行实体关系抽取的过程中,有众多的学者通过多种的相关技术在该领域进行深入的研究,其中经典的实体关系抽取方法有监督、半监督、弱监督和无监督的实体关系抽取方法,但是经典的方法在特征的提取方面是存在误差传播的情况,这些问题的存在极大的影响着实体关系抽取的一个结果。
为了改善上述问题,本发明提供了一种基于深度学习的电力舆情实体关系抽取方法及系统,包括:将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。本发明提供的技术方案,可以有效的从电力舆情文本中自动的将包含的实体内容与实体之间的关系抽取出来;
进一步的,从大量的电力舆情文本中进行分析每条文本中包含的实体名称以及各个名称之间的关系是一项繁杂且低效的工作,通过本发明提供的技术方案,可以大大减少人工的工作量,提高效率,节约成本;
本发明提供的技术方案通过使用电力舆情文本的五笔顺序、偏旁部首和拼音等多种编码方式进行特征的提取,从而使得到的实体更加准确;
本发明提供的技术方案通过采用实体抽取,关系抽取,主体名称客体名称的关系抽取模型,综合来进行实体关系抽取,提高了整体实体关系抽取的准确率。下面对上述方案进行详细阐述。
实施例1
参阅附图1,图1是本发明的一个实施例的基于深度学习的电力舆情实体关系抽取方法的主要步骤流程示意图。如图1所示,本发明实施例中的基于深度学习的电力舆情实体关系抽取方法主要包括以下步骤:
步骤S101:将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;
步骤S102:获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。
本实施例中,所述方法还包括:
将所述属性特征作为预先构建的实体抽取模型的输入,得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果;
判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合,若是,则所述电力舆情文本的实体关系标注结果正确,否则,删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。
其中,所述属性特征包括下述中的至少一种:五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。
在一个实施方式中,所述BERT特征的获取过程包括:将所述电力舆情文本代入BERT模型进行特征提取,得到BERT模型输出的BERT特征。
在一个实施方式中,如图2所示,所述预先构建的关系抽取模型包括:依次连接的BERT模型、全连接层和sigmoid激活函层;
如图3所示,所述预先构建的实体抽取模型包括:依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型;
如图4所示,所述预先构建的实体关系抽取模型包括:依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型;
所述第一特征融合层,用于将所述属性特征进行特征融合,得到第一融合特征;
所述第二特征融合层,用于将所述属性特征和关系特征标注结果进行特征融合,得到第二融合特征。
上述模型的获取过程中均需要建立训练数据,本发明提供的技术方案中,通过电力舆情文本的数据,采用人工标记的方式,对于数据中包含的实体内容进行标注,并且对于实体与实体之间的关系进行标注,从而生成电力舆情语料库;
对于标注好的实体关系数据又可以形成种子关系对数据集,通过这些种子关系对对未标注的电力舆情文本进行实体关系的抽取,从而对电力舆情语料库进行补充,进而得到训练数据;
本发明通过分类算法将电力舆情文本进行关系分类,其中对于每一句电力舆情文本,其中可能包含一种或多种实体关系,也可能一种关系都没有包含,因此,所述预先构建的关系抽取模型的获取过程包括:
利用含关系特征标注结果的电力舆情文本建立训练数据,其中,若电力舆情文本的字的含义表示关系,则该字的关系特征标注结果为S,否则,该字的关系特征标注结果为空;
利用所述训练数据对初始关系抽取模型进行训练,得到所述预先构建的关系抽取模型。
在一个具体的实施方式中,按下述方式获取所述预先构建的关系抽取模型:
步骤一:将电力舆情文本数据中的每一句都拆分成单个字形式,通过使用BERT预训练模型来对电力舆情文本进行特征提取,得到其对应的BERT特征向量;
步骤二:对每一句文本中所包含的实体之间的关系进行分类,在一条文本中可能含有一个或者多组的实体关系对,也可能其中不包含任何关系;
步骤三:添加一个全连接层链接,并且通过sigmoid激活函数得到每个类别的概率,取0.5作为关系概率通过的阈值,即某个关系的概率大于0.5,就将该类别作为电力舆情文本中所包含的实体之间可能存在的关系。
本发明对电力舆情文本数据中的实体进行抽取,获得电力舆情文本中所包含的实体内容,因此,所述预先构建的实体抽取模型的获取过程包括:
利用含实体标注结果的电力舆情文本建立训练数据,其中,当电力舆情文本的字为实体名称的起始字时,该字的实体标注结果为B,当电力舆情文本的字为实体名称除起始字以外的字时,该字的实体标注结果为I,当电力舆情文本的字不是实体名称中的字时,该字的实体特征标注结果为空;
利用所述训练数据对初始实体抽取模型进行训练,得到所述预先构建的实体抽取模型。
在一个实施方式中,按下述方式得到所述预先构建的实体抽取模型:
步骤一:模型搭建:实体抽取模型是通过BERT预训练模型、双向长短时记忆网络和条件随机场模型来进行搭建。其中BERT从每个字的语义出发,通过BERT预训练模型得到BERT模型返回的特征向量。通过使用电力舆情文本的五笔顺序、偏旁部首和拼音等进行编码作为双向长短时记忆网络的输入,得到相应的特征向量。五笔顺序、偏旁部首和拼音得到的特征向量与BERT模型得到的特征向量进行融合,作为条件随机场的输入。条件随机场模型被广泛的运用到实体识别的场景,并且取得了很好的实体识别效果,其可以使最终的识别结果中标签的标注结果更合理一些,去除了那些不合理的标签内容。
步骤二:数据处理:采用BIO标注方式进行标注,其中“B”表示实体开始的标签,“I”表示一组实体中除了起始第一个字符外其他位置的标签。将用户问句作为实体识别模型的输入,通过采用One-Hot编码的方式,来获得五笔顺序、偏旁部首和拼音的特征向量。使用BERT预训练模型来获取BERT对应的特征向量。
步骤三:实体的抽取:将五笔顺序、偏旁部首和拼音的特征向量与BERT预训练模型获得的特征向量进行融合作为条件随机场模型的输入,获得对应输入文本中每一个字的标记标签的概率,这些标签概率作为条件随机场的输入来计算出每一个标记标签,对于不合理的标签结果进行去除。
本发明根据电力舆情文本的实体关系抽取模型,从文本中得到实体之间的关系。因此,所述预先构建的实体关系抽取模型的获取过程包括:
利用含实体关系特征标注结果的电力舆情文本建立训练数据;
利用所述训练数据对初始实体关系抽取模型进行训练,得到所述预先构建的实体关系抽取模型。
在一个实施方式中,所述利用含实体关系特征标注结果的电力舆情文本建立训练数据,包括:
当电力舆情文本的字的含义表示关系时,该字的关系特征标注结果为S,当电力舆情文本的字为主体名称的起始字时,该字的实体关系标注结果为B-o,当电力舆情文本的字为主体名称除起始字以外的字时,该字的实体关系标注结果为I-o,当电力舆情文本的字为客体名称的起始字时,该字的实体关系标注结果为B-s,当电力舆情文本的字为客体名称除起始字以外的字时,该字的实体关系标注结果为I-s,当电力舆情文本的字的含义不表示关系且不是实体名称中的字时,该字的实体关系特征标注结果为空。
在一个具体的实施方式中,按下述方式获取所述预先构建的实体关系抽取模型:
步骤一:搭建实体关系抽取模型,该模型是在实体抽取模型的基础上添加对关系标注的部分。在训练电力舆情文本实体关系抽取模型时,通过使用电力舆情相关的关系语料库中的语料,对于每条文本中存在的实体关系都通过关系三元组的形式进行标注。
步骤二:采用的是BIO标注策略,其中“B-o”表示主体名称开始的标签,“I-o”表示一组主体名称中除了起始第一个字符外其他位置的标签,“B-s”表示客体名称开始的标签,“I-s”表示一组客体名称中除了起始第一个字符外其他位置的标签。其中“S”表示关系的标签。
步骤三:将标注的电力舆情文本数据输入到电力舆情实体关系抽取模型中,其基本流程与实体抽取模型类似。实体关系抽取模型部分是将实体之间的关系在电力舆情文本后进行实体关系标注的拼接从而得到完整的实体关系标注内容。
通过实体关系抽取模型得到电力舆情文本中‘实体—关系—实体’三元组的形式表示的实体关系组,如图5所示。在进行实体抽取时,可以得到文本中含有的更全的实体名称。通过实体关系抽取模型可以从包含的关系中抽取出文本中对应的主体名称和客体名称,这些主体与客体名称与实体抽取模型抽取出的实体内容进行对比融合,从而最终得到更加准确的实体关系三元组。
实施例2
基于同一种发明构思,本发明还提供了一种基于深度学习的电力舆情实体关系抽取系统,如图6所示,所述基于深度学习的电力舆情实体关系抽取系统包括:
第一分析模块,用于将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;
第二分析模块,用于获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。
优选的,所述系统还包括第一分析模块,具体用于:
将所述属性特征作为预先构建的实体抽取模型的输入,得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果;
判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合,若是,则所述电力舆情文本的实体关系标注结果正确,否则,删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。
优选的,所述属性特征包括下述中的至少一种:五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。
进一步的,所述BERT特征的获取过程包括:将所述电力舆情文本代入BERT模型进行特征提取,得到BERT模型输出的BERT特征。
进一步的,所述预先构建的关系抽取模型包括:依次连接的BERT模型、全连接层和sigmoid激活函层;
所述预先构建的实体抽取模型包括:依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型;
所述预先构建的实体关系抽取模型包括:依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型;
所述第一特征融合层,用于将所述属性特征进行特征融合,得到第一融合特征;
所述第二特征融合层,用于将所述属性特征和关系特征标注结果进行特征融合,得到第二融合特征。
进一步的,所述预先构建的关系抽取模型的获取过程包括:
利用含关系特征标注结果的电力舆情文本建立训练数据,其中,若电力舆情文本的字的含义表示关系,则该字的关系特征标注结果为S,否则,该字的关系特征标注结果为空;
利用所述训练数据对初始关系抽取模型进行训练,得到所述预先构建的关系抽取模型。
进一步的,所述预先构建的实体抽取模型的获取过程包括:
利用含实体标注结果的电力舆情文本建立训练数据,其中,当电力舆情文本的字为实体名称的起始字时,该字的实体标注结果为B,当电力舆情文本的字为实体名称除起始字以外的字时,该字的实体标注结果为I,当电力舆情文本的字不是实体名称中的字时,该字的实体特征标注结果为空;
利用所述训练数据对初始实体抽取模型进行训练,得到所述预先构建的实体抽取模型。
进一步的,所述预先构建的实体关系抽取模型的获取过程包括:
利用含实体关系特征标注结果的电力舆情文本建立训练数据;
利用所述训练数据对初始实体关系抽取模型进行训练,得到所述预先构建的实体关系抽取模型。
进一步的,所述利用含实体关系特征标注结果的电力舆情文本建立训练数据,包括:
当电力舆情文本的字的含义表示关系时,该字的关系特征标注结果为S,当电力舆情文本的字为主体名称的起始字时,该字的实体关系标注结果为B-o,当电力舆情文本的字为主体名称除起始字以外的字时,该字的实体关系标注结果为I-o,当电力舆情文本的字为客体名称的起始字时,该字的实体关系标注结果为B-s,当电力舆情文本的字为客体名称除起始字以外的字时,该字的实体关系标注结果为I-s,当电力舆情文本的字的含义不表示关系且不是实体名称中的字时,该字的实体关系特征标注结果为空。
实施例3
基于同一种发明构思,本发明还提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能,以实现上述实施例中一种基于深度学习的电力舆情实体关系抽取方法的步骤。
实施例4
基于同一种发明构思,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM 存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中一种基于深度学习的电力舆情实体关系抽取方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (20)
1.一种基于深度学习的电力舆情实体关系抽取方法,其特征在于,所述方法包括:
将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;
获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述属性特征作为预先构建的实体抽取模型的输入,得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果;
判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合,若是,则所述电力舆情文本的实体关系标注结果正确,否则,删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。
3.如权利要求1所述的方法,其特征在于,所述属性特征包括下述中的至少一种:五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。
4.如权利要求3所述的方法,其特征在于,所述BERT特征的获取过程包括:将所述电力舆情文本代入BERT模型进行特征提取,得到BERT模型输出的BERT特征。
5.如权利要求2所述的方法,其特征在于,所述预先构建的关系抽取模型包括:依次连接的BERT模型、全连接层和sigmoid激活函层;
所述预先构建的实体抽取模型包括:依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型;
所述预先构建的实体关系抽取模型包括:依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型;
所述第一特征融合层,用于将所述属性特征进行特征融合,得到第一融合特征;
所述第二特征融合层,用于将所述属性特征和关系特征标注结果进行特征融合,得到第二融合特征。
6.如权利要求5所述的方法,其特征在于,所述预先构建的关系抽取模型的获取过程包括:
利用含关系特征标注结果的电力舆情文本建立训练数据,其中,若电力舆情文本的字的含义表示关系,则该字的关系特征标注结果为S,否则,该字的关系特征标注结果为空;
利用所述训练数据对初始关系抽取模型进行训练,得到所述预先构建的关系抽取模型。
7.如权利要求5所述的方法,其特征在于,所述预先构建的实体抽取模型的获取过程包括:
利用含实体标注结果的电力舆情文本建立训练数据,其中,当电力舆情文本的字为实体名称的起始字时,该字的实体标注结果为B,当电力舆情文本的字为实体名称除起始字以外的字时,该字的实体标注结果为I,当电力舆情文本的字不是实体名称中的字时,该字的实体特征标注结果为空;
利用所述训练数据对初始实体抽取模型进行训练,得到所述预先构建的实体抽取模型。
8.如权利要求5所述的方法,其特征在于,所述预先构建的实体关系抽取模型的获取过程包括:
利用含实体关系特征标注结果的电力舆情文本建立训练数据;
利用所述训练数据对初始实体关系抽取模型进行训练,得到所述预先构建的实体关系抽取模型。
9.如权利要求8所述的方法,其特征在于,所述利用含实体关系特征标注结果的电力舆情文本建立训练数据,包括:
当电力舆情文本的字的含义表示关系时,该字的关系特征标注结果为S,当电力舆情文本的字为主体名称的起始字时,该字的实体关系标注结果为B-o,当电力舆情文本的字为主体名称除起始字以外的字时,该字的实体关系标注结果为I-o,当电力舆情文本的字为客体名称的起始字时,该字的实体关系标注结果为B-s,当电力舆情文本的字为客体名称除起始字以外的字时,该字的实体关系标注结果为I-s,当电力舆情文本的字的含义不表示关系且不是实体名称中的字时,该字的实体关系特征标注结果为空。
10.一种基于深度学习的电力舆情实体关系抽取系统,其特征在于,所述系统包括:
第一分析模块,用于将电力舆情文本作为预先构建的关系抽取模型的输入,得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果;
第二分析模块,用于获取电力舆情文本的属性特征,并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入,得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。
11.如权利要求10所述的系统,其特征在于,所述系统还包括第一分析模块,具体用于:
将所述属性特征作为预先构建的实体抽取模型的输入,得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果;
判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合,若是,则所述电力舆情文本的实体关系标注结果正确,否则,删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。
12.如权利要求10所述的系统,其特征在于,所述属性特征包括下述中的至少一种:五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。
13.如权利要求12所述的系统,其特征在于,所述BERT特征的获取过程包括:将所述电力舆情文本代入BERT模型进行特征提取,得到BERT模型输出的BERT特征。
14.如权利要求11所述的系统,其特征在于,所述预先构建的关系抽取模型包括:依次连接的BERT模型、全连接层和sigmoid激活函层;
所述预先构建的实体抽取模型包括:依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型;
所述预先构建的实体关系抽取模型包括:依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型;
所述第一特征融合层,用于将所述属性特征进行特征融合,得到第一融合特征;
所述第二特征融合层,用于将所述属性特征和关系特征标注结果进行特征融合,得到第二融合特征。
15.如权利要求14所述的系统,其特征在于,所述预先构建的关系抽取模型的获取过程包括:
利用含关系特征标注结果的电力舆情文本建立训练数据,其中,若电力舆情文本的字的含义表示关系,则该字的关系特征标注结果为S,否则,该字的关系特征标注结果为空;
利用所述训练数据对初始关系抽取模型进行训练,得到所述预先构建的关系抽取模型。
16.如权利要求14所述的系统,其特征在于,所述预先构建的实体抽取模型的获取过程包括:
利用含实体标注结果的电力舆情文本建立训练数据,其中,当电力舆情文本的字为实体名称的起始字时,该字的实体标注结果为B,当电力舆情文本的字为实体名称除起始字以外的字时,该字的实体标注结果为I,当电力舆情文本的字不是实体名称中的字时,该字的实体特征标注结果为空;
利用所述训练数据对初始实体抽取模型进行训练,得到所述预先构建的实体抽取模型。
17.如权利要求14所述的系统,其特征在于,所述预先构建的实体关系抽取模型的获取过程包括:
利用含实体关系特征标注结果的电力舆情文本建立训练数据;
利用所述训练数据对初始实体关系抽取模型进行训练,得到所述预先构建的实体关系抽取模型。
18.如权利要求17所述的系统,其特征在于,所述利用含实体关系特征标注结果的电力舆情文本建立训练数据,包括:
当电力舆情文本的字的含义表示关系时,该字的关系特征标注结果为S,当电力舆情文本的字为主体名称的起始字时,该字的实体关系标注结果为B-o,当电力舆情文本的字为主体名称除起始字以外的字时,该字的实体关系标注结果为I-o,当电力舆情文本的字为客体名称的起始字时,该字的实体关系标注结果为B-s,当电力舆情文本的字为客体名称除起始字以外的字时,该字的实体关系标注结果为I-s,当电力舆情文本的字的含义不表示关系且不是实体名称中的字时,该字的实体关系特征标注结果为空。
19.一种计算机设备,其特征在于,包括:一个或多个处理器;
所述处理器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至9中任意一项所述的基于深度学习的电力舆情实体关系抽取方法。
20.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1至9中任意一项所述的基于深度学习的电力舆情实体关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310498522.8A CN116227496B (zh) | 2023-05-06 | 2023-05-06 | 一种基于深度学习的电力舆情实体关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310498522.8A CN116227496B (zh) | 2023-05-06 | 2023-05-06 | 一种基于深度学习的电力舆情实体关系抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116227496A true CN116227496A (zh) | 2023-06-06 |
CN116227496B CN116227496B (zh) | 2023-07-14 |
Family
ID=86582913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310498522.8A Active CN116227496B (zh) | 2023-05-06 | 2023-05-06 | 一种基于深度学习的电力舆情实体关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116227496B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257444A (zh) * | 2020-10-12 | 2021-01-22 | 四川传承数据设计有限公司 | 金融信息负面实体发现方法、装置、电子设备及存储介质 |
US20210406706A1 (en) * | 2020-06-30 | 2021-12-30 | Siemens Aktiengesellschaft | Method and apparatus for performing entity linking |
WO2022057712A1 (zh) * | 2020-09-15 | 2022-03-24 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN114611515A (zh) * | 2022-01-28 | 2022-06-10 | 江苏省联合征信有限公司 | 一种基于企业舆情信息识别企业实际控制人的方法和系统 |
CN114757191A (zh) * | 2022-03-29 | 2022-07-15 | 国网江苏省电力有限公司营销服务中心 | 基于深度学习的电力舆情领域命名实体识别方法系统 |
CN115374778A (zh) * | 2022-08-08 | 2022-11-22 | 北京工商大学 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
US20220398384A1 (en) * | 2020-12-25 | 2022-12-15 | Boe Technology Group Co., Ltd. | Text extraction method and device, computer readable storage medium and electronic device |
US20220414228A1 (en) * | 2021-06-23 | 2022-12-29 | The Mitre Corporation | Methods and systems for natural language processing of graph database queries |
-
2023
- 2023-05-06 CN CN202310498522.8A patent/CN116227496B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210406706A1 (en) * | 2020-06-30 | 2021-12-30 | Siemens Aktiengesellschaft | Method and apparatus for performing entity linking |
WO2022057712A1 (zh) * | 2020-09-15 | 2022-03-24 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN112257444A (zh) * | 2020-10-12 | 2021-01-22 | 四川传承数据设计有限公司 | 金融信息负面实体发现方法、装置、电子设备及存储介质 |
US20220398384A1 (en) * | 2020-12-25 | 2022-12-15 | Boe Technology Group Co., Ltd. | Text extraction method and device, computer readable storage medium and electronic device |
US20220414228A1 (en) * | 2021-06-23 | 2022-12-29 | The Mitre Corporation | Methods and systems for natural language processing of graph database queries |
CN114611515A (zh) * | 2022-01-28 | 2022-06-10 | 江苏省联合征信有限公司 | 一种基于企业舆情信息识别企业实际控制人的方法和系统 |
CN114757191A (zh) * | 2022-03-29 | 2022-07-15 | 国网江苏省电力有限公司营销服务中心 | 基于深度学习的电力舆情领域命名实体识别方法系统 |
CN115374778A (zh) * | 2022-08-08 | 2022-11-22 | 北京工商大学 | 一种基于深度学习的化妆品舆情文本实体关系抽取方法 |
Non-Patent Citations (6)
Title |
---|
QINGCHUAN ZHANG等: "An Entity Relationship Extraction Model Based on BERT-BLSTM-CRF for Food Safety Domain", COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE * |
XIN JING等: "A joint triple extraction method by entity role attribute recognition", SCIENTIFIC REPORTS * |
孙靖超: "基于优化深度双向自编码网络的舆情情感识别研究", 情报杂志, no. 06 * |
李培芸等: "融合BERT语境词向量的译文质量估计方法研究", 中文信息学报, no. 03 * |
谌志群: "基于BERT 和双向LSTM 的微博评论倾向性分析研究", 情报理论与实践, vol. 43, no. 08 * |
谢博等: "基于残差空洞卷积神经网络的网络安全实体识别方法", 网络与信息安全学报, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN116227496B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 | |
CN110888983A (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN116227496B (zh) | 一种基于深度学习的电力舆情实体关系抽取方法及系统 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN114637852A (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN114021004A (zh) | 一种理科相似题推荐方法、装置、设备及可读存储介质 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN112215005A (zh) | 实体识别方法及装置 | |
CN113515935A (zh) | 一种标题生成方法、装置、终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |