CN113486668A - 一种电力知识实体识别方法、装置、设备和介质 - Google Patents

一种电力知识实体识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN113486668A
CN113486668A CN202110981956.4A CN202110981956A CN113486668A CN 113486668 A CN113486668 A CN 113486668A CN 202110981956 A CN202110981956 A CN 202110981956A CN 113486668 A CN113486668 A CN 113486668A
Authority
CN
China
Prior art keywords
entity
power knowledge
character
sequence
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110981956.4A
Other languages
English (en)
Inventor
江疆
彭伟峰
杨秋勇
黄声勇
王海明
梁盈威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202110981956.4A priority Critical patent/CN113486668A/zh
Publication of CN113486668A publication Critical patent/CN113486668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明公开了一种电力知识实体识别方法、装置、设备和介质,方法包括:获取初始电力知识序列;根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体,从而提高知识实体识别的可移植性与识别效率。

Description

一种电力知识实体识别方法、装置、设备和介质
技术领域
本发明涉及实体识别技术领域,尤其涉及一种电力知识实体识别方法、装置、设备和介质。
背景技术
随着科技的不断发展,电力知识也随之增多,且涉及面广,来源复杂。变电站的电力从业人员除了需要掌握传统教科书的基本知识外,更多的是从日常工作中根据接触到的法规、技术文件和建设方案进行学习。
而该类知识实体的提取,实际上是电力领域的文本挖掘。但与一般的文本挖掘不同的是,由于电力行业涉及的文本类型多种多样,可能来自不同的部门、不同的职位、不同的设备等,因此在考虑确定问题需求的初始阶段时,需要基于电力知识专家对文本类型进行内容分析。
现有的知识实体的提取或识别方法通常是基于规则和字典的方法,通过依赖于专业语言学家预先设计的规则模式,通过字符串搜索和匹配来实现实体识别。但上述方法容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别。
发明内容
本发明提供了一种电力知识实体识别方法、装置、设备和介质,解决了现有的知识命名实体识别容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别的技术问题。
本发明第一方面提供的一种电力知识实体识别方法,包括:
获取初始电力知识序列;
根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;
按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;
将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。
可选地,所述根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列的步骤,包括:
比较所述初始电力知识序列的当前字符长度和预设字符长度;
若所述当前字符长度大于所述预设字符长度,则以所述初始电力知识序列内的预定标识为起点增加空白字符;
若所述当前字符长度小于所述预设字符长度,则在所述初始电力知识序列的最后增加所述空白字符;
当所述当前字符长度等于所述预设字符长度时,将当前时刻的所述初始电力知识序列确定为标准电力知识序列。
可选地,所述文本字符字典存有多组字符-数值映射关系;所述按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量的步骤,包括:
遍历所述标准电力知识序列,得到多个字符;
按照所述字符-数值映射关系,确定每个所述字符所对应的字符数值;
采用一位有效编码方式对每个字符数值进行编码,得到各个所述字符对应的文本特征向量。
可选地,所述将所述文本特征向量输入预设的命名实体识别模型,生成对应的实体标签的步骤,包括:
将各个所述文本特征向量输入预设的命名实体识别模型;所述命名实体识别模型包括依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层;
通过所述嵌入层将所述文本特征向量映射为低维向量,并输入至所述第一特征提取层;
通过所述第一特征提取层提取所述低维向量的数据特征向量,并将所述数据特征向量输入至所述第二特征提取层;
通过所述第二特征提取层按照时序对所述数据特征向量进行特征提取,得到两组待拼接特征,并拼接所述两组待拼接特征,得到目标特征;
通过所述输出层计算所述目标特征对应的初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签。
可选地,所述输出层包括条件随机场层、全连接层和分类层;所述通过所述输出层计算所述目标特征对应的多个初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签的步骤,包括:
通过所述条件随机场层计算所述目标特征对应的多个初始标签;
通过所述全连接层采用预设的权重矩阵对各个所述初始标签进行加权,得到多个加权结果;
通过所述分类层将所述多个加权结果分别转换为概率结果;
通过所述分类层选择最大的所述概率结果所对应的初始标签,确定为所述文本特征向量对应的实体标签。
可选地,所述根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体的步骤,包括:
根据所述实体标签与所述文本特征向量的关联关系,确定所述文本特征向量关联的所述字符对应的实体标签;
按照所述实体标签对所述标准电力知识序列进行划分,得到多个电力知识实体。
可选地,所述方法还包括:
获取多组训练序列;每组所述训练序列包括多个训练实体;
采用预设的实体标识规则对每个训练实体进行标识,得到由多个目标训练实体组成的目标训练序列;
按照预设的文本字符字典,将每个所述目标训练实体分别转换为训练特征向量;
采用所述训练特征向量训练预设的初始命名实体识别模型,得到目标命名实体识别模型。
本发明第二方面还提供了一种电力知识实体识别装置,包括:
初始电力知识序列获取模块,用于获取初始电力知识序列;
序列调整模块,用于根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;
字符转换模块,用于按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;
实体标签确定模块,用于将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
电力知识实体提取模块,用于根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。
本发明第三方面还提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明第一方面任一项所述的电力知识实体识别方法的步骤。
本发明第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面任一项所述的电力知识实体识别方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过获取初始电力知识序列,基于初始电力知识序列的当前字符长度和预设字符长度的比较结果,对初始电力知识序列进行调整更新,以得到标准电力知识序列;再按照文本字符字典,对标准电力知识序列内的每个字符进行转换,得到对应的文本特征向量,然后将文本特征向量输入到目标命名实体识别模型以生成文本特征向量对应的实体标签,再建立实体标签与字符之间的映射关系,从标准电力知识序列中提取得到电力知识实体。从而解决现有的知识命名实体识别容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别的技术问题,提高知识实体识别的可移植性与识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种电力知识实体识别方法的步骤流程图;
图2为本发明实施例二提供的一种电力知识实体识别方法的步骤流程图;
图3为本发明实施例二的部分初始电力知识序列的当前字符长度直方图;
图4为本发明实施例二的目标训练实体的类型分布图;
图5为本发明实施例二提供的一种改进的Transformer层的结构示意图;
图6为本发明实施例二提供的一种BiLSTM层的结构示意图;
图7为本发明实施例二提供的一种LSTM模型的模型结构示意图;
图8为本发明实施例三提供的一种电力知识实体识别装置的结构框图。
具体实施方式
本发明实施例提供了一种电力知识实体识别方法、装置、设备和介质,用于解决现有的知识命名实体识别容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别的技术问题。
命名实体识别(Named Entity Recognition,NER)是实现文本分类、自动评价和自动筛选的基本任务,主要包括数据清理、预处理、模型训练和实体识别。人工神经网络准确率的提高促进了信息提取、文本理解、句法分析和机器翻译的发展,对自然语言处理技术的产业化起着基础性作用。在电力文本数据中,文本类型更复杂、文本数据性能不一致的现象更为常见。因此,NER应该有更广泛的应用。在电力领域,NER的具体目标是从电力数据文本中识别关键指定内容,如项目属性、设备名称和运行数据。从电力行业的角度实现关键信息的提取和分类,对辅助电力知识的学习,指导生产实践具有重要的现实意义。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一提供的一种电力知识实体识别方法的步骤流程图。
本发明提供的一种电力知识实体识别方法,包括:
步骤101,获取初始电力知识序列;
初始电力知识序列指的是从电力企业或变电站所使用的基础知识数据和项目资料等文档中提取得到的文本序列,每个文本序列可以句子为单位进行提取。
在本发明实施例中,当用户需要得知在某一文档中的电力知识实体时,可以该文档作为基础,通过以句子为单位进行划分,获取到初始电力知识序列。
步骤102,根据初始电力知识序列的当前字符长度与预设字符长度的比较结果,对初始电力知识序列进行调整,生成标准电力知识序列;
在获取得到初始电力知识序列后,由于初始电力知识序列是以句子为单位,其长度存在不同。为提高后续处理效率,可以根据初始电力知识序列内的字符的当前字符长度,与预设字符长度进行比较,确定对初始电力知识序列的调整方式,从而生成标准电力知识序列。
步骤103,按照预设的文本字符字典,将标准电力知识序列内的每个字符分别转换为文本特征向量;
在得到标准电力知识序列后,由于其中存在多个字符,直接处理的效率较低。此时可以按照文本字符字典,对每个字符分别进行文本特征向量的转换,以得到能够被模型高效识别处理的文本特征向量。
值得一提的是,文本字符字典内存有多组字符-数值映射关系,可以先基于字符-数值映射关系确定每个字符对应的字符数值,在采用一位有效编码方式(one-hot)对每个字符数值进行编码,实现从字符到文本特性向量的转换。
步骤104,将文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
在本发明实施例中,在将标准电力知识序列内的每个字符转换为文本特征向量后,可以将文本特征向量输入到预训练的目标命名实体识别模型,以通过模型内依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层进行文本特征向量的处理,以生成与每个文本特征向量对应的实体标签。
步骤105,根据实体标签与字符的映射关系,从标准电力知识序列提取电力知识实体。
在得到文本特征向量对应的实体标签后,由于文本特征向量是通过字符转换得到的,可以建立字符与实体标签之间的映射关系,对标准电力知识序列进行划分,以从中提取到电力知识实体。
在本发明实施例中,通过获取初始电力知识序列,基于初始电力知识序列的当前字符长度和预设字符长度的比较结果,对初始电力知识序列进行调整更新,以得到标准电力知识序列;再按照文本字符字典,对标准电力知识序列内的每个字符进行转换,得到对应的文本特征向量,然后将文本特征向量输入到目标命名实体识别模型以生成文本特征向量对应的实体标签,再建立实体标签与字符之间的映射关系,从标准电力知识序列中提取得到电力知识实体。从而解决现有的知识命名实体识别容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别的技术问题,提高知识实体识别的可移植性与识别效率。
请参阅图2,图2为本发明实施例二提供的一种电力知识实体识别方法的步骤流程图。
本发明提供的一种电力知识实体识别方法,包括:
步骤201,获取初始电力知识序列;
初始电力知识序列指的是从电力企业或变电站所使用的基础知识数据和项目资料等文档中提取得到的文本序列,每个文本序列可以句子为单位进行提取。
在本发明实施例中,当用户需要得知在某一文档中的电力知识实体时,可以该文档作为基础,通过以句子为单位进行划分,获取到初始电力知识序列。
例如,可以收集变电站的基础知识数据作为初始电力知识序列,包括但不限于常见的物理量、物理现象或设备等百科知识,还可以收集变电站相关项目的资料。虽然上述基础知识数据主要由长句组成,较为口语化,但包含了丰富的知识,此时可以按照句子为单位对其进行划分,以得到初始电力知识序列。
步骤202,根据初始电力知识序列的当前字符长度与预设字符长度的比较结果,对初始电力知识序列进行调整,生成标准电力知识序列;
可选地,步骤202可以包括以下子步骤S11-S14:
S11、比较初始电力知识序列的当前字符长度和预设字符长度;
S12、若当前字符长度大于预设字符长度,则以初始电力知识序列内的预定标识为起点增加空白字符;
S13、若当前字符长度小于预设字符长度,则在初始电力知识序列的最后增加空白字符;
S14、当当前字符长度等于预设字符长度时,将当前时刻的初始电力知识序列确定为标准电力知识序列。
在本发明实施例中,由于初始电力知识序列通常具有不同的句子长度,若是直接进行处理效率过低,因此在获取到初始电力知识序列后,还可以获取初始电力知识序列的当前字符长度,参见图3,示出了部分初始电力知识序列的当前字符长度直方图,可见其中大部分初始电力知识序列的当前字符长度sentence length是小于或大于预设字符长度input length,无法进行统一长度的序列输入。
为提高后续模型处理的效率,可以对当前字符长度大于预设字符长度的初始电力知识序列进行调整,以该初始电力知识序列内的预定标识作为起点,增加空白字符,直至当前字符长度等于预设字符长度,将当前时刻的初始电力知识序列确定为标准电力知识序列。
其中,预定标识为第n个字符的前一个标点符号,n为预设字符长度的值,例如预设字符长度为256个字符,则n为256。
若是当前字符长度小于预设字符长度,则可以直接在初始电力知识序列的最后增加空白字符,以将当前字符长度调整至预设字符长度,将此时的初始电力知识序列确定为标准电力知识序列,以等待下一步处理。
步骤203,按照预设的文本字符字典,将标准电力知识序列内的每个字符分别转换为文本特征向量;
进一步地,文本字符字典存有多组字符-数值映射关系,步骤203可以包括以下子步骤S21-S23:
S21、遍历标准电力知识序列,得到多个字符;
S22、按照字符-数值映射关系,确定每个字符所对应的字符数值;
S23、采用一位有效编码方式对每个字符数值进行编码,得到各个字符对应的文本特征向量。
在本实施例中,为进一步提高后续模型的处理效率,可以遍历标准电力知识序列以获取到其中所包含的多个字符,再按照文本字符字典内存有的多组字符-数值映射关系,对每个字符进行字符数值的转换,以获取到对应的字符数值,再采用一位有效编码方式one-hot对每个字符数值进行编码转换,生成各个字符对应的文本特征向量。
One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
步骤204,将各个文本特征向量输入预设的命名实体识别模型;命名实体识别模型包括依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层;
可选地,命名实体识别模型的训练过程可以包括以下子步骤S31-S34:
S31、获取多组训练序列;每组训练序列包括多个训练实体;
S32、采用预设的实体标识规则对每个训练实体进行标识,得到由多个目标训练实体组成的目标训练序列;
S33、按照预设的文本字符字典,将每个目标训练实体分别转换为训练特征向量;
S34、采用训练特征向量训练预设的初始命名实体识别模型,得到目标命名实体识别模型。
在具体实现中,在使用命名实体识别模型之前,为提高模型识别性能,可以对初始命名实体识别模型进行训练,具体的训练过程可以如下:
可以获取多组训练序列,每组训练序列包括多个训练实体,训练序列可以为变电站的基础知识数据或项目资料内的长句,训练实体为训练序列内的各个字符或文字。再可以采用实体标识规则对每个训练实体进行标识,也就是说通过改进的BIO规则对其进行标识,对训练实体的第一个字符标识为B实体类,对训练实体的其他字符标识为I实体类,对非训练实体的字符标识为O如各个标点符号等,从而得到由多个标识后的目标训练实体组成的目标训练序列。按照预设的文本字符字典,将每个目标训练实体分别转换为训练特征向量,具体的转换过程可以参见步骤203的文本特征向量转换过程,在此不再赘述。
请参照图4,图4为对训练实体进行标识后的目标训练实体的类型分布图。
其中,各个目标训练实体可以与图3中的各个实体相同,为方便模型训练过程中的测试,可以将目标数量实体的前10%作为测试数据集,剩余数据按照9:1的比例分为训练数据集和验证数据集。
最后将训练特征向量输入到预设的初始命名实体识别模型,以获取到对应的训练实体标签的输出,其中初始命名实体识别模型的模型参数设置可以如下表1所示:
模型参数
Learning rate 0.0001
Dropout rate 0.3
Batch size 32
Time steps 256
Embedding dim 512
Transformer features 512
LSTM dim 256
Bidiection merge mode Concat
Patience 10
表1
在训练过程中,基于训练实体标签与每个训练实体的标识的比对情况,采用默认的Adam优化器根据训练数据迭代地更新初始命名实体识别模型的权值,同时引入了早期停止训练机制以减少过拟合,耐心度设置为10。
采用precision(P)、recall(R)和F1-score(F1)作为评价指标。精度是正确预测的阳性训练实体标签的比例。召回率是正确预测的真实训练实体标签的百分比。F1分数是准确率和召回率的调和平均值。
Figure BDA0003229315800000111
Figure BDA0003229315800000112
Figure BDA0003229315800000113
其中,TP(True Positive)为预测为阳性的训练实体标签数量,预测结果为真。FP(假阳性)是预测为阳性的训练实体标签数量,预测结果为假。TN(True negative)为预测为负的训练实体标签数量,预测结果为真。FN(假阴性)是预测为阴性的训练实体标签数量,预测结果为假。以设备类别为例,只有“B-EQP”或“I-EQP”标记的所有字符都正确时,该实体才定义为阳性,否则定义为阴性,当所有实体定义为阳性时,判定模型训练完成,得到命名实体识别模型。
在具体实现中,为更为有效地改进命名实体识别模型的结构,以提高实体识别的准确度。可以对各个命名实体识别模型的结构分别进行训练,已确定各结构下的命名实体识别模型的准确率、召回率和F1分数,具体结果可以如下表2所示:
命名实体识别模型的类型 准确率 召回率 F1评分
DNN 49.4% 49.8% 0.496
CRF 71.2% 70.5% 0.708
LSTM 70.8% 69.1% 0.700
BiLSTM 71.3% 74.1% 0.727
BiLSTM+CRF 74.2% 76.3% 0.752
Transformer 42.5% 46.8% 0.446
Transformer+BiLSTM 82.8% 83.2% 0.830
Transformer+BiLSTM+CRF 83.6% 84.8% 0.842
改进的Transformer+BiLSTM+CRF 84.8% 85.8% 0.853
表2
在上表2中,与简单神经网络相比,LSTM明显优于前向深度神经网络。这是因为LSTM可以通过输入门、遗忘门和输出门不断更新单元状态和隐藏状态来学习长期特征。对于复杂网络,BiLSTM优于LSTM,因为BiLSTM可以通过输入前后方向的序列更好地捕捉时间序列特征。Transformer是多个前向神经网络的组合。它适用于从嵌入式高维空间的数据中学习底层特征,但不能直接完成复杂的合并特征的任务。CRF本身并不能很好地执行,因为机器学习严重依赖于人工特征和特征选择。通过BiLSTM特征提取,CRF可以通过其传递矩阵更好地结合特征。更复杂的神经网络可以得到更好的结果。该模型综合了多种模型的优点,性能优于比较模型。引入Transformer来提取潜在特征。改进后的Transformer用BiLSTM代替Feedforward后,能更好地提取底层时序特征。BiLSTM可以进一步更好地提取和组合特征。最后,通过CRF学习转移矩阵进一步调整输出的概率分布。测试数据集的准确率为84.8%,召回率为85.8%,F1评分为0.853,均优于比较模型。
步骤205,通过嵌入层将文本特征向量映射为低维向量,并输入至第一特征提取层;
嵌入层指的是Embedding层,由k个神经元组成,用于将高维稀疏的文本特征向量转换为低维稠密的低维向量。
在本发明实施例中,文本特征向量可以逐个进行输入,当命名实体识别模型接收到文本特征向量的输入后,通过嵌入层通过矩阵将文本特征向量映射为低维向量,以实现数据降维,使得模型处理更为高效。
步骤206,通过第一特征提取层提取低维向量的数据特征向量,并将数据特征向量输入至第二特征提取层;
第一特征提取层指的是上述表2中的改进的Transformer层,Transformer是由谷歌大脑团队提出的一种新的网络结构。它完全基于注意机制来绘制输入和输出之间的全局依赖关系,不需要递归和卷积。在各种任务中,注意机制已经成为序列和转导模型的重要组成部分,允许在不考虑输入或输出序列中的距离的情况下建立依赖关系的模型,而在本发明实施例中的第一特征提取层,去除了Transformer层原有的Embedding和softmax的结构,保留数据特征向量提取的部分,且将其中的Feedforward层更换为BiLSTM层,具体结构可参见图5。
如图5所示,当接收到嵌入层输入的低维向量后,可以采用注意力层Muiti-HeadAttention对所需要的特征进行提取,再通过BiLSTM层对提取得到的特征进行进一步处理,以得到对应的数据特征向量,将其输入至第二特征提取层。
步骤207,通过第二特征提取层按照时序对数据特征向量进行特征提取,得到两组待拼接特征,并拼接两组待拼接特征,得到目标特征;
第二特征提取层指的是BiLSTM层,LSTM的全称是Long Short-Term Memory,长短时记忆网络,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,用于对时序数据的建模,如文本数据。BiLSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成,两者在自然语言处理任务中都常被用来建模上下文信息。
参见图6,图6示出了本发明实施例的一种BiLSTM层的结构示意图。
在本发明实施例中,通过两个LSTM模型分别按照从前到后的时序和从后到前的时序分别对数据特征向量进行进一步的特征提取,以获取到两组待拼接特征,再拼接两组待拼接特征,以生成目标特征。
其中,参见图7,图7为LSTM模型的模型结构示意图,每个LSTM模型对数据特征向量的特征提取过程可以如下所示:
LSTM的第一步是遗忘门层ft决定从小区状态中丢弃哪些信息。它查看ht-1和xt,并为单元状态Ct-1中的每个数字输出一个介于0和1之间的数字。ft可以表示为:
ft=σ(Wf·[ht-1,xt]+bf)
下一步是决定在单元格状态中存储哪些新信息。这分成两个部分。首先,输入门层it决定哪些值将被更新。接下来,tanh层创建一个新的候选值Ct向量,可以将其添加到状态中。然后,将这两部分组合起来创建对状态的更新。it和Ct可表示为:
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0003229315800000131
然后将旧的单元状态Ct-1更新为新的单元状态Ct
Figure BDA0003229315800000132
最后,输出门ot是基于过滤版本的单元状态:
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
通过上述流程可以获取到数据特征向量内的目标特征ht,将目标特征ht输入到输出层以提供输出前准备。
步骤208,通过输出层计算目标特征对应的初始标签,并对各初始标签的加权分类后,生成文本特征向量对应的实体标签;
可选地,输出层包括条件随机场层、全连接层和分类层,步骤208可以包括以下子步骤S41-S44:
S41、通过条件随机场层计算目标特征对应的多个初始标签;
S42、通过全连接层采用预设的权重矩阵对各个初始标签进行加权,得到多个加权结果;
S43、通过分类层将多个加权结果分别转换为概率结果;
S44、通过分类层选择最大的概率结果所对应的初始标签,确定为文本特征向量对应的实体标签。
在本发明实施例中,输出层可以包括条件随机场层、全连接层和分类层,其中条件随机场层为Conditional Random Field(CRF),通过动态规划的方式进行目标特征的路径寻优;全连接层为Dense层,通过矩阵对路径寻优得到的多个初始标签进行加权,得到加权结果;分类层为softmax层,通过softmax激活函数将加权结果转化为概率结果,如概率分布的形式进行显示,同时将概率最大的概率结果所对应的初始标签作为文本特征向量的实体标签进行输出。
在具体实现中,条件随机场层的除了过程可以如下所示:
在BiLSTM模型中,每个输入单词的输出都是独立的,不可能学习输出标签之间的转移特征,在条件随机场CRF模型中,标准电力知识序列X的分数s(X,y)以及一系列预测y=(y1,…,yt,…,yn)被定义为:
Figure BDA0003229315800000141
其中T是表示将所有状态转移到下一步的概率的转换矩阵,P为网络输出的分数矩阵,
Figure BDA0003229315800000142
为连续词中标签yi-1到标签yi的转换得分,
Figure BDA0003229315800000143
为标准电力知识序列中ith词的
Figure BDA0003229315800000144
标签的得分。
则条件概率p(y|X)为:
Figure BDA0003229315800000151
其中,路径
Figure BDA0003229315800000152
是路径y通过对所有可能的标签进行归一化的分数。
可以将获得最大分数的最佳标记路径为:
Figure BDA0003229315800000153
步骤209,根据实体标签与字符的映射关系,从标准电力知识序列提取电力知识实体。
在本发明可选实施例中,步骤209可以包括以下子步骤S51-S52:
S51、根据实体标签与文本特征向量的关联关系,确定文本特征向量关联的字符对应的实体标签;
S52、按照实体标签对标准电力知识序列进行划分,得到多个电力知识实体。
在本发明实施例中,由于文本特征向量是与字符一一对应的,实体标签是与文本特征向量一一对应的,因此,可以直接基于实体标签、文本特征向量和字符建立一一对应的映射关系。在得到实体标签后,基于实体标签和文本特征向量之间的关联关系,确定对应字符的实体标签,再按照实体标签的类型对标准电力知识序列进行划分,以提取得到多个电力知识实体。
例如,按照实体标签的类型,从电力知识序列内提取以“B”为开头,以“I”为结尾的各类标注电力知识序列,得到相应的电力知识实体。
在本发明实施例中,通过获取初始电力知识序列,基于初始电力知识序列的当前字符长度和预设字符长度的比较结果,对初始电力知识序列进行调整更新,以得到标准电力知识序列;再按照文本字符字典,对标准电力知识序列内的每个字符进行转换,得到对应的文本特征向量,然后将文本特征向量输入到目标命名实体识别模型以生成文本特征向量对应的实体标签,再建立实体标签与字符之间的映射关系,从标准电力知识序列中提取得到电力知识实体。从而解决现有的知识命名实体识别容易受到手工规则的限制,需要庞大的知识库进行支持,可移植性较差,无法对未加入到知识库的生词进行有效识别的技术问题,提高知识实体识别的可移植性与识别效率。
请参阅图8,图8为本发明实施例三提供的一种电力知识实体识别装置的结构框图。
本发明实施例提供了一种电力知识实体识别装置,包括:
初始电力知识序列获取模块801,用于获取初始电力知识序列;
序列调整模块802,用于根据初始电力知识序列的当前字符长度与预设字符长度的比较结果,对初始电力知识序列进行调整,生成标准电力知识序列;
字符转换模块803,用于按照预设的文本字符字典,将标准电力知识序列内的每个字符分别转换为文本特征向量;
实体标签确定模块804,用于将文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
电力知识实体提取模块805,用于根据实体标签与字符的映射关系,从标准电力知识序列提取电力知识实体。
可选地,序列调整模块802,包括:
字符长度比较子模块,用于比较初始电力知识序列的当前字符长度和预设字符长度;
大于判定子模块,用于若当前字符长度大于预设字符长度,则以初始电力知识序列内的预定标识为起点增加空白字符;
小于于判定子模块,用于若当前字符长度小于预设字符长度,则在初始电力知识序列的最后增加空白字符;
标准电力知识序列判定子模块,用于当当前字符长度等于预设字符长度时,将当前时刻的初始电力知识序列确定为标准电力知识序列。
可选地,文本字符字典存有多组字符-数值映射关系;字符转换模块803,包括:
字符获取子模块,用于遍历标准电力知识序列,得到多个字符;
字符数值映射子模块,用于按照字符-数值映射关系,确定每个字符所对应的字符数值;
字符数值编码子模块,用于采用一位有效编码方式对每个字符数值进行编码,得到各个字符对应的文本特征向量。
可选地,实体标签确定模块804,包括:
文本特征向量输入子模块,用于将各个文本特征向量输入预设的命名实体识别模型;命名实体识别模型包括依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层;
嵌入层处理子模块,用于通过嵌入层将文本特征向量映射为低维向量,并输入至第一特征提取层;
第一特征提取子模块,用于通过第一特征提取层提取低维向量的数据特征向量,并将数据特征向量输入至第二特征提取层;
第二特征提取子模块,用于通过第二特征提取层按照时序对数据特征向量进行特征提取,得到两组待拼接特征,并拼接两组待拼接特征,得到目标特征;
实体标签生成子模块,用于通过输出层计算目标特征对应的初始标签,并对各初始标签的加权分类后,生成文本特征向量对应的实体标签。
可选地,输出层包括条件随机场层、全连接层和分类层;实体标签生成子模块具体用于:
通过条件随机场层计算目标特征对应的多个初始标签;
通过全连接层采用预设的权重矩阵对各个初始标签进行加权,得到多个加权结果;
通过分类层将多个加权结果分别转换为概率结果;
通过分类层选择最大的概率结果所对应的初始标签,确定为文本特征向量对应的实体标签。
可选地,电力知识实体提取模块805,包括:
实体标签确定子模块,用于根据实体标签与文本特征向量的关联关系,确定文本特征向量关联的字符对应的实体标签;
序列划分子模块,用于按照实体标签对标准电力知识序列进行划分,得到多个电力知识实体。
可选地,装置还包括:
训练序列获取模块,用于获取多组训练序列;每组训练序列包括多个训练实体;
训练实体标识模块,用于采用预设的实体标识规则对每个训练实体进行标识,得到由多个目标训练实体组成的目标训练序列;
训练特征向量转换模块,用于按照预设的文本字符字典,将每个目标训练实体分别转换为训练特征向量;
训练模块,用于采用训练特征向量训练预设的初始命名实体识别模型,得到目标命名实体识别模型。
本发明实施例还提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明任一实施例所述的电力知识实体识别方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明任一实施例所述的电力知识实体识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种电力知识实体识别方法,其特征在于,包括:
获取初始电力知识序列;
根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;
按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;
将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列的步骤,包括:
比较所述初始电力知识序列的当前字符长度和预设字符长度;
若所述当前字符长度大于所述预设字符长度,则以所述初始电力知识序列内的预定标识为起点增加空白字符;
若所述当前字符长度小于所述预设字符长度,则在所述初始电力知识序列的最后增加所述空白字符;
当所述当前字符长度等于所述预设字符长度时,将当前时刻的所述初始电力知识序列确定为标准电力知识序列。
3.根据权利要求1所述的方法,其特征在于,所述文本字符字典存有多组字符-数值映射关系;所述按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量的步骤,包括:
遍历所述标准电力知识序列,得到多个字符;
按照所述字符-数值映射关系,确定每个所述字符所对应的字符数值;
采用一位有效编码方式对每个字符数值进行编码,得到各个所述字符对应的文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述文本特征向量输入预设的命名实体识别模型,生成对应的实体标签的步骤,包括:
将各个所述文本特征向量输入预设的命名实体识别模型;所述命名实体识别模型包括依次连接的嵌入层、第一特征提取层、第二特征提取层和输出层;
通过所述嵌入层将所述文本特征向量映射为低维向量,并输入至所述第一特征提取层;
通过所述第一特征提取层提取所述低维向量的数据特征向量,并将所述数据特征向量输入至所述第二特征提取层;
通过所述第二特征提取层按照时序对所述数据特征向量进行特征提取,得到两组待拼接特征,并拼接所述两组待拼接特征,得到目标特征;
通过所述输出层计算所述目标特征对应的初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签。
5.根据权利要求4所述的方法,其特征在于,所述输出层包括条件随机场层、全连接层和分类层;所述通过所述输出层计算所述目标特征对应的多个初始标签,并对各所述初始标签的加权分类后,生成所述文本特征向量对应的实体标签的步骤,包括:
通过所述条件随机场层计算所述目标特征对应的多个初始标签;
通过所述全连接层采用预设的权重矩阵对各个所述初始标签进行加权,得到多个加权结果;
通过所述分类层将所述多个加权结果分别转换为概率结果;
通过所述分类层选择最大的所述概率结果所对应的初始标签,确定为所述文本特征向量对应的实体标签。
6.根据权利要求1所述的方法,其特征在于,所述根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体的步骤,包括:
根据所述实体标签与所述文本特征向量的关联关系,确定所述文本特征向量关联的所述字符对应的实体标签;
按照所述实体标签对所述标准电力知识序列进行划分,得到多个电力知识实体。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多组训练序列;每组所述训练序列包括多个训练实体;
采用预设的实体标识规则对每个训练实体进行标识,得到由多个目标训练实体组成的目标训练序列;
按照预设的文本字符字典,将每个所述目标训练实体分别转换为训练特征向量;
采用所述训练特征向量训练预设的初始命名实体识别模型,得到目标命名实体识别模型。
8.一种电力知识实体识别装置,其特征在于,包括:
初始电力知识序列获取模块,用于获取初始电力知识序列;
序列调整模块,用于根据所述初始电力知识序列的当前字符长度与预设字符长度的比较结果,对所述初始电力知识序列进行调整,生成标准电力知识序列;
字符转换模块,用于按照预设的文本字符字典,将所述标准电力知识序列内的每个字符分别转换为文本特征向量;
实体标签确定模块,用于将所述文本特征向量输入预设的目标命名实体识别模型,生成对应的实体标签;
电力知识实体提取模块,用于根据所述实体标签与所述字符的映射关系,从所述标准电力知识序列提取电力知识实体。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的电力知识实体识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的电力知识实体识别方法。
CN202110981956.4A 2021-08-25 2021-08-25 一种电力知识实体识别方法、装置、设备和介质 Pending CN113486668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110981956.4A CN113486668A (zh) 2021-08-25 2021-08-25 一种电力知识实体识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110981956.4A CN113486668A (zh) 2021-08-25 2021-08-25 一种电力知识实体识别方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113486668A true CN113486668A (zh) 2021-10-08

Family

ID=77946190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110981956.4A Pending CN113486668A (zh) 2021-08-25 2021-08-25 一种电力知识实体识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113486668A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824481A (zh) * 2023-05-18 2023-09-29 国网信息通信产业集团有限公司北京分公司 基于图像识别的变电站巡检方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110619124A (zh) * 2019-09-19 2019-12-27 成都数之联科技有限公司 一种结合注意力机制与双向lstm的命名实体识别方法及系统
KR102203065B1 (ko) * 2019-09-03 2021-01-14 숭실대학교산학협력단 트리플 검증 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
KR102203065B1 (ko) * 2019-09-03 2021-01-14 숭실대학교산학협력단 트리플 검증 장치 및 방법
CN110619124A (zh) * 2019-09-19 2019-12-27 成都数之联科技有限公司 一种结合注意力机制与双向lstm的命名实体识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824481A (zh) * 2023-05-18 2023-09-29 国网信息通信产业集团有限公司北京分公司 基于图像识别的变电站巡检方法及其系统
CN116824481B (zh) * 2023-05-18 2024-04-09 国网信息通信产业集团有限公司北京分公司 基于图像识别的变电站巡检方法及其系统

Similar Documents

Publication Publication Date Title
Kim et al. Efficient dialogue state tracking by selectively overwriting memory
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN113010693B (zh) 融合指针生成网络的知识图谱智能问答方法
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111694924A (zh) 一种事件抽取方法和系统
CN113065331A (zh) 基于实体上下文判别的实体情感识别方法和系统
CN111859967B (zh) 实体识别方法、装置,电子设备
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
WO2023226292A1 (zh) 从文本中进行关系抽取的方法、关系抽取模型及介质
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN114818668A (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN115048447A (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN114817467A (zh) 一种意图识别响应方法、装置、设备及存储介质
CN113486668A (zh) 一种电力知识实体识别方法、装置、设备和介质
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN117390131A (zh) 一种用于多领域的文本情感分类方法
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination