CN113591480A - 电力计量的命名实体识别方法、装置和计算机设备 - Google Patents

电力计量的命名实体识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN113591480A
CN113591480A CN202110839145.0A CN202110839145A CN113591480A CN 113591480 A CN113591480 A CN 113591480A CN 202110839145 A CN202110839145 A CN 202110839145A CN 113591480 A CN113591480 A CN 113591480A
Authority
CN
China
Prior art keywords
word vector
word
feature set
reference feature
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110839145.0A
Other languages
English (en)
Other versions
CN113591480B (zh
Inventor
梁洪浩
伍少成
姜和芳
陈晓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202110839145.0A priority Critical patent/CN113591480B/zh
Publication of CN113591480A publication Critical patent/CN113591480A/zh
Priority to PCT/CN2022/087120 priority patent/WO2023000725A1/zh
Application granted granted Critical
Publication of CN113591480B publication Critical patent/CN113591480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本申请涉及一种电力计量的命名实体识别方法、装置、计算机设备和存储介质,所述方法包括:获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;对所述词向量进行组合,获取多个参考特征集合;将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体,能够避免错误地对同一命名实体进行划分,解决电力计量中命名实体名称重叠的问题,减轻预先分词带来的影响,有效提高命名实体识别的准确性。

Description

电力计量的命名实体识别方法、装置和计算机设备
技术领域
本申请涉及命名实体技术领域,特别是涉及一种电力计量的命名实体识别方法、装置、计算机设备和存储介质。
背景技术
随着知识图谱的日益普及,人们对知识图谱的需求越来越大。针对电力计量知识图谱,构建前往往需要从电力计量文本中准确识别并提取电力计量的命名实体。在传统技术中,深度学习模型在电力计量中得到了广泛的应用,例如通过长短时记忆神经网络(LSTM)、卷积神经网络等识别电力计量的命名实体。
然而,现有的深度学习模型并没有充分考虑到电力计量中命名实体的名称重叠的情况,在对语料进行分词时,将应该确定为一个单一的命名实体划分为多个部分,导致识别命名实体识别错误的情况发生,降低了命名实体的识别准确率。
发明内容
基于此,有必要针对上述技术问题,提供一种电力计量的命名实体识别方法、装置、计算机设备和存储介质。
一种电力计量的命名实体识别方法,所述方法包括:
获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
在其中一个实施例中,所述基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,包括:
确定同一参考特征集合中相邻元素对应的相似度;
将所述相似度输入到预先训练的单层神经网络,通过所述单层神经网络放大或缩小所述相似度,得到调整后的相似度;
根据调整后的相似度确定该参考特征集合对应的词向量特征。
在其中一个实施例中,所述根据调整后的相似度确定该参考特征集合对应的词向量特征,包括:
获取调整后的相似度对应的注意力系数;
根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征;所述映射关系为:
Figure BDA0003178217510000021
其中,hi为注意力特征,
Figure BDA0003178217510000022
为注意力系数,K为注意力头的数量。
在其中一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,包括:
确定多个词向量各自对应的排列顺序;多个词向量各自对应的排列顺序与所述待识别语料中多个词语对应的排列顺序对应;
基于各个词向量及其对应的排列顺序,生成第一参考特征集合。
在其中一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,包括:
确定多个词向量各自对应的排列顺序;
基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对;
根据多组词向量对,生成第二参考特征集合。
在其中一个实施例中,还包括:
获取预先构建的电力计量语料库;所述电力计量语料库包括多条用于描述电力计量信息的语料;
采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量信息的词语;
采用得到的多个词语训练初始化的词向量模型,得到训练好的词向量模型,所述训练好的词向量模型用于识别电力计量语料中各个词语对应的词向量。
在其中一个实施例中,还包括:
获取样本语料及其对应的标签;所述标签包括所述样本语料中电力计量的命名实体和所述命名实体对应的实体类别;
采用所述分词模型获取样本预料对应的多个样本词语,并通过训练好的词向量模型获取所述样本词语对应的词向量;
获取所述词向量对应的多个样本特征集合;所述样本特征集合包括第一样本特征集合、第二样本特征集合和第三样本特征集合,所述第一样本特征集合中的每个元素为对应词语的词向量,所述第二样本特征集合中的每个元素为两个相邻词语对应的词向量,所述第三样本特征集合中的每个元素为三个相邻词语对应的词向量;
将各个样本特征集合输入到待训练的机器翻译模型,以通过所述机器翻译模型中的自注意力层确定样本特征集合对应的词向量特征,并将多个词向量特征输入到预设的条件随机场,根据所述条件随机场输出的预测结果,确定所述样本语料中的预测命名实体;
根据所述预测命名实体和所述标签,调整所述机器翻译模型的模型参数,重复训练过程,直到满足训练结束条件,得到词向量特征提取模型。
一种电力计量的命名实体识别装置,所述装置包括:
词向量获取模块,用于获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
参考特征集合获取模块,用于对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
词向量特征获取模块,用于将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
命名实体确定模块,用于将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。
上述电力计量的命名实体识别方法、装置、计算机设备和存储介质,可以获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量,并对词向量进行组合,获取多个参考特征集合,其中,参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,第一参考特征集合中的每个元素为对应词语的词向量,第二参考特征集合中的每个元素为两个相邻词语对应的词向量,第三参考特征集合中的每个元素为三个相邻词语对应的词向量,进而可以将多个参考特征集合输入到训练好的词向量特征提取模型,以通过词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据条件随机场输出的标注结果,确定待识别语料中的命名实体。本方案中,通过获取多个不同方式组合得到的参考特征集合,可以通过比较单个词向量、两个相邻词向量和三个词向量提取出待识别语料的词向量特征,能够识别出分词后相邻词语之间的关系,从整体上判断多个词语是否构成同一命名实体,避免错误地对同一命名实体进行划分,解决电力计量中命名实体名称重叠的问题,减轻预先分词带来的影响,有效提高命名实体识别的准确性。
附图说明
图1为一个实施例中一种电力计量的命名实体识别方法的流程示意图;
图2为另一个实施例中一种电力计量的命名实体识别方法的流程示意图;
图3为一个实施例中一种电力计量的命名实体识别装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着智能电网的发展,对电力大数据的分析和处理要求越来越高。在实际应用中,孤立的电力子系统中存在着大量的电力计量信息,但是难以从这些离散的电力计量信息中获得有效的决策数据支持。如何整合零散的电力计量信息,构建电力计量的知识图谱,已成为一个亟待解决的问题。
知识图谱以结构化的形式描述了客观世界中的概念、实体及其关系。知识图谱中的单位是“实体-关系-实体”三元组,实体之间的关系被组织成一个网络化的知识结构。对于智能电网,知识图谱可以用来固化调度知识,为电网运行监控和决策提供知识支持和数据支持。在构建电力计量的知识图谱之前,需要从电力计量文本中识别和提取电力计量的命名实体。进行电力计量的命名实体识别的目的是识别特定领域的电力计量实体及其类别,为建立和分析电力计量的知识图谱提供基础。
在传统技术中,早期电力计量的实体识别方法可分为基于字典或规则的方法和基于统计机器学习模型的方法。近年来,深度学习模型在电力计量中得到了广泛的应用,例如通过长短时记忆神经网络(LSTM)、卷积神经网络等识别电力计量的命名实体。
然而,现有的深度学习模型并没有充分考虑到电力计量中命名实体的名称重叠的情况,在对语料进行分词时,将应该确定为一个单一的命名实体划分为多个部分,导致识别命名实体识别错误的情况发生,降低了命名实体的识别准确率。例如,针对命名实体“电流损耗”,其可以看作是一个命名实体,但在获取命名实体时,有可能将其错误地划分为“电流”和“损耗”,其中的“电流”被划分为一个单独的命名实体。
在一个实施例中,如图1所示,提供了一种电力计量的命名实体识别方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法可以包括以下步骤:
步骤101,获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量。
其中,词向量可以是将词语映射到实数后得到的向量。
在实际应用中,服务器可以获取用于描述电力计量信息的待识别语料,在对待识别语料进行分词后,可以确定待识别语料中多个词语各自对应的词向量。
步骤102,对所述词向量进行组合,获取多个参考特征集合。
其中,参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,第一参考特征集合中的每个元素为对应词语的词向量,第二参考特征集合中的每个元素为两个相邻词语对应的词向量,第三参考特征集合中的每个元素为三个相邻词语对应的词向量。
由于电力计量的命名实体存在名称部分重叠的情况,例如,针对“电量差异异常”可被确定为一命名实体,也存在将其划分为“电量”和“差异异常”两个命名实体的情况;又如,“电能表替换”可能被分词模块划分为“电能表”和“替换”,即一些相邻的词可能被标记为同一个命名实体,也可能被分别划分为孤立的命名实体。
基于此,在得到多个词语对应的词向量后,可以对多个词向量进行组合,获取多个参考特征集合。具体地,可以遍历多个词向量,将单独的每个词向量确定为一个元素,基于多个词向量得到第一参考特征集合;或者,也可以对词向量成对遍历,基于相邻的两个词向量生成一个元素,由此得到包含多组词向量对的第二参考特征集合;又如,可以基于相邻的三个词向量生成一个元素,生成第三参考特征集合。
步骤103,将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征。
其中,词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征。具体而言,词性特征可以基于第一参考特征集合中的各个元素确定,词性特征可以包括汉语词性和英语词性中的至少一种,例如名词、动词、形容词、副词、表语、定语、状语等词性特征。
在得到多个参考特征集合后,可以将多个参考特征集合输入到训练好的词向量特征提取模型。词向量特征提取模型在获取到多个参考特征集合后,可以通过词向量特征提取模型,基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征。
具体而言,词向量特征提取模型中可以由三个处理模块组成,每个处理模块中可以包括一个或多个自注意力层,在提取词向量特征时,三个处理模块分别接收到第一参考特征集合、第二参考特征集合和第三参考特征集合,处理模块中的自注意力层可以基于对应参考特征集合中的各个元素,确定与该参考特征集合对应的词向量特征。
步骤104,将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
在得到多个参考特征集合各自对应的词向量特征后,可以将多个参考特征集合对应的词向量特征输入到预设的条件随机场中,由条件随机场基于输入的多个词向量特征预测各个词语对应的标注结果,进而可以根据标注结果确定出待识别语料中的命名实体。在确定命名实体后,可以基于识别出的命名实体对待识别语料进行标注、保存。
在本实施例中,可以获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量,并对词向量进行组合,获取多个参考特征集合,其中,参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,第一参考特征集合中的每个元素为对应词语的词向量,第二参考特征集合中的每个元素为两个相邻词语对应的词向量,第三参考特征集合中的每个元素为三个相邻词语对应的词向量,进而可以将多个参考特征集合输入到训练好的词向量特征提取模型,以通过词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据条件随机场输出的标注结果,确定待识别语料中的命名实体。本方案中,通过获取多个不同方式组合得到的参考特征集合,可以通过比较单个词向量、两个相邻词向量和三个词向量提取出待识别语料的词向量特征,能够识别出分词后相邻词语之间的关系,从整体上判断多个词语是否构成同一命名实体,避免错误地对同一命名实体进行划分,解决电力计量中命名实体名称重叠的问题,减轻预先分词带来的影响,有效提高命名实体识别的准确性。
在一个实施例中,所述方法还可以包括如下步骤:
获取预先构建的电力计量语料库;采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量信息的词语;采用得到的多个词语训练初始化的词向量模型,得到训练好的词向量模型。
其中,电力计量语料库包括多条用于描述电力计量信息的语料,训练好的词向量模型用于识别电力计量语料中各个词语对应的词向量。
在具体实现中,一般领域的实体类型一般为人、场所、组织等,命名格式相对规范,相应地,许多通用领域的命名实体数据集已开放并用于模型训练。然而,在电力计量领域,缺少一个可以直接用于机器学习模型训练的公共数据集。
基于此,可以预先构建电力计量语料库。具体地,电力系统中存在着大量的与电力计量相关的语料,例如,可以从已开发的电力计量信息处理系统中获取,也可以从从事电力工作的企业中获取业务报表、电力计量统计数据等主体信息获取,或者,针对英语语料,可以从英文知识库中获取与电力计量相关的语料。在获取与电力计量相关的大量语料后,可以进行数据清洗,剔除无关信息,得到包括英文语料和中文语料的电力计量语料库。
在获取电力计量语料库后,可以采用预设的分词模型对电力计量语料库中的语料进行分词,得到多个用于描述电力计量信息的词语,例如基于多种标点符号对语料库中的句子进行结构划分。在进行分词后,可以采用当前得到的词语训练初始化的词向量模型,得到训练好的词向量模型,例如训练Word2Vec模型,从而后续可以利用该模型将描述电能计量信息的词语映射为词向量。
在本实施例中,通过获取预先构建的电力计量语料库,采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量信息的词语,采用得到的多个词语训练初始化的词向量模型,得到训练好的词向量模型,能够构建电力计量语料库以及与电力计量相关的词向量,避免电力计量的命名实体边界模型,为后续准确识别出电力计量的命名实体提供基础。
在一个实施例中,所述方法还可以包括如下步骤:
获取样本语料及其对应的标签;采用所述分词模型获取样本预料对应的多个样本词语,并通过训练好的词向量模型获取所述样本词语对应的词向量;获取所述词向量对应的多个样本特征集合;将各个样本特征集合输入到待训练的机器翻译模型,以通过所述机器翻译模型中的自注意力层确定样本特征集合对应的词向量特征,并将多个词向量特征输入到预设的条件随机场,根据所述条件随机场输出的预测结果,确定所述样本语料中的预测命名实体;根据所述预测命名实体和所述标签,调整所述机器翻译模型的模型参数,重复训练过程,直到满足训练结束条件,得到词向量特征提取模型。
其中,标签包括样本语料中电力计量的命名实体和命名实体对应的实体类别,每个命名实体对应的实体类别可以是一下任意一种:电力计量指标、电力计量对象、电力计量现象和电力计量行为。具体而言,在电力计量中,不同命名实体之间的边界较为模糊,通过引入上述实体类别,可以在识别出命名实体的同时确定出对应的实体类别,提高识别效率。
例如,统计用电数据可以标注为“用电量”“抄表率”“电流”等划分为电力计量指标实体。将与电力计量有关的对象、人员、地区、机构标识为电力计量对象实体,如“电能表”“广州供电局”等。将电力计量过程中特定主体产生的现象标识为电力计量现象实体,如“电能表停止”“电流损耗”“电流不平衡”等。针对特定动作的电力计量操作,则可以被标记为电力计量行为实体,如“抄表”“异常维修”等。其中,电力计量实体的指标和对象多为名词,电力计量现象多为名词和动词的组合,电力计量行为多为动词。
样本特征集合包括第一样本特征集合、第二样本特征集合和第三样本特征集合,第一样本特征集合中的每个元素为对应词语的词向量,第二样本特征集合中的每个元素为两个相邻词语对应的词向量,第三样本特征集合中的每个元素为三个相邻词语对应的词向量。
在实际应用中,可以获取样本语料及其对应的标签。在得到样本语料后,可以采用分词模型对样本语料进行分词,得到样本预料对应的多个样本词语,进而可以通过训练好的词向量模型获取样本词语对应的词向量。
在获取各个样本词语对应的词向量后,可以对多个词向量进行组合,获取词向量对应的多个样本特征集合,样本特征集合的获取方式与参考特征集合的获取方式相似,具体可参考后文关于参考特征集合的获取方法,本实施例不作赘述。
在获取多个样本特征集合后,可以将各个样本特征集合输入到待训练的机器翻译模型。机器翻译模型在获取到多个样本特征集合后,可以通过机器翻译模型中的多个自注意力成获取对应的词向量特征。具体而言,机器翻译模型中可以由三个处理模块组成,包含三个处理模块的机器翻译模型可以称为3阶机器翻译模型。其中,每个处理模块中可以包括一个或多个自注意力层,在提取词向量特征时,三个处理模块分别接收到第一样本特征集合、第二样本特征集合和第三样本特征集合,处理模块中的自注意力层可以基于对应样本特征集合中的各个元素,确定与该样本特征集合对应的词向量特征。
在获取各样本特征集合对应的词向量特征后,可以将多个词向量特征输入到预设的条件随机场,根据条件随机场输出的预测结果,确定样本语料中的预测命名实体,并根据预测命名实体和标签,调整机器翻译模型的模型参数。重复上述训练过程,直到满足训练结束条件时,可以得到词向量特征提取模型。
在本实施例中,可以获取样本语料及其对应的标签,采用分词模型获取样本预料对应的多个样本词语,并通过训练好的词向量模型获取样本词语对应的词向量,获取词向量对应的多个样本特征集合,将各个样本特征集合输入到待训练的机器翻译模型,以通过机器翻译模型中的自注意力层确定样本特征集合对应的词向量特征,并将多个词向量特征输入到预设的条件随机场,根据条件随机场输出的预测结果,确定样本语料中的预测命名实体,根据预测命名实体和标签,调整机器翻译模型的模型参数,重复训练过程,直到满足训练结束条件,得到词向量特征提取模型,能够为准确识别电力计量的命名实体提供基础。
在一个实施例中,所述基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,可以包括如下步骤:
确定同一参考特征集合中相邻元素对应的相似度;将所述相似度输入到预先训练的单层神经网络,通过所述单层神经网络放大或缩小所述相似度,得到调整后的相似度;根据调整后的相似度确定该参考特征集合对应的词向量特征。
在具体实现中,在得到参考特征集合后,词向量特征提取模型中的每个处理模块可以分别处理对应的参考特征集合,针对每个参考特征集合,处理模块可以确定同一参考特征集合中相邻元素对应的相似度。具体地,词向量特征提取模型中可以包括一个或多个自注意力层,每个自注意力层由三部分组成,包括神经余弦相似函数、注意系数和注意特征。当处理模块获取到对应的参考特征集合后,可以由自注意力层中的余弦函数确定同一参考特征集合中相邻元素对应的相似度,余弦相似度可以通过测量两个输入向量之间夹角的余弦值来度量两个输入向量之间的相似度。具体可以通过如下式子确定:
Figure BDA0003178217510000111
其中,i表示第i个元素对应的向量。
在实际应用中,电力计量的多个命名实体之间可能存在高度相似但各自分属不同命名实体类别的情况,仅仅基于相似的词向量进行比较容易造成分类错误,例如针对相邻词向量较为相似的情况。因此,在得到相似度后,为了确定不同词向量之间的相似性所产生的影响,在获取到相邻元素对应的相似度后,可以将相似度输入到词向量特征提取模型中预先训练好的单层神经网络,通过单层神经网络放大或缩小相似度,得到调整后的相似度。调整后的相似度可以更准确地反映相邻词向量之间的差异,从而可以根据调整后的相似度确定该参考特征集合对应的词向量特征。其中,单层神经网络可以为:
Similarityij=Neural(Wfi,Wfj)=Neural(V×cosine(Wfi,Wfj))
其中,Similarityij为调整后的相似度,Wfi,Wfj为单层神经网络中针对相邻的两个元素预先训练好的权重,V为单层神经网络的网络参数,Neural为单层神经网络,可以使用ReLU激活函数来防止相似梯度消失。
在本实施例中,可以确定同一参考特征集合中相邻元素对应的相似度,将相似度输入到预先训练的单层神经网络,通过单层神经网络放大或缩小相似度,得到调整后的相似度,进而可以根据调整后的相似度确定该参考特征集合对应的词向量特征。在本方案中,针对电力计量中相似的命名实体,通过对相似度进行准确调整,有效地反映相似命名实体之间的差异,能够避免错误地将相似的词语划分为同一命名实体,有效提高命名实体的识别准确性。
在一个实施例中,所述根据调整后的相似度确定该参考特征集合对应的词向量特征,可以包括如下步骤:
获取调整后的相似度对应的注意力系数;根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征。
其中,当自注意力层采用多头注意力机制时,映射关系为:
Figure BDA0003178217510000121
其中,hi为注意力特征,
Figure BDA0003178217510000122
为注意力系数,K为注意力头的数量,sigmoid为激活函数。
当自注意力层采用单头注意力机制时,映射关系为:
Figure BDA0003178217510000131
具体地,对注意力系数进行调整后,可以获取调整后的相似度对应的注意力系数,该注意力系数可以通过如下式子确定:
Figure BDA0003178217510000132
在确定注意力系数后,可以代入到预设的映射关系中,确定该注意力系数对应的注意力特征,并将得到的多个注意力特征输入到前向神经网络中,通过处理模块中的前向神经网络模型处理,得到该参考特征集合对应的词向量特征。具体而言,在得到多个注意力特征后,可以对其进行特征融合(add)和标准化(normalization)后,再输入到前向神经网络,前向神经网络对经过特征融合和标准化后的注意力特征进行分析后,可以输入结果,在输出结果再次进行特征融合和标准化后,该处理模块可以输出参考特征集合对应的词向量特征。
在本实施例中,通过获取调整后的相似度对应的注意力系数,根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征,可以为准确识别出电力计量的命名实体提供判别基础。
在一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,包括:
确定多个词向量各自对应的排列顺序;基于各个词向量及其对应的排列顺序,生成第一参考特征集合。
在具体实现中,在获取到多个词向量后,可以获取各个词向量对应的排列顺序,其中,多个词向量各自对应的排列顺序与待识别语料中多个词语对应的排列顺序对应。
在得到各个词向量对应的排列顺序后,可以基于各个词向量及其对应的排列顺序,生成第一参考特征集合。具体而言,在确定每个词向量对应的排列顺序后,可以依次将每个词向量确定为一个元素,通过遍历多个词向量,可以生成包含多个元素的第一参考特征集合,第一参考特征集合中的每个元素对应一个词向量。
在获取到第一参考特征集合后,可以基于第一参考特征集合中各个词向量对应的排列顺序,确定每个词语对应的词性特征。具体而言,词向量是将词语映射为向量形式的表达,当多个词向量按照排列顺序进行排列时,可以表征为待识别语料分词后对应的向量形式,而在待识别语料中,由于不同词语对应的位置、前后关系存在差异,通过分析各个词向量对应的排列顺序,可以得到每个词向量对应的词性特征。
在本实施例中,通过确定多个词向量各自对应的排列顺序,并基于各个词向量及其对应的排列顺序,生成第一参考特征集合,可以为确定相邻词向量之间的相似度提供基础。
在一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,可以包括如下步骤:
确定多个词向量各自对应的排列顺序;基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对;根据多组词向量对,生成第二参考特征集合。
在实际应用中,在获取到多个词向量后,可以获取各个词向量对应的排列顺序,多个词向量各自对应的排列顺序与待识别语料中多个词语对应的排列顺序对应。
在得到各个词向量对应的排列顺序后,可以基于各个词向量及其对应的排列顺序,获取多组相邻的词向量,得到多组词向量对。具体而言,在确定每个词向量对应的排列顺序后,可以对多个词向量进行成对遍历,提取相邻的两个词向量。在得到多组词向量对后,可以将每一组词向量对确定为一个元素,并基于多个元素生成第二参考特征集合。在后续的处理过程中,词向量特征提取模型可以对相邻的两个词向量进行组合分析,得到相邻两个词语对应的组合特征。
在本实施例中,通过确定多个词向量各自对应的排列顺序,基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对,根据多组词向量对,生成第二参考特征集合,能够为获取相邻两个词向量之间的组合特征提供基础,降低分词模型对待识别语料错误分词的影响。
在一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,可以包括如下步骤:
确定多个词向量各自对应的排列顺序;基于多个词向量对应的排列顺序,将相邻的三个词向量确定为一词向量组合,得到多个词向量组合;根据多个词向量组合,生成第三参考特征集合。
在实际应用中,在获取到多个词向量后,可以获取各个词向量对应的排列顺序。在得到各个词向量对应的排列顺序后,可以基于各个词向量及其对应的排列顺序,将相邻的三个词向量确定为一词向量组合,得到多个词向量组合。在得到多个词向量组合后,可以将每一词向量组合确定为一个元素,并基于多个元素生成第三参考特征集合。在后续的处理过程中,词向量特征提取模型可以对相邻的三个词向量进行组合分析,得到相邻三个词语对应的组合特征。
在本实施例中,通过确定多个词向量各自对应的排列顺序,基于多个词向量对应的排列顺序,将相邻的三个词向量确定为一词向量组合,得到多个词向量组合,根据多个词向量组合,生成第三参考特征集合,能够为获取相邻三个词向量之间的组合特征提供基础,降低分词模型对待识别语料错误分词的影响。
为了使本领域技术人员能够更好地理解上述步骤,以下通过一个例子对本申请实施例加以示例性说明,但应当理解的是,本申请实施例并不限于此。
如图2所示,针对待识别的用于描述电力计量信息的待识别语料,可以采用预设的分词模型对其进行分词后,通过训练好的词向量模型获取每个词语对应的词向量。在得到词向量后,可以对多个词向量进行组合,得到第一参考特征集合、第二参考特征集合和第三参考特征集合,并将其输入训练好的词向量特征提取模型中。
在获取到多个参考特征集合后,词向量特征提取模型可以通过第一处理模块、第二处理模块和第三处理模块分别对其进行处理。以第一处理模块为例,在接收到第一参考特征集合后,可以确定第一参考特征集合中元素对应的位置编码,并通过神经余弦多头注意力机制对第一参考特征集合中的元素进行处理,包括获取相邻元素之间的相似度,并通过训练好的单层神经网络对得到的相似度进行放大或缩小,基于调整后的相似度确定注意力特征。在得到多个注意力特征后,可以进行特征融合和标准化,并将处理结果输入到前向神经网络中,并在特征融合和标准化后,得到第一参考特征集合对应的词性特征,作为词向量特征。针对第二参考特征集合,可以由第二处理模块进行处理,得到相邻两个词向量对应的关联性特征,作为词向量特征。针对第三参考特征集合,可以通过第三处理模块处理,得到相邻三个词向量对应的关联性特征,作为词向量特征。第二处理模块和第三处理模块的处理过程与第一处理模块的处理过程相同,本实施例不作赘述。
在得到各个处理模块输出的词向量特征后,可以由条件随机场基于特征函数,确定待识别语料对应的标注结果,确定待识别语料中的命名实体。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种电力计量的命名实体识别装置,所述装置包括:
词向量获取模块301,用于获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
参考特征集合获取模块302,用于对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
词向量特征获取模块303,用于将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
命名实体确定模块304,用于将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
在一个实施例中,所述词向量特征获取模块303,包括:
相似度确定子模块,用于确定同一参考特征集合中相邻元素对应的相似度;
相似度调整子模块,用于将所述相似度输入到预先训练的单层神经网络,通过所述单层神经网络放大或缩小所述相似度,得到调整后的相似度;
词向量特征确定子模块,用于根据调整后的相似度确定该参考特征集合对应的词向量特征。
在一个实施例中,所述词向量特征确定子模块,具体用于:
获取调整后的相似度对应的注意力系数;
根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征;所述映射关系为:
Figure BDA0003178217510000171
其中,hi为注意力特征,
Figure BDA0003178217510000172
为注意力系数,K为注意力头的数量。
在一个实施例中,所述参考特征集合获取模块302,包括:
第一顺序确定子模块,用于确定多个词向量各自对应的排列顺序;多个词向量各自对应的排列顺序与所述待识别语料中多个词语对应的排列顺序对应;
第一参考特征集合生成子模块,用于基于各个词向量及其对应的排列顺序,生成第一参考特征集合。
在一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,包括:
第二顺序确定子模块,用于确定多个词向量各自对应的排列顺序;
组合子模块,用于基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对;
第二参考特征集合生成子模块,用于根据多组词向量对,生成第二参考特征集合。
在一个实施例中,所述装置还包括:
语料库获取模块,用于获取预先构建的电力计量语料库;所述电力计量语料库包括多条用于描述电力计量信息的语料;
分词模块,用于采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量信息的词语;
第一训练模块,用于采用得到的多个词语训练初始化的词向量模型,得到训练好的词向量模型,所述训练好的词向量模型用于识别电力计量语料中各个词语对应的词向量。
在一个实施例中,所述装置还包括:
样本语料获取模块,用于获取样本语料及其对应的标签;所述标签包括所述样本语料中电力计量的命名实体和所述命名实体对应的实体类别;
样本词向量获取模块,用于采用所述分词模型获取样本预料对应的多个样本词语,并通过训练好的词向量模型获取所述样本词语对应的词向量;
样本特征集合获取模块,用于获取所述词向量对应的多个样本特征集合;所述样本特征集合包括第一样本特征集合、第二样本特征集合和第三样本特征集合,所述第一样本特征集合中的每个元素为对应词语的词向量,所述第二样本特征集合中的每个元素为两个相邻词语对应的词向量,所述第三样本特征集合中的每个元素为三个相邻词语对应的词向量;
第二训练模块,用于将各个样本特征集合输入到待训练的机器翻译模型,以通过所述机器翻译模型中的自注意力层确定样本特征集合对应的词向量特征,并将多个词向量特征输入到预设的条件随机场,根据所述条件随机场输出的预测结果,确定所述样本语料中的预测命名实体;
参数调整模块,用于根据所述预测命名实体和所述标签,调整所述机器翻译模型的模型参数,重复训练过程,直到满足训练结束条件,得到词向量特征提取模型。
关于一种电力计量的命名实体识别装置的具体限定可以参见上文中对于一种电力计量的命名实体识别方法的限定,在此不再赘述。上述一种电力计量的命名实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储词向量。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电力计量的命名实体识别方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
在一个实施例中,处理器执行计算机程序时还实现上述其他实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种电力计量的命名实体识别方法,其特征在于,所述方法包括:
获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,包括:
确定同一参考特征集合中相邻元素对应的相似度;
将所述相似度输入到预先训练的单层神经网络,通过所述单层神经网络放大或缩小所述相似度,得到调整后的相似度;
根据调整后的相似度确定该参考特征集合对应的词向量特征。
3.根据权利要求2所述的方法,其特征在于,所述根据调整后的相似度确定该参考特征集合对应的词向量特征,包括:
获取调整后的相似度对应的注意力系数;
根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征;所述映射关系为:
Figure FDA0003178217500000011
其中,hi为注意力特征,
Figure FDA0003178217500000012
为注意力系数,K为注意力头的数量。
4.根据权利要求1所述的方法,其特征在于,所述对所述词向量进行组合,获取多个参考特征集合,包括:
确定多个词向量各自对应的排列顺序;多个词向量各自对应的排列顺序与所述待识别语料中多个词语对应的排列顺序对应;
基于各个词向量及其对应的排列顺序,生成第一参考特征集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述词向量进行组合,获取多个参考特征集合,包括:
确定多个词向量各自对应的排列顺序;
基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对;
根据多组词向量对,生成第二参考特征集合。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取预先构建的电力计量语料库;所述电力计量语料库包括多条用于描述电力计量信息的语料;
采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量信息的词语;
采用得到的多个词语训练初始化的词向量模型,得到训练好的词向量模型,所述训练好的词向量模型用于识别电力计量语料中各个词语对应的词向量。
7.根据权利要求6所述的方法,其特征在于,还包括:
获取样本语料及其对应的标签;所述标签包括所述样本语料中电力计量的命名实体和所述命名实体对应的实体类别;
采用所述分词模型获取样本预料对应的多个样本词语,并通过训练好的词向量模型获取所述样本词语对应的词向量;
获取所述词向量对应的多个样本特征集合;所述样本特征集合包括第一样本特征集合、第二样本特征集合和第三样本特征集合,所述第一样本特征集合中的每个元素为对应词语的词向量,所述第二样本特征集合中的每个元素为两个相邻词语对应的词向量,所述第三样本特征集合中的每个元素为三个相邻词语对应的词向量;
将各个样本特征集合输入到待训练的机器翻译模型,以通过所述机器翻译模型中的自注意力层确定样本特征集合对应的词向量特征,并将多个词向量特征输入到预设的条件随机场,根据所述条件随机场输出的预测结果,确定所述样本语料中的预测命名实体;
根据所述预测命名实体和所述标签,调整所述机器翻译模型的模型参数,重复训练过程,直到满足训练结束条件,得到词向量特征提取模型。
8.一种电力计量的命名实体识别装置,其特征在于,所述装置包括:
词向量获取模块,用于获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
参考特征集合获取模块,用于对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
词向量特征获取模块,用于将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
命名实体确定模块,用于将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202110839145.0A 2021-07-23 2021-07-23 电力计量的命名实体识别方法、装置和计算机设备 Active CN113591480B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110839145.0A CN113591480B (zh) 2021-07-23 2021-07-23 电力计量的命名实体识别方法、装置和计算机设备
PCT/CN2022/087120 WO2023000725A1 (zh) 2021-07-23 2022-04-15 电力计量的命名实体识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110839145.0A CN113591480B (zh) 2021-07-23 2021-07-23 电力计量的命名实体识别方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113591480A true CN113591480A (zh) 2021-11-02
CN113591480B CN113591480B (zh) 2023-07-25

Family

ID=78249527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110839145.0A Active CN113591480B (zh) 2021-07-23 2021-07-23 电力计量的命名实体识别方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN113591480B (zh)
WO (1) WO2023000725A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023000725A1 (zh) * 2021-07-23 2023-01-26 深圳供电局有限公司 电力计量的命名实体识别方法、装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101481A (zh) * 2018-06-25 2018-12-28 北京奇艺世纪科技有限公司 一种命名实体识别方法、装置及电子设备
WO2020133039A1 (zh) * 2018-12-27 2020-07-02 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备
CN112052684A (zh) * 2020-09-07 2020-12-08 南方电网数字电网研究院有限公司 电力计量的命名实体识别方法、装置、设备和存储介质
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN112949311A (zh) * 2021-03-05 2021-06-11 北京工业大学 一种融合字形信息的命名实体识别方法
CN113065349A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于条件随机场的命名实体识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145303B (zh) * 2018-09-06 2023-04-18 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN113591480B (zh) * 2021-07-23 2023-07-25 深圳供电局有限公司 电力计量的命名实体识别方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101481A (zh) * 2018-06-25 2018-12-28 北京奇艺世纪科技有限公司 一种命名实体识别方法、装置及电子设备
WO2020133039A1 (zh) * 2018-12-27 2020-07-02 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN112052684A (zh) * 2020-09-07 2020-12-08 南方电网数字电网研究院有限公司 电力计量的命名实体识别方法、装置、设备和存储介质
CN112949311A (zh) * 2021-03-05 2021-06-11 北京工业大学 一种融合字形信息的命名实体识别方法
CN113065349A (zh) * 2021-03-15 2021-07-02 国网河北省电力有限公司 基于条件随机场的命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱泉清 等: "中文微博命名实体识别", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023000725A1 (zh) * 2021-07-23 2023-01-26 深圳供电局有限公司 电力计量的命名实体识别方法、装置和计算机设备

Also Published As

Publication number Publication date
WO2023000725A1 (zh) 2023-01-26
CN113591480B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN109829629B (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
KR101999152B1 (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
US10796104B1 (en) Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112183994A (zh) 一种设备状态的评估方法、装置、计算机设备和存储介质
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112580329B (zh) 文本噪声数据识别方法、装置、计算机设备和存储介质
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN113591480B (zh) 电力计量的命名实体识别方法、装置和计算机设备
CN116432611A (zh) 文稿写作辅助方法、系统、终端及存储介质
CN115687136A (zh) 一种脚本程序处理方法、系统、计算机设备及介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN112270189B (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN113591479A (zh) 电力计量的命名实体识别方法、装置和计算机设备
CN116089586B (zh) 基于文本的问题生成方法及问题生成模型的训练方法
Devatine et al. An integrated approach for political bias prediction and explanation based on discursive structure
CN111448561B (zh) 用于基于聚类和句子相似度来生成答案的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant