CN110232192A - 电力术语命名实体识别方法及装置 - Google Patents
电力术语命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN110232192A CN110232192A CN201910533838.XA CN201910533838A CN110232192A CN 110232192 A CN110232192 A CN 110232192A CN 201910533838 A CN201910533838 A CN 201910533838A CN 110232192 A CN110232192 A CN 110232192A
- Authority
- CN
- China
- Prior art keywords
- text information
- vector
- module
- entity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000007787 long-term memory Effects 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims description 26
- 239000000463 material Substances 0.000 claims description 24
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种电力术语命名实体识别方法,包括,获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的标记序列,实现对电力术语的实体识别。本发明在双向长短期记忆网络模型之后接入条件随机场模型,避免了直接由双向长短期记忆网络模型输出相互独立导致的语法错误问题,且条件随机场模型能够考虑标注的文本信息输出之间的顺序,保证输出的标签符合正常语法表达,保证识别准确性。
Description
技术领域
本发明实施例涉及数据挖掘技术领域,具体涉及一种电力命名实体识别方法及装置。
背景技术
命名实体识别(Name Entity Recognition,简称NER)是指从文本中识别出特定领域专有名词或其他特定术语的一项技术,是文本数据挖掘的关键技术之一,也是文本结构化、信息抽取、知识图谱、问答系统、句法分析、机器翻译等应用领域的重要基础工作。对于文本内容的实体识别可以使相关行业从业者能够快速的从海量文本中分析得到具体实体的相关信息。
目前解决各领域命名实体识别问题的方法主要分为以下三类方法:
(1)基于规则的方法,此类方法采用相关技术领域的语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位值词(如尾词)、中心词等方法,以模式和字符串相匹配为主要手段,此类方法在构造规则的过程中往往需要大量的语言学知识,不同语言的识别规则不尽相同,而且需要谨慎处理规则之间的冲突问题;此外,构建规则的过程费时费力、可移植性较差。
(2)基于统计学的方法,主要包括:隐马尔可夫模型、最大熵、支持向量机、条件随机场等。基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。另外,此类方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少,这是此种方法的又一大制约。
(3)基于神经网络的方法,此类方法使得模型训练成为一个端到端的整体过程,而非传统的pipeline,不依赖特征工程,是一种数据驱动的方法;但网路变种多、对参数依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个token打标签的过程中是独立的分类,不能直接利用上文已经预测的标签(只能靠隐状传递上文信息),进而导致预测出的标签序列可能不是符合语意规则的。
目前已有的中文文本实体识别模型及框架大多只对普通新闻文本的实体能够取得较好的识别效果,而对于专业领域,如电力、医学、互联网等邻域实体的识别需要模型学习到相关领域的实体特征,且不同领域由于各自实体的特征类型与参数不同,训练好的模型不具有较好的泛化性和迁移性,导致常规的实体识别方法与模型对这些专业领域的实体无法取得较好的识别效果。
因此,研究并设计针对电力领域较高效准确的命名实体识别技术和方法,有助于在大数据背景下对于电力非结构化文本关键内容的快速提取和分析,有助于推动我国的智能电网体系的建设进程。
发明内容
为此,本发明实施例提供一种电力术语实体识别方法及装置,以解决现有技术中由于传统电力文本实体识别存在语法输出不合理和模型泛化不足而导致的识别准确率不高的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面提供一种电力术语实体识别方法,包括如下步骤:
获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的标记序列,实现对电力术语的实体识别。
进一步地,所述双向长短期记忆网络模型通过以下步骤训练:
构建实体字典;
以实体字典中标注的实体为输入样本,输入至预先训练的字向量模型,得到标注的实体对应的字向量,作为训练语料;
用所述训练语料训练所述双向长短期记忆网络模型。
进一步地,实体字典的构建包括如下步骤:
获取原始语料;
对所述原始语料以词为切分单位进行切分,获得词语切分语料集;
采用空间距离算法对所述词语切分语料集进行计算,构建实体字典。
进一步地,所述字向量为100维的向量。
进一步地,在所述输出符合语义规则的标记序列后,还包括使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。
本发明的另一方面提供一种电力术语实体识别装置,其特征在于,包括文本信息向量模块、特征输出模块及实体识别模块;
其中,所述文本信息向量模块用于获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
所述特征输出模块用于将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的输出标记序列,实现对电力术语的实体识别。
进一步地,所述特征输出模块包括,字典构建模块、训练语料获得模块和训练模块;其中,
所述字典构建模块用于构建实体字典;
训练语料获得模块用于以实体字典中标注的实体为输入样本,输入至预先训练的字向量模型,得到标注的实体对应的字向量,作为训练语料;
所述训练模块用于用所述训练语料训练所述双向长短期记忆网络模型。
进一步地,所述字典构建模块包括原始语料获取模块、切分模块和算法计算模块;其中,
所述原始语料获取模块用于获取原始语料;
所述切分模块用于对所述原始语料以词为切分单位或者以字为切分单位进行切分,获得词语切分语料集或字符切分语料集;
所述算法计算模块用于采用空间距离算法对所述词语切分语料集进行计算,构建实体字典。
进一步地,所述向量模型采用字向量模型,所述字向量模型将所述文本信息训练成100维的向量。
进一步地,在所述实体识别模块之后还包括参数优化模块,用于使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。
本发明实施例具有如下优点:
本发明在双向长短期记忆网络模型之后接入条件随机场模型,对电力文本信息进行识别,避免了直接由双向长短期记忆网络模型输出相互独立导致的语法错误问题,且条件随机场模型具有标签之间的转移特征,会考虑标注的文本信息输出之间的顺序性,因此保证了输出的标签符合正常的语法表达,保证了识别的准确性。
进一步的,在构建基础实体字典中,通过对初始文本进行词向量训练(word2vec)得到词向量模型。根据词向量模型中词义信息与空间位置距离相关的特性,通过部分已有的或易于获取的实体作为搜索起点,多次迭代搜索词向量模型空间中距离相近的实体,减少了构造实体字典过程中的工作量,有效的丰富了实体字典。
进一步的,在对电力实体的标注过程中,本发明将基础实体的前向修饰名词一并标注。使用此种标注策略避免了不同实体标注为同一个实体的现象,使得实体信息更加具体化和完整化,减少了实体识别过程中的实体识别不全的现象。
进一步的,在将文本向神经网络进行输入的过程中,使用训练好的字向量模型对语句中的每个字符进行向量映射,从而得到每一个字符的向量输入。相较于普通的离散化字符表示方式,字向量表示方式由于基于训练语料的学习得到,从而蕴含了部分语料特征,从而能够提高模型的识别效果。相较于词向量作为输入,字向量具有规模小,未登录项少,计算速度快等优点的同时还可以避免由于句子在分词阶段时产生的分词错误而导致的语义错误。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例1提供的一种电力术语实体识别方法流程框图;
图2为本发明提供的双向长短期记忆网络结构;
图3为本发明提供的词向量模型构建实体字典流程;
图4为本发明Bi-LSTM与CRF组合模型结构图;
图5为本发明实施例2提供的一种电力术语实体识别方法优选实施方式流程框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1是本发明实施例1提供的一种电力术语实体识别方法流程框图,具体包括如下步骤:
S1:获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
S2:将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
S3:将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的标记序列,实现对电力术语的实体识别。
命名实体识别(Named Entity Recognition,简称NER)是指从文本中识别出特定领域专有名词或其他特定术语的一项技术手段,是文本数据挖掘的关键技术之一,也是文本结构化、信息抽取、知识图谱、问答系统、句法分析、机器翻译等应用的重要基础工作。对于文本内容的实体识别可以使相关行业从业者能够快速的从海量文本中分析得到具体实体的相关信息。
S1:获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
上述电力文本信息是指电力专业领域的文本信息。
上述字向量模型的获得为本领域现有技术,在此不再赘述。
上述文本信息中的每一个句子用one-hot形式表示,此过程中利用预先训练好的字向量模型vec2.model将句子中的每一个字符映射为一个100维的向量表示。使用字向量而非词向量作为输入,可以避免由于句子在分词阶段时产生的分词错误而导致的语义错误,从而影响后续模型对于句子特征的学习。另外字向量模型相对于词向量模型具有规模小,未登录项少,计算速度快等优点。
需要说明的是,上述文本信息向量可以是80维-200维,在本发明中优选为100维。
S2:将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
上述双向长短期记忆网络(Bi-directional Long Short-Term Memory)是LSTM的一个变体,参见图2为本发明提供的双向长短期记忆网络结构,其原理是将两个时序方向相反的长短时记忆网络结构连接到同一输出,以此来获取历史和未来信息。因此相比于其他的RNN网络需要等到后面的时间节点才能获取未来信息,该网络结构可以更充分的利用上下文信息。我们利用该网络结构这一优势,用LSTM对每个句子进行前向和后向的计算,然后将得到的两个结果向量进行拼接得到最终的隐层表示。图2表示的是Bi-LSTM模型在时间上的展开,前向LSTM网络依次接受由embedding层第1个时刻到第t个时刻的输入x1到xt,并依次计算前向隐藏状态反向的LSTM网络同样接受第t时刻到第1个时刻的输入x1到xt,并相应的计算反向隐藏状态这样我们就得到了每个时刻前向和后向的双向特征,之后对两个方向上的特征进行拼接得到一个双向表达:
这样向量ht就包含了上下文的信息,相比单向LSTM模型的输出结果,双向表达的ht更关注标注的实体与当前词周围的信息,有利于模型学习实体周围的特征,减少计算代价,提高效率。
上述双向长短期记忆网络模型通过以下步骤训练:
构建实体字典;
以实体字典中标注的实体为输入样本,输入至预先训练的字向量模型,得到标注的实体对应的字向量,作为训练语料;
用所述训练语料训练所述双向长短期记忆网络模型。
上述实体字典的构建方式如下步骤:
获取原始语料;
对所述原始语料以词为切分单位或者以字为切分单位进行切分,获得词语切分语料集或字符切分语料集;
采用空间距离算法对所述词语切分语料集进行计算,构建实体字典。
具体的,上述实体字典的构建步骤可以描述为:
在字典的构建过程中,将需要处理原始语料(RawData)经过以词语切分单位和以字符为切分单位的操作之后分别获得词语切分语料集(WordData1)字符切分语料集(WordData2),之后对两个语料集分别词和字的向量模型训练(word2vec),分别获得词向量模型vec1.model和字向量模型vec2.model。优选的,设定词向量维度为100维。由于词向量模型中各词语之间的词义相似度可以用词向量空间中的距离具有相关性,词义特征越相近的两个词语在词向量空间中距离越近。本次发明提出并使用了一种通过词向量空间中相似词语来搜索构建实体字典的方法。
首先收集一些易于获取的实体作为搜索起点,通过词向量模型得到与这些实体在向量空间上相近的词语,多次迭代搜索规定数量内的最近词语,并通过人工筛选获得正确的实体,从而构建并丰富标注字典中的实体。流程如图3所示,为本发明提供的词向量模型构建实体字典构建和完善流程。具体为,人工构建字典,采用空间距离算法对所述词语切分语料集进行计算,搜索语词向量相近的实体,搜索到的实体再进行进一步的人工筛选,保存至构建的字典中,实现对实体字典的构建和完善。
S3:将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的标记序列,实现对电力术语的实体识别。
CRF即条件随机场(Conditional Random Fields),是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型。在自然语言处理中,它是用于标注和划分序列数据的概率化模型,根据CRF的定义,相对序列就是给定观测序列X和输出序列Y,然后通过定义条件概率P(Y|X)来描述模型,图4为本发明Bi-LSTM与CRF组合模型结构图。
CRF能够通过考虑相邻标签的关系获得一个全局最优的标记序列。我们将CRF融合到Bi-LSTM模块中,对Bi-LSTM输出进行处理,获得全局最优的标记序列。对于一个句子s={w1,w2,...wn}送入网络中训练,定义矩阵P是Bi-LSTM层的输出结果,其中P的大小n×m,n是字符个数,m是标签种类。定义pij代表句子中第i个单词第j个标签的概率。
对于一个预测序列y={y1,y2,...,yn},它的概率可以表示为:
式中,矩阵A是转移矩阵,例如Aij表示由标签i转移到j的概率即转移矩阵,y0、yn则是预测句子起始和结束的标记。对K(X,y)进行指数化和标准化,得到在原语句S的条件下产生标记序列y的概率为:
式中,代表可能的标记值。
为使得正确标注的序列的概率最大,所以采用对数最大似然估计得到模型的标注序列似然函数:
其中,YX表示所有可能的标记集合,包括不符合BMESO标记规则的标记序列。通过式(4)得到符合语义规则约束的输出序列。
参见图5为本发明实施例2提供的一种电力术语实体识别方法优选实施方式流程框图。本发明实施例可选的实施方式还包括,在所述输出符合语义规则的标记序列后,还包括使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。其具体过称为,CRF利用原始语料的一部分以词为单位进行切分,获得分词切分语料集,将该语料集输入至预先训练的词向量模型(即Vec1.model)后,通过空间距离算法完善实体字典。利用原始语料的另一部分以字为单位进行切分,获得字符切分语料集,将该字符切分语料集输入至实体字典进行标注,并将标注的字符切分语料集输入至预先训练的字向量模型(即Vec2.model)后,将获得的字向量输入至Bi-LSTM模型(即Bi-LSTM层),将输出结果输入至CRF模型(即CRF层),将最终识别出的实体与预先存储在训练语料中的实体采用Adam算法进行损失计算,实时对所述双向长短期记忆网络模型和所述条件随机场模型的参数进行调整。
上述Adam是一种对随机梯度下降法的扩展算法。属于现有技术,在此不再赘述。
本发明实施例可选的实施方式还包括,在训练过程中于神经网络部分加入dropout以防止模型的过拟合,提高模型的泛化能力。
预测时,由式(5)输出得到整体概率最大的一组序列:
其中,argmax函数为基于动态规划的Viterbi算法,利用该算法求解输出最优的标注序列,即完成模型的输出。
下面通过一个例子来对本发明一种电力术语实体识别方法进行说明。
例如,将电力文本信息“电能质量控制器”输入至预先构建的实体字典,实体字典对该电力文本进行标注,并通过实体字典匹配到实体的基础部分“控制器”,之后对标注的文本信息输入至双向长短期记忆网络模型,进行前向搜索实体修饰名词,之后前向搜索得到实体修饰名词“电能”、“质量”,从而组合形成完成实体。
本发明的另一方面提供一种电力术语实体识别装置,其特征在于,包括文本信息向量模块、特征输出模块及实体识别模块;
其中,所述文本信息向量模块用于获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
所述特征输出模块用于将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的输出标记序列,实现对电力术语的实体识别。
进一步地,所述特征输出模块包括,字典构建模块、训练语料获得模块和训练模块;其中,
所述字典构建模块用于构建实体字典;
训练语料获得模块用于以实体字典中标注的实体为输入样本,输入至预先训练的字向量模型,得到标注的实体对应的字向量,作为训练语料;
所述训练模块用于用所述训练语料训练所述双向长短期记忆网络模型。
进一步地,所述字典构建模块包括原始语料获取模块、切分模块和算法计算模块;其中,
所述原始语料获取模块用于获取原始语料;
所述切分模块用于对所述原始语料以词为切分单位或者以字为切分单位进行切分,获得词语切分语料集或字符切分语料集;
所述算法计算模块用于采用空间距离算法对所述词语切分语料集进行计算,构建实体字典。
进一步地,所述向量模型采用字向量模型,所述字向量模型将所述文本信息训练成100维的向量。
进一步地,在所述实体识别模块之后还包括参数优化模块,用于使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种电力术语命名实体识别方法,包括如下步骤:
获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的标记序列,实现对电力术语的实体识别。
2.根据权利要求1所述的方法,其特征在于,所述双向长短期记忆网络模型通过以下步骤训练:
构建实体字典;
以实体字典中标注的实体为输入样本,输入至预先训练的字向量模型,得到标注的实体对应的字向量,作为训练语料;
用所述训练语料训练所述双向长短期记忆网络模型。
3.根据权利要求2所述的方法,其特征在于,实体字典的构建包括如下步骤:
获取原始语料;
对所述原始语料以词为切分单位进行切分,获得词语切分语料集;
采用空间距离算法对所述词语切分语料集进行计算,构建实体字典。
4.根据权利要求1所述的方法,其特征在于,所述字向量为100维的向量。
5.根据权利要求1所述的方法,其特征在于,在所述输出符合语义规则的标记序列后,还包括使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。
6.一种电力术语实体识别装置,其特征在于,包括文本信息向量模块、特征输出模块及实体识别模块;
其中,所述文本信息向量模块用于获取电力文本信息,将所述电力文本信息输入至预先训练的字向量模型,得到映射后的具有预设维数的文本信息向量;
所述特征输出模块用于将所述文本信息向量输入至预先训练的双向长短期记忆网络模型,得到所述文本信息向量的双向特征;
将所述双向特征输入至预先训练的条件随机场模型,输出符合语义规则的输出标记序列,实现对电力术语的实体识别。
7.根据权利要求6所述的装置,其特征在于,所述特征输出模块包括,字典构建模块、训练语料获得模块和训练模块;其中,
所述字典构建模块用于构建实体字典;
训练语料获得模块用于以实体字典中标注的实体为输入样本,输入至预先训练的字向量模型,得到标注的实体对应的字向量,作为训练语料;
所述训练模块用于用所述训练语料训练所述双向长短期记忆网络模型。
8.根据权利要求7所述的装置,其特征在于,所述字典构建模块包括原始语料获取模块、切分模块和算法计算模块;其中,
所述原始语料获取模块用于获取原始语料;
所述切分模块用于对所述原始语料以词为切分单位或者以字为切分单位进行切分,获得词语切分语料集或字符切分语料集;
所述算法计算模块用于采用空间距离算法对所述词语切分语料集进行计算,构建实体字典。
9.根据权利要求6所述的装置,其特征在于,所述向量模型采用字向量模型,所述字向量模型将所述文本信息训练成100维的向量。
10.根据权利要求6所述的装置,其特征在于,在所述实体识别模块之后还包括参数优化模块,用于使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910533838.XA CN110232192A (zh) | 2019-06-19 | 2019-06-19 | 电力术语命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910533838.XA CN110232192A (zh) | 2019-06-19 | 2019-06-19 | 电力术语命名实体识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232192A true CN110232192A (zh) | 2019-09-13 |
Family
ID=67856279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910533838.XA Pending CN110232192A (zh) | 2019-06-19 | 2019-06-19 | 电力术语命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232192A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555102A (zh) * | 2019-09-16 | 2019-12-10 | 青岛聚看云科技有限公司 | 媒体标题识别方法、装置及存储介质 |
CN110705300A (zh) * | 2019-09-27 | 2020-01-17 | 上海烨睿信息科技有限公司 | 情感分析方法、系统、计算机终端及存储介质 |
CN110825852A (zh) * | 2019-11-07 | 2020-02-21 | 四川长虹电器股份有限公司 | 面向长文本的语义匹配方法及系统 |
CN111027309A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于双向长短期记忆网络的实体属性值的抽取方法 |
CN111222334A (zh) * | 2019-11-15 | 2020-06-02 | 广州洪荒智能科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN111291566A (zh) * | 2020-01-21 | 2020-06-16 | 北京明略软件系统有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN111291550A (zh) * | 2020-01-17 | 2020-06-16 | 北方工业大学 | 一种中文实体提取方法及装置 |
CN111523241A (zh) * | 2020-04-28 | 2020-08-11 | 国网浙江省电力有限公司湖州供电公司 | 新型用电负荷逻辑信息模型的构建方法 |
CN111611775A (zh) * | 2020-05-14 | 2020-09-01 | 沈阳东软熙康医疗系统有限公司 | 一种实体识别模型生成方法、实体识别方法及装置、设备 |
CN111783464A (zh) * | 2020-06-29 | 2020-10-16 | 中国电力科学研究院有限公司 | 一种面向电力的领域实体识别方法、系统及存储介质 |
CN112215005A (zh) * | 2020-10-12 | 2021-01-12 | 小红书科技有限公司 | 实体识别方法及装置 |
CN112232063A (zh) * | 2020-08-28 | 2021-01-15 | 南京航空航天大学 | 一种基于主动学习的电力预案文本标注方法 |
CN112307767A (zh) * | 2020-11-09 | 2021-02-02 | 国网福建省电力有限公司 | 一种基于Bi-LSTM技术的调控知识建模方法 |
CN112487211A (zh) * | 2020-12-15 | 2021-03-12 | 交控科技股份有限公司 | 一种轨道交通知识库构建方法及系统 |
CN112632993A (zh) * | 2020-11-27 | 2021-04-09 | 浙江工业大学 | 一种基于卷积注意力网络的电力计量实体识别模型的分类方法 |
CN112632270A (zh) * | 2019-09-23 | 2021-04-09 | 南京航空航天大学 | 一种针对电力预案文本的基于长短时记忆网络的序列标注方法 |
CN112669881A (zh) * | 2020-12-25 | 2021-04-16 | 北京融讯科创技术有限公司 | 一种语音检测方法、装置、终端及存储介质 |
CN112765314A (zh) * | 2020-12-31 | 2021-05-07 | 广东电网有限责任公司 | 一种基于电力本体知识库的电力信息检索方法 |
CN113139069A (zh) * | 2021-05-14 | 2021-07-20 | 上海交通大学 | 面向知识图谱构建的电力故障中文文本实体识别方法及系统 |
CN113486668A (zh) * | 2021-08-25 | 2021-10-08 | 广东电网有限责任公司 | 一种电力知识实体识别方法、装置、设备和介质 |
CN113569128A (zh) * | 2020-04-29 | 2021-10-29 | 北京金山云网络技术有限公司 | 数据检索方法、装置及电子设备 |
CN113591479A (zh) * | 2021-07-23 | 2021-11-02 | 深圳供电局有限公司 | 电力计量的命名实体识别方法、装置和计算机设备 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
CN116777607A (zh) * | 2023-08-24 | 2023-09-19 | 上海银行股份有限公司 | 一种基于nlp技术的智能审计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN109002436A (zh) * | 2018-07-12 | 2018-12-14 | 上海金仕达卫宁软件科技有限公司 | 基于长短期记忆网络的医疗文本术语自动识别方法及系统 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
-
2019
- 2019-06-19 CN CN201910533838.XA patent/CN110232192A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN109002436A (zh) * | 2018-07-12 | 2018-12-14 | 上海金仕达卫宁软件科技有限公司 | 基于长短期记忆网络的医疗文本术语自动识别方法及系统 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555102A (zh) * | 2019-09-16 | 2019-12-10 | 青岛聚看云科技有限公司 | 媒体标题识别方法、装置及存储介质 |
CN112632270A (zh) * | 2019-09-23 | 2021-04-09 | 南京航空航天大学 | 一种针对电力预案文本的基于长短时记忆网络的序列标注方法 |
CN110705300A (zh) * | 2019-09-27 | 2020-01-17 | 上海烨睿信息科技有限公司 | 情感分析方法、系统、计算机终端及存储介质 |
CN110825852A (zh) * | 2019-11-07 | 2020-02-21 | 四川长虹电器股份有限公司 | 面向长文本的语义匹配方法及系统 |
CN111222334A (zh) * | 2019-11-15 | 2020-06-02 | 广州洪荒智能科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN111027309A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于双向长短期记忆网络的实体属性值的抽取方法 |
CN111291550A (zh) * | 2020-01-17 | 2020-06-16 | 北方工业大学 | 一种中文实体提取方法及装置 |
CN111291550B (zh) * | 2020-01-17 | 2021-09-03 | 北方工业大学 | 一种中文实体提取方法及装置 |
CN111291566A (zh) * | 2020-01-21 | 2020-06-16 | 北京明略软件系统有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN111291566B (zh) * | 2020-01-21 | 2023-04-28 | 北京明略软件系统有限公司 | 一种事件主体识别方法、装置、存储介质 |
CN111523241A (zh) * | 2020-04-28 | 2020-08-11 | 国网浙江省电力有限公司湖州供电公司 | 新型用电负荷逻辑信息模型的构建方法 |
CN111523241B (zh) * | 2020-04-28 | 2023-06-13 | 国网浙江省电力有限公司湖州供电公司 | 用电负荷逻辑信息模型的构建方法 |
CN113569128A (zh) * | 2020-04-29 | 2021-10-29 | 北京金山云网络技术有限公司 | 数据检索方法、装置及电子设备 |
CN111611775B (zh) * | 2020-05-14 | 2023-07-18 | 沈阳东软熙康医疗系统有限公司 | 一种实体识别模型生成方法、实体识别方法及装置、设备 |
CN111611775A (zh) * | 2020-05-14 | 2020-09-01 | 沈阳东软熙康医疗系统有限公司 | 一种实体识别模型生成方法、实体识别方法及装置、设备 |
CN111783464A (zh) * | 2020-06-29 | 2020-10-16 | 中国电力科学研究院有限公司 | 一种面向电力的领域实体识别方法、系统及存储介质 |
CN112232063A (zh) * | 2020-08-28 | 2021-01-15 | 南京航空航天大学 | 一种基于主动学习的电力预案文本标注方法 |
CN112215005A (zh) * | 2020-10-12 | 2021-01-12 | 小红书科技有限公司 | 实体识别方法及装置 |
CN112307767A (zh) * | 2020-11-09 | 2021-02-02 | 国网福建省电力有限公司 | 一种基于Bi-LSTM技术的调控知识建模方法 |
CN112632993A (zh) * | 2020-11-27 | 2021-04-09 | 浙江工业大学 | 一种基于卷积注意力网络的电力计量实体识别模型的分类方法 |
CN112487211B (zh) * | 2020-12-15 | 2024-04-26 | 交控科技股份有限公司 | 一种轨道交通知识库构建方法及系统 |
CN112487211A (zh) * | 2020-12-15 | 2021-03-12 | 交控科技股份有限公司 | 一种轨道交通知识库构建方法及系统 |
CN112669881A (zh) * | 2020-12-25 | 2021-04-16 | 北京融讯科创技术有限公司 | 一种语音检测方法、装置、终端及存储介质 |
CN112765314B (zh) * | 2020-12-31 | 2023-08-18 | 广东电网有限责任公司 | 一种基于电力本体知识库的电力信息检索方法 |
CN112765314A (zh) * | 2020-12-31 | 2021-05-07 | 广东电网有限责任公司 | 一种基于电力本体知识库的电力信息检索方法 |
CN113139069A (zh) * | 2021-05-14 | 2021-07-20 | 上海交通大学 | 面向知识图谱构建的电力故障中文文本实体识别方法及系统 |
CN113591479A (zh) * | 2021-07-23 | 2021-11-02 | 深圳供电局有限公司 | 电力计量的命名实体识别方法、装置和计算机设备 |
CN113486668A (zh) * | 2021-08-25 | 2021-10-08 | 广东电网有限责任公司 | 一种电力知识实体识别方法、装置、设备和介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
CN116777607A (zh) * | 2023-08-24 | 2023-09-19 | 上海银行股份有限公司 | 一种基于nlp技术的智能审计方法 |
CN116777607B (zh) * | 2023-08-24 | 2023-11-07 | 上海银行股份有限公司 | 一种基于nlp技术的智能审计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN105393265A (zh) | 人机交互学习中的主动特征化 | |
CN109325231A (zh) | 一种多任务模型生成词向量的方法 | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
Xiao et al. | Multi-head self-attention based gated graph convolutional networks for aspect-based sentiment classification | |
CN113326378A (zh) | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 | |
Xuanyuan et al. | Sentiment classification algorithm based on multi-modal social media text information | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
Song et al. | Text sentiment analysis based on convolutional neural network and bidirectional LSTM model | |
Gong et al. | Towards knowledge enhanced language model for machine reading comprehension | |
Cheng et al. | Integration of automatic sentence segmentation and lexical analysis of ancient Chinese based on BiLSTM-CRF model | |
Le Huy et al. | Keyphrase extraction model: a new design and application on tourism information | |
Touati-Hamad et al. | Arabic quran verses authentication using deep learning and word embeddings | |
Ouyang et al. | Chinese named entity recognition based on B-LSTM neural network with additional features | |
Wang et al. | Knowledge graph embedding with interactive guidance from entity descriptions | |
Wang et al. | Gated hierarchical LSTMs for target-based sentiment analysis | |
Yun et al. | Combining vector space features and convolution neural network for text sentiment analysis | |
Hu et al. | A Comparative Study on the Classification Performance of Machine Learning Models for Academic Full Texts | |
Nai et al. | A densely connected encoder stack approach for multi-type legal machine reading comprehension | |
Nakajima et al. | Text Classification Using a Graph Based on Relationships Between Documents | |
Wang et al. | Realization of Chinese word segmentation based on deep learning method | |
Du et al. | Linguistic knowledge based on attention neural network for targeted sentiment classification | |
Li et al. | DTGCN: a method combining dependency tree and graph convolutional networks for Chinese long-interval named entity relationship extraction | |
Zhang et al. | Double-channel multi-layer information fusion for text matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190913 |
|
RJ01 | Rejection of invention patent application after publication |