CN112036163A - 电力预案文本序列标注中集外词处理方法 - Google Patents
电力预案文本序列标注中集外词处理方法 Download PDFInfo
- Publication number
- CN112036163A CN112036163A CN202010891713.7A CN202010891713A CN112036163A CN 112036163 A CN112036163 A CN 112036163A CN 202010891713 A CN202010891713 A CN 202010891713A CN 112036163 A CN112036163 A CN 112036163A
- Authority
- CN
- China
- Prior art keywords
- model
- electric power
- word
- power plan
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000002372 labelling Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于电力预案文本序列标注中集外词处理方法。方法包括:构建电力预案文本中对应词的词嵌入;构建电力预案文本中的部首词典;提取训练模型所需要的特征;训练集外词处理模型;采用集外词处理模型处理集外词。使用上述方法构造的集外词模型可产生处理电力预案序列标注中产生的集外词的词嵌入,使用生成的词嵌入作为电力预案序列标注模型的输入可以生成正确的标签,进而提高电力预案序列标注模型的准确度。
Description
技术领域
本发明涉及自然语言处理以及深度学习领域,特别是涉及一种针对电力预案文本的集外词处理技术。
背景技术
电力调度预案是针对电力调度现象的应对措施,该调度现象和应对预案以文本文件形式存储。是本电网工作调度的行之有效工作经验的积累。在面临电调度现象时候和调度预案由电力系统专业的语法、词汇描述的。其动词具有特定的含义,语法和描述方式与自然语言也不同,描述的对象范围和属性,范围更窄,语法更严格。由于突发安全事件引发原因、发生时间、影响范围的不确定性和突发性,尤其在发生大面积停电事件的情况下,负责应急指挥的领导和技术人员需要掌握电网的运行状况,及时分析事故原因,判断故障位置,为抢修指挥提供方便支持。这就必须建立一个高效、透明、畅通的信息系统作为支撑。在应急指挥状态下,需要应急指挥中心能向指挥人员提供电网运行信息、变电站音视频信息、故障现场音视频信息、各类应急预案以及各类辅助决策信息,并通过技术支持系统,指挥电网调度,协调应急队伍,调用各类应急资源参与应急处理全过程。同时,指挥中心还能通过信息发布平台进行人员召集和事故处理进展状况等信息的发布。
现有的基于深度学习的电力调度预案模型对电力预案文本序列标注准确率较高,然而,不同地区的电力预案文本所包含的内容差异较大,这就导致原先使用一个地区的预案数据训练的模型在处理另一个地区的预案数据时会遇到大量的集外词,这必将导致模型的准确率大幅度下降,如何对集外词进行处理对于电力预案文本序列标注模型的性能至关重要。
发明内容
本发明的目的是提供一种基于电力预案文本序列标注中集外词处理方法,提高电力预案文本序列模型对集外词的标注能力。为实现上述目的,本发明提供了如下方案:
101.构建电力预案文本中对应词的词嵌入:生成电力预案文本的嵌入矩阵,用于模型训练;
102.构建电力预案文本中的部首词典:部首词典用于后续进行部首特征提取;
103.提取训练模型所需要的特征:对训练模型所需要的部首特征,上下文特征,字符序特征进行提取;
104.训练集外词处理模型:以上述提取的特征和S1得到的词嵌入为输入,词嵌入为目标,训练集外词处理模型;
105.采用集外词处理模型处理集外词:训练好的集外词处理模型能够生成集外词的词嵌入,生成的词嵌入可用于电力预案文本序列标注任务;
可选的,构建电力预案文本中对应词的词嵌入,具体包括:
使用Word2vec的模型训练原始的电力预案文本,对Word2vec中的超参数进行调整以提高模型的训练速度,并对原始的预案文本抽样进行测试,使用效果最好的模型作为最终的Word2vec模型,使用训练好的Word2vec模型产生电力预案文本对应的词向量。
可选的,构建电力预案文本中的部首词典,具体包括:
部首词典是从大量电力预案中先总结出每个汉字对应的部首,然后人工进行校正,为电力预案文本中的每个字与其对应的部首建立一一映射关系,以电力预案文本中的汉字为索引,部首为对应的值建立部首词典。
可选的,提取训练模型所需要的特征,具体包括:
使用输入的电力预案文本序列为索引,找到其中组成汉字的对应的部首作为模型的部首特征,以矩阵的形式进行保存。
对于输入的电力预案文本序列,通过关键词匹配找到需要提取上下文的单词,将该单词所处的句子转换成对应的上下文序列,将不同的上下文序列之间用中括号隔开,以矩阵的形式进行保存。
将电力预案文本中每个词组成的汉字序列提取出来,以对应的矩阵进行保存。
可选的,训练集外词处理模型,具体包括:
使用Transformer Encoder作为训练模型,选择合适的神经网络激活函数,配置相应的神经网络隐层以防止过拟合现象的产生,使用上述的词嵌入,上下文特征,汉字序列特征,部首特征作为模型的输入训练模型。
可选的,采用集外词处理模型处理集外词,具体包括:
将训练好的模型加入电力预案序列标注模型,在遇到集外词时先使用集外词处理模型生成集外词的词嵌入,然后将生成的词嵌入输入序列标注模型中产生对应的标签,将产生的标签数与真实的标签数一并进行计算,得到集外词处理的准确率。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种基于电力预案信息抽取中集外词处理方法。它主要包括构建电力预案文本中对应词的词嵌入;构建电力预案文本中的部首词典;提取训练模型所需要的特征;训练集外词处理模型;采用集外词处理模型处理集外词。使用上述方法构造的集外词模型可产生处理电力预案信息抽取中产生的集外词的词嵌入,使用生成的词嵌入作为电力预案序列标注模型的输入可以生成正确的标签,进而提高电力预案序列标注模型的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例针对电力预案文本集外词处理的Transformer模型训练流程图;
图2为本发明实施例针对电力预案文本集外词处理的Transformer模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例针对电力预案文本集外词处理的Transformer模型训练流程图。本发明实例基于深度学习工具包pytorch实现。大体过程为对于给定的电力预案数据进行预处理处理并训练一个基于Transformer的深度神经网络模型用于对电力预案数据集外词进行处理。给定数据首先会被分为训练集和测试集比例为4∶1。下面如图1所示,针对电力预案文本集外词处理模型训练步骤有:
步骤101:构建电力预案文本中对应词的词嵌入,主要是使用Word2Vec方法对原始电力预案文本中的单词进行嵌入,将得到的词嵌入整合成嵌入表,表中包含每个单词对应的词嵌入矩阵。
步骤102:构建电力预案文本中的部首词典,基于部首词典提取每个预案文本中词的部首特征,主要是建立一个电力预案领域的专业部首词典。部首词典内容为从大量与电力预案相关的文本中整合而来的专业字词与这些词对应的部首映射,这类字词在日常用语中很少出现因此现有的分词工具难以处理,所以这步工作是由电力专家使用一些文本处理工具人工完成的。
步骤103:基于102完成的电力预案专业部首词典对训练集和测试集中的电力预案文本进行部首特征提取处理。本施例中提取的工具选用python实现,对于专业部首词典中未出现的词则按通用部首处理提取电力预案文本中每个词的上下文特征,提取电力预案文本中每个词的汉字序列特征。针对电力预案涉及到的多种应用场景做了分类,针对不同场景预案文本将会被提取成不同长度的上下文。预案文本由电力专家分析共形成十多类类场景,每个场景其中包含的单词的上下文长度也不一致。特殊的样本形式是每个单词对应多个上下文,不同的上下文之间用中括号隔开,将这些单词的上下文以矩阵的形式进行保存。将电力预案文本中每个词组成的汉字序列提取出来,转换成对应的矩阵进行保存。
步骤104:使用上述的词嵌入,上下文特征,汉字序列特征,部首特征训练集外词处理模型,使用Transformer Encoder作为训练模型,选择合适的神经网络激活函数,配置相应的神经网络隐层以防止过拟合现象的产生,使用上述的词嵌入,上下文特征,部首特征作为模型的输入训练模型。本实施例基于pytorch实现Transformer网络模型,输入为每个词的上下文特征的嵌入,每个词对应的部首嵌入和每个词组成的字的嵌入,这些嵌入均为100维向量,输出为100维集外词向量。训练过程分为4个epoch每个1000次迭代,使用GPU训练,时间与训练数据成正比。
步骤105:在模型训练完成后此步骤将以测试集对模型进行评估,使用模型生成测试集中所有集外词的词向量,将这些词的词向量作为电力预案文本序列标注模型的输入,通过F1分数评价标注模型生成的标注的准确程度,在包含大量集外词的数据集中取得了很高的F1分数。
图2为本发明实施例针对电力预案文本集外词处理的Transformer模型示意图。如图2所示:
网络模型的输入分别为集外词的上下文特征,偏旁部首特征和文字序列特征,目标为词嵌入,输出为集外词的词嵌入,上述特征输入后首先会被映射为相应的嵌入随后进行网络计算。本实施例的Transformer相对于BiLSTM能够更好地解决长依赖问题,并且因为Transformer能够并行地计算隐层权重,因此模型的训练时间相对于BiLSTM更短。
Claims (6)
1.一种基于电力预案文本序列标注中集外词处理方法,所述方法包括:
101.构建电力预案文本中对应词的词嵌入:生成电力预案文本的嵌入矩阵,用于模型训练;
102.构建电力预案文本中的部首词典:部首词典用于后续进行部首特征提取;
103.提取训练模型所需要的特征:对训练模型所需要的部首特征、上下文特征和字符序特征进行提取;
104.训练集外词处理模型:以上述提取的特征和101得到的词嵌入为输入,词嵌入为目标,训练集外词处理模型;
105.采用集外词处理模型处理集外词:训练好的集外词处理模型能够生成集外词的词嵌入,生成的词嵌入可用于电力预案文本序列标注任务。
2.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述构建电力预案文本中对应词的词嵌入的具体操作是:
使用Word2vec的模型训练原始的电力预案文本,对Word2vec中的超参数进行调整以提高模型的训练速度,并对原始的预案文本抽样进行测试,使用效果最好的模型作为最终的Word2vec模型,使用训练好的Word2vec模型产生电力预案文本对应的词向量。
3.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述构建电力预案文本中的部首词典的具体操作是:
部首词典是从大量电力预案中先总结出每个汉字对应的部首,然后人工进行校正,为电力预案文本中的每个字与其对应的部首建立一一映射关系,以电力预案文本中的汉字为索引,部首为对应的值建立部首词典。
4.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述提取训练模型所需要的特征的具体操作是:
使用输入的电力预案文本序列为索引,找到其中组成汉字的对应的部首作为模型的部首特征,以矩阵的形式进行保存。
对于输入的电力预案文本序列,通过关键词匹配找到需要提取上下文的单词,将该单词所处的句子转换成对应的上下文序列,将不同的上下文序列之间用中括号隔开,以矩阵的形式进行保存。
将电力预案文本中每个词组成的汉字序列提取出来,以对应的矩阵进行保存。
5.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述训练集外词处理模型的具体操作是:
使用Transformer Encoder作为训练模型,选择合适的神经网络激活函数,配置相应的神经网络隐层以防止过拟合现象的产生,使用词嵌入,上下文特征,汉字序列特征,部首特征作为模型的输入,训练集外词处理模型。
6.根据权利要求1所述的电力预案文本序列标注中集外词处理方法,其特征在于所述采用集外词处理模型处理集外词的具体操作是:
将训练好的模型作为电力预案序列标注模型的数据预处理模型,在遇到集外词时先使用集外词处理模型生成集外词的词嵌入,将生成的词嵌入输入到序列标注模型中,产生对应每个词的标签,将产生的标签数与真实的标签数一并进行计算,得到集外词处理的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010891713.7A CN112036163A (zh) | 2020-08-28 | 2020-08-28 | 电力预案文本序列标注中集外词处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010891713.7A CN112036163A (zh) | 2020-08-28 | 2020-08-28 | 电力预案文本序列标注中集外词处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112036163A true CN112036163A (zh) | 2020-12-04 |
Family
ID=73586300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010891713.7A Pending CN112036163A (zh) | 2020-08-28 | 2020-08-28 | 电力预案文本序列标注中集外词处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036163A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763217A (zh) * | 2018-06-01 | 2018-11-06 | 北京玄科技有限公司 | 基于多语义的集外词处理方法、智能问答方法及装置 |
CN111460830A (zh) * | 2020-03-11 | 2020-07-28 | 北京交通大学 | 一种司法文本中经济事件的抽取方法及系统 |
US20200251096A1 (en) * | 2019-02-05 | 2020-08-06 | International Business Machines Corporation | Recognition of out-of-vocabulary in direct acoustics- to-word speech recognition using acoustic word embedding |
-
2020
- 2020-08-28 CN CN202010891713.7A patent/CN112036163A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763217A (zh) * | 2018-06-01 | 2018-11-06 | 北京玄科技有限公司 | 基于多语义的集外词处理方法、智能问答方法及装置 |
CN109614618A (zh) * | 2018-06-01 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 基于多语义的集外词处理方法及装置 |
US20200251096A1 (en) * | 2019-02-05 | 2020-08-06 | International Business Machines Corporation | Recognition of out-of-vocabulary in direct acoustics- to-word speech recognition using acoustic word embedding |
CN111460830A (zh) * | 2020-03-11 | 2020-07-28 | 北京交通大学 | 一种司法文本中经济事件的抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147767B (zh) | 语音中的数字识别方法、装置、计算机设备及存储介质 | |
CN109241330A (zh) | 用于识别音频中的关键短语的方法、装置、设备和介质 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN110188345B (zh) | 一种电力操作票的智能识别方法与装置 | |
CN112699679B (zh) | 情绪识别方法、装置、电子设备及存储介质 | |
CN111324708A (zh) | 一种基于人机交互的自然语言处理系统 | |
CN112527986A (zh) | 多轮对话文本生成方法、装置、设备及存储介质 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
CN117077085B (zh) | 大模型结合双路记忆的多模态有害社交媒体内容识别方法 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN115146124A (zh) | 问答系统应答方法及其装置、设备、介质、产品 | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN113642862A (zh) | 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统 | |
CN111427996A (zh) | 一种人机交互文本中抽取日期时间的方法和装置 | |
CN112036163A (zh) | 电力预案文本序列标注中集外词处理方法 | |
CN112949284A (zh) | 一种基于Transformer模型的文本语义相似度预测方法 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN116341646A (zh) | Bert模型的预训练方法、装置、电子设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN115099232A (zh) | 一种调度规程和历史数据的电网操作知识模型构建方法 | |
CN110955768B (zh) | 一种基于句法分析的问答系统答案生成方法 | |
CN115129842A (zh) | 一种用于户外变电站的智能问答方法及置于户外的机器人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |