CN108021552A - 一种电力系统操作票内容提取方法及系统 - Google Patents
一种电力系统操作票内容提取方法及系统 Download PDFInfo
- Publication number
- CN108021552A CN108021552A CN201711094578.8A CN201711094578A CN108021552A CN 108021552 A CN108021552 A CN 108021552A CN 201711094578 A CN201711094578 A CN 201711094578A CN 108021552 A CN108021552 A CN 108021552A
- Authority
- CN
- China
- Prior art keywords
- word
- model
- chinese
- speech
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000009897 systematic effect Effects 0.000 abstract 1
- 239000013589 supplement Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种电力系统操作票内容智能化提取方法及系统。目前的智能站操作票系统,实现了操作票程序化执行,但是该系统的应用需要大量的人工配置工作。本发明的技术方案包括:建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;使用训练语料分别对中文分词和词性标注两个模型进行训练;按照电力系统操作票语法规则,实现对电力系统操作票中动作及对象的智能化提取。本发明能够实现智能化提取电力系统操作票内容,免去了规则化提取的系统配置文件,提高了效率,并且可直接在不同的变电站推广应用。
Description
技术领域
本发明涉及电力系统操作票内容提取技术,特别是一种智能化的电力系统操作票内容提取方法及系统。
背景技术
近年来随着变电站自动化技术的提高,很多智能变电站已经具备了无人值守的条件,考虑到变电站程序化控制操作大幅度提高了变电设备倒闸操作的效率,提升了变电站运行的智能化水平,变电站程序化控制的应用前景非常可观。
作为在电力系统中进行电气操作的书面依据,操作票一般以自然语言描述的形式存在。变电站运行值班人员需按照操作票内容逐条执行电气操作。随着智能变电站信息化的不断发展,将已成文的操作票实现智能化执行成为进一步提高变电站智能化水平的关键,而准确识别操作票的内容、提取操作票中每条操作的动作及对象是操作票智能化执行的关键技术。
当前,国内外研究人员已经提出了智能站操作票系统,实现操作票程序化操作,但是该系统的应用需要大量的人工配置工作:将全站的操作票内容和基于规则解析的操作票结果存储为相应的配置文件,通过搜索配置文件实现操作票内容的提取,这种依赖于完备规则的操作票内容提取方法并未实现真正的“智能化”,且不具备可移植性。
因此,如何提供一种智能化的电力系统操作票内容提取技术是本领域技术人员目前需要解决的问题。
发明内容
有鉴于此,本发明的目的是提供一种智能化的电力系统操作票内容提取方法,其用抽象的操作票语法语义模型替代人工配置文件,使其具备通用性和去规则化,从而实现电力系统操作票内容的智能化提取。
为实现上述目的,本发明采用的技术方案如下:一种电力系统操作票内容提取方法,其包括:
建立根据基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;
建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;
使用训练语料分别对中文分词和词性标注两个模型进行训练;
按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。
本发明分析操作票文本的语法语义模型,所有的操作票语句都可以抽象为“动作+设备”的形式,也就是说每一条操作票指令都可以视为“动词+名词”的组合。据此,结合中文分词模型和词性标注模型,实现操作票内容提取。
中文分词的结果是识别并提取操作票内容的基础。提高操作票文本分词的准确性,尤其是对未登录词的准确切分,是中文分词的目标。
作为上述技术方案的补充,所述基于隐马尔可夫模型的由字构词的中文分词模型如下:中文分词模型将中文分词转化为字的序列标注,很好的解决了对未登录词的处理,按照字在词中位置不同,字的词位包括单独成词S、词首B、词中M和词尾E,对于一个含有n个字的中文字符串{x1,…xi,…,xn},基于隐马尔可夫模型的字的词位标注{y1,…yi,…,yn}的联合概率分布为:
式中,第i个字xi的词位yi∈{S,B,M,E},π、A、B分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数;
根据隐马尔科夫模型的参数估计方法得到匹配训练语料的中文分词模型参数;给定输入序列,根据维特比算法计算得到上式的最大值,并得到对应的词位序列,在词位为S或E的字后面断句实现分词。
作为上述技术方案的补充,词位的上下文信息作为约束条件直接应用在中文分词模型中,简化中文分词模型的同时提高分词的准确率。
作为上述技术方案的补充,初始字的词位只可能是S或B;前一个词位为S时该词位只能是S或B,前一个词位为B时该词位只能是M或E,前一个词位为M时该词位只能是M或E,前一个词位为E时该词位只能是S或B。
作为上述技术方案的补充,所述由字构词的中文分词模型的训练语料为:将中文操作票文本经人工分词后,按照{a1/词,…,ai/词,…,an/词}和一条指令一行的格式保存。
作为上述技术方案的补充,所述基于隐马尔可夫模型的词性标注模型如下:
词性标注模型的输入是操作票指令的分词结果,输出是词性序列;对于一个含有n个词的中文操作票指令的分词结果{a1,…,ai,…,an},基于隐马尔可夫模型的词性标注{b1,…,bi,…,bn}的联合概率分布为:
式中,第i个词ai的词性bi∈{v,n,ns,p,d,w},根据中文词性分类(参照“北大标准/中科院标准”),动词简化为v、名词简化为n,地名简化为ns,介词简化为p,副词简化为d,标点简化为w;π、A、B分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数;
根据隐马尔科夫模型的参数估计方法得到匹配训练语料的词性标注模型参数;给定输入序列,根据维特比算法计算得到词性序列。
作为上述技术方案的补充,所述词性标注模型的训练语料为:将中文操作票文本经人工分词和词性标注后,按照{a1/词b1/词性,…,ai/词bi/词性,…,an/词bn/词性}和一条指令一行的格式保存。
本发明的另一目的是提供一种电力系统操作票内容提取系统,其包括:
中文分词单元:建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;
词性标注单元:建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;
模型训练单元:使用训练语料分别对中文分词和词性标注两个模型进行训练;
智能化提取单元:按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。
本发明能够实现智能化提取操作票内容,免去了规则化提取的系统配置文件,提高了效率,并且可直接在不同的变电站推广应用。
下面结合说明书附图和具体实施方式对本发明作进一步说明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例1的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种基于隐马尔可夫模型的智能化的操作票内容提取方法,该方法完全智能化实现,方便且通用,参照图1,其包括:
1)建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果。对于一个含有n个字的中文字符串{x1,…xi,…,xn},基于隐马尔可夫模型的字的词位标注{y1,…yi,…,yn}的联合概率分布为:
式中,第i个字xi的词位yi∈{S,B,M,E},π、A、B分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数。
根据隐马尔科夫模型的参数估计方法得到匹配训练语料的中文分词模型参数。给定输入序列,根据维特比算法计算得到上式的最大值,并得到对应的词位序列,在词位为S或E的字后面断句实现分词。
2)建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列。对于一个含有n个词的中文操作票指令的分词结果{a1,…,ai,…,an},基于隐马尔可夫模型的词性标注{b1,…,bi,…,bn}的联合概率分布为:
式中,第i个词ai的词性bi∈{v,n,ns,p,d,w},根据中文词性分类(参照“北大标准/中科院标准”),动词简化为v、名词简化为n,地名简化为ns,介词简化为p,副词简化为d,标点简化为w。π、A、B分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数。
根据隐马尔科夫模型的参数估计方法得到匹配训练语料的词性标注模型参数;给定输入序列,根据维特比算法计算得到词性序列。
3)使用训练语料分别对中文分词和词性标注两个模型进行训练。
所述由字构词的中文分词模型的训练语料为:将中文操作票文本经人工分词后,按照{an1/词,…,ai/词,…,an/词}和一条指令一行的格式保存。
所述词性标注模型的训练语料为:将中文操作票文本经人工分词和词性标注后,按照{a1/词b1/词性,…,ai/词bi/词性,…,an/词bn/词性}和一条指令一行的格式保存。
4)按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。
实施例2
本实施例提供一种基于隐马尔可夫模型的智能化的操作票内容提取系统,其包括:
中文分词单元:建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;
词性标注单元:建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;
模型训练单元:使用训练语料分别对中文分词和词性标注两个模型进行训练;
智能化提取单元:按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。
应用例
参照图1和表1,将操作票指令输入中文分词模型,得到的分词结果输入词性标注模型,得到标注结果;根据标注结果,按照操作票语法规则提取操作票动作及对象,完成操作票内容识别。
表1数据示例表
本发明需要使用训练语料分别对中文分词和词性标注两个模型进行训练,具有代表性的训练语料有助于提高模型效果。
利用表1第二列的数据组成的训练数据,训练基于隐马尔可夫模型的由字构词的中文分词模型。先按照空格分隔得到以词为单位的训练数据,再按照表2的规则预处理,转化为字的词位序列后进行参数估计。遍历训练语料的每一行,统计得到词首各词位的次数、相邻字的各词位转换次数、各词位对应的字的次数,归一化得到模型参数的估计值。对于维特比算法得到的词位序列,在词位为S或E的字后面断句实现分词。
表2中文分词模型训练语料预处理规则表
词的字数 | 词位序列 |
1 | S |
2 | BE |
n(>2) | B(n-2个M)E |
表1的第二、三列的数据分别作为词性标注模型的观察序列和状态序列,用于训练基于隐马尔可夫模型的词性标注模型。遍历训练语料的每一行,统计得到句首各词性的次数、相邻词的各词性转换次数、各词性对应的词的次数,归一化得到模型参数的估计值。
训练好模型后,输入为操作票指令(表1第一列),得到操作票指令的分词结果(表1第二列)和词性标注结果(表1第三列)。结合操作票典型语句的语法结构,定义操作票语句提取属性为{动作,设备,初状态,终状态},提取规则如表3所示。根据操作票内容提取规则,得到提取结果(表1第四列)。
表3操作票内容提取规则
说明:词性序列为简化表示,n代表1个或多个连续的n(包括ns、w);下标表明出现顺序,v2指出现的第二个v。
以上对本发明所提供的操作票内容提取方法及系统进行了详细介绍。本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (8)
1.一种电力系统操作票内容提取方法,其特征在于,包括:
建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;
建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;
使用训练语料分别对中文分词和词性标注两个模型进行训练;
按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。
2.根据权利要求1所述的电力系统操作票内容提取方法,其特征在于,所述基于隐马尔可夫模型的由字构词的中文分词模型如下:
中文分词模型将中文分词转化为字的序列标注,按照字在词中位置不同,字的词位包括单独成词S、词首B、词中M和词尾E,对于一个含有n个字的中文字符串{x1,…xi,…,xn},基于隐马尔可夫模型的字的词位标注{y1,…yi,…,yn}的联合概率分布为:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mo>{</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>x</mi>
<mi>n</mi>
</msub>
<mo>,</mo>
<msub>
<mi>y</mi>
<mi>n</mi>
</msub>
<mo>}</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&pi;</mi>
<mo>&lsqb;</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mo>&rsqb;</mo>
<mi>B</mi>
<mo>&lsqb;</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>&rsqb;</mo>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>A</mi>
<mo>&lsqb;</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>&rsqb;</mo>
<mi>B</mi>
<mo>&lsqb;</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>&rsqb;</mo>
<mo>,</mo>
</mrow>
式中,第i个字xi的词位yi∈{S,B,M,E},π、A、B分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数;
根据隐马尔科夫模型的参数估计方法得到匹配训练语料的中文分词模型参数;给定输入序列,根据维特比算法计算得到上式的最大值,并得到对应的词位序列,在词位为S或E的字后面断句实现分词。
3.根据权利要求2所述的电力系统操作票内容提取方法,其特征在于,词位的上下文信息作为约束条件直接应用在中文分词模型中,简化中文分词模型的同时提高分词的准确率。
4.根据权利要求2所述的电力系统操作票内容提取方法,其特征在于,初始字的词位只可能是S或B;前一个词位为S时该词位只能是S或B,前一个词位为B时该词位只能是M或E,前一个词位为M时该词位只能是M或E,前一个词位为E时该词位只能是S或B。
5.根据权利要求2所述的电力系统操作票内容提取方法,其特征在于,所述中文分词模型的训练语料为:将中文操作票文本经人工分词后,按照{a1/词,…,ai/词,…,an/词}和一条指令一行的格式保存。
6.根据权利要求1所述的电力系统操作票内容提取方法,其特征在于,所述基于隐马尔可夫模型的词性标注模型如下:
词性标注模型的输入是操作票指令的分词结果,输出是词性序列;对于一个含有n个词的中文操作票指令的分词结果{a1,…,ai,…,an},基于隐马尔可夫模型的词性标注{b1,…,bi,…,bn}的联合概率分布为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mo>{</mo>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>b</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>a</mi>
<mi>n</mi>
</msub>
<mo>,</mo>
<msub>
<mi>b</mi>
<mi>n</mi>
</msub>
<mo>}</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>b</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mi>b</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>b</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>&pi;</mi>
<mo>&lsqb;</mo>
<msub>
<mi>b</mi>
<mn>1</mn>
</msub>
<mo>&rsqb;</mo>
<mi>B</mi>
<mo>&lsqb;</mo>
<msub>
<mi>b</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mo>&rsqb;</mo>
<msubsup>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mi>n</mi>
</msubsup>
<mi>A</mi>
<mo>&lsqb;</mo>
<msub>
<mi>b</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mo>&rsqb;</mo>
<mi>B</mi>
<mo>&lsqb;</mo>
<msub>
<mi>b</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
式中,第i个词ai的词性bi∈{v,n,ns,p,d,w},根据中文词性分类,动词简化为v、名词简化为n,地名简化为ns,介词简化为p,副词简化为d,标点简化为w;π、A、B分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数;
根据隐马尔科夫模型的参数估计方法得到匹配训练语料的词性标注模型参数;给定输入序列,根据维特比算法计算得到词性序列。
7.根据权利要求6所述的电力系统操作票内容提取方法,其特征在于,所述词性标注模型的训练语料为:将中文操作票文本经人工分词和词性标注后,按照{a1/词b1/词性,…,ai/词bi/词性,…,an/词bn/词性}和一条指令一行的格式保存。
8.一种电力系统操作票内容提取系统,其特征在于,包括:
中文分词单元:建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;
词性标注单元:建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;
模型训练单元:使用训练语料分别对中文分词和词性标注两个模型进行训练;
智能化提取单元:按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711094578.8A CN108021552A (zh) | 2017-11-09 | 2017-11-09 | 一种电力系统操作票内容提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711094578.8A CN108021552A (zh) | 2017-11-09 | 2017-11-09 | 一种电力系统操作票内容提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021552A true CN108021552A (zh) | 2018-05-11 |
Family
ID=62080537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711094578.8A Pending CN108021552A (zh) | 2017-11-09 | 2017-11-09 | 一种电力系统操作票内容提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021552A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165275A (zh) * | 2018-07-24 | 2019-01-08 | 国网浙江省电力有限公司电力科学研究院 | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 |
CN109241046A (zh) * | 2018-08-30 | 2019-01-18 | 天津做票君机器人科技有限公司 | 一种汇票交易机器人的库存信息识别方法和识别器 |
CN109241532A (zh) * | 2018-08-30 | 2019-01-18 | 天津做票君机器人科技有限公司 | 一种汇票交易机器人的买票信息识别方法和识别器 |
CN109376353A (zh) * | 2018-09-04 | 2019-02-22 | 国家电网公司华东分部 | 一种基于自然语言处理的电网启动操作票生成装置及方法 |
CN109543962A (zh) * | 2018-11-05 | 2019-03-29 | 广东电网有限责任公司 | 一种自动统计电子操作票工作量工分的方法 |
CN110188345A (zh) * | 2019-04-28 | 2019-08-30 | 北京科东电力控制系统有限责任公司 | 一种电力操作票的智能识别方法与装置 |
CN111339766A (zh) * | 2020-02-19 | 2020-06-26 | 云南电网有限责任公司昆明供电局 | 一种操作票合规性检查方法及装置 |
CN111367964A (zh) * | 2020-02-29 | 2020-07-03 | 上海爱数信息技术股份有限公司 | 一种自动解析日志的方法 |
CN111581965A (zh) * | 2020-04-26 | 2020-08-25 | 云南电网有限责任公司昆明供电局 | 操作票生成方法及装置 |
CN112270555A (zh) * | 2020-11-13 | 2021-01-26 | 云南电网有限责任公司昆明供电局 | 配网调度指令票安全校核系统及方法 |
CN113010682A (zh) * | 2021-03-29 | 2021-06-22 | 广东电网有限责任公司 | 一种命令票系统校核方法、设备及存储介质 |
CN113515950A (zh) * | 2021-04-30 | 2021-10-19 | 贵州电网有限责任公司 | 一种适用于电力智能调度的自然语言处理语义分析方法 |
CN113991843A (zh) * | 2021-10-21 | 2022-01-28 | 广东电网有限责任公司 | 一种电网调度操作的防误方法、系统、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117283A (zh) * | 2009-12-30 | 2011-07-06 | 安世亚太科技(北京)有限公司 | 一种基于语义索引的数据检索方法 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN106776570A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称标注方法 |
CN107085772A (zh) * | 2017-05-15 | 2017-08-22 | 广东电网有限责任公司惠州供电局 | 一种主网电力系统工作票预判管理系统和方法 |
-
2017
- 2017-11-09 CN CN201711094578.8A patent/CN108021552A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117283A (zh) * | 2009-12-30 | 2011-07-06 | 安世亚太科技(北京)有限公司 | 一种基于语义索引的数据检索方法 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN106776570A (zh) * | 2016-12-27 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 一种人称标注方法 |
CN107085772A (zh) * | 2017-05-15 | 2017-08-22 | 广东电网有限责任公司惠州供电局 | 一种主网电力系统工作票预判管理系统和方法 |
Non-Patent Citations (4)
Title |
---|
LAWRENCE R. RABINER ET AL.: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", 《PROCEEDINGS OF THE IEEE》 * |
于江德 等: "隐马尔可夫模型在自然语言处理中的应用", 《计算机工程与设计》 * |
刘善峰 等: "基于词位信息的 HMM 中文分词算法", 《第十二届全国人机语音通讯学术会议》 * |
徐楠楠 等: "基于正向最大匹配算法的电力两票安全识别", 《计算机仿真》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165275B (zh) * | 2018-07-24 | 2021-03-02 | 国网浙江省电力有限公司电力科学研究院 | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 |
CN109165275A (zh) * | 2018-07-24 | 2019-01-08 | 国网浙江省电力有限公司电力科学研究院 | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 |
CN109241046A (zh) * | 2018-08-30 | 2019-01-18 | 天津做票君机器人科技有限公司 | 一种汇票交易机器人的库存信息识别方法和识别器 |
CN109241532A (zh) * | 2018-08-30 | 2019-01-18 | 天津做票君机器人科技有限公司 | 一种汇票交易机器人的买票信息识别方法和识别器 |
CN109376353A (zh) * | 2018-09-04 | 2019-02-22 | 国家电网公司华东分部 | 一种基于自然语言处理的电网启动操作票生成装置及方法 |
CN109376353B (zh) * | 2018-09-04 | 2022-09-16 | 国家电网公司华东分部 | 一种基于自然语言处理的电网启动操作票生成装置及方法 |
CN109543962A (zh) * | 2018-11-05 | 2019-03-29 | 广东电网有限责任公司 | 一种自动统计电子操作票工作量工分的方法 |
CN109543962B (zh) * | 2018-11-05 | 2021-04-02 | 广东电网有限责任公司 | 一种自动统计电子操作票工作量工分的方法 |
CN110188345A (zh) * | 2019-04-28 | 2019-08-30 | 北京科东电力控制系统有限责任公司 | 一种电力操作票的智能识别方法与装置 |
CN110188345B (zh) * | 2019-04-28 | 2023-06-16 | 北京科东电力控制系统有限责任公司 | 一种电力操作票的智能识别方法与装置 |
CN111339766A (zh) * | 2020-02-19 | 2020-06-26 | 云南电网有限责任公司昆明供电局 | 一种操作票合规性检查方法及装置 |
CN111367964B (zh) * | 2020-02-29 | 2023-11-17 | 上海爱数信息技术股份有限公司 | 一种自动解析日志的方法 |
CN111367964A (zh) * | 2020-02-29 | 2020-07-03 | 上海爱数信息技术股份有限公司 | 一种自动解析日志的方法 |
CN111581965A (zh) * | 2020-04-26 | 2020-08-25 | 云南电网有限责任公司昆明供电局 | 操作票生成方法及装置 |
CN112270555B (zh) * | 2020-11-13 | 2022-08-19 | 云南电网有限责任公司昆明供电局 | 配网调度指令票安全校核系统及方法 |
CN112270555A (zh) * | 2020-11-13 | 2021-01-26 | 云南电网有限责任公司昆明供电局 | 配网调度指令票安全校核系统及方法 |
CN113010682A (zh) * | 2021-03-29 | 2021-06-22 | 广东电网有限责任公司 | 一种命令票系统校核方法、设备及存储介质 |
CN113515950A (zh) * | 2021-04-30 | 2021-10-19 | 贵州电网有限责任公司 | 一种适用于电力智能调度的自然语言处理语义分析方法 |
CN113991843A (zh) * | 2021-10-21 | 2022-01-28 | 广东电网有限责任公司 | 一种电网调度操作的防误方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021552A (zh) | 一种电力系统操作票内容提取方法及系统 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN107066455B (zh) | 一种多语言智能预处理实时统计机器翻译系统 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN109241540B (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
CN109918666A (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN107943783A (zh) | 一种基于lstm‑cnn的分词方法 | |
CN116484848B (zh) | 一种基于nlp的文本实体识别方法 | |
CN109325225B (zh) | 一种通用的基于关联的词性标注方法 | |
Lyu et al. | Patent domain terminology extraction based on multi-feature fusion and BILSTM-CRF model | |
KR100574887B1 (ko) | 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 | |
Kongwan et al. | Thai EDU Segmentation Using Clue Markers and Syntactic Information from Shallow Parser | |
CN103902524A (zh) | 维吾尔语句子边界识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180511 |
|
RJ01 | Rejection of invention patent application after publication |