CN113011183A - 一种电力调控领域非结构化文本数据处理方法及系统 - Google Patents

一种电力调控领域非结构化文本数据处理方法及系统 Download PDF

Info

Publication number
CN113011183A
CN113011183A CN202110310299.0A CN202110310299A CN113011183A CN 113011183 A CN113011183 A CN 113011183A CN 202110310299 A CN202110310299 A CN 202110310299A CN 113011183 A CN113011183 A CN 113011183A
Authority
CN
China
Prior art keywords
dictionary
field
word
electric power
unstructured text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110310299.0A
Other languages
English (en)
Other versions
CN113011183B (zh
Inventor
刘慧勇
肖林朋
陈默
武毅
殷智
曹宇
武江
刘圣楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kedong Electric Power Control System Co Ltd
Original Assignee
Beijing Kedong Electric Power Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kedong Electric Power Control System Co Ltd filed Critical Beijing Kedong Electric Power Control System Co Ltd
Priority to CN202110310299.0A priority Critical patent/CN113011183B/zh
Publication of CN113011183A publication Critical patent/CN113011183A/zh
Application granted granted Critical
Publication of CN113011183B publication Critical patent/CN113011183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Water Supply & Treatment (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种电力调控领域非结构化文本数据处理方法,包括:构建电力领域词典;根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;通过CRF模型根据电力领域词典对分词后的词进行词性标注,本发明帮助实现电力领域非结构化文本(比如调度日志、技术文档等)的自动结构化,从中提取电网故障、缺陷、运行、气象环境等信息,辅助电网运行控制数据快速、精确、便捷的检索查询,为进一步挖掘和应用数据、提升电网运行水平提供可靠的技术支撑。

Description

一种电力调控领域非结构化文本数据处理方法及系统
技术领域
本发明属于电力系统自动化技术领域,尤其涉及一种电力调控领域非结构化文本数据处理方法及系统。
背景技术
近些年来,我国经济发展迅速,用电量大幅度增长。与此同时,电力网络规模逐步扩大,复杂程度越来越高,电网调度操作更加频繁,调度数据量也快速的增长。为了适应电网的快速发展,电力企业需要不断提高其电网调度管理水平。
由于历史原因,部分调度运行数据以文本的形式进行记录和存储。由于此类文本是分析和挖掘电网运行的重要数据来源,需要通过对这些文本数据进行分析挖掘和结构化处理,从而对查询检索,统计分析,以及新能源合理调度消纳、故障关联分析等工作提供支撑,然而,目前并无很好的方法对此类非结构化文本进行处理。
发明内容
为了解决现有技术存在的问题,本发明提供一种电力调控领域非结构化文本数据处理方法,能够更准确的对电力领域非结构化文本进行分词。
本发明所要解决的技术问题是通过以下技术方案实现的:
第一方面,提供了一种电力调控领域非结构化文本数据处理方法,包括:
构建电力领域词典;
根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
通过CRF模型根据电力领域词典对分词后的词进行词性标注。
结合第一方面,进一步的,所述构建电力领域词典包括为:在通用词库基础上增加电力系统专业术语,并对词库中的单词进行词性和词频标注。
结合第一方面,进一步的,所述构建电力领域词典还包括通过TextRank算法从调度规程、稳定限额规程、技术标准和技术规范中提取关键词分类存储到电力领域词典中。
结合第一方面,进一步的,对所需处理的电力调控领域非结构化文本采用DoubleArrayTrie实现最长匹配分词。
结合第一方面,进一步的,所述最长匹配分词具体为:
假设词表中最长的词由m个字组成,每次进行切分时总是从待切分的句子中截取一个长度为m的匹配字段w,查找分词词典,若其在词典中,则匹配成功,匹配字段w作为一个新词被切分出来,若其不在词典中,则匹配失败,从w中去掉最后一个字进行新的匹配,直到匹配成功为止;每完成一次匹配就将匹配成功的单词从句子中去掉,按照前述方法重复进行切分,直至切分完所有的词为止。
第二方面,提供了一种电力调控领域非结构化文本数据处理系统,其特征在于:
词典构建模块:用于构建电力领域词典;
分词模块:用于根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
词性标注模块:用于通过CRF模型根据电力领域词典对分词后的词进行词性标注。
本发明有益效果:本发明通过电力领域词典定义、DoubleArrayTrie最长匹配分词、CRF结合自定义词典进行词性标注、CRF结合词性标注进行命名实体识别模块。电力领域词典定义、DoubleArrayTrie最长匹配分词算法为基础模块,主要提取电网领域特殊词汇,包括:场站名称、线路名称、设备动作等,实现调度人员搜索词语和电网数据内容的精准分词。CRF词性标注算法实现基于机器学习的文本词性标注,结合自定义词库对标注结果进行纠正,从而活的适用于电力领域的词性标注序列。命名实体识别对词性标注序列进行进一步的合并优化,准确识别出电力领域专用实体。
附图说明
图1为本发明的流程图;
图2为电网调度日志结构化应用效果图。
具体实施方式
为了进一步描述本发明的技术特点和效果,以下结合附图和具体实施方式对本发明做进一步描述。
实施例1
如图1-2所示,本发明公开了提供了一种电力调控领域非结构化文本数据处理方法,包括如下步骤:
步骤一、构建电力领域词典。
在通用词库的基础上扩充电力系统专业术语,如“黄金埠电厂”、“宾金直流”、“励磁涌流”、“断路器”、“自动化”等,添加词性标签和词频(通过对历史语料库进行遍历获得)。另外,从调度规程、稳定限额规程、技术标准、规范等非结构化文件中,利用TextRank算法提取关键词,分类存储到对应的字典表中。
步骤二、根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词。
由于电力领域词汇的专用性和特殊性,采用基于传统机器学习和深度学习的模型会导致专有词汇识别不准,这将导致后续词性标注及实体识别的准确率下降,因此,此处采用基于词典的分词算法。选择DoubleArrayTrie可以高效实现最长匹配分词,既能满足专有词汇识别的准确性,又具备“高吞吐量”的特点,实现快速分词。
最长匹配分词算法的基本思想是:假设词表(一句话中分完词后的词语列表)中最长的词由m个字(程序中m=5)组成,每次进行切分时总是从待切分的句子中截取一个长度为m的匹配字段w,查找分词词典。
1)若在词典中,则匹配成功。匹配字段w作为一个新词被切分出来。
2)若不在词典中,则匹配失败,从w中去掉最后一个字,进行新的匹配。如此进行下去,直到匹配成功为止。
3)如果完成一次匹配就将匹配成功的单词从句子中去掉,按照上述步骤重复进行切分,直至切分完所有的词为止。
假设一长度为m的字符串,DoubleArrayTrie(简称DAT)这种基于Trie树的数据结构最多m次匹配即可完成一次查找,保证了检索速度,提高了空间利用率。它本质是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
步骤三、通过CRF模型根据电力领域词典对分词后的词进行词性标注。
CRF(Conditional Random Field)条件随机场模型是一种典型的判别式模型,它在观测序列的基础上对目标序列进行建模,重点解决“序列化标注问题”,就是给定的输出识别序列Y和观测序列X,通过定义条件概率P(Y|X)来描述模型。
具体过程如下:
1)从电网生产环境收集部分文档素材并进行人工词性标注,将标注好的素材与人民日报2014语料库进行合并。
2)以当前位置的前后2个位置范围内的子串及其标记作为观察窗口,得到相应的特征函数,进行CRF模型训练。
3)使用Viterbi算法实现最优路径(概率最大标注)的求解,得到最终标注序列。
4)词性标注会隐含进行文本分词,存在分词错误的可能性,因此,需要使用上步分词结果对标注序列进行修正,一方面修正对电力词汇的错误分词,另一方面使用自定义词典中的词性修正CRF词性标注的结果。
(4)CRF结合词性标注实现实体识别
此模块的目标是对命名实体标注为同一个实体的相邻的、多个单词进行合并,构成复合词。比如,前步词性标注的结果是[房山/nst,电厂/n],而实体识别则是[房/n-s,山/n-m,电/n-m,厂/n-e],那么可以根据实体识别的结果将“房山电厂”合并成一个词。
实施例2
提供了一种电力调控领域非结构化文本数据处理系统,其特征在于:
词典构建模块:用于构建电力领域词典;
分词模块:用于根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
词性标注模块:用于通过CRF模型根据电力领域词典对分词后的词进行词性标注。
本发明帮助实现电力领域非结构化文本(比如调度日志、技术文档等)的自动结构化,从中提取电网故障、缺陷、运行、气象环境等信息,辅助电网运行控制数据快速、精确、便捷的检索查询,为进一步挖掘和应用数据、提升电网运行水平提供可靠的技术支撑。
上述实施例不以任何形式限定本发明,凡采取等同替换或等效变换的形式所获得的技术方案,均落在本发明的保护范围之内。

Claims (6)

1.一种电力调控领域非结构化文本数据处理方法,其特征在于,包括:
构建电力领域词典;
根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
通过CRF模型根据电力领域词典对分词后的词进行词性标注。
2.根据权利要求1所述的一种电力调控领域非结构化文本数据处理方法,其特征在于,
所述构建电力领域词典包括为:在通用词库基础上增加电力系统专业术语,并对词库中的单词进行词性和词频标注。
3.根据权利要求2所述的一种电力调控领域非结构化文本数据处理方法,其特征在于,所述构建电力领域词典还包括通过TextRank算法从调度规程、稳定限额规程、技术标准和技术规范中提取关键词分类存储到电力领域词典中。
4.根据权利要求1所述的一种电力调控领域非结构化文本数据处理方法,其特征在于,对所需处理的电力调控领域非结构化文本采用DoubleArrayTrie实现最长匹配分词。
5.根据权利要求4所述的一种电力调控领域非结构化文本数据处理方法,其特征在于:所述最长匹配分词具体为:
假设词表中最长的词由m个字组成,每次进行切分时总是从待切分的句子中截取一个长度为m的匹配字段w,查找分词词典,若其在词典中,则匹配成功,匹配字段w作为一个新词被切分出来,若其不在词典中,则匹配失败,从w中去掉最后一个字进行新的匹配,直到匹配成功为止;每完成一次匹配就将匹配成功的单词从句子中去掉,按照前述方法重复进行切分,直至切分完所有的词为止。
6.一种电力调控领域非结构化文本数据处理系统,其特征在于:
词典构建模块:用于构建电力领域词典;
分词模块:用于根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
词性标注模块:用于通过CRF模型根据电力领域词典对分词后的词进行词性标注。
CN202110310299.0A 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统 Active CN113011183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310299.0A CN113011183B (zh) 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310299.0A CN113011183B (zh) 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN113011183A true CN113011183A (zh) 2021-06-22
CN113011183B CN113011183B (zh) 2023-09-05

Family

ID=76405648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310299.0A Active CN113011183B (zh) 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN113011183B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN109284352A (zh) * 2018-09-30 2019-01-29 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法
CN109582764A (zh) * 2018-11-09 2019-04-05 华南师范大学 基于依存句法的交互注意力情感分析方法
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111914539A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN111950283A (zh) * 2020-07-31 2020-11-17 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112101007A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种从非结构化文本数据中提取结构化数据的方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109284352A (zh) * 2018-09-30 2019-01-29 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法
CN109582764A (zh) * 2018-11-09 2019-04-05 华南师范大学 基于依存句法的交互注意力情感分析方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111914539A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN111950283A (zh) * 2020-07-31 2020-11-17 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112101007A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种从非结构化文本数据中提取结构化数据的方法及系统

Also Published As

Publication number Publication date
CN113011183B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN110298032A (zh) 文本分类语料标注训练系统
CN111709235A (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
CN112905804B (zh) 一种电网调度知识图谱的动态更新方法及装置
CN109145260A (zh) 一种文本信息自动提取方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN109858025B (zh) 一种地址标准化语料的分词方法及系统
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN114077674A (zh) 一种电网调度知识图谱数据优化方法及系统
CN104679735A (zh) 语用机器翻译方法
CN110826322A (zh) 一种新词发现和词性预测及标注的方法
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质
CN109977370B (zh) 一种基于文档结构树的问答对自动构建方法
CN114896369A (zh) 基于增量学习优化的故障录波文件通道名称识别方法
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN112182019B (zh) 一种电网统计专业指标特征提取的语义解析搜索方法
CN117313849A (zh) 一种基于多源异构数据融合技术的能源行业知识图谱构建方法及装置
CN113011183B (zh) 一种电力调控领域非结构化文本数据处理方法及系统
CN115618883A (zh) 一种业务语义识别方法及装置
CN115563968A (zh) 水电运检知识自然语言人工智能系统及方法
CN114386427A (zh) 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质
CN113449504A (zh) 一种标书智能评分方法及系统
CN112488593A (zh) 一种用于招标的辅助评标系统及方法
CN111597775A (zh) 基于html的信息智能提取技术的方法
CN111339757A (zh) 一种催收场景下语音识别结果的纠错方法
CN111241827B (zh) 一种基于句子检索模式的属性抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant