CN112732934A - 电网设备分词词典和故障案例库构建方法 - Google Patents

电网设备分词词典和故障案例库构建方法 Download PDF

Info

Publication number
CN112732934A
CN112732934A CN202110029159.6A CN202110029159A CN112732934A CN 112732934 A CN112732934 A CN 112732934A CN 202110029159 A CN202110029159 A CN 202110029159A CN 112732934 A CN112732934 A CN 112732934A
Authority
CN
China
Prior art keywords
text
power grid
word
state quantity
grid equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110029159.6A
Other languages
English (en)
Other versions
CN112732934B (zh
Inventor
杨祎
秦佳峰
闫丹凤
秦晔
辜超
林颖
白德盟
郑文杰
刘萌
朱庆东
李�杰
朱文兵
朱孟兆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing University of Posts and Telecommunications, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110029159.6A priority Critical patent/CN112732934B/zh
Publication of CN112732934A publication Critical patent/CN112732934A/zh
Application granted granted Critical
Publication of CN112732934B publication Critical patent/CN112732934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种电网设备分词词典和故障案例库构建方法,构建了电网领域分词词典,然后对故障案例数据进行格式转换、分词等预处理,然后运用多种技术手段,从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema,以报告为主键,将上述文本信息和预处理中保留的图片、作者等信息一起入库,形成电网设备故障案例库。提升了电网领域文本的分词准确性,结构化的案例数据库使根据案例内容的检索更为准确,将故障案例数据库中的特征标签作为项集,整理挖掘故障的有效关联规则,可用于故障预警,填补了电网领域文本分析技术应用的空白。提升了电网领域语料的应用价值,降低了查阅成本。

Description

电网设备分词词典和故障案例库构建方法
技术领域
本发明涉及产业数据与互联网信息化技术领域,具体涉及一种电网设备分词词典和故障案例库构建方法。
背景技术
随着移动互联网、物联网、人工智能、深度学习等智能技术的发展,其在电力领域中的应用也越来越普遍,建设智能电网,实现“电力流、信息流、业务流”的高度一体化融合是技术发展不可或缺的一环。在电力领域,长年积累的各类文本数据,尤其是电网设备故障案例的研究价值很高,可以在实际的设备检修工作中提供建议和经验。由于其检修场景的复杂性和不确定性,如何基于电力领域文本数据构建电网分词词典和故障案例库是一个难以解决的问题。
目前一些自然语言处理技术已经在中文电网文本领域得到一些应用,包括:基于中文分析技术建立电网领域词典、基于文本分类技术对缺陷文本的等级进行分类、基于字符串匹配评价并提升缺陷文本的质量等等。这些应用虽然各有所长,但存在着单个技术应用面窄、对文本数据挖掘不深、数据规模不足、没有针对检修决策场景等问题。
发明内容
本发明为了克服以上技术的不足,提供了一种针对电网设备故障案例文本数据存在的检索浏览效率低、关联信息挖掘不足以及检修决策支撑不足等问题,从数据预处理、数据挖掘、数据持久化、数据应用等方面出发,提出了一个良好的解决方案,设计并实现电网设备分词词典和故障案例库构建方法。
本发明克服其技术问题所采用的技术方案是:
一种电网设备分词词典和故障案例库构建方法,包括如下步骤:
a)基于命名实体识别算法建立及扩充电网领域词典;
b)对电网设备故障缺陷案例文本进行预处理,所述预处理包括格式转换、去标号、分词;
c)基于自然语言处理方法提取文本数据中的状态量、检修流程和描述语句信息,获得结构化的电网设备故障案例;
d)基于结构化的电网设备故障案例,通过连续型特征分箱、关键词计算TF-IDF值的方法生成文本的特征标签和关键词云;
e)基于特征标签与故障进行关联规则分析,形成案例分析关联规则库;
f)将结构化的电网设备故障案例与特征标签、关键词云、关联规则库构建电网设备故障案例库。
进一步的,步骤a)包括如下步骤:
a-1)从电网领域文献、标准和行业导则中获取领域词汇;
a-2)将文本中非法字符进行剔除,对文本利用字+边界的方式进行序列标注,将文本转换为BERT-BiLSTM-CRF模型输入所需的数据格式,将没有识别到的实体的语句纳入测试集,将有实体标注的语句作为训练集;
a-3)将经过构造之后得到的训练集数据放入BERT-BiLSTM-CRF模型中进行模型训练,将训练好的模型在测试集上进行命名实体识别任务,得到未登录的实体作为新词;
a-4)将得到的新词进行筛选后加入到领域词典中,通过训练词向量获得词的向量表示并对其进行聚类找同义词,完成词典优化;
a-5)利用优化后的词典对测试集和数据集进行重新标注后重新划分训练集和测试集。
进一步的,步骤b)中在进行文本信息抽取之前,抽取图片、文件名、作者信息,过滤标号、错字噪声,将抽取过滤后的文本导入电网领域词典的分词工具进行分词,完成文本预处理工作。
进一步的,步骤c)包括如下步骤:
c-1)文本数据中提取时采用构建统一的属性模板进行属性提取,属性类型分为数字型状态量属性、词组型状态量属性和句子型状态量属性,实现文本信息结构化;
c-2)利用公式R={(x,y)|x∈A,y∈S},建立电网设备故障文本采用数据模型R的二元组描述,式中A为预定义好的描述属性,S为需要从非结构文本数据中抽取出该属性的状态量,x为具体的描述属性,y为文本数据中抽取出x属性对应的状态量。
进一步的,步骤c-1)中利用基于规则的方法提取数字型状态量属性,利用基于语法的规则的实体匹配法提取词组型状态量属性,句子型状态量属性利用分布式文本表示和神经网络模型进行分类;
c-1.1)文本数据中数字型状态量的提取中通过文本分词将每个句子中的数字提取出来后根据语法修饰规则,找到数字状态量的单位,将数字和数学单位合并成为完成的状态量并将属性和对应的数字状态量进行匹配,得到最终的属性、状态量二元组;
c-1.2)采用语法修饰规则来匹配状态量及其修饰属性,提取命名实体和命名实体所修饰的词语组成二元组,实现文本数据中词组型状态量属性的提取;
c-1.3)人工标注大于770个句子作为训练数据集,采用Word2vec方法将句子向量化表示,利用R-CNN神经网络进行分类,基于分类的结果进行句子型状态量属性提取,利用公式
Figure BDA0002891186020000031
计算句子向量A与句子向量B的相似度,实现句子的分条表示,|A|、|B|为句中词语数量,从分条后的句子中提取时间、检修手段、状态量三项进行链接,按照时间排序,生成报告的检修过程时间线,以元组列表的形式进行序列化。
进一步的,步骤d)包括如下步骤:
d-1)对于数值型数据通过指数函数或对数函数变换后通过公式f(x)=φ(x)-minφ(x)位移计算,得到计算结果f(x);
d-2)通过公式
Figure BDA0002891186020000032
计算分箱中第i个分箱的权重WOEi,式中Perror,i=μ+Counterror,i/μ+Counterror,Pother,i=μ+Countother,i/μ+Countother,μ为平滑参数,μ的取值为(0,1],Counterror,i为分箱中故障样本数量,Countother,i为分箱中其他样本数量,Counterror为故障样本总数,Countother为其他样本总数;
d-3)通过公式
Figure BDA0002891186020000041
计算得到分箱对故障的信息价值IVerror,n为与某个分箱贡献的故障数量,IVerror的最大值大于等于0.3;
d-4)通过步骤d-1)至d-3)确定每种数字型状态量的分箱策略,形成分箱标签并加入到关联分析的项集;
d-5)对于句子型数据,提取其中的关键词加入项集,使用公式
Figure BDA0002891186020000042
计算第i个词在第j个文本中的词频指数TFi,j,式中ni,j为i个词在第j个文本中出现次数,∑knk,j为第i个词在所有文本中出现次数之和,通过公式
Figure BDA0002891186020000043
计算第i个词的逆文本频率指数IDFi,式中D为语料库中文本总数,Di为包含词语的文本数目,通过公式TF-IDFi,j=TFi,j*IDFi计算第i个词在第j个文本中的词频逆文本指数。
进一步的,步骤e)包括如下步骤:
e-1)电网设备故障文本关联规则表示为X→Y X,Y∈I,其中X为关联规则的先导,Y为关联规则的后继,I={I1,I2,I3,...Ik}为所有项的集合,I中每一个元素Ik为项,关联规则的支持度为X和Y同时出现的百分比,记为P(XY),关联规则的置信度为X出现的情况下包含Y的百分比,记为P(Y|X),将每条故障文本用该文本中出现过的所有项集中的项来表示;
e-2)使用关联规则挖掘算法从文本中挖掘关联规则,采用Apriori关联分析算法提取关联规则。
进一步的,步骤f)中构建的电网设备故障案例库为信息涉及关系型数据库Schema,以报告为主键,将文本信息和预处理中保留的图片、作者信息一起入库。本发明的有益效果是:基于电网标准文献和设备故障案例文本构建电网领域词典,提升了电网领域文本的分词准确性。并且基于半监督的构建方法可在未来采集领域语料数据的情况下持续扩充领域词典。运用多项技术从案例文本中抽取状态量入库,编码集中存储案例中的图片,结构化的案例数据库使根据案例内容的检索更为准确。由故障案例中的多类型属性,通过改进的分箱、TF-IDF关键词筛选技术为案例生成特征标签。将故障案例数据库中的特征标签作为项集,整理挖掘故障的有效关联规则,可用于故障预警,填补了电网领域文本分析技术应用的空白。实现了统计文本中的关键词词频生成词云,便于用户对故障案例文本关键词有直观认识。基于电网领域语料,使用包括领域词典、文本结构化、文本标签及关联关系挖掘在内的技术构建电网设备故障案例库,进行多层次的抽象和应用,提升了电网领域语料的应用价值,降低了查阅成本。
附图说明
图1为本发明的方法流程图;
图2为本发明的半监督算法流程图;
图3为本发明的BERT-BiLSTM-CRF模型训练流程图。
图4为本发明的文本数据结构化的流程图;
图5为本发明的数据型状态量提取流程图;
图6为本发明的非数据型状态量提取流程图;
图7为本发明的结构化数据处理流程图;
具体实施方式
下面结合附图1至附图7对本发明做进一步说明。
如附图1所示,一种电网设备分词词典和故障案例库构建方法,包括如下步骤:
a)基于命名实体识别算法建立及扩充电网领域词典;
b)对电网设备故障缺陷案例文本进行预处理,所述预处理包括格式转换、去标号、分词;
c)基于自然语言处理方法提取文本数据中的状态量、检修流程和描述语句信息,获得结构化的电网设备故障案例;
d)基于结构化的电网设备故障案例,通过连续型特征分箱、关键词计算TF-IDF值的方法生成文本的特征标签和关键词云;
e)基于特征标签与故障进行关联规则分析,形成案例分析关联规则库;
f)将结构化的电网设备故障案例与特征标签、关键词云、关联规则库构建电网设备故障案例库。
首先构建了电网领域分词词典,然后对故障案例数据进行格式转换、分词等预处理,然后运用多种技术手段,从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema,以报告为主键,将上述文本信息和预处理中保留的图片、作者等信息一起入库,形成电网设备故障案例库。基于电网标准文献和设备故障案例文本构建电网领域词典,提升了电网领域文本的分词准确性。并且基于半监督的构建方法可在未来采集领域语料数据的情况下持续扩充领域词典。运用多项技术从案例文本中抽取状态量入库,编码集中存储案例中的图片,结构化的案例数据库使根据案例内容的检索更为准确。由故障案例中的多类型属性,通过改进的分箱、TF-IDF关键词筛选技术为案例生成特征标签。将故障案例数据库中的特征标签作为项集,整理挖掘故障的有效关联规则,可用于故障预警,填补了电网领域文本分析技术应用的空白。实现了统计文本中的关键词词频生成词云,便于用户对故障案例文本关键词有直观认识。基于电网领域语料,使用包括领域词典、文本结构化、文本标签及关联关系挖掘在内的技术构建电网设备故障案例库,进行多层次的抽象和应用,提升了电网领域语料的应用价值,降低了查阅成本。
实施例1:
电网设备故障缺陷案例文本包含大量的专业术语,通常这样的词汇没有被收入现有的通用分词工具的词典中。如果使用通用分词工具对电网领域文本进行分词,将会有大量专业术语被误分,进而影响后续词向量训练及文本分类的可靠性。所以分词之前,在成熟的分词工具的公共领域词典上进行领域专有词的扩充,构建电网领域的分词词典对提高后序步骤的准确性至关重要。
方法采用结合基于命名实体识别模型自动标注和人工手动筛选的半监督方法构建电网领域词典,流程如附图2。解决所识别的实体在电网领域的专业符合性是这部分工作的难点和重点,需要依赖人工手段进行筛选。将发现的新词加入到词典中完成词典的更新,再进行下一步训练和筛选。从而不断提高准确率、降低误报率,经过多轮迭代直到实体识别性能稳定,达到优化词典的目的。这种基于半监督的方法能在保证词典准确性的同时,解决传统监督学习方法人工标注成本过大,难以执行的问题。在后续领域语料增长时也能持续进行词典扩充,减少人工标注成本。因此进一步的,步骤a)包括如下步骤:
a-1)从电网领域文献、标准和行业导则中获取领域词汇。在这些文本中包含一些表格,可以使用正则模板直接提取表格中的词组内容作为领域词汇,比如检修导则中的设备名及其子部件名。
a-2)将文本中非法字符进行剔除,对文本利用字+边界的方式进行序列标注,将文本转换为BERT-BiLSTM-CRF模型输入所需的数据格式,将没有识别到的实体的语句纳入测试集,将有实体标注的语句作为训练集。标注方式主要使用了“字+边界”的方式,将单字实体标记为B,多字实体词首字标注为B,中间和尾字标注为I,为减少未登录实体词性不确定的问题,舍弃了词性标注。将目前没有识别到实体的语句纳入测试集,将有实体标注的语句作为训练集。该步的训练流程如附图3所示。
a-3)将经过构造之后得到的训练集数据放入BERT-BiLSTM-CRF模型中进行模型训练,将训练好的模型在测试集上进行命名实体识别任务,得到未登录的实体作为新词。
a-4)将得到的新词进行筛选后加入到领域词典中,通过训练词向量获得词的向量表示并对其进行聚类找同义词,完成词典优化。
a-5)利用优化后的词典对测试集和数据集进行重新标注后重新划分训练集和测试集。经过优化的词典将提高标注的准确率、降低误报率。如果划分没有达到预期的准确率则返回a-3),在新的标注上重新进行下一轮的训练。直到经过多轮迭代直到实体识别性能稳定,达到预期的准确率。
其中,在a-3)中使用深度学习结合概率图的模型——BERT-BiLSTM-CRF进行NER任务。利用BERT预训练模型本身的迁移学习的能力和对微调任务的强大拟合能力来识别实体特征,并使用CRF概率图模型使输出符合实体标注语法,是词典构建中的重点训练模型。
基于目前的电网领域语料所构建故障案例分词词典包含词语3003个。将故障案例分词词典加入分词器后,分词器分词效果有明显提升(如表1),能够对专业词汇进行准确分词。
Figure BDA0002891186020000081
表1分词词典效果示例
实施例2:
进一步的,步骤b)中在进行文本信息抽取之前,抽取图片、文件名、作者信息,过滤标号、错字噪声,将抽取过滤后的文本导入电网领域词典的分词工具进行分词,完成文本预处理工作。实际处理的故障缺陷案例通常为人工书写,为包括表格、图片、文本和标号的富文本文件,如pdf、word等格式。在进行文本信息抽取之前,应该抽取存储图片、文件名、作者等信息,并过滤标号、错字等噪声。将处理好的文本在导入了上述电网领域分词词典的分词工具进行精准分词,至此完成文本预处理工作。
实施例3:
进一步的,步骤c)包括如下步骤:
c-1)电网设备故障文本数据信息抽取的目的是通过对非结构化文本数据的分析和处理,抽取出对电网设备故障、缺陷描述有意义的信息,形成结构化的数据,便于未来针对某种内容信息的精确检索。考虑到电网故障文本描述的多样性,文本数据中提取时采用构建统一的属性模板进行属性提取,属性类型分为数字型状态量属性、词组型状态量属性和句子型状态量属性,对数字型状态量属性拟采用基于规则的方法来进行提取,对词组型状态量属性拟采用基于语法规则的实体匹配方法提取,对句子型状态量属性拟采用分布式文本表示和神经网络模型进行分类,从而实现文本信息结构化。
c-2)利用公式R={(x,y)|x∈A,y∈S},建立电网设备故障文本采用数据模型R的二元组描述,式中A为预定义好的描述属性,S为需要从非结构文本数据中抽取出该属性的状态量,x为具体的描述属性,y为文本数据中抽取出x属性对应的状态量,针对电网故障文本描述的多样性,采用人工构建统一的属性模板来进行属性提取,属性的类型主要分为数字型状态量属性和非数字型状态量属性,文本数据结构化处理的整体流程如图4所示。
实施例4:
进一步的,步骤c-1)中利用基于规则的方法提取数字型状态量属性,利用基于语法的规则的实体匹配法提取词组型状态量属性,句子型状态量属性利用分布式文本表示和神经网络模型进行分类;用数字类型状态量描述的属性有时间、编号、温度以及各种电力学指标,针对这类数字型状态量采用基于规则的方法来进行提取。先通过文本分词,将每个句子中的数字提取出来,再根据语法修饰规则,找到数字状态量的单位,将数字和数学单位合并成为完整的状态量,并将属性和对应的数字状态量进行匹配,即可得到最终的(属性,状态量)二元组。流程如附图5所示。
c-1.1)文本数据中数字型状态量的提取中通过文本分词将每个句子中的数字提取出来后根据语法修饰规则,找到数字状态量的单位,将数字和数学单位合并成为完成的状态量并将属性和对应的数字状态量进行匹配,得到最终的属性、状态量二元组;
c-1.2)非数字类型状态量主要是指文本状态量,在电网故障描述中同样有两种表现形式:一种是基于词组形式的状态量,一种是基于句子形式的状态量。流程如附图6所示。对于基于词组形式的状态量,其实质上是命名实体,因此采用语法修饰规则来匹配状态量及其修饰属性,提取命名实体和命名实体所修饰的词语组成二元组,实现文本数据中词组型状态量属性的提取。
c-1.3)基于句子形式的状态量,无法基于规则的方法进行提取。人工标注大于770个句子作为训练数据集,采用Word2vec方法将句子向量化表示,利用R-CNN神经网络进行分类,采用Word2vec技术将句子向量化表示,然后使用R-CNN神经网络进行分类,交叉验证准确率达78%。然后基于分类的结果进行状态量提取。采用基于分类的结果进行句子型状态量属性提取,由于提取出的句子为整句,含有少量冗余的子句,采用改进的TextRank算法提取句子主干,并实现句子的分条表示。传统TextRank算法根据两个子句间共现词语的独热表示来衡量两个句子间的相似度,经实验发现,这种计算方法无法挖掘出不同子句间近义但不相同的词语间的相似性,因此我们对传统TextRank算法的相似性计算方法进行改进,其利用公式
Figure BDA0002891186020000101
计算句子向量A与句子向量B的相似度,实现句子的分条表示,|A|、|B|为句中词语数量,从分条后的句子中提取时间、检修手段、状态量三项进行链接,按照时间排序,生成报告的检修过程时间线,以元组列表的形式进行序列化。文本结构化结果中包括其他时间,变电站名称,型号,塔号,投运时间,报告名称,故障发现时间,故障名称,故障时情况,测试环境温度,测试环境湿度,生产厂家,电压等级,缺陷等级,设备类型,分析结论,建议及对策,故障分析过程,故障处理方法,故障描述,现场情况,检修流程,总计21列,其中6列是句子,15列为状态量,检修流程为结构化元组。
实施例5:
进一步的,步骤d)包括如下步骤:
d-1)为上述结构化数据生成特征标签和关键词,主要是针对连续型数值型数据和句子型数据,将数据转化为离散化标签,生成关键词云,并为后序关联规则分析生成项集。对于数值型的数据,如发现时间,温度,湿度等,需要进行变换和分箱。一方面,分箱能将连续的数值离散化为one-hot标签,另一方面分箱后的特征标签对异常数据有很强的的鲁棒性。首先通过指数函数或对数函数加上位移,修正数据稠密或稀疏的问题,使连续范围的数据分布尽量均匀。分箱有多种策略,无监督如等距分箱、等频分箱、聚类分箱,有监督分箱主要有卡方分箱和best-ks分箱。模块内置多种分箱策略,以所有共现的故障为0-1标签检验其WOE(weight of Evidence证据权重)和IV(information value信息量)。因此对于数值型数据通过指数函数或对数函数变换后通过公式f(x)=φ(x)-minφ(x)位移计算,得到计算结果f(x)。
d-2)通过公式
Figure BDA0002891186020000102
计算分箱中第i个分箱的权重WOEi,式中Perror,i=μ+Counterror,i/μ+Counterror,Pother,i=μ+Countother,i/μ+Countother,μ为平滑参数,μ的取值为(0,1],Counterror,i为分箱中故障样本数量,Countother,i为分箱中其他样本数量,Counterror为故障样本总数,Countother为其他样本总数。
d-3)通过公式
Figure BDA0002891186020000111
计算得到分箱对故障的信息价值IVerror,n为与某个分箱贡献的故障数量,IVerror的最大值大于等于0.3。
通过上述流程确定每种数字型状态量的分箱策略,并以此形成分箱标签加入到关联分析的项集。以环境温度的分箱为例,下图是案例中提取到的故障发生时的温度频率分布。按照等距分箱分为四组如下表:
分箱 数量
-40~-20 9
-20~0 68
0~20 310
20~40 263
可以看出分箱很不均匀,同样计算得到的IV值为0.03,很不理想。而采用多分箱策略比较后进行重新分箱,同样是分为4箱,得到的IV值为0.82,在后续的关联关系分析中与部分故障也有很高的支持度。证明此次分箱有极高预测能力,对后续的关联关系分析也很有帮助。
d-4)通过步骤d-1)至d-3)确定每种数字型状态量的分箱策略,形成分箱标签并加入到关联分析的项集。
d-5)对于句子类型的数据,如缺陷原因、检修建议等,需要提取其中的关键词加入项集。在使用故障案例分词词典进行分词之后,使用改进的TF-IDF关键词提取算法和词性标注算法提取和筛选可用于关联规则挖掘的词。改进的TF-IDF公式如下:使用公式
Figure BDA0002891186020000112
计算第i个词在第j个文本中的词频指数TFi,j,式中ni,j为i个词在第j个文本中出现次数,∑knk,j为第i个词在所有文本中出现次数之和,通过公式
Figure BDA0002891186020000121
计算第i个词的逆文本频率指数IDFi,式中D为语料库中文本总数,Di为包含词语的文本数目,如果该词语不在语料库中,就会导致分母为零,因此进行加一平滑作为分母。通过公式TF-IDFi,j=TFi,j*IDFi计算第i个词在第j个文本中的词频逆文本指数即重要性。对挖掘到的关键词统计词频,经过对数函数修正后作为词云展示。本模块数据处理流程如附图7所示。
实施例6:
进一步的,步骤e)包括如下步骤:
e-1)挖掘设备类型、缺陷类型、缺陷原因、检修建议和发现时间之间的关联规则,可以更好地指导故障预警和运检策略。电网设备故障文本关联规则表示为X→Y X,Y∈I,其中X为关联规则的先导,Y为关联规则的后继,I={I1,I2,I3,...Ik}为所有项的集合,I中每一个元素Ik为项,关联规则的支持度为X和Y同时出现的百分比,记为P(XY),关联规则的置信度为X出现的情况下包含Y的百分比,记为P(Y|X),将每条故障文本用该文本中出现过的所有项集中的项来表。将关联规则应用于电网故障文本数据,进行面向设备故障数据的关联规则挖掘,需要基于这一场景构造项集。项集主要包括:从设备状态量、设备类型、缺陷类型、发现时间、缺陷原因和检修建议等信息,在上一步骤抽取到的特征标签和关键词,和词组型状态量。项的形式主要是词和短语。
e-2)使用关联规则挖掘算法从文本中挖掘关联规则,采用Apriori关联分析算法提取关联规则。该算法在进行关联规则挖掘时提前剪枝,从而避免项集数目的指数增长,节省运算时间。
最后,通过多次实验,设置合适的最小支持度和最小置信度等阈值实现关联挖掘算法的优化。再基于算法挖掘获得设备关联规则集,将其积累形成案例分析关联规则集合。基于目前已有的文本挖掘出710条关联规则。
实施例7:
进一步的,前面五个步骤中,我们首先构建了电网领域分词词典,然后对故障案例数据进行格式转换、分词等预处理,然后运用多种技术手段,从文本数据中分析生成结构化电网设备故障案例、特征标签、关键词云、关联规则等信息。为上述信息设计关系型数据库Schema,以报告为主键,将上述文本信息和预处理中保留的图片、作者等信息一起入库,形成电网设备故障案例库。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种电网设备分词词典和故障案例库构建方法,其特征在于,包括如下步骤:
a)基于命名实体识别算法建立及扩充电网领域词典;
b)对电网设备故障缺陷案例文本进行预处理,所述预处理包括格式转换、去标号、分词;
c)基于自然语言处理方法提取文本数据中的状态量、检修流程和描述语句信息,获得结构化的电网设备故障案例;
d)基于结构化的电网设备故障案例,通过连续型特征分箱、关键词计算TF-IDF值的方法生成文本的特征标签和关键词云;
e)基于特征标签与故障进行关联规则分析,形成案例分析关联规则库;
f)将结构化的电网设备故障案例与特征标签、关键词云、关联规则库构建电网设备故障案例库。
2.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于,步骤a)包括如下步骤:
a-1)从电网领域文献、标准和行业导则中获取领域词汇;
a-2)将文本中非法字符进行剔除,对文本利用字+边界的方式进行序列标注,将文本转换为BERT-BiLSTM-CRF模型输入所需的数据格式,将没有识别到的实体的语句纳入测试集,将有实体标注的语句作为训练集;
a-3)将经过构造之后得到的训练集数据放入BERT-BiLSTM-CRF模型中进行模型训练,将训练好的模型在测试集上进行命名实体识别任务,得到未登录的实体作为新词;
a-4)将得到的新词进行筛选后加入到领域词典中,通过训练词向量获得词的向量表示并对其进行聚类找同义词,完成词典优化;
a-5)利用优化后的词典对测试集和数据集进行重新标注后重新划分训练集和测试集。
3.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于,步骤b)中在进行文本信息抽取之前,抽取图片、文件名、作者信息,过滤标号、错字噪声,将抽取过滤后的文本导入电网领域词典的分词工具进行分词,完成文本预处理工作。
4.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于,步骤c)包括如下步骤:
c-1)文本数据中提取时采用构建统一的属性模板进行属性提取,属性类型分为数字型状态量属性、词组型状态量属性和句子型状态量属性,实现文本信息结构化;
c-2)利用公式R={(x,y)|x∈A,y∈S},建立电网设备故障文本采用数据模型R的二元组描述,式中A为预定义好的描述属性,S为需要从非结构文本数据中抽取出该属性的状态量,x为具体的描述属性,y为文本数据中抽取出x属性对应的状态量。
5.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于:步骤c-1)中利用基于规则的方法提取数字型状态量属性,利用基于语法的规则的实体匹配法提取词组型状态量属性,句子型状态量属性利用分布式文本表示和神经网络模型进行分类;
c-1.1)文本数据中数字型状态量的提取中通过文本分词将每个句子中的数字提取出来后根据语法修饰规则,找到数字状态量的单位,将数字和数学单位合并成为完成的状态量并将属性和对应的数字状态量进行匹配,得到最终的属性、状态量二元组;
c-1.2)采用语法修饰规则来匹配状态量及其修饰属性,提取命名实体和命名实体所修饰的词语组成二元组,实现文本数据中词组型状态量属性的提取;
c-1.3)人工标注大于770个句子作为训练数据集,采用Word2vec方法将句子向量化表示,利用R-CNN神经网络进行分类,基于分类的结果进行句子型状态量属性提取,利用公式
Figure FDA0002891186010000021
计算句子向量A与句子向量B的相似度,实现句子的分条表示,|A|、|B|为句中词语数量,从分条后的句子中提取时间、检修手段、状态量三项进行链接,按照时间排序,生成报告的检修过程时间线,以元组列表的形式进行序列化。
6.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于,步骤d)包括如下步骤:
d-1)对于数值型数据通过指数函数或对数函数变换后通过公式f(x)=φ(x)-minφ(x)位移计算,得到计算结果f(x),式中φ(x)为原始数据的修正函数;
d-2)通过公式
Figure FDA0002891186010000031
计算分箱中第i个分箱的权重WOEi,式中Perror,i=μ+Counterror,i/μ+Counterror,Pother,i=μ+Countother,i/μ+Countother,μ为平滑参数,μ的取值为(0,1],Counterror,i为分箱中故障样本数量,Countother,i为分箱中其他样本数量,Counterror为故障样本总数,Countother为其他样本总数;
d-3)通过公式
Figure FDA0002891186010000032
计算得到分箱对故障的信息价值IVerror,n为与某个分箱贡献的故障数量,IVerror的最大值大于等于0.3;
d-4)通过步骤d-1)至d-3)确定每种数字型状态量的分箱策略,形成分箱标签并加入到关联分析的项集;
d-5)对于句子型数据,提取其中的关键词加入项集,使用公式
Figure FDA0002891186010000033
计算第i个词在第j个文本中的词频指数TFi,j,式中ni,j为i个词在第j个文本中出现次数,∑knk,j为第i个词在所有文本中出现次数之和,通过公式
Figure FDA0002891186010000034
计算第i个词的逆文本频率指数IDFi,式中D为语料库中文本总数,Di为包含词语的文本数目,通过公式TF-IDFi,j=TFi,j*IDFi计算第i个词在第j个文本中的词频逆文本指数。
7.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于,步骤e)包括如下步骤:
e-1)电网设备故障文本关联规则表示为X→Y X,Y∈I,其中X为关联规则的先导,Y为关联规则的后继,I={I1,I2,I3,...Ik}为所有项的集合,I中每一个元素Ik为项,关联规则的支持度为X和Y同时出现的百分比,记为P(XY),关联规则的置信度为X出现的情况下包含Y的百分比,记为P(Y|X),将每条故障文本用该文本中出现过的所有项集中的项来表示;
e-2)使用关联规则挖掘算法从文本中挖掘关联规则,采用Apriori关联分析算法提取关联规则。
8.根据权利要求1所述的电网设备分词词典和故障案例库构建方法,其特征在于:步骤f)中构建的电网设备故障案例库为信息涉及关系型数据库Schema,以报告为主键,将文本信息和预处理中保留的图片、作者信息一起入库。
CN202110029159.6A 2021-01-11 2021-01-11 电网设备分词词典和故障案例库构建方法 Active CN112732934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110029159.6A CN112732934B (zh) 2021-01-11 2021-01-11 电网设备分词词典和故障案例库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110029159.6A CN112732934B (zh) 2021-01-11 2021-01-11 电网设备分词词典和故障案例库构建方法

Publications (2)

Publication Number Publication Date
CN112732934A true CN112732934A (zh) 2021-04-30
CN112732934B CN112732934B (zh) 2022-05-27

Family

ID=75590026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110029159.6A Active CN112732934B (zh) 2021-01-11 2021-01-11 电网设备分词词典和故障案例库构建方法

Country Status (1)

Country Link
CN (1) CN112732934B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698676A (zh) * 2020-12-09 2021-04-23 泽恩科技有限公司 一种基于ai和数字孪生技术的智能配电房运营方法
CN113342784A (zh) * 2021-07-01 2021-09-03 贵州电网有限责任公司 一种电网主变设备风险评估的数据库设计方法
CN113468317A (zh) * 2021-06-26 2021-10-01 北京网聘咨询有限公司 一种简历筛选方法、系统、设备和存储介质
CN113537200A (zh) * 2021-08-30 2021-10-22 平安医疗健康管理股份有限公司 基于图像识别的信息回填方法、装置、设备及介质
CN113609844A (zh) * 2021-07-30 2021-11-05 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113657437A (zh) * 2021-07-08 2021-11-16 中国南方电网有限责任公司 一种电网检修告警确认方法及系统
CN115017335A (zh) * 2022-06-16 2022-09-06 特赞(上海)信息科技有限公司 知识图谱构建方法和系统
CN115270774A (zh) * 2022-09-27 2022-11-01 吉奥时空信息技术股份有限公司 一种半监督学习的大数据关键词词典构建方法
CN116882966A (zh) * 2023-06-27 2023-10-13 广州慧云网络科技有限公司 一种运维设备巡检结果的故障判断方法和装置
CN117389544A (zh) * 2023-12-13 2024-01-12 北京宇信科技集团股份有限公司 一种人工智能的数据建模方法、装置、介质和设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438184B1 (en) * 2012-07-30 2013-05-07 Adelphic, Inc. Uniquely identifying a network-connected entity
US20160042053A1 (en) * 2014-08-07 2016-02-11 Cortical.Io Gmbh Methods and systems for mapping data items to sparse distributed representations
CN105512195A (zh) * 2015-11-26 2016-04-20 中国航空工业集团公司沈阳飞机设计研究所 一种产品fmeca报告分析决策辅助方法
US20160364377A1 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language Processing And Knowledge Building System
US20170004129A1 (en) * 2015-07-03 2017-01-05 The University Of North Carolina At Charlotte Natural Language Relatedness Tool using Mined Semantic Analysis
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110377901A (zh) * 2019-06-20 2019-10-25 湖南大学 一种针对配电线路跳闸填报案例的文本挖掘方法
CN110443305A (zh) * 2019-08-06 2019-11-12 北京明略软件系统有限公司 自适应特征处理方法及装置
US20190347269A1 (en) * 2018-05-08 2019-11-14 Siemens Healthcare Gmbh Structured report data from a medical text report
CN111061948A (zh) * 2019-11-25 2020-04-24 成都铂锡金融信息技术有限公司 一种用户标签推荐方法、装置、计算机设备及存储介质
CN111444424A (zh) * 2020-03-25 2020-07-24 深圳市分期乐网络科技有限公司 一种信息推荐方法和信息推荐系统
CN111914561A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及系统
CN112200601A (zh) * 2020-09-11 2021-01-08 深圳市法本信息技术股份有限公司 物品推荐方法、装置及可读存储介质
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438184B1 (en) * 2012-07-30 2013-05-07 Adelphic, Inc. Uniquely identifying a network-connected entity
US20160042053A1 (en) * 2014-08-07 2016-02-11 Cortical.Io Gmbh Methods and systems for mapping data items to sparse distributed representations
US20160364377A1 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language Processing And Knowledge Building System
US20170004129A1 (en) * 2015-07-03 2017-01-05 The University Of North Carolina At Charlotte Natural Language Relatedness Tool using Mined Semantic Analysis
CN105512195A (zh) * 2015-11-26 2016-04-20 中国航空工业集团公司沈阳飞机设计研究所 一种产品fmeca报告分析决策辅助方法
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
US20190347269A1 (en) * 2018-05-08 2019-11-14 Siemens Healthcare Gmbh Structured report data from a medical text report
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110377901A (zh) * 2019-06-20 2019-10-25 湖南大学 一种针对配电线路跳闸填报案例的文本挖掘方法
CN110443305A (zh) * 2019-08-06 2019-11-12 北京明略软件系统有限公司 自适应特征处理方法及装置
CN111061948A (zh) * 2019-11-25 2020-04-24 成都铂锡金融信息技术有限公司 一种用户标签推荐方法、装置、计算机设备及存储介质
CN111444424A (zh) * 2020-03-25 2020-07-24 深圳市分期乐网络科技有限公司 一种信息推荐方法和信息推荐系统
CN111914561A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及系统
CN112200601A (zh) * 2020-09-11 2021-01-08 深圳市法本信息技术股份有限公司 物品推荐方法、装置及可读存储介质
CN112199926A (zh) * 2020-10-16 2021-01-08 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
上官娜娜: "基于多维数据的电力变压器缺陷预测方法的设计与实现", 《中国优秀硕士论文全文数据库信息科技辑》 *
张小飞: "一种基于分箱统计的HCM算法", 《计算机应用与软件》 *
杨飞洪等: "中文电子病历的命名实体识别研究进展", 《中国数字医学》 *
陈巧红: "基于集成学习框架的用户画像方法", 《浙江理工大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698676A (zh) * 2020-12-09 2021-04-23 泽恩科技有限公司 一种基于ai和数字孪生技术的智能配电房运营方法
CN113468317B (zh) * 2021-06-26 2024-03-08 北京网聘信息技术有限公司 一种简历筛选方法、系统、设备和存储介质
CN113468317A (zh) * 2021-06-26 2021-10-01 北京网聘咨询有限公司 一种简历筛选方法、系统、设备和存储介质
CN113342784A (zh) * 2021-07-01 2021-09-03 贵州电网有限责任公司 一种电网主变设备风险评估的数据库设计方法
CN113657437A (zh) * 2021-07-08 2021-11-16 中国南方电网有限责任公司 一种电网检修告警确认方法及系统
CN113657437B (zh) * 2021-07-08 2024-04-19 中国南方电网有限责任公司 一种电网检修告警确认方法及系统
CN113609844A (zh) * 2021-07-30 2021-11-05 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113537200A (zh) * 2021-08-30 2021-10-22 平安医疗健康管理股份有限公司 基于图像识别的信息回填方法、装置、设备及介质
CN115017335A (zh) * 2022-06-16 2022-09-06 特赞(上海)信息科技有限公司 知识图谱构建方法和系统
CN115270774A (zh) * 2022-09-27 2022-11-01 吉奥时空信息技术股份有限公司 一种半监督学习的大数据关键词词典构建方法
CN116882966A (zh) * 2023-06-27 2023-10-13 广州慧云网络科技有限公司 一种运维设备巡检结果的故障判断方法和装置
CN116882966B (zh) * 2023-06-27 2024-04-19 广东慧云科技股份有限公司 一种运维设备巡检结果的故障判断方法和装置
CN117389544B (zh) * 2023-12-13 2024-03-01 北京宇信科技集团股份有限公司 一种人工智能的数据建模方法、装置、介质和设备
CN117389544A (zh) * 2023-12-13 2024-01-12 北京宇信科技集团股份有限公司 一种人工智能的数据建模方法、装置、介质和设备

Also Published As

Publication number Publication date
CN112732934B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN109145260B (zh) 一种文本信息自动提取方法
CN111079430A (zh) 一种组合深度学习和概念图谱的电力故障事件抽取方法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN111061882A (zh) 一种知识图谱构建方法
CN111324742A (zh) 一种数字人文知识图谱的构建方法
Banerjee et al. Bengali question classification: Towards developing qa system
CN113168499A (zh) 检索专利文档的方法
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN113196277A (zh) 用于检索自然语言文档的系统
CN111949774A (zh) 一种智能问答方法和系统
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN110569270B (zh) 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
Hamdi et al. Machine learning vs deterministic rule-based system for document stream segmentation
Gupta et al. Domain adaptation of information extraction models
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
CN114281945A (zh) 基于绿色产品案例库的减碳策略知识库的构建方法
Zhu et al. A Text Classification Algorithm for Power Equipment Defects Based on Random Forest
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113313184B (zh) 一种异质集成的自承认技术债务自动检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant