CN116719955B - 标签标注信息生成方法、装置、电子设备和可读介质 - Google Patents

标签标注信息生成方法、装置、电子设备和可读介质 Download PDF

Info

Publication number
CN116719955B
CN116719955B CN202310995538.XA CN202310995538A CN116719955B CN 116719955 B CN116719955 B CN 116719955B CN 202310995538 A CN202310995538 A CN 202310995538A CN 116719955 B CN116719955 B CN 116719955B
Authority
CN
China
Prior art keywords
data
information
tag
processed
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310995538.XA
Other languages
English (en)
Other versions
CN116719955A (zh
Inventor
林雪
胡广林
张思慧
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Beijing Guodiantong Network Technology Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202310995538.XA priority Critical patent/CN116719955B/zh
Publication of CN116719955A publication Critical patent/CN116719955A/zh
Application granted granted Critical
Publication of CN116719955B publication Critical patent/CN116719955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2337Non-hierarchical techniques using fuzzy logic, i.e. fuzzy clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Water Supply & Treatment (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施例公开了标签标注信息生成方法、装置、电子设备和可读介质。该方法的一具体实施方式包括:采集各个电力项目对应的业务数据,得到业务数据集;对筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;对于待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组。该实施方式提高了标签标注的速度,减少了标注误差的可能性,改善了电力项目对应的业务数据的标注质量。

Description

标签标注信息生成方法、装置、电子设备和可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及标签标注信息生成方法、装置、电子设备和可读介质。
背景技术
标签标注信息生成是标注电力项目对应的业务数据的标签的一种技术。目前,进行标签标注通常采用的方式为:通过人工对电力项目对应的业务数据进行标注。
然而,当采用上述方式时,经常会存在如下技术问题:
第一,人工标注业务数据的标签与模型标注业务数据的标签相比,标签标注的速度较慢,而且容易产生标注误差,导致电力项目对应的业务数据的标注质量较差。
第二,由于业务数据涉及的词性较多,容易产生标签的混淆,导致标注标签时出现重复标注,所需计算资源较大,通常情况下承载该标签标注的计算机具备的资源与所需资源相比有一定差异,导致效率较低。
第三,用于标注的业务数据较为复杂,使得无法准确地标注业务数据实际表达的内容,从而造成计算机标注的周期变长。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了标签标注信息生成方法、装置、电子设备和可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种标签标注信息生成方法,该方法包括:采集各个电力项目对应的业务数据,得到业务数据集;对上述业务数据集进行筛选,得到筛选后业务数据集;对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组;将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组;将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组;根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息;将上述各个电力项目对应的标签标注信息显示至对应的页面。
第二方面,本公开的一些实施例提供了一种标签标注信息生成装置,装置包括:采集单元,被配置成采集各个电力项目对应的业务数据,得到业务数据集;筛选单元,被配置成对上述业务数据集进行筛选,得到筛选后业务数据集;解析单元,被配置成对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;执行单元,被配置成对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组;将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组;将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组;生成单元,被配置成根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息;显示单元,被配置成将上述各个电力项目对应的标签标注信息显示至对应的页面。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的标签标注信息生成方法,提高了标签标注的速度,减少了标注误差的可能性,改善了电力项目对应的业务数据的标注质量。具体来说,造成标签标注消耗的时间较长的原因在于:人工标注业务数据的标签与模型标注业务数据的标签相比,标签标注的速度较慢,而且容易产生标注误差,导致电力项目对应的业务数据的标注质量较差。基于此,本公开的一些实施例的标签标注信息生成方法,首先,采集各个电力项目对应的业务数据,得到业务数据集。由此,可以采集越来越多的业务数据,为人工标签标注增加了难度。对上述业务数据集进行筛选,得到筛选后业务数据集。由此,可以将不需要标注的业务数据进行筛选,留下需要标注的业务数据。对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集。由此,取一个筛选后业务数据进行解析,得到关于此筛选后业务数据的待处理业务数据组,可以更加精准地标注业务数据。对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组。由此,可以将非结构化数据与结构化数据进行数据整合,降低分别标注标签的难度。将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组。由此,可以通过第一待处理数据标签匹配模型对每个数据特征信息进行标签匹配,从而减少了人工标注的工作量。将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组。由此,可以通过第二待处理数据标签匹配模型对半结构化数据进行标签匹配,从而减少了人工标注的工作量。根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息。由此,可以将第一数据标签标注信息组集与第二数据标签标注信息组集与各个电力项目对应的业务数据进行匹配,提高了标签标注的速度,减少了标注误差的可能性。将上述各个电力项目对应的标签标注信息显示至对应的页面。由此,改善了电力项目对应的业务数据的标注质量。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的标签标注信息生成方法的一些实施例的流程图;
图2是根据本公开的标签标注信息生成装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开的标签标注信息生成方法的一些实施例的流程图。示出了根据本公开的标签标注信息生成方法的一些实施例的流程100。该标签标注信息生成方法,包括以下步骤:
步骤101,采集各个电力项目对应的业务数据,得到业务数据集。
在一些实施例中,标签标注信息生成方法的执行主体(例如电子设备)可以通过相关联的业务数据采集装置(数据采集器)采集各个电力项目对应的业务数据,得到业务数据集。
这里,上述各个电力项目中的电力项目可以是指涉及电力产生、传输、分配和使用的项目。这里,上述业务数据集中的业务数据可以是指描述上述各个电力项目中的电力项目的业务活动的数据。上述业务活动可以包括但不限于以下至少一项:电力系统规划,电力设备安装与维护和电力传输与配电。例如,上述业务数据集可以包括但不限于以下至少一项:供电数据和用电负荷数据。
步骤102,对上述业务数据集进行筛选,得到筛选后业务数据集。
在一些实施例中,上述执行主体可以对上述业务数据集进行筛选,得到筛选后业务数据集。
这里,上述筛选后业务数据集中的筛选后业务数据可以是指电力项目的一个业务活动的数据。例如,上述筛选后业务数据集中的筛选后业务数据可以是指上述电力传输与配电的供电数据。
这里,上述供电数据可以用于监控电力系统中电力供应的稳定性。上述供电数据包括但不限于以下至少一项:发电机组数据和变电站数据。上述发电机组数据可以用于监控和管理发电机组的运行情况。上述发电机组是指将机械能转化为电能的设备。上述变电站数据可以用于监控变电站的运行。上述变电站是用于将高压电能转换为低压电能。
作为示例,上述执行主体可以将上述业务数据集进行分类,得到分类后业务数据组,然后,将上述分类后业务数据组中满足筛选条件的分类后业务数据确定为筛选后业务数据,得到筛选后业务数据集。其中,筛选条件可以是与当前业务操作相关的业务数据。这里,对于当前业务操作的设定,不作限制。
步骤103,对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集。
在一些实施例中,上述执行主体可以对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集。
这里,上述待处理业务数据组中的待处理业务数据可以是指电力项目中没有标注标签的业务数据。
作为示例,上述执行主体可以首先,对上述筛选后业务数据集中的每个筛选后业务数据进行数据提取,以生成提取后业务数据组,得到提取后业务数据组集,然后,根据上述提取后业务数据组集中的每个提取后业务数据组进行数据标记,以生成标记后业务数据组,得到标记后业务数据组集,最后,将上述标记后业务数据组集确定为待处理业务数据组集。
步骤104,对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:
步骤1041,将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组。
在一些实施例中,上述执行主体可以将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组。
这里,上述非结构化数据可以是指数据结构不规则,呈现方式不一致和格式自由的数据。例如,上述非结构化数据可以是指没有统一格式标准的发电机组的技术说明书。上述结构化数据可以是指按照预定义的结构和明确格式组织的数据。例如,上述结构化数据可以是指有明确格式的额定功率因数。这里,上述数据特征信息组中的数据特征信息可以是指从结构化数据和非结构化数据中提取出的关联性信息。例如,上述数据特征信息组中的数据特征信息可以是指上述发电机组的技术说明书和上述额定功率因数进行关联得到的发电机组容量信息。
作为示例,上述执行主体可以将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行特征提取,得到提取后数据特征,然后,对上述提取后数据特征进行独热编码,得到编码后数据特征,之后,对上述编码后数据特征进行特征选择,以生成选择后数据特征,得到选择后数据特征组,最后,将上述选择后数据特征组中的每个选择后数据特征进行特征整合,得到数据特征信息组。
可选的,上述执行主体可以通过以下步骤将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组:
第一步,对于上述待处理业务数据组中的每个待处理业务数据中的非结构化数据和结构化数据执行以下第六处理步骤:
子步骤一,对上述待处理业务数据进行语义关系处理,以生成业务数据语义关系信息。
这里,上述语义关系处理可以是指自然语言处理。上述业务数据语义关系信息可以是指上述待处理业务数据的语义关系信息,其中,上述语义关系信息可以是指语言含义的关联关系信息。
子步骤二,对上述待处理业务数据组中的每个待处理业务数据中的结构化数据进行实体提取,以生成结构化实体信息,得到结构化实体信息组。
这里,上述实体提取可以是指实体识别。这里,上述结构化实体信息组中的结构化实体信息可以是指对应结构化数据的实体信息。
子步骤三,对上述结构化实体信息组中的各个结构化实体信息进行语义分析,得到实体语义关系信息组。
子步骤四,对于上述结构化实体信息组中的每个结构化实体信息执行以下第七处理步骤:
第一子步骤,确定上述结构化实体信息对应的各个属性信息,得到结构化实体属性信息组。
第二子步骤,将上述实体语义关系信息组,上述结构化实体属性信息组和上述结构化实体信息进行知识图谱转化,得到结构化数据对应的第一知识图谱。
这里,上述第一知识图谱可以是指将结构化数据对应的图谱中的节点和对应的边进行连接的知识图谱,其中,知识图谱中的节点为结构化实体信息,知识图谱中的边为实体语义关系信息组和结构化实体属性信息组。
子步骤五,对于上述待处理业务数据组中的每个待处理业务数据中的非结构化数据执行以下第八处理步骤:
第一子步骤,对上述非结构化数据进行实体提取,得到非结构化实体信息。
这里,上述非结构化实体信息可以是指对应非结构化数据的实体信息。
第二子步骤,对上述非结构化实体信息进行关键词提取,得到实体信息关键词组。
这里,上述关键词提取可以是指利用词频-逆文档频率算法 (Term Frequency-Invers Document Frequency,TF-IDF)进行关键词提取。
第三子步骤,响应于确定上述实体信息关键词组中的实体信息关键词是目标词性关键词,将上述实体信息关键词组进行目标词性筛选,得到目标实体信息关键词组。
这里,上述目标词性关键词可以是指目标词性为动词的关键词。这里,上述目标词性筛选可以是指将目标词性为动词的实体信息关键词提取出来。上述目标实体信息关键词组可以是指词性为动词的各个实体信息关键词。
第四子步骤,将上述目标实体信息关键词组,上述非结构化实体信息和上述实体信息关键词组进行知识图谱转化,得到非结构化数据对应的第二知识图谱。
这里,上述第二知识图谱可以是指将非结构化数据对应的图谱中的节点和对应的边进行连接的知识图谱,其中,知识图谱中的节点为非结构化实体信息,知识图谱中的边为目标实体信息关键词组和实体信息关键词组。
第五子步骤,将上述业务数据语义关系信息,上述第一知识图谱与上述第二知识图谱进行图谱融合,得到融合后知识图谱。
这里,上述图谱融合可以是指知识图谱嵌入(Knowledge Graph Embedding,KGE)。
第二步,将所得到的各个融合后知识图谱进行图谱融合,得到上述待处理业务数据组对应的第三知识图谱。
这里,上述第三知识图谱可以是指将得到的各个融合后知识图谱进行融合得到的节点和边相连接的知识图谱。
第三步,对上述第三知识图谱进行节点剪枝,得到节点剪枝后知识图谱。
这里,上述节点剪枝可以根据节点的重要程度对节点进行删除和保留。上述节点剪枝后知识图谱可以是指删除无效节点后的知识图谱。
第四步,对上述节点剪枝后知识图谱进行关系剪枝,得到关系剪枝后知识图谱。
这里,上述关系剪枝可以根据关系的信任程度对关系进行删除和保留。上述关系剪枝后知识图谱可以是指删除冗余关系后的知识图谱。
第五步,对上述关系剪枝后知识图谱进行图裁剪,得到裁剪后知识图谱。
这里,上述图裁剪可以是指对知识图谱中不再连通的节点和孤立的关系的裁剪。上述裁剪后知识图谱可以是指裁剪知识图谱中不再连通的节点和孤立的关系后的知识图谱。
第六步,将上述裁剪后知识图谱对应特征数据组确定为数据特征信息组。
上述相关内容作为本公开的一个发明点,解决了背景技术提及的技术问题三“用于标注的业务数据较为复杂,使得无法准确地标注业务数据实际表达的内容,从而造成计算机标注的周期变长”。导致的因素往往如下:用于标注的业务数据较为复杂,使得无法准确地标注业务数据实际表达的内容,从而造成计算机标注的周期变长。如果解决了上述因素,就能达到的效果。为了达到这一效果,第一步,对于上述待处理业务数据组中的每个待处理业务数据中的非结构化数据和结构化数据执行以下第六处理步骤:子步骤一,对上述待处理业务数据进行语义关系处理,以生成业务数据语义关系信息。子步骤二,对上述待处理业务数据组中的每个待处理业务数据中的结构化数据进行实体提取,以生成结构化实体信息,得到结构化实体信息组。子步骤三,对上述结构化实体信息组中的各个结构化实体信息进行语义分析,得到实体语义关系信息组。由此,可以得到各个结构化实体信息之间的语义关系信息,为后续处理提供了方便。子步骤四,对于上述结构化实体信息组中的每个结构化实体信息执行以下第七处理步骤:第一子步骤,确定上述结构化实体信息对应的各个属性信息,得到结构化实体属性信息组。第二子步骤,将上述实体语义关系信息组,上述结构化实体属性信息组和上述结构化实体信息进行知识图谱转化,得到结构化数据对应的第一知识图谱。子步骤五,对于上述待处理业务数据组中的每个待处理业务数据中的非结构化数据执行以下第八处理步骤:第一子步骤,对上述非结构化数据进行实体提取,得到非结构化实体信息。第二子步骤,对上述非结构化实体信息进行关键词提取,得到实体信息关键词组。第三子步骤,响应于确定上述实体信息关键词组中的实体信息关键词是目标词性关键词,将上述实体信息关键词组进行目标词性筛选,得到目标实体信息关键词组。第四子步骤,将上述目标实体信息关键词组,上述非结构化实体信息和上述实体信息关键词组进行知识图谱转化,得到非结构化数据对应的第二知识图谱。第五子步骤,将上述业务数据语义关系信息,上述第一知识图谱与上述第二知识图谱进行图谱融合,得到融合后知识图谱。第二步,将所得到的各个融合后知识图谱进行图谱融合,得到上述待处理业务数据组对应的第三知识图谱。第三步,对上述第三知识图谱进行节点剪枝,得到节点剪枝后知识图谱。第四步,对上述节点剪枝后知识图谱进行关系剪枝,得到关系剪枝后知识图谱。第五步,对上述关系剪枝后知识图谱进行图裁剪,得到裁剪后知识图谱。第六步,将上述裁剪后知识图谱对应特征数据组确定为数据特征信息组。由此,可以准确地标注业务数据实际表达的内容,从而,可以缩短计算机标注的周期。
步骤1042,将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组。
在一些实施例中,上述执行主体可以将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组。
这里,上述第一数据标签标注信息组中的第一数据标签标注信息可以是指含有标签的数据特征信息。例如,上述第一数据标签标注信息组中的第一数据标签标注信息可以是指发电机规格。例如,上述第一待处理数据标签匹配模型可以包括输入层,特征提取层,匹配层和输出层。上述第一待处理数据标签匹配模型是用于为数据特征信息进行标签标注的模型。上述输入层可以用于输入上述数据特征信息组中的每个数据特征信息。上述特征提取层用于从输入数据中提取有用的特征。上述匹配层可以用于将输入数据的特征进行标签匹配,确定不同标签之间的相关性。上述输出层可以用于输出上述第一数据标签标注信息组。
可选的,上述执行主体可以通过以下步骤将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组:
第一子步骤,将上述数据特征信息组中的每个数据特征信息进行标准化处理,以生成处理后数据特征信息,得到处理后数据特征信息集。
这里,上述标准化处理可以是指标准差标准化处理。上述处理后数据特征信息集可以表征剔除异常数据特征信息后的数据特征信息组。
第二子步骤,对于上述处理后数据特征信息集中的每个处理后数据特征信息,执行以下第二处理步骤:
子步骤一,将上述处理后数据特征信息输入至上述预先训练的关键词提取模型,以生成候选关键词信息集合。
这里,上述预先训练的关键词提取模型用于从上述处理后数据特征信息中提取关键词的模型。其中,上述预先训练的关键词提取模型可以包括:Word2Vec模型和TextRank图模型。其中,Word2Vec模型用于将处理后数据特征信息中的特征进行向量化转换。TextRank图模型用于根据Word2Vec模型得到的特征向量,进行关键词抽取。这里,上述候选关键词信息集合中的候选关键词信息可以是指上述处理后数据特征信息中的关键词信息。
子步骤二,将上述候选关键词信息集合输入至上述第一标签匹配模型,得到标签匹配结果组集合,其中,上述标签匹配结果组集合中的标签匹配结果组包括:关键词信息和对应关键词信息的至少一个标签信息。
这里,上述第一标签匹配模型可以用于为上述候选关键词信息进行标签匹配的模型。这里,上述第一标签匹配模型可以是指循环神经网络(Recurrent Neural Networks,RNN)。这里,上述关键词信息可以是指关键的简化词汇。例如,上述关键词信息可以是指发电机名称。这里,上述对应关键词信息的至少一个标签信息可以是指一个简化词汇对应的至少一个标签信息。例如,上述关键词信息的至少一个标签信息可以是指发电设备标签。
可选的,上述执行主体可以通过以下步骤将上述候选关键词信息集合输入至上述第一标签匹配模型,得到标签匹配结果组集合:
第一子步骤,将上述候选关键词信息集合中的每个候选关键词信息输入至上述关键词筛选模型包括的词性确定编码模型,以生成编码后关键词信息,得到编码后关键词信息集合。
这里,上述关键词筛选模型可以是用于对关键词进行筛选的模型。上述词性确定编码模型可以是指对上述候选关键词信息进行信息编码的模型。例如,词性确定编码模型可以是基于Transformer结构的模型。
第二子步骤,将上述编码后关键词信息集合中的每个编码后关键词信息输入至上述关键词筛选模型包括的词性确定解码模型,以生成解码后关键词信息,得到解码后关键词信息集合。
这里,上述词性确定解码模型可以是指对上述编码后关键词信息进行信息解码的模型。其中,词性确定解码模型也可以是基于Transformer结构的模型。词性确定编码模型和词性确定解码模型的模型结构对称。
第三子步骤,将上述解码后关键词信息集合中的每个解码后关键词信息输入至标签匹配模型包括的预先训练的词性标注模型,以生成上述解码后关键词信息对应的词性信息,得到词性信息集。
这里,上述标签匹配模型可以是用于对解码后关键词信息进行标签标注的模型。上述词性标注模型是用于确定解码后关键词信息对应的词性,以生成词性信息的模型。具体的,词性标注模型可以Seq2seq模型。
第四子步骤,从上述候选关键词信息集合中筛选出对应上述词性信息集中词性信息为目标词性信息的候选关键词信息,得到候选关键词信息集合。
这里,上述目标词性信息可以是指目标词性为名词的词性信息。
第五子步骤,将上述候选关键词信息集合中的每个候选关键词信息输入至标签匹配模型包括的注意力机制网络,以生成关键词信息特征,得到关键词信息特征集。
这里,上述注意力机制网络可以是指自注意力机制(self-attention)。上述关键词信息特征集中的关键词信息特征可以是指关键词信息的词性信息为名词的关键词信息特征。
第六子步骤,对于上述关键词信息特征集中的每个关键词信息特征执行以下第五处理步骤:
子步骤一,将上述关键词信息特征输入至上述标签匹配模型包括的关键词注意力模型,得到关键词注意力权重。
这里,上述关键词注意力模型可以是用于得到每个关键词与其他关键词之间的关联性,并计算每个关键词的注意力权重的模型。上述关键词注意力模型可以是以关键词信息特征为输入,以关键词注意力权重为输出的模型。上述关键词注意力模型可以是指自注意力机制(self-attention)。上述关键词注意力权重可以表征关键词信息特征在关键词信息特征集中的贡献程度。
子步骤二,将上述关键词注意力权重与上述关键词信息特征进行交互,得到强化关键词信息。
这里,上述交互可以是指加权求和。
子步骤三,将上述强化关键词信息输入至上述标签匹配模型包括的标签匹配层,得到标签匹配得分组。
这里,上述标签匹配层可以是指以强化关键词信息为输入,以标签匹配得分组为输出的层。
子步骤四,将上述标签匹配得分组中的得分最大值对应的标签匹配得分确定为关键词标签匹配结果组。
第七子步骤,将得到的关键词标签匹配结果组集合确定为上述标签匹配结果组集合。
上述相关内容作为本公开的一个发明点,解决了背景技术提及的技术问题二“由于业务数据涉及的词性较多,容易产生标签的混淆,导致标注标签时出现重复标注,所需计算资源较大,通常情况下承载该标签标注的计算机具备的资源与所需资源相比有一定差异,导致效率较低”。导致效率较低的因素往往如下:由于业务数据涉及的词性较多,容易产生标签的混淆,导致标注标签时出现重复标注,所需计算资源较大,通常情况下承载该标签标注的计算机具备的资源与所需资源相比有一定差异,导致效率较低。如果解决了上述因素,就能达到提高标签标注的效率的效果。为了达到这一效果,第一步,将上述候选关键词信息集合中的每个候选关键词信息输入至上述关键词筛选模型包括的词性确定编码模型,以生成编码后关键词信息,得到编码后关键词信息集合。第二步,将上述编码后关键词信息集合中的每个编码后关键词信息输入至上述关键词筛选模型包括的词性确定解码模型,以生成解码后关键词信息,得到解码后关键词信息集合。第三步,将上述解码后关键词信息集合中的每个解码后关键词信息输入至标签匹配模型包括的预先训练的词性标注模型,以生成上述解码后关键词信息对应的词性信息,得到词性信息集。由此,可以得到解码后关键词信息对应的词性信息集,从而有利于之后对词性信息进行筛选。第四步,从上述候选关键词信息集合中筛选出对应上述词性信息集中词性信息为目标词性信息的候选关键词信息,得到候选关键词信息集合。由此,可以锁定业务数据涉及的词性的范围,避免了标注标签时出现重复标注。第五步,将上述候选关键词信息集合中的每个候选关键词信息输入至标签匹配模型包括的注意力机制网络,以生成关键词信息特征,得到关键词信息特征集。第六步,对于上述关键词信息特征集中的每个关键词信息特征执行以下第五处理步骤:子步骤一,将上述关键词信息特征输入至上述标签匹配模型包括的关键词注意力模型,得到关键词注意力权重。子步骤二,将上述关键词注意力权重与上述关键词信息特征进行交互,得到强化关键词信息。子步骤三,将上述强化关键词信息输入至上述标签匹配模型包括的标签匹配层,得到标签匹配得分组。子步骤四,将上述标签匹配得分组中的得分最大值对应的标签匹配得分确定为关键词标签匹配结果组。由此,降低了标注标签时出现重复标注的概率,从而,提升了标签标注的效率。
子步骤三,对于上述标签匹配结果组集合中的每个标签匹配结果组,执行以下第三处理步骤:
第一子步骤,对上述标签匹配结果组中的关键词信息与对应关键词信息的每个标签信息进行概率预测,以生成对应关键词信息的标签信息的概率值,得到概率值集。
作为示例,上述执行主体可以首先,将上述标签匹配结果组中的关键词信息与对应关键词信息的每个标签信息的余弦相似度确定为相似度集,然后,将上述相似度集中大于预设阈值的相似度对应的平均值与相似度集对应的平均值的商确定为对应关键词信息的标签信息的概率值,最后,得到概率值集。这里,对于预设阈值的设定,不做限制。
第二子步骤,将上述概率值集中最大的概率值对应的标签信息确定为关键词信息对应的标签信息。
第三子步骤,将上述关键词信息和上述关键词信息对应的标签信息确定为第一标签匹配结果。
第三子步骤,确定得到的第一标签匹配结果组为第一数据标签标注信息组。
步骤1043,将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组。
这里,上述半结构化数据可以是指数据本身既包含结构化数据内容又包含非结构化数据内容的数据。例如,上述半结构化数据可以是指包含了结构化数据如电压和非结构化数据如文本描述的发电机组运行数据。这里,上述第二待处理数据标签匹配模型包括:输入层,匹配层和输出层。上述输入层可以用于输入半结构化数据。上述匹配层可以将上述半结构化数据的特征进行标签匹配,确定不同标签之间的相关性。上述输出层可以用来输出上述第二数据标签标注信息组。这里,上述第二数据标签标注信息组中的第二数据标签标注信息可以是指含有标签的半结构化数据。例如,上述第二数据标签标注信息组中的第二数据标签标注信息可以是指含有标签为发电机规格的发电机组运行数据。
可选的,上述执行主体可以通过以下步骤将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组:
第一子步骤,将上述待处理业务数据组中的每个待处理业务数据执行以下第四处理步骤:
子步骤一,将上述待处理业务数据中的半结构化数据进行数据清洗,得到清洗后半结构化数据。
这里,上述清洗后半结构化数据可以表征去除重复的,无效的数据后的半结构化数据。上述数据清洗可以是指处理异常值。
子步骤二,对上述清洗后半结构化数据进行解析,得到解析后结构化数据。
这里,上述解析可以是指转化。上述解析后结构化数据可以表征上述清洗后半结构化数据转化为结构化数据后的解析后结构化数据。
子步骤三,对上述解析后结构化数据进行标准化处理,得到处理后结构化数据。
这里,上述处理后结构化数据可以表征消除不同特征后的结构化数据。
子步骤四,将上述处理后结构化数据输入至第二标签匹配模型,得到结构化数据匹配标签。
这里,上述第二标签匹配模型可以是用来为上述处理后结构化数据进行标签标注的模型。这里,上述第二标签匹配模型可以是指序列标注模型(Sequence LabelingModels,SLM)。
子步骤五,响应于确定上述结构化数据匹配标签正确,将结构化数据匹配标签与上述处理后结构化数据进行标注,得到标签标注后数据信息。
这里,上述标签标注后数据信息可以是指含有标签的处理后结构化数据信息。
第二子步骤,确定得到的标签标注后数据信息组为第二数据标签标注信息组。
步骤105,根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息。
在一些实施例中,上述执行主体可以根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息。
作为示例,上述执行主体可以首先,将上述第一数据标签标注信息组集中的第一数据标签标注信息组对应的标签确定为电力项目对应的业务数据的标签,然后,生成各个电力项目对应的标签标注信息。
可选的,上述执行主体可以通过以下步骤根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息:
第一步,对上述第一数据标签标注信息组集与上述第二数据标签标注信息组集进行异常信息处理,得到处理后第一数据标签标注信息组集与处理后第二数据标签标注信息组集。
这里,上述处理后第一数据标签标注信息组集可以是指去除异常数据标签标注信息后的第一数据标签标注信息组集,上述处理后第二数据标签标注信息组集可以是指去除异常数据标签标注信息后的第二数据标签标注信息组集。
作为示例,上述执行主体可以首先,将上述第一数据标签标注信息组集中的每个第一数据标签标注信息组进行异常信息去除,得到筛选后的第一数据标签标注信息组集作为处理后第一数据标签标注信息组集,然后,将上述第二数据标签标注信息组集中的每个第二数据标签标注信息组进行异常信息去除,得到筛选后的第二数据标签标注信息组集作为处理后第二数据标签标注信息组集,其中,上述异常信息处理可以是指将多余的标签进行去除,最后,得到处理后第一数据标签标注信息组集与处理后第二数据标签标注信息组集。
第二步,将上述处理后第一数据标签标注信息组集与处理后第二数据标签标注信息组集确定为处理后数据标签标注信息组集。
这里,上述确定可以是指合并。上述处理后数据标签标注信息组集可以是指上述处理后第一数据标签标注信息组集与处理后第二数据标签标注信息组集合并在一起的集合。
第三步,对上述处理后数据标签标注信息组集中的每个处理后数据标签标注信息组进行相似度处理,以生成相似度矩阵的元素,得到相似度矩阵。
这里,上述相似度处理可以是余弦相似度。这里,上述相似度矩阵可以是表征每个处理后数据标签标注信息组的相似度组成的矩阵。
第四步,根据上述相似度矩阵,生成相似度图谱。
这里,上述相似度图谱可以是指将图谱中的节点和对应的边,进行连接的图谱,其中,图谱中的节点为标签,图谱中的边为相似度矩阵中的相似度。
作为示例,上述执行主体可以首先,对上述相似度矩阵中的每个元素进行遍历,然后,将元素对应的相似度大于预设相似度阈值的相似度添加到图谱中,然后,根据大于预设相似度阈值的相似度值,将相似度矩阵中对应的节点进行连接,以生成相似度图谱。这里,对于上述预设相似度阈值的设定,不作限制。
第五步,对上述相似度图谱进行剪枝操作,得到剪枝后图谱。
这里,上述剪枝后图谱可以表征去除相似度图谱中冗余边的图谱。
作为示例,上述执行主体可以是指根据预设图谱的相似度阈值,将上述相似度图谱中低于上述预设图谱的相似度阈值的相似度进行去除,得到去除后图谱作为剪枝后图谱。
第六步,对上述剪枝后图谱进行模糊化处理,得到模糊后图谱。
这里,上述模糊化处理可以是指平滑化处理。这里,上述模糊后图谱可以表征去除图谱中的随机噪声后的图谱。
第七步,对上述模糊后图谱进行模糊谱聚类算法处理,得到聚类划分后特征向量。
作为示例,上述执行主体可以首先确定模糊后图谱中每个节点的向量,然后,对每个向量进行聚类操作,以确定每个节点所属的聚类,得到聚类划分后特征向量。
第八步,对上述聚类划分后特征向量进行指标估计处理,得到聚类估计结果。
这里,上述指标估计处理可以是指模糊轮廓系数处理。上述聚类估计结果可以是指用于衡量聚类结果的好坏的评估值。
第九步,响应于确定上述聚类估计结果大于预设估计条件,将上述聚类估计结果对应的相似度图谱中的各个节点确定为第一类标签组。
这里,上述预设估计条件可以是聚类估计结果对应的值大于预设估计值。例如,上述预设估计值可以是指5。
第十步,响应于确定上述聚类估计结果小于预设估计条件,将上述聚类估计结果对应的相似度图谱中的各个节点确定为第二类标签组。
第十一步,响应于确定上述聚类估计结果等于预设估计条件,将上述聚类估计结果对应的相似度图谱中的各个节点确定为第三类标签组。
第十二步,确定上述第一类标签组,上述第二类标签组和上述第三类标签组为标签标注信息组集。
作为示例,上述执行主体可以将上述第一类标签组,上述第二类标签组和上述第三类标签组合并为标签标注信息组集。
第十三步,根据上述标签标注信息组集,生成各个电力项目对应的标签标注信息。
步骤106,将上述各个电力项目对应的标签标注信息显示至对应的页面。
在一些实施例中,上述执行主体可以将上述各个电力项目对应的标签标注信息显示至对应的页面。
作为示例,上述执行主体可以将上述各个电力项目对应的标签标注信息以图表的形式显示至对应的页面。
可选的,上述执行主体可以通过以下步骤将上述各个电力项目对应的标签标注信息显示至对应的页面:
第一步,获取各个电力项目对应的网页元素信息。
这里,上述网页元素信息可以是指包含有至少一个电力项目的对应的业务数据和业务数据标签的网页元素信息。
第二步,将上述各个电力项目对应的标签标注信息确定为标签标注信息组集。
第三步,将上述标签标注信息组集中的第一类标签组,填充至上述网页元素信息中的第一预设位置,以生成第一填充信息。
这里,上述第一预设位置可以是用于填充第一类标签组的位置。
第四步,将上述标签标注信息组集中的第二类标签组,填充至上述网页元素信息中的第二预设位置,以生成第二填充信息。
这里,上述第二预设位置可以是用于填充第二类标签组的位置。
第五步,将上述标签标注信息组集中的第三类标签组,填充至上述网页元素信息中的第三预设位置,以生成第三填充信息。
这里,上述第三预设位置可以是用于填充第三类标签组的位置。
第六步,根据上述第一类标签组,上述第二类标签组和上述第三类标签组的标签组数量,将对应的上述第一填充信息,对应的上述第二填充信息和对应的上述第三填充信息的位置进行动态调整。
这里,上述动态调整可以是指自适应算法调整。
第七步,将调整后的第一填充信息,调整后的第二填充信息和调整后的第三填充信息显示至上述对应的页面。
本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的标签标注信息生成方法,提高了标签标注的速度,减少了标注误差的可能性,改善了电力项目对应的业务数据的标注质量。具体来说,造成标签标注消耗的时间较长的原因在于:人工标注业务数据的标签与模型标注业务数据的标签相比,标签标注的速度较慢,而且容易产生标注误差,导致电力项目对应的业务数据的标注质量较差。基于此,本公开的一些实施例的标签标注信息生成方法,首先,采集各个电力项目对应的业务数据,得到业务数据集。由此,可以采集越来越多的业务数据,为人工标签标注增加了难度。对上述业务数据集进行筛选,得到筛选后业务数据集。由此,可以将不需要标注的业务数据进行筛选,留下需要标注的业务数据。对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集。由此,取一个筛选后业务数据进行解析,得到关于此筛选后业务数据的待处理业务数据组,可以更加精准地标注业务数据。对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组。由此,可以将非结构化数据与结构化数据进行数据整合,降低分别标注标签的难度。将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组。由此,可以通过第一待处理数据标签匹配模型对每个数据特征信息进行标签匹配,从而减少了人工标注的工作量。将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组。由此,可以通过第二待处理数据标签匹配模型对半结构化数据进行标签匹配,从而减少了人工标注的工作量。根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息。由此,可以将第一数据标签标注信息组集与第二数据标签标注信息组集与各个电力项目对应的业务数据进行匹配,提高了标签标注的速度,减少了标注误差的可能性。将上述各个电力项目对应的标签标注信息显示至对应的页面。由此,改善了电力项目对应的业务数据的标注质量。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种标签标注信息生成方法的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的标签标注信息生成装置200包括:采集单元201、筛选单元202、解析单元203、执行单元204、生成单元205和显示单元206。其中,采集单元201,被配置成采集各个电力项目对应的业务数据,得到业务数据集;筛选单元202,被配置成对上述业务数据集进行筛选,得到筛选后业务数据集;解析单元203,被配置成对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;执行单元204,被配置成对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组;将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组;将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组;生成单元205,被配置成根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息;显示单元206,被配置成将上述各个电力项目对应的标签标注信息显示至对应的页面。
可以理解的是,该装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备(如计算设备)300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)304中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 304通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:采集各个电力项目对应的业务数据,得到业务数据集;对上述业务数据集进行筛选,得到筛选后业务数据集;对上述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;对于上述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将上述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组;将上述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组;将上述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组;根据得到的第一数据标签标注信息组集与第二数据标签标注信息组集,生成各个电力项目对应的标签标注信息;将上述各个电力项目对应的标签标注信息显示至对应的页面。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中上标注的功能也可以以不同于附图中上标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依上涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。上描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括:采集单元、筛选单元、解析单元、执行单元、生成单元和显示单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,采集单元还可以被描述为“采集各个电力项目对应的业务数据,得到业务数据集的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对上运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中上涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种标签标注信息生成方法,包括:
采集各个电力项目对应的业务数据,得到业务数据集;
对所述业务数据集进行筛选,得到筛选后业务数据集;
对所述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;
对于所述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:
将所述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组;
将所述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组;
将所述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组;
对第一数据标签标注信息组集与第二数据标签标注信息组集进行异常信息处理,得到处理后第一数据标签标注信息组集与处理后第二数据标签标注信息组集;
将所述处理后第一数据标签标注信息组集与所述处理后第二数据标签标注信息组集确定为处理后数据标签标注信息组集;
对所述处理后数据标签标注信息组集中的每个处理后数据标签标注信息组进行相似度处理,以生成相似度矩阵的元素,得到相似度矩阵;
根据所述相似度矩阵,生成相似度图谱;
对所述相似度图谱进行剪枝操作,得到剪枝后图谱;
对所述剪枝后图谱进行模糊化处理,得到模糊后图谱;
对所述模糊后图谱进行模糊谱聚类算法处理,得到聚类划分后特征向量;
对所述聚类划分后特征向量进行指标估计处理,得到聚类估计结果;
响应于确定所述聚类估计结果大于预设估计条件,将所述聚类估计结果对应的相似度图谱中的各个节点确定为第一类标签组;
响应于确定所述聚类估计结果小于预设估计条件,将所述聚类估计结果对应的相似度图谱中的各个节点确定为第二类标签组;
响应于确定所述聚类估计结果等于预设估计条件,将所述聚类估计结果对应的相似度图谱中的各个节点确定为第三类标签组;
确定所述第一类标签组,所述第二类标签组和所述第三类标签组为标签标注信息组集;
根据所述标签标注信息组集,生成各个电力项目对应的标签标注信息;
将所述各个电力项目对应的标签标注信息显示至对应的页面。
2.根据权利要求1所述的方法,其中,所述第一待处理数据标签匹配模型包括:预先训练的关键词提取模型和第一标签匹配模型;以及
所述将所述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组,包括:
将所述数据特征信息组中的每个数据特征信息进行标准化处理,以生成处理后数据特征信息,得到处理后数据特征信息集;
对于所述处理后数据特征信息集中的每个处理后数据特征信息,执行以下第二处理步骤:
将所述处理后数据特征信息输入至所述预先训练的关键词提取模型,以生成候选关键词信息集合;
将所述候选关键词信息集合输入至所述第一标签匹配模型,得到标签匹配结果组集合,其中,所述标签匹配结果组集合中的标签匹配结果组包括:关键词信息和对应关键词信息的至少一个标签信息;
对于所述标签匹配结果组集合中的每个标签匹配结果组,执行以下第三处理步骤:
对所述标签匹配结果组中的关键词信息与对应关键词信息的每个标签信息进行概率预测,以生成对应关键词信息的标签信息的概率值,得到概率值集;
将所述概率值集中最大的概率值对应的标签信息确定为关键词信息对应的标签信息;
将所述关键词信息和所述关键词信息对应的标签信息确定为第一标签匹配结果;
确定得到的第一标签匹配结果组为第一数据标签标注信息组。
3.根据权利要求1所述的方法,其中,所述第二待处理数据标签匹配模型包括:第二标签匹配模型;以及
所述将所述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成对应的第二数据标签标注信息,得到对应的第二数据标签标注信息组,包括:
将所述待处理业务数据组中的每个待处理业务数据执行以下第四处理步骤:
将所述待处理业务数据中的半结构化数据进行数据清洗,得到清洗后半结构化数据;
对所述清洗后半结构化数据进行解析,得到解析后结构化数据;
对所述解析后结构化数据进行标准化处理,得到处理后结构化数据;
将所述处理后结构化数据输入至第二标签匹配模型,得到结构化数据匹配标签;
响应于确定所述结构化数据匹配标签正确,将结构化数据匹配标签与所述处理后结构化数据进行标注,得到标签标注后数据信息;
确定得到的标签标注后数据信息组为第二数据标签标注信息组。
4.根据权利要求1所述的方法,其中,所述将所述各个电力项目对应的标签标注信息显示至对应的页面,包括:
获取各个电力项目对应的网页元素信息;
将所述各个电力项目对应的标签标注信息确定为标签标注信息组集;
将所述标签标注信息组集中的第一类标签组,填充至所述网页元素信息中的第一预设位置,以生成第一填充信息;
将所述标签标注信息组集中的第二类标签组,填充至所述网页元素信息中的第二预设位置,以生成第二填充信息;
将所述标签标注信息组集中的第三类标签组,填充至所述网页元素信息中的第三预设位置,以生成第三填充信息;
根据所述第一类标签组,所述第二类标签组和所述第三类标签组的标签组数量,将对应的所述第一填充信息,对应的所述第二填充信息和对应的所述第三填充信息的位置进行动态调整;
将调整后的第一填充信息,调整后的第二填充信息和调整后的第三填充信息显示至所述对应的页面。
5.一种标签标注信息生成装置,包括:
采集单元,被配置成采集各个电力项目对应的业务数据,得到业务数据集;
筛选单元,被配置成对所述业务数据集进行筛选,得到筛选后业务数据集;
解析单元,被配置成对所述筛选后业务数据集中的每个筛选后业务数据进行解析,以生成待处理业务数据组,得到待处理业务数据组集;
执行单元,被配置成对于所述待处理业务数据组集中的每个待处理业务数据组,执行如下第一处理步骤:将所述待处理业务数据组中的每个待处理业务数据中的非结构化数据与结构化数据进行数据整合,以生成数据特征信息,得到数据特征信息组;将所述数据特征信息组中的每个数据特征信息输入至第一待处理数据标签匹配模型,以生成第一数据标签标注信息,得到第一数据标签标注信息组;将所述待处理业务数据组中的每个待处理业务数据中的半结构化数据输入至第二待处理数据标签匹配模型,以生成第二数据标签标注信息,得到对应的第二数据标签标注信息组;
生成单元,被配置成对第一数据标签标注信息组集与第二数据标签标注信息组集进行异常信息处理,得到处理后第一数据标签标注信息组集与处理后第二数据标签标注信息组集;将所述处理后第一数据标签标注信息组集与所述处理后第二数据标签标注信息组集确定为处理后数据标签标注信息组集;对所述处理后数据标签标注信息组集中的每个处理后数据标签标注信息组进行相似度处理,以生成相似度矩阵的元素,得到相似度矩阵;根据所述相似度矩阵,生成相似度图谱;对所述相似度图谱进行剪枝操作,得到剪枝后图谱;对所述剪枝后图谱进行模糊化处理,得到模糊后图谱;对所述模糊后图谱进行模糊谱聚类算法处理,得到聚类划分后特征向量;对所述聚类划分后特征向量进行指标估计处理,得到聚类估计结果;响应于确定所述聚类估计结果大于预设估计条件,将所述聚类估计结果对应的相似度图谱中的各个节点确定为第一类标签组;响应于确定所述聚类估计结果小于预设估计条件,将所述聚类估计结果对应的相似度图谱中的各个节点确定为第二类标签组;响应于确定所述聚类估计结果等于预设估计条件,将所述聚类估计结果对应的相似度图谱中的各个节点确定为第三类标签组;确定所述第一类标签组,所述第二类标签组和所述第三类标签组为标签标注信息组集;根据所述标签标注信息组集,生成各个电力项目对应的标签标注信息;
显示单元,被配置成将所述各个电力项目对应的标签标注信息显示至对应的页面。
6.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至4中任一所述的方法。
CN202310995538.XA 2023-08-09 2023-08-09 标签标注信息生成方法、装置、电子设备和可读介质 Active CN116719955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310995538.XA CN116719955B (zh) 2023-08-09 2023-08-09 标签标注信息生成方法、装置、电子设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310995538.XA CN116719955B (zh) 2023-08-09 2023-08-09 标签标注信息生成方法、装置、电子设备和可读介质

Publications (2)

Publication Number Publication Date
CN116719955A CN116719955A (zh) 2023-09-08
CN116719955B true CN116719955B (zh) 2023-10-27

Family

ID=87873791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310995538.XA Active CN116719955B (zh) 2023-08-09 2023-08-09 标签标注信息生成方法、装置、电子设备和可读介质

Country Status (1)

Country Link
CN (1) CN116719955B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095524A (zh) * 2021-05-14 2021-07-09 中国电力科学研究院有限公司 电力设备检修工作单据智能生成方法、系统及存储介质
CN113111659A (zh) * 2021-04-13 2021-07-13 中国电力科学研究院有限公司 电力巡检工作票生成方法、系统、设备及存储介质
WO2021196520A1 (zh) * 2020-03-30 2021-10-07 西安交通大学 一种面向税务领域知识图谱的构建方法及系统
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
KR102427368B1 (ko) * 2021-11-09 2022-08-01 한국과학기술정보연구원 반 구조화 데이터를 이용한 지식그래프 후보 추천 방법, 그리고 이를 구현하기 위한 장치
CN115759734A (zh) * 2022-10-19 2023-03-07 国网物资有限公司 基于指标的电力业务供应链监控方法、装置、设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11556578B2 (en) * 2014-05-12 2023-01-17 Semantic Technologies Pty Ltd Putative ontology generating method and apparatus

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021196520A1 (zh) * 2020-03-30 2021-10-07 西安交通大学 一种面向税务领域知识图谱的构建方法及系统
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN113111659A (zh) * 2021-04-13 2021-07-13 中国电力科学研究院有限公司 电力巡检工作票生成方法、系统、设备及存储介质
CN113095524A (zh) * 2021-05-14 2021-07-09 中国电力科学研究院有限公司 电力设备检修工作单据智能生成方法、系统及存储介质
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法
KR102427368B1 (ko) * 2021-11-09 2022-08-01 한국과학기술정보연구원 반 구조화 데이터를 이용한 지식그래프 후보 추천 방법, 그리고 이를 구현하기 위한 장치
CN115759734A (zh) * 2022-10-19 2023-03-07 国网物资有限公司 基于指标的电力业务供应链监控方法、装置、设备和介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Machine Learning:Algorithm,Real-World Applications and Research Directions;Iqbal H.Sarker;SN Computer Science;全文 *
基于TextRank算法的项目标签智能化生成技术研究;胡广林等;信息技术(第08期);全文 *
基于电力大数据的标签画像技术与应用研究;吕辉等;电力信息与通信技术(第02期);全文 *
基于知识图谱的Web信息抽取系统;王辉等;计算机工程(第06期);全文 *
基于知识图谱的供应商360度全息画像场景应用;白旭飞等;电子技术与软件工程(第16期);全文 *

Also Published As

Publication number Publication date
CN116719955A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN111090987B (zh) 用于输出信息的方法和装置
CN107145485B (zh) 用于压缩主题模型的方法和装置
KR20110134314A (ko) 컴퓨터 분석을 위해 텍스트 문서를 표현하는 그래픽 모델
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN113656590B (zh) 行业图谱的构建方法、装置、电子设备及存储介质
CN113946684A (zh) 电力基建知识图谱构建方法
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN116956929A (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN117632654A (zh) 一种运维风险等级评估方法、装置、电子设备及存储介质
CN116719955B (zh) 标签标注信息生成方法、装置、电子设备和可读介质
Hammoud et al. New Arabic medical dataset for diseases classification
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN110889717A (zh) 文本中的广告内容过滤方法、装置、电子设备及存储介质
KR102466559B1 (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
CN113535946A (zh) 基于深度学习的文本鉴别方法、装置、设备及存储介质
CN117809792B (zh) 一种跨病种迁移时病种数据结构化的方法及系统
CN117649117B (zh) 处置方案的确定方法、装置以及计算机设备
CN117172220B (zh) 文本相似信息生成方法、装置、设备和计算机可读介质
CN114385781B (zh) 基于语句模型的接口文件推荐方法、装置、设备和介质
CN117195833A (zh) 日志信息转换方法、装置、电子设备和计算机可读介质
CN113761836A (zh) 语义角色标注方法、装置、电子设备和计算机可读介质
CN115712732A (zh) 一种电力设备知识图谱本体构建方法、系统、设备及介质
CN116628106A (zh) 一种监管规则分析方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant