CN115423327A - 数据处理方法与装置 - Google Patents

数据处理方法与装置 Download PDF

Info

Publication number
CN115423327A
CN115423327A CN202211084648.2A CN202211084648A CN115423327A CN 115423327 A CN115423327 A CN 115423327A CN 202211084648 A CN202211084648 A CN 202211084648A CN 115423327 A CN115423327 A CN 115423327A
Authority
CN
China
Prior art keywords
green
green industry
keyword
server
industry type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211084648.2A
Other languages
English (en)
Inventor
鄢秋霞
张圳
李昱
杨雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202211084648.2A priority Critical patent/CN115423327A/zh
Publication of CN115423327A publication Critical patent/CN115423327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供的一种数据处理方法与装置,涉及数据分析技术领域。该数据处理方法可以准确地将待入库的企业的主营业务信息与绿色企业数据库中的绿色产业类型匹配,进而,根据匹配度对待入库的企业标记与对应的绿色产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。

Description

数据处理方法与装置
技术领域
本申请涉及数据分析技术领域,尤其涉及一种数据处理方法与装置。
背景技术
绿色企业是指其经营活动有利于支持环境改善、适应或减缓气候变化和资源节约高效利用、且有资金需求的企业。
通常地,企业是否为绿色企业是进行信用贷款、项目投资、项目运营、风险管理的重要指标之一。因此,需要评估企业是否为绿色企业,并确定的绿色企业纳入数据库。然而,目前纳入数据库的绿色企业的精确度低;另外,在后续基于纳入数据库的绿色企业的进行项目评估时,精确度低且效率低。
发明内容
本申请提供一种数据处理方法与装置,用于纳入数据库的绿色企业的精确度低;在后续基于纳入数据库的绿色企业的进行项目评估时,精确度低且效率低的问题。
第一方面,本申请提供了一种数据处理方法,应用于服务器,包括:服务器获取待入库的企业的主营业务信息。对于预配置的绿色产业词库中每个绿色产业类型,服务器确定绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分。服务器根据第一词频得分和第二词频得分,确定主营业务信息与每个绿色产业类型的匹配度。服务器根据确定的大于设定的阈值的匹配度对应的绿色产业类型,对待入库的企业标记与对应的绿色产业类型对应的类别标签。服务器将标记有类别标签的待入库的企业,添加到预设的数据库。服务器对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目。
在一种可能的实施方式中,确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,包括:服务器对除绿色产业类型之外的其他绿色产业类型下的关键词集合中的各第一关键词去重;服务器统计去重后的除绿色产业类型之外的其他绿色产业类型下中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。
在一种可能的实施方式中,确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,包括:服务器对除绿色产业类型之外的其他绿色产业类型的关键词的集合中,在当前统计的绿色产业类型中出现的第一关键词剔除;服务器统计剔除后的除绿色产业类型之外的其他绿色产业类型中的各第一关键词,在主营业务信息出现的第二词频得分。
在一种可能的实施方式中,服务器根据第一词频得分和第二词频得分,确定主营业务信息与每个绿色产业类型的匹配度,包括:服务器根据第一词频得分fC和第二词频得分fC-,采用算式:
Figure BDA0003834997470000021
确定主营业务信息与每个绿色产业类型的匹配度P;其中,γ为设定的超参数;或者,采用算式:
Figure BDA0003834997470000022
确定主营业务信息与每个绿色产业类型的匹配度P。
在一种可能的实施方式中,在服务器获取待入库的企业的主营业务信息之后,还包括:服务器统计绿色产业词库的每个绿色产业类型中的任一第一关键词,所属的绿色企业的企业信息的第一数量;服务器统计第一数量的绿色企业的企业信息中,与该第一关键词所属同一绿色产业类型的绿色企业的企业信息的第三数量;服务器根据第一数量df(s)、第三数量dfc(s),采用算式:
Figure BDA0003834997470000023
确定绿色产业词库的每个绿色产业类型中的任一第一关键词在所属的绿色产业类型中的重要性p(s,c);服务器确定绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,包括:服务器根据每个绿色产业类型中的第一关键词i属于主营业务信息的第三词频tfi、每个绿色产业类型中的第一关键词i的重要性wi,统计预设的绿色产业词库的每个绿色产业类型中的各第一关键词,在主营业务信息出现的第一词频得分fC
服务器确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,包括:服务器根据除绿色产业类型之外的其他绿色产业类型下中的第一关键词i属于主营业务信息的第三词频tfi,除绿色产业类型之外的其他绿色产业类型下中的第一关键词i的重要性wi,采用算式:fC-=∑i∈jtfi*wi,确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分fC-,j为除所述绿色产业类型之外的其他绿色产业类型下中的第一关键词的集合。
在一种可能的实施方式中,在服务器获取待入库的企业的主营业务信息之前,还包括:服务器从多个预设的绿色企业的企业信息中,提取不属于绿色产业词库,但与绿色产业词库中的绿色产业类型关联的第二关键词;服务器将提取的第二关键词,添加到绿色产业词库的对应的绿色产业类型中。
在一种可能的实施方式中,服务器从多个预设的绿色企业的企业信息中,提取不属于绿色产业词库,但与绿色产业词库中的绿色产业类型关联的第二关键词,包括:服务器统计绿色产业词库的每个绿色产业类型中的任一第一关键词,所属绿色企业的企业信息的第一数量;服务器统计多个绿色企业的企业信息中,既包含第一关键词又包含第二关键词的企业信息的第二数量;服务器根据第一数量df(s)、所述第二数量df(w,s)采用算式:
Figure BDA0003834997470000031
确定第二关键词与第一关键词的关联的概率p(w|s);服务器根据任一绿色产业类型中的第一关键词的总数量|Sc|,任一第二关键词与该绿色产业类型的各第一关键词的关联的概率p(w|s),采用算式
Figure BDA0003834997470000032
确定第二关键词与该绿色产业类型的关联度rel(w,c);服务器提取关联度大于设定阈值第二关键词。
在一种可能的实施方式中,在所述服务器提取所述关联度大于设定阈值第二关键词之前,本申请提供的方法还包括:服务器根据算式
Figure BDA0003834997470000041
Figure BDA0003834997470000042
初步归一化第二关键词与该绿色产业类型的关联度,其中,v(w,c)为初步归一化后的第二关键词与该绿色产业类型的关联度,|C|为绿色产业类型的数量。服务器根据算式
Figure BDA0003834997470000043
再次归一化第二关键词与该绿色产业类型的关联度,其中,vc(w,c)为再次归一化后的第二关键词与该绿色产业类型的关联度。服务器根据算式
Figure BDA0003834997470000044
又一次归一化第二关键词与该绿色产业类型的关联度,其中,τw,c为又一次归一化后的第二关键词与该绿色产业类型的关联度。如此,可以使得最终得到的关联度的可靠性更高。
在一种可能的实施方式中,待评估的项目为评估企业的绿色级别,服务器对待评估的项目进行评估处理时,根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,包括:服务器对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿色级别评估规则;服务器根据绿色级别评估规则,评估待评估的企业的主营业务信息,以确定待评估的企业的绿色级别,其中,绿色级别为浅绿、中绿或者深绿。
第二方面,本申请提供了一种数据处理装置,应用于服务器,装置包括:信息获取单元,用于获取待入库的企业的主营业务信息;词频确定单元,用于对于预配置的绿色产业词库中每个绿色产业类型,确定绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分;匹配度确定单元,用于根据第一词频得分和第二词频得分,确定主营业务信息与每个绿色产业类型的匹配度;类别标记单元,根据确定的大于设定的阈值的匹配度对应的绿色产业类型,对待入库的企业标记与对应的绿色产业类型对应的类别标签;数据入库单元,用于将标记有类别标签的待入库的企业,添加到预设的数据库;项目评估单元,还用于对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目对应的评估规则以评估所述待评估的项目。
第三方面,本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,使得计算机执行如第一方面提供的方法。
第四方面,本申请还提供了一种服务器,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,使得服务器执行如第一方面提供的方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,当计算机程序被运行时,使得计算机执行如第一方面提供的方法。
本申请提供的一种数据处理方法,由于不仅考虑了绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,还考虑了除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分。进而,根据第一词频得分和第二词频得分,确定的主营业务信息与每个绿色产业类型的匹配度的精确度高。这样一来,根据匹配度对待入库的企业标记与对应的绿色产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的流程图之一;
图2为本申请实施例提供的数据处理方法的流程图之二;
图3为图2中的S201的具体流程图;
图4为本申请实施例提供的数据处理装置的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
通常地,企业是否为绿色企业是进行信用贷款、项目投资、项目运营、风险管理的重要指标之一。因此,需要评估企业是否为绿色企业,并确定的绿色企业纳入数据库。然而,目前纳入数据库的绿色企业的精确度低;另外,在后续基于纳入数据库的绿色企业的进行项目评估时,精确度低且效率低。
基于上述技术问题,本申请的发明构思在于:可以准确地将待入库的企业的主营业务信息与绿色企业数据库中的绿色产业类型匹配,进而,根据匹配度对待入库的企业标记与对应的绿色产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。
下面,以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
请参阅图1,本申请实施例提供了一种数据处理方法,应用于服务器。本申请实施例提供的方法包括:
S101:服务器获取待入库的企业的主营业务信息。
示例性地,企业的主营业务信息可以如图下表1所示:
Figure BDA0003834997470000071
表1
S102:对于预配置的绿色产业词库中每个绿色产业类型,服务器确定绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿色产业类型之外的其他绿色产业类型下的关键词集合中的第一关键词,在主营业务信息中出现的第二词频得分。
示例性地,预配置的绿色产业词库可以是根据绿色产业指导目录生成的,每个绿色产业类型可以是绿色产业指导目录下的各个三级子目录。
假设绿色产业指导目录中包括子目录A、子目录B以及子目录C,服务期确定子目录A中的各个第一关键词在主营业务信息中出现的第一词频得分,以及确定子目录B、子目录C构成的关键词集合中的各个第一关键词在主营业务信息中出现的第二词频得分。
再例如,服务器确定子目录B中的各个第一关键词在主营业务信息中出现的第一词频得分,以及确定子目录A、子目录C构成的关键词集合中的各个第一关键词在主营业务信息中出现的第二词频得分。
再例如,服务器确定子目录C中的各个第一关键词在主营业务信息中出现的第一词频得分,以及确定子目录A、子目录B构成的关键词集合中的各个第一关键词在主营业务信息中出现的第二词频得分。
在一种可能的实施方式中,服务器可以先对除绿色产业类型之外的其他绿色产业类型下的关键词集合中的各第一关键词去重;然后再统计去重后的除绿色产业类型之外的其他绿色产业类型下中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。这样一来,使得最后得到的第二词频得分的可靠性更高。
在另一种可能的实施方式中,服务器先对除绿色产业类型之外的其他绿色产业类型中的关键词集合中,在当前统计的绿色产业类型中出现的第一关键词剔除;然后再统计剔除后的除绿色产业类型之外的其他绿色产业类型中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。这样一来,使得最后得到的第二词频得分的可靠性更高。
另外,为了进一步增强确定的第一词频得分和第二词频得分的可靠性。服务器还可以为各个第一关键词赋予不同的权重(即重要性)。
具体地,服务器统计绿色产业词库的每个绿色产业类型中的任一第一关键词,所属的绿色企业的企业信息的第一数量。示例性地,服务器统计包括绿色产业类型中的第一关键词S的绿色企业的企业信息的第一数量。
进而,服务器统计第一数量的绿色企业的企业信息中,与该第一关键词所属同一绿色产业类型的绿色企业的企业信息的第三数量。示例性地,统计第一数量的绿色企业的企业信息中与第一关键词S同属于子目录C的绿色企业的企业信息的第三数量。然后,服务器根据第一数量df(s)、第三数量dfc(s),采用算式:
Figure BDA0003834997470000081
确定绿色产业词库的每个绿色产业类型中的任一第一关键词在所属的绿色产业类型中的重要性p(s,c)。示例性地,确定子目录C中的第一关键词i在子目录C中的重要性。最后,服务器根据每个绿色产业类型中的第一关键词i属于主营业务信息的第三词频tfi、每个绿色产业类型中的第一关键词i的重要性wi,统计预设的绿色产业词库的每个绿色产业类型中的各第一关键词,在主营业务信息出现的第一词频得分fC。可以理解地,由于确定第一词频得分fC时考虑了各个第一关键词在所属的绿色产业类型中的重要性,可靠性更高。
另外,服务器根据除绿色产业类型之外的其他绿色产业类型下中的第一关键词i属于主营业务信息的第三词频tfi,除绿色产业类型之外的其他绿色产业类型下中的第一关键词i的重要性wi,采用算式:fC-=∑i∈jtfi*wi,确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分fC-,j为除所述绿色产业类型之外的其他绿色产业类型下中的第一关键词的集合。
假设绿色产业指导目录中包括子目录A、子目录B以及子目录C,当前正在统计的是子目录C,则服务器根据确定子目录A、子目录B中的第一关键词i属于主营业务信息的第三词频tfi,及子目录A、子目录B中的第一关键词i的重要性wi,采用算式:fC-=∑i∈jtfi*wi,确定子目录A、子目录B中的第一关键词,在主营业务信息中出现的第二词频得分fC-,j为除所述绿色产业类型之外的其他绿色产业类型下中的第一关键词的集合。可以理解地,由于确定第二词频得分fC-时考虑了各个第一关键词在所属的绿色产业类型中的重要性,可靠性更高。
S103:服务器根据第一词频得分和第二词频得分,确定主营业务信息与每个绿色产业类型的匹配度。
示例性地,S103的具体实现方式如下:
服务器根据第一词频得分fC和第二词频得分fC-,采用算式:
Figure BDA0003834997470000091
Figure BDA0003834997470000092
确定主营业务信息与每个绿色产业类型的匹配度P;其中,γ为设定的超参数,例如,γ可以等于0.01。
或者,采用算式:
Figure BDA0003834997470000093
确定主营业务信息与每个绿色产业类型的匹配度P。
在确定上述的匹配度时,由于不仅考虑了绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,还考虑了除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分。进而,根据第一词频得分和第二词频得分,确定的主营业务信息与每个绿色产业类型的匹配度的精确度高。
S104:服务器根据确定的大于设定的阈值的匹配度对应的绿色产业类型,对待入库的企业标记与对应的绿色产业类型对应的类别标签。
可以理解地,当待入库的企业的主营业务信息与某一各绿色产业类型的匹配度越高时,说明待入库的企业的类别属于该绿色产业类型。如此,可以对待入库的企业标记与对应的绿色产业类型对应的类别标签,标记的精确度高。
S105:服务器将标记有类别标签的待入库的企业,添加到预设的数据库。
S106:服务器对待评估的项目进行评估处理时,根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目。
示例性地,待评估的项目为评估金融项目是否为绿色金融项目,服务器对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿色金融评估规则;服务器根据绿色金融评估规则,评估待评估的企业的主营业务信息,以评估金融项目是否为绿色金融项目。
示例性地,待评估的项目为评估企业的绿色级别,服务器对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿色级别评估规则;服务器根据绿色级别评估规则,评估待评估的企业的主营业务信息,以确定待评估的企业的绿色级别,其中,绿色级别为浅绿、中绿或者深绿。
综上所述,本申请实施例提供的一种数据处理方法,由于不仅考虑了绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,还考虑了除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,进而,根据第一词频得分和第二词频得分,确定的主营业务信息与每个绿色产业类型的匹配度的精确度高。进而,根据匹配度对待入库的企业标记与对应的绿色产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。
另外,本申请实施例还可以对绿色产业词库进行优化,使得绿色产业词库的内容更丰富,可靠程度越高。
具体地,在S101之前,如图2所示,本申请实施例提供的方法还可以包括:
S201:服务器从多个预设的绿色企业的企业信息中,提取不属于绿色产业词库,但与绿色产业词库中的绿色产业类型关联的第二关键词。
S202:服务器将提取的第二关键词,添加到绿色产业词库对应的绿色产业类型中。
由于第二关键词与绿色产业词库中的绿色产业类型关联,说明第二关键词能够表达绿色产业词库中的绿色产业类型的含义,这样一来,服务器将提取的第二关键词,添加到绿色产业词库的对应的绿色产业类型中,可以使得绿色产业词库的内容更丰富,可靠程度越高。
需要说明的是,优化绿色产业词库与上述的待入库的企业标记与对应的绿色产业类型对应的类别标签的过程,二者是相互促进,相辅相成,可以提高相互之间的准确度。
示例性地,如图3所示,S201可以具体实现为:
S301:服务器统计绿色产业词库的每个绿色产业类型中的任一第一关键词,所属绿色企业的企业信息的第一数量。
示例性地,服务器统计包括绿色产业类型中的第一关键词S的绿色企业的企业信息的第一数量。
S302:服务器统计多个绿色企业的企业信息中,既包含第一关键词又包含第二关键词的企业信息的第二数量。
示例性地,服务器统计既包含第一关键词S又包括第二关键词B的绿色企业的企业信息的第二数量。
S303:服务器根据第一数量df(s),第二数量df(w,s)采用算式:
Figure BDA0003834997470000111
确定第二关键词与第一关键词的关联的概率p(w|s)。
可以理解地,通过上述的算式确定的第二关键词与第一关键词的关联的概率的可靠性高。
S304:服务器根据任一绿色产业类型中的第一关键词的总数量|Sc|,任一第二关键词与该绿色产业类型的各第一关键词的关联的概率p(w|s),采用算式
Figure BDA0003834997470000121
确定第二关键词与该绿色产业类型的关联度rel(w,c)。
可以理解地,通过上述的算式确定第二关键词与该绿色产业类型的关联度的可靠性高。
另外,还可以对关联度进行归一化,归一化的具体方式可以为:服务器根据算式
Figure BDA0003834997470000122
初步归一化第二关键词与该绿色产业类型的关联度,其中,v(w,c)为初步归一化后的第二关键词与该绿色产业类型的关联度,|C|为绿色产业类型的数量。服务器根据算式
Figure BDA0003834997470000123
Figure BDA0003834997470000124
再次归一化第二关键词与该绿色产业类型的关联度,其中,vc(w,c)为再次归一化后的第二关键词与该绿色产业类型的关联度。服务器根据算式
Figure BDA0003834997470000125
又一次归一化第二关键词与该绿色产业类型的关联度,其中,τw,c为又一次归一化后的第二关键词与该绿色产业类型的关联度。如此,可以使得最终得到的关联度的可靠性更高。
S304:服务器提取关联度大于设定阈值第二关键词。
这样一来,提取的第二关键词的可靠性高。
请参阅图4,本申请实施例提供了一种数据处理装置400,应用于服务器,包括:信息获取单元401,用于获取待入库的企业的主营业务信息;词频确定单元402,用于对于预配置的绿色产业词库中每个绿色产业类型,确定绿色产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分;匹配度确定单元403,用于根据第一词频得分和第二词频得分,确定主营业务信息与每个绿色产业类型的匹配度;类别标记单元404,根据确定的大于设定的阈值的匹配度对应的绿色产业类型,对待入库的企业标记与对应的绿色产业类型对应的类别标签;数据入库单元405,用于将标记有类别标签的待入库的企业,添加到预设的数据库;项目评估单元406,还用于对待评估的项目进行评估处理时,根据类别标签从数据库中获取与待评估项目对应的评估规则以评估待评估的项目。
在一种可能的实施方式中,词频确定单元402,具体用于对除绿色产业类型之外的其他绿色产业类型下的关键词集合中的各第一关键词去重;统计去重后的除绿色产业类型之外的其他绿色产业类型下中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。
在另一种可能的实施方式中,词频确定单元402,具体用于对除绿色产业类型之外的其他绿色产业类型下的关键词集合中,在当前统计的绿色产业类型中出现的第一关键词剔除;统计剔除后的除绿色产业类型之外的其他绿色产业类型中的各第一关键词,在主营业务信息出现的第二词频得分。
在一种可能的实施方式中,匹配度确定单元403,具体用于根据第一词频得分fC和第二词频得分fC-,采用算式:
Figure BDA0003834997470000131
确定主营业务信息与每个绿色产业类型的匹配度P;其中,γ为设定的超参数;或者,采用算式:
Figure BDA0003834997470000132
确定主营业务信息与每个绿色产业类型的匹配度P。
在一种可能的实施方式中,本申请实施例提供的装置400还包括:重要性确定单元,用于统计绿色产业词库的每个绿色产业类型中的任一第一关键词,所属的绿色企业的企业信息的第一数量;统计第一数量的绿色企业的企业信息中,与该第一关键词所属同一绿色产业类型的绿色企业的企业信息的第三数量,根据第一数量df(s)、第三数量dfc(s),采用算式:
Figure BDA0003834997470000133
确定绿色产业词库的每个绿色产业类型中的任一第一关键词在所属的绿色产业类型中的重要性p(s,c)。
词频确定单元402,具体用于根据每个绿色产业类型中的第一关键词i属于主营业务信息的第三词频tfi、每个绿色产业类型中的第一关键词i的重要性wi,统计预设的绿色产业词库的每个绿色产业类型中的各第一关键词,在主营业务信息出现的第一词频得分fC;根据除绿色产业类型之外的其他绿色产业类型下中的第一关键词i属于主营业务信息的第三词频tfi,除绿色产业类型之外的其他绿色产业类型下中的第一关键词i的重要性wi,采用算式:fC-=∑i∈jtfi*wi,确定除绿色产业类型之外的其他绿色产业类型下的第一关键词,在主营业务信息中出现的第二词频得分fC-,j为除绿色产业类型之外的其他绿色产业类型下中的第一关键词的集合。
在一种可能的实施方式中,本申请实施例提供的装置400还包括:词库优化单元,用于从多个预设的绿色企业的企业信息中,提取不属于绿色产业词库,但与绿色产业词库中的绿色产业类型关联的第二关键词;将提取的第二关键词,添加到绿色产业词库的对应的绿色产业类型中。
在一种可能的实施方式中,词库优化单元,具体用于统计绿色产业词库的每个绿色产业类型中的任一第一关键词,所属绿色企业的企业信息的第一数量;统计多个绿色企业的企业信息中,既包含第一关键词又包含第二关键词的企业信息的第二数量;根据第一数量df(s)、所述第二数量df(w,s)采用算式:
Figure BDA0003834997470000141
确定第二关键词与第一关键词的关联的概率p(w|s);根据任一绿色产业类型中的第一关键词的总数量|Sc|,任一第二关键词与该绿色产业类型的各第一关键词的关联的概率p(w|s),采用算式
Figure BDA0003834997470000142
Figure BDA0003834997470000143
确定第二关键词与该绿色产业类型的关联度rel(w,c);服务器提取关联度大于设定阈值第二关键词。
数据入库单元405,具体用于在预设的关键词库中,不包括待入库的企业的主营业务信息中的第二关键词时,将标记有类别标签的待入库的企业,添加到预设的数据库,关键词库包括描述禁止或淘汰原料、技术、设备、以及产品的关键词。
项目评估单元406,具体用于对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿色级别评估规则;根据绿色级别评估规则,评估待评估的企业的主营业务信息,以确定待评估的企业的绿色级别,其中,绿色级别为浅绿、中绿或者深绿。
本申请实施例还提供了一种服务器,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,使得服务器执行如上述的图1-图3提供的方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。该非临时性计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述的图1-图3的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时上述的图1-图3的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种数据处理方法,其特征在于,应用于服务器,所述方法包括:
所述服务器获取待入库的企业的主营业务信息;
对于预配置的绿色产业词库中每个绿色产业类型,所述服务器确定所述绿色产业类型下的第一关键词,在所述主营业务信息中出现的第一词频得分,并确定除所述绿色产业类型之外的其他绿色产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分;
所述服务器根据所述第一词频得分和所述第二词频得分,确定所述主营业务信息与所述每个绿色产业类型的匹配度;
所述服务器根据确定的大于设定的阈值的匹配度对应的绿色产业类型,对所述待入库的企业标记与所述对应的绿色产业类型对应的类别标签;
所述服务器将标记有所述类别标签的待入库的企业,添加到预设的数据库;
所述服务器对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目。
2.根据权利要求1所述的方法,其特征在于,所述确定除所述绿色产业类型之外的其他绿色产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分,包括:
所述服务器对除所述绿色产业类型之外的其他绿色产业类型下的关键词集合中的各第一关键词去重;
所述服务器统计去重后的除所述绿色产业类型之外的其他绿色产业类型下中的关键词集合中的各第一关键词,在所述主营业务信息出现的第二词频得分。
3.根据权利要求1所述的方法,其特征在于,所述确定除所述绿色产业类型之外的其他绿色产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分,包括:
所述服务器对除绿色产业类型之外的其他绿色产业类型中,在当前统计的绿色产业类型中出现的第一关键词剔除;
所述服务器统计剔除后的除绿色产业类型之外的其他绿色产业类型中的集合中的各第一关键词,在所述主营业务信息出现的第二词频得分。
4.根据权利要求1所述的方法,其特征在于,所述服务器根据所述第一词频得分和所述第二词频得分,确定所述主营业务信息与所述每个绿色产业类型的匹配度,包括:
所述服务器根据所述第一词频得分fC和所述第二词频得分
Figure FDA0003834997460000021
采用算式:
Figure FDA0003834997460000022
确定所述主营业务信息与所述每个绿色产业类型的匹配度P;
其中,γ为设定的超参数;
或者,采用算式:
Figure FDA0003834997460000023
确定所述主营业务信息与所述每个绿色产业类型的匹配度P。
5.根据权利要求1所述的方法,其特征在于,在所述服务器获取待入库的企业的主营业务信息之后,所述方法还包括:
所述服务器统计所述绿色产业词库的每个绿色产业类型中的任一第一关键词,所属的绿色企业的企业信息的第一数量;
所述服务器统计所述第一数量的绿色企业的企业信息中,与该第一关键词所属同一绿色产业类型的绿色企业的企业信息的第三数量;
所述服务器根据所述第一数量df(s)、所述第三数量dfc(s),采用算式:
Figure FDA0003834997460000024
确定所述绿色产业词库的每个绿色产业类型中的任一第一关键词在所属的绿色产业类型中的重要性p(s,c);
所述服务器确定所述绿色产业类型下的第一关键词,在所述主营业务信息中出现的第一词频得分,包括:
所述服务器根据每个绿色产业类型中的第一关键词i属于所述主营业务信息的第三词频tfi、所述每个绿色产业类型中的第一关键词i的重要性wi,统计预设的绿色产业词库的每个绿色产业类型中的各第一关键词,在所述主营业务信息出现的第一词频得分fC
所述服务器确定除所述绿色产业类型之外的其他绿色产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分,包括:
所述服务器根据除所述绿色产业类型之外的其他绿色产业类型下中的第一关键词i属于所述主营业务信息的第三词频tfi,除所述绿色产业类型之外的其他绿色产业类型下中的第一关键词i的重要性wi,采用算式:
Figure FDA0003834997460000031
确定除所述绿色产业类型之外的其他绿色产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分
Figure FDA0003834997460000032
j为除所述绿色产业类型之外的其他绿色产业类型下中的第一关键词的集合。
6.根据权利要求1所述的方法,其特征在于,在所述服务器获取待入库的企业的主营业务信息之前,所述方法还包括:
所述服务器从多个预设的绿色企业的企业信息中,提取不属于所述绿色产业词库,但与所述绿色产业词库中的绿色产业类型关联的第二关键词;
所述服务器将提取的第二关键词,添加到所述绿色产业词库的对应的绿色产业类型中。
7.根据权利要求6所述的方法,其特征在于,所述服务器从多个预设的绿色企业的企业信息中,提取不属于所述绿色产业词库,但与所述绿色产业词库中的绿色产业类型关联的第二关键词,包括:
所述服务器统计所述绿色产业词库的每个绿色产业类型中的任一第一关键词,所属绿色企业的企业信息的第一数量;
所述服务器统计多个所述绿色企业的企业信息中,既包含所述第一关键词又包含第二关键词的企业信息的第二数量;
所述服务器根据所述第一数量df(s)、所述第二数量df(w,s)采用算式:
Figure FDA0003834997460000033
确定所述第二关键词与所述第一关键词的关联的概率p(w|s);
所述服务器根据所述任一绿色产业类型中的第一关键词的总数量|Sc|,任一所述第二关键词与该绿色产业类型的各所述第一关键词的关联的概率p(w|s),采用算式
Figure FDA0003834997460000041
确定所述第二关键词与该绿色产业类型的关联度rel(w,c);
所述服务器提取所述关联度大于设定阈值第二关键词。
8.根据权利要求7所述的方法,其特征在于,在所述服务器提取所述关联度大于设定阈值第二关键词之前,所述方法还包括:
所述服务器根据算式
Figure FDA0003834997460000042
初步归一化所述第二关键词与该绿色产业类型的关联度,其中,v(w,c)为初步归一化后的第二关键词与该绿色产业类型的关联度,|C|为绿色产业类型的数量;
所述服务器根据算式
Figure FDA0003834997460000043
再次归一化所述第二关键词与该绿色产业类型的关联度,其中,vc(w,c)为再次归一化后的第二关键词与该绿色产业类型的关联度;
所述服务器根据算式
Figure FDA0003834997460000044
又一次归一化所述第二关键词与该绿色产业类型的关联度,其中,τw,c为又一次归一化后的第二关键词与该绿色产业类型的关联度。
9.根据权利要求1-8任一所述的方法,其特征在于,所述待评估的项目为评估企业的绿色级别,所述对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目,包括:
所述服务器对待评估的项目进行评估处理时,根据所述待评估的企业的类别标签,关联的绿色级别评估规则;
所述服务器根据所述绿色级别评估规则,评估所述待评估的企业的主营业务信息,以确定所述待评估的企业的绿色级别,其中,所述绿色级别为浅绿、中绿或者深绿。
10.一种数据处理装置,其特征在于,应用于服务器,所述装置包括:
信息获取单元,用于获取待入库的企业的主营业务信息;
词频确定单元,用于对于预配置的绿色产业词库中每个绿色产业类型,确定所述绿色产业类型下的第一关键词,在所述主营业务信息中出现的第一词频得分,并确定除所述绿色产业类型之外的其他绿色产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分;
匹配度确定单元,用于根据所述第一词频得分和所述第二词频得分,确定所述主营业务信息与所述每个绿色产业类型的匹配度;
类别标记单元,根据确定的大于设定的阈值的匹配度对应的绿色产业类型,对所述待入库的企业标记与所述对应的绿色产业类型对应的类别标签;
数据入库单元,用于将标记有所述类别标签的待入库的企业,添加到预设的数据库;
项目评估单元,还用于对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得计算机执行如权利要求1至9任一项所述的方法。
12.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述服务器执行如权利要求1至9任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得计算机执行如权利要求1至9任一项所述的方法。
CN202211084648.2A 2022-09-06 2022-09-06 数据处理方法与装置 Pending CN115423327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211084648.2A CN115423327A (zh) 2022-09-06 2022-09-06 数据处理方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211084648.2A CN115423327A (zh) 2022-09-06 2022-09-06 数据处理方法与装置

Publications (1)

Publication Number Publication Date
CN115423327A true CN115423327A (zh) 2022-12-02

Family

ID=84201354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211084648.2A Pending CN115423327A (zh) 2022-09-06 2022-09-06 数据处理方法与装置

Country Status (1)

Country Link
CN (1) CN115423327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291428A (zh) * 2023-11-17 2023-12-26 南京雅利恒互联科技有限公司 一种基于企业管理app的数据后台管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291428A (zh) * 2023-11-17 2023-12-26 南京雅利恒互联科技有限公司 一种基于企业管理app的数据后台管理系统
CN117291428B (zh) * 2023-11-17 2024-03-08 南京雅利恒互联科技有限公司 一种基于企业管理app的数据后台管理系统

Similar Documents

Publication Publication Date Title
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
US10002122B2 (en) Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
US8543576B1 (en) Classification of clustered documents based on similarity scores
US8255405B2 (en) Term extraction from service description documents
US20140280183A1 (en) Method For Cross-Domain Feature Correlation
CN103493045A (zh) 对在线问题的自动回答
CN101911069A (zh) 用于数据聚类和同义词的发现和修改的方法和系统
WO2019041520A1 (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN114911917A (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN115423327A (zh) 数据处理方法与装置
CN114491034B (zh) 一种文本分类方法及智能设备
CN115687787A (zh) 产业政策目标群画像构建方法、系统及存储介质
CN109446522B (zh) 一种试题自动分类系统及方法
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN115098766B (zh) 一种电子招投标交易平台招投标信息推荐方法及系统
CN112182184B (zh) 一种基于审计数据库的精准匹配搜索方法
Roy et al. Understanding brand consistency from web content
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN110727850B (zh) 网络信息的过滤方法,计算机可读存储介质和移动终端
CN111209397B (zh) 一种确定企业产业类别的方法
CN111488327B (zh) 一种数据标准管理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination