CN115239214B - 企业的评估处理方法、装置及电子设备 - Google Patents

企业的评估处理方法、装置及电子设备 Download PDF

Info

Publication number
CN115239214B
CN115239214B CN202211161242.XA CN202211161242A CN115239214B CN 115239214 B CN115239214 B CN 115239214B CN 202211161242 A CN202211161242 A CN 202211161242A CN 115239214 B CN115239214 B CN 115239214B
Authority
CN
China
Prior art keywords
text
enterprise
server
similarity
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211161242.XA
Other languages
English (en)
Other versions
CN115239214A (zh
Inventor
陈达纲
张晨
王婷玉
李昱
王全礼
张圳
蒲柯锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202211161242.XA priority Critical patent/CN115239214B/zh
Publication of CN115239214A publication Critical patent/CN115239214A/zh
Application granted granted Critical
Publication of CN115239214B publication Critical patent/CN115239214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种企业的评估处理方法、装置及电子设备,涉及知识图谱技术领域。该企业的评估处理方法,服务器将文本长度大于预设的长度阈值的第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度。这样一来,可以使得第一文本中的所有内容与第二文本进行语义匹配。这样一来,使得对得到的各语义匹配度加权求和,得到第一文本与第二文本的第一相似度的可靠性高。进而,服务器根据第一相似度对企业进行分类,得到企业的类别的精确度高,评估处理的结果的可靠性也高,并且无需人工操作,提高了对企业的评估处理的效率。

Description

企业的评估处理方法、装置及电子设备
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种企业的评估处理方法、装置及电子设备。
背景技术
绿色企业是指其经营活动有利于支持环境改善、适应或减缓气候变化和资源节约高效利用、且有资金需求的企业。
通常地,在银行对某一企业进行信用贷款之前,该企业是否为绿色企业是进行信用贷款的风险评估的重要指标之一。因此,需要对企业进行分类,以评估该企业是否为绿色企业。
目前,主要是通过人工对企业提供的人工资料进行审核,以判断该企业是否为绿色企业,效率和准确度都比较低。这样一来,导致企业的评估处理的结果的可靠性也低。
发明内容
本申请提供一种企业的评估处理方法、装置及电子设备,用以解决识别企业是否为绿色企业,效率和准确度都比较低的问题。
第一方面,本申请提供了一种企业的评估处理方法,应用于服务器,包括:服务器获取评估请求,评估请求中包括待评估的企业;根据评估请求,获取与待评估的企业的第一文本,其中,第一文本用于指示企业的经营范围,第一文本的文本长度大于预设的长度阈值;服务器将第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度,其中,子文本的文本长度小于长度阈值,第二文本为包含有描述绿色企业的关键词的文本;服务器对各语义匹配度加权求和,获取第一文本与第二文本的第一相似度;服务器根据第一相似度,确定待评估的企业的类别,其中,企业的类别为绿色企业或非绿色企业;服务器根据获取的与待评估的企业的类别对应的评估模式,对待评估的企业进行评估处理。
在一种可选地实施方式中,在服务器根据第一相似度,确定待评估的企业的类别之前,方法还包括:服务器将第一文本与第二文本的进行关键词匹配,得到第一文本与第二文本的第二相似度;则服务器根据第一相似度,确定待评估的企业的类别,包括:服务器对第一相似度和第二相似度进行加权求和,以确定第一文本与第二文本的第三相似度;服务器根据第三相似度,确定待评估的企业的类别。
可以理解地,由于第三相似度是根据对第一相似度和第二相似度进行加权求和得到的,而第二相似度又是将第一文本与第二文本的进行关键词匹配得到的。如此,服务器根据第三相似度对企业进行分类,得到企业的类别的可靠性更高。
在一种可选地实施方式中,服务器对第一相似度和第二相似度进行加权求和,以确定第一文本与第二文本的第三相似度,包括:服务器根据第一相似度
Figure 203048DEST_PATH_IMAGE001
和第二相似度Sdoc,采用公式:
Figure 723022DEST_PATH_IMAGE002
,以确定第一文本与第二文本的第三相似度Scored;其中,a为第一权重,且a为取值范围为[0,1],
Figure 179411DEST_PATH_IMAGE003
为第二权重,
Figure 308779DEST_PATH_IMAGE003
的取值范围为[0,1],
Figure 901434DEST_PATH_IMAGE004
为语义匹配度,n为子文本的数量;i为正整数。
在一种可选地实施方式中,在服务器根据第一相似度对企业进行分类,得到企业的类别之前,方法还包括:服务器获取企业的第三文本,其中,第三文本用于描述企业的专利信息;服务器从第三文本中提取出第一实体向量集合;服务器对第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合;服务器根据第一相似度,确定待评估的企业的类别,包括:服务器将第一相似度和第二实体向量集合构成的待识别文本,并采用预训练的分类模型对待识别文本进行分类,并根据待识别文本的分类结果,确定待评估的企业的类别。
由于第二实体向量集合是对第一实体向量集合中的各第一实体进行泛化得到的,且第一实体向量集合是从用于描述企业的专利信息的第三文本中提取的。如此,对第一相似度和第二实体向量集合构成的待识别文本进行分类,得到企业的类别的可靠性更高。
在一种可选地实施方式中,分类模型是采用获取的待训练的输入数据,以及输出数据,对初始的待训练网络进行训练得到的;其中,输入数据为多个历史待识别文本,输出数据为多个历史待识别文本的类别。
在一种可选地实施方式中,第三文本包括专利名称,服务器对第一实体向量集合中的每个关键词进行同义词泛化,得到第二实体向量集合,包括:服务器对第三文本中的专利名称进行向量化,并提取第一实体向量集合;服务器查找出第一实体向量集合中的各第一实体向量的语义相近的实体向量A;服务器查找出各实体向量A的语义相近的实体向量B;服务器计算第一实体向量集合、实体向量A的集合以及实体向量B的集合中,各语义相近的实体向量的平均值向量,得到第二实体向量集合。
在一种可选地实施方式中,服务器对第一实体向量集合中的每个关键词进行同义词泛化,得到第二实体向量集合,包括:服务器将第三文本进行向量化,并提取第一实体向量集合;服务器根据TransR算法,从预设的知识图谱中查找出第一实体向量集合中的各第一实体的语义相近的实体向量A;服务器将第一实体向量集合、实体向量A的集合的并集,作为第二实体向量集合。
第二方面,本申请还提供了一种企业的评估处理装置,应用于服务器,包括:请求获取单元,用于获取的评估请求,评估请求中包括待评估的企业;文本获取单元,用于根据评估请求,获取与待评估的企业的第一文本,其中,第一文本用于指示企业的经营范围,第一文本的文本长度大于预设的长度阈值;语义匹配单元,用于将第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度,其中,子文本的文本长度小于长度阈值,第二文本为包含有描述绿色企业的关键词的文本;相似度计算单元,用于对各语义匹配度加权求和,获取第一文本与第二文本的第一相似度;企业分类单元,用于根据第一相似度,确定待评估的企业的类别,其中,企业的类别为绿色企业或非绿色企业;企业评估单元,用于根据获取的与待评估的企业的类别对应的评估模式,对待评估的企业进行评估处理。
第三方面,本申请还提供一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,使得电子设备执行如本申请第一方面提供的方法。
第四方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,使得计算机执行如本申请第一方面提供的方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,当计算机程序被运行时,使得计算机执行如本申请第一方面提供的方法。
本申请提供的一种企业的评估处理方法,服务器将文本长度大于预设的长度阈值的第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度。这样一来,可以使得第一文本中的所有内容与第二文本进行语义匹配。这样一来,使得对得到的各语义匹配度加权求和,得到第一文本与第二文本的第一相似度的可靠性高。进而,服务器根据第一相似度对企业进行分类,得到企业的类别的精确度高,评估处理的结果的可靠性也高,并且无需人工操作,提高了对企业的评估处理的效率和准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的企业的评估处理方法的流程图之一;
图2为本申请实施例提供的企业的评估处理方法的流程图之一;
图3为本申请实施例提供的将实体向量h和知识图谱中的实体向量t,分别从实体空间映射到关系空间的示意图;
图4为本申请实施例提供的企业的评估处理装置的功能单元框图;
图5为本申请实施例提供的电子设备的结构框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
通常地,在银行对某一企业进行信用贷款之前,该企业是否为绿色企业是进行信用贷款的风险评估的重要指标之一。因此,需要对企业进行分类,以评估该企业是否为绿色企业。目前,主要是通过人工对企业提供的人工资料进行审核,以判断该企业是否为绿色企业,效率和准确度都比较低。这样一来,导致企业的评估处理的结果的可靠性也低。
有鉴于此,本申请提供了一种企业的评估处理方法,可以根对指示所述企业的经营范围的第一文本和包含有描述绿色企业的关键词的第二文本进行分析,得到企业的类别的精确度高,且评估处理的结果的可靠性也高,并且无需人工操作,提高了对企业的评估处理的效率。
首先对本申请所涉及的名词进行解释:
绿色产业指导目录:介绍了国家对各行各业的绿色企业的认定标准,可以各地区、各部门明确绿色产业发展重点、制定绿色产业政策、引导社会资本投入的主要依据。
知识图谱:是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。知识图谱的组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对。其中,实体间通过关系相互联结,可以构成网状的知识结构(即知识图谱)。
TransR算法:是将实体和关系分别映射到两个空间中,然后将实体空间中的实体通过转移矩阵Mr转移到关系空间中进行向量表示。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
请参阅图1,本申请实施例还提供了一种企业的评估处理方法,应用于服务器。本申请实施例提供的方法包括:
S101:服务器获取评估请求,评估请求中包括待评估的企业。
示例性,终端设备可以显示有企业列表。终端设备可以响应于对企业列表中的其中一个企业的选择操作,确定待评估的企业。终端设备可以向服务器发送评估请求。其中,评估请求可以用于请求进行风险评估。
S102:服务器根据评估请求,获取与待评估的企业的第一文本,其中,第一文本用于指示企业的经营范围,第一文本的文本长度大于预设的长度阈值。
其中,预设的长度阈值可以是100个字符的长度。企业经营范围是指企业在生产经营活动中,依法可以生产和经营的商品具体类别、品种及服务项目。
S103:服务器将第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度。
其中,子文本的文本长度小于长度阈值,第二文本为包含有描述绿色企业的关键词的文本。
示例地,第二文本可以是但不限于《绿色产业指导目录》。本申请实施例中,预设的第二文本的文本长度也大于预设的长度阈值。具体地,可以将各子文本和第二文本输入到预训练的BERT(Bidirectional Encoder Representation from Transformers)模型中,BERT模型可以将各子文本与第二文本进行语义匹配,输出各子文本与预设的第二文本的语义匹配度。可以理解地,BERT模型无法进行两个文本长度大于预设的长度阈值的文本的匹配。如此,将第一文本划分为多个子文本,使用BERT模型来与第二文本分别进行匹配。这样一来,可以使得第一文本中的所有内容与第二文本进行语义匹配。
S104:服务器对各语义匹配度加权求和,获取第一文本与第二文本的第一相似度。
服务器可以根据算式
Figure 592310DEST_PATH_IMAGE005
得到第一相似度,
Figure 535995DEST_PATH_IMAGE003
为第二权重,
Figure 970518DEST_PATH_IMAGE003
的取值范围为[0,1],
Figure 683259DEST_PATH_IMAGE004
为语义匹配度,n为子文本的数量,M为第一相似度。
S105:服务器根据第一相似度,确定待评估的企业的类别,其中,企业的类别为绿色企业或非绿色企业。
如,服务器可以将第一相似度大于设定阈值的企业,确定为绿色企业,反之,则为非绿色企业。
S106:服务器根据获取的与待评估的企业的类别对应的评估模式,对待评估的企业进行评估处理。
示例性地,服务器可以将企业的类别作为风险评估的一个指标,对待评估的企业进行评估处理。
综上所述,本申请实施例提供的一种企业的评估处理方法,服务器将文本长度大于预设的长度阈值的第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度。这样一来,可以使得第一文本中的所有内容与第二文本进行语义匹配。这样一来,使得对得到的各语义匹配度加权求和,得到第一文本与第二文本的第一相似度的可靠性高。进而,服务器根据第一相似度对企业进行分类,得到企业的类别的精确度高,得到的评估处理的结果的可靠性也高,并且无需人工操作,提高了对企业的评估处理的效率。
请参阅图2,本申请实施例还提供了一种企业的评估处理方法,应用于服务器。本申请另一实施例提供的方法包括:
S201:服务器获取评估请求,评估请求中包括待评估的企业。
S202:服务器根据评估请求,获取与待评估的企业的第一文本,其中,第一文本用于指示企业的经营范围,第一文本的文本长度大于预设的长度阈值。
S203:服务器获取企业的第三文本,其中,第三文本用于描述企业的专利信息。
其中,专利信息可以包括专利名称、专利的说明书摘要以及专利全文。其中,S202与S203之间没有先后顺序。
S204:服务器将第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度,其中,第二文本为包含有描述绿色企业的关键词的文本。
S205:服务器对得到的各语义匹配度加权求和,获取第一文本与第二文本的第一相似度。
S206:服务器将第一文本与第二文本的进行关键词匹配,得到第一文本与第二文本的第二相似度。
示例性地,服务器可以根据文本频率与逆文本频率指数TFIDF(term frequency–inverse document frequency)、word2vec、或者BM25将第一文本与第二文本的进行关键词匹配,以计算第一文本与第二文本的第二相似度。
S207:服务器对第一相似度和第二相似度进行加权求和,确定第一文本与第二文本的第三相似度。
示例性地,服务器根据第一相似度
Figure 76195DEST_PATH_IMAGE006
和第二相似度Sdoc,采用公式:
Figure 710438DEST_PATH_IMAGE007
以确定第一文本与第二文本的第三相似度Scored;其中,a为第一权重,且a为取值范围为[0,1],
Figure 978346DEST_PATH_IMAGE003
为第二权重,
Figure 14435DEST_PATH_IMAGE003
的取值范围为[0,1],
Figure 781534DEST_PATH_IMAGE004
为语义匹配度,n为子文本的数量;i为正整数。
S208:服务器从第三文本中提取出第一实体向量集合。
S209:服务器对第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合。
示例性地,S209的实现包括但不限于以下两种方式:
第一种:服务器从第三文本的专利名称进行向量化,并提取第一实体向量集合(如实体列表),服务器基于KG Expanding算法进行KG查找,以查找出第一实体向量集合中各第一实体向量的语义相近的实体向量A。服务器根据TransR算法,查找出各实体向量A的语义相近的实体向量B。服务器计算第一实体向量集合、实体向量A的集合以及实体向量B的集合中,各语义相近的实体向量的平均值向量,得到第二实体向量集合。
第二种:服务器从第三文本进行向量化,并提取第一实体向量集合。服务器根据TransR算法,从预设的知识图谱中查找出第一实体向量集合中的各第一实体的语义相近的实体向量A。进而,服务器将第一实体向量集合、实体向量A的集合的并集,作为第二实体向量集合。
示例性地,服务器可以根据TransR算法将第一实体向量集合中的各实体向量,与预设的知识图谱中的各实体向量从实体空间映射到关系空间。如图3所示,服务器将实体向量h和知识图谱中的实体向量t,分别从实体空间映射到关系空间。其中,实体向量h在关系空间中被映射为实体向量hr,实体向量t在关系空间中被映射为实体向量tr。这时,服务器计算实体向量hr与tr的距离r。进而,服务器可以根据算式
Figure 699812DEST_PATH_IMAGE008
,计算实体向量h和实体向量t的语义匹配度。其中,
Figure 476138DEST_PATH_IMAGE009
为语义匹配度,
Figure 897892DEST_PATH_IMAGE010
为映射函数。当
Figure 101471DEST_PATH_IMAGE009
大于设定的阈值时,可以认为语义匹配度高。
S210:服务器将第一相似度和第二实体向量集合构成的待识别文本,并采用预训练的分类模型对待识别文本进行分类,并根据待识别文本的分类结果,确定待评估的企业的类别。
由于第二实体向量集合是对第一实体向量集合中的各第一实体进行泛化得到的,且第一实体向量集合是从用于描述企业的专利信息的第三文本中提取的。如此,对第一相似度和第二实体向量集合构成的待识别文本进行分类,得到企业的类别的可靠性更高。另外,分类模型是采用获取的待训练的输入数据,以及输出数据,对初始的待训练网络进行训练得到的。其中,输入数据为多个历史待识别文本,输出数据为多个历史待识别文本的类别。待训练网络可以是逻辑回归模型、支持向量机、决策树模型、回归预测模型中的任一个。
综上所述,本申请实施例提供的一种企业的评估处理方法,服务器将文本长度大于预设的长度阈值的第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度。这样一来,可以使得第一文本中的所有内容与第二文本进行语义匹配。这样一来,使得对得到的各语义匹配度加权求和,得到第一文本与第二文本的第一相似度的可靠性高。
再者,服务器从第三文本中提取出第一实体向量集合。服务器再对第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合。这样一来,第二实体向量集合的内容更丰富。如此,使得第一相似度和第二实体向量集合构成的待识别文本的可靠性高。
进而,服务器根据待识别文本对企业进行分类,得到企业的类别的精确度高,得到的评估处理的结果的可靠性也高,并且无需人工操作,提高了对企业的评估处理的效率。
在另一些实施方式中,服务器还可以根据第三相似度对企业进行分类,得到企业的类别。如,服务器将第三相似度大于设定阈值的企业,确定为绿色企业,反之,则为非绿色企业。可以理解地,由于第三相似度是根据对第一相似度和第二相似度进行加权求和得到的,而第二相似度又是将第一文本与第二文本的进行关键词匹配得到的。如此,服务器根据第三相似度对企业进行分类,得到企业的类别的可靠性更高。
请参阅图4,本申请还提供了一种企业的评估处理装置300,应用于服务器,需要说明的是,本申请实施例所提供的企业的评估处理装置300,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本申请实施例部分未提及之处,可参考上述的实施例中相应内容。本申请提供的企业的评估处理装置300包括:
请求获取单元301,用于获取评估请求,评估请求中包括待评估的企业。
文本获取单元302,用于根据评估请求,获取与待评估的企业的第一文本,其中,第一文本用于指示企业的经营范围,第一文本的文本长度大于预设的长度阈值。
语义匹配单元303,用于将第一文本划分为多个子文本,并确定各子文本与预设的第二文本的语义匹配度,其中,第二文本为包含有描述绿色企业的关键词的文本,第二文本的文本长度大于预设的长度阈值。
相似度计算单元304,用于对得到的各语义匹配度加权求和,获取第一文本与第二文本的第一相似度。
数据分类单元305,用于根据第一相似度,确定待评估的企业的类别,其中,企业的类别为绿色企业或非绿色企业。
评估处理单元306,用于根据获取的与待评估的企业的类别对应的评估模式,对待评估的企业进行评估处理。
在一种可能的实施方式中,相似度计算单元304,还用于将第一文本与第二文本的进行关键词匹配,得到第一文本与第二文本的第二相似度,对第一相似度和第二相似度进行加权求和,确定第一文本与第二文本的第三相似度;数据分类单元305,还用于根据第三相似度,确定待评估的企业的类别。
在一种可选地实施方式中,相似度计算单元304,具体用于第一相似度
Figure 241466DEST_PATH_IMAGE011
和第二相似度Sdoc,采用公式:
Figure 585597DEST_PATH_IMAGE012
以确定第一文本与第二文本的第三相似度Scored;其中,a为第一权重,且a为取值范围为[0,1],
Figure 127437DEST_PATH_IMAGE003
为第二权重,
Figure 501917DEST_PATH_IMAGE003
的取值范围为[0,1],
Figure 129208DEST_PATH_IMAGE004
为语义匹配度,n为所述子文本的数量;i为正整数。
在一种可选地实施方式中,文本获取单元302,还用于获取企业的第三文本,其中,第三文本用于描述企业的专利信息;本申请实施例提供的装置还可以包括:数据泛化单元,用于从第三文本中提取出第一实体向量集合;对第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合。数据分类单元305,具体用于第一相似度和第二实体向量集合构成的待识别文本,并采用预训练的分类模型对待识别文本进行分类,并根据待识别文本的分类结果,确定待评估的企业的类别。
其中,分类模型是采用获取的待训练的输入数据,以及输出数据,对初始的待训练网络进行训练得到的;其中,输入数据为多个历史待识别文本,输出数据为多个历史待识别文本的类别,待训练网络为逻辑回归模型、支持向量机、决策树模型、回归预测模型中的任一个。
具体地,数据泛化单元的功能实现方式可以包括但不限于以下两种:
第一种:第三文本包括专利名称,数据泛化单元,具体用于对第三文本中的专利名称进行向量化,并提取第一实体向量集合;查找出第一实体向量集合中的各第一实体向量的语义相近的实体向量A;查找出各实体向量A的语义相近的实体向量B;计算第一实体向量集合、实体向量A的集合以及实体向量B的集合中,各语义相近的实体向量的平均值向量,得到第二实体向量集合。
第二种:数据泛化单元,具体用于将第三文本进行向量化,并提取第一实体向量集合;根据TransR算法,从预设的知识图谱中查找出第一实体向量集合中的各第一实体的语义相近的实体向量A;将第一实体向量集合、实体向量A的集合的并集,作为第二实体向量集合。
图5是根据一示例性实施例示出的一种电子设备的框图。电子设备可以是服务器,电子设备可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,输入/输出(I/ O)接口412,以及通信组件416。
处理组件402通常控制装置400的整体操作。处理组件402可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM)。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
I/ O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是USB接口、键盘接口等。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络。在一个示例性实施例中,通信组件416还包括近场通信(NFC)模块,以促进短程通信。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。该非临时性计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述的图1或图2的方法。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时上述的图1或图2的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
另外,本申请的技术方案中,所涉及的信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

Claims (9)

1.一种企业的评估处理方法,其特征在于,应用于服务器,所述方法包括:
所述服务器获取评估请求,所述评估请求中包括待评估的企业;
根据所述评估请求,获取与所述待评估的企业的第一文本,其中,所述第一文本用于指示所述企业的经营范围,所述第一文本的文本长度大于预设的长度阈值;
所述服务器将所述第一文本划分为多个子文本,并确定各所述子文本与预设的第二文本的语义匹配度,其中,所述子文本的文本长度小于所述长度阈值,所述第二文本为包含有描述绿色企业的关键词的文本;
所述服务器对各所述语义匹配度加权求和,获取所述第一文本与所述第二文本的第一相似度;
所述服务器根据所述第一相似度,确定所述待评估的企业的类别,其中,所述企业的类别为绿色企业或非绿色企业;
所述服务器根据获取的与所述待评估的企业的类别对应的评估模式,对所述待评估的企业进行评估处理;
在所述服务器根据所述第一相似度对所述企业进行分类,得到所述企业的类别之前,所述方法还包括:
所述服务器获取企业的第三文本,其中,所述第三文本用于描述所述企业的专利信息;
所述服务器从所述第三文本中提取出第一实体向量集合;
所述服务器对所述第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合;
所述服务器根据所述第一相似度,确定所述待评估的企业的类别,包括:
所述服务器将所述第一相似度和所述第二实体向量集合构成的待识别文本,并采用预训练的分类模型对所述待识别文本进行分类,并根据所述待识别文本的分类结果,确定所述待评估的企业的类别。
2.根据权利要求1所述的方法,其特征在于,在所述服务器根据所述第一相似度,确定所述待评估的企业的类别之前,所述方法还包括:
所述服务器将所述第一文本与所述第二文本进行关键词匹配,得到所述第一文本与所述第二文本的第二相似度;
则所述服务器根据所述第一相似度,确定所述待评估的企业的类别,包括:
所述服务器对所述第一相似度和所述第二相似度进行加权求和,以确定所述第一文本与所述第二文本的第三相似度;
所述服务器根据所述第三相似度,确定所述待评估的企业的类别。
3.根据权利要求2所述的方法,其特征在于,所述服务器对所述第一相似度和所述第二相似度进行加权求和,以确定所述第一文本与所述第二文本的第三相似度,包括:
所述服务器根据所述第一相似度
Figure 636715DEST_PATH_IMAGE001
和所述第二相似度Sdoc,采用公式:
Figure 919929DEST_PATH_IMAGE002
以确定所述第一文本与所述第二文本的第三相似度Scored
其中,a为第一权重,且a为取值范围为[0,1],
Figure 211233DEST_PATH_IMAGE003
为第二权重,
Figure 947108DEST_PATH_IMAGE003
的取值范围为[0,1],
Figure 614850DEST_PATH_IMAGE004
为语义匹配度,n为所述子文本的数量;i为正整数。
4.根据权利要求1所述的方法,其特征在于,所述分类模型是采用获取的待训练的输入数据,以及输出数据,对初始的待训练网络进行训练得到的;
其中,所述输入数据为多个历史待识别文本,所述输出数据为多个历史待识别文本的类别。
5.根据权利要求1所述的方法,其特征在于,所述第三文本包括专利名称,所述服务器对所述第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合,包括:
所述服务器对所述第三文本中的专利名称进行向量化,并提取第一实体向量集合;
所述服务器查找出所述第一实体向量集合中的各第一实体向量的语义相近的实体向量A;
所述服务器查找出各所述实体向量A的语义相近的实体向量B;
所述服务器计算所述第一实体向量集合、所述实体向量A的集合以及所述实体向量B的集合中,各语义相近的实体向量的平均值向量,得到所述第二实体向量集合。
6.根据权利要求1所述的方法,其特征在于,所述服务器对所述第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合,包括:
所述服务器将所述第三文本进行向量化,并提取第一实体向量集合;
所述服务器根据TransR算法,从预设的知识图谱中查找出所述第一实体向量集合中的各第一实体的语义相近的实体向量A;
所述服务器将所述第一实体向量集合、所述实体向量A的集合的并集,作为所述第二实体向量集合。
7.一种企业的评估处理装置,其特征在于,应用于服务器,所述装置包括:
请求获取单元,用于获取评估请求,所述评估请求中包括待评估的企业;
文本获取单元,用于根据所述评估请求,获取与所述待评估的企业的第一文本,其中,所述第一文本用于指示所述企业的经营范围,所述第一文本的文本长度大于预设的长度阈值;
语义匹配单元,用于将所述第一文本划分为多个子文本,并确定各所述子文本与预设的第二文本的语义匹配度,其中,所述子文本的文本长度小于所述长度阈值,所述第二文本为包含有描述绿色企业的关键词的文本;
相似度计算单元,用于对各所述语义匹配度加权求和,获取所述第一文本与所述第二文本的第一相似度;
企业分类单元,用于根据所述第一相似度,确定所述待评估的企业的类别,其中,所述企业的类别为绿色企业或非绿色企业;
企业评估单元,用于根据获取的与所述待评估的企业的类别对应的评估模式,对所述待评估的企业进行评估处理;
所述文本获取单元,还用于获取企业的第三文本,其中,第三文本用于描述所述企业的专利信息;
所述装置还包括:数据泛化单元,用于从第三文本中提取出第一实体向量集合;对第一实体向量集合中的各第一实体进行同义词泛化,得到第二实体向量集合;
所述企业分类单元,具体用于将所述第一相似度和所述第二实体向量集合构成的待识别文本,并采用预训练的分类模型对所述待识别文本进行分类,并根据所述待识别文本的分类结果,确定所述待评估的企业的类别。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得计算机执行如权利要求1至6任一项所述的方法。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述电子设备执行如权利要求1至6任一项所述的方法。
CN202211161242.XA 2022-09-23 2022-09-23 企业的评估处理方法、装置及电子设备 Active CN115239214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211161242.XA CN115239214B (zh) 2022-09-23 2022-09-23 企业的评估处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211161242.XA CN115239214B (zh) 2022-09-23 2022-09-23 企业的评估处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN115239214A CN115239214A (zh) 2022-10-25
CN115239214B true CN115239214B (zh) 2022-12-27

Family

ID=83667030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211161242.XA Active CN115239214B (zh) 2022-09-23 2022-09-23 企业的评估处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115239214B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362589B (zh) * 2023-02-23 2023-08-25 中国标准化研究院 一种质量工作考核评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质
CN112215288A (zh) * 2020-10-13 2021-01-12 中国光大银行股份有限公司 目标企业的类别确定方法及装置、存储介质、电子装置
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN114625834A (zh) * 2022-03-04 2022-06-14 北京百度网讯科技有限公司 企业的行业信息确定方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087179B2 (en) * 2018-12-19 2021-08-10 Netskope, Inc. Multi-label classification of text documents
CN111475603B (zh) * 2019-01-23 2023-07-04 百度在线网络技术(北京)有限公司 企业标识识别方法、装置、计算机设备及存储介质
CN111709247B (zh) * 2020-05-20 2023-04-07 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质
CN112215288A (zh) * 2020-10-13 2021-01-12 中国光大银行股份有限公司 目标企业的类别确定方法及装置、存储介质、电子装置
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN114625834A (zh) * 2022-03-04 2022-06-14 北京百度网讯科技有限公司 企业的行业信息确定方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于向量空间模型的文本分类方法;李雪蕾等;《计算机工程》;20030905(第17期);全文 *
基于迁移学习的细粒度实体分类方法的研究;冯建周等;《自动化学报》;20200831(第08期);全文 *

Also Published As

Publication number Publication date
CN115239214A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
US9626440B2 (en) Tenantization of search result ranking
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN107767273B (zh) 基于社交数据的资产配置方法、电子装置及介质
US20220391426A1 (en) Multi-system-based intelligent question answering method and apparatus, and device
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN110888983A (zh) 一种正负面情感分析方法、终端设备及存储介质
CN111339784B (zh) 一种新话题的自动挖掘方法和系统
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN116109373A (zh) 金融产品的推荐方法、装置、电子设备和介质
CN112084448A (zh) 相似信息处理方法以及装置
CN112052309A (zh) 一种文本数据的检索方法、相关设备和可读存储介质
CN111858830A (zh) 基于自然语言处理的卫生监督执法数据检索系统及其方法
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN110390011A (zh) 数据分类的方法和装置
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN111191011A (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN113742450B (zh) 用户数据等级落标的方法、装置、电子设备和存储介质
CN114708073A (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114492446A (zh) 法律文书处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant