CN117633309A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117633309A
CN117633309A CN202311678574.XA CN202311678574A CN117633309A CN 117633309 A CN117633309 A CN 117633309A CN 202311678574 A CN202311678574 A CN 202311678574A CN 117633309 A CN117633309 A CN 117633309A
Authority
CN
China
Prior art keywords
scheme
evaluated
evaluation result
similar
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311678574.XA
Other languages
English (en)
Inventor
姚雨含
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202311678574.XA priority Critical patent/CN117633309A/zh
Publication of CN117633309A publication Critical patent/CN117633309A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质,属于大数据技术领域,涉及金融科技领域或其他相关领域。方法包括:从方案库中存储的各历史方案中,确定待评估方案的相似方案;确定所述待评估方案与所述相似方案的相似度;在所述相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定所述待评估方案与所述相似方案的关联类型;根据所述关联类型,确定所述待评估方案的创新性评估结果。采用本方法能够提高创新方案的创新性评估的评估效率和精准度。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
创新作为各行各业的驱动力,通过创新的推出新的产品、服务和业务模式等,可以使得企业能够适应日益激烈的市场竞争和快速变化的客户需求。
以银行行业为例,银行员工作为银行创新的主要力量之一,他们提出的创新方案对于银行产品创新的发展至关重要。然而,在银行员工提出创新方案的过程中,可能会遇到所提出的创新方案缺乏创新性的问题。
相关技术中,采用员工提出创新方案后,由决策人员来评估其创新性,一来创新性的评估不够客观,评估精准度较差,二来人为评估的方式效率低下,占用人力成本较多。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高创新方案创新性的评估精准度及评估效率的数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种数据处理方法,所述方法包括:
从方案库中存储的各历史方案中,确定待评估方案的相似方案;
确定所述待评估方案与所述相似方案的相似度;
在所述相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定所述待评估方案与所述相似方案的关联类型;
根据所述关联类型,确定所述待评估方案的创新性评估结果。
在其中一个实施例中,所述方法还包括:
在所述相似度小于或者等于所述第一相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果,所述第一创新性评估结果用于表征所述待评估方案具备创新性。
在其中一个实施例中,所述方法还包括:
在所述相似度大于或者等于所述第二相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果,所述第二创新性评估结果用于表征所述待评估方案不具备创新性。
在其中一个实施例中,所述确定所述待评估方案与所述相似方案的关联类型,包括:
将所述待评估方案与所述相似方案输入关联类型评估模型中进行关联类型分析处理,得到所述待评估方案与所述相似方案的关联类型,
其中,所述关联类型包括延伸补充类型、并列替换类型、相同构思类型。
在其中一个实施例中,所述根据所述关联类型,确定所述待评估方案的创新性评估结果,包括:
在所述关联类型为所述延伸补充类型或者所述并列替换类型的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果;
在所述关联类型为所述相同构思类型的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果。
在其中一个实施例中,所述方法还包括:
针对所述方案库中的各所述历史方案,基于各评估维度构建k-d树;
所述从方案库中存储的各历史方案中,确定待评估方案的相似方案,包括:
采用最近邻算法,从所述k-d树中查找待评估方案的相似方案。
在其中一个实施例中,所述方法还包括:
根据所述待评估方案、所述相似方案及所述创新性评估结果,生成评估报告。
在其中一个实施例中,所述根据所述待评估方案、所述相似方案及所述创新性评估结果,生成评估报告,包括:
在所述创新性评估结果表征所述待评估方案具备创新性的情况下,若所述待评估方案与所述相似方案的所述相似度大于所述第一相似度阈值,根据所述待评估方案、所述相似方案、所述相似度及所述相似方案的执行数据,确定所述待评估方案的可行度值;
根据所述可行度值,确定所述待评估方案的可行性评估结果;
根据所述可行性评估结果及所述创新性评估结果,生成评估报告。
第二方面,本申请还提供了一种数据处理装置,所述装置包括:
第一确定模块,用于从方案库中存储的各历史方案中,确定待评估方案的相似方案;
第二确定模块,用于确定所述待评估方案与所述相似方案的相似度;
第三确定模块,用于在所述相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定所述待评估方案与所述相似方案的关联类型;
评估模块,用于根据所述关联类型,确定所述待评估方案的创新性评估结果。
在其中一个实施例中,所述装置还包括:
第四确定模块,用于在所述相似度小于或者等于所述第一相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果,所述第一创新性评估结果用于表征所述待评估方案具备创新性。
在其中一个实施例中,所述装置还包括:
第五确定模块,用于在所述相似度大于或者等于所述第二相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果,所述第二创新性评估结果用于表征所述待评估方案不具备创新性。
在其中一个实施例中,所述第三确定模块还用于:
将所述待评估方案与所述相似方案输入关联类型评估模型中进行关联类型分析处理,得到所述待评估方案与所述相似方案的关联类型,
其中,所述关联类型包括延伸补充类型、并列替换类型、相同构思类型。
在其中一个实施例中,所述评估模块还用于:
在所述关联类型为所述延伸补充类型或者所述并列替换类型的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果;
在所述关联类型为所述相同构思类型的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果。
在其中一个实施例中,所述装置还包括:
构建模块,用于针对所述方案库中的各所述历史方案,基于各评估维度构建k-d树;
所述第一确定模块还用于:
采用最近邻算法,从所述k-d树中查找待评估方案的相似方案。
在其中一个实施例中,所述装置还包括:
生成模块,用于根据所述待评估方案、所述相似方案及所述创新性评估结果,生成评估报告。
在其中一个实施例中,所述生成模块还用于:
在所述创新性评估结果表征所述待评估方案具备创新性的情况下,若所述待评估方案与所述相似方案的所述相似度大于所述第一相似度阈值,根据所述待评估方案、所述相似方案、所述相似度及所述相似方案的执行数据,确定所述待评估方案的可行度值;
根据所述可行度值,确定所述待评估方案的可行性评估结果;
根据所述可行性评估结果及所述创新性评估结果,生成评估报告。
在其中一个实施例中,所述装置还包括:
第六确定模块,用于根据评估报告,确定目标任务节点,并触发目标任务节点。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以上任一项所述的数据处理方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一项所述的数据处理方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以上任一项所述的数据处理方法。
上述数据处理方法、装置、计算机设备、存储介质和计算机程序产品,可以通过从方案库中存储的各历史方案中,确定待评估方案的相似方案,并确定待评估方案与相似方案的相似度,在相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定待评估方案与相似方案的关联类型,根据关联类型,确定待评估方案的创新性评估结果。采用本公开实施例提供的数据处理方法、装置、计算机设备、存储介质和计算机程序产品,可以基于历史方案实现待评估方案创新性的自动化评估,评价更为客观,能够有效提高评估效率和评估精度。在基于历史方案实现待评估方案创新性的自动化评估的过程中,在待评估方案与相似方案满足相似条件的情况下,进一步基于二者的关联类型进行创新性评估,避免仅根据相似度评估导致评估结果有误的问题,例如:待评估方案与相似方案确实较为接近,但实际上待评估方案是对相似方案做了微小但效果突出的调整后得到的方案,仅根据相似度评估将导致待评估方案得到不具备创新性的评估结果,通过体现二者关联性的关联类型即可避免这一问题,从而有效提高方案创新性的评估精度。
附图说明
图1为一个实施例中数据处理方法的流程示意图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中数据处理方法的示意图;
图4为一个实施例中数据处理方法的示意图;
图5为一个实施例中数据处理方法的示意图;
图6为一个实施例中数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种数据处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,从方案库中存储的各历史方案中,确定待评估方案的相似方案。
本公开实施例中,方案库为用于存储历史方案的数据库,历史方案可以为用户在历史时刻提出的创新方案。待评估方案可以为当前用户在当前时刻提交的创新方案,也即当前用户可以将创新方案上传至平台,进行创新性评估;或者,待评估方案可以为各用户提交的创新方案,审核人员可以在收集各用户提交的创新方案后,在平台上统一对各创新方案进行创新性评估。其中,创新方案可以为文本、图文、音频、视频等,以下示例中以创新方案为文本为例,对本公开实施例加以说明。
举例来说,可以从方案库中存储的各历史方案中,确定待评估方案的相似方案,该相似方案为各历史方案中,与该待评估方案的相似度满足相似度条件的一个或者多个方案,例如:相似度条件可以包括相似方案与该待评估方案的相似度在各历史方案中最高。本公开实施例中,不对确定待评估方案的相似方案的方式做具体限定。
步骤104,确定待评估方案与所述相似方案的相似度。
本公开实施例中,在确定相似方案后,可以确定该相似方案与待评估方案的相似度。示例性的,可以将待评估方案和相似方案都转换为向量形式,例如:使用词嵌入模型将文本转换为数值向量。
举例来说,可以使用余弦相似度计算相似方案与待评估方案的相似度,参照下述公式(一)所示。余弦相似度衡量两个向量之间的夹角余弦值,值越接近1表示两个向量越相似,值越接近0表示两个向量越不相似。
公式(一)
其中,A用于表征待评估方案对应的向量,B用于表征相似方案对应的向量,表示向量A和向量B的内积,/>表示向量A和向量B的范数(即向量的长度),表征相似方案与待评估方案的相似度。
步骤106,在相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定待评估方案与相似方案的关联类型。
本公开实施例中,可以预先设定第一相似度阈值和第二相似度阈值,其中第一相似度阈值小于第二相似度阈值,具体第一相似度阈值和第二相似度阈值的具体取值可以由本领域技术人员根据精度需求进行设定,例如:在精度要求较高的情况下,可以设定较小的第一相似度阈值和第二相似度阈值。
在待评估方案与相似方案的相似度大于第一相似度阈值且小于第二相似度阈值的情况下,可以确定待评估方案与相似方案较为接近,二者可能存在一定关联性,需要进一步确定待评估方案与相似方案的关联类型。其中,关联类型可以包括延伸补充类型、并列替换类型、相同构思类型,延伸补充类型可以表征待评估方案是相似方案进行进一步改进延伸得到的方案,并列替换类型用于表征待评估方案是通过对相似方案做相应替换改进处理后得到的并列方案,相同构思类型用于表征待评估方案与相似方案属于相同构思,不存在改进的方案。
步骤108,根据关联类型,确定待评估方案的创新性评估结果。
举例来说,在得到待评估方案与相似方案的关联类型后,可以根据关联类型,确定待评估方案相对于相似方案是否存在改进,进而确定待评估方案的创新性评估结果。
在一示例性的实施例中,步骤108中,根据关联类型,确定待评估方案的创新性评估结果,可以通过以下步骤实现:
在关联类型为延伸补充类型或者并列替换类型的情况下,确定待评估方案的创新性评估结果为第一创新性评估结果;
在关联类型为所述相同构思类型的情况下,确定待评估方案的创新性评估结果为第二创新性评估结果。
其中,第一创新性评估结果用于表征待评估方案具备创新性,第二创新性评估结果用于表征待评估方案不具备创新性。
本公开实施例中,在关联类型为延伸补充类型或者并列替换类型的情况下,可以确定待评估方案虽然与相似方案较为接近,但其属于对相似方案的进一步改进(进行延伸改进或者替换改进),是存在一定创新性的方案,故而确定其具有创新性,得到第一创新性评估结果。在关联类型为相同构思类型的情况下,可以确定待评估方案与相似方案较为接近,且其不属于对相似方案进一步改进后得到的方案,二者为相似雷同方案,故而确定其不具有创新性,得到第二创新性评估结果。
本公开实施例提供的数据处理方法,可以通过从方案库中存储的各历史方案中,确定待评估方案的相似方案,并确定待评估方案与相似方案的相似度,在相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定待评估方案与相似方案的关联类型,根据关联类型,确定待评估方案的创新性评估结果。采用本公开实施例提供的数据处理方法,可以基于历史方案实现待评估方案创新性的自动化评估,评价更为客观,能够有效提高评估效率和评估精度。在基于历史方案实现待评估方案创新性的自动化评估的过程中,在待评估方案与相似方案满足相似条件的情况下,进一步基于二者的关联类型进行创新性评估,避免仅根据相似度评估导致评估结果有误的问题,例如:待评估方案与相似方案确实较为接近,但实际上待评估方案是对相似方案做了微小但效果突出的调整后得到的方案,仅根据相似度评估将导致待评估方案得到不具备创新性的评估结果,通过体现二者关联性的关联类型即可避免这一问题,从而有效提高方案创新性的评估精度。
在一示例性的实施例中,步骤106中,确定待评估方案与相似方案的关联类型,可以通过以下步骤实现:
将待评估方案与相似方案输入关联类型评估模型中进行关联类型分析处理,得到待评估方案与相似方案的关联类型,其中,关联类型包括延伸补充类型、并列替换类型、相同构思类型。
本公开实施例中,可以预先训练关联类型评估模型。示例性的,可以根据历史创新方案构建训练样本组,训练样本组中可以包括第一样本方案和第二样本方案,并对其进行关联类型的标注,例如:基于产品迭代获取迭代过程中的样本方案,将迭代前的样本方案作为第一样本方案,将迭代后的样本方案作为第二样本方案,并基于迭代类型确定训练组的标注信息,当迭代类型为延伸(例如:在一产品的基础上进一步开发新功能、新服务等)时,可以确定标注信息为延伸补充类型,在迭代类型为替换更新(例如:对前一产品的功能做替换或者改进等)时,可以确定标注信息为并列替换类型。或者,可以获取相同构思的历史创新方案,示例性的,可以对任一历史创新方案进行语义替换处理,得到近似方案,将该历史创新方案作为第一样本方案,将该近似方案作为第二样本方案,构建得到训练样本组,并为该训练样本组标注相同构思类型。
基于训练样本组及训练样本组的标注信息可以预先训练关联类型评估模型,该关联类型评估模型为用于确定创新方案之间的关联关系的模型。本公开实施例中不对关联类型评估模型的训练方式过多阐述,任一分类模型的训练方式和过程均适用于本公开实施例中。
可以将待评估方案与相似方案输入关联类型评估模型中进行关联类型分析处理,基于关联类型评估模型的输出即可以得到待评估方案与相似方案的关联类型,进而根据关联类型确定待评估方案的创新性评估结果。
采用本公开实施例提供的数据处理方法,在待评估方案与相似方案满足相似条件的情况下,可以确定二者的关联类型,进而基于二者的关联类型对待评估方案进行创新性评估,避免仅根据相似度评估导致评估结果有误的问题,从而有效提高方案创新性的评估精度。
在一示例性的实施例中,上述方法还可以包括:
在相似度小于或者等于第一相似度阈值的情况下,确定待评估方案的创新性评估结果为第一创新性评估结果,第一创新性评估结果用于表征待评估方案具备创新性。
在一示例性的实施例中,上述方法还可以包括:
在相似度大于或者等于第二相似度阈值的情况下,确定待评估方案的创新性评估结果为第二创新性评估结果,第二创新性评估结果用于表征待评估方案不具备创新性。
本公开实施例中,在待评估方案与相似方案的相似度小于或者等于第一相似度阈值的情况下,可以认为待评估方案与该相似方案的相似度较低,可以确定不存在与待评估方案相似的方案,因而可以直接确定待评估方案具备创新性,可以得到用于表征具备创新性的第一创新性评估结果。或者,在待评估方案与相似方案的相似度大于或者等于第二相似度阈值的情况下,可以认为待评估方案与该相似方案的相似度较高,可以确定该相似方案与待评估方案足够相似,因而可以直接确定待评估方案不具备创新性,可以得到用于表征不具备创新性的第二创新性评估结果。
采用本公开实施例提供的数据处理方法,可以基于历史方案实现待评估方案创新性的自动化评估,并在待评估方案与相似方案的相似度小于或者等于第一相似度阈值及相似度大于或者等于第二相似度阈值的情况下,直接基于相似度确定其创新性评估结果,能够有效提高评估效率。
在一示例性的实施例中,上述方法还可以包括:
根据待评估方案、相似方案及创新性评估结果,生成评估报告。
本公开实施例中,在得到待评估方案的创新性评估结果后,可以基于待评估方案、相似方案及创新性评估结果,生成评估报告。示例性的,在创新性评估结果表征待评估方案不具有创新性的情况下,评估报告中可以包括待评估方案:方案a,待评估方案的创新性评估结果为:不具有创新性,原因为:存在相似的方案:相似方案b,相似度为:90%。
基于该评估报告,用户可以直观获知待评估方案的创新性评估结果,并在待评估方案不具有创新性的情况下,基于该评估报告获取相关原因,进而可以基于原因对方案进行精准改进等处理,也可以大大提高方案的改进效率,从而提高创新方案的提案效率。
在一示例性的实施例中,参照图2所示,上述根据待评估方案、相似方案及创新性评估结果,生成评估报告,可以通过以下步骤实现:
步骤202中,在创新性评估结果表征待评估方案具备创新性的情况下,若待评估方案与所述相似方案的相似度大于第一相似度阈值,根据待评估方案、相似方案、相似度及相似方案的执行数据,确定待评估方案的可行度值;
步骤204中,根据可行度值,确定待评估方案的可行性评估结果;
步骤206中,根据可行性评估结果及创新性评估结果,生成评估报告。
本公开实施例中,在创新性评估结果表征待评估方案具备创新性的情况下,若待评估方案与所述相似方案的相似度大于第一相似度阈值,则可以根据基于相似方案的执行数据,确定待评估方案的可行度值,其中执行数据包括相似方案执行相关的数据,示例性的,可以包括执行状态:已执行、未执行、执行中(执行进度)等、执行时间、执行反馈等数据,可行度值用于表征待评估方案的可行性,例如:可行度值越高可以表征待评估方案的可行性越高。
举例来说,可以预先训练用于预测方案可行性值的可行性评估模型,将待评估方案、相似方案、相似度及相似方案的执行数据输入该可行性评估模型中,即可以得到待评估方案的可行度值。
在得到可行度值后,可以根据该可行度值确定待评估方案的可行性评估结果,例如:在可行度值高于可行度阈值的情况下,可以确定待评估方案的可行性评估结果为第一可行性评估结果,该第一可行性评估结果用于表征待评估方案具有可行性,或者在可行度值低于或者等于可行度阈值的情况下,可以确定待评估方案的可行性评估结果为第二可行性评估结果,该第二可行性评估结果用于表征待评估方案不具有可行性。
进一步的,可以基于待评估方案的可行性评估结果及创新性评估结果,生成评估报告。示例性的,评估报告中可以包括待评估方案:方案a,待评估方案的创新性评估结果为:具有创新性,存在相似的方案:相似方案b,相似度为:70%,待评估方案的可行性评估结果为:不具有可行性(或者具有可行性),原因:基于相似方案b的执行数据(执行状态:已执行、执行时间(2022年3月5日至2022年4月5日)、执行反馈(效果欠佳)数据)计算得到可行度值为x1,可行度值较低。
在一示例性的实施例中,在创新性评估结果表征待评估方案具备创新性的情况下,若待评估方案与所述相似方案的相似度小于第一相似度阈值,则可以根据待评估方案及创新性评估结果,生成评估报告。示例性的,评估报告中可以包括待评估方案:方案a,待评估方案的创新性评估结果为:具有创新性,可行性需要另行评估。
本公开实施例提供的数据处理方法,可以基于相似方案的执行数据确定待评估方案的可行性,用户基于评估报告可以获知评估结果及与评估结果关联的信息,进而可以及时获知不具有可行性的原因,从而及时去申诉或者针对性的进行改进,可以大大提高方案的改进效率,从而提高创新方案的提案效率。
在一示例性的实施例中,上述方法还可以包括:
根据评估报告,确定目标任务节点,并触发目标任务节点。
本公开实施例中,可以根据评估报告确定目标任务节点,并自动触发执行该目标任务节点。其中,目标任务节点为当前评估节点完成后的下一任务节点。
示例性的,在评估报告表征方案不具有创新性或者不具有可行性的情况下,确定目标任务节点为发起人节点,故可以将评估报告反馈至发起人,并触发发起人确认评估结果任务,发起人确认评估结果任务执行过程中,发起人可以对该评估结果进行确认,结束任务,或者也可以基于评估结果对待评估方案进行修改,重新启动评估任务。
或者,在评估报告表征方案具有创新性且具有可行性的情况下,确定目标任务节点为下一审核任务节点,故可以将评估报告反馈至下一审核任务节点处,并触发下一审核任务。在下一审核任务执行过程中,审核人员可以对该待评估方案进行更细粒度的评估。
或者,在评估报告表征方案具有创新性,但可行性未知的情况下,确定目标任务节点为可行性人工审核节点,故可以将评估报告反馈至人工审核节点处,并触发人工审核任务。在人工审核任务执行过程中,审核人员可以对该待评估方案的可行性进行评估。
在一示例性的实施例中,上述方法还可以包括:
针对方案库中的各历史方案,基于各评估维度构建k-d树;
从方案库中存储的各历史方案中,确定待评估方案的相似方案,可以通过以下步骤实现:
采用最近邻算法,从k-d树中查找待评估方案的相似方案。
本公开实施例中,对于待评估方案和方案中的每个历史方案,首先需要进行文本清理,包括去除特殊字符、标点符号、数字等非关键信息,以及去除停用词(如"的"、"和"等常见词汇)。将清理后的各方案进行分词操作,将句子拆分为单个词汇或短语,对于分词后的词汇,可以采用词干提取或词形还原的方法将其转化为词干形式,以减少词汇形态的变化带来的干扰。将处理后的待评估方案和数据库中的所有历史方案中的词汇进行收集,构建一个词汇表,该词汇表中包含了所有方案中出现的词汇,用于后续的向量化表示。将待评估方案和历史方案都表示为向量形式,例如:使用词嵌入模型将文本转换为数值向量。
对于历史方案的向量集合,其中每个向量都有k个特征。对于每个特征i(i=1,2,...,k),计算向量集合在该特征上的方差Var(i)。方差计算公式参照下述公式(二)。
公式(二)
其中,为向量集合中第i个特征的取值,/>为向量集合中第i个特征的均值,n为向量集合的大小。
参照图3所示,将向量集合划分为从所有特征的方差中选择最大的方差对应的特征/>,对向量集合进行排序。选择排序后的向量集合的中位数作为根节点的切分值/>。使用/>作为根节点的切分维度,/>作为切分值,将向量集合划分为两个子集/>和/>。其中,特征值小于或等于/>的属于/>,特征值大于/>的属于/>,参照下述公式(三)和公式(四)。
公式(三)
公式(四)
其中,D表征向量集合,d表征向量,表征向量d在切分维度上的特征值。
对于子集和/>,分别重复前述步骤,直到子集中只剩下一个数据点或没有数据点为止,得到构建好的k-d树。
参照图4所示,将待评估方案的向量A作为查询点,设置一个最近邻点NN(nearestneighbor),设为根节点,并计算最近邻点与向量A的距离,其计算公式参照公式(五)所示。
公式(五)
其中,和/>分别表示向量A的第i个分量和最近邻点NN的第i个分量,n是向量的维度。
从根节点开始,递归地遍历k-d树,根据当前节点的切分维度和切分值,判断向量A应该位于当前节点的左子树或右子树,并根据判断结果,选择进入当前节点的左子树或右子树,更新最近邻点NN为当前距离向量A最近的点。
从当前节点回溯到父节点,并检查是否有更近的点存在。如果当前节点的划分超平面与向量A的超球体(以向量A为中心,以向量A距离最近邻点NN的距离为半径)相交,那么需要检查父节点的另一侧子树是否有更近的点。具体地:
计算当前节点的划分维度上,向量A到划分超平面的距离。假设当前节点的划分维度是u,划分值是v,向量A在该维度上的分量是A-u,则向量A到划分超平面的距离为:A-u-v。
判断向量A到划分超平面的距离是否小于等于当前最近距离。如果是,则划分超平面与向量A的超球体相交;如果不是,则没有相交。如果划分超平面与向量A的超球体相交,需要进一步判断是否有可能在另一个子树中找到更近的点。如果向量A在划分维度上小于划分值v,并且划分超平面是左子树的划分超平面,则左子树中可能存在更近的点,需要搜索左子树。如果向量A在划分维度上大于等于划分值v,并且划分超平面是右子树中可能存在更近的点,需要搜索右子树。
如果划分超平面与向量A的超球体不相交,可以直接跳过当前节点的子树,不进行搜索。检查当前节点与向量A的距离是否小于最近距离,如果是,则更新最近邻点NN。重复前述步骤,递归地在子树中搜索,直到达到叶子节点或者无法改进最近距离为止。当所有子树都被搜索完毕后,最终得到的最近邻点NN就是距离向量A最近的点。在叶子节点中,记录下最近邻点NN所表示的与待评估方案的向量A最相似的向量,该向量对应的历史方案即为待评估方案的相似方案。
本公开实施例提供的数据处理方法中,k-d树通过构建空间索引,可以快速定位到与待评估方案的向量A最相似的向量,减少了计算的复杂度。且k-d树算法精确度高,可以提供一个近似最相似的向量,这个向量往往在待评估方案的向量A附近,通过计算它们之间的相似度,可以得到一个相对较准确的结果,可以提高评估精度和效率。
为使本领域技术人员更好的理解本公开实施例,以下通过具体示例对本公开实施例加以说明。
参照图5所示,假设方案库中有n个历史方案,分别表示为向量B_1,B_2,...,B_n。假设待评估方案a是“利用人工智能技术提高客户服务质量”,其向量表示为A。比较待评估方案a与相似方案c的相似度,可以根据实际需求,设置一个余弦相似度的阈值1和阈值2分别为R1和R2,示例性的,R1=0.5,R2=0.75 。
若待评估方案a与相似方案c的相似度>=0.75,那么待评估方案a可以被认为是与已有的方案相似或重复,则判定待评估方案a “利用人工智能技术提高客户服务质量”不具备创新性。
若待评估方案a与相似方案c的相似度<0.5,则判定待评估方案a “利用人工智能技术提高客户服务质量”可以被认为具备创新性;如果0.5<待评估方案a与相似方案c的相似度<0.75,则启用第二轮评估,将待评估方案a与相似方案c分别输入预训练的关联类型评估模型,根据输出的关联类型,判断待评估方案a是否具备创新性。
采用本公开实施例提供的数据处理方法,通过将方案转化为向量形式,并计算余弦相似度,可以更准确地评估和辨别不同方案之间的相似度或创新性,能够更好地识别出具有潜在价值和独特性的创新方案,避免了主观判断和误差的影响。且传统的创新想法筛选需要大量的人力和时间,而该方法通过使用自然语言处理和向量化表示技术,可以实现快速的创新想法筛选。通过设定阈值,只需筛选出余弦相似度高于阈值的想法,从而将关注点集中在具有较高潜力的创新方案上,大大提高了筛选效率。通过自动化的方式对员工的创新方案进行评估和分析,减少了人力和时间成本。相比传统的面对面评估方式,该方法可以更快速、更准确地进行量化分析和判断,辅助更高效地进行决策。企业能够更好地关注并评估员工的创新方案,给予认可和反馈,激发员工的创新意识和积极性。
也即,本公开实施例提供的数据处理方法可以通过提高创新方案识别准确性和筛选效率,降低评估成本,并促进员工参与和创新意识。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种数据处理装置600,包括:第一确定模块602、第二确定模块604、第三确定模块606和评估模块608,其中:
第一确定模块602,用于从方案库中存储的各历史方案中,确定待评估方案的相似方案;
第二确定模块604,用于确定所述待评估方案与所述相似方案的相似度;
第三确定模块606,用于在所述相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定所述待评估方案与所述相似方案的关联类型;
评估模块608,用于根据所述关联类型,确定所述待评估方案的创新性评估结果。
上述数据处理装置,可以通过从方案库中存储的各历史方案中,确定待评估方案的相似方案,并确定待评估方案与相似方案的相似度,在相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定待评估方案与相似方案的关联类型,根据关联类型,确定待评估方案的创新性评估结果。采用本公开实施例提供的数据处理装置,可以基于历史方案实现待评估方案创新性的自动化评估,评价更为客观,能够有效提高评估效率和评估精度。在基于历史方案实现待评估方案创新性的自动化评估的过程中,在待评估方案与相似方案满足相似条件的情况下,进一步基于二者的关联类型进行创新性评估,避免仅根据相似度评估导致评估结果有误的问题,例如:待评估方案与相似方案确实较为接近,但实际上待评估方案是对相似方案做了微小但效果突出的调整后得到的方案,仅根据相似度评估将导致待评估方案得到不具备创新性的评估结果,通过体现二者关联性的关联类型即可避免这一问题,从而有效提高方案创新性的评估精度。
在其中一个实施例中,所述装置还包括:
第四确定模块,用于在所述相似度小于或者等于所述第一相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果,所述第一创新性评估结果用于表征所述待评估方案具备创新性。
在其中一个实施例中,所述装置还包括:
第五确定模块,用于在所述相似度大于或者等于所述第二相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果,所述第二创新性评估结果用于表征所述待评估方案不具备创新性。
在其中一个实施例中,所述第三确定模块606还用于:
将所述待评估方案与所述相似方案输入关联类型评估模型中进行关联类型分析处理,得到所述待评估方案与所述相似方案的关联类型,
其中,所述关联类型包括延伸补充类型、并列替换类型、相同构思类型。
在其中一个实施例中,所述评估模块608还用于:
在所述关联类型为所述延伸补充类型或者所述并列替换类型的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果;
在所述关联类型为所述相同构思类型的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果。
在其中一个实施例中,所述装置还包括:
构建模块,用于针对所述方案库中的各所述历史方案,基于各评估维度构建k-d树;
所述第一确定模块602还用于:
采用最近邻算法,从所述k-d树中查找待评估方案的相似方案。
在其中一个实施例中,所述装置还包括:
生成模块,用于根据所述待评估方案、所述相似方案及所述创新性评估结果,生成评估报告。
在其中一个实施例中,所述生成模块还用于:
在所述创新性评估结果表征所述待评估方案具备创新性的情况下,若所述待评估方案与所述相似方案的所述相似度大于所述第一相似度阈值,根据所述待评估方案、所述相似方案、所述相似度及所述相似方案的执行数据,确定所述待评估方案的可行度值;
根据所述可行度值,确定所述待评估方案的可行性评估结果;
根据所述可行性评估结果及所述创新性评估结果,生成评估报告。
在其中一个实施例中,所述装置还包括:
第六确定模块,用于根据评估报告,确定目标任务节点,并触发目标任务节点。
上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本申请提供的信用卡用户监管策略的确定方法和装置可用于金融领域,也可用于除金融领域之外的任意领域,比如大数据、云计算、区块链、人工智能、信息安全、物联网、5G技术领域,本申请对信用卡用户监管策略的确定方法和装置的应用领域不做限定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
从方案库中存储的各历史方案中,确定待评估方案的相似方案;
确定所述待评估方案与所述相似方案的相似度;
在所述相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定所述待评估方案与所述相似方案的关联类型;
根据所述关联类型,确定所述待评估方案的创新性评估结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述相似度小于或者等于所述第一相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果,所述第一创新性评估结果用于表征所述待评估方案具备创新性。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在所述相似度大于或者等于所述第二相似度阈值的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果,所述第二创新性评估结果用于表征所述待评估方案不具备创新性。
4.根据权利要求1所述的方法,其特征在于,所述确定所述待评估方案与所述相似方案的关联类型,包括:
将所述待评估方案与所述相似方案输入关联类型评估模型中进行关联类型分析处理,得到所述待评估方案与所述相似方案的关联类型,
其中,所述关联类型包括延伸补充类型、并列替换类型、相同构思类型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述关联类型,确定所述待评估方案的创新性评估结果,包括:
在所述关联类型为所述延伸补充类型或者所述并列替换类型的情况下,确定所述待评估方案的创新性评估结果为第一创新性评估结果;
在所述关联类型为所述相同构思类型的情况下,确定所述待评估方案的创新性评估结果为第二创新性评估结果。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述方案库中的各所述历史方案,基于各评估维度构建k-d树;
所述从方案库中存储的各历史方案中,确定待评估方案的相似方案,包括:
采用最近邻算法,从所述k-d树中查找待评估方案的相似方案。
7.根据权利要求1、4、5中任一项所述的方法,其特征在于,所述方法还包括:
根据所述待评估方案、所述相似方案及所述创新性评估结果,生成评估报告。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待评估方案、所述相似方案及所述创新性评估结果,生成评估报告,包括:
在所述创新性评估结果表征所述待评估方案具备创新性的情况下,若所述待评估方案与所述相似方案的所述相似度大于所述第一相似度阈值,根据所述待评估方案、所述相似方案、所述相似度及所述相似方案的执行数据,确定所述待评估方案的可行度值;
根据所述可行度值,确定所述待评估方案的可行性评估结果;
根据所述可行性评估结果及所述创新性评估结果,生成评估报告。
9.一种数据处理装置,其特征在于,所述装置包括:
第一确定模块,用于从方案库中存储的各历史方案中,确定待评估方案的相似方案;
第二确定模块,用于确定所述待评估方案与所述相似方案的相似度;
第三确定模块,用于在所述相似度大于第一相似度阈值且小于第二相似度阈值的情况下,确定所述待评估方案与所述相似方案的关联类型;
评估模块,用于根据所述关联类型,确定所述待评估方案的创新性评估结果。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202311678574.XA 2023-12-08 2023-12-08 数据处理方法、装置、计算机设备和存储介质 Pending CN117633309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311678574.XA CN117633309A (zh) 2023-12-08 2023-12-08 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311678574.XA CN117633309A (zh) 2023-12-08 2023-12-08 数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117633309A true CN117633309A (zh) 2024-03-01

Family

ID=90021540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311678574.XA Pending CN117633309A (zh) 2023-12-08 2023-12-08 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117633309A (zh)

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
US20230306035A1 (en) Automatic recommendation of analysis for dataset
CN111368096A (zh) 基于知识图谱的信息分析方法、装置、设备和存储介质
CN112016313A (zh) 口语化要素识别方法及装置、警情分析系统
CN109191276A (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114691525A (zh) 测试用例的选择方法及装置
CN112597292B (zh) 问题回复推荐方法、装置、计算机设备和存储介质
CN111930944B (zh) 文件标签分类方法及装置
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
US20230308360A1 (en) Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN117633309A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112632284A (zh) 用于未标注文本数据集的信息抽取方法及系统
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
CN116484000A (zh) 金融文本多标签分类方法及装置
CN116484857A (zh) 文本生成方法、装置、计算机设备和存储介质
CN117114005A (zh) 评论数据的处理方法、装置、计算机设备和存储介质
Toçi Evaluation of Machine Learning techniques for Master Data Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination