CN115393094A - 预测模型的训练方法、数据分析方法、装置以及介质 - Google Patents

预测模型的训练方法、数据分析方法、装置以及介质 Download PDF

Info

Publication number
CN115393094A
CN115393094A CN202211008854.5A CN202211008854A CN115393094A CN 115393094 A CN115393094 A CN 115393094A CN 202211008854 A CN202211008854 A CN 202211008854A CN 115393094 A CN115393094 A CN 115393094A
Authority
CN
China
Prior art keywords
task
enterprise
module
main task
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211008854.5A
Other languages
English (en)
Inventor
李程
赖培源
李奎
廖晓东
周海涛
叶世兵
李岱素
邱珊珊
吴梦圈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong South China Technology Transfer Center Co ltd
Original Assignee
Guangdong South China Technology Transfer Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong South China Technology Transfer Center Co ltd filed Critical Guangdong South China Technology Transfer Center Co ltd
Priority to CN202211008854.5A priority Critical patent/CN115393094A/zh
Publication of CN115393094A publication Critical patent/CN115393094A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种预测模型的训练方法、数据分析方法、装置以及存储介质,涉及计算机技术领域,其中的方法包括:基于关键词向量集生成训练样本,构建预测模型,使用主任务模块并基于关键词表征向量与主任务注意力mask,获取主任务预测结果;使用各个相关任务注意力mask模块对主任务预测结果进行mask处理,生成相关任务注意力mask;使用相关任务模块并基于关键词表征向量与相关任务注意力mask,获取相关任务预测结果;基于模型损失函数对预测模型进行调整处理。本公开可以在提高效率的同时降低训练量,可以有效地确定领域对应的关键词所对应的权重分配,能够对企业及其项目进行全面研判,有效提高了打分的可信度及可靠性。

Description

预测模型的训练方法、数据分析方法、装置以及介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种预测模型的训练方法、数据分析方法、装置以及存储介质。
背景技术
项目投资可以促进社会经济的发展,已经逐渐成为发展经济的重要手段,投资人以及有投资需求的企业需要方便快捷的渠道进行项目投资。目前,举办路演或创业比赛是一种向投资方展示企业的有效方法,但是,参与者的线下参与的时间成本、人力物力都较高。线上路演通过将项目及企业的经营信息、知识产权指标等相关评价数据上传到线上,投资人和评委可以通过线上对项目的质量进行把控和评判,大大减少了现场场地所导致的人力物力损耗。但是,在线上路演的过程中,由于市场环境复杂以及行业的行情不同,路演中对于企业的评价指标往往难以被准确量化,难以保证专家打分的准确性,使得项目投资的风险大大增加。因此,需要一种分析企业数据以及对企业进行打分的技术方案。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种预测模型的训练方法、数据分析方法、装置以及存储介质。
根据本公开实施例的第一方面,提供一种预测模型的训练方法,包括:基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本;其中,所述训练样本包括:关键词表征向量以及与所述关键词表征向量相对应的领域标签;构建预测模型;其中,所述预测模型包括一个主任务模块和至少一个相关任务模块;对于所述主任务模块设有对应的主任务注意力mask模块,对于各个相关任务模块设置对应的相关任务注意力mask模块;使用所述主任务注意力mask模块对所述领域标签进行mask处理,生成主任务注意力mask;使用所述主任务模块并基于所述关键词表征向量与所述主任务注意力mask,获取主任务预测结果;使用各个相关任务注意力mask模块对所述主任务预测结果进行mask处理,生成相关任务注意力mask;使用所述相关任务模块并基于所述关键词表征向量与所述相关任务注意力mask,获取相关任务预测结果;构建所述预测模型的模型损失函数,基于所述模型损失函数对所述预测模型进行调整处理。
可选地,所述构建所述预测模型的模型损失函数包括:基于所述主任务预测结果和所述训练样本的对应标注信息,构建与所述主任务模块对应的主任务损失函数,基于所述主任务损失函数在训练中的损失值确定所述主任务损失函数的主任务权值;基于所述相关任务预测结果和所述训练样本的对应标注信息,构建与所述相关任务模块对应的相关任务损失函数,基于所述相关任务损失函数在训练中的损失值确定所述相关任务损失函数的相关任务权值;基于所述主任务权值与所述主任务损失函数、所述相关任务权值和所述相关任务损失函数进行加权计算,获得所述模型损失函数。
可选地,确定所述主任务损失函数或所述相关任务损失函数为
Figure BDA0003810124060000021
其中,所述n用于表征所述主任务模块或所述相关任务模块的编号,t为训练次数;确定所述主任务权值或所述相关任务权值为
Figure BDA0003810124060000022
Figure BDA0003810124060000023
其中,λi为与编号为i的所述主任务模块或所述相关任务模块相对应的所述主任务权值或所述相关任务权值。
可选地,确定所述模型损失函数为
Figure BDA0003810124060000024
可选地,所述基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本包括:基于所述企业属性数据提取文本关键词;使用预训练模型对所述文本关键词进行处理,生成关键词表征向量,并基于所述关键词表征向量生成所述关键词向量集;其中,所述企业属性数据包括:结构化数据和非结构化数据;所述结构化数据包括企业经营范围、企业路演赛道、企业产品种类数据;所述非结构化数据来源包括:企业简介信息、企业项目摘要信息数据;对所述关键词向量集中的各个关键词表征向量进行标注处理,确定与所述关键词表征向量相对应的领域标签;基于所述关键词表征向量和对应的领域标签,生成所述训练样本。
可选地,所述相关任务模块的数量为三个;所述主任务预测结果为企业总体分数;所述相关任务预测结果包括:企业创新指标分数、企业经济指标分数、企业投资分数;将所述主任务模块和三个所述相关任务模块的输出值输入最终表示模块进行softmax计算,用以输出所述企业总体分数、所述企业创新指标分数、所述企业经济指标分数和所述企业投资分数。
根据本公开实施例的第二方面,提供一种数据分析方法,包括:获取训练好的预测模型;其中,所述预测模型是通过如上所述的训练方法训练得到;基于企业属性数据生成关键词向量集,将所述关键词向量集输入所述预测模型,获得主任务预测结果和相关任务预测结果;其中,所述主任务预测结果为企业总体分数;所述相关任务预测结果包括:企业创新指标分数、企业经济指标分数、企业投资分数。
根据本公开实施例的第三方面,提供一种预测模型的训练装置,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的预测模型的训练方法。
根据本公开实施例的第四方面,提供一种数据分析装置,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的数据分析方法。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的方法。
基于本公开上述实施例提供的预测模型的训练方法、数据分析方法、装置以及存储介质,通过多任务模型可以在提高效率的同时降低训练量;借助注意力机制,预测模型可以有效地确定领域对应的关键词所对应的权重分配;基于nlp技术和多任务框架,以使attention mask不为孤立静态或随机状态,使得模型的整体性更强,且由于任务相关性强,多任务模型的训练结果更好,其解释性也更高;能够使评委快速地对企业及其项目进行全面的研判,节省了人力物力和时间成本;通过对企业的数据进行分析和计算,有效提高了打分的可信度及可靠性,提高用户的使用体验。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开的预测模型的训练方法的一个实施例的流程示意图;
图2为本公开的预测模型的训练方法的一个实施例中的构建预测模型的模型损失函数的示意图;
图3为本公开的预测模型的结构示意图;
图4为本公开的数据分析方法的一个实施例的流程示意图;
图5为本公开的预测模型的训练装置的一个实施例的示意图;
图6为本公开的预测模型的训练装置的另一个实施例的示意图;
图7为本公开的数据分析装置的一个实施例的示意图;
图8为本公开的数据分析装置的另一个实施例的示意图。
具体实施方式
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。
示例性方法
图1为本公开的预测模型的训练方法的一个实施例的流程示意图,如图1所示的方法包括步骤:S101-S107。下面对各步骤分别进行说明。
S101,基于企业属性数据生成关键词向量集,基于关键词向量集生成训练样本;其中,训练样本包括关键词表征向量以及与关键词表征向量相对应的领域标签。
在一个实施例中,企业属性数据包括结构化数据和非结构化数据等,结构化数据包括企业经营范围、企业路演赛道、企业产品种类数据等数据;非结构化数据来源包括企业简介信息、企业项目摘要信息数据等数据。可以使用现有的多种方法对关键词表征向量进行标注处理,例如对于关键词表征向量标注对应的企业总体得分、企业创新指标分数、企业经济指标分数和企业投资分数等。领域标签包括多个不同领域的标签。
S102,构建预测模型;其中,预测模型包括一个主任务模块和至少一个相关任务模块;对于主任务模块设有对应的主任务注意力mask模块,对于各个相关任务模块设置对应的相关任务注意力mask模块。
在一个实施例中,深度学习中的注意力机制(Attention Network)模拟的是人脑的注意力机制,在自然语言处理(Natural Language Processing,NLP)任务等中得到了很好的应用。在深度学习的注意力机制中输入的某些部分相比其它部分可能更相关,通过注意力机制能够关注有助于有效执行任务的部分输入,着重关注需要的细节,减小无用信息的影响。
预测模型可以为多种神经网络模型,例如为长短时记忆网络(Long and ShortTerm Memory network,LSTM)模型等。预测模型包括一个主任务模块和至少一个相关任务模块,主任务模块和相关任务模块可以实现为现有的多种神经网络模型,用于预测不同的分数。对于主任务模块设有对应的主任务注意力mask(掩码)模块,对于各个相关任务模块设置对应的相关任务注意力mask模块;主任务注意力mask模块和相关任务注意力mask模块可以使用现有的注意力机制对输入信息进行预设的mask处理。
S103,使用主任务注意力mask模块对领域标签进行mask处理,生成主任务注意力mask。主任务注意力mask可以具有多种编码格式等。
S104,使用主任务模块并基于关键词表征向量与主任务注意力mask,获取主任务预测结果。
S105,使用各个相关任务注意力mask模块对主任务预测结果进行mask处理,生成相关任务注意力mask。相关任务注意力mask可以具有多种编码格式等。
S106,使用相关任务模块并基于关键词表征向量与相关任务注意力mask,获取相关任务预测结果。
S107,构建预测模型的模型损失函数,基于模型损失函数对预测模型进行调整处理。
在一个实施例中,可以采用现有的多种模型调整方法进行调整处理。例如,根据预测模型输出的预测分数信息与标注的真实分数信息进行比对,确定差异信息并使用模型损失函数对预测模型进行调整,用以使预测模型输出的预测分数信息与标注的真实分数信息的差异在允许范围内。
图2为本公开的预测模型的训练方法的一个实施例中的构建预测模型的模型损失函数的示意图,如图2所示的方法包括步骤:S201-S203。下面对各步骤分别进行说明。
S201,基于主任务预测结果和训练样本的对应标注信息构建与主任务模块对应的主任务损失函数,基于主任务损失函数在训练中的损失值确定主任务损失函数的主任务权值。
在一个实施例中,与主任务预测结果对应的训练样本的标注信息为与关键词表征向量对应的企业总体实际得分。
S202,基于相关任务预测结果和训练样本的对应标注信息构建与相关任务模块对应的相关任务损失函数,基于相关任务损失函数在训练中的损失值确定相关任务损失函数的相关任务权值。
在一个实施例中,与相关任务预测结果对应的训练样本的标注信息可以为与关键词表征向量对应的企业总体实际得分;或者,与相关任务预测结果对应的训练样本的标注信息可以为与关键词表征向量对应的企业创新指标实际分数、企业经济指标实际分数和企业投资实际分数等。
在一个实施例中,主任务损失函数可以为现有的多种损失函数,相关任务损失函数可以为现有的多种损失函数。
S203,基于主任务权值与主任务损失函数、相关任务权值和相关任务损失函数进行加权计算,获得模型损失函数。
在一个实施例中,确定主任务损失函数或相关任务损失函数为
Figure BDA0003810124060000071
其中,n用于表征主任务模块或相关任务模块的编号,t为训练次数;确定主任务权值或相关任务权值为
Figure BDA0003810124060000072
Figure BDA0003810124060000073
其中,λi为与编号为i的主任务模块或相关任务模块相对应的主任务权值或相关任务权值。
确定模型损失函数为
Figure BDA0003810124060000074
其中,
Figure BDA0003810124060000081
为与编号为i的主任务模块或相关任务模块相对应的损失函数,X为被标注的最终实际得分(被标注的训练样本通常只有评委的最终实际评分,即企业总体实际得分),Yi为与编号为i的主任务模块或相关任务模块相对应的预测得分。
在一个实施例中,生成训练样本可以采用多种方法。例如,基于企业属性数据提取文本关键词,使用预训练模型对文本关键词进行处理,生成关键词表征向量,并基于关键词表征向量生成关键词向量集。对关键词向量集中的各个关键词表征向量进行标注处理,确定与关键词表征向量相对应的领域标签,基于关键词表征向量和对应的领域标签,生成训练样本。
在一个实施例中,获取企业属性数据,包括结构化数据和非结构化数据等并进行数据清洗及归一化处理,其中,对于指标数据中需以one-hot表示的,可以使其合并,并进行赋权。基于企业提供的企业属性数据提取文本关键词,使用预训练模型对文本关键词进行词嵌入处理,预训练模型可以为MacBert等,通过预训练模型输出关键词表征向量,将关键词表征向量通过聚类区分为k类。例如,对于新材料领域的企业,关键词包括丙烯酸、改性PCT、吸附性能、立体异构等,关键词表征向量为与这些关键词对应的向量;基于关键词表征向量生成关键词向量集,关键词向量集至少包括领域字段所对应的相关的关键词的向量表征,关键词向量集表示为:Da={x1,x2,…,xn};其中,a为领域字段,x为关键词向量表征,领域字段的区分可以由领域区分的数据库决定,如IPC分类、论文库分类等。例如,领域字段可以为计算机通信、化学新材料、人工智能、生物医药等;x为关键词向量表征,可以为one-hot表示或为特定词典的嵌入所得。
使单个领域关键词的关键词表征向量至少对应于一个邻域关联词集,领域关联词集至少包括:n个由对应的领域关键词所对应的该领域对象所对应的数据所对应的关联词;其中,关联词为数据所包含的结构化数据对应的文字内容或由非结构化数据提取的文本关键词。排序领域关键词并计算领域关联词集之间的余弦相似度(cosine-sim);聚合领域关联词集以区分其类别并使类别的标签为同一领域,其中领域标签表示为L1,L2,…,Lk。例如,领域标签可以为高端装备制造产业、计算机通信、化学新材料、人工智能、生物医药等领域标签。
在一个实施例中,如图3所示,训练样本包括关键词表征向量(包括标注的企业总体得分、企业创新指标分数、企业经济指标分数和企业投资分数等)以及与关键词表征向量相对应的领域标签,将关键词表征向量输入表征空间模块。主任务模块的数量为一个,为主任务模块T1,主任务模块T1的主任务预测结果为企业总体分数。
相关任务模块的数量为三个,分别为相关任务模块T2、相关任务模块T3和相关任务模块T4,三个相关任务模块的三个相关任务预测结果包括企业创新指标分数、企业经济指标分数、企业投资分数。将主任务模块T1、相关任务模块T1、相关任务模块T2和相关任务模块T3的输出值输入最终表示模块进行softmax计算,用以输出企业总体分数、企业创新指标分数、企业经济指标分数和企业投资分数。
配置任务attention参数,其中,主任务模块T1的输出影响相关任务模块T2、相关任务模块T3、相关任务模块T4的attention mask,主任务模块T1的attention mask被对应的领域相关的标签Li所影响,并且主任务模块T1、相关任务模块T2、相关任务模块T3、相关任务模块T4的表征空间共享。主任务注意力模块(主任务注意力mask模块)1对领域标签进行mask处理,生成主任务注意力mask;相关任务注意力模块(相关任务注意力mask模块)1-3对主任务预测结果进行mask处理,生成相关任务注意力mask。
训练模型的损失函数为:
Figure BDA0003810124060000091
对于任务n,其λi的数值为公式1-2以及公式1-3,即
Figure BDA0003810124060000092
其中,t为训练次数;
主任务模块T1的输出对应于评分预测(企业总体分数),相关任务模块T2、相关任务模块T3、相关任务模块T4的输出分别对应于企业创新指标分数、企业经济指标分数、企业投资分数。企业创新指标分数对应的项目包括:企业的科技资质、研发投入、研发人员、知识产权、职称数量,上述内容的相关指标;企业经济指标分数对应的项目包括:营业额、利润、产品、市场等的相关指标;企业投资分数对应的项目包括:投资轮数、投资额、投资企业数等,上述内容的相关指标。
构建的预测模型为多任务预测模型,在进行相关任务预测时,使相关任务模块T2、相关任务模块T3、相关任务模块T4的联合输出为最终表示或评分预测,且与主任务模块T1的输出相关,联合输出由主任务模块T1的输出分数所决定,基于多任务模型框架建立预测模型的时,损失函数还表现为:
Figure BDA0003810124060000101
其中,α为超参数,lossi为i任务对应的分数。
本公开的预测模型的训练方法,通过多任务模型,任务可以在提高效率的同时降低训练量;借助注意力机制,预测模型可以有效地确定领域对应的关键词所对应的权重分配;基于nlp技术和多任务框架,以使attention mask不为孤立静态或随机状态,使得模型的整体性更强,且由于任务相关性强,多任务模型的训练结果更好,其解释性也更高,同时相关任务同时训练降低了训练成本。
图4为本公开的数据分析方法的一个实施例的流程示意图,如图4所示的方法包括步骤:S401-S402。下面对各步骤分别进行说明。
S401,获取训练好的预测模型;其中,预测模型是通过如上任一实施例中的训练方法训练得到。
S402,基于企业属性数据生成关键词向量集,将关键词向量集输入预测模型,获得主任务预测结果和相关任务预测结果;其中,主任务预测结果为企业总体分数;相关任务预测结果包括企业创新指标分数、企业经济指标分数、企业投资分数等。
在一个实施例中,在创赛平台上,企业将平台所需参考的项目指标以及企业相关的参数进行上传和审核,在符合参赛条件后,企业进入参赛名单。平台通过企业所上传的属性数据以及训练好的预测模型,对企业的预测分数进行打分,打分结果和相关打分依据通过平台展示给实际评委人员。评委参考预测的打分分数以及打分依据,和企业的展示内容等进行评判和打分,完成打分后确认最终的打分分数。
示例性装置
在一个实施例中,如图5所示,本公开提供一种预测模型的训练装置,包括:样本生成模块51、模型构建模块52、主任务处理模块53、相关任务处理模块54、模型调整模块55和预测结果处理模块56。样本生成模块51基于企业属性数据生成关键词向量集,基于关键词向量集生成训练样本;其中,训练样本包括关键词表征向量以及与关键词表征向量相对应的领域标签。模型构建模块52构建预测模型;其中,预测模型包括一个主任务模块和至少一个相关任务模块,对于主任务模块设有对应的主任务注意力mask模块,对于各个相关任务模块设置对应的相关任务注意力mask模块。
主任务处理模块53使用主任务注意力mask模块对领域标签进行mask处理,生成主任务注意力mask。主任务处理模块53使用主任务模块并基于关键词表征向量与主任务注意力mask,获取主任务预测结果。相关任务处理模块54使用各个相关任务注意力mask模块对主任务预测结果进行mask处理,生成相关任务注意力mask。相关任务处理模块54使用相关任务模块并基于关键词表征向量与相关任务注意力mask,获取相关任务预测结果。模型调整模块54构建预测模型的模型损失函数,基于模型损失函数对预测模型进行调整处理。
相关任务模块的数量为三个,主任务预测结果为企业总体分数,相关任务预测结果包括企业创新指标分数、企业经济指标分数、企业投资分数。预测结果处理模块56将主任务模块和三个相关任务模块的输出值输入最终表示模块进行softmax计算,用以输出企业总体分数、企业创新指标分数、企业经济指标分数和企业投资分数。
在一个实施例中,模型调整模块55基于主任务预测结果和训练样本的对应标注信息构建与主任务模块对应的主任务损失函数,基于主任务损失函数在训练中的损失值确定主任务损失函数的主任务权值。模型调整模块55基于修改相关任务预测结果和训练样本的对应标注信息构建与相关任务模块对应的相关任务损失函数,基于相关任务损失函数在训练中的损失值确定相关任务损失函数的相关任务权值。模型调整模块55基于主任务权值与主任务损失函数、相关任务权值和相关任务损失函数进行加权计算,获得模型损失函数。
在一个实施例中,样本生成模块51基于企业属性数据提取文本关键词,使用预训练模型对文本关键词进行处理,生成关键词表征向量,并基于关键词表征向量生成关键词向量集。样本生成模块51对关键词向量集中的各个关键词表征向量进行标注处理,确定与关键词表征向量相对应的领域标签。样本生成模块51基于关键词表征向量和对应的领域标签,生成训练样本。
图6为本公开的预测模型的训练装置的另一个实施例的示意图,如图6所示,预测模型的训练装置61包括一个或多个处理器611和存储器612。
处理器611可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制预测模型的训练装置61中的其他组件以执行期望的功能。
存储器612可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器611可以运行程序指令,以实现上文的本公开的各个实施例的预测模型的训练方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,预测模型的训练装置61还可以包括:输入装置613以及输出装置614等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备613还可以包括例如键盘、鼠标等等。该输出装置614可以向外部输出各种信息。该输出设备614可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该专家推荐匹配61中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,预测模型的训练装置61还可以包括任何其他适当的组件。
在一个实施例中,如图7所示,本公开提供一种数据分析装置,包括模型获取模块71和数据预测模块72。模型获取模块71获取训练好的预测模型;其中,预测模型是通过如上任一实施例中的训练方法训练得到。数据预测模块72基于企业属性数据生成关键词向量集,将关键词向量集输入预测模型,获得主任务预测结果和相关任务预测结果;其中,主任务预测结果为企业总体分数;相关任务预测结果包括企业创新指标分数、企业经济指标分数、企业投资分数。
图8为本公开的数据分析装置的另一个实施例的示意图,如图8所示,专家推荐匹配装置81包括一个或多个处理器811和存储器812。
处理器811可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制的数据分析装置81中的其他组件以执行期望的功能。
存储器812可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器811可以运行程序指令,以实现上文的本公开的各个实施例的数据分析方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,数据分析装置81还可以包括:输入装置813以及输出装置814等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备813还可以包括例如键盘、鼠标等等。该输出装置814可以向外部输出各种信息。该输出设备814可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该数据分析装置81中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,数据分析装置81还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述实施例中的预测模型的训练方法、数据分析方法、装置以及存储介质,通过多任务模型可以在提高效率的同时降低训练量;借助注意力机制,预测模型可以有效地确定领域对应的关键词所对应的权重分配;基于nlp技术和多任务框架,以使attention mask不为孤立静态或随机状态,使得模型的整体性更强,且由于任务相关性强,多任务模型的训练结果更好,其解释性也更高,同时相关任务同时训练降低了训练成本;能够使评委快速地对企业及其项目进行全面的研判,节省了人力物力和时间成本;通过对企业的数据进行分析和计算,有效提高了打分的可信度及可靠性,提高用户的使用体验。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims (10)

1.一种预测模型的训练方法,包括:
基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本;其中,所述训练样本包括:关键词表征向量以及与所述关键词表征向量相对应的领域标签;
构建预测模型;其中,所述预测模型包括一个主任务模块和至少一个相关任务模块;对于所述主任务模块设有对应的主任务注意力mask模块,对于各个相关任务模块设置对应的相关任务注意力mask模块;
使用所述主任务注意力mask模块对所述领域标签进行mask处理,生成主任务注意力mask;
使用所述主任务模块并基于所述关键词表征向量与所述主任务注意力mask,获取主任务预测结果;
使用各个相关任务注意力mask模块对所述主任务预测结果进行mask处理,生成相关任务注意力mask;
使用所述相关任务模块并基于所述关键词表征向量与所述相关任务注意力mask,获取相关任务预测结果;
构建所述预测模型的模型损失函数,基于所述模型损失函数对所述预测模型进行调整处理。
2.如权利要求1所述的方法,所述构建所述预测模型的模型损失函数包括:
基于所述主任务预测结果和所述训练样本的对应标注信息,构建与所述主任务模块对应的主任务损失函数,基于所述主任务损失函数在训练中的损失值确定所述主任务损失函数的主任务权值;
基于所述相关任务预测结果和所述训练样本的对应标注信息,构建与所述相关任务模块对应的相关任务损失函数,基于所述相关任务损失函数在训练中的损失值确定所述相关任务损失函数的相关任务权值;
基于所述主任务权值与所述主任务损失函数、所述相关任务权值和所述相关任务损失函数进行加权计算,获得所述模型损失函数。
3.如权利要求2所述的方法,其中,
确定所述主任务损失函数或所述相关任务损失函数为
Figure FDA0003810124050000011
其中,所述n用于表征所述主任务模块或所述相关任务模块的编号,t为训练次数;
确定所述主任务权值或所述相关任务权值为
Figure FDA0003810124050000021
Figure FDA0003810124050000022
其中,λi为与编号为i的所述主任务模块或所述相关任务模块相对应的所述主任务权值或所述相关任务权值。
4.如权利要求3所述的方法,其中,
确定所述模型损失函数为
Figure FDA0003810124050000023
5.如权利要求1所述的方法,所述基于企业属性数据生成关键词向量集,基于所述关键词向量集生成训练样本包括:
基于所述企业属性数据提取文本关键词;
使用预训练模型对所述文本关键词进行处理,生成关键词表征向量,并基于所述关键词表征向量生成所述关键词向量集;
其中,所述企业属性数据包括:结构化数据和非结构化数据;所述结构化数据包括企业经营范围、企业路演赛道、企业产品种类数据;所述非结构化数据来源包括:企业简介信息、企业项目摘要信息数据;
对所述关键词向量集中的各个关键词表征向量进行标注处理,确定与所述关键词表征向量相对应的领域标签;
基于所述关键词表征向量和对应的领域标签,生成所述训练样本。
6.如权利要求1所述的方法,其中,所述相关任务模块的数量为三个;所述主任务预测结果为企业总体分数;所述相关任务预测结果包括:企业创新指标分数、企业经济指标分数、企业投资分数;
将所述主任务模块和三个所述相关任务模块的输出值输入最终表示模块进行softmax计算,用以输出所述企业总体分数、所述企业创新指标分数、所述企业经济指标分数和所述企业投资分数。
7.一种数据分析方法,包括:
获取训练好的预测模型;其中,所述预测模型是通过如权利要求1至6任一项所述的训练方法训练得到;
基于企业属性数据生成关键词向量集,将所述关键词向量集输入所述预测模型,获得主任务预测结果和相关任务预测结果;
其中,所述主任务预测结果为企业总体分数;所述相关任务预测结果包括:企业创新指标分数、企业经济指标分数、企业投资分数。
8.一种预测模型的训练装置,包括:
处理器;用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-6任一项所述的方法。
9.一种数据分析装置,包括:
处理器;用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求7任一项所述的方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一项所述的方法。
CN202211008854.5A 2022-08-22 2022-08-22 预测模型的训练方法、数据分析方法、装置以及介质 Pending CN115393094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211008854.5A CN115393094A (zh) 2022-08-22 2022-08-22 预测模型的训练方法、数据分析方法、装置以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211008854.5A CN115393094A (zh) 2022-08-22 2022-08-22 预测模型的训练方法、数据分析方法、装置以及介质

Publications (1)

Publication Number Publication Date
CN115393094A true CN115393094A (zh) 2022-11-25

Family

ID=84119847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211008854.5A Pending CN115393094A (zh) 2022-08-22 2022-08-22 预测模型的训练方法、数据分析方法、装置以及介质

Country Status (1)

Country Link
CN (1) CN115393094A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308758A (zh) * 2023-03-20 2023-06-23 深圳征信服务有限公司 一种基于大数据的金融风险分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308758A (zh) * 2023-03-20 2023-06-23 深圳征信服务有限公司 一种基于大数据的金融风险分析方法及系统
CN116308758B (zh) * 2023-03-20 2024-01-05 深圳征信服务有限公司 一种基于大数据的金融风险分析方法及系统

Similar Documents

Publication Publication Date Title
Zhou et al. A machine learning approach to customer needs analysis for product ecosystems
Chang et al. Research on detection methods based on Doc2vec abnormal comments
Han et al. DuEE-Fin: A large-scale dataset for document-level event extraction
Xu et al. Multi-task legal judgement prediction combining a subtask of the seriousness of charges
CN109933793B (zh) 文本极性识别方法、装置、设备及可读存储介质
Rodrigues et al. Beyond the stars: Towards a novel sentiment rating to evaluate applications in web stores of mobile apps
CN115393094A (zh) 预测模型的训练方法、数据分析方法、装置以及介质
Gao et al. Listening to Users' Voice: Automatic Summarization of Helpful App Reviews
Qureshi et al. Performance evaluation of machine learning models on large dataset of android applications reviews
Peng et al. An approach of extracting feature requests from app reviews
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
Tarcsay et al. Use of machine learning methods in the assessment of programming assignments
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
Teodorescu et al. Frustratingly easy sentiment analysis of text streams: Generating high-quality emotion arcs using emotion lexicons
Sisodia et al. Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews
Jeong et al. Consistency enhancement of model prediction on document-level named entity recognition
Pooja et al. Sentiment based stock market prediction
Oswal Identifying and categorizing offensive language in social media
Ako-Nai et al. A machine-learning based approach to validating learning materials
Kavatagi et al. Bi-GRU Model with Stacked Embedding for Sentiment Analysis: A Case Study
Lambhate Sentiment Analysis of Spam Reviews Using Bert-Large with SoftMax Classifier
Naufal et al. Sentiment Analysis of Student Satisfaction on Telkom University Language Center (LaC) Services on Instagram Using the RNN Method
Le et al. Investigating the effect of linguistic features on personality and job performance predictions
Abou-Kassem et al. A Data Analytics Methodology for Benchmarking of Sentiment Scoring Algorithms in the Analysis of Customer Reviews
Neha et al. An Evaluation for various text summarization algorithms on blog summarization dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination