CN113535964B

CN113535964B - 企业分类模型智能构建方法、装置、设备及介质

Info

Publication number: CN113535964B
Application number: CN202111077364.6A
Authority: CN
Inventors: 谢翀; 罗伟杰; 陈永红; 黄开梅
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-24
Anticipated expiration: 2041-09-15
Also published as: WO2023039925A1; CN113535964A

Abstract

本发明公开了企业分类模型智能构建方法、装置、设备及介质，方法包括：根据文本处理规则对语料数据库包含的语料样本进行转换处理得到样本特征序列，根据样本特征序列生成多个训练数据集，将样本特征序列输入初始分类模型进行计算处理得到对应的模型输出信息，根据参数调整规则及每一训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，得到训练后的分类模型。本发明属于人工智能技术领域，可基于包含加权损失值计算公式的参数调整规则对初始分类模型中的参数值进行迭代调整，从而避免语料样本分布不均衡、人工判定标准不统一等因素对训练初始分类模型造成的噪声干扰，大幅提高了所构建得到的分类模型的性能。

Description

企业分类模型智能构建方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种企业分类模型智能构建方法、装置、设备及介质。

背景技术

企业所属行业分类是商业分析和投资决策过程中的重要一环，企业通过了解潜在客户所在的特定行业细分目标市场，有针对性地进行营销；研究人员通过预测行业未来的发展趋势为投资机构提供有利的决策依据，但是由于行业分类标准各异、涉及多领域专业知识等原因，人工划分行业效率低下，分类结果也易受主观因素影响。传统技术中基于传统机器学习的企业分类模型由于语料样本分布不均衡、人工判定标准不统一而存在噪声干扰等因素，导致无法准确对分类模型进行高效训练，因训练质量较低而最终得到的企业分类模型性能较差，难以进行实际应用。因此，现有技术方法中存在无法构建得到高性能企业分类模型的问题。

发明内容

本发明实施例提供了一种企业分类模型智能构建方法、装置、设备及介质，旨在解决现有技术方法中所存在的无法构建得到高性能企业分类模型的问题。

第一方面，本发明实施例提供了一种企业分类模型智能构建方法，其包括：

若接收到所输入的语料数据库，根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理，得到对应的样本特征序列；

根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集；

将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，以得到每一所述样本特征序列对应的模型输出信息；

根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型。

第二方面，本发明实施例提供了一种企业分类模型智能构建装置，其包括：

样本特征序列获取单元，用于若接收到所输入的语料数据库，根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理，得到对应的样本特征序列；

训练数据集生成单元，用于根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集；

模型输出信息获取单元，用于将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，以得到每一所述样本特征序列对应的模型输出信息；

模型训练单元，用于根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的企业分类模型智能构建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的企业分类模型智能构建方法。

本发明实施例提供了一种企业分类模型智能构建方法、装置、计算机设备及可读存储介质。根据文本处理规则对语料数据库包含的语料样本进行转换处理得到样本特征序列，根据样本特征序列生成多个训练数据集，将训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，得到对应的模型输出信息，根据参数调整规则及每一训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，得到训练后的分类模型。通过上述方法，可基于包含加权损失值计算公式的参数调整规则对初始分类模型中的参数值进行迭代调整，从而避免语料样本分布不均衡、人工判定标准不统一等因素对训练初始分类模型造成的噪声干扰，大幅提高了所构建得到的分类模型的性能。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的企业分类模型智能构建方法的流程示意图；

图2为本发明实施例提供的企业分类模型智能构建方法的子流程示意图；

图3为本发明实施例提供的企业分类模型智能构建方法的另一子流程示意图；

图4为本发明实施例提供的企业分类模型智能构建方法的另一子流程示意图；

图5为本发明实施例提供的企业分类模型智能构建方法的另一子流程示意图；

图6为本发明实施例提供的企业分类模型智能构建方法的另一子流程示意图；

图7为本发明实施例提供的企业分类模型智能构建方法的另一流程示意图；

图8为本发明实施例提供的企业分类模型智能构建装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的企业分类模型智能构建方法的流程示意图；该企业分类模型智能构建方法应用于用户终端或管理服务器中，该企业分类模型智能构建方法通过安装于用户终端或管理服务器中的应用软件进行执行，管理服务器即是可执行企业分类模型智能构建方法以对企业分类模型进行智能化构建的服务器，管理服务器可以是企业或政府部门内部所构建的服务器端，用户终端即是可执行企业分类模型智能构建方法以对企业分类模型进行智能化构建的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示，该方法包括步骤S110~S140。

S110、若接收到所输入的语料数据库，根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理，得到对应的样本特征序列。

若接收到所输入的语料数据库，根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理，得到对应的样本特征序列。可接收所输入的语料数据库，语料数据库中包含多条语料样本，每一条语料样本即对应一个企业，语料样本可以是企业概况的描述信息、企业整体的简介信息、企业年报等包含文字的一段文本信息。可根据文本处理规则对语料样本进行转换处理，得到样本特征序列，样本特征序列也即是采用数字编码方式对语料样本所包含的文字特征进行表示的编码序列。其中，所述文本处理规则包括无效字符集合及特征词库。

在一实施例中，如图2所示，步骤S110包括子步骤S111和S112。

S111、根据所述无效字符集合对每一条所述语料样本包含的文本信息中的无效字符进行滤除，得到对应的有效文本信息。

具体的，可首先对语料样本包含的文本信息中所包含的无效字符进行滤除，无效字符集合中即包含了所需滤除的无效字符，无效字符集合中可包含符号、空格等无效字符，则可对语料样本中文本信息所包含的符号、空格等无效字符进行滤除，得到仅包含有效字符的有效文本信息。

S112、根据所述特征词库对所述有效文本信息进行特征词转换，得到与每一条所述语料样本对应的样本特征序列。

根据特征词库对有效文本信息进行特征词转换，特征词库中包含的特征词可由一个或多个字符组成，每一特征词即对应一个独热编码，则可将有效文本信息中所包含的字符与特征词相匹配，若有效文本信息中某一个字符或连续多个字符的组合与特征词相匹配，则获取该特征词对应的独热编码进行特征词转换，根据有效文本信息中字符的具体位置对特征词转换得到的独热编码进行排序，即可得到对应的样本特征序列。其中，特征词库可以是包含16.6万特征词的结巴分词词库，则其中对应包含16.6万个独热编码。

S120、根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集。

根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集。可基于样本特征序列生成对应的多个训练数据集，所生成的训练数据集需满足数据集生成规则，其中，所述数据集生成规则包括样本数量。

在一实施例中，如图3所示，步骤S120包括子步骤S121和S122。

S121、对与每一所述样本特征序列对应的目标分类标签进行统计，得到对应的标签统计信息。

语料样本中包含文本信息，以及与文本信息对应的目标分类标签，目标分类标签即为每一样本该文本信息所对应企业所属行业类别的真实分类标签，目标分类标签中一个行业标签即对应具体的一个行业分类，目标分类标签中可包含一个或多个行业标签。如某企业对应的目标分类标签为“金融、房地产”。可对每一样本特征序列对应的目标分类标签进行统计，以得到语料数据库中每一行业标签对应的语料样本的数量，获取每一行业标签的语料样本数量即可得到标签统计信息。例如所得到的标签统计信息可采用N表示，N即为一个1×K的一维数组，K即为所包含的行业类别总数，则N_k即表示第k个行业类别所对应行业标签的语料样本数量。

S122、随机获取与所述样本数量相等的所述样本特征序列组合为训练数据集。

随机获取与样本数量相等的多条样本特征序列进行组合，即可得到对应的训练数据集，则每一训练数据集中均包含与样本数量相等的多条样本特征序列。例如，语料数据库中包含10000个语料样本，样本数量为500，则可从10000个语料样本对应的样本特征序列中随机获取500个进行组合作为一个训练数据集，对剩余9500个语料样本对应的样本特征序列再次进行随机获取操作。

S130、将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，以得到每一所述样本特征序列对应的模型输出信息。

将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，以得到每一所述样本特征序列对应的模型输出信息。初始分类模型即为基于多层感知机结构所构建的神经网络模型，初始分类模型可以是四层全连接神经网络，其中前三层均采用了批标准化和随机失活(保留概率设置为50%)，使得模型能够快速收敛和避免过拟合，并且前三层均采用双曲正切函数作为激活函数，最后一层为多标签分类输出层，采用批标准化和Sigmoid激活函数。其中，输入层包含16.6万个神经元，第一层全连接神经网络有640个神经元，第二层和第三层分别有4096个神经元，最后一层（也即是输出层）的神经元个数为行业类别总数，前后两层所包含的神经元之间均采用一次函数进行关联连接，初始分类模型中一次函数的参数值均为同一默认值。将训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，即可从初始分类模型的最后一层获取对应的模型输出信息。

在一实施例中，如图4所示，步骤S130包括子步骤S131和S132。

S131、依次将所述样本特征序列输入所述初始分类模型的输入层；S132、通过所述初始分类模型中神经元之间的关联公式对所述样本特征序列进行关联计算，并从所述初始分类模型的输出层获取与所述样本特征序列对应的模型输出信息。

初始分类模型仅能够同时对一条样本特征序列进行分析，因此需要依次将样本特征序列输入初始分类模型的输入层，初始分类模型依次对每一样本特征序列进行关联计算，并从输出层获取对应的模型输出信息，模型输出信息中包含样本特征序列与输出层中每一神经元对应的概率值，也即是与每一行业类别对应的概率值，概率值即可用于对样本特征序列与相应行业类别之间的匹配概率进行量化表征。

S140、根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型。

根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型。可通过训练数据集依次对初始分类模型中的参数值进行调整，则多个训练数据集可实现对初始分类模型中的参数值进行迭代调整，对初始分类模型中参数值进行调整的过程也即是对初始分类模型进行训练的具体过程。通过多个训练数据集对初始分类模型进行迭代训练后，即可得到训练后的分类模型。其中，所述参数调整规则包括加权损失值计算公式及梯度计算公式。

在一实施例中，如图5所示，步骤S140包括子步骤S141、S142、S143、S144和S145。

S141、根据所述加权损失值计算公式及所述标签统计信息对一个所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的加权损失值。

加权损失计算公式即是用于计算与样本特征序列对应的加权损失值的计算公式，本实施例中引入了标签统计信息并采用特殊的计算方式进行加权计算得到加权损失值，通过加权损失值能够更好地避免所属行业样本标签分布极其不平衡和样本标签存在噪音的问题，这一加权损失值的获取过程能够极大提高对初始分类模型进行训练的效率和质量。

具体的，加权损失值计算公式可采用公式（1）进行表示：

（1）；

其中，k即表示第k个行业类别，k∈[1，K]，K即为所包含的行业类别总数，N即为语料数据库中语料样本的总数，σ为输出层的 Sigmoid 激活函数，y_k为目标分类标签（其中，y_k取值为0或1，若样本特征序列的目标分类标签中包含与第k个行业类别对应的行业标签，则y_k=1。若样本特征序列的目标分类标签中不包含与第k个行业类别对应的行业标签，则y_k=0），l_k为模型输出信息（其中，l_k取值范围为[0，1]）。

S142、根据所述梯度计算公式、每一所述样本特征序的加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型。

可根据梯度计算公式计算得到初始分类模型中每一参数的更新值以对参数原始的参数值进行更新，具体的，将初始分类模型中一个参数对一个样本特征序列进行计算所得到的计算值输入梯度计算公式，并结合上述加权损失值，即可计算得到与该参数对应的更新值，这一计算过程也即为梯度下降计算。

具体的，梯度计算公式可采用公式（2）进行表示：

（2）；

其中，

为计算得到的参数t的更新值，

为参数t原始的参数值，η为梯度计算公式中预置的学习率，

为基于损失值及参数t对应的计算值对该参数t的偏导值（这一计算过程中需使用参数t对应的计算值）。

通过一条样本特征序列即可实现对初始分类模型中所有参数值进行一次更新，通过一个训练数据集包含的多条样本特征序列即可实现对初始分类模型中所有参数值进行多次迭代更新。

S143、判断是否存在未进行训练的所述训练数据集；S144、若存在未进行训练的所述训练数据集，返回执行所述根据所述加权损失值计算公式及所述标签统计信息对一个所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的加权损失值的步骤；S145、若不存在未进行训练的所述训练数据集，获取当前的初始分类模型确定为所述训练后的分类模型。

判断是否还存在未进行训练的训练数据集，若存在，则返回执行步骤S141，若不存在，则获取当前训练得到的分类模型作为训练后的分类模型。

在一实施例中，所述参数调整规则还包括典型样本集合，如图6所示，步骤S140包括子步骤S1401、S1402、S1403、S1404、S1405和S1406。

S1401、根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计，以得到与所述训练数据集对应的典型样本数及非典型样本数。

典型样本集合中包含多个典型样本，典型样本也即是具有较强代表性的企业所对应的样本，可基于典型样本集合对训练数据集中每一样本特征序列进行判断并分类，以判断每一样本特征序列是否为典型样本，采用上述方式对每一训练数据集中包含的样本特征序列依次进行判断并分类统计，即可得到每一训练数据集中的典型样本数即非典型样本数。

例如，对某一训练数据集进行分类统计后，得到典型样本数为200，非典型样本数为300。

S1402、根据所述加权损失值计算公式、所述标签统计信息、所述典型样本数及所述非典型样本数，对所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的高置信加权损失值。

本实施例中引入了标签统计信息、典型样本数及非典型样本数，并采用特殊的计算方式进行加权计算得到高置信加权损失值，通过高置信加权损失值不仅能够更好地避免所属行业样本标签分布极其不平衡和样本标签存在噪音的问题，同时还能够大幅提高所计算得到的损失值的置信度，这一高置信加权损失值的获取过程能够进一步提高对初始分类模型进行训练的效率和质量。

具体的，高置信加权损失值计算公式可采用公式（3）进行表示：

（3）；

其中，k即表示第k个行业类别，k∈[1，K]，K即为所包含的行业类别总数，N即为语料数据库中语料样本的总数，σ为输出层的 Sigmoid 激活函数，y_k为目标分类标签（其中，y_k取值为0或1，若样本特征序列的目标分类标签中包含与第k个行业类别对应的行业标签，则y_k=1。若样本特征序列的目标分类标签中不包含与第k个行业类别对应的行业标签，则y_k=0），l_k为模型输出信息（其中，l_k取值范围为[0，1]），V_k即为当前训练数据集的典型样本数；U_k即为当前训练数据集的非典型样本数。

具体的，在计算样本特征序列的高置信加权损失值之前，需要先判断样本特征序列是否属于典型样本，若属于，则采用公式（4）计算得到

值：

（4）；

若样本特征序列不属于典型样本，则采用公式（5）计算得到

值：

（5）；

高置信加权损失值计算公式后半部分的具体计算过程与上述加权损失值的计算过程相同，在此不作赘述。

S1403、根据所述梯度计算公式、每一所述样本特征序的高置信加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型。

可根据梯度计算公式计算得到初始分类模型中每一参数的更新值以对参数原始的参数值进行更新，对初始分类模型中参数值进行更新的具体过程在上述步骤中已详细描述。通过一条样本特征序列即可实现对初始分类模型中所有参数值进行一次更新，通过一个训练数据集包含的多条样本特征序列即可实现对初始分类模型中所有参数值进行多次迭代更新。

S1404、判断是否存在未进行训练的所述训练数据集；S1405、若存在未进行训练的所述训练数据集，返回执行所述根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计，以得到与所述训练数据集对应的典型样本数及非典型样本数的步骤；S1406、若不存在未进行训练的所述训练数据集，获取当前的初始分类模型确定为所述训练后的分类模型。

判断是否还存在未进行训练的训练数据集，若存在，则返回执行步骤S1401，若不存在，则获取当前训练得到的分类模型作为训练后的分类模型。

在一实施例中，如图7所示，步骤S140之后还包括步骤S150、S160、S170和S180。

S150、若接收到所输入的分类请求信息，根据预置的信息采集规则获取与所述分类请求信息中所包含企业名称对应的企业描述信息。

分类请求信息即为所输入的需要进行行业分类的请求信息，分类请求信息中包含企业名称，则可根据信息采集规则获取与企业名称对应的企业描述信息。其中，信息采集规则包含多个采集地址，可基于采集地址对企业名称的相关描述信息进行采集得到企业描述信息。其中，采集地址可以是政府工商部门的网址、第三方企业查询机构的网址等。所得到的企业描述信息即为包含文字的一段文本信息

S160、根据所述文本处理规则对所述企业描述信息进行转换处理，得到对应的企业描述特征信息。

可通过文本处理规则对企业描述信息进行转换处理，具体的，对企业描述信息进行转换处理的过程与对语料样本中包含的文本信息进行转换处理的过程相同，在此不作赘述。所得到的企业描述特征信息即可用于对企业描述信息的具体特征进行量化表征。

S170、将所述企业描述特征信息输入所述训练后的分类模型进行计算处理，得到对应的特征输出信息。

将企业描述特征信息输入训练后的分类模型进行计算处理，即可从训练后的分类模型的输出层中获取对应的特征输出信息。获取特征输出信息的具体过程与上述获取模型输出信息的具体过程相同，在此不作赘述。

S180、根据预置的标签获取规则从所述特征输出信息中获取与所述分类请求信息对应的企业分类标签信息。

可基于标签获取规则从特征输出信息中获取与分类请求信息对应的企业分类标签信息，企业分类标签信息中至少包含一个企业标签，具体的，标签获取规则中可包含概率阈值、获取数量。例如，可基于概率阈值从特征输出信息中获取概率值不小于概率阈值的神经元所对应的企业标签，作为对应的企业分类标签信息；也可基于获取数量从特征输出信息中获取概率值靠前且与获取数量相等的神经元所对应的企业标签，作为对应的企业分类标签信息。获取到企业分类标签信息后可根据分类请求信息对应进行反馈，以使发送分类请求信息能够获取到对应的企业分类标签信息。

在本发明实施例所提供的企业分类模型智能构建方法中，根据文本处理规则对语料数据库包含的语料样本进行转换处理得到样本特征序列，根据样本特征序列生成多个训练数据集，将训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，得到对应的模型输出信息，根据参数调整规则及每一训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，得到训练后的分类模型。通过上述方法，可基于包含加权损失值计算公式的参数调整规则对初始分类模型中的参数值进行迭代调整，从而避免语料样本分布不均衡、人工判定标准不统一等因素对训练初始分类模型造成的噪声干扰，大幅提高了所构建得到的分类模型的性能。

本发明实施例还提供一种企业分类模型智能构建装置，该企业分类模型智能构建装置可配置于用户终端或管理服务器中，该企业分类模型智能构建装置用于执行前述的企业分类模型智能构建方法的任一实施例。具体地，请参阅图8，图8为本发明实施例提供的企业分类模型智能构建装置的示意性框图。

如图8所示，企业分类模型智能构建装置100包括样本特征序列获取单元110、训练数据集生成单元120、模型输出信息获取单元130和模型训练单元140。

样本特征序列获取单元110，用于若接收到所输入的语料数据库，根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理，得到对应的样本特征序列。

在一具体实施例中，所述样本特征序列获取单元110包括子单元：有效文本信息获取单元，用于根据所述无效字符集合对每一条所述语料样本包含的文本信息中的无效字符进行滤除，得到对应的有效文本信息；特征词转换单元，用于根据所述特征词库对所述有效文本信息进行特征词转换，得到与每一条所述语料样本对应的样本特征序列。

训练数据集生成单元120，用于根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集。

在一具体实施例中，所述训练数据集生成单元120包括子单元：统计标签信息获取单元，用于对与每一所述样本特征序列对应的目标分类标签进行统计，得到对应的标签统计信息；训练数据集获取单元，用于随机获取与所述样本数量相等的所述样本特征序列组合为训练数据集。

模型输出信息获取单元130，用于将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，以得到每一所述样本特征序列对应的模型输出信息。

在一具体实施例中，所述模型输出信息获取单元130包括子单元：样本特征序列输入单元，用于依次将所述样本特征序列输入所述初始分类模型的输入层；关联计算单元，用于通过所述初始分类模型中神经元之间的关联公式对所述样本特征序列进行关联计算，并从所述初始分类模型的输出层获取与所述样本特征序列对应的模型输出信息。

模型训练单元140，用于根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型。

在一具体实施例中，所述模型训练单元140包括子单元：加权损失值计算单元用于根据所述加权损失值计算公式及所述标签统计信息对一个所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的加权损失值；第一迭代更新单元，用于根据所述梯度计算公式、每一所述样本特征序的加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型。第一判断单元，用于判断是否存在未进行训练的所述训练数据集；第一返回执行单元，用于若存在未进行训练的所述训练数据集，返回执行所述根据所述加权损失值计算公式及所述标签统计信息对一个所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的加权损失值的步骤；第一分类模型确定单元，用于若不存在未进行训练的所述训练数据集，获取当前的初始分类模型确定为所述训练后的分类模型。

在一具体实施例中，所述模型训练单元140包括子单元：分类统计单元，用于根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计，以得到与所述训练数据集对应的典型样本数及非典型样本数；高置信加权损失值计算单元，用于根据所述加权损失值计算公式、所述标签统计信息、所述典型样本数及所述非典型样本数，对所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的高置信加权损失值；第二迭代更新单元，用于根据所述梯度计算公式、每一所述样本特征序的高置信加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型；第二判断单元，用于判断是否存在未进行训练的所述训练数据集；第二返回执行单元，用于若存在未进行训练的所述训练数据集，返回执行所述根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计，以得到与所述训练数据集对应的典型样本数及非典型样本数的步骤；第二分类模型确定单元，用于若不存在未进行训练的所述训练数据集，获取当前的初始分类模型确定为所述训练后的分类模型。

在一具体实施例中，所述企业分类模型智能构建装置100还包括子单元：企业描述信息获取单元，用于若接收到所输入的分类请求信息，根据预置的信息采集规则获取与所述分类请求信息中所包含企业名称对应的企业描述信息；企业描述特征信息获取单元，用于根据所述文本处理规则对所述企业描述信息进行转换处理，得到对应的企业描述特征信息；特征输出信息获取单元，用于将所述企业描述特征信息输入所述训练后的分类模型进行计算处理，得到对应的特征输出信息；企业分类标签信息获取单元，用于根据预置的标签获取规则从所述特征输出信息中获取与所述分类请求信息对应的企业分类标签信息。

在本发明实施例所提供的企业分类模型智能构建装置应用上述企业分类模型智能构建方法，根据文本处理规则对语料数据库包含的语料样本进行转换处理得到样本特征序列，根据样本特征序列生成多个训练数据集，将训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，得到对应的模型输出信息，根据参数调整规则及每一训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，得到训练后的分类模型。通过上述方法，可基于包含加权损失值计算公式的参数调整规则对初始分类模型中的参数值进行迭代调整，从而避免语料样本分布不均衡、人工判定标准不统一等因素对训练初始分类模型造成的噪声干扰，大幅提高了所构建得到的分类模型的性能。

上述企业分类模型智能构建装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行企业分类模型智能构建方法以对企业分类模型进行智能化构建的用户终端或管理服务器。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行企业分类模型智能构建方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行企业分类模型智能构建方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的企业分类模型智能构建方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的企业分类模型智能构建方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，服务器，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种企业分类模型智能构建方法，其特征在于，所述方法包括：

根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型；其中，所述参数调整规则包括高置信加权损失值计算公式及梯度计算公式；

所述数据集生成规则包括样本数量，所述根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集，包括：

对与每一所述样本特征序列对应的目标分类标签进行统计，得到对应的标签统计信息；

随机获取与所述样本数量相等的所述样本特征序列组合为训练数据集；

所述参数调整规则还包括典型样本集合；所述根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型，包括：

根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计，以得到与所述训练数据集对应的典型样本数及非典型样本数；

根据所述高置信加权损失值计算公式、所述标签统计信息、所述典型样本数及所述非典型样本数，对所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的高置信加权损失值；

所述高置信加权损失值计算公式为：

；

其中，k即表示第k个行业类别，k∈[1，K]，K即为所包含的行业类别总数，N即为语料数据库中语料样本的总数，N_k为所述标签统计信息中第k个行业类别所对应行业标签的语料样本数量，σ为输出层的 Sigmoid 激活函数，y_k为目标分类标签，其中，y_k取值为0或1，若样本特征序列的目标分类标签中包含与第k个行业类别对应的行业标签，则y_k=1；若样本特征序列的目标分类标签中不包含与第k个行业类别对应的行业标签，则y_k=0；l_k为模型输出信息，l_k取值范围为[0，1]，V_k即为当前训练数据集的典型样本数；U_k即为当前训练数据集的非典型样本数；

即为基于样本特征序列是否为典型样本所确定的参数值；

根据所述梯度计算公式、每一所述样本特征序列的高置信加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型；

判断是否存在未进行训练的所述训练数据集；

若存在未进行训练的所述训练数据集，返回执行所述根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计，以得到与所述训练数据集对应的典型样本数及非典型样本数的步骤；

若不存在未进行训练的所述训练数据集，获取当前的初始分类模型确定为所述训练后的分类模型。

2.根据权利要求1所述的企业分类模型智能构建方法，其特征在于，所述文本处理规则包括无效字符集合及特征词库，所述根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理，得到对应的样本特征序列，包括：

根据所述无效字符集合对每一条所述语料样本包含的文本信息中的无效字符进行滤除，得到对应的有效文本信息；

根据所述特征词库对所述有效文本信息进行特征词转换，得到与每一条所述语料样本对应的样本特征序列。

3.根据权利要求1所述的企业分类模型智能构建方法，其特征在于，所述将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理，以得到每一所述样本特征序列对应的模型输出信息，包括：

依次将所述样本特征序列输入所述初始分类模型的输入层；

通过所述初始分类模型中神经元之间的关联公式对所述样本特征序列进行关联计算，并从所述初始分类模型的输出层获取与所述样本特征序列对应的模型输出信息。

4.根据权利要求1所述的企业分类模型智能构建方法，其特征在于，所述参数调整规则还包括加权损失值计算公式，所述根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型，包括：

根据所述加权损失值计算公式及所述标签统计信息对一个所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的加权损失值；

根据所述梯度计算公式、每一所述样本特征序列的加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型；

判断是否存在未进行训练的所述训练数据集；

若存在未进行训练的所述训练数据集，返回执行所述根据所述加权损失值计算公式及所述标签统计信息对一个所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算，得到与每一所述样本特征序列对应的加权损失值的步骤；

5.根据权利要求1所述的企业分类模型智能构建方法，其特征在于，所述根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型之后，还包括：

若接收到所输入的分类请求信息，根据预置的信息采集规则获取与所述分类请求信息中所包含企业名称对应的企业描述信息；

根据所述文本处理规则对所述企业描述信息进行转换处理，得到对应的企业描述特征信息；

将所述企业描述特征信息输入所述训练后的分类模型进行计算处理，得到对应的特征输出信息；

根据预置的标签获取规则从所述特征输出信息中获取与所述分类请求信息对应的企业分类标签信息。

6.一种企业分类模型智能构建装置，其特征在于，所述装置包括：

模型训练单元，用于根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整，以得到所述初始分类模型进行训练后的分类模型；其中，所述参数调整规则包括高置信加权损失值计算公式及梯度计算公式；

所述高置信加权损失值计算公式为：

；

即为基于样本特征序列是否为典型样本所确定的参数值；

判断是否存在未进行训练的所述训练数据集；

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的企业分类模型智能构建方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的企业分类模型智能构建方法。