CN111221936B

CN111221936B - 一种信息匹配方法、装置、电子设备及存储介质

Info

Publication number: CN111221936B
Application number: CN202010004118.7A
Authority: CN
Inventors: 席丽娜; 王文军; 刘文江
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2023-11-07
Anticipated expiration: 2040-01-02
Also published as: CN111221936A

Abstract

本申请提供一种信息匹配方法、装置、电子设备及存储介质，该方法包括：获得供给信息中的结构化特征和非结构化特征；使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，获得匹配结果。在上述的实现过程中，通过获得供给信息中的结构化特征和非结构化特征；使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，改善了匹配出的供给信息与需求信息的相关度低的问题。

Description

一种信息匹配方法、装置、电子设备及存储介质

技术领域

本申请涉及文本挖掘和自然语言处理的技术领域，具体而言，涉及一种信息匹配方法、装置、电子设备及存储介质。

背景技术

目前，使用传统的权重匹配方法匹配出需求信息和供给信息的相关度比较低，例如：在招聘市场上，猎头或者厂商在发布招聘信息后，线上招聘服务商从简历库中匹配出与该招聘信息相关的简历信息后，线上招聘服务商将简历信息推送给猎头或者厂商，然而猎头或者厂商发现该简历信息与招聘信息的相关度非常低，甚至不能进入面试阶段。因此，在实践的过程中发现，线上招聘服务商匹配出需求信息和供给信息的相关度比较低。

发明内容

本申请实施例的目的在于提供一种信息匹配方法、装置、电子设备及存储介质，用于改善匹配出需求信息和供给信息的相关度比较低的问题。

本申请实施例提供了一种信息匹配方法，包括：获得供给信息中的结构化特征和非结构化特征；使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配，获得匹配结果。在上述的实现过程中，通过获得供给信息中的结构化特征和非结构化特征；使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，改善了匹配出的供给信息与需求信息的相关度低的问题。

可选地，在本申请实施例中，在所述获得匹配结果之后，还包括：若所述匹配结果为所述供给信息与所述需求信息匹配，则向终端设备发送所述供给信息，所述终端设备为提供所述需求信息的设备。在上述的实现过程中，若匹配结果为供给信息与需求信息匹配，则向提供需求信息的终端设备发送供给信息；从而有效地为需求信息匹配并向终端设备发送出相关度高的供给信息。

可选地，在本申请实施例中，所述供给信息包括简历信息，所述需求信息包括招聘信息，在所述使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配之前，还包括：接收所述终端设备发送的所述招聘信息；所述向终端设备发送所述供给信息，包括：向所述终端设备发送所述简历信息。在上述的实现过程中，通过接收终端设备发送的招聘信息；在使用预先处理的机器学习模型根据结构化特征和非结构化特征匹配到相关的简历信息之后，再向终端设备发送简历信息；从而有效地为招聘信息匹配并向终端设备发送相关度高的简历信息。

可选地，在本申请实施例中，所述供给信息包括标书信息，所述需求信息包括招标信息，在所述使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配之前，还包括：接收所述终端设备发送的所述招标信息；所述向终端设备发送所述供给信息，包括：向所述终端设备发送所述标书信息。在上述的实现过程中，通过接收终端设备发送的招标信息；在使用预先处理的机器学习模型根据结构化特征和非结构化特征匹配到相关的标书信息之后，再向终端设备发送标书信息；从而有效地为招标信息匹配并向终端设备发送相关度高的标书信息。

可选地，在本申请实施例中，所述获得供给信息中的结构化特征和非结构化特征，包括：获得所述需求信息和所述供给信息，所述供给信息包括：结构化数据和非结构化数据；根据所述供给信息对所述结构化数据进行第一预设处理，获得所述结构化特征；根据所述供给信息对所述非结构化数据进行第二预设处理，获得所述非结构化特征。在上述的实现过程中，通过根据供给信息对结构化数据进行第一预设处理，获得结构化特征；根据供给信息对非结构化数据进行第二预设处理，获得非结构化特征；从而有效地提高了获得结构化特征和非结构化特征的速度。

可选地，在本申请实施例中，所述结构化数据包括：离散数据和连续数据，所述结构化特征包括：至少一个第一标签特征和至少一个第二标签特征，所述根据所述供给信息对所述结构化数据进行第一预设处理，获得所述结构化特征，包括：对所述离散数据中的每个离散数值打标签，获得所述至少一个第一标签特征；将所述连续数据中的每个连续数值进行分段并打标签，获得所述至少一个第二标签特征。上述的实现过程中，通过对离散数据中的每个离散数值打标签，获得至少一个第一标签特征；将连续数据中的每个连续数值进行分段并打标签，获得至少一个第二标签特征；从而有效地提高了获得结构化特征的速度。

可选地，在本申请实施例中，所述非结构化特征包括相似程度特征，所述根据所述供给信息对所述非结构化数据进行第二预设处理，获得所述非结构化特征，包括：使用预先训练的神经网络模型计算所述需求信息和所述非结构化数据的相似程度，获得所述相似程度特征。在上述的实现过程中，通过使用预先训练的神经网络模型计算需求信息和非结构化数据的相似程度，获得相似程度特征；从而有效地提高了获得非结构化特征的速度。

可选地，在本申请实施例中，所述使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配，获得匹配结果，包括：将所述结构化特征和所述非结构化特征进行组合，获得多个特征；使用所述机器学习模型对所述多个特征进行匹配预测，获得预测的所述匹配结果。在上述的实现过程中，通过将结构化特征和非结构化特征进行组合，获得多个特征；使用机器学习模型对多个特征进行匹配预测，获得预测的匹配结果；从而有效地加快了获得匹配结果的速度。

可选地，在本申请实施例中，所述机器学习模型包括：梯度增强决策树；在所述使用所述机器学习模型对所述多个特征进行匹配预测，获得预测的所述匹配结果之前，还包括：使用所述梯度增强决策树对所述多个特征进行筛选，获得筛选后的多个特征。在上述的实现过程中，通过使用梯度增强决策树对多个特征进行筛选，获得筛选后的多个特征；从而有效地提高了获得匹配结果的准确率。

可选地，在本申请实施例中，所述机器学习模型包括：梯度增强决策树；所述使用所述机器学习模型对所述多个特征进行匹配预测，获得预测的所述匹配结果，包括：使用所述梯度增强决策树对所述多个特征进行匹配预测，获得预测的所述匹配结果。在上述的实现过程中，通过使用梯度增强决策树对多个特征进行匹配预测，获得预测的匹配结果；从而有效地提高了获得匹配结果的速度。

本申请实施例还提供了一种信息匹配装置，包括：特征获得模块，用于获得供给信息中的结构化特征和非结构化特征；结果获得模块，用于使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配，获得匹配结果。

可选地，在本申请实施例中，还包括：信息发送模块，用于若所述匹配结果为所述供给信息与所述需求信息匹配，则向终端设备发送所述供给信息，所述终端设备为提供所述需求信息的设备。

可选地，在本申请实施例中，所述供给信息包括简历信息，所述需求信息包括招聘信息，还包括：招聘接收模块，用于接收所述终端设备发送的所述招聘信息；所述信息发送模块，包括：简历发送模块，用于向所述终端设备发送所述简历信息。

可选地，在本申请实施例中，所述供给信息包括标书信息，所述需求信息包括招标信息，还包括：招标接收模块，用于接收所述终端设备发送的所述招标信息；所述信息发送模块，包括：标书发送模块，用于向所述终端设备发送所述标书信息。

可选地，在本申请实施例中，所述特征获得模块，包括：第一获得模块，用于获得所述需求信息和所述供给信息，所述供给信息包括：结构化数据和非结构化数据；第二获得模块，用于根据所述供给信息对所述结构化数据进行第一预设处理，获得所述结构化特征；第三获得模块，用于根据所述供给信息对所述非结构化数据进行第二预设处理，获得所述非结构化特征。

可选地，在本申请实施例中，所述结构化数据包括：离散数据和连续数据，所述结构化特征包括：至少一个第一标签特征和至少一个第二标签特征，所述第二获得模块，包括：第四获得模块，用于对所述离散数据中的每个离散数值打标签，获得所述至少一个第一标签特征；第五获得模块，用于将所述连续数据中的每个连续数值进行分段并打标签，获得所述至少一个第二标签特征。

可选地，在本申请实施例中，所述非结构化特征包括相似程度特征，所述第三获得模块，包括：第六获得模块，用于使用预先训练的神经网络模型计算所述需求信息和所述非结构化数据的相似程度，获得所述相似程度特征。

可选地，在本申请实施例中，所述结果获得模块，包括：第七获得模块，用于将所述结构化特征和所述非结构化特征进行组合，获得多个特征；第八获得模块，用于使用所述机器学习模型对所述多个特征进行匹配预测，获得预测的所述匹配结果。

可选地，在本申请实施例中，所述机器学习模型包括：梯度增强决策树；还包括：第九获得模块，用于使用所述梯度增强决策树对所述多个特征进行筛选，获得筛选后的多个特征。

可选地，在本申请实施例中，所述机器学习模型包括：梯度增强决策树；所述第八获得模块，包括：第十获得模块，用于使用所述梯度增强决策树对所述多个特征进行匹配预测，获得预测的所述匹配结果。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如上所述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的信息匹配方法示意图；

图2示出的本申请实施例提供的获得结构化特征和非结构化特征的示意图；

图3示出的本申请实施例提供的信息匹配装置示意图；

图4示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的信息匹配方法之前，先介绍本申请实施例所涉及的一些概念，本申请实施例所涉及的一些概念如下：

机器学习，是指人工智能领域中研究人类学习行为的一个分支。借鉴认知科学、生物学、哲学、统计学、信息论、控制论、计算复杂性等学科或理论的观点，通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力；机器学习的主要方法包括：概念学习、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习和增强学习等。

结构化数据，是指数据元素之间具有统一而且确定关系的数据；具体例如：人的身份证号码、姓名、电话号码和公司地址等等；这些数据相互之间是通过人这个实体而具有相互关联关系的，这些数据是统一地表征人的一些属性值的数据，因此，这些数据可以理解为结构化数据。

非结构化数据，是指数据元素之间没有统一和确定关系的数据，例如没有预定义的模式或者不按照预定义格式组织的数据；这里的非结构化数据具体例如：简历信息中的工作经历和标书信息中的公司资质、项目经历、行业中示范性解决方案，或者是图像或视频中的文字内容等等，这些数据是没有统一和确定关系的，因此，这些数据可以理解为非结构化数据。

决策树(Decision Tree)，是指一个流程图形式的树结构，其中每个中间结点代表某个属性或者某组属性上的测试，每个分支则对应了该测试的不同结果，每个叶结点代表某个类别或预测结果；从训练数据中产生决策树的算法，通常被称为决策树学习算法或决策树算法。

双向编码表示编码器(Bidirectional Encoder Representations fromTransformers，BERT)，又被翻译为基于Transformer的双向编码器表征，或者翻译为来自Transformer的双向编码器表示，通常简称为BERT，BERT是一种语言表现层(Representation)模型，该模型的设计目的在于，利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定自然语言处理任务中作微调，最终应用于该自然语言处理任务。在使用双向编码表示编码层进行运算时，即可以使用BERT模型进行编码(encode)、解码(decode)、自注意力(selfattention)机制和变形(transformer)等运算。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(ReducedInstruction Set Computing，RISC)、单字长定点指令平均执行速度(MillionInstructions Per Second，MIPS)等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的信息匹配方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digitalassistant，PDA)、移动上网设备(mobile Internet device，MID)、网络交换机或网络路由器等。

在介绍本申请实施例提供的信息匹配方法之前，先介绍该信息匹配方法适用的应用场景，这里的应用场景包括但不限于：使用该信息匹配方法从信息库中匹配关联的信息、使用该信息匹配方法匹配与招聘信息相关的简历信息、使用该信息匹配方法匹配与招标信息相关的标书信息等。

请参见图1示出的本申请实施例提供的信息匹配方法示意图；该信息匹配方法可以包括如下步骤：

步骤S110：电子设备获得供给信息中的结构化特征和非结构化特征。

供给信息，是指提供需求者需要供给的信息，具体例如：在招聘市场上，供给者例如是求职者，供给信息则是简历信息，这里的需求者例如是招聘公司，那么需求信息是招聘信息。这里的供给信息中包括：结构化数据和非结构化数据；具体例如：若供给信息是简历信息，那么简历信息中的姓名、电话号码和身份证号码等等数据为结构化数据，简历信息中的工作经历、项目经历或者工作项目经验等等为非结构化数据。

供给信息的获得方式包括：第一种方式，获取预先存储的供给信息；第二种方式，从其他终端设备接收获得供给信息；第三种方式，使用浏览器程序访问互联网获得供给信息。

结构化特征，是指根据供给信息中的结构化数据挖掘出的特征；例如：对结构化数据进行预处理获得的特征，预处理例如：对应期望薪资这个字段的数据，可以将期望薪资的数值划分为17个区间段，把薪资对应到各个区间段对应的范围，并用0-16表示各个薪资类别等；这里的预处理的方式有很多种，还有更详细地处理方式将在下面描述。

非结构化特征，是指根据供给信息中的非结构化数据挖掘出的特征；具体例如：获得简历信息中的工作经验或项目经历等非结构化数据，使用预先训练好的神经网络对非结构化数据和招聘信息的相似度进行计算，获得的相似度特征可以理解为非结构化特征；这里非结构化特征的具体获得方式将在下面进行详细地描述。

请参见图2示出的本申请实施例提供的获得结构化特征和非结构化特征的示意图；上述的获得供给信息中的结构化特征和非结构化特征的实施方式可以包括如下步骤：

步骤S111：电子设备获得需求信息和供给信息，供给信息包括：结构化数据和非结构化数据。

需求信息，是指需求者所提供的需要信息，具体例如：例如：在招标项目市场上，供给者例如是提供供给服务的乙方公司，乙方公司提供的标书信息就是供给信息，需求者是需要服务的甲方公司，甲方公司提供的招标信息就是需求信息。

需求信息的获得方式包括：第一种方式，获取预先存储的需求信息；第二种方式，从其他终端设备接收获得需求信息；第三种方式，使用爬虫软件获取互联网上的需求信息，或者使用程序访问互联网获得需求信息。

步骤S112：电子设备根据供给信息对结构化数据进行第一预设处理，获得结构化特征。

可以理解的是，上述的供给信息可以包括：结构化数据和非结构化数据；这里的结构化数据可以包括：离散数据和连续数据；离散数据是指在自然世界中的呈现离散状态的数据，例如可以是由离散点、线或者多边形表达的地表现象或者实体，又例如：公司中的员工数量和经历的项目个数等；连续数据是指主要表示连续分布的事物或特征，一般用浮点型的数据来表示，例如：员工的工资和连续工作时间等。

上述的根据供给信息对结构化数据进行第一预设处理，获得结构化特征的实施方式包括：对离散数据中的每个离散数值打标签，获得至少一个第一标签特征；具体例如：将居住地、工作行业、工作职位等字段，用1至n的数字形式对应各个类别，那么可以将这里的各个类别确定为第一标签特征。将连续数据中的每个连续数值进行分段并打标签，获得至少一个第二标签特征；具体例如：将期望薪资的数值划分为17个区间段，把薪资对应到各个区间段对应的范围，并用0-16表示各个薪资类别，将这里的薪资类别确定为第二标签特征；又例如：针对开始工作时间字段，可以将工作时间转化为工作年限，即用当前年份减去开始工作时间，得到简历信息对应的工作经验。也就是说，这里的结构化特征可以包括：至少一个第一标签特征和至少一个第二标签特征，即结构化特征可以包括对离散数据和连续数据进行处理获得的特征。

当然，在具体的实施过程中，也可以构造更多的特征例如：将部分特征进行组合，可以得到新的特征，与上面提到的方法类似，对于新的组合特征，我们也会将其用数字表示，例如，将简历中的“最低月薪”(包含17个类别)与招聘信息中的“最高月薪”字段(包含10个类别)组合，可以得到170个类别，分别用0-169进行标号获得第三标签特征等等。通过上述过程构建新特征的方式补充预测字段，同时考虑到多个特征的冗余性，从而可以进行特征筛选，这里的特征筛选的实施方式将在下面具体描述，根据特征选择获得最终选择的特征集为表现结果最佳的特征组合，即通过构建新特征，并将新特征合并至多个特征中，再进行特征选择可以获得表现结果最佳的特征组合，从而极大地提高了预测的准确率。

步骤S113：电子设备根据供给信息对非结构化数据进行第二预设处理，获得非结构化特征。

上述的根据供给信息对非结构化数据进行第二预设处理，获得非结构化特征的实施方式例如：使用预先训练的神经网络模型计算需求信息和非结构化数据的相似程度或匹配程度，获得相似匹配特征，这里的相似匹配特征也可以理解为相似程度特征；这里的非结构化特征可以包括相似程度特征。这里的预先训练的神经网络模型可以是BERT模型，那么上述的实施方式例如：使用BERT模型作为预训练模型将简历信息中的工作经历和项目经历等非结构化数据转化为第一字向量；使用BERT模型作为预训练模型将招聘信息的文字内容转换为第二字向量；再使用前馈神经网络模型计算第一字向量和第二字向量的相似度；其中，这里的相似度可以为0到1之间的数值，可以从非结构化特征方面代表简历信息和招聘信息的匹配程度，因此可以将这个相似度确定为上述的非结构化特征。通过使用预先训练的神经网络模型计算需求信息和非结构化信息的相似程度，获得相似程度特征；从而有效地提高了获得非结构化特征的速度。

上述的第一字向量和第二字向量的获得方式具体例如：采用BERT模型中的语句组分类(sentencepair classification)的任务，根据简历信息中的工作经历和项目经历等非结构化数据确定第一语句(sentence1)，并使用0作为分段(segment)标注该第一语句，根据招聘信息的文字内容第二语句(sentence2)，使用1作为分段(segment)标注该第二语句；这里进行标注是为了在两个语句进行合并后，上述的前馈神经网络模型可以根据分段标注识别两个部分的内容，避免混淆第一语句和第二语句。当然，在具体实践中，前馈神经网络模型的损失(loss)函数也可以采用二分类损失(binary classification loss)函数，以便输出结果为0-1的二分类值，对应的意义表征是否匹配；其中，若输出结果为0表征简历信息和招聘信息不匹配，若输出结果为1则表征匹配。上述的实现过程中，通过对离散数据中的每个离散数值打标签，获得至少一个第一标签特征；将连续数据中的每个连续数值进行分段并打标签，获得至少一个第二标签特征；从而有效地提高了获得结构化特征的速度。

当然，在具体的实施过程中，如果招聘信息的内容过长，例如可以将招聘信息的内容进行截断，目的是为简历内容保留至少80个字符空间，以保证每条输入数据都是包含招聘信息和简历信息，避免只有招聘信息的内容进行匹配，从而导致获得无意义的训练数据。在上述的实现过程中，通过根据供给信息对结构化数据进行第一预设处理，获得结构化特征；根据供给信息对非结构化数据进行第二预设处理，获得非结构化特征；从而有效地提高了获得结构化特征和非结构化特征的速度。

在步骤S110之后，执行步骤S120：电子设备使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，获得匹配结果。

机器学习模型，是指基于机器学习方法的算法模型，具体例如：决策树、梯度增强决策树(Gradient Boosting Decision Tree，GBDT)等；这里的GBDT又被称为梯度提升决策树，又简称梯度提升树(Gradient Boosting Tree，GBT)，又被称为梯度树提升(GradientTree Boosting，GTB)，梯度提升回归树(Gradient Boosting Regression Tree，GBRT),多元加性回归树(Multiple Additive Regression Tree，MART)等，主要是指结合回归树(Regression Decision Tree)和提升树(Boosting Decision Tree)的思想，并提出利用残差梯度来优化回归树的集成方法的模型。

上述的使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，获得匹配结果的实施方式可以包括如下步骤：

步骤S121：将结构化特征和非结构化特征进行组合，获得多个特征。

上述的将结构化特征和非结构化特征进行组合，获得多个特征的实施方式例如：若结构化特征包括：姓名、年龄和手机号码等12个结构化特征，且非结构化特征包括上述的第一字向量和第二字向量的相似度，那么将12个结构化特征和1个非结构化特征组合，可以获得13个特征，这里13个特征可以用于输入机器学习模型，从而获得简历信息和招聘信息的匹配结果。在上述的实现过程中，通过将结构化特征和非结构化特征进行组合，获得多个特征；使用机器学习模型对多个特征进行匹配预测，获得预测的匹配结果；从而有效地加快了获得匹配结果的速度。

步骤S122：使用机器学习模型对多个特征进行匹配预测，获得预测的匹配结果。

可以理解的是，上述的机器学习模型可以包括：随机森林、GBDT或支持向量机(Support Vector Machine，SVM)；这里的SVM是指一种监督式的机器学习算法，即通过将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面，从而实现对样本进行分类或回归分析，那些在间隔区边缘的训练样本点即为支持向量。

在具体的实施过程中，过多的特征可能会造成特征冗余，导致机器学习中的过拟合现象，表现为模型在训练集的效果非常好，但是在测试集中效果很差。为了避免这种情况的发生，可以对所有的特征进行特征筛选，选择出最佳的特征组合，能够更好地提升模型的预测结果。因此，使用机器学习模型对多个特征进行匹配预测，获得预测的匹配结果之前，还可以使用梯度增强决策树对多个特征进行特征筛选。在上述的实现过程中，通过使用梯度增强决策树对多个特征进行筛选，获得筛选后的多个特征；从而有效地提高了获得匹配结果的准确率。

上述的特征筛选的实施方式例如：使用GBDT对多个特征进行筛选，获得筛选后的多个特征；其中，GBDT算法包含内置的打分机制，可以给每个特征根据其重要程度进行打分。根据所有特征中的每个特征的得分进行降序排列，分别采取不同的阈值，从而获得特征的得分高于阈值的特征；通过训练GBDT模型，并预测招聘信息的内容中匹配简历信息的匹配结果，能够根据匹配结果的准确度判断特征组合的性能，最终选择出预测结果最好的特征组合。这里的GBDT是通过构建多个决策树的一个自适应提升(boosting)模型，每一棵决策树会根据上一棵决策树的预测结果，对其残差进行预测，预测的最终结果为所有决策树的预测结果之和。这里的boosting是指基于基学习器误差进行训练集采样，并序列化产生多个基学习器的一种集成学习方法；这里的基学习器是指多个同质或者异质的模型中的一个模型。

上述的使用机器学习模型对多个特征进行匹配预测，获得预测的匹配结果实施方式可以包括如下步骤：

步骤S123：使用梯度增强决策树对多个特征进行匹配预测，获得预测的匹配结果。

上述的使用梯度增强决策树对多个特征进行匹配预测，获得预测的匹配结果实施方式例如：根据上述最终选择出预测结果最好的特征组合确定梯度增强决策树，并使用梯度增强决策树对多个特征进行匹配预测，获得预测的匹配结果。由于使用梯度增强决策树深度地挖掘了招聘信息和简历信息的非结构化信息的相似度特征，并将相似度特征和结构化特征共同作为判断是否匹配的依据，与传统的非监督学习方法相比，有标注的BERT的深度学习模型使得预测更加可靠，使用上述信息匹配方法预测的匹配结果也更加准确。在上述的实现过程中，通过使用梯度增强决策树对多个特征进行匹配预测，获得预测的匹配结果；从而有效地提高了获得匹配结果的速度。

在上述的实现过程中，通过获得供给信息中的结构化特征和非结构化特征；使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，改善了匹配出的供给信息与需求信息的相关度低的问题。

可选地，在本申请实施例中，在获得匹配结果之后，即在步骤S120之后还可以包括如下步骤：

步骤S130：若匹配结果为供给信息与需求信息匹配，则电子设备向终端设备发送供给信息。

这里的终端设备是指提供需求信息的设备，也可以是上述的服务器，该服务器例如是招聘信息提供方、招聘公司或招标公司的服务器；终端设备可以是平板电脑、智能手机、个人数字助理或电子书阅读器等；或者，该终端设备也可以是智能音响、录音笔、手机、遥控器、个人电脑、网络交换机、网络路由器或台式主机等。

上述的电子设备向终端设备发送供给信息的实施方式例如：电子设备通过传输控制协议(Transmission Control Protocol，TCP)向终端设备发送供给信息，这里的TCP协议是指Internet最基本的协议、Internet国际互联网络的基础，由网络层的IP协议和传输层的TCP协议组成。可以是基于传输控制协议/因特网互联协议(TCP/IP)，也可以是基于超文本传输协议进行通信。

在上述的实现过程中，若匹配结果为供给信息与需求信息匹配，则向提供需求信息的终端设备发送供给信息；从而有效地为需求信息匹配并向终端设备发送出相关度高的供给信息。

从上面的描述可以得知，上述的信息匹配方法可以适用的应用场景包括但不限于招聘市场和招标市场两种情况，下面分别对这两种情况进行说明：

第一种情况，在招聘市场中，供给信息可以包括简历信息，需求信息可以包括招聘信息，在使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配之前，即在步骤S120之前还包括如下步骤：

步骤S124：电子设备接收终端设备发送的招聘信息。

上述的电子设备接收终端设备发送的招聘信息实施方式例如：电子设备通过异步方式接收终端设备发送的招聘信息，这里的异步方式例如：服务器使用前后端分离架构情况，具体地，前端使用控制层和视图层分离的框架，这些框架例如：Knockout、Angular、React或Vue；后端使用控制层和数据访问层分离的框架，这些框架例如：RESTful接口等等。又例如：电子设备与服务器可以实现数据实时性交互，例如：可以采用ASP.NET Signal方法进行数据的交互，Signal支持服务器推送功能，在服务器中可以调用在浏览器中的客户端代码。

上面描述的电子设备向终端设备发送供给信息，即步骤S130可以包括如下步骤：

步骤S131：电子设备向终端设备发送简历信息。

上述的电子设备向终端设备发送简历信息的实施方式例如：电子设备通过浏览器/服务器(Browser/Server，B/S)方式向终端设备发送简历信息，当然，电子设备也可以通过客户端和服务端(Client/Server，C/S)方式向终端设备发送简历信息。

在上述的实现过程中，通过接收终端设备发送的招聘信息；在使用预先处理的机器学习模型根据结构化特征和非结构化特征匹配到相关的简历信息之后，再向终端设备发送简历信息；从而有效地为招聘信息匹配并向终端设备发送相关度高的简历信息。

第二种情况，在招标市场中，供给信息包括标书信息，需求信息包括招标信息，在使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配之前，还包括：

步骤S125：电子设备接收终端设备发送的招标信息。

其中，该步骤的实施原理和实施方式与步骤S124的实施原理和实施方式是相似或类似的，区别仅在于，步骤S124接收的是招聘信息，而这里接收的是招标信息，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S124的描述。

上述的电子设备向终端设备发送供给信息，即步骤S130可以包括如下步骤：

步骤S132：电子设备向终端设备发送标书信息。

其中，该步骤的实施原理和实施方式与步骤S131的实施原理和实施方式是相似或类似的，区别仅在于，步骤S131发送的是简历信息，而这里发送的是标书信息，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S131的描述。

在上述的实现过程中，通过接收终端设备发送的招标信息；在使用预先处理的机器学习模型根据结构化特征和非结构化特征匹配到相关的标书信息之后，再向终端设备发送标书信息；从而有效地为招标信息匹配并向终端设备发送相关度高的标书信息。

请参见图3示出的本申请实施例提供的信息匹配装置示意图；本申请实施例提供了一种信息匹配装置300，包括：

特征获得模块310，用于获得供给信息中的结构化特征和非结构化特征。

结果获得模块320，用于使用预先处理的机器学习模型根据结构化特征和非结构化特征判断供给信息与需求信息是否匹配，获得匹配结果。

可选地，在本申请实施例中，还包括：

信息发送模块，用于若匹配结果为供给信息与需求信息匹配，则向终端设备发送供给信息，终端设备为提供需求信息的设备。

可选地，在本申请实施例中，供给信息包括简历信息，需求信息包括招聘信息，还包括：

招聘接收模块，用于接收终端设备发送的招聘信息。

信息发送模块，包括：

简历发送模块，用于向终端设备发送简历信息。

可选地，在本申请实施例中，供给信息包括标书信息，需求信息包括招标信息，还包括：

招标接收模块，用于接收终端设备发送的招标信息。

信息发送模块，包括：

标书发送模块，用于向终端设备发送标书信息。

可选地，在本申请实施例中，特征获得模块，包括：

第一获得模块，用于获得需求信息和供给信息，供给信息包括：结构化数据和非结构化数据。

第二获得模块，用于根据供给信息对结构化数据进行第一预设处理，获得结构化特征。

第三获得模块，用于根据供给信息对非结构化数据进行第二预设处理，获得非结构化特征。

可选地，在本申请实施例中，结构化数据包括：离散数据和连续数据，结构化特征包括：至少一个第一标签特征和至少一个第二标签特征，第二获得模块，包括：

第四获得模块，用于对离散数据中的每个离散数值打标签，获得至少一个第一标签特征。

第五获得模块，用于将连续数据中的每个连续数值进行分段并打标签，获得至少一个第二标签特征。

可选地，在本申请实施例中，非结构化特征包括相似程度特征，第三获得模块，包括：

第六获得模块，用于使用预先训练的神经网络模型计算需求信息和非结构化数据的相似程度，获得相似程度特征。

可选地，在本申请实施例中，结果获得模块，包括：

第七获得模块，用于将结构化特征和非结构化特征进行组合，获得多个特征。

第八获得模块，用于使用机器学习模型对多个特征进行匹配预测，获得预测的匹配结果。

可选地，在本申请实施例中，机器学习模型包括：梯度增强决策树；还包括：

第九获得模块，用于使用梯度增强决策树对多个特征进行筛选，获得筛选后的多个特征。

可选地，在本申请实施例中，机器学习模型包括：梯度增强决策树；第八获得模块，包括：

第十获得模块，用于使用梯度增强决策树对多个特征进行匹配预测，获得预测的匹配结果。

应理解的是，该装置与上述的信息匹配方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的信息匹配方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种信息匹配方法，其特征在于，包括：

获得供给信息中的结构化特征和非结构化特征；

使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配，获得匹配结果；

其中，所述获得供给信息中的结构化特征和非结构化特征，包括：获得所述需求信息和所述供给信息，所述供给信息包括：结构化数据和非结构化数据；根据所述供给信息对所述结构化数据进行第一预设处理，获得所述结构化特征；根据所述供给信息对所述非结构化数据进行第二预设处理，获得所述非结构化特征，包括：使用预先训练的双向编码表示编码器BERT模型计算所述需求信息和所述非结构化数据的相似程度或匹配程度，获得所述非结构化特征中的相似匹配特征；所述机器学习模型包括：梯度提升决策树GBDT；所述根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配，包括：将所述结构化特征和所述非结构化特征进行组合，获得多个特征；使用所述GBDT对所述多个特征进行筛选，并对筛选后的多个特征中的每个特征进行打分，根据所有特征中的每个特征的得分进行降序排列，从而获得特征的得分高于阈值的多个特征，使用所述GBDT对所述得分高于阈值的多个特征进行匹配预测。

2.根据权利要求1所述的方法，其特征在于，所述结构化数据包括：离散数据和连续数据，所述结构化特征包括：至少一个第一标签特征和至少一个第二标签特征，所述根据所述供给信息对所述结构化数据进行第一预设处理，获得所述结构化特征，包括：

对所述离散数据中的每个离散数值打标签，获得所述至少一个第一标签特征；

将所述连续数据中的每个连续数值进行分段并打标签，获得所述至少一个第二标签特征。

3.根据权利要求1所述的方法，其特征在于，在所述获得匹配结果之后，还包括：

若所述匹配结果为所述供给信息与所述需求信息匹配，则向终端设备发送所述供给信息，所述终端设备为提供所述需求信息的设备。

4.根据权利要求3所述的方法，其特征在于，所述供给信息包括简历信息，所述需求信息包括招聘信息，在所述使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配之前，还包括：

接收所述终端设备发送的所述招聘信息；

所述向终端设备发送所述供给信息，包括：

向所述终端设备发送所述简历信息。

5.一种信息匹配装置，其特征在于，包括：

特征获得模块，用于获得供给信息中的结构化特征和非结构化特征；

结果获得模块，用于使用预先处理的机器学习模型根据所述结构化特征和所述非结构化特征判断所述供给信息与需求信息是否匹配，获得匹配结果；

6.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的方法。

7.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4任一所述的方法。