CN109446302A

CN109446302A - 基于机器学习的问答数据处理方法、装置和计算机设备

Info

Publication number: CN109446302A
Application number: CN201811119947.9A
Authority: CN
Inventors: 李俊; 季志斌; 方涛
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-03-08
Anticipated expiration: 2038-09-25
Also published as: CN109446302B

Abstract

本申请涉及一种基于机器学习的问答数据处理方法、装置和计算机设备。包括：接收多个终端根据问题数据发送的答案数据；从多个第三方网站爬取与问题数据对应的答案数据；获取分类模型对多个答案数据进行分类，并添加对应的类别标签；将多个答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并存储至答案库中；当接收到终端根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，并添加对应的类别标签；根据类别标签在答案库中获取对应的答案数据；获取语义匹配模型对问题信息与答案数据进行匹配；提取出匹配度满足阈值的答案数据，并发送至对应的终端。采用本方法能够有效提高答案匹配的准确率。

Description

基于机器学习的问答数据处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于机器学习的问答数据处理方法、装置和计算机设备。

背景技术

随着人工智能技术的迅速发展，出现了很多智能问答系统，能够十分便捷地对用户提出的问题自动提供相对应的答案。传统的智能问答系统，当用户输入问题后，通常只是通过提取问题中的关键词，并根据提取出的关键词从预先设置的答案数据中获取对应的答案，并将答案返回给用户终端。

然而，目前的问答方式中，根据提取的关键词获取的答案与问题之间不一定相关联，且大多的答案数据是预先配置的有限的数据，具有固定性，进而导致获取的答案与问题之间匹配的准确率率较低。因此，如何有效提高答案与问题匹配的准确率成为目前需要解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高答案匹配的准确率的基于机器学习的问答数据处理方法、装置和计算机设备。

一种基于机器学习的问答数据处理方法，包括：

接收多个终端根据问题数据发送的答案数据；

从多个第三方网站爬取与问题数据对应的答案数据；

获取预设的分类模型，通过所述分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；

将多个答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中；

当接收到终端根据问题信息发送的答案获取请求时，通过所述分类模型对所述问题信息进行分类，对分类后的问题信息添加对应的类别标签；

根据所述类别标签在答案库中获取对应的多个答案数据；

获取预设的语义匹配模型，通过所述语义匹配模型将所述问题信息与多个答案数据进行匹配；

提取出匹配度满足阈值的答案数据，并将所述答案数据发送至对应的终端。

在其中一个实施例中，所述获取分类模型之前，还包括：获取多个问题数据和答案数据；利用多个问题数据和答案数据生成训练集和验证集；将所述训练集中的数据输入至预设的神经网络模型中进行训练，得到初始分类模型；根据所述验证集中的数据对所述初始分类模型进行验证；当所述验证集中预设数量的数据达到预设阈值时，得到训练完成的分类模型。

在其中一个实施例中，所述通过所述分类模型对所述问题信息进行分类，包括：对所述问题信息进行特征提取，得到问题信息特征；将所述问题信息特征输入至所述分类模型，通过所述分类模型计算出所述问题信息特征所属类别的概率值；提取所述概率值达到预设概率值的类别，并对所述问题信息添加所属类别对应的类别标签。

在其中一个实施例中，所述通过所述语义匹配模型将所述问题信息与获取的答案数据进行匹配，包括：提取所述问题信息的问题关键词和多个答案数据对应的答案关键词；对所述问题关键词和所述答案关键词进行特征提取，提取出对应的关键词向量；将所述问题关键词向量和所述答案关键词向量输入至所述语义匹配模型中进行匹配；计算问题关键词与每个答案关键词之间的匹配度。

在其中一个实施例中，对分类后的答案数据添加对应的类别标签之后，还包括：根据类别标签获取对应的产品数据，所述产品数据包括对应的产品标识和产品类别；提取出所述产品数据的关键词，并对所述产品数据添加对应的关键词标签；建立类别标签、产品类别、关键词标签和产品标识之间的映射关系，并生成对应的产品匹配表。

在其中一个实施例中，所述答案获取请求包括用户标识，所述对分类后的问题信息添加所属类别对应的类别标签之后，还包括：对所述用户标识添加对应的类别标签；获取预先建立的产品匹配表，所述产品匹配表中存储了类别标签与产品标识之间的映射关系；将所述类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；根据所述产品标识获取对应的产品数据，并将所述产品数据推送至所述用户标识对应的终端。

一种基于机器学习的问答数据处理装置，包括：

接收模块，用于接收多个终端根据问题数据发送的答案数据；

获取模块，用于从多个第三方网站爬取与问题数据对应的答案数据；

分类模块，用于获取预设的分类模型，通过所述分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；

匹配模块，用于将多个答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中；

所述分类模块还用于当接收到终端根据问题信息发送的答案获取请求时，通过所述分类模型对所述问题信息进行分类，对分类后的问题信息添加对应的类别标签；

所述获取模块还用于根据所述类别标签在答案库中获取对应的多个答案数据；

所述匹配模块还用于获取预设的语义匹配模型，通过所述语义匹配模型将所述问题信息与多个答案数据进行匹配；

发送模块，用于提取出匹配度满足阈值的答案数据，并将所述答案数据发送至对应的终端。

在其中一个实施例中，所述装置还包括产品推送模块，用于对所述用户标识添加对应的类别标签；获取预先建立的产品匹配表，所述产品匹配表中存储了类别标签与产品标识之间的映射关系；将所述类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；根据所述产品标识获取对应的产品数据，并将所述产品数据推送至所述用户标识对应的终端。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

接收多个终端根据问题数据发送的答案数据；

从多个第三方网站爬取与问题数据对应的答案数据；

根据所述类别标签在答案库中获取对应的多个答案数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

接收多个终端根据问题数据发送的答案数据；

从多个第三方网站爬取与问题数据对应的答案数据；

根据所述类别标签在答案库中获取对应的多个答案数据；

上述基于机器学习的问答数据处理方法、装置和计算机设备，服务器接收多个终端根据问题数据发送的答案数据；从多个第三方网站爬取与问题数据对应的答案数据；获取预设的分类模型，通过分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；将答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中。由此答案数据库中则包括了大量的经过筛选过滤后的答案数据。当接收到终端根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，对分类后的问题信息添加对应的类别标签；根据类别标签在答案库中获取对应的多个答案数据；获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配；提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端。通过分类模型对问题信息进行分类，能够有效地确定问题信息的具体类别，从而在答案库中获取对应类别的答案数据进行进一步匹配，由此能够有效地提高问题信息与答案数据的匹配准确率。

附图说明

图1为一个实施例中基于机器学习的问答数据处理方法的应用场景图；

图2为一个实施例中基于机器学习的问答数据处理方法的流程示意图；

图3为一个实施例中分类模型训练步骤的流程示意图；

图4为一个实施例中产品数据推送步骤的流程示意图；

图5为一个实施例中基于机器学习的问答数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于机器学习的问答数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104接收多个终端102根据问题数据发送的答案数据；从多个第三方网站爬取与问题数据对应的答案数据；获取预设的分类模型，通过分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；将答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中。由此答案数据库中则包括了大量的经过筛选过滤后的答案数据。当接收到终端102根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，对分类后的问题信息添加对应的类别标签；根据类别标签在答案库中获取对应的多个答案数据；获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配；提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端102。通过分类模型对问题信息进行分类，能够有效地确定问题信息的具体类别，从而在答案库中获取对应类别的答案数据进行进一步匹配，由此能够有效地提高问题信息与答案数据的匹配准确率。

在一个实施例中，如图2所示，提供了一种基于机器学习的问答数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，接收多个终端根据问题数据发送的答案数据。

其中，问题数据可以是用户通过对应的终端发送的问题信息，答案数据可以是多个终端针对网页或应用程序等展示的问题数据进行回答后发送的答案数据。终端可以包括普通用户对应的终端和专业人员对应的终端。

用户可以通过对应的终端访问网页、论坛和公众号等，网页、论坛和公众号等可以设置有对应的问答区，用户可以通过终端在问答区根据问题数据向服务器发送对应的答案数据。服务器则接收多个终端根据问题数据发送的多个答案数据。

步骤204，从多个第三方网站爬取与问题数据对应的答案数据。

第三方网站可以是多个互联网平台对应的网站，例如百度、天涯和知乎等网站。第三方网站中可能存在多个与问题数据相对应的答案数据。服务器可以利用网络爬虫技术从多个第三方网站中根据问题数据爬取与问题数据对应的答案数据。

步骤206，获取预设的分类模型，通过分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签。

服务器接收到多个终端根据问题数据发送的多个答案数据，并从多个第三方网站爬取与问题数据对应的多个答案数据后，进一步对接收和获取的多个答案数据进行分类。具体地，服务器获取预设的分类模型，其中，分类模型可以是服务器通过对大量的问题数据和答案数据进行机器学习，进而训练生成的分类模型。具体地，服务器首先对答案数据进行特征提取，得到对应的答案数据特征。其中，答案数据特征可以是答案数据对应的特征向量。将提取的答案数据特征输入至分类模型中，通过分类模型计算答案数据特征对应每个类别的概率值。提取出概率值达到预设阈值对应的类别，并对答案数据添加所属类别对应的类别标签。其中，答案数据对应的类别标签可以包括一个或多个。

步骤208，将答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中。

问题数据中可以预先添加了对应的类别标签，问题数据的类别标签可以只有一个也可以有多个。服务器对答案数据进行分类，并添加对应的类别标签后，则将答案数据的类别标签与问题数据的类别标签进行匹配。具体地，服务器可以通过相似度匹配的方式计算出答案数据的类别标签与问题数据的类别标签的匹配度。进而筛选出达到预设匹配度的答案数据，由此可以将与问题数据关联性较低的答案数据过滤掉，例如，可以有效地过滤掉一些与问题数据无关的的答案数据。服务器并将达到预设匹配度的答案数据存储至答案库中，通过对获取的大量的答案数据进行过滤后存储，能够有效地保证答案库中的答案数据与问题数据的相关性，由此有利于提高答案与问题的匹配准确率。

步骤210，当接收到终端根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，对分类后的问题信息添加对应的类别标签。

服务器将大量的分类后的答案数据存储至答案库后，答案库中的答案数据则用于匹配用户通过对应的终端发送的问题信息。

用户可以通过对应的终端通过网站、公众号和应用程序等向服务器发送携带有问题信息的答案获取请求，服务器接收到终端根据问题信息发送的答案获取请求后，则获取分类模型，通过分类模型对问题信息进行分类，并对分类后的问题信息添加对应的类别标签。

步骤212，根据类别标签在答案库中获取对应的多个答案数据。

答案库中已经存储了多个类别标签对应的答案数据，服务器对问题信息进行分类并添加对应的类别标签后，则可以根据类别标签在答案库中获取所有与类别标签对应的多个答案数据。其中，获取的答案数据可以包括类别标签相同的答案数据，还可以包括类别标签相近似的答案数据，由此可以有效地获取与问题信息相关的答案数据。

步骤214，获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配。

步骤216，提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端。

服务器根据类别标签获取多个答案数据后，进一步获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配。具体地，服务器提取问题信息的问题关键词和多个答案数据对应的答案关键词，对问题关键词和答案关键词进行特征提取，提取出对应的关键词向量。进而服务器将问题关键词向量和答案关键词向量作为语义匹配模型的输入，由此通过语义匹配模型对问题关键词向量和多个答案关键词向量进行匹配，并计算出问题关键词与每个答案关键词之间的匹配度。通过语义匹配模型能够有效地对问题信息与获取的答案数据进行匹配。

进一步地，服务器提取出匹配度满足阈值的答案数据，例如，满足阈值的答案数据可以是匹配度最高的答案数据，服务器并将提取出的匹配度满足阈值的答案数据发送至对应的终端。由于答案库中的答案数据是根据与问题数据的相关性进行筛选和过滤的，因此对终端发送的问题信息匹配对应的答案数据时，首先通过分类模型对问题信息进行分类，能够有效地确定问题信息的具体类别，从而在答案库中获取对应类别的答案数据进行进一步匹配，由此能够有效地提高问题信息与答案数据的匹配准确率。

上述基于机器学习的问答数据处理方法中，服务器接收多个终端根据问题数据发送的答案数据；从多个第三方网站爬取与问题数据对应的答案数据；获取预设的分类模型，通过分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；将答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中。由此答案数据库中则包括了大量的经过筛选过滤后的答案数据。当接收到终端根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，对分类后的问题信息添加对应的类别标签；根据类别标签在答案库中获取对应的多个答案数据；获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配；提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端。通过分类模型对问题信息进行分类，能够有效地确定问题信息的具体类别，从而在答案库中获取对应类别的答案数据进行进一步匹配，由此能够有效地提高问题信息与答案数据的匹配准确率。

在一个实施例中，获取分类模型之前，还包括训练分类模型的步骤，该步骤具体包括以下内容：

步骤302，获取多个问题数据和答案数据；

步骤304，利用多个问题数据和答案数据生成训练集和验证集；

步骤306，将训练集中的数据输入至预设的神经网络模型中进行训练，得到初始分类模型；

步骤308，根据验证集中的数据对初始分类模型进行验证；

步骤310，当验证集中预设数量的数据达到预设阈值时，得到训练完成的分类模型。

在获取分类模型之前，需要利用大量的训练数据训练出分类模型，这些大量的训练数据可以是服务器预先获取的大量的问题数据和答案数据，例如服务器可以利用网络爬虫技术从多个第三方网站中根据问题数据爬取与问题数据对应的答案数据。

并利用多个问题数据和答案数据生成训练集和验证集。在训练分类模型时，可以首先通过人工对训练数据进行标注，利用人工标注后的训练数据进行训练得到分类模型。具体地，服务器利用训练集中标注了类别标签的数据，服务器通过将训练集中的药品数据输入至预先建立的基于神经网络的分类模型中进行训练，由此可以得到初步分类模型。

经过初步训练得到初步分类模型后，服务器则将验证集中的数据再输入至初步分类模型中进行训练和验证。其中验证集可以分为多个部分的验证集数据，利用多个验证集数据进行持续训练，直到所有验证集中预设数量的验证集数据对应类别的概率值在预设阈值时，预设阈值可以是预设的范围值，则停止训练，得到所需的分类模型，进而得到训练完成的分类模型。通过利用大量的问题数据和答案数据通过网络神经模型进行训练，由此可以有效地训练出准确率较高的分类模型。通过利用神经网络模型的分类模型对答案数据进行分类，进而可以有效地提高答案数据分类的准确率。

在一个实施例中，通过分类模型对问题信息进行分类，包括：对问题信息进行特征提取，得到问题信息特征；将问题信息特征输入至分类模型，通过分类模型计算出问题信息特征所属类别的概率值；提取概率值达到预设概率值的类别，并对问题信息添加所属类别对应的类别标签。

服务器接收到用户对应的终端根据问题信息发送的答案获取请求后，进一步根据问题信息获取预先建立的分类模型，并对问题信息进行特征提取。具体地，问题信息中可以包括多个语句或词汇，服务器则分别提取出每个语句或词汇对应的特征，由此得到问题信息特征，并将问题信息特征输入至分类模型中进行分类。

例如，可以通过计算出每个语句或词汇对应的文本向量，从而得到每个语句或词汇对应的特征向量。进而将问题信息对应的多个特征向量输入至分类模型中，通过分类模型计算出问题信息特征对应每个类别的概率值。提取出概率值达到预设概率值对应的类别，并对问题信息添加所属类别相对应的类别标签。进一步地，服务器还可以对终端对应的用户标识添加所属类别相对应的类别标签。其中，达到预设概率值对应的类别可以有多个，则对问题信息添加所属类别相对应的类别标签也可以有多个。通过分类模型对问题信息进行分类，可以有效提高问题信息分类的效率和准确性。

在一个实施例中，通过语义匹配模型将问题信息与获取的答案数据进行匹配，包括：提取问题信息的问题关键词和多个答案数据对应的答案关键词；对问题关键词和答案关键词进行特征提取，提取出对应的关键词向量；将问题关键词向量和答案关键词向量输入至语义匹配模型中进行匹配；计算问题关键词与每个答案关键词之间的匹配度。

服务器接收到用户对应的终端根据问题信息发送的答案获取请求后，则获取分类模型，通过分类模型对问题信息进行分类，并对分类后的问题信息添加对应的类别标签。答案库中已经存储了多个类别标签对应的答案数据，服务器对问题信息进行分类并添加对应的类别标签后，则可以根据类别标签在答案库中获取所有与类别标签对应的多个答案数据。

服务器根据类别标签获取多个答案数据后，进一步获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配。具体地，服务器可以提取问题信息的问题关键词和多个答案数据对应的答案关键词，并对问题关键词和答案关键词进行特征提取，提取出对应的关键词向量。例如，可以通过计算出每个问题关键词和答案关键词对应的文本向量，从而得到每个问题关键词和答案关键词对应的关键词向量。进而服务器将问题关键词向量和答案关键词向量输入至语义匹配模型中进行匹配，由此可以通过语义匹配模型计算问题关键词与每个答案关键词之间的匹配度。服务器则提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端。通过预设的语义匹配模型对问题信息与多个答案数据进行匹配，提取出匹配度满足阈值的答案数据，由此能够有效提高答案数据与问题信息匹配的准确率。

在一个实施例中，对分类后的答案数据添加对应的类别标签之后，还包括：根据类别标签获取对应的产品数据，产品数据包括对应的产品标识和产品类别；提取出产品数据的关键词，并对产品数据添加对应的关键词标签；建立类别标签、产品类别、关键词标签和产品标识之间的映射关系，并生成对应的产品匹配表。

服务器接收到多个终端根据问题数据发送的多个答案数据，并从多个第三方网站爬取与问题数据对应的多个答案数据后，进一步对接收和获取的多个答案数据进行分类。具体地，服务器获取预设的分类模型，其中，分类模型可以是服务器通过对大量的问题数据和答案数据进行机器学习，进而训练生成的分类模型。服务器则将获取的多个答案数据输入至分类模型中，通过分类模型计算答案数据特征对应每个类别的概率值。提取出概率值达到预设阈值对应的类别，并对答案数据添加所属类别对应的类别标签。其中，答案数据对应的类别标签可以包括一个或多个。

服务器对分类后的答案数据添加对应的类别标签之后，则可以根据类别标签获取对应的产品数据，每个产品数据中包括了对应的产品标识和产品类别。服务器可以提取出产品数据的关键词，并对产品数据添加对应的关键词标签，由此服务器则可以进一步利用类别标签、产品类别、关键词和产品标识来建立答案数据的类别标签与相匹配的产品数据建立映射关系，并生成对应的产品匹配表。

例如，当答案数据的类别标签中包含“保险”标签时，根据答案数据的类别标签可以确定该答案对应的产品类别为保险服务，服务器则获取保险类的产品数据，每个保险产品数据中包括了对应的产品标识和产品类别，产品类别可以包括“寿险”、“医疗险”、“车险”等。服务器则进一步提取出答案数据中的关键词，例如“保险”、“医疗”、“养老”、“疾病”、“车祸”等关键词，其中，每个答案数据可以包括多个关键词。服务器则可以利用类别标签、产品类别、关键词和产品标识来建立答案数据的类别标签与相匹配的产品数据建立映射关系，例如，类别标签为“保险”，产品类别为“保险服务”，关键词包括“保险”、“医疗”和“疾病”，则对应关联的产品标识则为“医疗保险”对应的产品数据。其中，一个答案数据可以对应多个产品数据。由此可以有效地建立答案数据和对应的产品数据之间的匹配表。

在一个实施例中，答案获取请求包括用户标识，对分类后的问题信息添加所属类别对应的类别标签之后，还包括推送产品数据的步骤，该步骤具体包括以下内容：

步骤402，对用户标识添加对应的类别标签；

步骤404，获取预先建立的产品匹配表，产品匹配表中存储了类别标签与产品标识之间的映射关系；

步骤406，将类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；

步骤408，根据产品标识获取对应的产品数据，并将产品数据推送至用户标识对应的终端。

服务器接收到用户对应的终端根据问题信息发送的答案获取请求后，答案获取请求中携带了用户标识。服务器则获取分类模型，通过分类模型对问题信息进行分类，并对分类后的问题信息添加对应的类别标签。答案库中已经存储了多个类别标签对应的答案数据，服务器对问题信息进行分类并添加对应的类别标签后，并对用户标识添加对应的类别标签。

服务器进一步获取预设的产品匹配表，产品匹配表中存储了类别标签与产品标识之间的映射关系，产品匹配表中包括了类别标签、产品类别、关键词和产品标识。服务器则将问题信息的类别标签与匹配表中的类别标签、产品类别和关键词进行匹配，并计算出与每个产品标识对应的类别标签、产品类别和关键词之间的匹配度。服务器获取达到预设匹配值对应的产品标识，进而根据产品标识获取对应的产品数据，并将产品数据推送至用户标识对应的终端。

例如，当问题信息的类别标签包括“保险”、“医疗”和“疾病”时，则可以根据这些类别标签从产品匹配表中获取到与“医疗保险”对应的多个产品数据，并将获取的产品数据推送给对应的终端，由此能够有效地为用户推送相匹配的个性化的产品数据，还能够有效提高产品数据推送后的点击成功率。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于机器学习的问答数据处理装置，包括：接收模块502、获取模块504、分类模块506、匹配模块508和发送模块510，其中：

接收模块502，用于接收多个终端根据问题数据发送的答案数据；

获取模块504，用于从多个第三方网站爬取与问题数据对应的答案数据；

分类模块506，用于获取预设的分类模型，通过分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；

匹配模块508，用于将多个答案数据的类别标签与问题数据的类别标签进行匹配，筛选出达到预设匹配度的答案数据，并将达到预设匹配度的答案数据存储至答案库中；

分类模块506还用于当接收到终端根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，对分类后的问题信息添加对应的类别标签；

获取模块504还用于根据类别标签在答案库中获取对应的多个答案数据；

匹配模块508还用于获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配；

发送模块510，用于提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端。

在一个实施例中，获取模块504还用于获取多个问题数据和答案数据；该装置还包括分类模型训练模块，用于利用多个问题数据和答案数据生成训练集和验证集；将训练集中的数据输入至预设的神经网络模型中进行训练，得到初始分类模型；根据验证集中的数据对初始分类模型进行验证；当验证集中预设数量的数据达到预设阈值时，得到训练完成的分类模型。

在一个实施例中，分类模块506还用于对问题信息进行特征提取，得到问题信息特征；将问题信息特征输入至分类模型，通过分类模型计算出问题信息特征所属类别的概率值；提取概率值达到预设概率值的类别，并对问题信息添加所属类别对应的类别标签。

在一个实施例中，匹配模块508还用于提取问题信息的问题关键词和多个答案数据对应的答案关键词；对问题关键词和答案关键词进行特征提取，提取出对应的关键词向量；将问题关键词向量和答案关键词向量输入至语义匹配模型中进行匹配；计算问题关键词与每个答案关键词之间的匹配度。

在一个实施例中，该装置还包括匹配表建立模块，用于根据类别标签获取对应的产品数据，产品数据包括对应的产品标识和产品类别；提取出产品数据的关键词，并对产品数据添加对应的关键词标签；建立类别标签、产品类别、关键词标签和产品标识之间的映射关系，并生成对应的产品匹配表。

在一个实施例中，答案获取请求包括用户标识，该装置还包括产品推送模块，用于对用户标识添加对应的类别标签；获取预先建立的产品匹配表，产品匹配表中存储了类别标签与产品标识之间的映射关系；将类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；根据产品标识获取对应的产品数据，并将产品数据推送至用户标识对应的终端。

关于基于机器学习的问答数据处理装置的具体限定可以参见上文中对于基于机器学习的问答数据处理方法的限定，在此不再赘述。上述基于机器学习的问答数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储问题数据、答案数据、产品匹配表和问题信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的问答数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

接收多个终端根据问题数据发送的答案数据；

从多个第三方网站爬取与问题数据对应的答案数据；

获取预设的分类模型，通过分类模型对多个答案数据进行分类，并对分类后的答案数据添加对应的类别标签；

当接收到终端根据问题信息发送的答案获取请求时，通过分类模型对问题信息进行分类，对分类后的问题信息添加对应的类别标签；

根据类别标签在答案库中获取对应的多个答案数据；

获取预设的语义匹配模型，通过语义匹配模型将问题信息与多个答案数据进行匹配；

提取出匹配度满足阈值的答案数据，并将答案数据发送至对应的终端。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取多个问题数据和答案数据；利用多个问题数据和答案数据生成训练集和验证集；将训练集中的数据输入至预设的神经网络模型中进行训练，得到初始分类模型；根据验证集中的数据对初始分类模型进行验证；当验证集中预设数量的数据达到预设阈值时，得到训练完成的分类模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对问题信息进行特征提取，得到问题信息特征；将问题信息特征输入至分类模型，通过分类模型计算出问题信息特征所属类别的概率值；提取概率值达到预设概率值的类别，并对问题信息添加所属类别对应的类别标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取问题信息的问题关键词和多个答案数据对应的答案关键词；对问题关键词和答案关键词进行特征提取，提取出对应的关键词向量；将问题关键词向量和答案关键词向量输入至语义匹配模型中进行匹配；计算问题关键词与每个答案关键词之间的匹配度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据类别标签获取对应的产品数据，产品数据包括对应的产品标识和产品类别；提取出产品数据的关键词，并对产品数据添加对应的关键词标签；建立类别标签、产品类别、关键词标签和产品标识之间的映射关系，并生成对应的产品匹配表。

在一个实施例中，答案获取请求包括用户标识，处理器执行计算机程序时还实现以下步骤：对用户标识添加对应的类别标签；获取预先建立的产品匹配表，产品匹配表中存储了类别标签与产品标识之间的映射关系；将类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；根据产品标识获取对应的产品数据，并将产品数据推送至用户标识对应的终端。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

接收多个终端根据问题数据发送的答案数据；

从多个第三方网站爬取与问题数据对应的答案数据；

根据类别标签在答案库中获取对应的多个答案数据；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取多个问题数据和答案数据；利用多个问题数据和答案数据生成训练集和验证集；将训练集中的数据输入至预设的神经网络模型中进行训练，得到初始分类模型；根据验证集中的数据对初始分类模型进行验证；当验证集中预设数量的数据达到预设阈值时，得到训练完成的分类模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对问题信息进行特征提取，得到问题信息特征；将问题信息特征输入至分类模型，通过分类模型计算出问题信息特征所属类别的概率值；提取概率值达到预设概率值的类别，并对问题信息添加所属类别对应的类别标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：提取问题信息的问题关键词和多个答案数据对应的答案关键词；对问题关键词和答案关键词进行特征提取，提取出对应的关键词向量；将问题关键词向量和答案关键词向量输入至语义匹配模型中进行匹配；计算问题关键词与每个答案关键词之间的匹配度。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据类别标签获取对应的产品数据，产品数据包括对应的产品标识和产品类别；提取出产品数据的关键词，并对产品数据添加对应的关键词标签；建立类别标签、产品类别、关键词标签和产品标识之间的映射关系，并生成对应的产品匹配表。

在一个实施例中，答案获取请求包括用户标识，计算机程序被处理器执行时还实现以下步骤：对用户标识添加对应的类别标签；获取预先建立的产品匹配表，产品匹配表中存储了类别标签与产品标识之间的映射关系；将类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；根据产品标识获取对应的产品数据，并将产品数据推送至用户标识对应的终端。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于机器学习的问答数据处理方法，包括：

接收多个终端根据问题数据发送的答案数据；

从多个第三方网站爬取与问题数据对应的答案数据；

根据所述类别标签在答案库中获取对应的多个答案数据；

2.根据权利要求1所述的方法，其特征在于，所述获取分类模型之前，还包括：

获取多个问题数据和答案数据；

利用多个问题数据和答案数据生成训练集和验证集；

将所述训练集中的数据输入至预设的神经网络模型中进行训练，得到初始分类模型；

根据所述验证集中的数据对所述初始分类模型进行验证；

当所述验证集中预设数量的数据达到预设阈值时，得到训练完成的分类模型。

3.根据权利要求1所述的方法，其特征在于，所述通过所述分类模型对所述问题信息进行分类，包括：

对所述问题信息进行特征提取，得到问题信息特征；

将所述问题信息特征输入至所述分类模型，通过所述分类模型计算出所述问题信息特征所属类别的概率值；

提取所述概率值达到预设概率值的类别，并对所述问题信息添加所属类别对应的类别标签。

4.根据权利要求1所述的方法，其特征在于，所述通过所述语义匹配模型将所述问题信息与获取的答案数据进行匹配，包括：

提取所述问题信息的问题关键词和多个答案数据对应的答案关键词；

对所述问题关键词和所述答案关键词进行特征提取，提取出对应的关键词向量；

将所述问题关键词向量和所述答案关键词向量输入至所述语义匹配模型中进行匹配；

计算问题关键词与每个答案关键词之间的匹配度。

5.根据权利要求1所述的方法，其特征在于，对分类后的答案数据添加对应的类别标签之后，还包括：

根据类别标签获取对应的产品数据，所述产品数据包括对应的产品标识和产品类别；

提取出所述产品数据的关键词，并对所述产品数据添加对应的关键词标签；

建立类别标签、产品类别、关键词标签和产品标识之间的映射关系，并生成对应的产品匹配表。

6.根据权利要求5所述的方法，其特征在于，所述答案获取请求包括用户标识，所述对分类后的问题信息添加所属类别对应的类别标签之后，还包括：

对所述用户标识添加对应的类别标签；

获取预先建立的产品匹配表，所述产品匹配表中存储了类别标签与产品标识之间的映射关系；

将所述类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；

根据所述产品标识获取对应的产品数据，并将所述产品数据推送至所述用户标识对应的终端。

7.一种基于机器学习的问答数据处理装置，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括产品推送模块，用于对所述用户标识添加对应的类别标签；获取预先建立的产品匹配表，所述产品匹配表中存储了类别标签与产品标识之间的映射关系；将所述类别标签与产品匹配表中的产品类别和关键词标签进行匹配，获取达到预设匹配值对应的产品标识；根据所述产品标识获取对应的产品数据，并将所述产品数据推送至所述用户标识对应的终端。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。