CN113312482A - 问题分类方法、装置、电子设备及可读存储介质 - Google Patents

问题分类方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113312482A
CN113312482A CN202110611251.3A CN202110611251A CN113312482A CN 113312482 A CN113312482 A CN 113312482A CN 202110611251 A CN202110611251 A CN 202110611251A CN 113312482 A CN113312482 A CN 113312482A
Authority
CN
China
Prior art keywords
category
question
classification
classification model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110611251.3A
Other languages
English (en)
Inventor
刘婷
刘淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Securities Co Ltd
Original Assignee
Ping An Securities Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Securities Co Ltd filed Critical Ping An Securities Co Ltd
Priority to CN202110611251.3A priority Critical patent/CN113312482A/zh
Publication of CN113312482A publication Critical patent/CN113312482A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及智能决策,揭露一种问题分类方法,包括:每隔预设时间,获取问题分类模型的历史分类数据,确定问题分类模型对应的待优化问题类别;对历史分类数据执行第一处理,得到问题分类模型对应的初始数据集;获取待优化问题类别对应的标准文本,基于标准文本对初始数据集执行第二处理,得到问题分类模型对应的目标数据集;利用目标数据集对问题分类模型训练,得到训练好的问题分类模型;将待分类问题输入训练好的问题分类模型,得到目标问题类别。本发明还提供一种问题分类装置、电子设备及可读存储介质。本发明提高了问题分类的准确性。

Description

问题分类方法、装置、电子设备及可读存储介质
技术领域
本发明涉及智能决策领域,尤其涉及一种问题分类方法、装置、电子设备及可读存储介质。
背景技术
随着科技的发展,问题分类模型在人们生活中的应用越加广泛,例如,在商场、医院、银行门口的智能问答机器人可对人们提出的路线、服务相关问题进行分类并解答。
问题分类模型的分类准确性依赖于合适的训练集,目前训练集通常是人工筛选的,带来的工作量巨大,筛选效率较低,且筛选结果主观性大,导致得到的训练集与模型匹配度不够高,从而使得模型分类准确度不高。因此,亟需一种问题分类方法,以提高问题分类的准确性。
发明内容
鉴于以上内容,有必要提供一种问题分类方法,旨在提高问题分类的准确性。
本发明提供的问题分类方法,包括:
每隔预设时间,从第一数据库中获取问题分类模型在所述预设时间内产生的历史分类数据,基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别;
对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集;
从第二数据库中获取所述待优化问题类别对应的标准文本,基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集;
利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型;
解析用户基于第一客户端发出的问题分类请求,获取所述问题分类请求携带的待分类问题,将所述待分类问题输入所述训练好的问题分类模型,得到所述待分类问题对应的目标问题类别。
可选的,所述历史分类数据包括多个问题及所述多个问题中每个问题对应的问题类别及评分,所述基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别包括:
将所述历史分类数据中每个问题类别对应的评分的集合作为每个问题类别对应的评分集;
确定每个评分集中评分小于第一阈值的评分的数量;
计算每个评分集中评分的平均值;
基于所述数量及平均值确定每个问题类别对应的类别分值;
将类别分值最小的问题类别作为所述问题分类模型对应的待优化问题类别。
可选的,所述对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集包括:
将所述历史分类数据中问题的集合作为第一问题集合,剔除所述第一问题集合中评分小于第二阈值的问题,得到第二问题集合;
从第三数据库中获取所述问题分类模型对应的携带类别标注信息的语料集,剔除所述第二问题集合中与所述语料集中语料的相似度值大于第三阈值的问题,得到第三问题集合;
基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息,将携带类别标注信息的第三问题集合与所述语料集合并,得到所述问题分类模型对应的初始数据集。
可选的,所述基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息包括:
将所述第三问题集合中评分大于第四阈值的第一问题对应的问题类别作为所述第一问题的真实类别;
将所述第三问题集合中评分小于或等于第四阈值的第二问题发送到第二客户端,将所述第二客户端反馈的问题类别作为所述第二问题的真实类别;
基于所述真实类别确定所述第三问题集合中每个问题的类别标注信息。
可选的,所述基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集包括:
将所述初始数据集中待优化问题类别对应的问题的集合作为第一数据集,将其它问题类别对应的问题的集合作为第二数据集;
将所述第一数据集中与所述标准文本的相似度值大于第五阈值的问题的集合作为第三数据集;
将从所述第三数据集中抽取的第一比例的问题的集合作为正样本集;
将从所述第二数据集中抽取的第二比例的问题的集合作为负样本集;
将所述正样本集及负样本集的集合作为所述问题分类模型对应的目标数据集。
可选的,所述利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型包括:
将所述目标数据集输入所述问题分类模型,得到所述目标数据集中每个问题对应的预测类别;
基于所述类别标注信息确定所述目标数据集中每个问题对应的真实类别,通过最小化预测类别与真实类别之间的损失值确定所述问题分类模型的结构参数,得到训练好的问题分类模型。
可选的,所述损失值的计算公式为:
Figure BDA0003094718100000031
其中,qi为目标数据集中第i个问题对应的预测类别,pi为目标数据集中第i个问题对应的真实类别,c为目标数据集中问题的总数量,loss(qi,pi)为目标数据集中第i个问题的预测类别与真实类别之间的损失值。
为了解决上述问题,本发明还提供一种问题分类装置,所述装置包括:
获取模块,用于每隔预设时间,从第一数据库中获取问题分类模型在所述预设时间内产生的历史分类数据,基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别;
第一处理模块,用于对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集;
第二处理模块,用于从第二数据库中获取所述待优化问题类别对应的标准文本,基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集;
训练模块,用于利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型;
分类模块,用于解析用户基于第一客户端发出的问题分类请求,获取所述问题分类请求携带的待分类问题,将所述待分类问题输入所述训练好的问题分类模型,得到所述待分类问题对应的目标问题类别。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的问题分类程序,所述问题分类程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述问题分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有问题分类程序,所述问题分类程序可被一个或者多个处理器执行,以实现上述问题分类方法。
相较现有技术,本发明首先每隔预设时间获取问题分类模型的历史分类数据,确定待优化问题类别;接着,对历史分类数据执行第一处理,得到初始数据集;基于待优化问题类别对应的标准文本对初始数据集执行第二处理,得到目标数据集;然后,利用目标数据集对问题分类模型训练,得到训练好的问题分类模型;最后,将待分类问题输入训练好的问题分类模型,得到目标问题类别。本方案通过每隔预设时间获取历史分类数据保证了目标数据集的多样性及实时性,根据待优化问题类别对应的标准文本对初始数据集执行第二处理,使得目标数据集与待优化问题类别的匹配度更高,从而训练好的问题分类模型的分类准确性更高。因此,本发明提高了问题分类的准确性。
附图说明
图1为本发明一实施例提供的问题分类方法的流程示意图;
图2为本发明一实施例提供的问题分类装置的模块示意图;
图3为本发明一实施例提供的实现问题分类方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种问题分类方法。参照图1所示,为本发明一实施例提供的问题分类方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,问题分类方法包括:
S1、每隔预设时间,从第一数据库中获取问题分类模型在所述预设时间内产生的历史分类数据,基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别。
本实施例以问题分类模型为金融问题分类模型为例进行说明,金融问题分类模型可识别到的问题类别包括:开户问题类别、理财产品购买问题类别、退保问题类别等。
所述历史分类数据可以是运用金融问题分类模型进行金融问题分类产生的数据,例如,各银行网点中智能机器人与用户的对答数据。
所述历史分类数据包括多个问题及所述多个问题中每个问题对应的问题类别、答案及评分。例如,各银行网点中智能机器人与用户的对答数据中包括用户问题、金融问题分类模型对用户问题分类得到的问题类别、智能机器人为用户问题输出的答案、用户基于答案给出的评分。
所述基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别包括:
A11、将所述历史分类数据中每个问题类别对应的评分的集合作为每个问题类别对应的评分集;
A12、确定每个评分集中评分小于第一阈值的评分的数量;
A13、计算每个评分集中评分的平均值;
A14、基于所述数量及平均值确定每个问题类别对应的类别分值;
所述类别分值的计算公式可以是:yi=ami+bni,其中,yi为第i个问题类别对应的类别分值,mi为第i个问题类别对应的评分集中评分小于第一阈值的评分的数量,ni为第i个问题类别对应的评分集中评分的平均值,a、b分别为预先确定的评分的数量及平均值的权重值。
A15、将类别分值最小的问题类别作为所述问题分类模型对应的待优化问题类别。
若开户问题类别对应的类别分值最小,说明开户问题类别需要优化,将开户问题类别作为金融问题分类模型的待优化问题类别。
本方案每隔预设时间获取问题分类模型的历史分类数据,基于历史分类数据确定问题分类模型对应的待优化问题类别,使得问题分类模型的优化范围更具有针对性。
S2、对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集。
因历史分类数据中问题众多,需要对其中的问题进行筛选及标注处理,以便于后续的模型训练。
所述对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集,包括:
B11、将所述历史分类数据中问题的集合作为第一问题集合,剔除所述第一问题集合中评分小于第二阈值的问题,得到第二问题集合;
用户的评分在一定程度上反映了问题分类模型对用户问题分类的准确性,本实施例中,所述第二阈值为60(评分最高值为100),将评分小于60的问题从第一问题集合中剔除,实现了剔除历史分类数据中分类结果准确性较低的语料。
B12、从第三数据库中获取所述问题分类模型对应的携带类别标注信息的语料集,剔除所述第二问题集合中与所述语料集中语料的相似度值大于第三阈值的问题,得到第三问题集合;
第三数据库中存储有问题分类模型对应的语料集,为避免语料集与第二问题集合中的问题重合,本步骤对第二问题集合中的重复问题进行去重处理。
本实施例中,可采用多种相似度计算方法计算第二问题集合中的问题与语料集中每个语料的相似度值,例如,余弦相似度、曼哈顿距离、欧几里得距离、明式距离,上述相似度计算方法皆为现有技术,在此不做赘述。以余弦相似度计算方法为例,第三阈值可以是98%,剔除第二问题集合中与语料集中语料的相似度值大于98%的问题,避免了第三问题集合中问题与语料集中语料重合的情况。
B13、基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息,将携带类别标注信息的第三问题集合与所述语料集合并,得到所述问题分类模型对应的初始数据集。
第三问题集合中的问题为本次新抽取的语料,为便于后续的问题分类模型的训练,需要对第三问题集合中的问题进行问题类别标注。
所述基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息,包括:
C11、将所述第三问题集合中评分大于第四阈值的第一问题对应的问题类别作为所述第一问题的真实类别;
本实施例中,所述第四阈值可以是80,当问题对应的评分较高时(评分大于80),可认为问题分类模型对问题分类得到的问题类别较为准确,可将历史分类数据中问题对应的问题类别作为问题的真实类别。
通过将第三问题集合中评分大于第四阈值的第一问题对应的问题类别作为第一问题的真实类别,实现了自动标注第一问题的类别信息,加快了标注效率。C12、将所述第三问题集合中评分小于或等于第四阈值的第二问题发送到第二客户端,将所述第二客户端反馈的问题类别作为所述第二问题的真实类别;
因已剔除历史分类数据中评分低于60的问题,则第三问题集合中评分小于或等于第四阈值的第二问题的评分的范围集中在60~80之间,可得出,第二问题的评分皆不够高,无法确定历史分类数据中问题分类模型分类得到的问题类别是否准确,因此,本实施例将第二问题发送到第二客户端通过人工标注的方式确定第二问题的真实类别。
C13、基于所述真实类别确定所述第三问题集合中每个问题的类别标注信息。
通过步骤C11确定了第三问题集合中第一问题的真实类别,通过步骤C12确定了第三问题集合中第二问题的真实类别,然后,将第三问题集合中每个问题的真实类别作为其类别标注信息。
在所述剔除所述第一问题集合中评分小于第二阈值的问题之前,所述方法还包括:
判断所述第一问题集合中各个问题是否为问句,剔除所述第一问题集合中不是问句的问题。
本实施例中,可采用问句分类器(例如,逻辑回归、决策树、支持向量机)判断问题是否为问句,具体判断过程在此不做赘述。
此步骤可剔除用户与智能机器人沟通过程中的非问句,例如,“原来是这样”、“我知道怎么做了”、“你说的很清楚”。
S3、从第二数据库中获取所述待优化问题类别对应的标准文本,基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集。
本实施例中,问题分类模型的每个问题类别分别对应一个标准文本,例如,金融问题分类模型的开户问题类别对应的标准文本为“怎么开户”,退保问题类别对应的标准文本为“如何退保”。所述标准文本可以是预先设置的,也可以是将历史分类数据中对应问题类别的问题中用户提问最多的问题作为标准文本。
所述基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集,包括:
D11、将所述初始数据集中待优化问题类别对应的问题的集合作为第一数据集,将其它问题类别对应的问题的集合作为第二数据集;
本实施例中,将金融问题分类模型对应的初始数据集中开户问题类别对应的问题的集合作为第一数据集,将购买理财产品问题类别、退保问题类别对应的问题的集合作为第二数据集。
D12、将所述第一数据集中与所述标准文本的相似度值大于第五阈值的问题的集合作为第三数据集;
第一数据集中问题的类别标注信息与待优化问题类别相同,然而这些问题的类别标注信息部分是自动标注的,部分是人工标注的,无法保证类别标注信息完全正确,在不能确定类别标注信息完全正确的情况下,不适合从第一数据集中抽取正样本集。
本实施例中,所述第五阈值为95%,抽取第一数据集中与标准文本的相似度值大于95%的问题,得到第三数据集,保证了第三数据集中的问题与待优化问题类别的匹配度较高,从而可从第三数据集中抽取正样本。
D13、将从所述第三数据集中抽取的第一比例的问题的集合作为正样本集;
本实施例中,所述第一比例可以是65%,若预先设定的目标数据集(即训练集)中样本的需求数量为10000,则从第三数据集中抽取6500个问题作为正样本集。
D14、将从所述第二数据集中抽取的第二比例的问题的集合作为负样本集;
第二数据集中问题的类别标注信息与待优化问题类别不同,可直接从第二数据集中抽取负样本,所述第二比例可以是35%,可从第二数据集中抽取3500个问题作为负样本集。
D15、将所述正样本集及负样本集的集合作为所述问题分类模型对应的目标数据集。
汇总正样本集及负样本集,即得到了问题分类模型对应的目标数据集(即训练集)。
从与标准文本的相似度值大于第五阈值的问题的集合中抽取样本作为正样本集,使得正样本集与待优化问题类别更为匹配,可使问题分类模型的训练效果更好。
S4、利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型。
所述利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型包括:
E11、将所述目标数据集输入所述问题分类模型,得到所述目标数据集中每个问题对应的预测类别;
E12、基于所述类别标注信息确定所述目标数据集中每个问题对应的真实类别,通过最小化预测类别与真实类别之间的损失值确定所述问题分类模型的结构参数,得到训练好的问题分类模型。
所述损失值的计算公式为:
Figure BDA0003094718100000091
其中,qi为目标数据集中第i个问题对应的预测类别,pi为目标数据集中第i个问题对应的真实类别,c为目标数据集中问题的总数量,loss(qi,pi)为目标数据集中第i个问题的预测类别与真实类别之间的损失值。
S5、解析用户基于第一客户端发出的问题分类请求,获取所述问题分类请求携带的待分类问题,将所述待分类问题输入所述训练好的问题分类模型,得到所述待分类问题对应的目标问题类别。
本实施例中,每隔预设时间,皆为问题分类模型抽取近段时间的历史分类数据并进行第一处理、第二处理,得到问题分类模型对应的目标数据集,充分保证了语料的丰富性、实时性,并实现了每次训练都生成新的目标数据集,避免了模型过拟合的问题。
由上述实施例可知,本发明提出的问题分类方法,首先,每隔预设时间获取问题分类模型的历史分类数据,确定待优化问题类别;接着,对历史分类数据执行第一处理,得到初始数据集;基于待优化问题类别对应的标准文本对初始数据集执行第二处理,得到目标数据集;然后,利用目标数据集对问题分类模型训练,得到训练好的问题分类模型;最后,将待分类问题输入训练好的问题分类模型,得到目标问题类别。本方案通过每隔预设时间获取历史分类数据保证了目标数据集的多样性及实时性,根据待优化问题类别对应的标准文本对初始数据集执行第二处理,使得目标数据集与待优化问题类别的匹配度更高,从而训练好的问题分类模型的分类准确性更高。因此,本发明提高了问题分类的准确性。
如图2所示,为本发明一实施例提供的问题分类装置的模块示意图。
本发明所述问题分类装置100可以安装于电子设备中。根据实现的功能,所述问题分类装置100可以包括获取模块110、第一处理模块120、第二处理模块130、训练模块140及分类模块150。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块110,用于每隔预设时间,从第一数据库中获取问题分类模型在所述预设时间内产生的历史分类数据,基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别。
所述基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别包括:
A21、将所述历史分类数据中每个问题类别对应的评分的集合作为每个问题类别对应的评分集;
A22、确定每个评分集中评分小于第一阈值的评分的数量;
A23、计算每个评分集中评分的平均值;
A24、基于所述数量及平均值确定每个问题类别对应的类别分值;
A25、将类别分值最小的问题类别作为所述问题分类模型对应的待优化问题类别。
第一处理模块120,用于对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集。
所述对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集,包括:
B21、将所述历史分类数据中问题的集合作为第一问题集合,剔除所述第一问题集合中评分小于第二阈值的问题,得到第二问题集合;
B22、从第三数据库中获取所述问题分类模型对应的携带类别标注信息的语料集,剔除所述第二问题集合中与所述语料集中语料的相似度值大于第三阈值的问题,得到第三问题集合;
B23、基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息,将携带类别标注信息的第三问题集合与所述语料集合并,得到所述问题分类模型对应的初始数据集。
所述基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息,包括:
C21、将所述第三问题集合中评分大于第四阈值的第一问题对应的问题类别作为所述第一问题的真实类别;
C22、将所述第三问题集合中评分小于或等于第四阈值的第二问题发送到第二客户端,将所述第二客户端反馈的问题类别作为所述第二问题的真实类别;
C23、基于所述真实类别确定所述第三问题集合中每个问题的类别标注信息。
第二处理模块130,用于从第二数据库中获取所述待优化问题类别对应的标准文本,基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集。
所述基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集,包括:
D21、将所述初始数据集中待优化问题类别对应的问题的集合作为第一数据集,将其它问题类别对应的问题的集合作为第二数据集;
D22、将所述第一数据集中与所述标准文本的相似度值大于第五阈值的问题的集合作为第三数据集;
D23、将从所述第三数据集中抽取的第一比例的问题的集合作为正样本集;
D24、将从所述第二数据集中抽取的第二比例的问题的集合作为负样本集;
D25、将所述正样本集及负样本集的集合作为所述问题分类模型对应的目标数据集。
训练模块140,用于利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型。
所述利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型包括:
E21、将所述目标数据集输入所述问题分类模型,得到所述目标数据集中每个问题对应的预测类别;
E22、基于所述类别标注信息确定所述目标数据集中每个问题对应的真实类别,通过最小化预测类别与真实类别之间的损失值确定所述问题分类模型的结构参数,得到训练好的问题分类模型。
所述损失值的计算公式为:
Figure BDA0003094718100000121
其中,qi为目标数据集中第i个问题对应的预测类别,pi为目标数据集中第i个问题对应的真实类别,c为目标数据集中问题的总数量,loss(qi,pi)为目标数据集中第i个问题的预测类别与真实类别之间的损失值。
分类模块150,用于解析用户基于第一客户端发出的问题分类请求,获取所述问题分类请求携带的待分类问题,将所述待分类问题输入所述训练好的问题分类模型,得到所述待分类问题对应的目标问题类别。
如图3所示,为本发明一实施例提供的实现问题分类方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有问题分类程序10,所述问题分类程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及问题分类程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的问题分类程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行问题分类程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的问题分类程序10是多个指令的组合,在所述处理器12中运行时,可以实现如上述问题分类方法,具体地,所述处理器12对上述问题分类程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有问题分类程序10,所述问题分类程序10可被一个或者多个处理器执行,以实现如上述问题分类方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种问题分类方法,其特征在于,所述方法包括:
每隔预设时间,从第一数据库中获取问题分类模型在所述预设时间内产生的历史分类数据,基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别;
对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集;
从第二数据库中获取所述待优化问题类别对应的标准文本,基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集;
利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型;
解析用户基于第一客户端发出的问题分类请求,获取所述问题分类请求携带的待分类问题,将所述待分类问题输入所述训练好的问题分类模型,得到所述待分类问题对应的目标问题类别。
2.如权利要求1所述的问题分类方法,其特征在于,所述历史分类数据包括多个问题及所述多个问题中每个问题对应的问题类别及评分,所述基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别包括:
将所述历史分类数据中每个问题类别对应的评分的集合作为每个问题类别对应的评分集;
确定每个评分集中评分小于第一阈值的评分的数量;
计算每个评分集中评分的平均值;
基于所述数量及平均值确定每个问题类别对应的类别分值;
将类别分值最小的问题类别作为所述问题分类模型对应的待优化问题类别。
3.如权利要求2所述的问题分类方法,其特征在于,所述对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集包括:
将所述历史分类数据中问题的集合作为第一问题集合,剔除所述第一问题集合中评分小于第二阈值的问题,得到第二问题集合;
从第三数据库中获取所述问题分类模型对应的携带类别标注信息的语料集,剔除所述第二问题集合中与所述语料集中语料的相似度值大于第三阈值的问题,得到第三问题集合;
基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息,将携带类别标注信息的第三问题集合与所述语料集合并,得到所述问题分类模型对应的初始数据集。
4.如权利要求3所述的问题分类方法,其特征在于,所述基于所述问题类别及评分确定所述第三问题集合中每个问题的类别标注信息包括:
将所述第三问题集合中评分大于第四阈值的第一问题对应的问题类别作为所述第一问题的真实类别;
将所述第三问题集合中评分小于或等于第四阈值的第二问题发送到第二客户端,将所述第二客户端反馈的问题类别作为所述第二问题的真实类别;
基于所述真实类别确定所述第三问题集合中每个问题的类别标注信息。
5.如权利要求2所述的问题分类方法,其特征在于,所述基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集包括:
将所述初始数据集中待优化问题类别对应的问题的集合作为第一数据集,将其它问题类别对应的问题的集合作为第二数据集;
将所述第一数据集中与所述标准文本的相似度值大于第五阈值的问题的集合作为第三数据集;
将从所述第三数据集中抽取的第一比例的问题的集合作为正样本集;
将从所述第二数据集中抽取的第二比例的问题的集合作为负样本集;
将所述正样本集及负样本集的集合作为所述问题分类模型对应的目标数据集。
6.如权利要求3所述的问题分类方法,其特征在于,所述利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型包括:
将所述目标数据集输入所述问题分类模型,得到所述目标数据集中每个问题对应的预测类别;
基于所述类别标注信息确定所述目标数据集中每个问题对应的真实类别,通过最小化预测类别与真实类别之间的损失值确定所述问题分类模型的结构参数,得到训练好的问题分类模型。
7.如权利要求6所述的问题分类方法,其特征在于,所述损失值的计算公式为:
Figure FDA0003094718090000031
其中,qi为目标数据集中第i个问题对应的预测类别,pi为目标数据集中第i个问题对应的真实类别,c为目标数据集中问题的总数量,loss(qi,pi)为目标数据集中第i个问题的预测类别与真实类别之间的损失值。
8.一种问题分类装置,其特征在于,所述装置包括:
获取模块,用于每隔预设时间,从第一数据库中获取问题分类模型在所述预设时间内产生的历史分类数据,基于所述历史分类数据确定所述问题分类模型对应的待优化问题类别;
第一处理模块,用于对所述历史分类数据执行第一处理,得到所述问题分类模型对应的初始数据集;
第二处理模块,用于从第二数据库中获取所述待优化问题类别对应的标准文本,基于所述标准文本对所述初始数据集执行第二处理,得到所述问题分类模型对应的目标数据集;
训练模块,用于利用所述目标数据集对所述问题分类模型训练,得到训练好的问题分类模型;
分类模块,用于解析用户基于第一客户端发出的问题分类请求,获取所述问题分类请求携带的待分类问题,将所述待分类问题输入所述训练好的问题分类模型,得到所述待分类问题对应的目标问题类别。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的问题分类程序,所述问题分类程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的问题分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有问题分类程序,所述问题分类程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的问题分类方法。
CN202110611251.3A 2021-06-01 2021-06-01 问题分类方法、装置、电子设备及可读存储介质 Pending CN113312482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110611251.3A CN113312482A (zh) 2021-06-01 2021-06-01 问题分类方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110611251.3A CN113312482A (zh) 2021-06-01 2021-06-01 问题分类方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113312482A true CN113312482A (zh) 2021-08-27

Family

ID=77376969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110611251.3A Pending CN113312482A (zh) 2021-06-01 2021-06-01 问题分类方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113312482A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113932875A (zh) * 2021-09-15 2022-01-14 中联重科股份有限公司 用于确定搅拌站的计量秤容积的方法、处理器及搅拌站

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677779A (zh) * 2015-12-30 2016-06-15 山东大学 一种基于评分机制的反馈型问题类型分类器系统及其工作方法
CN109189881A (zh) * 2018-06-20 2019-01-11 网宿科技股份有限公司 人机交互方法及智能机器人
CN110399492A (zh) * 2019-07-22 2019-11-01 阿里巴巴集团控股有限公司 针对用户问句的问题分类模型的训练方法和装置
CN111382252A (zh) * 2020-02-25 2020-07-07 支付宝(杭州)信息技术有限公司 基于用户请求的问题类别确定方法、装置、设备及介质
CN111563152A (zh) * 2020-06-19 2020-08-21 平安科技(深圳)有限公司 智能问答语料分析方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677779A (zh) * 2015-12-30 2016-06-15 山东大学 一种基于评分机制的反馈型问题类型分类器系统及其工作方法
CN109189881A (zh) * 2018-06-20 2019-01-11 网宿科技股份有限公司 人机交互方法及智能机器人
CN110399492A (zh) * 2019-07-22 2019-11-01 阿里巴巴集团控股有限公司 针对用户问句的问题分类模型的训练方法和装置
CN111382252A (zh) * 2020-02-25 2020-07-07 支付宝(杭州)信息技术有限公司 基于用户请求的问题类别确定方法、装置、设备及介质
CN111563152A (zh) * 2020-06-19 2020-08-21 平安科技(深圳)有限公司 智能问答语料分析方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113932875A (zh) * 2021-09-15 2022-01-14 中联重科股份有限公司 用于确定搅拌站的计量秤容积的方法、处理器及搅拌站

Similar Documents

Publication Publication Date Title
CN115146865A (zh) 基于人工智能的任务优化方法及相关设备
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
CN112597135A (zh) 用户分类方法、装置、电子设备及可读存储介质
CN111860377A (zh) 基于人工智能的直播方法、装置、电子设备及存储介质
CN112801718A (zh) 用户行为预测方法、装置、设备及介质
CN115081538A (zh) 基于机器学习的客户关系识别方法、装置、设备及介质
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
CN114756669A (zh) 问题意图的智能分析方法、装置、电子设备及存储介质
CN112288337B (zh) 行为推荐方法、装置、设备及介质
CN113312482A (zh) 问题分类方法、装置、电子设备及可读存储介质
CN113344433A (zh) 产品匹配方法、装置、电子设备及可读存储介质
CN112395401A (zh) 自适应负样本对采样方法、装置、电子设备及存储介质
CN114818685B (zh) 关键词提取方法、装置、电子设备及存储介质
CN111429085A (zh) 合同数据生成方法、装置、电子设备及存储介质
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN113610580B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113706252B (zh) 产品推荐方法、装置、电子设备及存储介质
CN113688239B (zh) 少样本下的文本分类方法、装置、电子设备及存储介质
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
CN114722146A (zh) 基于人工智能的供应链资产校验方法、装置、设备及介质
CN113064984A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
CN113987351A (zh) 基于人工智能的智能推荐方法、装置、电子设备及介质
CN113486145B (zh) 基于网络节点的用户咨询回复方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination