CN112115240A

CN112115240A - 分类处理方法、装置、服务器和存储介质

Info

Publication number: CN112115240A
Application number: CN201910541766.3A
Authority: CN
Inventors: 段立生; 何源川; 王锴睿; 王鑫磊; 张亚鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2020-12-22

Abstract

本发明实施例公开了一种分类处理方法、装置、服务器和存储介质。该方法包括：依据知识图谱，对用户主诉描述信息的类别信息进行修正；将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

Description

分类处理方法、装置、服务器和存储介质

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种分类处理方法、装置、服务器和存储介质。

背景技术

随着互联网技术的快速发展，用户可以通过互联网上的问询平台进行咨询，问询平台首先会根据用户的问询需求进行分类，再向用户推荐相应类别的回复者，为用户提供专业的问询服务。因此正确地分类对于用户问询十分重要。

目前，线下的问询中心可以通过人工判断，为用户提供专业的问询分类服务。例如，实体医院中可以通过分诊台或挂号室为患者提供分诊服务。或者线上的互联网问询平台中，用户需要在网页或者手机客户端中输入自己的主要诉求，通过后台专业的工作人员对用户的诉求进行人工分类；或者后台依据用户诉求中关键词之间的映射关系来进行智能分类，例如后台依据用户诉求中疾病、症状等关键词之间的映射关系来进行智能分诊。

然而，人工的分类方式对于工作人员的专业知识掌握水平要求较高，专业知识的掌握范围要求较广，人工雇佣成本较高，且人工分类错误率较高。此外由于中文的表述方式多样化，基于关键词的智能分类方式无法对表述歧义以及分类冲突的情况进行准确定位，分类的准确率较低。

发明内容

本发明实施例提供了一种分类处理方法、装置、服务器和存储介质，能够降低分类模型训练中样本数据的标注成本，提高分类的准确率。

第一方面，本发明实施例提供了一种分类处理方法，包括：

依据知识图谱，对用户主诉描述信息的类别信息进行修正；

将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

第二方面，本发明实施例提供了一种分类处理装置，包括：

类别信息修正模块，用于依据知识图谱，对用户主诉描述信息的类别信息进行修正；

分类模型训练模块，用于将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的分类处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的分类处理方法。

本发明实施例基于知识图谱，通过对用户主诉描述信息的类别信息的修正，将用户主诉描述信息作为特征数据，利用修正后的类别信息作为标注数据，对分类模型进行训练，得到分类模型。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

附图说明

图1为本发明实施例一提供的一种分类处理方法的流程图；

图2为本发明实施例二提供的一种分类处理方法的流程图；

图3为本发明实施例三提供的一种分类处理方法的流程图；

图4为本发明实施例三提供的基于类别校验规则的修正来优化分类模型的流程示例图；

图5为本发明实施例四提供的一种分类处理方法的流程图；

图6为本发明实施例五提供的一种分类处理方法的流程图；

图7为本发明实施例六提供的一种分类处理装置的结构示意图；

图8为本发明实施例七提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种分类处理方法的流程图，本实施例可适用于训练用户主诉描述信息的分类模型以及基于分类模型进行分类的情况，该方法可由一种分类处理装置来执行，该装置可以采用软件和/或硬件的方式实现，优选是配置于服务器。该方法具体包括如下：

S110、依据知识图谱，对用户主诉描述信息的类别信息进行修正。

在本发明具体实施例中，用户主诉描述信息是指用户所提出的问询请求中的描述信息，用于描述用户所提出的问题。用户主诉描述信息中可以包括各个领域中的任何实体信息，例如可以包括医疗领域中的人群、症状或疾病等实体信息，用于疾病的问诊。用户主诉描述信息可以是用户通过智能终端进行文本或语音输入并上传至互联网问询平台的。对于上传至互联网问询平台上的用户主诉描述信息，互联网上的任何用户都可以对用户主诉描述信息进行解答，或者服务器可以将用户主诉描述信息推送给专业人员账户进行解答，从而为用户提供问询服务，用户主诉描述信息和回答信息构成问答对。

本实施例中，基于对用户所提出问题解答的准确性，优选将用户主诉描述信息发送给专业人员所属账户进行解答，例如用户主诉描述信息所属领域的专业人员，甚至是该领域内用户主诉描述信息所属研究方向的专业人员，以便为用户提供更专业更准确的解答。相应的，有必要对用户主诉描述信息进行合理分类，基于某一维度的主诉描述信息作为分类标准，对用户主诉描述信息进行分类，确定用户主诉描述信息的类别信息。例如，针对医疗问诊场景，应该对用户主诉描述信息进行分诊，即类别信息为科室信息，以便正确科室的医生账户对用户主诉描述信息进行问诊；再例如，在教育场景中，应该对用户主诉描述信息进行学科分类，以便正确学科的老师账户对对用户主诉描述信息进行解答。

具体的，本实施例在分类模型的训练之前首先进行样本数据的准备，即从网络中获取海量的问答对，其中，问答对可以包括用户主诉描述信息、用户信息、回答信息以及回复者信息等。将问答对中的用户主诉描述信息作为特征数据，基于已有回答内容的问答对，可以将回答信息或回复者信息中的关键词作为特征数据的标注数据，自动构成带有标注的训练样本数据，避免人工对用户主诉描述信息的大量标注工作。

示例性的，在医疗分诊场景中，从互联网上获取海量的医疗问答数据，其主要来自于一些专业的网络问诊平台。根据医疗问答数据中的回复者信息，筛选出至少具有科室信息的有效医疗问答数据，从而将有效医疗问答数据中的问题文本即用户主诉描述信息作为特征数据，利用关联的回复者信息中的科室信息对用户主诉描述信息进行标注，作为特征数据的标注数据，构成训练样本。

本实施例中，知识图谱是指结构化的语义知识库，用于以符号形式描述真实世界中的概念及其相互关系。知识图谱的基本组成单位包括“实体-关系-实体”三元组，实体间通过关系相互联结，还包括实体及其相关“属性-值”对，用来刻画实体的内在特性。知识图谱中通过节点构成网状的知识结构，实体和属性值可以作为知识图谱中的节点，各节点之间连接的边可以表示两个实体之间的关系，或者实体的属性。其中，实体是指客观存在的并可相互区别的事物，包括具体的人、事、物、抽象的概念或联系。

示例性的，针对医疗领域知识，知识图谱中的实体可以包括科室、疾病、症状、部位、药品、人群、手术、指标以及检查手段等。其中，科室基本分为内科、外科、妇产科、儿科、神经科、中医科、耳鼻喉科、口腔科、眼科以及其他的辅助科室等，内科又分为呼吸内科、消化内科、肾内科、免疫内科、内分泌内科以及血液内科等，外科分为普通外科、骨外科、神经外科以及泌尿外科等。疾病可以分为传染性疾病和非传染性疾病两大类，而具体的疾病种类可以包括上万种。症状是指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变，不同疾病的症状可能相同也可能不同。相应的，不同的疾病具有不同的发病部位，可以采用对症的药品、手术或检测手段进行治疗等。因此，医疗领域的知识图谱中，不同类型或不同层级的实体之间具有复杂的联系。

例如，对于科室的划分，通常特定的症状可以反映具体的疾病，症状实体与疾病实体之间具有强关系，例如血糖偏高症状反映出了糖尿病；通常特定的疾病需要前往对症的科室进行治疗问诊，疾病实体与科室实体之间具有强关系，例如糖尿病需要前往内分泌科进行问诊。进而在知识图谱中可以间接的确定一个具有血糖偏高的患者可以前往内分泌科进行问诊，即建立了症状与科室之间的关系，症状实体与科室实体之间具有弱关系。类似的，也可以基于知识图谱确定科室实体与其他实体之间的关系。

由于依据互联网上获得的问答对，采用回答信息或回复者信息中的关键词对用户主诉描述信息进行自动化的数据标注中，其标注数据可能存在实属同一类别但名称表述不同。因此，本实施例根据获得的海量问答对，收集并识别同一类别的不同名称表述，建立同一类别下不同名称表述之间的映射关系，以及建立类别之间的层级关系，构成统一、完善的类别体系，以对带有标注数据的样本数据进行类别信息的归一化处理。示例性的，在医疗分诊场景中，同一个科室可能会存在不同的称呼，例如“普通外科”和“普外科”实属于同一个科室的两种不同的说法，因此依据预先构建的科室体系，对带有科室标签标注的样本数据进行科室标签归一化处理。

此外，由于互联网数据的正确性不可追溯，采用回答信息或回复者信息中的关键词对用户主诉描述信息进行自动化的数据标注中，其标注数据可能存在标注不正确的情况。因此，本实施例引入知识图谱，基于用户主诉描述信息的上下文语义以及各领域知识，制定类别校验规则。利用类别校验规则遍历样本数据，对用户主诉描述信息的类别信息进行修正。示例性的，在医疗分诊场景中，依据知识图谱中的各类医疗实体，以及科室实体与其他实体之间的关系，制定类别校验规则，对校验为错误的科室标签进行修正，以及对科室冲突的科室标签进行修正。

具体的，若检测到用户主诉描述信息的类别信息不满足知识图谱中各节点之间的关联关系，则依据类别校验规则，将该类别信息修正为知识图谱中与用户主诉描述信息关联的节点对应的类别信息。若检测到用户主诉描述信息关联有至少两种类别信息，则确定至少两种类别信息在用户主诉描述信息中关联的关键词语义；依据关键词语义，确定至少两种类别信息的优先级；依据至少两种类别信息的优先级，对用户主诉描述信息的类别信息进行修正。

示例性的，假设用户主诉描述信息为“本人为幼儿园老师，近期经常打喷嚏，请问是否为病毒性感冒，担心传染给幼儿园学生”，其类别信息为“儿科”。其中，“幼儿园老师”一词对应为成人人群，“幼儿”一词对应为儿童人群，进而存在儿科科室与其他成人类科室例如呼吸内科相冲突的情况。因此，需要确定相冲突科室在用户主诉描述信息中关联的关键词语义，依据关键词语义确定相冲突科室之间的优先级，例如“幼儿园老师”以及“打喷嚏”症状均为描述用户本人的关键词信息，则确定呼吸内科的优先级高于儿科，修正该用户主诉描述信息的类别信息为呼吸内科，以消除用户主诉描述信息中的歧义信息。再例如，“妊娠糖尿病”对应于产科，然而一些用户的主诉描述信息中可能只描述为怀孕7个月的孕妇得了糖尿病，则此时由于“孕妇”一词对应产科，“糖尿病”一词对应内分泌科，则存在产科与内分泌科相冲突的情况。根据医学知识可以预先构建科室优先级列表，可以将产科的优先级设置高于内分泌科的优先级，从而修正该用户主诉描述信息的类别信息为产科。

S120、将用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

在本发明具体实施例中，基于自动化标注及修正的样本数据，避免了人工对于样本数据的大量标注工作，且引入知识图谱构建类别校验规则，通过对类别信息的归一化以及修正处理，保证了样本数据中所标注标签的标准性和准确性，降低了人工成本，提高样本数据的可修复性以及可靠性。进而将用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，进行分类模型的训练。其中，分类模型的训练过程大致可以分为词典的构建、训练数据的数值化、模型网络拓扑结构的构建、模型参数的训练等。

本实施例中，初始网络模型是指网络拓扑结构和模型初始化参数确定的初始模型。本实施例不对网络模型进行限制，任何可以实现分类的网络模型都可以应用与本实施例中。例如，可以采用深度学习模型，第一层网络是词嵌入层，最后一层是输出层，中间的网络结构可以有不同的选择。如果对准确率要求高，可以选择双向LSTM网络结构，如果对模型预测速度要求高，可以选择DNN网络结构，如果需要综合考虑准确率和预测速度，可以选择CNN网络结构等。当确定了模型的网络拓扑结构以后，需要设置一些网络结构的超参数、训练算法与训练轮数等模型参数，以在初始网络模型的基础上进行训练。

其中，对于训练样本，本实施例首先构建词典，即对特征数据和标注数据进行分词处理，并统计各分词结果在样本数据中的词频，例如通过某一分词在所有样本数据中出现的次数，与样本数据中所有分词的数量之间的比值得到词频。并将词频高于预设词频阈值的高频词汇构成词典，将词频低于预设词频阈值的低频词汇作为特殊词语保留。

其次，对分词进行数值化处理，将词汇映射为数字序列。本实施例不对分词的数值化方式进行限定，任何可以将分词数值化的方式都可以应用与本实施例中。例如，可以将分词存储在词汇表中，直接将分词在词汇表中的索引值如行数，确定为各分词的数值化表示。再例如，还可以采用向量的表示形式等，且数值优选为非负整数。

本实施例中，将数值化的训练样本数据输入至初始网络模型，初始网络模型读取数值化后的训练样本数据，根据数值化后的用户主诉描述文本和类别标签不断自动调优模型的参数，得到分类模型。其中，对于低频词汇可以采用统一分类标识进行表示，即将低频词汇识别分类为同一识别结果。

示例性的，在医疗分诊场景中，对用户主诉描述信息以及标注的科室进行分词，去掉虚词和停顿词，对分词进行词频统计，将高频的疾病、症状、人群、科室等分词结果构成医疗词典，将低频分词构成特殊词语OOV(Out of Vocabulary，词典外词语)。在词表中加入词典词汇以及特殊词语，将各词汇在词表中的索引值作为数值化表示，进行分类模型的训练。其中，分类模型对于包含高频词汇的用户主诉描述信息的预测结果为对应的科室，对于包含底盘词汇的用户主诉描述信息的预测结果为OOV。

此外，在分类模型训练之后，本实施例还可以对分类模型进行优化，即通过分类模型的测试评估，反向定位错误分类的类别对应的类别校验规则，通过对类别校验规则进行修正，基于修正的类别校验规则对用户主诉描述信息的类别信息进行修正，利用修正后的类别信息进行分类模型的重新训练。以此反复迭代实现对分类模型的优化。具体的，可以采用人工标注正确的标准主诉描述信息和标准类别信息对分类模型进行测试，将通过分类模型对标准主诉描述信息的分类结果，与标准主诉描述信息的标准类别信息进行比对，以确定分类模型的评估结果。依据分类模型的评估结果，定位错误分类关联的类别检验子规则，结合医学知识对类别检验子规则进行修正，依据修正后的类别校验规则对标注数据进行修正，以对分类模型进行训练优化。

本实施例中，分类模型的训练最终用于对用户上传的用户主诉描述信息进行分类，以确定可以专业回复用户主诉描述信息的第三方用户，并将用户主诉描述信息推送给第三方用户进行答复。示例性的，响应当前用户的主诉问诊请求，将主诉问诊请求中的主诉描述信息输入至分类模型，以确定主诉问诊请求的目标科室，实现分诊；从而向分诊科室关联的医生账户发送主诉问诊请求，以使分诊科室关联的医生依据当前用户的主诉问诊请求进行问诊。

因此，本实施例通过采用医疗知识图谱对带有科室标签标注的样本数据进行科室标签修正，通过自动化的科室标注和修正，避免了人工标注以及人工标注带来的误差，提高了样本数据的科室标注准确率，降低了样本数据的标注成本。利用科室标签修正的样本数据对科室分类模型进行训练得到科室分类模型，并依据对科室分类模型的评估结果，反复进行修正实现科室分类模型的迭代优化，以得到分诊准确率更高的科室分类模型供分诊使用，实现了科室分类模型的构建和优化，进而通过科室分类模型，提高了分诊智能性以及准确率。

本实施例的技术方案，基于知识图谱，通过对用户主诉描述信息的类别信息的修正，将用户主诉描述信息作为特征数据，利用修正后的类别信息作为标注数据，对分类模型进行训练，得到分类模型。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

实施例二

本实施例在上述实施例一的基础上，提供了分类处理方法的一个优选实施方式，能够基于问答对自动化地进行样本数据标注和修正。图2为本发明实施例二提供的一种分类处理方法的流程图，如图2所示，该方法具体包括如下：

S210、从用户主诉描述信息所属的用户问答对中，获取回复用户主诉描述信息的回复者信息。

在本发明具体实施例中，以互联网问询平台中的问答对作为样本数据，问答对可以包括用户主诉描述信息、用户信息、回答信息以及回复者信息等。基于对用户主诉描述信息的自动化标注，获取问答对中回答信息以及回复者信息。

示例性的，在医疗分诊场景中，从互联网上获取海量的医疗问答数据，其主要来自于一些专业的网络问诊平台。基于对用户主诉描述信息的科室分诊，对获取的医疗问答数据进行筛选。由于在网络问诊平台中，医生对于问诊请求的回复卡片中，通常具有姓名标签、单位标签、科室标签、职位标签以及擅长领域标签等回复者信息，因此可以根据医疗问答数据中的回复者信息，以科室标签信息为主，以其他标签信息为辅，对医疗问答数据进行筛选，以获得至少具有科室标签信息的有效医疗问答数据。从而以有效医疗问答数据中的问题文本作为用户主诉描述信息，并获取有效医疗问答数据中的回复者信息。

S220、依据用户主诉描述信息的回复者信息，对用户主诉描述信息进行类别信息标注。

在本发明具体实施例中，基于用户主诉信息的分类维度，采用回复者信息中与该分类维度对应的关键词作为类别信息，以对用户主诉描述信息进行类别信息标注。

示例性的，在医疗分诊场景中，基于筛选出来的有效医疗问答数据，将有效医疗问答数据中的问题文本即用户主诉描述信息作为特征数据，利用关联的回复者信息中的科室标签信息对用户主诉描述信息进行标注，作为特征数据的标注数据，构成训练样本。因此在获取到海量医疗问答数据后，即可实现自动化的样本数据标注，避免了人工标注的工作量，降低人工标注成本。

S230、依据类别校验规则，对用户主诉描述信息的类别信息进行修正；其中，类别校验规则是依据知识图谱中各节点之间的关联关系确定。

在本发明具体实施例中，由于依据互联网上获得的问答对，采用回答信息或回复者信息中的关键词对用户主诉描述信息进行自动化的数据标注中，其标注数据可能存在实属同一类别但名称表述不同。因此，本实施例根据获得的海量问答对，收集并识别同一类别的不同名称表述，建立同一类别下不同名称表述之间的映射关系，以及建立类别之间的层级关系，构成统一、完善的类别体系，以对待有标注数据的样本数据进行类别信息的归一化处理。

示例性的，在医疗分诊场景中，通过海量医疗问答数据的获取，可以收集大量的科室信息，基于科室信息的语义表述，建立同一科室下不同名称表述之间的映射关系，依据医疗知识图谱建立科室之间的层级关系，构成统一、完善的科室体系，以对带有科室标注的样本数据进行科室标签归一化处理。例如，将“普通外科”和“普外科”归一化为“普外科”。

本实施例中，类别校验规则是指基于分类领域中的知识和知识图谱制定的类别信息的校验规则，用于检验样本数据的类别标注信息的正确性，消除用户主诉描述信息中的歧义信息，解决类别标注冲突等类别信息修正问题。具体的，类别校验规则的制定较为复杂，不仅涉及分类领域内知识图谱中各节点之间的关系，而且还涉及分类领域内知识推理的引入，以及语义的判断等。示例性的，在医疗分诊场景中，依据知识图谱中的各类医疗实体，以及科室实体与其他实体之间的关系，制定类别校验规则，例如建立症状、人群等信息与科室信息之间的映射关系，设置科室优先级，构建语义分析规则等，以对校验为错误的科室以及科室冲突的科室进行修正。

可选的，若检测到用户主诉描述信息关联有至少两种类别信息，则确定至少两种类别信息在用户主诉描述信息中关联的关键词语义；依据关键词语义，确定至少两种类别信息的优先级；依据至少两种类别信息的优先级，对用户主诉描述信息的类别信息进行修正。

本实施例中，用户主诉描述信息已关联有类别信息，在采用类别校验规则遍历用户主诉描述信息的过程中，若依据类别校验规则可以匹配得到包括该已有类别信息以及其他至少一种类别信息，则视为类别信息存在冲突，需要进一步校验。具体的，可以确定该多种匹配的类别信息在用户主诉描述信息中关联的关键词语义，依据关键词语义确定关键词与用户主诉描述信息中的问询主体对象之间的关系，评价关键词对于问询主体对象的重要程度，进而确定关联词关联的类别信息的优先级，从而将优先级较高的类别信息确定为用户主诉描述信息的类别信息，实现对用户主诉描述信息的类别信息进行修正。

示例性的，假设用户主诉描述信息为“本人为幼儿园老师，近期经常打喷嚏，请问是否为病毒性感冒，担心传染给幼儿园学生”，并假设其类别信息为“儿科”。则基于类别校验规则可以将该用户主诉描述信息匹配得到儿科和呼吸内科，即科室冲突。因此，确定儿科关联的关键词为幼儿园学生，呼吸内科关联的关键词为幼儿园老师、打喷嚏和病毒性感冒。基于语音分析，可以确定呼吸内科关联的关键词为描述用户本人的关键词信息，则确定呼吸内科的优先级高于儿科，修正该用户主诉描述信息的类别信息为呼吸内科，以消除用户主诉描述信息中的歧义信息。

本实施例中，还可以预先构建类别优先级，从而当检测到用户主诉描述信息的类别信息冲突时，则可以直接将相冲突的类别的优先级进行比较，确定优先级较高的类别作为类别信息。示例性的，假设用户主诉描述信息为“怀孕7个月的孕妇得了糖尿病”，并假设其类别信息为“内分泌科”。则基于类别校验规则可以将该用户主诉描述信息匹配得到产科和内分泌科，即科室冲突。因此，假设预先构建科室优先级中产科的优先级高于内分泌科，则修正该用户主诉描述信息的类别信息为产科，以解决科室冲突的问题。

可选的，若检测到用户主诉描述信息的类别信息不满足知识图谱中各节点之间的关联关系，则依据类别校验规则，将该类别信息修正为知识图谱中与用户主诉描述信息关联的节点对应的类别信息。

本实施例中，用户主诉描述信息已关联有类别信息，在采用类别校验规则遍历用户主诉描述信息的过程中，若依据类别校验规则可以匹配得到另一种类别信息，即用户主诉描述信息的类别信息不满足知识图谱中各节点之间的关联关系，则视为类别信息标注错误。进而将该类别信息修正为知识图谱中与用户主诉描述信息关联的节点对应的类别信息。例如，假设用户主诉描述为“感冒吃什么药”，且假设类别信息为“普外科”。则知识图谱中感冒作为一类疾病实体，与呼吸内科这一科室实体之间具体关系，则普外科的科室标注存在错误，进而将类别信息修正为知识图谱中对应的呼吸内科。

S240、将用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

本实施例的技术方案，通过依据问答对中的回复者信息对用户主诉描述信息进行类别信息标注，并基于知识图谱制定类别校验规则，对用户主诉描述信息的类别信息进行修正，将用户主诉描述信息作为特征数据，利用修正后的类别信息作为标注数据，对分类模型进行训练，得到分类模型。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

实施例三

本实施例在上述实施例一的基础上，提供了分类处理方法的一个优选实施方式，能够通过类别校验规则的修正而反复迭代优化分类模型。图3为本发明实施例三提供的一种分类处理方法的流程图，如图3所示，该方法具体包括如下：

S310、依据知识图谱，对用户主诉描述信息的类别信息进行修正。

S320、将用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

S330、将通过分类模型对标准主诉描述信息的分类结果，与标准主诉描述信息的标准类别信息进行比对，以确定分类模型的评估结果。

在本发明具体实施例中，标准主诉描述信息是指具有正确的标准类别信息的测试样本，标准主诉描述信息和标准类别信息可以是通过专业人员人工反复标注后的样本数据。从而将标准主诉描述信息输入至训练好的分类模型中，得到分类模型对于标准主诉描述信息的分类结果，并将测试得到的分类结果与标准类别信息进行比对。其中，若测试得到的分类结果与标准类别信息一致，则说明该类别的分类正确；若测试得到的分类结果与标准类别信息不一致，则说明该类别的分类错误。

S340、依据分类模型的评估结果，对类别校验规则进行修正。

在本发明具体实施例中，依据分类模型的评估结果，若某一类别的分类正确，则说明分类模型对于该类别的分类较为准确；若某一类别的分类错误，则说明分类模型对于该类别的分类误差较大。反向推测可以得到，导致分类模型对该类别的分类误差较大的直接原因是该类别的训练样本数据标注有误，再次反向推测可以得到，导致训练样本数据标注有误的直接原因是类别校验规则中对于该类别的校验规则有误，因此需要对类别校验规则进行修正。

可选的，依据分类模型的评估结果，确定错误分类关联的类别检验子规则并进行修正。

本实施例中，若依据分类模型的评估结果确定分类错误或准确率较低时，可以针对错误分类进行类别校验规则的定位，反向推导出错误分类关联的类别检验子规则，例如可以包括正确分类信息对应的类别校验子规则，以及错误分类对应的类别校验子规则，从而结合分类领域内知识或通过专业人员对类别校验子规则进行修正。示例性的，假设标准类别信息为科室A，经过分类模型测试后得到类别信息为科室B，则可以对科室A以及科室B分别对应的类别校验子规则进行修正。

S350、依据修正后的类别校验规则对标注数据进行修正，以对分类模型进行训练优化。

在本发明具体实施例中，采用修正后的类别校验规则重新遍历特征数据及其标注数据，以对错误的标注数据进行修正，并利用修正后的样本数据重新训练分类模型，以对分类模型进行优化。以此类推反复，直至分类模型满足一定的准确率和召回率要求。

示例性的，图4为基于类别校验规则的修正来优化分类模型的流程示例图。如图4所示，以医疗分诊场景为例，采用来自互联网的医疗问答数据作为样本数据，依据回复者信息对用户主诉描述信息进行自动化的科室标注，并对样本数据中科室标签进行归一化处理。利用基于医疗知识图谱构建的类别校验规则，对样本数据中的科室标注进行修正，并利用科室标签修正的样本数据训练分类模型。其中，若分类模型的评估结果不满足准确率和召回率要求，则返回调整类别校验规则，并利用调整后的类别校验规则对样本数据中的科室标注进行修正，并利用科室标签修正的样本数据优化分类模型，以此类推。

此外，对于标注数据正确但分类模型测试效果仍然不佳的情况，可以视为样本训练数据中没有或缺少此类别对应的样本数据，从而对样本数据进行对应类别数据的补充，以使分类模型能够学习到此类数据特征，提高分类的准确率。同时，对于分类模型的优化，还可以调整分类模型的网络拓扑结构或初始化参数等。

本实施例的技术方案，基于知识图谱，通过对用户主诉描述信息的类别信息的修正，将用户主诉描述信息作为特征数据，利用修正后的类别信息作为标注数据，对分类模型进行训练，并依据对分类模型的评估结果，对分类模型进行迭代优化，以得到分类准确率更高的分类模型供分类使用。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，自动化的循环迭代修复过程降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

实施例四

本实施例在上述实施例一的基础上，提供了分类处理方法的一个优选实施方式，能够基于问答对自动化地进行样本数据标注和修正，以及通过类别校验规则的修正而反复迭代优化分类模型。图5为本发明实施例四提供的一种分类处理方法的流程图，如图5所示，该方法具体包括如下：

S510、从用户主诉描述信息所属的用户问答对中，获取回复用户主诉描述信息的回复者信息。

S520、依据用户主诉描述信息的回复者信息，对用户主诉描述信息进行类别信息标注。

S530、依据类别校验规则，对用户主诉描述信息的类别信息进行修正；其中，类别校验规则是依据知识图谱中各节点之间的关联关系确定。

S540、将用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

S550、将通过分类模型对标准主诉描述信息的分类结果，与标准主诉描述信息的标准类别信息进行比对，以确定分类模型的评估结果。

S560、依据分类模型的评估结果，确定错误分类关联的类别检验子规则并进行修正。

S570、依据修正后的类别校验规则对标注数据进行修正，以对分类模型进行训练优化。

S580、响应当前用户的主诉问询请求，将主诉问询请求中的主诉描述信息输入至分类模型，以确定主诉请求的目标类别信息。

S590、向目标类别信息关联的回复者发送主诉问询请求，以使目标类别信息关联的回复者对当前用户的主诉问询请求进行答复。

本实施例的技术方案，通过依据问答对中的回复者信息对用户主诉描述信息进行类别信息标注，并基于知识图谱制定类别校验规则，对用户主诉描述信息的类别信息进行修正，将用户主诉描述信息作为特征数据，利用修正后的类别信息作为标注数据，对分类模型进行训练，并依据对分类模型的评估结果，对分类模型进行迭代优化，以得到分类准确率更高的分类模型供分类使用。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，自动化的循环迭代修复过程降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

实施例五

本实施例在上述实施例一的基础上，提供了分类处理方法的一个优选实施方式，能够对用户主诉描述信息进行准确分类。图6为本发明实施例五提供的一种分类处理方法的流程图，如图6所示，该方法具体包括如下：

S610、响应当前用户的主诉问询请求，将主诉问询请求中的主诉描述信息输入至分类模型，以确定主诉请求的目标类别信息。

在本发明具体实施例中，主诉问询请求是指上传至问询平台的请求，主诉问询请求中可以包括当前用户的主诉描述信息和用户信息等。当前用户可以通过终端中互联网问询平台的界面，进行文本或语音输入，以上传当前用户的主诉问询请求。相应的，服务器对当前用户的主诉问询请求进行响应，确定主诉问询请求中的主诉描述信息，并输入至分类模型中，通过分类模型的预测得到主诉请求的目标类别信息。

示例性的，当前用户可以向医疗问诊平台上传问诊请求，问诊请求的主诉描述信息中可以包含用户所描述的一切信息，例如人群、疾病以及症状等。服务器对问诊请求进行响应，为了通过科室对应的医生对问诊请求进行问诊，服务器首先将用户的主诉描述信息输入至分类模型中，实现智能化的分诊，确定当前用户所询问内容相匹配的科室。

S620、向目标类别信息关联的回复者发送主诉问询请求，以使目标类别信息关联的回复者对当前用户的主诉问询请求进行答复。

在本发明具体实施例中，互联网问询平台中可以存储有回复者的相关信息，例如回复者注册时填写的擅长答复方向、专业领域以及单位等。相应的，服务器根据回复者信息确定目标类别信息关联的至少一个回复者，并向所述至少一个回复者发送当前用户的主诉问询请求。从而回复者接收当前用户的主诉问询请求，并对主诉问询请求进行答复。进而当前用户可以查看到至少一个回复者的回复信息，以便当前用户获取或挑选自己满意的回复信息。

示例性的，通过分类模型的智能分诊，确定当前用户所询问内容相匹配的科室。从而依据问询平台中的医生信息，确定该科室下的至少一个医生，向所述至少一个医生发送当前用户的问诊请求，以使医生对当前用户进行准确问诊。

因此，在医疗问诊平台或医院等分诊场景当中，通过对用户进行智能化的分诊，便于用户的准确就医，同时避免了人工方式进行分诊，降低人工成本以及分诊误差，提高了分诊准确率和分诊效率。

本实施例的技术方案，通过对用户的问询请求进行分类，确定当前用户的问询内容匹配的目标类别信息，以及目标类别信息关联的回复者，从而将用户的主诉问询请求发送给目标类别信息关联的回复者，以使回复者能够对当前用户的主诉问询请求进行专业性答复。本发明实施例实现了对用户问询请求的准确分类，并为用户匹配得到专业的用户进行答复，降低人工分类成本以及分类误差，提高了分类准确率和效率。

实施例六

图7为本发明实施例六提供的一种分类处理装置的结构示意图，本实施例可适用于训练用户主诉描述信息的分类模型以及基于分类模型进行分类的情况，该装置可实现本发明任意实施例所述的分类处理方法。该装置具体包括如下：

类别信息修正模块710，用于依据知识图谱，对用户主诉描述信息的类别信息进行修正；

分类模型训练模块720，用于将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型。

进一步的，所述装置还包括类别信息标注模块730；所述类别信息标注模块730具体用于：

在所述依据知识图谱，对用户主诉描述信息的类别信息进行修正之前，还包括：从所述用户主诉描述信息所属的用户问答对中，获取回复所述用户主诉描述信息的回复者信息；

依据所述用户主诉描述信息的回复者信息，对所述用户主诉描述信息进行类别信息标注。

可选的，所述类别信息修正模块710具体用于：

依据类别校验规则，对所述用户主诉描述信息的类别信息进行修正；其中，所述类别校验规则是依据所述知识图谱中各节点之间的关联关系确定。

可选的，所述类别信息修正模块710具体用于：

若检测到所述用户主诉描述信息关联有至少两种类别信息，则确定所述至少两种类别信息在所述用户主诉描述信息中关联的关键词语义；

依据所述关键词语义，确定所述至少两种类别信息的优先级；

依据所述至少两种类别信息的优先级，对所述用户主诉描述信息的类别信息进行修正。

可选的，所述类别信息修正模块710具体用于：

若检测到所述用户主诉描述信息的类别信息不满足所述知识图谱中各节点之间的关联关系，则依据所述类别校验规则，将该类别信息修正为所述知识图谱中与所述用户主诉描述信息关联的节点对应的类别信息。

进一步的，所述装置还包括模型优化模块740；所述模型优化模块740具体用于：

在所述将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型之后，将通过所述分类模型对标准主诉描述信息的分类结果，与所述标准主诉描述信息的标准类别信息进行比对，以确定所述分类模型的评估结果；

依据所述分类模型的评估结果，对类别校验规则进行修正；

依据修正后的类别校验规则对标注数据进行修正，以对所述分类模型进行训练优化。

可选的，所述模型优化模块740具体用于：

依据所述分类模型的评估结果，确定错误分类关联的类别检验子规则并进行修正。

进一步的，所述装置还包括分类模块750；所述分类模块750具体用于：

在所述将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型之后，响应当前用户的主诉问询请求，将所述主诉问询请求中的主诉描述信息输入至所述分类模型，以确定所述主诉问询请求的目标类别信息；

向所述目标类别信息关联的回复者发送所述主诉问询请求，以使所述目标类别信息关联的回复者对所述当前用户的主诉问询请求进行答复。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了问答对的获取、用户主诉描述信息的类别标注、类别信息的归一化、类别信息的修正、分类模型的训练、分类模型的评估、类别校验规则的修正、分类模型的优化以及用户问询请求的分类等功能。本发明实施例通过对用户主诉描述信息的类别信息进行自动化地标注和修正，避免了人工标注以及人工标注导致的误差，降低了用户主诉描述信息的标注成本，提高了标注数据的准确率，从而提高了分类模型的分类准确率，降低分类成本。

实施例七

图8为本发明实施例七提供的一种服务器的结构示意图，图8示出了适于用来实现本发明实施例实施方式的示例性服务器的框图。图8显示的服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图8显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器16，系统存储器28，连接不同系统组件(包括系统存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的分类处理方法。

实施例八

本发明实施例八还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种分类处理方法，该方法包括：

依据知识图谱，对用户主诉描述信息的类别信息进行修正；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种分类处理方法，其特征在于，包括：

依据知识图谱，对用户主诉描述信息的类别信息进行修正；

2.根据权利要求1所述的方法，其特征在于，在所述依据知识图谱，对用户主诉描述信息的类别信息进行修正之前，还包括：

从所述用户主诉描述信息所属的用户问答对中，获取回复所述用户主诉描述信息的回复者信息；

3.根据权利要求1所述的方法，其特征在于，所述依据知识图谱，对用户主诉描述信息的类别信息进行修正，包括：

4.根据权利要求3所述的方法，其特征在于，所述依据所述类别校验规则，对所述用户主诉描述信息的类别信息进行修正，包括：

5.根据权利要求3所述的方法，其特征在于，所述依据所述类别校验规则，对所述用户主诉描述信息的类别信息进行修正，包括：

6.根据权利要求1所述的方法，其特征在于，在所述将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型之后，还包括：

将通过所述分类模型对标准主诉描述信息的分类结果，与所述标准主诉描述信息的标准类别信息进行比对，以确定所述分类模型的评估结果；

依据所述分类模型的评估结果，对类别校验规则进行修正；

7.根据权利要求6所述的方法，其特征在于，所述依据所述分类模型的评估结果，对类别校验规则进行修正，包括：

8.根据权利要求1所述的方法，其特征在于，在所述将所述用户主诉描述信息作为特征数据，以及修正后的类别信息作为标注数据，对初始网络模型进行训练，得到分类模型之后，还包括：

响应当前用户的主诉问询请求，将所述主诉问询请求中的主诉描述信息输入至所述分类模型，以确定所述主诉问询请求的目标类别信息；

9.一种分类处理装置，其特征在于，包括：

10.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的分类处理方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的分类处理方法。