CN108509484A - 分类器构建及智能问答方法、装置、终端及可读存储介质 - Google Patents

分类器构建及智能问答方法、装置、终端及可读存储介质 Download PDF

Info

Publication number
CN108509484A
CN108509484A CN201810093960.5A CN201810093960A CN108509484A CN 108509484 A CN108509484 A CN 108509484A CN 201810093960 A CN201810093960 A CN 201810093960A CN 108509484 A CN108509484 A CN 108509484A
Authority
CN
China
Prior art keywords
training data
classifier
node
knowledge point
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810093960.5A
Other languages
English (en)
Other versions
CN108509484B (zh
Inventor
朱邦义
刘哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810093960.5A priority Critical patent/CN108509484B/zh
Publication of CN108509484A publication Critical patent/CN108509484A/zh
Application granted granted Critical
Publication of CN108509484B publication Critical patent/CN108509484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分类器构建及智能问答方法、装置、终端及可读存储介质,方法包括:获取至少一条训练数据,该训练数据为具有至少一层分类特征的语料数据,利用该至少一条训练数据,构建初始树形分类器,并基于预置的机器学习算法,利用该至少一条训练数据对该初始树形分类器进行训练,得到树形分类器。相对于现有技术,通过使用具有至少一层分类特征的训练数据构建并训练初始树形分类器,使得训练得到的树形分类器的分类方式更加合理,使用该树形分类器进行智能问答,能够有效的提高智能问答的准确性。

Description

分类器构建及智能问答方法、装置、终端及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种分类器构建及智能问答方法、装置、终端及可读存储介质。
背景技术
智能问答系统的出现是为了满足用户的自问自答的需求,能够快速智能的回答用户所提出的语音或文字类的问题,用户在对智能问答系统提出一个问题时,智能问答系统将识别该问题并确定答案,将该答案根据场景转化成文字或多媒体文件并输出。
现有的在智能问答领域方面得到广泛应用甚至在专业问答领域得到广泛应用的技术主要是:关键词搜索结合语义理解、实体识别等技术,但是该技术的缺点在于会存在理解用户问题发生歧义的现象。
发明内容
本发明的主要目的在于提供分类器构建及智能问答方法、装置、终端及可读存储介质,旨在解决现有技术中智能问答领域会存在理解用户问题发生歧义的现象,智能问答的准确性低的技术问题。
为实现上述目的,本发明第一方面提供分类器构建方法,包括:
获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
利用所述至少一条训练数据,构建初始树形分类器;
基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器。
为实现上述目的,本发明第二方面提供智能问答方法,该分类器为第一方面训练得到的分类器,该方法包括:
获取输入的问题;
根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,所述树形分类器为利用至少一条训练数据训练得到的,所述训练数据为具有至少一层分类特征的语料数据;
输出所述目标知识点。
为实现上述目的,本发明第三方面提供一种分类器构建装置,包括:
获取模块,用于获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
第一构建模块,用于利用所述至少一条训练数据,构建初始树形分类器;
第一训练模块,用于基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器。
为实现上述目的,本发明第四方面还提供一种智能问答装置,该分类器为第三方面训练得到的分类器,包括:
问题获取模块,用于获取输入的问题;
目标确定模块,用于根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,所述树形分类器为利用至少一条训练数据训练得到的,所述训练数据为具有至少一层分类特征的语料数据;
输出模块,用于输出所述目标知识点。
为实现上述目的,本发明第五方面提供一种终端,包括:存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,若所述计算机程序为用于分类器构建的程序,则所述处理器执行所述计算机程序时,实现如权利要求第一方面所述的分类器构建方法中的各个步骤,或者,若所述计算机程序为用于智能问答的程序,则所述处理器执行所述计算机程序时,实现如权利要求第二方面所述的智能问答方法。
为实现上述目的,本发明第六方面提供一种计算机可读存储介质,其上存储有计算机程序,若所述计算机程序为用于分类器构建的程序,则所述计算机程序被处理器执行时,实现如第一方面所述的分类器构建方法的各个步骤;若所述计算机程序为用于智能问答的程序,则所述计算机程序被处理器执行时,实现如第二方面所述的智能问答方法。
本发明提供一种分类器构建方法,该方法包括:获取至少一条训练数据,该训练数据为具有至少一层分类特征的语料数据,利用该至少一条训练数据,构建初始树形分类器,并基于预置的机器学习算法,利用该至少一条训练数据对该初始树形分类器进行训练,得到树形分类器。相对于现有技术,通过使用具有至少一层分类特征的训练数据构建并训练初始树形分类器,使得训练得到的树形分类器的分类方式更加合理,使用该树形分类器进行智能问答,能够有效的提高智能问答的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例中分类器构建及智能问答的简易流程图;
图1b为本发明实施例中分类器构建方法的流程示意图;
图2为本发明实施例中目录层次分类图的示意图;
图3为本发明实施例中分类器构建方法的流程示意图;
图4为本发明实施例中初始树形结构分类器的示意图;
图5为本发明实施例中分类器构建方法的流程示意图;
图6为图5所示实施例中步骤501的细化步骤的流程示意图;
图7为本发明实施例中初始层次分类器的示意图;
图8a为图5所示实施例中步骤502的细化步骤的流程示意图;
图8b为本发明实施例中初始层次分类器的另一实施例。
图9为本发明实施例中智能问答方法的流程示意图;
图10a为本发明实施例中智能问答方法的流程示意图;
图10b为本发明实施例中智能问答显示界面的一示意图;
图10c为本发明实施例中智能问答显示界面的另一示意图;
图11为本发明实施例中参考子分类器的选择示意图;
图12为本发明实施例中分类器构建装置的的结构示意图;
图13为本发明实施例中分类器构建装置的的结构示意图;
图14为本发明实施例中分类器构建装置的的结构示意图;
图15为本发明实施例中智能问答装置的的结构示意图;
图16为本发明实施例中智能问答装置的的结构示意图;
图17为一种终端的结构框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中智能问答领域存在理解用户问题发生歧义的技术问题。
为了解决上述问题,本发明提出一种分类器构建方法,通过使用具有至少一层分类特征的训练数据构建并训练初始树形分类器,使得训练得到的树形分类器的分类方式更加合理,使用该树形分类器进行智能问答,能够有效的提高智能问答的准确性。
在本发明实施例中,将分别介绍分类器构建方法及智能问答方法,其中,分类器构建方法用于构建分类器,且构建的分类器将加载至智能问答系统中,用于实现智能问答方法,请参阅图1a,为本发明实施例中分类器构建及智能问答的简易流程图,其中,分类器构建流程中的数据的收集、数据标注及语句向量化是为了得到训练数据,且训练数据为具有至少一层分类特征的语料数据,可以利用该训练数据训练得到树形分类器,及利用树形分类器及训练数据训练得到层次分类器,训练得到的树形分类器及层次分类器都将加载至智能问答系统,用于智能问答系统实现智能问答流程,分类器构建流程中的语句向量化与智能问答流程中的问题向量化的向量化方式是相同的,其中,智能问答流程中的利用分类器确定目标知识点时,可以仅使用树形分类器确定目标知识点,或者在利用树形分类器确定知识点之后,利用层次分类器进行修正,得到目标知识点。
下面将分别进行介绍。
请参阅图1b,为本发明实施例中分类器构建方法的流程示意图,该方法包括:
步骤101、获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
在本发明实施例中,上述的分类器构建方法可以由分类器构建装置(以下简称为:构建装置)实现,该构建装置为程序模块构成的装置,且可存储于计算机可读存储介质中,由处理器进行调用,其中,该构建装置属于终端,该终端可以为训练服务器。
其中,上述的分类器构建方法可以应用在多个领域,尤其适用于专业技术领域,例如,人力资源与社会保障(人社)、税务、公安以及司法咨询等等领域,此外,还可应用在政府与企事业单位等等领域。
可以理解的是,在训练不同的领域所使用的分类器时,需要准备不同的领域的训练数据,且为了有效的区分各个训练数据的分类,该训练数据为具有至少一层分类特征的语料数据。其中,对于专业领域,其语料数据本身就具有至少一层分类特征。进一步地,某一个领域的训练数据中,并非包含了该领域所有内容,而是考虑到使用基于该训练数据训练得到的分类器的智能问答系统在对外提供服务时的问答需要,由相关人员提供的有限的语料数据即可。
其中,训练数据的至少一层分类特征是基于某一个专业领域的知识内容天然的至少一层分类结构确定的,此即为构建树形分类器的基础。
为了更好的理解本发明实施例中的技术方案,请参阅下表,为人力资源及社会保障领域的一条语料数据。
其中,语料数据中包含类型层次数据和知识点,该类型层次数据中包含该知识点在指定领域内的层次划分,且该层次划分为从类型从大至小的划分方式,可以理解的是,语料数据的至少一层分类特征是通过语料数据中包含的类型层次数据体现的。如上表所示,类型层次数据为:人社业务—养老业务---领取方式,其中,领取方式是养老业务的一个分类,养老业务为人社业务的一个分类。
其中,知识点包括知识点名称、相似问题及答案,其中,相似问题可以为空也可以为非空,且相似问题可以与知识点名称相同。
其中,上述语料数据可以作为训练数据使用。
可以理解的是,上述的语料数据需要经过前期的准备过程,具体包括数据的收集、数据标注及语句向量化的过程。具体如下:
1、数据的收集
数据的收集一般是由需要搭建指定领域的智能问答系统的客户提供的原始数据,包括人工客服工作中累积的问答数据、相关论坛或者在线咨询网站上的数据,还可以包括上述指定领域的文献文档或其他相关资料。
例如,若需要搭建银行信用卡智能问答系统,则可以由银行提供其信用卡业务相关的原始数据。
2、数据标注
数据标注的过程主要分为3步,包括归纳出知识点名称、确定该知识点名称的类型层次数据、及确定该知识点名称的相似问题和答案,以便得到上述的语料数据。
例如,在人社养老保险领域,知识点名称如下:参保单位或个人对核定缴费额有异议的怎么办?对重复参加城乡居民养老保险的人员、重复领取待遇的情况如何处理?城镇居民基本医疗保险能够报销多少门诊特殊慢性病费用?工伤职工享受的生活护理费标准为多少?
进一步的,将由人工对知识点名称进行类型的标注,从大类开始标注出该知识点名称的类型层次数据,例如,最大类为人社业务、下一类为养老业务,再下一类为领取方式。具体的,工作人员可以根据指定领域所在行业的知识目录结构划分出目录层次分类图,并基于该目录层次分类图标注每一个知识点名称的类型层次数据。请参阅图2,为本发明实施例中目录层次分类图的示意图,其中,图2为人力资源及社会保障领域的目录层次分类图。
通过上述的标注,可以将知识点名称归类到对应的分类下面,请参阅下表,为类型层次数据与知识点名称之间的对应关系。
可以理解的是,可以对原始数据中的问题,归类到特定的知识点名称下,以作为该知识点名称的相似问题,同时设置各个知识点名称对应的答案,以得到语料数据。
3、向量化
其中,将上述语料数据进行向量化处理,得到向量化后的语料数据,可以理解的是,向量化处理主要是将文字内容转化成上述构建装置能够识别的内容,以便能够将语料数据作为训练数据使用,训练得到指定领域的树形分类器。
步骤102、利用所述至少一条训练数据,构建初始树形分类器;
步骤103、基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器。
在本发明实施例中,在得到至少一条训练数据之后,构建装置将利用该至少一条训练数据,构建初始树形分类器,其中,该初始树形分类器是指树形结构中的根节点及其他的非叶子节点都配置上具体的类型,该初始树形分类器是类型按照从大到小的方式排布成的。例如,若对于类型A,其子类型为类型B、 C、D、E,则在初始树形分类器中,类型A所在的节点具有四个子节点,该四个子节点分别为类型B、C、D及E。
其中,构建装置将基于预置的机器学习算法,利用上述至少一条训练数据对初始树形分类器进行训练,得到树形分类器。其中,该树形分类器是上述指定领域的分类器,可以使用在上述指定领域的智能问答中。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,机器学习是人工智能的核心,是使计算机具有智能的根本途径。
在本发明实施例中,获取至少一条训练数据,该训练数据为具有至少一层分类特征的语料数据,利用该至少一条训练数据,构建初始树形分类器,并基于预置的机器学习算法,利用该至少一条训练数据对该初始树形分类器进行训练,得到树形分类器。相对于现有技术,通过使用具有至少一层分类特征的训练数据构建并训练初始树形分类器,使得训练得到的树形分类器的分类方式更加合理,使用该树形分类器进行智能问答,能够有效的提高智能问答的准确性。
基于图1b所示实施例,请参阅图3,为本发明实施例中分类器构建方法的流程示意图,包括:
步骤301、获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
可以理解的是,步骤301与图1b所示实施例中的步骤101描述的内容相似,此处不做赘述。
步骤302、依次遍历所述至少一条训练数据,确定遍历到的训练数据包含的类型层次数据及知识点;
步骤303、利用所述类型层次数据对所述初始树形分类器中的子分类器进行类型的递归配置,并将所述知识点作为配置的最后一个子分类器的子节点的数据,其中,遍历结束后得到已配置节点类型的所述初始树形分类器;
步骤304、基于SVM算法或者卷积神经网络CNN算法,利用所述至少一条训练数据对所述初始树形分类器中各个子分类器进行训练,配置所述各个子分类器的节点参数;
在本发明实施例中,由于训练数据中包含类型层次数据及知识点,则将利用其包含的类型层次数据构建初始树形分类器,使得构建的树形层次分类器的结构是与至少一条训练数据的类型层次数据匹配的,分类方式更加合理及准确。
其中,构建装置将依次遍历用于训练的至少一条训练数据,确定遍历到的训练数据包含的类型层次数据及知识点,并利用该类型层次数据对初始树形分类器中的节点进行类型的递归配置,并将知识点作为配置的最后一个节点的子节点的数据。
为了更好的理解,请参阅图4,为本发明实施例中初始树形结构分类器的示意图,在图4中,分类0是根节点,是指上述的指定领域,例如,可以是人社业务。第一层包含的三个节点的类型分别是分类00、分类01及分类02,是用于表示分类0的三个子分类。以一个训练数据的类型层次数据为分类0/分类 01/分类010/分类0100,知识点为A,则在遍历到该条训练数据时,是先确定分类0为最大分类,对应根节点,接着进入第一层,在第一层中确定是否存在分类01的节点,若不存在,则新增分类为01的子节点,并在第二层中为分类为 01的子节点新增分类为010的下一级子节点,并在第三层中为分类为010的子节点新增分类为0100的下一级子节点,若第一层中存在分类01的节点,则进入第二层,并确定是否存在分类010的节点,若存在,则进入第三层,确定是否存在分类0100的节点,且若存在,则将知识点A作为分类0100的节点的子节点的数据,若不存在,则为分类010的节点新增分类0100的节点,并将知识点A作为分类0100的节点的子节点的数据。此即为递归配置的过程。通过上述方式,在遍历完训练数据之后,即可得到分类结构与训练数据的类型层次数据匹配的初始树形分类器。如图4所示,该初始树形分类器包含三层分类器层及一层知识点层。
可以理解的是,在初始树形分类器中,除根节点及叶子节点以外,每一个节点都是一个子分类器,且上层节点包含的知识点为其各个子节点包含的知识点的总和。如图4所示,分类0的根节点包含的知识点为分类00、分类01和分类02的子节点包含的所有知识点的总和,分类010的节点包含的知识点为分类0100节点的知识点的总和、分类020的节点包含的知识点为分类0200的子节点包含的知识点,与分类0201的子节点包含的知识点的总和。其中,由于每个知识点为整个初始树形分类器的叶子节点,则每个知识点必定在初始树形分类器的每层中都唯一的属于某个分类器。
在本发明实施例中,在得到初始树形分类器之后,需要对其进行训练,已确定该初始树形分类器中各个子分类器的节点参数,可以使用机器学习算法,如支持向量机(Support Vector Machine,SVM)算法,卷积神经网络 (Convolutional Neural Network,CNN)算法等等,利用上述训练数据对初始树形分类器中各个子分类器进行训练,配置该初始树形分类器中各个子分类器的节点参数。其中,需要说明的是,为了便于使用,各个子分类器的节点参数可以是归一化后的节点参数。
其中,SVM是一种判别方法,在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析,利用该SVM算法及训练数据对初始树形分类器中各个子分类器进行训练,能够得到该各个子分类器的节点参数。
其中,CNN是一种前馈神经网络,它的人工神经可以响应一部分覆盖范围内的周围单元,是由具有可学习的参数和偏置常量的神经元组成,每个神经元都接收一些输入,并做一些点积计算,输出的是每个分类的分数,因此,利用训练数据,及CNN算法对初始树形结构分类器进行训练,能够得到该初始树形分类器中各个子分类器的节点参数。
需要说明的是,对于初始树形分类器,需要训练的参数包括两类,一类是该初始树形分类器中各个子分类器的节点参数,一类是初始树形分类器各层的加权系数,在利用CNN算法或者SVM算法训练得到各个子分类器的节点参数之后,固定该各个子分类器的节点参数不变,通过置信度算法对该初始树形分类器继续训练,得到各层的加权系数,加权系数的训练在步骤305及步骤306 中描述。如图4所示,主要是得到第一层至第三层的加权系数。
其中,节点参数是用于标识一个问题到达该节点,且类型属于该节点的概率大小,其可以通过多种不同形式的参数表示,此处不做限定。
步骤305、利用置信度算法及所述各个子分类器的节点参数,计算所述至少一条训练数据的知识点在所述初始树形分类器中的置信度;
步骤306、利用所述至少一条训练数据的知识点的置信度,确定所述初始树形分类器中各层的加权系数,得到所述树形分类器。
在统计学中,一个训练数据的置信度是对这个训练数据属于某个节点的概率估计,置信度展现的是这个训练数据的真实值有一定概率落在节点的周围的程度,置信度给出的是训练数据属于某个节点的可信程度。
在本发明实施例中,在配置初始树形分类器的各个子分类器的节点参数之后,将利用置信度算法及上述各个子分类器的节点参数,计算上述训练数据的知识点在该初始树形分类器中的置信度,并进一步的,利用训练数据的知识点的置信度,确定初始树形分类器中各层的加权系数。可以理解的是,在配置初始树形分类器各子分类器的节点参数及得到各层的加权系数之后,该初始树形分类器完成了训练,得到树形分类器,可用于智能问答。
其中,置信度算法如下:
其中,表示第i个训练数据的知识点在初始树形分类器中的置信度, path(i)表示第i个训练数据的知识点在初始树形分类器中从根节点到该知识点所在的叶子节点的路径,layer(x)表示子分类器x在初始树形分类器中所在的层数,al表示初始树形分类器中第1层的加权系数,px表示子分类器x在初始树形分类器中的节点参数。
在本发明实施例中,通过利用包含类型层次数据及知识点的训练数据,使得构造的初始树形分类器中各个节点的分类及各个节点之间的关系更加符合实际的分类关系,分类更加合理,且通过利用SVM算法或者CNN算法对初始树形分类器进行训练,能够有效的确定初始树形分类器中各个子分类器的节点参数,并通过利用置信度算法,能够有效得到初始树形分类器中各层的加权系数,使得训练得到的树形分类器的分类性能更好,利用该树形分类器进行智能问答能够减少问题理解的歧义性,提高分类匹配的准确性,智能问答的准确性更高。
在本发明实施例中,为了使得智能问答的准确性更好,还可以在树形分类器的基础上,使用层次分类器进行辅助修正,请参阅图5,为本发明实施例中分类器构建方法的流程示意图,包括:
步骤501、利用所述至少一条训练数据,构建具有层次分类结构的初始层次分类器;
步骤502、基于预置的机器学习算法,利用所述至少一条训练数据及所述树形分类器,对所述初始层次分类器进行训练,得到层次分类器。
需要说明的是,层次分类器的训练是基于已训练得到的树形分类器进行的,因此,图5所示实施例是在图1b或图3所示实施例的基础上实现的。
在本发明实施例中,为了训练得到能够辅助树形分类器的层次分类器,将先利用至少一条训练数据,构建具有层次分类结构的初始层次分类器,请参阅图6,为本发明实施例中步骤501的细化步骤的流程示意图,包括:
步骤601、确定所述至少一条训练数据包含的类型层次数据及知识点;
步骤602、利用所述至少一条训练数据的类型层次数据确定所述初始层次分类器的层数,及每层包含的节点的类型;
步骤603、对于所述初始层次分类器的第i层,将所述至少一条训练数据的知识点基于类型层次数据划分至所述第i层中类型匹配的节点的数据集合中,其中,i的值为1至N,N为所述初始层次分类器的层数。
在本发明实施例中,构建装置将利用至少一条训练数据的类型层次数据确定初始层次分类器的层数,及每层包含的节点的类型,具体的,可以先基于训练数据的类型层次数据构建类型结构树,然后基于该类型结构树划分层数及确定每层的节点,以得到初始层次分类器的层数及每层包含的节点的类型。
对于该初始层次分类器的第i层,将该训练数据的知识点基于类型层次数据划分至第i层中的类型匹配的节点的数据集合中,其中i的值为1至N,N为初始层次分类器的层数。
其中,层次分类器中的每一层都是一个子分类器。
为了更好的理解,请参阅图7,为本发明实施例中初始层次分类器的示意图,在图7中,整体结构为类型结构树,第一层为一个子分类器,第二层为一个子分类器,第三层为一个子分类器,且每一层中都包含若干个子节点,每一个子节点都表示了在该层中的类型。
假如有10万条训练数据,则对于第一层中的类型00、类型01及类型02,其每一种类型的训练数据的知识点的个数为4万、4万、2万。对于第二层中的类型000、类型010、类型011、类型020、类型021、类型022,其中,每一种类型的训练数据的知识点的个数为4万、3万、1万、1万、1万、2万。即每一层的训练数据的和都为总的训练数据。
需要说明的是,层次分类器是由多个子分类器组成的,且子分类器之间是互相独立的,并不存在树形分类器中的父子节点关系。
在本发明实施例中,通过上述方式能够得到初始层次分类器,且将基于预置的机器学习算法,利用上述训练数据及已训练得到的树形分类器,对初始层次分类器进行训练,得到层次分类器。请参阅图8a,为图5所示实施例中步骤 502的细化步骤的流程示意图,包括:
步骤801、基于SVM算法或者CNN算法,利用所述至少一条训练数据对所述初始层次分类器中各个层进行训练,配置所述初始层次分类器中各层中各节点的节点参数;
步骤802、利用已计算的所述至少一条训练数据的知识节点在所述树形分类器中的置信度、及所述初始层次分类器中各层中各节点的节点参数,计算所述至少一条训练数据的知识点在所述初始层次分类器中的置信度;
步骤803、利用所述至少一条训练数据的知识点在所述初始层次分类器中的置信度,确定所述初始层次分类器中各层的加权系数,得到所述层次分类器。
在本发明实施例中,初始层次分类器的训练也包括两种参数的训练,分别是各层中各节点的节点参数的训练,及各层的加权系数的训练,其中,一层中包含的每一个类型都可以作为一个节点,或者一层中的多个类型可以作为一个节点。
其中,各层中各节点的节点参数也可以使用SVM算法或者CNN算法训练得到,且固定各层中各节点的节点参数不变,利用训练数据的知识点在树形分类器中的置信度及上述各层中各节点的节点参数,计算训练数据的知识点在初始层次分类器中的置信度,并可基于至少一条训练数据的知识点在初始层次分类器中的置信度确定初始层次分类中各层的加权系数。且可以理解的是,已配置节点参数且得到各层的加权系数的初始层次分类器即为训练后的层次分类器。
需要说明的是,一层中的每一个类型均分别作为一个节点的情况下,训练数据的知识点在初始层次分类器中的置信度的计算算法如下:
其中,表示第i个训练数据的知识点在初始层次分类器中的置信度,表示第i个训练数据的知识点在树形分类器(初始树形分类器)中的置信度,βlayer(x)表示初始层次分类器中类型x所在的层的加权系数,表示类型x在初始层次分类器中的节点参数。
需要说明的是,一层中多个类型合并为一个节点的情况下,训练数据的知识点在初始层次分类器中的执行度的计算算法如下:
其中,表示第i个训练数据的知识点在初始层次分类器中的置信度,表示第i个训练数据的知识点在树形分类器(初始树形分类器)中的置信度,βlayer(x)表示初始层次分类器中类型x所在的层的加权系数,xΔ表示类型x 与其他类型合并后所属的节点,表示类型x所属的节点的节点参数。
需要说明的是,将一层中的多个类型合并至一个节点,主要是考虑到由于一层(一个子分类器)中包含的类型太多,各个类型包含的训练数据的知识点的个数不均衡,会带来分类结果不佳的问题,通过将一层中的多个类型合并至一个节点(可以随机合并或者由人工合并),使得每一层中各个节点包含的知识点的个数是均衡的,且进一步的,通过合并的方式,能够有效的减少训练过程中的计算量,降低训练时的计算负担。请参阅图8b,为初始层次分类器的另一示意图,新分类均表示一个节点,且该节点内有至少两种类型。
在本发明实施例中,在训练得到树形分类器之后,通过基于树形分类器继续训练得到层次分类器,使得在智能问答系统中使用树形分类器时,能够利用层次分类器修正树形分类器的输出结果。且树形分类器需要修正的原因是:在智能问答系统中使用树形分类器时,对于用户提出的问题,必定会确定至少一个与该问题匹配的知识点作为输出结果,然而,在实际应用中,存在没有任何知识点与该问题匹配的情况,即用户提出的问题是无法回答的,因此,智能问答系统基于树形分类器确定的知识点进行回答的话,必然是给出了错误的答案。因此,为了避免给出错误的答案的情况,则需要对树形分类器的输出结果进行修正,通过修正的方式,还能够进一步地识别用户提出的问题是否真正存在匹配的知识点。
在本发明实施例中,通过在树形分类器的基础上训练得到层次分类器,使得能够利用层次分类器对树形分类器的输出结果进行修正,避免输出错误的答案,且能够识别用户提出的问题是否真正存在匹配的知识点。
在训练得到上述树形分类器及层次分类器之后,可以在智能问答系统中单独使用树形分类器进行问答处理,或者可以结合树形分类器及层次分类器进行问答处理。
请参阅图9,为本发明实施例中智能问答方法的流程示意图,包括:
步骤901、获取输入的问题;
步骤902、根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,所述树形分类器为利用至少一条训练数据训练得到的,所述训练数据为具有至少一层分类特征的语料数据;
步骤903、输出所述目标知识点。
在本发明实施例中,分类器训练之后,需要加载至智能问答系统中,提供问答服务,其中,上述的智能问答方法可以由智能问答装置实现,上述智能问答系统可以是承载在智能问答服务器上的,该问答服务器中包含上述的智能问答装置的程序模块,使得智能问答服务器能够调用智能问答装置实现问答。
上述分类器具体可以是树形分类器,该树形分类器为利用至少一条训练数据训练得到的,且该训练数据为具有至少一层分类特征的语料数据。该树形分类器的构建方法可以参阅图1b至图8a任意一实施例中的分类器构建方法。
在本发明实施例中,用户在客户端输入其想问的问题,客户端将该问题发送给智能问答装置。智能问答装置获取到输入的问题后,根据该问题及树形分类器,确定与问题匹配的目标知识点。具体的,智能问答装置将确定在树形分类器的叶子节点中,该问题的置信度排在前H的H各叶子节点,并将该H个叶子节点的知识点作为目标知识点,其中H为正整数,且可以基于需要进行设置,例如可以设置为1或2。
智能问答装置在得到目标知识点后,将输出该目标知识点,其中,可以直接输出该知识点,或者输出该知识点中包含的答案,可以理解的是,若该答案为链接,则可以获取该链接中的文字内容,并将该文字内容输出,若该答案为文字内容,则可以直接输出该文字内容,或者将该文字内容转换成多媒体文件并输出,该多媒体文件可以是语音或者视频。
在本发明实施例中,通过使用具有至少一层分类特征的训练数据训练树形分类器,使得该树形分类器具有分类合理的优点,且通过使用该树形分类器进行智能问答,能够有效避免对问题理解发生歧义,有效提高问答的准确性。
为了进一步提高智能问答的准确性,及实现对是否真正存在与问题匹配的知识点的判断,下面将介绍结合树形分类器及层次分类器的智能问答过程,请参阅图10a,为本发明实施例中,智能问答方法的流程示意图,包括:
步骤1001、获取输入的问题;
步骤1002、确定在所述树形分类器的叶子节点中,所述问题的置信度排在前M的M个叶子节点,及计算在所述层次分类器各层的各个节点中,置信度排在前K的K个节点,所述M和K均为正整数,所述层次分类器为利用所述至少一条训练数据及所述树形分类器训练得到的;
步骤1003、确定所述M个叶子节点的知识点与所述K个节点的知识点中存在的相同知识点,将所述相同知识点作为所述目标知识点;
步骤1004、输出所述目标知识点。
在本发明实施例中,智能问答装置在获取到用户输入的问题之后,将计算在树形分类器的叶子节点中,该问题的置信度排在前M的M个叶子节点。
需要说明的是,考虑到当树形分类器的层数多及每层包含的节点也多时,为了得到一个用户的问题在树形分类器中排在前M的M个叶子节点,需要递归遍历调用树形分类器中的所有子分类器,然后根据上述公式(1)计算每个叶子节点的置信度,然后进行排序,这种方式的计算量非常大,为了减少计算量,减轻计算负担,在确定上述M个叶子节点时,可以对树形分类器进行剪枝。
其中,剪枝是指设置树形分类器中每一个子分类器的下一层选取的子分类器的个数。因此,上述确定在树形分类器的叶子节点中,问题的置信度排在前M的M个叶子节点具体可以为:
步骤A、遍历树形分类器中的第h层,计算问题在遍历到的第h层中的参考子分类器的下一层子分类器的置信度,h的初始值为0,h为整数;
步骤B、从每一个参考子分类器的下一层子分类器中,选择置信度排在前 F的子分类器作为第h+1层的参考子分类器;
步骤C、当第h+1层的下一层为叶子节点时,从第h+1层的参考子分类器的下一层节点中选择置信度排在前M的M个叶子节点;
步骤D、当第h+1层的下一层为非叶子节点时,令h=h+1,返回执行遍历树形分类器中的第h层,计算问题在遍历到的第h层中的参考子分类器的下一层子分类器的置信度。
其中,树形分类器中除根节点及叶子节点以外,每一个节点均为一个子分类器,智能问答装置预先设置从每一个子分类器的下一层的子分类器中选择的子节点的个数为F,F为正整数,且该个数F为子分类器的下一层子分类器中,置信度最排在前F的子分类器。其中,该F可以为2。例如,若第2层的子分类器A在第二层有BCDE四个子分类器,则从该子分类器中选择置信度排在前 2的子分类器BD。可以理解的是,通过该种方式,就不需要计算每一个子分类器的置信度,能够有效的降低计算量,减轻运算负担。
其中,选择的子分类器均作为参考子分类器。特殊地,在h为0时,根节点即为参考子分类器。
在本发明实施例中,将从树形分类器的第h层开始进行遍历,该h的初始值为0,则表示遍历到的是树形分类器中的根节点,通常根节点的个数只有一个,智能问答装置在遍历到到第h层时,将计算在遍历到的第h层中参考子分类器的下一层子分类器的置信度。且在得到第h层中每一个参考子分类器的各下一层子分类器的置信度之后,对于每一个参考子分类器,都将选择该参考子分类器的下一层子分类器中置信度排在前F的子分类器,并作为第h+1层的参考子分类器,在对每一个参考子分类器都选择其下一层的参考子分类器之后,将进一步判断第h+1层的下一层是否为叶子节点,如果为叶子节点,则从第h+1 层的参考子分类器中选择置信度排在前M的M个叶子节点,若不为叶子节点,则表明需要继续遍历,将令h=h+1,继续确定下一层的参考子分类器,直至结束。需要说明的是,叶子节点的置信度为其上一层父节点(子分类器)的置信度。
可以理解的是,如果树形分类器的层数为3层,每个参考子分类器都将其下一层子分类器中置信度排在前2的两个子分类器作为下一层的参考子分类器,则一次问答过程中最多需要利用8个叶子节点的知识点确定匹配的目标知识点,而不需要使用到所有叶子节点的知识点,能够有效的节约计算量。
为了更好的理解,请参阅图11,为本发明实施例中参考子分类器的选择示意图,如图11所示,该结构为树形分类器,子分类器A为根节点,子分类器 b1至b3为第一层中的子分类器,子分类器c1至c9为第二层中的子分类器,子分类器d1至d14为第三层中的子分类器,节点e1至e14为叶子节点,且包含对应的知识点。在遍历开始时,先遍历第0层中的参考子分类器,即子分类器a,计算其各个子分类器,即子分类器b1至子分类器b3的置信度,若子分类器b1和子分类器b2的置信度排在前2,则将子分类器b1和子分类器b2选择为子分类器a的下一层的参考子分类器(图中为虚线框),因此,子分类器 b1和子分类器b2为第一层中的参考子分类器,继续遍历至第一层,计算第一层中的参考子分类器,即子分类器b1下一层的子分类器c1至c3的置信度,及计算子分类器b2下一层的子分类器c4至c6的置信度,从子分类器b1下一层子分类器中,选择置信度排在前2的子分类器c1及c2为第二层的参考子分类器,同时,从子分类器b2的下一层子分类器中,选择置信度排在前2的子分类器c4及c5作为第二层的参考子分类器,因此,第二层的参考子分类器包括子分类器c1、c2、c4及c5,遍历第二层,计算第二层的参考子分类器,即子分类器c1的下一层子分类器d1及d2的置信度,子分类器c2的下一层子分类器d3 的置信度,子分类器c4的下一层子分类器d6、d7的置信度、子分类器c5的下一层子分类器d8、d9的置信度,并为第二层的每一个参考子分类器都选择其下一层子分类器中,置信度排在前2的子分类器作为第三层的参考子分类器,因此,第三层的参考子分类器为子分类器d1至d3,及子分类器d6至d9。由于第三层的下一层为叶子节点,因此,此时遍历过程结束,第三层的参考子分类器的下一层节点为叶子节点e1至e3,及e6至e9,且为知识点所在的节点,并将各叶子节点的上一层子分类器的置信度作为其自身的置信度,并选择排在前M 的M个叶子节点。
可以理解的是,通过上述方式能够有效减少计算量,减去运算负担。
在本发明实施例中,还将使用到层次分类器,层次分类器是利用上述训练数据及树形分类器进行训练得到的,具体可以参阅图1b至图8a所示实施例中的分类器构建方法。
为了实现层次分类器的修正作用,在得到树形分类器中置信度排在前M的 M各叶子节点之后,还将计算上述问题在层次分类器中置信度排在前K的K 个节点,具体可以使用上述公式(2)或者公式(3)计算得到。
进一步的,将M个叶子节点的知识点与K个节点的知识点中是否存在相同知识点,若存在,则将相同知识点作为目标知识点。若不存在,则表明并不存在与问题匹配的知识点。通过确定是否存在相同知识点的方式,能够使得输出结果更加准确,且可以判断出是否存在与问题匹配的知识点,该问题是否超出知识点范围等。
其中,输出目标知识点具体可以是将目标知识点反馈给提问的客户端,客户端在接收到该知识点之后,可以显示知识点,或者显示知识点包含的答案,请参阅图10b及图10c,图10b为微信客户端的智能问答显示界面的示意图,图10c为浏览器客户端的智能问答显示界面的示意图。
在本发明实施例中,上述树形分类器及层次分类器应用于智能问答系统中,利用指定领域内,具有至少一层分类特征的训练数据,构建树形分类器及层次分类器,使得能够利用树形分类器的多层递归分类匹配消除分类歧义,避免对问题错误的分类,能够有效提高智能问答的准确性,且利用层次分类器修正树形分类器的输出结果,能够进一步的提高问题分类的准确性,并识别是否真正存在与问题匹配的知识点。此外,以剪枝的方式能够有效的减少运算量,减去运算负担。
需要说明的是,在实际应用中,还可以将训练数据分为多份,并训练得到多个层次分类器,利用该多个层次分类器对树形分类器进行修正,以进一步提高智能问答的准确性。
进一步的,上述的树形分类器及层次分类器确定的目标知识点,还可以与其他方式如模式匹配方式确定的目标知识点,进一步求交集,以实现更好的智能问题。其中,模式匹配方式确定目标知识点为现有技术,此处不做赘述。
请参阅图12,为本发明实施例中分类器构建装置的的结构示意图,包括:
获取模块1201,用于获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
第一构建模块1202,用于利用所述至少一条训练数据,构建初始树形分类器;
第一训练模块1203,用于基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器。
在本发明实施例中,获取至少一条训练数据,该训练数据为具有至少一层分类特征的语料数据,利用该至少一条训练数据,构建初始树形分类器,并基于预置的机器学习算法,利用该至少一条训练数据对该初始树形分类器进行训练,得到树形分类器。相对于现有技术,通过使用具有至少一层分类特征的训练数据构建并训练初始树形分类器,使得训练得到的树形分类器的分类方式更加合理,使用该树形分类器进行智能问答,能够有效的提高智能问答的准确性。
请参阅图13,为本发明实施例中分类器构建装置的的结构示意图,包括如图12所示的获取模块1201、第一构建模块1202及第一训练模块1203,且与图 12所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,第一构建模块1202包括:
遍历模块1301,用于依次遍历所述至少一条训练数据,确定遍历到的训练数据包含的类型层次数据及知识点;
递归配置模块1302,用于利用所述类型层次数据对所述初始树形分类器中的子分类器进行类型的递归配置,并将所述知识点作为配置的最后一个子分类器的子节点的数据,其中,遍历结束后得到已配置节点类型的所述初始树形分类器。
其中,第一训练模块1203包括:
第一参数训练模块1303,用于基于支持向量机SVM算法或者卷积神经网络CNN算法,利用所述至少一条训练数据对所述初始树形分类器中各个子分类器进行训练,配置所述各个子分类器的节点参数;
第一计算模块1304,用于利用置信度算法及所述各个子分类器的节点参数,计算所述至少一条训练数据的知识点在所述初始树形分类器中的置信度;
第一系数确定模块1305,用于利用所述至少一条训练数据的知识点的置信度,确定所述初始树形分类器中各层的加权系数,得到所述树形分类器。
在本发明实施例中,通过利用包含类型层次数据及知识点的训练数据,使得构造的初始树形分类器中各个节点的分类及各个节点之间的关系更加符合实际的分类关系,分类更加合理,且通过利用SVM算法或者CNN算法对初始树形分类器进行训练,能够有效的确定初始树形分类器中各个子分类器的节点参数,并通过利用置信度算法,能够有效得到初始树形分类器中各层的加权系数,使得训练得到的树形分类器的分类性能更好,利用该树形分类器进行智能问答能够减少问题理解的歧义性,提高分类匹配的准确性,智能问答的准确性更高。
请参阅图14,为本发明实施例中分类器构建装置的的结构示意图,包括如图12所示的获取模块1201、第一构建模块1202及第一训练模块1203,且与图 12所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,装置还包括:
第二构建模块1401,用于利用所述至少一条训练数据,构建具有层次分类结构的初始层次分类器;
第二训练模块1402,用于基于预置的机器学习算法,利用所述至少一条训练数据及所述树形分类器,对所述初始层次分类器进行训练,得到层次分类器。
其中,第二构建模块1401具体用于:
确定所述至少一条训练数据包含的类型层次数据及知识点;
利用所述至少一条训练数据的类型层次数据确定所述初始层次分类器的层数,及每层包含的节点的类型;
对于所述初始层次分类器的第i层,将所述至少一条训练数据的知识点基于类型层次数据划分至所述第i层中类型匹配的节点的数据集合中,其中,i的值为1至N,N为所述初始层次分类器的层数。
其中,第二训练模块1402具体用于:
基于SVM算法或者CNN算法,利用所述至少一条训练数据对所述初始层次分类器中各个层进行训练,配置所述初始层次分类器中各层中各节点的节点参数;
利用已计算的所述至少一条训练数据的知识节点在所述树形分类器中的置信度、及所述初始层次分类器中各层中各节点的节点参数,计算所述至少一条训练数据的知识点在所述初始层次分类器中的置信度;
利用所述至少一条训练数据的知识点在所述初始层次分类器中的置信度,确定所述初始层次分类器中各层的加权系数,得到所述层次分类器。
在本发明实施例中,在训练得到树形分类器之后,通过基于树形分类器继续训练得到层次分类器,使得在智能问答系统中使用树形分类器时,能够利用层次分类器修正树形分类器的输出结果。且树形分类器需要修正的原因是:在智能问答系统中使用树形分类器时,对于用户提出的问题,必定会确定至少一个与该问题匹配的知识点作为输出结果,然而,在实际应用中,存在没有任何知识点与该问题匹配的情况,即用户提出的问题是无法回答的,因此,智能问答系统基于树形分类器确定的知识点进行回答的话,必然是给出了错误的答案。因此,为了避免给出错误的答案的情况,则需要对树形分类器的输出结果进行修正,通过修正的方式,还能够进一步地识别用户提出的问题是否真正存在匹配的知识点。
在本发明实施例中,通过在树形分类器的基础上训练得到层次分类器,使得能够利用层次分类器对树形分类器的输出结果进行修正,避免输出错误的答案,且能够识别用户提出的问题是否真正存在匹配的知识点。
请参阅图15,为本发明实施例中智能问答装置的的结构示意图,其中,该分类器为前述构建装置训练得到的分类器,包括:
问题获取模块1501,用于获取输入的问题;
目标确定模块1502,用于根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,所述树形分类器为利用至少一条训练数据训练得到的,所述训练数据为具有至少一层分类特征的语料数据;
输出模块1503,用于输出所述目标知识点。
在本发明实施例中,通过使用具有至少一层分类特征的训练数据训练树形分类器,使得该树形分类器具有分类合理的优点,且通过使用该树形分类器进行智能问答,能够有效避免对问题理解发生歧义,有效提高问答的准确性。
请参阅图16,为本发明实施例中智能问答装置的的结构示意图,包括如图15所示的问题获取模块1501、目标确定模块1502及输出模块1503,且与图15 所示实施例中描述的内容相似,此处不做赘述。
其中,目标确定模块1502包括:
第一节点确定模块1601,用于确定在所述树形分类器的叶子节点中,所述问题的置信度排在前M的M个叶子节点;
第二节点确定模块1602,用于及计算在所述层次分类器各层的各个节点中,置信度排在前K的K个节点,所述M和K均为正整数,所述层次分类器为利用所述至少一条训练数据及所述树形分类器训练得到的;
节点交集确定模块1603,用于确定所述M个叶子节点的知识点与所述K 个节点的知识点中存在的相同知识点,将所述相同知识点作为所述目标知识点。
其中,第一节点确定模块1601具体用于:
遍历所述树形分类器中的第h层,计算所述问题在遍历到的第h层中的参考子分类器的下一层子分类器的置信度,h的初始值为0,h为整数;
从每一个参考子分类器的下一层子分类器中,选择置信度排在前F的子分类器作为第h+1层的参考子分类器,所述F为正整数;
当所述第h+1层的下一层为叶子节点时,从所述第h+1层的参考子分类器的下一层节点中选择置信度排在前M的M个叶子节点;
当所述第h+1层的下一层为非叶子节点时,令h=h+1,返回执行遍历所述树形分类器中的第h层,计算所述问题在遍历到的第h层中的参考子分类器的下一层子分类器的置信度。
在本发明实施例中,上述树形分类器及层次分类器应用于智能问答系统中,利用指定领域内,具有至少一层分类特征的训练数据,构建树形分类器及层次分类器,使得能够利用树形分类器的多层递归分类匹配消除分类歧义,避免对问题错误的分类,能够有效提高智能问答的准确性,且利用层次分类器修正树形分类器的输出结果,能够进一步的提高问题分类的准确性,并识别是否真正存在与问题匹配的知识点。此外,以剪枝的方式能够有效的减少运算量,减去运算负担。
可以理解的是,在本发明实施例中,上述的分类树的构建装置是一种终端,该终端可以是训练服务器,分类树的智能问答装置也可以是一种终端,该终端具体可以是使用服务器,此外,构建装置和智能问答装置可以共同的属于同一个服务器,为了更好的理解本发明实施例中的技术方案,以分类器的训练及使用都由一个服务器实现为例,请参阅图17,为本发明实施例中终端170的结构示意图。该终端170包括处理器1701、存储器1702和收发器1703,存储器1702 可以包括只读存储器和随机存取存储器,并向处理器1701提供操作指令和数据。存储器1702的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器1702存储了如下的元素:可执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
在本发明实施例中,通过调用存储器1702存储的操作指令(该操作指令可存储在操作系统中),执行以下过程:获取至少一条训练数据,训练数据为具有至少一层分类特征的语料数据;利用至少一条训练数据,构建初始树形分类器;基于预置的机器学习算法,利用至少一条训练数据对初始树形分类器进行训练,得到树形分类器。及执行获取输入的问题;根据所述问题及树形分类器,确定与所述问题匹配的目标知识点;输出所述目标知识点,或者执行以下过程:获取输入的问题;根据问题及树形分类器,确定与问题匹配的目标知识点,树形分类器为利用至少一条训练数据训练得到的,训练数据为具有至少一层分类特征的语料数据;输出目标知识点。
与现有技术相比,本发明实施例提供的终端,通过使用具有至少一层分类特征的训练数据构建并训练初始树形分类器,使得训练得到的树形分类器的分类方式更加合理,使用该树形分类器进行智能问答,能够有效的提高智能问答的准确性。
其中,处理器1701控制终端170的操作,处理器1701还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器1702可以包括只读存储器和随机存取存储器,并向处理器1701提供指令和数据。存储器1702的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中终端170的各个组件通过总线系统1704耦合在一起,其中总线系统1704除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统1704。
上述本发明实施例揭示的方法可以应用于处理器1701中,或者由处理器 1701实现。处理器1701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器910可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1702,处理器1701读取存储器1702中的信息,结合其硬件完成上述方法的步骤。
以上的终端170可以参阅图1b、图3、图5、图6、图8a、图9及图10a 所示实施例的描述进行理解,本处不做过多赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种分类器构建及智能问答方法、装置、终端及可读存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种分类器构建方法,其特征在于,所述方法包括:
获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
利用所述至少一条训练数据,构建初始树形分类器;
基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器。
2.根据权利要求1所述的方法,其特征在于,所述利用至少一条训练数据,构建初始树形分类器,包括:
依次遍历所述至少一条训练数据以确定遍历到的训练数据包含的类型层次数据及知识点;
利用所述类型层次数据对所述初始树形分类器中的子分类器进行类型的递归配置,并将所述知识点作为配置的最后一个子分类器的子节点的数据。
3.根据权利要求1或2所述的方法,其特征在于,所述基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器,包括:
基于支持向量机SVM算法或者卷积神经网络CNN算法,利用所述至少一条训练数据对所述初始树形分类器中各个子分类器进行训练,配置所述各个子分类器的节点参数;
利用置信度算法及所述各个子分类器的节点参数,计算所述至少一条训练数据的知识点在所述初始树形分类器中的置信度;
利用所述至少一条训练数据的知识点的置信度,确定所述初始树形分类器中各层的加权系数,得到所述树形分类器。
4.根据权利要求1或2所述的方法,其特征在于,所述基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器之后还包括:
利用所述至少一条训练数据,构建具有层次分类结构的初始层次分类器;
基于预置的机器学习算法,利用所述至少一条训练数据及所述树形分类器,对所述初始层次分类器进行训练,得到层次分类器。
5.根据权利要求4所述的方法,其特征在于,所述利用所述至少一条训练数据,构建具有层次分类结构的初始层次分类器,包括:
确定所述至少一条训练数据包含的类型层次数据及知识点;
利用所述至少一条训练数据的类型层次数据确定所述初始层次分类器的层数,及每层包含的节点的类型;
对于所述初始层次分类器的第i层,将所述至少一条训练数据的知识点基于类型层次数据划分至所述第i层中类型匹配的节点的数据集合中,其中,i的值为1至N,N为所述初始层次分类器的层数。
6.根据权利要求4所述的方法,其特征在于,所述基于预置的机器学习算法,利用所述至少一条训练数据及所述树形分类器,对所述初始层次分类器进行训练,得到层次分类器,包括:
基于SVM算法或者CNN算法,利用所述至少一条训练数据对所述初始层次分类器中各个层进行训练,配置所述初始层次分类器中各层中各节点的节点参数;
利用已计算的所述至少一条训练数据的知识节点在所述树形分类器中的置信度、及所述初始层次分类器中各层中各节点的节点参数,计算所述至少一条训练数据的知识点在所述初始层次分类器中的置信度;
利用所述至少一条训练数据的知识点在所述初始层次分类器中的置信度,确定所述初始层次分类器中各层的加权系数,得到所述层次分类器。
7.一种智能问答方法,其特征在于,所述方法包括:
获取输入的问题;
根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,所述树形分类器为利用至少一条训练数据训练得到的,所述训练数据为具有至少一层分类特征的语料数据;
输出所述目标知识点。
8.根据权利要求7所述的方法,其特征在于,所述根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,包括:
确定在所述树形分类器的叶子节点中,所述问题的置信度排在前H的H个叶子节点,将所述H个叶子节点的知识点作为所述目标知识点。
9.根据权利要求7所述的方法,其特征在于,所述根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,包括:
确定在所述树形分类器的叶子节点中,所述问题的置信度排在前M的M个叶子节点,及计算在所述层次分类器各层的各个节点中,置信度排在前K的K个节点,所述M和K均为正整数,所述层次分类器为利用所述至少一条训练数据及所述树形分类器训练得到的;
确定所述M个叶子节点的知识点与所述K个节点的知识点中存在的相同知识点,将所述相同知识点作为所述目标知识点。
10.根据权利要求9所述的方法,其特征在于,所述确定在所述树形分类器的叶子节点中,所述问题的置信度排在前M的M个叶子节点,包括:
遍历所述树形分类器中的第h层,计算所述问题在遍历到的第h层中的参考子分类器的下一层子分类器的置信度,h的初始值为0,h为整数;
从每一个参考子分类器的下一层子分类器中,选择置信度排在前F的子分类器作为第h+1层的参考子分类器,所述F为正整数;
当所述第h+1层的下一层为叶子节点时,从所述第h+1层的参考子分类器的下一层节点中选择置信度排在前M的M个叶子节点;
当所述第h+1层的下一层为非叶子节点时,令h=h+1,返回执行遍历所述树形分类器中的第h层,计算所述问题在遍历到的第h层中的参考子分类器的下一层子分类器的置信度。
11.一种分类器构建装置,其特征在于,所述装置包括:
获取模块,用于获取至少一条训练数据,所述训练数据为具有至少一层分类特征的语料数据;
第一构建模块,用于利用所述至少一条训练数据,构建初始树形分类器;
第一训练模块,用于基于预置的机器学习算法,利用所述至少一条训练数据对所述初始树形分类器进行训练,得到树形分类器。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二构建模块,用于利用所述至少一条训练数据,构建具有层次分类结构的初始层次分类器;
第二训练模块,用于基于预置的机器学习算法,利用所述至少一条训练数据及所述树形分类器,对所述初始层次分类器进行训练,得到层次分类器。
13.一种智能问答装置,其特征在于,所述装置包括:
问题获取模块,用于获取输入的问题;
目标确定模块,用于根据所述问题及树形分类器,确定与所述问题匹配的目标知识点,所述树形分类器为利用至少一条训练数据训练得到的,所述训练数据为具有至少一层分类特征的语料数据;
输出模块,用于输出所述目标知识点。
14.根据权利要求13所述的装置,其特征在于,所述目标确定模块用于:确定在所述树形分类器的叶子节点中,所述问题的置信度排在前H的H个叶子节点,将所述H个叶子节点的知识点作为所述目标知识点,H为正整数;
或者,
所述目标确定模块用于:
确定在所述树形分类器的叶子节点中,所述问题的置信度排在前M的M个叶子节点,及计算在所述层次分类器各层的各个节点中,置信度排在前K的K个节点,所述M和K均为正整数,所述层次分类器为利用所述至少一条训练数据及所述树形分类器训练得到的;
确定所述M个叶子节点的知识点与所述K个节点的知识点中存在的相同知识点,将所述相同知识点作为所述目标知识点。
15.一种终端,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,若所述计算机程序为用于分类器构建的程序,则所述处理器执行所述计算机程序时,实现如权利要求1至6任意一项所述的分类器构建方法中的各个步骤,或者,若所述计算机程序为用于智能问答的程序,则所述处理器执行所述计算机程序时,实现如权利要求7至10任意一项所述的智能问答方法。
16.一种可读存储介质,其上存储有计算机程序,其特征在于,若所述计算机程序为用于分类器构建的程序,则所述计算机程序被处理器执行时,实现如权利要求1至6任意一项所述的分类器构建方法中的各个步骤,或者,若所述计算机程序为用于智能问答的程序,则所述计算机程序被处理器执行时,实现如权利要求7至10任意一项所述的智能问答方法。
CN201810093960.5A 2018-01-31 2018-01-31 分类器构建及智能问答方法、装置、终端及可读存储介质 Active CN108509484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810093960.5A CN108509484B (zh) 2018-01-31 2018-01-31 分类器构建及智能问答方法、装置、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810093960.5A CN108509484B (zh) 2018-01-31 2018-01-31 分类器构建及智能问答方法、装置、终端及可读存储介质

Publications (2)

Publication Number Publication Date
CN108509484A true CN108509484A (zh) 2018-09-07
CN108509484B CN108509484B (zh) 2022-03-11

Family

ID=63375581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810093960.5A Active CN108509484B (zh) 2018-01-31 2018-01-31 分类器构建及智能问答方法、装置、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN108509484B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471938A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本分类方法及终端
CN109902178A (zh) * 2019-02-28 2019-06-18 云孚科技(北京)有限公司 一种多级文本分类方法及系统
CN109933654A (zh) * 2019-01-30 2019-06-25 神思电子技术股份有限公司 一种基于状态树的对话管理方法
CN110032631A (zh) * 2019-03-26 2019-07-19 腾讯科技(深圳)有限公司 一种信息反馈方法、装置和存储介质
CN110502675A (zh) * 2019-07-15 2019-11-26 平安普惠企业管理有限公司 基于数据分析的语音拨叫用户分类方法及相关设备
WO2020073531A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 文本分类模型的更新训练方法、装置及设备
CN111694939A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 智能调用机器人的方法、装置、设备及存储介质
CN111898343A (zh) * 2020-08-03 2020-11-06 北京师范大学 一种基于短语结构树的相似题目识别方法和系统
CN113362083A (zh) * 2021-06-04 2021-09-07 苏州科达科技股份有限公司 报修方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416701A (zh) * 2022-03-30 2022-04-29 威海海洋职业学院 一种基于大数据的财务咨询智能引导系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117387A (zh) * 2015-09-21 2015-12-02 上海智臻智能网络科技股份有限公司 一种智能机器人交互系统
CN105893465A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 自动问答方法和装置
CN107092644A (zh) * 2017-03-07 2017-08-25 重庆邮电大学 一种基于MPI和Adaboost.MH的中文文本分类方法
CN107330021A (zh) * 2017-06-20 2017-11-07 北京神州泰岳软件股份有限公司 基于多叉树的数据分类方法、装置及设备
CN107562816A (zh) * 2017-08-16 2018-01-09 深圳狗尾草智能科技有限公司 用户意图自动识别方法及装置
KR20180007504A (ko) * 2016-07-13 2018-01-23 조정문 실행 순서 결정 장치 및 실행 순서 결정 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117387A (zh) * 2015-09-21 2015-12-02 上海智臻智能网络科技股份有限公司 一种智能机器人交互系统
CN105893465A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 自动问答方法和装置
KR20180007504A (ko) * 2016-07-13 2018-01-23 조정문 실행 순서 결정 장치 및 실행 순서 결정 방법
CN107092644A (zh) * 2017-03-07 2017-08-25 重庆邮电大学 一种基于MPI和Adaboost.MH的中文文本分类方法
CN107330021A (zh) * 2017-06-20 2017-11-07 北京神州泰岳软件股份有限公司 基于多叉树的数据分类方法、装置及设备
CN107562816A (zh) * 2017-08-16 2018-01-09 深圳狗尾草智能科技有限公司 用户意图自动识别方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471938A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本分类方法及终端
CN109471938B (zh) * 2018-10-11 2023-06-16 平安科技(深圳)有限公司 一种文本分类方法及终端
WO2020073531A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 文本分类模型的更新训练方法、装置及设备
CN109933654A (zh) * 2019-01-30 2019-06-25 神思电子技术股份有限公司 一种基于状态树的对话管理方法
CN109902178A (zh) * 2019-02-28 2019-06-18 云孚科技(北京)有限公司 一种多级文本分类方法及系统
CN110032631A (zh) * 2019-03-26 2019-07-19 腾讯科技(深圳)有限公司 一种信息反馈方法、装置和存储介质
CN110032631B (zh) * 2019-03-26 2021-07-02 腾讯科技(深圳)有限公司 一种信息反馈方法、装置和存储介质
CN110502675B (zh) * 2019-07-15 2022-08-23 平安普惠企业管理有限公司 基于数据分析的语音拨叫用户分类方法及相关设备
CN110502675A (zh) * 2019-07-15 2019-11-26 平安普惠企业管理有限公司 基于数据分析的语音拨叫用户分类方法及相关设备
CN111694939A (zh) * 2020-04-28 2020-09-22 平安科技(深圳)有限公司 智能调用机器人的方法、装置、设备及存储介质
CN111694939B (zh) * 2020-04-28 2023-09-19 平安科技(深圳)有限公司 智能调用机器人的方法、装置、设备及存储介质
CN111898343A (zh) * 2020-08-03 2020-11-06 北京师范大学 一种基于短语结构树的相似题目识别方法和系统
CN111898343B (zh) * 2020-08-03 2023-07-14 北京师范大学 一种基于短语结构树的相似题目识别方法和系统
CN113362083B (zh) * 2021-06-04 2022-05-03 苏州科达科技股份有限公司 报修方法、装置、电子设备及存储介质
CN113362083A (zh) * 2021-06-04 2021-09-07 苏州科达科技股份有限公司 报修方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108509484B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN108509484A (zh) 分类器构建及智能问答方法、装置、终端及可读存储介质
Patel et al. Study of various decision tree pruning methods with their empirical comparison in WEKA
Li et al. Heterogeneous ensemble for default prediction of peer-to-peer lending in China
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN109636061A (zh) 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN106778882B (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN110020426A (zh) 将用户咨询分配到客服业务组的方法及装置
CN108665366A (zh) 确定用户风险等级的方法、终端设备及计算机可读存储介质
CN108898476A (zh) 一种贷款客户信用评分方法和装置
TWI752349B (zh) 風險識別方法及裝置
CN109408811A (zh) 一种数据处理方法及服务器
CN109935337A (zh) 一种基于相似性度量的病案查找方法及系统
CN109597858A (zh) 一种商户的分类方法及其装置和商户的推荐方法及其装置
CN108920521A (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN114550847A (zh) 基于图卷积神经网络的药物口服利用度及毒性预测方法
CN111104975B (zh) 一种基于广度学习的信用评估方法
CN109871869A (zh) 一种肺结节分类方法及其装置
CN109657779A (zh) 基于dnn的模型数据处理方法、数据处理模型及电子装置
CN108198084A (zh) 一种复杂网络重叠社区发现方法
WO2021114626A1 (zh) 一种病历数据的质量检测方法和相关装置
Roszkowska Application the TOPSIS methods for ordering offers in buyer-seller transaction
CN107402984B (zh) 一种基于主题的分类方法及装置
Campbell et al. A stochastic graph grammar algorithm for interactive search
Lv et al. Financial market directional forecasting with stacked denoising autoencoder
Sestito et al. Using multi-layered neural networks for learning symbolic knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant