CN112148859A - 问答知识库管理方法、装置、终端设备及存储介质 - Google Patents
问答知识库管理方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112148859A CN112148859A CN202011032973.5A CN202011032973A CN112148859A CN 112148859 A CN112148859 A CN 112148859A CN 202011032973 A CN202011032973 A CN 202011032973A CN 112148859 A CN112148859 A CN 112148859A
- Authority
- CN
- China
- Prior art keywords
- question
- cluster
- labeling
- marking
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 29
- 238000002372 labelling Methods 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
Abstract
本申请适用于人工智能技术领域,提供了一种数字医疗平台中的问答知识库管理方法、装置、终端设备及存储介质,其中,通过对标记问题进行聚类分析,以计算不同标记问题之间的距离,根据计算得到的不同标记问题之间的距离能将相似的标记问题分类至同一个类别,防止了由于采用人工分类的方式对问题进行分类标注所导致的标注准确率低下的现象,也即,提高了后续对同一个类别内的不同标记问题分类标注的准确性。通过根据问题聚类结果对标记问题进行分类标注,并根据问题分类标注结果对问答知识库进行数据更新,从而能够针对不同类别的标记问题分别进行答案的标注和数据的更新。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种问答知识库管理方法、装置、终端设备及存储介质。
背景技术
随着互联网技术的发展,人们获取知识的途径也变得多样化。其中自动问答是一种友好且便捷的方式,可以免除人们阅读文档的过程,直接将用户所需要的内容返回给用户。例如,在医疗技术领域中,会出现多个病患向医疗工作人员咨询问题,自动问答可以极大的提高咨询效率,目前,自动问题是科学领域中具有挑战性的研究方向,是自然语言处理领域长期以来重点关注的任务,其具体内容是根据给定的问题返回回答问题的答案。同时自动问答也是工程领域中的重要应用技术,在现实中有很多具体的应用,包括语音助手、智能音箱、在线智能客服等。这些应用给人们的生活带来了很大的便利。
现有的自动问答都是基于大数据来填充问答知识库,即提前将所需要的数据存放在问答知识库中,当在回答用户发送的问题时,从问答知识库中查询对应问题的回复答案,并将查询到的回复答案对用户的问题进行回复。
现有的问答知识库管理过程中,针对问答知识库中答案回复错误的问题和未查询到答案的问题,均需要采用人工分类的方式分别对每个问题再次进行分类标注,导致答案回复错误的问题和未查询到答案的问题的分类标注准确率低下,进而使得问答知识库管理效率低下。
发明内容
有鉴于此,本申请实施例提供了一种问答知识库管理方法、装置、终端设备及存储介质,以解决现有技术的问答知识库管理过程中,由于需要采用人工分类的方式分别对每个问题再次进行分类标注,所导致的问题分类标注准确率低下的问题。
本申请实施例的第一方面提供了一种问答知识库管理方法,包括:
若针对用户发送的提问问题在问答知识库中未查询到回复答案,或接收到用户针对所述提问问题的回复错误提示,则将所述提问问题设置为标记问题;
对所述标记问题进行聚类分析,得到问题聚类结果,所述聚类分析用于计算不同所述标记问题之间的距离,并根据不同所述标记问题之间的距离对所述标记问题进行类别的分类;
根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,所述分类标注用于对同一类别的所述标记问题进行答案的标注;
根据所述问题分类标注结果对所述问答知识库进行数据更新。
进一步地,所述对所述标记问题进行聚类分析,得到问题聚类结果,包括:
将所述标记问题转换为空间样本点,并确定所述空间样本点中的簇心,所述空间样本点是对应所述标记问题在预设空间坐标系中的矢量坐标点,所述簇心的个数为预设个数;
分别计算所述空间样本点到不同所述簇心之间的距离,并将所述空间样本点归类至最小所述距离对应的所述簇心的簇集合;
若所述簇集合满足预设迭代条件,则输出所述簇集合,得到所述问题聚类结果。
进一步地,所述将所述空间样本点归类至最小所述距离对应的所述簇心的簇集合之后,还包括:
计算所述簇集合中不同所述空间样本点之间的平均距离,并将所述平均距离设置为对应所述簇集合的簇核心;
若所述簇集合的簇核心在预设距离范围内,则判定所述簇集合满足所述预设迭代条件。
进一步地,所述根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,包括:
查询所述簇心对应的所述标记问题,并获取用户针对所述标记问题回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果,所述问题集合包括所述簇心的所述簇集合中所述空间样本点对应的所述标记问题。
进一步地,所述根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,包括:
查询所述簇心对应的所述标记问题,并对所述标记问题进行分词,得到分词词汇;
计算不同所述分词词汇之间的词汇关联度,并将最大所述词汇关联度对应的不同所述分词词汇设置为问题词汇组;
获取用户针对所述问题词汇组回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果,所述问题集合包括所述簇心的所述簇集合中所述空间样本点对应的所述标记问题。
进一步地,所述对所述标记问题进行聚类分析,得到问题聚类结果,包括:
将所述标记问题转换为空间样本点,分别计算所述空间样本点到其他空间样本点之间的距离,并根据所述距离确定所述空间样本点的邻域子样本集;
若所述邻域子样本集中样本点的数量大于预设数量,则将所述邻域子样本集中的所述空间样本点设置为核心点;
对不同所述核心点之间进行密度可达检测,并将同一个密度可达关系内的所述核心点构建为一个簇,得到所述问题聚类结果,所述簇包括对应所述密度可达关系内不同所述核心点对应的所述邻域子样本集,同一个所述密度可达关系内的不同所述核心点之间距离小于预设邻域半径。
进一步地,所述方法还包括:
将数据更新后的所述问答知识库上传至区块链中。
本申请实施例的第二方面提供了一种问答知识库管理装置,包括:
标记问题设置单元,用于若针对用户发送的提问问题在问答知识库中未查询到回复答案,或接收到用户针对所述提问问题的回复错误提示,则将所述提问问题设置为标记问题;
聚类分析单元,用于对所述标记问题进行聚类分析,得到问题聚类结果,所述聚类分析用于计算不同所述标记问题之间的距离,并根据不同所述标记问题之间的距离对所述标记问题进行类别的分类;
分类标注单元,用于根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,所述分类标注用于对同一类别的所述标记问题进行答案的标注;
数据更新单元,用于根据所述问题分类标注结果对所述问答知识库进行数据更新。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的问答知识库管理方法的各步骤。
本申请实施例的第四方面提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的问答知识库管理方法的各步骤。
实施本申请实施例提供的一种问答知识库管理方法、装置、终端设备及存储介质具有以下有益效果:
本申请实施例提供的一种问答知识库管理方法,通过对标记问题进行聚类分析,以计算不同标记问题之间的距离,根据计算得到的不同标记问题之间的距离能将相似的标记问题分类至同一个类别,防止了由于采用人工分类的方式对问题进行分类标注所导致的标注准确率低下的现象,也即,提高了后续对同一个类别内的不同标记问题分类标注的准确性。通过根据问题聚类结果对标记问题进行分类标注,并根据问题分类标注结果对问答知识库进行数据更新,从而能够针对不同类别的标记问题分别进行答案的标注和数据的更新,且由于标记问题是在问答知识库中未查询到回复答案或接收到用户发送的回复错误提示的问题,所以通过对不同类别的标记问题分别进行答案的标注和数据的更新,有效的提高了答案回复错误的问题和未查询到答案的问题分类标注的准确性,提高了问答知识库管理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种问答知识库管理方法的实现流程图;
图2是本申请另一实施例提供的一种问答知识库管理方法的实现流程图;
图3是本申请再一实施例提供的一种问答知识库管理方法的实现流程图;
图4是本申请实施例提供的一种问答知识库管理装置的结构框图;
图5是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的问答知识库管理方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种问答知识库管理方法的实现流程图,包括:
步骤S10,若针对用户发送的提问问题在问答知识库中未查询到回复答案,或接收到用户针对所述提问问题的回复错误提示,则将所述提问问题设置为标记问题;
其中,若针对用户发送的提问问题在问答知识库中未查询到回复答案,则判定该提问问题在问答知识库中未设置对应的回复答案,即针对该提问问题并不能有效的进行回答,因此,将该提问问题设置为标记问题。
该步骤中,若接收到用户针对该提问问题的回复错误提示,则判定针对该提问问题回复错误,即该问答知识库中针对该提问问题设置的回复答案是错误答案,因此,将该提问问题设置为标记问题。
步骤S20,对所述标记问题进行聚类分析,得到问题聚类结果。
其中,该聚类分析用于计算不同标记问题之间的距离,并根据不同标记问题之间的距离对标记问题进行类别的分类,该距离用于表征不同标记问题之间的相似性,当该距离越大,则该距离对应的不同标记问题之间越不相似。
具体的,该问题聚类结果包括至少一个聚类集合,该聚类结合中至少包括一个标记问题,该步骤中,可以采用预设聚类算法对该标记问题进行聚类分析,以得到该问题聚类结果,该预设聚类算法可以根据需求进行选择,例如,该预设聚类算法可以采用K-Means(k-means clustering algorithm)算法、K-Means++算法或基于链接的层次聚类算法等。
该步骤中,该聚类分析用于对不同的标记问题进行有意义的分类,通过对不同的标记问题进行分类,使相似的标记问题归为一类,不相似的标记问题归为不同类。
可选的,该步骤中,所述对所述标记问题进行聚类分析,得到问题聚类结果,包括:
将所述标记问题转换为空间样本点,并确定所述空间样本点中的簇心,所述空间样本点是对应所述标记问题在预设空间坐标系中的矢量坐标点,其中,该簇心的个数为预设个数,该空间样本点是对应标记问题在预设空间坐标系中的矢量坐标点,通过将该标记问题转换为问题矢量,并获取该问题矢量在预设空间坐标系中的坐标点,以得到该空间样本点,该步骤中,该预设个数k可以根据需求进行设置,例如,该预设个数k可以设置为3个、4个或10个等,具体的,该步骤中,随机将某个空间样本点确定为簇心,确定的簇心的个数为预设个数K等等;
分别计算所述空间样本点到不同所述簇心之间的距离,并将所述空间样本点归类至最小所述距离对应的所述簇心的簇集合,其中,可以采用曼哈顿距离公式或欧式距离公式等方式进行空间样本点与簇心之间的距离计算,以计算空间样本点与不同簇心之间的相似度,并将空间样本点归类至最小距离对应的簇心的簇集合;
计算所述簇集合中不同所述空间样本点之间的平均距离,并将所述平均距离设置为对应所述簇集合的簇核心,其中,通过计算同一簇集合中不同空间样本点之间的平均距离,以对应得到每个簇集合的簇核心,该簇核心用于表征对应簇集合内空间样本点之间的相似性;
若所述簇集合的簇核心在预设距离范围内,则判定所述簇集合满足所述预设迭代条件,输出所述簇集合,得到所述问题聚类结果,其中,通过判断簇集合的簇核心是否在预设距离范围内,以判断该簇核心对应的簇集合是否满足预设迭代条件;
具体的,若判断到簇集合的簇核心在预设距离范围内,则判定该簇集合满足预设迭代条件,将该簇集合进行输出,即该簇集合中对应的提问问题聚类到了同一个类别中。
可选的,该预设迭代条件还可以设置为判断是否达到预设迭代次数、判断簇集合的最小均方误差是否在预设误差范围内、判断簇集合中簇中心点的变化率是否小于变化率阈值,以判断该簇集合是否满足预设迭代条件。
步骤S30,根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果。
其中,该分类标注用于对同一类别的标记问题进行答案的标注。
可选的,该步骤中,所述根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,包括:
查询所述簇心对应的所述标记问题,并获取用户针对所述标记问题回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果;
其中,该问题集合包括该簇心的簇集合中空间样本点对应的标记问题,可选的,该步骤中,通过将簇心对应的标记问题对用户进行显示,以提示用户针对该标记问题进行分类名称和问题结果的回复,并获取用户针对所述标记问题回复的分类名称和问题结果。
具体的,该步骤中,通过根据分类名称和问题结果对簇心对应的问题集合进行分类标注,使得能对同一个簇集合中空间样本点对应的标记问题进行统一的分类标注,由于同一个簇集合中空间样本点对应的标记问题为同一类别的问题,因此,通过对同一个簇集合中空间样本点对应的标记问题进行统一的分类标注,有效的提高了对标记问题分类标注的准确性,防止了由于采用人工分类的方式对问题进行分类标注所导致的标注准确率低下的现象。
步骤S40,根据所述问题分类标注结果对所述问答知识库进行数据更新。
其中,根据不同标记问题上标注的分类名称和问题结果对该问答知识库进行数据更新,使得在数据更新后的问答知识库中,能有效的查询到标记问题对应的分类名称和问题结果。
可选的,当该问答知识库基于自动问答模型进行问题的自动回复时,则根据预设训练集和分类标记后的标记问题重新对该自动问答模型进行模型训练,并基于模型训练结果对该自动问答模型进行参数更新,直至该自动问答模型收敛,使得收敛后的自动问答模型针对标记问题能有效的查询到对应的分类名称和问题结果。
本实施例中,通过对标记问题进行聚类分析,以计算不同标记问题之间的距离,根据计算得到的不同标记问题之间的距离能将相似的标记问题分类至同一个类别,防止了由于采用人工分类的方式对问题进行分类标注所导致的标注准确率低下的现象,也即,提高了后续对同一个类别内的不同标记问题分类标注的准确性。通过根据问题聚类结果对标记问题进行分类标注,并根据问题分类标注结果对问答知识库进行数据更新,从而能够针对不同类别的标记问题分别进行答案的标注和数据的更新,且由于标记问题是在问答知识库中未查询到回复答案或接收到用户发送的回复错误提示的问题,所以通过对不同类别的标记问题分别进行答案的标注和数据的更新,有效的提高了答案回复错误的问题和未查询到答案的问题分类标注的准确性,提高了问答知识库管理效率。
请参阅图2,图2是本申请另一实施例提供的一种问答知识库管理方法的实现流程图。相对于图1对应的实施例,本实施例提供的问答知识库管理方法是对图1对应的实施例中步骤S20的进一步细化,包括:
步骤S21,将所述标记问题转换为空间样本点,分别计算所述空间样本点到其他空间样本点之间的距离,并根据所述距离确定所述空间样本点的邻域子样本集;
其中,若检测空间样本点到其他空间样本点之间的距离小于预设邻域半径,则将该其他空间样本点集合至该空间样本点的邻域子样本集中,例如,标记问题包括问题a1、问题a2和问题a3,问题a1、问题a2和问题a3转换后的空间样本点为样本点b1、样本点b2和样本点b3;
针对样本点b1,若计算得到的样本点b1与样本点b2之间的距离为S1,样本点b1与样本点b3之间的距离为S2,且S1小于预设邻域半径,S2大于预设邻域半径,则将该样本点b2归入样本点b1的邻域子样本集中,将样本点b1归入样本点b2的邻域子样本集中。
步骤S22,若所述邻域子样本集中样本点的数量大于预设数量,则将所述邻域子样本集中的所述空间样本点设置为核心点。
其中,该预设数量可以根据需求进行设置,例如,该预设数量可以设置为3个、4个或20个等,当该预设数量为3个时,则分别判断每个邻域子样本集中样本点的数量是否大于3。
若邻域子样本集中样本点的数量大于3,则将该邻域子样本集对应的空间样本点设置为核心点,每个核心点对应的邻域区域内的特性点均大于3个,且核心点与对应邻域子样本集中的任一样本点之间的距离小于预设邻域半径。
可选的,当该邻域子样本集中特性点的数量小于预设数量,则将该邻域子样本集对应的样本点标记为噪声点,并将该噪声点进行删除。
步骤S23,对不同所述核心点之间进行密度可达检测,并将同一个密度可达关系内的所述核心点构建为一个簇,得到所述问题聚类结果。
其中,该簇包括对应密度可达关系内不同核心点对应的邻域子样本集,同一个密度可达关系内的不同核心点之间距离小于预设邻域半径,具体的,该步骤中,通过判断不同核心点之间的距离是否小于预设邻域半径,以判断对应两核心点之间是否密度可达,若不同核心点之间的距离小于预设邻域半径,则对应两核心点之间密度可达,并将密度可达的两个核心点的邻域子样本集构建成一个簇,该簇包括对应密度可达关系内不同核心点对应的邻域子样本集,可以理解的,该簇必然包括对应密度可达关系的核心点。
本实施例中,通过根据空间样本点到其他空间样本点之间的距离,以确定空间样本点的邻域子样本集,能有效的判断空间样本点是否为核心点或噪声点,通过将噪声点进行删除的设计,有效的提高了簇构建的准确性,通过对不同核心点之间进行密度可达检测,并将同一个密度可达关系内的核心点构建为一个簇,能有效的对不同类型的标记问题起到聚类效果,将同一类型的标记问题聚类至同一个簇中,有效的提高了后续对同一个类别内的不同标记问题分类标注的准确性。
请参阅图3,图3是本申请另一实施例提供的一种问答知识库管理方法的实现流程图。相对于图1对应的实施例,本实施例提供的问答知识库管理方法是对图1对应的实施例中步骤S30的进一步细化,包括:
步骤S31,查询所述簇心对应的所述标记问题,并对所述标记问题进行分词,得到分词词汇。
其中,通过将该标记问题与本实施例中预存储的词汇表进行匹配,并根据匹配结果对该标记问题进行分词,以得到该分词词汇。
具体的,该步骤中,该词汇表中存储有至少一个预先设置的词汇,该预先设置的词汇的词汇长度可以根据需求进行设置,例如,该词汇长度可以设置为1个文字、2个文字或10个文字等。
步骤S32,计算不同所述分词词汇之间的词汇关联度,并将最大所述词汇关联度对应的不同所述分词词汇设置为问题词汇组。
其中,本实施例中预存储有词汇关联表,该词汇关联表中存储有不同分词词汇之间的组合与对应词汇关联度之间的对应关系。
因此,该步骤中,通过对不同的分词词汇进行组合,得到多个组合词汇,并将该组合词汇与该词汇关联表进行匹配,以计算组合词汇对应的词汇关联度,即得到了不同分词词汇之间对应的词汇关联度。
具体的,该步骤中,通过将最大词汇关联度对应的不同分词词汇设置为问题词汇组,以根据该问题词汇组表征对应的标记问题的语义,进而方便了后续针对该标记问题的分类名称和问题结果的获取。
步骤S33,获取用户针对所述问题词汇组回复的分类名称和问题结果。
其中,通过根据该问题词汇组提示用户进行分类名称和问题结果的回复,以获取用户针对该标记问题回复的分类名称和问题结果,使得无需将整个标记问题对用户进行回复提醒,提高了针对该标记问题回复的分类名称和问题结果的获取效率。
具体的,该步骤中,通过将该问题词汇组对用户进行显示,以获取用户针对该问题词汇组回复的分类名称和问题结果,由于该问题词汇组用于表征对应的标记问题的语义,因此,针对该问题词汇组回复的分类名称和问题结果即为该问题词汇组对应的标记问题的分类名称和问题结果。
步骤S34,根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果。
本实施例中,通过对不同的分词词汇进行组合,得到多个组合词汇,并将该组合词汇与该词汇关联进行匹配,以计算组合词汇对应的关联度,即得到了不同分词词汇之间对应的词汇关联度,通过计算不同分词词汇之间的词汇关联度,并将最大词汇关联度对应的不同分词词汇设置为问题词汇组,以获取该标记问题的语义,并通过获取用户针对问题词汇组回复的分类名称和问题结果,以得到针对该簇心的问题集合中标记问题对应的分类名称和问题结果,提高了同一问题集合中标记问题的分类标注的准确性。
在本申请的所有实施例中,基于问题分类标注结果对问答知识库进行数据更新,具体来说,问答知识库由问题分类标注结果进行数据更新得到。将数据更新后的问答知识库上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该数据更新后的问答知识库,以便查证数据更新后的问答知识库是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图4,图4是本申请实施例提供的一种问答知识库管理装置100的结构框图。本实施例中该问答知识库管理装置100包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,问答知识库管理装置100包括:标记问题设置单元10、聚类分析单元11、分类标注单元12和数据更新单元13,其中:
标记问题设置单元10,用于若针对用户发送的提问问题在问答知识库中未查询到回复答案,或接收到用户针对所述提问问题的回复错误提示,则将所述提问问题设置为标记问题。
聚类分析单元11,用于对所述标记问题进行聚类分析,得到问题聚类结果,所述聚类分析用于计算不同所述标记问题之间的距离,并根据不同所述标记问题之间的距离对所述标记问题进行类别的分类。
其中,所述聚类分析单元11还用于:将所述标记问题转换为空间样本点,并确定所述空间样本点中的簇心,所述空间样本点是对应所述标记问题在预设空间坐标系中的矢量坐标点,所述簇心的个数为预设个数;
分别计算所述空间样本点到不同所述簇心之间的距离,并将所述空间样本点归类至最小所述距离对应的所述簇心的簇集合;
若所述簇集合满足预设迭代条件,则输出所述簇集合,得到所述问题聚类结果。
可选的,所述聚类分析单元11还用于:计算所述簇集合中不同所述空间样本点之间的平均距离,并将所述平均距离设置为对应所述簇集合的簇核心;
若所述簇集合的簇核心在预设距离范围内,则判定所述簇集合满足所述预设迭代条件。
分类标注单元12,用于根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,所述分类标注用于对同一类别的所述标记问题进行答案的标注。
其中,所述分类标注单元12还用于:查询所述簇心对应的所述标记问题,并获取用户针对所述标记问题回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果,所述问题集合包括所述簇心的所述簇集合中所述空间样本点对应的所述标记问题。
可选的,所述分类标注单元12还用于:查询所述簇心对应的所述标记问题,并对所述标记问题进行分词,得到分词词汇;
计算不同所述分词词汇之间的词汇关联度,并将最大所述词汇关联度对应的不同所述分词词汇设置为问题词汇组;
获取用户针对所述问题词汇组回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果,所述问题集合包括所述簇心的所述簇集合中所述空间样本点对应的所述标记问题。
数据更新单元13,用于根据所述问题分类标注结果对所述问答知识库进行数据更新。
可选的,本实施例中,所述聚类分析单元11还用于:将所述标记问题转换为空间样本点,分别计算所述空间样本点到其他空间样本点之间的距离,并根据所述距离确定所述空间样本点的邻域子样本集;
若所述邻域子样本集中样本点的数量大于预设数量,则将所述邻域子样本集中的所述空间样本点设置为核心点;
对不同所述核心点之间进行密度可达检测,并将同一个密度可达关系内的所述核心点构建为一个簇,得到所述问题聚类结果,所述簇包括对应所述密度可达关系内不同所述核心点对应的所述邻域子样本集,同一个所述密度可达关系内的不同所述核心点之间距离小于预设邻域半径。
以上可以看出,通过对标记问题进行聚类分析,以计算不同标记问题之间的距离,根据计算得到的不同标记问题之间的距离能将相似的标记问题分类至同一个类别,防止了由于采用人工分类的方式对问题进行分类标注所导致的标注准确率低下的现象,也即,提高了后续对同一个类别内的不同标记问题分类标注的准确性。通过根据问题聚类结果对标记问题进行分类标注,并根据问题分类标注结果对问答知识库进行数据更新,从而能够针对不同类别的标记问题分别进行答案的标注和数据的更新,且由于标记问题是在问答知识库中未查询到回复答案或接收到用户发送的回复错误提示的问题,所以通过对不同类别的标记问题分别进行答案的标注和数据的更新,有效的提高了答案回复错误的问题和未查询到答案的问题分类标注的准确性,提高了问答知识库管理效率。
图5是本申请另一实施例提供的一种终端设备2的结构框图。如图5所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如问答知识库管理方法的程序。处理器20执行所述计算机程序23时实现上述各个问答知识库管理方法各实施例中的步骤,例如图1所示的S10至S40,或者图2所示的S21至S23,或者图3所示的S31至S34。或者,所述处理器20执行所述计算机程序22时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元10至13的功能,具体请参阅图5对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成标记问题设置单元10、聚类分析单元11、分类标注单元12和数据更新单元13,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图5仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种问答知识库管理方法,其特征在于,包括:
若针对用户发送的提问问题在问答知识库中未查询到回复答案,或接收到用户针对所述提问问题的回复错误提示,则将所述提问问题设置为标记问题;
对所述标记问题进行聚类分析,得到问题聚类结果,所述聚类分析用于计算不同所述标记问题之间的距离,并根据不同所述标记问题之间的距离对所述标记问题进行类别的分类;
根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,所述分类标注用于对同一类别的所述标记问题进行答案的标注;
根据所述问题分类标注结果对所述问答知识库进行数据更新。
2.根据权利要求1所述的问答知识库管理方法,其特征在于,所述对所述标记问题进行聚类分析,得到问题聚类结果,包括:
将所述标记问题转换为空间样本点,并确定所述空间样本点中的簇心,所述空间样本点是对应所述标记问题在预设空间坐标系中的矢量坐标点,所述簇心的个数为预设个数;
分别计算所述空间样本点到不同所述簇心之间的距离,并将所述空间样本点归类至最小所述距离对应的所述簇心的簇集合;
若所述簇集合满足预设迭代条件,则输出所述簇集合,得到所述问题聚类结果。
3.根据权利要求2所述的问答知识库管理方法,其特征在于,所述将所述空间样本点归类至最小所述距离对应的所述簇心的簇集合之后,还包括:
计算所述簇集合中不同所述空间样本点之间的平均距离,并将所述平均距离设置为对应所述簇集合的簇核心;
若所述簇集合的簇核心在预设距离范围内,则判定所述簇集合满足所述预设迭代条件。
4.根据权利要求3所述的问答知识库管理方法,其特征在于,所述根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,包括:
查询所述簇心对应的所述标记问题,并获取用户针对所述标记问题回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果,所述问题集合包括所述簇心的所述簇集合中所述空间样本点对应的所述标记问题。
5.根据权利要求3所述的问答知识库管理方法,其特征在于,所述根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,包括:
查询所述簇心对应的所述标记问题,并对所述标记问题进行分词,得到分词词汇;
计算不同所述分词词汇之间的词汇关联度,并将最大所述词汇关联度对应的不同所述分词词汇设置为问题词汇组;
获取用户针对所述问题词汇组回复的分类名称和问题结果;
根据所述分类名称和所述问题结果对所述簇心对应的问题集合进行分类标注,得到所述问题分类标注结果,所述问题集合包括所述簇心的所述簇集合中所述空间样本点对应的所述标记问题。
6.根据权利要求1所述的问答知识库管理方法,其特征在于,所述对所述标记问题进行聚类分析,得到问题聚类结果,包括:
将所述标记问题转换为空间样本点,分别计算所述空间样本点到其他空间样本点之间的距离,并根据所述距离确定所述空间样本点的邻域子样本集;
若所述邻域子样本集中样本点的数量大于预设数量,则将所述邻域子样本集中的所述空间样本点设置为核心点;
对不同所述核心点之间进行密度可达检测,并将同一个密度可达关系内的所述核心点构建为一个簇,得到所述问题聚类结果,所述簇包括对应所述密度可达关系内不同所述核心点对应的所述邻域子样本集,同一个所述密度可达关系内的不同所述核心点之间距离小于预设邻域半径。
7.根据权利要求1所述的问答知识库管理方法,其特征在于,所述方法还包括:
将数据更新后的所述问答知识库上传至区块链中。
8.一种问答知识库管理装置,其特征在于,包括:
标记问题设置单元,用于若针对用户发送的提问问题在问答知识库中未查询到回复答案,或接收到用户针对所述提问问题的回复错误提示,则将所述提问问题设置为标记问题;
聚类分析单元,用于对所述标记问题进行聚类分析,得到问题聚类结果,所述聚类分析用于计算不同所述标记问题之间的距离,并根据不同所述标记问题之间的距离对所述标记问题进行类别的分类;
分类标注单元,用于根据所述问题聚类结果对所述标记问题进行分类标注,得到问题分类标注结果,所述分类标注用于对同一类别的所述标记问题进行答案的标注;
数据更新单元,用于根据所述问题分类标注结果对所述问答知识库进行数据更新。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032973.5A CN112148859A (zh) | 2020-09-27 | 2020-09-27 | 问答知识库管理方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032973.5A CN112148859A (zh) | 2020-09-27 | 2020-09-27 | 问答知识库管理方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148859A true CN112148859A (zh) | 2020-12-29 |
Family
ID=73895670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011032973.5A Pending CN112148859A (zh) | 2020-09-27 | 2020-09-27 | 问答知识库管理方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148859A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051383A (zh) * | 2021-04-09 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | Faq知识库管理方法、装置、电子设备及存储介质 |
CN114090757A (zh) * | 2022-01-14 | 2022-02-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 对话系统的数据处理方法、电子设备及可读存储介质 |
CN115709356A (zh) * | 2022-08-31 | 2023-02-24 | 深圳前海瑞集科技有限公司 | 焊接工艺参数获取方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562789A (zh) * | 2017-07-28 | 2018-01-09 | 深圳前海微众银行股份有限公司 | 知识库问题更新方法、客服机器人以及可读存储介质 |
CN108364026A (zh) * | 2018-02-24 | 2018-08-03 | 南京邮电大学 | 一种簇心更新方法、装置及K-means聚类分析方法、装置 |
CN110019703A (zh) * | 2017-09-21 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据标记方法及装置、智能问答方法及系统 |
CN110414583A (zh) * | 2019-07-22 | 2019-11-05 | 浙江工业大学 | 一种基于可拓关联函数的改进密度峰值聚类方法 |
CN110705602A (zh) * | 2019-09-06 | 2020-01-17 | 平安科技(深圳)有限公司 | 大规模数据聚类方法、装置及计算机可读存储介质 |
CN111382235A (zh) * | 2018-12-27 | 2020-07-07 | 上海智臻智能网络科技股份有限公司 | 一种问答知识库的优化方法及其装置 |
CN111667029A (zh) * | 2020-07-09 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种聚类方法、装置、设备及存储介质 |
-
2020
- 2020-09-27 CN CN202011032973.5A patent/CN112148859A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562789A (zh) * | 2017-07-28 | 2018-01-09 | 深圳前海微众银行股份有限公司 | 知识库问题更新方法、客服机器人以及可读存储介质 |
CN110019703A (zh) * | 2017-09-21 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据标记方法及装置、智能问答方法及系统 |
CN108364026A (zh) * | 2018-02-24 | 2018-08-03 | 南京邮电大学 | 一种簇心更新方法、装置及K-means聚类分析方法、装置 |
CN111382235A (zh) * | 2018-12-27 | 2020-07-07 | 上海智臻智能网络科技股份有限公司 | 一种问答知识库的优化方法及其装置 |
CN110414583A (zh) * | 2019-07-22 | 2019-11-05 | 浙江工业大学 | 一种基于可拓关联函数的改进密度峰值聚类方法 |
CN110705602A (zh) * | 2019-09-06 | 2020-01-17 | 平安科技(深圳)有限公司 | 大规模数据聚类方法、装置及计算机可读存储介质 |
CN111667029A (zh) * | 2020-07-09 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种聚类方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051383A (zh) * | 2021-04-09 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | Faq知识库管理方法、装置、电子设备及存储介质 |
CN114090757A (zh) * | 2022-01-14 | 2022-02-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 对话系统的数据处理方法、电子设备及可读存储介质 |
CN114090757B (zh) * | 2022-01-14 | 2022-04-26 | 阿里巴巴达摩院(杭州)科技有限公司 | 对话系统的数据处理方法、电子设备及可读存储介质 |
CN115709356A (zh) * | 2022-08-31 | 2023-02-24 | 深圳前海瑞集科技有限公司 | 焊接工艺参数获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148859A (zh) | 问答知识库管理方法、装置、终端设备及存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
CN111078837B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
CN113157863A (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
Mast et al. | Probabilistic reference and grounding with PRAGR for dialogues with robots | |
CN112925898B (zh) | 基于人工智能的问答方法、装置、服务器及存储介质 | |
CN112115240A (zh) | 分类处理方法、装置、服务器和存储介质 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN112507095A (zh) | 基于弱监督学习的信息识别方法及相关设备 | |
CN112348417A (zh) | 一种基于主成分分析算法的营销价值评估方法及装置 | |
CN113641707A (zh) | 知识图谱消歧方法、装置、设备及存储介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
WO2021120588A1 (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN111611781A (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN114186048A (zh) | 基于人工智能的问答回复方法、装置、计算机设备及介质 | |
CN113127617B (zh) | 通用领域知识图谱的知识问答方法、终端设备及存储介质 | |
Wang et al. | Nonparametric classification method for multiple-choice items in cognitive diagnosis | |
CN113888021A (zh) | 一种基于知识图谱的智能化学习评测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |