CN111967254B - 相似问集合的评分方法、装置、计算机设备和存储介质 - Google Patents
相似问集合的评分方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111967254B CN111967254B CN202011127938.1A CN202011127938A CN111967254B CN 111967254 B CN111967254 B CN 111967254B CN 202011127938 A CN202011127938 A CN 202011127938A CN 111967254 B CN111967254 B CN 111967254B
- Authority
- CN
- China
- Prior art keywords
- similar question
- score
- determining
- distribution condition
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013077 scoring method Methods 0.000 title description 6
- 239000013598 vector Substances 0.000 claims abstract description 185
- 238000009826 distribution Methods 0.000 claims abstract description 102
- 238000009827 uniform distribution Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000007689 inspection Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种相似问集合的评分方法、装置、计算机设备和存储介质。所述方法包括:获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。采用本方法能够实现对相似问集合的质量进行准确检测。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种相似问集合的评分方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了文本识别、语音识别等技术,可以识别出输入的文本或者语音的意图。为了全面、准确地识别用户的意图,通常会建立相似问语句库,将相似问语句库中的相似问语句作为训练数据对识别模型进行训练。相似问语句是意图相同,表达方式不同的语句,例如“我没钱啊”、“我钱用完了”等。
在对识别模型进行训练之前,需要对相似问语句库中的相似问集合的质量进行评价。然而,目前没有对相似问集合的质量进行准确检测的方法。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对相似问集合的质量进行准确检测的相似问集合的评分方法、装置、计算机设备和存储介质。
一种相似问集合的评分方法,所述方法包括:
获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;
分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;
将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;
基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。
在其中一个实施例中,所述分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况,包括:
分别对各个所述相似问语句进行向量编码得到各个第一句向量;
对各个所述第一句向量进行降维处理,得到各个第二句向量;所述第二句向量的维度数量小于所述第一句向量的维度数量;
确定各个所述第二句向量在所述相似问集合的语义空间中的目标分布情况。
在其中一个实施例中,所述第二句向量的维度数量小于预设的数量阈值。
在其中一个实施例中,所述基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分,包括:
基于所述差异度确定第一评分;所述差异度与所述第一评分之间成负相关关系;
基于所述相似问语句的数量确定第二评分;所述相似问语句的数量与所述第二评分成正相关关系;
基于所述第一评分和所述第二评分确定所述相似问集合的质量评分。
在其中一个实施例中,所述基于所述第一评分和所述第二评分确定所述相似问集合的质量评分,包括:
将所述第一评分和所述第二评分相加,得到所述相似问集合的质量评分。
在其中一个实施例中,所述将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度,包括:
通过拟合优度检验将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度。
在其中一个实施例中,所述方法还包括:
获取评分之后的各个所述相似问集合;
从各个所述相似问集合中确定质量评分大于评分阈值的目标相似问集合,将所述目标训练集合作为训练数据对意图识别模型进行训练。
一种相似问集合的评分装置,所述装置包括:
相似问语句的数量确定模块,用于获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;
目标分布情况确定模块,用于分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;
差异度确定模块,用于将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;
质量评分确定模块,用于基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述相似问集合的评分方法、装置、计算机设备和存储介质,获取相似问集合,确定相似问集合中所包括的相似问语句的数量;分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况;将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。预设的均匀分布情况是各个句向量均匀分布在语义空间中,使得相似问集合均匀包括有各种相似问的语义,从而均匀分布情况的相似问集合在后续作为训练数据时可以提高意图识别模型的泛化能力。而目标分布情况与均匀分布情况之间的差异度,表示相似问集合在后续对意图识别模型进行训练时,对意图识别模型的泛化能力的提高程度的差异。而相似问集合在后续作为训练数据对意图识别模型进行训练时,训练数据的样本数量即相似问集合中所包括的相似问语句的数量,与训练得到的意图识别模型的准确度相关。因此,基于目标分布情况与均匀分布情况之间的差异度和相似问语句的数量,可以实现对相似问集合的质量进行准确检测。
附图说明
图1为一个实施例中相似问集合的评分方法的流程示意图;
图2为一个实施例中分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况步骤的流程示意图;
图3为一个实施例中基于差异度和相似问语句的数量确定相似问集合的质量评分步骤的流程示意图;
图4为一个实施例中分布打分函数的曲线图;
图5为一个实施例中相似问数量打分函数的曲线图;
图6为另一个实施例中相似问集合的评分方法的流程示意图;
图7为一个实施例中相似问集合的评分装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种相似问集合的评分方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取相似问集合,确定相似问集合中所包括的相似问语句的数量。
相似问语句指的是意图相同,表达方式不同的语句。例如,“我喜欢美食”、“我喜欢吃东西”、“我爱吃粤菜”等,均表示“我喜欢吃美食”这一意图。又如,“最近手头紧”、“借我点钱”、“我没钱”等,均表示“我没钱”这一意图。需要指出的是,相似问语句可以是问句,也可以是陈述句,还可以是感叹句,具体的形式并不限定。例如,“可以不还钱吗”、“没钱还了”、“我就是不还钱”。
相似问集合指的是包括有至少两个相似问语句的集合。可以理解的是,在相似问集合中,各个相似问语句的意图相同。
相似问集合的各个相似问语句为不同表达方式的语句,但是均表征同一个意图。例如,相似问语句分别为“可以不还钱吗”、“不想还钱”、“我就是不还钱”,均表达了拒绝还钱的意图。
终端获取相似问集合,可以确定相似问集合中所包括的相似问语句的数量。在一种实施方式中,若终端获取相似问集合,则统计相似问集合中所包括的相似问语句的数量。在另一种实施方式中,终端预先对相似问集合中所包括的相似问语句进行统计,得到相似问集合中所包括的相似问语句的数量,并将该数量的数值存储在相似问集合中。若终端获取相似问集合,则从相似问集合中获取数值,该数值表示相似问集合中所包括的相似问语句的数量。
步骤104,分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况。
句向量指的是相似问语句对应的向量。终端可以采用向量编码器分别对各个相似问语句进行向量编码得到各个句向量。其中,向量编码器可以是BERT(BidirectionalEncoder Representations from Transformers)、USE(Universal Sentence Encoder,通用句子编码器)、NN向量编码器等其中一种。在另一实施例中,终端也可以采用其他的sentence embedding(句子嵌入)的方式来生成句向量。
语义空间,也是NLP(Natural Language Processing,自然语言处理)中的名词,指把相似问语句的文本映射为句向量后,句向量所在的数学空间。通过向量编码器得到的各个句向量在语义空间中距离越近,则相似问语句的语义越相近。
终端可以将相似问集合作为语义空间,采用句向量表达相似问语句的语义,则不同句向量在语义空间中的距离较近,表示句向量对应的相似问语句的语义相近,即意图相近;不同句向量在语义空间中的距离较远,表示句向量对应的相似问语句的语义差别较大,即意图差别较大。
因此,不同相似问语句对应的句向量在语义空间中的位置,可以表征相似问语句的语义,即相似问语句的意图。举例来说,语义空间可以看成是三维空间,“我没钱”对应的句向量在语义空间中的位置可以是(1,2,3),“不想还钱”对应的句向量在语义空间中的位置可以是(1,1,3)。
终端通过各个句向量在语义空间中的位置,可以确定各个句向量在语义空间中的目标分布情况。若目标分布情况为均匀分布情况,表示在语义空间中均匀分布有各个句向量,相似问集合中的各个相似问语句的意图分布均匀。均匀分布的句向量均是同一个意图。
若目标分布情况不是均匀分布情况,即在语义空间中某一个区域的句向量较多,另外一个区域的句向量较少,则相似问集合中的各个相似问语句的意图分布不均匀,存在某一种语义的相似问语句的数量较多,另外一种语义的相似问语句的数量较少。其中,相似问集合中不同语义的相似问语句均是同一个意图。
在一个实施例中,构建相似问集合的语义空间的方式,包括:获取第一假设,第一假设表示相似问集合中每个相似问语句对应的句向量均是特定意图的语义空间内的点;获取第二假设,第二假设表示每个相似问语句的意图标注数据均正确;基于第一假设和第二假设构建相似问集合的语义空间。
通过第一假设可以确定相似问语句对应的句向量与所属的意图占用的区域之间的关系;通过第二假设可以确定相似问集合中的相似问语句的意图标注数据是正确的,则基于第一假设和第二假设可以构建出相似问集合的语义空间。
步骤106,将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。
可以理解的是,若各个句向量在相似问集合的语义空间中的目标分布情况为均匀分布情况,表示相似问集合中的各个相似问语句的意图分布均匀,那么后续将该相似问集合作为训练数据对意图识别模型进行训练时,意图识别模型可以从相似问集合对应的语义空间中均匀地获取到各个句向量,在对意图识别模型进行训练时可以提高意图识别模型的泛化能力。其中,泛化能力指的是机器学习算法对新鲜样本的适应能力,即意图识别模型对新的相似问语句的适应能力。也就是说,提高泛化能力的意图识别模型可以更准确地对新的相似问语句进行识别,得出该相似问语句的意图。其中,意图识别模型是用于对语句进行识别,得到该语句的意图的模型。
若相似问集合的目标分布情况是不均匀分布情况,则后续相似问集合对意图识别模型的训练过程中,意图识别模型对各个意图的相似问语句学习不全面,影响意图识别模型对待识别语句的判断。以“拒绝还钱”这个意图为例,如果相似问集合中绝大部分是“我没钱”、“我不还,就不还”之类的句子,只有少部分是“我是农民”类似的句子,则意图识别模型难以学习到“我是农民”是属于“拒绝还钱”这个意图,而反应到语义空间中,则是“我是农民”这一相似问语句离“拒绝还钱”意图对应的区域中心很远。因此,训练完成的意图识别模型也就无法准确识别到“我是农民”类似语句是属于“拒绝还钱”的意图。
若相似问集合的目标分布情况是均匀分布情况,则后续相似问集合对意图识别模型的训练过程中,意图识别模型可以对相似问集合中的各个相似问语句进行全面学习,从而可以训练出更准确的意图识别模型,提高意图识别模型的泛化能力。
因此,终端将目标分布情况与预设的均匀分布情况进行比较,可以确定目标分布情况与均匀分布情况之间的差异度,从而基于该差异度可以获取到目标分布情况与预设的均匀分布情况之间的差异程度。其中,差异度可以采用数值、百分比、等级等形式体现。例如,差异度为80、差异度为60%、差异度为一级差异。若差异度采用等级的形式体现,则可以设置级别越高,目标分布情况与均匀分布情况之间的差异越大,也可以设置级别越高,目标分布情况与均匀分布情况之间的差异越小,不限于此。
具体地,终端可以通过拟合优度检验将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。
拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。
拟合优度检验用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的一种统计假设检验,以便判断该假设或模型是否与实际观测数相吻合。
终端通过拟合优度检验可以将出目标分布情况与预设的均匀分布情况进行比较,从而准确确定目标分布情况与均匀分布情况之间的差异度。
步骤108,基于差异度和相似问语句的数量确定相似问集合的质量评分。
质量评分指的是作为训练数据时相似问集合的质量的评分。质量评分越高,则作为训练数据时相似问集合的质量越高,相似问集合作为训练数据可以更意图识别模型更准确进行训练。
相似问集合的质量评分可以采用各种方式进行表示,并不限定。可选地,相似问集合的质量评分可以采用数值进行表示。例如,相似问集合的质量评分可以是80、90、98等其中一个。相似问集合的质量评分也可以采用百分比进行表示。例如,相似问集合的质量评分可以是80%、65%、98%等其中一个。
若各个句向量在相似问集合的语义空间中的目标分布情况为均匀分布情况,则该相似问集合可以作为训练数据,在后续对意图识别模型进行训练时,可以更加提高意图识别模型的泛化能力,使得训练完成的意图识别模型更准确对新的相似问语句进行识别,得出该新的似问语句的意图。而目标分布情况与均匀分布情况之间的差异度,表示相似问集合在后续对意图识别模型进行训练时,对意图识别模型的泛化能力的提高程度的差异。目标分布情况与均匀分布情况之间的差异度越小,则该相似问集合可以更加提高意图识别模型的泛化能力。
相似问语句的数量越多,则相似问集合的语义空间中的句向量越多,语义空间中各个区域包括有句向量的可能性越高,则该相似问集合在后续作为训练数据,对意图识别模型进行训练时,也可以更加提高意图识别模型的泛化能力,使得训练完成的意图识别模型更准确对新的相似问语句进行识别,得出该新的相似问语句的意图。并且,相似问集合中所包括的相似问语句的数量越多,则该相似问集合作为训练数据时,训练数据的样本越多,可以更准确对意图识别模型进行训练,从而训练处更准确的意图识别模型。
因此,上述相似问集合的评分方法,获取相似问集合,确定相似问集合中所包括的相似问语句的数量;分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况;将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。预设的均匀分布情况是各个句向量均匀分布在语义空间中,使得相似问集合均匀包括有各种相似问的语义,从而均匀分布情况的相似问集合在后续作为训练数据时可以提高意图识别模型的泛化能力。而目标分布情况与均匀分布情况之间的差异度,表示相似问集合在后续对意图识别模型进行训练时,对意图识别模型的泛化能力的提高程度的差异。而相似问集合在后续作为训练数据对意图识别模型进行训练时,训练数据的样本数量即相似问集合中所包括的相似问语句的数量,与训练得到的意图识别模型的准确度相关。因此,基于目标分布情况与均匀分布情况之间的差异度和相似问语句的数量,可以实现对相似问集合的质量进行量化,从而准确检测出相似问集合的质量。
在一个实施例中,如图2所示,分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况,包括:
步骤202,分别对各个相似问语句进行向量编码得到各个第一句向量。
步骤204,对各个第一句向量进行降维处理,得到各个第二句向量;第二句向量的维度数量小于第一句向量的维度数量。
第一句向量指的是向量编码得到的并且高维的句向量。第二句向量指的是对第一句向量进行降维处理得到的低维句向量。
终端通过向量编码器分别对各个相似问语句进行向量编码得到各个第一句向量,再对各个第一句向量进行降维处理,得到各个第二句向量。在一种实施方式中,终端可以采用UMAP(Uniform Manifold Approximation and Projection)算法对各个第一句向量进行降维处理,得到各个第二句向量。在另一种实施方式中,终端也可以采用PCA(PrincipalComponents Analysis,主成分分析技术)对各个第一句向量进行降维处理,得到各个第二句向量。在其他实施方式中,还可以采用其他的算法和技术对各个第一句向量进行降维处理,并不限定。
其中,第一句向量的维度可以是向量编码器自身的维度,第二句向量的维度可以是预设维度,且预设维度小于向量编码器自身的维度。例如,预设维度可以是4、5、8等。
例如,向量编码器自身的维度为768,预设维度为4,则终端通过向量编码器分别对各个相似问语句进行向量编码得到各个768维度的第一句向量,再对各个768维度的第一句向量进行降维处理,得到各个4维的第二句向量。
在一个实施例中,第二句向量的维度数量小于预设的数量阈值。预设的数量阈值可以根据需要进行设置。例如,预设的数量阈值可以是6,则第二句向量的维度可以是3维、4维、5维的其中一个。
预设的数量阈值越小,则第二句向量的维度数量也相应地越小,则第二句向量中的元素的数据越稠密,可以更快速地对第二句向量进行计算和处理。
步骤206,确定各个第二句向量在相似问集合的语义空间中的目标分布情况。
可以理解的是,句向量的维度较多时,高维的句向量造成句向量中的元素的数据稀疏,计算和处理过于复杂。而终端对相似问语句进行向量编码得到的第一句向量,对第一句向量进行降维处理得到低维的第二句向量,可以更快速地对各个低维的第二句向量进行计算和处理,更快速地确定相似问集合的语义空间中的目标分布情况,提高效率。
在一个实施例中,如图3所示,基于差异度和相似问语句的数量确定相似问集合的质量评分,包括:
步骤302,基于差异度确定第一评分;差异度与第一评分之间成负相关关系。
第一评分指的是差异度的评分。差异度与第一评分之间成负相关关系,也就是说,第一评分越小,差异度越大,相似问集合的语义空间中的目标分布情况与预设的均匀分布情况之间从差异程度越大;第一评分越大,差异度越小,相似问集合的语义空间中的目标分布情况与预设的均匀分布情况之间从差异程度越小。
具体地,终端可以采用将差异度输入分布打分函数,得到第一评分。分布打分函数是对差异度进行打分的函数。
在一个实施例中,如图4所示为分布打分函数的曲线图,横坐标为差异度,纵坐标为第一评分,差异度与第一评分之间成负相关关系。
步骤304,基于相似问语句的数量确定第二评分;相似问语句的数量与第二评分成正相关关系。
第二评分指的是相似问语句的数量的评分。相似问语句的数量与第二评分成正相关关系,也就是说,第二评分越小,相似问语句的数量越小;第二评分越大,相似问语句的数量越大。
具体地,终端可以采用将相似问语句的数量输入相似问数量打分函数,得到第二评分。相似问数量打分函数是相似问语句的数量进行打分的函数。
在一个实施例中,如图5所示为相似问数量打分函数的曲线图,横坐标为相似问语句的数量,纵坐标为第二评分,相似问语句的数量与第二评分成正相关关系。
步骤306,基于第一评分和第二评分确定相似问集合的质量评分。
在一个实施例中,终端可以将第一评分和第二评分相加,得到相似问集合的质量评分。例如,第一评分为68,第二评分为20,则相似问集合的质量评分为68+20=88。
在另一个实施例中,终端可以获取第一评分的第一权重因子,以及第二评分的第二权重因子,将第一评分乘以第一权重因子,第二评分乘以第二权重因子,再将得到的两个乘积相加得到相似问集合的质量评分。
第一权重因子和第二权重因子可以根据需要设置。第一权重因子和第二权重因子的和等于1。
例如,第一评分的第一权重因子为0.8,第二评分的第二权重因子为0.2,第一评分为90,第二评分为80,则相似问集合的质量评分为90*0.8+80*0.2=72+16=88。
在另一个实施例中,终端可以预先对差异度设置对应的第一阈值,预先对相似问语句的数量设置对应的第二阈值,使得第一评分小于或等于第一阈值,第二评分小于或等于第二阈值;再将获取到的第一评分和第二评分相加得到相似问集合的质量评分。
第一阈值和第二阈值均可以根据需要进行设置。例如,第一阈值可以是80,第二阈值可以是20。又如,第一阈值可以是50,第二阈值可以是30。又如,第一阈值可以是6,第二阈值可以是4。
相似问集合的质量评分与第一评分成正相关关系,相似问集合的质量评分也与第二评分成正相关关系。具体的相似问集合的质量评分的计算方式并不限定。
在本实施例中,差异度与第一评分之间成负相关关系,相似问语句的数量与第二评分之间成正相关关系,则基于差异度可以确定出准确的第一评分,基于相似问语句的数量可以确定出准确的第二评分,再基于第一评分和第二评分可以确定出相似问集合的质量评分,从而准确判断出作为训练数据时相似问集合的质量。
在一个实施例中,如图6所示,上述方法还包括:
步骤602,获取评分之后的各个相似问集合。
步骤604,从各个相似问集合中确定质量评分大于评分阈值的目标相似问集合,将目标训练集合作为训练数据对意图识别模型进行训练。
质量评分越高,则作为训练数据时相似问集合的质量越高,相似问集合作为训练数据可以更意图识别模型更准确进行训练。
相似问集合中的各个相似问语句可以预先标注有该相似问语句的意图,终端将相似问语句输入意图识别模型中,将识别得到的意图与预先标注的意图进行比较,可以确定出意图识别模型是否可以准确识别出相似问语句,即训练样本的意图,从而对意图识别模型进行训练。
评分阈值可以根据需要进行设置。相似问集合的质量评分大于评分阈值,表示该相似问集合的质量较高,则该相似问集合作为训练数据可以对意图识别模型更准确训练,得到更准确的训练完成的意图识别模型,从而该训练完成的意图识别模型可以对待识别语句进行识别,得到更准确的待识别语句的意图。
终端通过训练完成的意图识别模型对待识别语句进行意图识别,得到带识别语句的意图。可以理解的是,在意图识别模型对待识别语句进行意图识别的过程中,待识别语句的句向量与语义空间中的某一个区域的中心越靠近,越有可能属于该区域对应的意图。可通过以下公式推理得到:
其中,是待识别语句的句向量,是待识别语句的句向量的转置,表示第k类向量,即处于第k类意图的区域中心位置的向量,是第k类向量的转置,是对该句向量的评分,是句向量与第k类向量之间的距离。则越大,越小,也就是说,对句向量属于第k类向量的评分越大,则句向量与第k类向量之间的距离越小,句向量越接近第k类意图的区域中心位置,句向量越有可能属于第k类意图。
在一个实施例中,若意图识别模型对待识别语句进行意图识别,得到一个意图的评分,则将该意图作为待识别语句的意图。进一步地,若该意图的评分大于预设的阈值,则将该意图作为待识别语句的意图。可以理解的是,意图识别模型对待识别语句进行意图识别,若识别到待识别语句属于某一个意图的评分大于预设的阈值,表示该待识别语句越有可能属于该意图,则将该意图作为待识别语句的意图。终端将评分小于或等于预设的阈值的意图去掉,可以避免将错误的意图作为待识别语句的意图,提高意图识别的准确性。
在另一个实施例中,若意图识别模型对待识别语句进行意图识别,得到至少两个意图的评分,则基于各个意图的评分确定待识别语句的意图。可选地,终端可以将评分最高的意图作为待识别语句的意图,也可以将评分次高的意图作为待识别语句的意图,不限于此。
应该理解的是,虽然图1至图3、以及图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至图3、以及图6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种相似问集合的评分装置700,包括:相似问语句的数量确定模块702、目标分布情况确定模块704、差异度确定模块706和质量评分确定模块708,其中:
相似问语句的数量确定模块702,用于获取相似问集合,确定相似问集合中所包括的相似问语句的数量。
目标分布情况确定模块704,用于分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况。
差异度确定模块706,用于将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。
质量评分确定模块708,用于基于差异度和相似问语句的数量确定相似问集合的质量评分。
上述相似问集合的评分装置,获取相似问集合,确定相似问集合中所包括的相似问语句的数量;分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况;将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。预设的均匀分布情况是各个句向量均匀分布在语义空间中,使得相似问集合均匀包括有各种相似问的语义,从而均匀分布情况的相似问集合在后续作为训练数据时可以提高意图识别模型的泛化能力。而目标分布情况与均匀分布情况之间的差异度,表示相似问集合在后续对意图识别模型进行训练时,对意图识别模型的泛化能力的提高程度的差异。而相似问集合在后续作为训练数据对意图识别模型进行训练时,训练数据的样本数量即相似问集合中所包括的相似问语句的数量,与训练得到的意图识别模型的准确度相关。因此,基于目标分布情况与均匀分布情况之间的差异度和相似问语句的数量,可以实现对相似问集合的质量进行准确检测。
在一个实施例中,上述目标分布情况确定模块704还用于分别对各个相似问语句进行向量编码得到各个第一句向量;对各个第一句向量进行降维处理,得到各个第二句向量;第二句向量的维度数量小于第一句向量的维度数量;确定各个第二句向量在相似问集合的语义空间中的目标分布情况。
在一个实施例中,第二句向量的维度数量小于预设的数量阈值。
在一个实施例中,上述质量评分确定模块708还用于基于差异度确定第一评分;差异度与第一评分之间成负相关关系;基于相似问语句的数量确定第二评分;相似问语句的数量与第二评分成正相关关系;基于第一评分和第二评分确定相似问集合的质量评分。
在一个实施例中,上述质量评分确定模块708还用于将第一评分和第二评分相加,得到相似问集合的质量评分。
在一个实施例中,上述差异度确定模块706还用于通过拟合优度检验将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。
在一个实施例中,上述相似问集合的评分装置还包括训练模块,用于获取评分之后的各个相似问集合;从各个相似问集合中确定质量评分大于评分阈值的目标相似问集合,将目标训练集合作为训练数据对意图识别模型进行训练。
关于相似问集合的评分装置的具体限定可以参见上文中对于相似问集合的评分方法的限定,在此不再赘述。上述相似问集合的评分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种相似问集合的评分方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取相似问集合,确定相似问集合中所包括的相似问语句的数量;分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况;将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度;基于差异度和相似问语句的数量确定相似问集合的质量评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对各个相似问语句进行向量编码得到各个第一句向量;对各个第一句向量进行降维处理,得到各个第二句向量;第二句向量的维度数量小于第一句向量的维度数量;确定各个第二句向量在相似问集合的语义空间中的目标分布情况。
在一个实施例中,第二句向量的维度数量小于预设的数量阈值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于差异度确定第一评分;差异度与第一评分之间成负相关关系;基于相似问语句的数量确定第二评分;相似问语句的数量与第二评分成正相关关系;基于第一评分和第二评分确定相似问集合的质量评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将第一评分和第二评分相加,得到相似问集合的质量评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过拟合优度检验将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取评分之后的各个相似问集合;从各个相似问集合中确定质量评分大于评分阈值的目标相似问集合,将目标训练集合作为训练数据对意图识别模型进行训练。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取相似问集合,确定相似问集合中所包括的相似问语句的数量;分别对各个相似问语句进行向量编码得到各个句向量,确定各个句向量在相似问集合的语义空间中的目标分布情况;将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度;基于差异度和相似问语句的数量确定相似问集合的质量评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对各个相似问语句进行向量编码得到各个第一句向量;对各个第一句向量进行降维处理,得到各个第二句向量;第二句向量的维度数量小于第一句向量的维度数量;确定各个第二句向量在相似问集合的语义空间中的目标分布情况。
在一个实施例中,第二句向量的维度数量小于预设的数量阈值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于差异度确定第一评分;差异度与第一评分之间成负相关关系;基于相似问语句的数量确定第二评分;相似问语句的数量与第二评分成正相关关系;基于第一评分和第二评分确定相似问集合的质量评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将第一评分和第二评分相加,得到相似问集合的质量评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过拟合优度检验将目标分布情况与预设的均匀分布情况进行比较,确定目标分布情况与均匀分布情况之间的差异度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取评分之后的各个相似问集合;从各个相似问集合中确定质量评分大于评分阈值的目标相似问集合,将目标训练集合作为训练数据对意图识别模型进行训练。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种相似问集合的评分方法,其特征在于,所述方法包括:
获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;所述相似问语句指的是意图相同,表达方式不同的语句;
分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;
将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;
基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。
2.根据权利要求1所述的方法,其特征在于,所述分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况,包括:
分别对各个所述相似问语句进行向量编码得到各个第一句向量;
对各个所述第一句向量进行降维处理,得到各个第二句向量;所述第二句向量的维度数量小于所述第一句向量的维度数量;
确定各个所述第二句向量在所述相似问集合的语义空间中的目标分布情况。
3.根据权利要求2所述的方法,其特征在于,所述第二句向量的维度数量小于预设的数量阈值。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分,包括:
基于所述差异度确定第一评分;所述差异度与所述第一评分之间成负相关关系;
基于所述相似问语句的数量确定第二评分;所述相似问语句的数量与所述第二评分成正相关关系;
基于所述第一评分和所述第二评分确定所述相似问集合的质量评分。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一评分和所述第二评分确定所述相似问集合的质量评分,包括:
将所述第一评分和所述第二评分相加,得到所述相似问集合的质量评分。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度,包括:
通过拟合优度检验将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取评分之后的各个所述相似问集合;
从各个所述相似问集合中确定质量评分大于评分阈值的目标相似问集合,将所述目标相似问集合作为训练数据对意图识别模型进行训练。
8.一种相似问集合的评分装置,其特征在于,所述装置包括:
相似问语句的数量确定模块,用于获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;所述相似问语句指的是意图相同,表达方式不同的语句;
目标分布情况确定模块,用于分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;
差异度确定模块,用于将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;
质量评分确定模块,用于基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011127938.1A CN111967254B (zh) | 2020-10-21 | 2020-10-21 | 相似问集合的评分方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011127938.1A CN111967254B (zh) | 2020-10-21 | 2020-10-21 | 相似问集合的评分方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967254A CN111967254A (zh) | 2020-11-20 |
CN111967254B true CN111967254B (zh) | 2021-04-06 |
Family
ID=73387109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011127938.1A Active CN111967254B (zh) | 2020-10-21 | 2020-10-21 | 相似问集合的评分方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967254B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN104636498A (zh) * | 2015-03-08 | 2015-05-20 | 河南理工大学 | 一种基于信息瓶颈的模糊三维聚类方法 |
CN106777232A (zh) * | 2016-12-26 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 问答抽取方法、装置及终端 |
WO2019156103A1 (ja) * | 2018-02-09 | 2019-08-15 | 日本電信電話株式会社 | Faq整備支援装置、faq整備支援方法、及びプログラム |
CN110516752A (zh) * | 2019-08-30 | 2019-11-29 | 广州视源电子科技股份有限公司 | 聚类簇质量评估方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
KR102120522B1 (ko) * | 2013-06-28 | 2020-06-09 | 케이엘에이 코포레이션 | 대표 타겟 부분집합의 선택 및 이용 |
-
2020
- 2020-10-21 CN CN202011127938.1A patent/CN111967254B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN104636498A (zh) * | 2015-03-08 | 2015-05-20 | 河南理工大学 | 一种基于信息瓶颈的模糊三维聚类方法 |
CN106777232A (zh) * | 2016-12-26 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 问答抽取方法、装置及终端 |
WO2019156103A1 (ja) * | 2018-02-09 | 2019-08-15 | 日本電信電話株式会社 | Faq整備支援装置、faq整備支援方法、及びプログラム |
CN110516752A (zh) * | 2019-08-30 | 2019-11-29 | 广州视源电子科技股份有限公司 | 聚类簇质量评估方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111967254A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021439B (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
WO2021169111A1 (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN110991178B (zh) | 智能客服与人工客服的切换方法、装置及计算机设备 | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
CN109472213B (zh) | 掌纹识别方法、装置、计算机设备和存储介质 | |
CN106982196A (zh) | 一种异常访问检测方法及设备 | |
US9249287B2 (en) | Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns | |
CN112820367B (zh) | 病历信息校验方法、装置、计算机设备及存储介质 | |
CN111832581B (zh) | 肺部特征识别方法、装置、计算机设备及存储介质 | |
WO2020034801A1 (zh) | 医疗特征筛选方法、装置、计算机设备和存储介质 | |
CN113284000B (zh) | 用户用电数据异常检测方法、装置、计算机设备 | |
CN115545300B (zh) | 一种基于图神经网络进行用户行为预测的方法及装置 | |
CN113849648A (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN114118526A (zh) | 一种企业风险预测方法、装置、设备及存储介质 | |
US20230063686A1 (en) | Fine-grained stochastic neural architecture search | |
CN111552810B (zh) | 实体抽取与分类方法、装置、计算机设备和存储介质 | |
CN111967254B (zh) | 相似问集合的评分方法、装置、计算机设备和存储介质 | |
CN111241811B (zh) | 确定搜索词权重的方法、装置、计算机设备和存储介质 | |
CN109493975B (zh) | 基于xgboost模型的慢性病复发预测方法、装置和计算机设备 | |
CN112749557A (zh) | 文本处理模型的构建方法和文本处理方法 | |
CN115827877A (zh) | 一种提案辅助并案的方法、装置、计算机设备和存储介质 | |
CN114218462A (zh) | 基于lstm的数据分类方法、装置、设备及存储介质 | |
CN111582404B (zh) | 内容分类方法、装置及可读存储介质 | |
CN114298204A (zh) | 设备屏幕划痕检测模型训练方法及设备屏幕划痕检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |