CN112989040A - 一种对话文本标注方法、装置、电子设备及存储介质 - Google Patents

一种对话文本标注方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112989040A
CN112989040A CN202110260937.2A CN202110260937A CN112989040A CN 112989040 A CN112989040 A CN 112989040A CN 202110260937 A CN202110260937 A CN 202110260937A CN 112989040 A CN112989040 A CN 112989040A
Authority
CN
China
Prior art keywords
text
vector
dialog
key sentence
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110260937.2A
Other languages
English (en)
Other versions
CN112989040B (zh
Inventor
张翼飞
张雪飞
孙喜锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Zhongyuan Consumption Finance Co ltd
Original Assignee
Henan Zhongyuan Consumption Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Zhongyuan Consumption Finance Co ltd filed Critical Henan Zhongyuan Consumption Finance Co ltd
Priority to CN202110260937.2A priority Critical patent/CN112989040B/zh
Publication of CN112989040A publication Critical patent/CN112989040A/zh
Application granted granted Critical
Publication of CN112989040B publication Critical patent/CN112989040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对话文本标注方法,包括:获取对话文本及预设类型包含的关键句文本,并将对话文本及关键句文本进行向量转换,得到对话文本向量及关键句文本向量;利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算,得到向量聚类结果;利用向量聚类结果确定对话文本向量与关键句文本向量的匹配关系;利用关键句文本向量对应的预设类型,对与关键句文本向量建立匹配关系的对话文本向量对应的对话文本进行标注;本方法中,对话文本可通过与预设类型包含的关键句文本进行聚类计算进行自动标注,关键句文本带有预设类型所特有的文本特征,可确保标注的准确性;本发明还提供对话文本标注装置、电子设备及存储介质,具有上述有益效果。

Description

一种对话文本标注方法、装置、电子设备及存储介质
技术领域
本发明涉及文本标注领域,特别涉及一种对话文本标注方法、装置、电子设备及存储介质。
背景技术
随着文本分类技术的不断发展,文本分类模型以在众多场景中得到应用。文本分类模型的分类精度依赖于足量的标注数据,因此如何高效地进行文本标记,对提升文本分类模型的精确度十分重要。
相关技术中,文本标记依赖于人工标记。由于人工标记的效率较低,若需提供大量的标注数据则要耗费大量的时间,同时人工标记的方法也存在人工成本较高的问题。
发明内容
本发明的目的是提供一种对话文本标注方法、装置、电子设备及存储介质,可通过与预设类型包含的关键句文本进行聚类计算的方式为对话文本进行自动标注,进而可提升对话文本标注的效率并降低标注成本。
为解决上述技术问题,本发明提供一种对话文本标注方法,包括:
获取对话文本及预设类型包含的关键句文本,并将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量;
利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果;
利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系;
利用所述关键句文本向量对应的预设类型,对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注。
可选地,在利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算之前,还包括:
计算所述对话文本向量与所有所述关键句文本向量之间的余弦相似度;
当所有所述余弦相似度均小于第一预设阈值时,则将所述余弦相似度对应的对话文本向量进行移除;
利用剩余的对话文本向量,执行所述利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算的步骤。
可选地,所述利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果,包括:
设置K均值聚类模型的聚类数量为所述预设类型的数量,并将所述K均值聚类模型使用的距离设置为余弦距离;
将所述对话文本向量及所述关键句文本向量输入所述K均值聚类模型,得到所述向量聚类结果。
可选地,在得到所述向量聚类结果之后,还包括:
根据所述向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第一向量组;
查找所述第一向量组的质心,并计算所述质心与所述第一向量组包含向量的平均余弦距离;
若所述平均余弦距离大于第二预设阈值时,则利用所述第一向量组中包含的对话文本向量和关键句文本向量,执行所述将所述对话文本向量及所述关键句文本向量输入所述K均值聚类模型,得到所述向量聚类结果的步骤;
若所述平均余弦距离小于等于所述第二预设阈值时,则利用所述第一向量组中包含的对话文本向量和关键句文本向量,执行所述利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系的步骤。
可选地,所述将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量,包括:
利用BERT服务将所述对话文本及所述关键句文本分别转换为第二向量组和第三向量组;所述第二向量组包含对话文本句向量、对话文本词向量和对话文本词位置向量,所述第三向量组包含关键句文本句向量、关键句文本词向量和关键句文本词位置向量;
利用所述BERT服务分别所述第二向量组和第三向量组进行加权计算,得到所述对话文本向量及所述关键句文本向量。
可选地,在对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注之后,还包括:
利用标注后的对话文本对BERT预训练模型进行微调训练,得到意图提取模型;
利用所述意图提取模型对所述对话文本进行分类检测。
可选地,所述利用所述聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系,包括:
根据所述向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第四向量组;
在所述第四向量组中,计算所述关键句文本向量与所有所述对话文本向量的平均余弦相似度;
判断所述平均余弦相似度是否大于第三预设阈值;
若是,则将所述关键句文本向量与所述第四向量组中的所有所述对话文本向量设置匹配关系。
本发明还提供一种对话文本标注装置,包括:
向量转换模块,用于获取对话文本及预设类型包含的关键句文本,并将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量;
聚类计算模块,用于利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果;
匹配模块,用于利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系;
标注模块,用于利用所述关键句文本向量对应的预设类型,对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注。
本发明还提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的对话文本标注方法。
本发明还提供一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上述所述的对话文本标注方法。
本发明提供一种对话文本标注方法,包括:获取对话文本及预设类型包含的关键句文本,并将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量;利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果;利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系;利用所述关键句文本向量对应的预设类型,对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注。
可见,本方法通过利用预设类型包含的关键句文本与对话文本进行聚类计算的方式,完成对对话文本的自动标注任务。相关技术中,由于采用人工标注的方式进行文本标注,存在标注效率低且标注成本高的问题,而在本方法中,对话文本可通过聚类计算的方式自动进行标注,无需人工干预,可有效提升对话文本标注的效率;同时,本方法中的聚类计算利用预设类型包含的关键句文本与对话文本进行,关键句文本带有预设类型所特有的文本特征,进而本方法利用关键句文本与对话文本进行聚类计算,可确保与关键句文本带有相同文本特征的对话文本聚为一类,最终可实现利用关键句文本对应的预设类型,为与关键句文本聚类一类的大量对话文本进行自动标注的目的,可有效提升文本标注的效率并降低文本标注的成本。本发明还提供一种对话文本标注装置、电子设备及存储介质,具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种对话文本标注方法的流程图;
图2为本发明实施例所提供的一种对话文本标注装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,文本标记依赖于人工标记。由于人工标记的效率较低,若需提供大量的标注数据则要耗费大量的时间,同时人工标记的方法也存在人工成本较高的问题。有鉴于此,本发明提供一种对话文本标注方法,可通过与预设类型包含的关键句文本进行聚类计算的方式为对话文本进行自动标注,进而可提升对话文本标注的效率并降低标注成本。请参考图1,图1为本发明实施例所提供的一种对话文本标注方法的流程图,该方法可以包括:
S101、获取对话文本及预设类型包含的关键句文本,并将对话文本及关键句文本进行向量转换,得到对话文本向量及关键句文本向量。
在本发明实施例中,对话文本的标注需要预设类型包含的关键句文本参与计算,其中,预设类型为由数据标注人员预先设定的文本类型,而关键句文本则为数据标注人员预设设定的、符合预设类型特征要求的标准文本。由于关键句文本带有预设类型的文本特征,进而在本发明实施例中,可利用关键句文本与对话文本进行聚类计算,确定与关键句文本相似的、均与预设类型文本特征相似的对话文本,并最终利用预设类型为对话文本进行自动标注,可有效确保标注的准确性。
需要说明的是,本发明实施例并不限定预设类型的具体数量,用户可根据实际应用需求进行设定。本发明实施例也不限定单个预设类型可包含的关键句文本的数量,用户也可依照实际应用需求进行设定。可以理解的是,当单个预设类型包含的关键句文本数量越多时,对关键句文本对预设类型所带有的文本特征描述也就越准确。
进一步,可以理解的是,为了将对话文本及关键句文本有效地转换为向量,在本发明实施例中出现的对话文本及关键句文本均为单句。本发明实施例并不限定对话文本及关键句文本的长度,该长度可为任意长度。
进一步,本发明实施例并不限定将对话文本及关键句文本转换为对话文本向量及关键句文本向量的方式,例如可利用VSM向量空间模型进行向量转化,也可以利用word2vec/doc2vec方法进行向量转换,也可以利用BERT预训练模型进行向量转换,其中,VSM(Vector Space Model)向量空间模型可以把文本内容的处理简化为向量空间中的向量运算,并利用向量之间相似度来度量文本间的相似性;word2vec/doc2vec(句向量/文档向量)方法为一种将单词或文本转换为向量的方法;BERT预训练模型可将文本转换为句向量、词向量及词位置向量,并综合以上三种向量生成文本向量,同时提供中文的预训练模型。在本发明实施例中,考虑到BERT预训练模型可综合考虑句子结构、词汇及词汇在句子中的位置因素,可更有效地对中文的语义、语境进行分析,同时考虑到BERT预训练模型可支持中文,因此可使用BERT预训练模型为对话文本及关键句文本进行向量转换。需要说明的是,本发明并不限定利用BERT预训练模型进行文本向量转换的具体过程,用户可参考BERT预训练模型的相关技术。
进一步,由于对话文本及关键句文本存在长度过长,超过BERT预训练模型句子长度限制的情况,对于此类的对话文本及关键句文本,可依据BERT预训练模型句子长度限制为对话文本及关键句文本进行切分,得到多个句子组成部分,在利用这些句子组成部分进行向量转换。
S102、利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算,得到向量聚类结果。
需要说明的是,本发明实施例并不限定聚类计算的具体方法,只要能够利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算即可,例如可以为K均值聚类,也可以为利用高斯混合模型的最大期望聚类,也可以采用其他聚类算法。由于K均值聚类简单有效,可满足应用需求,因此在本发明实施例中可采用K均值聚类进行聚类计算。可以理解的是,K均值聚类依照输入值对应数据点之间的距离进行聚类计算。需要说明的是,本发明实施例并不限定K均值聚类具体使用的距离,例如可以为欧式距离,也可以为余弦距离。由于将文本转换为空间向量后,当坐标表示测量值时,它们往往带有大小不等的随机波动,此时利用欧氏距离进行K均值计算将会产生误差;而使用余弦距离可利用向量之间的夹角余弦值计算向量之间的相似值,可将不同方向的空间向量进行归一化处理,进而可避免由于坐标系单位不统一导致的误差。考虑到余弦距离可提升计算精度,因此在本发明实施例中,K均值聚类可使用余弦距离进行聚类计算。
由于余弦距离实际为两向量间夹角的余弦值,因此可采用如下公式进行计算:
Figure BDA0002969941820000071
其中,cosθ表示余弦距离,
Figure BDA0002969941820000072
Figure BDA0002969941820000073
表示两个文本向量。
在一种可能的情况中,利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算,得到向量聚类结果的过程,可以包括:
步骤11:设置K均值聚类模型的聚类数量为预设类型的数量,并将K均值聚类模型使用的距离设置为余弦距离;
步骤12:将对话文本向量及关键句文本向量输入K均值聚类模型,得到向量聚类结果。
S103、利用向量聚类结果确定对话文本向量与关键句文本向量的匹配关系。
向量聚类结果可表示对话文本向量及关键句文本向量之间的相似程度,进而本发明便可根据对话文本向量及关键句文本向量之间的相似程度,建立对话文本向量及关键句文本向量之间的匹配关系,最后利用该匹配关系为对话文本进行标注。
需要说明的是,本发明实施例并不限定确定对话文本向量与关键句文本向量之间匹配关系的具体过程,例如在聚为同一类的对话文本向量和关键句文本向量中只存在一个关键句文本向量时,可直接将该关键句文本向量与对话文本向量确定匹配关系;当聚为同一类的对话文本向量和关键句文本向量中存在多个关键句文本向量时,也可以计算每一关键句文本向量与该类所有对话文本向量之间的平均余弦相似度,当平均余弦相似度大于预设阈值时,则确定该平均余弦相似度对应的关键句文本向量与对话文本向量之间的匹配关系;当然,在计算平均余弦相似度后,也可以确定该类中最大的平均余弦相似度,并确定最大平均余弦相似度对应的关键句文本向量与对话文本向量之间的确定关系。考虑到利用平均余弦相似度与预设阈值进行比较的方式选择关键句文本向量已能够满足应用需求,因此在本发明实施例中,可以计算每一关键句文本向量与该类所有对话文本向量之间的平均余弦相似度,当平均余弦相似度大于预设阈值时,则确定该平均余弦相似度对应的关键句文本向量与对话文本向量之间的匹配关系。可以理解的是,平均余弦相似度为关键句文本向量与每一对话文本向量的余弦相似度的平均值。由于余弦相似度实际也为两向量间夹角的余弦值,因此假设量文本向量均为三维向量,且坐标分别为(x1,y1,z1)和(x2,y2,z2),则余弦相似度可利用如下公式计算:
Figure BDA0002969941820000081
其中,cosθ表示余弦相似度。
在一种可能的情况中,利用聚类结果确定对话文本向量与关键句文本向量的匹配关系,包括:
步骤21:根据向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第四向量组;
步骤22:在第四向量组中,计算关键句文本向量与所有对话文本向量的平均余弦相似度;
步骤23:判断平均余弦相似度是否大于第三预设阈值;若是,则进入步骤24;若否,则对下一关键句文本向量执行步骤22;
步骤24:将关键句文本向量与第四向量组中的所有对话文本向量设置匹配关系。
需要说明的是,本发明实施例并不限定第三预设阈值的具体数值,用户可根据实际应用需求进行设定。
在设置匹配关系后,也可在与同一关键句文本向量建立匹配关系的对话文本向量中随机抽取预设比例的对话文本向量进行人工观察,以确保这些对话文本向量均与关键句文本向量同属一个预设类型。本发明实施例并不限定预设比例的具体数值,在一种可能的情况中,可在与同一关键句文本向量建立匹配关系的对话文本向量中随机抽取10%的对话文本向量进行人工观察。
S104、利用关键句文本向量对应的预设类型,对与关键句文本向量建立匹配关系的对话文本向量对应的对话文本进行标注。
需要说明的是,本发明实施例并不限定具体的标注内容,只要能够确保对话文本与预设类型相对应即可。
进一步,可以理解的是,在完成对话文本的标注后,便可利用带有标注信息的对话文本进行意图提取模型的训练,其中,意图提取模型为一种文本分类模型,可利用已习得的预设类型文本特征对待检测文本进行分类检测,输出待检测文本所属的预设类型及可信度。本发明实施例并不限定具体的意图提取模型,例如可以为基于深度卷积神经网络(CNN)的文本分类模型,也可以为对BERT预训练模型进行微调训练(Fine-tuning)后得到的模型,其中微调训练为对深度学习神经网络进行迁移学习的一种方式。由于BERT预训练模型已利用大量语料进行了初步训练,同时微调训练的训练效率高,对训练数据的数据量要求较低,因此本发明实施例中的意图提取模型可利用BERT预训练模型进行微调训练后得到。需要说明的是,本发明实施例并不限定微调训练的具体过程,用户可参考相关技术。
在一种可能的情况中,在对与关键句文本向量建立匹配关系的对话文本向量对应的对话文本进行标注之后,还包括:
步骤31:利用标注后的对话文本对BERT预训练模型进行微调训练,得到意图提取模型;
步骤32:利用意图提取模型对对话文本进行分类检测。
可以理解的是,由于对话文本多为中文,因此本发明实施例中的BERT预训练模型可以为BERT-Chinese,即BERT预训练模型的中文版本;同时,可将标注后的对话文本按照预设比例划分为训练集、验证集和测试集,并利用上述三种数据集对BERT预训练模型进行训练。需要说明的是,本发明实施例并不限定预设比例的具体数值,用户可根据实际应用需求进行设定。在一种可能的情况中,可按照8:1:1的比例将标注后的对话文本划分为训练集、验证集和测试集。
在完成微调训练之后,BERT预训练模型将会生成推理权重文件model.ckpt,进而意图提取模型可利用推理权重文件完成对对话文本的分类检测。
基于上述实施例,本方法通过利用预设类型包含的关键句文本与对话文本进行聚类计算的方式,完成对对话文本的自动标注任务。相关技术中,由于采用人工标注的方式进行文本标注,存在标注效率低且标注成本高的问题,而在本方法中,对话文本可通过聚类计算的方式自动进行标注,无需人工干预,可有效提升对话文本标注的效率;同时,本方法中的聚类计算利用预设类型包含的关键句文本与对话文本进行,关键句文本带有预设类型所特有的文本特征,进而本方法利用关键句文本与对话文本进行聚类计算,可确保与关键句文本带有相同文本特征的对话文本聚为一类,最终可实现利用关键句文本对应的预设类型,为与关键句文本聚类一类的大量对话文本进行自动标注的目的,可有效提升文本标注的效率并降低文本标注的成本。
基于上述实施例,由于对话文本中可能出现打招呼、表情等无关文本,而对这类对话文本进行聚类计算不仅会影响向量聚类计算结果,同时也会挤占计算资源,因此在进行聚类计算之前,可将此类无关文本进行去除。下面对去除无关文本内的过程进行介绍。在一种可能的情况中,在利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算之前,还可以包括:
S201、计算对话文本向量与所有关键句文本向量之间的余弦相似度。
S202、当所有余弦相似度均小于第一预设阈值时,则将余弦相似度对应的对话文本向量进行移除。
当对话文本与所有关键句文本向量之间的余弦相似度均小于第一预设阈值时,则说明该对话文本与所有关键句文本向量均不相似,可视作无关文本进行去除。
需要说明的是,本发明并不限定第一预设阈值的具体数值,用户可根据实际应用需求进行设定。在一种可能的情况中,可将第一预设阈值设置为0.2。
S203、利用剩余的对话文本向量,执行利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算的步骤。
基于上述实施例,本发明实施例可根据对话文本向量与所有关键句文本向量之间的余弦相似度,确定对话文本是否为无关文本。当对话文本为无关文本时,则将该对话文本对应的对话文本向量进行去除,进而可有效提升聚类计算的准确性及计算效率。
基于上述实施例,由于聚类计算的结果可能不准确,即聚类为同一类的对话文本向量及关键句文本向量,其在向量空间中的分布可能较为松散,进而导致这类对话文本向量及关键句文本向量之间的平均余弦相似度较低,将会影响对话文本标记的准确度。为了避免此类情况,在本发明实施例中,会对聚类为同一类的对话文本向量及关键句文本向量在向量空间中的分布进行判断,当分布松散时将会对这些对话文本向量及关键句文本向量进行重新聚类,以提升聚类准确性。为解决上述技术问题,在一种可能的情况中,在得到向量聚类结果之后,还可以包括:
S301、根据向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第一向量组。
S302、查找第一向量组的质心,并计算质心与第一向量组包含向量的平均余弦距离。
可以理解的是,当平均余弦距离越大时,聚为同一类的向量在向量空间中的分布越松散,反之越紧密。本发明实施例并不限定在若干向量中查找质心的具体方式,用户可参考相关技术。
S303、若平均余弦距离大于第二预设阈值时,则利用第一向量组中包含的对话文本向量和关键句文本向量,执行将对话文本向量及关键句文本向量输入K均值聚类模型,得到向量聚类结果的步骤。
在本发明实施例中,利用第二预设阈值对向量的松散分布及紧密分布进行区分。可以理解的是,当平均余弦距离大于第二预设阈值时,则说明第一向量组中的向量为松散分布,需要对第一向量组中的向量进行重新聚类。需要说明的是,在重新聚类时,K均值聚类模型使用的聚类数量及距离均与第一次聚类计算时设置的聚类数量及距离相同,即聚类数量为预设类型的数量,距离为余弦距离。需要说明的是,本发明实施例并不限定第二预设阈值的具体数值,用户可根据实际应用需求进行设定。
当然,在确定平均余弦距离大于第二预设阈值后,也可在第一向量组中抽取预设比例的对话文本向量进行人工观察,以进一步确定这些对话文本向量存在不属于同一预设类型的情况,并在人工确定之后再执行重新聚类的步骤。本发明实施例并不限定预设比例的具体数值,在一种可能的情况中,该预设比例可以为10%。
S304、若平均余弦距离小于等于第二预设阈值时,则利用第一向量组中包含的对话文本向量和关键句文本向量,执行利用向量聚类结果确定对话文本向量与关键句文本向量的匹配关系的步骤。
基于上述实施例,本方法可在得到向量聚类结果后,将会把聚为同一类的对话文本向量及关键句文本向量设定为第一向量组,进而利用第一向量组中的质心计算第一向量组的余弦距离,最后利用余弦距离确定向量的分布情况,可有效避免聚为同一类的对话文本向量及关键句文本向量分布松散的情况,可有效提升聚类计算的准确度并最终提升对话文本标注的准确度。
基于上述实施例,下面对利用BERT预训练模型为对话文本及关键句文本进行向量转换的过程进行介绍。在一种可能的情况中,将对话文本及关键句文本进行向量转换,得到对话文本向量及关键句文本向量的过程,可以包括:
S401、利用BERT服务将对话文本及关键句文本分别转换为第二向量组和第三向量组;第二向量组包含对话文本句向量、对话文本词向量和对话文本词位置向量,第三向量组包含关键句文本句向量、关键句文本词向量和关键句文本词位置向量。
S402、利用BERT服务分别第二向量组和第三向量组进行加权计算,得到对话文本向量及关键句文本向量。
BERT服务为BERT预训练模型中的向量转化服务。由于BERT服务(BERT-Serving)会将文本转换为句向量、词向量及词位置向量,可有效地对中文的语义及语境进行分析,进而本发明实施例利用BERT服务进行向量转换,可丰富对话文本向量及关键句文本向量所带有的特征种类,进而可提升对话文本标注的准确性。
需要说明的是,本发明实施例并不限定BERT服务进行向量转换及加权计算的具体过程,用户可参考BERT预训练模型的相关技术。在一种情况中,BERT预训练模型生成文本向量的过程可以包括:
1、向量转换(Embedding)。在该过程中,BERT将会把输入的文本转换为词向量(Token Embeddings)、句向量(Segment Embeddings)及词位置向量(PositionEmbeddings);
2、随机遮盖(Masked LM)。在该过程中,BERT将会随机遮盖每个句子中15%的词汇,便于上下文预测;
3、下一句子预测(Next Sentence Prediction)。在该过程中,BERT将会从输入的文本中随机选择连续两句文本A与B,其中B为A的下一句。BERT会保留B句子50%的数据,并从输入的文本中随机抽取其他文本,对B句子剩余50%的部分进行补充。
基于上述实施例,本方法可使用BERT服务为对话文本及关键句文本进行向量转换,由于BERT服务会将文本转换为句向量、词向量及词位置向量,可有效地对中文的语义及语境进行分析,进而本发明实施例利用BERT服务进行向量转换,可丰富对话文本向量及关键句文本向量所带有的特征种类,进而可提升对话文本标注的准确性。
下面对本发明实施例提供的一种对话文本标注装置、电子设备及存储介质进行介绍,下文描述的对话文本标注装置、电子设备及存储介质与上文描述的对话文本标注方法可相互对应参照。
请参考图2,图2为本发明实施例所提供的一种对话文本标注装置的结构框图,该装置可以包括:
向量转换模块201,用于获取对话文本及预设类型包含的关键句文本,并将对话文本及关键句文本进行向量转换,得到对话文本向量及关键句文本向量;
聚类计算模块202,用于利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算,得到向量聚类结果;
匹配模块203,用于利用向量聚类结果确定对话文本向量与关键句文本向量的匹配关系;
标注模块204,用于利用关键句文本向量对应的预设类型,对与关键句文本向量建立匹配关系的对话文本向量对应的对话文本进行标注。
可选地,该装置还可以包括:
相似度计算模块,用于计算对话文本向量与所有关键句文本向量之间的余弦相似度;
移除模块,用于在所有余弦相似度均小于第一预设阈值时,则将余弦相似度对应的对话文本向量进行移除;
可选地,聚类计算模块202可以包括:
第一设置子模块,用于设置K均值聚类模型的聚类数量为预设类型的数量,并将K均值聚类模型使用的距离设置为余弦距离;
聚类计算子模块,用于将对话文本向量及关键句文本向量输入K均值聚类模型,得到向量聚类结果。
可选地,聚类计算模块202还可以包括:
第二设置子模块,用于根据向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第一向量组;
平均余弦距离计算子模块,用于查找第一向量组的质心,并计算质心与第一向量组包含向量的平均余弦距离;
第一处理子模块,用于在平均余弦距离大于第二预设阈值时,将第一向量组中包含的对话文本向量和关键句文本向量输入聚类计算子模块;
第二处理子模块,用于在平均余弦距离小于等于第二预设阈值时,将第一向量组中包含的对话文本向量和关键句文本向量输入匹配模块203。
可选地,向量转换模块201,包括:
BERT向量转换子模块,用于利用BERT服务将对话文本及关键句文本分别转换为第二向量组和第三向量组;第二向量组包含对话文本句向量、对话文本词向量和对话文本词位置向量,第三向量组包含关键句文本句向量、关键句文本词向量和关键句文本词位置向量;
BERT加权计算子模块,用于利用BERT服务分别第二向量组和第三向量组进行加权计算,得到对话文本向量及关键句文本向量。
可选地,该装置还可以包括:
训练模块,用于利用标注后的对话文本对BERT预训练模型进行微调训练,得到意图提取模型;
分类检测模块,用于利用意图提取模型对对话文本进行分类检测。
可选地,匹配模块203,可以包括:
第三设置子模块,用于根据向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第四向量组;
平均余弦相似度计算子模块,用于在第四向量组中,计算关键句文本向量与所有对话文本向量的平均余弦相似度;
判断子模块,用于判断平均余弦相似度是否大于第三预设阈值;
匹配关系设置模块,用于若平均余弦相似度大于第三预设阈值,则将关键句文本向量与第四向量组中的所有对话文本向量设置匹配关系。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述的对话文本标注方法的步骤。
由于电子设备部分的实施例与对话文本标注方法部分的实施例相互对应,因此电子设备部分的实施例请参见对话文本标注方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例的对话文本标注方法的步骤。
由于存储介质部分的实施例与对话文本标注方法部分的实施例相互对应,因此存储介质部分的实施例请参见对话文本标注方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种对话文本标注方法、装置、电子设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种对话文本标注方法,其特征在于,包括:
获取对话文本及预设类型包含的关键句文本,并将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量;
利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果;
利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系;
利用所述关键句文本向量对应的预设类型,对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注。
2.根据权利要求1所述的对话文本标注方法,其特征在于,在利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算之前,还包括:
计算所述对话文本向量与所有所述关键句文本向量之间的余弦相似度;
当所有所述余弦相似度均小于第一预设阈值时,则将所述余弦相似度对应的对话文本向量进行移除;
利用剩余的对话文本向量,执行所述利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算的步骤。
3.根据权利要求1所述的对话文本标注方法,其特征在于,所述利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果,包括:
设置K均值聚类模型的聚类数量为所述预设类型的数量,并将所述K均值聚类模型使用的距离设置为余弦距离;
将所述对话文本向量及所述关键句文本向量输入所述K均值聚类模型,得到所述向量聚类结果。
4.根据权利要求3所述的对话文本标注方法,其特征在于,在得到所述向量聚类结果之后,还包括:
根据所述向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第一向量组;
查找所述第一向量组的质心,并计算所述质心与所述第一向量组包含向量的平均余弦距离;
若所述平均余弦距离大于第二预设阈值时,则利用所述第一向量组中包含的对话文本向量和关键句文本向量,执行所述将所述对话文本向量及所述关键句文本向量输入所述K均值聚类模型,得到所述向量聚类结果的步骤;
若所述平均余弦距离小于等于所述第二预设阈值时,则利用所述第一向量组中包含的对话文本向量和关键句文本向量,执行所述利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系的步骤。
5.根据权利要求1所述的对话文本标注方法,其特征在于,所述将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量,包括:
利用BERT服务将所述对话文本及所述关键句文本分别转换为第二向量组和第三向量组;所述第二向量组包含对话文本句向量、对话文本词向量和对话文本词位置向量,所述第三向量组包含关键句文本句向量、关键句文本词向量和关键句文本词位置向量;
利用所述BERT服务分别所述第二向量组和第三向量组进行加权计算,得到所述对话文本向量及所述关键句文本向量。
6.根据权利要求1所述的对话文本标注方法,其特征在于,在对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注之后,还包括:
利用标注后的对话文本对BERT预训练模型进行微调训练,得到意图提取模型;
利用所述意图提取模型对所述对话文本进行分类检测。
7.根据权利要求1至6任一项所述的对话文本标注方法,其特征在于,所述利用所述聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系,包括:
根据所述向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第四向量组;
在所述第四向量组中,计算所述关键句文本向量与所有所述对话文本向量的平均余弦相似度;
判断所述平均余弦相似度是否大于第三预设阈值;
若是,则将所述关键句文本向量与所述第四向量组中的所有所述对话文本向量设置匹配关系。
8.一种对话文本标注装置,其特征在于,包括:
向量转换模块,用于获取对话文本及预设类型包含的关键句文本,并将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量;
聚类计算模块,用于利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果;
匹配模块,用于利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系;
标注模块,用于利用所述关键句文本向量对应的预设类型,对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的对话文本标注方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的对话文本标注方法。
CN202110260937.2A 2021-03-10 2021-03-10 一种对话文本标注方法、装置、电子设备及存储介质 Active CN112989040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110260937.2A CN112989040B (zh) 2021-03-10 2021-03-10 一种对话文本标注方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260937.2A CN112989040B (zh) 2021-03-10 2021-03-10 一种对话文本标注方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112989040A true CN112989040A (zh) 2021-06-18
CN112989040B CN112989040B (zh) 2024-02-27

Family

ID=76336340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260937.2A Active CN112989040B (zh) 2021-03-10 2021-03-10 一种对话文本标注方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112989040B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090757A (zh) * 2022-01-14 2022-02-25 阿里巴巴达摩院(杭州)科技有限公司 对话系统的数据处理方法、电子设备及可读存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109408639A (zh) * 2018-10-31 2019-03-01 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN109446322A (zh) * 2018-10-15 2019-03-08 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110347835A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
CN110413788A (zh) * 2019-07-30 2019-11-05 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质
CN110413864A (zh) * 2019-08-06 2019-11-05 南方电网科学研究院有限责任公司 一种网络安全情报采集方法、装置、设备及存储介质
CN111159375A (zh) * 2019-12-27 2020-05-15 深圳前海微众银行股份有限公司 一种文本处理方法及装置
CN111950294A (zh) * 2020-07-24 2020-11-17 北京奇保信安科技有限公司 一种基于多参数K-means算法的意图识别方法、装置和电子设备
WO2020258481A1 (zh) * 2019-06-28 2020-12-30 平安科技(深圳)有限公司 个性化文本智能推荐方法、装置及计算机可读存储介质
CN112417152A (zh) * 2020-11-19 2021-02-26 首都师范大学 涉案舆情的话题检测方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN109446322A (zh) * 2018-10-15 2019-03-08 拉扎斯网络科技(上海)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN109408639A (zh) * 2018-10-31 2019-03-01 广州虎牙科技有限公司 一种弹幕分类方法、装置、设备和存储介质
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
WO2020258481A1 (zh) * 2019-06-28 2020-12-30 平安科技(深圳)有限公司 个性化文本智能推荐方法、装置及计算机可读存储介质
CN110347835A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
CN110413788A (zh) * 2019-07-30 2019-11-05 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质
CN110413864A (zh) * 2019-08-06 2019-11-05 南方电网科学研究院有限责任公司 一种网络安全情报采集方法、装置、设备及存储介质
CN111159375A (zh) * 2019-12-27 2020-05-15 深圳前海微众银行股份有限公司 一种文本处理方法及装置
CN111950294A (zh) * 2020-07-24 2020-11-17 北京奇保信安科技有限公司 一种基于多参数K-means算法的意图识别方法、装置和电子设备
CN112417152A (zh) * 2020-11-19 2021-02-26 首都师范大学 涉案舆情的话题检测方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHARLES TRAPPEY 等: "Knowledge Discovery of Service Satisfaction Based on Text Analysis of Critical Incident Dialogues and Clustering Methods", 《2013 IEEE 10TH INTERNATIONAL CONFERENCE ON E-BUSINESS ENGINEERING》, 13 September 2013 (2013-09-13), pages 265 - 270, XP032534293, DOI: 10.1109/ICEBE.2013.40 *
杨俊 等: "一种中文文本聚类算法的研究", 《硅谷》, 31 March 2009 (2009-03-31), pages 68 - 69 *
秦宝宝 等: "竞争情报系统中一种自动文本分类策略――以民用航空客服行业为例", 《图书情报工作》, no. 24, 20 December 2012 (2012-12-20), pages 39 - 43 *
袁林 等: "科技情报智能检索与语义分析", 《指挥信息系统与技术》, vol. 10, no. 5, 28 October 2019 (2019-10-28), pages 34 - 39 *
赵晓平 等: "一种结合TF-IDF方法和词向量的短文本聚类算法", 《电子设计工程》, vol. 28, no. 443, pages 5 - 9 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090757A (zh) * 2022-01-14 2022-02-25 阿里巴巴达摩院(杭州)科技有限公司 对话系统的数据处理方法、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112989040B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN111259625A (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN111694940B (zh) 一种用户报告的生成方法及终端设备
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
CN108959474B (zh) 实体关系提取方法
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN112468659A (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN112307820B (zh) 文本识别方法、装置、设备和计算机可读介质
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN112562736A (zh) 一种语音数据集质量评估方法和装置
CN114782054A (zh) 基于深度学习算法的客服服务质量检测方法及相关设备
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN112989040B (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN116955534A (zh) 投诉工单智能处理方法、装置、设备及存储介质
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN114417881B (zh) 敏感词检测方法、装置、电子设备及存储介质
CN113850235B (zh) 一种文本处理方法、装置、设备及介质
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN112668342B (zh) 基于孪生网络的远程监督关系抽取降噪系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant