CN115062621A - 标签提取方法、装置、电子设备和存储介质 - Google Patents

标签提取方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115062621A
CN115062621A CN202210557334.3A CN202210557334A CN115062621A CN 115062621 A CN115062621 A CN 115062621A CN 202210557334 A CN202210557334 A CN 202210557334A CN 115062621 A CN115062621 A CN 115062621A
Authority
CN
China
Prior art keywords
topic
label
cluster
text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210557334.3A
Other languages
English (en)
Inventor
谭昶
洪源
陈士星
张友国
吕军
胡少云
刘江
刘芳
范磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Iflytek Information Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd, Iflytek Information Technology Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210557334.3A priority Critical patent/CN115062621A/zh
Publication of CN115062621A publication Critical patent/CN115062621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供一种标签提取方法、装置、电子设备和存储介质,所述方法包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。本发明提供的标签提取方法、装置、电子设备和存储介质,基于能够从语义层面表征样本文本之间相似程度的语义相似度以及能够刻画各候选话题簇主题特征信息的关键词语义进行标签提取,提高了标签提取的准确度,同时本发明自动进行标签提取,提高了标签提取效率。

Description

标签提取方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种标签提取方法、装置、电子设备和存储介质。
背景技术
随着信息技术的不断发展,各个类型的文本都开始以计算机可读形式存在,因此如何在海量信息当中,快速并准确的提取对用户有用的信息是一个重要的问题。标签提取就是一种解决上述问题的有效手段,标签是对文章、音乐、商品等事物信息的精炼,使用户能够方便、快捷的了解事物的主题信息,从而提高信息访问的效率。
目前,关于标签提取的技术主要包括人工整理提取和关键词提取。人工整理提取主要依赖具有相关业务知识储备的专业人士,人工从文本中提炼相应的标签,但该方法效率较低,且可能由于人工失误造成提取标签不准确的问题。关键词提取主要依赖机器学习从文本中提取关键词作为标签,但所提取出的关键词通常都是单独的分词,使得标签无法准确表征文本的主题信息。
发明内容
本发明提供一种标签提取方法、装置、电子设备和存储介质,用以解决现有技术中标签提取准确率较低的缺陷。
本发明提供一种标签提取方法,包括:
基于样本文本之间的语义相似度,确定多个候选话题簇;
基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
根据本发明提供的一种标签提取方法,所述样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本;
所述基于样本文本之间的语义相似度,确定多个候选话题簇,包括:
基于所述第一样本文本携带的话题类别标签,确定多个初始话题簇,所述初始话题簇的数量基于所述话题类别标签的种类数量确定;
基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇。
根据本发明提供的一种标签提取方法,所述基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇,包括:
基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定所述第二样本文本与各初始话题簇之间的平均语义相似度;
在所述平均语义相似度大于阈值的情况下,将所述第二样本文本添加至对应的初始话题簇,以更新对应的初始话题簇;
在所述平均语义相似度小于等于所述阈值的情况,基于所述第二样本文本构建新增的初始话题簇;
将更新完成的初始话题簇确定为候选话题簇。
根据本发明提供的一种标签提取方法,所述基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇,包括:
基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;
基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。
根据本发明提供的一种标签提取方法,所述基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示,包括:
基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;
基于分词权重,对各候选话题簇的关键词语义特征向量进行加权求和,确定各候选话题簇的语义表示;所述分词权重基于各关键词的出现频次确定。
根据本发明提供的一种标签提取方法,所述对各话题簇中的样本文本进行标签提取,得到各话题簇的标签,包括:
对各话题簇中的样本文本进行语义理解,基于语义理解得到的语义信息生成文本片段,并以所述文本片段作为各话题簇的语义文本标签;
基于所述语义文本标签,或基于要素文本标签和所述语义文本标签,确定各话题簇的标签;所述要素文本标签是对各话题簇中的样本文本进行要素抽取后得到的关键词。
根据本发明提供的一种标签提取方法,所述得到各话题簇的标签,之后还包括:
基于所述标签与各话题簇中的样本文本之间的语义相似度,确定所述标签与各话题簇的相关度;
在所述相关度小于预设相关度的情况下,删除所述标签。
根据本发明提供的一种标签提取方法,所述得到各话题簇的标签,之后还包括:
基于新增文本与各话题簇中的样本文本之间的语义相似度,确定所述新增文本与各话题簇的话题相似度;
在所述话题相似度大于预设相似度的情况下,将对应话题簇的标签作为所述新增文本的标签;
在所述话题相似度小于等于所述预设相似度的情况下,基于所述新增文本构建新增的话题簇。
本发明还提供一种标签提取装置,包括:
确定单元,用于基于样本文本之间的语义相似度,确定多个候选话题簇;
聚类单元,用于基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
提取单元,用于对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述标签提取方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述标签提取方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述标签提取方法。
本发明提供的标签提取方法、装置、电子设备和存储介质,由于样本文本之间的语义相似度用于从语义层面表征样本文本之间的相似程度,即考虑了样本文本的上下文信息,从而能够从样本文本全局判断样本文本之间的相似程度,进而能够准确对样本文本进行聚类,得到对应的候选话题簇。此外,基于能够刻画各候选话题簇主题特征信息的关键词语义,对各候选话题簇进一步聚类,以使得话题类别相似的候选话题簇聚为一类,从而准确得到若干个话题簇,进而实现准确得到各话题簇的标签。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的标签提取方法的流程示意图;
图2是本发明提供的标签提取方法中步骤110的实施方式的流程示意图;
图3是本发明提供的标签提取方法中步骤120的实施方式的流程示意图;
图4是本发明提供的标签提取方法中步骤121的实施方式的流程示意图;
图5是本发明提供的标签提取方法中步骤130的实施方式的流程示意图;
图6是本发明提供的标签过滤方法的流程示意图;
图7是本发明提供的新增文本标签提取方法的流程示意图;
图8是本发明提供的又一标签提取方法的流程示意图;
图9是本发明提供的标签提取装置的结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,关于标签提取的技术主要包括人工整理提取和关键词提取。其中,人工整理提取主要依赖具有相关业务知识储备的专业人士,通过对业务的梳理和总结,人工从文本中提炼相应的标签,但该方法需要耗费大量人力物力,效率较低,且可能由于人工失误造成提取标签不准确的问题。
关键词提取主要依赖机器学习从文本中提取关键词作为标签,如采用TF-IDF(term frequency–inverse document frequency)、TextRank等算法对文本进行关键词提取,将提取到的关键词经过人工筛选,并将筛选后的关键词作为文本标签。然而,所提取出的关键词通常都是单独的分词,往往无法全面表达文本的主题信息,进而导致提取得到的标签准确度较低。
对此,本发明提供一种标签提取方法。图1是本发明提供的标签提取方法的流程示意图,如图1所示,该方法可以应用于办公平台文本的标签提取,也可以应用于其它场景文本的标签提取,如广告文本的标签提取、论文文本的标签提取等,为便于解释说明,以下实施例以应用于办公平台文本的标签提取为例进行说明,该方法包括如下步骤:
步骤110、基于样本文本之间的语义相似度,确定多个候选话题簇。
此处,样本文本可以理解为办公平台的办公文本,其可以是用户输入的,也可以是将采集所得的音频进行语音转写后得到的,还可以是通过扫描仪、手机、相机等图像采集设备采集得到的图像,并对图像进行文字识别得到的,本发明实施例对此不作具体限定。
不同样本文本可能对应不同的话题,例如对于样本文本“如何查询个人社会保险”,其对应的话题为“社会保险查询”;对于样本文本“如何注销个体工商户”,其对应的话题为“注销个体工商户”。
对于具有相同话题的样本文本,可以聚为一类,构成对应的候选话题簇,该候选话题簇的话题即为对应样本文本的话题。对于具有不同话题的样本文本,分别划分至不同的候选话题簇。由此可见,每个候选话题簇可能包含一个或多个样本文本,且属于同一候选话题簇的样本文本的话题相同。
可选地,基于样本文本的语义信息,可以确定样本文本之间的语义相似度,语义相似度越高,表明对应样本文本属于相同话题类别的概率越高,也即可以将对应样本文本划分至同一候选话题簇。语义相似度越低,表明对应样本文本属于相同话题类别的概率越低,也即可以将对应样本文本划分至不同候选话题簇。
需要说明的是,由于样本文本之间的语义相似度用于从语义层面表征样本文本之间的相似程度,相较于传统方法中的单个分词,语义相似度考虑了样本文本的上下文信息,从而能够从样本文本全局判断样本文本之间的相似程度,进而能够准确对样本文本进行聚类,得到对应的候选话题簇。
步骤120、基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇。
具体地,关键词语义用于表征各候选话题簇的主题特征信息,基于各候选话题簇的关键词语义,可以确定各候选话题簇的话题类别是否相同,进而将具有相同话题类别的候选话题簇聚为一类,得到对应的话题簇。
其中,若任意两个候选话题簇的关键词语义相似度越高,则表明对应两个候选话题簇的话题类别相同的概率越高,也就是可以将对应两个候选话题簇聚为一类。
可选地,各候选话题簇的关键词语义可以是各候选话题簇中的样本文本的关键词语义特征,也可以是对各候选话题簇中的样本文本进行关键词语义特征提取后,并对提取得到的各关键词语义特征进行权重相加得到的,本发明实施例对此不作具体限定。
需要说明的是,由于样本文本的语义表达方式、专业词汇等差异,步骤110中基于样本文本之间的语义相似度得到的各候选话题簇中可能存在两个或多个候选话题簇的话题类别相似。对此,步骤120基于能够刻画各候选话题簇主题特征信息的关键词语义,对各候选话题簇进一步聚类,以使得步骤110中得到的话题类别相似的候选话题簇聚为一类,最终准确得到若干个话题簇。
步骤130、对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
具体地,在得到各话题簇后,对各话题簇中的样本文本分别进行标签提取,以得到用于表征各话题簇主题信息的标签。各话题簇中的样本文本的话题类别相同,也就是各话题簇中的样本文本的主题特征信息相同,从而可以将各话题簇中所有样本文本的标签作为各话题簇的标签,也可以基于样本文本的标签与各样本文本之间的语义相似度对样本文本的标签进行筛选,并将筛选后的样本文本的标签作为各话题簇的标签,本发明实施例对此不作具体限定。
相较于传统方法中通过人工整理提取标签,本发明实施例不需要依赖具有相关业务知识储备的专业人士,不仅能够自动且快速实现标签提取,而且能够避免人工失误造成提取标签不准确的问题。相较于传统方法中依赖机器学习从文本中提取关键词作为标签,本发明实施例从语义层面对样本文本进行分类,得到多个候选话题簇,并基于各候选话题簇的关键词语义对各候选话题簇进行话题聚类,从而能够从各候选话题簇语义层面进行再聚类,将具有相同话题类别的候选话题簇聚为一类,进而准确得到各话题簇。
本发明实施例提供的标签提取方法,由于样本文本之间的语义相似度用于从语义层面表征样本文本之间的相似程度,即考虑了样本文本的上下文信息,从而能够从样本文本全局判断样本文本之间的相似程度,进而能够准确对样本文本进行聚类,得到对应的候选话题簇。此外,基于能够刻画各候选话题簇主题特征信息的关键词语义,对各候选话题簇进一步聚类,以使得话题类别相似的候选话题簇聚为一类,从而准确得到若干个话题簇,进而实现准确得到各话题簇的标签。
基于上述实施例,样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本。图2是本发明提供的标签提取方法中步骤110的实施方式的流程示意图,如图2所示,步骤110包括:
步骤111、基于第一样本文本携带的话题类别标签,确定多个初始话题簇,初始话题簇的数量基于话题类别标签的种类数量确定;
步骤112、基于第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新多个初始话题簇,得到多个候选话题簇。
具体地,第一样本文本指携带有话题类别标签的文本,即可以理解为话题类别已知的种子文本。第二样本文本指未携带话题类别标签的文本,即可以理解为话题类别未知的文本。
对于具有相同话题类别标签的第一样本文本,可以划分至同一初始话题簇,得到对应的初始话题簇。也就是说,各初始话题簇中的第一样本文本携带的话题类别标签相同。其中,初始话题簇的数量基于话题类别标签的种类数量确定,假设存在第一样本文本1,第一样本文本2和第一样本文本3,其分别对应的话题类别标签为标签1,标签2和标签1,即第一样本文本1和第一样本文本3对应的话题类别标签均为标签1,从而可以确定话题类别标签的种类数量为2,进而初始话题簇的数量也为2,也即第一样本文本1和第一样本文本3构成一个初始话题簇,第一样本文本2构成另一个初始话题簇。
在得到各初始话题簇后,基于第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新多个初始话题簇,从而以更新后的初始话题簇作为候选话题簇。第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度越高,表明第二样本文本与对应初始话题簇的话题类别相同的概率越高。例如,在语义相似度大于阈值或语义相似度的平均值大于阈值时,可以将第二样本文本添加对应的初始话题簇。
基于上述任一实施例,步骤112包括:
基于第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定第二样本文本与各初始话题簇之间的平均语义相似度;
在平均语义相似度大于阈值的情况下,将第二样本文本添加至对应的初始话题簇,以更新对应的初始话题簇;
在平均语义相似度小于等于阈值的情况,基于第二样本文本构建新增的初始话题簇;
将更新完成的初始话题簇确定为候选话题簇。
具体地,初始话题簇中可能存在有少量噪声第一样本文本,因此本发明实施例通过计算语义相似度的平均值减小噪声带来的误差,提高聚类准确率,以准确得到候选话题簇。
例如,任一初始话题簇中的第一样本文本表示为
Figure BDA0003655433420000101
Figure BDA0003655433420000102
表示初始话题簇中的n个第一样本文本的语义特征向量,第二样本文本的语义特征向量为
Figure BDA0003655433420000103
则第二样本文本与任一第一样本文本的语义相似度可以采用如下公式计算:
Figure BDA0003655433420000104
(
Figure BDA0003655433420000105
表示第j个第一样本文本的语义特征向量),然后对所有余弦相似度求均值得到平均语义相似度
Figure BDA0003655433420000106
Figure BDA0003655433420000107
其中,语义特征向量可以基于训练完成的语义相似度模型提取,该语义相似度模型可以是基于Bert的预训练模型为基础,在开源数据和政务相关数据上展开训练,通过对海量数据的学习,有效提取文本的语义特征信息。
其中,平均语义相似度用于表征第二样本文本与各初始话题簇之间的语义相似度,平均语义相似度越高,表明第二样本文本的话题类别与对应初始话题簇的话题类别之间的相似度越高,即第二样本文本聚类至对应初始话题簇的概率越高。
对此,本发明实施例设置一个阈值,在平均语义相似度大于阈值的情况下,表明第二样本文本的话题类别与对应初始话题簇的话题类别之间的相似度较高,从而将第二样本文本添加至对应的初始话题簇;在平均语义相似度小于等于阈值的情况下,表明第二样本文本的话题类别与各初始话题簇的话题类别相似度较低,此时基于第二样本文本构建新增的初始话题簇,最后将更新完成的初始话题簇作为候选话题簇。其中,阈值可以设置在0.6~0.9之间,还可以根据实际情况设置,本发明实施例对此不作具体限定。可以理解的是,阈值越大,对第二样本文本与各初始话题簇的相似度的要求越高,进而得到的候选话题簇的数量越多。
由此可见,本发明实施例基于第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度得到的平均语义相似度,对各初始话题簇进行聚类,得到候选话题簇,从而在初始话题簇中存在有少量噪声第一样本文本,可以通过计算语义相似度的平均值减小噪声带来的误差,提高聚类准确率,以准确得到候选话题簇。
基于上述任一实施例,图3是本发明提供的标签提取方法中步骤120的实施方式的流程示意图,如图3所示,步骤120包括:
步骤121、基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;
步骤122、基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。
具体地,关键词语义用于表征各候选话题簇的主题特征信息,各候选话题簇的关键词语义可以是基于各候选话题簇中样本文本的关键词语义确定的。可选地,各候选话题簇的关键词语义可以用特征向量表示,即表示为关键词语义特征向量,然后基于分词权重对各语义特征向量进行加权求和,得到各候选话题簇的语义表示。
各候选话题簇之间的语义相似度用于表征各候选话题簇之间话题类别的相似度,该语义相似度越高,表明对应候选话题簇的话题类别相同的概率越高,进而可以将对应候选话题簇聚为一类,得到对应的话题簇。
可选地,各候选话题簇之间的语义相似度可以采用各候选话题簇的语义表示之间的余弦相似度来表示,余弦相似度越高,对应的语义相似度越高。
由此可见,本发明实施例基于能够刻画各候选话题簇主题特征信息的关键词语义,对各候选话题簇进一步聚类,以使得话题类别相似的候选话题簇聚为一类,从而准确得到若干个话题簇,进而实现准确得到各话题簇的标签。
基于上述任一实施例,图4是本发明提供的标签提取方法中步骤121的实施方式的流程示意图,如图4所示,步骤121包括:
步骤1211、基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;
步骤1212、基于分词权重,对各候选话题簇的关键词语义特征向量进行加权求和,确定各候选话题簇的语义表示;分词权重基于各关键词的出现频次确定。
具体地,各分词的出现频次用于表征各分词在各候选话题簇中出现的频率,出现频次越高,表明对应分词能够表征候选话题簇主题特征信息的概率越大,因此将其作为对应候选话题簇的关键词。可选地,可以将出现频次大于预设频次的分词作为各候选话题簇的关键词,即关键词也可以理解为是高频分词。
分词权重基于各关键词的出现频次确定,出现频次越高,对应关键词所占的分词权重越大。在确定各关键词的分词权重后,对各关键词语义特征向量见加权求和,得到各候选话题簇的语义表示。其中,各关键词语义特征向量可以是基于上述训练完成的语义相似度模型对各候选话题簇中的样本文本进行特征向量提取得到。
由此可见,本发明实施例基于各候选话题簇中各分词的出现频次,能够得到刻画各候选话题簇主题特征信息的关键词语义,对各候选话题簇进一步聚类,以使得话题类别相似的候选话题簇聚为一类,从而准确得到若干个话题簇,进而实现准确得到各话题簇的标签。
基于上述任一实施例,图5是本发明提供的标签提取方法中步骤130的实施方式的流程示意图,如图5所示,步骤130包括:
步骤131、对各话题簇中的样本文本进行语义理解,基于语义理解得到的语义信息生成文本片段,并以文本片段作为各话题簇的语义文本标签;
步骤132、基于语义文本标签,或基于要素文本标签和语义文本标签,确定各话题簇的标签;要素文本标签是对各话题簇中的样本文本进行要素抽取后得到的关键词。
具体地,在对各话题簇中的样本文本进行语义理解时,可以基于样本文本的语义信息生成文本片段,并以文本片段作为各话题簇的语义文本标签。该文本片段可能是样本文本中的原文片段,也可能是根据语义信息生成的新的文本片段。由于语义信息是从全局整体层面表征样本文本的语义信息,从而得到的语义文本标签能够从全局整体层面表征各话题簇的主题特征信息。
要素文本标签是对各话题簇进行要素抽取后得到的关键词,该关键词为样本文本中的分词。由于分词是从局部细节层面表征样本文本的语义信息,从而得到的要素文本标签是从局部细节层面表征各话题簇的主题特征信息。
其中,语义文本标签可以基于生成式模型提取,即将样本文本输入至生成式模型,得到生成式模型输出的语义文本标签。要素文本标签可以基于要素抽取模型提取,即将样本文本输入至要素抽取模型,得到要素抽取模型输出的要素文本标签。生成式模型基于训练文本和第一训练文本标签训练得到,第一训练文本标签可以是训练文本中的原文片段,也可以是根据对训练文本进行语义理解后得到的文本片段。要素抽取模型基于训练文本和第二训练文本标签训练得到,第二训练文本标签为训练文本中的分词。
可选地,本发明实施例可以基于语义文本标签确定各话题簇的标签,如以语义文本标签作为各话题簇的标签,从而各话题簇的标签能够从全局整体层面表征各话题簇的主题特征信息。
可选地,本发明实施例可以基于语义文本标签和要素文本标签确定各话题簇的标签,如以语义文本标签和要素文本标签的总和作为各话题簇的标签,从而各话题簇的标签不仅能够从全局整体层面表征各话题簇的主题特征信息,也能够从局部细节层面表征各话题簇的主题特征信息。
由此可见,本发明实施例基于语义文本标签,或基于要素文本标签和语义文本标签,确定各话题簇的标签,能够避免传统方法中仅从分词局部层面进行分析导致无法准确得到标签的问题。
基于上述任一实施例,图6是本发明提供的标签过滤方法的流程示意图,如图6所示,该方法包括如下步骤:
步骤610、在得到各话题簇的标签之后,基于标签与各话题簇中的样本文本之间的语义相似度,确定标签与各话题簇的相关度;
步骤620、在相关度小于预设相关度的情况下,删除标签。
具体地,步骤130中得到的标签中可能存在与对应话题簇的话题类别相关度较低的标签,若存在相关度较低的标签,则无法准确表征对应话题簇的主题特征信息。其中,标签与各话题簇的相关度用于表征标签与各话题簇中样本文本的语义相似度,相关度越高,表明标签与各话题簇中样本文本的语义相似度越高,也即该标签为对应话题簇的标签的概率越大。
本发明实施例在得到各话题簇的标签之后,基于标签与各话题簇中的样本文本之间的语义相似度,确定标签与各话题簇的相关度。若相关度小于预设相关度,则表明标签与对应话题簇中样本文本的语义相似度较低,也即表明标签与对应话题簇的主题特征信息差异较大,从而可以删除该标签,以保证各话题簇标签的准确度。
可选地,本发明实施例可以采用如下公式计算标签与各话题簇的相关度:
Figure BDA0003655433420000151
Figure BDA0003655433420000152
其中,score表示标签与各话题簇的相关度,
Figure BDA0003655433420000153
表示标签的语义特征向量,
Figure BDA0003655433420000154
表示各话题簇中第j个样本文本的语义特征向量,N表示各话题簇中样本文本的数量,distj表示标签与第j个样本文本之间的语义相似度。
基于上述任一实施例,由于样本文本中可能存在口语化问题,导致用词不准确,输入错别字等情况,因此在得到各话题簇的标签后,可以对标签进行文本纠错和文本去重处理。
其中,在对标签进行文本纠错时,可以采用文本纠错模型进行纠错,如提取到的标签为“注消个体工商户”,其中“消”为错别字,应该更正为“销”,通过文本纠错模型将标签修改为“注销个体工商户”。在对标签进行文本去重时,可以采用文本去重模型进行去重,该模型用于判断同一话题类别的标签之间是否具有语义重复或语义包含的关系。语义重复指的是标签语义相同或者高度相似,如“生育补贴”和“生育补助”是一对意思很相近的标签,只需要保存一个即可;语义包含指的是其中一个标签的语义涵盖了另外一个标签的语义,如标签“养老保险”包含了“居民养老保险”,对此类蕴含标签进行再度优化,从而可以准确得到优化后的标签。
基于上述任一实施例,图7是本发明提供的新增文本标签提取方法的流程示意图,如图7所示,该方法包括如下步骤:
步骤710、在得到各话题簇的标签之后,基于新增文本与各话题簇中的样本文本之间的语义相似度,确定新增文本与各话题簇的话题相似度;
步骤720、在话题相似度大于预设相似度的情况下,将对应话题簇的标签作为新增文本的标签;
步骤730、在话题相似度小于等于预设相似度的情况下,基于新增文本构建新增的话题簇。
具体地,新增文本是指需要进行标签提取的新增文本,即该文本的标签未知。在得到新增文本之后,可以基于新增文本的语义特征向量与各话题簇中样本文本的语义特征向量,确定新增文本与各话题簇中的样本文本之间的语义相似度,并可以以新增文本与各话题簇中的样本文本之间的语义相似度的平均值作为新增文本与各话题簇的话题相似度。
话题相似度越高,表明新增文本与对应话题簇的话题类别相同的概率越高。对此,本发明实施例设置预设相似度,若话题相似度大于预设相似度,则表明新增文本与对应话题簇的话题类别相同,进而可以将对应话题簇的标签作为新增文本的标签。若话题相似度小于等于预设相似度,则表明新增文本与对应话题簇的话题类别不同,此时基于新增文本构建新增的话题簇,并可以采用如上任一实施例所述的标签提取方法对新增的话题簇进行标签提取。
基于上述任一实施例,图8是本发明提供的又一标签提取方法的流程示意图,如图8所示,该方法包括:
首先,基于第一样本文本携带的话题类别标签,确定多个初始话题簇。利用特征提取器分别对第二样本文本和各初始话题簇中的第一样本文本进行特征提取,得到第二样本文本的语义特征向量和各初始话题簇中的第一样本文本的语义特征向量。其中,特征提取器可以为语义相似度模型,语义相似度模型可以基于Bert的预训练模型为基础,在开源数据和政务相关数据上展开训练得到。
接着,基于第二样本文本的语义特征向量和第一样本文本的语义特征向量,确定第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,并以该语义相似度的平均值作为第二样本文本与各初始话题簇的平均语义相似度。在平均语义相似度大于阈值的情况下,将第二样本文本添加至对应的初始话题簇,得到候选话题簇。在平均语义相似度小于等于阈值的情况下,基于第二样本文本构建新增的候选话题簇。
然后,基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词以及分词权重,并基于分词权重,对各候选话题簇的关键词语义特征向量进行加权求和,得到各候选话题簇的语义表示。基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。
在得到各话题簇后,对各话题簇中的样本文本进行语义理解,基于语义理解得到的语义信息生成文本片段,并以文本片段作为各话题簇的语义文本标签,以及对各话题簇中的样本文本进行要素抽取,并以得到的关键词作为要素文本标签,最后以语义文本标签和要素文本标签作为各话题簇的标签。
在得到各话题簇的标签后,以标签与各话题簇中的样本文本之间的语义相似度的平均值,作为标签与各话题簇的相关度,并在相关度小于预设相关度的情况下,删除标签。在删除对应标签后,对未被删除的标签进行文本纠错和文本去重,以得到优化后的标签。
此外,若存在新增文本,则基于新增文本与各话题簇中的样本文本之间的语义相似度,确定新增文本与各话题簇的话题相似度。若话题相似度大于预设相似度,则将对应话题簇的标签作为所述新增文本的标签;若话题相似度小于等于预设相似度,则基于新增文本构建新增的话题簇。
下面对本发明提供的标签提取装置进行描述,下文描述的标签提取装置与上文描述的标签提取方法可相互对应参照。
基于上述任一实施例,图9是本发明提供的标签提取装置的结构示意图,如图9所示,该装置包括:
确定单元910,用于基于样本文本之间的语义相似度,确定多个候选话题簇;
聚类单元920,用于基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
提取单元930,用于对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
基于上述任一实施例,所述样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本;
所述确定单元910,包括:
初始话题簇确定单元,用于基于所述第一样本文本携带的话题类别标签,确定多个初始话题簇,所述初始话题簇的数量基于所述话题类别标签的种类数量确定;
候选话题簇确定单元,用于基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇。
基于上述任一实施例,所述候选话题簇确定单元,包括:
平均语义相似度确定单元,用于基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定所述第二样本文本与各初始话题簇之间的平均语义相似度;
更新单元,用于在所述平均语义相似度大于阈值的情况下,将所述第二样本文本添加至对应的初始话题簇,以更新对应的初始话题簇;
新增单元,用于在所述平均语义相似度小于等于所述阈值的情况,基于所述第二样本文本构建新增的初始话题簇;
候选话题簇确定子单元,用于将更新完成的初始话题簇确定为候选话题簇。
基于上述任一实施例,所述聚类单元920,包括:
语义表示单元,用于基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;
话题聚类单元,用于基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。
基于上述任一实施例,所述语义表示单元,包括:
关键词确定单元,用于基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;
加权求和单元,用于基于分词权重,对各候选话题簇的关键词语义特征向量进行加权求和,确定各候选话题簇的语义表示;所述分词权重基于各关键词的出现频次确定。
基于上述任一实施例,所述提取单元930,包括:
语义文本生成单元,用于对各话题簇中的样本文本进行语义理解,基于语义理解得到的语义信息生成文本片段,并以所述文本片段作为各话题簇的语义文本标签;
标签确定单元,用于基于所述语义文本标签,或基于要素文本标签和所述语义文本标签,确定各话题簇的标签;所述要素文本标签是对各话题簇中的样本文本进行要素抽取后得到的关键词。
基于上述任一实施例,所述装置还包括:
相关度确定单元,用于得到各话题簇的标签之后,基于所述标签与各话题簇中的样本文本之间的语义相似度,确定所述标签与各话题簇的相关度;
筛选单元,用于在所述相关度小于预设相关度的情况下,删除所述标签。
基于上述任一实施例,所述装置还包括:
话题相似度确定单元,用于得到各话题簇的标签之后,基于新增文本与各话题簇中的样本文本之间的语义相似度,确定所述新增文本与各话题簇的话题相似度;
新增文本标签确定单元,用于在所述话题相似度大于预设相似度的情况下,将对应话题簇的标签作为所述新增文本的标签;在所述话题相似度小于等于所述预设相似度的情况下,基于所述新增文本构建新增的话题簇。
图10是本发明提供的电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、存储器(memory)1020、通信接口(Communications Interface)1030和通信总线1040,其中,处理器1010,存储器1020,通信接口1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1020中的逻辑指令,以执行标签提取方法,该方法包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
此外,上述的存储器1020中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的标签提取方法,该方法包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的标签提取方法,该方法包括:基于样本文本之间的语义相似度,确定多个候选话题簇;基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种标签提取方法,其特征在于,包括:
基于样本文本之间的语义相似度,确定多个候选话题簇;
基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
2.根据权利要求1所述的标签提取方法,其特征在于,所述样本文本包括携带话题类别标签的第一样本文本和未携带话题类别标签的第二样本文本;
所述基于样本文本之间的语义相似度,确定多个候选话题簇,包括:
基于所述第一样本文本携带的话题类别标签,确定多个初始话题簇,所述初始话题簇的数量基于所述话题类别标签的种类数量确定;
基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇。
3.根据权利要求2所述的标签提取方法,其特征在于,所述基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,更新所述多个初始话题簇,得到所述多个候选话题簇,包括:
基于所述第二样本文本与各初始话题簇中的第一样本文本之间的语义相似度,确定所述第二样本文本与各初始话题簇之间的平均语义相似度;
在所述平均语义相似度大于阈值的情况下,将所述第二样本文本添加至对应的初始话题簇,以更新对应的初始话题簇;
在所述平均语义相似度小于等于所述阈值的情况,基于所述第二样本文本构建新增的初始话题簇;
将更新完成的初始话题簇确定为候选话题簇。
4.根据权利要求1所述的标签提取方法,其特征在于,所述基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇,包括:
基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示;
基于各候选话题簇的语义表示,确定各候选话题簇之间的语义相似度,并基于各候选话题簇之间的语义相似度对各候选话题簇进行话题聚类,得到各话题簇。
5.根据权利要求4所述的标签提取方法,其特征在于,所述基于各候选话题簇的关键词语义,确定各候选话题簇的语义表示,包括:
基于各候选话题簇中各分词的出现频次,确定各候选话题簇的关键词;
基于分词权重,对各候选话题簇的关键词语义特征向量进行加权求和,确定各候选话题簇的语义表示;所述分词权重基于各关键词的出现频次确定。
6.根据权利要求1至5任一项所述的标签提取方法,其特征在于,所述对各话题簇中的样本文本进行标签提取,得到各话题簇的标签,包括:
对各话题簇中的样本文本进行语义理解,基于语义理解得到的语义信息生成文本片段,并以所述文本片段作为各话题簇的语义文本标签;
基于所述语义文本标签,或基于要素文本标签和所述语义文本标签,确定各话题簇的标签;所述要素文本标签是对各话题簇中的样本文本进行要素抽取后得到的关键词。
7.根据权利要求1至5任一项所述的标签提取方法,其特征在于,所述得到各话题簇的标签,之后还包括:
基于所述标签与各话题簇中的样本文本之间的语义相似度,确定所述标签与各话题簇的相关度;
在所述相关度小于预设相关度的情况下,删除所述标签。
8.根据权利要求1至5任一项所述的标签提取方法,其特征在于,所述得到各话题簇的标签,之后还包括:
基于新增文本与各话题簇中的样本文本之间的语义相似度,确定所述新增文本与各话题簇的话题相似度;
在所述话题相似度大于预设相似度的情况下,将对应话题簇的标签作为所述新增文本的标签;
在所述话题相似度小于等于所述预设相似度的情况下,基于所述新增文本构建新增的话题簇。
9.一种标签提取装置,其特征在于,包括:
确定单元,用于基于样本文本之间的语义相似度,确定多个候选话题簇;
聚类单元,用于基于各候选话题簇的关键词语义,对各候选话题簇进行话题聚类,得到多个话题簇;
提取单元,用于对各话题簇中的样本文本分别进行标签提取,得到各话题簇的标签。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述标签提取方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述标签提取方法。
CN202210557334.3A 2022-05-20 2022-05-20 标签提取方法、装置、电子设备和存储介质 Pending CN115062621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210557334.3A CN115062621A (zh) 2022-05-20 2022-05-20 标签提取方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210557334.3A CN115062621A (zh) 2022-05-20 2022-05-20 标签提取方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115062621A true CN115062621A (zh) 2022-09-16

Family

ID=83199024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210557334.3A Pending CN115062621A (zh) 2022-05-20 2022-05-20 标签提取方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115062621A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795023A (zh) * 2022-11-22 2023-03-14 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质
CN116127079A (zh) * 2023-04-20 2023-05-16 中电科大数据研究院有限公司 一种文本分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795023A (zh) * 2022-11-22 2023-03-14 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质
CN115795023B (zh) * 2022-11-22 2024-01-05 百度时代网络技术(北京)有限公司 文档推荐方法、装置、设备以及存储介质
CN116127079A (zh) * 2023-04-20 2023-05-16 中电科大数据研究院有限公司 一种文本分类方法
CN116127079B (zh) * 2023-04-20 2023-06-20 中电科大数据研究院有限公司 一种文本分类方法

Similar Documents

Publication Publication Date Title
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US20150170051A1 (en) Applying a Genetic Algorithm to Compositional Semantics Sentiment Analysis to Improve Performance and Accelerate Domain Adaptation
WO2020134008A1 (zh) 一种将语义文本数据与标签匹配的方法、装置以及一种储存指令的计算机可读存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
US9348901B2 (en) System and method for rule based classification of a text fragment
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN110990532A (zh) 一种处理文本的方法和装置
CN111368130A (zh) 客服录音的质检方法、装置、设备及存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN111783424A (zh) 一种文本分句方法和装置
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN114661890A (zh) 一种知识推荐方法、装置、系统及存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN108733757B (zh) 文本搜索方法及系统
CN112562736A (zh) 一种语音数据集质量评估方法和装置
CN113761123A (zh) 关键词获取的方法、装置、计算设备和存储介质
CN110717029A (zh) 一种信息处理方法和系统
CN112308453B (zh) 风险识别模型训练方法、用户风险识别方法及相关装置
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination