CN110347835A - 文本聚类方法、电子装置及存储介质 - Google Patents
文本聚类方法、电子装置及存储介质 Download PDFInfo
- Publication number
- CN110347835A CN110347835A CN201910627405.0A CN201910627405A CN110347835A CN 110347835 A CN110347835 A CN 110347835A CN 201910627405 A CN201910627405 A CN 201910627405A CN 110347835 A CN110347835 A CN 110347835A
- Authority
- CN
- China
- Prior art keywords
- text
- clustered
- corpus
- sample
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭露了一种文本聚类方法,该方法包括:接收用户发出的文本聚类指令;利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。本发明还揭露了一种电子装置及计算机存储介质。利用本发明,可提高文本聚类的准确性及效率。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种文本聚类方法、电子装置及计算机可读存储介质。
背景技术
随着人工智能在生活应用中的普及,自然语言处理的发展也日趋重要,由于大多语料都没有标签以及标注的高成本,对文本进行无监督聚类就显得尤为重要。
然而,对于专业领域语料范畴内的文本,现有技术对这类文本的聚类效果并不好。以保险常见问题为例,用户咨询保险问题属于保险类专有领域语料范畴,存在数据规模小、表达方式多样性、专业难解释性、噪音数据多(例如,广告)等特性,对于该类文本,现有的聚类方案存在以下缺陷:
1)在目前主流的生成句向量的方法中,利用已有的词向量求和平均会忽略掉文本的上下文信息,而诸如sent2vec、doc2vec模型需要大规模、高质量的训练语料,用户保险咨询类语料并不满足条件;
2)对于聚类算法,由于保险问题的复杂性和多样性,难以定义其类别数量,无法准确选取参数;
鉴于以上缺陷,大幅度降低了文本聚类的效率及准确性。因此,如何快速、准确地对文本进行聚类成为一个亟待解决的技术问题。
发明内容
鉴于以上内容,本发明提供一种文本聚类方法、电子装置及计算机可读存储介质,其主要目的在于提高文本聚类的准确性及效率。
为实现上述目的,本发明提供一种文本聚类方法,该方法包括:
步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料;
步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;
步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及
步骤S4,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
此外,为实现上述目的,本发明还提供一种电子装置,该装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的文本聚类程序,所述文本聚类程序被所述处理器执行时可实现如上所述文本聚类方法中的任意步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括文本聚类程序,所述文本聚类程序被处理器执行时,可实现如上所述文本聚类方法中的任意步骤。
本发明提出的文本聚类方法、电子装置及计算机可读存储介质,1)利用待聚类语料对初始语言模型进行预训练后,可以使目标语言模型更好地捕捉到待聚类语料的特有信息,为准确提取特征打下基础;2)通过在模型预训练过程中,调整模型的参数,提高模型预训练过程的效率;3)在生成句向量的过程中,通过综合考虑文本的句子标签及每个子的向量表示,更准确地生成文本的句向量,并对生成的句向量进行降维,为后续实现快速、准确地聚类奠定基础;4)在聚类过程中,并非单一地选取一组参数得到聚类结果,而是通过逐步调参得到聚类结果,不断提纯,不断迭代,得到更好的聚类效果。综上,本发明能有效地提高文本聚类的准确率及效率。
附图说明
图1为本发明文本聚类方法较佳实施例的流程图;
图2为BERT模型中Next Sentence Prediction神经网络的示意图;
图3为本发明聚类步骤的示意图;
图4为本发明电子装置较佳实施例的示意图;
图5为图4中文本聚类程序较佳实施例的程序模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本聚类方法。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
参照图1所示,为本发明文本聚类方法较佳实施例的流程图。
在本发明文本聚类方法一实施例中,该方法仅包括:步骤S1-步骤S4。
步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料。
在以下描述中,以电子装置为主体,对本发明的各实施例进行说明。在本实施例中,电子装置接收到用户通过终端发出文本聚类指令,电子装置可根据文本聚类指令确定待聚类语料。上述待聚类语料可以举例为保险类问答语料。
步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型。
在本实施例中,上述初始语言模型为利用维基百科中文语料对BERT
(Bidirectional Encoder Representations from Transformers)模型进行训练得到的初始模型。
对初始语言模型进行预训练的目的在于使现有的语言模型更适合提取待聚类语料特征,例如,提取保险语料特征,以提高模型准确性。
然而,在使用保险问答语料对已有的初始语言模型进行预训练时,由于神经网络模型中参数庞大的特性,为了使模型充分地学习到待聚类语料中的语义信息并达到拟合,训练次数steps必须设置较大,这样会导致每次预训练的时间较长。例如,我们使用46万条问答对作为预训练语料,训练次数steps设置为100000次,使用的硬件是两个Tesla P40,模型预训练的时长大概16个小时。
考虑到每次有大量更新语料都要做一次预训练,为了减少预训练的时长,需对预训练的过程进行优化。
在本实施例中,利用待聚类语料对所述初始神经网络预训练语言模型进行预训练。如图2所示,所述BERT模型里的一个任务Next Sentence Prediction包括:1层嵌入层(embedding)、1层编码层(encoder层,包括12层transformer层)及1层池化层(pooler)。
可以理解的是,本实施例中使用的神经网络语言模型里,transformer层和pooler层每个字符的表示都是768维,最后在提取特征时,使用的是encoder层中的最后一层transformer层,而pooler层是为了接下来的二分类预测作变换,因此,对pooler层的维度进行修改并不影响初始语言模型。
在本实施例中,通过将pooler层的维度由768维改为256维,使得神经网络的参数减少,因而能加快模型预训练速度,达到减少模型预训练时长的目的。最终,将46万条问答的预训练时长由原来的16小时降低到12小时,实现了25%的训练时长提升。
步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合。
在本实施例中,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:
取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,计算平均值,将得到的定长向量作为该文本的句向量,计算公式为:
其中,Vsk表示待聚类语料中某文本k的句向量,Vck表示待聚类语料中某文本k对应的句子标签CLS的特征向量,Vwik表示待聚类语料中某文本k对应的第i个字的特征向量(字向量),m表示待聚类语料中某文本k的字的个数,m为正整数。
对于每一个文本,经过目标语言模型进行特征提取后,取最后一层transformer层的特征表示作为CLS和每个字的特征向量。
这样做是因为考虑到句子标签CLS的特征能在一定程度上代表整个句子的语义信息,因此对其做了保留,通过该步骤,能提高句向量的语义完整性,有助于提高后续聚类结果的准确性。
在其他实施例中,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:
取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,进行加权求和并计算平均值,将得到的定长向量作为该文本的句向量,计算公式为:
其中,Vsk表示待聚类语料中某文本k的句向量,Vck表示待聚类语料中某文本k对应的句子标签CLS的特征向量,α表示各文本的句子标签CLS的特征向量对应的权重,Vwik表示待聚类语料中某文本k对应的第i个字的特征向量(字向量),β表示各文本的每个字的特征向量(字向量)对应的权重,m表示待聚类语料中某文本k的字的个数,m为正整数,α、β大于0且小于1,其满足α+∑β=1。
进一步地,为了提高后续聚类的效率,在其他实施例中,所述步骤S3还包括:
降维步骤:利用预设降维方法对所述待聚类句向量集合中的每个句向量进行降维,将降维后的句向量作为所述待聚类语料中各文本对应的句向量。
上述预设降维方法包括但不仅限于:PCA(主成分分析)方法。
可以理解的是,利用目标语言模型生成的句向量是768维的,在利用高维的句向量进行聚类时,由于高维数据的稀疏性,簇类只存在部分属性构成的子空间中,这些数据集从全维空间来讲可能并不存在簇类,在高维空间中,已证明当维度趋于无穷时,数据集中任意两点的距离会趋向一致,因此根据欧式距离计算向量之间的相似度会失效,直接利用高维向量进行聚类难以得到良好的聚类效果,因此,我们考虑先对高维向量进行降维。
利用PCA进行降维时,想要保留的信息越多,维度降低的越少,同时需对句向量尽可能地降低维度,以利于后续的聚类,因此,降维后的维度n_components的确定就是一个关键的问题。考虑到保险语料具有较强的领域性,在对其聚类时更关注它的保险相关信息,因此为了尽可能地降低维度,将维度n_components最优设置为200,可保留70%的特征信息。
步骤S4,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
在本实施例中,上述预设聚类算法为DBSCAN聚类算法(Density-Based SpatialClustering of Applications with Noise,基于密度的聚类算法)。
基于密度的聚类算法,非常适合在有噪音的保险问答语料中发现各种表达和各种规模的话题簇。DBSCAN聚类算法是基于一组邻域参数组合来描述样本集的紧密程度的,参数用来描述邻域的样本分布紧密程度。其中,ε描述某一样本的邻域距离阈值,Min_sample描述某一样本的距离为ε的邻域中样本个数的阈值。也就是说,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个类别,或者说一个簇。
具体地,参照图3所示,所述步骤S4包括:
获取所述待聚类语料对应的待聚类句向量集合作为第一样本集、预设的第一邻域参数组合及样本距离度量方式,基于第一邻域参数组合得到第一聚类结果;
从所述第一样本集中筛除所述第一聚类结果中的所有样本,将余下的样本作为第二样本集(保留中心点),基于预设的调整规则对所述第一邻域参数组合进行调整,得到第二邻域参数组合,基于所述第二邻域参数组合对所述第二样本集中的样本进行聚类得到第二聚类结果;
从所述第二样本集中筛除所述第二聚类结果中的所有样本,将余下的样本作为第三样本集(保留中心点),基于预设的调整规则对所述第二邻域参数组合进行调整,得到第三邻域参数组合,基于所述第三邻域参数组合对所述第三样本集中的样本进行聚类得到第三聚类结果,以此类推,得到目标聚类结果。
在本实施例中,所述预设的调整规则包括:
获取第一邻域参数组合(ε,Min_sample),在所述第一邻域参数组合中的ε上增加第一预设增量,直到调整后的ε大于第一预设阈值,停止调参,在所述第一邻域参数组合中的Min_sample上减少第二预设增量,直到调整后的Min_sample小于2。
例如,上述第一预设增量为0.5,上述第二预设增量为2。
可以理解的是,为了减少最终的类别,ε小于或等于第一预设阈值,且Min_sample大于或等于2。其中,第一预设阈值可根据实际情况进行调整。
在对DBScan聚类的参数组合(ε,Min_sample)的选择上,大致遵循一这样的规律:首先确定一组(ε,Min_sample)使得模型可以聚出密度较大的类,剥离出这些类别后逐步调大ε,调小Min_sample,聚出密度较小的类,以此类推。例如,在一次聚类过程中,第一次聚类,第一邻域参数组合(ε,Min_sample)为:(5,5),聚出了6个类;第二次聚类,第二邻域参数组合(ε,Min_sample)为:(5.5,3),聚出了9个类;…;最后总共调参15次,聚出了106个类。
本方案中通过调参聚出密度较大的类,这些类别语义非常接近,类别区分明显,将这些类剥离出来,保留其中心点,对剩余样本接着进行聚类,密度较小,更加稀疏,从语义上看每个类的相似性更弱。
在其他实施例中,上述预设聚类算法还可以包括但不仅限于以下几种:K-MEANS(k-means clustering algorithm,k均值聚类算法)、BRICH(Balanced IterativeReducing and Clustering using Hierarchies,层次聚类算法)等。
进一步地,为了进一步提高聚类效率,在其他实施例中,所述步骤S4还包括:
每完成一次聚类,基于所述样本距离度量方式计算剩余样本之间的余弦相似度,当所有剩余的样本之间的余弦相似度都小于第二预设阈值时,停止聚类,并将上一次聚类的结果作为最终聚类结果。
例如,第二预设阈值为0.1。当剩余的样本之间余弦相似度均小于0.1时,即使后续多次调参,也难以对这类样本进行聚类。一般,这类样本为广告、垃圾信息等噪音,因此,停止聚类后,将剩余的样本作为噪音样本从待聚类语料中剔除掉,把其他的样本数据保留下来,得到此次聚类的最终聚类结果。
上述实施例提出的文本聚类方法,1)利用待聚类语料对初始语言模型进行预训练后,可以使目标语言模型更好地捕捉到待聚类语料的特有信息,为准确提取特征打下基础;2)通过在模型预训练过程中,调整模型的参数,提高模型预训练过程的效率;3)在生成句向量的过程中,通过综合考虑文本的句子标签及每个子的向量表示,更准确地生成文本的句向量,并对生成的句向量进行降维,为后续实现快速、准确地聚类奠定基础;4)在聚类过程中,并非单一地选取一组参数得到聚类结果,而是通过逐步调参得到聚类结果,不断提纯,不断迭代,得到更好的聚类效果。综上,本发明能有效地提高文本聚类的准确率及效率。
在其他实施例中,该方法还包括:
根据所述聚类结果对所述待聚类句向量集合中各句向量标注标签,生成用于训练分类模型的样本数据;
利用所述样本数据对所述目标语言模型进行微调(fine-tuning),在所述目标语言模型的神经网络后增加一层全连接层(softmax层)进行训练,得到文本分类模型;
获取新的待分类文本,将所述待分类文本输入所述文本分类模型中,根据模型输出结果确定所述待分类文本对应的类别。
上述语料的标签用于表征文本对应的类别,将有标签的句向量集合作为样本数据(X,Y),其中,X为文本样本对应的句向量,Y为该文本样本对应的句向量的类别标签。
将上述样本数据按照预设比例划分为训练集及验证集,利用训练集对增加了softmax层的目标语言模型进行训练,利用验证集对增加了softmax层的目标语言模型的分类能力进行验证,直至模型分类的准确率超过第三预设阈值(例如,90%)为止。
需要说明的是,该文本分类模型是基于已有分类的语料训练得到的,当出现新的类别的待分类文本时,分类模型可能无法对这类待分类文本进行分类,此时,发出预警信息,提示无法对当前待分类文本进行分类,需及时对分类模型进行更新。
本发明还提出一种电子装置。参照图4所示,为本发明电子装置较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。
该电子装置1包括存储器11、处理器12及网络接口13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。
存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如,文本聚类程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如,文本聚类程序10等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接,例如,会议记录管理者及会议记录查询者使用的终端。电子装置1的组件11-13通过通信总线相互通信。
图4仅示出了具有组件11-13的电子装置1,本领域技术人员可以理解的是,图4示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在图4所示的电子装置1实施例中,作为一种计算机存储介质的存储器11中存储文本聚类程序10的程序代码,处理器12执行文本聚类程序10的程序代码时,实现如下步骤:
接收步骤:接收用户发出的文本聚类指令,所述指令中包括待聚类语料。
在以下描述中,以电子装置为主体,对本发明的各实施例进行说明。在本实施例中,电子装置接收到用户通过终端发出文本聚类指令,电子装置可根据文本聚类指令确定待聚类语料。上述待聚类语料可以举例为保险类问答语料。
模型预训练步骤:利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型。
在本实施例中,上述初始语言模型为利用维基百科中文语料对BERT
(Bidirectional Encoder Representations from Transformers)模型进行训练得到的初始模型。
对初始语言模型进行预训练的目的在于使现有的语言模型更适合提取待聚类语料特征,例如,提取保险语料特征,以提高模型准确性。
然而,在使用保险问答语料对已有的初始语言模型进行预训练时,由于神经网络模型中参数庞大的特性,为了使模型充分地学习到待聚类语料中的语义信息并达到拟合,训练次数steps必须设置较大,这样会导致每次预训练的时间较长。例如,我们使用46万条问答对作为预训练语料,训练次数steps设置为100000次,使用的硬件是两个Tesla P40,模型预训练的时长大概16个小时。
考虑到每次有大量更新语料都要做一次预训练,为了减少预训练的时长,需对预训练的过程进行优化。
在本实施例中,利用待聚类语料对所述初始神经网络预训练语言模型进行预训练。如图2所示,所述BERT模型里的一个任务Next Sentence Prediction包括:1层嵌入层(embedding)、1层编码层(encoder层,包括12层transformer层)及1层池化层(pooler)。
可以理解的是,本实施例中使用的神经网络语言模型里,transformer层和pooler层每个字符的表示都是768维,最后在提取特征时,使用的是encoder层中的最后一层transformer层,而pooler层是为了接下来的二分类预测作变换,因此,对pooler层的维度进行修改并不影响初始语言模型。
在本实施例中,通过将pooler层的维度由768维改为256维,使得神经网络的参数减少,因而能加快模型预训练速度,达到减少模型预训练时长的目的。最终,将46万条问答的预训练时长由原来的16小时降低到12小时,实现了25%的训练时长提升。
向量提取步骤:将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合。
在本实施例中,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:
取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,计算平均值,将得到的定长向量作为该文本的句向量,计算公式为:
其中,Vsk表示待聚类语料中某文本k的句向量,Vck表示待聚类语料中某文本k对应的句子标签CLS的特征向量,Vwik表示待聚类语料中某文本k对应的第i个字的特征向量(字向量),m表示待聚类语料中某文本k的字的个数,m为正整数。
对于每一个文本,经过目标语言模型进行特征提取后,取最后一层transformer层的特征表示作为CLS和每个字的特征向量。
这样做是因为考虑到句子标签CLS的特征能在一定程度上代表整个句子的语义信息,因此对其做了保留,通过该步骤,能提高句向量的语义完整性,有助于提高后续聚类结果的准确性。
在其他实施例中,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:
取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,进行加权求和并计算平均值,将得到的定长向量作为该文本的句向量,计算公式为:
其中,Vsk表示待聚类语料中某文本k的句向量,Vck表示待聚类语料中某文本k对应的句子标签CLS的特征向量,α表示各文本的句子标签CLS的特征向量对应的权重,Vwik表示待聚类语料中某文本k对应的第i个字的特征向量(字向量),β表示各文本的每个字的特征向量(字向量)对应的权重,m表示待聚类语料中某文本k的字的个数,m为正整数,α、β大于0且小于1,其满足α+∑β=1。
进一步地,为了提高后续聚类的效率,在其他实施例中,所述向量提取步骤还包括:
降维步骤:利用预设降维方法对所述待聚类句向量集合中的每个句向量进行降维,将降维后的句向量作为所述待聚类语料中各文本对应的句向量。
上述预设降维方法包括但不仅限于:PCA(主成分分析)方法。
可以理解的是,利用目标语言模型生成的句向量是768维的,在利用高维的句向量进行聚类时,由于高维数据的稀疏性,簇类只存在部分属性构成的子空间中,这些数据集从全维空间来讲可能并不存在簇类,在高维空间中,已证明当维度趋于无穷时,数据集中任意两点的距离会趋向一致,因此根据欧式距离计算向量之间的相似度会失效,直接利用高维向量进行聚类难以得到良好的聚类效果,因此,我们考虑先对高维向量进行降维。
利用PCA进行降维时,想要保留的信息越多,维度降低的越少,同时需对句向量尽可能地降低维度,以利于后续的聚类,因此,降维后的维度n_components的确定就是一个关键的问题。考虑到保险语料具有较强的领域性,在对其聚类时更关注它的保险相关信息,因此为了尽可能地降低维度,将维度n_components最优设置为200,可保留70%的特征信息。
聚类步骤:利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
在本实施例中,上述预设聚类算法为DBSCAN聚类算法(Density-Based SpatialClustering of Applications with Noise,基于密度的聚类算法)。
基于密度的聚类算法,非常适合在有噪音的保险问答语料中发现各种表达和各种规模的话题簇。DBSCAN聚类算法是基于一组邻域参数组合来描述样本集的紧密程度的,参数用来描述邻域的样本分布紧密程度。其中,ε描述某一样本的邻域距离阈值,Min_sample描述某一样本的距离为ε的邻域中样本个数的阈值。也就是说,由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个类别,或者说一个簇。
具体地,参照图3所示,所述聚类步骤包括:
获取所述待聚类语料对应的待聚类句向量集合作为第一样本集、预设的第一邻域参数组合及样本距离度量方式,基于第一邻域参数组合得到第一聚类结果;
从所述第一样本集中筛除所述第一聚类结果中的所有样本,将余下的样本作为第二样本集(保留中心点),基于预设的调整规则对所述第一邻域参数组合进行调整,得到第二邻域参数组合,基于所述第二邻域参数组合对所述第二样本集中的样本进行聚类得到第二聚类结果;
从所述第二样本集中筛除所述第二聚类结果中的所有样本,将余下的样本作为第三样本集(保留中心点),基于预设的调整规则对所述第二邻域参数组合进行调整,得到第三邻域参数组合,基于所述第三邻域参数组合对所述第三样本集中的样本进行聚类得到第三聚类结果,以此类推,得到目标聚类结果。
在本实施例中,所述预设的调整规则包括:
获取第一邻域参数组合(ε,Min_sample),在所述第一邻域参数组合中的ε上增加第一预设增量,直到调整后的ε大于第一预设阈值,停止调参,在所述第一邻域参数组合中的Min_sample上减少第二预设增量,直到调整后的Min_sample小于2。
例如,上述第一预设增量为0.5,上述第二预设增量为2。
可以理解的是,为了减少最终的类别,ε小于或等于第一预设阈值,且Min_sample大于或等于2。其中,第一预设阈值可根据实际情况进行调整。
在对DBScan聚类的参数组合(ε,Min_sample)的选择上,大致遵循一这样的规律:首先确定一组(ε,Min_sample)使得模型可以聚出密度较大的类,剥离出这些类别后逐步调大ε,调小Min_sample,聚出密度较小的类,以此类推。例如,在一次聚类过程中,第一次聚类,第一邻域参数组合(ε,Min_sample)为:(5,5),聚出了6个类;第二次聚类,第二邻域参数组合(ε,Min_sample)为:(5.5,3),聚出了9个类;…;最后总共调参15次,聚出了106个类。
本方案中通过调参聚出密度较大的类,这些类别语义非常接近,类别区分明显,将这些类剥离出来,保留其中心点,对剩余样本接着进行聚类,密度较小,更加稀疏,从语义上看每个类的相似性更弱。
在其他实施例中,上述预设聚类算法还可以包括但不仅限于以下几种:K-MEANS(k-means clustering algorithm,k均值聚类算法)、BRICH(Balanced IterativeReducing and Clustering using Hierarchies,层次聚类算法)等。
进一步地,为了进一步提高聚类效率,在其他实施例中,所述聚类步骤还包括:
每完成一次聚类,基于所述样本距离度量方式计算剩余样本之间的余弦相似度,当所有剩余的样本之间的余弦相似度都小于第二预设阈值时,停止聚类,并将上一次聚类的结果作为最终聚类结果。
例如,第二预设阈值为0.1。当剩余的样本之间余弦相似度均小于0.1时,即使后续多次调参,也难以对这类样本进行聚类。一般,这类样本为广告、垃圾信息等噪音,因此,停止聚类后,将剩余的样本作为噪音样本从待聚类语料中剔除掉,把其他的样本数据保留下来,得到此次聚类的最终聚类结果。
上述实施例提出的电子装置1,1)利用待聚类语料对初始语言模型进行预训练后,可以使目标语言模型更好地捕捉到待聚类语料的特有信息,为准确提取特征打下基础;2)通过在模型预训练过程中,调整模型的参数,提高模型预训练过程的效率;3)在生成句向量的过程中,通过综合考虑文本的句子标签及每个子的向量表示,更准确地生成文本的句向量,并对生成的句向量进行降维,为后续实现快速、准确地聚类奠定基础;4)在聚类过程中,并非单一地选取一组参数得到聚类结果,而是通过逐步调参得到聚类结果,不断提纯,不断迭代,得到更好的聚类效果。综上,本发明能有效地提高文本聚类的准确率及效率。
在其他实施例中,所述文本聚类程序10被所述处理器12执行时,还实现以下步骤:
根据所述聚类结果对所述待聚类句向量集合中各句向量标注标签,生成用于训练分类模型的样本数据;
利用所述样本数据对所述目标语言模型进行微调(fine-tuning),在所述目标语言模型的神经网络后增加一层全连接层(softmax层)进行训练,得到文本分类模型;
获取新的待分类文本,将所述待分类文本输入所述文本分类模型中,根据模型输出结果确定所述待分类文本对应的类别。
上述语料的标签用于表征文本对应的类别,将有标签的句向量集合作为样本数据(X,Y),其中,X为文本样本对应的句向量,Y为该文本样本对应的句向量的类别标签。
将上述样本数据按照预设比例划分为训练集及验证集,利用训练集对增加了softmax层的目标语言模型进行训练,利用验证集对增加了softmax层的目标语言模型的分类能力进行验证,直至模型分类的准确率超过第三预设阈值(例如,90%)为止。
需要说明的是,该文本分类模型是基于已有分类的语料训练得到的,当出现新的类别的待分类文本时,分类模型可能无法对这类待分类文本进行分类,此时,发出预警信息,提示无法对当前待分类文本进行分类,需及时对分类模型进行更新。
可选地,在其他的实施例中,文本聚类程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器12所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
例如,参照图5所示,为图4中文本聚类程序10的程序模块示意图。
在所述文本聚类程序10一实施例中,文本聚类程序10包括:模块110-140,其中:
接收模块110,用于接收用户发出的文本聚类指令,所述指令中包括待聚类语料;
模型预训练模块120,用于利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;
向量提取模块130,用于将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及
聚类模块140,用于利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
所述模块110-140所实现的功能或操作步骤均与上文类似,此处不再详述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括文本聚类程序10,所述文本聚类程序10被处理器执行时实现如下操作:
接收步骤:接收用户发出的文本聚类指令,所述指令中包括待聚类语料;
模型预训练步骤:利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;
向量提取步骤:将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及
聚类步骤:利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
本发明之计算机可读存储介质的具体实施方式与上述文本聚类方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本聚类方法,应用于电子装置,其特征在于,该方法包括:
步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料;
步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;
步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及
步骤S4,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
2.根据权利要求1所述的文本聚类方法,其特征在于,所述预先确定的初始语言模型为BERT(Bidirectional Encoder Representations from Transformers)模型,所述BERT模型中的Next Sentence Prediction神经网络中池化层的维度为256。
3.根据权利要求1所述的文本聚类方法,其特征在于,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:
取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,计算平均值,将得到的定长向量作为该文本的句向量;或者
取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,进行加权求和并计算平均值,将得到的定长向量作为该文本的句向量。
4.根据权利要求3所述的文本聚类方法,其特征在于,所述步骤S3还包括:
降维步骤:利用预设降维方法对所述待聚类句向量集合中的每个句向量进行降维,将降维后的句向量作为所述待聚类语料中各文本对应的句向量。
5.根据权利要求1至4中任意一项所述的文本聚类方法,其特征在于,所述聚类算法包括:基于密度的聚类算法,所述步骤S4包括:
获取所述待聚类语料对应的待聚类句向量集合作为第一样本集、预设的第一邻域参数组合及样本距离度量方式,基于第一邻域参数组合得到第一聚类结果;
从所述第一样本集中筛除所述第一聚类结果中的所有样本,将余下的样本作为第二样本集,基于预设的调整规则对所述第一邻域参数组合进行调整,得到第二邻域参数组合,基于所述第二邻域参数组合对所述第二样本集中的样本进行聚类得到第二聚类结果;
从所述第二样本集中筛除所述第二聚类结果中的所有样本,将余下的样本作为第三样本集,基于预设的调整规则对所述第二邻域参数组合进行调整,得到第三邻域参数组合,基于所述第三邻域参数组合对所述第三样本集中的样本进行聚类得到第三聚类结果,以此类推,得到目标聚类结果。
6.根据权利要求5所述的文本聚类方法,其特征在于,所述预设的调整规则包括:
获取第一邻域参数组合(ε,Min_sample),在所述第一邻域参数组合中的ε上增加第一预设增量,直到调整后的ε大于第一预设阈值,停止调参,在所述第一邻域参数组合中的Min_sample上减少第二预设增量,直到调整后的Min_sample小于2。
7.根据权利要求5所述的文本聚类方法,其特征在于,所述步骤S4还包括:
每完成一次聚类,基于所述样本距离度量方式计算剩余样本之间的余弦相似度,当所有剩余的样本之间的余弦相似度都小于第二预设阈值时,停止聚类,并将上一次聚类的结果作为最终聚类结果。
8.根据权利要求1所述的文本聚类方法,其特征在于,该方法还包括:
根据所述聚类结果对所述待聚类句向量集合中各句向量标注标签,生成用于训练分类模型的样本数据;
利用所述样本数据对所述目标语言模型进行微调,在所述目标语言模型的神经网络后增加一层全连接层进行训练,得到文本分类模型;
获取新的待分类文本,将所述待分类文本输入所述文本分类模型中,根据模型输出结果确定所述待分类文本对应的类别。
9.一种电子装置,其特征在于,该装置包括存储器及处理器,所述存储器中存储有可在所述处理器上运行的文本聚类程序,所述文本聚类程序被所述处理器执行时可实现如下步骤:
接收步骤:接收用户发出的文本聚类指令,所述指令中包括待聚类语料;
模型预训练步骤:利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;
向量提取步骤:将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及
聚类步骤:利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括文本聚类程序,所述文本聚类程序被处理器执行时,可实现如权利要求1至8中任意一项所述的文本聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627405.0A CN110347835B (zh) | 2019-07-11 | 2019-07-11 | 文本聚类方法、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627405.0A CN110347835B (zh) | 2019-07-11 | 2019-07-11 | 文本聚类方法、电子装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347835A true CN110347835A (zh) | 2019-10-18 |
CN110347835B CN110347835B (zh) | 2021-08-24 |
Family
ID=68175906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910627405.0A Active CN110347835B (zh) | 2019-07-11 | 2019-07-11 | 文本聚类方法、电子装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347835B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853649A (zh) * | 2019-11-05 | 2020-02-28 | 集奥聚合(北京)人工智能科技有限公司 | 基于智能语音技术的标签提取方法、系统、设备及介质 |
CN110990568A (zh) * | 2019-11-26 | 2020-04-10 | 北京中科汇联科技股份有限公司 | 一种短文本聚类方法、装置、电子设备及存储介质 |
CN111178415A (zh) * | 2019-12-21 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种基于bert的意图数据层次聚类方法及系统 |
CN111368081A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种精选文本内容确定方法和系统 |
CN111611457A (zh) * | 2020-05-20 | 2020-09-01 | 北京金山云网络技术有限公司 | 一种页面分类方法、装置、设备及存储介质 |
CN111783088A (zh) * | 2020-06-03 | 2020-10-16 | 杭州迪普科技股份有限公司 | 一种恶意代码家族聚类方法、装置和计算机设备 |
CN111813905A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN111859932A (zh) * | 2020-07-29 | 2020-10-30 | 上海风秩科技有限公司 | 一种文本摘要的生成方法、装置、电子设备及存储介质 |
CN112016330A (zh) * | 2020-08-28 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 语义解析方法、装置及存储介质 |
CN112052333A (zh) * | 2020-08-20 | 2020-12-08 | 深圳市欢太科技有限公司 | 文本分类方法及装置、存储介质和电子设备 |
CN112101423A (zh) * | 2020-08-22 | 2020-12-18 | 上海昌投网络科技有限公司 | 一种多模型融合的faq匹配的方法及装置 |
CN112182215A (zh) * | 2020-09-27 | 2021-01-05 | 中润普达(十堰)大数据中心有限公司 | 一种基于涕液特征信息语义认知系统及其使用方法 |
CN112541360A (zh) * | 2020-12-07 | 2021-03-23 | 国泰君安证券股份有限公司 | 利用超参自适用dbscan聚类的跨平台异常识别转译方法、装置、处理器及存储介质 |
CN112581185A (zh) * | 2020-12-28 | 2021-03-30 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN112672202A (zh) * | 2020-12-28 | 2021-04-16 | 广州博冠信息科技有限公司 | 弹幕处理方法、设备和存储介质 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN113159196A (zh) * | 2021-04-26 | 2021-07-23 | 云南大学 | 一种基于正则变分嵌入式的软件需求聚类方法及系统 |
CN113220889A (zh) * | 2021-06-01 | 2021-08-06 | 北京读我科技有限公司 | 语义分类方法及装置、存储介质及电子设备 |
CN113724055A (zh) * | 2021-09-14 | 2021-11-30 | 京东科技信息技术有限公司 | 一种商品属性挖掘方法及装置 |
CN113806524A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 一种文本内容的层级类目构建和层级结构调整方法及装置 |
CN114266255A (zh) * | 2022-03-01 | 2022-04-01 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
CN114386391A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114510923A (zh) * | 2022-01-12 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
CN115169321A (zh) * | 2022-09-06 | 2022-10-11 | 北京国电通网络技术有限公司 | 物流内容文本核对方法、装置、电子设备和计算机介质 |
CN115344678A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于多种算法融合的聚类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100191734A1 (en) * | 2009-01-23 | 2010-07-29 | Rajaram Shyam Sundar | System and method for classifying documents |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106547734A (zh) * | 2016-10-21 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 一种问句信息处理方法及装置 |
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
-
2019
- 2019-07-11 CN CN201910627405.0A patent/CN110347835B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100191734A1 (en) * | 2009-01-23 | 2010-07-29 | Rajaram Shyam Sundar | System and method for classifying documents |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106547734A (zh) * | 2016-10-21 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 一种问句信息处理方法及装置 |
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853649A (zh) * | 2019-11-05 | 2020-02-28 | 集奥聚合(北京)人工智能科技有限公司 | 基于智能语音技术的标签提取方法、系统、设备及介质 |
CN110990568A (zh) * | 2019-11-26 | 2020-04-10 | 北京中科汇联科技股份有限公司 | 一种短文本聚类方法、装置、电子设备及存储介质 |
CN111178415A (zh) * | 2019-12-21 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种基于bert的意图数据层次聚类方法及系统 |
CN111368081A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种精选文本内容确定方法和系统 |
CN111611457A (zh) * | 2020-05-20 | 2020-09-01 | 北京金山云网络技术有限公司 | 一种页面分类方法、装置、设备及存储介质 |
CN111611457B (zh) * | 2020-05-20 | 2024-01-02 | 北京金山云网络技术有限公司 | 一种页面分类方法、装置、设备及存储介质 |
CN111783088A (zh) * | 2020-06-03 | 2020-10-16 | 杭州迪普科技股份有限公司 | 一种恶意代码家族聚类方法、装置和计算机设备 |
CN111783088B (zh) * | 2020-06-03 | 2023-04-28 | 杭州迪普科技股份有限公司 | 一种恶意代码家族聚类方法、装置和计算机设备 |
CN113806524B (zh) * | 2020-06-16 | 2024-05-24 | 阿里巴巴集团控股有限公司 | 一种文本内容的层级类目构建和层级结构调整方法及装置 |
CN113806524A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 一种文本内容的层级类目构建和层级结构调整方法及装置 |
CN111813905A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN111813905B (zh) * | 2020-06-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN111859932A (zh) * | 2020-07-29 | 2020-10-30 | 上海风秩科技有限公司 | 一种文本摘要的生成方法、装置、电子设备及存储介质 |
CN111859932B (zh) * | 2020-07-29 | 2023-03-31 | 上海风秩科技有限公司 | 一种文本摘要的生成方法、装置、电子设备及存储介质 |
CN112052333B (zh) * | 2020-08-20 | 2024-04-30 | 深圳市欢太科技有限公司 | 文本分类方法及装置、存储介质和电子设备 |
CN112052333A (zh) * | 2020-08-20 | 2020-12-08 | 深圳市欢太科技有限公司 | 文本分类方法及装置、存储介质和电子设备 |
CN112101423A (zh) * | 2020-08-22 | 2020-12-18 | 上海昌投网络科技有限公司 | 一种多模型融合的faq匹配的方法及装置 |
CN112016330A (zh) * | 2020-08-28 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 语义解析方法、装置及存储介质 |
CN112182215A (zh) * | 2020-09-27 | 2021-01-05 | 中润普达(十堰)大数据中心有限公司 | 一种基于涕液特征信息语义认知系统及其使用方法 |
CN112541360A (zh) * | 2020-12-07 | 2021-03-23 | 国泰君安证券股份有限公司 | 利用超参自适用dbscan聚类的跨平台异常识别转译方法、装置、处理器及存储介质 |
CN112581185B (zh) * | 2020-12-28 | 2024-05-31 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN112672202A (zh) * | 2020-12-28 | 2021-04-16 | 广州博冠信息科技有限公司 | 弹幕处理方法、设备和存储介质 |
CN112581185A (zh) * | 2020-12-28 | 2021-03-30 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN112989040B (zh) * | 2021-03-10 | 2024-02-27 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN113159196A (zh) * | 2021-04-26 | 2021-07-23 | 云南大学 | 一种基于正则变分嵌入式的软件需求聚类方法及系统 |
CN113220889A (zh) * | 2021-06-01 | 2021-08-06 | 北京读我科技有限公司 | 语义分类方法及装置、存储介质及电子设备 |
CN113724055A (zh) * | 2021-09-14 | 2021-11-30 | 京东科技信息技术有限公司 | 一种商品属性挖掘方法及装置 |
CN113724055B (zh) * | 2021-09-14 | 2024-04-09 | 京东科技信息技术有限公司 | 一种商品属性挖掘方法及装置 |
CN114386391B (zh) * | 2022-01-11 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114386391A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114510923B (zh) * | 2022-01-12 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
CN114510923A (zh) * | 2022-01-12 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于人工智能的文本主题生成方法、装置、设备及介质 |
CN114266255A (zh) * | 2022-03-01 | 2022-04-01 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
CN115344678A (zh) * | 2022-07-11 | 2022-11-15 | 北京容联易通信息技术有限公司 | 一种基于多种算法融合的聚类方法 |
CN115169321A (zh) * | 2022-09-06 | 2022-10-11 | 北京国电通网络技术有限公司 | 物流内容文本核对方法、装置、电子设备和计算机介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110347835B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835A (zh) | 文本聚类方法、电子装置及存储介质 | |
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
US9715902B2 (en) | Audio-based annotation of video | |
CN110162593A (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN110163476A (zh) | 项目智能推荐方法、电子装置及存储介质 | |
CN107679144A (zh) | 基于语义相似度的新闻语句聚类方法、装置及存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
WO2008137368A1 (en) | Web page analysis using multiple graphs | |
CN102591854A (zh) | 针对文本特征的广告过滤系统及其过滤方法 | |
CN102591983A (zh) | 一种广告过滤系统及其过滤方法 | |
CN106874292A (zh) | 话题处理方法及装置 | |
CN112650923A (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
US20220180572A1 (en) | Color representations for textual phrases | |
CN110096591A (zh) | 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质 | |
CN108733676A (zh) | 视频缩略图的提取方法及装置 | |
CN109684476A (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
CN113010705B (zh) | 标签预测方法、装置、设备及存储介质 | |
CN109766441A (zh) | 文本分类方法、装置及系统 | |
CN106709370A (zh) | 一种基于文本内容的长词识别方法及系统 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN109993216A (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |