CN115269846A - 文本处理方法、装置、电子设备及存储介质 - Google Patents

文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115269846A
CN115269846A CN202210922599.9A CN202210922599A CN115269846A CN 115269846 A CN115269846 A CN 115269846A CN 202210922599 A CN202210922599 A CN 202210922599A CN 115269846 A CN115269846 A CN 115269846A
Authority
CN
China
Prior art keywords
cluster
topic
network
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210922599.9A
Other languages
English (en)
Inventor
孔祥星
邹武合
张伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202210922599.9A priority Critical patent/CN115269846A/zh
Publication of CN115269846A publication Critical patent/CN115269846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本处理方法、装置、电子设备及存储介质,包括:获取文本集合,文本集合包括多个文本;对多个文本分别进行特征提取,以形成与各文本对应的特征向量;将多个特征向量输入多层级联网络,获得与多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;生成与每个话题簇对应的簇描述信息。通过本申请,使得话题检测具有稳定性好、易于理解的效果。

Description

文本处理方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
近年来,随着互联网技术的不断发展,人们对于网络的使用、参与度变高,越来越多的人习惯于通过网络去了解热点,便捷获取以及分享自己感兴趣的内容,发表个人的意见及看法。在信息时代,任何一个人的看法都有可能脱颖而出,被大家广泛的传播、讨论,进而形成新的热点话题。同时,由于信息的海量以及指数级增长的特性,无法通过人工方法对文本总结归纳,以发现热点。
目前,可以采用传统的Single-Pass聚类方法或者K-means聚类方法来对文本进行聚类,但是,传统的Single-Pass聚类方法易受输入文本顺序影响,K-means聚类方法中的预设k值需要调参,人工干涉较多,同时,在数据流不断扩增时,无法进行在线聚类,聚类的效率低,稳定性差。
此外,在聚类完成后,其聚类簇信息模糊、不易理解,在聚类簇内文本较多时,还需要通过人工手动提取主题信息,无法实现自动化。
发明内容
有鉴于此,本申请实施例至少提供一种文本处理方法、装置、电子设备及存储介质,克服了现有话题检测所存在的时间复杂度高、稳定性差、簇内容不清晰中的至少一个缺陷。
第一方面,本申请示例性实施例提供一种文本处理方法,包括:获取文本集合,所述文本集合包括多个文本;对所述多个文本分别进行特征提取,以形成与各文本对应的特征向量;将多个特征向量输入多层级联网络,获得与所述多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;生成与每个话题簇对应的簇描述信息。
在一可能实施方式中,可以通过以下方式确定与每个文本对应的特征向量:将该文本输入文本特征提取模型,以获得与该文本对应的特征向量,其中,所述文本特征提取模型为孪生网络架构中的一个分支,所述孪生网络架构包括网络结构相同的多个分支,所述孪生网络架构是基于多个句子之间的语义相似性来训练获得的。
在一可能实施方式中,可以通过以下方式对所述孪生网络架构进行训练:获取训练样本,所述训练样本包括句子组合以及针对该句子组合设置的训练标签,所述句子组合包括多个句子,所述训练标签用于指示句子组合中的各句子之间的语义相似性;将句子组合中的每个句子分别输入到孪生网络架构中的各分支,获得与各分支对应输出的句子向量;确定各句子向量的语义表征值,所述语义表征值用于表征各句子向量之间的语义相似性;根据所述语义表征值和所述训练标签的赋值,确定针对孪生网络架构中的各分支的模型损失值;根据所确定的模型损失值,对孪生网络架构中的各分支进行同步调整。
在一可能实施方式中,所述多层级联网络中的首层网络的初始聚类中心可以是根据各特征向量对应的局部密度值和邻近距离值来确定的,和/或,针对所述多层级联网络中的每层其他网络,该其他网络的输入可以为上一层网络所输出的话题簇的簇质心向量,所述其他网络为非首层网络,和/或,所述多层级联网络中的每层网络可以均为单通道网络结构。
在一可能实施方式中,每层其他网络的初始聚类中心可以是根据上一层网络所输出的话题簇的簇质心向量来确定的,针对每层其他网络,该其他网络的输入可以是从上一层网络所输出的话题簇的簇质心向量中去除该其他网络所对应的初始聚类中心之后的簇质心向量。
在一可能实施方式中,所述多层级联网络可以包括第一层网络和第二层网络,第一层网络对应的聚类控制阈值大于第二层网络对应的聚类控制阈值,高聚类控制阈值对应的网络所输出的话题簇为话题子簇,低聚类控制阈值对应的网络所输出的话题簇为话题大簇,其中,可以通过以下方式获得与每层网络对应输出的话题簇:针对每个特征向量,将该特征向量输入第一层网络,以根据该特征向量与第一层网络对应的各初始话题簇的簇质心向量之间的相似度值以及第一层网络对应的聚类控制阈值,确定多个话题子簇,每个初始话题簇是基于第一层网络的初始聚类中心形成的;针对每个话题子簇,将该话题子簇的簇质心向量输入第二层网络,以根据该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值以及第二层网络对应的聚类控制阈值,确定多个话题大簇。
在一可能实施方式中,所述簇描述信息可以包括子簇摘要,其中,可以通过以下方式生成与高聚类控制阈值对应的网络所输出的话题子簇的子簇摘要:从话题子簇的各文本中提取原文,以形成话题子簇的子簇摘要。
在一可能实施方式中,所述簇描述信息可以包括簇主题短语,其中,可以通过以下方式生成与低聚类控制阈值对应的网络所输出的话题大簇的簇主题短语:根据话题大簇中的多个碎片组合词的词重要性指标以及每个碎片组合词的文本特性,从多个碎片组合词中确定出多个候选短语;根据每个候选短语自身的短语重要性指标以及各候选短语与话题大簇中的其他短语的语义相似性,从所述多个候选短语中确定出至少一个簇主题短语。
在一可能实施方式中,每个候选短语可以为多个碎片组合词中短语重要性指标大于设定指标阈值、且文本特性满足预设短语筛选条件的碎片组合词,和/或,可以通过以下方式确定每个碎片组合词:对话题大簇中的各文本进行分词,获得多个碎片词;确定各碎片词对应的词重要性指标;根据各碎片词对应的词性和词重要性指标,对相邻碎片词进行组合,以获得多个碎片组合词;和/或,所述预设短语筛选条件可以包括以下项中的至少一项:碎片组合词的token长度小于设定长度阈值;碎片组合词中存在的虚词的数量小于第一设定数量阈值;碎片组合词的两端token的词性不属于虚词和停用词;碎片组合词中存在的停用词的数量小于第二设定数量阈值。
在一可能实施方式中,可以通过以下方式确定至少一个簇主题短语:根据候选短语的短语重要性指标以及权衡重要性系数,确定候选短语的重要性指数;确定候选短语与话题大簇中的各其他候选短语之间的相似度;根据最大相似度以及权衡相似系数,确定候选短语的相似性指数,权衡相似系数与权衡重要性系数之和为1;根据重要性指数和相似性指数,确定将候选短语确定为簇主题短语的推荐指数;将推荐指数大于预设推荐阈值的候选短语,确定为簇主题短语。
在一可能实施方式中,所述文本集合可以为针对目标对象的文本集合,所述文本集合中的每个文本可以为不同用户针对所述目标对象的评论内容。
第二方面,本申请示例性实施例提供一种文本处理装置,包括:文本获取模块,获取文本集合,所述文本集合包括多个文本;特征提取模块,对所述多个文本分别进行特征提取,以形成与各文本对应的特征向量;簇聚类模块,将多个特征向量输入多层级联网络,获得与所述多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;信息生成模块,生成与每个话题簇对应的簇描述信息。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的文本处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的文本处理方法的步骤。
本申请实施例提供的文本处理方法、装置、电子设备及存储介质,采用多层的级联结构,有效减少了Single-Pass输入时文本顺序对聚类的影响,使得上述话题检测方式稳定性好、易于理解。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出现有的基于加权LDA和Single-Pass聚类算法的示意图;
图2示出现有的基于Siamese网络的话题检测方法的示意图;
图3示出本申请示例性实施例提供的文本处理方法的流程图;
图4示出本申请示例性实施例提供的话题检测的总体流程图;
图5示出本申请示例性实施例提供的对孪生网络架构进行训练的步骤的流程图;
图6示出本申请示例性实施例提供的孪生网络架构训练示意图;
图7示出现有的Single-Pass聚类算法的示意图;
图8示出本申请示例性实施例提供的确定话题大簇的至少一个簇主题短语的步骤的流程图;
图9示出本申请示例性实施例提供的确定碎片组合词的步骤的流程图;
图10示出本申请示例性实施例提供的确定每个簇主题短语的步骤的流程图;
图11示出本申请示例性实施例提供的文本处理装置的结构示意图;
图12示出本申请示例性实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
应当理解,在本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或者两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本申请实施例中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
近年来,随着互联网技术的不断发展,人们对于网络的使用、参与度变高,越来越多的人习惯于通过网络去了解热点,便捷获取以及分享自己感兴趣的内容,发表个人的意见及看法。在信息时代,任何一个人的看法都有可能脱颖而出,被大家广泛的传播、讨论,进而形成新的热点话题。同时,由于信息的海量以及指数级增长的特性,无法通过人工方法对文本总结归纳,以发现热点。
为满足上述对话题检测的需求,目前通常采用传统的Single-Pass聚类方法或者K-means聚类方法来对文本进行聚类,下面结合图1和图2来分别介绍上述两种聚类方法。
图1示出现有的基于加权LDA和Single-Pass聚类算法的示意图。
第一步,爬取数据。可以利用中科院汉语分词系统实现文本的分词、词性标注及命名实体识别工作,并对文本进行去除停用词以及命名实体词加权。
第二步,利用特征词加权的LDA主题模型(潜在狄利克雷分布模型)对文本数据进行建模,通过挖掘其中的隐主题信息来实现特征降维,并对向量化的结果进行过滤去噪。
第三步,将文本输入经特征词加权的LDA主题模型处理后得到向量化结果,并使用Single-Pass聚类算法进行聚类。
第四步,利用话题簇规模和话题簇紧密度,计算话题簇的热度值,将话题词按权重排序,识别热点话题。
上述基于加权LDA和Single-Pass聚类算法,存在如下缺点:
(1)LDA是一种文档主题生成模型,传统的主题模型(例如,LDA、PLSA等)在大量短文本集上建模易导致严重的数据稀疏问题,因此传统的主题模型对长文本的适用性较好,不能很好地适用于短文本。然而,在社交网络中,较多能提取到多是短文本的数据,因此采用LDA提取效果不佳。
(2)采用LDA方式建模,在数据集有限时,无法解决近义词、上下文语义、一词多义的问题。
(3)传统的Single-Pass聚类方法,容易受到初始聚类中心、文本输入顺序的影响,并且在聚类性能上也没有优化。
(4)在将文本聚类成大簇时,仅通过话题词来表示整个簇的内容,话题词的表达不够全面,无法直接得到大簇的热点话题。
图2示出现有的基于Siamese网络的话题检测方法的示意图。
第一步,对文本数据进行分词、去停用词、词性标注的预处理,根据词性标注结果赋予不同的权重,权重与word2vec结合,将文本向量化。
第二步,构造Siamese网络,根据文本数据特点,选用LSTM作为Siamese的主体网络架构,对输入数据进行特征提取和降维,并输入文本对,以话题标签作为监督信息进行训练。
第三步,使用训练好的Siamese模型网络,将输入数据映射到目标空间,保存映射后的文本特征数据。
第四步,将得到的文本特征数据作为K-means聚类模型的输入进行聚类得到聚类结果,其中每个簇代表一个话题。
上述基于Siamese网络的话题检测方法,存在如下缺点:
(1)LSTM网络无法较好地表达语义及上下文信息,且在没有自注意力机制的情况下,当序列相对较长时容易遗忘开始的信息。
(2)K-means聚类需要预设初始的聚类中心,但是在海量数据下,无法预知需要聚成多少类,预设k值需要调参,人工干涉太大。同时,在数据流不断扩增时,无法进行在线聚类,聚类的效率低、稳定性差。
(3)聚类完形成大簇后,并没有对大簇形成整体的主题信息表示。在大簇内文本较多时,需要通过人工手动提取主题信息,无法实现自动化。
现有技术中,在实现文本向量化上,采用LDA、TFIDF等实现文本向量化的手段,均无法较好地兼顾句子语义以及主题的信息,同时在短文本上容易导致严重的数据稀疏问题。在聚类方法上,直接使用传统Single-Pass聚类算法,存在聚类中心随意、受输入文本顺序影响大等问题。在热点展现上,仅仅采用话题词的方法进行总结,使得大簇信息模糊,不易理解。
对此,本申请针对文本向量化无法提取句子的完整语义信息,聚类方法稳定性差、时间慢,话题簇内容展示不清晰中的至少一个问题,提出一种文本处理方法、装置、电子设备及存储介质,使得话题检测具有时间复杂度低、稳定性好、易于理解的效果。
为便于对本申请进行理解,下面对本申请实施例提供的文本处理方法、装置、电子设备及存储介质进行详细介绍。
请参阅图3,为本申请示例性实施例提供的文本处理方法的流程图,具体包括:
S110:获取文本集合。
在本申请实施例中,文本集合中具有多个文本。这里,可以从不同数据源来获得文本,以形成文本集合。示例性的,不同数据源可以包括但不限于以下项中的任一项:多媒体社交网络、论坛、贴吧、超话,其中,多媒体社交网络可指能够发布消息、视频等多媒体内容的网络媒介,论坛、贴吧、超话可指用于为用户提供交流和互动的网络平台。
在一可选实施例中,文本集合可以通过以下任一种方式来形成:
第一种情况,文本集合可以由从同一数据源获得的多个文本来形成。
此时,可以通过对文本集合中的多个文本的分析,来检测出该数据源下的热点话题。
第二种情况,文本集合可以由针对同一目标对象的多个文本来形成。
此时,针对同一目标对象的多个文本可以来自于同一数据源,也可以来自于不同数据源。示例性的,上述多个文本可以包括但不限于:针对目标对象所发布的消息、在针对目标对象所创建的论坛、贴吧、超话下所发布的评论。
S120:对多个文本分别进行特征提取,以形成与各文本对应的特征向量。
这里,可以利用现有的各种文本特征提取方法,来从各文本中提取出对应的特征向量,本申请对此部分内容不做限制。
在一示例中,可以基于文本特征提取模型来从各文本中提取对应的特征向量,具体的,针对文本集合中的每个文本,可以将该文本输入文本特征提取模型,以获得与该文本对应的特征向量。
这里,可以基于各种模型构建方式来构建文本特征提取模型。在本申请一优选实施例中,利用孪生网络架构来构建文本特征提取模型,孪生网络架构包括网络结构相同的多个分支,示例性的,文本特征提取模型可为孪生网络架构中的一个分支。
在本申请实施例中,基于多个句子之间的语义相似性来对孪生网络架构进行训练,以获得文本特征提取模型。例如,可以将含义相近的多个句子作为孪生网络架构的输入进行训练,这样,可以使得文本特征的提取能够较好地兼顾句子语义,并解决近义词、上下文语义、一词多义的问题。后续将对训练孪生网络架构的过程进行详细阐述,本申请在此不再赘述。
S130:将多个特征向量输入多层级联网络,获得与多层级联网络中的每层网络对应输出的话题簇。
这里,每层网络是基于其对应的聚类控制阈值来对所输入的向量进行聚类的,在本申请实施例中,每层网络对应的聚类控制阈值是不同的,使得每层网络输出的话题簇也是不同的,即,每层网络所输出的话题簇的数量是不同的,和/或,每层网络所输出的话题簇的主题信息是不同的。
示例性的,多层级联网络中的各网络之间是存在聚类顺序的,其具体聚类过程为:针对每个特征向量,按照各网络之间的聚类顺序,将该特征向量输入多层级联网络的首层网络,基于首层网络对应的聚类控制阈值进行聚类,获得首层网络对应输出的话题簇,之后,基于首层网络对应输出的话题簇和第二层网络对应的聚类控制阈值进行聚类,获得第二层网络对应输出的话题簇,按照各网络之间的聚类顺序依次逐层进行聚类,从而获得每层网络对应输出的话题簇。
应理解,多层级联网络中包括的网络的层数可以由本领域技术人员根据实际需求来进行设置,本申请对此部分内容不做限制。
S140:生成与每个话题簇对应的簇描述信息。
这里,簇描述信息为用于概括描述话题簇内各文本的中心内容的信息,这样,针对各层网络所输出的话题簇均生成了簇描述信息,易于对簇内容的理解。
在一优选实施例中,可以针对不同聚类控制阈值对应的网络所输出的话题簇,采用不同的信息提取方式来生成簇描述信息。例如,针对高聚类控制阈值(如,大于设定阈值的聚类控制阈值)对应的网络所输出的话题簇,可以采用原文提取方式来生成簇描述信息,即,从该话题簇的各文本的原文中进行复制拷贝,以形成该话题簇对应的簇描述信息,针对低聚类控制阈值(如,小于或者等于设定阈值的聚类控制阈值)对应的网络所输出的话题簇,可以采用主题短语提取方式来生成簇描述信息,即,基于该话题簇的各文本生成主题短语,以作为该话题簇对应的簇描述信息
图4示出本申请示例性实施例提供的话题检测的总体流程图。
在本申请中,在模型训练阶段,可以基于通用数据集来进行模型训练,以获得文本特征提取模型,在模型使用阶段,输入为文本集合,示例性的,该文本集合可指游戏论坛玩家的游戏评论数据集(例如,玩家在某款游戏的论坛下针对该款游戏的多条评论),整体的输出是聚类结果,即,各层网络对应输出的话题簇。
在一示例中,可以基于Siamese-Bert网络来构件文本特征提取模型,在此情况下,可以通过通用数据集对Siamese-Bert网络进行微调训练,然后,将经过数据预处理的游戏评论数据集输入Siamese-Bert网络,以提取文本特征向量。此后,经过多层级联网络对文本集合中的各文本进行聚类,示例性的,多层级联网络可为DPsingle-pass+级联架构,最后,针对不同话题簇,可以生成子簇摘要,或者簇主题短语。
下面将结合图5-图10对总体流程中的每个部分分别进行详细阐述。
图5示出本申请示例性实施例提供的对孪生网络架构进行训练的步骤的流程图。
参照图5,在步骤S201中,获取训练样本。
在本申请实施例中,训练样本可包括句子组合以及针对该句子组合设置的训练标签,句子组合包括多个句子,训练标签用于指示句子组合中的各句子之间的语义相似性。
示例性的,可以选择语义相近的多个句子来形成句子组合,例如,可以计算获取到的多个候选句子之间的语义相似度,将语义相似度大于设定值的各候选句子确定为是语义相近的多个句子,以形成用于模型训练的句子组合。这里,如何计算各句子之间的语义相似度的方法为本领域的公知常识,本申请对此部分内容不再赘述。
在一优选实施例中,可以预先对获取到的数据集进行预处理,去除其中无意义以及影响文本分析的信息,以形成句子组合中的句子。应理解,还可以在获取到文本集合之后,针对文本集合中的各文本也进行相同的预处理,将预处理之后的文本输入到文本特征提取模型进行文本特征提取,以提高特征提取的准确性。
作为示例,预处理可以包括但不限于以下处理方式中的至少一项:
删除表情符、链接、标记性符号等无用信息,例如:判断一条文本中是否含有以下信息:@用户、更多>>>、#...#、【】,上述无用信息会对后续的文本分析造成较大的干扰,因此可以将这类无用信息去除掉,保留文本的主体信息。示例性的,对于包含【】的文本,可以仅将该符号删除,对于包含#...#的文本,可以仅删除该符号,也可以在删除符号的同时,将符号之间的文本也删除掉,对于特定的网络平台(如超话),会使用#...#来引用话题,表明所发布的内容为与所引用的话题相关的内容,可以基于所引用的话题来从该网络平台中筛选出用于形成文本集合的多个文本,但在分析各文本形成话题簇的过程中可不做参考。
删除爬取时的无意义的短语,例如“哈哈哈”等不存在主题信息的短语,还可以去除长度小于设定长度(如5)的文本,这类极短文本中包含的信息量往往很少、且很难准确理解其语义信息。
删除存在的广告信息。
在步骤S202中,将句子组合中的每个句子分别输入到孪生网络架构中的各分支,获得与各分支对应输出的句子向量。
这里,每个分支是并行处理的,即,一个句子输入到一个分支,对应输出一个句子向量,这样,可以利用孪生网络架构中的多个分支同时对语义相近的各句子进行特征向量提取。
在步骤S203中,确定各句子向量的语义表征值。
这里,语义表征值可以用于表征各句子向量之间的语义相似性。示例性的,可以对各句子向量进行余弦计算,将计算结果确定为语义表征值。上述对向量进行余弦计算的方法为本领域的公知常识,本申请对此部分内容不再赘述。
在步骤S204中,根据语义表征值和训练标签的赋值,确定针对孪生网络架构中的各分支的模型损失值。
这里,在训练标签的赋值为第一值时,指示句子组合中的各句子具有语义相似性,即,该句子组合是由语义相近的多个句子形成的,在训练标签的赋值为第二值时,指示句子组合中的各句子不具有语义相似性,即,该句子组合是由语义不相近的多个句子形成的。
在一示例中,可以对语义表征值和训练标签的赋值进行loss计算,例如,可以构建损失函数(loss函数),利用所构建的损失函数,来基于语义表征值和训练标签的赋值获得模型损失值。示例性的,loss函数可包括但不限于MSELoss。
应理解,除上述方式之外,还可以通过其他方式来确定模型损失值,例如,可以直接计算语义表征值和训练标签的赋值的差值,将该差值确定为模型损失值。
在步骤S205中,根据所确定的模型损失值,对孪生网络架构中的各分支进行同步调整。
例如,可以将所确定的模型损失值与预设损失阈值进行比较,若模型损失值不小于(大于或者等于)预设损失阈值,则对孪生网络架构中的各分支进行调整,若模型损失值小于预设损失阈值,则无需对孪生网络架构中的各分支进行调整,将满足小于条件的孪生网络架构中的任一分支确定为文本特征提取模型。
具体的模型调整过程为:基于模型损失值同时对各分支的模型参数进行调整,并返回执行上述步骤S202,以基于调整后的各分支重新确定各句子向量,直至模型损失值小于预设损失阈值,完成对孪生网络架构的训练。
通过采用上述的模型训练方式,可以保证相近语义在空间维度接近,不同语义在空间维度远离。
图6示出本申请示例性实施例提供的孪生网络架构训练示意图。
在本示例中,基于Siamese-Bert来搭建孪生网络架构,以孪生网络架构包括两个分支为例,此时,通用数据集包括一个句子对,即,句子A(Sentence A)和句子B(SentenceB),即,Siamese-Bert网络的输入为通用数据集的一对句子,两个句子的语义相同或者相近。
将Distil-Bert作为模型的主干网络,搭建主体的网络架构,Siamese使用两个相同的网络来接收数据,对句子对进行相同的处理,选用Distil-BERT作为提取数据特征的主体网络架构,在保证较好地提取语义信息的同时,可以轻量化网络。两个Distil-BERT网络结构相同,共享相同的权重,以保证数据能够映射到相同的空间,便于后续模型损失值的计算。
Pooling网络用于按照预先的设定,从句子的各token中确定出能够表示句子含义的句子向量。
句子A和句子B分别经过两个分支的处理之后,获得对应的句子向量u和句子向量v,对两个句子向量进行余弦计算cosine-sim(u,v),以确定模型损失值。
在本示例中,将Distil-BERT输出的特征向量作为文本特征向量用于后续的聚类过程,以实现热点话题聚类。示例性的,可以选择训练后的Siamese-Bert的任一分支作为Encoder编码层来加载Siamese-Bert模型,以将预处理后的文本集合输入到文本特征提取模型,获得文本对应的多维空间向量。
在文本特征提取上,本申请的文本处理方法采用Siamese-Bert孪生神经网络架构,通过有监督的句子对数据集对模型进行监督训练,采用文本相似理念进行特征提取,可以较好地解决传统无监督LDA主题模型出现的建模稀疏性、上下文联系不紧密等问题。并且,采用有监督模型提取特征,可以加入更多的人工先验知识,解决一词多义,旧词新义等问题。
将上述步骤获得的与各文本对应的特征向量使用本申请提出的改进的DPSingle-Pass聚类算法进行聚类,实现热点话题聚类。
传统的Single-Pass聚类算法又称单通道法或者单遍法,是流式数据聚类的经典方法,也是典型的增量式聚类算法。其用于文本聚类的主要思想是:对于文本,该算法按到达顺序读取新文本,将新的文本与当前已存在的类簇进行相似度比较,如果相似度值大于阈值则将这一新的文本归入相似度最高的类簇中,若找不到符合条件的类簇,则该新文本将成为一个新的类簇,反复执行这一过程,直到所有的文本都处理完成,算法的整个处理过程中,仅对文本数据进行一次读取操作,因此称之为单遍(single),图7简单示意出上述聚类过程。
在图7所示的示例中,输入为文本向量D、阈值t,输出为多个类簇,将第一个文本向量D作为第一个类簇,读取其他文本向量D,计算D与现有类簇的所有文本之间相似度,记录最大相似度的类簇及对应的相似度值。如果最大相似度的值大于阈值t,则将该文本向量D加入最大相似度的类簇中,同时更新该类簇的中心,否则以该文本向量D为基础新建一个类簇,重复上述过程,直到文本向量集为空,算法结束。
传统的Single-Pass聚类算法存在以下缺点:
(1)算法初始的聚类中心较少、且随机生成,对聚类的结果会产生一定影响,而且聚类时主要靠阈值控制是否该聚为一类,在此情况下,易发生误判,导致聚类结果不够准确。
(2)算法按输入顺序对文本进行单遍聚类,因此算法对文本的输入顺序较为敏感,当文本输入顺序不同时得到的聚类结果也不同,稳定性较差。
(3)计算相似度时,需要和现有类簇的所有文本比较相似度,当类簇的数量和文本总数较大时,聚类的时间复杂度会很高,将直接影响到系统的性能。并且当文本不断流入时,比较次数变多,时间复杂度也一直在增涨。
在本申请的文本处理方法中,针对上述传统的Single-Pass聚类算法所存在的各缺点,对聚类过程进行了改进。
在本申请的聚类过程中,初始聚类中心不再是随机生成,也无需人工指定,示例性的,多层级联网络中的首层网络的初始聚类中心是根据各特征向量对应的局部密度值和邻近距离值来确定的。
下面介绍确定多层级联网络中的首层网络的初始聚类中心的过程。示例性的,多层级联网络中的每层网络可以均为单通道网络结构。
作为示例,可以利用如下公式来确定每个特征向量对应的局部密度值:
Figure BDA0003778241730000121
公式(1)中,ρi表示第i个文本的特征向量对应的局部密度值,distcutoff表示截断距离,xi表示第i个文本的特征向量,xj表示第j个文本的特征向量,xj∈U,U为向量集合,该向量集合包括文本集合中除第i个文本之外的其他文本对应的特征向量,dist(xi,xj)表示xi与xj之间的距离。
Figure BDA0003778241730000122
表示找到与第i个文本的特征向量的距离不大于截断距离的特征向量的个数,并将其作为第i个文本的特征向量的局部密度值。这里,根据实际需求来设置截断距离的具体数值。
作为示例,可以利用如下公式来确定每个特征向量对应的邻近距离值:
δi=min(dist(xi,xj)) (2)
公式(2)中,δi表示第i个文本的特征向量对应的邻近距离值,指第j个文本的特征向量与第i个文本的特征向量的距离中的距离最小值。
此时,可以选取目标数量的局部密度值和邻近距离值均较高的特征向量,确定为初始聚类中心。例如,可以对各局部密度值和邻近距离值分别进行降序排序,从密度序列中选取前第一预设数量的第一候选特征向量,从距离序列中选取前第二预设数量的第二候选特征向量,将第一候选特征向量和第二候选特征向量中重复的特征向量,确定为初始聚类中心。这里,目标数量的具体数值可以根据实际需求来进行设置,第一预设数量与第二预设数量可以相同、也可以不同,示例性的,第一预设数量大于目标数量,第二预设数量大于目标数量。
除上述方式之外,还可以仅对局部密度值和邻近距离值中的一个进行降序排序,从密度序列中选取前第三预设数量的第三候选特性向量,将邻近距离值大于设定距离值的第三候选特性向量确定为初始聚类中心,或者,从距离序列中选取前第四预设数量的第四候选特性向量,将局部密度值大于设定密度值的第四候选特性向量确定为初始聚类中心。这里,第三预设数量与第四预设数量可以相同、也可以不同,示例性的,第三预设数量大于目标数量,第四预设数量大于目标数量。
在本申请的上述聚类算法中,将具有较大局部密度值ρi,且同时具有较大邻近距离值δi的点定义为初始聚类中心,使得初始聚类中心满足以下条件:初始聚类中心的局部密度值大于周围邻居点的局部密度值;初始聚类中心与更高密度点之间的距离相对较大。
在本申请的聚类过程中,针对多层级联网络中的每层其他网络,该其他网络的输入为上一层网络所输出的话题簇的簇质心向量。这里,其他网络为非首层网络。
例如,将上一层网络输出的话题簇的簇质心向量作为下一次聚类过程的输入,这样可以有效减少聚类过程的计算量,并且通过多层级联网络的聚类过程,还可以较大程度的避免文本输入顺序对聚类的影响。
作为示例,每个话题簇的簇质心向量可以利用如下公式来表示:
Figure BDA0003778241730000131
公式(3)中,CK表示第K个话题簇,K=1,2,…s,s表示一层网络所输出的话题簇的总数,di表示第i个文本的特征向量,N表示话题簇的文本总数。
在本申请的聚类过程中,需重新确定每层其他网络的初始聚类中心,示例性的,根据上一层网络所输出的话题簇的簇质心向量来确定当前层其他网络的初始聚类中心。
例如,可以利用上述公式(1)和公式(2)来确定上一层网络所输出的每个话题簇的簇质心向量对应的局部密度值和邻近距离值,再基于所确定出的局部密度值和邻近距离值,确定当前层其他网络的初始聚类中心。
这里,根据上一层网络所输出的每个话题簇的簇质心向量对应的局部密度值和邻近距离值,确定当前层其他网络的初始聚类中心的过程,与上述基于各特征向量对应的局部密度值和邻近距离值来确定多层级联网络中的首层网络的初始聚类中心的过程是相同的,本申请对此部分内容不再赘述。
针对每层其他网络,该其他网络的输入是从上一层网络所输出的话题簇的簇质心向量中去除该其他网络所对应的初始聚类中心之后的簇质心向量。在此情况下,基于作为输入的簇质心向量与其他网络所对应的初始聚类中心的相似度来进行聚类。
在一优选实施例中,以多层级联网络包括第一层网络和第二层网络为例,如两层级联Single-Pass网络结构,来介绍本申请的形成话题簇的过程。
在本示例中,第一层网络对应的聚类控制阈值大于第二层网络对应的聚类控制阈值,高聚类控制阈值对应的网络所输出的话题簇为话题子簇,低聚类控制阈值对应的网络所输出的话题簇为话题大簇。
在此情况下,可以通过以下方式来获得与每层网络对应输出的话题簇:
针对每个特征向量,将该特征向量输入第一层网络,以根据该特征向量与第一层网络对应的各初始话题簇的簇质心向量之间的相似度值以及第一层网络对应的聚类控制阈值,确定多个话题子簇。这里,每个初始话题簇是基于第一层网络的初始聚类中心形成的。
例如,传入一个文本的特征向量,计算该文本的特征向量与已有的各初始话题簇的簇质心向量之间的相似度值,将与各初始话题簇之间的最大相似度值与第一层网络对应的聚类控制阈值进行比较,若存在不小于该聚类控制阈值的初始话题簇,则将该文本的特征向量归入与之相似度值最大的初始话题簇,若不存在不小于该聚类控制阈值的初始话题簇,则新建一个话题簇,待全部特征向量输入后,得到第一层网络的聚类结果为话题子簇。
作为示例,可以利用如下公式来计算两个特征向量之间的相似度值获取方式如下:
Figure BDA0003778241730000141
公式(4)中,d1、d2分别表示两个特征向量,sim(d1,d2)表示两个特征向量之间的相似度值。
在本申请的上述聚类过程中,引入“话题中心”的概念来表示一个话题簇,将文本的特征向量相似度的计算次数降低到话题簇个数的规模,算法复杂度与传统Single-Pass聚类算法相比,得到有效降低。
针对每个话题子簇,将该话题子簇的簇质心向量输入第二层网络,以根据该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值以及第二层网络对应的聚类控制阈值,确定多个话题大簇。
例如,传入一个话题子簇的簇质心向量,计算该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值,将与各初始聚类中心之间的最大相似度值与第二层网络对应的聚类控制阈值进行比较,若存在不小于该聚类控制阈值的初始聚类中心,则将该簇质心向量对应的话题子簇归入与之相似度值最大的初始聚类中心所属的初始话题簇,若不存在不小于该聚类控制阈值的初始聚类中心,则新建一个话题大簇,待全部话题子簇的簇质心向量输入后,得到第二层网络的聚类结果为话题大簇。
下表示出传统Single-Pass聚类算法与本申请的聚类算法的对比:
表1
Figure BDA0003778241730000151
上述表1中从Recall(召回率)、Precision(精确率)两个方面,对传统Single-Pass聚类算法、DPsingle-Pass聚类算法、基于传统Single-Pass算法的级联结构(Single-Pass+级联)、基于DPsingle-Pass聚类算法的级联结构(Dpsingle-pass+级联)四种聚类算法进行了对比,可见,本申请的Dpsingle-pass+级联在Recall、Precision方面性能较优。
在本申请的聚类过程中,基于局部密度值和邻近距离值来确定初始聚类中心,减弱了初始聚类中心的随机性对聚类的影响;采用多层的级联结构,减少了Single-Pass输入时文本顺序的影响;Single-Pass聚类时,选取当前话题簇内所有特征向量平均后的簇质心向量,进行相似度计算,而不是和话题簇内所有的特征向量进行一一比对,大幅度减少了聚类的计算。
应理解,上述本申请实施例中所阐述的对各文本进行聚类的方式,仅为一优选实现方式,本申请对此不做限制,还可以采用其他聚类方法。
下面介绍确定各话题簇的簇描述信息的过程。
在一示例中,簇描述信息包括子簇摘要。
此时,可以通过以下方式生成与高聚类控制阈值对应的网络所输出的话题子簇的子簇摘要:从话题子簇的各文本中提取原文,以形成话题子簇的子簇摘要。
每个话题大簇下表达主题一致,但是包含的文本数量较多,不便于理解,即,虽然各文本之间主题一致,但可能表达的语义还是存在差异的,基于此,可以针对每个话题子簇生成子簇摘要。
生成子簇摘要的目的在于将话题子簇中所包含的核心事件以尽可能精炼的文本概括描述,并确保其语意连贯可理解。示例性的,可以利用摘要生成模型来生成子簇摘要,即,将一话题子簇中的各文本输入摘要生成模型,以获得该话题子簇的子簇摘要,作为示例,模型结构可以采用Pint-Network网络(指针生成网络),通过拷贝机制选择在原文中拷贝词汇,对话题子簇内语义相近的文本进行短描述生成,同时考虑到话题子簇内大部分句子的语义是相似的,编码时引入self-attention机制,加强对自身文本的注意力,增加对输入文本的表达能力,使得子簇短描述生成的准确性有明显提升。
在另一示例中,簇描述信息包括簇主题短语。所生成的簇主题短语用于简洁概括话题大簇的主题。
此时,可以通过图8所示的方式来生成与低聚类控制阈值对应的网络所输出的话题大簇的簇主题短语。
图8示出本申请示例性实施例提供的确定话题大簇的至少一个簇主题短语的步骤的流程图。
参照图8,在步骤S401中,根据话题大簇中的多个碎片组合词的词重要性指标以及每个碎片组合词的文本特性,从多个碎片组合词中确定出多个候选短语。
在一优选实施例中,每个候选短语为多个碎片组合词中短语重要性指标大于设定指标阈值、且文本特性满足预设短语筛选条件的碎片组合词。
在一可选实施例中,上述预设短语筛选条件可以包括但不限于以下项中的至少一项:
碎片组合词的token长度小于设定长度阈值;
碎片组合词中存在的虚词的数量小于第一设定数量阈值;
碎片组合词的两端token的词性不属于虚词和停用词;
碎片组合词中存在的停用词的数量小于第二设定数量阈值。
这里,可以基于上述预设短语筛选条件对多个碎片组合词进行初筛。
下面结合图9来介绍确定每个碎片组合词的过程。
图9示出本申请示例性实施例提供的确定碎片组合词的步骤的流程图。
参照图9,在步骤S501中,对话题大簇中的各文本进行分词,获得多个碎片词。
这里,可以利用现有的各种分词方式对文本进行分词处理,本申请对此部分内容不再赘述。
在步骤S502中,确定各碎片词对应的词重要性指标。
这里,该词重要性指标为用于衡量碎片词本身在文本中的重要性程度的指标,该指标可以基于碎片词出现的次数、碎片词是否具有语义等来确定。
在步骤S503中,根据各碎片词对应的词性和词重要性指标,对相邻碎片词进行组合,以获得多个碎片组合词。
这里,可以利用现有的各种方法来确定各碎片词的词性,本申请对此部分的内容不做限制。例如,可以将词重要性指标大于设定指标值、且词性能够合并的碎片词进行组合,以获得碎片组合词。通过上述组合方式,可以避免后续所确定的主题短语太短、无实际语义的问题。
返回图8,在步骤S402中,根据每个候选短语自身的短语重要性指标以及各候选短语与话题大簇中的其他短语的语义相似性,从多个候选短语中确定出至少一个簇主题短语。
在抽取话题大簇的簇主题短语时,选取短语重要性高、且短语间相似度低的候选短语作为簇主题短语,使得所抽取的簇主题短语具有代表性、但语义不相近,有独立含义。
图10示出本申请示例性实施例提供的确定每个簇主题短语的步骤的流程图。
参照图10,在步骤S601中,根据候选短语的短语重要性指标以及权衡重要性系数,确定候选短语的重要性指数。
作为示例,可以利用如下公式来确定候选短语的重要性指数:
M1=γ*score(Da) (5)
公式(5)中,M1表示候选短语的重要性指数,score()为重要性计算函数,Da表示第a个候选短语,γ表示权衡重要性系数。示例性的,score重要性计算是通过候选短语与簇内所有文本的相似度来衡量的。
在步骤S602中,确定候选短语与话题大簇中的各其他候选短语之间的相似度。
作为示例,可以利用如下公式来确定候选短语与话题大簇中的其他候选短语之间的相似度:
M2=max(sim(Da,Db)) (6)
公式(6)中,M2表示候选短语Da与话题大簇中的第b个其他候选短语Db之间的相似度,sim()为相似度计算函数,max()表示选取候选短语Da与话题大簇中的各其他候选短语之间的相似度的最大值。示例性的,sim相似度计算是将候选短语转换为有TFIDF权重的词袋模型后,计算两个候选短语之间的余弦相似度。
在步骤S603中,根据最大相似度以及权衡相似系数,确定候选短语的相似性指数。这里,权衡相似系数与权衡重要性系数之和为1。
作为示例,可以利用如下公式来确定候选短语的相似性指数:
M3=(1-γ)*M2 (7)
公式(7)中,M3表示候选短语的相似性指数。这里,由1-γ来表示权衡相似系数。
在步骤S604中,根据重要性指数和相似性指数,确定将候选短语确定为簇主题短语的推荐指数。
例如,可以将一候选短语的重要性指数与相似性指数的差值,确定为该候选短语的推荐指数。
作为示例,可以利用如下公式来确定推荐指数:
MR=argmin[M1-M3] (8)
公式(8)中,MR表示候选短语的推荐指数,argmin()表示选取M1与M3差值的最小值。
在步骤S605中,将推荐指数大于预设推荐阈值的候选短语,确定为簇主题短语。
从上述确定簇主题短语的过程中可以看出,所得到的簇主题短语遵循两个原则:主题短语重要性高以及与话题大簇中的其他短语相似度低,分别对应上述公式中的score(Da)和max[sim(Da,Db)]两部分,并依靠γ进行权衡。
在一可选实施例中,在获得到上述的话题大簇和话题子簇之后,还可以对话题簇的检测结果进行完整展示。
示例性的,可以通过html页面进行展示,加入可收缩目录以及树结构,基于本本申请所提出的文本处理方法,可以较好地对话题中心进行聚类,还可以对簇内相近语义词进行内部展示,将聚类的话题信息变成了簇主题短语-中心句(子簇摘要)-文本的树结构,使得话题中心更容易理解,话题分布更为直观。一个话题大簇对应至少一个簇主题短语,在一簇主题短语下包含多个可收缩目录,一个可收缩目录对应该话题大簇下的一个话题子簇的子簇摘要,在一子簇摘要下包含多个可收缩目录,一个可收缩目录对应该话题子簇下的一个文本。
下面结合本申请的文本处理方法的一个应用场景,来阐述其具体处理过程。
这里,文本集合为针对目标对象的文本集合,文本集合中的每个文本为不同用户针对目标对象的评论内容。
在本示例中,目标对象可指A款游戏,文本集合中包括的是不同用户在A款游戏的论坛下针对A款游戏所发布的评论和/或留言。
在本申请的优选实施例中,文本集合中包括的文本可指短文本,以与长文本进行区分。作为示例,短文本可指文本长度小于预设值(例如,50个字符之内)的文本,例如,社交网络中的用户发布的消息、社交网络中用户针对他人所发布的消息的评论、论坛中用户针对某一内容发布的评论等。
针对文本集合中所包括的各评论和/或留言,采用本申请的上述文本处理方法,可以获得针对A款游戏的多个话题子簇和话题大簇。通过从子簇摘要和/或簇主题短语中提取的关键字,可以确定出目标对象所存在的各种缺陷,例如,可以基于子簇摘要确定出缺陷种类,将缺陷种类以及与该缺陷种类对应的话题子簇下的各文本发送至A款游戏的研发部门,以供研发部门进行参考。
此外,还可以分析话题大簇的簇主题短语或者话题子簇的子簇摘要中是否存在敏感词,若检测到敏感词,则将包含敏感词的簇主题短语所属的话题大簇下的话题子簇的子簇摘要以及各话题子簇下的文本发送至网络监管部门,或者将包含敏感词的子簇摘要所属的话题子簇的子簇摘要以及该话题子簇下的各文本发送至网络监管部门。
根据本申请实施例的文本处理方法,具有以下有益效果:
(1)文本向量化阶段,采用Siamese-Bert架构,通过有监督文本相似度来Fine-tune预训练模型,用于提取文本的特征向量。上述方式可以较好地提取文本的语义信息,并且预训练的模型融入了文本先验信息,有效地解决了一词多义以及旧词新义等问题。
(2)聚类阶段,采用DPsingle-pass+级联架构,有效地解决了传统Single-Pass聚类方法存在的聚类效果受文本输入顺序以及聚类中心随意性影响的问题,提高了算法的稳定性,降低了时间复杂度。
(3)子簇的摘要生成,对于话题大簇内部的相近语义句,生成短描述语句进行描述,解决了在大簇内部语句较多时,信息过于繁杂,不便于用户提取内容的问题。
(4)大簇的主题表达,采用关键词短语的形式,解决了传统采用关键词提取任务中,使用TFIDF、Text-Rank等方法提取到的仅仅是若干零碎词汇,无法表达文章真正的含义的问题。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的方法对应的文本处理装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的文本处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图11为本申请示例性实施例提供的文本处理装置的结构示意图。如图11所示,该文本处理装置700包括:
文本获取模块710,获取文本集合。这里,文本集合包括多个文本;
特征提取模块720,对多个文本分别进行特征提取,以形成与各文本对应的特征向量。
簇聚类模块730,将多个特征向量输入多层级联网络,获得与多层级联网络中的每层网络对应输出的话题簇。这里,每层网络对应的聚类控制阈值是不同的。
信息生成模块740,生成与每个话题簇对应的簇描述信息。
在本申请的一种可能实施方式中,特征提取模块720可以通过以下方式确定与每个文本对应的特征向量:
将该文本输入文本特征提取模型,以获得与该文本对应的特征向量,其中,文本特征提取模型为孪生网络架构中的一个分支,孪生网络架构包括网络结构相同的多个分支,孪生网络架构是基于多个句子之间的语义相似性来训练获得的。
在本申请的一种可能实施方式中,特征提取模块720可以通过以下方式对所述孪生网络架构进行训练:
获取训练样本,训练样本包括句子组合以及针对该句子组合设置的训练标签,句子组合包括多个句子,训练标签用于指示句子组合中的各句子之间的语义相似性;将句子组合中的每个句子分别输入到孪生网络架构中的各分支,获得与各分支对应输出的句子向量;确定各句子向量的语义表征值,语义表征值用于表征各句子向量之间的语义相似性;根据语义表征值和训练标签的赋值,确定针对孪生网络架构中的各分支的模型损失值;根据所确定的模型损失值,对孪生网络架构中的各分支进行同步调整。
在本申请的一种可能实施方式中,多层级联网络中的首层网络的初始聚类中心是根据各特征向量对应的局部密度值和邻近距离值来确定的,和/或,针对多层级联网络中的每层其他网络,该其他网络的输入为上一层网络所输出的话题簇的簇质心向量,其他网络为非首层网络,和/或,多层级联网络中的每层网络均为单通道网络结构。
在本申请的一种可能实施方式中,每层其他网络的初始聚类中心是根据上一层网络所输出的话题簇的簇质心向量来确定的,针对每层其他网络,该其他网络的输入是从上一层网络所输出的话题簇的簇质心向量中去除该其他网络所对应的初始聚类中心之后的簇质心向量。
在本申请的一种可能实施方式中,多层级联网络包括第一层网络和第二层网络,第一层网络对应的聚类控制阈值大于第二层网络对应的聚类控制阈值,高聚类控制阈值对应的网络所输出的话题簇为话题子簇,低聚类控制阈值对应的网络所输出的话题簇为话题大簇,其中,簇聚类模块730可以通过以下方式获得与每层网络对应输出的话题簇:针对每个特征向量,将该特征向量输入第一层网络,以根据该特征向量与第一层网络对应的各初始话题簇的簇质心向量之间的相似度值以及第一层网络对应的聚类控制阈值,确定多个话题子簇,每个初始话题簇是基于第一层网络的初始聚类中心形成的;针对每个话题子簇,将该话题子簇的簇质心向量输入第二层网络,以根据该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值以及第二层网络对应的聚类控制阈值,确定多个话题大簇。
在本申请的一种可能实施方式中,簇描述信息包括子簇摘要,其中,信息生成模块740可以通过以下方式生成与高聚类控制阈值对应的网络所输出的话题子簇的子簇摘要:从话题子簇的各文本中提取原文,以形成话题子簇的子簇摘要。
在本申请的一种可能实施方式中,簇描述信息包括簇主题短语,其中,信息生成模块740可以通过以下方式生成与低聚类控制阈值对应的网络所输出的话题大簇的簇主题短语:根据话题大簇中的多个碎片组合词的词重要性指标以及每个碎片组合词的文本特性,从多个碎片组合词中确定出多个候选短语;根据每个候选短语自身的短语重要性指标以及各候选短语与话题大簇中的其他短语的语义相似性,从所述多个候选短语中确定出至少一个簇主题短语。
在本申请的一种可能实施方式中,每个候选短语为多个碎片组合词中短语重要性指标大于设定指标阈值、且文本特性满足预设短语筛选条件的碎片组合词,和/或,信息生成模块740可以通过以下方式确定每个碎片组合词:对话题大簇中的各文本进行分词,获得多个碎片词;确定各碎片词对应的词重要性指标;根据各碎片词对应的词性和词重要性指标,对相邻碎片词进行组合,以获得多个碎片组合词;和/或,所述预设短语筛选条件包括以下项中的至少一项:碎片组合词的token长度小于设定长度阈值;碎片组合词中存在的虚词的数量小于第一设定数量阈值;碎片组合词的两端token的词性不属于虚词和停用词;碎片组合词中存在的停用词的数量小于第二设定数量阈值。
在本申请的一种可能实施方式中,信息生成模块740可以通过以下方式确定至少一个簇主题短语:根据候选短语的短语重要性指标以及权衡重要性系数,确定候选短语的重要性指数;确定候选短语与话题大簇中的各其他候选短语之间的相似度;根据最大相似度以及权衡相似系数,确定候选短语的相似性指数,权衡相似系数与权衡重要性系数之和为1;根据重要性指数和相似性指数,确定将候选短语确定为簇主题短语的推荐指数;将推荐指数大于预设推荐阈值的候选短语,确定为簇主题短语。
在本申请的一种可能实施方式中,文本集合为针对目标对象的文本集合,文本集合中的每个文本为不同用户针对所述目标对象的评论内容。
根据本申请的文本处理装置,在实现文本向量化上,较好地兼顾句子语义以及主题的信息,同时避免了在短文本上容易导致严重的数据稀疏问题。在聚类方法上,避免了传统聚类算法存在的聚类中心随意、受输入文本顺序影响大等问题。
请参阅图12,图12为本申请示例性实施例提供的电子设备的结构示意图。如图12所示,该电子设备800包括处理器810、存储器820和总线830。
所述存储器820存储有所述处理器810可执行的机器可读指令,当电子设备800运行时,所述处理器810与所述存储器820之间通过总线830通信,所述机器可读指令被所述处理器810执行时,可以执行如上述任一实施例中文本处理方法的步骤,具体如下:
获取文本集合,文本集合包括多个文本;
对所述多个文本分别进行特征提取,以形成与各文本对应的特征向量;
将多个特征向量输入多层级联网络,获得与多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;
生成与每个话题簇对应的簇描述信息。
在本申请的一种可能实施方式中,处理器810可以执行如下处理,以确定与每个文本对应的特征向量:将该文本输入文本特征提取模型,以获得与该文本对应的特征向量,其中,文本特征提取模型为孪生网络架构中的一个分支,孪生网络架构包括网络结构相同的多个分支,孪生网络架构是基于多个句子之间的语义相似性来训练获得的。
在本申请的一种可能实施方式中,处理器810可以执行如下处理,以对所述孪生网络架构进行训练:获取训练样本,训练样本包括句子组合以及针对该句子组合设置的训练标签,句子组合包括多个句子,训练标签用于指示句子组合中的各句子之间的语义相似性;将句子组合中的每个句子分别输入到孪生网络架构中的各分支,获得与各分支对应输出的句子向量;确定各句子向量的语义表征值,语义表征值用于表征各句子向量之间的语义相似性;根据语义表征值和训练标签的赋值,确定针对孪生网络架构中的各分支的模型损失值;根据所确定的模型损失值,对孪生网络架构中的各分支进行同步调整。
在本申请的一种可能实施方式中,多层级联网络中的首层网络的初始聚类中心是根据各特征向量对应的局部密度值和邻近距离值来确定的,和/或,针对多层级联网络中的每层其他网络,该其他网络的输入为上一层网络所输出的话题簇的簇质心向量,所述其他网络为非首层网络,和/或,多层级联网络中的每层网络均为单通道网络结构。
在本申请的一种可能实施方式中,每层其他网络的初始聚类中心是根据上一层网络所输出的话题簇的簇质心向量来确定的,针对每层其他网络,该其他网络的输入是从上一层网络所输出的话题簇的簇质心向量中去除该其他网络所对应的初始聚类中心之后的簇质心向量。
在本申请的一种可能实施方式中,多层级联网络包括第一层网络和第二层网络,第一层网络对应的聚类控制阈值大于第二层网络对应的聚类控制阈值,高聚类控制阈值对应的网络所输出的话题簇为话题子簇,低聚类控制阈值对应的网络所输出的话题簇为话题大簇,在此情况下,处理器810可以执行如下处理,以获得与每层网络对应输出的话题簇:针对每个特征向量,将该特征向量输入第一层网络,以根据该特征向量与第一层网络对应的各初始话题簇的簇质心向量之间的相似度值以及第一层网络对应的聚类控制阈值,确定多个话题子簇,每个初始话题簇是基于第一层网络的初始聚类中心形成的;针对每个话题子簇,将该话题子簇的簇质心向量输入第二层网络,以根据该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值以及第二层网络对应的聚类控制阈值,确定多个话题大簇。
在本申请的一种可能实施方式中,簇描述信息包括子簇摘要,在此情况下,处理器810可以执行如下处理,以生成与高聚类控制阈值对应的网络所输出的话题子簇的子簇摘要:从话题子簇的各文本中提取原文,以形成话题子簇的子簇摘要。
在本申请的一种可能实施方式中,簇描述信息包括簇主题短语,在此情况下,处理器810可以执行如下处理,以生成与低聚类控制阈值对应的网络所输出的话题大簇的簇主题短语:根据话题大簇中的多个碎片组合词的词重要性指标以及每个碎片组合词的文本特性,从多个碎片组合词中确定出多个候选短语;根据每个候选短语自身的短语重要性指标以及各候选短语与话题大簇中的其他短语的语义相似性,从多个候选短语中确定出至少一个簇主题短语。
在本申请的一种可能实施方式中,每个候选短语为多个碎片组合词中短语重要性指标大于设定指标阈值、且文本特性满足预设短语筛选条件的碎片组合词,处理器810可以执行如下处理,以确定每个碎片组合词:对话题大簇中的各文本进行分词,获得多个碎片词;确定各碎片词对应的词重要性指标;根据各碎片词对应的词性和词重要性指标,对相邻碎片词进行组合,以获得多个碎片组合词。预设短语筛选条件包括以下项中的至少一项:碎片组合词的token长度小于设定长度阈值;碎片组合词中存在的虚词的数量小于第一设定数量阈值;碎片组合词的两端token的词性不属于虚词和停用词;碎片组合词中存在的停用词的数量小于第二设定数量阈值。
在本申请的一种可能实施方式中,处理器810可以执行如下处理,以确定至少一个簇主题短语:根据候选短语的短语重要性指标以及权衡重要性系数,确定候选短语的重要性指数;确定候选短语与话题大簇中的各其他候选短语之间的相似度;根据最大相似度以及权衡相似系数,确定候选短语的相似性指数,权衡相似系数与权衡重要性系数之和为1;根据重要性指数和相似性指数,确定将候选短语确定为簇主题短语的推荐指数;将推荐指数大于预设推荐阈值的候选短语,确定为簇主题短语。
在本申请的一种可能实施方式中,文本集合为针对目标对象的文本集合,所述文本集合中的每个文本为不同用户针对所述目标对象的评论内容。
根据本申请的电子设备,在实现文本向量化上,较好地兼顾句子语义以及主题的信息,同时避免了在短文本上容易导致严重的数据稀疏问题。在聚类方法上,避免了传统聚类算法存在的聚类中心随意、受输入文本顺序影响大等问题。
本申请实施例还提供一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述任一实施例中文本处理方法的步骤,具体如下:
获取文本集合,文本集合包括多个文本;
对多个文本分别进行特征提取,以形成与各文本对应的特征向量;
将多个特征向量输入多层级联网络,获得与多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;
生成与每个话题簇对应的簇描述信息。
在本申请的一种可能实施方式中,处理器还可以执行如下处理,以确定与每个文本对应的特征向量:将该文本输入文本特征提取模型,以获得与该文本对应的特征向量,其中,文本特征提取模型为孪生网络架构中的一个分支,孪生网络架构包括网络结构相同的多个分支,孪生网络架构是基于多个句子之间的语义相似性来训练获得的。
在本申请的一种可能实施方式中,处理器可以执行如下处理,以对孪生网络架构进行训练:获取训练样本,训练样本包括句子组合以及针对该句子组合设置的训练标签,句子组合包括多个句子,训练标签用于指示句子组合中的各句子之间的语义相似性;将句子组合中的每个句子分别输入到孪生网络架构中的各分支,获得与各分支对应输出的句子向量;确定各句子向量的语义表征值,语义表征值用于表征各句子向量之间的语义相似性;根据语义表征值和训练标签的赋值,确定针对孪生网络架构中的各分支的模型损失值;根据所确定的模型损失值,对孪生网络架构中的各分支进行同步调整。
在本申请的一种可能实施方式中,多层级联网络中的首层网络的初始聚类中心是根据各特征向量对应的局部密度值和邻近距离值来确定的,和/或,针对多层级联网络中的每层其他网络,该其他网络的输入为上一层网络所输出的话题簇的簇质心向量,所述其他网络为非首层网络,和/或,多层级联网络中的每层网络均为单通道网络结构。
在本申请的一种可能实施方式中,每层其他网络的初始聚类中心是根据上一层网络所输出的话题簇的簇质心向量来确定的,针对每层其他网络,该其他网络的输入是从上一层网络所输出的话题簇的簇质心向量中去除该其他网络所对应的初始聚类中心之后的簇质心向量。
在本申请的一种可能实施方式中,多层级联网络包括第一层网络和第二层网络,第一层网络对应的聚类控制阈值大于第二层网络对应的聚类控制阈值,高聚类控制阈值对应的网络所输出的话题簇为话题子簇,低聚类控制阈值对应的网络所输出的话题簇为话题大簇,在此情况下,处理器可以执行如下处理,以获得与每层网络对应输出的话题簇:针对每个特征向量,将该特征向量输入第一层网络,以根据该特征向量与第一层网络对应的各初始话题簇的簇质心向量之间的相似度值以及第一层网络对应的聚类控制阈值,确定多个话题子簇,每个初始话题簇是基于第一层网络的初始聚类中心形成的;针对每个话题子簇,将该话题子簇的簇质心向量输入第二层网络,以根据该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值以及第二层网络对应的聚类控制阈值,确定多个话题大簇。
在本申请的一种可能实施方式中,簇描述信息包括子簇摘要,在此情况下,处理器可以执行如下处理,以生成与高聚类控制阈值对应的网络所输出的话题子簇的子簇摘要:从话题子簇的各文本中提取原文,以形成话题子簇的子簇摘要。
在本申请的一种可能实施方式中,簇描述信息包括簇主题短语,在此情况下,处理器可以执行如下处理,以生成与低聚类控制阈值对应的网络所输出的话题大簇的簇主题短语:根据话题大簇中的多个碎片组合词的词重要性指标以及每个碎片组合词的文本特性,从多个碎片组合词中确定出多个候选短语;根据每个候选短语自身的短语重要性指标以及各候选短语与话题大簇中的其他短语的语义相似性,从多个候选短语中确定出至少一个簇主题短语。
在本申请的一种可能实施方式中,每个候选短语为多个碎片组合词中短语重要性指标大于设定指标阈值、且文本特性满足预设短语筛选条件的碎片组合词,处理器可以执行如下处理,以确定每个碎片组合词:对话题大簇中的各文本进行分词,获得多个碎片词;确定各碎片词对应的词重要性指标;根据各碎片词对应的词性和词重要性指标,对相邻碎片词进行组合,以获得多个碎片组合词。预设短语筛选条件包括以下项中的至少一项:碎片组合词的token长度小于设定长度阈值;碎片组合词中存在的虚词的数量小于第一设定数量阈值;碎片组合词的两端token的词性不属于虚词和停用词;碎片组合词中存在的停用词的数量小于第二设定数量阈值。
在本申请的一种可能实施方式中,处理器可以执行如下处理,以确定至少一个簇主题短语:根据候选短语的短语重要性指标以及权衡重要性系数,确定候选短语的重要性指数;确定候选短语与话题大簇中的各其他候选短语之间的相似度;根据最大相似度以及权衡相似系数,确定候选短语的相似性指数,权衡相似系数与权衡重要性系数之和为1;根据重要性指数和相似性指数,确定将候选短语确定为簇主题短语的推荐指数;将推荐指数大于预设推荐阈值的候选短语,确定为簇主题短语。
在本申请的一种可能实施方式中,文本集合为针对目标对象的文本集合,所述文本集合中的每个文本为不同用户针对所述目标对象的评论内容。
根据本申请的计算机可读存储介质,在实现文本向量化上,较好地兼顾句子语义以及主题的信息,同时避免了在短文本上容易导致严重的数据稀疏问题。在聚类方法上,避免了传统聚类算法存在的聚类中心随意、受输入文本顺序影响大等问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获取文本集合,所述文本集合包括多个文本;
对所述多个文本分别进行特征提取,以形成与各文本对应的特征向量;
将多个特征向量输入多层级联网络,获得与所述多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;
生成与每个话题簇对应的簇描述信息。
2.根据权利要求1所述的方法,其特征在于,通过以下方式确定与每个文本对应的特征向量:
将该文本输入文本特征提取模型,以获得与该文本对应的特征向量,其中,所述文本特征提取模型为孪生网络架构中的一个分支,所述孪生网络架构包括网络结构相同的多个分支,所述孪生网络架构是基于多个句子之间的语义相似性来训练获得的。
3.根据权利要求2所述的方法,其特征在于,通过以下方式对所述孪生网络架构进行训练:
获取训练样本,所述训练样本包括句子组合以及针对该句子组合设置的训练标签,所述句子组合包括多个句子,所述训练标签用于指示句子组合中的各句子之间的语义相似性;
将句子组合中的每个句子分别输入到孪生网络架构中的各分支,获得与各分支对应输出的句子向量;
确定各句子向量的语义表征值,所述语义表征值用于表征各句子向量之间的语义相似性;
根据所述语义表征值和所述训练标签的赋值,确定针对孪生网络架构中的各分支的模型损失值;
根据所确定的模型损失值,对孪生网络架构中的各分支进行同步调整。
4.根据权利要求1所述的方法,其特征在于,所述多层级联网络中的首层网络的初始聚类中心是根据各特征向量对应的局部密度值和邻近距离值来确定的,
和/或,针对所述多层级联网络中的每层其他网络,该其他网络的输入为上一层网络所输出的话题簇的簇质心向量,所述其他网络为非首层网络,
和/或,所述多层级联网络中的每层网络均为单通道网络结构。
5.根据权利要求4所述的方法,其特征在于,每层其他网络的初始聚类中心是根据上一层网络所输出的话题簇的簇质心向量来确定的,
针对每层其他网络,该其他网络的输入是从上一层网络所输出的话题簇的簇质心向量中去除该其他网络所对应的初始聚类中心之后的簇质心向量。
6.根据权利要求4或5所述的方法,其特征在于,所述多层级联网络包括第一层网络和第二层网络,第一层网络对应的聚类控制阈值大于第二层网络对应的聚类控制阈值,高聚类控制阈值对应的网络所输出的话题簇为话题子簇,低聚类控制阈值对应的网络所输出的话题簇为话题大簇,
其中,通过以下方式获得与每层网络对应输出的话题簇:
针对每个特征向量,将该特征向量输入第一层网络,以根据该特征向量与第一层网络对应的各初始话题簇的簇质心向量之间的相似度值以及第一层网络对应的聚类控制阈值,确定多个话题子簇,每个初始话题簇是基于第一层网络的初始聚类中心形成的;
针对每个话题子簇,将该话题子簇的簇质心向量输入第二层网络,以根据该话题子簇的簇质心向量与第二层网络对应的初始聚类中心之间的相似度值以及第二层网络对应的聚类控制阈值,确定多个话题大簇。
7.根据权利要求1所述的方法,其特征在于,所述簇描述信息包括子簇摘要,
其中,通过以下方式生成与高聚类控制阈值对应的网络所输出的话题子簇的子簇摘要:
从话题子簇的各文本中提取原文,以形成话题子簇的子簇摘要。
8.根据权利要求1所述的方法,其特征在于,所述簇描述信息包括簇主题短语,
其中,通过以下方式生成与低聚类控制阈值对应的网络所输出的话题大簇的簇主题短语:
根据话题大簇中的多个碎片组合词的词重要性指标以及每个碎片组合词的文本特性,从多个碎片组合词中确定出多个候选短语;
根据每个候选短语自身的短语重要性指标以及各候选短语与话题大簇中的其他短语的语义相似性,从所述多个候选短语中确定出至少一个簇主题短语。
9.根据权利要求8所述的方法,其特征在于,每个候选短语为多个碎片组合词中短语重要性指标大于设定指标阈值、且文本特性满足预设短语筛选条件的碎片组合词,
和/或,通过以下方式确定每个碎片组合词:
对话题大簇中的各文本进行分词,获得多个碎片词;
确定各碎片词对应的词重要性指标;
根据各碎片词对应的词性和词重要性指标,对相邻碎片词进行组合,以获得多个碎片组合词;
和/或,所述预设短语筛选条件包括以下项中的至少一项:
碎片组合词的token长度小于设定长度阈值;
碎片组合词中存在的虚词的数量小于第一设定数量阈值;
碎片组合词的两端token的词性不属于虚词和停用词;
碎片组合词中存在的停用词的数量小于第二设定数量阈值。
10.根据权利要求8所述的方法,其特征在于,通过以下方式确定至少一个簇主题短语:
根据候选短语的短语重要性指标以及权衡重要性系数,确定候选短语的重要性指数;
确定候选短语与话题大簇中的各其他候选短语之间的相似度;
根据最大相似度以及权衡相似系数,确定候选短语的相似性指数,权衡相似系数与权衡重要性系数之和为1;
根据重要性指数和相似性指数,确定将候选短语确定为簇主题短语的推荐指数;
将推荐指数大于预设推荐阈值的候选短语,确定为簇主题短语。
11.根据权利要求1所述的方法,其特征在于,所述文本集合为针对目标对象的文本集合,所述文本集合中的每个文本为不同用户针对所述目标对象的评论内容。
12.一种文本处理装置,其特征在于,包括:
文本获取模块,获取文本集合,所述文本集合包括多个文本;
特征提取模块,对所述多个文本分别进行特征提取,以形成与各文本对应的特征向量;
簇聚类模块,将多个特征向量输入多层级联网络,获得与所述多层级联网络中的每层网络对应输出的话题簇,其中,每层网络对应的聚类控制阈值是不同的;
信息生成模块,生成与每个话题簇对应的簇描述信息。
13.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至11中任一项所述的文本处理方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至11中任一项所述的文本处理方法的步骤。
CN202210922599.9A 2022-08-02 2022-08-02 文本处理方法、装置、电子设备及存储介质 Pending CN115269846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210922599.9A CN115269846A (zh) 2022-08-02 2022-08-02 文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210922599.9A CN115269846A (zh) 2022-08-02 2022-08-02 文本处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115269846A true CN115269846A (zh) 2022-11-01

Family

ID=83746731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210922599.9A Pending CN115269846A (zh) 2022-08-02 2022-08-02 文本处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115269846A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361470A (zh) * 2023-04-03 2023-06-30 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361470A (zh) * 2023-04-03 2023-06-30 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法
CN116361470B (zh) * 2023-04-03 2024-05-14 北京中科闻歌科技股份有限公司 一种基于话题描述的文本聚类清洗和合并方法

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
Saad et al. Evaluation of support vector machine and decision tree for emotion recognition of malay folklores
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN114997288A (zh) 一种设计资源关联方法
CN114707517B (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination