CN113934842A - 文本聚类方法、装置及可读存储介质 - Google Patents

文本聚类方法、装置及可读存储介质 Download PDF

Info

Publication number
CN113934842A
CN113934842A CN202010608651.4A CN202010608651A CN113934842A CN 113934842 A CN113934842 A CN 113934842A CN 202010608651 A CN202010608651 A CN 202010608651A CN 113934842 A CN113934842 A CN 113934842A
Authority
CN
China
Prior art keywords
text
similarity
corpus
vector
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010608651.4A
Other languages
English (en)
Inventor
杨全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Finance Ltd
Original Assignee
Digital Finance Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Finance Ltd filed Critical Digital Finance Ltd
Priority to CN202010608651.4A priority Critical patent/CN113934842A/zh
Publication of CN113934842A publication Critical patent/CN113934842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本聚类方法、装置及可读存储介质,该文本聚类方法包括:获取至少一个文本语料;对该至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量;对该至少一个文本向量进行相似度计算,以得到至少一个文本向量对应的文本相似度矩阵;切分该文本相似度矩阵得到K个文本相似度块,并根据该K个文本相似度块,得到N个文本类簇,该K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,其中,K为大于或等于1的整数,N为小于或等于K的正整数。采用这样的文本聚类方法,可以提升聚类速度和聚类结果的准确性。

Description

文本聚类方法、装置及可读存储介质
技术领域
本发明涉及自然语言处理应用领域,尤其涉及一种文本聚类方法、装置、服务器及可读存储介质。
背景技术
智能客服机器人在功能上主要表现为智能问答、引导客户自助服务等,通常能快速解决大部分客户的问题,提高客服接待效率和提升客户满意度。文本作为信息数据的主要信息载体之一,在智能客服机器人系统中发挥着重要作用。
为了能让智能客服机器人根据客户问题匹配出最佳的回答,需要对大量的客户问题进行文本信息聚类。但是,由于文本聚类算法的空间复杂度较高且文本信息数据存在类间距不均的情况,造成在进行文本信息聚类时文本聚类速度慢、聚类效率较低以及聚类结果准确性较低的问题。
可见,如何在进行文本聚类任务时,提升聚类速度和聚类结果的准确性是一个亟待解决的问题。
发明内容
本发明实施例提供了一种文本聚类方法、装置、服务器及可读存储介质,采用这样的文本聚类方法,可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
第一方面,本发明实施例提供了一种文本聚类方法,所述方法包括:
获取至少一个文本语料;
对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
第二方面,本发明实施例提供了一种文本聚类装置,所述装置包括:
获取模块,用于获取至少一个文本语料;
处理模块,用于对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
所述处理模块,还用于对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
所述处理模块,还用于切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
第三方面,本发明实施例提供了一种服务器,所述服务器包括输入设备和输出设备,所述服务器还包括处理器,适于实现一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述第一方面所述的文本聚类方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的文本聚类方法。
本申请实施例中,服务器获取至少一个文本语料,并对该至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量。进一步地,服务器可以对该至少一个文本向量进行相似度计算,以得到该至少一个文本向量对应的文本相似度矩阵,并切分文本相似度矩阵得到K个文本相似度块,进而,可以根据这K个文本相似度块,得到N个文本类簇,其中,该K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,K为大于或等于1的整数,N为小于或等于K的正整数。采用这样的文本聚类方法,可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本聚类方法的流程示意图;
图2是本发明实施例提供的另一种文本聚类方法的流程示意图;
图3是本发明实施例提供的一种文本类簇的示意图;
图4是本发明实施例提供的又一种文本聚类方法的流程示意图;
图5是本发明实施例提供的一种文本聚类装置的结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于文本聚类算法的空间复杂度较高且文本信息数据存在类间距不均的情况,进行文本信息聚类时存在文本聚类速度慢、聚类效率较低以及聚类结果准确性较低的问题。本申请技术方案,通过对文本语料对应的文本向量进行相似度计算,以得到文本相似度矩阵,进一步地,通过对该文本相似度矩阵进行切分得到至少一个文本相似度块,并根据至少一个文本相似度块得到至少一个文本类簇。采用这样的方法,从每个切分出来的相似度块中得到相似的文本类簇可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
本申请的技术方案所提及的文本聚类方法可以应用于服务器,该服务器包括但不限于应用服务器或服务器集群等。
请参见图1,是本发明实施例提供的一种文本聚类方法的流程示意图,该文本聚类方法包括如下步骤:
S101:获取至少一个文本语料。
服务器接收用户终端上的应用程序输入的至少一个(一个或多个)文本语料。例如,用户终端上安装有A电商应用程序,至少一个(一个或多个)用户通过A电商应用程序输入了至少一个聊天问题(即,前述文本语料),服务器获取(或接收)该至少一个聊天问题。
S102:对至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量。
需要知晓,向量化处理即是将每个文本语料转换为文本向量的处理方法。
服务器对前述获取的至少一个文本语料中每个文本语料进行向量化处理,得到至少一个文本向量,其中,文本向量的数量与文本语料的数量相同,且文本向量与文本语料一一对应。
在一个实施例中,服务器获取至少一个文本语料中每个文本语料进行分词处理,得到每个文本语料包括的各个分词,并对各个分词进行词性标注。进一步地,服务器可以计算各个分词在每个文本语料中的逆文档频率值,并根据各个分词的词性标注结果以及各个分词在每个文本语料中的逆文档频率值对每个文本语料进行向量化处理,得到至少一个文本语料对应的至少一个文本向量。
其中,服务器根据词性标注结果和各个分词在每个文本语料中的逆文档频率值,对每个文本语料进行向量化处理的具体方式可以为根据各个分词的词性,对各个分词的逆文档频率值进行修正,即,获取各个分词的词性对应的预设权重值,并分别利用各个分词的词性对应的预设权重值对各个分词在每个文本语料中的逆文档频率值进行加权计算,得到各个分词的加权逆文档频率值,进一步地,可以利用各个分词的加权逆文档频率值表征每个文本语料,进而得到每个文本语料对应的文本向量。其中,各个分词的词性对应的预设权重值为开发人员根据实验场景数据测定,后期可根据具体应用场景进行相应调整,在此不作具体限定。
示例性地,服务器可以采用jieba分词技术对每个文本语料进行分词处理和词性标注,例如,利用jieba分词技术将文本语料“我穿什么码”得到名词“我”、动词“穿”、代词“什么”和量词“码”,并根据如下公式:
Figure BDA0002560977510000051
计算每个文本语料中各个分词的逆文档频率,得到“我”的逆文档频率值为0.6,“穿”的逆文档频率值为2,“什么”的逆文档频率值为1.5,“码”的逆文档频率值为1,获取各个分词对应的权重值,名词“我”对应权重值为0.5、动词“穿”对应权重值为1.2、代词“什么”对应权重值为1.2和量词“码”对应权重为1.2,则根据各个分词的词性对各个分词对应的逆文档频率值进行加权计算,得到名词“我”的加权逆文档频率值为0.3、动词“穿”的加权逆文档频率值为2.4、代词“什么”的加权逆文档频率值为1.8和量词“码”的加权逆文档频率值为1.2,则“我穿什么码”对应的文本向量可以表示为[0.3,0.4,1.8,1.2]。
可选地,服务器还可以根据词袋模型算法将每个文本语料进行向量化处理,其中词袋模型算法的基本原理为现有技术手段,在此不再进行过多赘述。
S103:对至少一个文本向量进行相似度计算,以得到该至少一个文本向量对应的文本相似度矩阵。
服务器计算至少一个文本向量中各个文本向量与其他文本向量之间的相似度,并根据计算出来的相似度构建文本相似度矩阵。
在一个实施例中,服务器可以根据分布式计算方法,计算至少一个文本向量中的任意两个文本向量之间的相似度,并根据各个向量之间的相似度,构建至少一个文本向量对应的文本相似度矩阵。
示例性地,服务器获取有多个短文本语料,服务器根据从0到短文本语料总数将其进行索引标号,并将全部短文本进行两两组合得到相似度计算任务总量,并根据应用服务器的数量,将该相似度计算任务总量进行分流,即每一台应用服务器计算该相似度计算任务总量的部分相似度计算任务,采用这样的方法可以提升计算速度。其中,服务器可以计算任意两个文本向量之间的余弦相似度(两个文本向量之间夹角的余弦大小)来度量任意两个文本向量之间的相似度。最后服务器将每台应用服务器计算的相似度任务计算的记过按照索引标号进行汇总,得到以相似度为元素的文本相似度矩阵。作为一种可选的实施方式,服务器还可以根据欧式距离、曼哈顿距离、皮尔逊相关系数等方法来度量任意两个文本向量之间的相似度。
S104:切分该文本相似度矩阵得到K个文本相似度块,并根据该K个文本相似度块,得到N个文本类簇,其中,K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,K为大于或等于1的整数,N为小于或等于K的正整数。
其中,相似度阈值为开发人员根据实验数据测算得到,后续可根据具体应用场景进行相应调整,在此不做具体限制。切分数量阈值可以为开发人员根据实验数据测算得到,后续可根据具体应用场景进行相应调整,在此不做具体限制。或,切分数量阈值也可以根据具体应用场景进行动态调整,其计算公式如下:
Figure BDA0002560977510000061
其中,simNum为文本相似度矩阵中大于相似度阈值的元素个数,n为语料总数。
服务器可以将该文本相似度矩阵中小于相似度阈值的元素剔除,得到有效文本相似度矩阵,并根据切分数量阈值对该有效文本相似度矩阵进行切分,得到K个相似度块,并根据该K个相似度块得到N个文本类簇,其中,K为大于或等于1的整数,N为小于或等于K的正整数。
在一个实施例中,服务器对文本相似度矩阵按行进行扫描,以获取该文本相似度矩阵包括的至少一个行向量,并统计至少一个行向量中每个行向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量,进一步地,服务器可以将至少一个行向量中对应的有效元素的数量大于或等于切分数量阈值的行向量作为文本相似度块,得到K个文本相似度块。
可选地,服务器也可以对文本相似度矩阵按列进行扫描,以获取该文本相似度矩阵包括的至少一个列向量,并统计至少一个列向量中每个列向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量,进一步地,服务器可以将至少一个列向量中对应的有效元素的数量大于或等于切分数量阈值的列向量作为文本相似度块得到K个文本相似度块。
示例性地,相似度阈值为0.4,在这种情况下文本相似度矩阵A对应有行向量a1,行向量a2和行向量a3,其中每个行向量中有1000个元素。服务器分别将行向量a1,行向量a2和行向量a3中小于0.4的元素剔除之后,此时行向量a1的元素数量为300,行向量a2的元素数量为100,行向量a3的元素数量为80。假设经过前述切分数量阈值计算公式计算得到切分数量阈值为20,由于行向量a1、行向量a2和行向量a3的元素数量均大于20,则分别将行向量a1,行向量a2和行向量a3作为3个文本相似度块。
本申请实施例中,服务器获取至少一个文本语料,并对该至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量。进一步地,服务器可以对该至少一个文本向量进行相似度计算,以得到该至少一个文本向量对应的文本相似度矩阵,并切分文本相似度矩阵得到K个文本相似度块,进而,可以根据这K个文本相似度块,得到N个文本类簇,其中,该K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,K为大于或等于1的整数,N为小于或等于K的正整数。采用这样的文本聚类方法,可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
请参见图2,是本发明实施例提供的另一种文本聚类方法的流程示意图,该文本聚类方法包括如下步骤:
S201:获取至少一个文本语料。
S202:对至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量。
S203:对至少一个文本向量进行相似度计算,以得到该至少一个文本向量对应的文本相似度矩阵。
S204:切分该文本相似度矩阵得到K个文本相似度块,其中,K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,K为大于或等于1的整数。
其中,步骤S201-S204的具体实施方式可以参见前述实施例中步骤S101-S104的具体实施方法,在此不再进行过多赘述。
S205:计算K个文本相似度块中任意两个文本相似度块之间的重合度。
应知晓的是,重合度为两个文本相似度块中包含的文本语料的重合度,例如,文本相似度块1对应的文本语料有语料1、语料2、语料3和语料5,文本相似度块2对应的文本语料有语料1、语料2,语料4、语料5和语料6,则重合度为文本相似度块1与文本相似度块2之间文本语料交集的数量3,和文本相似度块1与文本相似度块2之间文本语料并集的数量6之间的比值为0.5,即,文本相似度块1与文本相似度块2之间的重合度为0.5。
S206:根据任意两个文本相似度块之间的重合度从K个文本相似度块中确定出N个文本相似度块,其中,N个文本相似度块中的每个文本相似度块与K个文本相似度块中其他任意一个文本相似度块之间的重合度均小于或等于预设重合度阈值。
其中,N为小于或等于K的正整数。预设重合度阈值为开发人员根据实验数据测算得到,后续可以根据具体应用场景进行相应的调整,在此不做具体限定。
服务器从K个文本相似度块中筛选出与其他任意一个文本相似度块之间的重合度均小于或等于预设重合度阈值的N个文本相似度块。例如,预设重合度阈值为0.3,现有文本相似度块1、文本相似度块2和文本相似度块3,经计算文本相似度块2与文本相似度块1为重合度为0.2,文本相似度块3与文本相似度块1的重合度为0.1,文本相似度块3与文本相似度块2的重合度为0.4,则剔除文本相似度块3,保留文本相似度块1和文本相似度块2。采用这样的方法,能提升不同文本类簇之间的类间距离,提升聚类结果的准确度。
S207:确定该N个文本相似度块对应的N个文本类簇。
服务器根据该N个文本相似度块对应的文本语料,确定该N个文本相似度块对应的N个文本类簇。
在一个实施例中,服务器获取该N个文本相似度块中每个文本相似度块包括的相似度对应的目标文本向量,进一步地,服务器可以将该目标文本向量对应的文本语料作为每个文本相似度块对应的文本类簇,以得到N个文本类簇。
示例性地,服务器根据文本相似矩阵按行进行切分,得到6个文本相似度块,其中,每个文本相似度块包含6个相似度,每个相似度对应两个目标文本向量,每个目标文本向量对应一个文本语料。则服务器获取每个文本相似度块中的各个相似度对应的目标文本向量,并将该目标文本向量对应的文本语料作为每个文本类簇中包括的文本语料,得到6个文本类簇如图3所示,31模块为每个文本类簇的文本语料的数量,32模块为每个文本类簇包括的文本语料。
在一个实施例中,服务器可以将该目标文本向量对应的文本语料作为每个文本相似度块对应的文本类簇,以得到N个文本类簇的具体操作方式可以为,服务器将该目标文本向量对应的文本语料作为每个文本相似度块对应的文本类簇,并获取每个文本类簇包括的任意两个文本语料对应的文本向量之间的相似度,进一步地,服务器可以根据该任意两个文本语料对应的文本向量之间的相似度确定每个文本类簇对应的目标文本语料,并根据该目标文本语料对每个文本类簇进行文本语料的删减,得到N个文本类簇。采用这样的方法,可以保证每个文本类簇包含的任一文本语料与其余文本语料相似,增大了每类文本类簇的类内相似度。
示例性地,服务器获某一文本相似度块包括的相似度对应的目标文本向量之后,得到目标文本向量a1、目标文本向量a2、目标文本向量a3、目标文本向量a4,将该目标文本向量对应的文本语料1、文本语料2、文本语料3、文本语料4作为该文本相似度块对应的文本类簇,并从前述文本相似度矩阵中获取目标文本向量a1与目标文本向量a2之间的相似度a12、目标文本向量a1与目标文本向量a3之间的相似度a13、目标文本向量a1与目标文本向量a4之间的相似度a14、目标文本向量a2与目标文本向量a3之间的相似度a23、目标文本向量a2与目标文本向量a4之间的相似度a24、目标文本向量a3与目标文本向量a4之间的相似度a34,构成相似度矩阵如下式所示:
Figure BDA0002560977510000101
其中,该相似度矩阵的第一个行向量对应目标文本向量a1与其他各目标文本向量之间的相似度,第二个行向量对应目标文本向量a2与其他各目标文本向量之间的相似度,第三个行向量对应目标文本向量a3与其他各目标文本向量之间的相似度,第四个行向量对应目标文本向量a4与其他各目标文本向量之间的相似度。若该相似度矩阵中第四个行向量包括的有效元素的数量(即,相似度大于或等于前述相似度阈值的数量)小于前述切分数量阈值,则从该文本相似度块包括的相似度对应的目标文本向量a1、目标文本向量a2、目标文本向量a3、目标文本向量a4中,移出目标文本向量a4,即,从该文本相似度块对应的文本语料中去除目标文本向量a4对应的文本语料4。
在一个实施例中,服务器还可以获取N个文本类簇中任意一个文本类簇包括的各个文本语料之间的差异度,并根据各个文本语料之间的差异度对任意一个文本类簇中的文本语料进行去重处理。
其中,两个文本语料之间的差异度可以是用编辑距离来衡量两个文本语料的单词之间的重合度。编辑距离是指在两个单词之间,由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数,其中,编辑距离的取值范围为[0,1],编辑距离为0则表示两个文本语料之间的差异度较大,编辑距离为1则表示两个文本语料之间的差异度较小。
服务器可以对前述得到的N个文本类簇的每个文本类簇包括的各个文本语料之间的编辑距离,即,从字符(或单词)层面计算任意两个文本语料之间的重复度。若任意两个文本语料之间的编辑距离大于预设编辑距离阈值,则可认为该两个文本语料中的其中一个文本语料被另一个文本语料重复,则分别计算两个文本语料的字符长度,保留字符长度相对较大的那条文本语料。其中,预设编辑距离阈值为开发人员根据实验数据测算得到,后续可根据具体应用场景进行相应调整,在此不做具体限定。例如,文本语料1“你吃过饭了吗”和文本语料2“你吃饭了吗”可以视为文本语料2被文本语料1重复,由于文本语料1的字符长度大于文本语料2的字符长度,则在该文本类簇中保留文本语料1,移出文本语料2。
在一个应用场景中,如图4所示为本实施例提供的又一种文本聚类方法,在该文本聚类方法中,服务器获取大规模短文本(即前文的至少一个文本语料),对该大规模短文本中的每一个短文本(即前文所提的每一个文本语料)进行分词处理,并对每个分词进行词性标注,进而,服务器可以计算各个分词在每个短文本中的逆文档频率值,并根据各个分词的词性标注结果以及各个分词在每个文本语料中的逆文档频率值表征每个短文本(即图中所提的句子),得到至少一个文本向量。为了提升服务器计算速度,服务器采用分布式计算方法,如图4所示,利用M台机器(或应用服务器)来计算至少一个文本向量中的任意两个文本向量之间的相似度,并对各台机器的计算结果进行汇总,构建至少一个文本向量对应的文本相似度矩阵。进一步地,服务器按行或按列对该文本相似度矩阵中的相似度进行排序,并切分该文本相似度矩阵得到N个相似度块(即前文实施例2所提的N个文本相似度块),其中,N个相似度块中每个相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值。从而,服务器可以利用P台机器(或应用服务器)根据N个相似度块确定出每个相似度块对应的文本类簇(即图4中所示的聚类),并计算各个相似度块对应的文本类簇包括的各个文本语料之间的差异度(即前文所提的编辑距离),根据各个文本语料之间的差异度对任意一个文本类簇中的文本语料进行去重,从而,服务器可以将P台机器的计算结果进行汇总,得到汇总结果(即前文实施例2中所提的N个文本类簇)。通过这样文本聚类方法提升了文本聚类结果的准确度,并利用分布式计算方式提升了文本聚类的速度。
本申请实施例中,服务器获取至少一个文本语料,并对至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量,进一步地,服务器可以对至少一个文本向量进行相似度计算,以得到该至少一个文本向量对应的文本相似度矩阵,并切分该文本相似度矩阵得到K个文本相似度块,其中,K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,K为大于或等于1的整数。进而,服务器计算K个文本相似度块中任意两个文本相似度块之间的重合度,并根据任意两个文本相似度块之间的重合度从K个文本相似度块中确定出N个文本相似度块,其中,N个文本相似度块中的每个文本相似度块与K个文本相似度块中其他任意一个文本相似度块之间的重合度均小于或等于预设重合度阈值。从而,服务器确定该N个文本相似度块对应的N个文本类簇。通过这样的方法,对文本聚类任务中聚类结果进行筛选,增大了文本类簇的类间差距,加大了类内相似度,进一步提升了文本聚类结果的准确性。
基于上述方法实施例的描述,本发明实施例还提出了一种文本聚类装置。请参见图5所示,该文本聚类装置包括如下模块:
获取模块50,用于获取至少一个文本语料;
处理模块51,用于对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
所述处理模块51,还用于对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
所述处理模块51,还用于切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
在一个实施例中,所述处理模块51,具体用于对所述至少一个文本语料中的每个文本语料进行分词处理,得到所述每个文本语料包括的各个分词,并对所述各个分词进行词性标注;计算所述各个分词在所述每个文本语料中的逆文档频率值;根据词性标注结果和所述各个分词在所述每个文本语料中的逆文档频率值,对所述每个文本语料进行向量化处理,得到所述至少一个文本语料对应的至少一个文本向量。
在一个实施例中,所述处理模块51,具体用于根据分布式计算方法,计算所述至少一个文本向量中的任意两个文本向量之间的相似度;根据各个文本向量之间的相似度,构建所述至少一个文本向量对应的文本相似度矩阵。
在一个实施例中,所述处理模块51,具体用于对所述文本相似度矩阵按行进行扫描,以获取所述文本相似度矩阵包括的至少一个行向量;统计所述至少一个行向量中每个行向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量;将所述至少一个行向量中对应的有效元素的数量大于或等于切分数量阈值的行向量作为所述文本相似度矩阵得到K个文本相似度块。
在一个实施例中,所述处理模块51,具体用于计算所述K个文本相似度块中任意两个文本相似度块之间的重合度;根据所述任意两个文本相似度块之间的重合度从所述K个文本相似度块确定出N个文本相似度块,所述N个文本相似度块中的每个文本相似度块与所述K个文本相似度块中其他任意一个文本相似度块之间的重合度均小于或等于预设重合度阈值;确定所述N个文本相似度块对应的N个文本类簇。
在一个实施例中,所述处理模块51,具体用于获取所述N个文本相似度块中每个文本相似度块包括的相似度对应的目标文本向量;将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇,以得到N个文本类簇。
在一个实施例中,所述处理模块51,具体用于将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇;获取每个所述文本类簇包括的任意两个文本语料对应的文本向量之间的相似度;根据所述任意两个文本语料对应的文本向量之间的相似度确定所述每个文本类簇对应的目标文本语料;根据所述目标文本语料对所述每个文本类簇进行文本语料的删减,得到N个文本类簇。
在一个实施例中,所述处理模块51,还用于获取所述N个文本类簇中任意一个文本类簇包括的各个文本语料之间的差异度;根据所述各个文本语料之间的差异度对所述任意一个文本类簇中的文本语料进行去重处理。
需要说明的是,本发明实施例所描述的文本聚类装置的各模块的功能可根据图1或图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或图2方法实施例的相关描述,此处不再赘述。
基于上述方法实施例以及装置项实施例的描述,本发明实施例还提供一种服务器。请参见图6,该服务器可至少包括处理器601、输入设备602、输出设备603以及存储器604;其中,处理器601、输入设备602、输出设备603以及存储器604可通过总线或者其它连接方式进行连接。所述存储器604用于存储计算机程序,所述计算机程序包括程序指令,所述处理器601用于执行所述存储器604存储的程序指令。处理器601(或称CPU(CentralProcessing Unit,中央处理器))是服务器的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现上述文本聚类方法实施例中的相应方法流程或相应功能。其中,处理器601被配置调用所述程序指令执行:获取至少一个文本语料;对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
在一个实施例中,所述处理器601,具体用于对所述至少一个文本语料中的每个文本语料进行分词处理,得到所述每个文本语料包括的各个分词,并对所述各个分词进行词性标注;计算所述各个分词在所述每个文本语料中的逆文档频率值;根据词性标注结果和所述各个分词在所述每个文本语料中的逆文档频率值,对所述每个文本语料进行向量化处理,得到所述至少一个文本语料对应的至少一个文本向量。
在一个实施例中,所述处理器601,具体用于根据分布式计算方法,计算所述至少一个文本向量中的任意两个文本向量之间的相似度;根据各个文本向量之间的相似度,构建所述至少一个文本向量对应的文本相似度矩阵。
在一个实施例中,所述处理器601,具体用于对所述文本相似度矩阵按行进行扫描,以获取所述文本相似度矩阵包括的至少一个行向量;统计所述至少一个行向量中每个行向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量;将所述至少一个行向量中对应的有效元素的数量大于或等于切分数量阈值的行向量作为所述文本相似度矩阵得到K个文本相似度块。
在一个实施例中,所述处理器601,具体用于计算所述K个文本相似度块中任意两个文本相似度块之间的重合度;根据所述任意两个文本相似度块之间的重合度从所述K个文本相似度块确定出N个文本相似度块,所述N个文本相似度块中的每个文本相似度块与所述K个文本相似度块中其他任意一个文本相似度块之间的重合度均小于或等于预设重合度阈值;确定所述N个文本相似度块对应的N个文本类簇。
在一个实施例中,所述处理器601,具体用于获取所述N个文本相似度块中每个文本相似度块包括的相似度对应的目标文本向量;将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇,以得到N个文本类簇。
在一个实施例中,所述处理器601,具体用于将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇;获取每个所述文本类簇包括的任意两个文本语料对应的文本向量之间的相似度;根据所述任意两个文本语料对应的文本向量之间的相似度确定所述每个文本类簇对应的目标文本语料;根据所述目标文本语料对所述每个文本类簇进行文本语料的删减,得到N个文本类簇。
在一个实施例中,所述处理器601,具体还用于获取所述N个文本类簇中任意一个文本类簇包括的各个文本语料之间的差异度;根据所述各个文本语料之间的差异度对所述任意一个文本类簇中的文本语料进行去重处理。
应当理解,在本发明实施例中,所称处理器601可以是中央处理单元(CentralProcessing Unit,CPU),该处理器601还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立a硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器604可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如,存储器604还可以存储设备类型的信息。该输入设备602可以包括触控板、指纹采传感器(用于采集用户的指纹信息)、麦克风、实体键盘等,输出设备603可以包括显示器(LCD等)、扬声器等。
具体实现中,本发明实施例中所描述的处理器601、存储器604、输入设备602和输出设备603可执行本发明实施例提供的图1或图2的方法实施例所描述的实现方式,也可执行本发明实施例图5所描述的文本聚类装置的实现方法,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现本发明实施例提供的图1或者图2所述的方法实施所描述的实现方式,所述计算机可读存储介质可以是前述任一实施例所述的服务器的内部存储单元,例如服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
其中,所述的可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种文本聚类方法,其特征在于,所述方法包括:
获取至少一个文本语料;
对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量,包括:
对所述至少一个文本语料中的每个文本语料进行分词处理,得到所述每个文本语料包括的各个分词,并对所述各个分词进行词性标注;
计算所述各个分词在所述每个文本语料中的逆文档频率值;
根据词性标注结果和所述各个分词在所述每个文本语料中的逆文档频率值,对所述每个文本语料进行向量化处理,得到所述至少一个文本语料对应的至少一个文本向量。
3.根据权利要求1或2所述方法,其特征在于,所述对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵,包括:
根据分布式计算方法,计算所述至少一个文本向量中的任意两个文本向量之间的相似度;
根据各个文本向量之间的相似度,构建所述至少一个文本向量对应的文本相似度矩阵。
4.根据权利要求1所述方法,其特征在于,所述切分所述文本相似度矩阵得到K个文本相似度块,包括:
对所述文本相似度矩阵按行进行扫描,以获取所述文本相似度矩阵包括的至少一个行向量;
统计所述至少一个行向量中每个行向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量;
将所述至少一个行向量中对应的有效元素的数量大于或等于切分数量阈值的行向量作为所述文本相似度块,得到K个文本相似度块。
5.根据权利要求4所述方法,其特征在于,所述根据所述K个文本相似度块,得到N个文本类簇,包括:
计算所述K个文本相似度块中任意两个文本相似度块之间的重合度;
根据所述任意两个文本相似度块之间的重合度从所述K个文本相似度块确定出N个文本相似度块,所述N个文本相似度块中的每个文本相似度块与所述K个文本相似度块中其他任意一个文本相似度块之间的重合度均小于或等于预设重合度阈值;
确定所述N个文本相似度块对应的N个文本类簇。
6.根据权利要求5所述方法,其特征在于,所述确定所述N个文本相似度块对应的N个文本类簇,包括:
获取所述N个文本相似度块中每个文本相似度块包括的相似度对应的目标文本向量;
将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇,以得到N个文本类簇。
7.根据权利要求6所述方法,其特征在于,所述将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇,以得到N个文本类簇,包括:
将所述目标文本向量对应的文本语料作为所述每个文本相似度块对应的文本类簇;
获取每个所述文本类簇包括的任意两个文本语料对应的文本向量之间的相似度;
根据所述任意两个文本语料对应的文本向量之间的相似度确定所述每个文本类簇对应的目标文本语料;
根据所述目标文本语料对所述每个文本类簇进行文本语料的删减,得到N个文本类簇。
8.根据权利要求1、4-7任一项所述方法,其特征在于,所述方法还包括:
获取所述N个文本类簇中任意一个文本类簇包括的各个文本语料之间的差异度;
根据所述各个文本语料之间的差异度对所述任意一个文本类簇中的文本语料进行去重处理。
9.一种文本聚类权装置,其特征在于,所述装置包括:
获取模块,用于获取至少一个文本语料;
处理模块,用于对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
所述处理模块,还用于对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
所述处理模块,还用于切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行以实现权利要求1-8任意一项所述方法。
CN202010608651.4A 2020-06-29 2020-06-29 文本聚类方法、装置及可读存储介质 Pending CN113934842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010608651.4A CN113934842A (zh) 2020-06-29 2020-06-29 文本聚类方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010608651.4A CN113934842A (zh) 2020-06-29 2020-06-29 文本聚类方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN113934842A true CN113934842A (zh) 2022-01-14

Family

ID=79273279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010608651.4A Pending CN113934842A (zh) 2020-06-29 2020-06-29 文本聚类方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN113934842A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722160A (zh) * 2022-06-07 2022-07-08 中国人民解放军国防科技大学 文本数据比较方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722160A (zh) * 2022-06-07 2022-07-08 中国人民解放军国防科技大学 文本数据比较方法及装置

Similar Documents

Publication Publication Date Title
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
US11790174B2 (en) Entity recognition method and apparatus
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
CN113987152A (zh) 一种知识图谱抽取方法、系统、电子设备及介质
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN113934842A (zh) 文本聚类方法、装置及可读存储介质
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination