CN113254578B - 用于数据聚类的方法、装置、设备、介质和产品 - Google Patents

用于数据聚类的方法、装置、设备、介质和产品 Download PDF

Info

Publication number
CN113254578B
CN113254578B CN202110552773.0A CN202110552773A CN113254578B CN 113254578 B CN113254578 B CN 113254578B CN 202110552773 A CN202110552773 A CN 202110552773A CN 113254578 B CN113254578 B CN 113254578B
Authority
CN
China
Prior art keywords
cluster
vector
semantic
determining
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110552773.0A
Other languages
English (en)
Other versions
CN113254578A (zh
Inventor
章文俊
周厚谦
黄强
钟辉强
卓泽城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110552773.0A priority Critical patent/CN113254578B/zh
Publication of CN113254578A publication Critical patent/CN113254578A/zh
Application granted granted Critical
Publication of CN113254578B publication Critical patent/CN113254578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了用于数据聚类的方法、装置、设备、介质和产品,涉及人工智能技术领域,进一步涉及自然语言处理技术领域。具体实现方案为:获取待聚类信息;确定待聚类信息对应的向量集合;在向量集合中确定每个语义类别对应的向量;将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。本实现方式可以提高数据聚类速度和精准度。

Description

用于数据聚类的方法、装置、设备、介质和产品
技术领域
本公开涉及人工智能技术领域,进一步涉及自然语言处理技术领域,尤其涉及用于数据聚类的方法、装置、设备、介质和产品。
背景技术
目前,网络上的待聚类信息越来越多,这些待聚类信息中包含丰富的舆情信息。对此,为了实现舆情监测,需要对这些待聚类信息进行聚合分析,从海量待聚类信息中快速提炼出有效的聚类数据。
然而,在实践中发现,现在对于待聚类信息进行数据聚类时,往往是基于待聚类信息的文本进行聚合分析,从而导致聚合时间长,难以实现实时聚类。可见,现在的数据聚类方式存在着聚类效果较差的问题。
发明内容
本公开提供了一种用于数据聚类的方法、装置、设备、介质和产品。
根据第一方面,提供了一种用于数据聚类的方法,包括:获取待聚类信息;确定待聚类信息对应的向量集合;在向量集合中确定每个语义类别对应的向量;将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。
根据第二方面,提供了一种用于数据聚类的装置,包括:数据获取单元,被配置成获取待聚类信息;集合确定单元,被配置成确定待聚类信息对应的向量集合;向量确定单元,被配置成在向量集合中确定该语义类别对应的向量;观点确定单元,被配置成将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。
根据第三方面,提供了一种执行用于数据聚类的方法的电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项用于数据聚类的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上任意一项用于数据聚类的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上任意一项用于数据聚类的方法。
根据本申请的技术,提供一种用于数据聚类的方法,能够确定待聚类信息对应的向量集合,并基于预设的各个语义类别和向量集合,按照不同的语义类别聚类相应的向量,得到不同语义类别对应的聚类数据集合。由于将待聚类信息转化为向量形式,依据向量形式的向量集合进行聚类,能够提高聚类速度。并且在聚类的过程中,按照语义类别进行分类聚类,所得到的聚类结果划分粒度更细,精准度更高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于数据聚类的方法的一个实施例的流程图;
图3是根据本申请的用于数据聚类的方法的一个应用场景的示意图;
图4是根据本申请的用于数据聚类的方法的另一个实施例的流程图;
图5是根据本申请的用于数据聚类的装置的一个实施例的结构示意图;
图6是用来实现本公开实施例的用于数据聚类的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是根据本公开第一实施例的示例性系统架构示意图,其示出了可以应用本申请的用于数据聚类的方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以为手机、电脑以及平板等电子设备,在终端设备101、102、103中,可以安装有各种应用软件,如各类社交软件。用户可以在各类社交软件中发表不同类型的待聚类信息,待聚类信息如评论数据、转发数据、发帖数据等言论信息。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于电视、智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如可以获取终端设备101、102、103中各类社交软件的各类待聚类信息。之后,服务器105可以将这些待聚类信息转换为相应的向量,得到向量集合。再基于预设的各个语义类别,将向量集合中的各个向量划分至各个语义类别,得到各个语义类别对应的向量。通过将不同语义类别下的向量进行聚类,可以得到与每个语义类别对应的聚类数据集合。进一步的,服务器105还可以通过网络104向终端设备101、102、103返回各个语义类别对应的聚类数据集合,以使终端设备101、102、103以列表等形式输出各个语义类别对应的聚类数据集合。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于数据聚类的方法可以由终端设备101、102、103执行,也可以由服务器105执行。相应地,用于数据聚类的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于数据聚类的方法的一个实施例的流程200。本实施例的用于数据聚类的方法,包括以下步骤:
步骤201,获取待聚类信息。
在本实施例中,执行主体(如图1中的服务器105或者终端设备101、102、103)可以获取各类社交软件中用户的待聚类信息,如执行主体利用网络爬虫等技术从各类社交软件中爬取用户发帖、转发、评论等各类言论数据作为待聚类信息,又或者,执行主体也可以预先存储有经由各类技术手段预先获取的待聚类信息,本实施例对此不做限定。其中,待聚类信息可以为用户针对特定内容发表的言论。可选的,对于用户针对特定内容进行转发的数据,执行主体可以将用户在转发时发表的数据作为待聚类信息,而不将用户所转发的内容对应的数据作为待聚类信息,用以提高待聚类信息的准确性。
步骤202,确定待聚类信息对应的向量集合。
在本实施例中,执行主体在获取待聚类信息之后,通常待聚类信息的数量为多个,对于每个待聚类信息,执行主体可以确定与该待聚类信息对应的向量。进一步的,执行主体可以汇总各个待聚类信息对应的向量,得到向量集合。如果待聚类信息的数据形式为文本形式,可以采用预设的句向量模型确定与待聚类信息对应的向量。句向量模型用于自然语言处理技术中实现将不定长的句子用定长的向量表示,例如Sentence BERT(一种能快速计算句子相似度的孪生网络)、InferSent(一种有监督的语句嵌入模型)、UniversalSentence Encoder(一种统一的句子编码框架)。在本实施例中,执行主体可以采用这些句向量模型确定得到与文本形式的待聚类信息对应的向量,向量具体形式可以为固定长度的浮点数向量。采用向量之间进行聚类,相较于采用文本形式的待聚类信息之间进行聚类,能够提高聚类速度。
步骤203,在向量集合中确定每个语义类别对应的向量。
在本实施例中,执行主体中可以预先设有多种语义类别,可以包括但不限于正面语义情感、负面语义情感、中性语义情感等类别,本实施例对此不做限定。对于向量集合中的每个向量,执行主体可以基于对该向量进行分析,确定该向量的语义类别。基于各个向量对应的语义类别,执行主体可以将各个向量划分至相应语义类别,得到语义类别对应的向量。如最终得到与正面语义情感对应的向量、与中性语义情感对应的向量以及与负面语义情感对应的向量。
步骤204,将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。
在本实施例中,执行主体在对向量进行聚类时,可以按照语义类别,对属于同一个语义类别的向量进行聚类,得到该语义类别对应的聚类数据集合。其中,聚类数据集合中包括至少一个聚类数据。执行主体在对某个语义类别的向量进行聚类的过程中,会将该语义类别的向量聚合成若干观点簇。可选的,执行主体可以从每个观点簇中提取代表观点作为聚类数据,汇总各个观点簇的聚类数据,得到该语义类别对应的聚类数据集合。另一种可选的,执行主体可以从每个观点簇中提取代表观点和观点支撑数据,汇总各个观点簇的观点代表观点和观点支撑数据,可以得到该语义类别对应的聚类数据集合。其中,代表观点可以为观点簇的中心点对应的向量所反映的待聚类信息,观点支撑数据可以为与该中心点距离由近及远指定数量的向量所反映的待聚类信息、该观点簇中的向量总数量和/或该观点簇中的向量占比等数据,本实施例对此不做限定。
可选的,执行主体在得到每个语义类别对应的聚类数据集合之后,可以基于语义类别确定相应的聚类数据集合显示位置,在指定的聚类数据集合显示位置显示对应的语义类别对应的聚类数据集合。并且所显示的聚类数据集合的显示形式可以为表格形式、图文形式等,本实施例对此不做限定。
继续参见图3,其示出了根据本申请的用于数据聚类的方法的一个应用场景的示意图。在图3的应用场景中,执行主体可以先获取需要进行聚类分析的待聚类信息301,待聚类信息301中包括n个言论,分别为言论1、言论2、言论3至言论n。执行主体可以对待聚类信息301中的各个待聚类信息,确定相应的向量,得到向量集合302。向量集合302中包括与言论1对应的向量1、与言论2对应的向量2、与言论3对应的向量3以及与言论n对应的向量n。进一步的,执行主体中具有预设的各个语义类别303,预设的各个语义类别303包括正面情感言论3031、中性情感言论3032和负面情感言论3033。对于正面情感言论3031,在向量集合302中确定与之对应的向量1和向量2;对于中性情感言论3032,在向量集合302中确定与之对应的向量3;对于负面情感言论3033,在向量集合302中确定与之对应的向量n。在对向量进行聚类时,执行主体可以将向量集合302中的向量1和向量2进行聚类,得到与之对应的正面观点3041。执行主体可以将向量集合302中的向量3进行聚类,得到与之对应的中性观点3042。执行主体可以将向量集合302中的向量n进行聚类,得到与之对应的负面观点3043。汇总正面观点3041、中性观点3042和负面观点3043即可得到聚类数据集合304。
本申请上述实施例提供的用于数据聚类的方法,能够确定待聚类信息对应的向量集合,并基于预设的各个语义类别和向量集合,按照不同的语义类别聚类相应的向量,得到不同语义类别对应的聚类数据集合。由于将待聚类信息转化为向量形式,依据向量形式的向量集合进行聚类,能够提高聚类速度。并且在聚类的过程中,按照语义类别进行分类聚类,所得到的聚类结果划分粒度更细,精准度更高。
继续参见图4,其示出了根据本申请的用于数据聚类的方法的另一个实施例的流程400。如图4所示,本实施例的用于数据聚类的方法可以包括以下步骤:
步骤401,获取待聚类信息。
在本实施例中,对于步骤401的详细描述请参照对步骤201的详细描述,在此不再赘述。
步骤402,对待聚类信息进行预处理,得到预处理后的待聚类信息;预处理至少包括过滤和/或清洗。
在本实施例中,预处理中的过滤指的是删除掉初始的待聚类信息中的无用数据,其中,无用数据可以预先设置,其形式可以为若干关键词组,这些关键词组通常是与待聚类信息无关的词组,如“求点赞”。通过对待聚类信息进行初步分析,如果待聚类信息中存在与这些关键词组相匹配的数据,将这些数据进行删除。预处理中的清洗指的是对数据进行审查和校验,如删除待聚类信息中的重复数据、删除待聚类信息中的格式数据、替换待聚类信息中的错别字等,本实施例对此不做限定。其中,格式数据如“回复a:”。
步骤403,基于预处理后的待聚类信息,确定向量集合。
在本实施例中,执行主体可以将预处理后的待聚类信息输入上述的句向量模型,确定向量集合。对于步骤403的详细描述请参照对于步骤202的详细描述,在此不再赘述。
步骤404,对于向量集合中的每个向量,基于预设的语义分类模型,确定该向量对应的语义类别。
在本实施例中,执行主体可以预先设有语义分类模型,语义分类模型用于分析向量对应的语义类别。语义分类模型可以采用TextCNN(一种用于分析文本特征的卷积神经网络)、FastText(一种用于词向量计算和文本分类的模型)等,本实施例对此不做限定。通过语义分类模型可以分析向量和/或待聚类信息的特征,确定与其对应的语义类别。
步骤405,基于向量集合中各个向量对应的语义类别,确定预设的各个语义类别对应的向量。
在本实施例中,执行主体可以按照每个向量对应的语义类别,将该向量划分至预设的各个语义类别中的相应语义类别。也即是,建立语义类别和向量之间的对应关系。
步骤406,对于预设的各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合。
在本实施例中,执行主体可以按照语义类别,对属于同一个语义类别的向量进行聚类,得到该语义类别对应的聚类簇集合。其中,聚类簇集合中包括至少一个聚类簇,属于同一个聚类簇的向量之间的相似程度较高,属于不同聚类簇的向量之间的相似程度较低。
在本实施例的一些可选的实现方式中,语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合,包括:语义类别中的每个语义类别,确定该语义类别对应的每个向量的相似度信息和近邻索引信息;基于该语义类别对应的各个向量的相似度信息,确定该语义类别对应的各个向量的向量顺序;基于向量顺序和近邻索引信息,遍历该语义类别对应的各个向量,确定该语义类别对应的各个向量所在的聚类簇;基于该语义类别对应的各个向量所在的各个聚类簇,确定该语义类别对应的聚类簇集合。
在本实现方式中,每个向量的相似度信息包括该向量与其他各个向量之间的相似度。可选的,相似度信息的信息形式可以为矩阵。每个向量的近邻索引信息包括与该向量的各个相似度相对应的其他向量的索引。可选的,近邻索引信息的信息形式也可以为矩阵。具体的,矩阵形式的相似度信息和矩阵形式的近邻索引信息中的各行各列数据可以相对应。结合这两个矩阵,可以确定向量与其他向量之间的相似度。进一步的,执行主体还可以基于向量的相似度信息,确定每个向量与其他所有向量的平均相似度。按照平均相似度由高至低的顺序可以确定出向量顺序。在确定平均相似度时,执行主体可以基于NumPy(Python语言的一个扩展程序库)进行确定,用以提高确定速度。可选的,执行主体可以按照向量顺序标注各个向量的数据下标或者数据上标,也可以单独存储向量顺序,本实施例对此不做限定。之后,执行主体可以按照向量顺序遍历该语义类别对应的各个向量。这一过程可以优先遍历相似度高的向量,这些向量更有可能形成聚类簇的中心,从而提高了遍历效果。在对各个向量进行遍历的过程中,执行主体可以在每个向量的近邻索引信息中确定是否存在与该向量的向量顺序差处于预设范围、平均相似度大于该向量的平均相似度和/或与该向量之间的相似度大于预设的阈值的其他向量,如果存在,则将该向量归入该其他向量所在的聚类簇。如果不存在,则新建该向量对应的聚类簇。汇总各个向量对应的聚类簇,可以得到该语义类别对应的聚类簇集合。
在本实施例的另一些可选的实现方式中,语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合,包括:语义类别中的每个语义类别,从该语义类别对应的向量中确定抽样向量;基于抽样向量,确定索引信息;基于索引信息,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合。
在本实现方式中,可以对各个语义类别对应的向量进行抽样,得到抽样向量。之后,执行主体可以基于抽样向量训练faiss(Facebook AI Similarity Search,一种稠密向量提供高效相似度搜索和聚类的框架)索引,并将各个向量加入faiss索引,得到索引信息。索引信息用于实现相似度信息和近邻索引矩阵的快速确定。并且,在基于索引信息对该语义类别对应的向量进行聚类时,可以并行检索多个向量,提高聚类速度。
步骤407,对于聚类簇集合中的每个聚类簇,基于该聚类簇的簇中心,确定该聚类簇的聚类数据。
在本实施例中,聚类簇的簇中心为平均相似度最大的向量。对于平均相似度的计算请参照上述描述,在此不再赘述。执行主体在确定出聚类簇的簇中心之后,可以将确定簇中心对应的向量,再确定与该向量对应的待聚类信息,将该待聚类信息作为该聚类簇的聚类数据。其中,聚类数据用于反映聚类簇的核心言论。
步骤408,基于聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合。
在本实施例中,执行主体可以汇总聚类簇集合的各个聚类簇对应的聚类数据,得到与语义类别对应的聚类数据集合。
在本实施例的一些可选的实现方式中,基于聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合,包括:对于聚类簇集合中的每个聚类数据,在该聚类数据所在聚类簇中,确定与该聚类数据对应的支持信息;基于聚类簇集合对应的各个聚类数据和每个聚类数据对应的支持信息,确定该语义类别对应的聚类数据集合。
在本实现方式中,执行主体还可以在聚类数据所在聚类簇中,确定除聚类数据对应向量外的其他向量,确定其他向量对应的待聚类信息,将这些待聚类信息作为聚类数据的支持信息。之后,执行主体还可以基于各个聚类数据和相应的支持信息生成聚类数据集合。此时的聚类数据集合中包括具有对应关系的聚类数据和支持信息。其中,支持信息是用于支撑聚类数据的待聚类信息。举例来说,在某聚类簇中,簇中心对应的聚类数据为“支持A”,可以将属于同个聚类簇的待聚类信息“A加油”、“支持A的做法”作为支持信息。
本申请的上述实施例提供的用于数据聚类的方法,还可以确定语义类别对应的聚类簇集合,并基于聚类簇集合中的每个聚类簇的簇中心,确定聚类数据,从而得到能够反映各个聚类簇核心观点的聚类数据,聚类数据的全面性和准确性更高。并且,在确定聚类簇集合时,可以基于相似度信息确定各个向量的向量顺序,基于向量顺序遍历向量,能够先遍历平均相似度更高的、适合作为簇中心的向量,从而提高聚类簇集合确定效率。此外,还可以基于抽样向量获取用于确定聚类簇集合的索引信息,相较于使用全部向量确定索引信息,进一步提高了聚类簇集合确定效率。此外,聚类数据集合中还可以包括具有对应关系的聚类数据和支持信息,从而提高了聚类数据集合的丰富性。此外,先对待聚类信息进行预处理,再确定向量集合,能够提高向量集合的准确度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于数据聚类的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种服务器或者终端设备中。
如图5所示,本实施例的用于数据聚类的装置500包括:数据获取单元501、集合确定单元502、向量确定单元503、观点确定单元504。
数据获取单元501,被配置成获取待聚类信息。
集合确定单元502,被配置成确定待聚类信息对应的向量集合。
向量确定单元503,被配置成在向量集合中确定该语义类别对应的向量。
观点确定单元504,被配置成将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。
在本实施例的一些可选的实现方式中,观点确定单元504进一步被配置成:对于预设的各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合;对于聚类簇集合中的每个聚类簇,基于该聚类簇的簇中心,确定该聚类簇的聚类数据;基于聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合。
在本实施例的一些可选的实现方式中,观点确定单元504进一步被配置成:对于预设的各个语义类别中的每个语义类别,确定该语义类别对应的每个向量的相似度信息和近邻索引信息;基于该语义类别对应的各个向量的相似度信息,确定该语义类别对应的各个向量的向量顺序;基于向量顺序和近邻索引信息,遍历该语义类别对应的各个向量,确定该语义类别对应的各个向量所在的聚类簇;基于该语义类别对应的各个向量所在的各个聚类簇,确定该语义类别对应的聚类簇集合。
在本实施例的一些可选的实现方式中,观点确定单元504进一步被配置成:对于预设的各个语义类别中的每个语义类别,从该语义类别对应的向量中确定抽样向量;基于抽样向量,确定索引信息;基于索引信息,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合。
在本实施例的一些可选的实现方式中,观点确定单元504进一步被配置成:对于聚类簇集合中的每个聚类数据,在该聚类数据所在聚类簇中,确定与该聚类数据对应的支持信息;基于聚类簇集合对应的各个聚类数据和每个聚类数据对应的支持信息,确定该语义类别对应的聚类数据集合。
在本实施例的一些可选的实现方式中,集合确定单元502进一步被配置成:对待聚类信息进行预处理,得到预处理后的待聚类信息;预处理至少包括过滤和/或清洗;基于预处理后的待聚类信息,确定向量集合。
在本实施例的一些可选的实现方式中,向量确定单元503进一步被配置成:对于向量集合中的每个向量,基于预设的语义分类模型,确定该向量对应的语义类别;基于向量集合中各个向量对应的语义类别,确定预设的各个语义类别对应的向量。
应当理解,用于数据聚类的装置500中记载的单元501至单元504分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用数据聚类的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
根据本申请的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了用来实现本公开实施例的用于数据聚类的方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如用于数据聚类的方法。例如,在一些实施例中,用于数据聚类的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的用于数据聚类的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于数据聚类的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要说明的是,本公开对于各类表格数据的获取均符合相关法律法规的规定,且不违背公序良俗。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种用于数据聚类的方法,包括:
获取待聚类信息;
确定所述待聚类信息对应的向量集合;
在所述向量集合中确定每个语义类别对应的向量,包括:对于所述向量集合中的每个向量,基于预设的语义分类模型,确定该向量对应的语义类别;基于所述向量集合中各个向量对应的语义类别,确定各个语义类别对应的向量;
将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。
2.根据权利要求1所述的方法,其中,所述将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合,包括:
对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合;
对于所述聚类簇集合中的每个聚类簇,基于该聚类簇的簇中心,确定该聚类簇的聚类数据;
基于所述聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合。
3.根据权利要求2所述的方法,其中,所述对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合,包括:
对于各个语义类别中的每个语义类别,确定该语义类别对应的每个向量的相似度信息和近邻索引信息;
基于该语义类别对应的各个向量的相似度信息,确定该语义类别对应的各个向量的向量顺序;
基于所述向量顺序和所述近邻索引信息,遍历该语义类别对应的各个向量,确定该语义类别对应的各个向量所在的聚类簇;
基于该语义类别对应的各个向量所在的各个聚类簇,确定该语义类别对应的所述聚类簇集合。
4.根据权利要求2所述的方法,其中,所述对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合,包括:
对于各个语义类别中的每个语义类别,从该语义类别对应的向量中确定抽样向量;
基于所述抽样向量,确定索引信息;
基于所述索引信息,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合。
5.根据权利要求2所述的方法,其中,所述基于所述聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合,包括:
对于所述聚类簇集合中的每个聚类数据,在该聚类数据所在聚类簇中,确定与该聚类数据对应的支持信息;
基于所述聚类簇集合对应的各个聚类数据和每个聚类数据对应的支持信息,确定该语义类别对应的聚类数据集合。
6.根据权利要求1所述的方法,其中,所述确定所述待聚类信息对应的向量集合,包括:
对所述待聚类信息进行预处理,得到预处理后的待聚类信息;所述预处理至少包括过滤和/或清洗;
基于所述预处理后的待聚类信息,确定所述向量集合。
7.一种用于数据聚类的装置,包括:
数据获取单元,被配置成获取待聚类信息;
集合确定单元,被配置成确定所述待聚类信息对应的向量集合;
向量确定单元,被配置成在所述向量集合中确定每个语义类别对应的向量;
观点确定单元,被配置成将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合;
其中,所述向量确定单元进一步被配置成:对于所述向量集合中的每个向量,基于预设的语义分类模型,确定该向量对应的语义类别;基于所述向量集合中各个向量对应的语义类别,确定各个语义类别对应的向量。
8.根据权利要求7所述的装置,其中,所述观点确定单元进一步被配置成:
对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合;
对于所述聚类簇集合中的每个聚类簇,基于该聚类簇的簇中心,确定该聚类簇的聚类数据;
基于所述聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合。
9.根据权利要求8所述的装置,其中,所述观点确定单元进一步被配置成:
对于各个语义类别中的每个语义类别,确定该语义类别对应的每个向量的相似度信息和近邻索引信息;
基于该语义类别对应的各个向量的相似度信息,确定该语义类别对应的各个向量的向量顺序;
基于所述向量顺序和所述近邻索引信息,遍历该语义类别对应的各个向量,确定该语义类别对应的各个向量所在的聚类簇;
基于该语义类别对应的各个向量所在的各个聚类簇,确定该语义类别对应的所述聚类簇集合。
10.根据权利要求8所述的装置,其中,所述观点确定单元进一步被配置成:
对于各个语义类别中的每个语义类别,从该语义类别对应的向量中确定抽样向量;
基于所述抽样向量,确定索引信息;
基于所述索引信息,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合。
11.根据权利要求8所述的装置,其中,所述观点确定单元进一步被配置成:
对于所述聚类簇集合中的每个聚类数据,在该聚类数据所在聚类簇中,确定与该聚类数据对应的支持信息;
基于所述聚类簇集合对应的各个聚类数据和每个聚类数据对应的支持信息,确定该语义类别对应的聚类数据集合。
12.根据权利要求7所述的装置,其中,所述集合确定单元进一步被配置成:
对所述待聚类信息进行预处理,得到预处理后的待聚类信息;所述预处理至少包括过滤和/或清洗;
基于所述预处理后的待聚类信息,确定所述向量集合。
13. 一种执行用于数据聚类的方法的电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
CN202110552773.0A 2021-05-20 2021-05-20 用于数据聚类的方法、装置、设备、介质和产品 Active CN113254578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552773.0A CN113254578B (zh) 2021-05-20 2021-05-20 用于数据聚类的方法、装置、设备、介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552773.0A CN113254578B (zh) 2021-05-20 2021-05-20 用于数据聚类的方法、装置、设备、介质和产品

Publications (2)

Publication Number Publication Date
CN113254578A CN113254578A (zh) 2021-08-13
CN113254578B true CN113254578B (zh) 2023-07-28

Family

ID=77183126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552773.0A Active CN113254578B (zh) 2021-05-20 2021-05-20 用于数据聚类的方法、装置、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN113254578B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201493B (zh) * 2021-12-13 2023-04-07 北京百度网讯科技有限公司 数据接入方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510308B1 (en) * 2009-06-16 2013-08-13 Google Inc. Extracting semantic classes and instances from text
CN111858916A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 用于聚类句子的方法和装置
CN111931500A (zh) * 2020-09-21 2020-11-13 北京百度网讯科技有限公司 搜索信息的处理方法、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565244B2 (en) * 2017-06-22 2020-02-18 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510308B1 (en) * 2009-06-16 2013-08-13 Google Inc. Extracting semantic classes and instances from text
CN111858916A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 用于聚类句子的方法和装置
CN111931500A (zh) * 2020-09-21 2020-11-13 北京百度网讯科技有限公司 搜索信息的处理方法、装置

Also Published As

Publication number Publication date
CN113254578A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
JP7334395B2 (ja) ビデオ分類方法、装置、機器、および記憶媒体
US20220318275A1 (en) Search method, electronic device and storage medium
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN114549874A (zh) 多目标图文匹配模型的训练方法、图文检索方法及装置
CN112347760A (zh) 意图识别模型的训练方法及装置、意图识别方法及装置
US20220301547A1 (en) Method for processing audio signal, method for training model, device and medium
US20220358955A1 (en) Method for detecting voice, method for training, and electronic devices
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN113239204A (zh) 文本分类方法及装置、电子设备、计算机可读存储介质
CN113657088A (zh) 接口文档解析方法、装置、电子设备以及存储介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN115130581A (zh) 样本生成方法、训练方法、数据处理方法以及电子设备
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN113254578B (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN112148841B (zh) 一种对象分类以及分类模型构建方法和装置
CN115658903B (zh) 文本分类方法、模型训练方法、相关装置及电子设备
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN113408269A (zh) 文本情感分析方法和装置
CN115312042A (zh) 用于处理音频的方法、装置、设备以及存储介质
CN112861512A (zh) 数据处理方法、装置、设备以及存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN113344405B (zh) 基于知识图谱生成信息的方法、装置、设备、介质和产品
CN112836529B (zh) 生成目标语料样本的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant