CN116310682A - 基于多模态数据的事件聚合方法、装置和设备 - Google Patents

基于多模态数据的事件聚合方法、装置和设备 Download PDF

Info

Publication number
CN116310682A
CN116310682A CN202310244719.9A CN202310244719A CN116310682A CN 116310682 A CN116310682 A CN 116310682A CN 202310244719 A CN202310244719 A CN 202310244719A CN 116310682 A CN116310682 A CN 116310682A
Authority
CN
China
Prior art keywords
event
data
cluster
address information
mode data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310244719.9A
Other languages
English (en)
Inventor
刘晓伟
龚建
齐晓辉
潘旭
刘晨晖
刘崇
陈梦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310244719.9A priority Critical patent/CN116310682A/zh
Publication of CN116310682A publication Critical patent/CN116310682A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于多模态数据的事件聚合方法、装置和设备,本公开涉及人工智能领域,具体涉及自然语言处理、深度学习技术等,可应用在智慧城市、智慧政务场景下。具体实现方案为:在对待处理的多模态数据进行处理时,分别确定多模态数据各自对应的事件分类结果以及事件地址信息,以及根据事件分类结果和事件地址信息,对待处理的多模态数据进行聚类处理,以得到至少一个聚类簇。由此,提供了一种基于事件分类结果和事件地址信息对多模态数据进行事件聚合的方式,方便地实现了对多模态数据进行事件聚合。

Description

基于多模态数据的事件聚合方法、装置和设备
技术领域
本公开涉及人工智能领域,具体涉及自然语言处理、深度学习技术等,可应用在智慧城市、智慧政务场景下,尤其涉及基于多模态数据的事件聚合方法、装置和设备。
背景技术
为了使得用户可对一个事件进行全面了解,可向用户展示与该事件有关的各种模态数据,例如,与该事件有关的文本信息、图像以及视频数据等模态数据。在有待处理的多模态数据的情况下,如何对多模态数据进行事件聚合对于展示与对应事件的各种模态数据是十分重要的。
发明内容
本公开提供了一种用于基于多模态数据的事件聚合方法、装置和设备。
根据本公开的一方面,提供了一种基于多模态数据的事件聚合方法,包括:获取待处理的多模态数据;分别对所述多模态数据进行事件分类,以得到所述多模态数据各自对应的事件分类结果;确定所述多模态数据各自对应的事件地址信息;根据所述事件分类结果和所述事件地址信息,对所述多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且所述事件地址信息是相同的。
根据本公开的另一方面,提供了一种基于多模态数据的事件聚合装置,包括:获取模块,用于获取待处理的多模态数据;事件分类模块,用于分别对所述多模态数据进行事件分类,以得到所述多模态数据各自对应的事件分类结果;第一确定模块,用于确定所述多模态数据各自对应的事件地址信息;第一聚类模块,用于根据所述事件分类结果和所述事件地址信息,对所述多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且所述事件地址信息是相同的。
根据本公开的另一方面,提供了一种问答匹配模型的训练装置,包括:获取如前所述的基于多模态数据的事件聚合方法所生成的训练数据;根据所述训练数据,对问答匹配模型进行训练。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的基于多模态数据的事件聚合方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的基于多模态数据的事件聚合方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开的基于多模态数据的事件聚合方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是用来实现本公开实施例的基于多模态数据的事件聚合方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的基于多模态数据的事件聚合方法、装置和设备。
图1是根据本公开第一实施例的示意图。
如图1所示,该基于多模态数据的事件聚合方法可以包括:
步骤101,获取待处理的多模态数据。
其中,需要说明的是,上述基于多模态数据的事件聚合方法的执行主体为基于多模态数据的事件聚合装置,该基于多模态数据的事件聚合装置可以由软件和/或硬件的方式实现,该实施例中的基于多模态数据的事件聚合装置可以为电子设备,或者,可以配置在电子设备中。
其中,本示例实施例中电子设备可以包括但不限于终端设备和服务器等设备,该实施例对电子设备不作限定。
其中,待处理的多模态数据是指待进行事件聚合的各种模态数据。
在一些示例中,上述待处理的多模态数据可以为指定领域下的待处理的多模态数据,也就是说,待处理的多模态数据所属于的领域是相同,均为指定领域,例如,上述指定领域可以为政务领域、社交领域、医疗领域等各种领域,该实施例对此不作具体限定。
其中,多模态数据可以包括文本模态数据、视觉模态数据和语音模态数据等。
其中,本示例中以多模态数据包括文本模态数据和视觉模态数据为例进行示例性描述。
其中,本示例中视觉模态数据可以包括图像模态数据和视频模态数据。
步骤102,分别对多模态数据进行事件分类,以得到多模态数据各自对应的事件分类结果。
在一些示例性的实施方式中,针对多模态数据中的每一种模态数据,可通过该模态数据所对应的事件分类算法,对该模态数据进行事件分类,以得到该模态数据所对应的事件分类结果。
其中,对于每一种模态数据而言,本示例中每一种模态数据的数量可以为大于或者等于1。例如,在多模态数据包括文本类型的模态数据的情况下,文本类型的模态数据可以有10个,即可有10个待处理的文本模态数据,对应地,可获取可对文本模态数据进行处理的事件分类算法,分别对这10个待处理的文本模态数据进行事件分类,以得到每个文本模态数据各自对应的事件分类结果。
步骤103,确定多模态数据各自对应的事件地址信息。
其中,事件地址信息表示对应模态数据所描述的事件所发生的地址信息。
其中,可以理解的是,对于不同种模态数据可采用不同的方式来确定对应模态数据所对应的事件地址信息,例如,对于多模态数据中的文本模态数据而言,可对文本模态数据进行事件地址提取,以得到该文本模态数据的事件地址信息。对于多模态数据中的视觉模态数据而言,可确定可与该视觉模态数据绑定的摄像头的位置信息,来确定该视觉模态数据所描述的事件所发生的位置的地址信息,即,可确定该视觉模态数据所对应的事件地址信息。又例如,对于多模态数据中的语音模态数据,可将语音模态数据进行文本转换,以得到语音模态数据所对应的文本信息,并可对文本信息进行事件地址提取,以确定出该语音模态数据所对应的事件地址信息。
步骤104,根据事件分类结果和事件地址信息,对多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且事件地址信息是相同的。
在本示例中,通过基于事件分类结果和事件地址信进行聚类,可将事件分类结果相同并且事件地址信息相同的各种模态数据聚合在一个聚类簇中,方便后续对聚类簇中的各种模态数据对同一个事件的各种模态数据进行可视化展示。
本公开实施例提供的基于多模态数据的事件聚合方法,在对待处理的多模态数据进行处理时,分别确定多模态数据各自对应的事件分类结果以及事件地址信息,以及根据事件分类结果和事件地址信息,对待处理的多模态数据进行聚类处理,以得到至少一个聚类簇。由此,提供了一种基于事件分类结果和事件地址信息对多模态数据进行事件聚合的方式,方便地实现了对多模态数据进行事件聚合。
在一些示例性的实施方式中,为了可以清楚理解如何分别对多模态数据进行事件分类,以得到多模态数据各自对应的事件分类结果的过程,下面结合图2对该过程进行示例性描述。
图2是根据本公开第二实施例的示意图。
如图2所示,该基于多模态数据的事件聚合方法可以包括:
步骤201,获取待处理的多模态数据。
其中,需要说明的是,关于步骤201的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤202,针对多模态数据中的每种模态数据,将模态数据输入至模态数据对应的事件分类模型中,以得到模态数据的事件分类结果。
也就是说,针对每一种模态数据,可确定可对该种模态数据进行处理的事件分类模型,并通过该事件分类模型对该种模态数据进行事件分类,以得到该种模态数据的事件分类结果。由此,可通过事件分类模型,快速且准确地确定出对应模态数据的事件分类结果。
其中,可以理解的是,本示例中不同种模态数据所对应的事件分类模型是不同的。
其中,上述不同种模态数据所对应的事件分类模型是预先训练的出的。
其中,本示例中不同种模态数据所对应的事件分类模型的训练过程是相互独立的,即,可对不同种模态数据所对应的事件分类模型进行独立建模,每种模态的建模方法不受其他模态的模型影响。
作为一种示例,对于文本模态数据,可采用训练数据,对初始的分类模型进行训练,以得到训练好的事件分类模型。其中,训练数据包括文本样本以及文本样本对应的事件分类标签。其中,本示例中的初始的分类模型可以为知识增强的语义表示模型(EnhancedRepresentation from kNowledge IntEgration,ERNIE)。
作为一种示例,对于视觉模态数据,可采用训练数据,对初始的分类模型进行训练,以得到训练好的事件分类模型,其中,训练数据可以包括视觉样本数据以及对应的事件分类标签。在一些示例中,本示例中的初始的分类模型可以为残差网络模型,或者其他类型的网络模型,该实施例对此不作具体限定。
其中,需要说明的是,相对于采用同一个预先训练好的模型对多模态数据进行内容理解,以得到每种模态数据各自对应的内容理解特征向量,并根据内容理解特征向量之间的相似度,对多模态数据进行事件聚合的技术方案而言,该技术方案中可对多模态数据进行内容理解的模型也是需要预先训练的,在本示例中独立对每种模态数据对应的事件分类模型进行训练,与采用多模态数据对多模态数据进行内容理解的模型进行训练的方案相比,可降低对样本数据进行标签标注的标注数量。
步骤203,确定多模态数据各自对应的事件地址信息。
在一些示例性的实施方式中,多模态数据包括文本模态数据和视觉模态数据,确定多模态数据各自对应的事件地址信息的一种可能实现方式为:通过要素提取模型对文本模态数据进行事件地址提取,以得到文本模态数据对应的事件地址信息;根据与视觉模态数据所绑定的摄像头的位置信息,确定视觉模态数据的事件地址信息。由此,通过要素提取模型可以快速并且准确地确定出文本模态数据所对应的事件地址信息,并基于该视觉模态数据所绑定的摄像头的位置信息,可准确确定视觉模态数据的事件地址信息。
步骤204,根据事件分类结果和事件地址信息,对多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且事件地址信息是相同的。
其中,需要说明的是,关于步骤204的具体描述,可参见本公开实施例的相关描述,此处不再赘述。
在本示例中,在对多模态数据进行处理时,针对多模态数据中每一种模态数据,可确定对该种模态数据进行处理的事件分类模型,并通过该事件分类模型对该种模态数据进行事件分类,以得到该种模态数据的事件分类结果。由此,可通过事件分类模型,快速且准确地确定出对应模态数据的事件分类结果。
基于上述任意一个实施例的基础上,在一些示例性的实施方式中,在对各种模态数据进行事件分类所基于的分类标签体系不同的情况下,为了方便后续可准确根据事件分类结果和事件地址信息,对多模态数据进行聚类,在根据事件分类结果和事件地址信息,对多模态数据进行聚类,以得到至少一个聚类簇,该方法还可以包括:确定事件分类结果所基于的原始分类标签体系;根据原始分类标签体系与预设的目标分类标签体系之间的映射关系,对事件分类结果进行映射。
其中,目标分类标签体系是在基于多模态数据的事件聚合装置中预先设置的分类标签体系。
具体地,在确定出事件分类结果所基于的原始分类标签体系后,可判断原始分类标签体系和目标分类标签体系是否相同,如果不相同,则根据原始分类标签体系与预设的目标分类标签体系之间的映射关系,对事件分类结果进行映射,以得到映射后的事件分类结果。
对应地,可根据事件地址信息和映射后的事件分类结果,对多模态数据进行聚类,以得到至少一个聚类簇。
在一些示例性的实施方式中,相关技术中采用同一个预先训练好的模型对多模态数据进行内容理解,以得到每种模态数据各自对应的内容理解特征向量,并根据内容理解特征向量之间的相似度,对多模态数据进行事件聚合,以得到事件聚合结果,然而,如何对得到的事件聚合结果进行命名也是一个难以解决的问题。在本示例中,针对每个聚类簇,根据聚类簇中各种模态数据所对应的事件分类结果和事件地址信息,生成聚类簇的簇名称。由此,基于事件分类结果和事件地址信息,实现了对聚类簇进行命名。
作为一种示例,可对事件分类结果和事件地址信息进行拼接,并将拼接结果作为聚类簇的簇名称。
基于上述任意一个实施例的基础上,在一些示例中,为了进一步可将同一个事件的各种模态数据聚合在一起,针对聚类簇,根据聚类簇中各种模态数据所对应的事件主体,对聚类簇中各种模态数据进行再次聚类,以得到聚类簇所对应的至少一个聚类子簇,其中,同一个聚类子簇中各种模态数据所对应的事件主体是相同的。由此,可基于事件主体,可对具有相同事件分类结果和事件地址信息的聚类簇进行再次聚类,从而可将具有相同事件分类结果、事件地址信息以及事件主体的模态数据聚合在一个聚类子簇中,以方便后续基于聚类子簇的内容进行事件的相关数据的展示,可进一步提高事件的相关数据的展示的准确性。
其中,可以理解的是,对于多模态数据各自对应的事件主体可通过多种方式来确定,示例说明如下:
作为一种示例,可根据预先保存的模态数据和事件主体两者之间的对应关系,获取对应模态数据所对应的事件主体。
作为另一种示例,对于多模态数据中的文本模态数据,可通过要素提取模型对文本模态数据进行要素提取,以得到文本模态数据的要素提取结果,并从要素提取结果中确定出文本模态数据的事件主体。
其中,要素提取结果可以包括但不限于事件主体、事件地址信息以及事件时间信息等信息,该实施例对此不作具体用于限定。
对于多模态数据中的视觉模态数据,可对视觉模态数据进行事件分析,以得到事件分析结果,并根据事件分析结果确定出该视觉模态数据的事件主体。
为了可以清楚理解本公开,下面结合图3对该实施例的基于多模态数据的事件聚合方法进行进一步示例性描述。
图3是根据本公开第三实施例的示意图。
如图3所示,该基于多模态数据的事件聚合方法可以包括:
步骤301,获取待处理的多模态数据。
步骤302,针对多模态数据中的每种模态数据,将模态数据输入至模态数据对应的事件分类模型中,以得到模态数据的事件分类结果。
其中,需要说明的是,关于步骤301和步骤302的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤303,确定事件分类结果所基于的原始分类标签体系。
在一些示例中,可将该事件分类模型进行事件分类时所基于的分类标签体系作为事件分类结果所基于的原始分类标签体系。
步骤304,根据原始分类标签体系与预设的目标分类标签体系之间的映射关系,对事件分类结果进行映射,以得到映射后的事件分类结果。
步骤305,确定多模态数据各自对应的事件地址信息。
其中,关于步骤305的具体实现方式,可参考本公开实施例中的相关描述,此处不再赘述。
步骤306,根据事件地址信息和映射后的事件分类结果,对多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且事件地址信息是相同的。
步骤307,针对聚类簇,根据聚类簇中各种模态数据所对应的事件分类结果和事件地址信息,生成聚类簇的簇名称。
在本示例中,提供了一种对多模态数据进行事件聚合的方式,并且,在将事件地址信息以及事件分类结果相同的多模态数据聚合在一个簇后,通过该事件地址信息以及事件分类结果实现了对该簇进行命名。
为了实现上述实施例,本公开实施例还提供一种基于多模态数据的事件聚合装置。
图4是根据本公开第四实施例的示意图。
如图4所示,该基于多模态数据的事件聚合装置400可以包括:获取模块401、事件分类模块402、第一确定模块403和第一聚类模块404,其中:
获取模块401,用于获取待处理的多模态数据;
事件分类模块402,用于分别对多模态数据进行事件分类,以得到多模态数据各自对应的事件分类结果;
第一确定模块403,用于确定多模态数据各自对应的事件地址信息;
第一聚类模块404,用于根据事件分类结果和事件地址信息,对多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且事件地址信息是相同的。
其中,需要说明的是,前述对基于多模态数据的事件聚合方法实施例的解释说明也适用于本实施例,本实施对此不再赘述。
本公开实施例的基于多模态数据的事件聚合装置,在对待处理的多模态数据进行处理时,分别确定多模态数据各自对应的事件分类结果以及事件地址信息,以及根据事件分类结果和事件地址信息,对待处理的多模态数据进行聚类处理,以得到至少一个聚类簇。由此,提供了一种基于事件分类结果和事件地址信息对多模态数据进行事件聚合的方式,方便地实现了对多模态数据进行事件聚合。
在本公开的一个实施例中,图5是根据本公开第是第五实施例的示意图,如图5所示,该基于多模态数据的事件聚合装置500可以包括:获取模块501、事件分类模块502、第一确定模块503、第一聚类模块504、第二确定模块505、映射模块506、生成模块507和第二聚类模块508。
其中,需要说明的是,关于获取模块501、第一确定模块503和第一聚类模块504的详细描述请参考图4所示实施例中获取模块401、第一确定模块403和第一聚类模块404的说明,此处不再进行描述。
在本公开的一个实施例中,事件分类模块502,具体用于:针对多模态数据中的每种模态数据,将模态数据输入至模态数据对应的事件分类模型中,以得到模态数据的事件分类结果。
在本公开的一个实施例中,多模态数据包括文本模态数据和视觉模态数据,第一确定模块503,具体用于:通过要素提取模型对文本模态数据进行事件地址提取,以得到文本模态数据对应的事件地址信息;根据与视觉模态数据所绑定的摄像头的位置信息,确定视觉模态数据的事件地址信息。
在本公开的一个实施例中,装置500还可以包括:
第二确定模块505,用于确定事件分类结果所基于的原始分类标签体系;
映射模块506,用于根据原始分类标签体系与预设的目标分类标签体系之间的映射关系,对事件分类结果进行映射。
在本公开的一个实施例中,装置500还可以包括:
生成模块507,用于针对聚类簇,根据聚类簇中各种模态数据所对应的事件分类结果和事件地址信息,生成聚类簇的簇名称。
在本公开的一个实施例中,装置500还可以包括:
第二聚类模块508,用于针对聚类簇,根据聚类簇中各种模态数据所对应的事件主体,对聚类簇中各种模态数据进行再次聚类,以得到聚类簇所对应的至少一个聚类子簇,其中,同一个聚类子簇中各种模态数据所对应的事件主体是相同的。
其中,需要说明的是,前述对基于多模态数据的事件聚合方法实施例的解释说明也适用于本实施例中的基于多模态数据的事件聚合装置,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,该电子设备600可以包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如基于多模态数据的事件聚合方法。例如,在一些实施例中,基于多模态数据的事件聚合方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的基于多模态数据的事件聚合方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于多模态数据的事件聚合方法。
本文中以上描述的装置和技术的各种实施方式可以在数字电子电路装置、集成电路装置、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上装置的装置(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程装置上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储装置、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储装置、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行装置、装置或设备使用或与指令执行装置、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体装置、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的装置和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的装置和技术实施在包括后台部件的计算装置(例如,作为数据服务器)、或者包括中间件部件的计算装置(例如,应用服务器)、或者包括前端部件的计算装置(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的装置和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算装置中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将装置的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机装置可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器可以是云服务器,也可以为分布式装置的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种基于多模态数据的事件聚合方法,包括:
获取待处理的多模态数据;
分别对所述多模态数据进行事件分类,以得到所述多模态数据各自对应的事件分类结果;
确定所述多模态数据各自对应的事件地址信息;
根据所述事件分类结果和所述事件地址信息,对所述多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且所述事件地址信息是相同的。
2.根据权利要求1所述的方法,其中,所述分别对所述多模态数据进行事件分类,以得到所述多模态数据各自对应的事件分类结果,包括:
针对所述多模态数据中的每种模态数据,将所述模态数据输入至所述模态数据对应的事件分类模型中,以得到所述模态数据的事件分类结果。
3.根据权利要求1或2所述的方法,其中,所述多模态数据包括文本模态数据和视觉模态数据,所述确定所述多模态数据各自对应的事件地址信息,包括:
通过要素提取模型对所述文本模态数据进行事件地址提取,以得到所述文本模态数据对应的事件地址信息;
根据与所述视觉模态数据所绑定的摄像头的位置信息,确定所述视觉模态数据的事件地址信息。
4.根据权利要求1所述的方法,其中,在所述根据所述事件分类结果和所述事件地址信息,对所述多模态数据进行聚类,以得到至少一个聚类簇之前,所述方法还包括:
确定所述事件分类结果所基于的原始分类标签体系;
根据所述原始分类标签体系与预设的目标分类标签体系之间的映射关系,对所述事件分类结果进行映射。
5.根据权利要求1所述的方法,其中,所述方法还包括:
针对所述聚类簇,根据所述聚类簇中各种模态数据所对应的事件分类结果和事件地址信息,生成所述聚类簇的簇名称。
6.根据权利要求1所述的方法,其中,所述方法还包括:
针对所述聚类簇,根据所述聚类簇中各种模态数据所对应的事件主体,对所述聚类簇中各种模态数据进行再次聚类,以得到所述聚类簇所对应的至少一个聚类子簇,其中,同一个所述聚类子簇中各种模态数据所对应的事件主体是相同的。
7.一种基于多模态数据的事件聚合装置,包括:
获取模块,用于获取待处理的多模态数据;
事件分类模块,用于分别对所述多模态数据进行事件分类,以得到所述多模态数据各自对应的事件分类结果;
第一确定模块,用于确定所述多模态数据各自对应的事件地址信息;
第一聚类模块,用于根据所述事件分类结果和所述事件地址信息,对所述多模态数据进行聚类,以得到至少一个聚类簇,其中,同一个聚类簇中各种模态数据所对应的事件分类结果并且所述事件地址信息是相同的。
8.根据权利要求7所述的装置,其中,所述事件分类模块,具体用于:
针对所述多模态数据中的每种模态数据,将所述模态数据输入至所述模态数据对应的事件分类模型中,以得到所述模态数据的事件分类结果。
9.根据权利要求7或8所述的装置,其中,所述多模态数据包括文本模态数据和视觉模态数据,所述第一确定模块,具体用于:
通过要素提取模型对所述文本模态数据进行事件地址提取,以得到所述文本模态数据对应的事件地址信息;
根据与所述视觉模态数据所绑定的摄像头的位置信息,确定所述视觉模态数据的事件地址信息。
10.根据权利要求7所述的装置,其中,所述装置还包括:
第二确定模块,用于确定所述事件分类结果所基于的原始分类标签体系;
映射模块,用于根据所述原始分类标签体系与预设的目标分类标签体系之间的映射关系,对所述事件分类结果进行映射。
11.根据权利要求7所述的装置,其中,所述装置还包括:
生成模块,用于针对所述聚类簇,根据所述聚类簇中各种模态数据所对应的事件分类结果和事件地址信息,生成所述聚类簇的簇名称。
12.根据权利要求7所述的装置,其中,所述装置还包括:
第二聚类模块,用于针对所述聚类簇,根据所述聚类簇中各种模态数据所对应的事件主体,对所述聚类簇中各种模态数据进行再次聚类,以得到所述聚类簇所对应的至少一个聚类子簇,其中,同一个所述聚类子簇中各种模态数据所对应的事件主体是相同的。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。
CN202310244719.9A 2023-03-14 2023-03-14 基于多模态数据的事件聚合方法、装置和设备 Pending CN116310682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310244719.9A CN116310682A (zh) 2023-03-14 2023-03-14 基于多模态数据的事件聚合方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310244719.9A CN116310682A (zh) 2023-03-14 2023-03-14 基于多模态数据的事件聚合方法、装置和设备

Publications (1)

Publication Number Publication Date
CN116310682A true CN116310682A (zh) 2023-06-23

Family

ID=86837470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310244719.9A Pending CN116310682A (zh) 2023-03-14 2023-03-14 基于多模态数据的事件聚合方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116310682A (zh)

Similar Documents

Publication Publication Date Title
WO2022227769A1 (zh) 车道线检测模型的训练方法、装置、电子设备及存储介质
US20220004928A1 (en) Method and apparatus for incrementally training model
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
CN113780098B (zh) 文字识别方法、装置、电子设备以及存储介质
CN113361572B (zh) 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113656587B (zh) 文本分类方法、装置、电子设备及存储介质
CN112818227B (zh) 内容推荐方法、装置、电子设备及存储介质
CN113590776A (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
JP2023015215A (ja) テキスト情報の抽出方法、装置、電子機器及び記憶媒体
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
CN112784102B (zh) 视频检索方法、装置和电子设备
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN113963186A (zh) 目标检测模型的训练方法、目标检测方法及相关装置
CN113963197A (zh) 图像识别方法、装置、电子设备和可读存储介质
CN117312140A (zh) 测试用例的生成方法、装置、电子设备及存储介质
CN115457329B (zh) 图像分类模型的训练方法、图像分类方法和装置
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN114972910B (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
US11610396B2 (en) Logo picture processing method, apparatus, device and medium
CN113051926B (zh) 文本抽取方法、设备和存储介质
CN112560848B (zh) 兴趣点poi预训练模型的训练方法、装置及电子设备
CN114692778A (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN114443864A (zh) 跨模态数据的匹配方法、装置及计算机程序产品
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination