CN114201622A

CN114201622A - 获取事件信息的方法、装置、电子设备和存储介质

Info

Publication number: CN114201622A
Application number: CN202111519645.2A
Authority: CN
Inventors: 汪琦; 冯知凡; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-18
Anticipated expiration: 2041-12-13
Also published as: US20230112385A1; CN114201622B

Abstract

本公开提供了一种获取事件信息的方法、装置、电子设备和存储介质，涉及人工智能技术领域，更具体地涉及知识图谱和深度学习领域。获取事件信息的方法的具体实现方案包括：根据待处理数据中的查询信息，确定描述事件的第一关键信息；根据待处理数据中的多媒体数据，确定描述事件的第二关键信息；其中，多媒体数据包括基于查询信息查询得到的数据；以及融合第一关键信息和第二关键信息，得到待处理数据描述的目标事件的事件信息。

Description

获取事件信息的方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及知识图谱和深度学习等技术领域，更具体地涉及一种获取事件信息的方法、装置、电子设备和存储介质。

背景技术

在移动互联网和大数据的时代背景下，互联网上的多媒体数据呈现爆发式增长。作为日益丰富的信息承载媒介，对多媒体数据的深度语义理解成为很多智能应用的基础，且具有重要的研究意义和实际应用价值。相关技术中通常无法从用户的真实需求的角度来对多媒体数据进行语义理解，这在一定程度上会影响智能应用的合理开发。

发明内容

提供了一种提高的姿态分类方法、姿态分类模型的训练方法、装置、电子设备和存储介质。

本公开的一个方面提供了一种获取事件信息的方法，包括：根据待处理数据中的查询信息，确定描述事件的第一关键信息；根据待处理数据中的多媒体数据，确定描述事件的第二关键信息；其中，多媒体数据包括基于查询信息查询得到的数据；以及融合第一关键信息和第二关键信息，得到待处理数据描述的目标事件的事件信息。

本公开的另一个方面提供了一种获取事件信息的装置，包括：第一信息抽取模块，用于根据待处理数据中的查询信息，确定描述事件的第一关键信息；第二信息抽取模块，用于根据待处理数据中的多媒体数据，确定描述事件的第二关键信息；其中，多媒体数据包括基于查询信息查询得到的数据；以及事件信息确定模块，用于融合第一关键信息和第二关键信息，得到待处理数据描述的目标事件的事件信息。

本公开的另一个方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的获取事件信息的方法。

根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的获取事件信息的方法。

根据本公开的另一个方面提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的获取事件信息的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的获取事件信息的方法的应用场景示意图；

图2是根据本公开实施例的获取事件信息的方法的流程示意图；

图3是根据本公开实施例的得到目标事件的事件信息的原理示意图；

图4是根据本公开实施例的获取事件信息的原理示意图；

图5是根据本公开实施例的确定两个事件之间的相似度的原理示意图；

图6是根据本公开实施例的获取事件信息的装置的结构框图；以及

图7是用来实施本公开实施例的获取事件信息的方法的电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种获取事件信息的方法，包括第一信息抽取阶段、第二信息抽取阶段和事件信息确定阶段。在第一信息抽取阶段中，根据待处理数据中的查询信息，确定描述事件的第一关键信息；在第二信息抽取阶段中，根据待处理数据中的多媒体数据，确定描述事件的第二关键信息；其中，多媒体数据包括基于查询信息查询得到的数据。在事件信息确定阶段中，融合第一关键信息和第二关键信息，得到待处理数据描述的目标事件的事件信息。

以下先对本公开中涉及到的技术名词进行解释：

论元(argument)：在语言学中，论元通常指一个句子中带有名词性的词。该论元通常为名词短语，表示事件或动作的参与者。

论元角色(role)：事件或动作的参与者在事件或动作中充当的角色。

题元关系(thematic relation)：是论元的语义角色，如“施事”、“受事”。在本公开中，可以根据题元关系来确定查询信息或多媒体数据中的论元。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的获取事件信息的方法和装置的应用场景图。

如图1所示，该应用场景100中可以包括终端设备110和服务器120。终端设备110可以通过网络与服务器120通信连接，网络可以包括有线或无线通信链路。

终端设备110例如可以为智能手机、平板电脑、便携式计算机或台式计算机等电子设备。该终端设备110可以安装有网页浏览器应用、视频播放类应用、搜索类应用和/或购物类应用等客户端应用。用户可以通过该终端设备110中安装的客户端应用查询数据。

服务器120例如可以是提供各种服务的服务器，例如对用户利用终端设备110所查询的信息提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收终端设备110响应于用户操作发送的查询请求(包括查询信息query)，并将查询结果(例如文本列表、图像列表、视频列表或网页链接列表等多媒体数据列表)反馈给终端设备110，以供终端设备110展示给用户。

根据本公开的实施例，该应用场景100可以将终端设备110发送的查询请求中的查询信息和接收到的查询结果作为待处理数据130，并将该待处理数据130写入数据库140中。为了便于对查询结果中多媒体数据进行语义理解，并提取事件信息，终端设备110例如可以定期或响应于用户操作从数据库140中获取待处理数据130，并从待处理数据130中获取事件信息150。或者，服务器120可以定期或响应于用户操作从数据库140中获取待处理数据130，并从待处理数据130中获取事件信息150。

其中，在终端设备110或服务器120从待处理数据中获取事件信息150时，不仅识别待处理数据130中的多媒体数据，还识别待处理数据130中的查询信息。如此，可以实现对事件信息获取的弱监督，保证事件信息是从描述相同事件的数据中获取的，并因此提高获取的事件信息的精度。

需要说明的是，本公开提供的获取事件信息的方法可以由终端设备110或服务器120执行。相应地，本公开提供的获取事件信息的装置可以设置于终端设备110或服务器120中。

应该理解，图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、服务器和数据库。

以下将通过图2～图5对本公开提供的获取事件信息的方法进行详细描述。

图2是根据本公开实施例的获取事件信息的方法的流程示意图。

如图2所示，该实施例的获取事件信息的方法200可以包括操作S210～操作S230。

在操作S210，根据待处理数据中的查询信息，确定描述事件的第一关键信息。

根据本公开的实施例，查询信息可以为用户输入的查询文本。例如，若用户想要知道如何制作冰糖葫芦，用户可以在终端设备展示的检索框中输入“制作冰糖葫芦的方法”，则查询信息即为查询文本“制作冰糖葫芦的方法”。可以理解的是，若用户通过输入图像来查询多媒体数据，则查询信息还可以为用户输入的图像。

该实施例可以对查询信息进行处理，得到描述事件的第一关键信息。例如，若查询信息为查询文本，则该实施例可以采用文本处理方法来处理查询信息。其中，文本处理方法例如可以包括关键词提取方法、主题提取方法、实体识别方法和/或文本分类方法等。将文本处理方法处理得到的结果作为第一关键信息。若查询信息为图像，则该实施例可以采用图像处理方法来处理查询信息。其中，图像处理方法例如可以包括目标检测方法和/或图像分类方法等。该实施例可以将图像处理方法处理得到的结果作为第一关键信息。

在操作S220，根据待处理数据中的多媒体数据，确定描述事件的第二关键信息。其中，多媒体数据包括基于查询信息查询得到的数据。

根据本公开的实施例，待处理数据中的多媒体数据例如可以是服务器响应于查询请求反馈的多媒体数据。该多媒体数据可以为图像、视频和/或文本等。该实施例可以采用与多媒体数据匹配的处理方法来对多媒体数据进行语义理解，从而得到第二关键信息。例如，若多媒体数据为图像，匹配的处理方法可以包括前述的目标检测方法和/或图像分类方法等。若多媒体数据为视频，则可以采用前述与图像匹配的处理方法对视频中的视频帧进行语义理解，将对多个视频帧进行语义理解得到的结果作为第二关键信息。若多媒体数据为文本，则可以采用前述的关键词提取方法、主题提取方法、实体识别方法和/或文本分类方法等对文本进行语义理解。

根据本公开的实施例，在服务器响应于查询请求反馈的多媒体数据包含多个数据的情况下，则待处理数据中的多媒体数据例如可以为多个数据中排序靠前的预定数量个数据。考虑到查询得到的数据中排序靠前的数据通常为与用户需求更为相符的数据或与查询请求匹配度更高的数据，则该实施例通过根据排序靠前的数据来确定第二关键信息，可以在一定程度上保证确定的第二关键信息对事件描述的准确性，并保证确定的第二关键信息与第一关键信息描述的事件为同一事件。

根据本公开的实施例，在服务器响应于查询请求反馈的多媒体数据包含多个数据的情况下，待处理数据中的多媒体数据例如可以为多个数据中被访问过的数据。该被访问过的数据即为在终端设备展示查询结果后被用户选择的数据。由于被访问过的数据可以在一定程度上反映用户的真实需求。因此，根据该被访问过的数据确定的第二关键信息即为能更精准的描述事件的信息。

根据本公开的实施例，在服务器响应于查询请求反馈的多媒体数据包含多个数据的情况下，待处理数据中的多媒体数据例如可以为多个数据中与查询信息描述相同主题事件的数据。例如，可以针对多媒体数据中的每个数据，采用前文描述的与多媒体数据匹配的处理方法对每个数据进行分类，确定每个数据的主题类别。同样的，可以确定查询信息的主题类别，并将该查询信息的主题类别添加至第一关键信息中。随后，根据待处理数据中主题类别与查询信息的主题类别相同的多媒体数据，确定描述事件的第二关键信息。如此，可以在一定程度上保证确定的第二关键信息与第一关键信息描述的事件为同一事件，提高确定的第二关键信息的准确性。

在操作S230，融合第一关键信息和第二关键信息，得到待处理数据描述的目标事件的事件信息。

根据本公开的实施例，可以将第一关键信息和第二关键信息的并集作为待处理数据描述的目标事件的事件信息。其中，目标事件即为待处理数据中的查询数据所对应的事件。

根据本公开的实施例，事件信息例如可以包括事件名称、事件类别和事件关键词等。其中，事件名称例如可以为第一关键信息和第二关键信息中由名词和动词构成的关键信息，或者该事件名称可以为采用前文描述的主题提取方法得到的关键信息。其中，事件类别可以为第一关键信息和第二关键信息中描述多个预定类别中的任一预定类别的关键信息。

在第一关键信息和第二关键信息中均包括描述预定类别的关键信息时，可以将第一关键信息中描述预定类别的关键信息作为事件类别。这是考虑到基于查询信息查询得到的数据可能为与查询信息不相关的数据，且查询信息能够更好的反映用户的需求。

综上描述，本公开实施例的获取事件信息的方法，由于不仅从多媒体数据中确定关键信息，还从查询信息中确定关键信息，因此可以使得确定的事件信息可以更为满足用户的真实需求，便于提高信息推荐或事件识别等下游应用的精度，并因此提高下游应用的用户体验。

图3是根据本公开实施例的得到目标事件的事件信息的原理示意图。

根据本公开的实施例，在获取事件信息时，例如还可以预先对不同类别事件的事件信息进行约束和定义。例如，可以预先设定有事件类别与事件信息描述的论元角色之间的映射关系。

如此，该实施例在确定目标事件的事件信息时，可以先根据第一关键信息和第二关键信息确定目标事件的类别。根据类别与论元角色之间的映射关系，确定与目标事件具有映射关系的论元角色。随后从第一关键信息和第二关键信息中为论元角色分配论元。。

例如，对于美食制作类别的事件，具有映射关系的论元角色可以包括：菜品、做法、食材、口味、菜品分类等。

根据本公开的实施例，通常每个事件都归属于某个主题，且某个主题下的事件又包括具有不同动作的多类事件。因此，该实施例在确定目标事件的类别时，需要确定目标事件的主题类别和目标事件的动作类别。

在一实施例中，如图3所示，该实施例300在得到第一关键信息301和第二关键信息302后，可以先根据该第一关键信息301和第二关键信息302来确定目标事件的主题类别310和目标事件的动作类别320。在得到主题类别310和动作类别320后，可以确定预定事件图谱中与目标事件匹配的至少一个论元角色。

例如，该实施例300可以维护有预定事件图谱330，该预定事件图谱330能够指示事件的主题类别、事件的动作类别和与事件匹配的论元角色之间的映射关系。如此，该实施例可以根据主题类别和动作类别查找预定事件图谱，从预定事件图谱中查找到与目标事件匹配的至少一个论元角色340。

例如，第一关键信息和第二关键信息中可以包括有主题类别和表征动作的关键词。在查询信息为文本时，可以采用文本分类方法来确定查询信息的主题类别，并添加至第一关键信息中。查询信息的主题类别可以为多个预定主题类别中的任一类别。类似的，可以采用与多媒体数据匹配的分类方法来确定多媒体数据的主题类别，并添加至第二关键信息中。该实施例可以在第一关键信息中的主题类别与第二关键信息中的主题类别相同时，将该相同的主题类别作为待处理数据的主题类别。在第一关键信息中的主题类别与第二关键信息中的主题类别不相同时，可以将第一关键信息中的主题类别作为待处理数据的主题类别。如前文描述，若在确定第二关键信息时已经对多媒体数据根据主题类别进行了筛选，则第一关键信息中的主题类别与第二关键信息中的主题类别应该是相同的。

例如，多个预定主题类别可以根据实际需求进行设定。例如，该多个预定主题类别可以包括美食、医疗、文化、军事、科技等36个类别。

例如，该实施例300可以维护有动作类别库，针对多个预定主题类别中的每个主题类别，该动作类别库中可以包括属于每个主题类别的至少一个动作类别。例如，动作类别库中可以包括有多于1500个的动作类别。其中，属于美食主题类别的动作类别可以包括：美食制作/教学类别、吃播类别等，属于文化主题类别的动作类别可以包括：跳舞类别、音乐教学类别和音乐演唱类别等。该实施例300可以将第一关键信息和第二关键信息中的描述动作的词与该动作类别库进行对齐。具体可以采用与关键信息中描述动作的词描述相同动作的动作类别名替换第一关键信息中描述动作的词。在第一关键信息中包括多个描述动作的词时，该实施例还可以根据描述动作的词在查询信息中的重要程度，选择多个描述动作的词中的核心词，并将该核心词与动作类别库进行对齐。

例如，若第一关键信息中描述动作的词与第二关键信息中描述动作的词描述不同的动作，则可以根据第一关键信息中描述动作的词确定动作类别。若第一关键信息中描述动作的词与第二关键信息中描述动作的词描述相同的动作，则可以对第一关键信息中描述动作的词与第二关键信息中描述动作的词进行融合，确定动作类别。例如，若第一关键信息中描述动作的词为“发射”，第二关键信息中描述动作的词为“飞行器发射”，则可以确定动作类别为“飞行器发射”类别。也可以采用前文描述的通过与动作类别库进行对齐的方式来确定动作类别。

在得到至少一个论元角色340中，可以根据第一关键信息和第二关键信息，确定与至少一个论元角色匹配的论元350，从而得到论元角色-论元对360。可以将该论元角色-论元对360作为目标事件的事件信息。或者，可以将该论元角色-论元对360及前述的动作类别均作为事件信息。

例如，第一关键信息和第二关键信息可以是通过语义标注得到的关键词，则该实施例可以对关键词的语义标注结果与论元角色进行匹配。根据匹配结果来为论元角色分配论元。或者，该实施例可以根据第一关键信息和第二关键信息中的各信息查询预先构建的知识图谱，从而查询得到与各论元角色匹配的关键信息，并将该关键信息作为该论元角色的论元。该知识图谱可以是根据大量的论元角色-论元对构建得到的。知识图谱中的节点包括论元角色节点和论元节点，构成论元角色-论元对的论元角色的节点与论元的节点之间具有连接边。

该实施例通过对确定的事件信息进行论元角色的限定，可以避免因事件信息挖掘过细导致的与实际应用场景存在偏差的问题。相应地，通过采用该实施例的方法确定的事件信息，可以更精准的应用于多媒体数据理解场景的下游任务中。下游任务例如可以包括：多媒体数据的推荐任务和识别非法行为的任务等。

图4是根据本公开实施例的获取事件信息的原理示意图。

该实施例400以查询信息包括查询文本为例对获取事件信息的原理进行描述。

如图4所示，该实施例400中，可以对作为query的查询文本401进行类别标注，得到查询文本中每个词的类别，并将每个词与类别之间的对应关系作为类别标注结果411。例如可以采用概念标注方法来对查询文本进行类别标注。其中，概念标注方法用于对分词得到的每个词进行分类，确定每个词所属的概念，并将该概念作为该每个词的类别进行标注。其中，每个词所属的概念可以为已有百科数据库中维护的概念库中的任一概念。

该实施例400还可以在得到每个词的类别后，对查询文本中的词进行词性标注和语义角色标注，得到标注结果。该标注结果具体可以为词性&语义标注结果412。根据词性标注和语义角色标注的结果，可以识别得到查询文本中的事件名、描述动作的词及关键词等。该实施例可以将识别得到的各个词的合集作为第一关键信息。

其中，词性标注(Part-Of-Speech tagging，POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation)，是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。可以采用词性标注算法来进行词性标注，词性标注算法例如可以包括隐马尔可夫模型(Hidden Markov Model，HMM)、条件随机场(Conditional random fields，CRFs)等。

其中，语义角色标注(Semantic Role Labeling，SRL)是一种浅层语义分析技术，以句子为单位，分析句子的谓语-论元结构，不对句子所包含的语义信息进行深入分析。具体来说，语义角色标注的任务就是以句子的谓词为中心，研究句子中各成分与谓词之间的关系，并且用语义角色来描述他们之间的关系。语义角色例如可以包括施事者、主体和触发者角色等。

在一实施例中，在得到描述动作的词后，还可以采用类似实体连接(EntityLinking)的方法来将该描述动作的词与前文描述的动作类别库中的动作类别进行关联，并将关联的动作类别作为第一关键信息中描述动作的词。

在一实施例中，可以在得到查询文本中每个词的类别后，先确定查询文本中是否包括场景类别的词。若不包括，则可以判定该查询文本未描述事件，并直接丢弃待处理数据。若查询文本中包括场景类别的词，再对查询文本进行词性标注和语义角色标注。通过该方式，可以在一定程度上避免对事件无关数据的处理，减少计算资源的浪费。

该实施例400可以对作为Value的多媒体数据402进行标签识别，具体可以采用与多媒体数据402匹配的数据识别方法识别多媒体数据，得到描述多媒体数据402的至少一个标签421。随后，可以对该些标签进行排序，得到标签序列422。该实施例可以将该标签序列作为第二关键信息。

在一实施例中，多媒体数据402例如可以包括至少两个模态的数据。例如，若多媒体数据402为视频，则多媒体数据402可以包括以下数据中的至少两种：文本模态的数据、音频模态的数据和图像模态的数据。其中，文本模态的数据例如可以包括视频的标题和视频的字幕等，图像模态的数据可以包括视频的每个视频帧，或视频的关键帧。音频模态的数据可以包括与视频对应的音频。该实施例可以采用与每个模态匹配的数据识别方法识别每个模态的数据，得到至少一个标签421。

例如，采用的识别方法可以包括动作识别方法、场景识别方法、文本的语义理解方法、Mel谱提取方法等。该识别方法例如还可以包括分类方法。可以理解的是，上述识别方法仅作为示例以利于理解本公开，本公开对此不做限定。该实施例通过对至少两个模态的数据进行识别来确定第二关键信息，可以提高确定的关键信息的丰富性。

该实施例在识别每个模态的数据得到至少一个标签后，可以对至少两个模态的数据识别得到的标签进行去重等操作。将去重等操作后剩余的标签作为所有标签，采用Rank模型对所有标签进行排序，得到标签序列422。

在得到第一关键信息和第二关键信息后，即可采用前文描述的方法来确定目标事件的事件信息430。例如，事件信息除了前文描述的论元角色-论元对外，还可以包括前文描述的动作类别、事件名称和关键词。事件名称可以根据第一关键信息和第二关键信息中描述动作的核心词及待处理数据中与该核心词关联的句法依存关系来确定。例如，可以将查询信息中与该核心词关联的主语与该核心词根据语序组合得到事件名称。该实施例还可以将采用主题提取方法得到的关键信息作为事件名称。例如可以将除描述动作的词、主题类别、论元和事件名称外的其他关键信息作为关键词。

例如，在一实施例中，确定的事件名称可以为“制作红烧肉”，主题类别为“美食”类别，动作类别为“美食制作/教学”，关键词可以包括“家常菜”、“菜名”，论元角色-论元对包括：菜品-红烧肉、做法-红烧、主要食材-五花肉、口味-香甜和菜品分类-热菜等。

在一实施例中，考虑到通常根据一个查询信息得到的查询结果中包括多个数据，则前文描述的多媒体数据可以包括多个数据。该实施例在确定第二关键信息时，可以根据多个数据中的每个数据得到一组关键信息，从而得到多组关键信息。随后，可以通过融合该多组关键信息得到第二关键信息。其中，融合多组关键信息例如可以包括取多组关键信息中信息的并集，将取得的并集作为第二关键信息。

可以理解的是，该多媒体数据包括的多个数据可以为前文描述的根据主题类别筛选后剩余的数据。该实施例通过融合根据多个数据得到的关键信息来得到第二关键信息，可以提高得到的第二关键信息的完整性，利于提高确定的事件信息的完整性。

图5是根据本公开实施例的确定两个事件之间的相似度的原理示意图。

根据本公开的实施例，在通过前文描述的方法对多个待处理数据处理后，可以得到多个事件的事件信息。该实施例在得到多个事件的事件信息后，还可以计算多个事件彼此之间的相似度，并根据计算得到的相似度确定多个事件中是否存在事件信息不同、但实质上为同一事件的至少两个事件。若存在，则对为同一事件的该至少两个事件的事件信息进行融合。通过该方式，可以提高维护得到的事件信息的完整性和合理性。避免对采用不同查询信息查询同一事件的情况下，因获取的事件信息不同导致事件库中维护有同一事件的两组事件信息的问题。通过该实施例的方法，便于提高下游应用的精度。

在如图5所示的实施例500中，可以根据多个事件中每个事件的事件信息，确定针对每个事件的知识图谱。例如，对于多个事件中的任意两个事件，可以分别得到知识图谱510和知识图谱520。随后，可以根据针对该任意两个事件的两个知识图谱，确定该任意两个事件之间的相似度。对于n个事件，例如可以得到n(n-1)/2个相似度。最后，可以确定该多个事件中相似度大于相似度阈值的两个事件为同一事件。

在一实施例中，可以将每个事件的事件名称作为知识图谱的中心节点，将该每个事件的论元角色-论元对中的论元角色作为与中心节点连接的第一层节点，将论元角色-论元对中的论元作为与论元角色连接的第二层节点，从而构建得到知识图谱。第二层节点与第一层节点之间根据论元角色与论元的对应关系确定连接关系。

例如，在确定任意两个事件之间的相似度时，可以先根据知识图谱确定每个事件的事件特征，将两个事件特征之间的相似度作为两个事件之间的相似度。例如，该实施例500可以采用图嵌入算法来对知识图谱进行编码，从而得到事件特征。

在一实施例中，除了采用图嵌入算法对知识图谱进行编码外，还可以采用文本编码方法来对事件信息进行编码，将编码得到的两种特征融合后来得到每个事件的事件特征。如此，对知识图谱编码得到的特征可以表征事件信息之间的关联关系，对事件信息编码得到的特征可以表征事件信息的语义特征，将两部分特征融合，可以提高得到的事件特征的表达能力，利于提高计算得到的相似度的准确性。在得到两个事件各自的事件特征后，可以确定得到的两个事件特征之间的相似度，并将该相似度作为两个事件之间的相似度。

例如，在实施例500中，对于任意两个事件，可以采用图嵌入层502对知识图谱510和知识图谱520进行编码。同时，可以对该任意两个事件的事件信息进行词嵌入表示。例如，对于任意两个事件中的第一事件，可以将多个事件信息作为词序列，然后采用Word2Vec等嵌入方法得到与词序列对应的词向量序列511。类似地，对于任意两个事件中的第一事件，可以得到词向量序列521。随后，可以采用递归神经网络501对该词向量序列511和词向量序列521进行编码。在一实施例中，还可以将多个事件信息逐字划分，得到多个事件信息的字序列。并采用Word2Vec等嵌入方法得到与字序列对应的字向量序列512和字向量序列522。相应地，该实施例可以将词向量序列511和字向量序列512拼接后作为递归神经网络501的输入，将词向量序列521和字向量序列522拼接后作为递归神经网络501的输入。通过既考虑词序列又考虑字序列的方式来对事件信息进行编码，可以提高编码得到的特征的准确性。其中，递归神经网络501例如可以为双向长短期记忆网络(Bi-LSTM)等，本公开对此不做限定。

在一实施例中，在将图嵌入层502编码得到的特征与递归神经网络501编码得到的特征拼接后，例如还可以采用Dropout层503对拼接后特征进行处理，以此避免特征提取时存在的过拟合的情况。在一实施例中，可以采用全连接层504对拼接后的特征进行处理，以此提高编码得到的特征的非线性表达能力。或者，可以先采用Dropout层503对拼接后特征进行处理，随后采用全连接层504对Dropout层503输出的特征进行处理，全连接层504输出的特征作为事件特征。

在一实施例中，两个事件特征之间的相似度530可以采用以下方式来表示：余弦相似度、皮尔逊相关系数、杰卡德相似系数等。

基于本公开提供的获取事件信息的方法，本公开还提供了一种获取事件信息的装置。以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的获取事件信息的装置的结构框图。

如图6所示，该实施例的获取事件信息的装置600可以包括第一信息抽取模块610、第二信息抽取模块620和事件信息确定模块630。

第一信息抽取模块610用于根据待处理数据中的查询信息，确定描述事件的第一关键信息。在一实施例中，第一信息抽取模块610可以用于执行前文描述的操作S210，在此不再赘述。

第二信息抽取模块620用于根据待处理数据中的多媒体数据，确定描述事件的第二关键信息。其中，多媒体数据包括基于查询信息查询得到的数据。在一实施例中，第二信息抽取模块620可以用于执行前文描述的操作S220，在此不再赘述。

事件信息确定模块630用于融合第一关键信息和第二关键信息，得到待处理数据描述的目标事件的事件信息。在一实施例中，事件信息确定模块630可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，上述事件信息确定模块630可以包括第一类别确定子模块、论元角色确定子模块和论元确定子模块。第一类别确定子模块用于根据第一关键信息和第二关键信息，确定目标事件的主题类别和目标事件的动作类别。论元角色确定子模块用于根据主题类别和动作类别，确定预定事件图谱中与目标事件匹配的至少一个论元角色。论元确定子模块用于根据第一关键信息和第二关键信息，确定与至少一个论元角色匹配的论元。其中，预定事件图谱指示了事件的主题类别、事件的动作类别和与事件匹配的论元角色之间的映射关系。

根据本公开的实施例，查询信息包括查询文本。上述第一信息抽取模块610可以包括第二类别确定子模块、标注子模块和信息确定子模块。第二类别确定子模块用于对查询文本中的词进行类别标注，得到查询文本中每个词的类别。标注子模块用于在查询文本中包括场景类别的词的情况下，对查询文本中的词进行词性标注和语义角色标注，得到标注结果。信息确定子模块用于根据标注结果，确定描述事件的第一关键信息。

根据本公开的实施例，多媒体数据包括至少两个模态的数据。上述第二信息抽取模块620可以包括标签获得子模块和标签排序子模块。标签获得子模块用于针对至少两个模态的数据中每个模态的数据，采用与每个模态匹配的数据识别方法识别每个模态的数据，得到至少一个标签。标签排序子模块用于将针对至少两个模态的数据识别得到的所有标签进行排序，得到作为第二关键信息的标签序列。

根据本公开的实施例，上述多媒体数据包括多个数据。上述第二信息抽取模块620可以包括信息抽取子模块和信息融合子模块。信息抽取子模块用于根据所述多个数据中的每个数据，确定描述事件的一组关键信息，得到多组关键信息。信息融合子模块用于融合所述多组关键信息，得到所述第二关键信息。

根据本公开的实施例，上述获取事件信息的装置600还可以包括图谱确定模块、相似度确定模块和同一事件确定模块。图谱确定模块用于针对得到的多个事件的事件信息，根据多个事件中每个事件的事件信息，确定针对每个事件的知识图谱。相似度确定模块用于根据针对多个事件中任意两个事件的两个知识图谱，确定任意两个事件之间的相似度。同一事件确定模块用于确定多个事件中相似度大于相似度阈值的两个事件为同一事件。

根据本公开的实施例，相似度确定模块可以包括第一编码子模块、第二编码子模块、特征融合子模块和相似度确定子模块。第一编码子模块用于针对任意两个事件中的每个事件：对针对每个事件的知识图谱编码，得到第一编码特征。第二编码子模块用于对每个事件的事件信息编码，得到第二编码特征。特征融合子模块用于融合第一编码特征和第二编码特征，得到每个事件的事件特征。相似度确定子模块用于确定任意两个事件的两个事件特征之间的相似度，得到任意两个事件彼此之间的相似度。

根据本公开的实施例，上述多媒体数据为基于查询信息查询得到的多个数据中被访问过的数据。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开实施例的获取事件信息的方法的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如获取事件信息的方法。例如，在一些实施例中，获取事件信息的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的获取事件信息的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行获取事件信息的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种获取事件信息的方法，包括：

根据待处理数据中的查询信息，确定描述事件的第一关键信息；

根据待处理数据中的多媒体数据，确定描述事件的第二关键信息；其中，所述多媒体数据包括基于所述查询信息查询得到的数据；以及

融合所述第一关键信息和所述第二关键信息，得到所述待处理数据描述的目标事件的事件信息。

2.根据权利要求1所述的方法，其中，所述融合所述第一关键信息和所述第二关键信息，得到所述待处理数据描述的目标事件的事件信息包括：

根据所述第一关键信息和所述第二关键信息，确定所述目标事件的主题类别和所述目标事件的动作类别；

根据所述主题类别和所述动作类别，确定预定事件图谱中与所述目标事件匹配的至少一个论元角色；以及

根据所述第一关键信息和所述第二关键信息，确定与所述至少一个论元角色匹配的论元，

其中，所述预定事件图谱指示了事件的主题类别、事件的动作类别和与事件匹配的论元角色之间的映射关系。

3.根据权利要求1所述的方法，其中，所述查询信息包括查询文本；所述根据待处理数据中的查询信息，确定描述事件的第一关键信息包括：

对所述查询文本中的词进行类别标注，得到所述查询文本中每个词的类别；

在所述查询文本中包括场景类别的词的情况下，对所述查询文本中的词进行词性标注和语义角色标注，得到标注结果；以及

根据所述标注结果，确定描述事件的所述第一关键信息。

4.根据权利要求1所述的方法，其中，所述多媒体数据包括至少两个模态的数据；所述根据待处理数据中的多媒体数据，确定描述事件的第二关键信息包括：

针对所述至少两个模态的数据中每个模态的数据，采用与所述每个模态匹配的数据识别方法识别所述每个模态的数据，得到至少一个标签；以及

将针对所述至少两个模态的数据识别得到的所有标签进行排序，得到作为所述第二关键信息的标签序列。

5.根据权利要求1或4所述的方法，其中，所述多媒体数据包括多个数据；所述根据待处理数据中的多媒体数据，确定描述事件的第二关键信息包括：

根据所述多个数据中的每个数据，确定描述事件的一组关键信息，得到多组关键信息；以及

融合所述多组关键信息，得到所述第二关键信息。

6.根据权利要求1所述的方法，还包括：

针对得到的多个事件的事件信息，根据所述多个事件中每个事件的事件信息，确定针对所述每个事件的知识图谱；

根据针对所述多个事件中任意两个事件的两个知识图谱，确定所述任意两个事件之间的相似度；以及

确定所述多个事件中相似度大于相似度阈值的两个事件为同一事件。

7.根据权利要求6所述的方法，其中，所述根据针对所述多个事件中任意两个事件的两个知识图谱，确定所述任意两个事件之间的相似度包括：

针对所述任意两个事件中的每个事件：对针对所述每个事件的知识图谱编码，得到第一编码特征；

对所述每个事件的事件信息编码，得到第二编码特征；

融合所述第一编码特征和所述第二编码特征，得到所述每个事件的事件特征；以及

确定所述任意两个事件的两个事件特征之间的相似度，得到所述任意两个事件彼此之间的相似度。

8.根据权利要求1所述的方法，其中：

所述多媒体数据为基于所述查询信息查询得到的多个数据中被访问过的数据。

9.一种获取事件信息的装置，包括：

第一信息抽取模块，用于根据待处理数据中的查询信息，确定描述事件的第一关键信息；

第二信息抽取模块，用于根据待处理数据中的多媒体数据，确定描述事件的第二关键信息；其中，所述多媒体数据包括基于所述查询信息查询得到的数据；以及

事件信息确定模块，用于融合所述第一关键信息和所述第二关键信息，得到所述待处理数据描述的目标事件的事件信息。

10.根据权利要求9所述的装置，其中，所述事件信息确定模块包括：

第一类别确定子模块，用于根据所述第一关键信息和所述第二关键信息，确定所述目标事件的主题类别和所述目标事件的动作类别；

论元角色确定子模块，用于根据所述主题类别和所述动作类别，确定预定事件图谱中与所述目标事件匹配的至少一个论元角色；以及

论元确定子模块，用于根据所述第一关键信息和所述第二关键信息，确定与所述至少一个论元角色匹配的论元，

11.根据权利要求9所述的装置，其中，所述查询信息包括查询文本；所述第一信息抽取模块包括：

第二类别确定子模块，用于对所述查询文本中的词进行类别标注，得到所述查询文本中每个词的类别；

标注子模块，用于在所述查询文本中包括场景类别的词的情况下，对所述查询文本中的词进行词性标注和语义角色标注，得到标注结果；以及

信息确定子模块，用于根据所述标注结果，确定描述事件的所述第一关键信息。

12.根据权利要求9所述的装置，其中，所述多媒体数据包括至少两个模态的数据；所述第二信息抽取模块包括：

标签获得子模块，用于针对所述至少两个模态的数据中每个模态的数据，采用与所述每个模态匹配的数据识别方法识别所述每个模态的数据，得到至少一个标签；以及

标签排序子模块，用于将针对所述至少两个模态的数据识别得到的所有标签进行排序，得到作为所述第二关键信息的标签序列。

13.根据权利要求9或12所述的装置，其中，所述多媒体数据包括多个数据；所述第二信息抽取模块包括：

信息抽取子模块，用于根据所述多个数据中的每个数据，确定描述事件的一组关键信息，得到多组关键信息；以及

信息融合子模块，用于融合所述多组关键信息，得到所述第二关键信息。

14.根据权利要求9所述的装置，还包括：

图谱确定模块，用于针对得到的多个事件的事件信息，根据所述多个事件中每个事件的事件信息，确定针对所述每个事件的知识图谱；

相似度确定模块，用于根据针对所述多个事件中任意两个事件的两个知识图谱，确定所述任意两个事件之间的相似度；以及

同一事件确定模块，用于确定所述多个事件中相似度大于相似度阈值的两个事件为同一事件。

15.根据权利要求14所述的装置，其中，所述相似度确定模块包括：

第一编码子模块，用于针对所述任意两个事件中的每个事件：对针对所述每个事件的知识图谱编码，得到第一编码特征；

第二编码子模块，用于对所述每个事件的事件信息编码，得到第二编码特征；

特征融合子模块，用于融合所述第一编码特征和所述第二编码特征，得到所述每个事件的事件特征；以及

相似度确定子模块，用于确定所述任意两个事件的两个事件特征之间的相似度，得到所述任意两个事件彼此之间的相似度。

16.根据权利要求9所述的装置，其中：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。