CN113779934B

CN113779934B - 多模态信息提取方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113779934B
Application number: CN202110932858.1A
Authority: CN
Inventors: 薛闯; 陈志衔
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2024-04-26
Anticipated expiration: 2041-08-13
Also published as: CN113779934A

Abstract

本申请提供一种多模态信息提取方法、装置、设备及计算机可读存储介质。该多模态信息提取方法包括：获取待提取数据；对待提取数据进行文本提取，以获取待提取数据的文本信息；以及，对待提取数据进行多模态特征提取，以获取多模态特征信息；将文本信息和多模态特征信息进行信息融合，以获得结构化数据。该多模态信息提取方法不仅能够提取待提取数据中的文本信息，且可提取除文本信息外的其它模态的特征信息，进而使得该方法能够适用于不用的行业及业务领域，大大扩大了适用范围。

Description

多模态信息提取方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及信息提取技术领域，尤其涉及一种多模态信息提取方法、装置、设备及计算机可读存储介质。

背景技术

随着自然语言处理(Natural Language Processing，NLP)技术的发展,如何得到非结构化数据中的结构化信息是当前的一项重要工作。在国内外以此展开的数据分析、文档审阅、知识图谱构建等相关研究中，从众多非结构化信息中提取出结构化信息，也是有着举足轻重的作用。

目前，业界主要基于命名实体识别(Named Entity Recognition，NER)，等方法，运用大量数据训练出NER模型以进行实体的抽取。然而，该方法只能提取规定的几种实体类型，且只能提取文本数据。

发明内容

本申请提供的多模态信息提取方法、装置、设备及计算机可读存储介质，该多模态信息提取方法能够解决现有方法只能提取规定的几种实体类型，且只能提取文本数据的问题。

为解决上述技术问题，本申请采用的第一个技术方案是：提供一种多模态信息提取方法。该方法包括：获取待提取数据；对待提取数据进行文本提取，以获取待提取数据的文本信息；以及，对待提取数据进行多模态特征提取，以获取多模态特征信息；将文本信息和多模态特征信息进行信息融合，以获得结构化数据。

其中，将文本信息和多模态特征信息进行融合，以获得结构化数据的步骤具体包括：对文本信息进行格式转换；将格式转换后的文本信息分别输入图网络(Graph NeuralNetwork，GNN)模型和预训练模型，以分别获取第一特征数据和第二特征数据；将第一特征数据、第二特征数据和多模态特征信息进行信息融合；将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据。

其中，对文本信息进行格式转换的步骤之后，还包括：将格式转换后的文本信息输入循环网络模型，以获取第三特征数据；将第一特征数据、第二特征数据和多模态特征信息进行信息融合的步骤包括：将第一特征数据、第二特征数据、第三特征数据和多模态特征信息进行信息融合。

其中，预设模型为条件随机场模型(Conditional Random Field，CRF)。

其中，将文本信息和多模态特征信息进行信息融合的步骤之后，还包括：对融合后的信息进行校正。

其中，待提取数据带有标签；将文本信息和多模态特征信息进行信息融合，以获得结构化数据的步骤之后，还包括：根据标签及结构化数据获取信息提取的准确度；根据准确度进行自动学习，以在线训练调优。

其中，多模态特征信息包括图像的特征信息、语义的特征信息以及视频的特征信息。

为解决上述技术问题，本申请采用的第二个技术方案是：提供一种多模态信息提取装置。该多模态信息提取装置包括：数据获取模块、文本信息提取模块、多模态特征信息获取模块以及信息融合模块；其中，数据获取模块用于获取待提取数据；文本信息提取模块用于对待提取数据进行文本提取，以获取待提取数据的文本信息；多模态特征信息获取模块用于对待提取数据进行多模态特征提取，以获取多模态特征信息；信息融合模块用于将文本信息和多模态特征信息进行信息融合，以获得结构化数据。

为解决上述技术问题，本申请采用的第三个技术方案是：提供一种多模态信息提取设备。该多模态信息提取设备包括存储器和处理器；存储器用于存储实现上述所涉及的多模态信息提取方法的程序指令；处理器用于执行存储器存储的程序指令。

为解决上述技术问题，本申请采用的第四个技术方案是：提供一种计算机可读存储介质。该计算机可读存储介质存储有程序文件，程序文件能够被处理器执行以实现上述所涉及的多模态信息提取方法。

本申请提供的多模态信息提取方法、装置、设备及计算机可读存储介质，该多模态信息提取方法通过对待提取数据进行文本提取，以获取待提取数据的文本信息；并对待提取数据进行多模态特征提取，以获取多模态特征信息；之后将文本信息和多模态特征信息进行信息融合，以获得结构化数据；从而使得该方法不仅能够提取待提取数据中的文本信息，且可提取除文本信息外的其它模态的特征信息，进而使得该方法能够适用于不用的行业及业务领域，大大扩大了适用范围。

附图说明

图1a为本申请第一实施例提供的多模态信息提取方法的流程图；

图1b为本申请一实施例提供的多模态信息提取方法的流程框图；

图2为本申请一实施例提供的图1a中步骤S14的子流程图；

图3为本申请一实施例提供的图1a中步骤S14的子流程图；

图4为本申请第二实施例提供的多模态信息提取方法的流程图；

图5为本申请一实施例提供的多模态信息提取装置的结构示意图；

图6为本申请一实施例提供的多模态信息提取设备的结构示意图；

图7为本申请一实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

目前，基于NER等方法进行实体抽取以从非结构化数据中提取结构化信息的方法，只能提取规定的几种实体类型，且仅局限于提取文本数据，而想要提取规定之外的结构化信息或其他模态的数据，比如提取非结构数据中的图像、音频等特征数据则较为困难。

本申请提供一种多模态信息提取的方法，能够在不同的业务场景、不同模态的数据中，用户只需要进行少量的数据调优之后，就可以在非结构化数据中提取出想要的特定结构化信息。

下面结合附图和实施例对本申请进行详细的说明。

请参阅图1a和图1b，其中，图1a为本申请第一实施例提供的多模态信息提取方法的流程图；图1b为本申请一实施例提供的多模态信息提取方法的流程框图。在本实施例中，提供一种多模态信息提取方法，该方法可应用于简历、合同或招标书等的筛选。具体的，该方法包括：

步骤S11：获取待提取数据。

其中，待提取数据可为带有标签(label)的不同行业数据。比如：待提取数据可以是不同行业的简历，以下实施例以此为例；当然，待提取数据还可以是合同或招标书等。其中，由于该方法适用于不同行业的待提取数据，不仅仅限于算法特定的几种实体，能够满足特定行业专有的结构化信息的提取。在具体实施例中，该待提取数据一般几十条即可。

步骤S12：对待提取数据进行文本提取，以获取待提取数据的文本信息。

具体的，可采用现有方法对待提取数据进行文本提取，以获取待提取数据的文本信息。具体的，可采用NER方法运用大量数据训练出NER模型进行实体抽取，以获取待提取数据的文本信息。比如，“简历”中包含文本信息“姓名”、“性别”和“年龄”；对待提取数据“简历”进行文本提取后，获取的文本信息即为对应的“姓名”、“性别”和“年龄”信息。

步骤S13：对待提取数据进行多模态特征提取，以获取多模态特征信息。

具体的，获取预先训练的多模态特征信息获取模块；将待提取数据输入多模态特征信息获取模块以进行多模态特征提取，从而获取多模态特征信息。其中，多模态特征信息可包括图像的特征信息、语义的特征信息以及视频的特征信息等。比如，简历中还包括个人照片以及自我介绍语音；在具体实施例中，对简历进行图像以及音频的特征提取，以获取简历中的个人照片信息以及自我介绍的语音信息。

在具体实施例中，步骤S12和步骤S13的先后顺序不做限定，当然也可同时进行，具体可根据实际情况而定。

步骤S14：将文本信息和多模态特征信息进行信息融合，以获得结构化数据。

在一具体实施例中，请参阅图2，图2为本申请一实施例提供的图1a中步骤S14的子流程图；步骤S14具体包括：

步骤S141：对文本信息进行格式转换。

具体的，可对提取的文本信息进行text2token处理，以转换为token格式的文本信息。

步骤S142：将格式转换后的文本信息分别输入图网络模型和预训练模型，以分别获取第一特征数据和第二特征数据。

其中，通过将格式转换后的文本信息输入图网络模型，以输出具有常识及推理能力的第一特征数据；通过将格式转换后的文本信息输入预训练模型，以向文本信息提供语义并降低数据量；进而赋予了获取的特征数据的语义、常识、推理等能力，使得信息提取更为准确。

步骤S143：将第一特征数据、第二特征数据和多模态特征信息进行信息融合。

具体的，将述第一特征数据、第二特征数据和多模态特征信息输入信息融合模块以进行信息融合，从而得到多模态的结构化数据。其中，运用多模态的信息融合能够有效保证多模态信息的准确性。

步骤S144：将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据。

具体的，可根据实际需求对融合后的信息进行序列标注，比如，需要获取简历中的姓名、性别、年龄等信息，则可以对简历中的姓名、性别、年龄进行系列标注。其中，具体的序列标注方法可采用现有技术中对非结构化数据进行序列标注的方法，且可实现相同或相似的技术效果，在此不再赘述。

在具体实施例中，为了对融合后的信息进行校正，该预设模型可为条件随机场模型。在具体实施例中，可将融合后的信息输入CRF模型，以在进行系列标注提取结构化数据的同时，运用统计及工程化方法对融合后的信息进行信息分布等合理性校正。比如，若简历中存在对应“姓名”这个信息的两个标签，则可基于统计的方法选择提取标签位于简历开头处的“姓名”信息。

在另一具体实施例中，请参阅图3，图3为本申请一实施例提供的图1a中步骤S14的子流程图；为了避免文本信息输入预训练模型造成部分数据丢失的问题，可进一步将格式转换后的文本信息输入循环网络模型，以保证最终提取的结构化数据的完整性。具体的，在该实施例中，步骤S14具体包括：

步骤S145：对文本信息进行格式转换。

步骤S146：将格式转换后的文本信息分别输入图网络模型、预训练模型和循环网络模型，以分别获取第一特征数据、第二特征数据以及第三特征数据。

其中，第一特征数据、第二特征数据以及第三特征数据具体为向量数据。

步骤S147：将第一特征数据、第二特征数据、第三特征数据和多模态特征信息进行信息融合。

其中，步骤S145至步骤S147的具体实施过程与上述具体实施例中的步骤S141至步骤S143的具体实施过程相同或相似，且可实现相同或相似的技术效果，具体可参见上文。

其中，通过进一步将格式转换后的文本信息输入循环网络模型，能够在文本信息输入预训练模型造成部分数据丢失时，通过循环网络模型进一步保证最终提取的结构化数据的完整性。

步骤S148：将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据。

其中，步骤S148的具体实施过程与上述具体实施例中的步骤S144的具体实施过程相同或相似，且可实现相同或相似的技术效果，具体可参见上文。

本实施例提供的多模态信息提取方法，通过对待提取数据进行文本提取，以获取待提取数据的文本信息；并对待提取数据进行多模态特征提取，以获取多模态特征信息；之后将文本信息和多模态特征信息进行信息融合，以获得结构化数据；从而使得该方法不仅能够提取待提取数据中的文本信息，且可提取除文本信息外的其它模态的特征信息，进而使得该方法能够适用于不用的行业及业务领域，大大扩大了适用范围。另外，通过运用多模态的信息融合进行保证多模态信息的准确性、运用预训练模型提供语义并降低数据量、运用图网络等方法提供常识及推理能力，最终使该方法能够在很少的数据调优下，支持多模态的非结构化信息提取。

在一实施例中，参阅图4，图4为本申请第二实施例提供的多模态信息提取方法的流程图；在本实施例中，提供一种多模态信息提取方法，该方法包括：

步骤S21：获取待提取数据。

步骤S22：对待提取数据进行文本提取，以获取待提取数据的文本信息。

步骤S23：对待提取数据进行多模态特征提取，以获取多模态特征信息。

步骤S24：将文本信息和多模态特征信息进行信息融合，以获得结构化数据。

其中，步骤S21至步骤S24的具体实施过程与上述第一实施例提供的多模态信息提取方法中的步骤S11至步骤S14的具体实施过程相同或相似，且可实现相同或相似的技术效果，具体可参见上文。

步骤S25：根据标签及结构化数据获取信息提取的准确度。

具体的，将提取的结构化数据与带有标签的非结构化数据进行比较，以获取信息提取的准确度。比如，带有标签的信息为“小张”、“西安”、“重庆”、“夏天”和“兵马俑”；提取的结构化信息为“小张”、“西宁”、“重庆”、“春天”和“兵马俑”；则该次信息提取的准确度为80％。

步骤S26：根据准确度进行自动学习，以在线训练调优。

具体的，可通过判断准确度是否满足预设准确度；若满足，则直接获取提取的结构化数据；若不满足，可返回步骤S11重新提取结构化数据，以在线训练调优，直至满足预设准确度。其中，预设准确度可为100％、90％或60％等。满足预设准确度可为不小于预设准确度。

本实施例提供的多模态信息提取方法，相比于上述实施例提供的方法，不仅能够提取多模态特征信息，以满足不同的行业需求；同时，根据标签及结构化数据获取信息提取的准确度；然后根据准确度进行自动学习，以在线训练调优，使得整个训练过程模型可自动调优，无需人工参与，自动化程度较高，使用较为方便。

请参阅图5，图5为本申请一实施例提供的多模态信息提取装置的结构示意图；在本实施例中，提供一种多模态信息提取装置30。该多模态信息提取装置30可用于执行上述任一实施例提供的多模态信息提取方法。具体的，该多模态信息提取装置30包括数据获取模块31、文本信息提取模块32、多模态特征信息获取模块33以及信息融合模块34。

其中，数据获取模块31用于获取待提取数据。其中，待提取数据可为带有标签(label)的不同行业数据。比如：待提取数据可以是不同行业的简历，以下实施例以此为例；当然，待提取数据还可以是合同或招标书等。其中，由于该方法适用于不同行业的待提取数据，不仅仅限于算法特定的几种实体，能够满足特定行业专有的结构化信息的提取。

文本信息提取模块32与数据获取模块31连接，用于对待提取数据进行文本提取，以获取待提取数据的文本信息。其中，文本信息提取模块32具体可采用NER方法运用大量数据训练出NER模型进行实体抽取，以获取待提取数据的文本信息。比如，“简历”中包含文本信息“姓名”、“性别”和“年龄”；对待提取数据“简历”进行文本提取后，获取的文本信息即为对应的“姓名”、“性别”和“年龄”信息。

多模态特征信息获取模块33与数据获取模块31连接，用于对待提取数据进行多模态特征提取，以获取多模态特征信息。其中，多模态特征信息可包括图像的特征信息、语义的特征信息以及视频的特征信息等。

信息融合模块34分别与文本信息提取模块32和多模态特征信息获取模块33连接，用于将文本信息和多模态特征信息进行信息融合，以获得结构化数据。

在一实施例中，信息融合模块34具体用于对文本信息进行格式转换；将格式转换后的文本信息分别输入图网络模型和预训练模型，以分别获取第一特征数据和第二特征数据；将第一特征数据、第二特征数据和多模态特征信息进行信息融合；将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据。

在另一实施例中，信息融合模块34具体用于对文本信息进行格式转换；将格式转换后的文本信息分别输入图网络模型、预训练模型和循环网络模型，以分别获取第一特征数据、第二特征数据以及第三特征数据；将第一特征数据、第二特征数据、第三特征数据和多模态特征信息进行信息融合；将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据。

请参阅图6，图6为本申请一实施例提供的多模态信息提取设备的结构示意图；在本实施例中，提供一种多模态信息提取设备40，该多模态信息提取设备40包括存储器41和处理器42。具体的，该多模态信息提取设备40可以是服务器。

其中，存储器41用于存储实现上述实施例所涉及的多模态信息提取方法的程序指令；处理器42用于执行存储器41存储的程序指令。其中，处理器42还可以称为CPU(CentralProcessingUnit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器41可以为内存条、TF卡等，可以存储多模态信息提取装置30中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器41中。它根据控制器指定的位置存入和取出信息。有了存储器41，多模态信息提取装置30才有记忆功能，才能保证正常工作。多模态信息提取装置30中的存储器41按用途存储器可分为主存储器(内存)和辅助存储器(外存)，也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

多模态信息提取设备40还包括其他的器件，其与现有技术中的多模态信息提取设备中的其他器件及功能相同，在此不再赘述。

请参阅图7，图7为本申请一实施例提供的计算机可读存储介质的结构示意图。在本实施例中，提供一种计算机可读存储介质，该计算机可读存储介质存储有程序文件51，程序文件51能够被执行以实现上述实施例所涉及的多模态信息提取方法。具体的，程序文件51能够被处理器执行以实现上述实施例所涉及的多模态信息提取方法。其中，该程序文件51可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台多模态信息提取设备40(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only5Memory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种多模态信息提取方法，其特征在于，包括：

获取待提取数据，所述待提取数据带有标签；

对所述待提取数据进行文本提取，以获取所述待提取数据的文本信息；以及，

对所述待提取数据进行多模态特征提取，以获取多模态特征信息；

对所述文本信息进行格式转换；

将格式转换后的文本信息分别输入图网络模型和预训练模型，以分别获取第一特征数据和第二特征数据；

将格式转换后的文本信息输入循环网络模型，以获取第三特征数据；

将所述第一特征数据、所述第二特征数据、所述第三特征数据和所述多模态特征信息进行信息融合；

将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据；

根据所述标签及所述结构化数据获取信息提取的准确度；

根据所述准确度进行自动学习，以在线训练调优。

2.根据权利要求1所述的多模态信息提取方法，其特征在于，所述预设模型为条件随机场模型。

3.根据权利要求1所述的多模态信息提取方法，其特征在于，所述将所述文本信息和所述多模态特征信息进行信息融合的步骤之后，还包括：对融合后的信息进行校正。

4.根据权利要求1所述的多模态信息提取方法，其特征在于，所述多模态特征信息包括图像的特征信息、语义的特征信息以及视频的特征信息。

5.一种多模态信息提取装置，其特征在于，包括：

数据获取模块，用于获取待提取数据，所述待提取数据带有标签；

文本信息提取模块，用于对所述待提取数据进行文本提取，以获取所述待提取数据的文本信息；

多模态特征信息获取模块，用于对所述待提取数据进行多模态特征提取，以获取多模态特征信息；

信息融合模块，用于对所述文本信息进行格式转换；将格式转换后的文本信息分别输入图网络模型和预训练模型，以分别获取第一特征数据和第二特征数据；将格式转换后的文本信息输入循环网络模型，以获取第三特征数据；将所述第一特征数据、所述第二特征数据、所述第三特征数据和所述多模态特征信息进行信息融合；将融合后的信息输入预设模型，以进行序列标注，从而获得结构化数据；根据所述标签及所述结构化数据获取信息提取的准确度；根据所述准确度进行自动学习，以在线训练调优。

6.一种多模态信息提取设备，其特征在于，所述多模态信息提取设备包括存储器和处理器；所述存储器用于存储实现如权利要求1-4任一项所述的多模态信息提取方法的程序指令；所述处理器用于执行所述存储器存储的所述程序指令。

7.一种计算机可读存储介质，其特征在于，存储有程序文件，所述程序文件能够被处理器执行以实现如权利要求1-4任一项所述的多模态信息提取方法。