CN116665232A

CN116665232A - 一种图文关键信息提取方法、装置、设备及存储介质

Info

Publication number: CN116665232A
Application number: CN202310577012.XA
Authority: CN
Inventors: 李准; 陈子骁; 庄光庭
Original assignee: Avatr Technology Chongqing Co Ltd
Current assignee: Avatr Technology Chongqing Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-29

Abstract

本发明提出一种图文关键信息提取方法、装置、设备及存储介质，涉及图文信息提取的技术领域，解决了当前关键信息提取方法提取关键信息的准确率低和提取关键信息不完整的问题，首先对获取的文档进行预处理，获得由图片和词语组成的图文信息，然后获取已预训练的词向量提取模型和图向量提取模型，利用词向量提取模型和图向量提取模型接收图文信息，提取词语和图片的特征向量，并以图文信息作为节点，以图文信息关系作为边，构建图网络模型，再基于词语和图片的特征向量，计算并排序节点的权重分数，将权重分数top‑n的节点对应的图文信息提取为图文关键信息，提取关键信息的准确率高，保证了提取关键信息的完整性。

Description

一种图文关键信息提取方法、装置、设备及存储介质

技术领域

本发明实施例涉及图文信息提取的技术领域，具体涉及一种图文关键信息提取方法、装置、设备及存储介质。

背景技术

图文关键信息作为文章文档中具有代表性的信息，在文本的分类、关键词匹配、文档、语句相似度匹配、智能搜索、推荐、智能对话等方面有着广泛的应用。随着信息的爆炸式增长，通过图文关键信息的提取能够从海量信息中快速了解篇文档，大大提高了信息的获取速度，因此，研究图文关键信息的提取方法具有重要意义。

图文关键信息包括文档的关键词和关键图片，关键词是代表文档中包含信息量最多的词语，能够让人们快速了解文档的中心思想，关键图片是代表与文档关键词密切相关的图片，能够让人们快速的了解文档的基本思路。传统图文关键信息提取方法大多采用提取文档的关键词或关键图片，关键词的提取又依赖于TextRank算法，TextRank算法是利用反映局部词语之间关系的共现窗口，对后续关键词进行排序，直接从文档本身抽取出关键词，但TextRank算法重点只关注词语之间的共现窗口，忽略了词语之间语法和语序对文本意思的影响，对语句的语义表现并不敏感，导致关键词提取准确率不高。现有专利文献公开了一种关键词提取方法，该方法先获取待处理文本，并对待处理文本进行分词，得到待处理文本对应的候选关键词，然后在词向量模型中查找候选关键词对应的词向量，词向量模型包括候选关键词的词向量，再根据词向量构建候选关键词的词相似度矩阵，最后根据候选关键词的词相似度矩阵对候选关键词进行排序，提取待处理文本的关键词，但现有的图文关键信息提取方法仅对文档的关键词或关键图片进行提取，忽略了文档中的图片和文本的关系，无法同时提取文档的关键词和关键图片，导致提取到文档的关键信息不完整。

发明内容

鉴于上述问题，本发明实施例提供了一种图文关键信息提取方法、装置、设备及存储介质，用于解决现有技术中存在的提取关键信息的准确率低和提取关键信息不完整的问题。

所述方法包括：根据本发明实施例的一个方面，提供了一种图文关键信息提取方法，所述方法包括：

获取文档，对所述文档进行预处理，获得由图片和词语组成的图文信息；

调用已预训练的词向量提取模型和图向量提取模型，分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；

以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型；

基于词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数；

对节点的权重分数进行排序，将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，其中n为正整数。

在一种可选的方式中，所述对所述文档进行预处理，获得由图片和词语组成的图文信息，包括：

对文档进行划分，得到文档中的原始文本和原始图片；

将所述原始文本按整句分割成若干个句子，对每一个句子进行分词，以及去除每一个句子的停用词，获得所述文档的所述词语；

将所述原始图片的尺寸调整为预设尺寸，得到所述文档的所述图片。

在一种可选的方式中，所述图文信息关系包括词语关系和词图关系，所述以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，包括：

将词语和图片作为图网络模型的节点；

为具备词语关系的节点，或者具备词图关系的节点设置边，以构建图网络模型。

在一种可选的方式中，所述基于词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数，包括：

以图网络模型中节点之间的词语的特征向量内积、词语和图片的特征向量内积作为所述图网络模型的边的权重；

设置节点之间边的权重和节点的权重分数初始值；

利用节点之间边的权重和节点的权重分数初始值，迭代计算节点的权重分数；

判断每次迭代计算得到的权重分数是否收敛至预设阈值，若是，停止节点的权重分数的下一次迭代计算，输出最终的节点的权重分数；否则，执行节点的权重分数的下一次迭代计算，直至迭代计算得到的权重分数收敛至预设阈值。

在一种可选的方式中，所述图文关键信息包括关键图片和关键词；所述将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，包括：

将权重分数top-n的节点对应的词语作为所述关键词，将权重分数top-n的节点对应的图片作为所述关键图。

在一种可选的方式中，所述词向量提取模型为ELMO模型，ELMO模型由双向的LSTM网络结构组成。

在一种可选的方式中，所述图向量提取模型为卷积神经网络模型，所述卷积神经网络模型由依次相连的卷积层、池化层和全连接层组成。

根据本发明实施例的另一方面，提供了一种图文关键信息提取装置，包括：文档处理模块、特征向量提取模块、图网络模型构建模块、权重计算单元模块和图文关键信息提取模块；

所述文档处理模块用于获取文档，对所述文档进行预处理，获得由图片和词语组成的图文信息；

所述特征向量提取模块用于调用已预训练的词向量提取模型和图向量提取模型，分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；

所述图网络模型构建模块用于以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型；

所述权重计算单元模块用于根据词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数；

所述图文关键信息提取模块用于对节点的权重分数进行排序，将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，其中n为正整数。

根据本发明实施例的另一方面，提供了一种图文关键信息提取设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行图文关键信息提取方法的操作。

本发明还提出了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在图文关键信息提取设备上运行时，使得图文关键信息提取设备执行图文关键信息提取方法的操作。

本发明实施例首先对文档进行预处理，获得由图片和词语组成的图文信息，达到了同时获得图片和词语的目的，避免了单一对文档的词语或图片提取导致提取到的信息缺失的弊端；然后调用已训练的词向量提取模型和图向量提取模型接收图文信息，便于提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；再以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，使得图网络模型能够将文档中的图片和文本的词语进行了关联；进一步基于词语的特征向量和图片的特征向量，计算并排序图网络模型中节点的权重分数，将权重分数top-n的节点对应的图文信息提取为图文关键信息，使得提取到的图文关键信息能够完整的帮助读者迅速了解文档的中心思想和基本思路，能够提取图文关键信息的准确率高，保证了提取图文关键信息的完整性。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明提供的一种图文关键信息提取方法的第一实施例的流程示意图；

图2示出了本发明提供的一种图文关键信息提取方法的第一实施例的原理框图；

图3示出了本发明第一实施例中提供的的图网络模型的结构示意图；

图4示出了本发明提供的一种图文关键信息提取装置的第一实施例的结构示意图；

图5示出了本发明提供的一种图文关键信息提取设备的实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

图1示出了本发明提供的一种图文关键信息提取方法的第一实施例的流程图，该方法由一种图文关键信息提取设备执行。如图1所示，该方法包括以下步骤：

步骤110：获取文档，对所述文档进行预处理，获得由图片和词语组成的图文信息；

其中，具体获取文档时，能够以预设单位时间作为提取的一个周期，提取每篇文档的图文信息，预设单位时间能够根据实际需求进行设定，例如设定为一秒、三十秒、一分钟、半小时、一小时或一天，图文信息用于反映文档的具体图文内容，通过图文信息读者能够从全局把握文档的整体布局和思想，达到详细了解一篇文档的目的，能够理解的，每篇文档在每个提取周期都有相应的图文信息，每篇文档的获取来源并不限定，如通过机关主办机构或出版机构网站获取文档、通过搜索引擎获取文档、通过全文数据库获取文档或通过免费电子期刊网站获取文档等方式。

所述对所述文档进行预处理，获得由图片和词语组成的图文信息，包括：

参见图1及图2，对文档d进行划分，得到文档中的原始文本和原始图片；

将所述原始文本按整句分割成n个句子，得到d＝[S₁,S₂,S₃,……,S_n]，其中S_n表示第n个句子；对每一个句子S_n进行分词，以及去除每一个句子S_n的停用词，获得所述文档的所述词语，得到：S_i＝[w_i1,w_i2,w_i3,……,w_in]，其中w_in表示每一个句子的词语；

步骤120：调用已预训练的词向量提取模型和图向量提取模型，分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；

其中，参见图1，所述词向量提取模型为ELMO模型、bert模型、Word2Vec模型和LDA模型等模型中的一种，步骤120仅以词向量提取模型为ELMO模型为例，但并不局限于ELMO模型，ELMO模型是一种预训练模型，类似于bert模型，ELMO模型能够直接下载使用的，也能够用利用获取的图文信息去训练得到。

所述ELMO模型由双向的LSTM网络结构组成，这样的结构能够充分的学习语句的语义，能够弥补词袋模型TextRank忽略了词语之间语法和语序对文本意思的影响，对语句的语义表现并不敏感，导致关键词提取准确率不高的不足，LSTM网络也称长短时记忆结构，它是传统RNN的变体，与经典RNN相比能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象，同时LSTM网络的结构更复杂；一个LSTM网络结构由多个依次相连基本单元A构成，每一个基本单元A均设有输入输出；每一个基本单元A均包括遗忘门、输入门和输出门，其中，输入基本单元A的有C_t-1、h_t-1和X_t，基本单元A输出的有C_t和h_t，遗忘门将上一步的信息选择性遗忘，

遗忘门：ft＝σ*(Wf*[ht-1,xt]+bf)，将上一步的信息选择性遗忘；

输入门：it＝σ*(Wi*[ht-1,xt]+bi)*tanh(Wc*[ht-1,xt]+bc)；

此时更新C的状态：Ct＝Ct-1*ft+it；

输出门：ot＝σ*(Wo*[ht-1,xt]+bo)ht＝ot*tanh(Ct)

在输入的过程中前面的信息会传入到后面，这样输出的词向量就会带有语义。

步骤120所述图向量提取模型为卷积神经网络模型，所述卷积神经网络模型由依次相连的卷积层、池化层和全连接层组成，图文信息中划分出来的图片通过多层的卷积，池化，全连接，降低图片维度，最后转化成了一个一维向量，这个一维向量就包含了图片的特征，当然这个特征不是肉眼上的图片特征，而是针对于卷积神经网络模型的特征。卷积神经网络模型主要是经过卷积和池化操作，在卷积过程中，图片经过卷积和的操作不断的提取图片特征，卷积和相当于特征提取器；在池化过程中，因为在计算程中，模型的参数与图片的大小无关，计算量与图片大小有关，池化操作能够降低图片的尺寸大大的降低计算量。

步骤120提出的图网络模型融合了TextRank算法模型、ELMO模型和卷积神经网络模型三者，TextRank算法模型是一种基于图的用于关键词抽取和文档摘要的排序算法模型，由谷歌的网页重要性排序算法模型PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息或语义，抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句，TextRank的基本思想是将文档看作一个词的网络，该网络中的链接表示词与词之间的语义关系。TextRank算法模型的基本使用步骤为：首先将给定的文本d按照整句进行分割为为n句话；然后对每一个句子进行分析以及去除停用词得到每一句话所包含的词语；接着构建词图，其中V为节点集合，由生成的词语组成，然后采用共现关系构造任意两个节点之间的边：两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词，一般K取2；再通过迭代计算节点的权重，直至收敛，其中，每一个节点均有一个初始化权重，各个点之间的连接边也有不同的权重，每个节点的权重通过边传输迭代计算直到最后稳定为止，可以得到每一个节点的权重；最后对节点的权重进行排序，从中得到最重要的t个单词，作为top-t关键词；在使用TextRank算法模型过程中，对于词语的共现在一个窗口中与词语的顺序无关这是属于词袋模型，一句话中词语出现的先后顺序对于边的权重没有影响，因此，TextRank算法模型在构建图网络模型和计算节点直接的权重的时候会出现弊端，对于语句的语义表现的不敏感。

为弥补传统TextRank算法模型的不足，在TextRank算法模型构建图网络模型时候加入EMLO模型和卷积神经网络模型，一方面，建立图网络模型以后在计算节点之间权重时候引入ELMO模型来就计算节点对应的词语的特征向量，进而计算词语的节点之间权重，ELMO是带有一定的语义信息就能够弥补TextRank词袋模型的弊端，词袋模型是指对于词语的共现在一个窗口中与词语的顺序无关，因此，图网络模型不是词袋模型，使得最终的计算结果更加准确；另一方面，TextRank词袋模型无法将图片和文本联系起来，在建立本图网络模型的时候节点会增加图片节点，图片经过卷积神经网络模型能够得到图片节点的特征向量从而可计算图片的节点和词语的节点之间权重，综上所述，步骤120构建的图网络模型包含文本和图片，节点之间的权重也包含了语义，提取图文关键信息的准确率高，保证了提取图文关键信息的完整性。

步骤130：以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型；

在步骤130中，参见图1及图2，所述图文信息关系包括词语关系和词图关系，所述以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，包括：

将词语和图片作为图网络模型的节点；

为具备词语关系的节点，或者具备词图关系的节点设置边，以构建图网络模型；其中，图3中w_i表示词语的节点，Gi表示图片的节点，t_i表示任意两个节点之间边的权重。

步骤140：基于词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数；

步骤140所述基于词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数，包括：

以图网络模型中节点之间的词语的特征向量内积、词语和图片的特征向量内积作为节点之间边的权重；

设置节点之间边的权重和节点的权重分数初始值；节点之间边的权重随机设置。

利用节点之间边的权重和节点的权重分数初始值，迭代计算节点的权重分数；迭代计算节点的权重分数的具体过程为：

将节点的权重分数初始值组成第一权重分数矩阵，将节点之间边的权重组成权重矩阵，利用第一权重分数矩阵和权重矩阵相乘，得到包含节点权重分数的迭代矩阵；下一次迭代计算过程为上一次迭代得到的迭代矩阵与权重矩阵的相乘；

每次迭代计算得到的权重分数是从每次迭代得到的迭代矩阵中获取，通过判断每次迭代计算得到的迭代矩阵中的权重分数是否收敛至预设阈值，来确定最终的节点的权重分数；其中，在迭代计算过程中，计算节点的权重分数的具体计算公式为：

其中，PR(V_i)，PR(V_j)分别表示图网络模型中节点V_i，V_j的权重分数，图网络模型为有向图，In(V_i)表示图网络模型中节点V_i的前驱节点集合，即指向图网络模型中节点V_i的节点的集合，j表示前驱节点集合In(V_i)的元素，Out(V_j)表示图网络模型中节点V_j的后继节点集合，即图网络模型中节点V_j指向其他节点的集合，D表示组尼系数，一般为0.85。相当于是图网络模型中每一个节点有一个初始化权重，各个图网络模型中的节点之间的连接边也有不同的权重，每个节点的权重通过边传输迭代计算直到最后稳定为止，能够得到每一个节点的权重分数。

步骤150：对节点的权重分数进行排序，将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，其中n为正整数。

其中，所述图文关键信息包括关键图片和关键词；所述将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，包括：

将权重分数top-n的节点对应的词语作为所述关键词，将权重分数top-n的节点对应的图片作为所述关键图。具体地，对节点的权重分数进行排序的方式为：将节点的权重分数按照从大到小进行正向排序，将权重分数排序前top-n的节点对应的图文信息提取为图文关键信息；或将节点的权重分数按照从小到大进行逆向排序，将权重分数排序后n个的节点对应的图文信息提取为图文关键信息，实际对节点的权重分数排序过程中，需根据实际情况选择权重分数排序的方式。

在图文关键信息提取方法中，首先对文档进行预处理，获得由图片和词语组成的图文信息，达到了同时获得图片和词语的目的，避免了单一对文档的词语或图片提取导致提取到的信息缺失的弊端；然后利用词向量提取模型和图向量提取模型接收图文信息，便于提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；再以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，使得图网络模型能够将文档中的图片和文本的词语进行了关联；进一步基于词语的特征向量和图片的特征向量，计算并排序图网络模型中节点的权重分数，将权重分数top-n的节点对应的图文信息提取为图文关键信息，使得提取到的图文关键信息能够完整的帮助读者迅速了解文档的中心思想和基本思路，提取图文关键信息的准确率高，保证了提取图文关键信息的完整性，需要说明的是，本实施例提供的图文关键信息提取方法，除了应用在学术期刊的应用场景以外，还能够应用到其它应用场景之中，例如电子杂志、电子书阅读、新闻报道、动漫文档等阅读场景，在此不对本实施例提供的图文关键信息提取方法的应用场景做限定。

图4示出了本发明提供的一种图文关键信息提取装置的第一实施例的结构示意图。如图4所示，该装置400包括：文档处理模块410、特征向量提取模块420、图网络模型构建模块430、权重计算单元模块440和图文关键信息提取模块450；

所述文档处理模块410用于获取文档，对所述文档进行预处理，获得由图片和词语组成的图文信息；

所述特征向量提取模块420用于调用已预训练的词向量提取模型和图向量提取模型，分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；

所述图网络模型构建模块430用于以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型；

所述权重计算单元模块440用于根据词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数；

所述图文关键信息提取模块450用于对节点的权重分数进行排序，将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，其中n为正整数。

对文档进行划分，得到文档中的原始文本和原始图片；

将词语和图片作为图网络模型的节点；

设置节点之间边的权重和节点的权重分数初始值；

在本实施例中，首先文档处理模块对文档进行预处理，获得由图片和词语组成的图文信息，达到了同时获得图片和词语的目的，避免了单一对文档的词语或图片提取导致提取到的信息缺失的弊端；然后特征向量提取模块利用词向量提取模型和图向量提取模型接收图文信息，便于提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；接着图网络模型构建模块以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，使得图网络模型能够将文档中的图片和文本的词语进行了关联；进一步权重计算单元模块基于词语的特征向量和图片的特征向量，计算并排序图网络模型中节点的权重分数，最后图文关键信息提取模块将权重分数top-n的节点对应的图文信息提取为图文关键信息，使得提取到的图文关键信息能够完整的帮助读者迅速了解文档的中心思想和基本思路，提取图文关键信息的准确率高，保证了提取图文关键信息的完整性。

图5示出了本发明提供的一种图文关键信息提取设备的实施例的结构示意图，本发明具体实施例并不对一种图文关键信息提取设备的具体实现做限定。如图5所示，该图文关键信息提取设备可以包括：处理器(processor)502、通信接口(CommunicationsInterface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。处理器502，用于执行程序510，具体可以执行上述用于图文关键信息提取方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机可执行指令。处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific IntegratedCircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。图文关键信息提取设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以被处理器502调用使图文关键信息提取设备执行以下操作：

对节点的权重分数进行排序，将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，其中n为正整数

对文档进行划分，得到文档中的原始文本和原始图片；

将词语和图片作为图网络模型的节点；

设置节点之间边的权重和节点的权重分数初始值；

在本实施例中，首先对文档进行预处理，获得由图片和词语组成的图文信息，达到了同时获得图片和词语的目的，避免了单一对文档的词语或图片提取导致提取到的信息缺失的弊端；然后调用已训练的词向量提取模型和图向量提取模型接收图文信息，便于提取图文信息中的词语的特征向量和图文信息中的图片的特征向量；再以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，使得图网络模型能够将文档中的图片和文本的词语进行了关联；进一步基于词语的特征向量和图片的特征向量，计算并排序图网络模型中节点的权重分数，将权重分数top-n的节点对应的图文信息提取为图文关键信息，使得提取到的图文关键信息能够完整的帮助读者迅速了解文档的中心思想和基本思路，能够提取图文关键信息的准确率高，保证了提取图文关键信息的完整性。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在图文关键信息设备/装置上运行时，使得所述图文关键信息设备/装置执行上述任意方法实施例中的图文关键信息方法。

可执行指令具体可以用于使得图文关键信息设备/装置执行以下操作：

对文档进行划分，得到文档中的原始文本和原始图片；

将词语和图片作为图网络模型的节点；

设置节点之间边的权重和节点的权重分数初始值；

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。此外，本发明实施例也不针对任何特定编程语言。

在此处所提供的说明书中，说明了大量具体细节。然而能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。类似地，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。其中，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种图文关键信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述文档进行预处理，获得由图片和词语组成的图文信息，包括：

对文档进行划分，得到文档中的原始文本和原始图片；

3.根据权利要求2所述的方法，其特征在于，所述图文信息关系包括词语关系和词图关系，所述以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，包括：

将词语和图片作为图网络模型的节点；

4.根据权利要求2所述的方法，其特征在于，所述基于词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数，包括：

设置节点之间边的权重和节点的权重分数初始值；

5.根据权利要求2所述的方法，其特征在于，所述图文关键信息包括关键图片和关键词；所述将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，包括：

6.根据权利要求1所述的图文关键信息提取方法，其特征在于，所述词向量提取模型为ELMO模型，ELMO模型由双向的LSTM网络结构组成。

7.根据权利要求1所述的图文关键信息提取方法，其特征在于，所述图向量提取模型为卷积神经网络模型，所述卷积神经网络模型由依次相连的卷积层、池化层和全连接层组成。

8.一种图文关键信息提取装置，其特征在于，包括：文档处理模块、特征向量提取模块、图网络模型构建模块、权重计算单元模块和图文关键信息提取模块；

9.一种图文关键信息提取设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的图文关键信息提取方法的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在图文关键信息提取设备上运行时，使得图文关键信息提取设备执行如权利要求1-7任意一项所述的图文关键信息提取方法的操作。