CN113076441A

CN113076441A - 关键词抽取方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113076441A
Application number: CN202010011174.3A
Authority: CN
Inventors: 汪华东; 刘松; 孟祥峰
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2021-07-06
Also published as: US20210209356A1; WO2021141361A1

Abstract

本申请实施例提供了一种关键词抽取方法、装置、电子设备及计算机可读存储介质，涉及人工智能领域。该方法包括：提取待处理图像对应的特征信息，然后基于特征信息，从待处理图像中抽取关键词。本申请实施例提供的关键词抽取方法、装置、电子设备及计算机可读存储介质实现从待处理图像中抽取关键词。

Description

关键词抽取方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种关键词抽取方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，图像处理技术随之发展，现在越来越多的信息可以通过图像进行展示，并且图像也在我们的生活中应用越来越广泛，例如，手机截图、海报、票据等均是以图像的形式出现。

其中，由于这些图像中包含很多重要的信息，通常情况下，我们需要从这些图像中获取关键信息，以通过这些关键信息帮助用户进行图片标签编辑和快速检索图片等操作，例如，若用户输入“侏罗纪世界”以从多张图像中查找包含“侏罗纪世界”的图像，若可以从这些图像中抽取关键词，则可以通过用户输入“侏罗纪世界”，以快速从这些图像中查找到目标图像。

因此，如何从图像中抽取关键词成为一个重要问题。

发明内容

本申请提供了一种关键词抽取方法、装置、电子设备及计算机可读存储介质，可以解决上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种关键词抽取方法，该方法包括：

提取待处理图像对应的特征信息；

基于所述特征信息，从所述待处理图像中抽取关键词。

第二方面，提供了一种关键词抽取装置，该装置包括：

提取模块，用于提取待处理图像对应的特征信息；

抽取模块，用于基于所述特征信息，从所述待处理图像中抽取关键词。

第三方面，提供了一种电子设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据第一方面所示的关键词抽取方法对应的操作。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现第一方面所示的关键词抽取方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种关键词抽取方法、装置、电子设备及计算机可读存储介质，与现有技术相比，在本申请中提取待处理图像对应的特征信息，然后基于特征信息，从待处理图像中抽取关键词。即在本申请中可以通过从待处理图像中提取的特征信息，以实现从待处理图像中抽取关键词。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为传统基于关键词抽取的深度学习模型框架示意图；

图2为传统图片关键词抽取流程示意图；

图3为本申请实施例提供的视觉信息丢失和光学字符识别(Optical CharacterRecognition，OCR)识别文本错误时对关键抽取的示意图；

图4a为本申请实施例提供的一种视觉关键词抽取框架示意图；

图4b为传统截图关键短语抽取模型框架示意图；

图5为本申请实施例提供的一种关键词抽取方法的流程示意图；

图6为本申请实施例提供的基于OCR框架的文本及其视觉信息获取方法流程示意图；

图7为本申请实施例提供的另一种关键词抽取的具体架构示意图；

图8为本申请实施例中提供的得到文本行表示的示意图；

图9为本申请实施例中提供的得到文本背景表示的示意图；

图10为本申请实施例中提供的得到文本结构信息和主题信息表示的示意图；

图11为本申请实施例中在解码过程中进行关键词预测的示意图；

图12为本申请实施例中基于模型训练合成语料的示意图；

图13为本申请实施例中模型训练得到关键词抽取模型的示意图；

图14为本申请实施例中基于关键词抽取进行图片标签编辑的示例图；

图15为本申请实施例中基于关键词抽取进行智能搜索的示例图；

图16为本申请实施例中Transformer网络模块的示意图；

图17为本申请实施例中提供的关键词抽取装置结构示意图；

图18为本申请实施例中提供的电子设备的装置结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

从图片中抽取关键字的方法可以通过基于关键词抽取的深度学习模型来实现，传统基于关键词抽取的深度学习模型符合这样一个框架，如图1所示，该框架可以包括：OCR工具和关键词抽取模型，其中，基于该框架实现从图片中抽取关键词的操作具体可以分为两步：

1)利用OCR工具识别图片中的文本行，并将所有文本行串在一起作为一个文本文档；

2)关键词抽取模型，利用一种基于循环神经网络(Recurrent Neural Network，RNN)的编码器和解码器(Encoder-Decoder)框架，即：

a)输入(Input)文档，即OCR文本，也即上文提到的有所有文本行串在一起得到的文本文档；

b)编码器：通过RNN将输入文档映射为隐层表示；

c)解码器：将编码器的输出的隐层表示输入到基于RNN的解码器进行关键词预测。

上述介绍了传统的基于深度学习的关键词抽取模型从图片中抽取关键词的具体方式，下述实施例中通过一个实例进一步介绍：如图2所示，将一张图片(a)，通过OCR工具识别图片中的文本行，得到OCR文本，如(b)所示，然后通过关键词抽取模型预测的关键词，如(c)所示，在本申请实施例中，预测的关键词包括多个关键词以及每个关键词对应的得分，例如从(b)中预测到的关键词以及关键词的得分，分别包括：“brooklyn(6.608)”、“river(2.050)”、“brooklyn bridge park(0.890)”、“warmer weather(0.442)”、“session(0.436)”、“Brooklyn bridge(0.046)”、“bridge park(0.031)”、“Jun 02(0.000)”、“bridge(-0.515)”以及“August 26(-0.620)”。

但是，上述实施例中所介绍的传统的基于深度学习的关键词抽取模型从图片中抽取关键词的方式，可能会存在以下技术问题：

1、传统的基于OCR从图片中抽取关键词的方式所带来的技术问题：

(1.1)传统方法在进行关键词抽取时仅仅建立在OCR文本基础上，忽略了文本的视觉信息，从而导致从图片中抽取关键词的准确度较低，例如，在图3中，

a)词“Beauty”位于图片的顶端中间位置，一般表明其是一个重要的词。但是，若仅仅利用OCR文本则难以预测“Beauty”是一个关键词；

b)由于文本行“The Myer Sale…saving”具有突出的红色背景，因此关键词候选“Myer Sale”在文本行“The Myer Sale…saving”中应该具有更高的排序得分，因此仅通过OCR文本无法标明该关键词候选“Myer Sale”在文本行“The Myer Sale…saving”中具有更高的排序得分；

c)文本行“SUPER…MASOUE”在图片中字体非常小且为浅色字体，一般情况下文本行“SUPER…MASOUE”的排序得分应该较低，但是，采用利用传统方法，“PIG HAIR MASOUE”可能会获得了较高的排序得分，从而有可能作为抽取到的关键词；

d)如果图片中没有文本内容或文本内容不足情况下，传统方法不能够生成任何关键词，因此导致通过上述传统的方式无法从图片中抽取到关键词。

·(1.2)OCR文本往往存在大量文字识别错误，如果直接在错误文本上进行处理会生成不恰当的关键词，即基于OCR文本从图片中抽取关键词的准确度较低，例如，在图3中(b)为从图片(a)中抽取到的OCR文本，其中抽取到的区域1中文本“iffit…nu”就是OCR工具生成的错误文本，然后通过抽取到的OCR文本(b)通过上述传统的方式进行关键词预测，得到预测的关键词，也即图3中“现有方法预测的关键词”部分，如图3中(c)所示，由于OCR错误从文本中抽取了许多错误的关键词，如“iii”、“iup”、“niunnuimiii”、“iffit”等，再者，如图3中的(d)所示为期望的关键词，，包括：“Beauty”、“MYER”、“Sand&Sky”、“Coco&Eve”、“$59.90”、“$64.90”、“Myer Sale”以及“Australian Pink Clay”，因此，通过图3中传统技术预测的关键词和期望的关键词相比，发现传统技术预测的关键词和期望的关键词的重合度较低，这说明OCR错误降低了传统方式关键词抽取模型的准确度；

2传统深度学习关键词抽取模型的缺陷：

其中，传统深度学习关键词抽取模型采用基于RNN的编码器和解码器框架，其中，编码器对文档D(包括：文本行1、文本行2……文本行m，其中，文本行1、文本行2……文本行m分别表示各个文本行对应的文本内容，即上文所涉及到的OCR文本)通过词嵌入，得到词嵌入处理后的内容，然后通过RNN得到对应的文本背景表示，以实现编码过程，得到编码结果；进而对编码结果以及历史预测结果通过解码器进行解码，以预测对应的关键词序列，解码器在每预测时间步预测单词时，利用RNN层并结合注意力机制对文本背景表示进行信息压缩，得到解码层的隐层表示，然后，将在常用词表中所有词的概率分布Prob(y,g)和在输入文本中不常见词上的概率分布Prob(y,c)相加进行预测，并输出预测结果，在本申请实施例中，y表示词，g和c分别表示第一预测模式(生成模式)和第二预测模式(复制模式)，具体如图4b所示。

其中，上述传统的框架存在如下一些缺陷：

·(2.1)RNN编码器需要在序列数据上执行，即所有文本行需要有序的串联在一起，形成文本文档作为模型的输入，这将导致文本行中存在的空间结构信息被丢失，如文本行的排版信息(Layout)；

·(2.2)RNN编码器的训练和推理速度比较慢，这是因为RNN在每预测时间步所需要等待之前所有时间步的处理结束，从而导致预测速度较慢；

·(2.3)传统RNN解码器生成的关键词短语不具有主题多样性。

例如，在图3中，该图片含有“产品”、“网站”、“价格”等主题信息。期望抽取的关键词应该尽量覆盖这些主题信息，如“Sand&Sky”(产品)、“MYER”(网站)、“$59.90”(价格)等。但是现有方法抽取的关键词并没有覆盖“价格”、“产品”主题(见图3中(c)部分所列抽取结果)。

·(2.4)解码器在每预测时间步预测单词时，是将在常用词表中所有词的概率分布Prob(y,g)和在输入文本中不常见词上的概率分布Prob(y,c)相加进行预测，即Prob(y)＝Prob(y,g)+Prob(y,c)，这种预测方式不可避免的引入预测噪声；当预测词为常用词时，不常用词即为噪声，反之亦然，当预测词为不常见词时，常用词即为噪声。

基于上述所介绍的现有技术中可能存在的技术问题，本申请实施例中提出具体的实现方式以解决上述涉及的技术问题：

1)建立可以利用其文本内容、文本视觉信息和图像视觉信息等多模态信息的深度学习关键词抽取模型，通过视觉信息和图像信息以增强关键词抽取；通过OCR框架同时提取文本内容、文本视觉信息和图像信息。在本申请实施例中，文本视觉信息可以为针对文本行，除文本行内容之外，其它可观测到的信息，例如可以包括：文本特征图(也可以称为文本特征信息)、文本位置信息、词位置中的至少一项；又或者文本视觉信息可以通过上述这些信息获得；图像视觉信息可以包括图像特征图，又或者图像视觉信息可以通过图像特征图获得。

其中，文本内容信息可以包含各个文本行所对应的文本内容信息，每个文本行所对应的文本内容信息可以包括：图片中每个文本行模块所对应的词序列；文本特征图为利用卷积网络(ConvNet)得到的文本行视觉特征(具体地，文本特征图是在卷积网络(ConvNet)得到的图像特征图基础上结合RPN和RoI得到)，其编码了文本行的丰富视觉信息，包括字体大小、字体颜色、字体形状、文本行背景颜色、结构信息、边框信息等；文本位置信息为每个文本行在图片中所对应的位置信息；词位置为各个词在对应的文本行中所对应的位置；图像特征图也即图像的卷积特征，是对图像信息的编码，如对象信息、场景信息、动作信息等。

其中，如图4a所示，在本申请实施例中对待处理图像进行关键词抽取时，包括：对待处理图像进行预处理，得到文本内容、文本特征图(也可以称为文本特征信息)、文本位置信息、词位置和图像特征图，然后通过关键词抽取模型，得到关键词序列；具体地，关键词抽取模型中包含编码器和解码器，其中编码器中包含Transformer模型、胶囊网络(Capsule)和CNN网络，解码器中包含Transformer模型、生成模式(Generate Mode)和复制模式(CopyMode)，进一步地，由预处理得到的文本内容、文本特征图(也可以称为文本特征信息)、文本位置信息、词位置和图像特征图通过编码器进行编码处理，然后将编码结果通过解码器进行解码处理，得到关键词；具体地，

2)构建基于生成模式和复制模式的解码器，设计基于强化学习的模式选择方法，以降低OCR错误对关键词生成的影响，同时模式的选择避免两种模式在预测时的相互干扰；

3)建立基于Transformer的编码和解码网络模型，Transformer网络在计算每个词表示时不需要依赖其他词表示输出，其相对RNN具有更好的可并行性；

4)在关键词抽取模型中，对关键词抽取模型的所有文本行进行局部特征和全局特征编码，可以为了更好的获得文本语义表示；

5)在关键词抽取模型的编码器中，引入胶囊网络(Capsule Network)学习文本输入的结构(也可称为文本行对应的空间结构信息)和主题信息，帮助模型生成主题多样性的关键词。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种关键词抽取的方法，该方法可以由电子设备执行，该电子设备可以为终端设备或者服务器，如图5所示，该方法包括：

步骤S101、提取待处理图像对应的特征信息。

对于本申请实施例，在步骤S101之前还包括：获取待处理图像。在本申请实施例中，获取的待处理图像可以为一张图像，也可以为多张图像。进一步地，本申请实施例中的待处理图像还可以为视频帧，在本申请实施例中不做限定。

进一步地，每张待处理图像可以为包含文本内容的图像，也可以为不包含文本内容的图像。在本申请实施例中不做限定。

进一步地，从待处理图像中提取的特征信息具体所包含的内容详见下述实施例，在此不再赘述。

步骤S102、基于特征信息，从待处理图像中抽取关键词。

对于本申请实施例，在基于上述步骤S101从待处理图像中提取对应的特征信息之后，基于该特征信息，从待处理图像中抽取关键词。进一步地，在本申请实施例中，从待处理图像中抽取的关键词为可以概括待处理图像的代表性词语。在本申请实施例中，从待处理图像中抽取关键词的方式可以称为关键词抽取(Keyword Extraction)，也称关键短语抽取(Keyphrase Extraction)或话题标签(HashTag)抽取。在本申请实施例中从待处理图像中抽取关键词的方式并不限定于上述涉及两种方式，任何从待处理图像中抽取关键词的方式均在本申请实施例的保护范围之内。

进一步地，在本申请实施例中，从待处理图像中可以抽取到至少一个关键词，或者若第一预测时间步抽取结束符</s>，则表征从该待处理图像中仅可以抽取到结束符</s>。

本申请实施例提供了一种关键词抽取方法，与现有技术相比，在本申请中提取待处理图像对应的特征信息，然后基于特征信息，从待处理图像中抽取关键词。即在本申请实施例中可以通过从待处理图像中提取的特征信息，以实现从待处理图像中抽取关键词。

进一步地，特征信息包括文本表达信息和图像视觉信息中的至少一项；文本表达信息包括文本内容和文本视觉信息中的至少一项。进一步地，例如，文本视觉信息可以用于表征：文字大小、文字颜色、文字形状、文字相对位置、背景颜色和结构信息等。

进一步地，在本申请实施例中，图像视觉信息可以包括：图像特征图；文本视觉信息可以包括待处理图像中各个文本行对应的文本视觉信息。

进一步地，由上述实施例可知：特征信息可以包括图像视觉信息，在本申请实施例中，图像视觉信息可以包括：图像特征图。进一步地，特征信息可以仅包含图像视觉信息(图像特征图)，即基于图像视觉信息(图像特征图)可以从待处理图像中抽取关键词。在本申请实施例中，仅基于图像视觉信息(图像特征图)可以从待处理图像中抽取关键词，即在本申请实施例中可以从不含有文本信息(文本内容)的图像或者含有少量文本信息(文本内容)的图像中抽取到关键词，从而可以降低在不包含文本内容(文本内容)的图像或者在包含少量文本信息(文本内容)的图像中抽取不到关键词的概率，进而可以提升用户体验。

进一步地，图像特征图即表征图像的卷积特征，因此从待处理图像中提取待处理图像所对应的图像视觉信息(图像特征图)的方式包括：将待处理图像输入至卷积神经网络进行卷积处理得到待处理图像所对应的图像视觉信息(图像特征图)。

进一步地，在从待处理图像中提取待处理图像所对应的图像视觉信息(图像特征图)，具体可以包括：对该待处理图像进行图像尺度化处理，并从图像尺度化处理后的图像中提取图像视觉信息(图像特征图)。在本申请实施例中，若待处理图像为单张图像，则可以对该单张图像进行尺度化处理，也可以不对该单张图像进行尺度化处理；若待处理图像为至少两张图像，一般情况下需要对该至少两张图像进行尺度化处理，以使得尺度化处理后的各张图像具有相同的尺寸，以提高在并行从至少两张图像中提取图像特征信息时的处理速度，当然也可以不对上述至少两张图像进行尺寸化处理。

进一步地，在上述实施例中，无论待处理图像是单张图像还是至少两张图像，均可以仅各张图像进行尺寸化处理。具体地，若对待处理图像进行尺寸化处理，则可以通过直接拉伸或者缩放的方式对待处理图像进行尺寸化处理，也可以通过上采样或者下采样的方式对待处理图像进行尺寸化处理。在本申请实施例中，若对至少两张图像进行尺寸化处理，可以对各张图像分别按照上述尺寸化处理方式进行尺寸化处理，以使得各张图像的在通过尺寸化处理后的尺寸相同，在本申请实施例中对待处理图像进行尺寸化处理，并不限定于上述尺寸化处理方式，任何可能的方式均在本申请实施例的保护范围之内。

针对上述实施例的具体实例，如图6所示，将待处理图像(PXQ)通过重缩放(尺寸化处理)得到重缩放后的图像(MXN)，并将重缩放后的图像(MXN)通过卷积网络，得到对应的图像视觉信息(也可称为图像特征图)。

具体地，上述实施例中的特征信息还可以包括：文本表达信息。在本申请实施例中，文本表达信息包括文本内容和文本视觉信息中的至少一项。

具体地，对于一个文本行，该文本行对应的文本内容包括该文本行的词序列。

具体地，对于一个文本行，该文本行对应的文本视觉信息包括以下至少一项：

该文本行对应的文本特征图；

该文本行在待处理图像中的位置信息；

该文本行中的各个词在待处理图像中的位置信息；

该文本行中的各个词在该文本行中的相对位置信息。

具体地，由上述实施例可知：待处理图像对应的特征信息中可以包括：文本表达信息，在文本表达信息中还可以包括：文本视觉信息和文本内容，文本视觉信息中可以包括：各个文本行对应的文本特征图，各个文本行在待处理图像中分别对应的位置信息，以及各个文本行中每个文本行的各个词在对应文本行中的位置信息，下述具体介绍了基于待处理图像确定文本视觉信息和文本内容的方式。

具体地，从待处理图像中提取文本特征图和各个文本行在待处理图像中各自对应的位置信息的方式，包括：基于图像视觉信息(图像特征图)确定文本行候选区域(各个文本行分别对应的文本行候选区域)；通过文本行候选区域，从图像视觉信息(图像特征图)中确定文本特征图以及各个文本行在待处理图像中各自对应的位置信息。在本申请实施例中的文本特征图为文本内容中各个文本行分别对应的文本特征图。

进一步地，基于图像视觉信息(图像特征图)确定文本行候选区域，然后通过文本行候选区域，从图像视觉信息(图像特征图)中确定文本特征图以及各个文本行在待处理图像中各自对应的位置信息的方式，具体可以通过训练后的神经网络实现。具体地，如图6所示，将待处理图像的图像特征图输入至区域候选网络(Region Proposal Network，RPN)中，输出文本行候选区域(各个文本行分别对应的文本行候选区域)，然后RPN输出的文本行候选区域(各个文本行分别对应的文本行候选区域)和上述得到的图像特征图，得到文本特征图(各个文本行分别对应的文本特征图)和各个文本行在待处理图像中各自对应的位置信息。在本申请实施例中，从待处理图像的图像特征图中得到文本行候选区域的方式并不限定于通过上述RPN网络，任何可以从待处理图像的图像特征图中得到文本行候选区域的方式均在本申请实施例的保护范围之内。

进一步地，RPN的工作过程：采用锚(anchor)机制，在图像特征图上的每个像素位置生成k个锚框(anchor boxes)，然后对每个锚框进行分类和回归，从而得到文本特征图(各个文本行分别对应的文本特征图)和各个文本行在待处理图像中各自对应的位置信息。

进一步地，从待处理图像中提取各个文本行分别对应的文本内容(各个文本行分别对应的词序列)、各个词在待处理图像中的位置信息、各个词在各自对应的文本行中的相对位置信息的方式，包括：基于文本特征图提取各个文本行分别对应的文本内容(各个文本行分别对应的词序列)以及各个词在各自对应的文本行中的位置信息，其中每个词在待处理图像中的位置信息以及每个词在其对应的文本行中的相对位置信息也可以根据其所在文本行的词序列长度和文本行位置估算得到。

进一步地，为了提高基于文本特征图(各个文本行分别对应的文本特征图)提取各个文本行分别对应的文本内容、各个词在待处理图像中的位置信息、各个词在各自对应的文本行中的相对位置信息的提取速度，可以在提取之前，将文本特征图(各个文本行分别对应的文本特征图)进行尺寸化处理，将各个文本行分别对应的文本特征图转化为相同的尺寸。

需要说明的是：对文本特征图(各个文本行分别对应的文本特征图)进行尺寸化处理可以任意进行尺寸化处理的方式实现，例如在本申请实施例中，可以通过应用兴趣区域(Region of Interest，RoI)池化的方式对文本特征图(各个文本行分别对应的文本特征图)进行尺寸化处理；具体地，如图6所示，通过RoI池化层将所有文本特征图(各个文本行分别对应的文本特征图)转化为相同大小，然后基于转化后各个文本行分别对应的文本特征图并通过OCR识别所有的文本行，并得到各个文本行分别对应的文本内容(各个文本行对应的词序列)以及各个词在各自对应的文本行中的位置信息。

在上述实施例中从待处理图像中得到待处理图像的图像视觉信息(图像特征图)、文本表达信息(各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的文本内容信息、各个词在待处理图像中的位置信息、以及各个词在各自对应的文本行中的相对位置信息)中的至少一项之后，可以基于得到的这些信息从待处理图像中抽取关键词。也就是说：在本申请实施例中，若从待处理图像中抽取关键词需要图像视觉信息时，则在从抽取图像中提取待处理图像的图像视觉信息之后，基于图像视觉信息从待处理图像中抽取关键词；若待处理图像中抽取关键词需要文本表达信息，则在从抽取图像提取待处理图像的文本表达信息之后，基于文本表达信息从待处理图像中提取关键词；若待处理图像中抽取关键词需要文本表达信息和图像视觉信息，则在从抽取图像提取待处理图像的文本表达信息和图像视觉信息之后，基于文本表达信息和图像视觉信息从待处理图像中提取关键词。

具体地，本申请实施例的另一种可能的实现方式，基于特征信息，从待处理图像中抽取关键词，包括：将特征信息进行编码，得到特征信息的编码结果；基于编码结果，从待处理图像中抽取关键词。

进一步地，基于上述得到的特征信息(图像特征图、各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的文本内容信息、各个词在所述待处理图像中的位置信息以及各个词在各自对应的文本行中的相对位置信息中的至少一项)从待处理图像中抽取关键词的方式可以通过神经网络实现，也可以不通过神经网络来实现。其中，通过神经网络实现从待处理图像中抽取关键词的方式的一个具体实例，如图6所示，将特征信息(图像特征图、各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的文本内容信息(也可以称为：各个文本行分别对应的词序列)、各个词在所述待处理图像中的位置信息以及各个词在各自文本行中的相对位置信息中的至少一项)通过关键词抽取模型，得到关键词序列，以实现从待处理图像中抽取关键词。

具体地，若特征信息包括：图像视觉信息，则将特征信息进行编码，得到特征信息的编码结果；基于编码结果，从待处理图像中抽取关键词，包括：将图像视觉信息进行编码，得到图像特征表示；基于图像特征表示从待处理图像中抽取关键词；若特征信息包括：文本表达信息，则将特征信息进行编码，得到特征信息的编码结果；基于编码结果，从待处理图像中抽取关键词，包括：将文本表达信息进行编码，得到文本表达信息的编码结果，基于文本表达信息的编码结果，从待处理图像中抽取关键词；若特征信息包括：图像视觉信息和文本表达信息，则将特征信息进行编码，得到特征信息的编码结果；基于编码结果，从待处理图像中抽取关键词，包括：将图像视觉信息和文本表达信息进行编码，得到图像特征表示和文本表达信息对应的编码结果；基于图像特征表示和文本表达信息对应的编码结果从待处理图像中抽取关键词。在本申请实施例中，这里涉及到的文本表达信息仍为文本内容和文本视觉信息中的至少一项，文本视觉信息包括：各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息以及各个词在待处理图像中的位置信息、各个词在各自文本行中的相对位置信息中的至少一项；文本内容包括：各个文本行分别对应的文本内容信息。

对于本申请实施例，上述涉及到从待处理图像中抽取关键词序列的模型为关键词抽取模型，可以包括编码器和解码器，也就是说，在本申请实施例中，将特征信息(图像视觉信息和文本表达信息中的至少一项)通过编码器进行编码处理，得到对应的编码结果，然后将对应的编码结果通过解码器进行解码处理，以进行关键词的预测，从而实现从待处理图像中抽取关键词。在本申请实施例中，对图像视觉信息(图像特征图)和文本表达信息(各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的文本内容信息以及各个词在所述待处理图像中的位置信息、各个词在各自对应的文本行中的相对位置信息中的至少一项)进行编码，得到的编码结果，其中得到的编码结果也可以称为隐层表示，因此在对对应的编码结果(也即上述隐层表示)进行解码，以进行关键词的预测。

其中，在本申请实施例中，对图像视觉信息和文本表达信息(各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的文本内容信息、各个词在所述待处理图像中的位置信息以及各个词在各自对应的文本行中的相对位置信息中的至少一项)进行编码的方式可以采用现有技术的编码方式，也可以采用本申请实施例中介绍的编码方式，基于相同的道理对编码成的隐层表示进行解码，可以采用现有技术的解码方式，也可以采用本申请实施例中介绍的解码方式。

其中，在本申请实施例中，对图像视觉信息和文本表达信息(各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的文本内容信息、各个词在所述待处理图像中的位置信息以及各个词在各自对应的文本行中的相对位置信息中的至少一项)进行编码的方式，详见下述实施例：

具体地，特征信息包括文本表达信息和图像视觉信息，其中，文本表达信息包括文本视觉信息和文本内容中的至少一项；编码结果包括文本背景表示、图像特征表示以及，文本行结构信息和主题信息表示中的至少一项。其中，文本背景表示是基于文本表达信息得到的，图像特征表示是基于图像视觉信息得到的，文本行结构信息和主题信息表示是基于文本背景表示得到的。

进一步地，若特征信息中包括文本表达信息(文本表达信息包括文本视觉信息和文本内容中的至少一项)，则对特征信息进行编码，得到特征信息的编码结果，包括：对文本表达信息(文本表达信息包括文本视觉信息和文本内容中的至少一项)进行编码，得到文本背景表示以及，文本行结构信息和主题信息表示中的至少一项。

进一步地，若特征信息中包括图像视觉信息，对图像视觉信息进行编码，得到图像特征表示；也即对待处理图像对应的图像特征图进行编码，得到对应的图像特征表示，具体的对待图像对应的图像特征图进行编码的方式可以为对待处理图像对应的图像特征图通过CNN进行卷积处理，得到图像特征表示，例如如图7所示，在编码器中，将图像特征图通过CNN进行卷积处理，得到图像特征表示I。

具体地，对各个文本行分别对应的文本表达信息(各个文本行分别对应的文本特征图、各个文本行在待处理图像中各自对应的位置信息、各个文本行分别对应的词序列、各个词在待处理图像中的位置信息以及各个词在各自对应的文本行中的相对位置信息中的至少一项)进行编码得到各个文本行分别对应的文本行表示、各个文本行分别对应的文本背景表示以及文本行对应结构信息和主题信息表示中的至少一项。

本申请实施例的另一种可能的实现方式，对文本表达信息进行编码，得到各个文本行分别对应的文本行表示、各个文本行分别对应的文本背景表示、文本行对应结构信息和主题信息表示中的至少一项，包括：对文本表达信息进行编码，得到各个文本行分别对应的文本行表示；对各个文本行分别对应的文本行表示进行编码，得到各个文本行分别对应文本背景表示，文本行对应的文本背景表示包括：各个文本行对应的局部文本背景表示和全局文本背景表示；对各个文本行对应的表示进行编码，得到所有文本行对应的结构信息和主题信息表示中的至少一项。

由上述实施例可知，对各个文本行对应的文本表达信息(每个文本行对应的文本表达信息包括：文本内容和文本视觉信息，其中文本视觉信息包括每个文本行对应的文本特征信息、每个文本行在待处理图像中对应的位置信息、各个词在待处理图像中的位置信息和各个词在对应的文本行中的相对位置信息)进行编码的过程中，先得到各个文本行分别对应的文本行表示，然后基于各个文本行分别对应的文本行表示，得到文本行对应的文本背景表示，然后基于文本行对应的文本背景表示得到所有文本行对应的结构信息和主题信息表示中的至少一项。

由上述实施例可知：对各个文本行分别对应的文本表达信息(各个文本行分别对应的文本特征图、各个文本行在所述待处理图像中各自对应的位置信息、各个文本行分别对应的词序列以及各个词在各自对应的文本行中的位置信息中的至少一项)进行编码得到各个文本行分别对应的文本行表示，然后对各个文本行分别对应的文本行表示进行编码得到各个文本行分别对应的文本背景表示，然后基于各个文本行分别对应文本背景表示进行编码得到文本行对应的结构信息和主题信息表示中的至少一项。例如，结构信息可以为文本行所形成的空间结构信息和三角结构信息等。在本申请实施例中，结构信息表示用于表示文本行所形成的空间结构信息和三角结构信息等。

具体地，如图7所示，将各个文本行对应的文本表达信息，通过文本行编码器得到各个文本行分别对应的文本行表示，例如，将文本行1对应的文本特征信息(可以称为文本特征图1)、文本行1对应的文本内容信息(可以称为文本内容1)、文本行1在待处理图像中对应的位置信息(可以称为文本位置1)以及文本行1中各个词对应的词位置(也可以称为词位置1)，通过文本行编码器得到文本行表示T1，将文本行2对应的文本特征信息(可以称为文本特征图1)、文本行2对应的文本内容信息(可以称为文本内容2)、文本行2在待处理图像中对应的位置信息(可以称为文本位置2)以及文本行2中各个词对应的词位置(也可以称为词位置2)，通过文本行编码器，得到文本行表示T2，……，将文本行m对应的文本特征信息(可以称为文本特征图m)、文本行m对应的文本内容信息(可以称为文本内容m)、文本行m在待处理图像中对应的位置信息(可以称为文本位置m)以及文本行m中各个词分别对应的词位置(也可以称为词位置m)，通过文本行编码器，得到文本行表示Tm；然后将文本行表示T1、文本行表示T2、……、文本行Tm等通过N个Intra-Inter Transformer模块得到对应的文本行的文本背景表示C(即文本背景表示C1、文本背景表示C2、……、文本背景表示Cm)，其中，C＝[C1,C2,…,Cm]；进一步地，将得到的文本行的文本背景表示(即文本背景表示C1、文本背景表示C2、……、文本背景表示Cm)通过胶囊网络以实现对文本行的空间结构和主题信息进行编码，得到对应的所有文本行对应的空间结构信息和主题信息表示。

在上述实施例中介绍了得到各个文本行分别对应的文本行表示、各个文本行分别对应的文本背景表示、所有文本行对应的结构信息和主题信息表示的方式，下述依次详细介绍得到文本行表示、文本背景表示、文本行结构信息和主题信息表示的具体实现方式，详见下述实施例。

在本申请实施例中的一种可能的实现方式，若特征信息中包括图像视觉信息和文本表达信息，则对特征信息进行编码，得到特征信息的编码结果，包括：文本背景表示、文本行结构信息和主题信息表示中的至少一项和图像特征表示。

具体地，若特征信息包括：文本表达信息，文本表达信息包括文本视觉信息和文本内容中的至少一项，则将特征信息进行编码，得到特征信息对应的编码结果，包括以下至少一项：将文本表达信息进行编码，得到文本行表示；对文本行表示进行编码，得到文本背景表示；对文本背景表示进行编码，得到文本行结构信息和主题信息表示。

本申请实施例的另一种可能的实现方式，若特征信息包括：文本表达信息，文本表达信息中包括文本内容，文本内容包括：各个文本行分别对应的词序列；对于一个文本行，该文本行的文本内容包括：该文本行对应的词序列；

其中，对于一个文本行，将文本内容进行编码，得到文本行表示，包括：对该文本行对应的词序列进行编码，得到基于字符序列的词表示；基于基于字符序列的词表示确定该文本行对应的文本行表示。

具体地，基于每个文本行对应的文本特征信息、每个文本行在待处理图像中对应的位置信息、每个文本行对应的词序列和各个词在对应的文本行中的位置信息，确定每个文本行中各个词分别对应的特征表示，具体可以包括：对文本行中各个词的字符嵌入序列应用CNN得到基于字符序列的词表示；根据词位置将文本特征图分割成词特征图，并进行尺度化为相同大小，并将尺度化处理后的特征图上应用CNN得到特征图表示；基于各个词在对应的文本行中的位置信息确定每个文本行对应的词位置向量；基于每个文本行在待处理图像中对应的位置信息得到每个文本行对应的文本位置表示。在本申请实施例中，基于每个文本行对应的词序列得到基于字符的词表示的方式，基于每个文本行在待处理图像中对应的位置信息得到每个文本行在待处理图像中对应的位置向量的方式，基于每个文本行对应的文本特征信息得到每个文本行对应的特征图表示的方式、各个词在待处理图像中的位置信息以及基于各个词在对应的文本行中的相对位置信息，确定每个词在对应的文本行中的位置向量的方式可以同时执行，也可以不同时执行，也可以部分同时执行，在本申请实施例中不做限定。

进一步地，在本申请实施例中，基于得到的表示信息得到每个文本行对应的文本行表示，具体可以包括：基于字符的词表示、每个词对应的文本特征、每个词在对应的文本行中的相对位置信息、每个文本行在待处理图像中对应的位置信息进行拼接，并在拼接处理后对于文本行中每个词加入此在文本行中的位置编码，如Sinusoidal位置编码，以加入文本行中词位置信息，从而得到每个文本行对应的文本行表示。在本申请实施例中，在每个文本行在待处理图像中对应的位置信息之后，对得到的位置向量进行复制，将复制得到的每个文本行在待处理图像中对应的位置信息和基于字符的词表示、每个词对应的文本特征、每个词在待处理图像中的位置信息、每个词在对应的文本行中的相对位置信息进行拼接，并在拼接处理后对于文本行中每个词加入Sinusoidal位置编码，以加入文本行中词位置信息，从而得到每个文本行对应的文本行表示。在本申请实施例中，将在每个文本行在待处理图像中对应的位置信息之后，对得到的位置向量进行复制之后，以得到的位置向量和每个文本行中的词数量相同，以实现在文本行位置加入至文本行中的每个词中。

具体地，Sinusoidal位置编码：对于位置为p的词位置编码向量PE_p∈R^d,其不同维度的值采用不同频率的sine和cosine函数计算得到：

PE_(p,2i)＝sin(p/10000^2i/d)

PE_(p,2i+1)＝cos(p/10000^2i/d)

其中，p表示词在文本行中的位置，i表示维度(dimension)，d表示编码向量的维度。

具体地，基于每个文本行对应的文本特征图、每个文本行在待处理图像中对应的位置信息、每个文本行对应的词序列、各个词在待处理图像中的位置信息和各个词在对应的文本行中的相对位置信息得到每个文本行对应的文本行表示的方式的一个示例可以如图8所示，将文本行1对应的词序列通过字符嵌入处理、并将字符嵌入处理后的信息输入至CNN得到基于字符的词表示；将文本行1的文本特征图分割为词特征图，并将各个词特征图进行尺寸化得到相同尺寸的各个词特征图，然后将尺寸化得到的各个相同尺寸的词特征图通过CNN得到文本行1对应的特征图表示；基于各个词分别在文本行1中分别对应的词位置，例如[x₁₁、y₁₁、w₁₁、h₁₁]及[x₁₂、y₁₂、w₁₂、h₁₂](其中(x,y)、w、h分别表示词的中心点位置、宽和高)，得到对应的词位置向量；基于文本行1在待处理图像中对应的位置信息[x₁、y₁、w₁、h₁]得到对应的文本位置表示，其中(x1,y1)、w1、h1分别表示文本行1的中心点位置、宽和高，并将得到的文本位置表示进行复制，以得到的文本位置表示的数量和文本行1中词的数量相等，以使得后续将文本位置表示添加至文本行1的每个词上；然后文本行1对应的基于字符的词表示、文本行1对应的特征图表示、文本行1对应的词位置向量、以及文本行1对应的文本位置向量进行拼接处理，然后对拼接处理后的向量进行Sinusoidal位置编码，以得到文本行1对应的文本行表示。其中，文本行得到对应的文本行表示的方式与文本行1得到文本行1对应的文本行1对应的文本行表示的方式相似，在本申请实施例中不再进一步赘述。

进一步地，在本申请实施例中将每个文本行对应的词序列通过基于字符的词表示来代替词嵌入，由于本申请实施例中的每个词向量是建立在基于字符序列学习得到的，而不是对每个词直接采用词嵌入向量，再者字符嵌入向量的规模要远远小于所有词嵌入向量，前者嵌入向量矩阵(即字符嵌入向量的规模)为|C|*d的矩阵，后者词嵌入向量矩阵为|V|*d的矩阵,这里|C|为所有字符规模，|V|为词典大小，d为维度，并且这里|C|<<|V|，从而在本申请实施例中基于字符的词表示来代替词嵌入，可以降低文本行编码器的存储空间和内存。

本申请实施例的另一种可能的实现方式，文本行表示包括至少一个文本行对应的文本行表示，其中，对文本行表示进行编码，得到文本行文本背景表示，包括：对各个文本行表示分别进行编码，得到各个文本行分别对应的局部文本背景表示；将所有文本行表示作为整体进行编码，得到所有文本行对应的全局文本背景表示；基于各个文本行分别对应的局部文本背景表示和所有文本行对应的全局文本背景表示，确定各个文本行分别对应的文本背景表示。

在上述实施例中介绍了具体得到各个文本行分别对应的文本行表示的方式，在得到各个文本行分别对应的文本行表示之后，基于各个文本行分别对应的文本行表示进行编码得到文本行对应的文本背景表示的具体实现方式详见下述实施例。

本申请实施例的另一种可能的实现方式，对各个文本行分别对应的文本行表示进行编码，得到各个文本行分别对应文本背景表示，包括：对各个文本行分别对应的文本行表示分别进行编码，得到各个文本行分别对应的局部文本背景表示；以及，对各个文本行同时进行编码，得到所有文本行对应的全局文本背景表示；基于各个文本行分别对应的局部文本背景表示和所有文本行对应的全局文本背景表示，确定各个文本行分别对应的文本背景表示。

具体地，在对各个文本行分别对应的文本行表示进行编码得到各个文本行分别对应的文本背景表示，具体可以通过编码器中的背景编码模块进行处理。在本申请实施例中，文本背景表示模块(也可以称为背景编码模块)，即Intra-Inter Transformer模块，该模块被设计用于对输入的各个文本行分别对应的文本行表示分别进行局部背景编码和全局背景编码。

具体地，在本申请实施例中，对各个文本行分别对应的文本行表示进行编码得到文本行对应的文本背景表示的方式，如图9所示，具体处理的方式如下：

1)给定输入信息T＝[T1,T2,…,Tm]，其中，T表征待处理图像中各个文本行分别对应的文本行表示，T1表征文本行1对应的文本行表示、T2表征文本行2对应的文本行表示、Tm表征文本行m对应的文本行表示；

2)利用文本行内Transformer网络，即Intra TF网络，对各个文本行表示分别进行编码，并得到各个文本行分别对应的局部文本背景表示L；

3)利用文本行间TF网络，即Inter TF，对所有文本行同时进行编码，得到全局文本背景表示G；

4)将Intra-TF和Inter-TF得到输出拼接，也就是说将各个文本行分别对应的局部文本背景表示和得到的全局文本背景表示进行拼接；具体地，各个文本行分别对应的局部文本背景表示矩阵L＝[L1,L2,…，Lm]和得到的全局文本背景表示矩阵G按列拼接。这里Li表示第i个Intra-TF得到的局部文本背景表示；此外，第4)步中Intra-TF和Inter-TF得到输出进行融合的方式，除了按列拼接外，还可以采用相加的方式，即L+G。

5)将拼接后的信息(或者相加后的信息)输入至线性投影层进行线性变换得到F(T)，其与输入T具有相同的维度；

6)将F(T)与各个文本行分别对应的文本行表示进行残差连接(即C＝F(T)+T)可以得到最终的输出结果为C＝[C1,C2,…,Cm]，也即得到文本行的文本背景表示，其中，C表征文本行的文本背景表示，C1表征文本行1的文本背景表示、C2表征文本行2的文本背景表示、Cm表征文本行m的文本背景表示。

上述实施例中得到局部文本背景表示和全局背景表示所利用的均为Transformer网络，其中，Transformer网络模块主要由如下三子成分组成，如图16所示，包括：多头自注意力(Multi-head Self-Attention)、卷积层、全连接层；具体的处理过程为：将输入信息通过多头自注意力层进行注意力处理，并将处理后的信息通过卷积层进行卷积处理，进而将卷积处理后的信息通过全连接层进行线性变换处理，并将线性变换处理结果与上述输入信息通过残差连接(将模块的输入和全连接层的输出相加)作为模块的输出。在本申请实施例中，针对Intra-TF和Inter-TF的输入信息均为输入信息T＝[T1,T2,…,Tm]，Intra-TF和Inter-TF的输出别为局部文本背景表示L和全局文本背景表示G。

进一步地，在本申请实施例中，通过Intra-Inter Transformer得到所有文本行的局部文本背景表示和全局文本背景表示，并且文本背景表示可以提现出上下文信息，从而在通过对所有文本行的局部文本背景表示和全局文本背景表示进行关键词预测时，可以更为精确地对关键词进行预测。

本申请实施例的另一种可能的实现方式，文本背景表示包括各个文本行分别对应的文本背景表示；对文本背景表示进行编码，得到文本行结构信息和主题信息表示中的至少一项，包括：对各个文本行分别对应的文本背景表示，得到各个文本行分别对应的隐向量；基于各个文本行分别对应的隐向量确定文本行结构信息和主题信息表示中的至少一项。

在上述得到各个文本行分别对应的文本背景表示之后，可以对各个文本行分别对应的文本背景表示进行结构和主题编码，得到所有文本行对应的结构信息和主题信息表示。

本申请实施例的另一种可能的实现方式，对文本背景表示进行编码，得到文本行结构信息和主题信息表示中的至少一项，具体可以包括：基于各个文本行分别对应的文本背景表示，并通过至少一个胶囊网络进行编码处理，得到对应的胶囊向量。

对于本申请实施例，胶囊(Capsule)是一组神经元，它的激活向量表示特定的类型实体(如某目标或某目标的部分)的实例化参数，与传统卷积神经网络不同在于，其将卷积的神经元标量输出转换为向量输出，以表达更加丰富的特征信息，如相对位置、文本语义信息等；给定一组输入向量，胶囊网络通过动态路由算法学习多组权重对输入向量加权求和得到一组胶囊向量，每个胶囊向量的模长表示某一对象或成分在输入中存在的可能性大小，向量值本身反映了输入向量之间的相对结构信息和聚类信息。在本申请实施例中，胶囊向量用于表征所有文本行对应的文本行结构信息和主题信息。在本申请实施例中涉及到的所有文本行对应的结构信息可以包括文本的排版信息(Layout)，如所有文本行形成的空间结构信息、三角结构信息等；主题信息是指文本内容所描述的主题。

其中，胶囊网络将这些信息编码成一些胶囊向量，以用于表征所有文本行对应的结构和主题信息表示。

进一步地，在本申请实施例中，如果单纯只是为了得到主题多样性的关键词，可以通过胶囊网络学习主题信息表示，也可以采用主题模型(如潜在语义分析(LatentSemantic Analysis，LSA)、潜在狄利克雷分布(Latent Dirichlet Allocation，LDA)等)学习得到主题向量近似代替。

进一步地，对各个文本行分别对应的文本背景表示(C＝[C1,C2,…,Cm])进行编码，得到所有文本行对应的结构和主题信息表示中的至少一项，如图10所示，包括：

1)输入文本背景表示C＝[C1,…,Cm]，其中Ci表示第i文本行的文本背景表示；

2)对每一个文本背景表示Ci进行池化得到隐向量hi；

3)在所有隐向量[h1,..,hm]应用胶囊网络动态路由得到k个胶囊向量(包括：胶囊1、胶囊2、…、胶囊k)，得到所有的胶囊向量为V＝[v1,…,vk]＝Capsules([h1,…,hm])；

4)输出所有胶囊向量V(v1、v2、…、vk)。

需要说明的是，上述实施例中输出的胶囊向量V用于表征所有文本行对应的文本行结构信息和主题信息表示。

进一步地，通过胶囊网络对图像中所有文本行的结构信息和主题信息进行编码，其中该结构信息有助于模型聚焦于文本行的重要空间位置，主题信息有助于模型的解码器生成具有主题多样性的关键词，从而可以提高从待处理图像中提取文本行的精确度。

本申请实施例的该结构和主题编码模块的另一种可能的实现方式，直接在输入文本背景表示C上应用胶囊网络得到k个胶囊向量(包括：胶囊1、胶囊2、……、胶囊k)。

由上述实施例中可知，通过编码器得到了该待处理图像对应的图像特征表示I、文本行的文本背景表示C和胶囊向量V，从而将图像特征表示I、文本行的文本背景表示C和胶囊向量V进行解码处理以得到关键词序列。在本申请实施例中，在解码的过程中具体通过生成一个词序列预测所有的关键词，例如，[<s>,Beauty,<s>,MYER,<s>,Sand,&,Sky,</s>]；其中“Beauty”,“MYER”和“Sand&Sky”为关键词，<s>和</s>分别表示关键词短语的起始位置和词序列的结束为止。在本申请实施例中，图像特征表示I用于表征待处理图像的图像特征、文本行的文本背景表示C在对输入序列中的每个词编码时考虑每个的词的上下文信息，得到的特征表示输出，胶囊向量V用于表征文本结构信息和主题信息，输入的信息有主题信息，这样有助于生成具有主题多样性的关键词，使得抽取的关键词不会集中在单一的主题上，空间结构信息就是文本行之间的相对位置信息、词和文本行在图片中的位置信息，添加空间结构信息，有助于模型能够聚焦于具有重要位置的词，比如某个词处在图片的Top-Middle的位置、或者被其他词环绕，其往往比较重要。正是由于图像特征表示I、文本行的文本背景表示C和胶囊向量V的上述作用，因此通过图像特征表示I、文本行的文本背景表示C和胶囊向量V进行关键词预测，可以提升预测出的关键词的准确度。

本申请实施例的另一种可能的实现方式，基于编码结果从待处理图像中抽取关键词，包括：基于编码结果，确定各预测时间步各自所对应的目标预测模式、以及目标预测模式对应的预测词；输出各预测时间步所对应的预测词；基于各预测时间步所对应的预测词，得到关键词。

对于本申请实施例，编码结果可以包括：图像特征表示、文本背景表示以及文本行结构信息和主题信息表示中的至少一项，则基于编码结果从待处理图像中抽取关键词，包括：基于图像特征表示、文本背景表示、文本行结构信息和主题信息表示中的至少一项，从待处理图像中抽取关键词。

对于本申请实施例，在基于待处理图像所对应的编码结果(图像特征表示I、文本行的文本行特征表示C和胶囊向量V)对关键词进行预测时，通过各个预测时间步对各个预测词进行预测，以得到针对上述关键词进行预测，从而得到关键词。在本申请实施例中，一个预测时间步对一个预测词进行预测，并且至少一个预测词对应一个关键词。例如，针对关键词序列[<s>,Beauty,<s>,MYER,<s>,Sand,&,Sky,</s>]；其中，第一个预测时间步对应的预测词为“<s>”，第二个预测时间步对应的预测词为“Beauty”，第三个预测时间步对应的预测词为“<s>”，第四个预测时间步对应的预测词为“MYER”，第五个预测时间步对应的预测词为“<s>”，第六个预测时间步对应的预测词为“Sand”，第七个预测时间步对应的预测词为“&”，第八个预测时间步对应的预测词为“Sky”，第九个预测时间步对应的预测词为“</s>”，其中，针对上述各个预测时间步对应的预测词得到3个关键词为“Beauty”、“MYER”和“Sand&Sky”。

具体地，针对一个预测时间步，基于编码结果，确定预测时间步所对应的目标预测模式、以及目标预测模式对应的预测词，包括：步骤Sa(图中未示出)和步骤Sb(图中未示出)中至少一项：

步骤Sa、基于编码结果，确定该预测时间步对应于预配置的各预测模式的预测词以及该预测时间步所对应的目标预测模式，并基于各预测模式的预测词以及该预测时间步所对应的目标预测模式，得到目标预存模式对应的预测词；

步骤Sb、基于编码结果，从预配置的各预测模式中确定该预测时间步所对应的目标预测模式，基于编码结果，得到目标预测模式对应的预测词。

具体地，预配置的预测模式包括：基于词库进行关键词预测的第一预测模式；基于文本行所包含的各词进行关键词预测的第二预测模式，其中，在基于第二预测模式进行关键词预测时，文本行所包含的各词是基于图像特征信息的编码结果得到的，图像特征信息包括待处理图像的文本内容。

具体地，在本申请实施例中，第一预测模式在进行关键预测所依据的词库(Dictionary)可以包括预定义的词典。具体地，第一预测模式，也可以称为生成模式，也即基于预定义的词典进行关键词预测的预测模式；第二预测模式，也可以称为复制模式，也即基于文本行所包含的各词进行关键词预测的预测模式。

具体地，若目标预测模式为第二预测模式，基于编码结果，确定目标预测模式对应的预测词，包括：基于编码结果，确定待处理图像中的文本内容所包含的各词分别对应的权重；基于各词分别的权重，确定目标预测模式对应的预测词。具体地，图像特征信息包括文本表达信息和图像视觉信息，其中，文本表达信息包括文本视觉信息和文本内容中的至少一项，编码结果包括文本背景表示和图像特征表示，文本背景表示是基于文本表达信息得到的，图像特征表示是基于图像视觉信息得到的；其中，基于编码结果，确定待处理图像中的文本内容所包含的各词分别对应的权重，包括：基于编码结果通过特征融合处理，得到当前预测时间步对应的隐向量；基于文本背景表示以及隐向量，确定待处理图像中的文本内容所包含的各词分别对应的权重。具体地，基于文本背景表示以及隐向量，确定待处理图像中的文本内容所包含的各词分别对应的权重，具体可以包括：基于文本背景表示以及隐向量，确定待处理图像中的文本内容所包含的各词分别对应的得分；基于各词分别对应的得分，得到各词分别对应的权重。在本申请实施例中，如图11所示，待处理图像中的文本内容所包含的各词的特征表示为Transformer(前向)的输出结果(也即Transformer(前向)网络模块的输出结果)，然后通过前向Transformer的输出结果和各个文本行分别对应的文本背景表示(C1、C2……Cm)并通过注意力机制得到各词的特征表示的权重。在本申请实施例中，Transformer(前向)也可以如图16所示，其中，Transformer(前向)的输入信息为图像特征表示I，文本背景表示C和胶囊向量V，输出信息为待处理图像中的文本内容所包含的各词的特征表示。

具体地，基于编码结果，确定待处理图像中的文本内容所包含的各词的特征表示，包括：基于编码结果以及已预测词，确定待处理图像中的文本内容所包含的各词的特征表示。在本申请实施例中，已预测词为当前预测时间步之前所预测出的词。例如，在上述实施例中提到针对待处理图像，所对应的关键词序列为[<s>,Beauty,<s>,MYER,<s>,Sand,&,Sky,</s>]，则在第4预测时间步，将“<s>”、“Beauty”、“<s>”作为已预测词。

进一步地，在基于上述实施例得到待处理图像中的文本内容所包含的各词的特征表示之后，基于各词的特征表示的权重，对各词的特征表示进行融合，基于融合后的特征表示，得到预测词。

在下述实施例中，以每个预测时间步为例介绍预测关键词的方式，进一步地，在本申请实施例中，如图7、图11所示，在对图像特征表示I、文本行的文本背景表示C和胶囊向量V通过解码器进行解码处理时，将图像特征表示I、文本行的文本背景表示C和胶囊向量V通过注意力机制，以对输入特征进行加权平均，然后将通过注意力机制处理后的信息以及已预测词通过词嵌入的方式，输入至Transformer(前向)网络(也即Transformer(前向)网络模块)中，将其输出结果通过模式选择网络确定待预测词为基于复制模式复制的词还是通过生成模式生成的词，从而输出预测词，进而可以对应的关键词。在本申请实施例中，上述Transformer(前向)网络模块可以为单个网络，也可以堆叠至少两次。在本申请实施例中并不做限定。

具体地，基于图像特征信息对应的编码结果和文本信息对应的编码结果以及已预测词，确定当前预测时间步所对应的词序列的预测模式，包括：基于各个文本行分别对应的文本行表示、文本行对应的文本背景表示以及胶囊向量分别通过注意力机制进行处理，得到处理后的结果；并将处理后的结果和已预测词进行特征融合处理，得到特征融合结果；基于特征融合结果，确定当前预测时间步所对应的预测词的预测模式。

进一步地，如图11所示，在每个预测时间步时，将图像特征表示I、胶囊向量V和文本背景表示C(文本背景表示C1、文本背景表示C2……文本背景表示Cm)通过注意力处理机制进行处理，得到加权平均后的信息，然后将通过已预测词对应的词嵌入(该词嵌入为将已预测词通过基于字符词嵌入处理后信息)以及加权平均后的信息通过前向Transformer网络进行特征融合处理，并将融合后的信息(也可以称为前向Transformer的当前时间步(Time Step)的隐状态表示h)通过模式选择策略网络进行模式选择，以用于生成决策动作action用于确定待输出的预测词为基于生成模式生成的词，或者通过复制模式复制得到的词。在本申请实施例中，在模式选择网络中的输入为融合后的信息(也可以称为前向Transformer的隐状态表示h到前向层)，然后采用Sigmoid输出激活函数计算模式选择策略P(a；h)，从选择策略分布P(a；h)中进行抽样得到action，即action～P(action；h)。在本申请实施例中得到的action用于决定当前预测时间步所对应的预测模式为第一预测模式(生成模式)或者第二预测模式(复制模式)，也就是说，在本申请实施例中得到的action用于决定当前预测时间步所预测的词是通过第一预测模式(生成模式)预测得到的，还是通过第二预测模式(复制模式)预测得到的。进一步地，例如，action可以为0或者1，action为0，表征当前预测时间步所对应的预测模式为第一预测模式(生成模式)，action为1，表征当前预测时间步所对应的预测模式为第二预测模式(复制模式)。

进一步地，通过第一预测模式(生成模式)预测词为根据预定义的常用词词典进行新词预测，具体地，将前向Transformer的在当前时间步的输出隐状态h到Softmax层计算在预定义常用词词典上的概率分布，即Softmax(Wh)，其中W∈R^|V|*d为变换参数，|V|为常见词表大小，d表示隐状态h的向量维度。并取概率最大的常用词作为需要生成的词，作为概率最大的常用词即作为当前时间步预测的词，在本申请实施例中，由于通过生成模式对关键词序列进行预测，是在预定义常用词典上选取概率最大的词序列作为预测序列，并不是简单复制OCR识别的文本行中的词序列，也就是说在生成模式预测词时并不是直接将OCR识别到的文本行中的词作为输出的词(作为输出的预测词)，从而通过生成模式预测的关键词可以避免由于OCR识别文本内容错误所产生的预测关键词错误；

进一步地，通过复制模式(Copy Mode)预测的关键词为从输入的词序列中复制一个词序列作为当前预测时间步预测的关键词序列。具体地，前向Transformer的在当前时间步的隐向量h和文本背景表示C，并采用结合注意力机制的Softmax计算输入词上的概率分布，取得分最大的输入词作为复制词作为新词预测(即基于编码结果通过特征融合处理(这里的特征融合处理指代前向Transformer)，得到当前时间步的隐向量，基于文本背景表示C以及当前时间步的隐向量通过注意力机制，确定待处理图像中的文本内容所包含的各词分别对应的得分，然后通过softmax得到各个词的权重(或概率分布)，进而得到复制词)，可以理解的是，通过复制模式进行关键词序列预测即为从当前文本行序列(其实就是OCR文本中)中确定得分最大的词序列，作为当前预测时间步预测的词序列，在本申请实施例中，在通过复制模式进行关键词预测时通过注意力机制进行加权平均处理，即通过前向Transformer和各个文本行的文本背景表示去调整各个词特征表示的权重，有助于降低OCR错误词的得分，从而可以提高预测的关键词的准确度。

在上述实施例中介绍了通过关键词抽取模型，从待处理图像中抽取关键词，以得到待处理图像所对应的关键词，在本申请实施例中的所采用的模型(关键词抽取模型)是深度学习网络，模型训练需要建立在大规模的训练数据集上，但是由于这类数据标注比较复杂，具有较高的标注差异，人工标注大规模的文本图像关键词抽取数据十分耗时且成本很高。在本申请实施例中提供了一种训练数据获取方法，以获取上述关键词抽取模型所对应的训练数据：

(1)训练数据准备：

训练数据分为两类，合成截图语料和标注语料(该标注语料可以包括：人工标注语料和自动标注语料)：

1)获取合成截图语料：

其利用从网络爬取的开放资源来合成图像数据，操作流程如图12所示：在本申请实施例中，图12中合成图像仅是示例性的，其中图12中合成图像中的内容并不做保护。

首先，从网络中抽取文本数据，如论文的摘要和关键词，这里“标题”和“摘要”一起作为文档，摘要关键词作为关键词短语，例如，在图12中，将科学文章中的“标题”部分和“摘要”部分一起作为文档，“关键词”部分作为关键词短语。

其次，将收集的文本数据(包括论文的摘要和关键词)和图像数据联合来合成一个大规模标注语料，这里论文的所有关键词作为合成图像的关键词。

2)标注语料：

·首先，从智能手机用户收集一定数量的正式图像数据，例如截图数据；

·然后，对这些数据进行标注，可以通过众包等方式人工标注这些数据。

(2)模型训练：

模型训练和预测方法，该方法包括三个步骤，如图13所示：

1)利用合成的截图语料预训练关键词抽取模型；

2)利用标注后的截图语料微调预训练模型；

上述实施例中介绍了从待处理的图像中抽取关键词序列，以得到关键词，并且介绍了针对抽取关键词序列所利用的关键词模型的训练方法，并且从待处理图像中抽取关键词序列的方式可以应用在较多的应用场景，例如，图片标签编辑和智能搜索，其中，针对图片标签编辑，当用户想对一张截图添加文本标签，通过关键词抽取可以为用户提供一些标签候选，然后用户可以从中选取标签作为该图片的标签，或者用户自己编辑标签，如图14所示，从待处理图像中抽取关键词“#weekly catalogue”、“#ooles catalogue”、“#nswmetro”作为候选标签，这里“#”表示关键词记号(也称HashTag记号)。以使得用户可以从中选取标签作为该图片的标签；其中，针对智能搜索，当用户想了解与图片相关信息，通过该工具中的关键词抽取可以自动提取图片中的关键词并提供给用户，若用户选择一标签(如标签一)，此时该工具就会将相关检索结果呈现给用户，即标签一对应的检索结果，如图15所示。

进一步地，在上述实施例中，在从待处理图像中抽取关键词所依据的特征信息中添加视觉信息(图像视觉信息和文本视觉信息中的至少一项)，可以显著改善关键词抽取模型的性能，提升关键词抽取效果，下述通过具体的实验数据表明添加视觉信息可以达到显著改善关键词抽取模型的性能，提升关键词抽取效果，具体地，在本申请实施例中视觉信息仅考虑各个文本行在待处理图像中的位置和每个文本行中各个词在该文本行中的词位置等视觉信息，并且采用1700张人工标注的中文截图最为实验数据，其中1000张截图作为训练集，700张截图作为测试集，所得到的实验结果如表一所示。

表一

其中，Prec@5和Prec@10分别表示关键词抽取模型进行关键词预测排序得分前5和前10的平均精度。并且由表一可知：本申请实施例的方法(即在抽取关键词时基于包含视觉信息的特征信息进行抽取)在精度、召回率、F1、Prec@5和Prec@10等方面均高于不加视觉信息的原模型中关键词抽取的方式，因此本申请实施例中关键词抽取方法可以显著改善关键词抽取模型的性能，提升关键词抽取效果。

进一步地，在本申请实施例中，以对英文文本内容的图像进行抽取，并抽取英文的关键词为例进行说明，但在本申请实施例中所提模型也适用于其他语种的文本内容的图像进行关键词抽取，抽取的关键词可以为对应语言的关键词。

上述实施例从方法流程的角度介绍了关键抽取方法，下述实施例从虚拟装置的角度介绍关键词抽取装置，下述实施例中介绍的关键词抽取装置适用于上述方法实施例，具体如下所示：

本申请实施例提供了一种关键词抽取装置，如图17所示，该关键词抽取装置1700包括：提取模块1701、抽取模块1702，其中，

提取模块1701，用于提取待处理图像对应的特征信息；

抽取模块1702，用于基于特征信息，从待处理图像中抽取关键词。

本申请实施例的一种可能的实现方式，特征信息包括文本表达信息和图像视觉信息中的至少一项；文本表达信息包括文本内容和文本视觉信息中的至少一项。

本申请实施例的另一种可能的实现方式，文本视觉信息，包括待处理图像中各个文本行对应的文本视觉信息；

对于一个文本行，该文本行对应的文本视觉信息包括以下至少一项：

该文本行对应的文本特征图；

该文本行在待处理图像中的位置信息；

该文本行中的各个词在待处理图像中的位置信息；

该文本行中的各个词在该文本行中的相对位置信息。

本申请实施例的另一种可能的实现方式，抽取模块1702在基于特征信息，从待处理图像中抽取关键词时，具体用于：

将特征信息进行编码，得到特征信息的编码结果；

基于编码结果，从待处理图像中抽取关键词。

本申请实施例的另一种可能的实现方式，特征信息包括文本表达信息和图像视觉信息，其中，文本表达信息包括文本视觉信息和文本内容中的至少一项；

编码结果包括文本背景表示、图像特征表示、文本行结构信息以及主题信息表示中的至少一项；

其中，文本背景表示是基于文本表达信息得到的，图像特征表示是基于图像视觉信息得到的，文本行结构信息以及主题信息表示是基于文本背景表示得到的。

本申请实施例的另一种可能的实现方式，抽取模块1702在基于编码结果从待处理图像中抽取关键词时，具体用于包括：

基于编码结果，确定各预测时间步各自所对应的目标预测模式、以及目标预测模式对应的预测词；

输出各预测时间步所对应的预测词；

基于各预测时间步所对应的预测词，得到关键词。

本申请实施例的另一种可能的实现方式，针对一个预测时间步，抽取模块1702在基于编码结果，确定预测时间步所对应的目标预测模式、以及目标预测模式对应的预测词时，具体用于以下至少一项：

基于编码结果，确定该预测时间步对应于预配置的各预测模式的预测词以及该预测时间步所对应的目标预测模式，并基于各预测模式的预测词以及该预测时间步所对应的目标预测模式，得到目标预存模式对应的预测词；

基于编码结果，从预配置的各预测模式中确定该预测时间步所对应的目标预测模式，基于编码结果，得到目标预测模式对应的预测词。

本申请实施例的另一种可能的实现方式，预配置的预测模式包括：

基于词库进行关键词预测的第一预测模式；

基于文本行所包含的各词进行关键词预测的第二预测模式。

本申请实施例的另一种可能的实现方式，抽取模块1702在当目标预测模式为第二预测模式，基于编码结果，确定目标预测模式对应的预测词时，具体用于：

基于编码结果，确定待处理图像中的文本内容所包含的各词分别对应的权重；

基于各词分别的权重，确定目标预测模式对应的预测词。

本申请实施例的另一种可能的实现方式，图像特征信息包括文本表达信息和图像视觉信息，其中，文本表达信息包括文本视觉信息和文本内容中的至少一项，编码结果包括文本背景表示和图像特征表示，文本背景表示是基于文本表达信息得到的，图像特征表示是基于图像视觉信息得到的；

抽取模块1702，在基于编码结果，确定待处理图像中的文本内容所包含的各词分别对应的权重时，具体用于：

基于编码结果通过特征融合处理，得到当前预测时间步对应的隐向量；

基于文本背景表示以及隐向量，确定待处理图像中的文本内容所包含的各词分别对应的权重。

本申请实施例的另一种可能的实现方式，当特征信息包括：文本表达信息，文本表达信息包括文本视觉信息和文本内容中的至少一项；

抽取模块1702在将特征信息进行编码，得到特征信息对应的编码结果时，具体用于以下至少一项：

将文本表达信息进行编码，得到文本行表示；

对文本行表示进行编码，得到文本背景表示；

对文本背景表示进行编码，得到文本行结构信息和主题信息表示。

本申请实施例的另一种可能的实现方式，当特征信息包括：文本表达信息，文本表达信息中包括文本内容，文本内容包括：各个文本行分别对应的词序列；

对于一个文本行，该文本行的文本内容包括：该文本行对应的词序列；

其中，对于一个文本行，抽取模块1702在将文本内容进行编码，得到文本行表示时，具体用于：

对该文本行对应的词序列进行编码，得到基于字符序列的词表示；

基于基于字符序列的词表示确定该文本行对应的文本行表示。

本申请实施例的另一种可能的实现方式，文本行表示包括至少一个文本行对应的文本行表示，其中，抽取模块1702在对文本行表示进行编码，得到文本行文本背景表示时，具体用于：

对各个文本行表示分别进行编码，得到各个文本行分别对应的局部文本背景表示；

将所有文本行表示作为整体进行编码，得到所有文本行对应的全局文本背景表示；

基于各个文本行分别对应的局部文本背景表示和所有文本行对应的全局文本背景表示，确定各个文本行分别对应的文本背景表示。

本申请实施例提供了一种关键词抽取装置，与现有技术相比，在本申请实施例中提取待处理图像对应的特征信息，然后基于特征信息，从待处理图像中抽取关键词。即在本申请实施例中可以通过从待处理图像中提取的特征信息，以实现从待处理图像中抽取关键词。

本申请实施例的关键词抽取装置可执行本申请上述方法实施例所示的关键词抽取方法，其实现原理相类似，此处不再赘述。

在上述实施例中从方法流程的角度介绍了一种关键词抽取方法以及从虚拟装置的角度介绍了一种关键词抽取装置，下述实施例中介绍了一种电子设备，可以用于执行上述方法实施例所示的关键词抽取方法。在本申请实施例中电子设备可以为终端设备，也可以为服务器，并不对此进行限定，针对电子设备的介绍详见下述实施例。

本申请实施例提供了一种电子设备，如图18所示，图18所示的电子设备1800包括：处理器1801和存储器1803。其中，处理器1801和存储器1803相连，如通过总线1802相连。可选地，电子设备1800还可以包括收发器1804。需要说明的是，实际应用中收发器1804不限于一个，该电子设备1800的结构并不构成对本申请实施例的限定。

处理器1801可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1802可包括一通路，在上述组件之间传送信息。总线1802可以是PCI总线或EISA总线等。总线1802可以分为地址总线、数据总线、控制总线等。为便于表示，图18中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1803可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1803用于存储执行本申请方案的应用程序代码，并由处理器1801来控制执行。处理器1801用于执行存储器1803中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比可实现：在本申请实施例中提取待处理图像对应的特征信息，然后基于特征信息，从待处理图像中抽取关键词。即在本申请实施例中可以通过从待处理图像中提取的特征信息，以实现从待处理图像中抽取关键词。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，在本申请实施例中提取待处理图像对应的特征信息，然后基于特征信息，从待处理图像中抽取关键词。即在本申请实施例中可以通过从待处理图像中提取的特征信息，以实现从待处理图像中抽取关键词。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关键词抽取的方法，其特征在于，包括：

提取待处理图像对应的特征信息；

基于所述特征信息，从所述待处理图像中抽取关键词。

2.根据权利要求1所述的方法，其特征在于，所述特征信息包括文本表达信息和图像视觉信息中的至少一项；文本表达信息包括文本内容和文本视觉信息中的至少一项。

3.根据权利要求2所述的方法，其特征在于，所述文本视觉信息，包括待处理图像中各个文本行对应的文本视觉信息；

该文本行对应的文本特征图；

该文本行在所述待处理图像中的位置信息；

该文本行中的各个词在所述待处理图像中的位置信息；

该文本行中的各个词在该文本行中的相对位置信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述特征信息，从所述待处理图像中抽取关键词，包括：

将所述特征信息进行编码，得到所述特征信息的编码结果；

基于所述编码结果，从所述待处理图像中抽取关键词。

5.根据权利要求4所述的方法，其特征在于，所述特征信息包括文本表达信息和图像视觉信息，其中，文本表达信息包括文本视觉信息和文本内容中的至少一项；

所述编码结果包括文本背景表示、图像特征表示、文本行结构信息以及主题信息表示中的至少一项；

其中，所述文本背景表示是基于文本表达信息得到的，所述图像特征表示是基于图像视觉信息得到的，所述文本行结构信息以及主题信息表示是基于文本背景表示得到的。

6.根据权利要求4或5所述的方法，其特征在于，所述基于所述编码结果从所述待处理图像中抽取关键词，包括：

基于所述编码结果，确定各预测时间步各自所对应的目标预测模式、以及所述目标预测模式对应的预测词；

输出各预测时间步所对应的预测词；

基于所述各预测时间步所对应的预测词，得到关键词。

7.根据权利要求6所述的方法，其特征在于，针对一个预测时间步，基于所述编码结果，确定预测时间步所对应的目标预测模式、以及所述目标预测模式对应的预测词，包括以下至少一项：

基于所述编码结果，确定该预测时间步对应于预配置的各预测模式的预测词以及该预测时间步所对应的目标预测模式，并基于所述各预测模式的预测词以及该预测时间步所对应的目标预测模式，得到所述目标预存模式对应的预测词；

基于所述编码结果，从预配置的各预测模式中确定该预测时间步所对应的目标预测模式，基于所述编码结果，得到所述目标预测模式对应的预测词。

8.根据权利要求6或7所述的方法，其特征在于，预配置的预测模式包括：

基于词库进行关键词预测的第一预测模式；

基于文本行所包含的各词进行关键词预测的第二预测模式。

9.根据权利要求8所述的方法，其特征在于，若所述目标预测模式为所述第二预测模式，基于所述编码结果，确定所述目标预测模式对应的预测词，包括：

基于所述编码结果，确定所述待处理图像中的文本内容所包含的各词分别对应的权重；

基于所述各词分别的权重，确定所述目标预测模式对应的预测词。

10.根据权利要求9所述的方法，其特征在于，所述图像特征信息包括文本表达信息和图像视觉信息，其中，文本表达信息包括文本视觉信息和文本内容中的至少一项，所述编码结果包括文本背景表示和图像特征表示，所述文本背景表示是基于文本表达信息得到的，所述图像特征表示是基于图像视觉信息得到的；

基于所述编码结果，确定所述待处理图像中的文本内容所包含的各词分别对应的权重，包括：

基于所述编码结果通过特征融合处理，得到当前预测时间步对应的隐向量；

基于文本背景表示以及所述隐向量，确定所述待处理图像中的文本内容所包含的各词分别对应的权重。

11.根据权利要求4-10任一项所述的方法，其特征在于，若所述特征信息包括：文本表达信息，所述文本表达信息包括文本视觉信息和文本内容中的至少一项；

所述将所述特征信息进行编码，得到所述特征信息对应的编码结果，包括以下至少一项：

将所述文本表达信息进行编码，得到文本行表示；

对所述文本行表示进行编码，得到所述文本背景表示；

对所述文本背景表示进行编码，得到所述文本行结构信息和主题信息表示。

12.根据权利要求11所述的方法，其特征在于，若所述特征信息包括：文本表达信息，所述文本表达信息中包括文本内容，所述文本内容包括：各个文本行分别对应的词序列；

其中，对于一个文本行，将所述文本内容进行编码，得到文本行表示，包括：

基于所述基于字符序列的词表示确定该文本行对应的文本行表示。

13.根据权利要求11或12所述的方法，其特征在于，所述文本行表示包括至少一个文本行对应的文本行表示，

其中，对所述文本行表示进行编码，得到所述文本行文本背景表示，包括：

将所有文本行表示作为整体进行编码，得到所述所有文本行对应的全局文本背景表示；

基于各个文本行分别对应的局部文本背景表示和所述所有文本行对应的全局文本背景表示，确定各个文本行分别对应的文本背景表示。

14.一种关键词抽取的装置，其特征在于，包括：

提取模块，用于提取待处理图像对应的特征信息；

15.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～13任一项所述的关键词抽取方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～13任一项所述的关键词抽取方法。