CN114359911B

CN114359911B - 文字关键信息的提取方法及装置

Info

Publication number: CN114359911B
Application number: CN202210267289.8A
Authority: CN
Inventors: 张旭龙; 吴斐; 张立; 张冰洋; 杨华龙; 谢晓蓓; 李竺虔; 罗龙
Original assignee: Beijing LLvision Technology Co ltd
Current assignee: Beijing LLvision Technology Co ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-07-26
Anticipated expiration: 2042-03-18
Also published as: CN114359911A

Abstract

本发明提供一种文字关键信息的提取方法及装置，方法包括：获取图像采集设备输入的当前场景图像，当前场景图像包括至少一个文字关联图像；识别文字关联图像所对应的文字信息；基于结构化区域模板，提取文字信息中的关键信息并输出；其中，结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及封闭图形轮廓内对应的关键字确定。通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息，并结合在该场景下生成的结构化区域模板，提取得到文字新消息中的关键信息，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

Description

文字关键信息的提取方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文字关键信息的提取方法及装置。

背景技术

开放场景的文字识别中，由于文字在图像中出现的位置、尺度不固定，文字经过检测和识别流程后，提取结构化的文本信息往往很困难，只有固定格式的证件等能够使用固定逻辑准确的提取出结构化的信息。其中，结构化的信息例如图像中某个产品上的某个位置对应的文字信息。在文字格式灵活的开放场景下，例如文字是以无规则的格式显示，并且显示的文字中可能不仅包括常用的文字，还可能包括字符、数字等不常用的符号，如果想要提取其中的一部分字体信息保存，需要根据场景耗费大量人力定制化开发以得到结构化信息。

发明内容

本发明提供一种文字关键信息的提取方法及装置，用以解决现有技术中在文字格式灵活的开放场景下，需要根据场景耗费大量人力定制化开发以得到结构化信息的缺陷，实现不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

本发明提供一种文字关键信息的提取方法，包括：

获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；

识别所述文字关联图像所对应的文字信息；

基于结构化区域模板，提取所述文字信息中的关键信息并输出；

其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。

根据本发明提供的一种文字关键信息的提取方法，所述结构化区域模板通过如下步骤生成：

接收并识别所述语音指令；

基于所述语音指令，获取当前场景图像中的封闭图形轮廓位置；

根据所述封闭图形轮廓位置，确定所述封闭图形轮廓；

接收语音提示并识别所述语音提示得到关键字，并显示和保存所述关键字；其中，所述关键字用于表示所述封闭图形轮廓内的文字信息的属性；

根据所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定所述结构化区域模板。

根据本发明提供的一种文字关键信息的提取方法，所述获取所述当前场景图像中的封闭图形轮廓位置包括：

基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像；其中，所述多个实时场景图像和所述当前场景图像均处于同一个视频流中；

基于多个所述手部图像进行关键点检测，获取手部关键点的位置信息；

追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置，并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。

根据本发明提供的一种文字关键信息的提取方法，所述根据当前场景图像、所述封闭图形轮廓位置、以及所述关键字，基于多模态融合确定所述结构化区域模板，包括：

对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理；

将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度，分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征；

将所述第一特征进行维度合并得到第二特征；

根据所述第二特征基于卷积运算和坐标变换，得到所述文字信息中的关键信息在当前场景图像中的位置坐标；

基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。

根据本发明提供的一种文字关键信息的提取方法，所述根据所述封闭图形轮廓位置，确定所述封闭图形轮廓还包括依据预定规则判断所述封闭图形是否完整，所述预定规则为：

若所述封闭图形轮廓位置中的位置点存在重复，则所述封闭图形完整。

根据本发明提供的一种文字关键信息的提取方法，所述对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理，包括：

基于卷积神经网络算法对当前场景图像进行特征提取；

对所述封闭图形轮廓位置的坐标点进行归一化；以及，

对所述关键字提取对应的词向量。

根据本发明提供的一种文字关键信息的提取方法，所述方法应用于可穿戴设备，所述可穿戴设备至少包括图像采集设备、语音录入装置、显示装置、保存装置和处理器；

所述图像采集设备用于采集当前场景图像以及实时场景图像，并将当前场景图像以及实时场景图像发送至所述处理器；

所述语音录入装置用于录入所述语音指令和所述语音提示，并将所述语音指令和所述语音提示发送至所述处理器；

所述处理器用于基于所述语音指令和所述实时场景图像获取所述封闭图形轮廓位置，并基于所述语音提示获取关键字，并将所述封闭图形轮廓以及所述关键字送往所述显示装置显示以及保存装置保存，还基于所述封闭图形轮廓位置和所述关键字生成所述结构化区域模板；还用于识别当前场景图像中文字信息，并结合所述文字信息和所述结构化区域模板提取所述文字信息中的关键信息。

本发明还提供一种文字关键信息的提取装置，包括：

获取模块，用于获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；

文字识别模块，用于识别所述文字关联图像所对应的文字信息；

处理模块，用于基于结构化区域模板，提取所述文字信息中的关键信息并输出；

其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形对应的关键字确定。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文字关键信息的提取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文字关键信息的提取方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文字关键信息的提取方法的步骤。

本发明提供的文字关键信息的提取方法及装置，通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息，并结合在该场景下生成的结构化区域模板，提取得到所述文字新消息中关键信息，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文字关键信息的提取方法的流程示意图之一；

图2是本发明提供的文字关键信息的提取方法的流程示意图之二；

图3是本发明提供的结构化区域模板的形成过程示意图；

图4是本发明提供的文字关键信息的提取方法的流程示意图之三；

图5是本发明提供的文字关键信息的提取方法的流程示意图之四；

图6是本发明提供的文字关键信息的提取方法的流程示意图之五；

图7是本发明提供的文字关键信息的提取方法的流程示意图之六；

图8是本发明提供的文字关键信息的提取方法的框架示意图；

图9是本发明提供的文字关键信息的提取方法的流程示意图之七；

图10是本发明提供的文字关键信息的提取装置的结构示意图；

图11是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图11描述本发明的文字关键信息的提取方法及装置。

图1为本发明提供的文字关键信息的提取方法的流程示意图之一。可以理解，图1中的方法可以由文字关键信息的提取装置实现。所述文字关键信息的提取装置可以对应一个可穿戴设备中的一个处理器。其中，所述可穿戴设备例如可以为一个眼镜或头盔。如图1所示，本发明提供的文字关键信息的提取方法包括以下步骤：

步骤110、获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像。

其中，图像采集设备可以为所述可穿戴设备中的一部分。当前场景图像为开放场景下的一个视频流中的图像。文字关联图像为所述当前场景图像中至少一组文字对应的图像。

可以理解，由于所述文字关联图像中至少一组文字对应的格式可以是无规则的，也即其对应的位置、尺度也是不固定的，并且显示的文字中可能不仅包括常用的文字，还可能包括字符、数字等不常用的符号，因此，想要提取其中的一部分文字信息，需要根据场景耗费大量人力定制化开发以得到结构化信息。

步骤120、识别所述文字关联图像所对应的文字信息。

具体地，可以通过一些文字识别算法，识别所述文字关联图像对应的文字信息。

在一个实施例中，例如可以采用dbnet文字检测算法和卷积循环神经网络（convolutional recurrent neural network，crnn）共同识别得到文字关联图像对应的文字信息。具体的基于文字识别算法，识别得到文字信息的过程可以参考现有技术。

步骤130、基于结构化区域模板，提取所述文字信息中的关键信息并输出。

其中，语音指令可以是用户开启确定所述封闭图形轮廓位置的指令。封闭图形可以是基于用户的操作形成的，用于确定所述文字信息中关键信息在当前场景图像中的位置。所述关键字用于表示所述封闭图形轮廓内的文字信息的属性，所述封闭图形轮廓内的文字信息即为所述文字信息中的关键信息。

可以理解，所述结构化区域模板中包括所述文字信息中的关键信息对应的属性，以及所述文字信息中的关键信息在所述当前场景图像中的位置。

本发明提供的文字关键信息的提取方法，通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息，并结合在该场景下生成的结构化区域模板，提取得到所述文字新消息中关键信息，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

基于上述实施例，优选地，在本发明的一个实施例中，如图2所示，所述结构化区域模板通过如下步骤生成：

步骤210、接收并识别所述语音指令。

如前所述，语音指令可以是用户开启确定所述封闭图形轮廓位置的指令。可以理解，所述语音指令是预先定义的，例如可以为“区域选取”。文字关键信息的提取装置在识别得到所述语音指令后，开启区域选取功能，并将所述语音指令显示在显示屏幕上，使用户可以开始选择区域，即选取文字信息中的关键信息在当前场景图像中位置。

步骤220、基于所述语音指令，获取当前场景图像中的封闭图形轮廓位置。

如前所述，在识别出所述语音指令后，用户可以开始选取所述文字信息中的关键信息在当前场景图像中的位置，即当前场景图像中的封闭图形轮廓位置。

其中，所述封闭图形可以为：用户在当前场景图像中圈定的待提取的文字信息中的关键信息时形成的图形。

示例性地，如图3所示，某个场景图像A中包含某一产品的型号“灰色xxx”、产品的尺寸“24xx”以及产品的产地“XXX市”等信息，若想要提取所述产品的型号，用户可以在所述场景图像中的产品的型号部分的位置圈定，从而可以得到一个封闭图形B，封闭图形B对应的位置即为产品的型号对应的文字信息的位置。其中，某一产品所处环境对应图中的交叉和网格线。封闭图形B轮廓线条中每个点的位置组成了封闭图形轮廓位置。

步骤230、根据所述封闭图形轮廓位置，确定所述封闭图形轮廓。

可以理解，计算机可以通过识别封闭图形轮廓中每个点的位置即封闭图形轮廓位置，最终确定封闭图形轮廓。

还可以理解，由于用户圈定的封闭图形轮廓是不规则，因此，通常情况下，可以把不规则的封闭图形处理为规则的图形，以便于后续处理。示例性地，如图3所示，在用户圈定所述产品的某一信息，例如产品的型号，可以基于用户的圈定的封闭图形B生成一个规则的封闭图形C，用封闭图形C所在位置表示产品的型号对应位置。

步骤240、接收语音提示并识别所述语音提示得到关键字，并显示和保存所述关键字；其中，所述关键字用于表示所述封闭图形轮廓内的文字信息的属性。

可以理解，确定封闭图形轮廓之后，可穿戴设备可以在当前场景图像位置显示一个文本框，文本框内可以输入与所述封闭图形轮廓内的文字信息的属性。

具体地，用户可以通过语音的方式输入所述封闭图形轮廓内的文字信息的属性。因此，所述语音提示可以为用户根据所述文字信息中的关键信息的属性发出的语音提示。结合上述步骤220的示例，假如封闭图形中圈定的是产品的型号，即对应的文字信息中的关键信息的属性即为产品型号，因此，用户可以发出“产品型号”的语音提示。并且在接收并识别到所述语音提示后，可以前述在当前场景图像中显示的文本框中显示所述语音提示的内容。同时，将所述语音提示的内容即关键字保存在某个内存中，以便后续基于关键字生成结构化区域模板。

示例性地，如图3所示，在封闭图形C完成之后，可以显示一个文本框D，识别用户录入的关键字“产品型号”后，将“产品型号”填写到文本框D中。

步骤250、根据所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定所述结构化区域模板。

可以理解，由于当前场景图像、所述封闭图形轮廓位置以及所述关键字都是可以基于当前场景图像的变化而不同，因此根据当前场景图像、所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定的结构化区域模板也可以根据场景图像的不同而不同，从而实现能够针对不同的场景生成对应的结构化区域模板。

结合图3给出的示例，最终得到结构化区域模板如图3中的E所示，包括封闭图形轮廓位置C和关键字“产品型号”。

本发明提供的文字关键信息的提取方法，通过根据用户的语音指令和语音提示，可以确定文字信息中的关键信息在当前场景图像中位置以及文字信息中的关键信息的属性，并根据所述文字信息中的关键信息在当前场景图像中位置以及文字信息中的关键信息的属性生成对应场景下的结构化区域模板，为后续基于所述结构化区域模板提取所述文字信息中的关键信息打下基础。

基于上述任一实施例，优选地，在本发明的一个实施例中，所述获取所述当前场景图像中的封闭图形轮廓位置如图4所示，包括以下步骤：

步骤410、基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像。

其中，所述多个实时场景图像和所述当前场景图像均处于同一个视频流中。

其中，所述预定时间区间为用户开始圈定封闭图形的时间至封闭图形完成的一段时间。

可以理解，由于用户在圈定得到的封闭图形的过程可以看作是视频流中的一个动作过程，因此，确定可以基于视频流中的实时场景图像确定所述封闭图形轮廓位置。其中，动作过程可以是由手部关键点完成的。此外，所述多个实时场景图像和当前场景图像对应一个场景，采集两者的图像采集设备的采集角度和位置相同。例如，用户通过可穿戴设备看到了当前场景图像，然后通过手部关键点的移动将所述产品的型号在当前场景图像中为位置圈定。因此，机器获取当前场景图像中的封闭图形轮廓位置时，可以对用户手部关键点的位置的识别得到用户通过手部关键点位置圈定的封闭图形轮廓位置。具体地，可以先确定手部图像，然后确定手部关键点的位置。

其中，手部图像的检测方法可以采用一种常见的目标检测模型，例如（you onlylook once，yolo）目标检测模型进行检测。具体地，可以采用一种目标检测常用数据集（common objects in context，coco数据集）预训练yolo目标检测模型，然后采用自建的与前述当前场景图像相似的图像数据集进行优化训练，采用优化训练好的yolo目标检测模型完成对当前场景图像中的手部图像进行检测。

步骤420、基于多个所述手部图像进行关键点检测，获取手部关键点的位置信息。

其中，手部关键点可以为手部的关节点或者指尖，例如，可以为食指指尖、小拇指指尖、大拇指的第二关节点或无名指的第二关节点。

例如可以采用基于openpose的人体关键点检测模型对手部关键点进行检测。

具体地，可以基于自建的与前述当前场景图像相似的图像数据集对基于openpose的人体关键点检测预训练模型进行优化训练，采用优化训练好的openpose的人体关键点检测模型检测得到手部关键点的位置信息。

步骤430、追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置，并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。

由于所述手部关键点的位置信息包括食指指尖的位置信息，因此，在用户采用食指指尖圈定所述封闭图形轮廓位置的情况下，追踪多个实时场景图像中每个实时场景图像中食指指尖的位置信息，从而基于所述食指指尖的位置信息确定所述食指指尖在当前场景图像中对应的位置，并将食指指尖在在当前场景图像中对应的位置作为所述封闭图形轮廓位置。

具体地，可以采用kcf目标跟踪算法追踪得到所述食指指尖在当前场景图像中对应的位置。

其中，kcf是一种鉴别式追踪方法，这类方法一般都是在追踪过程中训练一个目标检测器，使用目标检测器去检测下一帧预测位置是否是目标，然后再使用新检测结果去更新训练集进而更新目标检测器。

本发明提供的文字关键信息的提取方法，通过手部图像识别、手部关键点检测以及手部关键点追踪，从而确定封闭图形轮廓位置，也即用户圈定的文字信息中的关键信息在当前场景图像中的位置，从而为后续基于所述封闭图形轮廓位置生成结构化区域模板，基于结构化区域模板提取文字信息中的关键信息打下基础。

基于上述任一实施例，优选地，在本发明的一个实施例中，所述根据当前场景图像、所述封闭图形轮廓位置、以及所述关键字，基于多模态融合确定所述结构化区域模板，如图5所示，包括以下步骤：

步骤510、对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理。

可以理解，对当前场景图像进行预处理是为了提取图像的关键特征，以减小后续的计算量；对所述封闭图形轮廓位置进行预处理是为了将封闭图形轮廓处理成标准的形状，从而便于后续的计算。同理，对所述关键字进行预处理也是便于后续的计算。

步骤520、将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度，分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征。

可以理解，由于当前场景图像、所述封闭图形轮廓位置和所述关键字为不同表现形式的特征，可以理解为是处于不同维度下的特征，因此，需要将他们映射到同一维度下。具体地，可以采用一种常用的维度转换方法，例如Embedding方法将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度。

步骤530、将所述第一特征进行维度合并得到第二特征。

结合步骤520，将当前场景图像、所述封闭图形轮廓位置和所述关键字对应的同一维度下的特征进行维度合并得到一个多模态的特征，从而便于后续根据合并后的特征提取得到结构化区域模板。

具体地，可以采用contact操作将所述第一特征进行维度合并得到第二特征。其中，contact操作全称是concatenate，用于进行通道数的合并。

步骤540、根据所述第二特征基于卷积运算和坐标变换，得到所述文字信息中的关键信息在当前场景图像中的位置坐标。

其中，第二特征可以理解为一组多模态的特征，即包含了所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的特征。

其中，卷积运算用于提取第二特征的关键信息，同时将第二特征的维度统一到适合转换为二维坐标的形式，便于后续将卷积运算得到的特征转换为坐标，从而获取结构化区域模板。

具体地，卷积运算得到的特征维度为WxHx8，其中，W为卷积运算后得到的特征的宽、H为卷积运算后得到的特征的高、8为卷积运算后得到的特征的通道数。可以理解，W，H可以为任意数，只要满足通道数为8，即可以将卷积后的特征转换为坐标。根据卷积的结果回归得到封闭图形的四个顶点的x、y坐标。

可以理解，对所述第二特征进行卷积运算和坐标变换后，得到的坐标为所述文字信息中的关键信息在当前场景图像中的位置坐标。

步骤550、基于所述位置坐标和预先保存的所述关键字，获取所述结构化区域模板。

如前所述，由于所述结构化区域模板中包括所述文字信息中的关键信息对应的属性信息，以及所述文字信息中的关键信息在所述当前场景图像中的位置。因此，需要基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。

本发明提供的文字关键信息的提取方法，通过对当前场景图像、所述封闭图形轮廓位置、以及所述关键字进行预处理、特征映射、特征合并、卷积计算以及坐标转换从而得到文字信息中的关键信息在当前场景图像中的位置坐标，并基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板，从而提供了一种结构化区域模板的生成方法，从能够基于不同场景生成对应的结构化区域模板，为后续基于结构化区域模板提取文字信息中的关键信息打下基础，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

基于上述任一实施例，优选地，在本发明的一个实施例中，根据所述封闭图形轮廓位置，确定所述封闭图形轮廓，如图6所示，包括以下步骤：

步骤610、识别一个实时场景图像中的手部关键点的位置信息，并将其作为封闭图形轮廓位置的一个位置点，并将所述位置点保存。

可以理解，由于用户在圈定得到封闭图形的过程可以看做是视频流中的一个动作过程，因此需要基于视频流中多帧实时场景图像中的手部关键点的位置信息确定封闭图形轮廓位置中的多个位置，也即确定封闭图形轮廓需要多个位置。但是，在确定封闭图形轮廓时还需要判断封闭图形是否完成，因此，每执行一次步骤610，可以执行一次步骤620。

步骤620、基于已经保存的位置点依据预定规则判断所述封闭图形是否完整。

其中，预定规则为：若所述封闭图形轮廓位置中的已经保存的位置点存在重复，则所述封闭图形完整。

可以理解，若所述封闭图形轮廓位置中的已经保存的位置点不存在重复，则表示所述封闭图形不完整，则继续执行步骤610。

还可以理解，其中预设规则的设定原理为：当用户通过所述手部关键点画所述封闭图形轮廓时，若所述封闭图形轮廓存在交叉，则表示所述封闭图形完成。

本发明提供的文字关键信息的提取方法，通过判断所述封闭图形轮廓位置中的位置点存在重复，以确定所述封闭图形是否完整，从而确定封闭图形轮廓。

基于上述任一实施例，优选地，在本发明的一个实施例中，所述根据所述封闭图形轮廓位置、以及所述关键字，基于多模态融合确定所述结构化区域模板，如图7所示，包括以下步骤：

步骤710、基于卷积神经网络算法对当前场景图像进行特征提取；对所述封闭图形轮廓位置的坐标点进行归一化；以及，对所述关键字提取对应的词向量。

其中，卷积神经网络算法例如可以为VGG16卷积神经网络。对所述封闭图形轮廓位置的坐标点进行归一化可以为：从所述封闭图形轮廓位置坐标点中根据横纵坐标均匀采样得到16个坐标点，从而得到一个规则的形状。对所述关键字提取对应的词向量：可以为采用Chinese Word Vectors预训练模型计算生成所述关键字对应的词向量。

可以理解，通过这些预处理过程，便于后续针对预处理后的多模态特征进行融合。

步骤720、将所述当前场景图像进行特征提取后对应的图像特征、所述采样得到的16个坐标点以及所述关键字对应的词向量通过Embedding映射到同一维度中，得到同一维度下的特征，所述同一维度下的特征对应前述第一特征。

步骤730、将所述同一维度下的特征通过concat操作进行特征融合。

可以理解，所述特征融合后的特征对应前述第二特征。

步骤740、对融合后的特征进行卷积运算和坐标转换得到文字信息中关键信息在所述当前场景图像中的位置坐标。

本发明提供的文字关键信息的提取方法，通过针对当前场景图像、所述封闭图形轮廓位置和所述关键字分别提供一种预处理方法，从而便于后续对预处理后的多模态特征进行融合。为后续根据融合后的特征得到文字信息中的关键信息在当前场景图像中的位置坐标打下基础。

基于上述任一实施例，在本实施例中，所述文字关键信息的提取方法应用于可穿戴设备，如图8所示，所述可穿戴设备至少包括图像采集设备810、语音录入装置820、显示装置830、保存装置840和处理器850；

所述图像采集设备810用于采集当前场景图像以及实时场景图像，并将当前场景图像以及实时场景图像发送至所述处理器850；

所述语音录入装置820用于录入所述语音指令和所述语音提示，并将所述语音指令和所述语音提示发送至所述处理器850；

所述处理器850用于基于所述语音指令和所述实时场景图像获取所述封闭图形轮廓位置，并基于所述语音提示获取关键字，并将所述封闭图形轮廓以及所述关键字送往所述显示装置830显示以及保存装置840保存，还基于所述封闭图形轮廓位置和所述关键字生成所述结构化区域模板；还用于识别当前场景图像中文字信息，并结合所述文字信息和所述结构化区域模板提取所述文字信息中的关键信息。

可以理解，本发明提供的文字关键信息的提取方法可以应用于穿戴设备，所述可穿戴设备可以为眼镜、头盔等。并且通过可穿戴设备中的图像采集设备、语音录入装置、显示装置、保存装置和处理器共同完成不同场景下文字信息中关键信息的提取，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

图9为本发明提供的文字关键信息的提取方法的流程示意图之七。可以理解，图9所示的流程图为一个优选的实施例。如图9所示，本发明提供的文字关键信息的提取方法包括以下步骤：

步骤900、识别当前场景图像中所有文字信息。

步骤901、针对当前场景图像判断是否已经构建结构化区域模板。

在已经构建结构化区域模板的情况下，继续执行步骤910；在没有构建结构化区域模板的情况下，继续执行步骤902至步骤910。

步骤902、开启语音识别。

步骤903、识别得到预设的语音指令。

其中，预设的语音指令用于开启区域选择，即用户可以画封闭图形。

步骤904、识别当前场景图像中是否出现手部。

在所述当前场景图像中出现手部，则继续执行步骤905；若当前场景图像中没有出现手部，则定时执行本步骤。

步骤905、识别用户食指指尖在多个实时场景图像中的位置，并显示和保存所述位置。

其中，多个实时场景图像为：在识别所述实时场景图像中出现手部之后的一段时间内对应的多个实时场景图像。

可以理解，食指指尖是用户用于画出封闭图形轮廓的手部关键点。

还可以理解，每执行完一次步骤905，可以执行一次步骤906，直到确定封闭图形完成。

步骤906、判断所述封闭图形是否完成。

若封闭图形未完成，则执行步骤905；若封闭图形完成，则执行步骤907。

可以理解，在封闭图形完成时，表示对应的封闭图形已经被绘制并显示在封闭图形完成时刻对应的实时场景图像上。

步骤907、在封闭图形完成时刻对应的实时场景图像上显示文本框，接收并识别用户通过语音录入的关键字，并将所述关键字在文本框显示。

可以理解，所述文本框的位置区别于所述封闭图形的位置。所述关键字用于表示所述封闭图形轮廓内对应的文字信息的属性。

步骤908、对所述当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理。

步骤909、基于多模态融合对与处理后的结果进行处理得到文字信息中关键信息在所述当前场景图像中的位置坐标，并基于所述位置坐标和关键字得到结构化区域模板。

步骤910、基于所述结构化区域模板和所述所有文字信息，提取文字信息中的关键信息。

下面对本发明提供的文字关键信息的提取装置进行描述，下文描述的文字关键信息的提取装置与上文描述的文字关键信息的提取方法可相互对应参照。

图10是本发明提供的文字关键信息的提取装置的示意图，如图10所示，本发明实施例提供的文字关键信息的提取装置，包括：

获取模块1010，用于获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；

文字识别模块1020，用于识别所述文字关联图像所对应的文字信息；

处理模块1030，用于基于结构化区域模板，提取所述文字信息中的关键信息并输出；

本发明提供的文字关键信息的提取装置，通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息，并结合在该场景下生成的结构化区域模板，提取得到所述文字新消息中关键信息，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

基于上述任一实施例，在本实施例中，所述处理模块1030包括：

第一处理单元，用于接收并识别所述语音指令；

第一获取单元，用于基于所述语音指令，获取当前场景图像中的封闭图形轮廓位置；

第一确定单元，用于根据所述封闭图形轮廓位置，确定所述封闭图形轮廓；

第二处理单元，用于接收语音提示并识别所述语音提示得到关键字，并显示和保存所述关键字；其中，所述关键字用于表示所述封闭图形轮廓内的文字信息的属性；

第二确定单元，用于根据所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定所述结构化区域模板。

本发明提供的文字关键信息的提取装置，通过根据用户的语音指令和语音提示，可以确定文字信息中的关键信息在当前场景图像中位置以及文字信息中的关键信息的属性，并根据所述文字信息中的关键信息在当前场景图像中位置以及文字信息中的关键信息的属性生成对应场景下的结构化区域模板，为后续基于所述结构化区域模板提取所述文字信息中的关键信息打下基础。

基于上述任一实施例，在本实施例中，所述第一获取单元包括：

第二获取单元，用于基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像；其中，所述多个实时场景图像和所述当前场景图像均处于同一个视频流中；

第三处理单元，用于基于多个所述手部图像进行关键点检测，获取手部关键点的位置信息；

第四处理单元，用于追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置，并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。

本发明提供的文字关键信息的提取装置，通过手部图像识别、手部关键点检测以及手部关键点追踪，从而确定封闭图形轮廓位置，也即用户圈定的文字信息中的关键信息在当前场景图像中的位置，从而为后续基于所述封闭图形轮廓位置生成结构化区域模板，基于结构化区域模板提取文字信息中的关键信息打下基础。

基于上述任一实施例，在本实施例中，所述第二确定单元包括：

预处理单元，用于对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理；

映射单元，用于将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度，分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征；

合并单元，用于将所述第一特征进行维度合并得到第二特征；

坐标转换单元，用于根据所述第二特征基于卷积运算和坐标变换，得到所述文字信息中的关键信息在当前场景图像中的位置坐标；

第三获取单元，用于基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。

本发明提供的文字关键信息的提取装置，通过对当前场景图像、所述封闭图形轮廓位置、以及所述关键字进行预处理、特征映射、特征合并、卷积计算以及坐标转换从而得到文字信息中的关键信息在当前场景图像中的位置坐标，并基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板，从而提供了一种结构化区域模板的生成方法，从能够基于不同场景生成对应的结构化区域模板，为后续基于结构化区域模板提取文字信息中的关键信息打下基础，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。

第三确定单元，用于若所述封闭图形轮廓位置中的位置点存在重复，确定所述封闭图形完整。

本发明提供的文字关键信息的提取装置，通过判断所述封闭图形轮廓位置中的位置点存在重复，以确定所述封闭图形是否完整，从而确定封闭图形轮廓。

基于上述任一实施例，在本实施例中，所述预处理单元包括：所述对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理，包括：

特征提取单元，用于基于卷积神经网络算法对当前场景图像进行特征提取；

归一化单元，用于对所述封闭图形轮廓位置的坐标点进行归一化；以及，

词向量提取单元，用于对所述关键字提取对应的词向量。

本发明提供的文字关键信息的提取装置，通过针对当前场景图像、所述封闭图形轮廓位置和所述关键字分别提供一种预处理方法，从而便于后续对预处理后的多模态特征进行融合。为后续根据融合后的特征得到文字信息中的关键信息在当前场景图像中的位置坐标打下基础。

基于上述任一实施例，在本实施例中，所述装置可以对应于可穿戴设备的处理器，所述可穿戴设备至少包括图像采集设备、语音录入装置、显示装置、保存装置和处理器；

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行文字关键信息的提取方法，包括如下步骤：获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；识别所述文字关联图像所对应的文字信息；基于结构化区域模板，提取所述文字信息中的关键信息并输出；其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行本发明所提供的文字关键信息的提取方法，包括如下步骤：获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；识别所述文字关联图像所对应的文字信息；基于结构化区域模板，提取所述文字信息中的关键信息并输出；其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行本发明所提供的文字关键信息的提取方法，包括如下步骤：获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；识别所述文字关联图像所对应的文字信息；基于结构化区域模板，提取所述文字信息中的关键信息并输出；其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字关键信息的提取方法，其特征在于，包括如下步骤：

识别所述文字关联图像所对应的文字信息；

其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定；

所述结构化区域模板通过如下步骤生成：

接收并识别所述语音指令；

根据所述封闭图形轮廓位置，确定所述封闭图形轮廓；

根据所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定所述结构化区域模板；

所述获取所述当前场景图像中的封闭图形轮廓位置包括：

2.根据权利要求1所述的文字关键信息的提取方法，其特征在于，所述根据所述封闭图形轮廓位置、以及所述关键字，基于多模态融合确定所述结构化区域模板，包括：

将所述第一特征进行维度合并得到第二特征；

3.根据权利要求1所述的文字关键信息的提取方法，其特征在于，所述根据所述封闭图形轮廓位置，确定所述封闭图形轮廓还包括依据预定规则判断所述封闭图形是否完整，所述预定规则为：

4.根据权利要求2所述的文字关键信息的提取方法，其特征在于，所述对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理，包括：

基于卷积神经网络算法对当前场景图像进行特征提取；

对所述封闭图形轮廓位置的坐标点进行归一化；以及，

对所述关键字提取对应的词向量。

5.根据权利要求1至4任一项所述的文字关键信息的提取方法，其特征在于，所述方法应用于可穿戴设备，所述可穿戴设备至少包括图像采集设备、语音录入装置、显示装置、保存装置和处理器；

6.一种文字关键信息的提取装置，其特征在于，包括：

所述结构化区域模板通过如下步骤生成：

接收并识别所述语音指令；

根据所述封闭图形轮廓位置，确定所述封闭图形轮廓；

所述获取所述当前场景图像中的封闭图形轮廓位置包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述文字关键信息的提取方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文字关键信息的提取方法的步骤。