CN114511864A - 文本信息提取方法、目标模型的获取方法、装置及设备 - Google Patents

文本信息提取方法、目标模型的获取方法、装置及设备 Download PDF

Info

Publication number
CN114511864A
CN114511864A CN202210411039.7A CN202210411039A CN114511864A CN 114511864 A CN114511864 A CN 114511864A CN 202210411039 A CN202210411039 A CN 202210411039A CN 114511864 A CN114511864 A CN 114511864A
Authority
CN
China
Prior art keywords
pair
target text
text segments
target
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210411039.7A
Other languages
English (en)
Other versions
CN114511864B (zh
Inventor
姜媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210411039.7A priority Critical patent/CN114511864B/zh
Publication of CN114511864A publication Critical patent/CN114511864A/zh
Application granted granted Critical
Publication of CN114511864B publication Critical patent/CN114511864B/zh
Priority to PCT/CN2023/081379 priority patent/WO2023202268A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种文本信息提取方法、目标模型的获取方法、装置及设备,属于图像处理技术领域。方法包括:获取目标文本图像;获取至少一对目标文本段之间的关联信息,任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性;基于至少一对目标文本段之间的关联信息,确定至少一对目标文本段之间的关联结果;基于至少一对目标文本段之间的关联结果,提取目标文本图像中的文本信息。由于任一对目标文本段之间的关联信息能表征该对目标文本段之间关联的可能性,因此基于至少一对目标文本段之间的关联信息确定至少一对目标文本段之间的关联结果,能降低关联错误的现象,提高文本信息的准确性。

Description

文本信息提取方法、目标模型的获取方法、装置及设备
技术领域
本申请实施例涉及图像处理技术领域,特别涉及一种文本信息提取方法、目标模型的获取方法、装置及设备。
背景技术
日常生活中普遍存在菜单图像、票据图像等包含文本信息的文本图像,这类文本图像属于结构化文本图像或者半结构化文本图像。如何准确地提取出结构化文本图像、半结构化文本图像中的文本信息,成为了图像处理技术领域亟待解决的问题。
相关技术中,先对目标文本图像进行文本识别,得到多个文本段,目标文本图像是结构化文本图像或者半结构化文本图像。然后,确定各个文本段的类别。接着,获取预先设置的类别之间的关联关系,如菜名与菜价相关联。基于类别之间的关联关系和各个文本段的类别,对多个文本段进行关联,得到多个文本段的关联结果,基于多个文本段的关联结果提取目标文本图像中的文本信息。
由于任两个文本段可能对应同一个类别,因此,基于类别之间的关联关系和各个文本段的类别对多个文本段进行关联时,关联结果的准确性较差,导致从目标文本图像中提取出的文本信息的准确性也较差。
发明内容
本申请实施例提供了一种文本信息提取方法、目标模型的获取方法、装置及设备,可用于解决相关技术中的问题,所述技术方案包括如下内容。
一方面,本申请实施例提供了一种文本信息提取方法,所述方法包括:
获取目标文本图像,所述目标文本图像中包括多个目标文本段;
获取至少一对目标文本段之间的关联信息,所述任一对目标文本段之间的关联信息用于表征所述任一对目标文本段之间关联的可能性;
基于所述至少一对目标文本段之间的关联信息,确定所述至少一对目标文本段之间的关联结果;
基于所述至少一对目标文本段之间的关联结果,提取所述目标文本图像中的文本信息。
另一方面,本申请实施例提供了一种目标模型的获取方法,所述方法包括:
获取样本文本图像,所述样本文本图像中包括多个样本文本段;
获取至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息;
基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
另一方面,本申请实施例提供了一种文本信息提取装置,所述装置包括:
获取模块,用于获取目标文本图像,所述目标文本图像中包括多个目标文本段;
所述获取模块,还用于获取至少一对目标文本段之间的关联信息,所述任一对目标文本段之间的关联信息用于表征所述任一对目标文本段之间关联的可能性;
确定模块,用于基于所述至少一对目标文本段之间的关联信息,确定所述至少一对目标文本段之间的关联结果;
提取模块,用于基于所述至少一对目标文本段之间的关联结果,提取所述目标文本图像中的文本信息。
在一种可能的实现方式中,所述获取模块,用于获取所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征中的至少一项,所述至少一对目标文本段中任一个目标文本段的特征包括所述任一个目标文本段所在图像区域的图像特征和所述任一个目标文本段的文本特征中的至少一项,任一对目标文本段之间的相对位置特征用于表征所述任一对目标文本段所在图像区域之间的相对位置;基于所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征中的至少一项,确定所述至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,所述任一个目标文本段的特征包括所述任一个目标文本段所在图像区域的图像特征,所述获取模块,用于获取所述目标文本图像的图像特征;对于所述至少一对目标文本段中的任一个目标文本段,基于所述目标文本图像的图像特征和所述任一个目标文本段所在图像区域的位置信息,确定所述任一个目标文本段所在图像区域的图像特征。
在一种可能的实现方式中,所述任一个目标文本段的特征包括所述任一个目标文本段的文本特征,所述获取模块,用于对于所述至少一对目标文本段中的任一个目标文本段,获取所述任一个目标文本段中各个词语的词向量;对所述任一个目标文本段中各个词语的词向量进行融合,得到所述任一个目标文本段的文本特征。
在一种可能的实现方式中,所述任一个目标文本段的特征包括所述任一个目标文本段所在图像区域的图像特征和所述任一个目标文本段的文本特征,所述获取模块,用于对于所述至少一对目标文本段中的任一个目标文本段,将所述任一个目标文本段所在图像区域的图像特征切分成目标数量个图像特征块,将所述任一个目标文本段的文本特征切分成所述目标数量个文本特征块;对于任一个图像特征块,将所述任一个图像特征块和对应的文本特征块进行融合,得到融合特征块;将各个融合特征块进行拼接,得到所述任一个目标文本段的特征。
在一种可能的实现方式中,所述获取模块,用于对于任一对目标文本段,获取所述任一对目标文本段所在图像区域的位置信息;基于所述任一对目标文本段所在图像区域的位置信息和所述目标文本图像的尺寸信息,确定所述任一对目标文本段之间的相对位置特征。
在一种可能的实现方式中,所述获取模块,用于基于所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征构建图结构,所述图结构包括至少两个节点和至少一个边,所述节点表征所述目标文本段的特征,所述边表征一对目标文本段之间的相对位置特征;基于所述图结构确定所述至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,所述获取模块,还用于获取各个目标文本段的类别和每两个目标文本段之间的关联信息;
所述获取模块,用于基于所述各个目标文本段的类别,从所述每两个目标文本段之间的关联信息中,确定所述至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,所述获取模块,用于基于所述各个目标文本段的类别,从所述多个目标文本段中筛选出类别为目标类别的待关联文本段;从所述每两个目标文本段之间的关联信息中筛选出每两个待关联文本段之间的关联信息,得到所述至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,所述获取模块,还用于获取目标模型;
所述获取模块,用于根据所述目标模型获取至少一对目标文本段之间的关联信息。
另一方面,本申请实施例提供了一种目标模型的获取装置,所述装置包括:
第一获取模块,用于获取样本文本图像,所述样本文本图像中包括多个样本文本段;
第二获取模块,用于获取至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息;
第三获取模块,用于基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
在一种可能的实现方式中,所述装置还包括:
第四获取模块,用于获取所述至少一对样本文本段中各个样本文本段的预测类别和所述至少一对样本文本段中各个样本文本段的标注类别;
所述第三获取模块,用于基于所述至少一对样本文本段之间的预测关联信息、所述至少一对样本文本段之间的标注关联信息、所述至少一对样本文本段中各个样本文本段的预测类别和所述至少一对样本文本段中各个样本文本段的标注类别,获取目标模型。
在一种可能的实现方式中,所述装置还包括:
第五获取模块,用于获取所述至少一对样本文本段中各个样本文本段的特征,所述样本文本段的特征包括所述样本文本段所在图像区域的图像特征和所述样本文本段的文本特征中的至少一项;
所述第三获取模块,用于基于所述至少一对样本文本段中各个样本文本段的特征、所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
在一种可能的实现方式中,所述第三获取模块,用于获取所述至少一对样本文本段中各个样本文本段的标注类别;对于任一个标注类别,基于所述任一个标注类别中各个样本文本段的特征,确定所述任一个标注类别的特征平均值;基于各个标注类别的特征平均值、所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
另一方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述电子设备实现上述任一所述的文本信息提取方法或者上述任一所述的目标模型的获取方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一所述的文本信息提取方法或者上述任一所述的目标模型的获取方法。
另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一种文本信息提取方法或者上述任一所述的目标模型的获取方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案中任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性,因此,在通过至少一对目标文本段之间的关联信息,确定至少一对目标文本段之间的关联结果时,可以降低关联错误的现象,提高了关联结果的准确性,使得基于至少一对目标文本段之间的关联结果,提取目标文本图像中的文本信息时,提高了文本信息的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本信息提取方法或者目标模型的获取方法的实施环境示意图;
图2是本申请实施例提供的一种文本信息提取方法的流程图;
图3是本申请实施例提供的一种目标文本图像的示意图;
图4是本申请实施例提供的一种提取目标文本段所在图像区域的图像特征的示意图;
图5是本申请实施例提供的一种目标模型的获取方法的流程图;
图6是本申请实施例提供的一种样本文本段的特征之间的距离示例图;
图7为本申请实施例提供的一种神经网络模型的训练示意图;
图8是本申请实施例提供的一种目标文本图像中文本信息的提取示意图;
图9是本申请实施例提供的又一种目标文本图像中文本信息的提取示意图;
图10是本申请实施例提供的又一种目标文本图像中文本信息的提取示意图;
图11是本申请实施例提供的又一种目标文本图像中文本信息的提取示意图;
图12是本申请实施例提供的一种文本信息提取装置的结构示意图;
图13是本申请实施例提供的一种目标模型的获取装置的结构示意图;
图14是本申请实施例提供的一种终端设备的结构示意图;
图15是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种文本信息提取方法或者目标模型的获取方法的实施环境示意图,如图1所示,该实施环境包括终端设备101和服务器102。其中,本申请实施例中的文本信息提取方法或者目标模型的获取方法可以由终端设备101执行,也可以由服务器102执行,或者由终端设备101和服务器102共同执行。
终端设备101可以是智能手机、游戏主机、台式计算机、平板电脑、膝上型便携计算机、智能电视、智能车载设备、智能语音交互设备、智能家电等。服务器102可以为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本申请实施例对此不加以限定。服务器102可以与终端设备101通过有线网络或无线网络进行通信连接。服务器102可以具有数据处理、数据存储以及数据收发等功能,在本申请实施例中不加以限定。终端设备101和服务器102的数量不受限制,可以是一个或多个。
本申请实施例提供的文本信息提取方法或者目标模型的获取方法可以基于人工智能技术实现。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(3-Dimension,3D)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。
基于上述实施环境,本申请实施例提供了一种文本信息提取方法,以图2所示的本申请实施例提供的一种文本信息提取方法的流程图为例,该方法可由图1中的终端设备101或者服务器102执行,也可以由终端设备101和服务器102共同执行。为便于描述,将执行本申请实施例中的文本信息提取方法的终端设备101或者服务器102称为电子设备,该方法可以由电子设备来执行。如图2所示,该方法包括步骤201至步骤204。
步骤201,获取目标文本图像,目标文本图像中包括多个目标文本段。
本申请实施例中,任一个目标文本段包括至少一个字符,任一个字符可以是文字字符、数字、特殊符号(如标点符号、货币符号等)等中的任一项。当目标文本段包括多个字符时,这多个字符可以组成至少一个词语,也可以组成至少一句话。
示例性地,目标文本图像可以为结构化文本图像,结构化文本图像是通过二维表结构来表达文本的图像,该图像中的文本具有组织性、规则性等。结构化文本图像中包括多个目标文本段。对于结构化文本图像中的每一个目标文本段,均存在与这个目标文本段关联的至少一个其他目标文本段。其中,其他目标文本段是多个目标文本段中除这个目标文本段之外的目标文本段。
请参见图3,图3是本申请实施例提供的一种目标文本图像的示意图,其中,(1)为一种结构化文本图像。由结构化文本图像可以看出,目标文本段“物品A”与目标文本段“×10”相互关联,目标文本段“物品B”与目标文本段“×15”相互关联,目标文本段“物品C”与目标文本段“×3”相互关联,目标文本段“物品D”与目标文本段“×9”相互关联,目标文本段“物品E”与目标文本段“×1”相互关联。因此,结构化文本图像中的每一个目标文本段均存在与这个目标文本段关联的至少一个其他目标文本段。
可选地,目标文本图像也可以为半结构化文本图像,半结构化文本图像包括结构化文本区域和非结构化文本区域。其中,结构化文本区域是通过二维表结构来表达文本的图像区域,这部分图像区域中的文本具有组织性、规则性等。非结构化文本区域是通过不规则的、无组织性的数据结构来表达文本的图像区域。半结构化文本图像中包括多个目标文本段。对于半结构化文本图像,一部分目标文本段中的每一个目标文本段均存在与这个目标文本段关联的至少一个其他目标文本段,而另一部分目标文本段中的每一个目标文本段均不存在与这个目标文本段关联的其他目标文本段。
请继续参见图3,其中,(2)为一种半结构化文本图像。由半结构化文本图像可以看出,目标文本段“菜品A”与目标文本段“9元”相互关联,目标文本段“菜品B”与目标文本段“8元起”相互关联,目标文本段“菜品C”与目标文本段“13元”相互关联,目标文本段“菜品D”与目标文本段“10元”相互关联。而目标文本段“价目表”与目标文本段“菜品A”、“9元”、“菜品B”、“8元起”、“菜品C”、“13元”、“菜品D”、“10元”均不关联。因此,对于半结构化文本图像,一部分目标文本段中的每一个目标文本段均存在与这个目标文本段关联的至少一个其他目标文本段,而另一部分目标文本段中的每一个目标文本段均不存在与这个目标文本段关联的其他目标文本段。
本申请实施例不对目标文本图像的图像内容、获取方式、数量等做限定。示例性地,目标文本图像为票据图像、菜单图像、检查单图像、证件图像等中的至少一项,目标文本图像可以是拍摄的图像,也可以是从网络中下载的图像。
步骤202,获取至少一对目标文本段之间的关联信息,任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性。
本申请实施例中,针对目标文本图像中的多个目标文本段,将多个目标文本段中的任两个目标文本段作为一对目标文本段,从而得到至少一对目标文本段。可以获取至少一对目标文本段之间的关联信息,任一对目标文本段之间的关联信息可以是一个正数。其中,当任一对目标文本段之间的关联信息是大于等于0且小于等于1的数字时,该任一对目标文本段之间的关联信息可以称为任一对目标文本段之间的关联概率。
任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性。其中,任一对目标文本段之间的关联信息越大,表明任一对目标文本段之间关联的可能性越高,也就是说,任一对目标文本段之间的关联信息与任一对目标文本段之间关联的可能性成正比。
可选地,获取至少一对目标文本段之间的关联信息之前,还包括:获取目标模型;获取至少一对目标文本段之间的关联信息,包括:根据目标模型获取至少一对目标文本段之间的关联信息。其中,目标模型的获取方式见下文有关图5的相关描述,在此不再赘述。
本申请实施例中,目标模型包括图像特征提取网络和文本特征提取网络中的至少一项,目标模型可以基于图像特征提取网络和文本特征提取网络中至少一个网络的输出,确定并输出目标文本图像中至少一对目标文本段之间的关联信息。其中,图像特征提取网络用于提取至少一对目标文本段中任一个目标文本段所在图像区域的图像特征,文本特征提取网络用于提取至少一对目标文本段中任一个目标文本段的文本特征。
在一种可能的实现方式中,获取至少一对目标文本段之间的关联信息,包括:获取至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征中的至少一项,至少一对目标文本段中任一个目标文本段的特征包括任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征中的至少一项,任一对目标文本段之间的相对位置特征用于表征任一对目标文本段所在图像区域之间的相对位置;基于至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征中的至少一项,确定至少一对目标文本段之间的关联信息。
本申请实施例中,目标文本段的特征可以是目标文本段所在图像区域的图像特征,也可以是目标文本段的文本特征,还可以包括目标文本段所在图像区域的图像特征和目标文本段的文本特征。
可选地,任一个目标文本段的特征包括任一个目标文本段所在图像区域的图像特征,获取至少一对目标文本段的特征,包括:获取目标文本图像的图像特征;对于至少一对目标文本段中的任一个目标文本段,基于目标文本图像的图像特征和任一个目标文本段所在图像区域的位置信息,确定任一个目标文本段所在图像区域的图像特征。
本申请实施例中,可以将目标文本图像输入图像特征提取网络,由图像特征提取网络输出至少一对目标文本段中任一个目标文本段所在图像区域的图像特征。其中,目标文本段所在图像区域的图像特征用于表征目标文本段所在图像区域的纹理信息。
示例性地,可以对目标文本图像进行图像检测处理,得到目标文本图像中任一个目标文本段所在图像区域的位置信息。本申请实施例不对任一个目标文本段所在图像区域的位置信息做限定。示例性地,任一个目标文本段所在的图像区域可以为矩形、圆形等。任一个目标文本段所在图像区域的位置信息包括任一个目标文本段所在图像区域的中心点坐标、顶点坐标、边长、周长、面积、半径等中的至少一项。其中,坐标包括横坐标和纵坐标,边长包括高和宽。
可选地,图像特征提取网络包括第一提取网络和第二提取网络。将目标文本图像输入图像特征提取网络之后,由第一提取网络根据目标文本图像(或者归一化处理后的目标文本图像)中各个像素点的像素信息,提取目标文本图像的图像特征,目标文本图像的图像特征用于表征目标文本图像的纹理信息。由第二提取网络根据目标文本图像的图像特征和任一个目标文本段所在图像区域的位置信息,确定任一个目标文本段所在图像区域的图像特征(可以记为第一区域特征)。
需要说明的是,可以将目标文本图像输入第一提取网络,由第一提取网络对目标文本图像依次进行卷积处理和归一化处理,以将卷积处理得到的目标文本图像归一化到标准分布上,防止训练中的梯度震荡,减少模型过拟合的问题。接着基于归一化处理后的目标文本图像确定并输出目标文本图像的图像特征。可选地,基于目标文本图像中各个像素点的像素信息,确定像素信息的平均值和像素信息的方差中的至少一项。利用像素信息的平均值和像素信息的方差中的至少一项,对卷积处理后的目标文本图像进行归一化处理。这种归一化处理的方式,可以称为实例归一化(Instance Normalization,IN)。由于目标文本图像具有较大的版式布局和图像差异性,因此,可以通过实例归一化,保留图像的浅层表观信息,有利于图像全局信息的整合和调整,提升训练的稳定性和模型的泛化性。
其中,本申请实施例不对第一提取网络和第二提取网络的网络结构、网络大小等做限定。示例性地,第一提取网络和第二提取网络均为卷积神经网络(ConvolutionalNeural Networks,CNN)。第一提取网络为采用U-Net架构的主干网络,用于对目标文本图像进行视觉特征提取,可以根据目标文本图像中各个像素点的像素信息,先对目标文本图像进行下采样处理,得到下采样特征,再对下采样特征进行上采样处理,得到目标文本图像的图像特征。
第二提取网络可以为感兴趣区域池化(Region Of Interest Pooling,ROIPooling)层,也可以为感兴趣区域对齐(Region Of Interest Align,ROI Align)层,用于根据目标文本图像的图像特征和任一个目标文本段所在图像区域的位置信息,确定任一个目标文本段所在图像区域的图像特征。也就是说,ROI Pooling层或者ROI Align层是根据任一个目标文本段所在图像区域的位置信息,在目标文本图像的图像特征上再次进行特征提取,得到任一个目标文本段所在图像区域的图像特征。其中,任一个目标文本段所在图像区域的图像特征为一个固定维度(如16维)的视觉特征。
需要说明的是,第一提取网络除可以为采用U-Net架构的主干网络之外,还可以是采用特征金字塔网络(Feature Pyramid Networks,FPN)架构的主干网络,或者是采用ResNet架构的主干网络,本申请实施例对此不进行限定。
请参见图4,图4是本申请实施例提供的一种提取目标文本段所在图像区域的图像特征的示意图。其中,该目标文本图像是图3中(2)所示的图像,目标文本图像中包括目标文本段“价目表”所在的图像区域,如图4所示的虚线框所示。将目标文本图像输入主干网络,由主干网络输出目标文本图像的图像特征。根据目标文本段“价目表”所在的图像区域的位置信息,在目标文本图像的图像特征上再次进行特征提取,得到目标文本段所在图像区域的图像特征。
其中,采用U-Net架构的主干网络具有跨层连接的设计特点,该设计特点对于图像区域的特征提取更友好。ROI Pooling层或者ROI Align层是在上采样处理后得到的目标文本图像的图像特征上再次进行特征提取,得到任一个目标文本段所在图像区域的图像特征,可以避免因为下采样处理带来的误差累积,提高准确性。另外,由于目标文本图像的图像特征是基于目标文本图像的全局信息得到的,使得任一个目标文本段所在图像区域的图像特征也具有目标文本图像的全局信息,特征表达能力更强,准确性更高。
可选地,可以先对目标文本图像进行图像检测处理,得到目标文本图像中各个目标文本段所在图像区域的位置信息。基于目标文本图像中各个目标文本段所在图像区域的位置信息,对目标文本图像进行图像分割处理,得到目标文本图像中各个目标文本段所在的图像区域。对于任一个目标文本段,基于任一个目标文本段所在的图像区域中各个像素点的像素信息,提取该任一个目标文本段所在图像区域的图像特征(可以记为第二区域特征)。
可选地,还可以将第一区域特征和第二区域特征进行拼接或者融合,得到任一个目标文本段所在图像区域的图像特征。例如,将第一区域特征拼接在第二区域特征之前或者之后,得到任一个目标文本段所在图像区域的图像特征。或者,采用克罗内克积的形式,计算第一区域特征和第二区域特征之间的外积,得到任一个目标文本段所在图像区域的图像特征。或者,将第一区域特征切分成参考数量个第一区域块,将第二区域特征切分成参考数量个第二区域块,对于任一个第一区域块,将任一个第一区域块和对应的第二区域块进行融合,得到融合区域块,将各个融合区域块进行拼接,得到任一个目标文本段所在图像区域的图像特征。
可以理解的是,在结构化文本图像或者半结构化文本图像中,不同目标文本段在字符风格、字符颜色、字符大小等视觉上有着明显的区分性(如图3所示)。而任一个目标文本段所在图像区域的图像特征可以表征任一个目标文本段的视觉信息,该视觉信息对后续确定任一对目标文本段之间的关联信息、任一个目标文本段的类别等起到很好的辅助性,从而提高准确性。
在一种可能的实现方式中,任一个目标文本段的特征包括任一个目标文本段的文本特征,获取至少一对目标文本段的特征,包括:对于至少一对目标文本段中的任一个目标文本段,获取任一个目标文本段中各个词语的词向量;对任一个目标文本段中各个词语的词向量进行融合,得到任一个目标文本段的文本特征。
目标文本段的特征包括但不限于目标文本段的文本特征。本申请实施例中,可以依次对目标文本图像进行图像检测处理、图像分割处理,得到目标文本图像中各个目标文本段所在的图像区域。对于任一个目标文本段,对任一个目标文本段所在的图像区域进行图像识别处理,得到任一个目标文本段。
在得到任一个目标文本段之后,可以将任一个目标文本段输入文本特征提取网络。由文本特征提取网络先利用分词器(Tokenizer)对任一个目标文本段进行分词处理,得到任一个目标文本段中的各个词语。通过向量表查表的方式,确定任一个目标文本段中各个词语的词向量,词向量为一个固定维度(如200维)的向量。之后,基于任一个目标文本段中各个词语的词向量来进一步学习文本的上下文语义关系,以对任一个目标文本段中各个词语的词向量进行融合,得到任一个目标文本段的文本特征。可选地,文本特征提取网络可以为双向长短时记忆(Bi-directional Long Short Term Memory,Bi-LSTM)网络或者为TransFormer网络。
可选地,任一个目标文本段的特征包括任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征,获取至少一对目标文本段的特征,包括:对于至少一对目标文本段中的任一个目标文本段,将任一个目标文本段所在图像区域的图像特征切分成目标数量个图像特征块,将任一个目标文本段的文本特征切分成目标数量个文本特征块;对于任一个图像特征块,将任一个图像特征块和对应的文本特征块进行融合,得到融合特征块;将各个融合特征块进行拼接,得到任一个目标文本段的特征。
本申请实施例中,目标模型还可以将任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征进行拼接或者融合,得到任一个目标文本段的特征。示例性地,在融合时,可以采用克罗内克积的形式,计算任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征之间的外积,得到任一个目标文本段的特征。
当任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征中的至少一项的维度较大时,直接将任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征进行融合,会花费较长的时间。当采用克罗内克积的形式进行融合时,会使得任一个目标文本段的特征的维度急剧增大。为了减少计算开销,可以采用分块融合的方式进行融合。
可选地,对于任一个目标文本段,先将任一个目标文本段所在图像区域的图像特征切分成目标数量个图像特征块,分别记为第1至N个图像特征块,N为大于1的正整数且表征目标数量。另外,还将任一个目标文本段的文本特征切分成目标数量个文本特征块,分别记为第1至N个文本特征块。接着,对于任一个图像特征块,将任一个图像特征块和对应的文本特征块进行融合,得到融合特征块。其中,将任一个图像特征块记为第i个图像特征块,则对应的文本特征块为第i个文本特征块,融合特征块记为第i个融合特征块,i为取值1至N中任一个的正整数。可选地,可以采用克罗内克积的形式,计算第i个图像特征块和第i个文本特征块之间的外积,得到第i个融合特征块。之后,将各个融合特征块进行拼接,得到任一个目标文本段的特征。也就是说,将第1至N个融合特征块进行拼接,得到任一个目标文本段的特征。
可选地,可以将任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征先进行拼接或者融合后,再进行非线性运算,得到任一个目标文本段的特征。
通过上述方式,可以得到至少一对目标文本段中任一个目标文本段的特征,也就是得到至少一对目标文本段的特征。之后,目标模型可以基于任一对目标文本段的特征,确定任一对目标文本段之间的关联信息。
可选地,获取至少一对目标文本段之间的相对位置特征,包括:对于任一对目标文本段,获取任一对目标文本段所在图像区域的位置信息;基于任一对目标文本段所在图像区域的位置信息和目标文本图像的尺寸信息,确定任一对目标文本段之间的相对位置特征。
对于任一对目标文本段,可以获取这一对目标文本段中两个目标文本段各自所在图像区域的位置信息,任一个目标文本段所在图像区域的位置信息包括任一个目标文本段所在图像区域的中心点坐标、顶点坐标、边长、周长、面积、半径等中的至少一项。还可以获取目标文本图像的尺寸信息,目标文本图像的尺寸信息包括目标文本图像的边长、周长、面积、半径等中的至少一项。其中,坐标包括横坐标和纵坐标,边长包括宽和高。
接下来,基于任一对目标文本段所在图像区域的中心点横坐标,计算任一对目标文本段所在图像区域的相对水平距离。基于任一对目标文本段所在图像区域的中心点纵坐标,计算任一对目标文本段所在图像区域的相对垂直距离。并基于任一对目标文本段所在图像区域的相对水平距离、任一对目标文本段所在图像区域的相对垂直距离、任一对目标文本段所在图像区域的边长以及目标文本图像的边长,按照如下所示的公式(1),确定任一对目标文本段之间的相对位置特征。
Figure 794735DEST_PATH_IMAGE001
公式(1)
其中,
Figure 243034DEST_PATH_IMAGE002
为第
Figure 553930DEST_PATH_IMAGE003
个目标文本段和第
Figure 480297DEST_PATH_IMAGE004
个目标文本段之间的相对位置特征。
Figure 576560DEST_PATH_IMAGE005
为归一化因子,可以防止不同版式的图像计算出的数值波动。
Figure 930181DEST_PATH_IMAGE006
,其中,
Figure 931635DEST_PATH_IMAGE007
表示第
Figure 661694DEST_PATH_IMAGE008
个目标文本段和第
Figure 861731DEST_PATH_IMAGE009
个目标文本段各自所在图像区域的相对水平距离,
Figure 402565DEST_PATH_IMAGE010
为第
Figure 688053DEST_PATH_IMAGE004
个目标文本段所在图像区域的中心点横坐标,
Figure 159486DEST_PATH_IMAGE011
为第
Figure 214029DEST_PATH_IMAGE012
个目标文本段所在图像区域的中心点横坐标。
Figure 175032DEST_PATH_IMAGE013
,其中,
Figure 964128DEST_PATH_IMAGE014
表示第
Figure 770410DEST_PATH_IMAGE015
个目标文本段和第
Figure 945039DEST_PATH_IMAGE016
个目标文本段各自所在图像区域的相对垂直距离,
Figure 14626DEST_PATH_IMAGE017
为第
Figure 274706DEST_PATH_IMAGE018
个目标文本段所在图像区域的中心点纵坐标,
Figure 650060DEST_PATH_IMAGE019
为第
Figure 944775DEST_PATH_IMAGE020
个目标文本段所在图像区域的中心点纵坐标。
Figure 247580DEST_PATH_IMAGE021
为第
Figure DEST_PATH_IMAGE022
个目标文本段所在图像区域的宽,
Figure 463798DEST_PATH_IMAGE023
为第
Figure 893774DEST_PATH_IMAGE024
个目标文本段所在图像区域的高。
Figure DEST_PATH_IMAGE025
为第
Figure 308574DEST_PATH_IMAGE026
个目标文本段所在图像区域的宽,
Figure 782281DEST_PATH_IMAGE027
为第
Figure 954636DEST_PATH_IMAGE028
个目标文本段所在图像区域的高。
Figure 657144DEST_PATH_IMAGE029
为目标文本图像的宽,
Figure 660872DEST_PATH_IMAGE030
为目标文本图像的高。
按照公式(1)的方式,目标模型可以确定至少一对目标文本段之间的相对位置特征。之后,目标模型可以基于任一对目标文本段之间的相对位置特征,确定任一对目标文本段之间的关联信息。
可选地,可以按照如下所示的公式(2),对任一对目标文本段之间的相对位置特征进行归一化处理和线性处理,得到任一对目标文本段之间处理后的相对位置特征。
Figure 305480DEST_PATH_IMAGE031
公式(2)
其中,
Figure 27449DEST_PATH_IMAGE032
表示第
Figure 533648DEST_PATH_IMAGE033
个目标文本段和第
Figure 126303DEST_PATH_IMAGE034
个目标文本段之间处理后的的相对位置特征。
Figure DEST_PATH_IMAGE035
表示归一化处理,其中,该归一化处理可以是L2范数归一化处理,能提升稳定性。
Figure 676233DEST_PATH_IMAGE036
表示线性处理,可以将
Figure 885497DEST_PATH_IMAGE037
投影到固定的维度。
Figure 192457DEST_PATH_IMAGE038
为第
Figure 905199DEST_PATH_IMAGE039
个目标文本段和第
Figure 626030DEST_PATH_IMAGE040
个目标文本段之间的相对位置特征。
然后,利用任一对目标文本段之间(处理后)的相对位置特征,确定任一对目标文本段之间的关联信息。
可选地,基于至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征,确定至少一对目标文本段之间的关联信息,包括:基于至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征构建图结构,图结构包括至少两个节点和至少一个边,节点表征目标文本段的特征,边表征一对目标文本段之间的相对位置特征;基于图结构确定至少一对目标文本段之间的关联信息。
本申请实施例中,可以将至少一对目标文本段中任一个目标文本段的特征作为图结构的一个节点。也就是说,图结构的一个节点对应一个目标文本段的特征。
可以将任一对目标文本段之间的相对位置特征作为图结构中任一对目标文本段对应的节点之间的边。或者按照上述公式(2)对任一对目标文本段之间的相对位置特征进行归一化处理和线性处理,得到任一对目标文本段之间处理后的相对位置特征,将任一对目标文本段之间处理后的相对位置特征作为图结构中任一对目标文本段对应的节点之间的边。
可选地,参照如下所示的公式(3),将任一对目标文本段之间处理后的相对位置特征(或者将任一对目标文本段之间的相对位置特征)和任一对目标文本段的特征进行拼接,得到拼接特征。将利用多层感知机对拼接特征进行融合后得到的特征(或者将拼接特征),作为任一对目标文本段对应的两个节点之间的边,通过这种方式,可以更好的将边与节点结合起来,以更准确的得到至少一对目标文本段之间的关联信息。
Figure 260274DEST_PATH_IMAGE041
公式(3)
其中,
Figure 357543DEST_PATH_IMAGE042
为利用多层感知机(Multi-Layer Perceptron,MLP)对拼接特征进行融合后得到的特征。
Figure 941102DEST_PATH_IMAGE043
为多层感知机,可以将矢量特征变换为标量特征。
Figure 98414DEST_PATH_IMAGE044
为第
Figure 16691DEST_PATH_IMAGE045
个目标文本段的特征。
Figure 917651DEST_PATH_IMAGE046
为拼接符号。
Figure 542667DEST_PATH_IMAGE047
表示第
Figure DEST_PATH_IMAGE048
个目标文本段和第
Figure 418351DEST_PATH_IMAGE049
个目标文本段之间处理后的的相对位置特征。
Figure 558345DEST_PATH_IMAGE050
为第
Figure 262996DEST_PATH_IMAGE051
个目标文本段的特征。
通过上述方式,可以得到图结构,以通过图结构来模拟目标文本图像中各个目标文本段之间的布局关系。本申请实施例中,目标模型可以包括图卷积网络(GraphConvolutional Network,GCN)。将目标文本图像的图结构输入图卷积网络,由图卷积网络确定并输出至少一对目标文本段之间的关联信息。可选地,图卷积网络通过不断的迭代更新图结构,来挖掘图结构中边两端的两个节点之间的结构化关系,从而得到至少一对目标文本段之间的关联信息。其中,迭代更新图结构的过程即是迭代更新图结构的节点的过程,而图结构的边不更新。
可选地,在每一次迭代时,先按照如下所示的公式(4),基于图结构中的各个边确定各个边的权重。
Figure 8098DEST_PATH_IMAGE052
公式(4)
其中,
Figure 257945DEST_PATH_IMAGE053
为第
Figure 150814DEST_PATH_IMAGE054
次迭代时图结构中边
Figure 393577DEST_PATH_IMAGE055
的权重。
Figure 993185DEST_PATH_IMAGE056
为指数符号。Ʃ为求和符号。
Figure 663201DEST_PATH_IMAGE057
为序列号。
Figure 328188DEST_PATH_IMAGE058
表征图结构中第
Figure 312324DEST_PATH_IMAGE059
个节点和第
Figure 828756DEST_PATH_IMAGE060
个节点之间的边。边
Figure 669673DEST_PATH_IMAGE061
为图结构中第
Figure 22288DEST_PATH_IMAGE062
个节点和第
Figure 606853DEST_PATH_IMAGE063
个节点之间的边。
接着,按照如下所示的公式(5),基于图结构中的任一个节点、图结构中一端为该任一个节点的各个边的权重、图结构中一端为该任一个节点的各个边,更新图结构中的这个节点。
Figure 977792DEST_PATH_IMAGE064
公式(5)
其中,
Figure 989610DEST_PATH_IMAGE065
为第
Figure DEST_PATH_IMAGE066
次迭代时图结构中更新后的第
Figure 95100DEST_PATH_IMAGE067
个节点。
Figure 748936DEST_PATH_IMAGE068
为第
Figure 974381DEST_PATH_IMAGE069
次迭代时图结构中的第
Figure 360363DEST_PATH_IMAGE070
个节点。
Figure 687570DEST_PATH_IMAGE071
表征非线性处理。
Figure 879517DEST_PATH_IMAGE072
表征第
Figure 959468DEST_PATH_IMAGE073
次迭代时的线性处理。
Figure 781931DEST_PATH_IMAGE074
为第
Figure DEST_PATH_IMAGE075
次迭代时图结构中边
Figure 859084DEST_PATH_IMAGE076
的权重,其中,边
Figure 854722DEST_PATH_IMAGE077
为图结构中第
Figure 789180DEST_PATH_IMAGE078
个节点和第
Figure 782543DEST_PATH_IMAGE034
个节点之间的边。
通过上述方式,实现了对图结构中各个节点的一次迭代更新,也就是对图结构进行了一次迭代更新。若满足迭代结束条件,则将更新后的图结构作为最终的图结构,利用最终的图结构确定至少一对目标文本段之间的关联信息。若不满足迭代结束条件,则将更新后的图结构作为下一次迭代的图结构,并按照公式(4)至公式(5)所示的方式,对图结构再次进行更新,直至满足迭代结束条件,得到最终的图结构,利用最终的图结构确定至少一对目标文本段之间的关联信息。需要说明的是,在迭代更新图结构时,除迭代更新图结构的节点之外,还可以迭代更新图结构的边。
可选地,满足迭代结束条件可以是达到了迭代次数,也可以是迭代更新前的图结构与迭代更新后的图结构之间的变化量小于变化量阈值,也就是图结构趋于稳定。
可以理解的是,本申请实施例可以先基于目标文本图像中每对目标文本段的特征和每对目标文本段之间的相对位置特征构建图结构,再基于图结构确定至少一对目标文本段之间的关联信息。由于每对目标文本段为每两个目标文本段,因此,每对目标文本段的特征相当于每个目标文本段的特征。
例如,目标文本图像中包括目标文本段1至3,则目标文本图像中每对目标文本段包括目标文本段1和2、目标文本段2和3、目标文本段1和3。则可以基于目标文本段1的特征、目标文本段2的特征、目标文本段3的特征、目标文本段1和2之间的相对位置特征、目标文本段2和3之间的相对位置特征、目标文本段1和3之间的相对位置特征,构建图结构,再基于图结构确定目标文本段2和3之间的关联信息。
可选地,获取至少一对目标文本段之间的关联信息之前,还包括:获取各个目标文本段的类别和每两个目标文本段之间的关联信息;获取至少一对目标文本段之间的关联信息,包括:基于各个目标文本段的类别,从每两个目标文本段之间的关联信息中,确定至少一对目标文本段之间的关联信息。
本申请实施例中,可以基于任一个目标文本段的特征确定任一个目标文本段的类别。基于任两个目标文本段的特征确定任两个目标文本段之间的关联信息,或者,基于任两个目标文本段之间的相对位置特征确定任两个目标文本段之间的关联信息,或者基于任两个目标文本段的特征、任两个目标文本段之间的相对位置特征确定任两个目标文本段之间的关联信息。其中,本申请实施例不对任一个目标文本段的类别做限定,示例性地,目标文本图像为菜单图像,则任一个目标文本段的类别为菜名、菜价、店名、菜品种类、其他等中的至少一项。
可选地,先基于目标文本图像中每两个目标文本段的特征和每两个目标文本段之间的相对位置特征构建图结构,再基于图结构确定各个目标文本段的类别和每两个目标文本段之间的关联信息。其中,基于图结构确定每两个目标文本段之间的关联信息可以见上文有关“基于图结构确定至少一对目标文本段之间的关联信息”的描述,二者实现原理类似,在此不再赘述。
接下来,基于各个目标文本段的类别,从每两个目标文本段之间的关联信息中,确定至少一对目标文本段之间的关联信息。
需要说明的是,本申请实施例可以采用长短期记忆(Long Short Term Memory,LSTM)网络和条件随机场(Conditional Random Field,CRF)网络,基于任一个目标文本段的特征确定任一个目标文本段的类别。其中,LSTM网络和CRF网络可以基于任一个目标文本段的特征,确定任一个目标文本段中各个字符的类别,基于各个字符的类别确定任一个目标文本段的类别。
可选地,若任一个目标文本段中各个字符的类别为相同的类别,则任一个目标文本段的类别为任一个字符的类别。若任一个目标文本段中各个字符的类别为不同的类别,则基于任一个目标文本段中各个字符的类别,将任一个目标文本段切分为至少两个目标文本段,切分后的任一个目标文本段中各个字符的类别相同,且切分后的任一个目标文本段的类别为切分后的任一个目标文本段中任一个字符的类别。
例如,目标文本段A为“鸡蛋 6元”,目标文本段A中字符“鸡”的类别为菜名、字符“蛋”的类别为菜名、字符“6”的类别为菜价、字符“元”的类别为菜价。则可以将目标文本段A切分为目标文本段A1“鸡蛋”和目标文本段A2“6元”,目标文本段A1“鸡蛋”的类别为菜名,目标文本段A2“6元”的类别为菜价。
可选地,基于各个目标文本段的类别,从每两个目标文本段之间的关联信息中,确定至少一对目标文本段之间的关联信息,包括:基于各个目标文本段的类别,从多个目标文本段中筛选出类别为目标类别的待关联文本段;从每两个目标文本段之间的关联信息中筛选出每两个待关联文本段之间的关联信息,得到至少一对目标文本段之间的关联信息。
本申请实施例中,对于任一个目标文本段,若任一个目标文本段的类别为目标类别,则任一个目标文本段为待关联文本段。若任一个目标文本段的类别不为目标类别,则任一个目标文本段不为待关联文本段。通过这种方式,实现从多个目标文本段中筛选出待关联文本段。其中,本申请实施例不对目标类别做限定,示例性地,目标文本图像为菜单图像,由于主要关注菜单图像中菜名与菜价之间的匹配关系,因此,目标类别为菜名和菜价。
从多个目标文本段中筛选出待关联文本段之后,即可从每两个目标文本段之间的关联信息中筛选出每两个待关联文本段之间的关联信息。将任两个待关联文本段之间的关联信息作为一对目标文本段之间的关联信息。
例如,多个目标文本段为目标文本段1至3,且待关联文本段为目标文本段2和3,则可以从目标文本段1和2之间的关联信息、目标文本段2和3之间的关联信息、目标文本段1和3之间的关联信息中,直接确定出目标文本段2和3之间的关联信息。
步骤203,基于至少一对目标文本段之间的关联信息,确定至少一对目标文本段之间的关联结果。
对于任一对目标文本段,若任一对目标文本段之间的关联信息大于关联阈值,则确定任一对目标文本段之间的关联结果为关联。若任一对目标文本段之间的关联信息不大于关联阈值,则确定任一对目标文本段之间的关联结果为不关联。其中,本申请实施例不对关联阈值的取值做限定,示例性地,关联阈值为0.5。
可选地,可以确定至少一对目标文本段中每一个目标文本段的类别,并获取每两个类别之间的关联关系,两个类别之间的关联关系用于表征两个类别是否关联。其中,可以基于任一个目标文本段的特征,确定任一个目标文本段的类别,也可以将目标文本图像的图结构输入图卷积网络,由图卷积网络确定并输出至少一对目标文本段中每一个目标文本段的类别。可选地,图卷积网络对图结构进行至少一次更新后,得到最终的图结构,利用最终的图结构确定至少一对目标文本段中每一个目标文本段的类别。
对于任一对目标文本段,若任一对目标文本段之间的关联信息大于关联阈值,且任一对目标文本段中两个目标文本段的类别之间的关联关系为关联,则确定任一对目标文本段之间的关联结果为关联。若任一对目标文本段之间的关联信息大于关联阈值,但任一对目标文本段中两个目标文本段的类别之间的关联关系为不关联,则确定任一对目标文本段之间的关联结果为不关联。若任一对目标文本段之间的关联信息不大于关联阈值,但任一对目标文本段中两个目标文本段的类别之间的关联关系为关联,则确定任一对目标文本段之间的关联结果为不关联。若任一对目标文本段之间的关联信息不大于关联阈值,且任一对目标文本段中两个目标文本段的类别之间的关联关系为不关联,则确定任一对目标文本段之间的关联结果为不关联。
例如,关联阈值为0.5,两个类别之间的关联关系包括菜名与菜价之间关联。其中,一对目标文本段之间的关联信息为0.7,且这一对目标文本段中两个目标文本段的类别分别为菜名和菜价,则确定这一对目标文本段之间的关联结果为关联。另一对目标文本段之间的关联信息为0.51,但这一对目标文本段中两个目标文本段的类别均为菜名,则确定这一对目标文本段之间的关联结果为不关联。
步骤204,基于至少一对目标文本段之间的关联结果,提取目标文本图像中的文本信息。
本申请实施例中,若一对目标文本段之间的关联结果为关联,则在这一对目标文本段之间添加目标符号(如“:”、“-”、“/”等中的至少一项),使这一对目标文本段组合为一个关联对。若一对目标文本段之间的关联结果为不关联,则不能将这一对目标文本段组合为一个关联对。
通过上述方式,可以确定任一对目标文本段是否可以组合为关联对,并在可以组合为关联对的情况下(即任一对目标文本段之间的关联结果为关联的情况下),将该任一对目标文本段组合成关联对。从而实现对目标文本图像中多个目标文本段进行关联,得到目标文本图像中的文本信息。
上述方法中任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性,因此,在通过至少一对目标文本段之间的关联信息,确定至少一对目标文本段之间的关联结果时,可以降低关联错误的现象,提高了关联结果的准确性,使得基于至少一对目标文本段之间的关联结果,提取目标文本图像中的文本信息时,提高了文本信息的准确性。
基于上述实施环境,本申请实施例提供了一种目标模型的获取方法,以图5所示的本申请实施例提供的一种目标模型的获取方法的流程图为例,该方法可由图1中的终端设备101或者服务器102执行,也可以由终端设备101和服务器102共同执行。为便于描述,将执行本申请实施例中的文本信息提取方法的终端设备101或者服务器102称为电子设备,该方法可以由电子设备来执行。如图5所示,该方法包括步骤501至步骤503。
步骤501,获取样本文本图像,样本文本图像中包括多个样本文本段。
其中,样本文本图像可以为结构化文本图像,也可以为半结构化文本图像。本申请实施例中的样本文本图像与上文提及的目标文本图像相类似,可以见上文有关目标文本图像的描述,在此不再赘述。
步骤502,获取至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息。
本申请实施例中,任一对样本文本段之间的预测关联信息可以是一个正数。其中,当任一对样本文本段之间的预测关联信息是大于等于0且小于等于1的数字时,该任一对样本文本段之间的预测关联信息可以称为任一对样本文本段之间的关联概率。其中,任一对样本文本段之间的预测关联信息可以见上文有关“任一对目标文本段之间的关联信息”的描述,二者实现原理相类似,在此不再赘述。
本申请实施例中,可以根据神经网络模型获取至少一对样本文本段之间的预测关联信息。其中,神经网络模型包括第一初始网络和第二初始网络中的至少一项。神经网络模型可以基于第一初始网络和第二初始网络中至少一个网络的输出,确定并输出至少一对样本文本段之间的预测关联信息。其中,第一初始网络用于提取至少一对样本文本段中任一个样本文本段所在图像区域的图像特征,第二初始网络用于提取至少一对样本文本段中任一个样本文本段的文本特征。
需要说明的是,利用样本文本图像对第一初始网络进行训练,可以得到图像特征提取网络,以利用图像特征提取网络提取至少一对目标文本段中任一个目标文本段所在图像区域的图像特征,因此,对第一初始网络的描述可以见上文有关图像特征提取网络的描述,二者实现原理相类似,在此不再赘述。基于同样的原理,对第二初始网络的描述可以见上文有关文本特征提取网络的描述,二者实现原理相类似,在此不再赘述。
可以获取至少一对样本文本段的特征,至少一对样本文本段中任一个样本文本段的特征包括任一个样本文本段所在图像区域的图像特征和任一个样本文本段的文本特征中的至少一项。其中,样本文本段的特征的获取方式与目标文本段的特征的获取方式相类似,可以见上文有关目标文本段的特征的相关描述,在此不再赘述。
可选地,第一初始网络包括第一子网络和第二子网络。将样本文本图像输入第一初始网络之后,由第一子网络根据样本文本图像中各个像素点的像素信息,提取样本文本图像的图像特征,样本文本图像的图像特征用于表征样本文本图像的纹理信息。由第二子网络根据样本文本图像的图像特征和任一个样本文本段所在图像区域的位置信息,确定任一个样本文本段所在图像区域的图像特征。其中,对第一子网络进行训练得到第一提取网络,因此,第一子网络可以见上文有关第一提取网络的描述,二者实现原理相类似,在此不再赘述。对第二子网络进行训练得到第二提取网络,因此,第二子网络可以见上文有关第二提取网络的描述,二者实现原理相类似,在此不再赘述。
接下来,获取至少一对样本文本段之间的相对位置特征,任一对样本文本段之间的相对位置特征用于表征任一对样本文本段所在图像区域之间的相对位置。其中,任一对样本文本段之间的相对位置特征的获取方式与任一对目标文本段之间的相对位置特征的获取方式相类似,可以见上文有关任一对目标文本段之间的相对位置特征的描述,在此不再赘述。
基于至少一对样本文本段的特征和至少一对样本文本段之间的相对位置特征,确定至少一对样本文本段之间的预测关联信息。可选地,基于至少一对样本文本段的特征和至少一对样本文本段之间的相对位置特征构建图结构,图结构包括至少两个节点和至少一个边,节点表征样本文本段的特征,边表征一对样本文本段之间的相对位置特征,基于图结构确定至少一对样本文本段之间的预测关联信息。其中,确定至少一对样本文本段之间的预测关联信息的描述可以见上文有关确定至少一对目标文本段之间的关联信息的描述,二者实现原理相类似,在此不再赘述。
其中,神经网络模型还可以包括第三初始网络,将样本文本图像的图结构输入第三初始网络,由第三初始网络确定并输出至少一对样本文本段之间的关联信息。其中,对第三初始网络进行训练得到图卷积网络,因此,第三初始网络可以见图卷积网络的描述,二者实现原理类似,在此不再赘述。
本申请实施例中,可以对至少一对样本文本段进行关联信息的标注,得到至少一对样本文本段之间的标注关联信息。其中,任一对样本文本段之间的标注关联信息可以为0或者1,0表征任一对样本文本段之间不关联,1表征任一对样本文本段之间关联。
步骤503,基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型。
可以利用至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,确定神经网络模型的损失值。通过神经网络模型的损失值对神经网络模型进行调整,得到调整后的神经网络模型。若满足训练结束条件,则将调整后的神经网络模型作为目标模型。若不满足训练结束条件,则将调整后的神经网络模型作为下一次训练的神经网络模型,并按照步骤501至步骤503的方式,对神经网络模型再次进行训练,直至满足训练结束条件,得到目标模型。
本申请实施例中,可以按照如下所示的公式(6),利用至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,确定关联信息损失值。其中,公式(6)为焦点损失(Focal Loss)函数。
Figure 68031DEST_PATH_IMAGE079
公式(6)
其中,
Figure 86934DEST_PATH_IMAGE080
为关联信息损失值。
Figure 407057DEST_PATH_IMAGE081
为两个超参数,用于控制正负样本的损失比例。本申请实施例不对
Figure 368060DEST_PATH_IMAGE082
的取值做限定,示例性地,
Figure 78527DEST_PATH_IMAGE083
Figure 150388DEST_PATH_IMAGE084
表示第
Figure 75750DEST_PATH_IMAGE085
个样本文本段和第
Figure 207654DEST_PATH_IMAGE086
个样本文本段之间的预测关联关系。
Figure 467734DEST_PATH_IMAGE087
为对数符号。
Figure 77707DEST_PATH_IMAGE088
表示第
Figure 310105DEST_PATH_IMAGE089
个样本文本段和第
Figure 98063DEST_PATH_IMAGE090
个样本文本段之间的标注关联关系。
Figure 111019DEST_PATH_IMAGE091
表征第
Figure 524683DEST_PATH_IMAGE092
次迭代后图结构上第
Figure 611587DEST_PATH_IMAGE093
个样本文本段对应的节点和第
Figure 85294DEST_PATH_IMAGE094
个样本文本段对应的节点之间的边。
Figure DEST_PATH_IMAGE095
为线性层,用于将边映射成预测关联关系。
需要说明的是,在迭代更新图结构的过程中,可以对图结构的边进行更新,也可以不对图结构的边进行更新。其中,更新后的图结构中的边记为
Figure 593068DEST_PATH_IMAGE096
,表征第L次更新后的图结构中第
Figure 544843DEST_PATH_IMAGE097
个节点和第
Figure 751834DEST_PATH_IMAGE098
个节点之间的边。根据图结构可以确定并输出
Figure 130863DEST_PATH_IMAGE099
维的概率分布矩阵,N2表征图结构中任意两个节点之间的组合数量,即样本文本图像中由任意两个样本文本段组合成的样本文本段对的数量,a表征一对样本文本段之间的预测关联信息。可选地,a=2,此时,预测关联信息可以为0,表示一对样本文本段之间不关联,预测关联信息也可以为1,表示一对样本文本段之间关联。当然,也可以a=1,此时预测关联信息也可以为大于等于0且小于等于1的数据。
对于样本文本图像(如菜单图像),图像中关联的样本文本段对的数量
Figure 603563DEST_PATH_IMAGE100
将远小于
Figure 359030DEST_PATH_IMAGE101
。将关联的一对样本文本段作为正样本,不关联的一对样本文本段作为负样本,则负样本的数量远多于正样本的数量。因此要拟合的概率分布矩阵极其稀疏,正负样本比例严重失衡。采用上述公式(6)可以解决概率分布矩阵稀疏、正负样本比例失衡的问题,通过平衡正负样本的损失比例,可以避免网络对负样本的过度学习,从而提升网络性能。
可选地,可以将关联信息损失值作为神经网络模型的损失值。也可以基于关联信息损失值、至少一对样本文本段中各个样本文本段的预测类别和至少一对样本文本段中各个样本文本段的标注类别,确定神经网络模型的损失值。还可以基于关联信息损失值和至少一对样本文本段中各个样本文本段的特征,确定神经网络模型的损失值。
可选地,基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型之前,还包括:获取至少一对样本文本段中各个样本文本段的预测类别和至少一对样本文本段中各个样本文本段的标注类别;基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型,包括:基于至少一对样本文本段之间的预测关联信息、至少一对样本文本段之间的标注关联信息、至少一对样本文本段中各个样本文本段的预测类别和至少一对样本文本段中各个样本文本段的标注类别,获取目标模型。
本申请实施例中,可以基于任一个样本文本段的特征,确定任一样本文本段的预测类别。也可以将样本文本图像的图结构输入第三初始网络,由第三初始网络确定并输出至少一对样本文本段中各个样本文本段的预测类别。可以对任一个样本文本段进行标注,得到任一个样本文本段的标注类别。
在本申请示例性实施例中,可以按照如下所示的公式(7),利用至少一对样本文本段中各个样本文本段的预测类别和至少一对样本文本段中各个样本文本段的标注类别,确定类别损失值。其中,公式(7)为交叉熵损失(Cross Entropy Loss,CE Loss)函数。
Figure 217264DEST_PATH_IMAGE102
公式(7)
其中,
Figure 236036DEST_PATH_IMAGE103
为类别损失值。
Figure 179721DEST_PATH_IMAGE104
为至少一对样本文本段中样本文本段的数量。
Figure 489611DEST_PATH_IMAGE105
为交叉熵损失函数的符号。
Figure 202352DEST_PATH_IMAGE106
为线性处理,用于将第
Figure 392025DEST_PATH_IMAGE107
次迭代后图结构上第
Figure 823006DEST_PATH_IMAGE108
个样本文本段对应的节点映射到概率分布维度上,得到第
Figure 920275DEST_PATH_IMAGE109
个样本文本段的预测类别。
Figure 503834DEST_PATH_IMAGE110
为第
Figure 864409DEST_PATH_IMAGE111
次迭代后图结构上第
Figure 782686DEST_PATH_IMAGE062
个样本文本段对应的节点。
Figure 418067DEST_PATH_IMAGE112
为第
Figure 370979DEST_PATH_IMAGE113
个样本文本段的标注类别。
需要说明的是,在迭代更新图结构的过程中,可以对图结构的节点进行更新。其中,更新后的图结构中的节点记为
Figure 446995DEST_PATH_IMAGE114
,表征第L次更新后的图结构中的第
Figure 586989DEST_PATH_IMAGE115
个节点。根据图结构可以确定并输出
Figure DEST_PATH_IMAGE116
维的概率分布矩阵,其中,N是图结构的节点数量,也就是样本文本图像中样本文本段的数量,b为样本文本段的预测类别的数量。可选地,样本文本图像为菜单图像时,b=5,分别对应菜名、菜价、店名、菜品种类、其他五个预测类别。
另外,还可以按照公式(6),基于至少一对样本文本段之间的预测关联信息、至少一对样本文本段之间的标注关联信息,确定关联信息损失值。之后,基于类别损失值和关联信息损失值确定神经网络模型的损失值。
可选地,基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型之前,还包括:获取至少一对样本文本段中各个样本文本段的特征,样本文本段的特征包括样本文本段所在图像区域的图像特征和样本文本段的文本特征中的至少一项;基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型,包括:基于至少一对样本文本段中各个样本文本段的特征、至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型。
本申请实施例中,可以获取样本文本图像的图像特征。对于任一个样本文本段,基于样本文本图像的图像特征和任一个样本文本段所在图像区域的位置信息,确定任一个样本文本段所在图像区域的图像特征(记为第一区域特征)。或者,可以对样本文本图像依次进行图像检测处理、图像分割处理,得到样本文本图像中各个样本文本段所在的图像区域,对于任一个样本文本段,基于任一个样本文本段所在的图像区域中各个像素点的像素信息,提取该任一个样本文本段所在图像区域的图像特征(记为第二区域特征)。或者将第一区域特征和第二区域特征进行拼接或者融合,得到任一个样本文本段所在图像区域的图像特征。其中,任一个样本文本段所在图像区域的图像特征的确定方式可以见上文有关任一个目标文本段所在图像区域的图像特征的描述,二者实现原理相类似,在此不再赘述。
在得到样本文本图像中各个样本文本段所在的图像区域之后,可以对任一个样本文本段所在的图像区域进行图像识别处理,得到任一个样本文本段。接着,利用分词器对任一个样本文本段进行分词处理,得到任一个样本文本段中的各个词语。通过向量表查表的方式,确定任一个样本文本段中各个词语的词向量。之后,基于任一个样本文本段中各个词语的词向量,确定任一个样本文本段的文本特征。其中,任一个样本文本段的文本特征可以见上文有关任一个目标文本段的文本特征的描述,二者实现原理类似,在此不再赘述。
可以将任一个样本文本段所在图像区域的图像特征作为任一个样本文本段的特征。也可以将任一个样本文本段的文本特征作为任一个样本文本段的特征。还可以将任一个样本文本段所在图像区域的图像特征和任一个样本文本段的文本特征进行拼接或者融合,得到任一个样本文本段的特征。还可以将任一个样本文本段所在图像区域的图像特征和任一个样本文本段的文本特征先进行拼接或者融合后,再进行非线性运算,得到任一个样本文本段的特征。其中,任一个样本文本段的特征可以见上文有关任一个目标文本段的特征的描述,二者实现原理类似,在此不再赘述。
可选地,基于至少一对样本文本段中各个样本文本段的特征、至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型,包括:获取至少一对样本文本段中各个样本文本段的标注类别;对于任一个标注类别,基于任一个标注类别中各个样本文本段的特征,确定任一个标注类别的特征平均值;基于各个标注类别的特征平均值、至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型。
本申请实施例中,可以对任一个样本文本段进行标注,得到任一个样本文本段的标注类别。对于任一个标注类别,计算任一个标注类别中各个样本文本段的特征之和,将和值除以任一个标注类别中样本文本段的数量,得到任一个标注类别的特征平均值。
可选地,按照如下所示的公式(8),基于任一个标注类别的特征平均值确定第一损失值。
Figure 26061DEST_PATH_IMAGE117
公式(8)
另外,还可以按照如下所示的公式(9),基于任一个标注类别的特征平均值确定第二损失值。
Figure 833480DEST_PATH_IMAGE118
公式(9)
其中,
Figure 535857DEST_PATH_IMAGE119
为第一损失值。
Figure DEST_PATH_IMAGE120
为第二损失值。
Figure 710617DEST_PATH_IMAGE121
为标注关联信息为1的样本文本对的数量,由于任一对样本文本段之间的标注关联信息为1时表征这一对样本文本段之间关联,因此,
Figure DEST_PATH_IMAGE122
也是具有关联关系的样本文本段对的数量。
Figure 218959DEST_PATH_IMAGE123
均为序列号。
Figure 84147DEST_PATH_IMAGE124
表征第
Figure DEST_PATH_IMAGE125
个标注类别的特征平均值。
Figure 301633DEST_PATH_IMAGE126
表征第
Figure 416219DEST_PATH_IMAGE127
个标注类别中第
Figure 197093DEST_PATH_IMAGE128
个样本文本段的特征。
Figure 916788DEST_PATH_IMAGE129
表征
Figure 508437DEST_PATH_IMAGE130
的二范数,
Figure 375899DEST_PATH_IMAGE131
为自变量。Σ为求和符号。
Figure 960464DEST_PATH_IMAGE132
为第
Figure 331403DEST_PATH_IMAGE133
个标注类别的特征平均值。
Figure 96883DEST_PATH_IMAGE134
为超参数,用于拉大属于不同标注类别的两个样本文本段的特征之间的距离。本申请实施例不对
Figure 123745DEST_PATH_IMAGE135
的值做限定,示例性地,
Figure 512001DEST_PATH_IMAGE136
需要说明的是,本申请实施例虽然能确定一对样本文本对的预测关联信息,但在确定任一个样本文本段的预测类别时,相当于对样本文本段进行分类。分类问题仅能优化类间的边界,容易造成属于同一标注类别的两个样本文本段的特征之间的距离较大,而属于不同标注类别的两个样本文本段的特征之间的距离较小的问题。
请参见图6,图6是本申请实施例提供的一种样本文本段的特征之间的距离示例图。从图6可以看出,R+大于R-。其中,R+为标注类别A中的两个样本文本段的特征之间的距离,R-为标注类别A中一个样本文本段的特征与标注类别B中一个样本文本段的特征之间的距离。
为了提高确定预测关联信息的性能,可以采用上述公式(8)根据样本文本段的特征计算第一损失值,由于第一损失值是基于第
Figure 3025DEST_PATH_IMAGE137
个标注类别的特征平均值和第
Figure 185745DEST_PATH_IMAGE138
个标注类别中第
Figure 965482DEST_PATH_IMAGE139
个样本文本段的特征计算得到的,使得任一个标注类别中各个样本文本段的特征都趋近于该标注类别的特征平均值。因此,第一损失值用于将任一个标注类别中各个样本文本段的特征向该标注类别的特征平均值拉进,可以减小同一标注类别的两个样本文本段的特征之间的距离。
采用上述公式(9)根据样本文本段的特征计算第二损失值,由于第二损失值是基于第
Figure 642582DEST_PATH_IMAGE140
个标注类别的特征平均值、第
Figure 988113DEST_PATH_IMAGE141
个标注类别的特征平均值和超参数
Figure 607313DEST_PATH_IMAGE142
确定的,使得任两个标注类别的特征平均值之间的距离都至少大于
Figure 405505DEST_PATH_IMAGE143
。因此,第二损失值用于将任一个标注类别的特征平均值与另一个标注类别的特征平均值拉远,可以拉大属于不同标注类别的两个样本文本段的特征之间的距离。
通过公式(8)和公式(9),能提高网络确定预测关联信息的性能。例如针对图6,通过本申请实施例中的第一损失值和第二损失值,可以在缩小R+的同时增大R-,从而提高样本文本图像的特征的准确性。
其中,任一个样本文本段的特征包括任一个样本文本段所在图像区域的图像特征和任一个样本文本段的文本特征中的至少一项。可以先将任一个样本文本段所在图像区域的图像特征和任一个样本文本段的文本特征进行拼接(或融合),再将拼接(或融合)后的特征进行至少一层的非线性运算,得到固定维度的任一个样本文本段的特征,以利用该任一个样本文本段的特征计算第一损失值和第二损失值。
在计算出第一损失值和第二损失值之后,可以根据第一损失值、第二损失值和关联信息损失值,确定神经网络模型的损失值。可选地,还可以根据第一损失值、第二损失值、关联信息损失值和类别损失值,确定神经网络模型的损失值。
可选地,可以设置第一损失值的权重、第二损失值的权重、关联信息损失值的权重和类别损失值的权重。根据第一损失值、第二损失值、关联信息损失值和类别损失值中的至少一项结合各自的权重,确定神经网络模型的损失值。例如,根据关联信息损失值、类别损失值、关联信息损失值的权重和类别损失值的权重确定神经网络模型的损失值。
可以按照如下所示的公式(10),根据第一损失值、第二损失值、关联信息损失值、类别损失值和各自的权重,确定神经网络模型的损失值。
Figure 620717DEST_PATH_IMAGE144
公式(10)
其中,
Figure 24016DEST_PATH_IMAGE145
为神经网络模型的损失值。
Figure 814118DEST_PATH_IMAGE146
为类别损失值的权重。
Figure 99605DEST_PATH_IMAGE147
为类别损失值。
Figure 633355DEST_PATH_IMAGE148
为关联信息损失值的权重。
Figure 891161DEST_PATH_IMAGE149
为关联信息损失值。
Figure 337317DEST_PATH_IMAGE150
为第一损失值的权重,也为第二损失值的权重。
Figure 375680DEST_PATH_IMAGE151
为第一损失值。
Figure 447541DEST_PATH_IMAGE152
为第二损失值。本申请实施例不对
Figure 356591DEST_PATH_IMAGE153
的取值做限定,示例性地,
Figure 691758DEST_PATH_IMAGE154
。其中,第一损失值的权重和第二损失值的权重可以相同,也可以不同。
在确定出神经网络模型的损失值之后,计算神经网络模型的损失值的梯度,将神经网络模型的损失值的梯度逐层反传,以更新神经网络模型的模型参数。即通过神经网络模型的损失值对神经网络模型进行调整,得到目标模型,目标模型用于获取至少一对目标文本段之间的关联信息。
需要说明的是,还可以采用对比学习的损失函数计算对比学习损失值。例如,标注关联信息为关联的任一对样本文本段,可以看做正样本,利用标注关联信息为关联的各对样本文本段的特征,计算正样本的损失值。标注关联信息为不关联的任一对样本文本段,可以看做负样本,利用标注关联信息为不关联的各对样本文本段的特征,计算负样本的损失值。之后,利用正样本的损失值和负样本的损失值确定对比学习损失值。利用第一损失值、第二损失值、关联信息损失值、类别损失值、对比学习损失值中的至少一项,结合各自的权重,确定神经网络模型的损失值。
上述方法是基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型,使得目标模型学习到了任一对文本段之间的关联信息,有助于降低关联错误的现象,提高文本信息的准确性。
上述从方法步骤的角度阐述了文本信息提取方法和目标模型的获取方法,下面结合图7来进一步描述本申请实施例的目标模型的获取方法。图7为本申请实施例提供的一种神经网络模型的训练示意图。其中,神经网络模型包括第一初始网络、第二初始网络和第三初始网络,第一初始网络包括第一子网络和第二子网络。本申请实施例是利用样本文本图像中每对样本文本段(即每两个样本文本段)之间的预测关联信息来训练神经网络模型的。
本申请实施例中,可以获取样本文本图像,其中,该样本文本图像是图3中的(2)所示的图像。将样本文本图像输入第一子网络,由第一子网络输出样本文本图像的图像特征。将样本文本图像的图像特征输入第二子网络,由第二子网络输出样本文本图像中各个样本文本段所在图像区域的图像特征。还可以对样本文本图像进行图像识别处理,得到样本文本图像的图像识别结果。样本文本图像的图像识别结果中包括各个样本文本段。利用第二初始网络获取各个样本文本段的文本特征。
接着,对于任一个样本文本段,将任一个样本文本段所在图像区域的图像特征和任一个样本文本段的文本特征进行融合,得到任一个样本文本段的特征。可以对该任一个样本文本段的特征进行至少一次更新。为便于区分描述,可以将该任一个样本文本段的特征称为更新前的任一个样本文本段的特征,将对更新前的任一个样本文本段的特征进行至少一次更新后得到的特征,称为更新后的任一个样本文本段的特征。
一方面,对更新前的任一个样本文本段的特征进行非线性运算,以对更新前的任一个样本文本段的特征进行一次更新,得到更新后的任一个样本文本段的特征。通过这种方式,可以得到各个样本文本段的特征。基于各个样本文本段的特征,按照上文提及的公式(8)和公式(9),计算特征损失值,其中,特征损失值包括上文提及的第一损失值和第二损失值。
另一方面,将更新前的各个样本文本段的特征输入第三初始网络,第三初始网络可以基于更新前的各个样本文本段的特征构建初始的图结构,并对该图结构进行多次更新,即对更新前的各个样本文本段的特征进行多次更新,直至得到最终的图结构,最终的图结构包括更新后的各个样本文本段的特征。第三初始网络可以基于最终的图结构确定并输出各个样本文本段的预测类别和每两个样本文本段之间的预测关联信息。接着,基于各个样本文本段的预测类别,按照上文提及的公式(7)计算类别损失值。基于每两个样本文本段之间的预测关联信息,按照上文提及的公式(6)计算关联信息损失值。
之后,基于特征损失值、类别损失值和关联信息损失值,按照上文提及的公式(10),计算神经网络模型的损失值。基于神经网络模型的损失值,对神经网络模型进行调整,得到目标模型。
在得到目标模型之后,可以基于目标模型提取目标文本图像中的文本信息。本申请实施例中,目标模型包括图像特征提取网络(由第一初始网络训练得到)、文本特征提取网络(由第二初始网络训练得到)和图卷积网络(由第三初始网络训练得到),且图像特征提取网络包括第一提取网络(由第一子网络训练得到)和第二提取网络(由第二子网络训练得到)。
目标文本图像包括菜单图像和执照图像。可以先对目标文本图像进行图像识别处理,得到目标文本图像的图像识别结果,再将目标文本图像和目标文本图像的图像识别结果输入目标模型,由目标模型输出目标文本图像中各个目标文本段的类别和每两个目标文本段之间的关联信息。之后,基于目标文本图像中各个目标文本段的类别和每两个目标文本段之间的关联信息,确定目标文本图像中的文本信息。
请参见图8,图8是本申请实施例提供的一种菜单图像中文本信息的提取示意图。其中,菜单图像中包括“菜A 20元”、“菜B 20元”、“菜C 28元”、“菜D 28元”、“菜E 25元”、“菜F 25元”以及各自对应的图片。通过对菜单图像进行图像识别处理,得到图像识别结果。其中,图像识别结果中包括菜单图像中的各个文本段(对应上文提及的目标文本段)。也就是说,图像识别结果中包括文本段“菜A”、“20元”、“菜B”、“20元”、“菜C”、“28元”、“菜D”、“28元”、“菜E”、“25元”、“菜F”、“25元”。由图8可以看出,图像识别结果仅是识别出菜单图像中的各个文本段,并未对各个文本段进行关联。将菜单图像和菜单图像的图像识别结果输入目标模型,由目标模型输出菜单图像中的各个文本段的类别和菜单图像中每两个文本段之间的关联信息。基于菜单图像中的各个文本段的类别和菜单图像中每两个文本段之间的关联信息,可以得到菜单图像中的文本信息,即得到“菜A:20元”、“菜B:20元”、“菜C:28元”、“菜D:28元”、“菜E:25元”、“菜F:25元”。
请参见图9,图9是本申请实施例提供的又一种菜单图像中文本信息的提取示意图。基于与图8相同的原理,本申请实施例中利用菜单图像、菜单图像的图像识别结果以及目标模型,可以确定菜单图像中的文本信息,即得到“菜A:20元”、“菜B:20元”、“菜C:20元”、“菜D:6/枚”、“菜E:5/枚”、“菜F:2/碗”以及“菜G:5/碗”。
需要说明的是,图8和图9所示的菜单图像均为结构化文本图像。本申请实施例中的目标模型也可以对半结构化文本图像中的文本信息进行提取。如对图10、图11所示的执照图像(半结构化文本图像)进行文本信息的提取。
请参见图10,图10是本申请实施例提供的一种执照图像中文本信息的提取示意图。其中,执照图像中包括“执照”、“名称 XXX公司”、“公司类型独资元”、“法定代表人 XX”以及“日期 X年X月X日”。通过对执照图像进行图像识别处理,得到图像识别结果。其中,图像识别结果中包括“执照”、“名称 XXX公司”、“公司类型独资元”、“法定代表人 XX”以及“日期 X年X月X日”。将执照图像和执照图像的图像识别结果输入目标模型,由目标模型输出执照图像中的各个文本段的类别和执照图像中每两个文本段之间的关联信息。基于执照图像中的各个文本段的类别和执照图像中每两个文本段之间的关联信息,可以得到执照图像中的文本信息,即得到“执照”、“名称:XXX公司”、“公司类型:独资元”、“法定代表人:XX”以及“日期:X年X月X日”。
请参见图11,图11是本申请实施例提供的又一种执照图像中文本信息的提取示意图。基于与图10相似的原理,可以利用执照图像、执照图像的图像识别结果和目标模型,确定执照图像中的文本信息,即得到“执照”、“名称:XXX公司”、“住所:XX镇”、“注册号:1111111”、以及“经营范围:水果蔬菜、日用品、文化体育用品”。
本申请实施例采用四种方式对神经网络模型进行训练,得到了四种目标模型。
其中,第一种目标模型是将样本文本图像和样本文本图像的图像识别结果输入神经网络模型,由神经网络模型进行如下处理:先对样本文本图像进行批归一化后,再基于批归一化后的样本文本图像确定样本文本图像中各个样本文本段所在图像区域的图像特征。基于样本文本图像的图像识别结果确定样本文本图像中各个样本文本段的文本特征。基于各个样本文本段所在图像区域的图像特征和各个样本文本段的文本特征,确定并输出的各个样本文本段的预测类别,按照上文中的公式(7)确定神经网络模型的损失值,并基于神经网络模型的损失值对神经网络模型进行调整得到的。
第二种目标模型是将样本文本图像和样本文本图像的图像识别结果输入神经网络模型,由神经网络模型进行如下处理:先对样本文本图像进行实例归一化后,再基于实例归一化后的样本文本图像确定样本文本图像中各个样本文本段所在图像区域的图像特征。基于样本文本图像的图像识别结果确定样本文本图像中各个样本文本段的文本特征。基于各个样本文本段所在图像区域的图像特征和各个样本文本段的文本特征,确定并输出的各个样本文本段的预测类别,按照上文中的公式(7)确定神经网络模型的损失值,并基于神经网络模型的损失值对神经网络模型进行调整得到的。
第三种目标模型是将样本文本图像和样本文本图像的图像识别结果输入神经网络模型,由神经网络模型进行如下处理:对样本文本图像进行实例归一化,再基于实例归一化后的样本文本图像确定样本文本图像中各个样本文本段所在图像区域的图像特征。基于样本文本图像的图像识别结果确定样本文本图像中各个样本文本段的文本特征。基于各个样本文本段所在图像区域的图像特征和各个样本文本段的文本特征,确定并输出的各个样本文本段的预测类别和各个样本文本段的特征,按照上文中的公式(7)-(9)确定神经网络模型的损失值,并基于神经网络模型的损失值对神经网络模型进行调整得到的。
第四种目标模型是将样本文本图像和样本文本图像的图像识别结果输入神经网络模型,由神经网络模型进行如下处理:对样本文本图像进行实例归一化后,再基于实例归一化后的样本文本图像确定样本文本图像中各个样本文本段所在图像区域的图像特征。基于样本文本图像的图像识别结果确定样本文本图像中各个样本文本段的文本特征。基于各个样本文本段所在图像区域的图像特征和各个样本文本段的文本特征,确定并输出的各个样本文本段的预测类别、各个样本文本段的特征、每两个样本文本对之间的预测关联关系,按照上文中的公式(6)-(9)确定神经网络模型的损失值,并基于神经网络模型的损失值对神经网络模型进行调整得到的。
本申请实施例中,按照如下所示的公式(11)计算每一种目标模型的性能指标。
Figure 434061DEST_PATH_IMAGE155
公式(11)
其中,
Figure 309613DEST_PATH_IMAGE156
为目标模型的性能指标。
Figure 604329DEST_PATH_IMAGE157
为序列号,
Figure 641555DEST_PATH_IMAGE158
为第
Figure 592193DEST_PATH_IMAGE159
种预测类别的分数。
Figure 756589DEST_PATH_IMAGE160
为第
Figure 905811DEST_PATH_IMAGE161
种预测类别的精确率,
Figure 113938DEST_PATH_IMAGE162
为第
Figure 83031DEST_PATH_IMAGE163
种预测类别的召回率。
Figure 51119DEST_PATH_IMAGE164
为精确率,
Figure 992530DEST_PATH_IMAGE165
为预测类别和标注类别一致的正样本的数量,
Figure 902717DEST_PATH_IMAGE166
为预测类别和标注类别不一致的负样本的数量,
Figure 359106DEST_PATH_IMAGE167
为预测类别和标注类别不一致的正样本的数量。其中,若样本文本图像中任一个样本文本段的标注类别为目标类别,则任一个样本文本段为正样本,若任一个样本文本段的标注类别不为目标类别,则任一个样本文本段为负样本。
其中,训练这四种目标模型时采用的样本文本图像为菜单图像,菜单图像中样本文本段的预测类别、标注类别均包括菜名、菜价、店名、菜品种类、其他中的至少一项,目标类别包括菜名和菜价。这四种目标模型的性能指标如下表1所示。
表1
Figure 114573DEST_PATH_IMAGE168
从表1可以看出,这四种目标模型的mEF依次增大。由于mEF越大,表明目标模型的性能越好。因此,这四种目标模型的性能是依次增强的,第四种目标模型的性能最好。通过本申请实施例的目标模型,可以有效降低关联错误的现象,提高文本信息的准确性,且能快速提取目标文本图像中的文本信息,避免繁琐复杂的人工输入。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的目标文本图像、样本文本图像等都是在充分授权的情况下获取的。
图12所示为本申请实施例提供的一种文本信息提取装置的结构示意图,如图12所示,该装置包括:
获取模块1201,用于获取目标文本图像,目标文本图像中包括多个目标文本段;
获取模块1201,还用于获取至少一对目标文本段之间的关联信息,任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性;
确定模块1202,用于基于至少一对目标文本段之间的关联信息,确定至少一对目标文本段之间的关联结果;
提取模块1203,用于基于至少一对目标文本段之间的关联结果,提取目标文本图像中的文本信息。
在一种可能的实现方式中,获取模块1201,用于获取至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征中的至少一项,至少一对目标文本段中任一个目标文本段的特征包括任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征中的至少一项,任一对目标文本段之间的相对位置特征用于表征任一对目标文本段所在图像区域之间的相对位置;基于至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征中的至少一项,确定至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,任一个目标文本段的特征包括任一个目标文本段所在图像区域的图像特征,获取模块1201,用于获取目标文本图像的图像特征;对于至少一对目标文本段中的任一个目标文本段,基于目标文本图像的图像特征和任一个目标文本段所在图像区域的位置信息,确定任一个目标文本段所在图像区域的图像特征。
在一种可能的实现方式中,任一个目标文本段的特征包括任一个目标文本段的文本特征,获取模块1201,用于对于至少一对目标文本段中的任一个目标文本段,获取任一个目标文本段中各个词语的词向量;对任一个目标文本段中各个词语的词向量进行融合,得到任一个目标文本段的文本特征。
在一种可能的实现方式中,任一个目标文本段的特征包括任一个目标文本段所在图像区域的图像特征和任一个目标文本段的文本特征,获取模块1201,用于对于至少一对目标文本段中的任一个目标文本段,将任一个目标文本段所在图像区域的图像特征切分成目标数量个图像特征块,将任一个目标文本段的文本特征切分成目标数量个文本特征块;对于任一个图像特征块,将任一个图像特征块和对应的文本特征块进行融合,得到融合特征块;将各个融合特征块进行拼接,得到任一个目标文本段的特征。
在一种可能的实现方式中,获取模块1201,用于对于任一对目标文本段,获取任一对目标文本段所在图像区域的位置信息;基于任一对目标文本段所在图像区域的位置信息和目标文本图像的尺寸信息,确定任一对目标文本段之间的相对位置特征。
在一种可能的实现方式中,获取模块1201,用于基于至少一对目标文本段的特征和至少一对目标文本段之间的相对位置特征构建图结构,图结构包括至少两个节点和至少一个边,节点表征目标文本段的特征,边表征一对目标文本段之间的相对位置特征;基于图结构确定至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,获取模块1201,还用于获取各个目标文本段的类别和每两个目标文本段之间的关联信息;
获取模块1201,用于基于各个目标文本段的类别,从每两个目标文本段之间的关联信息中,确定至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,获取模块1201,用于基于各个目标文本段的类别,从多个目标文本段中筛选出类别为目标类别的待关联文本段;从每两个目标文本段之间的关联信息中筛选出每两个待关联文本段之间的关联信息,得到至少一对目标文本段之间的关联信息。
在一种可能的实现方式中,获取模块1201,还用于获取目标模型;
获取模块1201,用于根据目标模型获取至少一对目标文本段之间的关联信息。
上述装置任一对目标文本段之间的关联信息用于表征任一对目标文本段之间关联的可能性,因此,在通过至少一对目标文本段之间的关联信息,确定至少一对目标文本段之间的关联结果时,可以降低关联错误的现象,提高了关联结果的准确性,使得基于至少一对目标文本段之间的关联结果,提取目标文本图像中的文本信息时,提高了文本信息的准确性。
应理解的是,上述图12提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13所示为本申请实施例提供的一种目标模型的获取装置的结构示意图,如图13所示,该装置包括:
第一获取模块1301,用于获取样本文本图像,样本文本图像中包括多个样本文本段;
第二获取模块1302,用于获取至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息;
第三获取模块1303,用于基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型。
在一种可能的实现方式中,装置还包括:
第四获取模块,用于获取至少一对样本文本段中各个样本文本段的预测类别和至少一对样本文本段中各个样本文本段的标注类别;
第三获取模块1303,用于基于至少一对样本文本段之间的预测关联信息、至少一对样本文本段之间的标注关联信息、至少一对样本文本段中各个样本文本段的预测类别和至少一对样本文本段中各个样本文本段的标注类别,获取目标模型。
在一种可能的实现方式中,装置还包括:
第五获取模块,用于获取至少一对样本文本段中各个样本文本段的特征,样本文本段的特征包括样本文本段所在图像区域的图像特征和样本文本段的文本特征中的至少一项;
第三获取模块1303,用于基于至少一对样本文本段中各个样本文本段的特征、至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型。
在一种可能的实现方式中,第三获取模块1303,用于获取至少一对样本文本段中各个样本文本段的标注类别;对于任一个标注类别,基于任一个标注类别中各个样本文本段的特征,确定任一个标注类别的特征平均值;基于各个标注类别的特征平均值、至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型。
上述装置是基于至少一对样本文本段之间的预测关联信息和至少一对样本文本段之间的标注关联信息,获取目标模型,使得目标模型学习到了任一对文本段之间的关联信息,有助于降低关联错误的现象,提高文本信息的准确性。
应理解的是,上述图13提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14示出了本申请一个示例性实施例提供的终端设备1400的结构框图。该终端设备1400包括有:处理器1401和存储器1402。
处理器1401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1401可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1402中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1401所执行以实现本申请中方法实施例提供的文本信息提取方法或者目标模型的获取方法。
在一些实施例中,终端设备1400还可选包括有:外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地,外围设备包括:射频电路1404、显示屏1405、摄像头组件1406、音频电路1407和电源1408中的至少一种。
外围设备接口1403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中,处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上;在一些其他实施例中,处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时,显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时,显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1405可以为一个,设置在终端设备1400的前面板;在另一些实施例中,显示屏1405可以为至少两个,分别设置在终端设备1400的不同表面或呈折叠设计;在另一些实施例中,显示屏1405可以是柔性显示屏,设置在终端设备1400的弯曲表面上或折叠面上。甚至,显示屏1405还可以设置成非矩形的不规则图形,也即异形屏。显示屏1405可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1406用于采集图像或视频。可选地,摄像头组件1406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1401进行处理,或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1407还可以包括耳机插孔。
电源1408用于为终端设备1400中的各个组件进行供电。电源1408可以是交流电、直流电、一次性电池或可充电电池。当电源1408包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端设备1400还包括有一个或多个传感器1409。该一个或多个传感器1409包括但不限于:加速度传感器1411、陀螺仪传感器1412、压力传感器1413、光学传感器1414以及接近传感器1415。
加速度传感器1411可以检测以终端设备1400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号,控制显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1412可以检测终端设备1400的机体方向及转动角度,陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端设备1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1413可以设置在终端设备1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端设备1400的侧边框时,可以检测用户对终端设备1400的握持信号,由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时,由处理器1401根据用户对显示屏1405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1414用于采集环境光强度。在一个实施例中,处理器1401可以根据光学传感器1414采集的环境光强度,控制显示屏1405的显示亮度。具体地,当环境光强度较高时,调高显示屏1405的显示亮度;当环境光强度较低时,调低显示屏1405的显示亮度。在另一个实施例中,处理器1401还可以根据光学传感器1414采集的环境光强度,动态调整摄像头组件1406的拍摄参数。
接近传感器1415,也称距离传感器,通常设置在终端设备1400的前面板。接近传感器1415用于采集用户与终端设备1400的正面之间的距离。在一个实施例中,当接近传感器1415检测到用户与终端设备1400的正面之间的距离逐渐变小时,由处理器1401控制显示屏1405从亮屏状态切换为息屏状态;当接近传感器1415检测到用户与终端设备1400的正面之间的距离逐渐变大时,由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图14中示出的结构并不构成对终端设备1400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图15为本申请实施例提供的服务器的结构示意图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器1501和一个或多个的存储器1502,其中,该一个或多个存储器1502中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器1501加载并执行以实现上述各个方法实施例提供的文本信息提取方法或者目标模型的获取方法,示例性地,处理器1501为CPU。当然,该服务器1500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1500还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以使电子设备实现上述任一种文本信息提取方法或者目标模型的获取方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一种文本信息提取方法或者目标模型的获取方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (19)

1.一种文本信息提取方法,其特征在于,所述方法包括:
获取目标文本图像,所述目标文本图像中包括多个目标文本段;
获取至少一对目标文本段之间的关联信息,任一对目标文本段之间的关联信息用于表征所述任一对目标文本段之间关联的可能性;
基于所述至少一对目标文本段之间的关联信息,确定所述至少一对目标文本段之间的关联结果;
基于所述至少一对目标文本段之间的关联结果,提取所述目标文本图像中的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述获取至少一对目标文本段之间的关联信息,包括:
获取所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征中的至少一项,所述至少一对目标文本段中任一个目标文本段的特征包括所述任一个目标文本段所在图像区域的图像特征和所述任一个目标文本段的文本特征中的至少一项,任一对目标文本段之间的相对位置特征用于表征所述任一对目标文本段所在图像区域之间的相对位置;
基于所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征中的至少一项,确定所述至少一对目标文本段之间的关联信息。
3.根据权利要求2所述的方法,其特征在于,所述任一个目标文本段的特征包括所述任一个目标文本段所在图像区域的图像特征,所述获取所述至少一对目标文本段的特征,包括:
获取所述目标文本图像的图像特征;
对于所述至少一对目标文本段中的任一个目标文本段,基于所述目标文本图像的图像特征和所述任一个目标文本段所在图像区域的位置信息,确定所述任一个目标文本段所在图像区域的图像特征。
4.根据权利要求2所述的方法,其特征在于,所述任一个目标文本段的特征包括所述任一个目标文本段的文本特征,所述获取所述至少一对目标文本段的特征,包括:
对于所述至少一对目标文本段中的任一个目标文本段,获取所述任一个目标文本段中各个词语的词向量;
对所述任一个目标文本段中各个词语的词向量进行融合,得到所述任一个目标文本段的文本特征。
5.根据权利要求2所述的方法,其特征在于,所述任一个目标文本段的特征包括所述任一个目标文本段所在图像区域的图像特征和所述任一个目标文本段的文本特征,所述获取所述至少一对目标文本段的特征,包括:
对于所述至少一对目标文本段中的任一个目标文本段,将所述任一个目标文本段所在图像区域的图像特征切分成目标数量个图像特征块,将所述任一个目标文本段的文本特征切分成所述目标数量个文本特征块;
对于任一个图像特征块,将所述任一个图像特征块和对应的文本特征块进行融合,得到融合特征块;
将各个融合特征块进行拼接,得到所述任一个目标文本段的特征。
6.根据权利要求2所述的方法,其特征在于,获取所述至少一对目标文本段之间的相对位置特征,包括:
对于任一对目标文本段,获取所述任一对目标文本段所在图像区域的位置信息;
基于所述任一对目标文本段所在图像区域的位置信息和所述目标文本图像的尺寸信息,确定所述任一对目标文本段之间的相对位置特征。
7.根据权利要求2所述的方法,其特征在于,基于所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征,确定所述至少一对目标文本段之间的关联信息,包括:
基于所述至少一对目标文本段的特征和所述至少一对目标文本段之间的相对位置特征构建图结构,所述图结构包括至少两个节点和至少一个边,所述节点表征所述目标文本段的特征,所述边表征一对目标文本段之间的相对位置特征;
基于所述图结构确定所述至少一对目标文本段之间的关联信息。
8.根据权利要求1所述的方法,其特征在于,所述获取至少一对目标文本段之间的关联信息之前,还包括:
获取各个目标文本段的类别和每两个目标文本段之间的关联信息;
所述获取至少一对目标文本段之间的关联信息,包括:
基于所述各个目标文本段的类别,从所述每两个目标文本段之间的关联信息中,确定所述至少一对目标文本段之间的关联信息。
9.根据权利要求8所述的方法,其特征在于,所述基于所述各个目标文本段的类别,从所述每两个目标文本段之间的关联信息中,确定所述至少一对目标文本段之间的关联信息,包括:
基于所述各个目标文本段的类别,从所述多个目标文本段中筛选出类别为目标类别的待关联文本段;
从所述每两个目标文本段之间的关联信息中筛选出每两个待关联文本段之间的关联信息,得到所述至少一对目标文本段之间的关联信息。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述获取至少一对目标文本段之间的关联信息之前,还包括:
获取目标模型;
所述获取至少一对目标文本段之间的关联信息,包括:
根据所述目标模型获取至少一对目标文本段之间的关联信息。
11.一种目标模型的获取方法,其特征在于,所述方法包括:
获取样本文本图像,所述样本文本图像中包括多个样本文本段;
获取至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息;
基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
12.根据权利要求11所述的方法,其特征在于,所述基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型之前,还包括:
获取所述至少一对样本文本段中各个样本文本段的预测类别和所述至少一对样本文本段中各个样本文本段的标注类别;
所述基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型,包括:
基于所述至少一对样本文本段之间的预测关联信息、所述至少一对样本文本段之间的标注关联信息、所述至少一对样本文本段中各个样本文本段的预测类别和所述至少一对样本文本段中各个样本文本段的标注类别,获取目标模型。
13.根据权利要求11所述的方法,其特征在于,所述基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型之前,还包括:
获取所述至少一对样本文本段中各个样本文本段的特征,所述样本文本段的特征包括所述样本文本段所在图像区域的图像特征和所述样本文本段的文本特征中的至少一项;
所述基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型,包括:
基于所述至少一对样本文本段中各个样本文本段的特征、所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
14.根据权利要求12所述的方法,其特征在于,所述基于所述至少一对样本文本段中各个样本文本段的特征、所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型,包括:
获取所述至少一对样本文本段中各个样本文本段的标注类别;
对于任一个标注类别,基于所述任一个标注类别中各个样本文本段的特征,确定所述任一个标注类别的特征平均值;
基于各个标注类别的特征平均值、所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
15.一种文本信息提取装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本图像,所述目标文本图像中包括多个目标文本段;
所述获取模块,还用于获取至少一对目标文本段之间的关联信息,任一对目标文本段之间的关联信息用于表征所述任一对目标文本段之间关联的可能性;
确定模块,用于基于所述至少一对目标文本段之间的关联信息,确定所述至少一对目标文本段之间的关联结果;
提取模块,用于基于所述至少一对目标文本段之间的关联结果,提取所述目标文本图像中的文本信息。
16.一种目标模型的获取装置,其特征在于,所述装置包括:
第一获取模块,用于获取样本文本图像,所述样本文本图像中包括多个样本文本段;
第二获取模块,用于获取至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息;
第三获取模块,用于基于所述至少一对样本文本段之间的预测关联信息和所述至少一对样本文本段之间的标注关联信息,获取目标模型。
17.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述电子设备实现如权利要求1至10任一所述的文本信息提取方法或者实现如权利要求11至14任一所述的目标模型的获取方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至10任一所述的文本信息提取方法或者实现如权利要求11至14任一所述的目标模型的获取方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至10任一所述的文本信息提取方法或者实现如权利要求11至14任一所述的目标模型的获取方法。
CN202210411039.7A 2022-04-19 2022-04-19 文本信息提取方法、目标模型的获取方法、装置及设备 Active CN114511864B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210411039.7A CN114511864B (zh) 2022-04-19 2022-04-19 文本信息提取方法、目标模型的获取方法、装置及设备
PCT/CN2023/081379 WO2023202268A1 (zh) 2022-04-19 2023-03-14 文本信息提取方法、目标模型的获取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210411039.7A CN114511864B (zh) 2022-04-19 2022-04-19 文本信息提取方法、目标模型的获取方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114511864A true CN114511864A (zh) 2022-05-17
CN114511864B CN114511864B (zh) 2023-01-13

Family

ID=81554813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210411039.7A Active CN114511864B (zh) 2022-04-19 2022-04-19 文本信息提取方法、目标模型的获取方法、装置及设备

Country Status (2)

Country Link
CN (1) CN114511864B (zh)
WO (1) WO2023202268A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030466A (zh) * 2023-03-23 2023-04-28 深圳思谋信息科技有限公司 图像文本信息识别与处理方法、装置及计算机设备
WO2023202268A1 (zh) * 2022-04-19 2023-10-26 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242400A (zh) * 2018-11-02 2019-01-18 南京信息工程大学 一种基于卷积门控循环神经网络的物流快递单号识别方法
CN111126389A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 文本检测方法、装置、电子设备以及存储介质
CN112036395A (zh) * 2020-09-04 2020-12-04 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置
CN112801099A (zh) * 2020-06-02 2021-05-14 腾讯科技(深圳)有限公司 一种图像处理方法、装置、终端设备及介质
WO2021128578A1 (zh) * 2019-12-27 2021-07-01 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113343982A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN114332889A (zh) * 2021-08-26 2022-04-12 腾讯科技(深圳)有限公司 文本图像的文本框排序方法和文本图像的文本框排序装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511864B (zh) * 2022-04-19 2023-01-13 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242400A (zh) * 2018-11-02 2019-01-18 南京信息工程大学 一种基于卷积门控循环神经网络的物流快递单号识别方法
CN111126389A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 文本检测方法、装置、电子设备以及存储介质
WO2021128578A1 (zh) * 2019-12-27 2021-07-01 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN112801099A (zh) * 2020-06-02 2021-05-14 腾讯科技(深圳)有限公司 一种图像处理方法、装置、终端设备及介质
CN112036395A (zh) * 2020-09-04 2020-12-04 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置
CN113343982A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 多模态特征融合的实体关系提取方法、装置和设备
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN114332889A (zh) * 2021-08-26 2022-04-12 腾讯科技(深圳)有限公司 文本图像的文本框排序方法和文本图像的文本框排序装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ERIC YEH ET AL.: "Unsupervised Discovery and Extraction of Semi-structured Regions in Text via Self-Information", 《PROCEEDINGS OF THE 2013 WORKSHOP ON AUTOMATED KNOWLEDGE BASE CONSTRUCTION》 *
代小红: "《基于机器视觉的数字图像处理与识别研究》", 31 March 2012, 西南交通大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023202268A1 (zh) * 2022-04-19 2023-10-26 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备
CN116030466A (zh) * 2023-03-23 2023-04-28 深圳思谋信息科技有限公司 图像文本信息识别与处理方法、装置及计算机设备

Also Published As

Publication number Publication date
WO2023202268A1 (zh) 2023-10-26
CN114511864B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN111739035B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN111325726A (zh) 模型训练方法、图像处理方法、装置、设备及存储介质
CN110555839A (zh) 缺陷检测识别方法、装置、计算机设备及存储介质
CN111091132A (zh) 基于人工智能的图像识别方法、装置、计算机设备及介质
CN111931877B (zh) 目标检测方法、装置、设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN114511864B (zh) 文本信息提取方法、目标模型的获取方法、装置及设备
CN111091166A (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN111192262A (zh) 基于人工智能的产品缺陷分类方法、装置、设备及介质
CN112749613B (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN111368116B (zh) 图像分类方法、装置、计算机设备及存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN113610750A (zh) 对象识别方法、装置、计算机设备及存储介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN114283299A (zh) 图像聚类方法、装置、计算机设备及存储介质
CN113836946A (zh) 训练评分模型的方法、装置、终端及存储介质
CN115170896A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质
CN113761195A (zh) 文本分类方法、装置、计算机设备及计算机可读存储介质
CN113763931A (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN113570510A (zh) 图像处理方法、装置、设备及存储介质
CN113516665A (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN114691860A (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN113569822B (zh) 图像分割方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070912

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant