CN110135411A - 名片识别方法和装置 - Google Patents

名片识别方法和装置 Download PDF

Info

Publication number
CN110135411A
CN110135411A CN201910360584.6A CN201910360584A CN110135411A CN 110135411 A CN110135411 A CN 110135411A CN 201910360584 A CN201910360584 A CN 201910360584A CN 110135411 A CN110135411 A CN 110135411A
Authority
CN
China
Prior art keywords
text
business card
line
image
text region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910360584.6A
Other languages
English (en)
Other versions
CN110135411B (zh
Inventor
欧中洪
熊柏桥
肖芬瑞
宋美娜
宋俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910360584.6A priority Critical patent/CN110135411B/zh
Publication of CN110135411A publication Critical patent/CN110135411A/zh
Application granted granted Critical
Publication of CN110135411B publication Critical patent/CN110135411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明提出一种名片识别方法和装置,其中,方法包括:获取待识别的名片图像;将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。该方法能够实现基于深度学习的文字检测模型来识别名片图像中的各文本行区域,鲁棒性较强,可以降低因为低质量和噪声数据对文本提取的影响,从而提升该方法的通用性和应用空间。并且,基于深度学习的文字识别模型来对各文本行区域进行端到端的识别,无需进行单字分割,具有更高的准确率,同时也对各种复杂的变化具有更强的识别能力,提升该方法的通用性和识别效果。

Description

名片识别方法和装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种名片识别方法和装置。
背景技术
随着个人计算机(Personal Computer,简称PC)、移动终端的普及与发展,将纸质名片使用电子信息方式进行存储与检索逐渐成为了主流。但是,将纸质名片转化成电子名片需要耗费较大的人力和物力,因此,自动化地完成这个过程至关重要。
经过不同学者的长期探索与研究,名片识别方法已经存在很多应用的实例,但是,传统的名片识别方法受限于所使用的光学字符识别(Optical Character Recognition,简称OCR)技术,在名片图像质量较低,比如存在畸变的情况下,很难进行有效的识别,即识别的准确性较低。
发明内容
本发明提出一种名片识别方法和装置,以实现提升名片识别方法的通用性和识别效果,用于解决现有技术中名片识别的准确性较低的技术问题。
本发明第一方面实施例提出了一种名片识别方法,包括:
获取待识别的名片图像;
将所述名片图像输入至文字检测模型,以得到各文本行区域;其中,所述文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;
将所述各文本行区域输入至文字识别模型,以得到所述各文本行区域对应的名片信息。
本发明实施例的名片识别方法,通过获取待识别的名片图像;将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。本发明中,基于深度学习的文字检测模型来识别名片图像中的各文本行区域,鲁棒性较强,可以降低因为低质量和噪声数据对文本提取的影响,从而提升该方法的通用性和应用空间。并且,基于深度学习的文字识别模型来对各文本行区域进行端到端的识别,无需进行单字分割,具有更高的准确率,同时也对各种复杂的变化具有更强的识别能力,提升该方法的通用性和识别效果。
本发明第二方面实施例提出了一种名片识别装置,包括:
获取模块,用于获取待识别的名片图像;
文本行区域确定模块,用于将所述名片图像输入至文字检测模型,以得到各文本行区域;其中,所述文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;
名片信息确定模块,用于将所述各文本行区域输入至文字识别模型,以得到所述各文本行区域对应的名片信息。
本发明实施例的名片识别装置,通过获取待识别的名片图像;将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。本发明中,基于深度学习的文字检测模型来识别名片图像中的各文本行区域,鲁棒性较强,可以降低因为低质量和噪声数据对文本提取的影响,从而提升该方法的通用性和应用空间。并且,基于深度学习的文字识别模型来对各文本行区域进行端到端的识别,无需进行单字分割,具有更高的准确率,同时也对各种复杂的变化具有更强的识别能力,提升该方法的通用性和识别效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一所提供的名片识别方法的流程示意图;
图2为本发明实施例二所提供的名片识别方法的流程示意图;
图3为本发明实施例三所提供的名片识别方法的流程示意图;
图4为本发明实施例四所提供的名片识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
随着电子名片以及电子设备的普及,使用电子设备记录名片信息已经成为很普遍的现象。然而,将纸质名片录入为电子名片需要耗费大量的时间与精力,因此,自动化地完成这个过程就有着很重要的意义。
目前,主要包括以下三种名片识别方法:
第一种,依赖限定的识别装置,对纸质名片进行图像获取,而后对图像进行版面分析,获取固定位置的各个信息块的图像,对各图像块进行字符分割,之后,调用OCR引擎或单字符分类器进行识别,最后进行信息整合和分类。
第二种,不需要额外的识别装置,通过限制用户输入的图片状态,要求名片图像背景简单,光照均匀,不存在大幅度畸变,通过图像预处理、倾斜校正、版面分析、单字识别以及信息归类的流程进行名片识别。
第三种,使用移动终端进行名片图像获取,通过用户交互的方式来进行名片区域的获取,保证名片图像的质量。之后,通过图像预处理、倾斜校正、版面分析、单字识别以及信息归类的流程进行名片识别。
然而上述三种方式,均需采取基于字符提取和单字符识别,对名片图像的质量有着较高的要求,通用性有限。具体而言,大多数字符分割方法的泛化性能并不够优秀,当名片图像的质量较差、存在较大畸变时,很难获取正确的分割,同时,大多数单字符的识别方法对于存在变形的文字识别效果也不够理想。
随着移动终端的普及,使用手机等可移动设备进行名片拍照成为了名片识别的一个较为主要的使用场景,这带来的结果就是所接受的图像质量变得更加复杂多样,字符图像由于对焦、光照等拍摄因素而产生较大程度的失真与噪声。在这种使用场景下,较为传统的名片识别方法已经不能具有很好的表现。
随着深度学习技术的不断发展,图像识别技术有了长足的进步,其中,在文字识别领域,端到端的文本行识别,相比传统的基于文字分割的单字识别方法在精度、泛化性能上都有了较大的提高,此外,在文字检测任务上,基于深度学习的方法也比基于连通域提取的方法,在各个方法也都具备着较高的优势。因此,本发明针对现有技术中度量学习中名片识别效果不佳的技术问题,主要利用基于深度学习的文字检测技术,对名片图像内的可能存在变形、模糊等多种恶劣情况下的文本行进行了提取,之后利用基于深度学习的文字识别方法,对提取的各文本行进行了端到端的识别,最后,利用预设规则,对识别出的名片信息进行整合与归类,以提升识别结果的准确性。并且,无需进行版面分析,可以缩短处理流程,提升名片识别的效率。
下面参考附图描述本发明实施例的名片识别方法和装置。
图1为本发明实施例一所提供的名片识别方法的流程示意图。
本发明实施例以名片识别方法被配置于名片识别装置中来举例说明,该名片识别装置可以应用于任一计算机设备中,以使该计算机设备可以执行名片识别功能。
其中,计算机设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备、服务器等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该名片识别方法可以包括以下步骤:
步骤101,获取待识别的名片图像。
本发明实施例中,待识别的名片图像,可以是通过手机、相机等具有拍照功能的电子设备拍摄得到的名片图像,或者,也可以是预先存储在计算机设备中的名片图像,或者,也可以是从服务器下载的名片图像,等等,对此不作限制。
步骤102,将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系。
本发明实施例中,文字检测模型是预先经过训练的,该文字检测模型已学习得到图像特征与各文本行区域之间的对应关系。具体地,在训练阶段,可以预先获取大量训练样本图像,该训练样本图像可以包括采集的真实名片图像和/或通过程序生成的名片图像。在获取训练样本图像后,可以对训练样本图像中的文本行区域、文本行位置进行标注,利用标注后的训练样本图像,对初始的深度学习模型进行训练,得到文字检测模型。
本发明实施例中,在获取到待识别的名片图像后,可以将名片图像输入至文字检测模型,得到各文本行区域。具体地,在预测阶段,可以将名片图像输入至文字检测模型进行正向传播,名片图像经由骨干网络进行特征提取,之后由模型生成提取的图像特征中不同位置的建议区域,并对建议区域进行建议框回归,得到可能的文本行区域,本发明中记为候选文本行区域,之后,模型根据配置好的先验知识,对所有候选文本行区域进行筛选,以剔除非文本行区域,从而输出各文本行区域。
需要说明的是,现有技术中在进行文字检测时依赖图像的质量,为了保证传统方法提取文字有效,往往需要控制输入图像的质量,或使用限定设备,或设定拍摄图像的诸多限定条件,这些限制造成了名片识别方法的通用性和易用性的下降。而本发明的名片识别方法,通过使用基于深度学习的文字检测模型来提取名片图像中的文本行区域,这种方法鲁棒性强,可以降低因为低质量和各种噪声情况对文字提取的影响,从而使得该方法相比于现有技术具有更强的通用性和更广泛的应用空间。
步骤103,将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。
本发明实施例中,名片信息,可以包括文本行区域中的姓名、工作地点、职位、联系方式等文字信息。
本发明实施例中,文字识别模型是预先经过训练的,具体地,在训练阶段,可以利用不同的字体、字形以及畸变的规则,生成样本图像,同时,也可以通过采集样本图像作为补充,以微调模型,之后,可以对生成的样本图像和采集的样本图像中的文字进行标注,利用标注后的样本图像,对初始的深度学习模型进行训练,可以得到文字识别模型。
本发明实施例中,文字识别模型采取特征提取-序列建模的模型框架,在训练阶段,文字识别模型在处理每一个样本图像时,均会进行特征提取,然后利用序列模型进行预测,根据样本图像的标注信息,计算损失,并利用梯度下降法进行模型参数调整,以完整模型的训练过程。
在预测阶段,将步骤102得到的各文本行区域作为输入,各文本行区域经由骨干网络进行特征提取后,会进入文字识别模型进行序列建模,最后输出各文本行区域对应的文本序列,本发明中记为名片信息。
需要说明的是,现有技术中在进行名片内文字的识别时,同样不能很好的适应可能存在的各种畸变情况,导致了名片识别方法的通用性能下降。而本发明的名片识别方法,通过使用基于深度学习的文字识别模型,来对名片中的文本行区域进行端到端的识别,这种方法无需进行单字分割,具有更高的准确率,同时也对各种复杂的变化具有更强的识别能力,从而使得该方法相比现有技术在通用性和识别效果上具有较大的优势。
本发明实施例的名片识别方法,通过获取待识别的名片图像;将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。本发明中,基于深度学习的文字检测模型来识别名片图像中的各文本行区域,鲁棒性较强,可以降低因为低质量和噪声数据对文本提取的影响,从而提升该方法的通用性和应用空间。并且,基于深度学习的文字识别模型来对各文本行区域进行端到端的识别,无需进行单字分割,具有更高的准确率,同时也对各种复杂的变化具有更强的识别能力,提升该方法的通用性和识别效果。
作为一种可能的实现方式,为了提升识别结果的准确性,在获取到待识别的名片图像之后,还可以对名片图像进行预处理。下面结合实施例二,对上述过程进行详细说明。
图2为本发明实施例二所提供的名片识别方法的流程示意图。
如图2所示,该名片识别方法可以包括以下步骤:
步骤201,获取待识别的名片图像。
步骤201的执行过程可以参见上述实施例中步骤101的执行过程,在此不做赘述。
步骤202,对名片图像进行预处理,其中,预处理包括名片区域的提取、去噪、倾斜校正、透视校正处理中的至少一项。
需要说明的是,由于待识别的名片图像的四周可能存在复杂背景区域,这些背景区域对名片识别存在很大干扰。例如,使用手机拍摄得到的待识别的名片图像时,为了获得完整的名片信息,拍摄的照片除了名片本身外,四周可能存在复杂的背景区域。如果直接使用复杂背景的待识别的名片图像进行识别,可能导致识别效果严重下降,难以达到应用水平。由此,需要对复杂背景拍摄的待识别的名片图像进行背景分离,分离出名片区域和背景区域,摆脱了对场景和图像获取设备的依赖,使得名片识别方法具有更强的通用性。
作为一种可能的实现方式,可以采用基于深度神经网络的图像语义分割技术,对放缩大小后的待识别的名片图像进行像素级别的分割,即进行背景分离,以划分出名片区域和背景区域。进一步的,将放缩后的分割图进行等比例还原,即可获取提取后的名片区域。
同时,由于拍摄时对焦、光照等拍摄因素导致拍摄的待识别的名片图像存在较大程度的失真与噪声。因此,本发明中,还可以对名片图像进行去噪处理、倾斜校正处理、透视校正处理等等。
步骤203,将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系。
步骤204,将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。
步骤203至204的执行过程可以参见上述实施例中步骤102至103的执行过程,在此不做赘述。
本发明实施例中,通过对待识别的名片图像进行预处理,其中,预处理包括提取名片区域、去噪、倾斜校正、透视校正中的至少一项,由此,可以提升名片识别结果的准确性。
作为一种可能的实现方式,参见图3,在图1和图2所示实施例的基础上,该名片识别方法还可以包括以下步骤:
步骤301,对名片信息进行校正后,识别校正后的名片信息所包含的信息类型。
本发明实施例中,识别到的名片信息中可能会存在格式错误、信息错误等现象,因此需要对名片信息进行校正,以识别校正后的名片信息所包含的信息类型。
作为一种可能的实现方式,可以采用多种正则规则,对名片信息进行校正,例如,可以采用正则表达式匹配替换的方式,对名片信息中常见的错误进行校正,比如名片信息中数字与字母之间的混淆,特殊字符与字母之间的混淆等。同时,还可以利用正则表达式匹配替换的方式,对名片信息的格式进行规范化。由此,通过对名片信息进行校正,能够提高名片识别的准确度。
举例来说,名片信息中的数字“9”可能会被误识别为字母“q”,字母“l”可能会被误识别为数字“1”,数字“0”误识别为字母“o”等,这种情况下,可以采用正则表达式匹配替换的方式,将一些常见的错误校正过来。
本发明实施例中,在对名片信息进行校正后,可以识别校正后的名片信息所包含的信息类型,例如,可以根据分类规则,对校正后的名片信息进行信息类型的分类,以识别校正后的名片信息所包含的信息类型。
需要说明的是,对校正后的名片信息进行信息类型的分类时,分类规则包括但不限于关键词匹配、文本位置关系等。分类规则可以灵活定制、添加、删除。由此,可以得到包含校正后的名片信息所有类型的信息类型。
举例来说,可以根据文本位置关系识别校正后的名片信息所包含的信息类型,例如,名片中的姓名、地址、联系方式、公司名称等。例如,非结构化文本行为“姓名:张三”,应该提取出的文字信息为“张三”,所属类别为“姓名”。
步骤302,获取校正后的名片信息中与信息类型对应的信息片段。
本发明实施例中,由于不同信息类型对应的信息片段不同,因此,需要获取校正后的名片信息中与信息类型对应的信息片段。
举例来说,信息类型为电话号码时,对应的信息片段可以为电话号码对应的数字;信息类型为地址时,对应的信息片段为地址后面对应的字符信息等。
步骤303,根据信息类型对信息片段进行分类存储。
本发明实施例中,获取到校正后的名片信息中与信息类型对应的信息片段后,可以将信息片段分类存储至计算机设备,由此,可以得到以便对识别到的名片信息,即结构化的电子名片数据进行存储与操作。
在一种可能的场景下,在根据信息类型对信息片段进行分类存储时,可以根据存储的位置对信息片段进行筛选,例如,将信息片段存入通讯录时,并不是所有的信息均需要存储,可以根据信息片段的内容中包含一些关键词对信息片段进行存储,例如“姓名”、“联系方式”和“地址”,若预设的关键词为“姓名”、“联系方式”和“地址”,则可以提取这些关键词后面的具体内容,将其对应的信息片段存储至通讯录的“姓名”、“联系方式”和“地址”字段中。
本发明实施例中,通过对名片信息进行校正后,识别校正后的名片信息所包含的信息类型,获取校正后的名片信息中与信息类型对应的信息片段,根据信息类型对信息片段进行分类存储。该方法通过对识别到的名片信息进行校正,提高了名片识别的准确度,并根据校正后名片信息所包含的信息类型,准确地找到名片信息中的有效信息,对有效信息进行存储,去除了一些不需要存储的内容。
为了实现上述实施例,本发明还提出一种名片识别装置。
图4为本发明实施例四所提供的名片识别装置的结构示意图。
如图4所示,该名片识别装置可以包括:获取模块110、文本行区域确定模块120以及名片信息确定模块130。
其中,获取模块110,用于获取待识别的名片图像。
文本行区域确定模块120,用于将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系。
名片信息确定模块130,用于将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。
进一步地,在本发明实施例的一种可能的实现方式中,该名片识别装置还可以包括:
预处理模块,用于对名片图像进行预处理,其中,预处理包括名片区域的提取、去噪、倾斜校正、透视校正处理中的至少一项。
作为一种可能的实现方式,文字检测模型,通过以下模块进行训练:
获取模块110,还用于获取训练样本图像。
标注模块,用于对训练样本图像中的文本行位置进行标注。
训练模块,用于利用标注后的训练样本图像,对初始的深度学习模型进行训练,得到文字检测模型。
作为一种可能的实现方式,文本行区域确定模块120,具体用于:通过文字检测模型,对名片图像进行特征提取;生成提取的图像特征中不同位置对应的建议区域;对建议区域进行候选框回归,得到候选文本行区域;对候选文本行区域进行筛选,以剔除非文本行区域。
作为一种可能的实现方式,文字识别模型,通过以下模块进行训练:
生成模块,用于利用不同的字体、字形以及畸变的规则,生成样本图像。
标注模块,还用于对样本图像中的文字进行标注。
训练模块,还用于利用标注后的样本图像,对初始的深度学习模型进行训练,得到文字识别模型。
识别模块,用于对名片信息进行校正后,识别校正后的名片信息所包含的信息类型。
获取模块,还用于获取校正后的名片信息中与信息类型对应的信息片段。
存储模块,用于根据信息类型对信息片段进行分类存储。
需要说明的是,前述对名片识别方法实施例的解释说明也适用于该实施例的名片识别装置,此处不再赘述。
本发明实施例的名片识别装置,通过获取待识别的名片图像;将名片图像输入至文字检测模型,以得到各文本行区域;其中,文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;将各文本行区域输入至文字识别模型,以得到各文本行区域对应的名片信息。本发明中,基于深度学习的文字检测模型来识别名片图像中的各文本行区域,鲁棒性较强,可以降低因为低质量和噪声数据对文本提取的影响,从而提升该方法的通用性和应用空间。并且,基于深度学习的文字识别模型来对各文本行区域进行端到端的识别,无需进行单字分割,具有更高的准确率,同时也对各种复杂的变化具有更强的识别能力,提升该方法的通用性和识别效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种名片识别方法,其特征在于,包括:
获取待识别的名片图像;
将所述名片图像输入至文字检测模型,以得到各文本行区域;其中,所述文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;
将所述各文本行区域输入至文字识别模型,以得到所述各文本行区域对应的名片信息。
2.如权利要求1所述的方法,其特征在于,所述获取待识别的名片图像之后,所述方法还包括:
对所述名片图像进行预处理,其中,所述预处理包括名片区域的提取、去噪、倾斜校正、透视校正处理中的至少一项。
3.如权利要求1所述的方法,其特征在于,所述文字检测模型,通过以下步骤进行训练:
获取训练样本图像;
对所述训练样本图像中的文本行位置进行标注;
利用标注后的训练样本图像,对初始的深度学习模型进行训练,得到所述文字检测模型。
4.如权利要求3所述的方法,其特征在于,所述将所述名片图像输入至文字检测模型,以得到各文本行区域,包括:
通过所述文字检测模型,对所述名片图像进行特征提取;
生成提取的图像特征中不同位置对应的建议区域;
对所述建议区域进行候选框回归,得到候选文本行区域;
对所述候选文本行区域进行筛选,以剔除非文本行区域。
5.如权利要求1所述的方法,其特征在于,所述文字识别模型,通过以下步骤进行训练:
利用不同的字体、字形以及畸变的规则,生成样本图像;
对所述样本图像中的文字进行标注;
利用标注后的样本图像,对初始的深度学习模型进行训练,得到所述文字识别模型。
6.如权利要求1-5中任一所述的方法,其特征在于,所述方法还包括:
对所述名片信息进行校正后,识别校正后的名片信息所包含的信息类型;
获取所述校正后的名片信息中与所述信息类型对应的信息片段;
根据所述信息类型对所述信息片段进行分类存储。
7.一种名片识别装置,其特征在于,包括:
获取模块,用于获取待识别的名片图像;
文本行区域确定模块,用于将所述名片图像输入至文字检测模型,以得到各文本行区域;其中,所述文字检测模型,已学习得到图像特征与各文本行区域之间的对应关系;
名片信息确定模块,用于将所述各文本行区域输入至文字识别模型,以得到所述各文本行区域对应的名片信息。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
预处理模块,用于对所述名片图像进行预处理,其中,所述预处理包括名片区域的提取、去噪、倾斜校正、透视校正处理中的至少一项。
9.如权利要求7所述的装置,其特征在于,所述文字识别模型,通过以下模块进行训练:
生成模块,用于利用不同的字体、字形以及畸变的规则,生成样本图像;
标注模块,用于对所述样本图像中的文字进行标注;
训练模块,用于利用标注后的样本图像,对初始的深度学习模型进行训练,得到所述文字识别模型。
10.如权利要求7-9中任一所述的装置,其特征在于,所述装置还包括:
识别模块,用于对所述名片信息进行校正后,识别校正后的名片信息所包含的信息类型;
所述获取模块,还用于获取所述校正后的名片信息中与所述信息类型对应的信息片段;
存储模块,用于根据所述信息类型对所述信息片段进行分类存储。
CN201910360584.6A 2019-04-30 2019-04-30 名片识别方法和装置 Active CN110135411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910360584.6A CN110135411B (zh) 2019-04-30 2019-04-30 名片识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910360584.6A CN110135411B (zh) 2019-04-30 2019-04-30 名片识别方法和装置

Publications (2)

Publication Number Publication Date
CN110135411A true CN110135411A (zh) 2019-08-16
CN110135411B CN110135411B (zh) 2021-09-10

Family

ID=67575886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910360584.6A Active CN110135411B (zh) 2019-04-30 2019-04-30 名片识别方法和装置

Country Status (1)

Country Link
CN (1) CN110135411B (zh)

Cited By (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633649A (zh) * 2019-08-22 2019-12-31 广东博智林机器人有限公司 机械图的审核方法及装置
CN111325117A (zh) * 2020-02-05 2020-06-23 北京字节跳动网络技术有限公司 目标对象识别模型的训练方法、装置和电子设备
CN111414816A (zh) * 2020-03-04 2020-07-14 沈阳先进医疗设备技术孵化中心有限公司 信息提取方法、装置、设备和计算机可读存储介质
CN111695439A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 图像结构化数据提取方法、电子装置及存储介质
CN112257719A (zh) * 2020-10-14 2021-01-22 深圳市天维大数据技术有限公司 一种文字识别方法、系统及存储介质
WO2021056255A1 (en) * 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
CN112883953A (zh) * 2021-02-22 2021-06-01 中国工商银行股份有限公司 基于联合学习的卡片识别装置及方法
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN113095072A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
CN113762292A (zh) * 2020-06-03 2021-12-07 杭州海康威视数字技术股份有限公司 一种训练数据获取方法、装置及模型训练方法、装置
CN113887484A (zh) * 2021-10-20 2022-01-04 前锦网络信息技术(上海)有限公司 一种卡片式文件图像识别方法和装置
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
CN115004261A (zh) * 2020-01-17 2022-09-02 微软技术许可有限责任公司 文本行检测
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US12051413B2 (en) 2015-09-30 2024-07-30 Apple Inc. Intelligent device identification
US12067985B2 (en) 2018-06-01 2024-08-20 Apple Inc. Virtual assistant operations in multi-device environments
US12073147B2 (en) 2013-06-09 2024-08-27 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
US20140270528A1 (en) * 2013-03-13 2014-09-18 Amazon Technologies, Inc. Local image enhancement for text recognition
CN105046254A (zh) * 2015-07-17 2015-11-11 腾讯科技(深圳)有限公司 字符识别方法及装置
CN105825211A (zh) * 2016-03-17 2016-08-03 世纪龙信息网络有限责任公司 名片识别方法、装置及系统
US10002301B1 (en) * 2017-09-19 2018-06-19 King Fahd University Of Petroleum And Minerals System, apparatus, and method for arabic handwriting recognition
CN108427950A (zh) * 2018-02-01 2018-08-21 北京捷通华声科技股份有限公司 一种文字行检测方法及装置
CN108710866A (zh) * 2018-06-04 2018-10-26 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN108921166A (zh) * 2018-06-22 2018-11-30 深源恒际科技有限公司 基于深度神经网络的医疗票据类文本检测识别方法及系统
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799879A (zh) * 2012-07-12 2012-11-28 中国科学技术大学 从自然场景图像中识别多言语、多字体文字的方法
US20140270528A1 (en) * 2013-03-13 2014-09-18 Amazon Technologies, Inc. Local image enhancement for text recognition
CN105046254A (zh) * 2015-07-17 2015-11-11 腾讯科技(深圳)有限公司 字符识别方法及装置
CN105825211A (zh) * 2016-03-17 2016-08-03 世纪龙信息网络有限责任公司 名片识别方法、装置及系统
US10002301B1 (en) * 2017-09-19 2018-06-19 King Fahd University Of Petroleum And Minerals System, apparatus, and method for arabic handwriting recognition
CN108427950A (zh) * 2018-02-01 2018-08-21 北京捷通华声科技股份有限公司 一种文字行检测方法及装置
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN108710866A (zh) * 2018-06-04 2018-10-26 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN108921166A (zh) * 2018-06-22 2018-11-30 深源恒际科技有限公司 基于深度神经网络的医疗票据类文本检测识别方法及系统
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ONG YI LING等: "A Model for Automatic Recognition of Vertical Texts in Natural Scene Images", 《2018 8TH IEEE INTERNATIONAL CONFERENCE ON CONTROL SYSTEM, COMPUTING AND ENGINEERING (ICCSCE)》 *
王涛等: "基于语义分割技术的任意方向文字识别", 《应用科技》 *

Cited By (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US12073147B2 (en) 2013-06-09 2024-08-27 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US12118999B2 (en) 2014-05-30 2024-10-15 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US12067990B2 (en) 2014-05-30 2024-08-20 Apple Inc. Intelligent assistant for home automation
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US12051413B2 (en) 2015-09-30 2024-07-30 Apple Inc. Intelligent device identification
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US12026197B2 (en) 2017-05-16 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US12061752B2 (en) 2018-06-01 2024-08-13 Apple Inc. Attention aware virtual assistant dismissal
US12067985B2 (en) 2018-06-01 2024-08-20 Apple Inc. Virtual assistant operations in multi-device environments
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US12080287B2 (en) 2018-06-01 2024-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110633649A (zh) * 2019-08-22 2019-12-31 广东博智林机器人有限公司 机械图的审核方法及装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
WO2021056255A1 (en) * 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN113095072A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
CN115004261A (zh) * 2020-01-17 2022-09-02 微软技术许可有限责任公司 文本行检测
CN111325117B (zh) * 2020-02-05 2024-01-26 北京字节跳动网络技术有限公司 目标对象识别模型的训练方法、装置和电子设备
CN111325117A (zh) * 2020-02-05 2020-06-23 北京字节跳动网络技术有限公司 目标对象识别模型的训练方法、装置和电子设备
CN111414816B (zh) * 2020-03-04 2024-03-08 东软医疗系统股份有限公司 信息提取方法、装置、设备和计算机可读存储介质
CN111414816A (zh) * 2020-03-04 2020-07-14 沈阳先进医疗设备技术孵化中心有限公司 信息提取方法、装置、设备和计算机可读存储介质
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111695439B (zh) * 2020-05-20 2024-05-10 平安科技(深圳)有限公司 图像结构化数据提取方法、电子装置及存储介质
CN111695439A (zh) * 2020-05-20 2020-09-22 平安科技(深圳)有限公司 图像结构化数据提取方法、电子装置及存储介质
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
CN113762292A (zh) * 2020-06-03 2021-12-07 杭州海康威视数字技术股份有限公司 一种训练数据获取方法、装置及模型训练方法、装置
CN113762292B (zh) * 2020-06-03 2024-02-02 杭州海康威视数字技术股份有限公司 一种训练数据获取方法、装置及模型训练方法、装置
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
CN112257719A (zh) * 2020-10-14 2021-01-22 深圳市天维大数据技术有限公司 一种文字识别方法、系统及存储介质
CN112883953A (zh) * 2021-02-22 2021-06-01 中国工商银行股份有限公司 基于联合学习的卡片识别装置及方法
CN113887484A (zh) * 2021-10-20 2022-01-04 前锦网络信息技术(上海)有限公司 一种卡片式文件图像识别方法和装置
CN116912852B (zh) * 2023-07-25 2024-10-01 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN110135411B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110135411A (zh) 名片识别方法和装置
Ahmed et al. Handwritten Urdu character recognition using one-dimensional BLSTM classifier
Rajaraman Introduction to information technology
EP3437019B1 (en) Optical character recognition in structured documents
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
CN109800761A (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
CN103995904B (zh) 一种影像档案电子资料的识别系统
US6351559B1 (en) User-enclosed region extraction from scanned document images
JP2008276766A (ja) フォーム自動埋込方法及び装置
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
US20200184267A1 (en) System to extract information from documents
US20220398858A1 (en) Systems and methods for spatial-aware information extraction from electronic source documents
Malakar et al. An image database of handwritten Bangla words with automatic benchmarking facilities for character segmentation algorithms
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
Jain et al. BLSTM neural network based word retrieval for Hindi documents
CN110135412A (zh) 名片识别方法和装置
Igorevna et al. Document image analysis and recognition: a survey
CN114419636A (zh) 文本识别方法、装置、设备以及存储介质
Hung et al. Automatic vietnamese passport recognition on android phones
Kim et al. On text localization in end-to-end OCR-Free document understanding transformer without text localization supervision
CN106557733A (zh) 信息处理装置和信息处理方法
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant