CN110326000A - 基于终端用户输入的字符识别模型和递归训练的系统和方法 - Google Patents

基于终端用户输入的字符识别模型和递归训练的系统和方法 Download PDF

Info

Publication number
CN110326000A
CN110326000A CN201880013581.9A CN201880013581A CN110326000A CN 110326000 A CN110326000 A CN 110326000A CN 201880013581 A CN201880013581 A CN 201880013581A CN 110326000 A CN110326000 A CN 110326000A
Authority
CN
China
Prior art keywords
character
image
code
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880013581.9A
Other languages
English (en)
Other versions
CN110326000B (zh
Inventor
威廉·帕特里克·布兰特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Coca Cola Co
Original Assignee
Coca Cola Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Coca Cola Co filed Critical Coca Cola Co
Publication of CN110326000A publication Critical patent/CN110326000A/zh
Application granted granted Critical
Publication of CN110326000B publication Critical patent/CN110326000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

一种读取多字符代码的系统和过程的一个实施例可以包括响应于接收到所述多字符代码的图像,标识所述代码的各个字符所在的区域。可以将所标识的区域应用于神经网络以确定所标识的区域中的所述各个字符。可以以有序的序列显示所确定的字符以供用户可视地检查,以便确认所确定的每个字符都是正确的。

Description

基于终端用户输入的字符识别模型和递归训练的系统和方法
相关申请的交叉引用
本申请要求2017年2月17日提交的美国临时专利申请序列号62/460,601的权益,所述临时专利申请的披露内容通过援引明确地并入本文。
背景技术
品牌忠诚度对营销商尤其是消费品营销商非常重要。品牌忠诚度可以通过多种方式构建和维护。创建和维护品牌忠诚度的一种方式是通过奖励积分。消费者通常通过购买或使用产品或服务来收集奖励积分。对于食品和饮料公司,例如,产品可以单独标记有消费者可以输入网站的忠诚度代码(下文中称为“代码”),并且接收与由营销商创建的代码相关联的积分或其他利益(例如,即时奖励)。作为特定示例,一个饮料产品营销商在瓶盖的下表面、多饮料纸盒的内表面、或者饮料瓶、纸盒、或其他产品包装上的其他地方印刷代码(通常具有14个字符)。
随着技术的进步,尤其是移动设备和云网络通信,已经设想了更容易的收集代码的方法。在过去,消费者可以通过网站访问忠诚度账户,并且可以经由移动设备访问这些网站,用户可以在所述网站中输入代码。用于简化代码提交的一个过程已经设想使用智能电话的内置相机对代码进行成像。然而,对代码进行成像存在的问题在于:由于各种因素(包括字符的大小、相机的分辨率、覆盖部分代码的饮料污渍、代码字体、捕获代码时的照明和阴影、以及许多其他因素),智能手机对代码进行的成像以及对成像代码进行的图像处理不可靠。由于对代码(特别是用pin码字符格式印刷的代码)进行成像和图像处理造成问题的各种因素,使用常规的光学字符识别(OCR)不能提供商业上可靠的结果。因此,营销商一直不愿意支持移动成像解决方案,以免对消费者忠诚度产生负面影响。
发明内容
为了提供对消费者使用以及对营销商支持品牌忠诚度计划足够准确的成像能力和对代码(包括以pin码字符格式印刷的代码)的图像处理,可以利用一种具有商业上可接受的字符识别率的图像捕获和图像处理过程。图像处理可以包括通过神经网络使用机器学习,并且使用支持忠诚度计划的生产模式使消费者参与主动学习。
在实施例中,代码的字符可以用pin码字符格式印刷,如本领域所理解的,所述pin码字符格式包括提供低分辨率字符的点。已经发现,常规的光学字符识别(OCR)算法不能足够精确地处理pin码、低保真字符以满足商业用途。为了提供能够解析pin码字符的图像处理,实施例可以使用图像捕获、字符分割、以及神经网络字符识别建模和匹配过程。经过适当的训练后,所述过程可提供每个字符被准确标识的高置信度水平(例如,95%),其中,训练可以通过许多消费者的参与进一步使用主动学习,从而加速提高字符识别的准确性。在实施例中,诸如基于浏览器的用户界面或移动app之类的用户界面可以提供可能具有低置信度分数(例如,低于95%、80%、或其他)的一个或多个单独字符的反馈,所述低置信度分数表示通过图像处理未被正确识别或以足够高的概率识别的字符。
一种读取多字符代码的过程的一个实施例可以包括响应于接收到所述多字符代码的图像,标识所述代码的各个字符所在的区域。可以将所标识的区域应用于神经网络以确定所标识的区域中的所述各个字符。可以以有序的序列显示所确定的字符以供用户可视地检查,以便确认所确定的每个字符都是正确的。一种系统可以被配置用于支持所述过程。
一种方法的一个实施例可以包括接收包括多字符代码的图像的至少一个图像以及代表表示所述多字符代码的各个图像字符的文本字符的数据。可以接收用户输入数据的至少一部分。(多个)图像和数据可以应用于用于训练神经网络并配置用来处理图像以标识所述图像内的字符的图像和数据集。可以基于从用户接收到的(多个)图像和相应数据来更新神经网络。
附图说明
以下参照附图详细地描述了本发明的说明性实施例,将附图通过引用结合在此,并且在附图中:
图1是说明性场景(在本例中,具有包含饮料(诸如软饮料)的饮料瓶的场景)的图示;
图2是一组说明性消费品包装部件的图示,所述消费品包装部件包括可以使用pin码字符格式分别印刷代码于其上的瓶盖和纸盒;
图3是被配置用于支持利用如本文所描述的图像处理的消费者产品忠诚度计划的说明性网络环境的图示;
图4A至图4D是可以使用户能够捕获代码的说明性用户界面的屏幕截图;
图5A至图5D是示出用于训练神经网络以用于对代码的pin码字符进行图像处理的步骤的图示;
图6A和图6B是可用于支持促销奖励系统并包括操作用于对代码进行成像和标识的字符识别模型的一组说明性步骤;
图7是可以显示代码字符的说明性用户界面的屏幕截图;
图8是说明性过程的流程图,所述说明性过程提供对瓶盖、纸盒、或其他地方上的代码进行成像并对成像代码进行图像处理的附加细节;并且
图9是用于执行端到端pin码识别模型训练过程的说明性过程的流程图。
具体实施方式
关于图1,示出了说明性场景100(在本例中,具有包含饮料(诸如软饮料)的饮料瓶102的场景)的图示。饮料瓶102包括多字符代码106可以印刷于其上的盖子104。通常,多字符代码106可以使用低分辨率pin码字符格式印刷,并且可以定位在盖子104的内表面上,以便在用户购买后并打开时可供使用。代码106可以被提交给网站,并且与由产品(在这种情况下是饮料)的营销商创建的代码106相关联的值可以应用于用户的账户。
如进一步示出的,可以使用移动设备108(诸如智能手机)来使用存在于电子设备108上的标准相机特征对代码进行成像。用户界面110可以提供显示代码106的图像112,并且可以显示通过对代码106的图像114进行图像处理而确定的字符集116。如本文进一步描述的,图像处理可以使用神经网络,以便以商业上可接受的商业上令人满意的速率提供pin码字符识别。如进一步示出的,在字符集116内,不能被神经网络(诸如卷积神经网络(CCN))解释或以低置信度或概率水平被神经网络解释或匹配的空白字符点(示出为下划线)可被显示,使得用户可以能够为以低概率匹配标识的那些字符手动添加和/或校正字符。在实施例中,可以在移动设备108上使用用户界面键盘或音频转录特征。用户界面110还可以使用户能够改变所有字符,但是通过图像处理不能解释的字符可以显示为空白字符(例如,下划线)或其他标记(例如,以其他格式(诸如以红色、以粗体、在方框内、或以其他方式)显示的字符)。
关于图2,示出了一组说明性消费品包装部件200的图示,包括可以使用pin码字符格式分别印刷代码204a至204h于其上的瓶盖202a至202f和纸盒202g至202h。也可以利用其他印刷格式。如所示出的,瓶盖202a至202f各自具有不同的颜色,并且相应的代码204a至204f各自以不同的颜色印刷。瓶盖202a至202f的颜色可以在从浅色到深色的范围内,包括白色、灰色、绿色、红色、黑色、或任何其他颜色,所述瓶盖的颜色可以被认为是相对于印刷于其上或在盖子前面显示的代码的颜色的背景颜色。代码204可以以前景色印刷,所述前景色也可以例如在从白色到黑色的范围内。如本领域所理解的,可以在印刷的代码上设置可以是透明或半透明并且用于瓶子密封目的塑料或其他基底部件,并且塑料部件可以具有与代码的颜色(例如,黑色)不同的颜色(例如,浅蓝色)。可替代地,代码可以印刷在塑料部件上。当印刷的代码由用户成像时,如本文进一步描述的,塑料部件倾向于引入一定量的图像噪声或图像失真。纸盒202g和202h可以具有印刷于其上的代码204g和204h,并且纸盒202g和202h可以具有与盖子202a至202f不同的纹理、颜色、和印刷质量。
在实施例中,代码204g被印刷在单行上,而代码204a至204f和204h被印刷在两行上。应当理解,代码可以以各种不同的格式和不同数量的字符印刷。在实施例中,代码可以被编码为包括某些元数据,包括产品标识符、生产日期、特定促销、背景颜色和/或前景颜色、和/或营销商为了支持产品促销、制造、分销、和/或忠诚度计划所期望的任何其他元数据。
关于图3,示出了被配置用于支持利用如本文所描述的图像处理的消费者产品忠诚度计划的说明性网络环境300的图示。网络环境300可以包括移动设备302,在所述移动设备上用户界面304被示出为包括成像瓶盖306,所述成像瓶盖包括印刷于其上的成像代码308。应当理解,用户可以对其上可以印刷代码以用于营销商的促销目的或其他目的其他对象进行成像。使用如本文进一步描述的图像处理从成像代码308中确定的字符集或其他310被示出。此外,应当理解,多字符代码106(图1)可以印刷在各种不同的基底上,包括塑料(例如,瓶盖下面)、纸板(例如,包含多种饮料产品的纸盒内部)、纸张(例如,刮刮卡、电话卡等)等等。此外,多字符代码106可以是结构化句子、单词或其他形式。
移动设备302可以包括电子器件312,所述电子器件包括运行软件316的处理单元314。软件316可以被配置用于操作移动设备,并且还可以被配置用于参与或执行图像处理以确定成像代码308的字符。处理单元314可以与存储器318、输入/输出(I/O)单元320、以及电子显示器320(例如,触摸屏)通信,所述存储器可以存储数据(诸如成像的瓶盖306和代码308、字符匹配数据)、添加字符匹配数据等,所述I/O单元被配置用于在通信网络上进行通信,所述电子显示器用于显示用户可以与之交互的用户界面。
移动设备302可以以多种方式配置以提供支持对成像代码308的图像处理。说明性配置可以包括将整个图像、图像的一部分、和/或确定的代码传送到云服务器,用于向移动设备用户的账户进行注册。在实施例中,可以包括用户ID、奖励账户ID、图像数据、确定的代码数据、打包标识数据、和/或位置的奖励数据集324可以经由通信网络326从移动设备302传送到服务器328。附加的和/或替代的信息可以与奖励数据324一起被传送,以用于忠诚度计划或其他计划。
图像数据可包括成像代码308的一个或多个图像片段。在实施例中,软件316可以被配置用于确定各个字符位于其中的成像代码308的子区域。应当理解,附加信息可以与奖励数据324一起被包括,所述附加信息诸如移动ID、照明信息、颜色信息、和/或与成像代码、盖子、或可以用于处理成像代码308的其他物相关联的任何其他信息。此外,由用户输入的(多个)字符形式的校正数据和/或训练数据可以与奖励数据324通信,使得可以以主动学习模式对由服务器328运行的神经网络进行训练,以改进未来的图像处理。
服务器328可以包括运行软件332的处理单元330。软件332可以被配置用于操作和管理用于确定成像代码308的字符的神经网络。处理单元328可以与以下各项进行通信:可以存储数据(诸如成像瓶盖306和代码308)的存储器334、被配置用于在通信网络326上进行通信的输入/输出(I/O)单元336、以及可以于其上操作一个或多个数据存储库340的存储单元338。所述一个或多个数据存储库340可以存储参与消费者产品的一个或多个奖励计划的用户的账户。软件332可以被配置用于支持主神经网络或中央神经网络,所述主神经网络或中央神经网络用于对包括代码字符(诸如具有pin码字符格式的成像代码308)的图像执行图像处理。应当理解,神经网络可以在与管理忠诚度或奖励计划的用户账户的服务器分开的服务器上执行。在操作中,托管神经网络(或其主副本)的服务器可以彼此通信,使得奖励计划服务器响应于接收到与图像代码308的通信以及奖励数据324,可以将图像代码和/或奖励数据324传送到神经网络服务器以由其进行处理。
首先可以训练神经网络,然后响应于用户反馈基于主动学习来更新神经网络,并且可以集中地维护神经网络。可以将神经网络下载到网络326的本地或“边缘”服务器或者下载到参与忠诚度计划的消费者的移动设备以在其上运行,其中,如在本领域中理解的,神经网络或任何其他在移动app中或经由浏览器操作。应当理解,使用神经网络(包括训练和E主动学习)的图像处理可以在移动设备上、或在网络上、或其组合上执行。
关于图4A至4D,示出了可以使用户能够捕获代码的说明性用户界面402的屏幕截图400a至400d。用户界面402首先可以为用户提供消息,所述消息请求用户提供对用户界面正在其上操作的移动设备的相机的访问。响应于用户接受允许app使用相机,用户界面402可以向用户呈现用户将对代码进行成像的成像区域406,如图4B所示出的。在一个实施例中,用户可以能够扫描机器可读代码(例如,条形码、QR码)或文本(例如,14字符代码)或其他字符。如图4C所示出的,由移动设备运行的app可以确定代码完全包含在区域406中的图像内并且自动捕获图像并在用户界面402上显示代码已被成功捕获的消息408。可替代地,用户可以手动捕获(多个)字符410和/或代码。如图4D所示出的,如本文进一步描述的,字符序列410可以在通过神经网络从成像代码中确定之后被显示。
神经网络可以由移动设备、远程服务器、或其组合来运行。响应于确定一个或多个字符已被确定具有低于概率阈值水平的确定性概率,可以显示空白字符或替代格式(例如,不同颜色,诸如红色或其他高亮)的字符,以指示用户校正或校验这些字符。如所指示的,确定字符412a和412b具有比概率阈值低的确定性,从而需要用户确认或校正那些字符412a和412b。可以向用户呈现空白字符(如图1和图3中用下划线示出的),而不是显示不同格式的、确定性水平小于确定性阈值的字符。再者,如果正确标识或识别字符的概率水平在诸如约80%和约95%的范围以内,则所确定的字符可以以与被确定具有高于概率阈值水平的概率的字符不同的格式显示。如果确定性水平低于较低概率阈值水平(诸如约80%),则空白字符可以以与被确定为具有超过较低概率阈值水平的概率的那些字符不同的格式显示。在实施例中,可以是卷积神经网络的神经网络可以由移动设备操作,或者可以将用户提交的图像字符和/或(多个)文本字符的一个或多个图像传送到远程服务器以用于确定每个字符,并且可以将确定的字符传送回至移动设备以在用户界面402上显示。用户提交的字符可以被神经网络用于针对机器学习的主动学习。
关于图5A至5D,步骤500a至500d被示出用于训练神经网络以用于对代码的pin码字符进行图像处理。在实施例中,可以在应用程序针对消费者(即,参与奖励计划的移动设备的用户)变为“上线”之前执行训练阶段。在训练阶段期间,移动app可以被分发给一组专门用于训练的供应商,并且所述供应商还被给予一组瓶盖和纸板以经由训练app进行拍照和标记。步骤500a中的图像是专用训练app的说明性表示。一旦促销app在生产中上线(即,可用于促销计划的消费品),可以经由消费者输入来继续训练。
更具体地,所述过程可以从步骤500a处开始,在此处用户可以使用经由移动浏览器运行移动app或用户界面的移动设备501,并且基于Web的应用程序可以呈现用户界面502以捕获成像代码506印刷于其上的瓶盖504的图像。在步骤500b处,示出了包括各个成像字符510a至510n(统称为510)的图像片段或图像部分508a至508n(统称为508)。可以通过移动设备501运行的移动app从捕获的图像中分割图像部分508。可替代地,可以将成像代码506传送到在通信网络上操作的服务器,并且服务器可以执行对成像代码506中的字符的分割。通过标识每个字符510的图像部分508,通过神经网络使用字符识别过程的图像处理可以更加容易。
在步骤500c处,示出了可以与图像部分508相同的图像片段512a至512n(统称为512)以及可以是成像字符510的文本表示的字符514a至514n(统称为514)。可以由用户手动提交字符514以训练神经网络516。可替代地,可以使用图像处理来标识字符514,并由用户确认和/或校正。可以执行对神经网络516的训练,以便提高具有低分辨率并且以各种方式印刷和成像(例如,在不同颜色上且以不同颜色印刷、其上放置不同颜色的半透明基底、印刷在用不同光照捕获的不同基底上、被捕获具有不同的噪声成分、印刷在不同的位置,等等)的pin码字符的标识性能。由于参与奖励计划的移动设备的用户可能非常大,因此可以使用被提交的较大附加训练代码集快速地执行在生产时通过“主动学习”对神经网络516进行进一步训练(参见图6A和6B),从而导致非常准确的神经网络。在步骤500d处,可以通过使用诸如pin码图像518等测试pin码图像来执行模型准确度测试,在所述pin码图像中,神经网络516可以产生具有可用于确定字符识别模型对于成像代码的一个或多个字符置信度如何的置信度百分比520的输出。
关于图6A和6B,示出了可用于支持促销奖励系统并包括在生产期间操作用于对图像中的代码进行成像和标识的字符识别模型的一组说明性步骤600a至600h。在步骤600a处,移动设备602可以被配置用于显示用户界面604,所述用户界面包括由移动设备602的相机捕获的图像。如用户显示器604上示出的,成像瓶盖606包括印刷代码608。在实施例中,可以用图形表示来显示图像区域610,使得用户知道将代码608定位在图像区域610内以用于自动成像。在步骤600b处,在对代码608进行成像之后,在移动设备602上运行的app可以被配置用于生成包括区域612a至612n(统称为612)的图像片段,所述区域中包括成像字符614a至614n(统称为614)。可替代地,可以将成像瓶盖606发送到服务器,以由图像处理应用程序对其进行分割。如步骤600c所示出的,图像片段可以由神经网络616传送和/或处理,所述神经网络被配置为字符识别模型,以用于确定字符并提供与每个确定的字符618相关联的匹配概率。神经网络616可以在移动设备或远程服务器上运行。
如所示出的,可以多次执行确定的字符和匹配概率618,使得可以确定每个字符的总概率分数(例如,平均概率)。一旦确定了总概率分数,就可以判定这些单个概率分数是否高于最小概率分数阈值水平。如果概率分数高于最小概率分数阈值水平,则确定相关联的字符为已知的。如果总概率分数低于最小阈值概率值,则确定相关联的字符是未知的或具有某种不确定性水平,则app可以显示或不显示相关联字符供用户校正和/或确认。可以输出字符序列620以用于向用户提供与代码相关联的值作为忠诚度计划的一部分。可以另外地和/或可替代地向用户提供代码的其他用途。
在步骤600e处,可以支持用于递归训练的主动学习过程,在此处可以通过经由pin码API 622传送文本620来验证确定的代码620或pin码文本以用于代码620的验证。在实施例中,校验和算法可用于验证代码620,而无需与API通信。在步骤600f处,可以判定624pin码620是否有效。如果是,则在步骤626处不执行进一步处理。有效代码预测和相关图像可以存储在移动设备上并且传送回至网络服务器(未示出)以进一步训练神经网络。在实施例中,指示接收到有效代码的经验证代码或标志可以与用户ID/账户ID一起被发送到奖励服务器,使得奖励可以被发布到用户的账户、进入抽奖、或其他可能采取的动作。否则,所述过程可以将具有文本框628a和628b的用户界面604呈现给电子设备602的用户。在一个实施例中,用户界面604可以使用户能够选择性地输入pin码620的一个或多个字符。在实施例中,可以请求用户提交代码中的每个字符。在步骤600h处,输入到文本框628a和628b中的经校正pin码可以被传送回至网络服务器(未示出),以进一步训练神经网络630。
关于图7,示出了可以显示代码的字符702的说明性用户界面700的屏幕截图。例如,具有小于最小概率阈值(诸如95%)的概率的字符704a和704b可以高亮显示(例如,红色、粗体等)或者示出为具有下划线的空白字符或空格。用户可以确认、添加、和/或替换具有较低概率的字符以校正代码的字符。应当理解,可以替换任何字符702,但是可以高亮具有低正确概率的某些字符704a和704b以引起用户的注意。一旦完成,用户就可以选择“确认”软按钮706a。可替代地,用户可以进行“后退”软按钮706b。在实施例中,用户界面700可以阻止用户继续直到用户已经提交了具有低概率的字符。
关于图8,示出了说明性过程800的流程图,所述说明性过程提供对瓶盖、纸盒、或其他地方上的成像代码进行成像和图像处理的附加细节。通常,过程800可以标识代码印刷于其上的介质的类型,包括例如瓶盖或冰箱包装。另外,过程800可以确定未标识代码以避免过程800失败。可以如在每个流程路径中描述的那样执行过程800。特别地,可以标识和/或归一化颜色,以便提高标识和读取pin码字符的能力。
更具体地,如之前描述的,过程800可以包括接收从移动设备捕获的输入图像802。在步骤804处,可以使用三个不同的流程路径805a至805c来确定检测到什么类型的对象。作为示例,对象的类型可以包括瓶盖、冰箱包装、或什么都不包括。应当理解,在步骤804处同样还可以检测到其它类型的对象。
在一个实施例中,在检测对象是否是瓶盖时,过程800可以在步骤806处执行图像处理以检测圆圈。在检测是否存在任何圆圈时,可以判定是否有任何圆圈围绕代码,这表示代码被印刷在瓶盖的内表面上,如图2所示出的。圆圈检测步骤806可以进一步包括(i)将图像大小调整为标准大小(例如,将圆圈大小调整为与其他图像中的圆圈同样的大小),(ii)执行灰度调整,以及(iii)去除噪声。可以执行检测霍夫圆分析(Hough circle analysis)以处理图像,并且可以裁剪实际图像以隔离瓶盖。
在步骤808处,可以执行颜色检测。在执行颜色检测时,可以通过使颜色通过经训练TensorFlow MLP颜色检测模型来执行颜色特征计算,以检测瓶盖的颜色。发送到矩形检测的图像可以转换为更亮的背景和更暗的字体。
响应于确定盖子是黑色/灰色,在步骤810处检测瓶盖矩形之前可以反转像素值。对于其他颜色的盖子可以不反转像素值。在步骤810处,在检测到瓶盖为矩形时,可以使灰度图像中的照度变平。另外,为了获得清晰的二值化图像,可以利用阈值,使得可以区分亮色和暗色(例如,低于阈值亮度水平为暗,而高于阈值亮度水平为亮)。在步骤812处,可以执行文本检测模型。在执行文本检测模型时,可以对图像进行归一化和调整大小。可以将调整的图像通过经训练的tensor flow CNN模型以从裁剪的二值化图像中标识文本。在步骤814处,可以执行字符预测以预测正在处理的一个或多个字符的值。
在判定对象是否是流程路径805b中的冰箱包装时,可以在步骤816处执行纸板矩形检测。在步骤816处执行纸板矩形检测时,可以将图像大小调整为标准大小。图像也可以被调整灰度,并且可以应用自适应阈值以产生二值化图像。此外,可以去除小岛和大块噪声以确定实际文本区域。之后可以裁剪图像。在步骤818处,可以将文本检测模型应用于调整后的图像,并且在步骤814处,可以对图像中的字符进行预测。
如果在步骤804处没有检测到对象,则过程800可以遵循流程路径805c并且在步骤820处简单地返回在图像中没有标识出字符和/或代码的响应。
关于图9,示出了用于执行端到端pin码识别模型训练过程的说明性过程900的流程图。过程900可以在步骤902处提供标记图像的生成、在步骤904处提供训练(损失最小化)、以及在步骤906处执行对测试图像的验证。
更具体地,在步骤902处生成标记图像时,可以在步骤908处创建空白背景图像。在步骤910处,可以在空白图像上生成具有随机选择的字体的随机文本字符串。在步骤912处,可以用不同的旋转将带有文本的空白图像粘贴在随机选择的背景上,并且可以在步骤914处将不同类型的噪声应用于图像。可以应用不同类型的噪声以提高模型的鲁棒性。在步骤916处,可以应用阈值来对整个图像进行二值化。
在步骤902处生成标记图像之后,可以在步骤904处执行训练(损失最小化)。在执行训练时,可以在步骤918处声明训练参数(例如,学习率、初始权重、批次大小等)。在步骤920处,可以读取生成的图像批次,然后调整图像的大小并归一化。在步骤922处,可以将图像和相关联的pin码字符串馈送到卷积神经网络(CNN)模型以由其进行处理。在步骤924处,可以在每个损失最小化之后更新神经网络模型的权重,并且在步骤926处,可以在一定次数的迭代之后保存更新的权重。如本领域所理解的,每个损失最小化之后的经更新权重可以应用于用于神经网络的模型架构928。在实施例中,可以利用如本领域所理解的利用多次迭代和损失函数的超帧(hyperframe)。训练集还可以包括印刷在消费品包装上的真实pin码的图像。用户可以在训练或主动学习过程中创建图像。
步骤906中对测试图像的验证过程可以包括在步骤930处通过字符准确度曲线跟踪神经网络模型性能的步骤、以及在步骤932处在一定次数的迭代之后报告对测试图像的预测准确度的步骤。过程900还可以包括在步骤934处提取具有嵌入权重的模型,并且在步骤936处量化模型以减小文件大小。
前述方法描述和过程流程图仅作为说明性实例提供并且不旨在要求或暗示各个实施例的步骤必须按所呈现的顺序执行。如本领域的技术人员将理解的,前述实施例中的步骤可以以任何顺序执行。如“然后(then)”、“下一个(next)”等词不旨在限制步骤的顺序;这些词只用来引导读者阅读所述方法说明。尽管过程流程图可以将操作描述为顺序过程,但是可以并行地或同时地执行所述操作中的许多操作。另外,可以重新安排操作的顺序。过程可以对应于方法、函数、过程、子例程、子程序等。当过程对应于函数时,其终止可以对应于函数返回到调用函数或主函数。
结合此处所披露的实施例来描述的各种说明性逻辑块、模块、电路和算法步骤可以被实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可交换性,以上已经总体上按照它们的功能而描述了各种说明性部件、块、模块、电路和步骤。将这种功能实施为硬件还是软件取决于强加于整个系统上的特定应用和设计约束。熟练的技术人员可以针对每个特定应用以不同方式来实施所描述的功能,但是这种实施决策不应该被解释为导致脱离本发明的范围。
在计算机软件中实施的实施例可以在软件、固件、中间件、微代码、硬件描述语言或其任何组合中实施。代码段或机器可运行指令可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类、或者指令、数据结构和/或程序语句的任何组合。可以通过传递和/或接收信息、数据、自变量、参数或存储器内容将代码段联接至另一个代码段或者硬件电路上和/或与另一个代码段或者硬件电路通信。信息、自变量、参数、数据等可以经由包括存储器共享、消息传递、令牌传递、网络传输等的任何合适的方式传递、转发或者传输。
用于实施这些系统和方法的实际软件代码或专用控制硬件不限制本发明。因此,在没有参照特定软件代码的情况下描述了系统和方法的操作和行为,所述特定软件代码被理解为可以将软件和控制硬件设计为基于此处的描述来实施系统和方法。
当在软件中实施时,函数可以作为一个或多个指令或代码被存储在非暂态计算机可读或处理器可读存储介质上。此处所披露的方法或算法的步骤可以在处理器可运行软件模块中实施,所述处理器可运行软件模块可以驻留在计算机可读或处理器可读存储介质上。非暂态计算机可读或处理器可读介质包括促进计算机程序从一个位置转移至另一位置的计算机存储介质和有形存储介质两者。非暂态处理器可读存储介质可以是可以由计算机访问的任何可用介质。举例来讲但非限制地,这种非暂态处理器可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备、或可以用于以指令或数据结构的形式存储所期望的程序代码并且可以由计算机或处理器访问的任何其他有形存储介质。如此处所使用的,磁盘和光盘包括致密盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应包括在计算机可读介质的范围内。另外,方法或算法的操作可以作为代码和/或指令之一或任何组合或集合驻留在非暂态处理器可读介质和/或计算机可读介质上,所述非暂态处理器可读介质和/或计算机可读介质可以并入计算机程序产品中。
先前描述是对用于实施本发明的优选实施例的描述,并且本发明的范围不应该必须受到此描述的限制。而是通过以下权利要求来限定本发明的范围。

Claims (24)

1.一种读取多字符代码的方法,所述方法包括:
响应于接收到所述多字符代码的图像,标识所述代码的各个字符所在的区域;
将所标识的区域应用于神经网络以确定所标识区域中的所述各个字符;以及
以有序的序列显示所确定的字符以供用户可视地检查,以便确认所确定的每个字符都是正确的。
2.根据权利要求1所述的方法,其中,接收所述多字符代码的所述图像包括接收所述字符用PIN码字符印刷于其中的所述多字符代码的所述图像。
3.根据权利要求2所述的方法,其中,接收所述图像包括接收由用户的移动设备捕获的图像,并且其中,所述多字符代码是从消费品包装中捕获的。
4.根据权利要求1所述的方法,进一步包括:
归一化包括用来调整所述图像的至少一部分的颜色的代码的所述图像的所述至少一部分;并且
其中,将所标识的区域应用于所述神经网络包括应用已经归一化的所标识区域。
5.根据权利要求1所述的方法,其中,显示所确定的字符包括显示具有如由所述神经网络确定的超过阈值概率水平的概率水平的所确定的字符;并且
进一步包括以不同于被确定为具有超过所述阈值概率水平的概率水平的字符的格式显示被确定为具有低于所述阈值概率水平的概率水平的相应一个或多个字符的一个或多个字符,以便通知所述用户提供以不同格式显示的所述代码的一个或多个经校正字符。
6.根据权利要求5所述的方法,进一步包括:使用户能够为不同格式的所述字符中的每一个输入所述一个或多个经校正字符。
7.根据权利要求5所述的方法,进一步包括:响应于从所述用户接收到所述一个或多个经校正字符,将所述一个或多个经校正字符应用于训练字符集,以训练所述神经网络。
8.根据权利要求1所述的方法,其中,使所述用户能够输入经校正字符包括使所述用户能够键入或口头输入所述一个或多个经校正字符。
9.根据权利要求1所述的方法,进一步包括:确定所述代码印刷于其上的介质。
10.根据权利要求1所述的方法,其中,确定所述代码印刷于其上的介质包括确定是否有圆圈围绕所述代码。
11.根据权利要求1所述的方法,进一步包括:在视觉上高亮被确定为具有低于概率阈值水平的字符识别概率的字符中的一个或多个字符或字符位置。
12.根据权利要求1所述的方法,其中,在视觉上高亮一个或多个字符或字符位置包括以相对于具有高于所述概率阈值水平的字符识别概率的所显示字符的不同颜色、字体、背景或其他视觉区别特征来显示字符。
13.根据权利要求1所述的方法,进一步包括:检测围绕所述字符的几何形状。
14.根据权利要求13所述的方法,进一步包括:将所述几何形状的大小调整为标准大小。
15.根据权利要求14所述的方法,进一步包括:执行灰度调整和噪声去除。
16.根据权利要求1所述的方法,进一步包括:
确定与在所述有序的序列中所确定的字符相关联的相应值;以及
将所述相应值应用于与所述用户相关联的现有值集。
17.一种方法,包括:
接收包括多字符代码的图像的至少一个图像以及代表表示所述多字符代码的各个图像字符的文本字符的数据;
接收用户输入数据的至少一部分;
将所述至少一个图像和数据应用于图像和数据集,所述图像和数据集用于训练神经网络并被配置用于处理图像以标识所述图像内的字符;以及
基于从用户接收到的所述至少一个图像和相应数据来更新所述神经网络。
18.根据权利要求17所述的方法,进一步包括:
确定与表示所述文本字符的所述数据相关联的相应值;以及
将与表示所述文本字符的所述数据相关联的所述相应值应用于与所述用户相关联的现有值集。
19.根据权利要求17所述的方法,其中,接收所述至少一个图像包括接收所述多字符代码的每个字符的不同图像。
20.根据权利要求17所述的方法,其中,接收所述至少一个图像和数据包括经由无线通信网络接收所述至少一个图像和数据。
21.根据权利要求17所述的方法,其中,接收所述数据包括接收包括指示从所述用户接收的数据的所述至少一部分的标识符的数据。
22.根据权利要求17所述的方法,进一步包括:响应于确定所述神经网络由于被从所述用户接收到的所述至少一个图像和所述数据的一部分所更新而得到改进,将所述改进的神经网络或与其相关联的参数数据传送至所述用户的用于捕获所述至少一个图像的电子设备。
23.根据权利要求17所述的方法,进一步包括:在更新所述神经网络之前对所述图像进行归一化。
24.根据权利要求17所述的方法,进一步包括:
创建空白的背景图像;
在空白图像上生成具有随机选择的字体的随机文本字符串;
用不同的旋转将带有文本的所述空白图像粘贴在随机选择的背景上;
为所述图像添加不同类型的噪声;以及
应用阈值来对所述整个图像进行二值化。
CN201880013581.9A 2017-02-17 2018-02-15 基于终端用户输入的字符识别模型和递归训练的系统和方法 Active CN110326000B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762460601P 2017-02-17 2017-02-17
US62/460,601 2017-02-17
PCT/US2018/018331 WO2018152304A1 (en) 2017-02-17 2018-02-15 System and method for character recognition model and recursive training from end user input

Publications (2)

Publication Number Publication Date
CN110326000A true CN110326000A (zh) 2019-10-11
CN110326000B CN110326000B (zh) 2023-11-24

Family

ID=63170441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880013581.9A Active CN110326000B (zh) 2017-02-17 2018-02-15 基于终端用户输入的字符识别模型和递归训练的系统和方法

Country Status (5)

Country Link
US (1) US11210545B2 (zh)
EP (1) EP3583545A4 (zh)
CN (1) CN110326000B (zh)
AU (1) AU2018221709B2 (zh)
WO (1) WO2018152304A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019209573A1 (de) * 2019-06-29 2020-12-31 Robert Bosch Gmbh Verfahren zur Identifikation eines Erzeugnisses und Kamerasystem
CN113765621B (zh) * 2021-08-24 2023-10-20 湖南遥昇通信技术有限公司 基于云字符概率表的数据编码系统以及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
CN101336403A (zh) * 2006-01-25 2008-12-31 微软公司 通过按键的手写风格数据输入
TW200926033A (en) * 2007-07-18 2009-06-16 Steven Kays Adaptive electronic design
CN101840514A (zh) * 2009-03-19 2010-09-22 株式会社理光 图像对象分类装置及方法
US20140037181A1 (en) * 2012-07-31 2014-02-06 Lg Cns Co., Ltd. Character recognition method, character recognition apparatus and financial apparatus
CN103914680A (zh) * 2013-01-07 2014-07-09 上海宝信软件股份有限公司 一种喷印字符图像识别与校验系统及方法
US8983885B1 (en) * 2012-09-10 2015-03-17 FEM, Inc. Prospective media content generation using neural network modeling
US20150206033A1 (en) * 2014-01-21 2015-07-23 Abbyy Development Llc Method of identifying pattern training need during verification of recognized text
CN104901702A (zh) * 2009-07-28 2015-09-09 洛桑联邦理工学院 数据存储器件
US20150371085A1 (en) * 2014-06-19 2015-12-24 Bitlit Media Inc. Method and system for identifying books on a bookshelf
CN105260734A (zh) * 2015-10-10 2016-01-20 燕山大学 一种具有自建模功能的商品油表面激光标码识别方法
US20160086078A1 (en) * 2014-09-22 2016-03-24 Zhengping Ji Object recognition with reduced neural network weight precision
US20160350591A1 (en) * 2014-12-09 2016-12-01 A9.Com, Inc. Gift card recognition using a camera

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0131754B1 (en) 1992-03-19 1998-04-24 Fujitsu Ltd Neuro processing service system
US7428516B2 (en) 2005-06-23 2008-09-23 Microsoft Corporation Handwriting recognition using neural networks
US20140369566A1 (en) 2006-04-04 2014-12-18 Cyclops Technologies, Inc. Perimeter Image Capture and Recognition System
US9177210B2 (en) 2007-10-30 2015-11-03 Hki Systems And Service Llc Processing container images and identifiers using optical character recognition and geolocation
US20110093263A1 (en) * 2009-10-20 2011-04-21 Mowzoon Shahin M Automated Video Captioning
US20120029994A1 (en) 2010-07-28 2012-02-02 Symbol Technologies, Inc. Coupon organization using a bar code reader
US10198689B2 (en) * 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
KR20190039673A (ko) * 2016-05-24 2019-04-15 모포트러스트 유에스에이, 엘엘씨 문서 이미지 품질 평가
CA3052113A1 (en) * 2017-01-31 2018-08-09 Mocsy Inc. Information extraction from documents

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
CN101336403A (zh) * 2006-01-25 2008-12-31 微软公司 通过按键的手写风格数据输入
TW200926033A (en) * 2007-07-18 2009-06-16 Steven Kays Adaptive electronic design
CN101840514A (zh) * 2009-03-19 2010-09-22 株式会社理光 图像对象分类装置及方法
CN104901702A (zh) * 2009-07-28 2015-09-09 洛桑联邦理工学院 数据存储器件
US20140037181A1 (en) * 2012-07-31 2014-02-06 Lg Cns Co., Ltd. Character recognition method, character recognition apparatus and financial apparatus
US8983885B1 (en) * 2012-09-10 2015-03-17 FEM, Inc. Prospective media content generation using neural network modeling
CN103914680A (zh) * 2013-01-07 2014-07-09 上海宝信软件股份有限公司 一种喷印字符图像识别与校验系统及方法
US20150206033A1 (en) * 2014-01-21 2015-07-23 Abbyy Development Llc Method of identifying pattern training need during verification of recognized text
US20150371085A1 (en) * 2014-06-19 2015-12-24 Bitlit Media Inc. Method and system for identifying books on a bookshelf
US20160086078A1 (en) * 2014-09-22 2016-03-24 Zhengping Ji Object recognition with reduced neural network weight precision
US20160350591A1 (en) * 2014-12-09 2016-12-01 A9.Com, Inc. Gift card recognition using a camera
CN105260734A (zh) * 2015-10-10 2016-01-20 燕山大学 一种具有自建模功能的商品油表面激光标码识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINGKUN SONG等: "Research of Numeral Character Recognition Technology Based on Wavelet Analysis and RBF Neural Networks", pages 1 - 4, Retrieved from the Internet <URL:《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6067567》> *
顾刚等: "基于神经网络的车牌识别技术研究", 《现代计算机》, no. 8, pages 75 - 80 *

Also Published As

Publication number Publication date
EP3583545A1 (en) 2019-12-25
US20200327352A1 (en) 2020-10-15
US11210545B2 (en) 2021-12-28
AU2018221709B2 (en) 2022-07-28
CN110326000B (zh) 2023-11-24
AU2018221709A1 (en) 2019-09-05
EP3583545A4 (en) 2021-01-13
WO2018152304A1 (en) 2018-08-23

Similar Documents

Publication Publication Date Title
CN108985214A (zh) 图像数据的标注方法和装置
SA109300619B1 (ar) طريقة ونظام لتعريف صنف
CN110879955B (zh) 使用具有深度学习的计算机视觉的数字质量控制
CN110326000A (zh) 基于终端用户输入的字符识别模型和递归训练的系统和方法
CA2917256A1 (en) Screenshot-based e-commerce
CN110135225B (zh) 样本标注方法及计算机存储介质
CN102737122A (zh) 一种提取网页中验证码图片的方法
CN109344904A (zh) 生成训练样本的方法、系统及存储介质
CN111414950B (zh) 基于标注者专业度管理的矿石图片标注方法和系统
KR20140079555A (ko) 위조품 방지를 위한 신제품의 정품확인시스템 및 정품확인방법
US20200342463A1 (en) Tracking Method for Containers Having Removable Closures
CN116681997B (zh) 一种不良场景图像的分类方法、系统、介质及设备
CN113361657A (zh) 用于识别烟箱箱号的装置、方法、烟丝装箱设备和工控机
CN108830126B (zh) 一种基于图像智能识别的产品营销互动方法
CN112686263A (zh) 文字识别方法、装置、电子设备及存储介质
JP6010318B2 (ja) 画像検査装置、画像検査方法、及びプログラム
US9860400B2 (en) Learning support device and learning support method
US10452903B2 (en) Information extraction device, image forming apparatus including information extraction device and method of controlling information extraction device
US10158770B1 (en) Image forming apparatus and control method for generating printing image information
KR101607128B1 (ko) 오답과 관련된 연관문제 제공방법
KR101893222B1 (ko) 문제 운영 시스템
KR102439120B1 (ko) 키오스크식 쿠폰 포인트 적립 방법 및 그 시스템
CN112395528A (zh) 文本标签判别方法、装置、电子设备及存储介质
JP2020053891A (ja) 情報処理装置、情報処理方法及びプログラム
US20190205899A1 (en) Method and system for identifying a product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant