CN110543812A - 信息提取方法及装置、电子设备及存储介质 - Google Patents

信息提取方法及装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110543812A
CN110543812A CN201910655011.6A CN201910655011A CN110543812A CN 110543812 A CN110543812 A CN 110543812A CN 201910655011 A CN201910655011 A CN 201910655011A CN 110543812 A CN110543812 A CN 110543812A
Authority
CN
China
Prior art keywords
key distribution
character string
distribution information
character
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910655011.6A
Other languages
English (en)
Inventor
王强
王佳军
龙力
孟冬伟
庞博
曹中兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lazas Network Technology Shanghai Co Ltd
Original Assignee
Lazas Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lazas Network Technology Shanghai Co Ltd filed Critical Lazas Network Technology Shanghai Co Ltd
Priority to CN201910655011.6A priority Critical patent/CN110543812A/zh
Publication of CN110543812A publication Critical patent/CN110543812A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例涉及信息处理技术领域,公开了一种信息提取方法及装置、电子设备及存储介质。通过识别采集的运单图像中的文字;提取识别出的文字中的关键配送信息字符串;对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串;可以帮助配送人员准确获取运单上的关键配送信息。

Description

信息提取方法及装置、电子设备及存储介质
技术领域
本发明涉及信息处理领域,特别涉及一种信息提取方法及装置、电子设备及存储介质。
背景技术
随着人们生活水平的提高,城市生活节奏的加快,越来越多的人选择外卖点餐服务来节约时间。在进行外卖订单配送的过程中,配送人员可根据纸质的小票上的信息找到配送地址等进行配送服务。
发明人发现相关技术中至少存在如下问题:配送人员每次都需要查看纸质菜单上的信息并进行配送服务,花费时间较长,影响配送效率。
发明内容
本发明实施方式的目的在于提供一种信息提取方法及装置、电子设备及存储介质,可以帮助配送人员准确获取运单上的关键配送信息。
为解决上述技术问题,本发明的实施方式提供了一种信息提取方法,包括:识别采集的运单图像中的文字;提取识别出的文字中的关键配送信息字符串;对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
本发明的实施方式还提供了一种信息提取装置,包括:识别模块,用于识别采集的运单图像中的文字;提取模块,用于提取识别出的文字中的关键配送信息字符串;校正模块,用于对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
本发明的实施方式还提供了一种电子设备,包括存储器和处理器,存储器存储计算机程序,处理器运行程序时执行识别采集的运单图像中的文字;提取识别出的文字中的关键配送信息字符串;对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
本发明的实施方式还提供了一种非易失性存储介质,用于存储计算机可读程序,计算机可读程序用于供计算机执行如上的信息提取方法。
本发明实施方式相对于现有技术而言,通过识别采集的运单图像中的文字,可获取到运单图像中包含的所有配送信息,提取出识别到的文字中的关键配送信息字符串,可将配送人员不感兴趣的信息全部过滤掉,帮助配送人员看到最有用的信息,对提取出的关键配送信息字符串进行校正处理,可使得配送人员能够准确获取到关键的配送信息,而且与配送人员用肉眼一行一行看运单上的信息去找关键的配送信息相比,本发明能够帮助配送人员更快获取到关键的配送信息。
另外,关键配送信息字符串包括地址字符串;在对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串之后,还包括:根据校正后的关键配送信息字符串确定配送地址,并根据配送地址提供导航服务。将配送地址作为关键配送信息提取出来,可帮助骑手快速确定配送的方位,而且,直接根据确定出的配送地址为配送人员提供导航服务,可省去配送人员手动输入配送地址进行导航的过程,进一步帮助配送人员快速完成订单任务,提升配送效率。
另外,上述对关键配送信息字符串进行校正处理,具体包括:对关键配送信息字符串中的每个字符进行打分;找出得分异常的字符作为错误字符;选择目标形近字替换错误字符。对关键信息字符串中的每个字符进行打分,并将得分异常的字符作为错误字符,寻找错误字符的方法可靠性高。
另外,选择目标形近字替换错误字符,具体包括:获取与错误字符对应的多个形近字,依次计算各个形近字替换错误字符后的关键配送信息字符串的困惑度;确定目标字符串,目标字符串为满足预设困惑度条件的进行替换操作后的关键配送信息字符串;将目标字符串中的形近字作为目标形近字替换错误字符。使用困惑度来衡量替换操作后的字符串的正确性,衡量结果可靠,选择满足困惑度的关键配送信息字符串来作为目标字符串,可使得替换的字符串更接近正确的字符串,从而使得配送人员能够更准确地获取关键配送信息。
另外,上述预设困惑度条件为困惑度最低。选择困惑度最低的进行替换操作后的关键配送信息字符串作为目标字符串,使得替换的字符串尽可能接近正确的字符串,从而为配送人员提供更准确的服务。
另外,在上述对关键配送信息字符串进行校正处理之前,还包括:计算关键配送信息字符串的困惑度,判断关键配送信息字符串的困惑度是否大于预设阈值,若是,则再执行对关键配送信息字符串进行校正处理。对提取出的关键配送信息字符串进行困惑度的计算,仅在困惑度大于预设阈值时才对该关键配送信息字符串进行校正处理,而不是每次都对提取出的关键配送信息字符串进行校正处理,避免了不必要的运算量,减少资源浪费。
另外,上述识别采集的运单图像中的文字,具体包括:分割运单图像,得到各个文本行;分别识别各个文本行中的文字。提供了一种具体的识别采集的运单图像中的文字的方法,对图像中的文字进行逐行识别,方案可行性高。
另外,上述分别识别各个文本行中的文字,具体为:对各个文本行进行方向校正;采用卷积神经网络模型提取各个文本行中的文字特征;将文字特征转化为文字。采用卷积神经网络模型来对识别文字模型稳定可靠。
另外,上述关键配送信息字符串至少包括:地址字符串,和/或,电话号码字符串。在进行外卖订单配送的过程中,配送人员最关心的是配送地址和用户的电话号码,将无效信息过滤,方便配送人员获取关键配送信息,提高配送效率。
附图说明
图1是根据本发明第一实施方式中的信息提取方法流程图;
图2是根据本发明第二实施方式中的信息提取方法流程图;
图3是根据本发明第三实施方式中的信息提取方法流程图;
图4是根据本发明第四实施方式中的信息提取装置结构示意图;
图5是根据本发明第五实施方式提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种信息提取方法,如图1所示,该方法包括:
步骤S101,识别采集的运单图像中的文字。
具体地说,配送人员在取餐后,使用携带的终端设备对餐品运单进行拍照,使得终端设备采集到运单图像,并通过图像识别技术对运单图像中的文字进行识别。
在本实施方式中,首先,终端设备会采用pixel-link方法,对采集到的运单图像二值化后进行分割处理,得到各个文本行,再分别识别各个文本行中的文字。其中,在对各个文本行进行分割时,会判断图像中的每个像素是否为文字对应的像素,并且会预测各个文字像素之间的连接关系,从而判断各个文字像素是否属于同一个文本行(同一个文本行的文本像素是有连接关系的,不同的文本行像素是没有连接关系的)。在得到各个文本行之后,还可对识别出的文本行作最小外接矩形,从而可以得到每个文本行对应的文本行坐标,由文本行坐标来定位每个文本行。在识别各个文本行中的文字时,采用了卷积神经网络模型,对文本行坐标区域内的文本进行识别,首先将分割后的文本行进行方向校正(获取到的运单图像并不一定是正放着的运单,对文本行的进行方向校正使得识别的文本行是正向的),再采用卷积神经网络模型来提取各个文本行中的文字特征,并将文本特征转化为文字。
值得一提的是,卷积神经网络模型的训练样本中包括多种应用场景的运单图像,例如,曝光过度的小票图像、有污渍的小票图像、有阴影的小票图像等等。模型的训练样本多样,可提升模型的鲁棒性。
步骤S102,提取识别出的文字中的关键配送信息字符串。
具体地说,由于运单中的配送信息比较多,对各个文本行进行文字识别所得到的配送信息中包含餐品名称,支付金额等等配送人员并不感兴趣的信息。在本实施方式中,关键配送信息字符串主要包括地址字符串,或者电话号码信息,或者这两者都包括。将无效信息过滤,方便配送人员获取关键配送信息,提高配送效率。在判断文字信息是否是地址信息时,本实施方式采用了自然语言处理技术,将识别出的配送信息分成两个类别,地址信息类别和非地址信息类别。通过判定是否为地址信息来提取地址。在对电话号码进行提取时,可以通过正则表达式的匹配来获取。
步骤S103,对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
具体地说,由于运单图像可能受到光照亮度,污渍等的影响,导致在进行文字识别时,识别出错误的字符,因此,需要对识别出的关键配送信息字符串进行校正处理。在对关键配送信息字符串进行校正处理时,首先,对关键配送信息字符串中的每个字符进行打分,再找出得分异常的字符作为错误字符,选择目标形近字替换错误字符。对关键信息字符串中的每个字符进行打分,并将得分异常的字符作为错误字符,寻找错误字符的方法可靠性高。
在实际实施中,目标形近字的选择主要通过以下方式进行:获取与错误字符对应的多个形近字,依次计算各个形近字替换错误字符后的关键配送信息字符串的困惑度;确定目标字符串,目标字符串为满足预设困惑度条件的进行替换操作后的关键配送信息字符串;将目标字符串中的形近字作为目标形近字替换错误字符。这里提到的与错误字符对应的多个形近字预先存储在形近字列表中,预设困惑度条件可以是困惑度最低。使用困惑度来衡量替换操作后的字符串的正确性,衡量结果可靠,选择满足困惑度的关键配送信息字符串来作为目标字符串,可使得替换的字符串更接近正确的字符串,从而使得配送人员能够更准确地获取关键配送信息。选择困惑度最低的进行替换操作后的关键配送信息字符串作为目标字符串,使得替换的字符串尽可能接近正确的字符串,从而为配送人员提供更准确的服务。
在具体实施中,可以采用本领域的技术人员公知的任何方法计算困惑度,例如,可以根据据RNN语言模型计算困惑度,本实施方式对此没有任何限制。本实施方式中,将字符串输入语言模型,计算出该字符串的困惑度(Perplexity,简称ppl)值,具体的,字符串的困惑度值越低,表示句子越通顺,越符合客观语言表达习惯,字符串中存在错误字符的可能性越低。字符串的困惑度值越高,表示句子越不通顺,越不符合客观语言表达习惯,字符串中存在错误字符的可能性越低。
在本实施方式中,对每个字符进行打分的具体过程为:按一定的字符串长度取窗口:在关键配送信息字符串上按步长1进行滑动,每次滑动后计算窗口内文本的得分,然后进行均值处理,最终得到的是每个字的得分。在一个具体的例子中,假设有一个字符串,“北京市王府井”,现在,窗口长度为3,那么。在对字符“市”进行打分时,包括“市”字的窗口文本有三个,分别是“北京市”、“京市王”和“市王府”,对这三个窗口文本分别进行打分,并求取平均值,这个平均值即可作为“市”这个字符的得分。值得一提的是,在对字符“北”进行打分时,由于“北”字是这个字符串的首字符,其前面没有字符,在以3为窗口长度进行打分时,首先,在“北”字前面加两个与“北”相同的字符,对窗口文本“北北北”、“北北京”和“北京市”分别进行打分,并求取平均值,这个平均值即可作为“北”这个字符的得分。在实际实施中,还可多取几次不同长度的窗口,对每种长度的窗口的打分求取平均值,从而得到最终的打分。
在一个具体的例子中,关键配送信息字符串包括地址字符串,配送人员在取餐后,使用终端设备对运单进行拍照,终端设备采集到运单图像,并对采集到的运单图像进行文字识别,并提取出地址字符串。提取出的地址字符串为“北京币王府井”,终端设备在对每个字符进行打分后,发现第三个字符“币”的得分比较异常,于是,将第三个字符“币”作为错误字符,从预先存储的形近字列表中选择形近字来替换这个错误字符;在形近字列表中,“币”的形近字有“巿”、“市”、“巾”、“布”、“帀”,终端设备分别用这几个字符替换“币”,并分别计算“北京市王府井”、“北京巿王府井”、“北京巾王府井”、“北京布王府井”、“北京帀王府井”这几个字符串的困惑度,结果发现“北京巿王府井”的困惑度最低,因此选择“市”来替换错误字符“币”,得到校正后的关键配送信息字符串“北京市王府井”并返回。
本实施方式相对现有技术而言,通过识别采集的运单图像中的文字,可获取到运单图像中包含的所有配送信息,提取出识别到的文字中的关键配送信息字符串,可将配送人员不感兴趣的信息全部过滤掉,帮助配送人员看到最有用的信息,对提取出的关键配送信息字符串进行校正处理,可使得配送人员能够准确获取到关键的配送信息,而且与配送人员用肉眼一行一行看运单上的信息相比,本发明能够帮助配送人员更快获取到关键的配送信息。
本发明的第二实施方式涉及一种信息提取方法,如图2所示,本实施方式中包括以下步骤:
步骤S201,识别采集的运单图像中的文字。
步骤S202,提取识别出的文字中的关键配送信息字符串。
步骤S203,对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
步骤S201至步骤S203与第一实施方式中的步骤S101至步骤S103大致相同,为避免重复,这里不再一一赘述。
步骤S204,根据校正后的关键配送信息字符串确定配送地址,并根据配送地址提供导航服务。
具体地说,在本实施方式中,关键配送信息字符串包括地址字符串,在对矫正后的关键配送信息进行校正处理之后,终端能够得到正确的配送地址,终端可根据这个配送地址,自动为配送人员规划出一个合适的配送路线,帮助配送人员完成配送任务。
本实施方式相对现有技术而言,将配送地址作为关键配送信息提取出来,可帮助骑手快速确定配送的方位,而且,直接根据确定出的配送地址为配送人员提供导航服务,可省去配送人员手动输入配送地址进行导航的过程,进一步帮助配送人员快速完成订单任务,提升配送效率。
本发明的第三实施方式涉及一种信息提取方法,本实施方式的流程图如图3所示,下面进行具体说明。
步骤S301,识别采集的运单图像中的文字。
步骤S302,提取识别出的文字中的关键配送信息字符串。
步骤S301至步骤S302与第一实施方式中的步骤S101至步骤S102大致相同,为避免重复,这里不再一一赘述。
步骤S303,计算关键配送信息字符串的困惑度。
具体地说,在提取出关键配送信息字符串之后,终端设备可采用LDA模型来对关键配送信息字符串进行困惑度计算。
步骤S304,判断关键配送信息字符串的困惑度是否大于预设阈值,若是,则执行步骤S305,否则结束。
具体地说,在计算出关键配送信息字符串的困惑度之后,若发现该困惑度大于预设阈值,则意味着这个字符串中很有可能出现错误字符,执行步骤S305,对关键配送信息字符串进行校正处理,否则直接结束。
步骤S305,对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
步骤S305与第一实施方式中的步骤S103大致相同,为避免重复,这里不再赘述。
本实施方式相对现有技术而言,对提取出的关键配送信息字符串进行困惑度的计算,仅在困惑度大于预设阈值时才对该关键配送信息字符串进行校正处理,而不是每次都对提取出的关键配送信息字符串进行校正处理,避免了不必要的运算量,减少资源浪费。
本发明的第四实施方式涉及一种信息提取装置,如图4所示,该装置包括:识别模块401,用于识别采集的运单图像中的文字;提取模块402,用于提取识别出的文字中的关键配送信息字符串;校正模块403,用于对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
在一个例子中,关键配送信息字符串包括地址字符串;在对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串之后,还包括:根据校正后的关键配送信息字符串确定配送地址,并根据配送地址提供导航服务。
在一个例子中,上述对关键配送信息字符串进行校正处理,具体包括:对关键配送信息字符串中的每个字符进行打分;找出得分异常的字符作为错误字符;选择目标形近字替换错误字符。
在一个例子中,选择目标形近字替换错误字符,具体包括:获取与错误字符对应的多个形近字,依次计算各个形近字替换错误字符后的关键配送信息字符串的困惑度;确定目标字符串,目标字符串为满足预设困惑度条件的进行替换操作后的关键配送信息字符串;将目标字符串中的形近字作为目标形近字替换错误字符。
在一个例子中,上述预设困惑度条件为困惑度最低。
在一个例子中,在上述对关键配送信息字符串进行校正处理之前,还包括:计算关键配送信息字符串的困惑度,判断关键配送信息字符串的困惑度是否大于预设阈值,若是,则再执行对关键配送信息字符串进行校正处理。
在一个例子中,上述识别采集的运单图像中的文字,具体包括:分割运单图像,得到各个文本行;分别识别各个文本行中的文字。
在一个例子中,上述分别识别各个文本行中的文字,具体为:对各个文本行进行方向校正;采用卷积神经网络模型提取各个文本行中的文字特征;将文字特征转化为文字。
在一个例子中,上述关键配送信息字符串至少包括:地址字符串,和/或,电话号码字符串。
不难发现,本实施方式为与第一至第三实施方式中任一实施方式相对应的系统实施例,本实施方式可与第一至第三实施方式中任一实施方式互相配合实施。第一至第三实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应的,本实施方式中提到的相关技术细节也可应用在第一实施方式至第三实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明的第五实施方式涉及一种电子设备,如图5所示,该电子设备包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;以及,与扫描装置通信连接的通信组件503,通信组件503在处理器501的控制下接收和发送数据;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行以实现:
识别采集的运单图像中的文字;提取识别出的文字中的关键配送信息字符串;对关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
具体地,该电子设备包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述信息提取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器502,这些远程存储器502可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的信息提取方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明的第六实施方式涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
本申请实施例公开了A1.一种信息提取方法,包括:
识别采集的运单图像中的文字;
提取识别出的所述文字中的关键配送信息字符串;
对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
A2.如A1所述的信息提取方法,所述关键配送信息字符串包括地址字符串;
在所述对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串之后,还包括:
根据所述校正后的关键配送信息字符串确定配送地址,并根据所述配送地址提供导航服务。
A3.如A1所述的信息提取方法,所述对所述关键配送信息字符串进行校正处理,具体包括:
对所述关键配送信息字符串中的每个字符进行打分;
找出得分异常的字符作为错误字符;
选择目标形近字替换所述错误字符。
A4.如A3所述的信息提取方法,所述选择目标形近字替换所述错误字符,具体包括:
获取与所述错误字符对应的多个形近字,依次计算各个所述形近字替换所述错误字符后的所述关键配送信息字符串的困惑度;
确定目标字符串,所述目标字符串为满足预设困惑度条件的进行替换操作后的所述关键配送信息字符串;将所述目标字符串中的形近字作为目标形近字替换所述错误字符。
A5.如A3所述的信息提取方法,所述预设困惑度条件为困惑度最低。
A6.如A1所述的信息提取方法,在所述对所述关键配送信息字符串进行校正处理之前,还包括:
计算所述关键配送信息字符串的困惑度,判断所述关键配送信息字符串的困惑度是否大于预设阈值,若是,则再执行所述对所述关键配送信息字符串进行校正处理。
A7.如A1所述的信息提取方法,所述识别采集的运单图像中的文字,具体包括:
分割所述运单图像,得到各个文本行;
分别识别各个所述文本行中的文字。
A8.如A7所述的信息提取方法,所述分别识别各个所述文本行中的文字,具体为:
对各个所述文本行进行方向校正;
采用卷积神经网络模型提取各个所述文本行中的文字特征;
将所述文字特征转化为文字。
A9.如A1所述的信息提取方法,所述关键配送信息字符串至少包括:
地址字符串,和/或,电话号码字符串。
本申请实施例还公开了B1.一种信息提取装置,包括:
识别模块,用于识别采集的运单图像中的文字;
提取模块,用于提取识别出的所述文字中的关键配送信息字符串;
校正模块,用于对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
本申请实施例还公开了C1.一种电子设备,包括存储器和处理器,存储器存储计算机程序,处理器运行程序时执行:
识别采集的运单图像中的文字;
提取识别出的所述文字中的关键配送信息字符串;
对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
C2.如C1所述的电子设备,所述关键配送信息字符串包括地址字符串;
在所述对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串之后,还包括:
根据所述校正后的关键配送信息字符串确定配送地址,并根据所述配送地址提供导航服务。
C3.如C1所述的电子设备,所述对所述关键配送信息字符串进行校正处理,具体包括:
对所述关键配送信息字符串中的每个字符进行打分;
找出得分异常的字符作为错误字符;
选择目标形近字替换所述错误字符。
C4.如C3所述的信息电子设备,所述选择目标形近字替换所述错误字符,具体包括:
获取与所述错误字符对应的多个形近字,依次计算各个所述形近字替换所述错误字符后的所述关键配送信息字符串的困惑度;
确定目标字符串,所述目标字符串为满足预设困惑度条件的进行替换操作后的所述关键配送信息字符串;将所述目标字符串中的形近字作为目标形近字替换所述错误字符。
C5.如C3所述的电子设备,所述预设困惑度条件为困惑度最低。
C6.如C1所述的电子设备,在所述对所述关键配送信息字符串进行校正处理之前,还包括:
计算所述关键配送信息字符串的困惑度,判断所述关键配送信息字符串的困惑度是否大于预设阈值,若是,则再执行所述对所述关键配送信息字符串进行校正处理。
C7.如C1所述的电子设备,所述识别采集的运单图像中的文字,具体包括:
分割所述运单图像,得到各个文本行;
分别识别各个所述文本行中的文字。
说明:识别采集的运单图像中的文字的具体过程。
C8.如C7所述的电子设备,所述分别识别各个所述文本行中的文字,具体为:
对各个所述文本行进行方向校正;
采用卷积神经网络模型提取各个所述文本行中的文字特征;
将所述文字特征转化为文字。
C9.如C1所述的电子设备,所述关键配送信息字符串至少包括:
地址字符串,和/或,电话号码字符串。
本申请实施例还公开了D1.一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行如A1至A9中任一项所述的信息提取方法。

Claims (10)

1.一种信息提取方法,其特征在于,包括:
识别采集的运单图像中的文字;
提取识别出的所述文字中的关键配送信息字符串;
对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
2.根据权利要求1所述的信息提取方法,其特征在于,所述关键配送信息字符串包括地址字符串;
在所述对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串之后,还包括:
根据所述校正后的关键配送信息字符串确定配送地址,并根据所述配送地址提供导航服务。
3.根据权利要求1所述的信息提取方法,其特征在于,所述对所述关键配送信息字符串进行校正处理,具体包括:
对所述关键配送信息字符串中的每个字符进行打分;
找出得分异常的字符作为错误字符;
选择目标形近字替换所述错误字符。
4.根据权利要求1所述的信息提取方法,其特征在于,在所述对所述关键配送信息字符串进行校正处理之前,还包括:
计算所述关键配送信息字符串的困惑度,判断所述关键配送信息字符串的困惑度是否大于预设阈值,若是,则再执行所述对所述关键配送信息字符串进行校正处理。
5.根据权利要求1所述的信息提取方法,其特征在于,所述识别采集的运单图像中的文字,具体包括:
分割所述运单图像,得到各个文本行;
分别识别各个所述文本行中的文字。
6.根据权利要求5所述的信息提取方法,其特征在于,所述分别识别各个所述文本行中的文字,具体为:
对各个所述文本行进行方向校正;
采用卷积神经网络模型提取各个所述文本行中的文字特征;
将所述文字特征转化为文字。
7.根据权利要求1所述的信息提取方法,其特征在于,所述关键配送信息字符串至少包括:
地址字符串,和/或,电话号码字符串。
8.一种信息提取装置,其特征在于,包括:
识别模块,用于识别采集的运单图像中的文字;
提取模块,用于提取识别出的所述文字中的关键配送信息字符串;
校正模块,用于对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
9.一种电子设备,包括存储器和处理器,存储器存储计算机程序,处理器运行程序时执行:
识别采集的运单图像中的文字;
提取识别出的所述文字中的关键配送信息字符串;
对所述关键配送信息字符串进行校正处理,并返回校正后的关键配送信息字符串。
10.一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行如权利要求1至9中任一项所述的信息提取方法。
CN201910655011.6A 2019-07-19 2019-07-19 信息提取方法及装置、电子设备及存储介质 Pending CN110543812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655011.6A CN110543812A (zh) 2019-07-19 2019-07-19 信息提取方法及装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655011.6A CN110543812A (zh) 2019-07-19 2019-07-19 信息提取方法及装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110543812A true CN110543812A (zh) 2019-12-06

Family

ID=68710249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655011.6A Pending CN110543812A (zh) 2019-07-19 2019-07-19 信息提取方法及装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110543812A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985459A (zh) * 2020-09-18 2020-11-24 北京百度网讯科技有限公司 表格图像校正方法、装置、电子设备和存储介质
CN113963339A (zh) * 2021-09-02 2022-01-21 泰康保险集团股份有限公司 一种信息提取方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252446A (zh) * 2013-06-27 2014-12-31 鸿富锦精密工业(深圳)有限公司 计算装置、文件内容一致性验证系统及方法
CN105930836A (zh) * 2016-04-19 2016-09-07 北京奇艺世纪科技有限公司 一种视频文字的识别方法和装置
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN108984777A (zh) * 2018-07-25 2018-12-11 北京京东尚科信息技术有限公司 客户服务方法、装置和计算机可读存储介质
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
CN109598238A (zh) * 2018-12-04 2019-04-09 拉扎斯网络科技(上海)有限公司 信息处理方法及装置、存储介质和电子设备
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252446A (zh) * 2013-06-27 2014-12-31 鸿富锦精密工业(深圳)有限公司 计算装置、文件内容一致性验证系统及方法
CN105930836A (zh) * 2016-04-19 2016-09-07 北京奇艺世纪科技有限公司 一种视频文字的识别方法和装置
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN108984777A (zh) * 2018-07-25 2018-12-11 北京京东尚科信息技术有限公司 客户服务方法、装置和计算机可读存储介质
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
CN109598238A (zh) * 2018-12-04 2019-04-09 拉扎斯网络科技(上海)有限公司 信息处理方法及装置、存储介质和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985459A (zh) * 2020-09-18 2020-11-24 北京百度网讯科技有限公司 表格图像校正方法、装置、电子设备和存储介质
CN111985459B (zh) * 2020-09-18 2023-07-28 北京百度网讯科技有限公司 表格图像校正方法、装置、电子设备和存储介质
CN113963339A (zh) * 2021-09-02 2022-01-21 泰康保险集团股份有限公司 一种信息提取方法和装置

Similar Documents

Publication Publication Date Title
CN110705405B (zh) 目标标注的方法及装置
CN108229509B (zh) 用于识别物体类别的方法及装置、电子设备
CN109685055B (zh) 一种图像中文本区域的检测方法及装置
CN110569856B (zh) 样本标注方法及装置、损伤类别的识别方法及装置
CN103914546A (zh) 数据更新方法及其装置
CN109598298B (zh) 图像物体识别方法和系统
CN111680635B (zh) 一种文本识别的方法、装置、电子设备和存储介质
CN110543812A (zh) 信息提取方法及装置、电子设备及存储介质
CN113763348A (zh) 图像质量确定方法、装置、电子设备及存储介质
CN110705225A (zh) 一种合同标注方法及装置
CN111079480A (zh) 身份证信息的识别方法、装置及终端设备
CN110555488A (zh) 图像序列的审核方法及系统、电子设备和存储介质
CN114332809A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN113610809A (zh) 骨折检测方法、装置、电子设备以及存储介质
CN113378852A (zh) 关键点检测方法、装置、电子设备及存储介质
CN112329666A (zh) 人脸识别方法、装置、电子设备及存储介质
CN113642642B (zh) 控件识别方法及装置
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN113869317A (zh) 车牌识别方法、装置、电子设备和存储介质
CN106815592B (zh) 文本数据处理方法及装置和错别字识别方法及装置
CN114637877A (zh) 标注方法、电子设备及存储介质
CN108021918B (zh) 文字识别方法及装置
CN113033431A (zh) 光学字符识别模型训练和识别方法、装置、设备及介质
CN111860526A (zh) 基于图像的判题方法、装置、电子设备和计算机存储介质
CN106446902B (zh) 非文字图像识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191206

RJ01 Rejection of invention patent application after publication