CN114612916A - 图片识别方法、装置、电子设备及介质 - Google Patents

图片识别方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114612916A
CN114612916A CN202011409602.4A CN202011409602A CN114612916A CN 114612916 A CN114612916 A CN 114612916A CN 202011409602 A CN202011409602 A CN 202011409602A CN 114612916 A CN114612916 A CN 114612916A
Authority
CN
China
Prior art keywords
character string
character
tree structure
current
hash value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011409602.4A
Other languages
English (en)
Inventor
王从涛
阳家俊
魏远明
陈伟
韦涛
吴军
龚力
朱伟基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202011409602.4A priority Critical patent/CN114612916A/zh
Priority to PCT/CN2021/103280 priority patent/WO2022116524A1/zh
Publication of CN114612916A publication Critical patent/CN114612916A/zh
Priority to US18/137,884 priority patent/US20230290167A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19073Comparing statistics of pixel or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Discrete Mathematics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种图片识别方法,在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将当前字符串及其哈希值存储到第一预设树形结构及第二预设树形结构中中,预测当前字符串在下一时刻的新概率值,获取扩充字符串集,根据第二预设树形结构中存储的哈希值,获取概率值最高的N个字符串并保留,并将N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。本发明实施例提供的图片识别方法、装置、电子设备及介质,能够有效降低针对图像进行文字识别过程存储中间字符串所需的计算量,能够有效提高存储中间字符串的效率。

Description

图片识别方法、装置、电子设备及介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种图片识别方法、装置、电子设备及介质。
背景技术
随着互联网技术的飞速发展,用户可以使用图像识别装置例如词典笔或点读笔对非母语言的文本进行翻译或者注释,提高用户的学习效率。
但是,现有技术中在针对图像进行文字识别时,需要存储中间字符串及其对应的概率值,例如需要存储a、ab、abc等字符串及概率值,如果字段相同则需要累加起来,如果字段不同则需要和其他字段一起存储起来;通常的做法是先比较两个字段的长度,如果长度不同,则这两个字段肯定不同;如果长度相同,则一个一个字符的比较,遇到不同的则说明两个字段不同,此时如果集合存储了n个字段,每个字段的比较需要O(n)的复杂度,则整个集合的比较复杂度为O(n^2);使得在针对图像进行文字识别过程中存储中间字符串所需的计算量极大,使得中间字符串存储的效率较低。
发明内容
本发明实施例提供了一种图片识别方法、装置、电子设备及介质,能够有效降低针对图像进行文字识别过程存储中间字符串所需的计算量,能够有效提高存储中间字符串的效率。
本发明实施例第一方面提供了一种图片识别方法,包括:
在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;
预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;
通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;
根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
可选的,所述在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,包括:
在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别概率大于预设概率的字符组成的所述当前字符串,并获取所述当前字符串的哈希值。
可选的,所述预测所述当前字符串在下一时刻的新概率,将所述当前字符串的哈希值存储到第二预设树形结构中,包括:
预测出所述当前字符串在下一时刻的预测字符;
获取所述当前字符串与所述预测字符的组合概率为所述新概率值,将所述当前字符串的哈希值存储到所述第二预设树形结构中,其中,所述第二预设树形结构为set结构。
可选的,所述通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,法包括:
获取下一时刻识别出的识别概率大于所述预设概率的字符组成所述目标字符集;
将所述当前字符串与所述目标字符集中每个字符进行组合,得到组合后的所有字符串为所述扩充字符串集。
可选的,所述根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,包括:
根据所述当前字符串的新概率值和每个扩充字符串的概率值,从所述第二预设树形结构中确定概率值最高的N个哈希值;
根据所述N个哈希值,从所述第一预设树形结构中确定与所述N个哈希值对应的所述N个字符串。
可选的,所述第一预设树形结构为set结构。
本发明实施例第二方面提供了一种图片识别装置,包括:
字符识别单元,用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;
预测单元,用于预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;
扩充单元,用于通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;
循环执行单元,用于根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
可选的,所述字符识别单元,用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别概率大于预设概率的字符组成的所述当前字符串,并获取所述当前字符串的哈希值。
可选的,所述预测单元,用于预测出所述当前字符串在下一时刻的预测字符;获取所述当前字符串与所述预测字符的组合概率为所述新概率值,将所述当前字符串的哈希值存储到所述第二预设树形结构中,其中,所述第二预设树形结构为set结构。
可选的,所述扩充单元,用于获取下一时刻识别出的识别概率大于所述预设概率的字符组成所述目标字符集;将所述当前字符串与所述目标字符集中每个字符进行组合,得到组合后的所有字符串为所述扩充字符串集。
可选的,所述循环执行单元,用于根据所述当前字符串的新概率值和每个扩充字符串的概率值,从所述第二预设树形结构中确定概率值最高的N个哈希值;根据所述N个哈希值,从所述第一预设树形结构中确定与所述N个哈希值对应的所述N个字符串。
可选的,所述第一预设树形结构为set结构。
本发明实施例第三方面提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于如上述图片识别方法的步骤。
本发明实施例第四方面提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如上述图片识别方法的步骤。
本发明实施例的有益效果如下:
根据上述技术方案,在通过OCR模型对图像进行文字识别过程中,在判断某个字符串需要存储时,首选通过概率值与哈希值的映射关系,确定出需要存储的N个字符的哈希值,再根据哈希值与字符串的映射关系,根据N个字符的哈希值,确定出需要存储的N个字符;与现有技术相比,不仅不需要比较存储的字段之间的长度,也不需要在字段长度相同时逐个字符比较之后再存储,而本发明采用概率值、哈希值与字符串的映射关系,可以仅通过存储哈希值即可确定存储哪个字符串,能够极大的降低进行存储字符串所需的计算量,能够有效提高存储字符串的效率;以及在提高存储字符串的效率基础上,由于存储的字符串是用于进行文字识别的,使得OCR模型识别文字的效率也随之提高。
附图说明
图1为本发明实施例中图片识别方法的方法流程图;
图2为本发明实施例中图片识别装置的结构示意图;
图3为本发明实施例中用于图片识别装置的作为设备时的结构框图;
图4为本发明实施例中一些实施例中服务端的结构框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明实施例的技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明实施例技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
针对图像进行文字识别过程中存储中间字符串的效率低的技术问题,本发明实施例提供了一种图片识别方案,该方案用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
如此,在通过OCR模型对图像进行文字识别过程中,在判断某个字符串需要存储时,首选通过概率值与哈希值的映射关系,确定出需要存储的N个字符的哈希值,再根据哈希值与字符串的映射关系,根据N个字符的哈希值,确定出需要存储的N个字符;与现有技术相比,不仅不需要比较存储的字段之间的长度,也不需要在字段长度相同时逐个字符比较之后再存储,而本发明采用概率值、哈希值与字符串的映射关系,可以仅通过存储哈希值即可确定存储哪个字符串,能够极大的降低进行存储字符串所需的计算量,能够有效提高存储字符串的效率;以及在提高存储字符串的效率基础上,由于存储的字符串是用于进行文字识别的,使得OCR模型识别文字的效率也随之提高。
本说明书实施例中,在图文识别领域,通常使用光学字符识别(OpticalCharacter Recognition,简称OCR)模型来识别图像中的文字,以及在使用OCR模型来识别图像中的文字时,需要使用OCR模型预测出每个字的概率进行束搜索解码,如此,通过OCR模型能够预测出图像中的文字。
本说明书实施例中,字符可以是文字、标点和符号等,本说明书不作具体限制。
如图1所示,本发明实施例提供了一种图片识别方法,包括以下步骤:
S101、在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;
S102、预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;
S103、通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;
S104、根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
具体地,OCR模型通常部署在图像识别装置上,图像识别装置可以由服务器提供服务,图像识别装置例如可以是词典笔和点读笔等,服务器例如可以是笔记本电脑,台式电脑和一体机等。
其中,在步骤S101中,在通过OCR模型对采集的图像进行文字识别过程中,通过OCR模型预测出当前字符串,并使用哈希算法对预测出的当前字符串进行哈希,得到当前字符串的哈希值。其中,哈希算法例如可以是MD5、SHA-1和SHA-2等,本说明书不作具体限制。
具体来讲,可以在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别概率大于预设概率的字符组成的当前字符串,并获取当前字符串的哈希值,然后将当前字符串及其哈希值存储到第一预设树形结构中。
具体来讲,在通过OCR模型预测出当前字符串时,可以预先设定预设概率,再根据预设概率,对当前时刻通过OCR模型预测出图像中的每个字符进行过滤,如此,通过预设概率过滤得到当前字符串,其中,当前字符串中的每个字的概率大于预设概率;再使用哈希算法对过滤得到的当前字符串进行哈希,得到当前字符串的哈希值,将当前字符串及其哈希值存储在第一预设树形结构中,其中,第一预设树形结构可以为C语言中set结构,也可以是二叉树结构,本说明书不作具体限制。
例如,以文本为例,在通过图像扫描装置持续扫描文本的过程中,获取到一段连续的图片集;然后使用OCR模型对图片集进行识别,在识别过程中,若当前时刻识别出的图片中的字为A1的概率为15%,为A2的概率为35%,为A3的概率为65%,为A4的概率为85%,为A5的概率为45%,而预设概率为50%,则将A1、A2和A5过滤掉,保留A3和A4,则确定当前字符串为A3和A4;若预设概率为70%,则确定当前字符串为A4;以及在获取当前字符串为A4之后,通过SHA-2对A4进行哈希,得到的哈希值H1作为A4的哈希值,然后将A4及H1存储到第一set结构中。
在将当前字符串及哈希值存储到第一预设树形结构之后,执行步骤S102,在该步骤中,预测当前字符串在下一时刻的新概率值,将当前字符串的哈希值存储到第二预设树形结构中。
具体来讲,预测出当前字符串在下一时刻的预测字符;获取当前字符串与预测字符的组合概率为新概率值,将当前字符串的哈希值存储到第二预设树形结构中,其中,第二预设树形结构可以为set结构和二叉树结构。
具体地,在预测出当前字符串在下一时刻的预测字符时,可以将当前字符串中的最后一个字符作为预测字符,还可以将空格作为预测字符,使得预测字符可以包括当前字符串中的最后一个字符和空格中的任意一个或多个。在预测字符为多个时,获取当前字符串与预测字符的组合概率为获取当前字符与每个预测字符的组合概率之和作为新概率值,也可以是组合概率的权重之和为新概率值,还可以是组合概率的乘积为新概率值,本说明书不作具体限制。
具体地,在获取新概率值之和,将当前字符串另存储到第二预设树形结构中,其中,第二预设树形结构中不存在重复的数字,相应地,第一预设树形结构中也不存在重复的数字。
例如,假设T-1时刻当前字符串为abc,则预测出当前字符串在T时刻为abc+空格和abc+c,通过OCR模型预测出abc+空格的概率值为H2,以及预测出abc+c的概率值为H3,则确定出abc的新概率值为H2+H3,并将abc的哈希值X存储在第二set结构中。
接下来执行步骤S103,在该步骤中,通过下一时刻识别出的目标字符集对当前字符串进行扩充,获取扩充字符串集,并将扩充字符串集中每个扩充字符串的概率值及哈希值存储到第一预设树形结构中,以及将每个扩充字符串的哈希值存储到第二预设树形结构中。
具体来讲,获取下一时刻识别出的识别概率大于预设概率的字符组成目标字符集;将当前字符串与目标字符集中每个字符进行组合,得到组合后的所有字符串为扩充字符串集。
具体来讲,通过OCR模型对下一时刻采集的图像进行文字识别,根据预设概率,对下一时刻通过OCR模型预测出图像中的每个字符进行过滤,获取到识别概率大于预设概率的所有字组词目标字符集,然后再当前字符串与目标字符集中每个字符进行组合,得到组合后的所有字符串为扩充字符串集。
例如,同样以当前字符串为abc为例,若通过OCR模型对T+1时刻采集的图像进行识别,识别出识别概率大于预设概率的字符分别为d、e和f,则获取abcd,abce和abcf作为扩充字符串集,然后通过OCR模型预测出abcd,abce和abcf的概率值依次为D1,D2和D3,并通过哈希算法对abcd,abce和abcf进行哈希计算,得到的哈希值依次为X1,X2和X3;如此,将abcd及X1,abce及X2和abcf及X3存储在第一set结构中,并将X1,X2和X3存储在第二set结构中。
在将扩充字符串集中每个扩充字符串的概率值及哈希值存储到第一预设树形结构中,以及将每个扩充字符串的哈希值存储到第二预设树形结构中之后,执行步骤S104。
在步骤S104中,可以根据当前字符串的新概率值和每个扩充字符串的概率值,从第二预设树形结构中确定概率值最高的N个哈希值;根据N个哈希值,从第一预设树形结构中确定与N个哈希值对应的N个字符串;保留N个字符串,并以保留,其中,N不小于1的整数;并将N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,从第一预设树形结构中获取概率值最高的一个字符串作为最终识别结果。
本说明书实施例中,N的值可以为OCR模型中的束搜索中的最大设定个数,也可以由人工或设备自行设定,例如可以为1,2,3和5等,本说明书不作具体限制。
例如,同样以当前字符串为abc为例,获取到T+1时刻的扩充字符串集为abcd,abce和abcf及对应的概率值为D1,D2和D3,以及获取abc的新概率值为H2+H3;若D2>D3>D1>(H2+H3),且N=2;此时,可以根据概率值与哈希值的映射关系,从第二set结构中获取到N个字符串的哈希值为X2和X3;以及根据X2和X3,从第一set结构中获取到X2对应的字符串为abce,以及X3对应的字符串为abcf,则确定出N个字符串为abce和abcf;此时,将第一set结构中的abce和abcf作为当前字符串并保留,并也可以在第二set结构中仅保留abce和abcf对应的哈希值X2和X3;然后进行下一步处理。
具体地,首先需要预测N个字符串在T+2时刻时的新概率,具体地,预测出abce在T+2时刻时的新概率为abce+空格和abce+e的概率之和;以及预测出abcf在T+2时刻时的新概率为abcf+空格和abcf+f的概率之和;若在T+2时刻作为当前时刻时,通过OCR模式对采集的实时图片进行识别,识别出识别概率大于预设概率的字符为p和k,则获取abcep,abcek,abcfp和abcfk作为扩充字符串集,然后通过OCR模型预测出abcep,abcek,abcfp和abcfk的概率值依次为D4,D5,D6和D7,并通过哈希算法对abcep,abcek,abcfp和abcfk进行哈希计算,得到的哈希值依次为X4,X5,X6和X7;如此,将abcep及X4,,abcek及X5,abcfp及X6和abcfk及X7存储在第一set结构中,并将X4,X5,X6和X7存储在第二set结构中。
其中,若D5>D4>D7>D6>abce的新概率>abcf的新概率,则根据概率值,哈希值与字符串的映射关系,确定出N个字符串为abcek和abcep,此时,将第一set结构中的abce和abcf作为当前字符串并保留,并也可以在第二set结构中仅保留abce和abcf对应的哈希值X2和X3;然后采用相同的方式进行下一步处理,直至完成对采集的所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
如此,本说明书实施例在识别当前字符串时,仅保留识别概率大于预设概率的字符符串,而将识别概率不大于预设概率的字符符串丢弃,从而能够整体提高OCR模型识别的效率。
以及在判断某个字符串需要存储时,首选通过概率值与哈希值的映射关系,确定出需要存储的N个字符的哈希值,再根据哈希值与字符串的映射关系,根据N个字符的哈希值,确定出需要存储的N个字符;与现有技术相比,不仅不需要比较存储的字段之间的长度,也不需要在字段长度相同时逐个字符比较之后再存储,而本发明采用概率值、哈希值与字符串的映射关系,可以仅通过存储哈希值即可确定存储哪个字符串,能够极大的降低进行存储字符串所需的计算量,能够有效提高存储字符串的效率;以及在提高存储字符串的效率基础上,由于存储的字符串是用于进行文字识别的,使得OCR模型识别文字的效率也随之提高。
如图2所示,本发明实施例还提供了一种图片识别装置,包括:
字符识别单元201,用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;
预测单元202,用于预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;
扩充单元203,用于通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;
循环执行单元204,用于根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
在一种可选实施方式中,字符识别单元201,用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别概率大于预设概率的字符组成的所述当前字符串,并获取所述当前字符串的哈希值。
在一种可选实施方式中,预测单元202,用于预测出所述当前字符串在下一时刻的预测字符;获取所述当前字符串与所述预测字符的组合概率为所述新概率值,将所述当前字符串的哈希值存储到所述第二预设树形结构中,其中,所述第二预设树形结构为set结构。
在一种可选实施方式中,扩充单元203,用于获取下一时刻识别出的识别概率大于所述预设概率的字符组成所述目标字符集;将所述当前字符串与所述目标字符集中每个字符进行组合,得到组合后的所有字符串为所述扩充字符串集。
在一种可选实施方式中,循环执行单元204,用于根据所述当前字符串的新概率值和每个扩充字符串的概率值,从所述第二预设树形结构中确定概率值最高的N个哈希值;根据所述N个哈希值,从所述第一预设树形结构中确定与所述N个哈希值对应的所述N个字符串。
可选的,所述第一预设树形结构为set结构。
图3是根据一示例性实施例示出的一种图片识别装置作为设备时的结构框图。例如,装置900可以是移动来电,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,来电呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,来电簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入根据通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可根据射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明的一些实施例中服务器的结构框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(设备或者服务器)的处理器执行时,使得装置能够执行一种图片识别方法,所述方法包括:在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种图片识别方法,其特征在于,包括:
在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;
预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;
通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;
根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
2.如权利要求1所述的方法,其特征在于,所述在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,包括:
在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别概率大于预设概率的字符组成的所述当前字符串,并获取所述当前字符串的哈希值。
3.如权利要求2所述的方法,其特征在于,所述预测所述当前字符串在下一时刻的新概率,将所述当前字符串的哈希值存储到第二预设树形结构中,包括:
预测出所述当前字符串在下一时刻的预测字符;
获取所述当前字符串与所述预测字符的组合概率为所述新概率值,将所述当前字符串的哈希值存储到所述第二预设树形结构中,其中,所述第二预设树形结构为set结构。
4.如权利要求1所述的方法,其特征在于,所述通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,法包括:
获取下一时刻识别出的识别概率大于所述预设概率的字符组成所述目标字符集;
将所述当前字符串与所述目标字符集中每个字符进行组合,得到组合后的所有字符串为所述扩充字符串集。
5.如权利要求4所述的方法,其特征在于,所述根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,包括:
根据所述当前字符串的新概率值和每个扩充字符串的概率值,从所述第二预设树形结构中确定概率值最高的N个哈希值;
根据所述N个哈希值,从所述第一预设树形结构中确定与所述N个哈希值对应的所述N个字符串。
6.如权利要求1-5任一项所述的方法,其特征在于,所述第一预设树形结构为set结构。
7.一种图片识别装置,其特征在于,包括:
字符识别单元,用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别出的当前字符串及其哈希值,并将所述当前字符串及其哈希值存储到第一预设树形结构中;
预测单元,用于预测所述当前字符串在下一时刻的新概率值,将所述当前字符串的哈希值存储到第二预设树形结构中;
扩充单元,用于通过下一时刻识别出的目标字符集对所述当前字符串进行扩充,获取扩充字符串集,并将所述扩充字符串集中每个扩充字符串的概率值及哈希值存储到所述第一预设树形结构中,以及将每个扩充字符串的哈希值存储到所述第二预设树形结构中;
循环执行单元,用于根据所述第二预设树形结构中存储的哈希值,从所述第一预设树形结构中获取概率值最高的N个字符串并保留,其中,N不小于1的整数;并将所述N个字符串作为当前字符串,重复上述步骤直至完成所有采集的图像的识别,获取概率值最高的一个字符串作为最终识别结果。
8.如权利要求7所述的装置,其特征在于,所述字符识别单元,用于在通过光学字符识别模型对采集的图像进行文字识别过程中,获取识别概率大于预设概率的字符组成的所述当前字符串,并获取所述当前字符串的哈希值。
9.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含如权利要求1-6任一权项所述的方法步骤。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的方法。
CN202011409602.4A 2020-12-04 2020-12-04 图片识别方法、装置、电子设备及介质 Pending CN114612916A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011409602.4A CN114612916A (zh) 2020-12-04 2020-12-04 图片识别方法、装置、电子设备及介质
PCT/CN2021/103280 WO2022116524A1 (zh) 2020-12-04 2021-06-29 图片识别方法、装置、电子设备及介质
US18/137,884 US20230290167A1 (en) 2020-12-04 2023-04-21 Picture recognition method and apparatus, electronic device, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011409602.4A CN114612916A (zh) 2020-12-04 2020-12-04 图片识别方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN114612916A true CN114612916A (zh) 2022-06-10

Family

ID=81852925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011409602.4A Pending CN114612916A (zh) 2020-12-04 2020-12-04 图片识别方法、装置、电子设备及介质

Country Status (3)

Country Link
US (1) US20230290167A1 (zh)
CN (1) CN114612916A (zh)
WO (1) WO2022116524A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140093173A1 (en) * 2012-10-01 2014-04-03 Silverbrook Research Pty Ltd Classifying a string formed from hand-written characters
CN104156706A (zh) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 一种基于光学字符识别技术的中文字符识别方法
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法
CN111914513A (zh) * 2019-05-08 2020-11-10 亿阳安全技术有限公司 一种rdp窗口标题文字识别的方法及装置
CN111079768A (zh) * 2019-12-23 2020-04-28 北京爱医生智慧医疗科技有限公司 一种基于ocr的文字图像识别方法及装置

Also Published As

Publication number Publication date
US20230290167A1 (en) 2023-09-14
WO2022116524A1 (zh) 2022-06-09

Similar Documents

Publication Publication Date Title
WO2020199730A1 (zh) 文本识别方法及装置、电子设备和存储介质
CN106557768B (zh) 对图片中的文字进行识别的方法及装置
RU2667027C2 (ru) Способ и устройство категоризации видео
US20210224592A1 (en) Method and device for training image recognition model, and storage medium
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
WO2019165832A1 (zh) 文字信息处理方法、装置及终端
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
US9959487B2 (en) Method and device for adding font
CN109961791B (zh) 一种语音信息处理方法、装置及电子设备
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
CN109144285B (zh) 一种输入方法和装置
CN110764627B (zh) 一种输入方法、装置和电子设备
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN113065591B (zh) 目标检测方法及装置、电子设备和存储介质
CN110648657A (zh) 一种语言模型训练方法、构建方法和装置
CN109887492B (zh) 一种数据处理方法、装置和电子设备
CN109901726B (zh) 一种候选词生成方法、装置及用于候选词生成的装置
CN109725736B (zh) 一种候选排序方法、装置及电子设备
CN109144286B (zh) 一种输入方法及装置
CN114612916A (zh) 图片识别方法、装置、电子设备及介质
CN113807540A (zh) 一种数据处理方法及装置
CN109325141B (zh) 图像检索方法及装置、电子设备和存储介质
CN107992893B (zh) 压缩图像特征空间的方法及装置
CN113589954A (zh) 一种数据处理方法、装置和电子设备
CN108073566B (zh) 分词方法和装置、用于分词的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination