CN104766077B - 一种识别图片中的字符的方法和装置 - Google Patents

一种识别图片中的字符的方法和装置 Download PDF

Info

Publication number
CN104766077B
CN104766077B CN201510158353.9A CN201510158353A CN104766077B CN 104766077 B CN104766077 B CN 104766077B CN 201510158353 A CN201510158353 A CN 201510158353A CN 104766077 B CN104766077 B CN 104766077B
Authority
CN
China
Prior art keywords
candidate characters
character
picture
probability
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510158353.9A
Other languages
English (en)
Other versions
CN104766077A (zh
Inventor
薛永刚
贾文杰
项碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510158353.9A priority Critical patent/CN104766077B/zh
Publication of CN104766077A publication Critical patent/CN104766077A/zh
Priority to PCT/CN2016/077865 priority patent/WO2016155627A1/zh
Application granted granted Critical
Publication of CN104766077B publication Critical patent/CN104766077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种识别图片中的字符的方法和装置。所述方法包括:识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;按照图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;计算所得到的每个候选字符组合的概率,将概率最高的候选字符组合作为对所述图片的字符识别结果。本发明提供的技术方案将图像信息完整、准确地转化为可以供计算机识别和处理的文本信息,自动提取图片中的字符信息,无需用户手动输入,满足用户需求。

Description

一种识别图片中的字符的方法和装置
技术领域
本发明涉及计算机技术领域,具体涉及一种识别图片中的字符的方法和装置。
背景技术
在信息技术及终端技术日益普及的今天,如何将字符方便、快捷地输入到终端中已经成为影响人机接口效率的一个重要难题。现有技术中,大部分用户仍然依赖于传统的键盘输入或手写输入来完成字符的输入,能够满足用户基本输入需求。但是,传统的输入方式也为用户带来了很多不便,例如,当用户对一个图片中所包含的字符有疑问,需要进行搜索时,需要将图片中所包含的字符依次手动输入到搜索栏中;或者,当用户需要保存一个图片中的电话号码时,也需要将图片中所包含的电话号码记在其他地方,再依次手动输入到电话薄中。可见,由于终端无法识别图片中所包含的字符,导致用户对图片中所包含的字符的处理十分费时费力,不符合用户的需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别图片中的字符的方法和装置。
依据本发明的一个方面,提供了一种识别图片中的字符的方法,该方法包括:
识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;
按照所述图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;
计算所得到的每个候选字符组合的概率,
将概率最高的候选字符组合作为对所述图片的字符识别结果。
可选地,所述计算所得到的每个候选字符组合的概率为:
基于n元语法模型,计算所得到的每个候选字符组合的概率。
可选地,所述基于n元语法模型,计算所得到的每个候选字符组合的概率包括:
对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;
计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
可选地,利用光学字符识别技术识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
依据本发明的又一个方面,提供了一种识别图片中的字符的装置,该装置包括:
获取单元,适于识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;
预处理单元,适于按照所述图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;
识别单元,适于计算所得到的每个候选字符组合的概率,将概率最高的候选字符组合作为对所述图片的字符识别结果。
可选地,所述识别单元,适于基于n元语法模型,计算所得到的每个候选字符组合的概率。
可选地,所述识别单元,适于对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;再计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
可选地,所述获取单元,适于利用光学字符识别技术识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
由上述可知,本发明这种通过获取图片所包含的字符占位对应的候选字符集合以及每个候选字符对应的概率参数,对图片中可能包含的所有候选字符组合的概率进行计算,将概率最高的候选字符组合作为对图片的字符识别结果的技术方案,将图像信息转化为可以供计算机识别和处理的文本信息,大大提高了用户对图片中的字符信息进行资料存储、检索、加工的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种识别图片中的字符的方法的流程图;
图2示出了根据本发明一个实施例的一种识别搜索关键词的方法的流程图;
图3示出了根据本发明一个实施例的一种识别图片中的字符的装置的示意图;
图4示出了根据本发明一个实施例的一种识别搜索关键词的装置的示意图;
图5A示出了根据本发明一个实施例的用于进行字符识别的图片的示意图;
图5B示出了根据本发明另一个实施例的第一图片的示意图;
图5C示出了根据本发明另一个实施例的第二图片的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种识别图片中的字符的方法的流程图。如图1所示,该方法包括:
步骤S110,识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
步骤S120,按照图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合。
步骤S130,计算所得到的每个候选字符组合的概率。
步骤S140,将概率最高的候选字符组合作为对图片的字符识别结果。
可见,图1所示的方法通过获取图片所包含的字符占位对应的候选字符集合以及每个候选字符对应的概率参数,对图片中可能包含的所有候选字符组合的概率进行计算,将概率最高的候选字符组合作为对图片的字符识别结果。本方案可以将图像信息转化为可以供计算机识别和处理的文本信息,大大提高了用户对图片中的字符信息进行资料存储、检索、加工的效率。
在本发明的一个实施例中,图1所示方法的步骤S110利用光学字符识别(OpticalCharacter Recognition,OCR)技术识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
在本发明的一个实施例中,图1所示方法的步骤S130计算所得到的每个候选字符组合的概率为:基于n元语法模型,计算所得到的每个候选字符组合的概率。具体为,对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
图5A示出了根据本发明一个实施例的用于进行字符识别的图片的示意图,在图5A所示的具体实施例中,首先,识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数的结果如表1所示:
表1
字符占位 每个字符占位对应的候选字符集合 每个候选字符对应的概率参数
1 手,季,乎,年,丰 35,49,51,53,57
2 机,杌,枧,视,枫 22,43,52,52,56
3 管,菅,营,,眚 26,49,52,52,52
4 家,冢,象,彖,冻 23,61,81,82,83
如表1所示,图片中共有4个字符占位,每个字符占位对应的候选字符集合中包括5个候选字符。
接着,按照图5A所示图片中字符占位从左到右的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,能够得到54=625个候选字符组合。
本实施例中,基于4元语法模型计算每个候选字符组合的概率,即对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前3个候选字符已经确定的条件下出现的条件概率;计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
具体地,以一个候选字符组合“手机管家”为例,为了表示图片中字符组合的完整性,要考虑字符组合的开始和结束,先将该字符组合处理为“O手机管家$”,“O”表示字符组合开始,“$”表示字符组合结束。对于“手机管家”中的“手”字,在其前3个候选字符已经确定的条件下出现的概率是:P(手|OOO);对于“机”字,在其前3个候选字符已经确定的条件下出现的概率是:P(机|OO手);对于“管”字,在其前3个候选字符已经确定的条件下出现的概率是:P(管|O手机);对于“家”字,在其前3个候选字符已经确定的条件下出现的概率是:P(家|手机管);对于“$”,在其前3个候选字符已经确定的条件下出现的概率是:P($|机管家)。
因此,“手机管家”的概率为:P(手机管家)=P(手|OOO)×P(机|OO手)×P(管|O手机)×P(家|手机管)×P($|机管家)。其他候选字符组合的计算过程同理,不再赘述。将概率最高的候选字符组合作为对图片的字符识别结果,在本实施例中,概率最高的候选字符组合为“手机管家”,即为图5A所示图片的字符识别结果。
图2示出了根据本发明一个实施例的一种识别搜索关键词的方法的流程图。如图2所示,该方法包括:
步骤S210,响应于用户触屏操作,按照操作范围进行图片截取,获得第一图片;再按照操作范围扩大预定面积进行图片截取,获得第二图片。
步骤S220,分别识别第一图片和第二图片中的字符,得到相应的字符组合。
步骤S230,根据预设策略,从第一图片和第二图片对应的字符组合中选择一个字符组合作为识别后的搜索关键词。
可见,图2所示的方法响应于用户触屏操作截取了两张范围大小不同的图片,通过先分别识别再根据预设策略综合处理两张图片的方式,从两张图片中选择出更可信的识别结果作为搜索关键词进行搜索。与现有技术相比,本方案具有以下有益效果:首先,实现了对用户触屏操作的搜索关键词的识别,无需用户手动输入搜索关键词,简化搜索操作流程,符合用户需求;其次,采用了两张相关图片综合识别的方式,避免了单张图片中信息的缺失或赘余,进一步提高了对图片中字符识别的准确率,进而提高了识别搜索关键词的准确率。
在本发明的一个实施例中,图2所示方法的步骤S220分别识别第一图片和第二图片中的字符,得到相应的字符组合为:通过如上文中任一实施例所述的识别图片中的字符的方法,分别识别第一图片和第二图片中的字符,得到相应的字符组合。
在本发明的另一个实施例中,图2所示方法的步骤S220分别识别第一图片和第二图片中的字符,得到相应的字符组合进一步包括:得到字符组合中各字符占位的像素坐标。
在本发明的一个实施例中,图2所示方法的步骤S230根据预设策略,从第一图片和第二图片对应的字符组合中选择一个字符组合作为搜索关键词包括:
步骤S231,在第二图片对应的字符组合中,保留与第一图片对应的字符组合位置相同且长度相同字符组合。
本步骤中,依据一个具体的实施例,具体为:根据第一图片和第二图片分别对应的字符组合的像素坐标边界和每个字符占位的像素坐标,保留第二图片中与第一图片对应的字符组合位置相同且长度相同字符组合。
步骤S232,判断第二图片中保留的字符组合的平均语言模型分数是否小于第一图片对应的字符组合的平均模型分数。
本步骤中,字符组合的平均语言模型分数是指:字符组合的概率的对数值,按照字符组合中的字符数取平均后得到的值。
步骤S233,是则,选择第一图片对应的字符组合作为搜索关键词进行搜索;否则,选择第二图片对应的字符组合作为搜索关键词进行搜索。
图5B示出了根据本发明另一个实施例的第一图片的示意图;图5C示出了根据本发明另一个实施例的第二图片的示意图,在图5B和图5C所示的具体的实施例中,响应于用户的触屏操作,按照操作范围进行图片截取,获得如图5B所示的第一图片;再按照操作范围扩大预定面积进行图片截取,获得如图5C所示的第二图片。识别第一图片所包含的字符占位,获取每个字符占位对应的候选字符集合、每个候选字符对应的概率参数和每个字符占位的像素坐标,结果如表2所示:
表2
基于4元语法模型计算每个候选字符组合的概率,识别第一图片的概率最高的字符组合为“手机管易”,具体的识别过程在前文中已详细描述,不再赘述。
同理,识别第二图片所包含的字符占位,获取每个字符占位对应的候选字符集合、每个候选字符对应的概率参数和每个字符占位的像素坐标,结果如表3所示:
表3
基于4元语法模型计算每个候选字符组合的概率,识别第二图片的概率最高的字符组合为“t’ae.手机管家”,具体的识别过程在前文中已详细描述,不再赘述。根据各字符占位对应的像素坐标可知,该字符组合中“t’ae.”部分位于第二图片中较高的位置,“手机管家”部分位于第二图片中较低的位置。
接着,在第二图片对应的字符组合“t’ae.手机管家”中,保留与第一图片对应的字符组合“手机管易”位置相同且长度相同的字符组合,根据“手机管易”和“t’ae.手机管家”的像素坐标边界和每个字符占位的像素坐标,可知,在第二图片对应的字符组合“t’ae.手机管家”中,“手机管家”部分是与“手机管易”位置相同且长度相同的字符组合,因此,保留第二图片中“手机管家”字符组合。
分别计算“手机管家”与“手机管易”的概率的对数值,按照字符组合中的字符数取平均后得到的值,得到ln[P(手机管家)]/4>ln[P(手机管家)]/4,因此,选择第二图片对应的字符组合“手机管家”作为识别出的搜索关键词进行搜索。
图3示出了根据本发明一个实施例的一种识别图片中的字符的装置的示意图。如图3所示,该识别图片中的字符的装置300包括:
获取单元310,适于识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
预处理单元320,适于按照所述图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合。
识别单元330,适于计算所得到的每个候选字符组合的概率,将概率最高的候选字符组合作为对所述图片的字符识别结果。
可见,图3所示的装置通过各单元的相互配合,获取图片所包含的字符占位对应的候选字符集合以及每个候选字符对应的概率参数,对图片中可能包含的所有候选字符组合的概率进行计算,将概率最高的候选字符组合作为对图片的字符识别结果。本方案可以将图像信息转化为可以供计算机识别和处理的文本信息,大大提高了用户进行资料存储、检索、加工的效率。
在本发明的一个实施例中,图3所示装置的获取单元310,适于利用光学字符识别技术识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
在本发明的一个实施例中,图3所示装置的识别单元330,适于基于n元语法模型,计算所得到的每个候选字符组合的概率。具体为,识别单元330,适于对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
具体的实施例如图5A所在的实施例,上文中已详细说明,在此不再赘述。
图4示出了根据本发明一个实施例的一种识别搜索关键词的装置的示意图。如图4所示,该识别搜索关键词的装置400包括:
图片获取单元410,适于响应于用户触屏操作,按照所述操作范围进行图片截取,获得第一图片;再按照所述操作范围扩大预定面积进行图片截取,获得第二图片。
识别处理单元420,适于分别识别第一图片和第二图片中的字符,得到相应的字符组合。
搜索处理单元430,适于根据预设策略,从第一图片和第二图片对应的字符组合中选择一个字符组合作为识别后的搜索关键词。
可见,图4所示的装置通过各单元的相互配合,响应于用户触屏操作截取了两张范围大小不同的图片,通过先分别识别再根据预设策略综合处理两张图片的方式,从两张图片中选择出更可信的识别结果作为搜索关键词进行搜索。与现有技术相比,本方案具有以下有益效果:首先,实现了对用户触屏操作的搜索关键词的识别,无需用户手动输入搜索关键词,简化搜索操作流程,符合用户需求;其次,采用了两张相关图片综合识别的方式,避免了单张图片中信息的缺失或赘余,进一步提高了对图片中字符识别的准确率,进而提高了识别搜索关键词的准确率。
在本发明的一个实施例中,图4所示装置的识别处理单元420,适于通过如上文中任一实施例所述的识别图片中的字符的装置300,分别识别第一图片和第二图片中的字符,得到相应的字符组合。
进一步地,图4所示装置的识别处理单元420,还适于得到字符组合中各字符占位的像素坐标。
在本发明的一个实施例中,图4所示装置的搜索处理单元430,适于在第二图片对应的字符组合中,保留与第一图片对应的字符组合位置相同且长度相同字符组合;判断第二图片中保留的字符组合的平均语言模型分数是否小于第一图片对应的字符组合的平均模型分数;是则,选择第一图片对应的字符组合作为搜索关键词进行搜索;否则,选择第二图片对应的字符组合作为搜索关键词进行搜索。其中,具体地,搜索处理单元430,适于根据第一图片和第二图片分别对应的字符组合的像素坐标边界和每个字符占位的像素坐标,保留第二图片中与第一图片对应的字符组合位置相同且长度相同字符组合。此外,在一个实施例中,字符组合的平均语言模型分数是指:字符组合的概率的对数值,按照字符组合中的字符数取平均后得到的值。
具体的实施例如图5B和图5C所在的实施例,上文中已详细说明,在此不再赘述。
综上所述,本发明提供的技术方案作为一个整体来看,一方面,通过获取图片所包含的字符占位对应的候选字符集合以及每个候选字符对应的概率参数,对图片中可能包含的所有候选字符组合的概率进行计算,将概率最高的候选字符组合作为对图片的字符识别结果。另一方面,响应于用户触屏操作截取了两张范围大小不同的图片,通过先分别识别再根据预设策略综合处理两张图片的方式,从两张图片中选择出更可信的识别结果作为搜索关键词进行搜索。与现有技术相比,本方案具有以下有益效果:1、利用自然语言n元语法模型修正光学字符识别技术本身的识别错误问题,优化效果;2、动态规划找到最优的候选字符组合,提升识别效果;3、采用大图和小图的综合比较算法,相互验证和补充,避免了单张图片中信息的缺失或赘余;4、基于小图像素坐标来选择最终识别结果的位置和长度。本发明提高了对图片中字符识别的准确率,进而提高了识别搜索关键词的准确率,无需用户手动输入,提高搜索效率,符合用户需求。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种识别图片中的字符的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种识别图片中的字符的方法,其中,该方法包括:
识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;
按照所述图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;
计算所得到的每个候选字符组合的概率,以候选字符组合中各候选字符的条件概率的乘积作为该候选字符组合的概率;
将概率最高的候选字符组合作为对所述图片的字符识别结果。
2.如权利要求1所述的方法,其中,所述计算所得到的每个候选字符组合的概率为:
基于n元语法模型,计算所得到的每个候选字符组合的概率。
3.如权利要求1或2所述的方法,其中,所述基于n元语法模型,计算所得到的每个候选字符组合的概率包括:
对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;
计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
4.如权利要求3所述的方法,其中,
利用光学字符识别技术识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
5.一种识别图片中的字符的装置,其中,该装置包括:
获取单元,适于识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数;
预处理单元,适于按照所述图片所包含的各字符占位的顺序,依次从每个字符占位对应的候选字符集合中选取一个候选字符得到一个候选字符组合;进行多次选取,每次选取到不同的字符组合,得到多个候选字符组合;
识别单元,适于计算所得到的每个候选字符组合的概率,以候选字符组合中各候选字符的条件概率的乘积作为该候选字符组合的概率,将概率最高的候选字符组合作为对所述图片的字符识别结果。
6.如权利要求5所述的装置,其中,
所述识别单元,适于基于n元语法模型,计算所得到的每个候选字符组合的概率。
7.如权利要求5或6所述的装置,其中,
所述识别单元,适于对于一个候选字符组合中的每个候选字符,根据各候选字符的概率参数,计算该候选字符在其前n-1个候选字符已经确定的条件下出现的条件概率;再计算该候选字符组合中各候选字符的条件概率的乘积,作为该候选字符组合的概率。
8.如权利要求7所述的装置,其中,
所述获取单元,适于利用光学字符识别技术识别图片所包含的字符占位,获取每个字符占位对应的候选字符集合以及每个候选字符对应的概率参数。
CN201510158353.9A 2015-04-03 2015-04-03 一种识别图片中的字符的方法和装置 Active CN104766077B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510158353.9A CN104766077B (zh) 2015-04-03 2015-04-03 一种识别图片中的字符的方法和装置
PCT/CN2016/077865 WO2016155627A1 (zh) 2015-04-03 2016-03-30 一种识别图片中的字符的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510158353.9A CN104766077B (zh) 2015-04-03 2015-04-03 一种识别图片中的字符的方法和装置

Publications (2)

Publication Number Publication Date
CN104766077A CN104766077A (zh) 2015-07-08
CN104766077B true CN104766077B (zh) 2017-04-12

Family

ID=53647891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510158353.9A Active CN104766077B (zh) 2015-04-03 2015-04-03 一种识别图片中的字符的方法和装置

Country Status (2)

Country Link
CN (1) CN104766077B (zh)
WO (1) WO2016155627A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766077B (zh) * 2015-04-03 2017-04-12 北京奇虎科技有限公司 一种识别图片中的字符的方法和装置
CN105069898B (zh) * 2015-07-15 2018-03-30 广州敦和信息技术有限公司 一种发票字条自动定位的方法及装置
CN108446695B (zh) * 2018-02-06 2022-02-11 创新先进技术有限公司 用于数据标注的方法、装置和电子设备
CN109344830B (zh) * 2018-08-17 2024-06-28 平安科技(深圳)有限公司 语句输出、模型训练方法、装置、计算机设备及存储介质
JP6759306B2 (ja) 2018-11-26 2020-09-23 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
CN110414450A (zh) * 2019-07-31 2019-11-05 北京字节跳动网络技术有限公司 关键词检测方法、装置、存储介质及电子设备
CN111444906B (zh) * 2020-03-24 2023-09-29 腾讯科技(深圳)有限公司 基于人工智能的图像识别方法和相关装置
CN111914825B (zh) * 2020-08-03 2023-10-27 腾讯科技(深圳)有限公司 文字识别方法、装置及电子设备
CN112232347B (zh) * 2020-09-07 2023-06-20 平安科技(深圳)有限公司 基于概率矩阵的字符识别方法、装置、设备及存储介质
CN113221890A (zh) * 2021-05-25 2021-08-06 深圳市瑞驰信息技术有限公司 一种基于ocr的云手机文字内容监管方法和系统和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199102A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
CN102024139A (zh) * 2009-09-18 2011-04-20 富士通株式会社 字符串识别装置和方法
CN102298486A (zh) * 2010-06-22 2011-12-28 广东国笔科技股份有限公司 一种基于触摸屏的快速调用系统及方法
CN102750272B (zh) * 2012-07-02 2015-01-14 安徽科大讯飞信息科技股份有限公司 字符手写输入候选项优化方法及系统
CN102799379A (zh) * 2012-07-13 2012-11-28 北京小米科技有限责任公司 一种字符输入方法及字符输入设备
CN102982330B (zh) * 2012-11-21 2016-12-21 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置
CN103076892B (zh) * 2012-12-31 2016-09-28 百度在线网络技术(北京)有限公司 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN104360759B (zh) * 2014-11-21 2017-03-08 百度在线网络技术(北京)有限公司 候选字排序方法、装置和文字输入方法、设备
CN104766077B (zh) * 2015-04-03 2017-04-12 北京奇虎科技有限公司 一种识别图片中的字符的方法和装置

Also Published As

Publication number Publication date
CN104766077A (zh) 2015-07-08
WO2016155627A1 (zh) 2016-10-06

Similar Documents

Publication Publication Date Title
CN104766077B (zh) 一种识别图片中的字符的方法和装置
US11410407B2 (en) Method and device for generating collection of incorrectly-answered questions
CN107704506B (zh) 智能应答的方法和装置
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
CN106815311B (zh) 一种问题匹配方法和装置
CN108052653A (zh) 图像特征描述符的获取方法、装置、存储介质、终端及图像检索方法
CN109918539B (zh) 一种基于用户点击行为的音、视频互相检索方法
CN105701488A (zh) 一种身份证识别方法
CN107025239B (zh) 敏感词过滤的方法和装置
CN110321537B (zh) 一种文案生成方法和装置
CN108256044B (zh) 直播间推荐方法、装置及电子设备
CN107291939B (zh) 酒店信息的聚类匹配方法及系统
CN108009135B (zh) 生成文档摘要的方法和装置
CN109885828A (zh) 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN110223050A (zh) 一种商户门店名称的验证方法及相关装置
US9679380B2 (en) Emotion modification for image and video content
CN103440865B (zh) 语音识别的后处理方法
CN113128228A (zh) 语音指令识别方法、装置、电子设备及存储介质
CN114429635A (zh) 书本管理方法
CN112949649A (zh) 一种文本图像的识别方法、装置及计算设备
CN105790967B (zh) 一种网络日志处理方法和装置
CN111444906A (zh) 基于人工智能的图像识别方法和相关装置
CN111144407A (zh) 一种目标检测方法、系统、装置及可读存储介质
CN108932434B (zh) 一种基于机器学习技术的数据加密方法及装置
CN104765815B (zh) 一种识别搜索关键词的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.