CN105809170A - 字符识别方法和装置 - Google Patents

字符识别方法和装置 Download PDF

Info

Publication number
CN105809170A
CN105809170A CN201610125383.4A CN201610125383A CN105809170A CN 105809170 A CN105809170 A CN 105809170A CN 201610125383 A CN201610125383 A CN 201610125383A CN 105809170 A CN105809170 A CN 105809170A
Authority
CN
China
Prior art keywords
character
recognition result
key word
letter
attibute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610125383.4A
Other languages
English (en)
Other versions
CN105809170B (zh
Inventor
王磊
麦涛
张旭
张明亮
齐勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201610125383.4A priority Critical patent/CN105809170B/zh
Publication of CN105809170A publication Critical patent/CN105809170A/zh
Application granted granted Critical
Publication of CN105809170B publication Critical patent/CN105809170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种字符识别方法和装置,涉及图文处理技术领域,该方法包括:通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,并根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。

Description

字符识别方法和装置
技术领域
本发明涉及图文处理技术领域,具体地,涉及一种字符识别方法和装置。
背景技术
目前,OCR(OpticalCharacterRecognition,光学字符识别)是当前比较常用的基于图像的字符识别技术,该技术是采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。随着OCR技术的不断成熟,其应用范围也越来越广泛。
但是,现有的OCR技术在识别图像中的字母和数字时容易将二者混淆,影响字符识别的准确率。
发明内容
本发明提供一种字符识别方法和装置,用于解决现有的基于图像的字符识别技术中字母和数字容易混淆的问题。
为了实现上述目的,本发明提供一种字符识别方法,所述方法包括:
对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;
通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;
将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;
确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;
根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。
可选的,所述通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括:
通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;
当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;
当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;
当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。
可选的,所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符,包括:
对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;
在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。
可选的,所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;
所述当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符包括:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。
可选的,所述对目标图像中的目标内容进行第一次字符识别,得到第一识别结果包括:
利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
本发明还提供一种字符识别装置,所述装置包括:
字符识别模块,用于对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;
语义分析模块,用于通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;
标记模块,用于将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;
所述字符识别模块,还用于确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;
输出模块,用于根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。
可选的,所述语义分析模块包括:
匹配子模块,用于通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;
分类子模块,用于当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;
确定子模块,用于当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;
所述确定子模块,还用于当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。
可选的,所述匹配子模块,包括:
分词子模块,用于对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;
查找子模块,用于在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。
可选的,所述确定子模块用于:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;
所述确定子模块还用于:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。
可选的,所述字符识别模块用于:
利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
本发明提供的字符识别方法和装置,通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明实施例提供的一种字符识别方法的流程示意图;
图2是本发明另一实施例提供的一种字符识别方法的流程示意图;
图3是本发明一实施例提供的一种字符识别装置的结构框图;
图4是图3所示实施例示出的一种语义分析模块的框图;
图5是图4所示实施例示出的一种匹配子模块的框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明实施例提供的一种字符识别方法的流程示意图,参见图1,该方法可以包括:
步骤101,对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
步骤102,通过对第一识别结果进行语义分析以识别出第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符。
步骤103,将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字。
步骤104,确定第一识别结果中带有标记的字符在目标图像中的位置,并根据字符所带的标记对位置进行第二次字符识别,得到第二识别结果。
步骤105,根据第一识别结果和第二识别结果输出目标内容的字符识别结果。
本发明提供的字符识别方法,通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。
图2是本发明另一实施例提供的一种字符识别方法的流程示意图,参见图2,该方法可以包括:
步骤201,对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
示例地,目标图像指的是想要识别其中文字的图像,例如任意包含文字的图像、PDF(PortableDocumentFormat,便携式文档格式)文件中的图像等等,目标内容可以是目标图像中的一句话,一段话,或者是一篇文章,目标内容的实际文字数量可以预先设置,也由用户来选定。另外,字符识别可以通过OCR技术来进行。
步骤202,通过对第一识别结果进行语义分析在第一识别结果的字符中查找与预定义的关键词匹配的目标字符。
示例地,语义分析可以通过自然语言处理技术,具体的可以包括:
首先,第一识别结果中可能包括多个字符,该多个字符中可能包括汉字、外语单词、字母、数字或者符号中的一种或者多种,因此可以先将第一识别结果进行分词,用于将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符,即每个字符集合可能是一个字、词、句,也可能是一个字母、一个单词、一个或一组数字。例如,假设目标图像中的目标内容为“最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章”,在通过OCR对目标内容进行字符识别后,假设得到的第一识别结果为“最早对印刷体汉字识别进行研究的是1BM公司的Casey和Nagy,I966年他们发表了第一篇关于汉字识别的文章”。在对该第一识别结果进行分词后,示例地,假设得到的分词结果为:“最早,对,印刷体,汉字识别,进行研究的,是,1BM,公司,的,Casey和Nagy,l966,年,他们,发表了,第一篇,关于,汉字识别,的文章”。
其次,将上述分词得到的多个字符集合分别与预定义的关键词进行对比,在所有的字符集合中查找与预定义的关键词匹配的字符集合,与预定义的关键词匹配的字符集合就是需要找到的目标字符。示例地,预定义的关键词可以包括两类,一类为代表数字的关键词,例如:年、月、日,时、分、秒等时间单位,以及重量,体积,价钱等度量单位;另一类为代表字母的关键词,例如:品牌,公司,地名等名词形式的词语。从而,根据这里的关键词,可以确定上述分词得到的多个字符集合“最早,对,印刷体,汉字识别,进行研究的,是,1BM,公司,的,Casey和Nagy,l966,年,他们,发表了,第一篇,关于,汉字识别,的文章”中与预定义的关键词匹配的为“公司”和“年”,从而第一识别结果中的目标字符就是“公司”和“年”,进而根据上述目标字符进行步骤203。
步骤203,当查找到目标字符时,确定目标字符所匹配的关键词所属的分类,分类包括代表数字的关键词,或代表字母的关键词。
根据步骤202中关键词的分类可以确定,“公司”为代表字母的关键词,“年”为代表数字的关键词,从而进行步骤204或205。
步骤204,当目标字符所匹配的关键词属于代表数字的关键词时,将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为数字的字符。
在本实施例中,A和/或B可以理解为A、B中的至少一种,即包括以下三种情况:A,或者B,或者A和B。因此,将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为数字的字符可以理解为,将目标字符之前的,或者目标字符之后的,或者目标字符前后的确定为字符属性为数字的字符,而实际需要采用上述三种情况中的哪一种可以根据目标字符所匹配的关键词,以及与该关键词对应的判定策略来确定。示例地,由于年、月、日,时、分、秒等时间单位,以及重量,体积,价钱等度量单位之前的字符为数字的可能性大于为字母的可能性,因此其对应的判定策略可以为:将目标字符之前的字符确定为字符属性为数字的字符。
因此,由于在步骤202中得到的分词结果中,在目标字符“年”之前的字符集合为“l966”,从而结合步骤203确定的“年”为代表数字的关键词,以及上述的判定策略,可以将目标字符“年”之前的字符集合“l966”确定为字符属性为数字的字符。
步骤205,当目标字符所匹配的关键词属于代表字母的关键词时,将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为字母的字符。
与步骤204相似,将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为字母的字符可以理解为,将目标字符之前的,或者目标字符之后的,或者目标字符前后的确定为字符属性为字母的字符,而实际需要采用上述三种情况中的哪一种可以根据目标字符所匹配的关键词,以及与该关键词对应的判定策略来确定。示例地,由于品牌,公司,地名等名词形式的词语之前的字符为字母的可能性大于为数字的可能性,因此其对应的判定策略可以为:将目标字符之前的字符确定为字符属性为字母的字符。
因此,由于在步骤202中得到的分词结果中,在目标字符“公司”之前的字符集合为“1BM”,从而结合步骤203确定的“公司”为代表字母的关键词,以及上述的判定策略,可以将目标字符“公司”之前的字符集合“1BM”确定为字符属性为字母的字符。
步骤206,将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字。
示例地,根据步骤204及205中得到的结果,字符集合“l966”为字符属性为数字的字符,字符集合“1BM”为字符属性为字母的字符,因此,将字符集合“l966”中的字符标记为数字,将字符集合“1BM”中的字符标记为字母。
步骤207,确定第一识别结果中带有标记的字符在目标图像中的位置,并根据字符所带的标记对位置进行第二次字符识别,得到第二识别结果。
示例地,通过OCR对字符集合“l966”以及“1BM”在目标图像中的位置进行第二次字符识别,由于“l966”被标记为数字,因此在第二次字符识别时,“l966”会被识别为“1966”,同理,由于“1BM”被标记为字母,因此在第二次字符识别时,会被识别为“IBM”。
步骤208,根据第一识别结果和第二识别结果输出目标内容的字符识别结果。
从而利用第二识别结果对第一识别结果进行更新就可以得到目标内容的最终的字符识别结果,该结果为“最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章”。由此可见,解决了在识别图像中的字母和数字时容易将二者混淆的问题,提高了字符识别的准确率。
综上所述,本发明提供的字符识别方法,通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。
图3是本发明一实施例提供的一种字符识别装置的结构框图,该字符识别装置300可以用于执行图1或图2所示的方法,参见图3,该装置300可以包括:
字符识别模块310,用于对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;
语义分析模块320,用于通过对第一识别结果进行语义分析以识别出第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;
标记模块330,用于将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字;
字符识别模块310,还用于确定第一识别结果中带有标记的字符在目标图像中的位置,并根据字符所带的标记对位置进行第二次字符识别,得到第二识别结果。
输出模块340,用于根据第一识别结果和第二识别结果输出所述目标内容的字符识别结果。
可选的,图4是图3所示实施例示出的一种语义分析模块的框图,参见图4,语义分析模块320可以包括:
匹配子模块321,用于通过对第一识别结果进行语义分析在第一识别结果的字符中查找与预定义的关键词匹配的目标字符;
分类子模块322,用于当查找到目标字符时,确定目标字符所匹配的关键词所属的分类,分类包括代表数字的关键词,或代表字母的关键词;
确定子模块323,用于当目标字符所匹配的关键词属于代表数字的关键词时,将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为数字的字符;
确定子模块323,还用于当目标字符所匹配的关键词属于代表字母的关键词时,将目标字符之前和/或目标字符之后的一个或多个字符确定为字符属性为字母的字符。
可选的,图5是图4所示实施例示出的一种匹配子模块的框图,参见图5,匹配子模块321,可以包括:
分词子模块3211,用于对第一识别结果进行分词处理以将第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;
查找子模块3212,用于在所有的字符集合中查找目标字符,目标字符为与预定义的关键词匹配的字符集合。
可选的,确定子模块323用于:当目标字符所匹配的关键词属于代表数字的关键词时,将目标字符之前相邻的和/或目标字符之后相邻的字符集合中的字符确定字符属性为数字的字符;
确定子模块323还用于:当目标字符所匹配的关键词属于代表字母的关键词时,将目标字符之前相邻的和/或目标字符之后相邻的字符集合中的字符确定字符属性为字母的字符。
可选的,字符识别模块310可以用于:
利用OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
综上所述,本发明提供的字符识别装置,通过对目标图像中的目标内容进行第一次字符识别后,对得到的第一识别结果进行语义分析,以识别出第一识别结果中字符属性为字母的字符,以及字符属性为数字的字符,并且将字符属性为字母的字符标记为字母,将字符属性为数字的字符标记为数字,而后对带有标记的字符在目标图像中的位置进行第二次字符识别,得到第二识别结果,最后根据第一识别结果和第二识别结果输出目标内容的字符识别结果,从而能解决免字母和数字容易混淆的问题,提高字符识别的准确率。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (10)

1.一种字符识别方法,其特征在于,所述方法包括:
对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;
通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;
将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;
确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;
根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。
2.根据权利要求1所述的方法,其特征在于,所述通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符包括:
通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;
当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;
当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;
当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。
3.根据权利要求2所述的方法,其特征在于,所述通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符,包括:
对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;
在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。
4.根据权利要求3所述的方法,其特征在于,
所述当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符包括:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;
所述当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符包括:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。
5.根据权利要求1所述的方法,其特征在于,所述对目标图像中的目标内容进行第一次字符识别,得到第一识别结果包括:
利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
6.一种字符识别装置,其特征在于,所述装置包括:
字符识别模块,用于对目标图像中的目标内容进行第一次字符识别,得到第一识别结果;
语义分析模块,用于通过对所述第一识别结果进行语义分析以识别出所述第一识别结果的各个字符中字符属性为字母的字符和字符属性为数字的字符;
标记模块,用于将所述字符属性为字母的字符标记为字母,将所述字符属性为数字的字符标记为数字;
所述字符识别模块,还用于确定所述第一识别结果中带有标记的字符在所述目标图像中的位置,并根据所述字符所带的标记对所述位置进行第二次字符识别,得到第二识别结果;
输出模块,用于根据所述第一识别结果和所述第二识别结果输出所述目标内容的字符识别结果。
7.根据权利要求6所述的装置,其特征在于,所述语义分析模块包括:
匹配子模块,用于通过对所述第一识别结果进行语义分析在所述第一识别结果的字符中查找与预定义的关键词匹配的目标字符;
分类子模块,用于当查找到所述目标字符时,确定所述目标字符所匹配的关键词所属的分类,所述分类包括代表数字的关键词,或代表字母的关键词;
确定子模块,用于当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为数字的字符;
所述确定子模块,还用于当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前和/或所述目标字符之后的一个或多个字符确定为所述字符属性为字母的字符。
8.根据权利要求7所述的装置,其特征在于,所述匹配子模块,包括:
分词子模块,用于对所述第一识别结果进行分词处理以将所述第一识别结果划分为多个字符集合,每个字符集合中包括一个或多个字符;
查找子模块,用于在所有的字符集合中查找所述目标字符,所述目标字符为与预定义的关键词匹配的字符集合。
9.根据权利要求8所述的装置,其特征在于,
所述确定子模块用于:当所述目标字符所匹配的关键词属于所述代表数字的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为数字的字符;
所述确定子模块还用于:当所述目标字符所匹配的关键词属于所述代表字母的关键词时,将所述目标字符之前相邻的和/或所述目标字符之后相邻的字符集合中的字符确定所述字符属性为字母的字符。
10.根据权利要求6所述的装置,其特征在于,所述字符识别模块用于:
利用光学字符识别OCR对目标图像中的目标内容进行第一次字符识别,得到第一识别结果。
CN201610125383.4A 2016-03-04 2016-03-04 字符识别方法和装置 Active CN105809170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610125383.4A CN105809170B (zh) 2016-03-04 2016-03-04 字符识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610125383.4A CN105809170B (zh) 2016-03-04 2016-03-04 字符识别方法和装置

Publications (2)

Publication Number Publication Date
CN105809170A true CN105809170A (zh) 2016-07-27
CN105809170B CN105809170B (zh) 2019-04-26

Family

ID=56466684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610125383.4A Active CN105809170B (zh) 2016-03-04 2016-03-04 字符识别方法和装置

Country Status (1)

Country Link
CN (1) CN105809170B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090484A (zh) * 2016-11-23 2018-05-29 杭州海康威视数字技术股份有限公司 一种车牌识别方法及装置
WO2019056491A1 (zh) * 2017-09-21 2019-03-28 平安科技(深圳)有限公司 一种 ocr 识别的处理方法、存储介质和服务器
CN110019700A (zh) * 2017-09-13 2019-07-16 阿里巴巴集团控股有限公司 数据处理方法和设备
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN112860958A (zh) * 2021-01-15 2021-05-28 北京百家科技集团有限公司 一种信息显示方法及装置
CN113313114A (zh) * 2021-06-11 2021-08-27 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1472695A (zh) * 2002-07-09 2004-02-04 ������������ʽ���� 字符识别装置及方法
US20070230784A1 (en) * 2006-03-30 2007-10-04 Nidec Sankyo Corporation Character string recognition method and device
CN101246550A (zh) * 2008-03-11 2008-08-20 深圳华为通信技术有限公司 图像文字识别方法及装置
CN101916378A (zh) * 2010-07-20 2010-12-15 青岛海信网络科技股份有限公司 易混淆字符的识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1472695A (zh) * 2002-07-09 2004-02-04 ������������ʽ���� 字符识别装置及方法
US20070230784A1 (en) * 2006-03-30 2007-10-04 Nidec Sankyo Corporation Character string recognition method and device
CN101246550A (zh) * 2008-03-11 2008-08-20 深圳华为通信技术有限公司 图像文字识别方法及装置
CN101916378A (zh) * 2010-07-20 2010-12-15 青岛海信网络科技股份有限公司 易混淆字符的识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邢博等: "一种新的车牌数字及字母字符识别方法", 《辽宁师范大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090484A (zh) * 2016-11-23 2018-05-29 杭州海康威视数字技术股份有限公司 一种车牌识别方法及装置
CN110019700A (zh) * 2017-09-13 2019-07-16 阿里巴巴集团控股有限公司 数据处理方法和设备
CN110019700B (zh) * 2017-09-13 2023-01-17 阿里巴巴集团控股有限公司 数据处理方法和设备
WO2019056491A1 (zh) * 2017-09-21 2019-03-28 平安科技(深圳)有限公司 一种 ocr 识别的处理方法、存储介质和服务器
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN112860958A (zh) * 2021-01-15 2021-05-28 北京百家科技集团有限公司 一种信息显示方法及装置
CN112860958B (zh) * 2021-01-15 2024-01-26 北京百家科技集团有限公司 一种信息显示方法及装置
CN113313114A (zh) * 2021-06-11 2021-08-27 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN105809170B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN105809170A (zh) 字符识别方法和装置
US7756871B2 (en) Article extraction
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CA2078423C (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US9158833B2 (en) System and method for obtaining document information
EP0784280A2 (en) Auto-index method
US20150310269A1 (en) System and Method of Using Dynamic Variance Networks
CN102662937A (zh) 自动翻译系统及其自动翻译方法
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
CN110119510A (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
CN102609410A (zh) 规范文档辅助写作系统及规范文档生成方法
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
US20150199582A1 (en) Character recognition apparatus and method
Bień The IMPACT project Polish Ground-Truth texts as a DjVu corpus
Hocking et al. Optical character recognition for South African languages
EP4167106A1 (en) Method and apparatus for data structuring of text
AU2018100324A4 (en) Image Analysis
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
Eyecioglu et al. Knowledge-lean paraphrase identification using character-based features
Ohta et al. Empirical evaluation of CRF-based bibliography extraction from reference strings
KR20210001164A (ko) 계약서 분석 장치 및 방법
KR102442339B1 (ko) 학습 교재의 ocr 변환 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant