CN104346616B - 字符识别装置和字符识别方法 - Google Patents

字符识别装置和字符识别方法 Download PDF

Info

Publication number
CN104346616B
CN104346616B CN201310346659.8A CN201310346659A CN104346616B CN 104346616 B CN104346616 B CN 104346616B CN 201310346659 A CN201310346659 A CN 201310346659A CN 104346616 B CN104346616 B CN 104346616B
Authority
CN
China
Prior art keywords
character
base
self
database
defining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310346659.8A
Other languages
English (en)
Other versions
CN104346616A (zh
Inventor
耿蕾蕾
董宁
徐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangzheng Apapi Technology Co Ltd
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310346659.8A priority Critical patent/CN104346616B/zh
Publication of CN104346616A publication Critical patent/CN104346616A/zh
Application granted granted Critical
Publication of CN104346616B publication Critical patent/CN104346616B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种字符识别装置,包括:提取单元,用于从导入文件中提取出具有自定义字符编码标识的基本字符;识别单元,用于在数据库中检索与所述基本字符相匹配的字符,在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码。本发明还提出了一种字符识别方法。通过本发明的技术方案,可以减小字符识别对人工干预的依赖性,并且可以提高对文件中字符识别的效率与精度。

Description

字符识别装置和字符识别方法
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种字符识别装置和一种字符识别方法。
背景技术
目前,在数字报刊内容的反解过程中,会出现大量需要人工干预进行OCR(OpticalCharacter Recognition,光学字符识别,即通过光学技术对文字进行识别)识别的工作,并且该识别过程是一次性的,即对其中一份数字报刊进行反解时,对自定义编码的字符进行人工OCR识别后,在反解其他数字报刊时,若出现与上述其中一份数字报刊中相同的自定义编码字符,依然需要人工OCR识别,导致报社工作人员做出了大量的重复性的工作,同时也大大降低了对数字报刊内容OCR识别的效率。
因此,如何提高数字报刊内容的OCR识别效率成为亟待解决的技术问题。
发明内容
考虑到相关技术中出现的技术问题,本发明提供了一种新的字符识别方案,通过本发明的技术方案,可以减小字符识别对人工干预的依赖性,并且可以提高对文件中字符识别的效率与精度。
根据本发明的一个方面,提供了一种字符识别装置,包括:提取单元,用于从导入文件中提取出具有自定义字符编码标识的基本字符;识别单元,用于在数据库中检索与所述基本字符相匹配的字符,在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码,其中,所述数据库存储有自定义编码字符的字符编码信息。
在该技术方案中,通过将导入文件中具有自定义字符编码标识的基本字符与数据库中的字符进行匹配,并在匹配时,将数据库中的匹配字符对应的字符编码作为基本字符的字符编码,减少了对导入文件中具有自定义字符编码标识的基本字符进行一一人工识别的步骤,从而提高了对文件中字符识别的效率。
在上述技术方案中,优选地,所述提取单元还用于提取所述基本字符的字体、字号和点阵图像数据;字形获取单元,用于根据所述字体、字号和点阵图像数据生成所述基本字符的字形;所述识别单元还用于将所述基本字符与所述数据库中的字符以字形为依据进行匹配。
在该技术方案中,点阵图像数据描述了字体的轮廓,不同的字符具有不同轮廓,而字符通常有相应的字体、字号特征,因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形,字形可以起到对字符进行唯一标识的作用,在进行匹配的过程中,以字形作为依据来进行匹配,可以更加精准地找到匹配的字符,提高了字符匹配的精度。
在上述技术方案中,优选地,所述识别单元还用于在所述数据库中未检索到与所述基本字符相匹配的字符时,对所述基本字符的自定义字符编码进行人工识别,并将识别出的字符编码保存至所述数据库。
在该技术方案中,通过对在数据库中未匹配到的基本字符进行人工识别,并将识别出的字符编码与相应的字符对应保存至数据库中,这样在进行下次识别,若遇到相同的自定义字符编码的基本字符,则直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码,无需再进行人工识别,以提高识别效率,随着数据库中存储的字符编码数量的增多,使得字符的识别对人工干预的依赖性减小,降低了人工识别的错误率,提高了字符识别的准确度。
在上述技术方案中,优选地,所述提取单元还用于从所述导入文件中提取所有基本字符,并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符,以生成自定义字符列表;所述识别单元还用于顺序识别所述自定义字符列表中的基本字符。
在具体识别过程中,将提取出整个导入文件中自定义字符编码的基本字符并放入自定义字符列表中,对自定义列表中的基本字符进行顺序匹配识别,可以方便地对需要进行识别的基本字符进行汇总查看与处理。
在上述技术方案中,优选地,所述识别单元还用于在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时,将未被匹配的基本字符加入人工识别列表中,对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。
将在自定义字符列表中未匹配到的基本字符加入人工识别列表中,可以使需要人工识别的字符更加直观地呈现给用户,避免用户在导入的文件中对未匹配到的基本字符一一寻找并识别的繁琐过程,方便了用户的操作,同时也提高了识别的效率。
根据本发明的另一方面,还提出了一种字符识别方法,包括:从导入文件中提取出具有自定义字符编码标识的基本字符;在数据库中检索与所述基本字符相匹配的字符;在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码,其中,所述数据库存储有自定义编码字符的字符编码信息。
通过将导入文件中具有自定义字符编码标识的基本字符与数据库中的字符进行匹配,并在匹配时,将数据库中的匹配字符对应的字符编码作为基本字符的字符编码,减少了对导入文件中具有自定义字符编码标识的基本字符进行一一人工识别的步骤,从而提高了对文件中字符识别的效率。
在上述技术方案中,优选地,还可以包括:提取所述基本字符的字体、字号和点阵图像数据;根据所述字体、字号和点阵图像数据生成所述基本字符的字形;将所述基本字符与所述数据库中的字符以字形为依据进行匹配。
点阵图像数据描述了字体的轮廓,不同的字符具有不同轮廓,而字符通常有相应的字体、字号特征,因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形,字形可以起到对字符进行唯一标识的作用,在进行匹配的过程中,以字形作为依据来进行匹配,可以更加精准地找到匹配的字符,提高了字符匹配的精度。在上述技术方案中,优选地,还包括:在所述数据库中未检索到与所述基本字符相匹配的字符时,对所述基本字符的自定义字符编码进行人工识别,并将识别出的字符编码保存至所述数据库。
通过对在数据库中未匹配到的基本字符进行人工识别,并将识别出的字符编码与相应的字符对应保存至数据库中,这样在进行下次识别,若遇到相同的自定义字符编码的基本字符,则直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码,无需再进行人工识别,以提高识别效率,随着数据库中存储的字符编码数量的增多,使得字符的识别对人工干预的依赖性减小,降低了人工识别的错误率,提高了字符识别的准确度。
在上述技术方案中,优选地,从所述导入文件中提取所有基本字符,并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符,以生成自定义字符列表;顺序识别所述自定义字符列表中的基本字符。
在具体识别过程中,将提取出整个导入文件中自定义字符编码的基本字符并放入自定义字符列表中,对自定义列表中的基本字符进行顺序匹配识别,可以方便地对需要进行识别的基本字符进行汇总查看与处理。在上述技术方案中,优选地,在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时,将未被匹配的基本字符加入人工识别列表中;对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。
将在自定义字符列表中未匹配到的基本字符加入人工识别列表中,可以使需要人工识别的字符更加直观地呈现给用户,避免用户在导入的文件中对未匹配到的基本字符一一寻找并识别的繁琐过程,方便了用户的操作,同时也提高了识别的效率。
通过本发明的技术方案,可以减小字符识别对人工干预的依赖性,并且可以提高对文件中字符识别的效率与精度。
附图说明
图1示出了根据本发明的实施例的字符识别装置的框图;
图2示出了根据本发明的实施例的字符识别方法的流程图;
图3示出了根据本发明的实施例的字符识别方法的具体流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的字符识别装置的框图。如图1所示,根据本发明的实施例的字符识别装置100,包括:提取单元102,用于从导入文件中提取出具有自定义字符编码标识的基本字符;识别单元104,用于在数据库中检索与所述基本字符相匹配的字符,在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码,其中,所述数据库存储有自定义编码字符的字符编码信息。
通过将导入文件中具有自定义字符编码标识的基本字符与数据库中的字符进行匹配,并在匹配时,将数据库中的匹配字符对应的字符编码作为基本字符的字符编码,减少了对导入文件中具有自定义字符编码标识的基本字符进行一一人工识别的步骤,从而提高了对文件中字符识别的效率。
在上述技术方案中,优选地,所述提取单元102还用于提取所述基本字符的字体、字号和点阵图像数据;字形获取单元106,用于根据所述字体、字号和点阵图像数据生成所述基本字符的字形;所述识别单元104还用于将所述基本字符与所述数据库中的字符以字形为依据进行匹配。
点阵图像数据描述了字体的轮廓,不同的字符具有不同轮廓,而字符通常有相应的字体、字号特征,因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形,字形可以起到对字符进行唯一标识的作用,在进行匹配的过程中,以字形作为依据来进行匹配,可以更加精准地找到匹配的字符,提高了字符匹配的精度。
在上述技术方案中,优选地,所述识别单元104还用于在所述数据库中未检索到与所述基本字符相匹配的字符时,对所述基本字符的自定义字符编码进行人工识别,并将识别出的字符编码保存至所述数据库。
通过对在数据库中未匹配到的基本字符进行人工识别,并将识别出的字符编码与相应的字符对应保存至数据库中,这样在进行下次识别,若遇到相同的自定义字符编码的基本字符,则直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码,无需再进行人工识别,以提高识别效率,随着数据库中存储的字符编码数量的增多,使得字符的识别对人工干预的依赖性减小,降低了人工识别的错误率,提高了字符识别的准确度。
在上述技术方案中,优选地,所述提取单元102还用于从所述导入文件中提取所有基本字符,并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符,以生成自定义字符列表;所述识别单元104还用于顺序识别所述自定义字符列表中的基本字符。
在具体识别过程中,将提取出整个导入文件中自定义字符编码的基本字符并放入自定义字符列表中,对自定义列表中的基本字符进行顺序匹配识别,可以方便地对需要进行识别的基本字符进行汇总查看与处理。
在上述技术方案中,优选地,所述识别单元104还用于在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时,将未被匹配的基本字符加入人工识别列表中,对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。
将在自定义字符列表中未匹配到的基本字符加入人工识别列表中,可以使需要人工识别的字符更加直观地呈现给用户,避免用户在导入的文件中对未匹配到的基本字符一一寻找并识别的繁琐过程,方便了用户的操作,同时也提高了识别的效率。
图2示出了根据本发明的实施例的字符识别方法的流程图。
如图2所示,根据本发明的实施例的字符识别方法,包括:步骤202,从导入文件中提取出具有自定义字符编码标识的基本字符;步骤204,在数据库中检索与所述基本字符相匹配的字符;步骤206,在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码,其中,所述数据库存储有自定义编码字符的字符编码信息。
通过将导入文件中具有自定义字符编码标识的基本字符与数据库中的字符进行匹配,并在匹配时,将数据库中的匹配字符对应的字符编码作为基本字符的字符编码,减少了对导入文件中具有自定义字符编码标识的基本字符进行一一人工识别的步骤,从而提高了对文件中字符识别的效率。
在上述技术方案中,优选地,还包括:提取所述基本字符的字体、字号和点阵图像数据;根据所述字体、字号和点阵图像数据生成所述基本字符的字形;将所述基本字符与所述数据库中的字符以字形为依据进行匹配。
点阵图像数据描述了字体的轮廓,不同的字符具有不同轮廓,而字符通常有相应的字体、字号特征,因此根据字符的字体、字号和点阵图像数据可以得到一个字符的字形,字形可以起到对字符进行唯一标识的作用,在进行匹配的过程中,以字形作为依据来进行匹配,可以更加精准地找到匹配的字符,提高了字符匹配的精度。
在上述技术方案中,优选地,还包括:在所述数据库中未检索到与所述基本字符相匹配的字符时,对所述基本字符的自定义字符编码进行人工识别,并将识别出的字符编码保存至所述数据库。
通过对在数据库中未匹配到的基本字符进行人工识别,并将识别出的字符编码与相应的字符对应保存至数据库中,这样在进行下次识别,若遇到相同的自定义字符编码的基本字符,则直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码,无需再进行人工识别,以提高识别效率,随着数据库中存储的字符编码数量的增多,使得字符的识别对人工干预的依赖性减小,降低了人工识别的错误率,提高了字符识别的准确度。
在上述技术方案中,优选地,从所述导入文件中提取所有基本字符,并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符,以生成自定义字符列表;顺序识别所述自定义字符列表中的基本字符。
在具体识别过程中,将提取出整个导入文件中自定义字符编码的基本字符并放入自定义字符列表中,对自定义列表中的基本字符进行顺序匹配识别,可以方便地对需要进行识别的基本字符进行汇总查看与处理。在上述技术方案中,优选地,在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时,将未被匹配的基本字符加入人工识别列表中;对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。
将在自定义字符列表中未匹配到的基本字符加入人工识别列表中,可以使需要人工识别的字符更加直观地呈现给用户,避免用户在导入的文件中对未匹配到的基本字符一一寻找并识别的繁琐过程,方便了用户的操作,同时也提高了识别的效率。为了提供数字报刊内容OCR识别的效率,降低人工干预的工作量,首先,需要在本地建立字体库,以存储经过用户人工OCR识别的自定义字符编码信息,该自定义字符编码信息包括报刊字形数据、字符编码数据、字符对应的字体名称,信息存储时并以字体名称为分类标准;其次,对某版数字内容进行OCR识别时,先进行OCR识别的预处理,即从本地字体库中匹配需要OCR识别的自定义字符,如匹配成功,则不需要再送去人工OCR识别;最后,对于需要人工OCR识别的自定义字符,经过人工识别后,将识别结果存储到本地字体库中。
图3示出了根据本发明的实施例的字符识别方法的具体流程图。
如图3所示,根据本发明的实施例的字符识别方法,包括:
步骤302,提取文件版面中基本的文字块信息(一个字为一个基本的文字块,每个文字块包含有字体、字号、字符编码、是否为自定义编码等特征信息),形成文字块列表,即从导入的文件中提取出所有基本字符,该导入的文件可以是PDF、OFD等版式文档格式或CEBX、ePub等流式文档格式;
步骤304,筛选自定义编码文字块,形成自定义字符编码列表,即从提取出的所有基本字符中筛选出具有自定义字符编码标识的基本字符,并生成自定义字符列表;
步骤306,开始顺序处理本版面内的自定义字符列表,即顺序识别上述的自定义字符列表中的基本字符;
步骤308,根据字形进行全字体库检索匹配(即进行OCR预识别),字形是根据字符的字体、字号和点阵图像数据生成的,点阵图像数据描述了字体的轮廓,不同的字符具有不同轮廓,而字符通常有字体、字号特征,因此根据字符的字体、字号和点阵图像数据得到字符的字形,对字符具有唯一标识的作用,在进行匹配的过程中,可以更加精准地找到匹配的字符;
步骤310,判断是否检索到对应的字形,若是,则执行步骤314,否则,执行步骤312;
步骤312,将该字符添加到需要人工识别的字符列表中,对于在数据库中未匹配到的基本字符,可以添加到人工识别列表中,使需要人工识别的字符更加直观地呈现给用户;
步骤314,,用数据库中存储的匹配字符对应的字符编码替代待识别字符的自定义编码;
步骤316,判断是否到达了自定义字符列表的尾部,即判断是否将自定义列表中的基本字符都进行了匹配处理,若是,则执行步骤318,否则,返回执行步骤308;
步骤318,将需要用户识别的字符列表进行人工OCR识别,即对于未在数据库中匹配到的字符需要进行人工识别;
步骤320,将识别后的字符编码添加到本地字体库中,可以在进行下次识别,遇到相同的基本字符时,直接将保存至数据库中相对应的字符编码作为上述基本字符的字符编码,提高了识别效率,随着数据库中存储的字符编码数量的增多,使得字符的识别对人工干预的依赖性减小,降低了人工识别的错误率,提高了字符识别的准确度。
采用程序自主记忆的方式,对于自定义编码的字符经过人工OCR识别后,将其识别结果存储到本地,形成本地字体库,在以后OCR识别时预先在本地字体库中进行自动匹配,如匹配成功,则不再需要用户人工进行OCR识别。随着用户使用次数的增多,本地字体库中存储的字符也会逐渐增多,同时需要用户人工进行OCR识别的次数也会逐步减少,甚至不再需要用户人工干预,从而提高了识别效率。
以上结合附图详细说明了本发明的技术方案,考虑到在现有技术中,对数字报刊内容的反解过程中,会出现大量需要人工干预进行识别的工作,并且该识别过程是一次性的,导致工作人员做出了大量的重复性的工作,同时也大大降低了对数字报刊内容OCR识别的效率。因此,本发明提出了一种新的字符识别方案,可以大大降低反解报刊文件时进行人工OCR识别的工作量,提高数字报刊内容处理的效率,并且随着使用次数的增多,本地存储的字体库会越来越全面,同时需要人工OCR识别的工作也会越来越少,甚至不再需要对OCR识别进行人工干预,并且也能降低因人为操作造成的错误率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种字符识别装置,其特征在于,包括:
提取单元,用于从导入文件中提取出具有自定义字符编码标识的基本字符;
识别单元,用于在数据库中检索与所述基本字符相匹配的字符,在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码,
其中,所述数据库存储有自定义编码字符的字符编码信息;
所述识别单元还用于在所述数据库中未检索到与所述基本字符相匹配的字符时,对所述基本字符的自定义字符编码进行人工识别,并将识别出的字符编码保存至所述数据库。
2.根据权利要求1所述的字符识别装置,其特征在于,所述提取单元还用于提取所述基本字符的字体、字号和点阵图像数据;
字形获取单元,用于根据所述字体、字号和点阵图像数据生成所述基本字符的字形;
所述识别单元还用于将所述基本字符与所述数据库中的字符以字形为依据进行匹配。
3.根据权利要求1或2所述的字符识别装置,其特征在于,所述提取单元还用于从所述导入文件中提取所有基本字符,并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符,以生成自定义字符列表;
所述识别单元还用于顺序识别所述自定义字符列表中的基本字符。
4.根据权利要求3所述的字符识别装置,其特征在于,所述识别单元还用于在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时,将未被匹配的基本字符加入人工识别列表中,对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。
5.一种字符识别方法,其特征在于,包括:
从导入文件中提取出具有自定义字符编码标识的基本字符;
在数据库中检索与所述基本字符相匹配的字符;
在检索出与所述基本字符相匹配的字符时,将所述数据库中与匹配字符对应的字符编码作为所述基本字符的字符编码,
其中,所述数据库存储有自定义编码字符的字符编码信息;
在所述数据库中未检索到与所述基本字符相匹配的字符时,对所述基本字符的自定义字符编码进行人工识别,并将识别出的字符编码保存至所述数据库。
6.根据权利要求5所述的字符识别方法,其特征在于,还包括:提取所述基本字符的字体、字号和点阵图像数据;
根据所述字体、字号和点阵图像数据生成所述基本字符的字形;
将所述基本字符与所述数据库中的字符以字形为依据进行匹配。
7.根据权利要求5或6所述的字符识别方法,其特征在于,从所述导入文件中提取所有基本字符,并从所述所有基本字符中筛选出所述具有自定义字符编码标识的基本字符,以生成自定义字符列表;
顺序识别所述自定义字符列表中的基本字符。
8.根据权利要求7所述的字符识别方法,其特征在于,在从所述数据库中未检索出与所述自定义字符列表中的基本字符相匹配的字符时,将未被匹配的基本字符加入人工识别列表中;
对所述人工识别列表中的每一基本字符的自定义字符编码进行人工识别。
CN201310346659.8A 2013-08-09 2013-08-09 字符识别装置和字符识别方法 Expired - Fee Related CN104346616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310346659.8A CN104346616B (zh) 2013-08-09 2013-08-09 字符识别装置和字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310346659.8A CN104346616B (zh) 2013-08-09 2013-08-09 字符识别装置和字符识别方法

Publications (2)

Publication Number Publication Date
CN104346616A CN104346616A (zh) 2015-02-11
CN104346616B true CN104346616B (zh) 2017-12-12

Family

ID=52502186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310346659.8A Expired - Fee Related CN104346616B (zh) 2013-08-09 2013-08-09 字符识别装置和字符识别方法

Country Status (1)

Country Link
CN (1) CN104346616B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732228B (zh) * 2015-04-16 2018-03-30 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN106934322A (zh) * 2015-12-29 2017-07-07 上海优尼客物联网有限公司 一种陶瓷艺术品的印章识别方法及系统
CN106934323A (zh) * 2015-12-29 2017-07-07 上海优尼客物联网有限公司 一种陶瓷艺术品的识别方法及系统
CN106446165A (zh) * 2016-09-26 2017-02-22 厦门吉信德宠物用品有限公司 一种基于大数据处理的识别方法
CN107122342B (zh) * 2017-04-21 2020-06-12 东莞中国科学院云计算产业技术创新与育成中心 文本编码识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430761A (zh) * 2007-11-09 2009-05-13 富士通株式会社 计算机可读记录介质、表格数据提取装置和方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4848221B2 (ja) * 2006-07-31 2011-12-28 富士通株式会社 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法
JP2009294788A (ja) * 2008-06-03 2009-12-17 Ricoh Co Ltd 情報処理装置、情報処理方法、制御プログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430761A (zh) * 2007-11-09 2009-05-13 富士通株式会社 计算机可读记录介质、表格数据提取装置和方法
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法

Also Published As

Publication number Publication date
CN104346616A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN107301244B (zh) 一种商标分卡处理的方法、装置、系统及商标存储器
CN104346616B (zh) 字符识别装置和字符识别方法
US10248885B2 (en) Method for encoding of anatomic curves
US20150102948A1 (en) Multi-layer system for symbol-space based compression of patterns
CN107609356B (zh) 基于标签模型的文本无载体信息隐藏方法
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
WO2021151270A1 (zh) 图像结构化数据提取方法、装置、设备及存储介质
CN104978354B (zh) 文本分类方法和装置
CN108280051B (zh) 一种文本数据中错误字符的检测方法、装置和设备
CN109918682B (zh) 一种文本标注方法及装置
JP5135272B2 (ja) 構造化文書管理装置、及び方法
CN113111162A (zh) 科室推荐方法、装置、电子设备及存储介质
WO2019083834A1 (en) SYSTEM AND METHOD FOR RESOLVING GENEALOGICAL ENTITIES
CN108513176A (zh) 一种基于话题模型的社会化视频主题提取系统及方法
CN111611788B (zh) 一种数据处理的方法及装置、电子设备、存储介质
CN110020005A (zh) 一种病历中主诉和现病史中症状匹配方法
CN107436931B (zh) 网页正文抽取方法及装置
JP4957796B2 (ja) 差分算出プログラム、差分算出装置および差分算出方法
CN113627132B (zh) 数据去重标记码生成方法、系统、电子设备及存储介质
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
WO2013062550A1 (en) Aligning annotation of fields of documents
JP5829330B2 (ja) フォントを識別するための方法および装置
JP2019179470A (ja) 情報処理プログラム、情報処理方法、および情報処理装置
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN110047569B (zh) 基于胸片报告生成问答数据集的方法、装置及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220708

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Beijing Fangzheng apapi Technology Co., Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Beijing Fangzheng apapi Technology Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171212