CN110738202A - 字符识别方法、装置及计算机可读存储介质 - Google Patents
字符识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110738202A CN110738202A CN201910846707.7A CN201910846707A CN110738202A CN 110738202 A CN110738202 A CN 110738202A CN 201910846707 A CN201910846707 A CN 201910846707A CN 110738202 A CN110738202 A CN 110738202A
- Authority
- CN
- China
- Prior art keywords
- character
- target
- structured form
- text
- edit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种字符识别方法,包括:获取结构化表单文本集,将所述结构化表单文本集进行字符提取,得到字符集;并对所述结构化表单文本集进行预处理操作,得到目标文本集;对所述目标文本集建立字典树,得到目标字串集;将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。本发明还提出一种字符识别装置以及一种计算机可读存储介质。本发明实现了字符的精准识别。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于深度学习的字符识别方法、装置及计算机可读存储介质。
背景技术
目前基于深度学习的图像识别OCR对于相近的字符识别容易出现误识别,如O和0,I和L等,一个字段中只要有一个字符识别错误,所述字段就会识别失败,大大影响准确率,同时给后期人工校验带来了极大地不便,影响工作效率。
发明内容
本发明提供一种字符识别方法、装置及计算机可读存储介质,其主要目的在于当用户在进行字符识别时,给用户呈现出精准的识别结果。
为实现上述目的,本发明提供的一种字符识别方法,包括:
获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;
对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;
对所述目标文本集建立字典树,得到目标字串集;
利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;
接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
可选地,所述对所述结构化表单文本集进行预处理操作,得到目标文本集,包括:
利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。
可选地,所述对所述目标文本集建立字典树,得到目标字串集,包括:
预设所述目标文本集中的任意一个字串作为所述目标文本集的根;
筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;
根据所述根与所述根的子节点对所述目标文本集的字串进行距离长度循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。
可选地,所述利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表,包括:
预设一个编辑函数edit[i][j],其中,所述编辑函数edit[i][j]表示字符集长度为i的字符到目标字串集长度为j的字串的距离长度;
利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到所述相似字符表。
可选地,所述利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,包括:
当i==0且j==0时,所述edit[i][j]=0;
当i==0且j>0时,所述edit[i][j]=j;
当i>0且j==0时,所述edit[i][j]=i;
当i≥1且j≥1,所述edit[i][j]==min{edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+f[i][j]};
其中,当所述i的字符不等于所述为j的字串时,f[i][j]=1,当所述i的字符等于所述为j的字串,f[i][j]=0。
此外,为实现上述目的,本发明还提供一种字符识别装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的字符识别程序,所述字符识别程序被所述处理器执行时实现如下步骤:
获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;
对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;
对所述目标文本集建立字典树,得到目标字串集;
利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;
接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
可选地,所述对所述结构化表单文本集进行预处理操作,得到目标文本集,包括:
利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。
可选地,所述对所述目标文本集建立字典树,得到目标字串集,包括:
预设所述目标文本集中的任意一个字串作为所述目标文本集的根;
筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;
根据所述根与所述根的子节点对所述目标文本集的字串进行距离长度循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。
可选地,所述利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表,包括:
预设一个编辑函数edit[i][j],其中,所述编辑函数edit[i][j]表示字符集长度为i的字符到目标字串集长度为j的字串的距离长度;
利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到所述相似字符表。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有字符识别程序,所述字符识别程序可被一个或者多个处理器执行,以实现如上所述的字符识别方法的步骤。
本发明提出的字符识别方法、装置及计算机可读存储介质,在用户进行结构化表单文本字符识别时,结合从所述结构化表单文本提取出的字符,利用建立的相似字符表进行遍历查找,输出与所述结构化表单文本提取出的字符匹配度最高的字符,从而可以给用户呈现出精准的识别结果。
附图说明
图1为本发明一实施例提供的字符识别方法的流程示意图;
图2为本发明一实施例提供的字符识别装置的内部结构示意图;
图3为本发明一实施例提供的字符识别装置中字符识别程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种字符识别方法。参照图1所示,为本发明一实施例提供的字符识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,字符识别方法包括:
S1、获取结构化表单文本集,对所述结构化表单文本集进行字符提取,得到字符集。
本发明较佳实施例中,所述结构化表单文本集可以是基于业务产生的,例如,所述结构化表单文本集通过以下两种方式获取得到:方式一、通过企业员工在产生业务时的数据,例如,中国平安的财务部门人员每月开具的发票文本数据;方式二、通过关键字在搜索引擎中获取得到。
进一步地,本发明通过光学字符识别方法(Optical Character Recognition,OCR)对所述所述结构化表单文本集进行字符提取。所述OCR指的是采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
S2、对所述结构化表单文本集进行预处理操作,得到目标文本集。
本发明较佳实施例中,所述预处理操作包括分词,编码以及归一化。
详细地,所述预处理操作包括:利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。其中,通过所述归一化处理可以将编码后的所述字串集映射区间(0,1)之间,方便数据的提取。优选地,本发明通过自然语言处理中的自然语言处理工具包(Natural Language Toolkit,nltk)进行分词操作;利用独热编码(One Hot Encoder)技术实现所述字串集到数值的转换;以及采用特征归一化(Normalizer)算法进行归一化处理。
S3、对所述目标文本集建立字典树,得到目标字串集。
本发明较佳实施例中,所述建立字典树的具体实施步骤包括:输入上述获取的文本集,预设所述目标文本集中的任意一个字串作为所述目标文本集的根;筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;根据所述根与所述根的子节点对所述目标文本集的字词距离进行循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。例如,所述预设的根可以为字串GAME,所述预设距离长度为1和/或2。
进一步地,本发明通过计算所述目标文本集中的字串与所述根的编辑距离,得到距离长度,当所述距离长度为预设的1或2时,且是在所述根节点处第一次出现时,建立一个新子节点;当所述距离长度不是预设的1或2时本发明将所述目标文本集中的字串沿着对应的边递归下去,对所述目标文本集的字串进行距离长度循环遍历计算,得到字典树的各个节点,从而得到所述目标字串集。例如,对于所述目标文本集中的字串FAME,计算得到所述FAME与所述预设根GAME的距离为1,于是在所述根下方新建一个子节点,并连一条标号为1的边;当插入所述目标文本集中的字串GAIN,计算得到所述字串GAIN与所述根GAME的距离为2,于是在所述根下方新建一个子节点,将所述字串连一条编号为2的边;当插入所述目标文本集中的字串GATE,计算得到所述字串GATE与所述根GAME距离为1,于是沿着所述编号为1的边递归地插入到所述字串FAME所在子树,其中,所述字串GATE与所述字串FAME的距离为2,于是本发明将所述字串GATE放在所述字串FAME节点下,边的编号为2,同理,依次对插入的字串进行距离长度的计算,可以得到目标字串集。
S4、利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表。
本发明较佳实施例中,所述最小编辑距离算法指的是将一个字符串转换成另一个字符串所述经过最少的编辑次数。其中,所述最小编辑算法的核心思想为:插入一个字符、删除一个字符以及修改一个字符。例如,对于字符‘home’与‘house’将字符‘house’转换成‘home’操作为,删除‘house’中‘u’,‘s’两个单词,在添加‘m’单词,即编辑3次可转换成功。其中,在转换过程中,所经历的编辑次数越少,两个字符越相似。
进一步地,本发明通过预设编辑函数edit[i][j],所述编辑函数edit[i][j]表示字符集长度为i字符到目标字串集长度为j字串的编辑次数,所述编辑次数即距离长度值。其中,对于edit[0][0]表示字符与字串是为空的,需要编辑的次数为0,则此时两者的距离长度为0;edit[0][j]表示字符为空,字串长度为j,需要将字符添加j个长度,需要编辑的次数为j,则此时两者的距离长度为j;edit[i][0]表示字符长度为i,字串长度为0,需要将字符删除i个长度,需要编辑的次数为i,则此时两者的距离长度为i。于是,本发明根据预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到字符之间的相似程度。优选地,本发明按照相似程度由高到低的顺序对所述相似字符进行排序,从而建立所述相似字符表。
进一步地,本发明中所述预设的动态规划公式计算出所述编辑函数edit[i][j]的值包括:
当i=0且j=0时,所述edit[i][j]=0;
当i=0且j>0,所述edit[i][j]=j;
当i>0且j=0,所述edit[i][j]=i;
当i≥1且j≥1,所述edit[i][j]==min{edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+f[i][j]},其中,若所述i的字符不等于所述为j的字串时,f[i][j]=1,若所述i的字符等于所述j的字串,f[i][j]=0。
较佳地,本发明以i=1,j=1为实例,计算edit[1][1]的最小编辑次数:
已知:edit[1][1];
计算:edit[0][1]+1==2,edit[1][0]+1==2,edit[0][0]+f[1][1]==0+1==1;
得到:min(edit[0][1],edit[1][0],edit[0][0]+f[1][1])==1;
结果:edit[1][1]==1。
进一步地,本发明根据所述edit[1][1]的计算原理,同理依次得到edit[2][1]、edit[3][1]、edit[i][1]......edit[i][j]的最小编辑次数。
S5、接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
本发明较佳实施例利用上述OCR对待处理的结构化表单文本进行字符的提取,并通过上述建立的相似字符表进行遍历查找,从而输出与所述字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。其中,本发明中所述待处理的结构化表单文本与上述获取的结构化表单文本集属于同一业务范畴内,比如,同属于开具发票的业务范畴。所述遍历指的是沿着某条搜索路线,依次对相似字符表中每个结点均做一次访问。
发明还提供一种字符识别装置。参照图2所示,为本发明一实施例提供的字符识别装置的内部结构示意图。
在本实施例中,所述字符识别装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该字符识别装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是字符识别装置1的内部存储单元,例如该字符识别装置1的硬盘。存储器11在另一些实施例中也可以是字符识别装置1的外部存储设备,例如字符识别装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括字符识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于字符识别装置1的应用软件及各类数据,例如字符识别程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行字符识别程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在字符识别装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及字符识别程序01的字符识别装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对字符识别装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有字符识别程序01;处理器12执行存储器11中存储的字符识别程序01时实现如下步骤:
步骤一、获取结构化表单文本集,对所述结构化表单文本集进行字符提取,得到字符集。
本发明较佳实施例中,所述结构化表单文本集可以是基于业务产生的,例如,所述结构化表单文本集通过以下两种方式获取得到:方式一、通过企业员工在产生业务时的数据,例如,中国平安的财务部门人员每月开具的发票文本数据;方式二、通过关键字在搜索引擎中获取得到。
进一步地,本发明通过光学字符识别方法(Optical Character Recognition,OCR)对所述所述结构化表单文本集进行字符提取。所述OCR指的是采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
步骤二、对所述结构化表单文本集进行预处理操作,得到目标文本集。
本发明较佳实施例中,所述预处理操作包括分词,编码以及归一化。
详细地,所述预处理操作包括:利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。其中,通过所述归一化处理可以将编码后的所述字串集映射区间(0,1)之间,方便数据的提取。优选地,本发明通过自然语言处理中的自然语言处理工具包(Natural Language Toolkit,nltk)进行分词操作;利用独热编码(One Hot Encoder)技术实现所述字串集到数值的转换;以及采用特征归一化(Normalizer)算法进行归一化处理。
步骤三、对所述目标文本集建立字典树,得到目标字串集。
本发明较佳实施例中,所述建立字典树的具体实施步骤包括:输入上述获取的文本集,预设所述目标文本集中的任意一个字串作为所述目标文本集的根;筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;根据所述根与所述根的子节点对所述目标文本集的字词距离进行循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。例如,所述预设的根可以为字串GAME,所述预设距离长度为1和/或2。
进一步地,本发明通过计算所述目标文本集中的字串与所述根的编辑距离,得到距离长度,当所述距离长度为预设的1或2时,且是在所述根节点处第一次出现时,建立一个新子节点;当所述距离长度不是预设的1或2时本发明将所述目标文本集中的字串沿着对应的边递归下去,对所述目标文本集的字串进行距离长度循环遍历计算,得到字典树的各个节点,从而得到所述目标字串集。例如,对于所述目标文本集中的字串FAME,计算得到所述FAME与所述预设根GAME的距离为1,于是在所述根下方新建一个子节点,并连一条标号为1的边;当插入所述目标文本集中的字串GAIN,计算得到所述字串GAIN与所述根GAME的距离为2,于是在所述根下方新建一个子节点,将所述字串连一条编号为2的边;当插入所述目标文本集中的字串GATE,计算得到所述字串GATE与所述根GAME距离为1,于是沿着所述编号为1的边递归地插入到所述字串FAME所在子树,其中,所述字串GATE与所述字串FAME的距离为2,于是本发明将所述字串GATE放在所述字串FAME节点下,边的编号为2,同理,依次对插入的字串进行距离长度的计算,可以得到目标字串集。
步骤四、利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表。
本发明较佳实施例中,所述最小编辑距离算法指的是将一个字符串转换成另一个字符串所述经过最少的编辑次数。其中,所述最小编辑算法的核心思想为:插入一个字符、删除一个字符以及修改一个字符。例如,对于字符‘home’与‘house’将字符‘house’转换成‘home’操作为,删除‘house’中‘u’,‘s’两个单词,在添加‘m’单词,即编辑3次可转换成功。其中,在转换过程中,所经历的编辑次数越少,两个字符越相似。
进一步地,本发明通过预设编辑函数edit[i][j],所述编辑函数edit[i][j]表示字符集长度为i字符到目标字串集长度为j字串的编辑次数,所述编辑次数即距离长度值。其中,对于edit[0][0]表示字符与字串是为空的,需要编辑的次数为0,则此时两者的距离长度为0;edit[0][j]表示字符为空,字串长度为j,需要将字符添加j个长度,需要编辑的次数为j,则此时两者的距离长度为j;edit[i][0]表示字符长度为i,字串长度为0,需要将字符删除i个长度,需要编辑的次数为i,则此时两者的距离长度为i。于是,本发明根据预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到字符之间的相似程度。优选地,本发明按照相似程度由高到低的顺序对所述相似字符进行排序,从而建立所述相似字符表。
进一步地,本发明中所述预设的动态规划公式计算出所述编辑函数edit[i][j]的值包括:
当i=0且j=0时,所述edit[i][j]=0;
当i=0且j>0,所述edit[i][j]=j;
当i>0且j=0,所述edit[i][j]=i;
当i≥1且j≥1,所述edit[i][j]==min{edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+f[i][j]},其中,若所述i的字符不等于所述为j的字串时,f[i][j]=1,若所述i的字符等于所述j的字串,f[i][j]=0。
较佳地,本发明以i=1,j=1为实例,计算edit[1][1]的最小编辑次数:
已知:edit[1][1];
计算:edit[0][1]+1==2,edit[1][0]+1==2,edit[0][0]+f[1][1]==0+1==1;
得到:min(edit[0][1],edit[1][0],edit[0][0]+f[1][1])==1;
结果:edit[1][1]==1。
进一步地,本发明根据所述edit[1][1]的计算原理,同理依次得到edit[2][1]、edit[3][1]、edit[i][1]......edit[i][j]的最小编辑次数。
步骤五、接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
本发明较佳实施例利用上述OCR对待处理的结构化表单文本进行字符的提取,并通过上述建立的相似字符表进行遍历查找,从而输出与所述字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。其中,本发明中所述待处理的结构化表单文本与上述获取的结构化表单文本集属于同一业务范畴内,比如,同属于开具发票的业务范畴。所述遍历指的是沿着某条搜索路线,依次对相似字符表中每个结点均做一次访问。
可选地,在其他实施例中,字符识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述字符识别程序在字符识别装置中的执行过程。
例如,参照图3所示,为本发明字符识别装置一实施例中的字符识别程序的程序模块示意图,该实施例中,所述字符识别程序可以被分割为字符提取模块10、字串建立模块20、匹配模块30以及识别模块40,示例性地:
所述字符提取模块10用于:获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集。
所述字串建立模块20用于:对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化,对所述目标文本集建立字典树,得到目标字串集。
所述匹配模块30用于:利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表。
所述识别模块40用于:接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
上述字符提取模块10、字串建立模块20、匹配模块30以及识别模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有字符识别程序,所述字符识别程序可被一个或多个处理器执行,以实现如下操作:
获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;
对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;
对所述目标文本集建立字典树,得到目标字串集;
利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;
接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
本发明计算机可读存储介质具体实施方式与上述字符识别装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种字符识别方法,其特征在于,所述方法包括:
获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;
对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;
对所述目标文本集建立字典树,得到目标字串集;
利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;
接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
2.如权利要求1所述的字符识别方法,其特征在于,所述对所述结构化表单文本集进行预处理操作,得到目标文本集,包括:
利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。
3.如权利要求1所述的字符识别方法,其特征在于,所述对所述目标文本集建立字典树,得到目标字串集,包括:
预设所述目标文本集中的任意一个字串作为所述目标文本集的根;
筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;
根据所述根与所述根的子节点对所述目标文本集的字串进行距离长度循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。
4.如权利要求1所述的字符识别方法,其特征在于,所述利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表,包括:
预设一个编辑函数edit[i][j],其中,所述编辑函数edit[i][j]表示字符集长度为i的字符到目标字串集长度为j的字串的距离长度;
利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到所述相似字符表。
5.如权利要求4所述的字符识别方法,其特征在于,所述利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,包括:
当i=0且j=0时,所述edit[i][j]=0;
当i=0且j>0,所述edit[i][j]=j;
当i>0且j=0,所述edit[i][j]=i;
当i≥1且j≥1,所述edit[i][j]==min{edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+f[i][j]},其中,若所述i的字符不等于所述为j的字串时,f[i][j]=1,若所述i的字符等于所述j的字串,f[i][j]=0。
6.一种字符识别装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的字符识别程序,所述字符识别程序被所述处理器执行时实现如下步骤:
获取结构化表单文本集,通过光学字符识别方法将所述结构化表单文本集进行字符提取,得到字符集;
对所述结构化表单文本集进行预处理操作,得到目标文本集,其中,所述预处理操作包括分词、编码以及归一化;
对所述目标文本集建立字典树,得到目标字串集;
利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表;
接收待处理的结构化表单文本,根据所述相似字符表,与所述待处理的结构化表单文本中提取出来的字符进行匹配,输出与所述提取出来的字符匹配度最高的字符,完成所述待处理的结构化表单文本的字符识别。
7.如权利要求6所述的字符识别装置,其特征在于,所述对所述结构化表单文本集进行预处理操作,得到目标文本集,包括:
利用自然语言处理技术对所述结构化表单文本集进行分词操作,得到所述结构化表单文本集的字串集,通过编码技术将所述字串集转换成数值形式,对编码后的所述字串集进行归一化处理,得到所述目标文本集。
8.如权利要求6所述的字符识别装置,其特征在于,所述对所述目标文本集建立字典树,得到目标字串集,包括:
预设所述目标文本集中的任意一个字串作为所述目标文本集的根;
筛选出所述目标文本集中字串与所述根为预设距离长度的字串,得到节点字串集,并建立所述根的子节点;
根据所述根与所述根的子节点对所述目标文本集的字串进行距离长度循环遍历计算,得到所述字典树的各个节点,从而得到所述目标字串集。
9.如权利要求6所述的字符识别装置,其特征在于,所述利用最小编辑距离算法将所述字符集与所述目标字串集进行一一匹配,得到相似字符表,包括:
预设一个编辑函数edit[i][j],其中,所述编辑函数edit[i][j]表示字符集长度为i的字符到目标字串集长度为j的字串的距离长度;
利用预设的动态规划公式计算出所述编辑函数edit[i][j]的值,并根据所述编辑函数edit[i][j]的值得到所述相似字符表。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有字符识别程序,所述字符识别程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的字符识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846707.7A CN110738202A (zh) | 2019-09-06 | 2019-09-06 | 字符识别方法、装置及计算机可读存储介质 |
PCT/CN2019/117287 WO2021042527A1 (zh) | 2019-09-06 | 2019-11-12 | 字符识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846707.7A CN110738202A (zh) | 2019-09-06 | 2019-09-06 | 字符识别方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110738202A true CN110738202A (zh) | 2020-01-31 |
Family
ID=69267538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846707.7A Pending CN110738202A (zh) | 2019-09-06 | 2019-09-06 | 字符识别方法、装置及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110738202A (zh) |
WO (1) | WO2021042527A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782892A (zh) * | 2020-06-30 | 2020-10-16 | 中国平安人寿保险股份有限公司 | 基于前缀树的相似字符识别方法、设备、装置和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705167B (zh) * | 2021-08-31 | 2024-04-19 | 中科软科技股份有限公司 | 字符校验方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399907A (zh) * | 2013-07-31 | 2013-11-20 | 深圳市华傲数据技术有限公司 | 一种基于编辑距离计算中文字符串相似度的方法及装置 |
CN109657738A (zh) * | 2018-10-25 | 2019-04-19 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7664343B2 (en) * | 2006-01-23 | 2010-02-16 | Lockheed Martin Corporation | Modified Levenshtein distance algorithm for coding |
US9659224B1 (en) * | 2014-03-31 | 2017-05-23 | Amazon Technologies, Inc. | Merging optical character recognized text from frames of image data |
CN107220639A (zh) * | 2017-04-14 | 2017-09-29 | 北京捷通华声科技股份有限公司 | Ocr识别结果的纠正方法和装置 |
CN108563685B (zh) * | 2018-03-13 | 2022-03-22 | 创新先进技术有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN109582972B (zh) * | 2018-12-27 | 2023-05-16 | 信雅达科技股份有限公司 | 一种基于自然语言识别的光学字符识别纠错方法 |
-
2019
- 2019-09-06 CN CN201910846707.7A patent/CN110738202A/zh active Pending
- 2019-11-12 WO PCT/CN2019/117287 patent/WO2021042527A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399907A (zh) * | 2013-07-31 | 2013-11-20 | 深圳市华傲数据技术有限公司 | 一种基于编辑距离计算中文字符串相似度的方法及装置 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN109657738A (zh) * | 2018-10-25 | 2019-04-19 | 平安科技(深圳)有限公司 | 字符识别方法、装置、设备及存储介质 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782892A (zh) * | 2020-06-30 | 2020-10-16 | 中国平安人寿保险股份有限公司 | 基于前缀树的相似字符识别方法、设备、装置和存储介质 |
CN111782892B (zh) * | 2020-06-30 | 2023-09-19 | 中国平安人寿保险股份有限公司 | 基于前缀树的相似字符识别方法、设备、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021042527A1 (zh) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN110909548A (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN108804423B (zh) | 医疗文本特征提取与自动匹配方法和系统 | |
US11599727B2 (en) | Intelligent text cleaning method and apparatus, and computer-readable storage medium | |
EP1894144A2 (en) | Grammatical parsing of document visual structures | |
RU2406142C2 (ru) | Система и способ для сохранения документа в последовательном двоичном формате | |
US20170052985A1 (en) | Normalizing values in data tables | |
CN110738202A (zh) | 字符识别方法、装置及计算机可读存储介质 | |
CN113836038A (zh) | 测试数据构造方法、装置、设备及存储介质 | |
US20220292258A1 (en) | Document entity extraction using document region detection | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
Clausner et al. | Efficient ocr training data generation with aletheia | |
CN116245177A (zh) | 地理环境知识图谱自动化构建方法及系统、可读存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN110717333A (zh) | 文章摘要自动生成方法、装置及计算机可读存储介质 | |
CN107679055B (zh) | 信息检索方法、服务器及可读存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
WO2020146784A1 (en) | Converting unstructured technical reports to structured technical reports using machine learning | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN115481599A (zh) | 文档的处理方法、装置、电子设备和存储介质 | |
CN110414000B (zh) | 一种基于模板文档对比的关键词提取方法及系统 | |
CN114780577A (zh) | Sql语句生成方法、装置、设备及存储介质 | |
CN113971044A (zh) | 组件文档生成方法、装置、设备及可读存储介质 | |
CN114334105A (zh) | 一种基于命名实体识别的疾病转码方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40019642 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |