文字识别匹配方法、设备和装置
技术领域
本发明涉及文字识别技术领域,尤其涉及一种文字识别匹配方法、设备和装置。
背景技术
医保报销或健康保险理赔时,都需要核实报销人、即患者的病例。在传统病历中,姓名及患者的病情诊疗分析均为医生手写,目前很多医院仍然采用手写的方式。
对于健康保险,目前使用的是自助理赔模式,即用户输入自己的姓名等信息上传后,系统会自动调取合作医院的病历数据库,智能分析出理赔的合理性并做出决断。在这个过程中,首要解决的问题就是“姓名匹配”,即识别手写病历图像中的姓名,对应上用户输入的姓名。尽管借助于OCR(光学字符识别)技术可以将手写病历图像转化成计算机文字,但是目前OCR对手写文字的识别还存在一定的差错率,比如“李开复”可能会被识别成“李升复”。这样会影响理赔的智能分析效果。
另一方面,对于笔迹识别而言,常规的技术都需要即时分析书写过程特征,其包括书写速度、书写力度、书写时的笔杆运动特征、书写的笔顺和走势特征等。然后,将书写者的这些书写过程特征与预先存储的规范笔迹的书写过程特征进行比较。最后,根据比较结果进行笔迹识别。这样的技术例如在CN104050468A、CN103870734A等文献中有所公开。但是,这样的笔迹识别技术并不适合于对静态的手写书稿进行笔迹识别。
发明内容
鉴于现有技术的以上问题,本发明的实施例提供一种新颖的文字识别匹配方法、设备和装置,其能够极大地提高手写病历的笔迹识别正确率。
针对(医疗)保险的自助理赔模式,希望系统可以根据理赔者输入的姓名等信息,自动调取合作医院的病历数据库,分析出理赔的合理性并做出决断。然而,鉴于目前仍然还有很多医院的医生手写患者姓名及其病情诊疗分析,并且现有的OCR技术对于手写文字识别率还不高,有时很难将手写病历图像中的姓名对应上理赔者的姓名。这严重影响了自助保险理赔的开展。
本申请的发明人注意到,中国人的姓名至少有两个字,随着人口的增长,新生儿的姓名大多都是三个字、甚至四个或五个字。另外,考虑到通常OCR不会对姓名的全部文字都识别错误,并且错误识别的文字也都是字形相近的文字,本申请的发明人首先提出,通过分别将图像识别出的姓名与数据库里的姓名中的每一个字进行字形方面的拆解再进行拼接,然后对两个经拼接的字符串进行比较,能够提高判断两个姓名是否匹配的正确率。例如,手写病历图像中的患者姓名为“李开复”,通过OCR可能会被识别为“李升复”。如果对姓名中的每个字分别进行笔画匹配,则“李”和“复”都匹配,但是“开”不能匹配上“升”,因为这两个字的相似度仅为75%,小于预定阈值90%。因而,不能确定“李升复”能否与“李开复”指代同一人。但是,如果将“李升复”拆解为“一丨ノ丶フ丨一ノ一ノ丨ノ一丨フ一一ノフ丶”,而将“李开复”拆解为“一丨ノ丶フ丨一一一ノ丨ノ一丨フ一一ノフ丶”,则“李升复”和“李开复”的最长公共笔画字符串子序列是“一丨ノ丶フ丨一一ノ丨ノ一丨フ一一ノフ丶”,长度是19,相应的两个姓名的笔画字符串总长度均为20。因此,“李升复”和“李开复”相似度为95%,大于预先设定的阈值90%,因而可以判断“李升复”与“李开复”相匹配。这样,根据本发明的实施例解决了自助理赔中“姓名匹配”的问题。
按照本发明的实施例的一种文字识别匹配方法,包括:获取文字图像并对所述文字图像进行识别以得到包括文字识别结果的电子文档;定位所述电子文档的第一部分以确定要匹配的文字串;将所述文字串包含的所有文字的文字特征作为整体与预先存储的对应文字串包含的所有文字的文字特征进行比较;并且根据比较结果来确定所述文字串与所述对应文字串是否匹配。
优选地,通过OCR技术将所述文字图像转换成所述电子文档,其中,所述电子文档与所述文字图像具有相同的文字空间布局。优选地,所述文字串包括两个或更多的文字。例如,如果所述文字串是姓名,则姓名通常至少包括两个字。本领域技术人员能够领会到,术语“文字”包括汉字、英文字母、数字等。
在一个示例中,所述文字特征优选地包括文字的笔画、文字的四角码和/或文字的五笔编码。在本发明的教导下,本领域技术人员能够预见到其他适合的文字特征。
对于笔画而言,本发明的实施例优选地分别将所述文字串和预先存储的对应文字串中的各个文字进行笔画拆解并按顺序拼接成笔画字符串,并且将所述文字串的笔画字符串与所述对应文字串的笔画字符串进行比较。
对于四角码而言,本发明的实施例优选地分别将所述文字串和预先存储的对应文字串中的各个文字进行四角码拆解并按顺序拼接成四角码字符串,并且将所述文字串的四角码字符串与所述对应文字串的四角码字符串进行比较。
对于五笔编码而言,本发明的实施例优选地分别将所述文字串和预先存储的对应文字串中的各个文字进行五笔编码拆解并按顺序拼接成五笔编码字符串,并且将所述文字串的五笔编码字符串与所述对应文字串的五笔编码字符串进行比较。
根据本发明的实施例,优选地采用笔画、四角码和五笔编码中的任意两种或全部三种方式进行文字特征字符串比较;分别为每种方式的字符串相似度分配相应的权重,并且基于各种方式计算得到的字符串相似度及其相应的权重,计算综合相似度;并且如果所述综合相似度大于第一阈值,则确定所述文字串与所述对应文字串相匹配。可以预见到,针对同一个字符串(例如姓名),分别采用笔画、四角码和五笔编码可能会得到不同的相似度。因而,针对各种方式的识别率,分别为每种方式的字符串相似度分配不同的权重,并由此计算综合相似度。这样做显著提高了匹配的可靠度。
根据本发明的实施例,如果所述文字串的文字特征字符串与所述对应文字串的文字特征字符串的相似度大于第一阈值,则确定所述文字串与所述对应文字串相匹配。
在上面的例子中,采用笔画方式,患者病历图像中识别出的姓名“李升复”被拆解为“一丨ノ丶フ丨一ノ一ノ丨ノ一丨フ一一ノフ丶”,而数据库中理赔者姓名“李开复”被拆解为“一丨ノ丶フ丨一一一ノ丨ノ一丨フ一一ノフ丶”。于是,“李开复”和“李升复”的最长公共笔画字符串子序列是“一丨ノ丶フ丨一一ノ丨ノ一丨フ一一ノフ丶”,长度是19,相应的两个姓名的笔画字符串总长度均为20。因此,计算得到“李升复”和“李开复”相似度为95%,大于预先设定的阈值90%,因而可以判断“李升复”与“李开复”相匹配。
在一个示例中,如果所述文字串的文字特征字符串与所述对应文字串的文字特征字符串的相似度小于或等于第一阈值,所述文字识别匹配方法还包括:定位所述电子文档的第二部分以确定要匹配的附加文字串;将所述第二部分中的所述附加文字串的文字特征字符串与预先存储的对应附加文字串的文字特征字符串进行比较;并且如果所述第二部分中的所述附加文字串与所述对应附加文字串的文字特征字符串相似度大于第一阈值,并且所述第一部分中的所述文字串与所述对应文字串的文字特征字符串相似度大于或等于第二阈值,则确定所述文字串与所述对应文字串相匹配,其中,所述第一阈值大于或等于所述第二阈值。
在自助保险理赔的应用场景中,所述电子文档的第二部分可以是“性别”、“出生日期”、“年龄”、“民族”、“婚姻状况”、“工作单位或住址”、“药物过敏史”等。例如,如果理赔者的性别、年龄和/或婚姻状况匹配成功,即使理赔者的姓名按照五笔编码方式相似度仅等于80%,那么可以认为在性别、年龄和/或婚姻状况相同的情况下理赔者的姓名与病历中的患者姓名也匹配成功。
按照本发明的另一实施例的一种文字识别匹配装置,包括:文字处理模块,用于获取文字图像并对所述文字图像进行识别以得到包括文字识别结果的电子文档;第一文字串确定模块,用于定位所述电子文档的第一部分以确定要匹配的文字串;第一文字特征比较模块,用于将所述文字串包含的所有文字的文字特征作为整体与预先存储的对应文字串包含的所有文字的文字特征进行比较;以及匹配确定模块,用于根据比较结果来确定所述文字串与所述对应文字串是否匹配。
按照本发明的又一实施例的一种文字识别匹配设备,包括:处理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行前述的方法。
按照本发明的再一实施例的一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方法。
从以上可以看出,本发明的实施例的方案提供了一种新的文字识别匹配方法,其解决了现有自助保险理赔中的“姓名匹配”问题。
附图说明
本发明的特征、特点、优点和益处通过以下结合附图的详细描述将变得显而易见。
图1示出了按照本发明的一个实施例的文字识别匹配方法100的总体流程图。
图2示出了按照本发明的一个实施例的文字识别匹配装置200的示意图。
图3示出了按照本发明的一个实施例的文字识别匹配设备300的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在医疗保险的自助理赔中,存在的主要问题是常常无法正确匹配理赔者姓名与其提交的病历上的患者姓名。本申请的发明人提出了文字识别匹配方法,解决了现有自助保险理赔中的“姓名匹配”问题。
下面,结合附图详细描述本发明的各个实施例。
图1示出了按照本发明的一个实施例的文字识别匹配方法100的总体流程图。方法100可以由服务器或者一个或多个处理器来执行。
如图1所示,在方框110,通过例如服务器或处理器,获取文字图像并对所述文字图像进行识别以得到包括文字识别结果的电子文档。在自助保险理赔的应用场景中,所述文字图像可以是理赔者提交的就诊病历。于是,理赔者在进行自助保险理赔时可以对病历拍照并上传病历照片。然后,服务器或处理器读取病历照片或图像,并且可以采用已知的文字识别技术,例如OCR技术来识别文字图像(例如,病历)中的文字。考虑到病历都有预先规定的填写格式,优选地将所述电子文档配置成具有相同的内容布局格式。在这种情况下,文字识别结果被存储在电子文档的对应位置处。
在方框120,通过例如服务器或处理器,定位所述电子文档的第一部分以确定要匹配的文字串。在自助保险理赔的应用场景中,由于患者姓名都会写在病历中印刷体“姓名”之后,并且病历中的印刷体“姓名”通常不会被诸如OCR的文字识别技术识别错误,因此服务器或处理器可以被配置为搜索所述电子文档中的“姓名”,并且将所述“姓名”之后的文字串定位为所述电子文档的第一部分。在另一示例中,由于所述电子文档具有与病历相同的内容布局格式,因此服务器或处理器可以被配置为根据病历内容格式定位到所述电子文档中包括患者姓名的第一部分。
在方框130,通过例如服务器或处理器,将所述文字串包含的所有文字的文字特征作为整体与预先存储的对应文字串包含的所有文字的文字特征进行比较。在自助保险理赔的应用场景中,所述预先存储的对应文字串可以是理赔者在客户端预先输入并存储在服务器或存储器中的姓名。鉴于姓名通常具有两个或更多文字,因而患者姓名的文字可以构成所述字符串。本领域技术人员能够领会到,姓名中的“文字”包括汉字、英文字母、数字等。
在一个示例中,所述文字特征优选地包括文字的笔画、文字的四角码和/或文字的五笔编码。本领域技术人员可以预见到其他适合的文字特征。
在方框132,通过例如服务器或处理器,分别将所述文字串和预先存储的对应文字串中的各个文字进行笔画拆解并按顺序拼接成笔画字符串,并且将所述文字串的笔画字符串与所述对应文字串的笔画字符串进行比较。在自助保险理赔的应用场景中,例如,理赔者名叫“李开复”,而理赔者提交的病历中的姓名被OCR识别为“李升复”。根据本发明的实施例,所述电子文档中的所述字符串(即“李升复”)被转换成笔画字符串“一丨ノ丶フ丨一ノ一ノ丨ノ一丨フ一一ノフ丶”,而预先存储的对应文字串(即“李开复”)被转换成笔画字符串“一丨ノ丶フ丨一一一ノ丨ノ一丨フ一一ノフ丶”。
在方框134,通过例如服务器或处理器,分别将所述文字串和预先存储的对应文字串中的各个文字进行四角码拆解并按顺序拼接成四角码字符串,并且将所述文字串的四角码字符串与所述对应文字串的四角码字符串进行比较。
对于四角码而言,把汉字的基本笔划(包括单笔划和多笔划)分为10种,分别用0、1、2、3、4、5、6、7、8、9十个数字代表,按顺序取汉字的四个角的笔划代码作为汉字的编码。利用这些代码来拆解汉字的四个角,并以相应的数字作为编码来表示和区分汉字。具体可以采用如下两种方式:①杂合字和代码字:不能拆解的后三码取9;取码顺序为:左上角、右上角(无则往下取)、取两次右下角的码(无则取0);②左右字:可明确分成左右两边的字;取码顺序为:左上角、右上角、左下角、右下角(如找不到或用过则取0);取大优先。
例如,“李升复”的四角码为404072440080407;而“李开复”的四角码为404071044080407。
在方框136,通过例如服务器或处理器,分别将所述文字串和预先存储的对应文字串中的各个文字进行五笔编码拆解并按顺序拼接成五笔编码字符串,并且将所述文字串的五笔编码字符串与所述对应文字串的五笔编码字符串进行比较。
五笔字型的基本字根有130种,加上一些基本字根的变型,共有200个左右。这些字根对应在键盘上的25个键上。按照每个字根的起笔笔画,把这些字根分为五个“区”。以横起笔的在1区,在键盘的这个位置,从字母G到A;以竖起笔的在2区,在这个位置,从字母H到L,再加上M;以撇起笔的在3区,在这个位置,从字母T到Q;以捺起笔的叫4区,在这个位置,从Y到P;以折为起笔的叫5区,在这个位置,从字母N到X。
例如,“李升复”的五笔编码为sbftaktjtu;而“李开复”的五笔编码为sbfgaktjtu。
在方框140,通过例如服务器或处理器,根据比较结果来确定所述文字串与所述对应文字串是否匹配。在一个示例中,如果所述文字串的文字特征字符串与所述对应文字串的文字特征字符串的相似度大于第一阈值,则确定所述文字串与所述对应文字串相匹配。具体地,如果将两个文字串分别拆解、拼接得到对应的两个文字特征字符串A和B,然后根据下式计算字符串A和B的相似度:
其中,A∩B表示两个文字特征字符串的最大公共子序列,而|A∩B|表示其长度,而min{|A|,|B|}是两个文字特征字符串中长度最短的值。
当文字特征为文字的笔画时,“李升复”与“李开复”对应的笔画字符串A和B的长度均为20,最长公共子序列是“一丨ノ丶フ丨一一ノ丨ノ一丨フ一一ノフ丶”,长度是19。因而,笔画字符串A和B的相似度为19/20×100%,即95%。如果针对笔画的第一阈值被预先设定为90%,则可以确定所述电子文档中的识别姓名“李升复”与理赔者“李开复”相匹配。
当文字特征为文字的四角码时,“李升复”与“李开复”对应的四角码字符串A和B的长度均为15,最长公共子序列是“404074080407”,长度是12。因而,四角码字符串A和B的相似度为12/15×100%,即80%。如果针对四角码的第一阈值仍然被预先设定为90%,则可以确定所述电子文档中的识别姓名“李升复”与理赔者“李开复”不匹配。
当文字特征为文字的五笔编码时,“李升复”与“李开复”对应的五笔编码字符串A和B的长度均为10,最长公共子序列是“sbfaktjtu”,长度是9。因而,四角码字符串A和B的相似度为9/10×100%,即90%。如果针对五笔编码的第一阈值仍然被预先设定为90%,则可以确定所述电子文档中的识别姓名“李升复”与理赔者“李开复”不匹配。
在方框130,优选地采用笔画、四角码和五笔编码中的任意两种或全部三种方式进行文字特征字符串比较,分别为每种方式的字符串相似度分配相应的权重,并基于各种方式计算得到的字符串相似度及其相应的权重,计算综合相似度;并且在方框140,如果所述综合相似度大于第一阈值,则确定所述文字串与所述对应文字串相匹配。
发明人通过大量测试发现“笔画”、“五笔编码”和“四角码”的匹配正确率依次降低。因而,例如,针对上例,可以为“笔画”、“五笔编码”和“四角码”的相似度计算结果分别分配0.5、0.3、0.2的权重。因此,综合考虑“笔画”、“五笔编码”和“四角码”的相似度计算结果,“李升复”与“李开复”最终相似度为95%×0.5+90%×0.3+80%×0.2=90.5%,大于预定阈值90%。亦即,在这种情况下,识别姓名“李升复”与理赔者“李开复”相匹配。本领域技术人员能够领会到,在本发明的教导下,即使针对“笔画”、“五笔编码”和“四角码”,也可以为其各自的相似度计算结果分配其他合适的权重。
在所述文字串的文字特征字符串与所述对应文字串的文字特征字符串的相似度小于或等于第一阈值时,所述文字识别匹配方法100还包括:在方框150,定位所述电子文档的第二部分以确定要匹配的附加文字串;在方框160,将所述第二部分中的所述附加文字串的文字特征字符串与预先存储的对应附加文字串的文字特征字符串进行比较;并且在方框170,如果所述第二部分中的所述附加文字串与所述对应附加文字串的文字特征字符串相似度大于第一阈值,并且所述第一部分中的所述文字串与所述对应文字串的文字特征字符串相似度大于或等于第二阈值,则确定所述文字串与所述对应文字串相匹配,其中,所述第一阈值大于所述第二阈值。
在一个示例中,所述电子文档的第二部分可以是患者病历首页中的“性别”、“出生日期”、“年龄”、“民族”、“婚姻状况”、“工作单位或住址”、“药物过敏史”等项目。由于这些项目对应的附加文字串相对不容易识别错误,因此如果针对附加文字串的两个文字特征字符串的相似度大于第一阈值90%,即使例如“李升复”与“李开复”对应的四角码字符串A和B的相似度,80%,小于大于第一阈值90%但大于或等于第二阈值80%,仍然可以确定“李升复”与“李开复”相匹配。
其它变型
图2示出了按照本发明的一个实施例的文字识别匹配装置200的示意图。图2所示的装置200可以利用软件、硬件或软硬件结合的方式来实现。
如图2所示,装置200可以包括文字处理模块210,其用于获取文字图像并对所述文字图像进行识别以得到包括文字识别结果的电子文档。装置200还包括第一文字串确定模块220,用于定位所述电子文档的第一部分以确定要匹配的文字串。装置200还包括第一文字特征比较模块230,用于将所述文字串包含的所有文字的文字特征作为整体与预先存储的对应文字串包含的所有文字的文字特征进行比较。其中,对所述文字图像进行识别包括对所述文字图像进行OCR识别。在一个实施例中,所述文字串包括两个或更多的文字。
在另一方面,所述第一文字特征比较模块包括如下之一或组合:
笔画比较模块232,用于分别将所述文字串和预先存储的对应文字串中的各个文字进行笔画拆解并按顺序拼接成笔画字符串,并且将所述文字串的笔画字符串与所述对应文字串的笔画字符串进行比较;
四角码比较模块234,用于分别将所述文字串和预先存储的对应文字串中的各个文字进行四角码拆解并按顺序拼接成四角码字符串,并且将所述文字串的四角码字符串与所述对应文字串的四角码字符串进行比较;以及
五笔编码比较模块236,用于分别将所述文字串和预先存储的对应文字串中的各个文字进行五笔编码拆解并按顺序拼接成五笔编码字符串,并且将所述文字串的五笔编码字符串与所述对应文字串的五笔编码字符串进行比较。
根据本发明的实施例,装置200还包括匹配确定模块240,用于根据比较结果来确定所述文字串与所述对应文字串是否匹配。在一个示例中,所述匹配确定模块还用于如果所述文字串的文字特征字符串与所述对应文字串的文字特征字符串的相似度大于第一阈值,则确定所述文字串与所述对应文字串相匹配。
在又一方面,所述第一文字特征比较模块230还用于采用笔画、四角码和五笔编码中的任意两种或全部三种方式进行文字特征字符串比较,分别为每种方式的字符串相似度分配相应的权重,并且基于各种方式计算得到的字符串相似度及其相应的权重,计算综合相似度。在一个示例中,所述匹配确定模块还用于如果所述综合相似度大于第一阈值,则确定所述文字串与所述对应文字串相匹配。
在再一方面,在所述文字串的文字特征字符串与所述对应文字串的文字特征字符串的相似度小于或等于第一阈值时,所述文字识别匹配装置200还包括:
第二文字串确定模块250,用于定位所述电子文档的第二部分以确定要匹配的附加文字串,其中,第二文字串确定模块250可以使用来自文字处理模块210的电子文档;以及
第二文字特征比较模块260,用于将所述第二部分中的所述附加文字串的文字特征字符串与预先存储的对应附加文字串的文字特征字符串进行比较,其中,第二文字特征比较模块260也可以针对文字的笔画、四角码和/或五笔编码进行文字特征字符串比较;并且
其中,所述匹配确定模块240还用于如果所述第二部分中的所述附加文字串与所述对应附加文字串的文字特征字符串相似度大于第一阈值,并且所述第一部分中的所述文字串与所述对应文字串的文字特征字符串相似度大于或等于第二阈值,则确定所述文字串与所述对应文字串相匹配,其中,所述第一阈值大于所述第二阈值。
图3示出了按照本发明的一个实施例的文字识别匹配设备300的示意图。如图3所示,文字识别匹配设备300可以包括处理器310和存储器320。存储器320上存储有可执行指令,其中,所述可执行指令当被执行时使得处理器310执行图1所示的方法100。文字识别匹配设备300例如可以由服务器或者一个或多个处理器来实现。
按照本发明的实施例还提供一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行图1所示的方法100。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。