CN111709327A - 基于ocr识别的模糊匹配方法和装置 - Google Patents

基于ocr识别的模糊匹配方法和装置 Download PDF

Info

Publication number
CN111709327A
CN111709327A CN202010478387.7A CN202010478387A CN111709327A CN 111709327 A CN111709327 A CN 111709327A CN 202010478387 A CN202010478387 A CN 202010478387A CN 111709327 A CN111709327 A CN 111709327A
Authority
CN
China
Prior art keywords
matching
information
fields
file information
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010478387.7A
Other languages
English (en)
Other versions
CN111709327B (zh
Inventor
肖潇
曾勇胜
王虎
宋龙
金善勇
鹿慧
何栋
郝杰
甘泉
李宁
张郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Insurance Company of China
Original Assignee
Peoples Insurance Company of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Insurance Company of China filed Critical Peoples Insurance Company of China
Priority to CN202010478387.7A priority Critical patent/CN111709327B/zh
Publication of CN111709327A publication Critical patent/CN111709327A/zh
Application granted granted Critical
Publication of CN111709327B publication Critical patent/CN111709327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种基于OCR识别的模糊匹配方法、装置、电子设备以及计算机可读存储介质。该方法包括:对OCR识别的文件信息进行格式化处理;根据预先设置的文件信息的至少两个信息匹配字段,确定文件信息的至少两个信息匹配字段的权重;其中,文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;根据文件信息的至少两个信息匹配字段和权重,与预先构建的索引库进行匹配,以得到与OCR识别的文件信息匹配的目标信息。

Description

基于OCR识别的模糊匹配方法和装置
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及基于OCR识别的模糊匹配方法、装置、电子设备和计算机可读存储介质。
背景技术
保险行业在向被保人进行医疗保险的理赔时,通常需要将被保人在医院治疗产生的药品目录与医保药品目录匹配,以区分医保可报销药品和医保不可报销药品,进而对被保人进行医疗保险的理赔。在一些情况下,医院可提供的被保人在治疗时产生的药品目录可以是纸质文件,通过人工匹配易出错效率低。
随着科学技术的发展,通过光学字符识别(Optical Character Recognition,OCR)技术,可以实现将扫描成图像的药品目录,转成文字自动录入到计算机软件中,进而可以通过计算机实现自动将医院提供的药品目录与医保药品目录进行映射匹配。
而由于不同医院提针对同一药品可能采用不同的表述,且可能与医保药品目录的表述不一致,这时需要采用模糊匹配的方法,将医院提供的药品目录与医保药品目录进行模糊匹配。模糊匹配可以是允许被搜索信息和搜索信息之间存在一定差异,例如,在匹配Smith时,通过模糊匹配就会找出与之相似的Smithe、Smitt等。在一些情况下采用的模糊匹配的方法,模糊匹配的命中率不高,将不能满足日益增长的业务需求。
发明内容
本说明书实施例提供一种基于OCR识别的模糊匹配方法、装置、电子设备以及计算机可读存储介质,以解决现有技术中模糊匹配的命中率不高的问题。
本说明书实施例采用下述技术方案:
一种基于OCR识别的模糊匹配方法,包括:
对OCR识别的文件信息进行格式化处理;
根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
一种基于OCR识别的模糊匹配装置,包括:
格式化处理模块,用于对OCR识别的文件信息进行格式化处理;
权重确定模块,用于根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
匹配模块,用于根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
一种电子设备,包括:存储器、处理器及存储在所在存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现任一项所述的基于OCR识别的模糊匹配方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的基于OCR识别的模糊匹配方法的步骤。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例中根据设置的至少两个信息匹配字段以及该至少两个信息匹配字段的权重,与索引库进行字段匹配,相较于仅采用单个信息匹配字段或不设权重的多个信息匹配字段来说,可以在从OCR识别的文件信息到索引库进行匹配映射时,提高模糊匹配的命中率。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,本说明书实施例的示意性实施例及其说明用于解释本说明书实施例,并不构成对本说明书实施例的不当限定。在附图中:
图1为本说明书实施例提供的基于OCR识别的模糊匹配方法的流程示意图;
图2为本说明书实施例提供的基于OCR识别的模糊匹配装置的结构示意图;
图3为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例具体实施例及相应的附图对本说明书实施例技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书实施例一部分实施例,而不是全部的实施例。基于本说明书实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本说明书实施例保护的范围。
以下结合附图,详细说明本说明书实施例各实施例提供的技术方案。
研究人员发现,医院提供的药品目录和医保药品目录之间,除了药品名称的描述可能不一致,同一药品名称可能对应不同的厂商名,以及对应不同的药品规格,这就可能导致在从医院提供的药品目录到医保药品目录进行模糊匹配时,仅通过药品名称进行模糊匹配时,模糊匹配的命中率不高。
为解决上述技术问题,本说明书实施例提供了一种基于OCR识别的模糊匹配方法,用于提高模糊匹配的命中率。该方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序和指令来执行数值计算和/和逻辑计算等预定处理过程的智能电子设备。其中,所述服务器可以是单个网络服务器和者多个网络服务器组成的服务器组和基于云计算(Cloud Computing)的由大量计算机和网络服务器构成的云。该方法的流程示意图如图1所示,包括下述步骤:
步骤11:对OCR识别的文件信息进行格式化处理。
在实际应用中,OCR识别的文件信息可以是通过OCR识别文件得到的文件上记录的信息。这里的文件可以是非电子版的文件,例如,纸质版的药品目录清单等。
在实际应用中,通过OCR识别出的文件信息可能包含某些错误信息,例如,可能存在字符识别错误或信息识别乱码等问题,那么可以通过对OCR识别的文件信息进行格式化处理,从而确保识别出的文件信息的准确性,便于之后进行文件信息的模糊匹配。
在本说明书一个或多个实施例中,对OCR识别的文件信息进行格式化处理,可以包括:将识别出的文件信息,转化成预设数据存储形式;对转化成预设数据存储形式的文件信息进行有效性校验。
其中,预设数据存储形式可以是表格形式,例如,可以是excel形式,即将OCR识别出的文件信息转换成excel表格形式,以存储识别出的文件信息,当然也可以采用其它数据存储形式,例如,txt、xml等格式下的数据存储形式,对此本说明书实施例不做限制。
在实际应用中,对转化成预设数据存储形式的文件信息进行有效性校验,可以是根据预先设置的有效性校验规则,判断转化成预设数据存储形式的文件信息中是否包含不满足有效性校验规则的数据,从而可以对不满足有效性校验规则的数据进行调整。举例来说,OCR可能会将字符“γ”识别成“y”,那么可以设置有效性校验规则为在判断OCR识别成“y”时,将转化成预设数据存储形式的文件信息中识别成“y”的字符修改为“γ”。在本说明书实施例中,通过对转化成预设数据存储形式的文件信息进行有效性校验,可以确保识别出的文件信息的准确性。
步骤12:根据预先设置的文件信息的至少两个信息匹配字段,确定文件信息的至少两个信息匹配字段的权重。
在实际应用中,文件信息可以包含多条记录,每条记录可以包含多个字段,例如,药品目录清单可以包含多项药品,每项药品可以包含药品名称、药品规格、厂商名、数量、价格等字段。这里的预先设置的文件信息的至少两个信息匹配字段可以是根据实际需求设定的用于进行信息匹配的字段,以上述药品目录清单举例来说,可以预先设置信息匹配字段为药品名称、药品规格和厂商名,或者也可以设置为药品名称和药品规格,可以根据实际需求设置信息匹配字段,对此本说明书实施例不做限制。
如上文所述,在一些情况下仅根据单一字段进行模糊匹配的命中率可能不高,在本说明书实施例中,可以预先设置至少两个信息匹配字段,进行模糊匹配。可以理解的是,由于不同字段对应的含义不同,在评判是否匹配上时不同信息匹配字段所占的权重也可以是不同的,还是以上述药品目录清单举例来说,在进行匹配时,药品名称可以是进行匹配的主要字段,而药品规格和厂商名可以次要字段,那么药品名称可以比药品规格和厂商名所占权重高。
在实际应用中,确定文件信息的至少两个信息匹配字段的权重,可以根据人工经验设定,但人工经验设定的方式在一定程度上依赖人工经验的准确度,可能使得设定的权重不够准确,匹配的命中率也相对不高,则在本说明书实施例中,文件信息的至少两个信息匹配字段的权重可以基于多元线性回归模型确定。
接下来将详细说明如何基于多元线性回归模型确定至少两个信息字段的权重。在本说明书一个或多个实施例中,根据预先设置的文件信息的至少两个信息匹配字段,确定至少两个信息匹配字段的权重,可以包括:
获取预先标注好匹配程度的样本数据;
根据预先设置的文件信息的至少两个信息匹配字段,将样本数据与样本索引库进行匹配,以分别得到至少两个信息匹配字段的匹配得分;
将样本数据的匹配程度和至少两个信息匹配字段的匹配得分,代入至多元线性回归模型中,以得到文件信息的至少两个信息匹配字段的权重。
其中,样本数据可以是历史存储的文件信息,例如,可以是医院药品目录,当然也可以是其它类型的数据,对此本说明书实施例不做限制。预先设置的文件信息的至少两个信息匹配字段,可以是用户预先设置的期望通过该至少两个信息匹配字段进行文件信息匹配的字段。
样本索引库中可以是存储有与样本数据具备匹配关系的目标样本数据。其中,样本数据与目标样本数据一一对应,且样本数据与目标样本数据的匹配程度已知晓,也就是说,预先标注好的匹配程度是样本数据与索引库中目标样本数据的匹配程度。可以理解的是,样本数据和目标样本数据包含预先设置的文件信息的至少两个信息匹配字段。
在实际应用中,匹配程度可以根据实际需求设定为不同数值,通过设定的不同数值表达不同匹配程度,例如,可以设定为1、0.5和0三个数值,还可以设定为1、0.66、0.33和0四个数值。可以理解的是,数值可以与匹配程度正相关,即,数值越大,匹配程度越高,当然也可以负相关,对于如何设置匹配程度,本说明书实施例不做限制。
在本说明书一个或多个实施例中,将样本数据与样本索引库进行匹配,可以是通过Elasticsearch搜索引擎结合IKAnalyzer分词器实现,当然也可以采用其它类型的搜索引擎和分词器,对于采用何种搜索引擎和分词器,本说明书实施例不做限制。
在本说明书实施例中,由于已设定样本数据与样本索引库中目标样本数据一一对应,将样本数据与样本索引库进行匹配,也就是,通过Elasticsearch搜索引擎,基于预先设置的文件信息的至少两个信息匹配字段,返回该至少两个信息匹配字段的匹配得分。其中,通过Elasticsearch搜索引擎返回的匹配得分,可以是通过Elasticsearch搜索引擎返回的相似度评分,换句话说,可以是样本数据和目标样本数据的至少两个信息匹配字段之间的相似度评分。
为便于理解上述过程,举例来说,设定两个信息匹配字段为a和b,样本数据A与目标样本数据A0对应且匹配程度为0.5,则样本数据A的预先标注好匹配程度为0.5,通过Elasticsearch搜索引擎可以返回样本数据A与目标样本数据A0的之间信息匹配字段a的相似度评分为6分以及信息匹配字段b的相似度评分为7分,那么该6分和7分可以是分别得到的该两个信息匹配字段的匹配得分。
在一种实施方式,可以将Elasticsearch搜索引擎返回的匹配得分进行归一化处理,从而可以在一定程度上提高通过多元线性回归模型计算出权重的速度。
在本说明书实施例中,多元线性回归模型的模型公式可以是:
y=b1x1+b2x2+…+bkxk
其中,xk代表信息匹配字段的匹配得分,bk代表信息匹配字段的权重,y代表匹配程度。
通过将样本数据的匹配程度和该样本数据的至少两个信息匹配字段的匹配得分,代入至多元线性回归模型中,进行最小二乘法的求解计算,可以输出每个信息匹配字段的权重。
以上述两个信息匹配字段a和b的例子解释来说,将样本数据的匹配程度和该样本数据的至少两个信息匹配字段的匹配得分,代入至多元线性回归模型中,可以是,将样本数据A的匹配程度0.5、该样本数据A的两个信息匹配字段a的匹配得分6和信息匹配字段b的匹配得分7,代入至多元线性回归模型中,得到0.5=6b1+7b2,基于同样的代入方法,可以将其它样本数据的匹配程度和信息匹配字段的匹配得分代入,再进行最小二乘法的求解计算可以输出各权重b1和b2的值。
在本说明书实施例中,基于多元线性回归模型确定的至少两个信息匹配字段的权重,可以提高设定权重的准确度。
步骤13:根据文件信息的至少两个信息匹配字段和权重,与预先构建的索引库进行匹配,以得到与OCR识别的文件信息匹配的目标信息。
这里的权重,可以是通过步骤12确定出的至少两个信息匹配字段的权重。
在实际应用中,预先构建的索引库,可以是根据数据库中存储的待匹配数据进行索引的构建,得到的索引库。其中,数据库中存储的待匹配数据可以包括待与文件信息进行匹配的数据,例如,医保药品目录。
在本说明书一个或多个实施例中,根据文件信息的至少两个信息匹配字段和权重,与预先构建的索引库进行匹配,以得到与OCR识别的文件信息匹配的目标信息,可以包括:
根据文件信息的至少两个信息匹配字段,与预先构建的索引库进行匹配,得到文件信息的至少两个信息匹配字段的匹配得分;
根据至少两个信息匹配字段的权重,和文件信息的至少两个信息匹配字段的匹配得分,得到目标匹配得分;
选取目标匹配得分中分数最高的得分所对应的索引库中的信息,为与OCR识别的文件信息匹配的目标信息。
其中,根据文件信息的至少两个信息匹配字段,与预先构建的索引库进行匹配,分别得到文件信息的至少两个信息匹配字段的匹配得分,可以通过使用Elasticsearch搜索引擎结合IKAnalyzer分词器实现。
在本说明书实施例中,步骤12中Elasticsearch搜索引擎返回的可以是样本数据和目标样本数据之间的至少两个信息匹配字段的匹配得分,这是由于在基于多元线性回归模型确定权重的过程中,已预先知晓并设定好样本数据与目标样本数据之间的匹配程度,而在根据文件信息的至少两个信息匹配字段和步骤12确定出的权重,得到与文件信息匹配的目标信息时,无法预先知晓文件信息与预先构建的索引库中的哪条目标信息匹配,则在步骤13中,基于文件信息的至少两个信息匹配字段和预先构建的索引库,Elasticsearch搜索引擎可以搜索出多个与该文件信息的至少两个信息匹配字段相似的信息,并对搜索出的每个信息匹配字段进行相似度评分。
举例来说,设定文件信息B的两个信息匹配字段m和n与预先构建的索引库进行匹配,Elasticsearch搜索引擎可以基于索引库,搜索到匹配信息B1和匹配信息B2与文件信息B的相似度较高,其中,匹配信息B1的信息匹配字段m的匹配得分为7,以及信息匹配字段n的匹配得分为6,匹配信息B2的信息匹配字段m的匹配得分为8,以及信息匹配字段n的匹配得分为5。也就是说,根据文件信息的至少两个信息匹配字段与预先构建的索引库进行匹配,得到的至少两个信息匹配字段的匹配得分中,每个信息匹配字段的匹配得分可以包含多个。
在实际应用中,根据至少两个信息匹配字段的权重和至少两个信息匹配字段的匹配得分,得到目标匹配得分,可以是将各信息匹配字段的匹配得分与该信息匹配字段的权重进行加权求和,即得到目标匹配得分。以上述文件信息B举例来说,若通过步骤12确定信息匹配字段m的权重为0.6,匹配字段n的权重为0.4,则文件信息B与匹配信息B1的目标匹配得分为6.6=0.6×7+0.4×6。
如上所述,Elasticsearch搜索引擎可以搜索出多个与该文件信息的至少两个信息匹配字段相似的信息,并对搜索出的每个信息匹配字段进行相似度评分,那么计算得到的目标匹配得分可以包含多个。例如,文件信息B与匹配信息B2的目标匹配得分则为6.8=0.6×8+0.4×5。
由于Elasticsearch搜索引擎返回的相似度评分与匹配程度成正相关,即,相似度评分越高,匹配程度越高,所以在权重一定的前提下,可以认为目标匹配得分的分数越高,匹配程度越高,则在本说明书实施例中,通过选取目标匹配得分中分数最高的得分所对应的索引库中的信息,可以为与OCR识别的文件信息匹配的目标信息。再以上述文件信息B的例子来说,由于6.8大于6.6,则可以认为匹配信息B2可以是与文件信息B匹配的目标信息。
在本说明书实施例中,根据设置的至少两个信息匹配字段以及该至少两个信息匹配字段的权重,与索引库进行字段匹配,相较于仅采用单个信息匹配字段或不设权重的多个信息匹配字段来说,可以在从OCR识别的文件信息到索引库进行匹配映射时,提高模糊匹配的命中率。
以上为本说明书实施例所提供的基于OCR识别的模糊匹配方法,基于相同的发明构思,本说明书实施例还提供了相应的基于OCR识别的模糊匹配装置。如图2所示,该装置具体包括:
格式化处理模块21,用于对OCR识别的文件信息进行格式化处理;
权重确定模块22,用于根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
匹配模块23,用于根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
上述装置实施例的具体工作流程可以包括:格式化处理模块21,对OCR识别的文件信息进行格式化处理;权重确定模块22,根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;匹配模块23,根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
在一种实施方式中,所述格式化处理模块21,包括:
转化单元,用于将识别出的文件信息,转化成预设数据存储形式;
有效性校验单元,用于对所述转化成预设数据存储形式的文件信息进行有效性校验。
在一种实施方式中,所述权重确认模块22,包括:
获取单元,用于获取预先标注好匹配程度的样本数据;
匹配得分单元,用于根据所述预先设置的所述文件信息的至少两个信息匹配字段,将所述样本数据与样本索引库进行匹配,以分别得到所述至少两个信息匹配字段的匹配得分;
权重确认单元,用于将所述样本数据的匹配程度和所述至少两个信息匹配字段的匹配得分,代入至所述多元线性回归模型中,以得到所述文件信息的至少两个信息匹配字段的权重。
在一种实施方式中,所述匹配模块23,包括:
匹配单元,用于根据所述文件信息的至少两个信息匹配字段,与所述预先构建的索引库进行匹配,得到所述文件信息的至少两个信息匹配字段的匹配得分;
目标匹配得分单元,用于根据所述至少两个信息匹配字段的权重,和所述文件信息的至少两个信息匹配字段的匹配得分,得到目标匹配得分;
选取单元,用于选取所述目标匹配得分中分数最高的得分所对应的所述索引库中的信息,为与所述OCR识别的文件信息匹配的目标信息。
在一种实施方式中,与预先构建的索引库进行匹配的过程中使用Elasticsearch搜索引擎结合IKAnalyzer分词器实现。
在本说明书实施例中,根据设置的至少两个信息匹配字段以及该至少两个信息匹配字段的权重,与索引库进行字段匹配,相较于仅采用单个信息匹配字段或不设权重的多个信息匹配字段来说,可以在从OCR识别的文件信息到索引库进行匹配映射时,提高模糊匹配的命中率。
本说明书实施例还提出了一种电子设备,示意图请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成应用基于OCR识别的模糊匹配装置。处理器,执行存储器所存放的程序,并至少用于执行以下操作:
对OCR识别的文件信息进行格式化处理;
根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
上述如本说明书实施例图1所示实施例揭示的基于OCR识别的模糊匹配装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中基于OCR识别的模糊匹配装置执行的方法,并实现基于OCR识别的模糊匹配装置在图1所示实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中基于OCR识别的模糊匹配装置执行的方法,并至少用于执行:
对OCR识别的文件信息进行格式化处理;
根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
本领域内的技术人员应明白,本说明书实施例的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (10)

1.一种基于OCR识别的模糊匹配方法,其特征在于,包括:
对OCR识别的文件信息进行格式化处理;
根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
2.如权利要求1所述的方法,其特征在于,所述对OCR识别的文件信息进行格式化处理,包括:
将识别出的文件信息,转化成预设数据存储形式;
对所述转化成预设数据存储形式的文件信息进行有效性校验。
3.如权利要求1所述的方法,其特征在于,根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述至少两个信息匹配字段的权重,包括:
获取预先标注好匹配程度的样本数据;
根据所述预先设置的所述文件信息的至少两个信息匹配字段,将所述样本数据与样本索引库进行匹配,以分别得到所述至少两个信息匹配字段的匹配得分;
将所述样本数据的匹配程度和所述至少两个信息匹配字段的匹配得分,代入至所述多元线性回归模型中,以得到所述文件信息的至少两个信息匹配字段的权重。
4.如权利要求1所述的方法,其特征在于,根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息,包括:
根据所述文件信息的至少两个信息匹配字段,与所述预先构建的索引库进行匹配,得到所述文件信息的至少两个信息匹配字段的匹配得分;
根据所述至少两个信息匹配字段的权重,和所述文件信息的至少两个信息匹配字段的匹配得分,得到目标匹配得分;
选取所述目标匹配得分中分数最高的得分所对应的所述索引库中的信息,为与所述OCR识别的文件信息匹配的目标信息。
5.如权利要求1-4任一项所述的方法,其特征在于,与预先构建的索引库进行匹配的过程中使用Elasticsearch搜索引擎结合IKAnalyzer分词器实现。
6.一种基于OCR识别的模糊匹配装置,其特征在于,包括:
格式化处理模块,用于对OCR识别的文件信息进行格式化处理;
权重确定模块,用于根据预先设置的所述文件信息的至少两个信息匹配字段,确定所述文件信息的至少两个信息匹配字段的权重;其中,所述文件信息的至少两个信息匹配字段的权重基于多元线性回归模型确定;
匹配模块,用于根据所述文件信息的至少两个信息匹配字段和所述权重,与预先构建的索引库进行匹配,以得到与所述OCR识别的文件信息匹配的目标信息。
7.如权利要求6所述的装置,其特征在于,所述权重确认模块,包括:
获取单元,用于获取预先标注好匹配程度的样本数据;
匹配得分单元,用于根据所述预先设置的所述文件信息的至少两个信息匹配字段,将所述样本数据与样本索引库进行匹配,以分别得到所述至少两个信息匹配字段的匹配得分;
权重确认单元,用于将所述样本数据的匹配程度和所述至少两个信息匹配字段的匹配得分,代入至所述多元线性回归模型中,以得到所述文件信息的至少两个信息匹配字段的权重。
8.如权利要求6所述的装置,其特征在于,所述匹配模块,包括:
匹配单元,用于根据所述文件信息的至少两个信息匹配字段,与所述预先构建的索引库进行匹配,得到所述文件信息的至少两个信息匹配字段的匹配得分;
目标匹配得分单元,用于根据所述至少两个信息匹配字段的权重,和所述文件信息的至少两个信息匹配字段的匹配得分,得到目标匹配得分;
选取单元,用于选取所述目标匹配得分中分数最高的得分所对应的所述索引库中的信息,为与所述OCR识别的文件信息匹配的目标信息。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所在存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于OCR识别的模糊匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于OCR识别的模糊匹配方法的步骤。
CN202010478387.7A 2020-05-29 2020-05-29 基于ocr识别的模糊匹配方法和装置 Active CN111709327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478387.7A CN111709327B (zh) 2020-05-29 2020-05-29 基于ocr识别的模糊匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478387.7A CN111709327B (zh) 2020-05-29 2020-05-29 基于ocr识别的模糊匹配方法和装置

Publications (2)

Publication Number Publication Date
CN111709327A true CN111709327A (zh) 2020-09-25
CN111709327B CN111709327B (zh) 2023-06-27

Family

ID=72537325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478387.7A Active CN111709327B (zh) 2020-05-29 2020-05-29 基于ocr识别的模糊匹配方法和装置

Country Status (1)

Country Link
CN (1) CN111709327B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342937A (zh) * 2021-06-16 2021-09-03 深圳市链融科技股份有限公司 确认书处理方法、装置、计算机设备及存储介质
CN114493904A (zh) * 2022-04-18 2022-05-13 北京合理至臻科技有限公司 一种智能核保风控方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372775A (zh) * 2016-08-19 2017-02-01 国网冀北电力有限公司电力科学研究院 一种电网客户综合价值评估方法及系统
CN108416264A (zh) * 2018-01-29 2018-08-17 山东汇贸电子口岸有限公司 一种支持ocr输入的搜索方法及搜索模块
CN109542923A (zh) * 2018-05-28 2019-03-29 平安医疗健康管理股份有限公司 核保方法、装置、计算机设备和存储介质
CN109783635A (zh) * 2017-11-13 2019-05-21 埃森哲环球解决方案有限公司 使用机器学习和模糊匹配自动分层分类文档和标识元数据
CN111026710A (zh) * 2019-12-11 2020-04-17 华南师范大学 一种数据集的检索方法及系统
CN111104795A (zh) * 2019-11-19 2020-05-05 平安金融管理学院(中国·深圳) 公司名称的匹配方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372775A (zh) * 2016-08-19 2017-02-01 国网冀北电力有限公司电力科学研究院 一种电网客户综合价值评估方法及系统
CN109783635A (zh) * 2017-11-13 2019-05-21 埃森哲环球解决方案有限公司 使用机器学习和模糊匹配自动分层分类文档和标识元数据
CN108416264A (zh) * 2018-01-29 2018-08-17 山东汇贸电子口岸有限公司 一种支持ocr输入的搜索方法及搜索模块
CN109542923A (zh) * 2018-05-28 2019-03-29 平安医疗健康管理股份有限公司 核保方法、装置、计算机设备和存储介质
CN111104795A (zh) * 2019-11-19 2020-05-05 平安金融管理学院(中国·深圳) 公司名称的匹配方法、装置、计算机设备及存储介质
CN111026710A (zh) * 2019-12-11 2020-04-17 华南师范大学 一种数据集的检索方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342937A (zh) * 2021-06-16 2021-09-03 深圳市链融科技股份有限公司 确认书处理方法、装置、计算机设备及存储介质
CN114493904A (zh) * 2022-04-18 2022-05-13 北京合理至臻科技有限公司 一种智能核保风控方法、系统、设备及介质
CN114493904B (zh) * 2022-04-18 2022-06-28 北京合理至臻科技有限公司 一种智能核保风控方法、系统、设备及介质

Also Published As

Publication number Publication date
CN111709327B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
US11232365B2 (en) Digital assistant platform
US20160110186A1 (en) Systems and methods for finding project-related information by clustering applications into related concept categories
US20150310090A1 (en) Clustered Information Processing and Searching with Structured-Unstructured Database Bridge
US9292486B2 (en) Validation of formulas with external sources
CN111160012A (zh) 医学术语识别方法、装置和电子设备
CN111709327B (zh) 基于ocr识别的模糊匹配方法和装置
WO2019072007A1 (zh) 一种数据处理方法及装置
US11461829B1 (en) Machine learned system for predicting item package quantity relationship between item descriptions
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
CN111785383B (zh) 数据处理方法及相关设备
CN113535817A (zh) 特征宽表生成及业务处理模型的训练方法和装置
CN110660395B (zh) 一种基于语音识别的安全报告生成方法和装置
US20200051698A1 (en) Precision clinical decision support with data driven approach on multiple medical knowledge modules
US20240061850A1 (en) Query Relaxation using External Domain Knowledge for Query Answering
CN110704423B (zh) 激励信息获取方法、装置及存储介质、电子设备
CN110866085A (zh) 数据反馈方法与装置
CN113157890B (zh) 智能问答方法、装置、电子设备及可读存储介质
CN114817686A (zh) 基于搜索排序的数据查询方法、装置、设备及介质
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
CN112711642A (zh) 一种药物名称匹配方法和装置
Marc et al. Indexing Publicly Available Health Data with Medical Subject Headings (MeSH): An Evaluation of Term Coverage
CN110674363B (zh) 接口服务之间的相似匹配方法、装置及电子设备
CN111367907B (zh) 一种数据检索语句生成方法及装置
CN114373173A (zh) 数据处理方法、装置、终端设备及存储介质
US20240160953A1 (en) Multimodal table extraction and semantic search in a machine learning platform for structuring data in organizations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant