CN112990182B - 筹款信息审核方法、系统及电子设备 - Google Patents

筹款信息审核方法、系统及电子设备 Download PDF

Info

Publication number
CN112990182B
CN112990182B CN202110503346.3A CN202110503346A CN112990182B CN 112990182 B CN112990182 B CN 112990182B CN 202110503346 A CN202110503346 A CN 202110503346A CN 112990182 B CN112990182 B CN 112990182B
Authority
CN
China
Prior art keywords
information
text box
text
disease
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110503346.3A
Other languages
English (en)
Other versions
CN112990182A (zh
Inventor
张猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Easy Yikang Information Technology Co ltd
Original Assignee
Beijing Qingsongchou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingsongchou Information Technology Co ltd filed Critical Beijing Qingsongchou Information Technology Co ltd
Priority to CN202110503346.3A priority Critical patent/CN112990182B/zh
Publication of CN112990182A publication Critical patent/CN112990182A/zh
Application granted granted Critical
Publication of CN112990182B publication Critical patent/CN112990182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种筹款信息审核方法、系统及电子设备,涉及信息处理技术领域。该筹款信息审核方法包括:接收终端发送的筹款发起审核请求;通过图像识别方法获取图片中的所有文本框的信息;按行遍历所有文本框的信息,在第一文本框的文本信息和第二文本框的文本信息为连贯信息进行合并处理;获取执行完成处理得到的全部文本集合,并根据全部文本集合,通过实体识别模型识别得到实体特征信息;确定与实体特征信息对应的信息知识库,并根据实体特征信息和信息知识库进行匹配,获得匹配结果,并根据匹配结果判断是否审核通过。该方法可以实现对筹款信息进行审核时更精确地提取图片中的文本信息,提高筹款审核的准确性和审核效率的技术效果。

Description

筹款信息审核方法、系统及电子设备
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种筹款信息审核方法、系统及电子设备。
背景技术
目前,在大病众筹的应用中,已经获得了社会的高度认可。为了更清晰地了解筹款发起者的详细情况,确保筹款项目的可信度,防止恶意骗筹,众筹平台需要筹款者提供一系列的资料,包括病情的文本描述、身份证明、医院的确诊报告、住院记录、缴费清单等。这一系列的材料审核,需要审核人员对筹款发起者提出的病情、医院、诊疗情况、费用等做全面、综合的分析,复杂度非常高,如果再考虑到轻松筹每年发起筹款的数量,这是一个巨大的工作量。
发明内容
本申请实施例的目的在于提供一种筹款信息审核方法、系统及电子设备,其可以实现对筹款信息进行审核时更精确地提取图片中的文本信息,提高筹款审核的准确性和审核效率的技术效果。
第一方面,本申请实施例提供了一种筹款信息审核方法,包括:
接收终端发送的筹款发起审核请求,所述筹款发起审核请求携带有图片;
通过图像识别方法获取所述图片中的所有文本框的信息,每一文本框的信息包括文本框的文本信息和坐标信息;
按行遍历所有文本框的信息,并对遍历到的每行文本框的信息执行以下处理:从每行文本框中的首个文本框起遍历,以当前遍历到的文本框的信息作为第一文本框的信息,将与当前遍历到的所述第一本文框的信息相邻的文本框的信息作为第二文本框的信息;
根据所述第一文本框的坐标信息和所述第二文本框的坐标信息,使用语义校正规则判断所述第一文本框的文本信息和所述第二文本框的文本信息是否为连贯信息;
如果所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息,则将所述第一文本框和所述第二文本框拼接,并将所述第一文本框的信息和所述第二文本框的信息存入预设的文本集合;如果所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息,则将所述第一文本框的信息存入预设的文本集合;
获取执行完成所述处理得到的全部文本集合,并根据所述全部文本集合,通过实体识别模型识别得到实体特征信息;
确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果;
判断所述匹配结果是否小于预设阈值,若所述匹配结果小于预设阈值,则审核不通过,若所述匹配结果大于所述预设阈值,则审核通过。
在上述实现过程中,该筹款信息审核方法根据终端发送的筹款发起审核请求进行审核,当筹款发起审核请求的数据中带有图片时,通过按行遍历所有文本框的信息、并根据语义校正规则判断相邻的两个文本框之间是否为连贯信息,然后根据是否为连贯信息进行相应处理,从而避免图片中的文本框因为参差不齐的情况而导致的信息提取困难;然后再根据获取到的全部文本集合,通过实体识别模型识别得到实体特征信息,并根据实体特征信息及对应的信息知识库进行审核,最终判断筹款发起审核请求是否通过;从而,该方法可以实现对筹款信息进行审核时更精确地提取图片中的文本信息,提高筹款审核的准确性和审核效率的技术效果。
进一步地,所述根据所述第一文本框的坐标信息和所述第二文本框的坐标信息,使用语义校正规则判断所述第一文本框的文本信息和所述第二文本框的文本信息是否为连贯信息的步骤,包括:
根据所述第一文本框的坐标信息,建立当前遍历到的所述第一文本框的第一线性表达式,所述第一线性表达式用于表示所述第一文本框的第一水平基准线;
根据所述第一线性表达式和所述第二文本框的坐标信息,判断所述第二文本框是否经过所述第一水平基准线;
如果所述第二文本框经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息;
如果所述第二文本框未经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息。
进一步地,所述根据所述第一文本框的坐标信息,建立当前遍历到的所述第一文本框的第一线性表达式的步骤,包括:
建立所述第一线性表达式的初始公式为:ax+by+c=0,其中abc表示表达式系数,xy表示所述第一文本框的坐标;
所述第一文本框的坐标信息包括多个第一顶点坐标信息;
根据所述多个第一顶点坐标信息计算得到所述第一文本框的竖向中点坐标信息;
根据所述第一文本框的竖向中点坐标信息计算得到所述表达式系数的第一具体数值a 1b 1c 1
根据所述表达式系数的第一具体数值a 1b 1c 1得到所述第一线性表达式为:a 1 x+b 1 y+c 1=0。
进一步地,所述根据所述第一线性表达式和所述第二文本框的坐标信息,判断所述第二文本框是否经过所述第一水平基准线的步骤,包括:
所述第二文本框的坐标信息包括多个第二顶点坐标信息,所述多个第二顶点坐标信息表示为(x 21y 21),(x 22y 22),(x 23y 23),(x 24y 24);其中,所述多个第二顶点坐标信息中的靠近所述第一文本框的第二顶点坐标信息为(x 21y 21),(x 23y 23);
计算
Figure P_210508144735118_118067001
,d 1表示所述第二顶点坐标信息(x 21y 21)到所述第一水平基准线的距离;
计算
Figure P_210508144735211_211817001
d 2表示所述第二顶点坐标信息(x 23y 23)到所述第一水平基准线的距离;
计算d 1×d 2,如果d 1×d 2<0,则表示所述第二文本框经过所述第一水平基准线,并根据所述第二文本框的坐标信息更新所述第一线性表达式;如果d 1×d 2≥0,则表示所述第二文本框未经过所述第一水平基准线。
进一步地,所述根据所述第二文本框的坐标信息更新所述第一线性表达式的步骤,包括:
根据所述多个第二顶点坐标信息计算得到所述第二文本框的竖向中点坐标信息;
根据所述第二文本框的竖向中点坐标信息计算得到所述表达式系数的第二具体数值a 2b 2c 2
根据所述表达式系数的第二具体数值a 2b 2c 2更新所述第一线性表达式为:a 2 x+b 2 y+c 2=0。
进一步地,所述筹款发起审核请求携带有筹款发起数据,所述确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果的步骤之后,还包括:
将所述实体特征信息与所述筹款发起数据匹配,并更新所述匹配结果。
进一步地,所述将所述实体特征信息与所述筹款发起数据匹配,并更新匹配结果的步骤之后,还包括:所述信息知识库包括疾病症状库,所述疾病症状库与预设大病列表相对应,所述疾病症状库包括所述预设大病列表中各个子病类的实体词信息、部位信息、状态信息、特点信息;
加载所述疾病症状库至词表库;
根据所述词表库切词处理并识别所述实体特征信息,获得疾病名称;
识别所述实体特征信息中的疾病关键词信息,所述疾病关键词信息与所述疾病名称相对应;
匹配所述疾病关键词信息与所述疾病症状库,获得疾病匹配结果;
根据预设权重因子和所述疾病匹配结果计算疾病匹配分数;
判断所述疾病匹配分数是否大于预设匹配阈值,若是,则所述疾病名称属于预设大病列表,则继续审核;若否,则审核不通过。
进一步地,所述确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果的步骤之前,还包括:
收集历史用户上传的历史图片数据;
将所述历史图片数据进行分类标记,获得数据样本集,所述分类标记包括印鉴、身份证、医院名称中的一种或多种;
输入所述数据样本集至目标识别算法中并进行训练,获得目标识别模型;
根据所述目标识别模型识别所述图片,获得所述图片中各个区域的实体类别及实体坐标,所述实体类别包括印鉴、身份证、医院名称中的一种或多种;
比较所述图片中的印鉴图案和预设的印鉴数据库中的印鉴图案的相似度,获得相似度分数;
判断所述相似度分数是否大于预设相似度阈值,若否,则审核不通过,若是,则继续审核。
第二方面,本申请实施例提供了一种筹款信息审核系统,包括:
接收模块,用于接收终端发送的筹款发起审核请求,所述筹款发起审核请求携带有图片;
图像识别模块,用于通过图像识别方法获取所述图片中的所有文本框的信息,每一文本框的信息包括文本框的文本信息和坐标信息;
遍历模块,用于按行遍历所有文本框的信息,并对遍历到的每行文本框的信息执行以下处理:从每行文本框中的首个文本框起遍历,以当前遍历到的文本框的信息作为第一文本框的信息,将与当前遍历到的第一本文框相邻的文本框的信息作为第二文本框的信息;根据所述第一文本框的坐标信息和所述第二文本框的坐标信息,使用语义校正规则判断所述第一文本框的文本信息和所述第二文本框的文本信息是否为连贯信息;如果所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息,则将所述第一文本框和所述第二文本框拼接,并将所述第一文本框的信息和所述第二文本框的信息存入预设的文本集合;如果所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息,则将所述第一文本框的信息存入预设的文本集合;
实体识别模块,用于获取执行完成所述处理得到的全部文本集合,并根据所述全部文本集合,通过实体识别模型识别得到实体特征信息;
匹配模块,用于确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果;
审核模块,用于判断所述匹配结果是否小于预设阈值,若所述匹配结果小于预设阈值,则审核不通过,若所述匹配结果大于所述预设阈值,则审核通过。
进一步地,遍历模块包括:
线性表达式单元,用于根据所述第一文本框的坐标信息,建立当前遍历到的所述第一文本框的第一线性表达式,所述第一线性表达式用于表示所述第一文本框的第一水平基准线;
水平基准线单元,用于根据所述第一线性表达式和所述第二文本框的坐标信息,判断所述第二文本框是否经过所述第一水平基准线;
连贯信息判断单元,用于判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息,如果所述第二文本框经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息;如果所述第二文本框未经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息。
进一步地,线性表达式单元具体用于:
建立所述第一线性表达式的初始公式为:ax+by+c=0,其中abc表示表达式系数,xy表示所述第一文本框的坐标;
所述第一文本框的坐标信息包括多个第一顶点坐标信息;
根据所述多个第一顶点坐标信息计算得到所述第一文本框的竖向中点坐标信息;
根据所述第一文本框的竖向中点坐标信息计算得到所述表达式系数的第一具体数值a 1b 1c 1
根据所述表达式系数的第一具体数值a 1b 1c 1得到所述第一线性表达式为:a 1 x+b 1 y+c 1=0。
进一步地,水平基准线单元具体用于:
所述第二文本框的坐标信息包括多个第二顶点坐标信息,所述多个第二顶点坐标信息表示为(x 21y 21),(x 22y 22),(x 23y 23),(x 24y 24);其中,所述多个第二顶点坐标信息中的靠近所述第一文本框的第二顶点坐标信息为(x 21y 21),(x 23y 23);
计算
Figure P_210508144735305_305567001
,d 1表示所述第二顶点坐标信息(x 21y 21)到所述第一水平基准线的距离;
计算
Figure P_210508144735368_368067001
d 2表示所述第二顶点坐标信息(x 23y 23)到所述第一水平基准线的距离;
计算d 1×d 2,如果d 1×d 2<0,则表示所述第二文本框经过所述第一水平基准线,并根据所述第二文本框的坐标信息更新所述第一线性表达式;如果d 1×d 2≥0,则表示所述第二文本框未经过所述第一水平基准线。
进一步地,水平基准线单元还用于:
根据所述多个第二顶点坐标信息计算得到所述第二文本框的竖向中点坐标信息;
根据所述第二文本框的竖向中点坐标信息计算得到所述表达式系数的第二具体数值a 2b 2c 2
根据所述表达式系数的第二具体数值a 2b 2c 2更新所述第一线性表达式为:a 2 x+b 2 y+c 2=0。
进一步地,所述系统还包括更新模块,用于将所述实体特征信息与所述筹款发起数据匹配,并更新所述匹配结果。
进一步地,所述信息知识库包括疾病症状库,所述疾病症状库与预设大病列表相对应,所述疾病症状库包括所述预设大病列表中各个子病类的实体词信息、部位信息、状态信息、特点信息;所述系统还包括:
加载模块,用于加载所述疾病症状库至词表库;
切词处理模块,用于根据所述词表库切词处理并识别所述实体特征信息,获得疾病名称;
疾病识别模块,用于识别所述实体特征信息中的疾病关键词信息,所述疾病关键词信息与所述疾病名称相对应;
疾病匹配模块,用于匹配所述疾病关键词信息与所述疾病症状库,获得疾病匹配结果;
匹配分数计算模块,用于根据预设权重因子和所述疾病匹配结果计算疾病匹配分数;
大病判断模块,用于判断所述疾病匹配分数是否大于预设匹配阈值,若是,则所述疾病名称属于预设大病列表,则继续审核;若否,则审核不通过。
进一步地,所述系统还包括:
收集模块,用于收集历史用户上传的历史图片数据;
分类标记模块,用于将所述历史图片数据进行分类标记,获得数据样本集,所述分类标记包括印鉴、身份证、医院名称中的一种或多种;
训练模块,用于输入所述数据样本集至目标识别算法中并进行训练,获得目标识别模型;
目标识别模块,用于根据所述目标识别模型识别所述图片,获得所述图片中各个区域的实体类别及实体坐标,所述实体类别包括印鉴、身份证、医院名称中的一种或多种;
相似度比较模块,用于比较所述图片中的印鉴图案和预设的印鉴数据库中的印鉴图案的相似度,获得相似度分数;
相似度判断模块,用于判断所述相似度分数是否大于预设相似度阈值,若否,则审核不通过,若是,则继续审核。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的筹款信息审核方法的流程示意图;
图2为本申请实施例提供的判断连贯信息的流程示意图;
图3为本申请实施例提供的第一文本框、第二文本框的示意图;
图4为本申请实施例提供的疾病匹配及审核的流程示意图;
图5为本申请实施例提供的基于目标识别模型的训练及识别的流程示意图;
图6为本申请实施例提供的筹款信息审核系统的结构示意图;
图7为本申请实施例提供的电子设备的结构框图。
图标:100-接收模块;200-图像识别模块;300-遍历模块;400-实体识别模块;500-匹配模块;600-审核模块;510-处理器;520-通信接口;530-存储器;540-通信总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供了一种筹款信息审核方法、系统及电子设备,可以应用于众筹平台的筹款信息审核过程中;该筹款信息审核方法根据终端发送的筹款发起审核请求进行审核,当筹款发起审核请求的数据中带有图片时,通过按行遍历所有文本框的信息、并根据语义校正规则判断相邻的两个文本框之间是否为连贯信息,然后根据是否为连贯信息进行相应处理,从而避免图片中的文本框因为参差不齐的情况而导致的信息提取困难;然后再根据获取到的全部文本集合,通过实体识别模型识别得到实体特征信息,并根据实体特征信息及对应的信息知识库进行审核,最终判断筹款发起审核请求是否通过;从而,该方法可以实现对筹款信息进行审核时更精确地提取图片中的文本信息,提高筹款审核的准确性和审核效率的技术效果。
请参见图1,图1为本申请实施例提供的筹款信息的审核方法的流程示意图,该筹款信息审核方法包括如下步骤:
S100:接收终端发送的筹款发起审核请求,筹款发起审核请求携带有图片。
示例性地,筹款发起审核请求是筹款人(用户)发起的审核请求,其中包括有筹款发起数据,筹款发起数据可以是以图片或文本形式,或者是用户填写的表格等。应理解,本申请实施例中以筹款发起审核请求携带有图片的情形作为示例说明。
示例性地,筹款发起数据为筹款方提供、并由筹款方提交至众筹平台的相关筹款信息,筹款发起数据包括现状描述文本、身份证件、医院文件和印鉴中的一种或多种。
示例性地,现状描述文本为筹款发起人提供的关于病人现状描述的文本,现状描述文本的实体特征信息包括发起人姓名、发起人证件编号、筹款目的、筹款金额、病人姓名、病人证件编号、疾病名称、医院名称、诊疗费用、确诊时间、医院所在地区、病人所在地区等;其中,发起人证件编号、病人证件编号需要验证合法性;病人所在的医院名称需要在医院列表中进行验证;病人的诊疗费用要根据历史数据做合理性验证;病人所得疾病的确诊时间,要在筹款的追溯期内。
示例性地,身份证件为筹款发起人或病人的身份证件,可以是身份证、户口本、出生证明中的一种,身份证件的实体特征信息包括发起人姓名、发起人证件编号、病人姓名、病人证件编号等信息。其中,身份证件的有效期限需要验证有效期。
示例性地,医院文件为医院出具关于病人的各类诊断书、检验报告、住院记录、费用单据等文件,医院文件的特征信息包括医院文件类型、病人姓名、医院名称、科室名称、医生姓名、疾病名称、治疗措施、诊疗费用、文件开具时间等实体特征信息。
示例性地,印鉴可以是从上传的医院文件中提取出来的医院印鉴,印鉴的特征信息包括医院名称、文件图像特征等信息。
在一些实施方式中,筹款发起数据还包括证明人提供的文本材料,证明人提供的文本材料中可以提取疾病名称、诊疗费用、确诊时间等信息,并与上述状描述文本、身份证件、医院文件和印鉴中提取的实体特征信息进行相互验证。
S200:通过图像识别方法获取图片中的所有文本框的信息,每一文本框的信息包括文本框的文本信息和坐标信息。
S300:按行遍历所有文本框的信息,并对遍历到的每行文本框的信息执行以下处理:从每行文本框的信息中的首个文本框起遍历,以当前遍历到的文本框的信息作为第一文本框的信息,将与当前遍历到的第一本文框相邻的文本框的信息作为第二文本框的信息。
示例性地,第一文本框的信息包括第一文本框的文本信息和坐标信息,同理,第二文本框的信息包括第二文本框的文本信息和坐标信息。
S400:根据第一文本框的坐标信息和第二文本框的坐标信息,使用语义校正规则判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息。
示例性地,一般情况下对图片进行图像识别、提取图片中的文本信息时,首先会识别出图片的各个文本框;由于图片格式的多样性及图像识别方法的缺陷,连贯信息经过图像识别方法处理后,可能会被归属为不同的文本框中,此时,图片中的连贯信息由于被强行拆分在不同的文本框中,导致不能准确识别到实体特征信息,实体特征信息识别困难;这种情况下需要人工额外审核,进而导致审核效率降低,增加审核成本。
在本申请中,则对相邻文本框进行处理,使用语义校正规则判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息,可以有效避免并规避上述情形,更精确地提取图片中的文本信息,提高筹款审核的准确性和审核效率。
S510:如果第一文本框的文本信息和第二文本框的文本信息为连贯信息,则将第一文本框和第二文本框拼接,并将第一文本框的信息和第二文本框的信息存入预设的文本集合。
S520:如果第一文本框的文本信息和第二文本框的文本信息为非连贯信息,则将第一文本框的信息存入预设的文本集合。
示例性地,按行遍历所有文本框的信息之后,预设的文本集合将包括图片中的所有文本信息。
在一些实施方式中,筹款发起审核请求包括多张图片时,本申请实施例将依次对各图片进行遍历,此时预设的文本集合将包括所有图片中的所有文本信息。
S600:获取执行完成处理得到的全部文本集合,并根据全部文本集合,通过实体识别模型识别得到实体特征信息。
S700:确定与实体特征信息对应的信息知识库,并根据实体特征信息和信息知识库进行匹配,获得匹配结果。
S800:判断匹配结果是否小于预设阈值,若匹配结果小于预设阈值,则审核不通过,若匹配结果大于预设阈值,则审核通过。
示例性地,通过按行遍历所有文本框的信息、并根据语义校正规则判断相邻的两个文本框之间是否为连贯信息,然后根据是否为连贯信息进行相应处理,从而避免图片中的文本框因为参差不齐的情况而导致的信息提取困难;然后再根据获取到的全部文本集合,通过实体识别模型识别得到实体特征信息,并根据实体特征信息及对应的信息知识库进行审核,最终判断筹款发起审核请求是否通过;从而,该方法可以实现对筹款信息进行审核时更精确地提取图片中的文本信息,提高筹款审核的准确性和审核效率的技术效果。
请参见图2和图3,图2为本申请实施例提供的判断连贯信息的流程示意图,图3为本申请实施例提供的第一文本框、第二文本框的示意图。
示例性地,S400:根据第一文本框的坐标信息和第二文本框的坐标信息,使用语义校正规则判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息的步骤,包括:
S410:根据第一文本框的坐标信息,建立当前遍历到的第一文本框的第一线性表达式,第一线性表达式用于表示第一文本框的第一水平基准线;
S420:根据第一线性表达式和第二文本框的坐标信息,判断第二文本框是否经过第一水平基准线;
S430:如果第二文本框经过第一水平基准线,则第一文本框的文本信息和第二文本框的文本信息为连贯信息;
S440:如果第二文本框未经过第一水平基准线,则第一文本框的文本信息和第二文本框的文本信息为非连贯信息。
示例性地,通过第一文本框的坐标信息和第二文本框的坐标信息,进而利用第一水平基准线是否通过第二文本框,可以便捷且准确地判断第一文本框和第二文本框之间是否连贯,从而迅速判断出第一文本框的文本信息和第二文本框的文本信息是否为连贯信息;该方法准确性高、计算量小、不必占用过多的计算内存。
在一些实施例中,以水平中心线作为水平基准线。
示例性地,S410:根据第一文本框的坐标信息,建立当前遍历到的第一文本框的第一线性表达式的步骤,包括:
建立第一线性表达式的初始公式为:ax+by+c=0,其中abc表示表达式系数,xy表示第一文本框的坐标;
第一文本框的坐标信息包括多个第一顶点坐标信息,多个第一顶点坐标信息表示为(x 11y 11),(x 12y 12),(x 13y 13),(x 14y 14);
根据多个第一顶点坐标信息计算得到第一文本框的竖向中点坐标信息,第一文本框的竖向中点坐标信息表示为(X 1Y 1),(X 2Y 2);其中,竖向中点坐标信息和多个第一顶点坐标信息的计算公式为:
Figure P_210508144735461_461817001
根据第一文本框的竖向中点坐标信息计算得到表达式系数的第一具体数值a 1b 1c 1;作为示例,
Figure P_210508144735555_555567001
,令:
Figure P_210508144735633_633692001
此时,竖向中点坐标信息和表达式系数之间的计算公式如下:
Figure P_210508144735696_696192001
根据表达式系数的第一具体数值a 1b 1c 1得到第一线性表达式为:a 1 x+b 1 y+c 1=0。
在一些实施例中,S420:根据第一线性表达式和第二文本框的坐标信息,判断第二文本框是否经过第一水平基准线的步骤,可按以下步骤判断:
第二文本框的坐标信息包括多个第二顶点坐标信息,多个第二顶点坐标信息表示为(x 21y 21),(x 22y 22),(x 23y 23),(x 24y 24);其中,多个第二顶点坐标信息中的靠近第一文本框的第二顶点坐标信息为(x 21y 21),(x 23y 23);
计算
Figure P_210508144735789_789942001
,d 1表示所述第二顶点坐标信息(x 21y 21)到所述第一水平基准线的距离;
计算
Figure P_210508144735868_868067001
d 2表示所述第二顶点坐标信息(x 23y 23)到所述第一水平基准线的距离;
计算d 1×d 2,如果d 1×d 2<0,则表示所述第二文本框经过所述第一水平基准线,并根据所述第二文本框的坐标信息更新所述第一线性表达式;如果d 1×d 2≥0,则表示所述第二文本框未经过所述第一水平基准线。
在一些实施例中,S420:根据第一线性表达式和第二文本框的坐标信息,判断第二文本框是否经过第一水平基准线的步骤,可按照以下步骤判断:
计算D 1D 2
Figure P_210508144735977_977442001
参照图3,其中D 1D 2表示靠近第一文本框的两个第二顶点坐标信息分别到第一水平基准线的位置关系;例如,以其中一个第二顶点坐标信息(x 21y 21)为例(此时b 1=0),当D 1<0时,表示第二顶点坐标信息(x 21y 21)在第一水平基准线的下方,当D 1=0时,表示第二顶点坐标信息(x 21y 21)在第一水平基准线上,当D 1>0时,表示第二顶点坐标信息(x 21y 21)在第一水平基准线的上方;
判断D 1D 2的数值,若D 1<0且D 2<0,或D 1>0且D 2>0,则表示第二文本框未经过第一水平基准线;除上述情形外,第二文本框经过第一水平基准线,并根据第二文本框的坐标信息更新第一线性表达式。
进一步地,在一些实施例中,S420:根据第一线性表达式和第二文本框的坐标信息,判断第二文本框是否经过第一水平基准线的步骤,还可按以下步骤判断:
计算D 1D 2D 3D 4
Figure P_210508144736071_071192001
参照图3,其中D 1D 2D 3D 4表示四个第二顶点坐标信息分别到第一水平基准线的位置关系;例如,以其中一个第二顶点坐标信息(x 21y 21)为例(此时b 1=0),当D 1<0时,表示第二顶点坐标信息(x 21y 21)在第一水平基准线的下方,当D 1=0时,表示第二顶点坐标信息(x 21y 21)在第一水平基准线上,当D 1>0时,表示第二顶点坐标信息(x 21y 21)在第一水平基准线的上方;
判断D 1D 2D 3D 4的数值,若D 1<0、D 2<0、D 3<0、D 4<0,或D 1>0、D 2>0、D 3>0、D 4>0,则表示第二文本框未经过第一水平基准线;除上述情形外,第二文本框经过第一水平基准线,并根据第二文本框的坐标信息更新第一线性表达式。
示例性地,根据第二文本框的坐标信息更新第一线性表达式的步骤,包括:
根据多个第二顶点坐标信息计算得到第二文本框的竖向中点坐标信息,第二文本框的竖向中点坐标信息表示为(X3,Y3),(X4,Y4);其中,竖向中点坐标信息和多个第二顶点坐标信息的计算公式为:
Figure P_210508144736164_164942001
根据第二文本框的竖向中点坐标信息计算得到表达式系数的第二具体数值a 2b 2c 2;作为示例,
Figure P_210508144736258_258692001
,令:
Figure P_210508144736321_321192001
此时,竖向中点坐标信息和表达式系数之间的计算公式如下:
Figure P_210508144736399_399317001
根据表达式系数的第二具体数值a 2b 2c 2更新第一线性表达式为:a 2 x+b 2 y+c 2=0。
请参见图4,图4为本申请实施例提供的疾病匹配及审核的流程示意图。
示例性地,筹款发起审核请求携带有筹款发起数据,S700:确定与实体特征信息对应的信息知识库,并根据实体特征信息和信息知识库进行匹配,获得匹配结果的步骤之后,还包括:
S710:将实体特征信息与筹款发起数据匹配,并更新匹配结果。
示例性地,S710:将实体特征信息与筹款发起数据匹配,并更新匹配结果的步骤之后,还包括:信息知识库包括疾病症状库,疾病症状库与预设大病列表相对应,疾病症状库包括预设大病列表中各个子病类的实体词信息、部位信息、状态信息、特点信息;
S720:加载疾病症状库至词表库;
S730:根据词表库切词处理并识别实体特征信息,获得疾病名称;
S740:识别实体特征信息中的疾病关键词信息,疾病关键词信息与疾病名称相对应;
S750:匹配疾病关键词信息与疾病症状库,获得疾病匹配结果;
S760:根据预设权重因子和疾病匹配结果计算疾病匹配分数;
S770:判断疾病匹配分数是否大于预设匹配阈值,若是,则疾病名称属于预设大病列表,则继续审核;若否,则审核不通过。
示例性地,通过预先判断疾病名称是否属于预设大病列表,可以迅速判断筹款发起数据是否满足要求,提高筹款信息的审核效率。
示例性地,审核不通过之后,可以退回筹款发起数据,筹款方可以再次发起新的筹款发起数据或者修改后的筹款发起数据。
其中,大病列表与医院列表根据大数据实时更新,具体地,一方面基于大数据获取网络中的热点大病信息及医院信息,动态更新列表;另一方面,基于本平台中大量用户提交的筹款信息,利用机器学习来识别新增的热点大病信息及医院信息。保证每次审核时的匹配数据为最新数据。
在一些实施方式中,建立疾病症状库如下:
实体词:嗳气、打嗝、呃逆、呃气、嗝逆、疤痕、白带、白苔、斑、斑点、斑痕、斑丘疹、斑疹、斑痔、瘢痕、包块、饱满、饱胀、饱胀感、饱胀不适、结巴等;
部位:皮肤、关节、关节处、全身、口腔、黏膜等;
状态:异常、血性、脓性、粘性、泡沫样、水样、凝乳状、增多、量增加等;
特点:始发性、间断性、间歇性、反复出现、止不住等。
示例性地,词表库可以是jieba词表库,根据jieba词表库切词处理实体特征信息,例如:始发性- - ->心脏病 - - ->结巴 - - -> ,则最终获得疾病名称[始发性心脏病]。
在一些实施方式中,对于疾病症状库不同的词赋予不同的权重因子,从而区分不同疾病的严重程度;计算匹配分数,再根据匹配分数评估疾病名称是否属于大病;例如,识别所述特征信息中的疾病关键词信息,获得“斑丘疹、溃烂、皮肤、全身、红肿、反复出现、止不住”;匹配所述疾病关键词信息与所述疾病症状库,获得匹配结果“斑丘疹、皮肤、全身、反复出现、止不住”;由于疾病症状库中每个实体词、部位、状态、特点都设置了对应的预设权重因子,根据预设权重因子对匹配结果进行匹配评分,最终获得匹配分数,匹配分数超过预设匹配阈值时,则说明疾病名称属于预设大病列表中的一种。
请参见图5,图5为本申请实施例提供的基于目标识别模型的训练及识别的流程示意图。
示例性地,S700:确定与实体特征信息对应的信息知识库,并根据实体特征信息和信息知识库进行匹配,获得匹配结果的步骤之前,还包括:
S610:收集历史用户上传的历史图片数据;
S620:将历史图片数据进行分类标记,获得数据样本集,分类标记包括印鉴、身份证、医院名称中的一种或多种;
S630:输入数据样本集至目标识别算法中并进行训练,获得目标识别模型;
S640:根据目标识别模型识别图片,获得图片中各个区域的实体类别及实体坐标,实体类别包括印鉴、身份证、医院名称中的一种或多种;
S650:比较图片中的印鉴图案和预设的印鉴数据库中的印鉴图案的相似度,获得相似度分数;
S660:判断相似度分数是否大于预设相似度阈值,若否,则审核不通过,若是,则继续审核。
示例性地,所述信息知识库可包括印鉴知识库,也可以是另设的印鉴知识库。
进一步地,所述信息识别模型包括目标提取子模型、文本提取子模型和实体识别模型,所述筹款发起数据为图片数据。
示例性地,目标提取子模型可以采用Yolov3算法,是一种目标识别算法,用于识别图片中所包含的具体类别及在图片中的坐标位置。
示例性地,文本提取子模型可以采用OCR,用于识别圈取目标中的文字信息;例如,对于一份肾脏疾病的医院文件,可识别出的文本信息:“慢性肾功能不全”、“医院名称及地址”、“此为住院预收医疗款”。
示例性地,实体识别模型可以采用NER,用于抽取文本信息中的实体;例如,NER识别文本信息“患者李华于2019年12月1日在中日友好医院治疗冠心病”,获得实体词信息{病人姓名:李华,确诊时间:2019年12月1日, 医院名称:中日友好医院, 疾病名称:冠心病}。
在一些实施方式中,目标识别算法采用Yolov3训练,收集历史用户上传的历史图片数据存储至历史数据库中,训练样本集准备时,可选取历史数据库中图片(例如:10000张)。
在一些实施方式中,训练样本集的分类标记,可通过Tkinter交互式界面标注图片中的实体类别及坐标,例如:印鉴、身份证、标题、人脸等。
示例性地,印鉴数据库包括历史用户上传的图片;当新用户发起筹款、提交医疗图片时,与印鉴数据库进行相似度计算,获得相似度分数;若相似度分数大于预设相似度阈值,则说明新用户提交的医疗图片可信,从而可以非常便捷地校验医疗凭证的合法有效性。
可选地,进行相似度计算时可采用感知哈希算法。
示例性地,该筹款信息审核方法中筹款发起数据具有数据的多渠道、数据形式的多样化的特征,其中数据的多渠道指的是从发起者、证明人、医院等途径获取数据,数据形式的多样化指的是可以有文本、图片、表格、印章等多种数据形式;从而,该筹款信息审核方法实现了对多来源、多形式的数据全盘考虑、整合运用、互相印证、互为补充的特殊数据处理方案。
在一些实施方式中,筹款发起数据的数据格式可以是文本文件格式或图像格式;筹款发起数据的数据格式为图像格式时,提取筹款发起数据的特征信息可以通过依次通过yolov3算法、OCR(optical character recognition,光学字符识别)技术、NER(NamedEntity Recognition,命名实体识别)技术进行提取;其中,yolov3算法是一种目标识别算法,用于识别图片中所包含的具体类别(如印鉴、身份证、标题、人脸)及在图片中的坐标位置;OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程,即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程;NER是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
示例性地,提取筹款发起数据的特征信息,可以是依次提取现状描述文本、身份证件、医院文件和印鉴中的特征信息。
在一些实施方式中,S700:确定与实体特征信息对应的信息知识库,并根据实体特征信息和信息知识库进行匹配,获得匹配结果的步骤之前,该筹款信息的审核方法还包括如下步骤:
判断所述筹款发起数据的彼此对应的特征信息是否相互保持一致,若否,则审核不通过,若是,则继续审核。
示例性地,从发起筹款的现状描述文本、身份证件、医院文件、印鉴等提取特征信息,如病人姓名、病人证件编号、疾病名称、医院名称、确诊时间、治疗措施、诊疗费用等实体信息,从而拓宽数据来源,使多个数据来源的各类信息互相印证,极大地提高了造假成本,对其中疑点的排查。
不依赖于筹款发起者填表提供的基本数据,从发起筹款的现状描述文本、身份证件、医院文件、印鉴等提取特征信息,如病人姓名、病人证件编号、疾病名称、医院名称、确诊时间、治疗措施、诊疗费用等实体信息,从而拓宽数据来源,使多个数据来源的各类彼此对应的信息互相印证,通过信息识别模型可快捷提取出筹款发起数据的特征信息,并通过预设的预设大病列表判断特征信息中的疾病名称是否满足要求;从而,通过上述方式可极大地提高了造假成本,对其中疑点的排查,也帮助了真正有困难的发起者完整的描述自己的困难处境,为发起筹款和赢得人们的帮助奠定了基础;该筹款信息审核方法可以对筹款信息进行多角度、多维度的系统化复合验证,实现在对筹款信息进行审核时有条理、无遗漏、易扩展、便验证的技术效果。
示例性地,该筹款信息审核方法通过提取筹款发起数据的特征信息,并事先判断筹款发起数据中的彼此对应的特征信息是否一致,即判断现状描述文本的特征信息、身份证件的特征信息、医院文件的特征信息和印鉴的特征信息中的彼此对应的特征信息是否一致,若保持一致则继续审核,若不一致则退回筹款发起数据;从而,实现现状描述文本、身份证件、医院文件、印鉴中的信息互相验证审核。
在一些实施方式中,检索筹款人的历史筹款记录,历史记录中该筹款人的可信度也可以作为该筹款信息审核方法的参考信息。
请参见图6,图6为本申请实施例提供的筹款信息审核系统的结构示意图,该筹款信息审核系统包括:
接收模块100,用于接收终端发送的筹款发起审核请求,筹款发起审核请求携带有图片;
图像识别模块200,用于通过图像识别方法获取图片中的所有文本框的信息,每一文本框的信息包括文本框的文本信息和坐标信息;
遍历模块300,用于按行遍历所有文本框的信息,并对遍历到的每行文本框的信息执行以下处理:从每行文本框中的首个文本框起遍历,以当前遍历到的文本框的信息作为第一文本框的信息,将与当前遍历到的第一本文框的信息相邻的文本框的信息作为第二文本框的信息;根据第一文本框的坐标信息和第二文本框的坐标信息,使用语义校正规则判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息;如果第一文本框的文本信息和第二文本框的文本信息为连贯信息,则将第一文本框和第二文本框拼接,并将第一文本框的信息和第二文本框的信息存入预设的文本集合;如果第一文本框的文本信息和第二文本框的文本信息为非连贯信息,则将第一文本框的信息存入预设的文本集合;
实体识别模块400,用于获取执行完成处理得到的全部文本集合,并根据全部文本集合,通过实体识别模型识别得到实体特征信息;
匹配模块500,用于确定与实体特征信息对应的信息知识库,并根据实体特征信息和信息知识库进行匹配,获得匹配结果;
审核模块600,用于判断所述匹配结果是否小于预设阈值,若匹配结果小于预设阈值,则审核不通过,若匹配结果大于预设阈值,则审核通过。
示例性地,遍历模块300包括:
线性表达式单元,用于根据第一文本框的坐标信息,建立当前遍历到的第一文本框的第一线性表达式,第一线性表达式用于表示第一文本框的第一水平基准线;
水平基准线单元,用于根据第一线性表达式和第二文本框的坐标信息,判断第二文本框是否经过第一水平基准线;
连贯信息判断单元,用于判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息,如果第二文本框经过第一水平基准线,则第一文本框的文本信息和第二文本框的文本信息为连贯信息;如果第二文本框未经过第一水平基准线,则第一文本框的文本信息和第二文本框的文本信息为非连贯信息。
示例性地,线性表达式单元具体用于:
建立第一线性表达式的初始公式为:ax+by+c=0,其中abc表示表达式系数,xy表示第一文本框的坐标;
第一文本框的坐标信息包括多个第一顶点坐标信息;
根据多个第一顶点坐标信息计算得到第一文本框的竖向中点坐标信息;
根据第一文本框的竖向中点坐标信息计算得到表达式系数的第一具体数值a 1b 1c 1
根据表达式系数的第一具体数值a 1b 1c 1得到第一线性表达式为:a 1 x+b 1 y+c 1=0。
示例性地,水平基准线单元具体用于:
第二文本框的坐标信息包括多个第二顶点坐标信息,多个第二顶点坐标信息表示为(x 21y 21),(x 22y 22),(x 23y 23),(x 24y 24);其中,多个第二顶点坐标信息中的靠近第一文本框的第二顶点坐标信息为(x 21y 21),(x 23y 23);
计算
Figure P_210508144736493_493067001
,d 1表示所述第二顶点坐标信息(x 21y 21)到所述第一水平基准线的距离;
计算
Figure P_210508144736586_586817001
d 2表示所述第二顶点坐标信息(x 23y 23)到所述第一水平基准线的距离;
计算d 1×d 2,如果d 1×d 2<0,则表示所述第二文本框经过所述第一水平基准线,并根据所述第二文本框的坐标信息更新所述第一线性表达式;如果d 1×d 2≥0,则表示所述第二文本框未经过所述第一水平基准线。
示例性地,水平基准线单元还用于:
根据多个第二顶点坐标信息计算得到第二文本框的竖向中点坐标信息;
根据第二文本框的竖向中点坐标信息计算得到表达式系数的第二具体数值a 2b 2c 2
根据表达式系数的第二具体数值a 2b 2c 2更新第一线性表达式为:a 2 x+b 2 y+c 2=0。
示例性地,该筹款信息审核系统还包括更新模块,用于将实体特征信息与筹款发起数据匹配,并更新匹配结果。
示例性地,信息知识库包括疾病症状库,疾病症状库与预设大病列表相对应,疾病症状库包括预设大病列表中各个子病类的实体词信息、部位信息、状态信息、特点信息;该筹款信息审核系统还包括:
加载模块,用于加载疾病症状库至词表库;
切词处理模块,用于根据词表库切词处理并识别实体特征信息,获得疾病名称;
疾病识别模块,用于识别实体特征信息中的疾病关键词信息,疾病关键词信息与疾病名称相对应;
疾病匹配模块,用于匹配疾病关键词信息与疾病症状库,获得疾病匹配结果;
匹配分数计算模块,用于根据预设权重因子和疾病匹配结果计算疾病匹配分数;
大病判断模块,用于判断疾病匹配分数是否大于预设匹配阈值,若是,则疾病名称属于预设大病列表,则继续审核;若否,则审核不通过。
示例性地,该筹款信息审核系统还包括:
收集模块,用于收集历史用户上传的历史图片数据;
分类标记模块,用于将历史图片数据进行分类标记,获得数据样本集,分类标记包括印鉴、身份证、医院名称中的一种或多种;
训练模块,用于输入数据样本集至目标识别算法中并进行训练,获得目标识别模型;
目标识别模块,用于根据目标识别模型识别图片,获得图片中各个区域的实体类别及实体坐标,实体类别包括印鉴、身份证、医院名称中的一种或多种;
相似度比较模块,用于比较图片中的印鉴图案和预设的印鉴数据库中的印鉴图案的相似度,获得相似度分数;
相似度判断模块,用于判断相似度分数是否大于预设相似度阈值,若否,则审核不通过,若是,则继续审核。
应理解,图6所示的筹款信息审核系统与图1至图5的方法实施例所示的方法相对应,为避免重复,此处不再赘述。
本申请还提供一种电子设备,请参见图7,图7为本申请实施例提供的电子设备的结构框图。电子设备可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中,通信总线540用于实现这些组件直接的连接通信。其中,本申请实施例中电子设备的通信接口520用于与其他节点设备进行信令或数据的通信。处理器510可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器510可以是通用处理器,包括中央处理器(CPU,Central ProcessingUnit)、网络处理器(NP,Network Processor)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
存储器530可以是,但不限于,随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read Only Memory),可编程只读存储器(PROM ,Programmable Read-OnlyMemory),可擦除只读存储器(EPROM ,Erasable Programmable Read-Only Memory),电可擦除只读存储器(EEPROM ,Electric Erasable Programmable Read-Only Memory)等。存储器530中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器510执行时,电子设备可以执行上述图1至图5方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块,例如电子设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图7所示的结构仅为示意,所述电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,所述计算机程序被处理器执行时实现方法实施例所述的方法,为避免重复,此处不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种筹款信息审核方法,其特征在于,包括:
接收终端发送的筹款发起审核请求,所述筹款发起审核请求携带有图片;
通过图像识别方法获取所述图片中的所有文本框的信息,每一文本框的信息包括文本框的文本信息和坐标信息;
按行遍历所有文本框的信息,并对遍历到的每行文本框的信息执行以下处理:从每行文本框中的首个文本框起遍历,以当前遍历到的文本框的信息作为第一文本框的信息,将与当前遍历到的所述第一本文框相邻的文本框的信息作为第二文本框的信息;
根据所述第一文本框的坐标信息和所述第二文本框的坐标信息,使用语义校正规则判断所述第一文本框的文本信息和所述第二文本框的文本信息是否为连贯信息;
如果所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息,则将所述第一文本框和所述第二文本框拼接,并将所述第一文本框的信息和所述第二文本框的信息存入预设的文本集合;如果所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息,则将所述第一文本框的信息存入预设的文本集合;
获取执行完成所述处理得到的全部文本集合,并根据所述全部文本集合,通过实体识别模型识别得到实体特征信息;
确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果;
判断所述匹配结果是否小于预设阈值,若所述匹配结果小于预设阈值,则审核不通过,若所述匹配结果大于所述预设阈值,则审核通过;
所述根据所述第一文本框的坐标信息和所述第二文本框的坐标信息,使用语义校正规则判断所述第一文本框的文本信息和所述第二文本框的文本信息是否为连贯信息的步骤,包括:
根据所述第一文本框的坐标信息,建立当前遍历到的所述第一文本框的第一线性表达式,所述第一线性表达式用于表示所述第一文本框的第一水平基准线;
根据所述第一线性表达式和所述第二文本框的坐标信息,判断所述第二文本框是否经过所述第一水平基准线;
如果所述第二文本框经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息;
如果所述第二文本框未经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息。
2.根据权利要求1所述的筹款信息审核方法,其特征在于,所述根据所述第一文本框的坐标信息,建立当前遍历到的所述第一文本框的第一线性表达式的步骤,包括:
建立所述第一线性表达式的初始公式为:ax+by+c=0,其中abc表示表达式系数,xy表示所述第一文本框的坐标;
所述第一文本框的坐标信息包括多个第一顶点坐标信息;
根据所述多个第一顶点坐标信息计算得到所述第一文本框的竖向中点坐标信息;
根据所述第一文本框的竖向中点坐标信息计算得到所述表达式系数的第一具体数值a 1b 1c 1
根据所述表达式系数的第一具体数值a 1b 1c 1得到所述第一线性表达式为:a 1 x+b 1 y+c 1=0。
3.根据权利要求2所述的筹款信息审核方法,其特征在于,所述根据所述第一线性表达式和所述第二文本框的坐标信息,判断所述第二文本框是否经过所述第一水平基准线的步骤,包括:
所述第二文本框的坐标信息包括多个第二顶点坐标信息,所述多个第二顶点坐标信息表示为(x 21y 21),(x 22y 22),(x 23y 23),(x 24y 24);其中,所述多个第二顶点坐标信息中的靠近所述第一文本框的第二顶点坐标信息为(x 21y 21),(x 23y 23);
计算
Figure 535377DEST_PATH_IMAGE001
,d 1表示所述第二顶点坐标信息(x 21y 21)到所述第一水平基准线的距离;
计算
Figure 597005DEST_PATH_IMAGE002
d 2表示所述第二顶点坐标信息(x 23y 23)到所述第一水平基准线的距离;
计算d 1×d 2,如果d 1×d 2<0,则表示所述第二文本框经过所述第一水平基准线,并根据所述第二文本框的坐标信息更新所述第一线性表达式;如果d 1×d 2≥0,则表示所述第二文本框未经过所述第一水平基准线。
4.根据权利要求3所述的筹款信息审核方法,其特征在于,所述根据所述第二文本框的坐标信息更新所述第一线性表达式的步骤,包括:
根据所述多个第二顶点坐标信息计算得到所述第二文本框的竖向中点坐标信息;
根据所述第二文本框的竖向中点坐标信息计算得到所述表达式系数的第二具体数值a 2b 2c 2
根据所述表达式系数的第二具体数值a 2b 2c 2更新所述第一线性表达式为:a 2 x+b 2 y+c 2=0。
5.根据权利要求1所述的筹款信息审核方法,其特征在于,所述筹款发起审核请求携带有筹款发起数据,所述确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果的步骤之后,还包括:
将所述实体特征信息与所述筹款发起数据匹配,并更新所述匹配结果。
6.根据权利要求5所述的筹款信息审核方法,其特征在于,所述将所述实体特征信息与所述筹款发起数据匹配,并更新所述匹配结果的步骤之后,还包括:所述信息知识库包括疾病症状库,所述疾病症状库与预设大病列表相对应,所述疾病症状库包括所述预设大病列表中各个子病类的实体词信息、部位信息、状态信息、特点信息;
加载所述疾病症状库至词表库;
根据所述词表库切词处理并识别所述实体特征信息,获得疾病名称;
识别所述实体特征信息中的疾病关键词信息,所述疾病关键词信息与所述疾病名称相对应;
匹配所述疾病关键词信息与所述疾病症状库,获得疾病匹配结果;
根据预设权重因子和所述疾病匹配结果计算疾病匹配分数;
判断所述疾病匹配分数是否大于预设匹配阈值,若是,则所述疾病名称属于预设大病列表,则继续审核;若否,则审核不通过。
7.根据权利要求1所述的筹款信息审核方法,其特征在于,所述确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果的步骤之前,还包括:
收集历史用户上传的历史图片数据;
将所述历史图片数据进行分类标记,获得数据样本集,所述分类标记包括印鉴、身份证、医院名称中的一种或多种;
输入所述数据样本集至目标识别算法中并进行训练,获得目标识别模型;
根据所述目标识别模型识别所述图片,获得所述图片中各个区域的实体类别及实体坐标,所述实体类别包括印鉴、身份证、医院名称中的一种或多种;
比较所述图片中的印鉴图案和预设的印鉴数据库中的印鉴图案的相似度,获得相似度分数;
判断所述相似度分数是否大于预设相似度阈值,若否,则审核不通过,若是,则继续审核。
8.一种筹款信息审核系统,其特征在于,包括:
接收模块,用于接收终端发送的筹款发起审核请求,所述筹款发起审核请求携带有图片;
图像识别模块,用于通过图像识别方法获取所述图片中的所有文本框的信息,每一文本框的信息包括文本框的文本信息和坐标信息;
遍历模块,用于按行遍历所有文本框的信息,并对遍历到的每行文本框的信息执行以下处理:从每行文本框中的首个文本框起遍历,以当前遍历到的文本框的信息作为第一文本框的信息,将与当前遍历到的第一本文框相邻的文本框的信息作为第二文本框的信息;根据所述第一文本框的坐标信息和所述第二文本框的坐标信息,使用语义校正规则判断所述第一文本框的文本信息和所述第二文本框的文本信息是否为连贯信息;如果所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息,则将所述第一文本框和所述第二文本框拼接,并将所述第一文本框的信息和所述第二文本框的信息存入预设的文本集合;如果所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息,则将所述第一文本框的信息存入预设的文本集合;
实体识别模块,用于获取执行完成所述处理得到的全部文本集合,并根据所述全部文本集合,通过实体识别模型识别得到实体特征信息;
匹配模块,用于确定与所述实体特征信息对应的信息知识库,并根据所述实体特征信息和所述信息知识库进行匹配,获得匹配结果;
审核模块,用于判断所述匹配结果是否小于预设阈值,若所述匹配结果小于预设阈值,则审核不通过,若所述匹配结果大于所述预设阈值,则审核通过;
所述遍历模块包括:
线性表达式单元,用于根据所述第一文本框的坐标信息,建立当前遍历到的所述第一文本框的第一线性表达式,所述第一线性表达式用于表示所述第一文本框的第一水平基准线;
水平基准线单元,用于根据所述第一线性表达式和所述第二文本框的坐标信息,判断所述第二文本框是否经过所述第一水平基准线;
连贯信息判断单元,用于判断第一文本框的文本信息和第二文本框的文本信息是否为连贯信息,如果所述第二文本框经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为连贯信息;如果所述第二文本框未经过所述第一水平基准线,则所述第一文本框的文本信息和所述第二文本框的文本信息为非连贯信息。
9.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的筹款信息审核方法的步骤。
CN202110503346.3A 2021-05-10 2021-05-10 筹款信息审核方法、系统及电子设备 Active CN112990182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110503346.3A CN112990182B (zh) 2021-05-10 2021-05-10 筹款信息审核方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110503346.3A CN112990182B (zh) 2021-05-10 2021-05-10 筹款信息审核方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN112990182A CN112990182A (zh) 2021-06-18
CN112990182B true CN112990182B (zh) 2021-09-21

Family

ID=76337385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110503346.3A Active CN112990182B (zh) 2021-05-10 2021-05-10 筹款信息审核方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN112990182B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579521B (zh) * 2022-05-05 2022-08-05 深圳市元芯信息科技有限公司 电子数据存证方法、系统、计算机设备和存储介质
CN115907778A (zh) * 2023-01-29 2023-04-04 北京易思汇商务服务有限公司 一种智能审单方法、装置、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199803A (zh) * 2014-07-21 2014-12-10 安徽华贞信息科技有限公司 一种基于组合理论的文本信息处理系统及方法
CN104572755A (zh) * 2013-10-24 2015-04-29 高德软件有限公司 一种建立数据索引的方法、数据查询方法及相关装置
CN110443236A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 贷后文本要点信息提取方法及装置
CN110689012A (zh) * 2019-10-08 2020-01-14 山东浪潮人工智能研究院有限公司 一种端到端的自然场景文本识别方法及系统
CN111767422A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 一种数据审核方法、装置、终端及存储介质
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5018531B2 (ja) * 2008-02-12 2012-09-05 日本電気株式会社 チャリティーメールシステム、メールサーバ、チャリティーメール処理方法、そのプログラムおよび記録媒体
US10572954B2 (en) * 2016-10-14 2020-02-25 Intuit Inc. Method and system for searching for and navigating to user content and other user experience pages in a financial management system with a customer self-service system for the financial management system
CN108419091A (zh) * 2018-03-02 2018-08-17 北京未来媒体科技股份有限公司 一种基于机器学习的视频内容审核方法及装置
CN109325494B (zh) * 2018-08-27 2021-09-17 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN110147774B (zh) * 2019-05-23 2021-06-15 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN111461681B (zh) * 2020-06-19 2021-03-05 支付宝(杭州)信息技术有限公司 审核方法以及装置
CN112200107A (zh) * 2020-10-16 2021-01-08 深圳市华付信息技术有限公司 一种发票文本检测方法
CN112686049A (zh) * 2020-12-23 2021-04-20 平安普惠企业管理有限公司 文本审核方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572755A (zh) * 2013-10-24 2015-04-29 高德软件有限公司 一种建立数据索引的方法、数据查询方法及相关装置
CN104199803A (zh) * 2014-07-21 2014-12-10 安徽华贞信息科技有限公司 一种基于组合理论的文本信息处理系统及方法
CN110443236A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 贷后文本要点信息提取方法及装置
CN110689012A (zh) * 2019-10-08 2020-01-14 山东浪潮人工智能研究院有限公司 一种端到端的自然场景文本识别方法及系统
CN111767422A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 一种数据审核方法、装置、终端及存储介质
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法

Also Published As

Publication number Publication date
CN112990182A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN112990182B (zh) 筹款信息审核方法、系统及电子设备
AU2019200711B2 (en) Biometric verification
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN112257578B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
CN111475513A (zh) 表单生成方法、装置、电子设备及介质
WO2021196825A1 (zh) 摘要生成方法、装置、电子设备及介质
Duggal et al. Improving patient matching: single patient view for Clinical Decision Support using Big Data analytics
WO2022105496A1 (zh) 智能回访方法、装置、电子设备及可读存储介质
CN112150298A (zh) 数据处理方法、系统、设备及可读介质
CN109492141A (zh) 一种基于智能分配的档案管理系统
CN113470775B (zh) 信息采集方法、装置、设备及存储介质
CN109817297B (zh) 医疗报告的生成方法、装置、计算机设备及计算机存储介质
CN111400529B (zh) 数据处理方法以及装置
Folle et al. DeepNAPSI multi-reader nail psoriasis prediction using deep learning
CN112819305A (zh) 业务指标分析方法、装置、设备及存储介质
CN114360732B (zh) 医疗数据分析方法、装置、电子设备及存储介质
CN116311313A (zh) 基于人工智能的病历报告单检测方法、装置、设备及介质
CN116757207A (zh) 基于人工智能的icd自动编码方法及相关设备
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
CN115938608A (zh) 一种基于提示学习模型的临床决策预警的方法和系统
CN114581066A (zh) 医疗订单处理方法、装置、计算机设备和存储介质
CN111986815B (zh) 基于共现关系的项目组合挖掘方法及相关设备
WO2021114626A1 (zh) 一种病历数据的质量检测方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 716, 7 / F, building 2, 28 Andingmen East Street, Dongcheng District, Beijing

Patentee after: Beijing Easy Yikang Information Technology Co.,Ltd.

Address before: Room 716, 7 / F, building 2, 28 Andingmen East Street, Dongcheng District, Beijing

Patentee before: BEIJING QINGSONGCHOU INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder