CN112950170B - 审核方法以及装置 - Google Patents
审核方法以及装置 Download PDFInfo
- Publication number
- CN112950170B CN112950170B CN202110334278.2A CN202110334278A CN112950170B CN 112950170 B CN112950170 B CN 112950170B CN 202110334278 A CN202110334278 A CN 202110334278A CN 112950170 B CN112950170 B CN 112950170B
- Authority
- CN
- China
- Prior art keywords
- target
- picture
- entity
- auditing
- audited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供审核方法以及装置,其中所述审核方法包括:获取目标业务的待审核图片;对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;基于所述目标事件对所述目标业务进行审核,获得审核结果。
Description
本发明是20200619日申请的,申请号是202010564356.3,发明创造名称为“审核方法以及装置”的分案申请。
技术领域
本说明书实施例涉及数据处理技术领域,特别涉及审核方法以及装置。
背景技术
随着互联网的发展,线上业务越来越多元化,这些多元化的业务通常具有审核流程,在审核流程中需要基于用户上传的待审核图片对业务进行审核,在业务存在大量待审核图片的情况下,审核需要耗费大量的人工成本,并且容易出错,因此,需要提供更可靠的方案。
发明内容
有鉴于此,本说明书实施例提供了一种审核方法。本说明书一个或者多个实施例同时涉及一种审核装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本说明书实施例的第一方面,提供了一种审核方法,包括:
获取目标业务的待审核图片;
对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;
将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;
基于所述目标事件对所述目标业务进行审核,获得审核结果。
可选的,所述将所述目标实体进行组合,获得所述目标业务的至少一个目标事件,包括:
根据所述文本信息,确定所述目标实体之间的关联关系;
基于所述关联关系对所述目标实体进行关联,获得至少一个事件;
将所述事件进行融合,获得所述目标事件。
可选的,所述基于所述关联关系对所述目标实体进行关联,获得至少一个事件子步骤执行之后,且所述将所述事件进行融合,获得所述目标事件子步骤执行之前,还包括:
根据所述目标业务的标准实体库,将所述事件中包含的目标实体进行标准化处理,以更新所述事件。
可选的,所述将所述事件进行融合,获得所述目标事件,包括:
通过计算相同实体类型的目标实体的相似度,确定所述事件的目标相似度;
将所述目标相似度大于相似度阈值的至少两个事件中包含的目标实体进行合并,获得所述目标事件。
可选的,所述基于所述目标事件对所述目标业务进行审核,获得审核结果,包括:
根据所述目标业务的业务知识库,判断所述目标事件是否满足预设的审核规则;
若满足,将所述审核结果确定为通过;
若不满足,将所述审核结果确定为不通过。
可选的,所述对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体,包括:
对所述待审核图片进行文本识别,获得所述文本信息;
基于所述待审核图片所属的图片类别以及预先建立的图片类别与实体类型的对应关系,确定所述文本信息对应的目标实体类型;
根据所述目标实体类型提取所述文本信息中的目标实体。
可选的,所述对所述待审核图片进行文本识别,获得所述文本信息,包括:
对每张待审核图片进行文本识别,获得每张待审核图片中包含的第一文本信息;
将所述第一文本信息进行去重,获得第二文本信息;
基于所述第二文本信息所属的文本类别,对各个文本类别下的第二文本信息进行排序;
将各个文本类别下的第二文本信息按照排序结果进行拼接,获得所述文本类别对应的所述文本信息。
可选的,所述对所述待审核图片进行文本识别,获得所述文本信息,包括:
所述对所述待审核图片进行文本识别,获得所述文本信息以及所述文本信息中各个文字的第一位置信息;
相应的,所述将所述目标实体进行组合,获得所述目标业务的至少一个目标事件步骤执行之后,还包括:
确定所述目标事件中包含的目标实体在所述文本信息中的第二位置信息;
基于所述第一位置信息以及所述第二位置信息,确定所述目标事件中包含的目标实体在所述待审核图片中的第三位置信息;
对所述第三位置信息对应的图像区域进行标记。
可选的,所述获取目标业务的待审核图片,包括:
获取所述目标业务的初始待审核图片;
确定所述初始待审核图片所属的图片类别;
将所述初始待审核图片所属的图片类别与目标图片类别进行匹配,以筛选所述初始待审核图片中包含的所述待审核图片。
可选的,所述根据所述目标实体类型提取所述文本信息中的目标实体,包括:
将所述文本信息进行分词处理,获得词单元集合;
将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;
将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体。
可选的,所述目标业务包括:互助审核业务;相应的,所述待审核图片包括:互助待审核图片,所述目标事件包括:目标健康事件。
本说明书实施例的第二方面,提供了一种审核装置,包括:
获取模块,被配置为获取目标业务的待审核图片;
识别模块,被配置为对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;
组合模块,被配置为将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;
审核模块,被配置为基于所述目标事件对所述目标业务进行审核,获得审核结果。
本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取目标业务的待审核图片;
对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;
将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;
基于所述目标事件对所述目标业务进行审核,获得审核结果。
本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述审核方法的步骤。
本说明书提供一种审核方法,通过获取目标业务的待审核图片,对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体,并将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;基于所述目标事件对所述目标业务进行审核,获得审核结果,实现了对在待审核图片中包含的文本信息中提取与业务审核相关的关键信息,并基于关键信息组成的目标事件,对目标业务进行审核,过滤了文本信息中包含的与业务审核无关的信息,提高了业务审核的效率,增加了业务审核的准确度。
附图说明
图1是本说明书一个实施例提供的一种审核方法的处理流程图;
图2是本说明书一个实施例提供的一种应用于互助审核业务的审核方法的处理流程图;
图3是本说明书一个实施例提供的一种应用于互助审核业务的审核方法的整体流程图;
图4是本说明书一个实施例提供的一种审核装置的示意图;
图5是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了一种审核方法,本说明书一个或者多个实施例同时涉及一种审核装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
本说明书提供的一种审核方法实施例如下:
图1示出了根据本说明书一个实施例提供的一种审核方法的处理流程图,具体包括以下步骤:
步骤S102,获取目标业务的待审核图片。
实际应用中,在对目标业务进行审核的过程中,需要审核大量的待审核文件从而获得审核结果,而每份待审核文件对应至少一张待审核图片,基于这些待审核图片对目标业务进行审核费时费力,本说明书实施例,首先对目标业务的待审核图片中包含的关键信息进行提取,生成目标事件,并对目标事件进行审核,获得审核结果,提高了审核效率,并增加了审核的准确度。
具体的,所述目标业务,是指在业务处理过程中需要对待审核图片进行审核的业务,比如,健康审核业务、资质审核业务、合同审核业务、互助审核业务等。相应的,所述待审核图片,包括体检图片、证件图片、证明材料、报告材料、合同图片、证书图片、互助待审核图片等,具体目标业务以及待审核图片可以根据实际场景进行确定,在此并不做限制。
实际应用中,用户针对目标业务上传的图片可能很多,但并不是每张图片都对业务审核有帮助,因此需要对这些图片进行筛选,选取对业务审核有帮助的图片作为待审核图片,以便提高审核效率以及准确度,本说明书实施例提供的一种可选实施方式中,所述获取目标业务的待审核图片,具体采用如下方式实现:
获取所述目标业务的初始待审核图片;
确定所述初始待审核图片所属的图片类别;
将所述初始待审核图片所属的图片类别与目标图片类别进行匹配,以筛选所述初始待审核图片中包含的所述待审核图片。
所述初始待审核图片,是指由一个或多个用户上传的目标业务的图片,相应的,所述图片类别,是指图片所对应的原始材料的类别,比如,若图片为学历图片,则图片类别为学历类别,若图片为户籍图片,则图片类别为户籍类别,若图片为出院小结图片,则图片类别为出院小结类别。
实际应用中,确定所述初始待审核图片所属的图片类别,可以通过将初始待审核图片输入预先训练好的图片分类模型,对初始待审核图片进行分类,获得各个初始待审核图片所属的图片类别,此外,还可以根据图片对应名称对初始待审核图片进行分类,在此不做限制。
具体实施时,目标图片类别是根据目标业务的审核需要预先设置的,比如,互助审核业务中需要根据上传的出院小结图片、诊断证明图片以及病理报告图片等图片对互助请求人是否满足互助条件进行审核,则目标图片类别包括:出院小结类别、诊断证明类别以及病理报告等图片类别,若用户上传的初始待审核图片还包含其他非目标图片类别的图片,则通过将初始待审核图片所属的图片类别与目标图片类别进行匹配,过滤掉非目标图片类别的图片,保留业务审核需要的目标图片类别的图片作为待审核图片,以精简待审核图片的数量,提高了审核效率。
需要说明的是,所述互助审核业务是针对互助共济业务的业务成员提交的互助申请进行审核的审核业务,其中,互助共济业务是由一批具有共同同质保障需求以及愿意共同承担保障风险的业务成员参与的,业务成员在参与互助共济业务期间,发生的意外、伤残或疾病等达到互助共济业务约定的互助条件时,可以以互助申请形式提交相关材料比如互助待审核图片申领互助救济金,并基于互助待审核图片对上述互助申请是否满足互助共济业务约定的条件进行审核,若审核不通过,表明上述互助申请不满足互助共济业务约定的互助条件,则不批准该互助申请,若审核通过,表明上述互助申请满足互助共济业务约定的互助条件,则批准该互助申请。
以互助审核业务为例,获取互助审核业务的初始待审核图片,初始待审核图片包括:出院小结图片、诊断证明图片、病理报告图片以及身份图片,通过图片分类模型确定这些初始待审核图片所属的图片类别分别为:出院小结类别、诊断证明类别、病理报告类别以及身份类别,而目标图片类别包括:出院小结类别、诊断证明类别、病理报告类别,则通过将初始待审核图片的图片类别与目标图片类别进行匹配,在初始待审核图片中筛选出与出院小结类别匹配的出院小结图片、与诊断证明类别匹配的诊断证明图片,以及与病理报告类别匹配的病理报告图片,作为待审核图片。
步骤S104,对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体。
具体的,在获取待审核图片的基础上,对待审核图片包含的文本信息中的实体进行识别,以识别待审核图片中的关键信息,作为目标实体。
需要说明的是,对待审核图片包含的文本信息中的实体进行识别,获得目标实体,实际应用中,实体是对客观个体的抽象,比如上述出院小结图片中包含文本信息a,文本信息a中包含的2013年4月15日、甲医院、甲状腺结节等都可以看作是实体,而实体类型是对具有相同特点或属性的实体集合的抽象,比如,疾病A是一个实体,疾病B是一个实体,疾病C是一个实体,这些疾病都具有病变部位、症状等特征,因此,疾病A、疾病B、疾病C等具有病变部位、症状等特征的实体,可以抽象为的实体类型为疾病实体。
由于上述文本信息中的内容很多,然而业务审核过程中需要关注的信息却有限,因此先在文本信息中识别出需要的关键信息,并在识别出的关键信息的基础上进行业务审核,过滤了很多与审核无关的信息,加快了审核效率,并提高了准确度。
实际应用中,可以通过命名实体识别模型对文本信息中的实体进行实体识别,获得目标实体,此外,还可以通过预设关键词,在文本信息进行关键词匹配,以识别出目标实体,在此不做限制。
具体实施时,本说明书实施例提供的一种可选实施方式中,所述对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体,具体采用如下方式实现:
对所述待审核图片进行文本识别,获得所述文本信息;
基于所述待审核图片所属的图片类别以及预先建立的图片类别与实体类型的对应关系,确定所述文本信息对应的目标实体类型;
根据所述目标实体类型提取所述文本信息中的目标实体。
实际应用中,根据待审核图片,对目标业务进行审核,实际是根据待审核图片中包含的文本信息对目标业务进行审核,因此首先需要识别待审核图片中包含文本信息,并且由于对业务审核的过程中,对不同图片类别的图片,需要审核的信息不同,因此,需要预先建立图片类别和实体类型的对应关系,以便在不同的图片类别的图片包含的文本信息中确定出审核需要的目标实体类型,再根据目标实体类型在文本信息中提取出审核需要的信息,即目标实体。
沿用上例,在获取互助审核业务的待审核图片的基础上,分别对出院小结图片、诊断证明图片、病理报告图片进行文本识别,获得出院小结图片包含的文本信息a、诊断证明图片包含的文本信息b以及病理报告图片包含的文本信息c,而预先建立的图片类别和实体类型的对应关系如下表1所示:
表1
根据出院小结图片所属的图片类别为出院小结类别,诊断证明图片所属的图片类别为诊断证明类别,以及病理报告图片所属的图片类别为病理报告类别,以及上述表1所示的对应关系,确定文本信息a对应的目标实体类型为:医院实体、诊疗实体、疾病实体以及时间实体,文本信息b对应的目标实体类型为医院实体、疾病实体、时间实体,文本信息c对应的目标实体类型为医院实体、疾病实体、疾病等级实体、时间实体;
则根据文本信息a对应的目标实体类型,在文本信息a中提取的目标实体为:{甲医院、手术、甲状腺结节、2013年4月15日、脑溢血、2017年9月12日},根据文本信息b对应的目标实体类型,在文本信息b中提取的目标实体为{乙医院、脑卒中、2017年9月17日},根据文本信息c对应的目标实体类型,在文本信息c中提取的目标实体为{甲医院、甲状腺结节、四级、2013年4月15日},以便将在各个文本信息中提取出的目标实体作为对互助审核业务进行审核的关键信息。
本说明书实施例,通过对待审核图片进行文本识别,获得文本信息,且根据图片类别与实体类型的对应关系,确定对待审核图片包含的文本信息对应的目标实体类型,并进一步根据目标实体类型提取文本信息中的目标实体,以使在不同图片类别的待审核图片中提取出不同的信息,满足不同图片类别的待审核图片中文本信息的提取需要,提高了提取目标实体的准确性,增加了业务审核的审核效率。
实际应用中,由于待审核图片可能是多份材料的图片,而每份材料包括至少一张图片,为保障后续在文本信息中提取目标实体的准确性以及完整性,需要对每张待审核图片分别进行文本识别,将识别出的文本信息进行去重,并按照材料类别进行归类,再将归类好的文本信息按照在材料中的顺序进行排序并拼接,以形成每份材料对应的文本信息,本说明书实施例提供的一种可选实施方式中,所述对所述待审核图片进行文本识别,获得所述文本信息,具体采用如下方式实现:
对每张待审核图片进行文本识别,获得每张待审核图片中包含的第一文本信息;
将所述第一文本信息进行去重,获得第二文本信息;
基于所述第二文本信息所属的文本类别,对各个文本类别下的第二文本信息进行排序;
将各个文本类别下的第二文本信息按照排序结果进行拼接,获得所述文本类别对应的所述文本信息。
具体的,所述第一文本信息,是指对每张待审核图片进行文本识别,识别出每张待审核图片包含的文本信息;所述第二文本信息,是将第一文本信息去重后获得的文本信息;所述文本类别与前述图片类别相对应,比如,出院小结图片,其图片类型为出院小结类别,其文本类别也为出院小结类别。
需要说明的是,考虑到获取的待审核图片存在重复的情况,因此识别出每张待审核图片中包含的第一文本信息之后,将识别出的各个第一文本信息进行对比,若存在相同的第一文本信息,则删去重复的,将保留下来的第一文本信息作为第二文本信息,并对第二文本信息按照其所属的文本类别进行分类,将各个文本类别下的第二文本信息按照上下文或页码的前后顺序进行排序,获得各个文本类别下排序后的第二文本信息,最后将各个文本类别下的第二文本信息按照排序结果进行拼接,获得各个文本类别对应的文本信息。
沿用上例,在获取待审核图片的基础上,待审核图片中包含6张图片,依次对每张待审核图片进行文本识别,分别获得各张待审核图片包含的第一文本信息1、第一文本信息2、第一文本信息3、第一文本信息4、第一文本信息5以及第一文本信息6,分别将这6份第一文本信息进行两两对比,确定第一文本信息1以及第一文本信息3是重复的,第一文本信息4以及第一文本信息5是重复的,则将第一文本信息3以及第一文本信息5进行删除,将剩余的第一文本信息1、第一文本信息2、第一文本信息4、第一文本信息6作为第二文本信息;
这些第二文本信息中第一文本信息1和第一文本信息2所属的文本类别为出院小结类别,第一文本信息4所属的文本类别为诊断证明类别,第一文本信息6所属的文本类别为病理报告类别,分别对出院小结类别下的第一文本信息1和第一文本信息2按照页码进行排序,排序结果为第一文本信息2在前,第一文本信息1在后,则按照排序结果将第一文本信息2以及第一文本信息1进行拼接,获得出院小结类别对应的文本信息a,而诊断证明类别下只包含一份第一文本信息4,且病理报告类别下只包含一份第一文本信息6,因此无需排序和拼接,将第一文本信息4作为诊断证明类别对应的文本信息b,将第一文本信息6作为病理包含类别对应的文本信息c。
本说明书实施例提供的一种可选实施方式中,所述根据所述目标实体类型提取所述文本信息中的目标实体,具体采用如下方式实现:
将所述文本信息进行分词处理,获得词单元集合;
将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;
将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体。
实际应用中,通过大量的文本信息,以及对文本信息中的目标实体进行标注生成的样本标签,生成训练样本集,对建立的初始命名实体识别模型进行模型训练,获得所述命名实体识别(Named Entity Recognition,NER)模型,并通过训练好的命名实体识别模型识别文本信息中的目标实体,即关键信息,增加目标实体的识别准确性。
以上述文本信息a为例,对文本信息a进行分词处理,获得词单元集合{a1,a2,a3…an},将此词单元集合中包含的词单元a1转换为词向量{a11,a12,a13…a1m},将词单元集合中包含的词单元a2转换为词向量{a21,a22,a23…a2m},将词单元集合中包含的词单元a3转换为词向量{a31,a32,a33…a3m},将词单元集合中包含的词单元an转换为词向量{an1,an2,an3…anm},将上述转换获得的词向量转换为一个n*m的词向量矩阵,将词向量矩阵输入预先训练的命名实体识别模型进行实体识别,获得目标实体类型中“医院实体”对应的目标实体“甲医院”、目标实体类型中“诊疗实体”对应的目标实体“手术”、目标实体类型中“疾病实体”对应的目标实体“甲状腺结节”和“脑溢血”,以及目标实体类型中“时间实体”对应的目标实体“2013年4月15日”和“2017年9月12日”。
步骤S106,将所述目标实体进行组合,获得所述目标业务的至少一个目标事件。
具体的,所述事件,是指通过至少两个目标实体的组合,将目标实体所代表的关键信息进行关联,形成的具有逻辑性的可理解的关键词串,比如,事件为{x时间、y地点、c动作},则根据待审核图片的图片类别不同,可能理解为x时间在y地点做了c动作;
可选的,在互助审核业务中,所述事件包括健康事件;所述目标事件,包括健康目标事件。
实际应用中,将文本信息中识别出的目标实体进行组合的组合方式是多种多样的,比如将各个目标实体按照文本信息的时间顺序进行组合,组合为一个大的目标事件,此外,还可以将各个文本信息中的目标实体按文字顺序进行组合,则每个文本信息对应一个目标事件等,在此不做限制。
需要说明的是,将目标实体组合为目标事件的目的是:将目标实体组合成为具有逻辑的事件,以便增加对目标实体的理解力,并进一步提高了对目标业务进行审核的准确度。
具体实施时,在上述获得目标实体的基础上,对目标实体进行关联,获得事件,并将事件中相似的事件进行融合,获得目标业务的目标事件,进一步精简了业务审核过程中需要的关键信息,提升了业务审核的效率,增加了业务审核的准确度,本说明书实施例提供的一种可选实施方式中,所述将所述目标实体进行组合,获得所述目标业务的至少一个目标事件,具体采用如下方式实现:
根据所述文本信息,确定所述目标实体之间的关联关系;
基于所述关联关系对所述目标实体进行关联,获得至少一个事件;
将所述事件进行融合,获得所述目标事件。
具体实施时,根据所述文本信息,确定所述目标实体之间的关联关系,是指根据文本信息中的上下文,和/或段落关系等确定目标实体之间的关联关系,此外,还可以根据文本信息对应的关联规则,确定所述关联关系等,在此不做限制。
需要说明的是,由于不同文本信息可能包含的事件是相似的,因此需要对获得的事件进行融合,以便对事件进行精简。
沿用上例,在文本信息a中提取的目标实体为:{甲医院、手术、甲状腺结节、2013年4月15日、脑溢血、2017年9月12日},在文本信息b中提取的目标实体为{乙医院、脑卒中、2017年9月17日},在文本信息c中提取的目标实体为{甲医院、甲状腺结节、四级、2013年4月15日};
其中,在文本信息a中包含两个时间实体分别为:“2013年4月15日”以及“2017年9月12日”,两个疾病实体分别为:“甲状腺结节”以及“脑溢血”,一个医院实体:“甲医院”,以及一个诊疗实体:“手术”,这六个目标实体中由于医院实体只有一个,并且是出院小结中的必要实体,因此可以确定疾病实体、时间实体以及诊疗实体都与该医院实体具有关联关系,而疾病实体“甲状腺结节”与时间实体“2013年4月15日”在一个段落中,疾病实体“脑溢血”、时间实体“2017年9月12日”以及诊疗实体“手术”在一个段落中,则可以确定疾病实体“甲状腺结节”与时间实体“2013年4月15日”具有关联关系,确定疾病实体“脑溢血”、时间实体“2017年9月12日”以及诊疗实体“手术”具有关联关系;在文本信息b中包含的三个目标实体各不相同,且按照文本信息b的上下文彼此关联,则确定这三个目标实体彼此存在关联关系;在文本信息c中包含的四个目标实体各不相同,且按照文本信息c的上下文彼此关联,则确定这四个目标实体彼此存在关联关系;
在确定关联关系的基础上,进一步,基于确定的关联关系对目标实体进行关联,获得健康事件A{2013年4月15日、甲医院、甲状腺结节}、健康事件B{2017年9月12日、甲医院、脑溢血、手术}、健康事件C{2017年9月17日、乙医院、脑卒中},以及健康事件D{2013年4月15日、甲医院、甲状腺结节、四级};
其中,健康事件A与健康事件D相似,则将健康事件A与健康事件D进行融合,融合为互助审核业务的目标健康事件A1{2013年4月15日、甲医院、甲状腺结节、四级},而健康事件B和健康事件C,并无与其相似的健康事件,则无需融合,直接作为互助审核业务的目标健康事件B以及目标健康事件C。
具体实施时,由于目标实体在不同的文本信息中描述方式是多种多样的,但都表达同一个意思,因此为了更准确地对事件进行融合,本说明书实施例提供的一种可选实施方式中,所述基于所述关联关系对所述目标实体进行关联,获得至少一个事件之后,且所述将所述事件进行融合,获得所述目标事件之前,还包括:
根据所述目标业务的标准实体库,将所述事件中包含的目标实体进行标准化处理,以更新所述事件。
具体的,所述标准实体库,是指业务领域内的标准词库/标准编码库,或者自定义的标准词库/标准编码库,标准实体库中包含标准实体,可以是业务审核以疾病为例,标准实体库可以是国际疾病分类(international Classification of diseases,ICD)编码库。
本说明书实施例,可以通过计算事件中包含的目标实体与标准实体库中的标准实体之间的相似度,或自定义的映射规则,确定目标实体与标准实体库中的标准实体之间的映射关系,将目标实体映射为标准实体,并通过标准实体替代事件中的目标实体以更新事件。
例如:健康事件B{2017年9月12日、甲医院、脑溢血、手术}中包含的疾病实体“脑溢血”与健康事件C{2017年9月17日、乙医院、脑卒中}中包含的疾病实体“脑卒中”虽然是不同的描述,但二者实际上是一种疾病,根据自定义的标准疾病库,将这两个健康事件中的疾病实体“脑溢血”与疾病实体“脑卒中”映射为标准疾病库中的标准疾病实体“脑出血”,并基于此,将健康事件B更新为{2017年9月12日、甲医院、脑出血、手术},将健康事件C更新为{2017年9月17日、乙医院、脑出血}。
实际应用中,本说明书实施例提供的一种可选实施方式中,所述将所述事件进行融合,获得所述目标事件,具体采用如下方式实现:
通过计算相同实体类型的目标实体的相似度,确定所述事件的目标相似度;
将所述目标相似度大于相似度阈值的至少两个事件中包含的目标实体进行合并,获得所述目标事件。
具体实施时,由于各个事件中包含的一些目标实体的实体类型是相同的,通过相同实体类型的目标实体的相似度,可以表明事件的目标相似度,若两个事件之间的目标相似度大于相似度阈值,则表明这两个事件实质为同一事件,可以将这两个事件中包含的目标实体进行合并,以完成这两个事件的融合。
实际应用中,在对事件进行融合的过程中,还可以剔除一些存在错误的事件,这些错误,可能是由于上述步骤执行过程中误差导致的。
以上述健康事件A{2013年4月15日、甲医院、甲状腺结节}以及健康事件D{2013年4月15日、甲医院、甲状腺结节、四级}为例,健康事件A以及健康事件D中相同实体类型的目标实体之间的相似度为100%,则健康事件A以及健康事件D之间的目标相似度为100%,该目标相似度大于预设的相似度阈值95%,则将健康事件A以及健康事件D中包含的目标实体进行合并,合并过程中相同实体类型的目标实体只保留一个,则合并后,获得的目标健康事件A1为{2013年4月15日、甲医院、甲状腺结节、四级}。
本说明书实施例提供的一种可选实施方式中,所述对所述待审核图片进行文本识别,获得所述文本信息,具体采用如下方式实现:
所述对所述待审核图片进行文本识别,获得所述文本信息以及所述文本信息中各个文字的第一位置信息;
相应的,所述将所述目标实体进行组合,获得所述目标业务的至少一个目标事件步骤执行之后,还包括:
确定所述目标事件中包含的目标实体在所述文本信息中的第二位置信息;
基于所述第一位置信息以及所述第二位置信息,确定所述目标事件中包含的目标实体在所述待审核图片中的第三位置信息;
对所述第三位置信息对应的图像区域进行标记。
具体的,所述第一位置信息,是指文本信息中各个文字在待审核图片中对应的坐标信息,比如,各个文字在待审核图片中定位框的顶点坐标,实际应用中,通过光学字符识别(Optical Character Recognition,OCR)技术即可实现;
所述第二位置信息是指目标实体在文本信息中的起止字符信息,比如目标实体处理文本信息中第几个字符到第几个字符;所述第三位置信息,是指目标实体在待审核图片中对应的坐标信息,比如目标实体在待审核图片中的定位框的顶点坐标;
实际应用中,根据第一位置信息以及第二位置信息,则可确定目标实体在待审核图片中的第三位置信息,并将第三位置信息对应的图像区域进行标记,作为对目标业务进行审核的审核依据,以便后续对目标业务进行复核,增加了复核的效率,还可以作为对目标业务进行审核的审核结果的证据呈现,增加审核结果的可信度。
具体实施时,对所述第三位置信息对应的图像区域进行标记的标记方法是多种多样的,比如添加定位框,改变字体颜色,增加底纹阴影等,在此不做限制。
步骤S108,基于所述目标事件对所述目标业务进行审核,获得审核结果。
实际应用中,在将目标业务的待审核图片中包含的文本信息浓缩成为一个个目标事件基础上,基于目标事件对目标业务进行审核,避免了对于待审核图片中包含的无关信息的分析,提高了业务审核效率,且增加了业务审核的准确度。
具体实施时,本说明书实施例提供的一种可选实施方式中,所述基于所述目标事件对所述目标业务进行审核,获得审核结果,具体采用如下方式实现:
根据所述目标业务的业务知识库,判断所述目标事件是否满足预设的审核规则;
若满足,将所述审核结果确定为通过;
若不满足,将所述审核结果确定为不通过。
所述业务知识库,包含目标业务的业务标准,和/或业务常识等,以互助审核业务为例,所述业务知识库中的知识包括哪些疾病属于重疾,哪些疾病属于保障疾病等。
所述审核规则,是指预设的判断目标事件是否通过审核的规则,以互助审核业务为例,所述审核规则可以是时间是否早于参与互助业务的时间,且疾病是否属于保障疾病,若满足审核规则,则表明审核通过,若不满足审核规则,则表明审核不通过。
沿用上例,根据互助审核业务中的互助知识库,依次审核上述目标健康事件A1{2013年4月15日、甲医院、甲状腺结节、四级}、目标健康事件B{2017年9月12日、甲医院、脑出血、手术}、目标健康事件C{2017年9月17日、乙医院、脑出血}是否符合互助审核规则,在目标健康事件A1、目标健康事件B以及目标健康事件C都满足互助审核规则的情况下,将审核结果确定为通过,在目标健康事件A1、目标健康事件B以及目标健康事件C中任意一个目标健康事件不满足互助审核规则的情况下,将审核结果确定为不通过。
综上所述,本说明书提供一种审核方法,通过获取目标业务的待审核图片,对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体,并将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;基于所述目标事件对所述目标业务进行审核,获得审核结果,实现了对在待审核图片中包含的文本信息中提取与业务审核相关的关键信息,并基于关键信息组成的目标事件,对目标业务进行审核,过滤了文本信息中包含的与业务审核无关的信息,提高了业务审核的效率,增加了业务审核的准确度。
下述结合附图2,以本说明书提供的审核方法在互助审核业务中的应用为例,对所述审核方法进行进一步说明。其中,图2示出了本说明书一个实施例提供的一种应用于互助审核业务的审核方法的处理流程图,具体包括以下步骤:
步骤S202,获取互助审核业务的互助待审核图片。
具体的,所述获取互助审核业务的互助待审核图片,包括:
获取所述互助审核业务的初始互助待审核图片;
确定所述初始互助待审核图片所属的图片类别;
将所述初始互助待审核图片所属的图片类别与目标图片类别进行匹配,以确定所述互助待审核图片。
步骤S204,对每张互助待审核图片进行文本识别,获得每张互助待审核图片中包含的第一文本信息。
步骤S206,将第一文本信息进行去重,获得第二文本信息。
步骤S208,基于第二文本信息所属的文本类别,对各个文本类别下的第二文本信息进行排序。
步骤S210,将各个文本类别下的第二文本信息按照排序结果进行拼接,获得文本类别对应的文本信息。
步骤S212,基于互助待审核图片所属的图片类别以及预先建立的图片类别与实体类型的对应关系,确定文本信息对应的目标实体类型。
步骤S214,根据目标实体类型提取文本信息中的目标实体。
具体的,所述根据目标实体类型提取文本信息中的目标实体,包括:
将所述文本信息进行分词处理,获得词单元集合;
将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;
将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体。
步骤S216,根据文本信息,确定目标实体之间的关联关系。
步骤S218,基于关联关系对目标实体进行关联,获得至少一个健康事件。
步骤S220,根据互助审核业务的标准实体库,将健康事件中包含的目标实体进行标准化处理,以更新健康事件。
步骤S222,通过计算相同实体类型的目标实体的相似度,确定健康事件的目标相似度。
步骤S224,将目标相似度大于相似度阈值的至少两个健康事件中包含的目标实体进行合并,获得目标健康事件。
具体的,上述对互助待审核图片进行文本识别,获得文本信息,包括:
所述对所述互助待审核图片进行文本识别,获得所述文本信息以及所述文本信息中各个文字的第一位置信息;
相应的,将目标实体进行组合,获得互助审核业务的至少一个目标健康事件步骤执行之后,还包括:
确定所述目标健康事件中包含的目标实体在所述文本信息中的第二位置信息;
基于所述第一位置信息以及所述第二位置信息,确定所述目标事件中包含的目标实体在所述待审核图片中的第三位置信息;
对所述第三位置信息对应的图像区域进行标记。
步骤S226,基于目标健康事件对互助审核业务进行审核,获得审核结果。
具体的,所述基于目标健康事件对互助审核业务进行审核,获得审核结果,包括:
根据所述互助审核业务的业务知识库,判断所述目标健康事件是否满足预设的审核规则;
若满足,将所述审核结果确定为通过;
若不满足,将所述审核结果确定为不通过。
具体实施时,如图3所示,将互助待审核图片输入预先训练好的OCR模型进行文本识别,获得互助待审核图片包含的文本信息,将文本信息输入训练好的NER模型进行实体识别,获得文本信息中包含的目标实体,其中目标实体包括:时间实体、医院实体以及疾病实体,将目标实体按照它们在文本信息中的关联关系进行关联,形成目标健康事件,则目标健康事件中包括:时间实体、医院实体以及疾病实体,并根据互助审核业务的审核规则,对目标健康事件进行规则决策,获得审核结果。
本说明书提供一种审核方法,通过获取互助审核业务的互助待审核图片,对互助待审核图片包含的文本信息中的实体进行识别,获得目标实体,并将所述目标实体进行组合,获得所述互助审核业务的至少一个目标健康事件;基于所述目标健康事件对所述互助审核业务进行审核,获得审核结果,实现了对在互助待审核图片中包含的文本信息中提取与业务审核相关的关键信息,并基于关键信息组成的目标健康事件,对互助审核业务进行审核,过滤了文本信息中包含的与业务审核无关的信息,提高了业务审核的效率,增加了业务审核的准确度。
本说明书提供的一种审核装置实施例如下:
与上述方法实施例相对应,本说明书还提供了审核装置实施例,图4示出了本说明书一个实施例提供的一种审核装置的示意图。如图4所示,该装置包括:
获取模块402,被配置为获取目标业务的待审核图片;
识别模块404,被配置为对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;
组合模块406,被配置为将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;
审核模块408,被配置为基于所述目标事件对所述目标业务进行审核,获得审核结果。
可选的,所述组合模块406,包括:
确定关系子模块,被配置为根据所述文本信息,确定所述目标实体之间的关联关系;
关联子模块,被配置为基于所述关联关系对所述目标实体进行关联,获得至少一个事件;
融合子模块,被配置为将所述事件进行融合,获得所述目标事件。
可选的,所述组合模块406,还包括:
标准化子模块,被配置为根据所述目标业务的标准实体库,将所述事件中包含的目标实体进行标准化处理,以更新所述事件。
可选的,所述融合子模块,包括:
确定相似度单元,被配置为通过计算相同实体类型的目标实体的相似度,确定所述事件的目标相似度;
合并单元,被配置为将所述目标相似度大于相似度阈值的至少两个事件中包含的目标实体进行合并,获得所述目标事件。
可选的,所述审核模块408,包括:
判断子模块,被配置为根据所述目标业务的业务知识库,判断所述目标事件是否满足预设的审核规则;
若满足,运行第一确定子模块,所述第一确定子模块,被配置为将所述审核结果确定为通过;
若不满足,运行第二确定子模块,所述第二确定子模块,被配置为将所述审核结果确定为不通过。
可选的,所述识别模块404,包括:
识别子模块,被配置为对所述待审核图片进行文本识别,获得所述文本信息;
确定类型子模块,被配置为基于所述待审核图片所属的图片类别以及预先建立的图片类别与实体类型的对应关系,确定所述文本信息对应的目标实体类型;
提取子模块,被配置为根据所述目标实体类型提取所述文本信息中的目标实体。
可选的,所述识别子模块,包括:
第一文本识别单元,被配置为对每张待审核图片进行文本识别,获得每张待审核图片中包含的第一文本信息;
去重单元,被配置为将所述第一文本信息进行去重,获得第二文本信息;
排序单元,被配置为基于所述第二文本信息所属的文本类别,对各个文本类别下的第二文本信息进行排序;
拼接单元,被配置为将各个文本类别下的第二文本信息按照排序结果进行拼接,获得所述文本类别对应的所述文本信息。
可选的,所述识别子模块,包括:
第二文本识别单元,被配置为所述对所述待审核图片进行文本识别,获得所述文本信息以及所述文本信息中各个文字的第一位置信息;
相应的,所述审核装置,还包括:
第一确定信息模块,被配置为确定所述目标事件中包含的目标实体在所述文本信息中的第二位置信息;
第二确定信息模块,被配置为基于所述第一位置信息以及所述第二位置信息,确定所述目标事件中包含的目标实体在所述待审核图片中的第三位置信息;
标记模块,被配置为对所述第三位置信息对应的图像区域进行标记。
可选的,所述获取模块402,包括:
获取图片子模块,被配置为获取所述目标业务的初始待审核图片;
确定类别子模块,被配置为确定所述初始待审核图片所属的图片类别;
匹配子模块,被配置为将所述初始待审核图片所属的图片类别与目标图片类别进行匹配,以筛选所述初始待审核图片中包含的所述待审核图片。
可选的,所述提取子模块,包括:
分词单元,被配置为将所述文本信息进行分词处理,获得词单元集合;
转换单元,被配置为将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;
实体识别单元,被配置为将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体。
可选的,所述目标业务包括:互助审核业务;相应的,所述待审核图片包括:互助待审核图片,所述目标事件包括:目标健康事件。
上述为本实施例的一种审核装置的示意性方案。需要说明的是,该审核装置的技术方案与上述的审核方法的技术方案属于同一构思,审核装置的技术方案未详细描述的细节内容,均可以参见上述审核方法的技术方案的描述。
本说明书提供的一种计算设备实施例如下:
图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
本说明书提供一种计算设备,包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机指令,所述处理器520用于执行如下计算机可执行指令:
获取目标业务的待审核图片;
对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;
将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;
基于所述目标事件对所述目标业务进行审核,获得审核结果。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的审核方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述审核方法的技术方案的描述。
本说明书提供的一种计算机可读存储介质实施例如下:
本说明书提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取目标业务的待审核图片;
对所述待审核图片包含的文本信息中的实体进行识别,获得目标实体;
将所述目标实体进行组合,获得所述目标业务的至少一个目标事件;
基于所述目标事件对所述目标业务进行审核,获得审核结果。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的审核方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述审核方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种审核方法,包括:
获取目标业务的待审核图片;
确定所述待审核图片中包含的文本信息对应的目标实体类型;
将所述文本信息进行分词处理,获得词单元集合;
将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;
将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体;
基于目标事件对所述目标业务进行审核,获得审核结果,其中,所述目标事件基于所述目标实体组合获得。
2.根据权利要求1所述的审核方法,所述目标事件,通过如下方式获得:
根据所述文本信息,确定所述目标实体之间的关联关系;
基于所述关联关系对所述目标实体进行关联,获得至少一个事件;
将所述事件进行融合,获得所述目标事件。
3.根据权利要求2所述的审核方法,所述基于所述关联关系对所述目标实体进行关联,获得至少一个事件子步骤执行之后,且所述将所述事件进行融合,获得所述目标事件子步骤执行之前,还包括:
根据所述目标业务的标准实体库,将所述事件中包含的目标实体进行标准化处理,以更新所述事件。
4.根据权利要求2所述的审核方法,所述将所述事件进行融合,获得所述目标事件,包括:
通过计算相同实体类型的目标实体的相似度,确定所述事件的目标相似度;
将所述目标相似度大于相似度阈值的至少两个事件中包含的目标实体进行合并,获得所述目标事件。
5.根据权利要求1所述的审核方法,所述基于所述目标事件对所述目标业务进行审核,获得审核结果,包括:
根据所述目标业务的业务知识库,判断所述目标事件是否满足预设的审核规则;
若满足,将所述审核结果确定为通过;
若不满足,将所述审核结果确定为不通过。
6.根据权利要求1所述的审核方法,所述获取目标业务的待审核图片,包括:
获取所述目标业务的初始待审核图片;
确定所述初始待审核图片所属的图片类别;
将所述初始待审核图片所属的图片类别与目标图片类别进行匹配,以筛选所述初始待审核图片中包含的所述待审核图片。
7.根据权利要求1所述的审核方法,所述目标业务包括:互助审核业务;相应的,所述待审核图片包括:互助待审核图片,所述目标事件包括:目标健康事件。
8.一种审核装置,包括:
获取模块,被配置为获取目标业务的待审核图片;
识别模块,被配置为确定所述待审核图片中包含的文本信息对应的目标实体类型;将所述文本信息进行分词处理,获得词单元集合;将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体;
审核模块,被配置为基于目标事件,对所述目标业务进行审核,获得审核结果,其中,所述目标事件基于所述目标实体组合获得。
9.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取目标业务的待审核图片;
确定所述待审核图片中包含的文本信息对应的目标实体类型;
将所述文本信息进行分词处理,获得词单元集合;
将所述词单元集合中包含的词单元转换为词向量,并将所述词向量转换为词向量矩阵;
将所述词向量矩阵输入命名实体识别模型进行实体识别,获得所述目标实体类型对应的目标实体;
基于目标事件,对所述目标业务进行审核,获得审核结果,其中,所述目标事件基于所述目标实体组合获得。
10.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至7任意一项所述审核方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334278.2A CN112950170B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010564356.3A CN111461681B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
CN202110334278.2A CN112950170B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010564356.3A Division CN111461681B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112950170A CN112950170A (zh) | 2021-06-11 |
CN112950170B true CN112950170B (zh) | 2022-08-26 |
Family
ID=71682073
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110334278.2A Active CN112950170B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
CN202010564356.3A Active CN111461681B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010564356.3A Active CN111461681B (zh) | 2020-06-19 | 2020-06-19 | 审核方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112950170B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528887B (zh) * | 2020-12-16 | 2022-10-28 | 蚂蚁胜信(上海)信息技术有限公司 | 审核方法及装置 |
CN112507936B (zh) * | 2020-12-16 | 2024-04-23 | 平安银行股份有限公司 | 图像信息审核方法、装置、电子设备及可读存储介质 |
CN113034034A (zh) * | 2021-04-15 | 2021-06-25 | 平安国际智慧城市科技股份有限公司 | 一种基于识别技术的企业风险自查方法及系统 |
CN112990182B (zh) * | 2021-05-10 | 2021-09-21 | 北京轻松筹信息技术有限公司 | 筹款信息审核方法、系统及电子设备 |
CN113837772B (zh) * | 2021-09-24 | 2024-08-20 | 支付宝(杭州)信息技术有限公司 | 一种对营销信息进行审核的方法、装置及设备 |
CN114186066B (zh) * | 2022-02-16 | 2022-10-25 | 子长科技(北京)有限公司 | 一种报告生成方法、系统、存储介质及电子设备 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8315456B2 (en) * | 2008-04-10 | 2012-11-20 | The Nielsen Company | Methods and apparatus for auditing signage |
US10089555B2 (en) * | 2014-03-28 | 2018-10-02 | Hyland Software, Inc. | Method, apparatus, and computer program product for providing automated testing of an optical character recognition system |
CN104240068A (zh) * | 2014-08-25 | 2014-12-24 | 小米科技有限责任公司 | 提醒事件创建方法和装置 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN108198591A (zh) * | 2017-12-28 | 2018-06-22 | 泰康保险集团股份有限公司 | 用于远程审核单据的方法与装置 |
CN110580308B (zh) * | 2018-05-22 | 2022-06-07 | 北京京东振世信息技术有限公司 | 信息审核方法及装置、电子设备、存储介质 |
CN109492981A (zh) * | 2018-09-14 | 2019-03-19 | 龙马智芯(珠海横琴)科技有限公司 | 信息的审核方法及装置 |
CN109657230B (zh) * | 2018-11-06 | 2023-07-28 | 众安信息技术服务有限公司 | 融合词向量和词性向量的命名实体识别方法及装置 |
CN109615536A (zh) * | 2018-12-13 | 2019-04-12 | 平安医疗健康管理股份有限公司 | 基于ocr技术的保险理赔方法、装置、设备及可读存储介质 |
CN109766430A (zh) * | 2018-12-17 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 合同审核方法、装置、计算机设备和存储介质 |
CN110147981A (zh) * | 2019-04-12 | 2019-08-20 | 深圳壹账通智能科技有限公司 | 基于文本分析的合同风险审核方法、装置及终端设备 |
CN110135265A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 案件自动审核方法、装置、计算机设备及存储介质 |
CN110322216A (zh) * | 2019-05-30 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 基于知识图谱的案件审核方法以及装置 |
CN110349033A (zh) * | 2019-05-30 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 项目案件初审方法以及装置 |
CN110866836B (zh) * | 2019-11-14 | 2022-12-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
CN110956450A (zh) * | 2019-11-29 | 2020-04-03 | 北京明略软件系统有限公司 | 一种自助立案系统、方法及装置 |
CN111292060A (zh) * | 2020-02-03 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 信息处理方法及装置 |
-
2020
- 2020-06-19 CN CN202110334278.2A patent/CN112950170B/zh active Active
- 2020-06-19 CN CN202010564356.3A patent/CN111461681B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112950170A (zh) | 2021-06-11 |
CN111461681A (zh) | 2020-07-28 |
CN111461681B (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112950170B (zh) | 审核方法以及装置 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN112613501A (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN111652232B (zh) | 票据识别方法及装置、电子设备和计算机可读存储介质 | |
CN111950528B (zh) | 图表识别模型训练方法以及装置 | |
CN113723288B (zh) | 基于多模态混合模型的业务数据处理方法及装置 | |
CN110276587B (zh) | 项目审批的方法、装置、计算设备及计算机可读存储介质 | |
CN111767883A (zh) | 一种题目批改方法及装置 | |
CN114862845A (zh) | 手机触摸屏的缺陷检测方法、装置、设备及存储介质 | |
CN111402072B (zh) | 信息处理方法及装置 | |
CN112036295A (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
US11817215B2 (en) | Artificial intelligence cloud diagnosis platform | |
CN114281984A (zh) | 一种风险检测方法、装置、设备及计算机可读存储介质 | |
CN112115892A (zh) | 一种关键要素抽取方法、装置、设备及存储介质 | |
CN113282623A (zh) | 数据处理方法及装置 | |
CN113283232A (zh) | 自动解析文本中隐私信息的方法和装置 | |
CN111401854A (zh) | 信息处理方法以及装置 | |
Vafaie et al. | Handwritten and printed text identification in historical archival documents | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN111400529B (zh) | 数据处理方法以及装置 | |
CN113935880A (zh) | 政策推荐方法、装置、设备及存储介质 | |
CN114120342A (zh) | 简历文档识别方法、装置、计算设备及存储介质 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN115439850B (zh) | 基于审单的图文字符识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211215 Address after: Room 610, floor 6, No. 618, Wai Road, Huangpu District, Shanghai 200010 Applicant after: Ant Shengxin (Shanghai) Information Technology Co.,Ltd. Address before: 801-11, Section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province, 310013 Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |