CN113139875B - 欺诈病例查找方法、装置、电子设备与存储介质 - Google Patents
欺诈病例查找方法、装置、电子设备与存储介质 Download PDFInfo
- Publication number
- CN113139875B CN113139875B CN202110276348.3A CN202110276348A CN113139875B CN 113139875 B CN113139875 B CN 113139875B CN 202110276348 A CN202110276348 A CN 202110276348A CN 113139875 B CN113139875 B CN 113139875B
- Authority
- CN
- China
- Prior art keywords
- case
- diagnosis
- data
- treatment
- fraud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Pathology (AREA)
- Strategic Management (AREA)
- Epidemiology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种欺诈病例查找方法、装置、电子设备与存储介质,方法包括:获取第一病例的出院小结数据以及诊疗过程数据;从所述第一病例的出院小结数据中获取诊疗关键词组;根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。本发明提供的欺诈病例查找方法、装置、电子设备与存储介质通过从出院小结数据中抽取文本信息,并结合诊疗过程数据对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种欺诈病例查找方法、装置、电子设备与存储介质。
背景技术
医疗保险是社会保险的重要组成部分,长期以来,欺诈骗取医保基金的违法违规行为花样频出,严重侵害了人民群众的合法权益,破坏了医保基金的正常运行,造成了恶劣的社会影响。
现有技术中,对医保欺诈行为的识别主要通过民间举报与人工抽查两种形式。这两种形式都主要依赖于人工实现,具有识别量低与识别成本高的问题。
发明内容
针对现有技术存在的问题,本发明提供一种欺诈病例查找方法、装置、电子设备与存储介质。
本发明提供一种欺诈病例查找方法,包括:
获取第一病例的出院小结数据以及诊疗过程数据;
从所述第一病例的出院小结数据中获取诊疗关键词组;
根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
根据本发明提供一种的欺诈病例查找方法,所述诊疗过程数据包括主诊断数据;其中,所述主诊断数据用于描述患者在一次就诊过程中所涉及的主要疾病的类型;
相应的,所述根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,包括:
根据所述第一病例的诊疗关键词组,在所述第一对照关系表中查找对应的疾病类型数据;其中,所述第一对照关系表描述了诊疗关键词组与疾病类型数据之间的对应关系;
将查找到的疾病类型数据与第一病例的主诊断数据进行比较,若查找到的疾病类型数据未包含第一病例的主诊断数据,确定所述第一病例为欺诈病例。
根据本发明提供一种的欺诈病例查找方法,所述诊疗过程数据包括费用明细数据;其中,所述费用明细数据用于描述患者在一次就诊过程中所缴纳费用的类型;
相应的,所述根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,包括:
根据第一病例的诊疗关键词组,在所述第二对照关系表中查找对应的费用明细数据;其中,所述第二对照关系表用于描述诊疗关键词组与费用明细数据之间的对应关系;
将查找到的费用明细数据与第一病例的费用明细数据进行比较,若查找到的费用明细数据未包含第一病例的费用明细数据,则确定第一病例为欺诈病例。
根据本发明提供一种的欺诈病例查找方法,所述诊疗过程数据包括主诊断数据以及费用明细数据;其中,所述主诊断数据描述了患者在一次就诊过程中所涉及的主要疾病的类型;所述费用明细数据用于描述患者在一次就诊过程中所缴纳费用的类型;
相应的,所述根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,包括:
根据所述第一病例的诊疗关键词组,在所述第一对照关系表中查找对应的疾病类型数据;其中,所述第一对照关系表描述了诊疗关键词组与疾病类型数据之间的对应关系;
将查找到的疾病类型数据与第一病例的主诊断数据进行比较,若查找到的疾病类型数据包含第一病例的主诊断数据,继续执行下一步;
根据第一病例的诊疗关键词组,在所述第二对照关系表中查找对应的费用明细数据;其中,所述第二对照关系表用于描述诊疗关键词组与费用明细数据之间的对应关系;
将查找到的费用明细数据与第一病例的费用明细数据进行比较,若查找到的费用明细数据未包含第一病例的费用明细数据,则确定第一病例为欺诈病例。
根据本发明提供一种的欺诈病例查找方法,所述从所述第一病例的出院小结数据中获取诊疗关键词组,包括:
根据预先设置的诊疗关键词标准集,从所述第一病例的出院小结数据中获取诊疗关键词,得到第一病例的诊疗关键词组;其中,所述诊疗关键词标准集包括出院小结中能够包含的各种诊疗关键词。
根据本发明提供一种的欺诈病例查找方法,所述从所述第一病例的出院小结数据中获取诊疗关键词组,包括:
对所述第一病例的出院小结数据中的文本信息进行分词操作,得到多个词,利用预先训练的fastText模型得到所述多个词对应的词向量;
对所述的多个词以及对应的词向量进行诊疗关键词与非诊疗关键词的二分类处理,得到第一病例的诊疗关键词组。
根据本发明提供一种的欺诈病例查找方法,所述从所述第一病例的出院小结数据中获取诊疗关键词组,包括:
将第一病例的出院小结数据中的文本信息输入诊疗关键词识别模型中,得到诊疗关键词组;其中,
所述诊疗关键词识别模型是在BERT预训练模型的基础上添加全连接层,并基于样本出院小结数据训练得到的。
本发明提供一种欺诈病例查找装置,包括:数据获取模块,用于获取第一病例的出院小结数据以及诊疗过程数据;
诊疗关键词组生成模块,用于从所述第一病例的出院小结数据中获取诊疗关键词组;
欺诈病例判定模块,用于根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述欺诈病例查找方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述欺诈病例查找方法的步骤。
本发明提供的欺诈病例查找方法、装置、电子设备与存储介质,通过从出院小结数据中抽取文本信息,并结合诊疗过程数据对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的欺诈病例查找方法的流程示意图;
图2是本发明提供的欺诈病例查找装置的示意图;
图3是本发明提供的电子设备的结构示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的欺诈病例查找方法、装置、电子设备与存储介质。
出院小结是指病人出院后,医生对于具体治疗的经过,出院时患者的基本病情状况所做出的简单总结。出院小结的基本信息包括住院号、入院情况、诊疗过程、出院情况和出院医嘱5个字段。出院小结用于描述病例本次就诊的主要诊疗经过、治疗原则及相应的病史、症状、体征,因此包含较多病例就诊的核心信息。
从临床医学的角度,出院小结中较为重要的信息包括查体信息、检查信息、治疗信息、麻醉与手术信息、诊断信息和出院情况六个方面,这些信息可从出院小结的各个字段中提取。出院小结数据与收费项目、病案首页等数据,都是对一次住院过程的描述,只是描述的侧重点各有不同。因此,这些数据之间是具有逻辑关联的。通过上述多方面信息之间的逻辑关联关系,可以发现不一致的地方,从而判断本次住院病例是否存在欺诈行为。
图1为本发明提供的欺诈病例查找方法的流程图,如图1所示,本发明提供的欺诈病例查找方法包括:
步骤101、获取第一病例的出院小结数据以及诊疗过程数据。
在本实施例中,第一病例是指采用本发明的方法进行欺诈病例查找的病例。第一病例可以是批量的多个病例,也可以是单个病例。在本实施例中,以第一病例为单个病例为例,对本发明提供的欺诈病例查找方法的实现过程进行说明。本领域技术人员很容易理解,若第一病例为多个病例,采用本发明提供的欺诈病例查找方法同样可以实现对多个病例中的欺诈病例的查找。
诊疗过程数据是指患者在诊疗过程中所发生的数据。诊疗过程数据有多种,在一个实施例中,诊疗过程数据包括主诊断数据;在另一个实施例中,诊疗过程数据包括费用明细数据;在又一个实施例中,诊疗过程数据同时包括主诊断数据与费用明细数据。
主诊断数据用于描述患者在一次就诊过程中所涉及的主要疾病的类型。主诊断数据可从患者的病案中获得。主诊断数据通常采用编码的方式表示,如用“i10.x07”表示单纯收缩期高血压。
费用明细数据用于描述患者在一次就诊过程中所缴纳费用的类型。例如,患者在就诊期间接受医疗服务所支付的费用的数据,患者在就诊期间购买药品所支付的费用的数据,患者在就诊期间购买或使用医疗器械所支付的费用的数据。
在本实施例中,费用明细数据通常采用费用所对应的药品、医疗器械和/或服务的编码表示。例如,费用明细数据中包括编码“H01090205000338201”,该编码表示患者在就诊期间购买了药品“阿格列汀”。
在本实施例中,可从医疗机构的数据库中获取第一病例的诊疗过程数据。
步骤102、从第一病例的出院小结数据中获取诊疗关键词组。
顾名思义,诊疗关键词是指与诊疗相关的词语。本领域技术人员很容易理解,不同类型的疾病,其对应的诊疗关键词是不一样的。例如,与高血压对应的诊疗关键词可以有“降血压”、“控制血压”等;与高血脂对应的诊疗关键词可以有“降脂”、“调节血脂”等。
因此,从第一病例的出院小结数据中所抽取的诊疗关键词可根据其所反映的疾病类型归纳到对应的诊疗关键词组中。若第一病例的出院小结数据中所抽取的诊疗关键词归属于同一类,那么根据第一病例的出院小结数据所得到的诊疗关键词组只有一个;若第一病例的出院小结数据中所抽取的诊疗关键词归属于不同类,那么根据第一病例的出院小结数据所得到的诊疗关键词组会有多个。
前文中提到,出院小结可包括住院号、入院情况、诊疗过程、出院情况和出院医嘱等多个字段,这些字段内各自包含有一定数量的文本信息,可从这些文本信息中抽取出诊疗关键词。
在本发明的其他实施例中,将对如何从第一病例的出院小结数据中抽取诊疗关键词组的具体实现过程进行说明。
步骤103、根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
在之前的描述中已经提到,在不同的实施例中,诊疗过程数据所包含的具体内容有所不同。
在一个实施例中,当诊疗过程数据包括主诊断数据时,根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,可包括以下步骤:
步骤a1、根据所述第一病例的诊疗关键词组,在所述第一对照关系表中查找对应的疾病类型数据;其中,所述第一对照关系表描述了诊疗关键词组与疾病类型数据之间的对应关系;第一对照关系表可由本领域技术人员根据先验知识确定。
步骤a2、将查找到的疾病类型数据与第一病例的主诊断数据进行比较,若查找到的疾病类型数据未包含第一病例的主诊断数据,确定所述第一病例为欺诈病例。
在前文中已经提到,第一病例的诊疗关键词组可以有一个或多个。当第一病例的诊疗关键词组有多个时,可在所述第一对照关系表中分别查找所述多个诊疗关键词组所对应的疾病类型数据,然后对查找到的多个疾病类型数据做交集,确定所述交集中是否包含第一病例的主诊断数据,若不包含,则认为第一病例为欺诈病例。
例如,已知第一病例的诊疗关键词组有两个,分别记为A和B。根据第一对照关系表,可知与诊疗关键词组A相对应的疾病类型数据包括x={x1,x2…,xn};与诊疗关键词组B相对应的疾病类型数据包括y={y1,y2,…,ym}。如果x与y的交集包括z={z1,z2…,zt},且z中未包含第一病例的主诊断数据所描述的疾病类型数据,则认为第一病例为欺诈病例。
在该实施例中,病例的出院小结的撰写较为规范,可直接将根据第一病例的出院小结所得到的诊疗关键词组,与第一病例的主诊断数据进行比较,根据比较结果确定第一病例是否为欺诈病例。
在另一个实施例中,当诊疗过程数据包括费用明细数据时,根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,可包括以下步骤:
步骤b1、根据第一病例的诊疗关键词组,在所述第二对照关系表中查找对应的费用明细数据;其中,所述第二对照关系表用于描述诊疗关键词组与费用明细数据之间的对应关系;第二对照关系表可由本领域技术人员根据先验知识确定。
步骤b2、将查找到的费用明细数据与第一病例的费用明细数据进行比较,若查找到的费用明细数据未包含第一病例的费用明细数据,则确定第一病例为欺诈病例。
在前文中已经提到,第一病例的诊疗关键词组可以有一个或多个。当第一病例的诊疗关键词组有多个时,可在所述第二对照关系表中分别查找所述多个诊疗关键词组所对应的费用明细数据,然后确定第一病例的费用明细数据是否包含在所述多个诊疗关键词组所对应的费用明细数据中,如果未包含,则认为第一病例为欺诈病例。若包含,则认为第一病例为正常病例,不存在欺诈的情况。
例如,已知第一病例的诊疗关键词组有两个,分别记为A和B。根据第二对照关系表,可知与诊疗关键词组A相对应的费用明细数据包括药品集合a的费用明细数据,所述药品集合a={a1,a2…,an};与诊疗关键词组B相对应的费用明细数据包括药品集合b的费用明细数据,所述药品集合b={b1,b2,…,bm}。如果第一病例的的费用明细数据中不包含集合a中的任意一个药品的费用数据或者不包含集合b中的任意一个药品的费用数据,则认为第一病例为欺诈病例。
在该实施例中,病例的出院小结的撰写较为规范,可直接将根据第一病例的出院小结所得到的诊疗关键词组,与第一病例的费用明细数据进行比较,根据比较结果确定第一病例是否为欺诈病例。
在又一个实施例中,当诊疗过程数据同时包括主诊断数据以及费用明细数据时,根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,可包括以下步骤:
步骤c1、根据第一病例的诊疗关键词组,在所述第一对照关系表中查找对应的疾病类型数据;
步骤c2、将查找到的疾病类型数据与第一病例的主诊断数据进行比较,若查找到的疾病类型数据包含第一病例的主诊断数据,则执行步骤c3,若查找到的疾病类型数据未包含第一病例的主诊断数据,则认为结果未定,结束流程。
在前文中已经提到,第一病例的诊疗关键词组可以有一个或多个。当第一病例的诊疗关键词组有多个时,可在所述第一对照关系表中分别查找所述多个诊疗关键词组所对应的疾病类型数据,然后对查找到的多个疾病类型数据做交集,确定所述交集中是否包含第一病例的主诊断数据,若包含,继续执行步骤c3,若不包含,则认为结果未定,结束流程。
步骤c3、根据第一病例的诊疗关键词组,在所述第二对照关系表中查找对应的费用明细数据;
步骤c4、将查找到的费用明细数据与第一病例的费用明细数据进行比较,若查找到的费用明细数据未包含第一病例的费用明细数据,则认为第一病例为欺诈病例。
在前文中已经提到,第一病例的诊疗关键词组可以有一个或多个。当第一病例的诊疗关键词组有多个时,可在所述第二对照关系表中分别查找所述多个诊疗关键词组所对应的费用明细数据,然后确定第一病例的费用明细数据是否包含在所述多个诊疗关键词组所对应的费用明细数据中,如果未包含,则认为第一病例为欺诈病例。若包含,则认为第一病例为正常病例,不存在欺诈的情况。
在该实施例中,针对目前多数医疗机构的现状是出院小结的撰写不够规范,出院小结质量不高的特点,需要综合第一病例的诊疗关键词组、第一病例的主诊断数据以及第一病例的费用明细数据,来确定第一病例是否为欺诈病例。只有当根据第一病例的诊疗关键词组所确定的疾病类型与第一病例的主诊断数据相符,且根据第一病例的诊疗关键词组所确定的费用明细与第一病例的费用明细数据不相符时,才会认为第一病例为欺诈病例。
本发明提供的欺诈病例查找方法通过从出院小结数据中抽取文本信息,并结合诊疗过程数据对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
基于上述任一实施例,在本实施例中,所述步骤102包括:
根据预先设置的诊疗关键词标准集,从所述第一病例的出院小结数据中获取诊疗关键词,得到第一病例的诊疗关键词组。
诊疗关键词标准集是本领域技术人员预先总结的诊疗关键词的集合,它包括了出院小结中可能包含的各种诊疗关键词,如已有的各种疾病的名称,已有的各种疾病的症状描述性词语,与已有各种疾病的治疗方法相关的描述性词语等。诊疗关键词标准集中的诊疗关键词可根据所对应疾病的类型进行分组,即诊疗关键词标准集包括多个诊疗关键词标准组。所述诊疗关键词标准组包含了某种疾病所对应的所有可能的关键词。
本领域技术人员很容易理解,诊疗关键词标准集所包含的诊疗关键词标准组门类齐全,一般可包括已有的各种疾病各自所对应的诊疗关键词标准组。
本步骤实现时,可对第一病例的出院小结数据进行分词操作,然后将分词结果与所述诊疗关键词标准集进行比较,若某一分词结果包含在诊疗关键词标准集中,则将该分词结果作为诊疗关键词抽取出来。抽取出来的诊疗关键词按照其在诊疗关键词标准集中所在的标准组进行区分,从而得到第一病例的诊疗关键词组。
本发明提供的欺诈病例查找方法通过预先设置的诊疗关键词标准集,从出院小结数据中抽取诊疗关键词,得到诊疗关键词组,并结合主诊断信息与费用信息,对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
基于上述任一实施例,在本实施例中,所述步骤102包括:
对所述第一病例的出院小结数据中的文本信息进行分词操作,得到多个词,利用预先训练的fastText模型得到所述多个词对应的词向量;
对所述的多个词以及对应的词向量进行诊疗关键词与非诊疗关键词的二分类处理,得到第一病例的诊疗关键词组。
在本实施例中,可采用预先训练的fastText模型为所述第一病例的出院小结数据中的文本信息的分词结果确定词向量。
所述fastText模型为子词嵌入模型,该模型创新之处在于考虑了词语的形态构成,即加入sub-word的信息。对于每一个单词w,拆分成字符n-gram进行表示,并且加入了尖括号<>在单词外面,即可以区分前缀和后缀。例如,假设子词长度为3个英文字符,那么单词“where”的子词包括“<wh”、“whe”、“her”、“ere”、“re>”以及特殊子词即整词“<where>”。又例如,对于中文词汇,可假设子词长度为2个中文字,那么中文词汇“控血脂”的子词包括“<控血”,“血脂”,“控血脂>”。
对于一个单词,其对应的子词集合通常为:子词长度在第一长度到第二长度之间的所有子词和特殊子词的并集。其中,在本实施例中,对于外文单词,第一长度为3,第二长度为6;对于中文单词,第一长度为1,第二长度为3。在其他实施例中,也可根据实际需要对第一长度与第二长度的具体取值进行调整。
在fastText模型的训练阶段计算scoring function的时候,当前单词的词向量用n-gram的向量的和来表示,对应的计算公式为:
其中,Gw表示单词w的子词集合;g为单词w的子词,即Gw中的任意词;Zg表示n-gram的向量。
由上述公式可以看出,单词w的词向量是w的子词集合中的词向量的和。
单词w与其上下文c之间的相关性,可根据以下评分函数计算得到:
其中,c表示单词w的上下文;vc表示词c的向量。
由上述公式可得到以单词c作为单词w的上下文的得分。
基于以上内容,利用样本数据可实现对fastText模型的训练。
将第一病例的出院小结数据中的文本信息进行分词操作,得到多个词后,将所述多个词输入预先训练的fastText模型,可得到所述多个词的词向量。
将这些多个词以及对应的词向量输入预先训练的随机梯度下降(SGD)分类器中,由该分类器将所述多个词划分为两类,将其中的一类作为诊疗关键词。在本实施例中,还可对所得到的诊疗关键词做进一步的分类,确定诊疗关键词所在的诊疗关键词组。
本实施例中所采用的fastText模型在大量数据的应用场景下具有训练速度快的优点。与已有的深度模型相比,fastText模型能将训练时间由数天缩短到几秒钟。fastText模型在使用标准多核CPU的情况下,能在10分钟内处理超过10亿个词汇,还能在五分钟内将50万个句子分成超过30万个类别。
本发明提供的欺诈病例查找方法通过fastText模型对所述第一病例的出院小结数据中的文本信息进行分词操作,得到多个词以及对应的词向量,通过SGD分类器对多个词以及对应的词向量进行诊疗关键词与非诊疗关键词的二分类处理,得到诊疗关键词,并结合主诊断信息与费用信息,对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
基于上述任一实施例,在本实施例中,所述步骤102包括:
将第一病例的出院小结数据中的文本信息输入诊疗关键词识别模型中,得到诊疗关键词组。
在本实施例中,诊疗关键词识别模型通过命名实体识别(NER,Named EntityRecognition)的方式来确定诊疗关键词。命名实体识别的标注方式有多种,在本实施例中,可以采用BIO标注方式。在该标注方式中,B,即Begin,表示开始;I,即Intermediate,表示中间;O,即Other,表示其他,用于标记无关字符。例如,对于“给予降压及对症治疗”这句话进行BIO标注(假设其中的“降压”为诊疗关键词),标注结果为:[O,O,B_NER,I-NER,O,O,O,O,O]。根据该标注结果,可确定该语句中的诊疗关键词为第3个字与第4个字组成的词“降压”。
由上述描述可以知道,诊疗关键词识别模型根据输入的句子,预测所述句子的标注序列,根据句子的标注序列确定句子中的诊疗关键词。在确定诊疗关键词后,将诊疗关键词与预先设置的知识库进行比对,可确定诊疗关键词所在的诊疗关键词组。
在本实施例中,诊疗关键词识别模型是通过对BERT(Bidirectional EncoderRepresentations from Transformers,基于Transformer模型的双向编码器表征)预训练模型进行微调(fine-tuning)得到的。
在现有技术中,已经有十分成熟的BERT预训练模型。在本实施例中,可在已有的BERT预训练模型的基础上,添加全连接层,经过softmax输出三个维度,分别为作为B/I/O的概率,取最高的概率作为输出结果。
在对诊疗关键词识别模型进行训练时,可利用已有的BERT预训练模型的参数初始化诊疗关键词识别模型,然后采用样本出院小结数据对诊疗关键词识别模型进行训练,在训练过程中不断调整模型中的参数,直至模型的损失函数值趋于稳定,训练完成。
本发明提供的欺诈病例查找方法通过机器学习的方式确定诊疗关键词组,并结合主诊断信息与费用信息,对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
下面对本发明提供的欺诈病例查找装置进行描述,下文描述的欺诈病例查找装置与上文描述的欺诈病例查找方法可相互对应参照。
图2为本发明提供的欺诈病例查找装置的示意图,如图2所示,本发明提供的欺诈病例查找装置,包括:
数据获取模块201,用于获取第一病例的出院小结数据以及诊疗过程数据;
诊疗关键词组生成模块202,用于从所述第一病例的出院小结数据中获取诊疗关键词组;
欺诈病例判定模块203,用于根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
本发明提供的欺诈病例查找装置通过从出院小结数据中抽取文本信息,并结合诊疗过程数据对病例进行核查,利用数据之间的逻辑关联可发现欺诈病例,提高欺诈病例识别的准确度。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行欺诈病例查找方法,该方法包括:
获取第一病例的出院小结数据以及诊疗过程数据;
从所述第一病例的出院小结数据中获取诊疗关键词组;
根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的欺诈病例查找方法,该方法包括:
获取第一病例的出院小结数据以及诊疗过程数据;
从所述第一病例的出院小结数据中获取诊疗关键词组;
根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的欺诈病例查找方法,该方法包括:
获取第一病例的出院小结数据以及诊疗过程数据;
从所述第一病例的出院小结数据中获取诊疗关键词组;
根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种欺诈病例查找方法,其特征在于,包括:
获取第一病例的出院小结数据以及诊疗过程数据;
从所述第一病例的出院小结数据中获取诊疗关键词组;
根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例;
所述诊疗过程数据包括主诊断数据以及费用明细数据;其中,所述主诊断数据描述了患者在一次就诊过程中所涉及的主要疾病的类型;所述费用明细数据用于描述患者在一次就诊过程中所缴纳费用的类型;
相应的,所述根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,包括:
根据所述第一病例的诊疗关键词组,在第一对照关系表中查找对应的疾病类型数据;其中,所述第一对照关系表描述了诊疗关键词组与疾病类型数据之间的对应关系;
将查找到的疾病类型数据与第一病例的主诊断数据进行比较,若查找到的疾病类型数据包含第一病例的主诊断数据,继续执行下一步;
根据第一病例的诊疗关键词组,在第二对照关系表中查找对应的费用明细数据;其中,所述第二对照关系表用于描述诊疗关键词组与费用明细数据之间的对应关系;
将查找到的费用明细数据与第一病例的费用明细数据进行比较,若查找到的费用明细数据未包含第一病例的费用明细数据,则确定第一病例为欺诈病例。
2.根据权利要求1所述的欺诈病例查找方法,其特征在于,所述从所述第一病例的出院小结数据中获取诊疗关键词组,包括:
根据预先设置的诊疗关键词标准集,从所述第一病例的出院小结数据中获取诊疗关键词,得到第一病例的诊疗关键词组;其中,所述诊疗关键词标准集包括出院小结中能够包含的各种诊疗关键词。
3.根据权利要求1所述的欺诈病例查找方法,其特征在于,所述从所述第一病例的出院小结数据中获取诊疗关键词组,包括:
对所述第一病例的出院小结数据中的文本信息进行分词操作,得到多个词,利用预先训练的fastText模型得到所述多个词对应的词向量;
对所述的多个词以及对应的词向量进行诊疗关键词与非诊疗关键词的二分类处理,得到第一病例的诊疗关键词组。
4.根据权利要求1所述的欺诈病例查找方法,其特征在于,所述从所述第一病例的出院小结数据中获取诊疗关键词组,包括:
将第一病例的出院小结数据中的文本信息输入诊疗关键词识别模型中,得到诊疗关键词组;其中,
所述诊疗关键词识别模型是在BERT预训练模型的基础上添加全连接层,并基于样本出院小结数据训练得到的。
5.一种欺诈病例查找装置,其特征在于,包括:数据获取模块,用于获取第一病例的出院小结数据以及诊疗过程数据;
诊疗关键词组生成模块,用于从所述第一病例的出院小结数据中获取诊疗关键词组;
欺诈病例判定模块,用于根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例;
所述诊疗过程数据包括主诊断数据以及费用明细数据;其中,所述主诊断数据描述了患者在一次就诊过程中所涉及的主要疾病的类型;所述费用明细数据用于描述患者在一次就诊过程中所缴纳费用的类型;
相应的,所述根据第一病例的诊疗关键词组、第一病例的诊疗过程数据,确定所述第一病例是否为欺诈病例,包括:
根据所述第一病例的诊疗关键词组,在第一对照关系表中查找对应的疾病类型数据;其中,所述第一对照关系表描述了诊疗关键词组与疾病类型数据之间的对应关系;
将查找到的疾病类型数据与第一病例的主诊断数据进行比较,若查找到的疾病类型数据包含第一病例的主诊断数据,继续执行下一步;
根据第一病例的诊疗关键词组,在第二对照关系表中查找对应的费用明细数据;其中,所述第二对照关系表用于描述诊疗关键词组与费用明细数据之间的对应关系;
将查找到的费用明细数据与第一病例的费用明细数据进行比较,若查找到的费用明细数据未包含第一病例的费用明细数据,则确定第一病例为欺诈病例。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述欺诈病例查找方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述欺诈病例查找方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276348.3A CN113139875B (zh) | 2021-03-15 | 2021-03-15 | 欺诈病例查找方法、装置、电子设备与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276348.3A CN113139875B (zh) | 2021-03-15 | 2021-03-15 | 欺诈病例查找方法、装置、电子设备与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139875A CN113139875A (zh) | 2021-07-20 |
CN113139875B true CN113139875B (zh) | 2023-01-10 |
Family
ID=76811080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110276348.3A Active CN113139875B (zh) | 2021-03-15 | 2021-03-15 | 欺诈病例查找方法、装置、电子设备与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139875B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523399A (zh) * | 2018-10-27 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 一种医疗数据处理方法、装置、设备及存储介质 |
CN109523265A (zh) * | 2018-10-16 | 2019-03-26 | 易保互联医疗信息科技(北京)有限公司 | 医保结算全流程自动审核方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779407B2 (en) * | 2014-08-08 | 2017-10-03 | Brighterion, Inc. | Healthcare fraud preemption |
CN108898316A (zh) * | 2018-07-02 | 2018-11-27 | 平安健康保险股份有限公司 | 理赔费用预警方法及系统 |
CN109685672A (zh) * | 2018-12-13 | 2019-04-26 | 平安医疗健康管理股份有限公司 | 异常就诊的识别方法、装置、终端及计算机可读存储介质 |
CN111339126B (zh) * | 2020-02-27 | 2023-02-07 | 平安医疗健康管理股份有限公司 | 医疗数据筛选方法、装置、计算机设备和存储介质 |
CN111429289B (zh) * | 2020-03-23 | 2023-03-24 | 平安医疗健康管理股份有限公司 | 单病种识别方法、装置、计算机设备和存储介质 |
CN111128394B (zh) * | 2020-03-26 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 医疗文本语义识别方法、装置、电子设备及可读存储介质 |
CN111710412B (zh) * | 2020-05-29 | 2023-07-25 | 北京百度网讯科技有限公司 | 诊断结果的校验方法、装置及电子设备 |
-
2021
- 2021-03-15 CN CN202110276348.3A patent/CN113139875B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523265A (zh) * | 2018-10-16 | 2019-03-26 | 易保互联医疗信息科技(北京)有限公司 | 医保结算全流程自动审核方法及系统 |
CN109523399A (zh) * | 2018-10-27 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 一种医疗数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113139875A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9606990B2 (en) | Cognitive system with ingestion of natural language documents with embedded code | |
US10275576B2 (en) | Automatic medical coding system and method | |
US8538745B2 (en) | Creating a terms dictionary with named entities or terminologies included in text data | |
JP5065420B2 (ja) | ウェブ・サービス定義の品質を事前評価および精密化するための方法、システム、およびコンピュータ読み取り可能媒体 | |
CN110162782B (zh) | 基于医学词典的实体提取方法、装置、设备及存储介质 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
WO2020211250A1 (zh) | 中文病历的实体识别方法、装置、设备及存储介质 | |
Barrows Jr et al. | Limited parsing of notational text visit notes: ad-hoc vs. NLP approaches. | |
CN112017744A (zh) | 电子病例自动生成方法、装置、设备及存储介质 | |
CN111144112A (zh) | 文本相似度分析方法、装置和存储介质 | |
CN116911300A (zh) | 语言模型预训练方法、实体识别方法和装置 | |
JP5392120B2 (ja) | 情報処理装置、判定プログラム及び判定方法 | |
CN116741333B (zh) | 一种医药营销管理系统 | |
CN113139875B (zh) | 欺诈病例查找方法、装置、电子设备与存储介质 | |
CN117151102A (zh) | 一种基于本地路径增强的中医药文档级关系抽取方法、系统、电子设备及介质 | |
Jung et al. | Building a specialized lexicon for breast cancer clinical trial subject eligibility analysis | |
Orasmaa et al. | Named entity recognition in Estonian 19th century parish court records | |
CN116757207A (zh) | 基于人工智能的icd自动编码方法及相关设备 | |
CN114155957A (zh) | 文本确定方法、装置、存储介质及电子设备 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
KR101879309B1 (ko) | 관형격조사를 이용한 유정명사 추출 방법 및 장치 | |
Nagaraj et al. | Automatic Correction of Text Using Probabilistic Error Approach | |
KR101879311B1 (ko) | 접속조사를 이용한 유정명사 추출 방법 및 장치 | |
Dawson et al. | The Role of Unstructured Data in Healthcare Analytics | |
WO2023015333A1 (en) | Dynamic dictionary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |