CN113360671B - 一种基于知识图谱的医保医疗单据审核方法及其系统 - Google Patents

一种基于知识图谱的医保医疗单据审核方法及其系统 Download PDF

Info

Publication number
CN113360671B
CN113360671B CN202110663612.9A CN202110663612A CN113360671B CN 113360671 B CN113360671 B CN 113360671B CN 202110663612 A CN202110663612 A CN 202110663612A CN 113360671 B CN113360671 B CN 113360671B
Authority
CN
China
Prior art keywords
medical insurance
knowledge
medical
network
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110663612.9A
Other languages
English (en)
Other versions
CN113360671A (zh
Inventor
俞山青
张建林
甘燃
童天航
傅晨波
宣琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110663612.9A priority Critical patent/CN113360671B/zh
Publication of CN113360671A publication Critical patent/CN113360671A/zh
Application granted granted Critical
Publication of CN113360671B publication Critical patent/CN113360671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Biophysics (AREA)
  • Technology Law (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种基于知识图谱的医保医疗单据审核方法,包括:1)设计医保审核知识图谱本体图;2)预训练医保政策文本的字向量;3)使用医保政策文本构造句法依存网络;4)将句法依存网络输入到图卷积层获取依存关系维度的词嵌入特征;5)聚合词向量与字向量的特征,输入到序列标注层获取实体;6)使用关系抽取算法连接实体并设置关系的时空属性,构建知识四元组;7)医保政策动态更新。本发明还包括一种基于知识图谱的医保医疗单据审核系统。本发明能够对就医行为进行智能审核,有效降低审核规则库更新维护的成本,降低审核过程对专业人员的依赖,提高医保审核效率,推进智能化医保审核系统的建设。

Description

一种基于知识图谱的医保医疗单据审核方法及其系统
技术领域
本发明涉及一种医保医疗单据审核方法及其系统。
背景技术
医保审核是通过审核规则对定点医疗机构医保费用单据进行支付政策性、诊疗合理性、临床规范性和医疗行为异常审核,规范医疗机构医疗行为,提升医疗服务质量,促进医疗机构自我管理,有效控制医疗费用增长。现阶段医保审核的工作,一般采用较为粗放的人工审核方法。医保审核的工作量巨大,一天的医保报销单据就多达数十万张,审核一张单据就需要很长时间,一般地级市医保中心也只有20-30人的人员配置,这显然是无法满足大量单据的审核需求,因此现阶段一般采用抽查的方式进行单据审核,无法对每一张单据进行及时、正确的审核。此外,一些地区开始借助信息化的力量,构建医保智能审核系统,但是其核心功能还是集中在基于规则的审核上,智能化水平依然较低,具体存在以下问题:
1.医保数据分散,无法通过大数据发现异常就医行为。
2.医保审核规则单一,更新成本高、频率低,审核过程依然需要较多的全人工操作,且对操作的人员的专业素养要求较高,人力不足,效率较低,报销支付周期漫长。
发明内容
本发明要解决现有技术中存在的上述技术问题,提出了一种基于知识图谱的医保医疗单据审核方法及其系统。
本发明能够利用知识图谱技术自动抽取医保政策中的医保知识与医疗文本中的医疗知识,对就医行为进行智能审核,有效降低审核规则库更新维护的成本,降低审核过程对专业人员的依赖,提高医保审核效率,推进智能化医保审核系统的建设。
本发明的一种基于知识图谱的医保医疗单据审核方法,包括如下步骤:
1)设计医保审核知识图谱本体图。针对不同医保政策之间的差异性,采用知识图谱本体进行抽象概括,例如参保对象、医保类型、医院等级、地点等。此外,医保政策限定的内容过于宽泛,如杭州市基本医疗保障办法规定其医保支付的范围仅限于浙江省社会保险行政部门规定的基本医疗保险药品目录、医疗服务项目范围和大病保险特殊药品目录,但并未说明药品目录详情。因此医保知识图谱还包括了医疗知识数据,即抽象了“检查方式”,“疾病”,“药物”,“症状”等本体,为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品等异常就医行为提供审核依据。
2)构建医保政策句法依存网络。对于医保政策和医疗知识图谱文本中的句子,首先对其进行句法依存分析,并将其转化为对应的网络
Figure GDA0003479250950000021
其中,
Figure GDA0003479250950000022
表示第i个医疗文本序列对应的图网络,V表示网络的词汇节点,E表示图网络词汇节点之间的依存关系,如定中、主谓、动宾等。
3)获取依存关系为度的词嵌入特征。基于图网络结构,构建对应的邻接矩阵
Figure GDA0003479250950000031
通过以下公式来聚合不同词汇节点之间的特征:
Figure GDA0003479250950000032
其中
Figure GDA0003479250950000033
表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵,W,b表示网络的训练参数,D表示矩阵
Figure GDA0003479250950000034
的度值矩阵,
Figure GDA0003479250950000035
I为单位矩阵,
Figure GDA0003479250950000036
为输入到模型第l层的词汇的初始特征矩阵,σ为非线性激活函数。
4)聚合词向量与字向量的特征,输入到序列标注层获取实体。把文本预训练好的字向量ec和该字符所在分词的所有一阶词向量ew聚合起来,具体的聚合方式如下:
Figure GDA0003479250950000037
其中S是句法依存网络中字向量ec所在分词的一阶词向量的集合,其中
Figure GDA0003479250950000038
是集合S中的元素,n是一阶词向量的数量,λ是平衡两种向量权重的超参,λ∈[0,1]。
将聚合后的特征e输入到双向神经网络中,提取文本上下文之间的依赖关系。最终,模型的输出为
Figure GDA0003479250950000039
其中
Figure GDA00034792509500000310
表示正向神经网络模型的输出,
Figure GDA00034792509500000311
表示逆向神经网络的输出。
对hi进行序列标注来抽取实体,即给定一组输入序列条件下另一组输出序列的概率,具体公式如下:
Figure GDA00034792509500000312
y=(y1,y2,…yT) (4)
其中,y表示模型预测的标签。P表示模型输出的分数矩阵,形状为T×k,T表示输入文本序列的长度,k表示预测的标签数量,Pij表示第i个汉字预测的第j个标签的得分。A表示转移分数矩阵,Aij表示第i个标签到第j个标签的转移分数。
最后经softmax层得到所有可能的标签序列的概率,在训练中需要最大化正确标签序列的对数概率,具体公式如下:
log (p(y∣X))=s(X,y)-log add(s(X,y)) (5)
其中,p(y∣X)表示所有可能的标签序列概率,log add表示对数求和。最终经过序列标注层得到输入文本的序列标签,然后将其组合得到文本中的实体。
5)使用关系抽取算法连接实体并设置关系的时空属性,构建知识四元组,采用的知识图谱建模方式是:得到实体后使用关系抽取方法创建实体之间的关系,并且将知识图谱图谱存储于neo4j图数据库中。对于每份医保政策文件,在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组,具体格式为行政区号_政策生效的时间戳,即(头实体,关系,尾实体,行政区号_政策生效的时间戳)。该知识图谱建模方式可以高效的定位和更新医保政策知识,并可以在neo4j中使用关系属性来实现存储。
6)医保政策动态更新。对于新发布了新的医保政策,可以将医保政策文件添加到医保审核知识图谱中进行动态实时更新。首先根据当前地点的行政区号快速定位到医保政策知识的四元组,如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖,使得医保知识图谱中实时保留最新的医疗规则。
7)医疗单据审核。对于医疗单据,需要将单据中的信息识别出来形成结构化数据,即用户的基本信息网络以及就医过程网络。该网络主要包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成,不同实体之间存在对应的关系。然后根据当地医院的审核流程定义审核规则,审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。
首先,判断患者身份与医保类型是否对应;然后根据患者就诊医院信息在医保知识图谱中搜索医院地点以及医院等级信息,判断当前地点是否在医保报销范围内,进一步的,根据医院等级得出此次就医行为的报销比例,依据是否由社区医院转诊确定此次医保的起付标准;进一步的,根据患者症状与检查方式之间的对应关系以及检查方式自身的性别、年龄等限制条件判断检查方式是否合规,然后根据检查结果、症状综合判断此次确诊疾病是否合规;进一步的,根据疾病与药物之间的对应关系以及药物自身的限制条件判断用药是否合规;最后根据报销比例和起付标准判断此次的报销金额是否合规,审核过程结束。
参照图1所示,本实施例还提供了一种医疗单据审核装置,具体包括:依次连接的医保审核知识图谱的数据收集模块、医保知识图谱构建模块、医保规则动态更新模块以及审核模块;
所述数据收集模块,用于收集爬取网络中的医保政策文件和医疗知识文本,并设计医保审核知识图谱本体图。
所述医保知识图谱构建模块用于将文本转换为句法依存网络并输入到图卷积层中获取词嵌入特征;然后与文本预训练好的字向量进行聚合,输入到序列标注层获取实体。将实体使用关系抽取算法进行连接并设置关系的时空属性,构建知识四元组。
所述医保规则动态更新模块用于动态更新所述知识图谱构建模块中所储存的知识。
所述审核模块用于医疗单据的审核。具体为:将医疗单据转换为就医过程网络,然后根据当地医院的审核流程定义审核规则实时查询医保审核知识图谱进行审核。
本发明针对医保政策和医疗知识文本,提出了一种知识图谱实体抽取方法,能够使用文本的句法依存信息来提高实体抽取的精度。将医保政策文件和医疗知识进行自动抽取形成医保知识图谱,并通过医保审核知识图谱审核医疗单据,发现异常就医行为。同时设计了一种新的知识图谱数据组织形式,使得知识图谱中的三元组动态扩展了时间特性和空间特性,实现了知识图谱的高效检索和动态更新。
本发明的优点是:能够对就医行为进行智能审核,有效降低审核规则库更新维护的成本,降低审核过程对专业人员的依赖,提高医保审核效率,推进智能化医保审核系统的建设。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统结构示意图;
图2为本发明的医保知识图谱构建流程。
图3为本发明的医保知识图谱的本体图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明要克服现有技术的上述缺点,提供一种医保知识图谱构建方法以及医疗单据审核系统。
1)设计医保审核知识图谱本体图。针对不同医保政策之间的差异性,采用知识图谱本体进行抽象概括,例如参保对象、医保类型、医院等级、地点等。此外,医保政策限定的内容过于宽泛,如杭州市基本医疗保障办法规定其医保支付的范围仅限于浙江省社会保险行政部门规定的基本医疗保险药品目录、医疗服务项目范围和大病保险特殊药品目录,但并未说明药品目录详情。因此医保知识图谱还包括了医疗知识数据,即抽象了“检查方式”,“疾病”,“药物”,“症状”等本体,为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品等异常就医行为提供审核依据。
2)构建医保政策句法依存网络。对于医保政策和医疗知识图谱文本中的句子,首先对其进行句法依存分析,并将其转化为对应的网络
Figure GDA0003479250950000081
其中,
Figure GDA0003479250950000082
表示第i个医疗文本序列对应的图网络,V表示网络的词汇节点,E表示图网络词汇节点之间的依存关系,如定中、主谓、动宾等。
3)获取依存关系为度的词嵌入特征。基于图网络结构,构建对应的邻接矩阵
Figure GDA0003479250950000083
通过以下公式来聚合不同词汇节点之间的特征:
Figure GDA0003479250950000084
其中
Figure GDA0003479250950000085
表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵,W,b表示网络的训练参数,D表示矩阵
Figure GDA0003479250950000086
的度值矩阵,
Figure GDA0003479250950000087
I为单位矩阵,
Figure GDA0003479250950000088
为输入到模型第l层的词汇的初始特征矩阵,σ为非线性激活函数。
4)聚合词向量与字向量的特征,输入到序列标注层获取实体。把文本预训练好的字向量ec和该字符所在分词的所有一阶词向量ew聚合起来,具体的聚合方式如下:
Figure GDA0003479250950000089
其中S是句法依存网络中字向量ec所在分词的一阶词向量的集合,其中
Figure GDA00034792509500000810
是集合S中的元素,n是一阶词向量的数量,λ是平衡两种向量权重的超参,λ∈[0,1]。
将聚合后的特征e输入到双向神经网络中,提取文本上下文之间的依赖关系。最终,模型的输出为
Figure GDA0003479250950000091
其中
Figure GDA0003479250950000092
表示正向神经网络模型的输出,
Figure GDA0003479250950000093
表示逆向神经网络的输出。
对hi进行序列标注来抽取实体,即给定一组输入序列条件下另一组输出序列的概率,具体公式如下:
Figure GDA0003479250950000094
y=(y1,y2,…yT) (4)
其中,y表示模型预测的标签。P表示模型输出的分数矩阵,形状为T×k,T表示输入文本序列的长度,k表示预测的标签数量,Pij表示第i个汉字预测的第j个标签的得分。A表示转移分数矩阵,Aij表示第i个标签到第j个标签的转移分数。
最后经softmax层得到所有可能的标签序列的概率,在训练中需要最大化正确标签序列的对数概率,具体公式如下:
log (p(y∣X))=s(X,y)-log add(s(X,y)) (5)
其中,p(y∣X)表示所有可能的标签序列概率,log add表示对数求和。最终经过序列标注层得到输入文本的序列标签,然后将其组合得到文本中的实体。
5)使用关系抽取算法连接实体并设置关系的时空属性,构建知识四元组,采用的知识图谱建模方式是:得到实体后使用关系抽取方法创建实体之间的关系,并且将知识图谱图谱存储于neo4j图数据库中。对于每份医保政策文件,在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组,具体格式为行政区号_政策生效的时间戳,即(头实体,关系,尾实体,行政区号_政策生效的时间戳),如(市区少年儿童,筹资标准,650元,0571_1577116800)。该知识图谱建模方式可以高效的定位和更新医保政策知识,并可以在neo4j中使用关系属性来实现存储。
6)医保政策动态更新。使用新医保政策文件对医保审核知识图谱进行动态实时更新;首先根据当前地点的行政区号快速定位到医保政策知识的四元组,如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖,使得医保知识图谱中实时保留最新的医疗规则;
7)医疗单据审核。对于医疗单据,需要将单据中的信息识别出来形成结构化数据,即用户的基本信息网络以及就医过程网络。该网络主要包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成,不同实体之间存在对应的关系。然后根据当地医院的审核流程定义审核规则,审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。
首先,判断患者身份与医保类型是否对应;然后根据患者就诊医院信息在医保知识图谱中搜索医院地点以及医院等级信息,判断当前地点是否在医保报销范围内,进一步的,根据医院等级得出此次就医行为的报销比例,依据是否由社区医院转诊确定此次医保的起付标准;进一步的,根据患者症状与检查方式之间的对应关系以及检查方式自身的性别、年龄等限制条件判断检查方式是否合规,然后根据检查结果、症状综合判断此次确诊疾病是否合规;进一步的,根据疾病与药物之间的对应关系以及药物自身的限制条件判断用药是否合规;最后根据报销比例和起付标准判断此次的报销金额是否合规,审核过程结束。
参照图1所示,本实施例还提供了一种医疗单据审核装置,具体包括:依次连接的医保审核知识图谱的数据收集模块、医保知识图谱构建模块、医保规则动态更新模块以及审核模块;
所述数据收集模块,用于收集爬取网络中的医保政策文件和医疗知识文本,并设计医保审核知识图谱本体图,具体包括:针对不同医保政策之间的差异性,采用知识图谱本体进行抽象概括,包括参保对象、医保类型、医院等级、地点。医保知识图谱还包括了药品目录详情的医疗知识数据,抽象了“检查方式”,“疾病”,“药物”,“症状”的本体,为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品的异常就医行为提供审核依据。
所述医保知识图谱构建模块用于将文本转换为句法依存网络并输入到图卷积层中获取词嵌入特征;然后与文本预训练好的字向量进行聚合,输入到序列标注层获取实体。将实体使用关系抽取算法进行连接并设置关系的时空属性,构建知识四元组。包括:
医保政策句法依存网络构建子模块,具体包括:对于医保政策和医疗知识图谱文本中的句子,首先对其进行句法依存分析,并将其转化为对应的网络
Figure GDA0003479250950000111
其中,
Figure GDA0003479250950000112
表示第i个医疗文本序列对应的图网络,V表示网络的词汇节点,E表示图网络词汇节点之间的依存关系。
词嵌入特征获取子模块,具体包括:基于图网络结构,构建对应的邻接矩阵
Figure GDA0003479250950000121
通过以下公式来聚合不同词汇节点之间的特征:
Figure GDA0003479250950000122
其中
Figure GDA0003479250950000123
表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵,W,b表示网络的训练参数,D表示矩阵
Figure GDA0003479250950000124
的度值矩阵,
Figure GDA0003479250950000125
I为单位矩阵,
Figure GDA0003479250950000126
为输入到模型第l层的词汇的初始特征矩阵,σ为非线性激活函数。
实体获取子模块,具体包括:把文本预训练好的字向量ec和该字符所在分词的所有一阶词向量ew聚合起来,具体的聚合方式如下:
Figure GDA0003479250950000127
其中S是句法依存网络中字向量ec所在分词的一阶词向量的集合,其中
Figure GDA0003479250950000128
是集合S中的元素,n是一阶词向量的数量,λ是平衡两种向量权重的超参,λ∈[0,1]。
将聚合后的特征e输入到双向神经网络中,提取文本上下文之间的依赖关系。最终,模型的输出为
Figure GDA0003479250950000129
其中
Figure GDA00034792509500001210
表示正向神经网络模型的输出,
Figure GDA00034792509500001211
表示逆向神经网络的输出。
对hi进行序列标注来抽取实体,即给定一组输入序列条件下另一组输出序列的概率,具体公式如下:
Figure GDA00034792509500001212
y=(y1,y2,…yT) (4)
其中,y表示模型预测的标签。P表示模型输出的分数矩阵,形状为T×k,T表示输入文本序列的长度,k表示预测的标签数量,Pij表示第i个汉字预测的第j个标签的得分。A表示转移分数矩阵,Aij表示第i个标签到第j个标签的转移分数。
最后经softmax层得到所有可能的标签序列的概率,在训练中需要最大化正确标签序列的对数概率,具体公式如下:
log (p(y∣X))=s(X,y)-log add(s(X,y)) (5)
其中,p(y∣X)表示所有可能的标签序列概率,log add表示对数求和。最终经过序列标注层得到输入文本的序列标签,然后将其组合得到文本中的实体。
知识四元组构建子模块,具体包括:得到实体后使用关系抽取方法创建实体之间的关系,并且将知识图谱图谱存储于neo4j图数据库中。对于每份医保政策文件,在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组,具体格式为行政区号_政策生效的时间戳,即头实体,关系,尾实体,行政区号_政策生效的时间戳。该知识图谱建模方式能定位和更新医保政策知识,并能在neo4j中使用关系属性来实现存储。
所述医保规则动态更新模块用于动态更新所述知识图谱构建模块中所储存的知识。首先根据当前地点的行政区号快速定位到医保政策知识的四元组,如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖,使得医保知识图谱中实时保留最新的医疗规则。
所述审核模块审核医疗单据,将医疗单据转换为就医过程网络,然后根据当地医院的审核流程定义审核规则实时查询医保审核知识图谱进行审核。对于医疗单据,需要将单据中的信息识别出来形成结构化数据,即用户的基本信息网络以及就医过程网络。该网络包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成,不同实体之间存在对应的关系。然后根据当地医院的审核流程定义审核规则,审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。
本发明所述系统将医疗领域的医保政策和医疗知识关联起来形成知识图谱,便于知识存储以及查询。并提出了一种句法依存网络构建方法提高了医疗领域的医保政策和医疗知识实体抽取的精度。此外,在构建知识图谱时,该系统对每个三元组中关系实体都动态维护时间特性和空间特性,实现了医保政策知识的快速定位和动态更新。该系统能够对就医行为进行智能审核,有效降低审核规则库更新维护的成本,降低审核过程对专业人员的依赖,提高医保审核效率,推进智能化医保审核系统的建设。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (4)

1.一种基于知识图谱的医保医疗单据审核方法,包括如下步骤:
1)设计医保审核知识图谱本体图;针对不同医保政策之间的差异性,采用知识图谱本体进行抽象概括,包括参保对象、医保类型、医院等级、地点;医保知识图谱还包括了药品目录详情的医疗知识数据,抽象了“检查方式”,“疾病”,“药物”,“症状”的本体,为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品的异常就医行为提供审核依据;
2)构建医保政策句法依存网络;对于医保政策和医疗知识图谱文本中的句子,首先对其进行句法依存分析,并将其转化为对应的网络
Figure FDA0003473886070000011
其中,
Figure FDA0003473886070000012
表示第i个医疗文本序列对应的图网络,V表示网络的词汇节点,E表示图网络词汇节点之间的依存关系;
3)获取依存关系为度的词嵌入特征;基于图网络结构,构建对应的邻接矩阵
Figure FDA0003473886070000013
通过以下公式来聚合不同词汇节点之间的特征:
Figure FDA0003473886070000014
其中
Figure FDA0003473886070000015
表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵,W,b表示网络的训练参数,D表示矩阵
Figure FDA0003473886070000016
的度值矩阵,
Figure FDA0003473886070000017
I为单位矩阵,
Figure FDA0003473886070000018
为输入到模型第l层的词汇的初始特征矩阵,σ为非线性激活函数;
4)聚合词向量与字向量的特征,输入到序列标注层获取实体;把文本预训练好的字向量ec和该字符所在分词的所有一阶词向量ew聚合起来,具体的聚合方式如下:
Figure FDA0003473886070000019
其中S是句法依存网络中字向量ec所在分词的一阶词向量的集合,其中
Figure FDA0003473886070000021
是集合S中的元素,n是一阶词向量的数量,λ是平衡两种向量权重的超参,λ∈[0,1];
将聚合后的特征e输入到双向神经网络中,提取文本上下文之间的依赖关系;最终,模型的输出为
Figure FDA0003473886070000022
其中
Figure FDA0003473886070000023
表示正向神经网络模型的输出,
Figure FDA0003473886070000024
表示逆向神经网络的输出;
对hi进行序列标注来抽取实体,即给定一组输入序列条件下另一组输出序列的概率,具体公式如下:
Figure FDA0003473886070000025
y=(y1,y2,...yT) (4)
其中,y表示模型预测的标签;P表示模型输出的分数矩阵,形状为T×k,T表示输入文本序列的长度,k表示预测的标签数量,Pij表示第i个汉字预测的第j个标签的得分;A表示转移分数矩阵,Aij表示第i个标签到第j个标签的转移分数;
最后经softmax层得到所有可能的标签序列的概率,在训练中需要最大化正确标签序列的对数概率,具体公式如下:
log(p(y|X))=s(X,y)-log add(s(X,y)) (5)
其中,p(y|X)表示所有可能的标签序列概率,log add表示对数求和;最终经过序列标注层得到输入文本的序列标签,然后将其组合得到文本中的实体;
5)使用关系抽取算法连接实体并设置关系的时空属性,构建知识四元组,采用的知识图谱建模方式是:得到实体后使用关系抽取方法创建实体之间的关系,并且将知识图谱图谱存储于neo4j图数据库中;对于每份医保政策文件,在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组,具体格式为行政区号_政策生效的时间戳,即头实体,关系,尾实体,行政区号_政策生效的时间戳,能定位和更新医保政策知识,并能在neo4j中使用关系属性来实现存储;
6)医保政策动态更新;使用新医保政策文件对医保审核知识图谱进行动态实时更新;首先根据当前地点的行政区号快速定位到医保政策知识的四元组,如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖,使得医保知识图谱中实时保留最新的医疗规则;
7)医疗单据审核;对于医疗单据,需要将单据中的信息识别出来形成结构化数据,即用户的基本信息网络以及就医过程网络;该网络包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成,不同实体之间存在对应的关系;然后根据当地医院的审核流程定义审核规则,审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。
2.如权利要求1所述的一种基于知识图谱的医保医疗单据审核方法,其特征在于:步骤2)所述的图网络词汇节点之间的依存关系,包括定中、主谓、动宾。
3.如权利要求1所述的一种基于知识图谱的医保医疗单据审核方法,其特征在于:步骤7)具体包括:首先,判断患者身份与医保类型是否对应;然后根据患者就诊医院信息在医保知识图谱中搜索医院地点以及医院等级信息,判断当前地点是否在医保报销范围内,进一步的,根据医院等级得出此次就医行为的报销比例,依据是否由社区医院转诊确定此次医保的起付标准;进一步的,根据患者症状与检查方式之间的对应关系以及检查方式自身的性别、年龄等限制条件判断检查方式是否合规,然后根据检查结果、症状综合判断此次确诊疾病是否合规;进一步的,根据疾病与药物之间的对应关系以及药物自身的限制条件判断用药是否合规;最后根据报销比例和起付标准判断此次的报销金额是否合规,审核过程结束。
4.实施如权利要求1所述的一种基于知识图谱的医保医疗单据审核方法的系统,其特征在于:包括依次连接的医保审核知识图谱的数据收集模块、医保知识图谱构建模块、医保规则动态更新模块以及审核模块;
所述数据收集模块,用于收集爬取网络中的医保政策文件和医疗知识文本,并设计医保审核知识图谱本体图,具体包括:针对不同医保政策之间的差异性,采用知识图谱本体进行抽象概括,包括参保对象、医保类型、医院等级、地点;医保知识图谱还包括了药品目录详情的医疗知识数据,抽象了“检查方式”,“疾病”,“药物”,“症状”的本体,为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品的异常就医行为提供审核依据;
所述医保知识图谱构建模块用于将文本转换为句法依存网络并输入到图卷积层中获取词嵌入特征;然后与文本预训练好的字向量进行聚合,输入到序列标注层获取实体;将实体使用关系抽取算法进行连接并设置关系的时空属性,构建知识四元组;包括:
医保政策句法依存网络构建子模块,具体包括:对于医保政策和医疗知识图谱文本中的句子,首先对其进行句法依存分析,并将其转化为对应的网络
Figure FDA0003473886070000051
其中,
Figure FDA0003473886070000052
表示第i个医疗文本序列对应的图网络,V表示网络的词汇节点,E表示图网络词汇节点之间的依存关系;
词嵌入特征获取子模块,具体包括:基于图网络结构,构建对应的邻接矩阵
Figure FDA0003473886070000053
通过以下公式来聚合不同词汇节点之间的特征:
Figure FDA0003473886070000054
其中
Figure FDA0003473886070000055
表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵,W,b表示网络的训练参数,D表示矩阵
Figure FDA0003473886070000056
的度值矩阵,
Figure FDA0003473886070000057
I为单位矩阵,
Figure FDA0003473886070000058
为输入到模型第l层的词汇的初始特征矩阵,σ为非线性激活函数;
实体获取子模块,具体包括:把文本预训练好的字向量ec和该字符所在分词的所有一阶词向量ew聚合起来,具体的聚合方式如下:
Figure FDA0003473886070000059
其中S是句法依存网络中字向量ec所在分词的一阶词向量的集合,其中
Figure FDA00034738860700000510
是集合S中的元素,n是一阶词向量的数量,λ是平衡两种向量权重的超参,λ∈[0,1];
将聚合后的特征e输入到双向神经网络中,提取文本上下文之间的依赖关系;最终,模型的输出为
Figure FDA0003473886070000061
其中
Figure FDA0003473886070000062
表示正向神经网络模型的输出,
Figure FDA0003473886070000063
表示逆向神经网络的输出;
对hi进行序列标注来抽取实体,即给定一组输入序列条件下另一组输出序列的概率,具体公式如下:
Figure FDA0003473886070000064
y=(y1,y2,...yT) (4)
其中,y表示模型预测的标签;P表示模型输出的分数矩阵,形状为T×k,T表示输入文本序列的长度,k表示预测的标签数量,Pij表示第i个汉字预测的第j个标签的得分;A表示转移分数矩阵,Aij表示第i个标签到第j个标签的转移分数;
最后经softmax层得到所有可能的标签序列的概率,在训练中需要最大化正确标签序列的对数概率,具体公式如下:
log(p(y|X))=s(X,y)-log add(s(X,y)) (5)
其中,p(y|X)表示所有可能的标签序列概率,log add表示对数求和;最终经过序列标注层得到输入文本的序列标签,然后将其组合得到文本中的实体;
知识四元组构建子模块,具体包括:得到实体后使用关系抽取方法创建实体之间的关系,并且将知识图谱图谱存储于neo4j图数据库中;对于每份医保政策文件,在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组,具体格式为行政区号_政策生效的时间戳,即头实体,关系,尾实体,行政区号_政策生效的时间戳;该知识图谱建模方式能定位和更新医保政策知识,并能在neo4j中使用关系属性来实现存储;
所述医保规则动态更新模块动态更新所述知识图谱构建模块中所储存的知识;首先根据当前地点的行政区号快速定位到医保政策知识的四元组,如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖,使得医保知识图谱中实时保留最新的医疗规则;
所述审核模块审核医疗单据,将医疗单据转换为就医过程网络,然后根据当地医院的审核流程定义审核规则实时查询医保审核知识图谱进行审核;对于医疗单据,需要将单据中的信息识别出来形成结构化数据,即用户的基本信息网络以及就医过程网络;该网络包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成,不同实体之间存在对应的关系;然后根据当地医院的审核流程定义审核规则,审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。
CN202110663612.9A 2021-06-16 2021-06-16 一种基于知识图谱的医保医疗单据审核方法及其系统 Active CN113360671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110663612.9A CN113360671B (zh) 2021-06-16 2021-06-16 一种基于知识图谱的医保医疗单据审核方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110663612.9A CN113360671B (zh) 2021-06-16 2021-06-16 一种基于知识图谱的医保医疗单据审核方法及其系统

Publications (2)

Publication Number Publication Date
CN113360671A CN113360671A (zh) 2021-09-07
CN113360671B true CN113360671B (zh) 2022-04-19

Family

ID=77534318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110663612.9A Active CN113360671B (zh) 2021-06-16 2021-06-16 一种基于知识图谱的医保医疗单据审核方法及其系统

Country Status (1)

Country Link
CN (1) CN113360671B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807723B (zh) * 2021-09-24 2023-11-03 重庆富民银行股份有限公司 用于知识图谱的风险识别方法
CN114037540A (zh) * 2021-11-05 2022-02-11 湖南创研科技股份有限公司 一种医保基金监管系统及其监控方法
CN114360729A (zh) * 2021-11-25 2022-04-15 达而观数据(成都)有限公司 一种基于深度神经网络的医疗文本信息自动化抽取方法
CN114153994A (zh) * 2022-02-08 2022-03-08 北京大学 医保信息问答方法及装置
CN115658926B (zh) * 2022-11-21 2023-05-05 中国科学院自动化研究所 知识图谱的要素推测方法、装置、电子设备和存储介质
CN116504414B (zh) * 2023-05-19 2024-03-22 北京百度网讯科技有限公司 医疗数据查询方法、装置、电子设备以及存储介质
CN116501895B (zh) * 2023-06-14 2023-09-01 四创科技有限公司 一种台风时序知识图谱的构建方法及终端
CN116562265B (zh) * 2023-07-04 2023-12-01 南京航空航天大学 一种信息智能解析方法、系统及存储介质
CN117391643B (zh) * 2023-12-13 2024-04-05 山东贝森医院管理咨询有限公司 一种基于知识图谱的医保单据审核方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305175A (zh) * 2017-12-30 2018-07-20 上海栈略数据技术有限公司 基于智能医学知识图谱的保险理赔风控辅助审核系统
CN111986037A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 医保审核数据的监控方法、装置、设备及存储介质
CN112035595A (zh) * 2020-08-31 2020-12-04 平安医疗健康管理股份有限公司 医疗领域中审核规则引擎的构建方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124497A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. System for automated capture and analysis of business information for reliable business venture outcome prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305175A (zh) * 2017-12-30 2018-07-20 上海栈略数据技术有限公司 基于智能医学知识图谱的保险理赔风控辅助审核系统
CN111986037A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 医保审核数据的监控方法、装置、设备及存储介质
CN112035595A (zh) * 2020-08-31 2020-12-04 平安医疗健康管理股份有限公司 医疗领域中审核规则引擎的构建方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的医保审计方法分析;崔婧等;《财会通讯》;20200131;第132-135页 *

Also Published As

Publication number Publication date
CN113360671A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113360671B (zh) 一种基于知识图谱的医保医疗单据审核方法及其系统
CN108182262B (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
Herland et al. Big data fraud detection using multiple medicare data sources
KR101873926B1 (ko) 빅데이터 기반 의료자문 서비스 제공 방법
Cios et al. Uniqueness of medical data mining
US9805081B2 (en) Record linkage algorithm for multi-structured data
US9996670B2 (en) Clinical content analytics engine
CN111639190A (zh) 医疗知识图谱构建方法
CN112687397B (zh) 罕见病知识库的处理方法及装置、可读存储介质
Brazhnik et al. Anatomy of data integration
CN110337645A (zh) 可适配的处理组件
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111191048A (zh) 基于知识图谱的急诊问答系统构建方法
CN103250129A (zh) 使用具有受限结构的文本提供具有延迟类型评估的问答
CN107680661B (zh) 用于估计医疗资源需求的系统和方法
CN113505243A (zh) 基于医疗知识图谱的智能问答方法和装置
WO2023178971A1 (zh) 就医的互联网挂号方法、装置、设备及存储介质
Silvestri et al. A big data architecture for the extraction and analysis of EHR data
KR101799448B1 (ko) 질의 응답형 질병분류코드 제공 시스템
CN112905764A (zh) 流行病咨询防治与培训系统构建方法及系统
Cantor et al. FACETS: using open data to measure community social determinants of health
Wanyan et al. Deep learning with heterogeneous graph embeddings for mortality prediction from electronic health records
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN111696656B (zh) 一种互联网医疗平台的医生评价方法、装置
Chu et al. Knowledge representation and retrieval using conceptual graphs and free text document self-organisation techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant