CN114153994A - 医保信息问答方法及装置 - Google Patents

医保信息问答方法及装置 Download PDF

Info

Publication number
CN114153994A
CN114153994A CN202210117277.7A CN202210117277A CN114153994A CN 114153994 A CN114153994 A CN 114153994A CN 202210117277 A CN202210117277 A CN 202210117277A CN 114153994 A CN114153994 A CN 114153994A
Authority
CN
China
Prior art keywords
medical insurance
insurance information
entities
queried
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210117277.7A
Other languages
English (en)
Inventor
胡文蕙
刘学洋
张文默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210117277.7A priority Critical patent/CN114153994A/zh
Publication of CN114153994A publication Critical patent/CN114153994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种医保信息问答方法及装置,应用于智能问答技术领域,其中方法包括:获取用户咨询问题;对所述用户咨询问题进行关键词提取,确定所述用户咨询问题对应的待查询实体和/或待查询关系;基于所述待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到所述待查询实体和/或待查询关系对应的候选三元组;所述医保信息知识图谱是基于医保信息文本构建的;基于所述候选三元组,确定所述用户咨询问题对应的答案。本发明提供的方法及装置,提高了对医保信息进行查询的准确性以及查询效率,提高了医保信息文本的利用率,提高了用户进行医疗咨询的服务体验。

Description

医保信息问答方法及装置
技术领域
本发明涉及智能问答技术领域,尤其涉及一种医保信息问答方法及装置。
背景技术
医保信息往往以条文的形式进行发布,文章结构复杂,并且经常保持更新。对于用户而言,所需要获取的信息可能仅是条文中的一小部分。医保信息的查阅复杂性,使得用户使用医保时经常无法查询得到准确的信息。例如,很多用户并不清楚该缴纳的医保费用,以及在门诊或者住院时有怎样的医保待遇。
如何提高用户对医保信息进行查询的准确性以及查询效率成为业界亟待解决的技术问题。
发明内容
本发明提供一种医保信息问答方法及装置,用于解决现有技术中如何提高用户对医保信息进行查询的准确性以及查询效率的技术问题。
本发明提供一种医保信息问答方法,包括:
获取用户咨询问题;
对所述用户咨询问题进行关键词提取,确定所述用户咨询问题对应的待查询实体和/或待查询关系;
基于所述待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到所述待查询实体和/或待查询关系对应的候选三元组;所述医保信息知识图谱是基于医保信息文本构建的;
基于所述候选三元组,确定所述用户咨询问题对应的答案。
根据本发明提供的医保信息问答方法,所述医保信息知识图谱是基于如下步骤构建的:
获取医保信息文本;
基于所述医保信息文本中的概念、概念的属性、以及概念之间的关系,构建医保信息本体模型;
基于所述医保信息本体模型,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
基于多个实体、各实体的属性、以及各实体之间的关系,得到所述医保信息知识图谱。
根据本发明提供的医保信息问答方法,所述获取医保信息文本,包括:
从公开数据源爬取所述医保信息文本;
对所述医保信息文本进行预处理。
根据本发明提供的医保信息问答方法,所述基于所述医保信息本体模型,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系,包括:
基于知识抽取模型,以所述医保信息本体模型中的概念为待抽取实体,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
所述知识抽取模型是基于卷积神经网络和条件随机场确定的。
根据本发明提供的医保信息问答方法,所述基于多个实体、各实体的属性、以及各实体之间的关系,得到所述医保信息知识图谱,包括:
基于所述多个实体和各实体的属性,确定多个第一三元组;所述第一三元组的表征形式包括实体、属性以及属性值;
基于所述多个实体和各实体之间的关系,确定多个第二三元组;所述第二三元组的表征形式包括首实体、关系和尾实体;
基于所述多个第一三元组和所述多个第二三元组,构建所述医保信息知识图谱。
根据本发明提供的医保信息问答方法,所述待查询实体包括医保信息、医保发布城市、医保发布机构、参保人信息、参保人住院待遇和参保人门诊待遇中的至少一种;所述待查询关系包括时间关系和/或关联关系。
根据本发明提供的医保信息问答方法,所述医保信息知识图谱存储于Neo4j图数据库;
所述Neo4j图数据库中的节点为所述医保信息知识图谱的实体;所述Neo4j图数据库中的边为所述医保信息知识图谱的关系。
本发明提供一种医保信息问答装置,包括:
获取单元,用于获取用户咨询问题;
识别单元,用于对所述用户咨询问题进行关键词提取,确定所述用户咨询问题对应的待查询实体和/或待查询关系;
检索单元,用于基于所述待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到所述待查询实体和/或待查询关系对应的候选三元组;所述医保信息知识图谱是基于医保信息文本构建的;
确定单元,用于基于所述候选三元组,确定所述用户咨询问题对应的答案。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述医保信息问答方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述医保信息问答方法的步骤。
本发明提供的医保信息问答方法及装置,通过获取用户咨询问题,对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组,进而确定用户咨询问题对应的答案,由于医保信息知识图谱是基于医保信息文本构建的,能够结构化地展现医保信息中的知识以及知识之间的关系,根据医保信息知识图谱能够自动化地实现医保信息的问答,提高了对医保信息进行查询的准确性以及查询效率,提高了医保信息文本的利用率,提高了用户进行医疗咨询的服务体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的医保信息问答方法的流程示意图;
图2为本发明提供的医保信息知识图谱的部分示意图;
图3为本发明提供的医保信息问答装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的医保信息问答方法的流程示意图,如图1所示,该方法包括:
步骤110,获取用户咨询问题。
具体地,本发明实施例提供的方法的执行主体可以为终端,包括但不限于移动终端、平板电脑,包含终端的控制装置等。例如,本发明实施例的执行主体可以为智能问答机器人、智能手机等。
用户咨询问题为用户输入的与医保信息、医保待遇、医保报销、医保缴费等主题相关的问题。用户可以通过文本形式输入用户咨询问题,或者通过语音形式输入用户咨询问题。
为了便于对用户咨询问题进行处理,可以将用户咨询问题处理为文本格式。例如可以将用户输入的文本直接作为用户咨询问题,或者可以对用户输入的语音进行识别后,得到该语音输入对应的转写文本,然后将该转写文本作为用户咨询问题。
步骤120,对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系。
具体地,用户咨询问题的文本可以是长文本,也可以是短文本,可以通过提取用户咨询问题中的关键词来获取用户的查询意图。关键词提取就是从一段给定的文本中自动抽取出若干有意义的词语或词组。关键词提取的方法可以采用基于统计的关键词提取方法,例如TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)方法和TextRank方法等。
待查询实体可以为用户咨询问题中与医疗政策相关的各类概念。例如,待查询实体可以为医疗政策的名称、医疗政策发布的城市名、医疗政策的发布机构等,还可以包括疾病名称、参保人类别、医保类型等。待查询实体关系为用户咨询问题中与医疗政策相关的各类概念之间的相互联系。例如,待查询关系可以为“的缴费标准是”、“的报销比例是”等。
可以对用户咨询问题进行关键词提取,得到多个关键词。然后将这些关键词作为用户咨询问题对应的待查询实体或者待查询关系。例如,用户咨询问题为“糖尿病的报销比例是多少”,对该用户咨询问题的文本进行关键词提取后,得到多个关键词“糖尿病”和“报销比例”。
步骤130,基于待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组;医保信息知识图谱是基于医保信息文本构建的。
具体地,医保信息文本是记载了医疗保险制度相关信息的文本。医保信息知识图谱是预先根据医保信息文本构建的知识图谱。医保信息知识图谱包含了医保信息中的各类概念、各类概念的属性,以及各类概念之间的关系,通过三元组的形式,结构化地展示医保信息。
可以在医保信息知识图谱中搜索待查询实体和/或待查询关系,从而得到待查询实体和/或待查询关系对应的候选三元组。例如,将“糖尿病”作为待查询实体,将“报销比例是”作为待查询关系,在医保信息知识图谱中搜索可以得到两个候选三元组,分别为<糖尿病,住院报销比例是,50%>和<糖尿病,门诊报销比例是,20%>。
步骤140,基于候选三元组,确定用户咨询问题对应的答案。
具体地,可以根据查询得到的候选三元组生成用户咨询问题对应的答案。例如,若候选三元组为<糖尿病,报销比例是,50%>,则可以根据该候选三元组生成用户咨询问题“糖尿病的报销比例是多少”对应的答案“糖尿病的报销比例是50%”。
候选三元组可能有多个,可以直接根据多个候选三元组生成用户咨询问题对应的多个答案;也可以进一步地进行筛选,确定与用户咨询问题最匹配的候选三元组,然后生成用户咨询问题对应的答案。例如,可以根据候选三元组中的关键字向用户提示输入选择信息,根据用户输入的选择信息,确定与选择信息语义最匹配的候选三元组,根据该候选三元组生成用户咨询问题对应的答案。
本发明实施例提供的医保信息问答方法,通过获取用户咨询问题,对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组,进而确定用户咨询问题对应的答案,由于医保信息知识图谱是基于医保信息文本构建的,能够结构化地展现医保信息中的知识以及知识之间的关系,根据医保信息知识图谱能够自动化地实现医保信息的问答,提高了对医保信息进行查询的准确性以及查询效率,提高了医保信息文本的利用率,提高了用户进行医疗咨询的服务体验。
基于上述实施例,医保信息知识图谱是基于如下步骤构建的:
获取医保信息文本;
基于医保信息文本中的概念、概念的属性、以及概念之间的关系,构建医保信息本体模型;
基于医保信息本体模型,对医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
基于多个实体、各实体的属性、以及各实体之间的关系,得到医保信息知识图谱。
具体地,本发明实施例中的医保信息知识图谱包括模式层和数据层。
模式层是知识图谱的概念模型和逻辑基础,能够对数据层进行规范约束,一般多采用本体模型作为知识图谱的模式层。本体模型可以定义知识图谱的数据模式,是对知识图谱的抽象化表示,通过本体模型而形成的知识图谱不仅层次结构较强,而且冗余程度较小。本体模型包括概念、概念的属性、以及概念之间的关系。
数据层是模式层中本体模型的实例。数据层构建是以模式层构建的医保信息本体模型为基础,从已获取的数据中抽取结构化信息。
本发明实施例提供的医保信息知识图谱的构建方法包括数据获取、知识建模、知识抽取和知识融合等步骤。
在数据获取阶段,本发明实施例中用于构建知识图谱的数据为医保信息文本,是采用文本形式记录的知识。医保信息文本的获取方法可以通过网络爬虫技术从公开的指定的网站上获取。
知识建模,是为了构建医保信息知识图谱的模式层。可以根据医保信息文本内容,对医保信息概念、属性和关系进行定义,构建医保信息本体模型。
知识抽取,是为了根据医保信息本体模型,得到对应的医保信息知识图谱。可以以本体模型中的概念为知识图谱中的实体,以概念的属性为实体的属性,以概念之间的关系为实体时间的关系,对医保信息文本进行知识抽取,主要包括实体抽取、属性抽取、关系抽取三部分。知识抽取方法可以采用文本信息抽取的方法,自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息。实体抽取,也称为命名实体识别(NamedEntity Recognition,NER),是指从医保信息文本中自动识别出命名实体。关系抽取,为了得到语义信息,从医保信息文本中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。属性抽取,是从不同信息源中采集特定实体的属性信息,例如针对某种疾病的住院医疗报销,可以从医保信息文本中得到其起付标准、报销比例和最高报销限额等信息。
信息抽取的方法可以采用基于条件随机场的命名实体识别方法和基于规则的关系抽取方法等。
在知识融合阶段,将得到的多个实体、各实体的属性、以及各实体之间的关系,采用<实体,关系,实体>的三元组形式进行表示,得到医保信息知识图谱。
基于上述任一实施例,步骤110包括:
从公开数据源爬取医保信息文本;
对医保信息文本进行预处理。
具体地,医保信息文本可以通过公开数据源进行获取。可以从指定的政务公开网站上,通过网络爬虫技术获取网页上的文本信息,并将其保存至文本文件中,得到医保信息文本。
所获取的医保信息文本可能还存在格式错误或者包含与政策文本无关的信息,可以通过预处理对医保信息文本进行处理。预处理包括去除重复文字、去除文本空格和去除网页标符等。
例如,可以从政务公开网站上通过python爬虫,获取156条医保信息文本,将其存储在MySQL数据库中,为后续知识三元组抽取做准备。在存储过程中,同时对医保信息文本进行去除文本空格和网页标符等操作。
基于上述任一实施例,基于医保信息本体模型,对医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系,包括:
基于知识抽取模型,以医保信息本体模型中的概念为待抽取实体,对医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
知识抽取模型是基于卷积神经网络和条件随机场确定的。
具体地,以医保信息本体模型中的概念为待抽取实体,对医保信息文本进行知识抽取的方法包括利用自然语言处理开源工具从政策文本中抽取知识实体与关系,例如HanLP(Han Language Processing,汉语言处理包),也可以利用正则表达式抽取政策实体及属性,采用规则匹配与神经网络相结合的方法抽取关系。
预设正则化模板包含多个正则表达式,可以用来抽取医保信息文本中的实体和属性。正则化模板可以通过专家预先制定,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方法,以模式和字符串相匹配为主要手段,实现对医保信息文本中实体和属性的抽取。
条件随机场(CRF)是命名实体识别的主流模型,它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。深度学习对复杂的非线性问题拟合较好。因此,可以将两者进行结合,搭建知识抽取模型,使得知识抽取模型能够学习到复杂的特征。
利用卷积神经网络(Convolutional Neural Networks,CNN)和条件随机场(Conditional Random Field,CRF)搭建知识抽取模型来实现关系抽取。例如,可以采用卷积神经网络中的神经网络(Neural Networks,NN)、卷积神经网络(CNN)和条件随机场(CRF)进行结合搭建初始模型(NN/CNN-CRF),该方法可以采用窗口方法与句子两种网路来进行命名实体识别,窗口方法仅仅使用当前预测词的上下文窗口进行输入,在使用神经网络,而句子结构是使用整个句子作为当前预测词的输入,再使用一层卷积神经网络。又例如,可以采用卷积神经网络中的空洞卷积神经网络(dilated CNN,IDCNN)和条件随机场(CRF)进行结合搭建初始模型(IDCNN-CRF),训练后可以得到知识抽取模型。
基于上述任一实施例,基于多个实体、各实体的属性、以及各实体之间的关系,得到医保信息知识图谱,包括:
基于多个实体和各实体的属性,确定多个第一三元组;第一三元组的表征形式包括实体、属性以及属性值;
基于多个实体和各实体之间的关系,确定多个第二三元组;第二三元组的表征形式包括首实体、关系和尾实体;
基于多个第一三元组和多个第二三元组,构建医保信息知识图谱。
具体地,医保信息知识图谱中的知识可以用两种三元组来表示,分别为第一三元组和第二三元组。第一三元组的表征形式可以为<实体,属性,属性值>。第二三元组的表征形式可以为<首实体,关系,尾实体>。
将抽取得到的多个第一三元组和多个第二三元组进行组合,得到医保信息知识图谱。
基于上述任一实施例,待查询实体包括医保信息、医保发布城市、医保发布机构、参保人信息、参保人住院待遇和参保人门诊待遇中的至少一种;待查询关系包括时间关系和/或关联关系。
具体地,实体是知识图谱中的重要节点。实体构建的层次性也是非常重要的。根据医保信息文本,可以从宏观层面和个人层面确定待查询实体。宏观层面的待查询实体包括医保信息、医保发布城市、医保发布机构等,个人层面的待查询实体包括参保人信息、参保人住院待遇和参保人门诊待遇等。属性是描述实体的各项信息的内容,帮助实体间构建关系。此外,待查询实体还可以包括其他内容,如表1所示。
表1 待查询实体和待查询实体的属性定义表
Figure 77995DEST_PATH_IMAGE001
待查询关系是指医保信息之间的时间关系和/或关联关系。其中,时间关系是指医保信息出台的时间关系。例如,医保信息A的出台时间早于医保信息B等。关联关系是指医保信息在内容上的相关性。例如,医保信息A引用了医保信息B中的规定、解释或者标准等。在这种情况下,医保信息A和医保信息B同时具有时间关系和关联关系。
基于上述任一实施例,医保信息知识图谱存储于Neo4j图数据库;
Neo4j图数据库中的节点为医保信息知识图谱的实体;Neo4j图数据库中的边为医保信息知识图谱的关系。
具体地,Neo4j是一个高性能的图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。
可以将获取的医保信息知识图谱存储于Neo4j图数据库中,将医保信息知识图谱的实体作为节点,将实体之间的关系作为边。
通过将医保信息知识图谱采用图结构存储,可以实现可视化,直观展示医保信息实体之间以及实体与属性之间的关系。
图2为本发明提供的医保信息知识图谱的部分示意图,如图2所示,该示意图仅表示了医保信息知识图谱的一部分,主要涉及宏观层面,实体包括了参保人信息、参保人类型、参保人缴费档位、医保信息、基本医疗保险、门诊医疗待遇和住院医疗待遇等。此外,若任一医保信息包括了多个子政策,则多个子政策都可以细化单独构建图谱。
基于上述任一实施例,还包括:
生成医保信息文本的文本摘要。
具体地,为了对医保信息知识图谱进行更好的解释和说明,可以在生成知识图谱的同时,生成医保信息文本的文本摘要。生成方法包括抽取式方法、压缩式方法和理解式方法。
抽取式方法,是直接从医保信息文本中抽取一些句子组成摘要。本质上就是个排序问题,给每个句子打分,将高分句子摘出来。压缩式方法,包括两种方法,一种是先抽取出句子,再做句子压缩,或者先做句子压缩,再抽句子;另一种是抽句子和压缩句子这两个过程是同时进行的。理解式方法,是利用文本意图识别算法对医保信息文本进行理解,然后生成摘要。
基于上述任一实施例,在利用本发明实施例提供的医保信息知识图谱进行问答时,可以采用自顶向上和自底向上的问答方法。自顶向上的问答方法,适用于用户对医保信息知识图谱有一定的了解,了解自己在政策中的描述定位,并希望快速找到答案。例如输入“职工医保”,“在职员工”等字段获得需要的知识点。在问答系统设计过程中将知识图谱中所有的实体名,属性名和关系名称提前存储,通过模糊匹配快速定位到图谱,信息足够全甚至可以直接推导出三元组的两部分,那利用知识推理就可以快速找到答案。
自底向上的问答方法,需要对用户问题进行意图识别,关键信息提取等过程。意图识别一方面通过简单的规则模板意图识别,基于分词、词性标注、命名实体识别、依存句法分析、语义分析的前提下完成;另一方面可以采用深度学习进行意图识别,看作是一个分类问题。
另一方面,还可以对用户经常查询的问题进行标准化,得到标准问答数据,设计引擎网络,对每个输入的问题,引擎将返回分类概率最高的类别对应的标准答案作为回复。
引擎网络的工作流程为:根据输入的问题,生成相应的句向量;根据注意力机制,得到句向量在句子层级的注意力权重;进一步地进行归一化或者最大池化操作,得到句向量在类别层级的注意力权重;然后根据类别层级的注意力权重,确定输入的问题对应的类别,返回对应的标准答案。
基于上述任一实施例,图3为本发明提供的医保信息问答装置的结构示意图,如图3所示,该装置包括:
获取单元310,用于获取用户咨询问题;
识别单元320,用于对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系;
检索单元330,用于基于待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组;医保信息知识图谱是基于医保信息文本构建的;
确定单元340,用于基于候选三元组,确定用户咨询问题对应的答案。
本发明实施例提供的医保信息问答装置,通过获取用户咨询问题,对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组,进而确定用户咨询问题对应的答案,由于医保信息知识图谱是基于医保信息文本构建的,能够结构化地展现医保信息中的知识以及知识之间的关系,根据医保信息知识图谱能够自动化地实现医保信息的问答,提高了对医保信息进行查询的准确性以及查询效率,提高了医保信息文本的利用率,提高了用户进行医疗咨询的服务体验。
基于上述任一实施例,还包括图谱构建单元,图谱构建单元包括:
文本获取模块,用于获取医保信息文本;
知识建模模块,用于基于医保信息文本中的概念、概念的属性、以及概念之间的关系,构建医保信息本体模型;
知识抽取模块,用于基于医保信息本体模型,对医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
知识融合模块,用于基于多个实体、各实体的属性、以及各实体之间的关系,得到医保信息知识图谱。
基于上述任一实施例,获取单元具体用于:
从公开数据源爬取医保信息文本;
对医保信息文本进行预处理。
基于上述任一实施例,知识抽取模块具体用于:
基于知识抽取模型,以医保信息本体模型中的概念为待抽取实体,对医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
知识抽取模型是基于卷积神经网络和条件随机场确定的。
基于上述任一实施例,知识融合模块具体用于:
基于多个实体和各实体的属性,确定多个第一三元组;第一三元组的表征形式包括实体、属性以及属性值;
基于多个实体和各实体之间的关系,确定多个第二三元组;第二三元组的表征形式包括首实体、关系和尾实体;
基于多个第一三元组和多个第二三元组,构建医保信息知识图谱。
基于上述任一实施例,待查询实体包括医保信息、医保发布城市、医保发布机构、参保人信息、参保人住院待遇和参保人门诊待遇中的至少一种;待查询关系包括时间关系和/或关联关系。
基于上述任一实施例,医保信息知识图谱存储于Neo4j图数据库;
Neo4j图数据库中的节点为医保信息知识图谱的实体;Neo4j图数据库中的边为医保信息知识图谱的关系。
基于上述任一实施例,图4为本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)410、通信接口(Communications Interface)420、存储器(Memory)430和通信总线(Communications Bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令,以执行如下方法:
获取用户咨询问题;对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系;基于待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组;医保信息知识图谱是基于医保信息文本构建的;基于候选三元组,确定用户咨询问题对应的答案。
此外,上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取用户咨询问题;对用户咨询问题进行关键词提取,确定用户咨询问题对应的待查询实体和/或待查询关系;基于待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到待查询实体和/或待查询关系对应的候选三元组;医保信息知识图谱是基于医保信息文本构建的;基于候选三元组,确定用户咨询问题对应的答案。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种医保信息问答方法,其特征在于,包括:
获取用户咨询问题;
对所述用户咨询问题进行关键词提取,确定所述用户咨询问题对应的待查询实体和/或待查询关系;
基于所述待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到所述待查询实体和/或待查询关系对应的候选三元组;所述医保信息知识图谱是基于医保信息文本构建的;
基于所述候选三元组,确定所述用户咨询问题对应的答案;
所述医保信息知识图谱是基于如下步骤构建的:
获取医保信息文本;
基于所述医保信息文本中的概念、概念的属性、以及概念之间的关系,构建医保信息本体模型;
基于所述医保信息本体模型,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
基于多个实体、各实体的属性、以及各实体之间的关系,得到所述医保信息知识图谱。
2.根据权利要求1所述的医保信息问答方法,其特征在于,所述获取医保信息文本,包括:
从公开数据源爬取所述医保信息文本;
对所述医保信息文本进行预处理。
3.根据权利要求1所述的医保信息问答方法,其特征在于,所述基于所述医保信息本体模型,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系,包括:
基于知识抽取模型,以所述医保信息本体模型中的概念为待抽取实体,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
所述知识抽取模型是基于卷积神经网络和条件随机场确定的。
4.根据权利要求1所述的医保信息问答方法,其特征在于,所述基于多个实体、各实体的属性、以及各实体之间的关系,得到所述医保信息知识图谱,包括:
基于所述多个实体和各实体的属性,确定多个第一三元组;所述第一三元组的表征形式包括实体、属性以及属性值;
基于所述多个实体和各实体之间的关系,确定多个第二三元组;所述第二三元组的表征形式包括首实体、关系和尾实体;
基于所述多个第一三元组和所述多个第二三元组,构建所述医保信息知识图谱。
5.根据权利要求1所述的医保信息问答方法,其特征在于,所述待查询实体包括医保信息、医保发布城市、医保发布机构、参保人信息、参保人住院待遇和参保人门诊待遇中的至少一种;所述待查询关系包括时间关系和/或关联关系。
6.根据权利要求1至5任一项所述的医保信息问答方法,其特征在于,所述医保信息知识图谱存储于Neo4j图数据库;
所述Neo4j图数据库中的节点为所述医保信息知识图谱的实体;所述Neo4j图数据库中的边为所述医保信息知识图谱的关系。
7.一种医保信息问答装置,其特征在于,包括:
获取单元,用于获取用户咨询问题;
识别单元,用于对所述用户咨询问题进行关键词提取,确定所述用户咨询问题对应的待查询实体和/或待查询关系;
检索单元,用于基于所述待查询实体和/或待查询关系,在医保信息知识图谱中进行检索,得到所述待查询实体和/或待查询关系对应的候选三元组;所述医保信息知识图谱是基于医保信息文本构建的;
确定单元,用于基于所述候选三元组,确定所述用户咨询问题对应的答案;
所述装置还包括图谱构建单元,所述图谱构建单元包括:
文本获取模块,用于获取医保信息文本;
知识建模模块,用于基于所述医保信息文本中的概念、概念的属性、以及概念之间的关系,构建医保信息本体模型;
知识抽取模块,用于基于所述医保信息本体模型,对所述医保信息文本进行知识抽取,得到多个实体、各实体的属性、以及各实体之间的关系;
知识融合模块,用于基于多个实体、各实体的属性、以及各实体之间的关系,得到所述医保信息知识图谱。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述医保信息问答方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述医保信息问答方法的步骤。
CN202210117277.7A 2022-02-08 2022-02-08 医保信息问答方法及装置 Pending CN114153994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210117277.7A CN114153994A (zh) 2022-02-08 2022-02-08 医保信息问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210117277.7A CN114153994A (zh) 2022-02-08 2022-02-08 医保信息问答方法及装置

Publications (1)

Publication Number Publication Date
CN114153994A true CN114153994A (zh) 2022-03-08

Family

ID=80450263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210117277.7A Pending CN114153994A (zh) 2022-02-08 2022-02-08 医保信息问答方法及装置

Country Status (1)

Country Link
CN (1) CN114153994A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098508A (zh) * 2022-07-04 2022-09-23 成都秦川物联网科技股份有限公司 基于物联网的智慧城市核查列表生成方法、系统及装置
CN115510247A (zh) * 2022-10-20 2022-12-23 国家电网有限公司大数据中心 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN117850924A (zh) * 2024-03-08 2024-04-09 北京国科众安科技有限公司 基于大模型的问答会话数据调用处理方法、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046154A (zh) * 2019-11-20 2020-04-21 泰康保险集团股份有限公司 信息检索方法、装置、介质及电子设备
CN112069326A (zh) * 2020-09-03 2020-12-11 Oppo广东移动通信有限公司 知识图谱的构建方法、装置、电子设备及存储介质
CN113360671A (zh) * 2021-06-16 2021-09-07 浙江工业大学 一种基于知识图谱的医保医疗单据审核方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046154A (zh) * 2019-11-20 2020-04-21 泰康保险集团股份有限公司 信息检索方法、装置、介质及电子设备
CN112069326A (zh) * 2020-09-03 2020-12-11 Oppo广东移动通信有限公司 知识图谱的构建方法、装置、电子设备及存储介质
CN113360671A (zh) * 2021-06-16 2021-09-07 浙江工业大学 一种基于知识图谱的医保医疗单据审核方法及其系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098508A (zh) * 2022-07-04 2022-09-23 成都秦川物联网科技股份有限公司 基于物联网的智慧城市核查列表生成方法、系统及装置
CN115510247A (zh) * 2022-10-20 2022-12-23 国家电网有限公司大数据中心 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN117850924A (zh) * 2024-03-08 2024-04-09 北京国科众安科技有限公司 基于大模型的问答会话数据调用处理方法、设备和介质
CN117850924B (zh) * 2024-03-08 2024-05-14 北京国科众安科技有限公司 基于大模型的问答会话数据调用处理方法、设备和介质

Similar Documents

Publication Publication Date Title
CN109684448B (zh) 一种智能问答方法
US20210232613A1 (en) Automatically generating natural language responses to users&#39; questions
WO2021000676A1 (zh) 问答方法、问答装置、计算机设备及存储介质
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
CN109766417B (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
CN111950285B (zh) 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN107766483A (zh) 一种基于知识图谱的交互式问答方法及系统
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN106951558B (zh) 一种基于深度搜索的税务智能咨询平台的数据处理方法
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN114153994A (zh) 医保信息问答方法及装置
CN112149427B (zh) 动词短语蕴含图谱的构建方法及相关设备
CN116775847A (zh) 一种基于知识图谱和大语言模型的问答方法和系统
WO2023040493A1 (zh) 事件检测
CN113764112A (zh) 一种在线医疗问答方法
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN114840685A (zh) 一种应急预案知识图谱构建方法
Kumar et al. An abstractive text summarization technique using transformer model with self-attention mechanism
CN112651234B (zh) 一种半开放信息抽取的方法及装置
CN116340544B (zh) 一种基于知识图谱的中医药古籍可视分析方法与系统
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
CN115757694A (zh) 招聘行业文本召回方法及系统、设备与介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220308