CN116072308A - 基于图路径搜索和语义索引的医疗问答方法及相关设备 - Google Patents

基于图路径搜索和语义索引的医疗问答方法及相关设备 Download PDF

Info

Publication number
CN116072308A
CN116072308A CN202211709241.4A CN202211709241A CN116072308A CN 116072308 A CN116072308 A CN 116072308A CN 202211709241 A CN202211709241 A CN 202211709241A CN 116072308 A CN116072308 A CN 116072308A
Authority
CN
China
Prior art keywords
target
intention
question
entity
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211709241.4A
Other languages
English (en)
Inventor
高文
陈杰
田永鸿
施振辉
夏源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202211709241.4A priority Critical patent/CN116072308A/zh
Publication of CN116072308A publication Critical patent/CN116072308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Human Computer Interaction (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了基于图路径搜索和语义索引的医疗问答方法及相关设备。方法包括:获取目标文本,抽取所述目标文本中的目标实体;获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中;若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径;判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。本发明提供的基于图路径搜索和语义索引的医疗问答方法,能提高问答系统在医疗领域的准确率和召回率。

Description

基于图路径搜索和语义索引的医疗问答方法及相关设备
技术领域
本发明涉及自动问答技术领域,特别涉及一种基于图路径搜索和语义索引的医疗问答方法、系统、终端及存储介质。
背景技术
医疗问答系统是根据用户的医疗提问,自动的搜索、加工、处理后得到能回答用户提问的答案。医疗问答系统以用户发起的提问和优质的问答资源库作为输入,经过智能问答系统的处理后,输出直接回答用户问题的答案和若干条最相关的答案建议。随着人工智能技术的不断发展,医疗问答系统近年来获得了极大的关注,并被认为是人工智能技术在医疗领域能够率先落地的几个技术之一。
医疗问答技术的发展和完善,将对人工智能加医疗产生深远影响,为用户提供很大的便利。目前在基于互联网+医疗的场景,已经催生了很多网上医疗问答社区。目前主要的形式是用户,例如患者、患者家人等,提出问题,然后由医生纂写答案。这里存在两个问题:1)劳务费用:优质答案的产生的前提是为医生支付一定的酬劳,这部分费用主要由用户和互联网平台承担;2)响应速度:医生往往无法及时快速的给出答案,用户往往需要等待一两天甚至更久的时间,十分影响用户的体验。如果医疗问答系统能够取代或者部分取代医生的工作,自动生成答案,将极大的提高问答场景的生产效率,产生明显的经济效益,造福社会。
虽然自动问答技术已经过了许多年的发展,但是由于医疗领域的特殊性,准确率不足,仍然不能取得令人满意的结果,因而需要使用新技术新方法来解决医疗自动问答所面临的挑战和问题。
因此,现有技术还有待改进和提高。
发明内容
针对现有技术的上述缺陷,提供一种基于图路径搜索和语义索引的医疗问答方法及相关设备,旨在解决现有技术中问答系统运用于医疗领域时准确率不足的问题。
本发明的第一方面,提供一种基于图路径搜索和语义索引的医疗问答方法,包括:
获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个;
获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中;
若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;
若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径;
判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述抽取所述目标文本中的目标实体,包括:
对所述目标文本进行分词处理,得到多个目标词语;
在所述多个目标词语中获取医学相关词语;
将所述医学相关词语进行实体分类,得到不同类型的目标实体。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述目标实体的类型包括症状、疾病、检查、检验、手术、药品。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述获取所述目标文本中的目标意图,包括:
获取多个标注好意图的意图训练数据;
根据所述意图训练数据对分类模型进行训练,得到目标分类模型;
基于所述目标分类模型,获取所述目标文本中的目标意图。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述目标图谱为专业人员标注的三元组关系结合医学书籍和药品说明书挖掘数据共同构建的。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述目标图谱为三维空间图谱,由多个标签节点形成连通路径,所述连通路径包含标签间的关系信息,其中,所述标签节点对应实体信息,所述标签间的关系信息包含意图信息。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述判断所述目标意图是否在目标图谱中,包括:
获取所述目标图谱中与所述目标实体相同的标签作为所述目标实体对应的目标标签;
获取所述目标标签之间的关系信息,判断是否有与所述目标意图相同的关系信息,若有,则判定所述目标图谱中包含所述目标意图,若没有,则判定所述目标图谱中不包含所述目标意图。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径,包括:
在所述目标实体中获取与所述目标意图相关的目标第一实体和目标第二实体;
通过广度优先遍历算法判断所述目标第一实体和所述目标第二实体之间是否在所述目标图谱中存在连通路径;
若存在连通路径,获取所述目标第一实体和所述目标第二实体之间的最短连通路径;
若不存在连通路径,则反馈质控提醒。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述判断所述最短连通路径的得分是否高于第一目标阈值,包括:
根据所述最短连通路径的边权重进行线性加权处理,以获取所述最短连通路径的得分。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述抽取所述目标文本中的目标实体后,还包括:
判断所述目标实体是否在所述目标图谱中,若所述目标实体不存在所述目标图谱中,则基于语义索引计算获取问答库中与所述目标文本语义相近度最高的问答作为目标问答;
判断所述目标问答与所述目标文本的相似度,若所述目标问答与所述目标文本的相似度高于或等于第二目标阈值,则将所述目标问答作为所述目标文本的回答,若所述目标问答与所述目标文本的相似度低于第二目标阈值,则反馈所述目标文本无回答并将所述问答库中与所述目标文本语义相近度最高的N个问答作为参考回答。
本发明的第二方面,提供一种基于图路径搜索和语义索引的医疗问答系统,包括:
实体抽取模块,所述实体抽取模块用于获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个;
意图判断模块,所述意图判断模块用于获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中;
若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;
若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径;
路径判断模块,所述路径判断模块用于判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。
本发明的第三方面,提供一种终端,所述终端包括处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述计算机可读存储介质中的指令,以执行实现上述任一项所述的基于图路径搜索和语义索引的医疗问答方法的步骤。
本发明的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的基于图路径搜索和语义索引的医疗问答方法的步骤。
有益效果:与现有技术相比,本发明提供了一种基于图路径搜索和语义索引的医疗问答方法及相关设备,本发明提供的基于图路径搜索和语义索引的医疗问答方法中,通过获取获取目标文本,抽取所述目标文本中的目标实体,其中,所述目标实体至少为两个,然后获取所述目标文本中的目标意图并判断所述目标意图是否在目标图谱中,若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径。获取到所述最短连通路径后,还需判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。本发明提供的基于图路径搜索和语义索引的医疗问答方法,提高了问答系统在医疗领域的准确率和召回率。
附图说明
图1为本发明提供的基于图路径搜索和语义索引的医疗问答方法的实施例的流程图;
图2为本发明提供的基于图路径搜索和语义索引的医疗问答方法的实施例中问答系统流程图;
图3为本发明提供的基于图路径搜索和语义索引的医疗问答方法的实施例中lstm+crf模型结构图;
图4为本发明提供的基于图路径搜索和语义索引的医疗问答系统的实施例的结构示意图;
图5为本发明提供的终端的实施例的结构原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明提供的基于图路径搜索和语义索引的医疗问答方法,可以应用于具有计算能力的终端中,终端可以执行本发明提供的基于图路径搜索和语义索引的医疗问答方法对目标文本中的医疗问题进行解答。
实施例一
在本实施例中,提供一种基于图路径搜索和语义索引的医疗问答方法。
目前问答系统在工业界取得广泛应用的重要技术之一是基于检索的问答技术(IR-QA)。现有的基于信息检索的问答技术,首先需要建立问答数据库,尽可能多的包含全部之前在平台中已产生的用户提问query,然后按照信息检索的方法对数据库中的Question和Answer建立索引。在查询时,将用户提问query与数据库中的Question或者Answer计算相关性,将相关性最高的Question对应的答案Answer返回给用户。
本实施例是面向问答系统的一种改进,通过图路径搜索技术和语义检索技术,使问答技术在医疗领域能够得到更好的表现,解决医疗领域特殊需求:高准确率,权威性,可解释性。
如图1所示,本发明提供的基于图路径搜索和语义索引的医疗问答方法包括步骤:
S100、获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个。
所述目标文本为用户发出的问题query,目标实体为医学实体,提取所述目标文本中的目标实体以将所述目标文本中的医学实体分割出来,以备后续的处理。
所述抽取所述目标文本中的目标实体,包括:
S110、对所述目标文本进行分词处理,得到多个目标词语。
如图2所示,首先,将用户发出的问题query进行自然语言处理,其中,先进行分词处理,例如,若所述目标文本为:“我今天咳嗽头疼肚子疼,有点感冒。”对所述目标文本进行分词处理为:“我/今天/咳嗽/头疼/肚子疼/,/有点/感冒/。”
S120、在所述多个目标词语中获取医学相关词语。
在对所属目标文本进行分词处理后,获取分词处理后的文本,在多个分词出来的词语中获取医学类实体。
S130、将所述医学相关词语进行实体分类,得到不同类型的目标实体。
将获取到的医学类词语进行分类,得到不同类型的目标实体。例如:“我/今天/咳嗽【症状】/头疼【症状】/肚子疼【症状】/有点/感冒【疾病】”。
具体地,在本实施例中,所述目标实体的类型包括但不限于症状、疾病、检查、检验、手术、药品等。
具体地,本实施例所采用的的自然语言处理技术,基于基于深度学习的方法实现,一种可能的实现方式是基于Bi-LSTM(双向长短期记忆网络)+Attention(注意力机制)+CRF(条件随机场)。参照图3,本实施例所采用的,基于Bi-LSTM+CRF的深层网络模型,相比传统的神经网络(DNN,RNN)的框架,一方面考虑到了句子中词与词之间的顺序关系,更加符合自然语言处理的基本假设(语序影响语义的表达),另一方面,基于长短记忆单元(LSTM)的方法有效的解决了传统循环神经网络(RNN)存在的梯度爆炸(gradient explosion)和梯度弥散(gradient vanishing)的问题,使得模型训练更加稳定。
S200、获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中。
所述获取所述目标文本中的目标意图,包括:
S210、获取多个标注好意图的意图训练数据;
S220、根据所述意图训练数据对分类模型进行训练,得到目标分类模型;
S230、基于所述目标分类模型,获取所述目标文本中的目标意图。
为了精准的给出用户提出的问题的答案,需要对所述目标文本,也就是用户query进行意图检测。在本实施例中,采用基于深度学习语义的方法来获取所述目标文本中的目标意图。
基于深度学习语义的方法需要数据支撑,通过将其建模为分类问题,训练分类模型来解决,在本实施例中,针对开放性的医疗问答系统,用户的query是多种多样的,采取模型训练的方法泛化性较好。交由医学专家圈定固定的意图范围,标注一批数据,利用分类方法进行意图分类,完成对query的意图检测。具体地,获取多个标注好意图的意图训练数据,然后根据所述意图训练数据对分类模型进行训练,得到目标分类模型,最后,基于所述目标分类模型,获取所述目标文本中的目标意图。
进一步地,可以基于规则的方法获取所述目标文本的意图检测。基于规则的方法思路比较简单,可以预先设定一些话术模板或者关键词,根据匹配的方法来识别对话中的意图,此方法便于实现,可以快速验证效果。
在获取到所述目标文本中的目标意图后,判断出所述目标意图是否在目标图谱中。
其中,所述目标图谱为专业人员标注的三元组关系结合医学书籍和药品说明书挖掘数据共同构建的。
具体地,构建的所述目标图谱由两部分组成,一部分是由专业人员标注的三元组关系,比如<糖尿病,食物,鱼肉>等,一部分是基于医学书籍或药品说明书等权威指南挖掘的关系,比如<糖尿病,症状,多尿>等。
所述目标图谱为三维空间图谱,由多个标签节点形成连通路径,所述连通路径包含标签间的关系信息,其中,所述标签节点对应实体信息,所述标签间的关系信息包含意图信息。
具体地,为了解决所述目标图谱不全导致关系缺失的问题,在本实施例中,通过引入标签节点的方式,来形成连通路径,进行关系判断。具体地,相当于引入一个标签空间,把实体映射到相同的标签空间中,在标签空间中计算实体之间的距离,以此预测两者关系是否成立。其中,所述标签节点对应实体信息,所述标签间的关系信息包含意图信息。
具体地,在本实施例中,通过深度语义分类模型,通过有监督学习的方式,来让模型根据知识进行标签分类。深度语义分类模型有很多实现方式,在本实施例中,采用ERNIE深度语义模型。所述ERNIE深度语义模型的输入是实体及其相关描述,比如药品为药品名称及其说明书,疾病为疾病名称及其别名等。通过对分类样本进行训练,模型能够从多个标签空间中判断药物或者病症都有哪些标签,计算标签K的概率(pk),若概率pk较低,则认为病症或者药品于标签K不存在关联,反之存在。
所述判断所述目标意图是否在目标图谱中,包括:
S240、获取所述目标图谱中与所述目标实体相同的标签作为所述目标实体对应的目标标签;
S250、获取所述目标标签之间的关系信息,判断是否有与所述目标意图相同的关系信息,若有,则判定所述目标图谱中包含所述目标意图,若没有,则判定所述目标图谱中不包含所述目标意图。
S300、若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案。
具体地,若所述目标图谱中包含所述目标意图,则直接搜索所述目标图谱中的相关节点,给出回答。例如,在一实施例中有一疾病类目标实体:糖尿病,所述目标意图为:食物,则直接搜索<糖尿病,食物,节点B>三元组,将节点B的内容进行简单组合即为所述目标文本的回答。
S400、若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径。
所述若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径,包括:
S410、在所述目标实体中获取与所述目标意图相关的目标第一实体和目标第二实体;
S420、通过广度优先遍历算法判断所述目标第一实体和所述目标第二实体之间是否在所述目标图谱中存在连通路径;
具体地,通过广度优先遍历算法(BFS),判断所述目标第一实体(节点A)和所述目标第二实体(节点B)之间是否存在关联。在节点A开始遍历,寻找其与节点B是否存在连通路径,不存在则反馈质控提醒。
S430、若存在连通路径,获取所述目标第一实体和所述目标第二实体之间的最短连通路径;
S440、若不存在连通路径,则反馈质控提醒。
若存在联通路径,则获取所述目标第一实体和所述目标第二实体之间的最短连通路径p,计算所述最短联通路径的得分(pd),以病症和药物为例,假设所述目标第一实体为某一病症,所述目标第二实体为某药物,若概率pd较低,则在认为患者病症与医生医嘱处方的药物不存在关联,则应该进行质控提醒。
S500、判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。
所述判断所述最短连通路径的得分是否高于第一目标阈值,包括:
根据所述最短连通路径的边权重进行线性加权处理,以获取所述最短连通路径的得分。
在本实施例中,依据边的权重,进行线性加权处理。假设所述最短连通路径由Vdrug,Vtag,Vdisease三个节点组成,其中Pdrug-tag代表节点Vdrug和Vtag之间的边权重,这里可以是Vdrug节点的所属该标签的概率,同样的,Pdisease-tag可以是病症节点所属标签的概率,α(>=1)代表路径长度的衰减因子(α>1时,路径越长,最终得分衰减的越快),最终的结果P基于路径加权计算。在本实施例中,举例的是3个节点的路径,构成两条边,实际应用可以考虑更多的节点构成的边。
Preminder=(Pdrug-tag+Pdisease-tag)/Nα
其中,Preminder为所述最短连通路径的得分,N代表连通路径节点数量,N越大,满足路径越长,即概率值越小,得分越低。
所述抽取所述目标文本中的目标实体后,还包括:
判断所述目标实体是否在所述目标图谱中,若所述目标实体不存在所述目标图谱中,则基于语义索引计算获取问答库中与所述目标文本语义相近度最高的问答作为目标问答;
判断所述目标问答与所述目标文本的相似度,若所述目标问答与所述目标文本的相似度高于或等于第二目标阈值,则将所述目标问答作为所述目标文本的回答,若所述目标问答与所述目标文本的相似度低于第二目标阈值,则反馈所述目标文本无回答并将所述问答库中与所述目标文本语义相近度最高的N个问答作为参考回答。
具体地,所述抽取所述目标文本中的目标实体后,若所述目标实体不在所述目标图谱中,则使用语义索引技术,基于语义索引计算获取问答库中与所述目标文本语义相近度最高的问答作为目标问答。
语义索引是能够极大利用深度学习模型的优势,将用户的query和问答库的Question和Answer,通过模型计算生成隐式向量空间中的表达,方便相似度计算。其中,在本实施例的所述问答系统上的应用有2种主流方式,分别为query-Question匹配(qq匹配)和query-Answer匹配(qa匹配)。
当进行qq匹配时,计算用户query和问答库中Question的相似度,取相似度最高的topN的问题,将相似度最高的问题的答案作为正确答案,并将其与N-1个问题作为相似问题作为参考答案进行返回。
当进行qq匹配时,计算用户query和问答库中Answer的相似度,取相似度最高的topN的回答,将相似度最高的回答作为正确答案,并将其与N-1个问题作为相似回答作为参考答案进行返回。
同时,在本实施李忠,在问答系统中,设置一个相似度阈值,在本实施例中,所述相似度阈值为第二目标阈值,所述第二目标阈值是根据经验和对准确率的要求给定的,当高于所述第二目标阈值时,直接给出问题的回答,当低于所述第二目标阈值时,则只进行topN个相关问题展示,供用户参考,不给出答案。也就是说,若所述目标问答与所述目标文本的相似度高于或等于第二目标阈值,则将所述目标问答作为所述目标文本的回答,若所述目标问答与所述目标文本的相似度低于第二目标阈值,则反馈所述目标文本无回答并将所述问答库中与所述目标文本语义相近度最高的N个问答作为参考回答。
本实施例同时基于图路径搜索和语义索引,利用图路径搜索改进基于图谱的问答在医疗领域的应用,利用语义检索技术,增强医疗问答系统对用户query理解的泛化性,在保证准确率的同时,提高了医疗问答的覆盖率。
综上所述,本实施例提供的基于图路径搜索和语义索引的医疗问答方法,通过获取获取目标文本,抽取所述目标文本中的目标实体,其中,所述目标实体至少为两个,然后获取所述目标文本中的目标意图并判断所述目标意图是否在目标图谱中,若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径。获取到所述最短连通路径后,还需判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。本发明提供的基于图路径搜索和语义索引的医疗问答方法,通过图路径搜索,提高了问答系统在医疗领域的准确率和召回率。
应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,本发明中的步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本发明步骤的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例二
基于上述实施例,本发明还提供了一种基于图路径搜索和语义索引的医疗问答系统,其功能模块示意图如图4所示,该基于图路径搜索和语义索引的医疗问答系统包括:
实体抽取模块,所述实体抽取模块用于获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个,具体如实施例一中所述;
意图判断模块,所述意图判断模块用于获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中,具体如实施例一中所述;
若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案,具体如实施例一中所述;
若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径,具体如实施例一中所述;
路径判断模块,所述路径判断模块用于判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒,具体如实施例一中所述。
实施例三
基于上述实施例,本发明还相应提供了一种终端,如图5所示,所述终端包括处理器10以及存储器20。图5仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于图路径搜索和语义索引的医疗问答程序30,该基于图路径搜索和语义索引的医疗问答程序30可被处理器10所执行,从而实现本申请中基于图路径搜索和语义索引的医疗问答方法。
所述处理器10在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU),微处理器或其他芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于图路径搜索和语义索引的医疗问答方法等。
在一实施例中,当处理器10执行所述存储器20中基于图路径搜索和语义索引的医疗问答程序30时实现以下步骤:
获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个;
获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中;
若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;
若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径;
判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述抽取所述目标文本中的目标实体,包括:
对所述目标文本进行分词处理,得到多个目标词语;
在所述多个目标词语中获取医学相关词语;
将所述医学相关词语进行实体分类,得到不同类型的目标实体。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述目标实体的类型包括症状、疾病、检查、检验、手术、药品。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述获取所述目标文本中的目标意图,包括:
获取多个标注好意图的意图训练数据;
根据所述意图训练数据对分类模型进行训练,得到目标分类模型;
基于所述目标分类模型,获取所述目标文本中的目标意图。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述目标图谱为专业人员标注的三元组关系结合医学书籍和药品说明书挖掘数据共同构建的。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述目标图谱为三维空间图谱,由多个标签节点形成连通路径,所述连通路径包含标签间的关系信息,其中,所述标签节点对应实体信息,所述标签间的关系信息包含意图信息。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述判断所述目标意图是否在目标图谱中,包括:
获取所述目标图谱中与所述目标实体相同的标签作为所述目标实体对应的目标标签;
获取所述目标标签之间的关系信息,判断是否有与所述目标意图相同的关系信息,若有,则判定所述目标图谱中包含所述目标意图,若没有,则判定所述目标图谱中不包含所述目标意图。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径,包括:
在所述目标实体中获取与所述目标意图相关的目标第一实体和目标第二实体;
通过广度优先遍历算法判断所述目标第一实体和所述目标第二实体之间是否在所述目标图谱中存在连通路径;
若存在连通路径,获取所述目标第一实体和所述目标第二实体之间的最短连通路径;
若不存在连通路径,则反馈质控提醒。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述判断所述最短连通路径的得分是否高于第一目标阈值,包括:
根据所述最短连通路径的边权重进行线性加权处理,以获取所述最短连通路径的得分。
所述的基于图路径搜索和语义索引的医疗问答方法,其中,所述抽取所述目标文本中的目标实体后,还包括:
判断所述目标实体是否在所述目标图谱中,若所述目标实体不存在所述目标图谱中,则基于语义索引计算获取问答库中与所述目标文本语义相近度最高的问答作为目标问答;
判断所述目标问答与所述目标文本的相似度,若所述目标问答与所述目标文本的相似度高于或等于第二目标阈值,则将所述目标问答作为所述目标文本的回答,若所述目标问答与所述目标文本的相似度低于第二目标阈值,则反馈所述目标文本无回答并将所述问答库中与所述目标文本语义相近度最高的N个问答作为参考回答。
实施例四
本发明还提供了一种存储介质,存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的基于图路径搜索和语义索引的医疗问答方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.基于图路径搜索和语义索引的医疗问答方法,其特征在于,包括:
获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个;
获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中;
若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;
若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径;
判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。
2.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述抽取所述目标文本中的目标实体,包括:
对所述目标文本进行分词处理,得到多个目标词语;
在所述多个目标词语中获取医学相关词语;
将所述医学相关词语进行实体分类,得到不同类型的目标实体。
3.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述目标实体的类型包括症状、疾病、检查、检验、手术和药品。
4.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述获取所述目标文本中的目标意图,包括:
获取多个标注好意图的意图训练数据;
根据所述意图训练数据对分类模型进行训练,得到目标分类模型;
基于所述目标分类模型,获取所述目标文本中的目标意图。
5.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述目标图谱为专业人员标注的三元组关系结合医学书籍和药品说明书挖掘数据共同构建的。
6.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述目标图谱为三维空间图谱,由多个标签节点形成连通路径,所述连通路径包含标签间的关系信息,其中,所述标签节点对应实体信息,所述标签间的关系信息包含意图信息。
7.根据权利要求6所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述判断所述目标意图是否在目标图谱中,包括:
获取所述目标图谱中与所述目标实体相同的标签作为所述目标实体对应的目标标签;
获取所述目标标签之间的关系信息,判断是否有与所述目标意图相同的关系信息,若有,则判定所述目标图谱中包含所述目标意图,若没有,则判定所述目标图谱中不包含所述目标意图。
8.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径,包括:
在所述目标实体中获取与所述目标意图相关的目标第一实体和目标第二实体;
通过广度优先遍历算法判断所述目标第一实体和所述目标第二实体之间是否在所述目标图谱中存在连通路径;
若存在连通路径,获取所述目标第一实体和所述目标第二实体之间的最短连通路径;
若不存在连通路径,则反馈质控提醒。
9.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述判断所述最短连通路径的得分是否高于第一目标阈值,包括:
根据所述最短连通路径的边权重进行线性加权处理,以获取所述最短连通路径的得分。
10.根据权利要求1所述的基于图路径搜索和语义索引的医疗问答方法,其特征在于,所述抽取所述目标文本中的目标实体后,还包括:
判断所述目标实体是否在所述目标图谱中,若所述目标实体不存在所述目标图谱中,则基于语义索引计算获取问答库中与所述目标文本语义相近度最高的问答作为目标问答;
判断所述目标问答与所述目标文本的相似度,若所述目标问答与所述目标文本的相似度高于或等于第二目标阈值,则将所述目标问答作为所述目标文本的回答,若所述目标问答与所述目标文本的相似度低于第二目标阈值,则反馈所述目标文本无回答并将所述问答库中与所述目标文本语义相近度最高的N个问答作为参考回答。
11.基于图路径搜索和语义索引的医疗问答系统,其特征在于,所述系统包括:
实体抽取模块,所述实体抽取模块用于获取目标文本,抽取所述目标文本中的目标实体,所述目标实体至少为两个;
意图判断模块,所述意图判断模块用于获取所述目标文本中的目标意图,判断所述目标意图是否在目标图谱中;
若所述目标图谱中包含所述目标意图,则根据所述目标实体和所述目标意图获取目标答案;
若所述目标图谱中不包含所述目标意图,则获取所述目标实体在所述目标图谱中的最短连通路径;
路径判断模块,所述路径判断模块用于判断所述最短连通路径的得分是否高于第一目标阈值,若高于所述第一目标阈值,则给出肯定答案,若不高于所述第一目标阈值,则反馈质控提醒。
12.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的计算机可读存储介质,所述计算机可读存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现上述权利要求1-10任一项所述的基于图路径搜索和语义索引的医疗问答方法的步骤。
13.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-10任一项所述的基于图路径搜索和语义索引的医疗问答方法的步骤。
CN202211709241.4A 2022-12-29 2022-12-29 基于图路径搜索和语义索引的医疗问答方法及相关设备 Pending CN116072308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211709241.4A CN116072308A (zh) 2022-12-29 2022-12-29 基于图路径搜索和语义索引的医疗问答方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211709241.4A CN116072308A (zh) 2022-12-29 2022-12-29 基于图路径搜索和语义索引的医疗问答方法及相关设备

Publications (1)

Publication Number Publication Date
CN116072308A true CN116072308A (zh) 2023-05-05

Family

ID=86176188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211709241.4A Pending CN116072308A (zh) 2022-12-29 2022-12-29 基于图路径搜索和语义索引的医疗问答方法及相关设备

Country Status (1)

Country Link
CN (1) CN116072308A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707911A (zh) * 2024-02-05 2024-03-15 南京横渡医疗技术有限公司 一种基于大数据的医疗数据高速检索系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117707911A (zh) * 2024-02-05 2024-03-15 南京横渡医疗技术有限公司 一种基于大数据的医疗数据高速检索系统及方法
CN117707911B (zh) * 2024-02-05 2024-04-12 南京横渡医疗技术有限公司 一种基于大数据的医疗数据高速检索系统及方法

Similar Documents

Publication Publication Date Title
CN111613339B (zh) 一种基于深度学习的相似病历查找方法与系统
CN104516942B (zh) 概念驱动的自动分节标识
CN110532397B (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
WO2021151353A1 (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN110866124B (zh) 基于多数据源的医学知识图谱融合方法及装置
CN109215754A (zh) 病历数据处理方法、装置、计算机设备和存储介质
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
WO2021184567A1 (zh) 电子病历查询方法、装置、计算机设备和存储介质
US20210232768A1 (en) Machine learning model with evolving domain-specific lexicon features for text annotation
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN111259897A (zh) 知识感知的文本识别方法和系统
CN115292457A (zh) 知识问答方法、装置、计算机可读介质及电子设备
CN116072308A (zh) 基于图路径搜索和语义索引的医疗问答方法及相关设备
CN113326383B (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
CN116992002A (zh) 一种智能护理方案应答方法及系统
EP3964980A1 (en) Automatically recommending an existing machine learning project as adaptable for use in a new machine learning project
CN114004237A (zh) 一种基于膀胱癌知识图谱的智能问答系统构建方法
Chen et al. Extraction of entity relations from Chinese medical literature based on multi-scale CRNN
Van Mitigating data scarcity for large language models
CN117854715B (zh) 基于问诊分析的智能助诊系统
CN113033154B (zh) 一种基于阅读理解的医学概念编码方法、装置及存储介质
WO2021139102A1 (zh) 基于随机游走模型的热点预测方法、装置和计算机设备
US20230070715A1 (en) Text processing method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination