CN111475631A - 一种基于知识图谱与深度学习的疾病问答方法及装置 - Google Patents
一种基于知识图谱与深度学习的疾病问答方法及装置 Download PDFInfo
- Publication number
- CN111475631A CN111475631A CN202010261943.5A CN202010261943A CN111475631A CN 111475631 A CN111475631 A CN 111475631A CN 202010261943 A CN202010261943 A CN 202010261943A CN 111475631 A CN111475631 A CN 111475631A
- Authority
- CN
- China
- Prior art keywords
- input
- question
- entity
- intention
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Abstract
本发明提供了一种基于知识图谱与深度学习的疾病问答方法及装置,通过获得输入问题,并对所述输入问题进行数据清洗处理;对数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;按照预设策略,对满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;根据所述意图类型,以及获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;获得问答结果,达到了提高传统意图识别及实体抽取环节的正确率,提高答案的准确率及全面性的技术效果。
Description
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种基于知识图谱与深度学习的疾病问答方法及装置。
背景技术
知识图谱是在2012年由Google首次提出,是一种揭示实体之间关系的语义网络,同年基于深度学习也进入了快速发展期,其技术涉及领域包括但不仅限于图像、自然语言处理、语音等。目前已有基于知识图谱的问答算法主要流程包括意图识别、实体抽取、图数据库查询、推理,返回结果。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
目前基于知识图谱的问答算法中意图识别环节多采用模版匹配,即一种类型问题采用一个模版集合,此方法缺点是问题模版需要人为制定,当问题类型增多,需要制定的模版相应增多,会出现同一问题同时符合多个不同类型问题模版的情况,从而导致意图识别错误。实体抽取环节采取先分词再基于特定规则进行组合抽取。这种方式无法根据语义进行实体判断,会导致识体抽取错误,无法获得理想查询结果。
发明内容
本说明书实施例提供及一种基于知识图谱与深度学习的疾病问答方法及装置,解决了现有技术中问答算法中易出现意图识别错误、识体抽取错误,无法获得理想查询结果的技术问题,达到了提高传统意图识别及实体抽取环节的正确率,提高答案的准确率及全面性的技术效果。
鉴于上述问题,提出了本申请实施例以便提供一种基于知识图谱与深度学习的疾病问答方法及装置。
第一方面,本说明书实施例提供一种基于知识图谱与深度学习的疾病问答方法,所述方法包括:步骤110:获得输入问题,并对所述输入问题进行数据清洗处理;步骤120:对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;步骤130:按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;步骤140:将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;步骤150:根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;步骤160:获得问答结果。
优选地,在所述步骤110中,所述数据清洗处理包括无效字符判断,问题长度判断。
优选地,在所述步骤120中,所述意图识别预处理,具体包括:将所述输入问题的文本信息通过词向量技术转换为第一输入向量;将所述第一输入向量通过CNN网络进行第一特征信息提取;将所述第一特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
优选地,在所述步骤130中,所述对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,具体包括:将所述输入问题的文本信息通过词向量技术转换为第二输入向量;将所述第二输入向量通过RNN网络进行第二特征信息提取;将所述第二特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
优选地,在所述步骤140中,将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果,具体包括:将输入文本通过词向量技术转换为第三输入向量;将所述第三输入向量通过多层LSTM网络进行第三特征信息提取;将所述第三特征信息通过条优随机场分类器、Adam算法进行参数的迭代优化更新。
优选地,所述输入问题的意图类型包括疾病定义、疾病症状、疾病原因、疾病预防措施、检查方案、治疗方案、并发症。
第二方面,本说明书实施例提供一种基于知识图谱与深度学习的疾病问答装置,所述装置包括:
第一执行单元,用于获得输入问题,并对所述输入问题进行数据清洗处理;
第二执行单元,用于对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;
第一获得单元,用于按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;
第二获得单元,用于将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;
第三执行单元,用于根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;
第三获得单元,用于获得问答结果。
优选地,所述第一执行单元中所述数据清洗处理包括无效字符判断,问题长度判断。
优选地,所述第二执行单元中所述意图识别预处理,具体包括:
第一转换单元,用于将所述输入问题的文本信息通过词向量技术转换为第一输入向量;
第一提取单元,用于将所述第一输入向量通过CNN网络进行第一特征信息提取;
第一更新单元,用于将所述第一特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
优选地,所述第一获得单元中对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,具体包括:
第二转换单元,用于将所述输入问题的文本信息通过词向量技术转换为第二输入向量;
第二提取单元,用于将所述第二输入向量通过RNN网络进行第二特征信息提取;
第二更新单元,用于将所述第二特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
优选地,在第二获得单元中,将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果,具体包括:
第三转换单元,用于将输入文本通过词向量技术转换为第三输入向量;
第三提取单元,用于将所述第三输入向量通过多层LSTM网络进行第三特征信息提取;
第三更新单元,用于将所述第三特征信息通过条优随机场分类器、Adam算法进行参数的迭代优化更新。
优选地,所述输入问题的意图类型包括疾病定义、疾病症状、疾病原因、疾病预防措施、检查方案、治疗方案、并发症。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
第四方面,本说明书实施例提供一种基于知识图谱与深度学习的疾病问答装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行上述任一项所述方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本说明书实施例提供的一种基于知识图谱与深度学习的疾病问答方法及装置,通过步骤110:获得输入问题,并对所述输入问题进行数据清洗处理;步骤120:对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;步骤130:按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;步骤140:将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;步骤150:根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;步骤160:获得问答结果,从而解决了现有技术中问答算法中易出现意图识别错误、识体抽取错误,无法获得理想查询结果的技术问题,达到了提高传统意图识别及实体抽取环节的正确率,提高答案的准确率及全面性的技术效果。
附图说明
图1为本说明书实施例中提供的一种基于知识图谱与深度学习的疾病问答方法流程图;
图2为本说明书实施例中提供的一种基于知识图谱与深度学习的疾病问答装置示意图;
图3为本说明书实施例中提供的另一种基于知识图谱与深度学习的疾病问答装置示意图。
附图标号说明:总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种基于知识图谱与深度学习的疾病问答方法及装置,用于解决了现有技术中问答算法中易出现意图识别错误、识体抽取错误,无法获得理想查询结果的技术问题,本发明提供的技术方案总体思路如下:
在本发明实施例的技术方案中,通过现有技术中问答算法中易出现意图识别错误、识体抽取错误,无法获得理想查询结果的技术问题,达到了提高传统意图识别及实体抽取环节的正确率,提高答案的准确率及全面性的技术效果。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
在本文公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本文公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种基于知识图谱与深度学习的疾病问答方法的流程示意图。
如图1所示,该方法包括:
S110:获得输入问题,并对所述输入问题进行数据清洗处理。
进一步的,在所述步骤110中,所述数据清洗处理包括无效字符判断,问题长度判断。
具体而言,输入问题即为在疾病问答算法中需要查询的问答题,因此,在问答过程中,首先需要获取输入问题,然后对输入的问题进行数据清洗过滤。其中,数据清洗是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。本实施例中的数据清洗主要包括无效字符判断,问题长度判断等。其中,无效字符在不同软件和编码规范中各有不同,本实施例中的无效字符主要是指当前软件无法处理或者无法识别的字符;问题长度为所输入问题的长度信息。
S120:对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件。
进一步的,在所述步骤120中,所述意图识别预处理,具体包括:将所述输入问题的文本信息通过词向量技术转换为第一输入向量;将所述第一输入向量通过CNN网络进行第一特征信息提取;将所述第一特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
具体而言,当对输入问题数据清洗处理之后,接着即可进行意图识别预处理。并且本实施例中意图识别预处理的主要目的是:只保留医学相关问题,也就是说,将输入问题为非医学问题的部分进行过滤。此过程利用深度学习技术搭建模型网络进行。因此,需要对输入问题判断其是否满足第一预设条件,也就是判断输入问题是否为医学问题。其中,深度学习可以理解为“深度”和“学习”这两个名词的组合。“深度”体现在神经网络的层数上,一般来说,神经网络的层数越多,也就是越深,则学习效果越好;“学习”体现为神经网络可以通过不断地灌溉数据来自动校正权重偏置等参数,以拟合更好的学习效果。
进一步的,意图识别(预处理)构造模型方法,主要包括:首先,将输入问题文本通过词向量技术转换为输入向量,接着,将输入向量通过CNN网络进行特征提取,最后,将提取特征通过Softmax分类器,通过Adam算法进行参数的迭代优化更新。其中,词向量(Wordembedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。CNN网络为Convolutional NeuralNetworks(卷积神经网络)的缩写,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。Softmax分类器是除了SVM以外,另一种常见的线性分类器,它是Logistic回归推广到多类分类的形式。Adam是一种可以替代传统随机梯度下降(SGD)过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。Adam最开始是由OpenAI的Diederik Kingma和多伦多大学的Jimmy Ba在提交到2015年ICLR论文(Adam:AMethod for Stochastic Optimization)中提出的。Adam算法的名称来源于适应性矩估计(adaptive moment estimation)。Adam算法和传统的随机梯度下降不同。Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率,Adam算法同时获得了AdaGrad和RMSProp算法的优点。Adam不仅如RMSProp算法那样基于一阶矩均值计算适应性参数学习率,它同时还充分利用了梯度的二阶矩均值(即有偏方差/uncenteredvariance)。具体来说,算法计算了梯度的指数移动均值(exponential moving average),超参数beta1和beta2控制了这些移动均值的衰减率。移动均值的初始值和beta1、beta2值接近于1(推荐值),因此矩估计的偏差接近于0。该偏差通过首先计算带偏差的估计而后计算偏差修正后的估计而得到提升。
S130:按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型。
进一步的,在所述步骤130中,所述对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,具体包括:将所述输入问题的文本信息通过词向量技术转换为第二输入向量;将所述第二输入向量通过RNN网络进行第二特征信息提取;将所述第二特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
进一步的,所述输入问题的意图类型包括疾病定义、疾病症状、疾病原因、疾病预防措施、检查方案、治疗方案、并发症。
具体而言,满足第一预设条件的输入问题即为对输入问题进行判断之后,且判定结果为医学问题的问题。进而将步骤120中判定结果为医学问题的作为输入进行二次意图识别。其中,二次意图识别将问题类型细化包括疾病定义、疾病症状(或体征)、疾病原因、疾病预防措施、检查方案、治疗方案、并发症等。同时,意图识别构造模型方法主要如下:首先,将输入问题文本通过词向量技术转换为输入向量,其次,将输入向量通过RNN网络进行特征提取,最后,将提取特征通过Softmax分类器,通过Adam算法进行参数的迭代优化更新。其中,RNN全称是Recurrent Neural Network,中文名循环神经网络,是一种特殊的神经网络结构,它是根据“人的认知是基于过往的经验和记忆”这一观点提出的。它与DNN,CNN不同的是:它不仅考虑前一时刻的输入,而且赋予了网络对前面的内容的一种记忆功能。
S140:将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果。
进一步的,在所述步骤140中,将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果,具体包括:将输入文本通过词向量技术转换为第三输入向量;将所述第三输入向量通过多层LSTM网络进行第三特征信息提取;将所述第三特征信息通过条优随机场分类器、Adam算法进行参数的迭代优化更新。
具体而言,将问题进行实体识别,结合步骤130中获取的意图类型,从问题中抽取不同类型的实体,并根据意图类型进行组合。即,进行实体识别,结合具体意图进行封装。其中,在进行意图识别(预处理)构造模型方法,主要如下:首先,将输入文本通过词向量技术转换为输入向量,进而将输入向量通过多层LSTM网络进行特征提取,最终将提取特征通过条优随机场分类器,通过Adam算法进行参数的迭代优化更新。其中,LSTM网络是指长短期记忆网络(Long Short Term Memory networks),是RNN中一个特殊的类型。是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。它是一种特殊的RNN,能够学习长期依赖关系。LSTM的基本单元是记忆神经元,这种单元模拟了人脑的神经元结构,由输入门、输出门和遗忘门组成,可以在处理序列数据时保留上文记忆。机器学习模型有两种常见的类别:生成模型和判别模型。条件随机场是一种判别分类器,它对不同类别之间的决策边界进行建模。另一方面,生成模型是对数据如何生成进行建模,这些模型在学习之后可以用来进行分类。
S150:根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询。
S160:获得问答结果。
具体而言,将步骤140中获取的实体及步骤130获取的意图类型,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询,进而即可获取到返回结果。其中,“Cypher”是一个描述性的类Sql的图操作语言。相当于关系数据库的Sql,可见其重要性。其语法针对图的特点而设计,非常方便和灵活。Cypher是一个申明式查询语言,适合于开发者和在数据库上做点对点模式(ad-hoc)查询。Cypher通过一系列不同的方法和建立于确定的实践为表达查询而激发的。neo4j是由Java实现的开源NoSql图数据库,是图数据库中较为流行的一款。它提供了完整的数据库特性,包括ACID事务的支持、集群支持、备份与故障转移等。
实施例二
基于与前述实施例中一种基于知识图谱与深度学习的疾病问答方法同样的发明构思,本发明还提供一种基于知识图谱与深度学习的疾病问答装置,如图2所示,包括:
第一执行单元11,用于获得输入问题,并对所述输入问题进行数据清洗处理;
第二执行单元12,用于对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;
第一获得单元13,用于按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;
第二获得单元14,用于将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;
第三执行单元15,用于根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;
第三获得单元16,用于获得问答结果。
进一步的,所述第一执行单元中所述数据清洗处理包括无效字符判断,问题长度判断。
进一步的,所述第二执行单元中所述意图识别预处理,具体包括:
第一转换单元,用于将所述输入问题的文本信息通过词向量技术转换为第一输入向量;
第一提取单元,用于将所述第一输入向量通过CNN网络进行第一特征信息提取;
第一更新单元,用于将所述第一特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
进一步的,所述第一获得单元中对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,具体包括:
第二转换单元,用于将所述输入问题的文本信息通过词向量技术转换为第二输入向量;
第二提取单元,用于将所述第二输入向量通过RNN网络进行第二特征信息提取;
第二更新单元,用于将所述第二特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
进一步的,在第二获得单元中,将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果,具体包括:
第三转换单元,用于将输入文本通过词向量技术转换为第三输入向量;
第三提取单元,用于将所述第三输入向量通过多层LSTM网络进行第三特征信息提取;
第三更新单元,用于将所述第三特征信息通过条优随机场分类器、Adam算法进行参数的迭代优化更新。
进一步的,所述输入问题的意图类型包括疾病定义、疾病症状、疾病原因、疾病预防措施、检查方案、治疗方案、并发症。
前述图1实施例一中的一种基于知识图谱与深度学习的疾病问答方法的各种变化方式和具体实例同样适用于本实施例的一种基于知识图谱与深度学习的疾病问答装置,通过前述对一种基于知识图谱与深度学习的疾病问答方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于知识图谱与深度学习的疾病问答装置的实施系统,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例一中一种基于知识图谱与深度学习的疾病问答方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于知识图谱与深度学习的疾病问答方法的任一系统的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本说明书实施例提供的一种基于知识图谱与深度学习的疾病问答方法及装置,通过步骤110:获得输入问题,并对所述输入问题进行数据清洗处理;步骤120:对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;步骤130:按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;步骤140:将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;步骤150:根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;步骤160:获得问答结果,从而解决了现有技术中问答算法中易出现意图识别错误、识体抽取错误,无法获得理想查询结果的技术问题,达到了提高传统意图识别及实体抽取环节的正确率,提高答案的准确率及全面性的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为系统、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的系统、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。
Claims (9)
1.一种基于知识图谱与深度学习的疾病问答方法,其特征在于,所述方法包括:
步骤110:获得输入问题,并对所述输入问题进行数据清洗处理;
步骤120:对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;
步骤130:按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;
步骤140:将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;
步骤150:根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;
步骤160:获得问答结果。
2.如权利要求1所述的方法,其特征在于,在所述步骤110中,所述数据清洗处理包括无效字符判断,问题长度判断。
3.如权利要求1所述的方法,其特征在于,在所述步骤120中,所述意图识别预处理,具体包括:
将所述输入问题的文本信息通过词向量技术转换为第一输入向量;
将所述第一输入向量通过CNN网络进行第一特征信息提取;
将所述第一特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
4.如权利要求1所述的方法,其特征在于,在所述步骤130中,所述对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,具体包括:
将所述输入问题的文本信息通过词向量技术转换为第二输入向量;
将所述第二输入向量通过RNN网络进行第二特征信息提取;
将所述第二特征信息通过Softmax分类器、Adam算法进行参数的迭代优化更新。
5.如权利要求1所述的方法,其特征在于,在所述步骤140中,将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果,具体包括:
将输入文本通过词向量技术转换为第三输入向量;
将所述第三输入向量通过多层LSTM网络进行第三特征信息提取;
将所述第三特征信息通过条优随机场分类器、Adam算法进行参数的迭代优化更新。
6.如权利要求1所述的方法,其特征在于,所述输入问题的意图类型包括疾病定义、疾病症状、疾病原因、疾病预防措施、检查方案、治疗方案、并发症。
7.一种基于知识图谱与深度学习的疾病问答装置,其特征在于,所述装置包括:
第一执行单元,用于获得输入问题,并对所述输入问题进行数据清洗处理;
第二执行单元,用于对所述步骤110中数据清洗处理后的所述输入问题进行意图识别预处理,并判断所述输入问题是否满足第一预设条件;
第一获得单元,用于按照预设策略,对所述步骤120中满足所述第一预设条件的所述输入问题进行二次意图识别,并获得所述输入问题的意图类型;
第二获得单元,用于将所述输入问题进行实体识别,并与所述输入问题的意图类型相结合,获得实体结果;
第三执行单元,用于根据所述步骤130中获得的所述输入问题的意图类型,以及所述步骤140中获得的所述实体结果,利用Cypher语句在neo4j图数据库中进行实体及关系的直接及推理查询;
第三获得单元,用于获得问答结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
9.一种基于知识图谱与深度学习的疾病问答装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010261943.5A CN111475631B (zh) | 2020-04-05 | 2020-04-05 | 一种基于知识图谱与深度学习的疾病问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010261943.5A CN111475631B (zh) | 2020-04-05 | 2020-04-05 | 一种基于知识图谱与深度学习的疾病问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475631A true CN111475631A (zh) | 2020-07-31 |
CN111475631B CN111475631B (zh) | 2022-12-06 |
Family
ID=71749730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010261943.5A Active CN111475631B (zh) | 2020-04-05 | 2020-04-05 | 一种基于知识图谱与深度学习的疾病问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475631B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148884A (zh) * | 2020-08-21 | 2020-12-29 | 北京阿叟阿巴科技有限公司 | 用于孤独症干预的系统及方法 |
CN112328771A (zh) * | 2020-11-19 | 2021-02-05 | 广州极飞科技有限公司 | 服务信息输出方法、装置、服务器及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN109241251A (zh) * | 2018-07-27 | 2019-01-18 | 众安信息技术服务有限公司 | 一种会话交互方法 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN109753565A (zh) * | 2018-12-27 | 2019-05-14 | 厦门智融合科技有限公司 | 知识产权智能服务方法及系统 |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答系统及方法 |
CN110866093A (zh) * | 2018-08-10 | 2020-03-06 | 珠海格力电器股份有限公司 | 机器问答方法及装置 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
-
2020
- 2020-04-05 CN CN202010261943.5A patent/CN111475631B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN109241251A (zh) * | 2018-07-27 | 2019-01-18 | 众安信息技术服务有限公司 | 一种会话交互方法 |
CN110866093A (zh) * | 2018-08-10 | 2020-03-06 | 珠海格力电器股份有限公司 | 机器问答方法及装置 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN109753565A (zh) * | 2018-12-27 | 2019-05-14 | 厦门智融合科技有限公司 | 知识产权智能服务方法及系统 |
CN110737763A (zh) * | 2019-10-18 | 2020-01-31 | 成都华律网络服务有限公司 | 一种融合知识图谱和深度学习的中文智能问答系统及方法 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148884A (zh) * | 2020-08-21 | 2020-12-29 | 北京阿叟阿巴科技有限公司 | 用于孤独症干预的系统及方法 |
CN112148884B (zh) * | 2020-08-21 | 2023-09-22 | 北京阿叟阿巴科技有限公司 | 用于孤独症干预的系统及方法 |
CN112328771A (zh) * | 2020-11-19 | 2021-02-05 | 广州极飞科技有限公司 | 服务信息输出方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111475631B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112131393B (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
CN108256065B (zh) | 基于关系检测和强化学习的知识图谱推理方法 | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN109804371B (zh) | 用于语义知识迁移的方法和装置 | |
WO2022227203A1 (zh) | 基于对话表征的分诊方法、装置、设备及存储介质 | |
CN109213871A (zh) | 患者信息知识图谱构建方法、可读存储介质和终端 | |
CN111475631A (zh) | 一种基于知识图谱与深度学习的疾病问答方法及装置 | |
CN109147954A (zh) | 基于知识图谱的患者信息处理装置 | |
CN114676233A (zh) | 基于骨骼肌知识图谱的医疗自动问答方法 | |
Chen et al. | DxFormer: a decoupled automatic diagnostic system based on decoder–encoder transformer with dense symptom representations | |
Mamdani et al. | Higher-order logics for handling uncertainty in expert systems | |
US20230316095A1 (en) | Systems and methods for automated scribes based on knowledge graphs of clinical information | |
CN112035627A (zh) | 自动问答方法、装置、设备及存储介质 | |
CN111897829A (zh) | 一种用于医疗软件的自然语言查询方法及设备 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
Nagy et al. | Towards an automatic semantic data integration: Multi-agent framework approach | |
CN116628219A (zh) | 一种基于知识图谱的问答方法 | |
WO2023134087A1 (zh) | 问诊模板生成方法、装置、电子设备及存储介质 | |
Potoniec | Learning SPARQL queries from expected results | |
CN111339252B (zh) | 一种搜索方法、装置及存储介质 | |
Muangnak et al. | The neural network conversation model enables the commonly asked student query agents | |
Xu et al. | Dr. right!: Embedding-based adaptively-weighted mixture multi-classification model for finding right doctors with healthcare experience data | |
Ding | BayesOWL: a probabilistic framework for uncertainty in semantic web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |