CN111339777A - 基于神经网络的医学相关意图识别方法及系统 - Google Patents
基于神经网络的医学相关意图识别方法及系统 Download PDFInfo
- Publication number
- CN111339777A CN111339777A CN202010111949.4A CN202010111949A CN111339777A CN 111339777 A CN111339777 A CN 111339777A CN 202010111949 A CN202010111949 A CN 202010111949A CN 111339777 A CN111339777 A CN 111339777A
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- labeled
- medical
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000002372 labelling Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 40
- 238000012216 screening Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000003814 drug Substances 0.000 claims description 7
- 201000010099 disease Diseases 0.000 claims description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 3
- 206010020772 Hypertension Diseases 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 208000029078 coronary artery disease Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- PENWAFASUFITRC-UHFFFAOYSA-N 2-(4-chlorophenyl)imidazo[2,1-a]isoquinoline Chemical compound C1=CC(Cl)=CC=C1C1=CN(C=CC=2C3=CC=CC=2)C3=N1 PENWAFASUFITRC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- SNIOPGDIGTZGOP-UHFFFAOYSA-N Nitroglycerin Chemical compound [O-][N+](=O)OCC(O[N+]([O-])=O)CO[N+]([O-])=O SNIOPGDIGTZGOP-UHFFFAOYSA-N 0.000 description 1
- 206010033557 Palpitations Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001631 hypertensive effect Effects 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- XZWYZXLIPXDOLR-UHFFFAOYSA-N metformin Chemical compound CN(C)C(=N)NC(N)=N XZWYZXLIPXDOLR-UHFFFAOYSA-N 0.000 description 1
- 229960003105 metformin Drugs 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种基于神经网络的医学相关意图识别方法及系统,所述识别方法包括:获取历史的用户医学问题,得到问题文本;对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。本发明通过对用户医学问题进行标注,得到原始标注文本及实体替换标注文本,从而可提供大量的标注文本信息,并进一步基于标注文本及问题文本,对初始神经网络进行训练,得到可以确定用户意图的优化神经网络,分析速度快,准确度高。
Description
技术领域
本发明涉及一种数据处理与数据挖掘技术领域,特别涉及一种基于神经网络的医学相关意图识别方法及系统。
背景技术
随着计算机技术发展,越来越多的用户希望在网络上获取自动化的医疗服务。而医疗机构也希望能使用自动化的方法降低人工成本。为了实现自动化的医疗服务,我们首先需要正确理解用户问题所表达的意图,并将意图转换为机器可以识别的标签形式。
而传统的意图识别技术包括:设置规则,并用规则匹配用户问题文本;通过一些机器学习方法对标注好的文本进行训练,并用训练好的机器学习模型识别新的用户文本。可是这些方法在复杂多变的用户医学问题上常常准确度不高,并不能满足高质量的医学服务的需要。
随着深度学习技术的广泛发展与应用,我们可以通过深度学习的方法准确并高效的识别用户医学问题相关的意图。但是值得注意的是一些神经网络模型过大、运行效率较差,尽管对医学相关问题的意图识别也有较高的准确度,可是不合适在小服务器上进行部署。在高性能服务器上部署时也会占用过多系统资源而且运行速度较慢,这样会造成较久的延迟,影响用户体验。此外,由于医学文本包含较多专业内容与复杂医学词汇,这样会导致现有的一些基于神经网络的中文意图识别方法不能很好的识别中文医学文本。
发明内容
为了解决现有技术中的上述问题,即为了提高对用户医学相关文本的意图识别的准确性,本发明的目的在于提供一种基于神经网络的医学相关意图识别方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种基于神经网络的医学相关意图识别方法,所述识别方法包括:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
可选地,所述对所述问题文本进行标注,得到标注文本,具体包括:
对所述问题文本进行数据清洗和筛选,得到参考文本;
基于预设的分布式词向量表示方法,对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型,得到每个字符对应的分布式词向量,各分布式词向量构成原始标注文本。
可选地,所述对所述问题文本进行标注,得到标注文本,还包括:
获取医学实体及对应的类别;
识别原始标注文本中的实体及类别;
基于同一类别,替换原始标注文本中的实体,自动生成实体替换标注文本。
可选地,所述医学实体包括疾病实体、药物实体及症状实体中至少一者。
可选地,所述对所述问题文本进行数据清洗和筛选,得到参考文本,具体包括:
对所述问题文本进行数据清洗,删除所述问题文本中不相关的字符和/或字符串;
设置筛选条件,对清洗后的问题文本进行条件筛选,得到参考文本。
可选地,所述获取历史的用户医学问题,得到问题文本,具体为通过网络抓取和/或调取医学应用服务器中的用户问题。
可选地,所述初始神经网络为卷积神经网络、多层感知机及循环神经网络中任意一者。
为解决上述技术问题,本发明还提供了如下方案:
一种基于神经网络的医学相关意图识别系统,其特征在于,所述识别系统包括:
获取单元,用于获取历史的用户医学问题,得到问题文本;
标注单元,用于对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
训练单元,用于根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
确定单元,用于基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
为解决上述技术问题,本发明还提供了如下方案:
一种基于神经网络的医学相关意图识别系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过对用户医学问题进行标注,得到原始标注文本及实体替换标注文本,从而可提供大量的标注文本信息,并进一步基于标注文本及问题文本,对初始神经网络进行训练,得到可以确定用户意图的优化神经网络,分析速度快,准确度高。
附图说明
图1是本发明基于神经网络的医学相关意图识别方法的流程图;
图2是本发明基于神经网络的医学相关意图识别系统的模块结构示意图。
符号说明:
获取单元—1,标注单元—2,训练单元—3,确定单元—4。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的在于提供一种基于神经网络的医学相关意图识别方法,通过对用户医学问题进行标注,得到原始标注文本及实体替换标注文本,从而可提供大量的标注文本信息,并进一步基于标注文本及问题文本,对初始神经网络进行训练,得到可以确定用户意图的优化神经网络,分析速度快,准确度高。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于神经网络的医学相关意图识别方法包括:
步骤100:获取历史的用户医学问题,得到问题文本;
步骤200:对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
步骤300:根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
步骤400:基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
在步骤100中,所述获取历史的用户医学问题,得到问题文本,具体为通过网络抓取和/或调取医学应用服务器中的用户问题。
具体地,在预设的网站中通过Python的urllib库抓取网页。为了提高内容的相关性,先抓取包含问答URL的列表页,然后从URL访问问答网页并抓取文本。在完成网页抓取以后,通过Python的Beautifulsoup库对抓取的网页进行解析,将解析后的用户问的完整问题提取并存储到文件中。除了网页抓取途径,也通过一些网络医学应用的服务器中批量提取用户问题,并保存到csv、txt等格式的文件里。
其中,预设网站包括但并不限定于家庭医生在线、拇指医生、春雨医生等。
在步骤200中,所述对所述问题文本进行标注,得到标注文本,具体包括:
步骤201:对所述问题文本进行数据清洗和筛选,得到参考文本。具体为:
步骤201a:对所述问题文本进行数据清洗,删除所述问题文本中不相关的字符和/或字符串。
网络中抓下来的数据会有很多不相关的字符串,例如很多emoji或者外文(非英文)字符,这些字符出现频率很低而且与后续神经网络的效果没有很明显的关系,反而需要更多的存储空间。本发明通过Python的正则表达式库re把不需要的字符和/或字符串从问题文本中删除。
步骤201b:设置筛选条件,对清洗后的问题文本进行条件筛选,得到参考文本。
网络中的信息非常混杂,在抓取的文本中会有一些文本不符合需要。例如有些文本过短(文本清洗后小于2个字符),这些过短的文本没有足够的信息,而一般被认为没有任何有效的意图,需要过滤掉这些短文本。另外有些文本长度太长,有的字符长度超过了100,尽管这种长句子含有有效信息但是过长的句子会导致后续所用的模型参数过多消耗更多训练资源与时间。另外也有些文本与医学无关,也需要将其滤除。本发明设置筛选条件,通过Python的正则表达式库re与len方法过滤不需要的内容。
步骤202:基于预设的分布式词向量表示方法,对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型,得到每个字符对应的分布式词向量,各分布式词向量构成标注文本。
在本发明中,可随机选取一部分的文本用于意图标注。在确定好意图标签以后,将文本导入到标注程序,并让标注人员进行人工标注。标注程序可以使用简单的文本编辑器,例如notepad、notepad++、visual studio code,也能使用一些表格工具例如Excel。标注员需要有相关医学基本知识,并通过搜素引擎查询不理解的词汇。标注完成以后,在通过一位有经验的标准员检查其他标注员的标注内容,确保标注质量并维持统一的标注标准。但是人工标注效率低,成本高。
为了可以提升意图识别准确度和效率,本发明基于大量语料预训练的分布式词向量表示方法,对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型,得到每个字符对应的分布式词向量,各分布式词向量构成标注文本。其中,分布式词向量模型可以使用word2vec也能使用GloVe。
此外,与英文不同的是,中文语句中不存在分词符,因此本发明选择不分词,而直接使用字符。
进一步地,在步骤200中,所述对所述问题文本进行标注,得到标注文本,还包括:
步骤211:获取医学实体及对应的类别;所述医学实体包括疾病实体、药物实体及症状实体中至少一者。
步骤212:识别标注文本中的实体及类别。
步骤213:基于同一类别,替换原始标注文本中的实体,自动生成大量的实体替换标注文本。
通过实体替换标注文本及原始标注文本,可丰富标注文本的信息,提高意图识别的准确度。
具体地,首先从特定网站(例如百度百科、A+医学百科),特定书籍(例如《简明中成药辞典》),医学数据库(或知识库、知识图谱)等来源获取医学实体及其类别。例如,疾病实体包括高血压与冠心病;药物实体包括二甲双胍片与硝酸甘油片;症状实体包括失眠与心悸。然后识别标注文本中的实体,并标明实体的类别。具体可以是基于文本搜索进行识别,例如使用Python的re库与字符串的search()算法,也可使用基于机器学习进行识别,例如条件随机场(CRF),双向长短期记忆网络(BiLSTM),双向长短期记忆网络加条件随机场(BiLSTM-CRF)。在识别了标注文本中的实体后,进一步通过相同类型的其他实体替代识别出的实体。例如,标注“得了高血压怎么办?”这句为“治疗”意图,识别出这句话有一个疾病医学实体——“高血压”,然后使用实体库中的疾病实体“冠心病”替代“高血压”并生成新的标注过的语句:“得了冠心病怎么办?”。新生成的语句与原来的语句有相同的意图标签,所以在无需额外人工标注的方法就能获取大量的标注过的语料。
其中,本发明可通过PyTorch,Tensorflow,Keras等深度学习框架实现神经网络模型。首先将训练集中所有字符或者词汇构建字典,并用数字作为字典中所有内容的索引。
文本序列(字符或者词汇或者字符加词汇)首先被转换成字典中的索引序列。例如,将“我得了高血压”这句话的字符输入到长度为10的模型中。索引序列则是[1,3,4,5,2,6,0,0,0,0],其中0是一个特殊字符<PADDING>的索引,用这个字符补齐不到规定长度的序列,而用<UNKOWN>字符代表所有没有在字典中出现过的字符。
通过深度学习框架中的词嵌入层将索引序列转换为分布式词向量序列。词嵌入层的参数权重可以采用我们之前预训练的分布式词向量模型,也能使用随机初始化的参数。在训练过程中我们可以固定词嵌入层的参数,也可以让其随着训练变化。
此外,可以选择多种初始神经网络模型实现意图识别:所述初始神经网络可为卷积神经网络、多层感知机及循环神经网络中任意一者。
第一种是卷积神经网络(CNN,Convolutional Neural Network)。对于词嵌入层产生的向量序列,使用不同长度的卷积核与向量序列进行运算,并使用池化层抽取特征,最后产生的向量输入全连接层进行计算。全连接层的输出为一个维度等于意图识别标签数量的向量,对其进行Sigmoid计算得到每一个维值都在0到1的向量(标签向量)。
第二种为多层感知机(MLP,Multilayer Perceptron)。对词向量序列进行累加或者平均计算得到一个与词向量(或者字符向量)相同维度的语句向量。然后通过一系列的全连接层和激活函数(例如线性整流函数)计算得到一个维度等于意图识别标签数量的向量,并使用Sigmoid函数进行处理获取标签向量。
第三种为循环神经网络(RNN,Recurrent Neural Network)。我们将向量序列输入到循环神经网络中,循环神经网络可以是单向循环神经网络,也可以是双向循环神经网络,也可以使用长短期记忆网络(LSTM,Long Short-Term Memory)或者门控循环单元网络(GRU,Gated Recurrent Unit)处理长距离依赖问题。可以使用自注意力(Self-Attention)机制处理循环神经网络的隐藏状态(hidden state),并获取标注矩阵,并用标注矩阵与隐藏状态相乘获取语句嵌入向量,再用全连接层和Sigmoid函数获取标签向量。
对于标签向量,每一个维度对应一个意图标签,如果一个维度越接近1,那么这句话就越有可能包含此维度所对应的意图标签。因为一句话可能有多个意图标签所以这是一个多标签分类问题(Multi-label Classification)。
本发明通过二元交叉熵(binary cross entropy)作为损失函数进行训练。优化算法可以使用Adam、SGD等。可以加入正则化或者Dropout层防止训练出现过拟合现象。通过一个临界值将标签向量转化为标签,例如我们有三个标签:标签1、标签2、标签3,得到标签向量为[0.84,0.01,0.65],如果选取0.5作为预先设定的阈值,则标签向量表示句子包含标签1和标签2。
进一步将之前标注的数据分为训练集、验证集、测试集。通过调整不同的超参数使模型在验证集上取的最好的结果,并用测试集评估模型的意图识别能力。可以用准确度(Accuracy)、micro-averaged F1、macro-averaged F1评估模型的效果。
在完成优化神经网络训练以后进一步可以将优化神经网络部署到服务器上。在一个特定实施例中,使用中文字符序列作为输入,选取卷积神经网络作为模型。使用PyTorch作为框架实现卷积神经网络模型,并用word2vec预训练分布式词向量。优化神经网络训练时采用GPU加速,使用NVIDIA GeFroce GTX1050Ti Max-Q显卡做计算。在服务器部署时,可以不用GPU加速而只是用CPU版本的模型,所以本发明优化神经网络可以运行在没有显卡的服务器上。
进一步地,本发明还提供一种基于神经网络的医学相关意图识别系统,可提高对用户医学相关文本的意图识别的准确性。
如图2所示,本发明基于神经网络的医学相关意图识别系统包括获取单元1、标注单元2、训练单元3及确定单元4。
其中,所述获取单元1用于获取历史的用户医学问题,得到问题文本;所述标注单元2用于对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;所述训练单元3用于根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;所述确定单元4用于基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
进一步地,本发明还提供一种基于神经网络的医学相关意图识别系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
进一步地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
相对于现有技术,本发明基于神经网络的医学相关意图识别系统、计算机可读存储介质与上述基于神经网络的医学相关意图识别方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于神经网络的医学相关意图识别方法,其特征在于,所述识别方法包括:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
2.根据权利要求1所述的基于神经网络的医学相关意图识别方法,其特征在于,所述对所述问题文本进行标注,得到标注文本,具体包括:
对所述问题文本进行数据清洗和筛选,得到参考文本;
基于预设的分布式词向量表示方法,对所述参考文本中的语料使用多个字符训练预设的分布式词向量模型,得到每个字符对应的分布式词向量,各分布式词向量构成原始标注文本。
3.根据权利要求1或2所述的基于神经网络的医学相关意图识别方法,其特征在于,所述对所述问题文本进行标注,得到标注文本,还包括:
获取医学实体及对应的类别;
识别原始标注文本中的实体及类别;
基于同一类别,替换原始标注文本中的实体,自动生成实体替换标注文本。
4.根据权利要求3所述的基于神经网络的医学相关意图识别方法,其特征在于,所述医学实体包括疾病实体、药物实体及症状实体中至少一者。
5.根据权利要求2所述的基于神经网络的医学相关意图识别方法,其特征在于,所述对所述问题文本进行数据清洗和筛选,得到参考文本,具体包括:
对所述问题文本进行数据清洗,删除所述问题文本中不相关的字符和/或字符串;
设置筛选条件,对清洗后的问题文本进行条件筛选,得到参考文本。
6.根据权利要求1所述的基于神经网络的医学相关意图识别方法,其特征在于,所述获取历史的用户医学问题,得到问题文本,具体为通过网络抓取和/或调取医学应用服务器中的用户问题。
7.根据权利要求1所述的基于神经网络的医学相关意图识别方法,其特征在于,所述初始神经网络为卷积神经网络、多层感知机及循环神经网络中任意一者。
8.一种基于神经网络的医学相关意图识别系统,其特征在于,所述识别系统包括:
获取单元,用于获取历史的用户医学问题,得到问题文本;
标注单元,用于对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
训练单元,用于根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
确定单元,用于基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
9.一种基于神经网络的医学相关意图识别系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取历史的用户医学问题,得到问题文本;
对所述问题文本进行标注,得到标注文本,所述标注文本包括原始标注文本及实体替换标注文本;
根据所述问题文本及标注文本,训练初始神经网络,得到最优超参数集下的优化神经网络;
基于所述优化神经网络,根据当前用户的医学问题,确定该当前用户的意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111949.4A CN111339777A (zh) | 2020-02-24 | 2020-02-24 | 基于神经网络的医学相关意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111949.4A CN111339777A (zh) | 2020-02-24 | 2020-02-24 | 基于神经网络的医学相关意图识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339777A true CN111339777A (zh) | 2020-06-26 |
Family
ID=71185515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010111949.4A Pending CN111339777A (zh) | 2020-02-24 | 2020-02-24 | 基于神经网络的医学相关意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339777A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035637A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医学领域意图识别方法、装置、设备及存储介质 |
CN112231460A (zh) * | 2020-10-27 | 2021-01-15 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN114155962A (zh) * | 2022-02-10 | 2022-03-08 | 北京妙医佳健康科技集团有限公司 | 一种数据清洗方法和利用知识图谱构建疾病诊断方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
-
2020
- 2020-02-24 CN CN202010111949.4A patent/CN111339777A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
张崇宇: ""基于知识图谱的自动问答系统的应用研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035637A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医学领域意图识别方法、装置、设备及存储介质 |
CN112231460A (zh) * | 2020-10-27 | 2021-01-15 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN112231460B (zh) * | 2020-10-27 | 2022-07-12 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN114155962A (zh) * | 2022-02-10 | 2022-03-08 | 北京妙医佳健康科技集团有限公司 | 一种数据清洗方法和利用知识图谱构建疾病诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN111415740B (zh) | 问诊信息的处理方法、装置、存储介质及计算机设备 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN111709243B (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
CN107577671B (zh) | 一种基于多特征融合的主题词提取方法 | |
CN107491655B (zh) | 基于机器学习的肝脏疾病信息智能咨询系统 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN111339777A (zh) | 基于神经网络的医学相关意图识别方法及系统 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112597283B (zh) | 通知文本信息实体属性抽取方法、计算机设备及存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN112732872B (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
US20230394236A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN117131383A (zh) | 一种提高双塔模型搜索精排性能的方法 | |
CN115906835A (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |