CN112364139B - 一种基于深度学习的医疗对话系统意图识别分类方法 - Google Patents
一种基于深度学习的医疗对话系统意图识别分类方法 Download PDFInfo
- Publication number
- CN112364139B CN112364139B CN202011201009.0A CN202011201009A CN112364139B CN 112364139 B CN112364139 B CN 112364139B CN 202011201009 A CN202011201009 A CN 202011201009A CN 112364139 B CN112364139 B CN 112364139B
- Authority
- CN
- China
- Prior art keywords
- intention
- input information
- eigenvectors
- samples
- dialogue system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000013135 deep learning Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims abstract description 4
- 238000004445 quantitative analysis Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000013139 quantization Methods 0.000 claims 1
- 230000004044 response Effects 0.000 abstract description 2
- 208000024891 symptom Diseases 0.000 description 5
- 206010019233 Headaches Diseases 0.000 description 4
- 231100000869 headache Toxicity 0.000 description 4
- 231100000861 limb weakness Toxicity 0.000 description 4
- 208000027905 limb weakness Diseases 0.000 description 4
- 235000021266 loss of appetite Nutrition 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 206010061428 decreased appetite Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 206010028372 Muscular weakness Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000022531 anorexia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种基于深度学习的医疗对话系统意图识别分类方法,首先收集样本,将样本分成意图输入信息和意图输出信息,将意图输入信息分隔成若干个特征向量,并获得样本的特征向量集;接着获得客户文本,将客户文本分解呈特征向量,并与样本的特征向量去对比,搜取样本;然后从搜获的样本中,扩张特征向量;最后根据单一性映射,获得对应的意图输出结果。对医疗对话系统响应用户需求提供方向支持,针对相关意图范围提供意图方向。当只需要很少意图范围的功能,也可识别相应最符合的意图。使医疗对话系统在医疗方向更加合理,符合用户期望。
Description
技术领域
本发明涉及一种基于深度学习的医疗对话系统意图识别分类方法,属于意识识别技术领域。背景技术
近年来,自动人机对话系统在学术和工业界都获得了相当大的关注度。医疗方向的对话系统着重偏向于医疗专业领域,深入患者最相关的找医生、找医院、找科室、找内容需求,是垂直领域的对话机器人。医疗方向的对话机器人拥有更加全面的医疗词典,并细分词典里的词的类别属于疾病、症状、科室、医生、检查、体征、药品中的一个或多个;也维护着各个类别之间的关系,比如疾病与症状的关系、科室与科室的关系、症状与检查的关系、疾病与药品的关系,其各个类别的关系组成医疗知识图谱,下述意图识别的词性特征就是通过该知识图谱提取出来。这些基础技术的构建使对话系统对医疗词汇、医疗问题更加敏感,响应用户的动作更加深入,涉及的流程更加专业化,最理想的是使其像医生一样解决用户的医疗问题。
意图识别是指导对话系统提供服务的一种方式。用户的某个问句,在意图识别阶段分析并捕捉到用户最可能的意图。确定了意图后,若缺少相关的信息,对话系统会提示用户补充,一方面继续该意图的处理,另一方面也使意图识别模块更加确认该意图的选择,若用户之后的回答脱离原意图,也有相应的策略捕捉调整意图。因此,需要一种基于深度学习的医疗对话系统意图识别分类方法。
发明内容
为了解决上述技术问题,本发明提供一种基于深度学习的医疗对话系统意图识别分类方法,包括以下步骤:
步骤1:收集样本,分拣样本的意图输入信息和意图输出信息,将意图输入信息分割并进行数量化获得具有N个特征向量的特征向量集,每个意图输入信息根据特征向量集进行数量化,意图输出信息进行数量化,并在意图输入信息与意图输出信息之间建立单一性映射;
步骤2:获得客户文本,将客户文本分解成M个特征向量,并将M个特征向量对照特征向量集,将客户文本根据特征向量集进行数量化,并且提取样本中所有包含M个特征向量的意图输入信息样本;
步骤3:将步骤2中获得的所有包含M个特征向量的意图输入信息样本进行聚集获取其交集,从交集中获取第M+1个特征向量;
步骤4:将客户文本扩充成M+1个特征向量,并M+1个特征向量与样本中的意图输入信息的N个特征向量对比,提取样本中所有包含M+1个特征向量的意图输入信息样本;
步骤5:将将步骤4中获得的所有包含M+1个特征向量的意图输入信息样本进行聚集获取其交集,从交集中获取第M+2个特征向量;
步骤6:直至扩展到获得第N+k个特征向量,第N+k+1个特征向量为零,根据单一性映射,获得对应的意图输出结果。
进一步的,所述意图输入信息进行数量化后的N个特征向量,对其赋予权重。
进一步的,所述步骤3中,按照权重高低顺序排列获得第N+1个向量。
进一步的,所述样本集的N特征向量是每个样本的特征向量的并集。
进一步的,所述意图输入信息的矩阵定义为R i=[ri1,ri2,ri3,ri4…rij…riN],i=1,2…P,其中P代表样本量,rij代表特征向量;与R i对应的意图输出信息,其对应的单一性映射为C i=[“输出信息”],即映射函数F(Ri)=Ci=[“输出信息”]。
进一步的,对特征向量ri1,ri2,ri3,ri4…riN赋予权重,依序为[ai1,ai2,ai3,ai4…aiN]。
进一步的,步骤3中的聚集,若客户文本含有M个特征向量,则将样本中所有包含M个特征向量不为零的意图输入信息R i集合起来;求解出第M+1个向量,第M+1个向量为除去M个特征向量后,集合起来的样本中交集最多的特征向量,此特征向量不为零。
本发明的有益效果是:对医疗对话系统响应用户需求提供方向支持,针对相关意图范围提供意图方向。当只需要很少意图范围的功能,也可识别相应最符合的意图。使医疗对话系统在医疗方向更加合理,符合用户期望。
附图说明
图1是本发明的逻辑图。
实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
步骤1:收集三万条样本,将每一条样本分割呈两部分,第一部分意图输入信息,第二部分意图输出信息。将每一条意图输入信息分解,提取出特征。将所有的特征建立其特征向量库。如样本1,我40岁头疼三天四肢无力,会是什么原因?则获取意图输入信息,我40岁头疼三天四肢无力,意图输出信息,原因是什么。并补充意图输出信息,推荐医院医生。样本1获取意图输入信息的特征向量为年龄(40),症状(头疼,四肢无力),持续时间(3天)。
样本2,爷爷食欲不振没有胃口,身体四肢无力,会是什么原因呢?该怎么办?获取其意图输入信息,爷爷食欲不振没有胃口,身体四肢无力;意图输出信息:什么原因呢,该怎么办。样本2获取意图输入信息的特征向量为年龄60-70,症状(食欲不正、没有胃口,四肢无力)。
根据样本,建立样本的特征向量库,特征向量库包括所有样本的所有特征,若某样本不具备某项特征,在某项特征对应的数值则为零。每一条样本对应意图输出信息,样本1=(年龄,是否头疼,四肢无力,是否食欲不振,持续时间)(40,1,1,0,3,),样本1对应的意图输出信息为,感冒,亚健康,建议去地段医院内科问诊。
步骤2:获取客户文本,将客户文本分解成M个特征向量,将样本库中所有这M个特征向量的样本向量提取出来,假设获得A个包含M个特征向量的样本。将这A个样本相交,获得第M+1个特征向量。第M+1个特征向量是A个样本中交集最多的向量(均不为零)。
步骤3:反复步骤2,获得第M+2、M+3..个特征向量,直至获得第N+k个特征向量。
步骤4:根据单一性映射,获得对应的意图输出结果。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
.本申请中所述的“和/或”的含义指的是各自单独存在或两者同时存在的情况均包括在内。
.本申请中所述的“连接”的含义可以是部件之间的直接连接也可以是部件间通过其它部件的间接连接。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (5)
1.一种基于深度学习的医疗对话系统意图识别分类方法,其特征在于:包括以下步骤:
步骤1:收集样本,分拣样本的意图输入信息和意图输出信息,将意图输入信息分割并进行数量化获得具有N个特征向量的特征向量集,每个意图输入信息根据特征向量集进行数量化,意图输出信息进行数量化,并在意图输入信息与意图输出信息之间建立单一性映射;
步骤2:获得客户文本,将客户文本分解成M个特征向量,并将M个特征向量对照特征向量集,将客户文本根据特征向量集进行数量化,并且提取样本中所有包含M个特征向量的意图输入信息样本;
步骤3:将步骤2中获得的所有包含M个特征向量的意图输入信息样本进行聚集获取其交集,从交集中获取第M+1个特征向量;
步骤4:将客户文本扩充成M+1个特征向量,并M+1个特征向量与样本中的意图输入信息的N个特征向量对比,提取样本中所有包含M+1个特征向量的意图输入信息样本;
步骤5:将将步骤4中获得的所有包含M+1个特征向量的意图输入信息样本进行聚集获取其交集,从交集中获取第M+2个特征向量;
步骤6:直至扩展到获得第N+k个特征向量,第N+k+1个特征向量为零,根据单一性映射,获得对应的意图输出结果;
样本集的N个特征向量是每个样本的特征向量的并集;
步骤3中的聚集,若客户文本含有M个特征向量,则将样本中所有包含M个特征向量不为零的意图输入信息R i集合起来;求解出第M+1个向量,第M+1个向量为除去M个特征向量后,集合起来的样本中交集最多的特征向量,此特征向量不为零。
2.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法,其特征在于:所述意图输入信息进行数量化后的N个特征向量,对其赋予权重。
3.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法,其特征在于:所述步骤3中,按照权重高低顺序排列获得第N+1个向量。
4.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法,其特征在于:所述意图输入信息的矩阵定义为R i=[ri1,ri2,ri3,ri4…rij…riN],i=1,2…P,其中P代表样本量,rij代表特征向量;与R i对应的意图输出信息,其对应的单一性映射为C i=[“输出信息”],即映射函数F(Ri)=Ci=[“输出信息”]。
5.根据权利要求1所述基于深度学习的医疗对话系统意图识别分类方法,其特征在于:对特征向量ri1,ri2,ri3,ri4…riN赋予权重,依序为[ai1,ai2,ai3,ai4…aiN]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201009.0A CN112364139B (zh) | 2020-11-02 | 2020-11-02 | 一种基于深度学习的医疗对话系统意图识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201009.0A CN112364139B (zh) | 2020-11-02 | 2020-11-02 | 一种基于深度学习的医疗对话系统意图识别分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364139A CN112364139A (zh) | 2021-02-12 |
CN112364139B true CN112364139B (zh) | 2023-12-19 |
Family
ID=74513977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011201009.0A Active CN112364139B (zh) | 2020-11-02 | 2020-11-02 | 一种基于深度学习的医疗对话系统意图识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364139B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN110765759A (zh) * | 2019-10-21 | 2020-02-07 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN110993078A (zh) * | 2019-11-27 | 2020-04-10 | 华中科技大学同济医学院附属协和医院 | 一种医疗分诊方法、装置和存储介质 |
-
2020
- 2020-11-02 CN CN202011201009.0A patent/CN112364139B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN110765759A (zh) * | 2019-10-21 | 2020-02-07 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN110993078A (zh) * | 2019-11-27 | 2020-04-10 | 华中科技大学同济医学院附属协和医院 | 一种医疗分诊方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112364139A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN111709233B (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN111785368A (zh) | 基于医疗知识图谱的分诊方法、装置、设备及存储介质 | |
CN106326640A (zh) | 一种医疗语音控制系统及其控制方法 | |
CN109378066A (zh) | 一种基于特征向量实现疾病预测的控制方法及控制装置 | |
CN110020671B (zh) | 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法 | |
WO2021151328A1 (zh) | 症状数据处理方法、装置、计算机设备及存储介质 | |
CN110459321A (zh) | 一种基于证素的中医辅助诊断系统 | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
US20230058194A1 (en) | Text classification method and apparatus, device, and computer-readable storage medium | |
CN111191415A (zh) | 基于原始手术数据的手术分类编码方法 | |
CN109994216A (zh) | 一种基于机器学习的icd智能诊断编码方法 | |
Hovhannisyan et al. | The visual and semantic features that predict object memory: Concept property norms for 1,000 object images | |
CN110931137A (zh) | 机器辅助对话系统、方法及装置 | |
CN111785387A (zh) | 一种使用Bert做疾病标准化映射分类的方法及系统 | |
CN112364139B (zh) | 一种基于深度学习的医疗对话系统意图识别分类方法 | |
CN112329698A (zh) | 一种基于智慧黑板的人脸识别方法和系统 | |
CN111177356B (zh) | 一种酸碱指标医疗大数据分析方法及系统 | |
CN112184295A (zh) | 康养服务确定方法、装置、电子设备和存储介质 | |
CN116682579A (zh) | 基于问诊意图的信息推荐方法、装置、设备以及存储介质 | |
CN115036034B (zh) | 一种基于患者表征图的相似患者识别方法及系统 | |
CN111063446A (zh) | 用于标准化医疗文本数据的方法、装置、设备及存储介质 | |
CN115083550A (zh) | 基于多源信息的病人相似度分类方法 | |
WO2021169640A1 (zh) | 一种问题查询装置、方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |