CN117009456A - 医疗查询文本的处理方法、装置、设备、介质和电子产品 - Google Patents
医疗查询文本的处理方法、装置、设备、介质和电子产品 Download PDFInfo
- Publication number
- CN117009456A CN117009456A CN202211506109.3A CN202211506109A CN117009456A CN 117009456 A CN117009456 A CN 117009456A CN 202211506109 A CN202211506109 A CN 202211506109A CN 117009456 A CN117009456 A CN 117009456A
- Authority
- CN
- China
- Prior art keywords
- text
- task
- medical
- medical query
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 246
- 239000013598 vector Substances 0.000 claims abstract description 135
- 238000000034 method Methods 0.000 claims description 92
- 238000012549 training Methods 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000011282 treatment Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 6
- 201000010099 disease Diseases 0.000 description 115
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 115
- 208000024891 symptom Diseases 0.000 description 33
- 238000012360 testing method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 10
- 208000006820 Arthralgia Diseases 0.000 description 9
- 210000000629 knee joint Anatomy 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 208000024765 knee pain Diseases 0.000 description 6
- 208000002193 Pain Diseases 0.000 description 5
- 208000007712 Tinea Versicolor Diseases 0.000 description 5
- 206010056131 Tinea versicolour Diseases 0.000 description 5
- 238000010845 search algorithm Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 208000003926 Myelitis Diseases 0.000 description 3
- 206010044074 Torticollis Diseases 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002146 bilateral effect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003889 eye drop Substances 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 208000018197 inherited torticollis Diseases 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 206010062717 Increased upper airway secretion Diseases 0.000 description 2
- 206010028748 Nasal obstruction Diseases 0.000 description 2
- 206010039101 Rhinorrhoea Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 208000010753 nasal discharge Diseases 0.000 description 2
- 208000025440 neoplasm of neck Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000399 orthopedic effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 208000026435 phlegm Diseases 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 208000034656 Contusions Diseases 0.000 description 1
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 206010023232 Joint swelling Diseases 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 206010003246 arthritis Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009519 contusion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000004373 mandible Anatomy 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000003867 tiredness Effects 0.000 description 1
- 208000016255 tiredness Diseases 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例公开了一种医疗查询文本的处理方法、装置、设备、介质和电子产品,可以应用于自然语言处理、机器学习等人工智能技术;本申请实施例获取待处理的医疗查询文本;由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段;将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量;对句序列中的词向量进行注意力处理,得到待解码序列;对待解码序列进行解码处理,得到答案文本。本申请中,在对待处理的医疗查询文本的句序列进行处理时,通过注意力处理关注分支任务信息与查询内容信息之间的关联性,提升答案文本的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种医疗查询文本的处理方法、装置、设备、介质和电子产品。
背景技术
近年来,自然语言处理技术已经逐渐成为人工智能领域最重要的领域之一,在搜索、翻译、推荐等方向展示出了巨大的作用和潜力。在医疗领域,也存在着如诊疗数据、医疗百科数据、疾病百科数据等的海量医疗文本数据。现有医疗文本的处理方式,通常都是通过对该医疗文本进行语义分析,以理解并处理医疗文本。
然而,在医疗查询场景中,不同医疗查询任务的医疗查询文本可能包含相同的疾病、症状等描述信息,往往难以通过语义分析进行区分,导致生成的答案文本混淆、错误。
发明内容
本申请实施例提供一种医疗查询文本的处理方法、装置、设备、介质和电子产品,可以提升答案文本的准确性。
本申请实施例提供一种医疗查询文本的处理方法,包括:获取待处理的医疗查询文本,所述待处理的医疗查询文本包括特征字段;由所述待处理的医疗查询文本,生成待处理任务文本,所述待处理任务文本包括查询内容字段、以及所述特征字段对应的目标分支任务字段;将所述待处理任务文本转化为句序列,所述句序列包括所述查询内容字段对应的词向量、以及所述目标分支任务字段对应的词向量;对所述句序列中的所述词向量进行注意力处理,得到待解码序列;对所述待解码序列进行解码处理,得到答案文本。
本申请实施例还提供一种医疗查询文本的处理装置,包括:获取单元,用于获取待处理的医疗查询文本,所述待处理的医疗查询文本包括特征字段;生成单元,用于由所述待处理的医疗查询文本,生成待处理任务文本,所述待处理任务文本包括查询内容字段、以及所述特征字段对应的目标分支任务字段;转化单元,用于将所述待处理任务文本转化为句序列,所述句序列包括所述查询内容字段对应的词向量、以及所述目标分支任务字段对应的词向量;处理单元,用于对所述句序列中的所述词向量进行注意力处理,得到待解码序列;解码单元,用于对所述待解码序列进行解码处理,得到答案文本。
本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种医疗查询文本的处理方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种医疗查询文本的处理方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种医疗查询文本的处理方法中的步骤。
本申请实施例可以获取待处理的医疗查询文本,所述待处理的医疗查询文本包括特征字段;由所述待处理的医疗查询文本,生成待处理任务文本,所述待处理任务文本包括查询内容字段、以及所述特征字段对应的目标分支任务字段;将所述待处理任务文本转化为句序列,所述句序列包括所述查询内容字段对应的词向量、以及所述目标分支任务字段对应的词向量;对所述句序列中的所述词向量进行注意力处理,得到待解码序列;对所述待解码序列进行解码处理,得到答案文本。
在本申请中,通过待处理医疗查询文本中的特征字段,确定与该特征字段对应的分支任务,以构成包含相应分支任务字段的待处理任务文本。以此,在对待处理的医疗查询文本的句序列进行处理时,可以通过注意力处理关注分支任务信息与查询内容信息之间的关联性,提升答案文本的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的医疗查询文本的处理方法的场景示意图;
图1b是本申请实施例提供的医疗查询文本的处理方法的流程示意图;
图1c是本申请实施例提供的通用任务文本的示意图;
图1d是本申请实施例提供的指定任务文本的示意图;
图1e是本申请实施例提供的由待训练的医疗查询文本处理模型训练得到中间医疗查询文本处理模型的示意图;
图1f是本申请实施例提供的由中间医疗查询文本处理模型训练得到训练后医疗查询文本处理模型本的示意图;
图1g是本申请实施例提供的由训练后的医疗查询文本处理模型处理待处理的医疗查询文本示意图;
图2a是本申请另一个实施例提供的医疗查询文本的处理方法的流程示意图;
图2b是本申请实施例提供疾病自测应用的界面示意图;
图2c是本申请实施例提供疾病自测应用的又一界面示意图;
图3是本申请实施例提供的医疗查询文本的处理装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种医疗查询文本的处理方法、装置、设备、介质和电子产品。
其中,该医疗查询文本的处理装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该医疗查询文本的处理装置还可以集成在多个电子设备中,比如,医疗查询文本的处理装置可以集成在多个服务器中,由多个服务器来实现本申请的医疗查询文本的处理方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该医疗查询文本的处理方法可以集成在服务器,该服务器可以从客户端获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段;由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段;将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量;对句序列中的词向量进行注意力处理,得到待解码序列;对待解码序列进行解码处理,得到答案文本,并将答案文本发送至客户端。
以下分别进行详细说明。需说明的是,以下实施例的次序不作为对实施例优选顺序的限定。可以理解的是,在本申请的具体实施方式中,涉及到与用户相关的主诉信息、答复信息、操作信息、医疗查询文本、医疗信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本实施例中,提供了一种涉及人工智能的医疗查询文本的处理方法,如图1b所示,该医疗查询文本的处理方法的具体流程可以如下:
110、获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段。
其中,医疗查询文本可以为指用于查询医疗信息的文本。例如,可以为问题文本、反馈文本、咨询文本等。医疗查询文本可以为词、短语、语句等形式,可以包括文字、数字、字符、符号等文本信息。医疗查询文本可以为任一语言形式的文本,如中文、英文等,也可以为不同语言混合的文本,如中英文混合的文本。本申请实施例对医疗查询文本的形式不作限制。
其中,待处理的医疗查询文本可以是任一医疗查询任务对应的文本。医疗查询任务可以指通过医疗查询文本进行医疗信息查询的任务,医疗查询任务可以包括但不限于搜索意图分类、从诊疗对话中识别实体命名、事件抽取、基于医疗对话生成报告、医疗对话生成、疾病自测等。
医疗查询任务可以包括多个分支任务,例如,以疾病自测为例,可以包括医疗问答、查询疾病概述、查询疾病症状以及疾病预测等多个分支任务。
其中,特征字段可以指待处理的医疗查询文本中能表征查询意图的字段。例如,特征字段可以包括查询问题类型、查询事件名称、查询事件特征等对应的关键词。如,在医疗查询文本中,若出现症状相关的内容,则表征该文本的查询意图是根据症状确定疾病或诊疗方式(即医疗问答)、或基于疾病的症状或概述描述预测疾病等,若出现疾病名称相关的内容,则表征该文本的查询意图是根据疾病名称确定对应的概述或症状。
可以通过多种不同方式获取医疗查询文本,本申请对医疗查询文本的获取方式不做限制,如在获得用户许可或者同意时,可以直接获取用户通过客户端(终端)输入的医疗查询文本,也可以由多媒体数据转换得到医疗查询文本,还可以从服务器或数据库获取文本信息,等等。例如,可以获取视频、音频、图像或动态图像等多种不同形式的多媒体内容,并将该多媒体内容转换为医疗查询文本。如,在知识问答场景中,可以获取用户输入的问题语音,可以将该问题语音转换为医疗查询文本。
可选地,可以设置特征字段对应的预设关键字,以根据预设关键字识别待处理的医疗查询文本中包含的特征字段。具体地,在获取待处理的医疗查询文本之前,还包括:设置特征字段对应的预设关键字。例如,以疾病预测为例,可以设置与疾病名称、症状等相关的多个预设关键字。
120、由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段。
其中,查询内容字段可以指待处理的医疗查询文本中与要查询的内容相关的字段。例如,该查询内容字段可以包括待处理的医疗查询文本的全部字段,也可以通过对待处理的医疗查询文本进行语义识别,如通过分词、词性标注、命名实体识别和词义消歧等词解析和信息处理过程,从待处理的医疗查询文本中提取的得到查询内容字段。
其中,分支任务字段可以指用于表征特征字段对应的分支任务类型的字段,可以根据需要或应用场景预设对应不同特征字段的多个分支任务字段,也可以结合特征字段对待处理的医疗查询文本语义识别,获取与特征字段关联的语义表示作为特征字段的分支任务字段。例如,以疾病自测为例,可以有医疗问答、查询疾病概述、查询疾病症状以及预测疾病等多个分支任务,这些分支任务分别对应分支任务字段“医疗问答”、“该疾病对应的概述是什么”、“该疾病对应的症状是什么”以及“基于疾病的症状描述预测疾病”。
以此,可以待处理的医疗查询文本中,提取查询内容字段以及特征字段,并确定对应特征字段的分支任务字段,以由该分支任务字段以及查询内容字段组成待处理任务文本。
可选地,为了便于区分分支任务字段和查询内容字段,可以以分隔符分隔这两个字段。分隔符可以包括竖线、分号、斜杠、delim(分隔符字符串)、</s>等符号,也可以为其他自定义的分隔符。
在一些实施方式中,可以通过匹配特征字段与预设关键字,快速确定相应的分支任务字段。具体地,由待处理的医疗查询文本,生成待处理任务文本,包括:
获取预设关键字以及预设关键字对应的分支任务字段;
确定目标关键字,目标关键字为特征字段对应的预设关键字;
将目标关键字对应的分支任务字段,作为特征字段对应的目标分支任务字段。
例如,对于医疗问答的分支任务可以设置疾病名称、症状等预设关键字,对于查询疾病概述的分支任务以及查询疾病症状的分支任务可以设置疾病名称等预设关键字,对于预测疾病的分支任务可以设置症状等预设关键字。
以待处理的医疗查询文本为“颈部肿块、斜颈,患侧眼睛下降、下颌转向健侧、双侧颜面变形、眼外角线至口角线变异”为例,该文本包含特征字段“颈部肿块”、“斜颈”、“患侧眼睛下降”、“下颌转向健侧”、“双侧颜面变形”、“眼外角线至口角线变异”等。这些特征字段均是用于描述症状的字段,因此其与预测疾病的分支任务的预设关键字匹配程度最高,因此可以确定该待处理的医疗查询文本对应的是预测疾病的分支任务,以此生成待处理任务文本“基于疾病的症状描述预测疾病</s>颈部肿块、斜颈,患侧眼睛下降、下颌转向健侧、双侧颜面变形、眼外角线至口角线变异”,其中</s>之前为特征字段对应的目标分支任务字段,</s>之后为查询内容字段。
以待处理的医疗查询文本为“花斑癣”为例,该文本包含特征字段“花斑癣”,该特征字段是疾病名称,因此可以确定该待处理的医疗查询文本对应的是查询疾病概述的分支任务,以此生成待处理任务文本“该疾病对应的概述是什么</s>花斑癣”,其中</s>之前为特征字段对应的目标分支任务字段,</s>之后为查询内容字段。
可选地,为了提高确定的分支任务字段的准确性,特征字段可以包括医疗查询场景中的提示信息,该提示信息可以指与医疗查询相关的信息如文字、图像等。例如,以疾病自测为例,用户可以通过登录疾病自测APP进行自测,在APP图形用户界面中可以显示相应的提示信息如显示选项“查询疾病症状”和选项“疾病概述”,若用户选择选项“查询疾病症状”,并输入文本“急性化脓性脊髓炎”,则确定用户选择的选项对应的分支任务字段“该疾病对应的症状是什么”,以生成任务文本“查询疾病症状,急性化脓性脊髓炎”,以此生成待处理任务文本“该疾病对应的症状是什么</s>急性化脓性脊髓炎”。
可选地,由于部分分支任务的预设关键字可能全部或部分相同,为了提高确定的分支任务字段的准确性,可以通过人工经验确定相应的分支任务字段。
可选地,由于部分分支任务的预设关键字可能全部或部分相同,为了提高确定的分支任务字段的准确性,若目标关键字对应的分支任务字段有多个,可以获取医疗查询场景中的提示信息,根据医疗查询场景中的提示信息从多个分支任务字段中确定与该提示信息对应的一个作为特征字段对应的目标分支任务字段。
可选地,为了提高确定的分支任务字段的准确性,在确定特征字段对应的目标分支任务字段的过程中,可以结合获取相应的医疗查询场景进行判断。具体地,特征字段可以包括医疗查询场景中、待处理的医疗查询文本的关联信息,由待处理的医疗查询文本,生成待处理任务文本,包括:
获取医疗查询场景中待处理的医疗查询文本的关联信息、预设关键字以及预设关键字对应的分支任务字段;
确定关联信息确定候选分支任务字段;
根据预设关键字,从候选分支任务字段中确定特征字段对应的目标分支任务字段。
其中,关联信息可以包括医疗查询场景的场景类型、医疗查询场景中的提示信息等中的至少一种。例如,场景类型可以包括医疗问答和医疗百科等,其中医疗问答可以包括医疗问答等分支任务,医疗百科可以包括查询疾病概述、查询疾病症状、预测疾病等分支任务。
例如,可以根据关联信息中的场景类型或提示信息确定相应的分支任务(或分支任务字段),并将这些分支任务作为候选分支任务(或候选分支任务字段),再由候选分支任务对应的预设关键字检测医疗查询文本中的特征字段,将对应的预设关键字与特征字段匹配度最高的候选分支任务作为目标分支任务,并将该目标分支任务对应的分支任务字段作为特征字段对应的目标分支任务字段。
130、将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量。
在得到待处理任务文本之后,可以将待处理任务文本转换为向量。例如,可以对待处理任务文本中的每个词进行向量化处理,得到句向量。在向量化过程中,查询内容字段以及目标分支任务字段中的每个词分别转换为对应的词向量,由所有词向量组成句向量。
在一些实施方式中,可以先对待处理任务文本进行分词,在编码得到多个词向量,以将待处理文本转化为多个以词语为单位的向量,提高待处理任务文本向量表征的准确性,从而提高答案文本的准确性。具体地,将待处理任务文本转化为句序列,包括:
对待处理任务文本进行分词处理,得到待处理任务文本的分词;
根据分词,对待处理任务文本进行编码处理,得到句序列。
其中,分词可以指将待处理任务文本切分得到的词语,如待处理任务文本“该疾病对应的概述是什么</s>花斑癣”,可以经过分词得到多个分词的组成的句序列,如{该,疾病,对应,的,概述,是,什么,花斑癣},分词也可以以词典中的ID表示,以此句序列也可以为表征文本的ID序列。
在实际应用中,可以通过多种不同的编码方式对分词进行编码处理。例如,可以通过Word2Vec或编码器等对待处理任务文本中的分词进行编码处理,得到句序列。若待处理任务文本中包括分隔符,在分词处理过程中,该分隔符也可以转换为字典中对应的ID。
例如,在对待处理任务文本构建多个词向量时,可以以词语为最小单位进行分词处理,常用的分词处理工具可以为分词器(tokenizer),分词器可以将文本分解成词,以将文本转换为ID序列。如,将待处理文本输入分词器后,转换成字典中对应的ID序列,比如“基于疾病的概述描述预测疾病</s>该疾病是因风吹受凉而引起的感冒,秋冬发生较多。其症状为浑身酸痛、鼻塞流涕、咳嗽有痰……”可以转换得到ID序列[86,149,160,232,……],其中,ID序列中的每个数字表示一个分词对应的ID。
在一些实施方式中,可以在词向量中添加分词位置的表示,以使词向量能表征其位置信息,提高待处理任务文本向量表征的准确性,从而提高答案文本的准确性。具体地,根据分词,对待处理任务文本进行编码处理,得到句序列,包括:
对分词进行嵌入处理,得到分词的初始向量;
获取分词在待处理任务文本中的位置,生成分词的位置向量;
针对每个分词,将分词对应的初始向量以及位置向量进行加和,得到分词对应的词向量;
由所有分词对应的词向量,构成句序列。
例如,可以通过Word2Vec、Glove等方法对每个分词进行嵌入处理,以N维向量表示每个分词,得到每个分词的初始向量即词嵌入向量(word embedding),并由每个分词在待处理任务文本中的位置,生成每个分词的位置向量,由每个分词的词嵌入向量和位置向量相加得到该分词的词向量。
分词的位置向量可以为由绝对位置方法或相对位置方法得到的位置向量。其中,绝对位置方法是将输入的分词的绝对位置从1编码到最大序列长度,即每个位置都有一个单独的编码向量(绝对位置向量)。然后将绝对位置向量与词嵌入向量组合得到词向量。相对位置方法使对输入元素之间的相对距离进行编码,学习符号之间的成对关系,如可以由self-attention(自注意力)机制中的K(Key)和Q(Query)之间的偏移量计算得到相对位置向量,K用来学习其他元素和本身之间的关系,V则是表示每个元素的特定信息,元素对应本申请实施例的每个分词。
可选地,分词的位置向量为相对位置的向量。以此,通过相对位置向量表示位置的内部顺序和相邻关系,增强自注意力,提高词向量表征的准确性。
140、对句序列中的词向量进行注意力处理,得到待解码序列。
例如,可以将多个词向量组成的句序列输入注意力网络进行注意力处理,输出待解码序列。通过注意力处理,学习句序列中不同词向量之间的联系,关注分支任务信息与查询内容信息词向量之间的关联性,提升确定的待解码序列的表达能力和准确性。
注意力网络可以为可以执行注意力计算的网络,是基于注意力机制构建的网络,可以为注意力层或包含注意力层的网络,例如,CBAM网络(Convolutional BlockAttention Module,轻量注意力网络)、SE网络(Squeeze-and-Excitation)、Transformer网络(多头注意力网络)等。
可选地,可以通过多头注意力网络对句序列中的词向量进行全局注意力处理,得到待解码序列。通过全局注意力处理可以有效捕捉句序列全局的结构信息,以更好地进行注意力学习,提升确定的待解码序列的表达能力和准确性。
在一些实施方式中,可以通过线性变化确定注意力权重,以计算得到待解码序列。具体地,对句序列中的词向量进行注意力处理,得到待解码序列,包括:
获取多个初始参数矩阵;
根据初始参数矩阵,对句序列进行线性变换,得到注意力权重;
根据注意力权重,对句序列中的词向量进行权重处理,得到待解码序列。
其中,初始参数矩阵是指可以用来确定注意力权重的参数矩阵。在神经网络技术中,在通过注意力网络处理输入的词向量时,通常可以通过预先设置或者对包含注意力层的神经网络模型训练得到初始参数矩阵,并通过初始参数矩阵计算得到注意力权重。
例如,在使用多头注意力网络处理输入的句序列时,可以通过预训练的多头注意力网络得到初始参数矩阵WQ(请求向量参数矩阵)、WK(键向量参数矩阵)以及WV(值向量参数矩阵)。通过对WQ、WK以及WV分别对句序列进行线性变换,可以分别得到注意力权重Q(请求向量序列)、K(键向量序列)以及V(值向量序列)。假设X∈Rn×d是一个输入的样本序列(即句序列),样本即是词向量,其中n为样本个数(序列长度),d为单个样本纬度。Query、Key以及Value定义为:Query:Q=X×WQ,其中WQ∈Rd×dq,Key:K=X×WK,其中WK∈Rd×dk,Value:V=X×WK,其中WK∈Rd×dv。对于多头注意力网络,可以将句序列中的每个词向量乘以各个权重矩阵(WQ、WK、WV),如X乘W0 Q转化为Q0。通过Q、K、V矩阵计算注意力,如将句序列中的任一个词向量的K、V与其他词向量的Q计算注意力,得到Z矩阵(Z0、…、Z5),将所有注意力头(Z0、…、Z5)拼接,乘以权重矩阵W0,得到该词向量对应的自注意力向量,由句序列中的所有词向量所对应的自注意力向量组合得到待解码序列。
150、对待解码序列进行解码处理,得到答案文本。
例如,可以将待解码序列输入多个解码器中,得到多个候选答案序列,并从多个候选答案序列中确定分值最高的答案序列作为目标答案序列,并将该答案序列转化为答案文本。确定分值最高的答案序列的过程可以为:例如,通过前馈神经网络对多个候选答案序列进行分类处理,经Softmax函数归一化处理后,输出每个候选答案序列对应的分值,最后将最高分值的候选答案序列换成字典中对应的词语,以输出最后的答案文本。以结构化查询语句形式输出;再如,也可以通过Beam Search(集束搜索)算法,在解码的每一步,保存预测概率最大的k个topK可能结果(候选答案序列),最后从多个可能结果中取预测得分最高的结果(目标答案序列)返回,也可以将k个可能结果全部返回,如目标答案序列可以为ID序列,可以由该ID序列转换为相应的答案文本。
可选地,本申请实施例的医疗查询文本的处理可以应用在知识问答场景,在得到待处理的医疗查询文本对应的答案文本之后,可以将答案文本返回给用户。
在一些实施方式中,可以通过多步解码处理过程,逐步筛选可能的答案序列,以通过多步解码提升答案文本的准确性,且每次解码处理仅选取部分答案序列用于下次解码,可以减少计算量。具体地,对待解码序列进行解码处理,得到答案文本,包括:
对待解码序列进行多次解码处理;
在每次解码处理过程中,从解码得到的中间答案中选取预设数量的中间答案用于下一次解码处理;
在最后一次解码得到的中间答案中,选取满足预设条件的中间答案,作为候选答案;
根据候选答案,确定答案文本。
其中,预设数量可以指根据应用场景或实际需要设置的数量,如为预设顺序选取的预设个数,如预设数量可以为top-k中的k,即前k个,k为正整数。
其中,预设条件可以指根据应用场景或实际需要设置的条件,如预设条件为分值最高的或概率最高。
例如,以字典为[A,B,C,D,E]为例,预设数量指概率最大的2个。在对待解码序列进行解码处理后,可以从字典中选择概率最大的2个词如A和B,输入下一解码处理中,分别得到[AA,AB,AC,AD,AE,BA,BB,BC,BD,BE]这十种组合结果,可以从中选择概率最大的2个组合结果如AB和BE,输入下一解码过程,以此类推直至最后一次解码处理(如遇到结束标识符停止),从最后一次解码处理中选择概率最大的组合结果作为目标答案序列,可以根据字典将该目标答案序列转换为答案文本。也可以将概率最大的2个组合都作为目标答案序列,并根据字典将目标答案序列转换为答案文本,以向用户推荐多种可能的答案,便于用户选择。
可选地,可以基于注意力机制对待解码序列进行解码处理,以提升确定的待解码序列的表达能力和准确性。具体地,每一次解码处理过程可以为:获取解码处理过程对应的多个初始参数矩阵,根据初始参数矩阵,对输入该层的向量进行线性变换,得到该解码处理过程对应的注意力权重,根据该注意力权重,对输入该解码处理过程的向量中的词向量进行权重处理,得到该解码处理过程的输出结果,最后一次解码处理过程输出的为待解码序列。
在实际应用中,可以通过多种方式对待训练的医疗查询文本处理模型进行训练,得到训练后的医疗查询文本处理模型,以使用训练后的医疗查询文本处理模型执行对待处理医疗查询任务的处理过程。通常,可以使用通用的医疗数据集如中文医疗任务集CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)对医疗查询文本模型进行训练。然而,这种通过通用医疗数据集进行训练的方式,缺乏可扩展性,可预测的结果通常是固定的,模型性能受限于有限的通用医疗任务。其中,CBLUE包括16个医疗相关任务,包括分类、命名实体识别、事件抽取、基于医疗对话生成报告、对话生成等。
在本申请实施例中,可以基于通用任务文本以及指定医疗查询任务对应的指定任务文本,对待训练的医疗查询文本处理模型进行训练,以通过融合多种医疗查询任务以及训练用医疗查询文本的训练过程,使其他医疗查询任务的特征迁移至训练用医疗查询文本对应的指定医疗查询任务上,从而共享知识达到知识迁移目的,以增加医疗查询文本处理模型对医疗查询任务处理的扩展性。具体地,获取待处理的医疗查询文本之前,对待训练的医疗查询文本处理模型进行训练的方法,如下:
获取待训练的医疗查询文本处理模型、训练用医疗查询文本以及多个医疗查询任务的通用任务文本,多个医疗查询任务包括指定医疗查询任务,指定医疗查询任务包括特征字段对应的目标分支任务;
由训练用医疗查询文本,生成对应指定医疗查询任务的指定任务文本;
通过通用任务文本以及指定任务文本,训练待训练的医疗查询文本处理模型,得到训练后的医疗查询文本处理模型,训练后的医疗查询文本处理模型用于处理待处理的医疗查询文本。
其中,通用任务文本可以指由通用任务数据集构成的任务文本。训练用医疗查询文本可以指用于训练医疗查询文本处理模型的医疗查询文本。其中,指定医疗查询任务可以指根据需要或应用场景从多个医疗查询任务中确定的一种或多种医疗查询任务。
例如,医疗查询任务可以包括但不限于搜索意图分类、从诊疗对话中识别命名实体、医疗对话生成、疾病自测等,每个医疗查询任务可以包括多种分支任务。以指定医疗查询任务为疾病自测为例,可以包括医疗问答、查询疾病概述、查询疾病症状以及疾病预测等多个分支任务,其中可以将疾病预测作为目标分支任务。
可以由现有的有标注数据如医疗任务数据集,设计生成如图1c所示的通用任务文本的“任务描述字段</s>输入文本”,其中</s>是区隔符,任务描述字段即为通用分支任务字段,输入文本即为第一内容字段,</s>前面的字段告诉模型当前任务是什么,而</s>后面是本次任务的输入文本。
可以将与疾病自测相关的无标注数据如疾病百科和症状百科等信息作为训练用医疗查询文本,并将其转换为对应指定医疗查询任务的指定任务文本。例如,如图1d所示,将医疗问答转换为指定任务文本:“医疗问答</s>问题”,将疾病概述转换为指定任务文本“该疾病对应的概述是什么</s>疾病名称”、或“基于疾病的概述描述预测疾病</s>疾病概述”,其中,</s>前面的字段为指定分支任务字段,</s>后面的字段为第二内容字段。
以此,通过多任务的有标注数据以及无标注数据对医疗查询文本处理模型进行训练,能够提升训练后的医疗查询文本处理模型的疾病预测范围。
在一些实施方式中,可以先通过通用任务文本以及指定训练任务文先对医疗查询文本处理模型进行一次训练,再通过目标分支任务对应的通用任务调整医疗查询文本处理模型,以提升医疗查询文本处理模型对目标分支任务对应的医疗待查询文本处理的准确率。具体地,通过通用任务文本以及指定任务文本,训练待训练的医疗查询文本处理模型,得到训练后的医疗查询文本处理模型,包括:
将通用任务文本以及指定任务文本进行组合,得到组合文本集;
通过组合文本集,训练待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型;
通过目标分支任务对应的通用任务文本,训练中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型。
例如,如图1e所示,以目标分支任务为疾病预测为例,可以由医疗数据集生成对应目标分支任务以及其他任务的通用任务文本,由疾病自测相关的医疗查询文本生成指定任务文本,可以将通用任务文本以及指定任务文本拼接后,得到组合文本集,将组合文本集输入待训练的医疗查询文本处理模型进行一次训练,得到中间医疗查询文本处理模型。再如图1f所示,将疾病预测对应的通用任务文本输入中间医疗查询文本处理模型进行一次训练,得到训练后的医疗查询文本处理模型。以此,通过两次训练来调整医疗查询文本处理模型,以提升医疗查询文本处理模型对疾病预测对应的医疗查询文本处理的准确率。
可选地,为了增加训练后的医疗查询文本处理模型的应用范围,在对中间医疗查询文本处理模型进行训练时,也可以通过指定医疗查询任务对应的通用任务文本,训练中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型。以此,该模型可以用于识别指定医疗查询任务下的所有分支任务。在使用该模型处理待处理的医疗查询文本时,可以根据输入的任务文本携带的目标分支任务字段进行相应注意力处理,以得到与该目标分支任务字段匹配的答案文本,以此可以提升对不同任务的医疗查询文本处理的准确性。
在一些实施方式中,待训练的医疗查询文本处理模型包括编码网络、注意力网络以及解码网络,通过组合文本集,训练待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型,包括:
将组合文本集输入待训练的医疗查询文本处理模型;
通过编码网络,将组合文本集中的任务文本转化为句序列;
通过注意力网络,对句序列中的词向量进行注意力处理,得到待解码序列;
通过解码网络,将待解码序列转换为预测文本;
通过解码网络,根据预测文本,调整待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型。
其中,预测文本可以指在对医疗查询文本处理模型训练过程中,由待解码序列解码得到的答案文本。
需说明的是,步骤通过组合文本集,训练待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型,与步骤通过目标分支任务对应的通用任务文本,训练中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型具体处理过程相同,仅输入医疗查询文本处理模型的查询文本不同,以此,对步骤通过目标分支任务对应的通用任务文本,训练中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型的具体实现方式不再赘述。步骤将组合文本集中的任务文本转化为句序列以及对句序列中的词向量进行注意力处理,得到待解码序列可以参见对医疗查询文本处理模型处理过程的相应描述,在此不再赘述。
可选地,在得到训练后的医疗查询文本处理模型后,如图1g所示,可以将由待处理的医疗查询文本得到的待处理任务文本输入训练后的医疗查询文本处理模型,经编码网络以及注意力网络等处理后,解码得到k个ID序列并转换为k个答案文本返回至客户端。
可选地,注意力网络可以为多头注意力网络中的编码器,解码网络可以为多头注意力网络中的解码器。例如,多头注意力网络可以为包含Encoder-Decoder(编码器-解码器)结构的框架。可以通过编码网络将组合文本集中的任务文本分别转换为句序列。对于每个句序列可以通过多头注意力网络中的编码器对句序列编码得到一个长度恒定的向量,再由多头注意力网络中的解码器解码输出新的句序列(即待解码序列),再将该新的句序列转换为模型的预测文本。
可选地,多头注意力网络可以中编码器可以由多个编码层堆叠而成、解码器可以由多个解码层堆叠而成,通过多层堆叠处理,可以更好地学习的向量表示,提升获取的答案文本的正确率。其中,编码器可以逐个编码层对输入的向量进行编码,得到各编码层输出的向量,输入编码器的句序列经过第一个编码曾处理后,输入下一编码层处理,直至输入所有的编码层处理后得到输入解码器的向量;解码器可以逐层对输入的向量进行解码,得到各解码层输出的向量,解码器的输出结果经过一个解码层处理后得到的向量,输入下一解码层处理,直至输入所有的解码层处理后得到待解码序列。需说明的是,每个解码层的处理过程可以对应前述的解码处理过程。
每个编码层和解码层都可以基于注意力机制对输入的向量进行处理,具体地,每个编码层可以至少包含多头注意力层,每个解码层可以至少包含遮蔽多头注意力层以及多头注意力层。在每个遮蔽多头注意力层以及多头注意力层中,可以获取该层对应的多个初始参数矩阵,根据初始参数矩阵,对输入该层的向量进行线性变换,得到该层对应的注意力权重,根据该注意力权重,对输入该层的向量中的词向量进行权重处理,得到该层的输出结果,最后一层解码器输出的为待解码序列。
在一些实施方式中,通用任务文本包括通用分支任务字段、第一内容字段以及第一期望输出字段,指定任务文本包括指定分支任务字段、第二内容字段以及第二期望输出字段。
例如,对于通用任务文本,由于各个医疗查询任务的输出差异比较大,因此可以针对不同分支任务设计相应的输出格式,该输出格式可以为如图1c所示的第一期望输出字段,并可以将第一期望输出字段添加在通用任务文本中。对于指定任务文本,对于医疗问答,输入格式为“医疗问答</s>问题”,输出为医生的回答,其中医疗问答为指定分支任务字段,问题为第二内容字段;而对于医疗百科,可以将疾病和症状的各种属性转换成一问一答的形式。以疾病概述为例,输入输出有两种情况:输入格式为“该疾病对应的概述是什么</s>疾病名称”,输出为该疾病对应的疾病概述;输入格式为“基于疾病的概述描述预测疾病</s>疾病概述”,可以将疾病概述中的疾病名称用“该疾病”替换掉,输出是疾病名称,其中该疾病对应的概述是什么或疾病概述中的疾病名称为指定分支任务字段,疾病名称或疾病概述为第二内容字段。并且,可以将该输出医生的回答、该疾病对应的疾病概述以及疾病名称等的输出以如图1d所示第二期望输出字段表示,并将第二期望输出字段添加在指定任务文本中。
需说明的是,由于训练过程中的任务文本包含相应的期望输出字段,因此在医疗查询文本处理模型的训练过程中,可以直接获取相应的输出字段,在该过程中并不包含步骤对待解码序列进行解码处理。
可选地,通用任务文本和通用任务文本在编码处理后可以为三元组(prefix,input,target)的形式,其中prefix表征分支任务字段,input表征内容字段,target表征期望输出字段。
在一些实施方式中,通用任务文本和指定任务文本之中加入期望输出字段,也可以通过该期望输出字段对医疗查询文本模型进行有监督学习,当医疗查询文本模型的输出的预测文本与期望输出字段收敛时,得到训练后的医疗查询文本模型。具体地,通过输出网络,根据解码处理结果,调整待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型,包括:
通过预设的损失函数,计算预测文本以及预测文本对应的期望输出字段之间的损失值;
根据损失值,调整待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型。
其中,预设的损失函数是指预先设置的用于评价模型训练是否完成的函数,例如,在有监督学习时,预设的损失函数可以用来评价模型的预测值和真实值不一样的程度,可以为任意一种损失函数,例如,log对数损失函数、平方损失函数、指数损失函数或Hinge损失函数,等等,可以根据具体需要设置。
例如,可以将预测文本对应的期望输出字段作为真实值,如可以从预测文本对应的通用任务文本或指定任务文本中获取相应的第一期望输出字段或第二期望输出字段作为真实值,将预测文本作为预测值,根据预设的损失函数计算损失函数值,或者预设的损失函数也可以用来评价医疗查询文本处理模型是否收敛。需说明的是,在对医疗查询文本模型训练的过程中,会不断调整模型参数以使损失函数收敛,得到训练后的医疗查询文本模型。
可选地,预设的损失函数包括第一损失函数以及第二损失函数,第一损失函数用于对期望输出字段以及预测文本进行收敛,第二损失函数用于对医疗查询文本模型进行收敛。
可选地,预设的损失函数为交叉熵(cross-entropy)函数,如下:
其中,P(i)是第i个词的真实标签词概率,Q(i)是第i个词的预测概率。
本申请实施例提供的医疗查询文本的处理方案可以应用在各种医疗查询文本处理场景中。比如,以疾病预测为例,获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段;由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段;将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量;对句序列中的词向量进行注意力处理,得到待解码序列;对待解码序列进行解码处理,得到答案文本。
由上可知,本申请实施例可以通过待处理医疗查询文本中的特征字段,确定与该特征字段对应的分支任务,以构成包含相应分支任务字段的待处理任务文本。以此,在对待处理的医疗查询文本的句序列进行处理时,可以通过注意力处理关注分支任务信息与查询内容信息之间的关联性,提升答案文本的准确性。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以目标分支任务为医疗问答为例,对本申请实施例的方法进行详细说明。
如图2a所示,一种医疗查询文本的处理方法具体流程如下:
210、获取待训练的医疗查询文本处理模型、对应指定医疗查询任务的指定任务文本以及多个医疗查询任务的通用任务文本。
例如,可以由中文医疗任务集CBLUE构成多种医疗任务的通用任务文本,多种医疗任务包括疾病自测任务(即指定医疗查询任务),疾病自测任务包括医疗问答、查询疾病概述、查询疾病症状以及疾病预测等多个分支任务。可以由在线医疗问答、医疗百科以及疾病百科等多个途径获取训练用医疗查询文本,并由训练用医疗查询文本构成疾病自测任务对应的指定任务文本。
待训练的医疗查询文本处理模型可以包括编码网络、注意力网络以及解码网络。其中,待训练的医疗查询文本处理模型可以为在大规模中文语料上经过预训练模型,注意力网络可以为多头注意力网络的编码器,解码网络可以为多头注意力网络的解码器。
220、将通用任务文本以及指定任务文本进行组合,得到组合文本集。
例如,可以将通用任务文本以及指定任务文本拼接后得到组合文本集。
230、通过组合文本集,训练待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型。
例如,组合文本集中的文本经过分词器(tokenizer)之后转换成字典中对应的输入IDs(句序列),如将“基于疾病的概述描述预测疾病</s>该疾病是因风吹受凉而引起的感冒,秋冬发生较多。其症状为浑身酸痛、鼻塞流涕、咳嗽有痰……”转换为[86,149,160,232,……](</s>也对应一个字符)。多头注意力网络的编码器对输入IDs进行编码得到一个长度恒定的向量。多头注意力网络的解码器对向量进行解码并经softmax处理后输出概率最高的IDs(待解码序列),比如[0,320,1670,3664,900,25,121,432,26],再由解码网络将输出IDs转换成对应的文本即为模型的预测文本(答案文本)。基于模型的预测结果和期望的输出使用交叉熵(cross-entropy)函数计算损失(loss),公式如下:
其中,P(i)是第i个词的真实标签词概率,Q(i)是第i个词的预测概率。
240、通过目标分支任务对应的通用任务文本,训练中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型。
例如,可以将医疗问答对应的通用任务文本作为中间医疗查询文本处理模型的输入,采用与步骤230相同的训练过程,训练得到训练后的医疗查询文本处理模型。
可以在训练后的医疗查询文本处理模型注意力网络的解码器中加入Beam Search算法,以使得训练后的医疗查询文本处理模型可以结合Beam Search算法进行解码处理。
250、获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段。
例如,如图2b中的(1)所示,在疾病自测应用的主界面显示由疾病自测控件,用户可以触控该控件,切换至如图2b中的(2)所示的疾病自测的问答页面。该页面可以生成相应的问题信息,用户可以根据该问题信息输入主诉“膝盖一直疼”(即进行首次答复)。针对该主诉中的关键字“膝盖”以及“疼”可以生成相关问题的多个选项,以辅助用户进行针对性的答复。若用户选择“膝关节疼痛”,并点击页面中的确定控件,可以进入如图2b中的(3)所示的下一问答页面。在该问答页面中,可以生成该疾病的场景问题以便用户针对性答复。在用户答复问题后,可以由问题信息以及用户的答案生成相应的待处理的医疗查询文本发送至服务器。如,待处理的医疗查询文本可以为“疾病自测中的医疗问答场景”+“膝关节疼痛,膝关节疼痛的疼痛症状持续15天,膝关节疼痛出现的诱因是活动,行走及劳累的情况下膝关节疼痛加重,伴有的症状是膝关节活动受限,膝关节肿胀”,也可以从该文本中提取关键字后组成待处理的医疗查询文本。
260、由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段。
例如,可以由前述的待处理的医疗查询文本生成待处理任务文本“医疗问答</s>膝关节疼痛,膝关节疼痛的疼痛症状持续15天,膝关节疼痛出现的诱因是活动,行走及劳累的情况下膝关节疼痛加重,伴有的症状是膝关节活动受限,膝关节肿胀”,并将该待处理任务文本输入训练后的医疗查询文本处理模型进行处理。
270、通过编码网络,将待处理任务文本转化为句序列。
例如,可以通过编码网络,对待处理任务文本进行分词处理,并将每个词转换为相应的向量,得到句序列。
280、通过注意力网络,对句序列中的词向量进行注意力处理,得到待解码序列。
例如,可以通过多头注意力网络的编码器对句序列编码得到一个长度恒定的向量,再由多头注意力网络中的解码器解码输出新的句序列(即待解码序列)。
290、通过解码网络,对待解码序列进行解码处理,得到答案文本。
例如,解码网络可以为基于Beam Search(集束搜索)算法的多头注意力网络的解码器。在该解码网络中,可以根据验证集来调整解码方法的参数。本申请实施例中可以设置BeamSearch算法的主要参数为:{"no_repeat_ngram_size":2,"remove_invalid_values":True,"num_beams":6,"ear ly_stopping":True,"num_return_sequences":6},其中no_repeat_ngram_size是指n-gram惩罚参数,remove_invalid_values是指删除有效值,num_beams是指束宽,early_stopping是指提前停止参数,num_return_sequences是指要生成的样本数。解码网络可以基于自回归生成,通过如下公式计算联合概率:
其中,T为生成文本的长度,W0是多头注意力网络中的编码器生成的向量,w1是生成的第一个词,w1:是生成的第一个词到第T个词组成的字符串,P(w1:T|W0)是模型生成该字符串的条件概率,P(wt|w1:t-1,W0)是模型生成第t个词的条件概率。
以此,可以根据上述函数计算并返回在长度为T的情况下联合概率分布最大的N个结果(N=num_beams)。自回归生成假设一个句子的联合概率分布可以被分解为许多条件分布的乘积形式。
例如,可以选择解码网络返回的联合概率分布最大的两个结果作为答案文本。如图2c所示,解码网络可以返回对应医疗问答任务的两个答案文本“骨科”和“外科”,并显示两个答案对应的概率,以供用户参考。再如,也可以为待处理医疗查询文本构建多个分支任务的待处理任务文本,对由训练后的医疗查询文本处理模型处理后,得到对每个分支任务对应的答案文本。如图2c所示,可以根据应用场景构建医疗问答任务和疾病预测两个任务,分别生成相应的待处理任务文本,输入训练后的医疗查询文本处理模型处理后,分别输出医疗问答任务对应的两个答案文本“骨科”和“外科”,以及疾病预测任务对应的两个答案文本“关节炎”和“软组织挫伤”。以此,可以基于疾病自测应用获取的信息,进行疾病预测和诊疗科室体检,提供多样化的疾病自测协助。
为了验证本申请实施例的效率,将本申请实施例的训练后的医疗查询文本处理模型与现有的医疗查询文本处理模型进行比较,结果如下表:
准确率(ACCURACY@top1) | |
现有的医疗查询文本处理模型 | 0.56 |
本申请实施例的模型 | 0.64 |
由上表可以看出,本申请实施例的模型对医疗查询文本处理得到的答案文本的准确率更高。此外,本申请实施例的模型不仅准确率要高,而且由于加入了通用医疗数据进行训练,预测的疾病范围不受限制。所使用到文本数据中所涉及到疾病近一万,远多于其他医疗查询文本处理模型的预测范围。另外,本申请实施例的模型不仅可以进行医疗问答、疾病预测等任务,还可以同时处理其他的医疗任务(改变输入字段中</s>之前的任务字段即可),以此,可以使用一个模型应对多个医疗任务,极大的减少资源的浪费。
由上可知,本申请实施例可以将医疗问答、疾病预测以及其他医疗相关任务转换成文本到文本的形式,然后通过多任务的训练来将其他医疗任务的知识迁移到疾病预测上从而提升疾病预测的准确率。通过结合通用任务文本以及指定任务文本,为指定医疗任务的训练过程添加更多的通用医疗数据以丰富模型的医疗知识,从而共享知识达到知识迁移目的,提升训练后的医疗查询文本处理模型的预测范围和准确率。
为了更好地实施以上方法,本申请实施例还提供一种医疗查询文本的处理装置,该医疗查询文本的处理装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以医疗查询文本的处理装置具体集成在服务器为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该医疗查询文本的处理装置可以包括获取单元310、生成单元320、转化单元330、处理单元340以及解码单元350,如下:
(一)获取单元310
可以用于获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段。
(二)生成单元320
可以用于由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段。
在一些实施方式中,生成单元320具体可以用于:
获取预设关键字以及预设关键字对应的分支任务字段;
确定目标关键字,目标关键字为特征字段对应的预设关键字;
将目标关键字对应的分支任务字段,作为特征字段对应的目标分支任务字段。
(三)转化单元330
可以用于将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量。
在一些实施方式中,转化单元330具体可以用于:
对待处理任务文本进行分词处理,得到待处理任务文本的分词;
根据分词,对待处理任务文本进行编码处理,得到句序列。
在一些实施方式中,根据分词,对待处理任务文本进行编码处理,得到句序列,包括:
对分词进行嵌入处理,得到分词的初始向量;
获取分词在待处理任务文本中的位置,生成分词的位置向量;
针对每个分词,将分词对应的初始向量以及位置向量进行加和,得到分词对应的词向量;
由所有分词对应的词向量,构成句序列。
(四)处理单元340
可以用于对句序列中的词向量进行注意力处理,得到待解码序列。
在一些实施方式中,处理单元340具体可以用于:
获取多个初始参数矩阵;
根据初始参数矩阵,对句序列进行线性变换,得到注意力权重;
根据注意力权重,对句序列中的词向量进行权重处理,得到待解码序列。
(五)解码单元350
可以用于对待解码序列进行解码处理,得到答案文本。
在一些实施方式中,解码单元350具体可以用于:
对待解码序列进行多次解码处理;
在每次解码处理过程中,从解码得到的中间答案中选取预设数量的中间答案用于下一次解码处理;
在最后一次解码得到的中间答案中,选取满足预设条件的中间答案,作为候选答案;
根据候选答案,确定答案文本。
在一些实施方式中,该医疗查询文本的处理装置还可以包括训练单元,训练单元可以用于:
获取待训练的医疗查询文本处理模型、训练用医疗查询文本以及多个医疗查询任务的通用任务文本,多个医疗查询任务包括指定医疗查询任务,指定医疗查询任务包括特征字段对应的目标分支任务;
由训练用医疗查询文本,生成对应指定医疗查询任务的指定任务文本;
通过通用任务文本以及指定任务文本,训练待训练的医疗查询文本处理模型,得到训练后的医疗查询文本处理模型,训练后的医疗查询文本处理模型用于处理待处理的医疗查询文本。
在一些实施方式中,通过通用任务文本以及指定任务文本,训练待训练的医疗查询文本处理模型,得到训练后的医疗查询文本处理模型,包括:
将通用任务文本以及指定任务文本进行组合,得到组合文本集;
通过组合文本集,训练待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型;
通过目标分支任务对应的通用任务文本,训练中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型。
在一些实施方式中,待训练的医疗查询文本处理模型包括编码网络、注意力网络以及解码网络,通过组合文本集,训练待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型,包括:
将组合文本集输入待训练的医疗查询文本处理模型;
通过编码网络,将组合文本集中的任务文本转化为句序列;
通过注意力网络,对句序列中的词向量进行注意力处理,得到待解码序列;
通过解码网络,将待解码序列转换为预测文本;
通过解码网络,根据预测文本,调整待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型。
在一些实施方式中,通用任务文本包括通用分支任务字段、第一内容字段以及第一期望输出字段,指定任务文本包括指定分支任务字段、第二内容字段以及第二期望输出字段。
在一些实施方式中,通过解码网络,根据预测文本,调整待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型,包括:
通过预设的损失函数,计算预测文本以及预测文本对应的期望输出字段之间的损失值;
根据损失值,调整待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由此,本申请实施例可以通过待处理医疗查询文本中的特征字段,确定与该特征字段对应的分支任务,以构成包含相应分支任务字段的待处理任务文本。以此,在对待处理的医疗查询文本的句序列进行处理时,可以通过注意力处理关注分支任务信息与查询内容信息之间的关联性,提升答案文本的准确性。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该医疗查询文本的处理装置还可以集成在多个电子设备中,比如,医疗查询文本的处理装置可以集成在多个服务器中,由多个服务器来实现本申请的医疗查询文本的处理方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器410是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行服务器的各种功能和处理数据。在一些实施例中,处理器410可包括一个或多个处理核心;在一些实施例中,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
存储器420可用于存储软件程序以及模块,处理器410通过运行存储在存储器420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器420还可以包括存储器控制器,以提供处理器410对存储器420的访问。
服务器还包括给各个部件供电的电源430,在一些实施例中,电源430可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块440,该输入模块440可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块450,在一些实施例中通信模块450可以包括无线模块,服务器可以通过该通信模块450的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器410会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中,并由处理器410来运行存储在存储器420中的应用程序,从而实现各种功能,如下:
获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段;由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段;将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量;对句序列中的词向量进行注意力处理,得到待解码序列;对待解码序列进行解码处理,得到答案文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例可以通过待处理医疗查询文本中的特征字段,确定与该特征字段对应的分支任务,以构成包含相应分支任务字段的待处理任务文本。以此,在对待处理的医疗查询文本的句序列进行处理时,可以通过注意力处理关注分支任务信息与查询内容信息之间的关联性,提升答案文本的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种医疗查询文本的处理方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理的医疗查询文本,待处理的医疗查询文本包括特征字段;由待处理的医疗查询文本,生成待处理任务文本,待处理任务文本包括查询内容字段、以及特征字段对应的目标分支任务字段;将待处理任务文本转化为句序列,句序列包括查询内容字段对应的词向量、以及目标分支任务字段对应的词向量;对句序列中的词向量进行注意力处理,得到待解码序列;对待解码序列进行解码处理,得到答案文本。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序/指令,该计算机程序/指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序/指令,处理器执行该计算机程序/指令,使得该计算机设备执行上述实施例中提供各种可选实现方式中提供的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种医疗查询文本的处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种医疗查询文本的处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种医疗查询文本的处理方法、装置、设备、介质和电子产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种医疗查询文本的处理方法,其特征在于,包括:
获取待处理的医疗查询文本,所述待处理的医疗查询文本包括特征字段;
由所述待处理的医疗查询文本,生成待处理任务文本,所述待处理任务文本包括查询内容字段、以及所述特征字段对应的目标分支任务字段;
将所述待处理任务文本转化为句序列,所述句序列包括所述查询内容字段对应的词向量、以及所述目标分支任务字段对应的词向量;
对所述句序列中的所述词向量进行注意力处理,得到待解码序列;
对所述待解码序列进行解码处理,得到答案文本。
2.如权利要求1所述的医疗查询文本的处理方法,其特征在于,所述将所述待处理任务文本转化为句序列,包括:
对所述待处理任务文本进行分词处理,得到所述待处理任务文本的分词;
根据所述分词,对所述待处理任务文本进行编码处理,得到句序列。
3.如权利要求2所述的医疗查询文本的处理方法,其特征在于,所述根据所述分词,对所述待处理任务文本进行编码处理,得到句序列,包括:
对所述分词进行嵌入处理,得到所述分词的初始向量;
获取所述分词在所述待处理任务文本中的位置,生成所述分词的位置向量;
针对每个所述分词,将所述分词对应的所述初始向量以及所述位置向量进行加和,得到所述分词对应的词向量;
由所有所述分词对应的词向量,构成句序列。
4.如权利要求1所述的医疗查询文本的处理方法,其特征在于,所述对所述句序列中的所述词向量进行注意力处理,得到待解码序列,包括:
获取多个初始参数矩阵;
根据初始参数矩阵,对所述句序列进行线性变换,得到注意力权重;
根据注意力权重,对所述句序列中的所述词向量进行权重处理,得到待解码序列。
5.如权利要求1所述的医疗查询文本的处理方法,其特征在于,所述对所述待解码序列进行解码处理,得到答案文本,包括:
对所述待解码序列进行多次解码处理;
在每次解码处理过程中,从解码得到的中间答案中选取预设数量的所述中间答案用于下一次解码处理;
在最后一次解码得到的所述中间答案中,选取满足预设条件的所述中间答案,作为候选答案;
根据所述候选答案,确定答案文本。
6.如权利要求1所述的医疗查询文本的处理方法,其特征在于,所述由所述待处理的医疗查询文本,生成待处理任务文本,包括:
获取预设关键字以及所述预设关键字对应的分支任务字段;
确定目标关键字,所述目标关键字为所述特征字段对应的所述预设关键字;
将所述目标关键字对应的所述分支任务字段,作为所述特征字段对应的目标分支任务字段。
7.如权利要求1所述的医疗查询文本的处理方法,其特征在于,所述获取待处理的医疗查询文本之前,还包括:
获取待训练的医疗查询文本处理模型、训练用医疗查询文本以及多个医疗查询任务的通用任务文本,所述多个医疗查询任务包括指定医疗查询任务,所述指定医疗查询任务包括所述特征字段对应的目标分支任务;
由所述训练用医疗查询文本,生成对应所述指定医疗查询任务的指定任务文本;
通过所述通用任务文本以及所述指定任务文本,训练所述待训练的医疗查询文本处理模型,得到训练后的医疗查询文本处理模型,所述训练后的医疗查询文本处理模型用于处理所述待处理的医疗查询文本。
8.如权利要求7所述的医疗查询文本的处理方法,其特征在于,所述通过所述通用任务文本以及所述指定任务文本,训练所述待训练的医疗查询文本处理模型,得到训练后的医疗查询文本处理模型,包括:
将所述通用任务文本以及所述指定任务文本进行组合,得到组合文本集;
通过所述组合文本集,训练所述待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型;
通过所述目标分支任务对应的所述通用任务文本,训练所述中间医疗查询文本处理模型,得到训练后的医疗查询文本处理模型。
9.如权利要求8所述的医疗查询文本的处理方法,其特征在于,所述待训练的医疗查询文本处理模型包括编码网络、注意力网络以及解码网络,所述通过所述组合文本集,训练所述待训练的医疗查询文本处理模型,得到中间医疗查询文本处理模型,包括:
将所述组合文本集输入所述待训练的医疗查询文本处理模型;
通过所述编码网络,将所述组合文本集中的任务文本转化为句序列;
通过所述注意力网络,对所述句序列中的所述词向量进行注意力处理,得到待解码序列;
通过所述解码网络,将所述待解码序列转换为预测文本;
通过所述解码网络,根据所述预测文本,调整所述待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型。
10.如权利要求9所述的医疗查询文本的处理方法,其特征在于,所述通用任务文本包括通用分支任务字段、第一内容字段以及第一期望输出字段,所述指定任务文本包括指定分支任务字段、第二内容字段以及第二期望输出字段。
11.如权利要求10所述的医疗查询文本的处理方法,其特征在于,所述通过所述解码网络,根据所述预测文本,调整所述待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型,包括:
通过预设的损失函数,计算所述预测文本以及所述预测文本对应的期望输出字段之间的损失值;
根据所述损失值,调整所述待训练的医疗查询文本处理模型,得到中间的医疗查询文本处理模型。
12.一种医疗查询文本的处理装置,其特征在于,包括:
获取单元,用于获取待处理的医疗查询文本,所述待处理的医疗查询文本包括特征字段;
生成单元,用于由所述待处理的医疗查询文本,生成待处理任务文本,所述待处理任务文本包括查询内容字段、以及所述特征字段对应的目标分支任务字段;
转化单元,用于将所述待处理任务文本转化为句序列,所述句序列包括所述查询内容字段对应的词向量、以及所述目标分支任务字段对应的词向量;
处理单元,用于对所述句序列中的所述词向量进行注意力处理,得到待解码序列;
解码单元,用于对所述待解码序列进行解码处理,得到答案文本。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~11任一项所述的医疗查询文本的处理方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~11任一项所述的医疗查询文本的处理方法中的步骤。
15.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1~11任一项所述的医疗查询文本的处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211506109.3A CN117009456A (zh) | 2022-11-28 | 2022-11-28 | 医疗查询文本的处理方法、装置、设备、介质和电子产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211506109.3A CN117009456A (zh) | 2022-11-28 | 2022-11-28 | 医疗查询文本的处理方法、装置、设备、介质和电子产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009456A true CN117009456A (zh) | 2023-11-07 |
Family
ID=88569812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211506109.3A Pending CN117009456A (zh) | 2022-11-28 | 2022-11-28 | 医疗查询文本的处理方法、装置、设备、介质和电子产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009456A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313733A (zh) * | 2023-11-30 | 2023-12-29 | 北京航空航天大学杭州创新研究院 | 医疗实体识别系统 |
-
2022
- 2022-11-28 CN CN202211506109.3A patent/CN117009456A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313733A (zh) * | 2023-11-30 | 2023-12-29 | 北京航空航天大学杭州创新研究院 | 医疗实体识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
Zhu et al. | Knowledge-based question answering by tree-to-sequence learning | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Bao et al. | HHH: an online medical chatbot system based on knowledge graph and hierarchical bi-directional attention | |
CN110364251B (zh) | 一种基于机器阅读理解的智能交互导诊咨询系统 | |
Kumar et al. | Automating reading comprehension by generating question and answer pairs | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
Nie et al. | Attention-based encoder-decoder model for answer selection in question answering | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN112214591A (zh) | 一种对话预测的方法及装置 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
Yan et al. | Response selection from unstructured documents for human-computer conversation systems | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN115714030A (zh) | 一种基于疼痛感知和主动交互的医疗问答系统及方法 | |
CN116628186A (zh) | 文本摘要生成方法及系统 | |
CN117009456A (zh) | 医疗查询文本的处理方法、装置、设备、介质和电子产品 | |
Chen et al. | Co-attention fusion based deep neural network for Chinese medical answer selection | |
Peng et al. | MPSC: A multiple-perspective semantics-crossover model for matching sentences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |