CN116010593A - 疾病情感信息的确定方法、装置、计算机设备和存储介质 - Google Patents
疾病情感信息的确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116010593A CN116010593A CN202111219480.7A CN202111219480A CN116010593A CN 116010593 A CN116010593 A CN 116010593A CN 202111219480 A CN202111219480 A CN 202111219480A CN 116010593 A CN116010593 A CN 116010593A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- information
- medical record
- medical
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 121
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 121
- 230000008451 emotion Effects 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000002159 abnormal effect Effects 0.000 claims abstract description 234
- 238000012549 training Methods 0.000 claims abstract description 189
- 238000013528 artificial neural network Methods 0.000 claims abstract description 60
- 230000005856 abnormality Effects 0.000 claims abstract description 46
- 230000000873 masking effect Effects 0.000 claims description 34
- 238000002372 labelling Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 238000007667 floating Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000750 progressive effect Effects 0.000 description 6
- 206010037660 Pyrexia Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 208000021760 high fever Diseases 0.000 description 4
- 230000036760 body temperature Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 206010000060 Abdominal distension Diseases 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 208000024330 bloating Diseases 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种疾病情感信息的确定方法、装置、计算机设备和存储介质。所述方法包括:获取病历文本;通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;通过图神经网络,对所述第二文本特征进行异常极性识别;基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息,然后以语音的形式进行提醒或显示。采用本方法能够准确地分析用户的疾病情感信息。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种疾病情感信息的确定方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的不断发展,越来越多的技术领域都在广泛应用人工智能技术,以期为广大用户或企业提供优质的服务。例如,在医学领域的应用,通过人工智能技术分析用户的疾病情感信息,从而可以为医学工作者提供有效地医学辅助。
传统的疾病情感信息分析方案中,通常是给定一个句子和句子中提到的目标,利用长短期记忆网络进行句子编码,然后基于句子编码得到每个字符的情感极性,最后利用注意力机制得到基于目标的情感极性。然而,采用传统的疾病情感信息分析方案,长短期记忆网络在进行句子编码的过程中,无法准确地得到表示疾病情感的信息,从而导致无法准确地分析用户的疾病情感信息。
发明内容
基于此,有必要针对上述技术问题,提供一种疾病情感信息的确定方法、装置、计算机设备和存储介质,能够准确地分析用户的疾病情感信息。
一种疾病情感信息的确定方法,所述方法包括:
获取病历文本;
通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;
通过图神经网络,对所述第二文本特征进行异常极性识别;
基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息。
一种疾病情感信息的确定装置,所述装置包括:
获取模块,用于获取病历文本;
第一识别模块,用于通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;
第二识别模块,用于通过图神经网络,对所述第二文本特征进行异常极性识别;
生成模块,用于基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息。
在其中的一个实施例中,所述预训练模型包括共享参数的第一网络模型和第二网络模型;所述第一识别模块,还用于通过所述第一网络模型,提取所述病历文本中关于关注对象的浅层对象特征和深层对象特征;通过所述第二网络模型,从所述病历文本中提取用于表示所述关注对象异常的浅层异常特征和深层异常特征;对所述深层对象特征以及所述浅层异常特征和所述深层异常特征的融合特征进行融合,得到所述第一文本特征;融合所述浅层对象特征和所述浅层异常特征,得到所述第二文本特征。
在其中的一个实施例中,所述装置还包括:
所述获取模块,还用于显示产品页面;所述产品页面包括病历描述子页面和辅助子页面;从所述病历描述子页面中读取病历文本;
显示模块,用于在所述辅助子页面中显示所述关注对象的疾病情感信息;或者,在所述产品页面上层以浮层或弹窗方式显示所述疾病情感信息;或者,切换至结果显示页面显示所述疾病情感信息。
在其中的一个实施例中,所述第一文本特征包括对象特征和异常表现特征;
所述第一识别模块,还用于基于所述对象特征,在所述病历文本中对所述关注对象进行对象信息标注,并根据所述对象信息标注得到所述关注对象的对象信息;基于所述异常表现特征,在所述病历文本中对所述关注对象进行异常表现标注,并根据所述异常表现标注得到所述关注对象呈现异常时的异常表现信息。
在其中的一个实施例中,所述装置还包括:
训练模块,用于从所述病历样本中选取医学关键词,并将所述医学关键词作为关键词标签;在所述病历样本中对所述医学关键词进行掩盖处理;在处理后的所述病历样本中,通过训练前的所述预训练模型识别所述关注对象的训练对象信息,以及识别所述关注对象呈现异常时的训练异常表现信息;基于所述训练对象信息、所述训练异常表现信息和对应的所述关键词标签,确定损失值;根据所述损失值对训练前的所述预训练模型进行参数调整。
在其中的一个实施例中,所述训练模块,还用于在处理后的所述病历样本中,将目标连接词作为连接词标签,并对所述目标连接词进行掩盖处理,得到目标病历样本;在所述目标病历样本中,通过训练前的所述预训练模型提取连接词作为预测连接词;确定所述训练对象信息与相应的所述关键词标签之间的第一差值,所述训练异常表现信息与相应的所述关键词标签之间的第二差值,以及所述预测连接词与所述连接词标签之间的第三差值;基于所述第一差值、所述第二差值和所述第三差值确定损失值。
在其中的一个实施例中,所述训练模块,还用于确定被掩盖的所述医学关键词和所述目标连接词在所述病历样本中的占比;若所述占比小于预设占比,基于所述预设占比与所述占比确定剩余掩盖数;在所述目标病历样本中,按照所述剩余掩盖数选取待掩盖词进行掩盖处理。
在其中的一个实施例中,所述医学关键词包括医学领域关键词;所述训练模块,还用于分别在每个所述病历样本中提取目标词性的关键词;在医学领域的至少两个阅读文本中,确定所述关键词出现的第一频次;在其它领域的至少两个阅读文本中,确定所述关键词出现的第二频次;基于所述第一频次和所述第二频次,在所述目标词性的关键词中确定所述医学领域关键词。
在其中的一个实施例中,所述医学关键词包括异常特性关键词;所述训练模块,还用于从医学数据中提取医学领域的异常特性词;以所述异常特性词为所述异常特性词样本的种子,确定所述种子与各待测异常特性词之间的用于表示相关性的逐点互信息值;针对每个所述待测异常特性词,若当前所述待测异常特性词与各所述种子之间的逐点互信息值的和值达到预设条件时,将当前所述待测异常特性词作为所述异常特性词样本;依据所述异常特性词样本提取所述病历样本中的异常特性关键词。
在其中的一个实施例中,所述训练模块,还用于对所述病历样本进行分词处理,得到对应的分词;将所述病历样本解析成以各所述分词为节点的依赖树;基于所述依赖树,构建以所述关注对象对应的分词为根节点的图神经网络。
在其中的一个实施例中,所述训练模块,还用于确定所述关注对象对应的分词与其它所述分词之间的距离;在所述图神经网络中,根据所述距离对所述根节点与其它所述节点之间连接关系分配权重。
在其中的一个实施例中,所述训练模块,还用于通过调整参数后的所述预训练模型从所述病历样本提取所述关注对象的训练对象特征,以及识别所述关注对象呈现异常时的浅层异常表现特征;通过所述图神经网络,对所述训练对象特征和所述浅层异常表现特征的融合特征进行异常极性识别,得到预测异常极性;基于所述预测异常极性和异常极性标签确定极性损失值;根据所述极性损失值对所述图神经网络进行参数调整。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取病历文本;
通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;
通过图神经网络,对所述第二文本特征进行异常极性识别;
基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取病历文本;
通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;
通过图神经网络,对所述第二文本特征进行异常极性识别;
基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息。
一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现上述疾病情感信息的确定方法的步骤。
上述疾病情感信息的确定方法、装置、计算机设备和存储介质,利用掩盖了医学关键词的病历样本对预训练模型进行训练,从而可以使预训练模型学习到识别医学关键词的能力,从而在得到病历文本后,从病历文本中准确地识别出关注对象的对象信息和异常表现信息,该对象信息和异常表现信息属于医学关键词。此外,通过图神经网络对对象特征和异常表现特征进行异常极性识别,基于异常极性、对象信息和异常表现信息,可以准确地得到关注对象的疾病情感信息。
附图说明
图1为一个实施例中疾病情感信息的确定方法的应用环境图;
图2为一个实施例中疾病情感信息的确定方法的流程示意图;
图3为一个实施例中产品界面的界面示意图;
图4为一个实施例中在产品界面中以弹窗或浮层方式显示疾病情感信息的界面示意图;
图5为一个实施例中对预训练模型进行训练的流程示意图;
图6为一个实施例中预训练模型的结构示意图;
图7为一个实施例中构建并训练图神经网络的流程示意图;
图8为一个实施例中以aspects为根节点的图神经网络的结构示意图;
图9为一个实施例中关系注意力网络的示意图;
图10为一个实施例中疾病情感信息的确定装置的结构框图;
图11为另一个实施例中疾病情感信息的确定装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的疾病情感信息的确定方法,可以应用于如图1所示的应用环境中。在该应用环境中,包括终端102和服务器104。其中,该疾病情感信息的确定方法可以由服务器104执行,具体如下:服务器从终端102获取病历文本;通过预训练模型,提取病历文本中关于关注对象的第一文本特征和第二文本特征,并基于第一文本特征确定关注对象的对象信息和呈现异常时的异常表现信息;预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;医学关键词包括对象信息和异常表现信息;通过图神经网络,对第二文本特征进行异常极性识别;基于识别所得的异常极性、对象信息和异常表现信息,生成关注对象的疾病情感信息;然后,将疾病情感信息发送给终端102进行显示。
此外,该疾病情感信息的确定方法可以由终端102,具体如下:终端102获取病历文本;通过预训练模型,提取病历文本中关于关注对象的第一文本特征和第二文本特征,并基于第一文本特征确定关注对象的对象信息和呈现异常时的异常表现信息;预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;医学关键词包括对象信息和异常表现信息;通过图神经网络,对第二文本特征进行异常极性识别;基于识别所得的异常极性、对象信息和异常表现信息,生成关注对象的疾病情感信息,并进行显示。需要指出的是,该疾病情感信息的确定方法还可以由终端102和服务器104协同执行。
其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱和智能手表等;此外,还可以是智能语音交互设备、智能家电和车载终端等,但并不局限于此。
服务器104可以是独立的物理服务器,也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成组成点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。
此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种疾病情感信息的确定方法,可以由图1中的终端或服务器执行,还可以由终端和服务器协同执行,以该方法由图1中的终端执行为例进行说明,包括以下步骤:
S202,获取病历文本。
其中,病历文本可以是记载用户的疾病症状的文本。
在一个实施例中,终端先显示产品页面,该产品页面包括病历描述子页面和辅助子页面,如图3所示。终端从病历描述子页面中读取病历文本,如从病历描述子页面的现病史区域中读取病历文本;或者,当检测到信息输入操作时,将输入的病历信息输入至病历描述子页面的现病史区域,当完成病历信息的输入后,可以得到完整的病历文本。其中,辅助子页面是用于显示人工智能预测的疾病情感信息以及相应的建议信息,该建议信息可以是单用户存在高危症状时提出的建议转诊信息。
在另一个实施例中,终端可以获取病历图像,然后对该病历图像进行文字识别,得到病历文本。其中,病历图像可以是扫描纸质病历单所得的图像。
S204,通过预训练模型,提取病历文本中关于关注对象的第一文本特征和第二文本特征,并基于第一文本特征确定关注对象的对象信息和呈现异常时的异常表现信息。
其中,该预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得,包括第一网络模型和第二网络模型。该第一网络模型和第二网络模型可以是共享参数的两个神经网络,如可以是BERT(Bidirectional Encoder Representation from Transformers)网络,学习在给定上下文下给出词的嵌入(Embedding)表示,进而根据该嵌入表示预测出相应的词。此外,该第一网络模型和第二网络模型还可以是其它的网络模型,如XLNet网络,该XLNet网络是将Transformer-XL的分割循环机制(segment recurrence mechanism)和相对编码范式(relative encoding)整合到预训练中的网络。
关注对象可以是在分析疾病情感是需要关注的对象,该对象可以是用户的整个身体或身体的某个部位,还可以是关注的其它目标,如温度、或某种疾病等。
第一文本特征可以指预训练模型从病历文本中提取的深层特征,包括:关注对象的深层对象特征,以及浅层异常特征和深层异常特征之间的融合特征。其中,深层对象特征为对象信息深层的嵌入表示,融合特征为异常表现信息浅层和深层的融合嵌入表示。
第二文本特征可以指预训练模型从病历文本中提取的浅层特征,包括:关注对象的浅层对象特征和浅层异常特征。其中,浅层对象特征为对象信息浅层的嵌入表示,该浅层异常特征为异常表现信息浅层的嵌入表示。
对象信息可以是关注对象的名称或其它用于描述该关注对象的关键词,如身体、咽喉和支气管等。
异常表现信息可以是用于描述关注对象呈现异常时的外在表现,在医学领域,该异常表现信息可以用于表示临床表现,如用户感冒时表现出的发热高烧。需要指出的是,医学关键词包括对象信息和异常表现信息,即对象信息和异常表现信息都属于医学领域上的术语(即医学关键词)。该医学关键词可以指医学领域上常用的专业术语,如身体、咽喉、体温和感冒等等。
在一个实施例中,S204中的通过预训练模型,提取病历文本中关于关注对象的第一文本特征和第二文本特征步骤,具体可以包括:终端通过第一网络模型,提取病历文本中关于关注对象的浅层对象特征和深层对象特征;通过第二网络模型,从病历文本中提取用于表示关注对象异常的浅层异常特征和深层异常特征;对深层对象特征以及浅层异常特征和深层异常特征的融合特征进行融合,得到第一文本特征;融合浅层对象特征和浅层异常特征,得到第二文本特征。
在一个实施例中,第一文本特征包括对象特征和异常表现特征;因此,S204中的基于第一文本特征确定关注对象的对象信息和呈现异常时的异常表现信息步骤,具体可以包括:终端基于对象特征,在病历文本中对关注对象进行对象信息标注,并根据对象信息标注得到关注对象的对象信息;基于异常表现特征,在病历文本中对关注对象进行异常表现标注,并根据异常表现标注得到关注对象呈现异常时的异常表现信息。
例如,在BERT网络的输出端进行序列标注,标注标签分别为{B,I,E,O,S},从而提取出病历文本中关注对象(aspects)的对象信息。在获取aspects后,接着使用BERT网络进行关注对象的异常表现信息(opinions)提取。病历文本中的opinions提取和aspects提取相似,同样是序列标注任务,区别是在提取opinions时,会融入先前提取的aspects,从而有针对的提取不同aspects所对应的opinions。其中,B(Begin)表示aspects或opinions的开始字符,I(Inter)表示aspect或opinions的中间字符,E(End)表示aspects或opinions的结束字符,S(Signle)表示aspect只有一个字符,O(Out)表示非aspects或opinions的字符。
需要指出的是,在每个病历文本中可能包含多个aspects,对于多个aspects的情况,将逐个提取aspect的opinions;对于每个aspect在病历文本中也会包含多个opinions,此时利用注意力机制得到最终的异常极性(如疾病情感极性)。
S206,通过图神经网络,对第二文本特征进行异常极性识别。
其中,图神经网络是直接作用于图结构上的神经网络,保留了图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,从而使用简单的机器学习算法进行处理。该异常极性可以表示关注对象是否出现异常,在医学领域,该异常极性也可以称为疾病情感极性,用于表示用户关注的身体或身体的某个部位是否患病。
在一个实施例中,终端将第二文本特征输入至图神经网络,通过该图神经网络对第二文本特征进行特征处理,得到最后一个特征处理层输出的结果信息,然后将该结果信息和第二文本特征进行拼接,得到拼接特征;最后,利用全连接层对该拼接结果进行处理,得到关注对象的异常极性。
例如,假设关注对象是医学工作者或用户关注的身体,利用图神经网络对关于该用户身体的浅层对象特征和浅层异常特征进行处理,得到最后一个特征处理层输出的结果信息,然后将该结果信息、浅层对象特征和浅层异常特征进行拼接得到拼接特征;将该拼接特征输入全连接层,输出该用户身体的疾病情感极性。其中,该疾病情感极性包括阳性或阴性,用于表示该用户的身体是否患病。
S208,基于识别所得的异常极性、对象信息和异常表现信息,生成关注对象的疾病情感信息。
在一个实施例中,终端对识别所得的异常极性、对象信息和异常表现信息进行排序,按照排序后的异常极性、对象信息和异常表现信息进行组合,得到关注对象的疾病情感信息,然后以语音的形式进行提醒或显示。
在一个实施例中,终端可以将疾病情感信息显示于辅助子页面,或者以弹窗或浮层方式显示该疾病情感信息,或者切换至结果显示页面显示该疾病情感信息。由于该疾病情感信息包括关注对象的异常极性、对象信息和异常表现信息,因此在显示之前,终端可以根据该疾病情感信息生成关于关注对象的自然句子文本,如“该患者身体发热高烧,预测咽喉炎为阳性”,其中,身体为关注对象的对象信息,发热高烧为异常表现信息(即临床表现),阳性为异常极性(即疾病情感极性),如图4所示。
上述实施例中,利用掩盖了医学关键词的病历样本对预训练模型进行训练,从而可以使预训练模型学习到识别医学关键词的能力,从而在得到病历文本后,从病历文本中准确地识别出关注对象的对象信息和异常表现信息,该对象信息和异常表现信息属于医学关键词。此外,通过图神经网络对对象特征和异常表现特征进行异常极性识别,基于异常极性、对象信息和异常表现信息,可以准确地得到关注对象的疾病情感信息。
在一个实施例中,在进行疾病情感信息的确定之前,终端可以先对预训练模型和图神经网络进行训练,关于预训练模型的训练,具体步骤如下:
S502,从病历样本中选取医学关键词,并将医学关键词作为关键词标签。
其中,病历样本可以是在训练过程中使用的,用于记载样本用户的疾病症状的病历文本。医学关键词包括医学领域关键词和异常特性关键词。
在一个实施例中,终端先显示产品页面,如图3所示,从产品页面的病历描述子页面中读取病历文本,将读取的病历文本作为病历样本;或者,终端从病历文本数据库中获取病历文本作为病历样本。例如,在医院的某个科室(如皮肤科)获取电子病历文本作为病历样本。
在另一个实施例中,终端可以获取病历图像,然后对该病历图像进行文字识别,得到病历文本,并将所得的病历文本作为病历样本。其中,病历图像可以是扫描纸质病历单所得的图像。
在一个实施例中,在得到病历样本之后,从病历样本中选取医学关键词,该医学关键词为医学领域关键词,该医学领域关键词可以是与疾病相关的部位的词,如头部、腹部和腿部等。对应地,选取医学领域关键词的具体步骤包括:终端分别在每个病历样本中提取目标词性的关键词;在医学领域的至少两个阅读文本中,确定关键词出现的第一频次;在其它领域的至少两个阅读文本中,确定关键词出现的第二频次;基于第一频次和第二频次,在目标词性的关键词中确定医学领域关键词。
其中,目标词性可以指形容词和名词。第一频次可以指目标词性的关键词在医学领域的至少两个阅读文本中出现的频次。第二频次可以指目标词性的关键词在其它领域的至少两个阅读文本中出现的频次。上述的阅读文本可以指在医学领域或其它领域的一篇文章,或一篇文章中的一段或一句话。
在计算第一频次和第二频次之前,终端可以先爬取医学领域的阅读文本和其它领域的阅读文本,然后分别从这两类领域的阅读文本中选取至少两个阅读文本,如分别选取十个或百个医学领域的阅读文本和其它领域的阅读文本。
例如,终端可以采用本申请重新定义的TF-IDF方法提取医学领域关键词,其中,TF是指从病历样本提取的关键词在医学领域的文章或其它数据中出现的频次,IDF表示该关键词在其它所有领域的文章出现的频次,从而得到TF-IDF值,该TF-IDF值的具体计算方式如下:
TF-IDF=TF×IDF
在一个实施例中,该医学关键词为异常特性关键词,该异常特性关键词可以是患有疾病时所呈现出来的临床表现的关键词,如疼痛、腹胀和发烧等。对应地,在选取异常特性关键词的之前,该方法还可以包括:
终端从医学数据中提取医学领域的异常特性词;以异常特性词为异常特性词样本的种子,确定种子与各待测异常特性词之间的用于表示相关性的逐点互信息值;针对每个所述待测异常特性词,若当前待测异常特性词与各种子之间的逐点互信息值的和值达到预设条件时,将当前待测异常特性词作为异常特性词样本。因此,上述从病历样本中选取医学关键词的步骤,具体步骤包括:终端依据异常特性词样本提取病历样本中的异常特性关键词。
其中,逐点互信息(Pointwise Mutual information,PMI)值用于表示种子与其它待测异常特性词之间的相关性,如果种子w1与待测异常特性词w2不相关,则P(w1,w2)=P(w1)P(w2);若种子w1与待测异常特性词w2相关性越大,则P(w1,w2)相比于P(w1)P(w2)越大。
w1表示种子,w2表示待测异常特性词,PMI(w1,w2)表示种子w1与待测异常特性词w2之间的逐点互信息值,当PMI(w1,w2)=0,表示种子w1与待测异常特性词w2之间不相关;而当PMI(w1,w2)>0,表示种子w1与待测异常特性词w2之间相关,且PMI(w1,w2)越大,种子w1与待测异常特性词w2之间的相关性越强。
由于种子w1可以有多个,因此将某个待测异常特性词与所有的种子w1之间的逐点互信息值进行求和,得到和值WP,然后判断WP是否达到预设条件,例如判断WP是否大于零,若是,则确定该待测异常特性词为阳性,即该待测异常特性词可以作为异常特性词样本。若WP未达到预设条件,例如WP小于或等于零,则确定该待测异常特性词为阴性,即该待测异常特性词不能作为异常特性词样本。
S504,在病历样本中对医学关键词进行掩盖处理。
其中,对医学关键词进行掩盖处理也即MASK(掩盖)掉病历样本中的医学关键词,如将医学关键词删除、遮挡或替换成其它关键词。需要指出的是,被掩盖处理的医学关键词可以作为关键词标签。
在一个实施例中,考虑到目标连接词(如转折词和递进词)对疾病情感信息的确定有重要作用,如转折词前后的两部分情感极性一般相反,而递进词前后两部分的极性相同,但程度更深,因此融入目标连接词可以提升疾病情感信息的准确性。因此,终端除了可以对医学关键词进行掩盖处理,在此基础上,还可以对目标连接词进行掩盖处理。在掩盖处理医学关键词和目标连接词之后,终端确定被掩盖的医学关键词和目标连接词在病历样本中的占比;若占比小于预设占比,基于预设占比与占比确定剩余掩盖数;在目标病历样本中,按照剩余掩盖数选取待掩盖词进行掩盖处理。
其中,在对预训练模型进行训练之前,对医学领域关键词、异常特性关键词和目标连接词这三类进行掩盖处理。若这三类词在病例样本中的比例小于预设比例(如小于15%),则随机选择剩余数量的词汇进行掩盖处理。
S506,在处理后的病历样本中,通过训练前的预训练模型识别关注对象的训练对象信息,以及识别关注对象呈现异常时的训练异常表现信息。
其中,训练对象信息可以指在训练过程中从病历样本中识别出的对象信息,属于医学领域关键词。训练异常表现信息可以指在训练过程中从病历样本中识别出的异常表现信息,属于异常特性关键词。
在一个实施例中,在处理后的病历样本中,终端通过训练前的预训练模型关于关注对象的训练浅层对象特征和训练深层对象特征,以及浅层异常特征和深层异常特征。然后,训练前的预训练模型分别对关注对象的训练深层对象特征,以及训练浅层异常特征和训练深层异常特征之间的融合特征进行识别,得到关注对象的训练对象信息和呈现异常时的训练异常表现信息。
在另一个实施例中,若在训练过程中,对目标连接词也进行了掩盖处理,则可以得到预测连接词,即预测出来的连接词,然后执行下一步的损失值计算,即计算预测连接词与连接词标签之间的损失值。具体地,终端在处理后的病历样本中,将目标连接词作为连接词标签,并对目标连接词进行掩盖处理,得到目标病历样本;在目标病历样本中,通过训练前的预训练模型提取连接词作为预测连接词。
例如,由于训练对象信息属于医学领域关键词,训练异常表现信息属于医学领域关键词,通过预训练模型对病历样本进行医学领域关键词预测、医学领域关键词预测以及目标连接词预测,从而可以得到训练对象信息、训练异常表现信息和预测连接词,如图6所示。
S508,基于训练对象信息、训练异常表现信息和对应的关键词标签,确定损失值。
在一个实施例中,终端对训练对象信息于对应的关键词标签进行作差,以及对训练异常表现信息和对应的关键词标签进行作差,基于所得的差值可以得到损失值。
在一个实施例中,若在训练过程中,对目标连接词也进行了掩盖处理,S508具体可以包括:终端确定训练对象信息与相应的关键词标签之间的第一差值,训练异常表现信息与相应的关键词标签之间的第二差值,以及预测连接词与连接词标签之间的第三差值;基于第一差值、第二差值和第三差值确定损失值。
其中,第一差值属于医学领域关键词的预测损失,第二差值为异常特性关键词的预测损失,第三差值为目标连接词的预测损失。上述的第一差值、第二差值和第三差值可以是基于相同或不同的损失函数计算出来的,如交叉熵损失函数、平方损失函数和指数损失函数等。
在计算出第一差值、第二差值和第三差值之后,还可以对第一差值、第二差值和第三差值进行加权计算,然后进行求和,得到损失值,具体计算式如下:
L=αL1+βL2+βL3
其中,α、β和γ为不同的权重,L1、L2和L3分别为第一差值、第二差值和第三差值,即分别为医学领域关键词的预测损失、异常特性关键词的预测损失以及目标连接词的预测损失。
S510,根据损失值对训练前的预训练模型进行参数调整。
其中,利用掩盖处理后的病历样本对预训练模型进行训练,以使该预训练模型预测出病历样本中被掩盖的医学关键词(即关键词标签),从而使预训练模型融入医学领域的相关知识。
在一个实施例中,终端将计算出来的损失值在预训练模型中进行反向传播,计算出预训练模型中各层的网络参数,然后计算各网络参数的梯度,根据梯度对预训练模型进行参数调整。
上述实施例中,利用掩盖了医学关键词的病历样本对预训练模型进行训练,从而可以使预训练模型学习到识别医学关键词的能力,从而在得到病历文本后,从病历文本中准确地识别出关注对象的对象信息和异常表现信息,有利于提高疾病情感信息的准确性。
在一个实施例中,关于图神经网络的构建和训练,如图7所示,具体步骤如下所述:
S702,对病历样本进行分词处理,得到对应的分词。
在一个实施例中,终端可以按照词性对病历样本进行分词处理,得到病历样本中的各分词。词性可以包括但不限于名词、动词、形容词、数词、量词、代词、连词和助词等。
在另一个实施例中,终端可以按照词组或短语的形式病历样本进行分词处理,得到病历样本中的各分词。例如,病历样本为“身体温度是高的,不可能运动”,按照词组或短语的形式进行分词处理之后,得到“身体”、“温度”、“是”、“高的”、“不”、“可能”和“运动”等七个分词。
S704,将病历样本解析成以各分词为节点的依赖树。
其中,依赖树中节点之间的连接关系可用于表示各分词之间的依赖关系。
S706,基于依赖树,构建以关注对象对应的分词为根节点的图神经网络。
其中,以关注对应的分词为根节点构建的图神经网络(参考图8),其根节点与其它节点之间的权重用于表示关注对象对应的节点与其它节点之间的距离,也可以表示其它分词对关注对象对应的分词的影响程度。权重越大表示各分词之间的距离越小,对应的影响程度越大。例如,若关注对象为用户和医学工作者关注的反应部位(如咽喉、肺部或腿部),那么其它词汇与反应部位之间的距离越近,表示该其它词汇对反应部位的疾病情感影响越大;反之,其它词汇与反应部位之间的距离越远,表示该其它词汇对反应部位的疾病情感影响越小。
在一个实施例中,终端确定关注对象对应的分词与其它分词之间的距离;在图神经网络中,根据距离对根节点与其它节点之间连接关系分配权重。
S708,通过调整参数后的预训练模型从病历样本提取关注对象的训练对象特征,以及识别关注对象呈现异常时的浅层异常表现特征。
其中,预训练模型包括第一网络模型和第二网络模型,因此,通过调整参数后的第一网络模型提取病历样本中关于关注对象的训练对象特征;该训练对象特征可以是浅层的对象特征;通过第二网络模型,从病历文本中提取用于表示关注对象异常的浅层异常特征。
S710,通过图神经网络,对训练对象特征和浅层异常表现特征的融合特征进行异常极性识别,得到预测异常极性。
其中预测异常极性可以指通过图神经网络预测的异常极性,在医学领域,该异常极性可以指疾病情感极性,具体可以是感冒呈阴性或阳性。
在一个实施例中,终端先将训练对象特征和浅层异常表现特征进行特征融合,得到融合特征;然后通过图神经网络对融合特征进行异常极性识别,得到预测异常极性。
S712,基于预测异常极性和异常极性标签确定极性损失值。
例如,利用交叉熵损失函数、平方损失函数或指数损失函数,计算预测异常极性和异常极性标签之间的极性损失值。
S714,根据极性损失值对图神经网络进行参数调整。
在一个实施例中,终端将计算出来的极性损失值在图神经网络中进行反向传播,计算出图神经网络中各层的网络参数,然后计算各网络参数的梯度,根据梯度对图神经网络进行参数调整。
上述实施例中,通过构建图神经网络,并利用训练后的预训练模型提取的特征对图神经网络进行训练,从而可以更好地识别出异常极性,有利于提高疾病情感信息的准确性。
本申请还提供一种医疗应用场景,该医疗应用场景应用上述的疾病情感信息的确定方法。具体地,该疾病情感信息的确定方法在该应用场景的应用如下:
(一)任务定义
在本申请中,主要抽取三元素(aspects,opinions,sentiment),其中,aspects表示医学领域关键词,如与疾病相关的词,具体如头部、腹部和腿部等。opinions表示疾病情感特性词,如疼痛、腹胀和发烧。sentiment表示疾病情感极性,如阴性或阳性。
此外,在本申请中包含两个序列标注任务和一个情感分类。其中,第一个序列标注任务是aspects标注,另一个序列标注任务是opinions标注。情感分类是分类出用户病患部位的疾病情感极性,该疾病情感极性包括{阴性,阳性}。
在标注过程中,主要使用{B,I,E,S,O}这五类标注标签,其中,B(Begin)表示aspects或opinions的开始字符,I(Inter)表示aspect或opinions的中间字符,E(End)表示aspects或opinions的结束字符,O(Out)表示非aspects或opinions的字符。
(二)方案设计
本申请主要为两阶段,第一阶段主要任务是通过预训练方法为预训练模型(BERT)融入情感和医疗术语知识;第二阶段主要任务是基于预训练模型和图神经网络进行aspects标注和opinions标注,并根据标注的aspects和opinions进行疾病情感极性分类。
(1)第一阶段,即融合多特征的预训练阶段
在第一阶段中,通过预训练机制是模型同时融入医学领域知识和疾病情感知识。其中,医学领域知识具体表现为电子病历文本中领域特征名词,疾病情感知识则具体表现为带有疾病临床表现的词。
首先,进行医学领域知识的挖掘,即挖掘医学领域关键名词,先爬取医学领域相关的数据(即医学数据),并采用TF-IDF方法提取医学领域的关键名词,如形容词和名词。由于分类类别只有医学领域和其它领域两类,与常规的TF-IDF方法不同,本申请重新定义TF和IDF的含义,TF是指某关键词在医学领域的文本中出现的概率,IDF表示包含在医学领域内的某关键词在所有文章出现的逆向文件词频,最终计算得到TF-IDF值,具体如下:
TF-IDF=TF×IDF
此外,对于疾病情感知识的挖掘,先在爬取的医学数据中提取医学领域的疾病情感特性词,然后将重复的词进行过滤,接着选取代表性的疾病情感特性词作为种子进行疾病极性标注,最后利用PMI(Pointwise Mutual information)方法标注剩余的疾病情感特性词,PMI方法如下:
最终得到将某个疾病情感特性词与所有种子的PMI值,从而得到某疾病情感特性的WP值,其中,WP值为要被预测的疾病情感特性词与所有种子之间的PMI值之和。当WP值大于0时,该疾病情感特性词为阳性,WP值小于0,该疾病情感特性词为阴性。在进行训练时,MASK掉电子病历文本中挖掘出的医学领域关键名词和疾病情感特性词,然后让预训练模型预测原始的医学领域关键名词和疾病情感特性词,从而融入医学领域和疾病情感的相关知识。
考虑到在转折词和递进词等词汇对疾病情感分析任务有重要作用,如在转折词前后的两部分情感极性一般相反,因此融入转折词和递进词的知识将促进疾病情感分析。具体而言,预先指定常用的目标连接词(即转折词和递进词),并分别设置成不同的标签值,让预训练模型预测标签值,并且会MASK掉电子病历文本中的这些目标连接词,从而融入学习连接词的相关知识。
总之,预训练阶段包含3类词汇的MASK:MASK疾病情感特性词、MASK医学领域关键名词以及MASK目标连接词。如果前3种的MASK比例小于词汇的15%,则随机选取剩余词汇进行MASK,则损失函数表示为:
L=αL1+βL2+γL3
其中,L1表示疾病情感特性词的预测损失,L2表示疾病情感特性词的预测损失,L3表示目标连接词的预测损失。α、β和γ分别为不同的权重。
(2)第二阶段,即疾病情感细粒度分析阶段
本阶段旨在通过预训练模型和图神经网络模型共同进行疾病情感的细粒度分析任务。微调阶段模型分为3个部分,第一个部分为利用第一阶段训练好的BERT用来提取标注电子病历文本中的aspects。具体而言,将电子病历文本输入到预训练好的BERT中,在输出端进行序列标注,标注标签分别为{B,I,E,O,S},从而提取出电子病历文本中的aspects。
在获取aspects后,接着使用BERT和图神经网络进行opinion提取和疾病情感分类。电子病历文本中的opinions提取和aspect提取相似,同样是序列标注任务,区别是在提取opinions时,会融入先前提取的aspects知识,从而有针对的提取不同aspects所对应的opinions。
此外,构建以aspecst为根节点并融入距离信息的图神经网络。其中,电子病历文本解析成依赖树的形式,然后改造成以aspect为根节点的图神经网络,比如将“身体温度是很高的,不可能进行运动”解析成以aspect为根节点的图神经网络,该图神经网络的结构如图8所示:
图神经网络的算法表示如下:
R-GAT(Relational Graph Attention Networks,关系图注意网络)可以参考图9,该关系图注意网络每个节点最终的表示计算如下:
此外,考虑到BERT的浅层结构能够捕获句子的句法和依赖信息,因此提取BERT的第六层输出,作为电子病历文本的浅层表示。
需要注意到的是:(1)提取aspects的BERT和提取opinions的BERT共享参数;(2)在每个电子病历文本中可能包含多个aspects,对于多个aspects的情况,我们将逐个提取aspect的opinions;(3)对于每个aspect在电子病历文本中也会包含多个opinions,此时会利用注意力机制得到最终的疾病情感极性。
通过上述实施例,可以具有以下技术效果:
1)在预测疾病情感极性时,不仅可以给出疾病情感结果,而且还会给出相应的证据,得到反应部位(即关注对象)、临床表现以及阴性或阳性,比如(身体,发热高烧,阳性)。通过输出反应部位的何种临床表现,使医生和患者更直观的了解得出阴性或阳性的原因。
2)通过设计MASK疾病情感特性词、医学领域关键名词、转折词和递进词,以及预测疾病情感极性等任务,使模型学习到疾病领域相关的知识以及疾病情感知识,促进细粒度情感分析的预测。
3)通过将预训练模型和图注意力神经网络相结合的方式,以及融合了预训练模型的低阶和高阶特征,可以更好的提取(反应部位,临床表现,阴性或阳性)三元组。
应该理解的是,虽然图2、5、7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5、7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种疾病情感信息的确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1002、第一识别模块1004、第二识别模块1006和生成模块1008,其中:
获取模块1002,用于获取病历文本;
第一识别模块1004,用于通过预训练模型,提取病历文本中关于关注对象的第一文本特征和第二文本特征,并基于第一文本特征确定关注对象的对象信息和呈现异常时的异常表现信息;预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;医学关键词包括对象信息和异常表现信息;
第二识别模块1006,用于通过图神经网络,对第二文本特征进行异常极性识别;
生成模块1008,用于基于识别所得的异常极性、对象信息和异常表现信息,生成关注对象的疾病情感信息。
在其中的一个实施例中,预训练模型包括共享参数的第一网络模型和第二网络模型;第一识别模块1004,还用于通过第一网络模型,提取病历文本中关于关注对象的浅层对象特征和深层对象特征;通过第二网络模型,从病历文本中提取用于表示关注对象异常的浅层异常特征和深层异常特征;对深层对象特征以及浅层异常特征和深层异常特征的融合特征进行融合,得到第一文本特征;融合浅层对象特征和浅层异常特征,得到第二文本特征。
在其中的一个实施例中,装置还包括:
获取模块1002,还用于显示产品页面;产品页面包括病历描述子页面和辅助子页面;从病历描述子页面中读取病历文本;
显示模块1010,用于在辅助子页面中显示关注对象的疾病情感信息。
在其中的一个实施例中,第一文本特征包括对象特征和异常表现特征;
第一识别模块1004,还用于基于对象特征,在病历文本中对关注对象进行对象信息标注,并根据对象信息标注得到关注对象的对象信息;基于异常表现特征,在病历文本中对关注对象进行异常表现标注,并根据异常表现标注得到关注对象呈现异常时的异常表现信息。
上述实施例中,利用掩盖了医学关键词的病历样本对预训练模型进行训练,从而可以使预训练模型学习到识别医学关键词的能力,从而在得到病历文本后,从病历文本中准确地识别出关注对象的对象信息和异常表现信息,该对象信息和异常表现信息属于医学关键词。此外,通过图神经网络对对象特征和异常表现特征进行异常极性识别,基于异常极性、对象信息和异常表现信息,可以准确地得到关注对象的疾病情感信息。
在其中的一个实施例中,装置还包括:
训练模块1012,用于从病历样本中选取医学关键词,并将医学关键词作为关键词标签;在病历样本中对医学关键词进行掩盖处理;在处理后的病历样本中,通过训练前的预训练模型识别关注对象的训练对象信息,以及识别关注对象呈现异常时的训练异常表现信息;基于训练对象信息、训练异常表现信息和对应的关键词标签,确定损失值;根据损失值对训练前的预训练模型进行参数调整。
在其中的一个实施例中,训练模块1012,还用于在处理后的病历样本中,将目标连接词作为连接词标签,并对目标连接词进行掩盖处理,得到目标病历样本;在目标病历样本中,通过训练前的预训练模型提取连接词作为预测连接词;确定训练对象信息与相应的关键词标签之间的第一差值,训练异常表现信息与相应的关键词标签之间的第二差值,以及预测连接词与连接词标签之间的第三差值;基于第一差值、第二差值和第三差值确定损失值。
在其中的一个实施例中,训练模块1012,还用于确定被掩盖的医学关键词和目标连接词在病历样本中的占比;若占比小于预设占比,基于预设占比与占比确定剩余掩盖数;在目标病历样本中,按照剩余掩盖数选取待掩盖词进行掩盖处理。
在其中的一个实施例中,医学关键词包括医学领域关键词;训练模块1012,还用于分别在每个病历样本中提取目标词性的关键词;在医学领域的至少两个阅读文本中,确定关键词出现的第一频次;在其它领域的至少两个阅读文本中,确定关键词出现的第二频次;基于第一频次和第二频次,在目标词性的关键词中确定医学领域关键词。
在其中的一个实施例中,医学关键词包括异常特性关键词;训练模块1012,还用于从医学数据中提取医学领域的异常特性词;以异常特性词为异常特性词样本的种子,确定种子与各待测异常特性词之间的用于表示相关性的逐点互信息值;针对每个待测异常特性词,若当前待测异常特性词与各种子之间的逐点互信息值的和值达到预设条件时,将当前待测异常特性词作为异常特性词样本;依据异常特性词样本提取病历样本中的异常特性关键词。
上述实施例中,利用掩盖了医学关键词的病历样本对预训练模型进行训练,从而可以使预训练模型学习到识别医学关键词的能力,从而在得到病历文本后,从病历文本中准确地识别出关注对象的对象信息和异常表现信息,有利于提高疾病情感信息的准确性。
在其中的一个实施例中,训练模块1012,还用于对病历样本进行分词处理,得到对应的分词;将病历样本解析成以各分词为节点的依赖树;基于依赖树,构建以关注对象对应的分词为根节点的图神经网络。
在其中的一个实施例中,训练模块1012,还用于确定关注对象对应的分词与其它分词之间的距离;在图神经网络中,根据距离对根节点与其它节点之间连接关系分配权重。
在其中的一个实施例中,训练模块,还用于通过调整参数后的预训练模型从病历样本提取关注对象的训练对象特征,以及识别关注对象呈现异常时的浅层异常表现特征;通过图神经网络,对训练对象特征和浅层异常表现特征的融合特征进行异常极性识别,得到预测异常极性;基于预测异常极性和异常极性标签确定极性损失值;根据极性损失值对图神经网络进行参数调整。
上述实施例中,通过构建图神经网络,并利用训练后的预训练模型提取的特征对图神经网络进行训练,从而可以更好地识别出异常极性,有利于提高疾病情感信息的准确性。
关于疾病情感信息的确定装置的具体限定可以参见上文中对于疾病情感信息的确定方法的限定,在此不再赘述。上述疾病情感信息的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或终端,以计算机设备为终端为例,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种疾病情感信息的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种疾病情感信息的确定方法,其特征在于,所述方法包括:
获取病历文本;
通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;
通过图神经网络,对所述第二文本特征进行异常极性识别;
基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息。
2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括共享参数的第一网络模型和第二网络模型;所述通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征包括:
通过所述第一网络模型,提取所述病历文本中关于关注对象的浅层对象特征和深层对象特征;
通过所述第二网络模型,从所述病历文本中提取用于表示所述关注对象异常的浅层异常特征和深层异常特征;
对所述深层对象特征以及所述浅层异常特征和所述深层异常特征的融合特征进行融合,得到所述第一文本特征;
融合所述浅层对象特征和所述浅层异常特征,得到所述第二文本特征。
3.根据权利要求1所述的方法,其特征在于,所述获取病历文本包括:
显示产品页面;所述产品页面包括病历描述子页面和辅助子页面;
从所述病历描述子页面中读取病历文本;
所述生成所述关注对象的疾病情感信息之后,所述方法还包括:
在所述辅助子页面中显示所述关注对象的疾病情感信息;或者,在所述产品页面上层以浮层或弹窗方式显示所述疾病情感信息;或者,切换至结果显示页面显示所述疾病情感信息。
4.根据权利要求1所述的方法,其特征在于,所述第一文本特征包括对象特征和异常表现特征;
所述基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息包括:
基于所述对象特征,在所述病历文本中对所述关注对象进行对象信息标注,并根据所述对象信息标注得到所述关注对象的对象信息;
基于所述异常表现特征,在所述病历文本中对所述关注对象进行异常表现标注,并根据所述异常表现标注得到所述关注对象呈现异常时的异常表现信息。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于掩盖了医学关键词的病历样本进行训练包括:
从所述病历样本中选取医学关键词,并将所述医学关键词作为关键词标签;
在所述病历样本中对所述医学关键词进行掩盖处理;
在处理后的所述病历样本中,通过训练前的所述预训练模型识别所述关注对象的训练对象信息,以及识别所述关注对象呈现异常时的训练异常表现信息;
基于所述训练对象信息、所述训练异常表现信息和对应的所述关键词标签,确定损失值;
根据所述损失值对训练前的所述预训练模型进行参数调整。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在处理后的所述病历样本中,将目标连接词作为连接词标签,并对所述目标连接词进行掩盖处理,得到目标病历样本;
在所述目标病历样本中,通过训练前的所述预训练模型提取连接词作为预测连接词;
所述基于所述训练对象信息、所述训练异常表现信息和所述关键词标签,确定损失值包括:
确定所述训练对象信息与相应的所述关键词标签之间的第一差值,所述训练异常表现信息与相应的所述关键词标签之间的第二差值,以及所述预测连接词与所述连接词标签之间的第三差值;
基于所述第一差值、所述第二差值和所述第三差值确定损失值。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定被掩盖的所述医学关键词和所述目标连接词在所述病历样本中的占比;
若所述占比小于预设占比,基于所述预设占比与所述占比确定剩余掩盖数;
在所述目标病历样本中,按照所述剩余掩盖数选取待掩盖词进行掩盖处理。
8.根据权利要求5所述的方法,其特征在于,所述医学关键词包括医学领域关键词;所述从所述病历样本中选取医学关键词包括:
分别在每个所述病历样本中提取目标词性的关键词;
在医学领域的至少两个阅读文本中,确定所述关键词出现的第一频次;
在其它领域的至少两个阅读文本中,确定所述关键词出现的第二频次;
基于所述第一频次和所述第二频次,在所述目标词性的关键词中确定所述医学领域关键词。
9.根据权利要求5所述的方法,其特征在于,所述医学关键词包括异常特性关键词;所述方法还包括:
从医学数据中提取医学领域的异常特性词;
以所述异常特性词为所述异常特性词样本的种子,确定所述种子与各待测异常特性词之间的用于表示相关性的逐点互信息值;
针对每个所述待测异常特性词,若当前所述待测异常特性词与各所述种子之间的逐点互信息值的和值达到预设条件时,将当前所述待测异常特性词作为所述异常特性词样本;
所述从所述病历样本中选取医学关键词包括:
依据所述异常特性词样本提取所述病历样本中的异常特性关键词。
10.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对所述病历样本进行分词处理,得到对应的分词;
将所述病历样本解析成以各所述分词为节点的依赖树;
基于所述依赖树,构建以所述关注对象对应的分词为根节点的图神经网络。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
确定所述关注对象对应的分词与其它所述分词之间的距离;
在所述图神经网络中,根据所述距离对所述根节点与其它所述节点之间连接关系分配权重。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
通过调整参数后的所述预训练模型从所述病历样本提取所述关注对象的训练对象特征,以及识别所述关注对象呈现异常时的浅层异常表现特征;
通过所述图神经网络,对所述训练对象特征和所述浅层异常表现特征的融合特征进行异常极性识别,得到预测异常极性;
基于所述预测异常极性和异常极性标签确定极性损失值;
根据所述极性损失值对所述图神经网络进行参数调整。
13.一种疾病情感信息的确定装置,其特征在于,所述装置包括:
获取模块,用于获取病历文本;
第一识别模块,用于通过预训练模型,提取所述病历文本中关于关注对象的第一文本特征和第二文本特征,并基于所述第一文本特征确定所述关注对象的对象信息和呈现异常时的异常表现信息;所述预训练模型,是基于掩盖了医学关键词的病历样本进行训练所得;所述医学关键词包括所述对象信息和所述异常表现信息;
第二识别模块,用于通过图神经网络,对所述第二文本特征进行异常极性识别;
生成模块,用于基于识别所得的异常极性、所述对象信息和所述异常表现信息,生成所述关注对象的疾病情感信息。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111219480.7A CN116010593A (zh) | 2021-10-20 | 2021-10-20 | 疾病情感信息的确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111219480.7A CN116010593A (zh) | 2021-10-20 | 2021-10-20 | 疾病情感信息的确定方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116010593A true CN116010593A (zh) | 2023-04-25 |
Family
ID=86028475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111219480.7A Pending CN116010593A (zh) | 2021-10-20 | 2021-10-20 | 疾病情感信息的确定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116010593A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978022A (zh) * | 2019-03-08 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种医疗文本信息处理方法及装置、存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN112614559A (zh) * | 2020-12-29 | 2021-04-06 | 苏州超云生命智能产业研究院有限公司 | 病历文本处理方法、装置、计算机设备和存储介质 |
WO2021068601A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安国际智慧城市科技股份有限公司 | 病历检测方法、装置、设备及存储介质 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
CN113392209A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
-
2021
- 2021-10-20 CN CN202111219480.7A patent/CN116010593A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978022A (zh) * | 2019-03-08 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种医疗文本信息处理方法及装置、存储介质 |
CN110490251A (zh) * | 2019-03-08 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的预测分类模型获取方法及装置、存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
WO2021068601A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安国际智慧城市科技股份有限公司 | 病历检测方法、装置、设备及存储介质 |
CN113392209A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
CN112614559A (zh) * | 2020-12-29 | 2021-04-06 | 苏州超云生命智能产业研究院有限公司 | 病历文本处理方法、装置、计算机设备和存储介质 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182562B2 (en) | Deep embedding for natural language content based on semantic dependencies | |
Jain et al. | Attention is not explanation | |
Da | The computational case against computational literary studies | |
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN112992317B (zh) | 一种医学数据处理方法、系统、设备及介质 | |
US10817521B2 (en) | Near-real-time prediction, classification, and notification of events in natural language systems | |
US20170161619A1 (en) | Concept-Based Navigation | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
Hu et al. | Geo-knowledge-guided GPT models improve the extraction of location descriptions from disaster-related social media messages | |
Tyagi et al. | Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN112614559A (zh) | 病历文本处理方法、装置、计算机设备和存储介质 | |
CN114519356A (zh) | 目标词语的检测方法、装置、电子设备及存储介质 | |
Jing et al. | Knowledge-enhanced attentive learning for answer selection in community question answering systems | |
CN112151187B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN116010593A (zh) | 疾病情感信息的确定方法、装置、计算机设备和存储介质 | |
CN112668327A (zh) | 信息提取方法、装置、计算机设备和存储介质 | |
Hoberg | Supply chain and big data | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 | |
Cambria | Sentic computing | |
CN117390140B (zh) | 基于机器阅读理解的中文方面级情感分析方法及系统 | |
CN112052424B (zh) | 一种内容审核方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40088355 Country of ref document: HK |