CN113780008B - 描述文本中目标词的确定方法、装置、设备以及存储介质 - Google Patents

描述文本中目标词的确定方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN113780008B
CN113780008B CN202111348973.0A CN202111348973A CN113780008B CN 113780008 B CN113780008 B CN 113780008B CN 202111348973 A CN202111348973 A CN 202111348973A CN 113780008 B CN113780008 B CN 113780008B
Authority
CN
China
Prior art keywords
word
description text
character
time step
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111348973.0A
Other languages
English (en)
Other versions
CN113780008A (zh
Inventor
张子恒
许茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111348973.0A priority Critical patent/CN113780008B/zh
Publication of CN113780008A publication Critical patent/CN113780008A/zh
Application granted granted Critical
Publication of CN113780008B publication Critical patent/CN113780008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种描述文本中目标词的确定方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,能够基于描述文本确定对应的动作序列,对描述文本执行动作序列中的动作,以获取描述文本中的感受词,这个感受词能够表示目标对象的感受。基于描述文本、感受词的语义特征、候选词的语义特征以及动作序列,从多个候选词中确定目标词,该目标词也即是描述文本中感受词的标准化表述,由于在确定目标词的过程中是基于语义特征来实现的,那么确定出的目标词与感受词之间的匹配程度也就较高。通过该目标词能够实现对描述文本的标准化,标准化过程也无需人工参与,从而提高了对描述文本进行标准化的效率和准确性。

Description

描述文本中目标词的确定方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种描述文本中目标词的确定方法、装置、设备以及存储介质。
背景技术
随着计算机技术的发展,能够通过设备自动对描述文本进行处理,将描述文本中一些内容用标准化的内容替代,从而统一对同一事物的表达,规范化语言表达,从而代替人工处理,有效提高处理效率。比如,患者就医过程中,会通过语言来描述自己的身体状况,基于患者的表达生成的主诉也即是一种描述文本。由于不同患者的语言表达习惯不同,对于同一种疾病或者感受会以不同的文字来表示。将描述文本中一些内容用标准化的内容替代,能够对主诉进行标准化,从而提高医生诊断的效率。
相关技术中,对描述文本进行处理时往往会由医护人员手动进行,也即是由医护人员从描述文本中确定出需要替代的内容,进而实现对描述文本标准化。但是,在这种方式下,对描述文本进行标准化的效率较低,准确性较差。
发明内容
本申请实施例提供了一种描述文本中目标词的确定方法、装置、设备以及存储介质,可以提升对描述文本进行标准化的效率和准确率,技术方案如下。
一方面,提供了一种描述文本中目标词的确定方法,所述方法包括:
获取目标对象的描述文本,所述描述文本用于记载所述目标对象的感受;
基于所述描述文本,确定所述描述文本的动作序列,所述动作序列中的动作对应于所述描述文本的不同处理阶段;
对所述描述文本执行所述动作序列中的动作,得到所述描述文本中所述目标对象的感受词;
基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词,所述目标词为所述多个候选词中与所述感受词对应的候选词,所述候选词为标准化的感受词。
在一种可能的实施方式中,所述词汇拼接还用于,在所述至少两个部分感受词包括修饰词时,保留所述至少两个部分感受词中的修饰词。
在一种可能的实施方式中,所述基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词之前,所述方法还包括:
对所述描述文本中的各个字符进行特征提取,得到所述描述文本中各个字符的语义特征;
将所述感受词中字符的语义特征进行融合,得到所述感受词的语义特征。
在一种可能的实施方式中,所述对所述描述文本中的各个字符进行特征提取,得到所述描述文本中各个字符的语义特征包括:
对于描述文本中的任一字符,对所述字符进行卷积,得到所述字符的第一词汇特征;
对所述字符进行嵌入编码,得到所述字符的第二词汇特征;
基于所述字符以及在所述描述文本中与所述字符相邻的字符,获取所述字符的第三词汇特征,所述第三词汇特征为所述字符的上下文特征;
将所述第一词汇特征、第二词汇特征和所述第三词汇特征进行拼接,得到所述字符的语义特征。
一方面,提供了一种描述文本中目标词的确定装置,所述装置包括:
描述文本获取模块,用于获取目标对象的描述文本,所述描述文本用于记载所述目标对象的感受;
动作序列确定模块,用于基于所述描述文本,确定所述描述文本的动作序列,所述动作序列中的动作对应于所述描述文本的不同处理阶段;
感受词获取模块,用于对所述描述文本执行所述动作序列中的动作,得到所述描述文本中所述目标对象的感受词;
目标词确定模块,用于基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词,所述目标词为所述多个候选词中与所述感受词对应的候选词,所述候选词为标准化的感受词。
在一种可能的实施方式中,所述动作序列确定模块,用于基于所述描述文本在各个时间步中的状态信息以及各个时间步对应的历史动作序列,确定所述描述文本的动作序列,所述状态信息用于指示对应时间步中所述描述文本中未处理的字符、待拼接字符以及已处理字符拼接成的词汇,所述历史动作序列为对应时间步之前的时间步确定的动作序列。
在一种可能的实施方式中,所述动作序列确定模块,用于在任一时间步i中,确定所述描述文本在所述时间步i的状态信息,其中,i为正整数;获取在时间步i-1确定的历史动作序列;基于所述描述文本在所述时间步i的状态信息以及在所述时间步i-1确定的历史动作序列,确定所述时间步i对应的动作;将所述时间步i对应的动作添加至在所述时间步i-1确定的历史动作序列中,得到所述时间步i对应的动作序列。
在一种可能的实施方式中,所述动作序列确定模块,用于基于所述描述文本的词汇集合、第一字符集合、第二字符集合以及在所述时间步i-1确定的历史动作序列中的第一个动作,确定所述时间步i对应的动作,所述词汇集合包括在所述时间步i时已处理字符拼接成的词汇,所述第一字符集合包括在所述时间步i时待拼接的字符,所述第二字符集合包括在所述时间步i时所述描述文本中未处理的字符。
在一种可能的实施方式中,所述动作序列确定模块,用于将所述词汇集合中的前两个词汇、所述第一字符集合中的第一个字符、所述第二字符集合中的第一个字符以及在所述时间步i-1确定的历史动作序列中的第一个动作,拼接为所述时间步i的第一状态矩阵;采用预设的第一权重矩阵和预设的第一偏置矩阵对所述第一状态矩阵进行处理,得到所述时间步i的第二状态矩阵;采用第一激活函数对所述第二状态矩阵进行处理,得到所述时间步i对应的动作。
在一种可能的实施方式中,所述动作序列中的动作包括下述至少一项:
字符删除,用于删除所述描述文本中未处理的字符中的第一个字符;
字符转换,用于将所述描述文本中未处理的字符中的第一个字符转换为待拼接的字符;
字符拼接,用于将至少两个待拼接的字符拼接为词汇;
词汇转换,用于将已处理字符拼接成的词汇确定为部分感受词;
词汇拼接,用于将至少两个部分感受词拼接为完整的感受词;
感受词转换,用于将完整的感受词确定为所述目标对象的感受词。
在一种可能的实施方式中,所述词汇拼接还用于,在所述至少两个部分感受词包括修饰词时,保留所述至少两个部分感受词中的修饰词。
在一种可能的实施方式中,所述目标词确定模块,用于基于所述描述文本,获取所述描述文本中所述感受词的左侧词汇与所述感受词之间的第一上下文特征,以及所述描述文本中所述感受词的右侧词汇与所述感受词之间的第二上下文特征;基于所述第一上下文特征、所述第二上下文特征、所述感受词的语义特征、所述多个候选词的语义特征以及所述动作序列,确定所述目标词。
在一种可能的实施方式中,所述目标词确定模块,用于基于注意力机制,对所述感受词的语义特征和各个所述候选词的语义特征分别进行编码,得到所述感受词的注意力特征和各个所述候选词的注意力特征;基于所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作,确定所述目标词。
在一种可能的实施方式中,所述目标词确定模块,用于将所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作拼接为第一映射矩阵;采用预设的第二权重矩阵和预设的第二偏置矩阵对所述第一映射矩阵进行处理,得到第二映射矩阵;采用第二激活函数对所述第二映射矩阵进行处理,得到各个所述候选词与所述感受词之间的匹配程度;将所述多个候选词中匹配程度符合目标条件的候选词,确定为所述目标词。
在一种可能的实施方式中,所述装置还包括:
第一语义特征获取模块,用于对所述描述文本中的各个字符进行特征提取,得到所述描述文本中各个字符的语义特征;将所述感受词中字符的语义特征进行融合,得到所述感受词的语义特征。
在一种可能的实施方式中,所述第一语义特征获取模块,用于对于描述文本中的任一字符,对所述字符进行卷积,得到所述字符的第一词汇特征;对所述字符进行嵌入编码,得到所述字符的第二词汇特征;基于所述字符以及在所述描述文本中与所述字符相邻的字符,获取所述字符的第三词汇特征,所述第三词汇特征为所述字符的上下文特征;将所述第一词汇特征、第二词汇特征和所述第三词汇特征进行拼接,得到所述字符的语义特征。
在一种可能的实施方式中,所述装置还包括:
第二语义特征获取模块,用于基于所述多个候选词以及所述多个候选词之间的上下位关系,确定所述多个候选词的语义特征。
在一种可能的实施方式中,所述多个候选词包括第一候选词、第二候选词和第三候选词,所述第一候选词是所述第二候选词的上位,所述第三候选词和所述第二候选词之间不存在上下位关系,所述第二语义特征获取模块,用于对所述第一候选词、所述第二候选词和所述第三候选词进行嵌入编码,得到所述第一候选词的第一嵌入特征、所述第二候选词的第二嵌入特征以及所述第三候选词的第三嵌入特征;将所述第一嵌入特征和所述第二嵌入特征输入语义特征提取模型,通过所述语义特征提取模型,采用目标关系数据对所述第二嵌入特征进行非线性变换,得到所述第二候选词的第四嵌入特征;基于所述第一嵌入特征与所述第四嵌入特征之间的第一差异信息,以及所述第三嵌入特征与所述第四嵌入特征之间的第二差异信息,对所述第一嵌入特征和所述第二嵌入特征进行处理,输出所述第一候选词的语义特征和所述第二候选词的语义特征。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述描述文本中目标词的确定方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述描述文本中目标词的确定方法。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述描述文本中目标词的确定方法。
通过本申请实施例提供的技术方案,能够基于描述文本确定对应的动作序列,对描述文本执行动作序列中的动作,以获取描述文本中的感受词,这个感受词能够表示目标对象的感受。基于描述文本、感受词的语义特征、候选词的语义特征以及动作序列,从多个候选词中确定目标词,该目标词也即是描述文本中感受词的标准化表述,由于在确定目标词的过程中是基于语义特征来实现的,那么确定出的目标词与感受词之间的匹配程度也就较高。通过该目标词能够实现对描述文本的标准化,标准化过程也无需人工参与,从而提高了对描述文本进行标准化的效率和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种描述文本中目标词的确定方法的实施环境的示意图;
图2是本申请实施例提供的一种描述文本中目标词的确定方法的流程图;
图3是本申请实施例提供的一种描述文本中目标词的确定方法的流程图;
图4是本申请实施例提供的一种界面示意图;
图5是本申请实施例提供的一种描述文本中目标词的确定方法的流程图;
图6是本申请实施例提供的一种描述文本中目标词的确定装置结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式做进一步的详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个参照人脸图像是指两个或两个以上的参照人脸图像。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
本申请实施例提供的技术方案还能够与云技术相结合,例如,将训练得到的图像识别模型部署在云端服务器。云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
其中,云技术中的医疗云(Medical Cloud)是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。示例性的,本申请实施例提供的图像识别模型部署在医疗健康服务云平台上。
语义特征:用于表示文本所表达语义的特征,不同的文本可以对应于相同的语义特征,例如文本“今天天气怎么样”和文本“今天天气如何”可以对应于同一个语义特征。计算机设备可以将文本中的字符映射为字符向量,根据字符之间的关系,对字符向量进行组合和运算,得到文本的语义特征。例如计算机设备可以采用编解码器的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)。
归一化处理:将取值范围不同的数列映射到(0,1)区间上,便于数据的处理。在一些情况下,归一化后的数值可以直接被实现为概率。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应地,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
上位词(hypernym):指概念上外延更广的主题词。例如:“水果”是“苹果”的上位词,“植物”是“花”的上位词。相应地,下位词(hyponym),指概念上内涵更窄的主题词。
同类词:在语音、语义、结构、来源或构词材料等方面有某种联系的一组词。例如,表示颜色的同类词有“红”“黄”“橙”“青”“绿”等,表示文字的同类词有“象形文字”“意音文字”“拼音文字”等。
ICD-10:即国际疾病伤害及死因分类标准第十版,是世界卫生组织(WHO)依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方式来表示的系统,现有版本包括15.5万种代码,并记录多种新型诊断及预测。ICD-10中的编码具有层级关系,层级关系用于指示对应疾病之间的上下位关系。ICD-10中在同一个3位编码之下的6位编码表示的是相近的概念或者从属于某一种大概念之下,而不同6位编码之间是更细粒度概念的差异。比如,参见表1,隐球菌病在ICD-10中的编码为B45,肺隐球菌病在ICD-10中的编码为B45.0,肺隐球菌病属于隐球菌病的一个分支,或者说肺隐球菌病是隐球菌病的下位。大脑隐球菌病在ICD-10中的编码为B45.1,大脑隐球菌病和肺隐球菌病为同一层级的概念。
ICD 疾病名称
B45 隐球菌病
B45.0 肺隐球菌病
B45.001+J99.8* 肺隐球菌病
B45.002+J99.8* 新型隐球菌肺炎
B45.1 大脑隐球菌病
B45.101+G02.1* 隐球菌病脑膜炎
B45.102+G02.1* 新型隐球菌病脑炎
B45.103+G02.1* 隐球菌病脑炎
B45.2 皮肤隐球菌病
B45.201+L99.8* 皮肤隐球菌病
B45.3 骨隐球菌病
B45.301+M90.2* 骨隐球菌病
B45.7 播散性隐球菌病
B45.701 播散性隐球菌病
B45.8 其他形式的隐球菌病
B45.801 胆道隐球菌病
B45.802 前列腺隐球菌病
B45.9 未特指的隐球菌病
表1
命名实体识别(Named Entity Recognition,NER):是指识别文本中具有特定意义的实体词,通用领域中主要包括人名、地名、机构名、专有名词等,在医疗领域,如电子病历中的诊断名称、手术名称、药物名称、解剖部位等。
术语标准化(Named Entity Normalization,NEN):是医学统计中不可或缺的一项任务,在临床上,关于同一种诊断往往会有成百上千种不同的写法,标准化(归一)要解决的问题就是为临床上各种不同的表达找到对应的医学术语标准表达。
图1是本申请实施例提供的一种描述文本中目标词的确定方法的实施环境示意图,参见图1,该实施环境中可以包括终端110和服务器140。
终端110通过无线网络或有线网络与服务器140相连。可选地,终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、车载终端等,但并不局限于此。终端110安装和运行有支持描述文本中目标词的确定的应用程序。
可选地,服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选地,终端110泛指多个终端中的一个,本申请实施例仅以终端110来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
在一些实施例中,上述终端110和服务器140能够作为区块链系统中的节点。
在介绍完本申请实施例提供的描述文本中目标词的确定方法的实施环境之后,下面对匹配信息确定方法的应用场景进行介绍,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。
本申请实施例提供的感受词的确定方法能够应用在电子病历标准化以及诊断标准化的场景下。
在电子病历标准化的场景下,电子病历除了包括患者的个人信息,比如患者的年龄、性别以及住址之外,还包括根据患者就诊时表达的内容形成的主诉(描述文本),其中,主述是患者对最主要的症状和(或)体征的叙述。由于不同患者的语言习惯不同,根据不同患者在就诊时表达的内容所形成的主诉也是不同的,特别是对于同一种病症来说,不同患者会采用不同的语言来形容,使得患有同一种病症的患者形成的主诉大相径庭,不利于后续医生对于病症的分析。采用本申请实施例提供的感受词的确定方法之后,能够对电子病历中的主诉进行标准化处理,对主诉中口语化的感受词进行标准化,从而实现对电子病历中主诉的标准化。在对主诉进行标准化时,会基于主诉预测对应的动作序列,动作序列包括多个动作,每个动作对应于主诉的不同处理阶段。对主诉执行动作序列中的动作,就能够得到主诉中的感受词。将该感受词与多个候选词进行匹配,从多个候选词中确定出与该感受词对应的目标词,其中,候选词为标准化后的感受词,采用目标词来替换主诉中对应的感受词,就能够实现对主诉的标准化,从而实现对电子病历的标准化。
在诊断标准化的场景下,由于不同医生的语言习惯也可能是不同的,那么不同医生对于同一种疾病的诊断也可能对应于不同的语言。或者,不同医院使用不同的诊断标准,不同诊断标准对于同一种疾病有不同的疾病名称,这样对于同一种疾病不同医院的医生也可能给出不同的描述文本。在这种情况下,不利于诊断不同医生、医院之间的交流。采用本申请实施例提供的感受词的确定方法之后,能够对诊断文本(描述文本)进行标准化,将不同医生做出的诊断进行标准化。在对诊断文本进行标准化时,会基于诊断文本预测对应的动作序列,动作序列包括多个动作,每个动作对应于诊断文本的不同处理阶段。对诊断文本执行动作序列中的动作,就能够得到诊断文本中的感受词。将该感受词与多个候选词进行匹配,从多个候选词中确定出与该感受词对应的目标词,其中,候选词为标准化后的感受词,采用目标词来替换诊断文本中对应的感受词,就能够实现对诊断文本的标准化。
需要说明的是,上述是分别以本申请实施例提供的技术方案应用在电子病历标准化和诊断标准化的场景下为例进行说明的,在其他可能的实施方式中,本申请实施例提供的技术方案还能够应用在其他需要进行标准化的场景下,本申请实施例对此不做限定。
对本申请实施例提供的描述文本中目标词的确定方法的实施环境和应用场景进行介绍之后,下面将对申请实施例提供的描述文本中目标词的确定方法进行说明,参见图2,以执行主体为服务器为例,方法包括下述步骤。
201、服务器获取目标对象的描述文本,该描述文本用于记载该目标对象的感受。
在一些实施例中,该目标对象为患者,目标对象的描述文本为患者的主诉或者为医生对患者的诊断,本申请实施例对此不做限定。在该目标对象为患者,目标对象的描述文本为患者的主诉的情况下,该描述文本用于记载该患者对于当前身体状态或者精神状态的感受。
202、服务器基于该描述文本,确定该描述文本的动作序列,该动作序列中的动作对应于该描述文本的不同处理阶段。
其中,动作序列包括多个动作,动作序列中的多个动作有执行顺序的先后,也即是在描述文本的不同处理阶段对应执行不同的动作。
203、服务器对该描述文本执行该动作序列中的动作,得到该描述文本中该目标对象的感受词。
其中,目标对象的感受词为描述文本中的关键词,或者被称为描述文本中的实体或者关键词,也即是待进行标准化的感受词。在一些实施例中,对该描述文本执行该动作序列中的动作,得到该描述文本中该目标对象的感受词的步骤,也可以被称为命名实体识别的过程。
204、服务器基于该描述文本、该感受词的语义特征、多个候选词的语义特征以及该动作序列,确定目标词,该目标词为该多个候选词中与该感受词对应的候选词,该候选词为标准化的感受词。
其中,目标词是描述文本中目标对象的感受词对应的标准化表达,这里的标准化是一个相对的概念,当采用不同的标准时,标准化也就会对应于不同的结果。
通过本申请实施例提供的技术方案,能够基于描述文本确定对应的动作序列,对描述文本执行动作序列中的动作,以获取描述文本中的感受词,这个感受词能够表示目标对象的感受。基于描述文本、感受词的语义特征、候选词的语义特征以及动作序列,从多个候选词中确定目标词,该目标词也即是描述文本中感受词的标准化表述,由于在确定目标词的过程中是基于语义特征来实现的,那么确定出的目标词与感受词之间的匹配程度也就较高。通过该目标词能够实现对描述文本的标准化,标准化过程也无需人工参与,从而提高了对描述文本进行标准化的效率和准确性。
上述步骤201-204是对本申请实施例提供的技术方案的简单介绍,下面将结合一些例子,对本申请实施例提供的技术方案进行更加详细的说明,参见图3,以执行主体为服务器为例,方法包括下述步骤。
301、服务器获取目标对象的描述文本,该描述文本用于记载该目标对象的感受。
在一些实施例中,目标对象为患者,目标对象的描述文本为患者的电子病历(Electronic Health Record,EHR)中的主诉,或者为医生对患者的诊断文本,其中,电子病历中的主诉可以是患者在医院就诊时,由医生基于患者的描述形成的,也可以是患者在线上就医时,输入的用于描述感受的文本,本申请实施例对此不做限定。在一些实施例中,该诊断文本存储在该患者的电子病历中。在一些实施例中,参见图4,终端显示输入页面401,输入页面401包括主诉输入区域402,患者或者医生能够在该主诉输入区域402输入主诉。响应于对查询控件403的点击操作,终端能够将主诉输入区域402中的主诉发送给服务器,由服务器基于该主诉来执行本申请实施例提供的技术方案,将结果展示在区域404中。在一些实施例中,该描述文本为中文。
在一种可能的实施方式中,服务器获取目标对象的电子病历,电子病历包括目标对象的描述文本。在一些实施例中,电子病历存储在服务器上,电子病历包括目标对象最近一次就医的记录,最近一次就医的记录包括目标对象最新的描述文本。在一些实施例中,目标对象的电子病历经过患者许可后,能够被不同的用户查看。在这种情况下,比如目标对象在L医院就医后,还可能去M医院就医。在L医院就医的过程中,L医院的医生能够在目标对象的电子病历中添加此次就诊中目标对象的描述文本,这样当目标对象去M医院就医时,M医院的医生就能够直接从目标对象的电子病历中调用L医院的医生上传的目标对象的描述文本,从而便于M医院的医生进行进一步诊断。
在这种实施方式下,服务器能够通过获取目标对象的电子病历的方式来快速获取目标对象的描述文本,效率较高。
下面通过两个例子对上述实施方式进行说明。
例1、服务器从终端获取目标对象的电子病历,从该电子病历中获取目标对象的描述文本。
在一种可能的实施方式中,服务器向终端发送电子病历获取请求,该电子病历获取请求携带该目标对象的标识。终端接收该电子病历获取请求,从该电子病历获取请求中获取该目标对象的标识,基于该目标对象的标识进行查询,得到该目标对象的电子病历。终端将该目标对象的电子病历发送给服务器,服务器获取该目标对象的电子病历,从该电子病历中获取该目标对象的描述文本。在一些实施例中,该终端是该目标对象就诊过的医院的终端,或者是专门用于存储电子病历的终端,或者是目标对象使用的终端等,本申请实施例对此不做限定。
在这种实施方式下,服务器能够主动从终端获取目标对象的电子病历,并从目标对象的电子病历中获取目标对象的描述文本,由于目标对象的电子病历存储在终端而不是服务器上,能够节省服务器的存储空间。
在一种可能的实施方式中,终端将目标对象的电子病历上传至服务器,服务器接收目标对象的电子病历,从目标对象的电子病历中获取目标对象的描述文本。
在这种实施方式下,当需要采用本申请实施例提供的技术方案对目标对象的电子病历中的描述文本进行处理时,终端能够主动将目标对象的电子病历上传至服务器,通过服务器来对描述文本进行处理,此时,本申请实施例提供的技术方案由服务器作为一种云服务提供给不同的终端。
举例来说,终端显示电子病历获取页面,电子病历获取页面包括对象选择区域。响应于在患者选择区域中选择了目标对象,终端从存储器中加载该目标对象的电子病历,将该电子病历发送给服务器。服务器接收目标对象的电子病历,从目标对象的电子病历中获取目标对象的描述文本。
例2、服务器基于目标对象的标识进行查询,获取该目标对象的电子病历。服务器从该电子病历中获取目标对象的描述文本。
在一种可能的实施方式中,服务器基于目标患者的标识在电子病历数据库中进行查询,获取目标患者的电子病历。服务器从该电子病历中获取目标对象的描述文本。
在这种实施方式下,服务器能够直接从电子病历数据库中调用目标对象的电子病历,效率较高。
302、服务器基于该描述文本,确定该描述文本的动作序列,该动作序列中的动作对应于该描述文本的不同处理阶段。
在一种可能的实施方式中,服务器基于该描述文本在各个时间步中的状态信息以及各个时间步对应的历史动作序列,确定该描述文本的动作序列,该状态信息用于指示对应时间步中该描述文本中未处理的字符、待拼接字符以及已处理字符拼接成的词汇,该历史动作序列为对应时间步之前的时间步确定的动作序列。
其中,状态信息用于表示对该描述文本的处理状态,一个时间步也即是一个步骤,在一个时间步对该描述文本执行对应的动作后,对该描述文本的处理状态也就会发生改变,从而该描述文本对应的状态信息也就会发生改变。待拼接字符为属于感受词的字符,已处理字符拼接成的词汇为属于感受词的词汇。在一些实施例中,描述文本中未处理的字符也被称为将要处理的字符,待拼接字符也被称为正在处理的字符,处理字符拼接成的词汇也被称为词汇级别的阶段性结果。
在一些实施例中,服务器通过四个栈来存储该描述文本在不同处理阶段对应的字符和词汇,这四个栈用于存储描述文本中未处理的字符、待拼接字符、已处理字符拼接成的词汇以及输出结果。在一些实施例中,这四个栈包括词汇栈(Stack-word(θ))、字符栈(Stack-char(δ))、缓存栈(Buffer(β))和输出栈(Output(o))。其中,词汇栈用于存储已处理字符拼接成的词汇,词汇栈中存储的词汇为属于感受词的词汇,字符栈用于存储待拼接字符,字符栈中存储的字符为属于感受词的字符,缓存栈用于存储该描述文本中未处理的字符,输出栈用于存储识别出的感受词以及该感受词对应的目标词。在这种情况下,该描述文本在各个时间步中的状态信息是指上述四个栈中存储的内容。服务器在对该描述文本执行动作时,上述四个栈中存储的内容可能会发生变化。
初始状态下,Stack-word(θ)、Stack-char(δ)与Output(o)均为空栈,Buffer(β)包含该描述文本的所有字符;结束状态下,Stack-word(θ)、Stack-char(δ)与Buffer(β)均为空栈,Output(o)保存已识别和标准化后的感受词。状态转换由一组动作序列A完成,动作序列A消耗Buffer(β)中的字符,经由Stack-char(δ)和Stack-word(θ)逐步构造输出。
在描述文本为中文的情况下,通过设置词汇栈Stack-word(θ)和字符栈Stack-char(δ),能够在字符粒度下进行聚合,更加适用于对中文描述文本进行处理。
需要说明的是,在上述说明过程中,是以服务器通过栈的形式来存储该描述文本在不同处理阶段对应的字符和词汇为例进行说明的,在其他可能的实施方式中,服务器也能够通过其他方式来存储该描述文本在不同处理阶段对应的字符和词汇,本申请实施例对此不做限定。
由于服务器基于该描述文本,确定该描述文本的动作序列包括多个时间步,下面以一个时间步为例对上述实施方式进行说明。
在一种可能的实施方式中,在任一时间步i中,服务器确定该描述文本在该时间步i的状态信息,其中,i为正整数。服务器获取在时间步i-1确定的历史动作序列。服务器基于该描述文本在该时间步i的状态信息以及在该时间步i-1确定的历史动作序列,确定该时间步i对应的动作。服务器将该时间步i对应的动作添加至在该时间步i-1确定的历史动作序列中,得到该时间步i对应的动作序列。
为了对上述实施方式进行更加清楚的说明,下面先对动作序列中可能存在的动作进行介绍。
在一种可能的实施方式中,动作序列中的动作包括下述至少一项。
字符删除(Out),用于删除该描述文本中未处理的字符中的第一个字符。若服务器对描述文本执行字符删除的动作,也就表示该描述文本中未处理的字符中的第一个字符不属于任一感受词。在服务器用缓存栈存储该描述文本中未处理的字符的情况下,在执行字符删除时,服务器将该缓存栈中的该第一个字符删除。比如,以描述文本为“患者有分离性感觉麻木和感觉丧失的情况”为例,在初始状态下,该描述文本中的全部字符均存储在该缓存栈中。该缓存栈中的第一个字符也即是该描述文本的第一个字符“患”。在执行字符删除时,服务器从缓存栈中将该第一个字符“患”删除,这也就表示字符“患”不属于任一感受词。删除之后,缓存栈中剩余的字符为“者有分离性感觉麻木和感觉丧失的情况”。
字符转换(Shift-char),用于将该描述文本中未处理的字符中第一个字符确定为待拼接的字符,也就表示该第一个字符为感受词的一部分。在服务器用缓存栈存储该描述文本中未处理的字符,用字符栈存储待拼接的字符的情况下,在执行字符转化时,服务器将缓存栈中的该第一个字符转移至字符栈中。比如,以该缓存栈中存储的字符为“分离性感觉麻木和感觉丧失的情况”为例,在执行字符转化时,服务器将缓存栈中的字符“分”转移至字符栈中,转移之后,缓存栈中剩余的字符为“离性感觉麻木和感觉丧失的情况”。在一些实施例中。
字符拼接(Reduce),用于将该至少两个待拼接的字符拼接为词汇。在服务器用字符栈存储待拼接的字符的情况下,在执行字符拼接时,服务器将字符栈中的至少两个字符拼接为词汇,将该词汇放回字符栈。比如,以该字符栈中存储的字符为“分”、“离”和“性”为例,在执行字符转化时,服务器将缓存栈中的字符“分”、离”和“性”拼接为词汇“分离性”,将该词汇“分离性”放回字符栈。
词汇转换(Shift-word),用于将已处理字符拼接成的词汇确定为部分感受词,也就表明该词汇为感受词的一部分。在服务器用字符栈存储待拼接的字符,用词汇栈存储已处理字符拼接成的词汇的情况下,在执行词汇转换时,服务器将字符栈中由至少两个字符拼接成的词汇转移至词汇栈中。比如,以该字符栈中存储的词汇为“分离性”为例,在执行词汇转化时,服务器将字符栈中的词汇“分离性”转移至词汇栈。
词汇拼接(Merge),用于将至少两个部分感受词拼接为完整的感受词。在服务器用词汇栈存储已处理字符拼接成的词汇的情况下,在执行词汇拼接的时,服务器将词汇栈中的至少两个部分感受词拼接成完整的感受词,将该完整的感受词放回词汇栈。比如,以该词汇栈中存储的词汇为“分离性”和“感觉麻木”为例,在执行词汇拼接时,服务器将词汇栈中的词汇“分离性”和“感觉麻木”拼接为“分离性感觉麻木”,将该词汇“分离性感觉麻木”放回到词汇栈中。
该词汇拼接还用于,在该至少两个部分感受词包括修饰词时,保留该至少两个部分感受词中的修饰词。在服务器用词汇栈存储已处理字符拼接成的词汇的情况下,在执行词汇拼接时,在词汇栈中至少两个部分感受词中存在修饰词的情况下,服务器将该至少两个部分感受词拼接为完整的感受词,将该完整的感受词放回该词汇栈。服务器将该至少两个部分感受词中的修饰词也放回词汇栈,放回词汇栈的感受词能够在后续词汇拼接步骤中继续使用。比如,以该词汇栈中存储的词汇为“分离性”和“感觉麻木”为例,在执行词汇拼接时,服务器将词汇栈中的词汇“分离性”和“感觉麻木”拼接为“分离性感觉麻木”,将该词汇“分离性感觉麻木”放回到词汇栈中。由于词汇“分离性”为修饰词,也即是形容词,那么服务器能够将该词汇“分离性”也放回词汇栈中。在进行词汇拼接后,保留修饰词“分离性”,方便进行后续的识别与拼接,可正确得到两个对应的概念,满足实际业务的需求。比如,将“分离性感觉麻木和感觉丧失”识别为“分离性感觉麻木”和“分离性感觉丧失”。
感受词转换(Segment),用于将完整的感受词确定为该目标对象的感受词。在服务器用词汇栈存储已处理字符拼接成的词汇,用输出栈存储目标对象的感受词的情况下,在执行感受词转换时,服务器将词汇栈中存储的完整的感受词,转移至输出栈中。
需要说明的是,上述六个动作的功能是从该描述文本中确定出目标对象的感受词。在该描述文本为目标对象的主诉的情况下,上述六个动作也被称为诊断识别的动作。在描述文本为中文诊断文本的情况下,输入该中文诊断文本之后,服务器能够预测该中文诊断文本中每个字符、每个词汇对应的动作,直到该中文诊断文本全部预测完毕。
介绍完动作序列中的动作之后,为了对上述实施方式进行更加清楚的说明,下面将分为几个部分对上述实施方式进行说明。
第一部分、在任一时间步i中,服务器确定该描述文本在该时间步i的状态信息。
在一种可能的实施方式中,在服务器通过词汇栈来存储该描述文本中已处理字符拼接成的词汇,通过字符栈来存储该描述文本中待拼接字符,通过缓存栈来存储该描述文本中未处理的字符的情况下,服务器确定在时间步i时词汇栈中的词汇、字符栈中的字符以及缓存栈中的字符,词汇栈中的词汇、字符栈中的字符以及缓存栈中的字符构成该描述文本在时间步i的状态信息。
举例来说,以描述文本为“患者有分离性感觉麻木和感觉丧失的情况”为例,在时间步i时,词汇栈中存储有词汇“分离性”,字符栈中存储有字符“感”和“觉”、缓存栈中存储有字符“麻木和感觉丧失的情况”。那么在时间步i时,该描述文本的状态信息为【分离性,感and觉,麻木和感觉丧失的情况】。
第二部分、服务器获取在时间步i-1确定的历史动作序列。
其中,在时间步i-1确定的历史动作序列中,包括时间步1到时间步i-1对应的动作。服务器在确定出每个时间步对应的动作时,将动作存储在一个动作序列中,随着时间步的增加,该动作序列中的动作数量也在增加。比如,A1 i-1=(a1,a2,……ai-1),其中,A1 i-1为时间步i-1对应的历史动作序列,a1为时间步1对应的动作,a2为时间步2对应的动作,ai-1为时间步i-1对应的动作。
第三部分、服务器基于该描述文本在该时间步i的状态信息以及在该时间步i-1确定的历史动作序列,确定该时间步i对应的动作。
其中,第三部分描述的步骤能够通过下述公式(1)来表示。
Figure DEST_PATH_IMAGE001
(1)
其中,
Figure DEST_PATH_IMAGE002
为时间步i对应的动作序列,
Figure DEST_PATH_IMAGE003
为该描述文本在时间步i对应的状态信息序列,
Figure DEST_PATH_IMAGE004
为时间步i对应的动作,
Figure DEST_PATH_IMAGE005
为执行动作
Figure DEST_PATH_IMAGE006
后该描述文本对应的状态信息,
Figure DEST_PATH_IMAGE007
为时间步i-1对应的历史动作序列,
Figure DEST_PATH_IMAGE008
为在该时间步i的状态信息,
Figure DEST_PATH_IMAGE009
为激活函数,
Figure DEST_PATH_IMAGE010
表示概率函数,
Figure 673168DEST_PATH_IMAGE010
通过下述公式(2)的确定。
Figure DEST_PATH_IMAGE011
(2)
其中,
Figure DEST_PATH_IMAGE012
表示确定出的时间步i对应的动作的概率,
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
分别为预设的权重,
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
分别为预设的偏置,
Figure DEST_PATH_IMAGE017
表示在
Figure DEST_PATH_IMAGE018
条件下,所有可能的动作集合,
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
中的动作。
结合上述公式(1)和公式(2),得到下述公式(3)。
Figure DEST_PATH_IMAGE021
(3)
在时间步i下,该描述文本对应的状态信息能够通过下述公式(4)来表示,对应的状态序列通过下述公式(5)来表示。
Figure DEST_PATH_IMAGE022
(4)
Figure DEST_PATH_IMAGE023
(5)
其中,
Figure 354423DEST_PATH_IMAGE018
表示时间步i下该描述文本对应的状态信息,
Figure DEST_PATH_IMAGE024
表示时间步i下词汇栈(Stack-word(θ))中的字符,
Figure DEST_PATH_IMAGE025
表示时间步i下字符栈(Stack-char(δ))中的字符,
Figure DEST_PATH_IMAGE026
表示时间步i下缓存栈(Buffer(β))中的字符,
Figure DEST_PATH_IMAGE027
表示时间步i下的动作序列,
Figure DEST_PATH_IMAGE028
表示时间步i-1下对应的动作。
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
表示汇栈中第一个字符;
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
表示字符栈中的第一个字符;
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE034
表示缓存栈中的第一个字符。
在一些实施例中,还能够通过下述公式(6)来表示时间步i下缓存栈(Buffer(β))中的字符,通过下述公式(7)来表示时间步i下词汇栈(Stack-word(θ))中的字符、时间步i下字符栈(Stack-char(δ))中的字符以及时间步i下的动作序列。
Figure DEST_PATH_IMAGE035
(6)
Figure DEST_PATH_IMAGE036
(7)
其中,
Figure DEST_PATH_IMAGE037
为双向(Bi-directional Long Short-Term Memory,双向长短时静态网络)模型的函数,
Figure DEST_PATH_IMAGE038
为(Stack Long Short-Term Memory,栈堆长短时静态网络)模型的函数。
在一种可能的实施方式中,服务器基于该描述文本的词汇集合、第一字符集合、第二字符集合以及在该时间步i-1确定的历史动作序列中的第一个动作,确定该时间步i对应的动作,该词汇集合包括在该时间步i时已处理字符拼接成的词汇,该第一字符集合包括在该时间步i时待拼接的字符,该第二字符集合包括在该时间步i时该描述文本中未处理的字符。
举例来说,服务器将该词汇集合中的前两个词汇、该第一字符集合中的第一个字符、该第二字符集合中的第一个字符以及在该时间步i-1确定的历史动作序列中的第一个动作,拼接为该时间步i的第一状态矩阵。服务器采用预设的第一权重矩阵和预设的第一偏置矩阵对该第一状态矩阵进行处理,得到该时间步i的第二状态矩阵。服务器采用第一激活函数对该第二状态矩阵进行处理,得到该时间步i对应的动作。在服务器采用词汇栈存储已处理字符拼接成的词汇,字符栈存储待拼接字符,缓存栈用于存储该描述文本中未处理的字符的情况下,词汇集合也即是词汇栈,第一字符集合也即是字符栈,第二字符集合也即是缓存栈。
比如,服务器通过下述公式(8)来获取该时间步i对应的候选动作的概率,在该概率符合目标条件的情况下,将该候选动作确定为该时间步i对应的动作。
Figure DEST_PATH_IMAGE039
(8)
其中,
Figure DEST_PATH_IMAGE040
为第一权重矩阵,
Figure DEST_PATH_IMAGE041
为第一偏置矩阵,
Figure DEST_PATH_IMAGE042
为该时间步i对应的候选动作的概率,
Figure DEST_PATH_IMAGE043
为该词汇集合中的第一个词汇,
Figure DEST_PATH_IMAGE044
为该词汇集合中的第二个词汇,
Figure DEST_PATH_IMAGE045
为第一字符集合中第一个字符,
Figure DEST_PATH_IMAGE046
为第二字符集合中的第一个字符,
Figure DEST_PATH_IMAGE047
为该时间步i-1确定的历史动作序列中的第一个动作,
Figure DEST_PATH_IMAGE048
为激活函数。
第四部分、服务器将该时间步i对应的动作添加至在该时间步i-1确定的历史动作序列中,得到该时间步i对应的动作序列。
通过第四部分的处理,实现对动作序列的更新。
在一些实施例中,上述步骤302由服务器通过一个感受词确定模型来实现。
303、服务器对该描述文本执行该动作序列中的动作,得到该描述文本中该目标对象的感受词。
在上述步骤302中对动作序列中的动作进行了说明,下面将通过一个例子来对步骤303进行说明。
304、服务器获取该感受词的语义特征。
在一种可能的实施方式中,服务器对该描述文本中的各个字符进行特征提取,得到该描述文本中各个字符的语义特征。服务器将该感受词中字符的语义特征进行融合,得到该感受词的语义特征。
在这种实施方式下,服务器能够通过描述文本中字符的语义特征来获取感受词的语义特征,感受词的语义特征融合了各个字符的语义特征,感受词的语义特征的表达能力更强。
为了对上述实施方式进行更加清楚的说明,下面将分为两个步骤对上述实施方式进行说明。
步骤A、服务器对该描述文本中的各个字符进行特征提取,得到该描述文本中各个字符的语义特征。
在一种可能的实施方式中,对于描述文本中的任一字符,服务器对该字符进行卷积,得到该字符的第一词汇特征。服务器对该字符进行嵌入编码,得到该字符的第二词汇特征。服务器基于该字符以及在该描述文本中与该字符相邻的字符,获取该字符的第三词汇特征,该第三词汇特征为该字符的上下文特征。服务器将该第一词汇特征、第二词汇特征和该第三词汇特征进行拼接,得到该字符的语义特征。
在这种实施方式下,在获取字符的语义特征时,结合了多种特征提取方式,得到的语义特征能够更准确地体现该字符的语义,从而提高后续确定目标词的准确率。
举例来说,服务器通过卷积神经网络对该字符进行卷积,得到该字符的第一词汇特征,该第一词汇特征也即是该字符的字符级表示。服务器通过字符嵌入模型,对该字符进行嵌入编码,得到该字符的第二词汇特征,该第二词汇特征为该字符的词汇级表示,其中,该字符嵌入模型为Word2Vec(词到向量)或者Glove(手套),本申请实施例对此不做限定。服务器通过上下文特征提取模型,对该字符进行特征提取,得到该字符的第三词汇特征,其中,该上下文特征提取模型为BERT(Bidirectional Encoder Representations fromTransformers,编解码器的双向编码器表示)模型、BERT模型的各个变种或者ELMO(Embeddings from Language Models,语义嵌入模型)模型,本申请实施例对此不做限定。服务器将该第一词汇特征、第二词汇特征和该第三词汇特征进行拼接,得到该字符的语义特征。比如,服务器通过下述公式(9)将该第一词汇特征、第二词汇特征和该第三词汇特征进行拼接,得到该字符的语义特征。
Figure DEST_PATH_IMAGE049
(9)
其中,
Figure DEST_PATH_IMAGE050
为该描述文本中编号为i的字符的语义特征,
Figure DEST_PATH_IMAGE051
为第一词汇特征,
Figure DEST_PATH_IMAGE052
为第二词汇特征,
Figure DEST_PATH_IMAGE053
为第三词汇特征。
步骤B、服务器将该感受词中字符的语义特征进行融合,得到该感受词的语义特征。
在一种可能的实施方式中,服务器将该受词中字符的语义特征进行加权求和,得到该感受词的语义特征,其中,字符语义特征对应的权重基于字符重要程度确定,比如权重基于字符的词频确定,或者基于TFIFD(Term Frequency–inverse Document Frequency,词频-逆文本频率指数)值确定;或者将权重设置为1或其他数值,本申请实施例对此不做限定。
在一种可能的实施方式中,服务器将该感受词中字符的语义特征进行拼接,得到该感受词的语义特征。
305、服务器基于该描述文本、该感受词的语义特征、多个候选词的语义特征以及该动作序列,确定目标词,该目标词为该多个候选词中与该感受词对应的候选词,该候选词为标准化的感受词。
其中,多个候选词为分类标准(标准体系)中的词,比如为ICD-10中的词,步骤305也即是术语标准化的过程,该步骤305也可以作为上述动作序列中的一个动作,该动作被称为标准化(Linking)。在一些实施例中,服务器采用特征向量的形式来表示上述各个特征。
在一种可能的实施方式中,服务器基于该描述文本,获取该描述文本中该感受词的左侧词汇与该感受词之间的第一上下文特征,以及该描述文本中该感受词的右侧词汇与该感受词之间的第二上下文特征。服务器基于该第一上下文特征、该第二上下文特征、该感受词的语义特征、该多个候选词的语义特征以及该动作序列,确定该目标词。
其中,该描述文本中该感受词的左侧词汇也即是该感受词在该描述文本中的上文,第一上下文特征能够表示该感受词在该描述文本中的上文特征。相应地,该描述文本中该感受词的右侧词汇也即是该感受词在该描述文本中的下文,第二上下文特征该感受词在该描述文本中的下文特征。
在这种实施方式中,结合第一上下文特征、第二上下文特征以及该感受词的语义特征,能够更加完整的表示该感受词在该描述文本中的语义,这样从多个候选词中确定出的目标词的准确性也就更高。
为了对上述实施方式进行更加清楚的说明,下面将分为两个步骤对上述实施方式进行说明。
步骤M、服务器基于该描述文本,获取该描述文本中该感受词的左侧词汇与该感受词之间的第一上下文特征,以及该描述文本中该感受词的右侧词汇与该感受词之间的第二上下文特征。
在一种可能的实施方式中,服务器将该描述文本中该感受词的左侧词汇和该感受词输入上下文特征提取模型,对该感受词的左侧词汇和该感受词进行特征提取,得到该第一上下文特征。服务器将该描述文本中该感受词的右侧词汇和该感受词输入上下文特征提取模型,对该感受词的右侧词汇和该感受词进行特征提取,得到该第二下文特征。
以该上下文特征提取模型为BERT模型为例,服务器将该描述文本中该感受词的左侧词汇、该感受词以及该感受词的右侧词汇输入上下文特征提取模型,通过该上下文特征提取模型获取该左侧词汇的查询矩阵、键矩阵和值矩阵、该感受词的查询矩阵、键矩阵和值矩阵,以及该右侧词汇的查询矩阵、键矩阵和值矩阵。服务器通过上下文特征提取模型,基于该左侧词汇的查询矩阵和该感受词的键矩阵,获取该左侧词汇对该感受词的第一注意力权重,第一注意力权重能够表示该左侧词汇对该感受词的贡献。服务器通过上下文特征提取模型,基于该左侧词汇的键矩阵和该感受词的查询矩阵,获取该感受词对该左侧词汇的第二注意力权重。服务器通过上下文特征提取模型,基于该第一注意力权重和该第二注意力权重,将该左侧词汇的值矩阵以及该感受词的值矩阵进行融合,得到该第一上下文特征。相应地,服务器通过上下文特征提取模型,基于该右侧词汇的查询矩阵和该感受词的键矩阵,获取该右侧词汇对该感受词的第三注意力权重,第三注意力权重能够表示该右侧词汇对该感受词的贡献。服务器通过上下文特征提取模型,基于该右侧词汇的键矩阵和该感受词的查询矩阵,获取该感受词对该右侧词汇的第四注意力权重。服务器通过上下文特征提取模型,基于该第三注意力权重和该第四注意力权重,将该右侧词汇的值矩阵以及该感受词的值矩阵进行融合,得到该第二上下文特征。
当然,在其他可能的实施方式中,该上下文特征提取模型也可以为ELMO模型,或者其他上下文特征提取模型,本申请实施例对此不做限定。
步骤N、服务器基于该第一上下文特征、该第二上下文特征、该感受词的语义特征、该多个候选词的语义特征以及该动作序列,确定该目标词。
在一种可能的实施方式中,服务器基于注意力机制,对该感受词的语义特征和各个候选词的语义特征分别进行编码,得到该感受词的注意力特征和各个候选词的注意力特征。服务器基于该第一上下文特征、该第二上下文特征、该感受词的注意力特征、各个候选词的注意力特征、各个候选词的语义特征以及该动作序列中的第一个动作,确定该目标词。
继续将上述实施方式分为两个步骤进行说明。
步骤a、服务器基于注意力机制,对该感受词的语义特征和各个候选词的语义特征分别进行编码,得到该感受词的注意力特征和各个候选词的注意力特征。
在一些实施例中,上述步骤A中的注意力机制为互注意力机制(Co-Attention)。
在一种可能的实施方式中,服务器基于该感受词的语义特征和各个候选词的语义特征,获取该感受词与各个候选词之间的第一互注意力权重,以及各个候选词与该感受词之间的第二互注意力权重。服务器将感受词的语义特征与对应的第一互注意力权重相乘,得到该感受词的注意力特征,这里的对应是指与候选词之间的对应。服务器将各个候选词的语义特征与对应的第二互注意力权重相乘,得到各个候选词的注意力特征。
步骤b、服务器基于该第一上下文特征、该第二上下文特征、该感受词的注意力特征、各个候选词的注意力特征、各个候选词的语义特征以及该动作序列中的第一个动作,确定该目标词。
在一种可能的实施方式中,服务器将该第一上下文特征、该第二上下文特征、该感受词的注意力特征、各个候选词的注意力特征、各个候选词的语义特征以及该动作序列中的第一个动作拼接为第一映射矩阵。服务器采用预设的第二权重矩阵和预设的第二偏置矩阵对该第一映射矩阵进行处理,得到第二映射矩阵。服务器采用第二激活函数对该第二映射矩阵进行处理,得到各个候选词与该感受词之间的匹配程度。服务器将该多个候选词中匹配程度符合目标条件的候选词,确定为该目标词。
比如,服务器能够通过下述公式(10)来获取各个候选词与该感受词之间的匹配程度。
Figure DEST_PATH_IMAGE054
(10)
其中,
Figure DEST_PATH_IMAGE055
为匹配程度,
Figure DEST_PATH_IMAGE056
为第二权重矩阵,
Figure DEST_PATH_IMAGE057
为第二偏置矩阵,
Figure DEST_PATH_IMAGE058
为第一上下文特征,
Figure DEST_PATH_IMAGE059
为第二上下文特征,
Figure DEST_PATH_IMAGE060
为该感受词的注意力特征,
Figure DEST_PATH_IMAGE061
为候选词的注意力特征,
Figure DEST_PATH_IMAGE062
为候选词的语义特征,
Figure DEST_PATH_IMAGE063
为该时间步i-1确定的历史动作序列中的第一个动作,
Figure DEST_PATH_IMAGE064
为激活函数。
下面将结合图5对上述步骤305进行说明。
参见图5,以描述文本为“有分离性感觉麻木的情况”,服务器从该描述文本中识别出的感受词为“分离性感觉麻木”,一个ICD-10中的候选词为“分离性感觉麻木”为例。服务器基于该感受词的左侧词汇“有”,获取该左侧词汇与该感受词之间的第一上下文特征
Figure DEST_PATH_IMAGE065
,在获取第一上下文特征
Figure 973974DEST_PATH_IMAGE065
时,服务器采用了最大值池化的处理,以降低数据量。服务器基于该感受词的右侧词汇“的情况”,获取该右侧词汇与该感受词之间的第二上下文特征
Figure DEST_PATH_IMAGE066
,在获取第二上下文特征
Figure 530636DEST_PATH_IMAGE066
时,服务器采用了最大值池化的处理,以降低数据量。服务器基于互注意力机制,获取该候选感受词与该候选词之间的注意力特征
Figure DEST_PATH_IMAGE067
,以及该候选词与该感受词之间的注意力特征
Figure DEST_PATH_IMAGE068
。服务器获取该候选词的语义特征
Figure DEST_PATH_IMAGE069
以及该时间步i对应的动作序列
Figure DEST_PATH_IMAGE070
,在一些实施例中,服务器通过层级嵌入(Hierarchy Embedding)的方式来获取候选词的语义特征,关于层及嵌入的描述参见步骤305的相关描述。服务器基于第一上下文特征
Figure DEST_PATH_IMAGE071
、第二上下文特征
Figure DEST_PATH_IMAGE072
、注意力特征
Figure DEST_PATH_IMAGE073
、注意力特征
Figure DEST_PATH_IMAGE074
、语义特征
Figure DEST_PATH_IMAGE075
以及动作序列
Figure DEST_PATH_IMAGE076
,将该候选词“分离性感觉麻木”确定为目标词。
下面对服务器获取多个候选词的语义特征的方法进行说明。
在一种可能的实施方式中,服务器基于该多个候选词以及该多个候选词之间的上下位关系,确定该多个候选词的语义特征。
其中,上下位关系也可以被称为层级关系,比如在ICD-10中,不同词汇之间就具有层级关系,比如,隐球菌病B45就是肺隐球菌病B45.0的上层。
举例来说,多个候选词包括第一候选词、第二候选词和第三候选词,该第一候选词是该第二候选词的上位,该第三候选词和该第二候选词之间不存在上下位关系。服务器对该第一候选词、该第二候选词和该第三候选词进行嵌入编码,得到该第一候选词的第一嵌入特征、该第二候选词的第二嵌入特征以及该第三候选词的第三嵌入特征。服务器将该第一嵌入特征和该第二嵌入特征输入语义特征提取模型,通过该语义特征提取模型,采用目标关系数据对该第二嵌入特征进行非线性变换,得到该第二候选词的第四嵌入特征。服务器基于该第一嵌入特征与该第四嵌入特征之间的第一差异信息,以及该第三嵌入特征与该第四嵌入特征之间的第二差异信息,对该第一嵌入特征和该第二嵌入特征进行处理,输出该第一候选词的语义特征和该第二候选词的语义特征。
比如,服务器能够通过下述公式(11)来对该第一嵌入特征和该第二嵌入特征进行处理。
Figure DEST_PATH_IMAGE077
(11)
其中,
Figure DEST_PATH_IMAGE078
为损失函数,
Figure DEST_PATH_IMAGE079
为候选词的集合,
Figure DEST_PATH_IMAGE080
为第二候选词,
Figure DEST_PATH_IMAGE081
为第一候选词,
Figure DEST_PATH_IMAGE082
为第三候选词,
Figure DEST_PATH_IMAGE083
为目标关系数据,
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
为预设的权重,
Figure DEST_PATH_IMAGE086
为预设的偏置,
Figure DEST_PATH_IMAGE087
表示在候选词集合中
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE089
Figure DEST_PATH_IMAGE090
具有层级关系。
在中文场景下,标准体系通常采用ICD-10或医保版、北京版、临床版标准体系,每个标准词有对应的ICD编码,而ICD编码具有层级信息,例如,“伤寒和副伤寒”的ICD编码为A01,“伤寒并发肠出血”的ICD编码为A01.010。这两个术语之间存在着层级关系,因为它们的代码共享相同的前缀“A01”。本申实施例在候选词语义特征的基础上,又引入了层级嵌入的处理方式,以建模ICD-10的层级信息,使得标准术语在特征空间里面的表示更加符合ICD-10的编码逻辑。
需要说明是,服务器获取多个候选词的语义特征的步骤,既可以在步骤301之前执行,也可以在步骤304之后执行,本申请实施例对此不做限定。
下面将结合表2,以描述文本为“患者有分离性感觉麻木和感觉丧失的情况”,服务器通过词汇栈、字符栈、缓存栈以及输出栈存储描述文本中的字符或词汇为例对本申请实施例提供的技术方案进行说明,在下述说明过程中,0为开始状态,31为结束状态。动作字符删除简写为Out、字符转换简写为Shift-char、字符拼接简写为Reduce、词汇转换简写为Shift-word、词汇拼接简写为Merge、感受词转换简写为Segment、标准化简写为Linking。
Figure DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE092
表2
参见表2,在状态0时,缓存栈中存储有完整的描述文本“患者有分离性感觉麻木和感觉丧失的情况”,其他栈均为空栈。在状态1时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“者有分离性感觉麻木和感觉丧失的情况”,表示字符“患”不属于任一感受词,该字符“患”被从描述文本中删除。在状态2时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“有分离性感觉麻木和感觉丧失的情况”,表示字符“者”不属于任一感受词,该字符“者”被从描述文本中删除。在状态3时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“分离性感觉麻木和感觉丧失的情况”,表示字符“有”不属于任一感受词,该字符“有”被从描述文本中删除。在状态4时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“分离性感觉麻木和感觉丧失的情况”中第一个字符“分”,从缓存栈转移到字符栈中。在状态5时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“离性感觉麻木和感觉丧失的情况”中第一个字符“离”,从缓存栈转移到字符栈中。在状态6时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“性感觉麻木和感觉丧失的情况”中第一个字符“性”,从缓存栈转移到字符栈中。在状态7时,服务器对字符栈中的三个字符“分”、“离”和“性”执行动作Reduce,将三个字符“分”、“离”和“性”拼接为词汇“分离性”,将该词汇“分离性”放回到字符栈中。在状态8时,服务器对字符栈中的词汇执行动作Shift-word,将词汇“分离性”从字符栈中转移至词汇栈中。在状态9时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“感觉麻木和感觉丧失的情况”中第一个字符“感”,从缓存栈转移到字符栈中。在状态10时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“觉麻木和感觉丧失的情况”中第一个字符“觉”,从缓存栈转移到字符栈中。在状态11时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“麻木和感觉丧失的情况”中第一个字符“麻”,从缓存栈转移到字符栈中。在状态12时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“木和感觉丧失的情况”中第一个字符“木”,从缓存栈转移到字符栈中。在状态13时,服务器对字符栈中的四个字符“感”、“觉”、“麻”和“木”执行动作Reduce,将四个字符“感”、“觉”、“麻”和“木”拼接为词汇“”,将该词汇“感觉麻木”放回到字符栈中。在状态14时,服务器对字符栈中的词汇执行动作Shift-word,将词汇“感觉麻木”从字符栈中转移至词汇栈中。在状态15时,服务器对词汇栈中的两个词汇“分离性”和“感觉麻木”执行动作Merge,将两个词汇“分离性”和“感觉麻木”合并为一个词汇“分离性感觉麻木”,由于该两个词汇中存在修饰词“分离性”,在词汇栈中保留该词汇“分离性”,状态15的最终结果为词汇栈中存在两个词汇“分离性”和“分离性感觉麻木”。在状态16时,服务器对词汇栈中的词汇 “分离性感觉麻木”执行动作Segment,将词汇栈中的词汇“分离性感觉麻木”转移至输出栈中。在状态17时,服务器对输出栈中的词汇 “分离性感觉麻木”执行动作Linking,将输出栈中的词汇“分离性感觉麻木”映射为标准化后的目标词“分离性感觉麻木(ICD-10)”。在状态18时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“和感觉丧失的情况”,表示字符“和”不属于任一感受词,该字符“者”被从描述文本中删除。在状态19时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“感觉丧失的情况”中第一个字符“感”,从缓存栈转移到字符栈中。在状态20时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“觉丧失的情况”中第一个字符“觉”,从缓存栈转移到字符栈中。在状态21时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“丧失的情况”中第一个字符“丧”,从缓存栈转移到字符栈中。在状态22时,服务器对缓存栈中的描述文本执行动作Shift-char,将描述文本“失的情况”中第一个字符“失”,从缓存栈转移到字符栈中。在状态23时,服务器对字符栈中的四个字符“感”、“觉”、“丧”和“失”执行动作Reduce,将四个字符“感”、“觉”、“丧”和“失”拼接为词汇“感觉丧失”,将该词汇“感觉丧失”放回到字符栈中。在状态24时,服务器对字符栈中的词汇执行动作Shift-word,将词汇“感觉丧失”从字符栈中转移至词汇栈中。在状态25,服务器对词汇栈中的两个词汇“分离性”和“感觉丧失”执行动作Merge,将两个词汇“分离性”和“感觉丧失”合并为一个词汇“分离性感觉丧失”,由于该两个词汇中存在修饰词“分离性”,在词汇栈中保留该词汇“分离性”,状态25的最终结果为词汇栈中存在两个词汇“分离性”和“分离性感觉丧失”。在状态26时,服务器对词汇栈中的词汇 “分离性感觉丧失”执行动作Segment,将词汇栈中的词汇“分离性感觉丧失”转移至输出栈中。在状态27时,服务器对输出栈中的词汇 “分离性感觉丧失”执行动作Linking,将输出栈中的词汇“分离性感觉丧失”映射为标准化后的目标词“分离性感觉丧失(ICD-10)”。在状态28时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“的情况”,表示字符“的”不属于任一感受词,该字符“的”被从描述文本中删除。在状态29时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“情况”,表示字符“情”不属于任一感受词,该字符“情”被从描述文本中删除。在状态30时,服务器对缓存栈中的描述文本执行动作Out,缓存栈中剩余的文本为“况”,表示字符“况”不属于任一感受词,该字符“况”被从描述文本中删除。在状态31时,由于缓存栈中不存在字符,方案结束。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息,比如用户的电子病历等相关的信息,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
通过本申请实施例提供的技术方案,能够基于描述文本确定对应的动作序列,对描述文本执行动作序列中的动作,以获取描述文本中的感受词,这个感受词能够表示目标对象的感受。基于描述文本、感受词的语义特征、候选词的语义特征以及动作序列,从多个候选词中确定目标词,该目标词也即是描述文本中感受词的标准化表述,由于在确定目标词的过程中是基于语义特征来实现的,那么确定出的目标词与感受词之间的匹配程度也就较高。通过该目标词能够实现对描述文本的标准化,标准化过程也无需人工参与,从而提高了对描述文本进行标准化的效率和准确性。
在描述文本为主诉的情况下,通过本申请实施例提供的技术方案能够对主诉进行诊断的识别,得到主诉中的感受词,并且将感受词标准化到ICD-10中,更加方便医生/医院对于医学数据的规范性要求,并且也可以大幅减少医院病案编码员的工作量,帮助医院快速低成本地构建起信息化存储和查询的数据中台。另外,在疾控项目中,诊断识别及标准化可以将多家不同等级、不用地域的医院数据进行标准化打通,从而帮助构建智能化疫情防控大屏和智能疫情监控。
图6是本申请实施例提供的一种描述文本中目标词的确定装置的结构示意图,参见图6,装置包括:描述文本获取模块601、动作序列确定模块602、感受词获取模块603以及目标词确定模块604。
描述文本获取模块601,用于获取目标对象的描述文本,该描述文本用于记载该目标对象的感受。
动作序列确定模块602,用于基于该描述文本,确定该描述文本的动作序列,该动作序列中的动作对应于该描述文本的不同处理阶段。
感受词获取模块603,用于对该描述文本执行该动作序列中的动作,得到该描述文本中该目标对象的感受词。
目标词确定模块604,用于基于该描述文本、该感受词的语义特征、多个候选词的语义特征以及该动作序列,确定目标词,该目标词为该多个候选词中与该感受词对应的候选词,该候选词为标准化的感受词。
在一种可能的实施方式中,该动作序列确定模块602,用于基于该描述文本在各个时间步中的状态信息以及各个时间步对应的历史动作序列,确定该描述文本的动作序列,该状态信息用于指示对应时间步中该描述文本中未处理的字符、待拼接字符以及已处理字符拼接成的词汇,该历史动作序列为对应时间步之前的时间步确定的动作序列。
在一种可能的实施方式中,该动作序列确定模块602,用于在任一时间步i中,确定该描述文本在该时间步i的状态信息,其中,i为正整数。获取在时间步i-1确定的历史动作序列。基于该描述文本在该时间步i的状态信息以及在该时间步i-1确定的历史动作序列,确定该时间步i对应的动作。将该时间步i对应的动作添加至在该时间步i-1确定的历史动作序列中,得到该时间步i对应的动作序列。
在一种可能的实施方式中,该动作序列确定模块602,用于基于该描述文本的词汇集合、第一字符集合、第二字符集合以及在该时间步i-1确定的历史动作序列中的第一个动作,确定该时间步i对应的动作,该词汇集合包括在该时间步i时已处理字符拼接成的词汇,该第一字符集合包括在该时间步i时待拼接的字符,该第二字符集合包括在该时间步i时该描述文本中未处理的字符。
在一种可能的实施方式中,该动作序列确定模块602,用于将该词汇集合中的前两个词汇、该第一字符集合中的第一个字符、该第二字符集合中的第一个字符以及在该时间步i-1确定的历史动作序列中的第一个动作,拼接为该时间步i的第一状态矩阵。采用预设的第一权重矩阵和预设的第一偏置矩阵对该第一状态矩阵进行处理,得到该时间步i的第二状态矩阵。采用第一激活函数对该第二状态矩阵进行处理,得到该时间步i对应的动作。
在一种可能的实施方式中,该动作序列中的动作包括下述至少一项:
字符删除,用于删除该描述文本中未处理的字符中的第一个字符;
字符转换,用于将该描述文本中未处理的字符中的第一个字符转换为待拼接的字符;
字符拼接,用于将至少两个待拼接的字符拼接为词汇;
词汇转换,用于将已处理字符拼接成的词汇确定为部分感受词;
词汇拼接,用于将至少两个部分感受词拼接为完整的感受词;
感受词转换,用于将完整的感受词确定为该目标对象的感受词。
在一种可能的实施方式中,该词汇拼接还用于,在该至少两个部分感受词包括修饰词时,保留该至少两个部分感受词中的修饰词。
在一种可能的实施方式中,该目标词确定模块604,用于基于该描述文本,获取该描述文本中该感受词的左侧词汇与该感受词之间的第一上下文特征,以及该描述文本中该感受词的右侧词汇与该感受词之间的第二上下文特征。基于该第一上下文特征、该第二上下文特征、该感受词的语义特征、该多个候选词的语义特征以及该动作序列,确定该目标词。
在一种可能的实施方式中,该目标词确定模块604,用于基于注意力机制,对该感受词的语义特征和各个该候选词的语义特征分别进行编码,得到该感受词的注意力特征和各个该候选词的注意力特征。基于该第一上下文特征、该第二上下文特征、该感受词的注意力特征、各个该候选词的注意力特征、各个该候选词的语义特征以及该动作序列中的第一个动作,确定该目标词。
在一种可能的实施方式中,该目标词确定模块604,用于将该第一上下文特征、该第二上下文特征、该感受词的注意力特征、各个该候选词的注意力特征、各个该候选词的语义特征以及该动作序列中的第一个动作拼接为第一映射矩阵。采用预设的第二权重矩阵和预设的第二偏置矩阵对该第一映射矩阵进行处理,得到第二映射矩阵。采用第二激活函数对该第二映射矩阵进行处理,得到各个该候选词与该感受词之间的匹配程度。将该多个候选词中匹配程度符合目标条件的候选词,确定为该目标词。
在一种可能的实施方式中,该装置还包括:
第一语义特征获取模块,用于对该描述文本中的各个字符进行特征提取,得到该描述文本中各个字符的语义特征。将该感受词中字符的语义特征进行融合,得到该感受词的语义特征。
在一种可能的实施方式中,该第一语义特征获取模块,用于对于描述文本中的任一字符,对该字符进行卷积,得到该字符的第一词汇特征。对该字符进行嵌入编码,得到该字符的第二词汇特征。基于该字符以及在该描述文本中与该字符相邻的字符,获取该字符的第三词汇特征,该第三词汇特征为该字符的上下文特征。将该第一词汇特征、第二词汇特征和该第三词汇特征进行拼接,得到该字符的语义特征。
在一种可能的实施方式中,该装置还包括:
第二语义特征获取模块,用于基于该多个候选词以及该多个候选词之间的上下位关系,确定该多个候选词的语义特征。
在一种可能的实施方式中,该多个候选词包括第一候选词、第二候选词和第三候选词,该第一候选词是该第二候选词的上位,该第三候选词和该第二候选词之间不存在上下位关系,该第二语义特征获取模块,用于对该第一候选词、该第二候选词和该第三候选词进行嵌入编码,得到该第一候选词的第一嵌入特征、该第二候选词的第二嵌入特征以及该第三候选词的第三嵌入特征。将该第一嵌入特征和该第二嵌入特征输入语义特征提取模型,通过该语义特征提取模型,采用目标关系数据对该第二嵌入特征进行非线性变换,得到该第二候选词的第四嵌入特征。基于该第一嵌入特征与该第四嵌入特征之间的第一差异信息,以及该第三嵌入特征与该第四嵌入特征之间的第二差异信息,对该第一嵌入特征和该第二嵌入特征进行处理,输出该第一候选词的语义特征和该第二候选词的语义特征。
需要说明的是:上述实施例提供的描述文本中目标词的确定装置在展示确定描述文本中的目标词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的描述文本中目标词的确定装置与描述文本中目标词的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,能够基于描述文本确定对应的动作序列,对描述文本执行动作序列中的动作,以获取描述文本中的感受词,这个感受词能够表示目标对象的感受。基于描述文本、感受词的语义特征、候选词的语义特征以及动作序列,从多个候选词中确定目标词,该目标词也即是描述文本中感受词的标准化表述,由于在确定目标词的过程中是基于语义特征来实现的,那么确定出的目标词与感受词之间的匹配程度也就较高。通过该目标词能够实现对描述文本的标准化,标准化过程也无需人工参与,从而提高了对描述文本进行标准化的效率和准确性。
上述计算机设备可以实现为服务器,下面对服务器的结构进行介绍:
图7是本申请实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)701和一个或多个的存储器702,其中,所述一个或多个存储器702中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的描述文本中目标词的确定方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述描述文本中目标词的确定方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (28)

1.一种描述文本中目标词的确定方法,其特征在于,所述方法包括:
获取目标对象的描述文本,所述描述文本用于记载所述目标对象的感受,所述描述文本为中文;
基于所述描述文本在各个时间步中的状态信息以及各个时间步对应的历史动作序列,确定所述描述文本的动作序列,所述状态信息用于指示对应时间步中所述描述文本中未处理的字符、待拼接字符以及已处理字符拼接成的部分感受词,所述历史动作序列为对应时间步之前的时间步确定的动作序列,所述动作序列中的动作对应于所述描述文本的不同处理阶段,其中,所述描述文本在不同处理阶段对应的字符和词汇分别存储在缓存栈、字符栈、词汇栈以及输出栈中,所述缓存栈用于存储所述描述文本中未处理的字符,所述字符栈用于存储所述描述文本中待拼接的字符,所述词汇栈用于存储所述描述文本中已处理字符拼接成的部分感受词,所述输出栈用于存储从所述描述文本中识别出的感受词;
对所述描述文本执行所述动作序列中的动作,得到所述描述文本中所述目标对象的感受词,其中,所述动作序列包括字符拼接和词汇拼接,所述字符拼接用于将所述字符栈中存储的至少两个待拼接的字符拼接为部分感受词,所述词汇拼接用于将所述词汇栈中存储的至少两个部分感受词拼接为完整的感受词;
基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词,所述目标词为所述多个候选词中与所述感受词对应的候选词,所述候选词为标准化的感受词。
2.根据权利要求1所述的方法,其特征在于,所述基于所述描述文本在各个时间步中的状态信息以及各个时间步对应的历史动作序列,确定所述描述文本的动作序列包括:
在任一时间步i中,确定所述描述文本在所述时间步i的状态信息,其中,i为正整数;
获取在时间步i-1确定的历史动作序列;
基于所述描述文本在所述时间步i的状态信息以及在所述时间步i-1确定的历史动作序列,确定所述时间步i对应的动作;
将所述时间步i对应的动作添加至在所述时间步i-1确定的历史动作序列中,得到所述时间步i对应的动作序列。
3.根据权利要求2所述的方法,其特征在于,所述基于所述描述文本在所述时间步i的状态信息以及在所述时间步i-1确定的历史动作序列,确定所述时间步i对应的动作包括:
基于所述描述文本的词汇栈、字符栈、缓存栈以及在所述时间步i-1确定的历史动作序列中的第一个动作,确定所述时间步i对应的动作,所述词汇栈包括在所述时间步i时已处理字符拼接成的部分感受词,所述字符栈包括在所述时间步i时待拼接的字符,所述缓存栈包括在所述时间步i时所述描述文本中未处理的字符。
4.根据权利要求3所述的方法,其特征在于,所述基于所述描述文本的词汇栈、字符栈、缓存栈以及在所述时间步i-1确定的历史动作序列中的第一个动作,确定所述时间步i对应的动作包括:
将所述词汇栈中的前两个词汇、所述字符栈中的第一个字符、所述缓存栈中的第一个字符以及在所述时间步i-1确定的历史动作序列中的第一个动作,拼接为所述时间步i的第一状态矩阵;
采用预设的第一权重矩阵和预设的第一偏置矩阵对所述第一状态矩阵进行处理,得到所述时间步i的第二状态矩阵;
采用第一激活函数对所述第二状态矩阵进行处理,得到所述时间步i对应的动作。
5.根据权利要求1所述的方法,其特征在于,所述动作序列中的动作还包括下述至少一项:
字符删除,用于删除所述描述文本中未处理的字符中的第一个字符;
字符转换,用于将所述描述文本中未处理的字符中的第一个字符转换为待拼接的字符;
词汇转换,用于将已处理字符拼接成的词汇确定为部分感受词;
感受词转换,用于将完整的感受词确定为所述目标对象的感受词。
6.根据权利要求1所述的方法,其特征在于,所述词汇拼接还用于,在所述至少两个部分感受词包括修饰词时,保留所述至少两个部分感受词中的修饰词。
7.根据权利要求1所述的方法,其特征在于,所述基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词之前,所述方法还包括:
对所述描述文本中的各个字符进行特征提取,得到所述描述文本中各个字符的语义特征;
将所述感受词中字符的语义特征进行融合,得到所述感受词的语义特征。
8.根据权利要求7所述的方法,其特征在于,所述对所述描述文本中的各个字符进行特征提取,得到所述描述文本中各个字符的语义特征包括:
对于描述文本中的任一字符,对所述字符进行卷积,得到所述字符的第一词汇特征;
对所述字符进行嵌入编码,得到所述字符的第二词汇特征;
基于所述字符以及在所述描述文本中与所述字符相邻的字符,获取所述字符的第三词汇特征,所述第三词汇特征为所述字符的上下文特征;
将所述第一词汇特征、第二词汇特征和所述第三词汇特征进行拼接,得到所述字符的语义特征。
9.根据权利要求1所述的方法,其特征在于,所述基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词包括:
基于所述描述文本,获取所述描述文本中所述感受词的左侧词汇与所述感受词之间的第一上下文特征,以及所述描述文本中所述感受词的右侧词汇与所述感受词之间的第二上下文特征;
基于所述第一上下文特征、所述第二上下文特征、所述感受词的语义特征、所述多个候选词的语义特征以及所述动作序列,确定所述目标词。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第一上下文特征、所述第二上下文特征、所述感受词的语义特征、所述多个候选词的语义特征以及所述动作序列,确定所述目标词包括:
基于注意力机制,对所述感受词的语义特征和各个所述候选词的语义特征分别进行编码,得到所述感受词的注意力特征和各个所述候选词的注意力特征;
基于所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作,确定所述目标词。
11.根据权利要求10所述的方法,其特征在于,所述基于所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作,确定所述目标词包括:
将所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作拼接为第一映射矩阵;
采用预设的第二权重矩阵和预设的第二偏置矩阵对所述第一映射矩阵进行处理,得到第二映射矩阵;
采用第二激活函数对所述第二映射矩阵进行处理,得到各个所述候选词与所述感受词之间的匹配程度;
将所述多个候选词中匹配程度符合目标条件的候选词,确定为所述目标词。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述多个候选词以及所述多个候选词之间的上下位关系,确定所述多个候选词的语义特征。
13.根据权利要求12所述的方法,其特征在于,所述多个候选词包括第一候选词、第二候选词和第三候选词,所述第一候选词是所述第二候选词的上位,所述第三候选词和所述第二候选词之间不存在上下位关系,所述基于所述多个候选词以及所述多个候选词之间的上下位关系,确定所述多个候选词的语义特征包括:
对所述第一候选词、所述第二候选词和所述第三候选词进行嵌入编码,得到所述第一候选词的第一嵌入特征、所述第二候选词的第二嵌入特征以及所述第三候选词的第三嵌入特征;
将所述第一嵌入特征和所述第二嵌入特征输入语义特征提取模型,通过所述语义特征提取模型,采用目标关系数据对所述第二嵌入特征进行非线性变换,得到所述第二候选词的第四嵌入特征;基于所述第一嵌入特征与所述第四嵌入特征之间的第一差异信息,以及所述第三嵌入特征与所述第四嵌入特征之间的第二差异信息,对所述第一嵌入特征和所述第二嵌入特征进行处理,输出所述第一候选词的语义特征和所述第二候选词的语义特征。
14.一种描述文本中目标词的确定装置,其特征在于,所述装置包括:
描述文本获取模块,用于获取目标对象的描述文本,所述描述文本用于记载所述目标对象的感受,所述描述文本为中文;
动作序列确定模块,用于基于所述描述文本在各个时间步中的状态信息以及各个时间步对应的历史动作序列,确定所述描述文本的动作序列,所述状态信息用于指示对应时间步中所述描述文本中未处理的字符、待拼接字符以及已处理字符拼接成的部分感受词,所述历史动作序列为对应时间步之前的时间步确定的动作序列,所述动作序列中的动作对应于所述描述文本的不同处理阶段,其中,所述描述文本在不同处理阶段对应的字符和词汇分别存储在缓存栈、字符栈、词汇栈以及输出栈中,所述缓存栈用于存储所述描述文本中未处理的字符,所述字符栈用于存储所述描述文本中待拼接的字符,所述词汇栈用于存储所述描述文本中已处理字符拼接成的部分感受词,所述输出栈用于存储从所述描述文本中识别出的感受词;
感受词获取模块,用于对所述描述文本执行所述动作序列中的动作,得到所述描述文本中所述目标对象的感受词,其中,所述动作序列包括字符拼接和词汇拼接,所述字符拼接用于将所述字符栈中存储的至少两个待拼接的字符拼接为部分感受词,所述词汇拼接用于将所述词汇栈中存储的至少两个部分感受词拼接为完整的感受词;
目标词确定模块,用于基于所述描述文本、所述感受词的语义特征、多个候选词的语义特征以及所述动作序列,确定目标词,所述目标词为所述多个候选词中与所述感受词对应的候选词,所述候选词为标准化的感受词。
15.根据权利要求14所述的装置,其特征在于,所述动作序列确定模块,用于在任一时间步i中,确定所述描述文本在所述时间步i的状态信息,其中,i为正整数;获取在时间步i-1确定的历史动作序列;基于所述描述文本在所述时间步i的状态信息以及在所述时间步i-1确定的历史动作序列,确定所述时间步i对应的动作;将所述时间步i对应的动作添加至在所述时间步i-1确定的历史动作序列中,得到所述时间步i对应的动作序列。
16.根据权利要求15所述的装置,其特征在于,所述动作序列确定模块,用于基于所述描述文本的词汇栈、字符栈、缓存栈以及在所述时间步i-1确定的历史动作序列中的第一个动作,确定所述时间步i对应的动作,所述词汇栈包括在所述时间步i时已处理字符拼接成的词汇,所述字符栈包括在所述时间步i时待拼接的字符,所述缓存栈包括在所述时间步i时所述描述文本中未处理的字符。
17.根据权利要求16所述的装置,其特征在于,所述动作序列确定模块,用于将所述词汇栈中的前两个词汇、所述字符栈中的第一个字符、所述缓存栈中的第一个字符以及在所述时间步i-1确定的历史动作序列中的第一个动作,拼接为所述时间步i的第一状态矩阵;采用预设的第一权重矩阵和预设的第一偏置矩阵对所述第一状态矩阵进行处理,得到所述时间步i的第二状态矩阵;采用第一激活函数对所述第二状态矩阵进行处理,得到所述时间步i对应的动作。
18.根据权利要求14所述的装置,其特征在于,所述动作序列中的动作还包括下述至少一项:
字符删除,用于删除所述描述文本中未处理的字符中的第一个字符;
字符转换,用于将所述描述文本中未处理的字符中的第一个字符转换为待拼接的字符;
词汇转换,用于将已处理字符拼接成的词汇确定为部分感受词;
感受词转换,用于将完整的感受词确定为所述目标对象的感受词。
19.根据权利要求14所述的装置,其特征在于,所述词汇拼接还用于,在所述至少两个部分感受词包括修饰词时,保留所述至少两个部分感受词中的修饰词。
20.根据权利要求14所述的装置,其特征在于,所述装置还包括:
第一语义特征获取模块,用于对所述描述文本中的各个字符进行特征提取,得到所述描述文本中各个字符的语义特征;
将所述感受词中字符的语义特征进行融合,得到所述感受词的语义特征。
21.根据权利要求20所述的装置,其特征在于,所述第一语义特征获取模块,用于对于描述文本中的任一字符,对所述字符进行卷积,得到所述字符的第一词汇特征;对所述字符进行嵌入编码,得到所述字符的第二词汇特征;基于所述字符以及在所述描述文本中与所述字符相邻的字符,获取所述字符的第三词汇特征,所述第三词汇特征为所述字符的上下文特征;将所述第一词汇特征、第二词汇特征和所述第三词汇特征进行拼接,得到所述字符的语义特征。
22.根据权利要求14所述的装置,其特征在于,所述目标词确定模块,用于基于所述描述文本,获取所述描述文本中所述感受词的左侧词汇与所述感受词之间的第一上下文特征,以及所述描述文本中所述感受词的右侧词汇与所述感受词之间的第二上下文特征;基于所述第一上下文特征、所述第二上下文特征、所述感受词的语义特征、所述多个候选词的语义特征以及所述动作序列,确定所述目标词。
23.根据权利要求22所述的装置,其特征在于,所述目标词确定模块,用于基于注意力机制,对所述感受词的语义特征和各个所述候选词的语义特征分别进行编码,得到所述感受词的注意力特征和各个所述候选词的注意力特征;基于所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作,确定所述目标词。
24.根据权利要求23所述的装置,其特征在于,所述目标词确定模块,用于将所述第一上下文特征、所述第二上下文特征、所述感受词的注意力特征、各个所述候选词的注意力特征、各个所述候选词的语义特征以及所述动作序列中的第一个动作拼接为第一映射矩阵;采用预设的第二权重矩阵和预设的第二偏置矩阵对所述第一映射矩阵进行处理,得到第二映射矩阵;采用第二激活函数对所述第二映射矩阵进行处理,得到各个所述候选词与所述感受词之间的匹配程度;将所述多个候选词中匹配程度符合目标条件的候选词,确定为所述目标词。
25.根据权利要求14所述的装置,其特征在于,所述装置还包括:
第二语义特征获取模块,用于基于所述多个候选词以及所述多个候选词之间的上下位关系,确定所述多个候选词的语义特征。
26.根据权利要求25所述的装置,其特征在于,所述多个候选词包括第一候选词、第二候选词和第三候选词,所述第一候选词是所述第二候选词的上位,所述第三候选词和所述第二候选词之间不存在上下位关系,所述第二语义特征获取模块,用于对所述第一候选词、所述第二候选词和所述第三候选词进行嵌入编码,得到所述第一候选词的第一嵌入特征、所述第二候选词的第二嵌入特征以及所述第三候选词的第三嵌入特征;将所述第一嵌入特征和所述第二嵌入特征输入语义特征提取模型,通过所述语义特征提取模型,采用目标关系数据对所述第二嵌入特征进行非线性变换,得到所述第二候选词的第四嵌入特征;基于所述第一嵌入特征与所述第四嵌入特征之间的第一差异信息,以及所述第三嵌入特征与所述第四嵌入特征之间的第二差异信息,对所述第一嵌入特征和所述第二嵌入特征进行处理,输出所述第一候选词的语义特征和所述第二候选词的语义特征。
27.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求13中任一项所述的描述文本中目标词的确定方法。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求13中任一项所述的描述文本中目标词的确定方法。
CN202111348973.0A 2021-11-15 2021-11-15 描述文本中目标词的确定方法、装置、设备以及存储介质 Active CN113780008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348973.0A CN113780008B (zh) 2021-11-15 2021-11-15 描述文本中目标词的确定方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111348973.0A CN113780008B (zh) 2021-11-15 2021-11-15 描述文本中目标词的确定方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113780008A CN113780008A (zh) 2021-12-10
CN113780008B true CN113780008B (zh) 2022-03-04

Family

ID=78873901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111348973.0A Active CN113780008B (zh) 2021-11-15 2021-11-15 描述文本中目标词的确定方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113780008B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335348A (zh) * 2014-08-07 2016-02-17 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN112136143A (zh) * 2018-05-17 2020-12-25 国际商业机器公司 使用神经网络的时间序列数据依赖的动态发现
CN112131880A (zh) * 2020-09-25 2020-12-25 泰康保险集团股份有限公司 一种命名实体识别方法、装置及系统
KR20210023640A (ko) * 2019-08-23 2021-03-04 울산대학교 산학협력단 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템
CN112966523A (zh) * 2021-03-15 2021-06-15 山东建筑大学 基于语义关系约束的词向量修正方法及计算系统
CN112989767A (zh) * 2021-04-21 2021-06-18 腾讯科技(深圳)有限公司 医学词语标注方法、医学词语映射方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106195B (zh) * 2013-01-21 2018-12-11 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法
US20200134308A1 (en) * 2018-10-29 2020-04-30 Barefoot Networks, Inc. Configuring and performing character pattern recognition in a data plane circuit
JP7473314B2 (ja) * 2019-09-27 2024-04-23 TXP Medical株式会社 医療情報管理装置及び医療レポートのメタデータ付加方法
CN112765956B (zh) * 2021-01-22 2023-06-20 大连民族大学 基于多任务学习的依存句法分析方法及应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335348A (zh) * 2014-08-07 2016-02-17 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN112136143A (zh) * 2018-05-17 2020-12-25 国际商业机器公司 使用神经网络的时间序列数据依赖的动态发现
KR20210023640A (ko) * 2019-08-23 2021-03-04 울산대학교 산학협력단 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템
CN112131880A (zh) * 2020-09-25 2020-12-25 泰康保险集团股份有限公司 一种命名实体识别方法、装置及系统
CN112966523A (zh) * 2021-03-15 2021-06-15 山东建筑大学 基于语义关系约束的词向量修正方法及计算系统
CN112989767A (zh) * 2021-04-21 2021-06-18 腾讯科技(深圳)有限公司 医学词语标注方法、医学词语映射方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Neural Transition-based Joint Model for Disease Named Entity Recognition and Normalization;Zongcheng Ji 等;《Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing》;20210831;第2819–2827页 *
Learning Semantic Hierarchies via Word Embeddings;Ruiji Fu 等;《Proceedings of the 52th Annual Meeting of the Association for Computational Linguistics》;20140630;第1199-1209页 *

Also Published As

Publication number Publication date
CN113780008A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN110442869B (zh) 一种医疗文本处理方法及其装置、设备和存储介质
CN112992317B (zh) 一种医学数据处理方法、系统、设备及介质
CN108604227B (zh) 用于神经临床释义生成的系统和方法
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111666477B (zh) 一种数据处理方法、装置、智能设备及介质
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
US11468989B2 (en) Machine-aided dialog system and medical condition inquiry apparatus and method
CN112100406B (zh) 数据处理方法、装置、设备以及介质
WO2023165012A1 (zh) 问诊方法和装置、电子设备及存储介质
JP6908977B2 (ja) 医療情報処理システム、医療情報処理装置及び医療情報処理方法
CN113409907A (zh) 一种基于互联网医院的智能预问诊方法及系统
US20220059228A1 (en) Systems and methods for healthcare insights with knowledge graphs
CN112151187B (zh) 信息查询方法、装置、计算机设备和存储介质
CN114708976A (zh) 辅助诊断技术的方法、装置、设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN116861875A (zh) 基于人工智能的文本处理方法、装置、设备及存储介质
CN115858886A (zh) 数据处理方法、装置、设备及可读存储介质
CN113657086B (zh) 词语处理方法、装置、设备及存储介质
Harris et al. From clinical records to regulatory reporting: formal terminologies as foundation
EP3901875A1 (en) Topic modelling of short medical inquiries
CN113780008B (zh) 描述文本中目标词的确定方法、装置、设备以及存储介质
CN116469546A (zh) 基于注意力机制的疾病辅助识别方法和装置、设备及介质
CN114334049B (zh) 一种电子病历结构化处理方法和装置及设备
CN112668327A (zh) 信息提取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant