健康保障项目中的答案处理方法以及装置
技术领域
本说明书涉及信息处理技术领域,特别涉及一种健康保障项目中的答案处理方法。本说明书同时涉及一种健康保障项目中的答案处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,用户通过线上购买保险成为了一种趋势,然而无论是在线上还是在线下购买保险的过程中,都会有健康告知这个环节,这个环节关系着用户投保的成功率和出险后顺利理赔的概率。
现有技术中,在用户进入健康告知环节的情况下,用户的健康告知情况完全取决于用户提供的健康信息描述内容,而在用户提供的健康信息描述内容中,因为用户可能并不是了解一些疾病的标准名称,通常会以俗称的方式或者其他形式的描述内容表达该疾病,对用户的健康信息进行审核的人员在审核的过程中,如果需要审核人员能够准确的确定用户健康信息描述内容中的俗称或者其他描述内容,需要对审核人员进行定向的培训,提高审核人员的专业知识水平。
然而,在对审核人员进行培训的过程中,提供保险服务的平台不仅需要较长的时间才能够培训出专业的审核人员,并且需要提供大量的资金对审核人员进行培训,无论是物力还是人力都是一笔较大的开销,对健康信息的审核效率也是较低的。
发明内容
有鉴于此,本说明书实施例提供了一种健康保障项目中的答案处理方法。本说明书同时涉及一种健康保障项目中的答案处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种健康保障项目中的答案处理方法,包括:
对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;
通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;
确定所述疾病关键词对应的标准疾病;
基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
可选的,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题步骤执行之后,还包括:
计算所述疾病关键词与所述标准健康问答题中包含的标准疾病名称二者的语义相似度;
判断所述语义相似度是否大于预设的语义相似度阈值;
若否,基于所述疾病关键词对所述标准健康问答题中包含的标准疾病名称分别进行替换,并将替换后的标准健康问答题中包含的所述疾病关键词进行标注;
向所述保障用户展示携带有被标注所述疾病关键词的标准健康问答题。
可选的,在所述答案材料为语音材料的情况下,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题步骤执行之后,还包括:
在所述标准健康问答题为验证语音材料问答题的情况下,对所述保障用户针对所述验证语音材料问答题提交的病例材料进行转换,获得疾病文本;
通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;
确定所述病例关键词对应的标准疾病名称;
基于所述标准疾病名称对所述病例文本进行更新,根据所述病例文本的更新结果确定所述保障用户参与所述健康保障项目的参与结果。
可选的,所述确定所述疾病关键词对应的标准疾病,包括:
在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标准疾病名称;
将所述标准疾病名称作为所述疾病关键词对应的所述标准疾病。
可选的,所述确定所述疾病关键词对应的标准疾病名称,包括:
在所述标准疾病名称库中提取与所述疾病关键词的类型相同的标准疾病名称创建疾病名称集合;
计算所述疾病名称集合中包含的每个标准疾病名称与所述疾病关键词的匹配度;
选择所述匹配度最高的标准疾病名称确定为所述疾病关键词对应的所述标准疾病。
可选的,所述确定所述疾病关键词对应的标准疾病,包括:
确定所述疾病关键词对应的疾病实体;
根据所述疾病实体在所述健康保障项目预设的疾病知识图谱中查询与所述疾病实体具有映射关系的标准疾病实体;
提取与所述疾病实体具有映射关系的所述标准疾病实体的属性信息;
根据所述属性信息确定所述疾病关键词对应的所述标准疾病。
可选的,所述通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词,包括:
通过所述语义分析算法对所述答案文本进行分词处理,获得所述答案文本的词单元;
对所述答案文本的所述词单元进行词性分析,根据每个词单元的词性选择与所述健康保障项目相关的词单元作为所述疾病关键词。
可选的,所述答案材料包括下述至少一项:
语音材料、文本材料、图片材料。
可选的,在所述答案材料为所述语音材料的情况下,所述对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本,包括:
通过对所述语音材料进行端点检测,并根据所述端点检测的结果将所述语音材料进行分帧处理,获得多个语音段;
对所述多个语音段进行向量化处理,获得所述多个语音段对应的语音特征向量;
基于所述语音特征向量获得所述语音材料的音素信息,并通过查询预先建立的音素信息和字单元的对应关系字典,确定所述音素信息对应的字单元;
将所述字单元根据所述语音材料中的语音播放顺序进行整合,根据整合结果获得所述答案文本。
可选的,在所述答案材料为所述图片材料的情况下,所述对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本,包括:
通过对所述图片材料进行二值化处理,获得待识别图片;
检测所述待识别图片上包含的文字,通过对所述待识别图片上包含的所述文字进行向量化处理,获得每个文字对应的字向量;
基于时间循环神经网络对所述字向量进行序列处理,根据处理结果获得所述答案文本。
可选的,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题,包括:
在所述健康问答库中选择携带有所述标准疾病对应的标准疾病名称的健康问答题作为待提取健康问答题;
计算所述答案文本与所述待提取健康问答题的文本相似度;
提取文本相似度最高的待提取健康问答题作为所述标准健康问答题。
可选的,所述提取文本相似度最高的待提取健康问答题作为所述标准健康问答题,包括:
在最高的所述文本相似度对应至少两个待提取健康问答题的情况下,将所述至少两个待提取健康问答题向所述保障用户进行展示;
接收所述保障用户针对所述至少两个待提取健康问答题提交的选择指令,根据所述选择指令选择所述至少两个待提取健康问答题中的一个待提取健康问答题作为所述标准健康问答题。
根据本说明书实施例的第二方面,提供了一种健康保障项目中的答案处理装置,包括:
材料转换模块,被配置为对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;
提取关键词模块,被配置为通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;
确定疾病模块,被配置为确定所述疾病关键词对应的标准疾病;
提取问答题模块,被配置为基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
可选的,还包括:
计算语义相似度模块,被配置为计算所述疾病关键词与所述标准健康问答题中包含的标准疾病名称二者的语义相似度;
判断模块,被配置为判断所述语义相似度是否大于预设的语义相似度阈值;
若否,执行标注关键词模块;
所述标注关键词模块,被配置为基于所述疾病关键词对所述标准健康问答题中包含的标准疾病名称分别进行替换,并将替换后的标准健康问答题中包含的所述疾病关键词进行标注;
展示问答题模块,被配置为向所述保障用户展示携带有被标注所述疾病关键词的标准健康问答题。
可选的,在所述答案材料为语音材料的情况下,还包括:
病例材料转换模块,被配置为在所述标准健康问答题为验证语音材料问答题的情况下,对所述保障用户针对所述验证语音材料问答题提交的病例材料进行转换,获得疾病文本;
提取病例关键词模块,被配置为通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;
确定标准疾病名称模块,被配置为确定所述病例关键词对应的标准疾病名称;
确定参与结果模块,被配置为基于所述标准疾病名称对所述病例文本进行更新,根据所述病例文本的更新结果确定所述保障用户参与所述健康保障项目的参与结果。
可选的,所述确定疾病模块进一步被配置为:
在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标准疾病名称;
将所述标准疾病名称作为所述疾病关键词对应的所述标准疾病。
可选的,所述确定疾病模块,包括:
创建集合单元,被配置为在所述标准疾病名称库中提取与所述疾病关键词的类型相同的标准疾病名称创建疾病名称集合;
计算匹配度单元,被配置为计算所述疾病名称集合中包含的每个标准疾病名称与所述疾病关键词的匹配度;
选择单元,被配置为选择所述匹配度最高的标准疾病名称确定为所述疾病关键词对应的所述标准疾病。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;
通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;
确定所述疾病关键词对应的标准疾病;
基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述健康保障项目中的答案处理方法的步骤。
本说明书提供的健康保障项目中的答案处理方法,对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;确定所述疾病关键词对应的标准疾病;基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
本说明书一个实施例实现了在通过问答交互方式采集保障用户的健康信息的过程中,可以采用语义分析算法确定所述保障用户针对健康问答题提交答案文本进行分析处理,获得答案文本中的疾病关键词,可以实现准确的确定所述答案文本中保障用户描述的非标准疾病名称,为了提高问答交互过程中提取的健康问答题的准确性,可以将非标准疾病名称替换为标准疾病名称在进行提取健康问答题,进而可以有效的提高采集保障用户的健康信息的准确性,并且提高了对所述保障用户的健康信息进行审核的审核效率。
附图说明
图1是本说明书一实施例提供的一种健康保障项目中的答案处理方法的流程图;
图2是本说明书一实施例提供的一种健康保障项目中的答案处理方法的展示标准健康问答题的结构示意图;
图3是本说明书一实施例提供的一种应用于多种疾病的健康保障项目中的答案处理方法的处理流程图;
图4是本说明书一实施例提供的一种健康保障项目中的答案处理装置的结构示意图;
图5是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
健康告知:是指提供保险服务的平台在接受用户投保申请前,要求用户填写或者确定的,关于用户的真实健康情况告知的过程。
Mel频率倒谱系数:(MFCC,Mel Frequency Cepstrum Coefficient),Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用Mel频率和Hz频率的对应关系计算得到的Hz频谱特征。
在本说明书中,提供了一种健康保障项目中的答案处理方法,本说明书同时涉及一种健康保障项目中的答案处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
下面结合附图1和附图2对本说明书提供的健康保障项目中的答案处理方法进行描述。图1示出了根据本说明书一实施例提供的一种健康保障项目中的答案处理方法的流程图,图2示出了根据本说明书一实施例提供的一种健康保障项目中的答案处理的展示标准健康问答题的结构示意图;其中,图1包括步骤102至步骤108。
步骤102:对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本。
本说明书一实施例中所述健康保障项目是指保障用户可以根据自身的健康状况参与的项目,而在保障用户成功参与所述健康保障项目之后,提供所述健康保障项目的平台会根据保障用户的健康情况提供一定的资金保障,在保障用户参与所述健康保障项目的时间内发生疾病或者受伤的情况下,若疾病类型或者受伤种类在健康保障项目的保障范围内,平台会根据保障用户的疾病情况或受伤情况提供资金;其中,所述保障用户是享有所述健康保障项目所提供的健康保障的用户,用户在参与所述健康保障项目的过程中,除为自己参与健康保障项目,还可以为其他用户参与所述健康保障项目,而参与所述健康保障项目的用户即为所述保障用户,例如,用户A为用户B参与了健康保障项目,则用户B即为保障用户;
基于此,在所述保障用户参与所述健康保障项目的过程中,提供所述健康保障项目的平台为了避免出现保障用户骗取资金的情况发生,需要对保障用户的健康信息进行审核,平台会根据审核结果确定所述保障用户是否符合参与所述健康保障项目,或者会根据审核结果确定所述保障用户在某些健康问题上是得不到所述健康保障项目的保障的。
基于此,所述健康保障项目可以是针对一些高发性疾病提供保障的项目,或者是针对某一种特定的疾病提供的保障项目,例如,针对心脏病、脑出血和静脉曲张三种疾病提供的健康保障项目,参与该健康保障项目的保障用户在发生这三种疾病中的任意一种的情况下,都可以得到健康保障项目提供的资金保障;或者针对心脏病这一种疾病提供的健康保障项目,参与该健康保障项目的保障用户只有在发生心脏病的情况下,才能够得到健康保障项目提供的资金保障。
在健康保障项目采集用户的健康信息的过程中,为了能够准确的确定所述保障用户的健康信息,以及避免所述保障用户过度告知和隐瞒告知,通过采用问答交互的方式对保障用户的健康进行采集并审核,所述问答交互方式即是通过一问一答的方式进行采集保障用户的健康信息进行审核,提供健康保障项目的项目平台向保障用户提出健康问答题,而保障用户需要针对该健康问答题进行答复,此过程即是问答交互过程,也是所述健康保障项目的健康告知过程。
此处,将以保障用户参与提供多项健康保障的健康保障项目的过程对所述健康保障项目中的答案处理方法进行描述,在保障用户参与健康保障项目的过程中,为了避免出现保障用户骗取保障资金的情况发生,通过会对保障用户的健康信息进行审核,根据审核结果决定是否同意保障用户参与健康保障项目,而提供健康保障项目的平台会根据提供保障服务的类型了解保障用户与该类型相关的健康信息,例如,在健康保障项目中可以保障的疾病有心脏病和缺血性脑卒,在对参与该健康保障项目的保障用户进行审核的过程中,只需要对保障用户的脑部健康状况和心脏的健康状况进行了解即可,而保障用户患有静脉曲张等疾病与该健康保障项目关联度不大,不需要了解即可;基于此,健康保障项目可以针对提供保障的疾病了解保障用户的健康信息,而此过程实则是健康告知过程;
健康保障项目在健康告知过程中,为了能够提高保障用户的参与感,以及能够准确的获取保障用户的健康信息,采用问答交互的方式采集保障用户的健康信息并进行审核,而在此过程中,需要根据保障用户针对提出的健康问答题进行答复,根据答案才可以确定保障用户的健康信息,如果需要准确的确定保障用户的健康信息,则提出的健康问答题也是需要提问到关键点上,而该关键词即是健康保障项目需要了解的保障用户的健康信息,而健康问答题是需要根据保障用户的答案确定的,而在保障用户提供的答案中可能并不是准确的语言,例如一些疾病名称的学名用户并不是了解,而用户在提交答案时会用该疾病俗称进行描述,如果基于携带有疾病俗称的答案提取健康问答题,提取的健康问答题可能并不准确,进而可能造成采集的保障用户的健康信息也是不准确的。
本说明书提供的健康保障项目中的答案处理方法中,为了能够提高提取健康问答题的准确性,进而能够准确的确定保障用户的健康信息,以及对健康信息进行审核的审核准确性,通过对保障用户针对健康问答题提交的答案进行转换,获得可以进行语义分析的答案文本,再通过语义分析算法对所述答案文本进行分词处理,获得所述答案文本中的疾病关键词,所述疾病关键词是指保障用户提供的疾病俗称、非专业疾病名词、与疾病相关的药物名称或者可以引起疾病的职业名称等,通过确定疾病关键词对应的标准疾病,再通过标准疾病在健康问答题库中提取标准健康问答题,实现了可以准确的确定标准健康问答题,进而提高了采集所述保障用户健康信息的准确性,使得所述健康保障项目可以准确的对所述保障用户的健康信息进行审核。
具体的,所述健康问答题是指所述保障用户参与健康保障项目过程中进行问答交互过程中,健康保障项目向所述保障用户提出的问题,而所述答案材料是保障用户针对所述健康问答题进行回答的材料;所述答案材料包括下述至少一项:
语音材料、文本材料、图片材料。
具体的,所述语音材料可以是保障用户针对健康问答题进行语音回答的答案,例如,用户为了寻求方便通过语音的方式进行回答;所述文本材料可以是保障用户针对健康问答题进行文字回答的答案,例如,用户为了表述清楚通过文字的方式进行回答;所述图片材料可以是保障用户针对健康问答题进采用图片回答的答案,例如,用户为了保证回答的准确性,可以上传病例图片等图片形式的答案。
本实施例的一个或多个方式中,在所述答案材料为所述语音材料的情况下,对所述答案材料进行转换的过程,具体实现方式如下所述:
通过对所述语音材料进行端点检测,并根据所述端点检测的结果将所述语音材料进行分帧处理,获得多个语音段;
对所述多个语音段进行向量化处理,获得所述多个语音段对应的语音特征向量;
基于所述语音特征向量获得所述语音材料的音素信息,并通过查询预先建立的音素信息和字单元的对应关系字典,确定所述音素信息对应的字单元;
将所述字单元根据所述语音材料中的语音播放顺序进行整合,根据整合结果获得所述答案文本。
具体的,在确定所述答案材料为语音材料的情况下,提取语音材料对应的语音文件,首先对所述语音文件进行端点检测,确定所述语音材料的起始端点和结尾端点,为了提高处理效率,将所述语音材料的首尾端的静音切除,并且还可以降低静音部分对转换过程的干扰,根据端点检测结果将所述语音材料进行分帧处理,分帧处理具体是指将所述语音材料切分成多个小段语音,而每小段语音称之为一帧,并且为了避免语音的丢书,各帧之间存在重叠部分,即通过分帧处理获得多个语音段;
其次,提取所述多个语音段的特征,通过对所述多个语音段进行向量化处理,可以通过Mel频率倒谱系数算法确定,通过Mel频率倒谱系数算法可以将每帧对应的语音段转换为包含声音信息的多维向量,根据转换的多维向量即可确定语音段对应的语音特征向量;
之后,提基于所述语音特征向量获得音素信息,在获取音素信息的过程中可以通过声学模型获得,通过将语音特征向量作为声学模型的输入,模型的输出即为音素信息,在获得音素信息之后,通过查询预先建立的音素信息和字单元对应的关系字典,确定所述音素信息对应的字单元,在查询字典的过程可以理解为通过汉字查询拼音的过程,或者通过英文查询字母的过程;
最后,根据字单元按照所述语音材料的播放顺序进行整合,即可获得所述答案文本,在对字单元进行整合的过程中,获得的字单元可能是同音字,则需要根据不同字单元之间的关联度确定一个音对应一个字,例如,“你”和“拟”是同音字,而需要“你”这个字的话,需要“你”与文本的上下文的关联度确定才能够最终确定到“你”这个字上;基于此,在计算字单元之间的关联度的过程中,可以通过语言模型确定,语言模型的输入为大量的字单元,而输出即为标注出具有关联的字单元,之后根据标注出的字单元进行整合,即可获得所述语音材料对应的答案文本。
例如,用户在参与健康保障项目过程中针对健康问答题提交的答案材料为语音材料的情况下,其中,语音材料为“我患有心脏病”,通过对语音材料进行分帧处理,获得过个语音段,在通过向量化处理获得的语音特征向量为[1 2 3 4 5 6 0],根据语音特征向量获得的音素信息为w o h u a n y o u x i n z a n g b i n g,通过查询预设的音素信息和字单元的对应关系字典,确定字单元包括wo:我和莴,huan:换和患,you:有和邮,xin:心和新,zang:脏和藏,bing:病和并,将字单元按照语音材料的播放顺序进行整合,根据整合结果结合获得“我患有心脏病”答案文本。
本实施例的一个或多个方式中,在所述答案材料为所述图片材料的情况下,对所述答案材料进行转换的过程,具体实现方式如下所述:
通过对所述图片材料进行二值化处理,获得待识别图片;
检测所述待识别图片上包含的文字,通过对所述待识别图片上包含的所述文字进行向量化处理,获得每个文字对应的字向量;
基于时间循环神经网络对所述字向量进行序列处理,根据处理结果获得所述答案文本。
具体的,在所述答案材料为图片材料的情况下,通过对所述图片材料进行二值化处理,获得待识别图片,所述二值化处理具体是指将将图片上的像素点的灰度值设置为0或者255,可以使得图片呈现出明天的黑白效果,方便对图片上的文字进行识别,在通过二值化处理之后,检测所述待识别图片上的包含的文字,通过对所述识别出来的文字进行向量化处理,获得每个文字对应的字向量,之后通过时间循环神经网络对所述字向量进行序列处理,根据处理结果即可获得所述答案文本。
除此之外,在对图片材料中的文字进行识别的过程中,可以采用OCR(OpticalCharacter Recognition,光学字符识别)识别技术。
在所述答案材料为语音材料、文本材料和图片材料中的任意一种的情况下,都可以将不同格式的材料转换为答案文本,实现了保障用户可以根据自身的选择提供不同的答案材料,无论保障用户输入的答案材料是何种格式,都可以对答案材料进行转换,有效的提高的用户的体验效果,并且提高了保障用户提交答案材料的便捷性。
步骤104:通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词。
具体的,在上述所述保障用户针对健康问答题提交的答案材料进行转换,获得答案文本的情况下,通过语义分析算法对所述答案文本进行分析处理,获得所述答案文本中疾病关键词,在通过语义分析算法对所述答案文本进行分析处理的过程中,需要先将所述答案文本进行分句处理,获得多个句单元,在通过对句单元中的疾病关键词进行提取;
基于此,在提取所述疾病关键词的过程中,为了提高提取疾病关键词的准确性,可以通过确定答案文本中包含的关键词的词性进行确定,选择与健康保障项目关联度较高的关键词作为所述疾病关键词即可;还可以选择频次最高的关键词作为所述疾病关键词,具体实现方式可以根据实际应用场景进行设定提取方式,本说明书在此不做任何限定。
具体实施时,所述疾病关键词可以是答案文本中包含的疾病俗称、与疾病相关的药物名称或与疾病相关的职业名称;其中疾病俗称具体是指所述保障用户提交的答案文本中描述的疾病的通俗名称;疾病相关的药物名称具体是指所述保障用户提交的答案文本中针对疾病服用药物的名称;疾病相关职业名称具体是指所述保障用户提交的答案文本中能够引起疾病所就职的职业名称。
例如,答案文本是“患有脑梗疾病”,则通过语义分析算法提取出的疾病关键词是“脑梗”;或者答案文本是“服用过罗红霉素消炎药”,则通过语义分析算法提取出的疾病关键词是“罗红霉素”;或者答案文本是“工作在装修公司,主要负责刷油漆”,则通过语义分析算法提取出的疾病关键词是“油漆”。
在上述所述保障用户针对健康问答题提交的答案材料进行转换获得答案文本的基础上,进一步的,本实施例的一个或多个实施方式中,在提取所述疾病关键词的过程中,可以通过词性进行提取,具体实现方式如下所述:
通过所述语义分析算法对所述答案文本进行分词处理,获得所述答案文本的词单元;
对所述答案文本的所述词单元进行词性分析,根据每个词单元的词性选择与所述健康保障项目相关的词单元作为所述疾病关键词。
具体的,根据获取的答案文本通过所述语义分析算法进行分词处理,获得所述答案文本的词单元,所述词单元具体是指将所述答案文本按照词进行拆分,每个词即为词单元;
基于此,在确定所述词单元之后,对所述答案文本的全部词单元进行词性分析,确定词单元中的副词、谓词等,之后根据每个词单元的词性选择所述健康保障项目相关的词单元作为所述疾病关键词;在选择与所述健康保障项目相关的词单元的过程具体是指将选择词单元词性与所述健康保障项目相关的词单元,即可作为所述疾病关键词。
例如,用户参与健康保障项目过程中提交的答案文本为“患有心脏病”,通过语义分析算法进行分词处理,获得的词单元包括“患”“有”“心脏病”,通过对词性进行分析确定“患”是动词,“有”是谓词,“心脏病”是名词,并且“心脏病”与健康保障项目关联度最高,并且是一种疾病的名称,则可以将词单元“心脏病”确定为答案文本的疾病关键词。
通过语义分析算法对所述答案文本进行分析处理获得所述词单元,之后在通过词性对所述词单元进行分析处理,进而选择与所述健康保障项目相关的词单元作为所述疾病关键词,可以准确的确定所述答案文本中的疾病关键词,采用根据词性选择疾病关键词能够保证提取疾病关键词的准确性,并且在后续提取标准健康问答题可以提高提取的准确率。
步骤106:确定所述疾病关键词对应的标准疾病。
具体的,在所述答案文本中提取疾病关键词之后,需要确定所述疾病关键词对应的标准疾病,因为保障用户对医疗疾病等专业名称了解并不一定很全面,从而在上传答案材料时,所述答案材料中的描述语言可能都是一些白话文,而其中涉及的疾病相关的关键词也是非专业名称,进而需要确定所述答案文本中的疾病关键词对应的标准疾病;例如提取的疾病关键词是扁桃体切除,而扁桃体切除属于一种手术,需要将人体的扁桃体摘除的手术,故疾病关键词扁桃体切除对应的标准疾病是扁桃体炎;
基于此,确定所述疾病关键词对应的标准疾病的过程中,可以理解为通过所述疾病关键词确定标准疾病名称,而提供所述健康保障项目的项目平台为了能够准确的确定所述疾病关键词对应的标准疾病,需要将所述健康保障项目涉及的疾病相关信息均提起建立好,实现可以快速的确定所述疾病关键词对应的标准疾病。
具体实施时,在通过所述疾病关键词确定所述标准疾病的过程中,可以通过疾病俗称确定标准疾病名称,还可以通过疾病应该服用的药物确定标准疾病,还可以通过引起疾病的岗位确定标准疾病。
例如,疾病关键词是疾病俗称的情况下,疾病关键词是“脑梗”,则确定的标准疾病是“缺血性脑卒中”;或者疾病关键词是患有疾病服用的药物名称的情况下,疾病关键词是“罗红霉素”,则确定的标准疾病是“扁桃体炎”;或者疾病关键词是引起疾病的岗位名称的情况下,疾病关键词是“油漆”,则确定的标准疾病是“皮炎”。
在通过疾病关键词确定所述标准疾病的过程中,通过所述疾病关键词确定的标准疾病可能存在多个,此时,需要选择出疾病关键词和标准疾病关联度最高的作为所述疾病关键词对应的标准疾病;例如,疾病关键词是“油漆”,通过分析确定长期接触油漆的工作人员可能会患病“皮炎”“咽喉炎”“红眼”“神经衰弱”等疾病,在通过对保障用户的健康信息进行确定,若保障用户有打喷嚏等症状,则可以根据疾病关键词“油漆”确定对应的标准疾病是“咽喉炎”。
本实施例的一个或多个实施方式中,确定所述标准疾病的具体实现过程如下所述:
在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标准疾病名称;
将所述标准疾病名称作为所述疾病关键词对应的所述标准疾病。
具体的,在通过所述语义分析算法对所述答案文本进行分析处理之后获得所述疾病关键词的基础上,进一步的,在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标注疾病名称,在所述标准疾病名称库中预先建立的疾病关键词与标准疾病名称二者的对应关系,可以通过所述对应关系确定标准疾病名称,进而将所述标准疾病名称作为所述疾病关键词对应的标准疾病。
例如,在答案文本中提取的疾病关键词为“激素不平衡”,通过在标准疾病名称库中查询到的标准疾病名称为“多囊卵巢综合征”,则疾病关键词对应的表标准疾病为“多囊卵巢综合征”;或者疾病关键词为“阑尾炎手术”,通过在标准疾病名称库中查询到的标准疾病名称为“阑尾炎”,则疾病关键词对应的表标准疾病为“阑尾炎”。
具体实施时,所述标准疾病名称库中存储的标准疾病名称均是与所述健康保障项目相关联的标准疾病名称,在通过疾病关键词在所述标准疾病名称库中查询标准疾病名称时,能够准确的确定所述疾病关键词对应的所述标准疾病,若在所述查询不到与所述疾病关键词对应的标准疾病名称,说明所述保障用户提供的答案文本与所述健康保障项目所提供的健康保障关联度不高,则可以请求保障用户重新提交答案文本。
在上述通过所述标准疾病名称库确定所述疾病关键词对应的标准疾病的基础上,进一步的,本实施例的一个或多个实施方式中,为了提高确定所述标准疾病的准确度,可以通过计算匹配度的方式进行确定,具体实现方式如下所述:
在所述标准疾病名称库中提取与所述疾病关键词的类型相同的标准疾病名称创建疾病名称集合;
计算所述疾病名称集合中包含的每个标准疾病名称与所述疾病关键词的匹配度;
选择所述匹配度最高的标准疾病名称确定为所述疾病关键词对应的所述标准疾病。
具体的,首先在所述标准疾病名称库中提取与所述疾病关键词类型相同的标准疾病名称创建所述疾病名称集合,因为在所述标准疾病名称库中存在的标准疾病名称数量较多,并且类型繁多,为了能够准确的确定所述标准疾病,可以将所述标准疾病名称库中的标准疾病名称按照类型进行分类,例如,可以根据疾病种类对标准疾病名称进行分类,或者可以通过使用药物、手术方式对标准疾病名称进行分类;
基于此,在确定所述疾病名称集合的情况下,计算所述疾病名称集合中包含的标准疾病名称与所述疾病关键词的匹配度,通过计算可以获得多个标准疾病名称与所述疾病关键词的匹配度,通过选择匹配度最高的标准疾病名称作为所述疾病关键词对应的标准疾病。
例如,在标准疾病名称库中存在有1000种标准疾病名称,并且按照疾病种类进行了分类,脑疾病包含100种标准疾病名称,心脏疾病包括50种标准疾病名称,神经疾病包括……,在此情况下,在用户提交的答案文本中提取的疾病关键词为“脑梗”,确定疾病关键词的种类为脑疾病类型,将脑疾病包含100种标准疾病名称创建为疾病名称集合,计算疾病关键词“脑梗”与疾病名称集合中包含的100种标准疾病名称的匹配度,根据计算结果确定“脑梗”与标准疾病名称“缺血性脑卒中”的匹配度为98%,匹配度最高,则将标准疾病名称“缺血性脑卒中”作为疾病关键词“脑梗”的标准疾病。
通过以预设标准疾病名称库的方式确定所述疾病关键词对应的标准疾病,并且为了能够准确的确定所述标准疾病通过采用计算匹配度的方式进行确定,实现了可以准确的确定所述标准疾病名称,并且将所述标准疾病名称作为所述标准疾病,提高了在后续提取标准健康问答题过程中提取的问答题的准确性。
在上述确定所述疾病关键词对应的标准疾病的基础上,进一步的,本实施例的一个或多个实施方式中,可以采用知识图谱的方式确定所述标准疾病,具体实现方式如下所述:
确定所述疾病关键词对应的疾病实体;
根据所述疾病实体在所述健康保障项目预设的疾病知识图谱中查询与所述疾病实体具有映射关系的标准疾病实体;
提取与所述疾病实体具有映射关系的所述标准疾病实体的属性信息;
根据所述属性信息确定所述疾病关键词对应的所述标准疾病。
具体的,在确定所述疾病关键词的情况下,根据所述疾病关键词确定对应的疾病实体,所述疾病实体是指所述疾病关键词在所述知识图谱中对应的实体元素,在所述疾病知识图谱中相同属性信息的实体之间具有映射关系,可以根据该映射关系在所述疾病知识图谱中确定所述疾病实体对应的标准疾病实体,提取所述标准疾病实体的属性信息,根据所述属性信息即可确定所述疾病关键词对应的标准疾病;
基于此,所述疾病知识图谱的构建过程中是通过获取与所述健康保障项目的相关联的疾病实体和疾病实体对应的标准疾病实体,之后建立所述疾病实体和所述标准疾病实体之间的映射关系,通过对建立映射关键词的疾病实体和标准疾病实体进行结构化处理,根据结构化处理结果构建所述疾病知识图谱;并且在构建完成所述疾病知识图谱之后,还要根据疾病实体和标准疾病实体的映射关系确定查询条件,在通过所述疾病关键词确定标准疾病的过程中,需要将所述疾病关键词转换为与所述查询条件相同的形式才可以进行查询标准疾病。
例如,疾病关键词为“脑梗”在疾病知识图谱中对应的疾病实体为“a”,通过查询预先构建的疾病知识图谱确定与疾病实体具有映射关系的标准疾病实体为“a+”,提取标准疾病实体“a+”的属性信息,确定“a+”的属性信息为“缺血性脑卒中,局部脑组织因血液循环障碍、缺血、缺氧而发生的软化坏死”,根据“a+”的属性信息即可确定疾病关键词“脑梗”对应的标准疾病为“缺血性脑卒中”。
在确定所述疾病关键词对应的标准疾病的情况下,通过采用疾病知识图谱进行查询确定所述述疾病关键词对应的标准疾病,实现了可以快速准确的确定所述标准疾病,很大程度上提高了效率,进而使得提取标准健康问答题的过程也提高了提取速度。
步骤108:基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
具体的,在上述确定所述疾病关键词对应的标准疾病的基础上,进一步的,基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题,所述健康问答库具体是指存储有健康问答题的数据库,在所述健康问答库中包含的健康问答题均与所述健康保障项目相关联;
基于此,健康保障项目采用问答交互方式采集保障用户的健康信息进行审核,故需要不断的向所述保障用户提出健康问答题,而向保障用户提出的健康问答题需要有针对性,就需要根据保障用户的答案文本进行提取,为了能够准确的提取健康问答题进而实现能够准确的采集所述保障用户的健康信息,故需要根据标准疾病在所述健康问答题中提取标准健康问答题向保障用户进行提问。
在上述确定所述疾病关键词对应的标准疾病的基础上,进一步的,本实施例的一个或多个实施方式中,在提取所述标准健康问答题的过程中,为了能够进一步的提高提取所述标准健康问答题的准确性,可以通过计算文本相似度的方式进行提取,具体实现方式如下所述:
在所述健康问答库中选择携带有所述标准疾病对应的标准疾病名称的健康问答题作为待提取健康问答题;
计算所述答案文本与所述待提取健康问答题的文本相似度;
提取文本相似度最高的待提取健康问答题作为所述标准健康问答题。
具体的,在提取所述标准健康问答题的过程中,为了能够准确的提取健康问答题,在后续对保障用户的健康信息进行精准的审核,需要向保障用户提出的健康问答题也是足够精准的,只有在健康问答题足够精准的情况下,所述保障用户才能够针对提出的问答题进行作答,进而可以获得准确的保障用户的健康信息;
基于此,为了能够精准的提取标准健康问答题,则需要在所述健康问答库中选择与所述标准疾病相关的健康问答题,通过在所述健康问答库中选择携带有所述标准疾病对应的标准疾病明恒的健康问答题作为待提取健康问答题,之后计算所述待提取健康问答题与所述答案文本的文本相似度,将文本相似度最高的健康问答题作为所述标准健康问答题即可。
例如,通过对用户提交的答案文本进行处理,获得的答案文本中的疾病关键词对应的标准疾病为“心脏病”,则根据“心脏病”在健康问答库中提取的健康问答题包括20道题,将这20道健康问答题作为待提取健康问答题,并且这20道健康问答题均包含“心脏病”,计算答案文本与这20道健康问答题的文本相似度,选择文本相似度最高的健康问答题为“心脏病患病多久了?”,将文本相似度最高的健康问答题作为标准健康问答题向用户进行展示。
为了在后续能够精准的提取所述保障用户的健康信息,而保障用户的健康信息是基于保障用户针对健康问答题回答的答案确定的,则需要精准的提取健康问答题,通过计算答案文本与所述待提取健康问答题之间的文本相似度,选择文本相似度最高的健康问答题作为所述标准健康问答题,即可实现精准的提取健康问答题向用户进行提问,进而实现能够精准的采集保障用户的健康信息。
在上述提取文本相似度最高的待提取健康问答题作为所述标准健康问答题的基础上,进一步的,本实施例的一个或多个实施方式中,所述文本相似度最高的待提取健康问答题可能存在多个,此时,并不能将多个待提取健康问答题都向所述保障用户进行展示,需要选择一个待提取健康问答题作为所述标准健康问答题向所述保障用户进行展示,具体实现方式如下所述:
在最高的所述文本相似度对应至少两个待提取健康问答题的情况下,将所述至少两个待提取健康问答题向所述保障用户进行展示;
接收所述保障用户针对所述至少两个待提取健康问答题提交的选择指令,根据所述选择指令选择所述至少两个待提取健康问答题中的一个待提取健康问答题作为所述标准健康问答题。
具体的,在最高的所述文本相似度对应至少两个待提取健康问答题的情况下,说明通过计算所述答案文本与所述待提取健康问答题的文本相似度后,文本相似度最高的待提取健康问答题存在多个,例如,最高文本相似度为90%,通过计算答案文本和待提取健康问答题的文本相似度,从所述健康问答题库中确定了有5道健康问答题与所述答案文本的文本相似度均达到了90%;
基于此,最高的所述文本相似度对应至少两个待提取健康问答题的情况下,可以将所述至少两个待提取健康问答题向所述保障用户进行展示,使所述保障用户选择其中的一个待提取健康问答题作为所述标准健康问答题即可;在所述保障用户针对所述至少两个待提取健康问答题提交的选择指令,说明所述保障用户选择了多个待提取健康问答题中的一道健康问答题,则将根据所述保障用户提交的选择指令选择一个待提取健康问答题作为所述标准健康问答题。
沿用上例,通过对用户提交的答案文本进行处理,获得的答案文本中的疾病关键词对应的标准疾病为“心脏病”,则根据“心脏病”在健康问答库中提取的健康问答题包括20道题,将这20道健康问答题作为待提取健康问答题,并且这20道健康问答题均包含“心脏病”,计算答案文本与这20道健康问答题的文本相似度,通过计算确定存在3道题与答案文本的文本相似度最高,则将这3道题同时向用户进行展示,在用户针对其中的一道题提交选择指令的情况下,将用户选择的健康问答题“心脏病患病多久了?”作为标准健康问答题向用户进行展示。
在提取标准健康问答题向保障用户进行展示的过程中,可能在所述健康问答题库中提取的健康问答题存在多个,在不确定需要将具体一道健康问答题向保障用户进行展示的情况下,可以多个健康问答题向保障用户进行展示,供保障用户选择,实现了可以更准确的向所述保障用户提出问题,有助于进行采集保障用户的健康信息。
在上述根据所述标准疾病在所述健康问答库中提取标准健康问答题的基础上,进一步的,本实施例的一个或多个实施方式中,在获得所述标准健康问答题之后,需要将所述标准健康问答题向用户进行展示,但是在展示的过程中,标准健康问答题中包含有标准疾病名称,而保障用户可能并不了解标准疾病名称就是之前所提到的答案文本中的疾病关键词,基于此,需要将标准健康问答题中的标准疾病名称替换为疾病关键词,在向所述保障用户进行展示,具体实现方式如下所述:
计算所述疾病关键词与所述标准健康问答题中包含的标准疾病名称二者的语义相似度;
判断所述语义相似度是否大于预设的语义相似度阈值;
若是,直接将所述标准健康问答题向所述保障用户进行展示;
若否,基于所述疾病关键词对所述标准健康问答题中包含的标准疾病名称分别进行替换,并将替换后的标准健康问答题中包含的所述疾病关键词进行标注;
向所述保障用户展示携带有被标注所述疾病关键词的标准健康问答题。
具体的,在确定所述标准健康问答题之后,需要判断所述标准健康问答题中包含的标准疾病名称与所述疾病关键词二者的语义相似度,若所述标准疾病名称与所述疾病关键词二者的语义相似度大于所述语义相似度阈值的情况下,说明所述疾病关键词与所述标准健康问答题中包含的标准疾病名称相似度较高,不需要对所述标准健康问答题中的标准疾病名称进行替换,直接向所述保障用户展示所述标准健康问答题即可;
若所述标准疾病名称与所述疾病关键词二者的语义相似度小于等于所述语义相似度阈值的情况下,说明所述疾病关键词与所述标准健康问答题中包含的标准疾病名称相似度较低,直接向所述保障用户展示所述标准健康问答题可能造成保障用户不理解该问题的情况发生,需要将所述标注健康问答题中包含的标准疾病名称替换为所述疾病关键词,并将此时所述健康问答题中的疾病关键词进行标注,再向所述保障用户进行展示。
参见图2,用户向健康保障项目询问“做过扁桃体切除手术和静脉曲张手术可以参与健康保障项目吗?”,通过提取疾病关键词确定在该内容中的疾病关键词为“扁桃体切除”和“静脉曲张”,通过查询标准疾病名称库确定“扁桃体切除”对应的标准疾病名称为“扁桃体炎”,“静脉曲张”对应的标准疾病名称为“静脉曲张”,通过在健康问答库中提取标准健康问答题为“您好,扁桃体炎和静脉曲张手术是可以参与该保障项目的”,为了能够使得用户确定在标准健康问答题中的“扁桃体炎”就是自己提到的“扁桃体切除”,则基于“扁桃体切除”对标准健康问答题进行更新,并将更新后的健康问答题中的疾病关键词进行标注,最终向用户展示的健康问答题为“您好,【扁桃体切除】和【静脉曲张】手术是可以参与该保障项目的”。
为了能够使得保障用户可以了解在标准健康问答题中的标准疾病名称即为疾病关键词,需要将标准健康问答题中的标准疾病名称替换为疾病关键词,能够更方便保障用户对健康问答题的理解,并且将更新后的健康问答题中包含的疾病关键词进行标注,更进一步的促进了保障用户对更新后的健康问答题的理解,有效的提高了保障用户的体验效果。
本实施例的一个或多个实施方式中,在所述答案材料为语音材料的情况下,需要根据所述答案材料确定所述保障用户参与所述健康保障项目的参与结果,具体实现方式如下所述:
在所述标准健康问答题为验证语音材料问答题的情况下,对所述保障用户针对所述验证语音材料问答题提交的病例材料进行转换,获得疾病文本;
通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;
确定所述病例关键词对应的标准疾病名称;
基于所述标准疾病名称对所述病例文本进行更新,根据所述病例文本的更新结果确定所述保障用户参与所述健康保障项目的参与结果。
具体的,在所述标准健康问答题为验证语音材料问答题的情况下,说明所述保障用户针对上一健康问答题提交的语音材料是较为重要的,则此时向用户提出的健康问答题为验证语音材料;
基于此,通过对所述保障用户提交的语音材料进行转换,将所述语音材料转换为疾病文本,具体转换过程参见上述语音材料转换为答案文本的描述内容,本说明书在此不在赘述;在通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;确定所述病例关键词对应的标准疾病名称,基于所述标准疾病名称对所述病例文本进行更新,即可获得标准疾病文本,通过标准疾病文本即可确定所述保障用户参与所述健康保障项目的参与结果。
本说明书提供的健康保障项目中的答案处理方法,通过对保障用户针对健康问答题提交的答案进行转换,获得可以进行语义分析的答案文本,再通过语义分析算法对所述答案文本进行分词处理,获得所述答案文本中的疾病关键词,所述疾病关键词即为保障用户提供的疾病俗称或者非专业名词,通过确定疾病关键词对应的标准疾病,再通过标准疾病在健康问答题库中提取标准健康问答题,实现了可以准确的确定标准健康问答题,进而提高了采集所述保障用户健康信息的准确性,使得所述健康保障项目可以准确的对所述保障用户的健康信息进行审核,并且在将所述标准健康问答题向所述保障用户进行展示的情况下,为了能够方便保障用户理解所述标准健康问答题,可以将所述标准健康问答题中的标准疾病替换为所述疾病关键词在向所述保障用户进行展示,可以有效的促进保障用户对健康问答题的理解,进而更进一步促进能够精准采集保障用户的健康信息。
下述结合附图3,以本说明书提供的健康保障项目中的答案处理方法在多种健康保障项中的应用为例,对所述健康保障项目中的答案处理方法进行进一步说明。其中,图3示出了本说明书一实施例提供的一种应用于多种疾病的健康保障项目中的答案处理方法的处理流程图,具体步骤包括步骤302至步骤322。
步骤302:对用户针对第一健康问答题提交的病例材料进行转换,获得病例文本。
具体的,用户在参与健康保障项目的过程中,健康保障项目需要对用户进行审核,此过程为健康告知过程,而健康保障项目通过采用问答交互的方式进行采集用户的健康信息;
基于此,健康保障项目可以为用户提供多种疾病的健康保障,则需要对用户的多项健康信息进行审核,在进行问答交互的过程中,用户针对第一健康问答题提交的材料是过去2年内的病例材料,通过图片的方式进行上传,而健康保障项目通过采用OCR识别技术,获得病例材料上的文字信息,根据文字信息获得病例文本。
步骤304:通过采用语义分析算法对病例文本进行分析处理,获得病例文本的疾病关键词。
具体的,健康保障项目需要对用户进行多次的问答交互才能够准确的确定用户的健康信息;
基于此,通过对转换后的病例文本进行语义分析,获得病例文本中的疾病关键词,便于后续提取下一道健康问答题。
步骤306:查询标准疾病名称库确定与疾病关键词类型相同的疾病名称集合。
具体的,通过对病例文本进行语义分析处理,获得的疾病关键词为“脑梗”,通过查询标准疾病名称库确定“脑梗”对应的疾病名称集合为脑疾病集合,其中,脑疾病集合中包含的标准疾病名称有“脑出血”“脑供血不足”“脑炎”和“缺血性脑卒中”。
步骤308:计算疾病关键词与疾病名称集合中包含的标准疾病名称之间的匹配度。
步骤310:选择匹配度最高的作为疾病关键词的标准疾病名称。
具体的,分别计算“脑梗”与“脑出血”“脑供血不足”“脑炎”和“缺血性脑卒中”四个标准疾病名称之间的匹配度,分别确定“脑梗”与“脑出血”的匹配度为12%,“脑梗”与“脑供血不足”的匹配度为15%,“脑梗”与“脑炎”的匹配度为1%,“脑梗”与“缺血性脑卒中”的匹配度为95%,;
基于此,其中“脑梗”与“缺血性脑卒中”的匹配度最高,则将“缺血性脑卒中”作为疾病关键词“脑梗”的标准疾病名称。
步骤312:基于标准疾病名称在健康问答库中提取第二健康问答题。
具体的,在确定标准疾病名称的情况下,通过标准疾病名称在健康问答库提取下一道健康问答题向用户继续进行提问,获得的第二健康问答题为“缺血性脑卒中患病多久了?”。
步骤314:计算疾病关键词与第二健康问答题中的标准疾病名称二者的语义相似度。
具体的,为了能够使得用户对第二健康问答题能够了解,首先需要判断用户对疾病关键词“脑梗”的专业名称“缺血性脑卒中”是否能够理解,故需要件疾病关键词“脑梗”和第二健康问答题中的标准疾病名称“缺血性脑卒中”二者的语义相似度。
步骤316:判断语义相似度是否大于语义相似度阈值;若是,则执行步骤318;若否,则执行步骤320。
步骤318:向用户展示第二健康问答题。
具体的,在疾病关键词与第二健康问答题中的标准疾病名称二者的语义相似度大于预设的语义相似度阈值的情况下,说明在第二健康问答题中的标准疾病名称能够使得用户理解,则直接向用户展示包含标准疾病名称的第二健康问答题向用户进行展示即可。
步骤320:将第二健康问答题中的标准疾病名称替换为疾病关键词向用户进行展示。
具体的,在疾病关键词与第二健康问答题中的标准疾病名称二者的语义相似度小于等于预设的语义相似度阈值的情况下,说明在第二健康问答题中的标准疾病名称会使得用户理解不清楚,需要将第二健康问答题中包含的标准疾病名称替换为疾病关键词;
基于此,将第二健康问答题“缺血性脑卒中患病多久了?”中的“缺血性脑卒中”替换为“脑梗”,最终获得的第二健康问答题为“脑梗患病多久了?”,并将最终获得的第二健康问答题向用户进行展示。
步骤322:根据用户针对第一健康问答题和第二健康问答题的答案确定用户参与健康保障项目的参与结果。
具体的,在用户针对第一健康问答题和第二健康问答题提交答案的情况下,可以确定用户的健康信息,根据用户的健康信息即可确定用户参与健康保障项目的参与结果。
本说明书提供的健康保障项目中的答案处理方法,通过对用户针对健康问答题提交的答案进行转换,获得可以进行语义分析的病例文本,再通过语义分析算法对病例文本进行分词处理,获得病例文本中的疾病关键词,通过确定疾病关键词对应的标准疾病名称,再通过标准疾病名称在健康问答题库中提取健康问答题,实现了可以准确的确定健康问答题,进而提高了采集用户健康信息的准确性,使得健康保障项目可以准确的对用户的健康信息进行审核,并且在将健康问答题向用户进行展示的情况下,为了能够方便用户理解健康问答题,可以将健康问答题中的标准疾病名称替换为疾病关键词在向用户进行展示,可以有效的促进用户对健康问答题的理解,进而更进一步促进能够精准采集用户的健康信息。
与上述方法实施例相对应,本说明书还提供了健康保障项目中的答案处理装置实施例,图4示出了本说明书一实施例提供的一种健康保障项目中的答案处理装置的结构示意图。如图4所示,该装置包括:
材料转换模块402,被配置为对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;
提取关键词模块404,被配置为通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;
确定疾病模块406,被配置为确定所述疾病关键词对应的标准疾病;
提取问答题模块408,被配置为基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
一个可选的实施例中,所述健康保障项目中的答案处理装置,还包括:
计算语义相似度模块,被配置为计算所述疾病关键词与所述标准健康问答题中包含的标准疾病名称二者的语义相似度;
判断模块,被配置为判断所述语义相似度是否大于预设的语义相似度阈值;
若否,执行标注关键词模块;
所述标注关键词模块,被配置为基于所述疾病关键词对所述标准健康问答题中包含的标准疾病名称分别进行替换,并将替换后的标准健康问答题中包含的所述疾病关键词进行标注;
展示问答题模块,被配置为向所述保障用户展示携带有被标注所述疾病关键词的标准健康问答题。
一个可选的实施例中,在所述答案材料为语音材料的情况下,所述健康保障项目中的答案处理装置,还包括:
病例材料转换模块,被配置为在所述标准健康问答题为验证语音材料问答题的情况下,对所述保障用户针对所述验证语音材料问答题提交的病例材料进行转换,获得疾病文本;
提取病例关键词模块,被配置为通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;
确定标准疾病名称模块,被配置为确定所述病例关键词对应的标准疾病名称;
确定参与结果模块,被配置为基于所述标准疾病名称对所述病例文本进行更新,根据所述病例文本的更新结果确定所述保障用户参与所述健康保障项目的参与结果。
一个可选的实施例中,所述确定疾病模块406进一步被配置为:
在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标准疾病名称;
将所述标准疾病名称作为所述疾病关键词对应的所述标准疾病。
一个可选的实施例中,所述确定疾病模块406,包括:
创建集合单元,被配置为在所述标准疾病名称库中提取与所述疾病关键词的类型相同的标准疾病名称创建疾病名称集合;
计算匹配度单元,被配置为计算所述疾病名称集合中包含的每个标准疾病名称与所述疾病关键词的匹配度;
选择单元,被配置为选择所述匹配度最高的标准疾病名称确定为所述疾病关键词对应的所述标准疾病。
一个可选的实施例中,所述确定疾病模块406,包括:
确定疾病实体单元,被配置为确定所述疾病关键词对应的疾病实体;
查询知识图谱单元,被配置为根据所述疾病实体在所述健康保障项目预设的疾病知识图谱中查询与所述疾病实体具有映射关系的标准疾病实体;
提取属性信息单元,被配置为提取与所述疾病实体具有映射关系的所述标准疾病实体的属性信息;
确定标准疾病单元,被配置为根据所述属性信息确定所述疾病关键词对应的所述标准疾病。
一个可选的实施例中,所述提取关键词模块404,包括:
分词处理单元,被配置为通过所述语义分析算法对所述答案文本进行分词处理,获得所述答案文本的词单元;
词性分析单元,被配置为对所述答案文本的所述词单元进行词性分析,根据每个词单元的词性选择与所述健康保障项目相关的词单元作为所述疾病关键词。
一个可选的实施例中,所述答案材料包括下述至少一项:
语音材料、文本材料、图片材料。
一个可选的实施例中,在所述答案材料为所述语音材料的情况下,所述材料转换模块402,包括:
端点检测单元,被配置为通过对所述语音材料进行端点检测,并根据所述端点检测的结果将所述语音材料进行分帧处理,获得多个语音段;
向量化处理单元,被配置为对所述多个语音段进行向量化处理,获得所述多个语音段对应的语音特征向量;
查询字典单元,被配置为基于所述语音特征向量获得所述语音材料的音素信息,并通过查询预先建立的音素信息和字单元的对应关系字典,确定所述音素信息对应的字单元;
整合单元,被配置为将所述字单元根据所述语音材料中的语音播放顺序进行整合,根据整合结果获得所述答案文本。
一个可选的实施例中,在所述答案材料为所述图片材料的情况下,所述材料转换模块402,包括:
二值化处理单元,被配置为通过对所述图片材料进行二值化处理,获得待识别图片;
检测文字单元,被配置为检测所述待识别图片上包含的文字,通过对所述待识别图片上包含的所述文字进行向量化处理,获得每个文字对应的字向量;
序列处理单元,被配置为基于时间循环神经网络对所述字向量进行序列处理,根据处理结果获得所述答案文本。
一个可选的实施例中,所述提取问答题模块408,包括:
选择单元,被配置为在所述健康问答库中选择携带有所述标准疾病对应的标准疾病名称的健康问答题作为待提取健康问答题;
计算文本相似度单元,被配置为计算所述答案文本与所述待提取健康问答题的文本相似度;
提取单元,被配置为提取文本相似度最高的待提取健康问答题作为所述标准健康问答题。
一个可选的实施例中,所述提取单元,包括:
展示问答题子模块,被配置为在最高的所述文本相似度对应至少两个待提取健康问答题的情况下,将所述至少两个待提取健康问答题向所述保障用户进行展示;
选择问答题子模块,被配置为接收所述保障用户针对所述至少两个待提取健康问答题提交的选择指令,根据所述选择指令选择所述至少两个待提取健康问答题中的一个待提取健康问答题作为所述标准健康问答题。
本说明书提供的健康保障项目中的答案处理装置,通过对保障用户针对健康问答题提交的答案进行转换,获得可以进行语义分析的答案文本,再通过语义分析算法对所述答案文本进行分词处理,获得所述答案文本中的疾病关键词,所述疾病关键词即为保障用户提供的疾病俗称或者非专业名词,通过确定疾病关键词对应的标准疾病,再通过标准疾病在健康问答题库中提取标准健康问答题,实现了可以准确的确定标准健康问答题,进而提高了采集所述保障用户健康信息的准确性,使得所述健康保障项目可以准确的对所述保障用户的健康信息进行审核,并且在将所述标准健康问答题向所述保障用户进行展示的情况下,为了能够方便保障用户理解所述标准健康问答题,可以将所述标准健康问答题中的标准疾病替换为所述疾病关键词在向所述保障用户进行展示,可以有效的促进保障用户对健康问答题的理解,进而更进一步促进能够精准采集保障用户的健康信息。
上述为本实施例的一种健康保障项目中的答案处理装置的示意性方案。需要说明的是,该健康保障项目中的答案处理装置的技术方案与上述的健康保障项目中的答案处理方法的技术方案属于同一构思,健康保障项目中的答案处理装置的技术方案未详细描述的细节内容,均可以参见上述健康保障项目中的答案处理方法的技术方案的描述。
图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;
通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;
确定所述疾病关键词对应的标准疾病;
基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
可选的,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题指令执行之后,处理器520还用于执行如下计算机可执行指令:
计算所述疾病关键词与所述标准健康问答题中包含的标准疾病名称二者的语义相似度;
判断所述语义相似度是否大于预设的语义相似度阈值;
若否,基于所述疾病关键词对所述标准健康问答题中包含的标准疾病名称分别进行替换,并将替换后的标准健康问答题中包含的所述疾病关键词进行标注;
向所述保障用户展示携带有被标注所述疾病关键词的标准健康问答题。
可选的,在所述答案材料为语音材料的情况下,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题指令执行之后,处理器520还用于执行如下计算机可执行指令:
在所述标准健康问答题为验证语音材料问答题的情况下,对所述保障用户针对所述验证语音材料问答题提交的病例材料进行转换,获得疾病文本;
通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;
确定所述病例关键词对应的标准疾病名称;
基于所述标准疾病名称对所述病例文本进行更新,根据所述病例文本的更新结果确定所述保障用户参与所述健康保障项目的参与结果。
可选的,所述确定所述疾病关键词对应的标准疾病,包括:
在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标准疾病名称;
将所述标准疾病名称作为所述疾病关键词对应的所述标准疾病。
可选的,所述确定所述疾病关键词对应的标准疾病名称,包括:
在所述标准疾病名称库中提取与所述疾病关键词的类型相同的标准疾病名称创建疾病名称集合;
计算所述疾病名称集合中包含的每个标准疾病名称与所述疾病关键词的匹配度;
选择所述匹配度最高的标准疾病名称确定为所述疾病关键词对应的所述标准疾病。
可选的,所述确定所述疾病关键词对应的标准疾病,包括:
确定所述疾病关键词对应的疾病实体;
根据所述疾病实体在所述健康保障项目预设的疾病知识图谱中查询与所述疾病实体具有映射关系的标准疾病实体;
提取与所述疾病实体具有映射关系的所述标准疾病实体的属性信息;
根据所述属性信息确定所述疾病关键词对应的所述标准疾病。
可选的,所述通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词,包括:
通过所述语义分析算法对所述答案文本进行分词处理,获得所述答案文本的词单元;
对所述答案文本的所述词单元进行词性分析,根据每个词单元的词性选择与所述健康保障项目相关的词单元作为所述疾病关键词。
可选的,所述答案材料包括下述至少一项:
语音材料、文本材料、图片材料。
可选的,在所述答案材料为所述语音材料的情况下,所述对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本,包括:
通过对所述语音材料进行端点检测,并根据所述端点检测的结果将所述语音材料进行分帧处理,获得多个语音段;
对所述多个语音段进行向量化处理,获得所述多个语音段对应的语音特征向量;
基于所述语音特征向量获得所述语音材料的音素信息,并通过查询预先建立的音素信息和字单元的对应关系字典,确定所述音素信息对应的字单元;
将所述字单元根据所述语音材料中的语音播放顺序进行整合,根据整合结果获得所述答案文本。
可选的,在所述答案材料为所述图片材料的情况下,所述对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本,包括:
通过对所述图片材料进行二值化处理,获得待识别图片;
检测所述待识别图片上包含的文字,通过对所述待识别图片上包含的所述文字进行向量化处理,获得每个文字对应的字向量;
基于时间循环神经网络对所述字向量进行序列处理,根据处理结果获得所述答案文本。
可选的,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题,包括:
在所述健康问答库中选择携带有所述标准疾病对应的标准疾病名称的健康问答题作为待提取健康问答题;
计算所述答案文本与所述待提取健康问答题的文本相似度;
提取文本相似度最高的待提取健康问答题作为所述标准健康问答题。
可选的,所述提取文本相似度最高的待提取健康问答题作为所述标准健康问答题,包括:
在最高的所述文本相似度对应至少两个待提取健康问答题的情况下,将所述至少两个待提取健康问答题向所述保障用户进行展示;
接收所述保障用户针对所述至少两个待提取健康问答题提交的选择指令,根据所述选择指令选择所述至少两个待提取健康问答题中的一个待提取健康问答题作为所述标准健康问答题。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的健康保障项目中的答案处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述健康保障项目中的答案处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本;
通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词;
确定所述疾病关键词对应的标准疾病;
基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题。
可选的,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题步骤执行之后,还包括:
计算所述疾病关键词与所述标准健康问答题中包含的标准疾病名称二者的语义相似度;
判断所述语义相似度是否大于预设的语义相似度阈值;
若否,基于所述疾病关键词对所述标准健康问答题中包含的标准疾病名称分别进行替换,并将替换后的标准健康问答题中包含的所述疾病关键词进行标注;
向所述保障用户展示携带有被标注所述疾病关键词的标准健康问答题。
可选的,在所述答案材料为语音材料的情况下,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题步骤执行之后,还包括:
在所述标准健康问答题为验证语音材料问答题的情况下,对所述保障用户针对所述验证语音材料问答题提交的病例材料进行转换,获得疾病文本;
通过所述语义分析算法对所述病例文本进行分析处理,并从分析结果中提取所述病例文本中包含的病例关键词;
确定所述病例关键词对应的标准疾病名称;
基于所述标准疾病名称对所述病例文本进行更新,根据所述病例文本的更新结果确定所述保障用户参与所述健康保障项目的参与结果。
可选的,所述确定所述疾病关键词对应的标准疾病,包括:
在所述健康保障项目预设的标准疾病名称库中确定所述疾病关键词对应的标准疾病名称;
将所述标准疾病名称作为所述疾病关键词对应的所述标准疾病。
可选的,所述确定所述疾病关键词对应的标准疾病名称,包括:
在所述标准疾病名称库中提取与所述疾病关键词的类型相同的标准疾病名称创建疾病名称集合;
计算所述疾病名称集合中包含的每个标准疾病名称与所述疾病关键词的匹配度;
选择所述匹配度最高的标准疾病名称确定为所述疾病关键词对应的所述标准疾病。
可选的,所述确定所述疾病关键词对应的标准疾病,包括:
确定所述疾病关键词对应的疾病实体;
根据所述疾病实体在所述健康保障项目预设的疾病知识图谱中查询与所述疾病实体具有映射关系的标准疾病实体;
提取与所述疾病实体具有映射关系的所述标准疾病实体的属性信息;
根据所述属性信息确定所述疾病关键词对应的所述标准疾病。
可选的,所述通过语义分析算法对所述答案文本进行分析处理,并从分析结果中提取所述答案文本中包含的疾病关键词,包括:
通过所述语义分析算法对所述答案文本进行分词处理,获得所述答案文本的词单元;
对所述答案文本的所述词单元进行词性分析,根据每个词单元的词性选择与所述健康保障项目相关的词单元作为所述疾病关键词。
可选的,所述答案材料包括下述至少一项:
语音材料、文本材料、图片材料。
可选的,在所述答案材料为所述语音材料的情况下,所述对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本,包括:
通过对所述语音材料进行端点检测,并根据所述端点检测的结果将所述语音材料进行分帧处理,获得多个语音段;
对所述多个语音段进行向量化处理,获得所述多个语音段对应的语音特征向量;
基于所述语音特征向量获得所述语音材料的音素信息,并通过查询预先建立的音素信息和字单元的对应关系字典,确定所述音素信息对应的字单元;
将所述字单元根据所述语音材料中的语音播放顺序进行整合,根据整合结果获得所述答案文本。
可选的,在所述答案材料为所述图片材料的情况下,所述对保障用户参与健康保障项目过程中针对健康问答题提交的答案材料进行转换,获得答案文本,包括:
通过对所述图片材料进行二值化处理,获得待识别图片;
检测所述待识别图片上包含的文字,通过对所述待识别图片上包含的所述文字进行向量化处理,获得每个文字对应的字向量;
基于时间循环神经网络对所述字向量进行序列处理,根据处理结果获得所述答案文本。
可选的,所述基于所述标准疾病在所述健康保障项目的健康问答库中提取标准健康问答题,包括:
在所述健康问答库中选择携带有所述标准疾病对应的标准疾病名称的健康问答题作为待提取健康问答题;
计算所述答案文本与所述待提取健康问答题的文本相似度;
提取文本相似度最高的待提取健康问答题作为所述标准健康问答题。
可选的,所述提取文本相似度最高的待提取健康问答题作为所述标准健康问答题,包括:
在最高的所述文本相似度对应至少两个待提取健康问答题的情况下,将所述至少两个待提取健康问答题向所述保障用户进行展示;
接收所述保障用户针对所述至少两个待提取健康问答题提交的选择指令,根据所述选择指令选择所述至少两个待提取健康问答题中的一个待提取健康问答题作为所述标准健康问答题。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的健康保障项目中的答案处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述健康保障项目中的答案处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。