CN112733534A

CN112733534A - 医患对话中半截词指向症状获取方法及系统

Info

Publication number: CN112733534A
Application number: CN202110088211.5A
Authority: CN
Inventors: 崔毅; 王晓露
Original assignee: Beijing Zuoyi Technology Co ltd
Current assignee: Beijing Zuoyi Technology Co ltd
Priority date: 2020-12-25
Filing date: 2021-01-22
Publication date: 2021-04-30
Anticipated expiration: 2041-01-22
Also published as: CN112733534B

Abstract

本发明提供一种医患对话中半截词指向症状获取方法及系统，属于智能医疗技术领域。所述方法包括：确定医患对话完成，获取本次医患对话的医患对话信息；根据所述医患对话信息获得先行词集合和半截词集合；将所述先行词集合和半截词集合作为训练数据执行预设指代消解算法，获得各半截词的真实先行词集合；将每一个半截词与其对应的真实先行词集合中的每一个先行词分别组合组成为一完整症状，获得完整症状集合；根据所述完整症状集合获得患者的电子病例信息。本发明方案在保证电力病例生成准确率的前提下极大节省了医生手写病例的时间，提高了问诊效率。

Description

医患对话中半截词指向症状获取方法及系统

技术领域

本发明涉及智能医疗技术领域，具体地涉及一种医患对话中半截词指向症状获取方法及一种医患对话中半截词指向症状获取系统。

背景技术

随着人工智能技术发展，AI系统在越来越多的方面为人们带来便捷，其中，对民生医疗有着重要意义的智能医疗系统越来越受到人们的青睐。传统医疗问诊效率低和病例手写时间长，在现有智能交互问诊系统的帮助下，已经获得了巨大的改善。为了解决医生手写病例时间长的问题，现在出现了一些自动获取医患对话信息，进行患者症状自动整理的方法，例如，在一些诸如“我有点咳嗽”、“最近老是头痛”等简单完整的表述，通过传统的模板匹配和基于机器学习的槽填充技术都能较好地抽取出“咳嗽”、“头痛”等关键词，即便是“腿有点疼”这种非规范化的表述都可以通过相似度计算等技术归一到“腿疼”等关键词。但是若医患对话过于口语化，且医患对话信息量很大，就需要机器进行跨句理解，即从前面的部位先行词对应寻找到该部位的症状半截词。这对于机器来说，具有很大的挑战，受限于现有方法机器理解能力有限，对于医患对话的跨句理解不准确导致的生成病例不符合实际，也是的此类方法无法获得重要突破。针对目前对于医患对话信息理解不准确的问题，需要创造一种新的医患对话中半截词指向症状获取方法。

发明内容

本发明实施方式的目的是提供一种医患对话中半截词指向症状获取方法系统，以至少解决目前对于医患对话信息理解不准确的问题。

为了实现上述目的，本发明第一方面提供一种医患对话中半截词指向症状获取方法，所述方法包括：确定医患对话完成，获取本次医患对话的医患对话信息；根据所述医患对话信息获得先行词集合和半截词集合；将所述先行词集合和半截词集合作为输入数据执行预设指代消解算法，获得各半截词的真实先行词集合；将每一个半截词与其对应的真实先行词集合中的每一个先行词分别组合组成为一完整症状，获得完整症状集合；根据所述完整症状集合获得患者的电子病例信息。

可选的，所述医患对话信息包括：医患线上对话的文本信息和/或医患线下对话的语音信息。

可选的，所述根据所述医患对话信息获得先行词集合和半截词集合，包括：若所述医患对话信息为医患线上对话的文本信息，获取医患线上对话的完整对话信息；其中，所述完整对话信息包括医生的提问信息和患者的回答信息；根据模板匹配或槽填充技术提取所述完整对话信息中的所有关键词；根据预设规则将提取的所有关键词分为先行词或半截词，分别生成先行词集合和半截词集合。

可选的，所述根据所述医患对话信息获得先行词集合和半截词集合，还包括：若所述医患对话信息为医患线下对话的语音信息，获取医患线下对话的完整语音信息，根据智能语音转换算法将所述完整语音信息转换为对应的文本信息；根据模板匹配或槽填充技术提取所述文本信息中的关键词；根据预设规则将所有关键词分为先行词或半截词，分别生成先行词集合和半截词集合。

可选的，所述预设指代消解算法为Mention ranking算法。

可选的，所述将所述先行词集合和半截词集合作为输入数据执行预设指代消解算法，并获得各半截词的真实先行词集合，包括：获取所述先行词集合中各先行词的特征数据；将所述各先行词的特征数据作为评分依据，通过执行所述Mention ranking算法分别获得所述先行词集合中各先行词与所述半截词集合中各半截词之间的关联得分；将所述先行词集合中各先行词与所述半截词集合中各半截词之间的关联得分分别与预设阈值进行对比，获得所述半截词集合中各半截词对应关联得分超过所述预设阈值的先行词；其中，每个半截词对应关联得分超过所述预设阈值的所有先行词组成为该半截词的真实先行词集合。

可选的，所述先行词集合中各先行词的特征数据，包括：医患对话信息中包括的特征关键词、知识库中与各先行词存在可能症状的特征信息和已知病例信息库中与各先行词存在可能症状的特征信息。

本发明第二方面提供一种医患对话中半截词指向症状获取系统，所述系统包括：采集单元，用于在确定医患对话完成的情况下，获取本次医患对话的医患对话信息；处理单元，用于根据所述医患对话信息获得先行词集合和半截词集合；还用于将所述先行词集合和半截词集合作为训练数据执行预设指代消解算法，获得各半截词的真实先行词集合，将每一个半截词与其对应的真实先行词集合中的每一个先行词分别组合组成为一完整症状，获得完整症状集合；病例生成单元，用于根据所述完整症状集合获得患者的电子病例信息。

可选的，所述采集单元包括：文本采集模块，用于采集医患线上对话的文本信息；语音采集模块，用于采集医患线下对话的语音信息；所述处理单元还用于根据智能语音转换算法将所述语音信息转换为对应的文本信息。

另一方面，本发明提供一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行上述的医患对话中半截词指向症状获取方法。

通过上述技术方案，借用指代消解算法，对于特定出现半截词，把对话中出现过的部位和生理活动全部找出来，作为候选先行词。把每个候选先行词以及相应的特征输入到梯度提升决策树模型输出打分，选取最高分的候选先行词，并根据模型在评估集上的表现设定一个分数阈值，当最高分超过阈值时，输出最高分候选先行词。无论医患对话信息如何复杂，系统均能通过关联分数计算将匹配度最高的先行词和半截词对应组合起来，使得最终的患者症状信息符合实际，保证电力病例生成准确率的情况下极大节省了医生手写病例的时间，提高了问诊效率。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是本发明一种实施方式提供的医患对话中半截词指向症状获取方法的步骤流程图；

图2是本发明一种实施方式提供的医患对话中半截词指向症状获取系统的系统结构图；

图3是本发明一种实施方式提供的医患对话中半截词指向症状获取系统中采集单元的结构图。

附图标记说明

10-采集单元；20-处理单元；30-病例生成单元；

101-文本采集模块；102-语音采集模块。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图2是本发明一种实施方式提供的医患对话中半截词指向症状获取系统的系统结构图。如图2所示，本发明实施方式提供一种医患对话中半截词指向症状获取系统，所述系统包括：采集单元10，用于在确定医患对话完成的情况下，获取本次医患对话的医患对话信息；处理单元20，用于根据所述医患对话信息获得先行词集合和半截词集合；还用于将所述先行词集合和半截词集合作为训练数据执行预设指代消解算法，获得各半截词的真实先行词集合，将每一个半截词与其对应的真实先行词集合中的每一个先行词分别组合组成为一完整症状，获得完整症状集合；病例生成单元30，用于根据所述完整症状集合获得患者的电子病例信息。

优选的，如图3，所述采集单元10包括：文本采集模块101，用于采集医患线上对话的文本信息；语音采集模块102，用于采集医患线下对话的语音信息；所述处理单元20还用于根据智能语音转换算法将所述语音信息转换为对应的文本信息。

本发明提出的医患对话中半截词指向症状获取方法，用于在医患进行病情交流时，根据医生与患者的口语化交流，自动识别医患对话中的症状信息，并根据患者的症状信息自动生成患者对应的电子病历。在医生与患者的对话交流中，诸如“我有点咳嗽”、“最近老是头痛”等简单完整的表述，通过传统的模板匹配和基于机器学习的槽填充技术都能较好地抽取出“咳嗽”、“头痛”等关键词，即便是“腿有点疼”这种非规范化的表述都可以通过相似度计算等技术归一到“腿疼”等关键词。但是在一些跨句级的对话理解中，机器很难通过跨句理解获得完整的症状信息。例如，某医生与患者的对话流程为：

(1)病人：平时右侧小肚最右边腰骨头上方按压痛，大便时右侧那个点也痛，请问医生，我这是什么病呢？是结肠炎吗？

(2)医生：你好，是肋骨疼还是右上腹部疼痛呢？排便后可有缓解？

(3)病人：右下腹有一个点痛，我也有附件炎。

(4)医生：疼痛一般与炎症及脏器痉挛有关，肠炎一般有腹痛和腹泻的，附件炎一般有小腹部坠胀感。

(5)病人：没有那个感觉，就那个点不舒服疼。

根据上述的医患正文交流信息，在对话(5)中，一般通过简单的技术就能抽取出“疼”，但是对于机器，不知道是“哪里疼”，光是一个“疼”对于诊断、病历是没有任何意义的，所以系统必须找出是“哪里疼”才使得系统输出有意义的结果。将诸如“疼痛”、“出血”、“麻木”等孤立地出现的非症状词却能与部位(胸、背、腿等)和生理活动(大小便、月经等)等组合成为症状的词，定义为半截词。本方法的目的表示，通过指代消除方法，将诸如上述的“疼”找到对应的疼痛部位，准确获取患者的症状信息。

图1是本发明一种实施方式提供的医患对话中半截词指向症状获取方法的方法流程图。如图1所示，本发明实施方式提供一种医患对话中半截词指向症状获取方法。本方法借用指代消解中的Mention ranking中的思想，对于特定出现半截词，把对话中出现过的部位和生理活动全部找出来，作为候选先行词。把每个候选先行词以及相应的特征输入到梯度提升决策树模型输出打分，选取最高分的候选先行词，并根据模型在评估集上的表现设定一个分数阈值，当最高分超过阈值时，输出最高分候选先行词。在上文提到的例子中，半截词是“疼”，候选词是“腹部”、“小腹”、“右下腹”、“肋骨”、“右上腹”，经过模型计算后，最高分是“小腹”。把“小腹”和“疼”输入到下游归一化模块后便可得到“小腹疼痛”，在最后生成的病历中显示。输入模型的特征中还利用了一些外部知识，如统计半截词与部位在数百万份病历中共现的统计数据，还有症状之间在病历中共现在的统计数据，这些特征在模型中发挥了显著的作用。具体的，所述方法包括：

步骤S10：确定医患对话完成，获取本次医患对话的医患对话信息。

具体的，进行医患对话信息识别的第一步，便是进行医患对话信息获取，获取完整的医患对话信息，将有助于处理单元20根据前后关联关系进行症状获取。在患者进行问诊时，目前主要有两种办法，第一种为患者通过各种线上的问诊系统进行实时的线上问诊，医生与患者主要通过文本输入框进行意见输入，然后通过交互系统服务器进行交流。在这种方法中，想要获取医患的完整对话信息，需要将文本采集模块101嵌入患者端、医生端或服务端。优选的，文本采集模块101嵌入在医生端，便于医生进行信息监控，本地生成电子病例后进行直接审核和存储，减少电子病历的二次传输步骤，提高系统的工作效率比。现有患者问诊的第二种办法便是，患者到各诊所或医院与医生进行面对面病情问诊。医生与患者进行对话问诊，在这种办法中，需要将患者与医生语音对话信息转换为便于处理的文本信息，现有语音转换算法已经很成熟，进行语音转换文本的效率和准确率都已达到商用水平。优选的，在医生与患者的对话空间，设置对应的语音采集模块102，实时采集医生与患者的对话信息，并将对话信息实时转换为文本信息，供处理单元20进行信息处理。

步骤S20：根据所述医患对话信息获得先行词集合和半截词集合。

具体的，根据上述规则，将诸如疼痛、出血、麻木等孤立地出现的非症状词作为半截词，将能够与半截词组合形成完整的症状的人体部位词作为先行词，将医患对话文本信息进行关键词少选，分别筛选出半截词和先行词。例如，上述(1)-(5)的医患对话信息中，半截词有：按压痛、也痛、痉挛、坠胀和不舒服疼；先行词有：右侧小肚、右边腰骨头、肋骨、右上腹部、脏器和小腹部。本发明的目的就是将各半截词对应的先行词寻找到，然后组成完整的症状信息。例如，右边腰骨头按压痛、肋骨痛和小腹坠胀感。所以，处理单元20通过采集单元10获得医患对话的完整信息后，通过预设关键词特征对比或智能特征提取，将其中的半截词和先行全部筛选出来，然后分别由所有先行词组成为先行词集合，所有半截词组成为半截词集合。先行词集合将作为每一个半截词可能的先行词，进行每一个半截词对应的先行词寻找，直到获得所有半截词的先行词，完成患者症状全部获取。

步骤S30：将所述先行词集合和半截词集合作为输入数据执行预设指代消解算法，并获得各半截词的真实先行词集合。

具体的，指代是自然语言中的一种重要的表达方式，它使得语言表达简洁连贯，然而在篇章中大量使用指代，增加了计算机对篇章理解的难度。指代消解的主要任务是识别篇章中对现实世界同一实体不同的表达的过程。从计算语言学的角度，指代消解可以看成是一个分类或者一个聚类的过程。分类的过程主要是判断实体表达之间是否指向同一个实体，聚类的过程主要是判断一个实体表达能否加入到指向某个实体的集合中。从数学的角度上来说，指代消解等同于判断一对实体表达对之间是否满足自反性、对称性、传递性。现有指代消除的方法主要有基于规则的朴素算法、Mention pair、Mention Ranking和Entity-Mention四种，本方法主要选取其中的Mention ranking算法进行方法构建。在Mention ranking算法中，每个半截词同时和前面所有先行词进行关联分数打分，用softmax归一化，找出概率最大的先行词。

在一种可能的实施方式中，应用Mention ranking算法中的梯度提升决策树(下称GBDT)进行医患对话中半截词指向症状获取GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和支持向量机一起被认为是泛化能力较强的算法。GBDT的决策树为回归树，具体原理为在每个节点都会得一个预测值。以某部位的病症为例，该预测值等于属于这个节点的所有部位的症状权重得分的平均值。进行各症状区分时，便需要获取各部位的特征信息，通过特征信息进行权重得分排序。例如，某半截词为“晕”，则在进行特征判断时，需要获取各先行词的特征数据，即那些部位可能会与该半截词联系成为一个症状。通过知识检索和已知病例信息检索，发现“头晕”为高频出现关联特征词，则理论上先行词“头”的权重得分也就越高。分枝时穷举每一个特征信息的每个阈值找最好的分割点，但衡量最好的标准不是最大熵，而是最小化均方差。被预测出错的先行词越多，错的越离谱，均方差就越大，通过最小化均方差能够找到最靠谱的分枝依据。分枝直到每个叶子节点上半截词的关联先行词都是唯一或者达到预设的终止条件，例如叶子的个数上限。若最终叶子节点上半截词的先行词不唯一，则根据经验判断在系统总设立关联得分阈值，然后将各先行词对应的关联分数与预设关联得分阈值进行对比，过滤小于阈值的先行词，剩余的先行词组合成为该半截词的真实先行词集合。若某两个半截词的真实先行词集合中存在相同的先行词，进行关联分数对比，保留关联分数最高的先行词集合，关联分数低的先行词集合则删除关联分数低的先行词。

在另一种可能的实施方式中，某先行词可能存在多个半截词，例如，某患者先提到腹部不舒服，后续又提到腹部绞痛。则先行词腹部则存在不舒服和绞痛两个半截词。根据经验性判断，绞痛程度明显高于不舒服，在进行病情判断时，需要重点关注绞痛，且在进行电子病例整理时，同一部位存在意义相近的症状时，仅保留程度更强的半截词信息。但是在关联分数对比时，针对腹部而言，可能不舒服的关联得分高于绞痛的关联得分，为避免统计的症状信息有误，优选的，保留所有关联分数大于预设值的先行词信息。然后处理单元20根据预设知识库的症状等级特征信息进行同一先行词不同半截词的症状程度判断，过滤掉其中程度更低的半截词，保留程度更高的半截词，提高电子病例的准确性能。

步骤S40：将每一个半截词与其对应的所述真实先行词集合中的每一个先行词组合组成为一个完整的症状，获得完整症状集合。

具体的，获得各半截词对应的真实先行词集合后，处理单元20进行半截词与先行词组合。例如，某半截词为痛，对应的先行词集合为：指关节和腕部。则对应获得两个症状，分别为指关节痛和腕部痛。以此类推，获得患者所有的症状信息。

步骤S50：根据所述完整症状集合获得对应患者的电子病例信息。

具体的，将患者的完整的症状信息自动生成到对应患者的电子病例信息中，供医生和患者进行查看，也便于患者信息留档储存。优选的，为了避免系统处理的信息与实际情况存在部分偏差，优选的，获得患者的电子病例信息后，将生成的电子病例信息传输到医生端，医生端进行信息准确度审核。若医生发现存在偏差信息，则手动进入修改模式就行部分信息修改。若医生未发现偏差信息或完整信息修改后，医生通过一键上传按钮将电子病例信息进行上传，获得准确的患者的电子病例。有效减少医生工作量，提高问诊过程的智能性各高效性，节约患者和医生的问诊时间。

本发明实施方式还提供一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行上述的医患对话中半截词指向症状获取方法。

本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种医患对话中半截词指向症状获取方法，其特征在于，所述方法包括：

确定医患对话完成，获取本次医患对话的医患对话信息；

根据所述医患对话信息获得先行词集合和半截词集合；

将所述先行词集合和半截词集合作为输入数据执行预设指代消解算法，获得各半截词的真实先行词集合；

将每一个半截词与其对应的真实先行词集合中的每一个先行词分别组合组成为一完整症状，获得完整症状集合；

根据所述完整症状集合获得患者的电子病例信息。

2.根据权利要求1所述的医患对话中半截词指向症状获取方法，其特征在于，所述医患对话信息包括：

医患线上对话的文本信息和/或医患线下对话的语音信息。

3.根据权利要求2所述的医患对话中半截词指向症状获取方法，其特征在于，所述根据所述医患对话信息获得先行词集合和半截词集合，包括：

若所述医患对话信息为医患线上对话的文本信息，获取医患线上对话的完整对话信息；其中，所述完整对话信息包括医生的提问信息和患者的回答信息；

根据模板匹配或槽填充技术提取所述完整对话信息中的所有关键词；

根据预设规则将提取的所有关键词分为先行词或半截词，分别生成先行词集合和半截词集合。

4.根据权利要求2所述的医患对话中半截词指向症状获取方法，其特征在于，所述根据所述医患对话信息获得先行词集合和半截词集合，还包括：

若所述医患对话信息为医患线下对话的语音信息，获取医患线下对话的完整语音信息，根据智能语音转换算法将所述完整语音信息转换为对应的文本信息；

根据模板匹配或槽填充技术提取所述文本信息中的关键词；

根据预设规则将所有关键词分为先行词或半截词，分别生成先行词集合和半截词集合。

5.根据权利要求1所述的医患对话中半截词指向症状获取方法，其特征在于，所述预设指代消解算法为Mention ranking算法。

6.根据权利要求5所述的医患对话中半截词指向症状获取方法，其特征在于，所述将所述先行词集合和半截词集合作为输入数据执行预设指代消解算法，并获得各半截词的真实先行词集合，包括：

获取所述先行词集合中各先行词的特征数据；

将所述各先行词的特征数据作为评分依据，通过执行所述Mention ranking算法分别获得所述先行词集合中各先行词与所述半截词集合中各半截词之间的关联得分；

将所述先行词集合中各先行词与所述半截词集合中各半截词之间的关联得分分别与预设阈值进行对比，获得所述半截词集合中各半截词对应关联得分超过所述预设阈值的先行词；其中，每个半截词对应关联得分超过所述预设阈值的所有先行词组成为该半截词的真实先行词集合。

7.根据权利要求5所述的医患对话中半截词指向症状获取方法，其特征在于，所述先行词集合中各先行词的特征数据，包括：

医患对话信息中包括的特征关键词、知识库中与各先行词存在可能症状的特征信息和已知病例信息库中与各先行词存在可能症状的特征信息。

8.一种医患对话中半截词指向症状获取系统，其特征在于，所述系统包括：

采集单元，用于在确定医患对话完成的情况下，获取本次医患对话的医患对话信息；

处理单元，用于根据所述医患对话信息获得先行词集合和半截词集合；还用于将所述先行词集合和半截词集合作为训练数据执行预设指代消解算法，获得各半截词的真实先行词集合，将每一个半截词与其对应的真实先行词集合中的每一个先行词分别组合组成为一完整症状，获得完整症状集合；

病例生成单元，用于根据所述完整症状集合获得患者的电子病例信息。

9.根据权利要求8所述的医患对话中半截词指向症状获取系统，其特征在于，所述采集单元包括：

文本采集模块，用于采集医患线上对话的文本信息；

语音采集模块，用于采集医患线下对话的语音信息；

所述处理单元还用于根据智能语音转换算法将所述语音信息转换为对应的文本信息。

10.一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行权利要求1至7中任一项权利要求所述的医患对话中半截词指向症状获取方法。