CN116756392A

CN116756392A - 一种医疗信息溯源方法、云平台及存储介质

Info

Publication number: CN116756392A
Application number: CN202311035110.7A
Authority: CN
Inventors: 王惠莹
Original assignee: Beijing Xiaotong Technology Co ltd
Current assignee: Beijing Xiaotong Technology Co ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-15
Anticipated expiration: 2043-08-17
Also published as: CN116756392B

Abstract

本申请公开了一种医疗信息溯源方法、云平台及存储介质。该方法包括首先响应于待溯源用户的服务请求，采集待溯源用户当前信息资料；基于当前信息资料中的检索对象构建本地文本文档库；然后从第一待检索用户特征集中依次提取第一预处理用户特征，生成第一预处理用户特征集；并从第一预处理用户特征集中依次提取得到第二待检索用户特征。本发明方便医生和患者在线问诊和治疗过程中医疗数据的溯源，更加方便地查询历史健康档案及线上问诊的相关记录、检查报告等。

Description

一种医疗信息溯源方法、云平台及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种医疗信息溯源方法、云平台及存储介质。

背景技术

随着互联网的快速发展，越来越多的人使用互联网医院问诊，在互联网上问诊求医也越来越便捷。填写症状和既往病史、用药史，再输入姓名及身份证号等信息，不到一分钟时间，一张以往需要在医院门诊耗时许久才能开具的处方就可以迅速生成。互联网医院建设的“诊前-诊中-诊后”环节里大部分诊疗节点和服务，如预约体检、智能导诊、在线复诊、康复管理、随访干预、健康跟踪和医疗溯源等。

然而在现有技术在互联网平台医院的医疗信息经常被简化或“遗失”，问诊中医疗溯源需要一个很庞大的数据关联、分析，现有技术缺乏数据管理和数据管理从而导致无法对问诊数据溯源。

发明内容

基于此，本申请实施例提供了一种医疗信息溯源方法、云平台及存储介质，本发明方便医生和患者在线问诊和治疗过程中医疗数据的溯源，更加方便地查询历史健康档案及线上问诊的相关记录、检查报告等。

第一方面，提供了一种医疗信息溯源方法，该方法包括：

响应于待溯源用户的服务请求，采集所述待溯源用户当前信息资料；其中，当前信息资料至少包括医生和患者在线问诊和治疗过程中所产生的问诊聊天记录、电子处方、检查申请单项目、检查报告；

基于当前信息资料中的检索对象构建本地文本文档库；其中，检索对象为医生或者患者，本地文本文档库中包括第一待检索用户特征与第一待检索用户特征集，第一待检索用户特征集包括了各个待检索对象进行特征分析得到的第一待检索用户特征；

从所述第一待检索用户特征集中依次提取第一预处理用户特征，生成第一预处理用户特征集；其中，所述第一预处理用户特征集中包括多个第一预处理用户特征，所述第一预处理用户特征用于表征进行数据预处理后的第一待检索用户特征；

并从所述第一预处理用户特征集中依次提取得到第二待检索用户特征；其中，所述第二待检索用户特征为待溯源用户的服务请求所指向的检索对象所对应的医疗信息溯源结果。

可选地，从所述第一预处理用户特征集中依次提取得到第二待检索用户特征，所述方法包括：

将第一预处理用户特征集中所包含的词进行分析，得到若干个关键词，从而生成第二待检索用户特征集；

利用分词方法对第二待检索用户特征集中的词进行依次处理，提取第二预处理用户特征集；其中，所述第二预处理用户特征集用于表示待检索用户进行信息溯源时结果数据的参照依据。

可选地，利用分词方法对第二待检索用户特征集中的词进行依次处理，提取第二预处理用户特征集，所述分词方法包括：

将第二待检索用户特征集中分析的字符串与机器字典集中的词条进行匹配，若在词典集中找到某个字符串，则匹配成功，生成第二预处理特征与第二预处理用户特征集；其中，按照扫描方向的不同，机械分词方法为正向匹配和逆向匹配；按照不同长度优先匹配的情况，分为最长匹配和最短匹配。

可选地，通过预设模型进行机械分词，从第二预处理用户特征集中提取第三待检索用户特征与第三待检索用户特征集，

其中，所述预设模型表示为ASM (d，a，m)，其中d，a和m的含义取值如下所示：

d：匹配方向，+1表示正方向，-1表示逆方向；

a：每次匹配失败后增加或减少字符串长度，+1位增字，-1位减字；

m：最大匹配或最小匹配标志，+1为最大匹配，-1为最小匹配。

可选地，所述方法还包括：

判断第三待检索用户特征集中包含的词在文档库的文本中出现频率是否超过80%；

如果第三待检索用户特征集中包含的词在文档库的文本中出现频率超过80%，则被判定为停用词；

若未超过80%则从中提取第三预处理用户特征与第三预处理用户特征集。

可选地，所述方法还包括：

在利用第三预处理用户特征集在构建索引时，用词干来代替词干的所有变形，生成第四待检索用户特征与第四待检索用户特征集。

可选地，所述方法还包括：

在第四待检索用户特征集中选择目标词索引，生成第四预处理用户特征与第四预处理用户特征集；其中，目标词为名词。

第二方面，提供了一种医疗信息溯源云平台，所述云平台包括：

采集模块，响应于待溯源用户的服务请求，采集所述待溯源用户当前信息资料；其中，当前信息资料至少包括医生和患者在线问诊和治疗过程中所产生的问诊聊天记录、电子处方、检查申请单项目、检查报告；

检索模块，基于当前信息资料中的检索对象构建本地文本文档库；其中，检索对象为医生或者患者，本地文本文档库中包括第一待检索用户特征与第一待检索用户特征集，第一待检索用户特征集包括了各个待检索对象进行特征分析得到的第一待检索用户特征；

提取模块，用于从所述第一待检索用户特征集中依次提取第一预处理用户特征，生成第一预处理用户特征集；其中，所述第一预处理用户特征集中包括多个第一预处理用户特征，所述第一预处理用户特征用于表征进行数据预处理后的第一待检索用户特征；

溯源模块，用于并从所述第一预处理用户特征集中依次提取得到第二待检索用户特征；其中，所述第二待检索用户特征为待溯源用户的服务请求所指向的检索对象所对应的医疗信息溯源结果。

可选地，云平台还包括：

停用词删除模块，在选择第三待检索用户特征集构建索引的词时，如果第三待检索用户特征集中包含的词判定为停用词时进行删除；

词干提取模块，用于在利用第三预处理用户特征集在构建索引时，用词干来代替词干的所有变形，生成第四待检索用户特征与第四待检索用户特征集；

索引词选择模块，用于在第三预处理用户特征集在构建索引时选择目标词汇建立索引；

问诊信息溯源模块，用于将第四预处理用户特征集中得到的问诊信息溯源记录云同步，支持多端同步录入溯源记录。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的医疗信息溯源方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

（1）互联网平台医院的服务中是被简化或“遗失”的部分，做了完全的对应关系记录，保证了医疗数据能够被安全地存储、追踪和查询，可以通过该系统来找到相关事件的时间点、涉及方以及具体内容，保护患者和医生的合法权益。

（2）针对在线诊断的情况，详细的记录了医生和患者的问诊和治疗过程、给出必要的处方或者建议，并通过日志系统保留在线医疗服务的历史数据，有助于保障数据的可追溯性和安全性，从而为在线诊断提供更加规范化、全面化的支持。

（3）利用智能化的数据检索技术，可以让医生、患者更加方便地查询历史健康档案及线上问诊的相关记录、检查报告等。这样，在接下来的医疗服务中，医生在开具治疗方案或给出咨询建议时，可以考虑到患者已经有过的就医情况，避免出现重复、冲突、安全风险等问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的一种医疗信息溯源方法的流程图；

图2为本申请实施例基于字符串匹配的正向最大匹配算法流程图；

图3为本申请实施例利用词干提取来补充待检索用户特征流程图；

图4为本申请实施例索引词选择提取来补充待检索用户特征流程图；

图5为本申请实施例提供的一种医疗信息溯源云平台的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，除非另有说明“多个”的含义是两个或两个以上。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等旨在区别指代的对象。对于具有时序流程的方案，这种术语表述方式不必理解为描述特定的顺序或先后次序，对于系统结构的方案，这种术语表述方式也不存在对重要程度、位置关系的区分等。

此外，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种医疗信息溯源方法进行详细介绍。

请参考图1，其示出了本申请实施例提供的一种医疗信息溯源方法的流程图，该方法可以包括以下步骤：

S1，响应于待溯源用户的服务请求，采集待溯源用户当前信息资料。

其中，当前信息资料至少包括医生和患者在线问诊和治疗过程中所产生的问诊聊天记录、电子处方、检查申请单项目、检查报告。

S2，基于当前信息资料中的检索对象构建本地文本文档库。

其中，检索对象可以为医生或者患者，本地文本文档库中包括第一待检索用户特征与第一待检索用户特征集，第一待检索用户特征集包括了各个待检索对象进行特征分析得到的第一待检索用户特征。

在本申请实施例中，将待服务用户当前信息资料中所有的检索对象收集起来，构建集中的本地文本文档库，提取尽可能多的数据信息保存到本地文本文档库中，生成第一待检索用户特征与第一待检索特征集；其中，第一用户待检索对象特征集中包括了各个待检索用户进行特征分析得到的第一待检索用户对象特征。

文本提取过程主要是提取各种格式文档中的字符串。例如：XML、PDF、Word等等。

以XML格式信息为例，XML文档一般都是纯文本文档，其文本内容可以直接读取，读取时需要一些工具对其中的信息进行解析，可选择的工具有SAX API(ApplicationProgramming Interface)等。当某个分析事件发生时，会调用几个方法中的一个予以响应，而这些方法由调用程序提供。触发事件包括文档或文档元素的开始、结束或解析出错等。

S3，从第一待检索用户特征集中依次提取第一预处理用户特征，生成第一预处理用户特征集；并从第一预处理用户特征集中依次提取得到第二待检索用户特征。

其中，第一预处理用户特征集中包括多个第一预处理用户特征，第一预处理用户特征用于表征进行数据预处理后的第一待检索用户特征；第二待检索用户特征为待溯源用户的服务请求所指向的检索对象所对应的医疗信息溯源结果。

具体地，将第一预处理用户特征集中所包含的词进行分析，得到若干个关键词，从而生成第二待检索用户特征集；

利用分词方法对第二待检索用户特征集中的词进行依次处理，提取第二预处理用户特征集；其中，第二预处理用户特征集用于表示待检索用户进行信息溯源时结果数据的参照依据。

在本申请实施例中，生成第一预处理用户特征之后，还需要对第一待检索用户特征进行预处理以选择合适的词来建立索引。首先将第一预处理用户特征集中包含的词分析出来，分解成若干个关键词，生成第二待检索用户特征集。词是最小能独立活动的、有意义的语言成分。关键词查询的前提就是将条件分解成若干关键词。

例如：英文句子I don't sleep well，用中文则为：“我睡眠不好”。计算机可以很简单通过空格来分隔出sleep是一个单词，但是不能很容易明白“睡”、“眠”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是切词也成为分词。我睡眠不好，分词的结果是：我睡眠不好。

在本申请实施例中，分词方法包括：

将第二待检索特征集中分析的字符串与一个“充分大的”机器字典集中的词条进行匹配，若在词典集中找到某个字符串，则匹配成功（识别一个词），生成第二预处理特征与第二预处理用户特征集。其中，按照扫描方向的不同，机械分词方法可以为正向匹配和逆向匹配，例如，扫描方向为正方向时，机械分词方法为正向匹配，则扫描方向为逆方向时，机械分词方法为逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配。

通过预设模型进行机械分词，从第二预处理用户特征集中提取第三待检索用户特征与第三待检索用户特征集。

其中，预设模型表示为ASM (d，a，m)，其中d，a和m的含义取值如下所示：

d：匹配方向，+1表示正方向，-1表示逆方向；

a：每次匹配失败后增加或减少字符串长度（字符数），+1位增字，-1位减字。

在实际应用中，基于字符串匹配的正向最大匹配算法[ASM(+1,-1,+1，…)]就是一种广泛应用的机械分词方法，利用该方法依据仅一个分词词表和一个基本的切分评估原则（即“长词优先”原则）来进行分词处理，从第二预处理用户特征集中提取第三待检索用户特征与第三待检索用户特征集，如图2给出了本实施例中基于字符串匹配的正向最大匹配算法流程图。

方法还包括：S4，判断第三待检索用户特征集中包含的词在文档库的文本中出现频率是否超过80%；如果第三待检索用户特征集中包含的词在文档库的文本中出现频率超过80%，则被判定为停用词。

可选的在S4之后，方法还包括：

利用第三预处理用户特征集在构建索引时，用词干来代替词干的所有变形，生成第四待检索用户特征与第四待检索用户特征集。

词干是指将词的词缀删除后剩下的部分。例如单词制造“make”是它的变形“makes”、“maker”、“making”、“made”的词干。如图3给出了本申请实施例中利用词干提取来补充待检索用户特征流程。

例如：在英文检索中，如果用户输入的词是信息库中某个相关文本词的一种变形，如make如果输入makes则其他形式就视为于无关文本，这样将大大影响召回率。为了解决这个问题，在构建索引时，用词干来代替词干的所有变形，这样不仅可以提高召回率，改善信息检索的性能，而且构建索引的词汇量将大大减少，索引空间也进一步缩小。

如果对第四待检索用户特征集采用全文索引，那么第四待检索用户特征集中的所有词都要建立索引，而对有些语义表达能力不强的词建立索引将浪费系统的索引空间，而且影响系统的检索性能，导致无法对问诊数据溯源。因此并不一定对第四待检索用户特征集中出现的所有词都要建立索引，而是选择一些比较重要的词来建立索引，生成第四预处理用户特征与第四预处理用户特征集。

自然语言中的句子一般是由名词、代词、冠词、动词、形容词、副词、介词和连词构成。在这些词中主要由名词表达句子的语义，因此选择句子中的名词作为索引词是一个可行的方法。这可以通过删除第四待检索用户特征集中的动词、形容词、副词、连词、冠词、介词和代词来实现。如图4，给出了本申请实施例中索引词选择提取来补充待检索用户特征流程图。

请参考图5，其示出了本申请实施例提供的一种医疗信息溯源云平台流程框图，包括：

采集模块1，响应于互联网问诊的医疗信息溯源的服务请求，采集所有待服务用户的所有信息资料；其中，信息资料至少包括待监测用户的个人基本信息、问诊聊天记录、电子处方、检查申请单项目、检查报告等。

检索模块2，基于当前信息资料中的检索对象构建本地文本文档库；其中，检索对象可以为医生或者患者，本地文本文档库中包括第一待检索用户特征与第一待检索用户特征集，第一待检索用户特征集包括了各个待检索对象进行特征分析得到的第一待检索用户特征；

具体基于本地文本文档库进行文本提取，文本提取过程中主要是提取各种格式的文档中的字符串,基于字符串匹配的正向最大匹配算法构建流程图。可选地，在检索模块2之后还可以包括：提取模块，用于从第一待检索用户特征集中依次提取第一预处理用户特征，生成第一预处理用户特征集。溯源模块，用于并从第一预处理用户特征集中依次提取得到第二待检索用户特征。

停用词删除模块3，在选择第三待检索用户特征集构建索引的词时，停用词需要被过滤，以提高索引效率。一般的，冠词、介词、连词都是停用词，云平台会设置一个停用词表。删除停用词可以大大缩小引用空间的大小。

词干提取模块4，词干提取模块是为了解决第四待检索用户特征集中英文检索中存在的问题而采取的操作。

索引词选择模块5，云平台利用第三预处理用户特征集中采用全文索引，那么文库中所有的词都要建立索引，而对有些语义表达能力不强的词建立索引将浪费系统的索引空间，而影响系统的检索性能。因此并不一定对文档中出现的所有词都要建立索引，而是选择一些比较重要的词来建立索引。

问诊信息溯源模块6，用于将第四预处理用户特征集中得到的问诊信息溯源记录云同步，支持多端同步录入溯源记录。多维度内容展示，支持图文/视频及直播方式展示溯源内容。

关于医疗信息溯源云平台的具体限定可以参见上文中对于医疗信息溯源方法的限定，在此不再赘述。上述医疗信息溯源云平台中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述医疗信息溯源方法的步骤。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以M种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（SyMchliMk） DRAM（SLDRAM）、存储器总线（RaMbus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医疗信息溯源方法，其特征在于，所述方法包括：

2.根据权利要求1所述的医疗信息溯源方法，其特征在于，从所述第一预处理用户特征集中依次提取得到第二待检索用户特征，所述方法包括：

3.根据权利要求2所述的医疗信息溯源方法，其特征在于，利用分词方法对第二待检索用户特征集中的词进行依次处理，提取第二预处理用户特征集，所述分词方法包括：

4.根据权利要求3所述的医疗信息溯源方法，其特征在于，通过预设模型进行机械分词，从第二预处理用户特征集中提取第三待检索用户特征与第三待检索用户特征集，

d：匹配方向，+1表示正方向，-1表示逆方向；

5.根据权利要求4所述的医疗信息溯源方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的医疗信息溯源方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的医疗信息溯源方法，其特征在于，所述方法还包括：

8.一种医疗信息溯源云平台，其特征在于，所述云平台包括：

9.根据权利要求8所述的医疗信息溯源云平台，其特征在于，云平台还包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的医疗信息溯源方法。