CN116662553A

CN116662553A - 基于问诊意向的智能助诊系统

Info

Publication number: CN116662553A
Application number: CN202310896086.XA
Authority: CN
Inventors: 张莹宗; 黄镇; 李亚彭; 张彦周
Original assignee: Shenzhen Yikang Medical Technology Co ltd; First Affiliated Hospital of Zhengzhou University
Current assignee: Shenzhen Yikang Medical Technology Co ltd; First Affiliated Hospital of Zhengzhou University
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-29

Abstract

本发明涉及数据处理技术领域，具体涉及基于问诊意向的智能助诊系统，包括：采集患者的病症记录以及获取系统中的症状描述记录；得到每个句子的组成结构；基于每个句子的组成结构计算每个句子中每个主语的描述量；根据每个句子中每个主语的描述量得到每个句子中病症优先关注度；根据每个句子中病症优先关注度得到聚类权重值；根据聚类权重值进行聚类得到与当前病人相似的病例，得到当前病人的意向诊断结果。本发明通过对系统中的症状描述记录中的每个句子进行分词后，通过分析其中对于病症的修饰词的组成部分进行分析，进而调整每个句子参与聚类时的权重从而对症状描述记录进行优化聚类，优化了问诊意向的辅助诊断。

Description

基于问诊意向的智能助诊系统

技术领域

本发明涉及数据处理技术领域，具体涉及基于问诊意向的智能助诊系统。

背景技术

随着问诊排队时间较长，患者普遍都出现焦躁不耐烦的情绪。因此现在有提出通过语音问诊系统，通过有声问诊得出患者的意向诊断后，从而筛选出若干检查和若干治疗，并可提示检查及治疗的相关事项建议。而常规实现是通过对有声问诊中提供的病史等相关信息通过例如文本分析等方式提取其中的病状相关信息，并根据该信息与医院的档案管理系统中储存的历史病例数据进行聚类，从而找到相似度最高的病例数据，并将该病例数据对应的诊断结果输出给当前用户用以进行初步的筛查以及治疗。但是现有的对于上述病例之间判断相似性或用于病例之间进行聚类时的数据特征，仅仅是根据病症描述中的文本内容进行词汇的余弦相似度的计算，并通过余弦相似度的累加作为病例之间的距离度量特征判断语句相似度，但是并没有考虑其中存在的修饰词对于提到的病症的程度的修饰，其并没有考虑到其中每一个病人其实际的多个病症之间存在的优先考虑的情况，因此会导致聚类结果对该场景下往往并不准确。

发明内容

本发明提供基于问诊意向的智能助诊系统，以解决现有的问题。

本发明的基于问诊意向的智能助诊系统采用如下技术方案：

本发明一个实施例提供了基于问诊意向的智能助诊系统，该系统包括：

记录采集模块，用于采集患者的待分类病症记录以及历史病症记录；

数据处理模块，用于获取待分类病症记录中每个句子的组成结构，根据组成结构获得每个句子中每个主语的描述量以及每个句子的病症特征值，获得每个句子中病症优先关注度，根据病症优先关注度得到待分类病症记录的聚类权重值；

聚类诊断模块，根据待分类病症记录的聚类权重值得到患者所属的历史病症记录，将所属的历史病症记录作为患者的参考。

优选的，所述获取待分类病症记录中每个句子的组成结构，根据组成结构获得每个句子中每个主语的描述量以及每个句子的病症特征值，获得每个句子中病症优先关注度，根据病症优先关注度得到待分类病症记录的聚类权重值，包括的具体步骤如下：

首先，获取待分类病症记录中的每个句子的组成结构，每个句子的组成结构中具有若干主语和若干整体形容词，每个主语具有若干名词性形容词，每个名词性形容词具有若干形容词性形容词；

其次，基于每个句子的组成结构，根据组成结构中修饰词的词性数量以及同一名词性形容词下的不同形容词性形容词之间的相似度得到每个句子中每个主语的描述量；

然后，根据组成结构中同一个句子中不同整体形容词之间的相似性得到每个句子的病症特征值，根据每个句子中每个主语的描述量和每个句子的病症特征值得到每个句子的病症优先关注度；

最后，根据每个句子的病症优先关注度得到待分类病症记录的聚类权重值。

优选的，所述根据组成结构中修饰词的词性数量以及同一名词性形容词下的不同形容词性形容词之间的相似度得到每个句子中每个主语的描述量，包括的具体步骤如下：

首先，计算每个句子中的主体成分起到修饰作用的每个名词性形容词的描述度大小，计算公式如下：

其中，表示第/>个句子中第/>个主语中第/>个名词性形容词的描述度大小，/>表示第/>个句子中第/>个主语中第/>个名词性形容词具有的所有形容词性形容词中的词性数量，/>表示第/>个句子中第/>个主语中第/>个名词性形容词的第/>个形容词性形容词，表示第/>个句子中第/>个主语中第/>个名词性形容词中除了第/>个形容词性形容词之外剩余的/>个形容词性形容词中的第/>个形容词性形容词，/>表示第个句子中第/>个主语中第/>个名词性形容词中第/>个形容词性形容词与第/>个其余形容词性形容词之间的词性的余弦相似度差异；

最后，累加第个句子中第/>个主语的所有/>个名词性形容词的描述度大小，得到第/>个句子中第/>个主语的描述量，记为每个句子中每个主语的描述量。

优选的，所述根据每个句子中每个主语的描述量和每个句子的病症特征值得到每个句子的病症优先关注度，包括的具体步骤如下：

首先，计算第个句子的病症特征值，具体公式如下：

其中，表示第/>个句子的病症特征值，/>表示句子中的整体形容词的数量，/>表示第/>个句子中第/>个整体形容词，/>表示第/>个句子中除第/>个整体形容词之外的/>个整体形容词中的第/>个整体形容词，/>表示第/>个句子中第/>个整体形容词和第/>个整体形容词的余弦相似度，/>表示对括号里的值进行数值归一化；

其次，对于第个句子中的所有主语的描述量进行累加得到第/>个句子的描述程度；

最后将第个句子的描述程度和第/>个句子的病症特征值相乘得到第/>个句子的病症优先关注度，记为每个句子中病症优先关注度。

优选的，所述根据每个句子的病症优先关注度得到待分类病症记录的聚类权重值，包括的具体步骤如下：

在历史症状描述记录中，根据得到的每个句子的病症优先关注度，与所有句子的病症优先关注度进行数值归一化，将所有句子的归一化的值记为待分类病症记录的聚类权重值。

本发明的技术方案的有益效果是：针对仅通过余弦相似度对问诊意向进行划分时聚类结果不准确的问题，本发明通过对每一句中存在的修饰词与对应的主语的组成进行分析，从而得到该主语对于病症的描述量，再结合句子中的整体修饰词得到每一个句子中对于病症的实际描述的优先关注度，并根据该优先关注度调整每一个句子在参与聚类时的权重值，从而使得聚类结果更加准确，从而使得患者的问诊意向更为精准。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于问诊意向的智能助诊系统的系统结构图；

图2为待分类病症中句子的结构示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于问诊意向的智能助诊系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于问诊意向的智能助诊系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于问诊意向的智能助诊系统的系统结构图，该方法包括以下步骤：

记录采集模块，用于采集患者的待分类病症记录以及历史病症记录。

具体的，医生通过语音交互方式对患者进行医疗问诊，并根据语音交互中得到患者提供的包括症状、持续时长以及伴随症状等在内的病史信息，在此过程中医生需要通过不断询问和记录细节以了解和初步诊断患者病状；同时，医生最终需要提供记录后的对于患者病症的描述，例如轻微肠胃炎，或胃部持续的阵阵抽动等对于症状的初步判定或对于患者症状的详细记录，在问诊过程中医生所做的记录称为患者的病症记录，将患者的病症记录存储在医院数据管理系统的数据库中。

进一步，经过长期问诊后，医院数据管理系统的数据库中会存储大量的病症记录，将已经存储到数据库中的病症记录记为历史病症记录，将刚完成问诊的患者的病症记录记为待分类病症记录。其中每个历史病症记录都对应的诊断结果，该诊断结果是由专业医生进行诊断获得的。

本实施例需要将与待分类病症记录与历史病症记录进行聚类得到具体的历史病症，并将该具体的历史病症对应的诊断结果推荐给刚完成问诊的患者进行参考，完成助珍，提高就诊效率。

为方便进行说明，本实施例将数据处理模块进行细分，划分为结构分析模块、描述量分析模块、关注度匹配模块和权重拟合模块四个子模块，下文中将以4个子模块为例进行说明。

结构分析模块，用于对待分类病症记录进行处理得到每个句子的组成结构。

需要说明的是，医生提供的初步输入中通常对于患者病状的记录格式为：“腹部持续阵痛，按压时会疼痛，持续时长半个月”等类似格式，其中主要构成成分为患者出现病症的部位，患者自身感受，以及对应的持续时长。而通常根据患者提供的病症对应的部位，往往能够确定病症所在部位，例如上述例子中，病症几乎确定为腹部位置。

具体的，在待分类病症记录中，通过识别到的病症描述中的所有词汇以及对应标注的词性。通过分词识别后的名词成分例如身体部位，或持续时长等作为主体。并通过/>分词对句子中的修饰词会进行标注，以表示它们所修饰的名词或主语部分。并以句号作为分割得到每个句子的组成结构。其中/>分词为现有技术手段，用于将句子成分分割并标注，其具体实现过程本实施例不在此进行赘述。

为方便解释说明，本实施例给出待分类病症中句子的结构示意图如图2所示，其中，第个句子包含/>个主语和/>个整体性形容词，每个主语中有/>个直接修饰限定主语的名词性形容词，每个名词性形容词又有/>个修饰限定名词性形容词的形容词性形容词，且由于医生问诊得到的患者的病症记录必须是包含完整图2结构的语句，故对应的有字母范围满足/>，其中/>分别是每种词性中任意一个词的排列数，例如在患者的病症记录所有/>句话中的第/>句话、在所有/>个主语中的第/>个主语等。

至此，得到了每个句子的组成结构。

描述量分析模块，用于基于每个句子的组成结构计算每个句子中每个主语的描述量。

需要说明的是，每个病症描述中通常会存在较多的句子，其中除了对于患者病症的描述还包括医生的初步诊断，同时同一个病人的病症描述中可能包含并不止一个病症的描述，而每一个病症描述也可能对应不同的句子，而每个句子的具体组成结构也不相同，因此需要对其中存在的每一个句子中的存在的主语成分进行统计，并根据每一个句子中的内容对句子的病症表现度以及严重度进行分析。由于病症描述是经过医生语音问诊后整理记录的对于病人病症的总结，因此其中并不会出现重复的没有价值的话，都是较为简练的对于病症的描述，因此往往一个句子中的词汇组成成分以及数量一定程度上表示了该病症的复杂度或严重度，同时一个句子中可能出现不止一个病症或主语的描述，例如哪里疼痛的时候，往往伴随多处的身体不适，多个病症之间也存在不同的优先关注度，当一个病症的修饰词越多且修饰词组成成分越复杂时，其实际所表现出来的对于病症的描述内容是存在差异的，例如持续的阵痛和持续的强烈阵痛，其实际表达的含义以及对病症的描述是存在差异的，因此每一个名词性修饰词和对其起修饰作用的形容词性修饰词的组成成分以及数量一定程度上表征了这些形容词所属主语的的描述度。如果多个修饰词之间若词性相同且词义还相近，那么该词义以及词义相近的词汇其实际表达出来的含义都是近似的，而多个词义并不相同的词汇进行累加时，本实施例更有把握认为该病症存在多方面的病症表现，表示实际的病症可能更加复杂严重，基于这一特征，得到对于第个主语中第/>个名词性形容词的描述度大小。

需要注意的是，并不是所有词性对病症都起到修饰作用，例如其中的“的”等介词词性并不起到修饰作用，这里根据经验值设定主要对病症起到修饰作用的部分词性如：

形容词：用以描述病情轻重缓急，例如“严重的”“轻微的”“急性的”等；

副词：用以进一步描述病情某些特征，例如“突然地”“频繁地”“明显地”等；

数次词：用以描述病情数量或程度，例如“高烧40℃”“临床表现五项”等。

于是，对于病症描述中的每个句子，优先对其中符合上述限制的三种词性进行筛选，使其优先参与计算。

具体的，在待分类病症记录中，根据分词得到的每个句子的组成结构中的每一部分，得到每个句子中的主体成分起到修饰作用的每个名词性形容词的描述度大小，具体的计算公式如下：

其中，表示第/>个句子中第/>个主语中第/>个名词性形容词的描述度大小，表示第/>个句子中第/>个主语中第/>个名词性形容词具有的形容词性形容词的词性数量，/>表示第/>个句子中第/>个主语中第/>个名词性形容词的第/>个形容词性形容词，表示第/>个句子中第/>个主语中第/>个名词性形容词中除了第/>个形容词性形容词之外剩余的/>个形容词性形容词中的第/>个形容词性形容词，/>表示第个句子中第/>个主语中第/>个名词性形容词中第/>个形容词性形容词与第/>个其余形容词性形容词之间的词性的余弦相似度，本实施例利用/>方法获得词性的向量并计算得到余弦相似度，其中/>是公知技术，本实施例不在此赘述。当的累加值越低，对应认为该修饰词的词义越独立，对于病症的描述越可能是单独的一个方面的补充描述，因此该词性在上述参与描述度中的计算时其贡献越多。同时，当修饰词的数量相同时，其修饰词的词性组成越多，其表达的含义越复杂，因此第个修饰词的实际所表达的描述度越大。因此通过上述两个特征值的结合，得到第/>个主语中第/>个修饰词的描述度大小，当这一数值越大，表明该修饰词对于其所附属的主语所给予的病症的描述内容越多，该病症的严重程度，复杂程度等方面都相对越高，/>是一个函数关系，具体作用为使得将/>的影响因子的取值范围调整为/>区间内，且当越大时/>越大。

进一步，在待分类病症记录中，得到第个句子中第/>个主语的描述量，具体计算公式如下：

其中，表示第/>个句子中第/>个主语的描述量，/>表示第/>个句子中第/>个主语中第/>个名词性形容词的描述度大小。描述量的累积量越大，对应的表征医生对于该患者这一病症的记录中所用到的修饰词以及信息量都较大，对应的该主语对应的病症越复杂越严重。

至此，得到了每个句子中每个主语的描述量。

关注度匹配模块，用于根据每个句子中每个主语的描述量得到每个句子中病症优先关注度。

需要说明的是，句子中通常存在的主语不止一个，且由于在计算每一个句子中每一个主语的描述量时，已经将其所拥有的修饰词数量也作为了特征值大小的一部分，而句子中不止有主语以及主语的修饰词，还存在对整个句子进行修饰的整体形容词。而整体形容词往往与主语的修饰词的作用存在差异，整体形容词主要作为对整句进行限制或内容的补充，而这部分内容往往会导致该句子所描述的病症更加局限，即不是那种较为常见的对病症的描述。

具体的，在待分类病症记录中，对于每一句子中的所有主语的描述量进行累加，并结合每一句中的整体形容词的情况从而得到该病症描述中，不同句子对于病症描述的程度多少即每个句子所表达的病症的优先关注度，具体的计算公式如下：

其中，表示第/>个句子的病症优先关注度，/>表示根据整体形容词得到的第/>个句子的病症特征值，/>表示第/>个句子中第/>个主语的描述量。/>是一个函数关系，具体作用为使得将/>的影响因子的取值范围调整为/>区间内，且当/>越大时/>越大。

进一步，在待分类病症记录中，每个句子的病症特征值的计算公式如下：

其中，表示第/>个句子的病症特征值，/>表示第/>个句子中第/>个整体形容词，表示第/>个句子中除第/>个整体形容词之外的/>个整体形容词中的第/>个整体形容词，/>表示第/>个句子中第/>个整体形容词和第/>个整体形容词的余弦相似度，/>表示对括号里的值进行数值归一化，本实施例所提供的归一化方法是：将所得余弦相似度加1后再除以2。由于余弦相似度的取值范围为/>，而理想每一个整体形容词的大小差异是在/>之间的，因此利用数值归一化将余弦相似度的取值范围线性缩放至。通过计算每一个整体形容词与其余整体形容词之间的余弦相似度，当其相似度越小时，则表明该整体形容词所表达的含义较为独立，而相似度较高时，则很有可能与其余整体形容词表达的含义相似，进而在程度上累加。因此最终将每一个整体形容词与其余整体形容词的差异进行累加后，得到最终用于加入线性函数的病症特征值。最终当/>越大，则给予的该语句的病症的描述越多，即当/>越大时/>越大。最终当第/>个句子中的主语的描述量越多时，对应的累加后，这一整句中对于病症的描述越多，对应的该病症在这一病人的整个病症描述中可能更为严重，即在后续匹配相似病例进行聚类时，该句子的贡献度是相对更高的。

至此，得到了每个句子中病症优先关注度。

权重拟合模块，用于根据每个句子中病症优先关注度得到待分类病症记录的聚类权重大小。

需要说明的是，对得到的每一个病例中的病症描述部分进行语句组成结构划分后，根据病症描述中所有句子的主语以及对应所拥有的修饰词信息评估了每一个主语其对于病症的描述度，并结合整体形容词后，得到了该病人病症描述中某一个句子对于病症描述的程度，进而可以得到的每一个句子在参与后续聚类时的权重大小。

具体的，在待分类病症记录中，根据得到的第个句子的病症优先关注度，与所有句子的病症优先关注度进行数值线性归一化后，使其取值范围为/>，将每一个句子的归一化的值记为对应句子的聚类权重值。聚类权重值越大，则表明该句子与其余句子相比，其所描述的症状的内容越多，同时整个句子的整体形容词相对较多，即限制或程度的描述都相对较多，最终该句子所描述的症状与其余句子相比具有较多的信息，即我们在后续进行聚类时，该句子与其余病例的相似度的值应该提供更高的占比。

至此，得到了待分类病症记录的聚类权重值。

聚类诊断模块，用于根据待分类病症记录的聚类权重值进行聚类得到与当前病人相似的历史病例，并提供给医生作为参考建议后，得到当前病人的意向诊断结果作为当前病人的参考。

需要说明的是，本实施例事先通过疾病本体论将其中每一个句子中的成分进行标准化后得到每一个句子的特征值，以及通过对两两病例之间的每个句子中根据标准化后的特征值之间的差值，将差值作为聚类的聚类距离进行聚类后，得到了医院系统中原有的历史病症记录分类，将每一个病例中该句子得到的评估结果作为权重值加入后，得到调整后的/>聚类结果。需要说明的是，标准化和/>聚类为现有技术手段，本实施例不对其做具体限定。同时对于当前完成语音问诊后的医生所记录的病症描述输入上述的聚类模型后，通过上述同样的操作，得到其中每一句话的病症优先关注度后，参与聚类得到每一句话最终所属的簇类，并将病症描述中每一句话最终所属的簇类作为该病人的相似病例，并结合相似病例的历史诊疗手段或建议对当前医生进行辅助以及借鉴，并得到对于当前病人的意向诊断后，通过平台发送或其余方式提供给该病人，对该病人对于自己当前的病症有一个初步的了解以及治疗方式的筛查。

具体的，根据疾病本体论将待分类病症记录中每一个句子中的成分进行标准化后求算术平均得到待分类病症记录的特征值均值，同时得到每个历史病症记录中的所有句子标准化后求算术平均得到的每个历史特征值均值，将待分类病症和每个历史病症记录进行聚类，其中聚类距离为待分类病症记录的特征值均值与每个历史特征值均值的差值的绝对值，以最短的聚类距离对应的历史病症记录作为待分类病症记录的聚类结果，对待分类病症记录进行分类并获得其所属历史病症记录。其中疾病本体论为现有技术手段，给出了病症标准化的方法，本实施例不在此赘述。

进一步，利用患者的待分类病症记录所属历史病症记录进行标注，将标注结果提供给医生作为参考建议后，利用其所属历史病症记录对应的诊断结果给出患者意向诊断结果，辅助指引患者进行进一步治疗。

至此，根据待分类病症记录的聚类权重值进行聚类得到与当前病人相似的病例，并提供给医生作为参考建议后，得到了当前病人的意向诊断结果作为当前病人的参考。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于问诊意向的智能助诊系统，其特征在于，该系统包括：

2.根据权利要求1所述基于问诊意向的智能助诊系统，其特征在于，所述获取待分类病症记录中每个句子的组成结构，根据组成结构获得每个句子中每个主语的描述量以及每个句子的病症特征值，获得每个句子中病症优先关注度，根据病症优先关注度得到待分类病症记录的聚类权重值，包括的具体步骤如下：

3.根据权利要求2所述基于问诊意向的智能助诊系统，其特征在于，所述根据组成结构中修饰词的词性数量以及同一名词性形容词下的不同形容词性形容词之间的相似度得到每个句子中每个主语的描述量，包括的具体步骤如下：

其中，表示第/>个句子中第/>个主语中第/>个名词性形容词的描述度大小，/>表示第个句子中第/>个主语中第/>个名词性形容词具有的所有形容词性形容词中的词性数量，表示第/>个句子中第/>个主语中第/>个名词性形容词的第/>个形容词性形容词，表示第/>个句子中第/>个主语中第/>个名词性形容词中除了第/>个形容词性形容词之外剩余的/>个形容词性形容词中的第/>个形容词性形容词，/>表示第个句子中第/>个主语中第/>个名词性形容词中第/>个形容词性形容词与第/>个其余形容词性形容词之间的词性的余弦相似度差异；

4.根据权利要求2所述基于问诊意向的智能助诊系统，其特征在于，所述根据每个句子中每个主语的描述量和每个句子的病症特征值得到每个句子的病症优先关注度，包括的具体步骤如下：

首先，计算第个句子的病症特征值，具体公式如下：

其中，表示第/>个句子的病症特征值，/>表示句子中的整体形容词的数量，/>表示第个句子中第/>个整体形容词，/>表示第/>个句子中除第/>个整体形容词之外的/>个整体形容词中的第/>个整体形容词，/>表示第/>个句子中第/>个整体形容词和第个整体形容词的余弦相似度，/>表示对括号里的值进行数值归一化；

5.根据权利要求2所述基于问诊意向的智能助诊系统，其特征在于，所述根据每个句子的病症优先关注度得到待分类病症记录的聚类权重值，包括的具体步骤如下：