CN111462895A

CN111462895A - 辅助诊断方法及系统

Info

Publication number: CN111462895A
Application number: CN202010239185.7A
Authority: CN
Inventors: 汪雪松; 刘士豪
Original assignee: Anhui Iflytek Medical Information Technology Co ltd
Current assignee: Anhui Iflytek Medical Information Technology Co ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111462895B

Abstract

本发明实施例提供一种辅助诊断方法及系统，所述辅助诊断方法包括：基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；症状分组库包括一一对应的症状组、最似然诊断和诊断质量特征；基于症状分组库确定与任一分组策略中各症状组对应的最似然诊断和诊断质量特征；基于分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。本发明实施例的辅助诊断方法能够实现多个症状按指向的疾病类别精确划分开来，有助于辅助诊断，提高诊断效率。

Description

辅助诊断方法及系统

技术领域

本发明涉及医疗信息化技术领域，更具体地，涉及一种辅助诊断方法及系统。

背景技术

随着医疗信息化的发展，在临床医学中利用计算机系统来处理医疗病历数据，从而辅助医生诊断疾病得到了越来越广泛的应用，在医疗大数据中，某一位患者病历里一次就诊的症状往往很多，相应的诊断也可能有数个，在为这种病历做辅助诊断时，需要将多个症状按其指向的疾病类精确划分开。

现有技术中一种方案是，基于教材或业务经验等，预先人工构建症状分组并指定每个分组对应的判别结果，在应用时，将待预测病历的症状词映射到预设分组内进行查找。第二种方案是，在病历集中基于症状词的共现关系，挖掘频繁项，从而构建症状分组及对应判别结果，应用时同上。

前述第一种方案，其症状分组本身质量较好，但临床病历的症状很多，离线构建的分组难以穷尽所有，一旦当前待分组的病历里包含手工构建时未考虑到的症状词，便难以妥当处理。同时，这种方案不够灵活，不能自动迭代更新，需伴随着病历量的积累和症状分布的变化来人工做迭代。前述第二种方案，其症状分组本身能适应当前病历集合特点，然而通常使用该方法时较少利用其中内在蕴含的医学特征，而只在统计层面考量，从而挖掘出分组的质量、医学可解释性等相对较差。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的辅助诊断方法及系统。

第一方面，本发明实施例提供一种辅助诊断方法，包括：基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

在一些实施例中，所述对病历数据库中的症状词进行分组，获得多个症状组，包括：确定所述病历数据库中的症状词之间的紧密度特征；基于所述紧密度特征，通过紧密度阈值和邻居数阈值，对所述症状词进行聚类分簇；基于所述聚类分簇的结果，获得多个所述症状组。

在一些实施例中，所述基于所述紧密度特征，通过紧密度阈值和邻居数阈值，对所述症状词进行聚类分簇，包括：基于所述聚类分簇的结果的表现特征，确定所述紧密度阈值和所述邻居数阈值；其中，所述表现特征基于簇的纯度、部位元素的集中度以及症状元素的集中度确定。

在一些实施例中，所述基于所述聚类分簇的结果，获得多个所述症状组，包括：针对仅一个症状词的簇，将该症状词作为一组；针对有多个症状词的簇，先将其中每一个症状词各自作为一组，再将该簇整体看成无向图，将其中每一个连通子图对应的症状词作为一组。

在一些实施例中，所述症状词之间的紧密度特征包括：所述症状词之间的间隔词数特征、所述症状词之间的时间属性特征以及所述症状词之间的伴随程度特征。

在一些实施例中，所述确定任一所述症状组的最似然诊断以及诊断质量特征，包括：基于所述病历数据库中包含任一所述症状组内的全部症状词的单诊断病历，确定任一所述症状组的似然诊断以及其频次占比特征；将任一所述症状组的所述频次占比特征最高的似然诊断作为最似然诊断；基于所述最似然诊断的所述频次占比特征以及所述症状组的所述频次占比特征的标准差，确定任一所述症状组的诊断质量特征；基于任一所述症状组的最似然诊断以及所述最似然诊断对应的诊断质量特征确定症状分组库，所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征。

在一些实施例中，所述基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达，包括：基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定任一所述分组策略对应的待判别病历备用语义表达；基于任一所述分组策略中各症状组对应的所述诊断质量特征的总和以及待判别病历备用语义表达的差异度，确定任一分组策略的评估特征；基于全部分组策略的所述评估特征，确定最优分组策略，将最优分组策略对应的待判别病历备用语义表达作为用于辅助诊断的待判别病历语义表达。

第二方面，本发明实施例提供一种辅助诊断系统，包括：分组单元，用于对病历数据库中的症状词进行分组，获得多个症状组；匹配单元，用于确定任一所述症状组的最似然诊断以及诊断质量特征，以获得症状分组库，所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；预判单元，用于基于所述症状分组库，确定待判别病历中的待判别症状词的分组策略；处理单元，用于基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；输出单元，用于基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面中任一种可能的实现方案所提供的辅助诊断方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面中任一种可能的实现方案所提供的辅助诊断方法的步骤。

本发明实施例提供的辅助诊断方法、辅助诊断系统、电子设备以及非暂态计算机可读存储介质，通过症状词分组的思维来对待判别病历给出对应的诊断，对病历数据库中的症状词进行分组，构建匹配好诊断名的症状分组库，利用诊断质量特征对匹配程度进行评价，进一步对待判别病历的症状也采取一定的分组策略进行分组，利用症状分组库来得出待判别病历的用于辅助诊断的待判别病历语义表达，能够实现多个症状按其指向的疾病类别精确划分开来，有助于辅助诊断，提高诊断效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的辅助诊断方法的流程图；

图2为本发明实施例的辅助诊断方法的获得症状分组库的流程图；

图3为本发明实施例的辅助诊断方法中获得多个症状组的流程图；

图4为本发明实施例的簇的结构示意图；

图5为本发明实施例的辅助诊断方法中确定最似然诊断以及诊断质量特征的流程图；

图6为本发明实施例的辅助诊断方法中确定用于辅助诊断的待判别病历语义表达的流程图；

图7为本发明实施例的辅助诊断系统的结构示意图；

图8为本发明实施例的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明实施例的辅助诊断方法。

如图1所示，本发明实施例的辅助诊断方法包括如下步骤S100-步骤S300。

步骤S100：基于症状分组库，确定待判别病历中的待判别症状词的分组策略。

可以理解的是，当给定一份待判别病历，可以从待判别病历中提取到待判别症状词，针对这些待判别症状词之间的联系，可以采用多个分组策略来将待判别症状词进行分组。

其中症状分组库的获取方法为：通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征；症状分组库包括一一对应的症状组、最似然诊断和诊断质量特征。

需要说明的是，对于每个分组策略包括一个或多个症状组，每个分组策略的每个症状组都应能在前述“症状分组库”中查找到；每个分组策略，应包括该疾病所有症状词，不可遗漏，可以通过穷举所有可能的症状分组方案得到多个分组策略。

步骤S200：基于症状分组库确定与任一分组策略中各症状组对应的最似然诊断和诊断质量特征。

可以理解的是，在利用步骤S100的任一分组策略进行分组后，得到了若干个症状组，此处采用症状分组库中的症状组与最似然诊断和诊断质量特征的对应关系，确定任一分组策略中各症状组对应的最似然诊断和诊断质量特征，每个分组策略，其预测结果是其中各症状组对应的最似然诊断的并集。

步骤S300：基于分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

可以理解的是，待判别病历的用于辅助诊断的待判别病历语义表达是利用步骤S200中确定的任一分组策略中各症状组对应的最似然诊断和诊断质量特征得到。需要说明的是，如图2所示，上述症状分组库可以通过如下方法获得，该方法包括步骤100-步骤200。

步骤100：对病历数据库中的症状词进行分组，获得多个症状组。

可以理解的是，临床医学中的症状并非是孤立存在的，很多症状都是相互联系的，例如咳嗽、头晕、发热均可指向感冒这一疾病，病历数据库中有很多份病历，每份病历记载了该次就诊的患者具有的症状词以及医生做出的诊断，此处将病历数据库中所有病历的症状词都提取出来，对这些症状词进行分组从而获得多个症状组。

步骤200：确定任一所述症状组的最似然诊断以及诊断质量特征。

可以理解的是，诊断质量特征用于评价最似然诊断与症状组之间的匹配程度，通过步骤100得到了多个症状组，从病历数据库中找到一些具备这些症状组中症状的病历，利用这些病历的诊断语义表达，对每一个症状组对应匹配一个最似然诊断，并对这个最似然诊断与症状组的匹配程度进行计算，从而得到诊断质量特征，最终可以得到由多个症状组构成的症状分组库，症状分组库里的每一个症状组都对应有一个最似然诊断以及一个诊断质量特征。

换言之，获得的症状分组库包括症状组、最似然诊断和诊断质量特征之间的一一对应关系。

本发明实施例通过症状词分组的思维来对待判别病历给出对应的诊断，对病历数据库中的症状词进行分组，构建匹配好诊断名的症状分组库，利用诊断质量特征对匹配程度进行评价，进一步对待判别病历的症状也采取一定的分组策略进行分组，利用症状分组库来得出用于辅助诊断的待判别病历语义表达，能够实现多个症状按其指向的疾病类别精确划分开来，有利于辅助诊断，提高诊断效率。

在一些实施例中，如图3所示，上述步骤100：对病历数据库中的症状词进行分组，获得多个症状组，包括步骤110-步骤130。

步骤110：确定病历数据库中的症状词之间的紧密度特征。

需要说明的是，病历中的症状词并非孤立存在的，对症状进行分组的依据是症状词两两之间的紧密度特征，这种紧密度特征用来衡量症状词两两之间的联系程度。

可选的，上述步骤110中症状词之间的紧密度特征包括：症状词之间的间隔词数特征、症状词之间的时间属性特征以及症状词之间的伴随程度特征。

需要说明的是，从以下角度考虑两个症状词的紧密度特征：

症状词之间的间隔词数特征：如果两个症状词常出现在同一病历，即“共现”，则二者紧密程度较高，更具体的来说，该病历的症状词个数越少则该病历的诊断名个数越少，二者在该病历中间隔越近，则同等其他条件下，反映出在该病历中二者紧密程度更高。此处“间隔”是指该病历分词后，二者中间的间隔词数。

症状词之间的时间属性特征：如果两个症状词出现在某病历中时，二者的时间属性值相同，则同等其他条件下，二者紧密程度更高。这是因为，此时二者很可能是同一疾病引发的，因此在时间上同步，例如症状词之间的时间属性特征可以为“咳嗽伴胸闷7天，流涕2天”。症状词之间的伴随程度特征：如果两个症状词出现在某病历中时，一个词是另一个词的伴随症状，则同等其他条件下，二者紧密程度更高。这一点可通过病历内容做解析得到，通常会写作“A伴随B”的形式，例如“头痛伴眩晕”。

记U_A∩B为病历数据库中同时含症状词A与B的病历，可以通过如下公式计算同一病历m中两个症状词A与B之间的紧密度特征：

其中：

其中，条件①：病历m中A与B都有时间属性值且二者值相同；条件②：病历m中A(或B)是B(或A)的伴随症状，num_m诊断名指病历m中诊断名的数量，num_m症状词指病历m中症状词的数量，gap_{m中A与B间隔}指病历m中症状词A与B的间隔词数。

步骤120：基于紧密度特征，通过紧密度阈值和邻居数阈值，对症状词进行聚类分簇。

可以理解的是，利用步骤110中得到的症状词两两之间的紧密度特征，通过紧密度阈值threshold_紧密度和邻居数阈值threshold_邻居数，将症状词分为核心症状词、边界症状词以及孤立症状词，核心症状词是指，某一症状词，存在≥threshold_邻居数个其它症状词，与该症状词的紧密度特征≥threshold_紧密度；边界症状词是指，某一症状词不满足成为核心症状词的条件，但满足与至少一个核心症状词的紧密度特征≥threshold_紧密度；孤立症状词是指，前述两类以外的症状词。

需要说明的是，聚类分簇的方法具体为：首先，计算得到所有核心症状词；其次，将所有可以相连的核心症状词连接在一起，得到初步簇，“可以相连”是指，两个核心症状词的紧密度≥threshold_紧密度；再次，将每一个边界症状词，划分到与其紧密度最高的核心症状词所在初步簇内，得到完整的簇；最后，将每一个孤立症状词独立作为一个簇。

可选的，上述步骤120：基于紧密度特征，通过紧密度阈值和邻居数阈值，对症状词进行聚类分簇，包括：基于聚类分簇的结果的表现特征，确定紧密度阈值和邻居数阈值；其中，表现特征基于簇的纯度、部位元素的集中度以及症状元素的集中度确定。

需要说明的是，在设定的范围内，以多对预备阈值进行分簇，根据分簇结果，确定每对预备阈值对应分簇结果的表现特征，基于多对预备阈值对应的表现特征，确定最优的紧密度阈值和邻居数阈值。

任一对预备阈值对应的表现特征通过如下公式计算：

peformance＝s_簇的纯度+s_{部位元素的集中度}+s_{症状元素的集中度}；

其中：

其中，n_簇为当前聚类的簇的个数，Nconst_部位元素为所有不同部位元素的个数，Nconst_症状元素为所有不同症状元素的个数，注意后两者由病历数据库决定，其值与聚类算法无关。

一个症状词的“最似然诊断”，是该症状词最常对应的那个诊断名，具体计算方法，对当前症状词，遍历全量病历集中包含该症状词的单诊断病历，统计各诊断名频次，最高频次的诊断名即当前症状词的“最似然诊断”。

一个簇的“代表性最似然诊断”，是能对应该簇中最多个症状词的那一个诊断名。假如有≥2个诊断名对应该簇中相同个数症状词且均为最大值，则选择在病历集中出现频次最高的那一个诊断名为“代表性最似然诊断”。

“部位元素”、“症状元素”是指，医学中有些症状词是“部位元素+症状元素”组合构成，前者指明是哪个身体部位、后者指明该身体部位的临床表现。例如，“头痛”、“腹泻”、“膝盖无力”等等。“头痛”中的“头”即部位元素、“痛”即症状元素。这种组合结构十分常见。也有一些症状词则不符合这种组合结构，例如“食欲不振”、“恶心”等等，这里仅考察符合“部位元素+症状元素”结构的症状词，不符合的，不参与上述公式计算。

需要说明的是，计算任一对预备阈值对应的表现特征performance值的意义是，同等其他条件下，希望每个簇尽可能纯度较高，此处通过“代表性最似然诊断”对应症状词个数的占比，来衡量“纯度”；同等其他条件下，希望各“部位元素”、“症状元素”相对集中，即尽可能出现在较少比例的簇里；同等其他条件下，应对簇个数较多的聚类策略做出惩罚。这是因为，簇多意味着系统复杂，极端情况下，假设每个症状词自成一类，“纯度”可达到100％，显然这缺乏实际意义，因此设置该惩罚因子，作为“纯度”的补充。

如前所述，每设定一对threshold_邻居数与threshold_紧密度，便唯一确定了聚类结果，从而可计算表现特征performance值，本实施例中选择使表现特征performance值尽可能大的一对预备阈值。

步骤130：基于聚类分簇的结果，获得多个症状组。

需要说明的是，经过步骤120中的聚类分簇，得到了多个簇，此处将每一个簇单独分组，获得多个症状组。

可选的，上述步骤130：基于聚类分簇的结果，获得多个症状组，包括：针对仅一个症状词的簇，将该症状词作为一组；针对有多个症状词的簇，先将其中每一个症状词各自作为一组，再将该簇整体看成无向图，将其中每一个连通子图对应的症状词作为一组。

例如：如图4所示，存在一个由症状词A、B、C、D组成的簇，每个节点是一个症状词，该簇中，将其中的每一个症状词例如A作为一组，连通子图对应的症状词作为一组，例如{D,C}、{A,D,C,B}等分别作为一组。而{A,C,B}则不是一个症状组，因为这三个症状词并不连通。

本发明实施例在聚类算法DBSCAN的思想上改进，对症状词进行聚类分簇，改进之处在于，对于未分到任何簇中的元素，将其独立成簇，而现有的DBSCAN就把这些元素给丢弃，使得症状词分组的结果信息更全，提高症状分组库的容量，便于对症状词的精准判别。

此外，本发明实施例设计了用于衡量聚类效果的表现特征，从而可用该表现特征指导聚类调参，能够使得分组结果更优化，提高了症状分组库的准确度。

在一些实施例中，如图5所示，上述步骤200：确定任一所述症状组的最似然诊断以及诊断质量特征，包括步骤210-步骤240。

步骤210：基于病历数据库中包含任一症状组内的全部症状词的单诊断病历，确定任一症状组的似然诊断以及其频次占比特征。

可以理解的是，单诊断病历指的是，某一份只存在一个诊断词的病历，对每个症状组，遍历病历数据库中包含该症状组全体症状词的单诊断病历，统计各诊断名，即“似然诊断”，并计算每个“似然诊断”病历数占各“似然诊断”病历总数的比例作为频次占比特征，表示为：

{(diag₁,prob₁)；(diag₂,prob₂)；…；(diag_n,prob_n)}；

其中，diag_i代表第i个似然诊断，prob_i代表其频次占比特征。

步骤220：将任一症状组的频次占比特征最高的似然诊断作为最似然诊断。

需要说明的是，比较各种似然诊断的频次占比特征，将频次占比特征最高的那个似然诊断作为最似然诊断，也就是说该症状组的最似然诊断指定为prob_i最大的似然诊断diag_i。

步骤230：基于所述最似然诊断的所述频次占比特征以及所述症状组的所述频次占比特征的标准差，确定任一所述症状组的诊断质量特征。

需要说明的是，某一症状组的诊断质量特征，按下式计算：

quality_症状分组＝max(prob_i)+std(prob_i)；

其中，最似然诊断值的频次占比特征max(prob_i)越大，说明采用该症状组做预测时把握越高；std(prob_i)是标准差，越大则采用该症状组做预测时把握越高。对于标准差的意义举例说明如下，例如某症状组对应的prob序列为(0.51,0.49)，另一症状组对应的prob序列为(0.51,0.1,0.1,0.1,0.1,0.09)，此处prob序列指的是将该症状组的多个似然诊断的频次占比特征形成序列，二者的最似然诊断都占51％的频次，但后者的标准差较大，同等其他条件下，后者胜出。

步骤240：基于任一症状组的最似然诊断以及最似然诊断对应的诊断质量特征确定症状分组库，症状分组库包括一一对应的症状组、最似然诊断和诊断质量特征。

需要说明的是，在已经得到了每个症状组的最似然诊断以及最似然诊断对应的诊断质量特征后，就可以确定症状分组库了，症状分组库由多个症状组以及与其一一对应的最似然诊断和诊断质量特征组成。

本发明实施例通过利用单诊断病历来得到症状组的最似然诊断，能够使得症状分组库中的最似然诊断与症状组的匹配程度更高，更符合医学的实际情况，从而提升症状判别的精准度。

在一些实施例中，如图6所示，上述步骤S300：基于分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达，包括步骤S310-步骤S330。

步骤S310：基于分组策略中各症状组对应的最似然诊断和诊断质量特征，确定任一分组策略对应的待判别病历备用语义表达。

可以理解的是，不同的分组策略可以得到不同的待判别病历备用语义表达，因此，基于分组策略中各症状组对应的最似然诊断和诊断质量特征，可以确定每一种分组策略对应的待判别病历备用语义表达。

步骤S320：基于任一分组策略中各症状组对应的诊断质量特征的总和以及待判别病历备用语义表达的差异度，确定任一分组策略的评估特征。

需要说明的是，给定一份待判别病历，我们希望判别结果有以下特征：用于做出判别的分组策略，其诊断质量特征应尽可能高，原因是如前所述，诊断质量特征代表着使用该症状组做判别时的把握程度；如果判别出多诊断名，则同等其他条件下，优先采纳各诊断名差异较大的，原因是同一人同一时刻，较少会患多个高度相似的疾病，而患多个不同疾病则有现实原因，诊断名差异大更加符合现实情况。

例如在实践应用中，基层医院不分科室或者科室分的很粗，导致有些病历会出现以下特征：一份病历有许多症状，用于描述不止一个疾病，相应的诊断也不止一个，即“多症状多诊断”。例如，病历内容可能是“咳嗽、流涕3天，长期有头晕、心悸”，病历诊断是“急性上呼吸道感染；高血压”，这两个诊断语义表达差异较大，属于不同类别，符合生理规律和诊断现实情况。

也就是说，如果预测出“急性上呼吸道感染；高血压”这就是所谓现实原因，而预测出“急性肺炎；慢性肺炎”，两个诊断名相似程度高，不符合多个诊断名应当分别代表一类疾病的现实情况，则认定为判别不准确，因此，同等其他条件下，优先采纳各诊断名差异较大的，更加符合现实情况。

可以理解的是，一个分组策略，记S为其全体分组、D为其各分组的最似然诊断的并集，该评估特征表示为：

其中，诊断i<j可采用任意算法，例如按诊断名拼音排序；dist(i，j)衡量两个诊断的差异度，可采用算法：在病历集中统计诊断i、j各自对应的症状词及其分布、治疗方案特别是药品名及其分布，在基于症状词、治疗方案的余弦相似度，来度量差异度。

步骤S330：基于全部分组策略的评估特征，确定最优分组策略，将最优分组策略对应的待判别病历备用语义表达作为用于辅助诊断的待判别病历语义表达。

对于当前待判别病历，尝试所有分组策略，并将评估特征最大的分组策略确定为最优分组策略，将最优分组策略对应的待判别病历备用语义表达作为用于辅助诊断的待判别病历语义表达。

本发明实施例通过计算分组策略的评估特征得到最优分组策略，待判别病历的症状词在与症状分组库比照之前按照最优的分组策略分组，将最优分组策略对应的待判别病历备用语义表达作为用于辅助诊断的待判别病历语义表达，能够使得用于辅助诊断的待判别病历语义表达更加精准。

下面对本发明实施例提供的辅助诊断系统进行描述，下文描述的辅助诊断系统与上文描述的辅助诊断方法可相互对应参照。

如图7所示，本发明实施例提供的辅助诊断系统包括分组单元710、处理单元720以及确定单元730。

分组单元710，用于基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征。

处理单元720，用于基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征。

确定单元730，用于基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

在一些实施例中，输出单元730包括确定待判别病历备用语义表达单元、确定评估特征单元以及确定用于辅助诊断的待判别病历语义表达单元。

确定待判别病历备用语义表达单元，用于基于分组策略中各症状组对应的最似然诊断和诊断质量特征，确定任一分组策略对应的待判别病历备用语义表达。

确定评估特征单元，用于基于任一分组策略中各症状组对应的诊断质量特征的总和以及待判别病历备用语义表达的差异度，确定任一分组策略的评估特征。

确定用于辅助诊断的待判别病历语义表达单元，用于基于全部分组策略的评估特征，确定最优分组策略，将最优分组策略对应的待判别病历备用语义表达作为用于辅助诊断的待判别病历语义表达。

本发明实施例提供的辅助诊断系统用于执行上述辅助诊断方法，其具体的实施方式与方法的实施方式一致，此处不再赘述。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行辅助诊断方法，该方法包括：基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图8所示的处理器810、通信接口820、存储器830和通信总线840，其中处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信，且处理器810可以调用存储器830中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的辅助诊断方法，该方法包括：基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的辅助诊断方法，该方法包括：基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种辅助诊断方法，其特征在于，包括：

基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；

基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；

基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

2.根据权利要求1所述的辅助诊断方法，其特征在于，所述对病历数据库中的症状词进行分组，获得多个症状组，包括：

确定所述病历数据库中的症状词之间的紧密度特征；基于所述紧密度特征，通过紧密度阈值和邻居数阈值，对所述症状词进行聚类分簇；

基于所述聚类分簇的结果，获得多个所述症状组。

3.根据权利要求2所述的辅助诊断方法，其特征在于，所述基于所述紧密度特征，通过紧密度阈值和邻居数阈值，对所述症状词进行聚类分簇，包括：

基于所述聚类分簇的结果的表现特征，确定所述紧密度阈值和所述邻居数阈值；其中，所述表现特征基于簇的纯度、部位元素的集中度以及症状元素的集中度确定。

4.根据权利要求2所述的辅助诊断方法，其特征在于，所述基于所述聚类分簇的结果，获得多个所述症状组，包括：

针对仅一个症状词的簇，将该症状词作为一组；针对有多个症状词的簇，先将其中每一个症状词各自作为一组，再将该簇整体看成无向图，将其中每一个连通子图对应的症状词作为一组。

5.根据权利要求2所述的辅助诊断方法，其特征在于，所述症状词之间的紧密度特征包括：所述症状词之间的间隔词数特征、所述症状词之间的时间属性特征以及所述症状词之间的伴随程度特征。

6.根据权利要求1-5任一项所述的辅助诊断方法，其特征在于，所述确定任一所述症状组的最似然诊断以及诊断质量特征，包括：

基于所述病历数据库中包含任一所述症状组内的全部症状词的单诊断病历，确定任一所述症状组的似然诊断以及其频次占比特征；

将任一所述症状组的所述频次占比特征最高的似然诊断作为最似然诊断；

基于所述最似然诊断的所述频次占比特征以及所述症状组的所述频次占比特征的标准差，确定任一所述症状组的诊断质量特征；

基于任一所述症状组的最似然诊断以及所述最似然诊断对应的诊断质量特征确定症状分组库，所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征。

7.根据权利要求1-5任一项所述的辅助诊断方法，其特征在于，所述基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达，包括：

基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定任一所述分组策略对应的待判别病历备用语义表达；

基于任一所述分组策略中各症状组对应的所述诊断质量特征的总和以及所述待判别病历备用语义表达的差异度，确定任一分组策略的评估特征；

基于全部分组策略的所述评估特征，确定最优分组策略，将最优分组策略对应的所述待判别病历备用语义表达作为用于辅助诊断的待判别病历语义表达。

8.一种辅助诊断系统，其特征在于，包括：

分组单元，用于基于症状分组库，确定待判别病历中的待判别症状词的分组策略；其中所述症状分组库为，通过对病历数据库中的症状词进行分组获得多个症状组，进而确定任一所述症状组的最似然诊断以及诊断质量特征，来获得；所述症状分组库包括一一对应的所述症状组、所述最似然诊断和所述诊断质量特征；

处理单元，用于基于所述症状分组库确定与任一所述分组策略中各症状组对应的最似然诊断和诊断质量特征；

确定单元，用于基于所述分组策略中各症状组对应的最似然诊断和诊断质量特征，确定用于辅助诊断的待判别病历语义表达。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述辅助诊断方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述辅助诊断方法的步骤。