CN112948556B

CN112948556B - 相似病例文本检索系统

Info

Publication number: CN112948556B
Application number: CN202110244613.XA
Authority: CN
Inventors: 张小霞; 何海洋
Original assignee: Beijing Bozhong Shuji Technology Co ltd
Current assignee: Beijing Bozhong Shuji Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-08-15
Anticipated expiration: 2040-12-30
Also published as: CN112287094B; CN112287094A; CN112948556A

Abstract

本发明提供了一种相似病例文本检索系统，包括：通信连接的服务器和客户端；服务器，存储有M条病例记录，其中，第i条病例记录包括记录ID、疾病ID和词向量集合W_i＝(W_i1，W_i2，......，W_in)，W_in为词向量集合Wi中的第n个词；客户端包括处理器和显示界面，处理器用于实现如下步骤：接收输入的文本信息并将文本信息生成词向量集合W＝(W1，W2，......，Wn)；确定W和W_i的相似度

Description

相似病例文本检索系统

本申请为如下中国专利申请的分案申请：

申请日：2020年12月30日

申请号：202011598867.3

发明名称：相似病例文本检索系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种相似病例文本检索系统。

背景技术

专利文献1(CN107657062A)提供了一种相似病例检索方法，该包括：通过提取病例数据库中的多个病例的多个字段内容并将多个字段内容转化为词向量，依据词向量对多个所述病例进行聚类并划分为多个聚类簇；提取原始病历中的字段内容并将字段内容转化为原始词向量；搜索与原始词向量最近的聚类簇，并将聚类簇内的多个病例进行排序并反馈。该方法能够减少检索时的数据计算量和提高检索效率，但是，并没有针对病例文本的特点进行处理，而是将病例文本按照通用文件进行处理，因此，会存在病例检索结果不准确和检索效率低的问题。

发明内容

有鉴于此，本发明的目的是提供一种相似病例文本检索系统，以解决现有技术中病例检索结果不准确和检索效率低的问题。

本发明采用的技术方案为：

本发明实施例提供一种相似病例文本检索系统，包括：通信连接的服务器和客户端；

所述服务器，存储有M条病例记录，其中，第i条病例记录包括记录ID、疾病ID和词向量集合W_i＝(W_i1，W_i2，......，W_in)，W_in为词向量集合Wi中的第n个词；

所述客户端包括处理器和显示界面，所述处理器用于执行计算机程序实现如下步骤：

S100，接收输入的文本信息并将文本信息生成词向量集合W＝(W1，W2，......，Wn)；

S200，确定W和W_i的相似度其中，z1为词向量W和词向量Wi的交集中的词的数量，z2为词向量W和词向量Wi的差集中的词的数量，α_j为词向量W和词向量Wi的交集中第j个词的权重，β_j为词向量W和词向量Wi的差集中第j个词的权重，θ_ij为词向量集合W_i中的词W_ij的权重；

S300，根据步骤S200获得的相似度Si，在所述显示界面上输出对应的检索结果。

本发明实施例提供的相似病例文本检索系统，适配病例文本的特点，将病例记录之间的相似度可通过两个病例记录对应的词向量集合的交集和差集得到，相比现有技术主要采用余弦距离或者专利文献1采用的方式来获得相似度，在保证相似度计算准确性的前提下，能够节约计算量，从而能够提高检索效率，简单高效。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合具体实施例进行详细描述。

在本发明的说明书和权利要求书的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的相似病例文本检索系统，包括：通信连接的服务器和客户端。

所述服务器，可部署在云端，存储有M条病例记录，其中，第i条病例记录包括记录ID(RIDi)、疾病ID(DIDi)和词向量集合W_i＝(W_i1，W_i2，......，W_in)，W_in为词向量集合Wi中的第n个词。例如，记录RID为描述病例的唯一代码文本，作为主索引，疾病DID为唯一描述疾病的代码文本或者疾病名称文本。词向量根据反应对应疾病DID的症状的结构化文本例如化验单，或非结构化文本例如病症病情描述文本确定，具体确定方法可以采用现有分词技术。

所述客户端，可部署在用户例如医生的办公室，包括处理器和显示界面，所述处理器用于执行计算机程序实现如下步骤：

S100，接收输入的文本信息并将文本信息生成词向量集合W＝(W1，W2，......，Wn)。

输入的文本信息为需要检索的病例记录，可以自动输入或手动输入。自动输入例如即从化验设备读取的化验信息，手动输入例如用户(医生)通过键盘或语音输入设备输入的病症病情信息。生成词向量的方法优选与服务器中生成词向量的方法一致。

S200，确定W和W_i的相似度其中，z1为词向量W和词向量Wi的交集中的词的数量，z2为词向量W和词向量Wi的差集中的词的数量，α_j为词向量W和词向量Wi的交集中第j个词的权重，β_j为词向量W和词向量Wi的差集中第j个词的权重，θ_ij为词向量集合W_i中的词W_ij的权重。

在该步骤中，适配病例文本的特点，将病例记录之间的相似度可通过两个病例记录对应的词向量集合的交集和并集得到，相比现有技术主要采用余弦距离或者专利文献1采用的方式来获得相似度，在保证相似度计算准确性的前提下，能够节约计算量，从而能够提高检索效率，简单高效。

例如，检索结果可以瀑布流的方式呈现降序的Si；也可以以背景技术或现有技术中的方式呈现。

进一步地，在本发明的一个示例中，α_j＝1；β_j＝1；θ_ij＝1。进一步的，Si＝z1/(z2+n)。

进一步地，在本发明实施例中，θ_ij可与M条病例记录中词W_ij出现的次数的总和反相关。

由于每天都会产生新的病例，服务器中的病例总数M也在不停的增加，θ_ij也应该会发生变化，但是也不能说每增加一条病例记录，就更新θ_ij，这样会占用过多的服务器资源。因此，需要一种平衡。具体的，本发明按照如下方式对θ_ij进行更新：

进一步地，被存储到病例记录中，且进行动态更新。可选的，可按照预设周期例如每周更新一次或者当病例记录更新量超过预设阈值时更新，预设阈值可根据实际情况进行设置，例如，可为2000万条。进一步地，W_ij和θ_ij可作为索引对被存储到服务器中(不是病例记录)中，且进行动态更新。可选的，按照预设周期进行更新例如每周更新一次。相当于M个病例记录中所有去重后的词和对应的权重都被存储到服务器中。显然的，词向量W和词向量Wi的交集中第j个词的权重α_j可通过在服务器中查询对应词的权重θ_ij获取。进一步的，对于词向量W和词向量Wi的差集中第j个词的权重β_j，如果词向量W与词向量Wi的差集中第j个词在服务器中的索引对中能够检索到，那么相对应的权重作为β_j。如果检索不到，优选的，β_j＝0，且在显示界面上以特殊标记(例如颜色)呈现第j个词。

进一步地，在本发明实施例中，S300可进一步包括：

S310，如果Si大于D，则保留对应的第i条病例记录，作为显示的检索结果；否则，将第i条病例记录舍弃；D为预设的相似度阈值，可根据经验设置，例如，在设置D为0～1之间的系数时，优选，D可为0.3～0.5。

S320，根据S310，形成相似度大于D的检索结果集合，所述检索结果集合包括R条病例记录和R个疾病ID向量＝(DID₁，DID₂,......，DID_R)，R≤M。显然，得到的R个疾病ID向量中的DID里面是可以有重复的。

S330，对R个疾病ID向量进行去重，形成去重后的升序排序的Q个疾病ID向量＝(CID₁，CID₂，......，CID_Q)和对应的次数＝(N₁，N₂，......，N_Q)，其中，Q≤R，N₁≤N₂≤......≤N_Q。

通过步骤S330，能够将步骤S320中重复的DID进行去重合并成一个CID，即去重后的Q个疾病ID向量中某个向量CID_k可能对应多个DID，k的取值为1到Q。

S340，在所述客户端的显示界面上输出(CID₁，CID₂，......，CID_Q)，即按照DID出现的次数的升序方式进行呈现，DID出现的次数越少，排列越靠前。可选的，以瀑布流的方式输出(CID1，CID2，......，CIDQ)，优选的，在输出的每个疾病ID向量CID_k的后面输出对应的一个或多个病例链接。

进一步地，在本发明实施例中，在S330中，还形成对应的相似度集合＝(S₁，S₂，......，S_Q)，其中，S_k为疾病ID向量CID_k对应的所有的词向量集合与词向量集合W的相似度的均值或者最大值。

具体地，如果疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度满足则将/>作为疾病ID向量CID_k对应的相似度S_k；其中，X为疾病ID向量CID_k对应的DID的数量即对应的词向量集合的数量，S_k1，S_k2，…，S_kx分别为疾病ID向量CID_k对应的X个词向量集合与词向量集合W的相似度，每个相似度已经通过上述步骤S200确定。S为疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度的均值；A为预设阈值，可根据现有技术确定。

如果疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度满足则将max(S_k1，S_k2，…，S_kx)作为疾病ID向量CID_k对应的相似度S_k；其中，X为疾病ID向量CID_k对应的词向量集合的数量，S_k1，S_k2，…，S_kx分别为疾病ID向量CID_k对应的X个词向量集合与词向量集合W的相似度，S为疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度的均值；A为预设阈值。

进一步地，在本发明实施例中，S340进一步包括：按照S_k/N_k降序的方式在客户端的显示界面上输出(CID₁，CID₂，......，CID_Q)，即输出结果与相似度正相关，DID出现次数反相关。

步骤S310～S340的技术效果在于，对于病例普遍存在但病因罕见的情况，能够在海量病例文本中快速且准确的获取相似病因的病例文本。

综上，本发明实施例提供的相似病例文本检索系统，对每个病例记录都进行了分词处理，在进行相似病例检索时，直接利用待检索病例记录的词向量集合与病例数据库中的每个词向量集合的交集的权重和差集的权重来计算两者的相似度，相比现有技术主要采用余弦距离或者专利文献1采用的方式来获得相似度，能够节约计算量，从而能够提高检索效率，简单高效。此外，本发明中，针对病例记录的医疗术语是统一且有限的特点，对每个词的权重预先进行了设置，在检索时就能得到相应的权重，无需按照现有技术例如采用TF-IDF进行计算，能够进一步地提高检索效率和检索结果的准确性。并且，对于病例普遍存在但病因罕见的情况，能够在海量病例文本中快速且准确的获取相似病因的病例文本。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种相似病例文本检索系统，其特征在于，包括：通信连接的服务器和客户端；

所述服务器，存储有M条病例记录，其中，第i条病例记录包括记录ID、疾病ID和词向量集合W_i＝(W_i1，W_i2，......，W_in)，W_in为词向量集合W_i中的第n个词；

S100，接收输入的文本信息并将文本信息生成词向量集合W＝(W₁，W₂，......，Wn)；所述输入的文本信息为需要检索的病例记录；

S200，确定W和W_i的相似度其中，z1为词向量W和词向量W_i的交集中的词的数量，z2为词向量W和词向量W_i的差集中的词的数量，α_j为词向量W和词向量W_i的交集中第j个词的权重，β_j为词向量W和词向量Wi的差集中第j个词的权重，θ_ij为词向量集合W_i中的词W_ij的权重；

S300，根据步骤S200获得的相似度Si，在所述显示界面上输出对应的检索结果；

S300进一步包括：

S310，如果Si大于D，则保留对应的第i条病例记录，作为显示的检索结果；否则，将第i条病例记录舍弃；D为预设的相似度阈值；

S320，根据S310，形成相似度大于D的检索结果集合，所述检索结果集合包括R条病例记录和R个疾病ID向量(DID₁，DID₂,......，DID_R)，R≤M；

S330，对R个疾病ID向量进行去重，形成去重后的升序排序的Q个疾病ID向量(CID₁，CID₂，......，CID_k，......，CID_Q)和对应的次数(N₁，N₂，......，N_Q)，其中，k的取值为1到Q，Q≤R，N₁≤N₂≤......≤N_Q；

S340，在所述客户端的显示界面上输出(CID₁，CID₂，......，CID_k，......，CID_Q)；

在S330中，还形成对应的相似度集合(S₁，S₂，......，S_k，......，S_Q)，其中，S_k为疾病ID向量CID_k对应的所有的词向量集合与词向量集合W的相似度的均值或者最大值，S_k为(S₁，S₂，......，S_k，......，S_Q)中的第k个相似度，CID_k为(CID₁，CID₂，......，CID_k，......，CID_Q)中的第k个疾病ID向量；

其中，如果疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度满足则将/>作为疾病ID向量CID_k对应的相似度S_k；如果疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度满足则将max(S_k1，S_k2，…，S_kx)作为疾病ID向量CID_k对应的相似度S_k；其中，X为疾病ID向量CID_k对应的词向量集合的数量，S_k1，S_k2，…，S_kx分别为疾病ID向量CID_k对应的X个词向量集合与词向量集合W的相似度，/>为疾病ID向量CID_k对应的所有词向量集合与词向量集合W的相似度的均值；A为预设阈值。

2.根据权利要求1所述的相似病例文本检索系统，其特征在于，θ_ij与所述M条病例记录中词W_ij出现的次数的总和反相关。

3.根据权利要求1所述的相似病例文本检索系统，其特征在于，被存储到病例记录中，并进行动态更新。

4.根据权利要求1所述的相似病例文本检索系统，其特征在于，和W_ij作为索引对被存储到所述服务器中，并进行动态更新。

5.根据权利要求4所述的相似病例文本检索系统，其特征在于，如果词向量W和词向量W_i的差集中第j个词在所述索引对中能够检索到，则将相对应的权重作为β_j；否则，则设置β_j＝0，并以特殊标记呈现第j个词。