CN104035980A

CN104035980A - 一种面向结构化医药信息的检索方法和系统

Info

Publication number: CN104035980A
Application number: CN201410225580.4A
Authority: CN
Inventors: 唐力; 王和平; 周晋; 黄权
Original assignee: Individual
Current assignee: Nanjing Haiwei Credible Data Service Co ltd
Priority date: 2014-05-26
Filing date: 2014-05-26
Publication date: 2014-09-10
Anticipated expiration: 2034-05-26
Also published as: CN104035980B

Abstract

本发明公开一种面向结构化医药信息的检索方法和系统，用以提高检索命中条目与用户检索请求的匹配程度，其中，该检索方法包括以下步骤：根据用户提供的一组关键词在结构化信息库中进行检索，其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性；分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度；根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。

Description

一种面向结构化医药信息的检索方法和系统

技术领域

本发明涉及医药领域，具体而言，涉及一种面向结构化医药信息的检索方法和系统。

背景技术

医药行业中，结构化信息普遍而广泛存在，如：病证、医案、方剂、本草等。

随着信息化程度的日益提高，人们已经可以通过各种信息终端获取医药行业的信息，但如何提高检索命中条目与用户检索请求的匹配程度仍是一个亟需解决的问题。

发明内容

本发明提供一种面向结构化医药信息的检索方法和系统，用以提高检索命中条目与用户检索请求的匹配程度。

为达到上述目的，本发明提供了一种面向结构化医药信息的检索方法，包括以下步骤：

根据用户提供的一组关键词在结构化信息库中进行检索，其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性；

分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度；

根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。

进一步地，在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤：

构建标题/属性索引表，具体包括：

设已有词表A，每条结构化信息的标题/属性含有的单个汉字集合为B，按词的长度由大到小对A∪B中的词进行排序，得到切词词表C；

根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T)，f(C,T)＝[c₁,c₂,…c_n]，其中，c_i∈T(即c_i是T的子字符串)，c_i∈C，而且假设c_i＝T(x,y)，且n为自然数，i为大于等于1且小于等于n的自然数，x，y为满足0≤x＜y＜length(T)的整数，length(T)表示T中含有的字符数；

对每个切词操作结果f(C,T)＝[c₁,c₂,…c_n]，在索引表以c_i为键值的索引集合V(c_i)中添加(I_id,T_type)，其中，I_id表示该条结构化信息I在结构化信息库中的识别号，T_type表示该条结构化信息I中标题/属性T的类型(如标题，或病症的病因病机属性等)；以及

对所述结构化信息库进行预处理，具体包括：

计算并存储每条结构化信息的标题长度；

用以下方法计算并存储每条结构化信息的属性内容完备度：假设t(I)表示结构化信息I的类型，p(I)表示结构化信息I的名称为p的属性，S(t,p)表示类型为t的结构化信息中名称为p的属性的权重，P(I)表示结构化信息I的含有内容的属性集合，则结构化信息I的属性内容完备度为：

γ(I)＝∑_p∈R(I)S(t(I),p(I))。

进一步地，通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度：

对于用户输入的检索关键词列表Q＝[q₁,q₂,…,q_n]中的每一个关键词q_i，执行以下步骤：

用切词词表C对每一个关键词qi切词，设f(C,q_i)＝[w₁,w₂,…,w_n]；

从标题索引表中查找键值为w_i的索引集合V(w_i)，并求其构成的交集

V (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一个条目I∈R(Q)的标题匹配度

α (I, Q) = \frac{1}{l (I_{title})} Σ_{q_{i} &Element; Q} l (q_{i}) \cdot δ (I, q_{i})

其中l(x)表示x的长度(含有的汉字个数)，

进一步地，通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度：

从属性索引表中查找键值为w_i∈f(C,q_i)的索引集合V′(w_i)，并求其构成的交集

V^{'} (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一结构化信息I∈R′(Q)的属性匹配度

β (I, Q) = Σ_{q_{i} &Element; Q} δ^{'} (I, q_{i})

其中，

进一步地，所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括：

获取返回给用户的命中的结构化信息集合R(Q)＝R(Q)∪R′(Q)；

计算每一命中的结构化信息I∈R(Q)的总匹配度

Ω(I,Q)＝a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)

其中，a、b、c为预先设定的权重常量；

根据总匹配度由大到小对R(Q)中的结构化信息进行排序，并将排序后的结果返回给用户。

为达到上述目的，本发明还提供了一种面向结构化医药信息的检索系统，包括：

检索模块，用于根据用户提供的一组关键词在结构化信息库中进行检索，其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性；

匹配度计算模块，用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度；

结果排序模块，用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。

进一步地，上述检索系统还包括：

索引表构建模块，用于构建标题/属性索引表，具体为：

预处理模块，用于对所述结构化信息库进行预处理，具体为：

计算并存储每条结构化信息的标题长度；

γ(I)＝∑_p∈R(I)S(t(I),p(I))。

进一步地，所述匹配度计算模块包括：

标题匹配度计算单元，用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度：

V (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一个条目I∈R(Q)的标题匹配度

α (I, Q) = \frac{1}{l (I_{title})} Σ_{q_{i} &Element; Q} l (q_{i}) \cdot δ (I, q_{i})

其中l(x)表示x的长度(含有的汉字个数)，

进一步地，所述匹配度计算模块还包括：

属性匹配度计算模块，用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度：

V^{'} (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一结构化信息I∈R′(Q)的属性匹配度

β (I, Q) = Σ_{q_{i} &Element; Q} δ^{'} (I, q_{i})

其中，

进一步地，所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为：

获取返回给用户的命中的结构化信息集合R(Q)＝R(Q)∪R′(Q)；

计算每一命中的结构化信息I∈R(Q)的总匹配度

Ω(I,Q)＝a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)

其中，a、b、c为预先设定的权重常量；

本发明根据用户提供的一组(有序的)关键词来检索系统中已有的结构化信息(条目)，并利用匹配度计算方法计算命中条目与用户检索请求的匹配程度，然后依据匹配度的大小向用户返回检索结果，从而提高了检索命中条目与用户检索请求的匹配程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的面向结构化医药信息的检索方法流程图；

图2为本发明一个较佳实施例的面向结构化医药信息的检索方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一个实施例的面向结构化医药信息的检索方法流程图；如图所示，该检索方法包括以下步骤：

S110，根据用户提供的一组关键词在结构化信息库中进行检索，其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性；

S120，分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度；

S130，根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。

图2为本发明一个较佳实施例的面向结构化医药信息的检索方法流程图。如图所示，本实施例分为线上、线下两部分，以下分别介绍。

线下部分是在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前进行的，具体包括：

构建标题/属性索引表，具体包括：

对所述结构化信息库进行预处理，具体包括：

计算并存储每条结构化信息的标题长度；

γ(I)＝∑_p∈R(I)S(t(I)，p(I))。

线上部分包括在用户输入一组检索关键词之后分别计算标题匹配度和属性匹配度：

通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度：

V (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一个条目I∈R(Q)的标题匹配度

α (I, Q) = \frac{1}{l (I_{title})} Σ_{q_{i} &Element; Q} l (q_{i}) \cdot δ (I, q_{i})

其中l(x)表示x的长度(含有的汉字个数)，

通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度：

V^{'} (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一结构化信息I∈R′(Q)的属性匹配度

β (I, Q) = Σ_{q_{i} &Element; Q} δ^{'} (I, q_{i})

其中，

在分别得到检索命中的每条结构化信息的标题匹配度和属性匹配度后，所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括：

获取返回给用户的命中的结构化信息集合R(Q)＝R(Q)∪R′(Q)；

计算每一命中的结构化信息I∈R(Q)的总匹配度

Ω(I,Q)＝a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)

其中，a、b、c为预先设定的权重常量；

检索特点：命中条目必须完整包含至少一个检索关键词

例如：用户输入的检索请求Q为“生地黄甘草”，包含两个检索关键词。切词词库C为“地黄、甘草”。结构化信息库中存在类型均为“本草”的结构化信息X、Y和Z。其中，X的标题为“地黄”，含有一个类型为“配伍应用”的属性px“地黄滋阴养血，配伍甘草、人参、大枣益心气，补脾气，以资气血生化之源”；Y的标题为“生甘草”，含有一个类型为“功用”的属性py“清热解毒”；Z的标题为“麻黄”，含有一个类型为“主治”的属性pz“风寒感冒，咳嗽气喘，风水水肿”。“配伍应用”、“功用”、“主治”类型的属性在“本草”类型的条目中，权重分别为0.3，0.4，0.4。a、b、c分别取100，10，1。

则检索过程如下：

首先，对检索关键词“生地黄”进行切词，得到“生”和“地黄”，然后分别从标题索引表中查找“生”和“地黄”的索引集合，得到V(生)为空集，V(地黄)为{X}，因此V(f(C,生地黄))＝；再对检索关键词“甘草”进行切词，得到“甘草”，并进而得到V(f(C,甘草))＝V(甘草)＝{Y}。进一步得到，R(Q)＝{(Yid，生甘草)}，且α(Y,Q)＝2/3，α(X,Q)＝α(Z,Q)＝0。

类似地，可以得到R′(Q)＝{(Xid,px)}，且β(X,Q)＝1，β(Y,Q)＝β(Z,Q)＝0。

根据本草类型的条目中各类型属性的权重，可得γ(X)＝0.3，γ(Y)＝γ(Z)＝0.4。

进一步可知Ω(X,Q)＝10.3，Ω(Y,Q)＝67.1，因此向用户返回的结果为Y和X，且由于Y的匹配度大于X，将放置在X之前。

与上述方法实施例相适应，以下为本发明一个面向结构化医药信息的检索系统实施例，该检索系统包括：

进一步地，上述检索系统还包括：

索引表构建模块，用于构建标题/属性索引表，具体为：

计算并存储每条结构化信息的标题长度；

γ(I)＝∑_p∈R(I)S(t(I)，p(I))。

进一步地，所述匹配度计算模块包括：

V (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一个条目I∈R(Q)的标题匹配度

α (I, Q) = \frac{1}{l (I_{title})} Σ_{q_{i} &Element; Q} l (q_{i}) \cdot δ (I, q_{i})

其中l(x)表示x的长度(含有的汉字个数)

进一步地，所述匹配度计算模块还包括：

V^{'} (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一结构化信息I∈R′(Q)的属性匹配度

β (I, Q) = Σ_{q_{i} &Element; Q} δ^{'} (I, q_{i})

其中，

获取返回给用户的命中的结构化信息集合R(Q)＝R(Q)∪R′(Q)；

计算每一命中的结构化信息I∈R(Q)的总匹配度

Ω(I,Q)＝a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)

其中，a、b、c为预先设定的权重常量；

上述实施例根据用户提供的一组(有序的)关键词来检索系统中已有的结构化信息(条目)，并利用匹配度计算方法计算命中条目与用户检索请求的匹配程度，然后依据匹配度的大小向用户返回检索结果，从而提高了检索命中条目与用户检索请求的匹配程度。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种面向结构化医药信息的检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的检索方法，其特征在于，在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤：

构建标题/属性索引表，具体包括：

对每个切词操作结果f(C,T)＝[c₁,c₂,...c_n]，在索引表以c_i为键值的索引集合V(c_i)中添加(I_id,T_type)，其中，I_id表示该条结构化信息I在结构化信息库中的识别号，T_type表示该条结构化信息I中标题/属性T的类型；以及

对所述结构化信息库进行预处理，具体包括：

计算并存储每条结构化信息的标题长度；

γ(I)＝∑_p∈R(I)S(t(I),p(I))。

3.根据权利要求2所述的检索方法，其特征在于，通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度：

V (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一个条目I∈R(Q)的标题匹配度

α (I, Q) = \frac{1}{l (I_{title})} Σ_{q_{i} &Element; Q} l (q_{i}) \cdot δ (I, q_{i})

其中l(x)表示x的长度(含有的汉字个数)，

4.根据权利要求3所述的检索方法，其特征在于，通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度：

V^{'} (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一结构化信息I∈R′(Q)的属性匹配度

β (I, Q) = Σ_{q_{i} &Element; Q} δ^{'} (I, q_{i})

其中，

5.根据权利要求4所述的检索方法，其特征在于，所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括：

获取返回给用户的命中的结构化信息集合R(Q)＝R(Q)∪R′(Q)；

计算每一命中的结构化信息I∈R(Q)的总匹配度

Ω(I,Q)＝a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)

其中，a、b、c为预先设定的权重常量；

6.一种面向结构化医药信息的检索系统，其特征在于，包括：

7.根据权利要求6所述的检索系统，其特征在于，还包括：

索引表构建模块，用于构建标题/属性索引表，具体为：

计算并存储每条结构化信息的标题长度；

γ(I)＝∑_p∈R(I)S(t(I)，p(I))。

8.根据权利要求7所述的检索系统，其特征在于，所述匹配度计算模块包括：

V (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一个条目I∈R(Q)的标题匹配度

α (I, Q) = \frac{1}{l (I_{title})} Σ_{q_{i} &Element; Q} l (q_{i}) \cdot δ (I, q_{i})

其中l(x)表示x的长度(含有的汉字个数)，

9.根据权利要求8所述的检索系统，其特征在于，所述匹配度计算模块还包括：

V^{'} (f (C, q_{i})) = \cap_{w_{i} &Element; f (C, q_{i})} V (w_{i});

设计算每一结构化信息I∈R′(Q)的属性匹配度

β (I, Q) = Σ_{q_{i} &Element; Q} δ^{'} (I, q_{i})

其中，

10.根据权利要求9所述的检索系统，其特征在于，所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为：

获取返回给用户的命中的结构化信息集合R(Q)＝R(Q)∪R′(Q)；

计算每一命中的结构化信息I∈R(Q)的总匹配度

Ω(I,Q)＝a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)

其中，a、b、c为预先设定的权重常量；