CN104035980B - 一种面向结构化医药信息的检索方法和系统 - Google Patents

一种面向结构化医药信息的检索方法和系统 Download PDF

Info

Publication number
CN104035980B
CN104035980B CN201410225580.4A CN201410225580A CN104035980B CN 104035980 B CN104035980 B CN 104035980B CN 201410225580 A CN201410225580 A CN 201410225580A CN 104035980 B CN104035980 B CN 104035980B
Authority
CN
China
Prior art keywords
structured message
title
attribute
user
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410225580.4A
Other languages
English (en)
Other versions
CN104035980A (zh
Inventor
唐力
王和平
周晋
黄权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Haiwei Credible Data Service Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410225580.4A priority Critical patent/CN104035980B/zh
Publication of CN104035980A publication Critical patent/CN104035980A/zh
Application granted granted Critical
Publication of CN104035980B publication Critical patent/CN104035980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Abstract

本发明公开一种面向结构化医药信息的检索方法和系统,用以提高检索命中条目与用户检索请求的匹配程度,其中,该检索方法包括以下步骤:根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。

Description

一种面向结构化医药信息的检索方法和系统
技术领域
本发明涉及医药领域,具体而言,涉及一种面向结构化医药信息的检索方法和系统。
背景技术
医药行业中,结构化信息普遍而广泛存在,如:病证、医案、方剂、本草等。
随着信息化程度的日益提高,人们已经可以通过各种信息终端获取医药行业的信息,但如何提高检索命中条目与用户检索请求的匹配程度仍是一个亟需解决的问题。
发明内容
本发明提供一种面向结构化医药信息的检索方法和系统,用以提高检索命中条目与用户检索请求的匹配程度。
为达到上述目的,本发明提供了一种面向结构化医药信息的检索方法,包括以下步骤:
根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
进一步地,在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤:
构建标题/属性索引表,具体包括:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对AUB中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
对所述结构化信息库进行预处理,具体包括:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈P(I)S(t(I),p(I))。
进一步地,通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集
计算每一个条目I∈R(Q)的标题匹配度
其中l(x)表示x的长度(含有的汉字个数),
进一步地,通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V'(wi),并求其构成的交集
计算每一结构化信息I∈R'(Q)的属性匹配度
其中,
进一步地,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)UR'(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
为达到上述目的,本发明还提供了一种面向结构化医药信息的检索系统,包括:
检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
进一步地,上述检索系统还包括:
索引表构建模块,用于构建标题/属性索引表,具体为:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对AUB中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
预处理模块,用于对所述结构化信息库进行预处理,具体为:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈P(I)S(t(I),p(I))。
进一步地,所述匹配度计算模块包括:
标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集
计算每一个条目I∈R(Q)的标题匹配度
其中l(x)表示x的长度(含有的汉字个数),
进一步地,所述匹配度计算模块还包括:
属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V'(wi),并求其构成的交集
计算每一结构化信息I∈R'(Q)的属性匹配度
其中,
进一步地,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)UR'(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
本发明根据用户提供的一组(有序的)关键词来检索系统中已有的结构化信息(条目),并利用匹配度计算方法计算命中条目与用户检索请求的匹配程度,然后依据匹配度的大小向用户返回检索结果,从而提高了检索命中条目与用户检索请求的匹配程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的面向结构化医药信息的检索方法流程图;
图2为本发明一个较佳实施例的面向结构化医药信息的检索方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一个实施例的面向结构化医药信息的检索方法流程图;如图所示,该检索方法包括以下步骤:
S110,根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
S120,分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
S130,根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
图2为本发明一个较佳实施例的面向结构化医药信息的检索方法流程图。如图所示,本实施例分为线上、线下两部分,以下分别介绍。
线下部分是在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前进行的,具体包括:
构建标题/属性索引表,具体包括:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对AUB中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
对所述结构化信息库进行预处理,具体包括:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈P(I)S(t(I),p(I))。
线上部分包括在用户输入一组检索关键词之后分别计算标题匹配度和属性匹配度:
通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集
计算每一个条目I∈R(Q)的标题匹配度
其中l(x)表示x的长度(含有的汉字个数),
通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V'(wi),并求其构成的交集
计算每一结构化信息I∈R'(Q)的属性匹配度
其中,
在分别得到检索命中的每条结构化信息的标题匹配度和属性匹配度后,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)UR'(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
检索特点:命中条目必须完整包含至少一个检索关键词
例如:用户输入的检索请求Q为“生地黄甘草”,包含两个检索关键词。切词词库C为“地黄、甘草”。结构化信息库中存在类型均为“本草”的结构化信息X、Y和Z。其中,X的标题为“地黄”,含有一个类型为“配伍应用”的属性px“地黄滋阴养血,配伍甘草、人参、大枣益心气,补脾气,以资气血生化之源”;Y的标题为“生甘草”,含有一个类型为“功用”的属性py“清热解毒”;Z的标题为“麻黄”,含有一个类型为“主治”的属性pz“风寒感冒,咳嗽气喘,风水水肿”。“配伍应用”、“功用”、“主治”类型的属性在“本草”类型的条目中,权重分别为0.3,0.4,0.4。a、b、c分别取100,10,1。
则检索过程如下:
首先,对检索关键词“生地黄”进行切词,得到“生”和“地黄”,然后分别从标题索引表中查找“生”和“地黄”的索引集合,得到V(生)为空集,V(地黄)为{X},因此V(f(C,生地黄))=;再对检索关键词“甘草”进行切词,得到“甘草”,并进而得到V(f(C,甘草))=V(甘草)={Y}。进一步得到,R(Q)={(Yid,生甘草)},且α(Y,Q)=2/3,α(X,Q)=α(Z,Q)=0。
类似地,可以得到R'(Q)={(Xid,px)},且β(X,Q)=1,β(Y,Q)=β(Z,Q)=0。
根据本草类型的条目中各类型属性的权重,可得γ(X)=0.3,γ(Y)=γ(Z)=0.4。
进一步可知Ω(X,Q)=10.3,Ω(Y,Q)=67.1,因此向用户返回的结果为Y和X,且由于Y的匹配度大于X,将放置在X之前。
与上述方法实施例相适应,以下为本发明一个面向结构化医药信息的检索系统实施例,该检索系统包括:
检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
进一步地,上述检索系统还包括:
索引表构建模块,用于构建标题/属性索引表,具体为:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对AUB中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
预处理模块,用于对所述结构化信息库进行预处理,具体为:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈P(I)S(t(I),p(I))。
进一步地,所述匹配度计算模块包括:
标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集
计算每一个条目I∈R(Q)的标题匹配度
其中l(x)表示x的长度(含有的汉字个数),
进一步地,所述匹配度计算模块还包括:
属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V'(wi),并求其构成的交集
计算每一结构化信息I∈R'(Q)的属性匹配度
其中,
进一步地,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)UR'(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
上述实施例根据用户提供的一组(有序的)关键词来检索系统中已有的结构化信息(条目),并利用匹配度计算方法计算命中条目与用户检索请求的匹配程度,然后依据匹配度的大小向用户返回检索结果,从而提高了检索命中条目与用户检索请求的匹配程度。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (8)

1.一种面向结构化医药信息的检索方法,其特征在于,包括以下步骤:
根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果,
其中,在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤:
构建标题/属性索引表,具体包括:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对AUB中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型;以及
对所述结构化信息库进行预处理,具体包括:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈P(I)S(t(I),p(I))。
2.根据权利要求1所述的检索方法,其特征在于,通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集
计算每一个条目I∈R(Q)的标题匹配度
其中l(x)表示x的长度(含有的汉字个数),
3.根据权利要求2所述的检索方法,其特征在于,通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V'(wi),并求其构成的交集
计算每一结构化信息I∈R'(Q)的属性匹配度
其中,
4.根据权利要求3所述的检索方法,其特征在于,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)UR'(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
5.一种面向结构化医药信息的检索系统,其特征在于,包括:
检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果;
索引表构建模块,用于构建标题/属性索引表,具体为:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对AUB中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
预处理模块,用于对所述结构化信息库进行预处理,具体为:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈P(I)S(t(I),p(I))。
6.根据权利要求5所述的检索系统,其特征在于,所述匹配度计算模块包括:
标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集
计算每一个条目I∈R(Q)的标题匹配度
其中l(x)表示x的长度(含有的汉字个数),
7.根据权利要求6所述的检索系统,其特征在于,所述匹配度计算模块还包括:
属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V'(wi),并求其构成的交集
计算每一结构化信息I∈R'(Q)的属性匹配度
其中,
8.根据权利要求7所述的检索系统,其特征在于,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)UR'(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
CN201410225580.4A 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统 Active CN104035980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410225580.4A CN104035980B (zh) 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410225580.4A CN104035980B (zh) 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统

Publications (2)

Publication Number Publication Date
CN104035980A CN104035980A (zh) 2014-09-10
CN104035980B true CN104035980B (zh) 2017-08-04

Family

ID=51466750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410225580.4A Active CN104035980B (zh) 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统

Country Status (1)

Country Link
CN (1) CN104035980B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959960B (zh) * 2016-01-11 2020-07-03 杭州海康威视数字技术股份有限公司 数据获取方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083817B (zh) * 2018-01-25 2023-09-12 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN109669959B (zh) * 2018-11-27 2020-08-18 武汉达梦数据库有限公司 一种结构化数据库的一键查询方法和装置
CN110659422A (zh) * 2019-09-27 2020-01-07 百度在线网络技术(北京)有限公司 检索方法、装置、电子设备及存储介质
WO2021207936A1 (zh) * 2020-04-14 2021-10-21 深圳市欢太科技有限公司 文本匹配方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1636210A (zh) * 2001-11-02 2005-07-06 美国西门子医疗解决公司 用于临床试验的病人数据挖掘
JP4011906B2 (ja) * 2001-12-13 2007-11-21 富士通株式会社 プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
CN102073725B (zh) * 2011-01-11 2013-05-08 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN103514181B (zh) * 2012-06-19 2018-07-31 阿里巴巴集团控股有限公司 一种搜索方法和装置
CN102890725B (zh) * 2012-11-02 2015-08-19 瑞庭网络技术(上海)有限公司 搜索引擎的结果排序方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于本体的中医文献诊疗信息的智能检索示范研究";王静;《中国博士学位论文全文数据库 医药卫生科技辑》;20130115(第1期);第6.2.4-6.2.5节、第7章、图10-27、表17-18 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959960B (zh) * 2016-01-11 2020-07-03 杭州海康威视数字技术股份有限公司 数据获取方法及装置

Also Published As

Publication number Publication date
CN104035980A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104035980B (zh) 一种面向结构化医药信息的检索方法和系统
US10853344B2 (en) Understanding tables for search
US9424251B2 (en) Method for extracting semantic distance from mathematical sentences and classifying mathematical sentences by semantic distance, device therefor, and computer readable recording medium
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
WO2021159640A1 (zh) 基于人工智能的药品推荐方法及相关设备
CN104199855B (zh) 一种针对中医药学信息的检索系统和方法
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及系统
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN107463658A (zh) 文本分类方法及装置
CN106909572A (zh) 一种问答知识库的构建方法和装置
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
CN109344187A (zh) 一种司法判决书案情信息结构化处理系统
Kent et al. Features based text similarity detection
CN104199938B (zh) 基于rss的农用土地信息发送方法和系统
CN107680689A (zh) 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN106777996A (zh) 一种基于Solr的体检数据搜索系统
CN109753602A (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN108509419A (zh) 中医药古籍文献分词和词性标引方法及系统
WO2023226262A1 (zh) 基于智能联想的疾病内容推送方法、装置、设备及介质
CN112612845A (zh) 一种组织机构视图实现方法、装置、电子设备及可读存储介质
CN112635071A (zh) 融合中西医知识的糖尿病知识图谱构建方法
CN112635078A (zh) 一种中医药知识图谱构建与可视化方法
Zhang et al. Recommending related tables
CN107844596A (zh) 一种文章检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221213

Address after: No. 1201, Floor 12, No. 33, Guangju Road, Jianye District, Nanjing, Jiangsu Province, 210019

Patentee after: Nanjing Haiwei credible data service Co.,Ltd.

Address before: No. 603, Block A, Nanxincang Business Building, No. 22 A, Dongsi Shitiao, Dongcheng District, Beijing 100007

Patentee before: Wang Heping

TR01 Transfer of patent right