CN104035980A - 一种面向结构化医药信息的检索方法和系统 - Google Patents

一种面向结构化医药信息的检索方法和系统 Download PDF

Info

Publication number
CN104035980A
CN104035980A CN201410225580.4A CN201410225580A CN104035980A CN 104035980 A CN104035980 A CN 104035980A CN 201410225580 A CN201410225580 A CN 201410225580A CN 104035980 A CN104035980 A CN 104035980A
Authority
CN
China
Prior art keywords
structured message
title
user
retrieval
matching degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410225580.4A
Other languages
English (en)
Other versions
CN104035980B (zh
Inventor
唐力
王和平
周晋
黄权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Haiwei Credible Data Service Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410225580.4A priority Critical patent/CN104035980B/zh
Publication of CN104035980A publication Critical patent/CN104035980A/zh
Application granted granted Critical
Publication of CN104035980B publication Critical patent/CN104035980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种面向结构化医药信息的检索方法和系统,用以提高检索命中条目与用户检索请求的匹配程度,其中,该检索方法包括以下步骤:根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。

Description

一种面向结构化医药信息的检索方法和系统
技术领域
本发明涉及医药领域,具体而言,涉及一种面向结构化医药信息的检索方法和系统。
背景技术
医药行业中,结构化信息普遍而广泛存在,如:病证、医案、方剂、本草等。
随着信息化程度的日益提高,人们已经可以通过各种信息终端获取医药行业的信息,但如何提高检索命中条目与用户检索请求的匹配程度仍是一个亟需解决的问题。
发明内容
本发明提供一种面向结构化医药信息的检索方法和系统,用以提高检索命中条目与用户检索请求的匹配程度。
为达到上述目的,本发明提供了一种面向结构化医药信息的检索方法,包括以下步骤:
根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
进一步地,在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤:
构建标题/属性索引表,具体包括:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A∪B中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
对所述结构化信息库进行预处理,具体包括:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈R(I)S(t(I),p(I))。
进一步地,通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集 V ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一个条目I∈R(Q)的标题匹配度
α ( I , Q ) = 1 l ( I title ) Σ q i ∈ Q l ( q i ) · δ ( I , q i )
其中l(x)表示x的长度(含有的汉字个数),
进一步地,通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V′(wi),并求其构成的交集 V ′ ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一结构化信息I∈R′(Q)的属性匹配度
β ( I , Q ) = Σ q i ∈ Q δ ′ ( I , q i )
其中,
进一步地,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)∪R′(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
为达到上述目的,本发明还提供了一种面向结构化医药信息的检索系统,包括:
检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
进一步地,上述检索系统还包括:
索引表构建模块,用于构建标题/属性索引表,具体为:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A∪B中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
预处理模块,用于对所述结构化信息库进行预处理,具体为:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈R(I)S(t(I),p(I))。
进一步地,所述匹配度计算模块包括:
标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集 V ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一个条目I∈R(Q)的标题匹配度
α ( I , Q ) = 1 l ( I title ) Σ q i ∈ Q l ( q i ) · δ ( I , q i )
其中l(x)表示x的长度(含有的汉字个数),
进一步地,所述匹配度计算模块还包括:
属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V′(wi),并求其构成的交集 V ′ ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一结构化信息I∈R′(Q)的属性匹配度
β ( I , Q ) = Σ q i ∈ Q δ ′ ( I , q i )
其中,
进一步地,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)∪R′(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
本发明根据用户提供的一组(有序的)关键词来检索系统中已有的结构化信息(条目),并利用匹配度计算方法计算命中条目与用户检索请求的匹配程度,然后依据匹配度的大小向用户返回检索结果,从而提高了检索命中条目与用户检索请求的匹配程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的面向结构化医药信息的检索方法流程图;
图2为本发明一个较佳实施例的面向结构化医药信息的检索方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一个实施例的面向结构化医药信息的检索方法流程图;如图所示,该检索方法包括以下步骤:
S110,根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
S120,分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
S130,根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
图2为本发明一个较佳实施例的面向结构化医药信息的检索方法流程图。如图所示,本实施例分为线上、线下两部分,以下分别介绍。
线下部分是在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前进行的,具体包括:
构建标题/属性索引表,具体包括:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A∪B中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
对所述结构化信息库进行预处理,具体包括:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈R(I)S(t(I),p(I))。
线上部分包括在用户输入一组检索关键词之后分别计算标题匹配度和属性匹配度:
通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集 V ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一个条目I∈R(Q)的标题匹配度
α ( I , Q ) = 1 l ( I title ) Σ q i ∈ Q l ( q i ) · δ ( I , q i )
其中l(x)表示x的长度(含有的汉字个数),
通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V′(wi),并求其构成的交集 V ′ ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一结构化信息I∈R′(Q)的属性匹配度
β ( I , Q ) = Σ q i ∈ Q δ ′ ( I , q i )
其中,
在分别得到检索命中的每条结构化信息的标题匹配度和属性匹配度后,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)∪R′(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
检索特点:命中条目必须完整包含至少一个检索关键词
例如:用户输入的检索请求Q为“生地黄甘草”,包含两个检索关键词。切词词库C为“地黄、甘草”。结构化信息库中存在类型均为“本草”的结构化信息X、Y和Z。其中,X的标题为“地黄”,含有一个类型为“配伍应用”的属性px“地黄滋阴养血,配伍甘草、人参、大枣益心气,补脾气,以资气血生化之源”;Y的标题为“生甘草”,含有一个类型为“功用”的属性py“清热解毒”;Z的标题为“麻黄”,含有一个类型为“主治”的属性pz“风寒感冒,咳嗽气喘,风水水肿”。“配伍应用”、“功用”、“主治”类型的属性在“本草”类型的条目中,权重分别为0.3,0.4,0.4。a、b、c分别取100,10,1。
则检索过程如下:
首先,对检索关键词“生地黄”进行切词,得到“生”和“地黄”,然后分别从标题索引表中查找“生”和“地黄”的索引集合,得到V(生)为空集,V(地黄)为{X},因此V(f(C,生地黄))=;再对检索关键词“甘草”进行切词,得到“甘草”,并进而得到V(f(C,甘草))=V(甘草)={Y}。进一步得到,R(Q)={(Yid,生甘草)},且α(Y,Q)=2/3,α(X,Q)=α(Z,Q)=0。
类似地,可以得到R′(Q)={(Xid,px)},且β(X,Q)=1,β(Y,Q)=β(Z,Q)=0。
根据本草类型的条目中各类型属性的权重,可得γ(X)=0.3,γ(Y)=γ(Z)=0.4。
进一步可知Ω(X,Q)=10.3,Ω(Y,Q)=67.1,因此向用户返回的结果为Y和X,且由于Y的匹配度大于X,将放置在X之前。
与上述方法实施例相适应,以下为本发明一个面向结构化医药信息的检索系统实施例,该检索系统包括:
检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
进一步地,上述检索系统还包括:
索引表构建模块,用于构建标题/属性索引表,具体为:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A∪B中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
预处理模块,用于对所述结构化信息库进行预处理,具体为:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈R(I)S(t(I),p(I))。
进一步地,所述匹配度计算模块包括:
标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集 V ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一个条目I∈R(Q)的标题匹配度
α ( I , Q ) = 1 l ( I title ) Σ q i ∈ Q l ( q i ) · δ ( I , q i )
其中l(x)表示x的长度(含有的汉字个数)
进一步地,所述匹配度计算模块还包括:
属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V′(wi),并求其构成的交集 V ′ ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一结构化信息I∈R′(Q)的属性匹配度
β ( I , Q ) = Σ q i ∈ Q δ ′ ( I , q i )
其中,
进一步地,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)∪R′(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
上述实施例根据用户提供的一组(有序的)关键词来检索系统中已有的结构化信息(条目),并利用匹配度计算方法计算命中条目与用户检索请求的匹配程度,然后依据匹配度的大小向用户返回检索结果,从而提高了检索命中条目与用户检索请求的匹配程度。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种面向结构化医药信息的检索方法,其特征在于,包括以下步骤:
根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
2.根据权利要求1所述的检索方法,其特征在于,在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤:
构建标题/属性索引表,具体包括:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A∪B中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,...cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型;以及
对所述结构化信息库进行预处理,具体包括:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈R(I)S(t(I),p(I))。
3.根据权利要求2所述的检索方法,其特征在于,通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集 V ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一个条目I∈R(Q)的标题匹配度
α ( I , Q ) = 1 l ( I title ) Σ q i ∈ Q l ( q i ) · δ ( I , q i )
其中l(x)表示x的长度(含有的汉字个数),
4.根据权利要求3所述的检索方法,其特征在于,通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V′(wi),并求其构成的交集 V ′ ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一结构化信息I∈R′(Q)的属性匹配度
β ( I , Q ) = Σ q i ∈ Q δ ′ ( I , q i )
其中,
5.根据权利要求4所述的检索方法,其特征在于,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)∪R′(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
6.一种面向结构化医药信息的检索系统,其特征在于,包括:
检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;
匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
7.根据权利要求6所述的检索系统,其特征在于,还包括:
索引表构建模块,用于构建标题/属性索引表,具体为:
设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A∪B中的词进行排序,得到切词词表C;
根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f(C,T)=[c1,c2,…cn],其中,ci∈T(即ci是T的子字符串),ci∈C,而且假设ci=T(x,y),n为自然数,i为大于等于1且小于等于n的自然数,x,y为满足0≤x<y<length(T)的整数,length(T)表示T中含有的字符数;
对每个切词操作结果f(C,T)=[c1,c2,…cn],在索引表以ci为键值的索引集合V(ci)中添加(Iid,Ttype),其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
预处理模块,用于对所述结构化信息库进行预处理,具体为:
计算并存储每条结构化信息的标题长度;
用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,p(I)表示结构化信息I的名称为p的属性,S(t,p)表示类型为t的结构化信息中名称为p的属性的权重,P(I)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
γ(I)=∑p∈R(I)S(t(I),p(I))。
8.根据权利要求7所述的检索系统,其特征在于,所述匹配度计算模块包括:
标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
对于用户输入的检索关键词列表Q=[q1,q2,…,qn]中的每一个关键词qi,执行以下步骤:
用切词词表C对每一个关键词qi切词,设f(C,qi)=[w1,w2,…,wn];
从标题索引表中查找键值为wi的索引集合V(wi),并求其构成的交集 V ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一个条目I∈R(Q)的标题匹配度
α ( I , Q ) = 1 l ( I title ) Σ q i ∈ Q l ( q i ) · δ ( I , q i )
其中l(x)表示x的长度(含有的汉字个数),
9.根据权利要求8所述的检索系统,其特征在于,所述匹配度计算模块还包括:
属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度:
从属性索引表中查找键值为wi∈f(C,qi)的索引集合V′(wi),并求其构成的交集 V ′ ( f ( C , q i ) ) = ∩ w i ∈ f ( C , q i ) V ( w i ) ;
计算每一结构化信息I∈R′(Q)的属性匹配度
β ( I , Q ) = Σ q i ∈ Q δ ′ ( I , q i )
其中,
10.根据权利要求9所述的检索系统,其特征在于,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为:
获取返回给用户的命中的结构化信息集合R(Q)=R(Q)∪R′(Q);
计算每一命中的结构化信息I∈R(Q)的总匹配度
Ω(I,Q)=a·α(I,Q)+b·β(I,Q)+c·γ(I,Q)
其中,a、b、c为预先设定的权重常量;
根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
CN201410225580.4A 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统 Active CN104035980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410225580.4A CN104035980B (zh) 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410225580.4A CN104035980B (zh) 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统

Publications (2)

Publication Number Publication Date
CN104035980A true CN104035980A (zh) 2014-09-10
CN104035980B CN104035980B (zh) 2017-08-04

Family

ID=51466750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410225580.4A Active CN104035980B (zh) 2014-05-26 2014-05-26 一种面向结构化医药信息的检索方法和系统

Country Status (1)

Country Link
CN (1) CN104035980B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669959A (zh) * 2018-11-27 2019-04-23 武汉达梦数据库有限公司 一种结构化数据库的一键查询方法和装置
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN110659422A (zh) * 2019-09-27 2020-01-07 百度在线网络技术(北京)有限公司 检索方法、装置、电子设备及存储介质
WO2021207936A1 (zh) * 2020-04-14 2021-10-21 深圳市欢太科技有限公司 文本匹配方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959960B (zh) * 2016-01-11 2020-07-03 杭州海康威视数字技术股份有限公司 数据获取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115193A1 (en) * 2001-12-13 2003-06-19 Fujitsu Limited Information searching method of profile information, program, recording medium, and apparatus
US20030125984A1 (en) * 2001-11-02 2003-07-03 Rao R. Bharat Patient data mining for automated compliance
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102890725A (zh) * 2012-11-02 2013-01-23 瑞庭网络技术(上海)有限公司 搜索引擎的结果排序方法
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
CN103514181A (zh) * 2012-06-19 2014-01-15 阿里巴巴集团控股有限公司 一种搜索方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125984A1 (en) * 2001-11-02 2003-07-03 Rao R. Bharat Patient data mining for automated compliance
US20030115193A1 (en) * 2001-12-13 2003-06-19 Fujitsu Limited Information searching method of profile information, program, recording medium, and apparatus
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN103309886A (zh) * 2012-03-13 2013-09-18 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
CN103514181A (zh) * 2012-06-19 2014-01-15 阿里巴巴集团控股有限公司 一种搜索方法和装置
CN102890725A (zh) * 2012-11-02 2013-01-23 瑞庭网络技术(上海)有限公司 搜索引擎的结果排序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王静: ""基于本体的中医文献诊疗信息的智能检索示范研究"", 《中国博士学位论文全文数据库 医药卫生科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN110083817B (zh) * 2018-01-25 2023-09-12 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN109669959A (zh) * 2018-11-27 2019-04-23 武汉达梦数据库有限公司 一种结构化数据库的一键查询方法和装置
CN110659422A (zh) * 2019-09-27 2020-01-07 百度在线网络技术(北京)有限公司 检索方法、装置、电子设备及存储介质
WO2021207936A1 (zh) * 2020-04-14 2021-10-21 深圳市欢太科技有限公司 文本匹配方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104035980B (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
US10853344B2 (en) Understanding tables for search
US10296582B2 (en) Method and apparatus for determining morpheme importance analysis model
Resnik et al. The web as a parallel corpus
US20180165712A1 (en) Method and apparatus for composing search phrases, distributing ads and searching product information
Liu et al. Author name disambiguation for p ub m ed
EP3115913B1 (en) Systems and methods for performing search and retrieval of electronic documents using a big index
CN107818815B (zh) 电子病历的检索方法及系统
CN104035980A (zh) 一种面向结构化医药信息的检索方法和系统
US20140344195A1 (en) System and method for machine learning and classifying data
CN104102626A (zh) 一种用于短文本语义相似度计算的方法
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
WO2023029513A1 (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN106815265B (zh) 裁判文书的搜索方法及装置
US20180173738A1 (en) Constant Range Minimum Query
Mi et al. Efficient algorithms for fast integration on large data sets from multiple sources
CN104298732A (zh) 一种面向网络用户的个性化文本排序及推荐方法
Celko Joe Celko's Complete Guide To NoSQL
CN102955853A (zh) 一种跨语言文摘的生成方法及装置
CN110674365A (zh) 一种搜索方法、装置、设备及存储介质
TW201535136A (zh) 建立輸入建議的資料處理方法和系統
EP3227796A1 (en) Real time indexing
CN106909647B (zh) 一种数据检索方法及装置
Brisaboa et al. Self-indexing natural language
Ernst et al. Bionex: A system for biomedical news event exploration
CN114791955A (zh) 中医药文献语料库与知识库一体化系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221213

Address after: No. 1201, Floor 12, No. 33, Guangju Road, Jianye District, Nanjing, Jiangsu Province, 210019

Patentee after: Nanjing Haiwei credible data service Co.,Ltd.

Address before: No. 603, Block A, Nanxincang Business Building, No. 22 A, Dongsi Shitiao, Dongcheng District, Beijing 100007

Patentee before: Wang Heping