CN110706807B - 一种基于本体语义相似度的医学问答方法 - Google Patents

一种基于本体语义相似度的医学问答方法 Download PDF

Info

Publication number
CN110706807B
CN110706807B CN201910867117.2A CN201910867117A CN110706807B CN 110706807 B CN110706807 B CN 110706807B CN 201910867117 A CN201910867117 A CN 201910867117A CN 110706807 B CN110706807 B CN 110706807B
Authority
CN
China
Prior art keywords
similarity
semantic
concept
sentence
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910867117.2A
Other languages
English (en)
Other versions
CN110706807A (zh
Inventor
郭新龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sihaixintong Technology Co ltd
Original Assignee
Beijing Sihaixintong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sihaixintong Technology Co ltd filed Critical Beijing Sihaixintong Technology Co ltd
Priority to CN201910867117.2A priority Critical patent/CN110706807B/zh
Publication of CN110706807A publication Critical patent/CN110706807A/zh
Application granted granted Critical
Publication of CN110706807B publication Critical patent/CN110706807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于本体语义相似度的医学问答方法,通过将医学领域用户常见问题与语义分析,语义相似度计算,本体等相关技术结合,提出了一种综合的语义相似度计算方法,并结合浅层语义分析和文本分析技术,提出了基于语义相似度的医学问答方法。本发明中的语义相似度计算方法结合了句子表层的相似度,如句长,词性等,以及基于概念词的语义相似度,并且对于概念词相似度的计算采用了属性和距离综合的方法。使得本发明的医学问答系统可实现五大类问题(方式、时间、程度、数量、实体)处理,达到80%以上的准确率。五类问题基本涵盖基础医学领域的学科问题,较好地实现了系统的功能。

Description

一种基于本体语义相似度的医学问答方法
技术领域
本发明涉及问答系统技术领域,特别是指一种基于本体语义相似度的医学问答方法。
背景技术
问答系统是融合了自然语言处理和信息检索技术的产品。根据涉及范围的不同,可以分为开放领域和限定领域两个大类。当前领域本体在问答系统中的应用主要体现在对领域概念的分类方面,缺乏对用户问句的语义理解和处理。
此外,自然语言处理会涉及到语义相似度的计算,其定义如下:
Dekang Lira认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:
Figure GDA0002810482730000011
其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。刘群、李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。对于两个词语W1、W2,如果记其相似度为Sim(W1,W2),其词语距离为Dis(Wl,W2),根据刘群、李素建的公式:
Figure GDA0002810482730000012
其中是α一个可调节的参数。n的含义是当相似度为0.5时的词语距离值。
词语距离和词语相似度是一对词语的相同关系特征的不同表现形式,如果两个概念之间的语义距离越近,就认为它们越相似,因此二者之间可以给出一个简单对应关系:
Figure GDA0002810482730000021
其中,Dis(W1,W2)为数中W1、W2所代表的结点在数中的距离,k为比例系数。
一般地说,相似度一般被定义为一个0到1之间的实数。特别地,当两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0。
目前,关于语义相似度的计算主要有以下方式:
1、基于句法结构的相似度算法
基于树的语义相似度计算的算法大体上分为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度。一般是利用一部语义词典(如Wordnet,Hownet),语义词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。
2、基于本体的语义相似度算法
本体概念语义相似度计算是自然语言处理中的重点,也是人工智能领域中的难点之一。本体概念语义相似度计算的理论基础来自离散数学中的图论和树的匹配理论,但这种思想没有考虑概念的语义信息。一般在不同的知识领域中,概念的相似度被赋予不同的含义。例如,在信息整合中,相似度通常指多个文本之间匹配的相关程度。在信息检索领域,相似度用来反映用户查询内容与被检索文本在语义上的相关度。相似度越高,表示被检索文本与用户的需求越符合。同时,由于词语语义多元化的特征,即相同的词语在不同的语境中可能具有不同的语义,因此,在本体语义相似度计算中充分考虑概念的语义信息成为近年来本体概念相似度研究的热点。
而单一地采用上述现有的语义相似度的计算方法进行语义计算的准确率不够理想,不能满足医学领域问答系统的应用需求。
发明内容
本发明要解决的技术问题是提供一种基于本体语义相似度的医学问答方法,通过提出一种用于语义相似度计算的综合计算模型,实现对现有计算方法的整合,有效提高语义相似度计算的准确率;并在此基础上结合浅层语义分析和文本分析技术,实现基于本体语义相似度的医学问答方案。
为解决上述技术问题,本发明提供一种基于本体语义相似度的医学问答方法,所述基于本体语义相似度的医学问答方法包括:
根据预设词库对用户提问的自然语言问句进行分词处理;
对于分词后的问句中的专业词汇采用基于本体的概念相似度方法计算词语语义相似度,对于其他词汇采用知网结合本体计算词语语义相似度;
根据计算出的词语语义相似度,计算统计句子语义相似度和句子结构相似度,并将计算出的句子语义相似度和句子结构相似度进行综合,计算出用户提问的问句与预设语料库中问句的句子相似度;
根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案作为用户提问问题的答案。
进一步地,所述根据预设词库对用户提问的自然语言问句进行分词处理,具体为:根据预设词库对用户提问的自然语言问句通过正向最大匹配的方法进行分词处理,并将其中的未登记词借助于预设分词工具添加到预设词库中。
进一步地,在根据预设词库对用户提问的自然语言问句进行分词处理后,所述方法还包括:对于分好词的问句根据词的类型,将属于停用词库的词删除。
进一步地,在所述根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案后,所述方法还包括:
按照句子相似度大小对抽取的问句及其答案进行排序,选取前五个问句及其答案作为用户提问问题的答案。
进一步地,所述计算统计句子结构相似度,具体为:
采用基于规则的方法计算句子结构相似度,所述基于规则的方法结合词距,句长,同时考虑词性的作用,综合三个方面确定句子的结构相似度;其中,
词距相似度的公式如下:
Figure GDA0002810482730000041
式中,SameDIs(Qi)表示Q1和Q2中相同关键词在Qi中的距离,若关键词重复出现,则以最大距离为准,Dis(Qi)表示句子关键词中最左及最右关键词之间的距离,若关键词重复出现,则以最小距离为准;
句长相似度的公式如下:
Figure GDA0002810482730000042
式中,Len(Q1)和Len(Q2)分别表示两个句子的长度;
词性相似度的公式如下:
Figure GDA0002810482730000043
式中,WordPro(Q1)和WordPro(Q2)分别表示句子Q1和Q2中关键词的权值,SameWordPro(Q1,Q2)表示句子Q1和Q2中相同关键词的权值;当句子Q1和Q2中关键词全都相同时,分母达到最小值;
结合所述词距相似度、句长相似度,以及词性相似度,将三种相似度进行线性融合,得到句子结构相似度为:
SynSim=λ1LenSim(Q1,Q2)+λ2DisSim(Q1,Q2)+λ3WordProSim(Q1,Q2) (4)
式中,λ1,λ2,λ3为权重系数,代表对三种相似度的偏重程度。
进一步地,所述计算统计句子语义相似度具体为:
基于概念语义相似度计算句子语义相似度,所述概念语义相似度计算包括基于距离的概念语义相似度计算、基于属性的概念语义相似度计算和基于主成分分析的概念语义相似度混合计算。
进一步地,所述基于距离的概念语义相似度计算,具体为:
考虑领域本体类的层次关系,利用语义重合度、语义层次深度、语义距离和语义距离多种因素,来计算概念的语义相似度;其中,
语义重合度计算公式为:
Figure GDA0002810482730000044
式中,ParentNum(i)表示i的父节点个数;分子表示a和b相同父节点的个数;分母表示a和b父节点个数较多的那个;
语义层次深度是指概念在结构树中所处层次的深度;两个概念的语义相似度与他们深度之和呈正相关关系,与他们的深度之差呈负相关关系;假设根节点R的深度为1,i节点的父节点用Parent(i)表示,则非根节点i在本体结构树中的深度公式为:
Depth(i)=Depth(Parent(i))+1 (6)
本体树T的深度为:
Depth(T)=Max(Depth(i)) (7)
即本体树的深度取树中节点的最大深度;
语义距离对应的相似度公式为:
Figure GDA0002810482730000051
式中,Dis(a,b)表示节点a和b在本体结构树中的最短路径边数;
语义密度对应的相似度公式如下:
Figure GDA0002810482730000052
式中,BrotherNum(i)为节点i的兄弟节点的个数;
基于公式(5)、公式(6)、公式(7)、公式(8)和公式(9),得到基于距离的概念语义相似度的计算模型:
Sim1(a,b)=αSimoverlap(a,b)-βSimDis(a,b)-γSimDen(a,b) (10)
式中,α,β,γ为权重系数。
进一步地,所述基于属性的概念语义相似度计算的模型如下:
Sim2(c,d)=αProperties(c∩d)-βProperties(c-d)-γProperties(d-c)(11)
其中,Properties(c∩d)表示概念c和d所拥有的公共属性的集合,Properties(c-d)表示概念c拥有而概念d不拥有的属性集合,Properties(d-c)则表示概念d拥有而概念c不拥有的属性集合。
进一步地,所述基于主成分分析的概念语义相似度混合计算,具体为:
基于主成分分析法对基于距离因素和基于属性因素计算的数据进行分析,动态计算出各个因素的权重;计算出权重后对多因素的计算结果进行加权线性相加得到最终概念语义相似度;其过程包括:
将基于距离的相似度和基于属性的相似度作为两个维度,通过多个样本的计算得到相似度矩阵作为输入样本矩阵;
对所述输入样本矩阵进行矩阵标准化变换为标准矩阵Z,并求出相关系数矩阵R1;
求出相关系数矩阵R1的特征方程的32个特征根以确定主成分;
解方程组单位特征向量;
转换标准化后的指标变量为主成分;
将两个主成分进行加权并线性求和,即得最终概念语义相似度值,相应的权值为各个主成分的贡献率。
进一步地,设句子Q1和Q2分别含有m个概念W11 ... W1m和n个概念W21 ... W2n
所述基于概念语义相似度计算句子语义相似度,具体为:
从Q1中选出一个概念分别与Q2中的n个概念,计算概念语义相似度,直至Q1中概念循环完为止,得到概念语义相似度矩阵:
Figure GDA0002810482730000061
计算第一个概念集与第二个概念集的概念语义平均最大相似度
Figure GDA0002810482730000062
计算第二个概念集与第一个概念集的概念的平均最大相似度
Figure GDA0002810482730000063
计算公式(13)和(14)结果,求平均值,得到句子语义相似度
Figure GDA0002810482730000064
所述用户提问的问句与预设语料库中问句的句子相似度定义如下:
Sim=(1-η)SynSim+ηSemSim (16)
其中,η为权重系数,当η为1时,表示只使用语义相似度;当η为0时表示只使用句子结构相似度。
本发明的上述技术方案的有益效果如下:
本发明通过将医学领域用户常见问题与语义分析,语义相似度计算,本体等相关技术结合,提出了一种综合的语义相似度计算方法,实现了对现有计算方法的整合,有效提高了语义相似度计算的准确率;并在此基础上结合浅层语义分析和文本分析技术,实现了基于本体语义相似度的医学问答方法,该方法可实现五大类问题(方式、时间、程度、数量、实体)处理,达到80%以上准确率。五类问题基本涵盖基础医学领域的学科问题,较好地实现了系统的功能。
附图说明
图1为本发明的基于本体语义相似度的医学问答方法的流程图;
图2为语义角色标注效果示意图;
图3为候选答案收集模块流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本实施例提供一种基于本体语义相似度的医学问答方法,本实施例包括:
1、系统知识库的构建
本实施例中所用到的本体是使用RDF/RDFS语言来表示的。而知识库构建是以PA结构为基础动态构建的。PA结构由谓词和语义组成,根据PA结构的这种特点,本实施例将本体分为事件类本体和论元类本体。其中,事件类本体对应着PA结构中的谓词,它们描述的是动词性概念。比如改善、缓解……药品、症状这样的概念。事件类本体中有一个通用的事件类,其他的事件都是他的子类。论元类本体对应着PA结构中的论元,他们描述的是一种名词性概念,比如药品、症状这样的概念描述。根据PA结构的语义的特点,论元类本体又可分为一些子类:方式、时间、数量、人称代词、意义、程度等等,这些可以根据背景本体所涉及到的领域来进行设计。
首先是定义的通用事件类。
<事件,rdf:type,rdfs:Class>
谓词P以及其6个核心语义角色。这些语义都为事件类的属性。
<P,rdf:type,rdf:property>
<A0,rdf:type,rdf:property>
......
<A5,rdf:type,rdf:property>
接下来是15个附加语义。
<ADV,rdf:type,rdf:property>
……
<PSE,rdf:type,rdf:property>
定义语义的约束关系,这里以MNR语义为例。MNR表示的是“方式”语义,因此本实施例规定MNR属性的值域为“方式”类。
<MNR,rdf:domain,事件>
<MNR,rdf:range,Manner>
这样,根据上面定义的背景知识,就可以构建“通过安神补脑液,患者改善了失眠”了。
<安神补脑液,rdf:type,Manner>
<事件1,rdf:type,事件>
<事件1,P,改善>
<事件1,A0,患者>
<事件1,A1,失眠>
<事件1,Manner,安神补脑液>
这种方式直接,能够涵盖所有的PA结构。对于上文所提到的会见事件来说,如果知识库中有特定的“改善事件”类,它是通用事件的子类,相对于上文定义的通用事件,本实施例将其定义为特定事件,它根据特定的某一个事件进行了一些专门的定义。
例如,“改善事件”包含“改善方”和“被改善方”两个属性,其定义域为“改善事件”类,值域为“药品症状”类。相关的定义如下。
<药品症状,rdf:type,rdfs:Class>
<改善事件,rdfs:subClassOf,事件>
<改善方,rdf:type,rdf:property>
<改善方,rdf:range,药品症状>
<改善方,rdf:domain,改善事件>
<被改善方,rdf:type,rdf:property>
<被改善方,rdf:range,事物的发展>
<被改善方,rdf:domain,改善事件>
相比通用的事件类表现方式,这种方式更能体现特定事件的特点,所以本发明采用的是该方式。
2、问句预处理
问题分类模块定义问题结构、类型、枚举方式。系统对问题进行分词和词性标注处理后,该模块把问题结构分为:热词、问词、映射词。
2.1分词和词性标注
以“通过安神补脑液,患者改善了失眠”为例,词法分析后得到的结构如图2所示,可以看到句子被分成了一个个的词,每个词的词性也识别了出来。
2.2语义角色标注
语义角色标注(Semantic Role Labeling,SRL)是一种基于PA结构的浅层语义分析方法,它采用“谓语-动词-角色”的结构形式,标注句法成分为给定谓语动词的语义角色,每个语义角色被赋予一定的语义含义。如施事、受事、时间和地点等。对于上面的“改善”例子,语义角色标注的结果如图2所示。
其中谓词“改善”。“患者”是它的施事(一般用A0表示),而“失眠”则是它的受事(一般用A1表示),安神补脑液是它的方式(一般用MNR表示)
PA结构中的核心的语义角色为A0-5六种,A0通常表示动作的施事,A1通常表示动作的影响等,A2-5根据谓语动词不同会有不同的语义含义。其余的15个语义角色为附加语义角色,如MNR表示方式,TMP表示时间等。
3、基于本体语义相似度的医学问答
本实施例的基于本体语义相似度的医学问答流程如图1所示,包括:
S101,根据预设词库对用户提问的自然语言问句进行分词处理;
S102,对于分好词的问句根据词的类型,将属于停用词库的词删除
S103,对于分词后的问句中的专业词汇采用基于本体的概念相似度方法计算词语语义相似度,对于其他词汇采用知网结合本体计算词语语义相似度;
S104,根据计算出的词语语义相似度,计算统计句子语义相似度和句子结构相似度,并将计算出的句子语义相似度和句子结构相似度进行综合,计算出用户提问的问句与预设语料库中问句的句子相似度;
S105,根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案作为用户提问问题的答案。
进一步地,上述S101具体为:根据专业词库、常用词库和同义词库对用户输入的自然语言问句通过正向最大匹配的方法进行分词处理,并将其中的未登记词借助于中科院的分词工具添加到预设词库中。
上述S105具体为根据计算出的句子相似度,从预设问题库中抽取句子相似度较高(对相似度大于或等于预设相似度阈值的问句及其答案进行排序,选取前五个)的问句及其答案作为用户提问问题的答案。
下面,对基于本体的句子相似度计算过程进行阐述,首先需要说明的是,句子信息的完整表达,需要依赖于组成句子的词语信息,词语的语义信息和句子的结构信息。为此,进行句子相似度计算时从句子的句法结构、组成句词语的语义两个方面进行研究,最大程度的将一个句子所包含的信息挖取出来,用于计算两个句子的相似度计算中。以这种思想为指导,本发明提出了综合特征的句子相似度计算方法。该计算方法主要从组成句子的词序,词距,句长,语义信息等方面进行相似度研究,以下是具体介绍:
3.1、句子结构相似度计算
句子的结构相似度计算采用基于规则的方法,该方法结合词距,句长,同时考虑词性的作用,综合三个方面确定句子的结构相似度;其中,
词距相似度的公式如下:
Figure GDA0002810482730000101
式中,SameDIs(Qi)表示Q1和Q2中相同关键词在Qi中的距离,若关键词重复出现,则以最大距离为准,Dis(Qi)表示句子关键词中最左及最右关键词之间的距离,若关键词重复出现,则以最小距离为准;
句长相似度的公式如下:
Figure GDA0002810482730000102
式中,Len(Q1)和Len(Q2)分别表示两个句子的长度;句长在一定程度上反应了两个句子的相似程度,句子长度相差越小,相似的程度越大。
分词完成后得到关键词集,从词汇属性方面,可能存在医学领域专业词、方言词和普通常用词,比如,“安神补脑液可以改善失眠的状况”,很显然,医学领域专业词”安神补脑液”比普通常用词“状况”、承载了更多的信息量,因此,医学领域专业词将被赋予更大的权值。从词性方面,这些词当中可能包含有名词、动词、形容词、数词等多种词形,而经过大量的实践发现,名词和动词占整个句子的信息量比重最大,即句子所表达的中心信息是围绕名词和动词来展开的,且名词比动词更为重要。所以,本实施例从词性和词汇属性两方面,对分词后的关键词进行加权,对不同的词性赋予对应的权值,增加准确度。
词性相似度的公式如下:
Figure GDA0002810482730000111
式中,WordPro(Q1)和WordPro(Q2)分别表示句子Q1和Q2中关键词的权值,SameWordPro(Q1,Q2)表示句子Q1和Q2中相同关键词的权值;当句子Q1和Q2中关键词全都相同时,分母达到最小值;
结合上述常见的三种基于规则的表层相似度,即句长相似度、距离相似度,以及对关键词词性进行考虑的词性相似度,见公式(1)(2)(3),将三种相似度进行线性融合,得到句子结构相似度为:
SynSim(Q1,Q2)=λ1LenSim(Q1,Q2)+λ2DisSim(Q1,Q2)+λ3WordProSim(Q1,Q2) (4)
式中,λ1,λ2,λ3为权重系数,代表对三种相似度的偏重程度,其值可由本领域技术人员根据经验评估或依据实际需求预设。
3.2、概念语义相似度计算
目前,基于本体的语义相似度计算方法研究已经形成了丰富的研究成果,针对本体语义相似度计算中两个个主要影响因素:概念属性和概念距离,分析传统计算方法中的不足,研究者一般将基于本体的语义相似度计算方法划分为基于距离的语义相似度计算、基于属性的语义相似度计和混合语义相似度计算。
3.2.1基于距离的概念语义相似度计算:
基于距离的概念语义相似度计算模型考虑领域本体类的层次关系,利用语义重合度、语义层次深度、语义距离和语义距离多种因素,来计算概念的语义相似度;其中,
语义重合是指在领域本体树形结构中,两个节点的父节点中为公共节点的个数;也可以映射为概念级别:包含相同上位概念的数量。语义重合度是度量两个概念的相同程度。在计算中,实例i的父节点数是从实例i进行向上溯源直到根节点所遍历的节点数。计算公式为:
Figure GDA0002810482730000121
式中,ParentNum(i)表示i的父节点个数;分子表示a和b相同父节点的个数;分母表示a和b父节点个数较多的那个;
语义层次深度是指概念在结构树中所处层次的深度;两个概念的语义相似度与他们深度之和呈正相关关系,与他们的深度之差呈负相关关系;假设根节点R的深度为1,i节点的父节点用Parent(i)表示,则非根节点i在本体结构树中的深度公式为:
Depth(i)=Depth(Parent(i))+1 (6)
本体树T的深度为:
Depth(T)=Max(Depth(i)) (7)
即本体树的深度取树中节点的最大深度;
语义距离是指在本体结构树中连接两个概念节点的通路中最短路径边数Dis(a,b)来表示节点a和b在本体结构树中的最短路径边数。Dis(a,b)越大,两个概念的相似度越低;反之,相似度越高。语义距离对应的相似度公式为:
Figure GDA0002810482730000122
式中,Dis(a,b)表示节点a和b在本体结构树中的最短路径边数;
语义密度是指概念的所有同位节点,或叫兄弟节点的个数。在本体树中,局部节点密度越大,说明该节点对应的概念的细化程度越大,因此,对应的相似度就越高。用表示节点i他的兄弟节点的个数。对应的相似度公式如下:
Figure GDA0002810482730000123
式中,BrotherNum(i)为节点i的兄弟节点的个数;
综合考虑以上四个影响因素分别对应的语义相似度算法,得到基于距离的概念语义相似度的计算模型:
Sim1(a,b)=αSimoverlap(a,b)-βSimDis(a,b)-γSimDen(a,b) (10)
式中,α,β,γ为权重系数,其值可由本领域技术人员根据经验评估或依据实际需求预设。
3.2.2基于属性的概念语义相似度计算模型
在比较现实世界中的两个事物时,通常是比较事物他们的属性,如果他们的属性相同的个数越多,也就说明这两个事物越相似。正是这种思想成为了基于属性的语义相似度计算模型的基本原理:本体概念的特征通过概念属性来表明,基于属性的计算方法利用统计概念所具有的公共属性的个数来完成概念的语义相似度计算。概念的相似度与概念拥有的公共属性个数成正比。Tversky提出了最经典的基于属性语义相似度计算方法,计算模型如下:
Sim2(c,d)=αProperties(c∩d)-βProperties(c-d)-γProperties(d-c)(11)
其中,Properties(c∩d)表示概念c和d所拥有的公共属性的集合,Properties(c-d)表示概念c拥有而概念d不拥有的属性集合,Properties(d-c)则表示概念d拥有而概念c不拥有的属性集合。基于属性的计算方法是一种模拟人类认知和辨识现实生活中各类事物的过程,且需事物属性的详细信息。
3.2.3基于主成分分析的概念语义相似度混合计算
很多研究者提出了一更加有效的混合式算法,综合多因素的计算结果判定各个因素权并进行线性相加得到一个综合的相似度结果在一定程度上提高了计算结果的准确性。但综合加权过程中的权值是由本领域的专家确定的,存在主观性、不准确性而且对不同的本体不具有适应性。
针对权值精确判定和综合计算进行研究,本发明采用一种利用数学中的主成分分析法(PCA)并进行相应改进,对通过各个因素计算的数据进行分析,计算各个因素权重,是一种客观赋权方法。计算出权值后对多因素计算结果进行加权线性相加得到最终相似度。
PCA是一种多元统计方法,通过损失较少信息将多个指标转化成几个综合指标。通常将转化生成的综合指标定义为主成分,相比于原始变量,主成分更加优越,因为每个主成分都是原始变量的线性组合,并且各主成分间互不相关。在PCA中个主成分的权重不是人为确定。而是根据其贡献率来分配的,这样更好的实现了对多因素分析中人为确定权值的不足,保证了结果的客观性、合理性和准确性。
本发明采用主成分分析法动态计算权值主要是利用主成分分析法计算出各因素的贡献率作为权值。原始主成分分析法是按累计贡献率大于设定阈值来确定主成分。本文提出两个因素:距离、属性都要作为主成分,可以忽略这个环节,提高算法的效率。基于PCA的动态权值计算方法主要思想如下:
(1)将基于距离的相似度和基于属性的相似度作为两个维度,通过多个样本的计算得到相似度矩阵作为输入样本矩阵;
(2)对所述输入样本矩阵进行矩阵标准化变换为标准矩阵Z,并求出相关系数矩阵R1;
(3)求出相关系数矩阵R1的特征方程的32个特征根以确定主成分;
(4)解方程组单位特征向量;
(5)转换标准化后的指标变量为主成分;
(6)将两个主成分进行加权并线性求和,即得最终概念语义相似度值,相应的权值为各个主成分的贡献率。
算法如下:
Figure GDA0002810482730000141
3.3、问句的语义相似度计算
3.3.1基于概念语义相似度的句子语义相似度计算
设句子Q1和Q2分别含有m个概念W11 ... W1m和n个概念W21 ... W2n
(1)从Q1中选出一个概念分别与Q2中的n个概念,计算概念语义相似度,直至Q1中概念循环完为止,得到概念语义相似度矩阵:
Figure GDA0002810482730000142
(2)计算第一个概念集与第二个概念集的概念语义平均最大相似度
Figure GDA0002810482730000151
(3)计算第二个概念集与第一个概念集的概念的平均最大相似度
Figure GDA0002810482730000152
(4)计算公式(13)和(14)结果,求平均值,得到句子语义相似度
Figure GDA0002810482730000153
3.3.2问句语义相似度计算模型
针对医学领域特点,综合考虑多重信息,包括句子结构相似度和句子语义相似度,将相似度算法进行融合,最后定义两个句子的相似度为:
Sim=(1-η)SynSim+ηSemSim (16)
其中,η为权重系数,当η为1时,表示只使用语义相似度;当η为0时表示只使用句子结构相似度,其值可由本领域技术人员根据经验评估或依据实际需求预设。
4、候选答案提取模块实现
根据分词模块处理得出的关键字组合,利用网络检索相关文本信息。系统通过证据评分模型评判证据的问题支持度,然后按照从高分到低分的顺序传递给候选答案提取模块。
答案提取模块主要评价候选答案的可信度,通过抽取函数提取证据中的有效关键词,再利用候选答案评分模型计算每个候选答案的分值,只留下排名前三的候选答案再传递给用户展示界面。
提取函数提取的关键字即可能的答案,一些提取函数寻找的目标样例(p是文本,ψ是中心词,f是提取函数)如表1所示:
表1提取函数目标示例表
Figure GDA0002810482730000161
提取多个候选答案后,由于中文语言处理技术不够完善,关键词里夹杂无关文本,致使候选答案质量参差不齐。因此需要对所有候选答案进行评分。本系统共使用七种候选答案评分模型。系统根据问题分类及证据的分词结果选择一种评分模型,并随机赋予它一个值(一般是1),或者使用综合评分模型,进行简单线性加权得出最终分值。最后按从高到低的顺序得出其置信度。该模块的工作流程如图3所示。
本实施例通过将医学领域用户常见问题与语义分析,语义相似度计算,本体等相关技术结合,提出了一种综合的语义相似度计算方法,实现了对现有计算方法的整合,有效提高了语义相似度计算的准确率;并在此基础上结合浅层语义分析和文本分析技术,实现了基于本体语义相似度的医学问答方法,该方法可实现五大类问题(方式、时间、程度、数量、实体)处理,达到80%以上准确率。五类问题基本涵盖基础医学领域的学科问题,较好地实现了系统功能。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于本体语义相似度的医学问答方法,其特征在于,包括:
根据预设词库对用户提问的自然语言问句进行分词处理;
对于分词后的问句中的专业词汇采用基于本体的概念相似度方法计算词语语义相似度,对于其他词汇采用知网结合本体计算词语语义相似度;
根据计算出的词语语义相似度,计算统计句子语义相似度和句子结构相似度,并将计算出的句子语义相似度和句子结构相似度进行综合,计算出用户提问的问句与预设语料库中问句的句子相似度;
根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案作为用户提问问题的答案;所述预设问题库以PA结构为基础动态构建,所述PA结构由谓词和语义组成,所述本体分为事件类本体和论元类本体;所述事件类本体对应着PA结构中的谓词,描述的是动词性概念,所述论元类本体对应着PA结构中的论元,描述的是名词性概念;
其中,所述计算统计句子结构相似度,具体为:
采用基于规则的方法计算句子结构相似度,所述基于规则的方法结合词距,句长,同时考虑词性的作用,综合三个方面确定句子的结构相似度;其中,
词距相似度的公式如下:
Figure FDA0002850086250000011
式中,SameDIs(Qi)表示Q1和Q2中相同关键词在Qi中的距离,若关键词重复出现,则以最大距离为准,Dis(Qi)表示句子关键词中最左及最右关键词之间的距离,若关键词重复出现,则以最小距离为准;
句长相似度的公式如下:
Figure FDA0002850086250000012
式中,Len(Q1)和Len(Q2)分别表示两个句子的长度;
词性相似度的公式如下:
Figure FDA0002850086250000013
式中,WordPro(Q1)和WordPro(Q2)分别表示句子Q1和Q2中关键词的权值,SameWordPro(Q1,Q2)表示句子Q1和Q2中相同关键词的权值;当句子Q1和Q2中关键词全都相同时,分母达到最小值;
结合所述词距相似度、句长相似度,以及词性相似度,将三种相似度进行线性融合,得到句子结构相似度为:
SynSim=λ1LenSim(Q1,Q2)+λ2DisSim(Q1,Q2)+λ3WordProSim(Q1,Q2) (4)
式中,λ1,λ2,λ3为权重系数,代表对三种相似度的偏重程度;
所述计算统计句子语义相似度具体为:基于概念语义相似度计算句子语义相似度,所述概念语义相似度计算包括基于距离的概念语义相似度计算、基于属性的概念语义相似度计算和基于主成分分析的概念语义相似度混合计算;其中,所述基于距离的概念语义相似度计算,具体为:
考虑领域本体类的层次关系,利用语义重合度、语义层次深度、语义距离和语义距离多种因素,来计算概念的语义相似度;其中,
语义重合度计算公式为:
Figure FDA0002850086250000021
式中,ParentNum(i)表示i的父节点个数;分子表示a和b相同父节点的个数;分母表示a和b父节点个数较多的那个;
语义层次深度是指概念在结构树中所处层次的深度;两个概念的语义相似度与他们深度之和呈正相关关系,与他们的深度之差呈负相关关系;假设根节点R的深度为1,i节点的父节点用Parent(i)表示,则非根节点i在本体结构树中的深度公式为:
Depth(i)=Depth(Parent(i))+1 (6)
本体树T的深度为:
Depth(T)=Max(Depth(i)) (7)
即本体树的深度取树中节点的最大深度;
语义距离对应的相似度公式为:
Figure FDA0002850086250000022
式中,Dis(a,b)表示节点a和b在本体结构树中的最短路径边数;
语义密度对应的相似度公式如下:
Figure FDA0002850086250000023
式中,BrotherNum(i)为节点i的兄弟节点的个数;
基于公式(5)、公式(6)、公式(7)、公式(8)和公式(9),得到基于距离的概念语义相似度的计算模型:
Sim1(a,b)=αSimoverlap(a,b)-βSimDis(a,b)-γSimDen(a,b) (10)
式中,α,β,γ为权重系数;
所述基于属性的概念语义相似度计算的模型如下:
Sim2(c,d)=αProperties(c∩d)-βProperties(c-d)-γProperties(d-c) (11)
其中,Properties(c∩d)表示概念c和d所拥有的公共属性的集合,Properties(c-d)表示概念c拥有而概念d不拥有的属性集合,Properties(d-c)则表示概念d拥有而概念c不拥有的属性集合;
所述基于主成分分析的概念语义相似度混合计算,具体为:
基于主成分分析法对基于距离因素和基于属性因素计算的数据进行分析,动态计算出各个因素的权重;计算出权重后对多因素的计算结果进行加权线性相加得到最终概念语义相似度;其过程包括:
将基于距离的相似度和基于属性的相似度作为两个维度,通过多个样本的计算得到相似度矩阵作为输入样本矩阵;
对所述输入样本矩阵进行矩阵标准化变换为标准矩阵Z,并求出相关系数矩阵R1;
求出相关系数矩阵R1的特征方程的32个特征根以确定主成分;
解方程组单位特征向量;
转换标准化后的指标变量为主成分;
将两个主成分进行加权并线性求和,即得最终概念语义相似度值,相应的权值为各个主成分的贡献率;
设句子Q1和Q2分别含有m个概念W11…W1m和n个概念W21…W2n
所述基于概念语义相似度计算句子语义相似度,具体为:
从Q1中选出一个概念分别与Q2中的n个概念,计算概念语义相似度,直至Q1中概念循环完为止,得到概念语义相似度矩阵:
Figure FDA0002850086250000031
计算第一个概念集与第二个概念集的概念语义平均最大相似度
Figure FDA0002850086250000041
计算第二个概念集与第一个概念集的概念的平均最大相似度
Figure FDA0002850086250000042
计算公式(13)和(14)结果,求平均值,得到句子语义相似度
Figure FDA0002850086250000043
所述用户提问的问句与预设语料库中问句的句子相似度定义如下:
Sim=(1-η)SynSim+ηSemSim (16)
其中,η为权重系数,当η为1时,表示只使用语义相似度;当η为0时表示只使用句子结构相似度;
所述根据预设词库对用户提问的自然语言问句进行分词处理,具体为:
根据预设词库对用户提问的自然语言问句通过正向最大匹配的方法进行分词处理,并将其中的未登记词借助于预设分词工具添加到预设词库中;
在所述根据计算出的句子相似度,从预设问题库中抽取句子相似度大于或等于预设相似度阈值的问句及其答案后,所述方法还包括:
按照句子相似度大小对抽取的问句及其答案进行排序,选取前五个问句及其答案作为用户提问问题的答案。
2.如权利要求1所述的基于本体语义相似度的医学问答方法,其特征在于,在所述根据预设词库对用户提问的自然语言问句进行分词处理后,所述方法还包括:对于分好词的问句根据词的类型,将属于停用词库的词删除。
CN201910867117.2A 2019-09-12 2019-09-12 一种基于本体语义相似度的医学问答方法 Active CN110706807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910867117.2A CN110706807B (zh) 2019-09-12 2019-09-12 一种基于本体语义相似度的医学问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910867117.2A CN110706807B (zh) 2019-09-12 2019-09-12 一种基于本体语义相似度的医学问答方法

Publications (2)

Publication Number Publication Date
CN110706807A CN110706807A (zh) 2020-01-17
CN110706807B true CN110706807B (zh) 2021-02-12

Family

ID=69196075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910867117.2A Active CN110706807B (zh) 2019-09-12 2019-09-12 一种基于本体语义相似度的医学问答方法

Country Status (1)

Country Link
CN (1) CN110706807B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111256571A (zh) 2020-01-20 2020-06-09 腾讯科技(深圳)有限公司 柔性电容触觉传感器及其制备方法和触觉传感系统
CN111309834B (zh) * 2020-01-20 2023-05-12 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111428002A (zh) * 2020-03-23 2020-07-17 南京烽火星空通信发展有限公司 一种自然语言人机交互式的智能问答实现方法
CN111597319B (zh) * 2020-05-26 2021-02-09 成都不问科技有限公司 一种基于faq问答系统的问句匹配方法
CN111709251B (zh) * 2020-06-12 2023-04-07 哈尔滨工程大学 兼具通用语义及领域语义的形式概念相似性快速度量方法
US20220035777A1 (en) * 2020-07-29 2022-02-03 International Business Machines Corporation Pair selection for entity resolution analysis
CN112184817B (zh) * 2020-09-30 2022-12-02 四川大学华西医院 一种臂丛神经图像识别方法及系统
CN112966075A (zh) * 2021-02-23 2021-06-15 北京新方通信技术有限公司 一种基于特征树的语义匹配问答方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950340A (zh) * 2010-09-17 2011-01-19 北京航空航天大学 一种面向计算机网络防御策略转换的语义相似度检测系统
CN104133812A (zh) * 2014-07-17 2014-11-05 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380152B2 (en) * 2016-01-19 2019-08-13 International Business Machines Corporation Cognitive system comparison and recommendation engine

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950340A (zh) * 2010-09-17 2011-01-19 北京航空航天大学 一种面向计算机网络防御策略转换的语义相似度检测系统
CN104133812A (zh) * 2014-07-17 2014-11-05 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《基于本体技术的语义检索及其语义相似度研究》;邹文科;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081015;第I138-798页 *
《基于本体的自动问答系统》;周永梅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315;第I138-1710页 *
《本体语义相似度自适应综合加权算法研究》;郑志蕴等;《计算机科学》;20161015;第43卷(第10期);第242-247页 *
《网络学习平台中的分词与句子相似度算法研究》;黄妮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121215;第I138-402页 *
周永梅.《基于本体的自动问答系统》.《中国优秀硕士学位论文全文数据库 信息科技辑》.2013, *

Also Published As

Publication number Publication date
CN110706807A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110706807B (zh) 一种基于本体语义相似度的医学问答方法
Li et al. An approach for measuring semantic similarity between words using multiple information sources
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
CN111292848B (zh) 一种基于贝叶斯估计的医疗知识图谱辅助推理方法
CN110659357B (zh) 一种基于本体语义相似度的地理知识问答系统
WO2004042493A2 (en) Method and system for discovering knowledge from text documents
US11055295B1 (en) Method and apparatus for determining search result demographics
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
Panchenko Similarity measures for semantic relation extraction
CN112632250A (zh) 一种多文档场景下问答方法及系统
Karami Fuzzy topic modeling for medical corpora
Soriano et al. Snomed2Vec: representation of SNOMED CT terms with Word2Vec
Karpagam et al. A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet
Moreda et al. Corpus-based semantic role approach in information retrieval
CN112084312A (zh) 一种基于知识图构建的智能客服系统
Frank et al. Querying structured knowledge sources
Lee Natural Language Processing: A Textbook with Python Implementation
Han et al. Construction method of knowledge graph under machine learning
Chen Tracking latent domain structures: An integration of Pathfinder and Latent Semantic Analysis
Nasution et al. Semantic Information Retrieval Models
Geng Legal text mining and analysis based on artificial intelligence
Chen et al. An exploration of semantic relations in neural word embeddings using extrinsic knowledge
Boukhari et al. Information retrieval approach based on indexing text documents: Application to biomedical domain
Polpinij Ontology-based knowledge discovery from unstructured and semi-structured text
Feiyu State of the art: automatic ontology matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant