CN105184307A

CN105184307A - 一种医学领域图像语义相似度矩阵的生成方法

Info

Publication number: CN105184307A
Application number: CN201510455087.6A
Authority: CN
Inventors: 王凯
Original assignee: BENGBU MEDICAL COLLEGE
Current assignee: BENGBU MEDICAL COLLEGE
Priority date: 2015-07-27
Filing date: 2015-07-27
Publication date: 2015-12-23
Anticipated expiration: 2035-07-27
Also published as: CN109766904A; CN105184307B

Abstract

本发明涉及一种领域图像间语义相似度矩阵的生成方法，以医学领域图像间语义距离为研究对象，通过多策略匹配的相似度关系映射，提出一种基于粗糙语义概率模型的医学图像相似矩阵提取建模方法，主要包括四个步骤：基于贝叶斯概率模型的语义标注、图像特征离散化、语义特征约简和基于多态理论的领域相似度模型计算。本发明能够有效的提高医学领域图像间语义信息合并的准确率，提升融合医学临床诊断领域知识库的质量，降低大规模挖掘图像语义信息所需的计算规模。

Description

一种医学领域图像语义相似度矩阵的生成方法

技术领域

本发明属于医学语义网络与知识网格计算与检索技术领域，具体涉及一种医学领域图像语义相似度矩阵的生成方法。

背景技术

医学领域知识因其应用的广泛性，越来越受到相关学者的重视。医学信息资源因庞杂、分散、异构而呈现出相对孤立和难于满足用户对信息需求的状况，造成在同一领域内的图像数据库呈现出多样性与冲突性，使得领域内知识库间无法进行互操作。

伴随着网络通讯以及云存储等技术的迅速发展，包含各种医学图像的信息源规模逐渐扩大。如何从海量数据中获取隐含的、极具价值的信息成为数据挖掘领域的新方向。图像分类技术能够将以相同或相似主题聚类的图像归类，以集合的形式确定主题，该方法使得用户不用花费大量的时间与精力去寻找目标图像，从而更好地将注意力投入到所感兴趣的图像组。然而图像分类需要以度量图像间的语义相似度为前提，同时机器能够识别的图像基本视觉信息有限，无法完全与人类对图像的内在含义理解相匹配，导致目前对于图像语义的分类存在诸多的问题，图像归类的效果十分有限，整体效率普遍不高。

随着对领域知识研究与应用的增多，大多数基于图像检索技术的领域知识库研究组织面向不同的应用开发出不同的领域知识库系统，系统间存在着较大的差异。尽管这些不尽相同的领域知识库系统是对同一领域知识的集中描述，仍不可避免地包含着许多具有重复语义的图片信息，造成有限存储空间的浪费，严重降低了医学图像语义检索的效率与准确性，最终使得领域内各知识实体之间无法进行互操作，大大制约了知识的使用效率。

发明内容

本发明利用贝叶斯概率理论，对所获取的领域图像属性提取离散化的特征，将领域图像知识信息源转变为基于语义标注的关键词集合，提出基于可辨识差别矩阵理论的概念特征属性集约简方法，降低属性约简的计算规模，构建基于多角度语义距离的领域图像知识库，获取基于图像语义关系的相似度计算模型。

为实现上述目的，本发明的技术方案提出了一种领域图像间语义相似度矩阵的生成方法，本发明具体如下：

一种医学领域图像语义相似度矩阵的生成方法，通过计算机调取医学领域图像知识库内数据，并按如下步骤进行处理：

步骤1.用贝叶斯概率模型对医学领域图像知识库中的领域图像进行语义信息的标注，并对标注词赋以权值，获得赋有权值的标注词。将赋有权值的标注词的集合记为“语义向量空间”。

步骤2.对由步骤1获得的赋有权值的标注词提取离散化的特征，获得包含离散化特性的赋权标注词。即该包含离散化特性的赋权标注词与对应的领域图像一一对应。所述包含离散化特性的赋权标注词的集合称为“图像属性的语义空间”。步骤3.对步骤2所获得的“图像属性的语义空间”进行约简处理，获得特征属性，由特征属性构建维度最简的约简集。所述约简包括四个步骤：构造可辨识差别矩阵，求解可辨识差别矩阵的核，删除可辨识矩阵的差别属性项，获得维度最简的约简集。

步骤4.由步骤3获得的维度最简的约简集构建领域图像语义相似度的计算模型，通过领域图像语义相似度的计算模型获得医学领域图像语义相似度矩阵。

进一步说，领域图像是指影像报告中的图片。医学领域图像知识库是由领域图像构成的集合。

在步骤1中，将领域图像进行区域分割，形成图像集合{P1，P2……}。采用人机交互的方式对领域图像进行语义标注，形成标注词集合{C1，C2……}。计算标注词集合{C1，C2……}中的每个标注词的后验概率，获取带权值信息的语义向量空间，该带权值信息的语义向量空间的集合即为语义向量空间集合。领域图像是指影像报告中的图片，医学领域图像知识库是由领域图像构成的集合。

在步骤2中，将由步骤1获得的带有权重的语义向量空间集合作为输入量，构建条件决策表。计算图像属性的决策阈值参数j，通过动态阈值迭代，遍历连续图像属性的区间划分端点，获取离散图像属性，将离散区间按递减序排列，得到图像属性的语义空间，记为离散编码集合{A1，A2……}。

在步骤3中，利用带有双向指针的二叉树对步骤2获得的离散编码集合{A1，A2……}的差别属性进行存储，并通过调整初次抽样系数p以及抽取函数f(θ)的抽样阈值，构建可变识差别矩阵，获取图像属性集合簇元素的多阶方阵，求解图像属性维度的约简集red()。

在步骤4中，由图像属性维度的约简集red()，计算标注词节点属性相似度、标注词节点深度属性、标注词节点非对称属性，度量节点间横向语义距离、节点间纵向语义距离、度量节点间非对称语义距离，利用标注词线性加权模型求解获得图像间语义相似度。

有益的技术效果

本发明的技术方案旨在解决图像间语义鸿沟的消解问题，信息集成设计中的准确度计算问题以及医学临床决策判别的图像间语义距离度量问题，通过系统层面的优化，实现医学图像之间基于语义的自动或半自动融合。本发明使用语义标注词作为图像语义信息的领域知识表示，利用带有不同层次权值的属性作为区别重要标注概念的特征向量，提高领域知识表示的准确率，降低了无关语义对的发生率，从而使得大规模融合领域知识成为可能。

附图说明

图1是本发明的方法流程图。

图2是图1中步骤1的具体流程图。

图3是图1中步骤2的具体流程图。

图4是图1中步骤3的具体流程图。

图5是图1中步骤4的具体流程图。

具体实施方式

本发明的设计思想是：使用贝叶斯概率模型将图像所隐藏的语义信息以标注词集合的形式显性表示。利用属性调整图像概念的语义权重，通过构造二元条件属性决策表，获取离散属性值。采用可辨识差别矩阵的方法，缩减标注词的计算规模。引入多角度语义距离的矩阵计算，生成语义相似度矩阵。

本实施例系统包括领域图像语义信息标注模块、条件决策熵生成模块、标注词约简模块以及矩阵计算模块，下面结合附图对本发明做进一步说明。

参见图1，一种医学领域图像语义相似度矩阵生成方法，通过计算机调取医学领域图像知识库内数据，并按如下步骤进行处理：

步骤1.用贝叶斯概率模型对医学领域图像知识库中的领域图像进行语义信息的标注，并对标注词赋以权值，获得赋有权值的标注词。

将赋有权值的标注词的集合记为“语义向量空间”。

步骤2.对由步骤1获得的赋有权值的标注词提取离散化的特征，获得包含离散化特性的赋权标注词。即该包含离散化特性的赋权标注词与对应的领域图像一一对应。

所述包含离散化特性的赋权标注词的集合称为“图像属性的语义空间”。

步骤3.对步骤2所获得的“图像属性的语义空间”进行约简处理，获得特征属性，由特征属性构建维度最简的约简集。

所述约简包括四个步骤：构造可辨识差别矩阵，求解可辨识差别矩阵的核，删除可辨识矩阵的差别属性项，获得维度最简的约简集。

参见图1，进一步说，领域图像是指影像报告中的图片。医学领域图像知识库是由领域图像构成的集合。

在步骤1中，将领域图像进行区域分割，形成图像集合{P1，P2……}。

采用人机交互的方式对领域图像进行语义标注，形成标注词集合{C1，C2……}。计算标注词集合{C1，C2……}中的每个标注词的后验概率，获取带权值信息的语义向量空间，该带权值信息的语义向量空间的集合即为语义向量空间集合。领域图像是指影像报告中的图片，医学领域图像知识库是由领域图像构成的集合。

在步骤3中，利用带有双向指针的二叉树对步骤2获得的离散编码集合{A1，

A2……}的差别属性进行存储，并通过调整初次抽样系数p以及抽取函数f(θ)的抽样阈值，构建可变识差别矩阵，获取图像属性集合簇元素的多阶方阵，求解图像属性维度的约简集red()。

参见图1，步骤1具体按如下步骤进行：

S11：初始化语义：通过人机交互的方式，抽取医生对于影像报告中图像的标注信息。将抽取出的标注信息的初始权值清空，初始化关键词标注——即标注信息的赋值为0。默认所有语义权重对图像影响效果一样。形成语义标注词集合。

S12：将用户待比较语义输入计算机。计算机依据待比较语义对医学领域图像知识库中的分类信息概念进行检索，获得检索出的图像。

由用户向计算机录入主关键词和非关键词。所述主关键字，是利用语义标注词集合与基于医生对于不同科室的影像分类描述信息，做交集的结果，即为相似性检索的依据。所述非关键词和主关键词互斥。计算机依据主关键词和非关键词互斥对检索出的图像进行标记：

将与主关键词相关的图像标记为正相关。将标记为正相关的图像记入正相关数组，并将组内每个图像标记的记数系数变量自加一次。

将与非关键词相关的图像——即与主关键词无关的图像标记为检索负相关。将标记为负相关的图像记入负相关数组，并将组内每个图像标记的记数系数变量自减一次。

S13：分别向正相关数组、负相关数组添加正相关图像、负相关图像，同时记录与该数组相关的语义，得到正相关语义词组与负相关语义词组。

采用分水岭算法分别对正相关语义词组与负相关语义词组进行区域分割，将计算出分割后区域图像的条件密度函数作为图像固有属性的主属性，进而获取后验概率值，比较筛选出概率值最大数值的区域，并以此按照概率值最大数值递减排序。本步骤中只统计前20个权值的赋值，即选取由大至小排列的取值中的前20个概率值，作为描述相应区域对应语义标注的权重，进行语义标注，赋予相应的权值。即获得带权重正相关数组。

S14：统计图像中被分割区域的正反馈语义标注词所在的数组权重之和，将其作为本组的数组权重，同时对数组内权重最大的语义标注词做朴素贝叶斯分类，计算其的后验概率，则图像分割区域的最终权重即为其对应语义标注词的数组权重与后验概率之和。

假设将目标图像g分割为n个区域，其中每个区域分别用R＝{m₁,m₂,m₃……m_n}表示，由贝叶斯概率公式可以知道与该区域相对应的主题概念集C＝{c₁,c₂,c₃……c_n}，其中任意主题概念ci的后验概率为：

= \frac{\begin{matrix} p (c_{i} / R) \approx p (c_{i} / m_{1}, m_{2}, m_{3} ... ... m_{n}) \\ f_{R} (m_{1}, m_{2}, m_{3} ... ... m_{n} / c_{i}) p (c_{i}) \end{matrix}}{f_{R} (m_{1}, m_{2}, m_{3} ... ... m_{n})} .

上式中p()是条件概率，f_R()是以该区域集合为对象的边缘概率密度函数。分析该公式可知：f_R(m₁,m₂,m₃......m_n)是表示所有的与该图像有关联的边缘密度函数，是一个常量，若假定主题标注是某一等概率事件，则分割所得的区域条件概率均相等，想使得上式最大化，只需使得f_R(m₁,m₂,m₃......m_n/c_i)最大化即可。为了获取该边缘密度函数的具体分布情况，不妨假设该分割区域之间为相互独立关系，则该条件密度函数等价于如下公式：

f_R(m₁,m₂,m₃......m_n/c_i)＝f_R(m₁/c_i)×f_R(m₂/c_i)×…×f_R(m_n/c_i)。

S15：将前述步骤获得的图像固有属性集合与对应的带权重语义标注词做基于概率空间的映射连接，形成语义向量空间。

参见图2，步骤2具体按如下步骤进行：

S21：将语义向量空间中的图像固有属性按的出现次数从小到大排序，并将相邻属性值划分为一个等价类。基于条件语义属性，遍历出上述等价类之间的区域临界点，并以此作为初始语义属性的起点区间，计算获得条件决策熵。

S22：对区域临界点与决策熵进行比较：对相邻区间端点决策熵的数值做差，若左端点决策熵小于右端点决策熵，则调换该区间的左右语义属性值，遍历与计算每个条件语义属性的条件信息量，并按数值递减排序，每次遍历，保留数值最大的条件语义属性，以此作为区间合并的方向决策条件，将相邻区间合并为单个区间。

S23：将条件决策熵排序：采用基于动态反馈的阈值调整方法设定阈值：若决策阈值大于区间左端点决策熵，则将该决策熵所对应的语义属性添加入粗划分组。反之，将该决策熵所对应的语义属性划入细划分组。通过遍历相邻决策熵端点差值最小区间，动态调整决策阈值，直到决策阈值不再大于区间左端点决策熵时，将决策熵值所对应的语义属性与细划分组内的语义属性所在的离散区间排序。换言之，将决策熵值所对应的语义属性做离散化排序，排序原则是依次将细化分组内与该语义属性相邻的离散区间做区间合并，直至决策阈值与区间左端点决策熵相等，完成阈值的赋值。。

S24：若步骤S23对决策阈值的修改结果导致条件决策语义属性出现完全相同的领域区间，则取消步骤S23条件数值对调，还原成本区间的初始状态，将划分后的离散区间按其左端点由大到小排序，依次从大于0的正整数进行编码，获得编码区间集合{A1，A2……}。

若步骤S23对决策阈值的修改结果未导致条件决策语义属性出现完全相同的领域区间，则保留步骤S23的阈值，将划分后的离散区间按其左端点由大到小排序，依次从大于0的正整数进行编码，获得编码区间集合{A1，A2……}。

参见图4，步骤3具体按如下步骤进行：

首先，对不必要属性集、一簇不可分辨关系‘可辨识差别矩阵、不可分辨简单介绍如下：若P为一族等价关系，且R∈P，IND(P-{R})＝IND(P)，则称关系R为P不必要属性集。若等价关系P中的任意关系R均为不必要属性集，则称R是依赖于等价关系P上的独立关系集合。

设Q、R均为一簇不可分辨关系，且如果ind(Q)＝ind(R),则称Q为R的一个约简集，记为red(R)。R中所有必要关系所形成的集合称为关于集合R的核，记为core(R)。

可辨识差别矩阵的定义，从属性的角度对条件属性与决策属性加以划分，定义如下：对于任意的属性x,y∈G,知识表达系统I＝{U,A,V,f}，其中A＝M∪{d}是属性集合，子集M和{d}分别是条件属性集与决策属性集，f(a,s)能够唯一确定对象s关于属性a的取值,可辨识差别矩阵M_d表示为M_d(i,j)＝{a_m∈M∧f(a_m,s_n)}，其中d(s_n)≠d(s_m),其他情况下M_d(i,j)均为0。若信息系统S＝(U，A，R)，V是属性集A的一个非空子集，则不可分辨关系

i n d (V) = {(x, y) &Element; U \times U | &ForAll; a &Element; V},

称x，y是在属性V上不可分辨。

本步骤的具体步骤如下：

S31：初始化离散编码集合{A1，A2……}的属性维度最简约简集，置red()＝ф，core()＝ф。用初次抽样步长β，抽取函数f(θ)分割离散编码集合{A1，A2……}内的数据，获得子编码集合{U₁U₂U₃……}，使子编码集合{U₁U₂U₃……}的每一部分的|ind(A)|＝0。ind(A)表示基于集合A条件下的决策熵。

S32：构建子编码集合{U₁U₂U₃……}的条件属性等价关系集。并由此计算获得分类集合簇元素m_ij，1≤i,j≤θ。θ为为集合簇元素的二维坐标端点。

S33：构造可辨识差别矩阵：由分类集合簇元素m_ij构建可辨识差别矩阵

M_d(i,j)＝{m_ij}，所述可辨识差别矩阵M_d(i,j)为θ阶方阵，其具体结构如下：

M_{d} (i, j) = (\begin{matrix} M_{d} (1, 1) & M_{d} (1, 2) & ... ... & M_{d} (1, m) \\ M_{d} (2, 1) & M_{d} (2, 2) & ... ... & M_{d} (2, m) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ M_{d} (n, 1) & M_{d} (n, 2) & M_{d} (n, m) \end{matrix});

求解可辨识差别矩阵M_d(i,j)的最小不可约简核core()。

其中，求解的方式简单表述如下：

S34：判断可辨识差别矩阵M_d(i,j)的秩是否为空：

若为空，则删除可辨识矩阵M_d(i,j)的差别属性项后，求解维度最简的约简集，获得约简差别属性集合。

若不为空，则直接求解维度最简的约简集，获得约简差别属性集合。

具体的求解方法简介如下：

求解维度最简的约简集

Dored(A)＝red(A)∪{m_ij}

While(red(A)∈∪_i∈Md(i,j))。

S35：对约简差别属性集合差别属性进行不一致判断：

用抽样未使用到的剩余对象做分类不一致性判断，即使用步骤S34中可辨识差别矩阵中差别属性集合的补集元素，做分类不一致性判断：”

若分类不一致的对象数量不小于基于动态反馈的阈值参数j，返回步骤S33，动态调整中的阈值大小。

若分类不一致的对象数量小于基于动态反馈的阈值参数j，则将维度最简的约简集作为结果输出。

具体的求解方法简介如下：

{IfCount()≤μ,Print(red(A)),β++}//如果分类不一致的对象数量小于基于动态反馈的阈值参数j，则满足要求将该约简集输出，否则需要动态调整阈值的大小。

ReturnstepS33(即返回步骤S33)。

参见图5，步骤4具体按如下步骤进行：

由步骤3的结果分别计算获得标注词横向节点属性、标注词纵向节点深度属性：S41：对维度最简的约简集进行语义标注词集合处理，所述语义标注词集合是对图像特征标准化描述。

基于标注词横向节点属性，计算图像间语义距离并作加和。

通过计算一对标注词节点所包含的共有属性量和差异属性量，衡量标注词间的语义距离，语义距离与共有属性成线性正相关，和差异属性成线性负相关。

本步骤中只考虑相邻节点(a,b)间的相似度计算，语义距离等于a节点的上层父类节点属性集合与a节点的特征集合之间求并集。标注词节点的直接子节点数量愈多，对其细化的标注词语义描述就越具体，即其所含子类节点之间的语义相似度就愈大。该标注词节点属性信息量影响因子为：

S i m C (c_{1}, c_{2}) = \frac{O (c_{1}, c_{2}) + λ}{O (c_{1}, c_{2}) + a {O ({\overset{&OverBar;}{C}}_{1}, c_{2}) + O (c_{1}, {\overset{&OverBar;}{c}}_{2})} + λ} .

式中，o(c₁,c₂)表示标注词节点(c1,c2)并运算的共有属性集合。与表示标注词节点(c1,c2)的差异属性量。λ、α表示公式调节参数，避免分式无意义。

S42：基于标注词纵向节点深度属性，计算图像间语义距离并作加和。

任意一组标注词在语义树中的节点深度之和愈大，该标注词表达的图像属性愈具体，语义相似度距离愈小，相似度愈高，本发明通过指数函数来描述节点层次的语义相似度。该标注词的节点层次影响因子(也称层次因子)为：

S i m D (c_{1}, c_{2}) = \exp (- \frac{θ}{D e p t h (c_{1}, c_{2})}) .

S43：由节点层次影响因子计算获得非对称因子:基于标注词节点非对称属性，在标注词语义树中，标注词节点间的语义相似度在一定程度上具有非对称性，即语义相似度距离匹配带有方向性。标注词节点与祖先节点的相似度值大于其祖先与子节点的相似度取值，若概念A为概念B的祖先，sim(A,B)要小于sim(B,A)。节点对(c1，c2)语义距离非对称属性影响因子为：

S i m D γ (c_{1}, c_{2}) = γ S i m D (c_{1}, c_{2}) = \frac{D e p t h (B)}{D e p t h (A) + D e p t h (B)} S i m D (c_{1}, c_{2}) .

S44：用线性方法加权的方法将节点属性信息量影响因子、非对称属性影响因子进行整合，形成基于多角度的语义距离相似度矩阵：

我们发现，基于标注词横向节点属性相似度计算方法没有考虑到节点共有属性量相同、深度不同的标注词节点相似度的计算误差问题。基于基于标注词纵向节点深度属性相似度计算方法无法区分深度相同、共有属性量不同的问题。为优化上述模型，本发明提出一种新的标注词线性加权模型：

通过标注词线性加权模型

Sim(c₁,c₂)＝εSimC(c₁,c₂)+(1-ε)SimDγ(c₁,c₂)将节点属性信息量影响因子、非对称属性影响因子进行整合，形成基于多角度的语义距离相似度矩阵，实现语义标注词之间相似度距离度量的基本特征：

公式中，ε表示权重因子，调整标注词节点共有属性量和深度对语义距离度量的影响。

本公式对(c1,c2)语义相似度距离度量范围是0到1闭区间，值愈大，语义距离愈近。

本公式对(c1,c2)是相同一节点时，语义相似度值为1。

本公式对(c1,c2)在标注词语义树中的共有部分越大，即共有属性越集中，语义距离愈近。

本公式对(c1,c2)在标注词语义树中位置愈深，属性愈聚向，语义距离愈近。

参见图2，进一步说，在步骤1中，通过人机交互的方式，将影像报告中医生对于医学图像库中相应图像的描述作为语义内容，根据医学分类知识，提取出标注词集合，定义此集合为描述图像语义信息的特征向量。即将领域图像中的“图像+语义标注词”作为一组元素。

步骤1中的始化关键词标注，是将语义标注用可数字化的权重值表示，初始赋值为0，构成包含语义标注词的目标列表。

在步骤1中，利用待比较语义与图像库中的分类信息概念做检索，对检索出的图像进行标记：

所述的“分类信息”是基于医生对于不同科室的影像的分类描述信息，与待比较的语义标注词做相似性检索，检索中该图像每出现一次，就对出现影像的语义标注词做正向标记，同时将正向标记记数变量自加一次。

将与主题图像无关的图像标记为检索负相关，同时将负向标记记数变量自加一次，有关联的图像标记为正相关，同时将负向标记记数变量自加一次，进而获取领域对象的横维和纵维信息，其中，横坐标对应正向标记记数变量的变化，纵坐标对应负向标记记数变量的变化。

本步骤中，将正反馈语义所在的数组权重增加，是对正反馈语义标注词所在的数组，利用遗传算法进行权重静态优化，并将该组权重值的初始动态调节系数设为大于1的常数。

本步骤中，将负反馈的数组权重减少，是逆向调整负反馈权重的初始动态调节系数，并将其值设为小于1的常数。

本步骤中，判断图像属性的子集属性是否为空值后的处理方法是：若非空，添加新的语义标注的属性加入目标列表。反之，停止添加。

将图像的语义标注词数量作为衡量该图像语义范围的依据，若图像a的语义标注词集合恰为另一图像b的语义标注词集合的真子集，则定义图像a是图像b的子集。

本步骤中，采用分水岭算法对目标图像区域进行区域分割，计算出分割后的区域图像的条件密度函数，获取后验概率值，比较筛选出概率值最大数值的区域，并以此按照数值递减排序，对相应区域赋权重值。

参见图3，进一步说，步骤2中所述的条件决策表，是由对象集合和条件决策熵所构成的二元关系，其中初始条件语义属性X与条件决策Y构成基于对象的等价关系，条件决策熵H(Y|X)表示已知条件语义属性X的前提下，条件决策Y的粗糙程度。条件决策表的计算方法为：

H (Y | X) = - Σ_{i = 1}^{n} p (y_{i}) Σ_{j = 1}^{m} p (x_{j} | y_{i}) \log p (x_{j} | y_{i}) .

进一步说，条件决策表是一种在传统决策表的基础上，引入以条件概率为决策判断条件的符号化表示方法，本发明所使用的条件决策表由标注词集合、概率条件规则集以及操作行为集合所组成三元组，该三元组的核心是基于语义标注词集合和条件决策熵所构成的二元关系，其中条件决策熵是融合粗糙集理论中支持度的规则表示的概率百分比表示，结合置信度的关联规则条件概率化定义，构造图像的等价关系，将语义标注词相邻的图像划分为一个等价类将连续语义属性切分为若干离散属性值，构造语义属性切分边界。

本步骤中，将语义属性按出现次数从小到大排序，并将相邻对象划分为一个等价类，基于条件语义属性，遍历出上述等价类之间的区域临界点，以此作为初始语义属性的区间端点。对每个每个离散后的图像语义属性计算其条件决策熵，并比较相邻区间中条件信息量的大小。

所述信息量的大小的界定如下：将图像的语义标注词作为其条件语义属性，并将条件语义属性和决策语义属性的比值表示成相邻区间合并操作的条件信息量，对于给定的条件决策表，上述比值愈大，表明该条件语义属性对决策语义属性愈重要。遍历与计算每个条件语义属性的条件信息量，并按数值递减排序，若出现数值相同的情况，则按照等价类的断点数量由大到小一次排列，淘汰掉排列位置靠后的条件语义属性。本步骤中，每次遍历，保留数值最大的条件语义属性，以此作为区间合并的方向决策条件。

由条件决策表划分最小数，同时将条件决策熵排序，并通过设定决策阈值，将条件决策熵划分为粗粒度组与细粒度组，每次挑选端点条件决策熵区间的两端点差值最小的语义属性——将条件决策表中相邻的条件语义属性较小的取值替换为较大的数值。将条件决策表中相邻的条件语义属性数值对调，保证该领域的左端点值始终大于右端点值，以防止过度拟合。若修改结果引起数值冲突，即修改结果引起条件决策语义属性出现完全相同的领域区间，则删除此次修改，将领域区间再次对调，还原成本区间的初始状态。最后，将划分后的离散区间按其左端点由大到小排序，依次从大于0的正整数进行编码。

参见图4，进一步说，定义在步骤2中，未被划入语义标注词集合A的剩余标注词所构成的集合，为语义标注子集B。

对信息表数据进行特征离散化，是利用双向指针的二叉树对集合A-B进行差别语义属性项的存储，降低数据的存储空间，并通过步骤2中的条件决策表，将连续的语义属性划分成按权值由大到小排序的离散区间。

初次抽样步长，是人工输入的初次抽样系数，用以抽取分割信息表数据，构建子信息表的条件语义属性等价关系集，建立可辨识差别矩阵分类集合簇元素，构成多阶方阵，即构造可辨识差别矩阵。由可辨识差别矩阵求解可辨识差别矩阵的核。查找可辨识矩阵的条件语义属性的差别属性项，是搜索出所有与条件语义属性等价类的核不相关的属性项，将该属性项存储于单独的二叉树中，并为每个决策语义属性建立一个属性剪枝关联二叉树。

可辨识矩阵的条件语义属性的差别属性项，是求解维度最简的约简集判断依据：通过遍历属性剪枝关联二叉树的标注词节点中权值小于2的个数，求和节点数量，同时使用抽样未使用到的剩余对象做分类不一致性判断。

参见图5，进一步说，在步骤4中，根据图像与标注词间的划分关系将其二元化，即利用二元关系构造标注词语义树。根据语义标注词在语义树中的层次结构来确定属性特征集合。其中，所述层次结构，是该二叉树的每一层语义标注词节点与条件语义属性一一对应。属性特征集合，通过遍历，判断某节点的上层节点右孩子若为空，则此条件语义属性必存在一个非空的属性剪枝关联二叉树。

随后，从节点属性信息量、节点层次以及节点非对称性三个方面对语义距离度量进行扩展，其中，

节点属性信息量指标注词语义树外延标注词节点c所包含的直接子类节点数量，记做o(c)。节点属性信息量影响因子为：

式中，degree(anc₁₂)表示概念节点1、2子节点数量。degree(fc)表示基于该节点所在层内格结构中的各兄弟节点度的最大值。

节点层次指在基于所表达的标注词语义树中,若存在具有偏序集的二元关系标注词层次格结构，则树中外延标注词节点与根节点的最短路径中所包含的边数之和。每个横向层次标注词节点均是对上层节点的细化表达，节点所在的层级愈大，标注词表达的内容愈具体，内在语义属性愈丰富。若任意标注词节点语义距离相同，标注词的节点深度和愈大，标注词所表达的图像间的语义相似距离愈越小。

节点层次语义距离影响因子：

D (c_{1}, c_{2}) = \frac{D e p t h (c_{1}) + D e p t h (c_{2})}{/ D e p t h (c_{1}) - D e p t h (c_{2}) / + 1} .

式中，Depth(C)指标注词节点深度的求和函数。

节点非对称性是对于节点对(A,B)，若满足Sim(A,B)≠Sim(B,A)，则称该节点对(A,B)为非对称节点。提出非对称语义距离影响因子：

γ = \frac{D e p t h (B)}{D e p t h (A) - D e p t h (B)} .

通过引入横向节点透明度算子、纵向节点深度算子以及非对称算子，使最终语义相似度度量结果更加精确。其中，横向节点透明度算子采用基于标注词的横向节点透明度属性作为输入，纵向节点深度算子采用基于标注词的纵向节点深度属性作为输入，非对称算子采用基于标注词节点非对称属性作为输入，通过计算图像间语义距离并作加和，用线性加权的方法输出属性值，形成基于多角度的语义距离相似度矩阵。

Claims

1.一种医学领域图像语义相似度矩阵的生成方法，其特征在于：通过计算机调取医学领域图像知识库内数据，并按如下步骤进行处理：

步骤1.用贝叶斯概率模型对医学领域图像知识库中的领域图像进行语义信息的标注，并对标注词赋以权值，获得赋有权值的标注词；将赋有权值的标注词的集合记为“语义向量空间”；

步骤2.对由步骤1获得的赋有权值的标注词提取离散化的特征，获得包含离散化特性的赋权标注词；即该包含离散化特性的赋权标注词与对应的领域图像一一对应；所述包含离散化特性的赋权标注词的集合称为“图像属性的语义空间”；

步骤3.对步骤2所获得的“图像属性的语义空间”进行约简处理，获得特征属性，由特征属性构建维度最简的约简集；所述约简包括四个步骤：构造可辨识差别矩阵，求解可辨识差别矩阵的核，删除可辨识矩阵的差别属性项，获得维度最简的约简集；

2.根据权利要求1所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：

在步骤1中，将领域图像进行区域分割，形成图像集合{P1，P2……}；采用人机交互的方式对领域图像进行语义标注，形成标注词集合{C1，C2……}；计算标注词集合{C1，C2……}中的每个标注词的后验概率，获取带权值信息的语义向量空间，该带权值信息的语义向量空间的集合即为语义向量空间集合；领域图像是指影像报告中的图片，医学领域图像知识库是由领域图像构成的集合；

在步骤2中，将由步骤1获得的带有权重的语义向量空间集合作为输入量，构建条件决策表；计算图像属性的决策阈值参数j，通过动态阈值迭代，遍历连续图像属性的区间划分端点，获取离散图像属性，将离散区间按递减序排列，得到图像属性的语义空间，记为离散编码集合{A1，A2……}；

在步骤3中，利用带有双向指针的二叉树对步骤2获得的离散编码集合{A1，A2……}的差别属性进行存储，并通过调整初次抽样系数p以及抽取函数f(θ)的抽样阈值，构建可变识差别矩阵，获取图像属性集合簇元素的多阶方阵，求解图像属性维度的约简集red()；

3.根据权利要求1或2所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：步骤1具体按如下步骤进行：

S11：初始化语义：通过人机交互的方式，抽取医生对于影像报告中图像的标注信息；将抽取出的标注信息的初始权值清空，初始化关键词标注——即标注信息的赋值为0；默认所有语义权重对图像影响效果一样；形成语义标注词集合；

S12：将用户待比较语义输入计算机；计算机依据待比较语义对医学领域图像知识库中的分类信息概念进行检索，获得检索出的图像；

由用户向计算机录入主关键词和非关键词；所述主关键字，是利用语义标注词集合与基于医生对于不同科室的影像分类描述信息，做交集的结果，即为相似性检索的依据；所述非关键词和主关键词互斥；计算机依据主关键词和非关键词互斥对检索出的图像进行标记：

将与主关键词相关的图像标记为正相关；将标记为正相关的图像记入正相关数组，并将组内每个图像标记的记数系数变量自加一次；

将与非关键词相关的图像——即与主关键词无关的图像标记为检索负相关；将标记为负相关的图像记入负相关数组，并将组内每个图像标记的记数系数变量自减一次；

S13：分别向正相关数组、负相关数组添加正相关图像、负相关图像，同时记录与该数组相关的语义，得到正相关语义词组与负相关语义词组；

采用分水岭算法分别对正相关语义词组与负相关语义词组进行区域分割，将计算出分割后区域图像的条件密度函数作为图像固有属性的主属性，进而获取后验概率值，比较筛选出概率值最大数值的区域，并以此按照概率值最大数值递减排序；本步骤中只统计前20个权值的赋值，即选取由大至小排列的取值中的前20个概率值，作为描述相应区域对应语义标注的权重，进行语义标注，赋予相应的权值；即获得带权重正相关数组；

S14：统计图像中被分割区域的正反馈语义标注词所在的数组权重之和，将其作为本组的数组权重，同时对数组内权重最大的语义标注词做朴素贝叶斯分类，计算其的后验概率，则图像分割区域的最终权重即为其对应语义标注词的数组权重与后验概率之和；

4.根据权利要求3所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：步骤2具体按如下步骤进行：

S21：将语义向量空间中的图像固有属性按的出现次数从小到大排序，并将相邻属性值划分为一个等价类；基于条件语义属性，遍历出上述等价类之间的区域临界点，并以此作为初始语义属性的起点区间，计算获得条件决策熵；

S22：对区域临界点与决策熵进行比较：对相邻区间端点决策熵的数值做差，若左端点决策熵小于右端点决策熵，则调换该区间的左右语义属性值，遍历与计算每个条件语义属性的条件信息量，并按数值递减排序，每次遍历，保留数值最大的条件语义属性，以此作为区间合并的方向决策条件，将相邻区间合并为单个区间；

S23：将条件决策熵排序：采用基于动态反馈的阈值调整方法设定阈值：若决策阈值大于区间左端点决策熵，则将该决策熵所对应的语义属性添加入粗划分组；反之，将该决策熵所对应的语义属性划入细划分组；通过遍历相邻决策熵端点差值最小区间，动态调整决策阈值，直到决策阈值不再大于区间左端点决策熵时，将决策熵值所对应的语义属性与细划分组内的语义属性所在的离散区间排序；

S24：若步骤S23对决策阈值的修改结果导致条件决策语义属性出现完全相同的领域区间，则取消步骤S23条件数值对调，还原成本区间的初始状态，将划分后的离散区间按其左端点由大到小排序，依次从大于0的正整数进行编码，获得编码区间集合{A1，A2……}；

5.根据权利要求4所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：步骤3具体按如下步骤进行：

S31：初始化离散编码集合{A1，A2……}的属性维度最简约简集，置red()＝ф，core()＝ф；用初次抽样步长β，抽取函数f(θ)分割离散编码集合{A1，A2……}内的数据，获得子编码集合{U₁U₂U₃……}，使子编码集合{U₁U₂U₃……}的每一部分的|ind(A)|＝0；ind(A)表示基于集合A条件下的决策熵；

S32：构建子编码集合{U₁U₂U₃……}的条件属性等价关系集；并由此计算获得分类集合簇元素m_ij，1≤i,j≤θ；θ为为集合簇元素的二维坐标端点；

S33：构造可辨识差别矩阵：由分类集合簇元素m_ij构建可辨识差别矩阵M_d(i,j)＝{m_ij}，所述可辨识差别矩阵M_d(i,j)为θ阶方阵，其具体结构为：

M_{d} (i, j) = (\begin{matrix} M_{d} (1, 1) & M_{d} (1, 2) & ... ... & M_{d} (1, m) \\ M_{d} (2, 1) & M_{d} (2, 2) & ... ... & M_{d} (2, m) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ M_{d} (n, 1) & M_{d} (n, 2) & M_{d} (n, m) \end{matrix})

求解可辨识差别矩阵M_d(i,j)的最小不可约简核core()；

S34：判断可辨识差别矩阵M_d(i,j)的秩是否为空：

若为空，则删除可辨识矩阵M_d(i,j)的差别属性项后，求解维度最简的约简集，获得约简差别属性集合；

若不为空，则直接求解维度最简的约简集，获得约简差别属性集合；

S35：对约简差别属性集合差别属性进行不一致判断：

用抽样未使用到的剩余对象做分类不一致性判断，即使用步骤S34中可辨识差别矩阵中差别属性集合的补集元素，做分类不一致性判断：；

若分类不一致的对象数量不小于基于动态反馈的阈值参数j，返回步骤S33，动态调整中的阈值大小；

6.根据权利要求5所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：步骤4具体按如下步骤进行：

由步骤3的结果分别计算获得标注词横向节点属性、标注词纵向节点深度属性：

S41：对维度最简的约简集进行语义标注词集合处理，所述语义标注词集合是对图像特征标准化描述；

基于标注词横向节点属性，计算图像间语义距离并作加和；

通过计算一对标注词节点所包含的共有属性量和差异属性量，衡量标注词间的语义距离，语义距离与共有属性成线性正相关，和差异属性成线性负相关；

本步骤中只考虑相邻节点(a,b)间的相似度计算，语义距离等于a节点的上层父类节点属性集合与a节点的特征集合之间求并集；标注词节点的直接子节点数量愈多，对其细化的标注词语义描述就越具体，即其所含子类节点之间的语义相似度就愈大；该标注词节点属性信息量影响因子为：

S i m C (c_{1}, c_{2}) = \frac{O (c_{1}, c_{2}) + λ}{O (c_{1}, c_{2}) + a {O ({\overset{&OverBar;}{C}}_{1}, c_{2}) + O (c_{1}, {\overset{&OverBar;}{c}}_{2})} + λ};

式中，o(c₁,c₂)表示标注词节点(c1,c2)并运算的共有属性集合；与表示标注词节点(c1,c2)的差异属性量；λ、α表示公式调节参数，避免分式无意义；

S42：基于标注词纵向节点深度属性，计算图像间语义距离并作加和；

任意一组标注词在语义树中的节点深度之和愈大，该标注词表达的图像属性愈具体，语义相似度距离愈小，相似度愈高，本发明通过指数函数来描述节点层次的语义相似度；该标注词的节点层次影响因子为：

S i m D (c_{1}, c_{2}) = \exp (- \frac{θ}{D e p t h (c_{1}, c_{2})});

S43：由节点层次影响因子计算获得非对称因子:基于标注词节点非对称属性，在标注词语义树中，标注词节点间的语义相似度在一定程度上具有非对称性，即语义相似度距离匹配带有方向性；标注词节点与祖先节点的相似度值大于其祖先与子节点的相似度取值，若概念A为概念B的祖先，sim(A,B)要小于sim(B,A)。节点对(c1，c2)语义距离非对称属性影响因子为：

S i m D γ (c_{1}, c_{2}) = γ S i m D (c_{1}, c_{2}) = \frac{D e p t h (B)}{D e p t h (A) + D e p t h (B)} S i m D (c_{1}, c_{2});

通过标注词线性加权模型

本式中，ε表示权重因子，调整标注词节点共有属性量和深度对语义距离度量的影响；

本式对(c1,c2)语义相似度距离度量范围是0到1闭区间，值愈大，语义距离愈近；

本式对(c1,c2)是相同一节点时，语义相似度值为1；

本式对(c1,c2)在标注词语义树中的共有部分越大，即共有属性越集中，语义距离愈近；

本式对(c1,c2)在标注词语义树中位置愈深，属性愈聚向，语义距离愈近。

7.根据权利要求3所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：

在步骤1中，通过人机交互的方式，将影像报告中医生对于医学图像库中相应图像的描述作为语义内容，根据医学分类知识，提取出标注词集合，定义此集合为描述图像语义信息的特征向量；即将领域图像中的“图像+语义标注词”作为一组元素；

步骤1中的始化关键词标注，是将语义标注用可数字化的权重值表示，初始赋值为0，构成包含语义标注词的目标列表；

所述的“分类信息”是基于医生对于不同科室的影像的分类描述信息，与待比较的语义标注词做相似性检索，检索中该图像每出现一次，就对出现影像的语义标注词做正向标记，同时将正向标记记数变量自加一次；

将与主题图像无关的图像标记为检索负相关，同时将负向标记记数变量自加一次，有关联的图像标记为正相关，同时将负向标记记数变量自加一次，进而获取领域对象的横维和纵维信息，其中，横坐标对应正向标记记数变量的变化，纵坐标对应负向标记记数变量的变化；

本步骤中，将正反馈语义所在的数组权重增加，是对正反馈语义标注词所在的数组，利用遗传算法进行权重静态优化，并将该组权重值的初始动态调节系数设为大于1的常数；

本步骤中，将负反馈的数组权重减少，是逆向调整负反馈权重的初始动态调节系数，并将其值设为小于1的常数；

本步骤中，判断图像属性的子集属性是否为空值后的处理方法是：若非空，添加新的语义标注的属性加入目标列表；反之，停止添加；

将图像的语义标注词数量作为衡量该图像语义范围的依据，若图像a的语义标注词集合恰为另一图像b的语义标注词集合的真子集，则定义图像a是图像b的子集；

8.根据权利要求4所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：

步骤2中所述的条件决策表，是由对象集合和条件决策熵所构成的二元关系，其中初始条件语义属性X与条件决策Y构成基于对象的等价关系，条件决策熵H(Y|X)表示已知条件语义属性X的前提下，条件决策Y的粗糙程度；条件决策表的计算方法如下：

H (Y | X) = - Σ_{i = 1}^{n} p (y_{i}) Σ_{j = 1}^{m} p (x_{j} | y_{i}) \log p (x_{j} | y_{i});

本步骤中，将语义属性按出现次数从小到大排序，并将相邻对象划分为一个等价类，基于条件语义属性，遍历出上述等价类之间的区域临界点，以此作为初始语义属性的区间端点；对每个每个离散后的图像语义属性计算其条件决策熵，并比较相邻区间中条件信息量的大小；

所述信息量的大小的界定如下：将图像的语义标注词作为其条件语义属性，并将条件语义属性和决策语义属性的比值表示成相邻区间合并操作的条件信息量，对于给定的条件决策表，上述比值愈大，表明该条件语义属性对决策语义属性愈重要；遍历与计算每个条件语义属性的条件信息量，并按数值递减排序，若出现数值相同的情况，则按照等价类的断点数量由大到小一次排列，淘汰掉排列位置靠后的条件语义属性；本步骤中，每次遍历，保留数值最大的条件语义属性，以此作为区间合并的方向决策条件；

由条件决策表划分最小数，同时将条件决策熵排序，并通过设定决策阈值，将条件决策熵划分为粗粒度组与细粒度组，每次挑选端点条件决策熵区间的两端点差值最小的语义属性——将条件决策表中相邻的条件语义属性较小的取值替换为较大的数值；将条件决策表中相邻的条件语义属性数值对调，保证该领域的左端点值始终大于右端点值，以防止过度拟合；若修改结果引起数值冲突，即修改结果引起条件决策语义属性出现完全相同的领域区间，则删除此次修改，将领域区间再次对调，还原成本区间的初始状态；最后，将划分后的离散区间按其左端点由大到小排序，依次从大于0的正整数进行编码。

9.根据权利要求5所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：

定义在步骤2中，未被划入语义标注词集合A的剩余标注词所构成的集合，为语义标注子集B；

对信息表数据进行特征离散化，是利用双向指针的二叉树对集合A-B进行差别语义属性项的存储，降低数据的存储空间，并通过步骤2中的条件决策表，将连续的语义属性划分成按权值由大到小排序的离散区间；

初次抽样步长，是人工输入的初次抽样系数，用以抽取分割信息表数据，构建子信息表的条件语义属性等价关系集，建立可辨识差别矩阵分类集合簇元素，构成多阶方阵，即构造可辨识差别矩阵；由可辨识差别矩阵求解可辨识差别矩阵的核；查找可辨识矩阵的条件语义属性的差别属性项，是搜索出所有与条件语义属性等价类的核不相关的属性项，将该属性项存储于单独的二叉树中，并为每个决策语义属性建立一个属性剪枝关联二叉树；

10.根据权利要求6所述的一种医学领域图像语义相似度矩阵的生成方法，其特征在于：

在步骤4中，根据图像与标注词间的划分关系将其二元化，即利用二元关系构造标注词语义树；根据语义标注词在语义树中的层次结构来确定属性特征集合；其中，所述层次结构，是该二叉树的每一层语义标注词节点与条件语义属性一一对应；属性特征集合，通过遍历，判断某节点的上层节点右孩子若为空，则此条件语义属性必存在一个非空的属性剪枝关联二叉树；

节点属性信息量指标注词语义树外延标注词节点c所包含的直接子类节点数量，记做o(c)；节点属性信息量影响因子为：

O (c_{1}, c_{2}) = \frac{\deg r e e ({anc}_{12})}{\deg r e e (f c)};

式中，degree(anc₁₂)表示概念节点1、2子节点数量；degree(fc)表示基于该节点所在层内格结构中的各兄弟节点度的最大值；

节点层次指在基于所表达的标注词语义树中,若存在具有偏序集的二元关系标注词层次格结构，则树中外延标注词节点与根节点的最短路径中所包含的边数之和；每个横向层次标注词节点均是对上层节点的细化表达，节点所在的层级愈大，标注词表达的内容愈具体，内在语义属性愈丰富。若任意标注词节点语义距离相同，标注词的节点深度和愈大，标注词所表达的图像间的语义相似距离愈越小；

节点层次语义距离影响因子：

D (c_{1}, c_{2}) = \frac{D e p t h (c_{1}) + D e p t h (c_{2})}{/ D e p t h (c_{1}) - D e p t h (c_{2}) / + 1};

式中，Depth(C)指标注词节点深度的求和函数；

γ = \frac{D e p t h (B)}{D e p t h (A) - D e p t h (B)};

通过引入横向节点透明度算子、纵向节点深度算子以及非对称算子，使最终语义相似度度量结果更加精确；其中，横向节点透明度算子采用基于标注词的横向节点透明度属性作为输入，纵向节点深度算子采用基于标注词的纵向节点深度属性作为输入，非对称算子采用基于标注词节点非对称属性作为输入，通过计算图像间语义距离并作加和，用线性加权的方法输出属性值，形成基于多角度的语义距离相似度矩阵。