CN103473283A

CN103473283A - 一种文本案例匹配方法

Info

Publication number: CN103473283A
Application number: CN2013103851222A
Authority: CN
Inventors: 陶坤旺; 张福浩; 仇阿根; 汤磊
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2013-12-25
Anticipated expiration: 2033-08-29
Also published as: CN103473283B

Abstract

本发明涉及一种文本案例匹配方法，该方法包括：构建案例库、构建标识词组、构建检索词组、求出语义距离、根据语义距离求出语义相似度、为检索词组分配权重、确定综合相似度、确定综合相似度阈值、判断是否全部匹配完成最后输出匹配结果，本发明能够根据相关概念以及相关背景知识进行推理，挖掘出文本中的隐含信息，为相关检索式进行赋权，从而可以实现基于概念的智能检索。在实际系统应用中具有较好的查询效果。

Description

一种文本案例匹配方法

技术领域

本发明涉及智能检索领域，具体涉及一种文本案例匹配方法。

背景技术

案例推理（CBR）是最近三十多年来日益发展的区别于规则推理的一种新的推理模式。它是一种重要的基于所积累的知识进行现有问题求解和学习的方式，强调人类对于过去积累的知识经验以及前人的智慧结晶的重视。一个典型的案例推理问题求解过程的基本步骤可以归纳为四个主要过程：案例检索(Retrieve)、案例重用(Reuse)、案例修正(Revise)和案例保存(Retain)。案例推理的关键在于检索与当前新发案例最相近的历史案例，即案例检索，以便直接利用或稍加修改其解决方案来应对当前问题，避免了对类似问题做重复的分析工作，从而大量节省处理问题的时间，因此该推理方法广泛受到国内外研究学者的关注。而如何提高新旧案例匹配相似率，一直是学者们研究的重点。

案例匹配是根据已知的案例内容，去案例库寻找与此最相近的历史案例，从而快速得到解决方案或以此作为参考。分析以往文献可以发现，过去案例匹配的方法多数是通过比较案例间的属性数值来获取最相似案例，而对于文本的相似计算却研究甚少。实际上，在案例中，文本信息占据很大的比例，它主要以文字或辅以图片呈现。因此，案例匹配的准率通常取决于案例中相关文本信息的匹配的精确性。

传统的文本信息检索采用的方法有布尔检索、向量空间检索和概率检索。早期的信息检索系统采用“布尔查询”的方法来进行全文检索。布尔检索（Boolean Retrieval）是一种简单而常用的严格匹配模型，它定义了一个词组集合来标识文档，该词组被称为标识词组。同时运用布尔逻辑运算符将检索词连接起来形成检索式，再与文档标识词组做逐一匹配。如此，布尔检索的本质就是将文本匹配转化成词组间的相互匹配。虽然布尔模型具有简单、易理解、易在计算机上实现且检索速度快等优点。但是这种方法很难全面地表达用户需求，对于模糊的信息需求不能很好的处理，用户必须详细的规划自己的查询，其复杂程度不亚于编程语言。而且这种检索方式对于检索词的重要度不加区分，忽视索引词与词之间的内在关系，所以对检索词与标识词的比较过于严格，对于文档与查询的评价就只有“匹配”，“不匹配”两种而已。

向量空间模型（Vector Space Model）由Salton等人于20世纪70年代提出。该模型用检索项的高维向量空间来表示用户的提问和文本集信息,其中每一维为一个特征。一个用户提问向量或文本向量的第i个元素表示用户提问或文本的第i个特征的重要度，或称权值。用户提问向量的权值由用户指定；文本向量的权值则根据特征在文本或文本集中的出现频率决定。提问向量与文本向量间的余弦角通常用来测定该文本与该用户提问词之间的匹配程度。向量空间模型为索引词引进了权值，通过调节词的权值的大小来反映标引词与被标引文档的相关程度，部分地克服了传统布尔检索的缺陷，但是此模型在各个维度间缺乏相关性，标引词被认为是相互独立的，因而无法对文档中各个词的相关性提供信息。从宏观上看，仍然没有摆脱“关键词匹配”的窠臼。

概率模型(Probabilistic Model)最早由Maron和Kuhn在1960年提出。概率模型通常利用检索单元作为线索，通过统计得到每个检索单元在相关的文档集中出现和不出现的概率以及其在与该查询不相关的文档集中出现和不出现的概率。最终利用这些概率值，计算文档与查询的相似度。在检索过程中，它通过反复反馈结果和用户需求，使结果得到了很好的调整，但是它沿用了索引词之间相互独立的基本假设，忽略了内在语义关系，影响查询结果的准确性。而且在该模型理论中没有考虑到索引属于在文档中的频率。

总结来看，传统的文本匹配方法已经越来越难满足当前日益增长的案例信息的检索需求了。它们在一定程度上忽略了对词语义关系的处理，而仅局限于文本表面的字符匹配。目前还没有出现对一些没有被文字直接表述出来但隐含在案例中的信息进行较好检索的方法。

发明内容

有鉴于此，本发明提供了一种文本案例匹配方法，突出对词语义关系的处理，能够将一些没有被文字直接表述出来但隐含在案例中的信息较好地检索出来。

本发明的具体方案是这样的：一种文本案例匹配方法，包括：

步骤一、从新闻或档案中搜集案例，将所述案例集合起来构建案例库；

步骤二、对案例库中的所有案例进行关键词提取，利用关键词之间存在着的上下位关系构建多个关键词树，每一个关键词树上的关键词均为同一类的关键词，同义词之间只显示一个词，其余的均隐藏在该词的后面，同时将每一个案例提取出的关键词构建多个形如Q＝{q₁，q₂，…q_n}的标识词组，每一个标识词组中的关键词均为同一类，n表示标识词的个数；

步骤三、利用关键词树从用户输入的检索案例中提取关键词，构建多个形如P＝{p₁,p₂,…p_m}的检索词组，每一个检索词组内的关键词均属于同一类；

步骤四、将检索案例与案例库中的案例进行匹配，利用关键词树对内部关键词属于同一类的标识词组和检索词组做最近距离匹配，求出检索词组与标识词组的语义距离d_P→Q；

步骤五、利用语义距离d_P→Q求出包含着同一类关键词的检索词组与标识词组之间的语义相似度sim_P→Q；

步骤六、为包含一个类别的检索词组分配权重λ_i，其中，i=1……n’，λ₁+λ₂+…+λ_n′＝1；

步骤七、根据公式求出整个案例的综合相似度SIM，设sim_i为每个类别检索词组的相似度，λ_i表示该因子在匹配过程中所占的权重，权重默认值为1/n，其中n为检索词组的分类数，那么

SIM = Σ_{i = 1}^{n} {sim}_{i} \times λ_{i} = {sim}_{1} \times λ_{1} + {sim}_{2} \times λ_{2} + \cdot \cdot \cdot {sim}_{n} \times λ_{n^{'}};

步骤八、根据需要设定综合相似度阈值；

步骤九、判断案例库中的所有案例是否已经全部匹配，若否，回到步骤四，若是，进入步骤十；

步骤十、将大于综合相似度阈值的案例按照综合相似度从大到小输出匹配结果，完成案例匹配过程。

有益效果：

本发明在充分利用了词语语义之间的关系构建了关键词树，由关键词树帮助构建检索式，使得用户在使用时，只需输入完整的事件或者事件的一部分而不必编辑复杂的检索式就能够将同义词和上下位语义关系充分挖掘出来，加强了检索系统的推理功能，避免了漏检；而且，本发明采用为检索式赋权的作法使得检索结果更加准确的反映用户的真实信息需求。

总之，本发明能够根据相关概念以及相关背景知识进行推理，挖掘出文本中的隐含信息，为相关检索式进行赋权，从而可以实现基于概念的智能检索。在实际系统应用中具有较好的查询效果。

附图说明

图1为本发明的文本案例匹配方法的流程图；

图2为本发明的地理类别的关键词树示意图；

图3为本发明的扩展的检索系统界面示意图；

图4为本发明的扩展的检索系统检索结果示意图。

具体实施方式

本发明提供一种文本案例匹配方法，如图1～图4所示，包括：

步骤二、对案例库中的案例进行关键词提取，利用关键词之间存在着的上下位关系构建多个关键词树，每一个关键词树上的关键词均为同一类的关键词，同义词之间只显示一个词，其余的均隐藏在该词的后面；

同时将每一个案例提取出的关键词构建多个形如Q＝{q₁,q₂,…q_n}的标识词组，每一个标识词组中的关键词均为同一类，n表示标识词的个数；

关键词树是通过对案例库中的所有案例提取关键词得来的，案例库对应着非常多的关键词树，这一步非常关键，是整个方法中工作量最大也是最基础的。

而案例库中的每一个案例，则均对应着多个标识词组，该标志词组内的所有关键词都是通过关键词树遍历该案例得来的，即该案例中存在着的关键词树中的关键词被提取出来，依照类别组成了多个标识词组。

步骤三、利用关键词树从用户输入的检索案例中提取关键词，构建多个形如P＝{p₁,p₂,…p_m}的检索词组，每一个检索词组内的关键词均属于同一类，同时根据关键词在关键词树中所处的位置生成检索式，同级采用逻辑“与”，不同级采用逻辑“或”关系；

案例检索同普通的检索最大的不同在于，在搜索时输入的不只是检索词，而是一个案例的部分。首先根据检索案例时输入的文本，利用关键词树对其进行全文遍历，找出文中全部关键词以用于算法匹配。遍历出的关键词根据遍历的不同关键词树类别(如人名、地名、不同类型事件)，构成不同类别的检索词组，其中每一类检索词组用P＝{p₁,p₂,…p_m}表示，m表示词组个数。该步骤解决了用户主动提取关键词的难题和提高了系统的查全率。

语义距离是为体现词与词、词组与词组之间的内在联系，通常用d来表示。语义距离越小，表示词语概念越接近，反之越远。在关键词树中，语义距离指的是关键词连接边的长度，也即它们与其最临近公共父节点距离之和，通过有向边（父节点→子节点）的长度来表示父节点到子节点的距离，因此可用以下公式表示：

其中，A、B是树状结构中的两个节点关键词，

为语义距离运算符，F表示A、B的最临近公共父节点；d_A-B和d_B-A指的是A、B的语义距离；l_F-A和l_F-B分别表示有向边F→A和F→B的长度。

两个词组的语义距离指的是以其中一个词组为模板，在另一组词里为该模板中的每个词找到距离最近的词，形成临近词组对，再综合求这些词组对的距离。如词组P＝{p₁,p₂,…p_m}和词组Q＝{q₁,q₂,…q_n}，设其语义距离为d_P-Q。本发明利用向量空间模型法来计算词组语义距离，分别将P和Q看成多维空间的两个向量，以P为模板，在Q中寻找与P中各词语义距离最小的词。

d_{P - Q} = \min P &CircleTimes; Q = \min \begin{matrix} [\begin{matrix} p_{1} \\ p_{2} \\ \cdot \\ \cdot \\ \cdot \\ p_{m} \end{matrix}] \end{matrix} &CircleTimes; [\begin{matrix} q_{1} & q_{2} & \cdot \cdot \cdot & q_{n} \end{matrix}]

= [\begin{matrix} p_{1} &CircleTimes; q_{x} \\ p_{2} &CircleTimes; q_{x} \\ \cdot \\ \cdot \\ \cdot \\ p_{m} &CircleTimes; q_{x} \end{matrix}], (x = 1,2 \cdot \cdot \cdot n)

其中，

表示向量P和Q做距离运算，min[]表示矩阵每行的最小值，q_x表示矩阵Q中的某个值。

语义相似度是词语之间内在联系的另一种表示方式，通常用sim表示。文本信息检索的实质就在于寻找文本集中与当前文档语义相似度较大的文档。关键词树结构的特性决定了可用语义距离来体现词与词之间的关联程度，这两个词称为关键词对。不同关键词对间的语义距离相等表明它们的语义相似度是相同的。然而在关键词树中，从父节点到子节点，概念的分类逐步细化。因此，语义相似度的计算与节点深度有关。在语义距离相等的情况下，处于树中深度较大的节点，其语义相似度应该较大。

用有向边的深度代替节点的深度，即有向边的权重与其在关键词树中的深度有关。如有向边A→B的深度可用节点A的深度表示。于是，可得到节点深度与有向边权重的关系如下：

ω_{A &RightArrow; B} = (\frac{1}{2} + \frac{1}{2^{2}} + \cdot \cdot \cdot + \frac{1}{2^{{dep}_{A}}}) = Σ_{n = 1}^{{dep}_{A}} \frac{1}{2^{n}} = 1 - \frac{1}{2^{{dep}_{A}}}

其中，ω_A-B表示节点A的深度对有向边A→B权重的影响，dep_A指的是A在关键词树中的深度。根据公式的单调性，可知随着dep_A的增加，ω_A-B值越来越大，这与节点深度对语义相似度的影响是完全符合的。因此，词语之间的语义相似度可用以下公式表示：

其中，sim_A→B指的是A、B的相似度，注意的是当A、B相同或互为同义词时，sim_A-B值为1。

在对检索词组完成最近距离匹配之后，利用上述公式计算检索词与最近标识词的相似度。再结合各相似度，求其平均值，即为检索词组的检索相似度sim_P→Q。

{sim}_{P &RightArrow; Q} = (\underset{j = 1,2, . . ., n}{\underset{i = 1,2, . . ., m}{Σ}} {sim}_{p_{i} &RightArrow; q_{j}}) / m

其中，sim_P-Q代表词组P和Q的语义相似度，m指P中词的个数，∑[]表示矩阵的列求和运算。

步骤六、为包含一个类别的检索词组分配权重λ_i，其中，i=1……n’，λ₁+λ₂+…+λ_n′=1；

SIM = Σ_{i = 1}^{n} {sim}_{i} \times λ_{i} = {sim}_{1} \times λ_{1} + {sim}_{2} \times λ_{2} + \cdot \cdot \cdot {sim}_{n} \times λ_{n^{'}};

由于一个案例有多个检索词组，因此与其对应的sim_i也相应的有多个。

步骤八、根据实际需要设定综合相似度阈值；

匹配结果中存储着文档检索的相似度，代表着各文档对检索词的符合程度，根据SIM值的大小对结果集进行排序，得到顺序结果集。顺序结果集中排在最前面的为最符合检索条件的案例，依次往下。最后将顺序结果集输出返回给用户，完成检索步骤。

案例检索系统是上述方法的扩展与应用。以军事案例的信息检索为例。根据军事案例的实际情况。

一个完整的军事案例包括“名称”、“发生时间”、“地点”、“涉及人物”、“涉及国家”、“起因”、“经过”、“影响”、“结果”等方面。由于是多因子检索，所以此系统采用在“本体库”中创建的关键词树进行遍历，并结合多因子的权重分配对输入文本进行全文匹配，从而大大提高了系统的查准率。

军事案例检索系统的主界面如图3所示，在此页面中可进行相似案例检索。如查询“朝鲜地下核试验”相关信息，在文本框中可根据字段名输入相应查询条件，同时还能根据输入内容，设置各字段的权重比例。然后点击“相似案例检索”，得到如图4的查询结果，结果中相似度字段表示与当前查询条件的相关程度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本案例匹配方法，其特征在于，包括：

步骤二、对案例库中的所有案例进行关键词提取，利用关键词之间存在着的上下位关系构建多个关键词树，每一个关键词树上的关键词均为同一类的关键词，同义词之间只显示一个词，其余的均隐藏在该词的后面；同时将每一个案例提取出的关键词构建多个形如Q＝{q₁，q₂，…q_n}的标识词组，每一个标识词组中的关键词均为同一类，n表示标识词的个数；

步骤七、根据公式求出整个案例的综合相似度SIM，设sim_i为每个类别检索词组的相似度，λ_i表示该因子在匹配过程中所占的权重，权重默认值为1/n’，其中n’为检索词组的分类数，那么

SIM = Σ_{i = 1}^{n} {sim}_{1} \times λ_{i} = {sim}_{1} \times λ_{1} + {sim}_{2} \times λ_{2} + \cdot \cdot \cdot {sim}_{n^{'}} \times λ_{n^{'}};

步骤八、根据实际需要设定综合相似度阈值；

步骤九、判断检索案例与案例库中的所有案例是否已经全部匹配，若否，回到步骤四，若是，进入步骤十；