CN103150371A

CN103150371A - 正反向训练去混淆文本检索方法

Info

Publication number: CN103150371A
Application number: CN2013100742098A
Authority: CN
Inventors: 罗森林; 韩磊; 潘丽敏; 魏超
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2013-06-12
Anticipated expiration: 2033-03-08
Also published as: CN103150371B

Abstract

本发明涉及一种基于正反向训练的去混淆文本检索方法，属于计算机科学与信息检索技术领域。本发明首先对符合检索意愿和违背检索意愿的文本进行语言特征提取，训练得到检索模板；进而利用该检索模板，对待检索文本提取的语言特征库进行检索，得到检出文本，并按照与检索模板相似度由高到低对检出文本进行排序；最终在检出文本中，使用符合检索意愿和违背检索意愿的文本，反馈式更新检索模板，重新检索，得到优化检索结果。与现有技术相比，本发明采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。

Description

正反向训练去混淆文本检索方法

技术领域

本发明涉及一种基于正反向训练的去混淆文本检索（Decrease ConfusionText Retrieval，DCTR）方法，属于计算机科学与信息检索技术领域。

背景技术

信息检索是自然语言处理中的一项重要应用，能够使用户从浩如烟海的信息中快速准确地获得所需要信息，缓解信息丰富和知识贫乏之间的矛盾。基于关键词与基于标签内容的信息检索，目前已得到极大应用。

基于文本的信息检索，目前需要解决的一个问题是文本混淆现象：即检索返回的结果中包含了大量与检索条件存在一定的相关性但是与用户检索意愿并不相符的文本。综观现有信息检索技术，通常使用的模型有：

1.布尔模型（BM,Boolean Model）

布尔模型以布尔表达式为基础，采用逻辑关系符号AND、OR、NOT连接多个检索词构成查询逻辑表达式；而特征词在文本中标引值为一个二值函数（即“出现”或“不出现”）。布尔模型采用文本与查询表达式精确匹配的方式进行文本检索，结果中文本与查询之间的相关性也是一个二元值（即“相关”或“不相关”）。布尔模型的优点是结构简单、推理严密；缺点是精确匹配要求导致漏检率高，此外布尔模型无法对检索结果进行相关性排序。

2.向量空间模型（VSM,Vector Space Model）

向量空间模型采用特征词作为向量空间的维度，并采用该向量空间中的向量来代表文本以及检索条件，通过计算向量之间的余弦相似度对检索条件和文本进行匹配。向量空间模型通过对特征词的加权和部分匹配的策略允许输出与检索条件相近而不是完全匹配的结果，改进了检索的效果，并对允许通过相似度对检索结果排序输出。

3.概率模型（PM,Probabilistic Model）

概率模型将是否符合查询条件视作一个随机事件，通过文本中的特征词估计文本符合检索条件的概率。

布尔模型具有简洁性、高效性等特点，向量空间模型具有形式化表达方面的优势，概率模型考虑了词条、文本之间的内在联系，利用词条之间和词条与文本之间的概率相似度进行信息检索。使用三类模型进行信息检索，都存在检索结果混淆问题。

发明内容

本发明的目的是：针对信息检索中存在的文本混淆问题，提出了一种基于正反向训练的针对结果混淆问题的信息检索方法。

本发明的设计原理为：使用概率模型，通过正向训练为检索模板提供符合检索意愿的文本特征，反向训练为检索模板提供与检索意愿相违背的文本特征。使用检索模板作为检索条件，利用其中的先验概率去估计文本符合检索意愿的概率（P(R⁺|D)）以及文本违背检索意愿的概率（P(R^-|D)）。将文本检索的过程，转换为比较这两个的概率，并从文本集中检索出P⁺>P^-的文本。通过正向与反向的分析，有效地解决了文本混淆问题，提高了检索精度。

本发明的技术方案是通过如下步骤实现的：

步骤1，为了得到检索模板，需要进行正、反向训练。

步骤1.1，首先对符合检索意愿的文本与违背检索意愿的文本，进行正、反向训练，具体方法为：对符合意愿的文本，进行句子分析及特征提取，得到正向训练结果，即符合检索意愿文本的语言特征；对违背检索意愿的文本，进行句子分析及特征提取，得到反向训练结果，即违背检索意愿文本的语言特征。

步骤1.1中的语言特征，包括词法层特征（f_Lex）、语法层特征（f_Syn）和句义层特征（f_Sem）。检索模板的训练过程，通过对符合检索意愿和违背检索意愿文本的正、反向训练，来估计P(R⁺|t_i)和P(R^-|t_i)。由Bayes公式，推导其计算方法为：

P (R^{+} | t_{i}) = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (t_{i})} = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

P (R^{-} | t_{i}) = \frac{P (R^{-}) P (t_{i} | R^{-})}{P (t_{i})} = \frac{P (R^{-}) P (t_{i} | R^{-})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

其中P(R⁺)为训练文本集中正向训练的文本概率；P(R^-)为训练文本集中反向训练的文本概率；P(t_i|R⁺)和P(t_i|R^-)分别为正、反向训练文本中，特征T_i出现的概率。

为避免由于数据稀疏性而引起的零概率问题，采用Jelinek-Mercer平滑方法对检索模板进行平滑估计。基本公式如下：

P(t_i|D)=(1-λ)P_ml(t_i|D)+λP(t_i|C)

P_{ml} (t_{i} | D) = \frac{F (t_{i} | D)}{\underset{t_{i} &Element; D}{Σ} F (t_{i} | D)}

式中P_ml(t_i|D)为t_i在文本D中的最大似然估计值，F(t_i|D)为t_i在文档D中的出现频率，λ是一个与文本无关的平滑参数，且0<λ<1，P(·|C)为文本集的语言模型。

由上式可推导出P(t_i|R⁺)和P(t_i|R^-)，如下式所示：

P (t_{i} | R^{+}) = (1 - λ) \frac{F (t_{i} | R^{+})}{\underset{t_{i} &Element; R^{+}}{Σ} F (t_{i} | R^{+})} + λP (t_{i} | D)

P (t_{i} | R^{-}) = (1 - λ) \frac{F (t_{i} | R^{-})}{\underset{t_{i} &Element; R^{-}}{Σ} F (t_{i} | R^{-})} + λP (t_{i} | D)

步骤1.2，在步骤1.1的基础上，将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板，该检索模板用于在文本检索时提供相似度计算的特征。

步骤2，在步骤1得到检索模板的基础上，首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取，获取语言特征信息，得到文本集特征库。其次，在步骤1中检索模板的条件下，对文本集特征库进行检索判别与相似度计算，得到检索结果。

步骤2.1，检索判别是通过步骤2中的文本集特征库，判断文本D与检索模板的相似度，将P(R⁺|D)>P(R^-|D)的文本作为检索结果。其中P(R⁺|D)与P(R^-|D)的计算方法，将在步骤2.2中详细介绍。

步骤2.2，相似度计算是计算待检文本集中的文本D与步骤1中的检索模板之间的相似度。首先定义符合检索意愿文本的语言特征的概率为正向支持概率，违背检索意愿的语言特征的概率为反向支持概率，则可得出文本D的关于步骤1中的检索模板的正、反向支持概率计算公式如下：

P (R^{+} | D) = \underset{t_{i} &Element; D}{Σ} P (t_{i} | D) P (R^{+} | t_{i})

P (R^{-} | D) = \underset{t_{i} &Element; D}{Σ} P (t_{i} | D) P (R^{-} | t_{i})

其中P(t_i|D)为特征t_i在D中的出现概率，P(R⁺|t_i)和P(R^-|t_i)为在特征t_i出现的条件下事件R⁺或R^-发生的概率，该参数由步骤1.1中检索模板计算得出。

对步骤1.1中得到的语言特征，给每类特征项分别赋予权重α、β、λ，且满足α+β+λ=1，则上式推导如下：

P (R^{+} | D) = α \underset{t_{Lex - i} &Element; D}{Σ} P (t_{Lex - i} | D) P (R^{+} | t_{Lex - i}) + β \underset{t_{Syn - i} &Element; D}{Σ} P (t_{Syn - i} | D) P (R^{+} | t_{Syn - i}) +

λ \underset{t_{Sem - i} &Element; D}{Σ} P (t_{Sem - i} | D) P (R^{+} | t_{Sem - i})

P (R^{-} | D) = α \underset{t_{Lex - i} &Element; D}{Σ} P (t_{Lex - i} | D) P (R^{-} | t_{Lex - i}) + β \underset{t_{Syn - i} &Element; D}{Σ} P (t_{Syn - i} | D) P (R^{-} | t_{Syn - i}) +

λ \underset{t_{Sem - i} &Element; D}{Σ} P (t_{Sem - i} | D) P (R^{-} | t_{Sem - i})

式中t_Lex-i、t_Syn-i、t_Sem-i分别为词法层、语法层和句义层特征，α、β、λ分别代表对不同类型特征的侧重程度。得到文本D与检索模板之间的相似度计算公式如下：

Sim (D, S) = \frac{P (R^{+} | D)}{1 + P (R^{-} | D)}

式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度。

步骤3，步骤2.1中检出的文本，按照与步骤1中检索模板的相似度，由高到低进行排序，得到检索结果。

步骤4，对于步骤3得到的检索结果，将其中符合检索意愿和违背检索意愿的文本应用步骤1中同样的操作，再次进行检索模板训练，之后更新步骤1中得到的检索模板，重复步骤2、3，可进行反馈式检索。

有益效果

相比于普通的布尔模型、向量空间模型和概率模型，本发明采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。

附图说明

图1为本发明的正反向训练去混淆文本检索方法原理图；

图2为本发明的反馈式正反向训练去混淆文本检索方法的原理图；

图3为具体实施方式中混淆消解能力对比测试A组结果图；

图4为具体实施方式中混淆消解能力对比测试B组结果图；

图5为具体实施方式中混淆消解能力对比测试C组结果图；

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

为了验证混淆消解能力和检索准确率，设计并部署混淆消解能力对比测试。

测试数据为BFS-话题文档库-v1.0，其中包含95个话题，每个话题有60-100篇相关文档，共7720篇。包含如下三种文本混淆类型：

类型一：不同文本描述不同对象，但对象之间存在较大相似性（例如描述SARS疫情的文本和描述H1N1疫情的文本）；

类型二：不同文本针对相同对象的不同方面进行描述（例如描述姚明婚姻生活和描述姚明成长过程的文本）；

类型三：针对相同的话题，有的文本赞同但有的文本反对（例如赞成刘翔在2008年奥运会退赛和批评刘翔退赛的文本）；

表1BFS-话题文档库-v1.0中的部分话题信息

文本检索的结果，选取准确率（precision）、召回率（recall）和F值（F-measures）进行评价，计算方法为：

precision = \frac{a}{a + b} \times 100 %

recall = \frac{a}{a + c} \times 100 %

F - meansures = \frac{(β^{2} + 1) \times precision \times recall}{β^{2} \times precision + recall} \times 100 %

式中a表示被检索出文本中符合检索意愿的数目；b表示被检索出文本中不符合检索意愿的数目；c表示符合检索意愿却没有被检索出的文本数目；β是调整准确率与召回率在F值中所占比率的参数，通常取β=1，此时的F值称作F1值。

根据训练方式的不同，将测试分为3组：

A．仅进行正向训练得到检索模板，使用该模板进行检索：

步骤1，针对BFS-话题文档库-v1.0中的所有95个话题，分别选择符合检索意愿的文本仅进行正向训练。

语言特征包括词法层特征（f_Lex）、语法层特征（f_Syn）和句义层特征（f_Sem）。检索模板的训练过程，通过对符合检索意愿和违背检索意愿文本的正向训练，来估计P(R⁺|t_i)。由Bayes公式，推导其计算方法为：

P (R^{+} | t_{i}) = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (t_{i})} = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

其中P(R⁺)为训练文本集中正向训练的文本概率；P(t_i|R⁺)为正向训练文本中，特征T_i出现的概率。

P(t_i|D)=(1-λ)P_ml(t_i|D)+λP(t_i|C)

P_{ml} (t_{i} | D) = \frac{F (t_{i} | D)}{\underset{t_{i} &Element; D}{Σ} F (t_{i} | D)}

由上式可推导出P(t_i|R⁺)如下式所示：

P (t_{i} | R^{+}) = (1 - λ) \frac{F (t_{i} | R^{+})}{\underset{t_{i} &Element; R^{+}}{Σ} F (t_{i} | R^{+})} + λP (t_{i} | D)

得到检索模板。

步骤2，在得到检索模板的基础上，对BFS-话题文档库-v1.0中的所有95个话题提取语言特征，构成语言特征库。

步骤3，用步骤1中得到的检索模板，对步骤2中得到的语言特征库进行检索，利用公式

P (R^{+} | D) = \underset{t_{i} &Element; D}{Σ} P (t_{i} | D) P (R^{+} | t_{i})

则可得出文本D的关于步骤1中的检索模板的正向支持概率得到检出文本。并根据相似度由高到低，对检索出文本进行排序。

B．采用正、反向训练检索得到检索模板，使用该模板进行检索：

步骤1，针对BFS-话题文档库-v1.0中的所有95个话题，分别选择符合检索意愿和违背检索意愿的文本进行正、反向训练。

语言特征包括词法层特征（f_Lex）、语法层特征（f_Syn）和句义层特征（f_Sem），由Bayes公式，推导其计算方法为：

P (R^{+} | t_{i}) = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (t_{i})} = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

P (R^{-} | t_{i}) = \frac{P (R^{-}) P (t_{i} | R^{-})}{P (t_{i})} = \frac{P (R^{-}) P (t_{i} | R^{-})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

P(t_i|D)=(1-λ)P_ml(t_i|D)+λP(t_i|C)

P_{ml} (t_{i} | D) = \frac{F (t_{i} | D)}{\underset{t_{i} &Element; D}{Σ} F (t_{i} | D)}

由上式可推导出P(t_i|R⁺)和P(t_i|R^-)，如下式所示：

P (t_{i} | R^{+}) = (1 - λ) \frac{F (t_{i} | R^{+})}{\underset{t_{i} &Element; R^{+}}{Σ} F (t_{i} | R^{+})} + λP (t_{i} | D)

P (t_{i} | R^{-}) = (1 - λ) \frac{F (t_{i} | R^{-})}{\underset{t_{i} &Element; R^{-}}{Σ} F (t_{i} | R^{-})} + λP (t_{i} | D)

得到检索模板。

步骤3，用步骤1中得到的检索模板，对步骤2中得到的语言特征库进行检索。

其中P(t_i|D)为特征t_i在D中的出现概率，P(R⁺|t_i)和P(R^-|t_i)为在特征ti出现的条件下事件R⁺或R^-发生的概率，该参数由步骤1.1中检索模板计算得出。对步骤1.1中得到的语言特征，给每类特征项分别赋予权重α、β、λ，且满足α+β+λ=1，则上式推导如下：

P (R^{+} | D) = α \underset{t_{Lex - i} &Element; D}{Σ} P (t_{Lex - i} | D) P (R^{+} | t_{Lex - i}) + β \underset{t_{Syn - i} &Element; D}{Σ} P (t_{Syn - i} | D) P (R^{+} | t_{Syn - i}) +

λ \underset{t_{Sem - i} &Element; D}{Σ} P (t_{Sem - i} | D) P (R^{+} | t_{Sem - i})

P (R^{-} | D) = α \underset{t_{Lex - i} &Element; D}{Σ} P (t_{Lex - i} | D) P (R^{-} | t_{Lex - i}) + β \underset{t_{Syn - i} &Element; D}{Σ} P (t_{Syn - i} | D) P (R^{-} | t_{Syn - i}) +

λ \underset{t_{Sem - i} &Element; D}{Σ} P (t_{Sem - i} | D) P (R^{-} | t_{Sem - i})

Sim (D, S) = \frac{P (R^{+} | D)}{1 + P (R^{-} | D)}

式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度，得到检出文本，并根据相似度由高到低，对检索出文本进行排序。

C．进行正、反向训练得到检索模板，并采用反馈式检索：

P (R^{+} | t_{i}) = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (t_{i})} = \frac{P (R^{+}) P (t_{i} | R^{+})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

P (R^{-} | t_{i}) = \frac{P (R^{-}) P (t_{i} | R^{-})}{P (t_{i})} = \frac{P (R^{-}) P (t_{i} | R^{-})}{P (R^{+}) P (t_{i} | R^{+}) + P (R^{-}) P (t_{i} | R^{-})}

P(t_i|D)=(1-λ)P_ml(t_i|D)+λP(t_i|C)

P_{ml} (t_{i} | D) = \frac{F (t_{i} | D)}{\underset{t_{i} &Element; D}{Σ} F (t_{i} | D)}

由上式可推导出P(t_i|R⁺)和P(t_i|R^-)，如下式所示：

P (t_{i} | R^{+}) = (1 - λ) \frac{F (t_{i} | R^{+})}{\underset{t_{i} &Element; R^{+}}{Σ} F (t_{i} | R^{+})} + λP (t_{i} | D)

P (t_{i} | R^{-}) = (1 - λ) \frac{F (t_{i} | R^{-})}{\underset{t_{i} &Element; R^{-}}{Σ} F (t_{i} | R^{-})} + λP (t_{i} | D)

得到检索模板。

其中P(t_i|D)为特征t_i在D中的出现概率，P(R⁺|t_i)和P(R^-|t_i)为在特征t_i出现的条件下事件R⁺或R^-发生的概率，该参数由步骤1.1中检索模板计算得出。对步骤1.1中得到的语言特征，给每类特征项分别赋予权重α、β、λ，且满足α+β+λ=1，则上式推导如下：

P (R^{+} | D) = α \underset{t_{Lex - i} &Element; D}{Σ} P (t_{Lex - i} | D) P (R^{+} | t_{Lex - i}) + β \underset{t_{Syn - i} &Element; D}{Σ} P (t_{Syn - i} | D) P (R^{+} | t_{Syn - i}) +

λ \underset{t_{Sem - i} &Element; D}{Σ} P (t_{Sem - i} | D) P (R^{+} | t_{Sem - i})

P (R^{-} | D) = α \underset{t_{Lex - i} &Element; D}{Σ} P (t_{Lex - i} | D) P (R^{-} | t_{Lex - i}) + β \underset{t_{Syn - i} &Element; D}{Σ} P (t_{Syn - i} | D) P (R^{-} | t_{Syn - i}) +

λ \underset{t_{Sem - i} &Element; D}{Σ} P (t_{Sem - i} | D) P (R^{-} | t_{Sem - i})

Sim (D, S) = \frac{P (R^{+} | D)}{1 + P (R^{-} | D)}

步骤4，步骤3中得到的检索结果，使用符合检索意愿和违背检索意愿的文本更新检索模板，再次检索，得到检出文本。

根据以上步骤，得到本方法与词频-逆向文档频率方法（Term Frequency andInversed Document Frequency，TF-IDF）、潜在语义索引（Latent SemanticIndexing，LSI）方法的准确率、召回率对比结果，如表2所示。

表2不同召回率下TF-IDF、LSI和DCTR准确率对比

Claims

1.正反向去混淆文本检索方法，其特征在于，所述方法包括以下步骤：

步骤1，对文本数据进行正、反向训练，得到检索模板。

步骤1.1，对符合检索意愿的文本，进行句子分析及特征提取，得到正向训练结果，即符合检索意愿文本的语言特征；对违背检索意愿的文本，进行句子分析及特征提取，得到反向训练结果，即违背检索意愿文本的语言特征。

步骤2.1，检索判别是通过步骤2中的文本集特征库，判断文本D与检索模板的相似度，将P(R⁺|D)>P(R^-|D)的文本作为检索结果。

步骤2.2，对步骤1.1中得到的语言特征，给每类特征项分别赋予权重α、β、λ，且满足α+β+λ=1。

2.根据权利1所述的正反向去混淆文本检索方法，其特征在于：步骤1.1中语言特征包括词法层特征（f_Lex）、语法层特征（f_Syn）和句义层特征（f_Sem）。检索模板的训练过程，通过对符合检索意愿和违背检索意愿文本的正、反向训练，来估计P(R⁺|t_i)和P(R^-|t_i)。由Bayes公式，推导其计算方法为：

其中P(R⁺)为训练文本集中正向训练的文本概率；P(R^-)为训练文本集中反向训练的文本概率；P(t_i|R⁺)和P(t_i|R^-)分别为正、反向训练文本中，特征T_i 出现的概率。

P(t_i|D)=(1-λ)P_ml(t_i|D)+λP(t_i|C)

由上式可推导出P(t_i|R⁺)和P(t_i|R^-)，如下式所示：

。

3.根据权利1所述的正反向去混淆文本检索方法，其特征在于：步骤2.1中，关于文本D的正、反向支持概率计算公式为：

4.根据权利1所述的正反向去混淆文本检索方法，其特征在于：步骤2.2中，为每类特征赋予权重后，正、反向支持概率的计算公式为：

式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度。