CN103150371A - 正反向训练去混淆文本检索方法 - Google Patents

正反向训练去混淆文本检索方法 Download PDF

Info

Publication number
CN103150371A
CN103150371A CN2013100742098A CN201310074209A CN103150371A CN 103150371 A CN103150371 A CN 103150371A CN 2013100742098 A CN2013100742098 A CN 2013100742098A CN 201310074209 A CN201310074209 A CN 201310074209A CN 103150371 A CN103150371 A CN 103150371A
Authority
CN
China
Prior art keywords
text
retrieval
feature
template
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100742098A
Other languages
English (en)
Other versions
CN103150371B (zh
Inventor
罗森林
韩磊
潘丽敏
魏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310074209.8A priority Critical patent/CN103150371B/zh
Publication of CN103150371A publication Critical patent/CN103150371A/zh
Application granted granted Critical
Publication of CN103150371B publication Critical patent/CN103150371B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于正反向训练的去混淆文本检索方法,属于计算机科学与信息检索技术领域。本发明首先对符合检索意愿和违背检索意愿的文本进行语言特征提取,训练得到检索模板;进而利用该检索模板,对待检索文本提取的语言特征库进行检索,得到检出文本,并按照与检索模板相似度由高到低对检出文本进行排序;最终在检出文本中,使用符合检索意愿和违背检索意愿的文本,反馈式更新检索模板,重新检索,得到优化检索结果。与现有技术相比,本发明采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。

Description

正反向训练去混淆文本检索方法
技术领域
本发明涉及一种基于正反向训练的去混淆文本检索(Decrease ConfusionText Retrieval,DCTR)方法,属于计算机科学与信息检索技术领域。
背景技术
信息检索是自然语言处理中的一项重要应用,能够使用户从浩如烟海的信息中快速准确地获得所需要信息,缓解信息丰富和知识贫乏之间的矛盾。基于关键词与基于标签内容的信息检索,目前已得到极大应用。
基于文本的信息检索,目前需要解决的一个问题是文本混淆现象:即检索返回的结果中包含了大量与检索条件存在一定的相关性但是与用户检索意愿并不相符的文本。综观现有信息检索技术,通常使用的模型有:
1.布尔模型(BM,Boolean Model)
布尔模型以布尔表达式为基础,采用逻辑关系符号AND、OR、NOT连接多个检索词构成查询逻辑表达式;而特征词在文本中标引值为一个二值函数(即“出现”或“不出现”)。布尔模型采用文本与查询表达式精确匹配的方式进行文本检索,结果中文本与查询之间的相关性也是一个二元值(即“相关”或“不相关”)。布尔模型的优点是结构简单、推理严密;缺点是精确匹配要求导致漏检率高,此外布尔模型无法对检索结果进行相关性排序。
2.向量空间模型(VSM,Vector Space Model)
向量空间模型采用特征词作为向量空间的维度,并采用该向量空间中的向量来代表文本以及检索条件,通过计算向量之间的余弦相似度对检索条件和文本进行匹配。向量空间模型通过对特征词的加权和部分匹配的策略允许输出与检索条件相近而不是完全匹配的结果,改进了检索的效果,并对允许通过相似度对检索结果排序输出。
3.概率模型(PM,Probabilistic Model)
概率模型将是否符合查询条件视作一个随机事件,通过文本中的特征词估计文本符合检索条件的概率。
布尔模型具有简洁性、高效性等特点,向量空间模型具有形式化表达方面的优势,概率模型考虑了词条、文本之间的内在联系,利用词条之间和词条与文本之间的概率相似度进行信息检索。使用三类模型进行信息检索,都存在检索结果混淆问题。
发明内容
本发明的目的是:针对信息检索中存在的文本混淆问题,提出了一种基于正反向训练的针对结果混淆问题的信息检索方法。
本发明的设计原理为:使用概率模型,通过正向训练为检索模板提供符合检索意愿的文本特征,反向训练为检索模板提供与检索意愿相违背的文本特征。使用检索模板作为检索条件,利用其中的先验概率去估计文本符合检索意愿的概率(P(R+|D))以及文本违背检索意愿的概率(P(R-|D))。将文本检索的过程,转换为比较这两个的概率,并从文本集中检索出P+>P-的文本。通过正向与反向的分析,有效地解决了文本混淆问题,提高了检索精度。
本发明的技术方案是通过如下步骤实现的:
步骤1,为了得到检索模板,需要进行正、反向训练。
步骤1.1,首先对符合检索意愿的文本与违背检索意愿的文本,进行正、反向训练,具体方法为:对符合意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。
步骤1.1中的语言特征,包括词法层特征(fLex)、语法层特征(fSyn)和句义层特征(fSem)。检索模板的训练过程,通过对符合检索意愿和违背检索意愿文本的正、反向训练,来估计P(R+|ti)和P(R-|ti)。由Bayes公式,推导其计算方法为:
P ( R + | t i ) = P ( R + ) P ( t i | R + ) P ( t i ) = P ( R + ) P ( t i | R + ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - )
P ( R - | t i ) = P ( R - ) P ( t i | R - ) P ( t i ) = P ( R - ) P ( t i | R - ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - )
其中P(R+)为训练文本集中正向训练的文本概率;P(R-)为训练文本集中反向训练的文本概率;P(ti|R+)和P(ti|R-)分别为正、反向训练文本中,特征Ti出现的概率。
为避免由于数据稀疏性而引起的零概率问题,采用Jelinek-Mercer平滑方法对检索模板进行平滑估计。基本公式如下:
P(ti|D)=(1-λ)Pml(ti|D)+λP(ti|C)
P ml ( t i | D ) = F ( t i | D ) Σ t i ∈ D F ( t i | D )
式中Pml(ti|D)为ti在文本D中的最大似然估计值,F(ti|D)为ti在文档D中的出现频率,λ是一个与文本无关的平滑参数,且0<λ<1,P(·|C)为文本集的语言模型。
由上式可推导出P(ti|R+)和P(ti|R-),如下式所示:
P ( t i | R + ) = ( 1 - &lambda; ) F ( t i | R + ) &Sigma; t i &Element; R + F ( t i | R + ) + &lambda;P ( t i | D )
P ( t i | R - ) = ( 1 - &lambda; ) F ( t i | R - ) &Sigma; t i &Element; R - F ( t i | R - ) + &lambda;P ( t i | D )
步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征。
步骤2,在步骤1得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库。其次,在步骤1中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果。
步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R+|D)>P(R-|D)的文本作为检索结果。其中P(R+|D)与P(R-|D)的计算方法,将在步骤2.2中详细介绍。
步骤2.2,相似度计算是计算待检文本集中的文本D与步骤1中的检索模板之间的相似度。首先定义符合检索意愿文本的语言特征的概率为正向支持概率,违背检索意愿的语言特征的概率为反向支持概率,则可得出文本D的关于步骤1中的检索模板的正、反向支持概率计算公式如下:
P ( R + | D ) = &Sigma; t i &Element; D P ( t i | D ) P ( R + | t i )
P ( R - | D ) = &Sigma; t i &Element; D P ( t i | D ) P ( R - | t i )
其中P(ti|D)为特征ti在D中的出现概率,P(R+|ti)和P(R-|ti)为在特征ti出现的条件下事件R+或R-发生的概率,该参数由步骤1.1中检索模板计算得出。
对步骤1.1中得到的语言特征,给每类特征项分别赋予权重α、β、λ,且满足α+β+λ=1,则上式推导如下:
P ( R + | D ) = &alpha; &Sigma; t Lex - i &Element; D P ( t Lex - i | D ) P ( R + | t Lex - i ) + &beta; &Sigma; t Syn - i &Element; D P ( t Syn - i | D ) P ( R + | t Syn - i ) +
&lambda; &Sigma; t Sem - i &Element; D P ( t Sem - i | D ) P ( R + | t Sem - i )
P ( R - | D ) = &alpha; &Sigma; t Lex - i &Element; D P ( t Lex - i | D ) P ( R - | t Lex - i ) + &beta; &Sigma; t Syn - i &Element; D P ( t Syn - i | D ) P ( R - | t Syn - i ) +
&lambda; &Sigma; t Sem - i &Element; D P ( t Sem - i | D ) P ( R - | t Sem - i )
式中tLex-i、tSyn-i、tSem-i分别为词法层、语法层和句义层特征,α、β、λ分别代表对不同类型特征的侧重程度。得到文本D与检索模板之间的相似度计算公式如下:
Sim ( D , S ) = P ( R + | D ) 1 + P ( R - | D )
式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度。
步骤3,步骤2.1中检出的文本,按照与步骤1中检索模板的相似度,由高到低进行排序,得到检索结果。
步骤4,对于步骤3得到的检索结果,将其中符合检索意愿和违背检索意愿的文本应用步骤1中同样的操作,再次进行检索模板训练,之后更新步骤1中得到的检索模板,重复步骤2、3,可进行反馈式检索。
有益效果
相比于普通的布尔模型、向量空间模型和概率模型,本发明采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。
附图说明
图1为本发明的正反向训练去混淆文本检索方法原理图;
图2为本发明的反馈式正反向训练去混淆文本检索方法的原理图;
图3为具体实施方式中混淆消解能力对比测试A组结果图;
图4为具体实施方式中混淆消解能力对比测试B组结果图;
图5为具体实施方式中混淆消解能力对比测试C组结果图;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。
为了验证混淆消解能力和检索准确率,设计并部署混淆消解能力对比测试。
测试数据为BFS-话题文档库-v1.0,其中包含95个话题,每个话题有60-100篇相关文档,共7720篇。包含如下三种文本混淆类型:
类型一:不同文本描述不同对象,但对象之间存在较大相似性(例如描述SARS疫情的文本和描述H1N1疫情的文本);
类型二:不同文本针对相同对象的不同方面进行描述(例如描述姚明婚姻生活和描述姚明成长过程的文本);
类型三:针对相同的话题,有的文本赞同但有的文本反对(例如赞成刘翔在2008年奥运会退赛和批评刘翔退赛的文本);
表1BFS-话题文档库-v1.0中的部分话题信息
Figure BDA00002898444300051
文本检索的结果,选取准确率(precision)、召回率(recall)和F值(F-measures)进行评价,计算方法为:
precision = a a + b &times; 100 %
recall = a a + c &times; 100 %
F - meansures = ( &beta; 2 + 1 ) &times; precision &times; recall &beta; 2 &times; precision + recall &times; 100 %
式中a表示被检索出文本中符合检索意愿的数目;b表示被检索出文本中不符合检索意愿的数目;c表示符合检索意愿却没有被检索出的文本数目;β是调整准确率与召回率在F值中所占比率的参数,通常取β=1,此时的F值称作F1值。
根据训练方式的不同,将测试分为3组:
A.仅进行正向训练得到检索模板,使用该模板进行检索:
步骤1,针对BFS-话题文档库-v1.0中的所有95个话题,分别选择符合检索意愿的文本仅进行正向训练。
语言特征包括词法层特征(fLex)、语法层特征(fSyn)和句义层特征(fSem)。检索模板的训练过程,通过对符合检索意愿和违背检索意愿文本的正向训练,来估计P(R+|ti)。由Bayes公式,推导其计算方法为:
P ( R + | t i ) = P ( R + ) P ( t i | R + ) P ( t i ) = P ( R + ) P ( t i | R + ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - )
其中P(R+)为训练文本集中正向训练的文本概率;P(ti|R+)为正向训练文本中,特征Ti出现的概率。
为避免由于数据稀疏性而引起的零概率问题,采用Jelinek-Mercer平滑方法对检索模板进行平滑估计。基本公式如下:
P(ti|D)=(1-λ)Pml(ti|D)+λP(ti|C)
P ml ( t i | D ) = F ( t i | D ) &Sigma; t i &Element; D F ( t i | D )
式中Pml(ti|D)为ti在文本D中的最大似然估计值,F(ti|D)为ti在文档D中的出现频率,λ是一个与文本无关的平滑参数,且0<λ<1,P(·|C)为文本集的语言模型。
由上式可推导出P(ti|R+)如下式所示:
P ( t i | R + ) = ( 1 - &lambda; ) F ( t i | R + ) &Sigma; t i &Element; R + F ( t i | R + ) + &lambda;P ( t i | D )
得到检索模板。
步骤2,在得到检索模板的基础上,对BFS-话题文档库-v1.0中的所有95个话题提取语言特征,构成语言特征库。
步骤3,用步骤1中得到的检索模板,对步骤2中得到的语言特征库进行检索,利用公式
P ( R + | D ) = &Sigma; t i &Element; D P ( t i | D ) P ( R + | t i )
则可得出文本D的关于步骤1中的检索模板的正向支持概率得到检出文本。并根据相似度由高到低,对检索出文本进行排序。
B.采用正、反向训练检索得到检索模板,使用该模板进行检索:
步骤1,针对BFS-话题文档库-v1.0中的所有95个话题,分别选择符合检索意愿和违背检索意愿的文本进行正、反向训练。
语言特征包括词法层特征(fLex)、语法层特征(fSyn)和句义层特征(fSem),由Bayes公式,推导其计算方法为:
P ( R + | t i ) = P ( R + ) P ( t i | R + ) P ( t i ) = P ( R + ) P ( t i | R + ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - )
P ( R - | t i ) = P ( R - ) P ( t i | R - ) P ( t i ) = P ( R - ) P ( t i | R - ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - )
其中P(R+)为训练文本集中正向训练的文本概率;P(R-)为训练文本集中反向训练的文本概率;P(ti|R+)和P(ti|R-)分别为正、反向训练文本中,特征Ti出现的概率。
为避免由于数据稀疏性而引起的零概率问题,采用Jelinek-Mercer平滑方法对检索模板进行平滑估计。基本公式如下:
P(ti|D)=(1-λ)Pml(ti|D)+λP(ti|C)
P ml ( t i | D ) = F ( t i | D ) &Sigma; t i &Element; D F ( t i | D )
式中Pml(ti|D)为ti在文本D中的最大似然估计值,F(ti|D)为ti在文档D中的出现频率,λ是一个与文本无关的平滑参数,且0<λ<1,P(·|C)为文本集的语言模型。
由上式可推导出P(ti|R+)和P(ti|R-),如下式所示:
P ( t i | R + ) = ( 1 - &lambda; ) F ( t i | R + ) &Sigma; t i &Element; R + F ( t i | R + ) + &lambda;P ( t i | D )
P ( t i | R - ) = ( 1 - &lambda; ) F ( t i | R - ) &Sigma; t i &Element; R - F ( t i | R - ) + &lambda;P ( t i | D )
得到检索模板。
步骤2,在得到检索模板的基础上,对BFS-话题文档库-v1.0中的所有95个话题提取语言特征,构成语言特征库。
步骤3,用步骤1中得到的检索模板,对步骤2中得到的语言特征库进行检索。
其中P(ti|D)为特征ti在D中的出现概率,P(R+|ti)和P(R-|ti)为在特征ti出现的条件下事件R+或R-发生的概率,该参数由步骤1.1中检索模板计算得出。对步骤1.1中得到的语言特征,给每类特征项分别赋予权重α、β、λ,且满足α+β+λ=1,则上式推导如下:
P ( R + | D ) = &alpha; &Sigma; t Lex - i &Element; D P ( t Lex - i | D ) P ( R + | t Lex - i ) + &beta; &Sigma; t Syn - i &Element; D P ( t Syn - i | D ) P ( R + | t Syn - i ) +
&lambda; &Sigma; t Sem - i &Element; D P ( t Sem - i | D ) P ( R + | t Sem - i )
P ( R - | D ) = &alpha; &Sigma; t Lex - i &Element; D P ( t Lex - i | D ) P ( R - | t Lex - i ) + &beta; &Sigma; t Syn - i &Element; D P ( t Syn - i | D ) P ( R - | t Syn - i ) +
&lambda; &Sigma; t Sem - i &Element; D P ( t Sem - i | D ) P ( R - | t Sem - i )
式中tLex-i、tSyn-i、tSem-i分别为词法层、语法层和句义层特征,α、β、λ分别代表对不同类型特征的侧重程度。得到文本D与检索模板之间的相似度计算公式如下:
Sim ( D , S ) = P ( R + | D ) 1 + P ( R - | D )
式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度,得到检出文本,并根据相似度由高到低,对检索出文本进行排序。
C.进行正、反向训练得到检索模板,并采用反馈式检索:
步骤1,针对BFS-话题文档库-v1.0中的所有95个话题,分别选择符合检索意愿和违背检索意愿的文本进行正、反向训练。
语言特征包括词法层特征(fLex)、语法层特征(fSyn)和句义层特征(fSem),由Bayes公式,推导其计算方法为:
P ( R + | t i ) = P ( R + ) P ( t i | R + ) P ( t i ) = P ( R + ) P ( t i | R + ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - ) P ( R - | t i ) = P ( R - ) P ( t i | R - ) P ( t i ) = P ( R - ) P ( t i | R - ) P ( R + ) P ( t i | R + ) + P ( R - ) P ( t i | R - )
其中P(R+)为训练文本集中正向训练的文本概率;P(R-)为训练文本集中反向训练的文本概率;P(ti|R+)和P(ti|R-)分别为正、反向训练文本中,特征Ti出现的概率。
为避免由于数据稀疏性而引起的零概率问题,采用Jelinek-Mercer平滑方法对检索模板进行平滑估计。基本公式如下:
P(ti|D)=(1-λ)Pml(ti|D)+λP(ti|C)
P ml ( t i | D ) = F ( t i | D ) &Sigma; t i &Element; D F ( t i | D )
式中Pml(ti|D)为ti在文本D中的最大似然估计值,F(ti|D)为ti在文档D中的出现频率,λ是一个与文本无关的平滑参数,且0<λ<1,P(·|C)为文本集的语言模型。
由上式可推导出P(ti|R+)和P(ti|R-),如下式所示:
P ( t i | R + ) = ( 1 - &lambda; ) F ( t i | R + ) &Sigma; t i &Element; R + F ( t i | R + ) + &lambda;P ( t i | D )
P ( t i | R - ) = ( 1 - &lambda; ) F ( t i | R - ) &Sigma; t i &Element; R - F ( t i | R - ) + &lambda;P ( t i | D )
得到检索模板。
步骤2,在得到检索模板的基础上,对BFS-话题文档库-v1.0中的所有95个话题提取语言特征,构成语言特征库。
步骤3,用步骤1中得到的检索模板,对步骤2中得到的语言特征库进行检索。
其中P(ti|D)为特征ti在D中的出现概率,P(R+|ti)和P(R-|ti)为在特征ti出现的条件下事件R+或R-发生的概率,该参数由步骤1.1中检索模板计算得出。对步骤1.1中得到的语言特征,给每类特征项分别赋予权重α、β、λ,且满足α+β+λ=1,则上式推导如下:
P ( R + | D ) = &alpha; &Sigma; t Lex - i &Element; D P ( t Lex - i | D ) P ( R + | t Lex - i ) + &beta; &Sigma; t Syn - i &Element; D P ( t Syn - i | D ) P ( R + | t Syn - i ) +
&lambda; &Sigma; t Sem - i &Element; D P ( t Sem - i | D ) P ( R + | t Sem - i )
P ( R - | D ) = &alpha; &Sigma; t Lex - i &Element; D P ( t Lex - i | D ) P ( R - | t Lex - i ) + &beta; &Sigma; t Syn - i &Element; D P ( t Syn - i | D ) P ( R - | t Syn - i ) +
&lambda; &Sigma; t Sem - i &Element; D P ( t Sem - i | D ) P ( R - | t Sem - i )
式中tLex-i、tSyn-i、tSem-i分别为词法层、语法层和句义层特征,α、β、λ分别代表对不同类型特征的侧重程度。得到文本D与检索模板之间的相似度计算公式如下:
Sim ( D , S ) = P ( R + | D ) 1 + P ( R - | D )
式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度,得到检出文本,并根据相似度由高到低,对检索出文本进行排序。
步骤4,步骤3中得到的检索结果,使用符合检索意愿和违背检索意愿的文本更新检索模板,再次检索,得到检出文本。
根据以上步骤,得到本方法与词频-逆向文档频率方法(Term Frequency andInversed Document Frequency,TF-IDF)、潜在语义索引(Latent SemanticIndexing,LSI)方法的准确率、召回率对比结果,如表2所示。
表2不同召回率下TF-IDF、LSI和DCTR准确率对比
Figure BDA00002898444300101

Claims (4)

1.正反向去混淆文本检索方法,其特征在于,所述方法包括以下步骤: 
步骤1,对文本数据进行正、反向训练,得到检索模板。 
步骤1.1,对符合检索意愿的文本,进行句子分析及特征提取,得到正向训练结果,即符合检索意愿文本的语言特征;对违背检索意愿的文本,进行句子分析及特征提取,得到反向训练结果,即违背检索意愿文本的语言特征。 
步骤1.2,在步骤1.1的基础上,将符合检索意愿文本的语言特征与违背检索意愿文本的语言特征归并为检索模板,该检索模板用于在文本检索时提供相似度计算的特征。 
步骤2,在步骤1得到检索模板的基础上,首先对待检文本集进行与步骤1.1中同样的句子分析及特征提取,获取语言特征信息,得到文本集特征库。其次,在步骤1中检索模板的条件下,对文本集特征库进行检索判别与相似度计算,得到检索结果。 
步骤2.1,检索判别是通过步骤2中的文本集特征库,判断文本D与检索模板的相似度,将P(R+|D)>P(R-|D)的文本作为检索结果。 
步骤2.2,对步骤1.1中得到的语言特征,给每类特征项分别赋予权重α、β、λ,且满足α+β+λ=1。 
步骤3,步骤2.1中检出的文本,按照与步骤1中检索模板的相似度,由高到低进行排序,得到检索结果。 
步骤4,对于步骤3得到的检索结果,将其中符合检索意愿和违背检索意愿的文本应用步骤1中同样的操作,再次进行检索模板训练,之后更新步骤1中得到的检索模板,重复步骤2、3,可进行反馈式检索。 
2.根据权利1所述的正反向去混淆文本检索方法,其特征在于:步骤1.1中语言特征包括词法层特征(fLex)、语法层特征(fSyn)和句义层特征(fSem)。检索模板的训练过程,通过对符合检索意愿和违背检索意愿文本的正、反向训练,来估计P(R+|ti)和P(R-|ti)。由Bayes公式,推导其计算方法为: 
Figure FDA00002898444200011
Figure FDA00002898444200012
其中P(R+)为训练文本集中正向训练的文本概率;P(R-)为训练文本集中反向训练的文本概率;P(ti|R+)和P(ti|R-)分别为正、反向训练文本中,特征Ti 出现的概率。 
为避免由于数据稀疏性而引起的零概率问题,采用Jelinek-Mercer平滑方法对检索模板进行平滑估计。基本公式如下: 
P(ti|D)=(1-λ)Pml(ti|D)+λP(ti|C) 
Figure FDA00002898444200021
式中Pml(ti|D)为ti在文本D中的最大似然估计值,F(ti|D)为ti在文档D中的出现频率,λ是一个与文本无关的平滑参数,且0<λ<1,P(·|C)为文本集的语言模型。 
由上式可推导出P(ti|R+)和P(ti|R-),如下式所示: 
Figure FDA00002898444200023
3.根据权利1所述的正反向去混淆文本检索方法,其特征在于:步骤2.1中,关于文本D的正、反向支持概率计算公式为: 
Figure FDA00002898444200025
其中P(ti|D)为特征ti在D中的出现概率,P(R+|ti)和P(R-|ti)为在特征ti出现的条件下事件R+或R-发生的概率,该参数由步骤1.1中检索模板计算得出。 
4.根据权利1所述的正反向去混淆文本检索方法,其特征在于:步骤2.2中,为每类特征赋予权重后,正、反向支持概率的计算公式为: 
Figure FDA00002898444200026
Figure FDA00002898444200027
Figure FDA00002898444200028
Figure FDA00002898444200029
式中tLex-i、tSyn-i、tSem-i分别为词法层、语法层和句义层特征,α、β、λ分别代表对不同类型特征的侧重程度。得到文本D与检索模板之间的相似度计算 公式如下: 
式中Sim(D,S)为步骤1中检索模板S与待检文本D之间的相似度。 
CN201310074209.8A 2013-03-08 2013-03-08 正反向训练去混淆文本检索方法 Expired - Fee Related CN103150371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310074209.8A CN103150371B (zh) 2013-03-08 2013-03-08 正反向训练去混淆文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310074209.8A CN103150371B (zh) 2013-03-08 2013-03-08 正反向训练去混淆文本检索方法

Publications (2)

Publication Number Publication Date
CN103150371A true CN103150371A (zh) 2013-06-12
CN103150371B CN103150371B (zh) 2016-06-29

Family

ID=48548448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310074209.8A Expired - Fee Related CN103150371B (zh) 2013-03-08 2013-03-08 正反向训练去混淆文本检索方法

Country Status (1)

Country Link
CN (1) CN103150371B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547822A (zh) * 2016-09-29 2017-03-29 北京奇艺世纪科技有限公司 一种文本相关性确定方法及装置
CN109063155A (zh) * 2018-08-10 2018-12-21 广州锋网信息科技有限公司 语言模型参数确定方法、装置和计算机设备
CN109543253A (zh) * 2018-11-07 2019-03-29 江苏敏安电动汽车有限公司 一种汽车悬架k&c特性数据的处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547822A (zh) * 2016-09-29 2017-03-29 北京奇艺世纪科技有限公司 一种文本相关性确定方法及装置
CN109063155A (zh) * 2018-08-10 2018-12-21 广州锋网信息科技有限公司 语言模型参数确定方法、装置和计算机设备
CN109063155B (zh) * 2018-08-10 2020-08-04 广州锋网信息科技有限公司 语言模型参数确定方法、装置和计算机设备
CN109543253A (zh) * 2018-11-07 2019-03-29 江苏敏安电动汽车有限公司 一种汽车悬架k&c特性数据的处理方法
CN109543253B (zh) * 2018-11-07 2022-09-23 江苏敏安电动汽车有限公司 一种汽车悬架k&c特性数据的处理方法

Also Published As

Publication number Publication date
CN103150371B (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
Liu et al. Mining quality phrases from massive text corpora
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN103049470B (zh) 基于情感相关度的观点检索方法
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN105701084A (zh) 一种基于互信息的文本分类的特征提取方法
CN107562919B (zh) 一种基于信息检索的多索引集成软件构件检索方法及系统
CN106407182A (zh) 一种用于企业电子公文文档自动摘要的方法
CN103514183A (zh) 基于交互式文档聚类的信息检索方法及系统
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN101719129A (zh) 一种采用人工智能技术自动提取关键字的方法
Li et al. Wikipedia based short text classification method
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
Jiang et al. Word network topic model based on Word2Vector
CN103150371A (zh) 正反向训练去混淆文本检索方法
Chen et al. Research on text categorization model based on LDA—KNN
Liu et al. Comparative opinion sentences identification and elements extraction
CN103678355A (zh) 文本挖掘方法和文本挖掘装置
Hong et al. High-quality noise detection for knowledge graph embedding with rule-based triple confidence
Le-Minh et al. Aspect-based sentiment analysis using mini-window locating attention for vietnamese e-commerce reviews
CN112800243A (zh) 一种基于知识图谱的项目预算分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160629

Termination date: 20170308