CN1162789C - 通过主题词矫正基于向量空间模型文本相似度计算的方法 - Google Patents

通过主题词矫正基于向量空间模型文本相似度计算的方法 Download PDF

Info

Publication number
CN1162789C
CN1162789C CNB011314036A CN01131403A CN1162789C CN 1162789 C CN1162789 C CN 1162789C CN B011314036 A CNB011314036 A CN B011314036A CN 01131403 A CN01131403 A CN 01131403A CN 1162789 C CN1162789 C CN 1162789C
Authority
CN
China
Prior art keywords
text
speech
space model
vector space
text similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011314036A
Other languages
English (en)
Other versions
CN1403957A (zh
Inventor
航 肖
肖航
高建忠
王江
诸光
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB011314036A priority Critical patent/CN1162789C/zh
Publication of CN1403957A publication Critical patent/CN1403957A/zh
Application granted granted Critical
Publication of CN1162789C publication Critical patent/CN1162789C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种通过主题词矫正基于向量空间模型文本相似度计算的方法,它包括:步骤1:提取文本的主题相关信息;步骤2:矫正基于向量空间模型文本相似度计算;该方法能够修正基于向量空间模型文本相似度计算的结果,用当前文本主题词和已定义类的主题词求交,以判断一个文本是否属于已定义的类别,通过反映对主题词相关程度重视的经验值和主题词求交的百分数,构建了更为有效、更为符合自然的文本类别归属结果。

Description

通过主题词矫正基于向量空间模型文本相似度计算的方法
技术领域
本发明涉及一种基于向量空间模型计算文本相似度计算的方法,尤其是一种通过主题词矫正基于向量空间模型文本相似度计算的方法,属于计算机技术领域。
背景技术
文本分类在计算机信息处理中占有非常重要的地位。一般而言,文本分类基本上以文本中所包含的主题词作为分类的主要依据,因此,从被分类文本中获取准确地主题词汇对于文本的准确分类就非常重要。
传统的向量空间模型在文本分类中已经得到比较多的应用;但是,针对文本信息过滤而言,向量空间模型的相似度计算结果精度有限,基本不能作为过滤的依据。
如果能够利用文本主题相关程度对基于向量空间模型文本相似度的计算结果进行矫正,就可以有效地提高基于向量空间模型的文本相似度计算的精度,使得向量空间模型的相似度计算的结果适用于文本信息过滤。
发明内容
本发明的目的在于提供一种通过主题词矫正基于向量空间模型文本相似度计算的方法,依据文本中特殊的信息,对文本类别归属进行分析,并且设计主题词的提取方法,依据提取的主题词对基于向量空间模型文本相似度计算进行的矫正,依据使相似度计算的结果更加有效和自然。
本发明的目的是这样实现的:
一种通过主题词矫正基于向量空间模型文本相似度计算的方法,所述方法包括如下步骤:
步骤1:提取文本的主题相关信息;
步骤2:矫正基于向量空间模型文本相似度计算。
所述步骤2之前还包括:对依据步骤1所提取的主题相关信息进行矫正,再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。
所述步骤1提取主题相关信息依据词频或集合频度或词长信息内容进行。
所述的提取主题相关信息依据如下计算公式进行:
Figure C0113140300051
其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长;MAXwl为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中的总词数(仅指特征词)。
对所提取的主题相关信息进行矫正为通过主题信息的相交程度,判断内容的相似度。
矫正基于向量空间模型文本相似度计算为:相交度大于阈值时,强化特征向量相似度值;相交度小于阈值时,弱化特征向量相似度值。
主题相关信息矫正为:
R is = A + T is ∩ C s C s
其中,A是反映对主题词相关的重视程度经验值(0<A<1),Ris是主题词相关系数;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量。
矫正基于向量空间模型文本相似度计算即:=sim(wi,vj)×Ris其中,sim(wi,vj)为向量空间模型文本相似度计算。
所述的主题相关信息为主题词或特征词。
使用本发明的方法能够修正基于向量空间模型文本相似度计算的方法,用当前文本主题词和已定义类的主题词求交,以判断一个文本是否属于已定义的类别,通过反映对主题词相关程度重视的经验值和主题词求交的百分数,构建了更为有效、更为符合自然的文本类别归属结果。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的详细说明。
标准的基于向量空间模型文本相似度计算的方法为:
Sim ( w i , v j ) = Cosθ = Σ k = 1 n w ik · v jk Σ k = 1 n w ik 2 · Σ k = 1 n v jk 2
公式中Wi,Vj分别为待分析文本向量和标准向量,wik,vjk是向量的分量。由此可以看出,在相似度计算过程中,所有的词都被同等对待。
除了特征词之外,每一类文本中都存在一些特殊的词,它们对文本的类别归属具有特殊的价值,这些特定的词被称为特征词或主题词。在人类的智能分类过程中,会考虑到这些主题词的特殊贡献,对文本类别归属进行加权。
基于这种思想,为使相似度计算的结果更加有效和自然,设置一依据主题词的提取方法,并依据提取的主题词对上述标准方法进行的矫正。
在进行主题词相关矫正之前,首先要提取特定类别的主题词。其过程是:分析特定文本,提取文本特征向量时,综合考虑词频、集合频度、词长信息提取主题词。我们提出的具体方法如下:
其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长;MAXwl为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中的总词数(仅指特征词)。
在训练过程中,从标准文本中提取以上值最高的一批词作为标准主题词集,处理待分析文本时,也依据这个公式计算待分析文本的主题词集,以这两个集合作为主题词矫正的依据。
具体实例为:
判断一个特征词W是否属于文本i的主题词
某一文本i中总特征词数Tw=100,词频最大MAXtf=6,词长最大MAXwl=5,
文本中有特征词W,其长度wl=3,在文本中的频率tf为5,
取K1=K2=0.5,
用主题词提取公式计算特征词W在文本i中的权值,得
w ik = ( 0.5 + 0.5 × 5 6 ) × 1 log 2 100 5 × ( 0.5 + 0.5 × 3 6 ) ≈ 0.159
重复上述步骤,计算文本i中所有100个特征词的权值,将所有特征词按权值大小排序,
若在文本i中提取10个主题词,则直接选取权值最大的前十个特征词作为文本主题词,若词W的权值wik满足条件,词W就是文本i的主题词。
在计算待分析文本的相似度时,基于主题词矫正思想,根据待分析文本与标准主题词集合的相交程度调节主题词矫正系数。
主题词矫正计算公式如下:
R is = A + T is ∩ C s C s
其中,A是经验值(0<A<1),通常取值0.7,反映对主题词相关的重视程度。Ris是主题词相关系数,取值范围A-A+1;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量,求交运算不受主题词的排列顺序影响。
主题词相关系数的目的在于通过主题词相交程度来判断内容的相似度。公式表明,只要达到1-A的主题词相交,即待分析文本主题词数与标准文本主题词数的比值
Figure C0113140300081
大于1-A,Ris大于1,就强化特征向量相似度值;反之,
Ris小于1,就弱化特征向量相似度值。
本发明的方法目的是通过主题词矫正基于向量空间模型文本相似度计算的方法,即为用主题词矫正修正基于向量空间模型文本相似度计算:
待分析文本i与标准文本的相关程度=Sim(wi,vj)×Ris
其中Ris为主题词相关矫正系数。
具体实例为:
某一过滤类T有主题词集
          Subj_T={S1,S2,S3,S4,S5,S6,S7,S8,S9,S10}
某一文本i经向量空间模型计算得到与过滤类T的相似度为Sim(t,i),经主题词抽取得到主题词集
          Subj_i={i1,i2,i3,i4,i5,i6,i7,i8,i9,i10}
对Subj_T和Subj_i求交,即判断si等于ik的个数,
1)假设有Subj_T∩Subj_i=7,取A=0.7,则主题词矫正值
R is = 0.7 + T is ∩ C s C s = 0.7 + 7 10 = 1.4
用Ris对由VSM模型文本相似度进行矫正
待分析文本i与T类的相关程度=Sim(i,T)×Ris=1.4×Sim(i,T)
文本相似度被矫正提高,说明文本i与过滤类T的主题高度相关增强了文本内容相似程度。
2)假设有Subj_T∩Subj_i=1,取A=0.7,则主题词矫正值
R is = 0.7 + T is ∩ C s C s = 0.7 + 1 10 = 0.8
用Ris对由VSM模型文本相似度进行矫正
待分析文本i与T类的相关程度=Sim(i,T)×Ris=0.8×Sim(i,T)
文本相似度被矫正降低,说明文本i与过滤类T的主题偏离削弱了文本内容相似程度。

Claims (8)

1、一种通过主题词矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述方法包括如下步骤:
步骤1:提取文本的主题相关信息;
步骤2:对依据步骤1所提取的主题相关信息进行矫正,再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算;
步骤3:矫正基于向量空间模型文本相似度计算。
2、如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述步骤1提取主题相关信息依据词频、集合频度、词长信息、词以及总词数,取加权后权重最高的为主题相关信息。
3、如权利要求2所述的基于向量空间模型文本相似度计算的方法,其特征在于:所述的提取主题相关信息依据如下计算公式进行:
Figure C011314030002C1
其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长;MAXwl为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中特征词的总词数。
4、如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:对所提取的主题相关信息进行矫正为通过主题信息的相交程度,判断内容的相似度。
5、如权利要求1或4所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:矫正基于向量空间模型文本相似度计算为:相交度大于阈值时,强化特征向量相似度值;相交度小于阈值时,弱化特征向量相似度值。
6、如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:主题相关信息矫正为:
R is = A + T is ∩ C s C s
其中,A是反映对主题词相关的重视程度经验值,其中的A的取值范围为0<A<1,Ris是主题词相关系数;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量。
7、如权利要求6所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:矫正基于向量空间模型文本相似度计算即:=Sim(wi,vj)×Ris
其中,Sim(wi,vj)为向量空间模型文本相似度计算。
8、如权利要求1、2、3、4、6或7所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述的主题相关信息为主题词或特征词。
CNB011314036A 2001-09-06 2001-09-06 通过主题词矫正基于向量空间模型文本相似度计算的方法 Expired - Fee Related CN1162789C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011314036A CN1162789C (zh) 2001-09-06 2001-09-06 通过主题词矫正基于向量空间模型文本相似度计算的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011314036A CN1162789C (zh) 2001-09-06 2001-09-06 通过主题词矫正基于向量空间模型文本相似度计算的方法

Publications (2)

Publication Number Publication Date
CN1403957A CN1403957A (zh) 2003-03-19
CN1162789C true CN1162789C (zh) 2004-08-18

Family

ID=4670557

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011314036A Expired - Fee Related CN1162789C (zh) 2001-09-06 2001-09-06 通过主题词矫正基于向量空间模型文本相似度计算的方法

Country Status (1)

Country Link
CN (1) CN1162789C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100412869C (zh) * 2006-04-13 2008-08-20 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101079025B (zh) * 2006-06-19 2010-06-16 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
CN102612691B (zh) * 2009-09-18 2015-02-04 莱克西私人有限公司 给文本评分的方法和系统
CN103246681B (zh) * 2012-02-13 2018-10-26 深圳市世纪光速信息技术有限公司 一种搜索方法及装置
CN103092828B (zh) * 2013-02-06 2015-08-12 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN105095228A (zh) 2014-04-28 2015-11-25 华为技术有限公司 一种社交消息的监测方法及装置
CN107562853B (zh) * 2017-08-28 2021-02-23 武汉烽火普天信息技术有限公司 一种面向海量互联网文本数据的流式聚类及展现的方法
CN108304480B (zh) * 2017-12-29 2020-08-04 东软集团股份有限公司 一种文本相似度确定方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922486B2 (en) 2019-03-13 2021-02-16 International Business Machines Corporation Parse tree based vectorization for natural language processing

Also Published As

Publication number Publication date
CN1403957A (zh) 2003-03-19

Similar Documents

Publication Publication Date Title
CN1162789C (zh) 通过主题词矫正基于向量空间模型文本相似度计算的方法
CN103324745B (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN1750121A (zh) 一种基于语音识别及语音分析的发音评估方法
CN103854645B (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
EP2506252A3 (en) Topic specific models for text formatting and speech recognition
CN1652206A (zh) 一种声纹识别方法
CN109658042A (zh) 基于人工智能的复审方法、装置、设备及存储介质
CN1306473C (zh) 快速码向量搜索装置和方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN1852354A (zh) 收集用户行为特征的方法和装置
CN103064984A (zh) 垃圾网页的识别方法及系统
CN106847270A (zh) 一种双门限地名语音端点检测方法
CN108520212A (zh) 基于改进的卷积神经网络的交通标志检测方法
CN1877697A (zh) 一种基于分布式结构的说话人确认方法
CN103336832A (zh) 基于质量元数据的视频分类器构造方法
CN1655234A (zh) 用于区别口声和其它声音的装置和方法
CN111461025A (zh) 一种自主进化的零样本学习的信号识别方法
CN110176228A (zh) 一种小语料语音识别方法及系统
CN1831937A (zh) 语音辨识与语言理解分析的方法与装置
CN1959671A (zh) 基于文档结构的文档相似性度量方法
CN101055575A (zh) 一种听网的方法
CN101075433A (zh) 一种机器人语音识别人工智能的控制方法
CN110968729A (zh) 一种基于加性间距胶囊网络的家庭活动声音事件分类方法
CN1560834A (zh) 一种口语识别理解的语法描述与识别分析的方法
CN102722526A (zh) 基于词性分类统计的重复网页和近似网页的识别方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040818

Termination date: 20200906

CF01 Termination of patent right due to non-payment of annual fee