CN110489759A - 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 - Google Patents

基于词频的文本特征加权及短文本相似性计算方法、系统和介质 Download PDF

Info

Publication number
CN110489759A
CN110489759A CN201910864611.3A CN201910864611A CN110489759A CN 110489759 A CN110489759 A CN 110489759A CN 201910864611 A CN201910864611 A CN 201910864611A CN 110489759 A CN110489759 A CN 110489759A
Authority
CN
China
Prior art keywords
word
text
weight
frequency
word frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910864611.3A
Other languages
English (en)
Other versions
CN110489759B (zh
Inventor
蒋艳凰
贺依依
宋卓
李�根
余硕军
赵强利
张少伟
雷鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Human And Future Biotechnology (changsha) Co Ltd
Original Assignee
Human And Future Biotechnology (changsha) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Human And Future Biotechnology (changsha) Co Ltd filed Critical Human And Future Biotechnology (changsha) Co Ltd
Priority to CN201910864611.3A priority Critical patent/CN110489759B/zh
Publication of CN110489759A publication Critical patent/CN110489759A/zh
Application granted granted Critical
Publication of CN110489759B publication Critical patent/CN110489759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质,本发明基于语料库进行词频统计实现基于词频的文本特征加权,可以用于自然语言处理领域中多个任务。比如文本分类,关键词提取,相似度计算等任务;本发明基于词频的文本特征加权进一步提供文本相似度的计算方法,通过给予文本中的词不同的权重,实现信息的非线性分布,能够提高文本的相似度计算的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间的相似度计算的准确率。

Description

基于词频的文本特征加权及短文本相似性计算方法、系统和 介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质。
背景技术
在自然语言处理领域中,文本特征加权的方法可以广泛的使用在各项文本相关任务中。比如在文本的预处理中,一般都会采用TF-IDF(term frequence-inverse documentfrequency),用于对文本进行加权。基于TF-IDF的文本加权,可以直接用于后续的文本分类,文本相似度,关键词提取等任务中。但是TF-IDF这种方法本身过度放大了低频词和生僻词的作用。另一种统计学中的加权方式是CHI(Chi-square)卡方检验法,这种方法利用了统计学中“假设检验”的基本思想,需要数据集有标签。而本文重点在于无标签的文本处理。
文本相似度计算是自然语言处理领域中多数任务的基础,对后续的文本相关任务起着非常关键的作用。比如在文本聚类方面,相似度阈值可以作为聚类的标准。主流的文本相似度计算分为三类:基于字符串的方法、基于统计的经验主义方法与基于规则的理性主义方法。基于字符串的方法通过计算两个字符串的字面差异来定义字符串之间的距离。但是基于字符串的方法没有考虑到文本蕴含的特征信息,现阶段主流的文本相似度算法从统计和规则两个方面进行考虑。
基于统计的经验主义方法主要是利用统计方法,通过构建文本向量,来计算文本间的相似度。其中一类方法是基于语料库,对文本中出现的词进行加权,构建得到对应的向量。比如TF-IDF通过耦合语料库中出现的各个词频率(TF)与逆向文本频率(IDF)来生成单个词的权重。其中权重越小的词,在TF-IDF词表述中对全文文本特征表述的影响越大。而平滑倒词频(smooth inverse frequency SIF)方法是一种计算每个词加权系数的方法。对于每个词ω的权重为a/(a+p(ω)),其中a为平滑参数,p(ω)为词频,SIF方法是对TF-IDF的一种改进。但是这类加权的方法,都高估了低词频的作用。另一类基于统计的方法是利用深度学习的方法,构建相关向量进行相似度计算。这类方法最大的问题在于需要数据集提供标签,而实际工程中,给数据集打标签是一项繁琐的工作。基于规则的方法,一般是采用人工构建的知识库,定义知识库中的规则来进行文本相似度的计算。
采用基于语料库的文本加权的方法,比如TF-IDF,以及SIF算法,都存在将低词频权重设置过高的问题。对于词频低的词,比如生僻词,给予权重过高,会误认为文本的关键词。而对于词频高的词,不具备文本间的区分度,应给给予低权重。因此,如何实现新的权重计算规则,则仍然是一项亟待解决的技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提出了一种基于词频的文本特征加权及短文本相似性计算方法、系统和介质,其中基于词频的文本特征加权方法为本发明的核心内容,短文本相似性计算方法为基于词频的文本特征加权方法的应用。本发明基于语料库进行词频统计提出了一种新的基于词频的文本加权的方式,这种文本加权的方式可以用于自然语言处理领域中多个任务。比如文本分类,关键词提取,相似度计算等任务。同时本发明中提供了一种文本相似度的计算方式,通过文本的加权,给予文本中的词不同的权重,实现信息的非线性分布,能够提高文本的相似度计算的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间的相似度计算的准确率。
为了解决上述技术问题,本发明采用的技术方案为:
首先,本发明提供一种基于词频的文本特征加权方法,实施步骤包括:
1)获取待处理数据;
2)针对待处理数据提取文本并进行预处理得到文本集合D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
3)统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi
可选地,步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。
可选地,步骤3)中进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi的详细步骤包括:
3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数,得到集合Y:
Y={(x1,y1),(x2,y2),…(xj,yj)…(xn,yn)}
其中xj为词频,yj为对应词频的词的种类数,其中词频xj从小到大排序,并且j∈[1,n],n为词频的种类数,xj∈N+,yj∈N+,N+表示正整数;
3.2)使用预设的公式Xk对集合Y中所有的xj对应的yj,按照设定的区间xj∈[Ck-1,Ck)累加求和yj,直到最后一个(xj,yj)计算结束,从而得到集合X={X1,X2…Xk…XK},k∈[1,K]其中K为Xk的个数;其中,预设的公式Xk为:
上式中,N+表示正整数,其中C为可调的超参数,Ck表示上限区间,Ck-1表示下限区间;
3.3)使用词对应的频数集合Z拟合高斯函数F(X);
3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x);
3.5)针对词集合T中各个词Ti通过权重计算函数f(x)计算得到的权重进行归一化处理,得到该词最后的权重w(f(x));
3.6)词集合T中各个词Ti的权重w(f(x))记为wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)表示词Ti及其对应的权重wi,i∈[1,N],N表示词集合T中词的总数。
可选地,步骤3.3)中高斯函数F(X)的函数表达式如下式所示:
上式中,a,b,c为需要拟合的参数;
步骤3.4中权重计算函数f(x)的函数表达式如下式所示:
上式中,a,b,c为高斯函数F(X)中的参数,x为词频。
可选地,步骤3.4)中权重w(f(x))的函数表达式如下式所示:
上式中,f(x)为权重计算函数,min(f(x))为所有词频计算出的权重中的最小值,max(f(x))为所有词频计算出的权重中的最大值,c为超参数。
此外,本发明还提供一种基于词频的文本特征加权系统,包括:
输入程序单元,用于获取待处理数据;
预处理程序单元,用于针对待处理数据提取文本并进行预处理得到D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
权重计算程序单元,用于统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi
此外,本发明还提供一种基于词频的文本特征加权系统,包括计算机设备,该计算机设备被编程或配置以执行所述基于词频的文本特征加权方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行所述基于词频的文本特征加权方法的计算机程序。
此外,本发明还提供一种短文本相似性计算方法,实施步骤包括:
S1)针对待处理数据采用所述基于词频的文本特征加权方法得到词的集合T以及词的集合T中各个词Ti对应的归一化后的权重wi构成的权重集合W;
S2)基于文本集合D和词集合T={T1,T2…Ti…TN}表示为词向量模式,得到词向量集合V={(T1,v1),(T2,v2),…(Ti,vi)…(TN,vN)},(Ti,vi)表示词Ti对应的词向量为vi
S3)结合词向量集合V及权重集合W计算得到加权词向量集合H={(T1,h1),(T2,h2),…(Ti,hi)…(TN,hN)},其中hi=wi×vi,词权重wi和词向量vi分别通过词Ti查找词权重集合W和词向量集合V得到;
S4)针对文本集合D中的任意文本Dj计算对应的向量表示得到文本集合D对应的向量表示集合
S5)针对文本集合D中的任意两个文本Cm、Cn,计算文本Cm、Cn在向量表示集合对应的向量表示之间的距离作为两个文本Cm、Cn之间的相似度Smn
此外,本发明还提供一种短文本相似性计算系统,包括计算机设备,该计算机设备被编程或配置以执行所述短文本相似性计算方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行所述短文本相似性计算方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于词频的文本特征加权方法的计算机程序,或该计算机可读存储介质上存储有被编程或配置以执行所述短文本相似性计算方法的计算机程序。
和现有技术相比,本发明具有下述优点:在大规模文本数据集中对于出现次数少的单词,如果赋予较高权重,选取为特征项,不具有代表性。同时对于只出现一两次的词来说,很多情况是由于书写错误造成的。而对于大量出现的词,不具备有区分度,因此权重较高的数据应该在中间段。本发明基于语料库进行词频统计提出了一种新的基于词频的文本加权的方式,可用于多种文本处理任务。同时使用基于词频加权的方式,来进行文本相似度的计算,通过给予文本中的词不同的权重,实现信息的非线性分布,能够提高文本的相似度计算的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间的相似度计算的准确率。
附图说明
图1为本发明实施例基于词频的文本特征加权方法的流程图。
图2为本发明实施例中词频分布示意图。
图3为本发明实施例中拟合得到的高斯函数。
图4为本发明实施例中短文本相似性计算方法的基本步骤示意图。
具体实施方式
下文将以数据来源为pubmed数据集中200多万篇论文摘要中作者的单位为例,对本发明基于词频的文本特征加权及短文本相似性计算方法、系统和介质进行进一步的详细说明。
如图1所示,本实施例基于词频的文本特征加权方法的实施步骤包括:
1)获取待处理数据;
2)针对待处理数据提取文本并进行预处理得到文本集合D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
3)统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi
本实施例中,步骤1)获取待处理数据的数据来源为pubmed数据集中200多万篇论文摘要,抽取这200多万篇摘要中作者的单位表述,且只保留最大一级的单位表述。
本实施例中,步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写。
本实施例中,步骤3)中进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi的详细步骤包括:
3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数,得到集合Y:
Y={(x1,y1),(x2,y2),…(xj,yj)…(xn,yn)}
其中xj为词频,yj为对应词频的词的种类数,其中词频xj从小到大排序,并且j∈[1,n],n为词频的种类数,xj∈N+,yj∈N+,N+表示正整数;本实施例中,基于集合Z统计词频数对应的词的种类数时,得到的词频分布如图2所示,其中x=log x,y=y。
3.2)使用预设的公式Xk对集合Y中所有的xj对应的yj,按照设定的区间xj∈[Ck-1,Ck)累加求和yj,直到最后一个(xj,yj)计算结束,从而得到集合X={X1,X2…Xk…XK},k∈[1,K]其中K为Xk的个数;其中,预设的公式Xk为:
C∈N+,C>1,k∈N+
上式中,N+表示正整数,其中C为可调的超参数,Ck表示上限区间,Ck-1表示下限区间;本实施例中,超参数设置为C=2。
3.3)使用词对应的频数集合Z拟合高斯函数F(X);
3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x);
3.5)针对词集合T中各个词Ti通过权重计算函数f(x)计算得到的权重进行归一化处理,得到该词最后的权重w(f(x));
3.6)词集合T中各个词Ti的权重w(f(x))记为wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)表示词Ti及其对应的权重wi,i∈[1,N],N表示词集合T中词的总数。
本实施例中,步骤3.3)中高斯函数F(X)的函数表达式如下式所示:
上式中,a,b,c为需要拟合的参数;本实施例中最终拟合得到的高斯函数F(X)如图3所示,其中a=a1,b=b1,c=c1
本实施例中,步骤3.4)中权重计算函数f(x)的函数表达式如下式所示:
上式中,a,b,c为高斯函数F(X)中的参数,x为词频。
本实施例中,步骤3.4)中权重w(f(x))的函数表达式如下式所示:
上式中,f(x)为权重计算函数,min(f(x))为所有词频计算出的权重中的最小值,max(f(x))为所有词频计算出的权重中的最大值,c为超参数。本实施例中,设置超参数c=1,最终得到最后的得到词对应的权重集合W={(T1,w1),(T2,w2)…,(TN,wN)}。本实施例中的上述权重w(f(x))的函数表达式能够保证下界可控,用于避免低权重的词的权值为零导致向量距离计算过程中为无效数据,同时能够放大高权值差异、减小低权值差异,使向量特征表示更集中在高权值词上同时不忽略低权值的作用。
此外,本实施例还提供一种基于词频的文本特征加权系统,包括:
输入程序单元,用于获取待处理数据;
预处理程序单元,用于针对待处理数据提取文本并进行预处理得到D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
权重计算程序单元,用于统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi
此外,本实施例还提供一种基于词频的文本特征加权系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行前述基于词频的文本特征加权方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行前述基于词频的文本特征加权方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述基于词频的文本特征加权方法的计算机程序。
如图4所示,作为本实施例前述基于词频的文本特征加权方法的一种典型应用,本实施例还提供一种基于词频的文本特征加权方法的短文本相似性计算方法,实施步骤包括:
S1)针对待处理数据采用前述基于词频的文本特征加权方法得到词的集合T以及词的集合T中各个词Ti对应的归一化后的权重wi构成的权重集合W;
S2)基于文本集合D和词集合T={T1,T2…Ti…TN}表示为词向量模式,得到词向量集合V={(T1,v1),(T2,v2),…(Ti,vi)…(TN,vN)},(Ti,vi)表示词Ti对应的词向量为vi
S3)结合词向量集合V及权重集合W计算得到加权词向量集合H={(T1,h1),(T2,h2),…(Ti,hi)…(TN,hN)},其中hi=wi×vi,词权重wi和词向量vi分别通过词Ti查找词权重集合W和词向量集合V得到;
S4)针对文本集合D中的任意文本Dj计算对应的向量表示得到文本集合D对应的向量表示集合
S5)针对文本集合D中的任意两个文本Cm、Cn,计算文本Cm、Cn在向量表示集合对应的向量表示之间的距离作为两个文本Cm、Cn之间的相似度Smn
此外,本实施例还提供一种短文本相似性计算系统,包括计算机设备,该计算机设备被编程或配置以执行前述短文本相似性计算方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行前述短文本相似性计算方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述短文本相似性计算方法的计算机程序。
需要说明的是,前述基于词频的文本特征加权方法具有广泛的应用前景,其应用场景并不局限于上式短文本相似性计算方法这一特定的实施方式。
综上所述,本实施例提取文本集合并分词获取词集合,统计词集合的频数集合并计算权重集合。基于文本集合和词集合表示为词向量得到词向量集合,结合词向量集合及权重集合计算加权词向量集合;针对任意文本,得出向量表示,并根据两个文本的向量表示,计算两个文本的相似度。本发明通过词频的统计本发明通过给予文本中的词不同的权重,能够实现信息的非线性分布。对于下游的文本相关任务,能够提供一种新的预处理方式。比如对于文本相似度计算,能够提高一定的准确率,这种权重设计能够降低词频低的词的权重,同时也能够赋予词频高的词的较低的权重,增加中间段词频的词的权重,减少词频低的词和词频高的词对整个文本向量的影响,提高文本间的相似度计算的准确率。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于词频的文本特征加权方法,其特征在于实施步骤包括:
1)获取待处理数据;
2)针对待处理数据提取文本并进行预处理得到文本集合D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
3)统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi
2.根据权利要求1中所述的基于词频的文本特征加权方法,其特征在于,步骤2)中的预处理包括删除特殊字符、去掉停用词、统一大小写、去重。
3.根据权利要求1中所述的基于词频的文本特征加权方法,其特征在于,步骤3)中进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi的详细步骤包括:
3.1)根据输入的词对应的频数集合Z统计词频数对应的词的种类数,得到集合Y:
Y={(x1,y1),(x2,y2),…(xj,yj)…(xn,yn)}
其中xj为词频,yj为对应词频的词的种类数,其中词频xj从小到大排序,并且j∈[1,n],n为词频的种类数,xj∈N+,yj∈N+,N+表示正整数;
3.2)使用预设的公式Xk对集合Y中所有的xj对应的yj,按照设定的区间xj∈[Ck-1,Ck)累加求和yj,直到最后一个(xj,yj)计算结束,从而得到集合X={X1,X2…Xk…XK},k∈[1,K]其中K为Xk的个数;其中,预设的公式Xk为:
上式中,N+表示正整数,其中C为可调的超参数,Ck表示上限区间,Ck-1表示下限区间;
3.3)使用词对应的频数集合Z拟合高斯函数F(X);
3.4)对拟合的高斯函数F(X)求导得到权重计算函数f(x);
3.5)针对词集合T中各个词Ti通过权重计算函数f(x)计算得到的权重进行归一化处理,得到该词最后的权重w(f(x));
3.6)词集合T中各个词Ti的权重w(f(x))记为wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)表示词Ti及其对应的权重wi,i∈[1,N],N表示词集合T中词的总数。
4.根据权利要求3中所述的基于词频的文本特征加权方法,其特征在于,步骤3.3)中高斯函数F(X)的函数表达式如下式所示:
上式中,a,b,c为需要拟合的参数;
步骤3.4中权重计算函数f(x)的函数表达式如下式所示:
上式中,a,b,c为高斯函数F(X)中的参数,x为词频。
5.根据权利要求3中所述的基于词频的文本特征加权方法,其特征在于,步骤3.4)中权重w(f(x))的函数表达式如下式所示:
上式中,f(x)为权重计算函数,min(f(x))为所有词频计算出的权重中的最小值,max(f(x))为所有词频计算出的权重中的最大值,c为超参数。
6.一种基于词频的文本特征加权系统,其特征在于包括:
输入程序单元,用于获取待处理数据;
预处理程序单元,用于针对待处理数据提取文本并进行预处理得到D={D1,D2…Dj…DM},其中Dj表示一个文本,j∈[1,M],M为文本的总数;对文本集合D进行分词,得到所有词的词集合T={T1,T2…Ti…TN},其中Ti表示词,i∈[1,N],N表示词的总数;
权重计算程序单元,用于统计词集合中词的集合T中每个词出现的次数,得到词对应的频数集合Z={(T1,x1),(T2,x2)…(Ti,xi)…(TN,xN)},其中(Ti,xi)表示词Ti对应的词频xi,xi∈N+,其中N+表示正整数;基于词对应的频数集合Z进行词频权重计算词集合T中各个词Ti对应的归一化后的权重wi,从而得到权重集合W={(T1,w1),(T2,w2)…(Ti,wi)…(TN,wN)},其中(Ti,wi)为Ti对应的权重wi
7.一种基于词频的文本特征加权系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任意一项所述基于词频的文本特征加权方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述基于词频的文本特征加权方法的计算机程序。
8.一种短文本相似性计算方法,其特征在于实施步骤包括:
S1)针对待处理数据采用权利要求1~5中任意一项所述基于词频的文本特征加权方法得到词的集合T以及词的集合T中各个词Ti对应的归一化后的权重wi构成的权重集合W;
S2)基于文本集合D和词集合T={T1,T2…Ti…TN}表示为词向量模式,得到词向量集合V={(T1,v1),(T2,v2),…(Ti,vi)…(TN,vN)},(Ti,vi)表示词Ti对应的词向量为vi
S3)结合词向量集合V及权重集合W计算得到加权词向量集合H={(T1,h1),(T2,h2),…(Ti,hi)…(TN,hN)},其中hi=wi×vi,词权重wi和词向量vi分别通过词Ti查找词权重集合W和词向量集合V得到;
S4)针对文本集合D中的任意文本Dj计算对应的向量表示得到文本集合D对应的向量表示集合
S5)针对文本集合D中的任意两个文本Cm、Cn,计算文本Cm、Cn在向量表示集合对应的向量表示之间的距离作为两个文本Cm、Cn之间的相似度Smn
9.一种短文本相似性计算系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求8所述短文本相似性计算方法的步骤,或该计算机设备的存储介质上存储有被编程或配置以执行权利要求8所述短文本相似性计算方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述基于词频的文本特征加权方法的计算机程序,或该计算机可读存储介质上存储有被编程或配置以执行权利要求8所述短文本相似性计算方法的计算机程序。
CN201910864611.3A 2019-09-12 2019-09-12 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 Active CN110489759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864611.3A CN110489759B (zh) 2019-09-12 2019-09-12 基于词频的文本特征加权及短文本相似性计算方法、系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864611.3A CN110489759B (zh) 2019-09-12 2019-09-12 基于词频的文本特征加权及短文本相似性计算方法、系统和介质

Publications (2)

Publication Number Publication Date
CN110489759A true CN110489759A (zh) 2019-11-22
CN110489759B CN110489759B (zh) 2023-02-28

Family

ID=68557929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864611.3A Active CN110489759B (zh) 2019-09-12 2019-09-12 基于词频的文本特征加权及短文本相似性计算方法、系统和介质

Country Status (1)

Country Link
CN (1) CN110489759B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078826A (zh) * 2019-12-23 2020-04-28 内蒙古正远信息技术有限公司 一种提升绩效的办公自动化系统及方法
CN113554053A (zh) * 2021-05-20 2021-10-26 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
WO2019029723A1 (zh) * 2017-08-11 2019-02-14 腾讯科技(深圳)有限公司 文本问题的数学化处理方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
WO2019029723A1 (zh) * 2017-08-11 2019-02-14 腾讯科技(深圳)有限公司 文本问题的数学化处理方法、装置、设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078826A (zh) * 2019-12-23 2020-04-28 内蒙古正远信息技术有限公司 一种提升绩效的办公自动化系统及方法
CN111078826B (zh) * 2019-12-23 2023-04-07 内蒙古正远信息技术有限公司 一种提升绩效的办公自动化系统及方法
CN113554053A (zh) * 2021-05-20 2021-10-26 重庆康洲大数据有限公司 一种比较中药处方相似性的方法

Also Published As

Publication number Publication date
CN110489759B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
CN111832292A (zh) 文本识别处理方法、装置、电子设备和存储介质
CN105224682B (zh) 新词发现方法及装置
CN103870447A (zh) 一种基于隐含狄利克雷模型的关键词抽取方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109800310A (zh) 一种基于结构化表达的电力运维文本分析方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN108628822B (zh) 无语义文本的识别方法及装置
CN109299270A (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN114330343B (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN110472240A (zh) 基于tf-idf的文本特征提取方法和装置
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN110489759A (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
CN109214445A (zh) 一种基于人工智能的多标签分类方法
Khemani et al. A review on reddit news headlines with nltk tool
CN104166712B (zh) 科技文献检索方法及系统
CN111782811A (zh) 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN108694176A (zh) 文档情感分析的方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 410000 No. 1101, C2 Building, Yuyuan, Lugu, 27 Wenxuan Road, Changsha High-tech Development Zone, Changsha City, Hunan Province

Applicant after: GENETALKS BIO-TECH (CHANGSHA) Co.,Ltd.

Address before: 410000 Building 1101, C2 Yuyuan, Lugu, No. 27 Wenxuan Road, Changsha High-tech Development Zone, Kaifu District, Changsha City, Hunan Province

Applicant before: GENETALKS BIO-TECH (CHANGSHA) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant