CN107066441A - 一种计算词性相关性的方法及装置 - Google Patents
一种计算词性相关性的方法及装置 Download PDFInfo
- Publication number
- CN107066441A CN107066441A CN201611135878.1A CN201611135878A CN107066441A CN 107066441 A CN107066441 A CN 107066441A CN 201611135878 A CN201611135878 A CN 201611135878A CN 107066441 A CN107066441 A CN 107066441A
- Authority
- CN
- China
- Prior art keywords
- vector
- vocabulary
- frequency
- key vocabularies
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种计算词性相关性的方法及装置。该方法包括:获取文本并进行分词处理,根据TF‑IDF权重计算方法计算所有词汇的TF‑IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量;计算关键词汇的特征向量之间的向量距离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次,根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外,本发明可以研究某一领域的词汇相关性,通过某领域内特定的目标关键词来预测与其相关词汇的出现,利用该特性可以进行事件与事件之间的相互检索。
Description
技术领域
本发明实施例涉及自然语言处理中词汇相关性计算领域,尤其涉及一种计算词性相关性的方法及装置。
背景技术
词汇的相关性研究是在自然语言处理的一个基本研究课题,相关性计算水平的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。在传统的词语相关性研究中,大多关注一对词汇之间的相关性;并且大多都存在一个假设:即相关的词汇至少应该以“共同出现”为基础。
在国外,词汇的相关性研究起步较早,成果也相对较多。目前较为成熟的相关性语义词典有WordNet、FrameNetE、MindNet等。而国内汉语方面也有HOW—Net、同义词词林等。这些语义词典从本质上是通过研究词与词之间的关系相互映射,并通过大量统计得到。它们均是靠人为统计和计算,从研发到产品上线大都需要耗费一定的人力和资源。
目前被广泛研究与采用的两种方法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统计的上下文向量空间模型方法。由于一些理论上以及运行条件的限制,现有的技术还存在很多问题,难以发挥理想的效果。例如,在单文本或是单个自然段中,基于上下文统计的词汇相关性计算方法比较有说服力,但当文本数据量大,且讨论在一段时间内的词汇相关性或讨论在某一领域内(如金融,军事)的词汇相关性时,这种传统的相关性计算方法就很难起到作用了。
发明内容
本发明实施例的目的在于提出一种计算词性相关性的方法及装置,旨在解决如何在文本数据量大的情况下获取词性相关性的问题。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种计算词性相关性的方法,所述方法包括:
获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;
获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;
计算关键词汇的特征向量之间的向量距离;
若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。
优选地,所述获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇,包括:
获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;
通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;
通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。
优选地,所述获取每个关键词汇对应的频次向量,包括:
获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值 按照向量来表示,并形成了一个多维的向量。
优选地,所述获取每个关键词汇对应的增长率向量,包括:
获取每个关键词汇在所述第一时间间隔内的所有频次值;
根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;
将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。
优选地,所述方法还包括:
若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有词汇相关性。
第二方面,一种计算词性相关性的装置,所述装置包括:
第一获取模块,用于获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;
第二获取模块,用于获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;
计算模块,用于计算关键词汇的特征向量之间的向量距离;
第一确定模块,用于若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。
优选地,所述第一获取模块,具体用于:
获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;
通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;
通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。
优选地,所述第二获取模块,具体用于:
获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值按照向量来表示,并形成了一个多维的向量。
优选地,所述第二获取模块,还具体用于:
获取每个关键词汇在所述第一时间间隔内的所有频次值;
根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;
将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。
优选地,所述装置还包括:
第二确定模块,用于若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有词汇相关性。
本发明实施例提供的一种计算词性相关性的方法及装置,获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;计算关键词汇的特征向量之间的向量距离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次,根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外,本发明可以研究某一领域的词汇相关性,通过某领域内特定的目标关键 词来预测与其相关词汇的出现,利用该特性可以进行事件与事件之间的相互检索。
附图说明
图1是本发明实施例提供的一种计算词性相关性的方法的流程示意图;
图2是本发明实施例提供的一种计算词性相关性的装置的功能模块示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
参考图1,图1是本发明实施例提供的一种计算词性相关性的方法的流程示意图。
如图1所示,所述计算词性相关性的方法包括:
步骤101,获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;
具体的,本发明采取网络爬虫获取2015年金融领域新闻文本作为实验文本集,并将数据按照日期存储,以天为单位。
通过文本分词技术,将当天的文本进行分词,并统计所有词汇在当天出现的频次。因为统计周期为一年365天,这样每个词汇在每一天都对应一个频次值(当某个词汇在某一天没有出现时,当天频次为0)。
通过统计词汇的频次,根据频次和文本出现的天数来计算词汇的TF-IDF值,并将所有词汇根据TF-IDF(term frequency–inverse document frequency) 值将词汇排序,将值大的词汇作为文本关键词汇。
优选地,所述获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇,包括:
获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;
通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;
通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。
步骤102,获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;
优选地,所述获取每个关键词汇对应的频次向量,包括:
获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值按照向量来表示,并形成了一个多维的向量。
具体的,词汇的统计周期为365天,这样每个词汇就对应了365个频次值,将频次按照向量来表示,就形成了一个365维的向量,并且所有词汇的对应的向量的维度均一一对应。
优选地,所述获取每个关键词汇对应的增长率向量,包括:
获取每个关键词汇在所述第一时间间隔内的所有频次值;
根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;
将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。
具体的,利用词汇的频次向量可以匹配频次大小一致的词汇,但当两个词汇的变化趋势相近,但频次大小不一致时,利用频次向量很难将其匹配,所以引入增长率向量的概念,将词汇频次在原有基础上加1,防止在计算增长率时出现分母为0的情况,计算公式为:
A=(Fi+1-Fi)/Fi
其中,Fi为词汇频次向量对应第i个频次值。Fi+1为第i+1个频次值。
步骤103,计算关键词汇的特征向量之间的向量距离;
具体的,计算向量夹角来衡量词汇之间的相关性。其计算公式为:
S值越小,说明两个词汇越相关。
步骤104,若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。
具体的,例如在金融领域来筛选关键词,通过TF-IDF权重计算后,得到权重较高的三个词汇“央行降息”,“信托公司”,“大盘跳水”三个词汇,并且这三个词汇可以代表三个事件,通过统计365天的频次,然后再计算向量之间的距离,得到以下数据:
L(央行降息,信托公司)=0.135397
L(大盘跳水,信托公司)=0.115351
L(央行降息,大盘跳水)=0.253832。
优选地,所述方法还包括:
若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有词汇相关性。
本发明实施例提供的一种计算词性相关性的方法,获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;计算关键词汇的特征向量之间的向量距离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次,根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外,本发明可以研究某一领域的词汇相关性,通过某领域内特定的目标关键词来预测与其相关词汇的出现,利用该特性可以进行事件与事件之间的相互检索。
参考图2,图2是本发明实施例提供的一种计算词性相关性的装置的功能模块示意图。
如图2所示,所述装置包括:
第一获取模块201,用于获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;
优选地,所述第一获取模块201,具体用于:
获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;
通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;
通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词 汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。
第二获取模块202,用于获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;
优选地,所述第二获取模块202,具体用于:
获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值按照向量来表示,并形成了一个多维的向量。
优选地,所述第二获取模块202,还具体用于:
获取每个关键词汇在所述第一时间间隔内的所有频次值;
根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;
将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。
计算模块203,用于计算关键词汇的特征向量之间的向量距离;
第一确定模块204,用于若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。
优选地,所述装置还包括:
第二确定模块,用于若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有词汇相关性。
本发明实施例提供的一种计算词性相关性的装置,获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;计算关键词汇的特征向量之间的向量距 离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。本发明需要统计一定时间内词汇出现的频次,根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外,本发明可以研究某一领域的词汇相关性,通过某领域内特定的目标关键词来预测与其相关词汇的出现,利用该特性可以进行事件与事件之间的相互检索。
以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。
Claims (10)
1.一种计算词性相关性的方法,其特征在于,所述方法包括:
获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;
获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;
计算关键词汇的特征向量之间的向量距离;
若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。
2.根据权利要求1所述的方法,其特征在于,所述获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇,包括:
获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;
通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;
通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。
3.根据权利要求1所述的方法,其特征在于,所述获取每个关键词汇对应的频次向量,包括:
获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值按照向量来表示,并形成了一个多维的向量。
4.根据权利要求3所述的方法,其特征在于,所述获取每个关键词汇对应的增长率向量,包括:
获取每个关键词汇在所述第一时间间隔内的所有频次值;
根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;
将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有词汇相关性。
6.一种计算词性相关性的装置,其特征在于,所述装置包括:
第一获取模块,用于获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;
第二获取模块,用于获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;
计算模块,用于计算关键词汇的特征向量之间的向量距离;
第一确定模块,用于若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。
7.根据权利要求6所述的装置,其特征在于,所述第一获取模块,具体用于:
获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;
通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;
通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。
8.根据权利要求6所述的装置,其特征在于,所述第二获取模块,具体用于:
获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值按照向量来表示,并形成了一个多维的向量。
9.根据权利要求8所述的装置,其特征在于,所述第二获取模块,还具体用于:
获取每个关键词汇在所述第一时间间隔内的所有频次值;
根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;
将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。
10.根据权利要求6至9任意一项所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有词汇相关性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611135878.1A CN107066441A (zh) | 2016-12-09 | 2016-12-09 | 一种计算词性相关性的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611135878.1A CN107066441A (zh) | 2016-12-09 | 2016-12-09 | 一种计算词性相关性的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107066441A true CN107066441A (zh) | 2017-08-18 |
Family
ID=59619793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611135878.1A Pending CN107066441A (zh) | 2016-12-09 | 2016-12-09 | 一种计算词性相关性的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107066441A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN109635299A (zh) * | 2018-12-13 | 2019-04-16 | 北京锐安科技有限公司 | 词汇相关性确定方法、装置、设备和计算机可读存储介质 |
CN109828748A (zh) * | 2018-12-15 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 代码命名方法、系统、计算机装置及计算机可读存储介质 |
CN116992035A (zh) * | 2023-09-27 | 2023-11-03 | 湖南正宇软件技术开发有限公司 | 一种提案智能分类的方法、装置、计算机设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011057497A1 (zh) * | 2009-11-10 | 2011-05-19 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
-
2016
- 2016-12-09 CN CN201611135878.1A patent/CN107066441A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011057497A1 (zh) * | 2009-11-10 | 2011-05-19 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
Non-Patent Citations (1)
Title |
---|
李强: "基于共振理论的词汇相关性计算", 《基于共振理论的词汇相关性计算》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN108763402B (zh) * | 2018-05-22 | 2021-08-27 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN109635299A (zh) * | 2018-12-13 | 2019-04-16 | 北京锐安科技有限公司 | 词汇相关性确定方法、装置、设备和计算机可读存储介质 |
CN109828748A (zh) * | 2018-12-15 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 代码命名方法、系统、计算机装置及计算机可读存储介质 |
CN116992035A (zh) * | 2023-09-27 | 2023-11-03 | 湖南正宇软件技术开发有限公司 | 一种提案智能分类的方法、装置、计算机设备和介质 |
CN116992035B (zh) * | 2023-09-27 | 2023-12-08 | 湖南正宇软件技术开发有限公司 | 一种提案智能分类的方法、装置、计算机设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106445998A (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
Zhou et al. | An unsupervised framework of exploring events on twitter: Filtering, extraction and categorization | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
Li et al. | Joint event extraction based on hierarchical event schemas from FrameNet | |
Cheng et al. | Coupled term-term relation analysis for document clustering | |
CN109508378B (zh) | 一种样本数据处理方法及装置 | |
CN107066441A (zh) | 一种计算词性相关性的方法及装置 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
CN104239512A (zh) | 一种文本推荐方法 | |
CN102033919A (zh) | 文本关键词提取方法及系统 | |
CN102737112B (zh) | 基于表现语义分析的概念相关度计算方法 | |
Hossny et al. | Feature selection methods for event detection in Twitter: a text mining approach | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN108228541A (zh) | 生成文档摘要的方法和装置 | |
CN109918621A (zh) | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 | |
CN110390044A (zh) | 一种相似网络页面的搜索方法及设备 | |
CN109241277A (zh) | 基于新闻关键词的文本向量加权的方法及系统 | |
Wu et al. | An Improved TF-IDF algorithm based on word frequency distribution information and category distribution information | |
CN108804595A (zh) | 一种基于word2vec的短文本表示方法 | |
CN106372237A (zh) | 欺诈邮件识别方法及装置 | |
Xiaolin et al. | An improved Single-Pass clustering algorithm internet-oriented network topic detection | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 | |
CN111444337B (zh) | 一种基于改进kl散度的话题跟踪方法 | |
CN110362813A (zh) | 基于bm25的搜索相关性度量方法、存储介质、设备及系统 | |
CN108519983A (zh) | 一种基于潜层语义分析的安全的文档相似性计算方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170818 |