CN109597995A - 一种基于bm25加权结合词向量的文本表示方法 - Google Patents
一种基于bm25加权结合词向量的文本表示方法 Download PDFInfo
- Publication number
- CN109597995A CN109597995A CN201811476643.8A CN201811476643A CN109597995A CN 109597995 A CN109597995 A CN 109597995A CN 201811476643 A CN201811476643 A CN 201811476643A CN 109597995 A CN109597995 A CN 109597995A
- Authority
- CN
- China
- Prior art keywords
- word
- document
- vector
- term vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 238000003786 synthesis reaction Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于BM25加权结合词向量的文本表示方法,包括如以下步骤:步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性;步骤3:计算词的BM25权重,通过BM25算法给予与文档相关的词更高的权重;步骤4:得到文档向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;步骤5:分类,通过分类器进行判断该文档分类到各个类别的概率。本发明使用BM25加权模式,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,更加有效且高效。
Description
技术领域
本发明涉及到数据库数据复制技术领域,特别涉及一种基于BM25加权结合词向量的文本表示方法。
背景技术
将文本表示成有意义和有效的形式是自然语言处理中的一项基本任务。它也是许多基于文本的预测任务(如文档分类)的初始步骤。由于它的重要性,因此有许多前人工作致力于开发高效和有效的算法来表示有利于下游任务的文本。
早期的研究依赖于特征工程,通过从原始文本中提取词n元句法、词汇和句法特征来构造它们的特征集。它们使用一个超大维向量,如果某个词出现,则该向量对应维度为1,因此称为“单热”表示。这样的表示通常是稀疏的和离散的,不能捕捉特征之间的深层语义关联。其他各种技术,使用外部资源,如WordNet,以缓解特征稀疏问题。
表示学习的最新进展缓解了上述问题。表示学习的目的是学习为文本学习一个稠密的,连续的向量,并捕捉语义之间的相关性文本。根据他们是否依赖外部监督,可以进一步分类为无监督和监督的方法。无监督的方法,如Word2vec,段落向量,首先随机初始化文本表示,然后更新表示来预测其上下文。共享相似上下文的文本在向量空间中彼此接近。有监督的任务通常是任务相关的,它根据特定的任务来定制文本表示,并且被训练以最大化模型的性能。
现有工作的局限性是:第一,离散和稀疏表示不能捕获文本段之间的深层语义关联;第二,虽然无监督的方法容易且高效地训练,但它们不适合特定任务。因此,它们通常比监督的效果差。第三,监督一个通常是难以训练,递归神经网络和许多其他的深度学习方法通常有许多参数需要调节。
发明内容
发明的目的在于提供一种基于BM25加权结合词向量的文本表示方法,本发明使用BM25加权模式,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,以捕获词之间的语义关联性,本发明的方法有效且高效,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于BM25加权结合词向量的文本表示方法,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:
步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;
步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性,而词向量表示连续和稠密,被训练来预测上下文中的周围单词;
步骤3:计算词的BM25权重,在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重;
步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;
步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出。
进一步地,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,其中,
BM25加权模块测量文本中每个单词的重要性;
文本表示组件计算用于文档表示的每个单词的加权平均值;
分类组件使用文本表示作为其输入,并作出最终的预测。
进一步地,单词的单词向量堆叠在词汇表中,通过函数查找L找到对应的给定词的词向量。
进一步地,BM25的一个正式定义,计算文档d中词Wi的相关性得分如下:
其中b,k1均为超参数,|d|为文档的长度,,|avgdl|为整个数据集中文档的平均长度,IDF用于计算词的反文档频率。
进一步地,IDF的计算方法如下:
其中N数据集中文档数目,f(wi,d)表示词在文档中出现的频率。
进一步地,文档的向量表示为:
ed=∑score(wi,d)·ewi。
进一步地,通过softmax分类器预测ed的类别,公式如下:
p(y|ed)=softmax(f(ed))
其中f是一个非线性激活函数,y是文档的类别,则整个模型只需要最小化如下的损失函数:
J(θ)=-log(p(y|ed;θ))。
与现有技术相比,本发明的有益效果是:本发明提出的基于BM25加权结合词向量的文本表示方法,本发明使用BM25加权模式,使用BM25对文本中的每个单词进行局部和全局的加权,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,预训练的词向量包含上下文知识,以捕获词之间的语义关联性,结合了无监督和监督的方法的优点,实验结果表明,与现有的基于特征的、无监督的和监督的基线相比,本发明的方法有效且高效。
附图说明
图1为本发明的流程图;
图2为本发明的步骤1的程序代码图;
图3为本发明的步骤2的程序代码图;
图4为本发明的步骤3的程序代码图;
图5为本发明的步骤4的程序代码图;
图6为本发明的步骤5的程序代码图;
图7为本发明的模型的整体框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于BM25加权结合词向量的文本表示方法,流程如图1,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:
步骤1:词的切分,目的是将文档中的句子分解成为单独的词以便进行后续处理(程序代码如图2);
步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性(如同义词),而词向量表示是连续的和稠密的,被训练来预测上下文中的周围单词,使得在向量空间中具有相似意义的词彼此接近,使用在大型新闻数据集上预先训练的词向量(程序代码如图3);
步骤3:计算词的BM25权重,每个单词对文档的整体含义有不同的贡献,常用词或语气词在文章或句子中出现的频率很高,但是其重要性偏弱,有些词比其他词显示出更大的相关性,因此在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重(程序代码如图4);
步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示(程序代码如图5);
步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出(程序代码如图6)。
基于上述的方法,该方法的模型的整体框架如图7,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,BM25加权模块测量文本中每个单词的重要性;文本表示组件计算用于文档表示的每个单词的加权平均值;分类组件使用文本表示作为其输入,并作出最终的预测。对各个组件的具体阐述为:
1.词向量表示
使用当前流行的词向量表示。稀疏和离散的“单热”表示难以捕捉词之间的语义关联性(如同义词),而词向量表示是连续的和稠密的。被训练来预测上下文中的周围单词,使得在向量空间中具有相似意义的词彼此接近。使用在大型新闻数据集上预先训练的词向量。把单词的单词向量堆叠在词汇表中。通过函数查找函数L找到对应的给定词的词向量。
2.词权重计算
每个单词对文档的整体含义有不同的贡献,有些词比其他词显示出更大的相关性,现有的深度学习研究要么考虑每个单词同等重要,要么使用注意机制来计算每个单词的权重,这对于大数据集来说计算效率低下。为了使模型有效,同时保持有效性,使用BM25函数来计算文档中每个单词的相关性,BM25是信息检索中的函数,将每个文档的相关性排序为给定的查询。使用它计算一个词的相对于文本的相关性,考虑到一个词的局部以及全局重要性。
BM25的一个正式定义,计算文档d中词Wi的相关性得分如下:
其中b,k1均为超参数,|d|为文档的长度,,|avgdl|为整个数据集中文档的平均长度,IDF用于计算词的反文档频率,IDF的计算方法如下:
其中N数据集中文档数目,f(wi,d)表示词在文档中出现的频率。为了使得同一篇文档中的词加权为1,使用L2正则化处理。
1.文本表示
通过在引入的BM25函数获得单词向量及其对文档的相对重要性,可以获得一个文本的稠密向量表示,给定文档中各个词的向量ew1,ew2,…,ewn以及各词的相对文档的权重score(w1,d),score(w2,d),…,score(wn,d),通过加权求和,就能得到文档的向量表示:
ed=∑score(wi,d)·ewi。
2.分类
一旦我们获得了文档表示ed,可以通过softmax分类器来预测它的类别公式如下:
p(y|ed)=softmax(f(ed))
其中f是一个非线性激活函数,y是文档的类别,则整个模型只需要最小化如下的损失函数:
J(θ)=-log(p(y|ed;θ))。
本发明使用BM25加权模式,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,预训练的词向量包含上下文知识,以捕获词之间的语义关联性。例如,“足球”和“篮球”在向量空间中是很接近的。如果当看到文本里面的“足球”时把该文本分类为“体育”类别,同样可以把提到“篮球”的文本分类为“体育”类别,对一个常用的文档分类数据集进行了实验,数据集包含20个不同的类别,范围从“体育”到“政治”。与各种现有的监督和无监督的方法进行比较,实验结果表明,本发明的方法具有有效性和鲁棒性。同时,结合BM25加权模式和预训练单词向量的文本表示非常有前景。
综上所述,本发明提出的基于BM25加权结合词向量的文本表示方法,本发明使用BM25加权模式,使用BM25对文本中的每个单词进行局部和全局的加权,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,预训练的词向量包含上下文知识,以捕获词之间的语义关联性,结合了无监督和监督的方法的优点,实验结果表明,与现有的基于特征的、无监督的和监督的基线相比,本发明的方法有效且高效。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于BM25加权结合词向量的文本表示方法,其特征在于,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:
步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;
步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性,而词向量表示连续和稠密,被训练来预测上下文中的周围单词;
步骤3:计算词的BM25权重,在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重;
步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;
步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出。
2.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,其中,
BM25加权模块测量文本中每个单词的重要性;
文本表示组件计算用于文档表示的每个单词的加权平均值;
分类组件使用文本表示作为其输入,并作出最终的预测。
3.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,单词的单词向量堆叠在词汇表中,通过函数查找L找到对应的给定词的词向量。
4.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,BM25的一个正式定义,计算文档d中词Wi的相关性得分如下:
其中b,k1均为超参数,|d|为文档的长度,,|avgdl|为整个数据集中文档的平均长度,IDF用于计算词的反文档频率。
5.根据权利要求4所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,IDF的计算方法如下:
其中N数据集中文档数目,f(wi,d)表示词在文档中出现的频率。
6.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,文档的向量表示为:
ed=∑score(wi,d)·ewi。
7.根据权利要求6所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,通过softmax分类器预测ed的类别,公式如下:
p(y|ed)=softmax(f(ed))
其中f是一个非线性激活函数,y是文档的类别,则整个模型只需要最小化如下的损失函数:
J(θ)=-log(p(y|ed;θ))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811476643.8A CN109597995A (zh) | 2018-12-04 | 2018-12-04 | 一种基于bm25加权结合词向量的文本表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811476643.8A CN109597995A (zh) | 2018-12-04 | 2018-12-04 | 一种基于bm25加权结合词向量的文本表示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109597995A true CN109597995A (zh) | 2019-04-09 |
Family
ID=65962212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811476643.8A Pending CN109597995A (zh) | 2018-12-04 | 2018-12-04 | 一种基于bm25加权结合词向量的文本表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109597995A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196981A (zh) * | 2019-06-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 文本表示方法、装置、设备和存储介质 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
CN111191031A (zh) * | 2019-12-24 | 2020-05-22 | 上海大学 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
CN112307211A (zh) * | 2020-11-09 | 2021-02-02 | 深圳市洪堡智慧餐饮科技有限公司 | 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 |
CN112668340A (zh) * | 2020-12-28 | 2021-04-16 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN113361248A (zh) * | 2021-06-30 | 2021-09-07 | 平安普惠企业管理有限公司 | 一种文本的相似度计算的方法、装置、设备及存储介质 |
CN114676701A (zh) * | 2020-12-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本向量的处理方法、装置、介质以及电子设备 |
CN115686432A (zh) * | 2022-12-30 | 2023-02-03 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013029905A1 (en) * | 2011-08-26 | 2013-03-07 | Telefonica, S.A. | A computer implemented method to identify semantic meanings and use contexts of social tags |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108399158A (zh) * | 2018-02-05 | 2018-08-14 | 华南理工大学 | 基于依存树和注意力机制的属性情感分类方法 |
-
2018
- 2018-12-04 CN CN201811476643.8A patent/CN109597995A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013029905A1 (en) * | 2011-08-26 | 2013-03-07 | Telefonica, S.A. | A computer implemented method to identify semantic meanings and use contexts of social tags |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108399158A (zh) * | 2018-02-05 | 2018-08-14 | 华南理工大学 | 基于依存树和注意力机制的属性情感分类方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196981A (zh) * | 2019-06-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 文本表示方法、装置、设备和存储介质 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
CN111191031A (zh) * | 2019-12-24 | 2020-05-22 | 上海大学 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
CN112307211A (zh) * | 2020-11-09 | 2021-02-02 | 深圳市洪堡智慧餐饮科技有限公司 | 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 |
CN114676701A (zh) * | 2020-12-24 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本向量的处理方法、装置、介质以及电子设备 |
CN112668340A (zh) * | 2020-12-28 | 2021-04-16 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN113361248A (zh) * | 2021-06-30 | 2021-09-07 | 平安普惠企业管理有限公司 | 一种文本的相似度计算的方法、装置、设备及存储介质 |
CN115686432A (zh) * | 2022-12-30 | 2023-02-03 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
CN115686432B (zh) * | 2022-12-30 | 2023-04-07 | 药融云数字科技(成都)有限公司 | 一种用于检索排序的文献评价方法、存储介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mao et al. | Extractive summarization using supervised and unsupervised learning | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
Baralis et al. | GraphSum: Discovering correlations among multiple terms for graph-based summarization | |
Aggarwal et al. | Classification of fake news by fine-tuning deep bidirectional transformers based language model | |
CN110083696B (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
Hou et al. | Attention-based learning of self-media data for marketing intention detection | |
Xun et al. | A survey on context learning | |
Xiao et al. | A graphical decomposition and similarity measurement approach for topic detection from online news | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
Vidyadhari et al. | Particle grey wolf optimizer (pgwo) algorithm and semantic word processing for automatic text clustering | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment | |
Liu et al. | Network public opinion monitoring system for agriculture products based on big data | |
Foong et al. | A hybrid PSO model in extractive text summarizer | |
Guo | [Retracted] Intelligent Sports Video Classification Based on Deep Neural Network (DNN) Algorithm and Transfer Learning | |
Hourali et al. | A new approach for automating the ontology learning process using fuzzy theory and ART neural network | |
Tang et al. | Text semantic understanding based on knowledge enhancement and multi-granular feature extraction | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization | |
Kohsasih et al. | Sentiment Analysis for Financial News Using RNN-LSTM Network | |
Song et al. | Deep hierarchical attention networks for text matching in information retrieval | |
Zhang et al. | Research and implementation of keyword extraction algorithm based on professional background knowledge | |
Zheng et al. | An improved focused crawler based on text keyword extraction | |
Huynh et al. | Using coreference and surrounding contexts for entity linking | |
Ou et al. | Integrating semantics and neighborhood information with graph-driven generative models for document retrieval | |
Ning | Research on the extraction of accounting multi-relationship information based on cloud computing and multimedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |
|
RJ01 | Rejection of invention patent application after publication |