CN109597995A - 一种基于bm25加权结合词向量的文本表示方法 - Google Patents

一种基于bm25加权结合词向量的文本表示方法 Download PDF

Info

Publication number
CN109597995A
CN109597995A CN201811476643.8A CN201811476643A CN109597995A CN 109597995 A CN109597995 A CN 109597995A CN 201811476643 A CN201811476643 A CN 201811476643A CN 109597995 A CN109597995 A CN 109597995A
Authority
CN
China
Prior art keywords
word
document
vector
term vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811476643.8A
Other languages
English (en)
Inventor
付俊峰
郑锦坤
梁良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information And Communication Branch Of Jiangxi Electric Power Co Ltd
State Grid Corp of China SGCC
Original Assignee
Information And Communication Branch Of Jiangxi Electric Power Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information And Communication Branch Of Jiangxi Electric Power Co Ltd, State Grid Corp of China SGCC filed Critical Information And Communication Branch Of Jiangxi Electric Power Co Ltd
Priority to CN201811476643.8A priority Critical patent/CN109597995A/zh
Publication of CN109597995A publication Critical patent/CN109597995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于BM25加权结合词向量的文本表示方法,包括如以下步骤:步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性;步骤3:计算词的BM25权重,通过BM25算法给予与文档相关的词更高的权重;步骤4:得到文档向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;步骤5:分类,通过分类器进行判断该文档分类到各个类别的概率。本发明使用BM25加权模式,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,更加有效且高效。

Description

一种基于BM25加权结合词向量的文本表示方法
技术领域
本发明涉及到数据库数据复制技术领域,特别涉及一种基于BM25加权结合词向量的文本表示方法。
背景技术
将文本表示成有意义和有效的形式是自然语言处理中的一项基本任务。它也是许多基于文本的预测任务(如文档分类)的初始步骤。由于它的重要性,因此有许多前人工作致力于开发高效和有效的算法来表示有利于下游任务的文本。
早期的研究依赖于特征工程,通过从原始文本中提取词n元句法、词汇和句法特征来构造它们的特征集。它们使用一个超大维向量,如果某个词出现,则该向量对应维度为1,因此称为“单热”表示。这样的表示通常是稀疏的和离散的,不能捕捉特征之间的深层语义关联。其他各种技术,使用外部资源,如WordNet,以缓解特征稀疏问题。
表示学习的最新进展缓解了上述问题。表示学习的目的是学习为文本学习一个稠密的,连续的向量,并捕捉语义之间的相关性文本。根据他们是否依赖外部监督,可以进一步分类为无监督和监督的方法。无监督的方法,如Word2vec,段落向量,首先随机初始化文本表示,然后更新表示来预测其上下文。共享相似上下文的文本在向量空间中彼此接近。有监督的任务通常是任务相关的,它根据特定的任务来定制文本表示,并且被训练以最大化模型的性能。
现有工作的局限性是:第一,离散和稀疏表示不能捕获文本段之间的深层语义关联;第二,虽然无监督的方法容易且高效地训练,但它们不适合特定任务。因此,它们通常比监督的效果差。第三,监督一个通常是难以训练,递归神经网络和许多其他的深度学习方法通常有许多参数需要调节。
发明内容
发明的目的在于提供一种基于BM25加权结合词向量的文本表示方法,本发明使用BM25加权模式,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,以捕获词之间的语义关联性,本发明的方法有效且高效,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于BM25加权结合词向量的文本表示方法,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:
步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;
步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性,而词向量表示连续和稠密,被训练来预测上下文中的周围单词;
步骤3:计算词的BM25权重,在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重;
步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;
步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出。
进一步地,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,其中,
BM25加权模块测量文本中每个单词的重要性;
文本表示组件计算用于文档表示的每个单词的加权平均值;
分类组件使用文本表示作为其输入,并作出最终的预测。
进一步地,单词的单词向量堆叠在词汇表中,通过函数查找L找到对应的给定词的词向量。
进一步地,BM25的一个正式定义,计算文档d中词Wi的相关性得分如下:
其中b,k1均为超参数,|d|为文档的长度,,|avgdl|为整个数据集中文档的平均长度,IDF用于计算词的反文档频率。
进一步地,IDF的计算方法如下:
其中N数据集中文档数目,f(wi,d)表示词在文档中出现的频率。
进一步地,文档的向量表示为:
ed=∑score(wi,d)·ewi
进一步地,通过softmax分类器预测ed的类别,公式如下:
p(y|ed)=softmax(f(ed))
其中f是一个非线性激活函数,y是文档的类别,则整个模型只需要最小化如下的损失函数:
J(θ)=-log(p(y|ed;θ))。
与现有技术相比,本发明的有益效果是:本发明提出的基于BM25加权结合词向量的文本表示方法,本发明使用BM25加权模式,使用BM25对文本中的每个单词进行局部和全局的加权,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,预训练的词向量包含上下文知识,以捕获词之间的语义关联性,结合了无监督和监督的方法的优点,实验结果表明,与现有的基于特征的、无监督的和监督的基线相比,本发明的方法有效且高效。
附图说明
图1为本发明的流程图;
图2为本发明的步骤1的程序代码图;
图3为本发明的步骤2的程序代码图;
图4为本发明的步骤3的程序代码图;
图5为本发明的步骤4的程序代码图;
图6为本发明的步骤5的程序代码图;
图7为本发明的模型的整体框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于BM25加权结合词向量的文本表示方法,流程如图1,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:
步骤1:词的切分,目的是将文档中的句子分解成为单独的词以便进行后续处理(程序代码如图2);
步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性(如同义词),而词向量表示是连续的和稠密的,被训练来预测上下文中的周围单词,使得在向量空间中具有相似意义的词彼此接近,使用在大型新闻数据集上预先训练的词向量(程序代码如图3);
步骤3:计算词的BM25权重,每个单词对文档的整体含义有不同的贡献,常用词或语气词在文章或句子中出现的频率很高,但是其重要性偏弱,有些词比其他词显示出更大的相关性,因此在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重(程序代码如图4);
步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示(程序代码如图5);
步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出(程序代码如图6)。
基于上述的方法,该方法的模型的整体框架如图7,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,BM25加权模块测量文本中每个单词的重要性;文本表示组件计算用于文档表示的每个单词的加权平均值;分类组件使用文本表示作为其输入,并作出最终的预测。对各个组件的具体阐述为:
1.词向量表示
使用当前流行的词向量表示。稀疏和离散的“单热”表示难以捕捉词之间的语义关联性(如同义词),而词向量表示是连续的和稠密的。被训练来预测上下文中的周围单词,使得在向量空间中具有相似意义的词彼此接近。使用在大型新闻数据集上预先训练的词向量。把单词的单词向量堆叠在词汇表中。通过函数查找函数L找到对应的给定词的词向量。
2.词权重计算
每个单词对文档的整体含义有不同的贡献,有些词比其他词显示出更大的相关性,现有的深度学习研究要么考虑每个单词同等重要,要么使用注意机制来计算每个单词的权重,这对于大数据集来说计算效率低下。为了使模型有效,同时保持有效性,使用BM25函数来计算文档中每个单词的相关性,BM25是信息检索中的函数,将每个文档的相关性排序为给定的查询。使用它计算一个词的相对于文本的相关性,考虑到一个词的局部以及全局重要性。
BM25的一个正式定义,计算文档d中词Wi的相关性得分如下:
其中b,k1均为超参数,|d|为文档的长度,,|avgdl|为整个数据集中文档的平均长度,IDF用于计算词的反文档频率,IDF的计算方法如下:
其中N数据集中文档数目,f(wi,d)表示词在文档中出现的频率。为了使得同一篇文档中的词加权为1,使用L2正则化处理。
1.文本表示
通过在引入的BM25函数获得单词向量及其对文档的相对重要性,可以获得一个文本的稠密向量表示,给定文档中各个词的向量ew1,ew2,…,ewn以及各词的相对文档的权重score(w1,d),score(w2,d),…,score(wn,d),通过加权求和,就能得到文档的向量表示:
ed=∑score(wi,d)·ewi
2.分类
一旦我们获得了文档表示ed,可以通过softmax分类器来预测它的类别公式如下:
p(y|ed)=softmax(f(ed))
其中f是一个非线性激活函数,y是文档的类别,则整个模型只需要最小化如下的损失函数:
J(θ)=-log(p(y|ed;θ))。
本发明使用BM25加权模式,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,预训练的词向量包含上下文知识,以捕获词之间的语义关联性。例如,“足球”和“篮球”在向量空间中是很接近的。如果当看到文本里面的“足球”时把该文本分类为“体育”类别,同样可以把提到“篮球”的文本分类为“体育”类别,对一个常用的文档分类数据集进行了实验,数据集包含20个不同的类别,范围从“体育”到“政治”。与各种现有的监督和无监督的方法进行比较,实验结果表明,本发明的方法具有有效性和鲁棒性。同时,结合BM25加权模式和预训练单词向量的文本表示非常有前景。
综上所述,本发明提出的基于BM25加权结合词向量的文本表示方法,本发明使用BM25加权模式,使用BM25对文本中的每个单词进行局部和全局的加权,可以从文本中识别出最重要的单词,并在将单词组合成文本表示时赋予它们更大的权重,预训练的词向量包含上下文知识,以捕获词之间的语义关联性,结合了无监督和监督的方法的优点,实验结果表明,与现有的基于特征的、无监督的和监督的基线相比,本发明的方法有效且高效。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于BM25加权结合词向量的文本表示方法,其特征在于,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:
步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;
步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性,而词向量表示连续和稠密,被训练来预测上下文中的周围单词;
步骤3:计算词的BM25权重,在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重;
步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;
步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出。
2.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,其中,
BM25加权模块测量文本中每个单词的重要性;
文本表示组件计算用于文档表示的每个单词的加权平均值;
分类组件使用文本表示作为其输入,并作出最终的预测。
3.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,单词的单词向量堆叠在词汇表中,通过函数查找L找到对应的给定词的词向量。
4.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,BM25的一个正式定义,计算文档d中词Wi的相关性得分如下:
其中b,k1均为超参数,|d|为文档的长度,,|avgdl|为整个数据集中文档的平均长度,IDF用于计算词的反文档频率。
5.根据权利要求4所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,IDF的计算方法如下:
其中N数据集中文档数目,f(wi,d)表示词在文档中出现的频率。
6.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,文档的向量表示为:
ed=∑score(wi,d)·ewi
7.根据权利要求6所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,通过softmax分类器预测ed的类别,公式如下:
p(y|ed)=softmax(f(ed))
其中f是一个非线性激活函数,y是文档的类别,则整个模型只需要最小化如下的损失函数:
J(θ)=-log(p(y|ed;θ))。
CN201811476643.8A 2018-12-04 2018-12-04 一种基于bm25加权结合词向量的文本表示方法 Pending CN109597995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811476643.8A CN109597995A (zh) 2018-12-04 2018-12-04 一种基于bm25加权结合词向量的文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811476643.8A CN109597995A (zh) 2018-12-04 2018-12-04 一种基于bm25加权结合词向量的文本表示方法

Publications (1)

Publication Number Publication Date
CN109597995A true CN109597995A (zh) 2019-04-09

Family

ID=65962212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811476643.8A Pending CN109597995A (zh) 2018-12-04 2018-12-04 一种基于bm25加权结合词向量的文本表示方法

Country Status (1)

Country Link
CN (1) CN109597995A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196981A (zh) * 2019-06-11 2019-09-03 百度在线网络技术(北京)有限公司 文本表示方法、装置、设备和存储介质
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111191031A (zh) * 2019-12-24 2020-05-22 上海大学 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN112307211A (zh) * 2020-11-09 2021-02-02 深圳市洪堡智慧餐饮科技有限公司 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法
CN112668340A (zh) * 2020-12-28 2021-04-16 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN113361248A (zh) * 2021-06-30 2021-09-07 平安普惠企业管理有限公司 一种文本的相似度计算的方法、装置、设备及存储介质
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013029905A1 (en) * 2011-08-26 2013-03-07 Telefonica, S.A. A computer implemented method to identify semantic meanings and use contexts of social tags
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013029905A1 (en) * 2011-08-26 2013-03-07 Telefonica, S.A. A computer implemented method to identify semantic meanings and use contexts of social tags
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN107871144A (zh) * 2017-11-24 2018-04-03 税友软件集团股份有限公司 发票商品名分类方法、系统、设备及计算机可读存储介质
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196981A (zh) * 2019-06-11 2019-09-03 百度在线网络技术(北京)有限公司 文本表示方法、装置、设备和存储介质
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111191031A (zh) * 2019-12-24 2020-05-22 上海大学 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN112307211A (zh) * 2020-11-09 2021-02-02 深圳市洪堡智慧餐饮科技有限公司 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法
CN114676701A (zh) * 2020-12-24 2022-06-28 腾讯科技(深圳)有限公司 文本向量的处理方法、装置、介质以及电子设备
CN112668340A (zh) * 2020-12-28 2021-04-16 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN113361248A (zh) * 2021-06-30 2021-09-07 平安普惠企业管理有限公司 一种文本的相似度计算的方法、装置、设备及存储介质
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端
CN115686432B (zh) * 2022-12-30 2023-04-07 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Similar Documents

Publication Publication Date Title
Mao et al. Extractive summarization using supervised and unsupervised learning
CN109597995A (zh) 一种基于bm25加权结合词向量的文本表示方法
Baralis et al. GraphSum: Discovering correlations among multiple terms for graph-based summarization
Aggarwal et al. Classification of fake news by fine-tuning deep bidirectional transformers based language model
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
Hou et al. Attention-based learning of self-media data for marketing intention detection
Xun et al. A survey on context learning
Xiao et al. A graphical decomposition and similarity measurement approach for topic detection from online news
Zhu et al. CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism
Lee et al. Detecting suicidality with a contextual graph neural network
Vidyadhari et al. Particle grey wolf optimizer (pgwo) algorithm and semantic word processing for automatic text clustering
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
Liu et al. Network public opinion monitoring system for agriculture products based on big data
Foong et al. A hybrid PSO model in extractive text summarizer
Guo [Retracted] Intelligent Sports Video Classification Based on Deep Neural Network (DNN) Algorithm and Transfer Learning
Hourali et al. A new approach for automating the ontology learning process using fuzzy theory and ART neural network
Tang et al. Text semantic understanding based on knowledge enhancement and multi-granular feature extraction
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
Kohsasih et al. Sentiment Analysis for Financial News Using RNN-LSTM Network
Song et al. Deep hierarchical attention networks for text matching in information retrieval
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge
Zheng et al. An improved focused crawler based on text keyword extraction
Huynh et al. Using coreference and surrounding contexts for entity linking
Ou et al. Integrating semantics and neighborhood information with graph-driven generative models for document retrieval
Ning Research on the extraction of accounting multi-relationship information based on cloud computing and multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409

RJ01 Rejection of invention patent application after publication