CN112765983A - 一种基于结合知识描述的神经网络的实体消歧的方法 - Google Patents

一种基于结合知识描述的神经网络的实体消歧的方法 Download PDF

Info

Publication number
CN112765983A
CN112765983A CN202011467935.2A CN202011467935A CN112765983A CN 112765983 A CN112765983 A CN 112765983A CN 202011467935 A CN202011467935 A CN 202011467935A CN 112765983 A CN112765983 A CN 112765983A
Authority
CN
China
Prior art keywords
entity
context
candidate
knowledge
candidate entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011467935.2A
Other languages
English (en)
Inventor
刘光毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011467935.2A priority Critical patent/CN112765983A/zh
Publication of CN112765983A publication Critical patent/CN112765983A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于结合知识描述的神经网络的实体消歧的方法,涉及自然语言处理技术领域。包括以下步骤:步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;步骤3:对候选实体知识描述关键词提取;步骤4:建立实体消歧的局部模型;步骤5:建立实体消歧的全局模型;步骤6:引入损失函数,训练找到步骤4中的目标式。本发明从候选实体以及本文上下文的向量中同时进行实体操作,将全局模型用于短文本的实体消歧中,结合优化后的局部模型,弥补了全局模型语料库缺乏以及局部模型缺少文本其他实体信息的问题。

Description

一种基于结合知识描述的神经网络的实体消歧的方法
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及一种基于结合知识描述的神经网络的实体消歧的方法。
背景技术
实体消歧是NLP中实体链接的子任务,例如“十面埋伏”一词,可以是歌手陈奕迅演唱的一首歌曲,也可以是张艺谋导演执导拍摄的电影,还可能是汉语成语或者是琵琶曲。
目前主要的实体消歧方法主要分为机器学习和深度学习的方法:传统的机器学习方法按照模型分类主要包含基于检索的方法、基于排序模型的方法、基于空间向量的方法、基于主题模型的方法等;基于深度学习的实体消歧是目前主流的研究方法,根据模型利用的信息又可以分为局部模型和全局模型。基于上下文的局部模型与基于全局的模型可以从不同的方面进行实体消歧。结合两种方法一起使用是目前长文本实体消歧的主流思路。但是这些方法通过离线训练实体向量来表示实体,使得消歧模型存在天然的信息表示损失问题。
局部模型利用实体指称周围的局部文本上下文信息独立的解决每个实体指称的歧义问题,忽视了位于同一文档的不同实体间存在的语义联系;全局模型通常将文档中的实体指称及其候选实体构建为图结构,其中节点为实体,边表示其关系,利用实体指称间、候选实体间、实体指称与候选实体间的关系协同推理,同样存在数据缺乏的问题,同时,由于联合推理机制导致计算量庞大,在文档较长的情况下实体图包含节点过多导致计算量很大。
发明内容
本发明的目的在于提供一种基于结合知识描述的神经网络的实体消歧的方法,以期解决背景技术中的问题。本发明主要针对上述问题,在模型的基础上,融合实体知识的描述,在输入时不单输入文本的词向量或者字向量,而是指称上下文文本和候选实体的向量表示结合,构建融合了实体知识描述的消歧模型。
为了实现上述目的,本发明采用以下技术方案:
一种基于结合知识描述的神经网络的实体消歧的方法,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω123…ωk},T(m)作为候选实体生成,元素e∈T(m),利用
Figure BDA0002835130120000021
得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
Figure BDA0002835130120000022
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
Figure BDA0002835130120000031
Figure BDA0002835130120000032
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
所述步骤2,包括:将上下文以及候选实体知识描述信息进行编码,每个候选实体的实体知识描述信息同指称上下文进行结合,得到未规范化的注意力权重
Figure BDA0002835130120000033
r代表第r个候选实体,i代表指称上下文的第i个编码向量,j代表候选实体知识描述的第j个编码向量;通过对增强后的局部推理信息进行池化,从而提取特征vr表示第r个候选实体知识描述与指称上下文结合得到的特征向量;S表示候选实体数量;预测模块对所有候选实体的相关度进行归一化,可以得到各个候选实体同指称的相关度概率:
Figure BDA0002835130120000034
所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
Figure BDA0002835130120000041
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
所述步骤4,包括:结合知识库统计的指称与实体的先验概率分布
Figure BDA0002835130120000042
得出局部模型:
Figure BDA0002835130120000043
式中:ψ(e,c)为上下文与候选实体之间的相似度,G(e,c)为(2)中的概率相关度消歧模型,
Figure BDA0002835130120000044
为指称先验概率;
用于计算指称的上下文同指称的候选实体的分数。
所述步骤5,包括:
针对文本所有指称集合M,m∈M,以及各自上下文C,c∈C,和各自候选实体T(m1),T(m2)…,建立全局模型,e为每个指称候选实体中选择一个实体:
Figure BDA0002835130120000045
Figure BDA0002835130120000046
式中:Φ(e,e′)是二元因子式,xe为实体e的向量表示;xe′为实体e′的向量表示,;C是上下文文本集合,g(e,c,m)表示全局模型;ψi(ei)=F(ei,ci,mi)为局部模型全连接网络的局部分数。
所述步骤6中的损失函数为最大边际损失函数(max-margin loss)。最大边际损失函数(max-margin loss)使得正确实体的排序高于其他候选实体。联合局部模型和全局模型从不同方面进行消歧。
本发明与现有技术相比具有的有益效果是:
本发明从候选实体以及本文上下文的向量中同时进行实体操作,将全局模型用于短文本的实体消歧中,结合优化后的局部模型,弥补了全局模型语料库缺乏以及局部模型缺少文本其他实体信息的问题。
附图说明
图1为模型整体识别流程图;
图2为局部模型示意图;
具体实施方式
下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。
实施例1:
下面将结合附图1和2,对本发明的技术方案进行完整的描述。
一种基于结合知识描述的神经网络的实体消歧的方法,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω123…ωk},T(m)作为候选实体生成,元素e∈T(m),利用
Figure BDA0002835130120000061
得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
Figure BDA0002835130120000062
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
Figure BDA0002835130120000063
Figure BDA0002835130120000064
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
所述步骤2,包括:将上下文以及候选实体知识描述信息进行编码,每个候选实体的实体知识描述信息同指称上下文进行结合,得到未规范化的注意力权重
Figure BDA0002835130120000071
r代表第r个候选实体,i代表指称上下文的第i个编码向量,j代表候选实体知识描述的第j个编码向量;通过对增强后的局部推理信息进行池化,从而提取特征vr表示第r个候选实体知识描述与指称上下文结合得到的特征向量;S表示候选实体数量;预测模块对所有候选实体的相关度进行归一化,可以得到各个候选实体同指称的相关度概率:
Figure BDA0002835130120000072
所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
Figure BDA0002835130120000073
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
所述步骤4,包括:结合知识库统计的指称与实体的先验概率分布
Figure BDA0002835130120000081
得出局部模型:
Figure BDA0002835130120000082
式中:ψ(e,c)为上下文与候选实体之间的相似度,G(e,c)为(2)中的概率相关度消歧模型,
Figure BDA0002835130120000083
为指称先验概率;
用于计算指称的上下文同指称的候选实体的分数。
所述步骤5,包括:
针对文本所有指称集合M,m∈M,以及各自上下文C,c∈C,和各自候选实体T(m1),T(m2)…,建立全局模型,e为每个指称候选实体中选择一个实体:
Figure BDA0002835130120000084
Figure BDA0002835130120000085
式中:Φ(e,e′)是二元因子式,xe为实体e的向量表示;xe′为实体e′的向量表示,;C是上下文文本集合,g(e,c,m)表示全局模型;ψi(ei)=F(ei,ci,mi)为局部模型全连接网络的局部分数。
所述步骤6中的损失函数为最大边际损失函数(max-margin loss)。最大边际损失函数(max-margin loss)使得正确实体的排序高于其他候选实体。联合局部模型和全局模型从不同方面进行消歧。
下面将结合具体一个实例在模型中训练的过程更详细地描述本发明的示例性实施例。
上下文与候选实体向量
在含有“十面埋伏”的文本中,抽取实体上下文信息,比如“演唱会”“陈奕迅”“演唱”等的向量表示,以及知识库中备选实体“十面埋伏(电影)”、“十面埋伏(歌曲)”、“十面埋伏(成语)”、“十面埋伏(乐曲)”的向量表示,由上述步骤(1)中提到的公式获取之间的相似度。
融合实体知识描述
将文本上下文的描述以及候选实体的描述,比如候选实体“十面埋伏(电影)”的知识描述“张艺谋执导电影”等信息,进行编码输入,得到其于上下文的注意力关系,通过联合模块的局部信息推理进行池化,提取特征,得到各个候选实体同指称的相关度概率。
实体知识关键词抽取
对候选实体的知识描述文本段落,进行关键词抽取,获得更简短的关键词信息如“电影”“张艺谋导演”等信息,之后利用上述步骤(3)中的长度惩罚机制,对热门实体进行惩罚以使得实体消歧时更多地关注非热门实体。
模型训练
在上述完成之后,输入模型训练,更具上述步骤(4)(5)(6)提到的公式,以及已知的训练数据“十面埋伏(歌曲)”,计算出模型的参数,可以用于后续实体识别时的预测。如利用训练好的模型,在识别包含“烟火人间这一首古风歌曲唱出了极致的磅礴和渺远感,让人感受到别样的新意和意义”这样一段的文本时,能够从候选实体“烟火人间(歌曲)”“烟火人间(散文集)”“烟火人间(老舍作品精选集)”中识别出“烟火人间(歌曲)”这一实体。
以上所述仅为本发明较佳实例而已,本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (7)

1.一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
2.根据权利要求1所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω123…ωk},T(m)作为候选实体生成,元素e∈T(m),利用
Figure FDA0002835130110000011
得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
Figure FDA0002835130110000012
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
Figure FDA0002835130110000013
Figure FDA0002835130110000014
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
3.根据权利要求2所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤2,包括:将上下文以及候选实体知识描述信息进行编码,每个候选实体的实体知识描述信息同指称上下文进行结合,得到未规范化的注意力权重
Figure FDA0002835130110000015
r代表第r个候选实体,i代表指称上下文的第i个编码向量,j代表候选实体知识描述的第j个编码向量;通过对增强后的局部推理信息进行池化,从而提取特征vr表示第r个候选实体知识描述与指称上下文结合得到的特征向量;S表示候选实体数量;预测模块对所有候选实体的相关度进行归一化,可以得到各个候选实体同指称的相关度概率:
Figure FDA0002835130110000021
4.根据权利要求3所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
Figure FDA0002835130110000022
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
5.根据权利要求4所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤4,包括:结合知识库统计的指称与实体的先验概率分布
Figure FDA0002835130110000023
得出局部模型:
Figure FDA0002835130110000024
式中:ψ(e,c)为上下文与候选实体之间的相似度,G(e,c)为(2)中的概率相关度消歧模型,
Figure FDA0002835130110000025
为指称先验概率;
用于计算指称的上下文同指称的候选实体的分数。
6.根据权利要求5所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤5,包括:
针对文本所有指称集合M,m∈M,以及各自上下文C,c∈C,和各自候选实体T(m1),T(m2)…,建立全局模型,e为每个指称候选实体中选择一个实体:
Figure FDA0002835130110000031
Figure FDA0002835130110000032
式中:Φ(e,e′)是二元因子式,xe为实体e的向量表示;xe′为实体e′的向量表示,;C是上下文文本集合,g(e,c,m)表示全局模型;ψi(ei)=F(ei,ci,mi)为局部模型全连接网络的局部分数。
7.根据权利要求5所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤6中的损失函数为最大边际损失函数(max-marginloss)。
CN202011467935.2A 2020-12-14 2020-12-14 一种基于结合知识描述的神经网络的实体消歧的方法 Pending CN112765983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011467935.2A CN112765983A (zh) 2020-12-14 2020-12-14 一种基于结合知识描述的神经网络的实体消歧的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011467935.2A CN112765983A (zh) 2020-12-14 2020-12-14 一种基于结合知识描述的神经网络的实体消歧的方法

Publications (1)

Publication Number Publication Date
CN112765983A true CN112765983A (zh) 2021-05-07

Family

ID=75693665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011467935.2A Pending CN112765983A (zh) 2020-12-14 2020-12-14 一种基于结合知识描述的神经网络的实体消歧的方法

Country Status (1)

Country Link
CN (1) CN112765983A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360605A (zh) * 2021-06-23 2021-09-07 中国科学技术大学 基于主题实体语境迭代优化的全局实体链接方法
CN114003735A (zh) * 2021-12-24 2022-02-01 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN115422934A (zh) * 2022-07-08 2022-12-02 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范鹏程 等: "融合实体知识描述的实体联合消歧方法", 《中文信息学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360605A (zh) * 2021-06-23 2021-09-07 中国科学技术大学 基于主题实体语境迭代优化的全局实体链接方法
CN113360605B (zh) * 2021-06-23 2024-02-23 中国科学技术大学 基于主题实体语境迭代优化的全局实体链接方法
CN114003735A (zh) * 2021-12-24 2022-02-01 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN115422934A (zh) * 2022-07-08 2022-12-02 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、系统
CN115422934B (zh) * 2022-07-08 2023-06-16 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、系统

Similar Documents

Publication Publication Date Title
CN110008469B (zh) 一种多层次命名实体识别方法
CN111859935B (zh) 基于文献的癌症相关生物医学事件数据库构建方法
Yang et al. Generating thematic chinese poetry using conditional variational autoencoders with hybrid decoders
CN112765983A (zh) 一种基于结合知识描述的神经网络的实体消歧的方法
CN111475629A (zh) 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN110110061A (zh) 基于双语词向量的低资源语种实体抽取方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111444298B (zh) 一种基于兴趣点知识图谱预训练的地址匹配算法
CN108268449A (zh) 一种基于词项聚类的文本语义标签抽取方法
CN112069408A (zh) 一种融合关系抽取的推荐系统及方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110263325A (zh) 中文分词系统
CN113312452A (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN115062140A (zh) 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN114428850B (zh) 一种文本检索匹配方法和系统
Xafopoulos et al. Language identification in web documents using discrete HMMs
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507

RJ01 Rejection of invention patent application after publication