CN110110061A - 基于双语词向量的低资源语种实体抽取方法 - Google Patents

基于双语词向量的低资源语种实体抽取方法 Download PDF

Info

Publication number
CN110110061A
CN110110061A CN201910342543.4A CN201910342543A CN110110061A CN 110110061 A CN110110061 A CN 110110061A CN 201910342543 A CN201910342543 A CN 201910342543A CN 110110061 A CN110110061 A CN 110110061A
Authority
CN
China
Prior art keywords
languages
entity
model
term vector
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910342543.4A
Other languages
English (en)
Other versions
CN110110061B (zh
Inventor
谭成翔
校娅
黄超
赵雪延
徐潜
朱文烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910342543.4A priority Critical patent/CN110110061B/zh
Publication of CN110110061A publication Critical patent/CN110110061A/zh
Application granted granted Critical
Publication of CN110110061B publication Critical patent/CN110110061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于双语词向量的低资源语种实体抽取方法,在低资源语种实体抽取任务中考虑语种的语义特征,并解决低资源语种实体抽取的无监督学习问题。包括以下三个阶段:步骤(1)基于可比语料库的双语词向量的构建;步骤(2)源语种实体抽取模型构建;步骤(3)目标语种实体抽取模型构建。与现有技术相比,本发明首次将强化学习和双语词向量引入低资源语种实体抽取任务中,解决低资源语种缺少实体抽取标注语料库的问题。通过双语词向量,有效表示跨语种文本的词语义特征,解决低资源语种语义信息匮乏及模型迁移过程中语义信息无法直接进行语种间转移的问题。同时,本发明采用强化学习的思想,实现了低资源语种实体抽取任务的无监督学习。

Description

基于双语词向量的低资源语种实体抽取方法
技术领域
本发明涉及人工智能与自然语言处理领域的信息抽取领域,具体涉及一种基于多种语言的实体抽取方法。
背景技术
实体抽取旨在从网络空间中非结构化的文本中挖掘用户关注的知识,如人名、地名、机构名等,或具有领域特征的实体。对于网络中存在较广泛以及研究者较多的语种如英文而言,已存在大量标注好的实体抽取训练语料库,可采用基于机器学习和深度学习的模型进行有监督的实体抽取。而网络空间中同样存在大量的低资源语种,如中文,日文等,具有较少的标注语料库,并且手动标注训练数据所消耗的人力和时间成本较高,因此传统的有监督的实体抽取方式并不适用于低资源语种。
为了解决低资源语种标注语料缺乏的问题,一种有效的方法是通过资源丰富的源语种来帮助低资源语种来丰富其相关知识。例如采用基于跨语种词典翻译的方式进行来进行实体翻译,从而实现低资源语种的实体抽取。然而仅基于跨语种词典翻译的方法因依赖于第三方翻译接口、一词多义、翻译不准确等缺点会导致基于翻译的信息抽取命中率较低并且会产生错误传递等问题。因此基于跨语种词向量的方式被提出。基于词向量的方法是将词表示为连续、稠密的低维度向量表示,作为理解语言的基本表征。词向量具有非常好的属性,易于操作,可有效表示词的特征,因此被广泛使用到自然语义处理的各项任务中。利用两种语言的单语语料训练的词向量空间存在近似同态性的特征,可以使用线性映射把两个语种的向量空间联系起来,从而实现跨语种的语义映射。模型迁移方法是低资源语种信息抽取的有效方法。模型迁移方法即在资源丰富的语种语料上学习一个模型,将其迁移到目标低资源语种上。对于词性、距离等特征,可以在不同语种间直接转换,而对于词义特征,则无法直接转换。
在现有技术中,采用模型迁移的方法对低资源语种的实体抽取没有考虑低资源语种的语义特征,同时,在跨语种词向量构建方面,也大都依赖于平行语料库,对于低资源语种缺少平行语料库的问题也无法有效解决。另外,如何实现低资源语种实体抽取的无监督自学习也是业界亟待解决的重要问题。
发明内容
本发明提供一种基于双语词向量的低资源语种实体抽取方法,在低资源语种实体抽取任务中考虑语种的语义特征,并解决低资源语种实体抽取的无监督学习问题。
技术解决方案
为实现上述目标,本发明的技术方案是:
一种基于双语词向量的低资源语种实体抽取方法,包括以下三个阶段:(如图1所示)
步骤(1)基于可比语料库的双语词向量的构建:
利用源语种与低资源目标语种所构成的双语可比语料库来构建双语词向量,以表示跨语种词的语义特征;
步骤(2)源语种实体抽取模型构建:
利用源语种的实体抽取标注训练集,融合基于位置线性衰减的深度学习方法,训练实体抽取模型;
步骤(3)目标语种实体抽取模型构建:
将源语种的实体抽取模型进行模型迁移,用到目标语种文本资源上,并引入双语词向量来丰富目标语种的语义特征,引入强化学习框架来实现目标语种的无监督自学习。
步骤(1)中,所述的双语词向量采用线性映射将两个语种的向量空间联系起来。向量构建过程采用词袋模型,每个语种的词都被用来预测另一个语种的上下文词,借助双语词典及期望最大化的方法来提高双语映射的准确度,选择与源词及文本向量最接近的词作为翻译结果以解决一词多义问题。
步骤(1)中,所述的双语词向量依据双语可比语料库构建,并引入了跨语种词袋模型,该跨语种词袋模型中的每个语种的词都被用来预测另一个语种的上下文词。借助双语词典及期望最大化的方法来提高双语映射的准确度,并采用基于翻译词的跨语种注意力机制应对一词多义问题。
步骤(2)中,所述的源语种实体抽取模型采用了基于位置线性衰减的双向长短期记忆网络(Bi-LSTM)编码及长短期记忆网络(LSTM)解码的结构。对输入的源语种句子,首先将其中的词xi表示成向量形式wi。wi由两部分构成,首先在步骤(1)中所构成的双语词向量中查询词xi对应的向量表示vi,再对该向量vi进行基于位置线性衰减加权,表示为wi=λivi
其中位置权重λi的计算方法引入了线性衰减的思想,充分描述了目标词距离实体词的位置与其重要程度的关系,表示为:其中E表示所在句子中所包含的实体集。目标词距离实体词的位置越近,则其重要性越大,权重也就越高,反之距离越远,权重越低。
步骤(3)中,所述的目标语种实体抽取模型,采用了模型迁移的方法,对于模型迁移过程中遇到的跨语种语义信息无法直接迁移的问题,引入双语词向量。通过强化学习框架来实现低资源目标语种实体抽取的无监督学习。
强化学习模型主要包括四个要素:状态、动作、策略和奖励机制。其中,状态用来描述输入文本的特征,包括词性、位置以及词向量表示的语义特征。动作用来描述迁移学习要完成的任务。本发明的任务是实现目标语种的实体抽取即实体标签,因此强化学习的动作即对目标语种打实体标签。策略是将状态转化成动作的模型,此处采用步骤(2)所训练的模型,通过模型迁移方法,作为强化学习的策略函数输入。奖励机制用来指定给模型正反馈和负反馈的场景,从而改进模型的策略函数。损失函数被用来衡量模型的表现,因此作为强化学习的奖励机制。损失函数越小表示模型表现越好,则产生正反馈,反之损失函数越大则为负反馈。
技术效果
与现有技术相比,本发明首次将强化学习和双语词向量引入低资源语种实体抽取任务中,解决低资源语种缺少实体抽取标注语料库的问题。通过双语词向量,有效表示跨语种文本的词语义特征,解决低资源语种语义信息匮乏及模型迁移过程中语义信息无法直接进行语种间转移的问题。同时,本发明采用强化学习的思想,实现了低资源语种实体抽取任务的无监督学习。
附图说明
图1是本发明构建的基于双语词向量的低资源语种实体抽取方法流程图
图2是本发明双语词向量构建原理框图
图3是本发明源语种实体抽取方法计算框架图
图4是本发明设计基于强化学习和模型迁移的低资源目标语种实体抽取方法流程图
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。应当理解,此处所描述的具体实例仅用以解释本发明,并不用于限定本发明。
本发明提出一种基于双语词向量的低资源语种实体抽取方法。将双语词向量、强化学习模型,并结合模型迁移方法,实现目标语种的无监督实体抽取,通过资源丰富的源语种文本信息来丰富目标语种文本信息。
图1展示了基于双语词向量的低资源语种实体抽取方法的流程,现具体描述该方法的各个步骤:
第一步骤:通过获取源语种和目标语种公开文本,构建双语可比语料库。
因低资源语种数据匮乏,一般很难获取词对齐或句对齐的平行语料库,因此本发明设计的方法对相对容易获取的可比语料库也适用。平行语料库是将相同的内容由两种语种进行描述,通常是句子级翻译的结果,而可比语料库是将同一主题内容用两种语种描述,不要求两个语种的文本句子对齐,只要描述相同的主题即可。构建双语可比语料库可借助第三方多语种资源,如维基百科。维基百科中不同语种对应的同一词条所描述的是同一个内容,因此可作为可比资源。通过爬取具有源语种和目标语种资源的维基百科词条文本内容,从而构建基于主题的可比语料库。
第二步骤:根据双语可比语料库构建双语词向量。
借助双语词典及期望最大化的方法来提高双语映射的准确度。
图2展示了双语词向量构建原理框图,构建过程采用词袋模型。对于源语种的目标词ωt,其上下文词即该目标词的前后k个词,图2中示例k=2的情况,则目标词的上下文词集合表示为{ωt-2,ωt-1,ωt-2,ωt+2}。查找源语种中的词ωt在目标语种中所对应的翻译词,考虑到翻译中的一词多义问题,此处以两个翻译词为例,记作根据skip-gram模型的思想,每个语种的词都被用来预测另一个语种的上下文词,每个词又被表示为其上下文词的注意力加权和,如以下公式所示:
其中,wj即表示上下文词的向量表示。att(wj)通过所对应的源语种或目标语种的翻译词来计算,计算方法如下:
其中wtr表示翻译词集合,V是词向量构建过程中的词汇表。对于文本中的每个单词,使用注意力机制构建词表示向量,用上下文对该词进行消歧,与上下文越相近的词义的权重越高。注意力机制通常采用softmax函数形式,以确保各项注意力权重的合为一。
第三步骤:基于源语种标注语料库,训练实体抽取模型。
由于源语种具有丰富的实体识别和实体抽取标注语料库,因此可以使用有监督方法训练实体抽取模型。输入句子表示为s={x1,x2,...,xn},实体由实体标签来标注,标签包括:BILOS(Begin,Inside,Last,Other,Single),分别代表该词单元是实体的开始单词,位于实体词中间,位于实体词结束,非实体词,单个单词构成的实体。对于英文,则一个词表示一个词单元,对于中文,则一个字表示一个词单元。例如“纽约是美国的一座城市”对应的标签应该为“BLOBL0000”,“纽”和“约”分别是“纽约”这个实体的起始字符和结束字符。
源语种实体抽取模型,其结构如图3所示,采用了双向长短期记忆网络(Bi-LSTM)编码及长短期记忆网络(LSTM)解码的结构。对输入的源语种句子,首先将其中的词xi表示成向量形式wi。wi由两部分构成,首先在第二步骤所构成的双语词向量中查询词xi对应的向量表示vi,再对该向量vi进行基于位置线性衰减加权,表示为wi=λivi。其中位置权重λi的计算方法引入了线性衰减的思想,表示为: 其中E表示所在句子中所包含的实体集,e为该集合下的每个实体,die表示每个词xi与实体的距离,D表示词语实体的最大距离。λi考虑了目标词与句子中所有实体的距离,并量化了词的重要性与实体词的距离之间的关系。目标词距离实体词的位置越近,则其重要性越大,权重也就越高,反之距离越远,权重越低。将词的向量表示wi输入到双向长短期记忆网络中,Bi-LSTM有效考虑了句子前后其他单词对目标单词产生的影响。正向LSTM基于从x1到xn的上下文文本信息来对每个单词进行编码,输出的隐藏层表示为反向LSTM则基于从xn到x1的上下文文本信息来对每个单词进行编码,输出的隐藏层表示为则Bi-LSTM编码层的隐藏层输出表示为再加LSTM的解码层,采用softmax函数对五个实体标签进行分类,将模型输出为所需要的实体标签形式。通过训练源语种实体抽取模型,可以得到一个可应用于其他数据的模型,从而用作低资源语种任务的模型迁移。
第四步骤:基于步骤二、步骤三所训练的双语词向量和实体抽取模型,构建基于强化学习模型的目标语种实体抽取。
对于模型迁移过程中遇到的跨语种语义信息无法直接迁移的问题,引入双语词向量。通过强化学习框架来实现低资源目标语种实体抽取的无监督学习。
基于强化学习和模型迁移的低资源目标语种实体抽取方法流程图如图4所示。强化学习模型主要包括四个要素:状态、动作、策略和奖励机制。
其中,
状态用来描述输入文本的特征,包括词性、位置以及词向量表示的语义特征。词向量采用第二步骤所构成的双语词向量,因源语种实体抽取模型也采用的是构建好的双语词向量做为词的特征输入,而源语种和目标语种相似的词在向量空间中相距也较近,因此将目标语种词向量作为模型迁移过来的输入,可以解决跨语种语义信息无法直接迁移的问题,用词向量来表示句子的语义信息。
动作用来描述迁移学习要完成的任务。本发明的任务是实现目标语种的实体抽取即实体标签,因此强化学习的动作即对目标语种打实体标签。与源语种实体抽取过程中的标签类似,包括:BILOS(Begin,Inside,Last,Other,Single)五个标签,即五个动作。
策略是将状态转化成动作的模型,此处采用第三步骤所训练的源语种实体抽取模型,通过模型迁移方法,作为强化学习的策略函数。策略函数为softmax函数形式,表示为:y=softmax(Wh+b),其中W是softmax函数的权重参数矩阵,b是偏置向量,h为模型迁移后实体抽取模型的隐藏层变量。
奖励机制用来指定给模型正反馈或负反馈,从而改进模型的策略函数。损失函数被用来衡量模型的表现,因此作为强化学习的奖励机制。损失函数越小表示模型表现越好,则产生正反馈,反之损失函数越大则为负反馈。损失函数表示为:其中m为实体标签总数,ti为第i位为1的一维向量表示,yi则表示策略函数的对应标签输出,λ为正则化参数,θ为需要学习的变量。
在每个强化学习的循环中,输入一个目标语种的句子文本,对每个词提取特征构成句子的状态,作为策略函数的输入。特征包括词语义特征、词性特征、位置特征等,从构建好的双语词向量矩阵中查询每个词的词向量作为语义特征。词性特征可根据第三方工具或第三方资源库如词典等获取,位置特征表示词所在的位置或距离实体的位置,词性特征和位置特征均可作为词的补充特征,而词向量语义特征是主要特征。句子状态输入到源语种实体抽取模型中后,对每个词做出打实体标签的动作,即输出句子的标签集合。随后计算奖励函数即模型的损失函数,用损失函数的大小作为评价指标来更新实体抽取模型的参数,损失函数越小则证明模型的效果越好。一个循环结束后,输入新的目标语种句子开启新的强化学习循环。随着循环次数增多,模型不断向损失函数更低的方向更新,最终会达到一个收敛阶段,将这个阶段产生的标签输出作为目标语种实体抽取的结果。
经过强化学习的过程,可以实现目标低资源语种的实体抽取,损失函数也可作为抽取效果的指标。为了更好的衡量模型的效果,除了人工校验,本发明提出一个对低资源语种实体抽取结果的验证方法。验证方法借助于第三方知识库资源,如维基百科、BableNet等,均包含了多语种的实体数据,将识别出的实体与第三方知识库资源进行实体链接,从而确认实体是否正确。通过准确率、召回率等指标来衡量低资源语种实体抽取的效果。

Claims (6)

1.一种基于双语词向量的低资源语种实体抽取方法,其特征在于,方法包括以下三个阶段:
(1)基于可比语料库的双语词向量的构建:
利用源语种与低资源目标语种所构成的双语可比语料库来构建双语词向量,以表示跨语种词的语义特征;
(2)源语种实体抽取模型构建:
利用源语种的实体抽取标注训练集,融合基于位置线性衰减的深度学习方法,训练实体抽取模型;
(3)目标语种实体抽取模型构建:
将源语种的实体抽取模型进行模型迁移,用到目标语种文本资源上,并引入双语词向量来丰富目标语种的语义特征,引入强化学习框架来实现目标语种的无监督自学习。
2.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法,其特征在于,所述步骤(1)的双语词向量依据双语可比语料库构建,并引入了跨语种词袋模型,该跨语种词袋模型中的每个语种的词都被用来预测另一个语种的上下文词;借助双语词典及期望最大化的方法来提高双语映射的准确度,并采用基于翻译词的跨语种注意力机制应对一词多义问题。
3.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法,其特征在于,所述步骤(2)源语种实体抽取模型:采用基于位置线性衰减的双向长短期记忆网络(Bi-LSTM)编码及长短期记忆网络(LSTM)解码的网络结构。
4.根据权利要求3所述的基于双语词向量的低资源语种实体抽取方法,其特征在于,所述源语种实体抽取模型是基于位置线性衰减的权重加权方法:对输入的源语种句子,首先将其中的词表示成向量形式,该向量由两部分构成,首先在步骤(1)所构成的双语词向量中查询该目标词对应的向量表示,再对该向量进行基于位置线性衰减的加权;该权重计算方法充分描述了目标词距离实体词的位置与其重要程度的关系,表示为:其中E表示所在句子中所包含的实体集,e为该集合下的每个实体,die表示每个词xi与实体的距离,D表示词语实体的最大距离。
5.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法,其特征在于,所述步骤(3)目标语种实体抽取模型,采用了模型迁移的方法,对于模型迁移过程中遇到的跨语种语义信息无法直接迁移的问题,引入了步骤(1)中的双语词向量。
6.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法,其特征在于,所述步骤(3)目标语种实体抽取模型采用了基于双语词向量和模型迁移的强化学习机制,主要包括四个要素:状态、动作、策略和奖励机制;其中,
状态用来描述输入文本的特征,包括词性、位置以及词向量表示的语义特征;
动作用来描述迁移学习要完成的任务;本发明的任务是实现目标语种的实体抽取即实体标签,因此强化学习的动作即对目标语种打实体标签;
策略是将状态转化成动作的模型,此处采用步骤(2)所训练的模型,通过模型迁移方法,作为强化学习的策略函数输入;
奖励机制用来指定给模型正反馈和负反馈的场景,从而改进模型的策略函数;损失函数被用来衡量模型的表现,因此作为强化学习的奖励机制;损失函数越小表示模型表现越好,则产生正反馈,反之损失函数越大则为负反馈。
CN201910342543.4A 2019-04-26 2019-04-26 基于双语词向量的低资源语种实体抽取方法 Active CN110110061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910342543.4A CN110110061B (zh) 2019-04-26 2019-04-26 基于双语词向量的低资源语种实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910342543.4A CN110110061B (zh) 2019-04-26 2019-04-26 基于双语词向量的低资源语种实体抽取方法

Publications (2)

Publication Number Publication Date
CN110110061A true CN110110061A (zh) 2019-08-09
CN110110061B CN110110061B (zh) 2023-04-18

Family

ID=67486897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910342543.4A Active CN110110061B (zh) 2019-04-26 2019-04-26 基于双语词向量的低资源语种实体抽取方法

Country Status (1)

Country Link
CN (1) CN110110061B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111027695A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 基于物理距离和语义距离的双向lstm模型的构建方法
CN111274814A (zh) * 2019-12-26 2020-06-12 浙江大学 一种新型的半监督文本实体信息抽取方法
CN111445898A (zh) * 2020-03-17 2020-07-24 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN111797607A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 一种稀疏名词对齐方法及系统
CN112507718A (zh) * 2020-12-16 2021-03-16 科大讯飞股份有限公司 一种跨语种实体标注方法、装置、设备及存储介质
CN112597774A (zh) * 2020-12-14 2021-04-02 山东师范大学 中文医疗命名实体识别方法、系统、存储介质和设备
CN112800775A (zh) * 2021-01-28 2021-05-14 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质
CN112949305A (zh) * 2021-05-13 2021-06-11 平安科技(深圳)有限公司 负反馈信息采集方法、装置、设备及存储介质
CN113343672A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
SE2050282A1 (en) * 2020-03-16 2021-09-17 Safeture Ab Providing training data for a machine learning model

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350288A1 (en) * 2015-05-29 2016-12-01 Oracle International Corporation Multilingual embeddings for natural language processing
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109117483A (zh) * 2018-07-27 2019-01-01 清华大学 神经网络机器翻译模型的训练方法及装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350288A1 (en) * 2015-05-29 2016-12-01 Oracle International Corporation Multilingual embeddings for natural language processing
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109117483A (zh) * 2018-07-27 2019-01-01 清华大学 神经网络机器翻译模型的训练方法及装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ARJUN DAS等: "Named Entity Recognition with Word Embeddings and Wikipedia Categories for a Low-Resource Language", 《ACM TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING》 *
MURAT KALENDER等: "THINKER - Entity Linking System for Turkish Language", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
刘婉婉等: "基于LSTM的蒙汉机器翻译的研究", 《计算机工程与科学》 *
李舰等: "基于可比语料库的双语词典抽取方法比较研究", 《小型微型计算机系统》 *
柳路芳: "基于可比语料库与循环神经网络的双语词典抽取算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110717341B (zh) * 2019-09-11 2022-06-14 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111027695A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 基于物理距离和语义距离的双向lstm模型的构建方法
CN111027695B (zh) * 2019-12-05 2023-11-24 电子科技大学广东电子信息工程研究院 基于物理距离和语义距离的双向lstm模型的构建方法
CN111274814B (zh) * 2019-12-26 2021-09-24 浙江大学 一种新型的半监督文本实体信息抽取方法
CN111274814A (zh) * 2019-12-26 2020-06-12 浙江大学 一种新型的半监督文本实体信息抽取方法
SE2050282A1 (en) * 2020-03-16 2021-09-17 Safeture Ab Providing training data for a machine learning model
WO2021188031A1 (en) * 2020-03-16 2021-09-23 Safeture Ab Providing training data for a machine learning model
CN111445898A (zh) * 2020-03-17 2020-07-24 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN111445898B (zh) * 2020-03-17 2022-05-17 科大讯飞股份有限公司 语种识别方法、装置、电子设备和存储介质
CN111797607A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 一种稀疏名词对齐方法及系统
CN111797607B (zh) * 2020-06-04 2024-03-29 语联网(武汉)信息技术有限公司 一种稀疏名词对齐方法及系统
CN112597774A (zh) * 2020-12-14 2021-04-02 山东师范大学 中文医疗命名实体识别方法、系统、存储介质和设备
CN112597774B (zh) * 2020-12-14 2023-06-23 山东师范大学 中文医疗命名实体识别方法、系统、存储介质和设备
CN112507718A (zh) * 2020-12-16 2021-03-16 科大讯飞股份有限公司 一种跨语种实体标注方法、装置、设备及存储介质
CN112507718B (zh) * 2020-12-16 2024-02-13 中国科学技术大学 一种跨语种实体标注方法、装置、设备及存储介质
WO2022160445A1 (zh) * 2021-01-28 2022-08-04 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质
CN112800775A (zh) * 2021-01-28 2021-05-14 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质
CN112800775B (zh) * 2021-01-28 2024-05-31 中国科学技术大学 语义理解方法、装置、设备及存储介质
CN112949305A (zh) * 2021-05-13 2021-06-11 平安科技(深圳)有限公司 负反馈信息采集方法、装置、设备及存储介质
CN113343672B (zh) * 2021-06-21 2022-12-16 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113343672A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法

Also Published As

Publication number Publication date
CN110110061B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110110061A (zh) 基于双语词向量的低资源语种实体抽取方法
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110232186A (zh) 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN110334354A (zh) 一种中文关系抽取方法
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN110459282A (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN108460013A (zh) 一种基于细粒度词表示模型的序列标注模型
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
CN108681537A (zh) 一种基于神经网络及词向量的中文实体链接方法
CN109284400A (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN106844345B (zh) 一种基于参数线性约束的多任务分词方法
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116303929A (zh) 机器阅读理解方法及其装置、电子设备及存储介质
CN115859164A (zh) 一种基于prompt的建筑实体识别并分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant