CN113128199B - 基于预训练语言模型与多重词信息嵌入的字向量生成方法 - Google Patents

基于预训练语言模型与多重词信息嵌入的字向量生成方法 Download PDF

Info

Publication number
CN113128199B
CN113128199B CN202110511388.1A CN202110511388A CN113128199B CN 113128199 B CN113128199 B CN 113128199B CN 202110511388 A CN202110511388 A CN 202110511388A CN 113128199 B CN113128199 B CN 113128199B
Authority
CN
China
Prior art keywords
word
vector
language model
character
bmes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110511388.1A
Other languages
English (en)
Other versions
CN113128199A (zh
Inventor
陈贞翔
徐翰琛
杨倩
黄鹤林
姜晓庆
尚铭悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Sizheng Information Technology Co ltd
University of Jinan
Original Assignee
Shandong Sizheng Information Technology Co ltd
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Sizheng Information Technology Co ltd, University of Jinan filed Critical Shandong Sizheng Information Technology Co ltd
Priority to CN202110511388.1A priority Critical patent/CN113128199B/zh
Publication of CN113128199A publication Critical patent/CN113128199A/zh
Application granted granted Critical
Publication of CN113128199B publication Critical patent/CN113128199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,根据已标注数据主题,爬取相关无标注数据;构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;对已标注数据提取多重词信息特征;将得到的字向量与多重词信息特征进行融合,得到最终字向量。本发明通过预训练语言模型来表征字向量,可以更好的引入多义性信息;构建多重词信息特征并将其添加到字向量中,为字向量带来了词信息与单词分割信息,提高自然语言处理效果。

Description

基于预训练语言模型与多重词信息嵌入的字向量生成方法
技术领域
本发明属于深度学习与自然语言处理技术领域,具体涉及一种基于预训练语言模型与多重词信息嵌入的字向量生成方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向,自然语言处理主要应用于机器翻译、舆情监控、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
随着深度学习的不断发展,越来越多的深度神经网络模型被应用于自然语言处理领域。这些神经网络模型在使用时,需要将自然语言处理成数字化形式向量作为模型的输入,其中以Word2Vec、Glove等词嵌入模型最为常见,但上述模型得到的词向量或字向量的表征过于单一,无法处理多义性问题。
在中文自然语言处理中,因为中文中的字、词不是天然分割的,所以构建神经网络模型时往往分为两种:基于词的神经网络模型与基于字的神经网络模型。基于词的神经网络模型需要先对输入的自然语言进行分词,但现有的自动分词系统会不可避免地产生分词错误,这种错误会不断的传播累积,最终影响模型的效果。已有实验证明,在深度学习框架下,“字”的表现总是要优于“词”的表现,因此基于字的神经网络模型更为流行。然而,单词较字符包含着更多的信息,基于字的神经网络模型未能充分利用词的信息,最终得到的结果有限。
发明内容
本发明为了解决上述问题,提出了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,本发明通过预训练语言模型来表征字向量,可以更好的引入多义性信息;构建多重词信息特征并将其添加到字向量中,为字向量带来了词信息与单词分割信息,提高自然语言处理效果。
根据一些实施例,本发明采用如下技术方案:
一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,包括以下步骤:
根据已标注数据主题,爬取相关无标注数据;
构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;
对已标注数据提取多重词信息特征;
将得到的字向量与多重词信息特征进行融合,得到最终字向量。
作为可选择的实施方式,爬取相关无标注数据的具体过程包括:
根据已标注数据主题,制定关键词表;
利用爬虫技术,根据关键词表在互联网上进行语料爬取;
将爬取的语料存入数据库中。
作为可选择的实施方式,构建预训练语言模型的的具体过程包括:
所述预训练语言模型,为多层双向的Transformer编码器,每一层Transformer编码器均采用encoder-decoder架构,并采用多头自注意力机制。
作为可选择的实施方式,基于预训练语言模型对输入句子进行处理的具体过程包括:
对于输入的句子,在句子头加入第一标记,以表示句子的开头;在句子尾加入第二标记,以表示句子的结尾;
将该句子转换为token序列,将token序列输入到语言模型中,随机遮盖该token序列中一部分词,让语言模型预测被遮盖的词语,通过这项任务为引入上下文信息,获得字符级特征;
将输入的token序列输入到语言模型中,学习两个句子间的关系,获得句子级特征。
作为可选择的实施方式,对已标注数据提取多重词信息特征的具体过程包括:
采用“BMES”表示每个字符在单词中的分割信息,并对每个字符生成了四个词集“BMES”;
对照预先构建的词嵌入查找表,将词语转换为对应的词向量;
对转换后的“BMES”词集进行使用向量均值化方法进行压缩,保持词集嵌入向量维度一致。
作为进一步的限定,四个词集“BMES”的构建过程包括:
Figure GDA0003569829760000041
Figure GDA0003569829760000042
Figure GDA0003569829760000043
Figure GDA0003569829760000044
其中,B、M、E、S代表四种词集,ci为待构建词集的字符,D代表预先构建好的心理疾病词典,w为心理疾病词典D中含有的词语,当某个词集为空时,对该词集使用特殊词进行填充。
作为可选择的实施方式,将得到的字向量与多重词信息特征进行融合的具体过程包括:
对输入序列进行处理输入到语言模型中,返回由字向量构成的序列;
将该输入序列的每个字符进行多重词信息特征提取处理,得到其“BMES”词集嵌入向量;
将每个字符的字向量与“BMES”词集嵌入向量进行融合。
一种基于预训练语言模型与多重词信息嵌入的字向量生成系统,包括:
爬取模块,被配置为根据已标注数据主题,爬取相关无标注数据;
字向量处理模块,被配置为构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;
特征提取模块,被配置为对已标注数据提取多重词信息特征;
融合模块,被配置为将得到的字向量与多重词信息特征进行融合,得到最终字向量。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明提出一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,通过预训练语言模型,为字向量引入了上下文信息;通过构建多重词信息嵌入特征,不仅为每个字符保留了单词分割信息,还将潜在的词语信息加入到字嵌入向量中,可为后续的深度学习模型提供多维的有效信息,从而有效地提升了模型的性能
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本实施例的整体流程图;
图2为预训练语言模型结构示意图;
图3为Transformer结构示意图;
图4为多重词信息嵌入特征的构建流程。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种基于预训练语言模型与多重词信息嵌入的字向量生成方法。通过预训练语言模型来表征字向量,可以更好的引入多义性信息;构建多重词信息特征并将其添加到字向量中,为字向量带来了词信息与单词分割信息,可以大大提高深度学习模型的效果。
如图1所示,具体包括以下步骤:
步骤(1):根据已标注数据主题,爬取相关无标注数据。
步骤(2):构建预训练语言模型,对步骤(1)中的已标注数据与未标注数据进行预训练。
步骤(3):对已标注数据构建多重词信息特征。
步骤(4):将步骤(2)得到的字向量与步骤(3)得到的多重词信息特征进行融合。
在本实施例中,步骤(1)的步骤为:
步骤(1-1):根据已标注数据主题,制定关键词表。
步骤(1-2):利用爬虫技术,根据关键词表在互联网上进行语料爬取。
所述爬虫技术使用scrapy框架。
步骤(1-3):将步骤(1-2)中爬取的语料存入数据库中。
数据库是指本地已经建立好的数据库。
在本实施例中,步骤(2)的步骤为:
步骤(2-1):在本实施例中,采用的预训练语言模型,如图2所示,其模型架构是一个多层双向的Transformer编码器,网络层数为12层,隐藏层维度为768,注意力头的数量为12。
所述步骤(2-1)的步骤为:
步骤(2-1-1):每一层Transformer编码器均采用了encoder-decoder架构。如图3所示,encoder共包含两层,一个self-attention层和一个前馈神经网络。Decoder共包含三层,一个self-attention层、一个attention层与一个前馈神经网络。
步骤(2-1-2):self-attention层是Transformer编码器最重要的模块,可通过以下公式算出输入序列中所有词与序列中其他词之间的关联性与重要程度:
Figure GDA0003569829760000081
其中Q,K,V分别是encoder的输出与decoder的输入,dk是输入向量的维度。
步骤(2-1-3):采用了多头自注意力机制来提高模型专注不同位置的能力:
MultiHead(Q,K,V)=Concat(head1,head2,head3,…,headh)Wo
headi=Attention(QWi Q,KWi K,VWi V)
步骤(2-2):对于输入的句子,在句子头加入特殊标记[CLS],表示句子的开头;在句子尾加入特殊标记[SEP],表示句子的结尾。使用WordPiece embedding将该句子转换为token序列。
步骤(2-3):将输入的token序列输入到语言模型中,进行Masked LM任务。随机遮盖该token序列中15%的词,然后让语言模型预测被遮盖的词语,通过这项任务为引入上下文信息,获得字符级特征。
步骤(2-4):将输入的token序列输入到语言模型中,进行NSP任务。通过该任务学习两个句子间的关系,获得句子级特征。
在本实施例中,步骤(3)的步骤为:
步骤(3-1):如图4所示,采用“BMES”表示每个字符在单词中的分割信息,并对每个字符生成了四个词集“BMES”,对于输入句子中的每个字符c,四个词集的构建公式如下:
Figure GDA0003569829760000091
Figure GDA0003569829760000092
Figure GDA0003569829760000093
Figure GDA0003569829760000094
在这里,D代表预先构建好的词典。此外,当某个词集为空时,对该词集使用特殊词进行填充。
步骤(3-2):得到输入序列中每个字符的“BMES”词集后,对照词嵌入查找表,将词语转换为对应的词向量,词向量维度为50。
其中,词嵌入查找表是对已标注数据使用Word2Vec模型构建的。
步骤(3-3):由于每个词集中的词向量个数不一致,需要对步骤(3-2)得到的转换后的“BMES”词集进行使用向量均值化方法进行压缩,确保词集嵌入向量维度一致:
Figure GDA0003569829760000095
其中S代表某预先构建好的词集。
在本实施例中,步骤(4)的步骤为:
步骤(4-1):依照步骤(2-2)对输入序列进行处理输入到语言模型中,返回由字向量构成的序列。
步骤(4-2):将该输入序列的每个字符按照步骤(3)所示进行处理,得到其“BMES”词集嵌入向量。
步骤(4-3):将每个字符的字向量与“BMES”词集嵌入向量进行融合:
Ec=[ec;vf(B);vf(M);vf(E);vf(S)]。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (7)

1.一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,其特征是:包括以下步骤:
根据已标注数据主题,爬取相关无标注数据;
构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;
对已标注数据提取多重词信息特征;
将得到的字向量与多重词信息特征进行融合,得到最终字向量;
具体过程包括:
采用“BMES”表示每个字符在单词中的分割信息,并对每个字符生成了四个词集“BMES”,对于输入句子中的每个字符c,四个词集的构建公式如下:
Figure FDA0003569829750000011
Figure FDA0003569829750000012
Figure FDA0003569829750000013
Figure FDA0003569829750000014
D代表预先构建好的词典,此外,当某个词集为空时,对该词集使用特殊词进行填充;
得到输入序列中每个字符的“BMES”词集后,对照词嵌入查找表,将词语转换为对应的词向量,词向量维度为50;
其中,词嵌入查找表是对已标注数据使用Word2Vec模型构建的;
由于每个词集中的词向量个数不一致,需要对得到的转换后的“BMES”词集使用向量均值化方法进行压缩,确保词集嵌入向量维度一致:
Figure FDA0003569829750000021
其中S代表某预先构建好的词集;
对输入序列进行处理输入到语言模型中,返回由字向量构成的序列;
将该输入序列的每个字符进行处理,得到其“BMES”词集嵌入向量;
将每个字符的字向量与“BMES”词集嵌入向量进行融合:
Ec=[ec;vf(B);vf(M);vf(E);vf(S)]。
2.如权利要求1所述的一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,其特征是:爬取相关无标注数据的具体过程包括:
根据已标注数据主题,制定关键词表;
利用爬虫技术,根据关键词表在互联网上进行语料爬取;
将爬取的语料存入数据库中。
3.如权利要求1所述的一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,其特征是:构建预训练语言模型的的具体过程包括:
所述预训练语言模型,为多层双向的Transformer编码器,每一层Transformer编码器均采用encoder-decoder架构,并采用多头自注意力机制。
4.如权利要求1所述的一种基于预训练语言模型与多重词信息嵌入的字向量生成方法,其特征是:基于预训练语言模型对输入句子进行处理的具体过程包括:
对于输入的句子,在句子头加入第一标记,以表示句子的开头;在句子尾加入第二标记,以表示句子的结尾;
将该句子转换为token序列,将token序列输入到语言模型中,随机遮盖该token序列中一部分词,让语言模型预测被遮盖的词语,通过这项任务为引入上下文信息,获得字符级特征;
将输入的token序列输入到语言模型中,学习两个句子间的关系,获得句子级特征。
5.一种基于预训练语言模型与多重词信息嵌入的字向量生成系统,其特征是:包括:
爬取模块,被配置为根据已标注数据主题,爬取相关无标注数据;
字向量处理模块,被配置为构建预训练语言模型,对已标注数据与未标注数据进行预训练,基于预训练语言模型对输入句子进行处理,获得字向量;
特征提取模块,被配置为对已标注数据提取多重词信息特征;具体过程为:采用“BMES”表示每个字符在单词中的分割信息,并对每个字符生成了四个词集“BMES”,对于输入句子中的每个字符c,四个词集的构建公式如下:
Figure FDA0003569829750000041
Figure FDA0003569829750000042
Figure FDA0003569829750000043
Figure FDA0003569829750000044
D代表预先构建好的词典,此外,当某个词集为空时,对该词集使用特殊词进行填充;
得到输入序列中每个字符的“BMES”词集后,对照词嵌入查找表,将词语转换为对应的词向量,词向量维度为50;
其中,词嵌入查找表是对已标注数据使用Word2Vec模型构建的;
由于每个词集中的词向量个数不一致,需要对得到的转换后的“BMES”词集使用向量均值化方法进行压缩,确保词集嵌入向量维度一致:
Figure FDA0003569829750000045
其中S代表某预先构建好的词集;
融合模块,被配置为将得到的字向量与多重词信息特征进行融合,得到最终字向量;具体过程为:对输入序列进行处理输入到语言模型中,返回由字向量构成的序列;
将该输入序列的每个字符进行处理,得到其“BMES”词集嵌入向量;
将每个字符的字向量与“BMES”词集嵌入向量进行融合:
Ec=[ec;vf(B);vf(M);vf(E);vf(S)]。
6.一种电子设备,其特征是:包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-4中任一项所述的方法中的步骤。
7.一种计算机可读存储介质,其特征是:用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-4中任一项所述的方法中的步骤。
CN202110511388.1A 2021-05-11 2021-05-11 基于预训练语言模型与多重词信息嵌入的字向量生成方法 Active CN113128199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110511388.1A CN113128199B (zh) 2021-05-11 2021-05-11 基于预训练语言模型与多重词信息嵌入的字向量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110511388.1A CN113128199B (zh) 2021-05-11 2021-05-11 基于预训练语言模型与多重词信息嵌入的字向量生成方法

Publications (2)

Publication Number Publication Date
CN113128199A CN113128199A (zh) 2021-07-16
CN113128199B true CN113128199B (zh) 2022-06-21

Family

ID=76781585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110511388.1A Active CN113128199B (zh) 2021-05-11 2021-05-11 基于预训练语言模型与多重词信息嵌入的字向量生成方法

Country Status (1)

Country Link
CN (1) CN113128199B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704472B (zh) * 2021-08-30 2024-04-09 济南大学 基于主题记忆网络的仇恨和攻击性言论识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN110750645A (zh) * 2019-10-15 2020-02-04 广东外语外贸大学 基于对抗训练的跨领域虚假评论识别方法
CN111125317A (zh) * 2019-12-27 2020-05-08 携程计算机技术(上海)有限公司 对话型文本分类的模型训练、分类、系统、设备和介质
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11258814B2 (en) * 2019-07-16 2022-02-22 Hewlett Packard Enterprise Development Lp Methods and systems for using embedding from Natural Language Processing (NLP) for enhanced network analytics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN110750645A (zh) * 2019-10-15 2020-02-04 广东外语外贸大学 基于对抗训练的跨领域虚假评论识别方法
CN111125317A (zh) * 2019-12-27 2020-05-08 携程计算机技术(上海)有限公司 对话型文本分类的模型训练、分类、系统、设备和介质
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢腾等.基于BERT-BiLSTM-CRF模型的中文实体识别.《计算机系统应用》.2020,(第07期), *

Also Published As

Publication number Publication date
CN113128199A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
Dos Santos et al. Deep convolutional neural networks for sentiment analysis of short texts
CN106933804B (zh) 一种基于深度学习的结构化信息抽取方法
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN110765264A (zh) 一种增强语义相关性的文本摘要生成方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
KR20220043505A (ko) 문서 요약장치 및 방법
CN112883171A (zh) 基于bert模型的文档关键词抽取方法及装置
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN109815497B (zh) 基于句法依存的人物属性抽取方法
KR20190104656A (ko) 텍스트에서 제목을 추출하는 방법 및 장치
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN111950281B (zh) 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
KR102216065B1 (ko) 동영상 세그먼트에 대해 검색결과를 제공하는 방법
CN113010676B (zh) 一种文本知识提取方法、装置及自然语言推断系统
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
Ek et al. Synthetic propaganda embeddings to train a linear projection
Patel et al. Mental health detection using transformer bert
Boonpa et al. Relationship extraction from Thai children's tales for generating illustration
Chakkarwar et al. A Review on BERT and Its Implementation in Various NLP Tasks
Alromima et al. Extracting N-gram terms collocation from tagged Arabic corpus
KR102649948B1 (ko) 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant