CN110781312B - 基于语义表征模型的文本分类方法、装置和计算机设备 - Google Patents

基于语义表征模型的文本分类方法、装置和计算机设备 Download PDF

Info

Publication number
CN110781312B
CN110781312B CN201910886622.1A CN201910886622A CN110781312B CN 110781312 B CN110781312 B CN 110781312B CN 201910886622 A CN201910886622 A CN 201910886622A CN 110781312 B CN110781312 B CN 110781312B
Authority
CN
China
Prior art keywords
text
word
vector sequence
layer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910886622.1A
Other languages
English (en)
Other versions
CN110781312A (zh
Inventor
邓悦
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910886622.1A priority Critical patent/CN110781312B/zh
Priority to PCT/CN2019/116339 priority patent/WO2021051503A1/zh
Publication of CN110781312A publication Critical patent/CN110781312A/zh
Application granted granted Critical
Publication of CN110781312B publication Critical patent/CN110781312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,所述方法包括:获取输入的原始文本,并对原始文本进行预处理,从而得到单词序列;计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到M层词粒度编码器中进行计算,得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到N层知识粒度编码器中进行计算,得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到分类模型中,得到文本分类结果。从而提高了文本分类的准确度。

Description

基于语义表征模型的文本分类方法、装置和计算机设备
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质。
背景技术
文本分类是自然语言处理中的重要组成部分,一般采用文本分类模型进行文本分类。文本分类模型的表现很大程度上取决于其语义表征模型。常见的语义表征模型,例如基于word2vec算法的模型、基于双向LSTM网络的模型等,只考虑单词本身、和/或上下文的关系,当处于专业问答情境时,例如在专业面试的过程中,表现在面试中出现的问题具有一定专业性(专业词汇、专业的关系表述等),且往往会考察候选人对某一概念或某一定义把握得是否清晰,即,问题是有知识背景的,因此传统的语义表征模型无法准确反应专业词汇以及专业词汇间的关系(即实体以及实体关系),因此无法准确反应出输入的文本,从而降低最终的文本分类的准确度。
发明内容
本申请的主要目的为提供一种基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,旨在提高文本分类的准确度。
为了实现上述发明目的,本申请提出一种基于语义表征模型的文本分类方法,包括以下步骤:
获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n 个单词;
将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M 层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。
进一步地,每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列的步骤,包括:
在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1, Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
根据公式:
Figure BDA0002207494690000021
计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;
根据公式: Multihead({w1,w2,...,wn})=Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;
将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量FFN(x),其中所述前馈全连接层中的计算公式为:FFN(x)= gelu(xW1+b1)W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、b2为预设的偏置值;
将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
进一步地,每一层知识粒度编码器均包括一个多头自注意力机制层和一个信息聚合层,所述将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列的步骤,包括:
将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到第一层知识粒度编码器中的多头自注意力机制层中,从而得到第一向量序列
Figure BDA0002207494690000031
和第二向量序列
Figure BDA0002207494690000032
将所述第一向量序列和第二向量序列输入到第一层知识粒度编码器中的信息聚合层中,从而得到第j个单词对应的最终文本嵌入向量mj和最终实体嵌入向量pj,其中信息聚合层中的计算公式为:
mj=gelu(W3hj+b3);pj=gelu(W4hj+b4);其中
Figure BDA0002207494690000101
W3、W4、W5、W6均为预设的参数矩阵,b3、b4、b5均为预设的偏置值;
生成第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列 {m1,m2,…,mn},并将所述第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn}输入下一层知识粒度编码器中,直至获取最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。
进一步地,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型的步骤之前,包括:
调用预先采集的训练用文本;
根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M 层词粒度编码器中进行计算,从而得到所述M层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值;
根据预设的实体嵌入向量序列生成方法,生成与所述训练用文本对应的训练用实体嵌入向量序列,并将所述训练用实体嵌入向量序列和所述训练用文本嵌入向量序列输入预设的N层知识粒度编码器中进行计算,从而得到所述N层知识粒度编码器输出的第二子注意力矩阵,再将所述第二子注意力矩阵输入预设的第二损失函数中,从而得到第二损失函数值;
根据公式:总损失函数值=所述第一损失函数值+所述第二损失函数值,计算得到总损失函数值,并判断所述总损失函数值是否大于预设的损失函数阈值;
若所述总损失函数值大于预设的损失函数阈值,则调整所述语义表征模型参数,以使所述总损失函数值小于所述损失函数阈值。
进一步地,所述根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列的步骤,包括:
对所述训练用文本中的随机单词替换为掩码标记,并对所述掩码标记后的训练用文本进行预处理,从而得到训练用单词序列,其中所述预处理至少包括句子划分和单词划分;
根据预设的词向量库、第i个单词所属句子在所述训练用文本中的位置与句子切分向量的对应关系、第i个单词在所述训练用单词序列中的位置与位置向量的对应关系,对应获取与所述训练用单词序列中的第i个单词对应的训练用词向量di、训练用句子切分向量fi和训练用位置向量gi;
根据公式:ti=di+fi+gi,计算得到第i个单词对应的训练用文本嵌入向量ti,其中训练用词向量di、训练用句子切分向量fi和训练用位置向量gi具有相同的维度;
生成训练用文本嵌入向量序列{t1,t2,…,tn},其中所述训练用单词序列中共有n个单词。
进一步地,所述根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M层词粒度编码器中进行计算,从而得到所述M层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值的步骤之前,包括:
将所述第一损失函数设置为:LOSS1=-∑YilogXi,其中LOSS1为所述第一损失函数,Yi是所述训练用文本对应的期望第一子注意力矩阵,Xi是所述第一子注意力矩阵;
将所述第二损失函数设置为:LOSS2=-∑(GilogHi+(1-Gi)log(1- Hi,其中LOSS2为所述第二损失函数,Gi是所述训练用文本对应的期望第二子注意力矩阵,Hi是所述第二子注意力矩阵。
进一步地,所述将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果的步骤之后,包括:
根据预设的分类结果与回答句子的对应关系,获取与所述文本分类结果对应的指定回答句子;
输出所述指定回答句子。
本申请提供一种基于语义表征模型的文本分类装置,包括:
单词序列获取单元,用于获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
文本嵌入向量计算单元,用于根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式: wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量 ai、句子切分向量bi和位置向量ci具有相同的维度;
文本嵌入向量序列生成单元,用于生成文本嵌入向量序列{w1,w2,…, wn},其中所述单词序列中共有n个单词;
实体嵌入向量序列生成单元,用于将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
中间文本嵌入向量序列生成单元,用于将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
知识粒度编码器计算单元,用于将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
文本分类结果获取单元,用于将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于语义表征模型的文本分类方法、装置、计算机设备和存储介质,获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列;获取词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+ bi+ci,计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将所述单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…, en};将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。从而将实体嵌入向量引入分类过程中,提高了文本分类的准确度。
附图说明
图1为本申请一实施例的基于语义表征模型的文本分类方法的流程示意图;
图2为本申请一实施例的基于语义表征模型的文本分类装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于语义表征模型的文本分类方法,包括以下步骤:
S1、获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
S2、根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量 ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
S3、生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n个单词;
S4、将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
S5、将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
S6、将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N 层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
S7、将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。
本申请通过将实体嵌入向量序列引入语义表征模型,从而使语义表征模型以及文本分类模型能够胜任更复杂的情境(例如处理具有专业词汇以及专业词汇之间的相互关系的文本),提高最终的文本分类的准确度。
如上述步骤S1所述,获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分。其中原始文本可能包括有多个句子,每个句子包括多个单词,因此通过至少包括句子划分和单词划分的预处理,从而得到单词序列。其中句子划分和单词划分可利用开源的划分工具,例如jieba工具、SnowNLP工具等。其中,所述原始文本可以为任意可行文本,优选具有指定单词的文本,其中所述指定单词是预设的知识图谱中的知识节点,并且所述指定单词是预设领域中的专业词汇。
如上述步骤S2所述,根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+ bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度。其中所述词向量生成方法可以采用任意可行方法,例如利用查询预设的词向量库,从而获取与所述单词序列中的单词对应的词向量,其中词向量库可以采用现有的数据库,也可使用例如word2vec模型对收集的语料进行训练得到;或者,所述词向量生成方法例如为:在语义表征模型的训练之前,将每个单词对应的词向量初始化为随机值,然后在训练过程中,随其他网络参数一起优化,从而获取每个单词对应的词向量。由于文本嵌入向量wi不仅由词向量ai构成,还由句子切分向量bi和位置向量ci,因此还能反应第i个单词的句子位置和单词位置。
如上述步骤S3所述,生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n个单词。文本嵌入向量序列{w1,w2,…,wn}由n个单词对应的文本嵌入向量构成,其中文本嵌入向量以列向量的形式展示,因此文本嵌入向量序列{w1,w2,…,wn}也被视为n列的矩阵;
如上述步骤S4所述,将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量。其中所述知识嵌入模型例如为TransE模型,能够将知识图谱中的实体和关系以向量的形式提取出来,并且由于知识图谱中的知识节点与关系的专业程度更高(可针对性地选择合适的知识图谱),从而获取每个单词对应的实体嵌入向量。其中所述知识嵌入模型,例如TransE模型,是传统的模型,在此不再赘述。进一步地,若存在不为实体的单词,则将所述单词对应的实体嵌入向量设置为0。
如上述步骤S5所述,将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2。其中,M层词粒度编码器中进行计算的过程例如为:在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1,Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵 {V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;根据公式:
Figure BDA0002207494690000091
计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;根据公式:Multihead({w1,w2,...,wn})= Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量 FFN(x),其中所述前馈全连接层中的计算公式为:FFN(x)=gelu(xW1+ b1W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、 b2为预设的偏置值;将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
如上述步骤S6所述,将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。其中,所述N层知识粒度编码器中进行计算的过程例如为:将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到第一层知识粒度编码器中的多头自注意力机制层中,从而得到第一向量序列
Figure BDA0002207494690000104
和第二向量序列
Figure BDA0002207494690000105
将所述第一向量序列和第二向量序列输入到第一层知识粒度编码器中的信息聚合层中,从而得到第j个单词对应的最终文本嵌入向量mj和最终实体嵌入向量pj,其中信息聚合层中的计算公式为:mj=gelu(W3hj+b3);pj=gelu(W4hj+b4);其中
Figure BDA0002207494690000101
W3、W4
Figure BDA0002207494690000102
均为预设的参数矩阵,b3、 b4、b5均为预设的偏置值;生成第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn},并将所述第一文本嵌入向量序列{m1, m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn}输入下一层知识粒度编码器中,直至获取最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。
如上述步骤S7所述,将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。其中所述分类模型可以为任意可行的分类模型,例如softmax分类器等。由于所述最终文本嵌入向量序列和最终实体嵌入向量序列利用了实体嵌入向量,因此最终的文本分类结果更适应于专业情境,分类更准确。
在一个实施方式中,每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列的步骤S5,包括:
S501、在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵 {Q1,Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
S502、根据公式:
Figure BDA0002207494690000103
计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;
S503、根据公式:Multihead({w1,w2,...,wn})=Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;
S504、将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量FFN(x),其中所述前馈全连接层中的计算公式为: FFN(x)=gelu(xW1+b1)W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、b2为预设的偏置值;
S505、将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
如上所述,实现了得到最后一层词粒度编码器输出的中间文本嵌入向量序列。由于每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,因此单词与单词之间的关系得到了体现(上下文关系)。并且为了提高自注意力的性能,本申请采用根据公式: Multihead({w1,w2,...,wn})=Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接的方式,构建成综合矩阵,再乘以第二参数矩阵W,从而得到多头自注意力矩阵,从而提高自注意力的性能(采用了多个自注意力组)。再将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量,将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列。因此第一层词粒度编码器的输出即是所述暂时文本嵌入向量序列。由于本申请设置有M层词粒度编码器,因此重复上述计算过程,即可得到最后一层词粒度编码器输出的中间文本嵌入向量序列。
在一个实施方式中,每一层知识粒度编码器均包括一个多头自注意力机制层和一个信息聚合层,所述将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列的步骤 S6,包括:
S601、将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到第一层知识粒度编码器中的多头自注意力机制层中,从而得到第一向量序列
Figure BDA0002207494690000123
和第二向量序列
Figure BDA0002207494690000124
S602、将所述第一向量序列和第二向量序列输入到第一层知识粒度编码器中的信息聚合层中,从而得到第j个单词对应的最终文本嵌入向量mj和最终实体嵌入向量pj,其中信息聚合层中的计算公式为:
mj=gelu(W3hj+b3);pj=gelu(W4hj+b4);其中
Figure BDA0002207494690000101
W3、W4、W5、W6均为预设的参数矩阵,b3、b4、b5均为预设的偏置值;
S603、生成第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn},并将所述第一文本嵌入向量序列{m1,m2,…,mn} 和第一实体嵌入向量序列{m1,m2,…,mn}输入下一层知识粒度编码器中,直至获取最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。
如上所述,实现了得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。每一层知识粒度编码器均包括一个多头自注意力机制层和一个信息聚合层,其中多头自注意力机制层的计算方法与前述词粒度编码器中的多头自注意力机制层的计算方法可以相同,但是由于采用的参数矩阵是训练得来的,因此参数矩阵可以不同。所述信息聚合层用于采用激活函数gelu获取最终文本嵌入向量mj和最终实体嵌入向量pj。信息聚合层中的计算公式为:
mj=gelu(W3hj+b3);pj=gelu(W4hj+b4);其中
Figure BDA0002207494690000101
W3、W4、W5、W6均为预设的参数矩阵,b3、b4、b5均为预设的偏置值。从而可得第一层知识粒度编码器输出的第一文本嵌入向量序列{m1, m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn}。重复知识粒度编码器的计算过程,直至最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。
在一个实施方式中,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型的步骤S5之前,包括:
S41、调用预先采集的训练用文本;
S42、根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M层词粒度编码器中进行计算,从而得到所述M层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值;
S43、根据预设的实体嵌入向量序列生成方法,生成与所述训练用文本对应的训练用实体嵌入向量序列,并将所述训练用实体嵌入向量序列和所述训练用文本嵌入向量序列输入预设的N层知识粒度编码器中进行计算,从而得到所述N层知识粒度编码器输出的第二子注意力矩阵,再将所述第二子注意力矩阵输入预设的第二损失函数中,从而得到第二损失函数值;
S44、根据公式:总损失函数值=所述第一损失函数值+所述第二损失函数值,计算得到总损失函数值,并判断所述总损失函数值是否大于预设的损失函数阈值;
S45、若所述总损失函数值大于预设的损失函数阈值,则调整所述语义表征模型参数,以使所述总损失函数值小于所述损失函数阈值。
如上所述,实现了训练语义表征模型。其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,因此本申请采用综合考虑第一损失函数和第二损失函数的方式,同时训练M层词粒度编码器和N层知识粒度编码器。据此,设置总损失函数值=所述第一损失函数值+所述第二损失函数值,并判断所述总损失函数值是否大于预设的损失函数阈值。由于总损失函数衡量的是输出与期望的差别程度,若总损失函数的数值小,则表明语义表征模型适用于当前的训练数据,反之,则需要调整参数。因此,若所述总损失函数值大于预设的损失函数阈值,则调整所述语义表征模型参数,以使所述总损失函数值小于所述损失函数阈值。
在一个实施方式中,所述根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列的步骤S42,包括:
S421、对所述训练用文本中的随机单词替换为掩码标记,并对所述掩码标记后的训练用文本进行预处理,从而得到训练用单词序列,其中所述预处理至少包括句子划分和单词划分;
S422、根据预设的词向量库、第i个单词所属句子在所述训练用文本中的位置与句子切分向量的对应关系、第i个单词在所述训练用单词序列中的位置与位置向量的对应关系,对应获取与所述训练用单词序列中的第i个单词对应的训练用词向量di、训练用句子切分向量fi和训练用位置向量gi;
S423、根据公式:ti=di+fi+gi,计算得到第i个单词对应的训练用文本嵌入向量ti,其中训练用词向量di、训练用句子切分向量fi和训练用位置向量gi具有相同的维度;
S424、生成训练用文本嵌入向量序列{t1,t2,…,tn},其中所述训练用单词序列中共有n个单词。
如上所述,实现了根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列。其中对所述训练用文本中的随机单词替换为掩码标记,并对所述掩码标记后的训练用文本进行预处理,从而得到训练用单词序列,即采用掩码嵌入的方式进行训练,以期待模型能根据上下文关系,预测出掩码标记处对应的词语。由于训练的是语义表征模型,因此预处理的方式、生成训练用文本嵌入向量序列的方式均与所述语义表征模型正常运作时的预处理的方式、生成文本嵌入向量序列的方式相同。
在一个实施方式中,所述根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M层词粒度编码器中进行计算,从而得到所述M层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值的步骤S42之前,包括:
S411、将所述第一损失函数设置为:LOSS1=-∑YilogXi,其中LOSS1 为所述第一损失函数,Yi是所述训练用文本对应的期望第一子注意力矩阵, Xi是所述第一子注意力矩阵;
S412、将所述第二损失函数设置为:LOSS2=-∑(GilogHi+(1- Gilog1-Hi,其中LOSS2为所述第二损失函数,Gi是所述训练用文本对应的期望第二子注意力矩阵,Hi是所述第二子注意力矩阵。
如上所述,实现了设置第一损失函数和第二损失函数。损失函数用于衡量训练数据生成的数值与期望值的差别,从而反应模型的参数是否需要调整。本申请采用将所述第一损失函数设置为:LOSS1=-∑YilogXi,其中LOSS1 为所述第一损失函数,Yi是所述训练用文本对应的期望第一子注意力矩阵, Xi是所述第一子注意力矩阵;将所述第二损失函数设置为:LOSS2= -∑(GilogHi+(1-Gi)log(1-Hi)),其中LOSS2为所述第二损失函数,Gi 是所述训练用文本对应的期望第二子注意力矩阵,Hi是所述第二子注意力矩阵的方式,以衡量第一子注意力矩阵和第二子注意力矩阵相对于期望值的差别程度。
在一个实施方式中,所述将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果的步骤S7之后,包括:
S71、根据预设的分类结果与回答句子的对应关系,获取与所述文本分类结果对应的指定回答句子;
S72、输出所述指定回答句子。
如上所述,实现了输出所述指定回答句子。由于本申请尤其适用于专业情境中的面试问答过程,因此所述原始文本应是面试者对于问题的答案,而所述文本分类结果即是所述答案的解析。由于是面试问答过程,因此本申请还采用了根据预设的分类结果与回答句子的对应关系,获取与所述文本分类结果对应的指定回答句子;输出所述指定回答句子的方式,完成问答过程中与面试者的最后交互。其中,所述指定回答句子例如为:恭喜你,面试通过等。
本申请的基于语义表征模型的文本分类方法,获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列;获取词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将所述单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。从而将实体嵌入向量引入分类过程中,提高了文本分类的准确度。
参照图2,本申请实施例提供一种基于语义表征模型的文本分类装置,包括:
单词序列获取单元10,用于获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
文本嵌入向量计算单元20,用于根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
文本嵌入向量序列生成单元30,用于生成文本嵌入向量序列{w1,w2,…, wn},其中所述单词序列中共有n个单词;
实体嵌入向量序列生成单元40,用于将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
中间文本嵌入向量序列生成单元50,用于将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
知识粒度编码器计算单元60,用于将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
文本分类结果获取单元70,用于将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。
其中上述单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述中间文本嵌入向量序列生成单元50,包括:
第一参数矩阵组计算子单元,用于在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1,Q2,…,Qh},第二矩阵{K1,K2,…,Kh} 和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
子注意力矩阵获取子单元,用于根据公式:
Figure BDA0002207494690000171
计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;
多头自注意力矩阵获取子单元,用于根据公式:
Multihead({w1,w2,...,wn})=Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;
暂时文本嵌入向量获取子单元,用于将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量FFN(x),其中所述前馈全连接层中的计算公式为:FFN(x)=gelu(xW1+b1)W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、b2为预设的偏置值;
中间文本嵌入向量序列获取子单元,用于将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
其中上述子单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,每一层知识粒度编码器均包括一个多头自注意力机制层和一个信息聚合层,所述知识粒度编码器计算单元60,包括:
第一向量序列获取子单元,用于将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到第一层知识粒度编码器中的多头自注意力机制层中,从而得到第一向量序列
Figure BDA0002207494690000181
和第二向量序列
Figure BDA0002207494690000182
信息聚合层计算子单元,用于将所述第一向量序列和第二向量序列输入到第一层知识粒度编码器中的信息聚合层中,从而得到第j个单词对应的最终文本嵌入向量mj和最终实体嵌入向量pj,其中信息聚合层中的计算公式为:
mj=gelu(W3hj+b3);pj=gelu(W4hj+b4);其中
Figure BDA0002207494690000101
W3、W4、W5、W6均为预设的参数矩阵,b3、b4、b5均为预设的偏置值;
最终文本嵌入向量序列计算子单元,用于生成第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn},并将所述第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn} 输入下一层知识粒度编码器中,直至获取最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。
其中上述子单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
训练用文本调用单元,用于调用预先采集的训练用文本;
第一损失函数值获取单元,用于根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M层词粒度编码器中进行计算,从而得到所述M 层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值;
第二损失函数值获取单元,用于根据预设的实体嵌入向量序列生成方法,生成与所述训练用文本对应的训练用实体嵌入向量序列,并将所述训练用实体嵌入向量序列和所述训练用文本嵌入向量序列输入预设的N层知识粒度编码器中进行计算,从而得到所述N层知识粒度编码器输出的第二子注意力矩阵,再将所述第二子注意力矩阵输入预设的第二损失函数中,从而得到第二损失函数值;
总损失函数值获取单元,用于根据公式:总损失函数值=所述第一损失函数值+所述第二损失函数值,计算得到总损失函数值,并判断所述总损失函数值是否大于预设的损失函数阈值;
语义表征模型参数调整单元,用于若所述总损失函数值大于预设的损失函数阈值,则调整所述语义表征模型参数,以使所述总损失函数值小于所述损失函数阈值。
其中上述单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一损失函数值获取单元,包括:
训练用单词序列获取子单元,用于对所述训练用文本中的随机单词替换为掩码标记,并对所述掩码标记后的训练用文本进行预处理,从而得到训练用单词序列,其中所述预处理至少包括句子划分和单词划分;
训练向量获取子单元,用于根据预设的词向量库、第i个单词所属句子在所述训练用文本中的位置与句子切分向量的对应关系、第i个单词在所述训练用单词序列中的位置与位置向量的对应关系,对应获取与所述训练用单词序列中的第i个单词对应的训练用词向量di、训练用句子切分向量fi和训练用位置向量gi;
训练用文本嵌入向量获取子单元,用于根据公式:ti=di+fi+gi,计算得到第i个单词对应的训练用文本嵌入向量ti,其中训练用词向量di、训练用句子切分向量fi和训练用位置向量gi具有相同的维度;
训练用文本嵌入向量序列获取子单元,用于生成训练用文本嵌入向量序列{t1,t2,…,tn},其中所述训练用单词序列中共有n个单词。
其中上述子单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
第一损失函数设置单元,用于将所述第一损失函数设置为:LOSS1=-∑YilogXi,其中LOSS1为所述第一损失函数,Yi是所述训练用文本对应的期望第一子注意力矩阵,Xi是所述第一子注意力矩阵;
第二损失函数设置单元,用于将所述第二损失函数设置为:LOSS2= -∑(GilogHi+(1-Gi)log(1-Hi)),其中LOSS2为所述第二损失函数,Gi 是所述训练用文本对应的期望第二子注意力矩阵,Hi是所述第二子注意力矩阵。
其中上述单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
指定回答句子获取单元,用于根据预设的分类结果与回答句子的对应关系,获取与所述文本分类结果对应的指定回答句子;
指定回答句子输出单元,用于输出所述指定回答句子。
其中上述单元分别用于执行的操作与前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
本申请的基于语义表征模型的文本分类装置,获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列;获取词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将所述单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。从而将实体嵌入向量引入分类过程中,提高了文本分类的准确度。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于语义表征模型的文本分类方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义表征模型的文本分类方法。
上述处理器执行上述基于语义表征模型的文本分类方法,其中所述方法包括的步骤分别与执行前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列;获取词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到向量wi;生成文本嵌入向量序列{w1, w2,…,wn};将所述单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。从而将实体嵌入向量引入分类过程中,提高了文本分类的准确度。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于语义表征模型的文本分类方法,其中所述方法包括的步骤分别与执行前述实施方式的基于语义表征模型的文本分类方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列;获取词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到向量wi;生成文本嵌入向量序列{w1,w2,…,wn};将所述单词序列输入预设的知识嵌入模型中,获取实体嵌入向量序列{e1,e2,…,en};将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到中间文本嵌入向量序列;将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最终文本嵌入向量序列和最终实体嵌入向量序列;将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果。从而将实体嵌入向量引入分类过程中,提高了文本分类的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路 (Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种基于语义表征模型的文本分类方法,其特征在于,包括:
获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n个单词;
将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果;
每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列的步骤,包括:
在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1,Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
根据公式:
Figure FDA0003654887680000021
计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;
根据公式:Multihead({w1,w2,...,wn})=Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;
将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量FFN(x),其中所述前馈全连接层中的计算公式为:FFN(x)=gelu(xW1+b1)W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、b2为预设的偏置值;
将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
2.根据权利要求1所述的基于语义表征模型的文本分类方法,其特征在于,每一层知识粒度编码器均包括一个多头自注意力机制层和一个信息聚合层,所述将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列的步骤,包括:
将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到第一层知识粒度编码器中的多头自注意力机制层中,从而得到第一向量序列
Figure FDA0003654887680000022
和第二向量序列
Figure FDA0003654887680000023
将所述第一向量序列和第二向量序列输入到第一层知识粒度编码器中的信息聚合层中,从而得到第j个单词对应的最终文本嵌入向量mj和最终实体嵌入向量pj,其中信息聚合层中的计算公式为:
mj=gelu(W3hj+b3);pj=gelu(W4hj+b4);其中
Figure FDA0003654887680000024
Figure FDA0003654887680000025
W3、W4、W5、W6均为预设的参数矩阵,b3、b4、b5均为预设的偏置值;
生成第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn},并将所述第一文本嵌入向量序列{m1,m2,…,mn}和第一实体嵌入向量序列{m1,m2,…,mn}输入下一层知识粒度编码器中,直至获取最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列。
3.根据权利要求1所述的基于语义表征模型的文本分类方法,其特征在于,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型的步骤之前,包括:
调用预先采集的训练用文本;
根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M层词粒度编码器中进行计算,从而得到所述M层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值;
根据预设的实体嵌入向量序列生成方法,生成与所述训练用文本对应的训练用实体嵌入向量序列,并将所述训练用实体嵌入向量序列和所述训练用文本嵌入向量序列输入预设的N层知识粒度编码器中进行计算,从而得到所述N层知识粒度编码器输出的第二子注意力矩阵,再将所述第二子注意力矩阵输入预设的第二损失函数中,从而得到第二损失函数值;
根据公式:总损失函数值=所述第一损失函数值+所述第二损失函数值,计算得到总损失函数值,并判断所述总损失函数值是否大于预设的损失函数阈值;
若所述总损失函数值大于预设的损失函数阈值,则调整所述语义表征模型参数,以使所述总损失函数值小于所述损失函数阈值。
4.根据权利要求3所述的基于语义表征模型的文本分类方法,其特征在于,所述根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列的步骤,包括:
对所述训练用文本中的随机单词替换为掩码标记,并对所述掩码标记后的训练用文本进行预处理,从而得到训练用单词序列,其中所述预处理至少包括句子划分和单词划分;
根据预设的词向量库、第i个单词所属句子在所述训练用文本中的位置与句子切分向量的对应关系、第i个单词在所述训练用单词序列中的位置与位置向量的对应关系,对应获取与所述训练用单词序列中的第i个单词对应的训练用词向量di、训练用句子切分向量fi和训练用位置向量gi;
根据公式:ti=di+fi+gi,计算得到第i个单词对应的训练用文本嵌入向量ti,其中训练用词向量di、训练用句子切分向量fi和训练用位置向量gi具有相同的维度;
生成训练用文本嵌入向量序列{t1,t2,…,tn},其中所述训练用单词序列中共有n个单词。
5.根据权利要求3所述的基于语义表征模型的文本分类方法,其特征在于,所述根据预设的文本嵌入向量序列生成方法,生成与所述训练用文本对应的训练用文本嵌入向量序列,并将所述训练用文本嵌入向量序列输入预设的M层词粒度编码器中进行计算,从而得到所述M层词粒度编码器输出的第一子注意力矩阵,再将所述第一子注意力矩阵输入预设的第一损失函数中,从而得到第一损失函数值的步骤之前,包括:
将所述第一损失函数设置为:LOSS1=-∑YilogXi,其中LOSS1为所述第一损失函数,Yi是所述训练用文本对应的期望第一子注意力矩阵,Xi是所述第一子注意力矩阵;
将所述第二损失函数设置为:LOSS2=-∑(GilogHi+(1-Gi)log(1-Hi,其中LOSS2为所述第二损失函数,Gi是所述训练用文本对应的期望第二子注意力矩阵,Hi是所述第二子注意力矩阵。
6.根据权利要求1所述的基于语义表征模型的文本分类方法,其特征在于,所述将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果的步骤之后,包括:
根据预设的分类结果与回答句子的对应关系,获取与所述文本分类结果对应的指定回答句子;
输出所述指定回答句子。
7.一种基于语义表征模型的文本分类装置,其特征在于,包括:
单词序列获取单元,用于获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
文本嵌入向量计算单元,用于根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
文本嵌入向量序列生成单元,用于生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n个单词;
实体嵌入向量序列生成单元,用于将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
中间文本嵌入向量序列生成单元,用于将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
知识粒度编码器计算单元,用于将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
文本分类结果获取单元,用于将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果;
每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述中间文本嵌入向量序列生成单元,包括:
第一参数矩阵组计算子单元,用于在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1,Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
子注意力矩阵获取子单元,用于根据公式:
Figure FDA0003654887680000061
计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;
多头自注意力矩阵获取子单元,用于根据公式:
Multihead({w1,w2,…,wn})=Concat(head1,head2,…,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;
暂时文本嵌入向量获取子单元,用于将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量FFN(x),其中所述前馈全连接层中的计算公式为:FFN(x)=gelu(xW1+b1)W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、b2为预设的偏置值;
中间文本嵌入向量序列获取子单元,用于将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910886622.1A 2019-09-19 2019-09-19 基于语义表征模型的文本分类方法、装置和计算机设备 Active CN110781312B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910886622.1A CN110781312B (zh) 2019-09-19 2019-09-19 基于语义表征模型的文本分类方法、装置和计算机设备
PCT/CN2019/116339 WO2021051503A1 (zh) 2019-09-19 2019-11-07 基于语义表征模型的文本分类方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910886622.1A CN110781312B (zh) 2019-09-19 2019-09-19 基于语义表征模型的文本分类方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN110781312A CN110781312A (zh) 2020-02-11
CN110781312B true CN110781312B (zh) 2022-07-15

Family

ID=69383591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910886622.1A Active CN110781312B (zh) 2019-09-19 2019-09-19 基于语义表征模型的文本分类方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN110781312B (zh)
WO (1) WO2021051503A1 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581929B (zh) * 2020-04-22 2022-09-27 腾讯科技(深圳)有限公司 基于表格的文本生成方法及相关装置
CN111694936B (zh) * 2020-04-26 2023-06-06 平安科技(深圳)有限公司 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
CN113672737A (zh) * 2020-05-13 2021-11-19 复旦大学 知识图谱实体概念描述生成系统
CN111563166B (zh) * 2020-05-28 2024-02-13 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111737995B (zh) * 2020-05-29 2024-04-05 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN112241631A (zh) * 2020-10-23 2021-01-19 平安科技(深圳)有限公司 文本语义识别方法、装置、电子设备及存储介质
CN112307752A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113032567B (zh) * 2021-03-29 2022-03-29 广东众聚人工智能科技有限公司 位置嵌入解释方法、装置、计算机设备及存储介质
CN112948633B (zh) * 2021-04-01 2023-09-05 北京奇艺世纪科技有限公司 一种内容标签生成方法、装置及电子设备
CN113239192B (zh) * 2021-04-29 2024-04-16 湘潭大学 一种基于滑动窗口和随机离散采样的文本结构化技术
CN113379032A (zh) * 2021-06-08 2021-09-10 全球能源互联网研究院有限公司 基于分层双向lstm序列模型训练方法及系统
CN113468874B (zh) * 2021-06-09 2024-04-16 大连理工大学 一种基于图卷积自编码的生物医学关系抽取方法
CN113420121B (zh) * 2021-06-24 2023-07-28 中国科学院声学研究所 文本处理模型训练方法、语音文本处理方法及装置
CN113378973B (zh) * 2021-06-29 2023-08-08 沈阳雅译网络技术有限公司 一种基于自注意力机制的图像分类方法
CN113626537B (zh) * 2021-07-06 2023-10-17 南京邮电大学 一种面向知识图谱构建的实体关系抽取方法及系统
CN113486669B (zh) * 2021-07-06 2024-03-29 上海市东方医院(同济大学附属东方医院) 应急救援输入语音的语义识别方法
CN113449081A (zh) * 2021-07-08 2021-09-28 平安国际智慧城市科技股份有限公司 文本特征的提取方法、装置、计算机设备及存储介质
CN113741886B (zh) * 2021-08-02 2023-09-26 扬州大学 一种基于图的语句级程序修复方法及系统
CN113836934B (zh) * 2021-08-05 2024-09-06 合肥工业大学 基于标签信息增强的文本分类方法和系统
CN113535984B (zh) * 2021-08-11 2023-05-26 华侨大学 一种基于注意力机制的知识图谱关系预测方法及装置
CN113657257B (zh) * 2021-08-16 2023-12-19 浙江大学 一种端到端的手语翻译方法和系统
CN113779192A (zh) * 2021-08-23 2021-12-10 河海大学 一种基于带标签约束的双向动态路由的文本分类算法
CN113742188A (zh) * 2021-08-25 2021-12-03 宁波大学 一种基于bert的非侵入式电脑行为监测方法及系统
CN113821636B (zh) * 2021-08-27 2024-07-09 北京快确信息科技有限公司 一种基于知识图谱的金融文本联合抽取分类方法
CN113837233B (zh) * 2021-08-30 2023-11-17 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114020923A (zh) * 2021-09-30 2022-02-08 福州大学 基于无监督类型约束的上下文感知知识补全方法及系统
CN114003730A (zh) * 2021-10-29 2022-02-01 福州大学 基于关系特定门过滤的开放世界知识补全方法及系统
CN114281986B (zh) * 2021-11-15 2024-03-26 国网吉林省电力有限公司 一种基于自注意力网络的企业文件密点标注方法
CN114357176B (zh) * 2021-11-26 2023-11-21 永中软件股份有限公司 实体知识自动抽取方法和计算机装置、计算机可读介质
CN114357158B (zh) * 2021-12-09 2024-04-09 南京中孚信息技术有限公司 基于句粒度语义和相对位置编码的长文本分类技术
CN114281999B (zh) * 2022-01-04 2024-08-13 山西大学 一种基于用户知识的个性化隐式情感分析方法与系统
CN114429118A (zh) * 2022-01-19 2022-05-03 广州启辰电子科技有限公司 一种基于跨度信息和局部注意力的试卷结构解析方法
CN114580443B (zh) * 2022-03-01 2024-10-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、核函数组合方法、服务器和介质
CN114781356B (zh) * 2022-03-14 2024-06-21 华南理工大学 一种基于输入共享的文本摘要生成方法
CN114925742B (zh) * 2022-03-24 2024-05-14 华南理工大学 基于辅助任务的符号音乐情感分类系统及方法
CN114742070B (zh) * 2022-04-24 2024-08-16 广东工业大学 一种基于词向量变形和双向位序卷积的文本情感分析方法
CN114860854B (zh) * 2022-05-05 2024-09-27 中国人民解放军国防科技大学 基于注意力机制的时序知识图谱推理方法、装置和设备
CN116049349B (zh) * 2022-05-11 2024-09-20 北京理工大学 基于多层次注意力和层次类别特征的小样本意图识别方法
CN115048515A (zh) * 2022-06-09 2022-09-13 广西力意智能科技有限公司 文档分类方法、装置、设备和存储介质
CN115131607B (zh) * 2022-06-15 2024-07-26 北京工业大学 图像分类方法及装置
CN115333802B (zh) * 2022-07-27 2024-08-13 北京国瑞数智技术有限公司 一种基于神经网络的恶意程序检测方法和系统
CN115422477B (zh) * 2022-09-16 2023-09-05 哈尔滨理工大学 一种轨迹近邻查询系统、方法、计算机及存储介质
CN115357690B (zh) * 2022-10-19 2023-04-07 有米科技股份有限公司 基于文本模态自监督的文本去重方法及装置
CN117132997B (zh) * 2023-10-26 2024-03-12 国网江西省电力有限公司电力科学研究院 一种基于多头注意力机制和知识图谱的手写表格识别方法
CN117151121B (zh) * 2023-10-26 2024-01-12 安徽农业大学 一种基于波动阈值与分割化的多意图口语理解方法
CN117590944B (zh) * 2023-11-28 2024-07-12 上海源庐加佳信息科技有限公司 实体人对象和数字虚拟人对象的绑定系统
CN117744635B (zh) * 2024-02-12 2024-04-30 长春职业技术学院 基于智能ai的英文文本自动校对系统及方法
CN117763190B (zh) * 2024-02-22 2024-05-14 彩讯科技股份有限公司 一种智能化图片配文方法及系统
CN118012992B (zh) * 2024-04-09 2024-07-02 华南理工大学 一种金融文本关系抽取方法、系统及存储介质
CN118211563B (zh) * 2024-04-10 2024-08-30 中国科学院文献情报中心 一种自注意力机制嵌入增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2518946C1 (ru) * 2012-11-27 2014-06-10 Александр Александрович Харламов Способ автоматизированной семантической индексации текста на естественном языке
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039331A1 (en) * 2013-08-02 2015-02-05 Real Endpoints LLC Assessing pharmaceuticals
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN108829722B (zh) * 2018-05-08 2020-10-02 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109271516B (zh) * 2018-09-26 2020-09-15 清华大学 一种知识图谱中实体类型分类方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2518946C1 (ru) * 2012-11-27 2014-06-10 Александр Александрович Харламов Способ автоматизированной семантической индексации текста на естественном языке
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度卷积神经网络的实体关系抽取;王林玉;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180115;第I138-1904页 *

Also Published As

Publication number Publication date
CN110781312A (zh) 2020-02-11
WO2021051503A1 (zh) 2021-03-25

Similar Documents

Publication Publication Date Title
CN110781312B (zh) 基于语义表征模型的文本分类方法、装置和计算机设备
CN109145315B (zh) 文本翻译方法、装置、存储介质和计算机设备
CN108628974B (zh) 舆情信息分类方法、装置、计算机设备和存储介质
CN109034378B (zh) 神经网络的网络表示生成方法、装置、存储介质和设备
CN112612894B (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN111177345B (zh) 基于知识图谱的智能问答方法、装置和计算机设备
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN113673698B (zh) 适用于bert模型的蒸馏方法、装置、设备及存储介质
CN112528634A (zh) 文本纠错模型训练、识别方法、装置、设备及存储介质
US20230205995A1 (en) Methods and Systems for Automated Detection of Personal Information Using Neural Networks
CN111709229B (zh) 基于人工智能的文本生成方法、装置、计算机设备和介质
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN111191457A (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN110457450B (zh) 基于神经网络模型的答案生成方法及相关设备
CN110162783B (zh) 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN112348362A (zh) 岗位候选人的确定方法、装置、设备及介质
CN113779185B (zh) 一种自然语言模型的生成方法和计算机设备
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN113282707A (zh) 基于Transformer模型的数据预测方法、装置、服务器及存储介质
Wang et al. Image captioning using region-based attention joint with time-varying attention
WO2022178950A1 (zh) 预测语句实体的方法、装置和计算机设备
WO2020040255A1 (ja) 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
CN116151192A (zh) 训练方法、版面分析、质量评估方法、装置、设备和介质
CN110780850B (zh) 需求用例辅助生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant