CN113268565A - 一种基于概念文本的词向量快速生成方法和装置 - Google Patents

一种基于概念文本的词向量快速生成方法和装置 Download PDF

Info

Publication number
CN113268565A
CN113268565A CN202110592515.5A CN202110592515A CN113268565A CN 113268565 A CN113268565 A CN 113268565A CN 202110592515 A CN202110592515 A CN 202110592515A CN 113268565 A CN113268565 A CN 113268565A
Authority
CN
China
Prior art keywords
word
vector
semantic
concept
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110592515.5A
Other languages
English (en)
Other versions
CN113268565B (zh
Inventor
孙宇清
潘韦
刘天元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Publication of CN113268565A publication Critical patent/CN113268565A/zh
Application granted granted Critical
Publication of CN113268565B publication Critical patent/CN113268565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于概念文本的词向量快速生成方法,包括:对一段分好词后的概念文本,单词的组成字符以及每个单词的词性信息依次进行向量生成阶段处理和语义聚合阶段处理;其中,所述输入信息在所述向量生成阶段生成输出信息,即分别生成针对单个概念文本的单词向量;其中,针对同样的单词的多个概念文本的词向量进行语义聚合,最终输出综合语义向量。本发明所使用的词向量学习方法,可以脱离大规模学习语料,只使用少量的概念文本即可学习到能够较好表示语义的分布式词向量,针对专业领域新词,能够应对关于新词描述语料缺失的问题。

Description

一种基于概念文本的词向量快速生成方法和装置
技术领域
本发明公开一种基于概念文本的词向量快速生成方法和装置,属于自然语言处理的技术领域。
背景技术
单词向量化是分词任务完成后,使用深度学习模型完成自然语言处理高级任务的必要步骤。计算机只能处理数值,因此自然语言需要以一定的形式转化为数值进行计算。一个单纯的实数包含的信息太少,所以本技术领域一般映射为一个数值向量。因此,针对自然语言计算机化的进程包括:
起初都是采用独热编码或统计学方式进行向量表示,但结果大都不理想。
后来分布式语义词向量的提出,解决“词汇鸿沟”问题,可以通过余弦相似度或欧式距离等方式计算,根据数值的大小判断词与词之间的相关性。分布式语义词向量的应用在许多自然语言处理任务中显示其优点,它极大地提高了大多数自然语言任务的性能,例如文本分类,命名实体识别,机器翻译和问题解答。
但是,存在一些出现频率较低的通用词汇,更多的是专业领域新词,将其转化为词向量的形式存在一定的困难性。这些专业领域新词通常是文本中的关键字,自然语言任务的性能可能会受到其没有词向量的影响,因此为了更好地理解文本的语义,有必要以有效的方式学习专业词汇的词向量。
目前主流的向量学习都是通过海量语料库和预训练的方式,通过大量的文本,模型可以有效的提取相关词语的语义信息,但训练时间较长,且只对频率较高的词汇向量具有较好的学习效果,对于某些词汇出现的频率较低,包含其相关的文本少之又少,如果仍按照传统的词向量生成方法学习,会造成语义理解相关方面的缺失,因此并不适用于频率较低的词汇,尤其是专业领域新词的词向量学习。因此需要一个方法可以通过少量包含某词的语句来获得语义较为充分的词向量。
Yuval Pinter在2018年EMNLP会议的论文《Mimicking Word Embeddings usingSubword RNNs》中提出了一种通过单词的组成字符来表示单词词向量的方法,文中使用单词的构成特征作为输入并由双向RNN组成的神经网络来训练单词向量模型,训练后的向量和标准向量之间的余弦相似度作为目标函数。但是该论文只利用了单词的组成字符,当面对组成字符与单词毫无关系的词汇时,例如“吲哚美辛”,每个字符和单词表述的含义都无关,这种情况模型效果就会较差。而本发明除了利用单词的组成字符,还有概念文本及词性信息,这些辅助信息的使用可以有效的避免上述缺点,提高效果。
发明内容
发明概述
本发明所述一种基于概念文本的词向量快速生成方法,旨在:用户可以使用少量有关单词的概念文本,获得该单词的词向量,尤其是针对专业领域的新词汇,即根据用户采用不同概念文本的输入,使用双层注意力机制和语义聚合网络充分提取语义信息,将上述语义信息输出为综合语义向量。
针对现有技术的问题,本发明公开一种基于概念文本的词向量快速生成方法。
本发明还公开一种加载有上述方法的系统装置。
本发明还公开一种加载有上述方法的电子设备。
本发明还公开一种加载有上述方法的计算机可读存储介质。
本发明公开一种利用上述方法的应用方法。
术语解释:
1、专业新词是指:在专业领域文本的新生词汇,一般是某一领域的专有名称,不存在于当前的词典中,且它具有专业性,规范性的特点。例如医学领域词汇“吲哚美辛”。
2、概念文本:是对于一种事物的本质特征和外延的确切而简要的说明,例如“吲哚美辛为无味白色粉末,不溶于水,适用于解热、缓解炎性疼痛作用明显。”。
本发明详细的技术方案如下:
一种基于概念文本的词向量快速生成方法,其特征在于,包括:对一段分好词后的概念文本,单词的组成字符以及每个单词的词性信息依次进行向量生成阶段处理和语义聚合阶段处理;
其中,所述输入信息在所述向量生成阶段生成输出信息,即分别生成针对单个概念文本的单词向量;
其中,针对同样的单词的多个概念文本的词向量进行语义聚合,最终输出综合语义向量。
根据本发明优选的,所述输入信息还包括单词的组成字符以及每个单词的词性信息。
根据本发明优选的,在向量生成阶段中,使用双层注意力机制对单词字符组件和上下文的信息进行语义编码,最终生成词向量;优选的,所述双层注意力机制至少包括自注意力结构网络层和前向注意力网络层。
根据本发明优选的,所述语义聚合阶段采用卷积神经网络对同一单词的由多个概念文本的获得的词向量进行聚合,最终输出综合语义向量。
根据本发明优选的,所述语义聚合阶段还包括使用新概念文本对向量进行更新。
根据本发明优选的,所述词向量快速生成方法中还包括,通过向量生成阶段进行模型学习:
其中,向量生成阶段的学习过程包括,首先对单词的组成字符序列进行处理,利用词wunk的字单元c1,c2,…,cn通过双向长短时记忆循环神经网络,即BiLSTM网络编码生成该词汇词向量的初始表示,将词wunk的n个字符分别输入到前向LSTM和后向LSTM中,分别取相应的循环神经网络的最后一个时间步的隐藏状态
Figure BDA0003090092670000031
Figure BDA0003090092670000032
作为wunk的前向编码和后向编码,然后将LSTM的前向和后向的隐藏状态连接起来形成wunk的最终词向量的初始化状态
Figure BDA0003090092670000033
将所述初始化状态
Figure BDA0003090092670000034
送到下一层网络中wunk中的位置:
Figure BDA0003090092670000035
Figure BDA0003090092670000036
上述内容为词向量的有效初始化步骤,可以缩短训练时间并且显著提高新单词的嵌入质量,上述内容对应的方法与简单地将单词使用特定标记如UNK来表示相比,该方法利用了中文单词的特性,使得单词中组成的字符经常表达和单词一致的含义,例如,“鲜花”是指新鲜的花朵。字符“鲜”或“花”都包含了一定的意思;
接下来是对概念文本的处理:对于文本C=w1,w2,…,wunk,…wm,使用另一个BiLSTM进行语句序列编码,以捕获上下文语句内各个词语的相互依赖信息,作为预测词向量的语义信息融入,其中每个BiLSTM神经网络单元都接收单词(所述“单词”是指一段分好词后概念文本中的每一个单词)的词性标注POS信息和单词wi的词向量
Figure BDA0003090092670000041
Figure BDA0003090092670000042
hi=BiLSTMw(ei,hi-1),i∈[1…n] (4)
所述POS信息的类别向量是事先定义好的独热编码,并将wunk的POS信息设置为特定值;对于取所有中间隐藏层向量,作为下一层的输入,其中hi表示第i个时间步的隐藏层向量。
根据本发明优选的,所述自注意力层的结构用于学习输入句子的内部单词之间的依赖关系,获取句子结构信息辅助语义知识理解:采用上一层的隐藏层向量集合hi,i∈[1…n]进行输入,经过tanh函数转化为qi,每个qi与其他所有向量都能计算得到相应的权重系数ai,将其加权到本层的初始的输入向量上,并且由于每个词和所有其他词都进行了注意力计算,所以在长距离依赖方面,能够无视词之间的距离直接计算依赖关系,每个单词都会获得添加了上下文信息的新的特征向量μi
Figure BDA0003090092670000043
Figure BDA0003090092670000044
μi=αihi (7)
所述前向注意力层,对于每一个时间步i的新的表示向量μi,将其与前一个时间步向量μi-1做注意力的计算,这种计算的方式对于句子序列的每个词可以有效的获取前项的内容信息,最后把得到的权重作为系数,将g向量集合线性组合成一个向量,用于后续的推断,公式如下,其中ωT,Wδ,V,bδ均为可训练的模型参数:
fi=ωT tanh(Wδμi-1+Vμi+bδ) (8)
Figure BDA0003090092670000045
Figure BDA0003090092670000046
在最后预测向量时,将向量g作为多层感知器网络(MLP)的输入,即
Figure BDA0003090092670000051
其中
Figure BDA0003090092670000052
表示目标单词wunk的向量。
上述技术方案,通过分析数据信息特征提出使用双层注意力机制来对整体语义进行深度挖掘,双层注意力分别包括第一层的自注意力和第二层的前向注意力。在汉语语言中,存在顺序表达的习惯,往往根据前一个字便可推理出后一个字,因此本发明提出了前向注意力层来更加关注每个单词的前向信息,加强对句子语义的理解。
根据本发明优选的,所述向量生成阶段还包括损失函数,利用预测向量和预训练向量之间的欧几里得距离用作损失函数,其中e表示相应目标单词的已知预训练向量,λ表示正则化系数,θ为模型所涉及的参数,||·||2表示L2范数:
Figure BDA0003090092670000053
本技术方案中,所述欧式距离则十分注重数据值上的绝对差异,其中,字符向量的含义与每个维度上的数值都十分相关,因此使用预测向量和预训练向量之间的欧几里得距离用作损失函数。
根据本发明优选的,所述词向量快速生成方法中还包括,通过语义聚合阶段进行模型学习:
对于不同的单词,可用文本的数量通常是不同的,并且随着单词用法的发展其文本数量会增加。为了使学习到的词向量能够灵活更新,提出向量聚合部分来通过一些向量生成一个整体表示。本方案可以以渐进方式将新文本的语义信息融入到已经生成的词向量当中。本方案通过语义聚合阶段对向量生成阶段的多个同一单词的语义向量进行融合,形成语义表达更充分的词向量,其中,语义聚合阶段的输入是向量生成阶段中使用通过k个不同概念文本学习到的k个向量;
通过向量生成阶段,针对同一单词,使用k个不同概念文本学习到的k个词向量,然后将多个词向量组合成一个矩阵Μ∈Rk*d,其中d是向量的维度,由于每个向量只代表了单词的一个语义方面,因此引入交互功能将它们组合在一起,在计算过程中,对所述矩阵Μ的每一列上采用一维CNN来编码,共设置L个滤波器,其中Wl∈Rk*d为第l个滤波器的权重,且参数Wl是在正态分布中随机取值;滤波器的个数在通用场景中通常设置为16-576个;针对本发明使用少量概念文本的前提下,由于训练文本数量不多,因此推荐设置为32-240个之间;在本发明实验过程中,我们将滤波器的个数设置为100;将滤波器Wl应用于每一列生成特征γT,在矩阵Μ的第j列上的运算如下,其中
Figure BDA0003090092670000061
表示矩阵M的第j列的转置,bl表示偏置参数:
Figure BDA0003090092670000062
最大池化层在第j列上得到最终的特征表示
Figure BDA0003090092670000063
Figure BDA0003090092670000064
对于整个矩阵M,使用滤波器的计算结果为m,将m和输入的k个词向量一起输入MLP网络:
Figure BDA0003090092670000065
e*=MLP([e1;e2;…;ek;m]) (15)
其中e*∈Rd为求得的综合语义向量。
根据本发明优选的,所述语义聚合阶段还包括损失函数,利用预测向量和预训练向量之间的欧几里得距离用作损失函数,其中e表示相应目标单词的已知预训练向量,λ表示正则化系数,θ为模型所涉及的参数,||·||2表示L2范数:
Figure BDA0003090092670000066
本技术方案中,所述欧式距离则十分注重数据值上的绝对差异,其中,字符向量的含义与每个维度上的数值都十分相关,因此使用预测向量和预训练向量之间的欧几里得距离用作损失函数。
一种加载有上述方法的系统装置,包括:
供单词输入的用户输入端、向量生成阶段处理模块、语义聚合阶段处理模块和供综合语义向量输出的结果输出模块;
所述用户输入端将单词的词性信息、概念文本、单词的字符序列输入至向量生成阶段模块;在所述向量生成阶段模块按信息流依次为自注意力结构网络层、前向注意力网络层和多层感知机网络层;
所述向量生成阶段模块输出针对单个词汇在不同概念文本的多个词向量;
所述多个词向量作为所述语义聚合阶段模块的输入,所述语义聚合阶段模块按信息流依次为卷积神经网络层和多层感知机网络层;
所述语义聚合阶段模块输出综合语义向量,最终通过结果输出模块输出。
一种加载有上述方法的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现:本发明记载的任一项所述方法的步骤。
一种加载有上述方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
本发明公开一种利用上述方法的应用方法:脱离大规模学习语料,针对少量的概念文本学习得到词向量。
本发明的技术效果:
1、相较于传统方法,本发明所使用的词向量学习方法,可以脱离大规模学习语料,只使用少量的概念文本即可学习到能够较好表示语义的分布式词向量,针对专业领域新词,能够应对关于新词描述语料缺失的问题。
2、相较于传统方法,本发明在向量生成阶段使用了自注意力结构提升对语义的理解,并且使用的符合中文顺序表达习惯的前向注意力成层,加强对前项文字的关注。最后仍然利用了组成字符信息及词性信息提升效果。
3、相较于传统方法,本发明采用了CNN卷积神经网络来对向量进行聚合更新,可以在后续遇到该词描述文本时,更新向量,使其融合更多的语义信息。
附图说明
图1是本发明所述系统结构示意图。
具体实施方式
下面结合实施例和说明书附图做详细的说明,但不限于此。
实施例1、
一种基于概念文本的词向量快速生成方法,包括:对一段分好词后的概念文本,单词的组成字符以及每个单词的词性信息依次进行向量生成阶段处理和语义聚合阶段处理;
其中,所述输入信息在所述向量生成阶段生成输出信息,即分别生成针对单个概念文本的单词向量;
其中,针对同样的单词的多个概念文本的词向量进行语义聚合,最终输出综合语义向量。
所述输入信息还包括单词的组成字符以及每个单词的词性信息。
在向量生成阶段中,使用双层注意力机制对单词字符组件和上下文的信息进行语义编码,最终生成词向量;所述双层注意力机制至少包括自注意力结构网络层和前向注意力网络层。
所述语义聚合阶段采用卷积神经网络对同一单词的由多个概念文本的获得的词向量进行聚合,最终输出综合语义向量。
实施例2、
如实施例1所述的一种基于概念文本的词向量快速生成方法,所述语义聚合阶段还包括使用新概念文本对向量进行更新。
实施例3、
如实施例1、2所述的一种基于概念文本的词向量快速生成方法,所述词向量快速生成方法中还包括,通过向量生成阶段进行模型学习:
其中,向量生成阶段的学习过程包括,首先对单词的组成字符序列进行处理,利用词wunk的字单元c1,c2,…,cn通过双向长短时记忆循环神经网络,即BiLSTM网络编码生成该词汇词向量的初始表示,将词wunk的n个字符分别输入到前向长短时记忆循环神经网络,即LSTM和后向LSTM中,分别取相应的循环神经网络的最后一个时间步的隐藏状态
Figure BDA0003090092670000081
Figure BDA0003090092670000082
作为wunk的前向编码和后向编码,然后将LSTM的前向和后向的隐藏状态连接起来形成wunk的最终词向量的初始化状态
Figure BDA0003090092670000083
将所述初始化状态
Figure BDA0003090092670000084
送到下一层网络中wunk中的位置:
Figure BDA0003090092670000085
Figure BDA0003090092670000086
接下来是对概念文本的处理:对于文本C=w1,w2,…,wunk,…wm,使用另一个BiLSTM进行语句序列编码,以捕获上下文语句内各个词语的相互依赖信息,作为预测词向量的语义信息融入,其中每个BiLSTM神经网络单元都接收单词(所述“单词”是指一段分好词后概念文本中的每一个单词)的词性标注POS信息和单词wi的词向量
Figure BDA0003090092670000087
Figure BDA0003090092670000088
hi=BiLSTMw(ei,hi-1),i∈[1…n] (4)
所述POS信息的类别向量是事先定义好的独热编码,并将wunk的POS信息设置为特定值;对于取所有中间隐藏层向量,作为下一层的输入,其中hi表示第i个时间步的隐藏层向量。
所述自注意力层的结构用于学习输入句子的内部单词之间的依赖关系,获取句子结构信息辅助语义知识理解:采用上一层的隐藏层向量集合hi,i∈[1…n]进行输入,经过tanh函数转化为qi,每个qi与其他所有向量都能计算得到相应的权重系数ai,将其加权到本层的初始的输入向量上,并且由于每个词和所有其他词都进行了注意力计算,所以在长距离依赖方面,能够无视词之间的距离直接计算依赖关系,每个单词都会获得添加了上下文信息的新的特征向量μi
Figure BDA0003090092670000091
Figure BDA0003090092670000092
μi=αihi (7)
所述前向注意力层,对于每一个时间步i的新的表示向量μi,将其与前一个时间步向量μi-1做注意力的计算,这种计算的方式对于句子序列的每个词可以有效的获取前项的内容信息,最后把得到的权重作为系数,将g向量集合线性组合成一个向量,用于后续的推断,公式如下,其中ωT,Wδ,V,bδ均为可训练的模型参数:
fi=ωT tanh(Wδμi-1+Vμi+bδ) (8)
Figure BDA0003090092670000093
Figure BDA0003090092670000094
在最后预测向量时,将向量g作为多层感知器网络(MLP)的输入,即
Figure BDA0003090092670000095
其中
Figure BDA0003090092670000096
表示目标单词wunk的向量。
所述向量生成阶段还包括损失函数,利用预测向量和预训练向量之间的欧几里得距离用作损失函数,其中e表示相应目标单词的已知预训练向量,λ表示正则化系数,θ为模型所涉及的参数,||·||2表示L2范数:
Figure BDA0003090092670000097
实施例4、
如实施例1、2所述的一种基于概念文本的词向量快速生成方法,所述词向量快速生成方法中还包括,通过语义聚合阶段进行模型学习:
通过向量生成阶段,针对同一单词,使用k个不同概念文本学习到的k个词向量,然后将多个词向量组合成一个矩阵Μ∈Rk*d,其中d是向量的维度,由于每个向量只代表了单词的一个语义方面,因此引入交互功能将它们组合在一起,在计算过程中,对所述矩阵Μ的每一列上采用一维CNN来编码,共设置L个滤波器,其中Wl∈Rk*d为第l个滤波器的权重,且参数Wl是在正态分布中随机取值;滤波器的个数在通用场景中通常设置为16-576个;针对本发明使用少量概念文本的前提下,由于训练文本数量不多,因此推荐设置为32-240个之间;在本发明实验过程中,我们将滤波器的个数设置为100;将滤波器Wl应用于每一列生成特征γT,在矩阵Μ的第j列上的运算如下,其中
Figure BDA0003090092670000101
表示矩阵M的第j列的转置,bl表示偏置参数:
Figure BDA0003090092670000102
最大池化层在第j列上得到最终的特征表示
Figure BDA0003090092670000103
Figure BDA0003090092670000104
对于整个矩阵M,使用滤波器的计算结果为m,将m和输入的k个词向量一起输入MLP网络:
Figure BDA0003090092670000105
e*=MLP([e1;e2;…;ek;m]) (15)
其中e*∈Rd为求得的综合语义向量。
所述语义聚合阶段还包括损失函数,利用预测向量和预训练向量之间的欧几里得距离用作损失函数,其中e表示相应目标单词的已知预训练向量,λ表示正则化系数,θ为模型所涉及的参数,||·||2表示L2范数:
Figure BDA0003090092670000106
实施例5、
一种加载有实施例1-4所述方法的系统装置,包括:
供单词输入的用户输入端、向量生成阶段处理模块、语义聚合阶段处理模块和供综合语义向量输出的结果输出模块;
所述用户输入端将单词的词性信息、概念文本、单词的字符序列输入至向量生成阶段模块;在所述向量生成阶段模块按信息流依次为自注意力结构网络层、前向注意力网络层和多层感知机网络层;
所述向量生成阶段模块输出针对单个词汇在不同概念文本的多个词向量;
所述多个词向量作为所述语义聚合阶段模块的输入,所述语义聚合阶段模块按信息流依次为卷积神经网络层和多层感知机网络层;
所述语义聚合阶段模块输出综合语义向量,最终通过结果输出模块输出。
实施例6、
一种加载有上述方法的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现:本发明实施例1-4记载的任一项所述方法的步骤。
实施例7、
一种加载有实施例1-4所述方法的计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
实施例8、
一种利用实施例1-4所述方法的应用方法:脱离大规模学习语料,针对少量的概念文本学习得到词向量。
应用例1、
利用本发明所述方法,以学习单词“人民网”词向量为例,其作为通用向量的快速生成方法如下:
首先进行输入:
输入概念文本序列1:
“mask/是/世界/十大/报纸/之一/人民日报/建设/的/以/新闻/为主/的/大型/网上/信息/交互/平台/也/是/国际/互联网/上/最大/的/综合性/网络媒体/之一”
输入单词组成字符:
“人”/“民”/“网”
输入词性信息序列1:(词性关系映射如表1所示)
“nuk/v/n/j/n/r/n/v/u/f/n/v/u/b/s/n/v/n/d/v/n/n/f/a/u/n/n/r”
表1:词性符号映射表
标注 解释 标注 解释 标注 解释
a 形容词 r 代词 p 介词
b 区别词 t 时间词 f 方位词
c 连词 v 动词 m 数词
d 副词 n 名词 q 量词
将以上所有内容作为输入信息,根据公式(1)-(11)计算,得出“人民网”的300维度的词向量e1=[0.0234,0.1561,-0.2339,…,1.6893]。
接下来继续输入有关单词“人民网”的概念文本,组成字符和词性信息来继续学习该词词向量,输入概念文本序列2:
“mask/是/以/新闻报道/为/主体/的/互联网/作为/国家/重点/新闻/网站/的/排头兵/始终/坚持/权威/实力/源自/人民/的/理念”
输入单词组成字符:
“人”/“民”/“网”
输入词性信息序列2:
“nuk/v/p/n/p/n/u/n/v/n/n/n/n/u/n/d/v/n/n/v/n/u/n”
通过上述相同的过程,得到词向量e2=[0.1103,0.2973,0.0096,…,0.8624]。
输入概念文本序列3:
“mask/作为/国家/重点/新闻/网站/通过/24/小时/发布/权威/新闻/信息/构建/全球化/全/覆盖/的/全/媒体/平台/展现/中国/形象/传播/中国/声音”;
输入单词组成字符:
“人”/“民”/“网”;
输入词性信息序列3:
“nuk/v/n/n/n/n/p/m/n/v/n/n/n/v/n/a/v/u/n/n/n/v/n/n/v/n/n”;
得到词向量e3=[0.6366,-0.1587,0.0369,…,1.2497]。
然后以3组语义聚合,即将e1,e2,e3输入到语义聚合模型中,组合成信息交互矩阵,对每一维度进行卷积操作,得到最终具有更多语义的“人民网”词向量e=[0.8325,0.3669,-0.1051,…,1.0492]
仍然可以继续添加概念文本序列4:
“mask/前身/为/人民日报/网络版/后/正式/进入/国际/互联网/积极/引导/社会舆论/热情服务/广大/网民/发挥/独特/作用”
输入单词组成字符:
“人”/“民”/“网”;
输入词性信息序列4:
“nuk/r/p/n/n/f/a/v/n/n/a/v/l/l/a/n/v/a/v”;
得到词向量e4=[0.2157,-0.0055,-0.1426,…,0.8961]
添加概念文本序列5:
“mask/主营业务/主要/涉及/新闻/信息/采集/及/发布/业务/互联网/广告业/信息/服务业/及/移动/增值/服务”
输入单词组成字符:
“人”/“民”/“网”;
输入词性信息序列5:
“nuk/n/b/v/n/n/v/c/v/n/n/n/n/n/c/v/v/v”;
得到词向量e5=[0.3054,1.1225,0.0108,…,0.9005]
然后再次以5组语义聚合,即将e1,e2,e3,e4,e5输入到语义聚合模型中,组合成信息交互矩阵,对每一维度进行卷积操作,得到最终具有更多语义的“人民网”词向量e*=[0.3607,0.2281,-0.2430,…,0.9243]
通过余弦相似度的计算方式,在预训练词典中查看与其他单词的语义相关性,查看本方法所学到的词向量结果的好坏,实验结果如表2所示:
表2:语义相关性计算结果
Figure BDA0003090092670000131
Figure BDA0003090092670000141
由表2看出,当使用1段概念文本学习得到的词向量最相近的5个单词中只有一个“新华网”属于金标答案,并且“新华网”排序中等,而使用3段概念文本学习3个词向量后,使用语义聚合模块进行融合,得到的最终词向量具有更好的语义表示,可以看出具有“新华网”,“经济网”两个金标答案,且“新华网”排序第一,与金标答案一致,展现了本方法的有效性。当使用5段概念文本时,具有“新华网”,“中广网”,“经济网”三个金标答案中的词汇,这也说明文本的增加会提高词向量的语义相关性。
应用例2、
利用本发明所述方法,以学习生物学专业领域单词“缬氨酸”向量为例,其作为专业领域词向量的快速生成方法如下:
首先进行输入:
输入概念文本序列1:
“mask/为/白色/结晶/无/臭味/微甜/而后/苦/属于/必需/氨基酸/且/具有/疏/水性/”
输入单词组成字符:
“缬”/“氨”/“酸”
输入词性信息序列1:
“unk/p/n/n/v/n/a/c/a/v/v/n/z/v/v/n/”
将以上所有内容作为输入信息,由向量生成阶段模型计算得出“缬氨酸”的300维度的词向量e1=[0.4896,-0.3369,-0.8752,…,0.0018]。
接下来继续输入有关单词“缬氨酸”的概念文本,组成字符和词性信息来继续学习该词词向量,输入概念文本序列2:
“mask/与/其他/两种/高浓度/氨基酸/一起/工作/促进/身体/正常/生长/修复/组织/调节/血糖/并/提供/需要/的/能量”
输入单词组成字符:
“缬”/“氨”/“酸”
输入词性信息序列2:
“nuk/p/r/m/n/n/m/v/v/n/d/n/v/v/v/n/c/v/v/u/n”
通过上述相同的过程,得到缬氨酸词向量e2=[2.6974,0.0024,-1.5975,…,0.0875]。
输入概念文本序列3:
“用/异丁醛/作/原料/有/多种/方法/可/合成/例如/异丁醛/与/氨/生成/氨基/异丁醇/再/与/氰化氢/合成/氨基/异丁腈/然后/水解/得到/mask”;
输入单词组成字符:
“缬”/“氨”/“酸”
输入词性信息序列3:
“p/n/v/n/v/m/n/v/v/v/z/n/p/n/v/n/d/p/n/v/n/n/c/n/v/unk”;
得到词向量e3=[1.2355,-0.1069,-1.1158,…,0.0948]。
本应用例以3组语义聚合,即将e1,e2,e3输入到语义聚合模型中,组合成信息交互矩阵,对每一维度进行卷积操作,得到最终具有更多语义的“缬氨酸”词向量e=[1.1284,0.1503,-0.8085,…,0.1002]。

Claims (10)

1.一种基于概念文本的词向量快速生成方法,其特征在于,包括:对一段分好词后的概念文本,单词的组成字符以及每个单词的词性信息依次进行向量生成阶段处理和语义聚合阶段处理;
其中,所述输入信息在所述向量生成阶段生成输出信息,即分别生成针对单个概念文本的单词向量;
其中,针对同样的单词的多个概念文本的词向量进行语义聚合,最终输出综合语义向量。
2.根据权利要求1所述一种基于概念文本的词向量快速生成方法,其特征在于,所述输入信息还包括单词的组成字符以及每个单词的词性信息;
优选的,在向量生成阶段中,使用双层注意力机制对单词字符组件和上下文的信息进行语义编码,最终生成词向量;优选的,所述双层注意力机制至少包括自注意力结构网络层和前向注意力网络层。
3.根据权利要求1所述一种基于概念文本的词向量快速生成方法,其特征在于,所述语义聚合阶段采用卷积神经网络对同一单词的由多个概念文本的获得的词向量进行聚合,最终输出综合语义向量;
优选的,所述语义聚合阶段还包括使用新概念文本对向量进行更新。
4.根据权利要求1所述一种基于概念文本的词向量快速生成方法,其特征在于,所述词向量快速生成方法中还包括,通过向量生成阶段进行模型学习:
其中,向量生成阶段的学习过程包括,首先对单词的组成字符序列进行处理,利用词wunk的字单元c1,c2,…,cn通过双向长短时记忆循环神经网络,即BiLSTM网络编码生成该词汇词向量的初始表示,将词wunk的n个字符分别输入到前向长短时记忆循环神经网络,即LSTM和后向LSTM中,分别取相应的循环神经网络的最后一个时间步的隐藏状态
Figure FDA0003090092660000011
Figure FDA0003090092660000012
作为wunk的前向编码和后向编码,然后将LSTM的前向和后向的隐藏状态连接起来形成wunk的最终词向量的初始化状态
Figure FDA0003090092660000013
将所述初始化状态
Figure FDA0003090092660000014
送到下一层网络中wunk中的位置:
Figure FDA0003090092660000015
Figure FDA0003090092660000016
接下来是对概念文本的处理:对于文本C=w1,w2,…,wunk,…wm进行语句序列编码,其中每个BiLSTM神经网络单元都接收单词的词性标注POS信息和单词wi的词向量
Figure FDA0003090092660000021
Figure FDA0003090092660000022
hi=BiLSTMw(ei,hi-1),i∈[1…n] (4)
所述POS信息的类别向量是事先定义好的独热编码,并将wunk的POS信息设置为特定值;对于取所有中间隐藏层向量,作为下一层的输入,其中hi表示第i个时间步的隐藏层向量。
5.根据权利要求1所述一种基于概念文本的词向量快速生成方法,其特征在于,所述自注意力层的结构用于学习输入句子的内部单词之间的依赖关系,获取句子结构信息辅助语义知识理解:采用上一层的隐藏层向量集合hi,i∈[1…n]进行输入,经过tanh函数转化为qi,每个qi与其他所有向量都能计算得到相应的权重系数ai,将其加权到本层的初始的输入向量上,并且由于每个词和所有其他词都进行了注意力计算,每个单词都会获得添加了上下文信息的新的特征向量μi
Figure FDA0003090092660000023
Figure FDA0003090092660000024
μi=αihi (7)
所述前向注意力层,对于每一个时间步i的新的表示向量μi,将其与前一个时间步向量μi-1做注意力的计算,最后把得到的权重作为系数,将g向量集合线性组合成一个向量,用于后续的推断,公式如下,其中ωT,Wδ,V,bδ均为可训练的模型参数:
fi=ωTtanh(Wδμi-1+Vμi+bδ) (8)
Figure FDA0003090092660000025
Figure FDA0003090092660000026
在最后预测向量时,将向量g作为多层感知器网络(MLP)的输入,即
Figure FDA0003090092660000027
其中
Figure FDA0003090092660000028
表示目标单词wunk的向量;
优选的,所述向量生成阶段还包括损失函数,利用预测向量和预训练向量之间的欧几里得距离用作损失函数,其中e表示相应目标单词的已知预训练向量,λ表示正则化系数,θ为模型所涉及的参数,||·||2表示L2范数:
Figure FDA0003090092660000031
6.根据权利要求1所述一种基于概念文本的词向量快速生成方法,其特征在于,所述词向量快速生成方法中还包括,通过语义聚合阶段进行模型学习:
通过向量生成阶段,针对同一单词,使用k个不同概念文本学习到的k个词向量,然后将多个词向量组合成一个矩阵Μ∈Rk*d,其中d是向量的维度,在计算过程中,对所述矩阵Μ的每一列上采用一维CNN来编码,共设置L个滤波器,其中Wl∈Rk*d为第l个滤波器的权重,将滤波器Wl应用于每一列生成特征γT,在矩阵Μ的第j列上的运算如下,其中
Figure FDA0003090092660000032
表示矩阵M的第j列的转置,bl表示偏置参数:
Figure FDA0003090092660000033
最大池化层在第j列上得到最终的特征表示
Figure FDA0003090092660000034
Figure FDA0003090092660000035
对于整个矩阵M,使用滤波器的计算结果为m,将m和输入的k个词向量一起输入MLP网络:
Figure FDA0003090092660000036
e*=MLP([e1;e2;…;ek;m]) (15)
其中e*∈Rd为求得的综合语义向量;
优选的,所述语义聚合阶段还包括损失函数,利用预测向量和预训练向量之间的欧几里得距离用作损失函数,其中e表示相应目标单词的已知预训练向量,λ表示正则化系数,θ为模型所涉及的参数,||·||2表示L2范数:
Figure FDA0003090092660000037
7.一种加载有如权1-6任意一项所述方法的系统装置,其特征在于,包括:
供单词输入的用户输入端、向量生成阶段处理模块、语义聚合阶段处理模块和供综合语义向量输出的结果输出模块;
所述用户输入端将单词的词性信息、概念文本、单词的字符序列输入至向量生成阶段模块;在所述向量生成阶段模块按信息流依次为自注意力结构网络层、前向注意力网络层和多层感知机网络层;
所述向量生成阶段模块输出针对单个词汇在不同概念文本的多个词向量;
所述多个词向量作为所述语义聚合阶段模块的输入,所述语义聚合阶段模块按信息流依次为卷积神经网络层和多层感知机网络层;
所述语义聚合阶段模块输出综合语义向量,最终通过结果输出模块输出。
8.一种加载有如权1-6任意一项所述方法的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现:本发明记载的任一项所述方法的步骤。
9.一种加载有如权1-6任意一项所述方法的计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现本发明记载的任一项所述方法的步骤。
10.一种利用如权1-6任意一项所述方法的应用方法:脱离大规模学习语料,针对少量的概念文本学习得到词向量。
CN202110592515.5A 2021-04-27 2021-05-28 一种基于概念文本的词向量快速生成方法和装置 Active CN113268565B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110457070X 2021-04-27
CN202110457070 2021-04-27

Publications (2)

Publication Number Publication Date
CN113268565A true CN113268565A (zh) 2021-08-17
CN113268565B CN113268565B (zh) 2022-03-25

Family

ID=77233411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110592515.5A Active CN113268565B (zh) 2021-04-27 2021-05-28 一种基于概念文本的词向量快速生成方法和装置

Country Status (1)

Country Link
CN (1) CN113268565B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435212A (zh) * 2021-08-26 2021-09-24 山东大学 一种基于规则嵌入的文本推断方法及装置
CN116882496A (zh) * 2023-09-07 2023-10-13 中南大学湘雅医院 一种多级逻辑推理的医学知识库构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN108319583A (zh) * 2017-01-06 2018-07-24 光讯网络科技有限公司 从中文语料库提取知识的方法与系统
JP2018180789A (ja) * 2017-04-07 2018-11-15 日本電信電話株式会社 クエリクラスタリング装置、方法、及びプログラム
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110532395A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于语义嵌入的词向量改进模型的建立方法
US20200311115A1 (en) * 2019-03-29 2020-10-01 Knowtions Research Inc. Method and system for mapping text phrases to a taxonomy
US20210034822A1 (en) * 2018-04-11 2021-02-04 Nippon Telegraph And Telephone Corporation Word vector changing device, method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN108319583A (zh) * 2017-01-06 2018-07-24 光讯网络科技有限公司 从中文语料库提取知识的方法与系统
JP2018180789A (ja) * 2017-04-07 2018-11-15 日本電信電話株式会社 クエリクラスタリング装置、方法、及びプログラム
US20210034822A1 (en) * 2018-04-11 2021-02-04 Nippon Telegraph And Telephone Corporation Word vector changing device, method, and program
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
US20200311115A1 (en) * 2019-03-29 2020-10-01 Knowtions Research Inc. Method and system for mapping text phrases to a taxonomy
CN110532395A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于语义嵌入的词向量改进模型的建立方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435212A (zh) * 2021-08-26 2021-09-24 山东大学 一种基于规则嵌入的文本推断方法及装置
CN113435212B (zh) * 2021-08-26 2021-11-16 山东大学 一种基于规则嵌入的文本推断方法及装置
CN116882496A (zh) * 2023-09-07 2023-10-13 中南大学湘雅医院 一种多级逻辑推理的医学知识库构建方法
CN116882496B (zh) * 2023-09-07 2023-12-05 中南大学湘雅医院 一种多级逻辑推理的医学知识库构建方法

Also Published As

Publication number Publication date
CN113268565B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN113987209B (zh) 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
Soydaner Attention mechanism in neural networks: where it comes and where it goes
CN107291693B (zh) 一种改进词向量模型的语义计算方法
Vinyals et al. Show and tell: A neural image caption generator
CN105631468B (zh) 一种基于rnn的图片描述自动生成方法
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN107247702A (zh) 一种文本情感分析处理方法和系统
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN113268565B (zh) 一种基于概念文本的词向量快速生成方法和装置
CN110991190B (zh) 一种文档主题增强系统、文本情绪预测系统和方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN112309528A (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN115510226A (zh) 一种基于图神经网络的情感分类方法
CN114676259A (zh) 一种基于因果感知交互网络的对话情绪识别方法
Chen et al. Co-attention fusion based deep neural network for Chinese medical answer selection
CN113010655B (zh) 一种机器阅读理解的回答与干扰项生成方法、装置
CN110083842A (zh) 译文质量检测方法、装置、机器翻译系统和存储介质
Chharia et al. Deep recurrent architecture based scene description generator for visually impaired
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN113378574B (zh) 一种基于kgann的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant