CN109885826A - 文本词向量获取方法、装置、计算机设备及存储介质 - Google Patents

文本词向量获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109885826A
CN109885826A CN201910012554.6A CN201910012554A CN109885826A CN 109885826 A CN109885826 A CN 109885826A CN 201910012554 A CN201910012554 A CN 201910012554A CN 109885826 A CN109885826 A CN 109885826A
Authority
CN
China
Prior art keywords
text
term vector
segmentation result
vector
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910012554.6A
Other languages
English (en)
Inventor
郑立颖
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910012554.6A priority Critical patent/CN109885826A/zh
Publication of CN109885826A publication Critical patent/CN109885826A/zh
Priority to PCT/CN2019/118244 priority patent/WO2020143320A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了文本词向量获取方法、装置、计算机设备及存储介质。该方法包括:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。该方法能够将词的主题信息融入到其向量表征中,进一步丰富其信息量,有助于后续自然语言处理任务准确率的提高。

Description

文本词向量获取方法、装置、计算机设备及存储介质
技术领域
本发明涉及语义解析技术领域,尤其涉及一种文本词向量获取方法、装置、计算机设备及存储介质。
背景技术
目前,一般使用深度学习处理文本类数据的时候需要对文本进行分词,进而将词表示为词向量方式作为特征输入;目前已有的词向量表征算法中只考虑到词的相邻词信息,故基于目前已有的词向量表征算法信息量少,识别准确率不高。
发明内容
本发明实施例提供了一种文本词向量获取方法、装置、计算机设备及存储介质,旨在解决现有技术中使用深度学习处理文本类数据的时对文本进行分词,进而将词表示为词向量方式作为特征输入,词向量表征算法信息量少,识别准确率不高的问题。
第一方面,本发明实施例提供了一种文本词向量获取方法,其包括:
接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;
将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及
将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
第二方面,本发明实施例提供了一种文本词向量获取装置,其包括:
词向量获取单元,用于接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;
独热编码单元,用于将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及
最终词向量获取单元,用于将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文本词向量获取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文本词向量获取方法。
本发明实施例提供了一种文本词向量获取方法、装置、计算机设备及存储介质。该方法包括接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。该方法能够将词的主题信息融入到其向量表征中,进一步丰富其信息量,有助于后续自然语言处理任务准确率的提高。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本词向量获取方法的应用场景示意图;
图2为本发明实施例提供的文本词向量获取方法的流程示意图;
图3为本发明实施例提供的文本词向量获取方法的另一流程示意图;
图4为本发明实施例提供的文本词向量获取方法的子流程示意图;
图5为本发明实施例提供的文本词向量获取方法的另一子流程示意图;
图6为本发明实施例提供的文本词向量获取装置的示意性框图;
图7为本发明实施例提供的文本词向量获取装置的另一示意性框图;
图8为本发明实施例提供的文本词向量获取装置的子单元示意性框图;
图9为本发明实施例提供的文本词向量获取装置的另一子单元示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1是本发明实施例提供的文本词向量获取方法的应用场景示意图,图2是本发明实施例提供的文本词向量获取方法的流程示意图,该文本词向量获取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S130。
S110、接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量。
在本实施例中,当用户端上传了待处理文本至服务器时,服务器接收所述待处理文本。之后通过服务器获取所述待处理文本所对应的词向量,以便于后续进行语义分析。
在一实施例中,如图4所示,步骤S110包括:
S111、将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;
S112、通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。
在本实施例中,对所述待处理文本进行分词时,是通过基于概率统计模型的分词方法进行分词。例如,令C=C1C2...Cm,C是待切分的汉字串,令W=W1W2...Wn,W是切分的结果,Wa,Wb,……,Wk是C的所有可能的切分方案。那么,基于概率统计的切分模型就是能够找到目的词串W,使得W满足:P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))的分词模型,上述分词模型得到的词串W即估计概率为最大之词串。
即对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1、w2、…、wi、…、wn;在词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;计算每个候选词的累积概率,同时比较得到每个候选词的最佳左邻词;如果当前词wn是字串S的尾词,且累积概率P(wn)最大,则wn就是S的终点词;从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
当获取了与所述待处理文本对应的分词结果,通过用于将词语转化为向量的Word2Vec模型对所述分词结果中每一分词进行转化,得到与每一分词对应的词向量。其中,Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,能将分词结果中每一词语转化成对应的词向量,具体可将分词结果每一词语都转化为一个k维的行向量。
S120、将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量。
在本实施例中,潜在狄利克雷分布主题模型(Latent Dirichlet Allocation,简记为LDA)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,可认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
对于语料库中的每篇文档,LDA定义了如下生成过程:
1)对每一篇文档,从主题分布中抽取一个主题;
2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
3)重复上述步骤1)-2)过程直至遍历文档中的每一个单词。
语料库中的每一篇文档与T(通过反复试验等方法事先给定)个主题的一个多项分布(multinomialdistribution)相对应,将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为φ。
在一实施例中,如图5所示,步骤S120包括:
S121、获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;
S122、将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。
在本实施例中,独热编码即one-hot编码,其将离散型特征的每一种取值都看成一种状态,若某一特征中有N个不相同的取值,那么就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。举个例子,假设以学历为例,想要研究的类别为小学、中学、大学、硕士、博士五种类别,使用one-hot对其编码就会得到:小学->[1,0,0,0,0];中学->[0,1,0,0,0];大学->[0,0,1,0,0];硕士->[0,0,0,1,0];博士->[0,0,0,0,1]。
故在确定了每个分词对应主题后,可以以主题在词汇表大集合中所对应的词语而得到独热编码向量。
S130、将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
在一实施例中,步骤S130中具体包括:
将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,得到与所述分词结果中每一分词对应的最终词向量。
在本实施例中,将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,而扩展得到的最终词向量,充分考虑到了主题信息并融入到词向量中,有助于后续自然语言处理任务准确率的提高。例如每一主题对应的词向量为1*300的向量,而每一主题对应的独热编码向量为1*10的向量,则将两向量直接拼接后得到一个1*310的向量。一般是主题对应的词向量在前,主题对应的独热编码向量在后。
在一实施例中,如图3所示,步骤S130之后还包括:
S141、将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;
S142、将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;
S143、将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。
在本实施例中,通过服务器获取所述待处理文本所对应的词向量及与主题对应的独热编码向量,以组成与所述待处理文本所对应的最终词向量时,将由多个最终词向量组成的文本矩阵输入至已训练的卷积神经网络模型,得到文本识别向量。通过将文本转化为文本识别向量,有效的提取了待进行情感识别文本的文本特征,便于根据文本特征进行情感识别。
在根据与所述待处理文本对应的最终词向量进行情感识别时,具体如下:将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;将所述文本作为所述已训练的卷积神经网络模型中输入层的输入,得到多个特征图;将多个特征图均输入池化层,得到每一特征图的最大值所对应一维行向量;将每一特征图的最大值所对应一维行向量输入至全连接层,得到与所述待进行情感识别文本对应的文本识别向量。
在本实施例中,将分词结果中各分词对应的词向量从上至下依次排列以得到输入矩阵,将输入矩阵作为已训练的卷积神经网络模型中输入层的输入,得到多个特征图;输入层通过卷积操作得到若干个Feature Map(Feature Map可以理解为特征图),卷积窗口的大小为h×k,其中h表示纵向词语的个数,而k表示向量的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的Feature Map。
在已训练的卷积神经网络模型的池化层中,可采用从上述多个一维的FeatureMap中提出最大的值。通过这种池化方式可以解决可变长度的句子输入问题(因为不管Feature Map中有多少个值,只需要提取其中的最大值),最终池化层的输出为各个FeatureMap的最大值,即一个一维的向量。
在已训练的卷积神经网络模型的全连接层中,全连接层的每一个结点都与上一层的所有结点相连,用于将池化层所提取到的特征综合起来,得到一个1*n的文本识别向量,例如得到一个1*310的文本识别向量。通过卷积神经网络模型能有效提取出待进行情感识别文本中更深层次的特征,使得后续的文本情感识别更加准确。
该方法实现了将词的主题信息融入到其向量表征中,进一步丰富其信息量,有助于后续自然语言处理任务准确率的提高。
本发明实施例还提供一种文本词向量获取装置,该文本词向量获取装置用于执行前述文本词向量获取方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的文本词向量获取装置的示意性框图。该文本词向量获取装置100可以配置于服务器中。
如图6所示,文本词向量获取装置100包括词向量获取单元110、独热编码单元120、最终词向量获取单元130。
词向量获取单元110,用于接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量。
在本实施例中,当用户端上传了待处理文本至服务器时,服务器接收所述待处理文本。之后通过服务器获取所述待处理文本所对应的词向量,以便于后续进行语义分析。
在一实施例中,如图8所示,词向量获取单元110包括:
分词单元111,用于将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;
词向量转化单元112,用于通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。
在本实施例中,对所述待处理文本进行分词时,是通过基于概率统计模型的分词方法进行分词。例如,令C=C1C2...Cm,C是待切分的汉字串,令W=W1W2...Wn,W是切分的结果,Wa,Wb,……,Wk是C的所有可能的切分方案。那么,基于概率统计的切分模型就是能够找到目的词串W,使得W满足:P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))的分词模型,上述分词模型得到的词串W即估计概率为最大之词串。
即对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1、w2、…、wi、…、wn;在词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;计算每个候选词的累积概率,同时比较得到每个候选词的最佳左邻词;如果当前词wn是字串S的尾词,且累积概率P(wn)最大,则wn就是S的终点词;从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
当获取了与所述待处理文本对应的分词结果,通过用于将词语转化为向量的Word2Vec模型对所述分词结果中每一分词进行转化,得到与每一分词对应的词向量。其中,Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,能将分词结果中每一词语转化成对应的词向量,具体可将分词结果每一词语都转化为一个k维的行向量。
独热编码单元120,用于将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量。
在本实施例中,潜在狄利克雷分布主题模型(Latent Dirichlet Allocation,简记为LDA)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,可认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
对于语料库中的每篇文档,LDA定义了如下生成过程:
1)对每一篇文档,从主题分布中抽取一个主题;
2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
3)重复上述步骤1)-2)过程直至遍历文档中的每一个单词。
语料库中的每一篇文档与T(通过反复试验等方法事先给定)个主题的一个多项分布(multinomialdistribution)相对应,将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为φ。
在一实施例中,如图9所示,独热编码单元120包括:
主题获取单元121,用于获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;
独热编码向量获取单元122,用于将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。
在本实施例中,独热编码即one-hot编码,其将离散型特征的每一种取值都看成一种状态,若某一特征中有N个不相同的取值,那么就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。举个例子,假设以学历为例,想要研究的类别为小学、中学、大学、硕士、博士五种类别,使用one-hot对其编码就会得到:小学->[1,0,0,0,0];中学->[0,1,0,0,0];大学->[0,0,1,0,0];硕士->[0,0,0,1,0];博士->[0,0,0,0,1]。
故在确定了每个分词对应主题后,可以以主题在词汇表大集合中所对应的词语而得到独热编码向量。
最终词向量获取单元130,用于将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
在一实施例中,最终词向量获取单元130具体用于:
将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,得到与所述分词结果中每一分词对应的最终词向量。
在本实施例中,将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,而扩展得到的最终词向量,充分考虑到了主题信息并融入到词向量中,有助于后续自然语言处理任务准确率的提高。例如每一主题对应的词向量为1*300的向量,而每一主题对应的独热编码向量为1*10的向量,则将两向量直接拼接后得到一个1*310的向量。一般是主题对应的词向量在前,主题对应的独热编码向量在后。
在一实施例中,如图7所示文本词向量获取装置100还包括:
文本矩阵获取单元141,用于将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;
文本识别向量获取单元142,用于将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;
情感分类单元143,用于将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。
在本实施例中,通过服务器获取所述待处理文本所对应的词向量及与主题对应的独热编码向量,以组成与所述待处理文本所对应的最终词向量时,将由多个最终词向量组成的文本矩阵输入至已训练的卷积神经网络模型,得到文本识别向量。通过将文本转化为文本识别向量,有效的提取了待进行情感识别文本的文本特征,便于根据文本特征进行情感识别。
在根据与所述待处理文本对应的最终词向量进行情感识别时,具体如下:将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;将所述文本作为所述已训练的卷积神经网络模型中输入层的输入,得到多个特征图;将多个特征图均输入池化层,得到每一特征图的最大值所对应一维行向量;将每一特征图的最大值所对应一维行向量输入至全连接层,得到与所述待进行情感识别文本对应的文本识别向量。
在本实施例中,将分词结果中各分词对应的词向量从上至下依次排列以得到输入矩阵,将输入矩阵作为已训练的卷积神经网络模型中输入层的输入,得到多个特征图;输入层通过卷积操作得到若干个Feature Map(Feature Map可以理解为特征图),卷积窗口的大小为h×k,其中h表示纵向词语的个数,而k表示向量的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的Feature Map。
在已训练的卷积神经网络模型的池化层中,可采用从上述多个一维的FeatureMap中提出最大的值。通过这种池化方式可以解决可变长度的句子输入问题(因为不管Feature Map中有多少个值,只需要提取其中的最大值),最终池化层的输出为各个FeatureMap的最大值,即一个一维的向量。
在已训练的卷积神经网络模型的全连接层中,全连接层的每一个结点都与上一层的所有结点相连,用于将池化层所提取到的特征综合起来,得到一个1*n的文本识别向量,例如得到一个1*310的文本识别向量。通过卷积神经网络模型能有效提取出待进行情感识别文本中更深层次的特征,使得后续的文本情感识别更加准确。
该装置实现了将词的主题信息融入到其向量表征中,进一步丰富其信息量,有助于后续自然语言处理任务准确率的提高。
上述文本词向量获取装置可以实现为计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器。其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行文本词向量获取方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行文本词向量获取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
在一实施例中,处理器502在执行所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量的步骤之后,还执行如下操作:将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。
在一实施例中,处理器502在执行所述将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量的步骤时,执行如下操作:将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。
在一实施例中,处理器502在执行所述将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量的步骤时,执行如下操作:获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。
在一实施例中,处理器502在执行所述所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量的步骤时,执行如下操作:将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,得到与所述分词结果中每一分词对应的最终词向量。
本领域技术人员可以理解,图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
在一实施例中,所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量之后,还包括:将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。
在一实施例中,所述将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量,包括:将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。
在一实施例中,所述将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量,包括:获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。
在一实施例中,所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量,包括:将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,得到与所述分词结果中每一分词对应的最终词向量。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本词向量获取方法,其特征在于,包括:
接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;
将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及
将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
2.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量之后,还包括:
将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;
将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;
将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。
3.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量,包括:
将所述待处理文本通过基于概率统计分词模型进行分词,得到与所述待处理文本对应的分词结果;
通过用于将单词转化为向量的Word2Vec模型获取所述分词结果中各分词对应的词向量。
4.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量,包括:
获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;
将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。
5.根据权利要求1所述的文本词向量获取方法,其特征在于,所述将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量,包括:
将所述分词结果中每一分词对应的独热编码向量拼接至相应的词向量的头部或尾部,得到与所述分词结果中每一分词对应的最终词向量。
6.一种文本词向量获取装置,其特征在于,包括:
词向量获取单元,用于接收待处理文本,将所述待处理文本进行分词及词向量转化,得到与所述待处理文本进行分词得到的分词结果中各分词对应的词向量;
独热编码单元,用于将所述分词结果中各分词对应的词向量根据潜在狄利克雷分布主题模型对应转化为独热编码向量;以及
最终词向量获取单元,用于将所述分词结果中每一分词对应的独热编码向量与相应的词向量进行拼接,得到与所述分词结果中每一分词对应的最终词向量。
7.根据权利要求6所述的文本词向量获取装置,其特征在于,还包括:
文本矩阵获取单元,用于将所述分词结果中每一分词对应的最终词向量从上至下进行组合得到文本矩阵;
文本识别向量获取单元,用于将所述文本矩阵输入至已训练的卷积神经网络模型,得到所述待处理文本对应的文本识别向量;
情感分类单元,用于将所述文本识别向量作为文本情感分类器的输入以进行分类,得到文本情感识别结果。
8.根据权利要求6所述的文本词向量获取装置,其特征在于,所述独热编码单元,包括:
主题获取单元,用于获取所述分词结果,将所述分词结果中每一分词作为根据语料库预先训练所得到的潜在狄利克雷分布主题模型的输入,得到与所述分词结果中每一分词对应的主题;
独热编码向量获取单元,用于将所述分词结果中每一分词的主题分别进行独热编码,得到与所述分词结果中各分词一一对应的独热编码向量。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的文本词向量获取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的文本词向量获取方法。
CN201910012554.6A 2019-01-07 2019-01-07 文本词向量获取方法、装置、计算机设备及存储介质 Pending CN109885826A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910012554.6A CN109885826A (zh) 2019-01-07 2019-01-07 文本词向量获取方法、装置、计算机设备及存储介质
PCT/CN2019/118244 WO2020143320A1 (zh) 2019-01-07 2019-11-14 文本词向量获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910012554.6A CN109885826A (zh) 2019-01-07 2019-01-07 文本词向量获取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109885826A true CN109885826A (zh) 2019-06-14

Family

ID=66925624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910012554.6A Pending CN109885826A (zh) 2019-01-07 2019-01-07 文本词向量获取方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109885826A (zh)
WO (1) WO2020143320A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532381A (zh) * 2019-07-15 2019-12-03 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
CN110852112A (zh) * 2019-11-08 2020-02-28 语联网(武汉)信息技术有限公司 词向量嵌入方法及装置
CN111178054A (zh) * 2019-12-05 2020-05-19 国网浙江省电力有限公司杭州供电公司 基于神经网络语言模型向量化的文本处理方法
WO2020143320A1 (zh) * 2019-01-07 2020-07-16 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
WO2021000391A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 文本智能化清洗方法、装置及计算机可读存储介质
CN112396484A (zh) * 2019-08-16 2021-02-23 阿里巴巴集团控股有限公司 商品的验证方法及装置、存储介质和处理器
CN112580358A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 文本信息提取方法、装置、存储介质及设备
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645539B2 (en) * 2019-07-22 2023-05-09 Vmware, Inc. Machine learning-based techniques for representing computing processes as vectors
US11928466B2 (en) 2021-07-14 2024-03-12 VMware LLC Distributed representations of computing processes and events

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878347A (zh) * 2017-04-28 2017-06-20 北京奇虎科技有限公司 信息处理方法、系统、移动终端和服务器
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108491529A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN108563638A (zh) * 2018-04-13 2018-09-21 武汉大学 一种基于主题识别和集成学习的微博情感分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542477B2 (en) * 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN107220232B (zh) * 2017-04-06 2021-06-11 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN108121699B (zh) * 2017-12-21 2021-10-22 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108595425A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于主题与语义的对话语料关键词抽取方法
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878347A (zh) * 2017-04-28 2017-06-20 北京奇虎科技有限公司 信息处理方法、系统、移动终端和服务器
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108491529A (zh) * 2018-03-28 2018-09-04 百度在线网络技术(北京)有限公司 信息推荐方法及装置
CN108563638A (zh) * 2018-04-13 2018-09-21 武汉大学 一种基于主题识别和集成学习的微博情感分析方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143320A1 (zh) * 2019-01-07 2020-07-16 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
WO2021000391A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 文本智能化清洗方法、装置及计算机可读存储介质
CN110532381A (zh) * 2019-07-15 2019-12-03 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
CN110532381B (zh) * 2019-07-15 2023-09-26 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
CN112396484A (zh) * 2019-08-16 2021-02-23 阿里巴巴集团控股有限公司 商品的验证方法及装置、存储介质和处理器
CN112580358A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 文本信息提取方法、装置、存储介质及设备
WO2021063060A1 (zh) * 2019-09-30 2021-04-08 北京国双科技有限公司 文本信息提取方法、装置、存储介质及设备
CN110852112A (zh) * 2019-11-08 2020-02-28 语联网(武汉)信息技术有限公司 词向量嵌入方法及装置
CN110852112B (zh) * 2019-11-08 2023-05-05 语联网(武汉)信息技术有限公司 词向量嵌入方法及装置
CN111178054A (zh) * 2019-12-05 2020-05-19 国网浙江省电力有限公司杭州供电公司 基于神经网络语言模型向量化的文本处理方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置

Also Published As

Publication number Publication date
WO2020143320A1 (zh) 2020-07-16

Similar Documents

Publication Publication Date Title
CN109885826A (zh) 文本词向量获取方法、装置、计算机设备及存储介质
JP6799800B2 (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN108287858B (zh) 自然语言的语义提取方法及装置
CN106847288B (zh) 语音识别文本的纠错方法与装置
CN110110330B (zh) 基于文本的关键词提取方法和计算机设备
WO2018207723A1 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN104462363B (zh) 评论点的展现方法和装置
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
CN109657051A (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN108509413A (zh) 文摘自动提取方法、装置、计算机设备及存储介质
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
CN109711465B (zh) 基于mll和asca-fr的图像字幕生成方法
CN107193807A (zh) 基于人工智能的语言转换处理方法、装置及终端
CN108090400A (zh) 一种图像文本识别的方法和装置
CN113312453B (zh) 一种面向跨语言对话理解的模型预训练系统
CN109857864A (zh) 文本情感分类方法、装置、计算机设备及存储介质
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN112507039A (zh) 基于外部知识嵌入的文本理解方法
CN110377905A (zh) 语句的语义表示处理方法及装置、计算机设备及可读介质
CN103853792B (zh) 一种图片语义自动标注方法与系统
CN111241829A (zh) 一种基于神经网络的智能歌词修改方法及辅助系统
CN103608805B (zh) 辞典产生装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination