CN110909550A - 文本处理方法、装置、电子设备和可读存储介质 - Google Patents

文本处理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN110909550A
CN110909550A CN201911106399.0A CN201911106399A CN110909550A CN 110909550 A CN110909550 A CN 110909550A CN 201911106399 A CN201911106399 A CN 201911106399A CN 110909550 A CN110909550 A CN 110909550A
Authority
CN
China
Prior art keywords
sequence
target text
word
semantic
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911106399.0A
Other languages
English (en)
Other versions
CN110909550B (zh
Inventor
董毅
翟佳
陈�峰
彭实
谢晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Environmental Features
Original Assignee
Beijing Institute of Environmental Features
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Environmental Features filed Critical Beijing Institute of Environmental Features
Priority to CN201911106399.0A priority Critical patent/CN110909550B/zh
Publication of CN110909550A publication Critical patent/CN110909550A/zh
Application granted granted Critical
Publication of CN110909550B publication Critical patent/CN110909550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及一种文本处理方法、装置、电子设备和计算机可读存储介质,文本处理方法包括:获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。本申请提供的文本处理方法可以更准确地表达目标文本的语义。

Description

文本处理方法、装置、电子设备和可读存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种文本处理方法、装置、电子设备和可读存储介质。
背景技术
在自然语言处理任务中,词向量能够有效捕捉单词的上下文的语义信息以及语法信息,实现单词向量化表示,是计算机理解人类语言的桥梁,为了将文本表示成计算机可以理解和易于处理的数据,通常需要将文本转化为向量。
目前,通常直接采用一种算法文本进行转化,例如,直接用Word2Vec模型对文本进行转化,转化后得到的语义往往不够准确。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。
本申请的目的通过如下技术方案实现:
第一方面,提供了一种文本处理方法,该方法包括:
获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;
分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;
获取关键词序列中各个关键词的向量,以构建词向量矩阵;
通过预设的随机梯度下降算法获取目标文本的语义权重参数矩阵;
根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量。
在第一方面的可选实施例中,获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列,包括:
获取目标文本,基于预设的语言处理算法对目标文本进行词性还原、词语去重以及去停用词,得到目标文本序列;
基于预设的训练后的主题生成算法,从目标文本序列中提取出主题词序列。
在第一方面的可选实施例中,分别获取目标文本序列中各个词语与主题词序列之间的语义距离,包括:
基于预设的向量生成模型,获取目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
分别获取各个词向量和主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
基于匹配度序列获取目标文本序列中各个词语与主题词序列之间的语义距离。
在第一方面的可选实施例中,根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量,包括:
将词向量矩阵和语义权重参数矩阵相乘,得到语义向量。
第二方面,提供了一种文本处理装置,该装置包括:
提取模块,用于获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;
距离获取模块,用于分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;
构建模块,用于获取关键词序列中各个关键词的向量,以构建词向量矩阵;
矩阵获取模块,用于通过预设的随机梯度下降算法获取目标文本的语义权重参数矩阵;
向量获取模块,用于根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量。
在第二方面的可选实施例中,提取模块在获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列时,具体用于:
获取目标文本,基于预设的语言处理算法对目标文本进行词性还原、词语去重以及去停用词,得到目标文本序列;
基于预设的训练后的主题生成算法,从目标文本序列中提取出主题词序列。
在第二方面的可选实施例中,距离获取模块在分别获取目标文本序列中各个词语与主题词序列之间的语义距离时,具体用于:
基于预设的向量生成模型,获取目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
分别获取各个词向量和主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
基于匹配度序列获取目标文本序列中各个词语与主题词序列之间的语义距离。
在第二方面的可选实施例中,向量获取模块在根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量时,具体用于:
将词向量矩阵和语义权重参数矩阵相乘,得到语义向量。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行实现本申请第一方面所示的文本处理方法。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请第一方面所示的文本处理方法。
本申请提供的技术方案带来的有益效果是:
在本公开实施例的方案中,通过获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;获取关键词序列中各个关键词的向量,以构建词向量矩阵;通过预设的随机梯度下降算法获取目标文本的语义权重参数矩阵;根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量。既能捕捉到单词的语义和句法信息,又能兼顾单词在不同语境中可能表达不同含义的情况,得到的语义向量可以更准确地表达目标文本的语义。
进一步的,采用LDA算法提取出短文本中的语义关键词,减少对短文本语义表达无关的词的干扰,同时降低后续语义权重训练过程中计算冗余。
进一步的,将随机梯度下降算法作为语义关键词权重参数的优化算法,以实现根据语义关键词在短文本语义表达中的重要程度而赋予其相应的权重,从而更加准确表达目标文本的语义。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本处理方法的流程示意图;
图2为本申请实施例提供的一种LDA算法示意图;
图3为本申请实施例提供的一种文本处理装置的结构示意图;
图4为本申请实施例提供的一种文本处理的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的文本处理方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种文本处理方法,如图1所示,该方法包括:
步骤S101,获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列。
其中,目标文本可以是语句、段落等形式的文本。
具体的,获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列可以包括:
(1)获取目标文本,基于预设的自然语言处理算法对所述目标文本进行词性还原、词语去重以及去停用词,得到所述目标文本序列;
(2)基于预设的训练后的主题生成算法,从所述目标文本序列中提取出所述主题词序列。
在具体实施过程中,对于目标文本Text(w1,w2,…,wN),N表示组成短文本的单词总数,预设的语言处理算法可以是斯坦福大学的自然语言处理工具Stanford-Parser,对目标文本词性还原、词语去重、去停用词,得到目标文本序列Sequenceword(s1,s2,…,sM),其中M是词序列中所含单词数量且M≤N。
具体的,主题生成算法可以是LDA(Latent Dirichlet Allocation,隐狄利克雷分配模型)算法,得到的主题词序列可以看做是对短文本语义信息的高度总结表达。
步骤S102,分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列。
在具体实施过程中,通过已训练的LDA模型得到相应目标文本的主题词序列Sequencetopic(t1,t2,…,tK),其中,K表示主题词个数;通过目标文本中各个词语sm与Sequencetopic之间的语义距离大小确定目标文本的关键词序列Sequencefeatures(f1,f2,…,fH),其中,H表示关键词总数。
LDA模型是一个包含单词、主题和文档三层结构的贝叶斯无监督的概率模型,能够对文档数据集潜在的主题信息进行建模。该模型做了如下假设:每个单词是从一个潜在主题中抽取出来的,每篇文章是主题的概念分布,而每个主题则是单词的概率分布。
如图2所示是LDA的图模型,其中,V表示训练语料中的词典数,M表示训练语料中的文档数目,Nm表示训练语料中的第m篇文档中单词总数,K表示主题数;θm表示第m篇文档中所有主题的概率分布,Zm,n表示第m篇文档的第n个主题,Wm,n表示第m篇文档的第n个词,
Figure BDA0002271439610000071
表示第K个主题中所有单词的概率分布;θm是超参α的Dirichulet先验分布,记做θm~Dirichulet(α),
Figure BDA0002271439610000072
是超参β的Dirichulet先验分布,记做
Figure BDA0002271439610000073
LDA主题模型的目的是找到文档中潜在的主题,由图2可知,首先根据Dirichulet先验分布Dirichulet(α)得到该文档的主题概率分布θm(m=1,2,…M),然后,根据Dirichulet先验分布得到该篇文档中每个潜在主题词的概率分布
Figure BDA0002271439610000074
(k=1,2,…,K)。也就是说,对于任意一篇文档Dm(m=1,2,…,M)中的每一个单词Wm,n(n=1,2,…)的生成过程:从该文档所对应的多项分布Multi(θm)中抽取一个主题Zm,n,然后我们再从主题Zm,n所对应的多项分布
Figure BDA0002271439610000075
中抽取一个单词Zm,n。若将该过程重复Nm遍,就产生了文档Dm
步骤S103,获取所述关键词序列中各个关键词的向量,以构建词向量矩阵。
具体的,运用已训练完成的ELMO(Embeddings from Language Models)模型得到seqfeatures中各元素的词向量构建词向量矩阵G=[vec1,vec2,...,vecJ]T
其中,ELMO是一种新型深度语境化词表征,可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模(即对多义词进行建模)。ELMO既能捕捉到单词的语义和句法信息,又能兼顾单词在不同语境中可能表达不同含义的情况。与主流的词向量模型Word2Vec相比,其解决了一词多义的问题能够获取更精准的单词向量表示。该模型的特点是:每一个词语表示均是整个输入语句的函数。具体做法就是先在大语料上以语言模型为目标训练出双向长短时记忆网络模型(bi-lstm),然后利用LSTM产生词语的语义表征向量。那么,为了应用在下游的NLP任务中,一般先利用下游任务的语料库进行语言模型的微调,而微调即是一种领域转移;然后才利用标签信息进行监督学习。
ELMO表征是“深”的,即它们是biLM的所有层的内部表征的函数而采用这种方式则是为了获得更丰富的词语表征。高层的LSTM的状态可以捕捉到词语语义中与语境相关的那部分特征,而低层的LSTM可以则能够捕捉到语法方面的特征。
步骤S104,通过预设的语义权重参数寻优算法获取所述目标文本的语义权重参数矩阵。
其中,预设的语义权重参数寻优算法可以是随机梯度下降SGD算法。
步骤S105,根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。
具体的,可以将所述词向量矩阵和所述语义权重参数矩阵相乘,得到所述语义向量。
上述的文本处理方法,通过获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;获取关键词序列中各个关键词的向量,以构建词向量矩阵;通过随机梯度下降算法获取目标文本的语义权重参数矩阵;根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量。
本申请实施例中提供了一种可能的实现方式,步骤S102的分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,可以包括:
(1)基于预设的向量生成模型,获取所述目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
(2)分别获取各个词向量和所述主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
(3)基于所述匹配度序列获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离。
具体的,通过ELMO模型得到sm的词向量vm和主题词序列Sequencetopic中各主题词向量组成的主题词向量序列Seqvec(vec1,vec2,...,vecK),然后,vm与Seqvec中的各元素计算匹配度,其计算公式如下:
Figure BDA0002271439610000091
由此,得到匹配度序列
Figure BDA0002271439610000094
(matm1,matm2,...,matmK),然后,计算sm与Sequencetopic的语义距离dism,其计算公式如下:
Figure BDA0002271439610000092
其中,q取H的15%,经过多次实验验证H取20,并且Sequencefeatures中的词语是按照其与主题词的语义距离的大小降序排列的。
具体的,对于Sequencefeatures(f1,f2,…,fH),通过已训练的ELMO模型得到各个语义关键词的向量表示Vec(vf1,vf2,...,vfH),接下来,将vfh与其对应的权重因子βh相乘,最后,把各项求和取平均得到短文本Text的特征向量V。计算公式如(3)所示:
Figure BDA0002271439610000093
为了学习上式(3)中的权重因子βh,本申请定义了一个损失函数。对于任意一对短文本对P(V1,V2),如果P是语义相关的,则最大化P中短文本间的语义相关度;如果P是语义不相关的,则最小化P中短文本间的语义相关度:
Figure BDA0002271439610000101
其中,SC(·)是用来衡量两个短文本语义距离的函数,本文采用短文本特征向量的余弦值来衡量二者的语义距离:
Figure BDA0002271439610000102
本申请构建了如下的语义权重因子的目标函数:
Figure BDA0002271439610000103
其中,D由短文本对组成,λ∈[0,1]其中语义相关的短文本对的数量与非语义相关的短文本对数量相同,|D|表示短文本对的总数。
以下将结合试验数据进一步详细阐述本申请的文本处理方法的效果。
本次实验中采用的测试数据分别来自SemEval Twitter task和SemEval语义相关性任务。对比方法采用Word2Vec_IDF即采用Word2Vec词向量与IDF语义权重的方式构建短文本相似度,本发明所述算法分别采用3072、1024维ELMO词向量,分别记为STRM-KS_1024、STRM-KS_3072。
其中:
ELMO:该模型来自ELMO官网(https://allennlp.org/elmo),包括两个类型的模型ELMO,那么,ELMO的训练语料分别来自维基百科(1.9B)和WMT 2008-2012(3.6B),本文采用的ELMO词向量的维数分别是3072和1024。
Word2Vec:(https://code.google.com/archive/p/word2vec/),该模型来自其官网,其训练数据来自谷歌新闻数据集(1亿个单词),Word2Vec词向量的维数是300.
LDA模型训练数据采用了自维基百科语料库,其中SGD训练语料采用了SemEval语义文本相似度任务(2012-2015)数据集。
实验结果如下表1所示:
表格1实验结果
算法 准确率
Word2Vec_IDF 81.42%
STRM-KS_1024 86.37%
STRM-KS_3072 87.11%
由上述实验数据可知,本申请提供的文本处理方法,对比常用的文本处理的算法,用于文本相似度计算时,准确率明显更高。
上述的文本处理方法,通过获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;获取关键词序列中各个关键词的向量,以构建词向量矩阵;通过预设的随机梯度下降算法获取目标文本的语义权重参数矩阵;根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量。
进一步的,采用LDA算法提取出短文本中的语义关键词,减少对短文本语义表达无关的词的干扰,同时降低后续语义权重训练过程中计算冗余。
进一步的,将随机梯度下降算法作为语义关键词权重参数的优化算法,以实现根据语义关键词在短文本语义表达中的重要程度而赋予其相应的权重,从而更加准确表达目标文本的语义。
本申请实施例提供了一种文本处理装置30,如图3所示,该文本处理装置30可以包括:提取模块301、距离获取模块302、构建模块303、矩阵获取模块304和向量获取模块305,其中,
提取模块301,用于获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;
距离获取模块302,用于分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;
构建模块303,用于获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;
矩阵获取模块304,用于通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;
向量获取模块305,用于根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。
上述的文本处理装置,通过获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列;分别获取目标文本序列中各个词语与主题词序列之间的语义距离,基于语义距离确定目标文本的关键词序列;获取关键词序列中各个关键词的向量,以构建词向量矩阵;通过预设的随机梯度下降算法获取目标文本的语义权重参数矩阵;根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量。既能捕捉到单词的语义和句法信息,又能兼顾单词在不同语境中可能表达不同含义的情况,得到的语义向量可以更准确地表达目标文本的语义。
本申请实施例中提供了一种可能的实现方式,提取模块301在获取目标文本的目标文本序列,从目标文本序列中提取出主题词序列时,具体用于:
获取目标文本,基于预设的语言处理算法对目标文本进行词性还原、词语去重以及去停用词,得到目标文本序列;
基于预设的训练后的主题生成算法,从目标文本序列中提取出主题词序列。
在第二方面的可选实施例中,距离获取模块302在分别获取目标文本序列中各个词语与主题词序列之间的语义距离时,具体用于:
基于预设的向量生成模型,获取目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
分别获取各个词向量和主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
基于匹配度序列获取目标文本序列中各个词语与主题词序列之间的语义距离。
在第二方面的可选实施例中,向量获取模块305在根据词向量矩阵和语义权重参数矩阵获取目标文本的语义向量时,具体用于:
将词向量矩阵和语义权重参数矩阵相乘,得到语义向量。
本公开实施例的图片的文本处理装置可执行本公开的实施例所提供的一种图片的文本处理方法,其实现原理相类似,本公开各实施例中的图片的文本处理装置中的各模块所执行的动作是与本公开各实施例中的图片的文本处理方法中的步骤相对应的,对于图片的文本处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的文本处理方法中的描述,此处不再赘述。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的方法。与现有技术相比,本申请中的电子设备得到的语义向量可以更准确地表达目标文本的语义。
在一个可选实施例中提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请提供的计算机可读存储介质得到的语义向量可以更准确地表达目标文本的语义。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,提取模块还可以被描述为“用于提取主题词序列的模块”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;
分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;
获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;
通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;
根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。
2.根据权利要求1所述的文本处理方法,其特征在于,所述获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列,包括:
获取目标文本,基于预设的语言处理算法对所述目标文本进行词性还原、词语去重以及去停用词,得到所述目标文本序列;
基于预设的训练后的主题生成算法,从所述目标文本序列中提取出所述主题词序列。
3.根据权利要求1所述的文本处理方法,其特征在于,所述分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,包括:
基于预设的向量生成模型,获取所述目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
分别获取各个词向量和所述主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
基于所述匹配度序列获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离。
4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量,包括:
将所述词向量矩阵和所述语义权重参数矩阵相乘,得到所述语义向量。
5.一种文本处理装置,其特征在于,包括:
提取模块,用于获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列;
距离获取模块,用于分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离,基于所述语义距离确定所述目标文本的关键词序列;
构建模块,用于获取所述关键词序列中各个关键词的向量,以构建词向量矩阵;
矩阵获取模块,用于通过预设的随机梯度下降算法获取所述目标文本的语义权重参数矩阵;
向量获取模块,用于根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量。
6.根据权利要求5所述的文本处理装置,其特征在于,所述提取模块在获取目标文本的目标文本序列,从所述目标文本序列中提取出主题词序列时,具体用于:
获取目标文本,基于预设的语言处理算法对所述目标文本进行词性还原、词语去重以及去停用词,得到所述目标文本序列;
基于预设的训练后的主题生成算法,从所述目标文本序列中提取出所述主题词序列。
7.根据权利要求5所述的文本处理装置,其特征在于,所述距离获取模块在分别获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离时,具体用于:
基于预设的向量生成模型,获取所述目标文本序列中各个词语的词向量,并获取主题词序列的主题词向量序列;
分别获取各个词向量和所述主题词向量序列中的各个主题词向量之间的匹配度,得到匹配度序列;
基于所述匹配度序列获取所述目标文本序列中各个词语与所述主题词序列之间的语义距离。
8.根据权利要求5所述的文本处理装置,其特征在于,所述向量获取模块在根据所述词向量矩阵和所述语义权重参数矩阵获取所述目标文本的语义向量时,具体用于:
将所述词向量矩阵和所述语义权重参数矩阵相乘,得到所述语义向量。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~4任一项所述的文本处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4任一项所述的文本处理方法。
CN201911106399.0A 2019-11-13 2019-11-13 文本处理方法、装置、电子设备和可读存储介质 Active CN110909550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911106399.0A CN110909550B (zh) 2019-11-13 2019-11-13 文本处理方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911106399.0A CN110909550B (zh) 2019-11-13 2019-11-13 文本处理方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN110909550A true CN110909550A (zh) 2020-03-24
CN110909550B CN110909550B (zh) 2023-11-03

Family

ID=69817568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911106399.0A Active CN110909550B (zh) 2019-11-13 2019-11-13 文本处理方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN110909550B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475775A (zh) * 2020-04-14 2020-07-31 腾讯科技(深圳)有限公司 图形处理器的数据处理方法、文本处理方法、装置和设备
CN112016296A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN112164403A (zh) * 2020-09-27 2021-01-01 江苏四象软件有限公司 一种基于人工智能的自然语言处理系统
CN112560457A (zh) * 2020-12-04 2021-03-26 上海风秩科技有限公司 基于非监督的文本去噪方法、系统、电子设备及存储介质
CN112685574A (zh) * 2021-01-06 2021-04-20 南京大学 领域术语层次关系的确定方法、装置
CN112749256A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 文本处理方法、装置、设备及存储介质
CN113011178A (zh) * 2021-03-29 2021-06-22 广州博冠信息科技有限公司 文本生成方法、文本生成装置、电子设备及存储介质
CN113191158A (zh) * 2021-05-21 2021-07-30 润联软件系统(深圳)有限公司 基于Voronoi图的训练样本遮掩方法、装置及相关设备
CN113836937A (zh) * 2021-09-23 2021-12-24 平安普惠企业管理有限公司 基于比较模型的文本处理方法、装置、设备与存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161071A1 (en) * 2009-12-24 2011-06-30 Metavana, Inc. System and method for determining sentiment expressed in documents
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及系统
CN108681557A (zh) * 2018-04-08 2018-10-19 中国科学院信息工程研究所 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
US20180307680A1 (en) * 2015-12-29 2018-10-25 Guangzhou Shenma Mobile Information Technology Co., Ltd. Keyword recommendation method and system based on latent dirichlet allocation model
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110321925A (zh) * 2019-05-24 2019-10-11 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161071A1 (en) * 2009-12-24 2011-06-30 Metavana, Inc. System and method for determining sentiment expressed in documents
CN104360994A (zh) * 2014-12-04 2015-02-18 科大讯飞股份有限公司 自然语言理解方法及系统
US20180307680A1 (en) * 2015-12-29 2018-10-25 Guangzhou Shenma Mobile Information Technology Co., Ltd. Keyword recommendation method and system based on latent dirichlet allocation model
CN108681557A (zh) * 2018-04-08 2018-10-19 中国科学院信息工程研究所 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN110321925A (zh) * 2019-05-24 2019-10-11 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马晓军;郭剑毅;王红斌;张志坤;线岩团;余正涛;: "融合词向量和主题模型的领域实体消歧", no. 12 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475775A (zh) * 2020-04-14 2020-07-31 腾讯科技(深圳)有限公司 图形处理器的数据处理方法、文本处理方法、装置和设备
CN111475775B (zh) * 2020-04-14 2023-09-15 腾讯科技(深圳)有限公司 图形处理器的数据处理方法、文本处理方法、装置和设备
CN112016296B (zh) * 2020-09-07 2023-08-25 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN112016296A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN112164403A (zh) * 2020-09-27 2021-01-01 江苏四象软件有限公司 一种基于人工智能的自然语言处理系统
CN112560457A (zh) * 2020-12-04 2021-03-26 上海风秩科技有限公司 基于非监督的文本去噪方法、系统、电子设备及存储介质
CN112560457B (zh) * 2020-12-04 2024-03-12 上海秒针网络科技有限公司 基于非监督的文本去噪方法、系统、电子设备及存储介质
CN112749256A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 文本处理方法、装置、设备及存储介质
CN112685574A (zh) * 2021-01-06 2021-04-20 南京大学 领域术语层次关系的确定方法、装置
CN112685574B (zh) * 2021-01-06 2024-04-09 南京大学 领域术语层次关系的确定方法、装置
CN113011178A (zh) * 2021-03-29 2021-06-22 广州博冠信息科技有限公司 文本生成方法、文本生成装置、电子设备及存储介质
CN113191158B (zh) * 2021-05-21 2021-10-26 润联软件系统(深圳)有限公司 基于Voronoi图的训练样本遮掩方法、装置及相关设备
CN113191158A (zh) * 2021-05-21 2021-07-30 润联软件系统(深圳)有限公司 基于Voronoi图的训练样本遮掩方法、装置及相关设备
CN113836937A (zh) * 2021-09-23 2021-12-24 平安普惠企业管理有限公司 基于比较模型的文本处理方法、装置、设备与存储介质
CN113836937B (zh) * 2021-09-23 2023-11-10 上海瑞释信息科技有限公司 基于比较模型的文本处理方法、装置、设备与存储介质

Also Published As

Publication number Publication date
CN110909550B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN110909550B (zh) 文本处理方法、装置、电子设备和可读存储介质
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN107066464B (zh) 语义自然语言向量空间
US11775761B2 (en) Method and apparatus for mining entity focus in text
US11550871B1 (en) Processing structured documents using convolutional neural networks
US10592607B2 (en) Iterative alternating neural attention for machine reading
US20110184981A1 (en) Personalize Search Results for Search Queries with General Implicit Local Intent
CN110298019A (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN108121699B (zh) 用于输出信息的方法和装置
WO2022199504A1 (zh) 内容识别方法、装置、计算机设备和存储介质
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
US10685012B2 (en) Generating feature embeddings from a co-occurrence matrix
US10032448B1 (en) Domain terminology expansion by sensitivity
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20180189307A1 (en) Topic based intelligent electronic file searching
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN115033733A (zh) 音频文本对生成方法、电子设备和存储介质
CN113591490B (zh) 信息处理方法、装置和电子设备
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN109241238B (zh) 文章搜索方法、装置及电子设备
CN110309278B (zh) 关键词检索方法、装置、介质及电子设备
CN112307738A (zh) 用于处理文本的方法和装置
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant