CN113177406A - 文本处理方法、装置、电子设备和计算机可读介质 - Google Patents
文本处理方法、装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN113177406A CN113177406A CN202110443921.5A CN202110443921A CN113177406A CN 113177406 A CN113177406 A CN 113177406A CN 202110443921 A CN202110443921 A CN 202110443921A CN 113177406 A CN113177406 A CN 113177406A
- Authority
- CN
- China
- Prior art keywords
- vector
- sentence
- word
- word vector
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 377
- 230000015654 memory Effects 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 19
- 230000007787 long-term memory Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006403 short-term memory Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本处理方法、装置、电子设备和计算机可读介质,属于计算机技术领域。所述方法包括:确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量;将所述多个第一词向量输入长短期记忆网络,得到所述长短期记忆网络输出的第一句向量,并将所述多个第二词向量输入所述长短期记忆网络,得到所述长短期记忆网络输出的第二句向量,其中,所述第一句向量与所述第一文本信息对应,所述第二句向量与所述第二文本信息对应,所述长短期记忆网络包括词典中的词汇的信息;利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度。本申请提高了相似度计算的效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置、电子设备和计算机可读介质。
背景技术
文本语义相似度在不同的自然语言处理任务中扮演着重要角色。随着人工智能时代的来临,人们对于信息提取的需求变得越来越迫切,所以探究如何计算文本相似度对大量信息的处理有重要意义。文本相似度研究文本之间相关或者匹配的程度,文本语义相似度的计算方法一般是将两个句子输入至模型中,判断两个句子的语义是否相同。
文本相似度的计算方法从最初的基于规则到深度学习的方法经历了很长的发展历程。基于规则、机器学习的方法一般都是基于分类或聚类,包括词袋模型、VSM模型和LDA模型等。但这些方法都是用来解决数据量较小的结构化数据,需要人工提取文本特征,当文本规模较大时,文本中的特征项较多,上述方法中使用到的高维稀疏矩阵则会导致文本相似度的计算效率低。
发明内容
本申请实施例的目的在于提供一种文本处理方法、装置、电子设备和计算机可读介质,以解决文本相似度的计算效率低的问题。具体技术方案如下:
第一方面,提供了一种文本处理方法,所述方法包括:
确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量;
将所述多个第一词向量输入长短期记忆网络,得到所述长短期记忆网络输出的第一句向量,并将所述多个第二词向量输入所述长短期记忆网络,得到所述长短期记忆网络输出的第二句向量,其中,所述第一句向量与所述第一文本信息对应,所述第二句向量与所述第二文本信息对应,所述长短期记忆网络包括词典中的词汇的信息;
利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度。
可选地,所述得到所述长短期记忆网络输出的第一句向量包括:
确定所述第一文本信息中的当前词向量和位于所述当前词向量之前的相邻词向量;
根据所述相邻词向量和所述当前词向量生成综合词向量;
在所述综合词向量与所述词典中的词汇匹配不成功的情况下,通过所述长短期记忆网络调节所述综合词向量的分词结果,直至所述长短期记忆网络得到的至少一个目标词向量与所述词典中的词汇匹配成功,其中,所述词典中包含多个词汇的信息;
根据多个所述目标词向量得到所述第一句向量。
可选地,所述调节所述综合词向量的分词结果包括:
确定所述相邻词向量中的至少一个第一字符和所述当前词向量中的至少一个第二字符,其中,所述相邻词向量和所述当前词向量均包含多个字符,所述第一字符和所述第二字符相邻,所述第一字符和所述第二字符的字符数量的和值小于所述相邻词向量的字符数量和所述当前词向量的字符数量的和值;
将所述第一字符和所述第二字符进行组合,得到一个目标词向量;
将所述相邻词向量中除所述第一字符之外的字符作为一个目标词向量,并将所述当前词向量中除所述第二字符之外的字符作为一个目标词向量。
可选地,根据所述相邻词向量和所述当前词向量生成综合词向量之后,所述方法还包括:
在所述综合词向量与所述词典中的词汇匹配成功的情况下,根据所述相邻词向量和所述当前词向量得到所述第一句向量。
可选地,得到所述长短期记忆网络输出的第一句向量和第二句向量之后,所述方法还包括:将所述第一句向量输入自注意力模型,得到所述自注意力模型输出的第三句向量,并将所述第一句向量输入所述自注意力模型,得到所述自注意力模型输出的第四句向量,其中,所述第三句向量携带有每个所述第一词向量的权重,所述第四句向量携带有每个所述第二词向量的权重;
所述利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度包括:利用所述第三句向量和所述第四句向量确定所述第一文本信息与所述第二文本信息之间的相似度
可选地,所述得到所述自注意力模型输出的第三句向量包括:
通过所述自注意力模型确定所述第一句向量中的每个词向量的权重;
根据所述每个词向量和所述词向量对应的权重进行加权求和,得到所述第三句向量。
可选地,所述确定第一文本信息的多个第一词向量包括:
将所述第一文本信息进行预处理;
将预处理后的第一文本信息输入Glove模型,得到所述Glove模型输出的多个第一词向量。
第二方面,提供了一种文本相似度确定模组,所述模组包括:
第一确定模块,用于确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量;
输入输出模块,用于将所述多个第一词向量输入长短期记忆网络,得到所述长短期记忆网络输出的第一句向量,并将所述多个第二词向量输入所述长短期记忆网络,得到所述长短期记忆网络输出的第二句向量,其中,所述第一句向量与所述第一文本信息对应,所述第二句向量与所述第二文本信息对应,所述长短期记忆网络包括词典中的词汇的信息;
第二确定模块,用于利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的文本处理方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的文本处理方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种文本处理方法,长短期记忆网络在确定句向量的过程中引入了词典中的词汇的信息,即使待进行相似度计算的文本的数据量巨大,本申请利用长短期记忆网络的强大语义表征能力,提高了文本相似度计算效率。另外,长短期记忆网络也能有效的学习到文本中的词语信息,得到语义编码表示的隐藏状态,更好的利用了词信息,丰富了语义表达,提高了后续的文本相似度计算的准确性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本处理方法硬件环境示意图;
图2为本申请实施例提供的相似度计算模型示意图;
图3为本申请实施例提供的BiLattice-LSTM的内部模型图;
图4为本申请实施例提供的一种文本处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种文本处理方法的实施例。
本申请实施例提供了一种文本处理方法,可以应用于服务器,用于进行文本之间的相似度计算。
下面将结合具体实施方式,对本申请实施例提供的一种文本处理方法进行详细的说明,如图1所示,具体步骤如下:
步骤101:确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量。
在本申请实施例中,服务器获取第一文本信息和第二文本信息,然后第一文本信息和第二文本信息输入文本嵌入层,然后文本嵌入层输出第一文本信息的多个第一词向量和第二文本信息的多个第二词向量。其中,文本嵌入层可以为word2Vec,本申请对文本嵌入层的具体方式不做限定。
示例性地,得到第一文本信息的语义特征向量S1=[w1,w2,w3,...wn]和第二文本信息的S2=[v1,v2,...,vn]。
步骤102:将多个第一词向量输入长短期记忆网络,得到长短期记忆网络输出的第一句向量,并将多个第二词向量输入长短期记忆网络,得到长短期记忆网络输出的第二句向量。
其中,第一句向量与第一文本信息对应,第二句向量与第二文本信息对应,长短期记忆网络包括词典中的词汇的信息。
在本申请实施例中,服务器将多个第一词向量输入长短期记忆网络,得到长短期记忆网络输出的第一句向量,由于第一词向量是根据第一文本信息得到的,因此,第一句向量与第一文本信息对应。服务器将多个第二词向量输入长短期记忆网络,得到长短期记忆网络输出的第二句向量,由于第二词向量是根据第二文本信息得到的,因此,第二句向量与第二文本信息对应。
长短期记忆网络中具有门控单元,门控单元包括词典中的词汇的信息,更好的利用了词信息,丰富了语义表达。其中,在本申请实施例中,长短期记忆网络采用BiLattice-LSTM模型,BiLattice-LSTM模型相对于传统的LSTM模型来说,更能有效的学习到文本中的词语信息,得到语义编码表示的隐藏状态。
步骤103:利用第一句向量和第二句向量确定第一文本信息与第二文本信息之间的相似度。
在本申请实施例中,服务器得到第一文本信息对应的第一句向量和第二文本信息对应的第二句向量后,确定第一句向量和第二句向量之间的相似度,即得到第一文本信息和第二文本信息之间的相似度。在本申请实施例中,相似度计算可以采用余弦相似度计算方法。
在本申请中,长短期记忆网络在确定句向量的过程中引入了词典中的词汇的信息,即使待进行相似度计算的文本的数据量巨大,本申请利用长短期记忆网络的强大语义表征能力,提高了文本相似度计算效率。另外,长短期记忆网络也能有效的学习到文本中的词语信息,得到语义编码表示的隐藏状态,更好的利用了词信息,丰富了语义表达,提高了后续的文本相似度计算的准确性。
作为一种可选的实施方式,得到长短期记忆网络输出的第一文本信息对应的第一句向量包括:确定第一文本信息中的当前词向量和位于当前词向量之前的相邻词向量;根据相邻词向量和当前词向量生成综合词向量;在综合词向量与词典中的词汇匹配不成功的情况下,通过长短期记忆网络调节综合词向量的分词结果,直至长短期记忆网络得到的至少一个目标词向量与词典中的词汇匹配成功,其中,词典中包含多个词汇的信息;根据多个目标词向量得到第一句向量。
在本申请实施例中,服务器获取词典的信息,词典中包含了多个词汇的信息。第一句向量中包含多个第一词向量,服务器通过长短期记忆网络从多个第一词向量中选取当前词向量和位于当前词向量之前的相邻词向量,然后根据相邻词向量和当前词向量生成综合词向量,服务器通过长短期记忆网络中的门控单元对综合词向量和词典中的词汇进行匹配,即服务器确定综合词向量中的部分词向量是否存在于词典中。
若服务器确定综合词向量中的部分词向量不存在于词典中,表明该之前的分词出现错误,则服务器通过长短期记忆网络调节综合词向量的分词结果,得到多个目标词向量,当至少一个目标词向量与词典中的词汇匹配成功时,服务器根据目标词向量重新生成第一句向量。服务器重新调节分词结果,可以避免分词错误带来的影响,使文本分词正确,得到更加准确的相似度计算结果。
若服务器确定综合词向量中的部分词向量存在于词典中,表明该之前的分词正确,则服务器根据当前词向量和相邻词向量生成第一句向量。
服务器得到第二句向量的方式与得到第一句向量的方式类似,本申请不再赘述。
作为一种可选的实施方式,调节综合词向量的分词结果包括:确定相邻词向量中的至少一个第一字符和当前词向量中的至少一个第二字符,其中,相邻词向量和当前词向量均包含多个字符,第一字符和第二字符相邻,第一字符和第二字符的字符数量的和值小于相邻词向量的字符数量和当前词向量的字符数量的和值;将第一字符和第二字符进行组合,得到一个目标词向量;将相邻词向量中除第一字符之外的字符作为一个目标词向量,并将当前词向量中除第二字符之外的字符作为一个目标词向量,得到多个目标词向量。
在本申请实施例中,相邻词向量和当前词向量均包含多个字符,相邻词向量和当前词向量的字符的数量可以相同,也可以不同,服务器选取相邻词向量的至少一个第一字符,和当前词向量中的至少一个第二字符,第一字符和第二字符相邻,服务器将第一字符和第二字符进行组合得到一个目标词向量。若相邻词向量中除第一字符之外还有其他字符,则将相邻词向量中的其他字符作为一个目标词向量,若当前词向量中除第二字符之外还有其他字符,则将当前词向量中的其他字符作为一个目标词向量,这样可以得到多个目标词向量。
示例性地,相邻词向量中包括两个字符,当前词向量包括两个字符,第一字符为相邻词向量中的最后一个字符,第二字符为当前词向量中的第一个字符,服务器可以选取第一字符和第二字符进行组合,这样就得到一个目标词向量,那么相邻词向量中的第一个字符也是一个目标词向量,当前词向量中的最后一个字符也是目标词向量,这样就得到了三个目标词向量。
若相邻词向量中包括两个字符,当前词向量包括两个字符,第一字符为相邻词向量中的两个字符,第二字符为当前词向量中的第一个字符,服务器可以选取第一字符和第二字符进行组合,这样就得到一个目标词向量,那么相邻词向量中不再有其他字符,当前词向量中的最后一个字符是目标词向量,这样就得到了两个目标词向量。
作为一种可选的实施方式,得到长短期记忆网络输出的第一句向量和第二句向量之后,方法还包括:将第一句向量输入自注意力模型,得到自注意力模型输出的第三句向量,并将第一句向量输入自注意力模型,得到自注意力模型输出的第四句向量,其中,第三句向量携带有每个第一词向量的权重,第四句向量携带有每个第二词向量的权重;利用第一句向量和第二句向量确定第一文本信息与第二文本信息之间的相似度包括:利用第三句向量和第四句向量确定第一文本信息与第二文本信息之间的相似度。
在本申请实施例中,长短期记忆网络虽然能学习到文本丰富的语义表达,但是很难获取表征词语权重的语义向量。因此服务器将第一句向量输入自注意力模型(self-attention),采用self-attention层来关注每个词汇的权重,即采用self-attention层来关注第三句向量中每个第一词向量的权重。服务器将第二句向量输入自注意力模型(self-attention),采用self-attention层来关注每个词汇的权重,即采用self-attention层来关注第四句向量中每个第二词向量的权重。
服务器得到第三句向量和第四句向量后,利用第三句向量和第四句向量确定第一文本信息与第二文本信息之间的相似度自注意力模型,自注意力模型关注每个词汇的权重可以提升文本相似度的准确性。
self-attention中,首先在编码器到解码器的地方使用了多头Attention进行连接,K,V,Q分别是编码器的层输出(这里K=V)和解码器中都头Attention的输入。利用解码器和编码器Attention来进行翻译对齐,然后在编码器和解码器中都使用了多头自注意力Self-Attention来学习文本的表示,Self-Attention即K=V=Q。例如输入一个文本,那么里面的每个词都要和该文本中的所有词进行Attention计算,目的是学习文本内部的词之间的依赖关系,捕获文本的内部结构。
作为一种可选的实施方式,得到自注意力模型输出的第一句向量对应的第三句向量包括:通过自注意力模型确定第一句向量中的每个词向量的权重;根据每个词向量和词向量对应的权重进行加权求和,得到第三句向量。
在文本相似度计算中,并不是每一个词汇都对文本表征贡献很大,因此需要添加self-attention层,利用self-attention层确定每个词汇的权重,将词级别的特征组合成句子级别的特征,这样self-attention可以不考虑词与词之间的距离而直接计算依赖关系,能够学习到一个句子的不同层面的信息,使得句子的表达更加丰富,输出全局的最优序列。
具体地,服务器通过自注意力模型确定第一句向量中的每个词向量的权重,然后根据每个词向量和词向量对应的权重进行加权求和,得到第三句向量。
服务器通过自注意力模型确定第二句向量中的每个词向量的权重,然后根据每个词向量和词向量对应的权重进行加权求和,得到第四句向量。
作为一种可选的实施方式,确定第一文本信息的多个第一词向量包括:将第一文本信息进行预处理;将预处理后的第一文本信息输入Glove模型,得到Glove模型输出的多个第一词向量。
在本申请实施例中,服务器对第一文本信息进行预处理,去掉停用词,然后将预处理后的第一文本信息输入Glove模型,得到Glove模型输出的多个第一词向量。一般的分词模型包括两种类型,一种是利用全局统计信息,进行矩阵分解(如LSA)来获取词向量,这样获得的词向量往往在词相似性任务上表现不好,表明这是一个次优的向量空间结构,另一种是利用局部上下文窗口单独训练,但是统计信息作为有用的先验知识,没有很好的利用到。本申请采用Glove模型,Glove模型结合上述两种训练方式,使用了全局特征,利用了统计信息,可以获取更好的词向量。
在本申请实施例中,确定第二文本信息的多个第二词向量,与上述确定第一文本信息中的多个第一词向量的过程是相同的,本申请不再赘述。
在本申请实施例中,余弦相似度计算可以采用如下公式:
S1表示第三句向量,S2表示第四句向量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。
本申请提供了一种模型,如图2所示,包括文本嵌入层、BiLattice-LSTM层、self-attention层和相似度计算层。可以通过该模型计算两个文本之间的相似度。
图3为BiLattice-LSTM的内部模型图。
基于相同的技术构思,本申请实施例还提供了一种文本处理装置,如图4所示,该装置包括:
第一确定模块401,用于确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量;
第一输入输出模块402,用于将多个第一词向量输入长短期记忆网络,得到长短期记忆网络输出的第一句向量,并将多个第二词向量输入长短期记忆网络,得到长短期记忆网络输出的第二句向量,其中,第一句向量与第一文本信息对应,第二句向量与第二文本信息对应,长短期记忆网络包括词典中的词汇的信息;
第二确定模块403,用于利用第一句向量和第二句向量确定第一文本信息与第二文本信息之间的相似度。
可选地,第一输入输出模块402包括:
第一确定单元,用于确定第一文本信息中的当前词向量和位于当前词向量之前的相邻词向量;
生成单元,用于根据相邻词向量和当前词向量生成综合词向量;
调节单元,用于在综合词向量与词典中的词汇匹配不成功的情况下,通过长短期记忆网络调节综合词向量的分词结果,直至长短期记忆网络得到的至少一个目标词向量与词典中的词汇匹配成功,其中,词典中包含多个词汇的信息;
第一得到单元,用于根据多个目标词向量得到第一句向量。
可选地,调节单元包括:
确定子单元,用于确定相邻词向量中的至少一个第一字符和当前词向量中的至少一个第二字符,其中,相邻词向量和当前词向量均包含多个字符,第一字符和第二字符相邻,第一字符和第二字符的字符数量的和值小于相邻词向量的字符数量和当前词向量的字符数量的和值;
得到子单元,用于将第一字符和第二字符进行组合,得到一个目标词向量;
作为子单元,用于将相邻词向量中除第一字符之外的字符作为一个目标词向量,并将当前词向量中除第二字符之外的字符作为一个目标词向量,得到多个目标词向量。
可选地,该装置还包括:
得到模块,用于在综合词向量与词典中的词汇匹配成功的情况下,根据相邻词向量和当前词向量得到第一句向量。
可选地,该装置还包括:
第二输入输出模块,用于将第一句向量输入自注意力模型,得到自注意力模型输出的第三句向量,并将第一句向量输入自注意力模型,得到自注意力模型输出的第四句向量,其中,第三句向量携带有每个第一词向量的权重,第四句向量携带有每个第二词向量的权重;
第二确定模块403包括:
第二确定单元,用于利用第三句向量和第四句向量确定第一文本信息与第二文本信息之间的相似度
可选地,第二输入输出模块包括:
第三确定单元,用于通过自注意力模型确定第一句向量中的每个词向量的权重;
得到单元,用于根据每个词向量和词向量对应的权重进行加权求和,得到第三句向量。
可选地,第一确定模块401包括:
预处理单元,用于将第一文本信息进行预处理;
输入输出单元,用于将预处理后的第一文本信息输入Glove模型,得到Glove模型输出的多个第一词向量。
本申请实施例提供了一种文本处理装置,长短期记忆网络在确定句向量的过程中引入了词典中的词汇的信息,更能有效的学习到文本中的词语信息,得到语义编码表示的隐藏状态,更好的利用了词信息,丰富了语义表达,提高了后续的文本相似度计算的准确性。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图5所示,包括存储器503、处理器501、通信接口502及通信总线504,存储器503中存储有可在处理器501上运行的计算机程序,存储器503、处理器501通过通信接口502和通信总线504进行通信,处理器501执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码:
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本处理方法,其特征在于,所述方法包括:
确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量;
将所述多个第一词向量输入长短期记忆网络,得到所述长短期记忆网络输出的第一句向量,并将所述多个第二词向量输入所述长短期记忆网络,得到所述长短期记忆网络输出的第二句向量,其中,所述第一句向量与所述第一文本信息对应,所述第二句向量与所述第二文本信息对应,所述长短期记忆网络包括词典中的词汇的信息;
利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述得到所述长短期记忆网络输出的第一句向量包括:
确定所述第一文本信息中的当前词向量和位于所述当前词向量之前的相邻词向量;
根据所述相邻词向量和所述当前词向量生成综合词向量;
在所述综合词向量与所述词典中的词汇匹配不成功的情况下,通过所述长短期记忆网络调节所述综合词向量的分词结果,直至所述长短期记忆网络得到的至少一个目标词向量与所述词典中的词汇匹配成功,其中,所述词典中包含多个词汇的信息;
根据多个所述目标词向量得到所述第一句向量。
3.根据权利要求2所述的方法,其特征在于,所述调节所述综合词向量的分词结果包括:
确定所述相邻词向量中的至少一个第一字符和所述当前词向量中的至少一个第二字符,其中,所述相邻词向量和所述当前词向量均包含多个字符,所述第一字符和所述第二字符相邻,所述第一字符和所述第二字符的字符数量的和值小于所述相邻词向量中字符数量和所述当前词向量中字符数量的和值;
将所述第一字符和所述第二字符进行组合,得到一个目标词向量;
将所述相邻词向量中除所述第一字符之外的字符作为一个目标词向量,并将所述当前词向量中除所述第二字符之外的字符作为一个目标词向量。
4.根据权利要求2所述的方法,其特征在于,根据所述相邻词向量和所述当前词向量生成综合词向量之后,所述方法还包括:
在所述综合词向量与所述词典中的词汇匹配成功的情况下,根据所述相邻词向量和所述当前词向量得到所述第一句向量。
5.根据权利要求1所述的方法,其特征在于,
得到所述长短期记忆网络输出的第一句向量和第二句向量之后,所述方法还包括:将所述第一句向量输入自注意力模型,得到所述自注意力模型输出的第三句向量,并将所述第一句向量输入所述自注意力模型,得到所述自注意力模型输出的第四句向量,其中,所述第三句向量携带有每个所述第一词向量的权重,所述第四句向量携带有每个所述第二词向量的权重;
所述利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度包括:利用所述第三句向量和所述第四句向量确定所述第一文本信息与所述第二文本信息之间的相似度。
6.根据权利要求5所述的方法,其特征在于,所述得到所述自注意力模型输出的第三句向量包括:
通过所述自注意力模型确定所述第一句向量中的每个词向量的权重;
根据所述每个词向量和所述词向量对应的权重进行加权求和,得到所述第三句向量。
7.根据权利要求1所述的方法,其特征在于,所述确定第一文本信息的多个第一词向量包括:
将所述第一文本信息进行预处理;
将预处理后的第一文本信息输入Glove模型,得到所述Glove模型输出的多个第一词向量。
8.一种文本相似度确定模组,其特征在于,所述模组包括:
第一确定模块,用于确定第一文本信息的多个第一词向量和第二文本信息的多个第二词向量;
输入输出模块,用于将所述多个第一词向量输入长短期记忆网络,得到所述长短期记忆网络输出的第一句向量,并将所述多个第二词向量输入所述长短期记忆网络,得到所述长短期记忆网络输出的第二句向量,其中,所述第一句向量与所述第一文本信息对应,所述第二句向量与所述第二文本信息对应,所述长短期记忆网络包括词典中的词汇的信息;
第二确定模块,用于利用所述第一句向量和所述第二句向量确定所述第一文本信息与所述第二文本信息之间的相似度。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110443921.5A CN113177406B (zh) | 2021-04-23 | 2021-04-23 | 文本处理方法、装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110443921.5A CN113177406B (zh) | 2021-04-23 | 2021-04-23 | 文本处理方法、装置、电子设备和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177406A true CN113177406A (zh) | 2021-07-27 |
CN113177406B CN113177406B (zh) | 2023-07-07 |
Family
ID=76924593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110443921.5A Active CN113177406B (zh) | 2021-04-23 | 2021-04-23 | 文本处理方法、装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177406B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836938A (zh) * | 2021-09-23 | 2021-12-24 | 深圳市北科瑞声科技股份有限公司 | 文本相似度的计算方法及装置、存储介质、电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344399A (zh) * | 2018-09-14 | 2019-02-15 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN111460834A (zh) * | 2020-04-09 | 2020-07-28 | 北京北大软件工程股份有限公司 | 基于lstm网络的法条语义标注方法及装置 |
CN112559691A (zh) * | 2020-12-22 | 2021-03-26 | 珠海格力电器股份有限公司 | 语义相似度的确定方法及确定装置、电子设备 |
JP2021051709A (ja) * | 2019-09-20 | 2021-04-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピュータ読み取り可能な記録媒体 |
-
2021
- 2021-04-23 CN CN202110443921.5A patent/CN113177406B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344399A (zh) * | 2018-09-14 | 2019-02-15 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
JP2021051709A (ja) * | 2019-09-20 | 2021-04-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピュータ読み取り可能な記録媒体 |
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN111460834A (zh) * | 2020-04-09 | 2020-07-28 | 北京北大软件工程股份有限公司 | 基于lstm网络的法条语义标注方法及装置 |
CN112559691A (zh) * | 2020-12-22 | 2021-03-26 | 珠海格力电器股份有限公司 | 语义相似度的确定方法及确定装置、电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836938A (zh) * | 2021-09-23 | 2021-12-24 | 深圳市北科瑞声科技股份有限公司 | 文本相似度的计算方法及装置、存储介质、电子装置 |
CN113836938B (zh) * | 2021-09-23 | 2024-07-16 | 深圳市北科瑞声科技股份有限公司 | 文本相似度的计算方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113177406B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287479B (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
US20190370633A1 (en) | Intelligent image captioning | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN110909122A (zh) | 一种信息处理方法及相关设备 | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN111859940B (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN111611791B (zh) | 一种文本处理的方法及相关装置 | |
CN110678882A (zh) | 使用机器学习从电子文档选择回答跨距 | |
CN109933792A (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
He et al. | Image captioning with text-based visual attention | |
CN112820269A (zh) | 文本转语音方法、装置、电子设备及存储介质 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN113836303A (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN111291565A (zh) | 一种用于命名实体识别的方法与装置 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
CN113177406B (zh) | 文本处理方法、装置、电子设备和计算机可读介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN113076736A (zh) | 多维度的文本评分方法、装置、计算机设备及存储介质 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |