CN110502610A

CN110502610A - 基于文本语义相似度的智能语音签名方法、装置及介质

Info

Publication number: CN110502610A
Application number: CN201910671357.5A
Authority: CN
Inventors: 李彬
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-26

Abstract

本发明属于人工智能技术领域，公开了一种基于文本语义相似度的智能语音签名方法、装置及介质，方法包括：获取用户语音和目标文本信息；将获取的用户语音转化为文本信息，得到转化文本信息；将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；根据文本语义相似度进行语音签名认证；其中，文本语义相似度模型的训练包括：在预训练模型中的预训练和分类器中的训练两个训练阶段。本发明通过将模型训练划分为两个训练阶段，对语义表征可以实现90％以上的准确率，同时降低对目标业务场景的标注数据的依赖，便于充分利用互联网上丰富的文本资源。

Description

基于文本语义相似度的智能语音签名方法、装置及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于文本语义相似度的智能语音签名方法、装置及介质。

背景技术

随着例如对话系统等自然语言处理的应用逐渐走进人们的生活，自然语言输入取代关键词短语搜索，逐渐成为了重要的信息输入入口。自然语言理解能力，在智能风控领域如语音签名场景也有广阔的应用前景。传统的语音签名系统通过匹配输入样本声纹与数据库内的记录声纹，确认声音采集者身份。然而在一些特殊场景，需要语音被采集者进行录入语音保证。输入的语音文本需要与指定的目标文本内容一致。而判断输入语音与标准文本是否符合，需要对文本语义进行理解，并计算文本语义相似度。

目前语义相似度计算的深度学习方法一般基于深度语义表示模型(DeepStructured Semantic Model，DSSM)。这类模型及其卷积神经网络和递归神经网络的延伸变体可对两段文本的语义关系(一致或矛盾)进行高准确率的识别。但是，现有的DSSM及其变体在语音签名场景的应用上，有以下两个难点：第一，缺少场景数据，DSSM的训练是有监督训练，需要海量的标注数据，而在语音签名的应用场景，缺少足够的标注语料来支撑模型的训练；第二，是缺少泛化能力，DSSM是端到端的模型，优化目标仅是识别两段文本在语义上是否一致，中间的字词表示层的训练不可控，而非通用语言模型；在训练样本不丰富、不均匀时，模型易存在对训练样本的过拟合；当目标文本内容频繁变化时，需要补充训练样本重新训练。

发明内容

本发明提供一种基于文本语义相似度的智能语音签名方法、装置及介质，以解决现有技术在语音签名场景的应用上缺少场景数据和泛化能力的问题。

为了实现上述目的，本发明的一个方面是提供一种基于文本语义相似度的智能语音签名方法，包括以下步骤：

获取用户语音和目标文本信息；将获取的用户语音转化为文本信息，得到转化文本信息；将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；根据得到的文本语义相似度进行语音签名认证；其中，文本语义相似度模型的训练包括：将转化文本信息与目标文本信息输入预训练模型，进行预训练，得到与转化文本信息和目标文本信息分别相对应的表征语义；将预训练模型得到的表征语义输入分类器中进行训练，得到与转化文本信息和目标文本信息分别相对应的表征语义的相似度。

优选地，通过预训练模型进行预训练的优化目标为：

其中，N表示一段文本序列中词的总数量，t_k表示一段文本序列中第k个位置的词，{t₁，...，t_k-1}表示词t_k的上文序列，{t_k+1，...，t_N}表示词t_k的下文序列，Θ_pre表示预训练模型的训练参数，p₁表示在第k个位置出现词t_k的概率。

优选地，通过分类器进行训练的优化目标为：

argmax p₂(y|r；Θ_task)

其中，p₂表示转化文本信息与目标文本信息一致的匹配概率，r表示语义表征宽向量，Θ_task表示分类器的训练参数。

优选地，所述预训练模型包括输入层、嵌入层、神经网络层、全连接层、归一化层以及输出层，其中，输入层用于输入转化文本信息和目标文本信息，嵌入层用于将输入的文本信息转化为词向量，神经网络层用于将词向量转化为表征语义，神经网络层包括长短期记忆网络(Long Short-Term Memory，LSTM)模型和注意力机制层，通过注意力机制层对LSTM模型的权重参数进行训练，全连接层用于生成权重矩阵，归一化层用于获取在第k个位置出现词t_k的概率。

优选地，LSTM模型包括：

遗忘门：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

其中，f_t表示t时刻遗忘门的输出，σ表示sigmoid函数，W_xf表示x_t的权重矩阵，W_hf表示h_t-1的权重矩阵，W_cf表示c_t-1的权重矩阵，h_t-1表示上一隐层状态，x_t表示当前输入，c_t-1表示上一细胞状态，b_f表示遗忘门的偏置项；

输入门：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

其中，i_t表示t时刻更新门的输出，σ表示sigmoid函数，W_xi表示x_t的权重矩阵，W_hi表示h_t-1的权重矩阵，W_ci表示c_t-1的权重矩阵，b_i表示输入门的偏置项，h_t-1表示上一隐层状态，x_t表示当前输入，c_t-1表示上一细胞状态；

更新信息：

c_t＝i_tg_t+f_tc_t-1

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

其中，c_t表示当前细胞状态，g_t表示tanh函数的输出，W_xc表示x_t的权重矩阵，W_hc表示h_t-1的权重矩阵，W_cc表示c_t-1的权重矩阵，b_c表示细胞的偏置项；

输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)

其中，o_t表示输出门的输出，W_xo表示x_t的权重矩阵，W_ho表示h_t-1的权重矩阵，W_co表示c_t的权重矩阵，b_o表示输出门的偏置项，h_t表示当前隐层状态。

优选地，注意力机制层通过下式对LSTM模型的权重参数进行训练：

M＝tanh(H)

α＝softmax(ω^TM)

γ＝Hα^T

h^*＝tanh(γ)

其中，H表示LSTM层输入的向量集合，M表示集合H经tanh函数映射后的输出，α表示ω^TM经softmax函数映射后的输出，ω^T表示M的权重矩阵，γ表示集合H与α^T的乘积，α^T表示α的转置，h^*表示输出的隐层状态；

通过全连接层生成权重矩阵W^(S)之后，归一化层通过下式获取概率值：

其中，表示预测的概率值，t_k表示句子S中的第k个词，S表示给定的包含N个词的句子，b^S表示偏置项系数。

优选地，在根据得到的文本语义相似度进行语音签名认证之前，还包括：根据用户语音获取对应的声纹信息；将获取的声纹信息与样本库中存储的记录声纹相匹配，得到用户声纹信息与记录声纹信息的声纹匹配度。

优选地，根据得到的文本语义相似度进行语音签名认证，包括：分别设定声纹匹配度阈值和语义相似度阈值，若获取的声纹匹配度超过设定的声纹匹配度阈值，并且，文本语义相似度超过设定的语义相似度阈值，则语音签名认证通过，若获取的声纹匹配度和文本语义相似度中的一个或两个未超过相应的设定阈值，则语音签名认证未通过。

为了实现上述目的，本发明的另一个方面是提供一种电子装置，该电子装置包括：处理器，存储器，所述存储器中包括智能语音签名程序，所述智能语音签名程序被所述处理器执行时实现如上所述的智能语音签名方法的步骤。

为了实现上述目的，本发明的再一个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中包括智能语音签名程序，所述智能语音签名程序被处理器执行时，实现如上所述的智能语音签名方法的步骤。

相对于现有技术，本发明具有以下优点和有益效果：

本发明所述智能语音签名方法将识别短文本语义是否一致的训练划分为两个训练阶段，通过对目标业务场景的小数据集进行有监督训练，对语音输入文本和标准文本的语义进行特征识别，对语义表征可以实现90％以上的准确率，同时降低对目标业务场景的标注数据的依赖，便于充分利用互联网上丰富的文本资源。通过引入基于深度学习的语义理解能力有助于提高智能语音签名的自动审核效率，降低企业在风控身份认证审核中的人力依赖。

附图说明

图1为本发明所述智能语音签名方法的流程示意图；

图2为本发明中智能语音签名程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，仅仅用以解释本发明，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本发明所述智能语音签名方法的流程示意图，如图1所示，本发明所述基于文本语义相似度的智能语音签名方法，包括以下步骤：

步骤S1，获取用户语音和目标文本信息，其中，用户语音为用户根据要求朗读业务要求的目标文本而获取的语音，例如，承诺书、保证书、宣誓等文本；

步骤S2，将获取的用户语音转化为文本信息，得到转化文本信息，通过自动语音识别技术实现；

步骤S3，将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；

步骤S4，根据得到的文本语义相似度进行语音签名认证，根据语音输入内容与规范文本的语义级的匹配结果，综合判断语音输入是否存在作假风险。

本发明为了解决深度学习模型在语音签名场景的应用困难的问题，将识别短文本语义是否一致的二分类优化目标的训练划分为两个训练阶段，文本语义相似度模型的训练包括：

将转化文本信息与目标文本信息输入预训练模型，进行预训练，得到与转化文本信息和目标文本信息分别相对应的表征语义，预训练模型是一个通用的语言模型，通过文本信息预测出文本中的每个词汇本身，可以提高对文本语义表征的准确率，同时降低对目标业务场景的标注数据的依赖；

将预训练模型得到的表征语义输入分类器中进行训练，得到与转化文本信息和目标文本信息分别相对应的表征语义的相似度。

其中，在预训练模型中进行的预训练可以将输入文本信息进行有效、可泛化地无监督语义表征，并且预训练的训练目标与下游任务场景无关，使得预训练时可以充分利用互联网上丰富的文本资源，降低对任务场景的标注数据的依赖；在分类器中的训练阶段，以输入文本通过预训练模型得到的表征语义作为输入，相比于深层模型含有较少的参数数量，通过较少的任务场景相关的标注数据便可以实现训练收敛。本发明使得文本语义相似度模型的训练不再缺少标注语料的支持，适用于语音签名的应用场景，且当目标文本的内容频繁变化时，无需重新训练。

优选地，通过预训练模型进行的预训练为无监督训练，优化目标为：

其中，N表示一段文本序列中词的总数量，t_k表示一段文本序列{t₁，t₂，...，t_N}中第k个位置的词，{t₁，...，t_k-1}表示词t_k的上文序列，{t_k+1，...，t_N}表示词t_k的下文序列，Θ_pre表示预训练模型的训练参数，p₁表示在第k个位置出现词t_k的概率。

本发明的一个实施例中，所述预训练模型包括输入层、嵌入层、神经网络层、全连接层、归一化层以及输出层，其中，输入层用于输入转化文本信息和目标文本信息，嵌入层用于将输入的文本信息转化为词向量，神经网络层用于将词向量转化为表征语义，全连接层用于生成权重矩阵，归一化层用于获取在第k个位置出现词t_k的概率。上述预训练模型的训练参数即为神经网络层中各连接层之间的权重参数和偏置。

优选地，神经网络层包括长短期记忆网络(Long Short-Term Memory，LSTM)模型和注意力机制层，通过注意力机制层对LSTM模型的权重参数进行训练。

其中，LSTM模型包括：

遗忘门：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

其中，f_t表示t时刻遗忘门的输出，σ表示sigmoid函数，W_xf表示x_t的权重矩阵，W_hf表示h_t-1的权重矩阵，W_cf表示c_t-1的权重矩阵，h_t-1表示上一隐层状态，x_t表示当前输入，c_t-1表示上一细胞状态，b_f表示遗忘门的偏置项。

输入门：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

其中，i_t表示t时刻更新门的输出，σ表示sigmoid函数，W_xi表示x_t的权重矩阵，W_hi表示h_t-1的权重矩阵，W_ci表示c_t-1的权重矩阵，b_i表示输入门的偏置项，h_t-1表示上一隐层状态，x_t表示当前输入，c_t-1表示上一细胞状态。

更新信息：

c_t＝i_tg_t+f_tc_t-1

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

其中，c_t表示当前细胞状态，g_t表示tanh函数的输出，W_xc表示x_t的权重矩阵，W_hc表示h_t-1的权重矩阵，W_cc表示c_t-1的权重矩阵，b_c表示细胞的偏置项。

输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)

通过注意力机制层学习到LSTM模型隐藏层的信息的权重参数，注意力机制层对LSTM模型的权重参数的训练通过下式得到：

H：[h₁，h₂，...，h_m]

M＝tanh(H)

α＝softmax(ω^TM)

γ＝Hα^T

h^*＝tanh(γ)

其中，H表示LSTM层输入的向量集合，h_m表示第m个输入向量，M表示集合H经tanh函数映射后的输出，α表示ω^TM经softmax函数映射后的输出，ω^T表示M的权重矩阵，γ表示集合H与α^T的乘积，α^T表示α的转置，h^*表示输出的隐层状态。

本发明的一个实施例中，将预训练模型得到的表征语义输入分类器中，包括：

将转化文本信息对应的表征语义向量与目标文本信息对应的表征语义向量合并，获取语义表征宽向量；将获取的语义表征向量输入分类器中，从而通过分类器可以获取两段表征语义之间的关系(指一致或矛盾)。

通过分类器模型判断用户语音转化得到的文本与目标文本的语义是否一致，优化预测值与真实值之间的差值，分类器模型仅包括一层全连接层，相比深层模型含有较少的参数数量，通过较少的任务场景相关的标注数据便可以实现训练收敛。

优选地，通过分类器模型进行的训练为有监督训练，优化目标为：

argmax p₂(y|r；Θ_task)

其中，p₂表示转化文本信息与目标文本信息一致的匹配概率，r表示语义表征宽向量，表示转化文本信息{s₁，...，s_N}通过预训练模型最后一层后的高维语义表征，表示目标文本信息{t₁，...，t_M}通过预训练模型最后一层后的高维语义表征，L表示预训练模型的最后一层，Θ_task表示分类器的训练参数。

将文本语义相似度模型的训练划分为两个训练阶段之后，由于仅有分类器模型的训练为有监督训练，当业务场景引入了新的目标文本时，仅需要将新样本加入训练集中，对分类器进行微调训练即可，无需全部重新训练，降低了计算成本。

优选地，在根据得到的文本语义相似度进行语音签名认证之前，还包括：

根据用户语音获取对应的声纹信息；将获取的声纹信息与样本库中存储的记录声纹相匹配，得到用户声纹信息与记录声纹信息的声纹匹配度。

进一步地，根据得到的文本语义相似度进行语音签名认证，包括：结合获取的声纹匹配度和文本语义相似度共同进行语音签名认证，具体地，分别设定声纹匹配度阈值和语义相似度阈值，若获取的声纹匹配度超过设定的声纹匹配度阈值，并且，文本语义相似度超过设定的语义相似度阈值，则认为语音签名认证通过，若获取的声纹匹配度和文本语义相似度中的一个或两个未超过相应的设定阈值，则认为语音签名认证未通过，用户语音输入存在作假风险。

本发明通过引入基于深度学习的语义理解有助于提高签名认证中的自动审核效率，降低企业在风控身份认证审核中的人力依赖。

本发明还提供一种基于文本语义相似度的智能语音签名系统，包括：

获取模块，获取用户语音和目标文本信息，其中，用户语音为通过记录用户对目标文本的朗读而得到；

语音转化模块，将获取的用户语音转化为文本信息，得到转化文本信息；

相似度生成模块，将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；

签名认证模块，根据得到的文本语义相似度进行语音签名认证；

其中，相似度生成模块包括训练单元，对文本语义相似度模型进行训练，其中，训练单元的训练阶段包括两个阶段，具体地，包括：将转化文本信息与目标文本信息输入预训练模型，进行预训练，得到与转化文本信息和目标文本信息分别相对应的表征语义；将预训练模型得到的表征语义输入分类器中进行训练，得到与转化文本信息和目标文本信息分别相对应的表征语义的相似度。

需要说明的是，相似度生成模块对文本语义相似度模型的训练以及文本语义相似度模型的结构等均与上述智能语音签名方法中类似，在此不再赘述。

智能语音签名系统还包括：声纹识别模块，对记录的用户语音进行声纹识别，识别的声纹信息用于与文本语义相似度共同对语音签名进行认证，使得基于声纹识别的基础上，增加文本语义相似度的识别，提高语音签名认证的准确性。

本发明所述智能语音签名方法应用于电子装置，所述电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。

所述电子装置包括：处理器；存储器，用于存储智能语音签名程序，处理器执行所述智能语音签名程序，实现以下的智能语音签名方法的步骤：

获取用户语音和目标文本信息；将获取的用户语音转化为文本信息，得到转化文本信息，通过自动语音识别技术实现；将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度，其中，文本语义相似度模型的训练包括：在预训练模型中的预训练和分类器中的训练两个训练阶段；根据得到的文本语义相似度进行语音签名认证，根据语音输入内容与规范文本的语义级的匹配结果，综合判断语音输入是否存在作假风险。

所述电子装置还包括网络接口和通信总线等。其中，网络接口可以包括标准的有线接口、无线接口，通信总线用于实现各个组件之间的连接通信。

存储器包括至少一种类型的可读存储介质，可以是闪存、硬盘、光盘等非易失性存储介质，也可以是插接式硬盘等，且并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中，存储器存储的软件程序包括智能语音签名程序，并可以向处理器提供该智能语音签名程序，以使得处理器可以执行该智能语音签名程序，实现智能语音签名方法的步骤。

处理器可以是中央处理器、微处理器或其他数据处理芯片等，可以运行存储器中的存储程序，例如，本发明中智能语音签名程序。

所述电子装置还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的工作界面。

所述电子装置还可以包括用户接口，用户接口可以包括输入单元(比如键盘)、语音输出装置(比如音响、耳机)等。

在其他实施例中，智能语音签名程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器中，并由处理器执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图2为本发明中智能语音签名程序的模块示意图，如图2所示，所述智能语音签名程序可以被分割为：获取模块1、语音转化模块2、相似度生成模块3和签名认证模块4。上述模块所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

获取模块1，获取用户语音和目标文本信息；

语音转化模块2，将获取的用户语音转化为文本信息，得到转化文本信息；

相似度生成模块3，将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；

签名认证模块4，根据得到的文本语义相似度进行语音签名认证；

其中，相似度生成模块3包括训练单元，对文本语义相似度模型进行训练，其中，训练单元的训练阶段包括两个阶段，具体地，包括：将转化文本信息与目标文本信息输入预训练模型，进行预训练，得到与转化文本信息和目标文本信息分别相对应的表征语义；将预训练模型得到的表征语义输入分类器中进行训练，得到与转化文本信息和目标文本信息分别相对应的表征语义的相似度。

本发明的一个实施例中，计算机可读存储介质可以是任何包含或存储程序或指令的有形介质，其中的程序可以被执行，通过存储的程序指令相关的硬件实现相应的功能。例如，计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括智能语音签名程序，所述智能语音签名程序被处理器执行时，实现如下的智能语音签名方法的步骤：

获取用户语音和目标文本信息；将获取的用户语音转化为文本信息，得到转化文本信息，通过自动语音识别技术实现；将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；根据得到的文本语义相似度进行语音签名认证。

本发明之计算机可读存储介质的具体实施方式与上述智能语音签名方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种基于文本语义相似度的智能语音签名方法，应用于电子装置，其特征在于，包括以下步骤：

获取用户语音和目标文本信息；

将获取的用户语音转化为文本信息，得到转化文本信息；

将转化文本信息与目标文本信息输入经过训练得到的文本语义相似度模型，得到转化文本信息与目标文本信息的文本语义相似度；

根据得到的文本语义相似度进行语音签名认证；

其中，文本语义相似度模型的训练包括：

将转化文本信息与目标文本信息输入预训练模型，进行预训练，得到与转化文本信息和目标文本信息分别相对应的表征语义；

2.根据权利要求1所述的基于文本语义相似度的智能语音签名方法，其特征在于，通过预训练模型进行预训练的优化目标为：

3.根据权利要求1所述的基于文本语义相似度的智能语音签名方法，其特征在于，通过分类器进行训练的优化目标为：

argmax p₂(y|r；Θ_task)

4.根据权利要求1所述的基于文本语义相似度的智能语音签名方法，其特征在于，所述预训练模型包括输入层、嵌入层、神经网络层、全连接层、归一化层以及输出层，其中，输入层用于输入转化文本信息和目标文本信息，嵌入层用于将输入的文本信息转化为词向量，神经网络层用于将词向量转化为表征语义，神经网络层包括LSTM模型和注意力机制层，通过注意力机制层对LSTM模型的权重参数进行训练，全连接层用于生成权重矩阵，归一化层用于获取在第k个位置出现词t_k的概率。

5.根据权利要求4所述的基于文本语义相似度的智能语音签名方法，其特征在于，LSTM模型包括：

遗忘门：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

输入门：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

更新信息：

c_t＝i_tg_t+f_tc_t-1

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_ttanh(c_t)

6.根据权利要求4或5所述的基于文本语义相似度的智能语音签名方法，其特征在于，注意力机制层通过下式对LSTM模型的权重参数进行训练：

M＝tanh(H)

α＝softmax(ω^TM)

γ＝Hα^T

h^*＝tanh(γ)

7.根据权利要求1所述的基于文本语义相似度的智能语音签名方法，其特征在于，在根据得到的文本语义相似度进行语音签名认证之前，还包括：

根据用户语音获取对应的声纹信息；

将获取的声纹信息与样本库中存储的记录声纹相匹配，得到用户声纹信息与记录声纹信息的声纹匹配度。

8.根据权利要求7所述的基于文本语义相似度的智能语音签名方法，其特征在于，根据得到的文本语义相似度进行语音签名认证，包括：分别设定声纹匹配度阈值和语义相似度阈值，若获取的声纹匹配度超过设定的声纹匹配度阈值，并且，文本语义相似度超过设定的语义相似度阈值，则语音签名认证通过，若获取的声纹匹配度和文本语义相似度中的一个或两个未超过相应的设定阈值，则语音签名认证未通过。

9.一种电子装置，其特征在于，该电子装置包括：处理器，存储器，所述存储器中包括智能语音签名程序，所述智能语音签名程序被所述处理器执行时实现如权利要求1至8中任一项所述的智能语音签名方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括智能语音签名程序，所述智能语音签名程序被处理器执行时，实现如权利要求1至8中任一项所述的智能语音签名方法的步骤。