CN113849647A

CN113849647A - 对话身份识别方法、装置、设备及存储介质

Info

Publication number: CN113849647A
Application number: CN202111146274.8A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-28
Anticipated expiration: 2041-09-28

Abstract

本申请涉及人工智能及数字医疗技术领域，揭示了一种对话身份识别方法、装置、介质及设备，其中方法包括：获取语音对话信息，并将所述语音对话信息转换为文字对话信息；对字符进行标注，得到对应的语句序列；采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；根据所述状态信息分别对每一条所述对话语句进行身份标注。从而提高了身份识别准确率。

Description

对话身份识别方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能及数字医疗技术领域，特别是涉及到一种对话身份识别方法、装置、介质及设备。

背景技术

随着人工智能语音识别技术的兴起，其被广泛运用在在各种需要将语音转换为文字的场合，可以支持患者和医生之间的远程会诊、会诊过程记录等功能。

然而，患者与医生之间的会诊过程中，往往会出现一次会诊的时间过长太长、对话语音过多，语音记录转换为文字后的文本量较大，导致难以直观地识别各条对话分别来自会诊的哪一方。

发明内容

本申请的主要目的为提供一种对话身份识别方法、装置、介质及设备，旨在解决现有技术中会诊对话转换为文字后难以直观地识别各条对话来源，导致身份识别准确率较低的技术问题。

为了实现上述发明目的，本申请提出一种对话身份识别方法，所述方法包括：

获取语音对话信息，并将所述语音对话信息转换为文字对话信息，其中，所述文字对话信息包括若干条对话语句；

分别对每一条所述对话语句中的每一个字符进行标注，得到每一条所述对话语句对应的语句序列；

采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；

采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；

对语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；

根据所述状态信息分别对每一条所述对话语句进行身份标注。

进一步的，所述采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量，包括：

提取所述语句序列映射的记忆向量和值向量；

采用所述记忆神经网络，根据所述表征信息、记忆向量和值向量计算不同所述对话语句的相关信息向量；

对每一条对话语句的所述相关信息向量和所述表征向量进行拼接，得到语句表达向量。

进一步的，所述提取所述语句序列映射的记忆向量和值向量，包括：

在所述词级编码器中提取所述记忆向量；

对所述语句序列进行编码，得到若干个前向向量和若干个后向向量，对所述前向向量和所述后向向量按照预设的第一顺序进行拼接，得到所述值向量。

进一步的，所述采用所述记忆神经网络，根据所述表征信息、记忆向量和值向量计算不同所述对话语句的相关信息向量，包括：

采用所述记忆神经网络，根据下式计算不同的所述对话语句对应的语句序列u_j和u_i之间的相关性权重：

式中，u_i为第i条对话语句的语句序列，u_j为第j条对话语句的语句序列，p_i,为所述第i条对话语句与所述第j条对话语句之间的所述相关性权重，δ_i,为所述记忆神经网络中的二元激活器，h_i为所述第i条对话语句对应的所述表征信息，m_j为所述第j条对话语句对应的所述记忆向量，l为所述对话语句的总条数，其中，m_j＝h_i，所述二元激活器用于表示所述语句序列u_j和u_i的说话者是否相同；

根据下式计算所述相关信息向量：

式中，a_i为所述相关信息向量，v_j为所述值向量。

进一步的，所述对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息，包括：

采用语句级编码器，通过下式对所述语句表达向量进行序列建模：

o_i＝LSTM(o_i-1,h′_i)

式中，o_i为语句逐级状态，h′_i为所述语句表达向量；

采用全连接神经网络，通过下式计算语句序列u_i的所述状态信息：

o′_i＝W·o_i+b

式中，o′_i为所述状态信息，W为所述全连接神经网络中的第一训练参数，b为所述全连接神经网络中的第二训练参数。

进一步的，所述根据所述状态信息分别对每一条所述对话语句进行身份标注，包括：

通过softmax逻辑回归模型获取所述状态信息的语句标签，根据所述语句标签分别对每一条所述对话语句进行身份标注；

所述根据所述状态信息分别对每一条所述对话语句进行身份标注之后，还包括：

将语句标签相同的所述对话语句按照预设的第二顺序进行组合，得到所述语句标签对应的对话段落。

进一步的，所述获取语音对话信息，并将所述语音对话信息转换为文字对话信息，包括：

识别所述语音对话信息中的停顿位置；

将每两个停顿位置之间的语音部分作为所述对话片段；

识别每一个所述对话片段的对话时长，将所述对话时长大于有效时长阈值的所述对话片段作为有效对话；

将所述有效对话转换为所述文字对话信息。

本申请还提出了一种对话身份识别装置，包括：

语音转换模块，用于获取语音对话信息，并将所述语音对话信息转换为文字对话信息，其中，所述文字对话信息包括若干条对话语句；

字符标注模块，用于分别对每一条所述对话语句中的每一个字符进行标注，得到每一条所述对话语句对应的语句序列；

表征信息采集模块，用于采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；

信息增强模块，用于采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；

状态信息获取模块，用于对语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；

身份标注模块，用于根据所述状态信息分别对每一条所述对话语句进行身份标注。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的对话身份识别方法、装置、介质及设备，通过将语音对话信息转换为文字对话信息，以便于对对话信息的阅读和存储；通过对字符进行标注得到语句序列，并通过词编码器对语句序列进行编码，得到对话语句的表征信息，从而实现了对文字对话信息的分句，并得到了各个对话语句的特征；通过端到端的记忆神经网络，增强当前句子的表征，从而实现对上下文句子信息的抽取的准确性，进而提高标注的准确性；通过对语句表达向量进行序列建模，从而计算得到每一对话语句的状态信息，并根据状态信息对每个对话语句进行身份标注，提高了模型标注的准确性。

附图说明

图1为本申请一实施例的对话身份识别方法的流程示意图；

图2为本申请一具体实施方式的对话身份识别方法的流程示意图；

图3为本申请一实施例的对话身份识别装置的结构示意框图；

图4为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种为了实现上述发明目的，本申请提出一种对话身份识别方法，所述方法包括：

S1：获取语音对话信息，并将所述语音对话信息转换为文字对话信息，其中，所述文字对话信息包括若干条对话语句；

S2：分别对每一条所述对话语句中的每一个字符进行标注，得到每一条所述对话语句对应的语句序列；

S3：采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；

S4：采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；

S5：对语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；

S6：根据所述状态信息分别对每一条所述对话语句进行身份标注。

本实施例通过将语音对话信息转换为文字对话信息，以便于对对话信息的阅读和存储；通过对字符进行标注得到语句序列，并通过词编码器对语句序列进行编码，得到对话语句的表征信息，从而实现了对文字对话信息的分句，并得到了各个对话语句的特征；通过端到端的记忆神经网络，增强当前句子的表征，从而实现对上下文句子信息的抽取的准确性，进而提高标注的准确性；通过对语句表达向量进行序列建模，从而计算得到每一对话语句的状态信息，并根据状态信息对每个对话语句进行身份标注，提高了模型标注的准确性。

对于步骤S1，本实施例通常应用在医患会诊记录领域，为了对医患的对话进行记录以便于后续查询和经验汇总，往往需要对会诊过程进行录像或录音；本申请实施例可以基于人工智能技术对语音对话信息进行获取和处理。其中，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。具体来说，本实施例可以通过智能语音转换平台将语音对话信息转换为文字对话信息，以便于对会诊过程中的录音或录像文件中的语音转换为文字记录，从而减小了会诊记录的存储内存，并且便于后续根据关键字进行文字查询。

对于步骤S2，可定义语句序列为u_i＝w_i,1,w_i,2,......,w_i,l，其中，w_i,l为对字符的标注符号，具体来说，可以先选取一条对话语句中字符进行标注，在选取下一条对话语句时，仅对其与上一条对话语句中的不同字符进行标注，对于其与上一条对话语句中的相同字符，则采用上一条对话语句的标注符号进行标注；示例性地，若存在两条对话语句“我爱中国”和“我也爱”，先选取第一条对话语句进行标注，则依次得到“我”“爱”“中”“国”对应的语句序列u₁＝w_i,1,w_i,2,w_i,3,w_i,4，而对于第二句话，由于有“我”，“爱”两个相同字符，此时对“也”字符进行标注即可，得到语句序列u₂＝w_i,1,w_i,5,w_i,2，通过上述方式能够避免相同的字符占用了不同的标注类别，从而避免了文字对话信息较长时所占用的标注的总类别数过多的问题，进而减小了存储资源消耗。

对于步骤S3，上述词级编码器为BERT(Bidirectional Encoder Representationsfrom Transformers，基于转换器的双向编码表征)编码器，BERT的网络架构为一种多层Transformer结构，能够通过Attention机制将任意位置的两个单词的距离转换成1，具体来说，BERT能够用于区分两个句子，例如B是否是A的下文(对话场景，问答场景等)，通过词级编码器对语句序列进行编码后，能够得到如下形式的编码：[CLS]w_i,1,w_i,2,w_i,3,w_i,4[SEP]，其中，[CLS]用于表示对话语句u_i，记为第i个对话语句的表征h_i；[SEP]表示分句符号，用于断开输入语料中的两个对话语句。

对于步骤S4，上述记忆神经网络可以为长短期记忆神经网络(Long Short-TermMemory，LSTM)，其是一种特殊的循环神经网络(Recurrent Neural Network，RNN)。原始的RNN在训练中，随着训练时间的加长以及网络层数的增多，很容易出现梯度爆炸或者梯度消失的问题，导致无法处理较长序列数据，从而无法获取长距离数据的信息。而采用LSTM，能够改善RNN中存在的长期依赖问题；并且作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络，提高了上述记忆神经网络的泛用性和处理效率。

对于步骤S5，采用LSTM对上述语句表达向量进行序列建模，LSTM包括三类阀门：遗忘阀门(forget gate)，输入阀门(input gate)和输出阀门(output gate)，这些阀门可以打开或关闭，用于将判断模型网络的记忆态，即之前网络的状态，在该层输出的结果是否达到阈值从而加入到当前该层的计算中；具体来说，阀门节点利用sigmoid函数将网络的记忆态作为输入计算，如果输出结果达到阈值则将该阀门输出与当前层的的计算结果在指矩阵中的逐元素相乘，并作为下一层的输入；如果没有达到阈值则将该输出结果遗忘。每一层包括阀门节点的权重都会在每一次模型反向传播训练过程中更新；对每一层进行计算后，得到上述对话语句的状态信息。

对于步骤S6，得到对话语句的状态信息后，可以将状态信息对相同的对话语句作为同一来源的对话，并根据状态信息对对话来源进行识别，若状态信息对应的来源为医患会诊中的患者，则将该状态信息对应的对话语句身份标注为患者；若状态信息对应的来源为医患会诊中的医生，则将该状态信息对应的对话语句身份标注为医生。

在一个实施例中，参照图2，所述采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量S4，包括：

S41：提取所述语句序列映射的记忆向量和值向量；

S42：采用所述记忆神经网络，根据所述表征信息、记忆向量和值向量计算不同所述对话语句的相关信息向量；

S43：对每一条对话语句的所述相关信息向量和所述表征向量进行拼接，得到语句表达向量。

本实施例通过提取语句序列映射的记忆向量和值向量，采用记忆神经网络根据记忆向量和值向量对对话语句的上下文进行相关性计算，使得上文的对话语句对当前对话语句进行信息增强，从而提高了身份识别的准确性。

对于步骤S41，记忆向量即上文中的对话语句的表征信息。

对于步骤S42，根据所述表征信息、记忆向量和值向量计算不同所述对话语句的相关信息向量，即计算上文对话语句与当前对话语句相关的可能性。

对于步骤S43，通过计算相关信息向量，即上文对话语句与当前对话语句相关的可能性作为权重，对得到的值向量进行加权计算，得到上下文增强后的语句表达向量，即利用上下文的对话中与当前句子相关的句子所包含的信息增强当前对话语句的表征，从而实现更好的对上下文句子信息的抽取，进而实现准确度更高地身份识别。

在一个实施例中，所述提取所述语句序列映射的记忆向量和值向量S41，包括：

S411：在所述词级编码器中提取所述记忆向量；

S412：对所述语句序列进行编码，得到若干个前向向量和若干个后向向量，对所述前向向量和所述后向向量按照预设的第一顺序进行拼接，得到所述值向量。

本实施例能够通过对语句序列进行编码，得到若干个前向向量和若干个后向向量，能够提高对时序性较高的信息编码的准确性对前向向量和后向向量按照预设的第一顺序进行拼接，从而得到准确度更高的值向量。

对于步骤S411，记忆向量可以在词级编码器中复制上级的对话语句的表征信息得到。

对于步骤S412，可以通过BiLSTM编码器对语句序列进行编码，BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成；示例性地，仍以“我爱中国”为例，将“我”，“爱”“中国”依次输入前向LSTM后，得到三个向量[h_L0，h_L1，h_L2]，将“中国”，“爱”，“我”，依次输入后向LSTM后，得到三个向量[h_R0，h_R1，h_R2]，将前后向量进行拼接预设的第一顺序进行拼接，即前向量按照由前到后的顺序，后向量按照由后到前的顺序进行相互拼接，得到值向量v_j{[h_L0，h_R2]，[h_L1，h_R1]，[h_L2，h_R0]}。

在一个实施例中，所述采用所述记忆神经网络，根据所述表征信息、记忆向量和值向量计算不同所述对话语句的相关信息向量S42，包括：

S421：采用所述记忆神经网络，根据下式计算不同的所述对话语句对应的语句序列u_j和u_i之间的相关性权重：

S422：根据下式计算所述相关信息向量：

式中，a_i为所述相关信息向量，v_j为所述值向量。

本实施例能够计算上下文的相关性权重，从而区别地计算不同上文对下文的语义增强结果，得到更为准确的相关信息向量，进而进一步提高了身份识别的准确性。

对于步骤S421，上述二元激活器用于表示讲话者的身份是否相同，如果u_j和u_i的讲话者相同则为1反之则为0。

对于步骤S422，当此时的对话语句为第i条时，计算每一条对话语句对该对话语句的相关性权重，从而得到对第i条对话语句语义增强后的相关信息向量a_i，从而准确地对第i条对话语句进行语义表征。

在一个实施例中，所述对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息S5，包括：

S51：采用语句级编码器，通过下式对所述语句表达向量进行序列建模：

o_i＝LSTM(o_i-1,h′_i)

式中，LMST为所述语句级编码器中的计算函数，o_i为第i条对话语句的语句逐级状态，o_i-1为第i-1条对话语句的语句逐级状态，h′_i为所述第i条对话语句对应的所述语句表达向量；

S52：采用全连接神经网络，通过下式计算语句序列u_i的所述状态信息：

o′_i＝W·o_i+b

式中，o′_i为所述第i条对话语句的所述状态信息，W为所述全连接神经网络中的第一训练参数，b为所述全连接神经网络中的第二训练参数。

本实施例通过语句级编码器，对每一个语句表达向量进行序列建模，使得在任意序列的长度的情况下，学成的模型始终具有相同的输入大小，提高了语句逐级状态的稳定性，进而得到准确度更高的状态信息。

对于步骤S51，可以采用LSTM作为上述语句级编码器，由于序列建模指定的是从一种状态到另一种状态的转移，而不是在可变长度的历史状态上操作处理序列数据的能力，因此在任意序列的长度的情况下，学成的模型始终具有相同的输入大小。

对于步骤S52，全连接神经网络(Deep Neural Networks，DNN)依次包括输入层、隐藏层和输出层，语句逐级状态o_i输入上述输入层中，通过隐藏层将o_i代入x，从而对语句逐级状态o_i进行Wx+b的参数计算，上述第一训练参数W和第二训练参数b是在全连接神经网络中随机初始化自动学习的；在具体的实施方式中，，模型输出和真实数据都是存在一定的差异，此处采用误差参数e来表示这个“差异”，模型输出加上误差之后就等于真实的状态信息o′_i，即o′_i＝W·o_i+b+e_i；而对于整个文字对话信息而言，总的误差值就等于每一个误差值的误差总量，本实施例采用下式计算误差总量对应的损失函数Loss：

因此，需要通过对全连接神经网络对第一训练参数W和第二训练参数b进行自动学习训练，使得整个损失函数Loss的值尽可能地小，从而减小误差参数e，得到更接近真实的状态信息o′_i。

在一个实施例中，所述根据所述状态信息分别对每一条所述对话语句进行身份标注S6，包括：

S61：通过softmax逻辑回归模型获取所述状态信息的语句标签，根据所述语句标签分别对每一条所述对话语句进行身份标注；

所述根据所述状态信息分别对每一条所述对话语句进行身份标注S6之后，还包括：

S7：将语句标签相同的所述对话语句按照预设的第二顺序进行组合，得到所述语句标签对应的对话段落。

本实施例通过softmax逻辑回归模型能够准确地对状态信息的语句标签进行获取，并根据语句标签对对话语句进行组合，从而提高了身份识别的准确性，并得到了不同身份讲话者的对话记录汇总结果，以便于归档和查询。

对于步骤S61，softmax逻辑回归模型能够实现数据多分类，即，将一些输出的神经元映射到(0-1)之间的实数，并且归一化保证和为1，从而使得多分类的概率之和也刚好为1；softmax逻辑回归模型可以分为soft和max，max即最大值，示例性地，假设有两个变量a和b，如果a>b，则max为a，反之为b；然而在实际的实施方式中，如果期望的是输出获取到某个分类的概率，则需要通过softmax逻辑回归模型中的soft的部分，使得最后的输出是每个分类被取到的概率。

对于步骤S7，获取到语句标签PD、DT和OT后，将所有对话语句与语句标签PD和DT连接起来，分别生成患者问题总结和医生诊断总结。其中PD标签表示为匹配结果是患者问题总结，标记DT表示为匹配结果是医生诊断总结。对于所有其他的语句，用OT来标注。

在一个实施例中，所述获取语音对话信息，并将所述语音对话信息转换为文字对话信息S1，包括：

S11：识别所述语音对话信息中的停顿位置；

S12：将每两个停顿位置之间的语音部分作为所述对话片段；

S13：识别每一个所述对话片段的对话时长，将所述对话时长大于有效时长阈值的所述对话片段作为有效对话；

S14：将所述有效对话转换为所述文字对话信息。

本实施例通过在语音转换为文字之前，对语音对信息先进行有效对话过滤，使得过滤后的有效对话转换为的文字对话信息为医患会诊过程中较为有意义的信息，同时减小了需要语音转换的对话的数量，提高了总体转换速率。

对于步骤S11，由于人在实际沟通过程中，两两对话之间通常会存在一个间隔时间，例如在医生提出问题后，患者可能需要经过一定的思考时间才能够进行答复，因此本实施可以通过设置一个停顿时长来识别停顿位置。示例性地，停顿时长可以为2s，即若在2s的时间段内没有出现语音对话，则将该时间段标定为一个停顿位置。

对于步骤S12，将每两个停顿位置之间的语音部分作为所述对话片段，即识别两个停顿位置之间的语音信息，将该部分的语音作为医患对话的一个片段，以便于对各个片段进行时长识别。

对于步骤S13，将上述语音对话信息划分为若干个对话片段后，识别每一个对话片段的对话时长，由于人在实际对话中，有可能会出现类似于“嗯嗯”，“哦”，“啊”，“是吗”，“好啊”等语气词或者答复词，而这类的词语在整个对话过程中往往不具备实际的含义，因此，可以将对话时长不大于有效时长阈值的对话片段作为无效对话，将大于有效时长阈值的对话片段作为有效对话，并仅选取有效对话进行文字转换，从而预先剔除语音对话信息中不太具备实际含义的片段，提高了总体的文字转换速率。

参照图3，本申请还提出了一种对话身份识别装置，包括：

语音转换模块100，用于获取语音对话信息，并将所述语音对话信息转换为文字对话信息，其中，所述文字对话信息包括若干条对话语句；

字符标注模块200，用于分别对每一条所述对话语句中的每一个字符进行标注，得到每一条所述对话语句对应的语句序列；

表征信息采集模块300，用于采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；

信息增强模块400，用于采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；

状态信息获取模块500，用于对语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；

身份标注模块600，用于根据所述状态信息分别对每一条所述对话语句进行身份标注。

在一个实施例中，所述信息增强模块400，还用于：

提取所述语句序列映射的记忆向量和值向量；

在一个实施例中，所述信息增强模块400，还用于：

在所述词级编码器中提取所述记忆向量；

在一个实施例中，所述信息增强模块400，还用于：

式中，u_i为第i条对话语句的语句序列，u_j为第j条对话语句的语句序列，p_i,j为所述第i条对话语句与所述第j条对话语句之间的所述相关性权重，δ_i,j为所述记忆神经网络中的二元激活器，h_i为所述第i条对话语句对应的所述表征信息，m_j为所述第j条对话语句对应的所述记忆向量，l为所述对话语句的总条数，其中，m_j＝h_i，所述二元激活器用于表示所述语句序列u_j和u_i的说话者是否相同；

根据下式计算所述相关信息向量：

式中，a_i为所述相关信息向量，v_j为所述值向量。

在一个实施例中，所述状态信息获取模块500，还用于：

o_i＝LSTM(o_i-1,h′_i)

采用全连接神经网络，通过下式计算第i条对话语句的语句序列u_i的所述状态信息：

o′_i＝W·o_i+b

在一个实施例中，所述身份标注模块600，还用于：

在一个实施例中，所述语音转换模块，还用于：

识别所述语音对话信息中的停顿位置；

将每两个停顿位置之间的语音部分作为所述对话片段；

将所述有效对话转换为所述文字对话信息。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存对话身份识别方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对话身份识别方法。所述对话身份识别方法，包括：获取语音对话信息，并将所述语音对话信息转换为文字对话信息，其中，所述文字对话信息包括若干条对话语句；分别对每一条所述对话语句中的每一个字符进行标注，得到每一条所述对话语句对应的语句序列；采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；根据所述状态信息分别对每一条所述对话语句进行身份标注。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种对话身份识别方法，包括步骤：获取语音对话信息，并将所述语音对话信息转换为文字对话信息，其中，所述文字对话信息包括若干条对话语句；分别对每一条所述对话语句中的每一个字符进行标注，得到每一条所述对话语句对应的语句序列；采用词级编码器，对每一个所述语句序列分别进行编码，得到所述对话语句对应的句头隐藏向量，并将每一个所述对话语句的句头隐藏向量记为所述对话语句的表征信息；采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量；对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；根据所述状态信息分别对每一条所述对话语句进行身份标注。

上述执行的对话身份识别方法，本实施例通过将语音对话信息转换为文字对话信息，以便于对对话信息的阅读和存储；通过对字符进行标注得到语句序列，并通过词编码器对语句序列进行编码，得到对话语句的表征信息，从而实现了对文字对话信息的分句，并得到了各个对话语句的特征；通过端到端的记忆神经网络，增强当前句子的表征，从而实现对上下文句子信息的抽取的准确性，进而提高标注的准确性；通过对语句表达向量进行序列建模，从而计算得到每一对话语句的状态信息，并根据状态信息对每个对话语句进行身份标注，提高了模型标注的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种对话身份识别方法，其特征在于，所述方法包括：

对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息；

2.根据权利要求1所述的对话身份识别方法，其特征在于，所述采用记忆神经网络对每一条所述表征信息进行信息增强计算，得到所述对话语句的语句表达向量，包括：

提取所述语句序列映射的记忆向量和值向量；

3.根据权利要求2所述的对话身份识别方法，其特征在于，所述提取所述语句序列映射的记忆向量和值向量，包括：

在所述词级编码器中提取所述记忆向量；

4.根据权利要求2所述的对话身份识别方法，其特征在于，所述采用所述记忆神经网络，根据所述表征信息、记忆向量和值向量计算不同所述对话语句的相关信息向量，包括：

式中，u_i为第i条对话语句的语句序列，u_j为第j条对话语句的语句序列，p_i，j为所述第i条对话语句与所述第j条对话语句之间的所述相关性权重，δ_i，j为所述记忆神经网络中的二元激活器，h_i为所述第i条对话语句对应的所述表征信息，m_j为所述第j条对话语句对应的所述记忆向量，l为所述对话语句的总条数，其中，m_j＝h_i，所述二元激活器用于表示所述语句序列u_j和u_i的说话者是否相同；

根据下式计算所述相关信息向量：

式中，a_i为所述相关信息向量，v_j为所述值向量。

5.根据权利要求1所述的对话身份识别方法，其特征在于，所述对所述语句表达向量进行序列建模，得到每一条所述对话语句的状态信息，包括：

o_i＝LSTM(o_i-1，h′_i)

o′_i＝W·o_i+b

6.根据权利要求5所述的对话身份识别方法，其特征在于，所述根据所述状态信息分别对每一条所述对话语句进行身份标注，包括：

7.根据权利要求1所述的对话身份识别方法，其特征在于，所述获取语音对话信息，并将所述语音对话信息转换为文字对话信息，包括：

识别所述语音对话信息中的停顿位置；

将每两个停顿位置之间的语音部分作为所述对话片段；

将所述有效对话转换为所述文字对话信息。

8.一种对话身份识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。