CN110085210A

CN110085210A - 交互信息测试方法、装置、计算机设备及存储介质

Info

Publication number: CN110085210A
Application number: CN201910198332.8A
Authority: CN
Inventors: 刘丽珍; 吕小立; 刘芳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-08-02
Anticipated expiration: 2039-03-15
Also published as: CN110085210B

Abstract

本发明实施例公开了一种交互信息测试方法、装置、计算机设备及存储介质，包括：获取预设的模板文本；根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据；将所述语音数据输入至语音转换模型中，以获取所述语音转换模型转换所述语音数据生成的转换文本；比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率。将转换文本与模板文本进行相似度比较，就能够获得语音转换模型转换的准确率。通过上传测试方法，能够模拟实际转换场景，得到转换准确率，有利于对语音转换模型进行优化，进一步地提高语音转换模型的转换效率。

Description

交互信息测试方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及数据测试领域，尤其是一种交互信息测试方法、装置、计算机设备及存储介质。

背景技术

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。语音识别技术将逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

现有技术中，语音识别应用在人机交互领域时，将语音转换为文字成为一个重要的技术环节。现有技术中，语音转换为文字时的结果更多的是，字和/或短语转换的拼凑，更适合简短的语音数据的转换，不适合大段语言数据的转换，特别在一些特定场景下，语言转换为文字信息的准确率较低。由于，语音文字转换的过程中均发生在实际使用中，且转换结果并不是必然的与回复结果关联，因此，无法准确的获取语音转换文字的准确率，更不能通过准确率信息对已投入使用的转换模型进行优化。

发明内容

本发明实施例提供一种采用循环神经网络模型对语音进行文字转换，并对转换准确率进行监督的交互信息测试方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种交互信息测试方法，包括：

获取预设的模板文本，其中，所述模板文本中记录交互信息；

根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据；

将所述语音数据输入至语音转换模型中，以获取所述语音转换模型转换所述语音数据生成的转换文本，其中，所述语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型；

比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率。

可选地，所述模板文本中包括表征所述交互信息的语音交互环境的环境信息，所述根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据之前，包括：

获取所述模板文本中表征所述交互信息的语音交互环境的环境信息；

在预设的干扰数据库中查找与所述环境信息具有映射关系的噪音数据。

可选地，所述根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据包括：

根据所述模板文本诵读所述交互信息生成与所述交互信息对应的诵读音频文件；

在所述诵读音频文件中添加所述噪音数据生成所述语音数据，以模拟所述交互信息的语音交互环境。

可选地，所述将所述语音数据输入至语音转换模型中，以获取所述语音转换模型转换所述语音数据生成的转换文本包括：

将所述语音数据通过预处理分割为若干音频块，其中，各个音频块均为具有固定时间长度的频谱图；

将所述若干音频块根据时序进行排列生成时序音频矩阵；

将所述时序音频矩阵输入至语音转换模型中，以获取所述语音转换模型转换所述时序音频矩阵生成的转换文本，所述语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型。

可选地，所述交互信息中包括场景语句，所述场景语句在不同的对话场景中具有相同的语音发音但具有不同的文字字段，所述比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率之前，包括：

将所述场景语句与所述转换文本中与所述场景语句对应的转换语句进行比对；

当所述场景语句与所述转换语句不一致时，根据所述语音转换模型中的损失函数计算所述场景语句与所述转换语句之间的特征向量的向量距离；

在所述语音转换模型中根据所述向量距离进行反向传播，以校正所述语音转换模型中的权值，至所述场景语句与所述转换语句一致时为止。

可选地，所述比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率包括：

获取所述模板文本的字符长度；

计算所述模板文本与所述转换文本之间的汉明距离；

根据所述汉明距离与所述字符长度计算所述模板文本与所述转换文本的相似度，其中，所述模板文本与所述转换文本的相似度即为所述语音转换模型转换的准确率。

可选地，所述计算所述模板文本与所述转换文本之间的汉明距离之前，包括：

获取所述转换文本的字符长度；

比对所述转换文本的字符长度是否小于所述模板文本的字符长度；

当所述转换文本的字符长度小于所述模板文本的字符长度时，向所述转换文本中写入填充字符，以使所述转换文本的字符长度与所述模板文本的字符长度相同，其中，所述填充字符与所述模板文本中的任一字符之间的汉明距离均为1。

为解决上述技术问题，本发明实施例还提供一种交互信息测试装置，包括：

获取模块，用于获取预设的模板文本，其中，所述模板文本中记录交互信息；

处理模块，用于根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据；

转换模块，用于将所述语音数据输入至语音转换模型中，以获取所述语音转换模型转换所述语音数据生成的转换文本，其中，所述语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型；

执行模块，用于比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率。

可选地，所述模板文本中包括表征所述交互信息的语音交互环境的环境信息，所述交互信息测试装置还包括：

第一获取子模块，用于获取所述模板文本中表征所述交互信息的语音交互环境的环境信息；

第一处理子模块，用于在预设的干扰数据库中查找与所述环境信息具有映射关系的噪音数据。

可选地，所述交互信息测试装置还包括：

第二处理子模块，用于根据所述模板文本诵读所述交互信息生成与所述交互信息对应的诵读音频文件；

第一执行子模块，用于在所述诵读音频文件中添加所述噪音数据生成所述语音数据，以模拟所述交互信息的语音交互环境。

可选地，所述交互信息测试装置还包括：

第一采样子模块，用于将所述语音数据通过预处理分割为若干音频块，其中，各个音频块均为具有固定时间长度的频谱图；

第三处理子模块，用于将所述若干音频块根据时序进行排列生成时序音频矩阵；

第一转换子模块，用于将所述时序音频矩阵输入至语音转换模型中，以获取所述语音转换模型转换所述时序音频矩阵生成的转换文本，所述语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型。

可选地，所述交互信息中包括场景语句，所述场景语句在不同的对话场景中具有相同的语音发音但具有不同的文字字段，所述交互信息测试装置还包括：

第一比对子模块，用于将所述场景语句与所述转换文本中与所述场景语句对应的转换语句进行比对；

第四处理子模块，用于当所述场景语句与所述转换语句不一致时，根据所述语音转换模型中的损失函数计算所述场景语句与所述转换语句之间的特征向量的向量距离；

第二执行子模块，用于在所述语音转换模型中根据所述向量距离进行反向传播，以校正所述语音转换模型中的权值，至所述场景语句与所述转换语句一致时为止。

可选地，所述交互信息测试装置还包括：

第二获取子模块，用于获取所述模板文本的字符长度；

第一计算子模块，用于计算所述模板文本与所述转换文本之间的汉明距离；

第三执行子模块，用于根据所述汉明距离与所述字符长度计算所述模板文本与所述转换文本的相似度，其中，所述模板文本与所述转换文本的相似度即为所述语音转换模型转换的准确率。

可选地，所述交互信息测试装置还包括：

第三获取子模块，用于获取所述转换文本的字符长度；

第二比对子模块，用于比对所述转换文本的字符长度是否小于所述模板文本的字符长度；

第四执行子模块，用于当所述转换文本的字符长度小于所述模板文本的字符长度时，向所述转换文本中写入填充字符，以使所述转换文本的字符长度与所述模板文本的字符长度相同，其中，所述填充字符与所述模板文本中的任一字符之间的汉明距离均为1。

为解决上述技术问题，本发明实施例还提一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述交互信息测试方法的步骤。

为解决上述技术问题，本发明实施例还提一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述交互信息测试方法的步骤。

本发明实施例的有益效果是：通过诵读预设的模板文本生成语音数据，该语音数据中记载于信息与模板文本中文字记载的信息相同，将该语音数据输入至语音转换模型中将语音数据转换为转换文本，将转换文本与模板文本进行相似度比较，就能够获得语音转换模型转换的准确率。通过上传测试方法，能够模拟实际转换场景，得到转换准确率，有利于对语音转换模型进行优化，进一步地提高语音转换模型的转换效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例交互信息测试方法的基本流程示意图；

图2为本发明实施例确认模板文本表征的语音交互环境的噪音数据的流程示意图；

图3为本发明实施例添加噪音数据的流程示意图；

图4为本发明实施例语音数据转换为转换文本的流程示意图；

图5为本发明实施例通过场景语句优化语音转换模型的流程示意图；

图6为本发明实施例通过模板文本与转换文本之间的汉明距离计算语音转换模型转换准确率的流程示意图；

图7为本发明实施例对转换文本的字符长度进行补位的流程示意图；

图8为本发明实施例交互信息测试装置基本结构示意图；

图9为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体请参阅图1，图1为本实施例交互信息测试方法的基本流程示意图。

如图1所示，一种交互信息测试方法，包括：

S1100、获取预设的模板文本，其中，所述模板文本中记录交互信息；

本实施方式中为测试语音转换模型在数据交互中，对用户语音信息转换为文字的准确性，设置模板文本。模板文本中记录有根据实际对话语音整理生成的文字版本的交互信息。但是模板文本中记录的文字信息不局限于交互信息，根据具体应用场景的不同，在一些选择性实施方式中，模板文本中能够为任意形式的文本题材，包括(不限于)：小说文本、诗集合散文等文学作品。

S1200、根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据；

将模板文本输入至语音播放装置进行播放，播放方式为将模板文本中的文字信息转换为语音信息进行播放。语音播放装置能够为设置有文字转语音应用程序的影像设备或者计算机设备。

在将模板文本进行诵读的同时，对诵读的语音信息进行采集生成语音数据。对诵读的语音信息进行收集装置为(不限于)：录音设备或者集成有录音功能的计算机设备。由于，语音数据来源于对模板文本诵读，因此，语音数据所记载的信息与模板文本所记载的信息完全一致，其区别在于用于承载该信息的载体不同，一个以文字为载体，另一个以语音为载体。

S1300、将所述语音数据输入至语音转换模型中，以获取所述语音转换模型转换所述语音数据生成的转换文本，其中，所述语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型；

将语音数据输入至语音转换模型中，语音转换模型将该语音数据进行转换，将其转换为文字信息，该转换后的文字信息记载在转换文本中。

本实施方式中，语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型，但是语音转换模型所使用的模型类型不局限于此，根据具体应用场景的不同，在一些实施方式中，语音转换模型能够为双循环神经网络模型。

在一些实施方式中，在将语音数据输入至神经网络模型之前，需要对语音数据进行预处理。预处理的方式为：对语音数据进行采样，例如，首先，将语音数据转换为波形图，为进一步地，将波形图转换为数字，转换时只记录声波在声波二维图中的高度数值；然后，对该声波图进行采样，以每秒读取数千次的速度对声波图进行采样，并把声波在该时间点的高度用一个数字记录下来，完成对声波的采样生成采样音频；根据音频数据的时序将采集音频划分为20毫秒长的音频块，在每个音频块中由不同频率的声音复杂地组合在一起的，其中，有一些低音、一些中音和一些高音；再将复杂的声波分解成一个个组成部分，将分离低音部分，再分离下一个最低音的部分，以此类推。然后将(从低到高)每个频段中的能量相加，我们就为各个类别的音频片段创建了一个指纹，该指纹则为音频块的频谱图，即音频块中记录的内容为固定时间长度内音频数据的频谱图。至此，对语音数据的预处理完成。在本实施方式中，完成了语音数据转换为数据块的过程后，还需要将各个数据块按照时序进行排列生成时序音频矩阵，时序音频矩阵生成后将该时序音频矩阵输入至语音转换模型中。

在一些实施方式中，作为语音转换模型的初始循环神经网络模型在训练时，通过收集大量的语音数据转换后的时序音频矩阵作为训练样本，通过人工在试听了训练样本的语音数据后对各个训练样本进行标定(标定各个训练样本的真实文字信息)。然后将训练样本输入到初始的循环神经网络模型中，循环神经网络模型提取该训练样本的各个音频块对应的字符，并根据已经确定出的字符与当前音频块表征的字符之间的关系，确定当前音频块对应的字符，并最终得到音频文件的模型转换文件。

获取模型输出的分类结果(模型转换文件)，并通过循环神经网络模型的损失函数计算该分类结果与标定结果之间的距离(例如：欧氏距离、马氏距离或余弦距离等)，将计算结果与设定的距离阈值进行比对，若计算结果小于等于距离阈值则通过验证，继续进行下一个训练样本的训练，若计算结果大于距离阈值则通过损失函数计算二者之间的差值，并通过反向传播校正循环神经网络模型内的权值，使循环神经网络模型能够提高训练样本中能够准确表达语音数据发音的频谱对应的元素的权重，以此，增大提取的准确率和全面性。通过循环执行上述方案和大量的训练样本训练后，训练得到的循环神经网络模型对时序音频矩阵分类的准确率大于一定数值的，例如，97％，则该循环神经网络模型训练至收敛状态，则该训练至收敛的神经网络即为语音转换模型。

训练至收敛的语音转换模型能够快速且准确的对语音数据进行文字转换。

S1400、比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率。

在得到语音转换模型转换语音数据后得到转换文本后，将该转换文本与模板文本进行比对，比对的方式为计算转换文本与模板文本之间的相似度。

计算相似度首先读取模板文本中交互信息的字符长度；然后，计算转换文本与模板文本之间的汉明距离或者海明距离；最后，用计算得到的汉明距离或者海明距离除以交互信息的字符长度得到错误比例，用常数1减去错误比例后乘以100％就能够得到转换文本与模板文本之间的相似度，且该相似度即为语音转换模型转换语音数据的准确率。

上述实施方式通过诵读预设的模板文本生成语音数据，该语音数据中记载于信息与模板文本中文字记载的信息相同，将该语音数据输入至语音转换模型中将语音数据转换为转换文本，将转换文本与模板文本进行相似度比较，就能够获得语音转换模型转换的准确率。通过上传测试方法，能够模拟实际转换场景，得到转换准确率，有利于对语音转换模型进行优化，进一步地提高语音转换模型的转换效率。

在一些实施方式中，为模拟真实的语音交互环境，需要在收集语音数据时对语音数据进行加噪处理，以使语音数据的波形图中具有干扰波形，使语音转换模型具有识别干扰波形的能力，提高语音转换模型在实际应用中转换准确率。请参阅图2，图2为本实施例确认模板文本表征的语音交互环境的噪音数据的流程示意图。

如图2所示，图1所示的S1200步骤之前，包括：

S1111、获取所述模板文本中表征所述交互信息的语音交互环境的环境信息；

本实施方式中模板文本中记录有交互信息的语音交互环境的环境信息，环境信息能够是语音交互环境中的噪声分贝的取值区间，例如，噪音强度为30-40分贝。但是环境信息的内容不局限于此，根据具体应用场景的不同，在一些实施方式中，环境信息的内容还能够为(不限于)室内、室外、山顶、路边或海边等描述交互环境的地貌类别。

环境信息记录在模板文本的属性信息中，通过读取该模板文本的属性信息得到与之对应的环境信息。

S1112、在预设的干扰数据库中查找与所述环境信息具有映射关系的噪音数据。

本实施方式中，设置有干扰数据库，干扰数据库中存储有不同类型的噪音数据，噪音数据根据噪音的分贝进行归类存储。但是干扰数据库中噪音数据的分类方法不局限于此，根据噪音的收集地点，将噪音按不同的地貌类别进行分类，包括(不限于)：室内、室外、山顶、路边或海边等描述交互环境的地貌类别。

根据环境信息能够在干扰数据库中查找与环境信息具有映射关系的噪音数据。噪音数据的格式为音频文件，但噪音数据的格式不局限于此，根据具体应用场景的不同，在一些实施方式中，噪音数据为噪音波形图。

噪音数据的添加方法为：将收集的诵读语音与噪音音频进行音频合成。但是噪音数据的添加方法不局限于此，根据具体应用场景的不同，在一些实施方式中，噪音数据的添加方式为能够为(不限于)：在诵读模板文本的同时播放噪音数据或者在收集的诵读语音的波形图中添加噪音的波形图。

在一些实施方式中，噪音数据通过音频合成的方式添加至诵读语音当中，生成语音数据。请参阅图3，图3为本实施例添加噪音数据的流程示意图。

如图3所示，图1所示的S1200步骤包括：

S1211、根据所述模板文本诵读所述交互信息生成与所述交互信息对应的诵读音频文件；

在将模板文本进行诵读的同时，对诵读的语音信息进行采集生成读音频文件。对诵读的语音信息进行收集装置为(不限于)：录音设备或者集成有录音功能的计算机设备。

S1212、在所述诵读音频文件中添加所述噪音数据生成所述语音数据，以模拟所述交互信息的语音交互环境。

在采集的诵读音频文件添加与诵读音频文件相同时间长度的噪音数据，将该噪音数据与诵读音频文件进行音频合成，生成包括诵读音频和噪音数据的语音数据。添加了噪音数据合成的语音数据，模拟了交互信息进行的实际语音环境，采用该语音信息对语音转换模型进行测试和训练，有助于语音转换模型学习各类噪音的特征，优化语音转换模型，提高语音转换模型在实际使用中的转换准确率。

在一些实施方式中，语音数据并不能够直接被语音转换模型直接识别并进行处理，因此，需要对语音数据进行预处理，将语音信息转换为能够被语音转换模块识别的数据格式。请参阅图4，图4为本实施方式中语音数据转换为转换文本的流程示意图。

如图4所示，图1所示的S1300步骤包括：

S1311、将所述语音数据通过预处理分割为若干音频块，其中，各个音频块均为具有固定时间长度的频谱图；

在将语音数据输入至神经网络模型之前，需要对语音数据进行预处理。预处理的方式为：对语音数据进行采样，例如，首先，将语音数据转换为波形图，为进一步地，将波形图转换为数字，转换时只记录声波在声波二维图中的高度数值；然后，对该声波图进行采样，以每秒读取数千次的速度对声波图进行采样，并把声波在该时间点的高度用一个数字记录下来，完成对声波的采样生成采样音频；根据音频数据的时序将采集音频划分为20毫秒长的音频块，在每个音频块中由不同频率的声音复杂地组合在一起的，其中，有一些低音、一些中音和一些高音；再将复杂的声波分解成一个个组成部分，将分离低音部分，再分离下一个最低音的部分，以此类推。然后将(从低到高)每个频段中的能量相加，我们就为各个类别的音频片段创建了一个指纹，该指纹则为音频块的频谱图，即音频块中记录的内容为固定时间长度内音频数据的频谱图。至此，对语音数据的预处理完成。

S1312、将所述若干音频块根据时序进行排列生成时序音频矩阵；

完成了语音数据转换为数据块的过程后，还需要将各个数据块按照时序进行排列生成时序音频矩阵，时序音频矩阵生成后将该时序音频矩阵输入至语音转换模型中。每个音频块均为时序音频矩阵中的一个元素，各个音频块在时序音频矩阵中按时序进行排列。

S1313、将所述时序音频矩阵输入至语音转换模型中，以获取所述语音转换模型转换所述时序音频矩阵生成的转换文本，所述语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型。

将时序音频矩阵输入至语音转换模型中，语音转换模型将该时序音频矩阵进行转换，将其转换为文字信息，该转换后的文字信息记载在转换文本中。

在一些实施方式中，部分交互信息的中的语句为场景语句，场景语句在不同的应用场景中，能够被转换为不同的文字字段，语音转换模型需要学习场景语句在不同语境中的转换结果，以使语言转换模型能够根据场景语句的语境对场景语句进行转换。提高语音转换模型的转换准确率。请参阅图5，图5为本实施方式中通过场景语句优化语音转换模型的流程示意图。

如图5所示，图1所示的S1400步骤之前，包括：

S1321、将所述场景语句与所述转换文本中与所述场景语句对应的转换语句进行比对；

本实施方式中，场景语句在不同的语境中能够被转换为不同的文字字段。例如：数字“22”的发音，在“我今年22岁”“这个月22号”“一箱苹果有22个”等语句中，其翻译结果均为数字22。但是在短语“你给我一是一，二是二的交代清楚”中，“一是一，二是二”作为一个俗语，应当翻译为二是二。

将场景语句与转换文本中与场景语句对应的转换语句进行比对，比对的方式为通过计算场景语句与转换语句之间的汉明距离或者海明距离。当场景语句与转换语句之间的汉明距离或者海明距离为0时，则表示场景语句与转换语句一致；当场景语句与转换语句之间的汉明距离或者海明距离大于0时，则表示场景语句与转换语句不一致。

S1322、当所述场景语句与所述转换语句不一致时，根据所述语音转换模型中的损失函数计算所述场景语句与所述转换语句之间的特征向量的向量距离；

通过比对确定场景语句与转换语句不一致时，获取语音转换模型提取的该场景语句的特征向量，以及场景语句被正确转换的特征向量，通过损失函数计算两个特征向量之间的向量距离(例如：欧氏距离、马氏距离或余弦距离等)。

S1323、在所述语音转换模型中根据所述向量距离进行反向传播，以校正所述语音转换模型中的权值，至所述场景语句与所述转换语句一致时为止。

将特征向量的向量距离与设定的距离阈值(例如，0.05)进行比对，向量距离大于距离阈值则通过损失函数计算二者之间的差值时，通过反向传播校正语言转换模型内的权值，往复循环的执行S1321-S1323步骤，直至语言转换模型转换的转换语句与场景语句的汉明距离为零时，表明语言转换模型已经学习到场景语句在该语境下的正确转换结果，对语言转换模型的优化至此结束。

通过对语音转换模型进行优化训练，使语音转换模型能够学习场景语句在不同语境下正确转换结果，提高了语音转换模型语音转换的准确度。

在一些实施方式中，通过模板文本与转换文本之间的汉明距离计算语音转换模型转换的准确率。请参阅图6，图6为本实施方式中通过模板文本与转换文本之间的汉明距离计算语音转换模型转换准确率的流程示意图。

如图6所示，图1所示的S1400步骤包括：

S1410、获取所述模板文本的字符长度；

获取模板文本的字符长度，字符长度为模板文本中交互信息包括的文字字数。例如，模板文本记载的信息为“你在干什么呀？你下午吃饭了吗？”则该模板文本的字符长度为15，其中，标点符号也占用一个字符。当模板文本记载的信息为英文“hello”时，则该模板文本的字符长度为5，每个英文字符为一个字符，且英文标点也能够占用一个字符。

S1420、计算所述模板文本与所述转换文本之间的汉明距离；

获取到模板文本的字符长度后，计算模板文本与转换文本之间的汉明距离。汉明距离为两个字段(相同长度)对应位不同的数量，例如，"toned"与"roses"之间的汉明距离是3。

S1430、根据所述汉明距离与所述字符长度计算所述模板文本与所述转换文本的相似度，其中，所述模板文本与所述转换文本的相似度即为所述语音转换模型转换的准确率。

用计算得到的汉明距离除以模板文本的字符长度得到错误比例，用常数1减去错误比例后乘以100％就能够得到转换文本与模板文本之间的相似度，且该相似度即为语音转换模型转换语音数据的准确率。例如，模板文本字符长度为100，模板文本与转换文本之间的汉明距离为5，则准确度为[1-(5/100)]*100％＝95％。

在一些实施方式中，转换文本中的字符长度与模板文本中的字符长度不同，且转换文本中的字符长度小于模板文本中的字符长度，需要对转换文本进行补位，以使转换文本中的字符长度与模板文本中的字符长度相同。请参阅图7，图7为本实施例对转换文本的字符长度进行补位的流程示意图。

如图7所示，图6所示的S1420步骤之前，包括

S1411、获取所述转换文本的字符长度；

获取转换文本的字符长度，字符长度为转换文本中的文字字数。

S1412、比对所述转换文本的字符长度是否小于所述模板文本的字符长度；

比对述转换文本的字符长度是否小于模板文本的字符长度，比对的方式为比较转换文本的字符长度的数值是否小于模板文本的字符长度的数值。

S1413、当所述转换文本的字符长度小于所述模板文本的字符长度时，向所述转换文本中写入填充字符，以使所述转换文本的字符长度与所述模板文本的字符长度相同，其中，所述填充字符与所述模板文本中的任一字符之间的汉明距离均为1。

当确定转换文本的字符长度小于模板文本的字符长度时，将转换文本的字符头部与模板文本的字符长度的字符头部对齐，然后在转换文本的字符尾部写入填充字符，写入填充字符的字数与模板文本的字符长度与换文本的字符长度之差相同，例如，模板文本的字符数量为100，转换文本中的字符数量为97，则填充字符的个数为3。

本实施方式中，填充字符与模板文本中的任一字符之间的汉明距离均为1，即填充字符与模板文本的任一字符均不相同。为实现这一目的，在汉语转换过程中，填充字符使用生僻字或者希腊字母；在英语转换过程中，填充字符使用者希腊字母。

通过对转换文本的字符进行补位，能够在转换错误的情况下，快速的实现汉明距离的计算，提高了准确率计算效率。

为解决上述技术问题，本发明实施例还提供一种交互信息测试装置。

具体请参阅图8，图8为本实施例交互信息测试装置基本结构示意图。

如图8所示，一种交互信息测试装置，包括：获取模块2100、处理模块2200、转换模块2300和执行模块2400。其中，获取模块2100用于获取预设的模板文本，其中，模板文本中记录交互信息；处理模块2200用于根据模板文本诵读交互信息生成与交互信息对应的语音数据；转换模块2300用于将语音数据输入至语音转换模型中，以获取语音转换模型转换语音数据生成的转换文本，其中，语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型；执行模块2400用于比对模板文本与转换文本的相似度，以获取语音转换模型转换的准确率。

交互信息测试装置通过诵读预设的模板文本生成语音数据，该语音数据中记载于信息与模板文本中文字记载的信息相同，将该语音数据输入至语音转换模型中将语音数据转换为转换文本，将转换文本与模板文本进行相似度比较，就能够获得语音转换模型转换的准确率。通过上传测试方法，能够模拟实际转换场景，得到转换准确率，有利于对语音转换模型进行优化，进一步地提高语音转换模型的转换效率。

在一些实施方式中，模板文本中包括表征交互信息的语音交互环境的环境信息，交互信息测试装置还包括：第一获取子模块和第一处理子模块。其中，第一获取子模块用于获取模板文本中表征交互信息的语音交互环境的环境信息；第一处理子模块用于在预设的干扰数据库中查找与环境信息具有映射关系的噪音数据。

在一些实施方式中，交互信息测试装置还包括：第二处理子模块和第一执行子模块。其中，第二处理子模块用于根据模板文本诵读交互信息生成与交互信息对应的诵读音频文件；第一执行子模块用于在诵读音频文件中添加噪音数据生成语音数据，以模拟交互信息的语音交互环境。

在一些实施方式中，交互信息测试装置还包括：第一采样子模块、第三处理子模块和第一转换子模块。其中，第一采样子模块用于将语音数据通过预处理分割为若干音频块，其中，各个音频块均为具有固定时间长度的频谱图；第三处理子模块用于将若干音频块根据时序进行排列生成时序音频矩阵；第一转换子模块用于将时序音频矩阵输入至语音转换模型中，以获取语音转换模型转换时序音频矩阵生成的转换文本，语音转换模型为预先训练至收敛状态，用于将语音信息转换为文字信息的循环神经网络模型。

在一些实施方式中，交互信息中包括场景语句，场景语句在不同的对话场景中具有相同的语音发音但具有不同的文字字段，交互信息测试装置还包括：第一比对子模块、第四处理子模块和第二执行子模块。其中，第一比对子模块用于将场景语句与转换文本中与场景语句对应的转换语句进行比对；第四处理子模块用于当场景语句与转换语句不一致时，根据语音转换模型中的损失函数计算场景语句与转换语句之间的特征向量的向量距离；第二执行子模块用于在语音转换模型中根据向量距离进行反向传播，以校正语音转换模型中的权值，至场景语句与转换语句一致时为止。

在一些实施方式中，交互信息测试装置还包括：第二获取子模块、第一计算子模块和第三执行子模块。其中，第二获取子模块用于获取模板文本的字符长度；第一计算子模块用于计算模板文本与转换文本之间的汉明距离；第三执行子模块用于根据汉明距离与字符长度计算模板文本与转换文本的相似度，其中，模板文本与转换文本的相似度即为语音转换模型转换的准确率。

在一些实施方式中，交互信息测试装置还包括：第三获取子模块、第二比对子模块和第四执行子模块。其中，第三获取子模块用于获取转换文本的字符长度；第二比对子模块用于比对转换文本的字符长度是否小于模板文本的字符长度；第四执行子模块用于当转换文本的字符长度小于模板文本的字符长度时，向转换文本中写入填充字符，以使转换文本的字符长度与模板文本的字符长度相同，其中，填充字符与模板文本中的任一字符之间的汉明距离均为1。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种交互信息测试方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种交互信息测试方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中获取模块2100、处理模块2200、转换模块2300和执行模块2400的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过诵读预设的模板文本生成语音数据，该语音数据中记载于信息与模板文本中文字记载的信息相同，将该语音数据输入至语音转换模型中将语音数据转换为转换文本，将转换文本与模板文本进行相似度比较，就能够获得语音转换模型转换的准确率。通过上传测试方法，能够模拟实际转换场景，得到转换准确率，有利于对语音转换模型进行优化，进一步地提高语音转换模型的转换效率。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例交互信息测试方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims

1.一种交互信息测试方法，其特征在于，包括：

2.根据权利要求1所述的交互信息测试方法，其特征在于，所述模板文本中包括表征所述交互信息的语音交互环境的环境信息，所述根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据之前，包括：

3.根据权利要求2所述的交互信息测试方法，其特征在于，所述根据所述模板文本诵读所述交互信息生成与所述交互信息对应的语音数据包括：

4.根据权利要求1所述的交互信息测试方法，其特征在于，所述将所述语音数据输入至语音转换模型中，以获取所述语音转换模型转换所述语音数据生成的转换文本包括：

将所述若干音频块根据时序进行排列生成时序音频矩阵；

5.根据权利要求1所述的交互信息测试方法，其特征在于，所述交互信息中包括场景语句，所述场景语句在不同的对话场景中具有相同的语音发音但具有不同的文字字段，所述比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率之前，包括：

6.根据权利要求1所述的交互信息测试方法，其特征在于，所述比对所述模板文本与所述转换文本的相似度，以获取所述语音转换模型转换的准确率包括：

获取所述模板文本的字符长度；

计算所述模板文本与所述转换文本之间的汉明距离；

7.根据权利要求6所述的交互信息测试方法，其特征在于，所述计算所述模板文本与所述转换文本之间的汉明距离之前，包括：

获取所述转换文本的字符长度；

8.一种交互信息测试装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述交互信息测试方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述交互信息测试方法的步骤。