CN110085256B

CN110085256B - 信息处理方法和装置

Info

Publication number: CN110085256B
Application number: CN201910219390.4A
Authority: CN
Inventors: 周汶轩; 赵广石; 潘廷勇; 韩杰
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2021-11-19
Anticipated expiration: 2039-03-21
Also published as: CN110085256A

Abstract

本发明实施例公开了信息处理方法和装置。该方法的实施例包括：响应于接收到第一用户通过第一终端发送的待翻译音频数据，对该待翻译音频数据进行存储和播放；录制同声传译人员的声音信号，以生成并存储该声音信号对应的目标音频数据；对该目标音频数据进行分析，确定该同声传译人员的等级，并生成用于指示该等级的等级信息；将该等级信息进行存储。该实施方式提高了所存储的等级信息的准确性。

Description

信息处理方法和装置

技术领域

本发明实施例涉及视联网技术领域，具体信息处理方法和装置。

背景技术

同声传译(Simultaneous interpretation)，简称“同传”，又称“同声翻译”、“同步口译”，是指译员在不打断讲话者讲话的情况下，不间断地将内容口译给听众的一种翻译方式。同声传译员通常通过专用的设备提供即时的翻译。在不同的场景下，通常需要有效地选择出不同水平的同声传译人员。

现有的方式，通常是通过对同声传译人员进行预先考试，来确定同声传译人员的等级，并存储各同声传译人员的等级信息。然而，由于同声传译人员所擅长领域存在差异、以及业务水平随时间变化等因素，导致预先所存储的同声传译人员的等级信息与同声传译人员的实际业务水平不符合，从而造成所存储的等级信息的准确性较低的问题。

发明内容

本发明实施例提出了信息处理方法和装置，以解决现有技术中所存储的等级信息的准确性较低的问题的技术问题。

第一方面，本发明实施例提供了一种信息处理方法，该方法应用于视联网中的目标终端，目标终端与第一终端通过视联网通信连接，方法包括：响应于接收到第一用户通过第一终端发送的待翻译音频数据，对待翻译音频数据进行存储和播放；录制同声传译人员的声音信号，以生成并存储声音信号对应的目标音频数据，其中，声音信号为同声传译人员对所播放的待翻译音频数据进行同声传译的过程中所发出的声音信号；对目标音频数据进行分析，确定同声传译人员的等级，并生成用于指示等级的等级信息；将等级信息进行存储。

在一些实施例中，目标终端和服务器通过视联网通信连接，服务器分别与第一终端和第二终端通过视联网通信连接；以及在录制同声传译人员的声音信号，以生成并存储声音信号对应的目标音频数据之后，方法还包括：将目标音频数据发送至服务器，以使服务器将目标音频数据转发至第二用户所使用的第二终端。

在一些实施例中，对目标音频数据进行分析，确定同声传译人员的等级，包括：对目标音频数据进行分析，确定目标音频数据的流畅度、清晰度和准确度，其中，流畅度、清晰度和准确度分别为位于预设数值区间的数值，预设数值区间被划分为至少两个数值子区间，各数值子区间分别对应不同的等级；确定流畅度、清晰度和准确度的平均值，将平均值所位于的数值子区间作为目标数值子区间，将目标数值子区间对应的等级作为同声传译人员的等级。

在一些实施例中，对目标音频数据进行分析，确定目标音频数据的流畅度、清晰度和准确度，包括：通过如下步骤确定目标音频数据的流畅度：确定目标音频数据中的异常数据的时长，并作为目标时长；确定目标音频数据的总时长与目标时长的差值，并确定差值与总时长的比值；确定比值映射至预设数值区间后的第一数值，将第一数值确定为目标音频数据的流畅度。

在一些实施例中，对目标音频数据进行分析，确定目标音频数据的流畅度、清晰度和准确度，包括：通过如下步骤确定目标音频数据的准确度：将待翻译音频数据输入至预训练的第一语音识别模型，生成第一语音识别结果，其中，第一语音识别模型用于对第一语言的语音进行语音识别，第一语言为待翻译音频数据对应的语言；将第一语音识别结果输入至预训练的翻译模型，生成翻译结果，其中，翻译结果用于将第一语言的信息翻译为目标语言的信息，目标语言为目标音频数据对应的语言；将目标音频数据输入至预训练的第二语音识别模型，生成第二语音识别结果，其中，第二语音识别模型用于对目标语言的语音进行语音识别；确定翻译结果与第二语音识别结果的相似度，确定相似度映射至预设数值区间后的第二数值，将第二数值确定为目标音频数据的准确度。

在一些实施例中，对目标音频数据进行分析，确定目标音频数据的流畅度、清晰度和准确度，包括：通过如下步骤确定目标音频数据的清晰度：对第二语音识别结果进行语法检查，得到评分；确定评分映射至预设数值区间后的第三数值，将第三数值确定为目标音频数据的清晰度。

第二方面，本发明实施例提供了一种信息处理装置，该装置应用于视联网中的目标终端，目标终端与第一终端通过视联网通信连接，装置包括：接收单元，被配置成响应于接收到第一用户通过第一终端发送的待翻译音频数据，对待翻译音频数据进行存储和播放；录制单元，被配置成录制同声传译人员的声音信号，以生成并存储声音信号对应的目标音频数据，其中，声音信号为同声传译人员对所播放的待翻译音频数据进行同声传译的过程中所发出的声音信号；分析单元，被配置成对目标音频数据进行分析，确定同声传译人员的等级，并生成用于指示等级的等级信息；存储单元，被配置成将等级信息进行存储。

在一些实施例中，目标终端和服务器通过视联网通信连接，服务器分别与第一终端和第二终端通过视联网通信连接；以及装置还包括：转发单元，被配置成将目标音频数据发送至服务器，以使服务器将目标音频数据转发至第二用户所使用的第二终端。

在一些实施例中，分析单元，包括：分析模块，被配置成对目标音频数据进行分析，确定目标音频数据的流畅度、清晰度和准确度，其中，流畅度、清晰度和准确度分别为位于预设数值区间的数值，预设数值区间被划分为至少两个数值子区间，各数值子区间分别对应不同的等级；确定模块，被配置成确定流畅度、清晰度和准确度的平均值，将平均值所位于的数值子区间作为目标数值子区间，将目标数值子区间对应的等级作为同声传译人员的等级。

在一些实施例中，分析模块进一步被配置成：通过如下步骤确定目标音频数据的流畅度：确定目标音频数据中的异常数据的时长，并作为目标时长；确定目标音频数据的总时长与目标时长的差值，并确定差值与总时长的比值；确定比值映射至预设数值区间后的第一数值，将第一数值确定为目标音频数据的流畅度。

在一些实施例中，分析模块进一步被配置成：通过如下步骤确定目标音频数据的准确度：将待翻译音频数据输入至预训练的第一语音识别模型，生成第一语音识别结果，其中，第一语音识别模型用于对第一语言的语音进行语音识别，第一语言为待翻译音频数据对应的语言；将第一语音识别结果输入至预训练的翻译模型，生成翻译结果，其中，翻译结果用于将第一语言的信息翻译为目标语言的信息，目标语言为目标音频数据对应的语言；将目标音频数据输入至预训练的第二语音识别模型，生成第二语音识别结果，其中，第二语音识别模型用于对目标语言的语音进行语音识别；确定翻译结果与第二语音识别结果的相似度，确定相似度映射至预设数值区间后的第二数值，将第二数值确定为目标音频数据的准确度。

在一些实施例中，分析模块进一步被配置成：通过如下步骤确定目标音频数据的清晰度：对第二语音识别结果进行语法检查，得到评分；确定评分映射至预设数值区间后的第三数值，将第三数值确定为目标音频数据的清晰度。

本发明实施例提供的信息处理方法和装置，应用视联网的特性，通过目标终端在接收到第一用户通过第一终端发送的待翻译音频数据后，对待翻译音频数据进行存储和播放；而后录制同声传译人员的声音信号，以生成并存储声音信号对应的目标音频数据；最后对目标音频数据进行分析，确定同声传译人员的等级，并生成用于指示等级的等级信息，进而将等级信息进行存储，从而可以在同声传译人员进行同声传译的过程中，生成并存储同声传译人员的等级信息。从而，能够对同声传译人员进行实时地等级测评，使所存储的等级信息具有实时性，由于该等级信息能够体现同声传译人员当前的业务水平，因而提高了所存储的等级信息的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明的一种视联网的组网示意图；

图2是本发明的一种节点服务器的硬件结构示意图；

图3是本发明的一种接入交换机的硬件结构示意图；

图4是本发明的一种以太网协转网关的硬件结构示意图；

图5是本发明的信息处理方法的一个实施例的流程图；

图6是本发明的信息处理装置的一个实施例的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台，通过电视或电脑实现高清品质视频播放。

为使本领域技术人员更好地理解本发明实施例，以下对视联网进行介绍：

视联网所应用的部分技术如下所述：

网络技术(Network Technology)

视联网的网络技术创新改良了传统以太网(Ethernet)，以面对网络上潜在的巨大视频流量。不同于单纯的网络分组包交换(Packet Switching)或网络电路交换(CircuitSwitching)，视联网技术采用Packet Switching满足Streaming需求。视联网技术具备分组交换的灵活、简单和低价，同时具备电路交换的品质和安全保证，实现了全网交换式虚拟电路，以及数据格式的无缝连接。

交换技术(Switching Technology)

视联网采用以太网的异步和包交换两个优点，在全兼容的前提下消除了以太网缺陷，具备全网端到端无缝连接，直通用户终端，直接承载IP数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态，是一个实时交换平台，能够实现目前互联网无法实现的全网大规模高清视频实时传输，将众多网络视频应用推向高清化、统一化。

服务器技术(Server Technology)

视联网和统一视频平台上的服务器技术不同于传统意义上的服务器，它的流媒体传输是建立在面向连接的基础上，其数据处理能力与流量、通讯时间无关，单个网络层就能够包含信令及数据传输。对于语音和视频业务来说，视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多，效率比传统服务器大大提高了百倍以上。

储存器技术(Storage Technology)

统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统，将服务器指令中的节目信息映射到具体的硬盘空间，媒体内容不再经过服务器，瞬间直接送达到用户终端，用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动，资源消耗仅占同等级IP互联网的20％，但产生大于传统硬盘阵列3倍的并发流量，综合效率提升10倍以上。

网络安全技术(Network Security Technology)

视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题，一般不需要杀毒程序、防火墙，杜绝了黑客与病毒的攻击，为用户提供结构性的无忧安全网络。

服务创新技术(Service Innovation Technology)

统一视频平台将业务与传输融合在一起，不论是单个用户、私网用户还是一个网络的总合，都不过是一次自动连接。用户终端、机顶盒或PC直接连到统一视频平台，获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程，可以使用非常少的代码即可实现复杂的应用，实现“无限量”的新业务创新。

视联网的组网如下所述：

视联网是一种集中控制的网络结构，该网络可以是树型网、星型网、环状网等等类型，但在此基础上网络中需要有集中控制节点来控制整个网络。

如图1所示，视联网分为接入网和城域网两部分。

接入网部分的设备主要可以分为3类：节点服务器，接入交换机，终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连，接入交换机可以与多个终端相连，并可以连接以太网。

其中，节点服务器是接入网中起集中控制功能的节点，可控制接入交换机和终端。节点服务器可直接与接入交换机相连，也可以直接与终端相连。

类似的，城域网部分的设备也可以分为3类：城域服务器，节点交换机，节点服务器。城域服务器与节点交换机相连，节点交换机可以与多个节点服务器相连。

其中，节点服务器即为接入网部分的节点服务器，即节点服务器既属于接入网部分，又属于城域网部分。

城域服务器是城域网中起集中控制功能的节点，可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机，也可直接连接节点服务器。

由此可见，整个视联网络是一种分层集中控制的网络结构，而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。

形象地称，接入网部分可以组成统一视频平台(虚线圈中部分)，多个统一视频平台可以组成视联网；每个统一视频平台可以通过城域以及广域视联网互联互通。

视联网设备分类

1.1本发明实施例的视联网中的设备主要可以分为3类：服务器，交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。

1.2其中接入网部分的设备主要可以分为3类：节点服务器，接入交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。

各接入网设备的具体硬件结构为：

节点服务器：

如图2所示，主要包括网络接口模块201、交换引擎模块202、CPU模块203、磁盘阵列模块204；

其中，网络接口模块201，CPU模块203、磁盘阵列模块204进来的包均进入交换引擎模块202；交换引擎模块202对进来的包进行查地址表205的操作，从而获得包的导向信息；并根据包的导向信息把该包存入对应的包缓存器206的队列；如果包缓存器206的队列接近满，则丢弃；交换引擎模202轮询所有包缓存器队列，如果满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制，包括对硬盘的初始化、读写等操作；CPU模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理，对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置，以及，对磁盘阵列模块204的配置。

接入交换机：

如图3所示，主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和CPU模块304；

其中，下行网络接口模块301进来的包(上行数据)进入包检测模块305；包检测模块305检测包的目地地址(DA)、源地址(SA)、数据包类型及包长度是否符合要求，如果符合，则分配相应的流标识符(stream-id)，并进入交换引擎模块303，否则丢弃；上行网络接口模块302进来的包(下行数据)进入交换引擎模块303；CPU模块204进来的数据包进入交换引擎模块303；交换引擎模块303对进来的包进行查地址表306的操作，从而获得包的导向信息；如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的，则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃；如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的，则根据包的导向信息，把该数据包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃。

交换引擎模块303轮询所有包缓存器队列，在本发明实施例中分两种情形：

如果该队列是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零；3)获得码率控制模块产生的令牌；

如果该队列不是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。

码率控制模块208是由CPU模块204来配置的，在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌，用以控制上行转发的码率。

CPU模块304主要负责与节点服务器之间的协议处理，对地址表306的配置，以及，对码率控制模块308的配置。

以太网协转网关：

如图4所示，主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、CPU模块404、包检测模块405、码率控制模块408、地址表406、包缓存器407和MAC添加模块409、MAC删除模块410。

其中，下行网络接口模块401进来的数据包进入包检测模块405；包检测模块405检测数据包的以太网MAC DA、以太网MAC SA、以太网length or frame type、视联网目地地址DA、视联网源地址SA、视联网数据包类型及包长度是否符合要求，如果符合则分配相应的流标识符(stream-id)；然后，由MAC删除模块410减去MAC DA、MAC SA、length or frame type(2byte)，并进入相应的接收缓存，否则丢弃；

下行网络接口模块401检测该端口的发送缓存，如果有包则根据包的视联网目地地址DA获知对应的终端的以太网MAC DA，添加终端的以太网MAC DA、以太网协转网关的MACSA、以太网length or frame type，并发送。

以太网协转网关中其他模块的功能与接入交换机类似。

终端：

主要包括网络接口模块、业务处理模块和CPU模块；例如，机顶盒主要包括网络接口模块、视音频编解码引擎模块、CPU模块；编码板主要包括网络接口模块、视音频编码引擎模块、CPU模块；存储器主要包括网络接口模块、CPU模块和磁盘阵列模块。

1.3城域网部分的设备主要可以分为2类：节点服务器，节点交换机，城域服务器。其中，节点交换机主要包括网络接口模块、交换引擎模块和CPU模块；城域服务器主要包括网络接口模块、交换引擎模块和CPU模块构成。

2、视联网数据包定义

2.1接入网数据包定义

接入网的数据包主要包括以下几部分：目的地址(DA)、源地址(SA)、保留字节、payload(PDU)、CRC。

如下表所示，接入网的数据包主要包括以下几部分：

其中：

目的地址(DA)由8个字节(byte)组成，第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等)，最多有256种可能，第二字节到第六字节为城域网地址，第七、第八字节为接入网地址；

源地址(SA)也是由8个字节(byte)组成，定义与目的地址(DA)相同；

保留字节由2个字节组成；

payload部分根据不同的数据报的类型有不同的长度，如果是各种协议包的话是64个字节，如果是单组播数据包话是32+1024＝1056个字节，当然并不仅仅限于以上2种；

CRC有4个字节组成，其计算方法遵循标准的以太网CRC算法。

2.2城域网数据包定义

城域网的拓扑是图型，两个设备之间可能有2种、甚至2种以上的连接，即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是，城域网设备的城域网地址却是唯一的，为了精确描述城域网设备之间的连接关系，在本发明实施例中引入参数：标签，来唯一描述一个城域网设备。

本说明书中标签的定义和MPLS(Multi-Protocol Label Switch，多协议标签交换)的标签的定义类似，假设设备A和设备B之间有两个连接，那么数据包从设备A到设备B就有2个标签，数据包从设备B到设备A也有2个标签。标签分入标签、出标签，假设数据包进入设备A的标签(入标签)是0x0000，这个数据包离开设备A时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程，也就意味着城域网的地址分配、标签分配都是由城域服务器主导的，节点交换机、节点服务器都是被动的执行而已，这一点与MPLS的标签分配是不同的，MPLS的标签分配是交换机、服务器互相协商的结果。

如下表所示，城域网的数据包主要包括以下几部分：

即目的地址(DA)、源地址(SA)、保留字节(Reserved)、标签、payload(PDU)、CRC。其中，标签的格式可以参考如下定义：标签是32bit，其中高16bit保留，只用低16bit，它的位置是在数据包的保留字节和payload之间。

基于视联网的上述特性，提出了本发明实施例的核心构思之一，遵循视联网的协议，由目标终端在接收到第一用户通过第一终端发送的待翻译音频数据后，对所述待翻译音频数据进行存储和播放；而后录制同声传译人员的声音信号，以生成并存储所述声音信号对应的目标音频数据；最后对所述目标音频数据进行分析，确定所述同声传译人员的等级，并生成用于指示所述等级的等级信息，进而将所述等级信息进行存储，从而可以在同声传译人员进行同声传译的过程中，生成并存储同声传译人员的等级信息。

继续参考图5，其示出了根据本发明的信息处理方法的一个实施例的流程500。该方法可以应用于视联网中的目标终端。

上述目标终端可以是同声传译人员所使用的终端。上述目标终端可以进行音频数据的接收、播放、录制和发送等操作。上述目标终端可以与第一终端通过视联网通信连接。

上述第一终端可以是第一用户所使用的终端。上述第一用户可以是当前正在讲话的用户。第一终端可以录制第一用户的语音，并将该语音发送至上述目标终端或者其他终端(例如需要收听上述第一用户的讲话内容的第二用户所使用的终端)。

可选的，上述目标终端和服务器可以通过视联网通信连接，上述服务器可以分别与上述第一终端和第二终端通过视联网通信连接。上述服务器可以进行音频数据的转发。上述第二终端可以是需要收听上述第一用户的讲话内容的第二用户所使用的终端。

可以理解的是，当第一用户与第二用户所使用的语言为相同语种时，第一用户和第二用户可直接进行语音沟通，即第一用户的语音和第二用户的语音均不需要进行翻译。此时，上述第一终端可以在获取到第一用户的语音后，将该语音对应的音频数据直接发送至上述服务器。而后，上述服务器可以直接将该音频数据转发至上述第二终端。

上述信息处理方法的流程500，具体可以包括如下步骤：

步骤501，响应于接收到第一用户通过第一终端发送的待翻译音频数据，对待翻译音频数据进行存储和播放。

在本实施例中，信息处理方法的执行主体(如上述目标终端)响应于接收到第一用户通过第一终端发送的待翻译音频数据，可以对上述待翻译音频数据进行存储和播放。此处，上述执行主体中可以安装有扬声器和麦克风等装置，上述第一终端可以通过上述扬声器播放上述待翻译音频数据，并可以通过上述麦克风接收同声传译人员的声音信号。

实践中，上述待翻译音频数据可以是对第一用户发出的声音信号进行数字化后的数据。该待翻译音频数据可以由第一终端对声音信号进行数字化后生成。

其中，声音信号的数字化过程是以一定的频率将来自麦克风等设备的连续的模拟音频信号转换成数字信号得到音频数据的过程。声音信号的数字化过程通常包含采样、量化和编码三个步骤。其中，采样是指用每隔一定时间间隔的信号样本值序列来代替原来在时间上连续的信号。量化是指用有限幅度近似表示原来在时间上连续变化的幅度值，把模拟信号的连续幅度变为有限数量、有一定时间间隔的离散值。编码则是指按照一定的规律，把量化后的离散值用二进制数码表示。通常，声音信号的数字化过程有两个重要的指标，分别为采样频率(Sampling Rate)和采样大小(Sampling Size)。其中，采样频率也称为采样速度或者采样率。采样频率可以是每秒从连续信号中提取并组成离散信号的采样个数。采样频率可以用赫兹(Hz)来表示。采样大小可以用比特(bit)来表示。此处，脉冲编码调制(Pulse Code Modulation，PCM)可以实现将模拟音频信号经过采样、量化、编码转换成的数字化的音频数据。因此，上述待翻译音频数据可以是PCM编码格式的数据。此外，上述待翻译音频数据还可以采用其他编码格式，此处不做限定。

步骤502，录制同声传译人员的声音信号，以生成并存储该声音信号对应的目标音频数据。

在本实施例中，上述执行主体可以录制同声传译人员的声音信号，以生成并存储上述声音信号对应的目标音频数据。其中，上述同声传译人员的声音信号为上述同声传译人员对所播放的待翻译音频数据进行同声传译的过程中所发出的声音信号。

需要说明的是，由于音频数据是对声音信号进行数字化后的数据，因而，上述目标音频数据即为对所录制的同声传译人员的声音信号进行数字化后的数据。

在本实施例的一些可选的实现方式中，在生成并存储上述声音信号对应的目标音频数据之后，上述执行主体可以将上述目标音频数据发送至上述服务器，以使上述服务器将上述目标音频数据转发至第二用户所使用的上述第二终端。

步骤503，对目标音频数据进行分析，确定同声传译人员的等级，并生成用于指示等级的等级信息。

在本实施例中，上述执行主体可以利用各种分析方法，对上述目标音频数据进行分析，确定同声传译人员的等级，并生成用于指示等级的等级信息。

在本实施例的一些可选的实现方式中，上述执行主体可以首先对上述目标音频数据进行分析，确定上述目标音频数据的流畅度、清晰度和准确度。其中，上述流畅度、上述清晰度和上述准确度可以分别为位于预设数值区间(例如数值区间[0，10])的数值。上述预设数值区间被划分为至少两个数值子区间(例如分别为[0，6)、[6，7.5)、[7.5，9)、[9，10])。各数值子区间可以分别对应不同的等级(例如[0，6)对应D级，[6，7.5)对应C级、[7.5，9)对应B级、[9，10]对应A级)。而后，上述执行主体可以确定上述流畅度、上述清晰度和上述准确度的平均值，将上述平均值所位于的数值子区间作为目标数值子区间，将上述目标数值子区间对应的等级作为上述同声传译人员的等级。需要说明的是，所述流畅度、清晰度和准确度的具体数值，可以通过预先设置的评估规则来确定。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下步骤确定上述目标音频数据的流畅度：

第一步，确定上述目标音频数据中的异常数据的时长，并作为目标时长。具体地，可以对上述目标音频数据进行特征检测，得到上述目标音频数据中的各帧的特征值。实践中，可以通过对上述目标音频数据进行时域分析、时频变换、频域特征分析等，得到各帧对应的特征值。其中，各帧的特征值可以包括但不限于以下至少之一：能量包络值、频谱流量、频谱平滑度、谱偏斜、谱峰态等等。而后，可以从上述各帧中查找特征值出现异常的帧段，确定出现异常的帧段的时长，并作为目标时长。

第二步，确定上述目标音频数据的总时长与上述目标时长的差值，并确定上述差值与上述总时长的比值。

第三步，确定上述比值映射至上述预设数值区间(例如数值区间[0,10])后的第一数值，将上述第一数值确定为上述目标音频数据的流畅度。可以理解的是，上述比值为数值区间[0,1]的数值，因此，将上述比值映射至上述预设数值区间后所得的第一数值，即可以是将该比值乘以10倍所得到的数值。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下步骤确定上述目标音频数据的准确度：

第一步，将上述待翻译音频数据输入至预训练的第一语音识别模型，生成第一语音识别结果。其中，上述第一语音识别模型用于对第一语言的语音进行语音识别。上述第一语言为上述待翻译音频数据对应的语言(即第一用户所使用的语言)。此处，上述第一语音识别结果可以是记录有待翻译音频数据对应的文字的文本。实践中，上述第一语音识别模型可以是预先通过有监督训练而预先生成的，也可以是现有的语音识别模型。

第二步，将上述第一语音识别结果输入至预训练的翻译模型，生成翻译结果。其中，上述翻译结果用于将第一语言的信息翻译为目标语言的信息，上述目标语言为上述目标音频数据对应的语言。实践中，上述翻译模型可以是预先通过有监督训练而预先生成的，也可以是现有的翻译模型。

第三步，将上述目标音频数据输入至预训练的第二语音识别模型，生成第二语音识别结果。其中，上述第二语音识别模型可以用于对上述目标语言的语音进行语音识别。此处，上述第二语音识别结果可以是记录有目标音频数据对应的文字的文本。实践中，上述第二语音识别模型可以是预先通过有监督训练而预先生成的，也可以是现有的语音识别模型。

第四步，确定上述翻译结果与上述第二语音识别结果的相似度，确定上述相似度映射至上述预设数值区间后的第二数值，将上述第二数值确定为上述目标音频数据的准确度。实践中，可以使用各种相似度计算方式(例如字符串匹配、欧氏距离等)确定上述翻译结果与上述第二语音识别结果的相似度，此处不作限定。需要说明的是，将上述相似度映射至上述预设数值区间以得到第二数值的方式，与上述得到第一数值的方式基本相同，此处不再赘述。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下步骤确定上述目标音频数据的清晰度：

第一步，对上述第二语音识别结果进行语法检查，得到评分。此处，可以利用各种现有的或者开源的语法检查工具或应用来确定第二语音识别结果的评分。

第二步，确定上述评分映射至上述预设数值区间后的第三数值，将上述第三数值确定为上述目标音频数据的清晰度。需要说明的是，将上述评分映射至上述预设数值区间以得到第三数值的方式，与上述得到第一数值的方式基本相同，此处不再赘述。

需要说明的是，上述执行主体还可以通过其他方式确定上述同声传译人员的等级，此处不作限定。例如，仅通过确定上述目标音频数据的流畅度来确定上述同声传译人员的等级，或者，仅通过确定上述目标音频数据的准确度来确定上述同声传译人员的等级等等。

步骤504，将等级信息进行存储。

在本实施例中，上述执行主体可以将等级信息进行存储，从而，可以得到同声传译人员的最新的等级。在需要进行同声传译人员的选取时，可以基于所存储的等级信息，进行针对性的选取。

在本发明实施例中，通过目标终端在接收到第一用户通过第一终端发送的待翻译音频数据后，对上述待翻译音频数据进行存储和播放；而后录制同声传译人员的声音信号，以生成并存储上述声音信号对应的目标音频数据；最后对上述目标音频数据进行分析，确定上述同声传译人员的等级，并生成用于指示上述等级的等级信息，进而将上述等级信息进行存储，从而可以在同声传译人员进行同声传译的过程中，生成并存储同声传译人员的等级信息。从而，能够对同声传译人员进行实时地等级测评，使所存储的等级信息具有实时性，由于该等级信息能够体现同声传译人员当前的业务水平，因而提高了所存储的等级信息的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

进一步参考图6，示出了本发明的信息处理装置的一个实施例的结构示意图，该装置可以应用于视联网中的目标终端，上述目标终端与第一终端通过视联网通信连接。

如图6所示，本实施例所述的信息处理装置600包括：接收单元601，被配置成响应于接收到第一用户通过上述第一终端发送的待翻译音频数据，对上述待翻译音频数据进行存储和播放；录制单元602，被配置成录制同声传译人员的声音信号，以生成并存储上述声音信号对应的目标音频数据，其中，上述声音信号为上述同声传译人员对所播放的待翻译音频数据进行同声传译的过程中所发出的声音信号；分析单元603，被配置成对上述目标音频数据进行分析，确定上述同声传译人员的等级，并生成用于指示上述等级的等级信息；存储单元604，被配置成将上述等级信息进行存储。

在本实施例的一些可选的实现方式中，上述目标终端和服务器通过视联网通信连接，上述服务器分别与上述第一终端和第二终端通过视联网通信连接；以及上述装置还包括：转发单元，被配置成将上述目标音频数据发送至上述服务器，以使上述服务器将上述目标音频数据转发至第二用户所使用的上述第二终端。

在本实施例的一些可选的实现方式中，上述分析单元，包括：分析模块，被配置成对上述目标音频数据进行分析，确定上述目标音频数据的流畅度、清晰度和准确度，其中，上述流畅度、上述清晰度和上述准确度分别为位于预设数值区间的数值，上述预设数值区间被划分为至少两个数值子区间，各数值子区间分别对应不同的等级；确定模块，被配置成确定上述流畅度、上述清晰度和上述准确度的平均值，将上述平均值所位于的数值子区间作为目标数值子区间，将上述目标数值子区间对应的等级作为上述同声传译人员的等级。

在本实施例的一些可选的实现方式中，上述分析模块进一步被配置成：通过如下步骤确定上述目标音频数据的流畅度：确定上述目标音频数据中的异常数据的时长，并作为目标时长；确定上述目标音频数据的总时长与上述目标时长的差值，并确定上述差值与上述总时长的比值；确定上述比值映射至上述预设数值区间后的第一数值，将上述第一数值确定为上述目标音频数据的流畅度。

在本实施例的一些可选的实现方式中，上述分析模块进一步被配置成：通过如下步骤确定上述目标音频数据的准确度：将上述待翻译音频数据输入至预训练的第一语音识别模型，生成第一语音识别结果，其中，上述第一语音识别模型用于对第一语言的语音进行语音识别，上述第一语言为上述待翻译音频数据对应的语言；将上述第一语音识别结果输入至预训练的翻译模型，生成翻译结果，其中，上述翻译结果用于将第一语言的信息翻译为目标语言的信息，上述目标语言为上述目标音频数据对应的语言；将上述目标音频数据输入至预训练的第二语音识别模型，生成第二语音识别结果，其中，上述第二语音识别模型用于对上述目标语言的语音进行语音识别；确定上述翻译结果与上述第二语音识别结果的相似度，确定上述相似度映射至上述预设数值区间后的第二数值，将上述第二数值确定为上述目标音频数据的准确度。

在本实施例的一些可选的实现方式中，上述分析模块进一步被配置成：通过如下步骤确定上述目标音频数据的清晰度：对上述第二语音识别结果进行语法检查，得到评分；确定上述评分映射至上述预设数值区间后的第三数值，将上述第三数值确定为上述目标音频数据的清晰度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种信息处理方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信息处理方法，其特征在于，所述方法应用于视联网中的目标终端，所述目标终端与第一终端通过视联网通信连接，所述方法包括：

响应于接收到第一用户通过所述第一终端发送的待翻译音频数据，对所述待翻译音频数据进行存储和播放；

录制同声传译人员的声音信号，以生成并存储所述声音信号对应的目标音频数据，其中，所述声音信号为所述同声传译人员对所播放的待翻译音频数据进行同声传译的过程中所发出的声音信号；

对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度与准确度，基于所述流畅度、清晰度与所述准确度所位于的预设数值区间，确定所述同声传译人员的等级，并生成用于指示所述等级的等级信息；

将所述等级信息进行存储。

2.根据权利要求1所述的信息处理方法，其特征在于，所述目标终端和服务器通过视联网通信连接，所述服务器分别与所述第一终端和第二终端通过视联网通信连接；以及

在所述录制同声传译人员的声音信号，以生成并存储所述声音信号对应的目标音频数据之后，所述方法还包括：

将所述目标音频数据发送至所述服务器，以使所述服务器将所述目标音频数据转发至第二用户所使用的所述第二终端。

3.根据权利要求1所述的信息处理方法，其特征在于，所述对所述目标音频数据进行分析，确定所述同声传译人员的等级，包括：

对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度和准确度，其中，所述流畅度、所述清晰度和所述准确度分别为位于预设数值区间的数值，所述预设数值区间被划分为至少两个数值子区间，各数值子区间分别对应不同的等级；

确定所述流畅度、所述清晰度和所述准确度的平均值，将所述平均值所位于的数值子区间作为目标数值子区间，将所述目标数值子区间对应的等级作为所述同声传译人员的等级。

4.根据权利要求3所述的信息处理方法，其特征在于，所述对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度和准确度，包括：

通过如下步骤确定所述目标音频数据的流畅度：

确定所述目标音频数据中的异常数据的时长，并作为目标时长；

确定所述目标音频数据的总时长与所述目标时长的差值，并确定所述差值与所述总时长的比值；

确定所述比值映射至所述预设数值区间后的第一数值，将所述第一数值确定为所述目标音频数据的流畅度。

5.根据权利要求3所述的信息处理方法，其特征在于，所述对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度和准确度，包括：

通过如下步骤确定所述目标音频数据的准确度：

将所述待翻译音频数据输入至预训练的第一语音识别模型，生成第一语音识别结果，其中，所述第一语音识别模型用于对第一语言的语音进行语音识别，所述第一语言为所述待翻译音频数据对应的语言；

将所述第一语音识别结果输入至预训练的翻译模型，生成翻译结果，其中，所述翻译结果用于将所述第一语言的信息翻译为目标语言的信息，所述目标语言为所述目标音频数据对应的语言；

将所述目标音频数据输入至预训练的第二语音识别模型，生成第二语音识别结果，其中，所述第二语音识别模型用于对所述目标语言的语音进行语音识别；

确定所述翻译结果与所述第二语音识别结果的相似度，确定所述相似度映射至所述预设数值区间后的第二数值，将所述第二数值确定为所述目标音频数据的准确度。

6.根据权利要求5所述的信息处理方法，其特征在于，所述对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度和准确度，包括：

通过如下步骤确定所述目标音频数据的清晰度：

对所述第二语音识别结果进行语法检查，得到评分；

确定所述评分映射至所述预设数值区间后的第三数值，将所述第三数值确定为所述目标音频数据的清晰度。

7.一种信息处理装置，其特征在于，所述装置应用于视联网中的目标终端，所述目标终端与第一终端通过视联网通信连接，所述装置包括：

接收单元，被配置成响应于接收到第一用户通过所述第一终端发送的待翻译音频数据，对所述待翻译音频数据进行存储和播放；

录制单元，被配置成录制同声传译人员的声音信号，以生成并存储所述声音信号对应的目标音频数据，其中，所述声音信号为所述同声传译人员对所播放的待翻译音频数据进行同声传译的过程中所发出的声音信号；

分析单元，被配置成对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度与准确度，基于所述流畅度、清晰度与所述准确度所位于的预设数值区间，确定所述同声传译人员的等级，并生成用于指示所述等级的等级信息；

存储单元，被配置成将所述等级信息进行存储。

8.根据权利要求7所述的信息处理装置，其特征在于，所述目标终端和服务器通过视联网通信连接，所述服务器分别与所述第一终端和第二终端通过视联网通信连接；以及

所述装置还包括：

转发单元，被配置成将所述目标音频数据发送至所述服务器，以使所述服务器将所述目标音频数据转发至第二用户所使用的所述第二终端。

9.根据权利要求7所述的信息处理装置，其特征在于，所述分析单元，包括：

分析模块，被配置成对所述目标音频数据进行分析，确定所述目标音频数据的流畅度、清晰度和准确度，其中，所述流畅度、所述清晰度和所述准确度分别为位于预设数值区间的数值，所述预设数值区间被划分为至少两个数值子区间，各数值子区间分别对应不同的等级；

确定模块，被配置成确定所述流畅度、所述清晰度和所述准确度的平均值，将所述平均值所位于的数值子区间作为目标数值子区间，将所述目标数值子区间对应的等级作为所述同声传译人员的等级。

10.根据权利要求9所述的信息处理装置，其特征在于，所述分析模块进一步被配置成：

通过如下步骤确定所述目标音频数据的流畅度：

11.根据权利要求9所述的信息处理装置，其特征在于，所述分析模块进一步被配置成：

通过如下步骤确定所述目标音频数据的准确度：

12.根据权利要求11所述的信息处理装置，其特征在于，所述分析模块进一步被配置成：

通过如下步骤确定所述目标音频数据的清晰度：

对所述第二语音识别结果进行语法检查，得到评分；