CN109327614B

CN109327614B - 全球同声传译手机及方法

Info

Publication number: CN109327614B
Application number: CN201811211344.1A
Authority: CN
Inventors: 廖德南
Original assignee: Yongdeli Silicone Rubber Technology Shenzhen Co ltd
Current assignee: Shenzhen yongdeli Technology Co.,Ltd.
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2021-01-26
Anticipated expiration: 2038-10-17
Also published as: US20200125645A1; US10949626B2; CN109327614A

Abstract

本公开提供一种全球同声传译方法及相关产品，所述方法包括如下步骤：智能手机接收终端发送的通话请求，接通该通话请求，建立通话连接；智能手机接收该通话连接传送的第一语音信息，识别该第一语音信息确定该第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息；智能手机将该第二语音信息通过发声设备播放。本申请提供的技术方案具有用户体验度高的优点。

Description

全球同声传译手机及方法

技术领域

本发明涉及通信及翻译技术领域，具体涉及一种全球同声传译手机及方法。

背景技术

同声传译，简称同传(simultaneous interpretation)，亦称同声翻译、同步口译。是译员在不打断讲话者演讲的情况下，不间断地将演讲者的讲话内容传译给听众的一种口译方式。会场或剧场中配备专门用来进行翻译的电声系统。译员们将演讲词或台词同步译成不同语种，通过电声系统传送，席位上听众可自由选择语种进行收听。

现有的同声传译基于专业人士实现，成本高，并且局限性大，现有的手机由于无法实现通话的翻译，更无法达到同声传译的要求，因此，需要一种能够实现同声传译的手机，影响用户体验度。

发明内容

本发明实施例提供了一种全球同声传译手机及方法，可以提高语言翻译的准确率，实现同声传译，提高用户体验度的优点。

第一方面，本发明实施例提供一种全球同声传译方法，所述方法包括如下步骤：

智能手机接收终端发送的通话请求，接通该通话请求，建立通话连接；

智能手机接收该通话连接传送的第一语音信息，识别该第一语音信息确定该第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息；

智能手机将该第二语音信息通过发声设备播放。

可选的，所述通话连接为2G、4G或5G通话连接。

可选的，所述识别该第一语音信息确定该第一语音信息为非设定语言的方法具体包括：

提取该第一语言信息的终端的号码，确定该号码所属的第一国别，如该第一国别不属于该设定语言的国别时，确定该第一语言信息为非设定语言。

将该第一语言信息组成输入矩阵w，将输入矩阵w作为输入数据输入到神经网络模型的权值矩阵p计算得到正向运算结果，依据该正向运算结果确定该第一语言信息是否为设定语言。

第二方面，提供一种智能手机，所述智能手机包括：处理器、通信单元和发声设备，

所述通信单元，用于接收终端发送的通话请求，接通该通话请求，建立通话连接，接收该通话连接传送的第一语音信息；

所述处理器，用于识别该第一语音信息确定该第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息；控制所述发声设备播放该第二语音信息。

可选的，所述通话连接为2G、4G或5G通话连。

可选的，所述处理器，具体用于提取该第一语言信息的终端的号码，确定该号码所属的第一国别，如该第一国别不属于该设定语言的国别时，确定该第一语言信息为非设定语言。

可选的，所述处理器，具体用于将该第一语言信息组成输入矩阵w，将输入矩阵w作为输入数据输入到神经网络模型的权值矩阵p计算得到正向运算结果，依据该正向运算结果确定该第一语言信息是否为设定语言。

第三方面，提供一种计算机可读存储介质，其存储用于电子数据交换的程序，其中，所述程序使得终端执行第一方面提供的方法。

实施本发明实施例，具有如下有益效果：

可以看出，本申请提供的技术方案在接收通话请求时，接听该通话请求建立通话连接，依据该通话连接接收第一语音信息后，确定第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息，然后将第二语音信息通过发声设备播放，这样就能够实现在通话时对语音信息的实时播放，从而实现同声传译的功能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种终端的结构示意图。

图2是一种全球同声传译方法的流程示意图。

图3是本发明实施例提供的一种输入矩阵与权值矩阵的拆分计算示意图。

图4是本发明实施例提供的智能手机的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为一种终端结构示意图，如图1所示，该终端包括：处理器101、显示屏105、通信模组102、存储器103和扬声器104。

上述处理器101具体可以包括：多核处理器。

可选的，上述处理器101还可以集成神经网络处理芯片。该神经网络处理芯片自身可以携带内存进行数据存储。

参阅图2，图2提供了一种全球同声传译方法，该方法由如图1所示的终端执行，该终端具体可以为手机，该方法如图2所示，包括如下步骤:

步骤S201、智能手机接收终端发送的通话请求，接通该通话请求，建立通话连接；

上述终端可以为手机、平板电脑、PDA等等智能设备。

可选的，上述通话请求具体可以为基于2G的通话请求，也可以为基于4G的通话请求，即VOLTE，当然还可以是基于5G的通话请求或短距离通话请求，例如对讲机等等。

步骤S202、智能手机接收该通话连接传送的第一语音信息，识别该第一语音信息确定该第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息；

上述识别该第一语音信息确定该第一语音信息为非设定语言的方法可以有多种，例如，在一个可选的实施方案中，

获取该第一语言信息的终端的第一位置，确定该第一位置的国别，如该国别不属于该设定语言的国别时，确定该第一语音信息为非设定语言。

例如，该第一语言信息的终端的第一位置为美国，如该设定语言为中文，那么确定该第一语言信息为非设定语言。此种方法能够大致的区分是否属于非设定语言，地理位置会出现一些误差，因为中国人也会在美国出差，也会与国内的人打电话。

又如，提取该第一语言信息的终端的号码，确定该号码所属的第一国别，如该第一国别不属于该设定语言的国别时，确定该第一语言信息为非设定语言。

例如，该终端的号码为001，如该设定语言为中文，因为001代表美国，那么确定该第一语言信息为非设定语言，因为对于一些旅游的人员来说，其虽然在美国旅游打电话回国内，但是其使用的还是国内的手机，因此打电话时，如果是中国的号码，虽然是国际漫游，但是其国家代码还是中国的代码，即086，如果确定是001那么为美国的号码，一般为非设定语言。

再如，可以通过一个分类器来实现，例如机器学习模型来识别该第一语言信息是否为设定语言，此种方式最准确，但是其计算量比较大。

可选的，上述将该第一语音信息翻译成设定语言的第二语音信息的方法可以采用通用的方法来实现，例如科大讯飞的翻译机器人来实现，当然还可以通过其他的方式，例如谷歌翻译助手、百度翻译等等翻译软件来实现。

步骤S203、智能手机将该第二语音信息通过发声设备播放。

本申请提供的技术方案在接收通话请求时，接听该通话请求建立通话连接，依据该通话连接接收第一语音信息后，确定第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息，然后将第二语音信息通过发声设备播放，这样就能够实现在通话时对语音信息的实时播放，从而实现同声传译的功能。

需要说明的是，上述通过一个分类器来实现确定第一语言信息是否为设定语言的方法可以为，如该分类器为神经网络模型，将该第一语言信息组成输入矩阵w，将输入矩阵w作为输入数据输入到神经网络模型的权值矩阵p计算得到正向运算结果，依据该正向运算结果确定该第一语言信息是否为设定语言。

上述将第一语言信息组成输入矩阵w的方法可以采用现有的分类识别算法的输入矩阵组成方法来得到，例如，采集第一语言信息的波形图(例如可以直接通过录音软件来采集该波形图)，将该波形图中采样多个值，将多个值按顺序排列组成该输入矩阵。当然还可以采用其他的方式，本申请并不局限上述输入矩阵的组成方式。

上述确定正向运算结果确定该第一语言信息是否为设定语言的方法具体可以包括：

如该正向运算结果为一个结果矩阵，确定结果矩阵大于设定阈值的x个元素对应的x个位置，如x个位置具有大于x/2个位置对应为设定语言，确定该正向运算结果为设定语言，否者确定该正向运算结果为非设定语言。

当然为了加快计算，如该神经网络模型中具有输入矩阵w与权值矩阵p的矩阵乘法运算，则从输入矩阵w中提取w1行的元素组成输入矩阵w1，将输入矩阵w1按列数拆分成α个列矩阵，将权值矩阵p按行数拆分成α个行矩阵；将α个列矩阵和α个行矩阵分别发送给α个计算单元进行内积运算得到α个矩阵子结果，将α个矩阵子结果对应位置的值相加即得到输出子结果，确定输出子结果中大于设定阈值的x1个元素对应的x1个位置，如x1个位置具有大于0.5X*w0/w1对应为设定语言，确定该正向运算结果为设定语言，否者确定该正向运算结果为非设定语言。

其基于的原理为，对于语言种类的识别，其余翻译不同，其只需要确定部分数据即能够实现对语言类型的区分，例如一个中文“你真漂亮”，对于懂中文的人，其只需要知道漂亮，或你等等信息即能够完全识别出其属于中文，因此本申请的技术方案提取输入矩阵w的部分行的元素，即提取部分信息来进行计算来识别，从而减少计算量，为了提高计算速度，这里将输入矩阵w1以及权值矩阵p按拆分成α个列矩阵与α个行矩阵，然后将列矩阵以及行矩阵对应分发给一个计算装置来计算，例如第1个列矩阵和第1个行矩阵发送第一计算单元，第2个列矩阵和第2个行矩阵发送第二计算单元，以此类推，即能够实现拆分和计算，从而实现并行计算，提高计算速度。

参阅图3，下面以一个实际的例子，为了方便描述，这里的输入矩阵w1为10*10矩阵，该权值矩阵为10*1矩阵，

如果α为5，那么对输入矩阵w1按列切割成5个2*10列矩阵，将该10*1矩阵切割成5个2*1矩阵，将第一个2*10列矩阵以及2*1矩阵分配给第一计算单元，同理，将其他的分配个其他4个计算单元进行计算即能够得到5个结果矩阵，然后将5个结果矩阵对应位置的数值相加即为输入矩阵w1与权值矩阵的输出结果。

本申请提供的技术方案通过拆分以及并行计算的方法来实现对输入数据与权值数据的并行计算，不仅提高了计算速度，并且对于多个计算单元的内存的要求也较低，因为拆分数据以后的数据量小了，相对的内存也教小，上述计算单元具体可以为，加法器和乘法器的组合。

参阅图4，图4提供一种智能手机，所述智能手机包括：处理器401、通信单元402和发声设备403(扬声器或听筒)，

可选的，所述通话连接为2G、4G或5G通话连。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种全球同声传译方法的部分或全部步骤。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种全球同声传译方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种全球同声传译方法，其特征在于，所述方法包括如下步骤：

智能手机将该第二语音信息通过发声设备播放；

所述识别该第一语音信息确定该第一语音信息为非设定语言的方法具体包括：

将该第一语言信息组成输入矩阵w，将输入矩阵w作为输入数据输入到神经网络模型的权值矩阵p计算得到正向运算结果，依据该正向运算结果确定该第一语言信息是否为设定语言；

若该神经网络模型中具有输入矩阵w与权值矩阵p的矩阵乘法运算，则从输入矩阵w中提取部分行的元素组成输入矩阵w1，将输入矩阵w1按列数拆分成α个列矩阵，将权值矩阵p按行数拆分成α个行矩阵；将α个列矩阵和α个行矩阵分别发送给α个计算单元进行内积运算得到α个矩阵子结果，将α个矩阵子结果对应位置的值相加即得到输出子结果，确定输出子结果中大于设定阈值的x1个元素对应的x1个位置，如x1个位置具有大于0.5*w/w1的位置对应为设定语言，确定该正向运算结果为设定语言，否者确定该正向运算结果为非设定语言。

2.根据权利要求1所述的方法，其特征在于，

所述通话连接为2G、4G或5G通话连接。

3.根据权利要求1所述的方法，其特征在于，所述识别该第一语音信息确定该第一语音信息为非设定语言的方法具体包括：

4.一种智能手机，所述智能手机包括：处理器、通信单元和发声设备，其特征在于，

所述处理器，用于识别该第一语音信息确定该第一语音信息为非设定语言时，将该第一语音信息翻译成设定语言的第二语音信息；控制所述发声设备播放该第二语音信息；

所述处理器，具体用于将该第一语言信息组成输入矩阵w，将输入矩阵w作为输入数据输入到神经网络模型的权值矩阵p计算得到正向运算结果，依据该正向运算结果确定该第一语言信息是否为设定语言；

5.根据权利要求4所述的智能手机，其特征在于，

所述通话连接为2G、4G或5G通话连。

6.根据权利要求4所述的智能手机，其特征在于，

所述处理器，具体用于提取该第一语言信息的终端的号码，确定该号码所属的第一国别，如该第一国别不属于该设定语言的国别时，确定该第一语言信息为非设定语言。

7.一种计算机可读存储介质，其存储用于电子数据交换的程序，其中，所述程序使得终端执行如权利要求1-3任意一项提供的方法。