CN117672190A

CN117672190A - 一种音译方法及电子设备

Info

Publication number: CN117672190A
Application number: CN202211089982.7A
Authority: CN
Inventors: 丁建邦; 凌雪
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2024-03-08
Also published as: WO2024051729A1

Abstract

本申请提供了一种音译方法及电子设备，该方法应用于电子设备，该方法包括：接收用户输入的第一语言的第一信息；对第一信息进行音译并得到第二语言的多个第二信息，多个第二信息包括第三信息和第四信息，第三信息和第四信息的长度不同；显示多个第二信息。本申请能够使用人工智能AI技术实现质量较高的音译，并且可以一次性返回多个长度不同的音译结果以供用户参考，有效满足用户的音译需求。

Description

一种音译方法及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种音译方法及电子设备。

背景技术

音译是指根据源语言信息的发音在目标语言中寻找发音相近的信息进行替代翻译，例如用发音相近的汉字将英语翻译过来。音译通常用于人名，地名，国名，舶来词，文学著作、电影、音乐等作品的名称等信息的翻译。

但是，用户使用电子设备的音译功能时，电子设备往往只能逐音逐节的翻译，返回给用户的音译结果单一、质量不高，很可能无法满足用户的音译需求。

发明内容

本申请公开了一种音译方法及电子设备，能够提升音译结果的质量，并且可以一次性返回多个音译结果以供用户参考，有效满足用户的音译需求。

第一方面，本申请提供一种音译方法，应用于电子设备，该方法包括：接收用户输入的第一语言的第一信息；对所述第一信息进行音译并得到第二语言的多个第二信息，所述多个第二信息包括第三信息和第四信息，所述第三信息和所述第四信息的长度不同；显示所述多个第二信息。

例如，第一信息为“harmony”，多个第二信息包括长度为2的“鸿蒙”和“哈梦”，以及长度为3的“哈莫尼”。

在上述方法中，电子设备音译第一信息时，可以一次性输出多个长度不同的音译结果(即多个第二信息)以供用户参考，因此，可供用户选择的音译结果的范围大大提升，增加了用户获取到所需音译结果的概率，有效满足用户的音译需求。

在一种可能的实现方式中，所述第一信息为企业名称、品牌名称、商标名称、产品名称、人名、地名、国名、舶来词、文学著作的名称、电影的名称、音乐的名称或者音译热词。

在上述方法中，上述类型的第一信息和通常翻译的句子不同，对于通常翻译的句子，若是逐音逐节音译并返回单一音译结果，很可能是符合用户需求的(因为人工音译往往也是这样的)，但是对于上述类型的第一信息，人工音译通常会使用谐音转换、清/浊辅音转换、首音优化、尾音省略等音译技巧，并且不同用户和/或不同场景下，即使是同一个第一信息，用户所需的音译结果也可能是不同的，因此，若是逐音逐节音译并返回单一音译结果，很可能无法满足用户的音译需求。本申请中，电子设备一次性输出多个长度不同的音译结果以供用户选择，可以满足不同用户和/或不同场景下的个性化需求，提升用户体验。

在一种可能的实现方式中，所述方法还包括：接收用户输入的第三语言的第五信息；对所述第五信息进行直译或者意译并得到第四语言的第六信息；对所述第六信息进行音译并得到所述第三语言的至少一个第七信息；显示所述至少一个第七信息。

例如，第五信息为“基因膝盖领带五月”，第六信息为“genekneetiemay”，至少一个第七信息包括“鸡你太美”。

在上述方法中，电子设备可以先对第五信息进行直译或者意译，然后再对翻译结果进行音译，可以很好地适用于一些特定场景(例如第五信息为音译热词)，满足用户的个性化需求。

在一种可能的实现方式中，所述显示所述多个第二信息之前，所述方法还包括：判断所述第二信息是否包括黑名单中的字符；当所述第二信息包括黑名单中的第一字符时，将所述第二信息中的所述第一字符替换为白名单中的第二字符，所述第二字符是所述白名单中和所述第一字符的发音相似度大于或等于第一阈值的字符。

在一些示例中，白名单包括寓意好的吉利字(例如“美”、“斯”)和实际可用于音译的字符，例如企业名称、品牌名称、商标名称、产品名称、人名、地名、国名、舶来词、文学著作的名称、电影的名称、音乐的名称以及音译热词。黑名单包括寓意不好的晦气字(例如“没”、“死”)和实际不用于音译的字符。

在上述方法中，电子设备可以使用白名单中的字符替换掉第二信息中属于黑名单的字符，例如，使用吉利字替换掉晦气字，音译结果的内容高度可控，更加符合人工音译的习惯，进一步提升音译结果的质量。

在一种可能的实现方式中，所述方法还包括：接收用户输入的第一指令，所述第一指令用于指示所述第一信息的音译结果中的第一个字符为第三字符；所述多个第二信息是基于所述第一指令确定的，所述第二信息中的第一个字符为所述第三字符。

在上述方法中，用户可以自定义音译结果的首字，音译结果的内容高度可控，可以满足用户的个性化需求，提升用户体验。

在一种可能的实现方式中，所述方法还包括：接收用户输入的第二指令，所述第二指令用于指示所述第一信息的音译结果中的最后一个字符为第四字符；所述多个第二信息是基于所述第二指令确定的，所述第二信息中的最后一个字符为所述第四字符。

在上述方法中，用户可以自定义音译结果的尾字，音译结果的内容高度可控，可以满足用户的个性化需求，提升用户体验。

在一种可能的实现方式中，所述方法还包括：接收用户输入的第三指令，所述第三指令用于指示所述第一信息对应的音译结果包括第五字符；所述多个第二信息是基于所述第三指令确定的，所述第二信息包括所述第五字符。

在上述方法中，用户可以自定义音译结果的包含字，音译结果的内容高度可控，可以满足用户的个性化需求，提升用户体验。

在一种可能的实现方式中，所述对所述第一信息进行音译并得到第二语言的多个第二信息，包括：对所述第一信息进行音译并得到所述第二语言的第八信息；将所述第八信息中的第六字符替换为所述第三指令指示的所述第五字符，所述第二信息为替换后的所述第八信息，所述第六字符为所述第八信息中和所述第五字符的发音相似度最大的字符。

在上述方法中，电子设备可以将音译的第八信息中和用户指定字符发音最相似的第六字符，替换为用户指定字符，而不是将预设位置的字符替换为用户指定字符，在满足用户个性化需求的同时保证了音译结果的质量，提升用户体验。

在一种可能的实现方式中，所述方法还包括：接收用户输入的第五语言的第九信息，接收用户输入的第一长度；对所述第九信息进行音译并得到第六语言的至少一个第十信息，所述第十信息的长度为所述第一长度；显示所述至少一个第十信息。

在上述方法中，用户可以自定义音译结果的长度，音译结果的长度高度可控，可以满足用户的个性化需求，提升用户体验。

在一种可能的实现方式中，所述对所述第一信息进行音译并得到第二语言的多个第二信息，包括：使用发音嵌入层将所述第一信息映射为第十一信息，所述第十一信息和第十二信息的距离大于所述第十一信息和第十三信息的距离，所述第十一信息和所述第十二信息的发音相似度大于所述第十一信息和所述第十三信息的发音相似度；将所述十一信息作为音译模型的输入获取输出，所述输出为所述多个第二信息。

在一种可能的实现方式中，所述发音嵌入层是基于多个语句训练得到的，所述多个语句包括第一语句和第二语句，所述第一语句和所述第二语句均包括N个单词，所述第一语句中的第i个单词和所述第二语句中的第i个单词的发音相似度小于或等于第二阈值，N为正整数，i为小于或等于N的正整数。

例如，第十一信息为高维向量。

在上述方法中，发音嵌入层是基于多个发音相似和/或相同的语句训练得到的，经发音嵌入层映射得到的信息之间的距离是根据发音相似度确定的，而不是根据语义相似度确定的，充分考虑到了音译需求和直译和/或意译需求的差异，而音译模型的输入是经发音嵌入层映射得到的信息，因此大大方便了音译模型学习发音拆分和组合规则，让音译模型可以充分捕捉到谐音转换、清/浊辅音转换、首音优化、尾音省略等音译技巧，减少自动音译和人工音译之间的质量差距。

第二方面，本申请实施例提供了一种电子设备，包括收发器、处理器和存储器；上述存储器用于存储计算机程序，上述处理器调用上述计算机程序，用于执行本申请实施例第一方面以及第一方面的任意一种实现方式提供的音译方法。

第三方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时，用于执行本申请实施例第一方面以及第一方面的任意一种实现方式提供的音译方法。

第四方面，本申请实施例提供了一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行本申请实施例第一方面以及第一方面的任意一种实现方式提供的音译方法。

第五方面，本申请实施例提供一种电子设备，该电子设备包括执行本申请任一实施例所介绍的方法或装置。上述电子设备例如为芯片。

附图说明

以下对本申请用到的附图进行介绍。

图1是本申请提供的一种电子设备的硬件结构示意图；

图2是本申请提供的一种电子设备的软件架构示意图；

图3是本申请提供的又一种电子设备的软件架构示意图；

图4是本申请提供的一种音译方法的流程示意图；

图5A是本申请提供的一种发音嵌入层的训练过程的示意图；

图5B是本申请提供的一种发音嵌入层的训练数据的示意图；

图6是本申请提供的一种高维空间的示意图；

图7是本申请提供的又一种电子设备的软件架构示意图；

图8、图9A-图9C、图10、图11本申请提供的一些用户界面实施例的示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前，自动音译技术的实现繁冗，一次音译需要大量的特征转换过程，例如，将英文单词音译为汉字的过程包括：英文单词->音素序列->声母和韵母序列->汉语拼音->汉字。并且，自动音译技术只能实现逐音逐节的翻译，并返回单一、质量较低的音译结果，无法使用谐音转换、清/浊辅音转换、首音优化、尾音省略等音译技巧，质量远低于人工音译，很可能无法满足用户的音译需求。

本申请提供了一种音译方法，可以有效满足用户的音译需求。该方法包括：电子设备可以通过深度学习模型对源语言信息进行音译，并获取到一个或多个目标语言的音译结果返回给用户，在一些示例中，这一个或多个音译结果的长度不同，可供用户选择的音译结果的范围大大提升，增加用户获取到所需音译结果的概率。其中，该深度学习模型可以是基于大数据隐式学习音译过程中的音素组合和拆分规则得到的，因此，可以充分学习到实际音译中使用的音译技巧，提升了自动音译的质量。并且，该深度学习模型实现了端到端的特征转换，即源语言信息->高维特征->目标语言信息，摒弃了繁冗的特征转换过程，效率更高。本申请可以理解为是实现了数据驱动的音译技术。

在一种实施方式中，电子设备可以自动修正深度学习模型得到的音译结果，例如将晦气字替换为吉祥字，进一步提升音译质量。

在一种实施方式中，上述深度学习模型可以基于用户指令获取匹配的音译结果，例如，用户可以自定义音译结果的长度、首字、尾字、包含字中的至少一项，可以理解为是实现了用户导向的音译技术，电子设备提供的音译功能更加丰富，有效满足用户的个性化需求，提升用户体验。

本申请中，电子设备可以是手机、平板电脑、手持计算机、桌面型计算机、膝上型计算机、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、蜂窝电话、个人数字助理(personal digital assistant，PDA)，以及智能电视、智能摄像头等智能家居设备，智能手环、智能手表、智能眼镜等可穿戴设备，增强现实(augmented reality，AR)、虚拟现实(virtual reality，VR)、混合现实(mixed reality，MR)等扩展现实(extendedreality，XR)设备，车载设备或智慧城市设备，本申请实施例对电子设备的具体类型不作特殊限制。

接下来介绍本申请实施例提供的示例性的电子设备100。

图1示例性示出了一种电子设备100的硬件结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

充电管理模块140用于从充电器接收充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G/6G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一种实施方式中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一种实施方式中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一种实施方式中，调制解调处理器可以是独立的器件。在另一种实施方式中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一种实施方式中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。上述无线通信技术可以包括全球移动通讯系统(global system for mobilecommunications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband codedivision multiple access，WCDMA)，时分码分多址(time-division code divisionmultiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenithsatellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一种实施方式中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一种实施方式中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一种实施方式中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

耳机接口170D用于连接有线耳机。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一种实施方式中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一种实施方式中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。

气压传感器180C用于测量气压。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。

距离传感器180F，用于测量距离。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。

环境光传感器180L用于感知环境光亮度。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一种实施方式中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。

按键190包括开机键，音量键等。

马达191可以产生振动提示。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。例如，分层架构的软件系统可以是安卓(Android)系统，也可以是鸿蒙(harmony)操作系统(operating system，OS)，或其它软件系统。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2示例性示出一种电子设备100的软件架构示意图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，日历，音乐，图库，短信息，通话，导航，翻译，浏览器等应用程序。本申请中的应用程序包也可以替换为小程序等其他形式的软件。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

图3示例性示出又一种电子设备100的软件架构示意图。

如图3所示，电子设备100可以包括发音嵌入层200、音译模型300和音译知识库400。其中，发音嵌入层200可以理解为是高维矩阵，发音嵌入层200可以接收源语言信息作为输入，将源语言信息映射为该高维矩阵中的高维向量(可称为源语言特征信息)(作为输出)，例如，假设发音嵌入层200为一个200万×300的矩阵，输入发音嵌入层200的源语言信息包括字符1和字符2，发音嵌入层200可以将字符1和字符2分别映射为上述矩阵中的向量1和向量2，向量1和向量2均为1*300的高维向量。音译模型300可以接收发音嵌入层200输出的源语言特征信息作为输入，输出一个或多个目标语言的音译结果(可称为目标语言的音译集合1)，在一种实施方式中，电子设备接收到用户指令，该用户指令例如但不限于用于设置以下至少一项：音译结果的长度、首字、尾字和包含字，音译模型300可以基于该用户指令获取匹配的一个或多个音译结果，在一些示例中，音译模型300可以对发音嵌入层200输出的源语言特征信息进行编码，然后基于该用户指令进行解码，以得到一个或多个音译结果。

在一种实施方式中，电子设备100还可以包括音译知识库400，音译知识库400可以包括大数据中的音译字符，例如但不限于包括知名的音译品牌、商标、产品、功能、人名、地名、国名、热门词汇等。电子设备100可以使用音译知识库400对音译模型300输出的一个或多个音译结果进行修正，例如使用音译知识库400中的字符替换音译模型300输出的音译结果中发音相同或相近的字符，并得到修正后的一个或多个音译结果(可称为目标语言的音译集合2)。

接下来介绍本申请实施例提供的音译方法。

请参见图4，图4是本申请实施例提供的一种音译方法的流程示意图。该方法可以应用于图1所示的电子设备100。该方法可以应用于图2所示的电子设备100。该方法可以应用于图3所示的电子设备100。该方法可以包括但不限于如下步骤：

S101：电子设备获取源语言信息。

在一种实施方式中，电子设备接收用户输入的源语言信息，源语言信息的形式例如但不限于包括字、词或句等。

S102：电子设备使用发音嵌入层获取源语言信息对应的源语言特征信息。

在一种实施方式中，发音嵌入层可以是基于大量发音相似/相同的数据训练得到的，训练过程的示例可参见下图5A，暂不详述。在一种实施方式中，发音嵌入层可以用于将输入信息映射为高维的特征信息/高维向量，经发音嵌入层映射得到的特征信息在高维空间中的位置是根据发音确定的(例如可以理解为是根据输入信息的发音相似度进行聚类)，在一些示例中，特征信息1对应的输入信息1和特征信息2对应的输入信息2的发音相似度，大于，输入信息1和特征信息3对应的输入信息3的发音相似度，因此，在高维空间中，特征信息1和特征信息2的距离小于特征信息1和特征信息3的距离，具体示例可参见下图6，暂不详述。

在一种实施方式中，电子设备可以使用发音嵌入层将源语言信息映射为高维的源语言特征信息，假设源语言信息表示为X，则发音嵌入层映射得到的X对应的源语言特征信息可以表示为E(X)。

在一种实施方式中，电子设备还可以使用发音嵌入层将预置的长度信息映射为高维的长度特征信息，长度特征信息可以用于预测音译结果的长度。假设长度信息表示为LEN，则发音嵌入层映射得到的LEN对应的长度特征信息可以表示为E(LEN)。

为了方便说明，以下实施例以源语言特征信息表示为E(X)，长度特征信息表示为E(LEN)为例进行说明。

S103：电子设备将源语言特征信息作为音译模型的输入得到输出(即目标语言的音译集合1)。

在一种实施方式中，音译模型属于半自回归模型。半自回归模型不同于自回归模型和非自回归模型，其中，非自回归模型进行音译时需要先预测音译结果的长度(可简称为预测长度)，然后一次性、并行地解码出预测长度的目标语言的音译结果，例如，非自回归模型音译“harmony”时，可以先预测得到音译结果的长度为2，然后一次性解码出“鸿莫”，但通常音译质量不高。自回归模型进行音译时不需要预测音译结果的长度，而是按照顺序依次解码出音译结果中的各个字/词，例如，自回归模型音译“harmony”时，会从左往右依次解码出“哈”、“莫”、“尼”，但生成长度不可控。而半自回归模型可以预测音译结果的长度，然后并行地进行解码，解码过程迭代多次，并输出预测长度的目标语言的音译结果，例如，半自回归模型音译“harmony”时，可以先预测得到音译结果的长度为2，然后，第一次并行解码出“鸿莫”，第二次基于第一次的解码结果进行修正，并行解码出“鸿蒙”，不仅音译结果的长度可预测/可控，而且由于迭代多次，音译结果的质量较高。在一些示例中，音译模型是基于Transformer模型(例如半自回归的翻译模型)得到的。

在一种实施方式中，电子设备可以将源语言特征信息作为音译模型的输入，得到输出：一个或多个目标语言的音译结果，即目标语言的音译集合1。

在一种实施方式中，电子设备可以将源语言特征信息和长度特征信息一起作为音译模型的输入，音译模型可以基于长度特征信息预测源语言特征信息对应的音译结果的长度(可简称为预测长度)，预测长度的数量可以为一个或多个。在一些示例中，音译模型输出的一个或多个音译结果的长度属于上述预测长度。例如，源语言信息为“harmony”，音译模型得到的预测长度包括2和3，音译模型可以输出2个长度为2的音译结果“哈梦”、“鸿蒙”，以及1个长度为3的音译结果“哈莫尼”。

在一种实施方式中，音译模型可以对输入的信息进行编码并得到编码后的向量(例如隐向量)，然后对编码后的向量进行解码并得到一个或多个目标语言的音译结果，其中：

在一些示例中，音译模型可以对源语言特征信息E(X)进行编码并得到源语言编码信息，源语言编码信息可以表示为H(X)，H(X)可以用于解码以获取输出的目标语言的音译集合1。

在一些示例中，音译模型可以对长度特征信息E(LEN)进行编码并得到长度编码信息，长度编码信息可以表示为H(LEN)。音译模型可以根据H(LEN)生成最佳的K个预测长度，K为正整数，上述最佳的K个预测长度例如为预测得到的评分排列在前K位的预测长度，任意一个预测长度对应的评分可以表征音译结果的长度为该预测长度的概率，概率越大，评分越高。可选地，K为可设置的参数，例如，电子设备默认设置K为2，或者，电子设备可以响应于用户操作设置K为用户输入的数字。

在一些示例中，音译模型可以基于上述K个预测长度对源语言编码信息H(X)进行解码，以得到一个或多个长度属于这K个预测长度的音译结果。

在一些示例中，音译模型可以结合注意力得分对源语言编码信息H(X)进行解码，其中，注意力得分是根据注意力机制得到的，注意力机制可以用于缓解自然语言处理中的长距离依赖的问题，结合注意力机制进行解码可以提升音译质量。

在一些示例中，音译模型的解码过程可以迭代T次，T为大于1的正整数，大大提升了解码结果的质量。可选地，T为可设置的参数，例如，电子设备默认设置T为2，或者，电子设备可以响应于用户操作设置T为用户输入的数字。

不限于上述实施方式，在另一种实施方式中，S103之前，该方法还包括：电子设备接收用户指令，该用户指令用于指示音译结果的长度，因此，在S103中，音译模型可以基于该用户指令生成长度为该用户指令指示的长度的一个或多个音译结果。可以理解地，当用户未指示音译结果的长度时，音译模型输出的音译集合1包括预测长度的音译结果，当用户指示音译结果的长度时，音译模型输出的音译集合1包括用户指示的长度的音译结果，可以满足用户在不同场景下的不同需求，提升用户体验。

在一种实施方式中，S103之前，该方法还包括：电子设备接收用户指令，该用户指令用于指示音译结果的首字、尾字和/或包含字，因此，在S103中，音译模型可以基于该用户指令生成匹配的一个或多个音译结果，具体示例如下所示：

在一些示例中，该用户指令用于指示音译结果包括字符1，则音译集合1中的音译结果均包括字符1。

在另一些示例中，该用户指令用于指示音译结果的第一个字符为字符2，则音译集合1中的音译结果的第一个字符均为字符2。

在另一些示例中，该用户指令用于指示音译结果的最后一个字符为字符3，则音译集合11中的音译结果的最后一个字符均为字符3。

接下来示例性示出音译模型的解码过程。以下示例以解码过程的迭代次数T＝2为例进行说明。以下示例以音译集合1中的一个音译结果(可称为目标音译序列)的解码过程为例进行说明，音译集合1中的其他音译结果的解码过程类似。

首次迭代(当前进行的迭代轮次t＝1)可以包括掩码、预测和替换三个步骤，其中：

掩码可以是对目标音译序列中的全部字符进行掩码，以将目标音译序列中的全部字符均用特殊字符[mask]占位为例进行说明，因此，首次迭代时被掩码的目标音译序列可以表示为下式(1)：

其中，y_i是用特殊字符[mask]占位的第i个位置，i为小于或等于N的正整数，N为目标音译序列的长度。在一些示例中，N为电子设备接收到的用户指令指示的音译结果的长度，或者，N为上述K个预测长度中的任意一个。

预测可以是在给定源语言信息X的条件下，对中每个被掩码的位置进行预测，即预测X对应的音译结果中处于该位置的字符。在首轮迭代中，对于第i个掩码位置预测得到的字符/>和对应的置信度/>可以表示为下式(2)和下式(3)：

其中，ω为变量，用于表征置信度。可以为在给定源语言信息X的条件下，首次迭代预测X对应的音译结果中处于位置y_i的字符时，该字符对应的最大置信度。/>可以为在给定源语言信息X的条件下，首次迭代预测得到的X对应的音译结果中处于位置y_i且对应的置信度最大的字符。/>对应的置信度/>可以表征首次迭代时目标音译序列中第i个位置的字符(可简称为第i个字符)为/>的概率。

因此，预测得到的目标音译序列可以表示为对应的置信度可以表示为/>

替换为可选的步骤。当电子设备未接收到用户指令时，可以理解为是用户指令为空，因此，电子设备可以不执行替换步骤，可以理解为是，首次迭代时被替换的序列当电子设备接收到用户指令时，可以解析该用户指令，若该用户指令用于指示音译结果的首字、尾字和/或包含字，电子设备可以执行替换步骤，即使用该用户指令指示的字符替换预测得到的目标音译序列/>中对应的字符，可以但不限于包括以下三种情况：

情况1，用户指令指示音译结果的首字为z₁。电子设备可以使用z₁替换预测得到的目标音译序列中的第1个字符因此，首次迭代时被替换的序列/>可以表示为下式(4)：

其中，可参见下式(5)：

情况2，用户指令指示音译结果的尾字为z₂。电子设备可以使用z₂替换预测得到的目标音译序列中的第N个字符首次迭代时被替换的序列/>可以表示为下式(6)：

其中，可参见下式(7)：

情况3，用户指令指示音译结果包含字符z₃。电子设备可以先计算预测得到的目标音译序列中的每个字符和z₃的发音相似度，然后使用z₃替换其中和z₃的发音相似度最高的字符，因此，首次迭代时被替换的序列/>可以表示为下式(8)：

其中，s_i可参见下式(9)：

其中，E(·)可以表征通过发音嵌入层映射，因此，为/>经过发音嵌入层映射得到的高维向量，E(z₃)为z₃经过发音嵌入层映射得到的高维向量。Sim(·)可以表征计算相似度，例如但不限于用于计算欧式距离、余弦相似度或者皮尔逊相关系数等，因此，s_i可以表征y_i和z₃的发音相似度。/>可以表征包括/>中和z₃的发音相似度最大的字符，该字符被替换为z₃。

二次迭代(当前进行的迭代次数t＝2)可以包括重掩码和重预测两个步骤，其中：

重掩码可以是对首次迭代得到的目标音译序列中的部分字符进行掩码，以下示例以对其中/>个字符(不包括/>中的字符)掩码为例进行说明。电子设备可以将首次迭代的预测得到的置信度/>按照从小到大的顺序排列，对Y^(t＝1)中置信度排列在前/>位的字符进行掩码，二次迭代时被掩码的序列/>可以表示为下式(10)：

其中，可以表示对/>向上取整。/>y_i是用特殊字符[mask]占位的第i个位置，i为小于或等于/>的正整数。电子设备不会对/>中的字符掩码，即/>不包括/>中的字符，例如，假设置信度的取值为[0,1]，电子设备可以将/>中的字符对应的置信度设置为1。

重预测可以是在给定源语言信息X和二次迭代时未被掩码的序列的条件下，对/>中每个被掩码的位置进行预测，即预测X对应的音译结果中处于该位置的字符。在二次迭代中，对于第i个掩码位置/>预测得到的字符/>和对应的置信度/>可以表示为下式(11)和(12)：

其中，可参见下式(13)：

/>

其中，Y为长度是N的目标音译序列。ω为变量，用于表征置信度。可以为在给定源语言信息X和/>的条件下，二次迭代预测X对应的音译结果中处于位置y_i的字符时，该字符对应的最大置信度。/>可以为在给定源语言信息X和/>的条件下，二次迭代预测得到的X对应的音译结果中处于位置y_i且对应的置信度最大的字符。/>对应的置信度/>可以表征二次迭代时目标音译序列中的第i个字符为/>的概率。

其中，对于每个未被掩码的位置预测得到的字符/>和对应的置信度/>继承上一轮迭代(即首次迭代)的结果，因此，可以表示为下式(14)和(15)：

不限于上述示例的解码过程，在具体实现中，迭代次数T可以大于2，除首次迭代外的其他迭代过程的说明和上述二次迭代的说明类似，不再详述。

在一些示例中，假设源语言信息X＝Mercedes，目标音译序列的长度为4，用户指令指示音译结果包括字符“德”，因此，基于上述示例的解码过程的说明，该目标音译序列的解码过程可参见下表1。

表1

其中，在首次迭代的掩码阶段，目标音译序列中的每个字符均用[mask]占位。在首次迭代的预测阶段，需要对目标音译序列中每个被掩码的位置进行预测，假设预测得到的目标音译序列(y₁,y₂,y₃,y₄)为(没，塞，迪，斯)。在首次迭代的替换阶段，由于预测得到的y₃(即“迪”)和用户指令指示的字符“德”的发音相似度最高，因此，“迪”被替换为用户指令指示的“德”，此时，目标音译序列(y₁,y₂,y₃,y₄)为(没，塞，德，斯)。在二次迭代的重掩码阶段，需要对目标音译序列中置信度较低的个字符进行掩码，假设y₂和y₄对应的置信度较低，则此时目标音译序列(y₁,y₂,y₃,y₄)为(没，[mask]，德，[mask])。在二次掩码的重预测阶段，需要对目标音译序列中被掩码的y₂和y₄进行预测，假设预测得到“赛”和“斯”，则此时目标音译序列(y₁,y₂,y₃,y₄)为(没，赛，德，斯)，即此次解码过程得到的目标音译序列。

S104：电子设备基于音译知识库对音译集合1进行修正，得到目标语言的音译集合2。

在一种实施方式中，S104为可选的步骤。

在一种实施方式中，音译知识库可以包括多个字、词和/或句，例如但不限于包括企业名称、品牌名称、商标名称、产品名称、人名、地名、国名、舶来词、文学著作的名称、电影的名称、音乐的名称、互联网中的音译热词等。

在一种实施方式中，音译知识库可以包括白名单和黑名单，在一些示例中，白名单包括寓意好的吉利字(例如“美”、“斯”)和实际可用于音译的字符，例如但不限于包括企业名称、品牌名称、商标名称、产品名称、人名、地名、国名、舶来词、文学著作的名称、电影的名称、音乐的名称、互联网中的音译热词等。黑名单包括寓意不好的晦气字(例如“没”、“死”)和实际不用于音译的字符。

在一种实施方式中，电子设备可以判断音译集合1中的任意一个音译结果是否包括黑名单中的字符，当判断结果为是时，电子设备可以将该音译结果中属于黑名单的字符4替换为白名单中和字符4发音相同/相似的字符5，当判断结果为否时，不进行替换。可以理解地，这样电子设备提供的音译结果不会包括音译知识库的黑名单中的字符。

在一些示例中，假设音译集合1包括音译结果“没赛德斯”，音译知识库的黑名单包括“没”，白名单包括和“没”发音相同/相似的“梅”和“美”，因此，电子设备可以将上述音译结果“没赛德斯”中的“没”替换为“梅”或者“美”，因此音译集合2可以包括替换后的音译结果“梅赛德斯”和/或“美赛德斯”。

S105：电子设备显示目标语言的音译集合。

在一种实施方式中，S105为可选的步骤。

在一种实施方式中，S104未执行的情况下，电子设备显示目标语言的音译集合1，在另一种实施方式中，S104执行之后，电子设备显示目标语言的音译集合2。

在一些示例中，假设源语言信息X＝Mercedes，音译模型得到2个预测长度：3和4，电子设备接收到的用户指令指示音译结果包括字符“德”，因此，目标语言的音译集合包括2个长度为4的音译结果“梅赛德斯”和“美赛德斯”，以及1个长度为3的音译结果“美赛德”。

在上述方法中，通过基于大数据训练的发音嵌入层和半自回归模型实现自动音译，有效提升音译质量，并且可以一次性输出多个目标语言的音译结果以提供给用户，可供用户选择的音译结果的范围大大提升。电子设备还可以使用音译知识库对音译模型输出的音译结果进行自动修正，进一步提升音译结果的质量。

并且，用户可以自定义音译结果的长度、首字、尾字、包含字中的至少一项，可以理解为是实现了用户导向的个性化音译策略，有效满足用户的个性化需求。

图5A示例性示出一种发音嵌入层的训练过程的示意图。在一种实施方式中，该训练过程可以由电子设备100自行执行，在另一种实施方式中，该训练过程可以由网络设备执行，电子设备100接收网络设备发送的发音嵌入层。图5A以电子设备100执行该训练过程为例进行说明。该训练过程可以但不限于包括以下步骤：

1.电子设备100初始化发音嵌入层200。

在一种实施方式中，电子设备100可以先生成一个高维的矩阵(即初始化得到的发音嵌入层200)，例如，初始化得到的发音嵌入层200是一个200万×300的矩阵，可以包括200万个1×300的高维向量，每个向量可以指示一个字符。

2.电子设备100训练发音嵌入层200。

在一种实施方式中，电子设备100可以使用语音识别系统(automatic speechrecognition，ASR)从大数据中获取大量发音相似/相同的文本，以用于训练发音嵌入层200。

在一些示例中，以“I write a book”为参考语句，电子设备100可以使用ASR从大数据中获取和参考语句中的每个单词发音相似/相同的单词：和“I”相关的“eye”，和“write”相关的“red”、“read”、“white”，和“a”相关的“the”、“an”，和“book”相关的“boot”、“foot”、“cook”、“root”。然后，电子设备100可以基于参考语句和获取的发音相似/相同的单词生成训练数据，具体地，以参考语句的格式为基准，训练数据中的每个语句包括四个单词，每个单词为参考语句中对应位置的单词或者发音相似/相同的单词，即第一个单词包括2种取值：“I”或“eye”，第二个单词包括4种取值：“write”、“red”、“read”或“white”，第三个单词包括3种取值：“a”、“the”或“an”，第四个单词包括5种取值：“book”、“boot”、“foot”、“cook”或“root”，因此，上述参考语句对应的训练数据可以包括：2×4×3×5＝120个语句，具体可参见图5B。

在一种实施方式中，电子设备100可以将上述获取的发音相似/相同的文本作为训练数据，通过训练连续词袋模型(the continuous bag-of-words model，CBOW)来训练发音嵌入层200，从而更新发音嵌入层200的权重，其中，CBOW可以用于预测给定上下文对应的中心词，例如，假设训练数据包括“I write a book”，可以将其中第二个单词“write”的上下文“I_a book”作为CBOW的输入，CBOW可以预测其中用“_”表征的第二个单词。在一些示例中，电子设备100可以将训练数据中相对任一单词的上下文作为CBOW的输入，获取CBOW输出该单词的概率(可简称为预测概率)，然后使用获取到的预测概率更新发音嵌入层200的权重，例如，电子设备100可以将上述示例的120个语句中相对第二个单词“write”、“red”、“read”、“white”的上下文(可以理解为是将这120个语句中的第二个单词替换为“_”)作为CBOW的输入，获取CBOW分别输出“write”、“red”、“read”、“white”的预测概率，并基于反向传播算法根据该预测概率更新发音嵌入层200的权重。

在图5A所示的训练过程中，发音嵌入层可以是基于大量发音相似/相同的数据训练得到的，可以理解为是学习到了大量发音维度的信息，而不是像普通嵌入层那样仅学习语义维度的信息，例如，普通嵌入层只会将“I write a book”(单词之间具有语义相关性)作为训练数据，而不会将上述120个语句中除“I write a book”以外的语句(单词之间不具有语义相关性)作为训练数据。

可以理解地，由于发音嵌入层和普通嵌入层的训练数据不同、学习信息的维度不同，因此，基于普通嵌入层和发音嵌入层的聚类方式也不同，普通嵌入层是基于语义相似度进行聚类的，发音嵌入层是基于发音相似度进行聚类的，具体示例可参见图6。其中，图6的(A)示出了经发音嵌入层映射得到的特征信息在高维空间中的示意图，图6的(B)示出了经普通嵌入层映射得到的特征信息在高维空间中的示意图。

如图6的(A)所示，two作为输入信息经发音嵌入层映射后，在高维空间和发音相似度较高的to、too距离较近，而和语义相似度较高的one、three距离较远，其中，one经发音嵌入层映射后，可以在高维空间和发音相似度较高的won距离较近。

如图6的(B)所示，two作为输入信息经普通嵌入层映射后，在高维空间和语义相似度较高的one、three距离较近，而和发音相似度较高的to、too距离较远，其中，to经普通嵌入层映射后，可以在高维空间和语义相似度较高的forth距离较近，too经普通嵌入层映射后，可以在高维空间和语义相似度较高的also距离较近。

不限于上述示例的情况，在另一些示例中，一个类可以包括更多或更少的特征信息。

可以理解地，通常翻译功能仅实现直译(既忠实源语言信息的内容，又符合源语言信息的结构形式的翻译)和/或意译(在忠实源语言信息的内容的前提下，可以摆脱源语言信息的结构的束缚，使音译结果符合目标语言的规范)，不会实现音译。而直译和/或意译任务的学习目标是学习大量语法规则和语义知识，从而输出语义正确且语法通顺的目标语言内容，例如，假设目标语言内容包括两个字符，当解码器解码出其中一个字符为“德”时，直译和/或意译模型更倾向于同时解码出另一个字符为：和“德”语义相关的“行”或“品”等字符。音译任务的学习目标是学习发音拆分和组合规则，从而解码出发音相近且符合用户实际发音的目标语言内容，无需关注语义和语法，例如，假设源语言信息为“Mercedes”，目标语言内容包括两个字符，当解码器解码出其中一个字符为“德”时，音译模型往往按照发音拆分同时解码出另一个字符为“斯”或其他发音相同/相似的字符。

本申请中，音译模型的输入是发音嵌入层的输出，而用于训练发音嵌入层的大数据可以体现用户平时发音过程中的模糊缺省、强读弱读等特点，因此大大方便了音译模型学习发音拆分和组合规则，让音译模型可以充分捕捉到谐音转换、清/浊辅音转换、首音优化、尾音省略等音译技巧，有效提升音译结果的质量，减少自动音译和人工音译之间的质量差距。

图7示例性示出又一种电子设备100的软件架构示意图。

如图7所示，电子设备100可以包括发音嵌入层200、音译模型300、音译知识库400和修正模块500，其中，音译模型300可以包括编码器301、长度预测模块302、注意力机制303和解码器304。音译知识库400可以包括白名单和黑名单。

发音嵌入层200可以接收源语言信息X和长度信息LEN作为输入，输出源语言特征信息E(X)和长度特征信息E(LEN)。编码器301可以接收E(X)和E(LEN)作为输入，分别对E(X)和E(LEN)进行编码，以输出源语言编码信息H(X)和长度编码信息H(LEN)。长度预测模块302可以接收H(LEN)作为输入，将H(LEN)依次输入到池化层(Pooling)和分类器中，并输出K个预测长度，其中，分类器例如包括线性层(Linear)和Softmax。注意力机制303可以接收H(X)作为输入，并输出注意力得分。

在一种实施方式中，解码器304可以接收H(X)、K个预测长度和注意力得分作为输入，基于K个预测长度和注意力得分对H(X)进行迭代解码，并输出一个或多个长度属于这K个预测长度的目标语言的音译结果(即目标语言的音译集合1)。在另一种实施方式中，解码器304可以接收H(X)、用于指示音译结果的长度的用户指令和注意力得分作为输入，基于该用户指令和注意力得分对H(X)进行迭代解码，并输出一个或多个长度为该用户指令指示的长度的目标语言的音译结果(即目标语言的音译集合1)。

在一种实施方式中，解码器304还可以接收用于指示音译结果的内容的用户指令，例如用于指示音译结果的首字、尾字和/或包含字的用户指令，结合该用户指令对H(X)进行解码，并输出和该用户指令匹配的音译集合1。

解码器304输出的目标语言的音译集合1可以进行判断：是否命中音译知识库400中的黑名单，即音译集合1中的音译结果是否包括黑名单中的字符。当判断结果为是时，音译集合1可以输入至修正模块500，修正模块500可以使用音译知识库400中的白名单，将音译集合1的音译结果中属于黑名单的字符替换为白名单中的字符，并输出目标语言的音译集合2以提供给用户。当判断结果为否时，可以直接输出目标语言的音译集合1以提供给用户。

下面介绍本申请实施例涉及的应用场景以及该场景下的用户界面实施例。

图8示例性示出一种翻译应用的用户界面的示意图。

如图8的(A)所示，电子设备100可以显示翻译应用的用户界面810。用户界面810可以包括翻译信息811、输入框812、翻译选项813、确定控件814和显示框815，其中，翻译信息811可以包括源语言(例如英文)和目标语言(例如中文)，电子设备100可以响应针对翻译信息811的操作，切换源语言和/或目标语言。输入框812可以用于输入待翻译的内容。翻译选项813可以指示翻译的类型，例如，用户界面810中的翻译选项813指示“直译/意译”。确定控件814可以用于触发对输入框812中的内容进行翻译(例如具体为翻译选项813指示的“直译/意译”)，翻译结果可以用于在显示框815中显示。

在一种实施方式中，电子设备100可以响应针对翻译选项813的操作(例如触摸操作，该触摸操作例如为点击)，切换翻译类型，例如将“直译/意译”切换为“音译”，并显示音译功能的用户界面，具体可参见图8的(B)所示的用户界面820。

如图8的(B)所示，用户界面820和用户界面810类似，区别在于，用户界面820中的翻译选项813指示的翻译类型为“音译”，因此，确定控件814可以用于触发对输入框812中的内容进行音译，即用于触发执行以上实施例中的音译方法，此时，输入框812中的内容即为以上实施例中的源语言信息，以上实施例中的一个或多个目标语言的音译结果可以在显示框815中显示。并且，用户界面820还包括自定义区域821，自定义区域821可以包括用于设置音译结果的首字的输入框821A、用于设置音译结果的尾字的输入框821B、用于设置音译结果包含的字符的输入框821C、用于设置音译结果的长度的输入框821D，自定义区域821例如用于用户输入以上实施例中的用户指令。

在一种实施方式中，电子设备100可以接收用户基于用户界面820中的输入框812输入的内容，假设为图9A所示的用户界面910中的输入框812所示的“Harmony”，即电子设备100可以执行图4所示的S101，“Harmony”即为源语言信息。然后，电子设备100可以响应针对用户界面910中的确定控件814的操作(例如触摸操作，该触摸操作例如为点击)，对输入框812中的内容“Harmony”进行音译，即执行图4所示的S102-S103或者S102-S104，得到的目标语言的音译集合包括3个音译结果：“哈莫尼”、“鸿蒙”和“哈梦”，电子设备可以在用户界面910中的显示框815显示这3个音译结果，即执行图4所示的S105。

在一种实施方式中，电子设备100可以接收用户基于用户界面820中的输入框812输入的内容，假设为图9B所示的用户界面920中的输入框812所示的“Mercedes”，即电子设备100可以执行图4所示的S101，“Mercedes”即为源语言信息。电子设备100还可以接收用户基于用户界面820包括的自定义区域821中的输入框821C输入的内容：“德”，即电子设备100可以执行图4所述的接收用户指令，并且该用户指令用于指示音译结果包括字符“德”。然后，电子设备100可以响应针对用户界面920中的确定控件814的操作(例如触摸操作，该触摸操作例如为点击)，对输入框812中的内容“Mercedes”进行音译，即执行图4所示的S102-S103或者S102-S104，得到的目标语言的音译集合包括3个音译结果：“梅赛德斯”、“美赛德斯”和“美赛德”，这3个音译结果均包括上述用户指令指示的字符“德”。电子设备可以在用户界面920中的显示框815显示这3个音译结果，即执行图4所示的S105。

在一种实施方式中，电子设备100可以接收用户基于用户界面820中的输入框812输入的内容，假设为图9C所示的用户界面930中的输入框812所示的“Harmony”，即电子设备100可以执行图4所示的S101，“Harmony”即为源语言信息。电子设备100还可以接收用户基于用户界面820包括的自定义区域821中的输入框821D输入的内容：“2”，即电子设备100可以执行图4所述的接收用户指令，并且该用户指令用于指示音译结果的长度为2。然后，电子设备100可以响应针对用户界面930中的确定控件814的操作(例如触摸操作，该触摸操作例如为点击)，对输入框812中的内容“Harmony”进行音译，即执行图4所示的S102-S103或者S102-S104，得到的目标语言的音译集合包括2个音译结果：“鸿蒙”和“哈梦”，电子设备可以在用户界面930中的显示框815显示这2个音译结果，即执行图4所示的S105。相比图9A所示的实施方式，图9C所示的实施方式中，电子设备100还接收到用于指示音译结果的长度为2的用户指令，因此，图9C所示的音译集合包括图9A所示的音译集合中长度为2的2个音译结果。

不限于上述所示的实施方式，在另一种实施方式中，用户还可以基于用户界面820中的自定义区域821设置首字或者尾字，在另一种实施方式中，用户还可以基于用户界面820中的自定义区域821设置首字、尾字、包含字和长度中的至少两项，具体示例和上述实施方式类似，不再赘述。

图10示例性示出一种浏览器应用的用户界面的示意图。

如图10的(A)所示，电子设备100可以显示浏览器应用的用户界面1010，用户界面1010可以包括搜索框1011，搜索框1011可以包括字符“搜索或输入网址”，以提示用户输入搜索词或者想查看的网页的网址。

在一种实施方式中，电子设备100可以接收用户基于用户界面1010中的搜索框1011输入的内容，假设为图10的(B)所示的用户界面1020中的搜索框1011所示的“harmony”，即电子设备100可以执行图4所示的S101，“harmony”即为源语言信息。电子设备100可以对源语言信息“harmony”进行音译，即执行图4所示的S102-S103或者S102-S104，得到的目标语言的音译集合包括3个音译结果：“哈莫尼”、“鸿蒙”和“哈梦”。电子设备100可以在用户界面1020中的候选列表1021显示这3个音译结果，即执行图4所示的S105。如图10的(B)所示，候选列表1021可以包括多个选项，其中任意一个选项包括和搜索框1011中的内容“harmony”相关的内容，这多个选项例如但不限于包括：包括“harmony”的选项1021A、包括“哈莫尼”的选项1021B、包括“鸿蒙”的选项1021C、包括“哈梦”的选项1021D、包括“harmony是什么意思”的选项1021E、包括“harmonyOS”的选项1021F、包括“harmony形容词”的选项1021G。在一些示例中，电子设备100可以响应针对这多个选项中的任意一个选项的操作(例如触摸操作，该触摸操作例如为点击)，在互联网中搜索和该选项包括的内容相关的信息，例如，该选项为选项1021C，则电子设备100可以响应于针对选项1021C的操作，显示和“鸿蒙”相关的搜索结果。

在一种实施方式中，电子设备100可以接收用户基于用户界面1010中的搜索框1011输入的内容，假设为图10的(C)所示的用户界面1030中的搜索框1011所示的“基因膝盖领带五月翻译”。电子设备100可以从搜索框1011中的内容获取得到关键内容“基因膝盖领带五月”，然后将“基因膝盖领带五月”直译/意译为“gene knee tie may”，即电子设备100可以执行图4所示的S101，“gene knee tie may”即为源语言信息。电子设备100可以对源语言信息“gene knee tie may”进行音译，即执行图4所示的S102-S103或者S102-S104，得到的目标语言的音译结果为“鸡你太美”。电子设备100可以在用户界面1030中的候选列表1031显示该音译结果，即执行图4所示的S105。如图10的(C)所示，候选列表1031可以包括多个选项，例如但不限于包括：包括“基因膝盖领带五月翻译”的选项1031A、包括“gene kneetie may(鸡你太美)”的选项1031B、包括“鸡你太美”的选项1031C、包括“基因膝盖领带五月翻译英文”的选项1031D、包括“基因膝盖领带五月”的选项1031E，其中，1031B和选项1031C包括的内容与音译结果相关。在一些示例中，电子设备100可以响应针对这多个选项中的任意一个选项的操作，在互联网中搜索和该选项包括的内容相关的信息。

图11示例性示出一种浏览器应用的用户界面的示意图。

如图11的(A)所示，电子设备100可以显示浏览器应用的用户界面1110，用户界面1110可以包括搜索框1111，搜索框1111可以包括搜索控件1111A和切换控件1111B，搜索控件1111A包括字符“普通搜索”，可以指示当前的搜索类型为“普通搜索”，切换控件1111B可以用于切换搜索类型。在一种实施方式中，电子设备100可以接收用户基于用户界面1110中的搜索框1111输入的搜索词“harmony”，并响应针对用户界面1110中的搜索控件1111A的操作(例如触摸操作，该触摸操作例如为点击)，显示和搜索词“harmony”相关的搜索结果，具体可参见图11的(B)所示的用户界面1120。

如图11的(B)所示，用户界面1120可以包括搜索框1111、搜索概要1121和搜索结果列表1122，其中，搜索框1111和用户界面1110中的搜索框1111一致，不再赘述。搜索概要1121可以包括字符：“为您找到‘harmony’的相关结果10个”。搜索结果列表1122可以包括多个和搜索词“harmony”相关的搜索结果。

在一种实施方式中，电子设备100可以响应针对用户界面1110中的切换控件1111B的操作(例如触摸操作，该触摸操作例如为点击)，切换搜索类型，例如将“普通搜索”切换为“音译搜索”，此时搜索控件1111A可以包括字符“音译搜索”。电子设备100可以响应针对搜索控件1111A的操作(例如触摸操作，该触摸操作例如为点击)，对搜索框1111中的内容“harmony”进行音译，即电子设备100可以执行图4所示的方法，“harmony”即为源语言信息，得到的目标语言的音译集合包括3个音译结果：“哈莫尼”、“鸿蒙”和“哈梦”。然后，电子设备100可以显示与搜索词“harmony”和上述3个音译结果相关的搜索结果，具体可参见图11的(C)所示的用户界面1130。

如图11的(C)所示，用户界面1130可以包括搜索框1111、搜索概要1131和搜索结果列表1132，其中，搜索框1111和用户界面1110中的搜索框1111类似，区别在于，用户界面1130中的搜索控件1111A包括字符“音译搜索”，可以指示当前的搜索类型为“音译搜索”。搜索概要1131可以包括字符“为您找到‘harmony’、‘哈莫尼’、‘鸿蒙’、‘哈梦’的相关结果100个”。搜索结果列表1132可以包括多个和搜索词“harmony”、上述3个音译结果相关的搜索结果，例如，搜索结果1132A(包括字符“鸿蒙harmony介绍”)、搜索结果1132B(包括字符“鸿蒙-最新资讯”)和搜索词“harmony”、音译结果“鸿蒙”相关，搜索结果1132C(包括字符“哈莫尼名字”)和音译结果“哈莫尼”相关，搜索结果1132D(包括字符“哈梦的故事”)和音译结果“哈梦”相关。

本申请各实施例提供的方法中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DWD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD)等。以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种音译方法，其特征在于，应用于电子设备，所述方法包括：

接收用户输入的第一语言的第一信息；

对所述第一信息进行音译并得到第二语言的多个第二信息，所述多个第二信息包括第三信息和第四信息，所述第三信息和所述第四信息的长度不同；

显示所述多个第二信息。

2.如权利要求1所述的方法，其特征在于，所述第一信息为企业名称、品牌名称、商标名称、产品名称、人名、地名、国名、舶来词、文学著作的名称、电影的名称、音乐的名称或者音译热词。

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

接收用户输入的第三语言的第五信息；

对所述第五信息进行直译或者意译并得到第四语言的第六信息；

对所述第六信息进行音译并得到所述第三语言的至少一个第七信息；

显示所述至少一个第七信息。

4.如权利要求1-3任一项所述的方法，其特征在于，所述显示所述多个第二信息之前，所述方法还包括：

判断所述第二信息是否包括黑名单中的字符；

当所述第二信息包括黑名单中的第一字符时，将所述第二信息中的所述第一字符替换为白名单中的第二字符，所述第二字符是所述白名单中和所述第一字符的发音相似度大于或等于第一阈值的字符。

5.如权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

接收用户输入的第一指令，所述第一指令用于指示所述第一信息的音译结果中的第一个字符为第三字符；

所述多个第二信息是基于所述第一指令确定的，所述第二信息中的第一个字符为所述第三字符。

6.如权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

接收用户输入的第二指令，所述第二指令用于指示所述第一信息的音译结果中的最后一个字符为第四字符；

所述多个第二信息是基于所述第二指令确定的，所述第二信息中的最后一个字符为所述第四字符。

7.如权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

接收用户输入的第三指令，所述第三指令用于指示所述第一信息对应的音译结果包括第五字符；

所述多个第二信息是基于所述第三指令确定的，所述第二信息包括所述第五字符。

8.如权利要求7所述的方法，其特征在于，所述对所述第一信息进行音译并得到第二语言的多个第二信息，包括：

对所述第一信息进行音译并得到所述第二语言的第八信息；

将所述第八信息中的第六字符替换为所述第三指令指示的所述第五字符，所述第二信息为替换后的所述第八信息，所述第六字符为所述第八信息中和所述第五字符的发音相似度最大的字符。

9.如权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

接收用户输入的第五语言的第九信息，接收用户输入的第一长度；

对所述第九信息进行音译并得到第六语言的至少一个第十信息，所述第十信息的长度为所述第一长度；

显示所述至少一个第十信息。

10.一种电子设备，其特征在于，包括收发器、处理器和存储器，所述存储器用于存储计算机程序，所述处理器调用所述计算机程序，用于执行如权利要求1-9任一项所述的方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-9任一项所述的方法。