CN117236347B - 交互文本翻译的方法、交互文本的显示方法和相关装置 - Google Patents

交互文本翻译的方法、交互文本的显示方法和相关装置 Download PDF

Info

Publication number
CN117236347B
CN117236347B CN202311495375.5A CN202311495375A CN117236347B CN 117236347 B CN117236347 B CN 117236347B CN 202311495375 A CN202311495375 A CN 202311495375A CN 117236347 B CN117236347 B CN 117236347B
Authority
CN
China
Prior art keywords
language
text
interactive
category
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311495375.5A
Other languages
English (en)
Other versions
CN117236347A (zh
Inventor
黄铁鸣
吕伟阳
唐锐
林莉
李斌
赵东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311495375.5A priority Critical patent/CN117236347B/zh
Publication of CN117236347A publication Critical patent/CN117236347A/zh
Application granted granted Critical
Publication of CN117236347B publication Critical patent/CN117236347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请涉及一种能够提升交互文本翻译的准确率的交互文本翻译的方法、交互文本的显示方法、装置、计算机设备和存储介质。所述方法包括:在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。采用本方法能够提升对交互文本进行翻译的准确率。

Description

交互文本翻译的方法、交互文本的显示方法和相关装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种交互文本翻译的方法、交互文本的显示方法和相关装置。
背景技术
随着人工智能技术的发展,通过机器翻译可以将一种自然语言自动翻译成另一种自然语言的,其中,自然语言翻译前通常称为源语言,翻译后通常称为目标语言。近些年来,随着深度学习技术的发展,基于神经网络的机器翻译方法在翻译质量上有了明显的提升,并得到了广泛的应用。而在交互型应用软件上,可以对用户间进行交互时所发送的交互信息进行自动翻译,以实现自动翻译的功能。
目前,可以对原文本进行语言类别识别,然后通过识别结果与设置的目标语言进行对比进行翻译。然而,由于交互信息中会携带各种类型的数据信息,那么对原文本进行语言类别识别的结果可能与真实输入的交互语言存在偏差,那么通过存在偏差的语言类别识别结果向目标语言进行翻译的过程,可能存在翻译准确率较低的问题。因此,如何提升交互文本翻译的准确率是亟需解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升交互文本翻译的准确率的交互文本翻译的方法、交互文本的显示方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种交互文本翻译的方法。所述方法包括:
在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;
基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;
在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
第二方面,本申请还提供了一种交互文本的显示方法。所述方法包括:
在自动翻译的交互模式下,显示发送方发送的交互文本;
在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域;
在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
第三方面,本申请还提供了一种交互文本翻译装置。所述装置包括:
分词模块,用于在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
语言类别识别模块,用于对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;
语言类别确定模块,用于基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;
文本翻译模块,用于在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
第四方面,本申请还提供了一种交互文本的显示装置。所述装置包括:
交互文本显示模块,用于在自动翻译的交互模式下,显示发送方发送的交互文本;
区域显示模块,用于在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域;
翻译文本显示模块,用于在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;
基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;
在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
第六方面,本申请还提供了另一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
在自动翻译的交互模式下,显示发送方发送的交互文本;
在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域;
在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
第七方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;
基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;
在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
第八方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
在自动翻译的交互模式下,显示发送方发送的交互文本;
在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域;
在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
第九方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;
基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;
在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
第十方面,本申请还提供了另一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
在自动翻译的交互模式下,显示发送方发送的交互文本;
在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域;
在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
上述交互文本翻译的方法、装置、计算机设备、存储介质和计算机程序产品,在自动翻译的交互模式下,对获取的交互文本进行分词处理得到多个分词,然后对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本整体进行语言类别识别的语言类别识别结果,以及对交互文本中每一分词进行语言类别识别的语言类别识别结果,从而通过两个维度的语言类别识别结果确定交互文本所属的目标语言类别,以保证目标语言类别的准确性,并在目标语言类别与交互模式的目标语言不同的情况下,说明需要将目标语言类别的交互文本翻译为目标语言,由此对交互文本进行翻译操作,以提升对交互文本进行翻译的准确率。
附图说明
图1为一个实施例中交互文本翻译的方法的应用环境图;
图2为一个实施例中交互文本翻译的方法的流程示意图;
图3为一个实施例中基于语言权重进行语言类别识别的流程示意图;
图4为一个实施例中确定交互文本所属的目标语言类别的流程示意图;
图5为另一个实施例中确定交互文本所属的目标语言类别的流程示意图;
图6为一个实施例中获取交互文本的部分流程示意图;
图7为另一个实施例中获取交互文本的部分流程示意图;
图8为又一个实施例中获取交互文本的部分流程示意图;
图9为一个实施例中交互文本翻译的方法的完整流程示意图;
图10为一个实施例中交互文本的显示方法的流程示意图;
图11为一个实施例中显示发送方发送的交互文本的界面示意图;
图12为一个实施例中翻译文本显示区域的界面示意图;
图13为另一个实施例中翻译文本显示区域的界面示意图;
图14为一个实施例中针对待翻译文本的选择操作的界面示意图;
图15为一个实施例中在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本的界面示意图;
图16为另一个实施例中在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本的界面示意图;
图17为一个实施例中开启自动翻译的交互模式方法的流程示意图;
图18为一个实施例中显示自动翻译模式开启控件的界面示意图;
图19为一个实施例中显示语言选择控件的界面示意图;
图20为另一个实施例中交互文本的显示方法的流程示意图;
图21为一个实施例中显示交互文本与目标语言的翻译文本的界面示意图;
图22为一个实施例中显示翻译文本调整控件的界面示意图;
图23为一个实施例中显示将交互文本翻译为目标语言的翻译文本的界面示意图;
图24为一个实施例中显示文本翻译状态的翻译状态图标的界面示意图;
图25为一个实施例中用目标语言的翻译文本替换翻译状态图标进行显示的界面示意图;
图26为一个实施例中逐渐显示目标语种的翻译文本的界面示意图;
图27为一个实施例中交互文本翻译装置的结构框图;
图28为另一个实施例中交互文本翻译装置的结构框图;
图29为再一个实施例中交互文本翻译装置的结构框图;
图30为一个实施例中交互文本的显示装置的结构框图;
图31为另一个实施例中交互文本的显示装置的结构框图;
图32为一个实施例中计算机设备的内部结构图;
图33为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着人工智能技术的发展,通过机器翻译可以将一种自然语言自动翻译成另一种自然语言的,其中,自然语言翻译前通常称为源语言,翻译后通常称为目标语言。近些年来,随着深度学习技术的发展,基于神经网络的机器翻译方法在翻译质量上有了明显的提升,并得到了广泛的应用。而在交互型应用软件上,可以对用户间进行交互时所发送的交互信息进行自动翻译,以实现自动翻译的功能。目前,可以对原文本进行语言类别识别,然后通过识别结果与设置的目标语言进行对比进行翻译。然而,由于交互信息中会携带各种类型的数据信息,例如,若交互信息为“我今天约了 14:00 pm的meeting room”,即交互信息由简体中文类别英文数字组成,若交互信息为“今日の会議は14:00”,原文本由日文组成。但是前述交互信息中的“今”在简体中文类别与日文中的文本形式一致,对原文本进行语言类别识别的结果可能与真实输入的交互语言的语言存在偏差,那么通过存在偏差的语言类别识别结果向目标语言进行翻译的过程,可能存在翻译准确率较低的问题。因此,如何提升交互文本翻译的准确率是亟需解决的问题。
为解决前述问题,本申请实施例提供一种能够提升对交互文本进行翻译的准确率的交互文本翻译的方法。本申请实施例提供的交互文本翻译的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,以应用于服务器104为例进行说明,服务器104通过与终端102之间的通信交互,在终端102处于自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词,然后对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果,并基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别,从而在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本,此时服务器还可以通过与终端102之间的通信交互,将目标语言的翻译文本传输至终端,从而在终端102的显示界面显示目标语言的翻译文本。通过两个维度的语言类别识别结果确定交互文本所属的目标语言类别,以保证目标语言类别的准确性,并在目标语言类别与交互模式的目标语言不同的情况下,对交互文本进行翻译操作,以提升对交互文本进行翻译的准确率。
基于此,本申请实施例还提供一种能够提升对交互文本翻译后进行显示的可靠性的交互文本的显示方法。与前述类似,本申请实施例提供的交互文本的显示方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
具体地,交互文本的显示方法具体应用于终端102,终端102在自动翻译的交互模式下,显示发送方发送的交互文本,并且在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域,最终在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。在显示交互文本的基础上,在交互文本所属的语言类别与交互模式的目标语言不同的情况下,此时需要将目标语言类别的交互文本翻译为目标语言,因此才显示与交互文本关联的翻译文本显示区域,并进而在翻译文本显示区域中显示目标语言的翻译文本,从而提升对交互文本翻译后进行显示的可靠性。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。以及申请实施例提供的交互文本翻译的方法可应用于各种场景,包括但不限于云技术、以及人工智能等。
通过前述介绍可知,本申请实施例提供的交互文本翻译的方法具体涉及人工智能(Artificial Intelligence,AI)技术,下面将对AI技术进行简述:人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例的交互文本翻译的方法中需要对文本进行语言类别识别,语言类别识别的过程具体涉及自然语言处理(Nature Language processing,NLP)技术,下面对自然语言处理技术进行详细介绍:自然语言处理技术是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:在一个实施例中,如图2所示,提供了一种交互文本翻译的方法,以该方法应用于图1中的服务器104为例进行说明,可以理解的是,该方法也可以应用于终端102,还可以应用于包括终端102和服务器104的系统,并通过终端102和服务器104的交互实现。本实施例中,该方法包括以下步骤:
步骤202,在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词。
其中,自动翻译的交互模式为:在第一交互方与第二交互方发送交互信息时,自动将交互信息翻译为交互方所选择的目标语言。且本实施例中被翻译的交互信息具体为交互文本。基于此,自动翻译的交互模式需要设置目标语言,翻译以前的语言为源语言,翻译后的语言为目标语言。例如,目标语言为日文,即需要将交互信息中的交互文本翻译为日文。或者,目标语言为英文,即需要将交互信息中的交互文本翻译为英文。以及实际应用中,目标语言是基于交互方的语言选择操作确定的。可以理解的是,自动翻译的交互模式还可以设置系统语言,系统语言可以是交互方所使用终端的系统默认语言,或者,系统语言还可以是交互方所使用终端的所在地的常用语言,或者,系统语言还可以是交互方自定义设置的,本申请不对自动翻译的交互模式下的目标语言以及系统语言进行具体限定,需要基于实际需求灵活选择。
其次,分词处理的具体方法可以为以下任一项,或者多项方法之间的组合:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法、基于规则的分词方法以及基于n元语法的分词算法。前述基于字符串匹配的分词方法至少包括:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。其次,基于理解的分词方法是通过模拟人对句子的理解,达到识别词的效果。而基于统计的分词方法即需要对语料中的字组频度进行统计从而进行分词。基于规则的分词方法又叫做机械分词方法,基于规则的分词方法按照一定的策略将待分析文本与机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。基于规则的分词方法的常用的方法至少包括:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(MaximumMatching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及也可以为前述方法的相互组合。本申请不对分词处理的具体方法进行限定,需要基于实际需求灵活选择。
具体地,服务器先确定终端所处的交互模式,若终端处于非自动翻译的交互模式下,此时服务器需要根据交互方针对交互文本的翻译操作进行翻译。若终端处于自动翻译的交互模式下,此时服务器先获取交互方所发送的交互信息,然后从交互信息中筛选得到可以被翻译的交互文本,再对交互文本进行分词处理。前述可以被翻译的交互文本为交互信息中的文本信息,如,交互信息包括图像信息与文本信息,此时交互文本即为交互信息中的文本信息。若交互信息中仅包括图像信息,此交互信息不会被获取为交互文本。可以理解的是,在实际的交互应用场景中,交互信息还可能包括表情包信息、数字信息、音视频信息以及链接信息等信息,这些信息在任一语言下的展示形式都是一致的,因此无需被翻译,因此交互文本不会包括表情包信息、数字信息、音视频信息以及链接信息等非文本的冗余信息。
进一步地,服务器对交互文本进行分词处理得到多个分词,也就是服务器通过任一分词处理方式对交互文本进行分词处理得到多个分词。例如,交互文本为“今日の会議は” ,进行分词处理后所得到的多个分词为:「今日」、「の」、「会議」与「は」 。或者,交互文本为“我很喜欢吃Apple”,进行分词处理后所得到的多个分词为:「我」、「很」、「喜欢」、「吃」与「Apple」 。
步骤204,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果。
其中,语言类别识别用于对文本所属语言进行识别,具体可以通过自然语言处理技术进行。基于此,第一语言类别识别结果用于表征在文本维度所识别的交互文本所属语言类别,第二语言类别识别结果用于表征在分词维度所识别的交互文本中每一分词所属语言类别,前述语言与语言类别都是唯一指示一种语言,如语言为日文,语言类别为日文类别,实质上均为指示日文。可以理解的是,基于同一交互文本进行分词处理所得到的分词可以属于不同语言类别。
具体地,服务器对交互文本进行语言类别识别,得到针对交互文本的第一语言类别识别结果。也就是服务器基于自然语言处理技术识别交互文本所属语言类别,得到针对交互文本在文本维度进行识别所得到的第一语言类别识别结果。例如,交互文本为“今日の会議は”,若对前述交互文本进行语言类别识别所得到的结果为日文,即第一语言类别识别结果表征为日文类别,也就是在文本维度所识别的交互文本所属语言为日文类别。
类似的,服务器还可以对每一分词分别进行语言类别识别,得到多个针对每一分词的第二语言类别识别结果。也就是服务器基于自然语言处理技术识别每一分词所属语言类别,得到针对每一分词在分词维度进行语言类别识别所得到的第二语言类别识别结果。例如,再次以交互文本为“今日の会議は”为例,通过前述示例可知,对交互文本进行分词处理后所得到的多个分词为:「今日」、「の」、「会議」与「は」 ,此时将分别对分词「今日」、分词「の」、分词「会議」、分词「は」进行语言类别识别,若「今日」进行语言类别识别得到的结果为简体中文类别,即分词「今日」的第二语言类别识别结果表征为简体中文类别。同理可知,分词「の」进行语言类别识别得到的结果为日文,即分词「の」的第二语言类别识别结果表征为日文类别。分词「会議」进行语言类别识别得到的结果为日文,即分词「会議」的第二语言类别识别结果表征为日文类别。分词「は」进行语言类别识别得到的结果为日文,即分词「は」的第二语言类别识别结果表征为日文类别。
步骤206,基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别。
具体地,服务器基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别。即服务器综合考虑针对交互文本的第一语言类别识别结果在文本整体维度所表征的语言,在考虑多个针对每一分词的第二语言类别识别结果在分词维度所表征的语言,以确定交互文本所属的目标语言类别。
且服务器在此过程中,需要先通过各第二语言类别识别结果确定在文本维度的分词语言类别识别结果,然后再通过分词语言类别识别结果与第一语言类别识别结果共同确定目标语言类别。前述分词语言类别识别结果的确定方式可以为,选择各第二语言类别识别结果中所表征语言类别的数量最多的语言类别作为分词语言类别识别结果,或者,通过交互方进行人工介入选择的方式从各第二语言类别识别结果中进行选择,此处不做具体限定。
步骤208,在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
具体地,服务器确定在目标语言类别与交互模式的目标语言相同的情况下,即说明所发送的交互文本就是所需的目标语言,此时并不需要对交互文本进行翻译,以避免文本翻译的资源浪费。而服务器确定在目标语言类别与交互模式的目标语言不同的情况下,说明需要将目标语言类别的交互文本翻译为目标语言,因此再将交互文本翻译为目标语言的翻译文本。
例如,交互模式的目标语言为英文,若通过前述方式所确定的目标语言类别为日文,此时服务器会将属于日文的交互文本翻译为对应的英文的翻译文本。反之,通过前述方式所确定的目标语言类别为英文,此时服务器不会进行翻译操作,以避免文本翻译的资源浪费。
可以理解的是,在实际应用中,若存在多个交互文本的目标语言类别与交互模式的目标语言不同的情况,那么可以将目标语言类别与交互模式的目标语言不同的交互文本确定为待翻译交互文本,由此可以同时并行处理多个待翻译交互文本的翻译过程,但为保证翻译速率,本实施例对并行处理多个待翻译交互文本的数量进行限制,若待翻译交互文本的数量超过翻译数量阈值,将对交互时间戳靠后的待翻译交互文本进行排队处理。如,翻译数量阈值为5,也就是仅能够同时对5个待翻译交互文本进行翻译,若存在6个待翻译交互文本,此时会将交互时间戳最后的待翻译交互文本进行排队处理。由于本申请主要应用于自动翻译的交互模式,存在交互方手动选择需要翻译的交互文本,此时会优先处理被交互方手动选择的待翻译交互文本,此时不会判断目标语言类别与目标语言是否相同,而是直接对交互方手动选择的待翻译交互文本进行翻译。
可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
上述交互文本翻译的方法中,在自动翻译的交互模式下,对获取的交互文本进行分词处理得到多个分词,然后对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本整体进行语言类别识别的语言类别识别结果,以及对交互文本中每一分词进行语言类别识别的语言类别识别结果,从而通过两个维度的语言类别识别结果确定交互文本所属的目标语言类别,以保证目标语言类别的准确性,并在目标语言类别与交互模式的目标语言不同的情况下,说明需要将目标语言类别的交互文本翻译为目标语言,由此对交互文本进行翻译操作,以提升对交互文本进行翻译的准确率。
在一个实施例中,如图3所示,交互文本翻译的方法还包括:
步骤302,获取在交互模式下的系统语言,并为系统语言配置第一语言权重。
其中,与前述实施例介绍类似,自动翻译的交互模式还可以设置系统语言,系统语言通常为交互方所使用的常用语言,系统语言可以是交互方所使用终端的系统默认语言,如交互方所使用终端的系统默认语言为简体中文类别,那么系统语言可以为简体中文类别。或者,系统语言还可以是交互方所使用终端的所在地的常用语言,如交互方所使用终端的所在地为法国,法国的常用语言为法文,此时系统语言可以为法文。或者,系统语言还可以是交互方自定义设置的,如交互方直接自定义设置系统语言为繁体中文类别。其次,语言权重用于表征文本所属语言为所对应配置的概率,因此第一语言权重用于表征交互文本所属语言为系统语言的概率。
具体地,服务器先获取在交互模式下的系统语言,通过前述介绍可知,服务器可以通过与交互方所使用终端之间的通信连接,将交互方所使用终端的系统默认语言作为系统语言。或者,服务器还可以通过与交互方所使用终端之间的通信连接,将交互方所使用终端的所在地的常用语言作为系统语言。或者,服务器还可以通过与交互方所使用终端之间的通信连接,获取交互方所自定义设置的系统语言。本申请不对自动翻译的交互模式下的系统语言进行具体限定,需要基于实际需求灵活选择。
基于此,由于系统语言通常为交互方所使用的常用语言,并考虑到某一些文本在多种语言中的文本形式一致,例如,“今日”在简体中文类别与日文中的文本形式一致。因此,为保证对交互文本进行语言类别识别的准确性,更偏向于将这样的文本识别为交互方所使用的常用语言。因此,服务器为系统语言配置第一语言权重,以保证文本在多种语言中存在文本形式一致的文本时,将该文本识别为系统语言的概率更高。第一语言权重可以为0.6、0.7、0.8或0.9等,第一语言权重的具体设置需要基于实际应用需求灵活确定。
步骤304,确定系统语言所属的目标语系,将属于所述目标语系下的除系统语言外的语言确定为系统同语系语言,并为各系统同语系语言配置第二语言权重。
其中,语系的划分可以按照地区分类,如:非洲语系、亚洲语系、澳太语系、北美语系、南美语系以及欧洲语系。语系的划分也可以按照国家地区分类,或者其他分类方法,本实施例中的语系主要按照地区分类。基于此,目标语系即为系统语言所属的语系,而系统同语系语言为系统语言所属的语系中除系统语言外的语言。其次,通过前述介绍可知,语言权重用于表征文本所属语言为所对应配置的概率,因此第二语言权重用于表征交互文本所属语言为系统语言所属的目标语系下的其他语言的概率,且第一语言权重与各系统同语系语言的第二语言权重之和为1,以及第一语言权重大于第二语言权重。
具体地,服务器先确定系统语言所属的目标语系,由于本实施例中的语系主要按照地区分类,那么可以直接考虑系统语言的常用语言所属地确定系统语言所属的目标语系。例如,系统语言为简体中文类别,简体中文类别属于亚洲语系,此时可以将亚洲语系确定为目标语系,此时可以将亚洲语系中的繁体中文、日文、韩文等语言确定为系统同语系语言。
或,系统语言为繁体中文类别,繁体中文类别也属于亚洲语系,此时可以将亚洲语系确定为目标语系。或,系统语言为法文,法文属于欧洲语系,此时可以将欧洲语系确定为目标语系,此时可以将欧洲语系中的英文、意大利文、西班牙文等语言确定为系统同语系语言。
进一步地,依旧考虑到某一些文本在多种语言中的文本形式一致,例如,“今”在简体中文类别与日文中的文本形式一致。因此,为保证对交互文本进行语言类别识别的准确性,更偏向于将这样的文本识别为交互方所使用的常用语言。那么在服务器为系统语言配置第一语言权重基础上,为属于目标语系下的语言配置第二语言权重。也就是保证文本在多种语言中存在文本形式一致的文本时,将该文本识别为系统语言的概率更高,而将文本识别为目标语系中系统同语系语言的概率更低。例如,若第一语言权重为0.6,那么各系统同语系语言的第二语言权重之和为0.4。或者,若第一语言权重为0.9,那么各系统同语系语言的第二语言权重之和为0.1,第一语言权重与第二语言权重的具体设置需要基于实际应用需求灵活确定。
基于此,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果,包括:
步骤306,基于第一语言权重以及各第二语言权重,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果。
具体地,服务器基于第一语言权重以及各第二语言权重,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果。也就是服务器基于第一语言权重以及各第二语言权重,在对交互文本进行语言类别识别过程中,将交互文本识别为系统语言的概率调高,而将交互文本识别为目标语系中其他语系的概率调低。例如,若第一语言权重为0.9,那么各系统同语系语言的第二语言权重之和为0.1,那么在对交互文本进行语言类别识别过程中,将交互文本识别为系统语言的概率调整为0.9,将交互文本识别为目标语系中其他系统同语系语言的总概率调整为0.1,并由此进行语言类别识别。
同理可知,也就是服务器基于第一语言权重以及各第二语言权重,在对每一分词进行语言类别识别过程中,将分词识别为系统语言的概率调高,而将分词识别为目标语系中其他语系的概率调低。例如,以交互文本为“今日の会議は”为例,通过前述示例可知,对交互文本进行分词处理后所得到的多个分词为:「今日」、「の」、「会議」与「は」 ,针对分词「今日」进行语言类别识别的过程中,若系统语言为简体中文类别,以及第一语言权重为0.6,那么各系统同语系语言的第二语言权重之和为0.4,那么分词「今日」被识别为简体中文类别的概率会被调整为0.6,也就是分词「今日」此时大概率会被识别为简体中文类别,那么可以得到分词「今日」的第二语言类别识别结果表征为简体中文类别。然而,若系统语言为日文,以及第一语言权重为0.9,那么各系统同语系语言的第二语言权重之和为0.1,那么分词「今日」被识别为日文的概率会被调整为0.9,也就是分词「今日」此时大概率会被识别为日文,那么可以得到分词「今日」的第二语言类别识别结果表征为日文类别。
可以理解的是,本实例中语言类别识别的方法可以基于随机森林、支持向量机等多种语言分类算法以及模型进行,此处不做具体限定。以及本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,考虑到存在某些文本在多种语言中的文本形式一致的情况,因此分别为系统语言配置更高的语言权重,而为系统语言所属目标语系下的语言配置更低的语言权重,由于系统语言通常为交互方所使用的常用语言,因此再语言类别识别过程中考虑到不同的语言权重,可以得到更为贴合实际的语言类别识别结果,由此提升语言类别识别结果的准确度,进而提升对交互文本进行翻译的准确度。
下面将详细介绍,如何确定交互文本所属的目标语言类别的具体实施方式:在一个实施例中,如图4所示,基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别,包括:
步骤402,基于各第二语言类别识别结果所表征的语言类别进行统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量。
其中,识别结果数量用于描述表征同一语言类别的第二语言类别识别结果数量,识别结果数量与第二语言类别识别结果所表征的语言类别对应匹配。例如,对交互文本A1进行分词处理得到分词B1、分词B2、分词B3、分词B4以及分词B5,分词B1的第二语言类别识别结果C1所表征的语言类别为简体中文类别,分词B2的第二语言类别识别结果C2所表征的语言类别为日文类别,分词B3的第二语言类别识别结果C3所表征的语言类别为英文类别,分词B4的第二语言类别识别结果C4所表征的语言类别为简体中文类别,以及分词B5的第二语言类别识别结果C5所表征的语言类别为简体中文类别。
由此可知,第二语言类别识别结果C1、第二语言类别识别结果C4、以及第二语言类别识别结果C5所表征的语言类别均为简体中文类别,因此,针对语言类别为简体中文类别的第二语言类别识别结果的识别结果数量为3。同理可知,第二语言类别识别结果C2所表征的语言类别均为日文类别,因此,针对语言类别为日文类别的第二语言类别识别结果的识别结果数量为1。以及,第二语言类别识别结果C3所表征的语言类别均为英文类别,因此,针对语言类别为英文类别的第二语言类别识别结果的识别结果数量为1。
具体地,服务器基于各第二语言类别识别结果所表征的语言类别进行数量统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量,并确定每一识别结果数量所匹配的第二语言类别识别结果所表征的语言类别。为便于理解,再次以交互文本为“今日の会議は”为例,且分词「今日」的第二语言类别识别结果表征为简体中文类别,分词「の」的第二语言类别识别结果表征为日文类别,分词「会議」的第二语言类别识别结果表征为日文类别,以及分词「は」的第二语言类别识别结果表征为日文类别。由此可知,第二语言类别识别结果表征为日文类别的识别结果数量为3,第二语言类别识别结果表征为简体中文类别的识别结果数量为1。
步骤404,将识别结果数量匹配的最多的语言类别确定为第一语言类别。
具体地,服务器将识别结果数量匹配的最多的语言类别确定为第一语言类别。通过前述实施例可知,服务器在统计识别结果数量后,还可以确定每一识别结果数量所匹配的第二语言类别识别结果所表征的语言类别,此时可以对识别结果数量进行排序,通过排序结果选择识别结果数量最多所匹配的语言类别为第一语言类别。进行排序的方式可以从大到小或从小到大,此处不做限定。
为便于理解,如前述示例可知,第二语言类别识别结果表征为日文类别的识别结果数量为3,第二语言类别识别结果表征为简体中文类别的识别结果数量为1。由此可知识别结果数量最多为3,而识别结果数量为3所匹配的语言类别为日文类别,因此可以将日文类别确定为第一语言类别。且此处的第一语言类别即为前述实施例中的分词语言类别识别结果所表征的语言类别。
步骤406,基于第一语言类别识别结果和第一语言类别,确定交互文本所属的目标语言类别。
具体地,服务器基于第一语言类别识别结果和第一语言类别,确定交互文本所属的目标语言类别。也就是服务器判断第一语言类别识别结果所表征的语言类别是否和第一语言类别一致,并结合各语言类别所属的语系进行综合判定,从而确定交互文本所属的目标语言类别。可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,通过数量统计得到的识别结果数量可以反映在分词中各语言类别的占比,由此选择数量最多的语言类别作为第一语言类别,能够保证通过第一语言类别更为全面且准确地描述分词维度的语言类别,进而提升语言类别识别结果的准确度,以进一步地提升对交互文本进行翻译的准确度。
下面将详细介绍,如何基于第一语言类别识别结果和第一语言类别,确定交互文本所属的目标语言类别的具体实施方式:在一个实施例中,如图5所示,基于第一语言类别识别结果和第一语言类别,确定交互文本所属的目标语言类别,包括:
步骤502,确定第一语言类别所属的第一语系。
具体地,服务器确定第一语言类别所属的第一语系。由于本实施例中的语系主要按照地区分类,那么服务器可以直接将第一语言类别的常用语言所属地确定为第一语言类别所属的第一语系。具体实施方式与前述实施例类似,此处不再赘述。
步骤504,确定第一语言类别识别结果所表征的第二语言类别,以及第二语言类别所属的第二语系。
具体地,服务器确定第一语言类别识别结果所表征的第二语言类别,由于第一语言类别识别结果可以表征交互文本的语言类别,因此将交互文本的语言类别确定为第二语言类别。基于此,服务器确定第二语言类别所属的第二语系,也就是服务器依旧可以直接将第二语言类别的常用语言所属地确定为第二语言类别所属的第二语系。具体实施方式与前述实施例类似,此处不再赘述。
步骤506,通过第一语言类别与第二语言类别、以及第一语系与第二语系,确定交互文本所属的目标语言类别。
具体地,服务器通过第一语言类别与第二语言类别、以及第一语系与第二语系,确定交互文本所属的目标语言类别。即服务器对第一语言类别与第二语言类别进行语言类别对比,以得到语言类别对比结果,并且对第一语系与第二语系进行语系对比以得到语系对比结果,由此考虑语言类别对比结果与语系对比结果进行目标语言类别的确定。目标语言类别为第一语言类别或第二语言类别中一项。下面将分别对不同的语言类别对比结果与语系对比结果,确定交互文本所属的目标语言类别进行介绍:
1,若第一语言类别与第二语言类别一致,将第一语言类别或第二语言类别任一项确定为目标语言类别。
具体地,由于第一语言类别与第二语言类别一致,由此也可以确定第一语系与第二语系一致,此时服务器将第一语言类别或第二语言类别任一项确定为目标语言类别。例如,第一语言类别为简体中文类别,第二语言类别为简体中文类别,此时可以确定简体中文类别为目标语言类别。
2、若第一语言类别与第二语言类别不一致,且第一语系与第二语系一致,将第二语言类别确定为目标语言类别。
具体地,由于第一语言类别与第二语言类别不一致,由此需要进一步地考虑第一语系与第二语系是否一致,在第一语系与第二语系一致的情况下,说明分词所表述的语系类型和交互文本所表述的语系类型一致,如均为亚洲语系,而同一语系下出现分词的相似性的概率较大,如前述实施例中所举例的分词「今日」,此时交互文本所表述的语言类别能够更为准确地表征语言意图,因此,服务器将第二语言类别确定为目标语言类别。例如,第一语言类别为日文类别,第二语言类别为简体中文类别,此时日文类别(第一语言类别)属于亚洲语系,而简体中文类别(第二语言类别)也属于亚洲语系,即第一语系与第二语系一致,因此服务器将第二语言类别确定为目标语言类别,也就是将简体中文类别(第二语言类别)确定为目标语言类别。
3、若第一语言类别与第二语言类别不一致,且第一语系与第二语系不一致,将第一语言类别确定为目标语言类别。
具体地,由于第一语言类别与第二语言类别不一致,由此需要进一步地考虑第一语系与第二语系是否一致,在第一语系与第二语系不一致的情况下,出现分词的相似性的概率较低,此时为了更为细粒度低表征所输入的语言意图,服务器将第一语言类别确定为目标语言类别。例如,第一语言类别为英文类别,第二语言类别为简体中文类别,此时英文类别(第一语言类别)属于北美语系,而简体中文类别(第二语言类别)属于亚洲语系,即第一语系与第二语系不一致,因此服务器将第一语言类别确定为目标语言类别,也就是将英文类别(第一语言类别)确定为目标语言类别。
可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,通过第一语言类别与第二语言类别的语言类别对比,以及第一语系与第二语系的语系对比,语言类别维度以及语言类别所属语系维度两个方面进行目标语言类别的确定,使得目标语言类别更为全面以及准确,以提升目标语言类别的可靠性,进一步地提升对交互文本进行翻译的准确度。
由于本实施例中主要对获取的交互文本进行翻译,然而在实际交互场景下,通常存在交互信息中包括除文本信息外的其他信息,下面将介绍如何获取交互文本的方法:在一个实施例中,如图6所示,交互文本翻译的方法还包括:
步骤602,获取触发交互操作时所输入的多个初始交互信息。
其中,交互操作具体为交互信息输入操作,可以为通过文字输入交互信息,语音输入交互信息等,此处不做限定。具体地,服务器获取触发交互操作时所输入的多个初始交互信息。也就是服务器可以先获取交互方针对终端触发交互操作时所输入的多个初始交互信息。初始交互信息可以由文本信息、图像信息以及音视频信息等多种信息中至少一个组成。以及服务器可以实时获取多个初始交互信息,也可以是将在历史时间段内触发交互操作时所输入的多个初始交互信息,存储至数据存储系统中,然后再从数据存储系统获取多个初始交互信息,此处不对获取多个初始交互信息的方式进行限定。
步骤604,对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本信息以得到交互文本。
其中,文本筛选即从信息中筛选文本信息与非文本信息。具体地,服务器对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本信息以得到交互文本。即服务器对每一初始交互信息进行文本筛选,从初始交互信息中筛选文本信息与非文本信息,然后去除初始交互信息中的非文本信息以保留文本信息从而得到交互文本。前述非文本信息至少包括图像信息以及音视频信息等。
例如,初始交互信息D1包括文本信息E1,初始交互信息D2包括文本信息E2以及图像信息F1,初始交互信息D3包括图像信息F2以及表情包信息G1。对初始交互信息D1至初始交互信息D3进行文本筛选,从初始交互信息D1中确定文本信息E1,由于初始交互信息D1中不包括非文本信息,因此可以直接将初始交互信息D1确定为交互文本A1,也就是可以将文本信息E1确定为交互文本A1。
类似地,从初始交互信息D2中确定文本信息E2,而图像信息F1为非文本信息,由此从初始交互信息D2中去除图像信息F1,由此去除非文本信息后,仅包括文本信息E2的初始交互信息D2确定为交互文本,也就是可以将文本信息E2确定为交互文本A2。同理,初始交互信息D3仅存在非文本信息:图像信息F2以及表情包信息G1,因此可以直接去除初始交互信息D3,也就是不会对初始交互信息D3进行相应翻译操作。
可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,通过文本筛选得到文本信息与非文本信息,从而从初始交互信息中进行文本信息保留与非文本信息的去除,从而保证交互文本中仅包括文本信息,为后续语言类别识别以及翻译提供可靠的文本数据,即进一步地保证翻译的准确度以及可靠性。
在一个实施例中,如图7所示,对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本数据以得到交互文本,包括:
步骤702,对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本数据以得到第一候选交互文本。
具体地,服务器对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本数据以得到第一候选交互文本。具体实施方式与前述实施例所介绍的类似,此处不再赘述。
步骤704,确定每一第一候选交互文本触发交互操作的交互时间戳。
其中,交互时间戳为触发交互操作的时间戳,也就是在进行交互信息输入操作的时间戳,如,点击交互信息发送那一时刻的时间戳。具体地,服务器确定每一第一候选交互文本触发交互操作的交互时间戳,也就是针对各候选交互文本在被发送方发送出来的时刻的时间戳。如,第一候选交互文本H1在被发送方发送出来的时刻的时间戳为时间戳I1,那么第一候选交互文本H1的交互时间戳为时间戳I1,同理,第一候选交互文本H2在被发送方发送出来的时刻的时间戳为时间戳I2,那么第一候选交互文本H2的交互时间戳为时间戳I2。以及第一候选交互文本H3在被发送方发送出来的时刻的时间戳为时间戳I3,那么第一候选交互文本H3的交互时间戳为时间戳I3。
步骤706,通过每一第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定交互文本。
具体地,服务器通过每一第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定交互文本。也就是考虑到离当前时间戳的第一候选交互文本被需要翻译的可能性较低,因此,服务器将交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为交互文本。前述时间阈值为时间差最大值,可以为30分钟,1小时等,此处不做限定。可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,筛选出与当前时间戳之间的时间差较大的第一候选交互文本,以避免占用翻译资源,选择与当前时间戳之间的时间差较近的第一候选交互文本为交互文本,保证对交互文本进行翻译的实时性。
在一个实施例中,如图8所示,通过每一第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定交互文本,包括:
步骤802,将交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本。
具体地,服务器将交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本。具体实施方式与前述实施例类似,此处不做限定。
步骤804,解析第二候选交互文本,去除第二候选交互文本中的冗余信息以得到交互文本。
其中,冗余信息至少包括:表情信息、网页链接信息、时间信息以及终端标识信息等。具体地,服务器解析第二候选交互文本,从第二候选交互文本中解析得到冗余信息,并去除第二候选交互文本中的冗余信息以得到交互文本。从第二候选交互文本中解析得到冗余信息的方式可以为正则匹配,例如,“www.XXX.com”这样的网页链接信息,无论在哪个语言类型下均为一直的文本形式,若不将网页链接信息删除,会将“www.XXX.com”识别为英文类型,从而导致语言类别识别的结果可靠性降低,因此需要去除第二候选交互文本中的冗余信息以得到交互文本。
可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,首先选择与当前时间戳之间的时间差较近的第一候选交互文本为第二候选交互文本,以保证第二候选交互文本的实时性,进一步地考虑对交互文本的语言类别识别进行干扰的冗余信息,从而去除第二候选交互文本中的冗余信息以得到交互文本,此处保证交互文本的可靠性,通过前述两个操作可以保证对交互文本进行翻译的实时性于可靠性。
基于前述实施例的详细介绍,下面将介绍本申请实施例中交互文本翻译的方法的完整流程,在一个实施例中,如图9所示,提供了一种交互文本翻译的方法,以该方法应用于图1中的服务器104为例进行说明,可以理解的是,该方法也可以应用于终端102,还可以应用于包括终端102和服务器104的系统,并通过终端102和服务器104的交互实现。本实施例中,该方法包括以下步骤:
步骤901,获取触发交互操作时所输入的多个初始交互信息。
其中,交互操作具体为交互信息输入操作,可以为通过文字输入交互信息,语音输入交互信息等,此处不做限定。具体地,服务器获取触发交互操作时所输入的多个初始交互信息。也就是服务器可以先获取交互方针对终端触发交互操作时所输入的多个初始交互信息。初始交互信息可以由文本信息、图像信息以及音视频信息等多种信息中至少一个组成。以及服务器可以实时获取多个初始交互信息,也可以是将在历史时间段内触发交互操作时所输入的多个初始交互信息,存储至数据存储系统中,然后再从数据存储系统获取多个初始交互信息,此处不对获取多个初始交互信息的方式进行限定。
步骤902,对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本数据以得到第一候选交互文本。
其中,文本筛选即从信息中筛选文本信息与非文本信息。具体地,服务器对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本信息以得到第一候选交互文本。即服务器对每一初始交互信息进行文本筛选,从初始交互信息中筛选文本信息与非文本信息,然后去除初始交互信息中的非文本信息以保留文本信息从而得到第一候选交互文本。前述非文本信息至少包括图像信息以及音视频信息等。
步骤903,确定每一第一候选交互文本触发交互操作的交互时间戳。
其中,交互时间戳为触发交互操作的时间戳,也就是在进行交互信息输入操作的时间戳,如,点击交互信息发送那一时刻的时间戳。具体地,服务器确定每一第一候选交互文本触发交互操作的交互时间戳,也就是针对各候选交互文本在被发送方发送出来的时刻的时间戳。
步骤904,将交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本。
具体地,服务器将交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本。
步骤905,解析第二候选交互文本,去除第二候选交互文本中的冗余信息以得到交互文本。
其中,冗余信息至少包括:表情信息、网页链接信息、时间信息以及终端标识信息等。具体地,服务器解析第二候选交互文本,从第二候选交互文本中解析得到冗余信息,并去除第二候选交互文本中的冗余信息以得到交互文本。
步骤906,在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词。
其中,自动翻译的交互模式为:在第一交互方与第二交互方发送交互信息时,自动将交互信息翻译为交互方所选择的目标语言。且本实施例中被翻译的交互信息具体为交互文本。基于此,自动翻译的交互模式需要设置目标语言,翻译以前的语言为源语言,翻译后的语言为目标语言。可以理解的是,自动翻译的交互模式还可以设置系统语言。其次,分词处理的具体方法可以为以下任一项,或者多项方法之间的组合:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法、基于规则的分词方法以及基于n元语法的分词算法。
具体地,服务器先确定终端所处的交互模式,若终端处于非自动翻译的交互模式下,此时服务器需要根据交互方针对交互文本的翻译操作进行翻译。若终端处于自动翻译的交互模式下,此时服务器对交互文本进行分词处理得到多个分词,也就是服务器通过任一分词处理方式对交互文本进行分词处理得到多个分词。
步骤907,获取在交互模式下的系统语言,并为系统语言配置第一语言权重。
其中,自动翻译的交互模式还可以设置系统语言,系统语言通常为交互方所使用的常用语言,系统语言可以是交互方所使用终端的系统默认语言,如交互方所使用终端的系统默认语言为简体中文类别,那么系统语言可以为简体中文类别。或者,系统语言还可以是交互方所使用终端的所在地的常用语言,如交互方所使用终端的所在地为法国,法国的常用语言为法文,此时系统语言可以为法文。或者,系统语言还可以是交互方自定义设置的,如交互方直接自定义设置系统语言为繁体中文类别。其次,语言权重用于表征文本所属语言为所对应配置的概率,因此第一语言权重用于表征交互文本所属语言为系统语言的概率。
具体地,服务器先获取在交互模式下的系统语言,通过前述介绍可知,服务器可以通过与交互方所使用终端之间的通信连接,将交互方所使用终端的系统默认语言作为系统语言。或者,服务器还可以通过与交互方所使用终端之间的通信连接,将交互方所使用终端的所在地的常用语言作为系统语言。或者,服务器还可以通过与交互方所使用终端之间的通信连接,获取交互方所自定义设置的系统语言。本申请不对自动翻译的交互模式下的系统语言进行具体限定,需要基于实际需求灵活选择。
基于此,由于系统语言通常为交互方所使用的常用语言,并考虑到某一些文本在多种语言中的文本形式一致,例如,“今日”在简体中文类别与日文中的文本形式一致。因此,为保证对交互文本进行语言类别识别的准确性,更偏向于将这样的文本识别为交互方所使用的常用语言。因此,服务器为系统语言配置第一语言权重,以保证文本在多种语言中存在文本形式一致的文本时,将该文本识别为系统语言的概率更高。第一语言权重可以为0.6、0.7、0.8或0.9等,第一语言权重的具体设置需要基于实际应用需求灵活确定。
步骤908,确定系统语言所属的目标语系,将属于所述目标语系下的除系统语言外的语言确定为系统同语系语言,并为各系统同语系语言配置第二语言权重。
其中,语系的划分可以按照地区分类,如:非洲语系、亚洲语系、澳太语系、北美语系、南美语系以及欧洲语系。语系的划分也可以按照国家地区分类,或者其他分类方法,本实施例中的语系主要按照地区分类。基于此,目标语系即为系统语言所属的语系,而系统同语系语言为系统语言所属的语系中除系统语言外的语言。其次,通过前述介绍可知,语言权重用于表征文本所属语言为所对应配置的概率,因此第二语言权重用于表征交互文本所属语言为系统语言所属的目标语系下的其他语言的概率,且第一语言权重与各系统同语系语言的第二语言权重之和为1,以及第一语言权重大于第二语言权重。
具体地,服务器先确定系统语言所属的目标语系,由于本实施例中的语系主要按照地区分类,那么可以直接考虑系统语言的常用语言所属地确定系统语言所属的目标语系。例如,系统语言为简体中文类别,简体中文类别属于亚洲语系,此时可以将亚洲语系确定为目标语系,此时可以将亚洲语系中的繁体中文、日文、韩文等语言确定为系统同语系语言。
或,系统语言为繁体中文类别,繁体中文类别也属于亚洲语系,此时可以将亚洲语系确定为目标语系。或,系统语言为法文,法文属于欧洲语系,此时可以将欧洲语系确定为目标语系,此时可以将欧洲语系中的英文、意大利文、西班牙文等语言确定为系统同语系语言。
进一步地,依旧考虑到某一些文本在多种语言中的文本形式一致,例如,“今”在简体中文类别与日文中的文本形式一致。因此,为保证对交互文本进行语言类别识别的准确性,更偏向于将这样的文本识别为交互方所使用的常用语言。那么在服务器为系统语言配置第一语言权重基础上,为属于目标语系下的语言配置第二语言权重。也就是保证文本在多种语言中存在文本形式一致的文本时,将该文本识别为系统语言的概率更高,而将文本识别为目标语系中系统同语系语言的概率更低。例如,若第一语言权重为0.6,那么各系统同语系语言的第二语言权重之和为0.4。或者,若第一语言权重为0.9,那么各系统同语系语言的第二语言权重之和为0.1,第一语言权重与第二语言权重的具体设置需要基于实际应用需求灵活确定。
步骤909,基于第一语言权重以及各第二语言权重,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果。
具体地,服务器基于第一语言权重以及各第二语言权重,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果。也就是服务器基于第一语言权重以及各第二语言权重,在对交互文本进行语言类别识别过程中,将交互文本识别为系统语言的概率调高,而将交互文本识别为目标语系中其他语系的概率调低。例如,若第一语言权重为0.9,那么各系统同语系语言的第二语言权重之和为0.1,那么在对交互文本进行语言类别识别过程中,将交互文本识别为系统语言的概率调整为0.9,将交互文本识别为目标语系中其他系统同语系语言的总概率调整为0.1,并由此进行语言类别识别。
同理可知,也就是服务器基于第一语言权重以及各第二语言权重,在对每一分词进行语言类别识别过程中,将分词识别为系统语言的概率调高,而将分词识别为目标语系中其他语系的概率调低。例如,以交互文本为“今日の会議は”为例,通过前述示例可知,对交互文本进行分词处理后所得到的多个分词为:「今日」、「の」、「会議」与「は」 ,针对分词「今日」进行语言类别识别的过程中,若系统语言为简体中文类别,以及第一语言权重为0.6,那么各系统同语系语言的第二语言权重之和为0.4,那么分词「今日」被识别为简体中文类别的概率会被调整为0.6,也就是分词「今日」此时大概率会被识别为简体中文类别,那么可以得到分词「今日」的第二语言类别识别结果表征为简体中文类别。然而,若系统语言为日文,以及第一语言权重为0.9,那么各系统同语系语言的第二语言权重之和为0.1,那么分词「今日」被识别为日文的概率会被调整为0.9,也就是分词「今日」此时大概率会被识别为日文,那么可以得到分词「今日」的第二语言类别识别结果表征为日文类别。
步骤910,基于各第二语言类别识别结果所表征的语言类别进行统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量。
其中,识别结果数量用于描述表征同一语言类别的第二语言类别识别结果数量,识别结果数量与第二语言类别识别结果所表征的语言类别对应匹配。具体地,服务器基于各第二语言类别识别结果所表征的语言类别进行数量统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量,并确定每一识别结果数量所匹配的第二语言类别识别结果所表征的语言类别。
步骤911,将识别结果数量匹配的最多的语言类别确定为第一语言类别。
具体地,服务器将识别结果数量匹配的最多的语言类别确定为第一语言类别。通过前述实施例可知,服务器在统计识别结果数量后,还可以确定每一识别结果数量所匹配的第二语言类别识别结果所表征的语言类别,此时可以对识别结果数量进行排序,通过排序结果选择识别结果数量最多所匹配的语言类别为第一语言类别。进行排序的方式可以从大到小或从小到大,此处不做限定
步骤912,确定第一语言类别所属的第一语系,并确定第一语言类别识别结果所表征的第二语言类别,以及第二语言类别所属的第二语系。
具体地,服务器确定第一语言类别所属的第一语系。由于本实施例中的语系主要按照地区分类,那么服务器可以直接将第一语言类别的常用语言所属地确定为第一语言类别所属的第一语系。具体实施方式与前述实施例类似,此处不再赘述。
进一步地,服务器确定第一语言类别识别结果所表征的第二语言类别,由于第一语言类别识别结果可以表征交互文本的语言类别,因此将交互文本的语言类别确定为第二语言类别。基于此,服务器确定第二语言类别所属的第二语系,也就是服务器依旧可以直接将第二语言类别的常用语言所属地确定为第二语言类别所属的第二语系。具体实施方式与前述实施例类似,此处不再赘述。
步骤913,通过第一语言类别与第二语言类别、以及第一语系与第二语系,确定交互文本所属的目标语言类别。
具体地,服务器通过第一语言类别与第二语言类别、以及第一语系与第二语系,确定交互文本所属的目标语言类别。即服务器对第一语言类别与第二语言类别进行语言类别对比,以得到语言类别对比结果,并且对第一语系与第二语系进行语系对比以得到语系对比结果,由此考虑语言类别对比结果与语系对比结果进行目标语言类别的确定。目标语言类别为第一语言类别或第二语言类别中一项。下面将分别对不同的语言类别对比结果与语系对比结果,确定交互文本所属的目标语言类别进行介绍:
1,若第一语言类别与第二语言类别一致,将第一语言类别或第二语言类别任一项确定为目标语言类别。
具体地,由于第一语言类别与第二语言类别一致,由此也可以确定第一语系与第二语系一致,此时服务器将第一语言类别或第二语言类别任一项确定为目标语言类别。例如,第一语言类别为简体中文类别,第二语言类别为简体中文类别,此时可以确定简体中文类别为目标语言类别。
2、若第一语言类别与第二语言类别不一致,且第一语系与第二语系一致,将第二语言类别确定为目标语言类别。
具体地,由于第一语言类别与第二语言类别不一致,由此需要进一步地考虑第一语系与第二语系是否一致,在第一语系与第二语系一致的情况下,说明分词所表述的语系类型和交互文本所表述的语系类型一致,如均为亚洲语系,而同一语系下出现分词的相似性的概率较大,如前述实施例中所举例的分词「今日」,此时交互文本所表述的语言类别能够更为准确地表征语言意图,因此,服务器将第二语言类别确定为目标语言类别。例如,第一语言类别为日文类别,第二语言类别为简体中文类别,此时日文类别(第一语言类别)属于亚洲语系,而简体中文类别(第二语言类别)也属于亚洲语系,即第一语系与第二语系一致,因此服务器将第二语言类别确定为目标语言类别,也就是将简体中文类别(第二语言类别)确定为目标语言类别。
3、若第一语言类别与第二语言类别不一致,且第一语系与第二语系不一致,将第一语言类别确定为目标语言类别。
具体地,由于第一语言类别与第二语言类别不一致,由此需要进一步地考虑第一语系与第二语系是否一致,在第一语系与第二语系不一致的情况下,出现分词的相似性的概率较低,此时为了更为细粒度低表征所输入的语言意图,服务器将第一语言类别确定为目标语言类别。例如,第一语言类别为英文类别,第二语言类别为简体中文类别,此时英文类别(第一语言类别)属于北美语系,而简体中文类别(第二语言类别)属于亚洲语系,即第一语系与第二语系不一致,因此服务器将第一语言类别确定为目标语言类别,也就是将英文类别(第一语言类别)确定为目标语言类别。
步骤914,在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
具体地,服务器确定在目标语言类别与交互模式的目标语言相同的情况下,即说明所发送的交互文本就是所需的目标语言,此时并不需要对交互文本进行翻译,以避免文本翻译的资源浪费。而服务器确定在目标语言类别与交互模式的目标语言不同的情况下,说明需要将目标语言类别的交互文本翻译为目标语言,因此再将交互文本翻译为目标语言的翻译文本。
可以理解的是,在实际应用中,若存在多个交互文本的目标语言类别与交互模式的目标语言不同的情况,那么可以将目标语言类别与交互模式的目标语言不同的交互文本确定为待翻译交互文本,由此可以同时并行处理多个待翻译交互文本的翻译过程,但为保证翻译速率,本实施例对并行处理多个待翻译交互文本的数量进行限制,若待翻译交互文本的数量超过翻译数量阈值,将对交互时间戳靠后的待翻译交互文本进行排队处理。由于本申请主要应用于自动翻译的交互模式,存在交互方手动选择需要翻译的交互文本,此时会优先处理被交互方手动选择的待翻译交互文本,此时不会判断目标语言类别与目标语言是否相同,而是直接对交互方手动选择的待翻译交互文本进行翻译
应理解,步骤901至步骤914的具体实施方式与前述实施例中所介绍的交互文本翻译的方法均类似,此处不再赘述。
由于在实际应用中完成对交互文本翻译后,需要在参与交互的用户的终端上显示相应的翻译文本,下面将介绍如何对交互文本与翻译文本进行显示的方法:在另一个实施例中,如图10所示,提供了一种交互文本的显示方法,以该方法应用于图1中的终端102为例进行说明,可以理解的是,该方法也可以应用于包括终端102和服务器104的系统,并通过终端102和服务器104的交互实现。本实施例中,该方法包括以下步骤:
步骤1002,在自动翻译的交互模式下,显示发送方发送的交互文本。
其中,自动翻译的交互模式为:在第一交互方与第二交互方发送交互信息时,自动将交互信息翻译为交互方所选择的目标语言,且本实施例中被翻译的交互信息具体为交互文本。前述发送方可以为第一交互方与第二交互方任一,即发送方为发送交互文本的交互方。以及交互文本不会包括表情包信息、数字信息、音视频信息以及链接信息等非文本的冗余信息。
具体的,在自动翻译的交互模式下,终端会显示发送方发送的交互文本。在具体的实际应用场景中,也就是在交互应用中存在可以显示交互文本的区域,然后在改区域显示发送方发送的交互文本。为便于理解,在一个具体的应用中,以实时会话场景为例,如图11所示,在下实时会话场景终端可以显示有会话界面,然后在会话界面上显示以发送方发送的交互文本1102、交互文本1104以及交互文本1106。
步骤1004,在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域。
其中,翻译文本显示区域为用于显示翻译文本的区域。具体地,如前述实施例所介绍的交互文本翻译的方法,在目标语言类别与交互模式的目标语言不同的情况下,说明需要将目标语言类别的交互文本翻译为目标语言,由此触发自动翻译的过程,此时会显示与交互文本关联的翻译文本显示区域。
进一步地,与交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠。为便于理解,在一个具体的应用中,再次以实时会话场景为例,如图12所示,与交互文本关联的翻译文本显示区域1201,与显示发送方发送的交互文本的交互文本显示区域1202之间不存在区域交叠。应理解,图12中的翻译文本显示区域仅为描述与交互文本显示区域之间的关系,翻译文本显示区域的具体大小以及具体位置需要基于实际情况,与翻译文本的数量确定。
可选地,与交互文本关联的翻译文本显示区域,覆盖于显示发送方发送的交互文本的交互文本显示区域之上。为便于理解,在一个具体的应用中,再次以实时会话场景为例,如图13所示,与交互文本关联的翻译文本显示区域1301,覆盖于显示发送方发送的交互文本的交互文本显示区域1302之上。应理解,图13中的翻译文本显示区域仅为描述与交互文本显示区域之间的关系,翻译文本显示区域的具体大小以及具体位置需要基于实际情况,与翻译文本的数量确定。
可以理解的是,在目标语言类别与交互模式的目标语言相同的情况下,即说明发送方所发送的交互文本就是所需的目标语言,此时并不需要对交互文本进行翻译,以避免文本翻译的资源浪费。然而,在实际应用中可能存在发送方主动选择翻译的情况,由此,在接收到发送方针对待翻译文本的选择操作时,可以响应于发送方针对待翻译文本的选择操作,显示与交互文本关联的翻译文本显示区域。为便于理解针对待翻译文本的选择操作,再次以实时会话场景为例,如图14所示,针对待翻译文本的选择操作即为在选择待翻译文本1402后,终端会显示翻译选择控件1404,在针对翻译选择控件1404进行选择操作后即完成针对待翻译文本1402的选择操作。针对翻译选择控件1404进行选择操作包括但不限于:滑动选择操作、单击选择操作、双击选择操作、语音选择操作等,此处不做限定。
步骤1006,在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
具体地,终端在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。也就是如前述实施例所介绍的交互文本翻译的方法,在目标语言类别与交互模式的目标语言不同的情况下,会将交互文本翻译为目标语言的翻译文本,因此终端在显示翻译文本显示区域后,会在翻译文本显示区域中显示将交互文本翻译为目标语言的翻译文本。
进一步地,通过前述实施例可知,与交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠。或者,与交互文本关联的翻译文本显示区域,覆盖于显示发送方发送的交互文本的交互文本显示区域之上。下面将分别介绍在不同的显示方式中显示翻译文本的方式。为便于理解,基于图12所示出的翻译文本显示区域,如图15所示,在翻译文本显示区域1502中,显示将交互文本1504翻译为目标语言的翻译文本。其次,基于图13所示出的翻译文本显示区域,如图16所示,在翻译文本显示区域1602中,显示将交互文本翻译为目标语言的翻译文本。
可以理解的是,本实施例中前述所有示例仅用于理解本方案,不应理解为对本方案的具体限定。
上述交互文本的显示方法中,在显示交互文本的基础上,在交互文本所属的语言类别与交互模式的目标语言不同的情况下,此时需要将目标语言类别的交互文本翻译为目标语言,因此才显示与交互文本关联的翻译文本显示区域,并进而在翻译文本显示区域中显示目标语言的翻译文本,从而提升对交互文本翻译后进行显示的可靠性。
由于本实施例主要介绍在自动翻译的交互模式下进行交互文本的显示,那么下面将介绍如何开启自动翻译的交互模式的方式:在一个实施例中,如图17所示,交互文本的显示方法还包括:
步骤1702,显示自动翻译模式开启控件。
具体地,终端显示自动翻译模式开启控件。为便于理解,在一个具体的应用中,再次以实时会话场景为例,如图18所示,终端显示自动翻译模式开启控件1802。
步骤1704,响应于针对自动翻译模式开启控件的开启操作,显示语言选择控件,语言选择控件用于指示选择交互模式的目标语言。
其中,语言选择控件用于指示选择交互模式的目标语言。具体地,在发送方需要开启自动翻译的交互模式时,发送方会在终端的显示页面上针对自动翻译模式开启控件进行开启操作,前述开启操作包括但不限于:滑动选择操作、单击选择操作、双击选择操作、语音选择操作等,此处不做限定。基于此,终端响应于针对自动翻译模式开启控件的开启操作,显示语言选择控件,由于语言选择控件用于指示选择交互模式的目标语言,那么发送方可以针对语言选择控件进行语言选择操作,以确定自动翻译的交互模式下的目标语言。
为便于理解,在一个具体的应用中,再次以实时会话场景为例,基于图18所示出的自动翻译模式开启控件,如图19所示,在发送方会在终端的显示页面上针对自动翻译模式开启控件1902进行开启操作后,终端会显示语言选择控件1904,以指示发送方选择交互模式的目标语言。可以理解的是,本实施例中图中示例仅用于理解本方案,不应理解为对本方案的具体限定。
本实施例中,通过自动翻译模式开启控件指示发送方进行自动翻译模式的开启选择,并进一步地指引进行目标语言的选择,以保证自动翻译模型可以基于所选择的目标语言进行判断以及相应翻译,保证文本翻译的可靠性,从而保证对交互文本翻译后进行显示的可靠性。
在一个实施例中,如图20所示,交互文本的显示方法还包括:
步骤2002,在发送方的交互页面,对应于翻译文本,显示翻译文本调整控件,翻译文本调整控件用于指示对目标语言的翻译文本进行调整。
具体地,终端在发送方的交互页面,对应于翻译文本,显示翻译文本调整控件。也就是在发送交互文本方的交互页面,终端可以通过前述实施例所介绍的方法显示发送方发送的交互文本,并且在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。为便于理解,以交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠为例,具体如图21所示,在发送方的交互页面显示发送方发送的交互文本2102,在翻译文本显示区域2104中,显示将交互文本翻译为目标语言的翻译文本。
基于此,在实际应用中,还是可能存在翻译文本不够准确的情况,此时可以显示翻译文本调整控件,以通过翻译文本调整控件指示对目标语言的翻译文本进行调整。翻译文本调整控件可以位于翻译文本显示区域、发送方发送的交互文本的区域、或发送方的交互页面的任意区域,此处不做限定。为便于理解,以翻译文本调整控件位于翻译文本显示区域为例,如图22所示,在翻译文本显示区域2202中不但显示将交互文本翻译为目标语言的翻译文本,还显示有翻译文本调整控件2204。可以理解的是,本实施例中图中示例仅用于理解本方案,不应理解为对本方案的具体限定。
步骤2004,响应于针对翻译文本调整控件的文本调整操作,在翻译文本显示区域中,显示对目标语言的翻译文本进行调整后的文本。
具体地,终端响应于针对翻译文本调整控件的文本调整操作,并获取对目标语言的翻译文本进行调整后的文本,从而在翻译文本显示区域中,显示对目标语言的翻译文本进行调整后的文本。具体显示方式与前述实施例类似,此处不再赘述。
本实施例中,通过翻译文本调整控件指示对目标语言的翻译文本进行调整,也就是为发送方提供翻译调整功能,从而在翻译文本与文本实际意义翻译错误时,对目标语言的翻译文本进行调整,以保证在翻译文本显示区域中显示的翻译文本更接近真实表述,由此提升交互文本的显示的可靠性以及灵活性。
在一个实施例中,如图23所示,显示将交互文本翻译为目标语言的翻译文本,包括:
步骤2302,显示文本翻译状态的翻译状态图标。
具体地,终端显示文本翻译状态的翻译状态图标。由于在将交互文本翻译为目标语言的翻译文本还是需要一定翻译时间,因此再在将交互文本翻译为目标语言的翻译文本的过程中,会在翻译文本显示区域显示文本翻译状态的翻译状态图标,前述翻译状态图标指示在将交互文本翻译为目标语言的翻译文本的过程中,即暂未完成翻译过程。为便于理解,以交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠为例,具体如图24所示,在翻译文本显示区域2402中,显示文本翻译状态的翻译状态图标2405。
步骤2304,在完成将交互文本翻译为目标语言的翻译文本后,用目标语言的翻译文本替换翻译状态图标进行显示。
具体地,在完成将交互文本翻译为目标语言的翻译文本后,终端会在翻译文本显示区域中用目标语言的翻译文本替换翻译状态图标进行显示。此时文本显示区域的大小可以基于翻译状态图标与目标语言的翻译文本显示大小进行变更。为便于理解,基于前述示例进行进一步地的介绍,如图25所示,在完成将交互文本翻译为目标语言的翻译文本后,在翻译文本显示区域2502中,用目标语言的翻译文本替换翻译状态图标进行显示。
可选地,显示将交互文本翻译为目标语言的翻译文本还可以包括:按照标语种的翻译文本的文本顺序,显示目标语种的翻译文本,也就是终端会有一个向下延展的动画,以逐渐显示目标语种的翻译文本,并在逐渐显示目标语种的翻译文本的过程中,翻译文本显示区域也可以基于翻译文本的文本数量进行区域大小调整。为便于理解,如图26所示,即为终端在翻译文本显示区域2602中逐渐显示目标语种的翻译文本的方式。
本实施例中,在翻译文本显示区域中通过显示翻译状态图标,以告知发送方还处于将交互文本翻译为目标语言的翻译文本的过程中,并在完成翻译后用目标语言的翻译文本替换翻译状态图标进行显示,在保证交互文本的显示的实时性的基础上,能够让发送方了解交互文本的显示流程,以提升发送方针对交互文本显示的使用感受。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的交互文本翻译的方法的交互文本翻译装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个交互文本翻译装置实施例中的具体限定可以参见上文中对于交互文本翻译的方法的限定,在此不再赘述。
在一个实施例中,如图27所示,提供了一种交互文本翻译装置,包括:分词模块2702、语言类别识别模块2704、语言类别确定模块2706和文本翻译模块2708,其中:
分词模块2702,用于在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
语言类别识别模块2704,用于对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果;
语言类别确定模块2706,用于基于第一语言类别识别结果和各第二语言类别识别结果,确定交互文本所属的目标语言类别;
文本翻译模块2708,用于在目标语言类别与交互模式的目标语言不同的情况下,将交互文本翻译为目标语言的翻译文本。
在一个实施例中,如图28所示,交互文本翻译装置还包括语言权重配置模块2802;
语言权重配置模块2802,用于获取在交互模式下的系统语言,并为系统语言配置第一语言权重;确定系统语言所属的目标语系,将属于所述目标语系下的除系统语言外的语言确定为系统同语系语言,并为各系统同语系语言配置第二语言权重;
语言类别识别模块2704,具体用于基于第一语言权重以及各第二语言权重,对交互文本以及每一分词分别进行语言类别识别,得到针对交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果。
在一个实施例中,语言类别确定模块2706,具体用于基于各第二语言类别识别结果所表征的语言类别进行统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量;将识别结果数量匹配的最多的语言类别确定为第一语言类别;基于第一语言类别识别结果和第一语言类别,确定交互文本所属的目标语言类别。
在一个实施例中,语言类别确定模块2706,具体用于确定第一语言类别所属的第一语系;确定第一语言类别识别结果所表征的第二语言类别,以及第二语言类别所属的第二语系;通过第一语言类别与第二语言类别、以及第一语系与第二语系,确定交互文本所属的目标语言类别。
在一个实施例中,语言类别确定模块2706,具体用于若第一语言类别与第二语言类别一致,将第一语言类别或第二语言类别任一项确定为目标语言类别。
在一个实施例中,语言类别确定模块2706,具体用于若第一语言类别与第二语言类别不一致,且第一语系与第二语系一致,将第二语言类别确定为目标语言类别。
在一个实施例中,语言类别确定模块2706,具体用于若第一语言类别与第二语言类别不一致,且第一语系与第二语系不一致,将第一语言类别确定为目标语言类别。
在一个实施例中,如图29所示,交互文本翻译装置还包括交互文本获取模块2902;
交互文本获取模块2902,用于获取触发交互操作时所输入的多个初始交互信息;对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本信息以得到交互文本。
在一个实施例中,交互文本获取模块2902,具体用于对每一初始交互信息进行文本筛选,去除每一初始交互信息中非文本数据以得到第一候选交互文本;确定每一第一候选交互文本触发交互操作的交互时间戳;通过每一第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定交互文本。
在一个实施例中,交互文本获取模块2902,具体用于将交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本;解析第二候选交互文本,去除第二候选交互文本中的冗余信息以得到交互文本。
在一个实施例中,如图30所示,提供了一种交互文本的显示装置,包括:交互文本显示模块3002、区域显示模块3004和翻译文本显示模块3006,其中:
交互文本显示模块3002,用于在自动翻译的交互模式下,显示发送方发送的交互文本;
区域显示模块3004,用于在交互文本所属的语言类别与交互模式的目标语言不同的情况下,显示与交互文本关联的翻译文本显示区域;
翻译文本显示模块3006,用于在翻译文本显示区域中,显示将交互文本翻译为目标语言的翻译文本。
在一个实施例中,如图31所示,交互文本的显示装置还包括控件显示模块3102;
控件显示模块3102,用于显示自动翻译模式开启控件;响应于针对自动翻译模式开启控件的开启操作,显示语言选择控件,语言选择控件用于指示选择交互模式的目标语言。
在一个实施例中,与交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠。
在一个实施例中,与交互文本关联的翻译文本显示区域,覆盖于显示发送方发送的交互文本的交互文本显示区域之上。
在一个实施例中,控件显示模块3102,具体用于在发送方的交互页面,对应于翻译文本,显示翻译文本调整控件,翻译文本调整控件用于指示对目标语言的翻译文本进行调整;响应于针对翻译文本调整控件的文本调整操作,在翻译文本显示区域中,显示对目标语言的翻译文本进行调整后的文本。
在一个实施例中,翻译文本显示模块3006,具体用于显示文本翻译状态的翻译状态图标;在完成将交互文本翻译为目标语言的翻译文本后,用目标语言的翻译文本替换翻译状态图标进行显示。
上述交互文本翻译装置中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器也可以为终端,本实施例中以计算机设备为服务器作为示例进行介绍,其内部结构图可以如图32所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储交互文本以及翻译文本等与本申请实施例相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种交互文本翻译的方法。
本领域技术人员可以理解,图32中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在另一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图33所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种交互文本的显示方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图33中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的对象信息(包括但不限于对象设备信息、对象个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经对象授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征信息可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征信息所有可能的组合都进行描述,然而,只要这些技术特征信息的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (27)

1.一种交互文本翻译的方法,其特征在于,包括:
在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
获取在所述交互模式下的系统语言,并为所述系统语言配置第一语言权重;所述第一语言权重用于表征所述交互文本所属语言为所述系统语言的概率;
确定所述系统语言所属的目标语系,将属于所述目标语系下的除所述系统语言外的语言确定为系统同语系语言,并为各所述系统同语系语言配置第二语言权重;所述第二语言权重用于表征所述交互文本所属语言为所述目标语系下的其他语言的概率;所述第一语言权重大于所述第二语言权重;
基于所述第一语言权重以及各所述第二语言权重,对所述交互文本以及每一所述分词分别进行语言类别识别,得到针对所述交互文本的第一语言类别识别结果、以及多个针对每一所述分词的第二语言类别识别结果;
基于所述第一语言类别识别结果和各所述第二语言类别识别结果,确定所述交互文本所属的目标语言类别;
在所述目标语言类别与所述交互模式的目标语言不同的情况下,将所述交互文本翻译为所述目标语言的翻译文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一语言类别识别结果和各所述第二语言类别识别结果,确定所述交互文本所属的目标语言类别,包括:
基于各所述第二语言类别识别结果所表征的语言类别进行统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量;
将所述识别结果数量匹配的最多的语言类别确定为第一语言类别;
基于所述第一语言类别识别结果和所述第一语言类别,确定所述交互文本所属的目标语言类别。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语言类别识别结果和所述第一语言类别,确定所述交互文本所属的目标语言类别,包括:
确定所述第一语言类别所属的第一语系;
确定所述第一语言类别识别结果所表征的第二语言类别,以及所述第二语言类别所属的第二语系;
通过所述第一语言类别与第二语言类别、以及所述第一语系与所述第二语系,确定所述交互文本所属的目标语言类别。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第一语言类别与第二语言类别、以及所述第一语系与所述第二语系,确定所述交互文本所属的目标语言类别,包括:
若所述第一语言类别与第二语言类别一致,将所述第一语言类别或所述第二语言类别任一项确定为所述目标语言类别;
若所述第一语言类别与第二语言类别不一致,且所述第一语系与所述第二语系一致,将所述第二语言类别确定为所述目标语言类别;
若所述第一语言类别与第二语言类别不一致,且所述第一语系与所述第二语系不一致,将所述第一语言类别确定为所述目标语言类别。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取触发交互操作时所输入的多个初始交互信息;
对每一所述初始交互信息进行文本筛选,去除每一所述初始交互信息中非文本信息以得到所述交互文本。
6.根据权利要求5所述的方法,其特征在于,所述对每一所述初始交互信息进行文本筛选,去除每一所述初始交互信息中非文本数据以得到所述交互文本,包括:
对每一所述初始交互信息进行文本筛选,去除每一所述初始交互信息中非文本数据以得到第一候选交互文本;
确定每一所述第一候选交互文本触发交互操作的交互时间戳;
通过每一所述第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定所述交互文本。
7.根据权利要求6所述的方法,其特征在于,所述通过每一所述第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定所述交互文本,包括:
将所述交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本;
解析所述第二候选交互文本,去除所述第二候选交互文本中的冗余信息以得到所述交互文本。
8.一种交互文本的显示方法,其特征在于,所述方法包括:
在自动翻译的交互模式下,显示发送方发送的交互文本;
在所述交互文本所属的语言类别与所述交互模式的目标语言不同的情况下,显示与所述交互文本关联的翻译文本显示区域;所述交互文本所属的语言类别是通过所述交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果确定的,所述每一分词是对所述交互文本进行分词处理得到的;所述交互文本的第一语言类别识别结果以及多个针对每一分词的第二语言类别识别结果,是基于第一语言权重以及各第二语言权重,对所述交互文本以及每一所述分词分别进行语言类别识别得到的,所述第一语言权重是为在所述交互模式下的系统语言配置的,所述第一语言权重用于表征所述交互文本所属语言为所述系统语言的概率;所述第二语言权重是为系统同语系语言配置的,所述第二语言权重用于表征所述交互文本所属语言为目标语系下的其他语言的概率,所述目标语系为所述系统语言所属的语系;所述第一语言权重大于所述第二语言权重;且所述系统同语系语言是所述目标语系下的除所述系统语言外的语言;
在所述翻译文本显示区域中,显示将所述交互文本翻译为所述目标语言的翻译文本。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
显示自动翻译模式开启控件;
响应于针对所述自动翻译模式开启控件的开启操作,显示语言选择控件,所述语言选择控件用于指示选择所述交互模式的目标语言。
10.根据权利要求8所述的方法,其特征在于,所述与所述交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠;
或,所述与所述交互文本关联的翻译文本显示区域,覆盖于所述显示发送方发送的交互文本的交互文本显示区域之上。
11.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在所述发送方的交互页面,对应于所述翻译文本,显示翻译文本调整控件,所述翻译文本调整控件用于指示对所述目标语言的翻译文本进行调整;
响应于针对所述翻译文本调整控件的文本调整操作,在所述翻译文本显示区域中,显示对所述目标语言的翻译文本进行调整后的文本。
12.根据权利要求8所述的方法,其特征在于,所述显示将所述交互文本翻译为所述目标语言的翻译文本,包括:
显示文本翻译状态的翻译状态图标;
在完成将所述交互文本翻译为所述目标语言的翻译文本后,用所述目标语言的翻译文本替换所述翻译状态图标进行显示。
13.一种交互文本翻译装置,其特征在于,所述装置包括:
分词模块,用于在自动翻译的交互模式下,对获取的交互文本进行分词处理,得到多个分词;
语言权重配置模块,用于获取在所述交互模式下的系统语言,并为所述系统语言配置第一语言权重;所述第一语言权重用于表征所述交互文本所属语言为所述系统语言的概率;确定所述系统语言所属的目标语系,将属于所述目标语系下的除所述系统语言外的语言确定为系统同语系语言,并为各所述系统同语系语言配置第二语言权重;所述第二语言权重用于表征所述交互文本所属语言为所述目标语系下的其他语言的概率;所述第一语言权重大于所述第二语言权重;
语言类别识别模块,用于基于所述第一语言权重以及各所述第二语言权重,对所述交互文本以及每一所述分词分别进行语言类别识别,得到针对所述交互文本的第一语言类别识别结果、以及多个针对每一所述分词的第二语言类别识别结果;
语言类别确定模块,用于基于所述第一语言类别识别结果和各所述第二语言类别识别结果,确定所述交互文本所属的目标语言类别;
文本翻译模块,用于在所述目标语言类别与所述交互模式的目标语言不同的情况下,将所述交互文本翻译为所述目标语言的翻译文本。
14.根据权利要求13所述的装置,其特征在于,所述语言类别确定模块,具体用于基于各所述第二语言类别识别结果所表征的语言类别进行统计,得到表征同一语言类别的第二语言类别识别结果的识别结果数量;将所述识别结果数量匹配的最多的语言类别确定为第一语言类别;基于所述第一语言类别识别结果和所述第一语言类别,确定所述交互文本所属的目标语言类别。
15.根据权利要求14所述的装置,其特征在于,所述语言类别确定模块,具体用于确定所述第一语言类别所属的第一语系;确定所述第一语言类别识别结果所表征的第二语言类别,以及所述第二语言类别所属的第二语系;通过所述第一语言类别与第二语言类别、以及所述第一语系与所述第二语系,确定所述交互文本所属的目标语言类别。
16.根据权利要求15所述的装置,其特征在于,所述所述语言类别确定模块,具体用于若所述第一语言类别与第二语言类别一致,将所述第一语言类别或所述第二语言类别任一项确定为所述目标语言类别;若所述第一语言类别与第二语言类别不一致,且所述第一语系与所述第二语系一致,将所述第二语言类别确定为所述目标语言类别;若所述第一语言类别与第二语言类别不一致,且所述第一语系与所述第二语系不一致,将所述第一语言类别确定为所述目标语言类别。
17.根据权利要求13所述的装置,其特征在于,所述装置还包括交互文本获取模块;
所述交互文本获取模块,用于获取触发交互操作时所输入的多个初始交互信息;对每一所述初始交互信息进行文本筛选,去除每一所述初始交互信息中非文本信息以得到所述交互文本。
18.根据权利要求17所述的装置,其特征在于,所述交互文本获取模块,具体用于对每一所述初始交互信息进行文本筛选,去除每一所述初始交互信息中非文本数据以得到第一候选交互文本;确定每一所述第一候选交互文本触发交互操作的交互时间戳;通过每一所述第一候选交互文本的交互时间戳与当前时间戳之间的时间差,确定所述交互文本。
19.根据权利要求18所述的装置,其特征在于,所述交互文本获取模块,具体用于将所述交互时间戳与当前时间戳之间的时间差小于时间阈值的第一候选交互文本,确定为第二候选交互文本;解析所述第二候选交互文本,去除所述第二候选交互文本中的冗余信息以得到所述交互文本。
20.一种交互文本的显示装置,其特征在于,所述装置包括:
交互文本显示模块,用于在自动翻译的交互模式下,显示发送方发送的交互文本;
区域显示模块,用于在所述交互文本所属的语言类别与所述交互模式的目标语言不同的情况下,显示与所述交互文本关联的翻译文本显示区域;所述交互文本所属的语言类别是通过所述交互文本的第一语言类别识别结果、以及多个针对每一分词的第二语言类别识别结果确定的,所述每一分词是对所述交互文本进行分词处理得到的;所述交互文本的第一语言类别识别结果以及多个针对每一分词的第二语言类别识别结果,是基于第一语言权重以及各第二语言权重,对所述交互文本以及每一所述分词分别进行语言类别识别得到的,所述第一语言权重是为在所述交互模式下的系统语言配置的,所述第一语言权重用于表征所述交互文本所属语言为所述系统语言的概率;所述第二语言权重是为系统同语系语言配置的,所述第二语言权重用于表征所述交互文本所属语言为目标语系下的其他语言的概率,所述目标语系为所述系统语言所属的语系;所述第一语言权重大于所述第二语言权重;且所述系统同语系语言是所述目标语系下的除所述系统语言外的语言;
翻译文本显示模块,用于在所述翻译文本显示区域中,显示将所述交互文本翻译为所述目标语言的翻译文本。
21.根据权利要求20所述的装置,其特征在于,所述装置还包括控件显示模块;
所述控件显示模块,用于显示自动翻译模式开启控件;响应于针对所述自动翻译模式开启控件的开启操作,显示语言选择控件,所述语言选择控件用于指示选择所述交互模式的目标语言。
22.根据权利要求20所述的装置,其特征在于,所述与所述交互文本关联的翻译文本显示区域,与显示发送方发送的交互文本的交互文本显示区域之间不存在区域交叠;或,所述与所述交互文本关联的翻译文本显示区域,覆盖于所述显示发送方发送的交互文本的交互文本显示区域之上。
23.根据权利要求20所述的装置,其特征在于,所述装置还包括控件显示模块;
所述控件显示模块,具体用于在所述发送方的交互页面,对应于所述翻译文本,显示翻译文本调整控件,所述翻译文本调整控件用于指示对所述目标语言的翻译文本进行调整;响应于针对所述翻译文本调整控件的文本调整操作,在所述翻译文本显示区域中,显示对所述目标语言的翻译文本进行调整后的文本。
24.根据权利要求20所述的装置,其特征在于,所述翻译文本显示模块,具体用于显示文本翻译状态的翻译状态图标;在完成将所述交互文本翻译为所述目标语言的翻译文本后,用所述目标语言的翻译文本替换所述翻译状态图标进行显示。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
26.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
27.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202311495375.5A 2023-11-10 2023-11-10 交互文本翻译的方法、交互文本的显示方法和相关装置 Active CN117236347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311495375.5A CN117236347B (zh) 2023-11-10 2023-11-10 交互文本翻译的方法、交互文本的显示方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311495375.5A CN117236347B (zh) 2023-11-10 2023-11-10 交互文本翻译的方法、交互文本的显示方法和相关装置

Publications (2)

Publication Number Publication Date
CN117236347A CN117236347A (zh) 2023-12-15
CN117236347B true CN117236347B (zh) 2024-03-05

Family

ID=89098619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311495375.5A Active CN117236347B (zh) 2023-11-10 2023-11-10 交互文本翻译的方法、交互文本的显示方法和相关装置

Country Status (1)

Country Link
CN (1) CN117236347B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528535A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
CN111178009A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于特征词加权的文本多语种识别方法
CN113065333A (zh) * 2020-01-02 2021-07-02 阿里巴巴集团控股有限公司 分词语种的识别方法及装置
CN113705164A (zh) * 2021-03-31 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备以及可读存储介质
CN115099246A (zh) * 2022-06-09 2022-09-23 北京捷通华声科技股份有限公司 基于机器翻译的知识融合方法、装置、设备、介质及产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841175A (zh) * 2022-04-22 2022-08-02 北京百度网讯科技有限公司 机器翻译方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528535A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
CN111178009A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于特征词加权的文本多语种识别方法
CN113065333A (zh) * 2020-01-02 2021-07-02 阿里巴巴集团控股有限公司 分词语种的识别方法及装置
CN113705164A (zh) * 2021-03-31 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备以及可读存储介质
CN115099246A (zh) * 2022-06-09 2022-09-23 北京捷通华声科技股份有限公司 基于机器翻译的知识融合方法、装置、设备、介质及产品

Also Published As

Publication number Publication date
CN117236347A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
US11455981B2 (en) Method, apparatus, and system for conflict detection and resolution for competing intent classifiers in modular conversation system
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109196496B (zh) 未知词预测器和内容整合的翻译器
US11729120B2 (en) Generating responses in automated chatting
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
WO2020056621A1 (zh) 一种意图识别模型的学习方法、装置及设备
CN111680159A (zh) 数据处理方法、装置及电子设备
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN110427627A (zh) 基于语义表示模型的任务处理方法和装置
US10073828B2 (en) Updating language databases using crowd-sourced input
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
US20230237255A1 (en) Form generation method, apparatus, and device, and medium
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
EP2869219A1 (en) Text processing apparatus, text processing method, and computer program product
CN112384909A (zh) 利用无监督学习来改进文本到内容建议的方法和系统
CN115269786B (zh) 可解释的虚假文本检测方法、装置、存储介质以及终端
CN112400165A (zh) 利用无监督学习来改进文本到内容建议的方法和系统
CN117236347B (zh) 交互文本翻译的方法、交互文本的显示方法和相关装置
WO2022180990A1 (ja) 質問生成装置
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
US11817089B2 (en) Generating aspects from attributes identified in digital video audio tracks
CN113255368B (zh) 针对文本数据进行情感分析的方法、装置及相关设备
CN113505293A (zh) 信息推送方法、装置、电子设备及存储介质
WO2023032100A1 (ja) 文書作成支援装置、文書作成支援方法、及びプログラム
CN115525281B (zh) 一种表单交互图形展示与选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant