CN112131891B

CN112131891B - 翻译方向自动切换方法、装置以及设备

Info

Publication number: CN112131891B
Application number: CN202011016786.8A
Authority: CN
Inventors: 黄爽; 李飞
Original assignee: Anhui Tingjian Technology Co ltd
Current assignee: Anhui Tingjian Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-04-30
Anticipated expiration: 2040-09-24
Also published as: CN112131891A

Abstract

本发明公开了一种翻译方向自动切换方法、装置以及设备。本发明针对实时翻译场景，聚焦于由语音识别引擎提供的连续语音的转写文本，即先辨识出待处理的当前文本其中是否混杂着多种语种字词，当判定为混语种文本后进而结合语句之间的时间间隔以及在先语句的语种，即处理当前文本之前所使用的翻译方向，得到切换阈值，最后根据该切换阈值以及当前待处理文本中的不同语种字词的占比，决策是否需要将处理当前文本之前所使用的翻译方向进行切换，本发明核心思路中结合了前后间隔时间、在先语句所用翻译方向、动态阈值以及当前文本的各语种字数比例等多个维度进行综合决策，因此可以与实际应用场景结合，灵活、动态、准确地决策翻译方向切换动作。

Description

翻译方向自动切换方法、装置以及设备

技术领域

本发明涉及机器翻译领域，尤其涉及一种翻译方向自动切换方法、装置以及设备。

背景技术

随着日益增多的国际经贸活动，对于机器翻译服务的需求也较以往有了明显增加，同时，国内企业国际化以及本土文化“走出去”也需要大量专业、高质量的机器翻译服务。

但是现有的机器翻译技术，对于语种变更频率较大的应用场景，例如国际会议，不同语种的发言人交替发言，则一般很少能够实现较为迅速、准确的语种自动识别及相应的翻译方向动态切换，多数情况下这类场景还需由支撑人员手动调整翻译方向，这里所说的翻译方向是指由什么语种翻译到什么语种，比如翻译方向为中英方向，意思就是由中文翻译到英文。

发明内容

鉴于上述，本发明旨在提供一种翻译方向自动切换方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，用以针对特定的多语种变更场景下，实现准确、灵活地确定当前语句、切换翻译方向。

本发明采用的技术方案如下：

第一方面，本发明提供了一种翻译方向自动切换方法，包括：

接收输入语句的转写文本；

判断当前转写文本是否为混语种文本；

若是，则计算与所述当前转写文本对应的当前语句与前一语句的时间间隔；

根据所述时间间隔以及所述前一语句的语种，确定切换阈值；

基于所述当前转写文本中不同语种字词的占比以及所述切换阈值，决策是否切换翻译方向。

在其中至少一种可能的实现方式中，所述判断当前转写文本是否为混语种文本包括：

预设混合容忍度；

判断所述当前转写文本是否包含其他语种字词；

若包含，则判断所述其他语种字词的数量是否符合所述混合容忍度；

若不符合，则确定所述当前转写文本为混语种文本。

在其中至少一种可能的实现方式中，所述根据所述时间间隔以及所述前一语句的语种，确定切换阈值包括：

从所述前一语句中获取所属语种的字词的比例；

基于所述比例以及所述时间间隔，确定所述切换阈值。

在其中至少一种可能的实现方式中，所述基于所述比例以及所述时间间隔，确定所述切换阈值包括：

利用所述比例以及所述时间间隔调整预设的初始占比值；

结合调整前后的所述初始占比值，确定所述切换阈值。

在其中至少一种可能的实现方式中，在确定为混语种文本之后，且在计算所述时间间隔之前，还包括：

判断所述当前转写文本是否包含分隔符；

若否，则执行计算时间间隔的步骤；

若是，则判断以分隔符拆分的各文本片段是否存在混语种文本片段；

若存在，则执行计算时间间隔的步骤；

若不存在，则依次根据各文本片段的语种以及在先所用的翻译方向，决策是否切换翻译方向。

在其中至少一种可能的实现方式中，所述依次根据各文本片段的语种以及在先所用的翻译方向，决策是否切换翻译方向包括：

依次判断当前文本片段的语种与在先所用的翻译方向中的原语种是否一致；

若一致，则保持翻译方向；

若不一致，则切换翻译方向。

第二方面，本发明提供了一种翻译方向自动切换装置，包括：

识别结果接收模块，用于接收输入语句的转写文本；

混语种判定模块，用于判断当前转写文本是否为混语种文本；

时间间隔计算模块，用于当所述混语种判定模块输出为是时，计算与所述当前转写文本对应的当前语句与前一语句的时间间隔；

切换阈值确定模块，用于根据所述时间间隔以及所述前一语句的语种，确定切换阈值；

第一切换决策模块，用于基于所述当前转写文本中不同语种字词的占比以及所述切换阈值，决策是否切换翻译方向。

在其中至少一种可能的实现方式中，所述混语种判定模块包括：

容忍度设置单元，用于预设混合容忍度；

其他语种字词检测单元，用于判断所述当前转写文本是否包含其他语种字词；

容忍度判定单元，用于当所述其他语种字词检测单输出为是时，判断所述其他语种字词的数量是否符合所述混合容忍度；

混语种文本判定单元，用于当所述容忍度判定单元输出为否时，确定所述当前转写文本为混语种文本。

在其中至少一种可能的实现方式中，所述切换阈值确定模块包括：

字词比例获取单元，用于从所述前一语句中获取所属语种的字词的比例；

阈值确定单元，用于基于所述比例以及所述时间间隔，确定所述切换阈值。

在其中至少一种可能的实现方式中，所述阈值确定单元包括：

基础占比调整组件，用于利用所述比例以及所述时间间隔调整预设的初始占比值；

阈值确定组件，用于结合调整前后的所述初始占比值，确定所述切换阈值。

在其中至少一种可能的实现方式中，所述装置还包括第二切换决策模块，所述第二切换决策模块具体包括：

分隔符检测单元，用于当所述混语种判定模块输出为是时，判断所述当前转写文本是否包含分隔符；

混语种文本片段检测单元，用于当所述分隔符检测单元输出为是时，判断以分隔符拆分的各文本片段是否存在混语种文本片段；

切换决策单元，用于当所述混语种文本片段检测单元输出为是时，依次根据各文本片段的语种以及在先所用的翻译方向，决策是否切换翻译方向；

并且，所述时间间隔计算模块还用于：当所述分隔符检测单元输出为否或者所述混语种文本片段检测单元输出为是时，计算与所述当前转写文本对应的当前语句与前一语句的时间间隔。

在其中至少一种可能的实现方式中，所述切换决策单元包括：

语种比对组件，用于依次判断当前文本片段的语种与在先所用的翻译方向中的原语种是否一致；

切换决策组件，用于当所述语种比对组件输出为是时，保持翻译方向；以及当所述语种比对组件输出为否时，切换翻译方向。

第三方面，本发明提供了一种翻译方向自动切换设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的至少一种可能的实现方式中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于，针对实时语音识别翻译场景，不对发言人个体自身语种以及使用不同语种的人数作特别关注，而是聚焦于由语音识别引擎提供的连续语音的转写文本(也不特别关注该转写文本是来自一个人的语句还是多人语句)，即，仅从转写文本自身入手，先辨识出待处理的当前文本其中是否混杂着多种语种字词，也即是确定出当前文本是纯语种文本还是混语种文本，只有判定为混语种文本后才进而结合语句之间的时间间隔以及在先语句的语种(即明确在处理当前文本之前所使用的翻译方向)，得到与特定语种字词占比相关的切换阈值，最后根据该切换阈值以及当前待处理文本中的不同语种字词的占比，决策是否需要将处理当前文本之前所使用的翻译方向进行切换，还是继续沿用，尤其地，本发明核心思路中对于当前文本应当使用的翻译方向的判定并不是直接针对当前文本自身各语种占比判定其语种属性，而是结合前后间隔时间、在先语句所用的翻译方向、求取的动态阈值以及当前文本的各语种字数比例(特别是不同于在先语句语种的字数占比)，等多个维度进行综合决策。可见，本发明无需人工干预，可以自动与实际应用场景结合，基于更为灵活的参与判定的参数和条件，动态且准确地决策翻译方向切换动作。

进一步地，在本发明的一些实施例中，对于接收到的转写文本进行混语种与否的判断时还融合了可设置的混合容忍度，这样，本发明定义的纯语种文本可以包容一些特例，简化运算流程、提升处理适应性。例如中文文本中包含了少量英文单词，但从整体上并不将此作为混语种文本。

进一步地，在本发明的一些实施例中，对于翻译方向切换决策的实现方式还提供了额外的处理思路，即借助于识别引擎的能力，在混语种文本中可以先判断是否包含诸如逗号、分号等分隔符，然后基于由分隔符拆分的文本片段，判断是否为纯语种文本，例如“中文文本片段，英文文本片段”，这样便可针对该当前混语种文本中各文本片段的语种属性决策处理该当前混语种文本时的翻译方向切换动作。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的翻译方向自动切换方法的实施例的流程图；

图2为本发明提供的混语种文本鉴别方法的实施例的流程图；

图3为本发明提供的辅助决策方法的实施例的流程图；

图4为本发明提供的翻译方向自动切换装置的实施例的方框图；

图5为本发明提供的翻译方向自动切换设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

对于机器翻译方向的自动切换，虽然可以从基于规则匹配的角度直接判定出文本的语种属性，例如通过对转写文本进行字符拆分，根据一句话中各语种的字数比例确定语种信息，从而明确该文本的语种所属，进而实现翻译方向的判定。但是此方式过于依赖规则，判断思路较为僵化，很难针对性地处理各个场景的实际问题，导致实际使用中容易出现翻译方向切换不准确的情况。

有鉴于此，本发明提供了至少一种翻译方向自动切换方法的实施例，如图1所示，可以包括如下步骤：

步骤S1、接收输入语句的转写文本。

本发明并不限定转写文本的来源，以及转写文本体现的发言人人数，但可以指出的是，本发明可适用多种翻译场景，尤其适用于不同语种发言人共同参与的实时语音识别及翻译场景，例如会议、辩论、采访等应用环境，因而该转写文本可以优选是指各发言人发言对话过程中持续输入的语音数据的识别结果，当然，本领域技术人员可以理解的是，语音识别环节已有较为成熟的处理技术，本发明并不对语音识别进行限定和赘述，本发明仅聚焦于接收到语音转写文本之后的翻译处理环节。

步骤S2、判断当前转写文本是否为混语种文本。

此步骤并非强调判断出当前转写文本的语种属性，而是对当前转写文本进行分类，对于纯语种文本而言，并不在本发明考虑范畴，也即是说只有当接收到的当前转写文本为混语种文本时，才进行后续结合多维、动态信息进行切换决策的处理。

当然，关于“纯语种文本”、“混语种文本”的界定可以因实际情况进行调整，换言之，在本发明的一些实施例中，可以“容忍”一些特殊情况，即在当前转写文本中可能包含少量的其他语种字词，那么在本发明实施过程中可以认为此当前转写文本属于“纯语种文本”，具体来说，可结合图2示出的流程图，判断当前转写文本是否为混语种文本可以包括：

步骤S21、预设混合容忍度；

步骤S22、判断所述当前转写文本是否包含其他语种字词；

若包含，则执行步骤S23、判断所述其他语种字词的数量是否符合所述混合容忍度；(如果不包含，则可以直接判定为纯语种文本，对此不予限定和赘述)

若不符合，则执行步骤S24、确定所述当前转写文本为混语种文本。(如果符合混合容忍度，则可以直接判定为纯语种文本，对此不予限定和赘述)

这里所述混合容忍度是考虑到相关场景中的用户讲话习惯，例如会议中发言人在中文讲话中夹杂了个别英文单词，比如，在中英会话场景下，可以设置“容忍”文本中出现两个英文单词，假设当前转写文本为“今天天气很nice”，那么就可以认为该语句为“纯中文”，也即是相应的当前转写文本属于“纯中文文本”，如此便可以直接采用中翻英方向，不再进行后续结合多维角度进行切换与否的处理。

此外，还需说明的是：

其一、在转写文本进入到翻译处理环节时，还可以对该文本进行拆字、分词等处理，从中不仅可以获得各个待翻译单元，还可以提取出一些符号，例如后续实施例中提及的分隔符等；并且，在拆字处理后也可以通过预先设定的正则表达规则对当前文本各语种字词进行辨别，本发明对此并不强调，但需要结合前述实施例说明的是，前述混合容忍度的设置目的正是为了避免一些特殊情况的影响，比如说当前转写文本为“好，very good”且在先使用的是中翻英方向，如果按照正则方式或直接运用后续策略进行计算，这个示例文本大概率会被判定为英文文本，但是结合了混合容忍度的构思后，该示例文本便会认为是纯中文文本，不会走入后续流程且依然可以采用中翻英方向得到翻译结果“OK,very good”。

其二、在本发明其他实施例中还可以结合实时识别、翻译场景的特点，考虑语音识别引擎在识别连续语音时，通常会将得到的中间结果送入后续翻译环节的，这里的中间结果是识别过程中的中间字词(可以理解为输入法打字时出现的第一个候选字词)，在语音识别引擎返回识别结果时通常会有相应标识，以表示该文本是否为中间转写结果(还是最终转写结果)，本发明对识别过程本身不作限定和赘述，需要在此说明的是，对于步骤S2判断当前转写文本是否为混语种文本，在一些实施例中可以是指先对中间结果进行判断，并且优选地还可以在判断前检测中间结果的文本长度，在满足一定长度后便可以较为可靠地判断当前中间结果是否为混语种文本或是纯语种文本，如果该中间结果被认定为混语种文本，则不做处理继续接收识别引擎送入的后续转写结果，直至得到最终识别结果后再对最终的当前文本执行步骤S2；如果该中间结果被认定为纯语种文本，便可以先行送入相应的翻译引擎进行翻译处理。当然，此处仅是对一些可能的实施方式进行介绍，通常来说，对于最终的转写文本进行翻译其准确度会高于对中间结果的翻译，而按前述举例先行对中间结果进行翻译则相对更能体现处理的及时性。

接续前文，结合图1如果判断出当前转写文本为混语种文本，则继续执行步骤S3、计算与所述当前转写文本对应的当前语句与前一语句的时间间隔。

设计此步骤的目的是考虑到针对应用场景需求以及特性，对于混合多语种的翻译到底采用哪种翻译方向，与发言人的说话间隔具有一定关联，尤其是针对多发言人交替会话场景更是如此。通常，当前语句与前一语句的时间间隔较小，那么当前语句在较大概率上与前一语句是源自同一发言人，例如前一语句的语种是中文，翻译方向是中翻英(这里需指出，对于前一语句的转写文本而言，其也可以是未经翻译的文本，因而只需明确前一语句的语种也可以)，那么当前语句的转写文本如果需要切换为英翻中方向，则需要当前语句中的英文字词的占比较大，比如英文字词占当前转写文本的比例超过3/4。反之，如果当前语句与前一语句的时间间隔较大，则可以认为前一语句对当前语句的影响相对较小，那么当前语句的转写文本如果需要切换为英翻中方向，则不需要当前语句中的英文字词的占比太大，例如英文占比超过2/3即可。这里所述时间间隔的计算方式，可以利用当前语句的开始时间减去前一语句的结束时间，便得到二者的时间差，而其中对于各语句的起始时间的确定，则可借由识别转写环节的处理得到，并进行临时存储，以备此步骤调用。当然，获得时间差本身不是目标，结合上述对于原理的分析可知，本发明要借由求取的时间间隔执行如下步骤。

步骤S4、根据所述时间间隔以及所述前一语句的语种，确定切换阈值。

这里的切换阈值即是前文介绍中的举例3/4、2/3这些数值，这是判决切换与否的关键因素之一，具体来说，本发明是利用了动态获取的新信息，改变、确定用于判决当前文本翻译是否切换翻译方向的重要因素之一，即可以根据已然在先明确的前一语句的语种(语种的明确，也决定了如果对前一语句进行翻译操作所采用的翻译方向)，以及前步求取的两个语句的时间间隔，灵活地给出针对当前转写文本的特定的切换阈值。实际操作中，可以从所述前一语句中获取到所属语种的字词的比例，然后基于该比例以及前述时间间隔，确定出所需的切换阈值。如前文分析，可以认为前一语句中符合其语种的字词比例越高，那么当前语句与前一语句的相关性越大，即翻译方向越有可能一致。例如假设前一语句为“今天天气很好”(例句1)，这句话的语种已在先被判定为中文，且这句话中的中文字词的比例为100％，再例如假设前一语句是“今天天气很nice”(例句2)，这句话的语种也已在先被判定为中文，且这句话中的中文字词的比例为5/6。那么，如果针对此两种假设，求取出的间隔时间相同，则可以认为在例句1之后的当前语句是中文的概率，要比例句2之后的当前语句是中文的概率相对较大。

换言之，上述实施例认为，决定切换阈值大小的条件，是时间间隔以及前一语句语种(具体可以是前一语句中符合其语种的字词比例)两个因素的融合，因而进一步据此提出，在实际计算所述切换阈值时，可以利用前一语句中符合其语种的字词比例以及前述时间间隔，去调整一个预设的初始占比值，最后可以融合调整前后的初始占比值，求出所述切换阈值。

这里结合该思想，给出一个具体的计算公式：

其中，threshold表示切换阈值，ratio表示前一语句中符合所属语种的字词的比例，t表示时间间隔，t/3中的3是可调整的经验值(t/3的作用是体现出时间间隔对于初始占比值的影响)，1/2是设定的初始占比值(设定初始占比值的意义在于预先给定一个待调整的基础标准，例如可以考虑在不作任何决策前，随机一句混语种语句既可能被确定为A语种翻译为B语种，也可能是相反情况，也即是先假定相应的当前转写文本中A、B语种字词占比各占50％，接着要对该初始占比值结合新获取的动态信息进行调整；当然，在其他场景中如果持不同语种的发言人或者语音数据涉及的语种数量不止是两个时，该初始占比值可以作出相应调整)。

这里需补充的是，公式本身只是提供计算参考，具体如何求取该切换阈值，在实际操作中并不一定套用上述公式，只要本领域技术人员理解前文分析出的原理，也可以采用其他计算途径或经验设定方式，例如结合条件概率的思想设计相应的公式，如贝叶斯算法等等，对此本发明不作限定。

步骤S5、基于所述当前转写文本中不同语种字词的占比以及所述切换阈值，决策是否切换翻译方向。

这里需要指出的是，结合前文介绍可知，判决切换与否的另一个关键因素是当前转写文本中符合各语种字词的占比(也即是与各语种字词的数量相关)，因而最后在进行切换与否的决策时，结合当前转写文本中不同语种字词的占比以及具有针对性的切换阈值，会有不同的结果。而且经前文分析可知，在本发明的一些实施例中，该切换阈值更为优选地是与当前文本中不同于前一语句语种的字词占比更为相关，例如，前一语句的语种被在先判定为中文，并且其中文字词的比例为100％，假设当前语句与前一语句的时间间隔为3s，且套用前述公式可知切换阈值为1，也即是如果需要针对当前转写文本切换翻译方向，则需要当前转写文本中的英文字词的字词数量相对中文字词数量而言大于或等于1倍。这里，本领域技术人员可以理解的是，基于不同的切换阈值的计算方式以及执行步骤S5时具体的决策规则，会存在不同的判决思路，例如在其他实施例中利用其他阈值设定方式得到的切换阈值为2，同样假设前一语句的语种为中文(或者所用的翻译方向为中翻英)，那么如果需要针对当前转写文本切换翻译方向，则需要当前转写文本中的英文字词的字词数量是中文字词数量的2倍。以上只是示意性介绍，其中涉及的数值和决策规则可以因需而定，本发明对此不作特别限定。

此外，可以补充说明的是，本发明为了体现出更高的处理效率，在一些实施例中还结合前文各方案提供了一个作为旁支的辅助决策方案，具体可以结合图3所示，在本发明至少一种可能的实现方式中，在确定为混语种文本之后，且在计算所述时间间隔之前(也即是在确定为混语种文本且在执行步骤S3之前)，还可以包括如下步骤：

步骤S10、判断所述当前转写文本是否包含分隔符；

若否，则执行步骤S3；

若是，则执行步骤S11、判断以分隔符拆分的各文本片段是否存在混语种文本片段；

若存在，则执行步骤S3；

若不存在，则执行步骤S12、依次根据各文本片段的语种以及在先所用的翻译方向，决策是否切换翻译方向。

由于语音识别技术已相对成熟，因而在某些场景或应用中，接收到的转写文本可能附带有分隔符号，因而便可以利用该分隔符号进行辅助决策，以此可以在一定程度上简化处理过程，提升翻译操作的效率。由此，首先要判断出当前已然确定为混语种的转写文本是否包含诸如逗号、分号、句号等此类分隔符，在前文中提及，实现时可以预先将接收到的文本进行成份拆分，从中确定出有无分隔符以及分隔符的位置等，当然，如果判断为没有分隔符则不适用于该实施方式，则继续进入到前文提及的后续步骤进行决策；如果包含分隔符，则需要进一步判断由分隔符切分出的各文本片段的语种属性(这里可以采用常规的正则表达式的方式对分隔符前后的各文本片段进行语种检测，还可以结合前文提及的混合容忍度的构思，对此不作限定和赘述)，因为语音识别过程对于分隔符的设置并非是按照语种差异确定的，因此某文本片段既可能是纯语种文本片段，也可能是混语种文本片段。

(1)如果当前转写文本的所有文本片段皆属于纯语种文本片段，例如“测试内容，hello everyone，welcome to China！”由分隔符拆出的三个文本片段经检测属于：纯中文文本片段、纯英文文本片段、纯英文文本片段。那么，在本实施例中便可以绕过后续环节，依次根据各文本片段的语种以及在先所用的翻译方向(主要是基于翻译方向中的原语种类型)，直接决策是否切换翻译方向。例如前一语句所用的翻译方向为中翻英，即原语种为中文(或者直接确定前一语句的语种为中文)，那么可以先决策出文本片段“测试内容”与所述原语种一致，无需切换，并可直接沿用在先翻译方向(即，将该文本片段送入相应的翻译引擎进行中翻英操作)，接着以此类推，再确定出后续文本片段“hello everyone”与“测试内容”所用翻译方向的原语种不一样，则将在先所用中翻英的翻译方向切换为英翻中，于是便可以将该文本片段送入相应的翻译引擎进行英翻中操作，同理地，对于最后的文本片段“welcome to China”则决策出可以继续沿用英翻中方向。

(2)如果其中一个或多个文本片段属于混语种文本片段，例如“Ladies andgentlemen大家好，welcome to China！”其中一个文本片段属于混语种文本片段，且难以再进行拆分(或可以理解为，若继续进行拆分并做更为复杂的判断，则失去了设计本优选实施例以提升处理效率的意义)，那么针对这种情况，则可将原文本“Ladies and gentlemen大家好，welcome to China！”送入前述步骤S3由后续多维、动态的判断方式进行决策。

最后，还可以补充说明的是：

(1)利用前述各实施例及其优选方案进行自动判定翻译方向时，还可以根据使用场景选择不同的模式。例如某场景中分为两种模式：低延迟模式和高精确度模式。低延迟模式和高精确度模式的区别在于低延迟的翻译处理更能体现实时效果，高精确度模式则可以在牺牲一定及时性基础上，获得更佳的翻译效果，此二者的区别可以理解为进行前述处理时，所基于的转写文本的数量和长度，可能存在差异，其中高精确度模式相对低延迟模式可能会接收、处理、参考更多的文本信息，而整体的处理构思与前文没有出入。

(2)本发明涉及的翻译引擎及相应的翻译操作本身，可以借鉴已有技术，例如在请求翻译的时候，需要和翻译引擎建立连接，而且可以将这个连接看成一个翻译实例，即不同翻译方向需要建立不同的连接，也就会存在多个翻译实例。如果翻译方向发声转变，则需要结束目前所用的翻译实例，并将待翻译的当前转写文本发送至新的翻译实例中进行切换方向后的翻译操作，当然，在此过程中无论使用了哪种翻译实例，皆会进行临时存储，以备本发明方案处理时确定在先(前一语句)所用的翻译方向。

(3)对于呈现给用户或后续处理(例如将翻译后的文本合成为语音进行播报的处理)的最终翻译结果，从某种角度上可以理解为是对语音数据处理后的转写结果，也即是用户仅是输入了语音数据，经由前述处理后最终返回的状态(例如用看到的)则为翻译后的文本，因此，站位于用户或后续处理环节，可以将自动切换了翻译方向(或沿用在先翻译方向)的最终翻译结果视为最终“转写”文本，但站位于本领域技术习惯，通常是将语音识别后的结果称为转写文本，因此在这里仅作称呼上的区分说明。

综上所述，本发明的构思在于，针对实时语音识别翻译场景，不对发言人个体自身语种以及使用不同语种的人数作特别关注，而是聚焦于由语音识别引擎提供的连续语音的转写文本(也不特别关注该转写文本是来自一个人的语句还是多人语句)，即，仅从转写文本自身入手，先辨识出待处理的当前文本其中是否混杂着多种语种字词，也即是确定出当前文本是纯语种文本还是混语种文本，只有判定为混语种文本后才进而结合语句之间的时间间隔以及在先语句的语种(即明确在处理当前文本之前所使用的翻译方向)，得到与相应语种字词占比相关的切换阈值，最后根据该切换阈值以及当前待处理文本中的不同语种字词的占比，决策是否需要将处理当前文本之前所使用的翻译方向进行切换，还是继续沿用，尤其地，本发明核心思路中对于当前文本应当使用的翻译方向的判定并不是直接针对当前文本自身各语种占比判定其语种属性，而是结合前后间隔时间、在先语句所用的翻译方向、求取的动态阈值以及当前文本的各语种字数比例(特别是不同于在先语句语种的字数占比)，等多个维度进行综合决策。可见，本发明可以与实际应用场景结合，且参与判定的参数和条件更为灵活，从而能够动态、准确地决策翻译方向切换动作。

相应于上述各实施例及优选方案，本发明还提供了一种翻译方向自动切换装置的实施例，如图4所示，具体可以包括如下部件：

识别结果接收模块1，用于接收输入语句的转写文本；

混语种判定模块2，用于判断当前转写文本是否为混语种文本；

时间间隔计算模块3，用于当所述混语种判定模块输出为是时，计算与所述当前转写文本对应的当前语句与前一语句的时间间隔；

切换阈值确定模块4，用于根据所述时间间隔以及所述前一语句的语种，确定切换阈值；

第一切换决策模块5，用于基于所述当前转写文本中不同语种字词的占比以及所述切换阈值，决策是否切换翻译方向。

容忍度设置单元，用于预设混合容忍度；

应理解以上图4所示的翻译方向自动切换装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种翻译方向自动切换设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

这里及下文提及的“计算机”是一种广义概念，可以包括多种具备运算处理能力的载体，例如但不限于PC、服务器、网络器材、智能计算平台以及各类电子产品等。

图5为本发明提供的翻译方向自动切换设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、翻译机(器)、录音笔、移动智能终端(手机、平板、阅读器、手表、手环、眼睛等)、麦克风、耳麦、耳机等。本实施例对翻译方向自动切换设备的具体形式可不作限定。

具体如图X所示，翻译方向自动切换设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得翻译方向自动切换设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述翻译方向自动切换设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图5所示的翻译方向自动切换设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图5所示的翻译方向自动切换设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的翻译方向自动切换方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种翻译方向自动切换方法，其特征在于，包括：

接收输入语句的转写文本；

判断当前转写文本是否为混语种文本；

根据所述时间间隔以及所述前一语句的语种，确定切换阈值，包括：从前一语句中获取所属语种的字词的比例，基于所述比例及所述时间间隔，确定切换阈值；

2.根据权利要求1所述的翻译方向自动切换方法，其特征在于，所述判断当前转写文本是否为混语种文本包括：

预设混合容忍度；

判断所述当前转写文本是否包含其他语种字词；

若不符合，则确定所述当前转写文本为混语种文本。

3.根据权利要求1所述的翻译方向自动切换方法，其特征在于，所述基于所述比例以及所述时间间隔，确定所述切换阈值包括：

利用所述比例以及所述时间间隔调整预设的初始占比值；

结合调整前后的所述初始占比值，确定所述切换阈值。

4.根据权利要求1～3任一项所述的翻译方向自动切换方法，其特征在于，在确定为混语种文本之后，且在计算所述时间间隔之前，还包括：

判断所述当前转写文本是否包含分隔符；

若否，则执行计算时间间隔的步骤；

若存在，则执行计算时间间隔的步骤；

5.根据权利要求4所述的翻译方向自动切换方法，其特征在于，所述依次根据各文本片段的语种以及在先所用的翻译方向，决策是否切换翻译方向包括：

若一致，则保持翻译方向；

若不一致，则切换翻译方向。

6.一种翻译方向自动切换装置，其特征在于，包括：

识别结果接收模块，用于接收输入语句的转写文本；

切换阈值确定模块，用于根据所述时间间隔以及所述前一语句的语种，确定切换阈值，包括：从前一语句中获取所属语种的字词的比例，基于所述比例及所述时间间隔，确定切换阈值；

7.根据权利要求6所述的翻译方向自动切换装置，其特征在于，所述混语种判定模块包括：

容忍度设置单元，用于预设混合容忍度；

8.根据权利要求6或7所述的翻译方向自动切换装置，其特征在于，所述装置还包括第二切换决策模块，所述第二切换决策模块具体包括：

9.一种翻译方向自动切换设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1～5任一项所述的翻译方向自动切换方法。