CN107870904A - 一种翻译方法、装置以及用于翻译的装置 - Google Patents

一种翻译方法、装置以及用于翻译的装置 Download PDF

Info

Publication number
CN107870904A
CN107870904A CN201711175025.5A CN201711175025A CN107870904A CN 107870904 A CN107870904 A CN 107870904A CN 201711175025 A CN201711175025 A CN 201711175025A CN 107870904 A CN107870904 A CN 107870904A
Authority
CN
China
Prior art keywords
language sentence
sentence
source language
classification
generic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711175025.5A
Other languages
English (en)
Inventor
施亮亮
王宇光
李响
陈伟
姜里羊
阳家俊
卫林钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711175025.5A priority Critical patent/CN107870904A/zh
Publication of CN107870904A publication Critical patent/CN107870904A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种翻译方法、装置以及用于翻译的装置,其中,翻译方法包括:获取待翻译的源语言句子;确定所述源语言句子的所属类别;按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标语言句子。采用本申请实施例,可以使得按照具体的类别中源语言句子的特点来将源语言句子翻译成目标语言句子,从而使得翻译结果尽可能地符合语言环境,不仅提高了翻译结果的准确性,同时还能满足更多场景的翻译需求。

Description

一种翻译方法、装置以及用于翻译的装置
技术领域
本申请涉及翻译技术领域,特别涉及一种翻译方法、装置以及一种用 于翻译的装置。
背景技术
随着互联网的普及,越来越多的用户有更多的机会接触到母语之外 的外语,在线翻译或者机器翻译等也随之越来越重要。一般情况下,以 源语言为中文,待翻译的目标语言为英语为例,可以预先获取到中文到 英文的大量双语句对作为训练数据来训练机器翻译模型,然后在用户需 要将中文翻译成英文的时候,直接将中文输入该机器翻译模型,并将机 器翻译模型翻译的英文作为翻译结果输出。
发明内容
发明人在研究过程中发现,现有技术中的机器翻译模型在翻译句子 的时候,部分结果并不足够准确。例如,以源语言为中文为例,对于单 词“apple”来说,在通信技术领域可能指代手机,而在食物的领域就指 代一种水果苹果,因此,对于待翻译的源语言来说,各个单词组成的句 子所在语言环境会影响翻译结果,如果没有按照源语言句子所处的语言环境去翻译,那得到的目标句子就可能与用户想要的翻译结果相差较大, 使得翻译结果不够准确。
因此,为了考虑到源语言的语言环境的复杂性,在翻译源语言句子 之前,可以先对源语言句子进行分类,其中,具体的分类方式可以由本 领域技术人员自主设置,例如,按照口语、新闻和专利等方式进行分类, 或者按照娱乐、快讯、体育和天气预报等方式进行分类,等等。基于对 源语言句子的分类结果,再按照各类别分别对应的翻译模型来翻译源语言句子,就可以使得按照具体的类别中源语言句子的特点来将源语言句 子翻译成目标语言句子,从而使得翻译结果尽可能地符合语言环境,不 仅提高了翻译结果的准确性,同时还能满足更多场景的翻译需求。
基于此,本申请提供了一种翻译方法,用以先对待翻译的源语言句 子进行分类,得到源语言句子的所属类别,再按照所属类别对应的翻译 方式,来翻译源语言句子以得到目标语言句子。
本申请还提供了一种翻译装置,用以保证上述方法在实际中的实现及 应用。
本申请提供的一种翻译方法,该方法包括:
获取待翻译的源语言句子;
确定所述源语言句子的所属类别;
按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标 语言句子。
其中,所述确定所述源语言句子的所属类别,包括:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
其中,所述文本分类模型通过以下方式训练:
获取为源语言预先分类好的各个类别,以及各个类别对应的训练源语 言句子;
分别抽取各个类别的源语言句子的句子特征,所述句子特征包括:句 子中词的长度、字的长度和/或句子中词的类型;
依据各个类别下的句子特征,训练源语言的句子分类模型。
其中,所述按照所述所属类别对应的翻译方式,翻译所述源语言句子 以得到目标语言句子,包括:
依据类别与翻译模型的对应关系,确定所述源语言句子的所属类别对 应的目标翻译模型;
依据所述目标翻译模型对所述源语言句子进行翻译,得到目标语言句 子。
其中,所述翻译模型通过以下方式训练得到:
获取预先分类好的各个类别,以及各个类别对应的训练源语言句子和 训练目标语言句子;
以每个类别对应的训练源语言句子和训练目标语言句子为训练数据, 分别训练各类别对应的各翻译模型。
本申请提供的一种翻译装置,该装置包括:
获取单元,用于获取待翻译的源语言句子;
确定单元,确定所述源语言句子的所属类别;
翻译单元,用于按照所述所属类别对应的翻译方式,翻译所述源语言 句子以得到目标语言句子。
其中,所述确定单元具体用于:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
其中,所述文本分类模型通过以下方式训练:
获取为源语言预先分类好的各个类别,以及各个类别对应的训练源语 言句子;
分别抽取各个类别的源语言句子的句子特征,所述句子特征包括:句 子中词的长度、字的长度和/或句子中词的类型;
依据各个类别下的句子特征,训练源语言的句子分类模型。
其中,所述翻译单元,包括:
确定子单元,用于依据类别与翻译模型的对应关系,确定所述源语言 句子的所属类别对应的目标翻译模型;
翻译子单元,用于依据所述目标翻译模型对所述源语言句子进行翻 译,得到目标语言句子。
其中,所述翻译模型通过以下方式训练得到:
获取预先分类好的各个类别,以及各个类别对应的训练源语言句子和 训练目标语言句子;
以每个类别对应的训练源语言句子和训练目标语言句子为训练数据, 分别训练各类别对应的各翻译模型。
本申请还提供了一种用于翻译的装置,包括有存储器,以及一个或者 一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以 由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行 以下操作的指令:
获取待翻译的源语言句子;
确定所述源语言句子的所属类别;
按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标 语言句子。
其中,所述确定所述源语言句子的所属类别,包括:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
其中,所述文本分类模型通过以下方式训练:
获取为源语言预先分类好的各个类别,以及各个类别对应的训练源语 言句子;
分别抽取各个类别的源语言句子的句子特征,所述句子特征包括:句 子中词的长度、字的长度和/或句子中词的类型;
依据各个类别下的句子特征,训练源语言的句子分类模型。
其中,所述按照所述所属类别对应的翻译方式,翻译所述源语言句子 以得到目标语言句子,包括:
依据类别与翻译模型的对应关系,确定所述源语言句子的所属类别对 应的目标翻译模型;
依据所述目标翻译模型对所述源语言句子进行翻译,得到目标语言句 子。
其中,所述翻译模型通过以下方式训练得到:
获取预先分类好的各个类别,以及各个类别对应的训练源语言句子和 训练目标语言句子;
以每个类别对应的训练源语言句子和训练目标语言句子为训练数据, 分别训练各类别对应的各翻译模型。
本申请还提供了一种计算机可读介质,其上存储有指令,当由一个或 多个处理器执行时,使得装置执行如前所述的翻译方法。
在本申请实施例中,先对待翻译的源语言句子进行分类,得到源语言 句子的所属类别,再按照所属类别对应的翻译方式,来翻译源语言句子 以得到目标语言句子。可见,基于对源语言句子的分类结果,再按照各 类别分别对应的翻译方式(例如采用类别对应的翻译模型)来翻译源语 言句子,就可以使得按照具体的类别中源语言句子的特点来将源语言句 子翻译成目标语言句子,从而使得翻译结果尽可能地符合语言环境,不 仅提高了翻译结果的准确性,同时还能满足更多场景的翻译需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的翻译方法实施例的示例性流程图;
图2是本申请的翻译装置实施例的结构框图;
图3是本申请中根据一示例性实施例示出的一种用于翻译的装置800 的框图;
图4是本申请实施例中服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案 进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实 施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本 申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个 人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处 理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描 述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布 式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络 而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块 可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本申请实施例中,为了实现对待翻译的源语言句子的分类,可以 预先训练句子分类模型。为了方便本领域技术人员对句子分类模型有更 详细的了解,下面介绍句子分类模型的训练过程。
步骤A1:获取为源语言预先分类好的各个类别,以及各个类别对应 的训练源语言句子。
首先,获取本领域技术人员针对源语言预先分类好的各个类别,在实 际应用中,根据源语言的种类不同,分类的方式也可以不同。例如,源 语言分类类别可以包括:口语、新闻或者专利等,或者可以包括:体育、 娱乐或者脱口秀等。针对各个类别,再分别获取属于各类别的大量的源 语言句子作为训练数据。例如,以源语言为中文为例进行说明,分别获 取口语类别下的大量口语句子,新闻类别下的大量新闻句子,以及,专 利类别下的大量专利句子,等等。
步骤A2:分别抽取各个类别的源语言句子的句子特征,所述句子特 征包括:句子中词的长度、字的长度和/或句子中词的类型。
针对各个类别下的大量句子,分别抽取各个类别的源语言句子的句子 特征,例如,句子包括的词的长度、句子包括的字的长度,以及,句子 中各个词的类型(属于名词、动词还是形容词),等等。以口语类别为例, 属于生活中对话场景的口语句子,其包括的词的长度会比较小,句子包 括的字的个数也会比较少,因此,对口语句子进行分词并统计各个词的 长度、个数等,作为口语句子的句子特征。以此类推,对于属于专利类 型的专利句子,可能也存在属于专利场景的句子特征,例如,会存在专 利文件的一些特殊性用词,或者句子具有某种特殊的结构等等,在本步 骤中将这些都抽取出来作为专利类别的句子特征。
具体的,句子特征抽取的方式可以有很多种,例如,利用词性进行特 征提取,基于关联分析的特征提取,利用互信息的特征提取,等等,抽 取句子特征的具体方法并不影响本申请实施例的实现。
步骤A3:依据各个类别下的句子特征,训练源语言的句子分类模型。
然后,分别依据各个类别的句子所抽取出的句子特征,来训练源语 言的句子分类模型。具体的,例如可以采用SVM(Support Vector Machine, 支持向量机)来训练句子分类模型。在机器学习领域,SVM是一个有监 督的学习模型,通常用来进行模式识别、分类以及回归分析。当然,也 可以采取其他的分类模型,例如贝叶斯分类模型、决策树分类模型等,分类模型的不同并不影响本申请实施例的实现。
在本步骤中,基于各个类别的句子特征,可以训练得到一个句子分 类模型,对于未确定类别的源语言句子,则可以将其作为该句子分类模 型的输入,从而得到该源语言句子属于哪一个类别的结果。
在本申请实施例中,为了实现对待翻译的源语言句子的翻译,可以 预先训练机器翻译模型,具体可以利用步骤A1中获取到的各类别的大量 的源语言句子,以及对应的目标语言句子作为训练机器翻译模型的训练 数据。其中,机器翻译模型的类型可以有多种,例如统计机器翻译模型 (简写为SMT),统计机器翻译的基本思想是通过对大量的平行语料进行 统计分析来构建统计机器翻译模型。再例如,神经网络机器翻译模型, 一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学 模型。本实施例中训练哪一种类型的机器翻译模型都不影响本申请的实 现。
此外,可以先利用步骤A1中获取的、所有类别的源语言句子和对应 的目标语言句子,训练出一个机器翻译模型,然后再采用各个类别的源 语言句子和对应的目标语言句子,来对该机器翻译模型进行修正,从而 得到对应于各个类别的机器翻译模型。例如,在得到一个机器翻译模型 后,例如属于“口语”类的源语言句子和目标语言句子分别作为该机器 翻译模型的输入和输出,来对该机器翻译模型进行修正,并将修正还有 的机器翻译模型作为对应于“口语”类的翻译模型,以此类推,分别采 用“新闻”类、“专利”类的源语言句子和目标语言句子来对该机器翻译 模型进行修正,从而得到分别对应于“新闻”类和“专利”类的翻译模 型。
当然,也可以直接利用各个类别的源语言句子和对应的目标语言句 子,来直接训练分别对应于各个类别的机器翻译模型。可见,本实施例 训练得到的翻译模型的个数与源语言句子的类别的总个数相同,一个源 语言句子的所属类别对应一个翻译模型。为了方便本领域技术人员对与 类别对应的翻译模型有更详细的了解,下面以直接训练各个类别对应的 翻译模型为例,介绍各类别的翻译模型的训练过程。
步骤B1:获取为源语言预先分类好的各个类别,以及各个类别对应 的训练源语言句子和训练目标语言句子。
在本步骤中,可以和步骤A1一样,也先获取本领域技术人员针对源 语言预先分类好的各个类别,在实际应用中,根据源语言的种类不同, 分类的方式也可以不同。具体的分类可以参考步骤A1的详细介绍,在此 不再赘述。当然,在本步骤中,也可以直接采用步骤A1中获取到的各类 别的源语言句子,进一步获取到每一个源语言句子对应的、目标语言句子即可,其中,源语言句子和目标语言句子互为翻译句对。
步骤B2:分别以每个类别对应的训练源语言句子和训练目标语言句 子,训练各个类别对应的各个翻译模型。
在本步骤中,仍以源语言句子为中文且分类为口语、新闻和专利三 类为例,对于口语类的、源语言为中文且目标语言为英文的翻译句对, 依据大量的训练数据训练得到口语类的翻译模型,该翻译模型可以专门 用于翻译口语类的源语言句子。然后,再分别针对新闻类别和专利类别, 训练得到用于将新闻类的源语言句子翻译为目标语言的翻译模型,以及, 用于将专利类的源语言句子翻译为目标语言的翻译模型。当然,在实际 应用中,如果源语言是其他的分类方式,也分别针对各个类别的训练数 据,依次训练与各个类别对应的翻译模型即可。
在介绍完句子分类模型的训练过程,以及,翻译模型的训练过程之 后,参考图1,示出了本申请一种翻译方法实施例的流程图,本实施例可 以包括以下步骤:
步骤101:获取待翻译的源语言句子。
在训练了源语言的句子分类模型,以及,与各个类别相对应的、将源 语言翻译成目标语言的翻译模型之后,在需要翻译源语言句子的情况下, 获取待翻译的源语言句子。例如,假设源语言为中文,目标语言为英文, 获取到的中文句子为:“今天晚上去哪儿吃饭呢”。
步骤102:确定所述源语言句子的所属类别。
在本申请实施例中,针对待翻译的源语言句子,先利用已经训练得到 的句子分类模型,确定该待翻译的源语言句子的所属类别。例如,针对 中文句子“今天晚上去哪儿吃饭呢”,采用步骤A3训练得到的句子分类 模型进行分类,得到的所属类别为“口语”类。
步骤103:按照所述所属类别对应的翻译方式,翻译所述源语言句子 以得到目标语言句子。
接着,按照步骤102中确定的所属类别,以及各个类别与翻译模型的 对应关系,确定源语言句子的所属类别即“口语”类别对应的翻译模型。 然后,利用口语类别对应的口语翻译模型,来对源语言句子“今天晚上 去哪儿吃饭呢”进行翻译,即可得到目标语言例如英文:“Where shall we go for dinner tonight?”。相比于现有技术中针对所有源语言句子,都采用 一个翻译模型进行翻译的结果相比,采用口语类的口语翻译模型来翻译 中文口语,就能使得翻译结果更符合口语的语言环境。
可见,在本申请实施例中,先对待翻译的源语言句子进行分类,得 到源语言句子的所属类别,再按照所属类别对应的翻译方式,来翻译源 语言句子以得到目标语言句子。因此,基于对源语言句子的分类结果, 再按照各类别分别对应的翻译方式(例如采用类别对应的翻译模型)来 翻译源语言句子,就可以使得按照具体的类别中源语言句子的特点来将 源语言句子翻译成目标语言句子,从而使得翻译结果尽可能地符合语言 环境,不仅提高了翻译结果的准确性,同时还能满足更多场景的翻译需 求。
对于前述的方法实施例,为了简单描述,故将其都表述为一系列的 动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作 顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进 行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属 于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述本申请一种翻译方法实施例所提供的方法相对应,参见图2, 本申请还提供了一种翻译装置实施例,在本实施例中,该装置可以包括:
获取单元201,用于获取待翻译的源语言句子。
确定单元202,确定所述源语言句子的所属类别。
其中,所述确定单元202具体可以用于:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
其中,所述文本分类模型可以通过以下方式训练:
获取为源语言预先分类好的各个类别,以及各个类别对应的训练源语 言句子;分别抽取各个类别的源语言句子的句子特征,所述句子特征包 括:句子中词的长度、字的长度和/或句子中词的类型;以及,依据各个 类别下的句子特征,训练源语言的句子分类模型。
翻译单元203,用于按照所述所属类别对应的翻译方式,翻译所述源 语言句子以得到目标语言句子。
其中,所述翻译单元203可以包括:
确定子单元,用于依据类别与翻译模型的对应关系,确定所述源语言 句子的所属类别对应的目标翻译模型;以及,翻译子单元,用于依据所 述目标翻译模型对所述源语言句子进行翻译,得到目标语言句子。
其中,所述翻译模型可以通过以下方式训练得到:
获取预先分类好的各个类别,以及各个类别对应的训练源语言句子和 训练目标语言句子;以及,以每个类别对应的训练源语言句子和训练目 标语言句子为训练数据,分别训练各类别对应的各翻译模型。
可见,在本申请实施例中,先对待翻译的源语言句子进行分类,得 到源语言句子的所属类别,再按照所属类别对应的翻译方式,来翻译源 语言句子以得到目标语言句子。因此,基于对源语言句子的分类结果, 再按照各类别分别对应的翻译方式(例如采用类别对应的翻译模型)来 翻译源语言句子,就可以使得按照具体的类别中源语言句子的特点来将 源语言句子翻译成目标语言句子,从而使得翻译结果尽可能地符合语言 环境,不仅提高了翻译结果的准确性,同时还能满足更多场景的翻译需 求。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有 关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于翻译的装置800的框图。例 如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游 戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存 储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O) 的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫, 数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个 或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外, 处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间 的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808 和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这 些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联 系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型 的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存 储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存 储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括 电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电 力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的 屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。 如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入 信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上 的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测 与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组 件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如 拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体 数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有 焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810 包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模 式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信 号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例 中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围 接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按 钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面 的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态, 组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件 814还可以检测装置800或装置800一个组件的位置改变,用户与装置800 接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传 感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检 测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814 还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传 感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的 通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或 它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自 外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所 述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在 NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超 宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻 辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理 器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储 介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执 行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、 随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终 端的处理器执行时,使得移动终端能够执行一种翻译方法,所述方法包括: 获取待翻译的源语言句子;确定所述源语言句子的所属类别;按照所述 所属类别对应的翻译方式,翻译所述源语言句子以得到目标语言句子。
其中,所述确定所述源语言句子的所属类别,包括:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
其中,所述文本分类模型通过以下方式训练:
获取为源语言预先分类好的各个类别,以及各个类别对应的训练源语 言句子;
分别抽取各个类别的源语言句子的句子特征,所述句子特征包括:句 子中词的长度、字的长度和/或句子中词的类型;
依据各个类别下的句子特征,训练源语言的句子分类模型。
其中,所述按照所述所属类别对应的翻译方式,翻译所述源语言句子 以得到目标语言句子,包括:
依据类别与翻译模型的对应关系,确定所述源语言句子的所属类别对 应的目标翻译模型;
依据所述目标翻译模型对所述源语言句子进行翻译,得到目标语言句 子。
其中,所述翻译模型通过以下方式训练得到:
获取预先分类好的各个类别,以及各个类别对应的训练源语言句子和 训练目标语言句子;
以每个类别对应的训练源语言句子和训练目标语言句子为训练数据, 分别训练各类别对应的各翻译模型。
图4是本发明实施例中服务器的结构示意图。该服务器1900可因配置 或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器 (central processingunits,CPU)1922(例如,一个或一个以上处理器)和 存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质 1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质 1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一 个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列 指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信, 在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有 线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个 以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公 开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所 附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发 明的保护范围之内。

Claims (10)

1.一种翻译方法,其特征在于,该方法包括:
获取待翻译的源语言句子;
确定所述源语言句子的所属类别;
按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标语言句子。
2.根据权利要求1所述的方法,其特征在于,所述确定所述源语言句子的所属类别,包括:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
3.根据权利要求2所述的方法,其特征在于,所述文本分类模型通过以下方式训练:
获取为源语言预先分类好的各个类别,以及各个类别对应的训练源语言句子;
分别抽取各个类别的源语言句子的句子特征,所述句子特征包括:句子中词的长度、字的长度和/或句子中词的类型;
依据各个类别下的句子特征,训练源语言的句子分类模型。
4.根据权利要求1所述的方法,其特征在于,所述按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标语言句子,包括:
依据类别与翻译模型的对应关系,确定所述源语言句子的所属类别对应的目标翻译模型;
依据所述目标翻译模型对所述源语言句子进行翻译,得到目标语言句子。
5.根据权利要求4所述的方法,其特征在于,所述翻译模型通过以下方式训练得到:
获取预先分类好的各个类别,以及各个类别对应的训练源语言句子和训练目标语言句子;
以每个类别对应的训练源语言句子和训练目标语言句子为训练数据,分别训练各类别对应的各翻译模型。
6.一种翻译装置,其特征在于,包括:
获取单元,用于获取待翻译的源语言句子;
确定单元,确定所述源语言句子的所属类别;
翻译单元,用于按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标语言句子。
7.根据权利要求6所述的装置,其特征在于,所述确定单元具体用于:
依据预先训练的文本分类模型,确定所述源语言句子的所属类别。
8.根据权利要求6所述的装置,其特征在于,所述翻译单元,包括:
确定子单元,用于依据类别与翻译模型的对应关系,确定所述源语言句子的所属类别对应的目标翻译模型;
翻译子单元,用于依据所述目标翻译模型对所述源语言句子进行翻译,得到目标语言句子。
9.一种用于翻译的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待翻译的源语言句子;
确定所述源语言句子的所属类别;
按照所述所属类别对应的翻译方式,翻译所述源语言句子以得到目标语言句子。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1~5任意一项所述的翻译方法。
CN201711175025.5A 2017-11-22 2017-11-22 一种翻译方法、装置以及用于翻译的装置 Pending CN107870904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711175025.5A CN107870904A (zh) 2017-11-22 2017-11-22 一种翻译方法、装置以及用于翻译的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711175025.5A CN107870904A (zh) 2017-11-22 2017-11-22 一种翻译方法、装置以及用于翻译的装置

Publications (1)

Publication Number Publication Date
CN107870904A true CN107870904A (zh) 2018-04-03

Family

ID=61754521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711175025.5A Pending CN107870904A (zh) 2017-11-22 2017-11-22 一种翻译方法、装置以及用于翻译的装置

Country Status (1)

Country Link
CN (1) CN107870904A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109697292A (zh) * 2018-12-17 2019-04-30 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
CN111027333A (zh) * 2019-12-20 2020-04-17 北京百度网讯科技有限公司 篇章翻译方法和装置
CN111310483A (zh) * 2020-02-11 2020-06-19 北京字节跳动网络技术有限公司 一种翻译方法、装置、电子设备及存储介质
CN111626066A (zh) * 2020-05-27 2020-09-04 辛钧意 一种基于大数据的段落翻译系统及其方法
CN112560511A (zh) * 2020-12-14 2021-03-26 北京奇艺世纪科技有限公司 台词翻译方法、装置及翻译模型训练方法、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1959357A2 (en) * 2006-12-28 2008-08-20 AT&T Corp. Sequence classification for machine translation
CN101763344A (zh) * 2008-12-25 2010-06-30 株式会社东芝 训练基于短语的翻译模型的方法、机器翻译方法及其装置
CN103049436A (zh) * 2011-10-12 2013-04-17 北京百度网讯科技有限公司 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
CN103714054A (zh) * 2013-12-30 2014-04-09 北京百度网讯科技有限公司 翻译方法和翻译装置
WO2014104943A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Finding an appropriate meaning of an entry in a text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1959357A2 (en) * 2006-12-28 2008-08-20 AT&T Corp. Sequence classification for machine translation
CN101763344A (zh) * 2008-12-25 2010-06-30 株式会社东芝 训练基于短语的翻译模型的方法、机器翻译方法及其装置
CN103049436A (zh) * 2011-10-12 2013-04-17 北京百度网讯科技有限公司 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
WO2014104943A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Finding an appropriate meaning of an entry in a text
CN103714054A (zh) * 2013-12-30 2014-04-09 北京百度网讯科技有限公司 翻译方法和翻译装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109697292A (zh) * 2018-12-17 2019-04-30 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
CN109697292B (zh) * 2018-12-17 2023-04-21 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
CN111027333A (zh) * 2019-12-20 2020-04-17 北京百度网讯科技有限公司 篇章翻译方法和装置
CN111310483A (zh) * 2020-02-11 2020-06-19 北京字节跳动网络技术有限公司 一种翻译方法、装置、电子设备及存储介质
CN111626066A (zh) * 2020-05-27 2020-09-04 辛钧意 一种基于大数据的段落翻译系统及其方法
CN112560511A (zh) * 2020-12-14 2021-03-26 北京奇艺世纪科技有限公司 台词翻译方法、装置及翻译模型训练方法、装置
CN112560511B (zh) * 2020-12-14 2024-04-23 北京奇艺世纪科技有限公司 台词翻译方法、装置及翻译模型训练方法、装置

Similar Documents

Publication Publication Date Title
CN107870904A (zh) 一种翻译方法、装置以及用于翻译的装置
JP7179273B2 (ja) 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN108537207B (zh) 唇语识别方法、装置、存储介质及移动终端
US20170052947A1 (en) Methods and devices for training a classifier and recognizing a type of information
EP3852044A1 (en) Method and device for commenting on multimedia resource
CN105335754A (zh) 文字识别方法及装置
CN106202150B (zh) 信息显示方法及装置
CN107608532A (zh) 一种联想输入方法、装置及电子设备
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
WO2015127739A1 (zh) 联系人的分组处理方法及装置
CN110175223A (zh) 一种实现问题生成的方法及装置
CN111259148A (zh) 信息处理方法、装置及存储介质
CN108538284A (zh) 同声翻译结果的展现方法及装置、同声翻译方法及装置
CN109977426A (zh) 一种翻译模型的训练方法、装置以及机器可读介质
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN109558599A (zh) 一种转换方法、装置和电子设备
CN109308240B (zh) 操作处理方法及装置、存储介质
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110555329A (zh) 一种手语翻译的方法、终端以及存储介质
CN111739535A (zh) 一种语音识别方法、装置和电子设备
CN113656557A (zh) 消息回复方法、装置、存储介质及电子设备
Battaglia et al. An open architecture to develop a handheld device for helping visually impaired people
CN110162710A (zh) 输入场景下信息推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination