CN114372481A - 一种基于意群的翻译方法、装置、设备及介质 - Google Patents

一种基于意群的翻译方法、装置、设备及介质 Download PDF

Info

Publication number
CN114372481A
CN114372481A CN202111660857.2A CN202111660857A CN114372481A CN 114372481 A CN114372481 A CN 114372481A CN 202111660857 A CN202111660857 A CN 202111660857A CN 114372481 A CN114372481 A CN 114372481A
Authority
CN
China
Prior art keywords
text
group
translation
translated
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111660857.2A
Other languages
English (en)
Inventor
廖富林
李明
张马成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Ue Information Technology Co ltd
Original Assignee
Chengdu Ue Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Ue Information Technology Co ltd filed Critical Chengdu Ue Information Technology Co ltd
Priority to CN202111660857.2A priority Critical patent/CN114372481A/zh
Publication of CN114372481A publication Critical patent/CN114372481A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于意群的翻译方法、装置、设备及介质,涉及自然语言处理技术领域。该方法通过获取待翻译文本,将待翻译文本与翻译记忆库中的原文进行匹配,得到文本匹配率;当文本匹配率低于匹配率阈值,则根据意群本身的属性,即在意思上相对完整、在语法上密切联系、不能再分的一个词组,对待翻译文本进行意群切分,得到意群文本;基于意群文本与翻译记忆库中的原文进行匹配,当得到的意群匹配结果为匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文,提高翻译准确性和效率。

Description

一种基于意群的翻译方法、装置、设备及介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于意群的翻译方法、 装置、设备及介质。
背景技术
随着全球化和信息化进程的不断推进,翻译行业也迎来了前所未有的挑战, 仅通过翻译人员翻译已无法正常满足人们的需求,随着AI语言的广泛应用,机 器翻译应运而生,但机器翻译时大多以词、句子为单位进行翻译,由于语言本 身的复杂性,一个词在不同词法、语法、句法以及语境中的更换,因此,对于 在一些较为复杂的翻译内容,机器翻译的准确率并不高。
发明内容
本发明所要解决的技术问题是目前仅通过翻译人员翻译效率不高,仅通过 机器翻译,翻译准确率不高。因此,本发明提供一种基于意群的翻译方法、装 置、设备及介质,在提高翻译准确率的同时提高翻译效率。
本发明通过下述技术方案实现:
获取待翻译文本,将待翻译文本与翻译记忆库中的原文进行匹配,得到文 本匹配率;
当文本匹配率低于匹配率阈值,则对待翻译文本进行意群切分,得到意群 文本;
基于所述意群文本与翻译记忆库中的原文进行意群匹配,当意群匹配一致 时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译 文。
进一步地,所述将待翻译文本与翻译记忆库中的原文进行匹配,得到文本 匹配率,包括:
调用文本匹配工具对待翻译文本与翻译记忆库中的原文进行匹配,得到文本 匹配率。
进一步地,所述对待翻译文本进行意群切分,得到意群文本,包括:
调用意群切分脚本,按照断句标记对待翻译文本进行句子划分,得到待翻 译句子;
对待翻译句子中的每个词进行词性分析,并按照预设意群切分规则对携带 有词性的待翻译句子进行意群切分,得到意群文本。
进一步地,所述基于所述意群文本与翻译记忆库中的原文进行意群匹配, 当意群匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作 为意群文本的译文,包括:
对翻译记忆库中的原文和译文分别进行意群切分,得到意群原文和意群译 文;
将意群文本和翻译记忆库中的所有意群原文进行匹配,当匹配一致时,则 基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。
进一步地,所述一种基于意群的翻译方法还包括:
当意群匹配不一致时,则调用机器翻译工具对意群匹配不一致的意群文本 进行翻译,并将翻译后的译文作为意群文本的译文。
一种基于意群的翻译装置,包括:
待翻译文本获取模块,用于获取待翻译文本,将待翻译文本与翻译记忆库 中的原文进行匹配,得到文本匹配率;
意群切分模块,用于当文本匹配率低于匹配率阈值,则对待翻译文本进行 意群切分,得到意群文本;
意群翻译模块,用于基于所述意群文本与翻译记忆库中的原文进行意群匹 配,当意群匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译 文作为意群文本的译文。
进一步地,所述意群切分模块包括:
句子划分单元,用于调用意群切分脚本,按照断句标记对待翻译文本进行 句子划分,得到待翻译句子;
意群切分单元,用于对待翻译句子中的每个词进行词性分析,并按照预设 意群切分规则对携带有词性的待翻译句子进行意群切分,得到意群文本。
进一步地,所述意群翻译模块包括:
翻译记忆库意群切分单元,用于对翻译记忆库中的原文和译文分别进行意 群切分,得到意群原文和意群译文;
意群译文匹配单元,用于将意群文本和翻译记忆库中的所有意群原文进行 匹配,当匹配一致时,则基于意群原文从翻译记忆库中选择对应的意群译文作 为意群文本的译文。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所 述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基 于意群的翻译方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序, 所述计算机程序被处理器执行时实现上述基于意群的翻译方法。
本发明提供一种基于意群的翻译方法、装置、设备及介质,通过获取待翻 译文本,将待翻译文本与翻译记忆库中的原文进行匹配,得到文本匹配率;当 文本匹配率低于匹配率阈值,则根据意群本身的属性,即在意思上相对完整、 在语法上密切联系、不能再分的一个词组,对待翻译文本进行意群切分,得到 意群文本;基于意群文本与翻译记忆库中的原文进行匹配,当得到的意群匹配 结果为匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作 为意群文本的译文,提高翻译的准确性和速度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的 一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于意群的翻译方法的一流程图。
图2为图1中步骤S20的一具体流程图。
图3为图1中步骤S30的一具体流程图。
图4为本发明一种基于意群的翻译装置的结构示意图。
图5为本发明计算机设备的一示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附 图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于 解释本发明,并不作为对本发明的限定。
由于采用纯机器翻译准确率不高,采用纯人工翻译效率不高,为了保证翻 译的准确性和翻译效率,本发明提供一种基于意群的翻译方法,采用存储有翻 译人员翻译的大量译文的翻译记忆库和意群文本相结合的手段完成待翻译文本 的翻译,在保证翻译准确率的同时,提高翻译效率。该方法可应用于不同电子 设备中,该电子设备包括但不限于各种个人计算机、笔记本电脑、智能手机和 平板电脑。
在一实施例中,如图1所示,本发明提供一种基于意群的翻译方法,包括:
S10:获取待翻译文本,将待翻译文本与翻译记忆库中的原文进行匹配,得 到文本匹配率;
S20:当文本匹配率低于匹配率阈值,则对待翻译文本进行意群切分,得到 意群文本;
S30:基于意群文本与翻译记忆库中的原文进行匹配,当得到的意群匹配结 果为匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作为 意群文本的译文。
其中,待翻译文本指需要翻译的文本,该待翻译文本可以任意语种的文本。
匹配率阈值指预先设定的用于判断文本匹配率是否满足要求的值。
作为一示例,步骤S10中,获取待翻译文本后,调用文本匹配工具对待翻译 文本与翻译记忆库中的原文进行匹配,得到文本匹配率。本实施例中对文本匹 配工具不做限定,任何可以计算匹配率的方法或工具都可以。
作为一示例,步骤S20中,在获取文本匹配率后,将文本匹配率与匹配率阈 值进行比较,当文本匹配率低于匹配率阈值,则表示待翻译文本与翻译记忆库 中的原文相差较大,不适合直接采用翻译记忆库中的译文作为待翻译文本的译 文,此时,对待翻译文本进行意群切分,得到意群文本。
意群指在意思上相对完整、在语法上密切联系、不能再分的一个词组,意 群可以由一个单词、词组或短语组成,也可以由一个从句,或一定的语法结构 组成。在一个句子中,意群在内部表现为语法关系密切,外部表现为读音中间 不能停顿词组,意群不能随意拆分,否则会引起误解。本实施例正是利用意群 本身特有的属性对待翻译文本进行意群切分,得到意群文本。
当文本匹配率不低于匹配率阈值,则表示待翻译文本与翻译记忆库中的原 文相差在允许范围内,可以直接将原文对应的译文作为待翻译文本的译文。
作为一示例,步骤S30中,在得到意群文本后,将意群文本与翻译记忆库中 的原文进行匹配,当匹配一致时,则基于匹配一致的原文从翻译记忆库中选择 对应的译文作为意群文本的译文,
进一步地,当意群文本与翻译记忆库中的原文进行匹配后得到的意群匹配 结果为匹配不一致,则调用机器翻译工具对意群匹配不一致的意群文本进行翻 译,并将翻译后的译文作为意群文本的译文。
在一实施例中,如图2所示,步骤S20中,对待翻译文本进行意群切分,得 到意群文本,具体包括如下步骤:
S21:调用意群切分脚本,按照断句标记对待翻译文本进行句子划分,得到 待翻译句子;
S22:对待翻译句子中的每个词进行词性分析,并按照预设意群切分规则对 携带有词性的待翻译句子进行意群切分,得到意群文本。
其中,意群切分脚本指根据对待翻译文本进行句子划分,并根据意群切分 规则对划分后的句子进行意群切分的脚本,意群切分规则指根据句子语法对句 子进行切分的规则,本实施例中的意群切分规则包括但不限于主谓宾、介词短 语做宾补、动词短语+宾语、动词短语+动名词词组宾语、介词短语做状语、名 词词组做主语、谓语+宾语、分词短语化、副词连接词、介词+分词化短语做状 语、介词短语后置定语。
作为一示例,步骤S21中,调用意群切分脚本,按照断句标记对待翻译文 本进行句子划分,得到待翻译句子,本实施例中的断句标记为可以对任何语言 的文本内容进行断句的标识,在此不做限定。以中文为例,断句标记可以为标 点符号“。”“!”“?”“:”,也可以为其他形式的标识符。
作为一示例,步骤S22中,在对待翻译文本进行句子划分,得到待翻译句 子后,采用词性分析工具对待翻译句子中的每个词进行词性标注,以使待翻译 句子中的每个词都携带有对应的词性,然后根据预设意群切分规则对待翻译句 子进行意群切分,得到意群文本。
如对待翻译文本中的每个词进行词性标注后,并通过意群切分规则对待翻 译句子进行分析后为:The purpose is to associate the“intangible culture”to theenhancement(主系表)/of the monuments(介词短语做后置定语)/in order to(介 词短语)/sensitize the local population to the importance and necessity(介词短语做目的状语)/of its protection and preservation(介词短语做后置定语)/and assistin the development(目的状语中的并列动词短语)/of the site(介词短语做后置 定语)/as Angkor is a living heritage site(从句的主谓宾)/where Khmer people(定语从句的主语)/in general,(插入语)/but especially the local population,(插入语)/are known to particularly conservative(定语从句的系动词与表语)/withrespect to(介词短语)/ancestral traditions(名词短语做介宾)/and wheretheyadhere to(并列定语从句的主谓)/a great number of(介词短语做定语)/archaiccultural practices(名词短语做宾语)/that have disappeared elsewhere(定语从句)。
对待翻译句子进行意群切分得到意群文本为:
Figure RE-GDA0003538006270000071
Figure RE-GDA0003538006270000081
在一实施例中,如图3所示,步骤S30,基于所述意群文本与翻译记忆库中 的原文进行意群匹配,当意群匹配一致时,则基于匹配一致的原文从翻译记忆 库中选择对应的译文作为意群文本的译文,具体包括如下步骤:
S31:对翻译记忆库中的原文和译文分别进行意群切分,得到意群原文和意 群译文。
S32:将意群文本和翻译记忆库中的所有意群原文进行匹配,当匹配一致时, 则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。
其中,意群原文指对翻译记忆库中的原文进行意群切分得到文本;意群译 文指对翻译记忆库中的译文进行意群切分得到文本。
作为一示例,步骤S31中,调用意群切分脚本,按照断句标记对翻译记忆 库中的原文进行句子划分,得到原文对应的句子,然后对原文对应的句子中的 每个词进行词性分析,并按照预设意群切分规则对携带有词性的句子进行意群 切分,得到意群原文,同理,完成翻译记忆库中的译文的意群切分,得到意群 译文。
作为一示例,步骤S32中,将意群文本和翻译记忆库中的所有意群原文进行 匹配,当匹配一致时,则基于意群原文,利用词对齐工具从翻译记忆库中选择 对应的意群译文作为意群文本的译文。本实施例采用现有的词对齐工具,任何 可以实现双语对齐的词对齐工具都可以,在此不做限定。
本发明提供的一种基于意群的翻译方法,通过获取待翻译文本,将待翻译 文本与翻译记忆库中的原文进行匹配,得到文本匹配率;当文本匹配率低于匹 配率阈值,则根据意群本身的属性,即在意思上相对完整、在语法上密切联系、 不能再分的一个词组,对待翻译文本进行意群切分,得到意群文本;基于意群 文本与翻译记忆库中的原文进行匹配,当得到的意群匹配结果为匹配一致时, 则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文, 提高翻译准确性和效率。
在一实施例中,提供一种基于意群的翻译装置,该基于意群的翻译装置与 上述实施例中一种基于意群的翻译方法一一对应。如图4所示,该基于意群的 翻译装置包括待翻译文本获取模块10、意群切分模块20和意群翻译模块30。
各功能模块详细说明如下:
待翻译文本获取模块10,用于获取待翻译文本,将待翻译文本与翻译记忆 库中的原文进行匹配,得到文本匹配率;
意群切分模块20,用于当文本匹配率低于匹配率阈值,则对待翻译文本进 行意群切分,得到意群文本;
意群翻译模块30,用于基于意群文本与翻译记忆库中的原文进行匹配,当 得到的意群匹配结果为匹配一致时,则基于匹配一致的原文从翻译记忆库中选 择对应的译文作为意群文本的译文。
进一步地,意群切分模块包括句子划分单元和意群切分单元。
句子划分单元,用于调用意群切分脚本,按照断句标记对待翻译文本进行 句子划分,得到待翻译句子;
意群切分单元,用于对待翻译句子中的每个词进行词性分析,并按照预设 意群切分规则对携带有词性的待翻译句子进行意群切分,得到意群文本。
进一步地,意群翻译模块包括翻译记忆库意群切分单元和意群译文匹配单 元。
翻译记忆库意群切分单元,用于对翻译记忆库中的原文和译文分别进行意 群切分,得到意群原文和意群译文;
意群译文匹配单元,用于将意群文本和翻译记忆库中的所有意群原文进行 匹配,当匹配一致时,则基于意群原文从翻译记忆库中选择对应的意群译文作 为意群文本的译文
关于一种基于意群的翻译装置的具体限定可以参见上文中对于一种基于意 群的翻译方法的限定,在此不再赘述。上述一种基于意群的翻译装置中的各个 模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式 内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设 备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种计算机设备,该计算机设备可以是服务器,其内 部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存 储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制 能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机 可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可 读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据 库用于存储一种基于意群的翻译方法中涉及到的数据。该计算机设备的网络接 口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现 一种基于意群的翻译方法。
提供的一种计算机设备,包括存储器、处理器及存储在存储器上并可在处 理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中一种基 于意群的翻译方法的步骤,例如图1所示步骤S10-S30,或者图2至图3中所示 的步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现上 述实施例中一种基于意群的翻译装置的各模块/单元的功能,例如图4所示模块 10至模块30的功能。为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存 储有计算机程序,该计算机程序被处理器执行时实现上述实施例中一种基于意 群的翻译方法的步骤,例如图1所示的步骤S10-S30,或者图2至图3中所示的 步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现一种 基于意群的翻译装置这一实施例中的各模块/单元的功能,例如图4所示的模块 10至模块30的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。 非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存 取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式 可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、 存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以 及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上 述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上 述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不 同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了 进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已, 并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于意群的翻译方法,其特征在于,包括:
获取待翻译文本,将待翻译文本与翻译记忆库中的原文进行匹配,得到文本匹配率;
当文本匹配率低于匹配率阈值,则对待翻译文本进行意群切分,得到意群文本;
基于所述意群文本与翻译记忆库中的原文进行意群匹配,当意群匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文。
2.根据权利要求1所述的一种基于意群的翻译方法,其特征在于,所述将待翻译文本与翻译记忆库中的原文进行匹配,得到文本匹配率,包括:
调用文本匹配工具对待翻译文本与翻译记忆库中的原文进行匹配,得到文本匹配率。
3.根据权利要求1所述的一种基于意群的翻译方法,其特征在于,所述对待翻译文本进行意群切分,得到意群文本,包括:
调用意群切分脚本,按照断句标记对待翻译文本进行句子划分,得到待翻译句子;
对待翻译句子中的每个词进行词性分析,并按照预设意群切分规则对携带有词性的待翻译句子进行意群切分,得到意群文本。
4.根据权利要求1所述的一种基于意群的翻译方法,其特征在于,所述基于所述意群文本与翻译记忆库中的原文进行意群匹配,当意群匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文,包括:
对翻译记忆库中的原文和译文分别进行意群切分,得到意群原文和意群译文;
将意群文本和翻译记忆库中的所有意群原文进行匹配,当匹配一致时,则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。
5.根据权利要求4所述的一种基于意群的翻译方法,其特征在于,所述一种基于意群的翻译方法还包括:
当意群匹配不一致时,则调用机器翻译工具对意群匹配不一致的意群文本进行翻译,并将翻译后的译文作为意群文本的译文。
6.一种基于意群的翻译装置,其特征在于,包括:
待翻译文本获取模块,用于获取待翻译文本,将待翻译文本与翻译记忆库中的原文进行匹配,得到文本匹配率;
意群切分模块,用于当文本匹配率低于匹配率阈值,则对待翻译文本进行意群切分,得到意群文本;
意群翻译模块,用于基于所述意群文本与翻译记忆库中的原文进行意群匹配,当意群匹配一致时,则基于匹配一致的原文从翻译记忆库中选择对应的译文作为意群文本的译文。
7.根据权利要求6所述的一种基于意群的翻译装置,其特征在于,所述意群切分模块包括:
句子划分单元,用于调用意群切分脚本,按照断句标记对待翻译文本进行句子划分,得到待翻译句子;
意群切分单元,用于对待翻译句子中的每个词进行词性分析,并按照预设意群切分规则对携带有词性的待翻译句子进行意群切分,得到意群文本。
8.根据权利要求6所述的一种基于意群的翻译装置,其特征在于,所述意群翻译模块包括:
翻译记忆库意群切分单元,用于对翻译记忆库中的原文和译文分别进行意群切分,得到意群原文和意群译文;
意群译文匹配单元,用于将意群文本和翻译记忆库中的所有意群原文进行匹配,当匹配一致时,则基于意群原文从翻译记忆库中选择对应的意群译文作为意群文本的译文。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于意群的翻译方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于意群的翻译方法。
CN202111660857.2A 2021-12-30 2021-12-30 一种基于意群的翻译方法、装置、设备及介质 Pending CN114372481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111660857.2A CN114372481A (zh) 2021-12-30 2021-12-30 一种基于意群的翻译方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111660857.2A CN114372481A (zh) 2021-12-30 2021-12-30 一种基于意群的翻译方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114372481A true CN114372481A (zh) 2022-04-19

Family

ID=81142564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111660857.2A Pending CN114372481A (zh) 2021-12-30 2021-12-30 一种基于意群的翻译方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114372481A (zh)

Similar Documents

Publication Publication Date Title
Zhang Chengqing Zong: Statistical natural language processing Tsinghua University Press, 2013, xxxv+ 570pp
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
US9122674B1 (en) Use of annotations in statistical machine translation
CN111259652A (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
KR20150017507A (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
CN109710738A (zh) 药物问询方法、装置、系统、计算机设备和存储介质
CN111178098A (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
CN112699675B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CA3110046A1 (en) Machine learning lexical discovery
CN113705198B (zh) 场景图生成方法、装置、电子设备及存储介质
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN114372481A (zh) 一种基于意群的翻译方法、装置、设备及介质
CN114330380A (zh) 一种多语种文本术语提取方法、装置、设备及介质
Sinhal et al. Machine translation approaches and design aspects
CN115686476A (zh) 语言转换的方法、装置、计算机设备及计算机可读存储介质
CN114298060A (zh) 一种字幕翻译质量检测方法、装置、设备及介质
Sennrich et al. A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
US20210365645A1 (en) Social safe method and system of language translation
CN114048753A (zh) 词义识别模型训练、词义判断方法、装置、设备及介质
CN111652007A (zh) 一种多种语言混合文件的翻译方法及装置
Marimuthu et al. Automatic conversion of dialectal Tamil text to standard written Tamil text using FSTs
CN111796830A (zh) 一种协议解析处理方法、装置、设备及介质
Aggarwal et al. A survey on parts of speech tagging for Indian languages
Klamra et al. Evaluating the Use of Generative LLMs for Intralingual Diachronic Translation of Middle-Polish Texts into Contemporary Polish

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination