CN114997190A - 机器翻译方法、装置、计算机设备和存储介质 - Google Patents

机器翻译方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114997190A
CN114997190A CN202210667744.3A CN202210667744A CN114997190A CN 114997190 A CN114997190 A CN 114997190A CN 202210667744 A CN202210667744 A CN 202210667744A CN 114997190 A CN114997190 A CN 114997190A
Authority
CN
China
Prior art keywords
translation
language data
word
translated
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210667744.3A
Other languages
English (en)
Inventor
贺傲飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210667744.3A priority Critical patent/CN114997190A/zh
Publication of CN114997190A publication Critical patent/CN114997190A/zh
Priority to PCT/CN2022/122036 priority patent/WO2023240839A1/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,提供了一种机器翻译方法、装置、计算机设备和存储介质。所述方法包括:获取待翻译源语言数据;对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。采用本方法能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。

Description

机器翻译方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种机器翻译方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了基于神经网络的机器翻译技术,机器翻译是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。基于神经网络的机器翻译技术的核心是一个拥有海量结点(神经元)的深度神经网络,可以自动的从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文,实现了“理解语言,生成译文”的翻译方式。
传统技术中,机器翻译通常采用编码器-解码器结构,实现对变长输入句子的建模,编码器实现对源语言句子的"理解",形成一个特定维度的浮点数向量,之后解码器根据此向量逐字生成目标语言的翻译结果。
然而,传统方法,在应用于存在领域专有名词的专业领域时,存在翻译不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现准确翻译的机器翻译方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种机器翻译方法。所述方法包括:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
在其中一个实施例中,对待翻译源语言数据中单词进行正向最大匹配,确定待翻译源语言数据中的领域专有名词包括:
将待翻译源语言数据中单词作为待匹配单词;
对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词;
根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
在其中一个实施例中,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词包括:
当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词;
联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组;
当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词;
联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤;
直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
在其中一个实施例中,机器翻译方法还包括:
获取样本翻译句子对集合以及初始机器翻译模型;
计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值;
根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
在其中一个实施例中,获取样本翻译句子对集合包括:
获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对;
对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
根据分词结果和字符长度,对原始翻译句子对集合进行过滤;
将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
在其中一个实施例中,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合包括:
根据单词数比值进行统计,得到与单词数比值对应的数据分布;
根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
在其中一个实施例中,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型包括:
根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型;
获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
第二方面,本申请还提供了一种机器翻译装置。所述装置包括:
获取模块,用于获取待翻译源语言数据;
匹配模块,用于对所述待翻译源语言数据进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词;
翻译模块,用于将所述领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将所述待翻译源语言数据输入所述目标机器翻译模型进行翻译,得到翻译目标语言数据,所述目标机器翻译模型通过对样本数据训练得到;
替换模块,用于将所述专有名词翻译结果替换所述翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
上述机器翻译方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待翻译源语言数据,对待翻译源语言数据进行正向最大匹配,能够确定待翻译源语言数据中的领域专有名词,通过将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。
附图说明
图1为一个实施例中机器翻译方法的流程示意图;
图2为另一个实施例中机器翻译方法的流程示意图;
图3为又一个实施例中机器翻译方法的流程示意图;
图4为一个实施例中机器翻译装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种机器翻译方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
步骤102,获取待翻译源语言数据。
其中,待翻译源语言数据是指需要翻译的数据。比如,在将中文翻译为英文的机器翻译中,待翻译源语言数据是指中文。又比如,在将英文翻译为中文的机器翻译中,待翻译源语言数据是指英文。
具体的,在需要进行机器翻译时,终端会获取到待翻译源语言数据。
步骤104,对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词。
其中,正向最大匹配是指在待翻译源语言数据中一次类推取出最大的、可以与预设专有名词词典匹配的词组。领域专有名词是指在领域内所特有的名词。比如,在医疗领域,领域专有名词具体可以是指病症名称、药品名称等。
具体的,终端会对待翻译源语言数据进行分词,得到待翻译源语言数据中单词,将待翻译源语言数据中单词作为待匹配单词,利用预设专有名词词典对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据所得到的待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。其中,预设专有名词词典是指预先设置的由领域内专有名词组成的词典。比如,在医疗领域,预设专有名词词典是指由医疗领域内病症名词、药品名词等专有名词组成的词典。
步骤106,将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到。
其中,目标机器翻译模型是指通过对样本数据训练所得到的,可用于机器翻译的模型,能够将待翻译源语言数据翻译为翻译目标语言数据。样本数据具体可以为包括样本翻译句子对的样本翻译句子对集合,样本翻译句子对是指包括样本源语言数据和样本目标语言数据的句子对,样本目标语言数据为样本源语言数据的翻译结果。专有名词翻译结果是指目标机器翻译模型所输出的、对领域专有名词的翻译结果。翻译目标语言数据是指目标机器翻译模型所输出的、对待翻译源语言数据的翻译结果。
具体的,终端会在待翻译源语言数据中标注出领域专有名词,得到标注结果,将领域专有名词输入目标机器翻译模型进行翻译,目标机器翻译模型会输出专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据。
进一步的,目标机器翻译模型可以包括至少两个子机器翻译模型,即终端可以通过训练多个随机失活率不同的子机器翻译模型来对待翻译源语言数据进行翻译,在对待翻译源语言数据进行翻译时,终端会将待翻译源语言数据输入子机器翻译模型,得到与子机器翻译模型对应的翻译结果,在翻译结果中包括对于待翻译源语言数据中每个单词预测得到对应单词的单词概率,在得到这个单词概率后,终端会对每个子机器翻译模型所输出的翻译结果中相同单词的单词概率做排序,根据排序结果确定与单词对应的最优预测结果,即最优翻译结果,根据与每个单词对应的最优翻译结果,得到对应的翻译目标语言数据。其中,在做排序后,终端会确定针对每个单词的最大单词概率,将该最大单词概率对应的单词作为最优预测结果。
步骤108,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
具体的,在得到专有名词翻译结果和翻译目标语言数据后,终端会根据对待翻译源语言数据的标注结果,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
上述机器翻译方法,通过获取待翻译源语言数据,对待翻译源语言数据进行正向最大匹配,能够确定待翻译源语言数据中的领域专有名词,通过将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。
在一个实施例中,对待翻译源语言数据中单词进行正向最大匹配,确定待翻译源语言数据中的领域专有名词包括:
将待翻译源语言数据中单词作为待匹配单词;
对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词;
根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
具体的,终端会对待翻译源语言数据进行分词,得到待翻译源语言数据中单词,将待翻译源语言数据中单词作为待匹配单词,比对待匹配单词和预设专有名词词典,以确定预设专有名词词典中是否存在与待匹配单词对应的匹配单词,并在预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,继续通过比对待匹配词组和预设专有名词词典进行正向最大匹配,得到与待匹配单词对应的领域专有名词。
具体的,由于不同的待匹配单词之间所对应的领域专有名词可能有重复,因此,在得到与待匹配单词对应的领域专有名词后,终端会对与待匹配单词对应的领域专有名词进行去重,以得到待翻译源语言数据中的领域专有名词。
本实施例中,通过将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,能够得到与待匹配单词对应的领域专有名词,从而可以根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
在一个实施例中,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词包括:
当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词;
联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组;
当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词;
联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤;
直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
具体的,在对待匹配单词进行正向最大匹配时,终端会将待匹配单词与预设专有名词词典进行匹配,当预设专有名词词典中存在与待匹配单词对应的匹配单词时,终端会获取待翻译源语言数据中待匹配单词对应的下一单词,即位置处于待匹配单词之后的下一个单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,继续比对待匹配词组和预设专有名词词典,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,终端会继续获取待翻译源语言数据中待匹配词组对应的下一单词,即位置处于待匹配词组之后的下一个单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
本实施例中,通过当预设专有名词词典中存在与待匹配单词对应的匹配单词时,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,继续对待匹配词组和预设专有名词词典继续匹配,能够通过正向最大匹配,得到与待匹配单词对应的领域专有名词。
在一个实施例中,机器翻译方法还包括:
获取样本翻译句子对集合以及初始机器翻译模型;
计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值;
根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
其中,初始机器翻译模型是指尚未进行参数训练的机器翻译模型。源语言单词数是指样本翻译句子对中源语言的单词总数,目标语言单词数是指样本翻译句子对中目标语言的单词总数。比如,在中文翻译为英文的样本翻译句子对中,源语言单词数是指样本翻译句子对中中文单词总数,目标语言单词数是指样本翻译句子对中英文单词总数。又比如,在英文翻译为中文的样本翻译句子对中,源语言单词数是指样本翻译句子对中英文单词总数,目标语言单词数是指样本翻译句子对中中文单词总数。需要说明的是,在样本翻译句子对中包括真实翻译句子对以及反翻译句子对,真实翻译句子对是指利用原始源语言数据进行翻译,得出对应的原始目标语言数据后,所得到的翻译句子对。反翻译句子对是指利用原始目标语言数据进行翻译,得出对应的原始源语言数据后,所得到的翻译句子对,通过同时利用真实翻译句子对以及反翻译句子对进行训练,可以提高模型的准确率。
具体的,在进行机器翻译之前,需要先训练得到目标机器翻译模型,在进行模型训练时,终端会获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中每个样本翻译句子对的单词数比值,根据单词数比值,得到与单词数比值对应的数据分布,利用数据分布对样本翻译句子对集合中样本翻译句子对进行过滤,得到过滤后样本翻译句子对集合,利用过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
本实施例中,通过计算样本翻译句子对集合中样本翻译句子对的单词数比值,能够利用单词数比值对样本翻译句子对集合进行过滤,过滤掉偏离样本提高模型翻译训练的质量,减少无关的数据噪音,利用根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到能够实现支持准确翻译的目标翻译机器模型。
在一个实施例中,获取样本翻译句子对集合包括:
获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对;
对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
根据分词结果和字符长度,对原始翻译句子对集合进行过滤;
将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
其中,原始翻译句子对包括真实翻译句子对以及反翻译句子对。
具体的,在获取样本翻译句子对集合时,终端会先获取原始翻译句子对集合,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,过滤掉句子长度大于预设句子长度阈值和/或单词数大于预设单词数阈值的原始源语言数据所对应的原始翻译句子对,并过滤掉字符长度大于预设字符长度阈值的原始目标语言数据所对应的原始翻译句子对,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。其中,预设句子长度阈值、预设单词数阈值以及预设字符长度阈值均可按照需要自行设置,本实施例在此处不做具体限定。
进一步的,在获取原始翻译句子对集合时,终端需要先获取未整合的真实翻译句子对以及反翻译句子对,通过去重操作对真实翻译句子对以及反翻译句子对进行整合,以得到原始翻译句子对集合。其中,可以采用simHash的算法进行语句的去重,其核心思想为:针对每一个待去重文本进行simHash映射,将simHash值分段建立倒排索引,在每一个分段的hash值中并行化去重操作。
本实施例中,通过获取原始翻译句子对集合,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,能够过滤掉偏离样本提高模型翻译训练的质量,减少无关的数据噪音。
在一个实施例中,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合包括:
根据单词数比值进行统计,得到与单词数比值对应的数据分布;
根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
具体的,终端通过对单词数比值进行统计,能够得到与单词数比值对应的数据分布,从而可以根据数据分布以及预设比例阈值,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。其中,预设比例阈值可按照需要自行设置,本实施例在此处不做具体限定。进一步的,预设比例阈值可以包括第一比例阈值以及第二比例阈值,其中第一比例阈值用于过滤掉单词数比值较小的样本翻译句子对,第二比例阈值用于过滤掉单词数比值较大的样本翻译句子对。
本实施例中,通过根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,能够过滤掉偏离样本提高模型翻译训练的质量,减少无关的数据噪音。
在一个实施例中,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型包括:
根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型;
获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
其中,翻译评估源语言数据集是指用于对翻译模型进行评估的数据集。比如,翻译评估源语言数据集具体可以是指国际机器翻译大赛的评估集。
具体的,终端在根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练后,会得到待优化机器翻译模型,还需要通过对待优化机器翻译模型进行优化,才能得到目标机器翻译模型。在进行优化时,终端会先获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,再将翻译评估源语言数据集和翻译评估目标语言数据集作为翻译评估翻译句子对集合,利用过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
进一步的,在得到翻译评估翻译句子对集合后,终端会先对翻译评估翻译句子对集合进行过滤,再根据过滤后样本翻译句子对集合和过滤后翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到待更新机器翻译模型,利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译,得到与翻译评估源语言对应的翻译评估目标语言,利用翻译评估目标语言对过滤后翻译评估翻译句子对集合进行更新,即替换翻译评估翻译句子对集合中翻译评估源语言对应的翻译结果,再利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型。
进一步的,在对翻译评估翻译句子对集合进行过滤时所采用的方式,与对原始翻译句子对集合和样本翻译句子对集合进行过滤时所采用的方式相同,本实施例在此处不再撰述。在利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型时,终端可通过迭代训练得到目标机器翻译模型,即终端会利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到新的待更新机器翻译模型,再返回利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译的步骤,直到迭代次数达到预先设置的迭代阈值为止,根据最新的待更新机器翻译模型得到目标机器翻译模型。
进一步的,在得到最新的待更新机器翻译模型后,终端还会获取领域内专业语料,利用领域内专业语料对最新的待更新机器翻译模型进行训练,得到目标机器翻译模型。
本实施例中,通过根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,能够根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行优化训练,得到目标机器翻译模型。
在一个实施例中,机器翻译方法还包括:
通过预训练专有名词识别模型,对待翻译源语言数据进行专有名词识别,根据识别结果扩充预设专有名词词典。
具体的,由于预设专有名词词典中的专有名词数量有限,因此,在进行机器翻译时,终端会通过预训练专有名词识别模型,对待翻译源语言数据进行专有名词识别,以根据识别结果扩充预设专有名词词典,以便在匹配时能够识别出更多的专有名词。其中,预训练专有名词识别模型通过对携带序列标注的样本专有名词集进行训练得到。
具体的,预训练专有名词识别模型具体可以为BERT(Bidirectional EncoderRepresentation from Transformers,基于转换器的双向编码表征)+CRF(ConditionalRandom Field,条件随机场)模型,在输入待翻译源语言数据时,其会根据序列条件来将翻译的词进行条件概率的打散分布,通过BERT模型可实现对待翻译源语言数据的标注,识别出专有名词,在识别出来之后,通过接入CRF模型,可判断所识别出的专有名词是否准确。比如,当识别出某名词的标签为BIII时,若CRF模型可判断该名词的标签是否准确,即是否确实为BIII,从而可以实现对专有名词的识别。
在一个实施例中,如图2所示,通过一个流程示意图来说明本申请的机器翻译方法,该机器翻译方法具体包括以下步骤:
步骤202,获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对;
步骤204,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
步骤206,根据分词结果和字符长度,对原始翻译句子对集合进行过滤;
步骤208,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合;
步骤210,获取初始机器翻译模型;
步骤212,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值;
步骤214,根据单词数比值进行统计,得到与单词数比值对应的数据分布;
步骤216,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
步骤218,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型;
步骤220,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
步骤222,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
步骤224,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型;
步骤226,获取待翻译源语言数据;
步骤228,将待翻译源语言数据中单词作为待匹配单词;
步骤230,当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词;
步骤232,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组;
步骤234,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词;
步骤236,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回步骤234;
步骤238,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词;
步骤240,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词;
步骤242,将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据;
步骤244,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
在一个实施例中,以上述机器翻译方法应用于医疗领域中英翻译为例,对本申请的机器翻译方法进行说明,如图3所示,该机器翻译方法具体包括以下步骤:
首先,终端会获取真实翻译句子对(即中-英句子对),在获取到中-英句子对后,终端会利用预先训练的反翻译模型(即英-中机器翻译模型)对真实翻译句子对进行反翻译,得到反翻译句子对,将真实翻译句子对和反翻译句子对,作为原始翻译句子对集合。其中,终端会将真实翻译句子对中英文数据输入预先训练反翻译模型,以得到与英文数据对应的中文翻译,将英文数据与中文翻译作为真实翻译句子对所对应的反翻译句子对。通过数据反翻译可以一定的提高模型的准确率。其中,在预先训练反翻译模型时,终端可以通过对真实翻译句子对进行数据处理,得到用于训练的反翻译样本对,再利用反翻译样本对训练英-中机器翻译模型。其中,数据处理的方式可以为,将真实翻译句子对中的源语言数据(即中文)作为目标语言数据,将目标语言数据(即英文)作为源语言数据,得到需要过滤的翻译样本,并对需要过滤的翻译样本进行过滤,得到反翻译样本。举例说明,未训练反翻译模型具体可以为基于transformer-big模型,该进行训练时,该未训练反翻译模型会将输入的单词转为词向量,它包括token embedding(标记嵌入)和position embedding(位置嵌入)两层,编码之后的词向量再分别的流向encoder(编码)里面的两层网络,最后通过矩阵转化训练得出文本的关联度,即可得到反翻译模型。需要说明的是,在对需要过滤的翻译样本对进行过滤时,所采用的过滤方式与上述实施例中对原始翻译句子对以及样本翻译句子对的过滤方式一致,本实施例在此处不再撰述。
在得到原始翻译句子对集合之后,终端可以利用原始翻译句子对进行模型训练得到待优化机器翻译模型,即中-英机器翻译模型训练。其中,在进行模型训练之前,终端还需要对原始翻译句子对集合中的真实翻译句子对(即中-英句子对)进行数据处理(即过滤),得到用于训练的过滤后样本翻译句子对集合。其中,具体的过滤方式可以为:终端会对原始翻译句子对集合中原始中文数据进行分词处理,过滤掉句子长度大于200或者单词数量大于150个的原始中文数据对应的原始翻译句子对,再统计一次过滤后原始翻译句子对集合中原始英文数据中每个英文单词的字符长度,过滤掉最大字符长度大于40的原始英文数据对应的原始翻译句子对,得到样本翻译句子对集合,计算样本翻译句子对集合中样本翻译句子对的单词数比值,即(源中文单词数/目标英文单词数)的数值,通过高斯分布进行统计分析,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,过滤掉单词数比值小于第一比例阈值和大于第二比例阈值的样本翻译句子对,得到过滤后样本翻译句子对集合,通过多重过滤,可以过滤掉偏离值提高模型翻译训练的质量。减少无关的数据噪音。
在得到过滤后样本翻译句子对集合后,终端会根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,通过调试合适的learning rate(学习率),batch size(批量大小),step(步长)以及相关的一些参数信息,得到待优化机器翻译模型,以此实现中-英机器翻译模型训练。
在得到待优化机器翻译模型后,终端会获取过滤过后的国际机器翻译大赛中医疗领域内的评估集(领域内数据),即翻译评估源语言数据集,利用该翻译评估源语言数据集对待优化机器翻译模型进行模型微调,以实现优化。其中,模型微调也就是冻结之前大批量模型训练的相关损失、参数权重等一系列参数,再这些参数基础上进行小批量的模型训练。需要说明的是,对国际机器翻译大赛中医疗领域内的评估集进行过滤的方式与上述实施例中对原始翻译句子对以及样本翻译句子对的过滤方式一致,本实施例在此处不再撰述。
在利用该翻译评估源语言数据集对待优化机器翻译模型进行模型微调,以实现优化时,终端会先通过待优化机器翻译模型对翻译评估中文集中翻译评估中文进行翻译(即数据翻译,单语种中文数据),得到翻译评估英文集,根据待翻译评估中文集和待翻译评估英文集,得到翻译评估翻译句子对集合,对翻译评估翻译句子对集合进行过滤,根据过滤后样本翻译句子对集合和过滤后的翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型,其中,对翻译评估翻译句子对集合进行过滤的方式与上述实施例中对原始翻译句子对以及样本翻译句子对的过滤方式一致,本实施例在此处不再撰述。在进行训练时,优选的,训练步长为一百万步,批量大小为三千。
进一步的,在对待优化机器翻译模型进行训练,得到目标机器翻译模型时,终端通过对待优化机器翻译模型进行训练,会先得到待更新机器翻译模型,利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译,得到与翻译评估源语言对应的翻译评估目标语言,利用翻译评估目标语言对过滤后翻译评估翻译句子对集合进行更新,即替换翻译评估翻译句子对集合中翻译评估源语言对应的翻译结果,再利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型,即医疗领域机器翻译模型。
进一步的,在利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到目标机器翻译模型时,终端可通过迭代训练得到目标机器翻译模型,即终端会利用过滤后样本翻译句子对集合和更新后翻译评估翻译句子对集合对待更新机器翻译模型进行训练,得到新的待更新机器翻译模型,再返回利用待更新机器翻译模型,对过滤后翻译评估翻译句子对集合中翻译评估源语言进行翻译的步骤,直到迭代次数(即图3中的N)达到预先设置的迭代阈值为止,得到最新的待更新机器翻译模型,获取领域内专业语料(即医疗领域数据),利用领域内专业语料对最新的待更新机器翻译模型进行训练(即通过医疗领域数据进行模型微调),得到目标机器翻译模型(即医疗领域机器翻译模型)。
在得到目标机器翻译模型后,终端会获取待翻译中文,将待翻译中文中单词作为待匹配单词,利用医疗数据专业词典进行正向最大匹配,得到与待匹配单词对应的领域专有名词。即当预设专有名词词典(即医疗数据专业词典)中存在与待匹配单词对应的匹配单词时,获取待翻译中文中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译中文中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
在得到与待匹配单词对应的领域专有名词后,终端会根据与待匹配单词对应的领域专有名词,确定待翻译中文中的领域专有名词,将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译中文输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果(即翻译结果输出)。
进一步的,终端可以通过实体识别的方式得到医疗数据专业词典,具体的,终端会获取携带序列标注的样本专有名词集,通过对携带序列标注的样本专有名词集进行训练得到预训练专有名词识别模型,从而可以在进行机器翻译时,终端通过预训练专有名词识别模型,对待翻译源语言数据进行专有名词识别,以根据识别结果扩充预设专有名词词典,以便在匹配时能够识别出更多的专有名词。具体的,预训练专有名词识别模型具体可以为BERT(Bidirectional Encoder Representation from Transformers,基于转换器的双向编码表征)+CRF(Conditional Random Field,条件随机场)模型,在输入待翻译源语言数据时,其会根据序列条件来将翻译的词进行条件概率的打散分布,通过BERT模型可实现对待翻译源语言数据的标注,识别出专有名词,在识别出来之后,通过接入CRF模型,可判断所识别出的专有名词是否准确。比如,当识别出某名词的标签为BIII时,若CRF模型可判断该名词的标签是否准确,即是否确实为BIII,从而可以实现对专有名词的识别。
进一步的,终端可利用多模型融合得到翻译目标语言数据,此时,目标机器翻译模型可以包括至少两个子机器翻译模型,即终端可以通过训练多个随机失活率不同的子机器翻译模型来对待翻译源语言数据进行翻译,在对待翻译源语言数据进行翻译时,终端会将待翻译源语言数据输入子机器翻译模型,得到与子机器翻译模型对应的翻译结果,在翻译结果中包括对于待翻译源语言数据中每个单词预测得到对应单词的单词概率,在得到这个单词概率后,终端会对每个子机器翻译模型所输出的翻译结果中相同单词的单词概率做排序,根据排序结果确定与单词对应的最优预测结果,即最优翻译结果,根据与每个单词对应的最优翻译结果,得到对应的翻译目标语言数据。其中,在做排序后,终端会确定针对每个单词的最大单词概率,将该最大单词概率对应的单词作为最优预测结果。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的机器翻译方法的机器翻译装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个机器翻译装置实施例中的具体限定可以参见上文中对于机器翻译方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种机器翻译装置,包括:获取模块402、匹配模块404、翻译模块406和替换模块408,其中:
获取模块402,用于获取待翻译源语言数据;
匹配模块404,用于对所述待翻译源语言数据进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词;
翻译模块406,用于将所述领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将所述待翻译源语言数据输入所述目标机器翻译模型进行翻译,得到翻译目标语言数据,所述目标机器翻译模型通过对样本数据训练得到;
替换模块408,用于将所述专有名词翻译结果替换所述翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
上述机器翻译装置,通过获取待翻译源语言数据,对待翻译源语言数据进行正向最大匹配,能够确定待翻译源语言数据中的领域专有名词,通过将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,能够提高目标机器翻译模型对领域专有名词翻译的准确性,得到翻译准确的机器翻译结果。
在一个实施例中,匹配模块还用于将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
在一个实施例中,匹配模块还用于当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
在一个实施例中,机器翻译装置还包括模型训练模块,模型训练模块用于获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
在一个实施例中,模型训练模块还用于获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
在一个实施例中,模型训练模块还用于根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
在一个实施例中,模型训练模块还用于根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
上述机器翻译装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种机器翻译方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待翻译源语言数据;
对待翻译源语言数据进行正向最大匹配,确定待翻译源语言数据中的领域专有名词;
将领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将待翻译源语言数据输入目标机器翻译模型进行翻译,得到翻译目标语言数据,目标机器翻译模型通过对样本数据训练得到;
将专有名词翻译结果替换翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将待翻译源语言数据中单词作为待匹配单词,对待匹配单词进行正向最大匹配,得到与待匹配单词对应的领域专有名词,根据与待匹配单词对应的领域专有名词,确定待翻译源语言数据中的领域专有名词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当预设专有名词词典中存在与待匹配单词对应的匹配单词时,获取待翻译源语言数据中待匹配单词对应的下一单词,联合待匹配单词和待匹配单词对应的下一单词,得到待匹配词组,当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词,联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回当预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取待翻译源语言数据中待匹配词组对应的下一单词的步骤,直到预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与待匹配单词对应的领域专有名词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取样本翻译句子对集合以及初始机器翻译模型,计算样本翻译句子对集合中样本翻译句子对的单词数比值,单词数比值为样本翻译句子对中源语言单词数与目标语言单词数的比值,根据单词数比值对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合,根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到目标翻译机器模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始翻译句子对集合,原始翻译句子对集合包括原始翻译句子对,对原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度,根据分词结果和字符长度,对原始翻译句子对集合进行过滤,将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据单词数比值进行统计,得到与单词数比值对应的数据分布,根据数据分布,对样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据过滤后样本翻译句子对集合,对初始机器翻译模型进行训练,得到待优化机器翻译模型,获取翻译评估源语言数据集,通过待优化机器翻译模型对翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集,根据翻译评估源语言数据集和翻译评估目标语言数据集,得到翻译评估翻译句子对集合,根据过滤后样本翻译句子对集合和翻译评估翻译句子对集合,对待优化机器翻译模型进行训练,得到目标机器翻译模型。
需要说明的是,本申请所涉及的数据(包括但不限于用于分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种机器翻译方法,其特征在于,所述方法包括:
获取待翻译源语言数据;
对所述待翻译源语言数据进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词;
将所述领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将所述待翻译源语言数据输入所述目标机器翻译模型进行翻译,得到翻译目标语言数据,所述目标机器翻译模型通过对样本数据训练得到;
将所述专有名词翻译结果替换所述翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待翻译源语言数据中单词进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词包括:
将所述待翻译源语言数据中单词作为待匹配单词;
对所述待匹配单词进行正向最大匹配,得到与所述待匹配单词对应的领域专有名词;
根据所述与所述待匹配单词对应的领域专有名词,确定所述待翻译源语言数据中的领域专有名词。
3.根据权利要求2所述的方法,其特征在于,所述对所述待匹配单词进行正向最大匹配,得到与所述待匹配单词对应的领域专有名词包括:
当预设专有名词词典中存在与所述待匹配单词对应的匹配单词时,获取所述待翻译源语言数据中所述待匹配单词对应的下一单词;
联合所述待匹配单词和所述待匹配单词对应的下一单词,得到待匹配词组;
当所述预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取所述待翻译源语言数据中待匹配词组对应的下一单词;
联合待匹配词组和待匹配词组对应的下一单词,得到新的待匹配词组,返回所述当所述预设专有名词词典中存在与待匹配词组对应的匹配单词时,获取所述待翻译源语言数据中待匹配词组对应的下一单词的步骤;
直到所述预设专有名词词典中不存在与最新的待匹配词组对应的匹配单词为止,从最新的待匹配词组中删除最新的待匹配词组对应的下一单词,得到与所述待匹配单词对应的领域专有名词。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本翻译句子对集合以及初始机器翻译模型;
计算所述样本翻译句子对集合中样本翻译句子对的单词数比值,所述单词数比值为所述样本翻译句子对中源语言单词数与目标语言单词数的比值;
根据所述单词数比值对所述样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合;
根据所述过滤后样本翻译句子对集合,对所述初始机器翻译模型进行训练,得到目标翻译机器模型。
5.根据权利要求4所述的方法,其特征在于,所述获取样本翻译句子对集合包括:
获取原始翻译句子对集合,所述原始翻译句子对集合包括原始翻译句子对;
对所述原始翻译句子对中原始源语言数据进行分词,得到分词结果,并统计所述原始翻译句子对中原始目标语言数据中每个目标语言单词的字符长度;
根据所述分词结果和所述字符长度,对所述原始翻译句子对集合进行过滤;
将过滤后的原始翻译句子对集合,作为样本翻译句子对集合。
6.根据权利要求4所述的方法,其特征在于,所述根据所述单词数比值对所述样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合包括:
根据所述单词数比值进行统计,得到与所述单词数比值对应的数据分布;
根据所述数据分布,对所述样本翻译句子对集合进行过滤,得到过滤后样本翻译句子对集合。
7.根据权利要求4所述的方法,其特征在于,所述根据所述过滤后样本翻译句子对集合,对所述初始机器翻译模型进行训练,得到目标翻译机器模型包括:
根据所述过滤后样本翻译句子对集合,对所述初始机器翻译模型进行训练,得到待优化机器翻译模型;
获取翻译评估源语言数据集,通过所述待优化机器翻译模型对所述翻译评估源语言数据集中翻译评估源语言进行翻译,得到翻译评估目标语言数据集;
根据所述翻译评估源语言数据集和所述翻译评估目标语言数据集,得到翻译评估翻译句子对集合;
根据所述过滤后样本翻译句子对集合和所述翻译评估翻译句子对集合,对所述待优化机器翻译模型进行训练,得到目标机器翻译模型。
8.一种机器翻译装置,其特征在于,所述装置包括:
获取模块,用于获取待翻译源语言数据;
匹配模块,用于对所述待翻译源语言数据进行正向最大匹配,确定所述待翻译源语言数据中的领域专有名词;
翻译模块,用于将所述领域专有名词输入目标机器翻译模型进行翻译,得到专有名词翻译结果,并将所述待翻译源语言数据输入所述目标机器翻译模型进行翻译,得到翻译目标语言数据,所述目标机器翻译模型通过对样本数据训练得到;
替换模块,用于将所述专有名词翻译结果替换所述翻译目标语言数据中对应的翻译结果,得到机器翻译结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210667744.3A 2022-06-14 2022-06-14 机器翻译方法、装置、计算机设备和存储介质 Withdrawn CN114997190A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210667744.3A CN114997190A (zh) 2022-06-14 2022-06-14 机器翻译方法、装置、计算机设备和存储介质
PCT/CN2022/122036 WO2023240839A1 (zh) 2022-06-14 2022-09-28 机器翻译方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210667744.3A CN114997190A (zh) 2022-06-14 2022-06-14 机器翻译方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114997190A true CN114997190A (zh) 2022-09-02

Family

ID=83035859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210667744.3A Withdrawn CN114997190A (zh) 2022-06-14 2022-06-14 机器翻译方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN114997190A (zh)
WO (1) WO2023240839A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240839A1 (zh) * 2022-06-14 2023-12-21 平安科技(深圳)有限公司 机器翻译方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
CN110543644A (zh) * 2019-09-04 2019-12-06 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN112541365A (zh) * 2020-12-21 2021-03-23 语联网(武汉)信息技术有限公司 基于术语替换的机器翻译方法及装置
CN114330375A (zh) * 2021-11-12 2022-04-12 中译语通科技股份有限公司 一种基于固定范式的术语翻译方法及系统
CN114462427A (zh) * 2022-01-26 2022-05-10 四川语言桥信息技术有限公司 基于术语保护的机器翻译方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
MY151645A (en) * 2007-06-27 2014-06-30 Mimos Berhad A system and method of language translation
CN112329482A (zh) * 2020-10-28 2021-02-05 北京嘀嘀无限科技发展有限公司 机器翻译方法、装置、电子设备和可读存储介质
CN114997190A (zh) * 2022-06-14 2022-09-02 平安科技(深圳)有限公司 机器翻译方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
CN110543644A (zh) * 2019-09-04 2019-12-06 语联网(武汉)信息技术有限公司 包含术语翻译的机器翻译方法、装置与电子设备
CN112541365A (zh) * 2020-12-21 2021-03-23 语联网(武汉)信息技术有限公司 基于术语替换的机器翻译方法及装置
CN114330375A (zh) * 2021-11-12 2022-04-12 中译语通科技股份有限公司 一种基于固定范式的术语翻译方法及系统
CN114462427A (zh) * 2022-01-26 2022-05-10 四川语言桥信息技术有限公司 基于术语保护的机器翻译方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240839A1 (zh) * 2022-06-14 2023-12-21 平安科技(深圳)有限公司 机器翻译方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2023240839A1 (zh) 2023-12-21

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN107836000B (zh) 用于语言建模和预测的改进的人工神经网络方法、电子设备
CN108959312B (zh) 一种多文档摘要生成的方法、装置和终端
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
CN110032739B (zh) 中文电子病历命名实体抽取方法及系统
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN110717034A (zh) 一种本体构建方法及装置
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
US11645447B2 (en) Encoding textual information for text analysis
Ding et al. An attentive neural sequence labeling model for adverse drug reactions mentions extraction
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114330343A (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
Li et al. Piecewise convolutional neural networks with position attention and similar bag attention for distant supervision relation extraction
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220902