CN108415906A - 基于领域自动识别篇章机器翻译方法、机器翻译系统 - Google Patents

基于领域自动识别篇章机器翻译方法、机器翻译系统 Download PDF

Info

Publication number
CN108415906A
CN108415906A CN201810263004.7A CN201810263004A CN108415906A CN 108415906 A CN108415906 A CN 108415906A CN 201810263004 A CN201810263004 A CN 201810263004A CN 108415906 A CN108415906 A CN 108415906A
Authority
CN
China
Prior art keywords
sentence
vector
translated
translation
chapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810263004.7A
Other languages
English (en)
Other versions
CN108415906B (zh
Inventor
汪鸣
汪一鸣
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810263004.7A priority Critical patent/CN108415906B/zh
Publication of CN108415906A publication Critical patent/CN108415906A/zh
Application granted granted Critical
Publication of CN108415906B publication Critical patent/CN108415906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言的处理或转换技术领域,公开了一种基于领域自动识别篇章机器翻译方法、机器翻译系统,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到最终的篇章翻译结果。本发明在传统的机器翻译机制上做了改进,采用了分类算法将待翻译的语句进行领域的划分,再放入对应所属领域翻译系统进行翻译。相比于传统人工选择领域翻译系统进行翻译方法,该发明可以省去人工判断句子所属领域的时间。相比如直接利用通用翻译系统进行翻译,该发明可以有效提升翻译准确率。

Description

基于领域自动识别篇章机器翻译方法、机器翻译系统
技术领域
本发明属于自然语言的处理或转换技术领域,尤其涉及一种基于领域自动识别篇章机器翻译方法、机器翻译系统。
背景技术
目前,业内常用的现有技术是这样的:机器翻译是一种利用机器学习算法从双语平行数据中学习两种语言之间相关联系,再利用学习的规则将一种自然语言转化成另外一种自然语言的过程。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。机器翻译从二十世纪三四十年代开始经历过开创期、受挫器、恢复期、新时期。新时期自1990年开始,经历了基于规则的机器翻译、基于统计的机器翻译以及基于神经网络的机器翻译。现阶段占据主流地位的是基于神经网络的机器翻译,相比于统计机器翻译它采用的是端到端的翻译方式。基于神经网络机器翻译的主要思想是采用一个“编码解码”的结构,编码与解码模块分别使用一个循环神经网络进行训练与翻译。对于一句待翻译的句子,编码器首先将该句子转化成一个固定维度的向量,接着将该向量作为输入,解码器会给出一串词向量序列,最终通过在词典查找的方式将该输出的词向量序列转化为目标语言词。在现有的主流机器翻译中,不管是基于统计的机器翻译系统还是基于神经网络的机器翻译系统,采用的都是数据驱动的技术。理论上训练数据的量越大,翻译系统的效果越好。然而在实际情况中待测试的数据与翻译系统的训练数据相关性越大,翻译效果越好。如果待翻译的句子属于教育类,使用900万句高质量教育类训练数据训练的翻译系统的表现有很大概率会优于用1000万句高质量军事类训练数据训练的翻译系统。在实际应用中会出现两种情况,一种是无论用户输入的待翻译句子属于哪个领域,都被当作输入利用一个通用的系统做翻译,目前的技术并未很好得解决领域差异性;另外一种是用户选择特定的领域翻译系统,输入待翻译的句子,对应领域翻译系统给出对应翻译,目前的技术并未很好得实现智能分类。这两种机制中都不能达到最优翻译结果。在第一种机制中因为待翻译的句子与对应系统的训练集关联性不是密切相关,会导致部分词、短语翻译之后的结果准确性不高或者翻译之后的语言习惯不符合特定领域的翻译习惯,在第二种机制中输入的为文本,而文本中的句子可能分属于不同领域,则需要人工辨别每句话所属领域,输入对应领域翻译系统,这种方法一方面不够高效,另一方面输入文本中的句子可能包含非指定领域的内容,可能会因领域不同而影响特定词、短语、句子的翻译准确性。本发明则可以有效解决上述问题。
综上所述,现有技术存在的问题是:
(1)无论用户输入的待翻译句子属于哪个领域,都被当作输入利用一个通用的系统做翻译,待翻译的句子与对应系统的训练集关联性不是密切相关。
(2)用户选择特定的领域翻译系统,输入待翻译的句子,对应领域翻译系统给出对应翻译,输入的为文本,而文本中的句子可能分属于不同领域,则需要人工辨别每句话所属领域,输入对应领域翻译系统,方法则不够高效。
解决上述技术问题的难度和意义:解决该问题主要在于如何高效得对篇章中的每一句进行领域差别切分,同时在切分过程中还需要结合篇章领域信息,因为每个词或者每句话在不同领域中可能存在不同的意思。通过解决该问题可以有效得根据句子的领域信息进行对应领域的翻译,提高每个词和句子的翻译准确度。
发明内容
针对现有技术存在的问题,本发明提供了一种基于领域自动识别篇章机器翻译方法及系统、机器翻译系统。
本发明是这样实现的,一种基于领域自动识别篇章机器翻译方法,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到最终的篇章翻译结果。
进一步,所述待翻译的句子划分到对应领域具体包括:
(1)使用朴素贝叶斯方法对待翻译的文章进行领域分类,待翻译的文章,使用如下公式计算文章属于每个领域类别的分数:
P(x|yi)=p(x1|yi)p(x2|yi)...p(x3|yi);
其中,xi为文本中去除停用之后的所有词,yi为对应类别;
(2)对文本中的每句话进行分类,将句子中的词转化为一个特定维度的向量,该特定维度的向量被成为词向量,,词转化为embedding过程中使用的是一种单射函数,在数学上可表示为一个映射:
f∶X→Y;
将经过转化之后的词向量输入到长短时记忆层进行计算。对于输入的词向量,通过以下公式计算在t时刻记忆单元状态候选值以及输入门it
it=σ(Wixt+Uiht-1+bi);
其中σ()为激励函数,tanh()表示双曲正切函数,Wi、Ui、Wc为对应权重矩阵,t表示t时刻,bi与bc分别表示偏置;
(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值ft
ft=σ(Wfxt+Ufht-1+bf);
其中σ()为激励函数,Wf、Uf为遗忘门对应权重矩阵,t表示t时刻,bf表示遗忘门对应偏置;
(4)接着根据得到的it以及ft利用如下公式更新当前状态值Ct
根据更新后的新状态值,使用如下公式计算最终输出:
ot=σ(Woxt+Uoht-1+bo);
ht=ot*tanh(Ct);
其中σ()为激励函数,tanh()表示双曲正切函数,Wo与Uo为对应权重矩阵,t表示t时刻,bo表示输出函数偏置;
(5)得到t个隐藏的长短时记忆神经单元的向量,向量经过一个平均池层,该层将上述t个向量进行平均操作,得到一个向量h;
(6)接下来对向量进行h分类。
进一步,所述(6)包括:将最开始计算的文本属于对应类别的分数转化为与向量h相同维度的向量,使用词袋模型实现转化,设向量h的维度为n,则类别i的向量表示为第i维数值为对应分数,其他维数值为0。转化完成后进行分类;
其中X0为句子向量h,Xi分别为文章所属类别分数对应的向量,LayerL1为输入层,Xn分别代表向量中的值,LayerL2为隐藏层,计算隐藏特征。LayerL3为输出层,输出最终结果,使用的是前向传播算法,具体公式如下:
z(l)=W(l-1)x(l-1)+b(l-1)
a(l)=f(z(l));
hW,b(x)=a(L-1)
其中Ln为第n层,Xn为输入的特征,W,b分别为权重和偏置,hW,b(x)为输出。
本发明的另一目的在于提供一种所述基于领域自动识别篇章机器翻译方法的基于领域自动识别机器翻译系统,所述基于领域自动识别机器翻译系统包括:
分类模块,用于将待翻译的句子划分到对应领域;
机器翻译模块,用于对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译,再对翻译的句子进行合并得到最终的篇章翻译结果。
本发明的另一目的在于提供一种应用所述基于领域自动识别篇章机器翻译方法的机器翻译系统。
综上所述,本发明的优点及积极效果为:本发明在传统的机器翻译机制上做了改进,采用了分类算法将待翻译的语句进行领域的划分,再放入对应所属领域翻译系统进行翻译。现有的机器翻译技术并不能智能识别每个句子可能属于的领域,对于篇章中的句子领域信息,现在市面上并没有根据篇章信息影响句子领域信息的技术。该发明不但可以节省判断句子所属领域的时间,能够根据篇章以及句子的领域信息做出快速判断,同时放入对应领域的翻译系统进行翻译,可以有效提升翻译准确率。本发明的方法简单易行,领域类别容易拓展,在几乎不影响整个翻译速度的基础上可将系统的翻译准确率提升约5%的BLEU值,BLEU值的具体计算方式如下:
其中BP代表惩罚因子,Wn表示共线n元词的权重,Pn代表修正的n-单位精确度,BP计算方式如下:
其中c代表待评价译文的长度,r代表参考译文的长度。Pn代表的是在每个n单元数只匹配一次的情况下待评测译文当中n单元数与参考译文中的n单元数重合数占待参考译文总n单元数的比例。如n为1,则以单词作为最小匹配单位,若n为2,则以两个单词的组合作为最小匹配单位。
附图说明
图1是本发明实施例提供的基于领域自动识别篇章机器翻译方法流程图。
图2是本发明实施例提供的基于领域自动识别机器翻译系统结构示意图;
图中:1、分类模块;2、机器翻译模块。
图3是本发明实施例提供的基于领域自动识别机器翻译系统结构框图。
图4是本发明实施例提供的转化完成后进行分类示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明相比于传统人工选择领域翻译系统进行翻译方法,该发明可以省去人工判断句子所属领域的时间。
如图1所示,本发明实施例提供的基于领域自动识别篇章机器翻译方法包括以下步骤:
S101:将待翻译的句子划分到对应领域;
S102:对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对该句子进行翻译;
S103:对翻译的句子进行合并得到最终的篇章翻译结果。
如图2所示,本发明实施例提供的基于领域自动识别机器翻译系统包括:
分类模块1,用于将待翻译的句子划分到对应领域。
机器翻译模块2,用于对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对该句子进行翻译,最终再对翻译的句子进行合并得到最终的篇章翻译结果。
下面结合附图对本发明的应用原理作进一步的描述。
本发明共分为两个模块,第一个模块为分类模块1,第二个模块为机器翻译模块2。系统结构图如图3:
第一个模块是一个分类器,它的作用是将待翻译的句子划分到对应领域。在该发明中,不同于其他的单独对文本或者文本中的每句话进行分类,该发明在对文本中每句话进行分类的时候将该文本的类别作为特征来影响每句话的分类。分类具体步骤如下:
首先使用朴素贝叶斯方法对待翻译的文章进行领域分类,针对待翻译的文章,使用如下公式计算该文章属于每个领域类别的分数:
P(x|yi)=p(x1|yi)p(x2|yi)...p(x3|yi);
其中,xi为文本中去除停用之后的所有词,yi为对应类别。
然后对文本中的每句话进行分类。该部分主要使用词向量以及长短时记忆机制(LSTM)进行处理。首先将句子中的词转化为一个特定维度的向量,该特定维度的向量被成为词向量(wordembedding),词转化为embedding过程中使用的是一种单射函数,在数学上可表示为一个映射,即:
f∶X→Y;
将经过转化之后的词向量输入到长短时记忆(LSTM)层进行计算。对于输入的词向量,通过以下公式计算在t时刻记忆单元状态候选值以及输入门it
it=σ(Wixt+Uiht-1+bi);
其中σ()为激励函数,tanh()表示双曲正切函数,Wi、Ui、Wc为对应权重矩阵,t表示t时刻,bi与bc分别表示偏置。
然后,利用如下公式计算在t时刻记忆单元遗忘门对应的值ft
ft=σ(Wfxt+Ufht-1+bf);
其中σ()为激励函数,Wf、Uf为遗忘门对应权重矩阵,t表示t时刻,bf表示遗忘门对应偏置。
接着根据上述得到的it以及ft利用如下公式更新当前状态值Ct
根据更新后的新状态值,可使用如下公式计算最终输出:
ot=σ(Woxt+Uoht-1+bo);
ht=ot*tanh(Ct);
其中σ()为激励函数,tanh()表示双曲正切函数,Wo与Uo为对应权重矩阵,t表示t时刻,bo表示输出函数偏置。
经过上述步骤会得到t个隐藏的长短时记忆神经单元的向量,这些向量经过一个平均池层,该层将上述t个向量进行平均操作,最终得到一个向量h。
接下来对向量进行h分类。在进行分类之前首先需要将最开始计算的该文本属于对应类别的分数转化为与向量h相同维度的向量。可以使用词袋模型实现转化,设向量h的维度为n,则类别i的向量表示为第i维数值为对应分数,其他维数值为0。转化完成后进行分类,分类流程图如图4:
其中X0为句子向量h,Xi分别为文章所属类别分数对应的向量,LayerL1为输入层,Xn分别代表向量中的值,LayerL2为隐藏层,计算隐藏特征。LayerL3为输出层,输出最终结果。使用的是前向传播算法,具体公式如下:
z(l)=W(l-1)x(l-1)+b(l-1)
a(l)=f(z(l));
hW,b(x)=a(L-1)
其中Ln为第n层,Xn为输入的特征,W,b分别为权重和偏置,hW,b(x)为输出。
经过上述步骤对于给定的句子则能经过分类得到句子所属领域的信息。
本发明的第二个模块为机器翻译模块2,经过第一个模块的计算,对于每个句子给出其对应所属的领域分数,在第二个模块中,对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对该句子进行翻译,最终再对翻译的句子进行合并得到最终的篇章翻译结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于领域自动识别篇章机器翻译方法,其特征在于,所述基于领域自动识别篇章机器翻译方法将待翻译的句子划分到对应领域;对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译;对翻译的句子进行合并得到篇章翻译结果。
2.如权利要求1所述的基于领域自动识别篇章机器翻译方法,其特征在于,所述待翻译的句子划分到对应领域具体包括:
(1)使用朴素贝叶斯方法对待翻译的文章进行领域分类,待翻译的文章,使用如下公式计算文章属于每个领域类别的分数:
P(x|yi)=p(x1|yi)p(x2|yi)...p(x3|yi);
其中,xi为文本中去除停用之后的所有词,yi为对应类别;
(2)对文本中的每句话进行分类,将句子中的词转化为一个特定维度的向量,该特定维度的向量被成为词向量,词转化为embedding过程中使用的是一种单射函数,在数学上可表示为一个映射:
f:X→Y;
将经过转化之后的词向量输入到长短时记忆层进行计算;对于输入的词向量,通过以下公式计算在t时刻记忆单元状态候选值以及输入门it:
it=σ(Wixt+Uiht-1+bi);
其中σ()为激励函数,tanh()表示双曲正切函数,Wi、Ui、Wc为对应权重矩阵,t表示t时刻,bi与bc分别表示偏置;
(3)利用如下公式计算在t时刻记忆单元遗忘门对应的值ft
ft=σ(Wfxt+Ufht-1+bf);
其中σ()为激励函数,Wf、Uf为遗忘门对应权重矩阵,t表示t时刻,bf表示遗忘门对应偏置;
(4)接着根据得到的it以及ft利用如下公式更新当前状态值Ct
根据更新后的新状态值,使用如下公式计算最终输出:
ot=σ(Woxt+Uoht-1+bo);
ht=ot*tanh(Ct);
其中σ()为激励函数,tanh()表示双曲正切函数,Wo与Uo为对应权重矩阵,t表示t时刻,bo表示输出函数偏置;
(5)得到t个隐藏的长短时记忆神经单元的向量,向量经过一个平均池层,该层将上述t个向量进行平均操作,得到一个向量h;
(6)接下来对向量进行h分类。
3.如权利要求2所述的基于领域自动识别篇章机器翻译方法,其特征在于,所述(6)包括:将最开始计算的文本属于对应类别的分数转化为与向量h相同维度的向量,使用词袋模型实现转化,设向量h的维度为n,则类别i的向量表示为第i维数值为对应分数,其他维数值为0;转化完成后进行分类;
其中X0为句子向量h,Xi分别为文章所属类别分数对应的向量,LayerL1为输入层,Xn分别代表向量中的值,LayerL2为隐藏层,计算隐藏特征;LayerL3为输出层,输出最终结果,使用的是前向传播算法,具体公式如下:
z(l)=W(l-1)x(l-1)+b(l-1)
a(l)=f(z(l));
hW,b(x)=a(L-1)
其中Ln为第n层,Xn为输入的特征,W,b分别为权重和偏置,hW,b(x)为输出。
4.一种如权利要求1所述基于领域自动识别篇章机器翻译方法的基于领域自动识别机器翻译系统,其特征在于,所述基于领域自动识别机器翻译系统包括:
分类模块,用于将待翻译的句子划分到对应领域;
机器翻译模块,用于对于篇章中的每句待翻译语句根据对应的领域信息调取对应的领域翻译系统对句子进行翻译,再对翻译的句子进行合并得到最终的篇章翻译结果。
5.一种应用权利要求1~3任意一项所述基于领域自动识别篇章机器翻译方法的机器翻译系统。
CN201810263004.7A 2018-03-28 2018-03-28 基于领域自动识别篇章机器翻译方法、机器翻译系统 Active CN108415906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810263004.7A CN108415906B (zh) 2018-03-28 2018-03-28 基于领域自动识别篇章机器翻译方法、机器翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810263004.7A CN108415906B (zh) 2018-03-28 2018-03-28 基于领域自动识别篇章机器翻译方法、机器翻译系统

Publications (2)

Publication Number Publication Date
CN108415906A true CN108415906A (zh) 2018-08-17
CN108415906B CN108415906B (zh) 2021-08-17

Family

ID=63133792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810263004.7A Active CN108415906B (zh) 2018-03-28 2018-03-28 基于领域自动识别篇章机器翻译方法、机器翻译系统

Country Status (1)

Country Link
CN (1) CN108415906B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408834A (zh) * 2018-12-17 2019-03-01 北京百度网讯科技有限公司 辅助机器翻译方法、装置、设备及存储介质
CN109697553A (zh) * 2018-12-10 2019-04-30 语联网(武汉)信息技术有限公司 一种基于区块链的译员信用管理方法及系统
CN109933809A (zh) * 2019-03-15 2019-06-25 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统
CN110472257A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于句对的机器翻译引擎测评优选方法及系统
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN111274827A (zh) * 2020-01-20 2020-06-12 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN118428376A (zh) * 2024-07-05 2024-08-02 中科云谷科技有限公司 用于翻译工程资料的方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101044494A (zh) * 2004-10-20 2007-09-26 摩托罗拉公司 用于可视文本解释的电子装置和方法
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN103049436A (zh) * 2011-10-12 2013-04-17 北京百度网讯科技有限公司 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
CN104679733A (zh) * 2013-11-26 2015-06-03 中国移动通信集团公司 一种语音对话翻译方法、装置及系统
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107273348A (zh) * 2017-05-02 2017-10-20 深圳大学 一种文本的话题和情感联合检测方法及装置
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107402919A (zh) * 2017-08-07 2017-11-28 中译语通科技(北京)有限公司 基于图的机器翻译数据选择方法及机器翻译数据选择系统
CN107577983A (zh) * 2017-07-11 2018-01-12 中山大学 一种循环发现关注区域识别多标签图像的方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101044494A (zh) * 2004-10-20 2007-09-26 摩托罗拉公司 用于可视文本解释的电子装置和方法
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN103049436A (zh) * 2011-10-12 2013-04-17 北京百度网讯科技有限公司 获取语料的方法及装置、生成翻译模型的方法及系统、机器翻译的方法及系统
CN104679733A (zh) * 2013-11-26 2015-06-03 中国移动通信集团公司 一种语音对话翻译方法、装置及系统
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107273348A (zh) * 2017-05-02 2017-10-20 深圳大学 一种文本的话题和情感联合检测方法及装置
CN107577983A (zh) * 2017-07-11 2018-01-12 中山大学 一种循环发现关注区域识别多标签图像的方法
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN107402919A (zh) * 2017-08-07 2017-11-28 中译语通科技(北京)有限公司 基于图的机器翻译数据选择方法及机器翻译数据选择系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁亮 等: "融合领域知识与深度学习的机器翻译领域自适应研究", 《情报科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697553A (zh) * 2018-12-10 2019-04-30 语联网(武汉)信息技术有限公司 一种基于区块链的译员信用管理方法及系统
CN109408834A (zh) * 2018-12-17 2019-03-01 北京百度网讯科技有限公司 辅助机器翻译方法、装置、设备及存储介质
CN109408834B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 辅助机器翻译方法、装置、设备及存储介质
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN109933809A (zh) * 2019-03-15 2019-06-25 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN109933809B (zh) * 2019-03-15 2023-09-15 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统
CN110472257A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于句对的机器翻译引擎测评优选方法及系统
CN110472256B (zh) * 2019-08-20 2020-07-03 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN111274827A (zh) * 2020-01-20 2020-06-12 南京新一代人工智能研究院有限公司 一种基于词袋多目标学习的后缀翻译方法
CN118428376A (zh) * 2024-07-05 2024-08-02 中科云谷科技有限公司 用于翻译工程资料的方法、装置及存储介质

Also Published As

Publication number Publication date
CN108415906B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN108415906A (zh) 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN109902177B (zh) 基于双通道卷积记忆神经网络的文本情感分析方法
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN110807320B (zh) 基于cnn双向gru注意力机制的短文本情感分析方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN108062388A (zh) 人机对话的回复生成方法和装置
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
Liu et al. A multi-modal chinese poetry generation model
CN113946678A (zh) 一种政府采购品目层次分类模型的构建方法
CN112309528B (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN110334187A (zh) 基于迁移学习的缅语情感分析方法及装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Du et al. Named entity recognition method with word position
CN111985218A (zh) 一种基于生成对抗网络的司法文书自动校对方法
CN115293168A (zh) 基于预训练模型语义理解的多语言缩写消歧义算法
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant