CN110334362B - 一种基于医学神经机器翻译的解决产生未翻译单词的方法 - Google Patents

一种基于医学神经机器翻译的解决产生未翻译单词的方法 Download PDF

Info

Publication number
CN110334362B
CN110334362B CN201910630654.5A CN201910630654A CN110334362B CN 110334362 B CN110334362 B CN 110334362B CN 201910630654 A CN201910630654 A CN 201910630654A CN 110334362 B CN110334362 B CN 110334362B
Authority
CN
China
Prior art keywords
translation
medical
word
training
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910630654.5A
Other languages
English (en)
Other versions
CN110334362A (zh
Inventor
管仁初
温晓静
王连臣
陈碧乾
周丰丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bioknow Information Technology Co ltd
Original Assignee
Beijing Bioknow Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bioknow Information Technology Co ltd filed Critical Beijing Bioknow Information Technology Co ltd
Priority to CN201910630654.5A priority Critical patent/CN110334362B/zh
Publication of CN110334362A publication Critical patent/CN110334362A/zh
Application granted granted Critical
Publication of CN110334362B publication Critical patent/CN110334362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于医学神经机器翻译的解决产生未翻译单词的方法,该方法的目的是将医学英文摘要翻译为中文摘要,便于研究学者阅读,包括以下步骤:输入医学英文摘要、文本预处理、调用医学翻译模型、判断是否含有<unk>;如果翻译结果中出现未翻译单词则通过ATTENTION机制计算<unk>在源语言位置然后使用该词进行医学专业词典查询,替换翻译结果中的<unk>并返回给用户。

Description

一种基于医学神经机器翻译的解决产生未翻译单词的方法
技术领域
本发明属于医学翻译技术领域,特别是涉及一种基于医学神经机器翻译的解决产生未翻译单词的方法。
背景技术
通用机器翻译在大多数情况下不适应于医学领域,因为医学领域有很多医学专业词汇,像药物的名称,某些病毒、细菌的名称或者疾病的名称,可能是通用词而非通用含义,所以在进行翻译时,如果采用通用翻译可能会产生歧义。医学机器翻译不同于通用机器翻译,医学机器翻译有很强的专业性,所以需要使用医学语料来进行训练,这样使得翻译的结果更加专业化,使翻译医学相关的词汇的准确率更高。
医学摘要在进行翻译时要将摘要进行分句处理,模型每次调用一句话进行翻译,在翻译结果中的<unk>处理结束后,处理下一句,以此类推,直至摘要中所有的英文语句都翻译结束,将翻译结果整合成为整段英文的翻译结果并返回给用户。
医学词汇量比较大,进行机器翻译模型训练的语料中所包含的单词数有限,有时会产生未识别的单词,模型会默认返回<unk>(unknown),但是在翻译时译者不能理解<unk>是何含义,可能会误导译者从而产生歧义,因此,医学机器翻译还需要解决<unk>问题。
发明内容
本发明要解决的技术问题是避免翻译结果中出现<unk>(未识别单词),本发明通过解决<unk>问题,能够帮助用户更好的理解翻译结果,使得医学词汇的中文含义更加明确。
本发明的内容为:翻译英文医学摘要并处理医学翻译得到的结果中包含<unk>的问题,包括解决单词含义歧义问题,其实施过程由输入英文语句,调用模型进行翻译,判断是否含有<unk>,处理<unk>,整合翻译结果,返回翻译结果。具体包括如下:
1).接收英文医学摘要:计算机接收译者输入的医学英文摘要;
2).文本预处理:对输入的英文医学摘要采用nltk包进行英文分句,通过nltk中的句子分割器来将英文段落分割成句子组;
3).调用医学翻译模型:翻译程序调用训练好的医学翻译模型,将输入英文语句进行翻译;
4).判断是否含有未识别单词:得到初步翻译结果后,判断翻译结果中是否含有未识别单词,如果含有,则进行未识别单词处理,否则直接返回翻译结果;
未识别单词处理的方法包括:
41).计算未识别单词位置:通过ATTENTION机制,计算未识别单词在源语言句子中的位置,返回给程序源单词;
42).处理未识别单词:根据ATTENTION机制得到未识别单词的源语言单词位置,根据返回方法,返回结果来帮助翻译提高准确率;
43).整合翻译结果:将未识别单词通过规则查找到的结果替换模型本身翻译的结果中未识别单词的位置作为最终的翻译结果;
44).返回翻译结果:将最终的翻译结果返回给用户。
进一步,方法3)中医学翻译模型的训练过程为:
31).收集训练语料:运行爬虫程序将中华医学期刊网中的所有中英文论文摘要爬取到本地,然后使用nltk包进行中英摘要分句,判断摘要是否是中英文一一对应,如果中英文句子能够对应就作为训练翻译模型的语料;
其中,爬虫程序运行过程为:
3101).先使用python编程语言中的requests包将中华医学期刊网中包含论文id的网页获取到本地;
3102).使用python编程语言中的BS4包将获取到的网页信息处理成python可处理格式,获取到每篇论文的id,将id存储到表格中以备后用;
3103).从表格中获取id,将id与网站ip结合到一起,使用requests包爬取包含每篇论文摘要的网页;
3104).使用BS4包处理含有论文摘要的网页,将中英文摘要分别存储到本地txt中以备后用;
32).训练翻译模型:借助训练程序在收集到的医学语料的基础上进行翻译模型的训练;
具体的训练过程为:
3201).将语料分为训练集、测试集、验证集;
3202).预先定义训练参数,包括学习率为0.1、梯度裁剪为0.1、随机失活为0.2、句子最大词数量为100,然后使用训练集进行训练;
3203).一个阶段的训练结束后训练程序自动调用验证集来进行优化训练参数,使其更符合医学翻译模型的训练;
3204).按照先验经验,步骤3202)、3203)迭代20次训练参数达到最优、得到的训练模型为最优训练模型;
3205).训练程序自动调用测试集进行验证医学翻译模型的泛化能力;
3206).训练结束,得到最终的医学翻译模型。
进一步,方法42)中的返回方法包括方法一:如果单词为大写字母单词,则直接返回原单词。
进一步,方法42)中的返回方法包括方法二:如果不满足方法一,则先进行meddra疾病词典的查询,后续还有加入更多医学专业词典,如果查找得到中文含义,则返回含义替换未识别的单词,meddra词典是自行整理的医学词汇词典,每个英文词汇只有一个中文含义,因为是医学专业词典,所以不需要进行语义消歧。
进一步,方法42)中的返回方法包括方法三:如果不满足方法二,则将未识别单词进行通用词典查询,如果查询到结果而且结果只有一个,则返回中文含义,替换未识别单词;如果查询到的结果有多个中文含义,我们将进行语义消歧,通过整句话的语义来判断该单词在该环境下的含义,根据每个中文含义的概率来决定该未识别单词的含义,如果有多个中文含义的概率相同,则默认选择第一个中文含义为最佳含义;得到中文含义后返回结果。
进一步,方法42)中的返回方法包括方法四:如果方法二和方法三均未查询到中文含义,判断是否含有连词符“-”,如果不含有连词符,则返回源单词作为翻译结果;如果含有连词符,去掉连词符将分开的单词单独进行方法二和方法三的查找,如果找到中文含义,则使用“-”拼接作为源单词的中文含义;如果未找到,则返回源单词作为翻译结果。
附图说明
图1是本发明的模型翻译过程流程图;
图2是本发明的结构图。
具体实施方式
下面结合具体实施例和附图对本发明作进一步的说明。
如图1至图2所示,一种基于医学神经机器翻译的解决产生未翻译单词(unk)的方法,其方法包含了最新的神经机器翻译训练方法,以及处理模型翻译所产生未翻译单词而采用的组合方法。所述的基于医学神经机器翻译模型采用医学语料进行训练,其翻译的结果更加偏向于医学领域。所述使用医学语料进行神经机器翻译的方法,再使用多规则的未翻译单词(unk)处理方法,提高了翻译的准确率,在翻译效果方面,更加贴近于医学专业人员翻译。
其中,翻译模型的训练,采用LSTM+ATTENTION架构,附图中的每个原点代表一个单词,ATTENTION机制计算每个源语言单词的权重,权重最大的词的下标作为<unk>所指的源语言单词的位置,在得到翻译结果后,通过判断<unk>的位置得到<unk>在待翻译句子中的源语言单词,我们根据处理<unk>的规则将<unk>进行处理,最大程度的保证了<unk>也能翻译为中文,仅由大写字母组合的单词默认返回原单词,不进行翻译。
本方法具体包括:
输入英文医学摘要:译者将医学英文摘要输入到翻译程序中。
文本预处理:将输入的英文医学摘要进行分句处理。采用的是斯坦福大学推出的nltk包来进行英文分句,使用nltk中的句子分割器来将英文段落分割成句子组。
调用医学翻译模型:翻译程序调用使用自己爬取的医学语料、基于开源fairseq代码进行训练的新的医学领域的专业翻译模型,将输入英文语句进行翻译。
LSTM+ATTENTION的模型翻译过程简介:
LSTM计算隐层状态h的公式为:
ht=LSTM(ht-1,[wt-1,ct])
其中,ht代表第t个输出的隐层状态,
Figure GDA0002185231220000061
代表第t-1个输入的词向量,ct是一个ATTENTION向量。
计算第t个输入的分数αt'
αt'=f(ht-1,et')∈R
其中,ht-1代表第t-1个输出的隐层状态,et'代表第t个输入的编码(encoder),R代表正实数。
通过softmax函数计算得到平均α:
Figure GDA0002185231220000062
通过第t个输入的分数αt'的平均值和第t个输入的编码求和计算第t个ATTENTION向量
Figure GDA0002185231220000063
判断是否含有<unk>:得到初步翻译结果后,判断翻译结果中是否含有<unk>单词,如果含有<unk>,则进行<unk>处理,否则直接返回翻译结果。
计算<unk>位置:通过ATTENTION机制,计算<unk>在源语言句子中的位置,返回给程序源单词。
处理<unk>:根据ATTENTION机制得到<unk>的源语言单词位置,根据返回方法,返回合适的结果来帮助翻译提高准确率。
返回方法包括:
方法一:如果单词为大写字母单词,则直接返回原单词。
方法二:如果不满足方法一,则先进行meddra疾病词典的查询,后续还有加入更多医学专业词典,如果查找得到中文含义,则返回含义替换<unk>,meddra词典是自行整理的医学词汇词典,每个英文词汇只有一个中文含义,因为是医学专业词典,所以不需要进行语义消歧。
方法三:如果不满足方法二,则将<unk>单词进行通用词典查询,如果查询到结果而且结果只有一个,则返回中文含义,替换<unk>;如果查询到的结果有多个中文含义,我们将进行语义消歧,通过整句话的语义来判断该单词在该环境下的含义,根据每个中文含义的概率来决定该<unk>的含义,如果有多个中文含义的概率相同,则默认选择第一个中文含义为最佳含义;得到中文含义后返回结果。
方法四:如果两个词典均未查询到中文含义,判断是否含有连词符“-”,如果不含有连词符,则返回源单词作为翻译结果;如果含有连词符,去掉连词符将分开的单词单独进行方法二,方法三的查找,如果找到中文含义,则使用“-”拼接作为源单词的中文含义;如果未找到,则返回源单词作为翻译结果。
整合翻译结果:将<unk>通过规则查找到的结果替换模型本身翻译的结果中<unk>的位置作为最终的翻译结果;
返回翻译结果:将最终的翻译结果返回给用户。
其中,上述调用医学翻译模型,使用python编程语言编写基于Django框架的翻译程序,将调用模型的命令写进程序,每次运行翻译程序时自动进行医学翻译模型的调用;
基于Django框架的翻译程序的编写及运行过程为:
a.编写manage.py来进行整个程序的启动控制,程序运行时由manage.py来进行整个翻译程序的运行控制,运行manage.py即可将整个翻译程序运行;
b.将医学神经机器翻译训练得到的模型、Django框架调用的通用字典、生物医学字典等翻译程序要用到的数据的路径存储到settings.py中;
c.编写views.py,在Django框架的基础上编写程序的运行过程,将调用api的过程、接收用户待翻译的英文摘要、将英文摘要分句、调用医学神经机器翻译模型、查询词典的过程、通过ATTENTION查找<unk>单词的位置的过程、以及判断<unk>替换方法、返回给用户翻译结果的过程均以python程序的函数的形式写到views.py中。
d.在程序运行时由manage.py激活views.py的运行,views.py负责在翻译的主要过程以及返回给用户结果的过程。即运行manage.py使整个翻译程序自动运行,以api调用的方法供译者使用。
上述方法中的医学翻译模型的训练过程为:
首先,收集训练语料:使用自己编写的运行爬虫程序将中华医学期刊网中的118个期刊中2005年-2018年的所有中英文论文摘要爬取到本地,然后使用nltk包进行中英摘要分句,判断摘要是否是中英文一一对应,如果中英文句子能够对应就作为训练翻译模型的语料;
其中,爬虫程序运行过程为:
A.先使用python编程语言中的requests包将中华医学期刊网中包含论文id的网页获取到本地;
B.使用python编程语言中的BS4包将获取到的网页信息处理成python可处理格式,获取到每篇论文的id,将id存储到表格中以备后用;
C.从表格中获取id,将id与网站ip结合到一起,使用requests包爬取包含每篇论文摘要的网页;
D.使用BS4包处理含有论文摘要的网页,将中英文摘要分别存储到本地txt中以备后用;
然后,训练翻译模型:借助训练程序(fairseq开源神经机器翻译代码)在收集到的医学语料的基础上进行翻译模型的训练;
具体的训练过程为:
(1).将语料分为训练集、测试集、验证集;
(2).预先定义训练参数,使用训练集进行训练;
参数初步设置值:
根据开源神经机器翻译代码以及监督机器学习算法的定义,我们预先定义神经机器翻译程序的训练参数:
学习率(lr)为0.1、梯度裁剪(clip-norm)为0.1、随机失活(dropout)0.2、句子最大词数量(max-tokens)100;
参数介绍:
学习率(lr):控制着训练程序的收敛速度。
梯度裁剪(clip-norm):为了防止LSTM模型在训练的过程中出现梯度爆炸,设置梯度裁剪来进行训练过程的控制。
随机失活(dropout):为了缓解参数过多导致的过拟合现象的发生,在一定程度上起到正则化的作用。
句子最大词数量(max-tokens):进行训练时规定每个句子的长度,如果单词的数量超过100,则将后边的单词忽略。
(3).一个阶段的训练结束后训练程序自动调用验证集来进行优化训练参数,使其更符合医学翻译模型的训练;
(4).按照先验经验,步骤(2)、(3)迭代20次训练参数达到最优、得到的训练模型为最优训练模型;
(5).训练程序自动调用测试集进行验证医学翻译模型的泛化能力;
(6).训练结束,得到最终的医学翻译模型。
本发明的优点为,在现有开源神经机器翻译代码的基础上完成了翻译模型利用医学中英文语料的训练,利用开源词典、专业医学词典查询得到未翻译单词的中文含义同时如果查询词典产生了一词多义的现象,使用语义消歧的方法来选择最适合待翻译语句语境的未翻译单词含义。通过本发明的设计,提高了医学神经机器翻译的准确性,提高了医学语句翻译的专业性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于医学神经机器翻译的解决产生未翻译单词的方法,其特征在于,包括的方法有:
1).接收英文医学摘要:计算机接收译者输入的医学英文摘要;
2).文本预处理:对输入的英文医学摘要采用nltk包进行英文分句,通过nltk中的句子分割器来将英文段落分割成句子组;
3).调用医学翻译模型:翻译程序调用训练好的医学翻译模型,将输入英文语句进行翻译;
4).判断是否含有未识别单词:得到初步翻译结果后,判断翻译结果中是否含有未识别单词,如果含有,则进行未识别单词处理,否则直接返回翻译结果;
未识别单词处理的方法包括:
41).计算未识别单词位置:通过ATTENTION机制,计算未识别单词在源语言句子中的位置,返回给程序源单词;
42).处理未识别单词:根据ATTENTION机制得到未识别单词的源语言单词位置,根据返回方法,返回结果来帮助翻译提高准确率;
43).整合翻译结果:将未识别单词通过规则查找到的结果替换模型本身翻译的结果中未识别单词的位置作为最终的翻译结果;
44).返回翻译结果:将最终的翻译结果返回给用户;
方法3)中医学翻译模型的训练过程为:
31).收集训练语料:运行爬虫程序将中华医学期刊网中的所有中英文论文摘要爬取到本地,然后使用nltk包进行中英摘要分句,判断摘要是否是中英文一一对应,如果中英文句子能够对应就作为训练翻译模型的语料;
32).训练翻译模型:借助训练程序在收集到的医学语料的基础上进行翻译模型的训练。
2.根据权利要求1所述的基于医学神经机器翻译的解决产生未翻译单词的方法,其特征在于,
所述爬虫程序运行过程为:
3101).先使用python编程语言中的requests包将中华医学期刊网中包含论文id的网页获取到本地;
3102).使用python编程语言中的BS4包将获取到的网页信息处理成python可处理格式,获取到每篇论文的id,将id存储到表格中以备后用;
3103).从表格中获取id,将id与网站ip结合到一起,使用requests包爬取包含每篇论文摘要的网页;
3104).使用BS4包处理含有论文摘要的网页,将中英文摘要分别存储到本地txt中以备后用;
所述翻译模型的训练过程为:
3201).将语料分为训练集、测试集、验证集;
3202).预先定义训练参数,包括学习率为0.1、梯度裁剪为0.1、随机失活为0.2、句子最大词数量为100,然后使用训练集进行训练;
3203).一个阶段的训练结束后训练程序自动调用验证集来进行优化训练参数,使其更符合医学翻译模型的训练;
3204).按照先验经验,步骤3202)、3203)迭代20次训练参数达到最优、得到的训练模型为最优训练模型;
3205).训练程序自动调用测试集进行验证医学翻译模型的泛化能力;
3206).训练结束,得到最终的医学翻译模型。
3.根据权利要求1所述的基于医学神经机器翻译的解决产生未翻译单词的方法,其特征在于,方法42)中的返回方法包括方法一:如果单词为大写字母单词,则直接返回原单词。
4.根据权利要求3所述的基于医学神经机器翻译的解决产生未翻译单词的方法,其特征在于,方法42)中的返回方法包括方法二:如果不满足方法一,则先进行meddra疾病词典的查询,后续还有加入更多医学专业词典,如果查找得到中文含义,则返回含义替换未识别的单词,meddra词典是自行整理的医学词汇词典,每个英文词汇只有一个中文含义,因为是医学专业词典,所以不需要进行语义消歧。
5.根据权利要求4所述的基于医学神经机器翻译的解决产生未翻译单词的方法,其特征在于,方法42)中的返回方法包括方法三:如果不满足方法二,则将未识别单词进行通用词典查询,如果查询到结果而且结果只有一个,则返回中文含义,替换未识别单词;如果查询到的结果有多个中文含义,我们将进行语义消歧,通过整句话的语义来判断该单词在该环境下的含义,根据每个中文含义的概率来决定该未识别单词的含义,如果有多个中文含义的概率相同,则默认选择第一个中文含义为最佳含义;得到中文含义后返回结果。
6.根据权利要求5所述的基于医学神经机器翻译的解决产生未翻译单词的方法,其特征在于,方法42)中的返回方法包括方法四:如果方法二和方法三均未查询到中文含义,判断是否含有连词符“-”,如果不含有连词符,则返回源单词作为翻译结果;如果含有连词符,去掉连词符将分开的单词单独进行方法二和方法三的查找,如果找到中文含义,则使用“-”拼接作为源单词的中文含义;如果未找到,则返回源单词作为翻译结果。
CN201910630654.5A 2019-07-12 2019-07-12 一种基于医学神经机器翻译的解决产生未翻译单词的方法 Active CN110334362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630654.5A CN110334362B (zh) 2019-07-12 2019-07-12 一种基于医学神经机器翻译的解决产生未翻译单词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630654.5A CN110334362B (zh) 2019-07-12 2019-07-12 一种基于医学神经机器翻译的解决产生未翻译单词的方法

Publications (2)

Publication Number Publication Date
CN110334362A CN110334362A (zh) 2019-10-15
CN110334362B true CN110334362B (zh) 2023-04-07

Family

ID=68146588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630654.5A Active CN110334362B (zh) 2019-07-12 2019-07-12 一种基于医学神经机器翻译的解决产生未翻译单词的方法

Country Status (1)

Country Link
CN (1) CN110334362B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905332A (zh) * 2019-12-03 2021-06-04 杭州电子科技大学富阳电子信息研究院有限公司 一种基于LVS负载均衡Django架构实现英文PDF在线快速翻译方法
CN111178096A (zh) * 2019-12-22 2020-05-19 同济大学 一种基于语义相似度的cameo字典翻译方法
CN111274826B (zh) * 2020-01-19 2021-02-05 南京新一代人工智能研究院有限公司 一种基于语义信息融合的低频词翻译方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137712A (ja) * 1998-10-30 2000-05-16 Brother Ind Ltd 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101770458A (zh) * 2009-01-07 2010-07-07 三星电子(中国)研发中心 基于实例短语的机器翻译方法
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109255121A (zh) * 2018-07-27 2019-01-22 中山大学 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN109359304A (zh) * 2018-08-22 2019-02-19 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
WO2019107625A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
CN109960815A (zh) * 2019-03-27 2019-07-02 河南大学 一种神经机器翻译nmt模型的创建方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137712A (ja) * 1998-10-30 2000-05-16 Brother Ind Ltd 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101770458A (zh) * 2009-01-07 2010-07-07 三星电子(中国)研发中心 基于实例短语的机器翻译方法
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统
WO2019107625A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN109255121A (zh) * 2018-07-27 2019-01-22 中山大学 一种基于主题类的跨语言生物医学类学术论文信息推荐方法
CN109359304A (zh) * 2018-08-22 2019-02-19 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109960815A (zh) * 2019-03-27 2019-07-02 河南大学 一种神经机器翻译nmt模型的创建方法及系统

Also Published As

Publication number Publication date
CN110334362A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN109271626B (zh) 文本语义分析方法
US11210468B2 (en) System and method for comparing plurality of documents
Tellez et al. A simple approach to multilingual polarity classification in Twitter
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
JP5356197B2 (ja) 単語意味関係抽出装置
US7680646B2 (en) Retrieval method for translation memories containing highly structured documents
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
EP0562818A2 (en) System for pattern based text translation
CN104731774B (zh) 面向通用机译引擎的个性化翻译方法及装置
EP3483747A1 (en) Preserving and processing ambiguity in natural language
KR20070027726A (ko) 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
US20200311345A1 (en) System and method for language-independent contextual embedding
CN102214238B (zh) 一种汉语词语相近性匹配装置及方法
CN111984845B (zh) 网站错别字识别方法和系统
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN112182159A (zh) 一种基于语义表示的个性化检索式对话方法和系统
Vandeghinste et al. METIS-II: machine translation for low resource languages
CN106776590A (zh) 一种获取词条译文的方法及系统
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Kamanur et al. Investigation and use of methods for defining the extends of similarity of Kazakh language sentences
JP2017021602A (ja) テキスト変換装置、方法、及びプログラム
Lu et al. Language model for Mongolian polyphone proofreading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant