CN113033220A - 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 - Google Patents
一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 Download PDFInfo
- Publication number
- CN113033220A CN113033220A CN202110407920.5A CN202110407920A CN113033220A CN 113033220 A CN113033220 A CN 113033220A CN 202110407920 A CN202110407920 A CN 202110407920A CN 113033220 A CN113033220 A CN 113033220A
- Authority
- CN
- China
- Prior art keywords
- language
- modern
- bilingual
- data
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013519 translation Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000001537 neural effect Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000004806 packaging method and process Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 235000014347 soups Nutrition 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000014616 translation Effects 0.000 description 85
- 238000011156 evaluation Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 244000309466 calf Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于莱文斯坦比的文言文‑现代文翻译系统构建方法,步骤为:通过互联网获取文言文‑现代文双语数据;对双语数据进行数据清洗得到预处理后的双语数据;对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文‑现代文双语平行语料库;使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文‑现代文神经机器翻译模型;将训练完成的文言文‑现代文神经机器翻译模型进行封装,部署到线上,完成文言文‑现代文神经机器翻译系统的搭建。本发明在文言文‑现代文双语平行语料库空缺的情况下实现性能较好的文言文‑现代文神经翻译系统,文言文‑现代文双语平行语料库对于其他研究者将提供极大便利。
Description
技术领域
本发明涉及一种翻译系统的构建方法,具体为一种基于莱文斯坦比的文言文-现代文翻译系统构建方法。
背景技术
自文化强国战略提出以来,我国经济、政治、文化的全球化发展,国与国之间的关系发展越来越密切,各国间的交流也越来越频繁。而中华上下五千年优秀传统文化的载体正是流传至今的古代文集和诗词古籍。但是由于古代汉语和现代汉语的差别较大,不仅阻碍了传统文化向国外的传播,连我们普通百姓阅读古籍都十分困难。
从国内来讲,目前古文翻译的受众群体主要是中学生、对古文有着浓厚兴趣的群组和专门从事古文研究的专业人士。对于他们而言,虽然有一定的古文翻译基础,但个别生僻词汇和短语仍然需要去查找翻译。而纸质资料查阅起来十分麻烦,在线的古文翻译系统像百度的文言文翻译,对古文的翻译依旧存在许多错误。这将对人们理解古文,了解优秀古代传统文化造成了极大的不便利。从国外来讲,外国友人所使用的在线翻译系统仅仅支持本国语言到中文的翻译,而中文到文言文的翻译却是一片空白,这将极大阻碍传统文化的全球化推广。
随着科技日新月异的发展,机器翻译技术成为人工智能里非常重要的一块领域。机器翻译,自20世纪30年代初露端倪以来,如今已取得了突破性进展。在提高翻译效率、改变翻译作业方式、促进翻译多元发展中起着至关重要的作用。随着科技的进步,机器翻译方法也在不断革新,从早期的基于规则的机器翻译,到20世纪90年代基于统计的机器翻译,再到现在随着深度学习而崛起的基于神经网络的机器翻译,每一次革新,都会为现代翻译业注入鲜活的生命力。
随着深度学习的不断发展,机器翻译中越来越多的开始采用神经网络学习方法,采用端到端的神经机器翻译(Neural Machine Translation,NMT)因此得到了快速发展。它直接使用神经网络实现源语到目标语的映射,相比于统计机器翻译,由于神经机器翻译不需要进行短语切分、词对齐等步骤,也无需句法分析等语言学知识支持,人工成本低并且开发周期短,因此成为谷歌、百度等国内外公司机器翻译系统的核心技术。
虽然现在的机器翻译技术逐渐成熟,在像英语、法语、德语等大众化语言上的翻译效果十分出色,但是对于小语种和方言支持的还是比较少的,而文言文翻译更是鲜有人来做。目前国内可以翻译小语种的平台主要是小牛翻译和百度翻译,而国际上主要是谷歌翻译。但是针对文言文-现代文的翻译平台国内外只有百度翻译少有涉及,但是目前翻译质量较低,与人工翻译文言文的水平还有一定差距。
目前无论是在国内还是国外,文言文-现代文机器翻译系统的研究都极度稀缺,文言文-现代文的平行语料更是少之又少,而且无法直接获取,文言文-现代文翻译仍处于一片空白的状态,严重阻碍了中国古代优秀传统文化的传播和推广。
发明内容
针对文言文-现代文双语数据无法直接获取平行语料搭建机器翻译系统,严重阻碍了中国古代优秀传统文化的传播和推广等不足,本发明要解决的技术问题是提供一种基于莱文斯坦比的文言文-现代文翻译系统构建方法,构建了文言文-现代文双语平行语料库,之后通过训练得到神经机器翻译系统,填补了国内外文言文-现代文机器翻译系统的空白。
为解决上述技术性问题,本发明采用的技术方案是:
本发明提供一种基于莱文斯坦比的文言文-现代文翻译系统构建方法,包括以下步骤:
1)通过互联网获取文言文-现代文双语数据;
2)对双语数据进行数据清洗得到预处理后的双语数据;
3)对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库;
4)使用构建好的双语平行语料库训练文言文-现代文神经机器翻译模型;
5)将训练完成的文言文-现代文神经机器翻译模型进行封装,部署到线上,完成文言文-现代文神经机器翻译系统的搭建。
步骤1)中获取文言文-现代文双语数据,步骤为:
101)使用搜索引擎得到含有文言文-现代文双语语料资源的网站作为数据来源;
102)对于文言文-现代文双语语料资源网站使用Requests库得到HTML网页;
103)对于得到的HTML网页使用Beautiful Soup库进行解析,得到文本内容;
104)对于文本内容利用正则表达式提取文言文-现代文双语数据。
步骤2)中对双语数据进行数据清洗,包括去除HTML标签方法、过滤双语数据中乱码方法、过滤双语数据中括号内容不对应方法以及过滤双语数据词数过多方法,之后得到预处理后的双语数据。
步骤3)中对权利要求3中经过预处理后的双语数据,使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库,步骤为:
301)将预处理后的双语数据进行分句处理;
302)取N句文言文和M句现代文(N>=1,M>=1)进行匹配,从文言文中取1句(N=1)或依次取1~(N-1)句(N>1)与现代文的1句计算莱文斯坦比,保存比值最高的结果,将对应的文言文和现代文从初始集合中去除;
303)循环执行步骤302),直到文言文句对匹配结束或者现代文句对匹配结束;
304)对于步骤303)中得到的匹配后的双语句对,去除莱文斯坦比得分低于第一阈值或长度比大于第二阈值的句对,完成文言文-现代文双语平行语料库的构建。
步骤4)使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型,步骤为:
401)对文言文-现代文双语平行语料库数据进行分词预处理;
402)对于预处理后的数据提取校验集、训练集和测试集;
403)对于步骤402)中的训练集数据生成BPE词表,并做BPE切分生成Tensor2Tensor输入数据流;
404)对于Tensor2Tensor输入数据流进行模型训练,得到文言文-现代文神经机器翻译模型。
步骤5)将训练完成的文言文-现代文神经机器翻译模型进行封装,部署到线上,完成文言文-现代文神经机器翻译系统的搭建,步骤为:
501)将训练好的文言文-现代文神经机器翻译模型通过Flask部署到服务器端;
502)通过socket建立端口与网页的连接,完成文言文-现代文神经机器翻译系统的搭建。
本发明具有以下有益效果及优点:
1.本发明能够在文言文-现代文双语平行语料库空缺的情况下,通过互联网获取双语数据,并基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库,不仅能够实现性能较好的文言文-现代文神经翻译系统,而且本发明所提供的文言文-现代文双语平行语料库对于其他研究者将提供极大便利。
2.与此同时,本发明所训练的神经机器翻译系统采用了最新的Tensor2Tensor开源系统,系统翻译质量较好,可供相关文言文研究人员使用。
附图说明
图1为本发明获取互联网中双语数据的处理流程图;
图2为本发明基于莱文斯坦比的句对齐方法处理流程图;
图3为本发明训练神经机器翻译系统处理流程图;
图4为本发明线上翻译系统运行流程图;
图5为本发明实施例与其他系统翻译质量对比图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明一种基于莱文斯坦比的文言文-现代文翻译系统构建方法包括以下步骤:
1)通过互联网获取文言文-现代文双语数据;
2)对双语数据进行数据清洗得到预处理后的双语数据;
3)对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库;
4)使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型;
5)将训练完成的文言文-现代文神经机器翻译模型进行封装,部署到线上,完成文言文-现代文神经机器翻译系统的搭建。
如图1所示,步骤1)主要是从互联网中获取文言文-现代文双语数据,具体过程如下:
101)使用搜索引擎得到含有文言文-现代文双语语料资源的网站作为数据来源;
102)对于文言文-现代文双语语料资源网站使用Requests库得到HTML网页;
103)对于得到的HTML网页使用Beautiful Soup库进行解析,得到文本内容;
104)对于文本内容利用正则表达式提取文言文-现代文双语数据。
步骤2)主要是对步骤1)中得到的文言文-现代文双语数据依次使用去除HTML标签方法、过滤双语数据中乱码方法、过滤双语数据中括号内容不对应方法以及过滤双语数据中词数过多方法后得到预处理后的文言文-现代文双语数据。
如图2所示,步骤3)主要是对步骤2)中经过预处理后的双语数据,使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库,具体过程如下:
301)对于步骤2)中得到的预处理后的双语数据进行分句处理;
302)取N句文言文和M句现代文(N>=1,M>=1)进行匹配,从文言文中取1句(N=1)或依次取1~(N-1)句(N>1)与现代文的1句计算莱文斯坦比,保存比值最高的结果,将对应的文言文和现代文从初始集合中去除;
303)循环执行步骤302),直到文言文句对匹配结束或现代文句对匹配结束;
304)对于步骤303)中得到的匹配后的双语句对,去除莱文斯坦比得分低于第一阈值(本实施例采用0.4)或长度比大于第二阈值(本实施例采用1.3比值)的句对,完成文言文-现代文双语平行语料库的构建。
如图3所示,步骤4)主要是对步骤3)中构建好的文言文-现代文双语平行语料库使用基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型,具体过程如下:
401)对于步骤3)中得到的文言文-现代文双语平行语料库进行中文分词预处理;
402)对于步骤401)中预处理后的数据分别提取校验集、训练集和测试集;
403)对于步骤402)中得到的训练集数据生成BPE词表,并做BPE切分,生成Tensor2Tensor输入数据流;
404)对于步骤403)中得到的训练数据进行模型训练,得到文言文-现代文神经机器翻译模型。
如图4所示,步骤5)主要是将步骤4)中训练完成的文言文-现代文神经机器翻译模型进行封装,部署到线上,完成文言文-现代文神经机器翻译系统的搭建,具体过程如下:
501)对于步骤4)中训练好的文言文-现代文神经机器翻译模型通过Flask部署到服务器端;
502)通过socket建立端口与网页的连接,完成文言文-现代文神经机器翻译系统的搭建。
如图5所示,从文言文-现代文双语语料库中随机选取一句文言文“其后人稍稍识之,多延至其家,使为弟子论学”,并使用市场上现有的三种文言文翻译系统和本发明实施例进行翻译,得到了不同的翻译结果,可以明显看出,本发明实施例的翻译结果明显优于其他三种翻译系统。
为了验证方法的有效性,将基于莱文斯坦比的文言文-现代文翻译系统在翻译任务上进行实验。具体来说分为BLEU评价和人工评价,BLEU评价属于客观的算法评价,而人工评价我们则选择了20名具有不同文言文水平的用户针对市场上现有的三种文言文翻译系统进行1000句盲选,从而评价本发明方法在实际情况中的有效性。实验结果如下所示。
表1翻译模型在两个方向的BLEU得分
表2翻译模型和其他模型人工评价对比
实验结果表明基于莱文斯坦比的文言文-现代文翻译系统构建方法能够在文言文-现代文双语平行语料极度稀缺的情况下,构建质量较好的文言文-现代文双语平行语料库,并且通过模型训练可以达到较好的翻译性能(BLEU值越高代表性能越好),同时在实际情况下的人工评测结果中可以看出,本发明所训练的翻译模型有较高的用户认可度(用户盲选占比达59%),说明该模型的翻译质量是比较好的。
本发明提出了一种基于莱文斯坦比的文言文-现代文翻译系统构建方法,该方法能够在文言文-现代文双语平行语料极度稀缺的情况下,通过互联网收集双语数据,利用本发明提出的句对齐算法构建质量较高的文言文-现代文双语平行语料,通过训练后得到性能较好的神经机器翻译系统,填补了国内外文言文-现代文机器翻译系统的空白。
Claims (6)
1.一种基于莱文斯坦比的文言文-现代文翻译系统构建方法,其特征在于包括以下步骤:
1)通过互联网获取文言文-现代文双语数据;
2)对双语数据进行数据清洗得到预处理后的双语数据;
3)对预处理后的双语数据使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库;
4)使用构建好的双语平行语料库训练文言文-现代文神经机器翻译模型;
5)将训练完成的文言文-现代文神经机器翻译模型进行封装,部署到线上,完成文言文-现代文神经机器翻译系统的搭建。
2.按权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法,其特征在于:步骤1)中获取文言文-现代文双语数据,步骤为:
101)使用搜索引擎得到含有文言文-现代文双语语料资源的网站作为数据来源;
102)对于文言文-现代文双语语料资源网站使用Requests库得到HTML网页;
103)对于得到的HTML网页使用Beautiful Soup库进行解析,得到文本内容;
104)对于文本内容利用正则表达式提取文言文-现代文双语数据。
3.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法,其特征在于:步骤2)中对双语数据进行数据清洗,包括去除HTML标签方法、过滤双语数据中乱码方法、过滤双语数据中括号内容不对应方法以及过滤双语数据词数过多方法,之后得到预处理后的双语数据。
4.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法,其特征在于:步骤3)中对权利要求3中经过预处理后的双语数据,使用基于莱文斯坦比的句对齐方法构建文言文-现代文双语平行语料库,步骤为:
301)将预处理后的双语数据进行分句处理;
302)取N句文言文和M句现代文(N>=1,M>=1)进行匹配,从文言文中取1句(N=1)或依次取1~(N-1)句(N>1)与现代文的1句计算莱文斯坦比,保存比值最高的结果,将对应的文言文和现代文从初始集合中去除;
303)循环执行步骤302),直到文言文句对匹配结束或者现代文句对匹配结束;
304)对于步骤303)中得到的匹配后的双语句对,去除莱文斯坦比得分低于第一阈值或长度比大于第二阈值的句对,完成文言文-现代文双语平行语料库的构建。
5.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法,其特征在于:步骤4)使用构建好的双语平行语料库基于Tensor2Tensor开源系统训练文言文-现代文神经机器翻译模型,步骤为:
401)对文言文-现代文双语平行语料库数据进行分词预处理;
402)对于预处理后的数据提取校验集、训练集和测试集;
403)对于步骤402)中的训练集数据生成BPE词表,并做BPE切分生成Tensor2Tensor输入数据流;
404)对于Tensor2Tensor输入数据流进行模型训练,得到文言文-现代文神经机器翻译模型。
6.按照权利要求1所述的基于莱文斯坦比的文言文-现代文翻译系统构建方法,其特征在于:步骤5)将训练完成的文言文-现代文神经机器翻译模型进行封装,部署到线上,完成文言文-现代文神经机器翻译系统的搭建,步骤为:
501)将训练好的文言文-现代文神经机器翻译模型通过Flask部署到服务器端;
502)通过socket建立端口与网页的连接,完成文言文-现代文神经机器翻译系统的搭建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110407920.5A CN113033220A (zh) | 2021-04-15 | 2021-04-15 | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110407920.5A CN113033220A (zh) | 2021-04-15 | 2021-04-15 | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033220A true CN113033220A (zh) | 2021-06-25 |
Family
ID=76457770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110407920.5A Withdrawn CN113033220A (zh) | 2021-04-15 | 2021-04-15 | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033220A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN103885939A (zh) * | 2012-12-19 | 2014-06-25 | 新疆信息产业有限责任公司 | 维吾尔文-汉文双向翻译记忆系统的构造方法 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN110147558A (zh) * | 2019-05-28 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN111191468A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 术语替换方法及装置 |
CN112257462A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于神经机器翻译技术的超文本标记语言翻译方法 |
-
2021
- 2021-04-15 CN CN202110407920.5A patent/CN113033220A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN103885939A (zh) * | 2012-12-19 | 2014-06-25 | 新疆信息产业有限责任公司 | 维吾尔文-汉文双向翻译记忆系统的构造方法 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN110147558A (zh) * | 2019-05-28 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN111191468A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 术语替换方法及装置 |
CN112257462A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于神经机器翻译技术的超文本标记语言翻译方法 |
Non-Patent Citations (2)
Title |
---|
塔依尔江・苏拉依曼;尼加提・纳吉米;帕肉克・司地克;吐尔根・依布拉音;艾山・吾买尔;: "维吾尔文-汉文计算机辅助翻译系统中双向翻译记忆子系统的设计与实现", 新疆大学学报(自然科学版), no. 03, pages 91 - 96 * |
张振;苏依拉;牛向华;高芬;赵亚平;仁庆道尔吉;: "域信息共享的方法在蒙汉机器翻译中的应用", 计算机工程与应用, no. 10, pages 106 - 114 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408642B (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN107220243A (zh) | 一种数据库交互式翻译系统 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN108363704A (zh) | 一种基于统计短语表的神经网络机器翻译语料扩展方法 | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
Othman et al. | English-asl gloss parallel corpus 2012: Aslg-pc12 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN116821377A (zh) | 基于知识图谱和大模型的小学语文自动评测系统 | |
CN112101047A (zh) | 一种面向小语种包含精确术语匹配的机器翻译方法 | |
CN103336803A (zh) | 一种嵌名春联的计算机生成方法 | |
CN111191023B (zh) | 一种话题标签自动生成方法、装置及系统 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN115034238B (zh) | 融入源语言词级信息的汉越低资源跨语言摘要方法 | |
CN113033220A (zh) | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN114722829A (zh) | 一种基于语言模型的修辞古诗自动生成方法 | |
CN114139561A (zh) | 一种多领域神经机器翻译性能提升方法 | |
CN113627152B (zh) | 一种基于自监督学习的无监督机器阅读理解训练方法 | |
CN117236319B (zh) | 一种基于Transformer生成模型的真实场景中文文本纠错方法 | |
CN116701961B (zh) | 一种对文言文机器翻译结果自动评估的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210625 |