CN113627171A - 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型 - Google Patents

一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型 Download PDF

Info

Publication number
CN113627171A
CN113627171A CN202110792724.4A CN202110792724A CN113627171A CN 113627171 A CN113627171 A CN 113627171A CN 202110792724 A CN202110792724 A CN 202110792724A CN 113627171 A CN113627171 A CN 113627171A
Authority
CN
China
Prior art keywords
language
cross
theme
mongolian
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110792724.4A
Other languages
English (en)
Inventor
林民
王玉荣
郭振东
王宇晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Branch Of National Computer Network And Information Security Management Center
Inner Mongolia Normal University
Original Assignee
Inner Mongolia Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Normal University filed Critical Inner Mongolia Normal University
Priority to CN202110792724.4A priority Critical patent/CN113627171A/zh
Publication of CN113627171A publication Critical patent/CN113627171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:S1.建立汉蒙跨语言BERT词嵌入的多策略联合学习模型M‑BERT+Bi‑GRU+CRF;S2.建立融合BERT词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言BERT‑ETM;S3.建立基于DRNN的跨语言层次主题嵌入及对齐模型,简称跨语言DRNN‑HETM;S4.建立跨语言BERT词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典。本发明融合BERT动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐联合模型和相关学习算法,能高质量地挖掘汉蒙多语言大数据中隐含的知识主题、主题之间细粒度对齐关系,解决汉蒙文本大数据主题分析面临的语言跨度和领域跨度问题,以及蒙古文训练语料缺乏问题。

Description

一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对 齐模型
技术领域
本发明属于语言处理技术领域,具体涉及一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型。
背景技术
随着大数据技术的兴起,不同语言、不同领域的知识共享与联系日益紧密,有效地提取和分析不同语言表示的领域知识主题信息已成为文本挖掘的研究热点。文本主题模型通常以无监督学习的方式,对某领域文档集合的潜在语义结构进行自动化分析,得到包含主题信息的文档表示,在自然语言处理及情报分析、舆情监测等相关应用领域中发挥着重要作用,成为文本挖掘基础技术之一。
现有的主题模型及其扩展模型在大数据环境下,会面临知识表示的语言跨度和领域跨度问题。语言跨度问题是指由语言之间形态、语法、句法以及表述结构的多样性造成的同一主题下的词汇在不同语言体系中具有不同的表达方式,如同类商品可以有不同的语言词汇表示或不存在某种语言的对应词汇;领域跨度问题是由于训练数据与测试数据采集的领域特征或领域总体分布不一致,造成挖掘出来的不同领域知识主题可解释性差,这是由同一词汇语义存在领域差异引起的,如“bank”一词在金融领域中代表“银行”,而在地理领域中代表“河堤”语义。
为解决上述问题,本发明针对语言跨度大的汉语、蒙古语领域文档,尝试公开一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,改善汉蒙大数据领域知识挖掘的主题对齐效果,可为跨语言热点主题发现、文档主题分类等文本挖掘任务以及基于知识主题对齐的跨语言信息检索与推荐、跨语言文本相似度检测、情感分析、自动问答中跨语言知识表示、机器翻译中双语词典、对齐语料构建等广泛NLP领域任务提供支持。
发明内容
本发明的目的在于提供一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:
S1.建立汉蒙跨语言BERT词嵌入的多策略联合学习模型 M-BERT+Bi-GRU+CRF;
S2.建立融合BERT词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言BERT-ETM;
S3.建立基于DRNN的跨语言层次主题嵌入及对齐模型,简称跨语言 DRNN-HETM;
S4.建立跨语言BERT词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
S5.建立主题表示及跨语言主题对齐质量评价的量化指标。
优选的,所述S1中的汉蒙共享语义空间的跨语言BERT领域词向量表示模型及双语词汇语义对齐词典,利用预训练的高资源汉语BERT词向量优化低资源蒙古语BERT词向量表示,并引导汉蒙单语BERT词嵌入向同一语义空间有效融合,获得汉蒙双语单词共享语义空间的跨语言领域词嵌入及语义对齐词典,并建立汉蒙对齐句对语料数据集,解决汉、蒙语言资源数据不平衡的跨语言词嵌入学习问题。
优选的,所述S2中的基于BERT的汉蒙跨语言主题嵌入表示及细粒度对齐神经网络模型,用于表示汉蒙文档隐含的单一层次主题比例分布、主题对应的单词分布;在获得汉蒙跨语言BERT词向量基础上,将主题表示为跨语言BERT词向量空间上的跨语言主题向量,表示双语主题单词分布间跨语言混合映射关系;表示存在跨语言多词一义、一词跨领域多义的领域主题语义,支持语义一致性、可解释性好的汉蒙跨语言主题表示及主题细粒度对齐。
优选的,所述S3中基于BERT的汉蒙跨语言层次化主题嵌入及对齐神经网络模型用于将一般性语义的主题分配给根节点,将更具体语义的主题分配给叶节点,从而将汉蒙文档表示为细粒度的层次化主题结构,实现语义一致性好、细粒度的汉蒙跨语言主题层次关系和对齐关系表示。
优选的,所述S4中的基于BERT的汉蒙跨语言主题嵌入表示及主题对齐联合深度学习算法用于针对汉蒙语的可比或非可比文档,学习跨语言主题嵌入表示及主题间细粒度对齐关系,解决跨语言主题存在的跨语言多词一义、同一词跨领域多义的表示及对齐问题;还用于鲁棒地处理文档停用词和稀有词,从而使主题表示在一致性、可解释性方面比传统主题模型更好,使主题实现细粒度语义对齐。
与现有技术相比,本发明的有益效果是:
1、本发明融合BERT动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐联合模型和相关学习算法,能高质量地挖掘汉蒙多语言大数据中隐含的知识主题、主题之间细粒度对齐关系,解决汉蒙文本大数据主题分析面临的语言跨度和领域跨度问题,以及蒙古文训练语料缺乏问题。
2、本发明针对民族地区汉蒙多语言大数据情境下主题分析面临的语言跨度和领域跨度、蒙古文训练语料数据缺乏等问题,提出的融合BERT动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐模型,能比传统主题模型在表达跨语言多词一义、一词跨领域多义等方面性能更优,在主题推断算法方面比现有算法更适合处理大数据,从而能应用在汉蒙文本大数据分析任务上,获得高质量、细粒度的汉蒙跨语言主题信息。
附图说明
图1为本发明的流程框图;
图2为本发明的跨语言BERT词嵌入多策略联合学习网络结构示意图;
图3为本发明的汉蒙跨语言单层次主题嵌入表示及主题对齐网络结构示意图;
图4为本发明的汉蒙跨语言多层次主题嵌入及对齐网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-图4,本发明提供一种技术方案:一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:
S1.建立汉蒙跨语言BERT词嵌入的多策略联合学习模型 M-BERT+Bi-GRU+CRF;
S2.建立融合BERT词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言BERT-ETM;
S3.建立基于DRNN(doubly-recurrent networks)的跨语言层次主题嵌入(hierarchical embedding topic model)及对齐模型,简称跨语言 DRNN-HETM;
S4.建立跨语言BERT词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
S5.建立主题表示及跨语言主题对齐质量评价的量化指标。
本实施例中,优选的,所述S1中的汉蒙共享语义空间的跨语言BERT 领域词向量表示模型及双语词汇语义对齐词典,利用预训练的高资源汉语 BERT词向量优化低资源蒙古语BERT词向量表示,并引导汉蒙单语BERT词嵌入向同一语义空间有效融合,获得汉蒙双语单词共享语义空间的跨语言领域词嵌入及语义对齐词典,并建立汉蒙对齐句对语料数据集,解决汉、蒙语言资源数据不平衡的跨语言词嵌入学习问题。
本实施例中,优选的,所述S2中的基于BERT的汉蒙跨语言主题嵌入表示及细粒度对齐神经网络模型,用于表示汉蒙文档隐含的单一层次主题比例分布、主题对应的单词分布;在获得汉蒙跨语言BERT词向量基础上,将主题表示为跨语言BERT词向量空间上的跨语言主题向量,表示双语主题单词分布间跨语言混合映射关系;表示存在跨语言多词一义、一词跨领域多义的领域主题语义,支持语义一致性、可解释性好的汉蒙跨语言主题表示及主题细粒度对齐。
本实施例中,优选的,所述S3中基于BERT的汉蒙跨语言层次化主题嵌入及对齐神经网络模型用于将一般性语义的主题分配给根节点,将更具体语义的主题分配给叶节点,从而将汉蒙文档表示为细粒度的层次化主题结构,实现语义一致性好、细粒度的汉蒙跨语言主题层次关系和对齐关系表示。
本实施例中,优选的,所述S4中的基于BERT的汉蒙跨语言主题嵌入表示及主题对齐联合深度学习算法用于针对汉蒙语的可比或非可比文档,学习跨语言主题嵌入表示及主题间细粒度对齐关系,解决跨语言主题存在的跨语言多词一义、同一词跨领域多义的表示及对齐问题;还用于鲁棒地处理文档停用词和稀有词,从而使主题表示在一致性、可解释性方面比传统主题模型更好,使主题实现细粒度语义对齐。
实施例2
请参阅图1-图4,本发明提供一种技术方案:一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,包括以下步骤:
S1.建立汉蒙跨语言BERT词嵌入的多策略联合学习模型 M-BERT+Bi-GRU+CRF;
S2.建立融合BERT词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言BERT-ETM;
S3.建立基于DRNN(doubly-recurrent networks)的跨语言层次主题嵌入(hierarchical embedding topic model)及对齐模型,简称跨语言 DRNN-HETM;
S4.建立跨语言BERT词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
S5.建立主题表示及跨语言主题对齐质量评价的量化指标。
本实施例中,优选的,所述S1中的建立汉蒙跨语言BERT词嵌入的多策略联合学习模型M-BERT+Bi-GRU+CRF,采用跨语言联合编码的迁移学习策略,使用小规模蒙汉双语平行句对语料,对预训练的多语言M-BERT子词(字) 向量进行二次细调(fine-turning)训练,优化蒙汉跨语言BERT子词(字) 向量表示,构建蒙汉词向量共享语义空间;对蒙汉双语平行句对进行领域分词,按分词结果给每个蒙古文BERT子词单元或中文BERT字单元加上领域词位置标签,此外,还为蒙汉双语句对加平行句对的二分类标签。
本实施例中,优选的,所述S1中的所述S1中的汉蒙跨语言BERT词嵌入的多策略联合学习模型M-BERT+Bi-GRU+CRF,在BERT后面附加一个单层的双向门循环单元Bi-GRU层,利用平行句对相似性联合优化蒙汉语义空间对齐映射,以捕获长距离依赖关系,并基于CRF领域分词结果计算BERT领域词向量,构建双语对齐词典。
本实施例中,优选的,所述S2中的融合BERT词嵌入的汉蒙跨语言主题嵌入表示及对齐模型(简称跨语言BERT-ETM),采用单语文档主题比例分布推断网络和主题对应的单语词分布推断网络,以及信息最大化变分推断 (InfoVAE)深度学习算法,获得汉蒙单语文档的主题比例分布、主题对应跨语言词分布;将主题表示为跨语言BERT词向量空间上的跨语言主题向量,可在共享语义空间中,计算主题之间、主题与单词间的语义关联度,能有效表示存在跨语言多词一义、一词跨领域多义的主题语义,从而能支持语义一致性、可解释性好的蒙汉跨语言主题表示及主题细粒度对齐。。
本实施例中,优选的,所述S3中的基于DRNN(doubly-recurrent networks)的跨语言层次主题嵌入(hierarchical embedding topic model) 及对齐模型(跨语言DRNN-HETM),采用编码器生成文档主题的路径分布和层次分布,其中,DRNN可生成主题路径分布,RNN可生成主题层次分布,将路径分布和层次分布相结合后,可得到文档的主题分布。解码器用于生成主题对应词分布,同样采用DRNN结构获得主题向量,再结合BERT预训练词向量,获得主题对应词分布。
本实施例中,优选的,所述S3中的基于DRNN(doubly-recurrent networks)的跨语言层次主题嵌入(hierarchical embedding topic model) 及对齐模型(跨语言DRNN-HETM),采用三个指标作为目标函数:文档主题对应词分布的负对数似然函数值,文档主题分布的KL散度,用于降低主题冗余度的主题树中父节点和子节点的正则化项。最终,模型利用叶节点表示更具体的主题,用于归纳出潜在层次关系的主题分布,完成层次关系主题的细粒度分析。
本实施例中,优选的,所述S4中的建立一个跨语言BERT词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典,蒙汉语句对规模达到16万对以上,领域双语对齐词汇达到5万词以上。
本实施例中,优选的,所述S5中的建立主题表示及跨语言主题对齐质量评价的量化指标,使用主题一致性和主题多样性两个方面的综合度量指标衡量单语主题表示质量;使用交叉集困惑度(CCP)来衡量双语共享主题的质量;使用双语对齐相似度(BAS)评价跨语言主题对齐效果。
本发明的原理及优点:
本发明融合BERT动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐联合模型和相关学习算法,能高质量地挖掘汉蒙多语言大数据中隐含的知识主题、主题之间细粒度对齐关系,解决汉蒙文本大数据主题分析面临的语言跨度和领域跨度问题,以及蒙古文训练语料缺乏问题;
针对民族地区汉蒙多语言大数据情境下主题分析面临的语言跨度和领域跨度、蒙古文训练语料数据缺乏等问题,提出的融合BERT动态词嵌入的汉蒙跨语言主题嵌入表示及语义对齐模型,能比传统主题模型在表达跨语言多词一义、一词跨领域多义等方面性能更优,在主题推断算法方面比现有算法更适合处理大数据,从而能应用在汉蒙文本大数据分析任务上,获得高质量、细粒度的汉蒙跨语言主题信息。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,其特征在于:包括以下步骤:
S1.建立汉蒙跨语言BERT词嵌入的多策略联合学习模型M-BERT+Bi-GRU+CRF;
S2.建立融合BERT词嵌入的汉蒙跨语言主题嵌入表示及对齐模型,简称跨语言BERT-ETM;
S3.建立基于DRNN的跨语言层次主题嵌入及对齐模型,简称跨语言DRNN-HETM;
S4.建立跨语言BERT词向量训练和评测的蒙汉对齐句对语料数据集及蒙汉双语对齐词典;
S5.建立主题表示及跨语言主题对齐质量评价的量化指标。
2.根据权利要求1所述的一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,其特征在于:所述S1中的汉蒙共享语义空间的跨语言BERT领域词向量表示模型及双语词汇语义对齐词典,利用预训练的高资源汉语BERT词向量优化低资源蒙古语BERT词向量表示,并引导汉蒙单语BERT词嵌入向同一语义空间有效融合,获得汉蒙双语单词共享语义空间的跨语言领域词嵌入及语义对齐词典,并建立汉蒙对齐句对语料数据集,解决汉、蒙语言资源数据不平衡的跨语言词嵌入学习问题。
3.根据权利要求2所述的一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,其特征在于:所述S2中的基于BERT的汉蒙跨语言主题嵌入表示及细粒度对齐神经网络模型,用于表示汉蒙文档隐含的单一层次主题比例分布、主题对应的单词分布;在获得汉蒙跨语言BERT词向量基础上,将主题表示为跨语言BERT词向量空间上的跨语言主题向量,表示双语主题单词分布间跨语言混合映射关系;表示存在跨语言多词一义、一词跨领域多义的领域主题语义,支持语义一致性、可解释性好的汉蒙跨语言主题表示及主题细粒度对齐。
4.根据权利要求3所述的一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,其特征在于:所述S3中基于BERT的汉蒙跨语言层次化主题嵌入及对齐神经网络模型用于将一般性语义的主题分配给根节点,将更具体语义的主题分配给叶节点,从而将汉蒙文档表示为细粒度的层次化主题结构,实现语义一致性好、细粒度的汉蒙跨语言主题层次关系和对齐关系表示。
5.根据权利要求4所述的一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型,其特征在于:所述S4中的基于BERT的汉蒙跨语言主题嵌入表示及主题对齐联合深度学习算法用于针对汉蒙语的可比或非可比文档,学习跨语言主题嵌入表示及主题间细粒度对齐关系,解决跨语言主题存在的跨语言多词一义、同一词跨领域多义的表示及对齐问题;还用于鲁棒地处理文档停用词和稀有词,从而使主题表示在一致性、可解释性方面比传统主题模型更好,使主题实现细粒度语义对齐。
CN202110792724.4A 2021-07-14 2021-07-14 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型 Pending CN113627171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110792724.4A CN113627171A (zh) 2021-07-14 2021-07-14 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110792724.4A CN113627171A (zh) 2021-07-14 2021-07-14 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型

Publications (1)

Publication Number Publication Date
CN113627171A true CN113627171A (zh) 2021-11-09

Family

ID=78379679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110792724.4A Pending CN113627171A (zh) 2021-07-14 2021-07-14 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型

Country Status (1)

Country Link
CN (1) CN113627171A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN110717345A (zh) * 2019-10-15 2020-01-21 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112347796A (zh) * 2020-11-10 2021-02-09 内蒙古工业大学 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN112395891A (zh) * 2020-12-03 2021-02-23 内蒙古工业大学 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法
CN112580373A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN110717345A (zh) * 2019-10-15 2020-01-21 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112347796A (zh) * 2020-11-10 2021-02-09 内蒙古工业大学 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN112395891A (zh) * 2020-12-03 2021-02-23 内蒙古工业大学 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法
CN112580373A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
塔娜等: "面向跨语言信息检索的蒙汉语义词典的构建", 内蒙古师范大学学报(自然科学汉文版) *
曹宜超等: "基于单语语料和词向量对齐的蒙汉神经机器翻译研究", 中文信息学报 *

Similar Documents

Publication Publication Date Title
Zhou et al. Uncertainty-aware curriculum learning for neural machine translation
Nguyen et al. Hierarchical embeddings for hypernymy detection and directionality
Ataman et al. Linguistically Motivated Vocabulary Reduction for Neural Machine Translation from Turkish to English.
Zou et al. A lexicon-based supervised attention model for neural sentiment analysis
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
Evang et al. Elephant: Sequence labeling for word and sentence segmentation
Wang et al. Multi-domain named entity recognition with genre-aware and agnostic inference
CN112766359B (zh) 一种面向食品安全舆情的字词双维度微博谣言识别方法
Naous et al. Empathy-driven Arabic conversational chatbot
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Qiu et al. Extracting causal relations from emergency cases based on conditional random fields
Sikos et al. Using embeddings to compare framenet frames across languages
CN114064487A (zh) 一种代码缺陷检测方法
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
Pu et al. Incorporating distributions of discourse structure for long document abstractive summarization
Raju et al. Effective preprocessing based neural machine translation for english to telugu cross-language information retrieval
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
Bacon et al. Probing sentence embeddings for structure-dependent tense
Mi et al. Toward better loanword identification in Uyghur using cross-lingual word embeddings
Liu et al. Maskeval: Weighted mlm-based evaluation for text summarization and simplification
CN113627171A (zh) 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN111597810A (zh) 一种半监督解耦的命名实体识别方法
Pu et al. SciNews: From Scholarly Complexities to Public Narratives--A Dataset for Scientific News Report Generation
CN115129818A (zh) 基于知识驱动多分类的情绪原因对提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yang Xiaodong

Inventor after: Liu Jiang

Inventor after: Su Lei

Inventor after: Lin Min

Inventor after: Wang Yurong

Inventor after: Guo Zhendong

Inventor after: Wang Yuhan

Inventor before: Lin Min

Inventor before: Wang Yurong

Inventor before: Guo Zhendong

Inventor before: Wang Yuhan

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220428

Address after: 010010 No. 73, Hulun South Road, Saihan District, Hohhot City, Inner Mongolia Autonomous Region

Applicant after: Inner Mongolia Branch of national computer network and information security management center

Applicant after: Inner Mongolia Normal University

Address before: 010010 No. 81, Zhaowuda Road, Saihan District, Hohhot City, Inner Mongolia Autonomous Region

Applicant before: INNER MONGOLIA NORMAL University

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211109