CN113343672A - 一种基于语料合并的无监督双语词典构建方法 - Google Patents

一种基于语料合并的无监督双语词典构建方法 Download PDF

Info

Publication number
CN113343672A
CN113343672A CN202110685974.8A CN202110685974A CN113343672A CN 113343672 A CN113343672 A CN 113343672A CN 202110685974 A CN202110685974 A CN 202110685974A CN 113343672 A CN113343672 A CN 113343672A
Authority
CN
China
Prior art keywords
corpus
dictionary
translation
word vectors
monolingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110685974.8A
Other languages
English (en)
Other versions
CN113343672B (zh
Inventor
曹海龙
赵铁军
朱聪慧
韩梦凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110685974.8A priority Critical patent/CN113343672B/zh
Publication of CN113343672A publication Critical patent/CN113343672A/zh
Application granted granted Critical
Publication of CN113343672B publication Critical patent/CN113343672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语料合并的无监督双语词典构建方法,属于无监督双语词典构建领域。本方法步骤为:一、根据单语语料训练得到对应的单语词向量;二、根据单语词向量得到映射矩阵W;三、根据映射矩阵W抽取替换单词的词典;四、根据替换词典替换原来单语语料并且合并单语语料为混合语料;五、训练混合语料得到混合词向量;六、分离混合词向量得到新的源语言与目标语言词向量;七、基于新的词向量重新计算映射矩阵并据此构建词典。本发明应用于低资源语言无监督双语词典构建领域。本发明解决了低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题,以及提高基于无监督双语构建的词典的性能的问题。

Description

一种基于语料合并的无监督双语词典构建方法
技术领域
本发明涉及一种基于语料合并的无监督双语词典构建方法,属于无监督双语词典构建领域。
背景技术
双语词典构建是利用给定的文本语料构建对应语言的双语词典。双语词典的构建不仅仅是机器翻译的基础,在其他自然语言任务中也有应用,比如跨语言信息发现、跨语言命名实体识别以及跨语言信息安全监测等等。常用的双语词典构建方法是映射方法,即将不同语言的词向量(训练对应语言的文本语料获得的)映射到同一个向量空间中,在这个空间中不同语言中含义相同的词尽可能靠近,进而可以进行双语词典的构建。
目前对双语词典构建的方法有很多,其中按照监督程度进行划分,双语词典构建方法可以分为三种:第一种方法是有监督双语词典构建方法,利用平行语料比如人工标注的词典作为监督方式进行映射矩阵的学习,之后利用学习到的映射矩阵将不同语言的词向量映射到同一个空间进行双语词典构建;第二种方法是半监督双语词典构建方法,半监督的方法是利用种子词典或者启发式词典代替原始人工标注的词典进行映射矩阵的学习;第三种是无监督双语词典构建方法,无监督的方法不需要任何双语信息进行监督,直接利用已有的单语语料或者单词词向量进行双语词典的构建。
有监督双语词典构建方法在进行训练的过程中需要大规模高质量的平行语料作为监督方式进行训练,然而对于低资源语言来说大规模高质量的词典是难以获取的。半监督方法双语词典构建方法利用种子词典降低了监督程度,虽然降低了对大规模词典的需求,但是由于种子词典的建立需要同源词或者共享单词对语言种类却进行了限制。无监督双语词典构建方法不需要任何程度的监督方式,只需要利用单语语料或者单语词向量就能够进行双语词典的抽取。
平行语料库的难以获取一方面是由于构建平行语料库需要耗费大量的人力物力,另一方面是许多质量较好的平行语料库并不免费开放使用。此外,对于低资源语言来说,少有高质量的平行语料库或者没有对应的平行语料库,但是相关的低资源语言的单语语料却能够在互联网上大量获得。基于以上原因,只需要利用单语语料的无监督双语词典构建方法逐渐成为研究热点。
目前无监督双语词典的构建方法主要有两种:
(1)是利用对抗学习的方法进行无监督双语词典构建,利用判别器来区分映射的源向量和目标向量,训练生成器(映射矩阵)来欺骗判别器。
(2)是根据词向量结构相似性等方法进行初始词典的构建,之后迭代自学习方法学习映射。
发明内容
本发明的目的是为了解决低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题,以及提高基于无监督双语构建的词典的性能的问题,而提出的一种基于语料合并的无监督双语词典构建方法
一种基于语料合并的无监督双语词典构建方法,基于语料合并的无监督双语词典构建方法包括以下步骤:
步骤一、根据源语言单语语料和目标语言单语语料训练得到各自对应的词向量;
步骤二、计算步骤一得到的词向量对应的两个自相似度矩阵,利用自相似度矩构建初始化词典D0,并根据初始化词典D0迭代自学习方法得到映射矩阵W;
步骤三、根据步骤二得到的映射矩阵W,将源语言词向量映射到目标语言词向量空间中,并据此抽取词典;
步骤四、根据步骤三得到的词典替换原来单语语料的单词并混合两个单语语料得到混合语料;
步骤五、利用词向量训练方法训练步骤四得到的混合语料并获取混合语料的词向量;
步骤六、将步骤五中得到混合词向量分开得到新的源语言和目标语言词向量;
步骤七、将步骤六得到的新的源语言和目标语言词向量作为输入,重新进行步骤二的过程得到新的映射矩阵W1,利用W1将不同语言的词向量映射到同一个向量空间,在该向量空间中可以根据相似度构建词典。
进一步的,步骤三中,利用步骤二得到的映射矩阵进行词典抽取,具体过程为:
步骤三一、利用步骤二得到的映射矩阵W,将源语言词向量映射到目标语言向量空间中,在目标语言向量空间中,寻找与源语言单词最近的目标单词作为源语言单词的翻译,将源语言单词和该源语言单词的翻译形成翻译对;
步骤三二、将步骤三一得到的翻译对,按照翻译对两个单词之间相似度的大小,从大到小进行排序,抽取排序后翻译对的前1500个翻译对作为替换词典。
进一步的,步骤四中,利用步骤三抽取得到的词典对原来的单语语料进行单词替换与语料合并,具体过程为:
步骤四一、将步骤三二得到的翻译对联结成一个整体,即翻译联结对,具体的,将翻译对中的源语言单词和目标语言单词联结成一个整体得到对应的翻译联结对,将步骤三二中的1500个翻译对联结成对应的1500个翻译联结对;
步骤四二、利用步骤三得到的词典和步骤四一得到的翻译联结对,对原始单语语料进行单词替换,并且将替换完的单语语料进行合并。
进一步的,步骤六中,将步骤五得到的源语言与目标语言词向量分离开,具体过程为:
步骤六一、将步骤五获得的源语言和目标语言词向量分开,同时将联结翻译对的单词分开为对应的源语言单词词向量和目标语言单词词向量。
本发明的有以下优点:
本发明相关研究不仅对机器翻译具有帮助,对于其他的跨语言自然语言处理任务尤其是有关低资源语言的研究任务具有促进作用,例如跨语言信息发现、跨语言命名实体识别以及跨语言信息安全监测等等。为了提高构建的双语词典质量,本发明利用替换单词与合并单语语料提升词向量的质量,进而可以提升无监督方法构建的词典的质量。为了解决低资源语言平行语料匮乏的问题,本发明提出了一种基于合并语料的无监督双语词典构建方法。本发明提出的方法实现简单,只利用单语语料就可以进行双语词典的构建,减轻了对平行语料库的依赖,同时利用单词替换和合并语料的方法提升了构建的双语词典的质量。总的来说,该方法提出了一种基于合并语料的无监督双语词典构建方法。
在本发明提出了一种基于合并语料的无监督双语词典构建方法。通过分析无监督双语词典构建方法与词向量训练方法的特性,利用合并语料的方法提升不同语言词向量的质量,进而提升构建词典的质量。本发明基于现有的无监督双语词典构建方法等,利用单词替换与合并语料的方法提升构建词典的性能。
本发明在抽取替换语料的词典中,对抽取词典的翻译对之间的相似度值按照从大到小排序后,抽取靠前的翻译对作为替换单语语料中单词的依据。为了提高替换语料单词词典的准确度,考虑了相似度值越大的翻译对,一般翻译的准确度越高的信息。
本发明是利用替换单词与合并语料的方法来提升不同语言词向量之间的相似度,利用抽取的词典翻译对替换原来单语语料中的单词,之后合并替换单词后的单语语料。考虑到当前词向量训练方法大都需要考虑到上下文信息,训练混合语料不仅能够使词典翻译对中的单词词向量一致,还能够使对应翻译对中单词的上下文单词的词向量更加接近,进而能够提升不同语言中词向量的相似度。
本发明是利用合并单语语料的方法来进行无监督双语词典构建,本发明的方法充分利用了词向量训练方法中对上下文信息依赖的信息,以及基于当前无监督词典构建方法结果中翻译对的相似度值越大,翻译对的越准确的信息,对单语语料中的单词进行替换同时合并替换单词后的单语语料。对训练词向量的方法和无监督双语词典构建方法的特性进行了充分的利用。
本发明主要是针对低资源语言平行语料匮乏的问题提出的方法,考虑了词向量训练方法和当前无监督双语词典构建方法的特性,对于单语语料进行了充分的利用。经过实验,发现相较于当前无监督双语词典构建方法,该方法在多种语言上构建的词典的准确度都有提升。
附图说明
图1为本发明的一种基于语料合并的无监督双语词典构建方法的主要过程流程图;
图2为步骤四提出的替换单词并合并语料的示例说明图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种合并语料的无监督双语词典构建方法的实施方式,具体是按照以下步骤制备的:
步骤一、根据源语言单语语料和目标语言单语语料训练得到各自对应的词向量;
步骤二、计算步骤一得到的词向量对应的两个自相似度矩阵,利用自相似度矩构建初始化词典D0,并根据初始化词典D0迭代自学习方法得到映射矩阵W
步骤三、根据步骤二得到的映射矩阵W,将源语言词向量映射到目标语言词向量空间中,并据此抽取词典;
步骤四、根据步骤三得到的词典替换原来单语语料的单词并混合两个单语语料得到混合语料;
步骤五、利用词向量训练方法训练步骤四得到的混合语料并获取混合语料的词向量;
步骤六、将步骤五中得到混合词向量分开得到新的源语言和目标语言词向量;
步骤七、将步骤六得到的新的源语言和目标语言词向量作为输入,重新进行步骤二的过程得到新的映射矩阵W1。利用W1可以将不同语言的词向量映射到同一个向量空间,在该向量空间中可以根据相似度构建词典。
具体的,本发明不仅对机器翻译具有帮助,对于其他的跨语言自然语言处理任务尤其是有关低资源语言的研究任务具有促进作用,例如跨语言信息发现、跨语言命名实体识别以及跨语言信息安全监测等等。为了提高构建的双语词典质量,本实施方式利用替换单词与合并单语语料提升词向量的质量,进而可以提升无监督方法构建的词典的质量。为了解决低资源语言平行语料匮乏的问题,本实施方式提出了一种基于合并语料的无监督双语词典构建方法。本实施方式提出的方法实现简单,只利用单语语料就可以进行双语词典的构建,减轻了对平行语料库的依赖,同时利用单词替换和合并语料的方法提升了构建的双语词典的质量。总的来说,本方法提出了一种基于合并语料的无监督双语词典构建方法。
在本实施方式提出了一种基于合并语料的无监督双语词典构建方法。通过分析无监督双语词典构建方法与词向量训练方法的特性,利用合并语料的方法提升不同语言词向量的质量,进而提升构建词典的质量。本实施方式基于现有的无监督双语词典构建方法,利用单词替换与合并语料的方法提升构建词典的性能。
本实施方式在抽取替换语料的词典中,对抽取词典的翻译对之间的相似度值按照从大到小排序后,抽取靠前的翻译对作为替换单语语料中单词的依据。为了提高替换语料单词词典的准确度,考虑了相似度值越大的翻译对,一般翻译的准确度越高的信息。
本实施方式是利用替换单词与合并语料的方法来提升不同语言词向量之间的相似度,利用抽取的词典翻译对替换原来单语语料中的单词,之后合并替换单词后的单语语料。考虑到当前词向量训练方法大都需要考虑到上下文信息,训练混合语料不仅能够使词典翻译对中的单词词向量一致,还能够使对应翻译对中单词的上下文单词的词向量更加接近,进而能够提升不同语言中词向量的相似度。
本实施方式是利用合并单语语料的方法来进行无监督双语词典构建,本实施方式的方法充分利用了词向量训练方法中对上下文信息依赖的信息,以及基于当前无监督词典构建方法结果中翻译对的相似度值越大,翻译对的越准确的信息,对单语语料中的单词进行替换同时合并替换单词后的单语语料。对训练词向量的方法和无监督双语词典构建方法的特性进行了充分的利用。
本实施方式主要是针对低资源语言平行语料匮乏的问题提出的方法,考虑了词向量训练方法和当前无监督双语词典构建方法的特性,对于单语语料进行了充分的利用。经过实验,发现相较于当前无监督双语词典构建方法,该方法在多种语言上构建的词典的准确度都有提升。
进一步的,利用步骤二中得到的映射矩阵W可以将源语言词向量空间到目标语言词向量空间中,从而可以在目标向量空间进行抽取词典;但是在抽取词典的时候,抽取得到的词典准确度不高;然而对于本发明,对翻译对的相似度值进行排序,抽取靠前的词典,因此:
步骤三一、利用步骤二得到的映射矩阵W,将源语言词向量映射到目标语言向量空间中,在这个空间中寻找与源语言单词最近的目标单词作为该源语言单词的翻译。
步骤三二、将步骤三一得到的翻译对,按照翻译对两个单词之间相似度的大小,从大到小进行排序,抽取排序后翻译对的前1500个翻译对作为替换词典;
进一步的,参照图2所示(其中,词典是由步骤三获得的),步骤四利用步骤三抽取得到的词典对原来的单语语料进行单词替换与语料合并:
步骤四一、将步骤三二得到的翻译对联结成一个整体,即翻译联结对,具体的,将翻译对中的源语言单词和目标语言单词联结成一个整体得到对应的翻译联结对,将步骤三二中的1500个翻译对联结成对应的1500个翻译联结对,例如:apple苹果是一对翻译对,联结成一个整体apple***苹果。将词典中的所有翻译对都联结成为一对翻译联结对。
步骤四二、利用步骤三得到的词典和步骤四一得到的翻译联结对,对原始单语语料进行单词替换,并且将替换完的单语语料进行合并,例如:
源语言语料:
我喜欢吃苹果,她喜欢吃香蕉。
目标语言语料:
Here is an apple,do you want to eat it?
词典:
apple苹果
词典对应的翻译联结对:
apple***苹果
替换单词并合并单语语料得到的混合语料:
我喜欢吃apple***苹果,她喜欢吃香蕉。
Here is an apple***苹果,do you want to eat it?
通过以上方式对单语语料的单词进行翻译联结对替换和语料合并得到混合语料进行下一步的处理。
进一步的,将步骤五中得到的混合词向量分开,保证了抽取词典中翻译对之间词向量的一致性,因此:
步骤六一、将步骤五获得的源语言和目标语言词向量分开,同时将联结翻译对的单词分开为对应的源语言单词词向量和目标语言单词词向量,例如:
混合语料得到的词向量:
多(0.0640.1450.942)
the(-0.080-1.0390.094)
apple***苹果(-1.345-0.7860.684)
分离得到的源语言词向量:
苹果(-1.345-0.7860.684)
多(0.0640.1450.942)
分离得到的目标语言词向量:
apple(-1.345-0.7860.684)
the(-0.080-1.0390.094)
以上实施示例只是用于帮助理解本发明的方法及其核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于语料合并的无监督双语词典构建方法,其特征在于,所述基于语料合并的无监督双语词典构建方法包括以下步骤:
步骤一、根据源语言单语语料和目标语言单语语料训练得到各自对应的词向量;
步骤二、计算步骤一得到的词向量对应的两个自相似度矩阵,利用自相似度矩构建初始化词典D0,并根据初始化词典D0迭代自学习方法得到映射矩阵W;
步骤三、根据步骤二得到的映射矩阵W,将源语言词向量映射到目标语言词向量空间中,并据此抽取词典;
步骤四、根据步骤三得到的词典替换原来单语语料的单词并混合两个单语语料得到混合语料;
步骤五、利用词向量训练方法训练步骤四得到的混合语料并获取混合语料的词向量;
步骤六、将步骤五中得到混合词向量分开得到新的源语言和目标语言词向量;
步骤七、将步骤六得到的新的源语言和目标语言词向量作为输入,重新进行步骤二的过程得到新的映射矩阵W1,利用W1将不同语言的词向量映射到同一个向量空间,在该向量空间中可以根据相似度构建词典。
2.根据权利要求1所述的一种基于语料合并的无监督双语词典构建方法,其特征在于,步骤三中,利用步骤二得到的映射矩阵进行词典抽取,具体过程为:
步骤三一、利用步骤二得到的映射矩阵W,将源语言词向量映射到目标语言向量空间中,在所述目标语言向量空间中,寻找与源语言单词最近的目标单词作为所述源语言单词的翻译,将所述源语言单词和该源语言单词的翻译形成翻译对;
步骤三二、将步骤三一得到的翻译对,按照翻译对两个单词之间相似度的大小,从大到小进行排序,抽取排序后翻译对的前1500个翻译对作为替换词典。
3.根据权利要求2所述的一种基于语料合并的无监督双语词典构建方法,其特征在于,步骤四中,利用步骤三抽取得到的词典对原来的单语语料进行单词替换与语料合并,具体过程为:
步骤四一、将步骤三二得到的翻译对联结成一个整体,即翻译联结对,具体的,将翻译对中的源语言单词和目标语言单词联结成一个整体得到对应的翻译联结对,将步骤三二中的1500个翻译对联结成对应的1500个翻译联结对;
步骤四二、利用步骤三得到的词典和步骤四一得到的翻译联结对,对原始单语语料进行单词替换,并且将替换完的单语语料进行合并。
4.根据权利要求1所述的一种基于语料合并的无监督双语词典构建方法,其特征在于,步骤六中,将步骤五得到的源语言与目标语言词向量分离开,具体过程为:
步骤六一、将步骤五获得的源语言和目标语言词向量分开,同时将联结翻译对的单词分开为对应的源语言单词词向量和目标语言单词词向量。
CN202110685974.8A 2021-06-21 2021-06-21 一种基于语料合并的无监督双语词典构建方法 Active CN113343672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685974.8A CN113343672B (zh) 2021-06-21 2021-06-21 一种基于语料合并的无监督双语词典构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685974.8A CN113343672B (zh) 2021-06-21 2021-06-21 一种基于语料合并的无监督双语词典构建方法

Publications (2)

Publication Number Publication Date
CN113343672A true CN113343672A (zh) 2021-09-03
CN113343672B CN113343672B (zh) 2022-12-16

Family

ID=77477840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685974.8A Active CN113343672B (zh) 2021-06-21 2021-06-21 一种基于语料合并的无监督双语词典构建方法

Country Status (1)

Country Link
CN (1) CN113343672B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031511A (ja) * 2004-07-20 2006-02-02 Nippon Telegr & Teleph Corp <Ntt> 翻訳モデル生成装置および方法
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN108960317A (zh) * 2018-06-27 2018-12-07 哈尔滨工业大学 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法
CN110297903A (zh) * 2019-06-11 2019-10-01 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111581386A (zh) * 2020-05-08 2020-08-25 深圳市第五空间网络科技有限公司 多输出文本分类模型的构建方法、装置、设备及介质
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN111881334A (zh) * 2020-07-15 2020-11-03 浙江大胜达包装股份有限公司 一种基于半监督学习的关键词到企业的检索方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112580333A (zh) * 2020-12-21 2021-03-30 安徽七天教育科技有限公司 一种针对图像识别的英语作文评分方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031511A (ja) * 2004-07-20 2006-02-02 Nippon Telegr & Teleph Corp <Ntt> 翻訳モデル生成装置および方法
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN108960317A (zh) * 2018-06-27 2018-12-07 哈尔滨工业大学 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109597988A (zh) * 2018-10-31 2019-04-09 清华大学 跨语言的词汇义原预测方法、装置与电子设备
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法
CN110297903A (zh) * 2019-06-11 2019-10-01 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN111581386A (zh) * 2020-05-08 2020-08-25 深圳市第五空间网络科技有限公司 多输出文本分类模型的构建方法、装置、设备及介质
CN111881334A (zh) * 2020-07-15 2020-11-03 浙江大胜达包装股份有限公司 一种基于半监督学习的关键词到企业的检索方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112580333A (zh) * 2020-12-21 2021-03-30 安徽七天教育科技有限公司 一种针对图像识别的英语作文评分方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GAVRILA MONICA: "Constrained recombination in an example-based machine translation system", 《PROCEEDINGS OF THE 15TH ANNUAL CONFERENCE OF THE EUROPEAN ASSOCIATION FOR MACHINE TRANSLATION》 *
SEBASTIAN RUDER 等: "On the Limitations of Unsupervised Bilingual Dictionary Induction", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1805.03620》 *
YADAV SIDDHARTH 等: "Unsupervised sentiment analysis for code-mixed data", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/2001.11384》 *
张檬 等: "基于非平行语料的双语词典构建", 《中国科学:信息科学》 *
董洋溢 等: "基于混合余弦相似度的中文文本层次关系挖掘", 《计算机应用研究》 *
韩梦凡 等: "基于混合语料的无监督双语词典抽取", 《智能计算机与应用》 *

Also Published As

Publication number Publication date
CN113343672B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN108960317B (zh) 基于词向量表示和分类器联合训练的跨语言文本分类方法
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
US7945437B2 (en) Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
CN109829161B (zh) 一种多语种自动摘要的方法
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
CN107818141B (zh) 融入结构化要素识别的生物医学事件抽取方法
CN108416058A (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN106844356B (zh) 一种基于数据选择改善英中机器翻译质量的方法
Huang et al. Rethinking chinese word segmentation: tokenization, character classification, or wordbreak identification
CN110427618A (zh) 对抗样本生成方法、介质、装置和计算设备
CN112464662A (zh) 医学短语匹配方法、装置、设备及存储介质
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN113076467A (zh) 基于跨语言神经主题模型的汉越新闻话题发现方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115828931A (zh) 面向段落级文本的中英文语义相似度计算方法
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN106484676B (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN113343672B (zh) 一种基于语料合并的无监督双语词典构建方法
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
CN113449038B (zh) 一种基于自编码器的矿山智能问答系统及方法
CN114861654A (zh) 一种中文文本中基于词性融合的对抗训练的防御方法
CN114169345A (zh) 利用同源词的日中机器翻译方法和系统
CN106709277A (zh) 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant