CN109213995A - 一种基于双语词嵌入的跨语言文本相似度评估技术 - Google Patents

一种基于双语词嵌入的跨语言文本相似度评估技术 Download PDF

Info

Publication number
CN109213995A
CN109213995A CN201810869704.0A CN201810869704A CN109213995A CN 109213995 A CN109213995 A CN 109213995A CN 201810869704 A CN201810869704 A CN 201810869704A CN 109213995 A CN109213995 A CN 109213995A
Authority
CN
China
Prior art keywords
language
text
bilingual
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810869704.0A
Other languages
English (en)
Other versions
CN109213995B (zh
Inventor
刘刚
张翰墨
左权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201810869704.0A priority Critical patent/CN109213995B/zh
Publication of CN109213995A publication Critical patent/CN109213995A/zh
Application granted granted Critical
Publication of CN109213995B publication Critical patent/CN109213995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示,基于词向量相关理论和Skip‑Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。

Description

一种基于双语词嵌入的跨语言文本相似度评估技术
技术领域
本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。
背景技术
基于统计机器学习的方法是目前自然语言处理领域研究的主流,这些方法通常从训练数据中自动或半自动地获取语言的统计知识,可以有效地建立语言的表示模型。但是,基于统计机器学习的方法在很大程度上依赖于训练数据的规模、代表性、正确性以及加工深度,训练的语言数据越多、领域性越强,则语言模型的拟合度越好。可以说,训练数据的质量在很大程度上决定了基于统计机器学习方法的效果,因此通过扩大语料库的办法来不断提高自然语言处理系统的性能,在实际操作中可能很快就触碰瓶颈。
跨语言相似度评估需要跨越语言的障碍进行文本相似度对比。跨语言相似度评估往往需要依赖语料库和词典。基于平行语料库的方法,其准确性取决于平行语料库的规模和质量;基于统计翻译模型的方法依赖于翻译概率词典,不同的语言之间则需要多种概率词典,鲁棒性差。而机器翻译技术则通常适用于语言语法对比性高的语言,如德语-英语,因此可扩展性不高。如果使用“中间语言”,比如将文本内容都翻译为中文,由于经过两次翻译,因为使用翻译工具或翻译模型,必然会引入额外的噪声,会使得对比结果更加不准确。
深度学习作为一种表示学习方法,它通过对数据进行多层的建模来获得关于数据特征的层次结构以及数据的分布表示。深度学习可以避免繁琐的人工特征抽取,有效的利用无监督数据,并且具有优秀的泛化能力。目前的基于深度学习的自然语言处理的研究中主要集中在英文领域,中文领域的研究刚刚起步。由于语系的不同,中文与英文的语言单位有着各自的特点。因此,在英文领域的许多研究结果无法被直接应用到中英文跨语言领域,而需要总结两种语言的特点重新建立新的模型。研究跨语言相似度评估技术,尤其是中英文文本之间相似度评估技术的开发,有着很重要的现实意义,不仅有利于提高科研水平,规范学术风气,同时可以避免网络资源的浪费,增强互联网时代的用户体验。
在统计自然语言处理中,通常采用离散形式的符号化特征表示和浅层学习模型。这些符号表示和浅层模型没有刻画数据中蕴涵的语义信息,因而也无法充分表达不同语言数据之间的语义关联,很难使用统一有效的方法进行多任任务、多标注规范以及多语言的学习。深度学习通常基于一种深层非线性网络结构,从生理学的角度讲,深度学习技术类似人类大脑皮层的工作原理,通过分层对输入的数据进行处理,抽取其在不同层的信息,最终获得数据的本质特征。深度学习强大的建模和知识抽取能力,主要原因之一就是它对观测样本采用的有效的表示方式。在深度学习领域内,表示是指对输入观测样本采取有效且公正的方法进行符号化的表达。表示学习(Representation Learning)指学习对观测样本有效的表示,它是深度学习在NLP领域一种常用的研究方法,通过特征工程方法获得数学化的文本内容向量表达,常用于文本分类、实体识别、信息抽取等任务。这种方法不仅克服了传统的one-hot表示方法带来的数据稀疏和维度灾难问题,而且可以通过多层的数据处理挖掘文本深层次的信息。
深度学习的目标是探索计算机如何利用数据来开发适合复杂解释任务的特征和表示。利用深度学习模型,基于双语平行语料库,将源语言与目标语言数据映射到同一向量空间,训练获得双语词汇表示。这种方法已被广泛用于语言建模、POS标记、命名实体识别、情感分析和释义检测等NLP任务。
发明内容
本发明的目的在于提供一种基于双语词嵌入的跨语言文本相似度评估技术。
基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:
(1)双语词嵌入模型的构建:利用双语平行语料进行双语词嵌入模型的构建,通过该模型生成的词向量反应词语携带的语义信息,根据双语词之间的空间位置直接计算他们之间的语义相似度;
(2)多神经网络结合的文本相似度计算框架构建:通过融合多神经网络,以词向量表示为输入,将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示;
(3)跨语言相似度计算:在进行跨语言文本相似度计算时,以段落为单位进行分割,将段落看作长句子,得到更大文本单元粒度下的相似度迭代计算。
阶段(1)所述的双语词嵌入模型允许将来自两种语言的词汇投影到共享的嵌入空间去,利用自然语言处理技术对中英双语文本进行预处理,建立空间向量模型,将不同语言看作不同的任务,利用共享表示学习机制,使它们互相帮助以提高各自的分析精度;通过将文本相似度评估分为词语层级和句子层级,在这两个层级分别以词语作为文本单元和以句子作文文本单元,通过结合深度学习技术进行更加精确的特征表达和相似度计算。
将双语平行语料记为:
其中表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,用V1表示与第一语言L1关联的第一词汇集合,用V2表示与第二语言L2关联的第二词汇集合;
双语平行语料库C的规模有限,覆盖的第一词汇集合V1和第二词汇集合V2规模也较小,因此本文将训练模型的数据进行拓展,分为伪双语语料和单语语料两大部分,具体表示为:
其中C1表示来自第一语言L1单语的语料,和C2表示来自第二语言L2单语的语料,来自第一语言L1的第一单语语料C1和来自第二语言L2的第二单语语料C2并不是来自双语平行语料表示将双语平行语料对齐的文本进行随机合并得到的伪双语语料,组成的文本全部来自于双语平行语料
将来自第一语言L1的第一文本和第二语言L2的第二文本合并得到的伪双语文本d′i,此时伪双语文本d′i已经携带了来自第一文本和第二文本的全部词语信息,伪双语文本d′i初始时是空的,根据分词后词汇序列长度的比例将第一文本和第二文本中的词依次插入伪双语文本d′i中,并保存词语之间相对顺序不变;
对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本d′i上进行训练,该模型在第一语言L1和第二语言L2之间依赖双语平行语料以及人工构建的伪双语文本d′i最终学习到了对于单词w在d维共享空间上的词向量表示,也即不管单词w究竟源自何种语言,单词w都表示为一个d维向量:
w={a1,...,ak,...,ad}
ak表示在d维共享空间中第k个共享的内在双语特征。
阶段(2)所述的多神经网络结合的文本相似度计算框架分为4层,分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层,以孪生神经网络作为权值共享的网络框架,融合双语词嵌入,并通过双向长短期记忆神经网络Bi-LSTM对输入序列进行编码表示,在此基础上,利用全连接网络全局建模的能力进行高阶语义抽取,共同构建句子的分布式语义向量表示,最终的输出部分为双语句子的相似度,并通过损失函数对框架中的各层参数进行优化选择。
跨语言相似度计算框架SCLSE框架,其理论支撑部分为孪生神经网络和双向长短期记忆神经网络Bi-LSTM用于语义表达,同时使用注意力机制和余弦相似度进行结构改进,提升语义表达的精度,使用全连接网络用于高阶语义抽取,通过幂指函数进行输出计算作为相似度结果;数据支撑部分为双语平行语料,并以此语料为训练集进行参数训练和模型调优,该跨语言相似度计算框架SCLSE框架直接用于句子相似度计算,在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。
对于双语平行语料库,记为:
其中表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,第一语言L1的第一文本和第二语言L2的第二文本句子数目不相同,但是不论第一文本和第二文本属于何种语言,只要它们各自都是信息完备的,即清楚的表述一个事物、现象,且双语对齐,那么第一文本和第二文本段落的个数就是相同的,段落看作是句子语义表达作用的叠加,对于文本相似度的计算看作是对文本段落之间相似度的计算,而段落则当作长句子进行处理,在实践中,一个较大型的双向长短期记忆神经网络Bi-LSTM模型经常使用250-500个步长作为限制
第一文本由3个段落:第一段落A、第二段落B和第三段落C,即{A,B,C},组成,第二文本由3个段落:第四段落D、第五段落E和第六段落F,即{D,E,F},组成,对第一文本和第二文本进行相似度对比时,就变为依次对第一段落A和第四段落D:A-D,第二段落B和第五段落E:B-E,第三段落C和第六段落F:C-F,进行比较;
第一文本与第二文本的跨语言相似度用下式表示:
其中||paragraph||表示段落的个数,sclse(·)表示使用跨语言相似度计算框SCLSE框架进行计算。
本发明的有益效果在于:
使用自然语言处理技术将文本进行分词和去停留词等预处理操作,将词语作为文本单元,进行词向量表示学习和双语词嵌入模型的构建。通过该模型可以生成双语共享的词嵌入表示,利用词与词之间的空间距离来度量它们之间的语义相似度。基于词向量相关理论和Skip-Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过将词语的语义信息和每个词的上下文信息融合起来,将整个句子表征为一个向量进行跨语言文本相似度的计算。对此,以词嵌入作为底层向量表示,通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。
附图说明
图1(a)是单语词嵌入空间示意图。
图1(b)是双语词嵌入空间示意图。
图2是双语词嵌入模型构建过程。
图3是在伪双语文本上进行词嵌入训练。
图4是文本相似度计算框架图。
图5是文本相似度计算示意图。
图6是跨语言相似度计算流程图。
具体实施方式
下面结合附图对本发明的主要处理过程做更详细得描述。
本发明描述的是一种基于双语词嵌入的跨语言文本相似度评估技术。使用自然语言处理技术将文本进行分词和去停留词等预处理操作,将词语作为文本单元,进行词向量表示学习和双语词嵌入模型的构建。通过该模型可以生成双语共享的词嵌入表示,利用词与词之间的空间距离来度量它们之间的语义相似度。基于词向量相关理论和Skip-Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过将词语的语义信息和每个词的上下文信息融合起来,将整个句子表征为一个向量进行跨语言文本相似度的计算。对此,以词嵌入作为底层向量表示,通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。
本发明的技术路线及工作流程可以分为三个阶段。第一阶段,利用双语平行语料进行双语词嵌入模型的构建,通过该模型生成的词向量可以反应词语携带的语义信息,从而根据双语词之间的空间位置可以直接计算他们之间的语义相似度;第二阶段,通过融合多神经网络,以词向量表示为输入,将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示;第三阶段,在进行跨语言文本相似度计算时,以段落为单位进行分割,将段落看作长句子作为从而实现更大文本单元粒度下的相似度迭代计算。
(1)双语词嵌入模型的构建
双语词嵌入允许将来自两种语言的词汇投影到共享的嵌入空间去。与单语词嵌入相比,双语词嵌入不仅可以抓住单语言词语之间的空间嵌入关系,也可以抓住不同语言词语之间的空间嵌入关系。它的这种属性使得双语词嵌入空间模型可以很好地定义短语对之间的语义相似性关系。在此空间内,不论词wx和wy究竟来自何种语言,只要它们具有相似的语义,他们在该共享的词嵌入空间内就会有彼此靠近的位置,也就可以通过词与词之间的距离(比如余弦距离、欧氏距离等)来度量它们之间的语义相似度。
(2)多神经网络结合的文本相似度计算框架构建
传统的基于机器学习的方法以及一些浅层的神经网络表示方法,大多都是利用简单的特征信息进行文本相似度对比。判断文本相似度应该是从多个层面进行综合考虑的,如词语语义信息、上下文语义信息等。深度学习通常基于一种深层非线性网络结构,通过分层对输入的数据进行处理,抽取其在不同层次的信息,最终获得数据的本质表示。利用深度学习技术与不同的特征工程方法结合可获得词向量表示、句子向量表示和文档向量表示。
(3)跨语言相似度计算
以双语词嵌入模型为基础,结合深度学习中的多神经网络,以双语平行语料作为数据集与训练集进而构成本发明所提出的跨语言相似度计算框架SCLSE。该框架将全连接层的输出结果通过激活函数进而得到两种语言句子语义相似度计算的输出。其输出结果是两个句子向量的一阶范数的指数函数值,可直接用于句子相似度计算。在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度,进而实现更大规模上的相似度迭代计算。
一种基于双语词嵌入的跨语言文本相似度评估技术,包括:利用自然语言处理技术对中英双语文本进行预处理,建立空间向量模型,通过深度学习强大的建模和知识抽取能力,可以实现对文本进行更好的特征抽取和语义表示。世界上存在多种语言,虽然各种语言的词汇甚至语法结构等都不尽相同,但是既然语言都是表达人类思想的工具,它们之间也存在一定的共性。因此可以将不同语言看作不同的任务,利用共享表示学习机制,使它们互相帮助以提高各自的分析精度。通过将文本相似度评估分为词语层级和句子层级,在这两个层级分别以词语作为文本单元和以句子作文文本单元,通过结合深度学习技术进行更加精确的特征表达和相似度计算。
以词语为文本单元,基于词嵌入模型和预处理语料,将源语言和目标语言的表示学习过程合并为一个双语词表示的学习过程,构建双语共享的词嵌入语义空间。在此空间内,词语之间的语义相似性体现为空间位置的彼此靠近。
句子层级的研究即句子语义表示学习。本部分的研究内容以句子作为相似度计算单元,以双语词嵌入向量作为底层语义支撑,通过结合多神经网络特性构造了用于文本相似度计算的框架。通过把上下文的语义信息融合到句子本身对句子语义进行更好的表征。此外,段落可以看作是较长的句子,在进行文本相似度计算时,可以看作是对文本段落之间相似度的计算,而段落则可以当作长句子进行处理。这样,通过该计算框架就可以实现对自由长度的文本进行跨语言相似度评估的目的。
1.双语词嵌入模型的构建
将双语平行语料记为其中表示语言L1和语言L2之间一对平行的文本,N表示平行语料库的规模。用V1和V2分别表示与语言L1和语言L2关联的词汇集合。
在双语平行数据中,相互对齐的两个词语通常互为翻译词(语义一致),那么它们的分布表示在相同的空间内应该彼此靠近。然而实际情况是,一个词语往往对应着多个翻译词。如中文词“进步”在不同的平行语料中会以一定的概率翻译为“progress”,“improve”和“advance”。此外,双语平行语料库C的规模通常较为有限,可覆盖的词汇表V1和V2规模也相对较小。为了增强跨语言分布表示词映射的健壮性,本文将训练模型的数据进行拓展,分为伪双语语料和单语语料两大部分,具体表示为:
其中C1和C2分别表示来自语言L1和语言L2各自单语的语料,它们并不是来自双语平行语料表示将双语平行语料对齐的文本进行随机合并得到的伪双语语料。使用语料的意义在于Skip-Gram模型本来就是用在单语言词嵌入向量的生成,通过该混合语料将双语词嵌入转换为单一语言词嵌入。
组成的文本全部来自于本文将分别来自语言L1和语言L2的文本合并得到的伪双语文本,用符号表示为d′i,此时d′i已经携带了来自的全部词语信息。d′i初始时是空的,根据分词后词汇序列长度的比例将中的词依次插入d′i中,并保存词语之间相对顺序不变。
对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本上进行训练。该模型在语言L1和语言L2之间依赖平行语料以及人工构建的伪双语文本最终学习到了对于w在d维共享空间上的词向量表示,也即不管w究竟源自何种语言,它都可以表示为一个d维向量w={a1,...,ak,...,ad}。ak表示在d维共享空间中第k个共享的内在双语特征。由于所有的单词都享有一个共同的嵌入空间,所以无论单语言还是跨语言,词语之间的语义相似度都可以进行计算。
2.多神经网络结合的文本相似度计算框架构建
本发明将整个框架分为4层,分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层。以孪生神经网络(Siamese Network)作为权值共享的网络框架,融合双语词嵌入,并通过双向长短期记忆神经网络(Bi-LSTM)对输入序列进行编码表示,在此基础上,利用全连接网络全局建模的能力进行高阶语义抽取,共同构建句子的分布式语义向量表示。最终的输出部分为双语句子的相似度,并通过损失函数对框架中的各层参数进行优化选择。本文提出的SCLSE框架,其理论支撑部分为孪生神经网络和Bi-LSTM用于语义表达,同时使用注意力机制和余弦相似度进行结构改进,提升语义表达的精度。使用全连接网络用于高阶语义抽取,通过幂指函数进行输出计算作为相似度结果。数据支撑部分为双语平行语料,并以此语料为训练集进行参数训练和模型调优。该框架可用直接于句子相似度计算,在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。
3.文本相似度计算
对于双语平行语料库,记为其中表示语言L1和语言L2之间一对平行的文本,N表示平行语料库的规模。通常意义来讲,由于表述方式的差异,句子数目一般不相同。比如英文中存在大量的前置和后置修饰成分,而中文句子通常短小精悍,因此在表述同一个事物时,英文可能只使用一个句子,而中文会使用三个句子。如果此时直接使用句子对来对进行相似度评估,因为句子数目的不平衡,理所当然会造成最终的计算结果不准确。因此可以认为,不论属于何种语言,只要它们各自都是信息完备的(可以清楚的表述一个事物、现象等)且双语对齐,那么段落的个数就应该是相同的。此外,段落也可以被看作是句子语义表达作用的叠加。鉴于此,对于文本相似度的计算可以看作是对文本段落之间相似度的计算,而段落则可以当作长句子进行处理。在实践中,一个较大型的Bi-LSTM模型经常使用250-500个步长作为限制,这完全满足一个段落的大小要求。
假设由3个段落{A,B,C}组成,由3个段落{D,E,F}组成。对进行相似度对比时,就变为依次对A-D,B-E,C-F进行比较。
可用公式表示为:
其中||paragraph||表示段落的个数,sclse(·)表示使用SCLSE框架进行计算。

Claims (7)

1.一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于,本技术的技术路线及工作流程分为以下三个阶段:
(1)双语词嵌入模型的构建:利用双语平行语料进行双语词嵌入模型的构建,通过该模型生成的词向量反应词语携带的语义信息,根据双语词之间的空间位置直接计算他们之间的语义相似度;
(2)多神经网络结合的文本相似度计算框架构建:通过融合多神经网络,以词向量表示为输入,将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示;
(3)跨语言相似度计算:在进行跨语言文本相似度计算时,以段落为单位进行分割,将段落看作长句子,得到更大文本单元粒度下的相似度迭代计算。
2.根据权利要求1所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:阶段(1)所述的双语词嵌入模型允许将来自两种语言的词汇投影到共享的嵌入空间去,利用自然语言处理技术对中英双语文本进行预处理,建立空间向量模型,将不同语言看作不同的任务,利用共享表示学习机制,使它们互相帮助以提高各自的分析精度;通过将文本相似度评估分为词语层级和句子层级,在这两个层级分别以词语作为文本单元和以句子作文文本单元,通过结合深度学习技术进行更加精确的特征表达和相似度计算。
3.根据权利要求2所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于,将双语平行语料记为:
其中表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,用V1表示与第一语言L1关联的第一词汇集合,用V2表示与第二语言L2关联的第二词汇集合;
双语平行语料库C的规模有限,覆盖的第一词汇集合V1和第二词汇集合V2规模也较小,因此本文将训练模型的数据进行拓展,分为伪双语语料和单语语料两大部分,具体表示为:
其中C1表示来自第一语言L1单语的语料,和C2表示来自第二语言L2单语的语料,来自第一语言L1的第一单语语料C1和来自第二语言L2的第二单语语料C2并不是来自双语平行语料表示将双语平行语料对齐的文本进行随机合并得到的伪双语语料,组成的文本全部来自于双语平行语料
将来自第一语言L1的第一文本和第二语言L2的第二文本合并得到的伪双语文本d′i,此时伪双语文本d′i已经携带了来自第一文本和第二文本的全部词语信息,伪双语文本d′i初始时是空的,根据分词后词汇序列长度的比例将第一文本和第二文本中的词依次插入伪双语文本d′i中,并保存词语之间相对顺序不变;
对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本d′i上进行训练,该模型在第一语言L1和第二语言L2之间依赖双语平行语料以及人工构建的伪双语文本d′i最终学习到了对于单词w在d维共享空间上的词向量表示,也即不管单词w究竟源自何种语言,单词w都表示为一个d维向量:
w={a1,...,ak,...,ad}
ak表示在d维共享空间中第k个共享的内在双语特征。
4.根据权利要求1所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:阶段(2)所述的多神经网络结合的文本相似度计算框架分为4层,分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层,以孪生神经网络作为权值共享的网络框架,融合双语词嵌入,并通过双向长短期记忆神经网络Bi-LSTM对输入序列进行编码表示,在此基础上,利用全连接网络全局建模的能力进行高阶语义抽取,共同构建句子的分布式语义向量表示,最终的输出部分为双语句子的相似度,并通过损失函数对框架中的各层参数进行优化选择。
5.根据权利要求4所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:跨语言相似度计算框架SCLSE框架,其理论支撑部分为孪生神经网络和双向长短期记忆神经网络Bi-LSTM用于语义表达,同时使用注意力机制和余弦相似度进行结构改进,提升语义表达的精度,使用全连接网络用于高阶语义抽取,通过幂指函数进行输出计算作为相似度结果;数据支撑部分为双语平行语料,并以此语料为训练集进行参数训练和模型调优,该跨语言相似度计算框架SCLSE框架直接用于句子相似度计算,在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。
6.根据权利要求5所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:对于双语平行语料库,记为:
其中表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,第一语言L1的第一文本和第二语言L2的第二文本句子数目不相同,但是不论第一文本和第二文本属于何种语言,只要它们各自都是信息完备的,即清楚的表述一个事物、现象,且双语对齐,那么第一文本和第二文本段落的个数就是相同的,段落看作是句子语义表达作用的叠加,对于文本相似度的计算看作是对文本段落之间相似度的计算,而段落则当作长句子进行处理,在实践中,一个较大型的双向长短期记忆神经网络Bi-LSTM模型经常使用250-500个步长作为限制。
7.根据权利要求6所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:第一文本由3个段落:第一段落A、第二段落B和第三段落C,即{A,B,C},组成,第二文本由3个段落:第四段落D、第五段落E和第六段落F,即{D,E,F},组成,对第一文本和第二文本进行相似度对比时,就变为依次对第一段落A和第四段落D:A-D,第二段落B和第五段落E:B-E,第三段落C和第六段落F:C-F,进行比较;
第一文本与第二文本的跨语言相似度用下式表示:
其中||paragraph||表示段落的个数,sclse(·)表示使用跨语言相似度计算框SCLSE框架进行计算。
CN201810869704.0A 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术 Active CN109213995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810869704.0A CN109213995B (zh) 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810869704.0A CN109213995B (zh) 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术

Publications (2)

Publication Number Publication Date
CN109213995A true CN109213995A (zh) 2019-01-15
CN109213995B CN109213995B (zh) 2022-11-18

Family

ID=64988030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810869704.0A Active CN109213995B (zh) 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术

Country Status (1)

Country Link
CN (1) CN109213995B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN110008723A (zh) * 2019-03-27 2019-07-12 东南大学 一种基于词嵌入技术的加密算法
CN110084440A (zh) * 2019-05-15 2019-08-02 中国民航大学 基于联合相似度的民航旅客不文明等级预测方法及系统
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110297903A (zh) * 2019-06-11 2019-10-01 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110472047A (zh) * 2019-07-15 2019-11-19 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110532328A (zh) * 2019-08-26 2019-12-03 哈尔滨工程大学 一种文本概念图构造方法
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111090985A (zh) * 2019-11-28 2020-05-01 华中师范大学 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN111104478A (zh) * 2019-09-05 2020-05-05 李轶 一种领域概念语义漂移探究方法
CN111126037A (zh) * 2019-12-18 2020-05-08 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111368564A (zh) * 2019-04-17 2020-07-03 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111539228A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置
CN111553168A (zh) * 2020-05-09 2020-08-18 识因智能科技(北京)有限公司 一种双语短文本匹配方法
CN111680119A (zh) * 2019-03-11 2020-09-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN111737954A (zh) * 2020-06-12 2020-10-02 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111950281A (zh) * 2020-07-02 2020-11-17 中国科学院软件研究所 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112818697A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于自然语言处理和语义相似任务的元嵌入系统
CN113157865A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN113220845A (zh) * 2021-05-26 2021-08-06 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113987115A (zh) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN114003726A (zh) * 2021-12-31 2022-02-01 山东大学 一种基于子空间嵌入的学术论文差异性分析方法
CN114896394A (zh) * 2022-04-18 2022-08-12 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN115828931A (zh) * 2023-02-09 2023-03-21 中南大学 面向段落级文本的中英文语义相似度计算方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843801A (zh) * 2016-03-25 2016-08-10 北京语言大学 多译本平行语料库的构建系统
US20160350288A1 (en) * 2015-05-29 2016-12-01 Oracle International Corporation Multilingual embeddings for natural language processing
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350288A1 (en) * 2015-05-29 2016-12-01 Oracle International Corporation Multilingual embeddings for natural language processing
CN105843801A (zh) * 2016-03-25 2016-08-10 北京语言大学 多译本平行语料库的构建系统
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于东等: "基于点关联测度矩阵分解的中英跨语言词嵌入方法", 《中文信息学报》 *
张金鹏等: "基于跨语言语料的汉泰词分布表示", 《计算机工程与科学》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885671B (zh) * 2019-02-28 2022-10-14 重庆邮电大学 基于多任务学习的问答方法
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN111680119A (zh) * 2019-03-11 2020-09-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN111680119B (zh) * 2019-03-11 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN110008723A (zh) * 2019-03-27 2019-07-12 东南大学 一种基于词嵌入技术的加密算法
CN110008723B (zh) * 2019-03-27 2022-11-15 东南大学 一种基于词嵌入技术的加解密方法
CN111368564B (zh) * 2019-04-17 2022-04-08 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111368564A (zh) * 2019-04-17 2020-07-03 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110084440A (zh) * 2019-05-15 2019-08-02 中国民航大学 基于联合相似度的民航旅客不文明等级预测方法及系统
CN110084440B (zh) * 2019-05-15 2022-12-23 中国民航大学 基于联合相似度的民航旅客不文明等级预测方法及系统
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法
CN110223324B (zh) * 2019-06-05 2023-06-16 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110297903B (zh) * 2019-06-11 2021-04-30 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110297903A (zh) * 2019-06-11 2019-10-01 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110413988B (zh) * 2019-06-17 2023-01-31 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110413988A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110309268B (zh) * 2019-07-12 2021-06-29 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN110472047A (zh) * 2019-07-15 2019-11-19 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN110472047B (zh) * 2019-07-15 2022-12-13 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN110489551B (zh) * 2019-07-16 2023-05-30 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110532328B (zh) * 2019-08-26 2023-04-07 哈尔滨工程大学 一种文本概念图构造方法
CN110532328A (zh) * 2019-08-26 2019-12-03 哈尔滨工程大学 一种文本概念图构造方法
CN111104478A (zh) * 2019-09-05 2020-05-05 李轶 一种领域概念语义漂移探究方法
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110781680B (zh) * 2019-10-17 2023-04-18 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111090985A (zh) * 2019-11-28 2020-05-01 华中师范大学 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN111090985B (zh) * 2019-11-28 2023-04-28 华中师范大学 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN111126037A (zh) * 2019-12-18 2020-05-08 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111539228A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置
CN111539228B (zh) * 2020-04-29 2023-08-08 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置
CN111553168A (zh) * 2020-05-09 2020-08-18 识因智能科技(北京)有限公司 一种双语短文本匹配方法
CN111737954A (zh) * 2020-06-12 2020-10-02 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111950281A (zh) * 2020-07-02 2020-11-17 中国科学院软件研究所 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111914710A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路机务段场景描述方法及系统
CN112215017B (zh) * 2020-10-22 2022-04-29 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112818697A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于自然语言处理和语义相似任务的元嵌入系统
CN113157865A (zh) * 2021-04-25 2021-07-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN113157865B (zh) * 2021-04-25 2023-06-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN113220845A (zh) * 2021-05-26 2021-08-06 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法
CN113220845B (zh) * 2021-05-26 2022-05-17 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法
CN113779978A (zh) * 2021-09-26 2021-12-10 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113987115A (zh) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN114003726B (zh) * 2021-12-31 2022-04-08 山东大学 一种基于子空间嵌入的学术论文差异性分析方法
CN114003726A (zh) * 2021-12-31 2022-02-01 山东大学 一种基于子空间嵌入的学术论文差异性分析方法
CN114896394A (zh) * 2022-04-18 2022-08-12 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN114896394B (zh) * 2022-04-18 2024-04-05 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN115828931A (zh) * 2023-02-09 2023-03-21 中南大学 面向段落级文本的中英文语义相似度计算方法

Also Published As

Publication number Publication date
CN109213995B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN109213995A (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109271626B (zh) 文本语义分析方法
Tiedemann Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing
Davydov et al. Mathematical method of translation into Ukrainian sign language based on ontologies
RU2011122784A (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
CN106844348B (zh) 一种汉语句子功能成分分析方法
Kouremenos et al. A novel rule based machine translation scheme from Greek to Greek Sign Language: Production of different types of large corpora and Language Models evaluation
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
Cheng et al. Research on automatic error correction method in English writing based on deep neural network
Han et al. CNN-BiLSTM-CRF model for term extraction in Chinese corpus
CN109815497A (zh) 基于句法依存的人物属性抽取方法
Zheng et al. Weakly-supervised image captioning based on rich contextual information
Amri et al. Amazigh POS tagging using TreeTagger: a language independant model
Zhang Research on English machine translation system based on the internet
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
Singh et al. English-Dogri Translation System using MOSES
Habash et al. Hybrid natural language generation from lexical conceptual structures
Krotova et al. A joint approach to compound splitting and idiomatic compound detection
Ahmed et al. Discovering lexical similarity using articulatory feature-based phonetic edit distance
Yadav et al. Different Models of Transliteration-A Comprehensive Review
Lu et al. Language model for Mongolian polyphone proofreading
Wang Research on cultural translation based on neural network
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
Wei et al. Research on Error Detection Technology of English Writing Based on Recurrent Neural Network
Jamwal Modeling translation of code mixed English-Dogri language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant