CN109408814A - 基于释义基元词的中英跨语言词汇表征学习方法及系统 - Google Patents

基于释义基元词的中英跨语言词汇表征学习方法及系统 Download PDF

Info

Publication number
CN109408814A
CN109408814A CN201811158922.XA CN201811158922A CN109408814A CN 109408814 A CN109408814 A CN 109408814A CN 201811158922 A CN201811158922 A CN 201811158922A CN 109408814 A CN109408814 A CN 109408814A
Authority
CN
China
Prior art keywords
word
paraphrase
chinese
primitive
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811158922.XA
Other languages
English (en)
Other versions
CN109408814B (zh
Inventor
梁庆中
姚宏
李兵
郑坤
刘超
董理君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201811158922.XA priority Critical patent/CN109408814B/zh
Publication of CN109408814A publication Critical patent/CN109408814A/zh
Application granted granted Critical
Publication of CN109408814B publication Critical patent/CN109408814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于释义基元词的中英跨语言词汇表征学习方法及系统,将中英两种语言的词汇以向量形式表示在同一个向量空间中,并结合语义信息获得更为精准的词嵌入。首先通过对汉语词典中的释义关系进行处理获得释义基元词集合,使得释义基元词集合中的词能够覆盖词典中的所有词汇语义。其次,将获得的释义基元词向量化表示,再将汉语词典和英文词典中的所有词汇用这些释义基元词进行表示。最后,结合中英文语料库的上下文语义关系,对词汇中的释义基元词表示设置一定的权重,获得更为精准的语义关系词嵌入。与现有词嵌入相比,本发明具有词嵌入精确度高、扩展能力强以及实现方便等优点,能更好的服务于后续的自然语言处理任务。

Description

基于释义基元词的中英跨语言词汇表征学习方法及系统
技术领域
本发明具体涉及基于释义基元词的中英跨语言词汇表征学习方法及系统。
背景技术
词嵌入表示是指利用分布式向量来表示词的语义信息。通过将自然语言中的词汇映射成低维、稠密的向量,使词处于同一个向量空间中,由此引入“距离”的概念对词汇间的语义相似性进行测量,有助于获得语义信息更为充分表达的向量表示。目前各种基于深度学习的自然语言处理多以词嵌入表示为基础。
对于辞书释义核心词的研究,国际上已经有了不少的成果。比如由韦斯特等所编《英语教学词典》(第4版)选用了1409个词,用来解释24000个词项;《朗曼当代英语词典》选用了2000个词,用来解释56000个词项,其中还包含了用例用词。
20世纪末以来,关于元语言及其分支释义元语言的研究逐渐成为热点。国内对于释义核心词的研究也取得了不少成就。张津、黄昌宁于1996年率先筛选出了3857条“定义原语”;李葆嘉在《语义语法学理论和元语言系统研究》中提出了“释义元语言系统”概念;苏新春在《汉语释义元语言研究》中提取出释义元语言4000条;安华林在《现代汉语释义元语言研究》中提取现代汉语词典释义元语言“词元”近3000个。
跨语言词嵌入(Cross-lingual Word Embeddings,CWE)是词嵌入领域的一个分支,目的是将两种甚至多种语言的词汇以向量形式表示在同一个向量空间中,从而能够直接通过向量计算来描述不同语言词汇之间的关系,为跨语言信息处理提供良好表示形式,在近一段时间受到广泛关注。Klementiev等人最早提出跨语言词嵌入问题。近几年许多学者针对该问题开展研究,第一类方法是采用新的学习框架学习跨语言映射知识,如基于自动编码器、典型相关性分析等。第二类方法通过语料变换和洗牌,将跨语言词向量问题转变为普通词向量问题。在应用方面,跨语言词嵌入被应用于机器翻译、双语词典抽取、句法分析等任务,均取得良好的效果。
目前,获得的跨语言词嵌入对于语义信息的表达仍有较大的误差,并不能精确的表达词语的语义信息。
发明内容
本发明要解决的技术问题在于,针对上述目前表征学习技术精度不高、不能精确的表达词语的语义信息的不足,提供基于释义基元词的中英跨语言词汇表征学习方法及系统解决上述问题。
基于释义基元词的中英跨语言词汇表征学习方法,包括:
步骤1、输入预设中文词典,获取预设汉语词典中所有词汇所对应的中文释义基元词;
步骤2、对步骤1获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
步骤3、对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
步骤4、将步骤1获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
步骤5、通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入。
进一步的,步骤3中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个中文释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
进一步的,步骤5中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
基于释义基元词的中英跨语言词汇表征学习系统,包括:
输入模块:用于输入预设中文词典,获取预设汉语词典中所有词汇所对应的中文释义基元词;
中文覆盖模块:用于对输入模块获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
中文学习模块:用于对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
英文覆盖模块:用于将输入模块获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
英文学习模块:用于通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入。
进一步的,中文学习模块中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
进一步的,英文学习模块中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
本方法在训练双语词嵌入时首次加入词典作为外部知识,提升词嵌入的语义表达信息,帮助将中文和英文词语映射到同一个语义空间中;还有在利用中文词典作为外部知识时,提出利用词典中的汉语释义基元词作为学习词典知识的方法。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的基于释义基元词的中英跨语言词汇表征学习方法流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
基于释义基元词的中英跨语言词汇表征学习方法,如图1所示,包括以下五个步骤:
步骤1、抽取中文释义基元词:对预设中文词典中的所有释义(指中文词典中解释所有词语的定义语句)进行分解,利用张津,黄昌宁《从单语词典中获取定义原语的一种方法》中的方法,将中文词汇(指的是中文词典中出现过的所有字词,其中包括中文词典中被解释的词语和只在解释语句中出现的字词)根据词语之间的释义关系投影到一个有向图中(若词语A的释义中包含词语B,则在有向图中有一条由A指向B的边),抽取出基本释义(指用少而精炼的词语解释一个词语的语句)所使用的字、词的集合,即中文释义基元词。
步骤2、获取释义基元词的向量化表示:对抽取出的中文释义基元词进行向量化表示,利用word2vec工具在中文语料集(指大规模的中文语言实例,格式为语句段落)中学习释义基元词的词嵌入,并结合释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用这些释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合。
步骤3、学习所有中文词汇的词嵌入:对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的释义基元词。并且通过比较每一个中文词语与其对应的语义信息的释义基元词的上下文语义相似度(指词语之间的向量空间距离)和词语结构相似度(指两个中文词语的笔画字形结构的相似程度),计算出组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入表示,以获得更为精准的向量表示。
根据每一个中文词语与其对应的语义信息的释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体实施例如下:“安眠”对应的释义基元词有“安稳”和“沉睡”,通过步骤2得到的三个词语的向量表示,计算“安眠”分别与“安稳”和“沉睡”的向量表示之间的欧式距离或者余弦距离,据此可以得到“安眠”与“安稳”“沉睡”之间的语义相似度,并以此计算“安稳”“沉睡”两词对“安眠”的上下文语义贡献A、B。其中,“安眠”可以按笔画拆分为“宀、女、目、民”,同理“安稳”“沉睡”也可拆分为对应的笔画序列,通过比较“安眠”分别与“安稳”“沉睡”的笔画序列的重合度,可以得到“安眠”与“安稳”“沉睡”之间的词语结构相似度,并以此计算“安稳”“沉睡”两词对“安眠”的词语结构贡献a、b。通过控制上下文语义与词语结构的贡献比,最终确定每个释义基元词的权重,如“安眠”的释义基元词“安稳”的权重可以表示为(αA+βa),“沉睡”的权重可以表示为(αB+βb),其中,α和β分别表示释义基元词的上下文语义和词语结构的贡献权重,且(α+β=1)。
步骤4、获得对应的英文释义基元词:利用获得的中文释义基元词,将上述步骤获得中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,其向量表示与对应的中文释义基元词相对应,用这些释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合。
步骤5、学习所有英文词汇的词嵌入:与中文词汇的词嵌入学习方法类似,通过预设英文词典中每一个英语词语和对应的释义语句(指英文词典中解释词语的定义语句)来获取组成每一个英文词语的语义信息的释义基元词,其中所有词汇均对应于其原型。并且通过比较每一个英文词语与其对应的语义信息的释义基元词的上下文语义相似度(指词语之间的向量空间距离),计算出组成每一个词语义信息的每个释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入表示,以获得更为精准的向量表示。
在汉语词典中,对于词语的解释使用了一组更为基本的汉语词汇集合,称之为汉语词典中的释义基元词。从汉语电子词典中,设计算法抽取基本释义所使用的字、词的集合,找出其中的释义基元词,将其作为解释其他汉语词汇的一组“基”,汉语词汇中的所有字、词均可映射为这组“基”的描述性表示。将这些释义基元词在语义空间中进行向量化表示,则汉语词汇中的所有字、词均可投影到该语义空间中。而该词的释义基元词表征向量可以以一定的权重比与该词的上下文语义表征向量结合生成更为精准的语义表征向量。同时如上文所述,不同语言的释义基元词虽有不同,但却是相互对应的,在语义上是等价的。因此可以同样将英语中的词汇也用这组“基向量”来表示,至此,虽然汉语与英语虽然属于不同的语言,但是却通过这种方法可以投影到同一个语义空间中,从而建立统一的语义表示空间。通过上述方法得到的语义表征向量可以为我们提供更为精准的语义关系,甚至通过这种方法能够更为轻松的实现不同语言之间的语义关联计算。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (6)

1.基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,包括:
步骤1、输入预设中文词典,获取预设中文词典中所有词汇所对应的中文释义基元词;
步骤2、对步骤1获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词的词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
步骤3、对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
步骤4、将步骤1获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
步骤5、通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入,该英文词汇的词嵌入与原中文词汇的词嵌入一一对应。
2.根据权利要求1所述的基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,步骤3中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个中文释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
3.根据权利要求1所述的基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,步骤5中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
4.基于释义基元词的中英跨语言词汇表征学习系统,其特征在于,包括:
输入模块:用于输入预设中文词典,获取预设中文词典中所有词汇所对应的中文释义基元词;
中文覆盖模块:用于对输入模块获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
中文学习模块:用于对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
英文覆盖模块:用于将输入模块获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
英文学习模块:用于通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入。
5.根据权利要求1所述的基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,中文学习模块中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
6.根据权利要求1所述的基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,英文学习模块中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
CN201811158922.XA 2018-09-30 2018-09-30 基于释义基元词的中英跨语言词汇表征学习方法及系统 Active CN109408814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811158922.XA CN109408814B (zh) 2018-09-30 2018-09-30 基于释义基元词的中英跨语言词汇表征学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811158922.XA CN109408814B (zh) 2018-09-30 2018-09-30 基于释义基元词的中英跨语言词汇表征学习方法及系统

Publications (2)

Publication Number Publication Date
CN109408814A true CN109408814A (zh) 2019-03-01
CN109408814B CN109408814B (zh) 2020-08-07

Family

ID=65465946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811158922.XA Active CN109408814B (zh) 2018-09-30 2018-09-30 基于释义基元词的中英跨语言词汇表征学习方法及系统

Country Status (1)

Country Link
CN (1) CN109408814B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413990A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 词向量的配置方法、装置、存储介质、电子装置
CN110610006A (zh) * 2019-09-18 2019-12-24 中国科学技术大学 基于笔画和字形的形态学双通道中文词嵌入方法
CN111666461A (zh) * 2020-04-24 2020-09-15 百度在线网络技术(北京)有限公司 检索地理位置的方法、装置、设备和计算机存储介质
US11138383B2 (en) 2019-08-21 2021-10-05 International Business Machines Corporation Extracting meaning representation from text
CN114492401A (zh) * 2022-01-24 2022-05-13 重庆工业职业技术学院 基于大数据提取英语词汇的工作方法
US11836174B2 (en) 2020-04-24 2023-12-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus of establishing similarity model for retrieving geographic location

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162409A1 (en) * 2006-01-06 2007-07-12 Godden Kurt S Creation and maintenance of ontologies
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN107832290A (zh) * 2017-10-19 2018-03-23 中国科学院自动化研究所 中文语义关系的识别方法及装置
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108595426A (zh) * 2018-04-23 2018-09-28 北京交通大学 基于汉字字形结构性信息的词向量优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162409A1 (en) * 2006-01-06 2007-07-12 Godden Kurt S Creation and maintenance of ontologies
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107832290A (zh) * 2017-10-19 2018-03-23 中国科学院自动化研究所 中文语义关系的识别方法及装置
CN108595426A (zh) * 2018-04-23 2018-09-28 北京交通大学 基于汉字字形结构性信息的词向量优化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘扬 等: "《汉语的语素概念提取与语义构词分析》", 《中文信息学报》 *
唐共波 等: "《基于知网义原词向量表示的无监督词义消歧方法》", 《中文信息学报》 *
张津 等: "《从单语词典中获取定义原语的一种方法》", 《清华大学学报(自然科学版)》 *
黄江平 等: "《基于句子语义距离的释义识别研究》", 《四川大学学报(工程科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413990A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 词向量的配置方法、装置、存储介质、电子装置
US11138383B2 (en) 2019-08-21 2021-10-05 International Business Machines Corporation Extracting meaning representation from text
CN110610006A (zh) * 2019-09-18 2019-12-24 中国科学技术大学 基于笔画和字形的形态学双通道中文词嵌入方法
CN110610006B (zh) * 2019-09-18 2023-06-20 中国科学技术大学 基于笔画和字形的形态学双通道中文词嵌入方法
CN111666461A (zh) * 2020-04-24 2020-09-15 百度在线网络技术(北京)有限公司 检索地理位置的方法、装置、设备和计算机存储介质
WO2021212827A1 (zh) * 2020-04-24 2021-10-28 百度在线网络技术(北京)有限公司 检索地理位置的方法、装置、设备和计算机存储介质
CN111666461B (zh) * 2020-04-24 2023-05-26 百度在线网络技术(北京)有限公司 检索地理位置的方法、装置、设备和计算机存储介质
US11836174B2 (en) 2020-04-24 2023-12-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus of establishing similarity model for retrieving geographic location
CN114492401A (zh) * 2022-01-24 2022-05-13 重庆工业职业技术学院 基于大数据提取英语词汇的工作方法
CN114492401B (zh) * 2022-01-24 2022-11-15 重庆工业职业技术学院 基于大数据提取英语词汇的工作方法

Also Published As

Publication number Publication date
CN109408814B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN109408814A (zh) 基于释义基元词的中英跨语言词汇表征学习方法及系统
Li et al. Towards Zero Unknown Word in Neural Machine Translation.
Almohimeed et al. Arabic text to Arabic sign language translation system for the deaf and hearing-impaired community
Kumar et al. “A Passage to India”: Pre-trained Word Embeddings for Indian Languages
CN109359304A (zh) 限定性神经网络机器翻译方法及存储介质
CN110032649A (zh) 一种中医文献的实体间关系抽取方法及装置
CN110134962A (zh) 一种基于内部注意力的跨语言纯文本反讽识别方法
Neumann et al. Experiments on robust NL question interpretation and multi-layered document annotation for a cross–language question/answering system
Kang Spoken language to sign language translation system based on HamNoSys
CN109426664A (zh) 一种基于卷积神经网络的句子相似性计算方法
CN103268326A (zh) 一种个性化的跨语言检索方法及装置
Anuja et al. Design and development of a frame based MT system for English-to-ISL
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Saurav et al. " A Passage to India": Pre-trained Word Embeddings for Indian Languages
Garje et al. Transmuter: an approach to rule-based English to Marathi machine translation
Jawaid et al. Tagger voting for Urdu
Tokuda et al. Towards automatic translation from japanese into japanese sign language
Jia et al. Bilingual terminology extraction from comparable e-commerce corpora
Lü et al. Automatic translation template acquisition based on bilingual structure alignment
Zhang et al. PQAC-WN: constructing a wordnet for Pre-Qin ancient Chinese
Lopukhina et al. The taming of the polysemy: automated word sense frequency estimation for lexicographic purposes
Lingam et al. English to Telugu Rule based Machine Translation System: A Hybrid Approach
CN115329784B (zh) 基于预训练模型的句子复述生成系统
Somers Corpora and machine translation
Hutchins Machine translation: problems and issues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221018

Address after: Room A1430, Room 01, 02, 03, 04, 10, 11, 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Wuhan East Lake New Technology Development Zone, Wuhan, Hubei 430000

Patentee after: Wuhan Ruidimu Network Technology Co.,Ltd.

Address before: 430000 Lu Mill Road, Hongshan District, Wuhan, Hubei Province, No. 388

Patentee before: CHINA University OF GEOSCIENCES (WUHAN CITY)

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221221

Address after: Room 1302, 13/F, Building B2, Future Science and Technology City, No. 999, Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, 430200, Hubei Province (Wuhan Area, Free Trade Zone)

Patentee after: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room A1430, Room 01, 02, 03, 04, 10, 11, 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Wuhan East Lake New Technology Development Zone, Wuhan, Hubei 430000

Patentee before: Wuhan Ruidimu Network Technology Co.,Ltd.

TR01 Transfer of patent right