CN109325224A - 一种基于语义元语的词向量表征学习方法及系统 - Google Patents

一种基于语义元语的词向量表征学习方法及系统 Download PDF

Info

Publication number
CN109325224A
CN109325224A CN201810883567.6A CN201810883567A CN109325224A CN 109325224 A CN109325224 A CN 109325224A CN 201810883567 A CN201810883567 A CN 201810883567A CN 109325224 A CN109325224 A CN 109325224A
Authority
CN
China
Prior art keywords
vocabulary
term vector
target
paraphrase
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810883567.6A
Other languages
English (en)
Other versions
CN109325224B (zh
Inventor
刘超
姚宏
李旦
董理君
康晓军
李新川
郑坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201810883567.6A priority Critical patent/CN109325224B/zh
Publication of CN109325224A publication Critical patent/CN109325224A/zh
Application granted granted Critical
Publication of CN109325224B publication Critical patent/CN109325224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种基于语义元语的词向量表征学习方法,包括以下三个步骤:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;根据获得的语义元语词汇得到与其对应的基础词向量;在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。获取目标词汇的目标词向量的具体步骤是:将每个词的各个释义代替这个词本身替换到原语句中,并保留语句意义与原语句最接近的一种释义,即得到了目标词汇的准确释义,用准确释义对应的语义元语词汇的词向量来适当地表达目标词,就能得到目标词汇的目标词向量。

Description

一种基于语义元语的词向量表征学习方法及系统
技术领域
本发明具体涉及一种基于语义元语的词向量表征学习方法及系统。
背景技术
表征学习是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征。在现有的表征学习中最直观的词表示方法是One-hotRepresentation,这种方法把每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。除了One-hotRepresentation以外,还有word2vec等许多方法可以获得词向量,一般都需要经过“训练-测试-评价”的过程。尽管这些方法能够获得一些可用的词向量,但是其精度与可用性却不尽人意,有待改进。而本专利采用的方法,充分考虑了词语在不同语境下的不同意义,得到一个表达最为全面的词向量,使得词向量的精度与可用性都有了极大的提高。
发明内容
本发明要解决的技术问题在于,针对上述目前表征学习技术精度不高和可用性不强的不足,提供一种基于语义元语的词向量表征学习方法及系统解决上述问题。
一种基于语义元语的词向量表征学习方法,包括以下三个步骤:
步骤1:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;
步骤2:根据获得的语义元语词汇得到与其对应的基础词向量;
步骤3:在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。
进一步的,步骤3中获取目标词汇的目标词向量的具体步骤是:
S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合,得到原始特征向量;
S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合得到释义的向量,形成候选特征向量集,其中候选特征向量数目等于释义数目;
S3、依次比对上述原始特征向量与各个候选特征向量,并保留相似度最高的候选特征向量所对应的释义,称为保留释义;
S4、根据保留释义中的语义元语词汇得到与其对应的基础词向量,即为得到目标词汇的词向量。
一种基于语义元语的词向量表征学习系统,能够实现以下功能:
输入模块:用于输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;
转换模块:用于根据获得的语义元语词汇得到与其对应的基础词向量;
获取模块:用于在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。
本发明涉及一种基于语义元语获取英文词向量的方法及系统,语义元语指的是英语词典中有这样一个词汇集合,词典中其它所有词都能够由这个集合中的词汇直接或间接地释义。该方法首先从一本英文词典中获得语义元语词汇集合,接着将这些词汇转为词向量;由于任意词可以由这些词汇解释,所以任意词的词向量也可以由这些词的词向量经过适当地运算后得到,即最终得到了所需要的目标词向量。本发明提高了英文词向量在语义方面的表达能力,使得语义上相近的词语所对应的词向量在语义空间中距离更近。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的一种基于语义元语的词向量表征学习方法流程图;
图2为本发明的获取目标词向量的具体步骤流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种基于语义元语的词向量表征学习方法,如图1所示,包括以下三个步骤:
步骤1:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;
步骤2:根据获得的语义元语词汇得到与其对应的基础词向量(如word2vec等);
步骤3:在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。
在词典中,每个词会有多种释义,而每个词在具体的语句中只会具有一种释义。将每个词的各个释义代替这个词本身替换到原语句中,并保留语句意义与原语句最接近的一种释义,即得到了目标词汇的准确释义,用准确释义对应的语义元语词汇的词向量来适当地表达目标词,就能得到目标词汇的目标词向量,如图2所示,获取目标词向量的具体步骤如下:
S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合(如计算均值),得到原始特征向量;
S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合(如均值)得到释义的向量,形成候选特征向量集,其中候选特征向量数目等于释义数目;
S3、依次比对上述原始特征向量与各个候选特征向量,并保留相似度最高的候选特征向量所对应的释义,称为保留释义;
S4、根据保留释义中的语义元语词汇得到与其对应的基础词向量,即为得到目标词汇的词向量。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (3)

1.一种基于语义元语的词向量表征学习方法,其特征在于,包括以下三个步骤:
步骤1:输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;
步骤2:根据获得的语义元语词汇得到与其对应的基础词向量;
步骤3:在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。
2.根据权利要求1所述的一种基于语义元语的词向量表征学习方法,其特征在于,步骤3中获取目标词汇的目标词向量的具体步骤是:
S1、将目标词汇所在语句或段落中的所有词汇的向量值进行综合,得到原始特征向量;
S2、将目标词汇的每个释义中的多个语义元语的向量值进行综合得到释义的向量,形成候选特征向量集,其中候选特征向量数目等于释义数目;
S3、依次比对上述原始特征向量与各个候选特征向量,并保留相似度最高的候选特征向量所对应的释义,称为保留释义;
S4、根据保留释义中的语义元语词汇得到与其对应的基础词向量,即为得到目标词汇的词向量。
3.一种基于语义元语的词向量表征学习系统,其特征在于,能够实现以下功能:
输入模块:用于输入预设英语词典,获得预设英语词典中所有词汇所对应的语义元语词汇;
转换模块:用于根据获得的语义元语词汇得到与其对应的基础词向量;
获取模块:用于在预设英语词典中选取目标词汇,根据目标词汇在原语句或段落中的释义及基础词向量获取目标词汇的目标词向量。
CN201810883567.6A 2018-08-06 2018-08-06 一种基于语义元语的词向量表征学习方法及系统 Active CN109325224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810883567.6A CN109325224B (zh) 2018-08-06 2018-08-06 一种基于语义元语的词向量表征学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810883567.6A CN109325224B (zh) 2018-08-06 2018-08-06 一种基于语义元语的词向量表征学习方法及系统

Publications (2)

Publication Number Publication Date
CN109325224A true CN109325224A (zh) 2019-02-12
CN109325224B CN109325224B (zh) 2022-03-11

Family

ID=65263401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810883567.6A Active CN109325224B (zh) 2018-08-06 2018-08-06 一种基于语义元语的词向量表征学习方法及系统

Country Status (1)

Country Link
CN (1) CN109325224B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096697A (zh) * 2019-03-15 2019-08-06 华为技术有限公司 词向量矩阵压缩方法和装置、及获取词向量的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116573A (zh) * 2013-02-06 2013-05-22 北京理工大学 一种基于词汇注释的领域词典自动扩充方法
CN103473222A (zh) * 2013-09-16 2013-12-25 中央民族大学 一种藏语语义本体创建及词汇扩充方法
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置
CN104699819A (zh) * 2015-03-26 2015-06-10 浪潮集团有限公司 一种义原的分类方法及装置
CN105808521A (zh) * 2016-03-04 2016-07-27 北京工业大学 一种基于语义特征的语义关系模式获取方法和系统
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN107168950A (zh) * 2017-05-02 2017-09-15 苏州大学 一种基于双语语义映射的事件短语学习方法及装置
CN108205523A (zh) * 2016-12-19 2018-06-26 北京天广汇通科技有限公司 利用语料库训练稠密词向量的方法及装置
CN108280063A (zh) * 2018-01-19 2018-07-13 中国科学院软件研究所 基于半监督学习的语义分析方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116573A (zh) * 2013-02-06 2013-05-22 北京理工大学 一种基于词汇注释的领域词典自动扩充方法
CN103473222A (zh) * 2013-09-16 2013-12-25 中央民族大学 一种藏语语义本体创建及词汇扩充方法
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置
CN104699819A (zh) * 2015-03-26 2015-06-10 浪潮集团有限公司 一种义原的分类方法及装置
CN105808521A (zh) * 2016-03-04 2016-07-27 北京工业大学 一种基于语义特征的语义关系模式获取方法和系统
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN108205523A (zh) * 2016-12-19 2018-06-26 北京天广汇通科技有限公司 利用语料库训练稠密词向量的方法及装置
CN107168950A (zh) * 2017-05-02 2017-09-15 苏州大学 一种基于双语语义映射的事件短语学习方法及装置
CN108280063A (zh) * 2018-01-19 2018-07-13 中国科学院软件研究所 基于半监督学习的语义分析方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐共波 等: "基于知网义原词向量表示的无监督词义消歧方法", 《中文信息学报》 *
张津 等: "从单语词典中获取定义原语的一种方法", 《清华大学学报(自然科学版)》 *
赵虹杰: "中文情感词汇本体的扩充及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096697A (zh) * 2019-03-15 2019-08-06 华为技术有限公司 词向量矩阵压缩方法和装置、及获取词向量的方法和装置

Also Published As

Publication number Publication date
CN109325224B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN109616096B (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN109344403B (zh) 一种增强语义特征嵌入的文本表示方法
CN109408814B (zh) 基于释义基元词的中英跨语言词汇表征学习方法及系统
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
US20100106481A1 (en) Integrated system for recognizing comprehensive semantic information and the application thereof
Adel et al. Features for factored language models for code-Switching speech.
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
Goldberg et al. Joint Hebrew segmentation and parsing using a PCFGLA lattice parser
JP2019036093A (ja) モデル学習装置、変換装置、方法、及びプログラム
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN104899187A (zh) 人机交互的分词与语义标示的方法与系统
CN109325224A (zh) 一种基于语义元语的词向量表征学习方法及系统
CN107229613B (zh) 一种基于向量空间模型的英汉语料提取方法
Das et al. English to Indian languages machine transliteration system at NEWS 2010
KR20210035721A (ko) 다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템
KR102204395B1 (ko) 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
Mittal et al. Part of speech tagging of Punjabi language using N gram model
Lehal et al. Sangam: A Perso-Arabic to Indic script machine transliteration model
KR101409298B1 (ko) 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Soky et al. Building wfst based grapheme to phoneme conversion for khmer
KR20140079545A (ko) 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법
Dasgupta et al. A joint source channel model for the English to Bengali back transliteration
Lehal et al. An Omni-font Gurmukhi to Shahmukhi Transliteration System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant