CN105930318A - 一种词向量训练方法及系统 - Google Patents

一种词向量训练方法及系统 Download PDF

Info

Publication number
CN105930318A
CN105930318A CN201610218878.1A CN201610218878A CN105930318A CN 105930318 A CN105930318 A CN 105930318A CN 201610218878 A CN201610218878 A CN 201610218878A CN 105930318 A CN105930318 A CN 105930318A
Authority
CN
China
Prior art keywords
word
vector
training
term vector
training objective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610218878.1A
Other languages
English (en)
Other versions
CN105930318B (zh
Inventor
傅向华
李晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201610218878.1A priority Critical patent/CN105930318B/zh
Publication of CN105930318A publication Critical patent/CN105930318A/zh
Application granted granted Critical
Publication of CN105930318B publication Critical patent/CN105930318B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用计算机技术领域,提供了一种词向量训练方法及系统,在该方法中,对训练样本文档中每个训练目标词执行词向量训练步骤时,获取训练目标词在训练样本文档中上下文窗口内的窗口词,使用Skip‑gram模型预测每个窗口词的出现概率,更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量,通过预设的公式更新训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量,进而计算CBOW模型的混合拼接向量,将混合拼接向量设置为CBOW模型投影层的输入,使用CBOW模型预测训练目标词的出现概率,最后更新训练目标词的词向量和Huffman树中每一个非叶子节点对应的中间向量,提高了训练目标词词向量的准确度。

Description

一种词向量训练方法及系统
技术领域
本发明属于计算机技术领域,尤其涉及一种词向量训练方法及系统。
背景技术
近年来,词向量已经成为自然语言处理领域中一种非常流行的工具,传统的文本处理方法一般以词为基本特征,将词表示为二进制编码的词向量,使用这种表示方式的词向量不仅容易产生特征稀疏性问题,而且任意两个词之间相互独立,无法正确捕捉到隐含在词语之间的语义及词法关联。为了解决这一问题,分布式词向量应运而生。分布式词向量将词语表示为一个浓密的、低维的实值向量,每一维代表词语的一个特征属性,各词向量之间只需进行简单的余弦计算即可挖掘出词语间的各种关联,过程简单方便,易于实现。
因此,如何有效获取高质量的词向量一直是自然语言处理及文本挖掘中的一个重要课题。谷歌(Google)公司提出了一款开源工具word2vec,该工具提供的词向量训练模型具有结构简单、训练速度快、能处理大规模语料等优点,深受广大研究者的喜爱。然而,该工具提供的模型不能同时兼顾上下文局部语境、全局语境和词语之间的语序关系,导致词向量训练的准确度不高。
发明内容
本发明的目的在于提供一种词向量训练方法及系统,旨在解决由于现有技术无法提供一种有效的词向量训练方法,导致词向量训练准确度不高的问题。
一方面,本发明提供了一种词向量训练方法,所述方法包括下述步骤:
预先构建包括训练目标词的词典,对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化,所述训练目标词的词向量形成一词向量库;
对预设的训练样本文档进行扫描,对扫描到的每个所述训练目标词执行预设的词向量训练步骤,以得到每个训练目标词的词向量;
所述词向量训练步骤包括:
获取所述训练目标词在所述训练样本文档中上下文窗口内的窗口词,使用Skip-gram模型预测每个所述窗口词的出现概率,更新所述窗口词在所述词向量库中对应的词向量和所述Huffman树中所述训练目标词对应编码路径中每一个非叶子节点对应的中间向量;
根据更新后的所述窗口词的词向量,通过预设的公式更新所述训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量;
根据所述更新后的全局文本向量和所述递增式局部输入向量,计算所述CBOW模型的混合拼接向量,将所述混合拼接向量设置为所述CBOW模型投影层的输入;
使用所述CBOW模型预测所述训练目标词的出现概率,更新所述训练目标词的词向量和所述Huffman树中每一个非叶子节点对应的中间向量。
另一方面,本发明提供了一种词向量训练系统,所述系统包括:
向量初始化单元,用于预先构建包括训练目标词的词典,对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化,所述训练目标词的词向量形成一词向量库;以及
词向量训练单元,用于对预设的训练样本文档进行扫描,对扫描到的每个所述训练目标词执行预设的词向量训练步骤,以得到每个训练目标词的词向量;
所述词向量训练单元包括:
第一向量更新单元,用于获取所述训练目标词在所述训练样本文档中上下文窗口内的窗口词,使用Skip-gram模型预测每个所述窗口词的出现概率,更新所述窗口词在所述词向量库中对应的词向量和所述Huffman树中所述训练目标词对应编码路径中每一个非叶子节点对应的中间向量;
向量计算单元,用于根据更新后的所述窗口词的词向量,通过预设的公式更新所述训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量;
输入设置单元,用于根据所述更新后的全局文本向量和所述递增式局部输入向量,计算所述CBOW模型的混合拼接向量,将所述混合拼接向量设置为所述CBOW模型投影层的输入;以及
第二向量更新单元,用于使用所述CBOW模型预测所述训练目标词的出现概率,更新所述训练目标词的词向量和所述Huffman树中每一个非叶子节点对应的中间向量。
在本发明实施例中,在对词向量进行训练时,使用Skip-gram模型预测上下文窗口内每个窗口词的出现概率,更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量,根据更新后的全局文本向量和计算得到的递增式局部输入向量计算CBOW模型的混合拼接向量,将混合拼接向量设置为CBOW模型投影层的输入,从而结合训练目标词的上下文局部语境、全局语境和词语之间的语序关系对训练目标词的词向量进行训练,提高了词向量的训练准确度。
附图说明
图1是本发明实施例一提供的词向量训练方法的实现流程图;
图2是本发明实施例一提供的词向量训练方法的实现流程图;
图3是本发明实施例二提供的词向量训练系统的结构示意图;以及
图4是本发明实施例二提供的词向量训练系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的词向量训练方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,预先构建包括训练目标词的词典,对训练目标词的词向量和Huffman树中的所有非叶子节点对应的中间向量进行初始化,训练目标词的词向量形成一词向量库。
在本发明实施例中,可预先构建包括训练目标词的词典,具体地,可对涉及某一类型或科目的文本进行分词、去停用词、去高低频词,从而构造出对应的词典。优选地,可使用中科院的ICTCLAS2015分词系统,该分词系统具有新词发现、关键词提取等功能,并支持用户自定义词典导入。另外,还需要为词典中的训练目标词构建词向量和对应的Huffman树。在构建Huffman树时,可根据词频大小进行构建,词典中所有词的词频都位于树中的叶子节点处,每个叶子节点和非叶子节点都唯一地对应一个向量。
优选地,对训练目标词的词向量进行初始化时,可引入外部样本集或常识知识库对词典中每个训练目标词进行预训练,以对词典中每个训练目标词的词向量进行初始化,从而得到为每个训练目标词提供比较精确的初始化值,以提高词向量训练的速度。优选地,常识知识库采用Wordnet或Hownet知识库。
在步骤S102中,对预设的训练样本文档进行扫描,对扫描到的每个训练目标词执行预设的词向量训练步骤,以得到每个训练目标词的词向量。
在本发明实施例中,在对构建好的词典中的训练目标词进行训练时,需要提供大量的训练样本文档,在具体实施过程中,可根据系统对词向量准确度的要求输入对应数量的训练样本文档,以在保证词向量准确度的前提下,提高词向量的训练速度。
优选地,在本发明实施例中,如图2所示,通过图示步骤对扫描到的每个训练目标词执行预设的词向量训练步骤。
在步骤S201中,获取训练目标词在训练样本文档中上下文窗口内的窗口词,使用Skip-gram模型预测每个窗口词的出现概率,更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量。
在本发明实施例中,应首先设置词向量训练时训练目标词的上下文窗口的大小,优选地,上下文窗口的大小设置为10。之后使用Skip-gram(ContinuousSkip-gramModel)模型依次预测该上下文窗口中每个词语(为了便于描述,将窗口中的词语记为窗口词)的出现概率,进而更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量,这样,可以使窗口词和训练目标词之间建立某种语义联系,这种语义联系体现在自然语言的表达中,通过窗口词词向量的各个维度反映出来,并通过训练目标词对应编码路径中各非叶子节点对应的中间向量保存下来,用于下一次训练。
在步骤S202中,根据更新后的窗口词的词向量,通过预设的公式更新训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量。
在本发明实施例中,可通过预设的公式更新训练样本文档的全局文本向量,例如,可先通过词频-逆文档频率(TF-IDF)权重计算方法抽取出能够代表训练样本文档特征的词语,然后将这些词的权重组合在一起构成一个全局文本向量。另外,也可以使用词频或者逆文档频率计算各个词语的权重,然后将各个词的权重组合在一起构成一个全局文本向量。当然,也可以通过其他模型训练得到全局文本向量,如可通过PV-DBOW、PV-DM方法获得。
优选地,可通过公式计算或更新全局文本向量g(C(w)),其中wi表示训练样本文档中第i个词语,V(wi)表示词语wi对应的词向量,K表示训练样本文档中的词语总数,βi表示词wi在训练样本文档中的权重,这样,可简化全局文本向量的计算,同时可保证训练的准确率,有助于提高训练速度。
在计算CBOW(Continuous Bag-Of-Words Model,连续词袋模型)模型的递增式局部输入向量时,可通过累加、求平均值、或者向量拼接的方式。优选地,使用拼接方式计算CBOW模型的递增式局部输入向量,从而可保留词语内部顺序。
在步骤S203中,根据更新后的全局文本向量和递增式局部输入向量,计算CBOW模型的混合拼接向量,将混合拼接向量设置为CBOW模型投影层的输入。
在本发明实施例中,根据更新后的全局文本向量和递增式局部输入向量,计算CBOW模型的混合拼接向量。具体地,通过下述方式进行拼接:若向量的维度为d,词wj的递增式局部输入向量为C(wj)=[v1,v2,…,vd],wj在当前窗口内对应的全局文本向量为g(C(w))=[v’1,v’2,…,v’d],则混合拼接向量为[v1,v2,…,vd,v’1,v’2,…,v’d],该向量维度为2d。在得到CBOW模型的混合拼接向量后,将混合拼接向量设置为CBOW模型投影层的输入,从而可将局部和全局语境结合起来预测训练目标词,并更新训练目标词和其对应路径上的中间节点对应的中间向量,而且使用拼接方式还可以保留词语之间的内部语序关系,使得窗口词和训练目标词之间的语义联系更强,训练得到的词向量表达更加准确。
在步骤S204中,使用CBOW模型预测训练目标词的出现概率,更新训练目标词的词向量和Huffman树中每一个非叶子节点对应的中间向量。
在本发明实施例中,在对词向量进行训练时,使用Skip-gram模型预测上下文窗口内每个窗口词的出现概率,更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量,根据更新后的全局文本向量和计算得到的递增式局部输入向量计算CBOW模型的混合拼接向量,将混合拼接向量设置为CBOW模型投影层的输入,从而结合训练目标词的上下文局部语境、全局语境和词语之间的语序关系对训练目标词的词向量进行训练,提高了词向量的训练准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图3示出了本发明实施例二提供的词向量训练系统的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
向量初始化单元31,用于预先构建包括训练目标词的词典,对训练目标词的词向量和Huffman树中的所有非叶子节点对应的中间向量进行初始化,训练目标词的词向量形成一词向量库;以及
词向量训练单元32,用于对预设的训练样本文档进行扫描,对扫描到的每个训练目标词执行预设的词向量训练步骤,以得到每个训练目标词的词向量。
优选地,如图4所示,本发明实施例提供的词向量训练系统的词向量训练单元32包括:
第一向量更新单元321,用于获取训练目标词在训练样本文档中上下文窗口内的窗口词,使用Skip-gram模型预测每个窗口词的出现概率,更新窗口词在词向量库中对应的词向量和Huffman树中训练目标词对应编码路径中每一个非叶子节点对应的中间向量;
向量计算单元322,用于根据更新后的窗口词的词向量,通过预设的公式更新训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量;
输入设置单元323,用于根据更新后的全局文本向量和递增式局部输入向量,计算CBOW模型的混合拼接向量,将混合拼接向量设置为CBOW模型投影层的输入;以及
第二向量更新单元324,用于使用CBOW模型预测训练目标词的出现概率,更新训练目标词的词向量和Huffman树中每一个非叶子节点对应的中间向量。
具体地,向量计算单元322可包括更新子单元,用于根据更新后的窗口词的词向量,通过公式更新全局文本向量g(C(w)),其中wi表示训练样本文档中第i个词语,V(wi)表示词语wi对应的词向量,K表示训练样本文档中的词语总数,βi表示词wi在训练样本文档中的权重。
具体地,向量初始化单元31可包括第一初始化单元,用于引入外部样本集对词典中每个训练目标词进行预训练,以对词典中每个训练目标词的词向量进行初始化。
具体地,向量初始化单元31也可以包括第二初始化单元,用于引入常识知识库对词典中每个训练目标词进行预训练,以对词典中每个训练目标词的词向量进行初始化。其中,常识知识库为Wordnet或Hownet。
在本发明实施例中,词向量训练系统的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考前述实施例的描述,不此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种词向量训练方法,其特征在于,所述方法包括下述步骤:
预先构建包括训练目标词的词典,对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化,所述训练目标词的词向量形成一词向量库;
对预设的训练样本文档进行扫描,对扫描到的每个所述训练目标词执行预设的词向量训练步骤,以得到每个训练目标词的词向量;
所述词向量训练步骤包括:
获取所述训练目标词在所述训练样本文档中上下文窗口内的窗口词,使用Skip-gram模型预测每个所述窗口词的出现概率,更新所述窗口词在所述词向量库中对应的词向量和所述Huffman树中所述训练目标词对应编码路径中每一个非叶子节点对应的中间向量;
根据更新后的所述窗口词的词向量,通过预设的公式更新所述训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量;
根据所述更新后的全局文本向量和所述递增式局部输入向量,计算所述CBOW模型的混合拼接向量,将所述混合拼接向量设置为所述CBOW模型投影层的输入;
使用所述CBOW模型预测所述训练目标词的出现概率,更新所述训练目标词的词向量和所述Huffman树中每一个非叶子节点对应的中间向量。
2.如权利要求1所述的方法,其特征在于,根据更新后的所述窗口词的词向量,通过预设的公式更新所述训练样本文档的全局文本向量的步骤,包括:
根据更新后的所述窗口词的词向量,通过公式更新所述全局文本向量g(C(w)),其中所述wi表示所述训练样本文档中第i个词语,V(wi)表示词语wi对应的词向量,K表示所述训练样本文档中的词语总数,βi表示词wi在所述训练样本文档中的权重。
3.如权利要求1所述的方法,其特征在于,对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化的步骤,包括:
引入外部样本集对所述词典中每个所述训练目标词进行预训练,以对所述词典中每个所述训练目标词的词向量进行初始化。
4.如权利要求1所述的方法,其特征在于,对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化的步骤,包括:
引入常识知识库对所述词典中每个所述训练目标词进行预训练,以对所述词典中每个所述训练目标词的词向量进行初始化。
5.如权利要求4所述的方法,其特征在于,所述常识知识库为Wordnet或Hownet。
6.一种词向量训练系统,其特征在于,所述系统包括:
向量初始化单元,用于预先构建包括训练目标词的词典,对所述训练目标词的词向量和所述Huffman树中的所有非叶子节点对应的中间向量进行初始化,所述训练目标词的词向量形成一词向量库;以及
词向量训练单元,用于对预设的训练样本文档进行扫描,对扫描到的每个所述训练目标词执行预设的词向量训练步骤,以得到每个训练目标词的词向量;
所述词向量训练单元包括:
第一向量更新单元,用于获取所述训练目标词在所述训练样本文档中上下文窗口内的窗口词,使用Skip-gram模型预测每个所述窗口词的出现概率,更新所述窗口词在所述词向量库中对应的词向量和所述Huffman树中所述训练目标词对应编码路径中每一个非叶子节点对应的中间向量;
向量计算单元,用于根据更新后的所述窗口词的词向量,通过预设的公式更新所述训练样本文档的全局文本向量,并计算CBOW模型的递增式局部输入向量;
输入设置单元,用于根据所述更新后的全局文本向量和所述递增式局部输入向量,计算所述CBOW模型的混合拼接向量,将所述混合拼接向量设置为所述CBOW模型投影层的输入;以及
第二向量更新单元,用于使用所述CBOW模型预测所述训练目标词的出现概率,更新所述训练目标词的词向量和所述Huffman树中每一个非叶子节点对应的中间向量。
7.如权利要求6所述的系统,其特征在于,所述向量计算单元包括:
更新子单元,用于根据更新后的所述窗口词的词向量,通过公式更新所述全局文本向量g(C(w)),其中所述wi表示所述训练样本文档中第i个词语,V(wi)表示词语wi对应的词向量,K表示所述训练样本文档中的词语总数,βi表示词wi在所述训练样本文档中的权重。
8.如权利要求6所述的系统,其特征在于,所述向量初始化单元包括:
第一初始化单元,用于引入外部样本集对所述词典中每个所述训练目标词进行预训练,以对所述词典中每个所述训练目标词的词向量进行初始化。
9.如权利要求6所述的系统,其特征在于,所述向量初始化单元包括:
第二初始化单元,用于引入常识知识库对所述词典中每个所述训练目标词进行预训练,以对所述词典中每个所述训练目标词的词向量进行初始化。
10.如权利要求9所述的系统,其特征在于,所述常识知识库为Wordnet或Hownet。
CN201610218878.1A 2016-04-11 2016-04-11 一种词向量训练方法及系统 Expired - Fee Related CN105930318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610218878.1A CN105930318B (zh) 2016-04-11 2016-04-11 一种词向量训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610218878.1A CN105930318B (zh) 2016-04-11 2016-04-11 一种词向量训练方法及系统

Publications (2)

Publication Number Publication Date
CN105930318A true CN105930318A (zh) 2016-09-07
CN105930318B CN105930318B (zh) 2018-10-19

Family

ID=56840491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610218878.1A Expired - Fee Related CN105930318B (zh) 2016-04-11 2016-04-11 一种词向量训练方法及系统

Country Status (1)

Country Link
CN (1) CN105930318B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776534A (zh) * 2016-11-11 2017-05-31 北京工商大学 词向量模型的增量式学习方法
CN106897265A (zh) * 2017-01-12 2017-06-27 北京航空航天大学 词向量训练方法及装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107273352A (zh) * 2017-06-07 2017-10-20 北京理工大学 一种基于Zolu函数的词嵌入学习模型及训练方法
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN107563150A (zh) * 2017-08-31 2018-01-09 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备
CN108228554A (zh) * 2016-12-09 2018-06-29 富士通株式会社 基于语义表示模型来生成词向量的方法、装置和电子设备
CN108304376A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 文本向量的确定方法、装置、存储介质及电子装置
CN108595634A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 短信管理方法、装置及电子设备
CN108897896A (zh) * 2018-07-13 2018-11-27 深圳追科技有限公司 基于强化学习的关键词抽取方法
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109271636A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109308353A (zh) * 2018-09-17 2019-02-05 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109308354A (zh) * 2018-09-17 2019-02-05 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109543191A (zh) * 2018-11-30 2019-03-29 重庆邮电大学 一种基于词语关系能量最大化的词向量学习方法
CN109584643A (zh) * 2018-11-05 2019-04-05 深圳大学 一种语言能力训练方法及其系统
CN109615153A (zh) * 2017-09-26 2019-04-12 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109684637A (zh) * 2018-12-21 2019-04-26 济南浪潮高新科技投资发展有限公司 一种文本特征的综合运用方法
CN109858031A (zh) * 2019-02-14 2019-06-07 北京小米智能科技有限公司 神经网络模型训练、上下文预测方法及装置
CN109858013A (zh) * 2018-06-01 2019-06-07 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109903854A (zh) * 2019-01-25 2019-06-18 电子科技大学 一种基于中医药文献的核心药物识别方法
CN110019775A (zh) * 2017-09-04 2019-07-16 南方电网传媒有限公司 一种网络短文本分类的优化系统及方法
CN110096576A (zh) * 2018-01-31 2019-08-06 奥多比公司 从教程中自动生成用于搜索和用户导航的指令
CN110162766A (zh) * 2018-02-12 2019-08-23 深圳市腾讯计算机系统有限公司 词向量更新方法和装置
CN110297918A (zh) * 2019-06-25 2019-10-01 深圳市酷开网络科技有限公司 一种计算影视内容相关程度的方法、智能终端及存储介质
CN110348469A (zh) * 2019-05-21 2019-10-18 广东工业大学 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
CN110413779A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种针对电力行业的词向量训练方法及其系统、介质
CN110717340A (zh) * 2019-09-29 2020-01-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN110807646A (zh) * 2018-08-06 2020-02-18 北京京东尚科信息技术有限公司 数据分析方法、装置和计算机可读存储介质
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN111538817A (zh) * 2019-01-18 2020-08-14 北京京东尚科信息技术有限公司 人机交互方法和装置
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN113312396A (zh) * 2021-05-12 2021-08-27 上海哲锦信息科技有限公司 一种基于大数据的元数据处理方法及设备
CN116108790A (zh) * 2023-04-12 2023-05-12 广州智慧城市发展研究院 一种模拟电路版图结构化特性表示方法及相关组件

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MANAAL FARUQUI ET AL: "RetrofittingWord Vectors to Semantic Lexicons", 《CORNELL UNIVERSITY LIBRARY》 *
XIN RONG ET AL: "word2vec Parameter Learning Explained", 《CORNELL UNIVERSITY LIBRARY》 *
朱雪梅: "基于Word2Vec主题提取的微博推荐", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776534B (zh) * 2016-11-11 2020-02-11 北京工商大学 词向量模型的增量式学习方法
CN106776534A (zh) * 2016-11-11 2017-05-31 北京工商大学 词向量模型的增量式学习方法
CN108228554A (zh) * 2016-12-09 2018-06-29 富士通株式会社 基于语义表示模型来生成词向量的方法、装置和电子设备
CN106897265A (zh) * 2017-01-12 2017-06-27 北京航空航天大学 词向量训练方法及装置
CN106897265B (zh) * 2017-01-12 2020-07-10 北京航空航天大学 词向量训练方法及装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107273352A (zh) * 2017-06-07 2017-10-20 北京理工大学 一种基于Zolu函数的词嵌入学习模型及训练方法
CN107273352B (zh) * 2017-06-07 2020-07-14 北京理工大学 一种基于Zolu函数的词嵌入学习模型及训练方法
CN109101476A (zh) * 2017-06-21 2018-12-28 阿里巴巴集团控股有限公司 一种词向量生成、数据处理方法和装置
CN107563150B (zh) * 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN107563150A (zh) * 2017-08-31 2018-01-09 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
CN110019775A (zh) * 2017-09-04 2019-07-16 南方电网传媒有限公司 一种网络短文本分类的优化系统及方法
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN107480143B (zh) * 2017-09-12 2020-05-29 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN109615153A (zh) * 2017-09-26 2019-04-12 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN109615153B (zh) * 2017-09-26 2023-06-16 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备
CN108304376A (zh) * 2017-12-15 2018-07-20 腾讯科技(深圳)有限公司 文本向量的确定方法、装置、存储介质及电子装置
CN108304376B (zh) * 2017-12-15 2021-09-10 腾讯科技(深圳)有限公司 文本向量的确定方法、装置、存储介质及电子装置
CN110096576A (zh) * 2018-01-31 2019-08-06 奥多比公司 从教程中自动生成用于搜索和用户导航的指令
CN110096576B (zh) * 2018-01-31 2023-10-27 奥多比公司 自动分割文本的方法、系统和存储介质
CN110162766A (zh) * 2018-02-12 2019-08-23 深圳市腾讯计算机系统有限公司 词向量更新方法和装置
CN108595634A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 短信管理方法、装置及电子设备
CN108595634B (zh) * 2018-04-25 2023-05-30 腾讯科技(深圳)有限公司 短信管理方法、装置及电子设备
CN109858013B (zh) * 2018-06-01 2022-12-16 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109858013A (zh) * 2018-06-01 2019-06-07 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
WO2020010955A1 (zh) * 2018-07-13 2020-01-16 深圳追一科技有限公司 基于强化学习的关键词抽取方法、计算机设备和存储介质
CN108897896A (zh) * 2018-07-13 2018-11-27 深圳追科技有限公司 基于强化学习的关键词抽取方法
CN109086270B (zh) * 2018-07-24 2022-03-01 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN110807646A (zh) * 2018-08-06 2020-02-18 北京京东尚科信息技术有限公司 数据分析方法、装置和计算机可读存储介质
CN109308353A (zh) * 2018-09-17 2019-02-05 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109308354A (zh) * 2018-09-17 2019-02-05 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109308353B (zh) * 2018-09-17 2023-08-15 鼎富智能科技有限公司 词嵌入模型的训练方法及装置
CN109271636B (zh) * 2018-09-17 2023-08-11 鼎富智能科技有限公司 词嵌入模型的训练方法及装置
CN109271636A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109635273A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109584643A (zh) * 2018-11-05 2019-04-05 深圳大学 一种语言能力训练方法及其系统
CN109543191A (zh) * 2018-11-30 2019-03-29 重庆邮电大学 一种基于词语关系能量最大化的词向量学习方法
CN109543191B (zh) * 2018-11-30 2022-12-27 重庆邮电大学 一种基于词语关系能量最大化的词向量学习方法
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN109684637A (zh) * 2018-12-21 2019-04-26 济南浪潮高新科技投资发展有限公司 一种文本特征的综合运用方法
CN111538817A (zh) * 2019-01-18 2020-08-14 北京京东尚科信息技术有限公司 人机交互方法和装置
CN109903854A (zh) * 2019-01-25 2019-06-18 电子科技大学 一种基于中医药文献的核心药物识别方法
CN109858031A (zh) * 2019-02-14 2019-06-07 北京小米智能科技有限公司 神经网络模型训练、上下文预测方法及装置
US11615294B2 (en) 2019-02-14 2023-03-28 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and apparatus based on position relation-based skip-gram model and storage medium
CN109858031B (zh) * 2019-02-14 2023-05-23 北京小米智能科技有限公司 神经网络模型训练、上下文预测方法及装置
CN110348469A (zh) * 2019-05-21 2019-10-18 广东工业大学 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
CN110297918A (zh) * 2019-06-25 2019-10-01 深圳市酷开网络科技有限公司 一种计算影视内容相关程度的方法、智能终端及存储介质
CN110413779B (zh) * 2019-07-16 2022-05-03 深圳供电局有限公司 一种针对电力行业的词向量训练方法及其系统、介质
CN110413779A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种针对电力行业的词向量训练方法及其系统、介质
CN110717340A (zh) * 2019-09-29 2020-01-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN110717340B (zh) * 2019-09-29 2023-11-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN113312396A (zh) * 2021-05-12 2021-08-27 上海哲锦信息科技有限公司 一种基于大数据的元数据处理方法及设备
CN113312396B (zh) * 2021-05-12 2024-04-19 上海哲锦信息科技有限公司 一种基于大数据的元数据处理方法及设备
CN116108790A (zh) * 2023-04-12 2023-05-12 广州智慧城市发展研究院 一种模拟电路版图结构化特性表示方法及相关组件

Also Published As

Publication number Publication date
CN105930318B (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN105930318A (zh) 一种词向量训练方法及系统
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN104915340B (zh) 自然语言问答方法及装置
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN109635273A (zh) 文本关键词提取方法、装置、设备及存储介质
CN108268441A (zh) 句子相似度计算方法和装置及系统
CN104281649A (zh) 一种输入方法、装置及电子设备
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
CN105095178B (zh) 实现文本语义容错理解的方法及系统
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
US20220215177A1 (en) Method and system for processing sentence, and electronic device
CN107092605A (zh) 一种实体链接方法及装置
CN108664465A (zh) 一种自动生成文本方法以及相关装置
CN109961041A (zh) 一种视频识别方法、装置及存储介质
CN110263332A (zh) 一种基于神经网络的自然语言关系抽取方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN108831442A (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN105468704A (zh) 面向舞美场景设计的快速创意生成方法
CN108491380A (zh) 用于口语理解的对抗多任务训练方法
CN105929979A (zh) 长句输入方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181019

CF01 Termination of patent right due to non-payment of annual fee