CN103995805A - 面向文本大数据的词语处理方法 - Google Patents
面向文本大数据的词语处理方法 Download PDFInfo
- Publication number
- CN103995805A CN103995805A CN201410247336.8A CN201410247336A CN103995805A CN 103995805 A CN103995805 A CN 103995805A CN 201410247336 A CN201410247336 A CN 201410247336A CN 103995805 A CN103995805 A CN 103995805A
- Authority
- CN
- China
- Prior art keywords
- word
- model
- score
- gram model
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向文本大数据的词语处理方法,该方法包括:步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0-1区间内的均匀分布产生;步骤2:使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型;步骤3:利用神经网络模型,计算该N-gram模型的得分;步骤4:用一随机词替换该N-gram模型的中间位置词,并计算替换后模型的得分;步骤5:利用反向传播算法更新N-gram模型中的N维词向量,最终得到嵌入空间的词特征;步骤6:针对基于所述语料库所构造的每一组N-gram模型,重复步骤3-5,从而更新所有词的特征向量。
Description
技术领域
本发明涉及计算文本处理领域,尤其是文本大数据中的词语计算方法。
背景技术
近年来,人们创造数据的能力已经大大超过了获取信息的能力,各种数据呈现爆炸式增长。文本作为最通用的数据类型,是知识传播和信息交流的主要载体,因此研究文本大数据显得格外重要。
虽然机器学习技术在文本挖掘、自然语言处理领域的广泛应用使得该领域取得了明显的进展,但是文本中词语的计算处理方法上却鲜有突破。
目前,词语作为最小计算单元,主要以N维向量的形式存在,彼此之间无任何语义关联。例如,当以三维向量表示三个词:飞机、火车、企业;它们分别会表示为:飞机—[1,0,0],火车—[0,1,0],企业—[0,0,1]。这种词语处理方式无法集成任何具有语义特性的先验知识,同时,向量空间随着词的增多而爆炸增加,且向量空间十分稀疏,极大增加后续的文本挖掘、自然语言处理的计算难度。
发明内容
本发明的目的就是为了克服传统向量表示方法的局限,提供一种新的词语处理方法,本方法能够降低文本处理的计算复杂性。
为了解决上述技术问题,本发明公开了一种面向文本大数据的词语嵌入空间特征处理方法,包括:步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0-1区间内的均匀分布产生;步骤2:使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型;步骤3:利用神经网络模型,计算该N-gram模型的得分;步骤4:用一随机词替换该N-gram模型的中间位置词,并计算替换后模型的得分;步骤5:利用反向传播算法更新N-gram模型中的N维词向量,最终得到嵌入空间的词特征;步骤6:针对基于所述语料库所构造的每一组N-gram模型,重复步骤3-5,从而更新所有词的特征向量。
与现有技术相比,本发明具有以下优点:
1、利用N维嵌入空间表示词语,可以反应词的内在特性;
2、词语特征不随词汇量的增大而增大,降低计算复杂性;
3、通过机器自动处理词语,形成词语特征,不再依赖人工定义特征集合。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法结构图;
图2示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法实例图;以及
图3示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法结果图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参考图1至图3,根据本发明的一个实施方式,提供了一种面向文本大数据的词语处理方法,该方法可以包括:
步骤1:从(例如大数据)文本语料库T中选择多个词语,针对该多个词语的每一个词语均构建一个K维特征向量,其中该特征向量各维度初值可由0-1区间内的均匀分布产生;其中,从文本语料库中选择多个词语可以包括:对所述文本语料库进行分词;去除停用词后,统计分词后各词语出现的词频;以及选择词频大于设定阈值的词语;
步骤2:使用N-gram(即N元语法模型,可以表示连续的N个字符组成的字符串,其中N为大于1的整数)的方法将文本表示为由一组特征向量组合成的N-gram特征向量,其可以称为N-gram模型,即为图2中的投影层;
步骤3:利用神经网络模型,计算该N-gram模型的得分(Score);
步骤4:用一随机词替换该N-gram模型的中间位置词,并计算替换后模型的得分(Score’);
步骤5:利用反向传播算法更新N-gram模型中的N维词向量,最终得到嵌入空间的词特征;
步骤6:针对基于该语料库T所构造的每一组N-gram模型,重复步骤3-5,从而更新所有词的特征向量。
其中步骤1可以包括以下步骤:
步骤1.1:对文本语料库T进行分词,统计分词后词语的词频;
步骤1.2:对于频率大于δ的词集V=[v1,v2,...,vn]中的每个词语,构建一个K维向量来表示该词,记为vi=[f1,f2,...,fk];该向量的初值由0-1区间的均匀分布产生;对于频率小于δ的词则直接丢弃;
步骤1.3:构造词集矩阵LookupTable=[V1,V2,...,Vn]。
其中步骤2可以包括以下步骤:
步骤2.1:利用N-gram方法,将语料库T表示为[w1,w2,...,wn]的集合形式,N一般为大于1小于10的整数,为表示方便,以下示例仅以N=5来说明本发明的具体步骤;
步骤2.2:在步骤1.3构造的词集矩阵LookupTable基础上,查找N-gram模型中出现的词构造LT=[wi-2,wi-1,wi,wi+1,wi+2]向量;
其中步骤3可以包括以下步骤:
步骤3.1:在步骤2.2得到的N-gram模型的特征向量LT=[wi-2,wi-1,wi,wi+1,wi+2]的基础上,根据公式(1)对该特征向量做线性变换(即为图1中的线性变换层)后根据公式(2)计算sigmoid值(即为图1的Sigmoid变换层),具体计算公式如下表示:
f=W·LT+b (1)
步骤3.2:在步骤3.1的基础上,用公式(3)计算N-gram模型的得分(Score)。
score(g)=Wscore·g+bscore (3)
其中,在公式(1)、(2)(3)中,f表示线性转换,W(或Wscroe)表示模型的权重矩阵,LT为特征向量,b为函数偏置。
其中步骤4可以包括以下步骤:
步骤4.1:将步骤3中的N-gram模型的中间词替换为词集矩阵中的随机词,得到新特征向量LT'=[wi-2,wi-1,w'i,wi+1,wi+2],并利用步骤3.1、3.2中的公式(1)、(2)、(3)计算该替换后的N-gram模型的得分score(g')。
其中步骤5可以包括以下步骤:
步骤5.1:以公式(4)为目标函数,利用反向传播算法,更新N-gram模型的特征向量LT=[wi-2,wi-1,wi,wi+1,wi+2],即更新该N-gram模型中词的嵌入空间的特征;
在公式(4)中,J为模型的目标函数,T表示训练样本个数。
发明人要说明的是本文中提到的N-gram模型、计算模型得分以及利用神经网络进行的处理是为所属领域技术人员公知的技术或方法,这里不再赘述。
图2示出了示出了根据本发明实施方式的一种面向文本大数据的词语处理方法的算法实例图。具体来说,步骤如下:
步骤1:假设语料库中有一语句为“让人类平等认识世界”,通过分词后,构造5-gram模型;
步骤2:通过词集矩阵找到相应词的特征向量,并投影构造5-gram特征向量LT=[w1,w2,w3,w4,w5];
步骤3:在图2的隐藏层中,对向量LT利用公式(1)、(2)计算隐藏层的输出向量g;
步骤4:利用公式(3)计算该5-gram模型的得分score;
步骤5:随机替换5-gram模型的中间词,例如,改为[让,人类,百科,认识,世界],重复步骤2-4,得到修改后的得分score’;
步骤6:以为目标函数,利用反向传播算法更新5-gram模型中的词向量,更新该5-gram模型中词的嵌入空间的特征表示;
步骤7:对于语料库T中的所有5-gram,重复步骤2-6,最终实现对词语的处理,得到词的特征向量。
图3为利用该方法得到词的特征向量,并利用余弦相似度计算词语相似性得到的结果。该结果显示本发明对文本大数据中词语的处理方法,能够很好的反应词间相似性。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (5)
1.一种面向文本大数据的词语处理方法,该方法包括:
步骤1:从文本语料库中选择多个词语,针对该多个词语中的每一个词语构建一个K维特征向量,该特征向量的各维度初值由0-1区间内的均匀分布产生;
步骤2:使用N元语法模型N-gram方法将文本表示为由一组特征向量组合成的N-gram模型;
步骤3:利用神经网络模型,计算该N-gram模型的得分;
步骤4:用一随机词替换该N-gram模型的中间位置词,并计算替换后模型的得分;
步骤5:利用反向传播算法更新N-gram模型中的N维词向量,最终得到嵌入空间的词特征;
步骤6:针对基于所述语料库所构造的每一组N-gram模型,重复步骤3-5,从而更新所有词的特征向量。
2.根据权利要求1所述的方法,其中,从文本语料库中选择多个词语包括:
对所述文本语料库进行分词;
去除停用词后,统计分词后各词语出现的词频;以及
选择词频大于设定阈值的词语。
3.根据权利要求1所述的方法,其中,所述步骤3包括以下步骤:
在所述N-gram模型的特征向量LT=[wi-2,wi-1,wi,wi+1,wi+2]的基础上,根据公式(1)对该特征向量作线性变换后根据公式(2)计算sigmoid值:
f=W·LT+b 公式(1)
以及,根据公式(3)计算所述N-gram模型的得分:
score(g)=Wscore·g+bscore 公式(3),
f表示线性转换,W和Wscroe表示模型的权重矩阵,LT为特征向量,b为函数偏置。
4.根据权利要求3所述的方法,其中,所述步骤4包括以下步骤:
将步骤3中的N-gram模型的中间词替换为词集矩阵中的随机词,得到新特征向量LT'=[wi-2,wi-1,w'i,wi+1,wi+2],并利用公式(1)、公式(2)和公式(3)计算该N-gram模型的得分score(g')。
5.根据权利要求4所述的方法,其中,步骤5包括以下步骤:
以为目标函数,利用反向传播算法,更新N-gram模型的特征向量LT=[wi-2,wi-1,wi,wi+1,wi+2],
J为模型的目标函数,T表示训练样本个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410247336.8A CN103995805B (zh) | 2014-06-05 | 2014-06-05 | 面向文本大数据的词语处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410247336.8A CN103995805B (zh) | 2014-06-05 | 2014-06-05 | 面向文本大数据的词语处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103995805A true CN103995805A (zh) | 2014-08-20 |
CN103995805B CN103995805B (zh) | 2016-08-17 |
Family
ID=51309974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410247336.8A Active CN103995805B (zh) | 2014-06-05 | 2014-06-05 | 面向文本大数据的词语处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103995805B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485105A (zh) * | 2014-12-31 | 2015-04-01 | 中国科学院深圳先进技术研究院 | 一种电子病历生成方法和电子病历系统 |
CN104598611A (zh) * | 2015-01-29 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 对搜索条目进行排序的方法及系统 |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
US9659560B2 (en) | 2015-05-08 | 2017-05-23 | International Business Machines Corporation | Semi-supervised learning of word embeddings |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
WO2019149076A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN110795936A (zh) * | 2019-08-14 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
CN102662931A (zh) * | 2012-04-13 | 2012-09-12 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
US8694305B1 (en) * | 2013-03-15 | 2014-04-08 | Ask Ziggy, Inc. | Natural language processing (NLP) portal for third party applications |
-
2014
- 2014-06-05 CN CN201410247336.8A patent/CN103995805B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
CN102662931A (zh) * | 2012-04-13 | 2012-09-12 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
US8694305B1 (en) * | 2013-03-15 | 2014-04-08 | Ask Ziggy, Inc. | Natural language processing (NLP) portal for third party applications |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485105B (zh) * | 2014-12-31 | 2018-04-13 | 中国科学院深圳先进技术研究院 | 一种电子病历生成方法和电子病历系统 |
CN104485105A (zh) * | 2014-12-31 | 2015-04-01 | 中国科学院深圳先进技术研究院 | 一种电子病历生成方法和电子病历系统 |
CN104598611B (zh) * | 2015-01-29 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 对搜索条目进行排序的方法及系统 |
CN104598611A (zh) * | 2015-01-29 | 2015-05-06 | 百度在线网络技术(北京)有限公司 | 对搜索条目进行排序的方法及系统 |
US9659560B2 (en) | 2015-05-08 | 2017-05-23 | International Business Machines Corporation | Semi-supervised learning of word embeddings |
US9672814B2 (en) | 2015-05-08 | 2017-06-06 | International Business Machines Corporation | Semi-supervised learning of word embeddings |
US9947314B2 (en) | 2015-05-08 | 2018-04-17 | International Business Machines Corporation | Semi-supervised learning of word embeddings |
CN106682236A (zh) * | 2017-01-19 | 2017-05-17 | 高域(北京)智能科技研究院有限公司 | 基于机器学习的专利数据处理方法及其处理系统 |
WO2019149076A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
US10824819B2 (en) | 2018-02-05 | 2020-11-03 | Alibaba Group Holding Limited | Generating word vectors by recurrent neural networks based on n-ary characters |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
CN110795936A (zh) * | 2019-08-14 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110795936B (zh) * | 2019-08-14 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103995805B (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103995805A (zh) | 面向文本大数据的词语处理方法 | |
US11934791B2 (en) | On-device projection neural networks for natural language understanding | |
Neelakantan et al. | Efficient non-parametric estimation of multiple embeddings per word in vector space | |
Chelba et al. | One billion word benchmark for measuring progress in statistical language modeling | |
Qian et al. | Learning tag embeddings and tag-specific composition functions in recursive neural network | |
Miura et al. | A simple scalable neural networks based model for geolocation prediction in twitter | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN109508379A (zh) | 一种基于加权词向量表示和组合相似度的短文本聚类方法 | |
CN106909537B (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
CN111414749B (zh) | 基于深度神经网络的社交文本依存句法分析系统 | |
Yang et al. | Comprehend deepwalk as matrix factorization | |
CN103150383B (zh) | 一种短文本数据的事件演化分析方法 | |
Jiang et al. | Long document ranking with query-directed sparse transformer | |
Liu et al. | Deep Boltzmann machines aided design based on genetic algorithms | |
CN107273337A (zh) | 一种图构建与矩阵分解联合学习的推荐方法 | |
Li et al. | PSDVec: A toolbox for incremental and scalable word embedding | |
Melamud et al. | Information-theory interpretation of the skip-gram negative-sampling objective function | |
Artemov et al. | Informational neurobayesian approach to neural networks training. Opportunities and prospects | |
Yang et al. | Text classification based on convolutional neural network and attention model | |
Zahari et al. | Evaluation of sustainable development indicators with fuzzy TOPSIS based on subjective and objective weights | |
CN101419798A (zh) | 用于簇集音素模型的装置、方法和程序 | |
Delin et al. | Heuristic simulated annealing genetic algorithm for traveling salesman problem | |
CN110879838A (zh) | 一种放开域问答系统 | |
CN114065769B (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
Xing et al. | A novel social network structural balance based on the particle swarm optimization algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |