CN104036010A - 一种基于半监督cbow的用户搜索词主题分类的方法 - Google Patents

一种基于半监督cbow的用户搜索词主题分类的方法 Download PDF

Info

Publication number
CN104036010A
CN104036010A CN201410286532.6A CN201410286532A CN104036010A CN 104036010 A CN104036010 A CN 104036010A CN 201410286532 A CN201410286532 A CN 201410286532A CN 104036010 A CN104036010 A CN 104036010A
Authority
CN
China
Prior art keywords
word
classification
search word
user search
supervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410286532.6A
Other languages
English (en)
Other versions
CN104036010B (zh
Inventor
贺樑
杨河彬
徐晓枫
黄保荃
李明耀
倪敏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410286532.6A priority Critical patent/CN104036010B/zh
Publication of CN104036010A publication Critical patent/CN104036010A/zh
Application granted granted Critical
Publication of CN104036010B publication Critical patent/CN104036010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种基于半监督CBOW的用户搜索词主题分类的方法,其特点是运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类。本发明与现有技术相比不仅能够获取语法语义信息,还能从少量的带标注的文本中获得类别信息,使得用户搜索词向量在空间上面不同类别的数据分得更加开,提高了分类的准确性,有效解决了用户查询文本短的问题,方法简便,准确性好。

Description

一种基于半监督CBOW的用户搜索词主题分类的方法
技术领域
本发明涉及互联网信息搜索技术领域,特别是一种基于半监督CBOW的用户搜索词主题分类的方法。
背景技术
随着互联网技术的发展,互联网上的数字信息开始呈指数型增长。互联网上的信息资源繁多,来源也千差万别,人们要从信息的海洋当中获取自己需要的特定信息越来越困难。搜索引擎是人们在互联网上进行获取的主要工具。在搜索引擎中,通过用户查询主题分类能够直接或者间接反应用户的潜在兴趣和需求。正确的用户查询主题分类是现代搜索引擎的核心技术之一,能够为用户个性化应用、搜索引擎性能优化、定向广告投放及搜索用户行为分析起到了基础性的作用。比如用户在搜索引擎中提交查询“宝马汽车好不好”,我们可以将其分类到“汽车”类别当中,通过这个类别,我们可以在不损害用户体验的情况下投放汽车相关的广告,提高用户的广告点击率。
搜索引擎的使用需要输入搜索词,用户搜索词具有稀疏性、海量性和非规范性。单个搜索词长度一般都非常短,往往只有2到3个关键词,尤其用户在使用搜索引擎时往往不注意规范表达,错误拼写、缩写简写、网络流行词、专业术语、产品编号等非常多,很难抽取到有效的语言特征,然而搜索的频率又非常高,每天产生的用户搜索词条非常庞大,给用户搜索词分类提出了非常高的分类性能要求,大大增加了搜索词分类的难度。由于搜索词具有上面提到的语言特征,传统的文本表示方法及文本分类方法直接应用到用户搜索词上效果不佳,搜索词的特征稀疏性,基于词语共现程度来衡量文本相似度的方法不再有效,导致了分类不能取得理想的结果。
目前,解决上述问题的方法通常归结为两类:一类是借助外部文本,如搜索引擎返回的文档、维基百科等,扩展用户搜索词。另二类是利用主题模型挖掘词语之间的内在联系。由于搜索词短导致的特征稀疏性,基于词袋的用户搜索词表示方法及有监督的分类方法往往不能取得理想的结果。主要原因在于词语共现程度来衡量文本相似度的方法不再有效,导致了分类准确率不高。如q1:三星 笔记本,q2:联想 Y470,由于他们之间并没有共现的词,他们之间的相似度为0。但是由于“三星”与“联想”同样都是电脑品牌,“Y470”是联想笔记本里面的一个型号,二者表达的都是在寻找笔记本的相关信息。但是基于词袋的表示方法将每个词作为一个特征,并不考虑词与词之间的关系。然而为了解决这个问题,主要有两个解决方法,第一,利用文本进行扩充。但是在上面已经提到了,利用文本扩充的方法存在性能瓶颈,在实际使用当中受限。第二,利用主题进行扩充,比如将q1利用主题进行扩展得到q1’:三星 笔记本 Topic:数码 topic:数码,q2扩充的结果:联想 Y470 Topic:数码。利用主题之间的共现,增加二者的相关度。然而不管是事先定义的主题或者从大量文本训练出来的隐含主题,搜索词的很多词汇都不在里面,使得应用起来非常受限。第一类的解决方法,由于涉及到网页捉取、分词等一消耗较长的时间。另一方面分类准确性非常依赖扩充后的文本质量。由于搜索词的海量性及分类要求的实时性,使得该类方法在实际使用中非常受限。第二类的解决方法可以发现词与词之间的主题关系,但是对于主题当中不存在的词无能为力。由于搜索引擎的非规范性,要收集一个适合于搜索词主题关系挖掘的外部文本将非常困难。
现有技术的搜索查询分类主要基于文本扩充及主题扩充,由于需要外部的资源。在线的资源获取数据非常耗时,线下资源经常非常匮乏,寻找到一个合适的外部文本资源非常困难。并且传统基于词向量及有监督的文本分类方法常常没有办法取得预期的效果。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于半监督CBOW的用户搜索词主题分类的方法,采用半监督CBOW算法对搜索引擎的搜索数据及少量人工标注的数据建立含有语义、语法和类别信息的词向量模型,并利用词向量的线性组合形成用户搜索词向量,然后再进行分类,使得用户搜索词向量在空间上面不同类别的数据分得更加开,提高了分类的准确性,有效的解决了用户查询短的文本。
本发明的目的是这样实现的:一种基于半监督CBOW的用户搜索词主题分类的方法,其特点是运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类,具体按下述步骤进行:
(一)、 词向量模型的建立
将大量未标注和部分已标注的用户搜索词中大于一定阈值的词汇运用半监督CBOW算法建立一个d维实数空间的词向量模型;所述已标注的搜索词为人工标注或规则标注的搜索词;所述半监督CBOW算法采用由输入层、隐含层和输出层构成的三层神经网络语言模型,输入层将上下文词以向量形式输入隐含层,隐含层将输入的这些词的词向量进行累加;所述神经网络语言模型采用下述(a)式进行优化,并采用随机梯度下降法对神经网络进行最大化求解更新:
(a)
其中:为训练的用户搜索词中所观察到的词及其上下文的集合;
为给定词在上下文出现的概率,其中是给定词的左边个词与右边词构成其上下文信息;
为所有训练数据集当中有分类的集合,如果上下文属于用户搜索词,并且的类别为,那么就属于类别
为上下文属于类别的概率;
为类别信息及上下文的最大化目标比例;
(二)、分类器的建立
由词向量模型对已标注的用户搜索词采用向量加法得到已经标注的搜索词类别及其维向量,并以维向量作为搜索词的特征采用SVM或逻辑回归分类算法得到分类器;所述向量加法由下述(b)式计算:
(b)
其中:为用户搜索的d维向量,其中个词组成;
(三)、新搜索词的分类
由词向量模型对新用户搜索词按(b)式进行向量加法得到新搜索词向量,然后以该向量特征由上述建立的分类器进行主题分类。
本发明与现有技术相比不仅能够获取语法语义信息,还能从少量的带标注的文本中获得类别信息,使用户搜索词向量在空间上面不同类别的数据分得更加开,提高了分类的准确性,有效解决了用户查询文本短的问题,方法简便,准确性好。
附图说明
图1为本发明流程图;
图2为三层神经网络结构示意图。
具体实施方式
参阅附图1,本发明运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类,具体按下述步骤进行:
(一)、 词向量模型的建立
CBOW算法建立一个d维实数空间的词向量模型;所述已标注的搜索词为人工标注或规则标注的搜索词。
参阅附图2,所述半监督CBOW算法采用由输入层、隐含层和输出层构成的三层神经网络语言模型,输入层将上下文词以向量形式输入隐含层,隐含层将输入的这些词的词向量进行累加,如果输入层的上下文没有类别,则输出层只预测当前词的哈夫曼编码,如果该上下文,预测目标不仅仅要预测当前词,还要预测这个上下文的类别编码。
所述神经网络语言模型采用下述(a)式进行优化,并采用随机梯度下降法对神经网络进行最大化求解更新:
(a)
其中:为训练的用户搜索词中所观察到的词及其上下文的集合;
为给定词在上下文出现的概率,其中是给定词的左边个词与右边词构成其上下文信息;
为所有训练数据集当中有分类的集合,如果上下文属于用户搜索词,并且的类别为,那么就属于类别
为上下文属于类别的概率;
为类别信息及上下文的最大化目标比例。
(二)、分类器的建立
通过上面的词向量的学习,每个词对应一个的向量。但是用户搜索通常是由一个或者多个词组成的,利用向量加法得到用户搜索的向量。所述向量加法由下述(b)式计算:
(b)
其中:为用户搜索的d维向量,其中个词组成。
由词向量模型对已标注的用户搜索词采用向量加法得到已经标注的搜索词类别及其维向量,将这维向量作为搜索词的特征,然后采用SVM或逻辑回归的分类算法训练得到一个分类器。
(三)、新搜索词的分类
新用户搜索词由一个或者多个词构成,由词向量模型对新用户搜索词按(b)式进行向量加法得到新搜索词向量,然后以该向量特征由上述建立的分类器进行主题分类。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。

Claims (1)

1.一种基于半监督CBOW的用户搜索词主题分类的方法,其特征在于运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类,具体按下述步骤进行:
(一)、 词向量模型的建立
将大量未标注和部分已标注的用户搜索词中大于一定阈值的词汇运用半监督CBOW算法建立一个d维实数空间的词向量模型;所述已标注的搜索词为人工标注或规则标注的搜索词;所述半监督CBOW算法采用由输入层、隐含层和输出层构成的三层神经网络语言模型,输入层将上下文词以向量形式输入隐含层,隐含层将输入的这些词的词向量进行累加;所述神经网络语言模型采用下述(a)式进行优化,并采用随机梯度下降法对神经网络进行最大化求解更新:
(a)
其中:为训练的用户搜索词中所观察到的词及其上下文的集合;
为给定词在上下文出现的概率,其中是给定词的左边个词与右边词构成其上下文信息;
为所有训练数据集当中有分类的集合;
为上下文属于类别的概率;
为类别信息及上下文的最大化目标比例;
(二)、分类器的建立
由词向量模型对已标注的用户搜索词采用向量加法得到已经标注的搜索词类别及其维向量,并以维向量作为搜索词的特征采用SVM或逻辑回归分类算法得到分类器;所述向量加法由下述(b)式计算:
(b)
其中:为用户搜索的d维向量,其中个词组成;
(三)、新搜索词的分类
由词向量模型对新用户搜索词按(b)式进行向量加法得到新搜索词向量,然后以该向量特征由上述建立的分类器进行主题分类。
CN201410286532.6A 2014-06-25 2014-06-25 一种基于半监督cbow的用户搜索词主题分类的方法 Active CN104036010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410286532.6A CN104036010B (zh) 2014-06-25 2014-06-25 一种基于半监督cbow的用户搜索词主题分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410286532.6A CN104036010B (zh) 2014-06-25 2014-06-25 一种基于半监督cbow的用户搜索词主题分类的方法

Publications (2)

Publication Number Publication Date
CN104036010A true CN104036010A (zh) 2014-09-10
CN104036010B CN104036010B (zh) 2017-05-24

Family

ID=51466780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410286532.6A Active CN104036010B (zh) 2014-06-25 2014-06-25 一种基于半监督cbow的用户搜索词主题分类的方法

Country Status (1)

Country Link
CN (1) CN104036010B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN106021562A (zh) * 2016-05-31 2016-10-12 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN106557563A (zh) * 2016-11-15 2017-04-05 北京百度网讯科技有限公司 基于人工智能的查询语句推荐方法及装置
CN106816148A (zh) * 2015-11-30 2017-06-09 三星电子株式会社 语音识别设备和方法
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107836000A (zh) * 2015-07-07 2018-03-23 触摸式有限公司 用于语言建模和预测的改进的人工神经网络
CN108596687A (zh) * 2018-05-09 2018-09-28 南京大学 一种基于哈希学习的广告定向投放方法
CN109478250A (zh) * 2016-06-30 2019-03-15 微软技术许可有限责任公司 具有用于语言建模和预测的副输入的人工神经网络
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统
CN111866609A (zh) * 2019-04-08 2020-10-30 百度(美国)有限责任公司 用于生成视频的方法和装置
US11205110B2 (en) 2016-10-24 2021-12-21 Microsoft Technology Licensing, Llc Device/server deployment of neural network data entry system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205061A1 (en) * 2003-04-14 2004-10-14 Nec Corporation System and method for searching information
CN101339555A (zh) * 2008-07-22 2009-01-07 深圳钱袋商务有限公司 一种信息搜索和显示方法及系统
US20100030735A1 (en) * 2003-12-08 2010-02-04 Andy Curtis Methods and systems for providing a response to a query
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205061A1 (en) * 2003-04-14 2004-10-14 Nec Corporation System and method for searching information
US20100030735A1 (en) * 2003-12-08 2010-02-04 Andy Curtis Methods and systems for providing a response to a query
CN101339555A (zh) * 2008-07-22 2009-01-07 深圳钱袋商务有限公司 一种信息搜索和显示方法及系统
CN102831246A (zh) * 2012-09-17 2012-12-19 中央民族大学 藏文网页分类方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张宇等: "基于URL主题的查询分类方法", 《计算机研究与发展》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104573046B (zh) * 2015-01-20 2018-07-31 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
US11797822B2 (en) 2015-07-07 2023-10-24 Microsoft Technology Licensing, Llc Neural network having input and hidden layers of equal units
CN107836000B (zh) * 2015-07-07 2022-04-01 微软技术许可有限责任公司 用于语言建模和预测的改进的人工神经网络方法、电子设备
CN107836000A (zh) * 2015-07-07 2018-03-23 触摸式有限公司 用于语言建模和预测的改进的人工神经网络
CN106816148A (zh) * 2015-11-30 2017-06-09 三星电子株式会社 语音识别设备和方法
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN106021562A (zh) * 2016-05-31 2016-10-12 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN106021562B (zh) * 2016-05-31 2019-05-24 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN109478250A (zh) * 2016-06-30 2019-03-15 微软技术许可有限责任公司 具有用于语言建模和预测的副输入的人工神经网络
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
US11205110B2 (en) 2016-10-24 2021-12-21 Microsoft Technology Licensing, Llc Device/server deployment of neural network data entry system
CN106557563A (zh) * 2016-11-15 2017-04-05 北京百度网讯科技有限公司 基于人工智能的查询语句推荐方法及装置
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107437038B (zh) * 2017-08-07 2021-07-06 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108596687A (zh) * 2018-05-09 2018-09-28 南京大学 一种基于哈希学习的广告定向投放方法
CN108596687B (zh) * 2018-05-09 2021-07-09 南京大学 一种基于哈希学习的广告定向投放方法
CN111866609A (zh) * 2019-04-08 2020-10-30 百度(美国)有限责任公司 用于生成视频的方法和装置
CN111866609B (zh) * 2019-04-08 2022-12-13 百度(美国)有限责任公司 用于生成视频的方法和装置
CN110457475A (zh) * 2019-07-25 2019-11-15 阿里巴巴集团控股有限公司 一种用于文本分类体系构建和标注语料扩充的方法和系统

Also Published As

Publication number Publication date
CN104036010B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN104036010A (zh) 一种基于半监督cbow的用户搜索词主题分类的方法
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN102207945B (zh) 基于知识网络的文本标引系统及其方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
Xu et al. Exploiting shared information for multi-intent natural language sentence classification.
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN103440314A (zh) 一种基于Ontology的语义检索方法
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN106557563A (zh) 基于人工智能的查询语句推荐方法及装置
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
Sha et al. A user requirement oriented Web service discovery approach based on logic and threshold Petri net
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN104850650A (zh) 基于类标关系的短文本扩充方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN108170678A (zh) 一种文本实体抽取方法与系统
CN101650729A (zh) 一种Web服务构件库动态构造方法及其服务检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant