CN103207913A - 商品细粒度语义关系的获取方法和系统 - Google Patents

商品细粒度语义关系的获取方法和系统 Download PDF

Info

Publication number
CN103207913A
CN103207913A CN2013101288666A CN201310128866A CN103207913A CN 103207913 A CN103207913 A CN 103207913A CN 2013101288666 A CN2013101288666 A CN 2013101288666A CN 201310128866 A CN201310128866 A CN 201310128866A CN 103207913 A CN103207913 A CN 103207913A
Authority
CN
China
Prior art keywords
commodity
characteristic
feature
classification
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101288666A
Other languages
English (en)
Other versions
CN103207913B (zh
Inventor
傅魁
刘平峰
聂规划
曹洪江
陈冬林
刘李利
游怀杰
朱孔真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201310128866.6A priority Critical patent/CN103207913B/zh
Publication of CN103207913A publication Critical patent/CN103207913A/zh
Application granted granted Critical
Publication of CN103207913B publication Critical patent/CN103207913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种商品细粒度语义关系的获取方法和系统,该方法包括从商品页面文档中获取待分类的商品候选属性;分析商品候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集,并构建实验特征库;对上述分类特征集进行过滤和优化,选择有效的分类特征集,并构建分类特征库;对已分类的属性特征集进行分类模型的训练与验证,评估分类结果并不断优化模型,直到获得满意的属性分类模型,获取更为准确的细粒度语义关系。本发明通过自动获取商品细粒度的语义关系,一方面有效解决目前电子商务智能化应用面临的商品本体粒度描述过粗,语义描述能力不足的难题;另一方面为快速、有效地构建大规模的细粒度商品本体提供方法指导。

Description

商品细粒度语义关系的获取方法和系统
技术领域
本发明涉及互联网中商品语义知识学习,特别涉及一种面向电子商务应用的商品细粒度语义关系的获取方法和系统。
背景技术
电子商务环境下,商品信息的交互需要明确、规范的商品本体。现有商品本体未考虑商品功能、性质、部件等粒度更细但具有广泛应用价值的商品知识,商品本体构建中面临细粒度语义关系匮乏的问题。
目前,直接针对商品细粒度语义关系获取的研究很少,现有相关研究主要是针对一般概念的几种特定语义关系获取。如Matthew等和Willem 等通过直接构造部件词汇模板的方法从文本获取概念的部件词汇。英国Essex大学的Poesio等对一般概念的属性分类问题进行了研究,其基本思路是:首先采用模板方法从文本中获取概念的候选属性集,然后提取每个候选属性的形态特征、聚类特征、提问模式特征、语用特征,最后运用决策树方法将候选属性集分为部件与相关主体、相关客体、活动、性质和非属性五种类型,分类结果平均精度达到0.799。
但上述研究都不以商品概念为对象,其分类类别与细粒度语义关系有很大差别,且中英文环境也存在差别,不能解决商品细粒度语义关系匮乏的问题,但对商品细粒度语义关系获取有一定借鉴意义。细粒度语义关系获取也可以看作是一个分类问题,其关键在于商品候选属性词汇分类特征的提取。
发明内容
本发明目的就是针对目前商品本体模型粒度过粗,难以满足电子商务应用中对细粒度商品知识的需求这一缺陷,引入现有商品本体未考虑的商品功能、性质、部件等粒度更细但具有广泛应用价值的商品知识,提出一种基于监督机器学习的商品细粒度语义关系获取方法和系统,为快速、高效地构建大规模细粒度商品本体提供方法指导,解决商品本体构建中面临的细粒度语义关系匮乏问题。
实现本发明目的采用的技术方案是:一种商品细粒度语义关系的获取方法,包括:
1)从商品页面文档中获取待分类的商品候选属性;
2)分析商品候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集,并构建实验特征库;
3)采用EWGA算法对上述分类特征集进行过滤和优化,选择有效的分类特征集,并构建分类特征库;
4)对已分类的属性特征集进行分类模型的训练与验证,评估分类结果并不断优化模型,直到获得满意的属性分类模型,获取更为准确的细粒度语义关系。
此外,本发明还提供一种商品细粒度语义关系的获取系统,包括:
商品属性获取模块,用于从商品页面文档中获取待分类的商品候选属性;
属性分类特征获取模块,用于分析商品候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集,并构建实验特征库;
有效分类特征集获取模块,采用EWGA算法对上述实验特征库中的分类特征集进行过滤和优化,选择有效的分类特征集,并构建分类特征库;
细粒度语义关系获取模块,对已分类的属性特征集进行分类模型的训练与验证,评估分类结果并不断优化模型,直到获得满意的属性分类模型,获取更为准确的细粒度语义关系。
本发明通过自动获取商品细粒度的语义关系,一方面有效解决目前电子商务智能化应用面临的商品本体粒度描述过粗,语义描述能力不足的难题;另一方面为快速、有效地构建大规模的细粒度商品本体提供方法指导。
附图说明
图1为本发明商品细粒度语义关系获取系统的流程图;
图2为商品候选属性词汇获取的流程图;
图3为商品属性分类的实验特征库构建的流程图。
具体实施方式
下面采用“笔记本电脑”这一商品概念为实施例,结合附图对本发明作进一步详细说明。
如图1所示,本发明商品细粒度语义关系的获取系统,包括:商品属性获取模块、属性分类特征获取模块、有效分类特征集获取模块和细粒度语义关系获取模块。
该系统的对商品细粒度语义关系的获取包括以下步骤:
S100、商品属性获取模块从商品页面文档中获取待分类的商品候选属性。
S200、属性分类特征获取模块分析商品候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集,并构建实验特征库。
S300、有效分类特征集获取模块采用EWGA算法对上述实验特征库中的分类特征集进行过滤和优化,选择有效的分类特征集,并构建分类特征库。
S400、细粒度语义关系获取模块对已分类的属性特征集进行分类模型的训练与验证,评估分类结果并不断优化模型,直到获得满意的属性分类模型,获取更为准确的细粒度语义关系。
本实施例步骤S100具体包括:
S101、利用网页抓取工具从商品Web论坛、淘宝网、联想官方网站等Web网站上获取与“笔记本电脑”相关的1000篇商品文档的Web页面,筛选后提取800篇有效的商品文档;
S102、滤除Web页面与文本无关的噪声信息,如html转义符、图片信息、视频信息等用来修饰页面的符号和内容,只获取纯文本内容,形成商品实验文档;
S103、根据中科院计算所的ICTCIAS分词系统对文档进行分词和词性标注,实现文本的预处理过程;文档标注策略采用双人工并行标注,标注文档的{文档ID,属性概念集,属性词汇集,属性词汇对应细粒度语义关系集,数据来源,数据日期},出现歧义时由专家排歧。
S104、根据Web 页面类型不同,选择基于模板、关联规则、信息抽取的方法获取相关商品概念的候选属性词汇,构成商品的候选属性词汇集;
本实施例步骤S200中获取属性分类特征集具体包括:
S201、从属性的构词特征、同现词特征、句式特征、语用特征和语义特征这五个角度分析候选属性词汇的分类特征,获取属性分类特征集。
其中,构词特征分析:如表1所示,不同类别商品属性的词性构成可能有区别。考虑到许多商品属性为名词复合短语或由其他词性派生而来的名词,词形上可根据前后缀线索、词形上可根据词性模板发现分类特征。所以可根据属性词汇的组成部分的词形、词性规律研究“笔记本电脑”这一概念属性的分类特征。
表1.不同类别属性术语的常见词性特征
同现词特征分析:如表2所示,不同类别商品属性的常用共现词也有一定规律。根据常用句式中的共现搭配词和属性类别特性的指示词来研究其分类特征。考虑到同现词表现了人们知识描述时的习惯,具有普遍性;由于语法和词法的规定,对于商品属性术语的表达方式是可以穷举的;针对不同类型的商品属性术语,同现词又具有明显差异性,有助于属性分类。
Figure BDA0000304950312
表2.不同类别商品属性的常用共现词
句式特征分析:如表3所示,不同类别商品属性的常用句式也不同。不同类别的属性术语会出现在不同的上下文句子模式中。句式特征包括提问句特征和陈述句特征,提问句特征主要是依靠对不同类型属性的不同提问词来指示属性术语的类型。本实施例表1、表2、表三只列出了部分内容,实际使用中可以自行扩充。
Figure BDA0000304950313
表3.不同类别商品属性的常用句式
语用特征分析:考察不同类别属性在各种文本中是更多的作为概念使用还是作为属性使用。商品的属性本身也是概念,但在语言描述时,作为概念与作为属性的表现方法是不同的。如部件属性和关联件属性既可作为商品概念使用,又可作为商品属性使用,而功能属性和性能属性等则只能作为属性词使用。
语义特征分析:中文知网 HowNet和中文语义词典SKCC 定义中定义的实体、部件、属性类、语义搭配等语义知识可用于判定候选属性词汇的类别。
S202、在将具有上述五类特征的商品属性特征集构建一个实验特征库,有待步骤S300对其进行优化选择,以获取有效的分类特征集。
本实施例步骤S300中采用EWGA算法从特征实验库中选择有效的分类特征集,包含以下步骤:
S301、用信息增益方法获取信息权重;本实施例采用夏农[Shannon,1948]的信息熵方法进行信息增益:IG(C,A)=H(C)-H(C〡A)。其中,IG(C,A)是特征A的信息增益。如果正负观点信息数量相等,则H(C)为1。另外,每个属性A的信息增益在0-1的范围内变化,越高的值意味着越高的信息增益,所有信息增益大于0.0025的特征将被采用。
S302、经过信息增益后的特征作为初始的遗传算法特征集总体;
S303、用适应性函数评价和选择特征集;
S304、在两个特征集最大信息增益区别范围下,完成特征集的交叉验证;
S305、通过信息增益权重改变特征集;传统的遗传算法改变器是依据一个稳定的改变概率Pm随机地改变特征集中的一个值。步骤3.5)中EWGA算法将信息增益融合进了改变概率中。改变器依据特征的信息增益进行设置,概率从0到1。同时还设置了1减去特征信息增益作为1到0的改变概率。
其中,Pm(A)是特征A的改变概率,IG(C,A)是特征A的信息增益,SA是特征集S中第A个位置的值,B是0-1之间的一个常量。
S306、重复S303和S305步骤直到终止标准被满足。
S307、最后将具有最大适应度的个体作为最优解输出,即有效、最优的分类特征集,构建分类特征库。
本实施例步骤S400中获取细粒度语义关系包含以下步骤:
S401、分类器构造:表4给出了“笔记本电脑”这一商品的细粒度语义关系,本实例以细粒度语义关系类别作为分类类别{功能属性,性质属性,部件属性,性能属性,商业属性};以分类特征集对应的向量作为特征向量,改进或设计机器学习算法、修正相关参数或条件,构造候选属性词汇分类器;利用计算机程序和人工标注样本完成分类器的训练和验证。本实施例中分类对象用特征向量形式表示,以分类特征集对应的向量作为特征向量。分类特征集的二维编码方式为:X=(x1,x2,……,xn),xi=0或1,i=1,2,……,n。xi取值为1时,表示此特征被选中;取值为0时,则此特征未被选中。
S402、分类器训练与验证:将已人工标注后的实验文档分为训练集和测试集,规模分别为500篇和300篇。采用训练集对分类器进行训练,用测试集对训练得到的分类器进行多层交叉检验。本实施例采用SMO算法对“笔记本电脑”商品进行训练验证。
Figure BDA0000304950315
表4 商品“笔记本电脑”的细粒度语义关系
S403、分类结果评价:采用信息抽取、文本分类研究中常用的准确率和召回率指标评价分类效果,并以 F值作为综合评价指标:
Figure BDA0000304950317
Figure BDA0000304950318
其中p为准确率,r为召回率,β是召回率和准确率的相对权重。
在步骤S403的分类结果基础上,本实施例采用准确率、精确度和F值评估分类效果,在本次实验中笔记本电脑正确分类率为0.8605,平均精确度达到了0.839,F值也达到0.848,这说明计算机将商品属性自动分入到五种属性类别中是切实可行的。
完成后,逐渐改变样本总体,分别采用SMO算法和决策树的J48算法再次经过步骤4.3)进行分类器的训练和验证。得出的结论是:①J48算法的建模速度比较快,效率高,而SMO算法的建模速度相对较慢,且算法检测运算大。②随着样本实例个数的不断增加,商品的正确分类率呈不断上升趋势,且J48算法的正确分类率始终高于SMO算法。
针对笔记本电脑样本,对比两种算法在各属性类别上的分类情况。得出的结论是:本实验在各个属性类别上,J48算法得出的精确度、召回率和F1值都等于或大于SMO算法,进一步说明了决策树的J48算法的分类效果更好。
S404、运用步骤S403中的评价指标验证分类器模型的有效性和可行性,若正确分类率、召回率等指标未能达到一定的分类要求标准,那么返回步骤(6)继续改进或重新构建分类器;若分类效果达到预期标准,可获得分类后的细粒度商品文档集,即功能属性子集、性质属性子集、部件属性子集、性能属性子集和商业属性子集或其他属性子集等。

Claims (6)

1.一种商品细粒度语义关系的获取方法和系统,其特征在于,包括:
1)从商品页面文档中获取待分类的商品候选属性;
2)分析商品候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集,并构建实验特征库;
3)采用EWGA算法对上述实验特征库进行过滤和优化,选择有效的分类特征集,并构建分类特征库;
4)对已分类的属性特征集进行分类模型的训练与验证,评估分类结果并不断优化模型,直到获得满意的属性分类模型,获取更为准确的细粒度语义关系。
2.根据权利要求1所述商品细粒度语义关系的获取方法,其特征在于,所述商品候选属性的获取包括以下步骤:
1.1)利用网页抓取工具从Web网站上获取相关商品的Web页面;
1.2)滤除所述Web页面中与文本无关的噪声信息,只获取纯文本内容,形成商品实验文档;
1.3)对所述商品实验文档进行分词和词性标注;
1.4)根据所述Web 页面的类型,选择基于模板、关联规则、信息抽取的方法获取相关商品概念的候选属性词汇,构成商品的候选属性词汇集。
3.根据权利要求1所述商品细粒度语义关系的获取方法,其特征在于:
2.1)从构词特征、同现词特征、句式特征、语用特征和语义特征这五个角度分析所述候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集;
2.2)将同时具有上述五个特征的商品属性特征集构建一个实验特征库。
4.根据权利要求1所述商品细粒度语义关系的获取方法,其特征在于,步骤2)具体包含:
3.1)用信息增益方法获取信息权重;
3.2)经过信息增益后的特征作为初始的遗传算法特征集总体;
3.3)用适应性函数评价和选择特征集;
3.4)在两个特征集最大信息增益区别范围下,完成特征集的交叉验证;
3.5)通过信息增益权重改变特征集;
3.6)重复3.3)和3.5)步骤直到终止标准被满足;
3.7)最后将具有最大适应度的个体作为最优解输出,即有效、最优的分类特征集,构建分类特征集,并构建实验特征库。
5.根据权利要求1所述商品细粒度语义关系的获取方法,其特征在于,获取细粒度语义关系包含以下步骤:
4.1)以细粒度语义关系类别作为分类类别,以分类特征集对应的向量作为特征向量,改进或设计机器学习算法、修正相关参数或条件,构造候选属性词汇分类器;
4.2)利用计算机程序和人工标注样本完成分类器的训练和验证,将已人工标注后的实验文档数据分为训练集和测试集,采用训练集对分类器进行训练,用测试集对训练得到的分类器进行多层交叉检验;
4.3)采用准确率和召回率指标评价所述分类器的分类效果,并以 F值作为综合评价指标:
Figure FDA0000304950301
Figure FDA0000304950302
Figure FDA0000304950303
其中p为准确率,r为召回率,β是召回率和准确率的相对权重;
4.4)运用步骤4.3)中的准确率、召回率和综合评价指标F验证分类器的有效性和可行性,若准确率和召回率指标未能达到一定的分类要求标准,那么返回步骤(4.1)继续改进或重新构建分类器;若分类效果达到预期标准,即获得分类后的细粒度商品文档集。
6.一种商品细粒度语义关系的获取系统,其特征在于,包括:
商品属性获取模块,用于从商品页面文档中获取待分类的商品候选属性;
属性分类特征获取模块,用于分析商品候选属性词汇的分类特征,确定属性类别,为每一个属性类别构建分类特征集,并构建实验特征库;
有效分类特征集获取模块,采用EWGA算法对上述实验特征库中的分类特征集进行过滤和优化,选择有效的分类特征集,并构建分类特征库;
细粒度语义关系获取模块,对已分类的属性特征集进行分类模型的训练与验证,评估分类结果并不断优化模型,直到获得满意的属性分类模型,获取更为准确的细粒度语义关系。
CN201310128866.6A 2013-04-15 2013-04-15 商品细粒度语义关系的获取方法和系统 Active CN103207913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310128866.6A CN103207913B (zh) 2013-04-15 2013-04-15 商品细粒度语义关系的获取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310128866.6A CN103207913B (zh) 2013-04-15 2013-04-15 商品细粒度语义关系的获取方法和系统

Publications (2)

Publication Number Publication Date
CN103207913A true CN103207913A (zh) 2013-07-17
CN103207913B CN103207913B (zh) 2016-12-28

Family

ID=48755134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310128866.6A Active CN103207913B (zh) 2013-04-15 2013-04-15 商品细粒度语义关系的获取方法和系统

Country Status (1)

Country Link
CN (1) CN103207913B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810156A (zh) * 2014-01-17 2014-05-21 浙江大学 利用二次语义标注的文本信息提取方法
CN105740223A (zh) * 2014-12-08 2016-07-06 联想(北京)有限公司 信息处理设备和信息处理方法
WO2016154965A1 (en) * 2015-04-01 2016-10-06 Xin Yingwei Structured item organizing mechanism in e-commerce
CN106294355A (zh) * 2015-05-14 2017-01-04 阿里巴巴集团控股有限公司 一种业务对象属性的确定方法及设备
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107656975A (zh) * 2017-09-05 2018-02-02 华南师范大学 一种主题地图的评估方法、系统和装置
CN107679103A (zh) * 2017-09-08 2018-02-09 口碑(上海)信息技术有限公司 用于实体的属性分析方法及系统
CN107704878A (zh) * 2017-10-09 2018-02-16 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN108307231A (zh) * 2018-02-14 2018-07-20 南京邮电大学 基于遗传算法的网络视频流特征选择与识别方法
CN109241297A (zh) * 2018-07-09 2019-01-18 广州品唯软件有限公司 一种内容分类聚合方法、电子设备、存储介质及引擎
CN109740335A (zh) * 2018-11-27 2019-05-10 武汉极意网络科技有限公司 验证码操作轨迹的分类方法及装置
CN110197187A (zh) * 2018-02-24 2019-09-03 腾讯科技(深圳)有限公司 对用户流失进行预测的方法、设备、存储介质以及处理器
CN111651512A (zh) * 2020-05-27 2020-09-11 福建博思软件股份有限公司 基于半监督学习的多源异构商品特征权重求解方法和装置
TWI707239B (zh) * 2018-07-18 2020-10-11 太米股份有限公司 元資料產生系統及方法
CN112784046A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 文本聚簇的方法、装置、设备及存储介质
CN112805715A (zh) * 2019-07-05 2021-05-14 谷歌有限责任公司 识别实体属性关系
CN113312910A (zh) * 2021-05-25 2021-08-27 华南理工大学 一种基于主题模型的本体学习方法、系统、装置及介质
CN115841120A (zh) * 2023-02-27 2023-03-24 文灵科技(北京)有限公司 一种基于方面词的主语义分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506767A (zh) * 2005-04-22 2009-08-12 谷歌公司 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
CN102467518A (zh) * 2010-11-05 2012-05-23 百度在线网络技术(北京)有限公司 一种用于在推广关键词中设置必要语义成分的方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506767A (zh) * 2005-04-22 2009-08-12 谷歌公司 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
CN102467518A (zh) * 2010-11-05 2012-05-23 百度在线网络技术(北京)有限公司 一种用于在推广关键词中设置必要语义成分的方法和设备

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810156B (zh) * 2014-01-17 2017-01-18 浙江大学 利用二次语义标注的文本信息提取方法
CN103810156A (zh) * 2014-01-17 2014-05-21 浙江大学 利用二次语义标注的文本信息提取方法
CN105740223A (zh) * 2014-12-08 2016-07-06 联想(北京)有限公司 信息处理设备和信息处理方法
CN105740223B (zh) * 2014-12-08 2019-04-26 联想(北京)有限公司 信息处理设备和信息处理方法
CN108027944B (zh) * 2015-04-01 2021-08-13 电子湾有限公司 电子商务中的结构化项目组织机制
CN108027944A (zh) * 2015-04-01 2018-05-11 电子湾有限公司 电子商务中的结构化项目组织机制
US10169800B2 (en) 2015-04-01 2019-01-01 Ebay Inc. Structured item organizing mechanism in e-commerce
US10991024B2 (en) 2015-04-01 2021-04-27 Ebay Inc. Structured item organizing mechanism in e-commerce
WO2016154965A1 (en) * 2015-04-01 2016-10-06 Xin Yingwei Structured item organizing mechanism in e-commerce
US11687991B2 (en) 2015-04-01 2023-06-27 Ebay Inc. Structured item organizing mechanism in e-commerce
CN106294355A (zh) * 2015-05-14 2017-01-04 阿里巴巴集团控股有限公司 一种业务对象属性的确定方法及设备
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107656975A (zh) * 2017-09-05 2018-02-02 华南师范大学 一种主题地图的评估方法、系统和装置
CN107656975B (zh) * 2017-09-05 2021-05-11 华南师范大学 一种主题地图的评估方法、系统和装置
CN107679103A (zh) * 2017-09-08 2018-02-09 口碑(上海)信息技术有限公司 用于实体的属性分析方法及系统
CN107704878A (zh) * 2017-10-09 2018-02-16 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN107704878B (zh) * 2017-10-09 2021-06-22 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN108307231A (zh) * 2018-02-14 2018-07-20 南京邮电大学 基于遗传算法的网络视频流特征选择与识别方法
CN108307231B (zh) * 2018-02-14 2021-01-08 南京邮电大学 基于遗传算法的网络视频流特征选择与分类方法
CN110197187A (zh) * 2018-02-24 2019-09-03 腾讯科技(深圳)有限公司 对用户流失进行预测的方法、设备、存储介质以及处理器
CN109241297B (zh) * 2018-07-09 2022-04-19 广州品唯软件有限公司 一种内容分类聚合方法、电子设备、存储介质及引擎
CN109241297A (zh) * 2018-07-09 2019-01-18 广州品唯软件有限公司 一种内容分类聚合方法、电子设备、存储介质及引擎
TWI707239B (zh) * 2018-07-18 2020-10-11 太米股份有限公司 元資料產生系統及方法
CN109740335A (zh) * 2018-11-27 2019-05-10 武汉极意网络科技有限公司 验证码操作轨迹的分类方法及装置
CN112805715A (zh) * 2019-07-05 2021-05-14 谷歌有限责任公司 识别实体属性关系
CN111651512A (zh) * 2020-05-27 2020-09-11 福建博思软件股份有限公司 基于半监督学习的多源异构商品特征权重求解方法和装置
CN112784046A (zh) * 2021-01-20 2021-05-11 北京百度网讯科技有限公司 文本聚簇的方法、装置、设备及存储介质
CN112784046B (zh) * 2021-01-20 2024-05-28 北京百度网讯科技有限公司 文本聚簇的方法、装置、设备及存储介质
CN113312910A (zh) * 2021-05-25 2021-08-27 华南理工大学 一种基于主题模型的本体学习方法、系统、装置及介质
CN115841120A (zh) * 2023-02-27 2023-03-24 文灵科技(北京)有限公司 一种基于方面词的主语义分析方法及系统

Also Published As

Publication number Publication date
CN103207913B (zh) 2016-12-28

Similar Documents

Publication Publication Date Title
CN103207913A (zh) 商品细粒度语义关系的获取方法和系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN102831184B (zh) 根据对社会事件的文字描述来预测社会情感的方法及系统
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN102737013B (zh) 基于依存关系来识别语句情感的设备和方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN109471937A (zh) 一种基于机器学习的文本分类方法及终端设备
CN103150333B (zh) 微博媒体中的意见领袖识别方法
CN106372061A (zh) 基于语义的短文本相似度计算方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN101609450A (zh) 基于训练集的网页分类方法
CN103034626A (zh) 情感分析系统及方法
CN104866572A (zh) 一种网络短文本聚类方法
CN102193936A (zh) 一种数据分类的方法及装置
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN104199822A (zh) 一种识别搜索对应的需求分类的方法和系统
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN111680131B (zh) 基于语义的文档聚类方法、系统及计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant