CN111611376B - 基于用户生成文本的无监督学习的用户分类方法及装置 - Google Patents
基于用户生成文本的无监督学习的用户分类方法及装置 Download PDFInfo
- Publication number
- CN111611376B CN111611376B CN202010298884.9A CN202010298884A CN111611376B CN 111611376 B CN111611376 B CN 111611376B CN 202010298884 A CN202010298884 A CN 202010298884A CN 111611376 B CN111611376 B CN 111611376B
- Authority
- CN
- China
- Prior art keywords
- text
- user
- vector
- token
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 84
- 238000012512 characterization method Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000000513 principal component analysis Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 229920000433 Lyocell Polymers 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于用户生成文本的无监督学习的用户分类方法,包括:获取用户生成文本,生成文本表征向量;使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;计算每一个用户的特征值,得到用户特征向量;使用无监督聚类算法对用户特征向量进行聚类,得到用户分类结果。不需要标注数据,仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类,方法简单快捷。
Description
技术领域
本发明涉及用户分类技术领域,具体地涉及一种基于用户生成文本的无监督学习的用户分类方法及装置。
背景技术
用户分类是数据挖掘的一个重要应用领域,通过将用户划分成不同的类别,确定不同用户群体的需求,为不同的用户群体推送相应的信息,以实现信息精确的定向推送,个性化服务、智能营销,社交等。根据互联网用户的相似性,对他们进行分类,可有益于广泛的应用领域,如个性化服务,智能推荐,智能营销,社交等。
当前最新的技术方案包括基于用户使用应用程序的数据进行用户分类,无监督学习方法确定用户的拓扑关系特征进而确定用户类别,基于提取的用户画像特征确定用户类型和对用户操作应用程序的功能序列的词嵌入矩阵进行聚类等。例如公告号为CN110837862 A的专利公开了一种用户分类方法包括:获取用户在应用中的操作数据,并进行分析以得到由所述用户在所述应用中顺序使用的功能所组成的功能序列;对所述用户的功能序列中的每个功能的名称进行词嵌入处理,得到所述每个功能对应的向量;将所述功能序列中每个功能对应的向量顺序进行组合,得到对应所述用户的功能序列矩阵;对多个用户分别对应的功能序列矩阵进行聚类处理,得到每个功能序列矩阵对应的用户所属的类别。通过该发明,能够根据用户使用的功能序列对用户进行准确分类。
但是,这些用户分类方法通常需要花费很大代价设计、提取及处理所需数据且依赖特定的数据;应用于某种特定的业务场景,通用性不足。
发明内容
为了解决上述存在的技术问题,本发明提出了一种基于用户生成文本的无监督学习的用户分类方法及装置,不需要标注数据,仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类,方法简单快捷。
本发明的技术方案是:
一种基于用户生成文本的无监督学习的用户分类方法,包括以下步骤:
S01:获取用户生成文本,生成文本表征向量;
S02:使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
S03:计算用户的特征值,得到用户特征向量;
S04:使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
优选的技术方案中,所述步骤S01中包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为文本表征向量,文本表征向量为768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值。
优选的技术方案中,所述步骤S03中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值。
优选的技术方案中,使用欧式距离计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量。
优选的技术方案中,使用余弦相似度计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数。
本发明还公开了一种基于用户生成文本的无监督学习的用户分类装置,包括:
文本表征向量生成模块,获取用户生成文本,生成文本表征向量;
第一聚类模块,使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
用户特征向量提取模块,计算用户的特征值,得到用户特征向量;
第二聚类模块,使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
优选的技术方案中,所述文本表征向量生成模块生成文本表征向量的方法包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为文本表征向量,文本表征向量为768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值。
优选的技术方案中,所述用户特征向量提取模块中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值。
优选的技术方案中,使用欧式距离计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量。
优选的技术方案中,使用余弦相似度计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数。
与现有技术相比,本发明的优点是:
本发明基于用户生成文本(UGT)生成文本表征向量,并进行聚类,将得到的文本类别作为用户特征,计算量小,同时能保证一定的准确率。将用户生成文本在文本类内与对应的类中心的相似度,进行用户表征的确定,同样计算量小,并且能够较准确表征用户的特征。
本发明的方法不需要标注数据,仅仅基于用户生成文本(UGT)进行两次无监督聚类即能实现用户分类,方法简单快捷。具有广泛的应用前景。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明基于用户生成文本的无监督学习的用户分类方法的流程图;
图2为本发明将用户特征从96维降维到2维后的用户分类结果示意图;
图3为本发明将用户特征从96维降维到3维后的用户分类结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,一种基于用户生成文本的无监督学习的用户分类方法,包括以下步骤:
S01:获取用户生成文本,生成文本表征向量;
S02:使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果,将得到的文本聚类结果中的文本类别作为用户特征;
S03:计算用户的特征值,得到用户特征向量;
S04:使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
下面对每一步骤进行具体说明:
步骤S01中,可以通过爬虫程序获取用户生成文本,例如采用爬虫程序从优酷网站爬取电视剧的弹幕。
一、生成文本表征向量
BERT是一个强大的语言表征模型并已在大量的NLP任务中被证明具有state-of-the-art的效果。本发明先使用BERT获取生成文本的每个token(中文字或者英文词)对应的表征向量,然后对文本所有tokens的表征向量取平均并将结果向量作为文本表征向量。文本表征向量有768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每个STi通过公式1计算。由于每个token的表征向量都包含了上下文信息,因此文本表征向量就包含了整个文本的语义信息。
其中,NT表示tokens的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值。
二、文本聚类
使用无监督聚类算法对所有文本的文本表征向量进行聚类,得到文本聚类结果,将得到的文本聚类结果中的文本类别作为用户特征。每一个文本类别都代表了一种特征,不同的文本类别代表不同的特征。如果一个用户生成的文本属于某个文本类,则该用户具有该文本类的特征。本发明可以采用任意的无监督聚类算法,例如,K均值聚类、分层聚类、基于密度的扫描聚类(DBSCAN)、高斯聚类模型等等。
三、用户特征提取
通过计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值Fi,用向量U=(F1,F2,F3,…,Fn)表示用户特征,对于欧式距离,使用公式2计算用户特征值;对于余弦相似度,使用公式3计算用户特征值。用户生成的某文本在文本类内与对应的类中心相似度越大,则该文本对用户特征的贡献越大。
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,/>表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数(即文本聚类个数),T是一个预设常量,不小于文本类内两个成员欧式距离的最大值。
四、用户特征聚类
使用无监督聚类算法对用户特征向量进行聚类,聚类结果即是用户分类结果。该无监督聚类算法可以为,K均值聚类、分层聚类、基于密度的扫描聚类(DBSCAN)、高斯聚类模型等等。
下面以具体的实例进行说明:
该实施例采用爬虫程序从优酷网站爬取了2019年7月5日评分最高的5个电视剧的弹幕。由于本实施例将BERT支持的最大序列长度设置为32,故将长度超过30个字的弹幕删除。同时将非活跃用户的弹幕移除(即属于某用户的所有弹幕总数低于50)。最终供本实施例使用的弹幕信息如下表所示:
Item | Result |
弹幕数量 | 1,000,000 |
平均弹幕长度 | 8.7 |
弹幕生成者数量 | 6481 |
在Google colab(25.51GB RAM and 48.97GB disk)上使用预训练中文版BERT(chinese L-12H-768A-12)对所有弹幕生成tokens表征向量,然后通过取平均的方法计算每个弹幕的表征向量,每个弹幕的表征向量为768维,每个元素为float32类型。下表列出了BERT的使用配置。
使用了一种相似度可控的聚类算法SCC(SCC的使用配置如下表所示)在腾讯云服(64GB RAM)上将所有弹幕聚成了96个类别。每个类都具有很好的内聚性,类内任意成员间具有很好的相似度。
Item | Value |
优化机制 | 分片和压缩 |
最小类成员个数 | 1000 |
相似度度量 | Euclidean距离 |
TSP | 18 |
分片大小 | 4000 |
聚类顺序 | 从稠密到稀疏 |
基于弹幕聚类结果,设置公式2中的T为30,计算得到用户特征向量(矩阵)为6481行96列(即6481个用户,每个用户有96维特征)。本实例再次使用了相似度可控的聚类算法SCC对用户特征进行了聚类,使用设置如下表所示:
Item | Value |
优化机制 | 分片和压缩 |
最小类成员个数 | 50 |
相似度度量 | Euclidean距离 |
TSP | 11 |
分片大小 | 500 |
聚类顺序 | 从稠密到稀疏 |
将用户聚成了6类,每个类中任意两两用户都具有较强的相似性,下表列出了用户聚类结果。
采用主成分分析技术(PCA)将用户特征从96维降维到2维的用户分类结果,如图2所示。
采用主成分分析技术(PCA)将用户特征从96维降维到3维后的用户分类结果,如图3所示。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (2)
1.一种基于用户生成文本的无监督学习的用户分类方法,其特征在于,包括以下步骤:
S01:获取用户生成文本,生成文本表征向量;
所述步骤S01中包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为该文本的表征向量,文本表征向量用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值;
S02:使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
S03:计算用户特征值,得到用户特征向量;
所述步骤S03中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值;
使用欧式距离计算用户特征向量U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量;或者
使用余弦相似度计算用户特征向量U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数;
S04:使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
2.一种基于用户生成文本的无监督学习的用户分类装置,其特征在于,包括:
文本表征向量生成模块,获取用户生成文本,生成文本表征向量;
所述文本表征向量生成模块生成文本表征向量的方法包括以下步骤:
S11:获取用户生成文本的每个token对应的表征向量;
S12:对文本所有token的表征向量取平均并将结果向量作为文本表征向量,文本表征向量为768维,用ST=(ST1,ST2,ST3,…,ST768)表示,每一维STi通过下述公式计算:
其中,NT表示token的个数,表示第j个token的表征向量的第i维的值,STi表示文本表征向量ST的第i维的值;
第一聚类模块,使用无监督聚类算法对所有文本表征向量进行聚类,得到文本聚类结果;将得到的文本聚类结果中的文本类别作为用户特征;
用户特征向量提取模块,计算用户的特征值,得到用户特征向量;
所述用户特征向量提取模块中计算用户生成文本在文本类内与对应的类中心的相似度,得到每一个用户的特征值;
使用欧式距离计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的欧式距离相似度,n表示用户特征数,T是一个预设常量;或者
使用余弦相似度计算用户特征值U=(F1,F2,…,Fn),每一维Fi用下述公式计算:
其中,Ni表示某用户生成的文本中被聚类到类别i中的文本个数,表示Ni中的第j条文本与类别i的类中心的余弦相似度,n表示用户特征数;
第二聚类模块,使用无监督聚类算法对用户特征向量进行聚类,得到用户分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298884.9A CN111611376B (zh) | 2020-04-16 | 2020-04-16 | 基于用户生成文本的无监督学习的用户分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298884.9A CN111611376B (zh) | 2020-04-16 | 2020-04-16 | 基于用户生成文本的无监督学习的用户分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611376A CN111611376A (zh) | 2020-09-01 |
CN111611376B true CN111611376B (zh) | 2023-11-17 |
Family
ID=72199592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010298884.9A Active CN111611376B (zh) | 2020-04-16 | 2020-04-16 | 基于用户生成文本的无监督学习的用户分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611376B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
CN108595706A (zh) * | 2018-05-10 | 2018-09-28 | 中国科学院信息工程研究所 | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 |
CN109582782A (zh) * | 2018-10-26 | 2019-04-05 | 杭州电子科技大学 | 一种基于用弱监督深度学习的文本聚类方法 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2678716C1 (ru) * | 2017-12-11 | 2019-01-31 | Общество с ограниченной ответственностью "Аби Продакшн" | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке |
-
2020
- 2020-04-16 CN CN202010298884.9A patent/CN111611376B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
CN108595706A (zh) * | 2018-05-10 | 2018-09-28 | 中国科学院信息工程研究所 | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
CN109582782A (zh) * | 2018-10-26 | 2019-04-05 | 杭州电子科技大学 | 一种基于用弱监督深度学习的文本聚类方法 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111611376A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354170B2 (en) | Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus | |
US20180240036A1 (en) | Automatic segmentation of a collection of user profiles | |
CN110738247B (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
CN109508453A (zh) | 跨媒体情报目标要素关联分析系统及其关联分析方法 | |
CN110399895A (zh) | 图像识别的方法和装置 | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN113850281B (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
CN107908642B (zh) | 基于分布式平台的行业文本实体提取方法 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
Wahlberg et al. | Large scale continuous dating of medieval scribes using a combined image and language model | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN115393666A (zh) | 图像分类中基于原型补全的小样本扩充方法及系统 | |
CN108920451A (zh) | 基于动态阈值和多分类器的文本情感分析方法 | |
CN106295688B (zh) | 一种基于稀疏均值的模糊聚类方法 | |
CN111611376B (zh) | 基于用户生成文本的无监督学习的用户分类方法及装置 | |
CN115546554A (zh) | 敏感图像的识别方法、装置、设备和计算机可读存储介质 | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 | |
CN115526173A (zh) | 一种基于计算机信息技术的特征词提取方法及系统 | |
CN110377845B (zh) | 基于区间半监督lda的协同过滤推荐方法 | |
CN115033689A (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
CN114003803A (zh) | 一种社交平台上特定地域的媒体账号发现方法及系统 | |
CN107092875B (zh) | 一种新的场景识别方法 | |
Vadivukarassi et al. | A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |