CN113987192A - 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 - Google Patents

一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 Download PDF

Info

Publication number
CN113987192A
CN113987192A CN202111615836.9A CN202111615836A CN113987192A CN 113987192 A CN113987192 A CN 113987192A CN 202111615836 A CN202111615836 A CN 202111615836A CN 113987192 A CN113987192 A CN 113987192A
Authority
CN
China
Prior art keywords
topic
hot
topics
data
roberta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111615836.9A
Other languages
English (en)
Other versions
CN113987192B (zh
Inventor
刘锟
曾曦
邱梓珩
陈天莹
王效武
魏刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
China Electronic Technology Cyber Security Co Ltd
Original Assignee
Shenzhen Wanglian Anrui Network Technology Co ltd
China Electronic Technology Cyber Security Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanglian Anrui Network Technology Co ltd, China Electronic Technology Cyber Security Co Ltd filed Critical Shenzhen Wanglian Anrui Network Technology Co ltd
Priority to CN202111615836.9A priority Critical patent/CN113987192B/zh
Publication of CN113987192A publication Critical patent/CN113987192A/zh
Application granted granted Critical
Publication of CN113987192B publication Critical patent/CN113987192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于RoBERTa‑WWM和HDBSCAN算法的热点话题检测方法,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测;所述离线热点话题检测为检测数据库中已有数据所包含的热点话题,所述在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题;通过本发明的热点话题检测方法避免了传统技术中由关键词向量表示话题导致的向量之间的可区分性差的问题,从根本上提升了话题检测的准确性。

Description

一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法
技术领域
本发明属于自然语言处理、网络认知安全技术领域,尤其涉及一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法。
背景技术
热点话题检测是一种能从当下海量的网络舆情数据中挖掘出民众所关心和讨论的热点话题或事件的技术。传统的热点话题检测有基于主题模型的话题检测技术以及基于文本聚类的话题检测技术两大类。
随着自然语言处理技术的发展,目前最常用的是基于文本聚类的话题检测技术,该技术首先将文本数据表示成能够便于数学计算的向量形式,然后通过计算所采集的文本数据之间的相似度,将这些文本数据划分为不同的簇,最终根据每个簇中包含的帖子所附带的转发、点赞等互动信息的综合排名对所有簇进行排序,选出排名最高的若干个簇,以此来达到检测热点话题的目的。
其中,基于文本聚类算法的话题检测技术,该技术目前存在以下不足:
(1)使用基于文本聚类算法的话题检测技术,首先要做的就是将文本数据处理成能够便于进行数学计算的向量形式。目前常用的词袋模型、Word2Vec等将文本数据表示成向量形式的主要思路是:首先将所有的文本进行预处理以及分词处理,然后将每一篇文本中的关键词汇合成语料库,最后利用每一篇文本中的关键词在该语料库上的映射,得到每一篇文本的向量表示。然而当前互联网媒体平台中的数据存在数据量大、文本长度短、用语不规范、碎片化严重、噪声信息多等特点,这使得基于现有的文本表示算法得到的文本向量维数很高,数据的可区分性很差,除此之外现有的文本表示方法没有考虑文本语义的相似性以及上下文语境信息,很难保证文本表示的准确性,从而导致现有的基于文本聚类的话题检测技术的在实际的应用场景中使用效果很差。
(2)目前常用于话题检测的聚类算法有基于密度聚类的DBSCAN算法以及基于层次聚类的HAC算法。然而这些算法都存在一定的局限性,其中DBSCAN算法的参数调整困难而且在数据量大的时候很难收敛、基于层次聚类的HAC算法计算复杂度高。因此在实际应用中,两种算法都很难达到较好的话题检测效果
(3)在对得到的话题进行向量化表示时,现有的话题检测算法是用该话题中所包含文本关键词的tf-idf(term frequency–inverse document frequency)值来表示该话题。但是在一般情况下,两个相似的事件所用的词频较高的关键词基本相同,因此使用该方法无法区分这两个事件,甚至会将两个事件划分为一个话题;除此之外,基于关键词的tf-idf值得算法无法应对话题的演化和漂移。这两个问题都会影响最终话题检测结果的准确性。
发明内容
本发明的目的在于,为克服现有技术缺陷,提供了一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,通过本发明的热点话题检测方法避免了由关键词向量表示话题导致的向量之间的可区分性差的问题,从根本上提升了话题检测的准确性。
本发明目的通过下述技术方案来实现:
一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测;所述离线热点话题检测为检测数据库中已有数据所包含的热点话题,数据量和话题数目不发生变化,所述在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题,数据量和话题数目随时间不断增加;
其中,所述离线热点话题检测包括如下步骤:
A1.数据清洗步骤,对数据库中已有的文本数据做数据清洗,去除文本中的干扰信息;
A2.文本向量化表示步骤,使用有标注的相似句子对和不相似句子对数据集对外接有微调结构的RoBERTa-WWM模型进行微调,并将经过数据清洗的文本数据输入微调(或训练)后的外接有微调结构的RoBERTa-WWM模型,得到所有文本数据的向量表示;
A3.聚类步骤,使用HDBSCAN算法对步骤A2得到的文本向量进行聚类,得到文本数据的话题分布情况;
A4.效果评估与参数调整步骤,使用轮廓系数以及互信息指数两个指标来评估离线话题检测模型的效果,如果未达到预设的效果,则调整RoBERTa—WWM模型和HDBSCAN算法的参数,直到达到最优解;
A5.结果生成步骤,根据每个话题中帖子的互动信息计算每个帖子的热度值以及每个话题的热度值,并根据该热度值排序,确定热点话题列表;并选取热点话题中帖子热度排名前M%位的帖子来表示该话题,计算这些帖子的文本向量的均值作为该话题的向量表示。
根据一个优选的实施方式,步骤A1中,文本中的干扰信息包括新闻链接和符号。
根据一个优选的实施方式,步骤A5中,热点话题为话题的热度值大于设定阈值的前N个话题。
根据一个优选的实施方式,步骤A5中,
帖子的热度计算公式为:
Figure 130429DEST_PATH_IMAGE001
其中,
Figure 636496DEST_PATH_IMAGE002
是指第i个帖子的发帖热度值,
Figure DEST_PATH_IMAGE003
是指第i个帖子的点赞数,
Figure 180610DEST_PATH_IMAGE004
指的是第i个帖子的转发数,
Figure DEST_PATH_IMAGE005
是指第i个帖子的评论数,x、y、z是由熵权法得到的权重系数。
根据一个优选的实施方式,话题的热度计算公式为:
Figure 531957DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE007
表示第j个话题的热度值,n表示该话题中帖子的个数。
根据一个优选的实施方式,其中,所述在线热点话题检测包括如下步骤:
B1.数据采集步骤,实时采集互联网媒体平台中的网络舆情数据;
B2.离线话题检测步骤,每次选择固定时间窗口内爬取到的网络舆情数据,使用离线话题检测方法对采集到的数据做话题检测;
B3.相似度计算和新话题的分类与融合步骤,依次计算步骤B2新得到的话题和已有话题之间的相似度;
如果相似度大于实现设定的阈值,则将新得到的话题和已有话题中与之相似度最高的话题合并,同时根据帖子的热度值排序更新合并后的话题表示向量,如果相似度小于设定的阈值,则该话题为新话题,得到该新话题的表示向量后将其加入已有话题;
B4.结果生成步骤:得到固定时间窗口内的所有话题,根据每个话题的热度值对所有话题排序,得到话题的热度排行榜,最后选取前P个话题作为这一时间段内的民众所关心和讨论的热点话题。
前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合,均为本发明所要保护的技术方案,在此不做穷举。
本发明的有益效果:
本发明方法基于中文语言环境的预训练语言模型RoBERTa-WWM(a RobustlyOptimized BERT Pretraining Approach,WholeWordMask)模型来做文本表示,并在该模型的基础上加入微调结构,使得经RoBERTa-WWM模型得到的文本向量能够更完整的保留了文本的语义信息以及上下文的语境信息,避免了由关键词向量表示话题导致的向量之间的可区分性差的问题,从根本上提升了话题检测的准确性。
本发明方法创新性的使用了HDBSCAN(Hierarchical Density-Based SpatialClustering of Applications with Noise)算法来进行对文本表示后的文本向量做聚类,该算法更能适应目前互联网媒体平台中数据的特点,而且还减小了话题检测算法的复杂度和运算成本。
并且,利用每个话题所包含的帖子中的互动信息来更新话题的表示向量。考虑了话题中每篇帖子的影响力和传播能力,使得该模型能够更准确的表示话题,同时避免了话题漂移和演化带来的影响。
附图说明
图1是本发明热点话题检测方法中离线热点话题检测算法流程示意图;
图2是本发明热点话题检测方法中RoBERTa-WWM模型的微调结构示意图;
图3是本发明热点话题检测方法中在线热点话题检测流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,为使本发明实施例的目的、技术方案和优点更加清楚,下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例1:
参考图1所示,本发明公开了一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测。
离线热点话题检测为检测数据库中已有数据所包含的热点话题,在处理过程中,数据固定,不会产生新的话题。
在线热点话题检测为检测某时间区间内互联网媒体平台中发生的热点话题。在该处理过程中,数据不断地更新,需要考虑新到达的报道和已有话题的相似度以及话题漂移与演化对话题检测结果带来的影响,除此之外,还需要考虑算法的计算效率,保证计算结果的实时性。
优选地,所述离线热点话题检测包括如下步骤:
A1.数据清洗步骤,对数据库中已有的文本数据做数据清洗,去除文本中的干扰信息。
具体地,去除文本中的新闻链接、符号以及其它的干扰信息。
A2.文本向量化表示步骤,使用有标注的相似句子对和不相似句子对数据集对外接有微调结构的RoBERTa-WWM模型进行微调,并将经过数据清洗的文本数据输入微调(或训练)后的外接有微调结构的RoBERTa-WWM模型,得到所有文本数据的向量表示。
前述微调过程即是一个模型再训练过程。如图2所示。例如,有标注的相似句子分别输入原始RoBERTa-WWM模型中,然后进入微调结构的pooling层分别获得句子向量,然后对两个句子向量以及它们的差向量进行拼接,最后进入Softmax Classifier完成逻辑回归处理,得到两个句子的相似度,即完成一次再训练过程。从而通过多次训练,完成对外接有微调结构的RoBERTa-WWM模型的微调。
本步骤基于中文语言环境的预训练语言模型RoBERTa-WWM(a RobustlyOptimized BERT Pretraining Approach,WholeWordMask)模型来做文本表示,并在该模型的基础上加入微调结构,使得经RoBERTa-WWM模型得到的文本向量能够更完整的保留了文本的语义信息以及上下文的语境信息,避免了由关键词向量表示话题导致的向量之间的可区分性差的问题,从根本上提升了话题检测的准确性。
A3.聚类步骤,使用HDBSCAN算法对步骤A2得到的文本向量进行聚类,得到文本数据的话题分布情况。
本步骤创新性的使用了HDBSCAN(Hierarchical Density-Based SpatialClustering of Applications with Noise)算法来进行对文本表示后的文本向量做聚类,该算法更能适应目前互联网媒体平台中数据的特点,而且还减小了话题检测算法的复杂度和运算成本。
A4.效果评估与参数调整步骤,使用轮廓系数以及互信息指数两个指标来评估离线话题检测模型的效果,如果未达到预设的效果,则调整RoBERTa—WWM模型和HDBSCAN算法的参数,直到达到最优解。
A5.结果生成步骤,根据每个话题中帖子的互动信息计算每个帖子的热度值以及每个话题的热度值,并根据该热度值排序,确定热点话题;并选取热点话题中帖子热度排名前M%位的帖子来表示该话题(例如,选取热点话题中帖子热度排名前50%的帖子来表示该话题),计算这些帖子的文本向量的均值作为该话题的向量表示。
利用每个话题所包含的帖子中的互动信息来更新话题的表示向量。考虑了话题中每篇帖子的影响力和传播能力,使得该模型能够更准确的表示话题,同时避免了话题漂移和演化带来的影响。
步骤A5中,热点话题为话题的热度值大于设定阈值的前N个话题。
步骤A5中,
帖子的热度计算公式为:
Figure 477916DEST_PATH_IMAGE001
其中,
Figure 154885DEST_PATH_IMAGE002
是指第i个帖子的发帖热度值,
Figure 327241DEST_PATH_IMAGE008
是指第i个帖子的点赞数,
Figure 482279DEST_PATH_IMAGE004
指的是第i个帖子的转发数,
Figure 813903DEST_PATH_IMAGE009
是指第i个帖子的评论数,x、y、z是由熵权法得到的权重系数。
话题的热度计算公式为:
Figure 661773DEST_PATH_IMAGE006
其中
Figure 587004DEST_PATH_IMAGE010
表示第j个话题的热度值,n表示该话题中帖子的个数。
优选地,如图3所示,所述在线热点话题检测包括如下步骤:
B1.数据采集步骤,实时采集互联网媒体平台中的网络舆情数据;
B2.离线话题检测步骤,每次选择固定时间窗口内爬取到的网络舆情数据,使用离线话题检测方法对采集到的数据做话题检测;
B3.相似度计算和新话题的分类与融合步骤,依次计算步骤B2新得到的话题和已有话题之间的相似度;
如果相似度大于实现设定的阈值,则将新得到的话题和已有话题中与之相似度最高的话题合并,同时根据帖子的热度值排序更新合并后的话题表示向量,如果相似度小于设定的阈值,则该话题为新话题,得到该新话题的表示向量后将其加入已有话题;
B4.结果生成步骤:得到固定时间窗口内的所有话题,根据每个话题的热度值对所有话题排序,得到话题的热度排行榜,最后选取前P个话题作为这一时间段内的民众所关心和讨论的热点话题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,所述热点话题检测方法包括离线热点话题检测和在线热点话题检测;
所述离线热点话题检测为检测数据库中已有数据中所包含的热点话题,数据量和话题数目不发生变化,所述在线热点话题检测为检测某时间区间内互联网媒体平台中实时发生的热点话题,数据量和话题数目在不断的增加;
其中,所述离线热点话题检测包括如下步骤:
A1.数据清洗步骤,对数据库中已有的文本数据做数据清洗,去除文本中的干扰信息;
A2.文本向量化表示步骤,使用有标注的相似句子对和不相似句子对数据集对外接有三层微调结构的RoBERTa-WWM模型进行微调,并将经过数据清洗的文本数据输入微调后的外接有微调结构的RoBERTa-WWM模型,得到所有文本数据的向量表示;
A3.聚类步骤,使用HDBSCAN算法对步骤A2得到的文本向量进行聚类,得到文本数据的话题分布情况;
A4.效果评估与参数调整步骤,使用轮廓系数以及互信息指数两个指标来评估离线话题检测模型的效果,如果未达到预设的效果,则调整RoBERTa—WWM模型和HDBSCAN算法的参数,直到达到最优解;
A5.结果生成步骤,根据每个话题中帖子的互动信息计算每个帖子的热度值以及每个话题的热度值,并根据该热度值排序,确定热点话题列表;并选取热点话题中帖子热度排名前M%位的帖子来表示该话题,计算这些帖子的文本向量的均值作为该话题的向量表示。
2.如权利要求1所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,步骤A1中,文本中的干扰信息包括新闻链接和符号。
3.如权利要求1所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,步骤A5中,热点话题为话题的热度值大于设定阈值的前N个话题。
4.如权利要求1所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,步骤A5中,
帖子的热度计算公式为:
Figure 844328DEST_PATH_IMAGE001
其中,
Figure 85954DEST_PATH_IMAGE002
是指第i个帖子的发帖热度值,
Figure 95498DEST_PATH_IMAGE003
是指第i个帖子的点赞数,
Figure 598024DEST_PATH_IMAGE004
指的是第i个帖子的转发数,
Figure 667611DEST_PATH_IMAGE005
是指第i个帖子的评论数,x、y、z是由熵权法得到的权重系数。
5.如权利要求4所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,
话题的热度计算公式为:
Figure 130953DEST_PATH_IMAGE006
其中
Figure 944188DEST_PATH_IMAGE007
表示第j个话题的热度值,n表示该话题中帖子的个数。
6.如权利要求1至5任一项所述的基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法,其特征在于,其中,所述在线热点话题检测包括如下步骤:
B1.数据采集步骤,实时采集互联网媒体平台中的网络舆情数据;
B2.离线话题检测步骤,每次选择固定时间窗口内爬取到的网络舆情数据,使用离线话题检测方法对采集到的数据做话题检测;
B3.相似度计算和新话题的分类与融合步骤,依次计算步骤B2新得到的话题和已有话题之间的相似度;
如果相似度大于事先设定的阈值,则将新得到的话题和已有话题中与之相似度最高的话题合并,同时根据帖子的热度值排序,更新合并后的话题表示向量,如果相似度小于设定的阈值,则该话题为新话题,得到该新话题的表示向量后将其加入已有话题列表;
B4.结果生成步骤:得到固定时间窗口内的所有话题,根据每个话题的热度值对所有话题排序,得到话题的热度排行榜,最后选取前P个话题作为这一时间段内的民众所关心和讨论的热点话题。
CN202111615836.9A 2021-12-28 2021-12-28 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法 Active CN113987192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111615836.9A CN113987192B (zh) 2021-12-28 2021-12-28 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111615836.9A CN113987192B (zh) 2021-12-28 2021-12-28 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Publications (2)

Publication Number Publication Date
CN113987192A true CN113987192A (zh) 2022-01-28
CN113987192B CN113987192B (zh) 2022-04-01

Family

ID=79734569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111615836.9A Active CN113987192B (zh) 2021-12-28 2021-12-28 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Country Status (1)

Country Link
CN (1) CN113987192B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894994A (zh) * 2017-10-18 2018-04-10 北京京东尚科信息技术有限公司 一种检测热点话题类别的方法和装置
CN110209813A (zh) * 2019-05-14 2019-09-06 天津大学 一种基于自动编码器的突发事件检测与预测方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN111125380A (zh) * 2019-12-30 2020-05-08 华南理工大学 一种基于RoBERTa和启发式算法的实体链接方法
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111339784A (zh) * 2020-03-06 2020-06-26 支付宝(杭州)信息技术有限公司 一种新话题的自动挖掘方法和系统
CN111626056A (zh) * 2020-04-11 2020-09-04 中国人民解放军战略支援部队信息工程大学 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113204643A (zh) * 2021-06-23 2021-08-03 北京明略软件系统有限公司 一种实体对齐方法、装置、设备及介质
CN113380418A (zh) * 2021-06-22 2021-09-10 浙江工业大学 一种通过对话文本分析识别抑郁症的系统
CN113515593A (zh) * 2021-04-23 2021-10-19 平安科技(深圳)有限公司 基于聚类模型的话题检测方法、装置和计算机设备
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894994A (zh) * 2017-10-18 2018-04-10 北京京东尚科信息技术有限公司 一种检测热点话题类别的方法和装置
CN110209813A (zh) * 2019-05-14 2019-09-06 天津大学 一种基于自动编码器的突发事件检测与预测方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN111191453A (zh) * 2019-12-25 2020-05-22 中国电子科技集团公司第十五研究所 一种基于对抗训练的命名实体识别方法
CN111125380A (zh) * 2019-12-30 2020-05-08 华南理工大学 一种基于RoBERTa和启发式算法的实体链接方法
CN111339784A (zh) * 2020-03-06 2020-06-26 支付宝(杭州)信息技术有限公司 一种新话题的自动挖掘方法和系统
CN111626056A (zh) * 2020-04-11 2020-09-04 中国人民解放军战略支援部队信息工程大学 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113515593A (zh) * 2021-04-23 2021-10-19 平安科技(深圳)有限公司 基于聚类模型的话题检测方法、装置和计算机设备
CN113380418A (zh) * 2021-06-22 2021-09-10 浙江工业大学 一种通过对话文本分析识别抑郁症的系统
CN113204643A (zh) * 2021-06-23 2021-08-03 北京明略软件系统有限公司 一种实体对齐方法、装置、设备及介质
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUANZHEN LI等: "Topic Detection and Tracking Based on Windowed DBSCAN and Parallel KNN", 《IEEE ACCESS》 *
朱岩等: "基于RoBERTa-WWM的中文电子病历命名实体识别", 《计算机与现代化》 *
陈玺等: "面向汉维机器翻译的BERT嵌入研究", 《计算机工程》 *

Also Published As

Publication number Publication date
CN113987192B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
Rossi et al. Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts
Noori Classification of customer reviews using machine learning algorithms
CN110263257B (zh) 基于深度学习处理多源异构数据的推荐方法
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
CN109582785A (zh) 基于文本向量与机器学习的突发事件舆情演化分析方法
Alboaneen et al. Sentiment analysis via multi-layer perceptron trained by meta-heuristic optimisation
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN111046171B (zh) 一种基于细粒度标注数据的情感判别方法
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
Tembusai et al. K-nearest neighbor with k-fold cross validation and analytic hierarchy process on data classification
CN109214454A (zh) 一种面向微博的情感社区分类方法
Devipriya et al. Deep learning sentiment analysis for recommendations in social applications
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115329215A (zh) 异构网络中基于自适应动态知识图谱的推荐方法及系统
CN115840853A (zh) 一种基于知识图谱和图注意力网络的课程推荐系统
Daniel et al. A novel sentiment analysis for amazon data with TSA based feature selection
CN108491477B (zh) 基于多维云和用户动态兴趣的神经网络推荐方法
Li et al. Capsule neural tensor networks with multi-aspect information for Few-shot Knowledge Graph Completion
Gu et al. Fuzzy time series forecasting based on information granule and neural network
CN113987192B (zh) 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法
CN117056609A (zh) 一种基于多层聚合增强对比学习的会话推荐方法
CN117194771A (zh) 一种图模型表征学习的动态知识图谱服务推荐方法
Zhang et al. Bilinear graph neural network-enhanced Web services classification
Kim Research on Text Classification Based on Deep Neural Network
Evangeline et al. Text categorization techniques: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant