CN111339784B - 一种新话题的自动挖掘方法和系统 - Google Patents

一种新话题的自动挖掘方法和系统 Download PDF

Info

Publication number
CN111339784B
CN111339784B CN202010153596.4A CN202010153596A CN111339784B CN 111339784 B CN111339784 B CN 111339784B CN 202010153596 A CN202010153596 A CN 202010153596A CN 111339784 B CN111339784 B CN 111339784B
Authority
CN
China
Prior art keywords
topic
cluster
data
determining
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010153596.4A
Other languages
English (en)
Other versions
CN111339784A (zh
Inventor
谢杨易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010153596.4A priority Critical patent/CN111339784B/zh
Publication of CN111339784A publication Critical patent/CN111339784A/zh
Application granted granted Critical
Publication of CN111339784B publication Critical patent/CN111339784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书的一个方面提供一种新话题的自动挖掘方法和系统。所述方法包括:获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;基于所述第一语义距离确定至少一个第一簇;确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;基于所述第二语义距离确定至少一个第二簇;确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。

Description

一种新话题的自动挖掘方法和系统
技术领域
本说明书涉及文本处理领域,特别涉及一种新话题的自动挖掘方法和系统。
背景技术
随着互联网信息的大幅膨胀,信息量呈指数增长,文本数据尤其的多,挖掘文本数据的价值显得十分关键。而新话题挖掘可以指导用户改进自己的产品、发觉最新热点,时效性强、价值很高,是文本挖掘中的重要一环。人工进行文本挖掘中的新话题发现,由于文本数据量比较大而人力少,耗时且成本较高。因此,期望提供一种新话题的自动化挖掘方法。
发明内容
本说明书的一个方面提供一种新话题的自动挖掘方法,所述方法包括:获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;基于所述第一语义距离确定至少一个第一簇;确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;基于所述第二语义距离确定至少一个第二簇;确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
在一些实施例中,所述第一语义距离和所述第二语义距离均为余弦距离。
在一些实施例中,所述第一语义距离的确定方法包括:对所述历史文本数据进行预处理;利用BERT神经网络对预处理后的历史文本数据进行编码;基于编码后的历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离。
在一些实施例中,所述第二语义距离的确定方法包括:对所述文本合集数据进行预处理;利用BERT神经网络对预处理后的文本合集数据进行编码;基于编码后的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离。
在一些实施例中,所述预处理包括清洗文本数据中的噪声数据,所述噪声数据至少包括广告数据、色情数据、语句不通顺数据和/或重复数据。
在一些实施例中,所述基于所述第一语义距离确定至少一个第一簇包括:基于所述第一语义距离利用HDBSCAN聚类算法确定至少一个第一簇。
在一些实施例中,所述基于所述第二语义距离确定至少一个第二簇包括:基于所述第二语义距离利用HDBSCAN聚类算法确定至少一个第二簇。
在一些实施例中,所述第一话题或所述第二话题的确定方法包括:对于每个簇,确定所述簇中每个子集为所述簇的中心的概率值;确定所述概率值最大的子集为所述簇的聚类中心;基于所述聚类中心确定对应簇的第一话题或第二话题。
在一些实施例中,所述方法还包括:当所述至少一个第二簇中第二话题与至少一个第一簇中任意一个第一话题的第三语义距离均小于或等于预设距离阈值时,确定所述第二话题为老话题,所述老话题包括本次新话题自动挖掘之前确定的新话题。
本说明书的另一方面提供一种新话题的自动挖掘系统,所述系统包括:获取模块,所述获取模块被配置为获取历史文本数据以及包含历史文本和新增文本的文本合集数据;数据处理模块,所述数据处理模块被配置为确定所述历史文本数据中历史文本之间的第一语义距离,以及确定所述文本合集数据中文本之间的第二语义距离;聚类模块,所述聚类模块被配置为基于所述第一语义距离确定至少一个第一簇,与基于所述第二语义距离确定至少一个第二簇;提取模块,所述提取模块被配置为确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;以及确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;话题确定模块,所述话题确定模块被配置为当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
本说明书的另一方面提供一种新话题的自动挖掘系统,包括处理器,所述处理器用于执行如前所述的新话题的自动挖掘方法。
本说明书的另一方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如前所述的新话题的自动挖掘方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的新话题的自动挖掘系统的应场景示意图;
图2是根据本说明书的一些实施例所示的新话题的自动挖掘系统的模块图;
图3是根据本说明书的一些实施例所示的示例性新话题的自动挖掘方法流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书的一些实施例所示的新话题的自动挖掘系统的应场景示意图。
新话题自动挖掘系统100可以基于大量的文本数据自动挖掘生成新话题。新话题自动挖掘系统100可以是一个线上平台,包括服务器110、网络120、用户终端130和数据库140。服务器110可以包括一个处理器112。例如,新话题自动挖掘系统100可以基于用户通过用户终端130输入的包含用户对某应用程序反馈意见的文本,挖掘出文本中的新话题(即不同于先前反馈内容的新的建议或意见),以确定该应用程序新出现的问题,进而对应用程序进行改进。
在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群。服务器群可以是集中式的或分布式的(例如,服务器110可以是一分布式的系统)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以通过网络120访问储存于用户终端130和/或数据库140中的信息和/或数据。再例如,服务器110可以直接连接到用户终端130和/或数据库140以访问储存的信息和/或数据。在一些实施例中,服务器110可以在一个云端平台上实现。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,服务器110可以在一个计算设备上实现,该计算设备可以包括一个或多个部件。
在一些实施例中,服务器110可以包括一个处理器112。处理器112可以处理与话题挖掘相关的信息和/或数据以执行本说明书中描述的一个或多个功能。例如,处理器112可以基于从用户终端130获取用户输入的文本信息进而挖掘出文本中的话题内容。在一些实施例中,处理器112可以包括一个或多个处理器(例如,单晶片处理器或多晶片处理器)。仅仅作为示例,处理器112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。
网络120可以促进信息和/或数据的交换。在一些实施例中,新话题自动挖掘系统100中的一个或多个部件(例如,服务器110、用户终端130和数据库140)可以通过网络120向新话题自动挖掘系统100中的其他部件发送信息和/或数据。例如,服务器110可以通过网络120从数据库140获取历史文本数据或包含历史文本和新增文本的文本合集数据。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种,或其组合。仅仅作为示例,网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中,网络120可以包括一个或多个网络交换点。例如,网络120可以包括有线或无线网络交换点,如基站和/或互联网交换点120-1、120-2、……,通过交换点,新话题挖掘系统100的一个或多个部件可以连接到网络120以交换数据和/或信息。
在一些实施例中,用户可以是用户终端130的使用者。在一些实施例中,用户可以通过用户终端130输入文本数据。例如,用户可以使用用户终端130输入对终端设备中某个应用程序的使用反馈意见。又例如,用户可以通过用户终端130输入对某新闻或文章的评论。在一些实施例中,用户终端130可以包括移动装置130-1、平板电脑130-2、膝上型电脑130-3、车辆内建装置130-4等或上述举例的任意组合。在一些实施例中,移动装置130-1可以包括智能家居装置、可穿戴装置、智能移动装置、虚拟现实装置、增强现实装置等或上述举例的任意组合。在一些实施例中,智能家居装置可以包括智能照明装置、智能电器的控制装置、智能监测装置、智能电视、智能摄影机、对讲机等或上述举例的任意组合。在一些实施例中,可穿戴装置可以包括手环、鞋袜、眼镜、头盔、手表、衣物、背包、智能配饰等或上述举例的任意组合。在一些实施例中,智能移动装置可以包括移动电话、个人数字助理、游戏装置、导航装置、POS机、膝上型电脑、台式电脑等或上述举例的任意组合。在一些实施例中,虚拟现实装置和/或增强现实装置可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等或上述举例的任意组合。例如,虚拟现实装置和/或增强现实装置可以包括Google GlassTM、Oculus RiftTM、HololensTM、Gear VRTM等。在一些实施例中,车辆内建装置130-4可以包括车载电脑、车载电视等。
数据库140可以储存数据和/或指令。在一些实施例中,数据库140可以储存从用户终端130获取的文本数据。在一些实施例中,数据库140可以储存供服务器110执行或使用的数据和/或指令,服务器110可以通过执行或使用所述数据和/或指令以实现本说明书描述的示例性方法。在一些实施例中,数据库140可以包括大容量存储器、可以移动存储器、挥发性读写存储器、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性的可以移动存储器可以包括快闪驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存储器(RAM)。示例性的随机存储器可以包括动态随机存储器(DRAM)、双倍速率同步动态随机存储器(DDR SDRAM)、静态随机存储器(SRAM)、闸流体随机存储器(T-RAM)和零电容随机存储器(Z-RAM)等。示例性的只读存储器可以包括掩蔽型只读存储器(MROM)、可编程只读存储器(PROM)、可清除可编程只读存储器(PEROM)、电子可抹除可编程只读存储器(EEPROM)、压缩磁盘只读存储器(CD-ROM)和数位通用磁盘只读存储器等。在一些实施例中,数据库140可以在一个云端平台上实现。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。
在一些实施例中,数据库140可以与网络120连接以与新话题自动挖掘系统100中的一个或多个部件(例如,服务器110、用户终端130等)通信。新话题自动挖掘系统100中的一个或多个部件可以通过网络120访问储存于数据库140中的数据或指令。在一些实施例中,数据库140可以直接与新话题自动挖掘系统100中的一个或多个部件(例如,服务器110、用户终端130)连接或通信。在一些实施例中,数据库140可以是服务器110的一部分。在一些实施例中,新话题自动挖掘系统100的一个或多个部件(例如,服务器110、用户终端130等)可以拥有存取数据库140的许可。
在一些实施例中,新话题自动挖掘系统100中的一个或多个部件的信息交互可以通过请求一个服务的方式实现。所述服务请求的客体可以是任何产品。在一些实施例中,所述产品可以是一个有形产品或一个无形产品。有形产品可以包括食品、医药、商品、化学产品、电器、衣物、小汽车、房屋、奢侈品等或上述举例的任意组合。无形产品可以包括服务产品、金融产品、知识产品、互联网产品等或上述举例的任意组合。互联网产品可以包括个人主机产品、网站产品、行动互联网产品、商业主机产品、嵌入式产品等或上述举例的任意组合。行动互联网产品可以用于行动终端的软件、编程、系统等或上述举例的任意组合。行动终端可以包括平板电脑、膝上型电脑、行动手机、掌上电脑(PDA)、智能手表、POS机、车载电脑、车载电视、可穿戴装置等或上述举例的任意组合。例如,所述产品可以是用于电脑或行动电话中的任意的软件和/或应用编程。软件和/或应用编程可以与社交、购物、交通、娱乐、学习、投资等或上述举例的任意组合相关。
图2是根据本说明书的一些实施例所示的新话题自动挖掘系统的模块图。
如图2所示,处理器112可以包括获取模块210、数据处理模块220、聚类模块230、提取模块240和话题确定模块250。模块可以是所有或部分处理器112的硬件电路。模块也可以是由处理器读取及执行的应用程序或一组指令。此外,模块可以是硬件电路与应用程序/指令的组合。例如,当处理器执行应用程序/该组指令时,模块可以是处理器112的一部分。
获取模块210可以用于获取文本数据。在一些实施例中,文本数据可以反映用户输入的信息内容。在一些实施例中,文本数据可以包括用户输入的历史文本数据、新增文本数据以及历史文本数据和新增文本数据的文本合集数据。在一些实施例中,获取模块210可以从存储设备中(如数据库140)获取用户输入的文本数据。在一些实施例中,获取模块210可以通过网络120访问存储设备以获取文本数据。在一些实施例中,获取模块210可以直接从用户终端130获取用户输入的文本数据。在一些替代性实施例中,获取模块210可以从开源数据库中获取文本数据。
数据处理模块220可以用于确定文本之间的语义距离。语义距离可以反映不同语句文本之间的语义相似程度。在一些实施例中,语句文本之间的语义距离越近,两组语句的语义越相似。在一些实施例中,语义距离可以包括余弦距离、欧式距离等中的一种或其任意组合。在一些实施例中,数据处理模块220可以用于确定历史文本数据中历史文本之间的第一语义距离。在一些实施例中,数据处理模块220可以用于确定包含历史文本和新增文本的文本合集数据中文本之间的第二语义距离。在一些实施例中,数据处理模块220可以用于确定第一话题和第二话题之间的第三语义距离。在一些实施例中,数据处理模块220可以利用BERT神经网络确定文本之间的语义距离。例如,数据处理模块220可以利用BERT神经网络将文本数据转换为文本向量,通过计算文本向量之间的距离确定文本之间的语义距离。又例如,数据处理模块220可以直接利用BERT神经网络确定文本之间的语义距离。在一些实施例中,数据处理模块220可以对文本数据(如历史文本数据、包含历史文本和新增文本的文本合集数据)进行预处理。在一些实施例中,预处理可以包括清洗文本数据中的噪声数据。例如,噪声数据可以包括广告数据、色情数据、语句不通顺数据、重复数据等中的一种或其任意组合。
聚类模块230可以用于基于语义距离对文本进行聚类。通过聚类可以将文本划分为一个或多个不同的簇。在一些实施例中,聚类生成的每个簇内部的子集文本之间语义相似度较高,每个簇之间文本之间语义相似度较低。在一些实施例中,聚类模块230可以基于第一语义距离将历史文本数据划分为至少一个第一簇。在一些实施例中,聚类模块230可以基于第二语义距离将包含历史文本和新增文本的文本合集数据划分为至少一个第二簇。在一些实施例中,聚类模块230可以利用HDBSCAN聚类算法进行聚类。在一些替代性实施例中,聚类模块230可以利用其它可行的聚类方法进行聚类,本说明书对此不做限制。例如,聚类算法可以包括K-Means(K均值)聚类、均值漂移聚类、DBSCAN聚类、高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类、图团体检测(Graph Community Detection)聚类算法等中的一种或其任意组合。
提取模块240可以用于确定聚类生成的每个簇的话题。话题可以用于反映簇的中心内容。在一些实施例中,提取模块240可以通过确定每个簇的聚类中心确定对应簇的第一话题或第二话题。在一些实施例中,提取模块240可以确定簇内部每个子集为该簇中心的概率值,将概率值最大的子集确定为该簇的聚类中心。在一些实施例中,提取模块240可以将聚类中心确定为簇的话题。在一些实施例中,提取模块240可以通过对簇的聚类中心对应的文本进行处理确定该簇的话题。例如,提取模块240可以通过删除、替换、添加等方式中的一种或多种对聚类中心对应的文本进行处理,过滤掉文本中的冗余内容(如语气词、代词、标点符号等),并将处理后的文本确定为对应簇的话题。
话题确定模块250可以用于挖掘文本数据自动生成新话题。在一些实施例中,话题确定模块250可以比较第一簇中每个簇的第一话题与第二簇中每个簇的第二话题,当第二簇中存在第二话题与第一簇中任意一个第一话题的第三语义距离均大于预设距离阈值时,确定该第二话题为新话题。在一些实施例中,话题确定模块250可以当第二簇中第二话题与第一簇中任意一个第一话题的第三语义距离均小于或等于预设距离阈值时,确定该第二话题为老话题。在一些实施例中,老话题可以包括该次新话题自动挖掘之前确定的新话题。
应当理解,图2所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于处理器112及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,图2中披露的获取模块210、数据处理模块220、聚类模块230、提取模块240和话题确定模块250可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。又例如,处理器112还可以包括通信模块,用来与其他部件通信,例如用于将挖掘生成的新话题发送至服务端或用户终端。处理器112中各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
图3是根据本说明书的一些实施例所示的示例性新话题自动挖掘方法流程图。
步骤310,获取历史文本数据。具体地,步骤310可以由获取模块210执行。
文本数据可以反映用户输入的感兴趣内容信息。在一些实施例中,历史文本数据可以包括用户通过用户终端130输入的历史信息。在一些实施例中,用户输入信息的方式可以包括但不限于打字输入(如键盘打字输入、触摸屏打字输入)、手写输入、选择输入、语音输入、扫描输入等一种或多种的任意组合。例如,打字输入根据语言的不同可以包括英文输入、中文输入等。扫描输入可以包括扫描条形码输入、扫描二维码输入、扫描文本输入、扫描图片输入等。在一些实施例中,用户的输入信息可以以文字的方式呈现。例如,输入信息可以是用户直接手写输入的中文文字。又例如,输入信息可以是根据用户扫描图片输入识别的文字或字母。再例如,输入信息可以是根据用户输入的语音识别出的文字或字母。
在一些实施例中,用户输入的信息可以包括个人意见/建议、搜索/查找内容、评价(如差评、好评等)、咨询等中的一种或其任意组合。例如,用户可以通过选择输入的方式输入对某应用程序的体验反馈,如页面跳转较慢、交互功能欠缺等。又例如,用户可以通过语音或文本输入的方式输入对某服务的咨询。例如,手机版的公交/地铁卡服务在北京、上海、广州、深圳等地区上线使用,其他尚未上线地区的用户可能通过咨询窗口向客服咨询“为什么武汉不能使用手机公交卡”、“重庆什么时候可以上线手机地铁出行服务”等内容。再例如,用户可以通过打字输入的方式在社交平台(如微博、支付宝、微信等)输入感兴趣的话题以查找相关的内容介绍等,如娱乐、财经、生活、经济、体育、社科等新闻信息。在一些实施例中,基于用户的文本数据可以向用户提供感兴趣的信息推荐。例如,可以根据用户输入的搜索历史向用户推荐相关的新闻、文章、视频等内容。在一些实施例中,基于用户输入的文本数据可以向用户提供更好的服务。例如,可以根据用户输入的咨询内容“为什么武汉不能使用手机公交卡”,在武汉上线手机公交卡服务。可以理解,本说明书所列举的内容仅作为示例,并不能把本说明书限制在所举实施例范围之内。在一些实施例中,获取模块210可以从存储设备中(如数据库140)获取历史文本数据。在一些实施例中,获取模块210可以通过网络120访问存储设备以获取历史文本数据。在一些实施例中,获取模块210可以直接从用户终端130获取用户输入的历史文本数据。在一些替代性实施例中,获取模块210可以从开源数据库中获取历史文本数据。
步骤320,基于历史文本数据确定第一语义距离。具体地,步骤320可以由数据处理模块220执行。
语义距离(如第一语义距离、第二语义距离、第三语义距离)可以反映不同语句文本之间的语义相似程度。在一些实施例中,语句文本之间的语义距离越近,两组语句的语义越相似。在一些实施例中,数据处理模块220可以通过对历史文本数据进行编码,基于编码后的历史文本数据确定文本之间的第一语义距离。通过编码可以将文本数据转换为文本向量,以方便系统对文本数据进行计算、聚类等处理。在一些实施例中,数据处理模块220可以利用BERT神经网络对历史文本数据进行编码。通过BERT神经网络对文本语句数据进行编码可以将文本数据转换为固定长度的语句向量。相较于其他编码方式,BERT神经网络可以直接取用,使用更加方便,且利用BERT神经网络进行文本编码可以更表现文本的语义信息。在一些替代性实施例中,数据处理模块220可以利用其他可行的方式实现文本的编码处理,例如,Word2Vec,本说明书对此不做限制。
在一些实施例中,数据处理模块220可以通过计算编码后的历史文本数据之间的余弦距离确定第一语义距离。余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,主要通过两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向,而对绝对的数值不敏感。例如,对于两个文本X和Y,它们对应的向量分别为X1,X2,...,X64和Y1,Y2,...,Y64,则文本X和Y之间的余弦距离可以用它们之间夹角的余弦值表示,当两条文本信息的向量夹角趋于0,余弦值接近1,表明两个文本越相似,当两条文本信息的向量夹角趋于90度,余弦值接近于0,两个文本越不相似。对于用户输入的文本信息,挖掘其中的新话题更关注的是不同文本在内容指向上的相对差异(如两个文本的中心内容是否相似),使用余弦距离可以提高新话题挖掘的准确性。在一些实施例中,第一语义距离可以为任意合理的数值范围。例如,第一语义距离的范围可以为余弦距离的范围[0,1]。其中余弦距离为1表示两个向量之间距离很接近(即不同文本之间的语义较为相似),余弦距离为0表示两个向量之间距离较远(即不同文本之间的语义差异性较大)。在一些实施例中,第一语义距离也可以通过其他距离算法确定,本说明书对此不做限制。例如,距离算法也可以为欧式距离、Jaccard距离、编辑距离等一种或多种的组合。在一些实施例中,第一语义距离可以包括历史文本数据中两两文本之间的语义距离、相邻文本之间的语义距离和/或相关文本之间的语义距离(如未聚类文本与聚类中心之间的语义距离)。例如,对于历史文本A、B、C,数据处理模块220可以分别计算A和B、A和C、B和C之间的语义距离,或分别计算A和B、B和C之间的语义距离,或只计算A和B(或A和C、或B和C)之间的语义距离。
在一些实施例中,数据处理模块220可以对历史文本数据进行预处理。通过预处理可以清洗历史文本数据中的噪声数据。在一些实施例中,噪声数据可以包括广告数据、色情数据、语句不通顺数据、重复数据等中的一种或其任意组合。
步骤330,基于第一语义距离确定第一簇。具体地,步骤330可以由聚类模块230执行。
在一些实施例中,聚类模块230可以基于第一语义距离将历史文本数据划分为至少一个第一簇。每个第一簇内部的子集历史文本之间语义相似性较高(即语义更加接近),每个第一簇之间的历史文本之间语义相似性较低(即语义相差较大)。在一些实施例中,每个第一簇中的子集数量可以相同或不同。例如,一个第一簇包含的文本数量可以为5,另一个第一簇包含的文本数量可以为7。又例如,两个第一簇包含的文本数量可以都为6。在一些实施例中,每个第一簇可以对应一个话题。话题可以反映每个簇中文本的中心内容。例如,一个簇包含文本“武汉为什么不能使用手机公交卡”、“手机出行服务什么时候在武汉上线”、“希望公交出行服务在武汉上线”等,可以确定该簇对应的话题为“武汉上线公交出行服务”。
在一些实施例中,聚类模块230可以基于第一语义距离利用HDBSCAN聚类算法确定至少一个第一簇。HDBSCAN聚类算法可以在未知要划分的簇的数量和半径的情况下实现聚类。本说明书实施例中提出的新话题自动挖掘方法在对文本进行聚类时,无法预知要划分的簇的数量和半径(即要划分的文本组的数量和每个组的大小),使用HDBSCAN聚类算法可以获得更加准确的文本聚类结果,进而提高新话题挖掘的准确率和高效性。在一些替代性实施例中,聚类模块230可以通过其他可行的聚类算法实现聚类,本说明书对此不做限制。例如,聚类算法可以包括K-Means(K均值)聚类、均值漂移聚类、DBSCAN聚类、高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类、图团体检测(Graph Community Detection)聚类算法等中的一种或其任意组合。
步骤340,确定第一簇中每个簇的第一话题。具体地,步骤340可以由提取模块240执行。
在一些实施例中,第一话题可以反映用户输入的历史文本的中心内容。例如,包含文本“找不到个人中心入口”和“页面中没有个人中心”的簇,对应的话题可以为“页面中没有个人中心”。又例如,包含文本“武汉为什么不能使用手机公交卡”、“手机出行服务什么时候在武汉上线”、“希望公交出行服务在武汉上线”的簇,对应的话题可以为“希望公交出行服务在武汉上线”。在一些实施例中,提取模块240可以通过确定每个第一簇的聚类中心确定对应簇的第一话题。具体地,提取模块240可以计算每个簇中每个子集为该簇中心点(即中心内容)的概率值,将概率值最大的子集确定为该簇的聚类中心,并基于该聚类中心确定对应第一簇的第一话题。例如,提取模块240可以利用HDBSCAN聚类算法计算出每个第一簇中每个点为该簇中心的概率值,将概率值最大的点作为该第一簇的聚类中心,提取该聚类中心对应的文本作为该簇的第一话题。在一些实施例中,提取模块240可以通过对聚类中心对应的文本进行处理确定第一话题。例如,提取模块240可以通过去除聚类中心对应文本中的冗余内容(如语气词、代词、标点符号等)确定第一话题。例如,对于获取到的用户文本“武汉为什么不能使用手机公交卡”、“手机出行服务什么时候在武汉上线”、“希望公交出行服务在武汉上线”、“找不到个人中心入口”和“页面中没有个人中心”,若其对应的向量分别为X、Y、Z、M、N,则可以根据文本之间的相似度将这些用户文本聚类为包含文本向量X、Y、Z的簇A,和包含文本向量M和N的簇B。通过分别计算簇A和簇B中每个点为聚类中心的概率值,可以确定簇A和簇B的话题。例如,计算获得向量X为簇A中心的概率值为75%,向量Y为簇A中心的概率值为80%,向量Z为簇A中心的概率值为90%,则可以确定簇A的聚类中心为Z。可以提取向量Z对应的文本内容“希望公交出行服务在武汉上线”,确定为簇A的话题。
步骤350,获取历史文本和新增文本的文本合集数据。具体地,步骤350可以由获取模块210执行。
新增文本可以反映上次新话题挖掘到该次新话题挖掘期间新增的用户输入信息。例如,公交/地铁卡手机客户端/小程序在北京、上海、广州、深圳等地区上线使用,在用户向客服咨询“为什么武汉不能使用手机公交卡”、“重庆什么时候可以使用地铁出行服务”后,公交/地铁卡手机客户端/小程序在武汉、重庆、天津等地区也相继上线,而东北地区尚未上线,则新增文本可能包含“佳木斯怎么不支持公交出行服务”等内容。在一些实施例中,获取模块210可以从存储设备中(如数据库140)获取历史文本和新增文本的文本合集数据。在一些实施例中,获取模块210可以通过网络120访问存储设备以获取历史文本和新增文本的文本合集数据。在一些实施例中,获取模块210可以直接从用户终端130获取用户输入的历史文本和新增文本的文本合集数据。在一些替代性实施例中,获取模块210可以从开源数据库中获取历史文本和新增文本的文本合集数据。获取历史文本和新增文本的文本合集数据的方式与获取历史文本数据的方式类似,更多关于文本合集数据的内容可以参见步骤310及其相关描述,在此不再赘述。
步骤360,基于文本合集数据确定第二语义距离。具体地,步骤360可以由数据处理模块220执行。
在一些实施例中,数据处理模块220可以通过对历史文本和新增文本的文本合集数据进行编码,基于编码后的文本合集数据确定文本之间的第二语义距离。在一些实施例中,数据处理模块220可以利用BERT神经网络对历史文本和新增文本的文本合集数据进行编码。在一些替代性实施例中,数据处理模块220可以利用其他可行的方式实现文本的编码处理,例如,Word2Vec,本说明书对此不做限制。在一些实施例中,数据处理模块220可以通过计算编码后的文本合集数据之间的余弦距离确定第二语义距离。在一些实施例中,第二语义距离也可以通过其他距离算法确定,例如,欧式距离、Jaccard距离、编辑距离等一种或多种的组合,本说明书对此不做限制。在一些实施例中,第二语义距离可以包括文本合集数据中两两文本之间的语义距离、相邻文本之间的语义距离和/或相关文本之间的语义距离(如未聚类文本与聚类中心之间的语义距离)。在一些实施例中,第二语义距离可以为任意合理的数值范围。例如,第二语义距离的范围可以为余弦距离的范围[0,1]。在一些实施例中,数据处理模块220可以对历史文本和新增文本的文本合集数据进行预处理。通过预处理可以清洗历史文本和新增文本的文本合集数据中的噪声数据。第二语义距离的确定方法和第一语义距离的确定方法类似,更多内容可以参见步骤320及其相关描述,在此不再赘述。
步骤370,基于第二语义距离确定第二簇。具体地,步骤370可以由聚类模块230执行。
在一些实施例中,聚类模块230可以基于第二语义距离将历史文本和新增文本的文本合集数据划分为至少一个第二簇。每个第二簇内部的子集历史文本之间语义相似性较高(即语义更加接近),每个第二簇之间的历史文本之间语义相似性较低(即语义相差较大)。在一些实施例中,每个第二簇中的子集数量可以相同或不同。在一些实施例中,每个第二簇可以对应一个话题。在一些实施例中,聚类模块230可以基于第二语义距离利用HDBSCAN聚类算法确定至少一个第二簇。在一些替代性实施例中,聚类模块230可以利用其他可行的聚类方式确定第二簇。例如K-Means(K均值)聚类、均值漂移聚类、DBSCAN聚类、高斯混合模型(GMM)的最大期望(EM)聚类、凝聚层次聚类、图团体检测(Graph CommunityDetection)聚类算法等一种或多种的组合。第二簇的确定方法和第一簇的确定方法类似,更多内容可以参见步骤330及其相关描述,在此不再赘述。
步骤380,确定第二簇中每个簇的第二话题。具体地,步骤380可以由提取模块240执行。
在一些实施例中,第二话题可以反映每个簇中用户输入文本的中心内容。在一些实施例中,提取模块240可以通过确定每个第二簇的聚类中心确定对应簇的第二话题。例如,提取模块240可以利用HDBSCAN聚类算法计算出每个第二簇中每个点为该簇中心的概率值,将概率值最大的点作为该第二簇的聚类中心,提取该聚类中心对应的文本作为该簇的第二话题。在一些实施例中,提取模块240可以通过对聚类中心对应的文本进行处理确定第二话题。例如,提取模块240可以通过去除聚类中心对应文本中的冗余内容(如语气词、代词、标点符号等)确定第二话题。第二话题的确定方法和第一话题的确定方法类似,更多内容可以参见步骤340及其相关描述,在此不再赘述。
步骤390,比较第一话题和第二话题,根据比较结果确定新话题。具体地,步骤390可以由话题确定模块250执行。
新话题可以反映上次新话题挖掘到该次新话题挖掘期间新出现的话题。在一些实施例中,话题确定模块250可以通过比较第一话题和第二话题,当第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定该第二话题为新话题。第三语义距离可以反映第一话题和第二话题之间的语义相似程度。第二话题与第一话题的第三语义距离越小,表示两者之间的语义越接近。在一些实施例中,第三语义距离可以包括余弦距离、欧式距离、Jaccard距离、编辑距离等一种或多种的组合。第三语义距离的计算方式可以与第一语义距离或第二语义距离的计算方式相同或不同。例如,第三语义距离可以基于第一话题和第二话题利用BERT神经网络直接计算获得。又例如,第三语义距离可以基于经Word2Vec编码后的第一话题和第二话题计算获得。通过比较第一话题和第二话题的语义相似度,可以确定第二话题为新话题还是已经挖掘的“老话题”。老话题可以包括该次新话题挖掘之前挖掘生成的新话题。由于第一话题为历史文本对应的话题,而历史文本数据为已经挖掘过的文本数据,因此第二话题与第一话题的第三语义距离越小,表示第二话题为已经出现的话题的可能性越大,即第二话题可能为“老话题”。在一些实施例中,话题确定模块250可以通过比较第一簇中每个簇的第一话题与第二簇中每个簇的第二话题,当第二簇中存在第二话题与第一簇中任意一个第一话题的第三语义距离均大于预设距离阈值时,确定该第二话题为新话题。在一些实施例中,话题确定模块250可以当第二簇中第二话题与第一簇中任意一个第一话题的第三语义距离均小于或等于预设距离阈值时,确定第二话题为老话题。此种情况下,系统输出的新话题可以为0,或者不输出新话题直接进入下一次新话题的自动挖掘。在一些实施例中,确定的新话题数量可以为一个或多个。在一些实施例中,通过挖掘用户文本数据中的新话题可以更准确获知用户感兴趣的内容,进而提供更优质的服务。例如,可以根据用户的历史文本数据“为什么武汉不能使用手机公交卡”、“重庆什么时候可以使用地铁出行服务”,与新增文本和历史文本的文本合集数据“佳木斯怎么不支持公交出行服务”等内容,确定新话题“佳木斯不支持公交出行服务”,进而可以根据该新话题在佳木斯上线手机公交出行服务。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,步骤320或步骤360中,可以先基于文本数据进行初始聚类,然后通过计算文本与聚类中心之间的语义距离,对文本进行精确聚类。又例如,步骤390中可以先对比第一簇和第二簇的数量,数量差为多少即表示可能有多少个新话题出现,通过该步骤可以对新话题的挖掘结果进行验证,以提高新话题挖掘的准确性。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过对比历史文数据与历史文本数据和新增文本数据合集聚类中心,可以提高文本聚类中心的稳定性,从而降低新话题发现的错误率;(2)利用HDBSCAN聚类方法实现对相似文本的聚类,可以自动生成各种大小的文本簇,通过聚类的大小决定话题的热度,从而可以形成自动生成话题,提高话题挖掘效率;(3)基于历史文本数据和新增文本数据通过BERT神经网络、聚类算法等自动发现新话题,解决了人工挑选话题的难题,提高了话题挖掘效率。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利说明书、专利说明书公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的说明书历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (20)

1.一种新话题的自动挖掘方法,所述方法包括:
获取历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离;
基于所述第一语义距离确定至少一个第一簇;
确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;
获取包含历史文本和新增文本的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离;
基于所述第二语义距离确定至少一个第二簇;
确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;
当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
2.根据权利要求1所述的新话题的自动挖掘方法,所述第一语义距离和所述第二语义距离均为余弦距离。
3.根据权利要求1所述的新话题的自动挖掘方法,所述第一语义距离的确定方法包括:
对所述历史文本数据进行预处理;
利用BERT神经网络对预处理后的历史文本数据进行编码;
基于编码后的历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离。
4.根据权利要求1所述的新话题的自动挖掘方法,所述第二语义距离的确定方法包括:
对所述文本合集数据进行预处理;
利用BERT神经网络对预处理后的文本合集数据进行编码;
基于编码后的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离。
5.根据权利要求4所述的新话题的自动挖掘方法,所述预处理包括清洗文本数据中的噪声数据,所述噪声数据至少包括广告数据、色情数据、语句不通顺数据和/或重复数据。
6.根据权利要求1所述的新话题的自动挖掘方法,所述基于所述第一语义距离确定至少一个第一簇包括:基于所述第一语义距离利用HDBSCAN聚类算法确定至少一个第一簇。
7.根据权利要求1所述的新话题的自动挖掘方法,所述基于所述第二语义距离确定至少一个第二簇包括:基于所述第二语义距离利用HDBSCAN聚类算法确定至少一个第二簇。
8.根据权利要求1所述的新话题的自动挖掘方法,所述第一话题或所述第二话题的确定方法包括:
对于每个簇,确定所述簇中每个子集为所述簇的中心的概率值;
确定所述概率值最大的子集为所述簇的聚类中心;
基于所述聚类中心确定对应簇的第一话题或第二话题。
9.根据权利要求1所述的新话题的自动挖掘方法,还包括:
当所述至少一个第二簇中第二话题与至少一个第一簇中任意一个第一话题的第三语义距离均小于或等于预设距离阈值时,确定所述第二话题为老话题,所述老话题包括本次新话题自动挖掘之前确定的新话题。
10.一种新话题的自动挖掘系统,所述系统包括:
获取模块,所述获取模块被配置为获取历史文本数据以及包含历史文本和新增文本的文本合集数据;
数据处理模块,所述数据处理模块被配置为确定所述历史文本数据中历史文本之间的第一语义距离,以及确定所述文本合集数据中文本之间的第二语义距离;
聚类模块,所述聚类模块被配置为基于所述第一语义距离确定至少一个第一簇,与基于所述第二语义距离确定至少一个第二簇;
提取模块,所述提取模块被配置为确定所述至少一个第一簇中每个簇的第一话题,所述第一话题反映第一簇的中心内容;以及确定所述至少一个第二簇中每个簇的第二话题,所述第二话题反映第二簇的中心内容;
话题确定模块,所述话题确定模块被配置为当所述第二话题与任意一个第一话题的第三语义距离均大于预设距离阈值时,确定所述第二话题为新话题。
11.根据权利要求10所述的新话题的自动挖掘系统,所述第一语义距离和所述第二语义距离均为余弦距离。
12.根据权利要求10所述的新话题的自动挖掘系统,所述数据处理模块用于:
对所述历史文本数据进行预处理;
利用BERT神经网络对预处理后的历史文本数据进行编码;
基于编码后的历史文本数据,确定所述历史文本数据中历史文本之间的第一语义距离。
13.根据权利要求10所述的新话题的自动挖掘系统,所述数据处理模块用于:
对所述文本合集数据进行预处理;
利用BERT神经网络对预处理后的文本合集数据进行编码;
基于编码后的文本合集数据,确定所述文本合集数据中文本之间的第二语义距离。
14.根据权利要求13所述的新话题的自动挖掘系统,所述预处理包括清洗文本数据中的噪声数据,所述噪声数据至少包括广告数据、色情数据、语句不通顺数据和/或重复数据。
15.根据权利要求10所述的新话题的自动挖掘系统,所述聚类模块用于:基于所述第一语义距离利用HDBSCAN聚类算法确定至少一个第一簇。
16.根据权利要求10所述的新话题的自动挖掘系统,所述聚类模块用于:基于所述第二语义距离利用HDBSCAN聚类算法确定至少一个第二簇。
17.根据权利要求10所述的新话题的自动挖掘系统,所述提取模块用于:
对于每个簇,确定所述簇中每个子集为所述簇的中心的概率值;
确定所述概率值最大的子集为所述簇的聚类中心;
基于所述聚类中心确定对应簇的第一话题或第二话题。
18.根据权利要求10所述的新话题的自动挖掘系统,所述话题确定模块用于:
当所述至少一个第二簇中第二话题与至少一个第一簇中任意一个第一话题的第三语义距离均小于或等于预设距离阈值时,确定所述第二话题为老话题,所述老话题包括本次新话题自动挖掘之前确定的新话题。
19.一种新话题的自动挖掘系统,包括处理器,所述处理器用于执行如权利要求1~9中任一项所述的新话题的自动挖掘方法。
20.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~9中任一项所述的新话题的自动挖掘方法。
CN202010153596.4A 2020-03-06 2020-03-06 一种新话题的自动挖掘方法和系统 Active CN111339784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010153596.4A CN111339784B (zh) 2020-03-06 2020-03-06 一种新话题的自动挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010153596.4A CN111339784B (zh) 2020-03-06 2020-03-06 一种新话题的自动挖掘方法和系统

Publications (2)

Publication Number Publication Date
CN111339784A CN111339784A (zh) 2020-06-26
CN111339784B true CN111339784B (zh) 2023-03-14

Family

ID=71185976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010153596.4A Active CN111339784B (zh) 2020-03-06 2020-03-06 一种新话题的自动挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN111339784B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651566B (zh) * 2020-08-10 2020-12-01 四川大学 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN111966792B (zh) * 2020-09-03 2023-07-25 网易(杭州)网络有限公司 一种文本处理方法、装置、电子设备及可读存储介质
CN113987192B (zh) * 2021-12-28 2022-04-01 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177090B (zh) * 2013-03-08 2016-11-23 亿赞普(北京)科技有限公司 一种基于大数据的话题检测方法及装置
CN105320646A (zh) * 2015-11-17 2016-02-10 天津大学 一种基于增量聚类的新闻话题挖掘方法及其装置
CN106383877B (zh) * 2016-09-12 2020-10-27 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法
CN106570167A (zh) * 2016-11-08 2017-04-19 南京理工大学 基于融合知识的主题模型的微博话题发现方法
CN106991171A (zh) * 2017-03-25 2017-07-28 贺州学院 基于智慧校园信息服务平台的话题发现方法
US10951566B2 (en) * 2017-11-10 2021-03-16 International Business Machines Corporation Management of communications based on topic drift
CN107832467A (zh) * 2017-11-29 2018-03-23 北京工业大学 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN108170773A (zh) * 2017-12-26 2018-06-15 百度在线网络技术(北京)有限公司 新闻事件挖掘方法、装置、计算机设备和存储介质
CN109388711A (zh) * 2018-09-05 2019-02-26 广州视源电子科技股份有限公司 日志流聚类的方法和装置
CN109710728B (zh) * 2018-11-26 2022-05-17 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法

Also Published As

Publication number Publication date
CN111339784A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
CN106687952B (zh) 利用知识源进行相似性分析和数据丰富化的技术
CN111339784B (zh) 一种新话题的自动挖掘方法和系统
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US20230153870A1 (en) Unsupervised embeddings disentanglement using a gan for merchant recommendations
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
US11120064B2 (en) Transliteration of data records for improved data matching
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN110390011B (zh) 数据分类的方法和装置
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
US11163761B2 (en) Vector embedding models for relational tables with null or equivalent values
CN111368081A (zh) 一种精选文本内容确定方法和系统
CN111291829A (zh) 一种精选图片的自动确定方法和系统
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN113254800A (zh) 信息推荐方法、装置、电子设备及存储介质
Jahanbakhsh Gudakahriz et al. Opinion texts clustering using manifold learning based on sentiment and semantics analysis
CN117555950B (zh) 基于数据中台的数据血缘关系构建方法
US12001467B1 (en) Feature engineering based on semantic types
US20240169147A1 (en) Reference driven nlp-based topic categorization
CN113779370B (zh) 一种地址检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant