CN116089616A - 主题文本获取方法、装置、设备及存储介质 - Google Patents

主题文本获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116089616A
CN116089616A CN202310151004.9A CN202310151004A CN116089616A CN 116089616 A CN116089616 A CN 116089616A CN 202310151004 A CN202310151004 A CN 202310151004A CN 116089616 A CN116089616 A CN 116089616A
Authority
CN
China
Prior art keywords
user text
user
text
similarity
vector model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310151004.9A
Other languages
English (en)
Inventor
张姗姗
杜新凯
吕超
王建辉
侯佳腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202310151004.9A priority Critical patent/CN116089616A/zh
Publication of CN116089616A publication Critical patent/CN116089616A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种主题文本获取方法、装置、设备及存储介质,涉及数据处理领域。该主题文本获取方法包括:获取预设业务场景中的多个用户文本数据,并根据句向量模型、词向量模型,将各用户文本数据聚类至不同主题下,然后采用词向量模型,确定各主题中的核心关键词,从各主题中,筛选核心关键词最多的用户文本数据作为主题的主题文本。本申请的方法,通过句向量模型和词向量模型,将句向量和词向量进行融合,采用聚类的方法将各用户文本数据聚类至不同的主题,使得聚类结果更加准确,并通过词向量模型对各主题进行核心关键词的提取,最后得到各主题对应的主题文本,从而为后续实现意图识别,信息过滤等任务提供方向指引与数据支撑。

Description

主题文本获取方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,具体而言,涉及一种主题文本获取方法、装置、设备及存储介质。
背景技术
根据特征提取、文本聚类等自然语言处理技术,对业务场景中的用户文本数据进行意图识别,可以根据用户意图识别结果对用户进行更好的服务。
现有技术采用基于规则、基于机器学习或者基于深度学习的方法,但是,基于规则的意图识别方法具有可移植性低的特点,对于同样的意图,在适配于不同领域时需要开发不同的规则,规则编写工作量大,后期维护投入精力大,基于机器学习和基于深度学习的意图识别方法,实质上都是有监督学习,存在有标记数据资源匮乏、意图分类不准确的问题。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种主题文本获取方法、装置、设备及存储介质,以便实现用户文本数据的准确聚类。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种主题文本获取方法,包括:
获取预设业务场景中的多个用户文本数据;
根据句向量模型、词向量模型,将各所述用户文本数据聚类至不同主题下;
采用所述词向量模型,确定各所述主题中的核心关键词;
从各所述主题中,筛选所述核心关键词最多的用户文本数据作为所述主题的主题文本。
在可选的实施方式中,所述根据句向量模型、词向量模型,将各所述用户文本数据聚类至不同主题下,包括:
为多个所述用户文本数据中的第一用户文本建立目标主题;
采用所述句向量模型、词向量模型,计算所述用户文本数据中其他用户文本和所述第一用户文本的相似度;
将所述相似度满足预设阈值的其他用户文本与所述第一用户文本聚类于所述目标主题下。
在可选的实施方式中,所述采用所述句向量模型、词向量模型,计算所述用户文本数据中其他用户文本和所述第一用户文本的相似度,包括:
根据句向量模型,计算所述第一用户文本和第二用户文本的句向量相似度,其中,所述第二用户文本是所述其他用户文本中的任一用户文本;
根据词向量模型,计算所述第一用户文本和所述第二用户文本的词向量相似度;
根据所述句向量相似度和所述词向量相似度,得到所述第一用户文本和所述第二用户文本的最终相似度。
在可选的实施方式中,所述根据句向量模型,计算所述第一用户文本和第二用户文本的句向量相似度之前,还包括:
采用预训练句向量模型对预设数据集进行无监督预训练,得到所述句向量模型,所述预设数据集包括:与所述用户文本数据领域相关的领域知识数据。
在可选的实施方式中,所述根据所述句向量相似度和所述词向量相似度,得到所述第一用户文本和所述第二用户文本的最终相似度,包括:
根据预设权重,对所述句向量相似度和所述词向量相似度进行加权计算,得到所述第一用户文本和所述第二用户文本的最终相似度。
在可选的实施方式中,所述将所述相似度满足预设阈值的其他用户文本与所述第一用户文本聚类于所述目标主题下,包括:
若第二用户文本与多个主题下的用户文本的相似度满足预设阈值,则将所述第二用户文本与多个主题的相似度进行排序,其中,所述第二用户文本是所述其他用户文本中的任一用户文本;
若所述第二用户文本与所述目标主题的相似度最高,将所述第二用户文本聚类于所述目标主题下。
在可选的实施方式中,所述从各所述主题中,筛选所述核心关键词最多的用户文本数据作为所述主题的主题文本之后,还包括:
根据所述主题文本,分析获取用户热点话题。
第二方面,本申请实施例还提供了一种主题文本获取装置,包括:
获取模块,用于获取预设业务场景中的多个用户文本数据;
聚类模块,用于根据句向量模型、词向量模型,将各所述用户文本数据聚类至不同主题下;
确定模块,用于采用所述词向量模型,确定各所述主题中的核心关键词;
筛选模块,用于从各所述主题中,筛选所述核心关键词最多的用户文本数据作为所述主题的主题文本。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行上述第一方面任一所述的主题文本获取方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面任一所述的主题文本获取方法的步骤。
本申请的有益效果是:
本申请提供一种主题文本获取方法、装置、设备及存储介质,包括:获取预设业务场景中的多个用户文本数据,并根据句向量模型、词向量模型,将各用户文本数据聚类至不同主题下,然后采用词向量模型,确定各主题中的核心关键词,从各主题中,筛选核心关键词最多的用户文本数据作为主题的主题文本。本申请的方法,通过句向量模型和词向量模型,将句向量和词向量进行融合,采用聚类的方法将各用户文本数据聚类至不同的主题,使得聚类结果更加准确,实现对用户文本数据的统计,并通过词向量模型对各主题进行核心关键词的提取,最后得到各主题对应的主题文本,从而为后续实现意图识别,信息过滤等任务提供方向指引与数据支撑。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种主题文本获取方法的流程示意图;
图2为本申请实施例提供的另一种主题文本获取方法的流程示意图;
图3为本申请实施例提供的又一种主题文本获取方法的流程示意图;
图4为本申请实施例提供的另外一种主题文本获取方法的流程示意图;
图5为本申请实施例提供的一种主题文本获取装置的功能模块示意图;
图6为本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
为了对用户文本数据的聚类结果更准确,并获取得到每个主题对应的主题文本实现意图识别,本申请实施例提供了一种主题文本获取方法,该方法将句向量模型和词向量模型进行用户文本数据的聚类,使得用户文本数据的聚类结果更准确。
如下结合附图通过具体示例对本申请实施例提供的主题文本获取方法进行详细的解释说明。本申请实施例提供的主题文本获取方法可由预先安装有:预设句向量模型训练算法或者检测软件的计算机设备,通过运行算法或者软件实现。计算机设备例如可以为服务器或终端,终端可以为用户计算机。图1为本申请实施例提供的一种主题文本获取方法的流程示意图。如图1所示,该方法包括:
S101、获取预设业务场景中的多个用户文本数据。
在本实施例中,预设业务场景可以指示为特定的业务场景比如保险业务场景、金融业务场景,或者医疗业务场景、又或者教培业务场景。用户文本数据指示为用户根据自身兴趣提出的问题文本,例如可以是在客服过程中的对话文本,也可以是用户提交的文本等,像“这款保险在哪里销售”、“这款保险的销售状态”等。
S102、根据句向量模型、词向量模型,将各用户文本数据聚类至不同主题下。
其中,句向量模型可以为对用户文本数据进行数据处理的模型,例如可以为基于对比学习句向量嵌入(Simple Contrastive Learning of Sentence Embeddings,SIMCSE)模型,词向量模型可以为对用户文本数据进行信息检索的模型,例如可以为信息检索与数据挖掘(Term frequency–Inverse document frequency,TF-IDF)模型,根据句向量模型和词向量模型,对各用户文本数据进行处理并聚类至不同的主题下,其中不同主题为各用户文本数据对应的不同类别。
在对各用户文本数据聚类至不同主题下之前,可先对多个用户文本数据进行数据预处理,数据预处理的方式具体可包括:数据拆分、文本清洗、文本重组、加载停用词典等,以减少用户文本数据中的无效词汇、干扰词汇等,便于后续更精确的获取主题。
S103、采用词向量模型,确定各主题中的核心关键词。
核心关键词可以为各主题中的每个用户文本所对应的核心关键词,根据词向量模型,对各主题中每个用户文本的关键词进行检测并提取,根据各主题中关键词出现的次数进行排序,并根据排序结果选择预设数量的关键词作为各主题的核心关键词,预设数量的核心关键词可以设置为10、15,在此不做限制。
S104、从各主题中,筛选核心关键词最多的用户文本数据作为主题的主题文本。
根据核心关键词,从各主题中筛选出包含核心关键词最多的用户文本,则将该用户文本作为当前主题下的主题文本,从而得到各个主题下对应的主题文本。
综上所述,本申请的方法,可通过句向量模型和词向量模型,将句向量和词向量进行融合,采用聚类的方法将各用户文本数据聚类至不同的主题,使得聚类结果更加准确,实现对用户文本数据的统计,并通过词向量模型对各主题进行核心关键词的提取,最后得到各主题对应的主题文本,从而为后续实现意图识别,信息过滤等任务提供方向指引与数据支撑。
在上述实施例提供的主题文本获取方法的基础上,本申请实施例还提供了另一种主题文本获取方法的可能实现方式。图2为本申请实施例提供的另一种主题文本获取方法的流程示意图。如图2所示,根据句向量模型、词向量模型,将各用户文本数据聚类至不同主题下,包括:
S201、为多个用户文本数据中的第一用户文本建立目标主题。
在本实施例中,第一用户文本为多个用户文本数据中接收到的第一个用户文本,则对该用户文本建立目标主题即目标类别。
可选地,如果同时接收到多个用户文本,也可以随机选一个作为第一用户文本。
S202、采用句向量模型、词向量模型,计算用户文本数据中其他用户文本和第一用户文本的相似度。
其他用户文本为多个用户文本中除了第一用户文本以外的用户文本,当接收到其他用户文本时,根据句向量模型和词向量模型分别对其他用户文本和第一用户文本进行相似度计算。
S203、将相似度满足预设阈值的其他用户文本与第一用户文本聚类于目标主题下。
根据上述步骤分别计算得到其他用户文本与第一用户文本的相似度,若其他用户文本中的一个用户文本与第一用户文本的相似度满足预设阈值,则将该用户文本聚类于目标主题下,即目标主题下的用户文本数据包括该用户文本和第一用户文本,其中预设阈值可以根据相似度计算结果进行设置。
需要说明的是,若其他用户文本中的一个用户文本与第一用户文本的相似度不满足预设阈值,则为该用户文本创建另一个主题。
本申请实施例提供的方法中,首先对接收到的第一个用户文本即第一用户文本建立目标主题,通过句向量模型和词向量模型对用户文本数据中其他用户文本和第一用户文本的相似度进行计算,若其他用户文本和第一用户文本的相似度满足预设阈值,则将该用户文本聚类至第一用户文本所在的目标主题中,实现了各用户文本的聚类,通过句向量模型和词向量模型使得聚类结果更加准确。
在上述实施例提供的主题文本获取方法的基础上,本申请实施例还提供了另一种主题文本获取方法的可能实现方式。图3为本申请实施例提供的又一种主题文本获取方法的流程示意图。如图3所示,采用句向量模型、词向量模型,计算用户文本数据中其他用户文本和第一用户文本的相似度,包括:
S301、根据句向量模型,计算第一用户文本和第二用户文本的句向量相似度。
S302、根据词向量模型,计算第一用户文本和第二用户文本的词向量相似度。
在本实施例中,第二用户文本是其他用户文本中的任一用户文本,根据句向量模型对第一用户文本和第二用户文本进行句向量相似度计算,根据词向量模型对第一用户文本和第二用户文本进行词向量相似度计算。
S303、根据句向量相似度和词向量相似度,得到第一用户文本和第二用户文本的最终相似度。
可选地,根据预设权重,对句向量相似度和词向量相似度进行加权计算,得到第一用户文本和第二用户文本的最终相似度,示例的,若设置句向量的预设权重为x,则词向量的预设权重为1-x,若第一用户文本和第二用户文本的句向量相似度表示为simi_sen,第一用户文本和第二用户文本的词向量相似度表示为simi_word,则第一用户文本和第二用户文本的最终相似度可表示为sim=x*simi_sen+(1-x)*simi_word,从而得到第一用户文本和第二用户文本的最终相似度。
本申请实施例提供的方法中,根据句向量模型对第一用户文本和第二用户文本进行句向量相似度计算,根据词向量模型对第一用户文本和第二用户文本进行词向量相似度计算,然后对句向量相似度和词向量相似度进行加权计算,得到第一用户文本和第二用户文本的最终相似度,不仅考虑了第一用户文本和第二用户文本的句向量,还考虑了第一用户文本和第二用户文本的词向量,使得第一用户文本和第二用户文本的最终相似度更加准确。
在上述实施例提供的主题文本获取方法的基础上,本申请实施例还提供了另一种主题文本获取方法的可能实现方式。根据句向量模型,计算第一用户文本和第二用户文本的句向量相似度之前,还包括:
采用预训练句向量模型对预设数据集进行无监督预训练,得到句向量模型,预设数据集包括:与用户文本数据领域相关的领域知识数据。
示例的,若与用户文本数据相关的领域为保险业务领域,则预设数据集为与保险业务领域相关的用户文本数据集,若与用户文本数据相关的领域为金融业务领域,则预设数据集为与金融业务领域相关的用户文本数据集。
其中,基于无监督的方法在预设数据集上对通用的预训练句向量模型进行进一步预训练,从而得到句向量模型,具有成本低见效快,无需额外准备领域知识或相关任务的特点。
本申请实施例还提供了另一种主题文本获取方法的可能实现方式。图4为本申请实施例提供的另外一种主题文本获取方法的流程示意图。如图4所示,将相似度满足预设阈值的其他用户文本与第一用户文本聚类于目标主题下,包括:
S401、若第二用户文本与多个主题下的用户文本的相似度满足预设阈值,则将第二用户文本与多个主题的相似度进行排序。
在本实施例中,第二用户文本为其他用户文本中的任一用户文本,若存在多个主题,则将接收到的第二用户文本分别于多个主题下预设数量的用户文本进行相似度计算,计算第二用户文本与多个主题下预设数量的用户文本相似度的平均值并作为对应主题与第二用户文本的最终相似度,从而得到多个主题与第二用户文本的最终相似度,若多个主题与第二用户文本的最终相似度均满足预设阈值,则根据相似度的大小对多个主题进行排序,其中多个主题下用户文本的预设数量可以根据计算结果进行设置,例如预设数量可以为5、10、15,在此不做限制,若预设数量设置为5,则计算第二用户文本与多个主题下的5个用户文本的相似度,并且5个用户文本为最新聚类至对应主题下的用户文本。
示例的,若存在两个主题分别为主题1和主题2,若主题1中包含6个用户文本,主题2中包含4个用户文本,且预设数量为5,则分别计算第二用户文本与最新聚类至主题1中的5个用户文本相似度,并计算5个相似度的平均值作为主题1与第二用户文本的最终相似度,然后分别计算第二用户文本与主题2中的4个用户文本的相似度,并计算4个相似度的平均值作为主题2与第二用户文本的最终相似度,若主题1与第二用户文本的最终相似度和主题2与第二用户文本的最终相似度均满足预设阈值,则根据两个主题与第二用户文本的最终相似度进行排序。
S402、若第二用户文本与目标主题的相似度最高,将第二用户文本聚类于目标主题下。
根据上述步骤S401得到第二用户文本与多个主题的相似度排序结果,若第二用户文本与多个主题中目标主题的相似度最高,则将第二用户文本聚类与目标主题下,示例的,若主题1与第二用户文本的最终相似度大于主题2与第二用户文本的最终相似度,则将第二用户文本聚类与主题1下。类似地,可以依据该方法循环执行,将用户文本数据都聚类到不同主题下。
本申请实施例提供的方法中,若存在多个主题,则将第二用户文本分别与多个主题下的用户文本的相似度进行相似度计算,得到第二用户文本与多个主题的最终相似度,若第二用户文本与多个主题的最终相似度均满足预设阈值,则根据第二用户文本与多个主题的最终相似度对多个主题进行排序,并将第二用户文本聚类与最终相似度最高的主题,若第二用户文本与目标主题的相似度最高,将第二用户文本聚类于目标主题下,实现了个用户文本数据的聚类。
本申请实施例还提供了另一种主题文本获取方法的可能实现方式。从各主题中,筛选核心关键词最多的用户文本数据作为主题的主题文本之后,还包括:
根据主题文本,分析获取用户热点话题,并对各个主题中所聚类的用户文本定期进行汇总,整理得到各个主题的主题文本,从而获取用户关注度高的热点话题,并发现新的用户意图,例如主题文本为“这款保险在哪里销售”则得到用户关注的话题和意图为保险的销售地址,一方面提升用户体验,也可以增加对用户关注度的了解,及时调整业务或者宣传等。
如下继续对执行本申请上述任一实施例提供的主题文本获取装置、电子设备及存储介质进行相应的解释,其具体的实现过程以及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。
图5为本申请实施例提供的一种主题文本获取装置的功能模块示意图。如图5所示,该主题文本获取装置100包括:
获取模块110,用于获取预设业务场景中的多个用户文本数据;
聚类模块120,用于根据句向量模型、词向量模型,将各用户文本数据聚类至不同主题下;
确定模块130,用于采用词向量模型,确定各主题中的核心关键词;
筛选模块140,用于从各主题中,筛选核心关键词最多的用户文本数据作为主题的主题文本。
在可选的实施方式中,聚类模块120,还用于为多个用户文本数据中的第一用户文本建立目标主题;采用句向量模型、词向量模型,计算用户文本数据中其他用户文本和第一用户文本的相似度;将相似度满足预设阈值的其他用户文本与第一用户文本聚类于目标主题下。
在可选的实施方式中,聚类模块120,还用于根据句向量模型,计算第一用户文本和第二用户文本的句向量相似度,其中,第二用户文本是其他用户文本中的任一用户文本;根据词向量模型,计算第一用户文本和第二用户文本的词向量相似度;根据句向量相似度和词向量相似度,得到第一用户文本和第二用户文本的最终相似度。
在可选的实施方式中,主题文本获取装置100还包括:
训练模块,用于采用预训练句向量模型对预设数据集进行无监督预训练,得到句向量模型,预设数据集包括:与用户文本数据领域相关的领域知识数据。
在可选的实施方式中,聚类模块120,还用于根据预设权重,对句向量相似度和词向量相似度进行加权计算,得到第一用户文本和第二用户文本的最终相似度。
在可选的实施方式中,聚类模块120,还用于若第二用户文本与多个主题下的用户文本的相似度满足预设阈值,则将第二用户文本与多个主题的相似度进行排序,其中,第二用户文本是其他用户文本中的任一用户文本;若第二用户文本与目标主题的相似度最高,将第二用户文本聚类于目标主题下。
在可选的实施方式中,主题文本获取装置100还包括:
分析模块,用于根据主题文本,分析获取用户热点话题。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图6为本申请实施例提供的一种电子设备的示意图,该电子设备可用于主题文本获取。如图6所示,该电子设备200包括:处理器210、存储介质220、总线230。
存储介质220存储有处理器210可执行的机器可读指令,当电子设备运行时,处理器210与存储介质220之间通过总线230通信,处理器210执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质220,存储介质220上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种主题文本获取方法,其特征在于,包括:
获取预设业务场景中的多个用户文本数据;
根据句向量模型、词向量模型,将各所述用户文本数据聚类至不同主题下;
采用所述词向量模型,确定各所述主题中的核心关键词;
从各所述主题中,筛选所述核心关键词最多的用户文本数据作为所述主题的主题文本。
2.如权利要求1所述的方法,其特征在于,所述根据句向量模型、词向量模型,将各所述用户文本数据聚类至不同主题下,包括:
为多个所述用户文本数据中的第一用户文本建立目标主题;
采用所述句向量模型、词向量模型,计算所述用户文本数据中其他用户文本和所述第一用户文本的相似度;
将所述相似度满足预设阈值的其他用户文本与所述第一用户文本聚类于所述目标主题下。
3.如权利要求2所述的方法,其特征在于,所述采用所述句向量模型、词向量模型,计算所述用户文本数据中其他用户文本和所述第一用户文本的相似度,包括:
根据句向量模型,计算所述第一用户文本和第二用户文本的句向量相似度,其中,所述第二用户文本是所述其他用户文本中的任一用户文本;
根据词向量模型,计算所述第一用户文本和所述第二用户文本的词向量相似度;
根据所述句向量相似度和所述词向量相似度,得到所述第一用户文本和所述第二用户文本的最终相似度。
4.如权利要求3所述的方法,其特征在于,所述根据句向量模型,计算所述第一用户文本和第二用户文本的句向量相似度之前,还包括:
采用预训练句向量模型对预设数据集进行无监督预训练,得到所述句向量模型,所述预设数据集包括:与所述用户文本数据领域相关的领域知识数据。
5.如权利要求3所述的方法,其特征在于,所述根据所述句向量相似度和所述词向量相似度,得到所述第一用户文本和所述第二用户文本的最终相似度,包括:
根据预设权重,对所述句向量相似度和所述词向量相似度进行加权计算,得到所述第一用户文本和所述第二用户文本的最终相似度。
6.如权利要求2所述的方法,其特征在于,所述将所述相似度满足预设阈值的其他用户文本与所述第一用户文本聚类于所述目标主题下,包括:
若第二用户文本与多个主题下的用户文本的相似度满足预设阈值,则将所述第二用户文本与多个主题的相似度进行排序,其中,所述第二用户文本是所述其他用户文本中的任一用户文本;
若所述第二用户文本与所述目标主题的相似度最高,将所述第二用户文本聚类于所述目标主题下。
7.如权利要求1-6任一项所述的方法,其特征在于,所述从各所述主题中,筛选所述核心关键词最多的用户文本数据作为所述主题的主题文本之后,还包括:
根据所述主题文本,分析获取用户热点话题。
8.一种主题文本获取装置,其特征在于,包括:
获取模块,用于获取预设业务场景中的多个用户文本数据;
聚类模块,用于根据句向量模型、词向量模型,将各所述用户文本数据聚类至不同主题下;
确定模块,用于采用所述词向量模型,确定各所述主题中的核心关键词;
筛选模块,用于从各所述主题中,筛选所述核心关键词最多的用户文本数据作为所述主题的主题文本。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如权利要求1至7任一所述的主题文本获取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的主题文本获取方法的步骤。
CN202310151004.9A 2023-02-16 2023-02-16 主题文本获取方法、装置、设备及存储介质 Pending CN116089616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310151004.9A CN116089616A (zh) 2023-02-16 2023-02-16 主题文本获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310151004.9A CN116089616A (zh) 2023-02-16 2023-02-16 主题文本获取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116089616A true CN116089616A (zh) 2023-05-09

Family

ID=86202553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310151004.9A Pending CN116089616A (zh) 2023-02-16 2023-02-16 主题文本获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116089616A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541731A (zh) * 2023-05-26 2023-08-04 北京百度网讯科技有限公司 网络行为数据的处理方法、装置和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541731A (zh) * 2023-05-26 2023-08-04 北京百度网讯科技有限公司 网络行为数据的处理方法、装置和设备

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109165291B (zh) 一种文本匹配方法及电子设备
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
EP3717984B1 (en) Method and apparatus for providing personalized self-help experience
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN108269122B (zh) 广告的相似度处理方法和装置
CN107291755B (zh) 一种终端推送方法及装置
CN113901376A (zh) 恶意网站检测方法、装置、电子设备和计算机存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN112800226A (zh) 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN116127066A (zh) 文本聚类方法、文本聚类装置、电子设备及存储介质
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN111078972B (zh) 提问行为数据的获取方法、装置和服务器
CN110162614B (zh) 问题信息提取方法、装置、电子设备和存储介质
CN114218378A (zh) 一种基于知识图谱的内容推送方法、装置、设备及介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN113704462A (zh) 文本处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination