CN113407679A - 文本主题挖掘方法、装置、电子设备及存储介质 - Google Patents

文本主题挖掘方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113407679A
CN113407679A CN202110737634.5A CN202110737634A CN113407679A CN 113407679 A CN113407679 A CN 113407679A CN 202110737634 A CN202110737634 A CN 202110737634A CN 113407679 A CN113407679 A CN 113407679A
Authority
CN
China
Prior art keywords
text data
word
cluster
clustering
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110737634.5A
Other languages
English (en)
Other versions
CN113407679B (zh
Inventor
简仁贤
任钊立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202110737634.5A priority Critical patent/CN113407679B/zh
Publication of CN113407679A publication Critical patent/CN113407679A/zh
Application granted granted Critical
Publication of CN113407679B publication Critical patent/CN113407679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本主题挖掘方法、装置、电子设备及存储介质。该方法包括:获取多个文本数据;对多个文本数据进行语义分析,获得句向量;汇总句向量,获得句向量集合;根据句向量集合对多个文本数据进行聚类分析,获得聚类结果;当聚类结果中的簇集合满足聚类结束条件时,将簇集合的主题结果作为多个文本数据的文本主题;其中,聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。本申请实施例通过预先对多个文本数据进行语义表示,获得对应的句向量,然后根据句向量对多个文本数据进行聚类分析,从而获得多个文本数据的文本主题,不论文本数据的长短,均能够较准确的进行主题分析,从而提高了主题分析的准确性。

Description

文本主题挖掘方法、装置、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本主题挖掘方法、装置、电子设备及存储介质。
背景技术
在信息过载以及数据快速增长的时代下,通过自然语言处理(Natural LanguageProcessing,NLP)技术对大数据中的主题挖掘能够使用户快速掌握其主题思想。
现有技术中,在利用NLP技术对文本处理流程是:将文本按照句子切分、分词、去停用词、高频过滤停用词后,获得处理后的句子,然后输入主题模型中。
常用的主题模型有潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)、概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLAS)和潜在语义分析(Latent Semantic Analysis,LSA)等,上述算法的本质都需要计算两个矩阵,分别为词对主题的矩阵和主题对文档的矩阵。他们都是在挖掘词和词的共现规律,如果文档很短,就不利于统计词共现规律,从而导致对主题挖掘的准确性低的问题。
发明内容
本申请实施例的目的在于提供一种文本主题挖掘方法、装置、电子设备及存储介质,用以提高对主题挖掘的准确性。
第一方面,本申请实施例提供一种文本主题挖掘方法,包括:获取多个文本数据;对所述多个文本数据进行语义分析,获得句向量;汇总所述句向量,获得句向量集合;根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述簇集合主题结果作为所述多个文本数据的文本主题;其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
本申请实施例通过预先对多个文本数据进行语义表示,获得对应的句向量,然后根据句向量对多个文本数据进行聚类分析,从而获得多个文本数据的文本主题,不论文本数据的长短,均能够较准确的进行主题分析,从而提高了主题分析的准确性。
进一步地,所述对所述多个文本数据进行语义分析,获得句向量,包括:对每一所述文本数据进行分词处理,获得所述每一文本数据对应的词语;从预先存储的稠密词向量查询所述词语的词向量;采用光滑逆频率法SIF的编码方式对所述每一文本数据对应的词向量进行编码,获得所述句向量。
本申请实施例通过采用SIF编码方式对词向量进行编码,从而实现了对高频词降权处理,降低常用词的影响,并去除主要的公共部分,保留了句子各自的特征,从而能够降低聚类分析过程中的干扰,提高了主题挖掘的准确性。
进一步地,所述根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果,当聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题,包括:聚类分析步骤:根据当前的中间句向量集合对所述多个文本数据进行一次聚类分析,获得中间聚类结果;其中,所述中间句向量集合的初始值为所述句向量集合;主题分析步骤:对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的子主题结果,所述子主题结果包括主题词;当所述簇集合中主题词的数量大于第一预设阈值时,将所述簇集合作为目标簇集合;若满足所述聚类结束条件,则将获得的所述目标簇集合的子主题结果的集合作为所述文本主题;若未满足所述聚类结束条件,则将所述目标簇集合中的句向量从所述句向量集合中删除,形成更新的所述中间句向量集合,并重复所述聚类分析步骤以及所述主题分析步骤。
本申请实施例通过迭代聚类的方式,防止存在相同主题的文本数据被分在不同的簇集合中,并且可以从簇集合中获取主题结果,提高了主题挖掘的准确性。
进一步地,所述对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的主题词,包括:获取所述簇集合中每一句向量到簇中心的距离,并根据所述距离筛选出目标句向量;获取所述目标句向量对应的子文本数据,对所述子文本数据对应的目标词语词性标注,获得每个目标词语词性;根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词;获取每个所述关键词的词频信息,根据所述词频信息确定主题词。
本申请实施例通过根据词性、业务词表和你文件频率词表过滤出关键词,再基于关键词的词频确定主题词,从而获得较为准确的主题词。
进一步地,所述子主题结果还包括中心句,在获得目标簇集合之后所述方法还包括:获取所述目标簇集合中距离簇中心最近的句向量,将所述距离簇中心最近的句向量对应的文本数据作为所述中心句。
进一步地,所述根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词,包括:若所述子文本数据对应的一目标词语满足如下关键词判定条件,则将所述目标词语确定为所述关键词;所述关键词判定条件包括:所述业务词表中包括所述目标词语;所述目标词语的词性为预设词性中的一种;所述目标词语在逆文件频率词表中的值大于预设阈值。
本申请实施例通过上述预设筛选条件可以更加准确的筛选出关键词。
进一步地,所述聚类结束条件包括如下至少一种:迭代次数大于第二预设阈值;所述句向量集合中的句向量数量小于第三预设阈值;每个簇集合对应的主题词数量均小于所述第一预设阈值。
本申请实施例通过多次迭代,有效避免了相同主题的文本数据落在不同的簇集合中,从而提高了聚类的准确性。
进一步地,所述根据所述句向量集合对所述多个文本数据进行聚类分析,包括:根据所述句向量集合,利用K-Means++聚类算法或K-Means聚类算法对所述多个文本数据进行聚类分析。
第二方面,本申请实施例提供一种文本主题挖掘装置,包括:数据获取模块,用于获取多个文本数据;数据处理模块,用于对所述多个文本数据进行语义分析,获得句向量;句向量汇总模块,用于汇总所述句向量,获得句向量集合;主题分析模块,用于根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题;其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文本主题挖掘方法流程示意图;
图2为本申请实施例提供的另一种文本主题挖掘方法流程示意图;
图3为本申请实施例提供的一种主题分析流程示意图;
图4为本申请实施例提供的文本主题挖掘装置结构示意图;
图5为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
为了解决现有技术中存在的针对短文本进行主题挖掘时准确率低的问题,本申请实施例提供了一种文本主题挖掘方法,通过对多个文本数据进行语义表示,获得对应的句向量集合;然后根据句向量集合对多个文本数据进行聚类分析,从而获得主题结果。
在详细描述该方案之前,为了便于理解,先针对方案中涉及到的相关名词进行解释:
稠密词向量(Embeddings):选用业务垂直领域语料,采用跳词和负采样(Skip-Gram with Negative Sampling,SGNG)的方式,将词语编码成稠密的定长向量,稠密词向量中包含多个词语对应的词向量。
逆文件频率(Inverse Document Frequency,IDF):是一种用于资讯检索与资讯探勘的常用加权术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
光滑逆频率(Smooth Inverse Frequency,SIF):计算句子中单词向量的加权平均值,然后删除平均向量在其第一个主成分上的投影(即,公共成分去除)。
业务词表:预先构建的词表,业务词表中包含该领域中多个主题词。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
可以理解的是,本申请实施例提供的文本主题挖掘方法可以应用于终端设备(也可以称为电子设备)以及服务器;其中终端设备具体可以为智能手机、平板电脑、计算机、个人数字助理(PersonalDigitalAssitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。
为了便于理解,本申请实施例提供的技术方案,下面以终端设备作为执行主体为例。
图1为本申请实施例提供的一种文本主题挖掘方法流程示意图,如图1所示,该方法包括:
步骤101:获取多个文本数据;
步骤102:对所述多个文本数据进行语义分析,获得句向量;
步骤103:汇总所述句向量,获得句向量集合;
步骤104:根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述簇集合主题结果作为所述多个文本数据的文本主题;
其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
在步骤101中,多个文本数据可以是历史时间段内收集的日志数据,也可以是收集的电话录音,并将电话录音转换成文本数据。
在步骤102中,语义分析方法可以有多种,本申请实施例采用分词器分别对每个文本数据进行分词处理,获得每个文本数据包含的词语,然后从稠密词向量中查找每个词语对应的词向量,再采用SIF编码方式获得每个文本数据对应的句向量。多个文本数据的句向量构成句向量集合。可以理解的是,句向量集合中的每个句向量与文本数据相对应。应当说明的是,获得句向量的方法除了采用本申请实施例提供的SIF编码方式外,还可以通过其他方式获得,本申请实施例对此不做具体限定。
在步骤103中,对句向量集合中的句向量进行聚类分析,其中,可以采用K-Means++聚类算法或K-Means聚类算法,也可以采用其他聚类算法,本申请实施例对此不作具体限定。对于K-Means++聚类算法来说,其超参数的簇个数可以根据文本数据的个数和预先设定的每个主题需要的论据(文本数据)支撑的个数确定。例如:假设文本数据有600个,每个主题需要100个论据支撑,那么,簇个数为6个。可以理解的是,簇个数为正整数,若文本数据不能整除每个主题需要的论据支撑的个数,则进行取整操作。并且,簇个数还可以根据经验设定,本申请实施例对此不作具体限定。
另外,K-Means++聚类算法相对于K-Means聚类算法有更好的初始化,其可以加快迭代收敛速度,从而能够提高主题挖掘的效率。在实际应用中,可根据实际情况选择合适的聚类算法。
由于句向量与文本数据一一对应,对句向量集合中的句向量进行聚类,也相当于对文本数据进行聚类。再有,聚类分析的目的是将属于同一个主题的文本数据归为一类,因此,可以通过聚类结果获取主题结果。
本申请实施例通过预先对多个文本数据进行语义表示,获得句向量,然后根据句向量对多个文本数据进行聚类分析,从而获得文本主题,不论文本数据的长短,均能够较准确的进行主题分析,从而提高了主题分析的准确性。
在上述实施例的基础上,所述对所述多个文本数据进行语义分析,获得句向量,包括:
对每一所述文本数据进行分词处理,获得所述每一文本数据对应的词语;
从预先存储的稠密词向量查询所述词语的词向量;
采用光滑逆频率法SIF的编码方式对所述每一文本数据对应的词向量进行编码,获得所述句向量。
在具体的实施过程中,可以采用现有的分词器对每一个文本数据进行分词处理,分词后去掉常见的停用词,获得每一个文本数据对应的词语。由于稠密词向量中存储有多个词语的向量表示,因此,针对每一个文本数据对应的词语,采用预先存储的稠密词向量获得对应词语的词向量。词向量又叫word嵌入,其中来自词汇表的单词或短语被映射到实数的向量。它涉及从每个单词一维的空间到具有更低维度的连续向量的数学嵌入。
SIF的编码方式具体为:首先,在对句子编码时,对高频词降权处理,全语料内统计出的高频词一般是非关键词,降低了非关键词的影响;其次,在编码后会进删除第一主成分,去掉了共有的公共特征,包括一些噪音信息。
因此,利用SIF编码对文本数据进行语义分析,降低了噪音和非关键信息对句子向量表示的影响,从而提高了后续聚类的效果。
在上述实施例的基础上,所述根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果,当聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题,包括:
聚类分析步骤:根据当前中间句向量集合对所述多个文本数据进行一次聚类分析,获得中间聚类结果;其中,所述中间句向量集合的初始值为所述句向量集合;
主题分析步骤:对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的子主题结果,所述子主题结果包括主题词;
当所述簇集合中主题词的数量大于第一预设阈值时,将所述簇集合作为目标簇集合;
若满足所述聚类结束条件,则将获得的所述目标簇集合的子主题结果的集合作为所述文本主题;
若未满足所述聚类结束条件,则将所述目标簇集合中的句向量从所述句向量集合中删除,形成更新的所述中间句向量集合,并重复所述聚类分析步骤以及所述主题分析步骤。
在具体的实施过程中,图2为本申请实施例提供的另一种文本主题挖掘方法流程示意图,如图2所示,为了便于理解,本申请实施例以对A通信公司的投诉日志系统中的日志数据进行挖掘,确定投诉主题为例进行描述。
假设:每个投诉原因至少需要100个日志数据支撑;对同一种投诉原因的表达应至少有3个共现词出现。可以理解的是,共现词可以为主题词。
该文本主题挖掘方法包括:
步骤201:获取多个文本数据;采集历史时间段内的6万个会话日志的文本内容。
步骤202:对文本数据进行语义分析,获得句向量集合。该步骤的具体实现方式与上述实施例一致,此处不再赘述。获得的句向量集合可以表示为:X=[x1,x2,...,x60000],集合中每一个元素表示一个会话日志对应的句向量。
步骤203:对当前中间句向量集合进行一次聚类分析,获得聚类结果;本申请实施例采用K-Means++聚类算法,设置超参数个数为600。
步骤204:针对每一簇集合进行主题分析,获取每一簇集合的主题词。
图3为本申请实施例提供的一种主题分析流程示意图,如图3所示,对每一簇集合进行主题分析的具体方法包括:
步骤301:获取所述簇集合中每一句向量到簇中心的距离,并根据所述距离筛选出目标句向量。以第i簇集合为例,经过聚类分析后,第i簇集合可以表示为:Xi=[[0.12123,-1.39812,....],[0.4312,0.31231,...],...],每个中括号中的数据表示一个句向量。计算每个句向量到簇中心的距离,该距离可以是欧式距离,也可以是曼哈顿距离,只要是能够表征句向量到簇中心相似度的算法均可,本申请实施例对此不作具体限定。在获得第i簇集合中每个句向量到簇中心的距离后,对距离进行排序,选择离簇中心最近的前80%的句向量作为目标句向量。例如:目标句向量组成的集合可以为集合A=[你们客服服务差,态度不好,客服什么态度啊,客服态度不行,....]。可以理解的是,目标句向量的筛选比例可以根据实际情况进行调整,例如:可以是85%,还可以是90%,本申请实施例对此不作具体限定。
步骤302:获取所述目标句向量对应的子文本数据,对所述子文本数据对应的目标词语进行词性标注,获得每个目标词语的词性。每个目标句向量都对应一个文本数据,本申请实施例将该文本数据称为子文本数据。由于在上述步骤202对文本数据进行语义分析时,对文本数据进行了一次分词处理,那么在本申请实施例中,可以直接对经过上述步骤202进行分词处理后获得的子文本数据的目标词语进行词性标注,获得每个目标词语的词性。当然,也可以在步骤302中,重新对子文本数据进行分词,且此次分词时,考虑到了实际的业务场景,获得目标词语,然后标注目标词语的词性。
因此,上述两种方式(即,第一种为只在步骤202时进行一次分词操作;第二种为分别在步骤202和步骤302中进行分词)均可,在实际应用中,可以选择合适的方式。
步骤303:根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词。
例如:集合A分词结果为:[你们客服态度差,客服什么态度啊,客服态度不行,...]。
集合A词性结果为:[你们/r客服/n态度/n差/a,客服/n什么/r态度/n啊/zg,客服/n态度/n不行/v,...]
当词语满足下列条件,则认为是关键词:
1、业务词表中包括该词语。其中,业务词表有预先构建获得的。
2、该词语的词性为预设词性中的一种;其中,预设词性包括:名词,名词性语素,名词性惯用词,其他专有名词,动词,动名词,动词性语素,动词性惯用词,形容词,副形词,名形词,形容词性语素,形容词性惯用语等。
3、词语在逆文件频率词表中的值大于预设阈值。其中,预设阈值可以为3,也可以是其他数值,本申请实施例对此不作具体限定。
另外,若该词语没有在逆文件频率词表中,且满足上述条件1和条件2,则也认为是关键词。
步骤304:获取每个所述关键词对应的词频信息,根据所述词频信息确定主题词。在确定了每个目标词向量对应的关键词后,统计每个关键词在该簇集合中出现的频率,即词频。将词频大于预设值的词语作为主题词,例如,可以是将词频大于3的词语作为主题词。因此,上述集合A中对应的主题词为:[客服,态度,不好,差,不行]。
步骤205:判断主题词是否大于第一预设阈值;其中,第一预设阈值的具体取值根据实际情况进行设定,例如:可以是3,也可以是5,还可以为其他数值。若某一簇集合中的主题词大于第一预设阈值,则执行步骤206;若某一簇集合中的主题词小于或等于第一预设阈值,则说明当前簇集合无法获得文本主题,并且此时满足聚类结束条件,可以跳出迭代,执行步骤209。
步骤206:将该目标簇集合的主题词作为子主题结果;
在经过一次聚类分析,并进行主题分析后,若某个簇集合中的主题词的数量大于第一预设阈值,则说明根据该簇集合的主题词足以获得该簇集合的子主题结果,因此,将该簇集合作为目标簇集合,并将目标簇集合的主题词作为子主题结果。
在另一实施例中,为了防止子主题结果中主题词的数量过大,可以采取截断的方式,即,对主题词按照词频大小进行排序,选择词频最大的前5个作为子主题结果。可以理解的是,主题词的具体个数可以根据实际情况确定。
步骤207:判断是否满足聚类停止的条件;
其中,迭代停止的条件包括如下至少一种:
1、迭代次数大于第二预设阈值;例如,第二预设阈值为3,当迭代了4次后便达到了停止条件。
2、句向量集合中的句向量数量小于第三预设阈值;第三预设阈值可以根据预先假设的一个主题所需的论据数量确定,例如可以为100。
3、每个簇集合对应的主题词数量均小于所述第一预设阈值。第一预设阈值可以根据预先设定的一个主题的确定所需的共现词的数量。例如,可以是3。
若满足上述停止迭代的条件,则执行步骤209;否则,执行步骤208。
步骤208:更新中间句向量集合;将目标簇集合中的句向量从中间句向量集合中删除,以更新中间句向量集合,并将更新后的句向量集合作为当前中间句向量集合,并执行步骤203。可以理解的是,更新后的中间句向量集合为步骤202中获得的句向量集合的子集。
步骤209:根据子主题结果确定文本主题。将步骤206获得的各个目标簇集合的子主题结果进行合并,获得最终的文本主题。例如:文本主题为:服务态度差不好,返现到账逾期返回等。
本申请实施例通过预先对多个文本数据进行语义表示,获得对应的句向量,然后根据句向量对多个文本数据进行聚类分析,从而获得对应的文本主题,不论文本数据的长短,均能够较准确的进行主题分析,从而提高了主题分析的准确性。
在上述实施例的基础上,所述子主题结果还包括中心句,在获得目标簇集合之后,所述方法还包括:
获取所述目标簇集合中距离簇中心最近的句向量,将所述距离簇中心最近的句向量对应的文本数据作为所述目标簇集合的中心句。
在具体的实施过程中,主题结果中还可以包括中心句,中心句为目标簇集合中的其中一个句向量对应的文本数据。其中,确定中心句的方法为:通过步骤301计算的每个句向量到对应簇中心的距离,将距离最小的句向量对应的文本数据作为中心句。
例如:中心句为:服务态度差,活动返现到账不及时等。
可以理解的是,主题结果中还可以包括每个子主题结果的论据,该论据为子主题结果对应的目标簇集合中的所有文本数据。
本申请实施例通过首先通过聚类得到的簇具有语义相似结果,其次对聚类簇的结果按照一定的规则去筛选主题词,给用户一定的解释性。
图4为本申请实施例提供的文本主题挖掘装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。所述装置包括:数据获取模块401、数据处理模块402、句向量汇总模块403和主题分析模块404,其中:
数据获取模块401用于获取多个文本数据;数据处理模块402用于对所述多个文本数据进行语义分析,获得句向量;句向量汇总模块403用于汇总所述句向量,获得句向量集合;主题分析模块404用于根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述的簇集合簇集合的主题结果作为所述多个文本数据的文本主题其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
在上述实施例的基础上,数据处理模块402具体用于:
对每一所述文本数据进行分词处理,获得所述每一文本数据对应的词语;
从预先存储的稠密词向量查询所述词语的词向量;
采用光滑逆频率法SIF的编码方式对所述每一文本数据对应的词向量进行编码,获得所述句向量。
在上述实施例的基础上,主题分析模块404具体用于:
聚类分析步骤:根据当前的中间句向量集合对所述多个文本数据进行一次聚类分析,获得中间聚类结果;其中,所述中间句向量集合的初始值为所述句向量集合;
主题分析步骤:对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的子主题结果,所述子主题结果包括主题词;当所述簇集合中主题词的数量大于第一预设阈值时,将所述簇集合作为目标簇集合;
若满足所述聚类结束条件,则将获得的所述目标簇集合的子主题结果的集合作为所述文本主题;
若未满足所述聚类结束条件,则将所述目标簇集合中的句向量从所述句向量集合中删除,形成更新的所述中间句向量集合,并重复所述聚类分析步骤以及所述主题分析步骤。
在上述实施例的基础上,主题分析模块404具体用于:
获取所述簇集合中每一句向量到簇中心的距离,并根据所述距离筛选出目标句向量;
获取所述目标句向量对应的子文本数据,对所述子文本数据对应的目标词语词性标注,获得每个目标词语词性;
根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词;
获取每个所述关键词的词频信息,根据所述词频信息确定主题词。
在上述实施例的基础上,所述子主题结果还包括中心句,主题分析模块404具体用于:
获取所述目标簇集合中距离簇中心最近的句向量,将所述距离簇中心最近的句向量对应的文本数据作为所述中心句。
在上述实施例的基础上,主题分析模块404具体用于:
若所述子文本数据对应的一目标词语满足如下关键词判定条件,则将所述目标词语确定为所述关键词;
所述关键词判定条件包括:所述业务词表中包括所述目标词语;
所述目标词语的词性为预设词性中的一种;
所述目标词语在逆文件频率词表中的值大于预设阈值。
在上述实施例的基础上,所述聚类结束条件包括如下至少一种:
迭代次数大于第二预设阈值;
所述句向量集合中的句向量数量小于第三预设阈值;
每个簇集合对应的主题词数量均小于所述第一预设阈值。
在上述实施例的基础上,主题分析模块404具体用于:
根据所述句向量集合,利用K-Means++聚类算法或K-Means聚类算法对所述多个文本数据进行聚类分析。
图5为本申请实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备,包括:处理器(processor)501、存储器(memory)502和总线503;其中,
所述处理器501和存储器502通过所述总线503完成相互间的通信;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取多个文本数据;对所述多个文本数据进行语义分析,获得句向量;汇总所述句向量,获得句向量集合;根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述簇集合主题结果作为所述多个文本数据的文本主题;其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
处理器501可以是一种集成电路芯片,具有信号处理能力。上述处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器502可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取多个文本数据;对所述多个文本数据进行语义分析,获得句向量;汇总所述句向量,获得句向量集合;根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述簇集合主题结果作为所述多个文本数据的文本主题;其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取多个文本数据;对所述多个文本数据进行语义分析,获得句向量;汇总所述句向量,获得句向量集合;根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当所述聚类结果中的簇集合满足聚类结束条件时,将所述簇集合主题结果作为所述多个文本数据的文本主题;其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本主题挖掘方法,其特征在于,包括:
获取多个文本数据;
对每个所述文本数据进行语义分析,获得句向量;
汇总所述句向量,获得句向量集合;
根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题;
其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个文本数据进行语义分析,获得句向量,包括:
对每一所述文本数据进行分词处理,获得每一所述文本数据对应的词语;
从预先存储的稠密词向量中查询所述词语的词向量;
采用光滑逆频率法SIF的编码方式对每一所述文本数据对应的词向量进行编码,获得所述句向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果,当聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题,包括:
聚类分析步骤:根据当前的中间句向量集合对所述多个文本数据进行一次聚类分析,获得中间聚类结果;其中,所述中间句向量集合的初始值为所述句向量集合;
主题分析步骤:对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的子主题结果,所述子主题结果包括主题词;当所述簇集合中主题词的数量大于第一预设阈值时,将所述簇集合作为目标簇集合;
若满足所述聚类结束条件,则将获得的所述目标簇集合的子主题结果的集合作为所述文本主题;
若未满足所述聚类结束条件,则将所述目标簇集合中的句向量从所述句向量集合中删除,形成更新的所述中间句向量集合,并重复所述聚类分析步骤以及所述主题分析步骤。
4.根据权利要求3所述的方法,其特征在于,所述对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的主题词,包括:
获取所述簇集合中每一句向量到簇中心的距离,并根据所述距离筛选出目标句向量;
获取所述目标句向量对应的子文本数据,对所述子文本数据对应的目标词语进行词性标注,获得每个所述目标词语的词性;
根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词;
获取每个所述关键词的词频信息,根据所述词频信息确定所述主题词。
5.根据权利要求3所述的方法,其特征在于,所述子主题结果还包括中心句,在获得目标簇集合之后,所述方法还包括:
获取所述目标簇集合中距离簇中心最近的句向量,将所述距离簇中心最近的句向量对应的文本数据作为所述目标簇集合的中心句。
6.根据权利要求4所述的方法,其特征在于,所述根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词,包括:
若所述子文本数据对应的一目标词语满足如下关键词判定条件,则将所述目标词语确定为所述关键词;所述关键词判定条件包括:
所述业务词表中包括所述目标词语;
所述目标词语的词性为预设词性中的一种;
所述目标词语在逆文件频率词表中的值大于预设阈值。
7.根据权利要求3所述的方法,其特征在于,所述聚类结束条件包括如下至少一种:
迭代次数大于第二预设阈值;
所述句向量集合中的句向量数量小于第三预设阈值;
每个簇集合对应的主题词数量均小于第一预设阈值。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述句向量集合对所述多个文本数据进行聚类分析,包括:
根据所述句向量集合,利用K-Means++聚类算法或K-Means聚类算法对所述多个文本数据进行聚类分析。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。
CN202110737634.5A 2021-06-30 2021-06-30 文本主题挖掘方法、装置、电子设备及存储介质 Active CN113407679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110737634.5A CN113407679B (zh) 2021-06-30 2021-06-30 文本主题挖掘方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110737634.5A CN113407679B (zh) 2021-06-30 2021-06-30 文本主题挖掘方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113407679A true CN113407679A (zh) 2021-09-17
CN113407679B CN113407679B (zh) 2023-10-03

Family

ID=77680754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110737634.5A Active CN113407679B (zh) 2021-06-30 2021-06-30 文本主题挖掘方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113407679B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114510923A (zh) * 2022-01-12 2022-05-17 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质
CN116431814A (zh) * 2023-06-06 2023-07-14 北京中关村科金技术有限公司 信息提取方法、装置、电子设备及可读存储介质
CN117077632A (zh) * 2023-10-18 2023-11-17 北京国科众安科技有限公司 一种用于资讯主题的自动生成方法
CN117574243A (zh) * 2024-01-15 2024-02-20 河北网新数字技术股份有限公司 一种数据分析方法、装置及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
CN107066555A (zh) * 2017-03-26 2017-08-18 天津大学 面向专业领域的在线主题检测方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN109101633A (zh) * 2018-08-15 2018-12-28 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN109739975A (zh) * 2018-11-15 2019-05-10 东软集团股份有限公司 热点事件抽取方法、装置、可读存储介质及电子设备
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN112989822A (zh) * 2021-04-16 2021-06-18 北京世纪好未来教育科技有限公司 识别对话中句子类别的方法、装置、电子设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
CN107066555A (zh) * 2017-03-26 2017-08-18 天津大学 面向专业领域的在线主题检测方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109101633A (zh) * 2018-08-15 2018-12-28 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN109739975A (zh) * 2018-11-15 2019-05-10 东软集团股份有限公司 热点事件抽取方法、装置、可读存储介质及电子设备
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN112989822A (zh) * 2021-04-16 2021-06-18 北京世纪好未来教育科技有限公司 识别对话中句子类别的方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNAID RASHID等: "Topic Modeling Technique for Text Mining Over Biomedical Text Corpora Through Hybrid Inverse Documents Frequency and Fuzzy K-Means Clustering", 《 IEEE ACCESS》 *
郭程;白宇;郑剑夕;蔡东风;: "一种无指导的子主题挖掘方法", 中文信息学报, no. 01 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114510923A (zh) * 2022-01-12 2022-05-17 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质
WO2023134075A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质
CN114510923B (zh) * 2022-01-12 2023-08-15 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质
CN116431814A (zh) * 2023-06-06 2023-07-14 北京中关村科金技术有限公司 信息提取方法、装置、电子设备及可读存储介质
CN116431814B (zh) * 2023-06-06 2023-09-05 北京中关村科金技术有限公司 信息提取方法、装置、电子设备及可读存储介质
CN117077632A (zh) * 2023-10-18 2023-11-17 北京国科众安科技有限公司 一种用于资讯主题的自动生成方法
CN117077632B (zh) * 2023-10-18 2024-01-09 北京国科众安科技有限公司 一种用于资讯主题的自动生成方法
CN117574243A (zh) * 2024-01-15 2024-02-20 河北网新数字技术股份有限公司 一种数据分析方法、装置及系统
CN117574243B (zh) * 2024-01-15 2024-04-26 河北网新数字技术股份有限公司 一种数据分析方法、装置及系统

Also Published As

Publication number Publication date
CN113407679B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN113407679B (zh) 文本主题挖掘方法、装置、电子设备及存储介质
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111241267B (zh) 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
US20160299955A1 (en) Text mining system and tool
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN109062895B (zh) 一种智能语义处理方法
CN107885717B (zh) 一种关键词提取方法及装置
CN112612892A (zh) 一种专有领域语料模型构建方法、计算机设备及存储介质
CN115186654A (zh) 一种公文文本摘要生成方法
CN113239150B (zh) 文本匹配方法、系统及设备
CN113743090A (zh) 一种关键词提取方法及装置
CN111444712B (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN112487181A (zh) 关键词确定方法和相关设备
CN115563242A (zh) 汽车信息筛选方法、装置、电子设备及存储介质
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
CN114548113A (zh) 基于事件的指代消解系统、方法、终端及存储介质
CN116432638A (zh) 一种文本关键词提取方法、装置、电子设备及存储介质
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN111625579B (zh) 一种信息处理方法、装置及系统
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant