CN109446322B - 文本分析方法、装置、电子设备及可读存储介质 - Google Patents
文本分析方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN109446322B CN109446322B CN201811199101.0A CN201811199101A CN109446322B CN 109446322 B CN109446322 B CN 109446322B CN 201811199101 A CN201811199101 A CN 201811199101A CN 109446322 B CN109446322 B CN 109446322B
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- clustering
- class
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种文本分析方法、装置、电子设备及可读存储介质,所述方法包括:针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;根据每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;对全部文本的文本向量进行聚类以得到多类文本;对多类文本中属于同一类的文本进行分析以确定该类文本属于多个预设类别以及非匹配类别中的哪一类别,可以覆盖全部文本,而不会出现某些文本无法分类的情况。而且,可以真实反映文本的观点倾向,提高文本分析的准确率。
Description
技术领域
本公开涉及计算机领域,具体涉及一种文本分析方法、装置、电子设备及可读存储介质。
背景技术
在互联网平台上,有大量文本信息存在,例如,各种用户发帖、评论信息等。但是,这些文本都是自然语言,比较难以区分其具体的主题倾向。如果可以对这些用户评论进行大数据分析,则对找到具备特定特性的文本,对于发现用户的需求和关注点,从而进行有针对性的运营,具有非常重要的意义。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种文本分析方法、装置、电子设备及可读存储介质。
第一方面,本公开实施例中提供了一种文本分析方法,包括:
针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
对全部文本的文本向量进行聚类以得到多类文本;
对所述多类文本中属于同一类的文本进行分析以确定该类文本属于所述多个预设类别以及非匹配类别中的哪一类别。
结合第一方面,本公开在第一方面的第一种实现方式中,在所述对全部文本的文本向量进行聚类以得到多类文本之前,还包括:
对全部文本的文本向量进行降维。
结合第一方面,本公开在第一方面的第二种实现方式中,所述对全部文本的文本向量进行聚类以得到多类文本,包括:
对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本;
对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,包括:
对所述多次备选聚类结果进行抽样分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
结合第一方面,本公开在第一方面的第四种实现方式中,所述文本向量为词频-逆文档频率向量。
第二方面,本公开实施例中提供了一种文本分析装置,包括:
向量生成模块,被配置为针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
向量值增加模块,被配置为根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
聚类模块,被配置为对全部文本的文本向量进行聚类以得到多类文本;
分析模块,被配置为对所述多类文本中属于同一类的文本进行分析以确定该类文本属于所述多个预设类别以及非匹配类别中的哪一类别。
第三方面,本公开实施例中提供了一种电子设备,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下步骤:
针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
对全部文本的文本向量进行聚类以得到多类文本;
对所述多类文本中属于同一类的文本进行分析以确定该类文本属于所述多个预设类别以及非匹配类别中的哪一类别。
结合第三方面,本公开在第三方面的第一种实现方式中,在所述对全部文本的文本向量进行聚类以得到多类文本之前,还包括:
对全部文本的文本向量进行降维。
结合第三方面,本公开在第三方面的第二种实现方式中,所述对全部文本的文本向量进行聚类以得到多类文本,包括:
对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本;
对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
结合第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,包括:
对所述多次备选聚类结果进行抽样分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
结合第三方面,本公开在第三方面的第四种实现方式中,所述文本向量为词频-逆文档频率向量。
第四方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第四种实现方式任一项所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
根据本公开实施例提供的技术方案,通过针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;对全部文本的文本向量进行聚类以得到多类文本;对所述多类文本中属于同一类的文本进行分析以确定该类文本属于所述多个预设类别以及非匹配类别中的哪一类别,可以通过文本向量与属于多个目标类别的关键词的匹配结果调整每一条文本的文本向量的值,并且可以准确地对每一条文本进行聚类,进而根据聚类结果分析聚类所得的每一类文本所对应的实际类别。因此,根据本公开实施方式的文本分析方案可以覆盖全部文本,而不会出现某些文本无法分类的情况。而且,根据本公开实施方式的文本分析方案可以真实反映文本的观点倾向,提高文本分析的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它标签、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的文本分析方法的流程图;
图2示出根据本公开另一实施方式的文本分析方法的流程图;
图3示出根据本公开一实施方式的文本分析方法的步骤S103的示例的流程图;
图4示出根据本公开一实施方式的文本分析装置的结构框图;
图5示出根据本公开一实施方式的文本分析方法的一应用场景示例的示意图;
图6示出根据本公开一实施方式的电子设备的结构框图;
图7是适于用来实现根据本公开一实施方式的文本分析方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的标签、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他标签、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的标签可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的文本分析方法的流程图。如图1所示,所述文本分析方法包括以下步骤S101-S104:
在步骤S101中,针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量。
在步骤S102中,根据每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别。
在步骤S103中,对全部文本的文本向量进行聚类以得到多类文本。
在步骤S104中,对多类文本中属于同一类的文本进行分析以确定该类文本属于多个预设类别以及非匹配类别中的哪一类别。
在本公开的一个实施例中,待分析的文本可以包括多条文本。例如,可以对包括多条网络评论信息的文本进行分析,每一条网络评论信息就是一条文本。
例如,可以获取网络商业平台一个时间段内(例如,最近30天)的所有用户评论数据。将用户的每条评论视为一个独立文本,所有用户在该时间段内的评论(即,全部文本)是一个语料。通过分词算法将每个文本里的全部词分开。比如一条文本“这家店的味道太咸了”经过分词后变成:
“这家店的味道太咸了”。
在本公开的一个实施例中,可以对一条文本信息进行分词并生成文本向量来对该条文本进行分析。在本公开的一个实施例中,文本向量为词频-逆文档频率(termfrequency-inverse document frequency,简称为tf-idf)向量。词频-逆文档频率方法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
还是以前述网络商业平台的评论为例,所有评论,即全部文本,的全部分词的个数是有限的,可以统计这个总数为V。于是每个用户的每条评论都可以以一个V维的向量表示,每一维度是各个分词的tf-idf值。以前述分词后的文本“这家店的味道太咸了”为例,其文本向量如下:
[“这家”tf-idf值,“店”tf-idf值,“的”tf-idf值,“味道”tf-idf值,“太咸”tf-idf值,“了”tf-idf值,…]。
在本公开的一个实施例中,以分词“这家”为例说明每个分词的tf-idf值计算公式:
“这家”tf-idf值=(“这家”在本条文本中出现的次数/本条文本中所有词出现的次数)*log(全部文本总条数/(包含“这家”的文本条数+1))
其中,log的底是自然对数底e。
本领域技术人员可以理解,以上确定一条文本中的分词的向量值的方式仅仅是示例,根据本公开的实施方式的教导,可以采用各种方式确定一条文本中的分词的向量值,例如tf-idf值。
以下以餐饮O2O平台的用户评论为例来说明如何根据每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值。以下表1示出了餐饮O2O平台对文本(评论)关键词分类情况。
如上表所示,餐饮O2O平台对负面评价的关键词分为9类。这9类关键词都是差评(一级分类,表中未给出),二级分类分别为商家、物流、平台3类关键词,三级分类是具体在各自二级分类领域内的3个小分类。其中,需要O2O平台重点关注的,会挑选一些典型的关键词用于匹配用户评论。所以总共有9个差评分类的关键词。例如,商家的三级分类关键词包括“口味(不正宗、难吃):太咸、太辣、没味、太老…。
另外,由于可能存在好评或者无好坏倾向的评论,因此可以基于这些与上表不匹配的评论也筛选出一定的关键词,单独作为一类,即,非匹配类别。因此,在此示例中,包括非匹配类别在内,总共可以有10个类别。可以将上表中的9个类别作为对文本向量进行匹配的目标类别,而这不属于与这9个目标类别的关键词匹配的分词属于非匹配类别。
为了在进行文本分析时强调分类关键词的影响,对出现在关键词表中的分词,增大其tf-idf值(例如,放大5倍)。例如,对于文本向量:
[“这家”tf-idf值,“店”tf-idf值,“的”tf-idf值,“味道”tf-idf值,“太咸”tf-idf值,“了”tf-idf值,…]
在将该条评论的文本与上表进行匹配后,由于“太咸”与表中的商家的三级分类中的关键词“太咸”匹配,该条评论中的“太咸”tf-idf值可以增大,例如,放大5倍。本领域技术人员可以理解,放大5倍仅仅是示例,增大的方式可以是增大预设值或放大5倍以外的其他倍数。增大与目标分类的关键词匹配的分词的向量值可以使得该条文本的文本向量在分析时更加体现出目标分类的倾向。
在本公开的一个实施例中,对全部文本的文本向量进行聚类以得到多类文本中的聚类指的是通过聚类算法聚得的类,此“类”的含义与前述“目标类别”和“非匹配类别”中的“类别”不同,而仅仅是算法聚类所得。在进行文本分析前,聚类所得的“类”并无实际含义。在相关领域中,聚类法是研究样本分类问题的一种统计分析方法,样本所属的具体分类未知,聚类算法直接依靠样本自身的数据特点得到其所属分类。
在本公开的一个实施例中,因为聚类算法只能将具有相似特点的数据聚成同一类,但并不能指出聚得的类具体是哪一实际类别,例如,餐饮O2O平台的10个类别的评论中的那个类别。因此,需要对聚得的类进行数据分析。例如,抽样分析聚到同一类的评论,判断其属于10类目标分类中的哪一类,最终得到10类目标分类的评论数据。
在本公开的一个实施例中,步骤S104可以包括:对多次备选聚类结果进行抽样分析以确定多次备选聚类结果之一中的多类文本为最终的多类文本。
本领域技术人员可以理解,对多次备选聚类结果进行抽样分析的方式可以是相关技术中的方式。
根据本公开实施例,通过针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;根据每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;对全部文本的文本向量进行聚类以得到多类文本;对多类文本中属于同一类的文本进行分析以确定该类文本属于多个预设类别以及非匹配类别中的哪一类别,可以通过文本向量与属于多个目标类别的关键词的匹配结果调整每一条文本的文本向量的值,并且可以准确地对每一条文本进行聚类,进而根据聚类结果分析聚类所得的每一类文本所对应的实际类别。因此,根据本公开实施方式的文本分析方案可以覆盖全部文本,而不会出现某些文本无法分类的情况。而且,根据本公开实施方式的文本分析方案可以真实反映文本的观点倾向,提高文本分析的准确率。
图2示出根据本公开另一实施方式的文本分析方法的流程图。如图2所示,与图1所示的实施方式的不同之处在于,在步骤S103之前还包括步骤S201。
在步骤S201中,对全部文本的文本向量进行降维。
根据本公开的一个实施例,可以直接将文本向量用诸如kmeans算法之类的算法进行聚类可以得到聚类结果。但是,在一些情况下,因为文本向量过于稀疏,kmeans算法的表现可能不够理想。因此,可以对文本向量进行降维操作,之后再进行聚类,效果显著提升。例如,通过采样主成分分析(Principal Component Analysis,简称为PCA)算法对文本向量进行降维操作,之后再进行聚类,效果提升明显。
例如,基于餐饮O2O平台的业务场景的PCA算法的超参数设计如下:
降维后的维度:100维(如果太少则损失信息较多,太多则计算量过大而受益不明显)。
针对文本向量过长导致降维计算量过大的问题,可以采用哈尔科算法求PCA算法的解。在结果误差增加不大的前提下,训练效率显著提升。
图3示出根据本公开一实施方式的文本分析方法的步骤S103的示例的流程图。如图3所示,步骤S103包括步骤S301和S302。
在步骤S301中,对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本。
在步骤S302中,对多次备选聚类结果进行分析以确定多次备选聚类结果之一中的多类文本为最终的多类文本。
在本公开的一个实施例中,在一些情况下,聚类算法的表现可能不够理想。因此,可以对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,进行分析后确定一次聚类的聚类结果中的多类文本为最终的多类文本。
例如,常用的聚类算法包括kmeans算法,但是其具有收敛不稳定的问题,即对于不同的初始状态,得到的结果不一样。
在本公开的一个实施例中,可以基于kmeans算法得到每条文本所属的类。例如,基于前述餐饮O2O平台的业务场景,设计kmeans算法超参数如下:
聚类个数:10个(对应期望的10个评论类别)
初始化方法:kmeans++(相较于随机初始化更优越的收敛性)
针对kmeans算法收敛的不稳定性问题,本策略的处理方式是可以进行多次kmeans算法,每次的初始状态随机选取,得到不同的结果,并且根据预设规则确定最优的结果作为输出。例如,可以进行20次以上的kmeans算法。20次以上的聚类仅仅是示例,可以根据实际情况选择聚类次数。但是,可以理解,在kmeans算法中,聚类次数太少不足以发现规律,聚类次数太多成本太高。
图5示出根据本公开一实施方式的文本分析方法的一应用场景示例的示意图。
如图5所示,在餐饮O2O平台场景中,可以获取平台最近30天的所有用户评论数据,将用户的每条评论视为一个独立文本,所有用户30天的评论是一个语料。在对全部评论中的每一条评论分词后,基于tf-idf方法建立文本向量。建立每一条用户评论的文本向量后,基于属于多个目标类别的关键词对每一条用户评论进行匹配。根据每一条评论的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的tf-idf值。接下来,基于PCA算法对每一条评论的文本向量进行降维。可以用kmeans聚类算法得到多类文本,每一条评论均被聚到一类。最后,对聚为同一类的评论观点倾向进行分析以确定该类评论属于所述多个预设类别以及非匹配类别中的哪一类别。
图4示出根据本公开一实施方式的文本分析装置的结构框图。
如图4所示,文本分析装置包括向量生成模块401、向量值增加模块402、聚类模块403和分析模块404。
向量生成模块401被配置为针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量。
向量值增加模块402被配置为根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别。
聚类模块403被配置为对全部文本的文本向量进行聚类以得到多类文本。
分析模块404被配置为对所述多类文本中属于同一类的文本进行分析以确定该类文本属于所述多个预设类别以及非匹配类别中的哪一类别。
以上描述了文本分析装置的内部功能和结构,在一个可能的设计中,该文本分析装置的结构可实现为文本分析设备,如图6中所示,该处理设备600可以包括处理器601以及存储器602。
所述存储器602用于存储支持文本分析装置执行上述任一实施例中文本分析方法的程序,所述处理器601被配置为用于执行所述存储器602中存储的程序。
所述存储器602用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器601执行以实现以下步骤:
针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
对全部文本的文本向量进行聚类以得到多类文本;
对所述多类文本中属于同一类的文本进行分析以确定该类文本属于所述多个预设类别以及非匹配类别中的哪一类别。
在本公开的一个实施例中,在所述对全部文本的文本向量进行聚类以得到多类文本之前,还包括:
对全部文本的文本向量进行降维。
在本公开的一个实施例中,所述对全部文本的文本向量进行聚类以得到多类文本,包括:
对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本;
对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
在本公开的一个实施例中,所述对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,包括:
对所述多次备选聚类结果进行抽样分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
在本公开的一个实施例中,所述文本向量为词频-逆文档频率向量。
所述处理器601用于执行前述各方法步骤中的全部或部分步骤。
其中,所述文本分析设备的结构中还可以包括通信接口,用于文本分析设备与其他设备或通信网络通信。
本公开示例性实施例还提供了一种计算机存储介质,用于储存所述文本分析装置所用的计算机软件指令,其包含用于执行上述任一实施例中文本分析方法所涉及的程序。
图7是适于用来实现根据本公开一实施方式的文本分析方法的计算机系统的结构示意图。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述图1所示的实施方式中的各种处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的数据处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,并且/或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术标签的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术标签或其等同标签进行任意组合而形成的其它技术方案。例如上述标签与本公开中公开的(但不限于)具有类似功能的技术标签进行互相替换而形成的技术方案。
Claims (10)
1.一种文本分析方法,其特征在于,包括:
针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
对全部文本的文本向量进行聚类以得到多类文本;
对所述多类文本中属于同一类的文本进行分析以确定该类文本属于多个预设类别以及非匹配类别中的哪一类别,其中,
所述对全部文本的文本向量进行聚类以得到多类文本,包括:
对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本;
对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,
其中,所述预设类别是用于聚类后判断该类文本属于所述多个目标类别中的哪一类别。
2.根据权利要求1所述的方法,其特征在于,在所述对全部文本的文本向量进行聚类以得到多类文本之前,还包括:
对全部文本的文本向量进行降维。
3.根据权利要求1所述的方法,其特征在于,所述对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,包括:
对所述多次备选聚类结果进行抽样分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
4.根据权利要求1所述的方法,其特征在于,所述文本向量为词频-逆文档频率向量。
5.一种文本分析装置,其特征在于,包括:
向量生成模块,被配置为针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
向量值增加模块,被配置为根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
聚类模块,被配置为对全部文本的文本向量进行聚类以得到多类文本;
分析模块,被配置为对所述多类文本中属于同一类的文本进行分析以确定该类文本属于多个预设类别以及非匹配类别中的哪一类别,其中,
聚类模块还被配置为:
对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本;
对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,
其中,所述预设类别是用于聚类后判断该类文本属于所述多个目标类别中的哪一类别。
6.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下步骤:
针对每一条文本进行分词,并根据分词结果为每一条文本生成文本向量;
根据所述每一条文本的文本向量与属于多个目标类别的关键词的匹配结果,增加与属于多个目标类别的关键词匹配的分词的向量值,其中,每一条文本中不属于与多个目标类别的关键词匹配的分词属于非匹配类别;
对全部文本的文本向量进行聚类以得到多类文本;
对所述多类文本中属于同一类的文本进行分析以确定该类文本属于多个预设类别以及非匹配类别中的哪一类别,其中,
所述对全部文本的文本向量进行聚类以得到多类文本,包括:
对全部文本的文本向量进行多次聚类以得到多次备选聚类结果,其中,每一次备选聚类结果均包括多类文本;
对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,
其中,所述预设类别是用于聚类后判断该类文本属于所述多个目标类别中的哪一类别。
7.根据权利要求6所述的电子设备,其特征在于,在所述对全部文本的文本向量进行聚类以得到多类文本之前,还包括:
对全部文本的文本向量进行降维。
8.根据权利要求6所述的电子设备,其特征在于,所述对所述多次备选聚类结果进行分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本,包括:
对所述多次备选聚类结果进行抽样分析以确定所述多次备选聚类结果之一中的多类文本为最终的多类文本。
9.根据权利要求6所述的电子设备,其特征在于,所述文本向量为词频-逆文档频率向量。
10.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811199101.0A CN109446322B (zh) | 2018-10-15 | 2018-10-15 | 文本分析方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811199101.0A CN109446322B (zh) | 2018-10-15 | 2018-10-15 | 文本分析方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446322A CN109446322A (zh) | 2019-03-08 |
CN109446322B true CN109446322B (zh) | 2021-01-01 |
Family
ID=65545294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811199101.0A Active CN109446322B (zh) | 2018-10-15 | 2018-10-15 | 文本分析方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446322B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259658B (zh) * | 2020-02-05 | 2022-08-19 | 中国科学院计算技术研究所 | 一种基于类别稠密向量表示的通用文本分类方法及系统 |
CN112989040B (zh) * | 2021-03-10 | 2024-02-27 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662952B (zh) * | 2012-03-02 | 2015-04-15 | 成都康赛信息技术有限公司 | 一种基于层次的中文文本并行数据挖掘方法 |
CN103049581B (zh) * | 2013-01-21 | 2015-10-07 | 北京航空航天大学 | 一种基于一致性聚类的Web文本分类方法 |
CN106610953A (zh) * | 2016-09-30 | 2017-05-03 | 四川用联信息技术有限公司 | 基于基尼指数求解文本相似度的方法 |
CN107908624A (zh) * | 2017-12-12 | 2018-04-13 | 太原理工大学 | 一种基于全覆盖粒计算的K‑medoids文本聚类方法 |
-
2018
- 2018-10-15 CN CN201811199101.0A patent/CN109446322B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109446322A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281860B2 (en) | Method, apparatus and device for recognizing text type | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN111783039B (zh) | 风险确定方法、装置、计算机系统和存储介质 | |
Johansson | Supervised Classification of Twitter Accounts Based on Textual Content of Tweets. | |
CN109446322B (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
Bhakuni et al. | Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis | |
Ghiassi et al. | Sentiment analysis and spam filtering using the YAC2 clustering algorithm with transferability | |
de Zarate et al. | Measuring controversy in social networks through nlp | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
Suryadi et al. | Automatic identification of product usage contexts from online customer reviews | |
CN109284384B (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN113609020A (zh) | 一种测试用例推荐方法及装置 | |
Allegue et al. | SBM: A Smart Budget Manager in banking using machine learning, NLP, and NLU | |
US11803796B2 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
CN116484829A (zh) | 用于信息处理的方法和设备 | |
CN111858899B (zh) | 语句处理方法、装置、系统和介质 | |
CN115329207A (zh) | 智能销售信息推荐方法及系统 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
KR20210023453A (ko) | 리뷰 광고 매칭 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |