CN111708888B - 基于人工智能的分类方法、装置、终端和存储介质 - Google Patents
基于人工智能的分类方法、装置、终端和存储介质 Download PDFInfo
- Publication number
- CN111708888B CN111708888B CN202010546795.1A CN202010546795A CN111708888B CN 111708888 B CN111708888 B CN 111708888B CN 202010546795 A CN202010546795 A CN 202010546795A CN 111708888 B CN111708888 B CN 111708888B
- Authority
- CN
- China
- Prior art keywords
- word
- phrase
- training
- text data
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 144
- 230000011218 segmentation Effects 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims description 325
- 230000015654 memory Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000005065 mining Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 235000013410 fast food Nutrition 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 235000012149 noodles Nutrition 0.000 description 6
- 241001122767 Theaceae Species 0.000 description 3
- 235000013361 beverage Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 235000021185 dessert Nutrition 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000010495 camellia oil Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于人工智能的分类方法、装置、终端和存储介质,其中,方法包括,获取目标文本数据,并对目标文本数据进行分词处理,得到至少一个分词词组,根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别,当检测到目标文本数据所属至少两个分类类别时,确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量;基于每个分词词组的权重对所每个分词词组的向量进行处理,得到目标文本数据的向量;将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果。通过实施上述方法,可以基于文本中不同词组的权重以及向量确定文本所属的类别,提升对于文本分类的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于人工智能的分类方法、装置、终端和存储介质。
背景技术
随着网络中不同类别的文本数据的与日俱增,碎片化的文本数据需要被归类整理才能挖掘提取其中隐藏的有用信息,如对商户的标签文本进行分类后,则可知道每个商户的产品类型,因此,对文本数据进行高效的分类具有极高的研究价值。
当前,针对文本数据进行分类处理的方式主要为基于关键词匹配的方式对文本数据进行分类,即提取文本数据中的关键词,并基于关键词确定文本数据对应的类别,然而,由于文本数据中可能存在多个关键词以及每个关键词的重要性存在差异,因此很难从不同关键词对应的多个类别中确定出文本数据对应的准确类别,导致对于文本数据的分类准确性较低。
发明内容
本发明实施例提供了一种基于人工智能的分类方法、装置、终端和存储介质,可以基于文本中不同词组的权重构建文本向量,并基于文本向量确定文本的类别,提升对于文本分类的准确性。
一方面,本发明实施例提供了一种基于人工智能的分类方法,所述方法包括:
获取目标文本数据,并对所述目标文本数据进行分词处理,得到至少一个分词词组;
根据所述至少一个分词词组和类别特征词库检测所述目标文本数据所属的分类类别,其中,所述类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别;
当检测到所述目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定所述每个分词词组的向量;
基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量;
将所述目标文本数据的向量输入至分类器中,得到针对所述目标文本数据的分类结果。
一方面,本发明实施例提供了一种基于人工智能的分类方法装置,所述装置包括:
获取模块,用于获取目标文本数据;
处理模块,用于对所述目标文本数据进行分词处理,得到至少一个分词词组;
检测模块,用于根据所述至少一个分词词组和类别特征词库检测所述目标文本数据所属的分类类别,其中,所述类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别;
确定模块,用于当检测到所述目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定所述每个分词词组的向量;
所述处理模块,还用于基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量;
输入模块,用于将所述目标文本数据的向量输入至分类器中,得到针对所述目标文本数据的分类结果。
一方面,本发明实施例提供了一种终端,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述基于人工智能的分类方法。
一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述基于人工智能的分类方法。
本发明实施例中,终端获取目标文本数据,并对目标文本数据进行分词处理,得到至少一个分词词组,根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别,当检测到目标文本数据所属至少两个分类类别时,确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量;基于每个分词词组的权重对所每个分词词组的向量进行处理,得到目标文本数据的向量;将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果。通过实施上述方法,可以对文本数据中不同的分类特征重要性进行更好地量化,进而为分类器提供更准确的特征信息,上述方法具体可以用于商户分类领域,即文本数据为商户的招牌、主题等,基于文本数据确定商户的类别,方便对商户进行筛选、画像等。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于人工智能的分类方法的流程示意图;
图2是本发明实施例提供的分类器的结构示意图;
图3是本发明实施例提供的一种类别特征数据库以及特征权重数据库的构建流程示意图;
图4是本发明实施例提供的一种支持度权重数据库的构建流程示意图;
图5是本发明实施例提供的另一种基于人工智能的分类方法的流程示意图;
图6是本发明实施例提供的一种基于人工智能的分类装置示意图;
图7是本发明实施例提供的一种终端的结构示意图。
具体实施方式
随着网络中不同类别的文本数据的与日俱增,碎片化的文本数据需要被归类整理才能挖掘提取其中隐藏的有用信息,如对商户的标签文本(如招牌、标题等)进行归类整理才能挖掘提取其中隐藏的有用信息,当前,随着线上支付方式的普及,以及各种电子商务平台的应用,商户的标签文本伴随着人们生活而大量增加,基于商户的标签文本划分商户的类别,广泛应用于商户画像构建、用户消费偏好、权益推荐等领域。
本发明实施例的相关技术提及,目前基于商户的文本数据分类方法主要为基于关键词匹配的方式对文本数据进行分类,即提取文本数据中的关键词,并基于关键词确定文本数据对应的类别,然而,由于文本数据中可能存在多个关键词以及每个关键词的重要性存在差异,因此很难从不同关键词对应的多个类别中确定出文本数据对应的准确类别,导致对于文本数据的分类准确性较低。
基于此,本发明实施例提供了一种基于人工智能的分类方法,可以广泛应用于商户画像构建、用户消费偏好、商户风控、营销推荐等领域,其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。在本发明实施例提出的基于人工智能的内容推送方案中,具体包括以下步骤:1、获取文本分类类别,构建类别特征词库,具体为,构建各个分类类别的训练文本样本集,并基于训练文本样本集中各个词组的频率信息确定每个词组的特征权重,其中,频率信息包括词频和逆文档频率,进一步的,基于词组的特征权重挑选每个分类类别的类别特征词,基于挑选的类别特征词构建类别特征词库。2、构建特征权重数据库和支持度权重数据库,其中,特征权重数据库中存储有训练文本样本集中的每个词组以及对应的特征权重,支持度权重数据库中存储有训练文本样本集中的每个词组以及对应的支持度权重,支持度权重具体可以由训练文本样本集中每个词组的支持度以及支持度阈值确定。3、获取目标文本数据,并对目标文本数据进行分词处理,得到至少一个分词词组。4、根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别,具体可以为检测至少一个分词词组中的类别特征词,并将类别特征词对应的分类类别确定为目标文本数据所属的分类类别。5、当检测到目标文本数据所属至少两个分类类别时,确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量,其中,分词词组的权重具体可以基于特征权重数据库中存储的特征权重和支持度权重数据库中存储的支持度权重计算得到。6、基于每个分词词组的权重对每个分词词组的向量进行处理,得到所述目标文本数据的向量,其中,处理的方式包括加权处理和求和处理。7、将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果,其中,分类结果具体可以指示目标文本数据所属的目标分类类别。
上述方式中,可以对文本数据中不同的词组的重要性进行更好地量化,进而为分类器提供更准确的特征信息,提升对于文本数据分类的准确性,上述方法具体可以用于商户分类领域,即文本数据为商户的招牌、主题等,基于文本数据确定商户的类别,可以方便对商户进行筛选、画像等。
基于上述描述,本发明实施例提供一种基于人工智能的分类方法,请参见图1,该基于人工智能的分类方法过程可包括以下步骤S101-S105:
S101、终端获取目标文本数据,并对目标文本数据进行分词处理,得到至少一个分词词组。
本发明实施例中,目标文本数据可以为待分类文本数据集中的一个文本数据,待分类文本数据集中包括至少一个待分类的文本数据,终端可以从待分类文本数据集中挑选任意一个文本数据作为目标文本数据,并对目标文本数据执行后续的分类步骤,具体实现中,终端可以依次将待分类文本数据集中的每个文本数据都作为目标文本数据进行分类,例如,待分类的文本数据可以为商户的标签信息,标签信息具体可以为招牌、主题等,则终端可以通过对待分类文本数据集中每个商户的标签信息进行分类得到每一个商户所属的分类类别,其中,针对商户的分类类别具体可以包括一级分类和二级分类,一级分类可划分为“餐饮类、综合零售类、专营零售类、生活服务类、交通运输类、医疗类、教育培训类、金融类、工业科技类、票务/旅游类”等,每个一级分类又可划分为多个二级分类,如针对上述一级分类“餐饮类”,其划分为的二级分类可以为“餐馆类、饮品甜点类、调味料类、其他餐饮类”等,具体可以如表1所示。
表1:
进一步的,终端获取到目标文本数据之后,可以对目标文本数据进行分词处理,得到至少一个分词词组。
在一种实现方式中,终端可以基于字符匹配的方式实现对目标文本数据的分词处理,具体的,终端按照预设规则将目标文本数据与预设数据库中的词组进行匹配,如在预设数据库中找到中文字符串中的词组,则匹配成功,并将匹配成功的词组从字符串中拆分出来,并确定为词组,其中,该基于字符匹配的算法具体可以为正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法等。
在一种实现方式中,终端通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组,具体的,终端将目标文本数据中相邻共现的各个文字的组合的频度进行统计,计算它们的相邻共现概率,若文字组合的相邻共现概率大于预设阈值,则将该文字组合确定为词组。
在一种实现方式中,终端通过基于大量已经分词的文本,利用统计机器学习模型学习词语切分的规律来实现对目标文本数据的分词处理,得到至少一个词组。
需要说明的是,终端也可以通过其他方式实现对目标文本数据的分词处理,本发明在此不做限定。例如,终端获取到目标文本数据“云龙超市茶油面馆”之后,对其进行分词处理,得到的词组为“云龙/超市/茶油/面馆”。
S102、终端根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别。
本发明实施例中,类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别,其中,频率信息可以为词频和逆文档频率,终端可以获取每个分类类别对应的训练文本样本集中各个训练词组的频率信息,并基于每个训练词组的词频和逆文档频率算训练词组的特征权重,终端将训练文本样本集中每个训练文本数据中特征权重最大的训练词组确定为类别特征词,并将类别特征词加入至类别特征词库中。该类别特征词库的具体构建方式可以如图3所示实施例所示。
终端可以检测至少一个分词词组中的类别特征词,并将分词词组中类别特征词对应的分类类别确定为目标文本数据所属的分类类别,在一种实现方式中,当分词词组不存在类别特征词时,终端可以基于词组之间的相似度确定与分词词组最相似的类别特征词,并将相似度最高的类别特征词对应的分类类别确定为目标文本数据所属的分类类别,并结束本流程,其中,相似度的计算方式可以为向量之间的距离计算,如将各个类别特征词的向量中与分词词组的向量距离最近的类别特征词确定为与分词词组最相似的类别特征词。在一种实现方式中,当至少一个分词词组中存在一个类别特征词时,终端可以将该类别特征词对应的分类类别确定为目标文本数据所属的分类类别,并结束本流程,当终端检测到至少一个分词词组中存在至少两个类别特征词时,执行步骤S103。
S103、当终端检测到目标文本数据所属至少两个分类类别时,确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量。
本发明实施例中,终端检测到目标文本数据所属至少两个分类类别(即至少一个分词词组中存在两个类别特征词)之后,将确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量,具体的,终端可以使用Word2vec工具构建词向量模型,并将每个分词词组导入至训练完成的词向量模型中,得到每个分词词组的向量,每个分词词组的权重具体可以综合每个分词词组的特征权重和支持度权重进行确定。
其中,特征权重的确定方式可以为,终端从特征权重数据库中找到与分词词组相匹配的训练词组,并将训练词组的特征权重确定为该分词词组对应的特征权重,特征权重数据库中存储了至少一个训练词组,以及每个训练词组对应的特征权重。与分词词组相匹配的训练词组可以为与分词词组完全相同的训练词组,或者,与分词词组相似度最高的训练词组。其中,分词词组与训练词组之间的相似度的具体计算方式可以为,终端获取分词词组与训练词组中相同字符的数量,以及分词词组中字符的总数量,终端将相同字符的数量与字符的总数量之间的比值确定为分词词组与训练词组之间的相似度,或者,终端获取分词词组的第一特征编码,并从特征权重数据库中找到与第一特征编码距离最近的第二特征编码,终端将第二特征编码对应的训练词组确定为与分词词组相匹配的训练词组,其中,特征权重数据库中存储了每个训练词组的特征编码,特征编码可以是向量,哈希编码等。例如,分词词组为“餐馆”,则终端可以在特征权重数据库中查询到与分词词组相匹配的训练词组“餐馆”,并确定“餐馆”的特征权重为0.5,则终端将分词词组“餐馆”的特征权重确定为0.5。需要说明的是,每个训练词组的特征权重可以由训练词组在训练文本样本集中的词频和逆文档频率确定,特征权重数据库的具体构建方式具体可以如图3所示实施例所示。
支持度权重的具体确定方式可以为,终端从支持度权重数据库中找到与分词词组相匹配的训练词组,并将训练词组的支持度权重确定为该分词词组对应的支持度权重,其中,支持度权重数据库中存储了至少一个训练词组,以及每个训练词组对应的支持度权重。需要说明的是,每个训练词组的支持度权重可以由训练词组在训练文本样本集中的支持度和支持度阈值确定,如支持度大于支持度阈值的训练样本的权重设为训练样本的支持度,将支持度小于支持度阈值的训练样本的权重设为预置权重,该预置权重可以小于或等于词频阈值。支持度权重数据库的具体构建方式具体可以如图4所示实施例所示。
进一步的,终端基于每个分词词组的特征权重和支持度权重得到每个分词词组的权重,针对分词词组中的任意一个目标分词词组,其对应的权重w的具体计算方式可以为:
w=w1*w2,
其中,w1表示目标分词词组的特征权重,w2表示目标分词词组的支持度权重,终端可以基于上述方式计算得到目标文本数据中每个分词词组的权重。
S104、终端基于每个分词词组的权重对每个分词词组的向量进行处理,得到目标文本数据的向量。
本发明实施例中,终端确定每个分词词组的权重以及每个分词词组的向量之后,将采用每个分词词组的权重对每个分词词组的向量进行处理,得到目标文本数据的向量。
具体实现中,终端采用每个分词词组的权重对对应分词词组的向量进行加权处理,得到每个分词词组的加权向量;并对各个分词词组的加权向量进行求和处理,得到目标文本数据的向量。其中,每个分词词组的向量可以为N维向量,终端对分词词组的加权向量进行叠加的方式可以为将N维向量中每一维的数值相加,得到目标文本数据的向量。例如,N为5,目标文本数据为“超市面馆”,对其进行分词处理后得到分词词组“超市”和“面馆”,且分词词组“超市”的权重为0.2,“面馆”的权重为0.5,“超市”的向量为[0.2,0.2,0.2,0.2,0.1],“面馆”的向量为[0.4,0.4,0.4,0.4,0.2],则可以计算得到“超市”的加权向量为[0.04,0.04,0.04,0.04,0.02],“面馆”的加权向量为[0.2,0.2,0.2,0.2,0.1],则目标文本数据“超市面馆”的向量为[0.22,0.22,0.22,0.22,0.12]。
S105、终端将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果。
本发明实施例中,终端得到目标文本数据的向量之后,可以将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果,该分类结果具体可以为目标文本数据属于各个分类类别的概率,终端可以将概率最高的分类类别确定为目标文本数据所属的目标分类类别,分类器可以用于确定目标文本数据的向量与训练文本数据的向量之间的相似度,并基于相似度确定针对目标文本数据的分类结果。
具体实现中,可以基于深度学习算法生成初始分类器,并基于人工标注的文本数据来对初始分类器进行训练,得到训练优化后的分类器来对后续未知类别的文本数据进行分类,其中,深度学习算法可以为CNN(Convolutional Neural Networks,卷积神经网络)算法、GRU(Gated Recurrent Unit,门控循环单元)算法、BI-LSTM(Bidirectional LongShort-Term Memory,双向长短期记忆)算法等,具体实现中,终端获取训练文本样本集,并确定训练文本样本集中每个训练文本数据的向量;终端采用每个训练文本数据的向量,对已构建的初始分类器进行训练,得到分类器,其中,训练文本样本集中每个训练文本数据标记有分类类别,训练文本数据的向量具体由对训练文本数据中每个训练词组的向量加权以及求和处理得到的,即采用训练文本数据中每个训练词组的权重,对每个训练词组的向量进行加权,并将加权后得向量进行求和处理,得到训练文本数据的向量。通过初始分类器根据各个训练文本数据的向量对训练文本数据进行分类,如果基于最终的概率值确定概率值最高的类别与训练文本数据的预先标记的分类类别相同,则表明初始分类器对该训练文本数据分类是准确的,针对M个被标记的训练文本数据进行分类后,如果准确率达到预设准确率,则认为初始分类器能够较好地对训练文本数据进行分类识别,否则,则需要对初始分类器中的神经网络参数进行优化,并通过优化后的初始分类器再次对M个训练文本数据进行分类,其中M可以为1万,2万等,具体可以由研发人员预先设定。
下面具体介绍以BI-LSTM算法为核心的初始分类器的训练过程,如图2所示,为本发明实施例提供的BI-LSTM和am-softmax分类器的结构示意图,该结构中包括输入接口“X0、X1、X2和X3…”,用于接收输入的特征,以及两个LSTM层,每个LSTM层中包括多个LSTM细胞元,用于对输入的数据进行特征提取,以及拼接(concat)层,用于对提取的特征进行拼接,并采用Fc层输入拼接的特征,最后将Fc层处理过的特征导入am-softmax层中,并由得am-softmax层输出针对特征的分类结果。图2中,具体训练过程可以由以下公式进行表述:
y=Bi-LSTM(x)
p=am-softmax(yW)
其中,x即输入的文本向量,y为BI-LSTM模型的输出,即编码后的特征,W为对应的预设的分类类别的集合,即W=(c1,c2,...cn,),ci表示一个分类类别,p=am-softmax(<y,c1>,<y,c2>,...,<y,cn>),即输出文本向量属于每个预设的分类类别的概率,其中am-softmax的损失函数(loss)为:
其中,θt代表y与ct的夹角,θi代表y与ci的夹角,s和m为预设值,s可以取30,m可以取0.35,BI-LSTM和am-softmax分类器通过最小化该am-softmax的loss进行训练,利用分类器作为训练方案,而应用时将特征提取模型(这里即BI-LSTM模型)提取的特征进行对比排序,从而计算得到各个分类类别的训练文本样本集中的训练文本数据与待分类的目标文本数据的相似度。
本发明实施例中,终端获取目标文本数据,并对目标文本数据进行分词处理,得到至少一个分词词组,根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别,当检测到目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量;基于每个分词词组的权重对所每个分词词组的向量进行处理,得到目标文本数据的向量;将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果。通过实施上述方法,可以对文本数据中不同的分类特征重要性进行更好地量化,进而为分类器提供更准确的特征信息,上述方法具体可以用于商户分类领域,即文本数据为商户的招牌、主题等,基于文本数据确定商户的类别,方便对商户进行筛选、画像等。
请参见图3,为本发明实施例提供的一种类别特征数据库以及特征权重数据库的构建流程示意图,如图3所示,该方法具体包括以下步骤S301-S305:
S301、终端获取文本数据的分类类别。
本发明实施例中,终端可以获取文本数据的分类类别,文本数据的分类类别可以由研发人员预先设定,具体实现中,文本数据可以为商户的标签信息,则预先获取的文本分类类别可以包括一级分类和二级分类,一级分类可划分为“餐饮类、综合零售类、专营零售类、生活服务类、交通运输类、医疗类、教育培训类、金融类、工业科技类、票务/旅游类”等,每个一级分类又可划分为多个二级分类,如针对上述一级分类“餐饮类”,其划分为的二级分类可以为“餐馆类、饮品甜点类、调味料类、其他类”等。
S302、终端构建各个分类类别的训练文本样本集。
本发明实施例中,终端获取文本数据的分类类别之后,可以构建各个分类类别的训练文本样本集,每个分类类别的训练文本样本集中包括至少一个训练文本数据,构建方法具体可为对训练文本数据进行人工标注分类类别,例如,针对训练文本数据“A干锅”,可以对其标注一级分类为“餐饮”,二级分类为“餐馆”,对“B面馆”,可以对其标注一级分类为“餐饮”,二级分类为“餐馆”,通过对各个训练文本数据进行标记,可以得到如表2所示的表格。
表2:
训练文本数据 | 一级类目 | 二级类目 |
A干锅 | 餐饮 | 餐馆 |
B面馆 | 餐饮 | 餐馆 |
C快餐店 | 餐饮 | 餐馆 |
D干锅 | 餐饮 | 餐馆 |
E面馆 | 餐饮 | 餐馆 |
F和茶 | 餐饮 | 饮品甜点 |
S303、终端对各个分类类别的训练文本样本集中的训练文本数据进行分词处理,得到至少一个训练词组。
本发明实施例中,终端获取到各个分类类别的训练文本样本集之后,将对训练文本样本集中的训练文本数据进行分词处理,得到至少一个训练词组,其中,终端对训练文本数据进行分词处理的方式可以为,终端基于字符匹配的方式实现对文本训练数据的分词处理,或者,终端通过字与字相邻共现的频率或概率来确定是否将各个文字组成为词组,或者,终端通过基于大量已经分词的文本,利用统计机器学习模型学习词语切分的规律来实现对文本训练数据的分词处理。例如,终端对表4中“A干锅”、“B面馆”、“C快餐店”进行分词处理后可以得到训练词组“A”、“干锅”、“B”、“面馆”、“C”和“快餐店”。
S304、终端基于至少一个训练词组中每个训练词组的频率信息确定每个训练词组的特征权重,并基于每个训练词组的特征权重构建特征权重数据库。
本发明实施例中,终端获取到至少一个训练词组之后,可以统计训练词组在训练文本样本集中的频率信息,并基于上述频率信息确定每个训练词组的特征权重,其中,频率信息包括词频和逆文档频率,具体的,终端可以将训练词组在训练文本样本集中的词频与训练词组在训练文本样本集中的逆文档频率之间的乘积,确定为训练词组的特征权重。针对至少一个训练词组中的任意一个目标训练词组,该目标训练词组的特征权重w1的计算公式可以为:
w1=s*t,
其中,s表示目标训练词组在至少一个训练词组中的词频,t表示目标训练词组的逆文档频率。
s的具体计算公式可以为:
s=x1/x2,其中,x1表示训练文本样本集中目标训练词组的数量,x2表示训练文本样本集中所有训练词组的总数量。
t的具体计算公式可以为其中,y1表示训练文本样本集中包含的所有训练文本数据的总数量,y2表示训练文本样本集中包含目标训练词组的训练文本数据的数量。
终端可以基于上述方式计算得到训练文本样本集中每个训练词组的特征权重,并对上述训练词组以及对应的特征权重进行存储,例如,训练文本样本集包括:“A干锅”、“B面馆”、“C快餐店”、“D干锅”和“E快餐店”,终端将训练文本样本数据集进行分词处理后得到训练词组“A”、“干锅”、“小B”、“面馆”、“C”、“快餐店”、“D”、“干锅”、“E”和“快餐店”。当目标训练词组为“干锅”时,其对应的数量为2,训练词组的总数量为10,则其词频为0.2,包含“干锅”的训练文本数据的数量为2,训练文本数据的总数量为5,则其逆文档频率为log(5/3),得到目标训练词组的特征权重w1=0.2log(5/3)。同理,也可以基于上述方式计算得到训练文本样本集中其他词组的特征权重。
进一步的,终端基于每个训练词组的特征权重构建特征权重数据库,其中,特征权重数据库中存储了各个分类类别的训练文本样本集中的每个训练词组以及对应的特征权重,特征权重数据库中每个训练词组的特征权重具体可以如表3所示。
表3:
训练词组 | 特征权重 |
面馆 | 0.2 |
餐馆 | 0.3 |
… | … |
食品店 | 0.1 |
S305、终端将每个训练文本数据中特征权重最大的训练词组,确定为对应训练文本数据的分类类别的类别特征词,并基于类别特征词构建类别特征词库。
本发明实施例中,终端获取到每个训练词组的特征权重之后,可以将每个训练文本数据中特征权重最大的训练词组,确定为对应训练文本数据的分类类别的类别特征词,进一步的,终端将类别特征词以及对应的分类类别加入至类别特征词库中,以此方式构建类别特征词库。例如,针对训练文本数据“A干锅”,对其分词处理后得到的词组“A”的特征权重为0.1,“干锅”的特征权重为0.3,则终端将词组“干锅”确定为类别特征词,并获取到“A干锅”的分类类别中一级分类为餐饮,二级分类为餐馆,终端将“干锅”、餐饮、餐馆对应存储于类别特征数据库。需要说明的是,同一个分类类别可以对应不同的类别特征词,如一级分类餐饮可以对应类别特征词“干锅”和“菜馆”,二级分类“餐馆”可以对应类别特征词“钵钵鸡”和“菜馆”,如表4所示,为本发明实施例提供的类别特征数据库中存储的类别特征词示例。
表4:
本发明实施例中,终端可以构建各个分类类别的训练文本样本集,并以样本集为基础确定训练文本数据中每个训练词组的特征权重,以及构建特征权重数据库和类别特征词数据库,使得在执行图1实施例时方便的对类别特征词和每个分词词组的特征权重进行查询。
请参见图4,为本发明实施例提供的一种支持度权重数据库的构建流程示意图,如图4所示,该方法具体包括以下步骤S401-S405:
S401、终端获取文本数据的分类类别。
S402、终端构建各个分类类别的训练文本样本集。
本发明实施例中,每个分类类别的训练文本样本集中包括至少一个训练文本数据。
S403、终端基于预设词序列挖掘算法挖掘各个分类类别的训练文本样本集中每个训练文本数据中的频繁词序列。
本发明实施例中,终端构建各个分类类别的训练文本样本集之后,将基于预设词序列挖掘算法挖掘各个分类类别的训练文本样本集中每个训练文本数据中的频繁词序列,其中,预设词序列挖掘算法用于挖掘匹配到训练文本数据中支持度大于支持度阈值的各个长度的频繁词序列,支持度阈值具体可以由研发人员预先设定。
具体实现中,终端获取支持度阈值,并对每个训练文本数据进行分词处理,得到至少一个训练词组,以及采用预设词序列挖掘算法对训练文本数据进行词序列挖掘,其挖掘过程具体用于过滤掉训练文本数据对应的词序列中支持度小于支持度阈值的训练词组,并以剩余的训练词组构建频繁词序列。例如,最小支持度为1/4,训练文本样本集中包括6个训练文本数据,则训练词组至少需要在6个样本中出现2次才能使得支持度大于支持度阈值,对于支持度小于支持度阈值的训练词组,需要进行滤除。例如,训练文本样本集中每个训练文本数据以及每个训练文本数据对应的分类类别如表5所示。
表5:
基于预设词序列挖掘算法对上述训练文本数据进行词序列挖掘,可以确定训练词组“广场”、“面馆”、“餐馆”、“加盟”、“店”的支持度大于支持度阈值,其具体支持度可以如表6所示。
表6:
训练词组 | 广场 | 面馆 | 餐馆 | 加盟 | 店 |
出现样本数 | 2 | 2 | 2 | 2 | 2 |
支持度 | 1/3 | 1/3 | 1/3 | 1/3 | 1/3 |
进一步的,终端基于上述训练词组构建得到频繁词序列,如表7所示。
表7:
频繁词序列 |
广场面馆 |
面馆 |
广场餐馆 |
加盟店 |
餐馆 |
加盟店 |
其中,终端计算上述频繁词序列得到各个长度的频繁词序列的支持度,如表8所示。
表8:
频繁词序列 | 支持度 |
广场 | 1/3 |
面馆 | 1/3 |
餐馆 | 1/3 |
加盟 | 1/3 |
店 | 1/3 |
广场餐馆 | 1/3 |
广场面馆 | 1/3 |
加盟店 | 1/3 |
S404、终端基于每个频繁词序列的支持度确定每个频繁词序列的支持度权重,并将每个频繁词序列的支持度权重确定为每个频繁词序列中训练词组的支持度权重。
本发明实施例中,终端确定各个分类类别对应的训练样本集中的频繁词序列之后,将基于每个频繁词序列的支持度确定每个频繁词序列的支持度权重,其中,频繁词序列的支持度权重可以与频繁词序列的支持度相同,或者与支持度成比例关系。进一步的,终端将每个频繁词序列的支持度权重确定为每个频繁词序列中训练词组的支持度权重。
S405、终端基于每个频繁词序列中训练词组的支持度权重构建支持度权重数据库。
本发明实施例中,终端确定频繁词序列中每个训练词组的支持度权重之后,将基于所述每个频繁词序列中训练词组的支持度权重构建支持度权重数据,其中,支持度权重数据库存储有每个频繁词序列中包括的训练词组,以及每个频繁词序列中包括的训练词组的支持度权重,并且,支持度权重数据库中还可以存储有非频繁词序列中的训练词组的支持度权重,非频繁词序列中的训练词组的支持度权重可以为预置权重,该预置权重需小于各个频繁词序列支持度权重,具体可以由研发人员预先设定。
本发明实施例中,终端可以构建各个分类类别的训练文本样本集,并以样本集为基础确定训练文本数据中每个训练词组的支持度权重,并构建支持度权重数据库,使得在执行图1实施例时方便的对每个词组的支持度权重进行查询。
请参见图5,为本发明实施例提供的另一种基于人工智能的分类方法的流程示意图,该方法可以用于对商户进行分类,如图5所示,该方法具体包括以下步骤S501-S505:
S501、终端从至少一个商户的标签信息中获取到目标商户的标签信息,并对标签信息进行分词处理,得到至少一个商户词组。
本发明实施例中,终端可以同时对至少一个商户进行分类,针对每个商户的分类方法,具体为,终端从至少一个商户的标签信息中获取到目标商户的标签信息,并对标签信息进行分词处理,得到至少一个商户词组。其中,标签信息具体可以为商户的招牌、主题等。
S502终端根据至少一个商户词组和类别特征词库检测标签信息所属的分类类别。
本发明实施例中,终端分词处理得到至少一个商户词组之后,将检测上述词组中是否存在类别特征词,并将类别特征词对应的分类类别确定为商户的标签信息所属的分类类别。在一种实现方式中,当商户词组不存在类别特征词时,终端可以基于词组之间的相似度确定商户词组最相似的类别特征词,并将相似度最高的类别特征词对应的分类类别确定为标签信息所属的分类类别,并结束本流程,其中,相似度的计算方式可以为向量之间的距离计算,如将各个类别特征词的向量中与商户词组的向量距离最近的类别特征词确定为与商户词组最相似的类别特征词。在一种实现方式中,当至少一个商户词组中存在一个类别特征词时,终端可以将该类别特征词对应的分类类别确定为标签信息所属的分类类别,并结束本流程,当终端检测到至少一个商户词组中存在至少两个类别特征词时,执行步骤S503。
S503、当终端检测到标签信息所属至少两个商户分类类别时,确定至少一个商户词组中每个商户词组的权重,以及确定每个商户词组的向量。
本发明实施例中,当终端检测到标签信息对应的商户词组中存在至少两个类别特征词时,确定标签信息所属至少两个商户分类类别,例如,标签信息“超市茶馆”中存在类别特征词“超市”和“茶馆”,则终端确定标两个商户分类类别,并确定至少一个商户词组中每个商户词组的权重,以及确定每个商户词组的向量。其中,商户词组的权重具体可以基于特征权重数据库中查询到的特征权重和支持度权重数据库中查询到的支持度权重计算得到,商户词组的向量可以基于预先构建的向量模型计算得到。
S504、终端基于每个商户词组的权重对每个商户词组的向量进行处理,得到标签信息的向量。
本发明实施例中,终端采用每个商户词组的权重对对应商户词组的向量进行加权处理,得到每个商户词组的加权向量;并对各个商户词组的加权向量进行求和处理,得到标签信息的向量。
S505、终端将标签信息的向量输入至分类器中,得到针对标签信息的分类结果。
本发明实施例中,终端得到标签信息的向量之后,可以将标签信息的向量输入至分类器中,得到针对标签信息的分类结果,该分类结果具体可以为标签信息属于各个分类类别的概率,终端可以将概率最高的分类类别确定为标签信息所属的目标分类类别,即该标签信息对应的商户的分类类别。
本发明实施例中,通过对商户标签信息中每个词组的权重进行量化,可以更为精确的提取出商户的标签信息中的特征,使得在分类时对商户的分类更为准确。
下面将结合附图6对本发明实施例提供的基于人工智能的分类装置进行详细介绍。需要说明的是,附图6所示的基于人工智能的分类装置,用于执行本发明图1-图5所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,经参照本发明图1-图5所示的实施例。
请参见图6,为本发明提供的一种基于人工智能的分类装置的结构示意图,该基于人工智能的分类装置60可包括:获取模块601、处理模块602、检测模块603、确定模块604、输入模块605和训练模块606。
获取模块601,用于获取目标文本数据;
处理模块602,用于对所述目标文本数据进行分词处理,得到至少一个分词词组;
检测模块603,用于根据所述至少一个分词词组和类别特征词库检测所述目标文本数据所属的分类类别,其中,所述类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别;
确定模块604,用于当检测到所述目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定所述每个分词词组的向量;
处理模块602,还用于基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量;
输入模块605,用于将所述目标文本数据的向量输入至分类器中,得到针对所述目标文本数据的分类结果。
在一种实现方式中,所述确定模块604,还用于:
获取文本数据的分类类别;
构建各个分类类别的训练文本样本集,每个分类类别的训练文本样本集中包括至少一个训练文本数据;
对所述各个分类类别的训练文本样本集中的训练文本数据进行分词处理,得到至少一个训练词组;
基于所述至少一个训练词组中每个训练词组的频率信息确定所述每个训练词组的特征权重,所述频率信息包括词频和逆文档频率;
将所述每个训练文本数据中特征权重最大的训练词组,确定为对应训练文本数据的分类类别的类别特征词。
在一种实现方式中,所述确定模块604,还用于:
基于预设词序列挖掘算法挖掘各个分类类别的训练文本样本集中每个训练文本数据中的频繁词序列,所述频繁词序列中包括至少一个训练词组,频繁词序列在所述训练文本样本集中的支持度大于支持度阈值;
基于每个频繁词序列的支持度确定每个频繁词序列的支持度权重,并将每个频繁词序列的支持度权重确定为每个频繁词序列中训练词组的支持度权重;
基于所述每个频繁词序列中训练词组的支持度权重构建支持度权重数据库,所述支持度权重数据库存储有每个频繁词序列中包括的训练词组,以及每个频繁词序列中包括的训练词组的支持度权重。
在一种实现方式中,所述确定模块604,具体用于:
获取与目标分词词组相匹配的目标训练词组,所述目标分词词组为所述至少一个分词词组中任意一个分词词组,所述目标训练词组为所述至少一个训练词组中的任意一个训练词组;
获取所述目标训练词组的特征权重和支持度权重,所述目标训练词组的特征权重从构建的特征权重数据库中获取,所述目标训练词组的支持度权重从构建的支持度权重数据库中获取;
根据所述目标训练词组的特征权重和支持度权重确定所述目标分词词组的权重。
在一种实现方式中,所述处理模块602,具体用于:
采用每个分词词组的权重对对应分词词组的向量进行加权处理,得到每个分词词组的加权向量;
对各个分词词组的加权向量进行求和处理,得到所述目标文本数据的向量。
在一种实现方式中,获取模块601,还用于获取训练文本样本集,所述训练文本样本集中每个训练文本数据标记有分类类别;
确定模块604,还用于确定所述训练文本样本集中每个训练文本数据的向量;
训练模块606,用于采用所述每个训练文本数据的向量,对已构建的初始分类器进行训练,得到分类器。
在一种实现方式中,获取模块601,用于从至少一个商户的标签信息中获取到目标商户的标签信息;
处理模块602,用于对所述标签信息进行分词处理,得到至少一个商户词组;
检测模块603,用于根据所述至少一个商户词组和类别特征词库检测所述标签信息所属的分类类别;
确定模块604,用于当检测到所述标签信息所属至少两个商户分类类别时,确定所述至少一个商户词组中每个商户词组的权重,以及确定所述每个商户词组的向量;
处理模块602,用于基于所述每个商户词组的权重对所述每个商户词组的向量进行处理,得到所述标签信息的向量;
输入模块605,用于将所述标签信息的向量输入至分类器中,得到针对所述标签信息的分类结果。
本发明实施例中,获取模块601获取目标文本数据,处理模块602对目标文本数据进行分词处理,得到至少一个分词词组,检测模块603根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别,当检测到目标文本数据所属至少两个分类类别时,确定模块604确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量;处理模块602基于每个分词词组的权重对所每个分词词组的向量进行处理,得到目标文本数据的向量;输入模块605将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果。通过实施上述方法,可以基于文本中不同词组的权重以及向量确定文本所属的类别,提升对于文本分类的准确性。
请参见图7,为本发明实施例提供的一种终端的结构示意图。如图7所示,该终端包括:至少一个处理器701,输入接口703,输出接口704,存储器705,至少一个通信总线702。其中,通信总线702用于实现这些组件之间的连接通信。其中,输入接口703可以是控制面板或者麦克风等,输出接口704可以是显示屏等。其中,存储器705可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。其中处理器701可以结合图6所描述的装置,存储器705中存储一组程序代码,且处理器701,输入接口703,输出接口704调用存储器705中存储的程序代码,用于执行以下操作:
处理器701,用于获取目标文本数据,并对所述目标文本数据进行分词处理,得到至少一个分词词组;
处理器701,用于根据所述至少一个分词词组和类别特征词库检测所述目标文本数据所属的分类类别,其中,所述类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别;
处理器701,用于当检测到所述目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定所述每个分词词组的向量;
处理器701,用于基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量;
处理器701,用于将所述目标文本数据的向量输入至分类器中,得到针对所述目标文本数据的分类结果;
在一种实现方式中,处理器701,具体用于:
获取文本数据的分类类别;
构建各个分类类别的训练文本样本集,每个分类类别的训练文本样本集中包括至少一个训练文本数据;
对所述各个分类类别的训练文本样本集中的训练文本数据进行分词处理,得到至少一个训练词组;
基于所述至少一个训练词组中每个训练词组的频率信息确定所述每个训练词组的特征权重,所述频率信息包括词频和逆文档频率;
将所述每个训练文本数据中特征权重最大的训练词组,确定为对应训练文本数据的分类类别的类别特征词。
在一种实现方式中,处理器701,具体用于:
基于预设词序列挖掘算法挖掘各个分类类别的训练文本样本集中每个训练文本数据中的频繁词序列,所述频繁词序列中包括至少一个训练词组,频繁词序列在所述训练文本样本集中的支持度大于支持度阈值;
基于每个频繁词序列的支持度确定每个频繁词序列的支持度权重,并将每个频繁词序列的支持度权重确定为每个频繁词序列中训练词组的支持度权重;
基于所述每个频繁词序列中训练词组的支持度权重构建支持度权重数据库,所述支持度权重数据库存储有每个频繁词序列中包括的训练词组,以及每个频繁词序列中包括的训练词组的支持度权重。
在一种实现方式中,处理器701,具体用于:
获取与目标分词词组相匹配的目标训练词组,所述目标分词词组为所述至少一个分词词组中任意一个分词词组,所述目标训练词组为所述至少一个训练词组中的任意一个训练词组;
获取所述目标训练词组的特征权重和支持度权重,所述目标训练词组的特征权重从构建的特征权重数据库中获取,所述目标训练词组的支持度权重从构建的支持度权重数据库中获取;
根据所述目标训练词组的特征权重和支持度权重确定所述目标分词词组的权重。
在一种实现方式中,处理器701,具体用于:
采用每个分词词组的权重对对应分词词组的向量进行加权处理,得到每个分词词组的加权向量;
对各个分词词组的加权向量进行求和处理,得到所述目标文本数据的向量。
在一种实现方式中,处理器701,具体用于:
获取训练文本样本集,所述训练文本样本集中每个训练文本数据标记有分类类别;
确定所述训练文本样本集中每个训练文本数据的向量;
采用所述每个训练文本数据的向量,对已构建的初始分类器进行训练,得到分类器。
在一种实现方式中,处理器701,具体用于:
从至少一个商户的标签信息中获取到目标商户的标签信息,并对所述标签信息进行分词处理,得到至少一个商户词组;
根据所述至少一个商户词组和类别特征词库检测所述标签信息所属的分类类别;
当检测到所述标签信息所属至少两个商户分类类别时,确定所述至少一个商户词组中每个商户词组的权重,以及确定所述每个商户词组的向量;
基于所述每个商户词组的权重对所述每个商户词组的向量进行处理,得到所述标签信息的向量;
将所述标签信息的向量输入至分类器中,得到针对所述标签信息的分类结果。
本发明实施例中,处理器701获取目标文本数据,处理器701对目标文本数据进行分词处理,得到至少一个分词词组,处理器701根据至少一个分词词组和类别特征词库检测目标文本数据所属的分类类别,当检测到目标文本数据所属至少两个分类类别时,处理器701确定至少一个分词词组中每个分词词组的权重,以及确定每个分词词组的向量;处理器701基于每个分词词组的权重对所每个分词词组的向量进行处理,得到目标文本数据的向量;处理器701将目标文本数据的向量输入至分类器中,得到针对目标文本数据的分类结果。通过实施上述方法,可以基于文本中不同词组的权重以及向量确定文本所属的类别,提升对于文本分类的准确性。
应当理解,在本发明实施例中,所称处理器701可以是中央处理模块(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
总线702可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等,该总线702可以分为地址总线、数据总线、控制总线等,为便于表示,图7仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种基于人工智能的分类方法,其特征在于,所述方法包括:
获取目标文本数据,并对所述目标文本数据进行分词处理,得到至少一个分词词组;
根据所述至少一个分词词组和类别特征词库检测所述目标文本数据所属的分类类别,其中,所述类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别;
当检测到所述目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定所述每个分词词组的向量;
基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量;
将所述目标文本数据的向量输入至分类器中,得到针对所述目标文本数据的分类结果,所述分类器是采用所述训练文本样本集对已构建的初始分类器进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取文本数据的分类类别;
构建各个分类类别的训练文本样本集,每个分类类别的训练文本样本集中包括至少一个训练文本数据;
对所述各个分类类别的训练文本样本集中的训练文本数据进行分词处理,得到至少一个训练词组;
基于所述至少一个训练词组中每个训练词组的频率信息确定每个训练词组的特征权重,并基于所述每个训练词组的特征权重构建特征权重数据库,所述频率信息包括词频和逆文档频率;
将所述每个训练文本数据中特征权重最大的训练词组,确定为对应训练文本数据的分类类别的类别特征词,并基于类别特征词构建类别特征词库。
3.根据权利要求2所述的方法,其特征在于,所述构建各个分类类别的训练文本样本集之后,所述方法还包括:
基于预设词序列挖掘算法挖掘各个分类类别的训练文本样本集中每个训练文本数据中的频繁词序列,所述频繁词序列中包括至少一个训练词组,频繁词序列在所述训练文本样本集中的支持度大于支持度阈值;
基于每个频繁词序列的支持度确定每个频繁词序列的支持度权重,并将每个频繁词序列的支持度权重确定为每个频繁词序列中训练词组的支持度权重;
基于所述每个频繁词序列中训练词组的支持度权重构建支持度权重数据库,所述支持度权重数据库存储有每个频繁词序列中包括的训练词组,以及每个频繁词序列中包括的训练词组的支持度权重。
4.根据权利要求3所述的方法,其特征在于,所述确定所述至少一个分词词组中每个分词词组的权重,包括:
获取与目标分词词组相匹配的目标训练词组,所述目标分词词组为所述至少一个分词词组中任意一个分词词组,所述目标训练词组为所述至少一个训练词组中的任意一个训练词组;
获取所述目标训练词组的特征权重和支持度权重,所述目标训练词组的特征权重从构建的特征权重数据库中获取,所述目标训练词组的支持度权重从构建的支持度权重数据库中获取;
根据所述目标训练词组的特征权重和支持度权重确定所述目标分词词组的权重。
5.根据权利要求1所述的方法,其特征在于,所述基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量,包括:
采用每个分词词组的权重对对应分词词组的向量进行加权处理,得到每个分词词组的加权向量;
对各个分词词组的加权向量进行求和处理,得到所述目标文本数据的向量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练文本样本集,所述训练文本样本集中每个训练文本数据标记有分类类别;
确定所述训练文本样本集中每个训练文本数据的向量;
采用所述每个训练文本数据的向量,对已构建的初始分类器进行训练,得到分类器。
7.根据权利要求1所述的方法,其特征在于,所述目标文本数据包括目标商户的标签信息,所述方法还包括:
从至少一个商户的标签信息中获取到目标商户的标签信息,并对所述标签信息进行分词处理,得到至少一个商户词组;
根据所述至少一个商户词组和类别特征词库检测所述标签信息所属的分类类别;
当检测到所述标签信息所属至少两个商户分类类别时,确定所述至少一个商户词组中每个商户词组的权重,以及确定所述每个商户词组的向量;
基于所述每个商户词组的权重对所述每个商户词组的向量进行处理,得到所述标签信息的向量;
将所述标签信息的向量输入至分类器中,得到针对所述标签信息的分类结果。
8.一种基于人工智能的分类装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本数据;
处理模块,用于对所述目标文本数据进行分词处理,得到至少一个分词词组;
检测模块,用于根据所述至少一个分词词组和类别特征词库检测所述目标文本数据所属的分类类别,其中,所述类别特征词库是根据多个训练文本样本集中各个训练词组的频率信息确定每个分类类别的类别特征词,并基于每个分类类别的类别特征词构建的,每个训练文本样本集中包括至少一个训练文本数据,并且不同的训练文本样本集对应不同的分类类别;
确定模块,用于当检测到所述目标文本数据所属至少两个分类类别时,确定所述至少一个分词词组中每个分词词组的权重,以及确定所述每个分词词组的向量;
所述处理模块,还用于基于所述每个分词词组的权重对所述每个分词词组的向量进行处理,得到所述目标文本数据的向量;
输入模块,用于将所述目标文本数据的向量输入至分类器中,得到针对所述目标文本数据的分类结果,所述分类器是采用所述训练文本样本集对已构建的初始分类器进行训练得到的。
9.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010546795.1A CN111708888B (zh) | 2020-06-16 | 2020-06-16 | 基于人工智能的分类方法、装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010546795.1A CN111708888B (zh) | 2020-06-16 | 2020-06-16 | 基于人工智能的分类方法、装置、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708888A CN111708888A (zh) | 2020-09-25 |
CN111708888B true CN111708888B (zh) | 2023-10-24 |
Family
ID=72540520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010546795.1A Active CN111708888B (zh) | 2020-06-16 | 2020-06-16 | 基于人工智能的分类方法、装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708888B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328787B (zh) * | 2020-11-04 | 2024-02-20 | 中国平安人寿保险股份有限公司 | 文本分类模型训练方法、装置、终端设备及存储介质 |
CN112445914A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和介质 |
CN112529676A (zh) * | 2020-12-22 | 2021-03-19 | 畅捷通信息技术股份有限公司 | 一种基于社会级词向量进行税收编码末级分类的方法 |
CN112328799B (zh) * | 2021-01-06 | 2021-04-02 | 腾讯科技(深圳)有限公司 | 问题分类方法和装置 |
CN112818652A (zh) * | 2021-01-26 | 2021-05-18 | 深圳市房多多网络科技有限公司 | 房源描述文本生成方法、装置、设备及计算机存储介质 |
CN112948678B (zh) * | 2021-02-26 | 2023-07-21 | 北京房江湖科技有限公司 | 文章召回方法及系统、文章推荐方法及系统 |
CN112989050B (zh) * | 2021-03-31 | 2023-05-30 | 建信金融科技有限责任公司 | 一种表格分类方法、装置、设备及存储介质 |
CN112989761B (zh) * | 2021-05-20 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 文本分类方法及装置 |
CN115883912B (zh) * | 2023-03-08 | 2023-05-16 | 山东水浒文化传媒有限公司 | 一种用于互联网交流演示的互动方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN106095845A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 文本分类方法和装置 |
CN107346433A (zh) * | 2016-05-06 | 2017-11-14 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN108520041A (zh) * | 2018-04-03 | 2018-09-11 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
CN108959293A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN110287328A (zh) * | 2019-07-03 | 2019-09-27 | 广东工业大学 | 一种文本分类方法、装置、设备及计算机可读存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110727765A (zh) * | 2019-10-10 | 2020-01-24 | 合肥工业大学 | 基于多注意力机制的问题分类方法、系统及存储介质 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503236B (zh) * | 2016-10-28 | 2020-09-11 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
US11288297B2 (en) * | 2017-11-29 | 2022-03-29 | Oracle International Corporation | Explicit semantic analysis-based large-scale classification |
-
2020
- 2020-06-16 CN CN202010546795.1A patent/CN111708888B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN107346433A (zh) * | 2016-05-06 | 2017-11-14 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN106095845A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 文本分类方法和装置 |
CN108959293A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN108520041A (zh) * | 2018-04-03 | 2018-09-11 | 有米科技股份有限公司 | 文本的行业分类方法、系统、计算机设备和存储介质 |
CN110990559A (zh) * | 2018-09-29 | 2020-04-10 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
CN110287328A (zh) * | 2019-07-03 | 2019-09-27 | 广东工业大学 | 一种文本分类方法、装置、设备及计算机可读存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110727765A (zh) * | 2019-10-10 | 2020-01-24 | 合肥工业大学 | 基于多注意力机制的问题分类方法、系统及存储介质 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
"Flood Disaster Classification based on Fuzzy Clustering Iterative Model and Modified Differential Evolution Algorithm";Yaoyao He;《2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery》;第85-89页 * |
"文本分类中一种特征选择方法研究";赵婧;《计算机应用研究》;第2261-2265页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111708888A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708888B (zh) | 基于人工智能的分类方法、装置、终端和存储介质 | |
EP3623762B1 (en) | Internet text mining-based method and apparatus for judging validity of point of interest | |
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
Sharma et al. | Automatic detection of satire in bangla documents: A cnn approach based on hybrid feature extraction model | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
Tian et al. | Image classification based on the combination of text features and visual features | |
CN114707517B (zh) | 一种基于开源数据事件抽取的目标跟踪方法 | |
Islam et al. | Review analysis of ride-sharing applications using machine learning approaches: Bangladesh perspective | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN114495113A (zh) | 文本分类方法和文本分类模型的训练方法、装置 | |
CN113537206B (zh) | 推送数据检测方法、装置、计算机设备和存储介质 | |
CN115309899B (zh) | 一种文本中特定内容识别存储方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |