CN116595227A - 一种基于热线数据提取通用知识的方法 - Google Patents
一种基于热线数据提取通用知识的方法 Download PDFInfo
- Publication number
- CN116595227A CN116595227A CN202310506965.7A CN202310506965A CN116595227A CN 116595227 A CN116595227 A CN 116595227A CN 202310506965 A CN202310506965 A CN 202310506965A CN 116595227 A CN116595227 A CN 116595227A
- Authority
- CN
- China
- Prior art keywords
- data
- hotline
- file type
- clustering
- hot line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000003064 k means clustering Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000007635 classification algorithm Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000009960 carding Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于热线数据提取通用知识的方法,涉及数据处理技术领域,采用技术方案为:S1、获取热线数据,对热线数据进行分类,并提取咨询类和诉求类的热线数据;S2、利用SimCSE模型对提取的热线数据进行排重;S3、从热线数据中提取引用文件型数据,并处理,生成问答对;S4、从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,处理非引用文件型数据,生成问答对;S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。本发明可以对不断生成的海量热线数据进行高效过滤,有效提取含有有效信息的数据,再应用人工审核,有效提高通用知识生成的质量。
Description
技术领域
本发明涉及数据处理技术领域,具体的说是一种基于热线数据提取通用知识的方法。
背景技术
针对类型丰富的热线数据,需要采取不同的知识提取方法进行通用知识的提取。
目前,对热线数据的知识提取更多依赖人工梳理,海量的热线数据通过人工梳理效率非常有限,对人力资源的占用程度较高。在数字化的今天,开始尝试采取人工+智能的方式进行知识梳理,一方面可以对海量数据进行批量化处理,最大限度的采集有价值的热线知识;另一方面可以极大提高知识提取的效率。
现今采取的人工+智能方式进行热线知识提取,在提高知识处理效率的同时,也存在一些问题,比如对有效知识的判断不够精准,提取的知识价值度可能较低、智能算法的开发时间较长等。但随着提取知识量的增加,模型的不断优化,提取知识的数量与质量也在不断提高。
发明内容
本发明针对人工梳理海量热线数据提取热线知识效率低的问题,提供一种基于热线数据提取通用知识的方法,以通过人工+智能方式实现热线知识的快速提取。
本发明的一种基于热线数据提取通用知识的方法,解决上述技术问题采用的技术方案如下:
一种基于热线数据提取通用知识的方法,包括如下步骤:
S1、获取热线数据,对热线数据进行分类,并提取咨询类和诉求类的热线数据;
S2、利用SimCSE模型对提取的热线数据进行排重;
S3、从热线数据中提取引用文件型数据,并处理,生成问答对;
S4、从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,处理非引用文件型数据,生成问答对;
S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。
可选的,执行步骤S1,将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类,提取咨询类和诉求类热线数据的同时,保存热线数据的有效字段,该有效字段不限于热线数据的序号、问题及答案。
进一步可选的,执行步骤S2,利用SimCSE模型对热线数据进行排重,具体操作包括:
S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B;
S2.2、利用如下公式计算两个向量的夹角余弦值来评估相似度,
设向量A=(A1,A2,…,An),B=(B1,B2,...,Bn),
其中,n大于700,cosθ的阈值设定为0.95,
当0.95≤cosθ≤1时,认定两条热线数据相似度极高,随机删除其中一条热线数据;
S2.3、分别存储cosθ<0.95的热线数据和执行步骤S2.3保留的热线数据。
进一步可选的,执行步骤S3,从热线数据中提取引用文件型数据,并处理,生成问答对,具体操作包括:
S3.1、针对热线数据,提取其答案中包含书名号的数据,形成引用文件型数据,同时提取书名号中的内容,剔除过期政策或非政策数据;
S3.2、应用SimCSE模型和K均值聚类算法对引用文件型数据进行聚类;
S3.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;
S3.4、生成问答对,打标签引用文件型数据。
优选的,执行步骤S3.2,应用SimCSE模型和K均值聚类算法对引用文件型数据的答案进行聚类,具体操作包括:
S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量;
S3.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心;
S3.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果;
S3.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,作为新的聚类中心;
S3.2.5、然后重新执行步骤S3.2.3、S3.2.4,直到聚类结果不再变化;
S3.2.6、人工分析聚类结果,并梳理聚类生成的热线数据中的重复片段,梳理完成的数据用于后期的摘要提取。
进一步可选的,执行步骤S4,从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,非引用文件型数据包含用于解释政府部门相关业务的业务知识型数据和用于解释政府办事流程的办事方法型数据,处理非引用文件型数据,生成问答对,具体操作包括:
S4.1、应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查,得到有效数据,
S4.2、应用SimCSE和K均值聚类算法对有效数据进行聚类;
S4.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;
S4.4、生成问答对,打标签非引用文件型数据。
优选的,执行步骤S4.1,应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查,得到有效数据,具体操作包括:
S4.1.1、获取历史热线数据形成的文本数据,对其中指定条数的文本数据按照有效信息和无效信息进行打标签;
S4.1.2、将具有有效标签的文本数据输入到RoBERTa-wwm文本分类算法的预训练模型中,让预训练模型学习文本数据的特征,生成新模型M;
S4.1.3、新热线数据形成的文本数据输入新模型M,新模型M预测输出该文本数据具有的有效数据。
优选的,将具有有效标签的文本数据按照8:1:1的比例随即划分为训练集、验证集、测试集。
优选的,执行步骤S4.2,应用SimCSE模型和K均值聚类算法对有效数据进行聚类,具体操作包括:
S4.2.1、应用SimCSE模型计算有效数据的向量;
S4.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心;
S4.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果;
S4.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,作为新的聚类中心;
S4.2.5、然后重新执行步骤S4.2.3、S4.2.4,直到聚类结果不再变化;
S4.2.6、人工分析聚类结果,并梳理聚类生成的热线数据中的重复片段,梳理完成的数据用于后期的摘要提取。
本发明的一种基于热线数据提取通用知识的方法,与现有技术相比具有的有益效果是:
本发明可以对不断生成的海量热线数据进行高效过滤,有效提取含有有效信息的数据,再应用人工审核,有效提高通用知识生成的质量。
附图说明
附图1是本发明的实施例一的方法流程图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种基于热线数据提取通用知识的方法,包括如下步骤:
S1、将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类;
获取热线数据,对热线数据进行分类,并提取咨询类和诉求类的热线数据,同时,保存热线数据的有效字段,该有效字段不限于热线数据的序号、问题及答案。
S2、利用SimCSE模型对提取的热线数据进行排重,具体操作包括:
S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B;
S2.2、利用如下公式计算两个向量的夹角余弦值来评估相似度,
设向量A=(Al,A2,…,An),B=(B1,B2,...,Bn),
其中,n大于700,cosθ的阈值设定为0.95,
当0.95≤cosθ≤1时,认定两条热线数据相似度极高,随机删除其中一条热线数据;
S2.3、分别存储cosθ<0.95的热线数据和执行步骤S2.3保留的热线数据。
S3、从热线数据中提取引用文件型数据,并处理,生成问答对,具体操作包括:
S3.1、针对热线数据,提取其答案中包含书名号的数据,形成引用文件型数据,同时提取书名号中的内容,剔除过期政策或非政策数据;
S3.2、应用SimCSE模型和K均值聚类算法对引用文件型数据进行聚类,具体过程如下:
S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量,
S3.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心,
S3.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果,
S3.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,作为新的聚类中心,
S3.2.5、然后重新执行步骤S3.2.3、S3.2.4,直到聚类结果不再变化,
S3.2.6、人工分析聚类结果,并梳理聚类生成的热线数据中的重复片段,梳理完成的数据用于后期的摘要提取;
S3.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;
S3.4、生成问答对,打标签引用文件型数据。
S4、从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,非引用文件型数据包含用于解释政府部门相关业务的业务知识型数据和用于解释政府办事流程的办事方法型数据,处理非引用文件型数据,生成问答对,具体操作包括:
S4.1、应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查,得到有效数据,具体过程如下:
S4.1.1、获取历史热线数据形成的文本数据,对10000条文本数据按照有效信息和无效信息进行打标签,
S4.1.2、将具有有效标签的文本数据按照8:1:1的比例随即划分为训练集、验证集、测试集,将训练集的文本数据输入到RoBERTa-wwm文本分类算法的预训练模型中,让预训练模型学习文本数据的特征,生成新模型M,使用验证集的文本数据验证新模型M,验证符合要求后,使用测试集的文本数据测试新模型M,测试符合要求后,输出新模型M,
S4.1.3、新热线数据形成的文本数据输入新模型M,新模型M预测输出该文本数据具有的有效数据;
S4.2、应用SimCSE和K均值聚类算法对有效数据进行聚类,过程如下:
S4.2.1、应用SimCSE模型计算有效数据的向量,
S4.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心,
S4.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果,
S4.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,作为新的聚类中心,
S4.2.5、然后重新执行步骤S4.2.3、S4.2.4,直到聚类结果不再变化,
S4.2.6、人工分析聚类结果,并梳理聚类生成的热线数据中的重复片段,梳理完成的数据用于后期的摘要提取;
S4.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;
S4.4、生成问答对,打标签非引用文件型数据。
S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。
综上可知,采用本发明的一种基于热线数据提取通用知识的方法,可以对不断生成的海量热线数据进行高效过滤,有效提取含有有效信息的数据,再应用人工审核,有效提高通用知识生成的质量。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (9)
1.一种基于热线数据提取通用知识的方法,其特征在于,包括如下步骤:
S1、获取热线数据,对热线数据进行分类,并提取咨询类和诉求类的热线数据;
S2、利用SimCSE模型对提取的热线数据进行排重;
S3、从热线数据中提取引用文件型数据,并处理,生成问答对;
S4、从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,处理非引用文件型数据,生成问答对;
S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。
2.根据权利要求1所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S1,将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类,提取咨询类和诉求类热线数据的同时,保存热线数据的有效字段,该有效字段不限于热线数据的序号、问题及答案。
3.根据权利要求2所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S2,利用SimCSE模型对热线数据进行排重,具体操作包括:
S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B;
S2.2、利用如下公式计算两个向量的夹角余弦值来评估相似度,
设向量A=(A1,A2,...,An),B=(B1,B2,...,Bn),
其中,n大于700,cosθ的阈值设定为0.95,
当0.95≤cosθ≤1时,认定两条热线数据相似度极高,随机删除其中一条热线数据;
S2.3、分别存储cosθ<0.95的热线数据和执行步骤S2.3保留的热线数据。
4.根据权利要求2所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S3,从热线数据中提取引用文件型数据,并处理,生成问答对,具体操作包括:
S3.1、针对热线数据,提取其答案中包含书名号的数据,形成引用文件型数据,同时提取书名号中的内容,剔除过期政策或非政策数据;
S3.2、应用SimCSE模型和K均值聚类算法对引用文件型数据进行聚类;
S3.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;
S3.4、生成问答对,打标签引用文件型数据。
5.根据权利要求4所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S3.2,应用SimCSE模型和K均值聚类算法对引用文件型数据的答案进行聚类,具体操作包括:
S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量;
S3.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心;
S3.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果;
S3.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,作为新的聚类中心;
S3.2.5、然后重新执行步骤S3.2.3、S3.2.4,直到聚类结果不再变化;
S3.2.6、人工分析聚类结果,并梳理聚类生成的热线数据中的重复片段,梳理完成的数据用于后期的摘要提取。
6.根据权利要求2所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S4,从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,非引用文件型数据包含用于解释政府部门相关业务的业务知识型数据和用于解释政府办事流程的办事方法型数据,处理非引用文件型数据,生成问答对,具体操作包括:
S4.1、应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查,得到有效数据,
S4.2、应用SimCSE和K均值聚类算法对有效数据进行聚类;
S4.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;
S4.4、生成问答对,打标签非引用文件型数据。
7.根据权利要求6所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S4.1,应用RoBERTa-wwm文本分类算法对非引用文件型数据的有效信息进行筛查,得到有效数据,具体操作包括:
S4.1.1、获取历史热线数据形成的文本数据,对其中指定条数的文本数据按照有效信息和无效信息进行打标签;
S4.1.2、将具有有效标签的文本数据输入到RoBERTa-wwm文本分类算法的预训练模型中,让预训练模型学习文本数据的特征,生成新模型M;
S4.1.3、新热线数据形成的文本数据输入新模型M,新模型M预测输出该文本数据具有的有效数据。
8.根据权利要求7所述的一种基于热线数据提取通用知识的方法,其特征在于,将具有有效标签的文本数据按照8:1:1的比例随即划分为训练集、验证集、测试集。
9.根据权利要求6所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S4.2,应用SimCSE模型和K均值聚类算法对有效数据进行聚类,具体操作包括:
S4.2.1、应用SimCSE模型计算有效数据的向量;
S4.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心;
S4.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果;
S4.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,作为新的聚类中心;
S4.2.5、然后重新执行步骤S4.2.3、S4.2.4,直到聚类结果不再变化;
S4.2.6、人工分析聚类结果,并梳理聚类生成的热线数据中的重复片段,梳理完成的数据用于后期的摘要提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310506965.7A CN116595227A (zh) | 2023-05-08 | 2023-05-08 | 一种基于热线数据提取通用知识的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310506965.7A CN116595227A (zh) | 2023-05-08 | 2023-05-08 | 一种基于热线数据提取通用知识的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595227A true CN116595227A (zh) | 2023-08-15 |
Family
ID=87593016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310506965.7A Pending CN116595227A (zh) | 2023-05-08 | 2023-05-08 | 一种基于热线数据提取通用知识的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595227A (zh) |
-
2023
- 2023-05-08 CN CN202310506965.7A patent/CN116595227A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520780B (zh) | 一种基于迁移学习的医学数据处理和系统 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110633725B (zh) | 训练分类模型的方法和装置以及分类方法和装置 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110442722B (zh) | 分类模型训练的方法及装置、数据分类的方法及装置 | |
CN110297988A (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN104239858A (zh) | 一种人脸特征验证的方法和装置 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN109063478A (zh) | 可移植的可执行文件的病毒检测方法、装置、设备及介质 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN109492226B (zh) | 一种提高情感倾向占比低文本预断准确率的方法 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
CN117828110A (zh) | 基于车内语音交互模式的多媒体数据推荐方法及装置 | |
CN112182257A (zh) | 一种基于神经网络的人工智能数据清洗方法 | |
CN113705215A (zh) | 一种基于元学习的大规模多标签文本分类方法 | |
CN111831819B (zh) | 一种文本更新方法及装置 | |
CN116595227A (zh) | 一种基于热线数据提取通用知识的方法 | |
CN110750712A (zh) | 基于数据驱动的软件安全需求推荐方法 | |
CN110427964A (zh) | 一种基于互信息的多元时间序列变量选择方法 | |
CN113724779B (zh) | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 | |
CN111383716B (zh) | 基因对的筛选方法、装置、计算机设备和存储介质 | |
CN113934833A (zh) | 训练数据的获取方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |