CN109189901A - 一种智能客服系统中自动发现新分类以及对应语料的方法 - Google Patents
一种智能客服系统中自动发现新分类以及对应语料的方法 Download PDFInfo
- Publication number
- CN109189901A CN109189901A CN201810901452.5A CN201810901452A CN109189901A CN 109189901 A CN109189901 A CN 109189901A CN 201810901452 A CN201810901452 A CN 201810901452A CN 109189901 A CN109189901 A CN 109189901A
- Authority
- CN
- China
- Prior art keywords
- corpus
- cluster
- class
- vector
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明公开了一种智能客服系统中自动发现新分类以及对应语料的方法,包括以下步骤:使用大规模标注语料,采用神经网络模型,建立一个分类器,并基于该分类器构造句向量模型;使用其他公开数据集或者会话语料训练得到词向量;针对所有无标注语料集合进行语料清洗和打分排序,过滤掉噪声数据获得候选余料;对候选语料提取一系列特征,用于后续聚类;对候选语料进行聚类;对得到的候选语料的中每个类簇筛选;对得到的有效类簇集合生成新分类类别名及推荐问。可以自动的收集系统无法应答的用户语料,找出业务相关的有明确用户意图的语料,同时给出每条语料的意图分类标签,然后输出展示给企业用户,满足智能客服知识的自动发现需求。
Description
技术领域
本发明涉及智能客服领域,具体是一种智能客服系统中自动发现新分类以及对应语料的方法。
背景技术
在智能客服系统中,随着业务和用户的增加,会不断出现带有新的意图的咨询问题,智能客服系统中,为了从无法应答语料寻找用户意图以及相关语料,一般采用如下方法:通过从线上收集相关语料,保存到线下,由数;据分析师初步分析问题的业务相关性后,再交给标注人员进行标注审核,交给数据分析师进行分析,从而得到有效的新用户意图和对应的语料,同时找出用户推荐问等数据,再上传到线上系统。
需要人工将语料从线上导出到线下,处理标记完成再导回到线上。
现有技术手段主要是以人工标记为主,仍然依赖大量的人力工作,同时需要转业的数据分析师和标注人员。
人工标记成本高昂,一般小公司难以承担;
人工标记效率低下,为了准确找出用户意图和对应的语料,需要耗费大量工时;
人工标记时效性差,等到相应的数据分析师和标注人员能够响应时,此时未识别到用户意图的问题可能已经对智能客服系统的解决率等指标产生了严重的影响,并且语料内容本身可能已经过时;
人工标记质量不保证,不同标记人员的素质和对数据的理解,将直接导致标记样本的质量不一。
发明内容
本发明的目的在于提供一种智能客服系统中自动发现新分类以及对应语料的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种智能客服系统中自动发现新分类以及对应语料的方法,包括以下步骤:
步骤S01:使用大规模标注语料,采用神经网络模型,建立一个分类器,并基于该分类器构造句向量模型;
步骤S02:使用其他公开数据集或者会话语料训练得到词向量;
步骤S03:针对所有无标注语料集合进行语料清洗和打分排序,过滤掉噪声数据获得候选余料;
步骤S04:对候选语料提取一系列特征,用于后续聚类;
步骤S05:对候选语料进行聚类;
步骤S06:对S05步骤中得到的候选语料的中每个类簇筛选;
步骤S07:对S06步骤得到的有效类簇集合生成新分类类别名及推荐问。
作为本发明进一步的方案:构造句向量模型的方法如下:
S01-1,搭建一种基于神经网络的多分类器,该分类模型包含Embedding层、NN层、全连接层以及输出层,其中输出层参数由语料的总体类别决定;NN层为BILSTM、LSTM、GRU、CNN中的一种或几种组合而成,全连接层可包含一层或多层,且最后一层全连接层为句向量层。
S01-2,使用标注语料进行训练,得到多分类模型;
S01-3,将多分类模型的输出层去除,得到句向量模型。
作为本发明进一步的方案:过滤方法步骤如下:
S03-1,过滤掉不包含中文的语料;
S03-2,使用Okapi BM25、TFIDF一种或两种算法,对每一条语料进行打分,然后根据分值按照降序进行排列,选择一定比例的语料,作为后续步骤的候选语料。
作为本发明进一步的方案:候选语料提取方法如下:
S04-1,使用TFIDF算法获得文本向量,然后使用PCA进行降维,或直接使用TFIDF特征;
S04-2,使用主题模型LDA训练语料,得到每个样本的主题特征;
S04-3,使用下面两种方式之一得到句向量:
使用S01得到句向量模型,输入分词后的候选语料,得到每条语料的句向量;
对语料进行分词后,使用S02得到词向量模型,查询得到每个词的词向量,然后针对每条语料,对该条语料的每个词的词向量进行累加或者求平均,得到句向量。
作为本发明进一步的方案:聚类方法如下:
S05-1,在TFIDF特征和主题特征中选择0,1或2个,与句向量特征组合到一起,作为下一步聚类的特征,或者直接计算,得到文本之间的距离,聚类所用特征选择使用两种方式任意一种或者两种都使用,两种方法分别如下:
直接将多种特征进行拼接;
每个特征计算各自的距离后,以一定的权重累加后作为句子之间的距离;
S05-2,使用上一步得到的文本特征或者距离,使用某种聚类算法,完成候选语料的聚类。
作为本发明进一步的方案:候选语料的中每个类簇筛选方法如下:
S06-1,计算类簇内每条语料到其簇中心向量的距离,然后对距离求均值,作为整个类簇的打分;
S06-2,统计每个类簇的样本个数;针对类簇样本个数和每个了类簇的打分,选择合适的阈值,对类簇进行筛选,得到最终的有效类簇。
作为本发明再进一步的方案:针对S06得到的有效类簇集合的每一个簇,生成新分类类别名及推荐问的方法:
S07-1,按照语料到其簇中心的距离,对语料进行升序排序;
S07-2,为新发现的分类自动生成分类名,采用抽取式实现,有如下两种方式:
抽取句子,选择离簇中心距离最短的5个句子,遍历每条句子,当句子去除停用词后,其长度大于0,则使用该句作为该类簇的用户意图;
抽取关键词,使用互信息和公共子串,使用一定的熵门限,找出最大公共非连续子串,作为新的用户意图;
S07-3,采用S07-2中抽取句子的方式,为该类簇找出推荐问。
与现有技术相比,本发明的有益效果是:可以自动的收集系统无法应答的用户语料,找出业务相关的有明确用户意图的语料,同时给出每条语料的意图分类标签,然后输出展示给企业用户,满足智能客服知识的自动发现需求。
整体而言,因为整个无法应答语料的意图类别生成过程可以通过一套软件程序实现,一旦运行不再需要投入人工成本,所以能节约大量人力资源,同时极大提高了语料的筛选标记效率。
附图说明
图1为一种智能客服系统中自动发现新分类以及对应语料的方法的流程示意图。
图2为一种智能客服系统中自动发现新分类以及对应语料的方法的应用流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中,一种智能客服系统中自动发现新分类以及对应语料的方法,包括以下步骤:
步骤S01:使用大规模标注语料,采用神经网络模型,建立一个分类器,并基于该分类器构造句向量模型,其构建方法如下:
S01-1,搭建一种基于神经网络的多分类器,该分类模型包含Embedding层、NN层、全连接层以及输出层,其中输出层参数由语料的总体类别决定,NN层为BILSTM、LSTM、GRU、CNN中的一种或几种组合而成,全连接层可包含一层或多层,且最后一层全连接层为句向量层。
S01-2,使用标注语料进行训练,得到多分类模型。
S01-3,将多分类模型的输出层去除,得到句向量模型。
步骤S02:使用其他公开数据集或者会话语料训练得到词向量。
步骤S03:针对所有无标注语料集合进行语料(即智能客服系统中,无法应答的用户问题集合)清洗和打分排序,过滤掉噪声数据;过滤方法步骤如下:
S03-1,过滤掉不包含中文的语料。
S03-2,使用Okapi BM25、TFIDF一种或两种算法,对每一条语料进行打分,然后根据分值按照降序进行排列,选择一定比例的语料,作为后续步骤的候选语料。
步骤S04:对候选语料提取一系列特征,用于后续聚类,提取方法如下:
S04-1,使用TFIDF算法获得文本向量,然后可选择使用PCA进行降维,亦可以直接使用TFIDF特征。
S04-2,使用主题模型LDA训练语料,得到每个样本的主题特征。
S04-3,使用下面两种方式之一得到句向量:
使用S01得到句向量模型,输入分词后的候选语料,得到每条语料的句向量。
对语料进行分词后,使用S02得到词向量模型,查询得到每个词的词向量,然后针对每条语料,对该条语料的每个词的词向量进行累加或者求平均,得到句向量。
步骤S05:对候选语料进行聚类,聚类方法如下:
S05-1,在TFIDF特征和主题特征中选择0,1或2个,与句向量特征组合到一起,作为下一步聚类的特征,或者直接计算,得到文本之间的距离,聚类所用特征选择使用两种方式任意一种或者两种都使用,两种方法分别如下:
直接将多种特征进行拼接。
每个特征计算各自的距离(距离计算方式可选择cosin距离,欧式距离等各种计算向量距离的某一种)后,以一定的权重累加后作为句子之间的距离。
S05-2,使用上一步得到的文本特征或者距离,使用某种聚类算法(如kmeans,层次式聚类,谱聚类等),完成候选语料的聚类。
步骤S06:对S05步骤中得到的候选语料的中每个类簇筛选,执行如下操作:
S06-1,计算类簇内每条语料到其簇中心向量的距离,然后对距离求均值,作为整个类簇的打分;
S06-2,统计每个类簇的样本个数。针对类簇样本个数和每个了类簇的打分,选择合适的阈值,对类簇进行筛选,得到最终的有效类簇。
步骤S07:对S06步骤得到的有效类簇集合,针对其中的每一个簇,执行以下操作:
S07-1,按照语料到其簇中心的距离,对语料进行升序排序。
S07-2,为新发现的分类自动生成分类名,采用抽取式实现,有如下两种方式:
抽取句子,选择top5的句子,即离簇中心距离最短的5个句子,遍历每条句子,当句子去除停用词后,其长度大于0,则使用该句作为该类簇的用户意图。
抽取关键词,使用互信息和公共子串,使用一定的熵门限,找出最大公共非连续子串,作为新的用户意图。
S07-3,采用S07-2中抽取句子的方式,为该类簇找出推荐问。
经过以上算法步骤后,不需要人工干预,即可以从智能客服系统日志中大量无法识别出用户意图的语料中筛选出符合机器学习解问题空间所需要的,有效的带标记机器学习样本,且整个过程可以流程化,自动化,持续化,节约大量成本。
下面如图2,智能客服系统中常见的对无法应答的用户问题进行标注为例,应用本发明阐述的方式,对智能客服聊天日志中出现的无法应答的语料,进行有效的聚类等手段,过滤出有明确业务意图的语料,进行用户意图的标注,得到可用于意图分类的语料。
使用大规模标注语料,采用神经网络模型,建立一个分类器,并基于该分类器构造句向量模型,具体如下:
1-1 尽可能得收集各个行业用户问题语料,同时需要带有用户意图标注。
1-2 搭建一种基于神经网络的多分类器,该分类模型包含Embedding层,NN层,全连接层以及输出层,其中输出层参数由语料的总体类别决定,NN层为BILSTM,LSTM,GRU,CNN中的一种或几种组合而成,全连接层可包含一层或多层,且最后一层全连接层为句向量层。使用标注语料进行训练,得到多分类模型。
1-3 将多分类模型的输出层去除,得到句向量模型。
2-1 定期收集智能客服系统中无法解答的用户问题。
2-2 针对所有无法应答语料,过滤掉不包含中文的语料,然后使用Okapi BM25,tfidf某一种或两种算法,对每一条语料进行打分,然后根据分值按照降序进行排列,选择一定比例的语料,作为后续步骤的候选语料。
2-3 对候选语料提取TFIDF,主题特征,句向量等一系列特征。
2-4 使用上一步提取到的,使用某种聚类算法,完成候选语料的聚类。
2-5 对得到的聚类结果,统计计算类簇内语料个数和类簇内语料与类簇中心的平均距离等,对类簇进行过滤。
2-6 针对每个类簇,根据类簇内每个语料与类簇中心的距离,选出top句子作为分类名候选集,通过规则确定分类名,并输出到候选知识库。
2-7 由用户确认候选知识库是否符合真实业务,若符合,则交给用户意图识别模型训练。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (8)
1.一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,包括以下步骤:
步骤S01:使用大规模标注语料,采用神经网络模型,建立一个分类器,并基于该分类器构造句向量模型;
步骤S02:使用其他公开数据集或者会话语料训练得到词向量;
步骤S03:针对所有无标注语料集合进行语料清洗和打分排序,过滤掉噪声数据获得候选余料;
步骤S04:对候选语料提取一系列特征,用于后续聚类;
步骤S05:对候选语料进行聚类;
步骤S06:对S05步骤中得到的候选语料的中每个类簇筛选;
步骤S07:对S06步骤得到的有效类簇集合生成新分类类别名及推荐问。
2.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,构造句向量模型的方法如下:
S01-1,搭建一种基于神经网络的多分类器,该分类模型包含Embedding层、NN层、全连接层以及输出层,其中输出层参数由语料的总体类别决定;
S01-2,使用标注语料进行训练,得到多分类模型;
S01-3,将多分类模型的输出层去除,得到句向量模型。
3.根据权利要求2所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,NN层为BILSTM、LSTM、GRU、CNN中的一种或几种组合而成,全连接层可包含一层或多层,且最后一层全连接层为句向量层。
4.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,过滤方法步骤如下:
S03-1,过滤掉不包含中文的语料;
S03-2,使用Okapi BM25、TFIDF一种或两种算法,对每一条语料进行打分,然后根据分值按照降序进行排列,选择一定比例的语料,作为后续步骤的候选语料。
5.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,候选语料提取方法如下:
S04-1,使用TFIDF算法获得文本向量,然后使用PCA进行降维,或直接使用TFIDF特征;
S04-2,使用主题模型LDA训练语料,得到每个样本的主题特征;
S04-3,使用下面两种方式之一得到句向量:
使用S01得到句向量模型,输入分词后的候选语料,得到每条语料的句向量;
对语料进行分词后,使用S02得到词向量模型,查询得到每个词的词向量,然后针对每条语料,对该条语料的每个词的词向量进行累加或者求平均,得到句向量。
6.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,聚类方法如下:
S05-1,在TFIDF特征和主题特征中选择0,1或2个,与句向量特征组合到一起,作为下一步聚类的特征,或者直接计算,得到文本之间的距离,聚类所用特征选择使用两种方式任意一种或者两种都使用,两种方法分别如下:
直接将多种特征进行拼接;
每个特征计算各自的距离后,以一定的权重累加后作为句子之间的距离;
S05-2,使用上一步得到的文本特征或者距离,使用某种聚类算法,完成候选语料的聚类。
7.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,候选语料的中每个类簇筛选方法如下:
S06-1,计算类簇内每条语料到其簇中心向量的距离,然后对距离求均值,作为整个类簇的打分;
S06-2,统计每个类簇的样本个数;针对类簇样本个数和每个了类簇的打分,选择合适的阈值,对类簇进行筛选,得到最终的有效类簇。
8.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法,其特征在于,针对S06得到的有效类簇集合的每一个簇,生成新分类类别名及推荐问的方法:
S07-1,按照语料到其簇中心的距离,对语料进行升序排序;
S07-2,为新发现的分类自动生成分类名,采用抽取式实现,有如下两种方式:
抽取句子,选择离簇中心距离最短的5个句子,遍历每条句子,当句子去除停用词后,其长度大于0,则使用该句作为该类簇的用户意图;
抽取关键词,使用互信息和公共子串,使用一定的熵门限,找出最大公共非连续子串,作为新的用户意图;
S07-3,采用S07-2中抽取句子的方式,为该类簇找出推荐问。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810901452.5A CN109189901B (zh) | 2018-08-09 | 2018-08-09 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810901452.5A CN109189901B (zh) | 2018-08-09 | 2018-08-09 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189901A true CN109189901A (zh) | 2019-01-11 |
CN109189901B CN109189901B (zh) | 2021-05-18 |
Family
ID=64921172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810901452.5A Active CN109189901B (zh) | 2018-08-09 | 2018-08-09 | 一种智能客服系统中自动发现新分类以及对应语料的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189901B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297909A (zh) * | 2019-07-05 | 2019-10-01 | 中国工商银行股份有限公司 | 一种无标签语料的分类方法及装置 |
CN110442692A (zh) * | 2019-07-25 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种用于问题派单及其训练的方法和装置 |
CN110442716A (zh) * | 2019-08-05 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 智能文本数据处理方法和装置、计算设备、存储介质 |
CN110647914A (zh) * | 2019-08-14 | 2020-01-03 | 深圳壹账通智能科技有限公司 | 智能服务水平训练方法、装置及计算机可读存储介质 |
CN110909162A (zh) * | 2019-11-15 | 2020-03-24 | 龙马智芯(珠海横琴)科技有限公司 | 文本质检的方法、存储介质及电子设备 |
CN110990562A (zh) * | 2019-10-29 | 2020-04-10 | 新智认知数字科技股份有限公司 | 警情分类方法及其系统 |
CN111026884A (zh) * | 2019-12-12 | 2020-04-17 | 南昌众荟智盈信息技术有限公司 | 一种提升人机交互对话语料质量与多样性的对话语料库生成方法 |
CN111079448A (zh) * | 2019-12-31 | 2020-04-28 | 出门问问信息科技有限公司 | 一种意图识别方法及装置 |
CN111339303A (zh) * | 2020-03-06 | 2020-06-26 | 成都晓多科技有限公司 | 一种基于聚类与自动摘要的文本意图归纳方法及装置 |
CN111552789A (zh) * | 2020-04-27 | 2020-08-18 | 中国银行股份有限公司 | 一种客服知识库自学习方法及装置 |
CN111708880A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 类簇的识别系统及方法 |
CN111914179A (zh) * | 2020-08-19 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 基于语义的模糊搜索方法和装置、存储介质及电子设备 |
CN112148874A (zh) * | 2020-07-07 | 2020-12-29 | 四川长虹电器股份有限公司 | 可自动新增用户潜在意图的意图识别方法及系统 |
CN112364159A (zh) * | 2019-07-26 | 2021-02-12 | 北京中关村科金技术有限公司 | 对文本进行分类的方法、装置以及存储介质 |
CN112487144A (zh) * | 2020-11-30 | 2021-03-12 | 北京天润融通科技股份有限公司 | 多轮对话机器人意图命中优化方法及装置 |
CN113127611A (zh) * | 2019-12-31 | 2021-07-16 | 北京中关村科金技术有限公司 | 对问句语料进行处理的方法、装置以及存储介质 |
US20230070497A1 (en) * | 2021-09-03 | 2023-03-09 | Salesforce.Com, Inc. | Systems and methods for explainable and factual multi-document summarization |
CN111552789B (zh) * | 2020-04-27 | 2024-05-10 | 中国银行股份有限公司 | 一种客服知识库自学习方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
US20160078135A1 (en) * | 2013-04-28 | 2016-03-17 | Hithink Royalflush Information Network Co., Ltd. | Query selection method and system |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
CN106997375A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 基于深度学习的客服回复推荐方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107329967A (zh) * | 2017-05-12 | 2017-11-07 | 北京邮电大学 | 基于深度学习的问答系统以及方法 |
CN107656948A (zh) * | 2016-11-14 | 2018-02-02 | 平安科技(深圳)有限公司 | 自动问答系统中的问题聚类处理方法及装置 |
-
2018
- 2018-08-09 CN CN201810901452.5A patent/CN109189901B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207860A (zh) * | 2012-01-11 | 2013-07-17 | 北大方正集团有限公司 | 舆情事件的实体关系抽取方法和装置 |
US20160078135A1 (en) * | 2013-04-28 | 2016-03-17 | Hithink Royalflush Information Network Co., Ltd. | Query selection method and system |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
CN107656948A (zh) * | 2016-11-14 | 2018-02-02 | 平安科技(深圳)有限公司 | 自动问答系统中的问题聚类处理方法及装置 |
CN106997375A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 基于深度学习的客服回复推荐方法 |
CN107329967A (zh) * | 2017-05-12 | 2017-11-07 | 北京邮电大学 | 基于深度学习的问答系统以及方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297909A (zh) * | 2019-07-05 | 2019-10-01 | 中国工商银行股份有限公司 | 一种无标签语料的分类方法及装置 |
CN110297909B (zh) * | 2019-07-05 | 2021-07-02 | 中国工商银行股份有限公司 | 一种无标签语料的分类方法及装置 |
CN110442692A (zh) * | 2019-07-25 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种用于问题派单及其训练的方法和装置 |
CN112364159A (zh) * | 2019-07-26 | 2021-02-12 | 北京中关村科金技术有限公司 | 对文本进行分类的方法、装置以及存储介质 |
CN110442716A (zh) * | 2019-08-05 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 智能文本数据处理方法和装置、计算设备、存储介质 |
CN110647914A (zh) * | 2019-08-14 | 2020-01-03 | 深圳壹账通智能科技有限公司 | 智能服务水平训练方法、装置及计算机可读存储介质 |
CN110990562A (zh) * | 2019-10-29 | 2020-04-10 | 新智认知数字科技股份有限公司 | 警情分类方法及其系统 |
CN110990562B (zh) * | 2019-10-29 | 2022-08-26 | 新智认知数字科技股份有限公司 | 警情分类方法及其系统 |
CN110909162A (zh) * | 2019-11-15 | 2020-03-24 | 龙马智芯(珠海横琴)科技有限公司 | 文本质检的方法、存储介质及电子设备 |
CN111026884A (zh) * | 2019-12-12 | 2020-04-17 | 南昌众荟智盈信息技术有限公司 | 一种提升人机交互对话语料质量与多样性的对话语料库生成方法 |
CN113127611B (zh) * | 2019-12-31 | 2024-05-14 | 北京中关村科金技术有限公司 | 对问句语料进行处理的方法、装置以及存储介质 |
CN111079448A (zh) * | 2019-12-31 | 2020-04-28 | 出门问问信息科技有限公司 | 一种意图识别方法及装置 |
CN113127611A (zh) * | 2019-12-31 | 2021-07-16 | 北京中关村科金技术有限公司 | 对问句语料进行处理的方法、装置以及存储介质 |
CN111339303A (zh) * | 2020-03-06 | 2020-06-26 | 成都晓多科技有限公司 | 一种基于聚类与自动摘要的文本意图归纳方法及装置 |
CN111339303B (zh) * | 2020-03-06 | 2023-08-22 | 成都晓多科技有限公司 | 一种基于聚类与自动摘要的文本意图归纳方法及装置 |
CN111552789A (zh) * | 2020-04-27 | 2020-08-18 | 中国银行股份有限公司 | 一种客服知识库自学习方法及装置 |
CN111552789B (zh) * | 2020-04-27 | 2024-05-10 | 中国银行股份有限公司 | 一种客服知识库自学习方法及装置 |
CN111708880A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 类簇的识别系统及方法 |
CN112148874A (zh) * | 2020-07-07 | 2020-12-29 | 四川长虹电器股份有限公司 | 可自动新增用户潜在意图的意图识别方法及系统 |
CN111914179B (zh) * | 2020-08-19 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 基于语义的模糊搜索方法和装置、存储介质及电子设备 |
CN111914179A (zh) * | 2020-08-19 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 基于语义的模糊搜索方法和装置、存储介质及电子设备 |
CN112487144A (zh) * | 2020-11-30 | 2021-03-12 | 北京天润融通科技股份有限公司 | 多轮对话机器人意图命中优化方法及装置 |
US20230070497A1 (en) * | 2021-09-03 | 2023-03-09 | Salesforce.Com, Inc. | Systems and methods for explainable and factual multi-document summarization |
US11699026B2 (en) * | 2021-09-03 | 2023-07-11 | Salesforce, Inc. | Systems and methods for explainable and factual multi-document summarization |
Also Published As
Publication number | Publication date |
---|---|
CN109189901B (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189901A (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN109783639B (zh) | 一种基于特征提取的调解案件智能分派方法及系统 | |
US10565233B2 (en) | Suffix tree similarity measure for document clustering | |
CN106650273B (zh) | 一种行为预测方法和装置 | |
CN105095223B (zh) | 文本分类方法及服务器 | |
CN106202211B (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN107220295A (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
CN107451748A (zh) | 一种客户关系管理系统中客户公海管理方法 | |
CN108596038B (zh) | 一种结合形态学分割和神经网络的粪便中红细胞识别方法 | |
Hitesh et al. | Real-time sentiment analysis of 2019 election tweets using word2vec and random forest model | |
CN109165294A (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN107273295B (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN105069080B (zh) | 一种文献检索方法及系统 | |
CN106777232A (zh) | 问答抽取方法、装置及终端 | |
CN109634994A (zh) | 一种简历与职位的匹配推送方法及计算机设备和存储介质 | |
CN101876987A (zh) | 一种面向类间交叠的两类文本分类方法 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN109214446A (zh) | 潜力绩优人员类型识别方法、系统、终端及计算机可读存储介质 | |
CN108027814A (zh) | 停用词识别方法与装置 | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN110472257A (zh) | 一种基于句对的机器翻译引擎测评优选方法及系统 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN108268886A (zh) | 用于识别外挂操作的方法及系统 | |
CN101719924B (zh) | 基于群件理解的不良彩信过滤方法 | |
CN109344248B (zh) | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |