CN112800219B - 客服日志反馈回流数据库的方法及系统 - Google Patents

客服日志反馈回流数据库的方法及系统 Download PDF

Info

Publication number
CN112800219B
CN112800219B CN202110070717.3A CN202110070717A CN112800219B CN 112800219 B CN112800219 B CN 112800219B CN 202110070717 A CN202110070717 A CN 202110070717A CN 112800219 B CN112800219 B CN 112800219B
Authority
CN
China
Prior art keywords
log
customer service
sample
database
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110070717.3A
Other languages
English (en)
Other versions
CN112800219A (zh
Inventor
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sushang Bank Co ltd
Nanjing Xingyun Digital Technology Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202110070717.3A priority Critical patent/CN112800219B/zh
Publication of CN112800219A publication Critical patent/CN112800219A/zh
Priority to CA3146125A priority patent/CA3146125A1/en
Application granted granted Critical
Publication of CN112800219B publication Critical patent/CN112800219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种客服日志反馈回流数据库的方法及系统,涉及人工智能技术领域,可以有效降低运维人员处理日志样本的工作量,提升处理效率。该方法包括:根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;针对客服日志预处理后得到待标注日志样本;将待标注日志样本进行聚合处理,分割成至少一个问句类簇;从每个问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库中。该系统应用有上述方案所提的方法。

Description

客服日志反馈回流数据库的方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种客服日志反馈回流数据库的方法及系统。
背景技术
在金融科技领域,智能对话机器人产品的应用,如智能客服、催收机器人、智能营销机器人等是提升金融服务能力,降低人力成本的重要组成部分。这些机器人产品在投入运营以后所产生的日志,对提高产品模型质量、促进产品技术迭代、提升产品服务效果具有重要意义。
在实际应用中,如何收集、存储客服日志,并且经过处理以后回流到客服系统,现有技术存在诸多不足之处。首先,在对话日志收集环节中的日志缺失,缺乏统一的管理和存储。其次,客服系统需要不断添加样本日志对知识库进行维护,但是目前基于手工添加的方式效率低下。
发明内容
本发明的目的在于提供一种客服日志反馈回流数据库的方法及系统,可以有效降低运维人员处理日志样本的工作量,提升处理效率。
为了实现上述目的,本发明的第一方面提供一种客服日志反馈回流数据库方法,包括:
根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;
针对所述客服日志预处理后得到待标注日志样本;
将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇;
从每个所述问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库。
优选地,在步骤根据预设的采集字段从客服系统中采集对应的咨询问句之前包括:
针对用户在客服系统中提出的咨询问句,基于预设的打标规则分别对各所述咨询问句进行编码打标。
较佳地,根据采集字段从客服系统中采集对应的咨询问句,形成客服日志的方法包括:
将所述编码作为采集字段,定时从客服系统中采集与采集字段编码一致的咨询问句形成客服日志;
采用接口或者消息队列的形式将所述客服日志发送至日志存储系统中保存。
进一步地,针对所述客服日志预处理后得到待标注日志样本的方法包括:
定时和/或定量从日志存储系统中抽取所述客服日志,构建待处理数据集;
从待处理数据集中依次抽取所述客服日志,删除日志长度小于阈值长度的客服日志;
从剩余的待处理数据集中依次抽取所述客服日志,删除数据库中已存在的客服日志;
从剩余的待处理数据集中依次抽取所述客服日志,采用纠错词典对所述客服日志做纠错处理;
从纠错后的待处理数据集中抽取所述客服日志,采用归一化文本编码的方式编码后得到与所述客服日志一一对应的待标注日志样本。
优选地,将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇的方法包括:
基于多个所述待标注日志样本的相似度,将其中互为相似的所述待标注日志样本聚合在一起形成问句类簇。
较佳地,从每个所述问句类簇中筛选出一个待标注日志样本的方法包括:
统计每个所述问句类簇中相同待标注日志样本的出现频率,筛选出频率最高的待标注日志样本。
优选地,聚合处理所采用的算法为单遍聚类算法。
优选地,分类标注后反馈回流至数据库中的方法包括:
所述数据库中包括多个标准日志样本以及对应的问题答案,或者同时包括与所述标准日志样本关联的相似日志样本;
若数据库中不存在与所述待标注日志样本相似的标准日志样本,则在编辑对应的问题答案后将所述待标注日志样本作为标准日志样本反馈回流至数据库中保存;
若数据库中存在与所述待标注日志样本相似的标准日志样本,则将所述待标注日志样本作为对应标准日志样本的相似日志样本反馈回流至数据库中保存。
与现有技术相比,本发明提供的客服日志反馈回流数据库方法具有以下有益效果:
本发明提供的客服日志反馈回流数据库方法中,首先根据采集字段设置埋点,从客服系统中采集所需要的咨询问句形成客服日志,然后针对这些客服日志预处理后得到待标注日志样本,接着将待标注日志样本进行聚合处理,基于待标注日志样本的相似度分割成多个问句类簇,从每个问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库。
可见,本发明不仅能够对客服系统中用户的咨询问句进行自动采集,而且还可以将标注后的日志样本自动存入数据库,并反馈回流至客服系统训练再利用。相对于现有技术方案,不仅可以有效降低运维人员对日志样本处理的工作量,而且由于标注完成的日志样本可以直接反馈回流至客服系统,因此还提升了客服系统回答问题的时效性和准确性。
本发明的第二方面提供一种客服日志反馈回流数据库系统,应用于上述技术方案所述的客服日志反馈回流数据库方法中,所述系统包括:
采集单元,用于根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;
处理单元,用于针对所述客服日志预处理后得到待标注日志样本;
聚合单元,用于将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇;
标注单元,用于从每个所述问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库中。
与现有技术相比,本发明提供的客服日志反馈回流数据库系统的有益效果与上述技术方案提供的客服日志反馈回流数据库方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述客服日志反馈回流数据库方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的客服日志反馈回流数据库方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中客服日志反馈回流数据库的方法的流程示意图;
图2为本发明实施例中客服日志反馈回流数据库系统的架构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1和图2,本实施例提供一种客服日志反馈回流数据库方法,包括:
根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;针对客服日志预处理后得到待标注日志样本;将待标注日志样本进行聚合处理,分割成至少一个问句类簇;从每个问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库。
本实施例提供的客服日志反馈回流数据库方法中,首先根据采集字段设置埋点,从客服系统中采集所需要的咨询问句形成客服日志,然后针对这些客服日志预处理后得到待标注日志样本,接着将待标注日志样本进行聚合处理,基于待标注日志样本的相似度分割成多个问句类簇,从每个问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库。
可见,本实施例不仅能够对客服系统中用户的咨询问句进行自动采集,而且还可以将标注后的日志样本自动存入数据库,并反馈回流至客服系统训练再利用。相对于现有技术方案,不仅可以有效降低运维人员对日志样本处理的工作量,而且由于标注完成的日志样本可以直接反馈回流至客服系统,因此还提升了客服系统回答问题的时效性和准确性。
上述实施例中,在步骤根据预设的采集字段从客服系统中采集对应的咨询问句之前包括:
针对用户在客服系统中提出的咨询问句,基于预设的打标规则分别对各咨询问句进行编码打标。
具体实施时,打标系统针对客服系统中用户提出的每个咨询问句进行打标,也即对每个咨询问句进行分类编码,示例性地,打标规则如下:
日志编码 触发规则 触发动作
111 触发初次算法无返回结果 固定话术
112 触发二次算法无返回结果 间接转人工
113 触发算法返回超时 间接转人工
201 相似问链接问题 ES全局检索
202 触发业务场景 转开发
203 错误场景信息 返回错误场景话术
206 分类检索-满足标准问阈值 返回第一条满足阈值问题
当用户在客服系统中提出咨询问句后,若咨询问句属于触发初次算法且无返回结果,客服系统自动通过固定话术回答咨询问句的情况,对于这类咨询问句编码打标为“111”;若咨询问句属于触发二次算法且无返回结果,客服系统间接转人工处理咨询问句的情况,对于这类咨询问句编码打标为“112”;若咨询问句属于触发算法返回超时,客服系统间接转人工处理咨询问句的情况,对于这类咨询问句编码打标为“113”;若咨询问句属于相似问链接问题,客服系统采用ES全局检索后返回问句答案,对于这类咨询问句编码打标为“201”;若咨询问句属于触发业务场景,客服系统间接转开发人员处理咨询问句的情况,对于这类咨询问句编码打标为“202”;若咨询问句属于触发业务场景,客服系统间接转开发人员处理咨询问句的情况,对于这类咨询问句编码打标为“202”;需要说明的是,运维人员可根据实际需要自由增减或修改上述打标规则,本实施例对此不做限制。
上述实施例中,根据采集字段从客服系统中采集对应的咨询问句,形成客服日志的方法包括:
将编码作为采集字段,定时从客服系统中采集与采集字段编码一致的咨询问句形成客服日志;采用接口或者消息队列的形式将客服日志发送至日志存储系统中保存。
具体实施时,针对不同阶段的日志可采用不同的编码字段进行采集,例如,采集编码打标为“111”咨询问句,只需通过编码埋点设置以“111”为采集字段,咨询问句的内容为值,自动采集客服系统中触发规则为“触发初次算法无返回结果”的全部咨询问句,得到相应的客服日志。然后采用接口/消息队列的形式,抛送至日志存储系统中保存。其中,日志存储系统可以根据客服系统的业务规模或客户访问量,灵活采用数据库或分布式文件系统进行存储。
上述实施例中,针对客服日志预处理后得到待标注日志样本的方法包括:
定时和/或定量从日志存储系统中抽取客服日志,构建待处理数据集;从待处理数据集中依次抽取客服日志,删除日志长度小于阈值长度的客服日志;从剩余的待处理数据集中依次抽取客服日志,删除数据库中已存在的客服日志;从剩余的待处理数据集中依次抽取客服日志,采用纠错词典对客服日志做纠错处理;从纠错后的待处理数据集中抽取客服日志,采用归一化文本编码的方式编码后得到与客服日志一一对应的待标注日志样本。
具体实施时,可以根据业务需求定期、定量的通过日志抽取模块从日志存储系统中抽取客服日志,形成待处理数据集,然后采用日志预处理模块执行对客服日志的预处理工作,包括但不限于日志去重、超短日志删除、编码归一化、文本纠错等。其中,超短日志删除是指删除掉日志文本长度小于阈值长度的客服日志;日志去重是判断当前抽取的客服日志是否在数据库中已存在,若存在则无需将相同的客服日志在数据库中重复存储,直接在待处理数据集中对该客服日志做剔除处理;文本纠错是指采用纠错词典对出现常见错误的客服日志做自动纠错处理,如替换错别字;经上述处理后,待处理数据集中保留下的客服日志均为有效的客服日志,最终采用归一化文本编码的方式编码后得到与待处理数据集中客服日志一一对应的待标注日志样本。经过上述处理后,原始的客服日志数据得到了进一步的优化,形成待聚类数据集,输出给聚类模块。
上述实施例中,将待标注日志样本进行聚合处理,分割成至少一个问句类簇的方法包括:
基于多个待标注日志样本的相似度,将其中互为相似的待标注日志样本聚合在一起形成问句类簇。
上述实施例中,从每个问句类簇中筛选出一个待标注日志样本的方法包括:
统计每个问句类簇中相同待标注日志样本的出现频率,筛选出频率最高的待标注日志样本。
具体实施时,聚类模块的主要作用是将预处理后的待标注样本按照相似度分割成若干个问句类簇,每个问句类簇中包括多个待标注样本,且每个待标注样本所表达的问句意思相同或相似,然后对每个问句类簇中的待标注日志样本按照出现频率进行排序,并从每个问句类簇中选择排序最高的一个待标注样本,返回到人工标注模板进行标注。本实施例通过聚类模块的设置,可以大幅度的减少样本日志的重复标注,提高标注效率。
优选地,上述实施例中聚合处理所采用的算法为单遍聚类算法(single-passclustering),该算法是一种简洁、高效的文本聚类算法。它不需要向k-means那样迭代每一个样本的状态,每个文本只需要流过算法一次,计算速度非常快,单遍聚类算法不需要指定类目数量,可以通过设定相似度阈值来限定聚类数量,因此聚类性能更加高效。
上述实施例中,分类标注后反馈回流至数据库中的方法包括:
数据库中包括多个标准日志样本以及对应的问题答案,或者同时包括与标准日志样本关联的相似日志样本;若数据库中不存在与待标注日志样本相似的标准日志样本,则在编辑对应的问题答案后将待标注日志样本作为标准日志样本反馈回流至数据库中保存;若数据库中存在与待标注日志样本相似的标准日志样本,则将待标注日志样本作为对应标准日志样本的相似日志样本反馈回流至数据库中保存。
优选地,上述实施例中数据库包括动态库和知识库,动态库用于保存时效性小于阈值天数的日志样本数据,知识库用于保存时效性大于阈值天数的日志样本数据。
具体实施时,采用样本标注模块对待标注日志样本进行分类标注,同时可提供一个样本标注前端工具供运维人员使用,通过加载聚类模块中的待标注日志样本,由人工或者程序自动完成标注操作,标注的内容包括编辑对应的问题答案以及在数据库中的存储路径,如存入动态库或者知识库。
其中,动态库适用于内容时效性短的咨询问句,用于快速解决未知问题及活动、促销等较短时效性的问题问答场景。动态库主要由存储日志样本数据的数据库,匹配知识的规则引擎,运维工具三部分组成。进入到动态库的日志样本数据,会根据规则引擎的配置,直接进行后续用户问答的规则匹配,供客服系统回流使用。也即动态库的应用属于热配置应用,配置后可立即生效。知识库适用于内容时效性较长的咨询问句,主要用于存储常规问题的日志样本数据,在时效性上相较于动态库要长,适用于较长时间内不会发生答案变化的问题。通过周期性的获取知识库的日志样本数据进行模型训练,可逐步提升客服系统对用户咨询问句识别的准确性。
综上,上述实施例提供了一套客服对话类机器人的日志存储挖掘与回流应用方案,基于此方案不仅可以完成对咨询问句的收集存储,还可将标注后的日志数据反馈回流至客服系统,不仅可以降低运维人员的工作量,而且可以提高客服系统回答咨询问句的时效性和准确性。本示例解决了如下问题:
1、本实施例提供了一种基于打标机制的日志数据收集方法和策略,通过对日志样本编码可辅助开发人员对日志样本的快速定位,可以为后续的系统逻辑和算法模型的效果评估和分析提供准确依据,同时也为日志样本的分类标准和应用提供了数据基础。
2、本实施例采用了基于single-pass的聚类方法并结合咨询问句的频率排序,筛选最优的待标注日志样本,过滤掉了大部分无用的待标注日志样本,提升了标注效率。
3、本实施例采用动态库+知识库的样本应用方案。针对已经标注的日志样本采用了上述两种应用策略,对于新问题和具有时效性的问题,采用动态库结合规则引擎,实现问题在客服系统中的即时生效方案,对于后续类似问题做到快速的问答响应,而对于时效性要求不高的咨询问句,则采用基于模型的周期性生效方案。通过两种方案的集合应用,不仅可以帮助客服系统及时反馈最新问题,提高客服系统问答的时效性;同时,也可以帮助客户系统的识别模型不断更新迭代,提高客服系统的问答准确率。
综上,上述实施例方案的应用能给业务方带来以下技术效果:
1、降低样本日志数据的获取难度,聚集于金融客服领域,通过前期实践发现,样本日志尤其是优良样本日志的获取是非常困难的,而样本日志又是提升识别模型的关键要素。因此,基于上述方案提供的日志记录、日志处理、日志标注、日志回流方案,可以极大的降低优良样本日志的获取难度。
2、提升了样本日志的标注效率,样本日志的标注是一项简单但又繁琐的过程,该方案所提供的日志聚类、样本筛选功能,不但可以通过快速聚类的方法缩减日志处理时间,通过聚类结果大幅缩小可标注样本的范围,同时基于方便快捷的样本标注工具,可以简单快捷的将待标注的样本进行标注处理,大幅提高了样本标注的效率。
3、提升了客服系统问答的时效性和准确率,对于用户经常咨询但客服系统无法给出准确答案的咨询问句,可以及时的反馈回数据库进行标注,从而提高客服系统的回答准确性,减少人工客服的工作量。
实施例二
本实施例提供一种客服日志反馈回流数据库系统,包括:
采集单元,用于根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;
处理单元,用于针对所述客服日志预处理后得到待标注日志样本;
聚合单元,用于将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇;
标注单元,用于从每个所述问句类簇中筛选出一个待标注日志样本,分类标注后反馈回流至数据库。
与现有技术相比,本发明实施例提供的客服日志反馈回流数据库系统的有益效果与上述实施例一提供的客服日志反馈回流数据库方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述客服日志反馈回流数据库方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的客服日志反馈回流数据库方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种客服日志反馈回流数据库方法,其特征在于,包括:根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;
定时和/或定量从日志存储系统中抽取所述客服日志,构建待处理数据集;
对所述待处理数据集进行预处理操作后得到待标注日志样本,所述预处理操作包括但不限于依次对所述待处理数据集中的客服日志进行超短客服日志删除、客服日志去重、文本纠错以及编码归一化操作;
将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇;
统计每个所述问句类簇中相同待标注日志样本的出现频率,筛选出频率最高的待标注日志样本;
确定数据库中是否存在与所述待标注日志样本相似的标准日志样本;其中,所述数据库中包括多个标准日志样本以及对应的问题答案,或者同时包括与所述标准日志样本关联的相似日志样本;
若数据库中不存在与所述待标注日志样本相似的标准日志样本,则在编辑对应的问题答案后将所述待标注日志样本作为标准日志样本反馈回流至数据库中保存;
若数据库中存在与所述待标注日志样本相似的标准日志样本,则将所述待标注日志样本作为对应标准日志样本的相似日志样本反馈回流至数据库中保存。
2.根据权利要求1所述的方法,其特征在于,在步骤根据预设的采集字段从客服系统中采集对应的咨询问句之前包括:
针对用户在客服系统中提出的咨询问句,基于预设的打标规则分别对各所述咨询问句进行编码打标。
3.根据权利要求2所述的方法,其特征在于,根据采集字段从客服系统中采集对应的咨询问句,形成客服日志的方法包括:
将所述编码作为采集字段,定时从客服系统中采集与采集字段编码一致的咨询问句形成客服日志;
采用接口或者消息队列的形式将所述客服日志发送至日志存储系统中保存。
4.根据权利要求3所述的方法,其特征在于,对所述待处理数据集进行预处理操作后得到待标注日志样本,所述预处理操作包括但不限于依次对所述待处理数据集中的客服日志进行超短客服日志删除、客服日志去重、文本纠错以及编码归一化操作,包括:
从待处理数据集中依次抽取所述客服日志,删除日志长度小于阈值长度的客服日志;
从剩余的待处理数据集中依次抽取所述客服日志,删除数据库中已存在的客服日志;
从剩余的待处理数据集中依次抽取所述客服日志,采用纠错词典对所述客服日志做纠错处理;
从纠错后的待处理数据集中抽取所述客服日志,采用归一化文本编码的方式编码后得到与所述客服日志一一对应的待标注日志样本。
5.根据权利要求1或4所述的方法,其特征在于,将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇的方法包括:
基于多个所述待标注日志样本的相似度,将其中互为相似的所述待标注日志样本聚合在一起形成问句类簇。
6.根据权利要求1所述的方法,其特征在于,聚合处理所采用的算法为单遍聚类算法。
7.根据权利要求1所述的方法,其特征在于,所述数据库包括动态库和知识库,所述动态库用于保存时效性小于阈值天数的日志样本数据,所述知识库用于保存时效性大于阈值天数的日志样本数据。
8.一种客服日志反馈回流数据库系统,其特征在于,包括:
采集单元,用于根据采集字段从客服系统中采集对应的咨询问句,形成客服日志;
处理单元,用于定时和/或定量从日志存储系统中抽取所述客服日志,构建待处理数据集;对所述待处理数据集进行预处理操作后得到待标注日志样本,所述预处理操作包括但不限于依次对所述待处理数据集中的客服日志进行超短客服日志删除、客服日志去重、文本纠错以及编码归一化操作;
聚合单元,用于将所述待标注日志样本进行聚合处理,分割成至少一个问句类簇;
标注单元,用于统计每个所述问句类簇中相同待标注日志样本的出现频率,筛选出频率最高的待标注日志样本;确定数据库中是否存在与所述待标注日志样本相似的标准日志样本,其中,所述数据库中包括多个标准日志样本以及对应的问题答案,或者同时包括与所述标准日志样本关联的相似日志样本;若数据库中不存在与所述待标注日志样本相似的标准日志样本,则在编辑对应的问题答案后将所述待标注日志样本作为标准日志样本反馈回流至数据库中保存;若数据库中存在与所述待标注日志样本相似的标准日志样本,则将所述待标注日志样本作为对应标准日志样本的相似日志样本反馈回流至数据库中保存。
CN202110070717.3A 2021-01-19 2021-01-19 客服日志反馈回流数据库的方法及系统 Active CN112800219B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110070717.3A CN112800219B (zh) 2021-01-19 2021-01-19 客服日志反馈回流数据库的方法及系统
CA3146125A CA3146125A1 (en) 2021-01-19 2022-01-19 Method and system for returning customer service log feedback to database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110070717.3A CN112800219B (zh) 2021-01-19 2021-01-19 客服日志反馈回流数据库的方法及系统

Publications (2)

Publication Number Publication Date
CN112800219A CN112800219A (zh) 2021-05-14
CN112800219B true CN112800219B (zh) 2022-12-30

Family

ID=75810603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110070717.3A Active CN112800219B (zh) 2021-01-19 2021-01-19 客服日志反馈回流数据库的方法及系统

Country Status (2)

Country Link
CN (1) CN112800219B (zh)
CA (1) CA3146125A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009193A (zh) * 2022-04-29 2023-11-07 青岛海尔科技有限公司 日志的处理方法和装置、存储介质及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066541A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 客服问答数据的处理方法及系统
CN111949772A (zh) * 2019-05-17 2020-11-17 上海戈吉网络科技有限公司 一种智能客服与知识库系统及管理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918640A (zh) * 2017-10-20 2018-04-17 阿里巴巴集团控股有限公司 样本确定方法及装置
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066541A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 客服问答数据的处理方法及系统
CN111949772A (zh) * 2019-05-17 2020-11-17 上海戈吉网络科技有限公司 一种智能客服与知识库系统及管理方法

Also Published As

Publication number Publication date
CA3146125A1 (en) 2022-07-19
CN112800219A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN111444236B (zh) 一种基于大数据的移动终端用户画像构建方法及系统
CN112800113B (zh) 一种基于数据挖掘分析技术的招投标审计方法及系统
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN106649557B (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN111026870A (zh) 一种综合文本分类和图像识别的ict系统故障分析方法
CN115630843A (zh) 合同条款自动审核方法及系统
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN111782806A (zh) 一种基于人工智能算法的相似上市企业检索分类方法及系统
CN114491034B (zh) 一种文本分类方法及智能设备
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
CN116127105B (zh) 一种大数据平台的数据汇集方法及装置
CN117592450A (zh) 基于员工信息整合的全景档案生成方法及系统
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
CN116703328A (zh) 一种项目评审方法及系统
CN115936748A (zh) 一种商业大数据分析方法及系统
CN114416848A (zh) 基于数据仓库的数据血缘关系处理方法及装置
CN114328903A (zh) 基于文本聚类的客服日志回流方法及装置
CN113342844A (zh) 工业智能搜索系统
CN113254612A (zh) 知识问答处理方法、装置、设备及存储介质
CN112329883A (zh) 模型训练系统、方法、设备及存储介质
CN113139106B (zh) 一种保密检查的事件审核方法和装置
CN111339239B (zh) 知识检索方法及装置、存储介质、服务器
CN112712177A (zh) 一种基于协同处理的知识工程方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 834, Yingying building, No.99, Tuanjie Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province

Patentee after: Nanjing Xingyun Digital Technology Co.,Ltd.

Country or region after: China

Address before: Room 834, Yingying building, No.99, Tuanjie Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province

Patentee before: Suning financial technology (Nanjing) Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right

Effective date of registration: 20240619

Address after: The 7th, 8th, 9th, 27th, 28th, and 29th floors of Building 4, No. 248 Lushan Road, Jianye District, Nanjing City, Jiangsu Province, 210000, and the 1st and 2nd floors of the podium of Building 4

Patentee after: Jiangsu Sushang Bank Co.,Ltd.

Country or region after: China

Address before: Room 834, Yingying building, No.99, Tuanjie Road, yanchuangyuan, Jiangbei new district, Nanjing, Jiangsu Province

Patentee before: Nanjing Xingyun Digital Technology Co.,Ltd.

Country or region before: China