CN115203240A

CN115203240A - 一种基于通话数据检索的总线消息处理系统

Info

Publication number: CN115203240A
Application number: CN202211111015.6A
Authority: CN
Inventors: 邵珠峰; 许芬; 吴迪; 张瑶; 连英群
Original assignee: Yongding Xingyuan Nanjing Information Technology Co ltd
Current assignee: Yongding Xingyuan Nanjing Information Technology Co ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-10-18
Anticipated expiration: 2042-09-13
Also published as: CN115203240B

Abstract

本发明涉及信息处理领域，尤其涉及一种基于通话数据检索的总线消息处理系统，本发明通过设置数据获取模块，数据存储模块，数据处理模块以及数据输出模块，通过将预设时段内通话信息转化为文本信息并对关键词进行提取，根据关键词的关联关系建立关联数据集合，计算关联数据集合对应的关键词匹配系数以表征关键词与信息源的关联关系以及关键词在文本信息中出现的频率和频次，并对关联数据集合进行筛选，选取与对应通话信息主要内容最匹配的数据源并输出，并且，在整个通话过程中，后续时段对于关联数据集合的筛选根据第一次筛选的结果确定筛选方式，以减少干扰关键词的影响，减少误判和误提取，以提高输出数据源与通话信息的匹配度和精准度。

Description

一种基于通话数据检索的总线消息处理系统

技术领域

本发明涉及领域信息处理领域，尤其涉及一种基于通话数据检索的总线消息处理系统。

背景技术

“企业服务总线”作为应用系统的连接中枢，是构筑企业信息系统的必要元素，其核心功能为消息交换，包括业务咨询、客户咨询，需求端将需求信息接入总线，总线再将对应需求信息发送至企业服务端，对应的，客服咨询作为企业服务总线的一个必要功能，被人们所重视，需求端通过向客服咨询，客服再通过具体需求提供对应的答复，

中国发明公开号：CN107862423A，公开了一种系统评估方法、智能评估系统及计算机可读存储介质，该系统评估方法包括：获取智能客服系统与客户沟通所产生的对话记录；统计分析对话记录中每个客户所咨询问题的语义等同概率、每个客户的对话轮数和客户转接人工客服的概率，以获得统计数据；根据统计数据综合评估智能客服系统的服务水平，以获取评估结果，该发明改变了人工评估智能客服系统的评估方式，采用自动化系统评估机制，从智能客服系统的整体出发，实现对智能客服系统客观全面的系统化评估，避免人工评估的主观性和曲线局限性，以获得智能客服系统服务水平真实有效的评估结果，从而提高到评估效果的准确率，反馈出智能客服系统真实的服务水平，从而提高评估效率；

但是，现有技术中还存在以下问题，

1、现有技术中的智能客服技术对于人工客服的辅助需要人工手动操作，人工输入检索关键词检索对应的资料，缺少根据通话信息的关键词自行推荐提取对应资料的技术手段；

2、现有技术中，对于通话信息中关键词的获取不够精确，缺少对干绕信息的筛选确定。

发明内容

为解决上述问题，本发明提供一种基于通话数据检索的总线消息处理系统，其包括：

数据获取模块，其用以获取通话过程中产生的通话信息；

数据存储模块，其用以存储数据源以及通话过程中产生的通话信息以及文本信息；

数据处理模块，其与所述数据存储模块以及数据获取模块相连接并完成数据交换，所述数据处理模块将通话过程中产生的通话信息转化为文本信息，并在预设T1时间段后根据所述文本信息中关键词的关联关系建立关联数据集合，并对所述关联数据集合进行筛选，并根据筛选结果调用数据源，

以及，所述数据处理模块在预设T1时间后每隔T2时段，识别对应文本信息中的关键词并建立关联数据集合，根据所述关联数据集合是否为重复关联数据集合确定筛选方式，对所述关联数据集合进行筛选，并根据筛选结果调用数据源；

数据输出模块，其与所述数据处理模块相连接，以将所述数据处理模块调用的数据源输出至需求端。

进一步地，所述数据存储模块内存储有若干数据源，任一所述数据源与若干不同关键词建立关联关系，并将所述若干不同关键词储存至同一数据集合，记为预存关联数据集合，对于任一数据源，所述数据存储模块将与所述数据源关联的若干关键词之间建立关联关系。

进一步地，所述数据处理模块将通话信息实时转码为文本信息，在通话进行预设时间T1时，所述数据处理模块提取所述文本信息中的多个关键词，对关键词进行区分，将存在关联关系的关键词储存至同一数据集合内，记为关联数据集合，并分别计算所述关联数据集合对应的关键词匹配系数F，

其中，N表示所述关联数据集合内关键词数量占所述文本信息字数数量的比例，N0表示关键词数量占所述文本信息字数数量的预设比例，Q表示所述关联数据集合的关键词在所述文本信息中对应位置的平均信息间隔长度，Q0表示预设信息间隔长度，P表示所述关联数据集合内子集个数与对应预存关联数据集合内子集个数的比值，P≤1，P0表示预设比值。

进一步地，所述数据处理模块内预设第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02，F02＞F01，所述数据处理模块依次将关键词匹配系数F与所述第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02进行对比，对所述关联数据集合进行筛选，调用数据源，其中，

当存在关键词匹配系数F大于等于所述第二预设关键词匹配系数对比参量F02时，所述数据处理模块仅调用与该关键词匹配系数F对应的关联数据集合相关联的数据源；

当存在关键词匹配系数F大于等于所述第一预设关键词匹配系数对比参量F01且小于所述第二预设关键词匹配系数对比参量F02时，所述数据处理模块将所述关键词匹配系数F记录至一数据集合内，记为二次判定用关键词匹配系数集合，并进行二次判定确定需调用数据源；

当全部关键词匹配系数F均小于所述第一预设关键词匹配系数对比参量F0时，所述数据处理模块判定无需调用数据源。

进一步地，所述数据处理模块内预设关键词匹配系数差值f0，当所述数据处理模块进行二次判定时，所述数据处理模块将所述二次判定用关键词匹配系数集合内的关键词匹配系数F按照由大至小的顺序进行排序形成关键词匹配系数数列，并按照由大至小的顺序依次计算所述关键词匹配系数数列中相邻两关键词匹配系数F的差值，并与预设关键词匹配系数差值f0进行对比，当ΔF＞f0时，则所述数据处理模块停止计算，确定已计算差值的关键词匹配系数F，并调用与所述已计算差值的关键词匹配系数对应的关联数据集合相关联的数据源。

进一步地，所述数据处理模块将已调用数据源相关联的所述关联数据集合中的关键词进行标记，并记录标记总数量B。

进一步地，所述数据处理模块在所述通话进行预设时间T1后，每隔T2时间段确定需要调用的数据源，所述数据处理模块根据T2时间段内通话信息对应的文本信息提取关键词，并形成若干关联数据集合，并分别计算所述关联数据集合对应的关键词匹配系数F，

所述数据处理模块判定所述关联数据集合中是否存在被标记关键词，若存在，则判定所述关联数据集合为重复关联数据集合，并计算所述重复关联数据集合对应的第一预设关键词匹配系数对比参量修正值F01’以及第二预设关键词匹配系数对比参量修正值F02’，设定F01’=F01+f1×k，F02’=F02-f2×k，其中，f1表示第一预设修正量，f2表示第二预设修正量，k表示为所述重复关联数据集合中被标记关键词的数量与所述标记总数量B的比值。

进一步地，所述数据处理模块在T2时间段内调用数据源时，对所述关联数据集合进行筛选，依次将关键词匹配系数F与不同的参量进行对比，所述数据处理模块确定筛选方式时，根据所述关键词匹配系数F对应关联数据集合是否为重复关联数据集合确定所需对比参量，其中，

当所述关键词匹配系数F对应数据集合不为重复关联数据集合时，所述数据处理模块将该关键词匹配系数F与所述第一预设关键词匹配系数对比参量修正F01’以及第二预设关键词匹配系数对比参量修正值F02’进行对比；

当所述关键词匹配系数F对应数据集合为重复关联数据集合时，所述第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02进行对比。

进一步地，所述数据处理模块依次将关键词匹配系数F与不同的参量进行对比，调用数据源，其中，

当存在所述重复关联数据集合对应的关键词匹配系数F大于等于所述第二预设关键词匹配系数对比参量F02时，或/和，当存在所述关联数据集合对应的关键词匹配系数F大于等于所述第二预设关键词匹配系数对比参量修正值F02’；

所述数据处理模块仅调用与关键词匹配系数F对应的关联数据集合相关联的数据源；

当存在重复关联数据集合对应的关键词匹配系数F大于等于所述第一预设关键词匹配系数对比参量F01且小于所述第二预设关键词匹配系数对比参量F02时，或/和，当存在关联数据集合对应的关键词匹配系数F大于等于所述第一预设关键词匹配系数对比参量修正F01’且小于所述第二预设关键词匹配系数对比参量修正值F02’时，

所述数据处理模块将所述关键词匹配系数F记录至一数据集合内，记为二次判定用关键词匹配系数集合，并进行二次判定确定需调用数据源；

进一步地，所述数据处理模块内预设差值修正系数g，当所述数据处理模块在T2时间段内调用数据源过程中需进行二次判定时，所述数据处理模块将所述二次判定用关键词匹配系数集合内的关键词匹配系数F按照由大至小的顺序进行排序形成关键词匹配系数数列，并按照由大至小的顺序依次计算所述关键词匹配系数数列中相邻两关键词匹配系数F的差值ΔF，

当所述两相邻关键词匹配系数F对应的关联数据集合为串联数据集合时，所述数据处理模块，将差值ΔF与预设关键词匹配系数差值修正值f0’进行对比，设定f0’=f0-g×k，当ΔF＞f0时，则所述数据处理模块停止计算，确定已计算差值的关键词匹配系数F，并调用与所述已计算差值的关键词匹配系数对应的关联数据集合相关联的数据源；

当所述两相邻关键词匹配系数F对应的关联数据集合为重复关联数据集合时，所述数据处理模块，将差值ΔF与预设关键词匹配系数差值修正值f0’进行对比，当ΔF＞f0时，则所述数据处理模块停止计算，确定已计算差值的关键词匹配系数F，并调用与所述已计算差值的关键词匹配系数对应的关联数据集合相关联的数据源。

与现有技术相比，本发明通过设置数据获取模块，数据存储模块，数据处理模块以及数据输出模块，通过将预设时段内通话信息转化为文本信息并对关键词进行提取，根据关键词的关联关系建立关联数据集合，计算关联数据集合对应的关键词匹配系数以表征关键词与信息源的关联关系以及关键词在文本信息中出现的频率和频次，并以此为基准对关联数据集合进行筛选，选取与对应通话信息主要内容最匹配的数据源并输出，并且，在整个通话过程中，后续时段对于关联数据集合的筛选根据第一次筛选的结果确定筛选方式，以减少干扰关键词的影响，减少误判和误提取，以提高输出数据源与通话信息的匹配度和精准度。

尤其，本发明预先建立数据源与若干关键词的关联关系，并在关键词之间建立关联关系，在实际情况中，对于一种资料数据往往对应多个关键词，通过建立上述关联关系，提高关键词的覆盖面，提高关键词的拾取量，进而对应关联数据集合的关键词匹配系数对于通话内容具备更高的表征性，进而提高输出数据源与对应通话内容的匹配性和准确性。

尤其，本发明通过拾取文本信息中的多个关键词，并建立对应的关联数据集合，计算关联数据集合对应的关键词匹配系数，而关键词匹配系数表征了该关联数据集合与文本信息的关联度，以及，关联数据集合内的关键词与对应数据源的关联度，在此基础上进行筛选，能够较好的体现通话信息对应的主要内容，进而能够更为准确的输出数据源。

尤其，本发明进行二次判定，对于关联度相对较高的多组关联数据集合再次进行筛选，通过其对应关键词匹配系数排序后再计算差值，选取排序较前的对应关联数据集合，但是筛去差值较大的后部关联数据集合，提高筛选精度，保留与通话信息关联度较低的关联数据集合，减少误判，使得最终与对应数据源的匹配更加精确。

尤其，本发明在后续时段内对数据源进行判定时，依旧按照第一时段的数据源调用方式，但是对于关联数据集合的筛选方式以第一时段的数据源判定结果进行调整，将第一时段调用数据源对应关联数据集合中的关键词进行标记，对于已经输出的数据源，其对应关键词为通话的主要关键词，随着通话进行，通话信息中的干扰信息也越来越多，以被标记关键词为基准，对后续时段中对于数据源的筛选方式进行调整，对于第一时段内出现过的关联数据集合，在后续时段内对其的筛选区间适当降低，进而起到筛选干扰信息的作用，最终提升数据源与通话内容的匹配度和精确性，避免干扰信息造成的误判。

附图说明

图1为发明实施例的基于通话数据检索的总线消息处理系统示意图；

图2为发明实施例的数据处理模块调用数据源逻辑示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，其为本发明实施例的基于通话数据检索的总线消息处理系统示意图，本发明的基于通话数据检索的总线消息处理系统包括，

数据获取模块，其用以获取通话过程中产生的通话信息；

具体而言，所述数据源根据实际需求而定，针对不同的应用场景所需提供的资料支持设定不同的数据源，在实际情况中由于客服人员需要面对不同的客户，根据对应的业务广度所需资料支持的多少也不一样，因此在通话过程中提供及时的数据支持是有必要的，当数据源被调用时可以将其输出至对应客服人员的需求端，所述需求端可以是一个计算机，其能显示所输出数据源的信息内容。

具体而言，请参阅图2所示，所述数据存储模块内存储有若干数据源，任一所述数据源与若干不同关键词建立关联关系，并将所述若干不同关键词储存至同一数据集合，记为预存关联数据集合，对于任一数据源，所述数据存储模块将与所述数据源关联的若干关键词之间建立关联关系。

本发明预先建立数据源与若干关键词的关联关系，并在关键词之间建立关联关系，在实际情况中，对于一种资料数据往往对应多个关键词，通过建立上述关联关系，提高关键词的覆盖面，提高关键词的拾取量，进而对应关联数据集合的关键词匹配系数对于通话内容具备更高的表征性，进而提高输出数据源与对应通话内容的匹配性和准确性。

具体而言，所述数据处理模块将通话信息实时转码为文本信息，在通话进行预设时间T1时，所述数据处理模块提取所述文本信息中的多个关键词，对关键词进行区分，将存在关联关系的关键词储存至同一数据集合内，记为关联数据集合，并分别计算所述关联数据集合对应的关键词匹配系数F，

具体而言，本发明通过拾取文本信息中的多个关键词，并建立对应的关联数据集合，计算关联数据集合对应的关键词匹配系数，而关键词匹配系数表征了该关联数据集合与文本信息的关联度，以及，关联数据集合内的关键词与对应数据源的关联度，在此基础上进行筛选，能够较好的体现通话信息对应的主要内容，进而能够更为准确的输出数据源。

具体而言，所述数据处理模块内预设第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02，F02＞F01，所述数据处理模块依次将关键词匹配系数F与所述第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02进行对比，对所述关联数据集合进行筛选，调用数据源，其中，

具体而言，所述数据处理模块内预设关键词匹配系数差值f0，当所述数据处理模块进行二次判定时，所述数据处理模块将所述二次判定用关键词匹配系数集合内的关键词匹配系数F按照由大至小的顺序进行排序形成关键词匹配系数数列，并按照由大至小的顺序依次计算所述关键词匹配系数数列中相邻两关键词匹配系数F的差值，并与预设关键词匹配系数差值f0进行对比，当ΔF＞f0时，则所述数据处理模块停止计算，确定已计算差值的关键词匹配系数F，并调用与所述已计算差值的关键词匹配系数对应的关联数据集合相关联的数据源。

具体而言，本发明进行二次判定，对于关联度相对较高的多组关联数据集合再次进行筛选，通过其对应关键词匹配系数排序后再计算差值，选取排序较前的对应关联数据集合，但是筛去差值较大的后部关联数据集合，提高筛选精度，保留与通话信息关联度较低的关联数据集合，减少误判，使得最终与对应数据源的匹配更加精确。

具体而言，所述数据处理模块将已调用数据源相关联的所述关联数据集合中的关键词进行标记，并记录标记总数量B。

具体而言，所述数据处理模块在所述通话进行预设时间T1后，每隔T2时间段确定需要调用的数据源，所述数据处理模块根据T2时间段内通话信息对应的文本信息提取关键词，并形成若干关联数据集合，并分别计算所述关联数据集合对应的关键词匹配系数F；

具体而言，所述数据处理模块在T2时间段内调用数据源时，对所述关联数据集合进行筛选，依次将关键词匹配系数F与不同的参量进行对比，所述数据处理模块确定筛选方式时，根据所述关键词匹配系数F对应关联数据集合是否为重复关联数据集合确定所需对比参量以确定筛选方式，其中，

具体而言，本发明在后续时段内对数据源进行判定时，依旧按照第一时段的数据源调用方式，但是对于关联数据集合的筛选方式以第一时段的数据源判定结果进行调整，将第一时段调用数据源对应关联数据集合中的关键词进行标记，对于已经输出的数据源，其对应关键词为通话的主要关键词，随着通话进行，通话信息中的干扰信息也越来越多，以被标记关键词为基准，对后续时段中对于数据源的筛选方式进行调整，对于第一时段内出现过的关联数据集合，在后续时段内对其的筛选区间适当降低，进而起到筛选干扰信息的作用，最终提升数据源与通话内容的匹配度和精确性，避免干扰信息造成的误判。

具体而言，所述数据处理模块依次将关键词匹配系数F与不同的参量进行对比，调用数据源，其中，

当存在所述重复关联数据集合对应的关键词匹配系数F大于等于所述第二预设关键词匹配系数对比参量F02时，或/和，当存在所述关联数据集合对应的关键词匹配系数F大于等于所述第二预设关键词匹配系数对比参量修正值F02’

具体而言，所述数据处理模块内预设差值修正系数g，当所述数据处理模块在T2时间段内调用数据源过程中需进行二次判定时，所述数据处理模块将所述二次判定用关键词匹配系数集合内的关键词匹配系数F按照由大至小的顺序进行排序形成关键词匹配系数数列，并按照由大至小的顺序依次计算所述关键词匹配系数数列中相邻两关键词匹配系数F的差值ΔF，

具体而言，本发明对数据处理模块、数据存储模块、数据输出模块以及数据获取模块的结构不做限制，本领域技术人员应当明白，所述数据处理模块只需能完成数据接收和数据处理即可，所述数据存储模块只需能完成数据存储发送和接收即可，数据输出模块只需能将数据输出至指定应用端即可，所述数据获取模块只需能获取通话信息即可。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于通话数据检索的总线消息处理系统，其特征在于，包括：

数据获取模块，其用以获取通话过程中产生的通话信息；

2.根据权利要求1所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据存储模块内存储有若干数据源，任一所述数据源与若干不同关键词建立关联关系，并将所述若干不同关键词储存至同一数据集合，记为预存关联数据集合，对于任一数据源，所述数据存储模块将与所述数据源关联的若干关键词之间建立关联关系。

3.根据权利要求1所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块将通话信息实时转码为文本信息，在通话进行预设时间T1时，所述数据处理模块提取所述文本信息中的多个关键词，对关键词进行区分，将存在关联关系的关键词储存至同一数据集合内，记为关联数据集合，并分别计算所述关联数据集合对应的关键词匹配系数F，

4.根据权利要求3所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块内预设第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02，F02＞F01，所述数据处理模块依次将关键词匹配系数F与所述第一预设关键词匹配系数对比参量F01以及第二预设关键词匹配系数对比参量F02进行对比，对所述关联数据集合进行筛选，调用数据源，其中，

5.根据权利要求4所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块内预设关键词匹配系数差值f0，当所述数据处理模块进行二次判定时，所述数据处理模块将所述二次判定用关键词匹配系数集合内的关键词匹配系数F按照由大至小的顺序进行排序形成关键词匹配系数数列，并按照由大至小的顺序依次计算所述关键词匹配系数数列中相邻两关键词匹配系数F的差值，并与预设关键词匹配系数差值f0进行对比，当ΔF＞f0时，则所述数据处理模块停止计算，确定已计算差值的关键词匹配系数F，并调用与所述已计算差值的关键词匹配系数对应的关联数据集合相关联的数据源。

6.根据权利要求5所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块将已调用数据源相关联的所述关联数据集合中的关键词进行标记，并记录标记总数量B。

7.根据权利要求6所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块在所述通话进行预设时间T1后，每隔T2时间段确定需要调用的数据源，所述数据处理模块根据T2时间段内通话信息对应的文本信息提取关键词，并形成若干关联数据集合，并分别计算所述关联数据集合对应的关键词匹配系数F，

8.根据权利要求7所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块在T2时间段内调用数据源时，对所述关联数据集合进行筛选，依次将关键词匹配系数F与不同的参量进行对比，所述数据处理模块确定筛选方式时，根据所述关键词匹配系数F对应关联数据集合是否为重复关联数据集合确定所需对比参量，其中，

9.根据权利要求8所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块依次将关键词匹配系数F与不同的参量进行对比，调用数据源，其中，

10.根据权利要求9所述的基于通话数据检索的总线消息处理系统，其特征在于，所述数据处理模块内预设差值修正系数g，当所述数据处理模块在T2时间段内调用数据源过程中需进行二次判定时，所述数据处理模块将所述二次判定用关键词匹配系数集合内的关键词匹配系数F按照由大至小的顺序进行排序形成关键词匹配系数数列，并按照由大至小的顺序依次计算所述关键词匹配系数数列中相邻两关键词匹配系数F的差值ΔF，