CN105745679B - 用于发现和探索概念的系统和方法 - Google Patents

用于发现和探索概念的系统和方法 Download PDF

Info

Publication number
CN105745679B
CN105745679B CN201480053132.9A CN201480053132A CN105745679B CN 105745679 B CN105745679 B CN 105745679B CN 201480053132 A CN201480053132 A CN 201480053132A CN 105745679 B CN105745679 B CN 105745679B
Authority
CN
China
Prior art keywords
statements
processor
clusters
cluster
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480053132.9A
Other languages
English (en)
Other versions
CN105745679A (zh
Inventor
艾密尔·里夫-托夫
阿夫拉哈姆·菲札柯夫
大卫·奥林格
尤查·卡尼格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Green Yi Deng Usa Holding Co Ltd
Original Assignee
Green Yi Deng Usa Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/952,459 external-priority patent/US9971764B2/en
Priority claimed from US13/952,470 external-priority patent/US10061822B2/en
Application filed by Green Yi Deng Usa Holding Co Ltd filed Critical Green Yi Deng Usa Holding Co Ltd
Publication of CN105745679A publication Critical patent/CN105745679A/zh
Application granted granted Critical
Publication of CN105745679B publication Critical patent/CN105745679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种用于识别多个交互中的概念的方法包含:在处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;在所述处理器上聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。

Description

用于发现和探索概念的系统和方法
技术领域
本发明的方面涉及语音处理、编索引、搜索和分析方法。明确地说,本发明的方面涉及分析记录的和实况信息以将对话归类和识别概念和趋势。
背景技术
组织的联系中心通常接收关于多种问题的大量呼叫。举例来说,联系中心的销售部门可接收具有关于由组织提供的各种产品的特征集合和定价的问题的呼叫;客户支持部门可接收关于使用正递送的产品或服务质量的特定问题的呼叫;财会部门可接收关于记账策略、不正确收费和其它问题的改变的呼叫。
通常,组织能够识别对话(或“交互”)内的概念和样式以便将呼叫归类且识别待解决的基础问题(例如,关于产品的特定投诉或对服务的一般不满意)是有用的。然而,用于如此进行的常规系统通常涉及由客户支持代理收集的数据的手动调查和此数据的手动分析。此手动分析过程可能耗时且在收集数据和确定来自分析的结果之间可存在长的延迟。
在一些常规系统中,可将对话基于其含有的预定义的关键字或短语加标签或归类。举例来说,通过由人类收听者识别或由计算机系统使用短语辨识识别的短语的以上论述的手动(人工)分析,某人可推断含有短语“我想要跟您的经理讲话”和“我可以跟您的主管谈话吗?”的具有呼叫中心的对话导致到更高级别代表的呼叫的升级。因而,可将含有这些短语的任何呼叫归类为含有“升级尝试”。
因而,组织可基于落到各种种类内的这些交互的数目来识别趋势和推断条件。举例来说,源自特定领域且归类为指示“服务中断”或“不良网络性能”的大量交互可对因特网服务提供方警报采取行动来解决那个特定领域内的系统问题。
然而,含有先前未识别的短语的对话将不被恰当地归类。举例来说,如果短语“让我跟你的老板讲话”先前未被识别为与升级尝试相关联,那么含有那个短语的对话将不被归类为“升级尝试”。
此外,一些常规系统使用贝叶斯网络识别事件之间的相关性。然而,开发这些贝叶斯网络需要人工输入以指定各种参数(例如,贝叶斯网络的节点)。
发明内容
本发明的实施例的方面是针对解决与数据的发现和探索有关的两个问题。本发明的一个方面是针对在无人工辅助的情况下来自一组文档的概念的自动发现和提取。此外,本发明的实施例是针对理解为什么将某一文档或电话呼叫分类成预定义的种类或为什么所述文档或电话呼叫含有特定概念(其可为新识别的)。换句话说,本发明的实施例是针对发现由客户报告的各种“症状”的“根本原因”是什么且推断为待按预定义种类或新发现的概念“B”归类的呼叫的根本原因的预定义种类或新发现的概念“A”,因此组织或用户可解决基础问题。
根据本发明的一个实施例,一种用于识别多个交互中的概念的方法包含:在处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;在所述处理器上聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。
所述交互可包含话音辨识系统的输出。
所述方法可进一步包含基于字词置信度筛选所述话音辨识系统的所述输出。
所述话音辨识系统可为大词汇量连续语音辨识系统。
所述间隔可为时间间隔。
所述聚集所述语句可包含:从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集中的一者;计算所述一组信息性语句中的每一语句与所述模板语句的类似性;根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的每一者指派到所述群集中的一群集;以及去除具有少于阈值数目个指派的语句的群集。
所述聚集所述语句可进一步包含反复地从未指派到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。
所述命名所述群集中的每一者可包含对于每一群集:计算所述群集中的每一语句的词频-倒置文档频率和命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。
根据本发明的另一实施例,一种用于探索在多个交互中自动地识别的概念的方法包含:在处理器上接收包括概念的查询;由所述处理器检索含有所述概念的群集;以及显示所述检索的群集,其中所述概念是通过以下操作自动地识别:在所述处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;以及在所述处理器上聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念。
根据本发明的一个实施例,一种计算机系统包含:处理器;以及存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使所述处理器通过以下操作来识别多个交互中的概念:基于间隔筛选所述交互;从所述经筛选的交互创建多个语句;计算每一所述语句的突出性;删除具有低突出性的语句,以便产生一组信息性语句;聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;计算所述群集中的每一者的突出性;以及命名所述群集中的每一者。
所述交互可包含话音辨识系统的输出。
所述指令可进一步包含用于基于字词置信度筛选所述话音辨识系统的所述输出的指令。
所述话音辨识系统可为大词汇量连续语音辨识系统。
所述间隔可为时间间隔。
所述聚集所述语句可包含:从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集中的一者;计算所述一组信息性语句中的每一语句与所述模板语句的类似性;根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的每一者指派到所述群集中的一群集;以及去除具有少于阈值数目个指派的语句的群集。
所述聚集所述语句可进一步包含反复地从未指派到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。
所述命名所述群集中的每一者可包含对于每一群集:计算所述群集中的每一语句的词频-倒置文档频率和命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。
根据本发明的一个实施例,一种计算机系统包含:处理器;以及存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使所述处理器通过以下操作来响应对概念的探索的请求:接收包括概念的查询;检索含有所述概念的群集;以及显示所述检索的群集,其中所述概念是通过以下操作自动地识别:基于间隔筛选所述交互;从所述经筛选的交互创建多个语句;计算每一所述语句的突出性;删除具有低突出性的语句,以便产生一组信息性语句;以及聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念。
本发明的实施例的方面是针对解决与数据的发现和探索有关的两个问题。本发明的一个方面是针对在无人工辅助的情况下来自一组文档的概念的自动发现和提取。此外,本发明的实施例是针对理解为什么将某一文档或电话呼叫分类成预定义的种类或为什么所述文档或电话呼叫含有特定概念(其可为新识别的)。换句话说,本发明的实施例是针对发现由客户报告的各种“症状”的“根本原因”是什么且推断为待按预定义种类或新发现的概念“B”归类的呼叫的根本原因的预定义种类或新发现的概念“A”,因此组织或用户可解决基础问题。
根据本发明的一个实施例,一种用于确定在多个交互中检测到的事件的原因的方法包含:在处理器上识别所述交互中的多个要素;在所述处理器上检测所述交互中的要素的多个序列;在所述处理器上挖掘所述多个序列,以便产生一组支持的样式;在所述处理器上从所述一组支持的样式计算关联规则;以及返回所述计算的关联规则。
所述要素可包含定义的话题和识别的概念。
所述识别的概念可通过以下操作导出:在所述处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;在所述处理器上计算每一所述语句的突出性;在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;在所述处理器上聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。
所述检测要素的所述序列可包含按在所述交互内的时间戳分拣每一交互中的所述识别的要素,以便产生所述多个序列;以及精简所述序列中的每一者以用于去除重复的连续要素。
所述方法可进一步包含在所述处理器上精简所述一组支持的样式以用于去除所述序列中的重复的要素。
所述从所述一组经精简的支持的样式计算所述关联规则可包含:计算所述经精简的支持的样式中的每一序列样式的关联规则,所述计算所述关联规则包含,如果所述序列样式包含一个以上要素,那么:将所述序列样式划分成第一部分和第二部分,所述第二部分包含所述序列样式中的最后一个要素;产生所提议的关联规则,所述所提议的关联规则为从所述第一部分到所述第二部分的逻辑暗示;计算所述所提议的关联规则的置信度;如果所述计算的置信度大于阈值置信度水平,那么存储所述所提议的关联规则且将所述第一部分中的所述最后一个要素移动到所述第二部分且反复地重复产生所述所提议的关联规则和计算所述置信度;以及如果所述计算的置信度小于阈值置信度水平,那么结束所述序列样式的分析且返回先前存储的所提议的关联规则作为所述关联规则,或如果无此所提议的关联规则被存储,那么不返回关联规则。
所述方法可进一步包含计算所述关联规则的提升和突出性。
所述方法可进一步包含计算所述所提议的关联规则的提升和突出性。
根据本发明的一个实施例,一种用于确定在多个交互中检测到的事件的根本原因的方法包含:在处理器上接收对所述事件的所述根本原因的查询;在所述处理器上搜索多个关联规则,所述关联规则中的每一者包含一或多个第一部分要素和一或多个第二部分要素,所述关联规则中的每一者为从所述第一部分到所述第二部分的逻辑暗示;以及从所述处理器返回匹配所述查询的一或多个关联规则,所述匹配关联规则中的每一者的所述第二部分要素包含所述事件。
所述关联规则中的每一者可具有对应的置信度值,所述查询可包含置信度阈值,和所述返回匹配所述查询的所述一或多个关联规则可进一步包含返回具有超过所述置信度阈值的置信度值的匹配所述查询的关联规则。
所述关联规则中的每一者可具有对应的提升值和对应的突出性值,所述查询可包含提升阈值和突出性阈值中的至少一者,和所述返回匹配所述查询的所述一或多个关联规则可进一步包含返回具有超过所述提升阈值或所述突出性阈值的提升值或突出性值的匹配所述查询的关联规则。
根据本发明的一个实施例,一种计算机系统包含:处理器;以及存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使所述处理器通过以下操作来计算在多个交互中检测到的事件之间的关联规则:识别所述交互中的多个要素;检测所述交互中的要素的多个序列;挖掘所述多个序列,以便产生一组支持的样式;从所述一组支持的样式计算关联规则;以及返回所述计算的关联规则。
所述要素可包含定义的话题和识别的概念。
所述识别的概念可通过以下操作导出:在所述处理器上基于间隔筛选所述交互;在所述处理器上从所述经筛选的交互创建多个语句;
在所述处理器上计算每一所述语句的突出性;在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;在所述处理器上聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;在所述处理器上计算所述群集中的每一者的突出性;以及在所述处理器上命名所述群集中的每一者。
所述处理器可经进一步配置以通过以下操作计算在多个交互中检测到的事件之间的关联规则:按在所述交互内的时间戳分拣每一交互中的所述识别的要素,以便产生所述多个序列;以及精简所述序列中的每一者以用于去除重复的连续要素。
所述处理器可经进一步配置以通过精简所述一组支持的样式以用于去除所述序列中的重复的要素来计算在多个交互中检测到的事件之间的关联规则。
所述从所述一组经精简的支持的样式计算所述关联规则可包含:计算所述经精简的支持的样式中的每一序列样式的关联规则,所述计算所述关联规则包含,如果所述序列样式包含一个以上要素,那么:将所述序列样式划分成第一部分和第二部分,所述第二部分包含所述序列样式中的最后一个要素;产生所提议的关联规则,所述所提议的关联规则为从所述第一部分到所述第二部分的逻辑暗示;计算所述所提议的关联规则的置信度;如果所述计算的置信度大于阈值置信度水平,那么存储所述所提议的关联规则且将所述第一部分中的所述最后一个要素移动到所述第二部分且反复地重复产生所述所提议的关联规则和计算所述置信度;以及如果所述计算的置信度小于阈值置信度水平,那么结束所述序列样式的分析且返回先前存储的所提议的关联规则作为所述关联规则,或如果无此所提议的关联规则被存储,那么不返回关联规则。
所述计算所述关联规则可进一步包含计算所述关联规则的提升和突出性。
所述计算所述关联规则可进一步包含计算所述所提议的关联规则的提升和突出性。
根据本发明的一个实施例,一种计算机系统包含:处理器;以及存储器,其中所述存储器具有存储于其上的指令,所述指令在由所述处理器执行时使所述处理器通过以下操作来响应对事件的根本原因的查询:接收对所述事件的所述根本原因的所述查询;搜索多个关联规则,所述关联规则中的每一者包含一或多个第一部分要素和一或多个第二部分要素,所述关联规则中的每一者为从所述第一部分到所述第二部分的逻辑暗示;以及返回匹配所述查询的一或多个关联规则,所述匹配关联规则中的每一者的所述第二部分要素包含所述事件。
附图说明
图1为根据本发明的一个示范性实施例的经配置以对客户服务代理提供对可搜索的抄本的接取的支持联系中心的系统的示意性框图。
图2A为根据本发明实施例的计算装置的框图。
图2B为根据本发明实施例的计算装置的框图。
图2C为根据本发明实施例的计算装置的框图。
图2D为根据本发明实施例的计算装置的框图。
图2E为根据本发明的实施例的包含若干计算装置的网络环境的框图。
图3为根据本发明的一个实施例的种类分布报告的截屏。
图4为说明根据本发明的一个实施例的用于定制和定义预定义的种类的接口的截屏。
图5为说明根据本发明的一个实施例的用于探索多个交互中的话题之间的关系的接口的截屏。
图6说明根据本发明的一个实施例的用于探索关键术语的聚集的用户接口。
图7为说明根据本发明的一个实施例的用于检测交互内的话题的方法的流程图。
图8为说明根据本发明的一个实施例的用于聚集语句的方法的流程图。
图9为列出根据本发明的一个实施例的原因与事件之间的演绎的关联规则连同用于导出的推断规则中的每一者的支持、置信度、提升和突出性等级的截屏。
图10为根据本发明的一个实施例的说明用于确定事件的原因的方法的流程图。
图11为说明根据本发明的一个实施例的用于产生关联规则的方法的流程图。
图12为根据本发明的一个实施例的用于确定事件的原因的方法的输出的说明。
具体实施方式
在以下详细描述中,仅借助于说明展示和描述了本发明的某些示范性实施例。如所属领域的技术人员将认识到,本发明可以许多不同形式体现且不应将其理解为限于本文中所阐述的实施例。贯穿本说明书,相似的参考数字表示相似元件。
如本文中所描述,本发明的各种应用和方面可以软件、固件、硬件和其组合实施。当以软件实施时,所述软件可在例如服务器、桌上型计算机、平板计算机、智能电话或个人数字助理的通用计算装置上操作。此通用计算机包含通用处理器和存储器。
将在联系中心的情境中来描述本发明的一些实施例。然而,本发明的实施例不限于此且也可用于涉及搜索记录的音频的其它条件下,例如,在基于计算机的教育系统、话音消息传递系统、医学抄本或来自任何来源的任何语音全集中。
本发明的实施例的方面是针对一种用于从记录的或实况交互(或对话)的主体自动推断和演绎讨论的话题(或“概念”)的系统和方法。这些交互可包含(例如)电话对话、基于文本的聊天会话、电子邮件对话头绪和类似者。这些概念的推断不需要人的手动归类且可由根据本发明的实施例的系统(或“分析系统”)执行。因此,在不执行对话录入的手动分析的情况下,对话的新的先前未识别的话题可被快速识别且引起组织的注意。
举例来说,假设公司发布添加了
Figure GDA0001144387120000081
连接性的新型产品且在交互分析系统中不存在关于
Figure GDA0001144387120000082
连接的问题的匹配短语“蓝牙连接”或“蓝牙配对”的预定义的种类。在常规系统中,此种类可能未被检测到,直到那些短语被手动添加到分析系统。
相比之下,本发明的实施例是针对一种用于识别突出短语、基于这些识别的短语产生新种类(或“概念”)和基于这些自动识别的种类将交互归类的系统和方法。结果,本发明的实施例可用以警报组织在交互(例如,与客户的对话)内的新趋向的话题,由此允许对改变的情况的更快响应。例如,见图3,其为种类分布报告1的一部分的截屏,沿着归类到示范性种类“新客户”、“紧急情况”、“识别”、“记账”和“缴费询问”中的每一者内的交互的数目和涉及这些种类的所有呼叫的百分比展示这些种类。注意,百分比总计大于100%,因为任一给定交互可指派到多个种类或不指派到任一种类。查看此种类分布报告,组织可评价最频繁讨论的话题。
本发明的实施例的另一方面是针对用于自动确定在对话内的事件的可能根本原因和概念的系统和方法。举例来说,可对因特网服务提供方报警取消服务计划的大量请求。使用本发明的实施例,组织将能够查看从交互自动演绎的关联规则(或推断规则)以基于出现在交互中的其它种类和概念识别这些事件的一或多个原因(或“根本原因”)。例如,见图9,其为列出根据本发明的一个实施例的原因(标注“左手边”)与事件(标注“右手边”)之间的演绎的关联规则连同用于导出的推断规则中的每一者的支持、置信度、提升和突出性等级的截屏。用户可通过从“目标话题”下拉框选择特定话题(例如,客户“不满意度”)来搜索涉及所述话题的规则,在此情况下,将展示在“右手边”上的含有“不满意度”的规则。在图9中展示的实例中,将在涉及“不满意度”概念的规则当中展示规则“转帐+争论→不满意度”和“未缴费+推迟→不满意度”。
因此,本发明的实施例是针对用于提供在交互的集合中的讨论的话题的趋势的及时概述的系统和方法,和用于基于(例如)与同一交互内的特定其它话题的相关性确定预定义和推断的讨论的话题的根本原因的系统和方法。
在一个实施例中,以上描述的系统和方法在联系中心的情境中使用且用以监视和推断在客户与组织之间的交互期间的对话的话题和分析与确定事件的根本原因以用于对组织的成员显示。
图1为根据本发明的一个示范性实施例的经配置以将客户有空性信息提供到客户服务代理的支持联系中心的系统的示意性框图。联系中心可为商业或公司的内部设施,用于在执行相对于通过企业可获得的产品和服务的销售和服务的功能时服务企业。在另一方面,联系中心可为第三方服务提供商。联系中心可在专用于企业或第三方服务提供商的装备中代管,和/或在例如具有用于支持用于多个企业的多个联系中心的基础设施的私用或公用云环境的远程计算环境中代管。
根据一个示范性实施例,联系中心包含实现经由电话或其它通信机构传递服务的资源(例如,人员、计算机和电信装备)。这些服务可取决于联系中心的类型而变化,且可范围从客户服务到帮助桌面、紧急响应、电话营销、订单获取和类似者。
想要从联系中心接收到服务的客户、潜在客户或其它终端用户(共同地被称作客户)可经由其终端用户装置10a到10c(共同地被称作10)起始到联系中心的呼入型呼叫。终端用户装置10中的每一者可为在此项技术中常规的通信装置,例如,电话、无线电话、智能电话、个人计算机、电子平板电脑和/或类似者。操作终端用户装置10的用户可起始、管理和响应电话呼叫、电子邮件、聊天、文本消息传递、网络浏览会话和其它多媒体事务。
从和到终端用户装置10的呼入型和呼出型呼叫可取决于正使用的装置的类型而穿越电话、蜂窝式和/或数据通信网络14。举例来说,通信网络14可包含私用或公共交换电话网络(PSTN)、局域网(LAN)、私用广域网(WAN)和/或公用广域网(例如,因特网)。通信网络14还可包含无线运营商网络,包含码分多址(CDMA)网络、全球移动通信系统(GSM)网络和/或此项技术中常规的任何3G或4G网络。
根据一个示范性实施例,联系中心包含耦合到通信网络14的交换机/媒体网关12,用于在终端用户与联系中心之间接收和发射呼叫。交换机/媒体网关12可包含电话交换机,其经配置以充当用于中心内的代理等级路由的中心交换机。在这点上,交换机12可包含自动呼叫分配器、小交换机(PBX)、基于IP的软件交换机和/或经配置以接收源自因特网的呼叫和/或源自电话网络的呼叫的任何其它交换机。根据本发明的一个示范性实施例,交换机耦合到呼叫服务器18,所述呼叫服务器可(例如)充当交换机与联系中心的路由、监视和其它呼叫处置系统的其余部分之间的适配器或接口。
联系中心还可包含多媒体/社交媒体服务器用于参加与终端用户装置10和/或网络服务器32的不同于话音交互的媒体交互。媒体交互可(例如)与电子邮件、语音函件(通过电子邮件的语音函件)、聊天、视频、文本消息传递、网络、社交媒体、屏幕共享和类似者有关。网络服务器32可包含(例如)用于终端用户可订购的多种已知社交交互站点的社交交互站点代管,例如,脸书(Facebook)、推特(Twitter)和类似者。网络服务器也可提供联系中心正支持的企业的网页。终端用户可浏览网页且得到关于企业的产品和服务的信息。网页也可提供用于经由(例如)网络聊天、话音呼叫、电子邮件、网络实时通信(WebRTC)或类似者联系联系中心的机制。
根据本发明的一个示范性实施例,交换机耦合到交互式话音响应(IVR)服务器34。IVR服务器34经配置(例如)有用于询问客户其需求的IVR脚本。举例来说,银行的联系中心可经由IVR脚本告知呼叫者如果其希望知道帐户余额,那么“按1”。如果情况如此,那么通过与IVR的继续交互,客户可完成服务,而不需要与代理讲话。
如果呼叫将被路由到代理,那么将呼叫转递到与用于发现用于处理呼叫的适当代理的路由服务器20交互的呼叫服务器18。呼叫服务器18可经配置以处理PSTN呼叫、VoIP呼叫和类似者。举例来说,呼叫服务器18可包含用于处理SIP呼叫的会话起始协议(SIP)服务器。
在一个实例中,当代理正就位时且直到此代理变得有空,呼叫服务器可将呼叫置于(例如)呼叫队列中。呼叫队列可经由在此项技术中常规的任何数据结构实施,例如,链表、阵列和/或类似者。可(例如)在由呼叫服务器18提供的缓冲存储器中维护数据结构。
一旦适当代理有空处置呼叫,呼叫被从呼叫队列去除且转移到对应的代理装置38a-38c(共同地被称作38)。也可将关于呼叫者和/或呼叫者的历史信息的所收集的信息提供到代理装置用于辅助代理更好的服务呼叫。在这点上,每一代理装置38可包含适宜于定期电话呼叫、VoIP呼叫和类似者的电话。代理装置38还可包含计算机,其用于与联系中心的一或多个服务器通信和执行与联系中心操作相关联的数据处理,且用于经由例如聊天、即时消息传递、话音呼叫和类似者的多种通信机制与客户介接。
用于路由呼入型呼叫的适当代理的选择可基于(例如)由路由服务器20使用的路由策略,且进一步基于关于代理有空性、技能和(例如)由统计服务器22提供的其它路由参数的信息。根据本发明的一个示范性实施例,统计服务器22包含客户有空性聚合(CAA)模块36,其用于监视不同通信信道上的终端用户的有空性且将此信息提供到(例如)路由服务器20、代理装置38a到38c和/或其它联系中心应用程序和装置。CAA模块也可部署于单独的应用程序服务器中。聚合模块36可为经由存储在统计服务器22(或某一其它服务器)的存储器中的计算机程序指令实施的软件模块,且所述程序指令由处理器执行。所属领域的技术人员应认识到,聚合模块36也可经由固件(例如,专用集成电路)、硬件或软件、固件与硬件的组合来实施。
根据一个示范性实施例,聚合模块36经配置以从联系中心中的其它装置(例如,多媒体/社交媒体服务器24)接收客户有空性信息。举例来说,多媒体/社交媒体服务器24可经配置以检测在包含社交媒体站点的不同网站上的用户存在,且将此信息提供到聚合模块36。多媒体/社交媒体服务器24还可经配置以监视且追踪那些网站上的交互。
多媒体/社交媒体服务器24还可经配置以对终端用户提供用于下载到终端用户装置10上的移动应用程序40。出于由联系中心代理接触的目的,移动应用程序40可提供指示(例如)用户有空还是没空或有空性是否未知的用户可配置设定。多媒体/社交媒体服务器24可监视状态设定,且每当状态信息改变时将更新发送到聚合模块。
联系中心还可包含报告服务器28,其经配置以从由统计服务器22聚合的数据产生报告。这些报告可包含关于资源的状态(例如,平均等待时间、报废率、代理占用率和类似者)的近实时报告或历史报告。报告自动地或响应于来自请求者(例如,代理/管理员、联系中心应用程序和/或类似者)的特定请求而产生。
根据本发明的一个示范性实施例,路由服务器20增强有用于管理指派到代理的后台办公/离线活动的功能性。这些活动可包含(例如)响应电子邮件、响应信件、参加培训研讨会或不需要与客户的实时通信的任何其它活动。一旦指派到代理,那么可将活动推送到代理,或活动可出现在代理的工作箱26a到26c(共同地被称作26)中作为待由代理完成的任务。代理的工作箱可经由在此项技术中常规的任何数据结构(例如,链表、阵列和/或类似者)来实施。可(例如)在每一代理装置38的缓冲存储器中维护工作箱。
根据本发明的一个示范性实施例,联系中心还包含一或多个大容量存储装置30用于存储涉及代理数据(例如,代理档案、安排等)、客户数据(例如,客户档案)、交互数据(例如,与客户的每一次交互的细节,包含交互的原因、处理数据、推持时间、处置时间等)和类似者的不同数据库。根据一个实施例,数据(例如,客户档案数据)中的一些可由例如第三方客户关系管理(CRM)数据库的第三方数据库提供。大容量存储装置可呈如此项技术中常规的硬盘或磁盘阵列的形式。
根据本发明的一个实施例,联系中心102还包含用于记录通过联系中心102进行的呼叫的音频的呼叫记录服务器40、用于存储记录的音频的呼叫记录存储服务器42、经配置以处理和分析从联系中心102收集的音频的语音分析服务器44和用于提供分析的音频的索引的语音索引数据库46。
语音分析服务器44可耦合到(或可包含)分析服务器45,分析服务器包含话题检测模块45a、根本原因挖掘模块45b和用户接口模块45c。分析服务器45可经配置以提供由呼叫记录服务器40记录且存储于呼叫记录存储服务器42上的来自交互的话题的自动检测。分析服务器45也可存取存储于(例如)多媒体/社交媒体服务器24上的数据,以便处理来自各种聊天、社交媒体、电子邮件和其它非话音交互的交互。
图1的各种服务器可各自包含执行计算机程序指令和与用于执行本文中描述的各种功能性的其它系统组件交互的一或多个处理器。使用例如随机存取存储器(RAM)的标准记忆体装置实施存储于存储器中的计算机程序指令。计算机程序指令也可存储在例如CD-ROM、闪存驱动器或类似者的其它非暂时性电脑可读媒体中。又,虽然将服务器中的每一者的功能性描述为由特定服务器提供,但所属领域的技术人员应认识到,各种服务器的功能性可组合或集成为单一服务器,或在不脱离本发明的实施例的范围的情况下,可将特定服务器的功能性分布于一或多个其它服务器上。
联系中心中的各种服务器中的每一者可为在一或多个处理器上运行、在一或多个计算装置500(例如,图2A、图2B)中、执行计算机程序指令且与用于执行本文中描述的各种功能性的其它系统组件交互的处理程序或线程。将计算机程序指令存储于可使用例如随机存取存储器(RAM)的标准存储器装置在计算装置中实施的存储器中。计算机程序指令也可存储在例如CD-ROM、闪存驱动器或类似者的其它非暂时性电脑可读媒体中。又,所属领域的技术人员应认识到,可经由固件(例如,专用集成电路)、硬件或软件、固件与硬件的组合来实施计算装置。所属领域的技术人员应还认识到,各种计算装置的功能性可组合或集成为单一计算装置,或在不脱离本发明的示范性实施例的范围的情况下,可将特定计算装置的功能性分布于一或多个其它计算装置上。服务器可为也可根本地被称作模块的软件模块。联系中心中的模块的集合可包含服务器和其它模块。
图2A和图2B描绘如可在本发明的示范性实施例中使用的计算装置500的方块图。如图2A和图2B中所展示,每一计算装置500包含中央处理单元521和主存储器单元522。如图2A中所展示,计算装置500可包含存储装置528、可装卸媒体接口516、网络接口518、输入/输出(I/O)控制器523、一或多个显示装置530c、键盘530a和指针装置530b(例如,鼠标)。存储装置528可包括(但不限于)用于操作系统和软件的存储装置。如图2B中所展示,每一计算装置500还可包含额外任选元件,例如,存储器端口503、电桥570、一或多个额外输入/输出装置530d、530e和与中央处理单元521通信的高速缓冲存储器540。输入/输出装置(例如,530a、530b、530d和530e)可在本文中使用参考数字530来指代。
中央处理单元521为响应且处理从主存储器单元522取得的指令的任何逻辑电路。其可(例如)在集成电路中、以微处理器、微控制器或图形处理单元(GPU)的形式或在现场可编程门阵列(FPGA)或专用集成电路(ASIC)中实施。主存储器单元522可为能够存储数据且允许任何存储位置直接由中央处理单元521存取的一或多个存储器芯片。在图2A中展示的实施例中,中央处理单元521与主存储器522经由系统总线550通信。图2B描绘中央处理单元521经由存储器端口503直接与主存储器522通信的计算装置500的实施例。
图2B描绘中央处理单元521经由次汇流排(有时被称作后侧总线)直接与高速缓冲存储器540通信的实施例。在其它实施例中,中央处理单元521使用系统总线550与高速缓冲存储器540通信。高速缓冲存储器540通常具有比主存储器522快的响应时间。所述图2A中的实施例中,中央处理单元521经由局部系统总线550与各种I/O装置530通信。各种总线可用作局部系统总线550,包含视频电子标准协会(VESA)局部总线(VLB)、工业标准架构(ISA)总线、扩展工业标准架构(EISA)总线、MicroChannel架构(MCA)总线、外围组件互连(PCI)总线、PCI扩展(PCI-X)总线、高速PCI总线或NuBus。用于I/O装置为显示装置530c的实施例,中央处理单元521可通过高级图形端口(AGP)与显示装置530c通信。图2B描绘中央处理单元521直接与I/O装置530e通信的计算机500的实施例。图2B还描绘局部总线与直接通信混合的实施例:中央处理单元521使用局部系统总线550与I/O装置530d通信,同时直接与I/O装置530e通信。
广泛多种I/O装置530可存在于计算装置500中。输入装置包含一或多个键盘530a、鼠标、轨迹垫、轨迹球、麦克风和绘图平板计算机。输出装置包含视频显示装置530c、扬声器和打印机。如图2A中所展示的I/O控制器523可控制I/O装置。I/O控制器可控制一或多个I/O装置,例如,键盘530a和指针装置530b,例如,鼠标或光学笔。
再次参看图2A,计算装置500可支持一或多个可装卸媒体接口516,例如,软性磁盘驱动器、CD-ROM驱动器、DVD-ROM驱动器、各种格式的磁带机、USB端口、安全数字或COMPACTFLASHTM存储卡端口或适合于从只读媒体读取数据或适合于从读取-写入媒体读取数据或将数据写入到读取-写入媒体的任何其它装置。I/O装置530可为系统总线550与可装卸媒体接口516之间的电桥。
可装卸媒体接口516可(例如)用于安装软件和程序。计算装置500可进一步包括用于存储操作系统和其它有关软件和用于存储应用软件程序的存储装置528,例如,一或多个硬盘驱动器或硬盘驱动器阵列。任选地,可装卸媒体接口516也可用作存储装置。举例来说,操作系统和软件可从可启动媒体(例如,可启动CD)运行。
在一些实施例中,计算装置500可包括或连接到多个显示装置530c,其中的每一者可具有相同或不同类型和/或形式。因而,I/O装置530和/或I/O控制器523中的任一者可包括任何类型和/或形式的合适硬件、软件或硬件与软件的组合以支持、实现或提供连接到和由计算装置500使用多个显示装置530c。举例来说,计算装置500可包含任何类型和/或形式的视频适配器、视频卡、驱动器和/或文档包以介接、通信、连接或另外使用显示装置530c。在一个实施例中,视频适配器可包括多个连接器以介接到多个显示装置530c。在其它实施例中,计算装置500可包含多个视频适配器,其中每一视频适配器连接到显示装置530c中的一或多者。在一些实施例中,计算装置500的操作系统的任何部分可经配置用于使用多个显示装置530c。在其它实施例中,显示装置530c中的一或多者可由经由网络连接到(例如)计算装置500的一或多个其它计算装置提供。这些实施例可包含经设计和构建以将另一计算装置的显示装置用作用于计算装置500的第二显示装置530c的任何类型的软件。所属领域的一般技术人员将认识和了解到计算装置500可经配置以具有多个显示装置530c的各种方式和实施例。
在图2A和图2B中描绘的类别的计算装置500可在操作系统的控制下操作,操作系统控制任务的安排和对系统资源的存取。计算装置500可正运行任何操作系统、任何嵌入式操作系统、任何实时操作系统、任何开放式源代码操作系统、任何专属操作系统、用于移动计算装置的任何操作系统或能够在计算装置上运行且执行本文中描述的操作的任何其它操作系统。
计算装置500可为任何工作站、桌上型计算机、膝上型计算机或笔记本计算机、服务器机器、手持式计算机、移动电话或其它便携式电信装置、媒体播放装置、游戏系统、移动计算装置,或能够通信且具有足够的处理器能力和存储器容量以执行本文中描述的操作的任何其它类型和/或形式的计算、电信或媒体装置。在一些实施例中,计算装置500可为虚拟化的计算装置且所述虚拟化的计算装置可在网路连接或基于云的环境中运行。在一些实施例中,计算装置500可具有与所述装置一致的不同处理器、操作系统和输入装置。
在其它实施例中,计算装置500为移动装置,例如,具备Java能力的蜂窝式电话或个人数字助理(PDA)、智能电话、数字音频播放器或便携式媒体播放器。在一些实施例中,计算装置500包括装置的组合,例如,移动电话与数字音频播放器或便携式媒体播放器组合。
如图2C中所展示,中央处理单元521可包括多个处理器P1、P2、P3、P4,且可提供用于指令的同时执行或用于一个指令在一个以上数据段上的同时执行的功能性。在一些实施例中,计算装置500可包括具有一或多个核心的并行处理器。在这些实施例中的一者中,计算装置500为共享存储器并行装置,具有多个处理器和/或多个处理器核心,其存取作为单一全局地址空间的所有可用存储器。在这些实施例中的另一者中,计算装置500为具有多个处理器的分散式存储器并行装置,每一处理器只存取本地存储器。在这些实施例中的再一者中,计算装置500具有共享的某一存储器和可仅由特定处理器或处理器的子集存取的某一存储器。在这些实施例中的再另一者中,中央处理单元521包括多核心微处理器,其将两个或两个以上独立处理器组合成单一封装,例如,组合成单一集成电路(IC)。在图2D中描绘的一个示范性实施例中,计算装置500包含至少一个中央处理单元521和至少一个图形处理单元521'。
在一些实施例中,中央处理单元521提供单一指令多数据(SIMD)功能性,例如,单一指令同时在多个数据段上的执行。在其它实施例中,中央处理单元521中的若干处理器可提供用于多个指令同时在多个数据段上的执行的功能性(MIMD)。在再一实施例中,中央处理单元521可使用SIMD与MIMD核心在单一装置中的任何组合。
计算装置可为由网络连接的多个机器中的一者,或其可包括如此连接的多个机器。图2E展示示范性网络环境。网络环境包括经由一或多个网络504与一或多个远程机器506a、506b、506c(也通常被称作服务器机器506或远程机器506)通信的本地机器502a、502b(也通常被称作本地机器502、客户端502、客户端节点502、客户端机器502、客户端计算机502、客户端装置502、端点502或端点节点502)。在一些实施例中,本地机器502具有充当寻求对由服务器机器提供的资源的存取的客户端节点和充当提供对用于其它客户端502a、502b的代管资源的存取的服务器机器两者的能力。虽然图2E中说明仅两个客户端502和三个服务器机器506,但一般来说各自可存在任意数目个。网络504可为局域网(LAN),例如,例如公司企业内部网的私用网络、城域网(MAN)或例如因特网的广域网(WAN)或另一公用网路或其组合。
计算装置500可包含网络接口518以通过多种连接介接到网络504,所述连接包含(但不限于)标准电话线、局域网(LAN)或广域网(WAN)连结、宽频带连接、无线连接或以上中的任何者或全部的组合。可使用多种通信协议建立连接。在一个实施例中,计算装置500经由任何类型和/或形式的网关或穿隧协议(例如,安全套接层(SSL)或输送层安全(TLS))与其它计算装置500通信。网络接口518可包括适合于将计算装置500介接到能够通信和执行本文中描述的操作的任何类型的网络的内置网卡,例如,网络接口卡。I/O装置530可为系统总线550与外部通信总线之间的电桥。
根据本发明的各种实施例,探索和发现技术是针对在无用户输入的情况下发现受关注的现象——换句话说,在用户未明确查找与用户相关的信息的情况下识别此信息。归类技术聚焦于将文档(例如,文本、音频和视频)分类成预定义的种类,例如,“客户已要求对主管讲话的所有呼叫”。
图3为根据本发明的一个实施例的种类分布报告的截屏。在此报告中,已将已在前面7天中发生的话音呼叫、客户-代理电话对话(或交互)分类成表示针对呼叫的已知原因的集合的种类(例如,预定义的种类)。在其它实施例中,聚合在不同时间周期上(例如,在过去的一天、在过去的一个小时、在过去的一个月、自从特定日期或在两个任意日期之间)的对话。此外,在其它实施例中,交互可限于特定通信信道(例如,电话、电子邮件、聊天和社交媒体中的一或多者),限于来自特定联系中心的交互,或限于来自特定部门(例如,销售或客户支持)的交互。
图4为说明根据本发明的一个实施例的用于定制和定义预定义的种类的接口的截屏。可将每一预定义的种类定义为其中可将每一话题定义为短语或字词的联合的话题的某一布尔型表达,由此产生用以对交互分类的一组归类规则。举例来说,图4说明“重复呼叫或联系”种类的定义,所述种类由具有‘至少一次发现话题“重复呼叫”,具有非常低的严密性,或至少一次发现话题“重复联系”,具有非常低的严密性’的交互定义。可(例如)通过检测特定触发事件(例如,来自特定电话号码的多个呼叫的记录)或通过识别交互中的特定短语(例如,“谢谢两次呼叫”)来触发“重复呼叫”和“重复联系”话题。
当布尔型表达的这些短语中的一者在对话中讲到时,各种语音辨识技术可在音频中辨识到其。(一项此技术为如在美国专利7,487,094“具有基于合成字词的上下文模型化的呼叫分类的系统和方法”中描述的短语辨识,其内容被以引用的方式并入本文中)。在其它实施例中,在其它媒体(例如,文本聊天)上进行交互,且使用检测短语的其它适当方法。在检测到这些短语中的一者后,其触发这些短语属于的话题的检测。触发话题馈入匹配给定种类的适当归类规则的检测,且根据匹配种类标注交互。
因此,根据一个实施例,分析服务器45可通过计数在给定时间周期内属于每一种类的交互的数目来产生种类分布报告。
根据本发明的一个实施例,分析服务器45给用户提供查看或“探索”有关单词的能力,如(例如)在图5中所说明。用户可从单个字词开始,且探索开始字词与其它字词在各种对话中的共同出现率。举例来说,图5描绘词“信用”与其它字词在相关呼叫的集合中的关系或共同出现率。
根据本发明的一个实施例,分析服务器45和话题检测模块45a提供通过用户接口模块45c的用户接口,用于用户从一组种类(例如,一组预定义的种类)选择种类,和选择在某一间隔(例如,前7天)中被分类到此种类内的一群呼叫,且请求关于为何将所述一群呼叫分类到给定种类内的信息。分析服务器45和用户接口模块45c可对用户呈现常出现且提供关于此种类的出现率的信息的字词和短语(例如,出现频率比其一般在此种类内的出现率高的字词),因此表征原因或此种类引起何结果。以下将关于图7描述用于归类交互的系统和方法。
图6说明根据本发明的一个实施例的用于探索关键术语(或“关于种类的蜂音”)的聚集的用户接口6。参看图6,可在字段61中指定文档的时间范围。交互(或文档)和通用字段(例如,商业种类)的语言也可在字段62中指定,且可在复选框63中选择交互的类型(例如,来自电话呼叫、聊天、电子邮件和社交媒体交互的音频)。如图6中所展示,列举呼叫的各种定义的种类67,例如,“帐户余额”、“记账问题”、“升级”、“不满意度”和“正反馈”,其中每一行展示被分类到给定种类内的交互的百分比,总交互数匹配所述种类,和来自先前周期的百分比改变(例如,如果当前展示的百分比是针对过去的一周,那么可与(例如)两周前或(作为另一实例)去年的同一周相比展示百分比改变)。
当选择对应于种类的行(例如,在图6中,选择“不满意度”行)时,可在用户接口的边框65中展示关于选定种类的额外信息。如在图6中看出,在选定种类内的交互所共同的来自交互的短语展示于边框65中。在一些实施例中,字词的大小可对应于短语出现在交互中的频率。此外,在一些实施例中,用户接口也可展示展示随着时间的过去在此种类中的交互的数目的曲线图。
图7为根据本发明的一个实施例的由分析服务器45和用于从交互提取概念(例如,文本和音频的文本转录)的话题检测模块45a执行的过程的流程图。根据一个实施例,将在语义上有关的语句分群在一起(或聚集),作为传达同一理念。聚集为机器学习技术,其可用以将语句作为输入和当语句的重要部分显得类似或相同时将所述语句群集在一起。这些群集中的每一者为如上所提到概念。因此,为了发现关于(或有关于)特定种类的蜂音(或活动),出现在与一种类相关联的短语的位置周围(例如,所述短语前后30秒)的文本,且对此文本执行聚集,如下文更详细解释。
参看图7,根据本发明的一个实施例,通过将交互的全部主体(或文本的全部主体)供应到经配置以执行归类的系统(例如,如图1中展示的分析服务器45,其可为如图2A中所展示的计算机系统500,包含如图1中展示的话题检测模块45a)从交互提取概念或短语。
当正被处理的交互为大词汇量连续语音辨识(LVCSR)的输出时,接着在操作100中筛选出低置信度字词,且仅具有高置信度的字词保留在待处理的文本中。如果对电子邮件、聊天或其它文本进行探索,那么使用全部文本。
为了关于话题的探索,根据一个实施例,仅使用来自话题辨识前后特定时间界线(例如,话题前后30秒)内的文本,且在操作101中筛选出其它数据。
在操作102中,自经筛选的文本创建“语句”。如本文中所使用和定义,“语句”指文本中的连续字词块,且些字词块未必对应于特定语法或正字法单元(例如,开始于大字字母且在一个周期中结束的完整的语法语句或一连串字词)。举例来说,在一个实施例中,创建具有重迭的n元语法(重迭n元语法),其中n可为4,其意味每连续4个字形成“语句”。然而,在本发明的其它实施例中,n可为大于1的任一其它整数。此外,n元语法仅为从字词创建语句的一个方式,且在其它实施例中,可应用形成“语句”或连续字词块的其它方法。
在操作103中,从字词在语句中的突出性计算语句的突出性。根据一个实施例,使用字词的倒置文档频率(IDF)测量字w的突出性,且语句的突出性由在语句中的所述字中的每一者的IDF的总和的平方给出:
Figure GDA0001144387120000181
Figure GDA0001144387120000182
其中N为集合中的文档的总数,且DF(w)为字w出现的文档的数目。
为了使聚集更快,在一个实施例中,仅使用最突出的语句。因而,在操作104中,通过按突出性分拣语句且丢弃相对于顶尖突出性语句具有低突出性的语句来删除语句。举例来说,在一个实施例中,从考虑中去除具有小于顶尖突出性语句的突出性的5%的语句。在操作105中,将语句聚集以将彼此仅因较不突出字词而不同的类似语句分群在一起。语句的类似性可基于各种文本挖掘措施来测量,且以下更详细地描述。
在操作106中,基于文本挖掘措施计算每一群集的突出性。根据一个实施例,从群集的语句的突出性的加权和构建群集的突出性:
Figure GDA0001144387120000183
以类似于针对语句删除所描述的方式,在一个实施例中,仅顶部群集将对用户呈现,且可删除具有较低突出性的群集。
在操作107中,用在群集中既提供信息又频繁的一连串字词来命名群集。对于阶数Nclustering≥N≥2的群集中的所有语句(或n元语法),其中N为n元语法等级,语句的长度,我们计算:
Figure GDA0001144387120000184
其中在上文定义了n元语法的IDF,且n元语法的TF为此n元语法出现在群集中的次数。
注意,此公式在长字词序列与短字词序列之间平衡。长序列将具有较大IDF,这是由于IDF从字词IDF的总和构建,但具有较低TF。短序列将具有较大计数(或TF),但具有较低IDF。
因而,可用具有最大TFIDFNG的群集的n元语法命名所述群集。
根据一个实施例,用公式表示n元语法之间的类似性的度量,其中如果两个n元语法含有相同的重要字词,那么其更类似,且如果所述重要字词未在其间共享,那么其较不类似。以下类似性度量Sim展现这些特性:
Figure GDA0001144387120000193
Figure GDA0001144387120000194
其中sent1和sent2为待按类似性比较的语句。
使用此度量,两个语句中含有的突出性将增大类似性,且所述语句中的仅一者中含有的突出性将减小类似性。
图8为说明根据本发明的一个实施例的由分析服务器45和话题检测模块45a执行以用于聚集语句的方法的流程图。
参看图8,在操作200中,语句经随机选择以充当用于群集的中心(模板)。此为聚集算法中的标准程序,然而,在本发明的实施例中,中心并非(将为典型的)数字向量,而取而代之,为字词序列,且聚集过程是基于以稍微类似的方式在两个语句中出现的字词。例如,见H.Ye和S.Young的“语义解码的聚集方法(A ClusteringApproach to SemanticDecoding)”,ICSLP 2006,匹兹堡,PA(2006),其全部揭示内容被以引用的方式并入本文中。
在操作201中,使用类似性公式(例如,以上描述的语句类似性函数Sim)将聚集处理中涉及的语句中的每一者与群集中心(模板)中的每一者比较。
在操作202中,将每一语句指派到具有与其最高的类似性的群集,其限制条件为此类似性也大于阈值类似性(例如,预定义的阈值)。
在操作203中,所述过程移除极少语句或语句指派到的模板。
在操作204中,如果已将所有语句尝试作为模板或已达到某一数目个反复,那么已符合结束条件,且聚集过程结束。如果未满足结束条件,那么所述过程返回到操作200且选择额外语句充当模板,其中随机地从尚未被尝试作为模板的语句的集合选择额外语句。
因此,本发明的实施例可基于检测有关短语来自动地识别和指派到对话的新话题的名称,且将交互标注(或加标签或分类)为涉及这些话题,而不由用户手动键入触发短语。
根据本发明的另一实施例,可对在较早处理阶段指派的概念和/或种类使用根本原因挖掘程序以推断其间的关联规则(例如,逻辑暗示)。举例来说,种类和/或概念A、B与C之间的关联规则(例如,A,B→C)可指示C的根本原因为具有在C之前在同一呼叫或文档中出现的A和B。此处,A、B和C可为预定义的种类或新发现的概念,或其混合。为了说明,其描述于图9中。图9为说明用于查询和查看推断的关联规则的用户接口的截屏。将关联规则连同其中的每一者的支持和置信度水平连同提升和突出性度量一起展示。以下将关于图10、11和12描述用于执行根因分析以产生图9中展示的推断的关联规则的系统和方法。
在本发明的另一实施例中,组合以上描述的两个方法:首先,用户可选择种类(例如,种类“C”)且接着选择“搜索”与其它种类的关系。分析服务器45的根本原因挖掘模块45b接着执行引起种类C的种类的关联规则的挖掘,即,在其右手边(RHS)具有C的规则(例如,B→C)。为了更深的调查,用户可接着选择看“关于关系的蜂音”。根本原因挖掘模块45b可接着以与如图5中所展示的“关于种类的蜂音”类似的方式只从具有此关系的交互的集合提取概念,图5为说明根据本发明的一个实施例的用于探索多个交互中的话题之间的关系的接口的截屏。此外,根本原因挖掘模块45b可经配置且被约束于只看开始于种类B前且结束于种类C后的交互的部分。
一般来说,如本文中所使用,“术语”(或“短语”)为“话题”的部分,且“话题”为“种类”的部分。本文中描述的系统和方法可应用于这些等级中的任一者(术语/短语、话题或种类)。举例来说,术语“我想对主管讲话”可为“升级”话题的部分,“升级”话题可为种类“客户在同一呼叫中不止一次要求升级”的部分。本发明的实施例可应用于这些等级中的任何者和所有,且为方便起见,本文中关于话题来描述。然而,本发明的实施例不限于与话题一起使用,且可用于其它等级处,例如,术语、短语和种类。
图9为列出根据本发明的一个实施例的原因与事件之间的演绎的关联规则连同用于导出的推断规则中的每一者的支持、置信度、提升和突出性等级的截屏。支持、置信度、提升和突出性为可由用户查看以评估导出的推断规则中的每一者的质量的计算的度量且在下文更详细地描述。在此图中,我们提出话题之间的关联规则,但术语/短语或种类之间的关联规则可经产生且以大体上相同方式使用。用户可通过从“目标话题”下拉框选择特定话题(例如,客户“不满意度”)来搜索涉及所述话题的规则,在此情况下,将展示在“右手边”上的含有“不满意度”的规则。用户还可将结果限制于匹配特定准则的规则(例如,最小提升和/或最小置信度)。在图9中展示的实例中,仅返回满足最小置信度70的规则,且如果在“目标话题”下选择了“不满意度”话题,那么将在涉及“不满意度”概念的规则当中仅展示规则“转帐+争论→不满意度”和“未缴费+推迟→不满意度”。
如上所述,本发明的实施例可用以挖掘预定义的话题或种类之间、发现的概念之间或两者的相关性和因果关系。为方便起见,挖掘的目标不论其是否为预定义的话题的个例或发现的概念的个例,将都被称作“要素”。
图10为说明根据本发明的一个实施例的由分析服务器45和根本原因挖掘模块45b执行以用于确定事件的原因的过程的流程图。
待分析的文档的集合可为交互的全部集合,或由应用程序定义或由用户选择的文档的任何子集(例如,仅呼叫、仅聊天、不同于销售呼叫的所有交互等)。为了识别文档集合内的频繁序列,对于给定文档集合中的每一文档,在操作300中筛选出低于某一置信度值的要素,且在操作301和302中,创建通过递增要素开始时间分拣的要素ID的序列。在话题或种类的情况下,要素的开始时间为话题中含有的术语的辨识开始时间。在发现的概念(例如,语句的群集)的情况下,要素开始时间为第一字词在群集中含有的语句中的辨识开始时间。在操作303中,可接着通过消除连续类似话题的出现来精简序列的集合。
接着在操作304中使用例如PrefixSpan(见Pei J、Han J、Mortazavi-Asl B、WangJ、Pinto H、Chen Q、Dayal U、Hsu M-C通过样式增长挖掘依序样式:PrefixSpan方法,IEEE知识与数据工程学报16:1424-1440(2004))的用于挖掘频繁序列的算法来挖掘所得集合,从而导致具有大于最小支持阈值s的支持的样式的集合F。
在操作305中通过删除具有重复(甚至非连续重复)的序列来精简样式的集合F。举例来说,样式(a,d,a,b)不比样式(a,d,b)更受关注得多。为了减小对终端用户呈现的输出的大小,将删除样式(a,d,a,b)。此外,删除非重复样式可确保从所述样式导出的关联规则不含有在条件(LHS)和结果(RHS)中的相同要素。可从样式的集合F去除样式(a,d,a,b),而不失去关于要素{a,d,b}之间的关系的信息,因为在精简集合F后,样式(a,d,b)和(d,a,b)保留于集合F中。
更正式地,给定频繁样式的集合F和具有项目e的重复的样式p,通过去除重复e创建的样式p'存在于F中:
Figure GDA0001144387120000221
Figure GDA0001144387120000222
其中sup(p)为支持函数,其将定义为样式p出现于所有文档中的次数。
此外,可在不更新(a,d,b)和(d,a,b)的支持的情况下执行此程序,因为已针对样式(a,d,b)和(d,a,b)计数(a,d,a,b)的每一个例。
在于操作305中精简F中的样式的集合后,在操作306中,计算用于F中的样式的关联规则。
图11为更详细地说明根据本发明的一个实施例产生图10中展示的过程的关联规则306的操作的流程图。参看图11,根据本发明的实施例的另一方面,关联规则可由分析服务器45和话题检测模块45a根据以下方法来计算:
在产生关联规则时处理在操作304(见图10)中挖掘的样式F。对于样式F中的每一序列样式p(400),在操作401中检查样式p的长度。如果p仅具有一个要素,那么样式p被抛弃且不作考虑,且过程继续F中的下一个样式p(见操作408)。如果p具有一个以上要素,那么将p分裂成第一部分p1(或“左手边”或LHS)和第二部分p2(或“右手边”或RHS)以在操作402中初始化第一部分p1和第二部分p2,其中p1经初始化以包含p的所有但非最后一个要素,且p2经初始化以仅包含p的最后一个要素。
产生且存储从第一部分p1到第二部分p2(p1→p2或LHS→RHS)的推断规则。接着在操作403中计算推断规则的置信度,其中将置信度计算为:
Figure GDA0001144387120000223
规则的置信度表示在文档中具有其RHS的概率,假定文档含有其LHS。换句话说,给定条件(LHS),然后看到结果(RHS)的概率是什么?
在操作404中,将计算的置信度与阈值比较,且如果置信度高于给定阈值,那么在操作407中将规则添加到结果集合。为了进一步从同一样式产生更多潜在规则,将p1的最后一个要素移动到p2的开始。如果此尚未使p1为空(如在操作406中检查),那么产生具有修改的第一部分p1和第二部分p2的新推断规则,且在操作403中计算新推断规则的置信度。
如果计算的置信度小于阈值或如果p1不再具有任何要素,那么停止从当前样式产生规则。如果在F中存在更多样式,如在操作408中所确定,那么在操作401中,过程继续下一个样式。否则,在操作409中返回存储的结果集合中高于阈值的规则。
除了计算规则中的每一者中的置信度之外,还可在操作403中或在操作409中返回结果集合后计算规则的提升和突出性。可如下计算性质提升和突出性:
Figure GDA0001144387120000231
Figure GDA0001144387120000232
其中
Figure GDA0001144387120000233
其中N为集合中的样式的总数,且DF(e)为要素e出现的样式的数目。此公式非常类似于用于以上描述的聚集算法的语句突出性计算。
提升为RHS对LHS的概率相依性的度量。较低提升指示事件(即,LHS和RHS)更独立;例如,具有提升≤1。较高提升指示其更相依于彼此;例如,具有提升>1。
突出性为在给定整个样式集合的情况下样式中含有的信息的量的度量。可将其看作在集合中出现的所有样式当中的样式的相对重要性或显著性。较高突出性指示样式更受关注。
结果集合中的规则还可按置信度、提升和突出性来分拣。
图12为根据本发明的一个实施例的如(例如)在图10和11中展示的根本原因挖掘过程的输出的说明。如图12中所展示,卵形中的每一者表示特定检测的要素或挖掘的目的,其中要素包含:
表1:
Figure GDA0001144387120000234
然而,在其它实施例中且当处理不同情境(例如,客户支持、不同产品的销售等)中的各种其它交互时,不同要素将出现在所述样式中。从左到右的每一箭头路径表示不同的要素序列,且较深或较强烈加粗的箭头表示就较高提升而言更好的样式。因而,具有较强烈加粗的箭头的路径指示引向右边事件的事件之间的可能途径。
举例来说,事件“TRT,Pur”具有与路径Z→Pos→A的强连接,表明“区属和受限制事件”、接着“推迟、取消、遇雨延期、可能发生”和“应用优惠券和支持者代码”的序列导致“购买过程”和“TRT问题买家”事件。当用户想要探索增大导致“购买过程”事件的交互的数目的方式时,用户可通过用户接口模块45c(例如见图9)将查询供应给分析服务器45以搜索导出的规则中的“购买过程事件”,分析服务器45可搜索图12中说明的数据结构以识别通常导致所要的事件的一组事件。如图12中所见,Z→Pos→A的以上论述的路径和路径Z→Pos都强烈地导致事件TRT Pur,且如果这些路径满足由用户设定的阈值条件(例如,最小置信度水平),那么这些路径将返回且对用户显示,如在(例如)图9中所见。
本发明的实施例可作为方法或系统来实践。包含(例如)微处理器、存储器、网络通信装置和大容量存储装置的计算机装置或系统可用以按自动化或半自动化方式执行以上描述的过程。换句话说,可将以上过程译码为计算机可执行代码且由计算机装置或系统处理。
从以上还应了解,本文中描述的各种结构和功能可并入到多种设备内。在一些实施例中,例如处理器、控制器和/或逻辑的硬件组件可用以实施描述的组件或电路。在一些实施例中,在一或多个处理装置上执行的例如软件或固件的代码可用以实施所描述的操作或组件中的一或多者。
如所属领域的一般技术人员将理解,本文所描述且如在图中的流程图中所说明的方法可由存储在计算机存储器中的指令实施以控制计算机处理器执行描述的功能。此外,在流程图中展示的步骤和操作不需要按所展示的次序来执行,且所属领域的一般技术人员在进行本发明时,在不脱离或大体上更改基础技术的情况下,执行的步骤和操作的次序可变化。
虽然已经关于某些示范性实施例来描述本发明,但应理解,本发明不限于所揭示的实施例,而相反地,本发明旨在涵盖包含于所附权利要求的精神和范围内的各种修改和等效布置和其等效内容。

Claims (8)

1.一种用于识别多个交互中的概念的方法,所述方法包括:
由包括处理器和存储器的分析系统的一话题检测模块基于间隔筛选所述交互;
在所述处理器上从所述经筛选的交互创建多个语句,所述语句中的每一者包括一个以上字词;
在所述处理器上计算每一所述语句的突出性;
在所述处理器上删除具有低突出性的语句,以便产生一组信息性语句;
在所述处理器上基于语义类似性聚集所述一组信息性语句中的所述语句,以便产生多个语句群集,所述群集中的每一者对应于所述概念中的一概念;
在所述处理器上计算所述群集中的每一者的突出性;
在所述处理器上将一命名指派到所述群集中的每一者,所述命名包括所述对应的群集中的一语句的一或多个字词;以及
显示指派到具有高突出性的群集的所述命名以作为经识别的所述概念。
2.根据权利要求1所述的方法,其中所述交互包括话音辨识系统的输出。
3.根据权利要求2所述的方法,其进一步包括基于字词置信度筛选所述话音辨识系统的所述输出。
4.根据权利要求1所述的方法,其中所述间隔为时间间隔。
5.根据权利要求1所述的方法,其中所述聚集所述语句包括:
从所述一组信息性语句选择多个模板语句,所述模板语句中的每一者对应于所述群集中的一者;
计算所述一组信息性语句中的每一语句与所述模板语句的类似性;
根据与所述模板语句的所述计算的类似性,将所述一组信息性语句中的所述语句中的每一者指派到所述群集中的一群集;以及
去除具有少于阈值数目个指派的语句的群集。
6.根据权利要求5所述的方法,其中所述聚集所述语句进一步包括反复地从未指派到群集的语句选择额外模板语句和重复所述选择所述多个模板语句,计算每一语句与所述模板语句的所述类似性;所述将所述语句中的所述每一者指派到所述群集;以及去除具有少于所述阈值数目个指派的语句的群集,直到所有语句被指派或直到达到反复限制。
7.根据权利要求1所述的方法,其中所述将一命名指派到所述群集中的每一者包括对于每一群集:
计算所述群集中的每一语句的词频-倒置文档频率,以及
命名具有所述群集中的具有最高词频-倒置文档频率的语句的所述群集。
8.根据权利要求1所述的方法,其进一步包括:
在处理器上接收包括概念的查询;
由所述处理器检索含有所述概念的群集,所述群集为所述多个语句群集中的一者;以及
显示所述检索的群集。
CN201480053132.9A 2013-07-26 2014-07-24 用于发现和探索概念的系统和方法 Active CN105745679B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US13/952,459 2013-07-26
US13/952,459 US9971764B2 (en) 2013-07-26 2013-07-26 System and method for discovering and exploring concepts
US13/952,470 US10061822B2 (en) 2013-07-26 2013-07-26 System and method for discovering and exploring concepts and root causes of events
US13/952,470 2013-07-26
PCT/US2014/048089 WO2015013554A1 (en) 2013-07-26 2014-07-24 System and method for discovering and exploring concepts

Publications (2)

Publication Number Publication Date
CN105745679A CN105745679A (zh) 2016-07-06
CN105745679B true CN105745679B (zh) 2020-01-14

Family

ID=52393853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480053132.9A Active CN105745679B (zh) 2013-07-26 2014-07-24 用于发现和探索概念的系统和方法

Country Status (4)

Country Link
EP (1) EP3025295A4 (zh)
KR (1) KR102111831B1 (zh)
CN (1) CN105745679B (zh)
WO (1) WO2015013554A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10061822B2 (en) 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events
US9971764B2 (en) 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
CN107864457B (zh) * 2017-10-18 2021-06-01 上海复旦通讯股份有限公司 一种在铁路通讯网络中进行多呼叫管理的方法
CN108345583B (zh) * 2017-12-28 2020-07-28 中国科学院自动化研究所 基于多语注意力机制的事件识别及分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261181A (zh) * 1999-01-19 2000-07-26 国际商业机器公司 自动进行音频内容分析的系统和方法
CN1274440A (zh) * 1998-06-02 2000-11-22 索尼公司 信息处理装置和方法、及信息提供媒体
CN101547261A (zh) * 2008-03-27 2009-09-30 富士通株式会社 关联赋予装置、关联赋予方法和记录介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860063A (en) * 1997-07-11 1999-01-12 At&T Corp Automated meaningful phrase clustering
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US7584100B2 (en) * 2004-06-30 2009-09-01 Microsoft Corporation Method and system for clustering using generalized sentence patterns
US20080154579A1 (en) * 2006-12-21 2008-06-26 Krishna Kummamuru Method of analyzing conversational transcripts
US8156378B1 (en) * 2010-10-15 2012-04-10 Red Hat, Inc. System and method for determination of the root cause of an overall failure of a business application service
TW201025035A (en) * 2008-12-18 2010-07-01 Univ Nat Taiwan Analysis algorithm of time series word summary and story plot evolution
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US8566360B2 (en) * 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1274440A (zh) * 1998-06-02 2000-11-22 索尼公司 信息处理装置和方法、及信息提供媒体
CN1261181A (zh) * 1999-01-19 2000-07-26 国际商业机器公司 自动进行音频内容分析的系统和方法
CN101547261A (zh) * 2008-03-27 2009-09-30 富士通株式会社 关联赋予装置、关联赋予方法和记录介质

Also Published As

Publication number Publication date
EP3025295A4 (en) 2016-07-20
EP3025295A1 (en) 2016-06-01
KR20160039273A (ko) 2016-04-08
CN105745679A (zh) 2016-07-06
KR102111831B1 (ko) 2020-05-15
WO2015013554A1 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
US10446135B2 (en) System and method for semantically exploring concepts
US10061822B2 (en) System and method for discovering and exploring concepts and root causes of events
US11425255B2 (en) System and method for dialogue tree generation
US9971764B2 (en) System and method for discovering and exploring concepts
US10824814B2 (en) Generalized phrases in automatic speech recognition systems
KR102121135B1 (ko) 기계 학습에 기반한 최적화된 컨택 센터 에이전트와의 라우팅 인터랙션
US10061867B2 (en) System and method for interactive multi-resolution topic detection and tracking
US9426289B2 (en) Techniques for topical customer service menu reconfiguration based on social media
US9026591B2 (en) System and method for advanced communication thread analysis
US10397157B2 (en) Message management in a social networking environment
US8731918B2 (en) Method and apparatus for automatic correlation of multi-channel interactions
GB2479825A (en) Customisation of consumer service level at a contact centre according to influence credentials on a social networking site, e.g. facebook
CN105745679B (zh) 用于发现和探索概念的系统和方法
EP3633569A1 (en) Building of knowledge base and faq from voice, chat, email, and social interactions
JP2006235952A (ja) 情報分析・活用に関するビジネスモデル

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant