CN110377709A - 一种减少机器人客服运维复杂度的方法及装置 - Google Patents

一种减少机器人客服运维复杂度的方法及装置 Download PDF

Info

Publication number
CN110377709A
CN110377709A CN201910477065.8A CN201910477065A CN110377709A CN 110377709 A CN110377709 A CN 110377709A CN 201910477065 A CN201910477065 A CN 201910477065A CN 110377709 A CN110377709 A CN 110377709A
Authority
CN
China
Prior art keywords
message data
response message
knowledge base
response
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910477065.8A
Other languages
English (en)
Other versions
CN110377709B (zh
Inventor
杜剑文
李辉权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Youlan Robot Technology Co Ltd
Original Assignee
Guangdong Youlan Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Youlan Robot Technology Co Ltd filed Critical Guangdong Youlan Robot Technology Co Ltd
Priority to CN201910477065.8A priority Critical patent/CN110377709B/zh
Publication of CN110377709A publication Critical patent/CN110377709A/zh
Application granted granted Critical
Publication of CN110377709B publication Critical patent/CN110377709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种减少机器人客服运维复杂度的方法及装置,为了解决占用了人工客服大量的时间成本,人工运维的复杂度很高的问题,通过计算会话消息数据与知识库中的各应答消息数据的应答相似度,读取应答相似度最大的应答消息数据作为第一应答消息数据,最终得到有效答案用户客户端并记录到知识库中,不仅解决了知识库快速的更新的问题,而且缩短了人工客服确认的响应时间,在会话过程中回答自然流畅,在人工客服繁忙的时间段,答案有效性自动确认,减少了人工客服大量的时间成本,降低了人工运维的复杂度。

Description

一种减少机器人客服运维复杂度的方法及装置
技术领域
本公开涉及机器人智能交互技术领域,具体涉及一种减少机器人客服运维复杂度的方法及装置。
背景技术
客服机器人的智能客服服务提供给用户服务一般来说是单向的,即在知识库中预先存有应答消息,根据用户提出的问题检索到相应的应答消息,推送给用户的客户端,这样的传统的方式由于知识库不会更新,因此,在客户问出题外的问题后,准确率不高,客服体验不佳,尤其是客服机器人部署的初级阶段,在知识库没有累积知识的情况下,只能简易的恢复常见问题,而目前的智能机器人客服针对这个问题的解决方案为,中国专利申请号CN201510917566.5公开的一种智能机器人与人混合客服的方法及系统,通过智能机器人答复问题,并通过置信度阈值智能判断出是否需要将问题转交给人工客服,人工客服处理后,智能机器人将问题和答案自动记录到知识库中;这样虽然能够处理知识库不会更新的问题,但是由于在通过置信度阈值智能判断出是否需要将问题转交给人工客服,需要等待人工客服响应的时间,这样实际上会使得在会话过程中无法回答自然流畅,尤其是在人工客服繁忙的时间段,确认答案有效性,占用了人工客服大量的时间成本,人工运维的复杂度很高,因此这种现象尤其突出。
发明内容
本公开提供一种减少机器人客服运维复杂度的方法及装置,为了解决占用了人工客服大量的时间成本,人工运维的复杂度很高的问题,通过计算会话消息数据与知识库中的各应答消息数据的应答相似度,读取应答相似度最大的应答消息数据作为第一应答消息数据,最终得到有效答案用户客户端并记录到知识库中。
为了实现上述目的,根据本公开的一方面,提供一种减少机器人客服运维复杂度的方法,所述方法包括以下步骤:
步骤1,机器人客服接收来自用户客户端的会话消息数据;
步骤2,抽取会话消息数据的主题词并划分场景类别;
步骤3,计算会话消息数据与知识库中的各个问题消息数据的问题相似度,读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据;
步骤4,如果最大的问题相似度小于问题相似度阈值则转人工客服,如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端;
步骤5,人工客服根据会话消息数据进行答复得到第二应答消息数据后,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度;
步骤6,如果各个应答相似度的最大值大于应答相似度阈值,则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。
进一步地,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据,所述机器人客服包括用户客户端、知识库,知识库包括多个场景分类,每个场景分类包括多个问题消息数据,每个问题消息数据都有至少一个对应的应答消息数据。
进一步地,在步骤2中,抽取主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法,并在将预进行意图识别的会话消息数据中删除不同类别中重复的主题词,最后得到的主题词作为最终主题词抽取的结果,在知识库中分类得到场景类别的方法为,若会话消息数据中包含某个主题词,则把该主题词对应的场景类别的概率标记为1,其他场景类别的概率都标记为0,得到会话消息数据对应所有场景类别的概率分布PA=[p1,p2,p3,…pd],d表示知识库中总共的场景类别数目,p1,p2,p3,…pd分别为第1~第d场景类别的概率。
例如,如果“萝卜”一词为果蔬场景类别的主题词,当对话语句会话消息数据为“你喜不喜欢吃萝卜”这句话时,会话消息数据中包含“萝卜”这个主题词,则判断会话消息数据的果蔬场景类别概率为1,其他场景类别概率为0。
进一步地,在步骤3中,计算会话消息数据与知识库中的各个问题消息数据的问题相似度的方法包括以下步骤:
步骤3.1,计算会话消息数据的主题词的交叉熵值:令会话消息数据的主题词为先验条件W,知识库的每个场景类别中的各个问题消息数据的主题词W与场景类别Ci,会话消息数据的主题词W的期望交叉熵为:
交叉熵反应了场景类别的概率分布与出现了会话消息数据的主题词后场景类别概率分布之间的距离,该距离越大说明会话消息数据的主题词对类别判断的影响越大,同样,知识库中的各个问题消息数据的主题词抽取方法为步骤2中的方法;
其中,p(Ci)表示属于场景类别Ci的知识库中的各个问题消息数据占所有消息数目的比重,p(W)表示包含主题词W的问题消息数据占所有问题消息数据数目的比重,p(Ci|W)表示在包含主题词W的消息中属于类别Ci的消息所占的比重,n为知识库中场景类别的总数量;
交叉熵值表示根据会话消息数据的主题词W写入知识库中与消息的场景类别相关性,该值越大说明会话消息数据的主题词W可能属于知识库中的场景类别的可能性越大,消息分为会话消息数据与知识库中的问题消息数据;
步骤3.2,计算卡方值:在会话消息数据与知识库中由会话消息数据的主题词和知识库中的问题消息数据出现主题词的频数构成卡方频数矩阵,令Or,c表示会话消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个值的期望值Er,c
卡方值χ2越大说明X与Y的相关性越大,消息包括会话消息数据与知识库中的问题消息数据;
步骤3.3,计算会话消息数据与知识库中的各问题消息数据的问题相似度Wi
其中TFi是交叉熵值大于交叉阈值的消息i中出现的次数,DFi是卡方值χ2大于卡方阈值的消息i中出现的次数,i取值范围为1到N,N是知识库中所有消息的总数,其中,交叉阈值和卡方阈值取值范围为0到1,交叉阈值为0.8,卡方阈值为0.8。
其中,所述知识库包括多个场景分类,每个场景分类包括多个问题消息数据,每个问题消息数据都有至少一个对应的应答消息数据。
进一步地,在步骤4中,问题相似度阈值取值范围为0到1,根据二八定律,相似度阈值默认值为0.8。
进一步地,在步骤5中,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度的方法包括以下步骤:
步骤5.1,抽取第二应答消息数据的主题词并划分场景类别,抽取第二应答消息数据的主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法,并在将预进行意图识别的第二应答消息数据中删除不同类别中重复的主题词,最后得到的主题词作为最终主题词抽取的结果,在知识库中分类得到场景类别的方法为,若第二应答消息数据中包含某个主题词,则把该主题词对应的场景类别的概率标记为1,其他场景类别的概率都标记为0,得到第二应答消息数据对应所有场景类别的概率分布PA=[p1,p2,p3,…pd],d表示知识库中总共的场景类别数目,p1,p2,p3,…pd分别为第1~第d场景类别的概率,同样,知识库中的各个应答消息数据也是用本步骤中的方法;
步骤5.2,计算第二应答消息数据的主题词的交叉熵值:令每个主题词为先验条件W,知识库的每个场景类别中的各个应答消息数据的主题词W与类别Ci,主题词W的期望交叉熵为:
交叉熵反应了第二应答消息数据的主题词在知识库中场景类别出现的概率分布与知识库中的各个应答消息数据出现了第二应答消息数据的主题词后场景类别概率分布之间的距离,该距离越大说明第二应答消息数据的主题词对场景类别判断的影响越大。
其中,p(Ci)表示属于场景类别Ci的应答消息数据占所有应答消息数据数目的比重,p(W)表示包含第二应答消息数据的主题词W的应答消息数据占所有知识库的应答消息数据数目的比重,p(Ci|W)表示在包含第二应答消息数据的主题词W的应答消息数据中属于类别Ci的应答消息数据所占的比重,n为知识库中场景类别的总数量;
交叉熵值表示根据第二应答消息数据的主题词W写入知识库中与消息的场景类别相关性,该值越大说明第二应答消息数据的主题词W可能属于知识库中的场景类别的可能性越大,消息分为第二应答消息数据与知识库中的应答消息数据;
步骤5.3,计算卡方值:在第二应答消息数据与知识库中由第二应答消息数据的主题词和知识库中的应答消息数据出现主题词的频数构成卡方频数矩阵,令Or,c表示第二应答消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个值的期望值Er,c
卡方值χ2越大说明X与Y的相关性越大,消息包括第二应答消息数据与知识库中的应答消息数据;
步骤5.4,计算第二应答消息数据与知识库中的各应答消息数据的应答相似度Yi
其中TFi是交叉熵值大于交叉阈值的应答消息数据i中出现的次数,DFi是卡方值χ2大于卡方阈值的应答消息数据i中出现的次数,i取值范围为1到N,N是知识库中所有的应答消息数据的总数,其中,交叉阈值和卡方阈值取值范围为0到1,交叉阈值为0.8,卡方阈值为0.8。
本发明还提供了一种减少机器人客服运维复杂度的装置,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下装置的单元中:
客户消息读取单元,用于机器人客服接收来自用户客户端的会话消息数据;
主题词抽取单元,用于抽取会话消息数据的主题词并划分场景类别;
应答相似度计算单元,用于计算会话消息数据与知识库中的各个问题消息数据的问题相似度,读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据;
应答相似度判断单元,用于在如果最大的问题相似度小于问题相似度阈值则转人工客服,如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端;
人工客服答复单元,用于人工客服根据会话消息数据进行答复得到第二应答消息数据后,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度;
知识库更新单元,用于在如果各个应答相似度的最大值大于应答相似度阈值,则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。
本公开的有益效果为:本发明提供一种减少机器人客服运维复杂度的方法及装置,不仅解决了知识库快速的更新的问题,而且缩短了人工客服确认的响应时间,在会话过程中回答自然流畅,在人工客服繁忙的时间段,答案有效性自动确认,减少了人工客服大量的时间成本,降低了人工运维的复杂度。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种减少机器人客服运维复杂度的方法的流程图;
图2所示为一种减少机器人客服运维复杂度的装置图。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种减少机器人客服运维复杂度的方法的流程图,下面结合图1来阐述根据本公开的实施方式的一种减少机器人客服运维复杂度的方法。
本公开提出一种减少机器人客服运维复杂度的方法,具体包括以下步骤:
步骤1,机器人客服接收来自用户客户端的会话消息数据;
步骤2,抽取会话消息数据的主题词并划分场景类别;
步骤3,计算会话消息数据与知识库中的各个问题消息数据的问题相似度,读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据;
步骤4,如果最大的问题相似度小于问题相似度阈值则转人工客服,如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端;
步骤5,人工客服根据会话消息数据进行答复得到第二应答消息数据后,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度;
步骤6,如果各个应答相似度的最大值大于应答相似度阈值,则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。
进一步地,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据,所述机器人客服包括用户客户端、知识库,知识库包括多个场景分类,每个场景分类包括多个问题消息数据,每个问题消息数据都有至少一个对应的应答消息数据。
进一步地,在步骤2中,抽取主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法,并在将预进行意图识别的会话消息数据中删除不同类别中重复的主题词,最后得到的主题词作为最终主题词抽取的结果,在知识库中分类得到场景类别的方法为,若会话消息数据中包含某个主题词,则把该主题词对应的场景类别的概率标记为1,其他场景类别的概率都标记为0,得到会话消息数据对应所有场景类别的概率分布PA=[p1,p2,p3,…pd],d表示知识库中总共的场景类别数目,p1,p2,p3,…pd分别为第1~第d场景类别的概率。
例如,如果“萝卜”一词为果蔬场景类别的主题词,当对话语句会话消息数据为“你喜不喜欢吃萝卜”这句话时,会话消息数据中包含“萝卜”这个主题词,则判断会话消息数据的果蔬场景类别概率为1,其他场景类别概率为0。
进一步地,在步骤3中,计算会话消息数据与知识库中的各个问题消息数据的问题相似度的方法包括以下步骤:
步骤3.1,计算会话消息数据的主题词的交叉熵值:令会话消息数据的主题词为先验条件W,知识库的每个场景类别中的各个问题消息数据的主题词W与场景类别Ci,会话消息数据的主题词W的期望交叉熵为:
交叉熵反应了场景类别的概率分布与出现了会话消息数据的主题词后场景类别概率分布之间的距离,该距离越大说明会话消息数据的主题词对类别判断的影响越大,同样,知识库中的各个问题消息数据的主题词抽取方法为步骤2中的方法;
其中,p(Ci)表示属于场景类别Ci的知识库中的各个问题消息数据占所有消息数目的比重,p(W)表示包含主题词W的问题消息数据占所有问题消息数据数目的比重,p(Ci|W)表示在包含主题词W的消息中属于类别Ci的消息所占的比重,n为知识库中场景类别的总数量;
交叉熵值表示根据会话消息数据的主题词W写入知识库中与消息的场景类别相关性,该值越大说明会话消息数据的主题词W可能属于知识库中的场景类别的可能性越大,消息分为会话消息数据与知识库中的问题消息数据;
步骤3.2,计算卡方值:
卡方χ2独立性检验是一种无参数的假设检验,评估的是会话消息数据X与知识库中的各个应答消息数据Y之间是否独立,亦即不相关。X和Y的可能取值都是离散的,首先要由X的任意一个取值与Y的任意一个取值同时出现的频数,构成表1:
表1卡方频数表
I 24 98 0 7 12 7 58
M 36 34 4 67 83 75 4
S 57 32 51 2 15 29 64
H 0 18 94 49 57 67 18
表1为由会话消息数据的主题词和知识库中出现主题词的频数构成卡方频数矩阵,令Or,c表示会话消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个值的期望值Er,c
卡方值χ2越大说明X与Y的相关性越大,消息包括会话消息数据与知识库中的问题消息数据;
步骤3.3,计算会话消息数据与知识库中的各问题消息数据的问题相似度Wi
其中TFi是交叉熵值大于交叉阈值的消息i中出现的次数,DFi是卡方值χ2大于卡方阈值的消息i中出现的次数,i取值范围为1到N,N是知识库中所有消息的总数,其中,交叉阈值和卡方阈值取值范围为0到1,交叉阈值为0.8,卡方阈值为0.8。
其中,所述知识库包括多个场景分类,每个场景分类包括多个问题消息数据,每个问题消息数据都有至少一个对应的应答消息数据。
进一步地,在步骤4中,问题相似度阈值取值范围为0到1,根据二八定律,相似度阈值默认值为0.8。
进一步地,在步骤5中,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度的方法包括以下步骤:
步骤5.1,抽取第二应答消息数据的主题词并划分场景类别,抽取第二应答消息数据的主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法,并在将预进行意图识别的第二应答消息数据中删除不同类别中重复的主题词,最后得到的主题词作为最终主题词抽取的结果,在知识库中分类得到场景类别的方法为,若第二应答消息数据中包含某个主题词,则把该主题词对应的场景类别的概率标记为1,其他场景类别的概率都标记为0,得到第二应答消息数据对应所有场景类别的概率分布PA=[p1,p2,p3,…pd],d表示知识库中总共的场景类别数目,p1,p2,p3,…pd分别为第1~第d场景类别的概率,同样,知识库中的各个应答消息数据也是用本步骤中的方法;
步骤5.2,计算第二应答消息数据的主题词的交叉熵值:令每个主题词为先验条件W,知识库的每个场景类别中的各个应答消息数据的主题词W与类别Ci,主题词W的期望交叉熵为:
交叉熵反应了第二应答消息数据的主题词在知识库中场景类别出现的概率分布与知识库中的各个应答消息数据出现了第二应答消息数据的主题词后场景类别概率分布之间的距离,该距离越大说明第二应答消息数据的主题词对场景类别判断的影响越大。
其中,p(Ci)表示属于场景类别Ci的应答消息数据占所有应答消息数据数目的比重,p(W)表示包含第二应答消息数据的主题词W的应答消息数据占所有知识库的应答消息数据数目的比重,p(Ci|W)表示在包含第二应答消息数据的主题词W的应答消息数据中属于类别Ci的应答消息数据所占的比重,n为知识库中场景类别的总数量;
交叉熵值表示根据第二应答消息数据的主题词W写入知识库中与消息的场景类别相关性,该值越大说明第二应答消息数据的主题词W可能属于知识库中的场景类别的可能性越大,消息分为第二应答消息数据与知识库中的应答消息数据;
步骤5.3,计算卡方值:在第二应答消息数据与知识库中由第二应答消息数据的主题词和知识库中的应答消息数据出现主题词的频数构成卡方频数矩阵,令Or,c表示第二应答消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个值的期望值Er,c
卡方值χ2越大说明X与Y的相关性越大,消息包括第二应答消息数据与知识库中的应答消息数据;
步骤5.4,计算第二应答消息数据与知识库中的各应答消息数据的应答相似度Yi
其中TFi是交叉熵值大于交叉阈值的应答消息数据i中出现的次数,DFi是卡方值χ2大于卡方阈值的应答消息数据i中出现的次数,i取值范围为1到N,N是知识库中所有的应答消息数据的总数,其中,交叉阈值和卡方阈值取值范围为0到1,交叉阈值为0.8,卡方阈值为0.8。
本公开的实施例提供的一种减少机器人客服运维复杂度的装置,如图2所示为本公开的一种减少机器人客服运维复杂度的装置图,该实施例的一种减少机器人客服运维复杂度的装置包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种减少机器人客服运维复杂度的装置实施例中的步骤。
所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下装置的单元中:
客户消息读取单元,用于机器人客服接收来自用户客户端的会话消息数据;
主题词抽取单元,用于抽取会话消息数据的主题词并划分场景类别;
应答相似度计算单元,用于计算会话消息数据与知识库中的各个问题消息数据的问题相似度,读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据;
应答相似度判断单元,用于在如果最大的问题相似度小于问题相似度阈值则转人工客服,如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端;
人工客服答复单元,用于人工客服根据会话消息数据进行答复得到第二应答消息数据后,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度;
知识库更新单元,用于在如果各个应答相似度的最大值大于应答相似度阈值,则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。
所述一种减少机器人客服运维复杂度的装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种减少机器人客服运维复杂度的装置,可运行的装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种减少机器人客服运维复杂度的装置的示例,并不构成对一种减少机器人客服运维复杂度的装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种减少机器人客服运维复杂度的装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种减少机器人客服运维复杂度的装置运行装置的控制中心,利用各种接口和线路连接整个一种减少机器人客服运维复杂度的装置可运行装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种减少机器人客服运维复杂度的装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims (7)

1.一种减少机器人客服运维复杂度的方法,其特征在于,所述方法包括以下步骤:
步骤1,机器人客服接收来自用户客户端的会话消息数据;
步骤2,抽取会话消息数据的主题词并划分场景类别;
步骤3,计算会话消息数据与知识库中的各个问题消息数据的问题相似度,读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据;
步骤4,如果最大的问题相似度小于问题相似度阈值则转人工客服,如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端;
步骤5,人工客服根据会话消息数据进行答复得到第二应答消息数据后,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度;
步骤6,如果各个应答相似度的最大值大于应答相似度阈值,则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。
2.根据权利要求1所述的一种减少机器人客服运维复杂度的方法,其特征在于,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据。
3.根据权利要求1所述的一种减少机器人客服运维复杂度的方法,其特征在于,在步骤2中,抽取主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法。
4.根据权利要求3所述的一种减少机器人客服运维复杂度的方法,其特征在于,在步骤3中,计算会话消息数据与知识库中的各个问题消息数据的问题相似度的方法包括以下步骤:
步骤3.1,计算会话消息数据的主题词的交叉熵值:令会话消息数据的主题词为先验条件W,知识库的每个场景类别中的各个问题消息数据的主题词W与场景类别Ci,会话消息数据的主题词W的期望交叉熵为:
其中,p(Ci)表示属于场景类别Ci的知识库中的各个问题消息数据占所有消息数目的比重,p(W)表示包含主题词W的问题消息数据占所有问题消息数据数目的比重,p(Ci|W)表示在包含主题词W的消息中属于类别Ci的消息所占的比重,n为知识库中场景类别的总数量;
步骤3.2,计算卡方值:在会话消息数据与知识库中由会话消息数据的主题词和知识库中的问题消息数据出现主题词的频数构成卡方频数矩阵,令Or,c表示会话消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个值的期望值Er,c
其中,消息包括会话消息数据与知识库中的问题消息数据;
步骤3.3,计算会话消息数据与知识库中的各问题消息数据的问题相似度Wi
其中TFi是交叉熵值大于交叉阈值的消息i中出现的次数,DFi是卡方值χ2大于卡方阈值的消息i中出现的次数,i取值范围为1到N,N是知识库中所有消息的总数。
5.根据权利要求4所述的一种减少机器人客服运维复杂度的方法,其特征在于,在步骤4中,相似度阈值默认值为0.8。
6.根据权利要求1所述的一种减少机器人客服运维复杂度的方法,其特征在于,在步骤5中,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度的方法包括以下步骤:
步骤5.1,抽取第二应答消息数据的主题词并划分场景类别,抽取第二应答消息数据的主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法,并在将预进行意图识别的第二应答消息数据中删除不同类别中重复的主题词,最后得到的主题词作为最终主题词抽取的结果,在知识库中分类得到场景类别的方法为,若第二应答消息数据中包含某个主题词,则把该主题词对应的场景类别的概率标记为1,其他场景类别的概率都标记为0,得到第二应答消息数据对应所有场景类别的概率分布PA=[p1,p2,p3,…pd],d表示知识库中总共的场景类别数目,p1,p2,p3,…pd分别为第1~第d场景类别的概率,同样,知识库中的各个应答消息数据也是用本步骤中的方法;
步骤5.2,计算第二应答消息数据的主题词的交叉熵值:令每个主题词为先验条件W,知识库的每个场景类别中的各个应答消息数据的主题词W与类别Ci,主题词W的期望交叉熵为:
其中,p(Ci)表示属于场景类别Ci的应答消息数据占所有应答消息数据数目的比重,p(W)表示包含第二应答消息数据的主题词W的应答消息数据占所有知识库的应答消息数据数目的比重,p(Ci|W)表示在包含第二应答消息数据的主题词W的应答消息数据中属于类别Ci的应答消息数据所占的比重,n为知识库中场景类别的总数量;
步骤5.3,计算卡方值:在第二应答消息数据与知识库中由第二应答消息数据的主题词和知识库中的应答消息数据出现主题词的频数构成卡方频数矩阵,令Or,c表示第二应答消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值,第r行的和记为nr,第c列的和记为nc,所有元素的和记为n,计算矩阵中的每一个值的期望值Er,c
其中,消息包括第二应答消息数据与知识库中的应答消息数据;
步骤5.4,计算第二应答消息数据与知识库中的各应答消息数据的应答相似度Yi
其中TFi是交叉熵值大于交叉阈值的应答消息数据i中出现的次数,DFi是卡方值χ2大于卡方阈值的应答消息数据i中出现的次数,i取值范围为1到N,N是知识库中所有的应答消息数据的总数,其中,交叉阈值和卡方阈值取值范围为0到1,交叉阈值为0.8,卡方阈值为0.8。
7.一种减少机器人客服运维复杂度的装置,其特征在于,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下装置的单元中:
客户消息读取单元,用于机器人客服接收来自用户客户端的会话消息数据;
主题词抽取单元,用于抽取会话消息数据的主题词并划分场景类别;
应答相似度计算单元,用于计算会话消息数据与知识库中的各个问题消息数据的问题相似度,读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据;
应答相似度判断单元,用于在如果最大的问题相似度小于问题相似度阈值则转人工客服,如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端;
人工客服答复单元,用于人工客服根据会话消息数据进行答复得到第二应答消息数据后,计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度;
知识库更新单元,用于在如果各个应答相似度的最大值大于应答相似度阈值,则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。
CN201910477065.8A 2019-06-03 2019-06-03 一种减少机器人客服运维复杂度的方法及装置 Active CN110377709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910477065.8A CN110377709B (zh) 2019-06-03 2019-06-03 一种减少机器人客服运维复杂度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910477065.8A CN110377709B (zh) 2019-06-03 2019-06-03 一种减少机器人客服运维复杂度的方法及装置

Publications (2)

Publication Number Publication Date
CN110377709A true CN110377709A (zh) 2019-10-25
CN110377709B CN110377709B (zh) 2021-10-08

Family

ID=68249645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910477065.8A Active CN110377709B (zh) 2019-06-03 2019-06-03 一种减少机器人客服运维复杂度的方法及装置

Country Status (1)

Country Link
CN (1) CN110377709B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955763A (zh) * 2019-11-15 2020-04-03 深圳供电局有限公司 一种基于审计风险库的数据搜索方法及系统
CN116228249A (zh) * 2023-05-08 2023-06-06 陕西拓方信息技术有限公司 一种基于信息技术的客户服务系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221602A1 (en) * 2009-11-10 2012-08-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for word quality mining and evaluating
CN105591882A (zh) * 2015-12-10 2016-05-18 北京中科汇联科技股份有限公司 一种智能机器人与人混合客服的方法及系统
US20170140289A1 (en) * 2015-11-17 2017-05-18 International Business Machines Corporation Automatically Assessing Question Answering System Performance Across Possible Confidence Values
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN107506372A (zh) * 2017-07-11 2017-12-22 哈尔滨工业大学深圳研究生院 一种机器人客服在混合类型会话下的自动会话切换方法
CN107992539A (zh) * 2017-11-24 2018-05-04 合肥博焱智能科技有限公司 基于人工智能的景区导游咨询系统
CN109189898A (zh) * 2018-07-27 2019-01-11 北京新广视通科技有限公司 一种智能应答方法和系统
CN109446305A (zh) * 2018-10-10 2019-03-08 长沙师范学院 智能旅游客服系统的构建方法以及系统
CN109635056A (zh) * 2018-11-16 2019-04-16 海南电网有限责任公司信息通信分公司 用电地址数据处理方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120221602A1 (en) * 2009-11-10 2012-08-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for word quality mining and evaluating
US20170140289A1 (en) * 2015-11-17 2017-05-18 International Business Machines Corporation Automatically Assessing Question Answering System Performance Across Possible Confidence Values
CN105591882A (zh) * 2015-12-10 2016-05-18 北京中科汇联科技股份有限公司 一种智能机器人与人混合客服的方法及系统
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN107506372A (zh) * 2017-07-11 2017-12-22 哈尔滨工业大学深圳研究生院 一种机器人客服在混合类型会话下的自动会话切换方法
CN107992539A (zh) * 2017-11-24 2018-05-04 合肥博焱智能科技有限公司 基于人工智能的景区导游咨询系统
CN109189898A (zh) * 2018-07-27 2019-01-11 北京新广视通科技有限公司 一种智能应答方法和系统
CN109446305A (zh) * 2018-10-10 2019-03-08 长沙师范学院 智能旅游客服系统的构建方法以及系统
CN109635056A (zh) * 2018-11-16 2019-04-16 海南电网有限责任公司信息通信分公司 用电地址数据处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王瑞琴等: "词汇语义相关性度量研究", 《情报学报》 *
石俊涛: "中文文本分类中卡方特征提取和对TF-IDF权重改进", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955763A (zh) * 2019-11-15 2020-04-03 深圳供电局有限公司 一种基于审计风险库的数据搜索方法及系统
CN116228249A (zh) * 2023-05-08 2023-06-06 陕西拓方信息技术有限公司 一种基于信息技术的客户服务系统

Also Published As

Publication number Publication date
CN110377709B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN110772799B (zh) 会话消息处理方法、装置和计算机可读存储介质
Kumar et al. Multinational diffusion models: An alternative framework
CN108229322A (zh) 基于视频的人脸识别方法、装置、电子设备及存储介质
US20220172090A1 (en) Data identification method and apparatus, and device, and readable storage medium
CN106157071A (zh) 一种公众账号抽奖的方法和系统
US20210073669A1 (en) Generating training data for machine-learning models
CN107733984A (zh) 一种推送锁屏信息的方法、终端及计算机可读存储介质
CN105339936A (zh) 文本匹配装置以及方法、和文本分类装置以及方法
CN107911283A (zh) 消息显示方法及装置、计算机装置和计算机可读存储介质
CN110377709A (zh) 一种减少机器人客服运维复杂度的方法及装置
US20070101281A1 (en) Method and system for an electronic pictorial communication mechanism
CN109815482A (zh) 一种新闻交互的方法、装置、设备和计算机存储介质
CN110377708B (zh) 一种多情景对话切换方法及装置
CN109657148A (zh) 针对上报poi的异常操作识别方法、装置、服务器和介质
CN113705164A (zh) 一种文本处理方法、装置、计算机设备以及可读存储介质
CN109688044A (zh) 一种信息处理方法及装置、设备、存储介质
Wright Strategic Decision Making: A Best Practice Blueprint
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
CN110717817A (zh) 贷前审核方法及装置、电子设备和计算机可读存储介质
CN115809889A (zh) 基于营销效果的智能客群筛选方法、系统、介质及设备
CN112036572B (zh) 基于文本列表的用户特征提取方法及装置
CN114757299A (zh) 文本相似度判断方法、装置及存储介质
CN111970191B (zh) 群组互动方法、装置、电子设备及计算机可读存储介质
CN108021414A (zh) 一种对基于插件的应用平台进行定制呈现的方法及系统
CN108510071B (zh) 数据的特征提取方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant