CN110209763A - 数据处理方法、装置以及计算机可读存储介质 - Google Patents

数据处理方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN110209763A
CN110209763A CN201810144716.7A CN201810144716A CN110209763A CN 110209763 A CN110209763 A CN 110209763A CN 201810144716 A CN201810144716 A CN 201810144716A CN 110209763 A CN110209763 A CN 110209763A
Authority
CN
China
Prior art keywords
theme
sentence
search record
word
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810144716.7A
Other languages
English (en)
Other versions
CN110209763B (zh
Inventor
何刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810144716.7A priority Critical patent/CN110209763B/zh
Publication of CN110209763A publication Critical patent/CN110209763A/zh
Application granted granted Critical
Publication of CN110209763B publication Critical patent/CN110209763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据处理方法、装置以及计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:确定客户的咨询记录中各个句子在各个主题上的概率分布;根据咨询记录中各个句子在各个主题上的概率分布,确定各个主题对咨询记录中的贡献因子;根据各个主题在咨询记录中的贡献因子选取预设数量的主题;根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。本公开的方法提高了对客户咨询记录进行摘要的准确性,能够使在线客服迅速准确地了解客户咨询的真实需求,从而提高服务质量。

Description

数据处理方法、装置以及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法、装置以及计算机可读存储介质。
背景技术
随着互联网电子商务的蓬勃发展,在线客服系统已成为电子商务网站的重要组成部分,也是展示企业网站形象,加强企业与访客互动的必备工具。
在线客服中有时候客服需要一下子理解客户的大量咨询记录信息。比如在客服转接时,需要短时间内快速理解前一个客服和顾客的咨询记录信息。再比如顾客留言,收到留言时可能顾客说了一大堆问题描述,客服需要阅读顾客大量留言信息。即使在正常接线中,遇到促销活动时刻,每个客服同时接待很多顾客,难以快速响应,这时候顾客可能就会连续输入很多咨询记录信息,客服接待到当前顾客时需要快速阅读顾客咨询记录信息,并做出响应。于是从这些大量的咨询记录信息中摘出最关键的少量能代表顾客咨询含义的咨询记录信息有了迫切需求。
一些相关技术中,通过判断咨询记录中各个句子与整通会话的相似度,来筛选出相似度高的句子,作为摘要句子进行显示。
发明内容
发明人发现:顾客咨询的一通会话通常包含着多种咨询主题。比如在咨询业务问题的时候不可避免的有一些闲聊;咨询退换货,可能会先描述订单信息;售前咨询可能会包含各个商品本身的领域问题咨询等等。上述咨询记录摘要算法大多针对整个会话笼统摘取,这导致在咨询记录中存在多项主题咨询的情形时,摘要准确度大大降低,不能准确反映顾客实际的需求,降低服务质量。
本公开所要解决的一个技术问题是:如何提高对客户咨询记录进行摘要的准确性,提高服务质量。
根据本公开的一些实施例,提供的一种数据处理方法,包括:确定客户的咨询记录中各个句子在各个主题上的概率分布;根据咨询记录中各个句子在各个主题上的概率分布,确定各个主题对咨询记录中的贡献因子;根据各个主题在咨询记录中的贡献因子选取预设数量的主题;根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。
在一些实施例中,确定客户的咨询记录中各个句子在各个主题上的概率分布包括:将咨询记录划分为不同的句子,并对各个句子进行分词;将分词后的每个句子生成一个训练样本,并将咨询记录对应的全部训练样本输入隐式狄利克雷分布LDA模型进行训练,得到咨询记录中各个句子在各个主题上的概率分布。
在一些实施例中,将咨询记录对应的全部训练样本输入LDA模型进行训练包括:对咨询记录中每个词语随机赋予一个主题编号;根据以下吉布斯采样公式重新采样咨询记录中每个词语对应的主题编号,重复该步骤,直至吉布斯采样收敛,
其中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分,表示第m个句子中的词语,表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数;统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。
在一些实施例中,确定各个主题对咨询记录中的贡献因子包括:将各个句子在同一主题上的概率值相加得到该主题在咨询记录中的贡献因子。
在一些实施例中,确定各个主题对咨询记录中的贡献因子包括:根据的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对咨询记录中的贡献因子。
在一些实施例中,确定各个主题对咨询记录中的贡献因子包括:根据咨询记录中各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度;将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在咨询记录中的贡献因子。
在一些实施例中,咨询记录中主题的数量根据业务场景和咨询记录的长度确定;或者,选取主题的预设数量根据业务场景和咨询记录的长度确定;或者,咨询摘要的句子的数量根据业务场景、咨询记录的长度和选取的主题数量确定。
根据本公开的另一些实施例,提供的一种数据处理装置,包括:句子概率确定模块,用于确定客户的咨询记录中各个句子在各个主题上的概率分布;主题贡献确定模块,用于根据咨询记录中各个句子在各个主题上的概率分布,确定各个主题对咨询记录中的贡献因子;主题选取模块,用于根据各个主题在咨询记录中的贡献因子选取预设数量的主题;咨询摘要确定模块,用于根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。
在一些实施例中,句子概率确定模块用于将咨询记录划分为不同的句子,并对各个句子进行分词,将分词后的每个句子生成一个训练样本,并将咨询记录对应的全部训练样本输入隐式狄利克雷分布LDA模型进行训练,得到咨询记录中各个句子在各个主题上的概率分布。
在一些实施例中,句子概率确定模块用于:对咨询记录中每个词语随机赋予一个主题编号;根据以下吉布斯采样公式重新采样咨询记录中每个词语对应的主题编号,重复该步骤,直至吉布斯采样收敛,
其中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分,表示第m个句子中的词语,表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数;统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。
在一些实施例中,主题贡献确定模块用于将各个句子在同一主题上的概率值相加得到该主题在咨询记录中的贡献因子。
在一些实施例中,主题贡献确定模块还用于根据的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对咨询记录中的贡献因子。
在一些实施例中,主题贡献确定模块用于根据咨询记录中各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度,将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在咨询记录中的贡献因子。
在一些实施例中,咨询记录中主题的数量根据业务场景和咨询记录的长度确定;或者,选取主题的预设数量根据业务场景和咨询记录的长度确定;或者,咨询摘要的句子的数量根据业务场景、咨询记录的长度和选取的主题数量确定。
根据本公开的又一些实施例,提供的一种数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行如前述任一个实施例中的数据处理方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任一个实施例中的数据处理方法。
本公开首先确定客户咨询记录每个句子在各个主题上的概率分布,进一步各个主题在咨询记录中的贡献因子,概率越高的句子和对应的主题越相关,贡献因子越高的主题在咨询记录中的重要性越高,进一步选取摘要的主题和摘要的句子提供给在线客服,提高了对客户咨询记录进行摘要的准确性,能够使在线客服迅速准确地了解客户咨询的真实需求,从而提高服务质量。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的数据处理方法的流程示意图。
图2示出本公开的另一些实施例的数据处理方法的流程示意图。
图3示出本公开的又一些实施例的数据处理方法的流程示意图。
图4示出本公开的一些实施例的数据处理装置的结构示意图。
图5示出本公开的另一些实施例的数据处理装置的结构示意图。
图6示出本公开的又一些实施例的数据处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提出一种数据处理方法,用于提高对客户咨询记录进行摘要提取的准确性。下面结合图1描述本公开的数据处理方法的一些实施例。
图1为本公开数据处理方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S110~S140。
步骤S110,确定客户的咨询记录中各个句子在各个主题上的概率分布。
在一些实施例中,可以利用LDA(Latent Dirichlet Allocation,隐式狄利克雷分布)确定咨询记录中各个句子在各个主题上的概率分布。
如图2所示,步骤S110可以包括,步骤S112~S114。步骤S112,可以首先获取客户的咨询记录,将咨询记录划分为不同的句子,并对各个句子进行分词。分词的方法可以利用现有技术中根据词典分词或者利用隐马尔可夫模型分词等方法,分词时可以先将句子中的标点、停用词(例如虚词,感叹词等没有实际含义的词语)去除,对句子进行清洗,在此不再赘述。
进一步,步骤S114,将分词后的每个句子生成一个训练样本,并将咨询记录对应的全部训练样本输入LDA模型进行训练,得到咨询记录中各个句子在各个主题上的概率分布。分词后的每个句子可以生成一个一维数组,数组中每个值表示句子中每个词语的编号。词语的编号可以是预设值(例如采用int型数值作为词语的编号),同一个词语对应唯一的编号,不同词语编号不同。例如一个句子对应的数组为(1,2,3,4),另一个句子对应的数组为(2,8,11,17,18,21)。输入LDA模型的全部训练样本即为咨询记录中各个句子对应的数组。
可选的,在对LDA模型进行训练时,可以采用吉布斯采样(Gibbs Sampling)算法,可以包括步骤S1122~1128。首先,步骤S1122,对咨询记录中每个词语随机赋予一个主题编号。主题的数量和编号是预设的,主题的数量可以根据业务场景和咨询记录的长度确定。例如,在线客服繁忙程度越高,主题数量越少;为客户转接的在线客服越多,主题数量越多,咨询记录长度越长,主题数量越多。可以获取各个在线客服待处理的任务数量,确定在线客服的繁忙程度,将繁忙程度划分为不同等级对应不同处理能力值,繁忙程度越高处理能力值越低;根据为客户转接的在线客服的数量,确定对应的转接值;设置不同的咨询记录长度阈值,根据咨询记录长度确定对应的咨询量值;将处理能力值、转接值和咨询量值进行加权,得到咨询记录的权重,设置不同的阈值范围,根据咨询记录的权重对应的阈值范围,确定咨询记录的主题数量。咨询记录权重越大,主题数量越多。
进一步,步骤S1124,根据以下吉布斯采样公式重新采样咨询记录中每个词语对应的主题编号。
公式(1)中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分,表示第m个句子中的词语,表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数,M为句子的个数。表示每个词语对应主题的吉布斯采样的条件概率。i、m、k为正整数。
进一步,步骤S1126,判断吉布斯采样是否收敛,如果是,则执行步骤S1128,否则返回步骤S1124。
最后,步骤S1128,统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。例如,将句子中各个词语在一个主题上的概率相加,得到该句子在该主题上的概率。
传统的LDA模型一般用于文章主题的确定,训练样本是大量的文章,不同的文章不一定具有关联性,模型训练好之后输入新的文章则可以得到对应的主题。而上述实施例中将咨询记录中各个句子作为训练样本,具有一定的关联性,最后基于句子的概率分布从咨询记录整体上评估主题的贡献,并且每次咨询记录重新训练,改变了传统LDA模型的应用方法。
在一些实施例中,还可以根据历史统计数据确定客户的咨询记录中各个句子在各个主题上的概率分布。例如,统计历史的咨询记录确定客户咨询的多个主题,可以采用人工标注的方式。进一步统计历史咨询记录中出现的词语,可以设置阈值,统计出现次数超过阈值的关键词语,并根据一个关键词语在一个主题中出现的次数与出现总次数之比确定该关键词语在该主题上的概率,进而确定各个关键词语在各个主题的概率。根据当前咨询记录中每个句子中出现的关键词语,确定各个句子在各个主题上的概率分布。具体的,将句子中各个关键词语在同一主题上的概率相加,得到该句子在该主题上的概率。
步骤S120,根据咨询记录中各个句子在各个主题上的概率分布,确定各个主题对咨询记录中的贡献因子。
在一些实施例中,可以将各个句子在同一主题上的概率值相加得到该主题在咨询记录中的贡献因子。例如,可以根据以下公式计算主题在咨询记录中的贡献因子。
公式(2)中,Wk表示主题k在咨询记录中的贡献因子,表示句子m在主题k上的概率值,k、m为正整数,M为句子的总个数。
在一些实施例中,可以根据的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对咨询记录中的贡献因子。
例如,在线客服为了更准确的为客户提供服务,可以划分为售前咨询客服、售后客服等,售前客服又可以包括分管不同种类商品的售前客服,售后客服也可以包括分管不同种类商品的售后客服,还可以包括物流咨询客服、退换货咨询客服、投诉受理客服等等。
进一步,根据各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度;将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在咨询记录中的贡献因子。
利用LDA模型或统计历史数据可以得到咨询记录中各个词语在各个主题上的概率分布。预设与在线客服的各种职能相关的词语,将一个主题对应的与同一种职能相关的词语的概率值相加,得到该主题与该职能的相关度。预设与在线客服的各种职能相关的词语,可以通过统计历史咨询记录中,客户在咨询与一种职能相关的问题时,出现的各种词语的次数,将次数超过阈值的作为与该职能相关的词语。例如,咨询记录中包含100个词语,可以获得各个词语在主题1上的概率,100个词语中包括10个与当前客服职能相关的词语,则将这10个词语在主题1上的概率相加,得到主题1与当前客服职能的相关度。
可以根据以下公式确定主题在咨询记录中的贡献因子。
公式(3)中,Wk表示主题k在咨询记录中的贡献因子,表示句子m在主题k上的概率值,ck表示主题k与当前客服职能的相关度,k、m为正整数,M为句子的总个数。
上述实施例的方法,可以将与当前在线客服的职能相关并且客户咨询时最想表达的主题的句子进行摘要,显示给当前在线客服,使客服能够迅速准确的理解客户的需求,提高服务质量。
步骤S130,根据各个主题在咨询记录中的贡献因子选取预设数量的主题。
将各个主题按照在咨询记录中的贡献因子从大到小的顺序排列,从贡献因子最大的主题开始依次选取预设数量的主题。选取主题的预设数量可以直接由在线客服确定,例如,在线客服接入时,可以向客服显示可以查看的主题数量的选项,将在线客服输入的欲查看的主题数量作为预设数量,从贡献因子最大的主题开始依次选取预设数量的主题。
选取主题的预设数量也可以根据业务场景和咨询记录的长度确定。例如,在线客服繁忙程度越高,预设数量越少;为客户转接的在线客服越多,预设数量越多,咨询记录长度越长,预设数量越多。可以获取各个在线客服待处理的任务数量,确定在线客服的繁忙程度,将繁忙程度划分为不同等级对应不同处理能力值,繁忙程度越高处理能力值越低;根据为客户转接的在线客服的数量,确定对应的转接值;设置不同的咨询记录长度阈值,根据咨询记录长度确定对应的咨询量值;将处理能力值、转接值和咨询量值进行加权,得到咨询记录的权重,设置不同的阈值范围,根据咨询记录的权重对应的阈值范围,确定主题的预设数量。咨询记录权重越大,预设数量越多。预设数量小于咨询记录中主题的总数量,例如,一般选取1-3个。
步骤S140,根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。
将各个句子按照在同一主题上的概率值由大到小的顺序排列,从概率最大的句子开始依次选取预设数量的句子,作为该主题对应的咨询摘要的句子。针对每个选取的主题都可以确定一定数量的咨询摘要的句子,不同主题对应的咨询摘要的句子可以不同。咨询摘要的句子的数量可以直接由在线客服确定,例如,在线客服接入时,可以向客服显示可以查看咨询摘要的句子数量的选项,根据在线客服输入的欲查看的句子数量,显示相应数量的咨询摘要的句子。
咨询摘要的句子的数量还可以根据业务场景、咨询记录的长度和选取的主题数量确定。例如,在线客服繁忙程度越高,咨询摘要的句子数量越少;为客户转接的在线客服越多,咨询摘要的句子数量越多,咨询记录长度越长,咨询摘要的句子数量越多;选取的主题数量越多,每个主题对应的咨询摘要的句子越少。一般情况下,在线客服可以很快阅读的句子数量是有限的,因此,可以预设咨询摘要的句子的总数量,根据选取的主题的数量,自动调整每个主题的咨询摘要的句子数量。可以根据选取的主题的贡献因子,自动调整每个主题的咨询摘要的句子数量。贡献因子越大的主题对应的句子数量越多。例如,共选取两个主题,预设咨询摘要的句子的总数量为5个,主题1的贡献因子大,则针对主题1选取3个咨询摘要的句子,针对主题2选取2个咨询摘要的句子。
上述实施例的方法,根据业务场景、咨询记录的长度等自适应的调整选取的主题数量,咨询摘要的句子数量等,能够使在线客服迅速准确的理解咨询记录中最重要的内容,从而为客户提供更加准确的高质量服务。
在一些实施例中,可以将咨询摘要的句子按照与当前在线客服的职能的相关度由大到小的顺序进行排序并显示给在线客服。咨询摘要的句子与在线客服的职能的相关度即对应的主题与在线客服的职能的相关度。
进一步,可以将咨询摘要的句子与咨询记录共同显示;响应于在线客服点击咨询摘要的句子,跳转至咨询记录中的相应位置。便于在线客服进一步详细了解客户的咨询内容。
上述实施例的方法,首先确定客户咨询记录每个句子在各个主题上的概率分布,进一步各个主题在咨询记录中的贡献因子,概率越高的句子和对应的主题越相关,贡献因子越高的主题在咨询记录中的重要性越高,进一步选取摘要的主题和摘要的句子提供给在线客服,提高了对客户咨询记录进行摘要的准确性,能够使在线客服迅速准确地了解客户咨询的真实需求,从而提高服务质量。
本公开还提供一种数据处理装置,下面结合图4描述数据处理装置的一些实施例。
图4为本公开数据处理装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:句子概率确定模块402,主题贡献确定模块404,主题选取模块406,咨询摘要确定模块408。
句子概率确定模块402,用于确定客户的咨询记录中各个句子在各个主题上的概率分布。例如,句子概率确定模块402用于执行步骤S110。
在一些实施例中,句子概率确定模块402用于将咨询记录划分为不同的句子,并对各个句子进行分词,将分词后的每个句子生成一个训练样本,并将咨询记录对应的全部训练样本输入隐式狄利克雷分布LDA模型进行训练,得到咨询记录中各个句子在各个主题上的概率分布。
进一步,句子概率确定模块402用于:对咨询记录中每个词语随机赋予一个主题编号;根据以下吉布斯采样公式重新采样咨询记录中每个词语对应的主题编号,重复该步骤,直至吉布斯采样收敛,
其中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分,表示第m个句子中的词语,表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数;统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。
主题贡献确定模块404,用于根据的咨询记录中各个句子在各个主题上的概率分布,确定各个主题对咨询记录中的贡献因子。例如,主题贡献确定模块404用于执行步骤S120。
在一些实施例中,主题贡献确定模块404用于将各个句子在同一主题上的概率值相加得到该主题在咨询记录中的贡献因子。
在一些实施例中,主题贡献确定模块404还用于根据的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对咨询记录中的贡献因子。
进一步,主题贡献确定模块404用于根据咨询记录中各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度,将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在咨询记录中的贡献因子。
主题选取模块406,用于根据各个主题在咨询记录中的贡献因子选取预设数量的主题。例如,主题选取模块406用于执行步骤S130。
可选的,主题选取模块406用于将各个主题按照在咨询记录中的贡献因子从大到小的顺序排列,从贡献因子最大的主题开始依次选取预设数量的主题。
咨询摘要确定模块408,用于根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。例如,咨询摘要确定模块408用于执行步骤S140。
可选的,咨询摘要确定模块408用于将各个句子按照在同一主题上的概率值由大到小的顺序排列,从概率最大的句子开始依次选取预设数量的句子,作为该主题对应的咨询摘要的句子。
咨询记录中主题的数量根据业务场景和咨询记录的长度确定;或者,选取主题的预设数量根据业务场景和咨询记录的长度确定;或者,咨询摘要的句子的数量根据业务场景、咨询记录的长度和选取的主题数量确定。
本公开的实施例中的数据处理装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开数据处理装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的数据处理方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开数据处理装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任一个实施例中的数据处理方法。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (16)

1.一种数据处理方法,包括:
确定客户的咨询记录中各个句子在各个主题上的概率分布;
根据所述咨询记录中各个句子在各个主题上的概率分布,确定各个主题对所述咨询记录中的贡献因子;
根据各个主题在所述咨询记录中的贡献因子选取预设数量的主题;
根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。
2.根据权利要求1所述的数据处理方法,其中,
所述确定客户的咨询记录中各个句子在各个主题上的概率分布包括:
将所述咨询记录划分为不同的句子,并对各个句子进行分词;
将分词后的每个句子生成一个训练样本,并将所述咨询记录对应的全部训练样本输入隐式狄利克雷分布LDA模型进行训练,得到所述咨询记录中各个句子在各个主题上的概率分布。
3.根据权利要求2所述的数据处理方法,其中,所述将所述咨询记录对应的全部训练样本输入LDA模型进行训练包括:
对所述咨询记录中每个词语随机赋予一个主题编号;
根据以下吉布斯采样公式重新采样所述咨询记录中每个词语对应的主题编号,重复该步骤,直至吉布斯采样收敛,
其中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分, 表示第m个句子中的词语, 表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数;
统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。
4.根据权利要求1所述的数据处理方法,其中,所述确定各个主题对所述咨询记录中的贡献因子包括:
将各个句子在同一主题上的概率值相加得到该主题在所述咨询记录中的贡献因子。
5.根据权利要求1所述的数据处理方法,其中,所述确定各个主题对所述咨询记录中的贡献因子包括:
根据所述的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对所述咨询记录中的贡献因子。
6.根据权利要求5所述的数据处理方法,其中,所述确定各个主题对所述咨询记录中的贡献因子包括:
根据所述咨询记录中各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度;
将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在所述咨询记录中的贡献因子。
7.根据权利要求1-6任一项所述的数据处理方法,其中,
所述咨询记录中主题的数量根据业务场景和咨询记录的长度确定;
或者,选取主题的预设数量根据业务场景和咨询记录的长度确定;
或者,咨询摘要的句子的数量根据业务场景、咨询记录的长度和选取的主题数量确定。
8.一种数据处理装置,包括:
句子概率确定模块,用于确定客户的咨询记录中各个句子在各个主题上的概率分布;
主题贡献确定模块,用于根据所述咨询记录中各个句子在各个主题上的概率分布,确定各个主题对所述咨询记录中的贡献因子;
主题选取模块,用于根据各个主题在所述咨询记录中的贡献因子选取预设数量的主题;
咨询摘要确定模块,用于根据各个句子在选取的主题上的概率分布,确定作为咨询摘要的句子。
9.根据权利要求8所述的数据处理装置,其中,
所述句子概率确定模块用于将所述咨询记录划分为不同的句子,并对各个句子进行分词,将分词后的每个句子生成一个训练样本,并将所述咨询记录对应的全部训练样本输入隐式狄利克雷分布LDA模型进行训练,得到所述咨询记录中各个句子在各个主题上的概率分布。
10.根据权利要求9所述的数据处理装置,其中,
所述句子概率确定模块用于:
对所述咨询记录中每个词语随机赋予一个主题编号;
根据以下吉布斯采样公式重新采样所述咨询记录中每个词语对应的主题编号,重复该步骤,直至吉布斯采样收敛,
其中,zi表示第i个词语对应的主题编号,i表示去除下标为i的部分, 表示第m个句子中的词语, 表示第m个句子中的词语对应的主题编号,表示第m个句子中第k个主题产生的词语的个数,αk表示句子主题狄利克雷分布中事件的先验的伪计数,βt表示主题词语狄利克雷分布中事件的先验的伪计数,K表示主题的个数,V表示主题对应的词语的个数;
统计各个句子中各个词语在各个主题上的概率,得到各个句子在各个主题上的概率分布。
11.根据权利要求8所述的数据处理装置,其中,
所述主题贡献确定模块用于将各个句子在同一主题上的概率值相加得到该主题在所述咨询记录中的贡献因子。
12.根据权利要求8所述的数据处理装置,其中,
所述主题贡献确定模块还用于根据所述的咨询记录中各个句子在各个主题上的概率分布以及当前在线客服的职能,确定各个主题对所述咨询记录中的贡献因子。
13.根据权利要求12所述的数据处理装置,其中,
所述主题贡献确定模块用于根据所述咨询记录中各个词语在各个主题上的概率分布,确定各个主题与当前在线客服的职能的相关度,将各个句子在同一主题上的概率分布值之和,与该主题与当前在线客服的职能的相关度之积,确定为该主题在所述咨询记录中的贡献因子。
14.根据权利要求8-13任一项所述的数据处理装置,其中,
所述咨询记录中主题的数量根据业务场景和咨询记录的长度确定;
或者,选取主题的预设数量根据业务场景和咨询记录的长度确定;
或者,咨询摘要的句子的数量根据业务场景、咨询记录的长度和选取的主题数量确定。
15.一种数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求1-7任一项所述的数据处理方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN201810144716.7A 2018-02-12 2018-02-12 数据处理方法、装置以及计算机可读存储介质 Active CN110209763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810144716.7A CN110209763B (zh) 2018-02-12 2018-02-12 数据处理方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810144716.7A CN110209763B (zh) 2018-02-12 2018-02-12 数据处理方法、装置以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110209763A true CN110209763A (zh) 2019-09-06
CN110209763B CN110209763B (zh) 2024-09-20

Family

ID=67778556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810144716.7A Active CN110209763B (zh) 2018-02-12 2018-02-12 数据处理方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110209763B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342942A (zh) * 2021-08-02 2021-09-03 平安科技(深圳)有限公司 语料自动化获取方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278820A1 (en) * 2014-03-25 2015-10-01 Mark Stephen Meadows Systems and methods for executing cryptographically secure transactions using voice and natural language processing
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法
US20160248724A1 (en) * 2014-04-28 2016-08-25 Huawei Technologies Co., Ltd. Social Message Monitoring Method and Apparatus
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
CN106570708A (zh) * 2016-10-31 2017-04-19 厦门快商通科技股份有限公司 一种智能客服知识库的管理方法及系统
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN106844344A (zh) * 2017-02-06 2017-06-13 厦门快商通科技股份有限公司 用于对话的贡献度计算方法及主题抽取方法和系统
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN107239438A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 一种文档分析方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278820A1 (en) * 2014-03-25 2015-10-01 Mark Stephen Meadows Systems and methods for executing cryptographically secure transactions using voice and natural language processing
US20160248724A1 (en) * 2014-04-28 2016-08-25 Huawei Technologies Co., Ltd. Social Message Monitoring Method and Apparatus
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN107239438A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 一种文档分析方法及装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
CN106570708A (zh) * 2016-10-31 2017-04-19 厦门快商通科技股份有限公司 一种智能客服知识库的管理方法及系统
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106844344A (zh) * 2017-02-06 2017-06-13 厦门快商通科技股份有限公司 用于对话的贡献度计算方法及主题抽取方法和系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
INDRA LUKMANA 等: "Multi-Document Summarization Based On Sentence Clustering Improved Using Topic Words", 《JURNAL ILMIAH TEKNOLOGI INFORMASI》, vol. 12, no. 2, 31 July 2014 (2014-07-31), pages 1 - 8 *
SHIXIA LIU 等: "TIARA: Interactive, Topic-Based Visual Text Summarization and Analysis", 《ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY》, vol. 3, no. 2, 10 February 2012 (2012-02-10), pages 1, XP055520268, DOI: 10.1145/2089094.2089101 *
SOUJANYA PORIA 等: "Aspect extraction for opinion mining with a deep convolutional neural network", 《KNOWLEDGE-BASED SYSTEMS》, vol. 108, 15 September 2016 (2016-09-15), pages 42 - 49, XP029685914, DOI: 10.1016/j.knosys.2016.06.009 *
ZHILEI QIAO 等: "A domain oriented LDA model for mining product defects from online customer reviews", PROCEEDINGS OF THE 50TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES》, 1 July 2017 (2017-07-01), pages 1821 - 1830 *
张明慧 等: "基于LDA主题特征的自动文摘方法", 《计算机应用与软件》, vol. 28, no. 10, 15 October 2011 (2011-10-15), pages 20 - 22 *
杨潇 等: "基于主题模型LDA的多文档自动摘要", 《第五届全国信息检索学术会议论文集》, 14 November 2009 (2009-11-14), pages 495 - 504 *
王力 等: "一种基于LDA模型的主题句抽取方法", 《计算机工程与应用》, vol. 49, no. 2, 24 October 2011 (2011-10-24), pages 160 - 164 *
王婷婷 等: "LDA模型的优化及其主题数量选择研究——以科技文献为例", 《数据分析与知识发现》, no. 1, 25 January 2018 (2018-01-25), pages 29 - 40 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342942A (zh) * 2021-08-02 2021-09-03 平安科技(深圳)有限公司 语料自动化获取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110209763B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
CN110706096A (zh) 基于捞回用户管理授信额度的方法、装置和电子设备
CN110390408A (zh) 交易对象预测方法和装置
CN110659985A (zh) 一种捞回误拒潜在用户的方法、装置和电子设备
CN110069545B (zh) 一种行为数据评估方法及装置
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
CN111460384A (zh) 策略的评估方法、装置和设备
CN110060053A (zh) 一种识别方法、设备及计算机可读介质
CN109983459A (zh) 用于标识语料库中出现的n-gram的计数的方法和设备
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机系统
CN111861605A (zh) 业务对象推荐方法
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
US20190080251A1 (en) Reward-based recommendations of actions using machine-learning on telemetry data
CN110427358B (zh) 数据清洗方法及装置和信息推荐方法及装置
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN118134652A (zh) 一种资产配置方案生成方法、装置、电子设备及介质
CN114360027A (zh) 一种特征提取网络的训练方法、装置及电子设备
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN110209763A (zh) 数据处理方法、装置以及计算机可读存储介质
CN112200271A (zh) 一种训练样本确定方法、装置、计算机设备及存储介质
CN114693011A (zh) 一种政策匹配方法、装置、设备和介质
CN108109052A (zh) 物品推送方法、装置及服务器
CN108664550B (zh) 一种对用户行为数据进行漏斗分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant