CN110929043A - 业务问题提取方法及装置 - Google Patents

业务问题提取方法及装置 Download PDF

Info

Publication number
CN110929043A
CN110929043A CN201911195822.9A CN201911195822A CN110929043A CN 110929043 A CN110929043 A CN 110929043A CN 201911195822 A CN201911195822 A CN 201911195822A CN 110929043 A CN110929043 A CN 110929043A
Authority
CN
China
Prior art keywords
service
target text
key
business
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911195822.9A
Other languages
English (en)
Other versions
CN110929043B (zh
Inventor
徐正虹
吴科
吴立楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhichi Bochuang Technology Co ltd
Beijing Zhichi Zhongfu Technology Consulting Co ltd
Original Assignee
Beijing Wisdom Tooth Bo Chuan Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Tooth Bo Chuan Science And Technology Ltd filed Critical Beijing Wisdom Tooth Bo Chuan Science And Technology Ltd
Priority to CN201911195822.9A priority Critical patent/CN110929043B/zh
Publication of CN110929043A publication Critical patent/CN110929043A/zh
Application granted granted Critical
Publication of CN110929043B publication Critical patent/CN110929043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种业务问题提取方法及装置,所述方法包括:获取客服领域会话语料,对客服领域会话语料进行预处理,获得目标文本;利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取目标文本对应的业务关键词,并基于业务关键词获取目标文本对应的业务关键短语;基于TextRank算法提取目标文本对应的业务关键句;基于业务图谱对业务关键词和业务关键短语进行映射,获得目标文本对应的业务图谱中的业务种类和业务问题;按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。本发明实施例可以帮助企业通过客服聊天文本快速精准地分析出具体的业务问题。

Description

业务问题提取方法及装置
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种业务问题提取方法及装置。
背景技术
在大数据时代,企业面临很多问题。诸如缺少可用的信息,不能迅速而有效地分析非结构化数据,大量数据被忽略、处理不当或未充分利用。有很多企业正在凭借着不完整或不可信的信息来制定重要决策,而业务分析可以有效改变这一局面。
业务分析主要是帮助启发、分析、记录和验证需求,针对业务问题实施解决方案,其中的首要工作就是分析企业存在的业务问题。现今很多企业专设了客服的角色,通过客服与客户进行直接的交流来解决问题,此过程产生了海量的聊天数据,它们是分析业务问题非常宝贵的资源。而客服与客户的聊天数据(也称为客服领域的聊天数据),多是通过人工反复听反复看,再分类到具体的业务,进而拆解和总结发现业务问题,此过程耗费极高的人力成本。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的业务问题提取方法及装置。
第一方面,本发明实施例提供一种业务问题提取方法,包括:
获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;
利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;
基于TextRank算法提取所述目标文本对应的业务关键句;
基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;
按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
进一步地,所述利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,具体为:
计算所述目标文本中每个候选词语的平均信息熵、词性特征权重值和位置特征权重值;
基于所述每个候选词语的平均信息熵、词性特征权重值和位置特征权重值,根据综合权重值计算公式计算得到每个所述候选词语的综合权重值;
以每个所述候选词语的综合权重值为加权节点初值,构建节点转移概率矩阵的TextRank图模型;
迭代计算,根据节点的权值迭代公式计算各候选词语的权值得分,直至算法收敛;
根据计算结果,选取前N个权值得分最高的候选词语作为业务关键词;
其中,N为第一预设个数。
其中,所述综合权重值计算公式具体为:
W(w)=α*WFreq+β*WPos+γ*WLoc
其中,WFreq是词语的平均信息熵,WPos是词语的词性特征权重值,WLoc是词语的位置特征加权值,α、β、γ为预设参数;
其中,平均信息熵公式为:
Figure BDA0002292791230000021
其中,ftk表示词语t在单通会话语料k中出现的次数,nt表示词语t在所有会话语料出现的总次数,N表示会话语料共有多少通。
进一步地,所述基于所述业务关键词获取所述目标文本对应的业务关键短语,具体为:
根据标点符号将所述目标文本切分句子,将每个句子内的所述业务关键词进行组合,获得业务关键短语。
进一步地,所述基于TextRank算法提取所述目标文本对应的业务关键句,具体为:
使用Word2Vec结合行业语料训练词向量模型,结合词移距离,计算得到所述目标文本的任意两个句子之间的相似性;
基于TextRank算法,将句子之间的相似性作为边、句子作为节点,根据句子重要性迭代公式,计算各句子的重要性得分;
根据计算结果,选取前M个得分最高的句子作为业务关键句;
其中,M为第二预设个数。
优选地,所述基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题,具体为:
计算所述业务关键词和业务关键短语所组成的集合与所述业务图谱中各业务问题对应的业务问题界定词之间的语义相似度;
选取与所述业务关键词和业务关键短语所组成的集合的语义相似度最大的业务问题界定词对应的业务问题,作为所述目标文本最终对应的业务问题,并在所述业务图谱中得到所述业务问题对应的业务种类。
优选地,所述基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题,具体为:
对业务图谱中的业务问题及其业务问题界定词进行对应标注,并训练分类模型;
将所述业务关键词和业务关键短语输入所述分类模型,获得所述目标文本对应的业务种类和业务问题。
第二方面,本发明实施例提供一种业务问题提取装置,包括:
预处理模块,用于获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;
第一提取模块,用于利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;
第二提取模块,用于基于TextRank算法提取所述目标文本对应的业务关键句;
第三提取模块,用于基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;
输出模块,用于按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的业务问题提取方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的业务问题提取方法的步骤。
本发明实施例提供的业务问题提取方法及装置,首先在单通聊天会话中获得业务关键词、业务关键短语和业务关键句,再结合业务图谱进一步获得该通会话所反映的业务问题,可以帮助企业通过客服聊天文本快速精准地分析出具体的业务问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的业务问题提取方法的流程示意图;
图2为本发明另一实施例提供的业务问题提取装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种有效的、能自动化的、且效率高的客服聊天内容的业务问题提取方法,如图1所示,包括:
步骤100、获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;
具体地,从数据库中读取出客服领域会话语料。客服领域会话语料是指客户与客服之间的聊天文本语料。需要说明的是,如果语料中包含音频信息,例如客户发送的录音,则需要先将音频信息转换为文本。
在获取了客服领域会话语料后,对每通会话语料进行预处理,仅使用客户的聊天语料进行预处理和业务问题提取,其中,预处理包括进行分词和词性标注,并进行标点符号处理、表情字符处理和停用词处理等,最后获得经过预处理的文本,称为目标文本。
例如,将一句话“我还没借呢,我就想知道利息多少,有钱了是否可以提前还款”预处理后得到的目标文本为“[pair('还','d'),pair('没','d'),pair('借','v'),pair('知道','v'),pair('利息','n'),pair('多少','m'),pair('有钱','v'),pair('是否','v'),pair('可以','c'),pair('提前','v'),pair('还款','v')]”。
步骤200、利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;
具体地,在客服领域的聊天文本中,词语本身的词频高、词性为动词、名词、形容词或副词等词性,或词语处于开头等特定位置,或是词语本身重要性高(例如该词在已有的业务词库中,或通过文档集信息使用TF-IDF、平均信息熵等方法计算出词语的重要性高)等,更可能表明此词语为此通对话的业务关键词。当然,还有其他表明词语重要性的特征的方法,如文档频数(DF)、互信息(MI)、信息增益(IG)、χ2-统计量(CHI)、文本证据权(WET)、期望交叉熵(ECE)、几率比(OR)和词条权(TS)等。
本发明实施例利用词语的平均信息熵、词性和位置三个特征来综合表示词语的重要性。也即通过上述三个特征计算词语本身的综合权重值。再利用词语的综合权重值结合经典的TextRank算法来提取所述目标文本对应的业务关键词。
进一步地,所述利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,具体为:
步骤201、计算所述目标文本中每个候选词语的平均信息熵、词性权重值和位置权重值;
具体地,平均信息熵公式为:
Figure BDA0002292791230000061
其中,ftk表示词语t在单通会话语料k中出现的次数,nt表示词语t在所有会话出现的总次数,N表示会话语料共有多少通。例如在10万通会话中通过公式计算得到词语“还款”的平均信息熵为0.29,即H(还款)=0.29,及H(利息)=0.32。
词性特征权重值可根据多组试验对比,给与不同词性相应权重值,可选地,将动词、名词、形容词的权重分别为0.30,其他词性为0.1。例如,Wpos(还款)=0.33,Wpos(利息)=0.33。
位置特征权重值,对于聊天角色是客服的进行降权,对于聊天角色是客户的进行加权,客户的前5个问句反应整通会话的关键业务问题。在整通会话中句子“我还没借呢,我就想知道利息多少,有钱了是否可以提前还款”是客户的第一个问句,可选地WLoc(还款)=0.80,WLoc(可以)=0.80。
步骤202、基于所述每个候选词语的平均信息熵、词性权重值和位置权重值,根据综合权重值计算公式计算得到每个所述候选词语的综合权重值;
具体地,综合权重值计算公式如下:
W(w)=α*WFreq+β*WPos+γ*WLoc (2)
公式中,WFreq是词语的平均信息熵,WPos是词语的词性特征权重值,WLoc是词语的位置特征加权值,α、β、γ为预设参数。
其中,α、β、γ可根据经验分别取值0.30、0.40和0.30。
步骤203、以每个所述候选词语的综合权重值为加权节点初值,构建节点转移概率矩阵的TextRank图模型;
步骤204、迭代计算,根据节点的权值迭代公式计算各候选词语的权值得分,直至算法收敛;
具体地,节点间的转移概率计算公式为:
Figure BDA0002292791230000071
其中,w(vj,vi)表示节点vj到几点vi的边的转移概率,out(vj)表示节点vj指向的所有点的集合,W(vi)表示节点vi由综合权重计算公式计算得到的综合权值。
结合经典的TextRank算法,节点Vi的权值迭代公式变为:
Figure BDA0002292791230000081
其中,In(vi)表示节点指向vi的所有点的集合。
步骤205、根据计算结果,选取前N个权值得分最高的候选词语作为业务关键词;其中,N为第一预设个数。
最后根据迭代计算结果,选取前N个权值得分最高的候选词语作为业务关键词。在一个实施例中,N的取值为1~6个(最多保留6个关键词)。
在一个实施例中,基于所述业务关键词获取所述目标文本对应的业务关键短语,具体为:
根据标点符号将所述目标文本切分句子,将每个句子内的所述业务关键词进行组合,获得业务关键短语。
步骤300、基于TextRank算法提取所述目标文本对应的业务关键句;
具体地,首先,使用Word2Vec结合行业语料训练词向量模型,结合词移距离,计算得到所述目标文本的任意两个句子之间的相似性;
通过Similarity=1-WMdistance,其中,WMdistance为两个句子的词移距离,计算得到两个句子的相似性值(Similarity)。
通过TextRank算法,将句子的相似性作为边,句子作为节点,随机初始化一个不为0的值作为节点的初始值,根据以下公式迭代计算得到句子的重要性排序:
Figure BDA0002292791230000091
式(5)是计算句子A的重要性的公式,Ti是与句子A之间相似度值不为0的句子。C(Ti)是句子Ti中存在的与A链接的句子总数,d是阻尼系数,一般取值0.85。通过以上公式迭代计算直至收敛,可得到句子的重要性排序,取前M个得分最高的句子作为业务关键句。其中,M为第二预设个数。在一个实施例中,M的取值为0~2个(最多保留2个关键短语)。
步骤400、基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;
具体地,将业务关键词和业务关键短语映射到业务图谱的业务问题上。所述业务图谱包含业务图谱的节点及其关系,其中节点分为非实体节点(概念化节点)和实体节点,非实体节点包含业务种类、业务问题和业务问题界定词集合,如“还款业务”、“还款利息问题”分别为业务种类和业务问题,“业务问题界定词集合”即为界定业务问题需要的最少必要信息,如要确定为还款利息问题,则信息中至少包含“还款”或其相近词,以及“利息”或其相近词,业务问题界定词集合也即界定业务问题的最小必要词集;业务图谱的实体节点包含具体的实体,例如有“银行”、“利息”等实体,关系有上下位关系、同义关系、属性关系、实例关系等多种关系。
业务图谱中的业务层级有:<一级业务种类>、<二级业务种类>和<业务问题>等。例如:一级业务种类有<一级业务种类:贷款还款业务>;一级业务种类下有<二级业务种类:还款业务>;二级业务种类下有<业务问题:还款利息问题>、<业务问题:还款日期>等多种业务问题。每个业务问题下,有相应的业务问题界定词,如“<业务问题:还款利息问题>”对应有“业务问题界定词集合{利息计算、还款利息、还款、计算……}”。
将业务关键词和业务关键短语映射到业务图谱的业务问题上,有两种方法:
方法一,计算所述业务关键词和业务关键短语所组成的集合与所述业务图谱中各业务问题对应的业务问题界定词之间的语义相似度;
选取与所述业务关键词和业务关键短语所组成的集合的语义相似度最大的业务问题界定词对应的业务问题,作为所述目标文本最终对应的业务问题,并在所述业务图谱中得到所述业务问题对应的业务种类。
具体地,根据单通会话获取的集合{业务关键词,业务关键短语},集合中的每个词语与业务图谱中的每个业务问题对应的业务问题界定词一一计算相似度,可选相似度计算方法包括但不限于Jaccard相似度、余弦相似度、词移距离等。
在集合{业务关键词,业务关键短语}中的词语,一一与业务问题对应的“业务问题界定词”的所有词语计算相似度,集合{业务关键词,业务关键短语}中单个词语的相似度得分规定为:该词语与一组“业务问题界定词”求相似度后,最大的相似度值作为该词语与“业务问题界定词”的相似度。最终,集合{业务关键词,业务关键短语}与业务问题的“业务问题界定词”的相似度得分为:集合{业务关键词,业务关键短语}中的每个词语与“业务问题界定词”的相似度得分之和,再除以该集合{业务关键词,业务关键短语}中词语的个数。
通过计算即可得到与每通会话的集合{业务关键词,业务关键短语}最相似(即相似度最大)的业务问题的“业务问题界定词”,也即得到该通对话的业务问题,因为一组“业务问题界定词”对应唯一的一个业务问题,有业务问题可在业务图谱中得到该通会话的业务种类。
方法二、对业务图谱中的业务问题及其业务问题界定词进行对应标注,训练分类模型;
将所述业务关键词和业务关键短语输入所述分类模型,获得所述目标文本对应的业务问题,根据业务问题即可在业务图谱中得到业务问题对应的业务种类。
具体地,人工标注数据并训练模型,对业务图谱中的业务问题及其业务问题界定词进行对应标注,训练分类模型,使得输入业务问题界定词即可得到业务问题,可用如分类算法XGboost分类器、SVM分类器、朴素贝叶斯、决策树,CNN神经网络等。再将从单通会话获取的集合{业务关键词,业务关键短语}作为输入,输入模型进行预测,得到单通会话所属的的业务问题,根据得到的业务问题可在业务图谱中得到对应的业务种类。
步骤500、按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
具体地,按照标准模板输出“业务种类、业务问题、业务关键词、业务关键短语、业务关键句”,即获得了最终的业务问题分析结果。
本发明实施例提供的业务问题提取方法,首先在单通聊天会话中获得业务关键词、业务关键短语和业务关键句,再结合业务图谱进一步获得该通会话所反映的业务问题,使得企业通过客服聊天文本能够有效、自动且快速精准地定位到具体的业务问题。
下面通过一个具体的例子进一步说明本发明实施例提供的方法。
例如,如下单通会话语料:
{访客:我刚申请了3000元额度利息是多少。
客服:您好,请您提供一下您的姓名注册手机号,我们需要核实到具体订单哦~~~。
访客:我还没借呢,我就想知道利息多少有钱了是否可以提前还款。
客服:很抱歉哦亲,我们客服暂时是看不到的呢,只有在您放款成功之后我们才能看到的呢。
客服:您好,可以提前还款的哦亲,但是服务费是不做减免的呢,建议您按照pp显示进行还款就可以的亲。
访客:3000百分之3是多少。
客服:抱歉亲,我们这边不提供计算服务的哦~。
客服:亲,您申请借款确认页有详细展示每期应还,您将每期应还相加减去本金就是所有的利率。
访客:提前还款利息是不是也终止。
客服,……,访客……。}。
通过步骤200得到业务关键词及其概率为:{利息0.32;额度0.12;提前0.09;有钱0.09;还款0.09;申请0.06},业务关键短语为:{提前还款}。所以本通会话的“业务关键词+业务关键短语”为集合{利息,额度,提前,有钱,还款,申请,提前还款},进而与业务图谱中业务问题的业务问题界定词进行语义相似度计算。
通过步骤300得到业务关键句为:{访客,我刚申请了3000元额度利息是多少},{访客,我还没借呢,我就想知道利息多少有钱了是否可以提前还款}。
在步骤400中,业务图谱中的“还款业务”的业务问题界定词为{“还款”,“金额”,“总还款金额”,“提前”,“待还金额”,“本息合计”,……},“还款利息问题”的业务问题界定词有{利息计算、还款利息、还款、计算……}等,本通会话经过语义相似度计算确定最终对应的业务问题为“还款利息问题”,对应的二级业务种类为“还款业务”,对应的一级业务种类为“贷款还款业务”,即输出“<一级业务种类:贷款还款业务>,<二级业务种类:还款业务>,<业务问题:还款利息问题>”。
最后,将最终的业务种类、业务关键词和关键短语与业务关键句按照“业务问题分析模板”输出,如表1所示。
表1输出结果
Figure BDA0002292791230000131
如图2所示,为本发明另一实施例提供的业务问题提取装置的结构示意图,包括:预处理模块201、第一提取模块202、第二提取模块203、第三提取模块204和输出模块205,其中,
预处理模块201,用于获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;
具体地,预处理模块201从数据库中读取出客服领域会话语料。客服领域会话语料是指客户与客服之间的聊天文本语料。需要说明的是,如果语料中包含音频信息,例如客户发送的录音,则需要先将音频信息转换为文本。
在获取了客服领域会话语料后,预处理模块201对每通会话语料进行预处理,其中,预处理包括进行分词和词性标注,并进行标点符号处理、表情字符处理和停用词处理等,最后获得经过预处理的文本,称为目标文本。
第一提取模块202,用于利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;
具体地,第一提取模块202利用词语的平均信息熵、词性和位置三个特征来综合表示词语的重要性。也即通过上述三个特征计算词语本身的综合权重值。再利用词语的综合权重值结合经典的TextRank算法来提取所述目标文本对应的业务关键词。
第一提取模块202具体用于:
计算所述目标文本中每个候选词语的平均信息熵、词性特征权重值和位置特征权重值;
基于所述每个候选词语的平均信息熵、词性特征权重值和位置特征权重值,根据综合权重值计算公式计算得到每个所述候选词语的综合权重值;
以每个所述候选词语的综合权重值为加权节点初值,构建节点转移概率矩阵的TextRank图模型;
迭代计算,根据节点的权值迭代公式计算各候选词语的权值得分,直至算法收敛;
根据计算结果,选取前N个权值得分最高的候选词语作为业务关键词;其中,N为第一预设个数。
第一提取模块202还用于:
根据标点符号将所述目标文本切分句子,将每个句子内的所述业务关键词进行组合,获得业务关键短语。
第二提取模块203,用于基于TextRank算法提取所述目标文本对应的业务关键句;
具体地,首先,第二提取模块203使用Word2Vec结合行业语料训练词向量模型,结合词移距离,计算得到所述目标文本的任意两个句子之间的相似性;
通过Similarity=1-WMdistance,其中,WMdistance为两个句子的词移距离,计算得到两个句子的相似性Similarity。
然后,第二提取模块203通过TextRank算法,将句子的相似性作为边,句子作为节点,随机初始化一个不为0的值作为节点的初始值,根据以下公式迭代计算得到句子的重要性排序,公式为:
Figure BDA0002292791230000151
该公式是计算句子A的重要性的公式,Ti是与句子A之间相似度Similarity值不为0的句子。C(Ti)是句子Ti中存在的与A链接的句子总数,d是阻尼系数,一般取值0.85。通过以上公式迭代计算直至收敛,可得到句子的重要性排序,取前M个得分最高的句子作为业务关键句。其中,M为第二预设个数。在一个实施例中,M的取值为3。
第三提取模块204,用于基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;
具体地,每个业务问题下,有相应的业务问题界定词,如“<业务问题:还款利息问题>”对应有“集合{利息计算、还款利息、还款、本息……}”等业务问题界定词。
第三提取模块204可以采用如下两种方法将业务关键词和业务关键短语映射到业务图谱的业务问题上。
方法一,计算所述业务关键词和业务关键短语所组成的集合与所述业务图谱中各业务问题对应的业务问题界定词之间的语义相似度;
选取与所述业务关键词和业务关键短语所组成的集合的语义相似度最大的业务问题界定词对应的业务问题,作为所述目标文本最终对应的业务问题,并在所述业务图谱中得到所述业务问题对应的业务种类。
方法二、对业务图谱中的业务问题及其业务问题界定词进行对应标注,并训练分类模型;
将所述业务关键词和业务关键短语输入所述分类模型,获得所述目标文本对应的业务种类和业务问题。
输出模块205,用于按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
本发明实施例提供的业务问题提取装置,首先在单通聊天会话中获得业务关键词、业务关键短语和业务关键句,再结合业务图谱进一步获得该通会话所反映的业务问题,使得企业通过客服聊天文本能够有效、自动地且快速精准地定位到具体的业务问题。
图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各方法实施例所提供的业务问题提取方法,例如包括:获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;基于TextRank算法提取所述目标文本对应的业务关键句;基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的业务问题提取方法,例如包括:获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;基于TextRank算法提取所述目标文本对应的业务关键句;基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务种类和业务问题;按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种业务问题提取方法,其特征在于,包括:
获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;
利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;
基于TextRank算法提取所述目标文本对应的业务关键句;
基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;
按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
2.根据权利要求1所述的业务问题提取方法,其特征在于,所述利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,具体为:
计算所述目标文本中每个候选词语的平均信息熵、词性特征权重值和位置特征权重值;
基于所述每个候选词语的平均信息熵、词性特征权重值和位置特征权重值,根据综合权重值计算公式计算得到每个所述候选词语的综合权重值;
以每个所述候选词语的综合权重值为加权节点初值,构建节点转移概率矩阵的TextRank图模型;
迭代计算,根据节点的权值迭代公式计算各候选词语的权值得分,直至算法收敛;
根据计算结果,选取前N个权值得分最高的候选词语作为业务关键词;
其中,N为第一预设个数。
3.根据权利要求2所述的方法,其特征在于,所述综合权重值计算公式具体为:
W(w)=α*WFreq+β*WPos+γ*WLoc
其中,WFreq是词语的平均信息熵,WPos是词语的词性特征权重值,WLoc是词语的位置特征加权值,α、β、γ为预设参数;
其中,平均信息熵公式为:
Figure FDA0002292791220000021
其中,ftk表示词语t在单通会话语料k中出现的次数,nt表示词语t在所有会话语料出现的总次数,N表示会话语料共有多少通。
4.根据权利要求1所述的业务问题提取方法,其特征在于,所述基于所述业务关键词获取所述目标文本对应的业务关键短语,具体为:
根据标点符号将所述目标文本切分句子,将每个句子内的所述业务关键词进行组合,获得业务关键短语。
5.根据权利要求1所述的业务问题提取方法,其特征在于,所述基于TextRank算法提取所述目标文本对应的业务关键句,具体为:
使用Word2Vec结合行业语料训练词向量模型,结合词移距离,计算得到所述目标文本的任意两个句子之间的相似性;
基于TextRank算法,将句子之间的相似性作为边、句子作为节点,根据句子重要性迭代公式,计算各句子的重要性;
根据计算结果,选取前M个得分最高的句子作为业务关键句;
其中,M为第二预设个数。
6.根据权利要求1所述的业务问题提取方法,其特征在于,所述基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题,具体为:
计算所述业务关键词和业务关键短语所组成的集合与所述业务图谱中各业务问题对应的业务问题界定词之间的语义相似度;
选取与所述业务关键词和业务关键短语所组成的集合的语义相似度最大的业务问题界定词对应的业务问题,作为所述目标文本最终对应的业务问题,并在所述业务图谱中得到所述业务问题对应的业务种类。
7.根据权利要求1所述的业务问题提取方法,其特征在于,所述基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题,具体为:
对业务图谱中的业务问题及其业务问题界定词进行对应标注,并训练分类模型;
将所述业务关键词和业务关键短语输入所述分类模型,获得所述目标文本对应的业务种类和业务问题。
8.一种业务问题提取装置,其特征在于,包括:
预处理模块,用于获取客服领域会话语料,对所述客服领域会话语料进行预处理,获得目标文本;
第一提取模块,用于利用TextRank算法结合位置特征、词性特征和领域关键词权重数据提取所述目标文本对应的业务关键词,并基于所述业务关键词获取所述目标文本对应的业务关键短语;
第二提取模块,用于基于TextRank算法提取所述目标文本对应的业务关键句;
第三提取模块,用于基于业务图谱对所述业务关键词和业务关键短语进行映射,获得所述目标文本对应的业务图谱中的业务种类和业务问题;
输出模块,用于按照标准模板输出所述业务种类、业务问题、业务关键词、业务关键短语和业务关键句。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述业务问题提取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述业务问题提取方法的步骤。
CN201911195822.9A 2019-11-28 2019-11-28 业务问题提取方法及装置 Active CN110929043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195822.9A CN110929043B (zh) 2019-11-28 2019-11-28 业务问题提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195822.9A CN110929043B (zh) 2019-11-28 2019-11-28 业务问题提取方法及装置

Publications (2)

Publication Number Publication Date
CN110929043A true CN110929043A (zh) 2020-03-27
CN110929043B CN110929043B (zh) 2023-02-24

Family

ID=69847751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195822.9A Active CN110929043B (zh) 2019-11-28 2019-11-28 业务问题提取方法及装置

Country Status (1)

Country Link
CN (1) CN110929043B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767716A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备
CN112101005A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112183089A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 语料分析方法、装置、电子设备和存储介质
CN112256801A (zh) * 2020-10-10 2021-01-22 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112464654A (zh) * 2020-11-27 2021-03-09 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112559768A (zh) * 2020-12-11 2021-03-26 北京中科汇联科技股份有限公司 一种短文本图谱化及推荐方法
CN113360647A (zh) * 2021-06-03 2021-09-07 云南大学 一种基于聚类的5g移动业务投诉溯源分析方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN111767716B (zh) * 2020-06-24 2024-05-28 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160125462A1 (en) * 2014-10-31 2016-05-05 Informite Inc. Systems and methods for semantic keyword analysis for paid search
CN108228556A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 关键短语提取方法及装置
CN110287325A (zh) * 2019-06-28 2019-09-27 南方电网科学研究院有限责任公司 一种基于智能语音分析的电网客服业务推荐方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160125462A1 (en) * 2014-10-31 2016-05-05 Informite Inc. Systems and methods for semantic keyword analysis for paid search
CN108228556A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 关键短语提取方法及装置
CN110287325A (zh) * 2019-06-28 2019-09-27 南方电网科学研究院有限责任公司 一种基于智能语音分析的电网客服业务推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李航等: "融合多特征的TextRank关键词抽取方法", 《情报杂志》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101005B (zh) * 2020-04-02 2022-08-30 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112101005A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN111767716A (zh) * 2020-06-24 2020-10-13 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备
CN111767716B (zh) * 2020-06-24 2024-05-28 中国平安财产保险股份有限公司 企业多级行业信息的确定方法、装置及计算机设备
CN112183089A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 语料分析方法、装置、电子设备和存储介质
CN112256801A (zh) * 2020-10-10 2021-01-22 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112256801B (zh) * 2020-10-10 2024-04-09 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112464654A (zh) * 2020-11-27 2021-03-09 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112559768A (zh) * 2020-12-11 2021-03-26 北京中科汇联科技股份有限公司 一种短文本图谱化及推荐方法
CN112559768B (zh) * 2020-12-11 2023-02-17 北京中科汇联科技股份有限公司 一种短文本图谱化及推荐方法
CN113360647A (zh) * 2021-06-03 2021-09-07 云南大学 一种基于聚类的5g移动业务投诉溯源分析方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN110929043B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN110929043B (zh) 业务问题提取方法及装置
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN107402912B (zh) 解析语义的方法和装置
US9348901B2 (en) System and method for rule based classification of a text fragment
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN108287848B (zh) 用于语义解析的方法和系统
CA3123387C (en) Method and system for generating an intent classifier
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
US20230072171A1 (en) System and method for training and refining machine learning models
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112287090A (zh) 一种基于知识图谱的金融问题反问方法及系统
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
Banerjee et al. Generating abstractive summaries from meeting transcripts
CN107665442B (zh) 获取目标用户的方法及装置
CN111400489B (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
CN111309288A (zh) 适用于银行业务的软件需求规格文件的分析方法及装置
CN116304046A (zh) 对话数据的处理方法、装置、存储介质及电子设备
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备
Muralidharan et al. Analyzing ELearning platform reviews using sentimental evaluation with SVM classifier
Huangfu et al. An improved sentiment analysis algorithm for Chinese news
CN112015857A (zh) 用户感知评价方法、装置、电子设备及计算机存储介质
Arnfield Enhanced Content-Based Fake News Detection Methods with Context-Labeled News Sources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231212

Address after: 100020 room 127, 1st floor, building 20, Shuangqiao dairy factory, Chaoyang District, Beijing

Patentee after: BEIJING ZHICHI BOCHUANG TECHNOLOGY CO.,LTD.

Patentee after: Beijing Zhichi Zhongfu Technology Consulting Co.,Ltd.

Address before: 100020 room 211, 2 / F, building 2, Shuangqiao dairy factory, Chaoyang District, Beijing

Patentee before: BEIJING ZHICHI BOCHUANG TECHNOLOGY CO.,LTD.