CN108376151B - 问题分类方法、装置、计算机设备和存储介质 - Google Patents
问题分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108376151B CN108376151B CN201810097892.XA CN201810097892A CN108376151B CN 108376151 B CN108376151 B CN 108376151B CN 201810097892 A CN201810097892 A CN 201810097892A CN 108376151 B CN108376151 B CN 108376151B
- Authority
- CN
- China
- Prior art keywords
- vocabularies
- keywords
- keyword
- question
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种问题分类方法、系统、计算机设备和存储介质。所述方法包括:获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。采用本方法能够有效提高问题分类的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种问题分类方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,自动问答系统在生活中的应用越来越广泛,也为人们的生活带来了许多便利。例如很多地方都放置了自助咨询终端,通过识别用户输入的语音问题,自动给出与问题对应的答案,从而解决用户的疑问和需求。
传统的问答系统中对问题进行分类大多是采用机器学习的方式来构建分类器对问题进行分类;或者采用聚类算法对问题进行分类,然后反馈答案。然而问答系统中用户的输入问题通常属于短文本且用词多样、随意、不规范,机器学习很难提取到问题中丰富的语义特征,而且构建的分类器模型不具备通用性,从而导致对问题进行分类的准确性较低。因此,如何有效提高问题分类的准确性成为目前需要解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高问答系统中问题分类的准确性的问题分类方法、装置、计算机设备和存储介质。
一种问题分类方法,所述方法包括:
获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;
对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;
对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;
在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。
在其中一个实施例中,所述分词后的多个问题词汇包括对应的词性信息,所述对分词后的多个问题词汇进行过滤的步骤包括:
获取预设的定义表,根据分词后的多个问题词汇的词性信息对多个问题词汇标记优先等级;
删除所述优先等级未达到预设等级值的问题词汇;
利用所述优先等级达到预设等级值的问题词汇生成过滤后的问题词汇。
在其中一个实施例中,所述问题词汇包括对应的序列索引,所述利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配的步骤包括:
对所述关键词词典中的词汇进行遍历;
当所述关键词词典中包括与问题词汇相同和近义的词时,将所述关键词词典中的词确定为所述问题词汇对应的目标词汇;
利用多个问题词汇对应的目标词汇按照所述序列索引生成所述问题的关键词。
在其中一个实施例中,所述对所述关键词对应的关键词变量进行聚类的步骤包括:
对所述关键词变量进行多次聚类后得到多个聚类结果;
对多个聚类结果分别进行组合,得到多个第一组合变量;
对所述多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;
当所述概率值达到第一阈值时,筛选出所述概率值对应的第一组合变量,对所述第一组合变量对应的关键词添加与所述关键词对应的类别标签。
在其中一个实施例中,提取出所述问题词汇中的关键词后,剩余的问题词汇为第一特征词汇,所述方法还包括:
对筛选出的组合变量和第一特征词汇对应的变量进行聚类,得到多个聚类结果;
对多个聚类结果分别进行组合,得到多个第二组合变量;
对所述多个组合变量进行相关性检验,计算多个组合变量的概率值;
当所述概率值达到第二阈值时,筛选出所述概率值对应的第二组合变量,对所述第二组合变量对应的问题词汇添加类别标签。
在其中一个实施例中,所述业务类型对应有多个业务关键词,所述根据所述类别标签匹配所述问题对应的业务类型的步骤包括:
对所述多个业务类型中的业务关键词进行遍历,将所述问题的关键词和类别标签与业务类型中的业务关键词进行匹配;
当存在与所述问题的关键词和类别标签相匹配的业务关键词时,将所述问题确定为与所述业务关键词对应的业务类型。
在其中一个实施例中,所述方法还包括:
接收当前会话中用户再次输入的会话问题,对所述会话问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成会话问题关键词;
当所述会话问题关键词不完整时,获取上下文信息,所述上下文信息包括所述问题的关键词;
对所述会话问题关键词以及所述问题的关键词进行聚类分析,得到多个聚类结果;
当所述多个聚类结果中存在与所述会话问题关键词相关联的关键词时,将所述关键词作为所述会话问题关键词。
一种问题分类装置,所述装置包括:
分词模块,用于获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;
过滤模块,用于对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
匹配模块,用于获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;
转换模块,用于对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;
聚类模块,用于对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;
分类模块,用于在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;
对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;
对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;
在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;
对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;
对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;
在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。
上述问题分类方法、装置、计算机设备和存储介质,获取用户输入的问题,对问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇。通过对问题中不必要或不清楚的问题词汇进行过滤,从而能够有效提高对问题分类的准确性。获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,根据匹配成功的问题词汇生成问题的关键词,从而能够有效提取出问题的重点部分。通过对关键词进行特征提取,提取出关键词对应的关键词变量;对关键词对应的关键词变量进行聚类,对聚类后的关键词添加类别标签,从而能够准确地对问题中的关键词进行分类。在问题库中获取多个业务类型,根据类别标签和业务类型对问题进行分类。通过问题关键词的类别标签与业务类型进行匹配,从而能够有效地确定问题对应的业务类型,进而能够有效提高对问题分类的准确性。
附图说明
图1为一个实施例中问题分类方法的应用环境图;
图2为一个实施例中问题分类方法的流程示意图;
图3为一个实施例中问题分类装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的问题分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102包括但不限于是各种计算机、智能机器人、自助咨询设备等,服务器104可以是独立的服务器或者是多个服务器组成的服务器集群来实现。终端102获取用户通过终端102输入的问题,并将用户输入的问题发送至服务器104。服务器104接收到用户输入的问题后,对问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇。服务器104获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词,从而能够有效提取出问题的重点部分。服务器104通过对关键词进行特征提取,提取出关键词对应的关键词变量;对关键词对应的关键词变量进行聚类,对聚类后的关键词添加类别标签,从而能够准确地对问题中的关键词进行分类。服务器104在问题库中获取多个业务类型,根据类别标签和业务类型对问题进行分类。问题库中包括了多个业务类型,根据类别标签匹配问题对应的业务类型,根据类别标签和业务类型对问题进行分类。服务器104根据分类后的问题进一步匹配出对应的回答语句,并将生成的回答语句返回至终端102。通过问题关键词的类别标签与业务类型进行匹配,从而能够有效地确定问题对应的业务类型,进而能够有效提高对问题分类的准确率。
在一个实施例中,如图2所示,提供了一种问题分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取用户输入的问题,对问题进行分词处理,得到多个问题词汇。
用户可以通过终端的屏幕输入问题,也可以直接向终端输入语音问题。用户输入的问题可以是陈述句、疑问句或祈使句等。用户可以输入中文问题,还可以输入外文问题,如英语、法语问题等。例如,用户输入的问题可以是“请问南方航空在哪里取票?”、“我的箱子超过十公斤就要托运吗?”等。
终端获取到用户通过终端的屏幕输入的问题后,终端会根据用户输入的问题生成咨询请求,并将咨询请求发送至服务器。服务器接收到终端发送的用户输入的问题后,按照预设规则对问题进行分词处理。具体地,服务器对问题中的多个词汇和标点符号进行词性标注,服务器根据标注对问题进行分词,将问题拆分为多个问题词汇。其中,问题词汇可以包括字、词汇、短语或标点符号等。例如,在上如举例中,问题“请问南方航空在哪里取票?”进行分词处理后,可以得到多个问题词汇:“请”、“问”、“南方航空”、“在”、“哪里”、“取票”和“?”。
进一步地,当用户输入的问题为语音问题时,终端接收到用户输入的语音问题后,将语音问题发送至服务器。服务器接收到语音问题后,对语音问题进行去噪音处理,去除语音问题中的杂音和不清楚的语句。服务器去除语音问题中的噪音后,将语音问题转换为对应的文本格式的问题。服务器进一步按照预设规则对问题进行分词处理。具体地,服务器对问题中的多个词汇和标点符号进行词性标注,服务器根据标注对问题进行分词,将问题拆分为多个问题词汇。其中,问题词汇可以包括字、词汇、短语或标点符号等。
步骤204,对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇。
服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。服务器可以根据每个问题词汇标注的对应的词性来判断这个问题词汇的优先等级,优先等级包括问题词汇的重要程度和明确程度。具体地,服务器可以获取预先设置的定义表,定义表中定义了各种词性的问题词汇对应的重要程度和明确程度。进一步地,服务器可以根据问题词汇的词性匹配出对应的重要程度,根据问题词汇的重要程度判断对应的明确程度,进而服务器可以根据问题词汇的明确程度确定出多个问题词汇的优先等级,并对问题词汇添加对应的等级标签。服务器可以预先设置等级值,当问题词汇的优先等级没有达到预设的等级值时,表示该问题词汇是不必要的问题词汇或不清楚的问题词汇,服务器则删除未达到预设等级值的问题词汇,以对问题词汇进行过滤。剩下的达到了预设等级值的问题词汇则是过滤后的问题词汇,由此可以有效地过滤掉没有达到预设的等级值问题词汇。通过对问题中不必要货不清楚的问题词汇进行过滤,从而能够有效提高对问题分类的准确性。
例如,定义表中的重要程度可以表示为:1、不重要、标点符号,2、不太干涉语义,3、中文数字,4、量词、副词,5、地址、空间、时间,6、附加的语义、指代,7、是否、原因、条件,8、区分问题词,9、名词,10、动词等。定义表中的明确程度可以表示为:1、根本不能区分,2、不太能区分,3、模糊区分,4、比较能区分,5、明确区分等。其中,重要程度对应的值可以与优先等级值相对应。例如,当预设等级值为3时,在上述举例中,“请”、“问”、“南方航空”、“在”、“哪里”、“取票”和“?”。标点符号“?”的重要程度为1,对应的明确程度也为1,则添加等级标签“1”;“请”、“问”的重要程度为2,对应的明确程度也可以为1,添加等级标签“1”;“南方航空”的重要程度为9,对应的明确程度可为5;“在”、“哪里”的重要程度为5,对应的明确程度为3,则添加等级标签“3”;“取票”的重要程度为10,对应的明确程度可以为5,则添加等级标签“5”。由此可以判断出达到预设等级值3的问题词汇有“南方航空”、“在”、“哪里”、“取票”。因此,服务器就可以将“请”、“问”、“?”过滤掉。
步骤206,获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词。
服务器对多个问题词汇进行过滤后,获取预先配置的关键词词典。关键词词典中包括了多个词汇,这些词汇可以是通过对大量数据进行分析后得出的常见词汇。进一步地,服务器利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配。具体地,当关键词词典中存在与问题词汇相同的词汇或问题词汇的近义词时,则确定问题词汇匹配成功。服务器进而利用匹配成功的问题词汇生成该问题的关键词。
进一步地,当关键词词典中存在问题词汇的近义词时,则将关键词词典中问题词汇的近义词替换为该问题词汇关键词。例如,问题词汇中的“打票”、“领票”、“换票”和“change ticket”等均可以替换为关键词词典中的标准词汇“取票”。
例如,在上述举例中,“请问南方航空在哪里取票?”提取出的关键词可以为“南方航空”、“取票”、“地点”。
步骤208,对关键词进行特征提取,提取出关键词对应的关键词变量。
步骤210,对关键词对应的关键词变量进行聚类,对聚类后的关键词添加与关键词对应的类别标签。
服务器提取出问题中的关键词后,通过计算出关键词的信息熵对关键词进行特征提取,将关键词特征转换为对应的关键词变量,进而对关键词进行聚类分析。具体地,服务器可以预先获取大量的训练样本集,训练样本集中包括多个词汇,统计出每个词汇的出现频次。根据关键词的相邻字符在训练样本集中的出现概率计算出关键词的信息熵。其中,信息熵可以用数字来衡量混乱度的大小,可表示为度量信息大小的一个物理量。信息熵可以反映出具有确定概率的事件发生时所传递的信息。因此信息熵能够更好的度量关键词之间的稳定性和可靠性,提高选择符合预设类别的候选关键词选择的可靠性,同时缩短选择的时间开销。服务器通过计算出关键词的信息熵,提取出关键词对应的特征,并将提取出的特征转换为对应的关键词变量。
具体地,服务器计算出每个关键词的信息熵后,需要区分选取出的关键词特征之间的信息相关性。服务器进一步对关键词变量进行多次聚类后得到多个聚类结果;对多个聚类结果分别进行组合,得到多个组合变量;对多个组合变量进行相关性检验,计算多个组合变量的概率值;当概率值达到预设阈值时,筛选出概率值对应的组合变量,对组合变量对应的关键词添加与关键词对应的类别标签。
进一步地,服务器还可以通过计算出关键词的互信息得到多个组合变量的概率值,也可以直接用关键词的互信息表示概率值。互信息可以表示用于衡量关键词之间相关性的指标。例如,当关键词完全相关时,关键词的互信息值可以为1;不相关时,互信息值可以为0。
服务器对关键词对应的关键词变量进行聚类分析后,对聚类后的关键词添加与关键词对应的类别标签。其中类别标签可以是预先设置的类别标签。例如,在上述举例中,当用户输入的问题为“请问南方航空在哪里取票?”时,提取出的关键词可以为“南方航空”、“取票”、“地点”,通过聚类分析,可以聚类为“南方航空”和“取票地点”这两个类别。服务器则可以为“南方航空”添加“航空公司”的类别标签,为“取票地点”添加“取票地点查询”的类别标签。
步骤212,在问题库中获取多个业务类型,根据类别标签和业务类型对问题进行分类。
服务器中存储有问题库,问题库中包括多个预设的业务类型,每个业务类型中包括了多个与该业务类型相关的业务关键词。服务器对关键词添加对应的类别标签后,在问题库中获取多个业务类型。进而服务器将问题的关键词和类别标签与业务类型中的业务关键词进行匹配,匹配出问题对应的业务类型。由此可以根据类别标签和业务类型对问题进行分类,从而能够有效提高问题分类的准确性。
例如,业务类型可以包括业务办理、业务修改更换、时间查询、地点线路查询、托运安检物品等。上述举例中,问题为“请问南方航空在哪里取票?”时,提取出的关键词后,通过聚类分析可聚类为“南方航空”和“取票地点”这两个类别。服务器为“南方航空”添加“航空公司”的类别标签,为“取票地点”添加“取票地点查询”的类别标签。根据“航空公司”和“取票地点查询”的类别标签可以确定对应的业务类型为“地点线路查询”,从而能够有效地对问题进行分类。
服务器通过对用户输入的问题进行准确地分类后,由此可以匹配出与用户输入的问题相对应的答案,从而能够提高答案匹配的准确性。
上述问题分类方法中,服务器获取用户输入的问题,对问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇。通过对问题中不必要或不清楚的问题词汇进行过滤,从而能够有效提高对问题分类的准确性。服务器获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,根据匹配成功的问题词汇生成问题的关键词,从而能够有效提取出问题的重点部分。服务器通过对关键词进行特征提取,提取出关键词对应的关键词变量;对关键词对应的关键词变量进行聚类,对聚类后的关键词添加类别标签,从而能够准确地对问题中的关键词进行分类。在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。通过问题关键词的类别标签与业务类型进行匹配,从而能够有效地确定问题对应的业务类型,进而能够有效提高对问题分类的准确性。
在一个实施例中,分词后的多个问题词汇包括对应的词性信息,对分词后的多个问题词汇进行过滤的步骤包括:获取预设的定义表,根据分词后的多个问题词汇的词性信息对多个问题词汇标记优先等级;删除优先等级未达到预设等级值的问题词汇;利用优先等级达到预设等级值的问题词汇生成过滤后的问题词汇。
服务器获取到用户输入的问题后,对问题中的多个词汇和标点符号进行词性标注,服务器根据标注对问题进行分词,将问题拆分为多个问题词汇。其中,问题词汇可以包括字、词汇、短语或标点符号等。分词后的多个问题词汇包括了对应的词性信息。
服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。服务器可以根据每个问题词汇标注的对应的词性来判断这个问题词汇的优先等级,优先等级包括问题词汇的重要程度和明确程度。具体地,服务器可以获取预先设置的定义表,定义表中定义了各种词性的问题词汇对应的重要程度和明确程度。进一步地,服务器可以根据问题词汇的词性匹配出对应的重要程度,根据问题词汇的重要程度判断对应的明确程度,进而服务器可以根据问题词汇的明确程度确定出多个问题词汇的优先等级,并对问题词汇添加对应的等级标签。服务器可以预先设置等级值,当问题词汇的优先等级没有达到预设的等级值时,表示该问题词汇是不必要的问题词汇或不清楚的问题词汇,服务器则删除未达到预设等级值的问题词汇,以对问题词汇进行过滤,剩下的达到了预设等级值的问题词汇则是过滤后的问题词汇。由此可以有效地过滤掉不清楚的词汇和与不干涉语义的词汇,由此可以有效地过滤掉没有达到预设的等级值问题词汇。通过对问题中不必要货不清楚的问题词汇进行过滤,从而能够有效提高对问题分类的准确性。
例如,定义表中的重要程度可以表示为:1、不重要、标点符号,2、不太干涉语义,3、中文数字,4、量词、副词,5、地址、空间、时间,6、附加的语义、指代,7、是否、原因、条件,8、区分问题词,9、名词,10、动词等。定义表中的明确程度可以表示为:1、根本不能区分,2、不太能区分,3、模糊区分,4、比较能区分,5、明确区分等。其中,重要程度对应的值可以与优先等级值相对应。例如,当预设等级值为3时,在上述举例中,“请”、“问”、“南方航空”、“在”、“哪里”、“取票”和“?”。标点符号“?”的重要程度为1,对应的明确程度也为1,则添加等级标签“1”;“请”、“问”的重要程度为2,对应的明确程度也可以为1,添加等级标签“1”;“南方航空”的重要程度为9,对应的明确程度可为5;“在”、“哪里”的重要程度为5,对应的明确程度为3,则添加等级标签“3”;“取票”的重要程度为10,对应的明确程度可以为5,则添加等级标签“5”。由此可以判断出达到预设等级值3的问题词汇有“南方航空”、“在”、“哪里”、“取票”。因此,服务器就可以将“请”、“问”、“?”过滤掉,将“南方航空”、“在”、“哪里”、“取票”保留作为过滤后的问题词汇,进而能够有效地过滤掉问题中的不相关的词汇。
在一个实施例中,问题词汇包括对应的序列索引,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配的步骤包括:对关键词词典中的词汇进行遍历;当关键词词典中包括与问题词汇相同和近义的词时,将关键词词典中的词确定为问题词汇对应的目标词汇;利用多个问题词汇对应的目标词汇按照序列索引生成问题的关键词。
服务器获取到用户输入的问题后,对问题中的多个词汇和标点符号进行词性标注,服务器根据标注对问题进行分词,将问题拆分为多个问题词汇。其中,问题词汇可以包括字、词汇、短语或标点符号等。服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。过滤掉一些不清楚的问题词汇和不干涉语义的问题词汇。
服务器对多个问题词汇进行过滤后,获取预先配置的关键词词典。关键词词典中包括了多个词汇,这些词汇可以是通过对大量数据进行分析后得出的常见词汇。进一步地,服务器利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配。具体地,服务器对关键词词典中的词汇进行遍历,当关键词词典中存在与问题词汇相同的词汇或问题词汇的近义词时,则确定问题词汇匹配成功,并将关键词词典中的词汇作为该问题词汇对应的目标词汇。例如,问题词汇中的“打票”、“领票”、“换票”和“change ticket”等均可以替换为关键词词典中的标准词汇“取票”。并将“取票”作为问题词汇对应的目标词汇。进一步地,每个问题词汇都有对应的序列索引,序列索引可以是对该问题进行分词后,每个词汇对应的顺序。当所有的问题词汇与关键词词典中的词汇匹配完成后,服务器进而利用匹配成功的目标词汇按照序列索引生成该问题的关键词。服务器根据匹配词典后利用问题词汇的序列索引生成该问题的关键词,由此能够准确有效地提取出该问题的关键词。
例如,在上述举例中,问题为“请问南方航空在哪里取票?”,对问题过滤后的问题词汇包括“南方航空”、“在”、“哪里”、“取票”。将过滤后的问题词汇与关键词词典中的词汇进行匹配可以匹配出对应的“南方航空”、“地点”、“取票”。根据该问题的序列索引可以得知“在”、“哪里”、“取票”的序列索引是连续的,进而可以将“取票”、“地点”进行置换组合生成关键词。因此,服务器从该问题提取出的关键词可以为“南方航空”、“取票”、“地点”。
在一个实施例中,对关键词对应的关键词变量进行聚类的步骤包括:对关键词变量进行多次聚类后得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第一组合变量;对多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;当概率值达到第一阈值时,筛选出概率值对应的第一组合变量,对第一组合变量对应的关键词添加与关键词对应的类别标签。
服务器获取到用户输入的问题后,对问题中的多个词汇和标点符号进行词性标注,服务器根据标注对问题进行分词,将问题拆分为多个问题词汇。其中,问题词汇可以包括字、词汇、短语或标点符号等。服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。过滤掉一些不清楚的问题词汇和不干涉语义的问题词汇。服务器对多个问题词汇进行过滤后,获取预先配置的关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词。
进一步地,服务器对关键词进行特征提取,提取出关键词对应的关键词变量后。具体地,服务器可以预先获取大量的训练样本集,训练样本集中包括多个词汇,统计出每个词汇的出现频次。根据关键词的相邻字符在训练样本集中的出现概率计算出关键词的信息熵。其中,信息熵可以用数字来衡量混乱度的大小,可表示为度量信息大小的一个物理量。信息熵是度量一个随机变量稳定程度的统计量,用于表示单个随机变量的不确定性的均值,随机变量的信息熵越大,则不确定性越大,能正确估计该随机变量的概率越小。相反,信息熵越小,随机变量稳定性越好。因此信息熵能够更好的度量关键词之间的稳定性和可靠性,提高选择符合预设类别的候选关键词选择的可靠性,同时缩短选择的时间开销。计算信息熵的公式可以表示为:
其中,S代表的是整个集合,也可以是这个集合所有的可能组合。例如,S1代表的是所有的关键词可能出现的词组种类,S2代表的所有词组。pi代表的是第i类组合所占的比例。例如,p1代表的是出现这个关键词所占的比例,p2代表的是出现这个关键词组合所占的比例。m表示一共有m个类别。由此可以计算出关键词的信息熵,进而能够提取出关键词的特征。
服务器计算出关键词的信息熵,并将关键词特征转换为对应的关键词变量后,服务器对关键词变量进行多次聚类后得到多个聚类结果,并对多个聚类结果分别进行组合,得到多个第一组合变量。服务器对多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值。具体地,服务器可以计算出关键词的互信息值,互信息表示用于衡量关键词之间相关性的指标。服务器可以直接用关键词的互信息值表示概率值。计算互信息的公式可以表示为:
Gain(T)=Entropy(T)-Entropy(T,X)
其中,Entropy(T)表示某个关键词的信息熵,Entropy(T,X)表示关键词组合对应的第一组合变量的信息熵。例如,当关键词完全相关时,关键词的互信息值可以为1;不相关时,互信息值可以为0。
服务器可以预先设置第一阈值,当概率值达到第一阈值时,服务器筛选出概率值对应的组合变量,并对第一组合变量对应的关键词添加与关键词对应的类别标签。其中类别标签可以是预先设置的类别标签。通过对问题的关键词进行聚类分析并添加对应的类别标签,从而能够有效地对问题进行分类,进而能够提高问题分类的准确性。
例如,在上述举例中,当用户输入的问题为“请问南方航空在哪里取票?”时,提取出的关键词可以为“南方航空”、“取票”、“地点”,通过聚类分析,可以聚类为“南方航空”和“取票地点”这两个类别。服务器则可以为“南方航空”添加“航空公司”的类别标签,为“取票地点”添加“取票地点查询”的类别标签。
在另一个实施例中,提取出问题词汇中的关键词后,剩余的问题词汇为第一特征词汇,该方法还包括:对筛选出的第一组合变量和第一特征词汇对应的变量进行聚类,得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第二组合变量;对多个第二组合变量进行相关性检验,计算多个第二组合变量的概率值;当概率值达到第二阈值时,筛选出概率值对应的第二组合变量,对第二组合变量对应的问题词汇添加类别标签。
服务器获取到用户输入的问题后,对问题进行分词处理,将问题拆分为多个问题词汇。服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。过滤掉一些不清楚的问题词汇和不干涉语义的问题词汇。服务器对多个问题词汇进行过滤后,获取预先配置的关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词。服务器提取出问题词汇中的关键词后,将剩余的没有匹配成功的问题词汇标识为第一特征词汇。
服务器对关键词进行特征提取,提取出关键词对应的关键词变量后。服务器对关键词变量进行多次聚类后得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第一组合变量;对多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;当概率值达到第一阈值时,筛选出概率值对应的第一组合变量,对第一组合变量对应的关键词添加与关键词对应的类别标签。
进一步地,服务器对筛选出的第一组合变量和第一特征词汇对应的变量再次进行聚类分析,聚类后可以得到多个聚类结果。服务器对多个聚类结果分别进行组合,由此可以得到多个第二组合变量,并对多个第二组合变量进行相关性检验,计算多个第二组合变量的概率值;当概率值达到第二阈值时,筛选出概率值对应的第二组合变量,对第二组合变量对应的问题词汇添加类别标签。服务器通过对问题中的问题词汇和关键词进行两次聚类分析,由此可以有效地根据问题的上下文对问题进行准确地分类,从而能够有效地提高问题分类的准确度。
在一个实施例中,业务类型对应有多个业务关键词,根据所述类别标签匹配问题对应的业务类型的步骤包括:对多个业务类型中的业务关键词进行遍历,将问题的关键词和类别标签与业务类型中的业务关键词进行匹配;当存在与问题的关键词和类别标签相匹配的业务关键词时,将问题确定为与业务关键词对应的业务类型。
服务器获取到用户输入的问题后,对问题进行分词处理,将问题拆分为多个问题词汇。服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。过滤掉一些不清楚的问题词汇和不干涉语义的问题词汇。服务器对多个问题词汇进行过滤后,获取预先配置的关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词。服务器对关键词进行特征提取,提取出关键词对应的关键词变量,并对关键词对应的关键词变量进行聚类,对聚类后的关键词添加与关键词对应的类别标签。
服务器中存储有问题库,问题库中包括多个预设的业务类型,每个业务类型对应有多个与该业务类型相关的业务关键词。服务器对关键词添加对应的类别标签后,在问题库中获取多个业务类型。具体地,服务器对多个业务类型中的业务关键词进行遍历,将问题的关键词和类别标签与业务类型中的业务关键词进行匹配。当存在与问题的关键词和类别标签相匹配的业务关键词时,将问题确定为与业务关键词对应的业务类型。进而服务器根据类别标签匹配问题对应的业务类型,由此可以根据类别标签和业务类型对问题进行分类,从而能够有效提高问题分类的准确性。
例如,业务类型可以包括业务办理、业务修改更换、时间查询、地点线路查询、托运安检物品等。上述举例中,问题为“请问南方航空在哪里取票?”时,提取出的关键词后,通过聚类分析可聚类为“南方航空”和“取票地点”这两个类别。服务器为“南方航空”添加“航空公司”的类别标签,为“取票地点”添加“取票地点查询”的类别标签。根据“航空公司”和“取票地点查询”的类别标签可以确定对应的业务类型为“地点线路查询”,从而能够有效地对问题进行分类。
在一个实施例中,该方法还包括:接收当前会话中用户再次输入的会话问题,对会话问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个会话问题词汇;获取关键词词典,利用过滤后的多个会话问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的会话问题词汇生成会话问题关键词;当会话问题关键词不完整时,获取上下文信息,上下文信息包括问题的关键词;对会话问题关键词以及问题的关键词进行聚类分析,得到多个聚类结果;当多个聚类结果中存在与会话问题关键词相关联的关键词时,将关键词作为会话问题关键词。
服务器获取到用户输入的问题后,对问题进行分词处理,将问题拆分为多个问题词汇。服务器将问题拆分成多个问题词汇后,这些问题词汇中可能有一部分是不清楚的,需要进一步对分词后的多个问题词汇进行过滤。服务器对多个问题词汇进行过滤后,获取预先配置的关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词。服务器对关键词进行特征提取,提取出关键词对应的关键词变量,并对关键词对应的关键词变量进行聚类,对聚类后的关键词添加与关键词对应的类别标签。服务器中存储有问题库,问题库中包括多个预设的业务类型,每个业务类型中包括了多个与该业务类型相关的业务关键词。服务器对关键词添加对应的类别标签后,在问题库中获取多个业务类型,并根据类别标签匹配问题对应的业务类型,根据类别标签和业务类型对问题进行分类。
服务器对用户当前输入的问题进行分类后,用户可能会继续在当前会话中再次输入会话问题。服务器利用用户当前的问题以及该问题的关键词生成上下文信息。进一步地,服务器接收当前会话中用户再次输入的会话问题,对会话问题进行分词处理,得到多个会话问题词汇。服务器对分词后的多个会话问题词汇进行过滤,得到过滤后的多个会话问题词汇。服务器进一步获取关键词词典,利用过滤后的多个会话问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的会话问题词汇生成会话问题关键词。此时,服务器会判断这些会话问题关键词是否完整,完整则表示服务器可以根据这些关键词对会话问题进行分类后匹配出对应的答案。
当会话问题关键词不完整时,服务器获取上下文信息,上下文信息包括问题的关键词。进一步地,服务器对会话问题关键词以及问题的关键词进行聚类分析,得到多个聚类结果。当多个聚类结果中存在与会话问题关键词相关联的关键词时,将该关键词作为会话问题关键词。服务器进一步对会话问题关键词进行特征提取,由此能够提取出会话问题关键词对应的关键词变量。服务器对会话问题关键词对应的关键词变量进行聚类,对聚类后的会话问题关键词添加对应的类别标签。服务器中存储有问题库,问题库中包括多个预设的业务类型,每个业务类型对应有多个与该业务类型相关的业务关键词。服务器对关键词添加对应的类别标签后,在问题库中获取多个业务类型。服务器将会话问题关键词和对应的类别标签与问题库中的业务关键词进行匹配。当存在与问题的关键词和类别标签相匹配的业务关键词时,将问题确定为与业务关键词对应的业务类型。进而服务器就可以根据类别标签准确匹配出与问题相对应的业务类型。服务器通过对会话问题与上下文信息进行结合分析,由此可以根据上下文语境对问题进行准确分类,从而能够有效提高问题分类的准确性。
例如,用户输入的问题为“请问南方航空在哪里取票?”,提取出对应的关键词“南方航空”、“取票”、“地点”。当用户在当前会话继续输入的会话问题为“检票口在哪里?”,提取出对应的会话问题关键词可以为“检票口”、“地点”。因此,根据这两个简单的会话问题关键词无法匹配出到底是哪个航空公司或航班的检票口地点,服务器就可以确定该会话问题关键词是不完整的。进而可以在上下文信息“南方航空”、“取票”、“地点”中进行关联匹配,可以匹配到关联的航空公司为“南方航空”,则将“南方航空”也作为会话问题关键词。由此,会话问题关键词就包括“南方航空”、“检票口”、“地点”,服务器就可以根据完整的会话问题关键词匹配出准确的答案。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种问题分类装置,包括:分词模块302、过滤模块304、匹配模块306、转换模块308、聚类模块310和分类模块312,其中:
分词模块302,用于获取用户输入的问题,对问题进行分词处理,得到多个问题词汇;
过滤模块304,用于对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
匹配模块306,用于获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词;
转换模块308,用于对关键词进行特征提取,提取出关键词对应的关键词变量;
聚类模块310,用于对关键词对应的关键词变量进行聚类,对聚类后的关键词添加与关键词对应的类别标签;
分类模块312,用于在问题库中获取多个业务类型,根据类别标签和业务类型对问题进行分类。
在一个实施例中,分词后的多个问题词汇包括对应的词性信息,过滤模块304还用于获取预设的定义表,根据分词后的多个问题词汇的词性信息对多个问题词汇标记优先等级;删除优先等级未达到预设等级值的问题词汇;利用优先等级达到预设等级值的问题词汇生成过滤后的问题词汇。
在一个实施例中,问题词汇包括对应的序列索引,匹配模块306还用于对关键词词典中的词汇进行遍历;当关键词词典中包括与问题词汇相同和近义的词时,将关键词词典中的词确定为问题词汇对应的目标词汇;利用多个问题词汇对应的目标词汇按照序列索引生成问题的关键词。
在一个实施例中,聚类模块310还用于对关键词变量进行多次聚类后得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第一组合变量;对多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;当概率值达到第一阈值时,筛选出概率值对应的第一组合变量,对第一组合变量对应的关键词添加与关键词对应的类别标签。
在一个实施例中,提取出问题词汇中的关键词后,剩余的问题词汇为第一特征词汇,聚类模块310还用于对筛选出的组合变量和第一特征词汇对应的变量进行聚类,得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第二组合变量;对多个第二组合变量进行相关性检验,计算多个第二组合变量的概率值;当概率值达到第二阈值时,筛选出概率值对应的第二组合变量,对第二组合变量对应的问题词汇添加类别标签。
在一个实施例中,业务类型对应有多个业务关键词,分类模块312还用于对多个业务类型中的业务关键词进行遍历,将问题的关键词和类别标签与业务类型中的业务关键词进行匹配;当存在与问题的关键词和类别标签相匹配的业务关键词时,将问题确定为与业务关键词对应的业务类型。
在一个实施例中,分词模块302还用于接收当前会话中用户再次输入的会话问题,对会话问题进行分词处理,得到多个问题词汇;过滤模块304还用于对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;匹配模块306还用于获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成会话问题关键词;聚类模块310还用于当会话问题关键词不完整时,获取上下文信息,上下文信息包括问题的关键词;对会话问题关键词以及问题的关键词进行聚类分析,得到多个聚类结果;当多个聚类结果中存在与会话问题关键词相关联的关键词时,将关键词作为会话问题关键词。
关于问题分类装置的具体限定可以参见上文中对于问题分类方法的限定,在此不再赘述。上述问题分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户输入的问题、关键词词典、业务类型、业务关键词等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问题分类方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取用户输入的问题,对问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词;
对关键词进行特征提取,提取出关键词对应的关键词变量;
对关键词对应的关键词变量进行聚类,对聚类后的关键词添加与关键词对应的类别标签;
在问题库中获取多个业务类型,根据类别标签和业务类型对问题进行分类。
在一个实施例中,分词后的多个问题词汇包括对应的词性信息,处理器执行计算机程序时还实现以下步骤:获取预设的定义表,根据分词后的多个问题词汇的词性信息对多个问题词汇标记优先等级;删除优先等级未达到预设等级值的问题词汇;利用优先等级达到预设等级值的问题词汇生成过滤后的问题词汇。
在一个实施例中,问题词汇包括对应的序列索引,处理器执行计算机程序时还实现以下步骤:对关键词词典中的词汇进行遍历;当关键词词典中包括与问题词汇相同和近义的词时,将关键词词典中的词确定为问题词汇对应的目标词汇;利用多个问题词汇对应的目标词汇按照序列索引生成问题的关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对关键词变量进行多次聚类后得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第一组合变量;对多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;当概率值达到第一阈值时,筛选出概率值对应的第一组合变量,对第一组合变量对应的关键词添加与关键词对应的类别标签。
在一个实施例中,提取出问题词汇中的关键词后,剩余的问题词汇为第一特征词汇,处理器执行计算机程序时还实现以下步骤:对筛选出的组合变量和第一特征词汇对应的变量进行聚类,得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第二组合变量;对多个第二组合变量进行相关性检验,计算多个第二组合变量的概率值;当概率值达到第二阈值时,筛选出概率值对应的第二组合变量,对第二组合变量对应的问题词汇添加类别标签。
在一个实施例中,业务类型对应有多个业务关键词,处理器执行计算机程序时还实现以下步骤:对多个业务类型中的业务关键词进行遍历,将问题的关键词和类别标签与业务类型中的业务关键词进行匹配;当存在与问题的关键词和类别标签相匹配的业务关键词时,将问题确定为与业务关键词对应的业务类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收当前会话中用户再次输入的会话问题,对会话问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成会话问题关键词;当会话问题关键词不完整时,获取上下文信息,上下文信息包括问题的关键词;对会话问题关键词以及问题的关键词进行聚类分析,得到多个聚类结果;当多个聚类结果中存在与会话问题关键词相关联的关键词时,将关键词作为会话问题关键词。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取用户输入的问题,对问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成问题的关键词;
对关键词进行特征提取,提取出关键词对应的关键词变量;
对关键词对应的关键词变量进行聚类,对聚类后的关键词添加与关键词对应的类别标签;
在问题库中获取多个业务类型,根据类别标签和业务类型对问题进行分类。
在一个实施例中,分词后的多个问题词汇包括对应的词性信息,计算机程序被处理器执行时还实现以下步骤:获取预设的定义表,根据分词后的多个问题词汇的词性信息对多个问题词汇标记优先等级;删除优先等级未达到预设等级值的问题词汇;利用优先等级达到预设等级值的问题词汇生成过滤后的问题词汇。
在一个实施例中,问题词汇包括对应的序列索引,计算机程序被处理器执行时还实现以下步骤:对关键词词典中的词汇进行遍历;当关键词词典中包括与问题词汇相同和近义的词时,将关键词词典中的词确定为问题词汇对应的目标词汇;利用多个问题词汇对应的目标词汇按照序列索引生成问题的关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对关键词变量进行多次聚类后得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第一组合变量;对多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;当概率值达到第一阈值时,筛选出概率值对应的第一组合变量,对第一组合变量对应的关键词添加与关键词对应的类别标签。
在一个实施例中,提取出问题词汇中的关键词后,剩余的问题词汇为第一特征词汇,计算机程序被处理器执行时还实现以下步骤:对筛选出的组合变量和第一特征词汇对应的变量进行聚类,得到多个聚类结果;对多个聚类结果分别进行组合,得到多个第二组合变量;对多个第二组合变量进行相关性检验,计算多个第二组合变量的概率值;当概率值达到第二阈值时,筛选出概率值对应的第二组合变量,对第二组合变量对应的问题词汇添加类别标签。
在一个实施例中,业务类型对应有多个业务关键词,计算机程序被处理器执行时还实现以下步骤:对多个业务类型中的业务关键词进行遍历,将问题的关键词和类别标签与业务类型中的业务关键词进行匹配;当存在与问题的关键词和类别标签相匹配的业务关键词时,将问题确定为与业务关键词对应的业务类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收当前会话中用户再次输入的会话问题,对会话问题进行分词处理,得到多个问题词汇;对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;获取关键词词典,利用过滤后的多个问题词汇与关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成会话问题关键词;当会话问题关键词不完整时,获取上下文信息,上下文信息包括问题的关键词;对会话问题关键词以及问题的关键词进行聚类分析,得到多个聚类结果;当多个聚类结果中存在与会话问题关键词相关联的关键词时,将关键词作为会话问题关键词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种问题分类方法,所述方法包括:
获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;
当所述问题的关键词不完整时,获取上下文信息;对所述问题的关键词和所述上下文信息进行聚类分析,得到多个聚类结果;
当所述多个聚类结果中存在与所述关键词相关联的关键词时,将所述关键词作为所述问题的关键词;
对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;
对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;
在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。
2.根据权利要求1所述的方法,其特征在于,所述分词后的多个问题词汇包括对应的词性信息,所述对分词后的多个问题词汇进行过滤的步骤包括:
获取预设的定义表,根据分词后的多个问题词汇的词性信息对多个问题词汇标记优先等级;
删除所述优先等级未达到预设等级值的问题词汇;
利用所述优先等级达到预设等级值的问题词汇生成过滤后的问题词汇。
3.根据权利要求1所述的方法,其特征在于,所述问题词汇包括对应的序列索引,所述利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配的步骤包括:
对所述关键词词典中的词汇进行遍历;
当所述关键词词典中包括与问题词汇相同和近义的词时,将所述关键词词典中的词确定为所述问题词汇对应的目标词汇;
利用多个问题词汇对应的目标词汇按照所述序列索引生成所述问题的关键词。
4.根据权利要求1所述的方法,其特征在于,所述对所述关键词对应的关键词变量进行聚类的步骤包括:
对所述关键词变量进行多次聚类后得到多个聚类结果;
对多个聚类结果分别进行组合,得到多个第一组合变量;
对所述多个第一组合变量进行相关性检验,计算多个第一组合变量的概率值;
当所述概率值达到第一阈值时,筛选出所述概率值达到第一阈值的第一组合变量,对筛选出的第一组合变量对应的关键词添加与所述关键词对应的类别标签。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对筛选出的第一组合变量和第一特征词汇对应的变量进行聚类,得到多个聚类结果;所述第一特征词汇为所述问题词汇中除提取出的关键词以外的问题词汇;
对多个聚类结果分别进行组合,得到多个第二组合变量;
对所述多个第二组合变量进行相关性检验,计算多个第二组合变量的概率值;
当所述概率值达到第二阈值时,筛选出所述概率值达到第二阈值的第二组合变量,对筛选出的第二组合变量对应的问题词汇添加类别标签。
6.根据权利要求1所述的方法,其特征在于,所述业务类型对应有多个业务关键词,所述根据所述类别标签和所述业务类型对所述问题进行分类的步骤包括:
对所述多个业务类型中的业务关键词进行遍历,将所述问题的关键词和类别标签与业务类型中的业务关键词进行匹配;
当存在与所述问题的关键词和类别标签相匹配的业务关键词时,将所述问题确定为与所述业务关键词对应的业务类型。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:
接收当前会话中用户再次输入的会话问题,对所述会话问题进行分词处理,得到多个问题词汇;
对分词后的多个问题词汇进行过滤,得到过滤后的多个会话问题词汇;
获取关键词词典,利用过滤后的多个会话问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的会话问题词汇生成会话问题关键词;
当所述会话问题关键词不完整时,获取上下文信息,所述上下文信息包括所述问题的关键词;
对所述会话问题关键词以及所述问题的关键词进行聚类分析,得到多个聚类结果;
当所述多个聚类结果中存在与所述会话问题关键词相关联的关键词时,将所述关键词作为所述会话问题关键词。
8.一种问题分类装置,其特征在于,所述装置包括:
分词模块,用于获取用户输入的问题,对所述问题进行分词处理,得到多个问题词汇;
过滤模块,用于对分词后的多个问题词汇进行过滤,得到过滤后的多个问题词汇;
匹配模块,用于获取关键词词典,利用过滤后的多个问题词汇与所述关键词词典中的词汇进行匹配,利用匹配成功的问题词汇生成所述问题的关键词;
转换模块,用于对所述关键词进行特征提取,提取出所述关键词对应的关键词变量;
聚类模块,用于对所述关键词对应的关键词变量进行聚类,对聚类后的关键词添加与所述关键词对应的类别标签;当所述问题的关键词不完整时,获取上下文信息;对所述问题的关键词和所述上下文信息进行聚类分析,得到多个聚类结果;当所述多个聚类结果中存在与所述关键词相关联的关键词时,将所述关键词作为所述问题的关键词;
分类模块,用于在问题库中获取多个业务类型,根据所述类别标签和所述业务类型对所述问题进行分类。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810097892.XA CN108376151B (zh) | 2018-01-31 | 2018-01-31 | 问题分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810097892.XA CN108376151B (zh) | 2018-01-31 | 2018-01-31 | 问题分类方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108376151A CN108376151A (zh) | 2018-08-07 |
CN108376151B true CN108376151B (zh) | 2020-08-04 |
Family
ID=63017256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810097892.XA Expired - Fee Related CN108376151B (zh) | 2018-01-31 | 2018-01-31 | 问题分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108376151B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345282A (zh) * | 2018-08-22 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 一种业务咨询的响应方法及设备 |
CN109255019B (zh) * | 2018-09-07 | 2021-06-08 | 广州爱易学智能信息科技有限公司 | 一种在线查询题库及其应用方法 |
CN109446302B (zh) * | 2018-09-25 | 2023-08-22 | 中国平安人寿保险股份有限公司 | 基于机器学习的问答数据处理方法、装置和计算机设备 |
CN109543030B (zh) * | 2018-10-12 | 2023-04-07 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109446522B (zh) * | 2018-10-22 | 2023-09-19 | 北京布局未来教育科技有限公司 | 一种试题自动分类系统及方法 |
CN109361823A (zh) * | 2018-11-01 | 2019-02-19 | 深圳市号互联科技有限公司 | 一种语音与文本相互转化的智能交互方式 |
CN109635180A (zh) * | 2018-12-13 | 2019-04-16 | 武汉虹旭信息技术有限责任公司 | 基于互联网海量信息的关键词分类处理系统及其方法 |
CN109815333B (zh) * | 2019-01-14 | 2021-05-28 | 金蝶软件(中国)有限公司 | 信息获取方法、装置、计算机设备和存储介质 |
CN110059171B (zh) * | 2019-04-12 | 2021-01-01 | 中国工商银行股份有限公司 | 智能问答性能提升方法及系统 |
CN110298028B (zh) * | 2019-05-21 | 2023-08-18 | 杭州未名信科科技有限公司 | 一种文本段落的关键句提取方法和装置 |
CN110555101A (zh) * | 2019-09-09 | 2019-12-10 | 浙江诺诺网络科技有限公司 | 一种客服知识库更新方法、装置、设备及存储介质 |
CN110717040A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
CN110837843B (zh) * | 2019-09-26 | 2024-05-14 | 平安银行股份有限公司 | 信息分类方法、装置、计算机设备及存储介质 |
CN112925903B (zh) * | 2019-12-06 | 2024-03-29 | 农业农村部信息中心 | 文本分类的方法、装置、电子设备及介质 |
CN110992067B (zh) * | 2019-12-13 | 2023-08-08 | 中国平安财产保险股份有限公司 | 消息推送方法、装置、计算机设备及存储介质 |
CN111222309B (zh) * | 2020-01-15 | 2024-09-24 | 深圳前海微众银行股份有限公司 | 一种问句生成的方法及装置 |
CN111506726B (zh) * | 2020-03-18 | 2023-09-22 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111428495A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大搜车软件技术有限公司 | 工作流审批处理方法、系统和计算机设备 |
CN112182158A (zh) * | 2020-09-29 | 2021-01-05 | 中国平安人寿保险股份有限公司 | 文档自动分类方法、装置、设备及存储介质 |
CN113095073B (zh) * | 2021-03-12 | 2022-04-19 | 深圳索信达数据技术有限公司 | 语料标签生成方法、装置、计算机设备和存储介质 |
CN113239687B (zh) * | 2021-05-08 | 2024-03-22 | 北京天空卫士网络安全技术有限公司 | 一种数据处理方法和装置 |
CN113032574B (zh) * | 2021-05-27 | 2021-10-08 | 明品云(北京)数据科技有限公司 | 一种基于关键词的问卷配置方法、系统、设备和介质 |
CN113326350B (zh) * | 2021-05-31 | 2023-05-26 | 江汉大学 | 基于远程学习的关键词提取方法、系统、设备及存储介质 |
CN115688759B (zh) * | 2022-11-07 | 2023-11-07 | 北京北明数科信息技术有限公司 | 上报信息归类方法、系统、计算机设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251862A (zh) * | 2008-03-25 | 2008-08-27 | 北京百问百答网络技术有限公司 | 一种基于内容的问题自动分类方法及其系统 |
CN105989040A (zh) * | 2015-02-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 智能问答的方法、装置及系统 |
CN106294500A (zh) * | 2015-06-09 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 内容项目的推送方法、装置及系统 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666730B2 (en) * | 2009-03-13 | 2014-03-04 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
-
2018
- 2018-01-31 CN CN201810097892.XA patent/CN108376151B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251862A (zh) * | 2008-03-25 | 2008-08-27 | 北京百问百答网络技术有限公司 | 一种基于内容的问题自动分类方法及其系统 |
CN105989040A (zh) * | 2015-02-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 智能问答的方法、装置及系统 |
CN106294500A (zh) * | 2015-06-09 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 内容项目的推送方法、装置及系统 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108376151A (zh) | 2018-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN107045496A (zh) | 语音识别后文本的纠错方法及纠错装置 | |
CN112487140A (zh) | 问答对话评测方法、装置、设备及存储介质 | |
CN111444723A (zh) | 信息抽取模型训练方法、装置、计算机设备和存储介质 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
KR20180120488A (ko) | 텍스트 마이닝 기법을 활용한 고객 불만에 대한 분류 및 예측 방법 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
TW202034207A (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN114186040A (zh) | 一种智能机器人客服的运作方法 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN114186041A (zh) | 一种答案输出方法 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200804 Termination date: 20220131 |
|
CF01 | Termination of patent right due to non-payment of annual fee |