CN116932721B - 一种银行业务问答匹配方法、装置、客服机器人 - Google Patents
一种银行业务问答匹配方法、装置、客服机器人 Download PDFInfo
- Publication number
- CN116932721B CN116932721B CN202310918296.4A CN202310918296A CN116932721B CN 116932721 B CN116932721 B CN 116932721B CN 202310918296 A CN202310918296 A CN 202310918296A CN 116932721 B CN116932721 B CN 116932721B
- Authority
- CN
- China
- Prior art keywords
- question
- user
- knowledge base
- answer
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 139
- 238000006243 chemical reaction Methods 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000015654 memory Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于自然语言处理领域,提供了一种银行业务问答匹配方法、装置、客服机器人,其中,方法包括:获取预设的基础问答知识库;对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;获取用户问题;根据预设的词向量转换算法,确定所述用户问题的句向量;根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复;从而根据一个较小的基础问答知识库得到一个规模更大的模糊化问答数据库,进而减轻前期数据准备时的压力。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种银行业务问答匹配方法、装置、客服机器人。
背景技术
由于客户不一定了解自己所要办理的业务的具体细节,如办理的窗口、需要准备的资料,因而客户会向工作人员询问,而为了减轻工作人员的工作负担,银行引入了具有自然语言处理能力的客服机器人以回答客户的一些常见问题,进而使得工作人员能够专注于业务的办理上。
现有技术中的问答匹配方法利用长短期记忆网络和卷积神经网络两种深层次的深度神经网络,充分学习问题和答案文本的词序以及句子局部特征,并基于注意力机制的池化方式选择出语义匹配最好的关键词,并从预设的问答库中选取出最适合的答案。
但现有技术的问答匹配方法所需要准备的问答数据库较大,前期准备成本较高。
发明内容
本申请实施例的目的在于提供一种银行业务问答匹配方法,旨在解决现有技术中的问答匹配方法所需要准备的问答数据库较大,前期准备成本较高。
本申请实施例是这样实现的,一种银行业务问答匹配方法,所述方法包括:
获取预设的基础问答知识库;
对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
获取用户问题;
根据预设的词向量转换算法,确定所述用户问题的句向量;
根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
本申请实施例的另一目的在于一种银行业务问答匹配装置,包括:
基础问答知识库获取模块,用于获取预设的基础问答知识库;
近义词扩展模块,用于对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
知识库问题句向量确定模块,用于根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
用户问题获取模块,用于获取用户问题;
用户问题句向量确定模块,用于根据预设的词向量转换算法,确定所述用户问题的句向量;以及,
用户问题答复确定模块,用于根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
本申请实施例的另一目的在于一种客服机器人,包括:
语音识别模块,用于采集用户语音,并将所述用户语音转换为用户问题;
运算处理与存储模块,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的一种银行业务问答匹配方法的步骤;以及,
语音播报模块,用于将用户问题的答复进行语音播报。
本申请实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的一种银行业务问答匹配方法的步骤。
本申请实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行上述的一种银行业务问答匹配方法的步骤。
本申请实施例提供的一种银行业务问答匹配方法,获取预设的基础问答知识库;对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;通过对基础问答知识库中的问题近义词扩展,得到多个扩展问题,再根据扩展问题创建模糊化问答知识库,从而获取更多的问答数据,从而根据一个较小的基础问答知识库得到一个规模更大的模糊化问答数据库,进而减轻前期数据准备时的压力。然后,获取用户问题;根据预设的词向量转换算法,确定所述用户问题的句向量;根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
附图说明
图1为本申请实施例提供的一种银行业务问答匹配方法的应用环境图;
图2为本申请实施例提供的一种银行业务问答匹配方法的流程图;
图3为本申请实施例提供的一种基础问答知识库扩展方法的流程图;
图4为本申请实施例提供的一种句向量确定方法的流程图;
图5为本申请实施例提供的另一种银行业务问答匹配方法的流程图;
图6为本申请实施例提供的一种用户问题扩展方法的流程图;
图7为本申请实施例提供的一种用户问题答复确定方法的流程图;
图8为本申请实施例提供的一种银行业务问答匹配装置的结构框图;
图9为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
图1为本申请实施例提供的一种银行业务问答方法的应用环境图,如图1所示,在该应用环境中,包括终端110以及计算机设备120。
计算机设备120可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120可以通过网络进行连接,本申请在此不做限制。
在一个实施例中,如图2所示,一种银行业务问答匹配方法,本实施例以该方法应用与图1中的终端110为例对其进行说明。当然,上述方法也可以应用于其他装置或者设备上,如应用于银行客服机器人,该方法可以部署在该银行客服机器人的运算处理与存储模块,即控制模块上,在机器人通过语音识别模块获取到用户问题之后,通过运算处理与存储模块进行处理,然后通过语音播报模块以告知用户,或者是显示在相应的屏幕上。
上述银行业务问答匹配方法包括:
步骤S202:获取预设的基础问答知识库。
其中,基础问答知识库为银行方整理的、客户常见的对业务的问题,以及对应的答案,代表性的问答知识库实例如下:
1.如何开设银行账户?
-您可以前往我们的网站/附近的分行填写开户申请表并提交所需文件,如身份证明和地址证明。
-或者您可以下载我们的手机应用程序,在应用程序中完成开户申请流程。
2.如何查询账户余额?
-您可以登录网上银行或手机银行查看最新的账户余额。
-您还可以通过在ATM机上进行查询或拨打我们的客户服务热线来获取账户余额信息。
步骤S204:对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数。
其中,由于基础问答知识库中的问题是由银行方进行收集整理的,因而基础问答知识库中的问题采用的词语较为标准,且问题较为精炼,而客户对于业务不够了解,因而其采用的词语可能不够标准,且问题较为啰嗦。因而,可以对基础问答知识库中的各个基础问题进行近义词扩展,使得其能够适配更多的、可能的用户问题。而在进行近义词扩展之后得到的扩展问题相对于客户的原始问题,可能会存在一定的语义偏差,因而需要统计模糊化问答知识库中的各个扩展问题的语义衰减系数,从而确定其与客户原始问题之间偏差程度。
步骤S206:根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量。
其中,词向量转换算法,即词向量转换模型以及其训练过程均为现有技术,本申请对此不再进行介绍。待词向量转换模型训练好之后,可以根据该模型得到模糊化问答知识库中的各个词语的词向量,并根据各个问题的词语构成,确定各个问题的句向量。
步骤S208:获取用户问题。
其中,用户问题通过各种语音识别模块对用户的语音进行识别,将其转换以文字形式展示的问题,或者是在终端设备上存储有相应的语音转换算法,将语音采集设备所获取的用户语音转换为用户问题,本申请对用户语音转换为用户问题的过程不做具体限制,本领域的技术人员可根据实际需要自由选择。需要注意的是,在本申请中的“用户”和“客户”实质上为同一个体/事物,只是相对于银行方来说,其为客户,相对于设备/装置来说,其为用户。
步骤S210:根据预设的词向量转换算法,确定所述用户问题的句向量。
其中,预设的词向量转换算法,即词向量转换模型为现有技术,但需要注意的是,此处的词向量转换模块与步骤S206中的词向量转换模型为同一个模型,从而使得得到的、同一词语的词向量一致。根据词向量转换算法得到用户问题中各个词语的词向量,再根据各个词向量得到用户问题的句向量。
步骤S212:根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
其中,根据用户问题的句向量与模糊化问答知识库中各个问题的句向量之间的余弦相似度,衡量用户问题与模糊化问答知识库中各个问题之间的相似性,而由于模糊化问答知识库中各个问题在进行扩展时,与原基础问题产生了一点的偏差,因而将模糊化问答知识库中各个问题的语义衰减系数与对应的余弦相似度之积作为模糊化问答知识库中各个问题与用户问题之间的相似性衡量指标,即在进行相似性计算时也考虑由于近义词扩展带来的语义衰减,从而提高用户问题与模糊化问答知识库中的问题的匹配精度,以在模糊化问答知识库中确定最匹配的问题,然后将最匹配的问题对应的答复作为用户问题的答复,并通过语音播报/屏幕展示等方式将答复输出。
在一个实施例中,如图3所示,步骤S204包括:
步骤S302:针对所述基础问答知识库中的每一个问题,对所述问题进行分词处理,得到各个词语。
其中,对基础问答知识库中的每一个问题都进行分词处理,例如:“请问如何进行贷款业务?”这个标准问题,其进行分词处理之后为:{(请问),(如何),(进行),(贷款),(业务)}。
步骤S304:获取各个词语的近义词,构建各个近义词组。
其中,将基础问题切分为多个词语之后,依次获取各个词语的所有近义词,构成该词的近义词组,而近义词可通过现有技术中的近义词词典索引库等公开数据库获取。
步骤S306:将所述近义词组中的各个近义词进行排列组合,得到多个扩展问题,并依次确定所述多个扩展问题的语义衰减系数。
其中,将基础问题中的一个或者多个词语用对应的近义词组中的任一词语进行替换,得到一个扩展问题。如:请问如何进行贷款业务?”这个标准问题的一个扩展问题为:{(请问),(怎样),(开展),(借贷),(事务)}。重复上述步骤直至遍历所有可能的组合,得到k个扩展问题。
通过上述步骤,将一个基础问题Q,扩展为k个扩展问题qk,理论上来说,多个扩展问题与基础问题的语义应当一致,但由于近义词之间还是存在一些语义上的区别,因而对于每一个扩展问题,都采用一个语义衰减系数α,以记录与基础问题之间的语义偏离幅度。在本实施例中,α∈[0.5,1],当α=1时,表面语义没有变化,当α<0.5时,可以认为扩展问题与基础问题之间的语义偏离较大,不属于同一问题,可以将其删除。当数据量较少时,α可以由人工取值,以得到更高的准确率,但数据量较大时,可通过以下公式进行计算:
α=Πβi
其中,βi表示模糊化时每一个近义词与原词的相似度,默认可以取0.95,若在从公开数据库中获取近义词组时,数据库中有类似的数据,也可以采用该数据库所提供的近义词与原词之间的相似度进行计算。
步骤S308:基于所述多个扩展问题,构建模糊化问答知识库。
其中,经过上面的步骤,将基础知识库中的一个基础问题扩展为k个扩展问题,而这k个问题的答复与该基础问题一致,然后将上述1+k条问答均加入到模糊化问答知识库中。待对基础数据库中的每一条基础问题都进行上述操作之后,将会得到一个规模远大于基础知识库的模糊化知识库,从而使得前期准备时,不需要考虑同一问题/相似问题的不同表述,从而减少前期构建问答知识库的时间和精力。
在一个实施例中,如图4所示,步骤S206包括:
步骤S402:对所述模糊化问答知识库中的各个问题及答案进行分词处理,得到各个扩展词语。
其中,对模糊化问答知识库中的各个问题及答案进行分词处理,得到各个扩展词语,并将各个扩展词语记录在词汇表中。
步骤S404:基于预设的词向量转换算法,确定各个所述扩展词语的词向量。
其中,词向量转换算法,即词向量转换模型为现有技术,因而不对其进行过多的介绍。在将一个扩展词语输入至词向量转换模型之后,会得到一个1*n的向量,为该词的词向量(例如,一个1*100维的数值矩阵)。
步骤S406:根据各个所述扩展词语的词向量,确定模糊化问答知识库的特征表达矩阵。
其中,在得到各个扩展词语的词向量之后,采用K均值聚类算法对各个扩展词语的词向量进行分类处理,得到c个类。分别取c个类的中心点丢的词向量,组成模糊化问答知识库的特征表达矩阵M,M的维度为n*c维。
步骤S408:针对所述模糊化问答知识库中的每一个问题,根据所述问题中各个扩展词语的词向量、所述模糊化问答知识库的特征表达矩阵,确定所述问题的句向量。
其中,对于迷糊化问答知识库中的一个问题,假设其由L个扩展词语构成,且通过上面的步骤,可以得到这L个扩展词语对应的词向量,则该问题可以表述为矩阵S,S的维度为n*L维,则该问题的特征矩阵为P(P为c*L维)为:
P=MTS
对该问题的特征矩阵P中的每一行取该行的最大值,可得到该问题的句向量V,V的维度为c*1维。
在一个实施例中,如图5所示,步骤S210包括:
步骤S502:对所述用户问题进行近音词扩展、近义词扩展,得到扩展用户问题和所述扩展用户问题的衰减系数。
其中,由于用户问题根据用户的语音进行转换得到,而用户的语音可能不够标准,从而使得得到用户问题不准确。例如,用户想要询问的问题是:“我想要办理贷款,你知道怎么办吗?”,可能是由于用户的发音不标准,或者是语音识别模块出错,使得得到的用户问题为“我想要办理带宽,你知道怎么办吗?”因此,在得到用户问题之后,会先对用户问题进行近音词扩展,以弥补用户的语音问题/音频采集设备的设备问题,然后再对用户问题进行近义词扩展,使得用户问题更有可能与模糊化问答知识库中的问题相匹配,从而得到更准确的答复。
其次,由于在对用户问题进行近音词扩展、近义词扩展而得到的扩展用户问题与原始用户问题之间会存在一定的偏离,因而需要用衰减系数以记录两者的偏离程度。
步骤S504:根据预设的词向量转换算法,确定扩展用户问题的句向量。
其中,对经过近音词扩展以及近义词扩展得到的多个扩展问题进行分词处理,得到各个词语。根据预设的词向量转换算法,得到上述各个词语的词向量,词向量的维度为1*n。对于一个扩展用户问题,假设其由L个词语构成,则该问题可以表述为矩阵S,S的维度为n*L维,则该问题的特征矩阵为P(P为c*L维)为:
P=MTS
其中,M为模糊化问答知识库的特征表达矩阵。对该问题的特征矩阵P中的每一行取该行的最大值,可得到该扩展用户问题的句向量Z,Z的维度为c*1维。
步骤S212,包括:
步骤S506:根据所述扩展用户问题的句向量和衰减系数、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
其中,扩展用户问题与模糊化问答知识库中的扩展问题之间的相似度计算公式为:
sim=cos(V,Z)*α*ρ
其中,sim为两者的相似度;V为模糊化问答知识库中的扩展问题的句向量;Z为扩展用户问题的句向量;α为模糊化问答知识库中的扩展问题的语义衰减系数;ρ为扩展用户问题的衰减系数。
遍历计算得到所有的相似度之后,选取相似度最大值对应的扩展问题的答复作为用户问题的答复。
优选地,在计算扩展用户问题与扩展问题之间的相似度之前(即在步骤S506之前),先根据用户问题与基础问答知识库中的基础问题之间的相似度(具体过程请参见图7以及对应的实施例的内容),确定用户问题的答复,从而在用户的表示较为清晰、准确的情况下能够快速得到用户问题的答复。
在一个实施例中,如图6所示,步骤S502包括:
步骤S602:对所述用户问题进行分词处理,得到各个问题词语。
其中,对用户问题进行分词可参考以下例子:用户语音识别结果为:“你好!我想要办理带宽,你知道怎么办吗?”,其对应的词组为:{(你好),(我),(想要),(办理),(带宽),(你),(知道),(怎么办)}。
步骤S604:基于预设的近音词表,确定各个问题词语的近音词组。
其中,预设的近音词表可以是常见汉字以及其近音扩展,而近音扩展可以按照同拼音、同拼音不同声调近似、前后鼻音近似、方言近似等来扩展。优选的,预设的近音词表为步骤S402中得到的词汇表中的高频专业词语及其近音扩展,从而减少近音词表的大小,便于查找。对于近音词表中的每一个近音扩展,均有一个近音衰减系数γ,γ∈[0.5,1]。γ=1表示是完全同音词,γ越小,相似度越低;对于其他近音近似,γ可以根据所在部署地方言等情况由人工指定或者自动默认产生,默认值可以取0.6-0.8。例如,高频专业词:“贷款”,它可以有近音词扩展“带宽”(γ=0.8,来自同拼音不同声调近似)。
在得到近音词表之后,在近音词表中寻找各个问题词语的近音词,组成该词语的近音词组。对于近音词表中没有相关记录的词语,其近音词组为空。
步骤S606:将所述近音词组中的各个近音词进行排序组合,得到多个近音扩展问题以及多个近音扩展问题对应的语音衰减系数。
其中,将用户问题中的一个或者多个词语用对应的近音词组中的任一词语进行替换,得到一个近音扩展问题,而该近音扩展问题的语音衰减系数为各个近义扩展的近音衰减系数的乘积,然后重复上面的步骤直至便于所有的扩展组合。
步骤S608:对所述多个近音扩展问题进行近义词扩展,得到多个扩展用户问题和所述多个扩展用户问题的衰减系数。
其中,对多个近音扩展问题进行近义词扩展,该扩展过程可参考步骤S302至S306,从而得到多个扩展用户问题,而每一个扩展用户问题均存在一个衰减系数以记录其与原始用户问题之间的偏离程度,该衰减系数表示为:ρ,ρ∈[0.5,1],ρ=1表示无变化,ρ越小,表示语义变化越大,当ρ小于0.5,可以认为模糊化后的词组和原词组不再同义,可以筛选去掉。
ρ由如下公式计算:
ρ=∏γiβj
其中,γi表示该词组中某个词因近音词扩展而带来的衰减,βi表示该词组中某个词因近义词扩展而带来的衰减。
在一个实施例中,如图7所示,在步骤S506之前,包括:
步骤S702:针对基础问答知识库中的每一个问题,计算由所述问题中各个词语组成的集合与由所述用户问题中各个词语组成的集合之间的相似度。
其中,假设集合A为基础问答知识库中任一问题中的各个词语组成的集合,集合B为用户问题中各个词语组成的集合,则两者之间的相似度为:
其中,n为元素个数;Ai代表集合A中第i个元素的频数;Bi代表集合B中第i个元素的频数。
步骤S704:当判断出所述相似度的最大值大于预设阈值时,将所述最大值对应的基础问题的答复确定为所述用户问题的答复。
其中,在计算得到基础问答知识库中每一个基础问题与用户问题之间的相似度后,从中筛选出相似度的最大值,然后判断该最大值是否大于预设的阈值,该阈值可根据实际情况设置。当判断出该最大值大于预设阈值时,说明用户问题与该最大值对应的基础问题之间的相似度较高,可以认为两者为同一问题,因而可以将该基础问题的答复作为用户问题的答复。需要注意的是,再根据上述方法得到用户答复之后,就不再执行步骤S506,即步骤S506只有在相似度的最大值小于或者等于预设阈值时才执行,从而兼顾快速匹配以及对模糊语义的可靠匹配。
在一个实施例中,如图8所示,一种银行业务问答匹配装置,包括:
基础问答知识库获取模块810,用于获取预设的基础问答知识库;
近义词扩展模块820,用于对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
知识库问题句向量确定模块830,用于根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
用户问题获取模块840,用于获取用户问题;
用户问题句向量确定模块850,用于根据预设的词向量转换算法,确定所述用户问题的句向量;以及,
用户问题答复确定模块860,用于根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
其中,各个模块的具体执行过程请参考上面的实施例,本申请在此不再重复。
在一个实施例中,一种客服机器人,包括:
语音识别模块,用于采集用户语音,并将所述用户语音转换为用户问题;
控制模块,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取预设的基础问答知识库;对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;获取用户问题;根据预设的词向量转换算法,确定所述用户问题的句向量;根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复;以及,
语音播报模块,用于将用户问题的答复进行语音播报。
在一个实施例中,如图9所示,一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取预设的基础问答知识库;
对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
获取用户问题;
根据预设的词向量转换算法,确定所述用户问题的句向量;
根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
在一个实施例中,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行以下步骤:
获取预设的基础问答知识库;
对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
获取用户问题;
根据预设的词向量转换算法,确定所述用户问题的句向量;
根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复。
应该理解的是,虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种银行业务问答匹配方法,其特征在于,所述方法包括:
获取预设的基础问答知识库;
对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
获取用户问题;
根据预设的词向量转换算法,确定所述用户问题的句向量;
根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复;
所述对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数,包括:
针对所述基础问答知识库中的每一个问题,对所述问题进行分词处理,得到各个词语;
获取各个词语的近义词,构建各个近义词组;
将所述近义词组中的各个近义词进行排列组合,得到多个扩展问题,并依次确定所述多个扩展问题的语义衰减系数;
基于所述多个扩展问题,构建模糊化问答知识库;
所述根据预设的词向量转换算法,确定所述用户问题的句向量,包括:
对所述用户问题进行近音词扩展、近义词扩展,得到扩展用户问题和所述扩展用户问题的衰减系数;
根据预设的词向量转换算法,确定扩展用户问题的句向量;
所述根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复,包括:
根据所述扩展用户问题的句向量和衰减系数、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复;
所述对所述用户问题进行近音词扩展、近义词扩展,得到扩展用户问题和所述扩展用户问题的衰减系数,包括:
对所述用户问题进行分词处理,得到各个问题词语;
基于预设的近音词表,确定各个问题词语的近音词组;
将所述近音词组中的各个近音词进行排序组合,得到多个近音扩展问题以及多个近音扩展问题对应的语音衰减系数;
对所述多个近音扩展问题进行近义词扩展,得到多个扩展用户问题和所述多个扩展用户问题的衰减系数。
2.根据权利要求1所述的一种银行业务问答匹配方法,其特征在于,所述根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量,包括:
对所述模糊化问答知识库中的各个问题及答案进行分词处理,得到各个扩展词语;
基于预设的词向量转换算法,确定各个所述扩展词语的词向量;
根据各个所述扩展词语的词向量,确定模糊化问答知识库的特征表达矩阵;
针对所述模糊化问答知识库中的每一个问题,根据所述问题中各个扩展词语的词向量、所述模糊化问答知识库的特征表达矩阵,确定所述问题的句向量。
3.根据权利要求1所述的一种银行业务问答匹配方法,其特征在于,在所述根据所述扩展用户问题的句向量和衰减系数、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复之前,包括:
针对基础问答知识库中的每一个问题,计算由所述问题中各个词语组成的集合与由所述用户问题中各个词语组成的集合之间的相似度;
当判断出所述相似度的最大值大于预设阈值时,将所述最大值对应的基础问题的答复确定为所述用户问题的答复。
4.一种银行业务问答匹配装置,其特征在于,包括:
基础问答知识库获取模块,用于获取预设的基础问答知识库;
近义词扩展模块,用于对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数;
知识库问题句向量确定模块,用于根据预设的词向量转换算法,确定所述模糊化问答知识库中各个问题的句向量;
用户问题获取模块,用于获取用户问题;
用户问题句向量确定模块,用于根据预设的词向量转换算法,确定所述用户问题的句向量;以及,
用户问题答复确定模块,用于根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复;
所述对所述基础问答知识库进行近义词扩展,得到模糊化问答知识库以及所述模糊化问答知识库中各个问题的语义衰减系数,包括:
针对所述基础问答知识库中的每一个问题,对所述问题进行分词处理,得到各个词语;
获取各个词语的近义词,构建各个近义词组;
将所述近义词组中的各个近义词进行排列组合,得到多个扩展问题,并依次确定所述多个扩展问题的语义衰减系数;
基于所述多个扩展问题,构建模糊化问答知识库;
所述根据预设的词向量转换算法,确定所述用户问题的句向量,包括:
对所述用户问题进行近音词扩展、近义词扩展,得到扩展用户问题和所述扩展用户问题的衰减系数;
根据预设的词向量转换算法,确定扩展用户问题的句向量;
所述根据所述用户问题的句向量、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复,包括:
根据所述扩展用户问题的句向量和衰减系数、模糊化问答知识库中各个问题的句向量和语义衰减系数,确定所述用户问题的答复;
所述对所述用户问题进行近音词扩展、近义词扩展,得到扩展用户问题和所述扩展用户问题的衰减系数,包括:
对所述用户问题进行分词处理,得到各个问题词语;
基于预设的近音词表,确定各个问题词语的近音词组;
将所述近音词组中的各个近音词进行排序组合,得到多个近音扩展问题以及多个近音扩展问题对应的语音衰减系数;
对所述多个近音扩展问题进行近义词扩展,得到多个扩展用户问题和所述多个扩展用户问题的衰减系数。
5.一种客服机器人,其特征在于,包括:
语音识别模块,用于采集用户语音,并将所述用户语音转换为用户问题;
控制模块,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至3中任一项权利要求所述的一种银行业务问答匹配方法的步骤;以及,
语音播报模块,用于将用户问题的答复进行语音播报。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至3中任一项权利要求所述的一种银行业务问答匹配方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得处理器执行权利要求1至3中任一项权利要求所述的一种银行业务问答匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310918296.4A CN116932721B (zh) | 2023-07-25 | 2023-07-25 | 一种银行业务问答匹配方法、装置、客服机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310918296.4A CN116932721B (zh) | 2023-07-25 | 2023-07-25 | 一种银行业务问答匹配方法、装置、客服机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932721A CN116932721A (zh) | 2023-10-24 |
CN116932721B true CN116932721B (zh) | 2024-06-04 |
Family
ID=88393873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310918296.4A Active CN116932721B (zh) | 2023-07-25 | 2023-07-25 | 一种银行业务问答匹配方法、装置、客服机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932721B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN110941708A (zh) * | 2019-11-04 | 2020-03-31 | 智器云南京信息科技有限公司 | 智能问答库建立方法、智能问答方法及装置、计算机设备 |
CN111930911A (zh) * | 2020-08-12 | 2020-11-13 | 杭州东方通信软件技术有限公司 | 一种快速领域问答方法及其装置 |
CN114239606A (zh) * | 2021-12-23 | 2022-03-25 | 中国建设银行股份有限公司 | 一种信息处理方法、装置、设备及计算机存储介质 |
CN114297351A (zh) * | 2021-10-15 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语句问答方法、装置、设备、存储介质及计算机程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
-
2023
- 2023-07-25 CN CN202310918296.4A patent/CN116932721B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN110941708A (zh) * | 2019-11-04 | 2020-03-31 | 智器云南京信息科技有限公司 | 智能问答库建立方法、智能问答方法及装置、计算机设备 |
CN111930911A (zh) * | 2020-08-12 | 2020-11-13 | 杭州东方通信软件技术有限公司 | 一种快速领域问答方法及其装置 |
CN114297351A (zh) * | 2021-10-15 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语句问答方法、装置、设备、存储介质及计算机程序产品 |
CN114239606A (zh) * | 2021-12-23 | 2022-03-25 | 中国建设银行股份有限公司 | 一种信息处理方法、装置、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116932721A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765763B (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
WO2020077895A1 (zh) | 签约意向判断方法、装置、计算机设备和存储介质 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
WO2021114840A1 (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN108536800B (zh) | 文本分类方法、系统、计算机设备和存储介质 | |
CN110598206A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
CN108520041B (zh) | 文本的行业分类方法、系统、计算机设备和存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
US11151322B2 (en) | Computer-implemented method, system and computer program product for providing an application interface | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN109086386B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112597292B (zh) | 问题回复推荐方法、装置、计算机设备和存储介质 | |
CN114281996A (zh) | 长文本分类方法、装置、设备及存储介质 | |
CN116932721B (zh) | 一种银行业务问答匹配方法、装置、客服机器人 | |
CN111143515A (zh) | 文本匹配方法及装置 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN116431912A (zh) | 用户画像推送方法及装置 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN114547257A (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |