CN116797319A - 基于语音交互的业务处理方法、装置、设备、介质和产品 - Google Patents
基于语音交互的业务处理方法、装置、设备、介质和产品 Download PDFInfo
- Publication number
- CN116797319A CN116797319A CN202310752501.4A CN202310752501A CN116797319A CN 116797319 A CN116797319 A CN 116797319A CN 202310752501 A CN202310752501 A CN 202310752501A CN 116797319 A CN116797319 A CN 116797319A
- Authority
- CN
- China
- Prior art keywords
- intention
- current
- voice
- service
- broadcasting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000004590 computer program Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 53
- 230000004044 response Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于语音交互的业务处理方法、装置、计算机设备、存储介质和计算机程序产品,通过向目标用户依次播报各项业务内容,针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向,在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型,获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音,能够基于用户意向准确进行业务推荐,提高处理效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于语音交互的业务处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
智能客服是采用人工智能、自然语言处理的方法,对用户进行自动化业务推荐,使用智能客服,可大幅度减少人力投入。
传统方法中,通过配置给定的业务推荐流程,使得智能客服根据流程,按照节点顺序依次给出相应的推荐话术。
然而,若用户提出业务推荐流程之外的意图,智能客服则无法回答,从而导致处理效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高处理效率的基于语音交互的业务处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于语音交互的业务处理方法,该方法包括:
向目标用户依次播报各项业务内容;
针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向;
在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;
获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
在其中一个实施例中,确定语音回答的当前意向类别的步骤,包括:
获取目标用户的语音回答,并将语音回答转换为文字信息;
获取预先训练的神经网络模型;
基于神经网络模型,对文字信息进行识别,得到当前意向类别。
在其中一个实施例中,基于神经网络模型,对文字信息进行识别,得到当前意向类别的步骤,包括:
将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值;
在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的当前意向类别。
在其中一个实施例中,神经网络模型的训练过程的步骤,包括:
获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签;
基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件;训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
在其中一个实施例中,该方法还包括:
在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容;
在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
在其中一个实施例中,播报业务推荐语音之后,还包括:
若所有业务内容均已播报,则播报业务推荐结束语音。
第二方面,本申请还提供了一种基于语音交互的业务处理装置,该装置包括:
业务播报模块,用于向目标用户依次播报各项业务内容;
回答获取模块,用于针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向;
类型确定模块,用于在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;
语音获取模块,用于获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现第一方面中任一项的方法步骤。
第四方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面中任一项的方法步骤。
第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项的方法步骤。
上述基于语音交互的业务处理方法、装置、计算机设备、存储介质和计算机程序产品,通过向目标用户依次播报各项业务内容,针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向,在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型,获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音,能够基于用户意向准确进行业务推荐,提高处理效率。
附图说明
图1为一个实施例中基于语音交互的业务处理方法的应用环境图;
图2为一个实施例中基于语音交互的业务处理方法的流程示意图;
图3为一个实施例中确定当前意向类别步骤的流程示意图;
图4为一个实施例中基于语音交互的业务处理方法的流程示意图;
图5为一个实施例中基于语音交互的业务处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的基于语音交互的业务处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102用于向目标用户所在的服务器104依次播报各项业务内容,针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向,在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型,获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于语音交互的业务处理方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
S202:向目标用户依次播报各项业务内容。
其中,在进行线上业务办理时,通常采用语音交互的方式与用户进行信息交流,通常情况下,为了准确识别用户意图,进而准确进行业务推荐,需要按照一定的业务流程依次向用户播报各项业务内容,这里的业务内容指的是待进行业务推荐的业务信息。在实际应用中,需要由人工预先对待进行业务推荐的业务进行处理,由人工依据业务办理的经验或历史数据,总结出适用于不同业务类型业务的推荐术语,预先保存至终端本地,这样终端按照预先设置的推荐顺序,依次播放各项待推荐业务的推荐术语,即业务内容。
其中,对于待推荐清单中的待推荐业务,通常为了保证业务推荐的准确性,待推荐清单中的所有待推荐业务都会进行相应业务内容的播报,在实际应用中,可以根据实际应用需求对各项业务内容的播报顺序进行调整,例如对于同一业务类型的待推荐业务,在播报相应的业务内容时,可以按照相邻的顺序进行播报。
S204:针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向。
其中,针对播报的当前业务内容,终端在进行播报的同时,可以通过服务器获取用户的语音回答,或者通过目标用户对应的用户端获取语音回答,这里用户端可以是目标用户对应的手机终端,以手机终端为例,可以通过手机终端的麦克风等功能采集语音回答。在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,终端依据语音回答确定目标用户针对当前播报内容的当前意向类别。这里意向类别可以包括肯定意向,肯定意向表示目标用户对播报的当前业务内容有意图进行相应业务的办理。
其中,在实际应用中,可能会出现一直未获取到目标用户的语音回答的情况,为了避免长时间获取不到语音回答导致处理时间过长,可以在每项业务内容播报完毕后,设置一段时间的目标时长,当超过目标时长还未获取到语音回答,可视为用户无意图进行业务办理,可以结束播报流程。
S206:在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型。
其中,在当前意向类别为肯定意向的情况下,表示针对当前播报内容,用户有意向进行相应业务的办理,此时终端基于当前业务内容,确定当前意向业务类型,其中,意向业务类型为预先给定的待推荐业务清单中各个业务对应的业务类型中的一种,依据意向业务类型,终端能够确定相应的业务推荐术语,以进行业务推荐。
S208:获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
其中,终端从本地获取预先保存的推荐术语,从推荐术语中筛选出当前意向业务类型相应的推荐术语,由于推荐术语在预先进行保存时,是以文本信息的形式进行保存的,因此,终端需要将筛选出的推荐术语转换成语音,作为相应的业务推荐语音进行播报。具体地,在播报下一业务内容之前,终端播报业务推荐语音,避免进入下一项业务内容播报时,造成信息的干扰。
其中,以金融业务为例,当前意向业务类型可以是虚拟资源交换,相应的业务推荐语音可以包括虚拟资源交换的方式、虚拟资源交换的数量等信息,以指示目标用户按照业务推荐语音的内容进行业务办理。在实际应用中,为了提高业务办理效率,可以在进行语音交互时,根据当前意向业务类型直接提示目标用户进行业务办理,例如提示目标用户通过手机终端上传指定的身份信息等。
其中,资源是指可以通过网络获取所有权的物品,包括虚拟物品和实体物品中的至少一种。其中,虚拟物品可以包括但不限于账户数值、基金、虛拟形象产品、虚拟充值卡、游戏装备和加密货币等中的至少一种。实体物品可以是任意可被用户拥有的具有实际形态的物品,例如可以包括但不限于电子产品、玩具、工艺品或者签名照片等。
上述基于语音交互的业务处理方法中,通过向目标用户依次播报各项业务内容,针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向,在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型,获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音,能够基于用户意向准确进行业务推荐,提高处理效率。
在一个实施例中,如图3所示,确定语音回答的当前意向类别的步骤,包括:
S302:将语音回答转换为文字信息。
其中,终端获取到目标用户的语音回答之后,为了准确识别语音回答对应的当先意向类别,首先需要将语音回答转换为文字信息,这里在进行转换时,是通过语音转文字工具进行的,得到的文字信息为初始的文字信息,在实际应用中,初始的文字信息通常是按照语音回答中各个文字的时间顺序排列而成的文本内容。
其中,对于初始的文字信息,可能会存在转换错误的地方,因此,需要对初始的文字信息进行修正,具体地,终端可以是获取初始的文字信息中各词组之间的语义关系,从而将不符合语义含义或语句结构的文字识别出来,作为需要进行修正的文字。针对每一个需要进行修正的文字,终端通过获取这个文字相邻时间的相邻文字,对相邻文字的语义进行分析,将需要进行修正的文字修正成符合语义的文字,从而得到最终的文字信息。
S304:获取预先训练的神经网络模型。
其中,对于转换后的文字信息,采用预先训练好的神经网络模型进行意向类别的识别,具体地,神经网络模型可以是Fasttext文本分类工具、语言表征模型(BidirectionalEncoder Representation from Transformers,Bert)、以及机器学习算法(K-NearestNeighbor,KNN)。
其中,Fasttext文本分类工具可以进行文字信息的分类,包括分词、去除停用词等操作。Bert模型采用新的语言模型,能够生成深度的双向语言表征。KNN算法对于任意n维输入向量,分别对应于特征空间中的一个点,输出为该特征向量所对应的类别标签或预测值。
S306:基于神经网络模型,对文字信息进行识别,得到当前意向类别。
其中,终端基于训练好的神经网络模型,对文字信息进行识别,得到当前意向类别,具体地,以Fasttext文本分类工具为例,Fasttext文本分类工具能够对文字信息进行分词,从而终端能够获取文字信息中的关键词,根据关键词的语义,确定出当前意向类别。对于KNN模型,终端将需要分类的文字信息输入到该预训练模型中,模型将自动对其进行分类,输出对应的类别标签。例如,将一篇新闻文章输入到该模型中,模型可以自动判断该文章属于哪一类别,对于输入的文字信息,KNN模型可以识别出文字信息为各意向类别对应的概率数值,以确定当前意向类别。
其中,在使用神经网络模型时,可以不止采用一种模型,通过模型融合技术,结合多种模型的优势,提高模型的准确度和鲁棒性。对于采用多种模型的方式,针对每一个模型,都需要进行训练,训练好的多个模型,采用投票、加权平均等方法对多个模型的结果进行融合,得到最终预测结果。
本实施例中,通过将语音回答转换为文字信息,获取预先训练的神经网络模型,基于神经网络模型,对文字信息进行识别,得到当前意向类别,能够保证当前意向类别的准确性,从而基于用户意向准确进行业务推荐,提高处理效率。
在一个实施例中,基于神经网络模型,对文字信息进行识别,得到当前意向类别,包括:将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值;在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的意向类别。
其中,终端将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值,具体地,以神经网络模型为KNN算法为例,KNN算法利用训练数据对特征向量空间进行划分,并将划分结果作为最终算法模型。算法的作用原理为:存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即知道样本集中每一数据与所属分类的对应关系。在输入没有标签的数据后,将这个没有标签的数据的每个特征与样本集中的数据对应的特征进行比较,然后提取样本中特征最相近的数据(最近邻)的分类标签。一般而言,通常只选择样本数据集中前k个最相似的数据,选择k个最相似数据中出现次数最多的类别,作为新数据的分类。具体地,神经网络模型输出文字信息为各意向类别对应的概率数值,在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的意向类别。
其中,如果输出的概率数值没有达到预设概率数值,可能是神经网络模型的精度不够,导致输出的数据不可信,这个时候终端将重新对神经网络模型进行训练,直至输出的概率数值达到预设概率数值。
本实施例中,通过将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值,在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的意向类别,能够保证当前意向类别的准确性,从而基于用户意向准确进行业务推荐,提高处理效率。
在一个实施例中,神经网络模型的训练过程,包括:获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签;基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件;训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
其中,终端获取由历史语音回答转换得到的样本文字信息,这里历史语音数据可以是终端获取的历史语音交互过程中的语音数据,除此之外,终端可以通过服务器获取目标用户历史办理业务过程中的交互数据,可以是文本数据,终端基于获取的样本文字信息对神经网络进行训练,并且,样本文字信息预先设置有用于表征意向类别的意向标签,这里意向标签可以是由人工预先进行设置的。
具体地,终端设置初始神经网络模型的模型参数,例如权重和偏置参数等,将样本文字信息输入至设置好的初始神经网络模型中,输出得到样本文字信息为各意向类别对应的概率数值,将概率数值最大值对应的意向类别作为当前次训练中样本文字信息对应的意向类别,分析输出得到的意向类别与意向标签间的差异程度,调整初始神经网络模型的模型参数,再次进行训练,直至满足训练停止条件。这里训练停止条件可以是训练次数达到预设阈值,例如训练次数达到20次,还可以是损失函数的数值达到预设值,当损失函数的数值小于预设值的时候,认为此时神经网络模型达到最高精度,训练完成。
其中,在实际应用中,为了保证神经网络模型的精确度,可以采用深度学习技术对神经网络模型进行优化,以提高模型的语义理解能力和对于复杂文本处理效果的准确度。具体地,可以使用词嵌入技术将文本数据转化为向量表示;增加神经网络模型的深度和复杂度,引入卷积神经网络、循环神经网络等深度学习技术,提高神经网络模型的学习度,并采用正则化方法避免过拟合。除此之外,在使用神经网络模型时,可以不止采用一种模型,通过模型融合技术,结合多种模型的优势,提高模型的准确度和鲁棒性。对于采用多种模型的方式,针对每一个模型,都需要进行训练,训练好的多个模型,采用投票、加权平均等方法对多个模型的结果进行融合,得到最终预测结果。
本实施例中,通过获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签,基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件,训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值,能够保证神经网络模型具有较高的精度,以保证意向类别识别的准确性,从而基于用户意向准确进行业务推荐,提高处理效率。
在一个实施例中,该方法还包括:在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容;在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
其中,在当前意向类别为否定意向的情况下,表示目标用户对于当前播放的业务内容相应的业务,没有办理的意图,因此,终端将按照预先设置的播放顺序,播放下一业务内容,以进行下一业务的推荐。在当前意向类别为拒接意向的情况下,表示用户对于语音交互过程的业务推荐没有交互的意图,因此,终端直接停止依次播报的过程,向目标用户播报业务推荐结束语音,结束语音交互的过程。
其中,业务推荐结束语音可以是预先保存在终端本地的结束术语,终端根据结束术语的内容生成结束语音,向目标用户进行播报,具体地,结束语音中可以包括感谢词等常用结束语音。
本实施例中,通过在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容,在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音,能够基于用户意图进行相应的处理,从而保证基于用户意向进行业务推荐的准确性,提高处理效率。
在一个实施例中,播报业务推荐语音之后,还包括:若所有业务内容均已播报,则播报业务推荐结束语音。
其中,在实际语音交互过程中,若预先给定的待推荐业务清单中各个业务的业务内容均播报,则表示所有的业务均已推荐完毕,此时终端将结束依次播报的过程,并向目标用户播报业务推荐结束语音,结束语音交互。
本实施例中,通过若所有业务内容均已播报,则播报业务推荐结束语音,能够实现对目标源用户的精准业务推荐,从而提高处理效率。
在一个实施例中,如图4所示,提供了一种基于语音交互的业务处理,该方法包括以下步骤:
S402:向目标用户依次播报各项业务内容。
S404:针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,将语音回答转换为文字信息。
S406:获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签,基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件,训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
S408:将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值,在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的当前意向类别。
S410:在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型。
S412:获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
S414:在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容,在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
S416:若所有业务内容均已播报,则播报业务推荐结束语音。
本实施例中,通过向目标用户依次播报各项业务内容,针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向,在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型,获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音,能够基于用户意向准确进行业务推荐,提高处理效率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于语音交互的业务处理方法的基于语音交互的业务处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于语音交互的业务处理装置实施例中的具体限定可以参见上文中对于基于语音交互的业务处理方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种基于语音交互的业务处理装置,包括:业务播报模块10、回答获取模块20、类型确定模块30和语音获取模块40,其中:
业务播报模块10,用于向目标用户依次播报各项业务内容。
回答获取模块20,用于针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向。
类型确定模块30,用于在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型。
语音获取模块40,用于获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
在一个实施例中,回答获取模块20包括:文字转换单元、模型获取单元和文字识别单元,其中:
文字转换单元,用于将语音回答转换为文字信息。
模型获取单元,用于获取预先训练的神经网络模型。
文字识别单元,基于神经网络模型,对文字信息进行识别,得到当前意向类别。
在一个实施例中,文字识别单元包括:模型输入子单元和类别确定子单元,其中:
模型输入子单元,用于将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值。
类别确定子单元,用于在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的当前意向类别。
在一个实施例中,模型获取单元还用于获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签;基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件;训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值
在一个实施例中,语音获取模块40还用于在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容;在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
在一个实施例中,语音获取模块40还用于若所有业务内容均已播报,则播报业务推荐结束语音。
上述基于语音交互的业务处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于语音交互的业务处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:向目标用户依次播报各项业务内容;针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向;在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
在一个实施例中,处理器执行计算机程序时涉及的确定语音回答的当前意向类别,包括:将语音回答转换为文字信息;获取预先训练的神经网络模型;基于神经网络模型,对文字信息进行识别,得到当前意向类别。
在一个实施例中,处理器执行计算机程序时涉及的基于神经网络模型,对文字信息进行识别,得到当前意向类别,包括:将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值;在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的当前意向类别。
在一个实施例中,处理器执行计算机程序时涉及的神经网络模型的训练过程,包括:获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签;基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件;训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容;在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
在一个实施例中,处理器执行计算机程序时涉及的播报业务推荐语音之后,还包括:若所有业务内容均已播报,则播报业务推荐结束语音。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:向目标用户依次播报各项业务内容;针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向;在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
在一个实施例中,计算机程序被处理器执行时涉及的确定语音回答的当前意向类别,包括:将语音回答转换为文字信息;获取预先训练的神经网络模型;基于神经网络模型,对文字信息进行识别,得到当前意向类别。
在一个实施例中,计算机程序被处理器执行时涉及的基于神经网络模型,对文字信息进行识别,得到当前意向类别,包括:将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值;在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的当前意向类别。
在一个实施例中,计算机程序被处理器执行时涉及的神经网络模型的训练过程,包括:获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签;基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件;训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容;在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
在一个实施例中,计算机程序被处理器执行时涉及的播报业务推荐语音之后,还包括:若所有业务内容均已播报,则播报业务推荐结束语音。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:向目标用户依次播报各项业务内容;针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定语音回答的当前意向类别,意向类别包括肯定意向;在当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;获取当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
在一个实施例中,计算机程序被处理器执行时涉及的确定语音回答的当前意向类别,包括:将语音回答转换为文字信息;获取预先训练的神经网络模型;基于神经网络模型,对文字信息进行识别,得到当前意向类别。
在一个实施例中,计算机程序被处理器执行时涉及的基于神经网络模型,对文字信息进行识别,得到当前意向类别,包括:将文字信息输入至神经网络模型,输出文字信息为各意向类别对应的概率数值;在概率数值达到预设概率数值的情况下,将概率数值最大对应的意向类别,确定为文字信息对应的当前意向类别。
在一个实施例中,计算机程序被处理器执行时涉及的神经网络模型的训练过程,包括:获取由历史语音回答转换得到的样本文字信息,样本文字信息预先设置有用于表征意向类别的意向标签;基于历史数据对初始神经网络模型进行训练,直至满足训练停止条件;训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在当前意向类别为否定意向的情况下,播报当前业务内容的下一业务内容;在当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
在一个实施例中,计算机程序被处理器执行时涉及的播报业务推荐语音之后,还包括:若所有业务内容均已播报,则播报业务推荐结束语音。
需要说明的是,本申请所涉及的语音信息(包括但不限于用户语音回答)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于语音交互的业务处理方法,其特征在于,方法包括:
向目标用户依次播报各项业务内容;
针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定所述语音回答的当前意向类别,意向类别包括肯定意向;
在所述当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;
获取所述当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
2.根据权利要求1所述的方法,其特征在于,所述确定所述语音回答的当前意向类别,包括:
将所述语音回答转换为文字信息;
获取预先训练的神经网络模型;
基于所述神经网络模型,对所述文字信息进行识别,得到当前意向类别。
3.根据权利要求2所述的方法,其特征在于,所述基于神经网络模型,对文字信息进行识别,得到当前意向类别,包括:
将所述文字信息输入至所述神经网络模型,输出所述文字信息为各意向类别对应的概率数值;
在所述概率数值达到预设概率数值的情况下,将所述概率数值最大对应的意向类别,确定为所述文字信息对应的当前意向类别。
4.根据权利要求2所述的方法,其特征在于,所述神经网络模型的训练过程,包括:
获取由历史语音回答转换得到的样本文字信息,所述样本文字信息预先设置有用于表征意向类别的意向标签;
基于所述历史数据对初始神经网络模型进行训练,直至满足训练停止条件;所述训练停止条件为训练次数达到预设阈值或损失函数的数值达到预设值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述当前意向类别为否定意向的情况下,播报所述当前业务内容的下一业务内容;
在所述当前意向类别为拒接意向的情况下,停止依次播报过程,并播报业务推荐结束语音。
6.根据权利要求1所述的方法,其特征在于,所述播报业务推荐语音之后,还包括:
若所有业务内容均已播报,则播报业务推荐结束语音。
7.一种基于语音交互的业务处理装置,其特征在于,所述装置包括:
业务播报模块,用于向目标用户依次播报各项业务内容;
回答获取模块,用于针对播报的当前业务内容,在当前业务内容播报结束之后,若在当前业务内容的下一业务内容播报之前获取到目标用户的语音回答,确定所述语音回答的当前意向类别,意向类别包括肯定意向;
类型确定模块,用于在所述当前意向类别为肯定意向的情况下,基于当前业务内容,确定当前意向业务类型;
语音获取模块,用于获取所述当前意向业务类型相应的业务推荐语音,在播报下一业务内容之前,播报业务推荐语音。
8.一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1至6中任一项的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至6中任一项的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752501.4A CN116797319A (zh) | 2023-06-25 | 2023-06-25 | 基于语音交互的业务处理方法、装置、设备、介质和产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752501.4A CN116797319A (zh) | 2023-06-25 | 2023-06-25 | 基于语音交互的业务处理方法、装置、设备、介质和产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116797319A true CN116797319A (zh) | 2023-09-22 |
Family
ID=88047627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310752501.4A Pending CN116797319A (zh) | 2023-06-25 | 2023-06-25 | 基于语音交互的业务处理方法、装置、设备、介质和产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797319A (zh) |
-
2023
- 2023-06-25 CN CN202310752501.4A patent/CN116797319A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN106649694A (zh) | 语音交互中确定用户意图的方法及装置 | |
WO2020253128A1 (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN111813910A (zh) | 客服问题的更新方法、系统、终端设备及计算机存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112149699A (zh) | 用于生成模型的方法、装置和用于识别图像的方法、装置 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN111243604A (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN115525740A (zh) | 对话应答语句的生成方法、装置、电子设备及存储介质 | |
CN111581347B (zh) | 语句相似度匹配方法及装置 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN113723367B (zh) | 一种答案确定方法、判题方法及装置和电子设备 | |
CN115795158A (zh) | 物料排序和神经网络训练方法、装置、设备及存储介质 | |
CN116797319A (zh) | 基于语音交互的业务处理方法、装置、设备、介质和产品 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN113610064B (zh) | 笔迹识别方法和装置 | |
CN115062691B (zh) | 属性识别方法和装置 | |
CN116798052B (zh) | 文本识别模型的训练方法和装置、存储介质及电子设备 | |
CN117829968B (zh) | 一种基于用户数据分析的业务产品推荐方法、装置及系统 | |
CN111401011B (zh) | 信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |