CN113782022B - 基于意图识别模型的通信方法、装置、设备及存储介质 - Google Patents
基于意图识别模型的通信方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113782022B CN113782022B CN202111095426.6A CN202111095426A CN113782022B CN 113782022 B CN113782022 B CN 113782022B CN 202111095426 A CN202111095426 A CN 202111095426A CN 113782022 B CN113782022 B CN 113782022B
- Authority
- CN
- China
- Prior art keywords
- target
- state
- text data
- intention
- breakpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 67
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 11
- 238000013461 design Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Abstract
本申请涉及人工智能技术领域,本申请提供一种基于意图识别模型的通信方法、装置、设备与存储介质,基于意图识别模型的通信方法包括:获取目标应用程序产品的状态序列;确定处于断点状态的目标用户;建立与目标用户对应终端之间的通信连接,并基于通信连接获取目标用户的第一语音数据;将第一语音数据转换为第一文本数据,并将第一文本数据输入意图识别模型,获得目标用户的目标意图;获取与断点状态关联的目标知识库中与目标意图对应的第二文本数据;将第二文本数据转换为第二语音数据,并基于通信连接向目标用户对应终端发送第二语音数据。实施本申请,可以提高外呼效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于意图识别模型的通信方法、装置、设备与存储介质。
背景技术
随着互联网的发展,各种应用程序产品应运而生,比如各种用于借贷或消费的金融应用程序产品,用户可以在该金融应用程序产品上进行注册,实名认证,绑定银行卡、然后申请额度进行消费。然而,现实生活中,用户在使用该金融应用程序产品时可能会出现一些断点,比如,可能一些用户进行注册之后就不再使用,一些用户注册之后,不进行实名认证等等。目前业内解决该方式都是根据断点用户名单进行人工外呼,即人工联系到用户,然后进行沟通具体情况。由于用户数量巨大,全部进行人工外呼成本较高,并且效率很低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于意图识别模型的通信方法、装置、设备与存储介质,在用户使用目标应用程序产品处于某个断点状态时,智能识别用户的意图,确定对应的回答话术,从而让用户能够更加清楚的了解该目标应用程序产品的使用流程,提高外呼效率,并且提高该目标应用程序产品的使用率。
第一方面,本申请提供一种基于意图识别模型的通信方法,所述方法包括:
获取目标应用程序产品的状态序列,所述状态序列包括依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能;
确定处于断点状态的目标用户,所述断点状态为除所述状态序列的最后一个状态外的任一状态;
建立与所述目标用户对应终端之间的通信连接,并基于所述通信连接获取所述目标用户的第一语音数据;
将所述第一语音数据转换为第一文本数据,并将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
获取与所述断点状态关联的目标知识库,并从所述目标知识库中获取与所述目标意图对应的第二文本数据;
将所述第二文本数据转换为第二语音数据,并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
结合第一方面,在一些实施例中,所述基于所述通信连接获取所述目标用户的第一语音数据之前,还包括:
获取与所述断点状态对应的第三文本数据,并将所述第三文本数据转换为第三语音数据,其中,所述第一语音数据为针对所述第三语音数据的响应语音数据;
基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
结合第一方面,在一些实施例中,所述意图识别模型包括嵌入层、编码层以及输出层;
所述将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图,包括:
将所述第一文本数据输入所述嵌入层,获得所述第一文本数据中各个分词对应的词向量;
将所述各个分词对应的词向量输入所述编码层进行编码处理,获得句子向量;
将所述句子向量输入所述输出层,通过所述输出层的全连接层获得分数向量,并通过所述输出层的softmax层对所述分数向量进行归一化处理,获得概率向量,所述概率向量用于表示所述第一文本数据指示各个意图标签的概率;
根据所述概率向量,获得所述目标用户的目标意图,所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
结合第一方面,在一些实施例中,所述将所述第一语音数据转换为第一文本数据,包括:
对所述第一语音数据进行分帧处理,获得至少两个音频帧;
分别对所述至少两个音频帧中的每个音频帧进行声学特征提取,获得所述每个音频帧对应的特征向量;
根据所述每个音频帧对应的特征向量,获得至少两个音素;
将所述至少两个音素输入语言模型进行组词处理,获得所述至少两个音素构建的至少一个单词,并将所述至少一个单词构成的文本确定为第一文本数据。
结合第一方面,在一些实施例中,所述将所述第二文本数据转换为第二语音数据,包括:
将所述第二文本数据划分为至少两个词语块;
分别获取所述至少两个词语块中每个词语块所对应的音频段;
根据所述每个词语块对应的音频段,构建第二语音数据。
结合第一方面,在一些实施例中,所述建立与所述目标用户对应终端之间的通信连接,包括:
获取所述目标用户对应的通讯标识,所述通讯标识包括电话号码或即时通讯账号;
通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
结合第一方面,在一些实施例中,所述状态序列包括注册所述目标应用程序产品,通过所述目标应用程序产品进行进行实名认证,通过所述目标应用程序产品绑定银行卡,通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费。
第二方面,本申请提供一种基于意图识别模型的通信装置,该装置包括:
第一获取单元,用于获取目标应用程序产品的状态序列,所述状态序列包括按照使用流程依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能;
确定单元,用于确定处于断点状态的目标用户,所述断点状态为除所述状态序列的最后一个状态外的任一状态;
通信单元,用于建立与所述目标用户对应终端之间的通信连接,并基于所述通信连接获取所述目标用户的第一语音数据;
第一转换单元,用于将所述第一语音数据转换为第一文本数据;
意图识别单元,用于将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
第二获取单元,用于获取与所述断点状态关联的目标知识库,并从所述目标知识库中获取与所述目标意图对应的第二文本数据;
第二转换单元,用于将所述第二文本数据转换为第二语音数据;
所述通信单元还用于基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
结合第二方面,在一些实施例中,该装置还包括:
第三获取单元,用于获取与所述断点状态对应的第三文本数据;
所述第二转换单元还用于将所述第三文本数据转换为第三语音数据,其中,所述第一语音数据为针对所述第三语音数据的响应语音数据;
所述通信单元还用于基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
结合第二方面,在一些实施例中,所述意图识别模型包括嵌入层、编码层以及输出层;
所述意图识别单元具体用于将所述第一文本数据输入所述嵌入层,获得所述第一文本数据中各个分词对应的词向量;
将所述各个分词对应的词向量输入所述编码层进行编码处理,获得句子向量;
将所述句子向量输入所述输出层,通过所述输出层的全连接层获得分数向量,并通过所述输出层的softmax层对所述分数向量进行归一化处理,获得概率向量,所述概率向量用于表示所述第一文本数据指示各个意图标签的概率;
根据所述概率向量,获得所述目标用户的目标意图,所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
结合第二方面,在一些实施例中,所述第一转换单元具体用于:
对所述第一语音数据进行分帧处理,获得至少两个音频帧;
分别对所述至少两个音频帧中的每个音频帧进行声学特征提取,获得所述每个音频帧对应的特征向量;
根据所述每个音频帧对应的特征向量,获得至少两个音素;
将所述至少两个音素输入语言模型进行组词处理,获得所述至少两个音素构建的至少一个单词,并将所述至少一个单词构成的文本确定为第一文本数据。
结合第二方面,在一些实施例中,所述第二转换单元具体用于:
将所述第二文本数据划分为至少两个词语块;
分别获取所述至少两个词语块中每个词语块所对应的音频段;
根据所述每个词语块对应的音频段,构建第二语音数据。
结合第二方面,在一些实施例中,所述通信单元具体用于:
获取所述目标用户对应的通讯标识,所述通讯标识包括电话号码或即时通讯账号;
通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
结合第二方面,在一些实施例中,所述状态序列包括注册所述目标应用程序产品,通过所述目标应用程序产品进行进行实名认证,通过所述目标应用程序产品绑定银行卡,通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费。
第三方面,本申请提供一种计算机设备,包括处理器、存储器以及通信接口,该处理器、存储器和通信接口相互连接,其中,该通信接口用于接收和发送数据,该存储器用于存储程序代码,该处理器用于调用该程序代码,执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序;当该计算机程序在一个或多个处理器上运行时,使得该终端设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
本申请实施例中,在用户使用目标应用程序产品过程中,如果处于某个断点状态,建立与该用户之间的通信连接,并获取该用户的语音数据,智能识别该用户的意图,从而根据用户具体所处的断点状态和用户的意图采取对应的回答话术与用户进行通信,不仅能让用户能够更加清楚的了解该目标应用程序产品的使用流程,还能够提高外呼用户的效率,并且通过智能语音通信方式对处于断点状态的用户进行外呼,避免用户长时间停留在某个断点状态,从而让更多用户使用该目标程序产品,提高该目标应用程序产品的使用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于意图识别模型的通信方法的流程示意图;
图2为本申请实施例提供的基于意图识别模型的通信方法的系统架构示意图;
图3为本申请实施例提供的一种基于意图识别模型的通信装置的示意图;
图4为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供了一种基于意图识别模型的通信方法,为了更清楚地描述本申请的方案,下面对本申请涉及的一些附图作进一步介绍。
请参阅图1,图1为本申请实施例提供的一种基于意图识别模型的通信方法的流程示意图。如图1所示,所述方法包括以下步骤:
S101,获取目标应用程序产品的状态序列,所述状态序列包括依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能;
本申请实施例中,目标应用程序产品可以是用于借贷或消费的金融应用程序产品,用户可以在该金融应用程序产品上进行注册,实名认证,绑定银行卡,申请额度以及利用额度进行消费等等操作,以实现该借贷或消费的金融应用程序产品的借贷消费的功能。本申请中对该目标应用程序产品的预设操作流程划分得到至少两个状态,该至少两个状态构成该目标应用程序产品的状态序列,通过该预设操作流程所指示的一系列操作可以实现目标应用程序产品的功能。
下面举例说明状态序列中的各个状态,与目标应用程序关联的预设操作流程包括依次连接的多个状态,当用户完成其中一个状态的操作之后,即流转进入下一个状态,比如,对于借贷的金融应用程序产品,与该目标应用程序产品关联的预设操作流程可以包括:注册-实名认证-绑定银行卡-申请额度-进行消费,将该预设操作流程划分得到至少两个状态,该依次连接的至少两个状态是注册状态-实名认证状态-绑定银行卡状态-申请额度状态-进行消费状态。即当用户注册之后,可以进一步流转到实名认证的状态,当用户进行实名认证之后,可以进一步流转到绑定银行卡的状态,当用户绑定银行卡之后,可以进一步流转到申请额度的状态,在用户申请额度之后,可以进一步进入使用额度进行消费的状态。
S102,确定处于断点状态的目标用户,所述断点状态为除所述状态序列的最后一个状态外的任一状态;
本申请实施例中,目标用户可以是指处于断点状态的任一用户。只要目标用户注册该应用程序产品之后,但是又未完成整个预设操作流程,即用户处于状态序列中最后一个状态外的任一状态,那么该目标用户就处于断点状态,比如,目标用户注册目标应用程序产品之后,没有进行实名认证,那么该用户处于注册的断点状态,或者,目标用户注册目标应用程序产品之后,并进行实名认证,但是没有绑定银行卡,那么该目标用户就处于实名认证的断点状态等等。
本申请实施例中,可以根据目标应用程序产品的业务流程数据获取处于断点状态的客户名单,该客户名单包括至少一个用户的用户标识,以及每个用户的基本信息、所处的具体断点状态以及断点状态所对应的业务信息等等。
本申请实施例中,依次对客户名单中的每个用户进行遍历,确定用户所处的具体断点状态,可以理解的是,不同用户所处的断点状态可以是相同的或不同的。下面继续以借贷的金融应用程序产品作为举例说明,用户所处的断点状态可以包括但不限于以下状态中的一个:
断点状态1:用户注册了该目标应用程序产品,但是没有进行实名认证;
断点状态2:用户注册了该目标应用程序产品,进行了实名认证,但是没有绑定银行卡;
断点状态3:用户注册了该目标应用程序产品,进行了实名认证,并绑定了银行卡,但是没有申请额度;
断点状态4:用户注册了该目标应用程序产品,进行了实名认证,绑定了银行卡,并申请了额度,但是没有进行消费。
本申请中的目标用户可以是指客户名单中的任一用户。可选的,可以进一步根据目标用户对目标应用程序产品的操作日志,进一步确定该目标用户处于某个断点状态的时长,如果该时长大于时长阈值,则启动对该目标用户的外呼,其中,操作日志可以记录目标用户对目标应用程序产品的操作信息以及操作时间。
S103,建立与所述目标用户对应终端之间的通信连接;
具体可选的,从客户名单中获取该目标用户的通讯标识,该通讯标识可以是该目标用户的电话号码,或者该目标用户的即时通讯账号等等。进一步根据该通讯标识建立与该目标用户对应终端之间的通信连接。比如,通讯标识为目标用户的电话号码,通过该电话号码拨打该目标用户的手机,从而建立与目标用户对应终端之间的通信连接。
在一些实施方式中,可以预先配置不同断点状态所对应的外呼策略,该外呼策略可以包括外呼时间,外呼频率,比如,处于上述断点状态1和断点状态2的用户,外呼频率可以比较小一点,而对于处于断点状态3和断点状态4的用户,外呼频率可以比较大一点。外呼时间的确定可以根据客户名单中该客户的信息确定,比如根据用户的职业确定外呼时间,预设各个职业库分别所对应的外呼时间段,通过将用户的职业与职业库中的职业进行匹配,从而确定对应的外呼时间段进行外呼。
S104,获取与所述断点状态对应的第三文本数据,并将所述第三文本数据转换为第三语音数据,其中,所述第一语音数据为针对所述第三语音数据的响应语音数据;
S105,基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
示例性的,不同的断点状态可以对应不同的第三文本数据,该第三文本数据可以是外呼时的第一句开场白。本申请实施例中获取与目标用户所处断点状态对应的第三文本数据。
比如,与断点状态1所对应的第三文本数据可以是“您注册了XX应用程序产品,是否对该目标应用程序产品有兴趣”;又比如,与断点状态2所对应的第三文本数据可以是“您这边进行了实名认证,使用该产品还需绑定银行卡,然后进行额度申请和消费”;又比如,与断点状态3所对应的第三文本数据可以是介绍额度相关的信息以及如何使用额度;又比如,与断点状态4所对应的第三文本数据可以是介绍如何通过消费使用额度,以及消费所能得到的奖励等等。
本申请实施例中,可以按照目标规则,将所获取的第三文本数据划分为至少两个词语块,其中,一个词语块可以包括一个字或者一个词,或者也可以是包括多个词,具体词语块中包含的内容可以根据目标规则所确定。比如目标规则是以字为单位进行词语块的划分,那么就将第三文本数据划分为多个字,每个字是一个词语块。进一步音频库中获取每个词语块所对应的音频段,即音频库中可以预先存储各个词语块所对应的音频段,从而可以从音频库中获取到各个第三文本数据所包含词语块对应的音频段,进一步将各个词语块对应的音频段按照各个词语块在第三文本数据中的顺序进行组合,即可构建第三语音数据,基于所建立的通信连接向目标用户对应的终端传输该第三语音数据。
S106,基于所述通信连接获取所述目标用户的第一语音数据;
S107,将所述第一语音数据转换为第一文本数据,并将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
本申请实施例中,在通话过程中,不断与目标用户进行对话,具体的,基于通信连接获取目标用户的第一语音数据,并将所获取的目标用户的第一语音数据转换为第一文本数据。
具体的,对第一语音数据进行预处理,示例性的,预处理可以包括:保留第一语音数据中符合预设语音特征的音频信号,如保留第一语音数据中能够获取到音素的音频信号;和/或,删除所述第一语音数据中的静默语音信号,如去除因为语句之间的断句或者暂停而产生的静默语音信号。
进一步,对预处理后的第一语音数据进行分帧,获得至少两个音频帧,即将预处理后的第一语音数据切分为N个小段,一个小段称为一个音频帧。每帧的帧长,即是该小段音频信号的长度,比如可以是25ms。其中,分帧操作可以是使用移动窗函数来实现。
对该至少两个音频帧中的每个音频帧进行声学特征提取,获得每个音频帧对应的特征向量。其中,声学特征包括但不限于梅尔频率倒谱系数(Mel-frequency cepstralcoefficients,MFCC)特征,即根据人耳的生理特性,把每一帧波形变成一个多维的特征向量,该特征向量包含了该帧语音信号的内容信息。第一语音数据就转换为了一个12行(假设声学特征是12维)、N列的一个矩阵,这里N为音频帧的总帧数。
根据每个音频帧对应的特征向量进行处理,确定每个音频帧对应哪一个状态的概率最大,即将该状态确定为该音频帧对应的状态,通常相邻若干音频帧对应的状态相同,即若干音频帧对应一个状态,每三个状态组合成一个音素,通常全部声母和韵母组成所有音素。可选的,若干个音素组成一个单词,从而得到该第一语音数据对应的第一文本数据。示例性的,可以将获得的至少两个音素输入语言模型进行组词处理,获得该至少两个音素对应的至少一个单词,从而获得该至少一个单词构成的第一文本数据,其中,该语言模型通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。
当获得转换得到的第一文本数据之后,进一步将第一文本数据输入意图识别模型,获得目标用户的目标意图。具体的,本申请的意图识别模型可以参考C-LSTM经典模型,设计基于深度学习的意图识别模型。该意图识别模型输入为文本数据,输出为该文本数据所属不同意图的概率,该意图识别模型可以包括嵌入层、编码层以及输出层,嵌入层主要功能为生产词表示,编码层以词表示输入,完成对句子进行编码,输出句子向量,输出层的输入为编码层的句子表示,之后经过全连接,进行非线性的特征组合,输出分数向量。分数向量最终通过一个softmax层得到最后的输出类别的归一化后的概率向量,维度和意图标签种数一致,即该概率向量用于表示属于不同意图标签所对应意图的概率。
具体的,将该第一文本数据输入意图识别模型的嵌入层,生成词表示,即第一文本数据中各个分词对应的词向量;再将各个分词对应的词向量输入至所述编码层进行编码,生成句子向量;进一步将句子向量输入至输出层进行变换及计算,得到目标用户的目标意图,具体的,通过所述输出层的全连接层获得分数向量,并通过所述输出层的softmax层对所述分数向量进行归一化处理,获得概率向量,所述概率向量用于表示所述第一文本数据指示各个意图标签的概率;根据所述概率向量,获得所述目标用户的目标意图,所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
在一些可选的实施方式中,可以根据目标用户的目标意图,调整对该目标用户进行外呼的策略,比如,该目标用户的目标意图是拒绝,那么该目标用户的外呼策略中的外呼频率可以适当降低,或者,该目标用户的目标意图是感兴趣,那么该目标用户的外呼策略中的外呼频率可以适当增加。
S108,获取与所述断点状态关联的目标知识库,并从所述目标知识库中获取与所述目标意图对应的第二文本数据;
本申请实施例中,不同断点状态可以对应不同的回答文本,为了提高查找效率,不同断点状态分别关联不同的知识库,该知识库中预先存储在该种断点状态场景下,各种不同的意图所对应的回答文本,不同断点状态下,相同意图所对应的回答文本可以是不同的。比如,如果用户处于断点状态1,“对此产品感兴趣”的目标意图所对应的回答文本可以是“具体介绍如何进行实名认证,以及如何绑定银行卡,如何申请额度和消费”,如果用户处于断点状态4,“对此产品感兴趣”的目标意图所对应的回答文本可以是“具体介绍使用该额度进行消费时能够得到哪些优惠,以及具体的额度使用规则等等”。
S109,将所述第二文本数据转换为第二语音数据,并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
本申请实施例中,可以将所获取的第二文本数据划分为至少两个词语块,并分别获取各个词语块所对应的音频段,根据各个词语块所对应的音频段构建第二语音数据,并向目标用户所对应的终端发送该第二语音数据。
在通话过程中不断循环执行步骤S106-步骤S109,直到检测到目标用户的语音数据对应的文本数据中包含预设关键词时,断开与目标用户对应的终端之间的通信连接,该预设关键词可以包括但不限于“我考虑一下”“再见”等等。
进一步,可以输出各个用户的意图标签,从而让管理人员了解该用户的具体情况。
本申请实施例中,在用户使用目标应用程序产品过程中,如果处于某个断点状态,建立与该用户之间的通信连接,并获取该用户的语音数据,智能识别该用户的意图,从而根据用户具体所处的断点状态和用户的意图采取对应的回答话术与用户进行通信,不仅能让用户能够更加清楚的了解该目标应用程序产品的使用流程,还能够提高触达用户的效率,并且通过智能语音通信方式对处于断点状态的用户进行外呼,避免用户长时间停留在某个断点状态,从而让更多用户使用该目标程序产品,提高该目标应用程序产品的使用率。
请参照图2,为实施本申请基于意图识别模型的通信方法的系统架构图,该系统架构可以包括但不限于:对话平台、电话平台、客户服务平台以及外呼策略平台等等,该各个平台可以是通过软件或硬件的方式实现,下面结合各个平台举例阐述:
1)客户服务平台根据业务流程数据确定相应的断点客户名单,包含客户基本信息、所处断点状态、断点状态对应的业务信息等。
2)外呼策略平台根据不同断点状态管理如下内容:外呼调度策略,包括外呼时间、外呼频率等;外呼结果,即外呼客户的对应结果,按标签区分未接通、客户的各种意向、是否直接转人工等;接触管控,包括黑名单管理、触达时间段管理等;
3)对话平台支持会话管理,即根据具体断点状态确定对应的文本数据,以及根据用户的具体意图确定对应的回答文本。
4)AI模型采用机器学习、自然语言处理(NLP)等相关技术,对用户反馈的信息进行分析,得出用户的语义或者意向标签,将该内容反馈至会话管理,智能触发对应的会话流程,即回答文本。
请参见图3,为本申请实施例提供了一种基于意图识别模型的通信装置的结构示意图。如图3所示,该基于意图识别模型的通信装置可以包括:
第一获取单10,用于获取目标应用程序产品的状态序列,所述状态序列包括依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能;
确定单元11,用于确定处于断点状态的目标用户,所述断点状态为除所述状态序列的最后一个状态外的任一状态;
通信单元12,用于建立与所述目标用户对应终端之间的通信连接,并基于所述通信连接获取所述目标用户的第一语音数据;
第一转换单元13,用于将所述第一语音数据转换为第一文本数据;
意图识别单元14,用于将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
第二获取单元15,用于获取与所述断点状态关联的目标知识库,并从所述目标知识库中获取与所述目标意图对应的第二文本数据;
第二转换单元16,用于将所述第二文本数据转换为第二语音数据;
所述通信单元12还用于基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
在一种可能的设计中,该装置还包括:
第三获取单元,用于获取与所述断点状态对应的第三文本数据;
所述第二转换单元16还用于将所述第三文本数据转换为第三语音数据,其中,所述第一语音数据为针对所述第三语音数据的响应语音数据;
所述通信单元12还用于基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
在一种可能的设计中,所述意图识别模型包括嵌入层、编码层以及输出层;
所述意图识别单元14具体用于将所述第一文本数据输入所述嵌入层,获得所述第一文本数据中各个分词对应的词向量;
将所述各个分词对应的词向量输入所述编码层进行编码处理,获得句子向量;
将所述句子向量输入所述输出层,通过所述输出层的全连接层获得分数向量,并通过所述输出层的softmax层对所述分数向量进行归一化处理,获得概率向量,所述概率向量用于表示所述第一文本数据指示各个意图标签的概率;
根据所述概率向量,获得所述目标用户的目标意图,所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
在一种可能的设计中,所述第一转换单元13具体用于:
对所述第一语音数据进行分帧处理,获得至少两个音频帧;
分别对所述至少两个音频帧中的每个音频帧进行声学特征提取,获得所述每个音频帧对应的特征向量;
根据所述每个音频帧对应的特征向量,获得至少两个音素;
将所述至少两个音素输入语言模型进行组词处理,获得所述至少两个音素构建的至少一个单词,并将所述至少一个单词构成的文本确定为第一文本数据。
在一种可能的设计中,所述第二转换单元16具体用于:
将所述第二文本数据划分为至少两个词语块;
分别获取所述至少两个词语块中每个词语块所对应的音频段;
根据所述每个词语块对应的音频段,构建第二语音数据。
在一种可能的设计中,所述通信单元12具体用于:
获取所述目标用户对应的通讯标识,所述通讯标识包括电话号码或即时通讯账号;
通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
在一种可能的设计中,所述状态序列包括注册所述目标应用程序产品,通过所述目标应用程序产品进行进行实名认证,通过所述目标应用程序产品绑定银行卡,通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费。
其中,图3所示装置实施例的具体描述可以参照前述图1或图2所示方法实施例的具体说明,在此不进行赘述。
请参照图4,为本申请实施例提供的一种计算机设备的结构示意图,如图4所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信单元以及程序指令。
在图4所示的计算机设备1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
获取目标应用程序产品的状态序列,所述状态序列包括依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能;
确定处于断点状态的目标用户,所述断点状态为除所述状态序列的最后一个状态外的任一状态;
建立与所述目标用户对应终端之间的通信连接,并基于所述通信连接获取所述目标用户的第一语音数据;
将所述第一语音数据转换为第一文本数据,并将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
获取与所述断点状态关联的目标知识库,并从所述目标知识库中获取与所述目标意图对应的第二文本数据;
将所述第二文本数据转换为第二语音数据,并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
需要说明的是,具体执行过程可以参见图1或图2所示方法实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1或图2所示实施例的方法步骤,具体执行过程可以参见图1或图2所示实施例的具体说明,在此不进行赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (8)
1.一种基于意图识别模型的通信方法,其特征在于,包括:
获取目标应用程序产品的状态序列,所述状态序列包括依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能,所述状态序列包括注册所述目标应用程序产品,通过所述目标应用程序产品进行实名认证,通过所述目标应用程序产品绑定银行卡,通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费,所述状态序列对应的断点状态包括:第一断点状态、第二断点状态、第三断点状态以及第四断点状态;所述第一断点状态为注册了所述目标应用程序产品、没有进行实名认证,所述第二断点状态为注册了所述目标应用程序产品、进行了实名认证、没有绑定银行卡,所述第三断点状态为注册了所述目标应用程序产品、进行了实名认证、绑定了银行卡、没有申请额度;所述第四断点状态为注册了所述目标应用程序产品、进行了实名认证、绑定了银行卡、申请了额度、没有进行消费;
确定目标用户处于目标断点状态,所述目标断点状态为所述第一断点状态、所述第二断点状态、所述第三断点状态以及所述第四断点状态中的任一状态;
建立与所述目标用户对应终端之间的通信连接,获取与所述目标断点状态对应的第三文本数据,不同的断点状态对应不同的第三文本数据,所述第三文本数据是外呼时的第一句开场白;
将所述第三文本数据转换为第三语音数据;
基于所述通信连接向所述目标用户对应终端发送所述第三语音数据;
基于所述通信连接获取所述目标用户的第一语音数据,所述第一语音数据为针对所述第三语音数据的响应语音数据;
将所述第一语音数据转换为第一文本数据,并将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
获取与所述目标断点状态关联的目标知识库,所述目标知识库中存储了在所述目标断点状态场景下,各种不同的意图所对应的回答文本,不同断点状态场景下相同意图所对应的回答文本不同;
从所述目标知识库中获取与所述目标意图对应的第二文本数据;
将所述第二文本数据转换为第二语音数据,并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
2.如权利要求1所述的方法,其特征在于,所述意图识别模型包括嵌入层、编码层以及输出层;
所述将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图,包括:
将所述第一文本数据输入所述嵌入层,获得所述第一文本数据中各个分词对应的词向量;
将所述各个分词对应的词向量输入所述编码层进行编码处理,获得句子向量;
将所述句子向量输入所述输出层,通过所述输出层的全连接层获得分数向量,并通过所述输出层的softmax层对所述分数向量进行归一化处理,获得概率向量,所述概率向量用于表示所述第一文本数据指示各个意图标签的概率;
根据所述概率向量,获得所述目标用户的目标意图,所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
3.如权利要求1或2所述的方法,其特征在于,所述将所述第一语音数据转换为第一文本数据,包括:
对所述第一语音数据进行分帧处理,获得至少两个音频帧;
分别对所述至少两个音频帧中的每个音频帧进行声学特征提取,获得所述每个音频帧对应的特征向量;
根据所述每个音频帧对应的特征向量,获得至少两个音素;
将所述至少两个音素输入语言模型进行组词处理,获得所述至少两个音素构建的至少一个单词,并将所述至少一个单词构成的文本确定为第一文本数据。
4.如权利要求1或2所述的方法,其特征在于,所述将所述第二文本数据转换为第二语音数据,包括:
将所述第二文本数据划分为至少两个词语块;
分别获取所述至少两个词语块中每个词语块所对应的音频段;
根据所述每个词语块对应的音频段,构建第二语音数据。
5.如权利要求1或2所述的方法,其特征在于,所述建立与所述目标用户对应终端之间的通信连接,包括:
获取所述目标用户对应的通讯标识,所述通讯标识包括电话号码或即时通讯账号;
通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
6.一种基于意图识别模型的通信装置,其特征在于,所述通信装置用于实现如权利要求1-5任一项所述的方法,所述装置包括:
第一获取单元,用于获取目标应用程序产品的状态序列,所述状态序列包括按照使用流程依次连接的至少两个状态,所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到,所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能;
确定单元,用于确定处于断点状态的目标用户,所述断点状态为除所述状态序列的最后一个状态外的任一状态;
通信单元,用于建立与所述目标用户对应终端之间的通信连接,并基于所述通信连接获取所述目标用户的第一语音数据;
第一转换单元,用于将所述第一语音数据转换为第一文本数据;
意图识别单元,用于将所述第一文本数据输入意图识别模型,获得所述目标用户的目标意图;
第二获取单元,用于获取与所述断点状态关联的目标知识库,并从所述目标知识库中获取与所述目标意图对应的第二文本数据;
第二转换单元,用于将所述第二文本数据转换为第二语音数据;
所述通信单元还用于基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
7.一种计算机设备,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序;当所述计算机程序在一个或多个处理器上运行时,执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095426.6A CN113782022B (zh) | 2021-09-17 | 2021-09-17 | 基于意图识别模型的通信方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111095426.6A CN113782022B (zh) | 2021-09-17 | 2021-09-17 | 基于意图识别模型的通信方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782022A CN113782022A (zh) | 2021-12-10 |
CN113782022B true CN113782022B (zh) | 2023-11-03 |
Family
ID=78852068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111095426.6A Active CN113782022B (zh) | 2021-09-17 | 2021-09-17 | 基于意图识别模型的通信方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782022B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10199037B1 (en) * | 2016-06-29 | 2019-02-05 | Amazon Technologies, Inc. | Adaptive beam pruning for automatic speech recognition |
CN110084561A (zh) * | 2019-03-12 | 2019-08-02 | 平安普惠企业管理有限公司 | 断点跟进方法、电子装置及可读存储介质 |
CN110708231A (zh) * | 2019-09-06 | 2020-01-17 | 平安普惠企业管理有限公司 | 数据断点跟进方法、电子装置及存储介质 |
CN111949784A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 基于意图识别的外呼方法及装置 |
CN112131359A (zh) * | 2020-09-04 | 2020-12-25 | 交通银行股份有限公司太平洋信用卡中心 | 一种基于图形化编排智能策略的意图识别方法及电子设备 |
CN112435047A (zh) * | 2020-10-30 | 2021-03-02 | 四川新网银行股份有限公司 | 一种基于埋点数据的营销外呼数据推荐方法 |
CN112650831A (zh) * | 2020-12-11 | 2021-04-13 | 北京大米科技有限公司 | 虚拟形象生成方法、装置、存储介质及电子设备 |
-
2021
- 2021-09-17 CN CN202111095426.6A patent/CN113782022B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10199037B1 (en) * | 2016-06-29 | 2019-02-05 | Amazon Technologies, Inc. | Adaptive beam pruning for automatic speech recognition |
CN110084561A (zh) * | 2019-03-12 | 2019-08-02 | 平安普惠企业管理有限公司 | 断点跟进方法、电子装置及可读存储介质 |
CN110708231A (zh) * | 2019-09-06 | 2020-01-17 | 平安普惠企业管理有限公司 | 数据断点跟进方法、电子装置及存储介质 |
CN111949784A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 基于意图识别的外呼方法及装置 |
CN112131359A (zh) * | 2020-09-04 | 2020-12-25 | 交通银行股份有限公司太平洋信用卡中心 | 一种基于图形化编排智能策略的意图识别方法及电子设备 |
CN112435047A (zh) * | 2020-10-30 | 2021-03-02 | 四川新网银行股份有限公司 | 一种基于埋点数据的营销外呼数据推荐方法 |
CN112650831A (zh) * | 2020-12-11 | 2021-04-13 | 北京大米科技有限公司 | 虚拟形象生成方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113782022A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488433B (zh) | 一种适用于银行的提升现场体验感的人工智能交互系统 | |
CN109514586B (zh) | 实现智能客服机器人的方法及系统 | |
US10777207B2 (en) | Method and apparatus for verifying information | |
US20190088262A1 (en) | Method and apparatus for pushing information | |
CN111105782B (zh) | 会话交互处理方法、装置、计算机设备和存储介质 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US10956480B2 (en) | System and method for generating dialogue graphs | |
CN110381221B (zh) | 呼叫处理方法、装置、系统、设备和计算机存储介质 | |
CN110956956A (zh) | 基于策略规则的语音识别方法及装置 | |
CN112732911A (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
CN110188361A (zh) | 结合文本、语音与情绪特征的语音意图识别方法及装置 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN114186036A (zh) | 对话处理方法、装置、计算机设备和存储介质 | |
CN111339282A (zh) | 智能在线应答方法及智能客服系统 | |
CN113037914A (zh) | 用于处理呼入电话的方法、相关装置及计算机程序产品 | |
CN110740212B (zh) | 基于智能语音技术的通话接听方法、装置及电子设备 | |
CN112995414A (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN113782022B (zh) | 基于意图识别模型的通信方法、装置、设备及存储介质 | |
CN114724561A (zh) | 一种语音打断方法、装置、计算机设备及存储介质 | |
CN114222028A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN113851105A (zh) | 信息提醒方法、装置、设备与存储介质 | |
TW202201244A (zh) | 一種在線訪談的方法及系統 | |
CN112965593A (zh) | 基于ai算法实现多模态控制数字人交互方法及装置 | |
CN111556096A (zh) | 信息推送方法、装置、介质及电子设备 | |
CN111985934A (zh) | 智能客服对话模型构建方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |