CN114678014A - 意图识别方法、装置、计算机设备及计算机可读存储介质 - Google Patents

意图识别方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114678014A
CN114678014A CN202210292937.5A CN202210292937A CN114678014A CN 114678014 A CN114678014 A CN 114678014A CN 202210292937 A CN202210292937 A CN 202210292937A CN 114678014 A CN114678014 A CN 114678014A
Authority
CN
China
Prior art keywords
intention
voice information
information
voice
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210292937.5A
Other languages
English (en)
Inventor
徐清瑶
徐孙杰
吕兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202210292937.5A priority Critical patent/CN114678014A/zh
Publication of CN114678014A publication Critical patent/CN114678014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请为人工智能技术的自然语言处理技术领域,本申请提供了一种意图识别方法、装置、计算机设备及计算机可读存储介质,其中,所述方法包括:接收用户的语音信息,将语音信息转换为语音向量,计算语音向量与标准语音向量的相似度,判断相似度是否低于预设相似度阈值,当判定相似度低于预设相似度阈值时,获取语音信息的上下文对话信息,得到参考语音信息,将语音信息及参考语音信息输入预先训练好的意图识别模型,得到针对用户的语音信息的目标意图。本申请在无法准确识别用户的语音信息中的意图时,利用意图识别模型结合语音信息的上下文对话信息确定语音信息中的真实意图,提高意图识别模型的识别精度。

Description

意图识别方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术的自然语言处理技术领域,具体而言,本申请涉及一种意图识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着人工智能技术的不断推广,越来越多的企业通过外呼机器人来处理一些销售流程,而在外呼机器人的整个销售流程中,智能对话是最主要的环节。
外呼场景中的智能对话主要是对客户的回答进行意图识别,基于意图识别结果理解客户的意图,再选择相应的话术策略进行应答。在这个过程中,意图识别是非常关键的一步,如果意图识别错误,则可能会导致后续对话流转异常。
目前,外呼场景中的意图主要由业务人员基于语料进行收集、整理,然后将意图形成答疑库,并形成一套话术跳转策略,再提供给模型工程师进行模型开发,利用开发得到的意图识别模型对客户的意图进行识别。但在这个过程中,由于业务人员能提供的意图往往是有限的,但是客户的回答是开放的,这就会导致客户回答中的很多意图无法识别,意图识别模型的识别精度较低。
发明内容
本申请的主要目的为提供一种意图识别方法、装置、计算机设备及计算机可读存储介质,以提高意图识别模型的识别精度。
为了实现上述发明目的,本申请提供一种意图识别方法,其包括:
接收用户的语音信息;
将所述语音信息转换为语音向量;
计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断所述相似度是否低于预设相似度阈值;
当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
优选地,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图,包括:
将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图;
对所述多个候选意图进行排序,将排序最高的候选意图作为目标意图。
优选地,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图,包括:
利用不同业务类型的意图识别模型对所述语音信息及所述参考语音信息进行意图识别,得到多个意图和每个所述意图对应的概率值;
将所述概率值大于预设概率值的意图作为候选意图,得到多个候选意图。
进一步地,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图之前,还包括:
获取训练数据;其中,所述训练数据包括语音信息训练样本、参考语音信息样本和所述语音信息样本对应的标签;
将所述训练数据中的语音信息训练样本和参考语音信息样本输入预先构建的神经网络模型进行训练,得到所述语音信息训练样本对应的预测意图;
将所述语音信息训练样本对应的预测意图和所述标签进行比对,得到差异信息;
根据所述差异信息调整所述神经网络模型的参数并继续训练,直至满足预设训练停止条件时结束训练,得到训练好的意图识别模型。
优选地,所述对所述多个候选意图进行排序,将排序最高的候选意图作为目标意图,包括:
提取每个候选意图的关键词,获取每个候选意图的关键词对应的使用频率;
按照每个候选意图的关键词对应的使用频率,对所述多个候选意图进行排序,将排在最前列的候选意图作为目标意图。
优选地,所述将所述语音信息转换为语音向量,包括:
对所述语音信息进行识别,得到所述语音信息对应的文本信息;
将所述文本信息转换为所述语音向量。
优选地,所述将所述文本信息转换为所述语音向量,包括:
提取所述文本信息的多个词;
利用预设的词向量模型分别将每个词转换成词向量,得到多个词向量;
将所述多个词向量进行合成,得到所述语音向量。
本申请还提供一种意图识别装置,其包括:
接收模块,用于接收用户的语音信息;
转换模块,用于将所述语音信息转换为语音向量;
计算模块,用于计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断模块,用于判断所述相似度是否低于预设相似度阈值;
获取模块,用于当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
输入模块,用于将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请所提供的一种意图识别方法、装置、计算机设备及计算机可读存储介质,接收用户的语音信息,将语音信息转换为语音向量,计算语音向量与标准语音向量的相似度,判断相似度是否低于预设相似度阈值,当判定相似度低于预设相似度阈值时,即当前不存在表征语音信息的标准意图,此时获取语音信息的上下文对话信息,得到参考语音信息,将语音信息及参考语音信息输入预先训练好的意图识别模型,得到针对用户的语音信息的目标意图,以在无法准确识别用户的语音信息中的意图时,利用意图识别模型结合语音信息的上下文对话信息确定语音信息中的真实意图,提高意图识别模型的识别精度。
附图说明
图1为本申请一实施例的意图识别方法的流程示意图;
图2为本申请又一实施例的意图识别方法的流程示意图;
图3为本申请又一实施例的意图识别方法的流程示意图;
图4为本申请另一实施例的意图识别方法的流程示意图;
图5为本申请又一实施例的意图识别方法的流程示意图;
图6为本申请另一实施例的意图识别方法的流程示意图;
图7为本申请又一实施例的意图识别方法的流程示意图;
图8为本申请一实施例的意图识别装置的结构示意框图;
图9为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提出一种意图识别方法,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请提出的一种意图识别方法,以服务器为执行主体,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参考图1,其中一个实施例中,该意图识别方法包括以下步骤S11-S16:
S11、接收用户的语音信息;
S12、将所述语音信息转换为语音向量;
S13、计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
S14、判断所述相似度是否低于预设相似度阈值;
S15、当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
S16、将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
如上述步骤S11所述,用户可以通过人机交互界面输入语音信息或以电话场景的形式输入语音信息,服务器可以接收用户输入的语音信息,该语音信息包括用户的需求,如“我需要充话费”,语音信息可以陈述句、疑问句或问句的形式。语音信息还可以是用户指示服务器执行某项任务的指令,也可以是提问或其他的请求信息。
如上述步骤S12所述,本实施例可对语音信息进行降噪处理,得到降噪处理后的语音信息,以剔除干扰信息,提取降噪处理后的语音信息的会话内容,将所述会话内容转换为文本形式,得到会话文本,然后利用训练好的word2vec模型将所述会话文本转换为文本向量,将该文本向量作为语音向量。
此外,本申请也可以直接将语音信息转换为语音向量。例如,可获取待转换的语音信息,并对语音信息进行预处理,得到初始梅尔频谱,对初始梅尔频谱进行编码处理,得到语音向量。
具体的,服务器对语音信息进行短时傅里叶变换,得到语音信息对应的语音频谱,然后服务器通过预置的滤波器对语音频谱进行滤波操作,得到初始梅尔频谱,服务器将初始梅尔频谱对应语音信息中的目标词汇进行特征数字化,得到特征数字,并对特征数字进行编码,得到语音向量。其中,梅尔频谱是模拟人耳对高频信号的抑制,对语音的线性谱进行处理得到的低维特征,以强调低频部分,弱化高频部分所得到的语音特征。
如上述步骤S13-S15所述,所述标准语音向量为已确定的标准意图对应的向量,即可识别的意图所对应的向量,该标准语音向量的数量一般为多个,本实施例分别计算语音向量与每个标准语音向量的余弦距离,将余弦距离作为语音向量与每个标准语音向量的相似度,判断语音向量与每个标准语音向量的相似度是否都低于预设相似度阈值,当判定语音向量与某个标准语音向量的相似度大于预设相似度阈值时,则确定可精准识别语音信息的意图,将相似度大于预设相似度阈值对应的标准语音向量作为目标语音向量,将目标语音向量对应的标准意图作为该语音信息的目标意图。其中,所述预设相似度阈值可自定义设置,如设置为0.9。
当判定语音向量与每个标准语音向量的相似度都低于预设相似度阈值时,则确定当前无法精准识别语音信息的真实意图,此时获取语音信息的上下文对话信息,得到参考语音信息。
在具体的实施过程中,用户每一次输入的语音信息即用户对话信息均可以保存,在进行用户意图识别时,可以获取当前用户语音信息的上下文对话信息。例如:当前用户对话信息为如何充值话费,上一次用户输入的用户对话信息和下一次用户输入的用户对话信息可以作为上下文对话信息,如:现在充值有没优惠,还可以获取用户信息,如:用户的年龄、职业、消费习惯、个人喜好等,可以通过用户的账户名或用户在终端上的操作记录或采用其他的方式获取对应的用户信息,本说明书实施例不作具体限定,将用户每一次输入的语音信息、用户信息进行保存,以便随时提取使用。
如上述步骤S16所述,本实施例将语音信息及参考语音信息输入预先训练好的意图识别模型,利用意图识别模型对语音信息的意图进行识别,以通过人工智能的方式自动识别语音信息的意图,提高识别效率,并在识别过程中,结合参考语音信息,识别得到针对用户的语音信息的目标意图,提高意图识别模型的识别精度。
本申请所提供的一种意图识别方法,接收用户的语音信息,将语音信息转换为语音向量,计算语音向量与标准语音向量的相似度,判断相似度是否低于预设相似度阈值,当判定相似度低于预设相似度阈值时,即当前不存在表征语音信息的标准意图,此时获取语音信息的上下文对话信息,得到参考语音信息,将语音信息及参考语音信息输入预先训练好的意图识别模型,得到针对用户的语音信息的目标意图,以在无法准确识别用户的语音信息中的意图时,利用意图识别模型结合语音信息的上下文对话信息确定语音信息中的真实意图,提高意图识别模型的识别精度。
在一实施例中,参考图2所示,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图,可具体包括以下步骤S21-S22:
S21、将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图;
S22、对所述多个候选意图进行排序,将排序最高的候选意图作为目标意图。
本实施例可以将语音信息及参考语音信息输入预先训练好的意图识别模型,预测得到用户的语音信息的多个候选意图,然后可以利用意图排序模型对多个候选意图进行排序,将排序最高的候选意图作为目标意图,如意图排序模型获取每个候选意图的概率值,该概率值为预测得到的候选意图为目标意图的概率,当候选意图的概率值越大,则候选意图为目标意图的概率也越大;当候选意图的概率值越小,则候选意图为目标意图的概率则越小,本实施例基于候选意图的概率值对多个候选意图进行排序,将排序最高的候选意图作为目标意图,即将概率值最大的候选意图作为目标意图。
在一实施例中,本实施例可通过机器学习等方法训练构建意图排序模型,意图排序模型可以表示对识别出的候选意图进行评分排序的算法模型。在识别出用户的语音信息对应的多个候选意图后,可以将用户的语音信息、用户信息、上下文对话信息作为意图排序模型的输入,对多个候选意图进行评分,根据评分对多个候选意图进行排序,评分越高,对应的候选意图的排序越高,将排序最高的候选意图作为最终的目标意图。
在一实施例中,参考图3所示,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图,可具体包括以下步骤S31-S32:
S31、利用不同业务类型的意图识别模型对所述语音信息及所述参考语音信息进行意图识别,得到多个意图和每个所述意图对应的概率值;
S32、将所述概率值大于预设概率值的意图作为候选意图,得到多个候选意图。
在本实施例中,可以预先训练构建出不同业务类型的意图识别模型,意图识别模型可以表示用于对语音信息及参考语音信息进行语义识别,确定出用户的语音信息的意图的模型算法。如:可以利用历史的用户语音信息,基于深度学习算法等进行模型训练,构建出意图识别模型。
此外,针对不同的业务类型,意图识别模型的种类可以包括:任务意图识别模型、问答意图识别模型、闲聊意图识别模型中的至少一个,具体可以根据实际需要进行选择。其中,任务意图识别模型可以表示用于识别用户的任务指令的算法模型,通常可以应用于任务指派场景,如:用户请求播放一首歌曲;问答意图识别模型可以表示用于回答用户问题的算法模型,通常可以应用于咨询场景,如:用户咨询信用卡如何开通;闲聊意图识别模型可以表示用于与用户聊天不限于业务场景的语义识别算法模型。基于不同的业务类型,采集不同的样本数据,训练构建不同的意图识别模型,使得对用户意图进行语义识别时更具有针对性和专业性,提高了语义识别的准确性。
此外,本实施例中不同业务类型的意图识别模型可以采用不同的算法进行训练构建,可以根据不同意图识别模型的数据集特征、样本量的大小等来选择不同的算法。通常对于分类简单,训练数据较小的情况,可选择统计学分类方法,如决策树、朴素贝叶斯等;对于语义理解要求较高(如:问答意图识别模型、闲聊意图识别模型),训练数据量较大的情况,可选择深度学习分类算法,具体可以根据实际需要选择对应的算法构建意图识别模型,本申请不做具体限定。
本实施例可以利用不同业务类型的意图识别模型对语音信息及参考语音信息进行意图识别,得到多个意图和每个意图对应的概率值,以从多个角度预测语音信息的意图,该概率值可以表示获得的意图是用户真实意图的概率,可以将概率值满足预设要求的意图作为候选意图,以得到多个候选意图,其中,预设要求可以为预设概率值,如:概率值大于0.8,则认为该意图是可信的,将其作为候选意图,以根据不同的意图识别模型输出的意图对应的概率值,对意图进行初步筛选,可以提高意图识别的准确性和效率。
例如:利用不同业务类型的意图识别模型对语音信息及参考语音信息进行意图识别时,获得3个意图,其中第一个意图对应的概率值为0.9,第二个意图对应的概率值为0.7,第三个意图对应的概率值为0.88,若预设概率值为0.8,则可以将第一个意图和第三个意图作为候选意图。
在一实施例中,参考图4所示,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图之前,还可包括以下步骤S41-S44:
S41、获取训练数据;其中,所述训练数据包括语音信息训练样本、参考语音信息样本和所述语音信息样本对应的标签;
S42、将所述训练数据中的语音信息训练样本和参考语音信息样本输入预先构建的神经网络模型进行训练,得到所述语音信息训练样本对应的预测意图;
S43、将所述语音信息训练样本对应的预测意图和所述标签进行比对,得到差异信息;
S44、根据所述差异信息调整所述神经网络模型的参数并继续训练,直至满足预设训练停止条件时结束训练,得到训练好的意图识别模型。
本实施例获取训练数据,训练数据包括语音信息训练样本、参考语音信息样本和所述语音信息样本对应的标签,训练数据的数据量需要大于预设数据量,以确保足够多的训练样本,提高意图识别模型的训练效果。该语音信息样本对应的标签为语音信息样本对应的真实意图,可通过人工进行确定,在此不做具体限定。
然后将训练数据中的语音信息训练样本和参考语音信息样本输入预先构建的神经网络模型进行训练,在达到迭代条件时,输出得到语音信息训练样本对应的预测意图,将语音信息训练样本对应的预测意图和标签进行比对,得到预测意图和标签差异信息,根据差异信息调整神经网络模型的参数并继续训练,直至满足预设训练停止条件时结束训练,将满足预设训练停止条件的神经网络模型作为意图识别模型,从而得到训练好的意图识别模型;其中,迭代条件包括训练时间或训练次数。
此外,本实施例还可以根据预设的损失函数计算训练后的神经网络模型的损失值,判断损失值是否大于预设损失值,若是,则确定神经网络模型满足训练要求,将训练后的神经网络模型作为意图识别模型,从而得到训练好的意图识别模型。其中,损失函数用来评价神经网络模型的预测值和真实值不一样的程度,损失函数越好,通常神经网络模型的性能越好。
当神经网络模型的损失值不小于预设损失值时,可根据损失值在神经网络模型的神经网络结构中进行前向传递,调整神经网络模型的相关参数,基于重新设置的相关参数对调整后的神经网络模型进行重新训练,直至神经网络模型的损失值小于预设损失值为止,至此神经网络模型训练结束,得到训练结果满足要求的神经网络模型,进而得到训练好的意图识别模型。
在一实施例中,参考图5所示,所述对所述多个候选意图进行排序,将排序最高的候选意图作为目标意图,可具体包括以下步骤S51-S52:
S51、提取每个候选意图的关键词,获取每个候选意图的关键词对应的使用频率;
S52、按照每个候选意图的关键词对应的使用频率,对所述多个候选意图进行排序,将排在最前列的候选意图作为目标意图。
在本实施例中,候选意图可以文本的形式存在,可以是一句话或一段话,如用户想要充值话费,本实施例可提取每个候选意图的关键词,并获取每个候选意图的关键词对应的使用频率,按照每个候选意图的关键词对应的使用频率,对多个候选意图进行排序,将排在最前列的候选意图作为目标意图,以选取使用频率最高的候选意图作为目标意图。
在一实施例中,参考图6所示,所述将所述语音信息转换为语音向量,可具体包括以下步骤S61-S62:
S61、对所述语音信息进行识别,得到所述语音信息对应的文本信息;
S62、将所述文本信息转换为所述语音向量。
本实施例可对语音信息进行降噪处理,得到降噪处理后的语音信息,以剔除干扰信息,提取降噪处理后的语音信息的会话内容,将所述会话内容转换为文本形式,得到文本信息,然后利用训练好的word2vec模型将所述文本信息转换为文本向量,将该文本向量作为语音向量。
具体的,本实施例可利用Word2Vec词向量模型将文本信息转换为词向量,得到文本信息的文本向量。其中,Word2Vec词向量模型是从大量文本中学习语义知识的一种模型,采用无监督的方式。其通过训练大量文本,将文本中的词用向量形式表示,这个向量我们称之为词向量,其还可以通过计算两个词的词向量之间的距离,从而得知两个词之间的联系。
此外,在将所述文本信息转换为所述语音向量时,还可将文本信息转换为对应的编码向量,将编码向量输入文本表示向量生成模型,得到文本信息对应的语音向量;其中,所述文本表示向量生成模型是对预设模型进行训练得到,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
为了训练通用的文本表示向量生成模型,则可以直接采用通用的文本数据库中的文本作为样本文本;为了训练特定领域的文本表示向量生成模型,则可以采用该特定领域数据分布中的无标签文本语料库中的文本作为样本文本;将样本文本通过嵌入表达操作转换为对应的编码向量。可以理解的是,在训练好一个通用的文本表示向量生成模型之后,想要获取特定领域的文本表示向量生成模型,只需利用该特定领域的样本文本对通用的文本表示向量生成模型进行再训练,以微调通用的文本表示向量生成模型中的参数,使之转变为特定领域的文本表示向量生成模型。
具体的,在使用训练好的文本表示向量生成模型生成文本信息的语音向量时,不需要再获取文本信息的增强后的编码向量,也不需要再计算损失函数,而直接通过BERT编码层对文本信息的编码向量进行交互计算,然后平均池化层取最后两层或预设多层内的均值作为该文本信息的文本表示向量,例如,获取到文本信息之后,通过embedding操作将其转换为对应的编码向量,将该编码向量输入文本表示向量模型之后,文本表示向量模型的BERT编码层对该编码向量进行交互计算,然后文本表示向量模型的平均池化层取BERT编码层的最后两层或预设多层内的均值作为该文本信息的文本表示向量,即得到文本信息对应的语音向量。
在一实施例中,参考图7所示,所述将所述文本信息转换为所述语音向量,可具体包括以下步骤S71-S73:
S71、提取所述文本信息的多个词;
S72、利用预设的词向量模型分别将每个词转换成词向量,得到多个词向量;
S73、将所述多个词向量进行合成,得到所述语音向量。
本实施例可以利用词向量模型,将用户文本信息的多个词转换为对应的词向量,每个词的n维向量可以表示为[w1,w2,…,wn]。其中,词向量模型可以采用ELMO((Embeddings from Language Models)算法训练构建,ELMO基于双向语言模型,可以根据训练集动态生成词的向量表示,在不同的上下文语境中,同一个词的向量表示是不同的。
此外,在将文本信息的多个词转换成对应的词向量时,可以先对用户的文本信息进行分词、停用词过滤等预处理,再利用词向量模型将分词序列转换为词向量。
最后获取每个词在文本信息中的顺序,按照顺序将多个词对应的词向量进行合成,得到语音向量,如按照顺序将多个词对应的词向量进行拼接后,得到语音向量。
参照图8,本申请实施例中还提供一种意图识别装置,所述装置包括:
接收模块11,用于接收用户的语音信息;
转换模块12,用于将所述语音信息转换为语音向量;
计算模块13,用于计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断模块14,用于判断所述相似度是否低于预设相似度阈值;
获取模块15,用于当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
输入模块16,用于将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
用户可以通过人机交互界面输入语音信息或以电话场景的形式输入语音信息,服务器可以接收用户输入的语音信息,该语音信息包括用户的需求,如“我需要充话费”,语音信息可以陈述句、疑问句或问句的形式。语音信息还可以是用户指示服务器执行某项任务的指令,也可以是提问或其他的请求信息。
本实施例可对语音信息进行降噪处理,得到降噪处理后的语音信息,以剔除干扰信息,提取降噪处理后的语音信息的会话内容,将所述会话内容转换为文本形式,得到会话文本,然后利用训练好的word2vec模型将所述会话文本转换为文本向量,将该文本向量作为语音向量。
此外,本申请也可以直接将语音信息转换为语音向量。例如,可获取待转换的语音信息,并对语音信息进行预处理,得到初始梅尔频谱,对初始梅尔频谱进行编码处理,得到语音向量。
具体的,服务器对语音信息进行短时傅里叶变换,得到语音信息对应的语音频谱,然后服务器通过预置的滤波器对语音频谱进行滤波操作,得到初始梅尔频谱,服务器将初始梅尔频谱对应语音信息中的目标词汇进行特征数字化,得到特征数字,并对特征数字进行编码,得到语音向量。其中,梅尔频谱是模拟人耳对高频信号的抑制,对语音的线性谱进行处理得到的低维特征,以强调低频部分,弱化高频部分所得到的语音特征。
所述标准语音向量为已确定的标准意图对应的向量,即可识别的意图所对应的向量,该标准语音向量的数量一般为多个,本实施例分别计算语音向量与每个标准语音向量的余弦距离,将余弦距离作为语音向量与每个标准语音向量的相似度,判断语音向量与每个标准语音向量的相似度是否都低于预设相似度阈值,当判定语音向量与某个标准语音向量的相似度大于预设相似度阈值时,则确定可精准识别语音信息的意图,将相似度大于预设相似度阈值对应的标准语音向量作为目标语音向量,将目标语音向量对应的标准意图作为该语音信息的目标意图。其中,所述预设相似度阈值可自定义设置,如设置为0.9。
当判定语音向量与每个标准语音向量的相似度都低于预设相似度阈值时,则确定当前无法精准识别语音信息的真实意图,此时获取语音信息的上下文对话信息,得到参考语音信息。
在具体的实施过程中,用户每一次输入的语音信息即用户对话信息均可以保存,在进行用户意图识别时,可以获取当前用户语音信息的上下文对话信息。例如:当前用户对话信息为如何充值话费,上一次用户输入的用户对话信息和下一次用户输入的用户对话信息可以作为上下文对话信息,如:现在充值有没优惠,还可以获取用户信息,如:用户的年龄、职业、消费习惯、个人喜好等,可以通过用户的账户名或用户在终端上的操作记录或采用其他的方式获取对应的用户信息,本说明书实施例不作具体限定,将用户每一次输入的语音信息、用户信息进行保存,以便随时提取使用。
本实施例将语音信息及参考语音信息输入预先训练好的意图识别模型,利用意图识别模型对语音信息的意图进行识别,以通过人工智能的方式自动识别语音信息的意图,提高识别效率,并在识别过程中,结合参考语音信息,识别得到针对用户的语音信息的目标意图,提高意图识别模型的识别精度。
如上所述,可以理解地,本申请中提出的所述意图识别装置的各组成部分可以实现如上所述意图识别方法任一项的功能,具体结构不再赘述。
参照图9,本申请实施例中还提供一种计算机设备,其内部结构可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述意图识别方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图识别方法。
上述处理器执行上述的意图识别方法,包括:
接收用户的语音信息;
将所述语音信息转换为语音向量;
计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断所述相似度是否低于预设相似度阈值;
当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种意图识别方法,包括步骤:
接收用户的语音信息;
将所述语音信息转换为语音向量;
计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断所述相似度是否低于预设相似度阈值;
当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本申请的最大有益效果在于:
本申请所提供的一种意图识别方法、装置、计算机设备及计算机可读存储介质,接收用户的语音信息,将语音信息转换为语音向量,计算语音向量与标准语音向量的相似度,判断相似度是否低于预设相似度阈值,当判定相似度低于预设相似度阈值时,即当前不存在表征语音信息的标准意图,此时获取语音信息的上下文对话信息,得到参考语音信息,将语音信息及参考语音信息输入预先训练好的意图识别模型,得到针对用户的语音信息的目标意图,以在无法准确识别用户的语音信息中的意图时,利用意图识别模型结合语音信息的上下文对话信息确定语音信息中的真实意图,提高意图识别模型的识别精度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种意图识别方法,其特征在于,所述方法包括:
接收用户的语音信息;
将所述语音信息转换为语音向量;
计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断所述相似度是否低于预设相似度阈值;
当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图,包括:
将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图;
对所述多个候选意图进行排序,将排序最高的候选意图作为目标意图。
3.根据权利要求2所述的方法,其特征在于,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图,包括:
利用不同业务类型的意图识别模型对所述语音信息及所述参考语音信息进行意图识别,得到多个意图和每个所述意图对应的概率值;
将所述概率值大于预设概率值的意图作为候选意图,得到多个候选意图。
4.根据权利要求2所述的方法,其特征在于,所述将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到所述用户的语音信息的多个候选意图之前,还包括:
获取训练数据;其中,所述训练数据包括语音信息训练样本、参考语音信息样本和所述语音信息样本对应的标签;
将所述训练数据中的语音信息训练样本和参考语音信息样本输入预先构建的神经网络模型进行训练,得到所述语音信息训练样本对应的预测意图;
将所述语音信息训练样本对应的预测意图和所述标签进行比对,得到差异信息;
根据所述差异信息调整所述神经网络模型的参数并继续训练,直至满足预设训练停止条件时结束训练,得到训练好的意图识别模型。
5.根据权利要求2所述的方法,其特征在于,所述对所述多个候选意图进行排序,将排序最高的候选意图作为目标意图,包括:
提取每个候选意图的关键词,获取每个候选意图的关键词对应的使用频率;
按照每个候选意图的关键词对应的使用频率,对所述多个候选意图进行排序,将排在最前列的候选意图作为目标意图。
6.根据权利要求1所述的方法,其特征在于,所述将所述语音信息转换为语音向量,包括:
对所述语音信息进行识别,得到所述语音信息对应的文本信息;
将所述文本信息转换为所述语音向量。
7.根据权利要求6所述的方法,其特征在于,所述将所述文本信息转换为所述语音向量,包括:
提取所述文本信息的多个词;
利用预设的词向量模型分别将每个词转换成词向量,得到多个词向量;
将所述多个词向量进行合成,得到所述语音向量。
8.一种意图识别装置,其特征在于,所述装置包括:
接收模块,用于接收用户的语音信息;
转换模块,用于将所述语音信息转换为语音向量;
计算模块,用于计算所述语音向量与标准语音向量的相似度;其中,所述标准语音向量为已确定的标准意图对应的向量;
判断模块,用于判断所述相似度是否低于预设相似度阈值;
获取模块,用于当判定所述相似度低于预设相似度阈值时,获取所述语音信息的上下文对话信息,得到参考语音信息;
输入模块,用于将所述语音信息及所述参考语音信息输入预先训练好的意图识别模型,得到针对所述用户的语音信息的目标意图。
9.一种计算机设备,其特征在于,所述计算机设备包括:
处理器;
存储器;
其中,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的意图识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-7任一项所述的意图识别方法。
CN202210292937.5A 2022-03-23 2022-03-23 意图识别方法、装置、计算机设备及计算机可读存储介质 Pending CN114678014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292937.5A CN114678014A (zh) 2022-03-23 2022-03-23 意图识别方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292937.5A CN114678014A (zh) 2022-03-23 2022-03-23 意图识别方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114678014A true CN114678014A (zh) 2022-06-28

Family

ID=82073591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292937.5A Pending CN114678014A (zh) 2022-03-23 2022-03-23 意图识别方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114678014A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579000A (zh) * 2022-12-07 2023-01-06 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统
CN115665325A (zh) * 2022-09-14 2023-01-31 中信建投证券股份有限公司 一种智能外呼的方法、装置、电子设备及存储介质
CN115810345A (zh) * 2022-11-23 2023-03-17 北京伽睿智能科技集团有限公司 一种智能话术推荐方法、系统、设备及存储介质
CN117238275A (zh) * 2023-08-24 2023-12-15 北京邮电大学 基于常识推理的语音合成模型训练方法、装置及合成方法
CN117290487A (zh) * 2023-10-27 2023-12-26 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质
CN117972160A (zh) * 2024-02-21 2024-05-03 暗物智能科技(广州)有限公司 一种多模态信息处理方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665325A (zh) * 2022-09-14 2023-01-31 中信建投证券股份有限公司 一种智能外呼的方法、装置、电子设备及存储介质
CN115665325B (zh) * 2022-09-14 2023-06-02 中信建投证券股份有限公司 一种智能外呼的方法、装置、电子设备及存储介质
CN115810345A (zh) * 2022-11-23 2023-03-17 北京伽睿智能科技集团有限公司 一种智能话术推荐方法、系统、设备及存储介质
CN115810345B (zh) * 2022-11-23 2024-04-30 北京伽睿智能科技集团有限公司 一种智能话术推荐方法、系统、设备及存储介质
CN115579000A (zh) * 2022-12-07 2023-01-06 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统
CN115579000B (zh) * 2022-12-07 2023-03-03 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统
CN117238275A (zh) * 2023-08-24 2023-12-15 北京邮电大学 基于常识推理的语音合成模型训练方法、装置及合成方法
CN117238275B (zh) * 2023-08-24 2024-03-19 北京邮电大学 基于常识推理的语音合成模型训练方法、装置及合成方法
CN117290487A (zh) * 2023-10-27 2023-12-26 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质
CN117290487B (zh) * 2023-10-27 2024-05-31 知学云(北京)科技股份有限公司 基于大语言模型的自动组卷方法、电子设备及存储介质
CN117972160A (zh) * 2024-02-21 2024-05-03 暗物智能科技(广州)有限公司 一种多模态信息处理方法及装置

Similar Documents

Publication Publication Date Title
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
CN114678014A (zh) 意图识别方法、装置、计算机设备及计算机可读存储介质
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN110334201B (zh) 一种意图识别方法、装置及系统
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN115497465B (zh) 语音交互方法、装置、电子设备和存储介质
CN112732871A (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN113886531B (zh) 智能问答话术确定方法、装置、计算机设备和存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN113254620A (zh) 基于图神经网络的应答方法、装置、设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN110931002B (zh) 人机交互方法、装置、计算机设备和存储介质
CN117453885A (zh) 提问信息处理方法、装置、设备、存储介质及产品
CN114625878A (zh) 意图识别方法、交互系统及设备
Ali et al. K-means clustering to improve the accuracy of decision tree response classification
CN116384405A (zh) 文本处理方法,文本分类方法及情感识别方法
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
CN118444789B (zh) 一种基于大语言模型的ai智能机器人交互方法及系统
CN118433311B (zh) 基于个性化机器人的电话客服处理方法及系统
CN118377909B (zh) 基于通话内容的客户标签确定方法、装置及存储介质
CN117972160B (zh) 一种多模态信息处理方法及装置
JP7080276B2 (ja) 分類システム、分類方法、およびプログラム
JP7080277B2 (ja) 分類装置、分類方法、およびプログラム
CN118430521A (zh) 音频数据的处理方法、音频处理模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination