CN116844530A - 语音信息的处理方法、装置、可读存储介质和电子装置 - Google Patents
语音信息的处理方法、装置、可读存储介质和电子装置 Download PDFInfo
- Publication number
- CN116844530A CN116844530A CN202310653023.1A CN202310653023A CN116844530A CN 116844530 A CN116844530 A CN 116844530A CN 202310653023 A CN202310653023 A CN 202310653023A CN 116844530 A CN116844530 A CN 116844530A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- sample
- voice
- reply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title description 8
- 238000003672 processing method Methods 0.000 title description 6
- 230000004044 response Effects 0.000 claims abstract description 181
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000012544 monitoring process Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 74
- 238000012549 training Methods 0.000 claims description 64
- 238000004590 computer program Methods 0.000 claims description 30
- 238000011049 filling Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 description 18
- 238000005457 optimization Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音信息的处理方法、装置、可读存储介质和电子装置。该方法包括:监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息;输出目标答复信息。本申请解决了无法有效对语音信息进行处理的技术问题。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种语音信息的处理方法、装置、可读存储介质和电子装置。
背景技术
目前,主要采用人工标注数据对预训练模型(Bidirectional EncoderRepresentation from Transformers,简称为BERT)进行微调后所得到的模型对语音信息进行处理,但是,该方法需要大量的人工标注数据,在训练模型过程中耗费人力成本,而且训练得到的模型也存在灵活性低的问题,从而导致无法有效对语音信息进行处理的技术问题。
针对上述无法有效对语音信息进行处理的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请至少部分实施例提供了一种语音信息的处理方法、装置、可读存储介质和电子装置,以至少解决无法有效对语音信息进行处理的技术问题。
根据本申请其中一实施例,提供了一种语音信息的处理方法,该方法可以包括:监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出目标答复信息。
根据本申请其中一实施例,还提供了一种语音信息的处理装置,该装置可以包括:监测单元,用于监测到待答复的目标语音询问信息;调用单元,用于调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出单元,用于输出目标答复信息。
根据本申请其中一实施例,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述语音信息的处理方法。
根据本申请其中一实施例,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述语音信息的处理方法。
在本申请至少部分实施例中,监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出目标答复信息。也就是说,在本申请实施例中,可以使用不同意图类别样本下的答复信息模板对语音答复模型进行训练,然后通过训练得到的语音答复模型对待答复的目标语音询问信息进行答复,并输出目标语音询问信息在对应目标意图类别下的目标答复信息,以达到通过语音答复模型对语音信息所包含的用户意图进行预测的目的,从而解决了无法有效对语音信息进行处理的技术问题,实现了有效对语音信息进行处理的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种语音信息的处理方法的终端设备的硬件结构框图;
图2是根据本申请实施例的一种语音信息的处理方法的流程图;
图3是根据本申请实施例的一种基于少样本学习的NLU训练方法的流程图;
图4是根据本申请实施例的一种半自动化的方法构造初始训练样本的示意图;
图5是根据本申请实施例的一种构造难样本的示意图;
图6是根据本申请实施例的一种语音信息的处理装置的示意图;
图7是根据本申请实施例的一种电子装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语使用于如下解释:
任务型对话系统,可以是指机器人为满足用户某一需求而产生的多轮对话,机器人通过理解、澄清等方式确定用户意图,继而通过答复等方式完成该任务;
自然语言理解(Natural Language Understanding,简称为NLU),是指对文本信息进行识别解析,并将其转换成计算机可理解的结构化语义表示;
语音识别(Automatic Speech Recognition,简称为ASR),是指将语音信号转换为文本信息;
对话状态跟踪(Dialog State Tracking,简称为DST),是指根据对话历史和NLU模块输出的语义表示,可以维护并更新当前的对话状态;
语音合成(Test To Speech,简称为TTS),是指将文本信息转换为语音并输出给用户;
意图识别,是指通过分类的方法将文本分到相应的意图类别;
槽填充(Slot Filling),是指读取文本中的一些语义成分,其可以看做是序列标注问题;
少样本学习,指从少量标注样本中进行学习的一种思想;
BERT,是一种基于序列模型(Transformer)和大语料进行预训练的自编码语言模型。
根据本申请其中一实施例,提供了一种语音信息的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在一种可能的实施方式中,针对计算机领域下语音信息的处理方法,通常所采用的使用人工标注数据对预训练模型进行微调后所得到的模型对语音信息进行处理的方法,发明人经过实践并仔细研究后,仍然存在无法有效对语音信息进行处理的技术问题,基于此,本公开实施例可以应用于包含任务型对话系统的任何游戏场景,所针对的游戏类型一般是交互类游戏,提出了一种语音信息的处理的方法,采用的技术构思“监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出目标答复信息”,达到了通过语音答复模型对语音信息所包含的用户意图进行预测的目的,从而解决了无法有效对语音信息进行处理的技术问题,实现了有效对语音信息进行处理的技术效果。
本申请涉及到的上述方法实施例可以在终端设备、计算机终端或者类似的运算装置中执行。以运行在终端设备上为例,该终端设备可以是智能手机、平板电脑、掌上电脑以及移动互联网设备、PAD、游戏机等终端设备。图1是根据本申请实施例的一种语音信息的处理方法的终端设备的硬件结构框图。如图1所示,终端设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于中央处理器(CPU)、图形处理器(GPU)、数字信号处理(DSP)芯片、微处理器(MCU)、可编程逻辑器件(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)、人工智能(AI)类型处理器等的处理装置)和用于存储数据的存储器104,在本申请其中一实施例中,还可以包括:输入输出设备108以及显示设备110。
在一些以游戏场景为主的可选实施例中,上述设备还可以提供具有触摸触敏表面的人机交互界面,该人机交互界面可以感应手指接触和/或手势来与图形用户界面(GUI)进行人机交互,该人机交互功能可以包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。
本领域技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端设备的结构造成限定。例如,终端设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
在一种可能的实施方式中,本申请实施例提供了一种语音信息的处理方法,图2是根据本申请实施例的一种语音信息的处理方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,监测到待答复的目标语音询问信息。
在本申请上述步骤S202提供的技术方案中,目标语音询问信息可以为任务型对话系统接收到来自用户的语音询问信息,其中,任务型对话系统可以包括语音识别、自然语音理解、对话状态跟踪以及语音合成等模块,例如,任务型对话系统可以为语音助手。需要说明的是,此处仅为举例说明,并不对目标语音询问信息进行具体限定,任何用于询问的目标语音询问信息均在本申请实施例的保护范围内,此处不一一举例说明。
在该实施例中,可以对待答复的目标语音询问信息进行实时监测。
步骤S204,调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息。
在本申请上述步骤S204提供的技术方案中,语音答复模型可以为NLU深度学习模型,该语音答复模型可以为基于不同意图类别样本下的答复信息模板训练而得到的模型,其中,答复信息模板至少可以用于填充对应意图类别样本下答复信息样本的语义内容,意图类别可以根据业务方进行确定,答复信息样本可以用于答复语音询问信息样本,例如,答复信息模板为“发消息给[name]说[content]”时,答复信息样本可以至少包括内容槽位[content]。
可选地,上述答复信息模板可以为根据每种意图类别总结出通用的答复模板,且答复信息模板需要尽量多样化且覆盖率高,以达到提高对目标语音询问信息进行答复的准确率的技术效果。
在本申请实施例中,可以先基于不同意图类别样本下的答复信息模板训练得到语音答复模型,然后调用语音答复模型对目标语音询问信息进行答复,并得到目标语音询问信息在对应目标意图类别下的目标答复信息,以达到有效对语音信息进行处理的技术效果。
可选地,在训练语音答复模型时,可以先采用多任务训练方法对不同意图类别样本下的答复信息模板进行训练,以使模型可以融合意图识别和槽填充任务的特点,并且采用对抗训练的方法在不同意图类别样本下的答复信息模板中引入扰动,以提高模型的鲁棒性,从而达到提高语音答复模型的泛化能力的技术效果。
可选地,为了不断提升语音答复模型的模型效果,在本申请实施例中,还可以实时获取语音答复模型的线上数据以及用户反馈,并根据线上数据以及用户反馈对语音答复模型进行迭代优化,从而提高了语音答复模型的性能,进而实现了有效对语音信息进行处理的技术效果。
步骤S206,输出目标答复信息。
在本申请上述步骤S206提供的技术方案中,目标答复信息可以为语音答复模型对目标语音询问信息意图分析后进行答复的答复信息。
在该实施例中,在通过上述步骤S204得到目标语音询问信息在对应目标意图类别下的目标答复信息之后,还可以使用语音答复模型确定对目标答复信息进行接收的目标接收对象,并将目标答复信息输出至目标接收对象,其中,目标接收对象可以为语音答复模型中答复信息模板中的人名[name]所表示的用户所使用的终端设备,答复信息模板中的[name]可以从人名库中进行不放回抽样得到。
需要说明的是,上述答复信息模板中的[name]的获取方式仅为一种优选的实施方式,此处不对答复信息模板中的[name]的获取方式进行具体限定,任何用于获取答复信息模板中的[name]的方法和过程均在本申请实施例的保护范围内,此处不一一列举。
通过本申请上述步骤S202至步骤S206,监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出目标答复信息。也就是说,在本申请实施例中,可以使用不同意图类别样本下的答复信息模板对语音答复模型进行训练,然后通过训练得到的语音答复模型对待答复的目标语音询问信息进行答复,并输出目标语音询问信息在对应目标意图类别下的目标答复信息,以达到通过语音答复模型对语音信息所包含的用户意图进行预测的目的,从而解决了无法有效对语音信息进行处理的技术问题,实现了有效对语音信息进行处理的技术效果。
下面对该实施例上述方法进行进一步介绍。
作为一种可选的实施方式,步骤S204,调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,包括:调用语音答复模型将目标语音询问信息转换为文本信息,且确定文本信息所属的目标意图类别;利用语音答复模型基于目标意图类别对文本信息进行答复,得到目标意图类别下的目标答复信息。
在该实施例中,可以调用语音答复模型对目标语音询问信息进行语音识别,并将目标语音询问信息转换为文本信息,然后确定文本信息所属的目标意图类别,最后利用语音答复模型基于所确定的目标意图类别对文本信息进行答复,得到目标意图类别下的目标答复信息。
可选地,在确定文本信息所属的目标意图类别时,可以过分类的方法将文本信息分到相应的目标意图类别,例如,文本信息为“打电话给XX”,则可以确定文本信息所属的目标意图类别为“打电话意图类别”;文本信息为“发信息给XX”,则可以确定文本信息所属的目标意图类别为“发信息意图类别”。需要说明的是,此处仅为举例说明,不对文本信息和目标意图类别进行具体限定。
作为一种可选的实施方式,使用语音答复模型基于目标意图类别对文本信息进行答复,得到目标意图类别下的目标答复信息,包括:响应于不同意图类别样本包括目标意图类别,使用语音答复模型确定目标意图类别下语义内容与文本信息的语义内容相匹配的目标答复信息。
在该实施例中,语音答复模型是对不同意图类别样本下的答复信息模板进行训练而得到的模型,在确定目标语音询问信息所对应的文本信息所属的目标意图类别之后,可以将意图类别与语音答复模型中包含的多个不同意图类别样本进行匹配,如果不同意图类别样本中包括目标意图类别,则可以将语音答复模型在目标意图类别下语义内容确定为与文本信息的语义内容相匹配的目标答复信息。
作为一种可选的实施方式,该方法还包括:在语料库中,获取意图类别与答复信息模板对应的意图类别样本之间的相似度大于相似度阈值的语料样本;将语料样本的语义内容确定为答复信息样本的语义内容。
在该实施例中,语料库可以为开源闲聊语料库,语料库中可以包括不同意图类别样本下答复信息样本的语义样本,例如,发消息意图类别样本下的答复信息模板可以是“发消息给[name]说[content]”,其中,[content]可以为从开源闲聊语料库中抽取到的语义样本。需要说明的是,此处仅为举例说明,不对答复信息样本的语义样本进行具体限定。
在该实施例中,答复信息样本的语义内容可以通过语料库构造得到,从语料库中抽取意图类别与答复信息模板对应的意图类别样本之间的相似度大于相似度阈值的语料样本,然后将语料样本的语义内容确定为答复信息样本的语义内容,也即,从语料库中抽取与答复信息模板对应的意图类别样本相似的语料样本,以达到确保答复信息模板多样化且覆盖率高的技术效果。
作为一种可选的实施方式,该方法还包括:使用语音答复模型确定对目标答复信息进行接收的目标接收对象;输出目标答复信息,包括:将目标答复信息输出至目标接收对象。
在该实施例中,答复信息模板还可以用于填充对答复信息样本进行接收的接收对象样本,接收对象样本可以从对象数据库中抽样得到,对象数据库可以为人名库,例如,发消息意图类别样本下的答复信息模板可以是“发消息给[name]说[content]”,其中,[name]可以为从人名库中进行不放回抽样得到的接收对象样本。需要说明的是,此处仅为举例说明,不对接收对象样本进行具体限定。
在该实施例中,上述接收对象样本中可以包括目标接收对象,通过语音答复模型可以确定对目标答复信息进行接收的目标接收对象,然后将目标答复信息输出至目标接收对象。
作为一种可选的实施方式,该方法还包括:至少基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数;基于目标损失函数,对初始语音答复模型的参数进行调整,得到语音答复模型。
在该实施例中,意图类别样本可以为意图识别任务,语义内容可以为槽填充任务,目标损失函数可以用于表示由初始语音答复模型对意图类别样本下的语音询问信息样本进行答复的答复信息,与意图类别样本下的答复信息样本之间的差,初始语音答复模型可以为采用初始训练样本进行训练的语音答复模型。
在该实施例中,由于意图识别任务和槽填充任务具有相关性,因此可以先根据语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,再通过目标损失函数对初始语音答复模型的参数进行调整,得到语音答复模型,以达到使语音答复模型能够融合各个任务的特点,且能够学习到更多的知识的技术效果。
作为一种可选的实施方式,至少基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,包括:至少基于语音询问信息样本对应的意图类别样本的第一损失和答复信息样本的语义内容的第二损失,确定目标损失函数。
在该实施例中,第一损失可以为意图识别任务损失,用于表示由初始语音答复模型确定的语音询问信息样本对应的意图类别与语音询问信息样本对应的意图类别样本之间的差,第二损失可以为槽填充任务抽取损失,用于表示由初始语音答复模型对语音询问信息样本确定的答复信息的语义内容,与意图类别样本下的答复信息样本的语义内容之间的差。
在该实施例中,可以根据语音询问信息样本对应的意图类别样本的第一损失和答复信息样本的语义内容的第二损失对目标损失函数进行确定。
作为一种可选的实施方式,至少基于语音询问信息样本对应的意图类别样本的第一损失和答复信息样本的语义内容的第二损失,确定目标损失函数,包括:至少基于第一损失和对应的第一权重,以及第二损失和对应的第二权重,确定目标损失函数。
在该实施例中,第一权重可以为意图识别任务损失的损失权重,用于表示第一损失对目标损失函数的重要程度,第二权重可以为槽填充任务抽取损失的损失权重,用于表示第二损失对目标损失函数的重要程度。
在该实施例中,可以根据第一损失和第一损失对应的第一权重,以及第二损失和第二损失对应的第二权重,确定目标损失函数,例如:
Losstotal=α*lossintent+β*lossslo
其中,Losstotal可以用于表示目标损失函数,lossintent用于表示意图识别任务损失,也即,第一损失,lossslot可以代表槽填充任务抽取损失,也即,第二损失,α可以为意图识别任务损失的损失权重,也即,第一权重,β可以为槽填充任务抽取损失的损失权重,也即,第二权重。
需要说明的是,损失权重为超参数,可以用于表示不同任务的重要程度,以使生成的语音答复模型既能学习到意图识别任务和槽填充任务之间的共性,也能突出意图识别任务和槽填充任务的优先级。
作为一种可选的实施方式,该方法还包括:向语音询问信息样本对应的意图类别样本添加意图类别干扰信息,得到目标意图类别样本,和/或,向答复信息样本的语义内容添加语义内容干扰信息,得到目标语义内容;基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,包括以下之一:基于目标意图类别样本和答复信息样本的语义内容,确定目标损失函数;基于意图类别样本和答复信息样本的目标语义内容,确定目标损失函数;基于目标意图类别样本和目标语义内容,确定目标损失函数。
在该实施例中,为了提高生成的语音答复模型的泛化能力,还采用了对抗训练的方法向语音询问信息样本对应的意图类别样本添加意图类别干扰信息,得到目标意图类别样本,和/或,向答复信息样本的语义内容添加语义内容干扰信息,得到目标语义内容,然后根据语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,最后根据目标损失函数,对初始语音答复模型的参数进行调整,得到语音答复模型,以达到使最终生成的语音答复模型能够适应改变,从而对对抗样本具有鲁棒性。
可选地,对抗训练的方法可以为:Radv=eg/|g|2。需要说明的是,此处仅为对初始语音答复模型进行对抗训练的一种优选实施方式,在本申请实施例中不对对抗训练的方法进行具体限定,任何用于对初始语音答复模型进行对抗训练的方法和过程均在本申请实施例的保护范围内,此处不一一列举。
作为一种可选的实施方式,该方法还包括:响应于目标答复信息的置信度小于置信度阈值,获取对目标答复信息的置信度进行验证的验证结果,其中,置信度用于表示目标答复信息的可靠程度;基于验证结果对语音答复模型进行调整。
在该实施例中,可以将训练得到的语音答复模型进行上线测试,并获取线上的预测日志,根据预测日志确定目标答复信息的置信度,当目标答复信息的置信度小于置信度阈值时,对目标答复信息的置信度进行验证,并获取验证结果,然后根据验证结果对语音答复模型进行迭代优化,以达到持续迭代优化语音答复模型的目的,从而实现了有效对语音信息进行处理的技术效果。
作为一种可选的实施方式,该方法还包括:获取对目标答复信息进行反馈的反馈结果;基于反馈结果对语音答复模型进行调整。
在该实施例中,在将训练得到的语音答复模型进行上线测试后,还可以获取用户对目标答复信息进行反馈的反馈结果,并根据反馈结果对语音答复模型进行迭代优化,例如,在语音答复模型中增加不同意图类别样本下的答复信息模板。需要说明的是,此处仅为举例说明,不对根据反馈结果对语音答复模型进行迭代优化的方法进行具体限定,任何根据反馈结果对语音答复模型进行迭代优化的方法和过程均在本申请实施例的保护范围内,此处不一一举例。
下面结合优选的实施方式对本申请实施例的技术方案进行进一步地举例介绍。
语音助手是一种任务型对话系统,主要包括语音识别、NLU、对话状态跟踪以及语音合成等模块,其中,NLU包括意图识别和槽填充模块,可以理解用户表达的意图,也是任务型对话系统的核心模块之一,可以驱动整个对话进程。
可选地,进行NLU的方法主要包括:规则模板,也即,基于人工分析总结出规则模板,解析用户查询(Query)并和模板匹配,根据命中结果预测,但是,该方法需要人工参与制定规则模板,灵活性低;统计机器学习,也即,根据人工提取的特征,使用支持向量机等算法进行训练,该方法也需要大量人工操作设计特征,且效果较差;深度学习,也即,依赖人工标注的数据,使用深度学习模型进行训练,该方法虽然效果好,但是也仍然依赖于大量人工标注的数据,成本较高。
对话系统的NLU技术可以是采用人工大量标注数据对BERT进行微调,可以是以单任务的形式分别微调BERT得到意图识别和槽填充模型,还可以是以多任务的形式将意图识别和槽填充模型联合训练,但是,这些方法都是基于大量的人工标注数据,人力成本较高。
进一步地,在本申请实施例中提供了一种基于少样本学习的NLU训练方法,该方法可以在没有标注数据或者极少量标注数据的情况下,训练一个在目标领域取得很好的预测性能的NLU深度学习模型,以达到有效对语音信息进行处理的技术效果,进而解决了无法有效对语音信息进行处理的技术问题。
下面对本申请实施例的基于少样本学习的NLU训练方法进行进一步介绍。
图3是根据本申请实施例的一种基于少样本学习的NLU训练方法的流程图,如图3所示,该方法可以包括:
步骤S301,构造初始训练样本;
在上述步骤S301中,由于没有大量的人工标注样本,为了提高模型训练效率和质量,需要高质量的初始训练样本,因此,在本申请实施例中采用了半自动化的方法构造初始训练样本。
图4是根据本申请实施例的一种半自动化的方法构造初始训练样本的示意图,如图4所示,首先对每种意图类别总结出通用的模板,例如,发消息意图的模板可以是“发消息给[name]说[content]”,其中,[name]可以用于表示人名槽位,可以通过从人名库401中进行不放回抽样得到,[content]则是内容槽位,可以通过从开源闲聊语料库402构造得到,以确保模板尽量多样化且覆盖率高。另外,还需要确保各个意图类别训练数据的数量均衡(相等比例),以得到高质量的初始训练样本。
步骤S302,采用多任务/对抗训练方法,使用初始训练样本训练NLU模型。
在上述步骤S302中,针对该场景下初始训练样本少的特点,本申请实施例设计了多任务以及对抗训练的学习方法,其中,多任务是指将意图识别和槽填充任务联合训练,从而融合了各个任务的特点,使得模型学习到更多的知识,对抗训练是指在训练样本中引入扰动,提高模型的鲁棒性。
在该实施例中,由于意图识别和槽填充任务本质上具有相关性,所以在本申请实施例采用加权的多任务训练方式,其中,目标损失函数可以为:
Losstotal=α*lossintent+β*lossslot
其中,lossintent可以代表意图识别损失,lossslot可以代表槽位抽取损失,α和β可以代表损失权重,损失权重为超参数,可以用于表示不同任务的重要程度,从而使模型既能学习到任务之间的共性,也能突出任务的优先级。
在该实施例中,为了提高模型泛化能力,还采用了对抗训练的方法,也即,对训练样本添加微小的扰动,使得模型适应这种改变,从而对对抗样本具有鲁棒性。为了得到更好的对抗样本,本申请实施例采用的对抗训练(FastGradientMethod,简称为FGM)的方法为:Radv=eg/|g|2。
步骤S303,上线NLU模型,并收集线上数据以及用户反馈。
在上述步骤S303中,在得到初始NLU模型之后,可以将NLU模型上线,然后收集到大量的线上预测日志以及一些用户的主动反馈。
步骤S304,对线上数据以及用户反馈进行过滤,生成新的训练数据。
在上述步骤S304中,为了不断提升模型效果,可以利用线上数据以及用户反馈,通过模型预测以及阈值过滤等方法,生成新的训练样本,在此基础上构造难样本,实现模型的迭代优化。
图5是根据本申请实施例的一种构造难样本的示意图,如图5所示,对于线上预测日志501,可以将预测置信度比较低(例如,概率接近0.5)的样本抽取出来,人工验证过滤之后得到高质量的难样本,然后使用这些样本继续更新模型;对于用户反馈502,可以根据反馈的特点构造相应的样本来增强模型,例如,增加模板,从而构造更多样的难样本503,使得模型学习到更多模式。
在上述步骤S301至步骤S304中,通过半自动化方式构造初始训练样本,加权的多任务以及对抗学习,利用线上日志迭代优化等学习方法,使得NLU模型在目标领域上达到很好的性能,不仅提升了对话系统的效果,而且减少了标注数据的工作量,节省了大量的人力物力。
表1是不同模型对用户意图进行预测的平均准确率表,如表1所示,通用语料上预训练的开源模型的平均准确率为0.86,在初始构造训练数据上训练得到的模型的平均准确率为0.91,经过多轮迭代优化得到的模型的平均准确率为0.97,也即,通过本申请实施例的少样本学习的NLU训练方法所训练得到的模型相比于其他模型,对用户意图进行预测的准确率得到了极大的提升。
表1不同模型对用户意图进行预测的平均准确率表
模型 | 平均准确率 |
通用语料上预训练的开源模型 | 0.86 |
在初始构造训练数据上训练得到的模型 | 0.91 |
经过多轮迭代优化得到的模型 | 0.97 |
在本申请实施例中,通过构造或者人工标注少量训练数据,以多任务和对抗训练的方式,迭代优化得到高精度和强泛化能力的NLU模型,极大地提高了对话系统的性能,节省了人力物力,从而实现了有效对语音信息进行处理的技术效果,进而解决了无法有效对语音信息进行处理的技术问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
在本实施例中还提供了一种语音信息的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“单元”、“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本申请实施例的一种语音信息的处理装置的示意图,如图6所示,该语音信息的处理装置600包括:监测单元601、调用单元602和输出单元603。
监测单元601,用于监测到待答复的目标语音询问信息。
调用单元602,用于调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本。
输出单元603,用于输出目标答复信息。
可选地,调用单元602包括:调用模块,用于调用语音答复模型将目标语音询问信息转换为文本信息,且确定文本信息所属的目标意图类别;答复模块,用于利用语音答复模型基于目标意图类别对文本信息进行答复,得到目标意图类别下的目标答复信息。
可选地,答复模块包括:第一确定子模块,用于响应于不同意图类别样本包括目标意图类别,使用语音答复模型确定目标意图类别下语义内容与文本信息的语义内容相匹配的目标答复信息。
可选地,该装置还包括:第一获取单元,用于在语料库中,获取意图类别与答复信息模板对应的意图类别样本之间的相似度大于相似度阈值的语料样本;第一确定单元,用于将语料样本的语义内容确定为答复信息样本的语义内容。
可选地,该装置还包括:第二确定单元,用于使用语音答复模型确定对目标答复信息进行接收的目标接收对象,其中,接收对象样本包括目标接收对象。
可选地,输出单元603包括:输出模块,用于将目标答复信息输出至目标接收对象
可选地,该装置还包括:第三确定单元,用于至少基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,其中,目标损失函数用于表示由初始语音答复模型对意图类别样本下的语音询问信息样本进行答复的答复信息,与意图类别样本下的答复信息样本之间的差;第一调整单元,用于基于目标损失函数,对初始语音答复模型的参数进行调整,得到语音答复模型。
可选地,第三确定单元包括:确定模块,用于至少基于语音询问信息样本对应的意图类别样本的第一损失和答复信息样本的语义内容的第二损失,确定目标损失函数,其中,第一损失用于表示由初始语音答复模型确定的语音询问信息样本对应的意图类别与语音询问信息样本对应的意图类别样本之间的差,第二损失用于表示由初始语音答复模型对语音询问信息样本确定的答复信息的语义内容,与意图类别样本下的答复信息样本的语义内容之间的差。
可选地,确定模块包括:第二确定子模块,用于至少基于第一损失和对应的第一权重,以及第二损失和对应的第二权重,确定目标损失函数,其中,第一权重用于表示第一损失对目标损失函数的重要程度,第二权重用于表示第二损失对目标损失函数的重要程度。
可选地,该装置还包括:添加单元,用于向语音询问信息样本对应的意图类别样本添加意图类别干扰信息,得到目标意图类别样本,和/或,向答复信息样本的语义内容添加语义内容干扰信息,得到目标语义内容;第四确定单元,用于基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,包括以下之一:基于目标意图类别样本和答复信息样本的语义内容,确定目标损失函数;基于意图类别样本和答复信息样本的目标语义内容,确定目标损失函数;基于目标意图类别样本和目标语义内容,确定目标损失函数。
可选地,该装置还包括:第二获取单元,用于响应于目标答复信息的置信度小于置信度阈值,获取对目标答复信息的置信度进行验证的验证结果,其中,置信度用于表示目标答复信息的可靠程度;第二调整单元,用于基于验证结果对语音答复模型进行调整。
可选地,该装置还包括:第三获取单元,用于获取对目标答复信息进行反馈的反馈结果;第三调整单元,用于基于反馈结果对语音答复模型进行调整。
在该实施例的语音信息的处理装置中,监测单元,用于监测到待答复的目标语音询问信息;调用单元,用于调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出单元,用于输出目标答复信息,从而实现了有效对语音信息进行处理的技术效果,进而解决了无法有效对语音信息进行处理的技术问题。
需要说明的是,上述各个单元、模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述单元、模块均位于同一处理器中;或者,上述各个单元、模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于终端设备群中的任意一个终端设备中。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,监测到待答复的目标语音询问信息;
S2,调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;
S3,输出目标答复信息。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:调用语音答复模型将目标语音询问信息转换为文本信息,且确定文本信息所属的目标意图类别;利用语音答复模型基于目标意图类别对文本信息进行答复,得到目标意图类别下的目标答复信息。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于不同意图类别样本包括目标意图类别,使用语音答复模型确定目标意图类别下语义内容与文本信息的语义内容相匹配的目标答复信息。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:在语料库中,获取意图类别与答复信息模板对应的意图类别样本之间的相似度大于相似度阈值的语料样本;将语料样本的语义内容确定为答复信息样本的语义内容。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:使用语音答复模型确定对目标答复信息进行接收的目标接收对象,其中,接收对象样本包括目标接收对象。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:输出目标答复信息,包括:将目标答复信息输出至目标接收对象。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:至少基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,其中,目标损失函数用于表示由初始语音答复模型对意图类别样本下的语音询问信息样本进行答复的答复信息,与意图类别样本下的答复信息样本之间的差;基于目标损失函数,对初始语音答复模型的参数进行调整,得到语音答复模型。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:至少基于语音询问信息样本对应的意图类别样本的第一损失和答复信息样本的语义内容的第二损失,确定目标损失函数,其中,第一损失用于表示由初始语音答复模型确定的语音询问信息样本对应的意图类别与语音询问信息样本对应的意图类别样本之间的差,第二损失用于表示由初始语音答复模型对语音询问信息样本确定的答复信息的语义内容,与意图类别样本下的答复信息样本的语义内容之间的差。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:至少基于第一损失和对应的第一权重,以及第二损失和对应的第二权重,确定目标损失函数,其中,第一权重用于表示第一损失对目标损失函数的重要程度,第二权重用于表示第二损失对目标损失函数的重要程度。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:向语音询问信息样本对应的意图类别样本添加意图类别干扰信息,得到目标意图类别样本,和/或,向答复信息样本的语义内容添加语义内容干扰信息,得到目标语义内容;基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,包括以下之一:基于目标意图类别样本和答复信息样本的语义内容,确定目标损失函数;基于意图类别样本和答复信息样本的目标语义内容,确定目标损失函数;基于目标意图类别样本和目标语义内容,确定目标损失函数。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:响应于目标答复信息的置信度小于置信度阈值,获取对目标答复信息的置信度进行验证的验证结果,其中,置信度用于表示目标答复信息的可靠程度;基于验证结果对语音答复模型进行调整。
可选地,上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:获取对目标答复信息进行反馈的反馈结果;基于反馈结果对语音答复模型进行调整。
在该实施例的计算机可读存储介质中,监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出目标答复信息。本申请解决了无法有效对语音信息进行处理的技术问题。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,计算机可读存储介质上存储有能够实现本实施例上述方法的程序产品。在一些可能的实施方式中,本申请实施例的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本实施例上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
根据本申请的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请实施例的程序产品不限于此,在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述程序产品可以采用一个或多个计算机可读介质的任意组合。该计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列举)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,监测到待答复的目标语音询问信息;
S2,调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;
S3,输出目标答复信息。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:调用语音答复模型将目标语音询问信息转换为文本信息,且确定文本信息所属的目标意图类别;利用语音答复模型基于目标意图类别对文本信息进行答复,得到目标意图类别下的目标答复信息。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于不同意图类别样本包括目标意图类别,使用语音答复模型确定目标意图类别下语义内容与文本信息的语义内容相匹配的目标答复信息。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:在语料库中,获取意图类别与答复信息模板对应的意图类别样本之间的相似度大于相似度阈值的语料样本;将语料样本的语义内容确定为答复信息样本的语义内容。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:使用语音答复模型确定对目标答复信息进行接收的目标接收对象,其中,接收对象样本包括目标接收对象。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:输出目标答复信息,包括:将目标答复信息输出至目标接收对象。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:至少基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,其中,目标损失函数用于表示由初始语音答复模型对意图类别样本下的语音询问信息样本进行答复的答复信息,与意图类别样本下的答复信息样本之间的差;基于目标损失函数,对初始语音答复模型的参数进行调整,得到语音答复模型。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:至少基于语音询问信息样本对应的意图类别样本的第一损失和答复信息样本的语义内容的第二损失,确定目标损失函数,其中,第一损失用于表示由初始语音答复模型确定的语音询问信息样本对应的意图类别与语音询问信息样本对应的意图类别样本之间的差,第二损失用于表示由初始语音答复模型对语音询问信息样本确定的答复信息的语义内容,与意图类别样本下的答复信息样本的语义内容之间的差。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:至少基于第一损失和对应的第一权重,以及第二损失和对应的第二权重,确定目标损失函数,其中,第一权重用于表示第一损失对目标损失函数的重要程度,第二权重用于表示第二损失对目标损失函数的重要程度。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:向语音询问信息样本对应的意图类别样本添加意图类别干扰信息,得到目标意图类别样本,和/或,向答复信息样本的语义内容添加语义内容干扰信息,得到目标语义内容;基于语音询问信息样本对应的意图类别样本和答复信息样本的语义内容,确定目标损失函数,包括以下之一:基于目标意图类别样本和答复信息样本的语义内容,确定目标损失函数;基于意图类别样本和答复信息样本的目标语义内容,确定目标损失函数;基于目标意图类别样本和目标语义内容,确定目标损失函数。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:响应于目标答复信息的置信度小于置信度阈值,获取对目标答复信息的置信度进行验证的验证结果,其中,置信度用于表示目标答复信息的可靠程度;基于验证结果对语音答复模型进行调整。
可选地,上述处理器还可以被设置为通过计算机程序执行以下步骤:获取对目标答复信息进行反馈的反馈结果;基于反馈结果对语音答复模型进行调整。
在该实施例的电子装置中,监测到待答复的目标语音询问信息;调用语音答复模型对目标语音询问信息进行答复,得到目标语音询问信息在对应目标意图类别下的目标答复信息,其中,语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,答复信息样本用于答复语音询问信息样本;输出目标答复信息。本申请解决了无法有效对语音信息进行处理的技术问题。
图7是根据本申请实施例的一种电子装置的示意图。如图7所示,电子装置700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,电子装置700以通用计算设备的形式表现。电子装置700的组件可以包括但不限于:上述至少一个处理器710、上述至少一个存储器720、连接不同系统组件(包括存储器720和处理器710)的总线730和显示器740。
其中,上述存储器720存储有程序代码,程序代码可以被处理器710执行,使得处理器710执行本申请实施例的上述方法部分中描述的根据本申请各种示例性实施方式的步骤。
存储器720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。
在一些实例中,存储器720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至电子装置700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理器710或者使用多种总线结构中的任意总线结构的局域总线。
显示器740可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与电子装置700的用户界面进行交互。
可选地,电子装置700也可以与一个或多个外部设备70(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子装置700交互的设备通信,和/或与使得该电子装置700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子装置700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器760通过总线730与电子装置700的其它模块通信。应当明白,尽管图7中未示出,可以结合电子装置700使用其它硬件和/或软件模块,可以包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
上述电子装置700还可以包括:键盘、光标控制设备(如鼠标)、输入/输出接口(I/O接口)、网络接口、电源和/或相机。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子装置700还可包括比图7中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器720可用于存储计算机程序及对应的数据,如本申请实施例中的对应的计算机程序及对应的数据。处理器710通过运行存储在存储器720内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种语音信息的处理方法,其特征在于,包括:
监测到待答复的目标语音询问信息;
调用语音答复模型对所述目标语音询问信息进行答复,得到所述目标语音询问信息在对应目标意图类别下的目标答复信息,其中,所述语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,所述答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,所述答复信息样本用于答复语音询问信息样本;
输出所述目标答复信息。
2.根据权利要求1所述的方法,其特征在于,调用语音答复模型对所述目标语音询问信息进行答复,得到所述目标语音询问信息在对应目标意图类别下的目标答复信息,包括:
调用所述语音答复模型将所述目标语音询问信息转换为文本信息,且确定所述文本信息所属的所述目标意图类别;
利用所述语音答复模型基于所述目标意图类别对所述文本信息进行答复,得到所述目标意图类别下的所述目标答复信息。
3.根据权利要求2所述的方法,其特征在于,使用所述语音答复模型基于所述目标意图类别对所述文本信息进行答复,得到所述目标意图类别下的所述目标答复信息,包括:
响应于所述不同意图类别样本包括所述目标意图类别,使用所述语音答复模型确定所述目标意图类别下语义内容与所述文本信息的语义内容相匹配的所述目标答复信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在语料库中,获取意图类别与所述答复信息模板对应的意图类别样本之间的相似度大于相似度阈值的语料样本;
将所述语料样本的语义内容确定为所述答复信息样本的语义内容。
5.根据权利要求1所述的方法,其特征在于,所述答复信息模板还用于填充对所述答复信息样本进行接收的接收对象样本,所述接收对象样本为从对象数据库中抽样得到,所述方法还包括:
使用所述语音答复模型确定对所述目标答复信息进行接收的目标接收对象,其中,所述接收对象样本包括所述目标接收对象;
输出所述目标答复信息,包括:将所述目标答复信息输出至所述目标接收对象。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
至少基于所述语音询问信息样本对应的所述意图类别样本和所述答复信息样本的语义内容,确定目标损失函数,其中,所述目标损失函数用于表示由初始语音答复模型对所述意图类别样本下的所述语音询问信息样本进行答复的答复信息,与所述意图类别样本下的所述答复信息样本之间的差;
基于所述目标损失函数,对所述初始语音答复模型的参数进行调整,得到所述语音答复模型。
7.根据权利要求6所述的方法,其特征在于,至少基于所述语音询问信息样本对应的所述意图类别样本和所述答复信息样本的语义内容,确定目标损失函数,包括:
至少基于所述语音询问信息样本对应的所述意图类别样本的第一损失和所述答复信息样本的语义内容的第二损失,确定所述目标损失函数,其中,所述第一损失用于表示由所述初始语音答复模型确定的所述语音询问信息样本对应的意图类别与所述语音询问信息样本对应的所述意图类别样本之间的差,所述第二损失用于表示由所述初始语音答复模型对所述语音询问信息样本确定的答复信息的语义内容,与所述意图类别样本下的所述答复信息样本的语义内容之间的差。
8.根据权利要求7所述的方法,其特征在于,至少基于所述语音询问信息样本对应的所述意图类别样本的第一损失和所述答复信息样本的语义内容的第二损失,确定所述目标损失函数,包括:
至少基于所述第一损失和对应的第一权重,以及所述第二损失和对应的第二权重,确定所述目标损失函数,其中,所述第一权重用于表示所述第一损失对所述目标损失函数的重要程度,所述第二权重用于表示所述第二损失对所述目标损失函数的重要程度。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
向所述语音询问信息样本对应的所述意图类别样本添加意图类别干扰信息,得到目标意图类别样本,和/或,向所述答复信息样本的语义内容添加语义内容干扰信息,得到目标语义内容;
基于所述语音询问信息样本对应的所述意图类别样本和所述答复信息样本的语义内容,确定目标损失函数,包括以下之一:
基于所述目标意图类别样本和所述答复信息样本的语义内容,确定所述目标损失函数;
基于所述意图类别样本和所述答复信息样本的所述目标语义内容,确定所述目标损失函数;
基于所述目标意图类别样本和所述目标语义内容,确定所述目标损失函数。
10.根据权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:
响应于所述目标答复信息的置信度小于置信度阈值,获取对所述目标答复信息的置信度进行验证的验证结果,其中,所述置信度用于表示所述目标答复信息的可靠程度;
基于所述验证结果对所述语音答复模型进行调整。
11.根据权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:
获取对所述目标答复信息进行反馈的反馈结果;
基于所述反馈结果对所述语音答复模型进行调整。
12.一种语音信息的处理装置,其特征在于,包括:
监测单元,用于监测到待答复的目标语音询问信息;
调用单元,用于调用语音答复模型对所述目标语音询问信息进行答复,得到所述目标语音询问信息在对应目标意图类别下的目标答复信息,其中,所述语音答复模型为基于不同意图类别样本下的答复信息模板训练而得到,所述答复信息模板至少用于填充对应意图类别样本下答复信息样本的语义内容,所述答复信息样本用于答复语音询问信息样本;
输出单元,用于输出所述目标答复信息。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为被处理器运行时执行权利要求1至11中任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至11中任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653023.1A CN116844530A (zh) | 2023-06-02 | 2023-06-02 | 语音信息的处理方法、装置、可读存储介质和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310653023.1A CN116844530A (zh) | 2023-06-02 | 2023-06-02 | 语音信息的处理方法、装置、可读存储介质和电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844530A true CN116844530A (zh) | 2023-10-03 |
Family
ID=88166111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310653023.1A Pending CN116844530A (zh) | 2023-06-02 | 2023-06-02 | 语音信息的处理方法、装置、可读存储介质和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844530A (zh) |
-
2023
- 2023-06-02 CN CN202310653023.1A patent/CN116844530A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334201B (zh) | 一种意图识别方法、装置及系统 | |
CN109658928B (zh) | 一种家庭服务机器人云端多模态对话方法、装置及系统 | |
CN109514586B (zh) | 实现智能客服机器人的方法及系统 | |
CN114556354A (zh) | 自动确定和呈现来自事件的个性化动作项 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN110909165A (zh) | 数据处理方法、装置、介质及电子设备 | |
US11645561B2 (en) | Question answering system influenced by user behavior and text metadata generation | |
US11816609B2 (en) | Intelligent task completion detection at a computing device | |
CN115309877A (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN111026840A (zh) | 文本处理方法、装置、服务器和存储介质 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN114118100A (zh) | 用于生成对话语句的方法、装置、设备、介质和程序产品 | |
CN114547244A (zh) | 用于确定信息的方法和装置 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
CN112910761B (zh) | 即时通讯方法、装置、设备、存储介质以及程序产品 | |
CN113111658A (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN111858875A (zh) | 智能交互方法、装置、设备及存储介质 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN116775815B (zh) | 对话数据的处理方法、装置、电子设备及存储介质 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
US20220180865A1 (en) | Runtime topic change analyses in spoken dialog contexts | |
CN116844530A (zh) | 语音信息的处理方法、装置、可读存储介质和电子装置 | |
CN114218356A (zh) | 基于人工智能的语义识别方法、装置、设备及存储介质 | |
CN114416931A (zh) | 标签生成方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |