CN111161726A - 一种智能语音交互方法、设备、介质及系统 - Google Patents
一种智能语音交互方法、设备、介质及系统 Download PDFInfo
- Publication number
- CN111161726A CN111161726A CN201911345694.1A CN201911345694A CN111161726A CN 111161726 A CN111161726 A CN 111161726A CN 201911345694 A CN201911345694 A CN 201911345694A CN 111161726 A CN111161726 A CN 111161726A
- Authority
- CN
- China
- Prior art keywords
- preset
- sub
- current user
- field
- text sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 50
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 230000004044 response Effects 0.000 abstract description 3
- 235000013372 meat Nutrition 0.000 description 15
- 230000002452 interceptive effect Effects 0.000 description 9
- 235000015277 pork Nutrition 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 4
- 238000010411 cooking Methods 0.000 description 3
- 235000015067 sauces Nutrition 0.000 description 3
- 235000007189 Oryza longistaminata Nutrition 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000013555 soy sauce Nutrition 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种智能语音交互方法,包括实时获取当前用户发出的当前音频信号;将获取到的当前用户音频信号转换成当前用户文本序列;将当前用户文本序列输入至预设领域分类器中进行分类,将当前用户文本序列输入至预设子领域分类器中进行分类,得到子领域类型时,根据子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;将处理结果文本信息转换成语音信号,并将语音信号播放给用户。本发明提供的一种智能语音交互方法,通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应,且交互过程高效精准。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种智能语音交互方法、设备、介质及系统。
背景技术
语音交互技术是指智能设备可以通过语音信号实现和外界的交互,是一种十分便捷的交互方式,如今已广泛应用于各个领域。近十年来,机器学习、深度学习等人工智能技术的飞速发展,语音交互系统在语音识别、语义理解、对话生成等方面性能大幅度提高,市场上也涌现出很多形态各异的语音产品。有全领域语音交互系统,可以针对用户所有的语音请求做出响应,也有针对某一个领域(也称“垂直领域”)的语音交互系统,只针对用户关于特定领域的交互做出响应。
传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准。
发明内容
为了克服现有技术的不足,本发明的目的之一在于一种智能语音交互方法,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之二在于一种电子设备,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之三在于一种计算机可读存储介质,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之四在于一种智能语音交互系统,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之一采用以下技术方案实现:
一种智能语音交互方法,包括以下步骤:
音频获取,实时获取当前用户发出的当前音频信号;
语音转换,将获取到的当前用户音频信号转换成当前用户文本序列;
领域判定,将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;
子领域判定,将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,返回执行步骤音频获取;
处理结果提取,根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;
处理结果转换,将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
进一步地,所述将所述当前用户文本序列输入至预设领域分类器中进行分类具体为:预设领域分类器将所述当前用户文本序列进行分词处理,得到含有若干关键词的关键词集合,预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型,将所述预设领域语料片段进行分词处理,得到含有若干预设领域词汇的语料集合;根据所述关键词集合和所述语料集合计算出相似系数,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。
进一步地,所述根据所述关键词集合和所述语料集合计算出相似系数具体如以下公式所示:
其中,J表示所述相似系数,U表示所述关键词集合,S表示语料集合。
进一步地,所述子领域判定具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型和所述当前用户文本序列进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型。
进一步地,所述预设领域分类器判断当前用户文本序列是否与预存子领域相关具体为:判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配,若匹配,则预存用户问句模板对应的子领域类型作为第二分类结果输出,若不匹配,则对所述当前用户文本序列进行分词、去停用词处理,得到含有第二关键词的第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成词向量序列,将所述词向量序列发送至预设神经网络模型中,预设神经网络模型输出分类结果,当所述分类结果包括若干目标子领域类型和若干目标概率,每个目标子领域类型与唯一的目标概率对应,选取数字最大的目标概率对应的目标子领域类型作为子领域类型,并将所述子领域类型作为第二分类结果输出。
本发明的目的之二采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请的一种智能语音交互方法。
本发明的目的之三采用以下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请的一种智能语音交互方法。
本发明的目的之四采用以下技术方案实现:
一种智能语音交互系统,包括:
语音转文字模块,所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列;
领域分类器,所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果;
子领域分类器,所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类,并输出第二分类结果;
处理结果提取模块,所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息;
文字转语音模块,所述文字转语音模块用于将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
进一步地,所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。
进一步地,所述语音转文字模块包括唤醒子模块,所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。
相比现有技术,本发明的有益效果在于:本申请的一种智能语音交互方法,包括实时获取当前用户发出的当前音频信号;将获取到的当前用户音频信号转换成当前用户文本序列;将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,执行步骤处理结果信息提取;根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户;通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应,且交互过程高效精准。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种智能语音交互方法的流程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示,本发明提供一种智能语音交互方法,包括以下步骤:
音频获取,实时获取当前用户发出的当前音频信号。
语音转换,将获取到的当前用户音频信号转换成当前用户文本序列。
领域判定,将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取。在本实施中,领域判定具体为:将所述当前用户文本序列输入至预设领域分类器中,预设领域分类器将所述当前用户文本序列进行分词处理,得到含有若干关键词的关键词集合,预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型,将所述预设领域语料片段进行分词处理,得到含有若干预设领域词汇的语料集合;根据所述关键词集合和所述语料集合计算出相似系数,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。以下举例说明:假如当前文本序列为“红烧肉怎么做”,此时基于N-gram分词模型进行分词,按照1-gram,2-gram,3-gram进行分词,则“红烧肉怎么做”按照按1-gram分词的结果为(红、烧、肉、怎、么、做);按2-gram分词的结果为(红烧、烧肉、肉怎、怎么、么做);按3-gram分词的结果为(红烧肉、烧肉怎、肉怎么、怎么做);将上述三个集合合并起来得到关键词集合,关键词集合为(红、烧、么、肉、红烧、肉怎、烧肉、红烧肉、肉怎么、怎、怎么、怎么做、做、么做、烧肉怎);预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型;假如预设领域语料片段为“红烧肉这道菜怎么做”,则将“红烧肉这道菜怎么做”进行分词处理,得到(肉这、烧肉这、红、菜怎、烧、么、肉、红烧、这道、道菜怎、烧肉、菜怎么、红烧肉、怎、这道菜、怎么、怎么做、道、肉这道、道菜、这、做、么做、菜),将此集合作为语料集合;根据所述关键词集合和所述语料集合计算出相似系数,具体如以下公式(1)所示:
其中,J表示所述相似系数,U表示所述关键词集合,S表示语料集合。当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。在本实施例中在根据相似系数判断是否为领域相关文本时,还会判断当前文本词序是否和预设模板匹配,若匹配,则将相似系数的值加1后再与预设相似系数阈值进行比较。
子领域判定,将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,返回执行步骤音频获取。在本实施例中,子领域判定具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配,若匹配,则预存用户问句模板对应的子领域类型作为第二分类结果输出,若不匹配,则对所述当前用户文本序列进行分词、去停用词处理,得到含有第二关键词的第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成词向量序列,将所述词向量序列发送至预设神经网络模型中,本实施例中的预设神经网络模型可以为DNN、CNN、RNN等,此处不做限制。预设神经网络模型输出分类结果,当所述分类结果包括若干目标子领域类型和若干目标概率,每个目标子领域类型与唯一的目标概率对应,选取数字最大的目标概率对应的目标子领域类型作为子领域类型,并将所述子领域类型作为第二分类结果输出。预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型和所述当前用户文本序列进行存储,若否,则将上一轮子领域类型输出。举例说明:若当前用户文本序列为“红烧肉如何做”,经过判断当前与模板数据库中的预存用户问句模板不匹配,则将“红烧肉如何做”进行分词、去停用词处理,得到“(红烧肉、如何、做)”,“(红烧肉、如何、做)”为第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成((0.15,0.25,0.78),(0.34,0.53,0.12),(0.23,0.87,0.46)),将((0.15,0.25,0.78),(0.34,0.53,0.12),(0.23,0.87,0.46))发送至预设神经网络模型中,得到((0,0.7),(1,0.15),(2,0.15)),其中0、1、2代表目标子领域,其中0代表菜谱领域,1代表厨电控制领域,2代表无关领域,0.7、0.15均表示目标概率;则根据上述目标概率判断,“(红烧肉、如何、做)”属于菜谱领域的概率较大,则将菜谱领域作为子领域类型输出。
处理结果提取,根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;
处理结果转换,将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
本实施例中还提供了一种电子设备,一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请的一种智能语音交互方法。
本实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请的一种智能语音交互方法。
本实施例中还提供了一种智能语音交互系统,包括:
语音转文字模块,所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列;
领域分类器,所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果;
子领域分类器,所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类,并输出第二分类结果;
处理结果提取模块,所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息;
文字转语音模块,所述文字转语音模块用于将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
在本实施例中,所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。所述语音转文字模块包括唤醒子模块,所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。
本发明的一种智能语音交互方法,包括实时获取当前用户发出的当前音频信号;将获取到的当前用户音频信号转换成当前用户文本序列;将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,执行步骤处理结果信息提取;根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户;通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应,且交互过程高效精准,实现了仅通过一次唤醒,多轮交互响应多个请求的,达到“单次唤醒,连续对话”的效果。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。
Claims (10)
1.一种智能语音交互方法,其特征在于,包括以下步骤:
音频获取,实时获取当前用户发出的当前音频信号;
语音转换,将获取到的当前用户音频信号转换成当前用户文本序列;
领域判定,将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;
子领域判定,将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,返回执行步骤音频获取;
处理结果提取,根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;
处理结果转换,将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
2.如权利要求1所述的一种智能语音交互方法,其特征在于:所述将所述当前用户文本序列输入至预设领域分类器中进行分类具体为:预设领域分类器将所述当前用户文本序列进行分词处理,得到含有若干关键词的关键词集合,预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型,将所述预设领域语料片段进行分词处理,得到含有若干预设领域词汇的语料集合;根据所述关键词集合和所述语料集合计算出相似系数,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。
4.如权利要求1所述的一种智能语音交互方法,其特征在于:所述子领域判定具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型和所述当前用户文本序列进行存储,若否,则将上一轮子领域类型输出。
5.如权利要求4所述的一种智能语音交互方法,其特征在于:所述预设领域分类器判断当前用户文本序列是否与预存子领域相关具体为:判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配,若匹配,则预存用户问句模板对应的子领域类型作为第二分类结果输出,若不匹配,则对所述当前用户文本序列进行分词、去停用词处理,得到含有第二关键词的第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成词向量序列,将所述词向量序列发送至预设神经网络模型中,预设神经网络模型输出分类结果,当所述分类结果包括若干目标子领域类型和若干目标概率,每个目标子领域类型与唯一的目标概率对应,选取数字最大的目标概率对应的目标子领域类型作为子领域类型,并将所述子领域类型作为第二分类结果输出。
6.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-5任意一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-5任意一项所述的方法。
8.一种智能语音交互系统,其特征在于,包括:
语音转文字模块,所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列;
领域分类器,所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果;
子领域分类器,所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类,并输出第二分类结果;
处理结果提取模块,所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息;
文字转语音模块,所述文字转语音模块用于将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
9.如权利要求8所述的一种智能语音交互系统,其特征在于:所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。
10.如权利要求8所述的一种智能语音交互系统,其特征在于:所述语音转文字模块包括唤醒子模块,所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345694.1A CN111161726B (zh) | 2019-12-24 | 2019-12-24 | 一种智能语音交互方法、设备、介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345694.1A CN111161726B (zh) | 2019-12-24 | 2019-12-24 | 一种智能语音交互方法、设备、介质及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161726A true CN111161726A (zh) | 2020-05-15 |
CN111161726B CN111161726B (zh) | 2023-11-03 |
Family
ID=70557899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911345694.1A Active CN111161726B (zh) | 2019-12-24 | 2019-12-24 | 一种智能语音交互方法、设备、介质及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161726B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199623A (zh) * | 2020-09-29 | 2021-01-08 | 上海博泰悦臻电子设备制造有限公司 | 脚本执行方法、装置、电子设备及存储介质 |
CN112231474A (zh) * | 2020-10-13 | 2021-01-15 | 中移(杭州)信息技术有限公司 | 意图识别方法、系统、电子设备及存储介质 |
CN113488036A (zh) * | 2020-06-10 | 2021-10-08 | 海信集团有限公司 | 一种多轮语音交互方法、终端及服务器 |
WO2022134794A1 (zh) * | 2020-12-22 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
WO2019148583A1 (zh) * | 2018-02-02 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 一种会议智能管理方法及系统 |
WO2019192250A1 (zh) * | 2018-04-04 | 2019-10-10 | 科大讯飞股份有限公司 | 语音唤醒方法及装置 |
-
2019
- 2019-12-24 CN CN201911345694.1A patent/CN111161726B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019148583A1 (zh) * | 2018-02-02 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 一种会议智能管理方法及系统 |
WO2019192250A1 (zh) * | 2018-04-04 | 2019-10-10 | 科大讯飞股份有限公司 | 语音唤醒方法及装置 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
关浩华;: "基于语音分析的智能质检关键词提取方法设计", 自动化与仪器仪表, no. 07, pages 112 - 114 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488036A (zh) * | 2020-06-10 | 2021-10-08 | 海信集团有限公司 | 一种多轮语音交互方法、终端及服务器 |
CN112199623A (zh) * | 2020-09-29 | 2021-01-08 | 上海博泰悦臻电子设备制造有限公司 | 脚本执行方法、装置、电子设备及存储介质 |
CN112199623B (zh) * | 2020-09-29 | 2024-02-27 | 博泰车联网科技(上海)股份有限公司 | 脚本执行方法、装置、电子设备及存储介质 |
CN112231474A (zh) * | 2020-10-13 | 2021-01-15 | 中移(杭州)信息技术有限公司 | 意图识别方法、系统、电子设备及存储介质 |
WO2022134794A1 (zh) * | 2020-12-22 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111161726B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161726A (zh) | 一种智能语音交互方法、设备、介质及系统 | |
US11734319B2 (en) | Question answering method and apparatus | |
CN106571140B (zh) | 一种基于语音语义的电器智能控制方法及系统 | |
CN111831911B (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
CN110262273A (zh) | 一种家居设备控制方法、装置、存储介质及智能家居系统 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN111883122B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111079418B (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN109829045A (zh) | 一种问答方法和装置 | |
WO2022141875A1 (zh) | 用户意图识别方法、装置、设备及计算机可读存储介质 | |
CN110597082A (zh) | 智能家居设备控制方法、装置、计算机设备及存储介质 | |
CN113887643A (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110866094B (zh) | 指令识别方法、装置、存储介质、电子装置 | |
CN110895936B (zh) | 基于家用电器的语音处理方法和装置 | |
JP2017097317A (ja) | 識別装置、ロボットおよび識別方法 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN115858747A (zh) | 结合聚类的Prompt结构意图识别方法、装置、设备及存储介质 | |
CN109587019A (zh) | 一种家电设备的语音控制方法、装置、存储介质及系统 | |
CN114927128A (zh) | 语音关键词的检测方法、装置、电子设备及可读存储介质 | |
WO2020238681A1 (zh) | 音频处理方法、装置和人机交互系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |