CN111161726B - 一种智能语音交互方法、设备、介质及系统 - Google Patents

一种智能语音交互方法、设备、介质及系统 Download PDF

Info

Publication number
CN111161726B
CN111161726B CN201911345694.1A CN201911345694A CN111161726B CN 111161726 B CN111161726 B CN 111161726B CN 201911345694 A CN201911345694 A CN 201911345694A CN 111161726 B CN111161726 B CN 111161726B
Authority
CN
China
Prior art keywords
sub
preset
domain
current user
text sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911345694.1A
Other languages
English (en)
Other versions
CN111161726A (zh
Inventor
石忠民
林桂石
钟力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201911345694.1A priority Critical patent/CN111161726B/zh
Publication of CN111161726A publication Critical patent/CN111161726A/zh
Application granted granted Critical
Publication of CN111161726B publication Critical patent/CN111161726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种智能语音交互方法,包括实时获取当前用户发出的当前音频信号;将获取到的当前用户音频信号转换成当前用户文本序列;将当前用户文本序列输入至预设领域分类器中进行分类,将当前用户文本序列输入至预设子领域分类器中进行分类,得到子领域类型时,根据子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;将处理结果文本信息转换成语音信号,并将语音信号播放给用户。本发明提供的一种智能语音交互方法,通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应,且交互过程高效精准。

Description

一种智能语音交互方法、设备、介质及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种智能语音交互方法、设备、介质及系统。
背景技术
语音交互技术是指智能设备可以通过语音信号实现和外界的交互,是一种十分便捷的交互方式,如今已广泛应用于各个领域。近十年来,机器学习、深度学习等人工智能技术的飞速发展,语音交互系统在语音识别、语义理解、对话生成等方面性能大幅度提高,市场上也涌现出很多形态各异的语音产品。有全领域语音交互系统,可以针对用户所有的语音请求做出响应,也有针对某一个领域(也称“垂直领域”)的语音交互系统,只针对用户关于特定领域的交互做出响应。
传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准。
发明内容
为了克服现有技术的不足,本发明的目的之一在于一种智能语音交互方法,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之二在于一种电子设备,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之三在于一种计算机可读存储介质,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之四在于一种智能语音交互系统,其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应,且交互过程反馈滞后以及交互结果不精准的问题。
本发明的目的之一采用以下技术方案实现:
一种智能语音交互方法,包括以下步骤:
音频获取,实时获取当前用户发出的当前音频信号;
语音转换,将获取到的当前用户音频信号转换成当前用户文本序列;
领域判定,将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;
子领域判定,将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,返回执行步骤音频获取;
处理结果提取,根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;
处理结果转换,将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
进一步地,所述将所述当前用户文本序列输入至预设领域分类器中进行分类具体为:预设领域分类器将所述当前用户文本序列进行分词处理,得到含有若干关键词的关键词集合,预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型,将所述预设领域语料片段进行分词处理,得到含有若干预设领域词汇的语料集合;根据所述关键词集合和所述语料集合计算出相似系数,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。
进一步地,所述根据所述关键词集合和所述语料集合计算出相似系数具体如以下公式所示:
其中,J表示所述相似系数,U表示所述关键词集合,S表示语料集合。
进一步地,所述子领域判定具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型和所述当前用户文本序列进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型。
进一步地,所述预设领域分类器判断当前用户文本序列是否与预存子领域相关具体为:判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配,若匹配,则预存用户问句模板对应的子领域类型作为第二分类结果输出,若不匹配,则对所述当前用户文本序列进行分词、去停用词处理,得到含有第二关键词的第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成词向量序列,将所述词向量序列发送至预设神经网络模型中,预设神经网络模型输出分类结果,当所述分类结果包括若干目标子领域类型和若干目标概率,每个目标子领域类型与唯一的目标概率对应,选取数字最大的目标概率对应的目标子领域类型作为子领域类型,并将所述子领域类型作为第二分类结果输出。
本发明的目的之二采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请的一种智能语音交互方法。
本发明的目的之三采用以下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请的一种智能语音交互方法。
本发明的目的之四采用以下技术方案实现:
一种智能语音交互系统,包括:
语音转文字模块,所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列;
领域分类器,所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果;
子领域分类器,所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类,并输出第二分类结果;
处理结果提取模块,所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息;
文字转语音模块,所述文字转语音模块用于将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
进一步地,所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。
进一步地,所述语音转文字模块包括唤醒子模块,所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。
相比现有技术,本发明的有益效果在于:本申请的一种智能语音交互方法,包括实时获取当前用户发出的当前音频信号;将获取到的当前用户音频信号转换成当前用户文本序列;将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,执行步骤处理结果信息提取;根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户;通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应,且交互过程高效精准。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种智能语音交互方法的流程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示,本发明提供一种智能语音交互方法,包括以下步骤:
音频获取,实时获取当前用户发出的当前音频信号。
语音转换,将获取到的当前用户音频信号转换成当前用户文本序列。
领域判定,将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取。在本实施中,领域判定具体为:将所述当前用户文本序列输入至预设领域分类器中,预设领域分类器将所述当前用户文本序列进行分词处理,得到含有若干关键词的关键词集合,预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型,将所述预设领域语料片段进行分词处理,得到含有若干预设领域词汇的语料集合;根据所述关键词集合和所述语料集合计算出相似系数,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。以下举例说明:假如当前文本序列为“红烧肉怎么做”,此时基于N-gram分词模型进行分词,按照1-gram,2-gram,3-gram进行分词,则“红烧肉怎么做”按照按1-gram分词的结果为(红、烧、肉、怎、么、做);按2-gram分词的结果为(红烧、烧肉、肉怎、怎么、么做);按3-gram分词的结果为(红烧肉、烧肉怎、肉怎么、怎么做);将上述三个集合合并起来得到关键词集合,关键词集合为(红、烧、么、肉、红烧、肉怎、烧肉、红烧肉、肉怎么、怎、怎么、怎么做、做、么做、烧肉怎);预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型;假如预设领域语料片段为“红烧肉这道菜怎么做”,则将“红烧肉这道菜怎么做”进行分词处理,得到(肉这、烧肉这、红、菜怎、烧、么、肉、红烧、这道、道菜怎、烧肉、菜怎么、红烧肉、怎、这道菜、怎么、怎么做、道、肉这道、道菜、这、做、么做、菜),将此集合作为语料集合;根据所述关键词集合和所述语料集合计算出相似系数,具体如以下公式(1)所示:
其中,J表示所述相似系数,U表示所述关键词集合,S表示语料集合。当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。在本实施例中在根据相似系数判断是否为领域相关文本时,还会判断当前文本词序是否和预设模板匹配,若匹配,则将相似系数的值加1后再与预设相似系数阈值进行比较。
子领域判定,将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,返回执行步骤音频获取。在本实施例中,子领域判定具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配,若匹配,则预存用户问句模板对应的子领域类型作为第二分类结果输出,若不匹配,则对所述当前用户文本序列进行分词、去停用词处理,得到含有第二关键词的第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成词向量序列,将所述词向量序列发送至预设神经网络模型中,本实施例中的预设神经网络模型可以为DNN、CNN、RNN等,此处不做限制。预设神经网络模型输出分类结果,当所述分类结果包括若干目标子领域类型和若干目标概率,每个目标子领域类型与唯一的目标概率对应,选取数字最大的目标概率对应的目标子领域类型作为子领域类型,并将所述子领域类型作为第二分类结果输出。预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型和所述当前用户文本序列进行存储,若否,则将上一轮子领域类型输出。举例说明:若当前用户文本序列为“红烧肉如何做”,经过判断当前与模板数据库中的预存用户问句模板不匹配,则将“红烧肉如何做”进行分词、去停用词处理,得到“(红烧肉、如何、做)”,“(红烧肉、如何、做)”为第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成((0.15,0.25,0.78),(0.34,0.53,0.12),(0.23,0.87,0.46)),将((0.15,0.25,0.78),(0.34,0.53,0.12),(0.23,0.87,0.46))发送至预设神经网络模型中,得到((0,0.7),(1,0.15),(2,0.15)),其中0、1、2代表目标子领域,其中0代表菜谱领域,1代表厨电控制领域,2代表无关领域,0.7、0.15均表示目标概率;则根据上述目标概率判断,“(红烧肉、如何、做)”属于菜谱领域的概率较大,则将菜谱领域作为子领域类型输出。
处理结果提取,根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;
处理结果转换,将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
本实施例中还提供了一种电子设备,一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请的一种智能语音交互方法。
本实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请的一种智能语音交互方法。
本实施例中还提供了一种智能语音交互系统,包括:
语音转文字模块,所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列;
领域分类器,所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果;
子领域分类器,所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类,并输出第二分类结果;
处理结果提取模块,所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息;
文字转语音模块,所述文字转语音模块用于将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
在本实施例中,所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。所述语音转文字模块包括唤醒子模块,所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。
本发明的一种智能语音交互方法,包括实时获取当前用户发出的当前音频信号;将获取到的当前用户音频信号转换成当前用户文本序列;将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,执行步骤处理结果信息提取;根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户;通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应,且交互过程高效精准,实现了仅通过一次唤醒,多轮交互响应多个请求的,达到“单次唤醒,连续对话”的效果。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (10)

1.一种智能语音交互方法,其特征在于,包括以下步骤:
音频获取,实时获取当前用户发出的当前音频信号;
语音转换,将获取到的当前用户音频信号转换成当前用户文本序列;
领域判定,将所述当前用户文本序列输入至预设领域分类器中进行分类,预设分类器输出第一分类结果,若所述第一分类结果为领域相关文本,则执行步骤子领域判定,若所述分类结果为领域无关文本,则返回执行步骤音频获取;
子领域判定,将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;预设子领域分类器输出第二分类结果,若所述第二分类结果为子领域类型时,执行步骤处理结果信息提取,若所述第二分类结果为空时,返回执行步骤音频获取;
处理结果提取,根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息;
处理结果转换,将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
2.如权利要求1所述的一种智能语音交互方法,其特征在于:所述将所述当前用户文本序列输入至预设领域分类器中进行分类具体为:预设领域分类器将所述当前用户文本序列进行分词处理,得到含有若干关键词的关键词集合,预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型,将所述预设领域语料片段进行分词处理,得到含有若干预设领域词汇的语料集合;根据所述关键词集合和所述语料集合计算出相似系数,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型相关,则输出第一分类结果,所述第一分类结果为领域相关文本,当所述相似系数大于预设相似系数阈值时,则所述当前用户文本序列与预设领域类型无关,则输出第一分类结果,此时所述第一分类结果为领域无关文本,且返回执行步骤音频获取。
3.如权利要求2所述的一种智能语音交互方法,其特征在于:所述根据所述关键词集合和所述语料集合计算出相似系数具体如以下公式所示:
其中,J表示所述相似系数,U表示所述关键词集合,S表示语料集合。
4.如权利要求1所述的一种智能语音交互方法,其特征在于:所述子领域判定具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型和所述当前用户文本序列进行存储,若否,则将上一轮子领域类型输出。
5.如权利要求4所述的一种智能语音交互方法,其特征在于:所述预设领域分类器判断当前用户文本序列是否与预存子领域相关具体为:判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配,若匹配,则预存用户问句模板对应的子领域类型作为第二分类结果输出,若不匹配,则对所述当前用户文本序列进行分词、去停用词处理,得到含有第二关键词的第二关键词集合,通过预设词向量模型将所述第二关键词集合转换成词向量序列,将所述词向量序列发送至预设神经网络模型中,预设神经网络模型输出分类结果,当所述分类结果包括若干目标子领域类型和若干目标概率,每个目标子领域类型与唯一的目标概率对应,选取数字最大的目标概率对应的目标子领域类型作为子领域类型,并将所述子领域类型作为第二分类结果输出。
6.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-5任意一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-5任意一项所述的方法。
8.一种智能语音交互系统,其特征在于,包括:
语音转文字模块,所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列;
领域分类器,所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果;
子领域分类器,所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类,并输出第二分类结果;
处理结果提取模块,所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息;
文字转语音模块,所述文字转语音模块用于将所述处理结果文本信息转换成语音信号,并将语音信号播放给用户。
9.如权利要求8所述的一种智能语音交互系统,其特征在于:所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为:将所述当前用户文本序列输入至预设子领域分类器中进行分类,预设领域分类器判断当前用户文本序列是否与预存子领域相关,若是,则输出对应的子领域类型,将所述子领域类型进行存储,若否,则将上一轮子领域类型输出,所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型;还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。
10.如权利要求8所述的一种智能语音交互系统,其特征在于:所述语音转文字模块包括唤醒子模块,所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。
CN201911345694.1A 2019-12-24 2019-12-24 一种智能语音交互方法、设备、介质及系统 Active CN111161726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345694.1A CN111161726B (zh) 2019-12-24 2019-12-24 一种智能语音交互方法、设备、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911345694.1A CN111161726B (zh) 2019-12-24 2019-12-24 一种智能语音交互方法、设备、介质及系统

Publications (2)

Publication Number Publication Date
CN111161726A CN111161726A (zh) 2020-05-15
CN111161726B true CN111161726B (zh) 2023-11-03

Family

ID=70557899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911345694.1A Active CN111161726B (zh) 2019-12-24 2019-12-24 一种智能语音交互方法、设备、介质及系统

Country Status (1)

Country Link
CN (1) CN111161726B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488036A (zh) * 2020-06-10 2021-10-08 海信集团有限公司 一种多轮语音交互方法、终端及服务器
CN112199623B (zh) * 2020-09-29 2024-02-27 博泰车联网科技(上海)股份有限公司 脚本执行方法、装置、电子设备及存储介质
CN112231474A (zh) * 2020-10-13 2021-01-15 中移(杭州)信息技术有限公司 意图识别方法、系统、电子设备及存储介质
CN112650923A (zh) * 2020-12-22 2021-04-13 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和系统
CN109461446A (zh) * 2018-12-24 2019-03-12 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、系统及存储介质
WO2019148583A1 (zh) * 2018-02-02 2019-08-08 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
WO2019192250A1 (zh) * 2018-04-04 2019-10-10 科大讯飞股份有限公司 语音唤醒方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019148583A1 (zh) * 2018-02-02 2019-08-08 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
WO2019192250A1 (zh) * 2018-04-04 2019-10-10 科大讯飞股份有限公司 语音唤醒方法及装置
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和系统
CN109461446A (zh) * 2018-12-24 2019-03-12 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语音分析的智能质检关键词提取方法设计;关浩华;;自动化与仪器仪表(第07期);112-114 *

Also Published As

Publication number Publication date
CN111161726A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111161726B (zh) 一种智能语音交互方法、设备、介质及系统
CN106571140B (zh) 一种基于语音语义的电器智能控制方法及系统
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
WO2020143844A1 (zh) 意图分析方法、装置、显示终端及计算机可读存储介质
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN110853626B (zh) 基于双向注意力神经网络的对话理解方法、装置及设备
US10108707B1 (en) Data ingestion pipeline
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
US10504512B1 (en) Natural language speech processing application selection
CN108538294B (zh) 一种语音交互方法及装置
CN114038457B (zh) 用于语音唤醒的方法、电子设备、存储介质和程序
US20230074681A1 (en) Complex natural language processing
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110597082A (zh) 智能家居设备控制方法、装置、计算机设备及存储介质
CN113593565B (zh) 一种智能家庭设备管控方法和系统
CN116303966A (zh) 基于提示学习的对话行为识别系统
CN111210824B (zh) 语音信息处理方法、装置、电子设备及存储介质
US10878047B1 (en) Content generation framework
CN111292731A (zh) 语音信息处理方法、装置、电子设备及存储介质
CN114333768A (zh) 语音检测方法、装置、设备和存储介质
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN114547266B (zh) 信息生成模型的训练方法、生成信息的方法、装置和设备
CN112802460B (zh) 一种基于语音处理的空间环境预报系统
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant