CN116860913A - 语音交互方法、装置、设备及存储介质 - Google Patents

语音交互方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116860913A
CN116860913A CN202310699794.4A CN202310699794A CN116860913A CN 116860913 A CN116860913 A CN 116860913A CN 202310699794 A CN202310699794 A CN 202310699794A CN 116860913 A CN116860913 A CN 116860913A
Authority
CN
China
Prior art keywords
voice
interaction
interactive object
output feedback
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310699794.4A
Other languages
English (en)
Inventor
查欣
李良斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Shengzhi Technology Co ltd
Original Assignee
Beijing Zhongke Shengzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Shengzhi Technology Co ltd filed Critical Beijing Zhongke Shengzhi Technology Co ltd
Priority to CN202310699794.4A priority Critical patent/CN116860913A/zh
Publication of CN116860913A publication Critical patent/CN116860913A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音交互方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:对于当前一轮交互,获取交互对象输入的第一语音;响应于基于第一语音无法输出反馈,按照预设时间范围,在数据库中检索交互对象历史输入的第二语音;其中,数据库用于存储语音交互过程中各个交互对象输入的语音;基于第一语音和第二语音,确定与第一语音对应的输出反馈;响应于交互对象当前的情感极性为负面极性,且该输出反馈中包括与负面极性适配的词语,则对该输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。本申请基于上下文联系和情绪判断实现了更为智能的语音交互,确保了语音交互质量。

Description

语音交互方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种语音交互方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,智能语音交互迅速普及。其中,智能语音交互是基于语音输入的新一代交互模式,在多种应用场景下赋予设备“能听、会说、懂你”式的人机交互体验,使得人们可以通过询问设备来获取答案。
在语音交互过程中,如何确保语音交互质量非常重要。这是因为,设备输出答案是否准确会严重影响人机交互体验。倘若设备足够智能化,那么高概率会输出与用户期望匹配的答案。而若设备缺乏智能性,则输出答案的准确性将大幅降低。因此,如何实现更为智能的语音交互目前是本领域的一个讨论热点。
发明内容
本申请实施例提供了一种语音交互方法、装置、设备及存储介质,能够提高语音交互质量。所述技术方案如下:
一方面,提供了一种语音交互方法,所述方法包括:
对于当前一轮交互,获取交互对象输入的第一语音;
响应于基于所述第一语音无法输出反馈,按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音;其中,所述数据库用于存储语音交互过程中各个交互对象输入的语音;
基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈;
响应于所述交互对象当前的情感极性为负面极性,且所述输出反馈中包括与所述负面极性适配的词语,则对所述输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
在一种可能的实现方式中,所述对所述输出反馈所表征的情感极性进行修正,包括:
获取所述第一语音和所述第二语音的语义理解结果;
在词典中检索与所述语义理解结果适配且情感极性为正面极性的词语;
将与所述负面极性适配的词语替换为情感极性为所述正面极性的词语,得到所述修正后的输出反馈。
在一种可能的实现方式中,所述基于修正后的输出反馈进行语音播报,包括:
基于所述第一语音和第二语音,对所述交互对象进行属性分析,得到所述交互对象的属性特征;
基于所述第一语音,对所述交互对象当前所处的场景类型进行识别,得到场景类型;
基于所述交互对象当前的情感极性、所述场景类型、所述交互对象的属性特征中的至少一项,确定播报音量和播报声音类型;
按照确定的播报音量和播报声音类型,基于所述修正后的输出反馈进行语音播报。
在一种可能的实现方式中,所述基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈,包括:
按照所述第二语音的识别文本在前、所述第一语音的识别文本在后的顺序,对所述第一语音的识别文本和所述第二语音的识别文本进行拼接;
基于自然语言理解模型和知识库,对拼接文本进行语义理解,得到语义理解结果;
生成与所述语义理解结果适配且采用自然语言形式表述的输出反馈。
在一种可能的实现方式中,所述数据库用于对应存储各个交互对象的声纹模板与语音交互过程中的输入语音;所述按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音,包括:
基于所述交互对象的声纹模板,在所述数据库中检索所述交互对象在所述预设时间范围内输入的历史语音;
响应于所述历史语音的条数为多条,将所述历史语音中输入时间距离当前最近的N条语音作为所述第二语音;或,将所述历史语音中与所述第一语音归属于同一主题的语音作为所述第二语音;其中,N为正整数;
在一种可能的实现方式中,所述方法还包括:
在输出声纹录入指令后,获取所述交互对象的预设时长语音;
对所述预设时长语音进行声纹特征提取,得到原始声纹特征;
基于所述预设时长语音,分别对所述交互对象进行属性分析、状态分析和语速分析,得到所述交互对象的属性特征、状态特征和语速特征;
对所述原始声纹特征、所述交互对象的属性特征、状态特征和语速特征进行特征融合,得到所述交互对象的声纹模板。
在一种可能的实现方式中,所述方法还包括:
基于与当前识别场景匹配的语音识别模型,对所述第一语音进行语音识别;其中,识别场景包括第一识别场景和第二识别场景,所述第一识别场景的识别距离大于第二识别场景的识别距离;
基于目标语言模型对得到的识别文本进行文本情感分析,得到所述交互对象当前的情感极性;
其中,所述目标语言模型是基于训练语料对预训练模型进行再训练得到的。
在一种可能的实现方式中,所述方法还包括:
响应于在所述数据库中未检索到所述交互对象历史输入的第二语音,将所述第一语音存储至所述数据库;
响应于所述数据库中存储的语音的数据量超过预设阈值,按照先进先出的规则进行数据删除。
另一方面,提供了一种语音交互装置,所述装置包括:
获取模块,被配置为对于当前一轮交互,获取交互对象输入的第一语音;
检索模块,被配置为响应于基于所述第一语音无法输出反馈,按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音;其中,所述数据库用于存储语音交互过程中各个交互对象输入的语音;
生成模块,被配置为基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈;
修正模块,被配置为响应于所述交互对象当前的情感极性为负面极性,且所述输出反馈中包括与所述负面极性适配的词语,则对所述输出反馈所表征的情感极性进行修正;
输出模块,被配置为基于修正后的输出反馈进行语音播报。
在一种可能的实现方式中,所述修正模块,被配置为:
获取所述第一语音和所述第二语音的语义理解结果;
在词典中检索与所述语义理解结果适配且情感极性为正面极性的词语;
将与所述负面极性适配的词语替换为情感极性为所述正面极性的词语,得到所述修正后的输出反馈。
在一种可能的实现方式中,所述输出模块,被配置为:
基于所述第一语音和第二语音,对所述交互对象进行属性分析,得到所述交互对象的属性特征;
基于所述第一语音,对所述交互对象当前所处的场景类型进行识别,得到场景类型;
基于所述交互对象当前的情感极性、所述场景类型、所述交互对象的属性特征中的至少一项,确定播报音量和播报声音类型;
按照确定的播报音量和播报声音类型,基于所述修正后的输出反馈进行语音播报。
在一种可能的实现方式中,所述生成模块,被配置为:
按照所述第二语音的识别文本在前、所述第一语音的识别文本在后的顺序,对所述第一语音的识别文本和所述第二语音的识别文本进行拼接;
基于自然语言理解模型和知识库,对拼接文本进行语义理解,得到语义理解结果;
生成与所述语义理解结果适配且采用自然语言形式表述的输出反馈。
在一种可能的实现方式中,所述数据库用于对应存储各个交互对象的声纹模板与语音交互过程中的输入语音;所述检索模块,被配置为:
基于所述交互对象的声纹模板,在所述数据库中检索所述交互对象在所述预设时间范围内输入的历史语音;
响应于所述历史语音的条数为多条,将所述历史语音中输入时间距离当前最近的N条语音作为所述第二语音;或,将所述历史语音中与所述第一语音归属于同一主题的语音作为所述第二语音;其中,N为正整数;
在一种可能的实现方式中,所述获取模块,还被配置为:
在输出声纹录入指令后,获取所述交互对象的预设时长语音;
对所述预设时长语音进行声纹特征提取,得到原始声纹特征;
基于所述预设时长语音,分别对所述交互对象进行属性分析、状态分析和语速分析,得到所述交互对象的属性特征、状态特征和语速特征;
对所述原始声纹特征、所述交互对象的属性特征、状态特征和语速特征进行特征融合,得到所述交互对象的声纹模板。
在一种可能的实现方式中,所述装置还包括:
分析模块,被配置为基于与当前识别场景匹配的语音识别模型,对所述第一语音进行语音识别;其中,识别场景包括第一识别场景和第二识别场景,所述第一识别场景的识别距离大于第二识别场景的识别距离;
基于目标语言模型对得到的识别文本进行文本情感分析,得到所述交互对象当前的情感极性;
其中,所述目标语言模型是基于训练语料对预训练模型进行再训练得到的。
在一种可能的实现方式中,所述装置还包括:
处理模块,被配置为响应于在所述数据库中未检索到所述交互对象历史输入的第二语音,将所述第一语音存储至所述数据库;响应于所述数据库中存储的语音的数据量超过预设阈值,按照先进先出的规则进行数据删除。
另一方面,提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的语音交互方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述的语音交互方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述的语音交互方法。
本申请实施例基于上下文联系和情绪判断实现了更为智能的语音交互,确保了语音交互质量。详细来说,对于当前一轮交互,在获取到交互对象本轮输入的语音后,如果基于本轮输入的语音无法输出反馈,则会按照预设时间范围,在数据库中检索交互对象历史输入的语音;其中,这个数据库用于存储语音交互过程中各个交互对象输入的语音;进而基于本轮输入的语音和历史输入的语音,来确定本轮的输出反馈。由于该方案基于上下文联系来生成输出反馈,因此还能够适用于问答是具有上下文的语音交互场景,避免了无法输出或输出答案准确性过低的问题。
另外,为了确保人机交互体验,本申请还会结合情绪识别结果来对输出反馈进行修正。即,响应于交互对象当前的情感极性为负面极性,且输出反馈中包括与负面极性适配的词语,则还会对输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
综上所述,该种语音交互方案能够高概率输出与用户期望匹配的答案,较为智能化,人机交互体验好。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音交互方法涉及的实施环境示意图;
图2是本申请实施例提供的一种语音交互方法的流程图;
图3是本申请实施例提供的一种语音交互方法的流程图;
图4是本申请实施例提供的一种语音交互装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图;
图6是本申请实施例提供的另一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一元素能够被称为第二元素,并且类似地,第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素,并且在某些情况下,可以是单独且不同的元素。
其中,至少一个是指一个或一个以上,例如,至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而多个是指两个或者两个以上,例如,多个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。
在本文中提及的“和/或”,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的初始文本以及兴趣标签等都是在充分授权的情况下获取的。
图1是本申请实施例提供的一种语音交互方法涉及的实施环境示意图。
参见图1,该实施环境包括语音交互设备101、服务器102和数据库103。
其中,语音交互设备101为具有机器学习能力的计算机设备,比如,该计算机设备可以是平板电脑、智能手机、智能家居设备等。图1仅是以语音交互设备为智能手机为例进行举例说明。
在一种可能的实现方式中,语音交互设备101上安装有目标应用,该目标应用可以是专用于语音交互的语音交互应用,也可以是具备语音交互功能的其他应用,还可以是具备语音交互功能的子应用,本申请对此不作限定。
示例性地,该语音交互方法既可以由语音交互设备101单独执行,也可以由语音交互设备101和服务器102联合执行,本申请对此同样不作限定。而数据库103用于存储语音交互过程中来自交互对象(用户)的语音。
图2是本申请实施例提供的一种语音交互方法流程图。该方法的执行主体为计算机设备,比如语音交互设备。参见图2,该方法包括:
201、对于当前一轮交互,语音交互设备获取交互对象输入的第一语音。
在本申请实施例中,该语音交互方法既可以用于近距离语音交互,比如用户与智能手机的交互场景下;也可以用于远距离语音交互,比如用户与智能家居设备的交互场景下、用户与位于机场或医院等公共场所的智能设备的交互场景下,本申请对此不作限定。
202、响应于基于第一语音无法输出反馈,语音交互设备按照预设时间范围,在数据库中检索交互对象历史输入的第二语音;其中,数据库用于存储语音交互过程中各个交互对象输入的语音。
在本申请实施例中,数据库用于进行语音数据的存储。示例性地,语音数据在数据库中以身份标识(Identity,ID)+语音内容的形式存储。其中,ID可以是语音交互设备的网络协议(Internet Protocol,IP)地址或序列号或语音交互应用的注册鉴权key,本申请对此不作限定。
示例性地,预设时间范围可以是当前一轮交互的之前5分钟或10分钟等,本申请对此不作限定,可以按需设置。
203、语音交互设备基于第一语音和第二语音,确定与第一语音对应的输出反馈。
以第一语音的识别文本为文本A、第二语音的识别文本为文本B为例,则当用户发起语音交互时,可以先判断文本A是否可以命中自然语音处理模型,如果不能命中,则表明当前基于文本A无法输出反馈。下一步则进行数据库查询,比如查询此ID之前的一段时间内由用户输入的最近一个语音的文本B。
如果文本B不存在,则将文本A存入数据库,同时输出诸如“请详细补充”之类的话术。如果文本B存在,则对文本A和文本B进行拼接,然后再次进行模型匹配,如果能够命中自然语音处理模型,则输出反馈;如果不能命中,则输出诸如“请详细补充”之类的话术。
204、响应于交互对象当前的情感极性为负面极性,且输出反馈中包括与负面极性适配的词语,语音交互设备对输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
在本申请实施例中,当用户发起语音交互时,还可以进行情绪判断,以实现基于上下文联系和情绪判断完成智能语音交互。示例性地,如果检测到交互对象当前处于消极或生气等负面情绪中,则可以进一步检测输出反馈中是否包括负面内容;如果输出反馈中包括负面内容,则可以进行结果反转,变成正能量的回答,进而再向交互对象输出应答语音。
本申请实施例基于上下文联系和情绪判断实现了更为智能的语音交互,确保了语音交互质量。详细来说,对于当前一轮交互,在获取到交互对象本轮输入的语音后,如果基于本轮输入的语音无法输出反馈,则会按照预设时间范围,在数据库中检索交互对象历史输入的语音;其中,这个数据库用于存储语音交互过程中各个交互对象输入的语音;进而基于本轮输入的语音和历史输入的语音,来确定本轮的输出反馈。由于该方案基于上下文联系来生成输出反馈,因此还能够适用于问答是具有上下文的语音交互场景,避免了无法输出或输出答案准确性过低的问题。
另外,为了确保人机交互体验,本申请还会结合情绪识别结果来对输出反馈进行修正。即,响应于交互对象当前的情感极性为负面极性,且输出反馈中包括与负面极性适配的词语,则还会对输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
综上所述,该种语音交互方案能够高概率输出与用户期望匹配的答案,较为智能化,人机交互体验好。
以上简单地介绍了本申请实施例提供的语音交互方案。下面基于图3所示的实施例对该种语音交互方案进行详细介绍。
图3是本申请实施例提供的另一种语音交互方法流程图。该方法的执行主体为计算机设备,比如语音交互设备。参见图3,该方法包括:
301、对于当前一轮交互,语音交互设备获取交互对象输入的第一语音。
其中,对一段语音进行识别,往往不能拿过来直接使用,因为语音中可能存在无效声音以及杂音等,或者存在因说话时距离设备较远而导致的语音不清晰等问题,为了克服上述问题以方便进行后续语音处理,还需要预先对语音进行加工。换言之,在获取到用户语音后,首先需要对用户语音进行预处理。
示例性地,预处理包括但不限于:降噪,对噪音信号进行抑制;语音增强,从含有噪音的语音信号中提取出纯净语音;去混响,弱化混响引起的不同步的语音相互叠加的现象,从而提升语音识别效果;回声消除,去除设备自己发出的声音,而只保留用户的人声;语音活性检测,检测出该段语音中真正的语音部分。
302、响应于基于第一语音无法输出反馈,语音交互设备按照预设时间范围,在数据库中检索交互对象历史输入的第二语音;其中,数据库用于存储语音交互过程中各个交互对象输入的语音。
在一种可能的实现方式中,上述数据库为固定大小的数据库。响应于该数据库中存储的语音的数据量超过预设阈值,按照先进先出的规则进行数据删除。
其中,语音的数据量可以是以条数为单位,比如该数据库的语音数据存储上限为10万条。或者,语音的数据量还可以是以TB(Terabyte)或PB(Petabyte)为单位,比如该数据库的语音数据存储上限为100TB,本申请对此不作限定。
在另一种可能的实现方式中,该数据库用于对应存储各个交互对象的声纹模板与语音交互过程中的输入语音;相应地,按照预设时间范围,在数据库中检索交互对象历史输入的第二语音,包括但不限于采用如下方式:
基于交互对象的声纹模板,在数据库中检索该交互对象在预设时间范围内输入的历史语音;响应于检索到的历史语音的条数为多条,将检索到的历史语音中输入时间距离当前最近的N条语音作为第二语音;或,将检索到的历史语音中与第一语音归属于同一主题的语音作为第二语音;其中,N为正整数,比如N的取值为1,本申请对此不作限定。
在另一种可能的实现方式中,可以采用如下方式生成交互对象的声纹模板:
在输出声纹录入指令后,获取交互对象的预设时长语音;对预设时长语音进行声纹特征提取,得到原始声纹特征;基于预设时长语音,分别对交互对象进行属性分析、状态分析和语速分析,得到交互对象的属性特征、状态特征和语速特征;对原始声纹特征、交互对象的属性特征、状态特征和语速特征进行特征融合,得到交互对象的声纹模板。
其中,上述属性特征包括但不限于年龄特征和性别特征等,上述状态特征包括但不限于疲劳程度特征等。另外,上述预设时长语音可以是一段5s或10s的语音,本申请对此不作限定,可以按需设置。另外,可以基于声纹模型进行声纹特征提取,本申请对此同样不作限定。而在对交互对象进行属性分析、状态分析和语速分析时,可以通过收集大量具有不同用户属性、不同用户状态、不同用户语速的训练样本,来训练诸如卷积神经网络、支持向量机(Support Vector Machine,SVM)、随机森林树(Random Forest Tree,RFT)等模型,来提取交互对象的属性特征、状态特征和语速特征。
在一种可能的实现方式中,以属性分类模型包括性别分类模型为例,下面对性别分类模型的训练过程进行举例说明,其他模型的训练过程与此同理。
获取用于训练性别分类模型的训练样本集,该训练样本集包括多个男声训练样本和女声训练样本;将该训练样本集输入卷积神经网络,获取该卷积神经网络输出的预测分类结果;确定该训练样本集的标注分类结果与预测分类结果是否一致;响应于标注分类结果与预测分类结果不一致,继续迭代更新该卷积神经网络的权重,直至标注分类结果与预测分类结果一致,得到性别分类模型。
示例性地,基于预设时长语音,对交互对象进行性别分析,得到交互对象的性别特征,包括:将预设时长语音输入性别分类模型进行特征提取,将性别分类模型的倒数第二层的输出结果作为交互对象的性别特征。
另外,对原始声纹特征、交互对象的属性特征、状态特征和语速特征进行特征融合,可以是对原始声纹特征、交互对象的属性特征、状态特征和语速特征进行特征拼接,本申请对此不作限定。
303、语音交互设备基于第一语音和第二语音,确定与第一语音对应的输出反馈。
在本申请实施例中,基于第一语音和第二语音,确定与第一语音对应的输出反馈,包括但不限于采用如下方式:
3031、基于与拾音场景匹配的语音识别模型,分别对第一语音和第二语音进行语音识别。
其中,拾音场景也称语音识别场景(简称识别场景),包括:第一识别场景(远场语音识别场景)和第二识别场景(近场语音识别场景),第一识别场景的识别距离大于第二识别场景的识别距离。示例性地,远场语音识别场景可以是会议室场景、车载场景、智能家居场景等;而近场语音识别场景主要是手持设备场景,比如智能手机场景。
3032、按照第二语音的识别文本在前、第一语音的识别文本在后的顺序,对第一语音的识别文本和第二语音的识别文本进行拼接。
以第二语音的识别文本为文本B、第一语音的识别文本为文本A为例,则拼接后得到的拼接文本为B+A。
其中,智能语音交互基于自然语言处理模型实现。示例性地,自然语言处理模型包括自然语言理解模型、对话管理模块和自然语言生成模型等,本申请对此不作限定。
3033、基于自然语言理解模型和知识库,对拼接文本进行语义理解,得到语义理解结果。
本步骤涉及自然语言理解模型。在本申请实施例中,自然语言理解模型基于词法分析、句法分析、意图提取和填槽等获得语义理解结果。而知识库的存在能够实现消歧,扩展语音交互设备的认知能力。
3034、生成与语义理解结果适配且采用自然语言形式表述的输出反馈。
本步骤涉及对话管理模块和自然语言生成模型。其中,对话管理模块用于对历史对话和上下文的语境等进行全面分析,承载设备的个性和逻辑状态,决定设备要采取的相应动作,如追问、澄清和确认等;而自然语言生成模型用于将抽象表达的反馈转换为句法合法、语义准确的自然语言形式语句。
需要说明的是,在语音交互过程中,考虑到用户存在带着情绪说反话等情况,因此本申请实施例还会对用户进行情绪判断,以输出更加符合用户当前心情的答案。
在一种可能的实现方式中,在对第一语音进行语音识别后,基于目标语言模型对识别文本进行文本情感分析,进而得到交互对象当前的情感极性。
其中,情感分析又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。示例性地,情感分析还可以进一步细分为情感极性分析、情感程度分析和主客观分析等。在本申请实施例中,情感分析特指情感极性分析。示例性地,情感极性分为正面极性、负面极性和中立极性,本申请对此不作限定。
另外,目标语言模型是基于训练语料对预训练模型进行再训练得到的。换言之,目标语言模型是基于训练语料对预训练模型进行再训练得到的。详细来说,在训练方式上,可以尝试使用预训练微调的方式来训练目标语言模型。其中,预训练模型的大部分参数已经通过预训练的方式预先训练好,得到这个预训练模型后,再基于上述训练语料,微调这个预训练模型,便得到执行情感分析任务的目标语言模型。另外,上述训练语料中包括预先收集的标记有不同情感极性标签的语音数据。而上述预训练模型可以是BERT(BidirectionalEncoder Representation from Transformers,双向Transformer的编码器)模型,本申请对此不作限定。
304、响应于交互对象当前的情感极性为负面极性,且输出反馈中包括与负面极性适配的词语,语音交互设备对输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
在一种可能的实现方式中,对输出反馈所表征的情感极性进行修正,包括但不限于采用如下方式:
获取第一语音和第二语音的语义理解结果;在词典中检索与语义理解结果适配且情感极性为正面极性的词语;将与负面极性适配的词语替换为情感极性为正面极性的词语,得到修正后的输出反馈。
在另一种可能的实现方式中,基于修正后的输出反馈进行语音播报,包括但不限于采用如下方式:
基于第一语音和第二语音,对交互对象进行属性分析,得到交互对象的属性特征;基于第一语音,对交互对象当前所处的场景类型进行识别,得到场景类型;其中,场景类型至少包括安静场景和嘈杂场景。基于交互对象当前的情感极性、场景类型、交互对象的属性特征中的至少一项,确定播报音量和播报声音类型;其中,播报声音类型至少包括男声、老人声、孩童声和萝莉声等,本申请对此不作限定。按照确定的播报音量和播报声音类型,基于修正后的输出反馈进行语音播报。
示例性地,以交互对象的属性特征包括年龄特征和性别特征为例,则基于交互对象当前的情感极性、场景类型、交互对象的属性特征中的至少一项,确定播报音量和播报声音类型,可以是:
基于交互对象当前的情感极性、场景类型、交互对象的年龄特征和性别特征,确定播报音量和播报声音类型。其中,针对上述几个影响因子,可以设置情感极性的影响权重最大,本申请对此不作限定。
305、响应于在数据库中未检索到交互对象历史输入的第二语音,语音交互设备将第一语音存储至数据库。
针对该种情况,除了将第一语音存储至数据库之外,还可输出提示语音,以提示交互对象进一步补充说明。
306、响应于基于第一语音和第二语音无法输出反馈,语音交互设备将第一语音存储至数据库。
针对该种情况,除了将第一语音存储至数据库之外,还可输出提示语音,以提示交互对象进一步补充说明。
本申请实施例基于上下文联系和情绪判断实现了更为智能的语音交互,确保了语音交互质量。详细来说,对于当前一轮交互,在获取到交互对象本轮输入的语音后,如果基于本轮输入的语音无法输出反馈,则会按照预设时间范围,在数据库中检索交互对象历史输入的语音;其中,这个数据库用于存储语音交互过程中各个交互对象输入的语音;进而基于本轮输入的语音和历史输入的语音,来确定本轮的输出反馈。由于该方案基于上下文联系来生成输出反馈,因此还能够适用于问答是具有上下文的语音交互场景,避免了无法输出或输出答案准确性过低的问题。
另外,为了确保人机交互体验,本申请还会结合情绪识别结果来对输出反馈进行修正。即,响应于交互对象当前的情感极性为负面极性,且输出反馈中包括与负面极性适配的词语,则还会对输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
综上所述,该种语音交互方案能够高概率输出与用户期望匹配的答案,较为智能化,人机交互体验好。
图4是本申请实施例提供的一种语音交互装置的结构示意图。参见图4,该装置包括:
获取模块401,被配置为对于当前一轮交互,获取交互对象输入的第一语音;
检索模块402,被配置为响应于基于所述第一语音无法输出反馈,按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音;其中,所述数据库用于存储语音交互过程中各个交互对象输入的语音;
生成模块403,被配置为基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈;
修正模块404,被配置为响应于所述交互对象当前的情感极性为负面极性,且所述输出反馈中包括与所述负面极性适配的词语,则对所述输出反馈所表征的情感极性进行修正;
输出模块405,被配置为基于修正后的输出反馈进行语音播报。
本申请实施例基于上下文联系和情绪判断实现了更为智能的语音交互,确保了语音交互质量。详细来说,对于当前一轮交互,在获取到交互对象本轮输入的语音后,如果基于本轮输入的语音无法输出反馈,则会按照预设时间范围,在数据库中检索交互对象历史输入的语音;其中,这个数据库用于存储语音交互过程中各个交互对象输入的语音;进而基于本轮输入的语音和历史输入的语音,来确定本轮的输出反馈。由于该方案基于上下文联系来生成输出反馈,因此还能够适用于问答是具有上下文的语音交互场景,避免了无法输出或输出答案准确性过低的问题。
另外,为了确保人机交互体验,本申请还会结合情绪识别结果来对输出反馈进行修正。即,响应于交互对象当前的情感极性为负面极性,且输出反馈中包括与负面极性适配的词语,则还会对输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
综上所述,该种语音交互方案能够高概率输出与用户期望匹配的答案,较为智能化,人机交互体验好。
在一种可能的实现方式中,所述修正模块,被配置为:
获取所述第一语音和所述第二语音的语义理解结果;
在词典中检索与所述语义理解结果适配且情感极性为正面极性的词语;
将与所述负面极性适配的词语替换为情感极性为所述正面极性的词语,得到所述修正后的输出反馈。
在一种可能的实现方式中,所述输出模块,被配置为:
基于所述第一语音和第二语音,对所述交互对象进行属性分析,得到所述交互对象的属性特征;
基于所述第一语音,对所述交互对象当前所处的场景类型进行识别,得到场景类型;
基于所述交互对象当前的情感极性、所述场景类型、所述交互对象的属性特征中的至少一项,确定播报音量和播报声音类型;
按照确定的播报音量和播报声音类型,基于所述修正后的输出反馈进行语音播报。
在一种可能的实现方式中,所述生成模块,被配置为:
按照所述第二语音的识别文本在前、所述第一语音的识别文本在后的顺序,对所述第一语音的识别文本和所述第二语音的识别文本进行拼接;
基于自然语言理解模型和知识库,对拼接文本进行语义理解,得到语义理解结果;
生成与所述语义理解结果适配且采用自然语言形式表述的输出反馈。
在一种可能的实现方式中,所述数据库用于对应存储各个交互对象的声纹模板与语音交互过程中的输入语音;所述检索模块,被配置为:
基于所述交互对象的声纹模板,在所述数据库中检索所述交互对象在所述预设时间范围内输入的历史语音;
响应于所述历史语音的条数为多条,将所述历史语音中输入时间距离当前最近的N条语音作为所述第二语音;或,将所述历史语音中与所述第一语音归属于同一主题的语音作为所述第二语音;其中,N为正整数;
在一种可能的实现方式中,所述获取模块,还被配置为:
在输出声纹录入指令后,获取所述交互对象的预设时长语音;
对所述预设时长语音进行声纹特征提取,得到原始声纹特征;
基于所述预设时长语音,分别对所述交互对象进行属性分析、状态分析和语速分析,得到所述交互对象的属性特征、状态特征和语速特征;
对所述原始声纹特征、所述交互对象的属性特征、状态特征和语速特征进行特征融合,得到所述交互对象的声纹模板。
在一种可能的实现方式中,该装置还包括:
分析模块,被配置为基于与当前识别场景匹配的语音识别模型,对所述第一语音进行语音识别;其中,识别场景包括第一识别场景和第二识别场景,所述第一识别场景的识别距离大于第二识别场景的识别距离;
基于目标语言模型对得到的识别文本进行文本情感分析,得到所述交互对象当前的情感极性;
其中,所述目标语言模型是基于训练语料对预训练模型进行再训练得到的。
在一种可能的实现方式中,该装置还包括:
处理模块,被配置为响应于在所述数据库中未检索到所述交互对象历史输入的第二语音,将所述第一语音存储至所述数据库;响应于所述数据库中存储的语音的数据量超过预设阈值,按照先进先出的规则进行数据删除。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的语音交互装置在进行语音交互时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本申请实施例提供的一种计算机设备的结构示意图。通常,计算机设备500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一种可能的实现方式中,处理器501可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一种可能的实现方式中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一种可能的实现方式中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器501所执行以实现本申请中方法实施例提供的声纹识别方法。
在一种可能的实现方式中,计算机设备500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。
外围设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一种可能的实现方式中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一种可能的实现方式中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一种可能的实现方式中,显示屏505可以为一个,设置在计算机设备500的前面板;在另一种可能的实现方式中,显示屏505可以为至少两个,分别设置在计算机设备500的不同表面或呈折叠设计;在另一种可能的实现方式中,显示屏505可以是柔性显示屏,设置在计算机设备500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一种可能的实现方式中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一种可能的实现方式中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一种可能的实现方式中,音频电路507还可以包括耳机插孔。
定位组件508用于定位计算机设备500的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源509用于为计算机设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一种可能的实现方式中,计算机设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以计算机设备500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测计算机设备500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对计算机设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在计算机设备500的侧边框和/或显示屏505的下层。当压力传感器513设置在计算机设备500的侧边框时,可以检测用户对计算机设备500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时,由处理器501根据用户对显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置在计算机设备500的正面、背面或侧面。当计算机设备500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制显示屏505的显示亮度。具体地,当环境光强度较高时,调高显示屏505的显示亮度;当环境光强度较低时,调低显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在计算机设备500的前面板。接近传感器516用于采集用户与计算机设备500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与计算机设备500的正面之间的距离逐渐变小时,由处理器501控制显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与计算机设备500的正面之间的距离逐渐变大时,由处理器501控制显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对计算机设备500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图6是本申请实施例提供的一种计算机设备600的结构示意图。该计算机600可以是服务器。该计算机设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条程序代码,所述至少一条程序代码由所述处理器601加载并执行以实现上述各个方法实施例提供的语音交互方法。当然,该计算机设备600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备600还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的语音交互方法。例如,所述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述语音交互方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种语音交互方法,其特征在于,所述方法包括:
对于当前一轮交互,获取交互对象输入的第一语音;
响应于基于所述第一语音无法输出反馈,按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音;其中,所述数据库用于存储语音交互过程中各个交互对象输入的语音;
基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈;
响应于所述交互对象当前的情感极性为负面极性,且所述输出反馈中包括与所述负面极性适配的词语,则对所述输出反馈所表征的情感极性进行修正,并基于修正后的输出反馈进行语音播报。
2.根据权利要求1所述的方法,其特征在于,所述对所述输出反馈所表征的情感极性进行修正,包括:
获取所述第一语音和所述第二语音的语义理解结果;
在词典中检索与所述语义理解结果适配且情感极性为正面极性的词语;
将与所述负面极性适配的词语替换为情感极性为所述正面极性的词语,得到所述修正后的输出反馈。
3.根据权利要求1所述的方法,其特征在于,所述基于修正后的输出反馈进行语音播报,包括:
基于所述第一语音和第二语音,对所述交互对象进行属性分析,得到所述交互对象的属性特征;
基于所述第一语音,对所述交互对象当前所处的场景类型进行识别,得到场景类型;
基于所述交互对象当前的情感极性、所述场景类型、所述交互对象的属性特征中的至少一项,确定播报音量和播报声音类型;
按照确定的播报音量和播报声音类型,基于所述修正后的输出反馈进行语音播报。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈,包括:
按照所述第二语音的识别文本在前、所述第一语音的识别文本在后的顺序,对所述第一语音的识别文本和所述第二语音的识别文本进行拼接;
基于自然语言理解模型和知识库,对拼接文本进行语义理解,得到语义理解结果;
生成与所述语义理解结果适配且采用自然语言形式表述的输出反馈。
5.根据权利要求1所述的方法,其特征在于,所述数据库用于对应存储各个交互对象的声纹模板与语音交互过程中的输入语音;所述按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音,包括:
基于所述交互对象的声纹模板,在所述数据库中检索所述交互对象在所述预设时间范围内输入的历史语音;
响应于所述历史语音的条数为多条,将所述历史语音中输入时间距离当前最近的N条语音作为所述第二语音;或,将所述历史语音中与所述第一语音归属于同一主题的语音作为所述第二语音;其中,N为正整数。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在输出声纹录入指令后,获取所述交互对象的预设时长语音;
对所述预设时长语音进行声纹特征提取,得到原始声纹特征;
基于所述预设时长语音,分别对所述交互对象进行属性分析、状态分析和语速分析,得到所述交互对象的属性特征、状态特征和语速特征;
对所述原始声纹特征、所述交互对象的属性特征、状态特征和语速特征进行特征融合,得到所述交互对象的声纹模板。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于与当前识别场景匹配的语音识别模型,对所述第一语音进行语音识别;其中,识别场景包括第一识别场景和第二识别场景,所述第一识别场景的识别距离大于第二识别场景的识别距离;
基于目标语言模型对得到的识别文本进行文本情感分析,得到所述交互对象当前的情感极性;
其中,所述目标语言模型是基于训练语料对预训练模型进行再训练得到的。
8.根据权利要求1至7中任一项权利要求所述的方法,其特征在于,所述方法还包括:
响应于在所述数据库中未检索到所述交互对象历史输入的第二语音,将所述第一语音存储至所述数据库;
响应于所述数据库中存储的语音的数据量超过预设阈值,按照先进先出的规则进行数据删除。
9.一种语音交互装置,其特征在于,所述装置包括:
获取模块,被配置为对于当前一轮交互,获取交互对象输入的第一语音;
检索模块,被配置为响应于基于所述第一语音无法输出反馈,按照预设时间范围,在数据库中检索所述交互对象历史输入的第二语音;其中,所述数据库用于存储语音交互过程中各个交互对象输入的语音;
生成模块,被配置为基于所述第一语音和所述第二语音,确定与所述第一语音对应的输出反馈;
修正模块,被配置为响应于所述交互对象当前的情感极性为负面极性,且所述输出反馈中包括与所述负面极性适配的词语,则对所述输出反馈所表征的情感极性进行修正;
输出模块,被配置为基于修正后的输出反馈进行语音播报。
10.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至8中任一项权利要求所述的语音交互方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至8中任一项权利要求所述的语音交互方法。
CN202310699794.4A 2023-06-13 2023-06-13 语音交互方法、装置、设备及存储介质 Pending CN116860913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310699794.4A CN116860913A (zh) 2023-06-13 2023-06-13 语音交互方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310699794.4A CN116860913A (zh) 2023-06-13 2023-06-13 语音交互方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116860913A true CN116860913A (zh) 2023-10-10

Family

ID=88234882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310699794.4A Pending CN116860913A (zh) 2023-06-13 2023-06-13 语音交互方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116860913A (zh)

Similar Documents

Publication Publication Date Title
CN110379430B (zh) 基于语音的动画显示方法、装置、计算机设备及存储介质
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN110209784B (zh) 消息交互方法、计算机设备及存储介质
CN111739517B (zh) 语音识别方法、装置、计算机设备及介质
CN110572716B (zh) 多媒体数据播放方法、装置及存储介质
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN111833872B (zh) 对电梯的语音控制方法、装置、设备、系统及介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
CN111835621A (zh) 会话消息处理方法、装置、计算机设备及可读存储介质
CN112764600B (zh) 资源处理方法、装置、存储介质及计算机设备
CN111341317B (zh) 唤醒音频数据的评价方法、装置、电子设备及介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN113409770A (zh) 发音特征处理方法、装置、服务器及介质
CN111554314A (zh) 噪声检测方法、装置、终端及存储介质
CN113742460A (zh) 生成虚拟角色的方法及装置
CN115658857A (zh) 智能对话方法、装置、设备及存储介质
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN111028846B (zh) 免唤醒词注册的方法和装置
CN112311652B (zh) 消息发送方法、装置、终端及存储介质
CN112742024A (zh) 虚拟对象的控制方法、装置、设备及存储介质
CN116860913A (zh) 语音交互方法、装置、设备及存储介质
CN113380275B (zh) 语音处理方法、装置、智能设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination