CN116798416A - 语音交互增强方法、装置、设备及存储介质 - Google Patents
语音交互增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116798416A CN116798416A CN202310767326.6A CN202310767326A CN116798416A CN 116798416 A CN116798416 A CN 116798416A CN 202310767326 A CN202310767326 A CN 202310767326A CN 116798416 A CN116798416 A CN 116798416A
- Authority
- CN
- China
- Prior art keywords
- voice
- semantic
- information
- semantic information
- round
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 230000009471 action Effects 0.000 claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 206010063385 Intellectualisation Diseases 0.000 abstract description 4
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种语音交互增强方法、装置、设备及存储介质,通过获取多路语音信号,对多路语音信号进行音源定位,得到每路语音信号的音区位置信息,以提取语音信号的空间维度,促进语义消歧;对语音信号进行语义解析,得到语音信号的当前语义信息,以能够针对多路语音信号进行识别和解析,满足更多语音交互场景的智能语音识别需求;最后基于音区位置信息,对当前语义信息进行多轮语义融合,得到目标语义信息,目标语义信息用于执行对应的交互动作,以能够利用多轮语音对话进行语义分析,提高语音交互的便捷性和智能化,从而提高用户语音交互体验。
Description
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音交互增强方法、装置、设备及存储介质。
背景技术
车载语音交互系统是具有空间特性的语音交互系统,其主要针对汽车座舱内的驾乘人员的语音交互内容进行识别分析。然而,常见的车载语音交互系统没有针对座舱内不同位置的人员进行区分,从而无法对说话人进行区分和标定,以及无法精确地对交互系统的权限进行管理,同时也无法进行上下文的多信息结合,进而精确地确定语音交互过程中说话人的意图以及话语中的核心信息,无法满足人们对机器人类人化交互的期望和需求。
目前,在部分车载语音交互系统中引入多音区识别,主要用于对音区权限进行管理,如利用音区的标定可以设置主驾模式,该模式生效时只能对主驾音区的音频进行处理和响应,而对其他音区的音频输入不做响应,导致语音交互的形式过于刻板,无法满足用户灵活应用的需求。
发明内容
本申请为解决上述技术问题,提供一种语音交互增强方法、装置、设备及存储介质,实现提高语音交互的便捷性和智能化,从而提高用户语音交互体验。
第一方面,本申请提供一种语音交互增强方法,包括:
获取多路语音信号;
对多路语音信号进行音源定位,得到语音信号的音区位置信息;
对语音信号进行语义解析,得到语音信号的当前语义信息;
基于音区位置信息,对当前语义信息进行多轮语义融合,得到目标语义信息,目标语义信息用于执行对应的交互动作。
在第一方面的一些实现方式中,对多路语音信号进行音源定位,得到语音信号的音区位置信息,包括:
利用预设音源定位算法,对语音信号进行音源定位,得到语音信号的音源位置信息;
对音源位置信息进行音区映射,得到语音信号的音区位置信息。
在第一方面的一些实现方式中,对多路语音信号进行语义解析,得到语音信号的当前语义信息,包括:
利用预设语音识别算法,对语音信号进行语音识别,得到语音信号的文本信息;
基于预设语义解析维度,对文本信息进行语义解析,得到语音信号的当前语义信息。
在第一方面的一些实现方式中,基于音区位置信息,对当前语义信息进行多轮语义融合,得到目标语义信息,包括:
基于音区位置信息,对当前语义信息进行语义融合,得到本轮上下文语义信息;
对本轮上下文语义信息与历史上下文语义信息进行多轮语义融合,得到目标语义信息。
在第一方面的一些实现方式中,基于音区位置信息,对当前语义信息进行语义融合,得到本轮上下文语义信息,包括:
对语音信号的音区位置信息与当前语义信息进行融合,得到每路语音信号的本轮语义信息;
对多路语音信号的本轮语义信息进行语义融合,得到本轮上下文语义信息。
在第一方面的一些实现方式中,对本轮上下文语义信息与历史上下文语义信息进行多轮语义融合,得到目标语义信息,包括:
基于本轮上下文语义信息,对历史上下文语义信息进行继承,得到多轮上下文语义信息;
基于音区位置信息,对多轮上下文语义信息进行修正,得到目标语义信息。
在第一方面的一些实现方式中,获取多路语音信号,包括:
利用麦克风阵列,采集多通道音频信号;
对多通道音频信号进行预处理,得到多路语音信号。
第二方面,本申请还提供一种语音交互增强装置,包括:
获取模块,用于获取多路语音信号;
定位模块,用于对多路语音信号进行音源定位,得到语音信号的音区位置信息;
解析模块,用于对语音信号进行语义解析,得到语音信号的当前语义信息;
融合模块,用于基于音区位置信息,对多当前语义信息进行多轮语义融合,得到目标语义信息,目标语义信息用于执行对应的交互动作。
第三方面,本申请还提供一种计算机设备,包括处理器和存储器,存储器用于存储计算机程序,计算机程序被处理器执行时实现如第一方面的语音交互增强方法。
第四方面,本申请还提供一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时实现如第一方面的语音交互增强方法。
与现有技术相比,本申请至少存在以下有益效果:
通过获取多路语音信号,对多路语音信号进行音源定位,得到每路语音信号的音区位置信息,以提取语音信号的空间维度,促进语义消歧;对语音信号进行语义解析,得到语音信号的当前语义信息,以能够针对多路语音信号进行识别和解析,满足更多语音交互场景的智能语音识别需求;最后基于音区位置信息,对当前语义信息进行多轮语义融合,得到目标语义信息,目标语义信息用于执行对应的交互动作,以能够利用多轮语音对话进行语义分析,提高语音交互的便捷性和智能化,从而提高用户语音交互体验。
附图说明
图1为本申请示出的语音交互增强方法的流程示意图;
图2为本申请示出的语音交互场景示意图;
图3为本申请示出的语音交互增强装置的结构示意图;
图4为本申请示出的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请实施例提供的一种语音交互增强方法的流程示意图。本申请实施例的语音交互增强方法可应用于计算机设备,该计算机设备包括但不限于车载终端、智能手机、笔记本电脑、平板电脑、桌上型计算机、物理服务器和云服务器等设备。如图1所示,本实施例的语音交互增强方法包括步骤S101至步骤S104,详述如下:
步骤S101,获取多路语音信号。
在本步骤中,可选地,利用麦克风阵列,采集多通道音频信号;对所述多通道音频信号进行预处理,得到多路所述语音信号。
在本实施例中,计算机设备与麦克风阵列通信连接,该麦克风阵列可以应用在车载语音交互场景,也可以应用在其他语音交互场景。示例性地,对于车载语音交互场景,为了获取汽车座舱内的音区信息,能将声源定位为对应音区发出的声源,在汽车座舱内布局多个麦克风,比如支持四音区识别的语音交互系统在座舱内至少部署四个麦克风,具体可以根据车型选择分布式或集中式布局。通过麦克风阵列拾取音频信号,并对音频信号进行采集和预处理,预处理包括信号转换和信号增强,信号转换例如为采用16KHZ的采样频率对音频信号进行采集和AD转换,采用16BIT的深度进行音频数据的存储和传输等;信号增强为对采集到的原始音频信号进行降噪、增强等处理,也对音频信号进行分离处理,以将更加有效的音频信号传递给下游进行进一步的处理,保证输出的音频质量。
步骤S102,对多路所述语音信号进行音源定位,得到所述语音信号的音区位置信息。
在本步骤中,预先标定语音交互场景的音区,通过音源定位(声源定位)确定语音信号对应的音区,以提取语音信号的空间信息,从而促进语义消歧。
在一些实施例中,所述步骤S102,包括:
利用预设音源定位算法,对所述语音信号进行音源定位,得到所述语音信号的音源位置信息;
对所述音源位置信息进行音区映射,得到所述语音信号的音区位置信息。
在本实施例中,通过音源定位算法,对输入的多通道或多路语音信号进行定位,音源定位算法可以为Beam Forming算法和DOA算法。示例性地,对汽车座舱进行音区标定,如将座舱标定成2、4、5或6个音区等,通过对本轮获取到的语音信号进行音源定位,得到音源位置信息(如角度信息和相位信息等),并对音源位置信息进行规整化处理,以及将其映射到对应的数值化音区标号,即得到音区位置信息。
步骤S103,对所述语音信号进行语义解析,得到所述语音信号的当前语义信息。
在本步骤中,针对语音信号进行语义解析,得到语音信号的基本语义信息,以用于后续语义融合。
在一些实施例中,所述步骤S103,包括:
利用预设语音识别算法,对所述语音信号进行语音识别,得到所述语音信号的文本信息;基于预设语义解析维度,对所述文本信息进行语义解析,得到所述语音信号的当前语义信息。
在本实施例中,对采集到的语音信号进行识别,得到对应的文本信息,即ASR(Automatic Speech Recognition)过程。预设语义解析维度包括但不限于时间、地点、对象和功能类型等。本实施例的语义解析对象主要是ASR过程的输出,即为本轮采集到的用户语音对应的内容。在任务型对话交互系统中,通过语义解析得到用户输入的语音信号对应功能的垂直领域,例如车控操作功能(“打开车窗”)、天气查询功能(“今天的天气怎么样”)和闲聊功能等;以及还得到对应功能下的意图信息,例如音乐播放功能的播放某位歌手的歌;也可能会提取到对应的关键信息,例如“订一张从北京到上海本周四下午的机票”当中的出发地、目的地和时间等信息。
步骤S104,基于所述音区位置信息,对所述当前语义信息进行多轮语义融合,得到目标语义信息,所述目标语义信息用于执行对应的交互动作。
在本步骤中,多轮语义融合包括将本轮采集到的多路语音信号进行语义融合,以及将本轮采集到的语音信号与多轮历史语音信号进行语义融合。其中音区位置信息用于完善语义信息的语音对象,以促进语义消歧。
可选地,根据目标语义信息,执行该目标语义信息对应的交互动作,例如车控执行、导航执行、环境信息查询、生活服务查询和娱乐交互执行等。应理解,实际使用场景会有更多的交互动作,本发明的目标语义信息的作用是明确语音信号的用户意图,执行用户意图对应的交互动作。
在一些实施例中,所述步骤S104,包括:
基于所述音区位置信息,对所述当前语义信息进行语义融合,得到本轮上下文语义信息;
对所述本轮上下文语义信息与历史上下文语义信息进行多轮语义融合,得到所述目标语义信息。
在本实施例中, 可选地,对于当前语义信息的语义融合,包括:对所述语音信号的音区位置信息与当前语义信息进行融合,得到所述语音信号的本轮语义信息;对多路所述语音信号的本轮语义信息进行语义融合,得到所述本轮上下文语义信息。
示例性地,例如主驾驶说“帮我打开车窗到四分之一”,然后副驾驶说“我要二分之一”,即后者本身的语义信息不全,只根据这个语义信息并不能明确用户意图,所以需要结合前者的语义信息,以及结合说话人所处的音区位置信息进行语义融合解析,从而得到本轮上下文语义信息,即副驾驶的意图与主驾驶一样,均是打开车窗,只是副驾驶的具体意图是将侧窗调节到二分之一的高度,主驾驶的具体意图是将侧窗调节到四分之一的高度。
可选地,对于多轮上下文语义融合,包括:基于本轮上下文语义信息,对所述历史上下文语义信息进行继承,得到多轮上下文语义信息;基于所述音区位置信息,对所述多轮上下文语义信息进行修正,得到所述目标语义信息。
示例性地,由于上轮的信息共享等因素,本轮上下文语义对应的垂直功能正确,但是信息不全,如上轮语音信号为“帮我买张明天去北京的机票”,本轮语音信号为“那里的天气怎么样?”,即本轮上下文语义信息的垂直功能是天气查询功能,但是本轮信息不全,所以结合上轮上下文语义信息对“那里的天气怎么样”进行信息补全,得到“北京明天的天气怎么样”。
可选地,本实施例将对话交互过程中的历史信息进行记录和存储,具体可以基于堆栈的方式将多轮对话进行存储,以逐渐会形成一种基于上下文的信息共享或指代等。
作为示例而非限定, 在一个车载语音交互场景下:
主驾驶用户:“请帮我把车窗打开四分之一”;
车载控制单元:主驾驶旁边的车窗被降下四分之一;
副驾驶用户:“我也要”。
为更清楚地说明本申请,如图2所示,结合本申请对意思车载语音交互场景进行说明:
步骤1,当主驾驶用户发出语音信号“请帮我把车窗打开四分之一”,座舱内部署的多麦克风阵列对用户的语音信号进行拾音,并对采集到的多路音频信号进行降噪等一系列增强的处理,得到多路语音信号。
步骤2,将麦克风采集到的多路语音信号进行声源定位和音区标定,声源定位的算法包括不局限于某种特定的声源定位算法,如利用beam forming进行定向增强后的DOA算法等,由对应的角度等音源位置信息可以映射到座舱内的双音区、四音区或更多的音区,例如主驾驶用户说出语音指令后,通过声源定位获得到说话人所处的音区位置为01号主驾音区。
步骤3,将步骤2得到语音信号的音区位置信息写入到多轮对话管理中的对话信息管理数据库中进行存储。
步骤4, 将采集到的语音信号进行语音识别,得到对应的文本信息“请帮我把车窗打开四分之一”。
步骤5,对步骤4得文本信息进行语义解析,得到语义所属功能、意图以及关键信息,其json伪代码如下所示:
{"score":1,"domain":"car_control","state_code": 5000,"intent":"open_window","content": {"size": "1/4"}}
步骤6,由于步骤5的语义信息并不完整,其虽然解析出对应的domain、intent和size,但是并没有解析出打开哪个窗户,所以在本轮语义融合中,将该轮语音信号对应的音区位置信息作为补偿信息,利用01音区信息对步骤5的语义信息进行修正,以得到完整的语义信息(即本轮上下文语义信息),其修正伪代码如下所示:
{"score":1,"domain":"car_control","state_code":5000,"intent":"open_window","content":{"size":"1/4","direction":"01"}}
步骤7,将步骤6的本轮上下文语义信息存储至多轮对话的对话信息管理数据库。
步骤8,基于步骤6的本轮语义上下文信息,调用系统的车窗控制接口,执行车窗调整动作,将主驾驶侧的01位置车窗下降1/2。
步骤9,如步骤1至7的上述流程相似,当副驾驶用户说出“我也要”,采集该语音信号,并对该语音信号进行定位,得到该语音信号所在的音区位置信息02;以及对副驾驶用户的语音信号进行语音识别,得到文本信息“我也要”,并对该文本进行语义解析,得到本轮上下文语义信息。
步骤10,将本轮上下文语义信息与对话信息管理数据中的上下文语义信息进行融合,融合内容主要包括多音区的音区信息和上轮对话中的语义信息。通过对上轮语义信息的继承,以及利用音区位置信息可以对本轮上下文语义信息进行修正,得到目标语义信息,其伪代码如下所示:
{"score":1,"domain":"car_control","state_code":5000,"intent":"open_window","content":{"size":"1/4",“direction”:”02”}}
步骤11,基于步骤10的本轮语义上下文信息,调用系统的车窗控制接口,执行车窗调整动作,将副驾驶侧的02位置车窗降下1/4。
步骤12,若没有后续交互,则语音交互流程结束,将对话信息管理数据库中所存储的信息进行清理,时期回到最初的Ready状态。若后续又接着新起一轮或者多轮的交互,则此过程如前述流程进行循环。
需要说明的是,本申请利用车载座舱的空间特性,通过语音的声学前端信号处理技术,获取座舱内不同音区的音源标定,再结合语音识别技术,获取本次语音识别的文本结果,然后结合对话系统中的上下文信息,综合对本轮的语义信息进行解析和提取,从而获得精确的语义理解结果,根据这一明确的结果,进而可以执行与用户意图一致的交互动作。具体地,本申请可以利用汽车座舱内布局的麦克风阵列进行多路信号的采集,将采集到的多路信号,通过语音增强模块(SSE)对信号进行处理,处理后的信号通过声源定位模块确定此次采集到的声音信号的空间信息,即确定音源对应的音区信息,将音频信息通过语音识别模块进行语音识别,得到语音对应的文本信息,文本信息通过自然语言理解(NLU)模块进行语义的解析和提取,在自然语言理解模块,会有对话管理模(DM)块对多轮对话的信息进行管理,在这里,对话管理模块会结合本次交互中用户的所说音频对应的文本信息、用户所处的音区信息、用户对话的上下文信息包括之前对话的内容、语义以及音区信息等进行同步,从而进行用户模糊语义的消除,获取用户精确的语义信息,进而执行明确的动作。本申请借助声源定位对音源的音区的标定,从而增加汽车座舱空间的这一维度信息特征,促进语义的消歧和模糊消除,从而大大提升语音交互系统的便捷性、智能化等用户体验。
为了执行上述方法实施例对应的语音交互增强方法,以实现相应的功能和技术效果。参见图3,图3示出了本申请实施例提供的一种语音交互增强装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分,本申请实施例提供的语音交互增强装置,包括:
获取模块301,用于获取多路语音信号;
定位模块302,用于对多路所述语音信号进行音源定位,得到所述语音信号的音区位置信息;
解析模块303,用于对所述语音信号进行语义解析,得到所述语音信号的当前语义信息;
融合模块304,用于基于所述音区位置信息,对所述当前语义信息进行多轮语义融合,得到目标语义信息,所述目标语义信息用于执行对应的交互动作。
在一些实施例中,所述定位模块302,具体用于:
利用预设音源定位算法,对所述语音信号进行音源定位,得到所述语音信号的音源位置信息;
对所述音源位置信息进行音区映射,得到所述语音信号的音区位置信息。
在一些实施例中,所述解析模块303,具体用于:
利用预设语音识别算法,对所述语音信号进行语音识别,得到所述语音信号的文本信息;
基于预设语义解析维度,对所述文本信息进行语义解析,得到所述语音信号的当前语义信息。
在一些实施例中,所述融合模块304,包括:
第一融合单元,用于基于所述音区位置信息,对所述语音信号的当前语义信息进行语义融合,得到本轮上下文语义信息;
第二融合单元,用于对所述本轮上下文语义信息与历史上下文语义信息进行多轮语义融合,得到所述目标语义信息。
在一些实施例中,所述第一融合单元,具体用于:
对所述语音信号的音区位置信息与当前语义信息进行融合,得到所述语音信号的本轮语义信息;
对多路所述语音信号的本轮语义信息进行语义融合,得到所述本轮上下文语义信息。
在一些实施例中,所述第二融合单元,具体用于:
基于本轮上下文语义信息,对所述历史上下文语义信息进行继承,得到多轮上下文语义信息;
基于所述音区位置信息,对所述多轮上下文语义信息进行修正,得到所述目标语义信息。
在一些实施例中,所述获取模块301,具体用于:
利用麦克风阵列,采集多通道音频信号;
对所述多通道音频信号进行预处理,得到多路所述语音信号。
上述的语音交互增强装置可实施上述方法实施例的语音交互增强方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
图4为本申请一实施例提供的计算机设备的结构示意图。如图4所示,该实施例的计算机设备4包括:至少一个处理器40(图4中仅示出一个)处理器、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述任意方法实施例中的步骤。
所述计算机设备4可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器40、存储器41。本领域技术人员可以理解,图4仅仅是计算机设备4的举例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),该处理器40还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41在一些实施例中可以是所述计算机设备4的内部存储单元,例如计算机设备4的硬盘或内存。所述存储器41在另一些实施例中也可以是所述计算机设备4的外部存储设备,例如所述计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
另外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现上述各个方法实施例中的步骤。
在本申请所提供的几个实施例中,可以理解的是,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围。特别指出,对于本领域技术人员来说,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音交互增强方法,其特征在于,包括:
获取多路语音信号;
对多路所述语音信号进行音源定位,得到所述语音信号的音区位置信息;
对所述语音信号进行语义解析,得到所述语音信号的当前语义信息;
基于所述音区位置信息,对所述当前语义信息进行多轮语义融合,得到目标语义信息,所述目标语义信息用于执行对应的交互动作。
2.根据权利要求1所述语音交互增强方法,其特征在于,所述对多路所述语音信号进行音源定位,得到所述语音信号的音区位置信息,包括:
利用预设音源定位算法,对多路所述语音信号进行音源定位,得到所述语音信号的音源位置信息;
对所述音源位置信息进行音区映射,得到所述语音信号的音区位置信息。
3.根据权利要求1所述语音交互增强方法,其特征在于,所述对所述语音信号进行语义解析,得到所述语音信号的当前语义信息,包括:
利用预设语音识别算法,对所述语音信号进行语音识别,得到所述语音信号的文本信息;
基于预设语义解析维度,对所述文本信息进行语义解析,得到所述语音信号的当前语义信息。
4.根据权利要求1所述语音交互增强方法,其特征在于,所述基于所述音区位置信息,对所述当前语义信息进行多轮语义融合,得到目标语义信息,包括:
基于所述音区位置信息,对所述当前语义信息进行语义融合,得到本轮上下文语义信息;
对所述本轮上下文语义信息与历史上下文语义信息进行多轮语义融合,得到所述目标语义信息。
5.根据权利要求4所述语音交互增强方法,其特征在于,所述基于所述音区位置信息,对所述当前语义信息进行语义融合,得到本轮上下文语义信息,包括:
对所述语音信号的音区位置信息与当前语义信息进行融合,得到所述语音信号的本轮语义信息;
对所述本轮语义信息进行语义融合,得到所述本轮上下文语义信息。
6.根据权利要求4所述语音交互增强方法,其特征在于,所述对所述本轮上下文语义信息与历史上下文语义信息进行多轮语义融合,得到所述目标语义信息,包括:
基于本轮上下文语义信息,对所述历史上下文语义信息进行继承,得到多轮上下文语义信息;
基于所述音区位置信息,对所述多轮上下文语义信息进行修正,得到所述目标语义信息。
7.根据权利要求1所述语音交互增强方法,其特征在于,所述获取多路语音信号,包括:
利用麦克风阵列,采集多通道音频信号;
对所述多通道音频信号进行预处理,得到多路所述语音信号。
8.一种语音交互增强装置,其特征在于,包括:
获取模块,用于获取多路语音信号;
定位模块,用于对多路所述语音信号进行音源定位,得到所述语音信号的音区位置信息;
解析模块,用于对所述语音信号进行语义解析,得到所述语音信号的当前语义信息;
融合模块,用于基于所述音区位置信息,对所述当前语义信息进行多轮语义融合,得到目标语义信息,所述目标语义信息用于执行对应的交互动作。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的语音交互增强方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音交互增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310767326.6A CN116798416A (zh) | 2023-06-27 | 2023-06-27 | 语音交互增强方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310767326.6A CN116798416A (zh) | 2023-06-27 | 2023-06-27 | 语音交互增强方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116798416A true CN116798416A (zh) | 2023-09-22 |
Family
ID=88035981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310767326.6A Pending CN116798416A (zh) | 2023-06-27 | 2023-06-27 | 语音交互增强方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116798416A (zh) |
-
2023
- 2023-06-27 CN CN202310767326.6A patent/CN116798416A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8645132B2 (en) | Truly handsfree speech recognition in high noise environments | |
CN112154501B (zh) | 热词抑制 | |
CN101535983B (zh) | 协作会话语音用户界面的系统和方法 | |
US11295735B1 (en) | Customizing voice-control for developer devices | |
CN109545219A (zh) | 车载语音交互方法、系统、设备及计算机可读存储介质 | |
DE102013223036B4 (de) | Adaptionsverfahren für Sprachsysteme | |
DE212015000207U1 (de) | Verbesserung der automatischen Spracherkennung basierend auf Benutzerrückmeldungen | |
DE112021001064T5 (de) | Vorrichtungsgerichtete Äußerungserkennung | |
CN106816149A (zh) | 车辆自动语音识别系统的优先化内容加载 | |
US20180374478A1 (en) | Speech recognition method and device | |
US9881609B2 (en) | Gesture-based cues for an automatic speech recognition system | |
US20160140954A1 (en) | Speech recognition system and speech recognition method | |
US9473094B2 (en) | Automatically controlling the loudness of voice prompts | |
CN112017642B (zh) | 语音识别的方法、装置、设备及计算机可读存储介质 | |
WO2020233363A1 (zh) | 语音识别的方法、装置、电子设备和存储介质 | |
JP2010156825A (ja) | 音声出力装置 | |
US9830925B2 (en) | Selective noise suppression during automatic speech recognition | |
US9159315B1 (en) | Environmentally aware speech recognition | |
CN110767219B (zh) | 语义更新方法、装置、服务器和存储介质 | |
CN113053402B (zh) | 一种语音处理方法、装置和车辆 | |
CN113707183B (zh) | 一种视频中的音频处理方法及装置 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN116798416A (zh) | 语音交互增强方法、装置、设备及存储介质 | |
KR101945190B1 (ko) | 음성인식 작동 시스템 및 방법 | |
CN103871400A (zh) | 用于语音系统的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |