CN115240669A - 语音交互方法、装置、电子设备及存储介质 - Google Patents

语音交互方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115240669A
CN115240669A CN202210833826.0A CN202210833826A CN115240669A CN 115240669 A CN115240669 A CN 115240669A CN 202210833826 A CN202210833826 A CN 202210833826A CN 115240669 A CN115240669 A CN 115240669A
Authority
CN
China
Prior art keywords
target
robot
candidate object
voice
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210833826.0A
Other languages
English (en)
Inventor
炊向军
范会善
王炼
罗贤桂
赵新阳
董劲麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202210833826.0A priority Critical patent/CN115240669A/zh
Publication of CN115240669A publication Critical patent/CN115240669A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

本公开提出了一种语音交互方法、装置、电子设备及存储介质,涉及人工智能语音识别技术领域,该方法包括:获取候选对象相对机器人的特征数据;基于特征数据确定候选对象的筛选权重;基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象;基于目标对象的数量,确定机器人的目标服务模式;控制机器人从当前服务模式切换至目标服务模式。通过对候选对象的特征数据进行分析确定候选对象的筛选权重,进而根据筛选权重从候选对象中确定目标对象,可以提升确认目标对象的准确率,并根据目标对象的数量选择不同的目标服务模式,提升了不同目标对象数量下目标对象与机器人的交互体验和交互效率。

Description

语音交互方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能语音识别技术领域,尤其涉及一种语音交互方法、装置、电子设备及存储介质。
背景技术
人机交互应用场景中,很大比例是公共场所,像机场,车站,医院,银行,商场等,这些场所的特点是人流密集,环境嘈杂,常用的人机对话模式不区分不同的场景,尤其是在人员流动性不稳定的场景下,抗干扰能力较弱,稳定性较差,嘈杂环境会导致误识别率高,答非所问,用户体验差,而且都人员比较多,问题比较多的时候,统一的答案又比较长,存在用户都没有听到回复重点机器人就会终止人机交互动作的情况。
公开内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的一个目的在于提出一种语音交互方法。
本公开的第二个目的在于提出一种语音交互装置。
本公开的第三个目的在于提出一种电子设备。
本公开的第四个目的在于提出一种非瞬时计算机可读存储介质。
本公开的第五个目的在于提出一种计算机程序产品。
为达上述目的,本公开第一方面实施方式提出了一种语音交互方法,包括:获取候选对象相对机器人的特征数据;基于特征数据确定候选对象的筛选权重;基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象;基于目标对象的数量,确定机器人的目标服务模式;控制机器人从当前服务模式切换至目标服务模式。
根据本公开的一个实施方式,特征数据包括候选对象与机器人之间的有效距离,基于特征数据确定候选对象的筛选权重,包括:从候选对象中,获取有效距离小于距离阈值的第一候选对象,并捕捉第一候选对象的人脸信息;响应于捕捉第一候选对象的人脸信息成功,将捕捉成功的第一候选对象确定为第二候选对象;采集第二候选对象的语音数据,并基于人脸信息、语音数据和第二候选对象的坐标确定第二候选对象的筛选权重。
根据本公开的一个实施方式,基于人脸信息、语音数据和第二候选对象的坐标确定第二候选对象的筛选权重,包括:对人脸信息、语音数据和第二候选对象的坐标各自的有效值进行加权;以及对人脸信息、语音数据和候选对象的坐标各自预设的偏移值进行加权;基于加权后的有效值和加权后的偏移值确定第二候选对象的筛选权重。
根据本公开的一个实施方式,基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象,包括:确定筛选权重值大于目标阈值的第二候选对象为目标对象。
根据本公开的一个实施方式,控制机器人从当前服务模式切换至目标服务模式之后,还包括:基于目标服务模式调整麦克风阵列单元,以采集目标对象的实时语音;选取与目标服务模式匹配的语音处理模式,并基于语音处理模式对实时语音进行语义处理;基于语义处理结果生成目标对象的应答信息。
根据本公开的一个实施方式,基于目标对象的数量,确定机器人的目标服务模式,包括:响应于目标对象的数量为多个,选取第一服务模式作为目标服务模式;或者响应于目标对象的数量为一个,选取第二服务模式作为目标服务模式。
根据本公开的一个实施方式,目标服务模式为第一服务模式,方法还包括:根据目标对象的筛选权重,确定机器人为目标对象提供服务的服务顺序;增强朝向服务顺序最前的目标对象方向的麦克风阵列单元的采音功能,并采集实时语音;将语音处理模式切换至第一语音处理模式,其中,第一语义处理模式对应的语料数据小于或者等于第一语料数量;基于第一语音处理模式对实时语音进行语义处理;基于语义处理结果对服务顺序最前的目标对象进行应答。
根据本公开的一个实施方式,第二服务模式,包括:强化朝向目标对象方向的麦克风阵列单元的采音功能,并弱化其他方向的麦克风阵列单元的采音功能,采集实时语音;将语音处理模式切换至第二语音处理模式,其中,第二语音处理模式对应的语料数据大于第二语料数量;基于第二语音处理模式对实时语音进行语义处理;基于语义处理结果对目标对象进行应答。
为达上述目的,本公开第二方面实施例提出了一种语音交互装置,包括:获取模块,用于获取候选对象相对机器人的特征数据;确定模块,用于基于特征数据确定候选对象的筛选权重;筛选模块,用于基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象;选取模块,用于基于目标对象的数量,确定机器人的目标服务模式;切换模块,用于控制机器人从当前服务模式切换至目标服务模式。
为达上述目的,本公开第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以实现如本公开第一方面实施例的语音交互方法。
为达上述目的,本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于实现如本公开第一方面实施例的语音交互方法。
为达上述目的,本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时用于实现如本公开第一方面实施例的语音交互方法。
通过对候选对象的特征数据进行分析确定候选对象的筛选权重,进而根据筛选权重从候选对象中确定目标对象,可以提升确认目标对象的准确率,并根据目标对象的数量选择不同的目标服务模式,提升了不同目标对象数量下目标对象与机器人的交互体验和交互效率。
附图说明
图1是本公开一个实施方式的一种语音交互方法的示意图;
图2是本公开一个实施方式的一种目标对象分布图;
图3是本公开一个实施方式的另一种语音交互方法的示意图;
图4是本公开一个实施方式的另一种语音交互方法的示意图;
图5是本公开一个实施方式的另一种语音交互方法的示意图;
图6是本公开一个实施方式的一种语音交互装置的示意图;
图7是本公开一个实施方式的一种电子设备的示意图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。本公开技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1为本公开提出的一种语音交互方法的一种示例性实施方式的示意图,如图1所示,该语音交互方法包括以下步骤:
S101,获取候选对象相对机器人的特征数据。
需要说明的是,候选对象为机器人周围的物体,该物体可为在机器人周围的自然人,也可为在机器人周围的非自然人,具体需要根据机器人实际的场景和实际的位置而定。举例来说,在银行办事大厅的场景下,候选对象可为机器人周围的人,也可为机器人周围的排队机、自助办理机等。
在本公开实施例中,可通过机器人的传感器确定候选对象。可选地,该传感器可为雷达,通过雷达对机器人周围进行扫描,并基于雷达的扫描数据确定机器人周围的候选对象。
可选地,该传感器还可为图像采集装置,通过对图像采集装置对机器人周围进行图像采集,并基于采集的图像确定机器人周围的候选对象。
候选对象的特征数据可包含多种,举例来说,可包含候选对象与机器人的距离、候选对象的语音数据、候选对象的形状和大小、候选对象的人脸信息等,此处不作任何限定,具体可根据实际的需要进行设定。
S102,基于特征数据确定候选对象的筛选权重。
在本公开实施例中,在获取到候选对象后,需要对候选对象进行筛选,以筛选出需要服务的自然人。在本公开实施例中,为了更加准确地分析出候选对象是否为具有人机交互意图的目标对象,本公开提出了筛选权重的概念。需要说明的是,筛选权重为表征候选对象与机器人具有人机交互意图的权重值。候选对象的筛选权重越大,说明该候选对象为具有人机交互意图的自然人的可能性越大。
需要说明的是,与筛选权重关联的特征数据可为多种,举例来说,可包括候选对象的生命体征数据,例如候选对象的人脸信息、红外信息和移动信息等,还可包括候选对象相对机器人的距离、角度等,可选地,还可包括候选对象的轮廓、高度和大小等。
在不同的机器人工作场景中,确定筛选权重的特征数据可为不同,举例来说,当工作场景为银行大厅时,特征数据还可包含候选目标的身份信息,用以区分是否为银行工作人员;当工作场景为酒店时,特征数据还可包含候选目标的入住信息,用以确定候选为居住在房间号楼层等信息。
在本公开实施例中,可将特征数据通过筛选权重算法进行计算,以获取候选对象的筛选权重,该筛选权重算法可为神经网络算法,为提前设定好的,并存储在电子设备的存储空间中,以方便在需要时调取使用。
S103,基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象。
在本公开实施例中,可将筛选权重和目标阈值进行比较,以确定需要服务的一个或多个目标对象。当筛选权重大于目标阈值时,则可认为该筛选权重对应的候选对象为具有人机交互意图的目标对象。需要说明的是,该目标阈值可为提前设定好的,并可根据实际的需要进行变更,此处不作任何限定。
可选地,还可设定筛选权重值,基于筛选权重值的大小进行排序,选取排序靠前且小于或者等于筛选权重值的候选对象作为目标对象。该筛选权重值为提前设定好的,并可根据实际的需要进行设定。
S104,基于目标对象的数量,确定机器人的目标服务模式。
针对不同数量的目标对象,机器人服务的侧重点可为不同,当目标对象人数很多时,机器人服务的侧重点可为尽量简洁和高效的对目标对象进行服务,当目标对象的人数较少时,机器人服务的侧重点可为尽量详细回答目标对象的问题,以此可以让目标对象得到更容易理解的应答信息。通过针对基于目标对象的数量,确定机器人的目标服务模式,可以提升用户与机器人之间信息交互的体验。
需要说明的是,目标服务模式可为多种,具体需要根据实际需要进行设定。在本公开实施例中,可通过设置多个阈值来区分需要采用何种目标服务模式。
S105,控制机器人从当前服务模式切换至目标服务模式。
在获取到目标服务模式后,可基于目标服务模式生成服务模式切换指令,并发送给机器人进行模式切换。
在本公开实施例中,首先获取候选对象相对机器人的特征数据,然后基于特征数据确定候选对象的筛选权重,而后基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象,再之后基于目标对象的数量,确定机器人的目标服务模式,最后控制机器人从当前服务模式切换至目标服务模式。由此,通过对候选对象的特征数据进行分析确定候选对象的筛选权重,进而根据筛选权重从候选对象中确定目标对象,可以提升确认目标对象的准确率,并根据目标对象的数量选择不同的目标服务模式,提升了不同目标对象数量下目标对象与机器人的交互体验和交互效率。
在本公开实施例中,当基于筛选权重从候选对象中确定机器人确定并无需要服务的目标对象时。则继续采集机器人周围的数据信息,基于数据信息确定候选对象。
需要说明的是,在获取到候选对象的特征数据后,还可对特征数据进行处理,以方便后续的处理和使用。举例来说,可对特征数据进行整合为统一的格式、筛除错误数据等操作,以此可以提升处理效率,并减少错误数据,降低数据处理的成本,增加人机交互的准确率。
进一步地,还可对目标对象的用户数据建立用户档案,在获取到新的目标对象后,可将目标对象与用户档案中的目标对象进行匹配,如果匹配成功,可基于之前目标对象的提问进行联想和语义处理,同时还可基于用户档案中的历史声纹等语音信息对目标用户采取合适的语音和/或语义处理模式,可以提升采集目标用户语音数据的质量,进而提升目标对象的人机交互体验和效率。可选地,如果匹配失败,则将该目标对象的数据更新至用户档案中。
在本公开实施例中,基于目标对象的数量,确定机器人的目标服务模式,包括,将目标对象的数量与数量阈值进行比较,并根据数量阈值划分不同的服务模式。
需要说明的是,本公开实施例中设定的数量阈值为1,响应于目标对象的数量为多个,选取第一服务模式作为目标服务模式,或者响应于目标对象的数量为一个,选取第二服务模式作为目标服务模式。需要说明的是,第一服务模式和第二服务模式对机器人的设置可为不同,以此可实现不同数量目标对象的交互场景达到最优的交互效果。
进一步地,还可基于目标对象的位置与机器人的位置生成目标对象分布图,以此可以更加直观的分析出当前需要采取的模式,如图2所述的目标对象分布图,可以看出,当目标对象为3个时,可采用第一服务模式,当目标对象为一个时,可采用第二服务模式,同时当目标对象由一个变为多个或者多个变为一个时,机器人还可在第一服务模式和第二服务模式之间进行切换。
上述实施例中,特征数据包括候选对象与机器人之间的有效距离,基于特征数据确定候选对象的筛选权重,还可通过图3进一步解释,该方法包括:
S301,从候选对象中,获取有效距离小于距离阈值的第一候选对象,并捕捉第一候选对象的人脸信息。
有效距离是指候选目标的重心位置与机器人重心之间的距离。有效距离可基于传感器进行获取,举例来说,可基于雷达扫描的点云数据确定候选目标的重心位置,从而确定指候选目标的重心位置与机器人重心之间的距离。
需要说明的是,距离阈值为提前设定好的,并可基于实际的设计需要进行设定,举例来说,举例阈值可为0.5m、1m等。当候选目标超过距离阈值时,可认为候选目标没有与机器人交互的意愿,以此可以筛选出具有交互意愿的候选目标,降低后续需要处理的数据数量,提升人机交互的效率和成本。
在本公开实施例中,可基于机器人上设有的人脸采集装置来采集第一候选对象的人脸信息,该人脸采集装置可为机器人子带的图像采集装置,并对图像采集装置采集的图像进行分析处理,以确定第一候选对象的人脸信息。
需要说明的,还可对捕捉的人脸信息进行限定,举例来说,可限定捕捉人脸朝向,基于朝向和预设的角度进行对比,以此确定是否捕捉人脸成功,以此可以排除掉一些其他朝向的人脸,例如侧脸等。
S302,响应于捕捉第一候选对象的人脸信息成功,将捕捉成功的第一候选对象确定为第二候选对象。
需要说明的是,第一候选对象存在为非自然人的可能,因此,需要通过是否能捕捉到人脸信息里确定第一候选对象是否为自然人,以此确定第二候选对象。
S303,采集第二候选对象的语音数据,并基于人脸信息、语音数据和第二候选对象的坐标确定第二候选对象的筛选权重。
在确定第二候选对象后,仍旧无法确定第二候选对象有与机器人进行交互的意图,在本公开实施例中,可通过采集第二候选对象的语音数据,并对语音数据、人脸信息和第二互选对象的坐标确定第二候选对象的筛选权重。
在本公开实施例中,可基于神经网络算法计算第二候选对象的筛选权重。
在获取到筛选权重后,可通过将筛选权重值与目标阈值进行比较,选取筛选权重大于目标阈值的第二候选对象为目标对象。
在本公开实施例中,首先从候选对象中,获取有效距离小于距离阈值的第一候选对象,并捕捉第一候选对象的人脸信息,然后响应于捕捉第一候选对象的人脸信息成功,将捕捉成功的第一候选对象确定为第二候选对象,而后采集第二候选对象的语音数据,并基于人脸信息、语音数据和第二候选对象的坐标确定第二候选对象的筛选权重。由此,通过对候选对象的特征信息、语音信息和人脸信息确定候选对象的筛选权重,以此可以准确的确定出具有人机交互意图的目标对象,为后续选择适合的目标服务模式提供基础。
需要说明的是,目标阈值可为提前设定好的,该目标阈值越大,筛选出的目标对象的准确率越高。举例来说,该目标阈值可为1,当第二候选对象的目标阈值大于1时,则可认为该第二候选对象为目标对象,否则则认为该第二候选对象没有人机交互意图。
进一步地,机器人在对目标对象做出应答后,还可基于目标对象的用户信息和应答信息建立档案,并存储在存储空间中,以方便在下次对同一目标用户进行人机交互服务时,可以直接进行匹配,并调取该目标用的档案信息,从而可以更好的做出应答,提升用户的使用体验和人机交互效率。
需要说明的是,该用户信息可包含目标对象的人脸信息、身份信息和语音信息等,其中,语音信息可包含用户的声纹信息、语义纠错信息等,以此,如果目标用户的口音较重或者声音比较模糊,可以采取更加合适的语音/语义处理方法,提升应答质量。
上述实施例中,基于人脸信息、语音数据和第二候选对象的坐标确定第二候选对象的筛选权重,还可通过图4进一步解释,该方法包括:
S401,对人脸信息、语音数据和第二候选对象的坐标各自的有效值进行加权。
需要说明的是,人脸信息、语音数据和第二候选对象的有效值是指在计算筛选权重的过程中,数据重要程度的占比,有效值越大,说明该数据在判定候选对象为目标对象的所有数据中,占有主导的地位。
需要说明的是,在本公开实施例中,可基于神经网络算法计算人脸信息、语音数据和第二候选对象的坐标各自的有效值。
在获取到人脸信息、语音数据和第二候选对象的坐标各自的有效值后,可对各有效值进行加权,每个有效值对应的权重值为提前设定好的,并可基于实际需要进行变换,此处不作任何限定。
在本公开实施例中,可基于语音数据确定语义纠错值和声纹特征值,基于候选对象的坐标确定有效位置值,基于人脸信息确定有效人脸值。
S402,对人脸信息、语音数据和候选对象的坐标各自预设的偏移值进行加权。
需要说明的是,偏移值为人脸信息、语音数据和候选对象的坐标对应的偏移常值,用以表征人脸信息、语音数据和候选对象的坐标的数据正常波动。
需要说明的是,每个数据对应的偏移值可为不同,该偏移值可为提前设定好的,并可在不同的人机交互场景中进行变化,此处不作任何限定。
需要说明的是,偏移值对应的权重值和上述实施例中有效值对应的权重值为同一值。
S403,基于加权后的有效值和加权后的偏移值确定第二候选对象的筛选权重。
在本公开实施例中可基于如下公式确定第二候选对象的筛选权重:
i=(V1*W1+V2*W2+V3*W3+V4*W4)/(M1*W1+M2*W2+M3*W3+M4*W4)
其中,i为档案完善值,V1为有效位置值,W1为有效位置值对应的第一权重值,M1为有效位置值对应的第一偏移常值,V2为有效人脸值,W2为有效人脸值对应的第二权重值,M2为有效人脸值对应的第二偏移常值,V3为声纹特征值,W3为声纹特征值对应的第三权重值,M3为声纹特征值对应的第三偏移常值,V4为语义纠错值,W4为语义纠错值对应的第四权重值,M4为语义纠错值对应的第四偏移常值。
在本公开实施例中,首先对人脸信息、语音数据和第二候选对象的坐标各自的有效值进行加权,以及对人脸信息、语音数据和候选对象的坐标各自预设的偏移值进行加权,然后基于加权后的有效值和加权后的偏移值确定第二候选对象的筛选权重。以此,通过对第二候选对象的特征数据进行处理和分析确定有效值,可以准确的计算出筛选权重,为后续确定目标对象提供基础。
在本公开实施例中,还可周期性地获取目标对象的有效距离、语义纠错值和声纹特征值,响应于目标对象的有效距离超过距离阈值和/或语义纠错值变化超过语义纠错阈值和/或声纹特征值超过声纹特征阈值,对目标对象进行更新。以此,可以对目标对象的状态进行更新,以方便选取更加适合的模式进行人机交互,提升用户的使用体验。需要说明的是,该获取周期为提前设定好的,并可根据实际的设计需要进行变换,此处不作任何限定。
上述实施例中,控制机器人从当前服务模式切换至目标服务模式之后,还可通过图5进一步解释,该方法包括:
S501,基于目标服务模式调整麦克风阵列单元,以采集目标对象的实时语音。
需要说明的是,本公开实施例是基于目标对象的数量来确定目标服务模式,因此,针对不同数量的目标对象,麦克风阵列单元的设置可为不同。
可选地,当目标服务模式为第一服务模式时,可根据目标对象的筛选权重,确定机器人为目标对象提供服务的服务顺序。具体地,可将麦克风阵列调整多重心模式,强化高完善值用户方向麦克风,开启单独收音模式,增强朝向服务顺序最前的目标对象方向的麦克风阵列单元的采音功能,并采集实时语音。
需要说明的是,筛选权重越大,目标对象的交互意图越大,并且可以说明目标对象的语义纠错值和声纹特征值越好,目标对象的话比较容易被机器人捕捉和处理,人机交互的效果更好,因此可以作为优先交互的对象。
相对的,将筛选权重最小的用户放到最后处理,可以切换至第二模式,可以更加准确的分析和解答此类用户的语音数据,做出更加详尽的应答信息,方便用户进行理解,提升人机交互的准确率。
可选地,当目标服务模式为第二服务模式时,强化朝向目标对象方向的麦克风阵列单元的采音功能,并弱化其他方向的麦克风阵列单元的采音功能,采集实时语音。以此,可以增加对目标对象的采音效果。
S502,选取与目标服务模式匹配的语音处理模式,并基于语音处理模式对实时语音进行语义处理。
针对不同目标服务模式,语音处理模式的设置可为不同。
可选地,当目标服务模式为第一服务模式,将语音处理模式切换至第一语音处理模式,其中,第一语义处理模式对应的语料数据小于或者等于第一语料数量,然后基于第一语音处理模式对实时语音进行语义处理。
需要说明的是,第一语义模式为简单语料模式,该模式对应的语料数据小于或者等于第一语料数量,且在语义处理时可降低自然语言处理(Natural LanguageProcessing,NLP)的匹配阈值,以便提升简单语料模式下的语义处理能力。
可选地,当目标服务模式为第二服务模式,将语音处理模式切换至第二语音处理模式,其中,第二语音处理模式对应的语料数据大于第二语料数量,然后基于第二语音处理模式对实时语音进行语义处理。
需要说明的是,第二语音处理模式为丰富语义处理模式,在该模式下,机器人可基于目标对象的实时语音,进行语义的联想和拓展,以提升目标对象对机器人应答的理解能力并可以得到更加详尽的答案。
可选地,在该模式下,机器人还可对目标对象展示基于应答信息联想的图像、地图或者其他类似的服务,提升用户的人机交互体验。
S503,基于语义处理结果生成目标对象的应答信息。
在本公开实施例中,在不同的目标服务模式下,基于语义处理结果生成目标对象的应答信息可为不同,此处不作任何限定。举例来说,在第一服务模式下,应答信息可为简洁的文字、图片等,在第二服务模式下,机器人还可对目标对象提供导航服务、语音服务等。
在本公开实施例中,首先基于目标服务模式调整麦克风阵列单元,以采集目标对象的实时语音,然后选取与目标服务模式匹配的语音处理模式,并基于语音处理模式对实时语音进行语义处理,最后基于语义处理结果生成目标对象的应答信息。以此,针对不同的目标服务模式,选择不同的实时语音处理方案,可以提升目标对象的人机交互体验,增加人家交互的效率和实用性。
与上述几种实施例提供的语音交互方法相对应,本公开的一个实施例还提供了一种语音交互装置,由于本公开实施例提供的语音交互装置与上述几种实施例提供的语音交互方法相对应,因此上述语音交互方法的实施方式也适用于本公开实施例提供的语音交互装置,在下述实施例中不再详细描述。
图6为本公开提出的一种语音交互装置的示意图,如图6所示,该语音交互装置600,包括:获取模块610、确定模块620、筛选模块630、选取模块640和切换模块650。
其中,获取模块610,用于获取候选对象相对机器人的特征数据。
确定模块620,用于基于特征数据确定候选对象的筛选权重。
筛选模块630,用于基于筛选权重从候选对象中确定机器人需要服务的一个或多个目标对象。
选取模块640,用于基于目标对象的数量,确定机器人的目标服务模式。
切换模块650,用于控制机器人从当前服务模式切换至目标服务模式。
在本公开的一个实施例中,特征数据包括候选对象与机器人之间的有效距离,确定模块620,还用于:从候选对象中,获取有效距离小于距离阈值的第一候选对象,并捕捉第一候选对象的人脸信息;响应于捕捉第一候选对象的人脸信息成功,将捕捉成功的第一候选对象确定为第二候选对象;采集第二候选对象的语音数据,并基于人脸信息、语音数据和第二候选对象的坐标确定第二候选对象的筛选权重。
在本公开的一个实施例中,确定模块620,还用于:对人脸信息、语音数据和第二候选对象的坐标各自的有效值进行加权;以及对人脸信息、语音数据和候选对象的坐标各自预设的偏移值进行加权;基于加权后的有效值和加权后的偏移值确定第二候选对象的筛选权重。
在本公开的一个实施例中,筛选模块630,还用于:确定筛选权重值大于目标阈值的第二候选对象为目标对象。
在本公开的一个实施例中,切换模块650,还用于:基于目标服务模式调整麦克风阵列单元,以采集目标对象的实时语音;选取与目标服务模式匹配的语音处理模式,并基于语音处理模式对实时语音进行语义处理;基于语义处理结果生成目标对象的应答信息。
在本公开的一个实施例中,选取模块640,还用于:响应于目标对象的数量为多个,选取第一服务模式作为目标服务模式;或者响应于目标对象的数量为一个,选取第二服务模式作为目标服务模式。
在本公开的一个实施例中,目标服务模式为第一服务模式,切换模块650,还用于:根据目标对象的筛选权重,确定机器人为目标对象提供服务的服务顺序;增强朝向服务顺序最前的目标对象方向的麦克风阵列单元的采音功能,并采集实时语音;将语音处理模式切换至第一语音处理模式,其中,第一语义处理模式对应的语料数据小于或者等于第一语料数量;基于第一语音处理模式对实时语音进行语义处理;基于语义处理结果对服务顺序最前的目标对象进行应答。
在本公开的一个实施例中,目标服务模式为第二服务模式,切换模块650,还用于:强化朝向目标对象方向的麦克风阵列单元的采音功能,并弱化其他方向的麦克风阵列单元的采音功能,采集实时语音;将语音处理模式切换至第二语音处理模式,其中,第二语音处理模式对应的语料数据大于第二语料数量;基于第二语音处理模式对实时语音进行语义处理;基于语义处理结果对目标对象进行应答。
为了实现上述实施例,本公开实施例还提出一种电子设备700,如图7所示,该电子设备700包括:处理器701和处理器通信连接的存储器702,存储器702存储有可被至少一个处理器执行的指令,指令被至少一个处理器701执行,以实现如本公开第一方面实施例的语音交互方法。
为了实现上述实施例,本公开实施例还提出一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机实现如本公开第一方面实施例的语音交互方法。
为了实现上述实施例,本公开实施例还提出一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开第一方面实施例的语音交互方法。
在本公开的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音交互方法,其特征在于,包括:
获取候选对象相对机器人的特征数据;
基于所述特征数据确定所述候选对象的筛选权重;
基于所述筛选权重从所述候选对象中确定所述机器人需要服务的一个或多个目标对象;
基于所述目标对象的数量,确定所述机器人的目标服务模式;
控制所述机器人从当前服务模式切换至所述目标服务模式。
2.根据权利要求1所述的方法,其特征在于,所述特征数据包括所述候选对象与所述机器人之间的有效距离,所述基于所述特征数据确定所述候选对象的筛选权重,包括:
从所述候选对象中,获取所述有效距离小于距离阈值的第一候选对象,并捕捉所述第一候选对象的人脸信息;
响应于捕捉所述第一候选对象的人脸信息成功,将捕捉成功的所述第一候选对象确定为第二候选对象;
采集所述第二候选对象的语音数据,并基于所述人脸信息、所述语音数据和所述第二候选对象的坐标确定所述第二候选对象的筛选权重。
3.根据权利要求2所述的方法,其特征在于,所述基于所述人脸信息、所述语音数据和所述第二候选对象的坐标确定所述第二候选对象的筛选权重,包括:
对所述人脸信息、所述语音数据和所述第二候选对象的坐标各自的有效值进行加权;以及
对所述人脸信息、所述语音数据和所述候选对象的坐标各自预设的偏移值进行加权;
基于加权后的所述有效值和加权后的所述偏移值确定所述第二候选对象的筛选权重。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于所述筛选权重从所述候选对象中确定所述机器人需要服务的一个或多个目标对象,包括:
确定所述筛选权重值大于目标阈值的所述第二候选对象为所述目标对象。
5.根据权利要求1所述的方法,其特征在于,所述控制所述机器人从当前服务模式切换至所述目标服务模式之后,还包括:
基于所述目标服务模式调整麦克风阵列单元,以采集所述目标对象的实时语音;
选取与所述目标服务模式匹配的语音处理模式,并基于所述语音处理模式对所述实时语音进行语义处理;
基于语义处理结果生成所述目标对象的应答信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标对象的数量,确定所述机器人的目标服务模式,包括:
响应于所述目标对象的数量为多个,选取第一服务模式作为所述目标服务模式;或者
响应于所述目标对象的数量为一个,选取第二服务模式作为所述目标服务模式。
7.根据权利要求6所述的方法,其特征在于,所述目标服务模式为所述第一服务模式,所述方法还包括:
根据所述目标对象的所述筛选权重,确定所述机器人为所述目标对象提供服务的服务顺序;
增强朝向所述服务顺序最前的所述目标对象方向的所述麦克风阵列单元的采音功能,并采集实时语音;
将所述语音处理模式切换至第一语音处理模式,其中,所述第一语义处理模式对应的语料数据小于或者等于第一语料数量;
基于所述第一语音处理模式对所述实时语音进行语义处理;
基于语义处理结果对所述服务顺序最前的所述目标对象进行应答。
8.根据权利要求6所述的方法,其特征在于,所述目标服务模式为所述第二服务模式,所述方法还包括:
强化朝向所述目标对象方向的所述麦克风阵列单元的采音功能,并弱化其他方向的所述麦克风阵列单元的采音功能,并采集实时语音;
将所述语音处理模式切换至第二语音处理模式,其中,所述第二语音处理模式对应的语料数据大于第二语料数量;
基于所述第二语音处理模式对所述实时语音进行语义处理;
基于语义处理结果对所述目标对象进行应答。
9.一种语音交互装置,其特征在于,包括:
获取模块,用于获取候选对象相对机器人的特征数据;
确定模块,用于基于所述特征数据确定所述候选对象的筛选权重;
筛选模块,用于基于所述筛选权重从所述候选对象中确定所述机器人需要服务的一个或多个目标对象;
选取模块,用于基于所述目标对象的数量,确定所述机器人的目标服务模式;
切换模块,用于控制所述机器人从当前服务模式切换至所述目标服务模式。
10.一种电子设备,其特征在于,包括存储器、处理器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202210833826.0A 2022-07-15 2022-07-15 语音交互方法、装置、电子设备及存储介质 Pending CN115240669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210833826.0A CN115240669A (zh) 2022-07-15 2022-07-15 语音交互方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210833826.0A CN115240669A (zh) 2022-07-15 2022-07-15 语音交互方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115240669A true CN115240669A (zh) 2022-10-25

Family

ID=83674343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210833826.0A Pending CN115240669A (zh) 2022-07-15 2022-07-15 语音交互方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115240669A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219071A (zh) * 2023-09-20 2023-12-12 北京惠朗时代科技有限公司 一种基于人工智能的语音交互服务系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219071A (zh) * 2023-09-20 2023-12-12 北京惠朗时代科技有限公司 一种基于人工智能的语音交互服务系统
CN117219071B (zh) * 2023-09-20 2024-03-15 北京惠朗时代科技有限公司 一种基于人工智能的语音交互服务系统

Similar Documents

Publication Publication Date Title
CN111833899B (zh) 一种基于多音区的语音检测方法、相关装置及存储介质
JP2002251234A (ja) 複数のセンサによるヒューマンインタフェースシステム
US10429936B2 (en) Remote control method and system for virtual operating interface
US20060195574A1 (en) Server, server system, client server control method and storage medium therefor
CN101473207A (zh) 使用多种类型的输入对人进行标识
CN115240669A (zh) 语音交互方法、装置、电子设备及存储介质
EP3771203A1 (en) Electronic nameplate display method and apparatus in video conference
CN110221693A (zh) 一种基于人机交互的智能零售终端操作系统
KR20210006627A (ko) 객체 확인 방법 및 이를 위한 시스템
CN112507829B (zh) 一种多人视频手语翻译方法及系统
JP2022111128A (ja) 警備システム及び監視表示装置
JP3272584B2 (ja) 領域抽出装置及びそれを用いた方向検出装置
JP2018205534A (ja) 表示制御装置、表示制御方法及びプログラム
CN116301381A (zh) 一种交互方法及相关设备和系统
CN109720945B (zh) 电梯分配方法、装置、设备及计算机可读存储介质
CN110955331A (zh) 一种基于计算机虚拟界面的人机交互系统
CN216748889U (zh) 银行自助网点的服务引导装置及服务系统
CN109648573B (zh) 一种机器人会话切换方法、装置及计算设备
CN113012700B (zh) 语音信号处理方法、装置、系统及计算机可读存储介质
KR101553522B1 (ko) 로봇 및 그 제어 방법
CN109129460B (zh) 机器人管理系统
JP2011143511A (ja) ユーザ支援システム
CN110730378A (zh) 一种信息处理方法及系统
Yamashita et al. Assisting system of visually impaired in touch panel operation using stereo camera
CN115314700B (zh) 控制设备的位置检测方法、定位系统以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination