CN112530428A - 语音交互方法及装置、终端设备、计算机可读存储介质 - Google Patents
语音交互方法及装置、终端设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN112530428A CN112530428A CN202011366817.2A CN202011366817A CN112530428A CN 112530428 A CN112530428 A CN 112530428A CN 202011366817 A CN202011366817 A CN 202011366817A CN 112530428 A CN112530428 A CN 112530428A
- Authority
- CN
- China
- Prior art keywords
- voice
- slot
- slot position
- voice information
- target prompt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及计算机技术领域,公开了一种语音交互方法及装置、终端设备、计算机可读存储介质。本发明通过接收第一语音信息,并根据第一语音信息确定用户意图,进而根据用户意图对应的槽位输出目标提示语音信息,进一步地,接收第二语音信息,并判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配,在第二语音信息包含的槽位值与目标提示语音信息包含的槽位匹配时,执行用户意图和槽位值对应的操作;解决了相关技术的语音交互过程中,机器助手对用户的意图识别准确率低的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音交互方法及装置、终端设备、计算机可读存储介质。
背景技术
在相关技术中,用户可以使用移动终端的语音助手功能与机器助手进行语音交互,从而机器助手可以根据用户输入的语音信息完成对移动终端的各种操作;其中,如果用户输入的语音信息不够完善,机器助手便无法识别出用户的意图,导致语音交互失败,给用户造成不好的用户体验。
由此可见,相关技术的语音交互过程中,存在机器助手对用户的意图识别准确率低的问题。
发明内容
本发明的主要目的在于提供语音交互方法及装置、终端设备、计算机可读存储介质,旨在提升语音交互过程中机器助手的识别准确率。
为实现上述目的,本发明提供一种语音交互方法,语音交互方法包括:
接收第一语音信息,并根据所述第一语音信息确定用户意图;
根据所述用户意图对应的槽位,输出目标提示语音信息;
接收第二语音信息,并判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功;
若是,执行所述用户意图和所述槽位值对应的操作。
可选的,所述根据所述用户意图对应的槽位,输出目标提示语音信息的步骤,包括:
在预设用户意图槽位表中查找所述用户意图对应的槽位;
在查找到至少两个槽位时,确定所述至少两个槽位分别对应的子提示语音信息;
将至少两个所述子提示语音信息整合为一个目标提示语音信息;
输出所述目标提示语音信息。
可选的,所述接收第二语音信息,并判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功的步骤,包括:
接收第二语音信息,将所述第二语音信息包含的槽位值与所述目标提示语音信息包含的至少两个槽位分别进行匹配;
判断所述第二语音信息包含的槽位值是否与所述目标提示语音信息包含的至少两个槽位均匹配成功。
可选的,所述根据所述用户意图对应的槽位,输出目标提示语音信息的步骤,包括:
在预设用户意图槽位表中查找所述用户意图对应的槽位;
在查找到至少两个槽位时,确定所述至少两个槽位分别对应的子提示语音信息;
将至少两个所述子提示语音信息分别作为目标提示语音信息;
输出所述至少两个目标提示语音信息。
可选的,所述接收第二语音信息,并判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功的步骤,包括:
接收所述至少两个目标提示语音信息对应的至少两个第二语音信息;
判断各所述第二语音信息包含的槽位值分别与其对应的目标提示语音信息包含的槽位是否匹配成功。
可选的,所述接收第一语音信息,并根据所述第一语音信息确定用户意图的步骤之前,所述语音交互方法还包括:
获取多个用户意图;
分别对所述多个用户意图对应的槽位进行训练,生成预设用户意图槽位表。
可选的,所述判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功的步骤之后,所述语音交互方法还包括:
若否,返回执行所述根据所述用户意图对应的槽位,输出目标提示语音信息的步骤。
此外,为实现上述目的,本发明还提供一种语音交互装置,语音交互装置包括:
第一接收模块,用于接收第一语音信息;
确定模块,用于根据所述第一语音信息确定用户意图;
输出模块,用于根据所述用户意图对应的槽位输出目标提示语音信息;
第二接收模块,用于接收第二语音信息;
判断模块,用于判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功;
执行模块,用于在所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位匹配成功时,执行所述用户意图和所述槽位值对应的操作。
此外,为实现上述目的,本发明还提供一种终端设备,终端设备包括:存储器、处理器及存储在存储器上并在处理器上运行语音交互程序,语音交互程序被处理器执行时实现如上文的语音交互方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,计算机可读存储介质上存储有语音交互程序,语音交互程序被处理器执行时实现如上文的语音交互方法的步骤。
本发明提供的技术方案,通过接收第一语音信息,并根据第一语音信息确定用户意图,进而根据用户意图对应的槽位输出目标提示语音信息,进一步地,接收第二语音信息,并判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配,在第二语音信息包含的槽位值与目标提示语音信息包含的槽位匹配时,执行用户意图和槽位值对应的操作;解决了相关技术的语音交互过程中,机器助手对用户的意图识别准确率低的问题。
也即本发明提供的技术方案,通过先根据获取到的第一语音信息确定用户意图,然后根据用户意图对应的槽位输出目标提示语音信息以提示用户,使得可以接收用户根据目标提示语音信息输入的包含对应槽位值的第二语音信息,并在第二语音信息包含的槽位值与目标提示语音信息包含的槽位匹配成功时,执行用户意图和槽位值对应的操作;这样,能够准确地识别用户意图,从而提升了语音交互的成功率,使得用户体验满意度更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例方案涉及的硬件运行环境的终端设备结构示意图;
图2为本发明语音交互方法第一实施例的流程示意图;
图3为本发明语音交互方法第一实施例输出各目标提示语音信息的界面示意图一;
图4为本发明语音交互方法第一实施例输出各目标提示语音信息的界面示意图二;
图5为本发明语音交互方法第一实施例重新再输出目标提示语音信息的界面示意图;
图6为本发明终端设备第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
终端设备包括:至少一个处理器101、存储器102以及存储在所述存储器上并可在所述处理器上运行的语音交互程序,所述语音交互程序配置为实现如下任一实施例所述的语音交互方法的步骤。
处理器101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关语音交互方法操作,使得语音交互方法模型可以自主训练学习,提高效率和准确度。
存储器102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储终端设备、闪存存储终端设备。在一些实施例中,存储器102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器101所执行以实现本申请中方法实施例提供的语音交互方法。
在一些实施例中,终端设备还可选包括有:通信接口103和至少一个外围设备。处理器101、存储器102和通信接口103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口103相连。具体地,外围设备包括:射频电路104、显示屏105和电源106中的至少一种。
通信接口103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中,处理器101、存储器102和通信接口103被集成在同一芯片或电路板上;在一些其他实施例中,处理器101、存储器102和通信接口103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信终端设备进行通信。射频电路104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏105是触摸显示屏时,显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器101进行处理。此时,显示屏105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏105可以为一个,终端设备的前面板;在另一些实施例中,显示屏105可以为至少两个,分别设置在终端设备的不同表面或呈折叠设计;在再一些实施例中,显示屏105可以是柔性显示屏,设置在终端设备的弯曲表面上或折叠面上。甚至,显示屏105还可以设置成非矩形的不规则图形,也即异形屏。显示屏105可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源106用于为终端设备中的各个组件进行供电。电源106可以是交流电、直流电、一次性电池或可充电电池。当电源106包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述硬件结构,提出本发明的各实施例。
参照图2,图2为本发明语音交互方法第一实施例的流程示意图,语音交互方法包括以下步骤:
步骤S20:接收第一语音信息,并根据第一语音信息确定用户意图。
应当明确的是,本实施例中的第一语音信息表征的是包含了用户意图的语音信息;例如用户打开语音助手功能,输入第一语音信息“我想查询天气”,即表征第一语音信息包含了用户意图“查询天气”,或者输入第一语音信息“我想查询话费”,即表征第一语音信息包含了用户意图“查询话费”,或者输入第一语音信息“我想看电影”,即表征第一语音信息包含了用户意图“查询电影”等。值得注意的是,在实际应用中,第一语音信息可根据具体应用场景做灵活调整。在本实施例中,根据第一语音信息确定用户意图的步骤,可以包括以下步骤:
首先,对第一语音信息进行识别,获取第一识别文本;
然后,根据第一识别文本中的关键字确定用户意图。
可以理解的是,本实施例中接收到用户输入的第一语音信息,即获取到第一语音信息时,需要先对该第一语音信息进行识别,获取到第一识别文本,进一步地,再根据第一识别文本中的关键字确定用户意图;例如用户打开语音助手功能,输入第一语音信息A,则此时对第一语音信息A进行识别,获取到第一识别文本“我想查询天气”,进一步地,根据第一识别文本中的关键字“天气”则可以确定用户意图为“查询天气”。
步骤S21:根据用户意图对应的槽位输出目标提示语音信息。
应当明确的是,如果仅仅依靠第一语音信息中确定出的用户意图,机器助手实质上并不清楚用户意图对应的具体操作;例如仅知道用户意图为“查询天气”,并不知道具体是查询哪个地方、什么时候的天气,则机器助手此时会直接认定为不清楚用户意图对应的具体操作,从而导致此次的语音交互失败。
因此,本实施例中会为用户意图设定对应的槽位,以使得能够清楚用户意图对应的具体操作,例如请参照表一所示,为为不同用户意图设定的槽位表,称之为预设意图槽位表。
表一
用户意图 | 槽位 |
查询天气 | 时间、地点 |
查询话费 | 电话号码 |
查询电影 | 类型、主演名字、上映时间 |
....... | ....... |
由表一所示,用户意图“查询天气”对应的槽位有两个,分别是“时间”、“地点”;用户意图“查询话费”对应的槽位有一个,是“电话号码”;用户意图“查查询电影”对应的槽位有三个,分别是“类型”、“主演名字”、“上映时间”。值得注意的是,表一所示为为不同用户意图设定槽位的示例,在实际应用中,可根据具体应用场景做灵活调整。
在本实施例中,根据用户意图对应的槽位输出提示语音信息的步骤,可以包括以下两种方式,其中:
方式一:
首先,在预设用户意图槽位表中查找用户意图对应的槽位;
然后,在查找到至少两个槽位时,确定至少两个槽位分别对应的子提示语音信息;
其次,将至少两个子提示语音信息整合为一个目标提示语音信息;
再,输出目标提示语音信息。
可以理解的是,本实施例中确定出用户意图之后,便可以在预设意图槽位表中查找其对应的槽位,进而在查找到的槽位为至少两个时,确定至少两个槽位分别对应的子提示语音信息,再将至少两个子提示语音信息整合为一个目标提示语音信息进行输出。
为了更好地理解,这里以一个具体示例进行说明;例如,设确定出用户意图为“查询天气”,进而在表一所示的预设意图槽位表中查询到其对应的槽位为“时间”、“地点”,此时的槽位为两个,然后确定出槽位“时间”对应的子提示语音信息为“请问您想查询哪一天的天气?”,确定出槽位“地点”对应的子提示语音信息为“请问您想查询哪里的天气?”,进一步地,将确定出的两个子提示语音信息整合为一个目标提示语音信息“请问您想查询哪一天以及哪里的天气?”进行输出。
方式二:
首先,在预设用户意图槽位表中查找用户意图对应的槽位;
然后,在查找到至少两个槽位时,确定至少两个槽位分别对应的子提示语音信息;
其次,将至少两个子提示语音信息分别作为目标提示语音信息;
再,输出至少两个目标提示语音信息。
可以理解的是,本实施例中确定出用户意图之后,便可以在预设意图槽位表中查找其对应的槽位,进而在查找到的槽位为至少两个时,确定至少两个槽位分别对应的子提示语音信息,再将至少两个子提示语音信息分别作为目标提示语音信息并进行输出。
为了更好地理解,这里以一个具体示例进行说明;例如,设确定出用户意图为“查询天气”,进而在表一所示的预设意图槽位表中查询到其对应的槽位为“时间”、“地点”,此时的槽位为两个,然后确定出槽位“时间”对应的子提示语音信息为“请问您想查询哪一天的天气?”,并将其直接作为目标提示语音信息进行输出,确定出槽位“地点”对应的子提示语音信息为“请问您想查询哪里的天气?”,并将其直接作为目标提示语音信息进行输出。
其中,本实施例中将至少两个子提示语音信息分别作为目标提示语音信息,输出至少两个目标提示语音信息的步骤,可以包括:将至少两个子提示语音信息分别作为目标提示语音信息,并依次输出各目标提示语音信息。
一种示例中,在确定出各目标提示语音信息后,可以是依次进行输出,例如请参照图3所示。
其中,本实施例中将至少两个子提示语音信息分别作为目标提示语音信息,输出至少两个目标提示语音信息的步骤,可以包括:将至少两个子提示语音信息分别作为目标提示语音信息,先输出其中一个目标提示语音信息,并在接收到与其匹配成功的包含槽位值的第二语音信息时,输出第二个目标提示语音信息,依次循环直至所有的目标提示语音信息输出完毕。可以理解的是,此输出方式涉及到步骤S21和步骤S22的循环执行。
一种示例中,可以是先从各目标提示语音信息中选择一个进行输出,然后在接收到与其匹配成功的包含槽位值的第二语音信息时,再输出第二个目标提示语音信息,然后再接收到与其匹配成功的包含槽位值的第二语音信息时,再输出第三个目标提示语音信息,直至所有的目标提示语音信息输出完毕,例如请参照图4所示。
步骤S22:接收第二语音信息,并判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配成功;
若是,执行步骤S23,若否,则结束此次流程。
在本实施例中,将至少两个子提示语音信息整合为一个目标提示语音信息,输出目标提示语音信息的步骤之后,接收第二语音信息,并判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配的步骤,可以包括以下步骤:
首先,接收第二语音信息,将第二语音信息包含的槽位值与目标提示语音信息包含的至少两个槽位分别进行匹配;其中,获取到的第二语音信息可以是一条也可以是多条;
然后,判断第二语音信息包含的槽位值是否与目标提示语音信息包含的至少两个槽位均匹配成功。
为了更好地理解,这里以一个具体示例进行说明;例如,设输出的目标提示语音信息为“请问您想查询哪一天以及哪里的天气?”,获取到一条第二语音信息“明天、成都”,此时将第二语音信息中的槽位值“明天、成都”分别与目标提示语音信息中的“哪一天、哪里的”进行匹配。
应当明确的是,本实施例中是在第二语音信息包含的槽位值与目标提示语音信息包含的至少两个槽位均匹配成功时,此时则执行用户意图和各槽位值对应的操作。
为了更好地理解,这里以一个具体示例进行说明;例如,承接上述示例,明显地,第二语音信息中的槽位值“明天、成都”与目标提示语音信息中的槽位“哪一天、哪里的”均匹配成功,可见第二语音信息包含的槽位值与目标提示语音信息包含的所有槽位均匹配成功,则此时可以执行“查询成都明天的天气”的操作。
在本实施例中,将至少两个子提示语音信息分别作为目标提示语音信息,输出至少两个目标提示语音信息的步骤之后,接收第二语音信息,并判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配的步骤,可以包括以下步骤:
首先,接收至少两个目标提示语音信息对应的至少两个第二语音信息;
然后,判断各第二语音信息包含的槽位值分别与其对应的目标提示语音信息包含的槽位是否匹配成功。
可以理解的是,本实施例中在分别依次输出各目标提示语音信息之后,再获取与各目标提示语音信息对应的第二语音信息,并判断各第二语音信息包含的槽位值是否与其对应的目标提示语音信息包含的槽位匹配。
为了更好地理解,这里以一个具体示例进行说明;例如,分别依次输出“请问您想查询哪一天的天气?”以及“请问您想查询哪里的天气?”,然后接收到的第二语音信息分别为“明天”以及“成都”,此时判断第二语音信息中的槽位值“明天”是否与目标提示语音信息中的槽位“哪一天”匹配,以及判断第二语音信息中的槽位值“成都”是否与目标提示语音信息中的槽位“哪里的”匹配。
应当明确的是,本实施例中是在各第二语音信息包含的槽位值均分别与其对应的目标提示语音信息包含的槽位匹配成功时,此时则执行用户意图和各槽位值对应的操作。
为了更好地理解,这里以一个具体示例进行说明;例如,承接上述示例,明显地,第二语音信息中的槽位值“明天”与目标提示语音信息中的槽位“哪一天”匹配成功,以及第二语音信息中的槽位值“成都”与目标提示语音信息中的槽位“哪里的”匹配成功,可见所有的第二语音信息包含的槽位值均与其对应的目标提示语音信息包含的槽位匹配成功,则此时可以执行“查询成都明天的天气”的操作。
步骤S23:执行用户意图和槽位值对应的操作。
应当明确的是,已再上述进行说明,这里不再赘述。
本实施例中,通过先根据获取到的第一语音信息确定用户意图,然后根据用户意图对应的槽位输出目标提示语音信息以提示用户,使得可以接收用户根据目标提示语音信息输入的包含对应槽位值的第二语音信息,并在两者匹配成功时,执行用户意图和槽位值对应的操作;提升了识别用户意图的准确率,从而提升了语音交互的成功率,使得用户体验满意度更高。
基于第一实施例,提出本发明语音交互方法的第二实施例;在本实施例中,接收第一语音信息,并根据第一语音信息确定用户意图的步骤之前,语音交互方法还可以包括以下步骤:
获取多个用户意图;
分别对多个用户意图对应的槽位进行训练,生成预设用户意图槽位表。
本实施例中可以先根据多个用户意图构建其对应的训练样本;针对用户意图“查询天气”构建其对应的训练样本:天气、查询天气、帮我查天气信息、我想知道[明天](date-time)的天气、[星期一](date-time)的天气、[今天](date-time)的天气怎么样、帮我查下[后天](date-time)的天气、查下[成都](address)的天气、查下[深圳](address)的天气、查下[成都](address)[明天](date-time)的天气等;其中,在训练样本时,要标注其对应的槽位,且需保证训练样本数据的正确和槽位的准确,这样才能保证生成的预设用户意图槽位表的准确性。值得注意的是,这里所列举的只是针对用户意图“查询天气”的训练,在实际应用中,可根据具体应用场景做灵活调整。
本实施例中,通过获取多个用户意图,并分别对多个用户意图对应的槽位进行训练,从而可以生成预设用户意图槽位表,使得在语音交互过程中,可以根据确定出的用户意图和预设用户意图槽位表来输出目标提示语音信息,提升了识别用户意图的准确率,从而提升了语音交互的成功率,使得用户体验满意度更高。
基于上述各实施例,提出本发明语音交互方法的第三实施例;在本实施例中,判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配成功的步骤之后,语音交互方法还可以包括以下步骤:
若否,返回执行根据用户意图对应的槽位,输出目标提示语音信息的步骤。
本实施例中当第二语音信息包含的槽位值与目标提示语音信息包含的槽位匹配失败时,此时可以再返回执行根据用户意图对应的槽位,重新再输出目标提示语音信息的步骤,以再次提示用户输入对应的第二语音信息,例如请参照图5所示。
本实施例中,当第二语音信息包含的槽位值与目标提示语音信息包含的槽位匹配失败时,根据用户意图对应的槽位,重新再输出目标提示语音信息,避免了由于匹配失败而导致机器助手直接认定为不清楚用户意图对应的具体操作,此次语音交互失败的现象发生,进一步提升了语音交互的成功率,使得用户体验满意度更高。
此外,参照图6所示,本发明实施例在前述语音交互方法的基础上,还提出一种语音交互装置,语音交互装置包括:
第一接收模块60,用于接收第一语音信息;
确定模块61,用于根据第一语音信息确定用户意图;
输出模块62,用于根据用户意图对应的槽位输出目标提示语音信息;
第二接收模块63,用于接收第二语音信息;
判断模块64,用于判断第二语音信息包含的槽位值与目标提示语音信息包含的槽位是否匹配成功;
执行模块65,用于在第二语音信息包含的槽位值与目标提示语音信息包含的槽位匹配成功时,执行用户意图和槽位值对应的操作。
需要说明的是,本实施例中语音交互装置还可选的包括有对应的其他模块,以实现前述语音交互方法的步骤。
本发明的语音交互装置采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质上存储有语音交互程序,语音交互程序被处理器执行时实现如前述的语音交互方法的步骤。
该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically EraableProgrammable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储终端设备、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
可见,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、终端设备中的功能模块/单元可以被实施为软件(可以用计算终端设备可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音交互方法,其特征在于,所述语音交互方法包括:
接收第一语音信息,并根据所述第一语音信息确定用户意图;
根据所述用户意图对应的槽位,输出目标提示语音信息;
接收第二语音信息,并判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功;
若是,执行所述用户意图和所述槽位值对应的操作。
2.如权利要求1所述的语音交互方法,其特征在于,所述根据所述用户意图对应的槽位,输出目标提示语音信息的步骤,包括:
在预设用户意图槽位表中查找所述用户意图对应的槽位;
在查找到至少两个槽位时,确定所述至少两个槽位分别对应的子提示语音信息;
将至少两个所述子提示语音信息整合为一个目标提示语音信息;
输出所述目标提示语音信息。
3.如权利要求2所述的语音交互方法,其特征在于,所述接收第二语音信息,并判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功的步骤,包括:
接收第二语音信息,将所述第二语音信息包含的槽位值与所述目标提示语音信息包含的至少两个槽位分别进行匹配;
判断所述第二语音信息包含的槽位值是否与所述目标提示语音信息包含的至少两个槽位均匹配成功。
4.如权利要求1所述的语音交互方法,其特征在于,所述根据所述用户意图对应的槽位,输出目标提示语音信息的步骤,包括:
在预设用户意图槽位表中查找所述用户意图对应的槽位;
在查找到至少两个槽位时,确定所述至少两个槽位分别对应的子提示语音信息;
将至少两个所述子提示语音信息分别作为目标提示语音信息;
输出所述至少两个目标提示语音信息。
5.如权利要求4所述的语音交互方法,其特征在于,所述接收第二语音信息,并判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功的步骤,包括:
接收所述至少两个目标提示语音信息对应的至少两个第二语音信息;
判断各所述第二语音信息包含的槽位值分别与其对应的目标提示语音信息包含的槽位是否匹配成功。
6.如权利要求1-5中任一项所述的语音交互方法,其特征在于,所述接收第一语音信息,并根据所述第一语音信息确定用户意图的步骤之前,所述语音交互方法还包括:
获取多个用户意图;
分别对所述多个用户意图对应的槽位进行训练,生成预设用户意图槽位表。
7.如权利要求1-5中任一项所述的语音交互方法,其特征在于,所述判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功的步骤之后,所述语音交互方法还包括:
若否,返回执行所述根据所述用户意图对应的槽位,输出目标提示语音信息的步骤。
8.一种语音交互装置,其特征在于,所述语音交互装置包括:
第一接收模块,用于接收第一语音信息;
确定模块,用于根据所述第一语音信息确定用户意图;
输出模块,用于根据所述用户意图对应的槽位输出目标提示语音信息;
第二接收模块,用于接收第二语音信息;
判断模块,用于判断所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位是否匹配成功;
执行模块,用于在所述第二语音信息包含的槽位值与所述目标提示语音信息包含的槽位匹配成功时,执行所述用户意图和所述槽位值对应的操作。
9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行语音交互程序,所述语音交互程序被所述处理器执行时实现如权利要求1-7中任一项所述的语音交互方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音交互程序,所述语音交互程序被处理器执行时实现如权利要求1-7中任一项所述的语音交互方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366817.2A CN112530428A (zh) | 2020-11-26 | 2020-11-26 | 语音交互方法及装置、终端设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366817.2A CN112530428A (zh) | 2020-11-26 | 2020-11-26 | 语音交互方法及装置、终端设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112530428A true CN112530428A (zh) | 2021-03-19 |
Family
ID=74994966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011366817.2A Pending CN112530428A (zh) | 2020-11-26 | 2020-11-26 | 语音交互方法及装置、终端设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112530428A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842847A (zh) * | 2022-04-27 | 2022-08-02 | 中国第一汽车股份有限公司 | 一种车载用语音控制方法以及装置 |
CN117912464A (zh) * | 2023-12-19 | 2024-04-19 | 易显智能科技有限责任公司 | 车辆驾驶培训方法和系统、电子设备和存储介质 |
-
2020
- 2020-11-26 CN CN202011366817.2A patent/CN112530428A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842847A (zh) * | 2022-04-27 | 2022-08-02 | 中国第一汽车股份有限公司 | 一种车载用语音控制方法以及装置 |
CN114842847B (zh) * | 2022-04-27 | 2024-10-11 | 中国第一汽车股份有限公司 | 一种车载用语音控制方法以及装置 |
CN117912464A (zh) * | 2023-12-19 | 2024-04-19 | 易显智能科技有限责任公司 | 车辆驾驶培训方法和系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11417331B2 (en) | Method and device for controlling terminal, and computer readable storage medium | |
CN108650671B (zh) | 建立蓝牙连接的方法、装置、移动终端、存储介质与系统 | |
CN112530428A (zh) | 语音交互方法及装置、终端设备、计算机可读存储介质 | |
CN111277991B (zh) | 运营商名称显示方法、装置、移动终端和存储介质 | |
CN108933968B (zh) | 一种消息格式的转换方法、装置、存储介质及安卓终端 | |
CN108305621B (zh) | 一种语音指令处理方法及电子设备 | |
CN112380386A (zh) | 视频搜索方法及装置、终端、计算机可读存储介质 | |
CN112689172A (zh) | 节目播放方法、装置、机顶盒以及存储介质 | |
CN112765165A (zh) | 数据录入方法及装置、设备、计算机可读存储介质 | |
CN111916084A (zh) | 智能家居语音控制方法及装置、设备、存储介质 | |
CN105721015A (zh) | 一种复用Flash ROM的双通道移动终端 | |
CN113225234B (zh) | 资产探测方法、装置、终端设备以及计算机可读存储介质 | |
CN113873003B (zh) | 物联网中存储端和通信端之间的数据传输控制方法及系统 | |
CN112101553B (zh) | 网络结构搜索方法及装置、设备、存储介质 | |
CN112346885A (zh) | 电子设备控制方法、装置、设备以及计算机可读存储介质 | |
CN112489644A (zh) | 用于电子设备的语音识别方法及装置 | |
CN112185096A (zh) | 语音遥控方法、装置、电子设备和存储介质 | |
CN110996374B (zh) | 一种无线网络控制方法、装置、设备及介质 | |
KR102154324B1 (ko) | 배터리 충전 중 통화 품질을 향상시키는 전자 장치 및 방법 | |
CN109410555A (zh) | 终端控制方法、装置、终端及存储介质 | |
CN114422485B (zh) | 一种Zigbee无线智能设备的固件更新方法及装置 | |
CN111638897B (zh) | 系统更新方法、装置、终端设备及存储介质 | |
CN113115287B (zh) | 数据传输方法及装置 | |
CN112468952B (zh) | 定位方法、装置、存储介质及电子设备 | |
KR102279147B1 (ko) | Ap의 무선 접속정보 변경 방법 및 이를 이용한 iot시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |