CN112786048A - 一种语音交互方法、装置、电子设备和介质 - Google Patents
一种语音交互方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN112786048A CN112786048A CN202110245836.8A CN202110245836A CN112786048A CN 112786048 A CN112786048 A CN 112786048A CN 202110245836 A CN202110245836 A CN 202110245836A CN 112786048 A CN112786048 A CN 112786048A
- Authority
- CN
- China
- Prior art keywords
- user
- image
- interaction
- voice
- voice interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000000694 effects Effects 0.000 claims abstract description 47
- 230000002452 interceptive effect Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开公开了一种语音交互方法、装置、电子设备和介质,涉及计算机技术领域,尤其涉及语音技术、云计算及云服务技术领域。具体实现方案为:在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果;根据所述处理结果生成交互引导图像;向用户展示所述交互引导图像,用于引导用户继续进行语音交互。本公开实现了根据交互引导图像,高效、生动且直观的引导用户进行语音交互的效果,改善了用户体验。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及语音技术、云计算及云服务技术领域,特别涉及一种语音交互方法、装置、电子设备和介质。
背景技术
随着计算机技术的普及,当今人们的生活已经逐渐走入智能时代。人们的衣食住行的方方面面都开始应用各种智能技术,智能技术将在人们生活的各个方面提供方便快捷的服务。智能语音交互技术就是一种典型的智能技术。
当具备智能语音交互功能的设备被用户唤醒后,可与用户进行智能语音交互,以解决用户提出的问题。
发明内容
本公开提供了一种用于引导用户进行语音交互的方法、装置、电子设备和介质。
根据本公开的一方面,提供了一种语音交互方法,包括:
在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果;
根据所述处理结果生成交互引导图像;
向用户展示所述交互引导图像,用于引导用户继续进行语音交互。
根据本公开的另一方面,提供了一种语音交互装置,包括:
处理结果获取模块,用于在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果;
交互引导图像生成模块,用于根据所述处理结果生成交互引导图像;
交互引导图像展示模块,用于向用户展示所述交互引导图像,用于引导用户继续进行语音交互。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开中任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开中任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开中任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例公开的一种语音交互方法的流程图;
图2A是根据本申请实施例公开的一种语音交互方法的流程图;
图2B是根据本公开实施例公开的一种拾音引导图像的示意图;
图2C是根据本公开实施例公开的一种拾音符号的示意图;
图2D是根据本公开实施例公开的一种识别结果引导图像的示意图;
图2E是根据本公开实施例公开的一种图像展示方式的示意图;
图2F是根据本公开实施例公开的一种拼接图像的示意图;
图2G是根据本公开实施例公开的一种拼接图像的示意图;
图3是根据本公开实施例公开的一种语音交互装置的结构示意图;
图4是用来实现本公开实施例公开的语音交互方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
申请人在研发过程中发现,现有的语音交互产品通常是以单调的文字结合语音的形式与用户进行交互,这种交互方式不够直观和生动,且也无法高效的引导用户继续进行语音交互,用户体验较差。
图1是根据本公开实施例公开的一种语音交互方法的流程图,本实施例可以适用于引导用户进行语音交互的情况。本实施例方法可以由语音交互装置来执行,所述装置可采用软件和/或硬件实现,并可集成在任意的具有计算能力的电子设备上。
如图1所示,本实施例公开的语音交互方法可以包括:
S101、在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果。
其中,语音交互的过程表示语音交互产品根据用户的语音指令,与用户进行交互的过程。语音交互产品表示任意具有语音交互功能的设备,例如智能手机、智能音响和智能手表等。语音交互的过程包括但不限于语音识别功能唤醒过程、用户语音识别过程、用户意图识别过程和信息反馈过程。语音交互信息表示用户向语音交互产品发送的语音指令,包括但不限于语音唤醒指令和语音控制指令等,相应的,语音交互信息的处理结果包括但不限于语音识别功能已唤醒、语音识别功能未唤醒、用户语音识别结果以及用户意图识别结果等。
在一种实施方式中,在语音交互产品的语音识别功能唤醒过程中,用户向语音交互产品发送语音唤醒指令,语音交互产品搭载的收音装置,例如麦克风等,会采集语音唤醒指令,并提取语音唤醒指令的声学特征,且将提取的声学特征与预存的声学特征进行匹配,根据匹配结果得到处理结果。可选的,若提取的声学特征与预存的声学特征匹配,则开启语音交互产品的语音识别功能,即处理结果为语音识别功能已唤醒;若提取的声学特征与预存的声学特征不匹配,则不开启语音交互产品的语音识别功能,即处理结果为语音识别功能未唤醒。
可选的,除了以语音唤醒指令的方式来唤醒语音交互产品的语音识别功能以外,还可以通过人脸识别、指纹识别、虹膜识别或其他任意生物特征识别方式来唤醒语音交互产品的语音识别功能,本实施例并不对具体的唤醒方式进行限定。
在另一种实施方式中,在用户语音识别过程中,用户向语音交互产品发送语音控制指令,语音交互产品采集语音控制指令并对语音控制指令进行语音识别,并将用户语音识别结果作为处理结果。
在另一种实施方式中,在用户意图识别过程中,用户向语音交互产品发送语音控制指令,语音交互产品采集语音控制指令并对语音控制指令进行语音识别,并通过意图识别方法,例如基于词典以及模版的规则方法、基于查询点击日志方法或基于分类模型方法等,对用户语音识别结果进行意图识别,并将用户意图识别结果作为处理结果。
通过在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果,为后续生成交互引导图像奠定了基础。
S102、根据所述处理结果生成交互引导图像。
在一种实施方式中,根据处理结果的内容生成包含有文字信息的交互引导图像。其中,交互引导图像中的文字信息的字体、字号和字体粗细可根据需求进行设置;交互引导图像的形状可根据需求进行设置,可选的包括椭圆形形状;交互引导图像的背景效果可根据需求进行设置,例如背景效果包括纯色静态效果或渐变动态效果等。
可选的,在所述处理结果为语音识别功能已唤醒的情况下,生成包含有唤醒提示文字的拾音引导图像;其中,所述拾音引导图像用于提示所述用户语音识别功能已处于唤醒状态。
可选的,在所述处理结果为用户语音识别结果的情况下,生成包含有所述用户语音识别结果的识别结果引导图像。
可选的,在所述处理结果为用户意图识别结果的情况下,根据所述用户意图识别结果确定待反馈信息,并生成包含有所述待反馈信息的反馈信息引导图像。
通过根据处理结果生成交互引导图像,为后续向用户展示交互引导图像奠定了基础。
S103、向用户展示所述交互引导图像,用于引导用户继续进行语音交互。
在一种实施方式中,将交互引导图像在语音交互产品的显示屏中向用户进行可视化展示,用于引导用户基于交互引导图像继续与语音交互产品进行语音交互,例如交互引导图像为拾音引导图像时,当用户查看到拾音引导图像后,可向语音交互产品发送语音控制指令;又例如交互引导图像为识别结果引导图像时,当用户查看到识别结果引导图像后,可以校验自身发送的语音控制指令是否正确,且等待语音交互产品根据语音控制指令反馈信息;又例如交互引导图像为反馈信息引导图像时,当用户查看到反馈信息引导图像后,可确认反馈信息引导图像是否已满足自己的语音交互需求,若不满足则还可以继续与语音交互产品进行多轮的语音交互。
通过向用户展示交互引导图像,用于引导用户继续进行语音交互,实现了根据交互引导图像来引导用户进行语音交互的效果。
本公开通过在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果,并根据处理结果生成交互引导图像,进而向用户展示交互引导图像,用于引导用户继续进行语音交互,由于交互引导图像多姿多彩的特性,极易吸引用户的注意力,从而实现了高效、生动且直观的引导用户进行语音交互的效果,改善了用户体验。
…
图2A是根据本申请实施例公开的一种语音交互方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。
S201、在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果。
S202、在所述处理结果为语音识别功能已唤醒的情况下,执行S203;在所述处理结果为用户语音识别结果的情况下,执行S204;在所述处理结果为用户意图识别结果的情况下,执行S205。
S203、生成包含有唤醒提示文字的拾音引导图像;其中,所述拾音引导图像用于提示所述用户语音识别功能已处于唤醒状态。
示例性的,唤醒提示文字可以是“我在听”、“请讲话”或“语音识别功能已唤醒”等等。
图2B是根据本公开实施例公开的一种拾音引导图像的示意图,如图2B所示,200为拾音引导图像,201为唤醒提示文字。
可选的,拾音引导图像中包括拾音符号。
在一种实施方式中,拾音符号位于拾音引导图像内,且位于唤醒提示文字的左侧。
图2C是根据本公开实施例公开的一种拾音符号的示意图,如图2C所示,202为拾音引导图像,203为拾音符号,201为唤醒提示文字。
通过在拾音引导图像中设置拾音符号,使得用户能够更直观且轻易的获知用户语音识别功能已处于唤醒状态。
S204、生成包含有所述用户语音识别结果的识别结果引导图像。
示例性的,图2D是根据本公开实施例公开的一种识别结果引导图像的示意图,如图2D所示,204为识别结果引导图像,205为用户语音识别结果。
S205、根据所述用户意图识别结果确定待反馈信息,并生成包含有所述待反馈信息的反馈信息引导图像。
在一种实施方式中,语音交互产品根据用户意图识别结果,确定与该用户意图识别结果对应的反馈信息,并生成包含该反馈信息的反馈信息引导图像。例如,用户意图识别结果为“天气询问”,则其对应的反馈信息可以是“天气多云,气温20度”等。
S206、向用户展示交互引导图像,用于引导用户继续进行语音交互。
可选的,在交互引导图像是拾音引导图像的情况下,“向用户展示交互引导图像”,包括:
以预设动画效果向所述用户展示所述拾音引导图像中的拾音符号。
在一种实施方式中,拾音引导图像中的拾音符号会以预设动画效果进行展示,且拾音引导图像的背景效果以气泡滑动效果进行展示,与此同时,语音交互设备还会通过语音提醒的方式告知用户语音识别功能已唤醒。
通过以预设动画效果向用户展示所述拾音引导图像中的拾音符号,增强了用户对于语音识别功能已唤醒结果的感知。
可选的,所述预设动画效果包括渐隐渐现动画效果。即以周期性闪烁的方式展示拾音符号。
通过将拾音符号对应的预设动画效果设置为渐隐渐现动画效果,进一步的增强了用户对于语音识别功能已唤醒结果的感知。
本公开通过在处理结果为语音识别功能已唤醒的情况下,生成包含有唤醒提示文字的拾音引导图像,实现了引导用户发送语音控制指令的效果;通过在处理结果为用户语音识别结果的情况下,生成包含有用户语音识别结果的识别结果引导图像,使得用户可校验自身发送的语音控制指令是否正确,若不正确,用户可重新发送语音控制指令;通过在处理结果为用户意图识别结果的情况下,根据用户意图识别结果确定待反馈信息,并生成包含有待反馈信息的反馈信息引导图像,实现了根据用户语音控制指令相应反馈信息的效果,且用户还可确认反馈信息引导图像是否已满足自己的语音交互需求,若不满足则还可以继续与语音交互产品进行多轮的语音交互。
在上述实施例的基础上,可选的,S206中“向用户展示所述交互引导图像”,包括:
生成语音交互产品的标志图像,并将所述语音交互产品的标志图像和所述交互引导图像共同展示给用户。
其中,语音交互产品的标志图像包括但不限于语音交互产品的logo图像、商标图像或代言人图像等等。语音交互产品的标志图像可以以预设动画效果向用户进行展示,例如渐变动画效果、闪烁动画效果或旋转动画效果等。图2E是根据本公开实施例公开的一种图像展示方式的示意图,如图2E所示,其中206为语音交互产品的标志图像,207为交互引导图像。
通过生成语音交互产品的标志图像,并将语音交互产品的标志图像和交互引导图像共同展示给用户,起到了对语音交互产品的宣传作用,增加了用户对于语音交互产品的黏性。
可选的,“将所述语音交互产品的标志图像和所述交互引导图像共同展示给用户”,包括:
将所述语音交互产品的标志图像与所述交互引导图像进行图像拼接,并将得到的拼接图像向所述用户进行展示。
其中,图像拼接表示将两图像的边缘拼接在一起,以使得两图像之间不存在间隔。
图2F是根据本公开实施例公开的一种拼接图像的示意图,如图2F所示,拼接图像208包括语音交互产品的标志图像209和拾音引导图像210。图2G是根据本公开实施例公开的一种拼接图像的示意图,如图2G所示,拼接图像211包括语音交互产品的标志图像209和识别结果引导图像212。
通过将语音交互产品的标志图像与交互引导图像进行图像拼接,并将得到的拼接图像向所述用户进行展示,避免了用户出现视觉跳错,从而出现信息获取错误的问题,增加了语音交互产品的标志图像与交互引导图像中文字信息的紧密程度。
在上述实施例的基础上,根据不同处理结果所生成的交互引导图像具有不同的背景效果。
示例性的,拾音引导图像的背景效果为绿色背景,识别结果引导图像的背景效果为红色背景,反馈信息引导图像的背景效果为蓝色背景。本实施例并不对各交互引导图像的背景效果进行限定,凡是能够使得各交互引导图像产生视觉差异的背景效果都应在本实施例的保护范围中。
通过将不同处理结果所生成的交互引导图像设置不同的背景效果,使得用户能够更容易的区分不同的交互引导图像,方便用户继续进行语音交互。
可选的,将拾音引导图像和反馈信息引导图像的背景效果设置为第一效果,且将识别结果引导图像的背景效果设置为第二效果,第一效果与第二效果不同。这样可以使得用户轻易的获知哪些文字信息是语音交互设备产生的,哪些文字信息是由于自身发送的语音控制指令产生的,起到了区别显示的效果,方便用户继续进行语音交互。
图3是根据本公开实施例公开的一种语音交互装置的结构示意图,可以适用于引导用户进行语音交互的情况。本实施例装置可采用软件和/或硬件实现,并可集成在任意的具有计算能力的电子设备上。
如图3所示,本实施例公开的语音交互装置30可以包括处理结果获取模块31、交互引导图像生成模块32和交互引导图像展示模块33,其中:
处理结果获取模块31,用于在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果;
交互引导图像生成模块32,用于根据所述处理结果生成交互引导图像;
交互引导图像展示模块33,用于向用户展示所述交互引导图像,用于引导用户继续进行语音交互。
可选的,所述交互引导图像生成模块32,具体用于:
在所述处理结果为语音识别功能已唤醒的情况下,生成包含有唤醒提示文字的拾音引导图像;其中,所述拾音引导图像用于提示所述用户语音识别功能已处于唤醒状态。
可选的,所述拾音引导图像中包括拾音符号;
所述交互引导图像展示模块33,具体用于:
以预设动画效果向所述用户展示所述拾音引导图像中的拾音符号。
可选的,所述预设动画效果包括渐隐渐现动画效果。
可选的,所述交互引导图像生成模块32,具体还用于:
在所述处理结果为用户语音识别结果的情况下,生成包含有所述用户语音识别结果的识别结果引导图像。
可选的,所述交互引导图像生成模块32,具体还用于:
在所述处理结果为用户意图识别结果的情况下,根据所述用户意图识别结果确定待反馈信息,并生成包含有所述待反馈信息的反馈信息引导图像。
可选的,根据不同处理结果所生成的交互引导图像具有不同的背景效果。
可选的,所述交互引导图像展示模块33,具体还用于:
生成语音交互产品的标志图像,并将所述语音交互产品的标志图像和所述交互引导图像共同展示给用户。
可选的,所述交互引导图像展示模块33,具体还用于:
将所述语音交互产品的标志图像与所述交互引导图像进行图像拼接,并将得到的拼接图像向所述用户进行展示。
本公开实施例所公开的语音交互装置30可执行本公开实施例所公开的语音交互方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
…
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如语音交互方法。例如,在一些实施例中,语音交互方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的语音交互方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音交互方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (16)
1.一种语音交互方法,包括:
在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果;
根据所述处理结果生成交互引导图像;
向用户展示所述交互引导图像,用于引导用户继续进行语音交互。
2.根据权利要求1所述的方法,其中,所述根据所述处理结果生成交互引导图像,包括:
在所述处理结果为语音识别功能已唤醒的情况下,生成包含有唤醒提示文字的拾音引导图像;其中,所述拾音引导图像用于提示所述用户语音识别功能已处于唤醒状态。
3.根据权利要求2所述的方法,其中,所述拾音引导图像中包括拾音符号;
所述向用户展示所述交互引导图像,包括:
以预设动画效果向所述用户展示所述拾音引导图像中的拾音符号。
4.根据权利要求3所述的方法,其中,所述预设动画效果包括渐隐渐现动画效果。
5.根据权利要求1所述的方法,其中,所述根据所述处理结果生成交互引导图像,还包括:
在所述处理结果为用户语音识别结果的情况下,生成包含有所述用户语音识别结果的识别结果引导图像。
6.根据权利要求1所述的方法,其中,所述根据所述处理结果生成交互引导图像,还包括:
在所述处理结果为用户意图识别结果的情况下,根据所述用户意图识别结果确定待反馈信息,并生成包含有所述待反馈信息的反馈信息引导图像。
7.根据权利要求1所述的方法,其中,根据不同处理结果所生成的交互引导图像具有不同的背景效果。
8.根据权利要求1所述的方法,其中,所述向用户展示所述交互引导图像,包括:
生成语音交互产品的标志图像,并将所述语音交互产品的标志图像和所述交互引导图像共同展示给用户。
9.根据权利要求8所述的方法,其中,将所述语音交互产品的标志图像和所述交互引导图像共同展示给用户,包括:
将所述语音交互产品的标志图像与所述交互引导图像进行图像拼接,并将得到的拼接图像向所述用户进行展示。
10.一种语音交互装置,包括:
处理结果获取模块,用于在与用户进行语音交互的过程中,对语音交互信息进行处理得到处理结果;
交互引导图像生成模块,用于根据所述处理结果生成交互引导图像;
交互引导图像展示模块,用于向用户展示所述交互引导图像,用于引导用户继续进行语音交互。
11.根据权利要求10所述的装置,其中,所述交互引导图像生成模块,具体用于:
在所述处理结果为语音识别功能已唤醒的情况下,生成包含有唤醒提示文字的拾音引导图像;其中,所述拾音引导图像用于提示所述用户语音识别功能已处于唤醒状态。
12.根据权利要求11所述的装置,其中,所述拾音引导图像中包括拾音符号;
所述交互引导图像展示模块,具体用于:
以预设动画效果向所述用户展示所述拾音引导图像中的拾音符号。
13.根据权利要求12所述的装置,其中,所述预设动画效果包括渐隐渐现动画效果。
14.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
16.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245836.8A CN112786048A (zh) | 2021-03-05 | 2021-03-05 | 一种语音交互方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245836.8A CN112786048A (zh) | 2021-03-05 | 2021-03-05 | 一种语音交互方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112786048A true CN112786048A (zh) | 2021-05-11 |
Family
ID=75762264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110245836.8A Pending CN112786048A (zh) | 2021-03-05 | 2021-03-05 | 一种语音交互方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786048A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113472947A (zh) * | 2021-07-15 | 2021-10-01 | 中国联合网络通信集团有限公司 | 智能终端和智能终端控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149118A1 (en) * | 2012-11-28 | 2014-05-29 | Lg Electronics Inc. | Apparatus and method for driving electric device using speech recognition |
CN107305769A (zh) * | 2016-04-20 | 2017-10-31 | 斑马网络技术有限公司 | 语音交互处理方法、装置、设备及操作系统 |
CN109346076A (zh) * | 2018-10-25 | 2019-02-15 | 三星电子(中国)研发中心 | 语音交互、语音处理方法、装置和系统 |
CN111524516A (zh) * | 2020-04-30 | 2020-08-11 | 青岛海信网络科技股份有限公司 | 一种基于语音交互的控制方法、服务器及显示设备 |
CN111833868A (zh) * | 2020-06-30 | 2020-10-27 | 北京小米松果电子有限公司 | 语音助手控制方法、装置及计算机可读存储介质 |
-
2021
- 2021-03-05 CN CN202110245836.8A patent/CN112786048A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149118A1 (en) * | 2012-11-28 | 2014-05-29 | Lg Electronics Inc. | Apparatus and method for driving electric device using speech recognition |
CN107305769A (zh) * | 2016-04-20 | 2017-10-31 | 斑马网络技术有限公司 | 语音交互处理方法、装置、设备及操作系统 |
CN109346076A (zh) * | 2018-10-25 | 2019-02-15 | 三星电子(中国)研发中心 | 语音交互、语音处理方法、装置和系统 |
CN111524516A (zh) * | 2020-04-30 | 2020-08-11 | 青岛海信网络科技股份有限公司 | 一种基于语音交互的控制方法、服务器及显示设备 |
CN111833868A (zh) * | 2020-06-30 | 2020-10-27 | 北京小米松果电子有限公司 | 语音助手控制方法、装置及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113472947A (zh) * | 2021-07-15 | 2021-10-01 | 中国联合网络通信集团有限公司 | 智能终端和智能终端控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108027952B (zh) | 用于提供内容的方法和电子设备 | |
EP3340239A1 (en) | Electronic device and speech recognition method therefor | |
US20210352059A1 (en) | Message Display Method, Apparatus, and Device | |
KR102199193B1 (ko) | 핸드라이팅 정보 운용 방법 및 이를 지원하는 전자 장치 | |
CN111640426A (zh) | 用于输出信息的方法和装置 | |
CN107948437B (zh) | 熄屏显示方法和装置 | |
CN112382285A (zh) | 语音控制方法、装置、电子设备和存储介质 | |
CN117312140A (zh) | 测试用例的生成方法、装置、电子设备及存储介质 | |
CN112767935B (zh) | 唤醒指标监测方法、装置及电子设备 | |
CN112786048A (zh) | 一种语音交互方法、装置、电子设备和介质 | |
CN113157877B (zh) | 多语义识别方法、装置、设备和介质 | |
CN112652304B (zh) | 智能设备的语音交互方法、装置和电子设备 | |
CN114444438A (zh) | 文本的绘制方法及装置、电子设备和存储介质 | |
CN112382292A (zh) | 基于语音的控制方法和装置 | |
CN112422735A (zh) | 信息提示方法、装置及电子设备 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 | |
CN107770474B (zh) | 声音的处理方法、装置、终端设备和存储介质 | |
CN113554062B (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN116069319A (zh) | 一种表单渲染方法、装置、电子设备及存储介质 | |
CN114333017A (zh) | 一种动态拾音方法、装置、电子设备及存储介质 | |
CN113923477A (zh) | 视频处理方法、装置、电子设备以及存储介质 | |
CN113556649A (zh) | 智能音箱的播报控制方法和装置 | |
CN114118937A (zh) | 基于任务的信息推荐方法、装置、电子设备及存储介质 | |
CN113873323A (zh) | 视频播放方法、装置、电子设备和介质 | |
CN113344620A (zh) | 福利信息的发放方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210511 |