CN109256133A - 一种语音交互方法、装置、设备及存储介质 - Google Patents

一种语音交互方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109256133A
CN109256133A CN201811391685.1A CN201811391685A CN109256133A CN 109256133 A CN109256133 A CN 109256133A CN 201811391685 A CN201811391685 A CN 201811391685A CN 109256133 A CN109256133 A CN 109256133A
Authority
CN
China
Prior art keywords
target
voice
text
interactive voice
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811391685.1A
Other languages
English (en)
Inventor
程俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Kangdexin Optronics Material Co Ltd
Original Assignee
SHANGHAI WEI ZHOU MICROELECTRONICS TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI WEI ZHOU MICROELECTRONICS TECHNOLOGY Co Ltd filed Critical SHANGHAI WEI ZHOU MICROELECTRONICS TECHNOLOGY Co Ltd
Priority to CN201811391685.1A priority Critical patent/CN109256133A/zh
Publication of CN109256133A publication Critical patent/CN109256133A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces

Abstract

本发明公开了一种语音交互方法、装置、设备及存储介质,该方法可以应用于裸眼3D显示装置中,具体包括:当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本;提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本;将目标应答文本合成为目标应答语音进行播放。本发明实施例的技术方案,解决了现有技术中裸眼3D显示装置中无法实现人机交互的技术问题,实现了裸眼3D装置具备人机交互的功能,提高用户体验的技术效果。

Description

一种语音交互方法、装置、设备及存储介质
技术领域
本发明实施例涉及语音交互技术领域,尤其涉及一种语音交互方法、装置、设备及存储介质。
背景技术
用户在观看物体时,既可以感知物体的形状,也可以感知物体远离自己以及与物体的相对位置关系,能够显示这种完整的物体空间信息的显示器称为3D显示器。随着科学技术的发展,3D显示技术已经发展起来了。
但是,现有技术中的裸眼3D显示装置中还没有实现语音信息交互的功能。
发明内容
本发明提供一种语音交互方法、装置、设备及存储介质,以实现裸眼3D装置可以实现人机交互的技术效果。
第一方面,本发明实施例提供了一种语音交互方法,该方法应用于裸眼3D显示装置中,具体包括:
当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对所述目标交互语音进行分析处理,得到与所述目标交互语音相对应的目标交互文本;
提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本;
将所述目标应答文本合成为目标应答语音进行播放。
第二方面,本发明实施例还提供了一种语音交互装置,该装置包括:应用于裸眼3D装置中的交互语音处理模块、语言处理模块以及语音播放模块;
所述交互语音处理模块,用于当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对所述目标交互语音进行分析处理,得到与所述目标交互语音相对应的目标交互文本;
所述语言处理模块,用于提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本;
将所述语音播放模块,用于所述目标应答文本合成为目标应答语音进行播放。
第三方面,本发明实施例提供一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的语音交互方法。
第四方面,本发明实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的语音交互方法。
本发明实施例的技术方案通过裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音,并对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本;进一步提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本;最终将目标应答文本合成为目标应答语音进行播放,解决了现有技术中裸眼3D显示装置中无法实现人机交互的技术问题,实现了裸眼3D装置具备人机交互的功能,提高用户体验的技术效果。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种语音交互方法的流程示意图;
图2为本发明实施例二所提供的一种语音交互方法的另一流程示意图;
图3为本发明实施例三所提供的一种语音交互装置结构示意图;
图4为本发明实施例四所提供的一种设备结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种语音交互方法流程示意图,本实施例可应用于裸眼3D显示装置中,可以使裸眼3D显示装置实现语音交互的情况,该方法可以由语音交互装置来执行,该装置可以通过软件和/或硬件的形式实现。
如图1所述,本实施例的方法包括:
S110、当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本。
其中,指向性语音采集设备,可以设置在裸眼3D显示装置中,可选的,设置在显示屏幕的外边缘,用于采集一定范围内发出的语音。需要说明的是,指向性语音设备具有一定的采集范围,可选的,指向性采集设备可以采集语音区域为,以指向性采集设备为中心,以一至两米的长度为母线,顶角为60度的圆锥体,也就是说指向性采集设备的采集区域可以是一个圆锥体区域,这样的好处在于可以适用不同身高的用户,以满足不同用户的需求。相应的,目标区域就可以理解为,指向性采集设备可以采集到语音的圆锥体区域,也就是说指向性设备可以采集该区域内发出的语音,若在其它区域发出语音时,该设备是无法采集到的。目标区域内发出的语音可以称为交互语音,其中,目标区域内发出的语音可以是用户发出的,也可以是其它设备发出的,只要在该区域内发出语音就可以称之为交互语音。当采集到交互语音时,就可以对交互语音进行处理,若需要确定相应的应答内容,则认为交互语音为目标交互语音,若是不需要对交互语音作为相应的应答,则称之为交互语音。也就是说,交互语音可以包括目标交互语音,将需要进一步处理的语音作为目标交互语音。
需要说明的是,目标区域内用户的数量可以是一个、两个或者多个等,相应的采集到的语音可以是由多个用户发出的,当然也可以是其它设备发出的,只要在该区域内发出了语音,指向性采集设备就可以采集到语音。
示例性的,在目标区域内有甲乙两个用户在交谈,甲用户说道:“今天天气真好”,乙说“是的”,此时指向性采集设备可以采集到“今天天气真好”和“是的”的语音,将采集到的语音成为交互语音。进一步的,可以对语音所处的情境进行判定,也就是判断是否需要对交互语音做出相应的回应。从情境可以判定交互语音只是两个用户的交谈,没有相应的问答,因此可以不用对交互语音做出相应的回应。若是甲用户说,今天天气怎样,那么裸眼3D显示装置中相应的模块,就需要去查找今天天气怎么样的资料,那么此时的交互语音就可以是目标交互语音。
当采集到目标区域内的目标交互语音时,需要对交互语音进行分析处理。可选的,将采集到的目标交互语音由模拟信号转换为数字信号,将数字信号作为输入参数,输入至预先训练完成的目标声学模型中进行处理,得到与目标交互语音相对应的特征序列;将特征序列作为输入参数输入至预先训练完成的语言模型中进行处理,得到与目标交互语音相对应的目标交互文本。
可以理解为,为了提高对目标交互语音的处理效果,可以先对目标交互语音进行去噪处理,再进行分帧处理,也就是将去噪处理后的目标交互语音由模拟信号转换为数字信号。可选的,采集到的语音为“今天天气怎么样”,将“今天天气怎么样”的模拟信号转换为与“今天天气怎么样”的数字信号。
为了能够使计算机了解用户发出的语音是什么,还需要得到与目标交互语音相对应的特征序列,可以将目标交互语音的数字信号,输入至目标声学模型中来得到。示例性的,得到与“今天天气怎么样”的数字信号之后,将数字信号输入至预先训练完成的声学模型中,得到与目标交互语音相对应的特征序列。为了进一步确定用户或者设备发出的目标交互语音,将特征序列作为输入参数,输入至预先训练完成的语言模型中,得到与目标交互语音相对应的文本。在使用语言模型之前可以对语言模型进行训练,以使所述语言模型可以对不同种类语言进行处理。具体可以是,对词串进行统计建模生成匹配度模型。也就是将将特征序列输入到该模型时,可以得到与目标交互语音音相同的文字,并结合语境确定与目标交互语音相对应的目标交互文本。
需要说明的是,语言模型对特征序列进行处理时,可以确定与目标交互语音中每个字的拼音相同的很多个字,再结合整个语意语境,确定与目标交互语音对应的汉字。示例性的,将“今天天气怎么样”的特征序列输入至语言模型时,可以分别得到与“今”“天”“天”“气”“怎”“么”“样”各个拼音相对应的汉字,最终结合语句的情境,得到目标交互文本为“今天天气怎么样”。
需要说明的是,研发人员也可以设置相应的触发条件,可选的,当用户发出“请回答我”或者“开始工作”等语音时,可以对采集的语音进行处理,用户也可以设置其它触发语音。当然,用户也可以不设置触发条件,裸眼3D显示装置中指向性设备,可以实时采集目标区域内的语音,并对该语音进行分析处理,确定是否需要响应语音。
还需要说明的是,针对连续输入的交互语音,可以通过语音活动检测(VoiceActivity Detection,VAD)又称语音端点检测技术,实时检测语音信号,并实时处理。该技术可以实现,从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
具体的,当指向性设备采集到目标区域内,需要处理的交互语音时,可以将交互语音依次输入至目标声学模型、语言模型中,得到与目标交互语音相对应的目标交互文本。
S120、提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本。
其中,关键信息可以理解为,目标交互语音主要想表达的意思。示例性的,目标交互文本为“北京今天的天气怎么样”,主要想表达的意思就是北京今天的天气,那么目标交互文本的关键信息就可以是,北京、今天、天气。也就是说,关键信息,可以是时间、地点等信息,根据关键信息中的“今天、北京、天气”可以从本地数据库、浏览器、或者应用程序中找到与目标交互语音相对应的内容。可选的,今天天气多少度、有没有雾霾等等,可以对得到的信息进行整合处理,将整合处理后得到的文本称为目标应答文本。
示例性的,目标交互文本为“请讲一下东郭先生和狼的故事”,裸眼3D显示装置中相应的模块,提取目标交互文本中的关键词“讲、东郭先生和狼、故事”,根据这些关键词从网页中,获取东郭先生和狼的故事,并将该故事的内容整理为文本的形式,那么故事的内容就可以作为目标应答文本。
S130、将所述目标应答文本合成为目标应答语音进行播放。
可以理解为,在确定了目标应答文本之后,将目标应答文本播放出来,使用户得到听到相应的回答。
可选的,对目标应答文本中进行语法分析,确定将目标应答文本中每个词汇的发音;将每个词汇的发音进行韵律处理的到各词汇的音段特征,并将根据音段特征播放目标应答文本。
可以理解为,在确定目标应答文本之后,可以对目标应答文本进行语法分析、分词,使计裸眼3D装置中的应用程序可以理解文本意思,并根据理解确定文本中每个词汇的读音。可选的,每一个词的读音是什么。为了提高用户的体验,在确定了每个词汇的发音之后,进行韵律处理得到各个词汇的音段特征,可选的,确定每个词汇的音调、音长以及音强,使最终得到的语音可以正确的表达语意,听起来更加自然,从而使用户达到沉浸式的享受。
示例性的,当目标交互语音为,给我讲一个东郭先生和狼的故事,经过一系列处理找到对应的故事内容后,可以先对故事内容进行语法分析,确定每个词的读音,再对整个故事内容进行韵律处理,也就是确定每一个词在整个语句中的音调,即某一个词读平调、升调或者是降调,当然还可以确定音强,从而使播放的时候更加有丰富的情感,进而使用户有沉浸式的享受,可以提高用户体验的技术效果。本发明实施例的技术方案通过裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音,并对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本;进一步提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本;最终将目标应答文本合成为目标应答语音进行播放,解决了现有技术中裸眼3D显示装置中无法实现人机交互的技术问题,实现了裸眼3D装置具备人机交互的功能,提高用户体验的技术效果。
在上述各技术方案的基础,当接收到的目标交互语音为打开所述裸眼3D显示装置的应用程序时,则执行打开应用程序的操作。可以理解为,当接收到打开某一个应用程序的语音时,可以对该语音进行处理,进而执行与交互语音相对应的操作。
在上述技术方案的基础上,可以预先训练目标声学模型,具体可以是基于贝叶斯统计建模框架最大后验概率决策准则,对预先建立的初始声学模型进行训练得到目标声学模型。将数字信号作为输入参数,输入至目标声学模型时,就可以得到与每个数字信号相对应的特征序列。
实施例二
图2为本发明实施例二所提供的一种语音交互方法另一流程示意图。如图2所述,本实施例的方法包括:
S210、当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本。
具体可以是,当采集到目标区域内的目标交互语音时,经过一些列的处理,可以得到与目标交互语音相对应的交互文本。
S220、对目标交互文本进行分词以及词性标记,并提取目标交互文本中的关键词。
其中,关键词包括语音文本中的时间、地点、人物、事件、原因或者结果中的至少一种。在获取到目标交互文本后,还需要根据关键词确定与目标交互文本相对应的应答内容。
具体的,将目标文本进行分词以及确定每个词的词性,进而提取交互文本中的关键词。其中,关键词也可以是目标交互文本中重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币或者专有名词等都可以是关键词,提取关键词的目的也就是要清楚,谁在什么时候、什么原因、对谁、做了什么事、有什么结果。
S230、根据关键词获取与目标交互语音相对应的至少一个应答文本,作为候选应答文本。
当获取到关键词后,可以根据关键词可以从数据库或者网站中,获取与目标交互文本相对应的至少一个候选应答文本。也就是说,当与目标交互语音相对应的答案有很多个时,可以将很多个答案取出来,作为与目标交互文本相对应的候选应答文本。
需要说明的是,当目标交互语音的问题较为复杂时,需要从网页中查找相关的内容,也就是对信息进行挖掘,相应的回答也会有很多,因此可以确定至少一个候选应答文本。
S240、根据预设规则将候选应答文本进行排序,将排在第一个位置的候选应答文本作为目标应答文本。
其中,预设规则可以是根据文本关联度、点击阅读的次数等,工作人员可以根据实际需求设置预设规则,在此不做限定。若预设规则是点击阅读的次数,那么将至少一个候选文本按点击次数进行排序,将排在第一个位置的候选应答文本作为目标应答文本。
S250、将所述目标应答文本翻译为与预先设置的语音类别相对应的应答文本。
其中,预先设置的语音类别包括英语、日语、法语、或者中文中的至少一种,所述中文包括中文普通话以及中文方言。
需要说明的是,在用户使用该裸眼3D显示装置时,可以先设置播放的语言类型,可选的,设置语言类型为汉语普通话,相应的,对目标应答文件可以用普通话进行播放。示例性的,预先设置播放语言的类型为英语,若采集到的目标交互语音的语言类型为普通话,则可以将普通话自动翻译为应为英文,从网页中查找与目标交互语音相对应的目标应答文本,用英文进行播放,或者直接根据普通话的内容查找到对应的汉语答案,再将其翻译为英文进行播放,工作人员可以根据实际需求选择语言的转换方式,在此不作限定。这个过程也可以理解为机器翻译,把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。还可以是,目标交互语音为将中国翻译为英语,则可以直接将中国转换为英语进行播放。当然,若是预设播放方式为其它类型的语言,执行的方式可以是相同的,在此不再一一赘述。
S260、将所述目标应答文本合成为目标应答语音进行播放。
可以理解为,在确定了目标应答文本之后,将目标应答文本播放出来,使用户得到听到相应的回答。
需要说明的是,本实施例中所限定的步骤没有明显的先后顺序,可以根据实际需求执行。
本发明实施例的技术方案通过裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音,并对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本;进一步提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本;最终将目标应答文本合成为目标应答语音进行播放,解决了现有技术中裸眼3D显示装置中无法实现人机交互的技术问题,实现了裸眼3D装置具备人机交互的功能,提高用户体验的技术效果。
实施例三
图3为本发明实施例三提供的一种语音交互装置的结构示意图,该语音交互装置包括:应用在裸眼3D显示装置中的交互语音处理模块310、语言处理模块320以及语音播放模块330。
其中,交互语音处理模块310,用于当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本;语言处理模块320,用于提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本;将语音播放模块330,用于目标应答文本合成为目标应答语音进行播放。
在上述技术方案的基础上,所述语音处理模块,还用于将采集到的所述目标交互语音由模拟信号转换为数字信号,将所述数字信号作为输入参数,输入至预先训练完成的目标声学模型中进行处理,得到与所述目标交互语音相对应的特征序列;将所述特征序列作为输入参数输入至预先训练完成的语言模型中进行处理,得到与所述目标交互语音相对应的目标交互文本。
在上述各技术方案的基础上,语音交互装置还包括建模模块,所述建模模块用于基于贝叶斯统计建模框架最大后验概率决策准则,对预先建立的初始声学模型进行训练得到目标声学模型。
在上述各技术方案的基础上,所述语言处理模块还用于对所述目标交互文本进行分词以及词性标记,并提取所述目标交互文本中的关键词;根据所述关键词获取与所述目标交互语音相对应的至少一个应答文本,作为候选应答文本;根据预设规则将所述候选应答文本进行排序,将排在第一个位置的所述候选应答文本作为目标应答文本;其中,所述关键词包括所述语音文本中的时间、地点、人物、事件、原因或者结果中的至少一种。
在上述各技术方案的基础上,所述语言处理模块还用于将所述目标应答文本翻译为与预先设置的语音类别相对应的应答文本;其中,预先设置的语音类别包括英语、日语、法语、或者中文中的至少一种,所述中文包括中文普通话以及中文方言。
在上述各技术方案的基础上,语音交互装置还包括执行模块,所述执行模块,用于当接收到的语音信息为打开所述裸眼3D显示装置的应用程序时,则执行打开应用程序的操作。
在上述各技术方案的基础上,所述语音播放模块还用于:对所述目标应答文本中进行语法分析,确定将所述目标应答文本中每个词汇的发音;将所述每个词汇的发音进行韵律处理的到各所述词汇的音段特征,并将根据所述音段特征播放所述目标应答文本。
本发明实施例的技术方案通过裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音,并对目标交互语音进行分析处理,得到与目标交互语音相对应的目标交互文本;进一步提取目标交互文本中的关键信息,并根据关键信息获取目标交互语音相对应的目标应答文本;最终将目标应答文本合成为目标应答语音进行播放,解决了现有技术中裸眼3D显示装置中无法实现人机交互的技术问题,实现了裸眼3D装置具备人机交互的功能,提高用户体验的技术效果。
本发明实施例所提供的语音交互装置可执行本发明任意实施例所提供的语音交互方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例四
图4为本发明实施例四提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施例实施方式的示例性设备40的框图。图4显示的设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备40以通用计算设备的形式表现。设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线404。
总线404表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线404相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该设备40交互的设备通信,和/或与使得该设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线404与设备40的其它模块通信。应当明白,尽管图4中未示出,可以结合设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的语音交互方法。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行语音交互方法。
该方法包括:当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对所述目标交互语音进行分析处理,得到与所述目标交互语音相对应的目标交互文本;提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本;将所述目标应答文本合成为目标应答语音进行播放。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种语音交互方法,应用于裸眼3D显示装置中,其特征在于,包括:
当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对所述目标交互语音进行分析处理,得到与所述目标交互语音相对应的目标交互文本;
提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本;
将所述目标应答文本合成为目标应答语音进行播放。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标交互语音进行分析处理,得到与所述目标交互语音相对应的目标交互文本包括:
将采集到的所述目标交互语音由模拟信号转换为数字信号,将所述数字信号作为输入参数,输入至预先训练完成的目标声学模型中进行处理,得到与所述目标交互语音相对应的特征序列;
将所述特征序列作为输入参数输入至预先训练完成的语言模型中进行处理,得到与所述目标交互语音相对应的目标交互文本。
3.根据权利要求2所述的方法,其特征在于,还包括:
基于贝叶斯统计建模框架最大后验概率决策准则,对预先建立的初始声学模型进行训练得到目标声学模型。
4.根据权利要求1所述的方法,其特征在于,所述提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本,包括:
对所述目标交互文本进行分词以及词性标记,并提取所述目标交互文本中的关键词;
根据所述关键词获取与所述目标交互语音相对应的至少一个应答文本,作为候选应答文本;
根据预设规则将所述候选应答文本进行排序,将排在第一个位置的所述候选应答文本作为目标应答文本;
其中,所述关键词包括所述语音文本中的时间、地点、人物、事件、原因或者结果中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本,包括:
将所述目标应答文本翻译为与预先设置的语音类别相对应的应答文本;
其中,预先设置的语音类别包括英语、日语、法语、或者中文中的至少一种,所述中文包括中文普通话以及中文方言。
6.根据权利要求1所述的方法,其特征在于,还包括:
当接收到的目标交互语音为打开所述裸眼3D显示装置的应用程序时,则执行打开应用程序的操作。
7.根据权利要求1所述的方法,其特征在于,将所述目标应答文本合成为目标应答语音进行播放,包括:
对所述目标应答文本中进行语法分析,确定将所述目标应答文本中每个词汇的发音;
将所述每个词汇的发音进行韵律处理的到各所述词汇的音段特征,并将根据所述音段特征播放所述目标应答文本。
8.一种语音交互装置,其特征在于,包括:应用于裸眼3D装置中的交互语音处理模块、语言处理模块以及语音播放模块;
所述交互语音处理模块,用于当裸眼3D显示装置中的指向性语音采集设备采集到目标区域内的目标交互语音时,对所述目标交互语音进行分析处理,得到与所述目标交互语音相对应的目标交互文本;
所述语言处理模块,用于提取所述目标交互文本中的关键信息,并根据所述关键信息获取所述目标交互语音相对应的目标应答文本;
将所述语音播放模块,用于所述目标应答文本合成为目标应答语音进行播放。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的语音交互方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的语音交互方法。
CN201811391685.1A 2018-11-21 2018-11-21 一种语音交互方法、装置、设备及存储介质 Pending CN109256133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811391685.1A CN109256133A (zh) 2018-11-21 2018-11-21 一种语音交互方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811391685.1A CN109256133A (zh) 2018-11-21 2018-11-21 一种语音交互方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109256133A true CN109256133A (zh) 2019-01-22

Family

ID=65043776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811391685.1A Pending CN109256133A (zh) 2018-11-21 2018-11-21 一种语音交互方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109256133A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807093A (zh) * 2019-10-30 2020-02-18 中国联合网络通信集团有限公司 语音处理方法、装置及终端设备
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN111145721A (zh) * 2019-12-12 2020-05-12 科大讯飞股份有限公司 个性化提示语生成方法、装置和设备
CN111312213A (zh) * 2020-03-31 2020-06-19 广东美的制冷设备有限公司 空调器的语音处理方法、装置、空调器和可读存储介质
CN111462726A (zh) * 2020-03-30 2020-07-28 中国建设银行股份有限公司 一种外呼应答方法、装置、设备及介质
CN112542173A (zh) * 2020-11-30 2021-03-23 珠海格力电器股份有限公司 一种语音交互方法、装置、设备和介质
CN113220265A (zh) * 2021-05-28 2021-08-06 海信集团控股股份有限公司 汽车及语音的应答文本的显示方法
WO2022089197A1 (zh) * 2020-10-27 2022-05-05 北京字节跳动网络技术有限公司 信息提示方法、装置、电子设备及存储介质
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455389A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1598925A (zh) * 2002-11-15 2005-03-23 中国科学院声学研究所 语音识别系统
CN1607576A (zh) * 2002-11-15 2005-04-20 中国科学院声学研究所 一种语音识别系统
WO2011156195A2 (en) * 2010-06-09 2011-12-15 Dynavox Systems Llc Speech generation device with a head mounted display unit
CN106774836A (zh) * 2016-11-23 2017-05-31 上海擎感智能科技有限公司 智能眼镜及其控制方法、控制装置
CN107102728A (zh) * 2017-03-28 2017-08-29 北京犀牛数字互动科技有限公司 基于虚拟现实技术的显示方法及系统
CN108288468A (zh) * 2017-06-29 2018-07-17 腾讯科技(深圳)有限公司 语音识别方法及装置
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
CN108509430A (zh) * 2018-04-10 2018-09-07 京东方科技集团股份有限公司 智能眼镜及其翻译方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455389A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1598925A (zh) * 2002-11-15 2005-03-23 中国科学院声学研究所 语音识别系统
CN1607576A (zh) * 2002-11-15 2005-04-20 中国科学院声学研究所 一种语音识别系统
WO2011156195A2 (en) * 2010-06-09 2011-12-15 Dynavox Systems Llc Speech generation device with a head mounted display unit
CN106774836A (zh) * 2016-11-23 2017-05-31 上海擎感智能科技有限公司 智能眼镜及其控制方法、控制装置
CN107102728A (zh) * 2017-03-28 2017-08-29 北京犀牛数字互动科技有限公司 基于虚拟现实技术的显示方法及系统
CN108288468A (zh) * 2017-06-29 2018-07-17 腾讯科技(深圳)有限公司 语音识别方法及装置
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
CN108509430A (zh) * 2018-04-10 2018-09-07 京东方科技集团股份有限公司 智能眼镜及其翻译方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110853621B (zh) * 2019-10-09 2024-02-13 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110807093A (zh) * 2019-10-30 2020-02-18 中国联合网络通信集团有限公司 语音处理方法、装置及终端设备
CN111145721A (zh) * 2019-12-12 2020-05-12 科大讯飞股份有限公司 个性化提示语生成方法、装置和设备
CN111145721B (zh) * 2019-12-12 2024-02-13 科大讯飞股份有限公司 个性化提示语生成方法、装置和设备
CN111462726B (zh) * 2020-03-30 2023-08-22 中国建设银行股份有限公司 一种外呼应答方法、装置、设备及介质
CN111462726A (zh) * 2020-03-30 2020-07-28 中国建设银行股份有限公司 一种外呼应答方法、装置、设备及介质
CN111312213A (zh) * 2020-03-31 2020-06-19 广东美的制冷设备有限公司 空调器的语音处理方法、装置、空调器和可读存储介质
WO2022089197A1 (zh) * 2020-10-27 2022-05-05 北京字节跳动网络技术有限公司 信息提示方法、装置、电子设备及存储介质
CN112542173A (zh) * 2020-11-30 2021-03-23 珠海格力电器股份有限公司 一种语音交互方法、装置、设备和介质
CN113220265A (zh) * 2021-05-28 2021-08-06 海信集团控股股份有限公司 汽车及语音的应答文本的显示方法
CN115101048B (zh) * 2022-08-24 2022-11-11 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质

Similar Documents

Publication Publication Date Title
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
JP7122341B2 (ja) 翻訳品質を評価するための方法と装置
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
CN110800046A (zh) 语音识别及翻译方法以及翻译装置
CN1742273A (zh) 多模态语音-语音语言翻译和显示
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
JP2001502828A (ja) 言語間の翻訳のための方法および装置
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
López-Ludeña et al. Methodology for developing an advanced communications system for the Deaf in a new domain
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN110517668A (zh) 一种中英文混合语音识别系统及方法
EP3404555A1 (en) Speech converter
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
Dhanjal et al. An optimized machine translation technique for multi-lingual speech to sign language notation
US20210264812A1 (en) Language learning system and method
Bangalore et al. Balancing data-driven and rule-based approaches in the context of a multimodal conversational system
US11587561B2 (en) Communication system and method of extracting emotion data during translations
CN111354362A (zh) 用于辅助听障者交流的方法和装置
CN114125506A (zh) 语音审核方法及装置
Reddy et al. Indian sign language generation from live audio or text for tamil
Mean Foong et al. V2s: Voice to sign language translation system for malaysian deaf people
Graham et al. Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200408

Address after: 215634 north side of Chengang road and west side of Ganghua Road, Jiangsu environmental protection new material industrial park, Zhangjiagang City, Suzhou City, Jiangsu Province

Applicant after: ZHANGJIAGANG KANGDE XIN OPTRONICS MATERIAL Co.,Ltd.

Address before: 201203, room 5, building 690, No. 202 blue wave road, Zhangjiang hi tech park, Shanghai, Pudong New Area

Applicant before: WZ TECHNOLOGY Inc.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122