CN107450367A - 一种语音透传方法、装置及机器人 - Google Patents

一种语音透传方法、装置及机器人 Download PDF

Info

Publication number
CN107450367A
CN107450367A CN201710685248.XA CN201710685248A CN107450367A CN 107450367 A CN107450367 A CN 107450367A CN 201710685248 A CN201710685248 A CN 201710685248A CN 107450367 A CN107450367 A CN 107450367A
Authority
CN
China
Prior art keywords
speech
user
speech message
user speech
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710685248.XA
Other languages
English (en)
Inventor
王勇斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Siyixuan Robot Technology Co Ltd
Original Assignee
Shanghai Siyixuan Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Siyixuan Robot Technology Co Ltd filed Critical Shanghai Siyixuan Robot Technology Co Ltd
Priority to CN201710685248.XA priority Critical patent/CN107450367A/zh
Publication of CN107450367A publication Critical patent/CN107450367A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本申请提供了一种语音透传方法、装置及机器人,通过对接收到的用户语音消息进行应用模式确定,可以针对不同应用模式对该用户语音消息执行对应的处理操作,从而增加了机器人与用户之间人机交互呈现方式的多样性,当确定出用户语音消息的应用模式为语音播放模式时,播放该用户语音消息给用户,当确定出用户语音消息的应用模式为语音解析模式时,对该用户语音消息进行语音解析,从而可以将用户语音消息转化成可供机器人直接识别的语音指令,以便机器人执行对应该语音指令的动作,来完成机器人与用户之间的人机互动,既解决了机器人不能与用户进行直接交互的问题,又提高了机器人的智能化程度。

Description

一种语音透传方法、装置及机器人
技术领域
本发明涉及机器人控制技术领域,更具体的说,是涉及一种语音透传方法、装置及机器人。
背景技术
随着科技的飞速跃进,机器人被广泛应用于多个领域,且逐渐向智能化方向发展。
目前,机器人可以在开启状态下,通过运行预先编写的程序,来执行相应的动作指令,以完成各种任务。然而现今市面上的机器人只能重复执行与自身预置程序所对应的动作,如扫地,与用户之间无法交互,进而无法接受用户的实时指挥,来完成用户当前所需的动作任务。
发明内容
有鉴于此,本发明提供了一种语音透传方法、装置及机器人,解决了机器人不能与用户进行交互的问题,进而提高了机器人的智能化程度。
为实现上述目的,本发明提供如下技术方案:
一种语音透传方法,应用于机器人,包括:
接收用户语音消息和按键指令;
依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
执行对应所述语音指令的动作;
当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
优选地,所述接收用户语音消息和按键指令,包括:
通过服务器从移动终端接收所述用户语音消息和按键指令。
优选地,所述当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令,包括:
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
获取每一个所述语音关键词的词类;
根据所述词类,从所述语音关键词中选择出目标关键词,作为所述语音指令,所述目标关键词包括词类为动词的语音关键词。
优选地,所述当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本,包括:
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行去噪处理;
提取去噪处理后的所述用户语音消息的语音特征参数;
从语音文本库中匹配出对应所述语音特征参数的所述语音文本。
优选地,所述执行对应所述语音指令的动作,包括:
根据所述语音指令,从动作库中匹配出对应所述语音指令的动作,并执行。
优选地,所述当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令,包括:
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
从所述语音关键词中选择出情感关键词;
根据所述情感关键词,从情感文本库中匹配出对应所述情感关键词的情感语句,作为所述语音指令;
相应的,所述执行对应所述语音指令的动作,具体为:播放所述情感语句。
一种语音透传装置,应用于机器人,包括:
接收模块,用于接收用户语音消息和按键指令;
确定模块,用于依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
语音解析模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
第一动作执行模块,用于执行对应所述语音指令的动作;
第一播放模块,用于当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
优选地,所述语音解析模块包括:
第一声波信号转化模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
第一分词处理模块,用于对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
获取模块,用于获取每一个所述语音关键词的词类;
第一选择模块,用于根据所述词类,从所述语音关键词中选择出目标关键词,作为所述语音指令,所述目标关键词包括词类为动词的语音关键词。
优选地,所述第一声波信号转化模块包括:
去噪模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行去噪处理;
特征提取模块,用于提取去噪处理后的所述用户语音消息的语音特征参数;
第一匹配模块,用于从语音文本库中匹配出对应所述语音特征参数的所述语音文本。
优选地,所述第一动作执行模块包括:
第一动作执行子模块,用于根据所述语音指令,从动作库中匹配出对应所述语音指令的动作,并执行。
优选地,所述语音解析模块包括:
第二声波信号转化模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
第二分词处理模块,用于对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
第二选择模块,用于从所述语音关键词中选择出情感关键词;
第二匹配模块,用于根据所述情感关键词,从情感文本库中匹配出对应所述情感关键词的情感语句,作为所述语音指令;
相应的,所述第一动作执行模块,还用于播放所述情感语句。
一种机器人,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于处理所述程序,其中,所述程序包括:
接收用户语音消息和按键指令;
依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
执行对应所述语音指令的动作;
当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种语音透传方法、装置及机器人,通过对接收到的用户语音消息进行应用模式确定,可以针对不同应用模式对该用户语音消息执行对应的处理操作,从而增加了机器人与用户之间人机交互呈现方式的多样性,当确定出用户语音消息的应用模式为语音播放模式时,播放该用户语音消息给用户,当确定出用户语音消息的应用模式为语音解析模式时,对该用户语音消息进行语音解析,从而可以将用户语音消息转化成可供机器人直接识别的语音指令,以便机器人执行对应该语音指令的动作,来完成机器人与用户之间的人机互动,既解决了机器人不能与用户进行直接交互的问题,又提高了机器人的智能化程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音透传方法的方法流程图;
图2为本发明实施例提供的一种语音文本的生成方法的方法流程图;
图3为本发明实施例提供的另一种语音透传方法的方法流程图;
图4为本发明实施例提供的另一种语音透传方法的方法流程图;
图5为本发明实施例提供的一种语音透传装置的结构示意图;
图6为本发明实施例提供的另一种语音透传装置的结构示意图;
图7为本发明实施例提供的一种语音文本的生成装置的结构示意图;
图8为本发明实施例提供的另一种语音透传装置的结构示意图;
图9为本发明实施例提供的一种机器人的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种语音透传方法,应用于机器人,请参见附图1,所述方法具体包括以下步骤:
S101:接收用户语音消息和按键指令;
具体的,用户语音消息可以是包含至少一个字的发音的声波信号,如“走”、“转圈”、“今天好开心啊”等。
按键指令可以是用户点击模式按键而生成的输入指令,主要用于机器人确定对应用户语音消息的应用模式。例如,用户点击“模式按键1”,则生成对应“模式按键1”的“按键指令1”;用户点击“模式按键3”,则生成对应“模式按键3”的“按键指令3”。
需要说明的是,用户语音消息与按键指令的生成顺序本方案并不限定,可以是用户语音消息先于按键指令生成,或是按键指令先于用户语音消息生成,还可以是用户语音消息与按键指令同时生成。
S102:依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
具体的,针对接收到的不同用户语音消息,可以为其匹配各自对应的应用模式,进而执行不同应用模式所对应的处理操作,以增加机器人与用户之间人机交互呈现方式的多样性。其中,用户语音消息所对应的应用模式的确定方式可以是机器人识别按键指令进行确定,如:机器人中设置“按键指令1”为“语音解析模式”,“按键指令2”为“语音播放模式”,则在接收到“按键指令2”时,可以快速确定出接收到的用户语音消息所对应的应用模式为“语音播放模式”。
S103:当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令,并执行S105;
具体的,当确定出用户语音消息的应用模式为语音解析模式时,需要对S101接收到的用户语音消息进行语音解析操作,进而将其转化成可供机器人直接识别的语音指令,以便机器人顺利执行后续相关操作。
S104:当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放;
具体的,当确定出用户语音消息的应用模式为语音播放模式时,需要将S101接收到的用户语音消息再次播放给用户。例如,机器人接收到的用户语音消息为“我今天真漂亮”,且判断出该用户语音消息的应用模式为语音播放模式时,机器人就播放“我今天真漂亮”给用户听。其中,机器人播放用户语音消息的方式可以是通过机器人上的音响设备如扬声器进行播放。
需要说明的是,机器人播放用户语音消息时,可以采用预置语音包中的任意一种语音进行播放,如利用“林志玲姐姐的语音”来播放。
S105:执行对应所述语音指令的动作;
具体的,机器人依据进行了语音解析操作后所生成的语音指令,可以快速执行与该语音指令所对应的动作,进而实现了机器人与用户之间的人机互动。
本发明实施例所公开的一种语音透传方法,应用于机器人,通过对接收到的用户语音消息进行应用模式确定,可以针对不同应用模式对该用户语音消息执行对应的处理操作,从而增加了机器人与用户之间人机交互呈现方式的多样性,当确定出用户语音消息的应用模式为语音播放模式时,播放该用户语音消息给用户,当确定出用户语音消息的应用模式为语音解析模式时,对该用户语音消息进行语音解析,从而可以将用户语音消息转化成可供机器人直接识别的语音指令,以便机器人执行对应该语音指令的动作,来完成机器人与用户之间的人机互动,既解决了机器人不能与用户进行直接交互的问题,又提高了机器人的智能化程度。
可选的,上述附图1所对应实施例中的S101的具体实现过程包括:
通过服务器从移动终端接收所述用户语音消息和按键指令。
具体的,移动终端与机器人之间通过连接同一个服务器,以预先建立一条连通移动终端与机器人的数据传输通路,从而在移动终端将生成的用户语音消息和按键指令通过该数据传输通路先传输到服务器上,之后再由服务器将其传输给机器人,以便实现移动终端利用用户语音消息和按键指令远程控制机器人,提高了机器人的智能控制程度。
用户语音消息可以是用户输入到移动终端上的声波信号,相应的,按键指令可以是用户点击移动终端上的模式按键而生成的。其中,用户语音消息可以是包含至少一个字的发音的声波信号,用户语音消息输入到移动终端的方式可以是用户利用移动终端上的语音录入设备如麦克风进行输入。
本发明实施例中,通过经由服务器接收从移动终端传输来的用户语音消息和按键指令,可以实现利用移动终端远程控制机器人,以进行人机互动的目的,提高了机器人的实用性和智能化程度。
在上述附图1所对应实施例的基础上,本发明实施例公开了另一种语音透传方法,应用于机器人,请参见附图2,所述方法具体包括以下步骤:
S201:接收用户语音消息和按键指令。
S202:依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式。
S203:当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本,并执行S205;
具体的,声波信号转化主要用于将接收到的声波信号转化成对应的机器人可识别的一个或一组词语,也就是说,将接收到的用户语音消息转化成与之对应的一个语音文本的过程。例如,接收到的用户语音消息为“抬头转圈”,那么经过声波信号转化后生成的语音文本对应为“抬头转圈”,两者的表达方式不同。
S204:当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
S205:对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个,并执行S206;
举例说明,经过声波信号转化生成的语音文本为“低头跳舞”,对该语音文本“低头跳舞”进行分词处理,可以生成“低头”和“跳舞”这两个语音关键词。
需要说明的是,对语音文本进行的分词处理方式可以是依据词语的词类完成分词操作,还可以是依据词语之间的关联性强弱完成分词操作。
下面针对依据词语的词类完成分词操作进行举例说明,生成的语音文本为“给我马上跳舞”,则按照词语的词类,可以将语音文本切分成:词类为名词的“我”,词类为动词的“给”、“跳舞”,词类为副词的“马上”,因此,生成“给”、“我”、“马上”和“跳舞”四个语音关键词。
下面针对依据词语之间的关联性强弱完成分词操作进行举例说明,生成的语音文本为“现在播放音乐”,则按照词语之间的关联性强弱,可以将语音文本切分成:“现在”和“播放音乐”这两个语音关键词。
S206:获取每一个所述语音关键词的词类,并执行S207;
具体的,生成的每一个语音关键词可以具有一种或多种词类,如生成的语音关键词为“播放视频”,那么该语音关键词的词类包含“动词”和“名词”两种词类。
S207:根据所述词类,从所述语音关键词中选择出目标关键词,作为所述语音指令,所述目标关键词包括词类为动词的语音关键词,并执行S208;
举例说明,生成的语音关键词为:“立刻”、“抬左臂”和“转圈”,这三个语音关键词各自的词类分别为:“副词”、“动词+名词”以及“动词”,则依据每一个语音关键词的词类,可以选择出包含词类为动词的两个目标关键词:“抬左臂”和“转圈”,进而将“抬左臂”和“转圈”作为语音指令,以便机器人执行对应的动作。
需要说明的是,选择出来的目标关键词的个数可以为一个或多个。相应的,生成的语音指令的个数也可以是一个或多个,当语音指令的个数为多个时,语音指令的生成顺序可以按照目标关键词的选择先后顺序而设定。例如,依次选择出来的目标关键词为:“抬左臂”和“转圈”,则两个语音指令生成的先后顺序也为:“抬左臂”和“转圈”。
S208:根据所述语音指令,从动作库中匹配出对应所述语音指令的动作,并执行;
具体的,动作库可以是预先建立的,主要存放动作,便于后续控制机器人执行匹配出来的相应动作,其中,动作库中的动作与语音指令存在关联关系,从而可以依据生成的语音指令快速从动作库中匹配出与之具有关联关系的动作。
需要说明的是,语音指令的个数可以是一个或多个,当语音指令的个数为多个时,可以按照语音指令的生成顺序依次匹配出对应的动作并执行。
本发明实施例所公开的一种语音透传方法,应用于机器人,通过在用户语音消息的应用模式为语音解析模式时,对用户语音消息进行声波信号转化,可以将其转化生成可供机器人直接识别的语音文本,加快了机器人识别语音消息的速度,之后,对该语音文本进行分词处理,并依据词类进行选择,可以快速、精准地获得可作为语音指令的目标关键词,进而从动作库中匹配出与之对应的动作,以便机器人执行该动作,来完成机器人与人之间的直接交互,可见,对用户语音消息依次进行声波信号转化、分词处理,可以加快机器人完成人机交互的速率和准确度,进而提高机器人的智能化程度。
针对S203的当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本,本发明实施例公开了一种语音文本的生成方法,应用于机器人,请参见附图3,所述方法具体包括以下步骤:
S301:当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行去噪处理;
具体的,为了提高机器人对接收到的用户语音消息进行语音解析的准确率,可以对其进行去噪处理,以避免外界噪音的干扰,其中,去噪的方式可以是采用音频去噪软件,在此不做限定。
S302:提取去噪处理后的所述用户语音消息的语音特征参数;
具体的,语音特征参数是指语音信号能够反映语音本质的特征参数,则从去噪处理后的用户语音消息中提取语音特征参数可以是从去噪处理后的用户语音消息中抽取能够反映语音本质的特征参数,形成特征矢量序列,用于后续的匹配操作。其中,提取的语音特征参数可以是线性预测倒谱系数(LPCC)、美尔频标倒谱系数(MFCC)中的任意一种或两种的组合。
S303:从语音文本库中匹配出对应所述语音特征参数的所述语音文本;
具体的,语音文本库可以是预先建立的,主要存放多个语音文本,且每一个语音文本与语音特征参数之间存在关联关系,从而可以依据S302提取出的用户语音消息的语音特征参数,快速从语音文本库中匹配出与之具有关联关系的语音文本。
本发明实施例中,通过对接收到的用户语音消息进行去噪处理,可以有效降低外界噪音的干扰,提高后续语音文本的匹配准确率,之后提取去噪处理后的用户语音消息的语音特征参数,作为从语音文本库中获得对应语音文本的匹配依据,可以加快语音文本的生成速度。
在上述附图1所对应实施例的基础上,本发明实施例公开了另一种语音透传方法,应用于机器人,请参见附图4,所述方法具体包括以下步骤:
S401:接收用户语音消息和按键指令。
S402:依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式。
S403:当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本,并执行S405。
S404:当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
S405:对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个,并执行S406。
S406:从所述语音关键词中选择出情感关键词,并执行S407;
具体的,情感关键词主要是指表达用户情绪的相关词语,可以包含快乐、伤感、愤怒、厌烦、好感等方面情绪的相关词语。举例说明,分词处理后生成4个语音关键词,分别为:“我”、“今天”、“很”以及“难受”,则选择出来的情感关键词为“难受”。
S407:根据所述情感关键词,从情感文本库中匹配出对应所述情感关键词的情感语句,作为所述语音指令,并执行S408;
具体的,情感文本库可以预先建立,主要用于存放涉及人类不同情感的多个情感语句,如涉及快乐的情感语句“保持微笑!一切都会好起来的”,涉及伤感的情感语句“你今天好孤独啊”,涉及厌烦的情感语句“有时生活是不易的”,涉及好感的情感语句“我会一直支持你”等等。
情感文本库中的情感语句与情感关键词之间存在正向或反向关联关系,从而可以依据S406生成的情感关键词快速从情感文本库中匹配出与之具有正向或反向关联关系的情感语句。举例说明,生成的情感关键词为“糟糕”,可以从情感文本库中匹配出与之具有正向关联关系的情感语句“有时生活是不易的”,还可以从情感文本库中匹配出与之具有反向关联关系的情感语句“保持微笑!一切都会好起来的”。
S408:播放所述情感语句;
具体的,将匹配出来的情感语句播放给用户,可以实现机器人与用户语音聊天的目的,从而增强了机器人与人之间的互动。
本发明实施例所公开的一种语音透传方法,应用于机器人,通过在用户语音消息的应用模式为语音解析模式时,对该用户语音消息依次进行声波信号转化和分词处理,以便从生成的多个语音关键词中准确选择出情感关键词,作为从情感文本库中获得对应情感语句的匹配依据,最后将情感语句进行播放,可以提高机器人与用户之间的情感交流互动机率,增加机器人聊天的趣味性,间接提高了机器人的智能化程度。
本发明实施例公开了一种语音透传装置,应用于机器人,请参见附图5,包括:
接收模块501,用于接收用户语音消息和按键指令;
确定模块502,用于依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
语音解析模块503,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
第一动作执行模块504,用于执行对应所述语音指令的动作;
第一播放模块505,用于当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
本发明实施例所公开的一种语音透传装置,应用于机器人,通过确定模块502对接收到的用户语音消息进行应用模式确定,可以针对不同应用模式对该用户语音消息执行对应的处理操作,从而增加了机器人与用户之间人机交互呈现方式的多样性,当确定出用户语音消息的应用模式为语音播放模式时,第一播放模块505播放该用户语音消息给用户,当确定出用户语音消息的应用模式为语音解析模式时,语音解析模块503对该用户语音消息进行语音解析,从而可以将用户语音消息转化成可供机器人直接识别的语音指令,以便机器人执行对应该语音指令的动作,来完成机器人与用户之间的人机互动,既解决了机器人不能与用户进行直接交互的问题,又提高了机器人的智能化程度。
本发明实施例提供的各个模块的工作过程,请参照附图1所对应的方法流程图,具体工作过程不再赘述。
本发明实施例公开了另一种语音透传装置,应用于机器人,请参见附图6,包括:
接收模块501,确定模块502,语音解析模块503,第一动作执行模块504和第一播放模块505;
其中,所述语音解析模块503包括:
第一声波信号转化模块5031,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
第一分词处理模块5032,用于对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
获取模块5033,用于获取每一个所述语音关键词的词类;
第一选择模块5034,用于根据所述词类,从所述语音关键词中选择出目标关键词,作为所述语音指令,所述目标关键词包括词类为动词的语音关键词。
所述第一动作执行模块504具体包括:
第一动作执行子模块5041,用于根据所述语音指令,从动作库中匹配出对应所述语音指令的动作,并执行。
本发明实施例所公开的一种语音透传装置,应用于机器人,通过第一声波信号转化模块5031在用户语音消息的应用模式为语音解析模式时,对用户语音消息进行声波信号转化,可以将其转化生成可供机器人直接识别的语音文本,加快了机器人识别语音消息的速度,之后,第一分词处理模块5032对该语音文本进行分词处理,再由第一选择模块5034依据词类进行选择,可以快速、精准地获得可作为语音指令的目标关键词,以便第一动作执行子模块5041从动作库中匹配出与之对应的动作,以便机器人执行该动作,来完成机器人与人之间的直接交互,可见,对用户语音消息依次进行声波信号转化、分词处理,可以加快机器人完成人机交互的速率和准确度,进而提高机器人的智能化程度。
本发明实施例提供的各个模块的工作过程,请参照附图2所对应的方法流程图,具体工作过程不再赘述。
请参见附图7,上述附图6所对应实施例中的第一声波信号转化模块5031具体包括:
去噪模块50311,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行去噪处理;
特征提取模块50312,用于提取去噪处理后的所述用户语音消息的语音特征参数;
第一匹配模块50313,用于从语音文本库中匹配出对应所述语音特征参数的所述语音文本。
本发明实施例中,通过去噪模块50311对接收到的用户语音消息进行去噪处理,可以有效降低外界噪音的干扰,提高后续语音文本的匹配准确率,之后特征提取模块50312提取去噪处理后的用户语音消息的语音特征参数,第一匹配模块50313将提取到的语音特征参数作为从语音文本库中获得对应语音文本的匹配依据,可以加快语音文本的生成速度。
本发明实施例提供的各个模块的工作过程,请参照附图3所对应的方法流程图,具体工作过程不再赘述。
本发明实施例公开了另一种语音透传装置,应用于机器人,请参见附图8,包括:
接收模块501,确定模块502,语音解析模块503,第一动作执行模块504和第一播放模块505;
其中,所述语音解析模块503包括:
第二声波信号转化模块5035,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
第二分词处理模块5036,用于对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
第二选择模块5037,用于从所述语音关键词中选择出情感关键词;
第二匹配模块5038,用于根据所述情感关键词,从情感文本库中匹配出对应所述情感关键词的情感语句,作为所述语音指令;
相应的,所述第一动作执行模块504,还用于播放所述情感语句。
本发明实施例所公开的一种语音透传装置,应用于机器人,通过在用户语音消息的应用模式为语音解析模式时,利用第二声波信号转化模块5035、第二分词处理模块5036依次对该用户语音消息进行声波信号转化和分词处理,可以令第二选择模块5037从生成的多个语音关键词中准确选择出情感关键词,以便第二匹配模块5038将选择出来的情感关键词作为从情感文本库中获得对应情感语句的匹配依据,并由第一动作执行模块504将情感语句进行播放,提高了机器人与用户之间的情感交流互动机率,增加机器人聊天的趣味性,间接提高了机器人的智能化程度。
本发明实施例提供的各个模块的工作过程,请参照附图4所对应的方法流程图,具体工作过程不再赘述。
本发明实施例公开了一种机器人,请参见附图9,包括存储器601和处理器602;
所述存储器601,用于存储程序;
所述处理器602,用于处理所述程序,其中,所述程序包括:
接收用户语音消息和按键指令;
依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
执行对应所述语音指令的动作;
当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
本发明实施例所公开的一种机器人,通过处理器602处理存储器601中预先存储的程序,可以使机器人“听懂”人的语音,进而做出反映,以实现人与机器人之间的互动,其中,处理器602处理的程序具体包括:对接收到的用户语音消息进行应用模式确定,从而可以针对不同应用模式对该用户语音消息执行对应的处理操作,以增加了机器人与用户之间人机交互呈现方式的多样性,当确定出用户语音消息的应用模式为语音播放模式时,播放该用户语音消息给用户,当确定出用户语音消息的应用模式为语音解析模式时,对该用户语音消息进行语音解析,从而可以将用户语音消息转化成可供机器人直接识别的语音指令,以便机器人执行对应该语音指令的动作,来完成机器人与用户之间的人机互动,既解决了机器人不能与用户进行直接交互的问题,又提高了机器人的智能化程度。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种语音透传方法,其特征在于,应用于机器人,包括:
接收用户语音消息和按键指令;
依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
执行对应所述语音指令的动作;
当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
2.根据权利要求1所述的方法,其特征在于,所述接收用户语音消息和按键指令,包括:
通过服务器从移动终端接收所述用户语音消息和按键指令。
3.根据权利要求1所述的方法,其特征在于,所述当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令,包括:
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
获取每一个所述语音关键词的词类;
根据所述词类,从所述语音关键词中选择出目标关键词,作为所述语音指令,所述目标关键词包括词类为动词的语音关键词。
4.根据权利要求3所述的方法,其特征在于,所述当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本,包括:
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行去噪处理;
提取去噪处理后的所述用户语音消息的语音特征参数;
从语音文本库中匹配出对应所述语音特征参数的所述语音文本。
5.根据权利要求3所述的方法,其特征在于,所述执行对应所述语音指令的动作,包括:
根据所述语音指令,从动作库中匹配出对应所述语音指令的动作,并执行。
6.根据权利要求1所述的方法,其特征在于,所述当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令,包括:
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
从所述语音关键词中选择出情感关键词;
根据所述情感关键词,从情感文本库中匹配出对应所述情感关键词的情感语句,作为所述语音指令;
相应的,所述执行对应所述语音指令的动作,具体为:播放所述情感语句。
7.一种语音透传装置,其特征在于,应用于机器人,包括:
接收模块,用于接收用户语音消息和按键指令;
确定模块,用于依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
语音解析模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
第一动作执行模块,用于执行对应所述语音指令的动作;
第一播放模块,用于当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
8.根据权利要求7所述的装置,其特征在于,所述语音解析模块包括:
第一声波信号转化模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
第一分词处理模块,用于对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
获取模块,用于获取每一个所述语音关键词的词类;
第一选择模块,用于根据所述词类,从所述语音关键词中选择出目标关键词,作为所述语音指令,所述目标关键词包括词类为动词的语音关键词。
9.根据权利要求8所述的装置,其特征在于,所述第一声波信号转化模块包括:
去噪模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行去噪处理;
特征提取模块,用于提取去噪处理后的所述用户语音消息的语音特征参数;
第一匹配模块,用于从语音文本库中匹配出对应所述语音特征参数的所述语音文本。
10.根据权利要求8所述的装置,其特征在于,所述第一动作执行模块包括:
第一动作执行子模块,用于根据所述语音指令,从动作库中匹配出对应所述语音指令的动作,并执行。
11.根据权利要求7所述的装置,其特征在于,所述语音解析模块包括:
第二声波信号转化模块,用于当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行声波信号转化,生成语音文本;
第二分词处理模块,用于对所述语音文本进行分词处理,生成语音关键词,所述语音关键词的个数至少为一个;
第二选择模块,用于从所述语音关键词中选择出情感关键词;
第二匹配模块,用于根据所述情感关键词,从情感文本库中匹配出对应所述情感关键词的情感语句,作为所述语音指令;
相应的,所述第一动作执行模块,还用于播放所述情感语句。
12.一种机器人,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于处理所述程序,其中,所述程序包括:
接收用户语音消息和按键指令;
依据所述按键指令,确定所述用户语音消息的应用模式,所述应用模式包括语音解析模式和语音播放模式;
当所述用户语音消息的应用模式为语音解析模式时,对所述用户语音消息进行语音解析,生成语音指令;
执行对应所述语音指令的动作;
当所述用户语音消息的应用模式为语音播放模式时,将所述用户语音消息进行播放。
CN201710685248.XA 2017-08-11 2017-08-11 一种语音透传方法、装置及机器人 Pending CN107450367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710685248.XA CN107450367A (zh) 2017-08-11 2017-08-11 一种语音透传方法、装置及机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710685248.XA CN107450367A (zh) 2017-08-11 2017-08-11 一种语音透传方法、装置及机器人

Publications (1)

Publication Number Publication Date
CN107450367A true CN107450367A (zh) 2017-12-08

Family

ID=60491913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710685248.XA Pending CN107450367A (zh) 2017-08-11 2017-08-11 一种语音透传方法、装置及机器人

Country Status (1)

Country Link
CN (1) CN107450367A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172226A (zh) * 2018-01-27 2018-06-15 上海萌王智能科技有限公司 一种可学习应答语音和动作的语音控制机器人
CN108198559A (zh) * 2018-01-26 2018-06-22 上海萌王智能科技有限公司 一种可学习动作的语音控制机器人系统
CN108806688A (zh) * 2018-07-16 2018-11-13 深圳Tcl数字技术有限公司 智能电视的语音控制方法、智能电视、系统及存储介质
CN108920128A (zh) * 2018-07-12 2018-11-30 苏州思必驰信息科技有限公司 演示文稿的操作方法及系统
JP2019211754A (ja) * 2018-06-04 2019-12-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
CN112104962A (zh) * 2020-10-30 2020-12-18 北京声智科技有限公司 一种基于图像识别的跟随式机器人扩声方法及扩声系统
CN112104964A (zh) * 2020-11-18 2020-12-18 北京声智科技有限公司 一种跟随式扩声机器人的控制方法及控制系统
CN112104963A (zh) * 2020-10-30 2020-12-18 北京声智科技有限公司 一种跟随式机器人扩声方法及系统
CN112965603A (zh) * 2021-03-26 2021-06-15 南京阿凡达机器人科技有限公司 一种人机交互的实现方法和系统
CN113628624A (zh) * 2021-10-12 2021-11-09 深圳市沃易科技有限公司 基于语音识别实现信息分类识别的楼宇智控呼叫方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812171B2 (en) * 2007-04-26 2014-08-19 Ford Global Technologies, Llc Emotive engine and method for generating a simulated emotion for an information system
CN104104793A (zh) * 2014-06-30 2014-10-15 百度在线网络技术(北京)有限公司 一种音频处理方法及装置
CN104493827A (zh) * 2014-11-17 2015-04-08 福建省泉州市第七中学 智能认知机器人及其认知系统
CN104698986A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 汉语语音遥控机器人的控制器装置
CN105260416A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种基于语音识别的搜索方法及装置
CN105511260A (zh) * 2015-10-16 2016-04-20 深圳市天博智科技有限公司 一种幼教陪伴型机器人及其交互方法和系统
CN106658129A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 基于情绪的终端控制方法、装置及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812171B2 (en) * 2007-04-26 2014-08-19 Ford Global Technologies, Llc Emotive engine and method for generating a simulated emotion for an information system
CN104698986A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 汉语语音遥控机器人的控制器装置
CN104104793A (zh) * 2014-06-30 2014-10-15 百度在线网络技术(北京)有限公司 一种音频处理方法及装置
CN104493827A (zh) * 2014-11-17 2015-04-08 福建省泉州市第七中学 智能认知机器人及其认知系统
CN105260416A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种基于语音识别的搜索方法及装置
CN105511260A (zh) * 2015-10-16 2016-04-20 深圳市天博智科技有限公司 一种幼教陪伴型机器人及其交互方法和系统
CN106658129A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 基于情绪的终端控制方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张毅 编: "《移动机器人技术基础与制作》", 31 January 2013, 哈尔滨工业大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198559A (zh) * 2018-01-26 2018-06-22 上海萌王智能科技有限公司 一种可学习动作的语音控制机器人系统
CN108172226A (zh) * 2018-01-27 2018-06-15 上海萌王智能科技有限公司 一种可学习应答语音和动作的语音控制机器人
JP2019211754A (ja) * 2018-06-04 2019-12-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
CN108920128A (zh) * 2018-07-12 2018-11-30 苏州思必驰信息科技有限公司 演示文稿的操作方法及系统
CN108806688A (zh) * 2018-07-16 2018-11-13 深圳Tcl数字技术有限公司 智能电视的语音控制方法、智能电视、系统及存储介质
CN112104962A (zh) * 2020-10-30 2020-12-18 北京声智科技有限公司 一种基于图像识别的跟随式机器人扩声方法及扩声系统
CN112104963A (zh) * 2020-10-30 2020-12-18 北京声智科技有限公司 一种跟随式机器人扩声方法及系统
CN112104964A (zh) * 2020-11-18 2020-12-18 北京声智科技有限公司 一种跟随式扩声机器人的控制方法及控制系统
CN112104964B (zh) * 2020-11-18 2022-03-11 北京声智科技有限公司 一种跟随式扩声机器人的控制方法及控制系统
CN112965603A (zh) * 2021-03-26 2021-06-15 南京阿凡达机器人科技有限公司 一种人机交互的实现方法和系统
CN113628624A (zh) * 2021-10-12 2021-11-09 深圳市沃易科技有限公司 基于语音识别实现信息分类识别的楼宇智控呼叫方法

Similar Documents

Publication Publication Date Title
CN107450367A (zh) 一种语音透传方法、装置及机器人
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
US11398236B2 (en) Intent-specific automatic speech recognition result generation
CN110111775B (zh) 一种流式语音识别方法、装置、设备及存储介质
US9286897B2 (en) Speech recognizer with multi-directional decoding
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
US10089974B2 (en) Speech recognition and text-to-speech learning system
US9679564B2 (en) Human transcriptionist directed posterior audio source separation
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
Sugiura et al. Rospeex: A cloud robotics platform for human-robot spoken dialogues
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
CN104036774A (zh) 藏语方言识别方法及系统
CN104157285A (zh) 语音识别方法、装置及电子设备
CN110097890A (zh) 一种语音处理方法、装置和用于语音处理的装置
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN110691258A (zh) 一种节目素材制作方法、装置及计算机存储介质、电子设备
Kong et al. Audio flamingo: A novel audio language model with few-shot learning and dialogue abilities
Kruijff-Korbayová et al. Spoken language processing in a conversational system for child-robot interaction
CN104882141A (zh) 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统
CN105006179A (zh) 语音输入的内容跟读方法和装置
CN104932862A (zh) 基于语音识别的多角色交互方法
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
CN109119073A (zh) 基于多源识别的语音识别方法、系统、音箱及存储介质
CN106782546A (zh) 语音识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 201207 Shanghai City, Pudong New Area Chinese (Shanghai) free trade zone fanchun Road No. 400 Building 1 layer 3

Applicant after: SHANGHAI SIYIXUAN ROBOT TECHNOLOGY CO., LTD.

Address before: 200233 room F6, room 4, building No. 34, Guiping Road, Xuhui District, Xuhui District, Shanghai

Applicant before: SHANGHAI SIYIXUAN ROBOT TECHNOLOGY CO., LTD.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208