CN111816188A - 用于智能机器人的人机语音交互方法 - Google Patents

用于智能机器人的人机语音交互方法 Download PDF

Info

Publication number
CN111816188A
CN111816188A CN202010581588.XA CN202010581588A CN111816188A CN 111816188 A CN111816188 A CN 111816188A CN 202010581588 A CN202010581588 A CN 202010581588A CN 111816188 A CN111816188 A CN 111816188A
Authority
CN
China
Prior art keywords
intelligent robot
user
voice
users
interaction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010581588.XA
Other languages
English (en)
Inventor
王俊清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangzhou Longwenweike Information Technology Co Ltd
Original Assignee
Zhangzhou Longwenweike Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangzhou Longwenweike Information Technology Co Ltd filed Critical Zhangzhou Longwenweike Information Technology Co Ltd
Priority to CN202010581588.XA priority Critical patent/CN111816188A/zh
Publication of CN111816188A publication Critical patent/CN111816188A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了用于智能机器人的人机语音交互方法,包括:获取多个用户输入的语音信息,建立声纹特征数据库;判断用户所属的年龄段,分别划分到成年人组和未成年人组;若某用户属于未成人年组,则在获取到该用户的语音指令时,智能机器人的人机语音交互模式自动切换至未成年人模式;当接收到某一用户输入的语音指令时,将其与声纹特征数据库中进行匹配,并定义同一用户;为每个用户赋予一个唯一身份序列号;建立针对用户的个性化信息库。本发明在对用户根据年龄进行分类的同时,还根据用户的声纹特征和使用习惯建立个个性化数据化,不仅保护了用户接受信息的安全,更方便了用户的学习和生活。

Description

用于智能机器人的人机语音交互方法
技术领域
本发明属于智能机器人技术领域,涉及用于智能机器人的人机语音交互方法。
背景技术
随着科技的发展,智能化设备的智能化程度越来越高,产品类型越来越多,应用越来越广泛。比如目前日益火爆的天猫精灵、小度、小爱同学等产品,可以连接家中很多常用设备,无需自我操作,语音交互即可实现对设备的操作。并且,也可通过语音交互点播用户喜爱的视频、音乐等项目,因此,受到广大家庭的极大喜爱,正逐步走进人们的生活。然而,家庭成员中有成人也有儿童,现有的诸如以上提及的智能机器人设置在进行人机交互时,并不能根据用户的年龄不同而提供相适宜的语音交互内容,这势必会影响与之交互的少年儿童的健康发育。此外,智能机器人还存在时时刻刻开机自动获取语音信息的状态,这是极大的个人隐私可能会泄露的隐患。因此,对其进行改造以满足用户的需求和保护用户的隐私是目前亟需解决的重大问题。
发明内容
本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
本发明还有一个目的是提供用于智能机器人的人机语音交互方法。
为此,本发明提供的技术方案为:
用于智能机器人的人机语音交互方法,包括:
步骤一、获取多个用户输入的语音信息,并提取用户的声纹特征建立声纹特征数据库;
步骤二、根据多个所述用户的语音信息的声纹特征判断用户所属的年龄段,依据用户所属的年龄段将所述用户分别划分到成年人组和未成年人组;
步骤三、若某用户属于未成人年组,则在获取到该用户的语音指令时,智能机器人的人机语音交互模式自动切换至未成年人模式;
步骤四、当所述智能机器人接收到某一用户输入的语音指令时,将其声纹特征与所述智能机器人声纹特征数据库中已有的声纹特征数据进行匹配,并将能够匹配上的多个声纹特征数据定义为同一用户;
步骤五、建立唯一身份序列号信息表,并为每个用户赋予一个唯一身份序列号;
步骤六、建立针对用户的个性化信息库,并且将该用户的唯一身份序列号与其个性化信息相关联,其中,所述个性化信息库包括每个用户的个人语音搜索语义记录、点播记录和使用时间记录。
优选的是,所述的用于智能机器人的人机语音交互方法,还包括:
接收用户设定开关机的时间段的语音指令,所述智能机器人在用户设定的开关机的时间段外部启动休眠模式,不主动获取用户的语音信息。
优选的是,所述的用于智能机器人的人机语音交互方法中,所述声纹特征数据库的更新周期为20-30天。
优选的是,所述的用于智能机器人的人机语音交互方法,还包括:
接收用户设定本地语音信息是否上传智能机器人云端的语音指令,若用户不发出本地语音信息不上传智能机器人云端的语音指令,则默认执行本地语音信息不上传智能机器人云端。
优选的是,所述的用于智能机器人的人机语音交互方法中,所述智能机器人内设置有存储介质,所述存储介质用于存储用户输入的语音信息,所述语音信息包括所述语音指令。
优选的是,所述的用于智能机器人的人机语音交互方法中,当用户发出本地语音信息上传至智能机器人云端的语音指令时,所述智能机器人同时发出索取上传云端的密码的语音信息,当接收到正确的密码语音指令时,所述智能机器人将本地语音信息上传至其云端。
优选的是,所述的用于智能机器人的人机语音交互方法中,所述正确的密码语音指令包括发出指令的用户的声纹特征。
优选的是,所述的用于智能机器人的人机语音交互方法中,所述声纹特征包括音色、语速、音调、语言种类、频谱和口音中的任意一种或多种。
优选的是,所述的用于智能机器人的人机语音交互方法中,所述未成人组还包括1-6岁少儿组和7-17岁青少年组。
优选的是,所述的用于智能机器人的人机语音交互方法中,所述正确的密码语音指令的发出者为所述成人组的用户。
本发明至少包括以下有益效果:
本发明首先能根据语音信息将用户区分为未成人组或成年人组,对未成年人组开启未成年人模式,避免未成年人在与智能机器人交互过程中,接触到对未成年人不适宜的信息。然后,本发明还根据用户的声纹特征区分不同用户,将依据其历史语音信息情况为其建立个人偏好的个性化信息,以使智能机器人“更懂”用户需求,方便用户的需求。
本发明在对用户根据年龄进行分类的同时,还根据用户的声纹特征和使用习惯建立个个性化数据化,不仅保护了用户接受信息的安全,更方便了用户的学习和生活。
此外,本发明接收用户设定开关机的时间段的语音指令,所述智能机器人在用户设定的开关机的时间段外部启动休眠模式,不主动获取用户的语音信息。以保证用户的语音信息的安全,避免生活受到干扰。声纹特征数据库的更新周期为20-30天。加快信息更替,符合用户的生活和学习习惯,并且,更新周期较短,也确保了系统的快速便捷相应,避免存储了过多数据影响智能机器人的运行速度。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
本发明提供用于智能机器人的人机语音交互方法,包括:
步骤一、获取多个用户输入的语音信息,并提取用户的声纹特征建立声纹特征数据库;
步骤二、根据多个所述用户的语音信息的声纹特征判断用户所属的年龄段,依据用户所属的年龄段将所述用户分别划分到成年人组和未成年人组;
步骤三、若某用户属于未成人年组,则在获取到该用户的语音指令时,智能机器人的人机语音交互模式自动切换至未成年人模式;
步骤四、当所述智能机器人接收到某一用户输入的语音指令时,将其声纹特征与所述智能机器人声纹特征数据库中已有的声纹特征数据进行匹配,并将能够匹配上的多个声纹特征数据定义为同一用户;
步骤五、建立唯一身份序列号信息表,并为每个用户赋予一个唯一身份序列号;
步骤六、建立针对用户的个性化信息库,并且将该用户的唯一身份序列号与其个性化信息相关联,其中,所述个性化信息库包括每个用户的个人语音搜索语义记录、点播记录和使用时间记录。
本发明首先能根据语音信息将用户区分为未成人组或成年人组,对未成年人组开启未成年人模式,避免未成年人在与智能机器人交互过程中,接触到对未成年人不适宜的信息。然后,本发明还根据用户的声纹特征区分不同用户,将依据其历史语音信息情况为其建立个人偏好的个性化信息,以使智能机器人“更懂”用户需求,方便用户的需求。
本发明在对用户根据年龄进行分类的同时,还根据用户的声纹特征和使用习惯建立个个性化数据化,不仅保护了用户接受信息的安全,更方便了用户的学习和生活。
在本发明的其中一个实施例中,作为优选,还包括:
接收用户设定开关机的时间段的语音指令,所述智能机器人在用户设定的开关机的时间段外部启动休眠模式,不主动获取用户的语音信息。以保证用户的语音信息的安全,避免生活受到干扰。
在本发明的其中一个实施例中,作为优选,所述声纹特征数据库的更新周期为20-30天。加快信息更替,符合用户的生活和学习习惯,并且,更新周期较短,也确保了系统的快速便捷相应,避免存储了过多数据影响智能机器人的运行速度。
在本发明的其中一个实施例中,作为优选,还包括:
接收用户设定本地语音信息是否上传智能机器人云端的语音指令,若用户不发出本地语音信息不上传智能机器人云端的语音指令,则默认执行本地语音信息不上传智能机器人云端。以进一步保证用户的隐私安全。
在上述方案中,作为优选,所述智能机器人内设置有存储介质,所述存储介质用于存储用户输入的语音信息,所述语音信息包括所述语音指令。用户可根据使用频率和使用人数等选择合适存储容量的存储介质,以满足需求,使其方便快捷。
在本发明的其中一个实施例中,作为优选,当用户发出本地语音信息上传至智能机器人云端的语音指令时,所述智能机器人同时发出索取上传云端的密码的语音信息,当接收到正确的密码语音指令时,所述智能机器人将本地语音信息上传至其云端。进一步确保上传到智能机器人云端存储的数据是用户需要保存的,保证其隐私安全。
在本发明的其中一个实施例中,作为优选,所述正确的密码语音指令包括发出指令的用户的声纹特征。更优选得,所述正确的密码语音指令的发出者为所述成人组的用户。以增强保密效果,避免青少年的误传数据操作。
在本发明的其中一个实施例中,作为优选,所述声纹特征包括音色、语速、音调、语言种类、频谱和口音中的任意一种或多种。以便能够对声纹特征进行准确分析和匹配。
在本发明的其中一个实施例中,作为优选,所述未成人组还包括1-6岁少儿组和7-17岁青少年组。以便更加有针对性的搜索和推送节目。
为使本领域技术人员更好地理解本发明的技术方案,现提供如下的实施例进行说明:
用于智能机器人的人机语音交互方法,包括如下步骤:
步骤一、获取多个用户输入的语音信息,并提取用户的声纹特征建立声纹特征数据库,所述声纹特征数据库的更新周期为20-30天。
步骤二、根据多个所述用户的语音信息的声纹特征判断用户所属的年龄段,依据用户所属的年龄段将所述用户分别划分到成年人组和未成年人组;所述未成人组包括1-6岁少儿组和7-17岁青少年组。
步骤三、若某用户属于未成人年组,则在获取到该用户的语音指令时,智能机器人的人机语音交互模式自动切换至未成年人模式;
步骤四、当所述智能机器人接收到某一用户输入的语音指令时,将其声纹特征与所述智能机器人声纹特征数据库中已有的声纹特征数据进行匹配,并将能够匹配上的多个声纹特征数据定义为同一用户;
步骤五、建立唯一身份序列号信息表,并为每个用户赋予一个唯一身份序列号;
步骤六、建立针对用户的个性化信息库,并且将该用户的唯一身份序列号与其个性化信息相关联,其中,所述个性化信息库包括每个用户的个人语音搜索语义记录、点播记录和使用时间记录。
还包括如下步骤:
接收用户设定开关机的时间段的语音指令,所述智能机器人在用户设定的开关机的时间段外部启动休眠模式,不主动获取用户的语音信息。
接收用户设定本地语音信息是否上传智能机器人云端的语音指令,若用户不发出本地语音信息不上传智能机器人云端的语音指令,则默认执行本地语音信息不上传智能机器人云端。所述智能机器人内设置有存储介质,所述存储介质用于存储用户输入的语音信息,所述语音信息包括所述语音指令。当用户发出本地语音信息上传至智能机器人云端的语音指令时,所述智能机器人同时发出索取上传云端的密码的语音信息,当接收到正确的密码语音指令时,所述智能机器人将本地语音信息上传至其云端。所述正确的密码语音指令包括发出指令的用户的声纹特征。所述正确的密码语音指令的发出者为所述成人组的用户。所述声纹特征包括音色、语速、音调、语言种类、频谱和口音中的任意一种或多种。
这里说明的模块数量和处理规模是用来简化本发明的说明的。对本发明的用于智能机器人的人机语音交互方法的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。

Claims (10)

1.用于智能机器人的人机语音交互方法,其特征在于,包括如下步骤:
步骤一、获取多个用户输入的语音信息,并提取用户的声纹特征建立声纹特征数据库;
步骤二、根据多个所述用户的语音信息的声纹特征判断用户所属的年龄段,依据用户所属的年龄段将所述用户分别划分到成年人组和未成年人组;
步骤三、若某用户属于未成人年组,则在获取到该用户的语音指令时,智能机器人的人机语音交互模式自动切换至未成年人模式;
步骤四、当所述智能机器人接收到某一用户输入的语音指令时,将其声纹特征与所述智能机器人声纹特征数据库中已有的声纹特征数据进行匹配,并将能够匹配上的多个声纹特征数据定义为同一用户;
步骤五、建立唯一身份序列号信息表,并为每个用户赋予一个唯一身份序列号;
步骤六、建立针对用户的个性化信息库,并且将该用户的唯一身份序列号与其个性化信息相关联,其中,所述个性化信息库包括每个用户的个人语音搜索语义记录、点播记录和使用时间记录。
2.如权利要求1所述的用于智能机器人的人机语音交互方法,其特征在于,还包括如下步骤:
接收用户设定开关机的时间段的语音指令,所述智能机器人在用户设定的开关机的时间段外部启动休眠模式,不主动获取用户的语音信息。
3.如权利要求1所述的用于智能机器人的人机语音交互方法,其特征在于,所述声纹特征数据库的更新周期为20-30天。
4.如权利要求1所述的用于智能机器人的人机语音交互方法,其特征在于,还包括:
接收用户设定本地语音信息是否上传智能机器人云端的语音指令,若用户不发出本地语音信息不上传智能机器人云端的语音指令,则默认执行本地语音信息不上传智能机器人云端。
5.如权利要求4所述的用于智能机器人的人机语音交互方法,其特征在于,所述智能机器人内设置有存储介质,所述存储介质用于存储用户输入的语音信息,所述语音信息包括所述语音指令。
6.如权利要求4所述的用于智能机器人的人机语音交互方法,其特征在于,当用户发出本地语音信息上传至智能机器人云端的语音指令时,所述智能机器人同时发出索取上传云端的密码的语音信息,当接收到正确的密码语音指令时,所述智能机器人将本地语音信息上传至其云端。
7.如权利要求4所述的用于智能机器人的人机语音交互方法,其特征在于,所述正确的密码语音指令包括发出指令的用户的声纹特征。
8.如权利要求1所述的用于智能机器人的人机语音交互方法,其特征在于,所述声纹特征包括音色、语速、音调、语言种类、频谱和口音中的任意一种或多种。
9.如权利要求1所述的用于智能机器人的人机语音交互方法,其特征在于,所述未成人组还包括1-6岁少儿组和7-17岁青少年组。
10.如权利要求7所述的用于智能机器人的人机语音交互方法,其特征在于,所述正确的密码语音指令的发出者为所述成人组的用户。
CN202010581588.XA 2020-06-23 2020-06-23 用于智能机器人的人机语音交互方法 Withdrawn CN111816188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010581588.XA CN111816188A (zh) 2020-06-23 2020-06-23 用于智能机器人的人机语音交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010581588.XA CN111816188A (zh) 2020-06-23 2020-06-23 用于智能机器人的人机语音交互方法

Publications (1)

Publication Number Publication Date
CN111816188A true CN111816188A (zh) 2020-10-23

Family

ID=72845513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010581588.XA Withdrawn CN111816188A (zh) 2020-06-23 2020-06-23 用于智能机器人的人机语音交互方法

Country Status (1)

Country Link
CN (1) CN111816188A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543390A (zh) * 2020-11-25 2021-03-23 南阳理工学院 一种幼儿智能音箱及其交互方法
CN113194210A (zh) * 2021-04-30 2021-07-30 中国银行股份有限公司 一种语音通话接入方法及装置
CN113257254A (zh) * 2021-07-01 2021-08-13 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543390A (zh) * 2020-11-25 2021-03-23 南阳理工学院 一种幼儿智能音箱及其交互方法
CN112543390B (zh) * 2020-11-25 2023-03-24 南阳理工学院 一种幼儿智能音箱及其交互方法
CN113194210A (zh) * 2021-04-30 2021-07-30 中国银行股份有限公司 一种语音通话接入方法及装置
CN113194210B (zh) * 2021-04-30 2023-02-24 中国银行股份有限公司 一种语音通话接入方法及装置
CN113257254A (zh) * 2021-07-01 2021-08-13 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN113257254B (zh) * 2021-07-01 2021-10-08 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111816188A (zh) 用于智能机器人的人机语音交互方法
US11705118B2 (en) Universal and user-specific command processing
US20180323996A1 (en) Automatic generation of scenes using an assistant device
US20200135194A1 (en) Electronic device
CN109616108A (zh) 多轮对话交互处理方法、装置、电子设备及存储介质
WO2019152162A1 (en) User input processing restriction in a speech processing system
CN112051743A (zh) 设备控制方法、冲突处理方法、相应的装置及电子设备
CN109086371A (zh) 一种用于法律咨询的语义网交互系统及交互方法
WO2002037472A2 (en) User interface for the administration of an external database
US20220205798A1 (en) Computer-implemented method and system for content recommendation to a user on board a vehicle
WO2002037474A1 (en) User interface / entertainment device that simulates personal interaction and responds to user"s mental state and/or personality
EP1415218A2 (en) Environment-responsive user interface / entertainment device that simulates personal interaction
EP1370974A2 (en) Self-updating personal interaction simulator
EP3522031A1 (en) Smart speaker with music recognition
US11468886B2 (en) Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same
US11062700B1 (en) Query answering with controlled access knowledge graph
US11580182B2 (en) Content generation framework
CN110148405A (zh) 语音指令处理方法及装置、电子设备及存储介质
US11978453B2 (en) Natural language processing routing
CN108320741A (zh) 智能设备的声音控制方法、装置、存储介质和处理器
KR102309682B1 (ko) 강화학습을 통해 진화하는 ai 개체를 제공하는 방법 및 플랫폼
CN109445299A (zh) 智能家居控制方法、系统及存储介质
US20230154460A1 (en) Digital assistant device for resolving command conflicts
WO2021196610A1 (zh) 一种设备推荐方法、装置、电子设备及可读存储介质
CN111667261A (zh) 一种智能语音对话的家庭酒柜

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201023

WW01 Invention patent application withdrawn after publication