CN117708312B - 一种基于交互设备的数字人处理方法、系统及存储介质 - Google Patents

一种基于交互设备的数字人处理方法、系统及存储介质 Download PDF

Info

Publication number
CN117708312B
CN117708312B CN202311732363.XA CN202311732363A CN117708312B CN 117708312 B CN117708312 B CN 117708312B CN 202311732363 A CN202311732363 A CN 202311732363A CN 117708312 B CN117708312 B CN 117708312B
Authority
CN
China
Prior art keywords
data
user
information
order
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311732363.XA
Other languages
English (en)
Other versions
CN117708312A (zh
Inventor
丁豪
滕剑闯
汤翼闻
王导数
周国胜
冯武
林腾
谢璋
吴焱淼
张奕燮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Kaiwu Intelligent Technology Co ltd
Original Assignee
Zhejiang Kaiwu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Kaiwu Intelligent Technology Co ltd filed Critical Zhejiang Kaiwu Intelligent Technology Co ltd
Priority to CN202311732363.XA priority Critical patent/CN117708312B/zh
Publication of CN117708312A publication Critical patent/CN117708312A/zh
Application granted granted Critical
Publication of CN117708312B publication Critical patent/CN117708312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于交互设备的数字人处理方法、系统及存储介质,涉及客服数字人的技术领域。方法包括:通过人脸识别获取用户身份,根据用户身份查找用户的相关信息,得到用户信息数据;根据用户身份,对数字人制定特定的语音的音量、方言类型以及方案叙述,得到初阶处理数据;获取周围环境;根据周围环境对数字人进行调整,得到中阶处理数据;在数字人输出信息后实时监测用户表情;根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据;对输出的信息进行判断,是否涉及用户隐私;涉及用户隐私的数据输出需要切换方式,得到处理数据。本申请提高了基于交互设备的数字人服务的智能性。

Description

一种基于交互设备的数字人处理方法、系统及存储介质
技术领域
本申请涉及客服数字人的技术领域,尤其是涉及一种基于交互设备的数字人处理方法、系统及存储介质。
背景技术
随着科技的飞速发展,越来越多的新鲜事物出现在大众的视野中,其中数字人在各个领域都发挥了其独特的作用。数字人是指通过计算机技术模拟和复制人类的外貌、行为和交互方式的虚拟实体。数字人的意义在于提供了一种全新的交互方式,使得人类可以更加自然地与数字世界进行沟通和互动。这可以提升用户体验,扩展人机交互的应用场景,以及促进人工智能技术的发展。
相关技术中,在客服领域,尽管虚拟助手可以回答一些简单的问题,但在处理复杂情况或敏感话题时,仍然需要人类的干预。并且数字人预设好了问题答案,但是由于个体的差异性,答案并不适用所有人,造成一些用户的体验感较差,存在改进之处。
为此我们提出一种基于交互设备的数字人处理方法、系统及存储介质用于解决上述问题。
发明内容
本发明的目的在于提供一种基于交互设备的数字人处理方法、系统及存储介质,以解决上述背景技术中提出的问题。
第一方面,本申请提供的一种基于交互设备的数字人处理方法,采用如下的技术方案:
通过人脸识别获取用户身份,根据用户身份查找用户的相关信息,得到用户信息数据;
基于所述用户信息数据,根据用户身份,制定数字人的语音的音量、方言类型以及方案叙述,得到初阶处理数据;
根据所述初阶处理数据,获取周围环境;根据周围环境对数字人进行调整,得到中阶处理数据;
基于所述中阶处理数据,在数字人输出信息后实时监测用户表情;根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据;
根据所述高阶处理数据,对输出的信息进行判断,是否涉及用户隐私;涉及用户隐私的数据输出需要切换方式,得到处理数据。
通过采用上述技术方案,根据用户的个人情况、年龄大小,按照用户个人情况进行设置信息回复,更加贴合不同的用户,提升了用户使用体验感,提高了基于交互设备的数字人服务的智能性。
优选的,所述用户信息数据包括年龄数据、学历数据、工作数据以及籍贯居住地数据;所述基于所述用户信息数据,根据用户身份,制定数字人的语音的音量、方言类型以及方案叙述,得到初阶处理数据的步骤,具体包括以下步骤:
基于所述年龄数据,根据年龄与耳朵灵敏度的反比关系,初步设定语音音量大小,得到初阶音量数据;
基于所述学历数据,根据学历分析用户个人知识储备,通过知识储备与语言难度的正相关曲线;匹配语言易懂等级;根据语言易懂等级匹配叙述方式,得到初阶叙述数据;
根据所述籍贯居住地数据,获取方言类型,从语言库中匹配方言类型,将语音转换为方言输出,得到初阶方言数据;
结合所述初阶音量数据、所述初阶叙述数据以及所述初阶方言数据,设定数字人信息输出方式,得到初阶处理数据。
通过采用上述技术方案,不同的人群采用不同的叙述方式,对需要简洁明了的人群来说节约时间,对需要解释清楚的人群来说提高理解的效率。选取合适的叙述方式,提高了基于交互设备的数字人服务的实用性。
优选的,所述基于所述学历数据,根据学历分析用户个人知识储备,通过知识储备与语言难度的正相关曲线,匹配语言易懂等级,根据语言易懂等级匹配叙述方式,得到初阶叙述数据的步骤,具体包括以下步骤:
根据专业名词数量与易懂程度的反比系数,设置语言易懂等级,得到等级数据;
基于所述工作数据,获取用户所属行业,筛选用户不知情的专业知识,得到初步知识储备数据;
根据所述初步知识储备数据和所述学历数据,分析用户专业知识,判断用户知识储备,得到知识储备数据;
结合所述知识储备数据和所述等级数据,根据知识储备与等级的正比系数,匹配对应等级语言叙述,得到所述初阶叙述数据。
通过采用上述技术方案,通过用户的学历以及工作经历,分析用户的领域知识,确定叙述方式,可以简短说明用户熟知领域知识,以便用户理解。同时使得用户对非熟知领域可以通过详细说明了解其中含义,提高了基于交互设备的数字人服务的便捷性。
优选的,所述根据所述籍贯居住地数据,获取方言类型,从语言库中匹配方言类型,将语音转换为方言输出,得到初阶方言数据的步骤,还包括以下步骤:
根据区域不同,搜索记录各区域的方言发音,与各区域地理位置匹配,形成语音库,得到语音库数据;
基于所述籍贯居住地数据和所述语音库数据,获取用户的籍贯地和长久居住地的方言类型,优先选取籍贯地方言,得到初步方言数据;
基于所述初步方言数据和所述初阶叙述数据,获取语言中事物客体的方言俗名进行替换,得到初阶方言数据。
通过上述技术方案,通过方言进行信息传输,可以使得更多用户理解信息内容,尤其是一些不熟知普通话的人群,可以更大范围的服务更多的人群,提高了基于交互设备的数字人服务的范围性。
优选的,所述根据所述初阶处理数据,获取周围环境;根据周围环境对数字人进行调整,得到中阶处理数据的步骤,具体包括以下步骤:
根据初阶音量数据,获取周围噪声大小,得到噪音数据,根据噪音数据与声音掩盖度的正比系数,获取声音掩盖度数据;
基于所述声音掩盖度数据和所述初阶音量数据,叠加因为噪音掩盖掉的音量,提升音量大小,得到中阶音量数据;
基于初阶叙述数据,根据周围环境的影响,分析用户专注力,根据专注力时间长短,划分数字人反馈信息时间,得到中阶叙述数据;
结合所述中阶音量数据以及所述中阶叙述数据,重新调整数字人输出方案,得到中阶处理数据。
通过采用上述技术方案,在不同环境下设置不同的音量输出信息内容,以便用户在不同环境下都可以听清信息内容,根据用户的专注力时间设置输出的信息内容的长短,有利于用户记住更多的信息。根据环境的影响分析实际情况,提高了基于交互设备的数字人服务的实时性。
优选的,所述基于初阶叙述数据,根据周围环境的影响,分析用户专注力,根据专注力时间长短,划分数字人反馈信息时间,得到中阶叙述数据的步骤,还包括以下步骤:
基于年龄数据,根据年龄与专注力的关系曲线,分析用户专注力,得到初阶专注力数据;
基于所述噪音数据和所述初阶专注力数据,获取噪音与专注力的负相关曲线,分析用户专注力,得到中阶专注力数据;
结合所述中阶专注力数据、学历数据以及工作数据,分析用户个人能力,参考用户个人能力与专注力的正相关曲线,分析用户专注力,得到专注力数据;
根据所述专注力数据和初阶叙述数据,获取用户阅读文字时间以及语音输出时间,数字人信息反馈时间不超过专注力时间,得到初阶信息长短数据,根据信息长短规划叙述方式,得到所述中阶叙述数据。
通过采用上述技术方案,根据专注力设置输出信息内容的长短,可以在用户的专注力时间较长时,使得用户一次性记住更多的内容。而当用户专注力不强的时候,减少输出过多内容造成用户错失信息的情况。根据专注力决定输出信息内容多少,提高了基于交互设备的数字人服务的智能性。
优选的,所述基于所述中阶处理数据,在数字人输出信息后实时监测用户表情;根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据的步骤,还包括以下步骤:
基于所述中阶处理数据,获取用户表情,通过用户表情分析用户心情,得到情绪数据;
根据所述情绪数据和中阶叙述数据,若用户为负面情绪,则及时调整叙述方式,添加语气助词,得到高阶叙述数据;
根据所述情绪数据和初阶信息长短数据,若用户为正面情绪,则语音输出时间增加,信息内容加长,若用户为负面情绪,则语音输出时间减短,信息内容减少,得到信息长短数据;
根据中阶音量数据,若用户有捂耳的动作,则降低音量,若用户有贴近设备以及侧耳倾听的动作,则提升音量,得到高阶音量数据;
结合所述高阶叙述数据、所述信息长短数据以及所述高阶音量数据,综合得到输出信息方案,得到高阶处理数据。
通过采用上述技术方案,根据用户的面部表情推测用户的情绪,判断用户是否满意,及时调整输出内容的模式。可以使得信息内容的输出模式更加符合用户个人习惯,根据用户的情绪反馈进行调整,提高了基于交互设备的数字人服务的自检性。
优选的,所述根据所述高阶处理数据,对输出的信息进行判断,是否涉及用户隐私;涉及用户隐私的数据输出需要切换方式,得到处理数据的步骤,还包括以下步骤:
对输出的信息进行检索判断,是否涉及到用户个人信息;若涉及到用户个人信息,则判断为隐私数据;
基于所述隐私数据,当出现隐私数据时关闭语音播报,并提醒用户注意周围人群,当输出信息没有涉及到隐私数据时,开启语音播报;
根据所述高阶处理数据,当输出信息涉及到指引位置时,获取数字人和指引位置的地理位置,确定指引位置的方向,数字人通过动作指向为用户指引指引位置方向后,综合得到所述处理数据。
通过采用上述技术方案,语音播报会泄漏用户的个人信息,涉及到用户的个人信息时不再适用于语音播报。为了保护用户个人隐私安全,可以采用文字形式进行内容输出,提高了基于交互设备的数字人服务的安全性。
第二方面,本申请提供的一种基于交互设备的数字人处理系统,采用如下的技术方案:
一种基于交互设备的数字人处理系统,包括采集模块、分析模块以及设置模块,所述采集模块用于采集用户的身份后输出采集数据;所述分析模块与所述采集模块信号连接,用于接收所述采集数据并分析输出信息的方式后输出分析数据;所述设置模块与所述分析模块信号连接,用于接收所述分析数据并按照分析数据执行输出信息的方式。
通过上述技术方案,通过电子模块实现数字人的服务,一方面减少了人工客服数量,减少了人工资源的浪费。另一方面更加完善数字人的服务,提升服务质量,减少人工干预,更加便捷实用,提高了基于交互设备的数字人服务的便捷性。
第三方面,本申请提供的一种基于交互设备的数字人处理存储介质,采用如下的技术方案:
一种基于交互设备的数字人处理存储介质,通过交互设备进行数据存储,对于采集数据进行存储,并在对采集数据进行分析后得到的分析数据进行存储,作为下次数据分析的依据。
通过上述技术方案,将所有信息进行存储,在需要的时候进行调用,并在下一次服务同一用户时,可以调取历史记录,根据历史记录调整信息输出模式,更加快速便捷,提高了基于交互设备的数字人服务的便捷性。
综上所述,本申请包括以下至少一种有益技术效果:
1.数字人在服务客户时,根据用户的个人情况、年龄大小,按照用户个人情况进行设置信息回复,更加贴合不同的用户,提升了用户使用体验感,提高了基于交互设备的数字人服务的智能性。
2.不同的人群采用不同的叙述方式,对需要简洁明了的人群来说节约时间,对需要解释清楚的人群来说提高理解的效率。选取合适的叙述方式,提高了基于交互设备的数字人服务的实用性。
3.通过用户的学历以及工作经历,分析用户的领域知识,确定叙述方式,可以简短说明用户熟知领域知识,以便用户理解。同时使得用户对非熟知领域可以通过详细说明了解其中含义,提高了基于交互设备的数字人服务的便捷性。
附图说明
图1是本发明一种基于交互设备的数字人处理方法的具体步骤示意图;
图2是本发明一种基于交互设备的数字人处理方法的步骤2的具体步骤示意图;
图3是本发明一种基于交互设备的数字人处理方法的步骤23的具体步骤示意图;
图4是本发明一种基于交互设备的数字人处理方法的步骤24的具体步骤示意图;
图5是本发明一种基于交互设备的数字人处理方法的步骤3的具体步骤示意图;
图6是本发明一种基于交互设备的数字人处理方法的步骤33的具体步骤示意图;
图7是本发明一种基于交互设备的数字人处理方法的步骤4的具体步骤示意图;
图8是本发明一种基于交互设备的数字人处理方法的步骤5的具体步骤示意图。
具体实施方式
下面结合实施例及附图1-8对本发明作进一步的详细说明,但本发明的实施方式不仅限于此。
实施例:
本发明公开了一种基于交互设备的数字人处理方法,参照图1,具体包括以下步骤:
步骤S1,通过人脸识别获取用户身份,根据用户身份查找用户的相关信息,得到用户信息数据。
步骤S2,基于用户信息数据,根据用户身份,制定数字人的语音的音量、方言类型以及方案叙述,得到初阶处理数据。
步骤S3,根据初阶处理数据,获取周围环境。根据周围环境对数字人进行调整,得到中阶处理数据。
步骤S4,基于中阶处理数据,在数字人输出信息后实时监测用户表情。根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据。
步骤S5,根据高阶处理数据,对输出的信息进行判断,是否涉及用户隐私。涉及用户隐私的数据输出需要切换方式,得到处理数据。
实际运用中,数字人已经走入大众的生活,数字人可以服务大众,在一些客服的岗位,数字人可以代替人类进行工作。但是由于数字人仅仅根据设定好的模式进行信息的传输,并不适用于所有用户。根据用户个人情况,配合不同的输出模式,可以照顾到更多的用户,提升用户的使用体验感,解决更多的问题。例如,数字人设定统一音量,年纪大的老年人听力往往会差一些,音量太小会导致老年人听不见。音量设置过大,对于听力好的年轻人来说,太过吵闹,耳朵会不舒服。因此根据实际情况进行设置,可以提高用户的使用体验感。
参照图2,用户信息数据包括年龄数据、学历数据、工作数据以及籍贯居住地数据。基于用户信息数据,根据用户身份,制定数字人的语音的音量、方言类型以及方案叙述,得到初阶处理数据的步骤,具体包括以下步骤:
步骤S21,基于年龄数据,根据年龄与耳朵灵敏度的反比关系,初步设定语音音量大小,得到初阶音量数据。
步骤S22,基于学历数据,根据学历分析用户个人知识储备,通过知识储备与语言难度的正相关曲线。匹配语言易懂等级。根据语言易懂等级匹配叙述方式,得到初阶叙述数据。
步骤S23,根据籍贯居住地数据,获取方言类型,从语言库中匹配方言类型,将语音转换为方言输出,得到初阶方言数据。
步骤S24,结合初阶音量数据、初阶叙述数据以及初阶方言数据,设定数字人信息输出方式,得到初阶处理数据。
实际运用中,一般来说,出门在外都是使用普通话,但是仍然有一部分人群对于普通话的使用并不熟练。对于不同人群来说,如果普通话不熟练,对于籍贯地或者常住地的语言会较为熟悉,普通话熟练的人,也会使用籍贯地或者常住地的语言。因此根据用户个人信息设置语言,一方面可以使得更多人群与数字人进行沟通,扩大了数字人的服务范围。另一方面,方言进行对话时,用户隐私泄漏的可能性会更小,也提高了数字人服务的安全性。
参照图3,基于学历数据,根据学历分析用户个人知识储备,通过知识储备与语言难度的正相关曲线,匹配语言易懂等级,根据语言易懂等级匹配叙述方式,得到初阶叙述数据的步骤,具体包括以下步骤:
步骤S231,根据专业名词数量与易懂程度的反比系数,设置语言易懂等级,得到等级数据。
步骤S232,基于工作数据,获取用户所属行业,筛选用户不知情的专业知识,得到初步知识储备数据。
步骤S233,根据初步知识储备数据和学历数据,分析用户专业知识,判断用户知识储备,得到知识储备数据。
步骤S234,结合知识储备数据和等级数据,根据知识储备与等级的正比系数,匹配对应等级语言叙述,得到初阶叙述数据。
实际运用中,表达一个意思的语句有多种说法,而对于一些专业名词来说只有专业人员比较熟知,非专业人员难以理解,此时就需要进行解释。而对于专业人员来说,对专业名词进行解释就有些画蛇添足,耽误时间。根据不同的人群需要对语言叙述可以更贴近用户,减少用户对输出内容信息的不理解。例如,在经济学中有个名词为“沉没成本”,对于经济学人员来说,不必进行解释,而对于非专业人员来说,需要将“沉没成本”替换为“付出且不可收回的成本”。“沉没成本”更加简短,适合专业人士,一听就懂。“付出且不可收回的成本”语句较长,但是非专业人员只有这样解释才较为通俗易懂。
参照图4,根据籍贯居住地数据,获取方言类型,从语言库中匹配方言类型,将语音转换为方言输出,得到初阶方言数据的步骤,还包括以下步骤:
步骤S241,根据区域不同,搜索记录各区域的方言发音,与各区域地理位置匹配,形成语音库,得到语音库数据。
步骤S242,基于籍贯居住地数据和语音库数据,获取用户的籍贯地和长久居住地的方言类型,优先选取籍贯地方言,得到初步方言数据。
步骤S243,基于初步方言数据和初阶叙述数据,获取语言中事物客体的方言俗名进行替换,得到初阶方言数据。
实际运用中,对于同一事物,在不同地区有不同的叫法,即便是普通话十分熟练的人群,对于一些事物的学名也没有完全掌握。因此,将事物的学名进行俗名替换,使得用户更加容易理解输出的信息内容。否则很容易导致理解错误,事物匹配不对。例如,一些地区将“荸荠”称为“马蹄”,学名“荸荠”对于一些地区的人来说难以匹配记忆中的水果,但是将“荸荠”替换为“马蹄”后,会更加通俗易懂。
参照图5,根据初阶处理数据,获取周围环境。根据周围环境对数字人进行调整,得到中阶处理数据的步骤,具体包括以下步骤:
步骤S31,根据初阶音量数据,获取周围噪声大小,得到噪音数据,根据噪音数据与声音掩盖度的正比系数,获取声音掩盖度数据。
步骤S32,基于声音掩盖度数据和初阶音量数据,叠加因为噪音掩盖掉的音量,提升音量大小,得到中阶音量数据。
步骤S33,基于初阶叙述数据,根据周围环境的影响,分析用户专注力,根据专注力时间长短,划分数字人反馈信息时间,得到中阶叙述数据。
步骤S34,结合中阶音量数据以及中阶叙述数据,重新调整数字人输出方案,得到中阶处理数据。
实际运用中,周围环境会对人的听力造成一定的影响,当周围人群嘈杂时,需要更大的音量才能听清周围声音。因此在周围嘈杂时需要更大的音量与输出信息内容。例如,根据用户个人情况,设置60分贝即可听清,但是由于周围人群众多,声音太过吵闹,60分贝的声音因为周围噪音的掩盖,用户无法听清,此时音量应当调整成70分贝,用户才可听清。根据环境情况进行设置,可以更好的适应多种环境,降低了沟通过程中的障碍,提升了数字人服务的智能性。
参照图6,基于初阶叙述数据,根据周围环境的影响,分析用户专注力,根据专注力时间长短,划分数字人反馈信息时间,得到中阶叙述数据的步骤,还包括以下步骤:
步骤S331,基于年龄数据,根据年龄与专注力的关系曲线,分析用户专注力,得到初阶专注力数据。
步骤S332,基于噪音数据和初阶专注力数据,获取噪音与专注力的负相关曲线,分析用户专注力,得到中阶专注力数据。
步骤S333,结合中阶专注力数据、学历数据以及工作数据,分析用户个人能力,参考用户个人能力与专注力的正相关曲线,分析用户专注力,得到专注力数据。
步骤S334,根据专注力数据和初阶叙述数据,获取用户阅读文字时间以及语音输出时间,数字人信息反馈时间不超过专注力时间,得到初阶信息长短数据,根据信息长短规划叙述方式,得到中阶叙述数据。
实际运用中,当周围环境嘈杂时,人们难以集中注意力去获取信息内容,专注力越强的时候,人的接受能力越强,越容易记住信息内容。所以在人专注力不强的情况下,不宜传递大量信息,容易造成信息错误以及信息丢失的情况发生。例如,用户在安静的环境中可以记下8位数的号码,但是在嘈杂环境中,受到环境影响,只能记住6位数。那么在噪声大的情况下,一次性只传递6位数,而在安静环境中,一次性可以传递8位数的信息。
参照图7,基于中阶处理数据,在数字人输出信息后实时监测用户表情。根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据的步骤,还包括以下步骤:
步骤S41,基于中阶处理数据,获取用户表情,通过用户表情分析用户心情,得到情绪数据。
步骤S42,根据情绪数据和中阶叙述数据,若用户为负面情绪,则及时调整叙述方式,添加语气助词,得到高阶叙述数据。
步骤S43,根据情绪数据和初阶信息长短数据,若用户为正面情绪,则语音输出时间增加,信息内容加长,若用户为负面情绪,则语音输出时间减短,信息内容减少,得到信息长短数据。
步骤S44,根据中阶音量数据,若用户有捂耳的动作,则降低音量,若用户有贴近设备以及侧耳倾听的动作,则提升音量,得到高阶音量数据。
步骤S45,结合高阶叙述数据、信息长短数据以及高阶音量数据,综合得到输出信息方案,得到高阶处理数据。
实际运用中,根据用户的个人信息设置信息传输方式并不一定完全贴合用户的个人习惯,通过客户接收信息过程中的情绪变化,不断调整信息输出模式,使得信息传输模式更加贴合用户。例如,根据判断年龄越大听力下降会越严重,但是A用户听力下降没有那么严重,在语音播报时捂耳,说明音量过大,传输信息的音量应该减小。B用户听力下降比较严重,语音播报时需要靠近设备侧耳倾听,说明音量过小,传输信息的音量应该增加。
参照图8,根据高阶处理数据,对输出的信息进行判断,是否涉及用户隐私。涉及用户隐私的数据输出需要切换方式,得到处理数据的步骤,还包括以下步骤:
步骤S51,对输出的信息进行检索判断,是否涉及到用户个人信息。若涉及到用户个人信息,则判断为隐私数据。
步骤S52,基于隐私数据,当出现隐私数据时关闭语音播报,并提醒用户注意周围人群,当输出信息没有涉及到隐私数据时,开启语音播报。
步骤S53,根据高阶处理数据,当输出信息涉及到指引位置时,获取数字人和指引位置的地理位置,确定指引位置的方向,数字人通过动作指向为用户指引指引位置方向后,综合得到处理数据。
实际运用中,一些信息内容进行传输时,涉及到个人隐私,不适宜再使用语音播报的方式进行传输,容易增加隐私泄漏的风险。涉及到个人隐私的数据可以通过文字的方式进行传输,而涉及到地理方位的数据,数字人可以通过肢体动作加以辅助引导,告诉用户具体位置在什么方向。例如,数据中涉及到用户的验证码,此时进行播报,容易被周围人得知,造成损失。例如,信息中涉及到缴费窗口的地理位置,在数字人左边,数字人可以指向左边引导用户,告知用户方位。
一种基于交互设备的数字人处理系统,包括采集模块、分析模块以及设置模块,采集模块用于采集用户的身份后输出采集数据。分析模块与采集模块信号连接,用于接收采集数据并分析输出信息的方式后输出分析数据。设置模块与分析模块信号连接,用于接收分析数据并按照分析数据执行输出信息的方式。
实际运用中,通过电子模块对数字人进行设置,一方面减少了人工客服,减少了人工资源的浪费。另一方面,电子模块进行分析,可以适应更多的场景,适应更多的用户,精准调节音量等参数,减少了人工客服带有情绪的情况发生,减少了不必要的矛盾争议。例如,数字人声音过大,仅仅是设置过大,而人工客服音量过大,用户容易产生人工客服不耐烦的想法,进而投诉,造成不必要的误会。
一种基于交互设备的数字人处理存储介质,通过交互设备进行数据存储,对于采集数据进行存储,并在对采集数据进行分析后得到的分析数据进行存储,作为下次数据分析的依据。
实际运用中,对数据进行存储,一方面数据存储可以为下次服务用户时提供参考,另一方面对数据进行存储有利于进行分析,获取更准确的结果,因此数据存储是非常有必要的。例如,若根据用户个人信息,音量应该设置在60分贝,但是根据历史记录来看,用户比较适宜的是50分贝。因此再次服务用户时,减少了分析的过程,也更加贴合用户的习惯。
本系统的实施原理是:首先,采集模块采集用户的个人信息,包括年龄、学历、工作经历以及籍贯地和居住地。接着,分析模块根据年龄设置初始音量,根据学历和工作经历,分析用户熟知的专业领域,并且根据用户的籍贯地和居住地,分析用户擅长的语言类型。接着设置模块根据分析模块分析的音量进行设置,对于非用户熟知的专业领域,将专业名词进行替换,然后根据熟悉的语言类型,设置方言类型,并将客体事物学名替换为地区熟知的俗名。接着采集模块采集周围环境情况,分析模块分析噪音对于音量的影响,进一步调节音量。分析模块根据采集的数据分析用户的专注力,设置模块根据用户专注力设置信息输出内容的长短,信息内容输出时间不能大于用户专注力时间。最后采集模块在信息输出过程中采集用户的情绪变化,分析模块分析用户对于设置的信息输出模式哪方面的不满,由设置模块及时进行调整。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (8)

1.一种基于交互设备的数字人处理方法,其特征在于,具体包括以下步骤:
通过人脸识别获取用户身份,根据用户身份查找用户的相关信息,得到用户信息数据;
基于所述用户信息数据,根据用户身份,制定数字人的语音的音量、方言类型以及方案叙述,得到初阶处理数据;
所述用户信息数据包括年龄数据、学历数据、工作数据以及籍贯居住地数据;所述基于所述用户信息数据,根据用户身份,制定数字人的语音的音量、方言类型以及方案叙述,得到初阶处理数据的步骤,具体包括以下步骤:
基于所述年龄数据,根据年龄与耳朵灵敏度的反比关系,初步设定语音音量大小,得到初阶音量数据;
基于所述学历数据,根据学历分析用户个人知识储备,通过知识储备与语言难度的正相关曲线;匹配语言易懂等级;根据语言易懂等级匹配叙述方式,得到初阶叙述数据;
根据所述籍贯居住地数据,获取方言类型,从语言库中匹配方言类型,将语音转换为方言输出,得到初阶方言数据;
结合所述初阶音量数据、所述初阶叙述数据以及所述初阶方言数据,设定数字人信息输出方式,得到初阶处理数据;
所述基于所述学历数据,根据学历分析用户个人知识储备,通过知识储备与语言难度的正相关曲线,匹配语言易懂等级,根据语言易懂等级匹配叙述方式,得到初阶叙述数据的步骤,具体包括以下步骤:
根据专业名词数量与易懂程度的反比系数,设置语言易懂等级,得到等级数据;
基于所述工作数据,获取用户所属行业,筛选用户不知情的专业知识,得到初步知识储备数据;
根据所述初步知识储备数据和所述学历数据,分析用户专业知识,判断用户知识储备,得到知识储备数据;
结合所述知识储备数据和所述等级数据,根据知识储备与等级的正比系数,匹配对应等级语言叙述,得到所述初阶叙述数据;
根据所述初阶处理数据,获取周围环境;根据周围环境对数字人进行调整,得到中阶处理数据;
基于所述中阶处理数据,在数字人输出信息后实时监测用户表情;根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据;
根据所述高阶处理数据,对输出的信息进行判断,是否涉及用户隐私;涉及用户隐私的数据输出需要切换方式,得到处理数据。
2.根据权利要求1所述的一种基于交互设备的数字人处理方法,其特征在于,所述根据所述籍贯居住地数据,获取方言类型,从语言库中匹配方言类型,将语音转换为方言输出,得到初阶方言数据的步骤,还包括以下步骤:
根据区域不同,搜索记录各区域的方言发音,与各区域地理位置匹配,形成语音库,得到语音库数据;
基于所述籍贯居住地数据和所述语音库数据,获取用户的籍贯地和长久居住地的方言类型,优先选取籍贯地方言,得到初步方言数据;
基于所述初步方言数据和所述初阶叙述数据,获取语言中事物客体的方言俗名进行替换,得到初阶方言数据。
3.根据权利要求2所述的一种基于交互设备的数字人处理方法,其特征在于,所述根据所述初阶处理数据,获取周围环境;根据周围环境对数字人进行调整,得到中阶处理数据的步骤,具体包括以下步骤:
根据初阶音量数据,获取周围噪声大小,得到噪音数据,根据噪音数据与声音掩盖度的正比系数,获取声音掩盖度数据;
基于所述声音掩盖度数据和所述初阶音量数据,叠加因为噪音掩盖掉的音量,提升音量大小,得到中阶音量数据;
基于初阶叙述数据,根据周围环境的影响,分析用户专注力,根据专注力时间长短,划分数字人反馈信息时间,得到中阶叙述数据;
结合所述中阶音量数据以及所述中阶叙述数据,重新调整数字人输出方案,得到中阶处理数据。
4.根据权利要求3所述的一种基于交互设备的数字人处理方法,其特征在于,所述基于初阶叙述数据,根据周围环境的影响,分析用户专注力,根据专注力时间长短,划分数字人反馈信息时间,得到中阶叙述数据的步骤,还包括以下步骤:
基于年龄数据,根据年龄与专注力的关系曲线,分析用户专注力,得到初阶专注力数据;
基于所述噪音数据和所述初阶专注力数据,获取噪音与专注力的负相关曲线,分析用户专注力,得到中阶专注力数据;
结合所述中阶专注力数据、学历数据以及工作数据,分析用户个人能力,参考用户个人能力与专注力的正相关曲线,分析用户专注力,得到专注力数据;
根据所述专注力数据和初阶叙述数据,获取用户阅读文字时间以及语音输出时间,数字人信息反馈时间不超过专注力时间,得到初阶信息长短数据,根据信息长短规划叙述方式,得到所述中阶叙述数据。
5.根据权利要求4所述的一种基于交互设备的数字人处理方法,其特征在于,所述基于所述中阶处理数据,在数字人输出信息后实时监测用户表情;根据用户表情判断用户情绪,根据用户情绪及时调整后续数字人行为,得到高阶处理数据的步骤,还包括以下步骤:
基于所述中阶处理数据,获取用户表情,通过用户表情分析用户心情,得到情绪数据;
根据所述情绪数据和中阶叙述数据,若用户为负面情绪,则及时调整叙述方式,添加语气助词,得到高阶叙述数据;
根据所述情绪数据和初阶信息长短数据,若用户为正面情绪,则语音输出时间增加,信息内容加长,若用户为负面情绪,则语音输出时间减短,信息内容减少,得到信息长短数据;
根据中阶音量数据,若用户有捂耳的动作,则降低音量,若用户有贴近设备以及侧耳倾听的动作,则提升音量,得到高阶音量数据;
结合所述高阶叙述数据、所述信息长短数据以及所述高阶音量数据,综合得到输出信息方案,得到高阶处理数据。
6.根据权利要求5所述的一种基于交互设备的数字人处理方法,其特征在于,所述根据所述高阶处理数据,对输出的信息进行判断,是否涉及用户隐私;涉及用户隐私的数据输出需要切换方式,得到处理数据的步骤,还包括以下步骤:
对输出的信息进行检索判断,是否涉及到用户个人信息;若涉及到用户个人信息,则判断为隐私数据;
基于所述隐私数据,当出现隐私数据时关闭语音播报,并提醒用户注意周围人群,当输出信息没有涉及到隐私数据时,开启语音播报;
根据所述高阶处理数据,当输出信息涉及到指引位置时,获取数字人和指引位置的地理位置,确定指引位置的方向,数字人通过动作指向为用户指引位置方向后,综合得到所述处理数据。
7.一种基于交互设备的数字人处理系统,其特征在于,通过应用如权利要求1-6任意一项所述的一种基于交互设备的数字人处理方法,包括采集模块、分析模块以及设置模块,所述采集模块用于采集用户的身份后输出采集数据;所述分析模块与所述采集模块信号连接,用于接收所述采集数据并分析输出信息的方式后输出分析数据;所述设置模块与所述分析模块信号连接,用于接收所述分析数据并按照分析数据执行输出信息的方式。
8.一种基于交互设备的数字人处理存储介质,其特征在于,通过应用如权利要求1-6任意一项所述的一种基于交互设备的数字人处理方法,通过交互设备进行数据存储,对于采集数据进行存储,并在对采集数据进行分析后得到的分析数据进行存储,作为下次数据分析的依据。
CN202311732363.XA 2023-12-16 2023-12-16 一种基于交互设备的数字人处理方法、系统及存储介质 Active CN117708312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311732363.XA CN117708312B (zh) 2023-12-16 2023-12-16 一种基于交互设备的数字人处理方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311732363.XA CN117708312B (zh) 2023-12-16 2023-12-16 一种基于交互设备的数字人处理方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN117708312A CN117708312A (zh) 2024-03-15
CN117708312B true CN117708312B (zh) 2024-05-24

Family

ID=90143904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311732363.XA Active CN117708312B (zh) 2023-12-16 2023-12-16 一种基于交互设备的数字人处理方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117708312B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423351A (zh) * 2017-05-24 2017-12-01 维沃移动通信有限公司 一种信息处理方法及电子设备
CN112906546A (zh) * 2021-02-09 2021-06-04 中国工商银行股份有限公司 虚拟数字人外形、音效以及服务模型的个性化生成方法
CN113849795A (zh) * 2021-10-18 2021-12-28 深圳追一科技有限公司 数字人的交互方法、装置、电子设备及计算机存储介质
WO2023146030A1 (ko) * 2022-01-28 2023-08-03 주식회사 마블러스 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
CN116560513A (zh) * 2023-07-08 2023-08-08 世优(北京)科技有限公司 基于情绪识别的ai数字人交互方法、装置及系统
CN117079501A (zh) * 2023-08-04 2023-11-17 中移(杭州)信息技术有限公司 虚拟人自调节教学云平台、系统、方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423351A (zh) * 2017-05-24 2017-12-01 维沃移动通信有限公司 一种信息处理方法及电子设备
CN112906546A (zh) * 2021-02-09 2021-06-04 中国工商银行股份有限公司 虚拟数字人外形、音效以及服务模型的个性化生成方法
CN113849795A (zh) * 2021-10-18 2021-12-28 深圳追一科技有限公司 数字人的交互方法、装置、电子设备及计算机存储介质
WO2023146030A1 (ko) * 2022-01-28 2023-08-03 주식회사 마블러스 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
CN116560513A (zh) * 2023-07-08 2023-08-08 世优(北京)科技有限公司 基于情绪识别的ai数字人交互方法、装置及系统
CN117079501A (zh) * 2023-08-04 2023-11-17 中移(杭州)信息技术有限公司 虚拟人自调节教学云平台、系统、方法及相关设备

Also Published As

Publication number Publication date
CN117708312A (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
EP4002362A1 (en) Method and apparatus for training speech separation model, storage medium, and computer device
AU694932B2 (en) Assessment of signal quality
Zezario et al. STOI-Net: A deep learning based non-intrusive speech intelligibility assessment model
CN113035232B (zh) 一种基于语音识别的心理状态预测系统、方法及装置
Holambe et al. Advances in non-linear modeling for speech processing
Samonte et al. BridgeApp: An assistive mobile communication application for the deaf and mute
Appel et al. On the quality of hearing one's own voice
CN110265008A (zh) 智能回访方法、装置、计算机设备及存储介质
CN108053826B (zh) 用于人机交互的方法、装置、电子设备及存储介质
Seshadri et al. Augmented CycleGANs for Continuous Scale Normal-to-Lombard Speaking Style Conversion.
KR102269126B1 (ko) 오디오 정보와 음성인식 결과를 이용한 언어학습자 말하기 교정시스템
CN112349266A (zh) 一种语音编辑方法及相关设备
CN117708312B (zh) 一种基于交互设备的数字人处理方法、系统及存储介质
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
Li et al. Intelligibility enhancement via normal-to-lombard speech conversion with long short-term memory network and bayesian Gaussian mixture model
KR102605178B1 (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
CN114462376A (zh) 基于rpa和ai的庭审笔录生成方法、装置、设备及介质
Isherwood et al. Augmentation, application and verification of the generalized listener selection procedure
Lukkarila Developing a conversation assistant for the hearing impaired using automatic speech recognition
Prakash et al. VSCODE-Code With Voice Using Natural Language Processing (NLP)
Van Kuyk Speech Communication from an Information Theoretical Perspective
Ternström Does the acoustic waveform mirror the voice?
KR102415006B1 (ko) 발화 시각화와 스토리텔링 챗봇 프레임워크를 이용한 전화 언어학습 자동화 시스템
Mital Speech enhancement for automatic analysis of child-centered audio recordings
CN117411970B (zh) 一种基于声音处理的人机耦合客服控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant