CN117690416B - 一种人工智能交互方法及人工智能交互系统 - Google Patents
一种人工智能交互方法及人工智能交互系统 Download PDFInfo
- Publication number
- CN117690416B CN117690416B CN202410148487.1A CN202410148487A CN117690416B CN 117690416 B CN117690416 B CN 117690416B CN 202410148487 A CN202410148487 A CN 202410148487A CN 117690416 B CN117690416 B CN 117690416B
- Authority
- CN
- China
- Prior art keywords
- information
- dialect
- target user
- emotion
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000003993 interaction Effects 0.000 title claims abstract description 31
- 238000013473 artificial intelligence Methods 0.000 title claims description 32
- 230000002452 interceptive effect Effects 0.000 claims abstract description 86
- 230000008451 emotion Effects 0.000 claims description 121
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 241001672694 Citrus reticulata Species 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000010191 image analysis Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于语音交互技术领域,提供了一种人工智能交互方法及人工智能交互系统,所述方法包括以下步骤:接收目标用户语音输入信息,采集目标用户人脸图像;对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;对目标用户人脸图像进行分析,得到目标性别和目标年龄;根据目标性别和目标年龄确定虚拟人像;根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。本发明中,虚拟人像的外形和声音特点更能符合用户的倾听喜好;另外,交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配,使得用户感到亲切,体验感更好。
Description
技术领域
本发明涉及语音交互技术领域,具体是涉及一种人工智能交互方法及人工智能交互系统。
背景技术
智能问答机器人已经深入了各行各业,例如很多机场、银行、医院以及酒店都安装有智能问答机器,既能够帮助用户尽快的解决各类问题,又能够减少人力成本,现有的智能问答机器人虽然能够较好的去回答用户的问题,但是对于不同用户提出的问题,都是使用同一种音色、音调以及语速进行回答,不能够根据用户的性别和年龄做出适应性改变,体验感较为单一。因此,需要提供一种人工智能交互方法及人工智能交互系统,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种人工智能交互方法及人工智能交互系统,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种人工智能交互方法,所述方法包括以下步骤:
接收目标用户语音输入信息,采集目标用户人脸图像;
对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;
对目标用户人脸图像进行分析,得到目标性别和目标年龄;
根据目标性别和目标年龄确定虚拟人像;
根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。
作为本发明进一步的方案:所述对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息的步骤,具体包括:
对目标用户语音输入信息进行文字转化得到文字信息;
对目标用户语音输入信息进行方言匹配得到方言信息,所述方言信息为方言类别,当方言匹配失败时,确定方言类别为普通话;
提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息。
作为本发明进一步的方案:所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤,具体包括:
采集多种方言数据,基于Hadoop平台建立初始方言数据库;
提取所述初始方言数据库中的语音特征,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型;
对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测,确定方言类别。
作为本发明进一步的方案:所述根据目标性别和目标年龄确定虚拟人像的步骤,具体包括:
将目标性别和目标年龄输入至舒适对象库中,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色和音调;
输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像。
作为本发明进一步的方案:所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤,具体包括:
根据文字信息确定交互语音内容;
根据方言信息确定虚拟人像的发音方言;
根据语速信息确定虚拟人像的发音速度,使得虚拟人像的发音速度与目标用户的发音速度一致。
本发明的另一目的在于提供一种人工智能交互系统,所述系统包括:
用户信息采集模块,用于接收目标用户语音输入信息,采集目标用户人脸图像;
语音信息分析模块,用于对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;
人脸图像分析模块,用于对目标用户人脸图像进行分析,得到目标性别和目标年龄;
虚拟人像确定模块,用于根据目标性别和目标年龄确定虚拟人像;
交互语音确定模块,用于根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。
作为本发明进一步的方案:所述语音信息分析模块包括:
文字信息确定单元,用于对目标用户语音输入信息进行文字转化得到文字信息;
方言信息确定单元,用于对目标用户语音输入信息进行方言匹配得到方言信息,所述方言信息为方言类别,当方言匹配失败时,确定方言类别为普通话;
语速信息确定单元,用于提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息。
作为本发明进一步的方案:所述方言信息确定单元包括:
方言数据库子单元,用于采集多种方言数据,基于Hadoop平台建立初始方言数据库;
网络模型建立子单元,用于提取所述初始方言数据库中的语音特征,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型;
匹配检测子单元,用于对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测,确定方言类别。
作为本发明进一步的方案:所述虚拟人像确定模块包括:
性别年龄输入单元,用于将目标性别和目标年龄输入至舒适对象库中,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色和音调;
虚拟对象输出单元,用于输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像。
作为本发明进一步的方案:所述交互语音确定模块包括:
交互内容确定单元,用于根据文字信息确定交互文字内容;
发音方言确定单元,用于根据方言信息确定虚拟人像的发音方言;
发音速度确定单元,用于根据语速信息确定虚拟人像的语速值,使得虚拟人像的语速值与目标用户的语速值一致;
虚拟语音生成单元,用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值,生成虚拟人像的交互语音信息。
与现有技术相比,本发明的有益效果是:
本发明通过对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;对目标用户人脸图像进行分析,得到目标性别和目标年龄;根据目标性别和目标年龄确定虚拟人像;根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。其中,虚拟人像的外形和声音特点更能符合用户的倾听喜好;另外,交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配,使得用户感到亲切,体验感更好。
附图说明
图1为一种人工智能交互方法的流程图。
图2为一种人工智能交互方法中对目标用户语音输入信息进行分析的流程图。
图3为一种人工智能交互方法中对目标用户语音输入信息进行方言匹配得到方言信息的流程图。
图4为一种人工智能交互方法中根据目标性别和目标年龄确定虚拟人像的流程图。
图5为一种人工智能交互方法中根据文字信息、方言信息和语速信息确定交互语音信息的流程图。
图6为一种人工智能交互系统的结构示意图。
图7为一种人工智能交互系统中语音信息分析模块的结构示意图。
图8为一种人工智能交互系统中方言信息确定单元的结构示意图。
图9为一种人工智能交互系统中虚拟人像确定模块的结构示意图。
图10为一种人工智能交互系统中交互语音确定模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种人工智能交互方法,所述方法包括以下步骤:
S100,接收目标用户语音输入信息,采集目标用户人脸图像;
S200,对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;
S300,对目标用户人脸图像进行分析,得到目标性别和目标年龄;
S400,根据目标性别和目标年龄确定虚拟人像;
S500,根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。
需要说明的是,智能问答机器人已经深入了各行各业,例如很多机场、银行、医院以及酒店都安装有智能问答机器,既能够帮助用户尽快的解决各类问题,又能够减少人力成本,现有的智能问答机器人虽然能够较好的去回答用户的问题,但是对于不同用户提出的问题,都是使用同一种音色、音调以及语速进行回答,不能够根据用户的性别和年龄做出适应性改变,体验感较为单一,本发明实施例旨在解决上述问题。
本发明实施例中,首先会采集目标用户语音输入信息以及目标用户人脸图像,并自动对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息,所述文字信息就是用户发出的语音内容,即用户提出的问题内容,所述方言信息是指用户发音的方言类别,例如用户发出的是粤语、四川话、上海话等等,所述语速信息是指用户的发音速度,一般而言,发音速度快的人更愿意去听说话快的人讲话,发音速度慢的人更愿意去听说话慢的人讲话;本发明实施例同时会对目标用户人脸图像进行分析,得到目标性别和目标年龄,现有的很多照相软件和人像识别软件都有此功能,该部分不再赘述,但是需要说明的是,一般而言,用户更愿意倾听异性的声音,孩子更愿意倾听童声,本发明实施例会根据目标性别和目标年龄确定虚拟人像,虚拟人像会出现在显示屏中与用户进行交流,虚拟人像的外形和声音特点更能符合用户的倾听喜好;最后会根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息,交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配,使得用户感到亲切,体验感更好。
如图2所示,作为本发明一个优选的实施例,所述对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息的步骤,具体包括:
S201,对目标用户语音输入信息进行文字转化得到文字信息;
S202,对目标用户语音输入信息进行方言匹配得到方言信息,所述方言信息为方言类别,当方言匹配失败时,确定方言类别为普通话;
S203,提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息。
本发明实施例中,采集得到目标用户语音输入信息后,需要进行方言匹配检测得到方言信息,即确定了用户说话的方言类别。当然,方言的种类太多,难以对所有的方言进行识别匹配,当方言匹配失败时,确定方言类别为普通话;并对语音信息进行文字转化得到文字信息,还需要提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息,语速等于文字信息中文字数量除以时长。
为了对目标用户语音输入信息进行情感色彩分析,使得智能问答机器人能够更好地掌握目标用户的当前情感色彩,从而进行准确的情绪判断,进而更好地从情感层面提升交互体验效果。
在本发明中,对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息的步骤之后,所述方法还包括如下步骤:
S211,获取所述文字信息中的多个词汇,基于情感词典法查找确定每个词汇对应的词汇情感色彩值;
S212,确认每个词汇在文字信息中的重复出现次数,根据重复出现次数在预设重复次数权重因子映射表中查找对应的词汇权重因子;
可以理解的,重复出现次数越高,则对应的词汇权重因子的值越大。
S213,根据多个词汇情感色彩值以及对应的词汇权重因子计算得到文字信息的情感色彩值;
在本发明中,文字信息的情感色彩值的计算公式表示为:
其中,表示文字信息的情感色彩值,/>表示第/>个词汇对应的词汇情感色彩值,/>表示第/>个词汇对应的词汇权重因子,/>表示文字信息中词汇的最大数量。
S214,根据所述语速信息确定当前语速值,根据所述当前语速值在预设语速情感色彩映射表中查到得到对应的语速情感色彩值,其中,所述预设语速情感色彩映射表为当前语速值与情感色彩值之间的映射关系;
S215,根据所述方言信息确定方言类别,并根据所述方言类别在预设方言类别情感校正因子映射表中查找确定对应的情感校正因子,其中所述预设方言类别情感校正因子映射表为各方言类别与情感校正因子之间的映射关系;
可以理解的,由于不同地域的人群有不同的方言类别,且不同地域的人群的大致性格存在共同的性格标签,因此在本发明中,根据不同的方言类别,确定对应的地域,进而在提前设置的方言类别情感校正因子映射表中可查找确认得到对应的情感校正因子。由于将地域因素也考虑到整体的目标用户语音输入信息的情感色彩值的计算中,因此更加全面准确。
S216,根据文字信息的情感色彩值、语速情感色彩值以及方言类别对应的情感校正因子,计算得到目标用户语音输入信息的情感色彩值;
在本发明中,目标用户语音输入信息的情感色彩值的计算公式表示为:
其中,表示目标用户语音输入信息的情感色彩值,/>表示目标用户语音输入信息的情感色彩值的基准值,/>表示方言类别对应的情感校正因子,/>表示文字信息项的情感色彩值的权重因子,/>表示语速的情感色彩值的权重因子,/>表示当前语速值对应的语速情感色彩值。
可以理解的,在计算得到了目标用户语音输入信息的情感色彩值之后,智能问答机器人能够更好地掌握目标用户的当前情感色彩,从而进行准确的情绪判断。
如图3所示,作为本发明一个优选的实施例,所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤,具体包括:
S2021,采集多种方言数据,基于Hadoop平台建立初始方言数据库;
S2022,提取所述初始方言数据库中的语音特征,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型;
S2023,对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测,确定方言类别。
本发明实施例中,为了对目标用户语音输入信息进行方言匹配识别,需要基于多种方言数据建立初始方言数据库,所述方言数据包括语音数据和文本数据,所述语音数据和所述文本数据存储于所述初始方言数据库的分布式文件系统中,然后需要提取所述初始方言数据库中的语音特征。具体的,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型,对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测。具体的,基于所述卷积神经网络模型对目标用户语音输入信息进行语音特征提取,获取用户语音特征,当所述用户语音特征存在于所述初始方言数据库中时,进行语音征匹配,当语音特征匹配成功时,则输出所述用户语音特征的匹配文本;否则视为方言匹配失败。
如图4所示,作为本发明一个优选的实施例,所述根据目标性别和目标年龄确定虚拟人像的步骤,具体包括:
S401,将目标性别和目标年龄输入至舒适对象库中,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色和音调;
S402,输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像。
对于所输出的舒适虚拟对象,为了使得虚拟人像与目标用户的特征更为吻合,在步骤S402中,具体包括如下子步骤:
S4021,根据目标用户语音输入信息的情感色彩值,在预设人像着装色彩库中查找对应的人像着装色彩RGB基准值;
S4022,根据目标用户语音输入信息的情感色彩值,在预设人像着装服饰类型库中查找对应的人像着装服饰类型;
可以理解的,根据目标用户语音输入信息的情感色彩值来确定人像着装色彩RGB基准值以及人像着装服饰类型,可使得生成的虚拟人像与目标用户的真实属性更加贴切,提高了目标用户的体验感与定制感。
S4023,根据人像着装色彩RGB基准值、人像着装服饰类型、目标性别与目标年龄,生成舒适虚拟对象。
本发明实施例中,事先建立有舒适对象库,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色、音调以及外形,舒适对象库根据经验和调查问卷可以得到,将目标性别和目标年龄输入至舒适对象库中进行匹配,就会自动输出对应的舒适虚拟对象了。如此,不同的用户对应有不同的虚拟人像,更加人性化。
如图5所示,作为本发明一个优选的实施例,所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤,具体包括:
S501,根据文字信息确定交互文字内容;
在本发明中,交互文字内容并不是一次性便能成功生成,具体的,若目标用户的当前情感色彩值低于预设情感色彩值,此时需要通过语音交互的方式对目标用户进行情绪引导,故而生成的交互文字内容对应的情感色彩值也应该符合对应的要求。
具体的,步骤S501包括如下子步骤:
S5011,根据文字信息确定生成初始交互文字内容;
S5012,判断目标用户语音输入信息的情感色彩值是否大于预设情感色彩值;
S5013,当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值,则根据目标用户语音输入信息的情感色彩值查找确认对应的引导内容的最低情感色彩值;
在此需要说明的是,引导内容实质上指的是交互文字内容,在本发明中,对于一些情感色彩值较低(情绪低落)人员,智能问答机器人生成的交互文字内容要能起到情绪引导的效果,因此在此成为引导内容。
S5014,基于所述初始交互文字内容计算得到初始交互文字内容的情感色彩值,并判断所述初始交互文字内容的情感色彩值是否大于引导内容的最低情感色彩值;
S5015,若否,则对所述初始交互文字内容进行修正,直到最终生成目标交互文字内容,其中,目标交互文字内容的情感色彩值大于引导内容的最低情感色彩值。
S502,根据方言信息确定虚拟人像的发音方言;
S503,根据语速信息确定虚拟人像的语速值,使得虚拟人像的语速值与目标用户的语速值一致。
S504,根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值,生成虚拟人像的交互语音信息。
在本发明中,虚拟人像的发音速度原则上应与目标用户的发音速度一致。当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值之后,则本发明还包括如下步骤:
S511,根据目标用户语音输入信息的情感色彩值,计算得到虚拟人像的语速值;
在本发明中,虚拟人像的语速值的计算公式表示为:
其中,表示虚拟人像的语速值,/>表示目标用户的语速值,/>表示情感色彩项的语速值换算系数。
作为补充说明的,该公式是针对于目标用户语音输入信息的情感色彩值小于预设情感色彩值的情况下设置的。对于目标用户语音输入信息的情感色彩值大于预设情感色彩值的情况,也即目标用户无需进行情感引导,此时虚拟人像的语速值按照与目标用户的语速值一致即可。
S512,根据目标用户语音输入信息的情感色彩值,在预设情感引导语调类型映射表中查找确认对应类型的引导语调;
可以理解的,对于交互语音而言,其属性不仅包括语速值,还有语调类型。对于语调类型而言,可以包括“沉闷型语调”、“舒缓型语调”、“俏皮型语调”以及“欢快型语调”等。若目标用户的情感色彩值偏低,则此时需要通过选择一些偏欢快型的语调来实现情感引导的作用。此外,预设情感引导语调类型映射表为目标用户语音输入信息的情感色彩值与各语调类型之间的映射关系表。
S513,根据虚拟人像的语速值、对应类型的引导语调、虚拟人像的发音方言以及交互文字内容生成情感引导交互语音信息。
可以理解的,情感引导交互语音信息,是通过选择一些偏欢快型的语调来实现情感引导的作用。
本发明实施例中,会根据文字信息确定交互语音内容,这是所有的智能问答机器人必备功能,常用的有数据库匹配式,然后根据方言信息确定虚拟人像的发音方言,使得两者的方言尽可能相同,最后根据语速信息确定虚拟人像的发音速度,使得虚拟人像的发音速度与目标用户的发音速度一致,交流会更加顺畅。
如图6所示,本发明实施例还提供了一种人工智能交互系统,所述系统包括:
用户信息采集模块100,用于接收目标用户语音输入信息,采集目标用户人脸图像;
语音信息分析模块200,用于对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;
人脸图像分析模块300,用于对目标用户人脸图像进行分析,得到目标性别和目标年龄;
虚拟人像确定模块400,用于根据目标性别和目标年龄确定虚拟人像;
交互语音确定模块500,用于根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。
本发明实施例中,首先会采集目标用户语音输入信息以及目标用户人脸图像,并自动对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息,所述文字信息就是用户发出的语音内容,即用户提出的问题内容,所述方言信息是指用户发音的方言类别,例如用户发出的是粤语、四川话、上海话等等,所述语速信息是指用户的发音速度,一般而言,发音速度快的人更愿意去听说话快的人讲话,发音速度慢的人更愿意去听说话慢的人讲话;本发明实施例同时会对目标用户人脸图像进行分析,得到目标性别和目标年龄,现有的很多照相软件和人像识别软件都有此功能,该部分不再赘述,但是需要说明的是,一般而言,用户更愿意倾听异性的声音,孩子更愿意倾听童声,本发明实施例会根据目标性别和目标年龄确定虚拟人像,虚拟人像会出现在显示屏中与用户进行交流,虚拟人像的外形和声音特点更能符合用户的倾听喜好;最后会根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息,交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配,使得用户感到亲切,体验感更好。
如图7所示,作为本发明一个优选的实施例,所述语音信息分析模块200包括:
文字信息确定单元201,用于对目标用户语音输入信息进行文字转化得到文字信息;
方言信息确定单元202,用于对目标用户语音输入信息进行方言匹配得到方言信息,所述方言信息为方言类别,当方言匹配失败时,确定方言类别为普通话;
语速信息确定单元203,用于提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息。
如图8所示,作为本发明一个优选的实施例,所述方言信息确定单元202包括:
方言数据库子单元2021,用于采集多种方言数据,基于Hadoop平台建立初始方言数据库;
网络模型建立子单元2022,用于提取所述初始方言数据库中的语音特征,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型;
匹配检测子单元2023,用于对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测,确定方言类别。
如图9所示,作为本发明一个优选的实施例,所述虚拟人像确定模块400包括:
性别年龄输入单元401,用于将目标性别和目标年龄输入至舒适对象库中,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色和音调;
虚拟对象输出单元402,用于输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像。
如图10所示,作为本发明一个优选的实施例,所述交互语音确定模块500包括:
交互内容确定单元501,用于根据文字信息确定交互文字内容;
发音方言确定单元502,用于根据方言信息确定虚拟人像的发音方言;
发音速度确定单元503,用于根据语速信息确定虚拟人像的语速值,使得虚拟人像的语速值与目标用户的语速值一致;
虚拟语音生成单元504,用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值,生成虚拟人像的交互语音信息。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (7)
1.一种人工智能交互方法,其特征在于,所述方法包括以下步骤:
接收目标用户语音输入信息,采集目标用户人脸图像;
对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;
对目标用户人脸图像进行分析,得到目标性别和目标年龄;
根据目标性别和目标年龄确定虚拟人像;
根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息;
所述对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息的步骤,具体包括:
对目标用户语音输入信息进行文字转化得到文字信息;
对目标用户语音输入信息进行方言匹配得到方言信息,所述方言信息为方言类别,当方言匹配失败时,确定方言类别为普通话;
提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息;
其中,所述根据目标性别和目标年龄确定虚拟人像的步骤,具体包括:
将目标性别和目标年龄输入至舒适对象库中,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色和音调;
输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像;
其中,输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像的方法包括如下步骤:
根据目标用户语音输入信息的情感色彩值,在预设人像着装色彩库中查找对应的人像着装色彩RGB基准值;
根据目标用户语音输入信息的情感色彩值,在预设人像着装服饰类型库中查找对应的人像着装服饰类型;
根据人像着装色彩RGB基准值、人像着装服饰类型、目标性别与目标年龄,生成舒适虚拟对象;
对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息的步骤之后,所述方法还包括如下步骤:
获取所述文字信息中的多个词汇,基于情感词典法查找确定每个词汇对应的词汇情感色彩值;
确认每个词汇在文字信息中的重复出现次数,根据重复出现次数在预设重复次数权重因子映射表中查找对应的词汇权重因子;
根据多个词汇情感色彩值以及对应的词汇权重因子计算得到文字信息的情感色彩值;
根据所述语速信息确定当前语速值,根据所述当前语速值在预设语速情感色彩映射表中查到得到对应的语速情感色彩值,其中,所述预设语速情感色彩映射表为当前语速值与情感色彩值之间的映射关系;
根据所述方言信息确定方言类别,并根据所述方言类别在预设方言类别情感校正因子映射表中查找确定对应的情感校正因子,其中所述预设方言类别情感校正因子映射表为各方言类别与情感校正因子之间的映射关系;
根据文字信息的情感色彩值、语速情感色彩值以及方言类别对应的情感校正因子,计算得到目标用户语音输入信息的情感色彩值;
文字信息的情感色彩值的计算公式表示为:
;
其中,表示文字信息的情感色彩值,/>表示第/>个词汇对应的词汇情感色彩值,/>表示第/>个词汇对应的词汇权重因子,/>表示文字信息中词汇的最大数量;
目标用户语音输入信息的情感色彩值的计算公式表示为:
;
其中,表示目标用户语音输入信息的情感色彩值,/>表示目标用户语音输入信息的情感色彩值的基准值,/>表示方言类别对应的情感校正因子,/>表示文字信息项的情感色彩值的权重因子,/>表示语速的情感色彩值的权重因子,/>表示当前语速值对应的语速情感色彩值。
2.根据权利要求1所述的一种人工智能交互方法,其特征在于, 所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤,具体包括:
采集多种方言数据,基于Hadoop平台建立初始方言数据库;
提取所述初始方言数据库中的语音特征,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型;
对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测,确定方言类别。
3.根据权利要求1所述的一种人工智能交互方法,其特征在于,所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤,具体包括:
根据文字信息确定交互文字内容;
根据方言信息确定虚拟人像的发音方言;
根据语速信息确定虚拟人像的语速值,使得虚拟人像的语速值与目标用户的语速值一致;
根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值,生成虚拟人像的交互语音信息。
4.根据权利要求3所述的一种人工智能交互方法,其特征在于,根据文字信息确定交互文字内容的方法包括如下步骤:
根据文字信息确定生成初始交互文字内容;
判断目标用户语音输入信息的情感色彩值是否大于预设情感色彩值;
当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值,则根据目标用户语音输入信息的情感色彩值查找确认对应的引导内容的最低情感色彩值;
基于所述初始交互文字内容计算得到初始交互文字内容的情感色彩值,并判断所述初始交互文字内容的情感色彩值是否大于引导内容的最低情感色彩值;
若否,则对所述初始交互文字内容进行修正,直到最终生成目标交互文字内容,其中,目标交互文字内容的情感色彩值大于引导内容的最低情感色彩值。
5.根据权利要求4所述的一种人工智能交互方法,其特征在于,当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值之后,所述方法还包括如下步骤:
根据目标用户语音输入信息的情感色彩值,计算得到虚拟人像的语速值;
虚拟人像的语速值的计算公式表示为:
;
其中,表示虚拟人像的语速值,/>表示目标用户的语速值,/>表示情感色彩项的语速值换算系数;
根据目标用户语音输入信息的情感色彩值,在预设情感引导语调类型映射表中查找确认对应类型的引导语调;
根据虚拟人像的语速值、对应类型的引导语调、虚拟人像的发音方言以及交互文字内容生成交互语音信息。
6.一种人工智能交互系统,其特征在于,执行权利要求1至5任一项所述的人工智能交互方法,所述系统包括:
用户信息采集模块,用于接收目标用户语音输入信息,采集目标用户人脸图像;
语音信息分析模块,用于对目标用户语音输入信息进行分析,得到文字信息、方言信息和语速信息;
人脸图像分析模块,用于对目标用户人脸图像进行分析,得到目标性别和目标年龄;
虚拟人像确定模块,用于根据目标性别和目标年龄确定虚拟人像;
交互语音确定模块,用于根据文字信息、方言信息和语速信息确定交互语音信息,使得虚拟人像发出所述交互语音信息。
7.根据权利要求6所述的一种人工智能交互系统,其特征在于,所述语音信息分析模块包括:
文字信息确定单元,用于对目标用户语音输入信息进行文字转化得到文字信息;
方言信息确定单元,用于对目标用户语音输入信息进行方言匹配得到方言信息,所述方言信息为方言类别,当方言匹配失败时,确定方言类别为普通话;
语速信息确定单元,用于提取目标用户语音输入信息的时长,根据时长和文字信息中文字数量确定语速信息;
所述方言信息确定单元包括:
方言数据库子单元,用于采集多种方言数据,基于Hadoop平台建立初始方言数据库;
网络模型建立子单元,用于提取所述初始方言数据库中的语音特征,使用VAD技术对采集的方言数据按频率进行分段处理,对进行所述分段处理后的语音数据采用聚类方法进行降噪处理,建立卷积神经网络模型;
匹配检测子单元,用于对所述卷积神经网络模型进行训练,将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测,确定方言类别;
所述虚拟人像确定模块包括:
性别年龄输入单元,用于将目标性别和目标年龄输入至舒适对象库中,所述舒适对象库包括所有的年龄段,每个年龄段对应有两个性别,每个性别对应有舒适虚拟对象,每个舒适虚拟对象有自己的音色和音调;
虚拟对象输出单元,用于输出对应的舒适虚拟对象,所述舒适虚拟对象为虚拟人像;
所述交互语音确定模块包括:
交互内容确定单元,用于根据文字信息确定交互文字内容;
发音方言确定单元,用于根据方言信息确定虚拟人像的发音方言;
发音速度确定单元,用于根据语速信息确定虚拟人像的语速值,使得虚拟人像的语速值与目标用户的语速值一致;
虚拟语音生成单元,用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值,生成虚拟人像的交互语音信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410148487.1A CN117690416B (zh) | 2024-02-02 | 2024-02-02 | 一种人工智能交互方法及人工智能交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410148487.1A CN117690416B (zh) | 2024-02-02 | 2024-02-02 | 一种人工智能交互方法及人工智能交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117690416A CN117690416A (zh) | 2024-03-12 |
CN117690416B true CN117690416B (zh) | 2024-04-12 |
Family
ID=90128596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410148487.1A Active CN117690416B (zh) | 2024-02-02 | 2024-02-02 | 一种人工智能交互方法及人工智能交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117690416B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105929964A (zh) * | 2016-05-10 | 2016-09-07 | 海信集团有限公司 | 人机交互方法及装置 |
CN106547842A (zh) * | 2016-10-14 | 2017-03-29 | 华东师范大学 | 一种在虚拟地球平台上可视化基于位置的情感的方法 |
CN108369799A (zh) * | 2015-09-29 | 2018-08-03 | 安泊音乐有限公司 | 采用基于语言学和/或基于图形图标的音乐体验描述符的自动音乐合成和生成的机器、系统和过程 |
CN110427472A (zh) * | 2019-08-02 | 2019-11-08 | 深圳追一科技有限公司 | 智能客服匹配的方法、装置、终端设备及存储介质 |
WO2019218467A1 (zh) * | 2018-05-14 | 2019-11-21 | 平安科技(深圳)有限公司 | 一种音视频通话方言识别方法、装置、终端设备及介质 |
CN111475023A (zh) * | 2020-04-07 | 2020-07-31 | 四川虹美智能科技有限公司 | 基于语音情绪识别的冰箱控制方法及装置 |
CN112908296A (zh) * | 2021-02-18 | 2021-06-04 | 上海工程技术大学 | 一种方言识别方法 |
CN113435518A (zh) * | 2021-06-29 | 2021-09-24 | 青岛海尔科技有限公司 | 特征融合基于多模态的交互方法及装置 |
CN116092472A (zh) * | 2022-12-29 | 2023-05-09 | 上海阅文信息技术有限公司 | 一种语音合成方法和合成系统 |
WO2023184942A1 (zh) * | 2022-03-29 | 2023-10-05 | 青岛海尔空调器有限总公司 | 语音交互方法、装置及电器 |
WO2023246163A1 (zh) * | 2022-06-22 | 2023-12-28 | 海信视像科技股份有限公司 | 一种虚拟数字人驱动方法、装置、设备和介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10943601B2 (en) * | 2017-05-31 | 2021-03-09 | Lenovo (Singapore) Pte. Ltd. | Provide output associated with a dialect |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN113536007A (zh) * | 2021-07-05 | 2021-10-22 | 北京百度网讯科技有限公司 | 一种虚拟形象生成方法、装置、设备以及存储介质 |
-
2024
- 2024-02-02 CN CN202410148487.1A patent/CN117690416B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108369799A (zh) * | 2015-09-29 | 2018-08-03 | 安泊音乐有限公司 | 采用基于语言学和/或基于图形图标的音乐体验描述符的自动音乐合成和生成的机器、系统和过程 |
CN105929964A (zh) * | 2016-05-10 | 2016-09-07 | 海信集团有限公司 | 人机交互方法及装置 |
CN106547842A (zh) * | 2016-10-14 | 2017-03-29 | 华东师范大学 | 一种在虚拟地球平台上可视化基于位置的情感的方法 |
WO2019218467A1 (zh) * | 2018-05-14 | 2019-11-21 | 平安科技(深圳)有限公司 | 一种音视频通话方言识别方法、装置、终端设备及介质 |
CN110427472A (zh) * | 2019-08-02 | 2019-11-08 | 深圳追一科技有限公司 | 智能客服匹配的方法、装置、终端设备及存储介质 |
CN111475023A (zh) * | 2020-04-07 | 2020-07-31 | 四川虹美智能科技有限公司 | 基于语音情绪识别的冰箱控制方法及装置 |
CN112908296A (zh) * | 2021-02-18 | 2021-06-04 | 上海工程技术大学 | 一种方言识别方法 |
CN113435518A (zh) * | 2021-06-29 | 2021-09-24 | 青岛海尔科技有限公司 | 特征融合基于多模态的交互方法及装置 |
WO2023184942A1 (zh) * | 2022-03-29 | 2023-10-05 | 青岛海尔空调器有限总公司 | 语音交互方法、装置及电器 |
WO2023246163A1 (zh) * | 2022-06-22 | 2023-12-28 | 海信视像科技股份有限公司 | 一种虚拟数字人驱动方法、装置、设备和介质 |
CN116092472A (zh) * | 2022-12-29 | 2023-05-09 | 上海阅文信息技术有限公司 | 一种语音合成方法和合成系统 |
Non-Patent Citations (2)
Title |
---|
侯进 ; .个性化虚拟人建模及文本控制其动作表情合成研究.学术动态.2012,(第04期),全文. * |
李真 ; 王志良 ; 张雪元 ; 李庆恩 ; .具有情感和语音交互能力的虚拟人系统.计算机工程.2006,(第20期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117690416A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021068321A1 (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
WO2021000497A1 (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN111984766B (zh) | 缺失语义补全方法及装置 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
JP2009139390A (ja) | 情報処理システム、処理方法及びプログラム | |
KR20200105057A (ko) | 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법 | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN111832248A (zh) | 文本规整方法、装置、电子设备和存储介质 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN117033796A (zh) | 基于用户表达偏好的智能回复方法、装置、设备及介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN117690416B (zh) | 一种人工智能交互方法及人工智能交互系统 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN116011450A (zh) | 分词模型训练方法、系统、设备、存储介质及分词方法 | |
CN114913871A (zh) | 目标对象分类方法、系统、电子设备及存储介质 | |
CN115759052A (zh) | 一种文本纠错方法、装置、电子设备及存储介质 | |
CN115017886A (zh) | 文本匹配方法、文本匹配装置、电子设备及存储介质 | |
CN113793611A (zh) | 评分方法、装置、计算机设备和存储介质 | |
CN109062911B (zh) | 一种人工智能语音建模方法 | |
CN110619866A (zh) | 语音合成方法及装置 | |
CN109101499B (zh) | 基于神经网络的人工智能语音学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |