CN111078010B - 一种人机交互方法、装置、终端设备及可读存储介质 - Google Patents

一种人机交互方法、装置、终端设备及可读存储介质 Download PDF

Info

Publication number
CN111078010B
CN111078010B CN201911247228.XA CN201911247228A CN111078010B CN 111078010 B CN111078010 B CN 111078010B CN 201911247228 A CN201911247228 A CN 201911247228A CN 111078010 B CN111078010 B CN 111078010B
Authority
CN
China
Prior art keywords
speaker
audio data
data
video data
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911247228.XA
Other languages
English (en)
Other versions
CN111078010A (zh
Inventor
郑志华
萧联汉
詹天杰
蓝伟杰
梁卓豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhiyu Technology Jiangmen Co ltd
Original Assignee
Zhiyu Technology Jiangmen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiyu Technology Jiangmen Co ltd filed Critical Zhiyu Technology Jiangmen Co ltd
Priority to CN201911247228.XA priority Critical patent/CN111078010B/zh
Publication of CN111078010A publication Critical patent/CN111078010A/zh
Application granted granted Critical
Publication of CN111078010B publication Critical patent/CN111078010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches

Abstract

本发明实施例提供一种人机交互方法、装置、终端设备及可读存储介质,所述方法包括,采集当前环境的音频数据和/或视频数据;根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。本发明满足一对一和一对多的人机交互情景,且能够准确地、系统地完成人机交互。

Description

一种人机交互方法、装置、终端设备及可读存储介质
技术领域
本发明属于机器人领域,尤其涉及一种人机交互方法、装置、终端设备及可读存储介质。
背景技术
现有技术下,并没有聊天机器人能通过图灵测试,虽然聊天机器人可以尽量建立丰富的知识,但语音聊天机器人主要是通过扫描语音里的关键词,然后从数据库里找些最相近的关键词,或类似的词语来回答,并不能正确而有系统性地与人交谈,并教授学习某领域的知识。
现有的语音聊天机器人并不侧重于识别说话者,因其设计目的是为了理解对话的内容,而不是在识别说话者上,所以在应用上比较偏向于单对单的对话,此外,也会易受环境的因素影响,在有其他人说话的环境下会混淆对话内容。另外,在多人的对话中,没有识别说话者的功能,将妨碍语音聊天机器人成为一个能分辨不同学生答问的智能导师。
发明内容
针对上述问题,本发明的目的在于提供一种人机交互方法、装置、终端设备及可读存储介质,满足一对一和一对多的人机交互情景,且能够准确地、系统地完成人机交互。
为了解决上述技术问题:
第一方面,本发明实施例提供一种人机交互方法,包括:
采集当前环境的音频数据和/或视频数据;
根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;
将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;
根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。
优选地,所述根据所述音频数据和/或所述视频数据对当前说话者进行识别,包括:
采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话;
对所述视频数据进行预处理,减少环境对人脸识别的干扰,并确定脸孔个数,提取人脸特征;
根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征,确定说话者。
优选地,所述采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话,包括:
所述音频数据作为输入,采用无界交错状态递归神经网络,通过对受监督的说话者标签,并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者;或者,
从所述音频数据中提取混合频率系数特征,并采用高斯混合模型来进行说话者分段标记;
所述高斯混合模型模拟每个说话者,并通过隐马尔可夫模型为每个说话者分配相应的帧。
优选地,所述对所述文本数据进行关键内容识别,包括:
将所述文本数据进行若干主题划分;
采用隐含狄利克雷分布技术,从预定义的有限且固定的主题中,计算每个主题之间的关联,以及所述文本数据的主题分布。
第二方面,本发明实施例还提供一种人机交互装置,包括:
音频数据和/或视频数据采集单元,用于采集当前环境的音频数据和/或视频数据;
说话者识别单元,用于根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;
关键内容识别单元,用于将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;
交互单元,用于根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。
优选地,所述根据所述音频数据和/或所述视频数据对当前说话者进行识别,包括:
采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话;
对所述视频数据进行预处理,减少环境对人脸识别的干扰,并确定脸孔个数,提取人脸特征;
根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征,确定说话者。
优选地,所述采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话,包括:
所述音频数据作为输入,采用无界交错状态递归神经网络,通过对受监督的说话者标签,并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者;或者,
从所述音频数据中提取混合频率系数特征,并采用高斯混合模型来进行说话者分段标记;
所述高斯混合模型模拟每个说话者,并通过隐马尔可夫模型为每个说话者分配相应的帧。
优选地,所述对所述文本数据进行关键内容识别,包括:
将所述文本数据进行若干主题划分;
采用隐含狄利克雷分布技术,从预定义的有限且固定的主题中,计算每个主题之间的关联,以及所述文本数据的主题分布。
第三方面,本发明实施例还提供一种终端设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的人机交互方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的人机交互方法。
实施本发明实施例具有如下有益效果:
本发明实施例提供一种人机交互方法、装置、终端设备及可读存储介质,所述方法包括,采集当前环境的音频数据和/或视频数据;根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。本发明满足一对一和一对多的人机交互情景,且能够准确地、系统地完成人机交互。
附图说明
图1为本发明实施例提供的人机交互方法的流程示意图;
图2为本发明实施例提供的说话者识别示意图;
图3为本发明实施例提供的视觉手语拼音教学示意图;
图4为本发明实施例提供的人机交互方法的操作示意图;
图5为本发明实施例提供的人机交互装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1。
本发明实施例提供一种人机交互方法,包括:
S100、采集当前环境的音频数据和/或视频数据。
通过适配现有技术下的麦克风、摄像头,能够满足对当前环境的音频数据和/或视频数据的采集要求。
S200、根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓。
其中,所述根据所述音频数据和/或所述视频数据对当前说话者进行识别,包括:
采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话;
对所述视频数据进行预处理,减少环境对人脸识别的干扰,并确定脸孔个数,提取人脸特征;
根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征,确定说话者。
其中,所述采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话,包括:
所述音频数据作为输入,采用无界交错状态递归神经网络,通过对受监督的说话者标签,并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者;或者,
从所述音频数据中提取混合频率系数特征,并采用高斯混合模型来进行说话者分段标记;
所述高斯混合模型模拟每个说话者,并通过隐马尔可夫模型为每个说话者分配相应的帧。
在具体的实施例当中,加入识别用户的功能。有关识别的方法,可以用语音、视频或其他技术实现。请参阅图2,其一的实现方法是采用说话者自动分段标记(SpeakerDiarization),从语音中标注出“谁”从“什么时候”到“什么时候”在说话。在说话者自动分段标记的技术中,谷歌公司研究用无界交错状态递归神经网络(RNN),通过对受监督的说话者标签,再利用交错时间中不同的RNN状态来区分说话者。另外,在身份确认的系统中,早已广泛地使用识别说话者技术,通常的方法是从语音中提取混合频率系数(MFCC)特征,用高斯混合模型(GMM)来进行说话者分段标记,使用高斯混合模型来模拟每个说话者,并在隐马尔可夫模型(HMM)的帮助下为每个说话者分配相应的帧。
此外,用视频识别说话者的实现方法是在视频中对光線、顏色、雜雜等进行预处理,先减少环境对视频里对人脸识别的影响,然后在视频中通过对颜色、遮盖物、拍摄的姿态角度、表情等分析,将人脸特征提取出来,定下脸孔的框框,计算人数与记录个人的特征,若再配合说话者语音分析,将更准确地识别说话者。
现有技术下,一般的语音聊天机器人并不侧重于识别说话者,因其设计目的是为了理解对话的内容,而不是在识别说话者上,所以在应用上比较偏向于单对单的对话,此外,也会易受环境的因素影响,在有其他人说话的环境下会混淆对话内容。另外,在多人的对话中,没有识别说话者的功能,将妨碍语音聊天机器人成为一个能分辨不同学生答问的智能导师。而本实施例能够满足一对一和一对多的人机交互情景,且能够准确地、系统地完成人机交互。
S300、将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别。
其中,所述对所述文本数据进行关键内容识别,包括:
将所述文本数据进行若干主题划分;
采用隐含狄利克雷分布技术,从预定义的有限且固定的主题中,计算每个主题之间的关联,以及所述文本数据的主题分布。
在具体的实施例当中,为提高离线下的语音准确率,采用关键内容识别的技术,此技术建基于隱含狄利克雷分布(LDA),当语音转换成文字后,对话的内容就如一篇由数个主题所组成的文件,每个主题有数个重要的用词来描述,而相同的用词可同时出现在不同的主题之间。隱含狄利克雷分布技术的基本精神是,从之前定义好有限而固定的主题中,透过观察对话与用词来计算出主题之间的关联,以及各个对话的主题分布,只要语音对话例子够多,就可以快速地理解不同对话的主题,然后,聊天机器人就可以更准确地与人对话。
S400、根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。
在具体的实施例当中,即时聊天的主题内容在是在离线状态下,聊天的主题内容在离线下,因为对同一概念下的语言变化理解有限,所以智能处理简单的问题。为增加主题内容的知识及更准确掌握语言内容,智能导师用了隱含狄利克雷分布去分析主题内容里的关键内容,同时,也具有事先定义好主题和知识,以故事板形式储存在知识库里,通过对语音和其他讯息的翻译,与对话前后内容的理解,从故事板的知识库中找出适当的语音和动作回应。当对话讯息模糊不清时,智能导师会复述问题,及确认它所听到的对话内容,以保持对话正确进行。
下面结合具体实例对本发明进一步说明。
需要说明的是,智能导师,其一教授知识的实现方法是教授语言。硬件的机器人导师成本高,教授语言时嘴巴未能逼真地模仿人发音时的口型活动,这都妨碍了这些机器人在教育上的应用。所以,另一种方法是在智能机器的屏幕上,以软件机器人导师的形式直接把视频显示出来,或者利用虚拟人物技术,用电脑绘画出栩栩如生的导师,说话时表情和嘴巴,以至肢体准确配合像真人一样教授。但是,有关技术要求与成本仍然颇高,总成本并不是一般的软件机器人导师可以承担。
智能导师会在一对一,或在一对多的环境里教学或聊天。有时候,聊天中途也会由一对一变成一对多交谈;反之,也可能从一对多变成一对一。在一对一的环境下,机器人导师可以用比较个人化的方式,与用户交谈,但是,在一对多的环境下,机器人导师的对象就从一人变成了多人,对说话者的称呼也从你变成你们,或是从他变成他们。对话人物也可从多人中只与其中一人或部分人进行,例如,机器人导师要问其中一些人答案时,也需要分辨谁回答了问题?谁回答错误,谁回答正确?通过说话者识别的功能,配合故事板的导引教授。
例如,利用屏幕和视频适合小孩学习外语拼音的教学法,再用语音与图像识别分析学生的回答。在屏幕上用视频显示发音时的口型,表情等相关变化;同时,也播放易于记忆的辅助手语,让学习能达到更佳的效果。请参阅图3,例如:学习美式英语,除以视频显示嘴巴怎样发音外,还可以显示相关的美式手语(American Sign Language),这种视觉拼音的方法对幼儿已经是广泛使用而证明有效的英语学习法。当智能导师教授英语发音时,学生学习发音,也学习手语辅助记忆。本发明的智能导师用语音识别学生的发音是否准确?另外,也可以用学生做的视觉手语拼音,用图像手语识别方法来肯定是否已掌握了拼音手语。有研究指出与拼音相关的手语识别,通过VGG16等深度卷积神经网络模型对36个字母的手语识别可以达到95.54%的准确率。利用语音与图像分析,将有助于识别学生的发音是否准确,学生是否可跟得上教学进度?
请参阅图4,当智能导师开始教学,它从话筒聆听声音,也可以同时用镜头拍下视频,从语音或与视频中,分辨说话者是一人或多人,然后识别是谁说话。识别后,教授一些学习内容,识别回应学生的反应。如果教学完毕,结束教学。如果仍未完成,回到从话筒聆听声音与用镜头拍视频。
请参阅图5。
本发明实施例还提供一种人机交互装置,包括:
音频数据和/或视频数据采集单元10,用于采集当前环境的音频数据和/或视频数据;
说话者识别单元20,用于根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;
关键内容识别单元30,用于将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;
交互单元40,用于根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。
优选地,所述根据所述音频数据和/或所述视频数据对当前说话者进行识别,包括:
采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话;
对所述视频数据进行预处理,减少环境对人脸识别的干扰,并确定脸孔个数,提取人脸特征;
根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征,确定说话者。
优选地,所述采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话,包括:
所述音频数据作为输入,采用无界交错状态递归神经网络,通过对受监督的说话者标签,并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者;或者,
从所述音频数据中提取混合频率系数特征,并采用高斯混合模型来进行说话者分段标记;
所述高斯混合模型模拟每个说话者,并通过隐马尔可夫模型为每个说话者分配相应的帧。
优选地,所述对所述文本数据进行关键内容识别,包括:
将所述文本数据进行若干主题划分;
采用隐含狄利克雷分布技术,从预定义的有限且固定的主题中,计算每个主题之间的关联,以及所述文本数据的主题分布。
本发明实施例还提供一种终端设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的人机交互方法。
本发明实施例还提供一种计算机可读存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的人机交互方法。
本发明实施例还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的精准搜索的有偿互动方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种人机交互方法,其特征在于,包括:
采集当前环境的音频数据和/或视频数据;
根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;
将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;
根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。
2.根据权利要求1所述的人机交互方法,其特征在于,所述根据所述音频数据和/或所述视频数据对当前说话者进行识别,包括:
采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话;
对所述视频数据进行预处理,减少环境对人脸识别的干扰,并确定脸孔个数,提取人脸特征;
根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征,确定说话者。
3.根据权利要求2所述的人机交互方法,其特征在于,所述采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话,包括:
所述音频数据作为输入,采用无界交错状态递归神经网络,通过对受监督的说话者标签,并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者;或者,
从所述音频数据中提取混合频率系数特征,并采用高斯混合模型来进行说话者分段标记;
所述高斯混合模型模拟每个说话者,并通过隐马尔可夫模型为每个说话者分配相应的帧。
4.根据权利要求1所述的人机交互方法,其特征在于,所述对所述文本数据进行关键内容识别,包括:
将所述文本数据进行若干主题划分;
采用隐含狄利克雷分布技术,从预定义的有限且固定的主题中,计算每个主题之间的关联,以及所述文本数据的主题分布。
5.一种人机交互装置,其特征在于,包括:
音频数据和/或视频数据采集单元,用于采集当前环境的音频数据和/或视频数据;
说话者识别单元,用于根据所述音频数据和/或所述视频数据对当前说话者进行识别,并根据当前说话者识别的数量确定回答的称谓;
关键内容识别单元,用于将所述音频数据和/或所述视频数据,转换成文本数据,并对所述文本数据进行关键内容识别;
交互单元,用于根据所述关键内容识别结果和确定回答的称谓,从知识库中提取对应的音频数据和/或视频数据进行答复。
6.根据权利要求5所述的人机交互装置,其特征在于,所述根据所述音频数据和/或所述视频数据对当前说话者进行识别,包括:
采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话;
对所述视频数据进行预处理,减少环境对人脸识别的干扰,并确定脸孔个数,提取人脸特征;
根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征,确定说话者。
7.根据权利要求6所述的人机交互装置,其特征在于,所述采用说话者自动分段标记,从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话,包括:
所述音频数据作为输入,采用无界交错状态递归神经网络,通过对受监督的说话者标签,并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者;或者,
从所述音频数据中提取混合频率系数特征,并采用高斯混合模型来进行说话者分段标记;
所述高斯混合模型模拟每个说话者,并通过隐马尔可夫模型为每个说话者分配相应的帧。
8.根据权利要求5所述的人机交互装置,其特征在于,所述对所述文本数据进行关键内容识别,包括:
将所述文本数据进行若干主题划分;
采用隐含狄利克雷分布技术,从预定义的有限且固定的主题中,计算每个主题之间的关联,以及所述文本数据的主题分布。
9.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至4任一项所述的人机交互方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4任一项所述的人机交互方法。
CN201911247228.XA 2019-12-06 2019-12-06 一种人机交互方法、装置、终端设备及可读存储介质 Active CN111078010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911247228.XA CN111078010B (zh) 2019-12-06 2019-12-06 一种人机交互方法、装置、终端设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911247228.XA CN111078010B (zh) 2019-12-06 2019-12-06 一种人机交互方法、装置、终端设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111078010A CN111078010A (zh) 2020-04-28
CN111078010B true CN111078010B (zh) 2023-03-14

Family

ID=70313303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911247228.XA Active CN111078010B (zh) 2019-12-06 2019-12-06 一种人机交互方法、装置、终端设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111078010B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269305B (zh) * 2021-05-20 2024-05-03 郑州铁路职业技术学院 一种加强记忆的反馈语音强化方法
CN115376187A (zh) * 2022-08-12 2022-11-22 之江实验室 一种多人机交互场景下说话对象检测装置及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
CN105512348B (zh) * 2016-01-28 2019-03-26 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN107553505A (zh) * 2017-10-13 2018-01-09 刘杜 自主移动讲解系统平台机器人及讲解方法
CN110096251B (zh) * 2018-01-30 2024-02-27 钉钉控股(开曼)有限公司 交互方法及装置
CN109343706B (zh) * 2018-09-18 2022-03-11 周文 一种交互系统及其实现方法
CN109920436A (zh) * 2019-01-28 2019-06-21 武汉恩特拉信息技术有限公司 一种提供辅助服务的装置及方法

Also Published As

Publication number Publication date
CN111078010A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN108648757B (zh) 一种基于多维度课堂信息的分析方法
Lynch et al. Listening
CN110489756B (zh) 会话式人机交互口语测评系统
Ekayati Shadowing Technique on Students’ Listening Word Recognition
CN109841122A (zh) 一种智能机器人教学系统及学生学习方法
Michael Automated Speech Recognition in language learning: Potential models, benefits and impact
CN110427977B (zh) 一种课堂互动行为的检测方法
CN111833861A (zh) 基于人工智能的事件评估报告生成
CN111078010B (zh) 一种人机交互方法、装置、终端设备及可读存储介质
CN114841841A (zh) 一种用于教学互动的智慧教育平台交互系统及交互方法
Zhu Application of AI identification technology in foreign language education
Campoy-Cubillo et al. Assessing multimodal listening comprehension through online informative videos: The operationalisation of a new listening framework for ESP in Higher Education
Ehsani et al. An interactive dialog system for learning Japanese
CN111326030A (zh) 一种集读听写识字学习系统、装置及方法
Win et al. The Effect of Listening Activities on Students’ Listening Comprehension
JP2015060056A (ja) 教育装置並びに教育装置用ic及び媒体
JP2019078989A (ja) 多言語学習システム及び言語能力測定システム
KR20140107067A (ko) 이미지 데이터와 원어민 발음 데이터를 이용한 단어 학습장치 및 방법
Liu Chinese students' awareness of functions in their learning of spoken English
Ji Analysis of the improvement path of English listening and speaking ability based on big data technology
Liu Application of speech recognition technology in pronunciation correction of college oral English teaching
Nazeer et al. An Experimental Analysis of Pragmatic Competence in Human-ChatGPT Conversations
Saparbayeva et al. THE PECULARITIES OF TEACHING ENGLISH AS A SECOND LANGUAGE
CN117615182B (zh) 一种直播互动动态切换方法、系统及终端
Çekiç The effects of computer assisted pronunciation teaching on the listening comprehension of Intermediate learners

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant