CN109948153A

CN109948153A - 一种涉及视频和音频多媒体信息处理的人机交流系统

Info

Publication number: CN109948153A
Application number: CN201910173277.7A
Authority: CN
Inventors: 张博缘; 张宪东; 周亮; 孙勇毅
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-06-28

Abstract

本发明公开了一种涉及视频和音频多媒体信息处理的人机交流系统，包括数据采集、数据存储、数据分析和语音/文字/视频输出，所述数据采集包括影像数据采集、语音/文字/气体数据采集和数据分析；所述数据存储、数据分析均设在服务器系统中，服务器的构架分别是技术层服务器和数据层；所述技术层服务器包括客户端子系统、影像子系统、语音子系统、气体子系统、场景子系统和综合分析子系统；所述数据层包括影像数据库和语音/文字数据库。本发明综合了影像、语音、语义多种算法，使对话内容在全方位、多层级整合中保持连贯性、一致性和自主性；本发明串联了影像数据、语音/文字/气体数据，且系统使机器拥有类人的思维方式，使人机交流更贴近“人‑人”交流，使系统处理交流信息的过程更接近人脑处理方式，使人机交流更顺畅，范围更广。

Description

一种涉及视频和音频多媒体信息处理的人机交流系统

技术领域

本发明涉及智能自动化领域和机器人神经网络技术领域，具体是一种涉及视频和音频多媒体信息处理的人机交流系统。

背景技术

当前，随着科学技术的不断进步，机器人技术领域也得到了快速的发展，在机器人的行为逻辑以及人机互动中，人机对话是最常见的，而人机对话一般是指人与人机语音或文字对答。当前的人机对话系统只是在特定环境下的语音或文字对答。随着人工智能及信息技术不断发展成熟，特定环境下人机语音或文字对答已经不能满足社会发展的脚步。市场及应用上迫切需要一种在任意环境下的人机语音或文字自然对话系统，用以解决词不达意，人机交流不知所云等自然交流困难的问题。

发明内容

本发明的目的在于提供一种涉及视频和音频多媒体信息处理的人机交流系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种涉及视频和音频多媒体信息处理的人机交流系统，包括数据采集、数据存储、数据分析和语音/文字/视频输出，所述数据采集包括影像数据采集、语音/文字/气体数据采集和数据分析；所述数据存储、数据分析均设在服务器系统中，服务器的构架分别是技术层服务器和数据层；所述技术层服务器包括客户端子系统、影像子系统、语音子系统、气体子系统、场景子系统和综合分析子系统；所述数据层包括影像数据库、气体信息库和语音/文字数据库。

作为本发明的进一步方案：所述客户端子系统包括语音、文字、影像、气体识别系统。

作为本发明的进一步方案：所述影像子系统包括影像识别、影像存储和影像分析。

作为本发明的进一步方案：所述语音子系统包括声音文字识别、声音文字存储和声音文字分析。

作为本发明的进一步方案：所述场景子系统包括词汇场和影像场。

作为本发明的进一步方案：所述气体子系统包括气体识别和气体反馈。

作为本发明的再进一步方案：所述综合分析子系统包括形象记忆、动作记忆、逻辑记忆和情绪记忆。

与现有技术相比，本发明的有益效果体现在以下几个方面：

一、本发明综合了影像、语音、语义、气体多种算法，使对话内容在全方位、多层级整合中保持连贯性、一致性和自主性。

二、本发明综合各种算法；包括深度学习、加强学习、专家系统共同构建整个系统，并基于数据库不断跟新，使得影像场、词汇场更科学、更智能，从而实现机器对语音及文字理解和认识，为机器与人自然沟通提供了快速有效的解决方案。

三、本发明串联了影像数据、语音/文字/气体数据，且系统使机器拥有类人的思维方式。

四、本发明支持气体分析，可通过气体识别可能来源，扩大了人机交流过程可提问的范围，进行气体追踪。

五、本发明使用影像场、语义场（词汇场）处理技术，对数据库中相关碎片记忆的匹配并进行语言重组；避免了人机互动通过选择题、判断题等方式进行选择，只需要像人与人交流一样的正常说话，即可由系统自行分析出人要表述的内容，此交流过程内容一致，对话可以承上启下；相比于现有的人机对话通过固定语言环境机器给出选择题，人进行答案的选择，本系统流程更人性化、自然化多样化。

附图说明

图1为一种涉及视频和音频多媒体信息处理的人机交流系统的流程示意图。

图2为一种涉及视频和音频多媒体信息处理的人机交流系统中服务器系统的架构示意图。

图3为一种涉及视频和音频多媒体信息处理的人机交流系统的执行示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

请参阅图1-3，一种涉及视频和音频多媒体信息处理的人机交流系统，包括数据采集、数据存储、数据分析和语音/文字输出，本系统的流程是先进行数据采集，然后将数据传输到服务器，并在服务器中进场存储，其后再通过服务器分析数据，并最终以语音/文字的形式输出；所述数据采集包括影像数据采集、语音/文字数据采集和数据分析。

所述影像数据采集用于对影像内容进采集，此影像内容主要包括四种用途：

1.环境的识别：用于识别人机对话场景内容，了解所处环境信息；

2.影像内容：用于识别人机对话目标内容；

3.影像对比：用于识别人机对话的相关信息；并基于影像识别、智能算法来了解与影像相关知识信息；

4.影像认知：用于人机对话的影像储备，将影像录入到相关信息中，通过深度学习、强化学习、智能算法等来认识并记住影像信息。

所述语音/文字数据采集用于对语音内容的采集，此语音内容主要包括四种用途：

1.语音的出处:用于识别人机对话的声音方向及事物，并基于声音方向分析及发出声音事物；

2.语音音色：用于人机对话音色的对比，并基于声波及声频，得到发声的具体事务；发生环境的基本情况。

3.语音/文字内容：用于人机对话主体内容识别；

4.语音/文字认知：用于机器的语音储备，将语音、文字录入相关信息，通过深度学习、强化学习、智能算法来认识并记住声音。将语言进行区分，不同国家不同地域做进一步的数据采集，同时记录语言发音习惯。

所述数据分析用于影像场、词汇场中，此语义内容主要包括四种用途：

1.语义语言：用于人机对话主体内容识别；

2.方言-外语：用于识别人机对话的特定人群；

3.语法：用于人机对话的修辞方法内容识别；

4.语义认知：用于人机的语义储备，基于语音识别，将语音录入相关信息，通过深度学习、强化学习、智能算法来认识并记住语义信息。

所述气体数据分析用于对气体内容进行模拟分析，此内容主要包括三种用途：

1.气体分析：用于分辨气体气味；

2.气体定位：用于气体发生位置环境；

3.气体模拟：用于交流气体气味识别；

所述影像语言分析用于对影像内容进行语言影像输出，此内容主要包括四种用途：

1.语音：用于生成语音数据进行交流；

2.语音输出：用于提高交流；

3.影像：用于生成示例视频；

4.影像语言输出：用于将机械语言、视频影像，转换成动态的语音、视频。通过语音视频交流，在视觉听觉方面提升交流体验。

所述数据存储、数据分析均设在服务器系统中，服务器的构架分别是技术层服务器和数据层，所述技术层服务器包括客户端子系统、影像子系统、语音子系统、气体子系统、场景子系统和综合分析子系统。

所述客户端子系统包括语音、文字、影像、气体识别系统，使得客户用语言、文字或者影像就能够与机器进行互动；

所述影像子系统包括影像识别、影像存储和影像分析，通过客户影像信息互动内容来进行影像子系统集合，从中得到客户影像信息相关的全部资料；

所述语音子系统包括声音文字识别、声音文字存储和声音文字分析，并通过客户语音/文字信息进入语音子系统集合，并从中得到与客户语音/文字信息相关的全部资料；

所述场景子系统包括词汇场和影像场，词汇场是客户相关意义的语音/文字；例如客户A，那么词汇场会导出a1、a2、a3......的集合；影像场同样是客户相关意义的影像A，那么影像场导出a1、a2、a3......集合；

所述综合分析子系统包括形象记忆、动作记忆、逻辑记忆和情绪记忆，本系统是对数据库中相关碎片记忆的匹配并进行重组，通过客户A影像场及词汇场重新分配整合得出应答B，机器输出语音/文字，通过综合分析算法，实现人机对话交流的连贯性；保持对话内容的一致性，从而实现机器的自主思维。

所述数据层包括影像数据库和语音/文字数据库，影像数据库能够采集存储各种影像数据，语音/文字数据库能够采集存储各种声音、语音或文字数据。

所述气体子系统包括气体的分析和气体的模拟，实现人在听觉、视觉和味觉三方面的交流。

本发明的系统在工作时，其工作执行步骤如下：

S1.语音（声音）或文字内容输入到机器以及机器听到声音看到的图像进行主题内容归类；

S2.归类后主题内容分别在影像数据库、语音数据库、语义数据库中匹配与主题相关信息数据。对新的信息资料进行存储；

S3.影像场、词汇场进行主题相关信息同质化分类；A1、A2、A3......

S4.同质化相关信息综合分析主题叙述内容描述的是什么，给出相应答案；

S5.语音/文字回答进行输出。进入下一个交流循环；

通过串联各子系统从而实现机器自主思维、在任何环境下人机自由对话。

本发明综合了影像、语音、语义多种算法，使对话内容在全方位、多层级整合中保持连贯性、一致性和自主性。

本发明综合各种算法；包括深度学习、加强学习、专家系统共同构建整个系统，并基于数据库不断跟新，使得影像场、词汇场更科学、更智能，从而实现机器对语音及文字理解和认识，为机器与人自然沟通提供了快速有效的解决方案。

本发明串联了影像数据、语音/文字数据，且系统使机器拥有类人的思维方式。

本发明使用影像场、语义场（词汇场）处理技术，对数据库中相关碎片记忆的匹配并进行语言重组；避免了人机互动通过选择题、判断题等方式进行选择，只需要像人与人交流一样的正常说话，即可由系统自行分析出人要表述的内容，此交流过程内容一致，对话可以承上启下；相比于现有的人机对话通过固定语言环境机器给出选择题，人进行答案的选择，本系统流程更人性化、自然化多样化。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种涉及视频和音频多媒体信息处理的人机交流系统，包括数据采集、数据存储、数据分析和语音/文字/气体输出，其特征在于，所述数据采集包括影像数据采集、语音/文字/气体数据采集和数据分析；所述数据存储、数据分析均设在服务器系统中，服务器的构架分别是技术层服务器和数据层；所述技术层服务器包括客户端子系统、影像子系统、语音子系统、气体子系统、场景子系统和综合分析子系统；所述数据层包括影像数据库和语音/文字/气体数据库。

2.根据权利要求1所述的一种涉及视频和音频多媒体信息处理的人机交流系统，其特征在于，所述客户端子系统包括语音、文字、影像、气体识别系统。

3.根据权利要求1所述的一种涉及视频和音频多媒体信息处理的人机交流系统，其特征在于，所述影像子系统包括影像识别、影像存储、影像分析和影像输出。

4.根据权利要求1所述的一种涉及视频和音频多媒体信息处理的人机交流系统，其特征在于，所述语音子系统包括声音文字识别、声音文字存储和声音文字分析。

5.根据权利要求1所述的一种涉及视频和音频多媒体信息处理的人机交流系统，其特征在于，所述场景子系统包括词汇场和影像场。

6.根据权利要求1所述的一种涉及视频、气体和音频多媒体信息处理的人机交流系统，其特征在于，所述综合分析子系统包括形象记忆、动作记忆、逻辑记忆、场景记忆和情绪记忆。