CN111046148A

CN111046148A - 智能交互系统及智能客服机器人

Info

Publication number: CN111046148A
Application number: CN201811183352.XA
Authority: CN
Inventors: 李波; 曾永梅
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2020-04-21

Abstract

一种智能交互系统及智能客服机器人，所述智能交互系统包括：知识库，包括多个知识点，每个知识点包括问题‑答案对，其中的问题和/或答案适于由多媒体形式构成；输入信息识别单元，适于对输入的信息根据输入形式采用相应的方式进行识别，得到识别结果，其中所述输入信息识别单元包括：对应不同输入形式的识别子单元，各识别子单元适于采用预设的方式进行识别；搜索单元，适于将处理得到的识别结果与知识库中的知识点进行匹配，搜索到相应的问题，并匹配到对应的答案；输出单元，适于将匹配得到的答案输出；统一管理单元，适于对所述智能交互系统进行统一管理。上述方案可以降低智能交互系统的运维成本，提高运维效果。

Description

智能交互系统及智能客服机器人

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种智能交互系统及智能客服机器人。

背景技术

随着人工智能技术的不断发展，以及用户对于交互体验要求的不断提高，智能交互方式已逐渐替代一些传统的人际交互方式，并且已成为一个研究热点。

目前，智能交互系统可以通过语音或文本方式进行交互，对于接收到的语音或文本交互信息，通过语音识别、语义理解的过程并与知识库中的知识点进行匹配。知识库中的知识点通常为问题-答案对的结构，每个问题-答案对通常采用文本形式。其中，语音识别需要对接相应的声学模型的接口，语义理解需要对接相应的语言模型接口。对于交互系统中所采用的声学模型、语言模型等通常需要基于相应的接口分别进行管理。对于各种模型，由于编码格式、工作原理等均不相同，在进行训练时，需要分别找到相应的厂家或者模型训练人员，输入不同的语料分别进行训练。

然而，目前的智能交互系统需用耗费大量的人力物力进行管理和维护，且运维效果欠佳。

发明内容

本发明实施例要解决的是如何降低智能交互系统的运维成本，提高运维效果。

本发明实施例提供了一种智能交互系统，包括：知识库，包括多个知识点，每个知识点包括问题-答案对，其中的问题和/或答案适于由多媒体形式构成；输入信息识别单元，适于对输入的信息根据输入形式采用相应的方式进行识别，得到识别结果，其中所述输入信息识别单元包括：对应不同输入形式的识别子单元，各识别子单元适于采用预设的方式进行识别；搜索单元，适于将处理得到的识别结果与知识库中的知识点进行匹配，搜索到相应的问题，并匹配到对应的答案；输出单元，适于将匹配得到的答案输出；统一管理单元，适于对所述智能交互系统进行统一管理，包括对知识库、输入信息识别单元及搜索单元各单元内部及之间的配合进行统一管理。

可选地，所述输入信息识别单元包括以下至少一种：前端识别子单元，适于对前端客户输入的信息根据输入形式采用相应的方式进行识别；后端识别子单元，适于对后端运维输入的信息根据输入形式采用相应的方式进行识别。

可选地，所述多媒体形式包括：文本、图像、视频。

可选地，所述问题-答案对包括：标准问题-答案对，以及与标准问题相关联的扩展问题，与标准答案相关联的扩展答案；其中，标准问题-答案对为文本形式，扩展问题和/或扩展答案中包含图片和/或视频。

可选地，各识别子单元适于共享部分或全部具有相同处理功能的模块。

可选地，所述各识别子单元适于采用预先训练的模型对输入信息进行识别，所述统一管理单元包括以下至少一种：统一训练子单元，适于响应相应的训练指令对各识别子单元所采用的模型进行统一训练；同步子单元，适于响应同步操作指令将智能交互系统中各单元的信息进行同步。

可选地，所述输入信息识别单元包括以下至少三种：文本识别子单元，适于对输入的文本信息进行语义识别，识别出文本内容；语音识别子单元，适于对输入的语音信息进行内容识别；图片识别子单元，适于识别输入的图片中的特征信息；视频识别子单元，适于识别视频帧中对象的特征信息。

可选地，所述文本识别子单元适于通过预设的语言模型对输入的文本信息进行语义识别，识别出文本内容。

可选地，所述语音识别子单元，适于提取输入的音频信息中的声学特征，并通过预设的声学模型识别出语音内容。

可选地，所述语音识别子单元包括：语音转写模块，适于通过预设的声学模型将输入的语音信息转写为文本信息；文本识别模块，适于通过预设的语言模型对转写后的文本信息进行语义识别，识别出文本内容。

可选地，所述图片识别子单元包括以下至少一种：第一图片识别模块，适于识别图像中的文字并转变为文本格式；和文本识别模块，适于将转变为文本形式的文本信息进行语义识别；第二图片识别模块，适于提取图像中的对象特征信息，并与预设的图像识别模型识别出图片中的对象特征。

可选地，所述视频识别子单元适于采用预设的视频识别模型识别出视频中的对象的特征信息。

可选地，所述输入信息识别子单元还适于基于上下文进行语义识别。

可选地，所述搜索单元包括：第一搜索子单元，适于将所述文本识别子单元识别出的文本内容与所述知识库中知识点中的问题包含的文本内容进行匹配，按照预设规则匹配到对应的答案；第二搜索子单元，适于将所述语音识别子单元识别出的文本内容与所述知识库中知识点中的问题包含的文本内容进行匹配，按照预设规则匹配到对应的答案；第三搜索子单元，适于将所述图片识别子单元识别出的特征信息与所述知识库中知识点中问题包含的图片进行匹配，按照预设规则匹配到对应的答案；第四搜索子单元，适于将所述视频识别子单元识别出的对象的特征信息与所述知识库中知识点中问题包含的图片进行匹配，按照预设规则匹配到对应的答案。

本发明实施例还提供了一种智能客服机器人，包括上述任一种智能交互系统。

采用本发明实施例，虽然知识库及输入信息识别单元均支持多种形式，然而由统一管理单元对智能交互系统进行统一管理，其中包括对知识库、输入信息识别单元及搜索单元各单元内部及之间的配合进行统一管理，因而无须对知识库中存储的不同形式的信息以及输入信息识别单元中对应不同输入形式的识别子单元分别进行管理，采用统一管理，一方面可以减少重复工作，另一方面可以提高智能交互系统各单元内部及之间的一致性，因而可以降低智能交互系统的运维成本，提高运维效果。

进一步地，通过前端识别子单元识别前端客户的各种输入形式的信息，并通过输入信息识别子单元进行识别，由搜索单元匹配到知识库中相应的知识点的答案，由于知识库中的问题和/或答案由多媒体形式构成，因而也可以向用户返回多种形式的答案，因而可以满足用户对交互信息形式的开放性及灵活性的需求。

而通过后端识别子单元对后端运维输入的信息根据输入形式采用相应的方式进行识别，因而运维人员可以直接通过输入界面输入自然语言形式(文本形式)的维护信息，即可在线进行维护和管理，而无需通过专门编程或记忆复杂化的指令代码，故可以降低运维人员的技术复杂度及从业门槛。

由于知识点中的问题-答案对的表达方式不仅包括文本，还包括图像及视频，输入信息识别单元也可以根据输入形式采用相应的方式进行识别，因而极大地丰富了智能交互系统的交互内容，可以满足用户对交互信息形式开放性及交互便捷性的需求。

各识别子单元共享部分或全部具有相同处理功能的模块，可以提高智能交互系统中不同输入形式的输入信息所获得的答案的一致性，并且可以提高系统资源利用效率。

进一步地，由统一训练子单元基于相应的训练指令对各识别子单元所采用的模型进行统一训练，故可以提高各识别子单元所训练出的结果的一致性，且运维人员无须了解具体模型的差异性，只需输入相应的训练指令即可触发统一训练子单元对各模型进行统一的自动训练，故可以大大提高训练效率及效果，降低运维人员的技术门槛及人数。

此外，通过同步操作指令触发同步子单元对智能交互系统中各单元的信息进行自动同步，可以大大降低运维人员的调试难度。

附图说明

图1示出了本发明实施例中一种智能交互系统的结构示意图；

图2示出了本发明实施例中一种输入信息识别单元的结构示意图；

图3示出了本发明实施例中一种搜索单元的结构示意图；

图4示出了本发明实施例中一种智能交互系统的交互界面示意图；

图5示出了本发明实施例中一种统一训练单元的结构示意图。

具体实施方式

如前所述，目前的智能交互系统需用耗费大量的人力物力进行管理和维护，且运维效果欠佳。例如，对于交互系统中所采用的声学模型、语言模型等通常需要基于相应的接口分别进行管理。对于各种模型，由于编码格式、工作原理等均不相同，在进行训练时，需要分别找到相应的厂家或者模型训练人员，输入不同的语料分别进行训练。

不同于目前智能交互系统对知识库中存储的不同形式的信息以及输入信息识别单元中对应不同输入形式的识别子单元分别进行管理，本发明实施例在智能交互系统中设置统一管理单元，对智能交互系统进行统一管理，采用统一管理，一方面可以减少重复工作，另一方面可以提高智能交互系统各单元内部及之间的一致性，故可以降低智能交互系统的运维成本，提高运维效果。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示的智能交互系统的结构示意图，在本发明实施例中，如图1所示，智能交互系统10可以包括：知识库11、输入信息识别单元12、搜索单元13、输出单元14及统一管理单元15，其中：

知识库11，包括多个知识点，每个知识点包括问题-答案对，其中的问题和/或答案适于由多媒体形式构成。

输入信息识别单元12，适于对输入的信息根据输入形式采用相应的方式进行识别，得到识别结果；其中，所述输入信息识别单元包括：对应不同输入形式的识别子单元，各识别子单元适于采用预设的方式进行识别。

搜索单元13，适于将处理得到的识别结果与知识库中的知识点进行匹配，搜索到相应的问题，并匹配到对应的答案。

输出单元14，适于将匹配得到的答案输出。

统一管理单元15，适于对所述智能交互系统10进行统一管理，包括对知识库11、输入信息识别单元12及搜索单元13各单元内部及之间的配合进行统一管理。

采用上述实施例，虽然知识库及输入信息识别单元均支持多种形式，然而由统一管理单元对智能交互系统进行统一管理，其中包括对知识库、输入信息识别单元及搜索单元各单元内部及之间的配合进行统一管理，因而无须对知识库中存储的不同形式的信息以及输入信息识别单元中对应不同输入形式的识别子单元分别进行管理，采用统一管理，一方面可以减少重复工作，另一方面可以提高智能交互系统各单元内部及之间的一致性，因而可以降低智能交互系统的运维成本，提高运维效果。

在具体实施中，所述多媒体形式包括：文本、图像、视频等其中至少两种。

在具体实施中，所述问题-答案对可以采用多种结构形式。在本发明一实施例中，所述问题-答案对包括：标准问题-答案对，以及与标准问题相关联的扩展问题，与标准答案相关联的扩展答案；其中，标准问题-答案对为文本形式，扩展问题和/或扩展答案中包含图片和/或视频。

在具体实施中，所述输入信息识别单元12可以对前端客户输入的信息进行识别，也可以对后端运维输入的信息进行识别。具体而言，所述输入信息识别单元12可以包括以下至少一种：

前端识别子单元(未图示)，适于对前端客户输入的信息根据输入形式采用相应的方式进行识别。

后端识别子单元(未图示)，适于对后端运维输入的信息根据输入形式采用相应的方式进行识别。

在具体实施中，对应不同输入形式的各识别子单元适于共享部分或全部具有相同处理功能的模块。

参照图2，在具体实施中，所述输入信息识别单元12可以包括以下至少三种：

文本识别子单元121，适于对输入的文本信息进行语义识别，识别出文本内容。

语音识别子单元122，适于对输入的语音信息进行内容识别。

图片识别子单元123，适于识别输入的图片中的特征信息。

视频识别子单元124，适于识别视频帧中对象的特征信息。

在具体实施中，所述文本识别子单元121适于通过预设的语言模型对输入的文本信息进行语义识别，识别出文本内容。

在一具体实施例中，所采用的语言模型为隐式马尔科夫模型(Hidden MarkovModel，HMM)。

在本发明一实施例中，所述语音识别子单元122，适于提取输入的音频信息中的声学特征，并通过预设的声学模型识别出语音内容。音频信息可以为单纯的音频信息，也可以为视频中包含的音频信息。

在本发明一具体实施中，参照图2，所述语音识别子单元122可以包括：语音转写模块1221，适于通过预设的声学模型将输入的语音信息转写为文本信息；第一文本识别模块1222，适于通过预设的语言模型对转写后的文本信息进行语义识别，识别出文本内容。

在具体实施中，语音识别可以包括孤立词识别、关键词识别和连续语音识别等，所采用的声学模型或语言模型不受任何限制，只要能够满足所要求的语音识别质量即可，例如可采用预先训练的HMM、人工神经网络等。

所述图片识别子单元123可以对包含文字的图像进行识别，识别出其中包含的文字，也可以对图片进行特征识别，提取出图片中关键对象的特征信息。在具体实施中，参照图2，所述图片识别子单元123可以包括以下至少一种：

第一图片识别模块1231，适于识别图像中的文字并转变为文本格式；和第二文本识别模块1232，适于将转变为文本形式的文本信息进行语义识别。

例如，当电脑突然出现蓝屏故障时，电脑显示屏上会出现一长串故障代码，如果客户靠记忆或用笔记录下来，很容易记错，从而无法发现故障的真正原因。而如果客户随手将电脑故障时的蓝屏界面拍下来，并通过本发明实施例中的智能交互系统，将照片上传，由第一图片识别模块1231提取出图像中的文字并转变为文本格式，由所述文本识别模块1232对文本形式的文本信息进行语义识别，可以识别出电脑发生故障及具体的故障代码，进而可以由搜索单元与知识库中的电脑故障的知识点进行匹配，并输出对应的答案。

在具体实施中，第一图片识别模块1231可以采用CTPN(受控记时Petri网模型)模型、EAST(Efficient and Accuracy Scene Text detection pipeline，高效、准确的场景文本检测管道)模型、Seglink模型、基于旋转区域候选网络(Rotation Region ProposalNetworks，RRPN)等多种方式对图片进行文本识别。

其中，采用CTPN模型，可以提取字符所在图像上下文特征，以提高文本块识别精度。EAST模型，支持任意方向的四边形检测，输出的结果要么为四个点坐标，要么为回归的框以及对应的角度。Seglink模型能预测单个小文字块，然后将其链接(Link)成单词，并且能够预测倾斜的文本。

第二图片识别模块1233，适于提取图像中的对象特征信息，并与预设的图像识别模型识别出图片中的对象特征。

例如，客户可能拍了一张洗衣机的照片并上传到交互系统中，通过图片识别子单元123进行特征提取及识别，例如提取到洗衣机注水件的特征信息。

在具体实施中，对于包含文字信息且以文字信息为主体的图片，可以采用第一图片识别模块1231和第二图片识别模块1232结合进行图片识别。对于不包含文本信息或者文本信息较少的图片，可以采用预先训练的图片识别模型进行识别，或者仅抓取图片中的关键特征，以节约系统资源。

在具体实施中，以上各种不同类型的图片识别模块可以根据需要单独使用，也可以结合使用。

所述视频识别子单元124适于采用预设的视频识别模型识别出视频中的对象的特征信息。

在具体实施中，所述视频识别子单元124可以对视频进行结构化分析，如对视频进行帧、超帧、镜头、场景、故事等分割，从而可以在多个层次上进行处理和表达。其中，可以根据识别对象特点的不同采用不同的视频识别模型。例如对于车辆跟踪等安防领域，需要对视频进行目标检测和跟踪。对于人物识别，可以采用预先训练的人物特征模型(如人脸特征模型)对视频中的人物特征进行捕捉和识别。也可以采用预先设置的动作模型对视频进行动作识别，以识别出视频中的人物的动作。此外，还可以根据视频中人物的表情等特征采用预先训练的情感语义模型进行情感语义分析。在具体实施中，可以采用卷积神经网络(Convolutional Neural Network，CNN)模型进行识别，可以为基于单帧进行识别，也可以基于CNN扩展网络模型进行识别，或者采用双路CNN进行识别，或者基于长短期记忆网络(Long Short Term Memory，LSTM)进行识别，或者基于三维卷积核(3D CNN)等其中一种或多种深度学习方式进行视频识别，也可以采用其他的视频识别方式。

在具体实施中，所述输入信息识别单元12还适于基于上下文进行语义识别，包括对上下文不同输入形式的输入信息的语义识别。

如前所述，对应不同输入形式的各识别子单元可以共享部分或全部具有相同处理功能的模块，例如在本发明一实施例中文本识别子单元121与第一文本识别模块1222和第二文本识别模块1232共用相同的文本识别模块或文本识别单元。

如图3所示，在具体实施中，所述搜索单元13可以包括第一搜索子单元131、第二搜索子单元132、第三搜索子单元133和第四搜索子单元134，其中：

第一搜索子单元131，适于将所述文本识别子单元121识别出的文本内容与所述知识库中知识点中的问题包含的文本内容进行匹配，按照预设规则匹配到对应的答案。

如图4所示的智能交互系统的交互界面示意图，以下参照图4说明本发明实施例中具体的交互流程。交互界面40中显示客户A与智能客服B在进行交互。客户A通过输入框41输入“百合”并点击发送按钮42后，在所述交互界面呈现的客户请求的问题43，即文本形式的“百合”二字。智能交互系统中的文本识别子单元121进行语义识别，并由第一搜索子单元131将识别出的文本内容与知识库中的知识点进行匹配，匹配到问题关键词包括“百合”的知识点，并将对应的答案输出，输出结果如应答44所示。

第二搜索子单元132，适于将所述语音识别子单元122识别出的文本内容与所述知识库中知识点中的问题包含的文本内容进行匹配，按照预设规则匹配到对应的答案。

客户A也可以点击输入框41中的麦克风控件411切换至语音输入模式输入语音信息。智能交互系统中的语音识别子单元122可以对客户A输入的语音信息进行内容识别，第二搜索子单元132可以将识别出的内容与知识库中的知识点进行匹配。

例如，第二搜索子单元132可以将所述语音识别子单元122识别出的文本中的关键字与知识库中的知识点中的问题中的关键字进行匹配，可以按照相似度、关联度等匹配到关联度最高的答案，匹配得到的答案可以为文本、语音、图片或视频等其中任意一种形式，也可以为任意两种或多种方式的组合方式。例如，当语音识别子单元通过语音转写及语义识别，识别到输入的内容为“我的洗衣机坏了”的语音时，通过第二搜索子单元132提取出关键词“洗衣机”和“坏了”，并将其与知识库11中的知识点进行匹配，匹配到与“洗衣机故障”相关的知识点，相应的答案中，例如标准答案为：洗衣机故障的具体类型，扩展答案包括：“洗衣机哪里坏了？”、“什么牌子的洗衣机”，通过搜索单元匹配到对应的答案为“洗衣机哪里坏了？”，则可由输出单元14输出文本内容：“洗衣机哪里坏了？”。

第三搜索子单元133，适于将所述图片识别子单元123识别出的特征信息与所述知识库中知识点中问题包含的图片进行匹配，按照预设规则匹配到对应的答案。

继续以前述洗衣机故障的交互过程举例说明。例如向客户输出文本内容：“洗衣机哪里坏了”后，客户可能拍了一张洗衣机的照片并上传到交互系统中，通过图片识别子单元123进行特征提取及识别，例如提取到洗衣机注水件的特征信息，则可由第三搜索子单元133与知识点中问题包含的图片进行匹配，并按照预设规则匹配到对应的答案，例如注水件故障解决方案的内容，则可以由输出单元输出：“您的洗衣机注水件可能坏了，您试一下如下的方法：……”。

又如图4所示的智能交互系统的交互界面示意图，客户A点击输入框41内的照相机控件412，即可选择并添加图片，点击发送按钮42后，交互界面呈现的输入内容为图片45，智能交互系统内部的图片识别子单元捕捉所述图片45中的特征信息，并与知识库中的知识点进行匹配，匹配到知识点“百合”，输出结果如应答46所示。

第四搜索子单元134，适于将所述视频识别子单元124识别出的对象的特征信息与所述知识库中知识点中问题包含的图片进行匹配，按照预设规则匹配到对应的答案。

在具体实施中，有些场景通过视频进行交互可能便于客户更快捷地解决问题。例如，电脑操作过程中的故障发生时，客户可以随手将整个故障发生的整个操作过程录制视频并上传所述智能交互系统。智能交互系统通过视频识别子单元124识别出视频帧中的特征信息，并与知识库中相应知识点进行匹配，并通过输出单元向客户反馈匹配得到的答案。由于视频能够连续地记录整个动态过程，因而能够一次性提取更加全面完整的信息，故可以减少交互次数，提高交互效率。

在具体实施中，所述各识别子单元适于采用预先训练的模型对输入信息进行识别，参照图5，所述统一管理单元15可以包括以下至少一种：

统一训练子单元151，适于响应相应训练指令时对各识别子单元所采用的模型进行统一训练。

同步子单元152，适于响应同步操作指令将智能交互系统中各单元的信息进行同步。

由统一训练子单元基于相应的训练指令对各识别子单元所采用的模型进行统一训练，故可以提高各识别子单元所训练出的结果的一致性，且运维人员无须了解具体模型的差异性，只需输入相应的训练指令即可触发统一训练子单元对各模型自动地进行统一训练，故可以大大提高训练效率及效果，降低运维人员的技术门槛及人数。

而通过同步操作指令触发同步子单元对智能交互系统中各单元的信息进行自动同步，可以大大降低运维人员的调试难度。

在具体实施中，所述智能交互系统可以用于多种场景多种渠道的交互，例如可以用于智能客服、智能办公、远程医疗、远程维修、远程理赔、智能金融等多个领域或行业。所述智能交互系统可以独立运行；也可以采用浏览器/服务器(B/S)结构，交互界面可以内置于网页、客户端、各种应用(APP)中。

在本发明实施例中，还提供了一种智能客服机器人，所述智能机器人可以包括上述任一实施例所述的智能交互系统。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种智能交互系统，其特征在于，包括：

知识库，包括多个知识点，每个知识点包括问题-答案对，其中的问题和/或答案适于由多媒体形式构成；

输入信息识别单元，适于对输入的信息根据输入形式采用相应的方式进行识别，得到识别结果，其中所述输入信息识别单元包括：对应不同输入形式的识别子单元，各识别子单元适于采用预设的方式进行识别；

搜索单元，适于将处理得到的识别结果与知识库中的知识点进行匹配，搜索到相应的问题，并匹配到对应的答案；

输出单元，适于将匹配得到的答案输出；

统一管理单元，适于对所述智能交互系统进行统一管理，包括对知识库、输入信息识别单元及搜索单元各单元内部及之间的配合进行统一管理。

2.根据权利要求1所述的智能交互系统，其特征在于，所述输入信息识别单元包括以下至少一种：

前端识别子单元，适于对前端客户输入的信息根据输入形式采用相应的方式进行识别；

后端识别子单元，适于对后端运维输入的信息根据输入形式采用相应的方式进行识别。

3.根据权利要求1或2所述的智能交互系统，其特征在于，所述多媒体形式包括：文本、图像、视频。

4.根据权利要求3所述的智能交互系统，其特征在于，所述问题-答案对包括：标准问题-答案对，以及与标准问题相关联的扩展问题，与标准答案相关联的扩展答案；其中，标准问题-答案对为文本形式，扩展问题和/或扩展答案中包含图片和/或视频。

5.根据权利要求3所述的智能交互系统，其特征在于，各识别子单元适于共享部分或全部具有相同处理功能的模块。

6.根据权利要求5所述的智能交互系统，其特征在于，所述各识别子单元适于采用预先训练的模型对输入信息进行识别，所述统一管理单元包括以下至少一种：

统一训练子单元，适于响应相应的训练指令对各识别子单元所采用的模型进行统一训练；

同步子单元，适于响应同步操作指令将智能交互系统中各单元的信息进行同步。

7.根据权利要求5所述的智能交互系统，其特征在于，所述输入信息识别单元包括以下至少三种：

文本识别子单元，适于对输入的文本信息进行语义识别，识别出文本内容；

语音识别子单元，适于对输入的语音信息进行内容识别；

图片识别子单元，适于识别输入的图片中的特征信息；

视频识别子单元，适于识别视频帧中对象的特征信息。

8.根据权利要求7所述的智能交互系统，其特征在于，所述文本识别子单元适于通过预设的语言模型对输入的文本信息进行语义识别，识别出文本内容。

9.根据权利要求7所述的智能交互系统，其特征在于，所述语音识别子单元，适于提取输入的音频信息中的声学特征，并通过预设的声学模型识别出语音内容。

10.根据权利要求7所述的智能交互系统，其特征在于，所述语音识别子单元包括：

语音转写模块，适于通过预设的声学模型将输入的语音信息转写为文本信息；

文本识别模块，适于通过预设的语言模型对转写后的文本信息进行语义识别，识别出文本内容。

11.根据权利要求7所述的智能交互系统，其特征在于，所述图片识别子单元包括以下至少一种：

第一图片识别模块，适于识别图像中的文字并转变为文本格式；和文本识别模块，适于将转变为文本形式的文本信息进行语义识别；

第二图片识别模块，适于提取图像中的对象特征信息，并与预设的图像识别模型识别出图片中的对象特征。

12.根据权利要求7所述的智能交互系统，其特征在于，所述视频识别子单元适于采用预设的视频识别模型识别出视频中的对象的特征信息。

13.根据权利要求7所述的智能交互系统，其特征在于，所述输入信息识别子单元还适于基于上下文进行语义识别。

14.根据权利要求7所述的智能交互系统，其特征在于，所述搜索单元包括：第一搜索子单元，适于将所述文本识别子单元识别出的文本内容与所述知识库中知识点中的问题包含的文本内容进行匹配，按照预设规则匹配到对应的答案；

第二搜索子单元，适于将所述语音识别子单元识别出的文本内容与所述知识库中知识点中的问题包含的文本内容进行匹配，按照预设规则匹配到对应的答案；

第三搜索子单元，适于将所述图片识别子单元识别出的特征信息与所述知识库中知识点中问题包含的图片进行匹配，按照预设规则匹配到对应的答案；

第四搜索子单元，适于将所述视频识别子单元识别出的对象的特征信息与所述知识库中知识点中问题包含的图片进行匹配，按照预设规则匹配到对应的答案。

15.一种智能客服机器人，其特征在于，包括权利要求1-14任一项所述的智能交互系统。