CN117010907A

CN117010907A - 一种基于语音和图像识别的多模态客户服务方法及系统

Info

Publication number: CN117010907A
Application number: CN202310972216.3A
Authority: CN
Inventors: 周涌
Original assignee: Jinan Mingquan Digital Commerce Co ltd
Current assignee: Jinan Mingquan Digital Commerce Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-07

Abstract

本发明涉及人工智能客户服务技术领域，尤其是涉及一种基于语音和图像识别的多模态客户服务方法及系统。方法，包括获取用户问题的语音信息、图像信息和文本信息；将获取的语音信息转换为文本数据；将获取的文本信息进行自然语言处理，提取关键信息；将获取的图像信息进行计算机视觉分析，提取相关信息；将文本数据、关键信息和相关信息进行整合，利用知识图谱进行多模态信息融合，得到多模态的问题表示。本发明通过人工智能技术，如深度学习、自然语言处理和计算机视觉，使得系统能够准确识别用户的问题，快速检索相关信息，并生成连贯、自然的回答。此外，系统还可以根据用户的交互历史进行自我学习和优化，以提供更加个性化的服务。

Description

一种基于语音和图像识别的多模态客户服务方法及系统

技术领域

本发明涉及人工智能客户服务技术领域，尤其是涉及一种基于语音和图像识别的多模态客户服务方法及系统。

背景技术

随着信息技术的快速发展，智能客户服务系统在满足客户需求、提高企业竞争方面发挥着越来越重要的作用。然而，现有的客户服务系统通常仅支持单一的交互方式，如文本或语音，缺乏对多模态输入的支持。此外，现有技术在处理与甲醇和尿素生产相关的问题时，往往无法提供高效且准确的解决方案。因此，有必要发展一种结合语音识别、文本分析和图像识别的多模态智能客户服务系统及装置。

发明内容

为了解决上述提到的问题，本发明提供一种基于语音和图像识别的多模态客户服务方法及系统。

第一方面，本发明提供的一种基于语音和图像识别的多模态客户服务方法及系统，采用如下的技术方案：

一种基于语音和图像识别的多模态客户服务方法，包括：

获取用户问题的语音信息、图像信息和文本信息；

将获取的语音信息转换为文本数据；

将获取的文本信息进行自然语言处理，提取关键信息；

将获取的图像信息进行计算机视觉分析，提取相关信息；

将文本数据、关键信息和相关信息进行整合，利用知识图谱进行多模态信息融合，得到多模态的问题表示。

进一步地，所述将获取的语音信息转换为文本数据包括利用循环神经网络对语音信息进行识别，得到文本数据。

进一步地，所述将获取的文本信息进行自然语言处理，提取关键信息，包括将文本信息进行分词、句法分析和结构分析，并进行词义消歧和命名实体识别，得到关键信息。

进一步地，所述将获取的图像信息进行计算机视觉分析，提取相关信息，包括对图像信息利用卷积神经网络进行识别，得到图像信息的相关信息。

进一步地，所述将文本数据、关键信息和相关信息进行整合，包括利用知识图谱整合文本数据、关键信息和相关信息，分析用户问题的语义和上下文，生成多模态的问题表示。

进一步地，所述利用知识图谱进行多模态信息融合，得到多模态的问题表示，包括利用知识库存储目标产品的专业知识，包括产品信息、生产工艺和设备维护信息。

进一步地，所述利用知识图谱进行多模态信息融合，得到多模态的问题表示，还包括利用关联规则挖掘方法来挖掘知识库存储的目标产品的关联知识。

第二方面，一种基于语音和图像识别的多模态客户服务系统，包括：

数据获取模块，被配置为，获取用户问题的语音信息、图像信息和文本信息；

语音识别模块，被配置为，将获取的语音信息转换为文本数据，

文本分析模块，被配置为，将获取的文本信息进行自然语言处理，提取关键信息；

图像识别模块，被配置为，将获取的图像信息进行计算机视觉分析，提取相关信息；

多模态融合模块，被配置为，将文本数据、关键信息和相关信息进行整合，利用知识图谱进行多模态信息融合，得到多模态的问题表示。

第三方面，本发明提供一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于语音和图像识别的多模态客户服务方法。

第四方面，本发明提供一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于语音和图像识别的多模态客户服务方法。

综上所述，本发明具有如下的有益技术效果：

1、高度智能化：采用先进的人工智能技术，如深度学习、自然语言处理和计算机视觉，使得系统能够准确识别用户的问题，快速检索相关信息，并生成连贯、自然的回答。此外，系统还可以根据用户的交互历史进行自我学习和优化，以提供更加个性化的服务。

2、多模态交互：支持语音、文本和图像等多种输入方式，为用户提供灵活、便捷的交互体验。同时，系统能够根据用户的需求和设备特性，生成多种形式的输出内容，如语音播放、文本显示和图像标注等。

3、高度集成：系统将语音识别、文本分析和图像识别等多个模块紧密集成在一起，实现了多模态信息的融合和处理。这样一来，系统不仅能够更准确地理解用户的问题，还可以更好地利用现有资源，提高服务质量和效率。

4、易于扩展和定制：系统具有较强的扩展性和可定制性，可以根据不同企业和行业的特点，定制专属的知识库、交互界面和功能模块。此外，系统还可以通过接入企业内部系统和外部数据源，实时更新知识库内容，以满足客户需求的变化。

5、降低成本和提高效率：相较于传统的人工客服，本发明的多模态智能客户服务系统及装置可以大大降低企业的人力成本，提高工作效率。同时，系统还可以实现7x24小时的全天候服务，进一步提升客户满意度。

附图说明

图1是本发明实施例1的一种基于语音和图像识别的多模态客户服务方法的示意图。

实施方式

以下结合附图对本发明作进一步详细说明。

实施例

参照图1，本实施例的一种基于语音和图像识别的多模态客户服务方法，包括

获取用户问题的语音信息、图像信息和文本信息；

将获取的语音信息转换为文本数据，

将获取的文本信息进行自然语言处理，提取关键信息；

将获取的图像信息进行计算机视觉分析，提取相关信息；

将文本数据、关键信息和相关信息进行整合，利用知识图谱进行多模态信息融合，得到多模态的问题表示。所述将获取的语音信息转换为文本数据包括利用循环神经网络对语音信息进行识别，得到文本数据。所述将获取的文本信息进行自然语言处理，提取关键信息，包括将文本信息进行分词、句法分析和结构分析，并进行词义消歧和命名实体识别，得到关键信息。所述将获取的图像信息进行计算机视觉分析，提取相关信息，包括对图像信息利用卷积神经网络进行识别，得到图像信息的相关信息。所述将文本数据、关键信息和相关信息进行整合，包括利用知识图谱整合文本数据、关键信息和相关信息，分析用户问题的语义和上下文，生成多模态的问题表示。所述利用知识图谱进行多模态信息融合，得到多模态的问题表示，包括利用知识库存储目标产品的专业知识，包括产品信息、生产工艺和设备维护信息。所述利用知识图谱进行多模态信息融合，得到多模态的问题表示，还包括利用关联规则挖掘方法来挖掘知识库存储的目标产品的关联知识。

具体包括以下步骤：

S1.获取用户问题的语音信息，将获取的语音信息转换为文本数据。

通过麦克风或其他语音采集设备获取用户的语音信息。对采集到的语音数据进行预处理，包括去噪、降噪、语音分段处理步骤，以提高语音识别的准确性。对预处理后的语音数据提取特征，常用的特征包括梅尔频谱系数（MFCC）、倒谱系数（MFCC）、过零率。

采用基于深度学习的语音识别模型进行语音到文本的转换。常用的模型包括循环神经网络（RNN）、长短时记忆网络（LSTM）、转录性注意力模型（Transducer）等。使用大量的带有标注的语音数据和对应的文本数据对语音识别模型进行训练。训练过程中，模型会不断优化参数以提高识别准确性。

在实际使用中，将输入的语音数据输入到已训练好的语音识别模型中进行解码，得到文本输出，即将语音信息转换为文本数据。

在这个过程中，数据处理的详细步骤和模型的具体公式会根据所采用的具体语音识别技术而有所差异。不同的语音识别系统可能使用不同的模型结构和算法。常见的语音识别模型包括经典的CTC（Connectionist Temporal Classification）模型、Seq2Seq模型以及基于注意力机制的Transformer模型等。具体的公式和数据处理过程会因模型和算法的选择而有所不同。

作为进一步的实施方式，

采集语音样本：录制了10个用户的语音样本，每个样本长度为5秒。

语音样本特征：每秒采样率为16 kHz的单声道语音。

语音分段：将每个语音样本分段为1秒的音频片段，得到总共50个音频片段。

对每个音频片段进行预加重、分帧和傅里叶变换等处理。

使用深度学习的端到端语音识别模型，如基于CTC（Connectionist TemporalClassification）的端到端模型。

利用训练集（包括语音片段和对应的文本标注）进行模型训练，通过梯度下降算法优化模型参数。

模型的损失函数使用CTC损失函数，其公式为：；

其中，是给定输入音频片段 X 的条件下，输出文本序列 y 的概率。

输入处理：将音频片段输入经过预训练好的语音识别模型，获得对应的输出概率分布。

通过基于动态规划的解码算法（如束搜索）从输出概率分布中选择最可能的文本序列。

根据输出文本序列的概率分布，选择最高概率的文本序列作为转录结果。

在这个案例中，使用了深度学习的端到端语音识别模型，通过训练样本进行模型训练，并通过解码算法将音频片段转换为对应的文本序列。这样就能够将用户的语音问题转换为文本数据进行后续的分析和处理。

S2.获取用户问题的文本信息，将获取的文本信息进行自然语言处理，提取关键信息；

负责对用户的文本输入进行自然语言处理，以理解用户的需求和问题。本模块采用自然语言处理（NLP）技术，如词法分析、句法分析和语义分析，以提取关键信息并确定用户意图。例如，用户提问“甲醇生产的主要原料是什么？”，该模块可以识别关键词“甲醇生产”和“主要原料”。

自然语言处理（NLP）是一门研究计算机如何理解、生成和处理人类自然语言的学科。NLP技术包括词法分析、句法分析和语义分析等多个层次的处理。下面将分别介绍这些方法的工作原理和举例说明。

词法分析：

词法分析是NLP中的第一步，主要目标是将输入的文本划分为一系列的词汇单元（tokens）。这通常包括分词、词性标注等任务。

分词：将文本划分为单词或词汇单元。例如，将句子 "I love NLP." 划分为词汇单元 ["I", "love", "NLP", "."]。

词性标注：为每个词汇单元分配一个词性标签，如名词、动词、形容词等。例如，对于句子 "I love NLP."，词性标注的结果为 [("I", "PRON"), ("love", "VERB"), ("NLP", "NOUN"), (".", "PUNCT")]。

句法分析：句法分析关注句子的结构和语法关系。主要任务包括短语结构分析和依存句法分析。

短语结构分析：将句子划分为多个短语，如名词短语（NP）、动词短语（VP）等，并构建一棵句子的短语结构树。例如，对于句子 "I love NLP."，短语结构树可能如下：

[S

[NP [PRON I]]

[VP [VERB love]

[NP [NOUN NLP]]]

[PUNCT .]]

依存句法分析：识别句子中词汇单元之间的依存关系，并构建一棵依存句法树。例如，对于句子 "I love NLP."，依存句法树可能如下：

love

/ \

I NLP

语义分析：语义分析关注句子的意义，包括词义消歧、命名实体识别、关系抽取等任务。

词义消歧：确定句子中多义词的正确含义。例如，对于句子 "I saw the man withthe telescope."，"saw" 可能表示"锯子"或"看见"，而"with" 可能表示"伴随"或"使用"。词义消歧需要确定这些词在句子中的确切含义。

命名实体识别：识别句子中的实体（如人名、地名、组织名等）并为它们分配适当的类别。例如，对于句子 "Barack was born in Hawaii."，命名实体识别的结果可能为 [("Barack ", "PERSON"), ("Hawaii", "LOCATION")]。

关系抽取：识别句子中实体之间的关系。例如，对于句子 "Barack was born inHawaii."，关系抽取的结果可能为 [("Barack ", "born_in", "Hawaii")]。

指代消解：确定句子中代词所指的实体。例如，对于句子 "John works atGoogle. He is a software engineer."，指代消解需要识别 "He" 指的是 "John"。

通过这些示例，我们可以看到NLP技术如何通过多个层次的处理（词法分析、句法分析和语义分析）来理解、生成和处理人类自然语言。在实际应用中，这些方法通常结合使用，以解决复杂的自然语言处理问题。

S3.获取用户问题的图像信息，将获取的图像信息进行计算机视觉分析，提取相关信息；

具体的，

通过摄像头采集用户的面部图像数据。

采集图像大小：每张图像的尺寸为640x480像素。

采集频率：每秒采集30帧图像。

数据预处理：对采集到的图像数据进行预处理，包括调整图像大小、灰度化处理等。

图像大小调整：将图像大小调整为128x128像素。

灰度化处理：将彩色图像转换为灰度图像。

人脸检测：使用基于深度学习的人脸检测算法，如MTCNN，对图像进行人脸检测，找到图像中的人脸位置和边界框信息。

人脸检测准确率：算法能够在95%的准确率下检测到人脸。

人脸检测速度：每张图像的检测时间为100毫秒。

人脸特征提取：使用基于深度学习的人脸识别模型，如FaceNet，对检测到的人脸图像进行特征提取，生成对应的人脸特征向量。

特征向量维度：每个人脸特征向量具有128维。

提取速度：每张图像的特征提取时间为50毫秒。

人脸匹配和识别：将提取的人脸特征与已知的人脸数据库进行比对，通过计算特征向量之间的相似度，找到最匹配的人脸。

相似度计算方法：使用余弦相似度进行特征向量之间的相似度计算。

相似度阈值：设定相似度阈值为0.7，超过阈值则认定为同一个人。

结果输出和处理：根据人脸识别的结果，可以进行相应的处理，例如显示用户的身份信息、提供个性化服务或进行身份验证。

输出信息：在界面上显示用户的姓名和其他个人信息。

个性化服务：根据用户的身份信息，提供定制化的推荐内容。

S4.将文本数据、关键信息和相关信息进行整合，利用知识图谱进行多模态信息融合，得到多模态的问题表示。

具体的，

收集来自客户服务平台的用户提问数据，如以下示例：

用户问题1: "我想了解如何申请信用卡？"

用户问题2: "请问我的订单什么时候能够送达？"

图像数据：收集与客户服务相关的图像数据，如用户提交的产品照片或相关场景的图片。

文本数据处理：对用户问题进行分词和词性标注，如将问题1处理为：["我", "想", "了解", "如何", "申请", "信用卡"]。

图像数据处理：使用卷积神经网络（CNN）对图像进行特征提取，获得图像的特征向量表示。

知识图谱构建：

知识抽取：从文本数据中抽取实体和关系，如提取出"信用卡"、"申请"之间的关系。

知识表示：将实体和关系转化为RDF格式的知识表示，如表示"信用卡"实体和"申请"关系的三元组：<信用卡, 申请, True>。

知识连接：根据关系建立知识图谱的网络结构，将实体和关系连接起来。

多模态信息融合：

图像特征提取：使用CNN对图像数据进行特征提取，获得图像的特征向量表示。

文本表示：使用词嵌入模型将文本数据转化为向量表示，如将"如何申请信用卡"表示为一个向量。

特征融合：将图像特征向量和文本向量进行融合，如将它们进行拼接得到一个多维向量。

知识图谱融合：

将融合后的多模态特征与知识图谱进行连接，将特征向量与知识图谱的信息进行整合，如将特征向量与三元组进行关联。

多模态问题表示：

统一表示：将融合后的特征向量进行统一的表示，如得到一个多维向量作为问题的表示。

问题表征：将问题的向量表示与知识图谱中的相关实体和关系进行关联，形成多模态问题的表示。

负责整合来自语音识别模块、文本分析模块和图像识别模块的信息，对用户问题进行全面分析。本模块采用知识图谱技术，将多模态信息融合在一起，以生成更丰富的问题表示。例如，当用户询问关于甲醇生产过程中的某个设备时，该模块可以将文本、语音和图像信息结合起来，以便更准确地理解用户的问题。

问题解析模块的核心任务是整合来自语音识别模块、文本分析模块和图像识别模块的信息，对用户问题进行全面分析。为实现这一目标，该模块采用知识图谱技术，将多模态信息融合在一起，生成更丰富的问题表示。以下是该模块的工作原理及应用示例：

示例：假设用户询问：“这辆甲醇罐车可以装载多少公斤的甲醇？”同时，用户还提供了一张罐车的照片。在这种情况下，问题解析模块需要整合以下信息：文本分析模块输出的文本信息，如问题中的关键词“甲醇罐车”和“装载”；语音识别模块输出的语音信息，如用户的语调、语速等；图像识别模块输出的图像信息，如罐车的型号、尺寸等。问题解析模块将这些多模态信息融合在一起，并利用知识图谱技术，生成一个丰富的问题表示，包括关键实体（如甲醇罐车）、关系（如装载）和属性（如装载量）。这些信息将被用于知识库模块和回答生成模块，以提供针对用户问题的准确和相关回答。

知识库模块负责存储目标产品或服务相关的专业知识，包括产品信息、生产工艺、设备维护等。为实现对知识库内容的快速检索和推理，该模块采用知识图谱和关联规则挖掘技术。以下是该模块的工作原理及应用示例：

作为进一步地实施方式，

示例：假设用户询问：“在甲醇生产过程中，如何减少副产物的生成？”问题解析模块已经传递了丰富的问题表示，包括关键实体（如甲醇）、关系（如生产过程）和属性（如副产物生成）。

知识库模块首先通过知识图谱，找到与甲醇生产过程相关的实体和关系。然后，利用关联规则挖掘技术，发现与副产物生成相关的潜在关联。最后，知识库模块将找到的相关知识提供给回答生成模块，以生成关于减少副产物生成的准确和相关回答。这些回答可能包括采用特定生产工艺、优化原料比例等措施。

回答生成模块：负责根据问题解析模块的输出和知识库模块的内容，生成针对用户问题的回答和建议。本模块采用生成式预训练转换器（GPT）等先进的自然语言生成（NLG）技术，以实现准确、连贯和自然的回答生成。例如，当用户询问甲醇生产的主要原料时，该模块可以生成如下回答：“甲醇生产的主要原料是甲烷或者一氧化碳和氢气。回答生成模块负责根据问题解析模块的输出和知识库模块的内容，生成针对用户问题的回答和建议。为实现准确、连贯和自然的回答生成，该模块采用生成式预训练转换器（GPT）等先进的自然语言生成（NLG）技术。以下是该模块的工作原理及应用示例：

接收输入信息：回答生成模块接收来自问题解析模块的丰富问题表示，以及知识库模块提供的相关知识。这些信息将作为输入，指导回答生成模块生成准确、连贯和自然的回答。

自然语言生成（NLG）技术：自然语言生成技术的目标是根据给定的输入信息，自动生成自然、连贯的文本。在回答生成模块中，采用生成式预训练转换器（GPT）等先进的NLG技术，对接收到的问题表示和相关知识进行处理，生成针对用户问题的回答和建议。

生成回答和建议：回答生成模块利用GPT等NLG技术，根据输入信息生成回答和建议。这些回答和建议可能包括对用户问题的直接回答、相关的操作指南、附加信息等。生成的回答和建议将以自然、连贯的文本形式呈现给用户。

示例：假设用户询问：“如何提高甲醇生产过程中的能效？”问题解析模块已经传递了丰富的问题表示，包括关键实体（如甲醇）、关系（如生产过程）和属性（如能效）。知识库模块提供了关于提高能效的相关知识。

回答生成模块接收到这些输入信息后，利用GPT等NLG技术，生成一段针对用户问题的回答和建议。例如：“要提高甲醇生产过程中的能效，可以采取以下措施：1. 优化生产工艺，降低能耗；2. 定期维护设备，确保其正常运行；3. 利用节能技术，如热回收系统，提高能源利用率。同时，可以通过监测和数据分析，持续优化生产过程，以进一步提高能效。”这样的回答和建议将以自然、连贯的文本形式呈现给用户。

多模态输出模块：负责将回答以文本、语音或图像的形式呈现给用户。本模块采用先进的多模态合成技术，根据用户的交互方式和需求，生成适当的输出格式。例如，如果用户通过语音提问，该模块可以将回答以语音的形式播放出来；如果用户提供了图像输入，该模块可以生成与输入图像相关的标注或解释。

多模态输出模块负责将回答以文本、语音或图像的形式呈现给用户。为实现适应不同用户需求和交互方式的输出，该模块采用先进的多模态合成技术。以下是该模块的工作原理及应用示例：

接收回答：

多模态输出模块首先接收来自回答生成模块的自然、连贯的文本回答。这些回答可能包括针对用户问题的直接回答、相关的操作指南、附加信息等。

多模态合成技术：

多模态合成技术的目标是将文本回答转换为不同的输出格式（如语音或图像），以满足用户的交互方式和需求。在多模态输出模块中，根据用户的交互方式和需求，采用先进的多模态合成技术，生成适当的输出格式。

输出格式转换：

文本输出：直接将回答生成模块提供的文本回答呈现给用户。

语音输出：利用文本转语音（TTS）技术，将文本回答转换为语音输出。TTS技术通过模拟人类发声机制，生成自然、流畅的语音。

图像输出：根据用户需求和回答内容，将文本回答转换为图像输出。这可能包括将文本信息转换为图表、示意图等形式，以便用户更直观地理解回答。

示例：假设用户询问：“如何调整甲醇生产线上的设备参数？”回答生成模块提供了关于调整设备参数的详细指南。

若用户通过文本交互，多模态输出模块可以直接将文本指南呈现给用户。

若用户通过语音交互，多模态输出模块可以利用TTS技术，将文本指南转换为语音指南，并通过扬声器播放给用户。

若用户需要图像辅助，多模态输出模块可以将文本指南转换为示意图或图表等形式，以便用户更直观地理解如何调整设备参数。

实施例

本实施例提供一种基于语音和图像识别的多模态客户服务系统，包括：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于语音和图像识别的多模态客户服务方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于语音和图像识别的多模态客户服务方法。

以上均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种基于语音和图像识别的多模态客户服务方法，其特征在于，包括：

获取用户问题的语音信息、图像信息和文本信息；

将获取的语音信息转换为文本数据；

将获取的文本信息进行自然语言处理，提取关键信息；

将获取的图像信息进行计算机视觉分析，提取相关信息；

2.根据权利要求1所述的一种基于语音和图像识别的多模态客户服务方法，其特征在于，所述将获取的语音信息转换为文本数据包括利用循环神经网络对语音信息进行识别，得到文本数据。

3.根据权利要求2所述的一种基于语音和图像识别的多模态客户服务方法，其特征在于，所述将获取的文本信息进行自然语言处理，提取关键信息，包括将文本信息进行分词、句法分析和结构分析，并进行词义消歧和命名实体识别，得到关键信息。

4.根据权利要求3所述的一种基于语音和图像识别的多模态客户服务方法，其特征在于，所述将获取的图像信息进行计算机视觉分析，提取相关信息，包括对图像信息利用卷积神经网络进行识别，得到图像信息的相关信息。

5.根据权利要求4所述的一种基于语音和图像识别的多模态客户服务方法，其特征在于，所述将文本数据、关键信息和相关信息进行整合，包括利用知识图谱整合文本数据、关键信息和相关信息，分析用户问题的语义和上下文，生成多模态的问题表示。

6.根据权利要求5所述的一种基于语音和图像识别的多模态客户服务方法，其特征在于，所述利用知识图谱进行多模态信息融合，得到多模态的问题表示，包括利用知识库存储目标产品的专业知识，包括产品信息、生产工艺和设备维护信息。

7.根据权利要求6所述的一种基于语音和图像识别的多模态客户服务方法，其特征在于，所述利用知识图谱进行多模态信息融合，得到多模态的问题表示，还包括利用关联规则挖掘方法来挖掘知识库存储的目标产品的关联知识。

8.一种基于语音和图像识别的多模态客户服务系统，其特征在于，包括：

9.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1所述的一种基于语音和图像识别的多模态客户服务方法。

10.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1所述的一种基于语音和图像识别的多模态客户服务方法。