CN112201228A - 一种基于人工智能的多模态语义识别服务接入方法 - Google Patents
一种基于人工智能的多模态语义识别服务接入方法 Download PDFInfo
- Publication number
- CN112201228A CN112201228A CN202011036983.6A CN202011036983A CN112201228A CN 112201228 A CN112201228 A CN 112201228A CN 202011036983 A CN202011036983 A CN 202011036983A CN 112201228 A CN112201228 A CN 112201228A
- Authority
- CN
- China
- Prior art keywords
- speech
- text
- video
- artificial intelligence
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000008909 emotion recognition Effects 0.000 claims abstract description 8
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 5
- 238000013135 deep learning Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002902 bimodal effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 230000008451 emotion Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示。本发明利用多模态模型比单一模态训练出的模型更精准,所以即使在实际使用中只使用一个模态输入,由多模态训练得到的模型也会优于单模态训练得到的模型,对不同模态的关联融合进行中间层特征融合和最后层的融合时,每种模态的特征识别产生各自的置信度,从而在互相融合时将置信度作为贡献的权重。
Description
技术领域
本发明涉及语义识别领域,特别涉及一种基于人工智能的多模态语义识别服务接入方法。
背景技术
语音情感识别是一个非常具有挑战性的问题,因为人们总是以微妙和复杂的方式传达情感。对于语音情感识别,当前的方法主要包括:1)直接通过语音信号特征;2)通过语音识别的文本特征;3)融合音频和文本的多模态特征,在进行语义识别时,无法做到更加准确的识别,导致语义识别差,无法更好的理解语义。
发明内容
本发明的目的在于提供一种基于人工智能的多模态语义识别服务接入方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示,且对语音识别出的文字进行特征化,对特征化的语音与相对应的文字进行匹配,匹配后的语音按照情绪特征进行分类,最后对识别出来的文字和信息进行整理,将整理的信息再次特征化。
优选的,基于多模态融合的训练,进行人工智能的语音训练,人机互动包含语音、图片、视频和文字,从帧序列中提取出语音和图像视频特征,按语音对应的视频片段,在各个中间阶段的不同模态之间的特征可以融合,在最后把不同模态的特征合并连接在一起又会形成混合的特征向量,最后融合的特征集,可以用支持向量机自动进行二分类。
优选的,语音识别相关的视频在于嘴部的图像和运动信息,将嘴部作为感兴趣区域,嘴部感兴趣区域都缩放到归一化的像素尺寸,进一步降维,用1-4帧连续视频作为输入,对应3-10帧连续语音的帧,对每个模态,在时间上进行特征平均值归一化,时间序列的导数用归一化线性斜率表示,体现了信号的变化特征,在训练和实际使用中,对缺失一种模态,即缺失语音、文字和视频的情况,依靠其它一种或二种模态进行工作,语音来自独立麦克风或从视频中提取,文字来自字幕、用户打字输入,图像视频中识别出的字符。
优选的,多模态语义识别服务还包括自然语言理解引擎,自然语言理解引擎采用多模态推理技术,对于多个领域的客服知识库,引擎采用文本聚类技术自动将知识点分为不同的子类,在每个子类知识库的推理过程中采用不同的参数,表现为多个相互独立的引擎模态,细化推理颗粒度,同时在软件技术上采用多线程方式。
优选的,融合文字与图像视频深度学习神经网络,利用文字和视觉之间的交叉相关提供用户问题的答案,多模态神经网络模型包含图像神经网络用于描述图像信息,另一个文字语义匹配神经网络进行文本信息中的单词的语义构建,两种模态之间的融合体现在由模型学习图像与文本之间的关联匹配关系。
优选的,基于手机拍照时的彩色图像和手机自带的激光测距得到的深度图,二者通过双模态信息的融合,实现机器人对目标的理解和分类。
优选的,基于文字的深度学习网络和基于图像的网络,在各层的中间特征层面进行多模态融合,并且在最后的输出进行融合,从而对图文并茂的内容进行综合理解,可以理解用户表达的喜怒哀乐情绪。
优选的,自然语言处理是在技术层面上的深度学习和知识层面上语言学应用的结合,语言学领域研究包括:词干提取、词形还原、分词、词性标注、命名实体识别、词义消歧、组块识别、句法分析、语义角色标注、共指消解、篇章分析。
本发明的技术效果和优点:
(1)利用多模态模型比单一模态训练出的模型更精准,所以即使在实际使用中只使用一个模态输入,由多模态训练得到的模型也会优于单模态训练得到的模型,对不同模态的关联融合进行中间层特征融合和最后层的融合时,每种模态的特征识别产生各自的置信度,从而在互相融合时将置信度作为贡献的权重。置信度高的模态得到的融合权重更大;
(2)神经网络模型挖掘以及学习图像与文本在单词级别,短语级别,以及句子级别的匹配关系,进而完全的描述了图像与文本的复杂的匹配关系,这种匹配关系可用于图像与文本的双向搜索,比如基于图像回答文字表达的问题或基于文字为用户返回相关的商品图像进行答疑、咨询和商品销售,基于图像和视频运动信息的双模态深度学习网络。最后通过得分的融合,对用户行为进行分类理解;
(3)基于文字的深度学习网络和基于图像的网络,在各层的中间特征层面进行多模态融合并且在最后的输出进行融合,从而对图文并茂的内容进行综合理解,比如理解用户表达的喜怒哀乐等情绪。情绪分析对企业营销和用户体验的评估具有重要的价值,且分析更加准确。
附图说明
图1为本发明的多核心自然语言理解引擎流程示意图;
图2为本发明多模态交互学习流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1-2所示的一种基于人工智能的多模态语义识别服务接入方法,包括基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示,且对语音识别出的文字进行特征化,对特征化的语音与相对应的文字进行匹配,匹配后的语音按照情绪特征进行分类,最后对识别出来的文字和信息进行整理,将整理的信息再次特征化;
基于多模态融合的训练,进行人工智能的语音训练,人机互动包含语音、图片、视频和文字,从帧序列中提取出语音和图像视频特征,按语音对应的视频片段,在各个中间阶段的不同模态之间的特征可以融合,在最后把不同模态的特征合并连接在一起又会形成混合的特征向量,最后融合的特征集,可以用支持向量机自动进行二分类。
语音识别相关的视频在于嘴部的图像和运动信息,将嘴部作为感兴趣区域,嘴部感兴趣区域都缩放到归一化的像素尺寸,进一步降维,用1-4帧连续视频作为输入,对应3-10帧连续语音的帧,对每个模态,在时间上进行特征平均值归一化,时间序列的导数用归一化线性斜率表示,体现了信号的变化特征,在训练和实际使用中,对缺失一种模态,即缺失语音、文字和视频的情况,依靠其它一种或二种模态进行工作,语音来自独立麦克风或从视频中提取,文字来自字幕、用户打字输入,图像视频中识别出的字符,多模态语义识别服务还包括自然语言理解引擎,自然语言理解引擎采用多模态推理技术,对于多个领域的客服知识库,引擎采用文本聚类技术自动将知识点分为不同的子类,在每个子类知识库的推理过程中采用不同的参数,表现为多个相互独立的引擎模态,细化推理颗粒度,同时在软件技术上采用多线程方式。
融合文字与图像视频深度学习神经网络,利用文字和视觉之间的交叉相关提供用户问题的答案,多模态神经网络模型包含图像神经网络用于描述图像信息,另一个文字语义匹配神经网络进行文本信息中的单词的语义构建,两种模态之间的融合体现在由模型学习图像与文本之间的关联匹配关系,基于手机拍照时的彩色图像和手机自带的激光测距得到的深度图,二者通过双模态信息的融合,实现机器人对目标的理解和分类,基于文字的深度学习网络和基于图像的网络,在各层的中间特征层面进行多模态融合,并且在最后的输出进行融合,从而对图文并茂的内容进行综合理解,可以理解用户表达的喜怒哀乐情绪,自然语言处理是在技术层面上的深度学习和知识层面上语言学应用的结合,语言学领域研究包括:词干提取、词形还原、分词、词性标注、命名实体识别、词义消歧、组块识别、句法分析、语义角色标注、共指消解、篇章分析。
自然语言处理相当于认知层,对话管理(DM)包括对话状态跟踪和对话方案选择,相当于决策层。问答系统侧重于一问一答,即直接根据用户的问题给出精准的答案,是一个信息检索的过程。任务驱动的对话系统通常由多轮问答,倾向于一个决策的过程。另外与人机交互相关联的语音识别(ASR)和语音合成(TTS)则类似于感知层的功能。自然语言处理是在技术层面上的深度学习和知识层面上语言学应用的结合。语言学领域研究包括:词干提取、词形还原、分词、词性标注、命名实体识别、词义消歧、组块识别、句法分析、语义角色标注、共指消解、篇章分析等。因此自然语言处理的技术难点主要体现为:
(1)语言学层面上语言的模糊性。比如多义词,当你说“苹果”的时候,可能是一种水果,也可能是一个高科技品牌。解决这个问题需要帮助机器进行上下文理解,采用大规模的后端资源集成方式,通过判定用户的意图辅助分析。
(2)语言学层面上语言的多样性。每个用户的用语习惯不一样,有人简练,有人哆嗦。再加上方言千变万化,迫使机器在大数据学习之外,进行小样本的学习和预测。
目前主流解决方法是利用日志数据,即跟踪用户用语习惯,并在其语言上抽取语义标注数据,然后用这些数据构建相关领域的语言模型。
(3)技术层面上模型优化,机器思考方式和人的思考方式不一样,人可以基于小样本,并辅以推理能力进行学习,而机器则依赖大规模标注的数据,由于没有常识性知识储备,机器难以有效利用先验知识,而用深度学习模型得出的结果有时也与先验知识和专家知识相冲突。
这一问题的解决方法是在应用层面上,将深度学习和知识图谱(KG)相结合。这有两种方式,第一种是KG=模型input。即把知识图谱作为先验知识,将其中的语义信息量化为深度学习模型的输入。第二种是KG=模型约束条件,即在传统机器学习的基础上,把知识图谱作为机器学习的一个约束条件,来优化结果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于人工智能的多模态语义识别服务接入方法,包括以下方法:
基于多模态对齐的语音情感识别的模型,首先通过语音进行识别,识别时,通过视频设备、录音设备进行语音的收集,收集好的语音信息先进行分类,分类后的语音进行特征标记,然后将收集好的语音进行分析,利用双向长短期记忆模型对音频基于帧进行高维特征表示,且对语音识别出的文字进行特征化,对特征化的语音与相对应的文字进行匹配,匹配后的语音按照情绪特征进行分类,最后对识别出来的文字和信息进行整理,将整理的信息再次特征化。
2.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,基于多模态融合的训练,进行人工智能的语音训练,人机互动包含语音、图片、视频和文字,从帧序列中提取出语音和图像视频特征,按语音对应的视频片段,在各个中间阶段的不同模态之间的特征可以融合,在最后把不同模态的特征合并连接在一起又会形成混合的特征向量,最后融合的特征集,可以用支持向量机自动进行二分类。
3.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,语音识别相关的视频在于嘴部的图像和运动信息,将嘴部作为感兴趣区域,嘴部感兴趣区域都缩放到归一化的像素尺寸,进一步降维,用1-4帧连续视频作为输入,对应3-10帧连续语音的帧,对每个模态,在时间上进行特征平均值归一化,时间序列的导数用归一化线性斜率表示,体现了信号的变化特征,在训练和实际使用中,对缺失一种模态,即缺失语音、文字和视频的情况,依靠其它一种或二种模态进行工作,语音来自独立麦克风或从视频中提取,文字来自字幕、用户打字输入,图像视频中识别出的字符。
4.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,多模态语义识别服务还包括自然语言理解引擎,自然语言理解引擎采用多模态推理技术,对于多个领域的客服知识库,引擎采用文本聚类技术自动将知识点分为不同的子类,在每个子类知识库的推理过程中采用不同的参数,表现为多个相互独立的引擎模态,细化推理颗粒度,同时在软件技术上采用多线程方式。
5.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,融合文字与图像视频深度学习神经网络,利用文字和视觉之间的交叉相关提供用户问题的答案,多模态神经网络模型包含图像神经网络用于描述图像信息,另一个文字语义匹配神经网络进行文本信息中的单词的语义构建,两种模态之间的融合体现在由模型学习图像与文本之间的关联匹配关系。
6.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,基于手机拍照时的彩色图像和手机自带的激光测距得到的深度图,二者通过双模态信息的融合,实现机器人对目标的理解和分类。
7.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,基于文字的深度学习网络和基于图像的网络,在各层的中间特征层面进行多模态融合,并且在最后的输出进行融合,从而对图文并茂的内容进行综合理解,可以理解用户表达的喜怒哀乐情绪。
8.根据权利要求1所述的一种基于人工智能的多模态语义识别服务接入方法,其特征在于,自然语言处理是在技术层面上的深度学习和知识层面上语言学应用的结合,语言学领域研究包括:词干提取、词形还原、分词、词性标注、命名实体识别、词义消歧、组块识别、句法分析、语义角色标注、共指消解、篇章分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036983.6A CN112201228A (zh) | 2020-09-28 | 2020-09-28 | 一种基于人工智能的多模态语义识别服务接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036983.6A CN112201228A (zh) | 2020-09-28 | 2020-09-28 | 一种基于人工智能的多模态语义识别服务接入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112201228A true CN112201228A (zh) | 2021-01-08 |
Family
ID=74007512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036983.6A Pending CN112201228A (zh) | 2020-09-28 | 2020-09-28 | 一种基于人工智能的多模态语义识别服务接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201228A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN112905844A (zh) * | 2021-03-23 | 2021-06-04 | 广东工业大学 | 一种视频语音检索方法 |
CN113065012A (zh) * | 2021-03-17 | 2021-07-02 | 山东省人工智能研究院 | 一种基于多模态动态交互机制的图文解析方法 |
CN113220861A (zh) * | 2021-06-01 | 2021-08-06 | 中国电子科技集团公司第五十四研究所 | 一种面向专业领域的知识图谱问答系统 |
CN113255635A (zh) * | 2021-07-19 | 2021-08-13 | 中国科学院自动化研究所 | 多模态融合的心理压力分析方法 |
CN113592251A (zh) * | 2021-07-12 | 2021-11-02 | 北京师范大学 | 一种多模态融合的教态分析系统 |
CN114533063A (zh) * | 2022-02-23 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种多源监测结合的情感计算系统及方法 |
CN114757209A (zh) * | 2022-06-13 | 2022-07-15 | 天津大学 | 基于多模态语义角色识别的人机交互指令解析方法及装置 |
CN117251551A (zh) * | 2023-11-06 | 2023-12-19 | 联通(广东)产业互联网有限公司 | 一种基于大语言模型的自然语言处理系统及方法 |
CN117743555A (zh) * | 2024-02-07 | 2024-03-22 | 中关村科学城城市大脑股份有限公司 | 答复决策信息发送方法、装置、设备和计算机可读介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130241834A1 (en) * | 2010-11-16 | 2013-09-19 | Hewlett-Packard Development Company, L.P. | System and method for using information from intuitive multimodal interactions for media tagging |
US20180308487A1 (en) * | 2017-04-21 | 2018-10-25 | Go-Vivace Inc. | Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110085220A (zh) * | 2018-01-26 | 2019-08-02 | 上海智臻智能网络科技股份有限公司 | 智能交互装置 |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111221984A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 多模态内容处理方法、装置、设备及存储介质 |
CN111400469A (zh) * | 2020-03-12 | 2020-07-10 | 法雨科技(北京)有限责任公司 | 针对语音问答的智能生成系统及其方法 |
CN111507111A (zh) * | 2020-03-19 | 2020-08-07 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置、电子设备及存储介质 |
-
2020
- 2020-09-28 CN CN202011036983.6A patent/CN112201228A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130241834A1 (en) * | 2010-11-16 | 2013-09-19 | Hewlett-Packard Development Company, L.P. | System and method for using information from intuitive multimodal interactions for media tagging |
US20180308487A1 (en) * | 2017-04-21 | 2018-10-25 | Go-Vivace Inc. | Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response |
CN110085220A (zh) * | 2018-01-26 | 2019-08-02 | 上海智臻智能网络科技股份有限公司 | 智能交互装置 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111221984A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 多模态内容处理方法、装置、设备及存储介质 |
CN111400469A (zh) * | 2020-03-12 | 2020-07-10 | 法雨科技(北京)有限责任公司 | 针对语音问答的智能生成系统及其方法 |
CN111507111A (zh) * | 2020-03-19 | 2020-08-07 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置、电子设备及存储介质 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN113065012A (zh) * | 2021-03-17 | 2021-07-02 | 山东省人工智能研究院 | 一种基于多模态动态交互机制的图文解析方法 |
CN113065012B (zh) * | 2021-03-17 | 2022-04-22 | 山东省人工智能研究院 | 一种基于多模态动态交互机制的图文解析方法 |
CN112905844A (zh) * | 2021-03-23 | 2021-06-04 | 广东工业大学 | 一种视频语音检索方法 |
CN113220861A (zh) * | 2021-06-01 | 2021-08-06 | 中国电子科技集团公司第五十四研究所 | 一种面向专业领域的知识图谱问答系统 |
CN113220861B (zh) * | 2021-06-01 | 2022-09-02 | 中国电子科技集团公司第五十四研究所 | 一种面向专业领域的知识图谱问答系统 |
CN113592251B (zh) * | 2021-07-12 | 2023-04-14 | 北京师范大学 | 一种多模态融合的教态分析系统 |
CN113592251A (zh) * | 2021-07-12 | 2021-11-02 | 北京师范大学 | 一种多模态融合的教态分析系统 |
CN113255635A (zh) * | 2021-07-19 | 2021-08-13 | 中国科学院自动化研究所 | 多模态融合的心理压力分析方法 |
CN113255635B (zh) * | 2021-07-19 | 2021-10-15 | 中国科学院自动化研究所 | 多模态融合的心理压力分析方法 |
CN114533063A (zh) * | 2022-02-23 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种多源监测结合的情感计算系统及方法 |
CN114533063B (zh) * | 2022-02-23 | 2023-10-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种多源监测结合的情感计算系统及方法 |
CN114757209A (zh) * | 2022-06-13 | 2022-07-15 | 天津大学 | 基于多模态语义角色识别的人机交互指令解析方法及装置 |
CN117251551A (zh) * | 2023-11-06 | 2023-12-19 | 联通(广东)产业互联网有限公司 | 一种基于大语言模型的自然语言处理系统及方法 |
CN117251551B (zh) * | 2023-11-06 | 2024-05-07 | 联通(广东)产业互联网有限公司 | 一种基于大语言模型的自然语言处理系统及方法 |
CN117743555A (zh) * | 2024-02-07 | 2024-03-22 | 中关村科学城城市大脑股份有限公司 | 答复决策信息发送方法、装置、设备和计算机可读介质 |
CN117743555B (zh) * | 2024-02-07 | 2024-04-30 | 中关村科学城城市大脑股份有限公司 | 答复决策信息发送方法、装置、设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112201228A (zh) | 一种基于人工智能的多模态语义识别服务接入方法 | |
WO2019100350A1 (en) | Providing a summary of a multimedia document in a session | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN112562669B (zh) | 一种智能数字报自动摘要与语音交互聊新闻方法及系统 | |
CN113592251B (zh) | 一种多模态融合的教态分析系统 | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
CN115292461B (zh) | 基于语音识别的人机交互学习方法及系统 | |
Kshirsagar et al. | A review on application of deep learning in natural language processing | |
CN111311364B (zh) | 基于多模态商品评论分析的商品推荐方法及系统 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN115640530A (zh) | 一种基于多任务学习的对话讽刺和情感联合分析方法 | |
CN111460118A (zh) | 一种人工智能冲突语义识别方法及装置 | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN114693949A (zh) | 一种基于区域感知对齐网络的多模态评价对象抽取方法 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 | |
CN117828065B (zh) | 一种数字人客服方法、系统、装置及储存介质 | |
CN114048319B (zh) | 基于注意力机制的幽默文本分类方法、装置、设备、介质 | |
de Melo et al. | " Seeing is believing: the quest for multimodal knowledge" by Gerard de Melo and Niket Tandon, with Martin Vesely as coordinator | |
Aafaq | ‘Deep learning for natural language description of videos | |
Kong | Research Advanced in Multimodal Emotion Recognition Based on Deep Learning | |
Dutta et al. | EmoComicNet: A multi-task model for comic emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |