CN116932712A - 一种多模态输入的交互信息生成方法、装置、设备和介质 - Google Patents
一种多模态输入的交互信息生成方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116932712A CN116932712A CN202310793842.6A CN202310793842A CN116932712A CN 116932712 A CN116932712 A CN 116932712A CN 202310793842 A CN202310793842 A CN 202310793842A CN 116932712 A CN116932712 A CN 116932712A
- Authority
- CN
- China
- Prior art keywords
- text
- audio
- input
- image
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000002452 interceptive effect Effects 0.000 title claims description 12
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 101150054987 ChAT gene Proteins 0.000 description 4
- 101100203187 Mus musculus Sh2d3c gene Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种多模态输入的交互信息生成方法、装置、设备和介质,其中方法包括:提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征;提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征;将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本;对所述新的输入文本进行转换编码,得到文本特征;将图像全局特征和/或音频全局特征与所述文本特征进行求和,得到新特征;将所述新特征进行转换解码,生成对话系统的回复内容。本发明弥补了人工智能对话系统在多模态的短板。
Description
技术领域
本发明涉及多模态信息交互技术领域,特别是涉及一种多模态输入的交互信息生成方法、装置、设备和介质。
背景技术
随着人工智能技术的发展,人工智能技术越来越多地用于需要进行聊天交互的场景,比如客户服务、智能聊天和内容生成等。目前人工智能跟用户进行聊天交互主要依赖于自然语言领域的对话系统,使人工智能跟用户进行聊天交互时更加智能,更加主动,使其越来越接近真人和用户的互动效果。
目前常用的人工智能对话系统仅仅通过文本作为载体进行交互,无法将语音或者图像当作对话系统的输入,局限了真实世界的表达。
发明内容
本发明所要解决的技术问题是提供一种多模态输入的交互信息生成方法、装置、设备和介质,弥补了人工智能对话系统在多模态的短板。
本发明解决其技术问题所采用的技术方案是:提供一种多模态输入的交互信息生成方法,包括以下步骤:
提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征;
提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征;
将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本;
对所述新的输入文本进行转换编码,得到文本特征;
将图像全局特征和/或音频全局特征与所述文本特征进行求和,得到新特征;
将所述新特征进行转换解码,生成对话系统的回复内容。
所述提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征,具体包括:
采用OCR模块识别输入的图像中出现的文字,得到图像文本;
采用VIT模型获取输入的图像的图像全局特征。
所述提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征,具体包括:
采用ASR模块识别出输入的音频中人说话的内容文字,得到音频文本;
采用wav2vec模型获取到输入的音频的音频全局特征。
所述将图像文本和/或音频文本与输入的文本进行串联拼接时,将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。
本发明解决其技术问题所采用的技术方案是:提供一种多模态输入的交互信息生成装置,包括:
图像提取模块,用于提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征;
音频提取模块,用于提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征;
文本融合模块,用于将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本;
转换编码模块,用于对所述新的输入文本进行转换编码,得到文本特征;
特征融合模块,用于将图像全局特征和/或音频全局特征与所述文本特征进行求和,得到新特征;
转换解码模块,用于将所述新特征进行转换解码,生成对话系统的回复内容。
所述图像提取模块包括:
图像文本提取单元,用于采用OCR模块识别输入的图像中出现的文字,得到图像文本;
图像特征提取单元,用于采用VIT模型获取输入的图像的图像全局特征。
所述音频提取模块包括:
音频文本提取单元,用于采用ASR模块识别出输入的音频中人说话的内容文字,得到音频文本;
音频特征提取单元,用于采用wav2vec模型获取到输入的音频的音频全局特征。
所述文本融合模块将图像文本和/或音频文本与输入的文本进行串联拼接时,将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。
本发明解决其技术问题所采用的技术方案是:提供一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的多模态输入的交互信息生成方法的步骤。
本发明解决其技术问题所采用的技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的多模态输入的交互信息生成方法的步骤。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明可以将多模态的输入转换文本相关信息并与输入文本进行融合形成新的文本,本发明还提取多模态的输入的特征将其与新文本的文本特征进行融合得到新的特征,再基于新的特征生成对应的对话内容,从而弥补了人工智能对话系统在多模态的短板。
附图说明
图1是本发明第一实施方式多模态输入的交互信息生成方法的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的第一实施方式涉及一种多模态输入的交互信息生成方法,如图1所示,包括以下步骤:
步骤1,提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征。本步骤中,采用OCR模块识别输入的图像中出现的文字,得到图像文本text_image,采用VIT模型获取输入的图像的图像全局特征feature_image。
步骤2,提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征。本步骤中,采用ASR模块识别出输入的音频中人说话的内容文字,得到音频文本text_audio,采用wav2vec模型获取到输入的音频的音频全局特征feature_audio。
步骤3,将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本。在进行串联拼接时,可以只将图像文本与输入的文本进行串联拼接,也可以只将音频文本与输入的文本进行串联拼接,还可以将图像文本和音频文本一起与输入的文本进行串联拼接。当只将图像文本与输入的文本进行串联拼接时,将输入的文本text放置在前,图像文本text_image放置在后,得到新文本text_new;当只将音频文本与输入的文本进行串联拼接时,将输入的文本text放置在前,音频文本text_audio放置在后,得到新文本text_new;当将图像文本和音频文本一起与输入的文本进行串联拼接时,则将输入的文本text放置在前,图像文本text_image和音频文本text_audio放置在后,得到新文本text_new。
步骤4,对所述新的输入文本进行转换编码,即将新文本text_new经过transformer encoder处理,得到文本特征feature。
步骤5,将图像全局特征feature_image和/或音频全局特征feature_audio与所述文本特征feature进行求和,得到新特征feautre_new。
步骤6,将所述新特征feautre_new进行转换解码,即将新特征feautre_new经过transformerdecoder处理,生成对话系统的回复内容。每一次的对话都会将上一次的多模态输入和回复内容与本次的多模态输入进行合并,从而保留之前的信息。
由此可见,本发明可以将多模态的输入转换文本相关信息并与输入文本进行融合形成新的文本,本发明还提取多模态的输入的特征将其与新文本的文本特征进行融合得到新的特征,再基于新的特征生成对应的对话内容,从而弥补了人工智能对话系统在多模态的短板。
本发明的第二实施方式涉及一种多模态输入的交互信息生成装置,包括:
图像提取模块,用于提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征;
音频提取模块,用于提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征;
文本融合模块,用于将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本;
转换编码模块,用于对所述新的输入文本进行转换编码,得到文本特征;
特征融合模块,用于将图像全局特征和/或音频全局特征与所述文本特征进行求和,得到新特征;
转换解码模块,用于将所述新特征进行转换解码,生成对话系统的回复内容。
所述图像提取模块包括:
图像文本提取单元,用于采用OCR模块识别输入的图像中出现的文字,得到图像文本;
图像特征提取单元,用于采用VIT模型获取输入的图像的图像全局特征。
所述音频提取模块包括:
音频文本提取单元,用于采用ASR模块识别出输入的音频中人说话的内容文字,得到音频文本;
音频特征提取单元,用于采用wav2vec模型获取到输入的音频的音频全局特征。
所述文本融合模块将图像文本和/或音频文本与输入的文本进行串联拼接时,将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。
本发明的第三实施方式涉及一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一实施方式的多模态输入的交互信息生成方法的步骤。
本发明的第四实施方式涉及一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一实施方式的多模态输入的交互信息生成方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种多模态输入的交互信息生成方法,其特征在于,包括以下步骤:
提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征;
提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征;
将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本;
对所述新的输入文本进行转换编码,得到文本特征;
将图像全局特征和/或音频全局特征与所述文本特征进行求和,得到新特征;
将所述新特征进行转换解码,生成对话系统的回复内容。
2.根据权利要求1所述的多模态输入的交互信息生成方法,其特征在于,所述提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征,具体包括:
采用OCR模块识别输入的图像中出现的文字,得到图像文本;
采用VIT模型获取输入的图像的图像全局特征。
3.根据权利要求1所述的多模态输入的交互信息生成方法,其特征在于,所述提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征,具体包括:
采用ASR模块识别出输入的音频中人说话的内容文字,得到音频文本;
采用wav2vec模型获取到输入的音频的音频全局特征。
4.根据权利要求1所述的多模态输入的交互信息生成方法,其特征在于,所述将图像文本和/或音频文本与输入的文本进行串联拼接时,将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。
5.一种多模态输入的交互信息生成装置,其特征在于,包括:
图像提取模块,用于提取输入的图像中的文字信息和特征,得到图像文本和图像全局特征;
音频提取模块,用于提取输入的音频中的文字信息和特征,得到音频文本和音频全局特征;
文本融合模块,用于将图像文本和/或音频文本与输入的文本进行串联拼接,形成新的输入文本;
转换编码模块,用于对所述新的输入文本进行转换编码,得到文本特征;
特征融合模块,用于将图像全局特征和/或音频全局特征与所述文本特征进行求和,得到新特征;
转换解码模块,用于将所述新特征进行转换解码,生成对话系统的回复内容。
6.根据权利要求5所述的多模态输入的交互信息生成装置,其特征在于,所述图像提取模块包括:
图像文本提取单元,用于采用OCR模块识别输入的图像中出现的文字,得到图像文本;
图像特征提取单元,用于采用VIT模型获取输入的图像的图像全局特征。
7.根据权利要求5所述的多模态输入的交互信息生成装置,其特征在于,所述音频提取模块包括:
音频文本提取单元,用于采用ASR模块识别出输入的音频中人说话的内容文字,得到音频文本;
音频特征提取单元,用于采用wav2vec模型获取到输入的音频的音频全局特征。
8.根据权利要求5所述的多模态输入的交互信息生成装置,其特征在于,所述文本融合模块将图像文本和/或音频文本与输入的文本进行串联拼接时,将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4中任一所述的多模态输入的交互信息生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的多模态输入的交互信息生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310793842.6A CN116932712A (zh) | 2023-06-30 | 2023-06-30 | 一种多模态输入的交互信息生成方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310793842.6A CN116932712A (zh) | 2023-06-30 | 2023-06-30 | 一种多模态输入的交互信息生成方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116932712A true CN116932712A (zh) | 2023-10-24 |
Family
ID=88391734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310793842.6A Pending CN116932712A (zh) | 2023-06-30 | 2023-06-30 | 一种多模态输入的交互信息生成方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932712A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292024A (zh) * | 2023-11-24 | 2023-12-26 | 上海蜜度科技股份有限公司 | 基于语音的图像生成方法、装置、介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625660A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 对话生成方法、视频评论方法、装置、设备及存储介质 |
CN112527962A (zh) * | 2020-12-17 | 2021-03-19 | 云从科技集团股份有限公司 | 基于多模态融合的智能应答方法、装置、机器可读介质及设备 |
CN113780486A (zh) * | 2021-11-15 | 2021-12-10 | 湖南师范大学 | 一种视觉问答的方法、装置及介质 |
CN113934882A (zh) * | 2021-09-29 | 2022-01-14 | 北京中科睿鉴科技有限公司 | 细粒度的多模态虚假新闻检测方法 |
CN114064870A (zh) * | 2021-11-10 | 2022-02-18 | 京东科技信息技术有限公司 | 面向多模态的对话方法、装置、电子设备、存储介质 |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
-
2023
- 2023-06-30 CN CN202310793842.6A patent/CN116932712A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625660A (zh) * | 2020-05-27 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 对话生成方法、视频评论方法、装置、设备及存储介质 |
CN112527962A (zh) * | 2020-12-17 | 2021-03-19 | 云从科技集团股份有限公司 | 基于多模态融合的智能应答方法、装置、机器可读介质及设备 |
CN113934882A (zh) * | 2021-09-29 | 2022-01-14 | 北京中科睿鉴科技有限公司 | 细粒度的多模态虚假新闻检测方法 |
CN114064870A (zh) * | 2021-11-10 | 2022-02-18 | 京东科技信息技术有限公司 | 面向多模态的对话方法、装置、电子设备、存储介质 |
CN113780486A (zh) * | 2021-11-15 | 2021-12-10 | 湖南师范大学 | 一种视觉问答的方法、装置及介质 |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292024A (zh) * | 2023-11-24 | 2023-12-26 | 上海蜜度科技股份有限公司 | 基于语音的图像生成方法、装置、介质及电子设备 |
CN117292024B (zh) * | 2023-11-24 | 2024-04-12 | 上海蜜度科技股份有限公司 | 基于语音的图像生成方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844481B (zh) | 识别文本检错方法及装置 | |
CN112507704B (zh) | 多意图识别方法、装置、设备及存储介质 | |
CN108959257A (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
CN111027291B (zh) | 文本中标点符号添加、模型训练方法、装置及电子设备 | |
CN111914076B (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN111626049A (zh) | 多媒体信息的标题修正方法、装置、电子设备及存储介质 | |
CN116932712A (zh) | 一种多模态输入的交互信息生成方法、装置、设备和介质 | |
CN112861825B (zh) | 模型训练方法、行人再识别方法、装置和电子设备 | |
CN104484058A (zh) | 一种输出即时表情图像的方法及装置 | |
CN112989008A (zh) | 一种多轮对话改写方法、装置和电子设备 | |
CN111159394A (zh) | 一种文本摘要生成方法和装置 | |
CN114419527A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114022955A (zh) | 一种动作识别方法及装置 | |
CN113409803B (zh) | 语音信号处理方法、装置、存储介质及设备 | |
CN117370512A (zh) | 回复对话的方法、装置、设备及存储介质 | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN113220852B (zh) | 人机对话方法、装置、设备和存储介质 | |
CN112346736B (zh) | 一种数据处理方法和系统 | |
CN112686059A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN113821652A (zh) | 模型数据处理方法、装置、电子设备以及计算机可读介质 | |
CN112686060A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN112002325A (zh) | 多语种语音交互方法和装置 | |
CN115859121B (zh) | 文本处理模型训练方法及装置 | |
CN116756283A (zh) | 基于融合科室的对话问题生成方法及装置、介质、设备 | |
CN113360712B (zh) | 视频表示的生成方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 301AB, No. 10, Lane 198, Zhangheng Road, Free Trade Pilot Zone, Pudong New Area, Shanghai, 200120 Applicant after: Shanghai Mido Technology Co.,Ltd. Address before: Room 301AB, No. 10, Lane 198, Zhangheng Road, Free Trade Pilot Zone, Pudong New Area, Shanghai, 200120 Applicant before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information |