CN113113043A - 语音转图像方法及装置 - Google Patents

语音转图像方法及装置 Download PDF

Info

Publication number
CN113113043A
CN113113043A CN202110381038.8A CN202110381038A CN113113043A CN 113113043 A CN113113043 A CN 113113043A CN 202110381038 A CN202110381038 A CN 202110381038A CN 113113043 A CN113113043 A CN 113113043A
Authority
CN
China
Prior art keywords
voice
acoustic feature
feature sequence
input
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110381038.8A
Other languages
English (en)
Other versions
CN113113043B (zh
Inventor
张楚熠
陈堃
罗亚明
江文乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110381038.8A priority Critical patent/CN113113043B/zh
Publication of CN113113043A publication Critical patent/CN113113043A/zh
Application granted granted Critical
Publication of CN113113043B publication Critical patent/CN113113043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本发明公开了一种语音转图像方法及装置,涉及人工智能技术领域,其中该方法包括:对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;对输入的语音进行处理,得到输入语音的声学特征序列;确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片。本发明可以实现高效的语音转图像。

Description

语音转图像方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及语音转图像方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
语音识别是近些年来发展很快的技术,如今语音识别已经被广泛运用到人们日常生活生产之中,通过语音完成文本生成记录、操作指令识别等等。但是在语音与视觉关联应用上却并未摆脱语音识别文字的技术限制,在传统“语音转换图片”场景下还是依赖于语音识别先转换文字,再通过文字转换图片的方式,这样受限于语音识别与自然语言处理技术,效率与效果都不够好,故而提出一种高效的语音转图像系统与方法。
发明内容
本发明实施例提供一种语音转图像方法,用以解决现有技术中语音识别先转换文字,再通过文字转换图片的方式效率与效果都不够好的技术问题,该方法包括:
对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;
对输入的语音进行处理,得到输入语音的声学特征序列;
确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片。
本发明实施例还提供一种语音转图像装置,用以解决现有技术中语音识别先转换文字,再通过文字转换图片的方式效率与效果都不够好的技术问题,该装置包括:
图像素材标注模块,用于对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;
语音输入判别模块,用于对输入的语音进行处理,得到输入语音的声学特征序列;
语音图像匹配模块,用于确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音转图像方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述语音转图像方法的步骤。
本发明实施例中,与现有技术中语音识别先转换文字,再通过文字转换图片的技术方案相比,本发明通过对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;对输入的语音进行处理,得到输入语音的声学特征序列;确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片,这样无需语音识别先转换文字,再通过文字转换图片,而是直接通过解析语音特征与图像特性进行比对的方式,提高了识别效率,能够提供高效的转换服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中语音转图像方法流程图;
图2为本发明实施例中图像素材标注模块1的处理流程图;
图3为本发明实施例中语音输入判别模块2的处理流程图;
图4为本发明实施例中语音图像匹配模块3的处理流程图;
图5为本发明实施例中语音转图像装置结构示意图;
图6为本发明实施例中图像素材标注模块1的模块结构图;
图7为本发明实施例中语音输入判别模块2的模块结构图;
图8为本发明实施例中语音图像匹配模块3的模块结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
基于现有技术中语音识别先转换文字,再通过文字转换图片方式存在效率与效果都不够好的技术问题,本发明提出一种语音转图像方法。
图1为本发明实施例中语音转图像方法流程图,如图1所示,该方法包括:
步骤S10:对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;
步骤S20:对输入的语音进行处理,得到输入语音的声学特征序列;
步骤S30:确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片。
在本发明实施例中,如图2所示,步骤S10对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,包括:
步骤S101:对图片素材进行多次语音标注;
步骤S102:对多次标注语音进行声学特征提取,获得多个声学特征;
步骤S103:对多个声学特征进行聚合,获得最优声学特征;
步骤S104:对所述最优声学特征进行矢量化压缩,得到矢量化的声学特征序列。
具体的,如图2所示,步骤S102还包括:
对多次标注的语音进行预处理,获得预处理后的多次标注语音。
具体的,如图2所示,步骤S101中,对一个给定的图片,由人工进行多次语音标注,将多次标注的语音作为标注输入。
步骤S102中,对所有标注输入语音进行预处理,通过滤波等操作消除噪声,将语音输入变成适合做特征提取的语音集,对语音集进行特征提取得到所有标注语音的特征;
步骤S103中,对得到的语音特征集进行聚合,通过聚合消除人工标注的脏数据影响,得到最符合人工标注的语音特征;
步骤S104中,对多维声学特征进行矢量化压缩,得到矢量化的特征序列,将得到的特征序列与图片素材进行关联。
在本发明实施例中,如图3所示,步骤S20对输入的语音进行处理,得到输入语音的声学特征序列,包括:
步骤S202:对输入的语音进行声学特征提取,得到声学特征结果;
步骤S203:对所述声学特征结果进行矢量化压缩,得到矢量化声学特征序列。
具体的,如图3所示,还包括:
步骤S201:对输入的语音进行预处理,获得预处理的语音。
具体的,如图3所示,步骤S201中,进行语音转图像时,对输入的语音首先做预处理,消除噪声及空白的影响,将语音输入转换为适合做声学特征提取的语音段;
步骤S202中,对输入的语音进行声学特征提取,得到声学特征结果;
步骤S203中,对S202中得到的声学特征,进行矢量化压缩,得到矢量化声学特征序列用于和已标注的声学特征进行匹配。
在本发明实施例中,如图4所示,步骤S30确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,包括:
步骤S301:基于隐式马尔科夫的非时序相关模型,计算输入语音的声学特征序列与图片素材对应的声学特征序列的相似度。
如图4所示,步骤S30还包括:
步骤S302:将最大相似度对应的图片素材作为输入语音的转换图片。
具体的,如图4所示,步骤S301中,对于步骤S203中得到的矢量化声学特征序列,通过基于隐式马尔科夫的非时序相关模型,对输入的特征序列计算相似度最接近的声学特征序列。
步骤S302中,对S301中计算得到的相似度最接近的声学特征序列,查找对应的标注图片素材,将该图片作为结果输出。
本发明实施例中还提供了一种语音转图像装置,如下面的实施例所述。由于该装置解决问题的原理与语音转图像方法相似,因此该装置的实施可以参见语音转图像方法的实施,重复之处不再赘述。
图5是本发明提供的一种语音转图像装置结构示意图,如图5所示,该语音转图像装置包括图像素材标注模块1、语音输入判别模块2、语音图像匹配模块3,具体来说:
图像素材标注模块1,用于对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;
具体的,就是负责对所有作为素材的图片进行语音标注,对于每一图像,通过标注的语音输入聚合得到声学特征序列与图片素材进行关联存储。
语音输入判别模块2,用于对输入的语音进行处理,得到输入语音的声学特征序列;
具体的,就是负责对将作为转换输入的语音进行处理,得到输入语音的声学特征序列。
语音图像匹配模块3,用于确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片;
具体的,就是负责对语音输入判别模块2中获得到的声学特征序列,使用模型计算出与素材库中相似度最接近的序列,将该序列对应的图片输入作为转换得到的图片。
在本发明实施例中,图像素材标注模块1具体用于:
对图片素材进行多次语音标注;
对多次标注语音进行声学特征提取,获得多个声学特征;
对多个声学特征进行聚合,获得最优声学特征;
对所述最优声学特征进行矢量化压缩,得到矢量化的声学特征序列。
图像素材标注模块1具体用于:
对多次标注的语音进行预处理,获得预处理后的多次标注语音。
若从功能单元来描述,则如图6所示,图像素材标注模块1包括语音标注获取单元11、声学特征提取单元12、特征聚合单元13、特征矢量化单元14,具体来说:
语音标注获取单元11,负责对作为素材的图片,收集人工语音标注的语音集,进行预处理消除噪声转换为适合提取声学特征的标注语音。
声学特征提取单元12,负责对图片标注的语音,进行声学特征提取,提取到的声学特征用于标识声音特征。
特征聚合单元13,负责对12中提取到的所有特征进行聚合,通过聚合得到最符合标注结果的特征,作为多个语音标注的最终特征。
特征矢量化单元14,负责对13中聚合得到的特征进行矢量化压缩,得到矢量化的声学特征序列。
在本发明实施例中,语音输入判别模块2具体用于:
对输入的语音进行声学特征提取,得到声学特征结果;
对所述声学特征结果进行矢量化压缩,得到矢量化声学特征序列。
语音输入判别模块2具体用于:
对输入的语音进行预处理,获得预处理的语音。
若从功能单元来描述,则如图7所示,语音输入判别模块2包括语音输入单元21、声学特征提取单元22、矢量转化单元23,具体来说:
语音输入单元21,负责采集需要转换图像的语音输入,对语音输入做预处理,进行噪声消除,转换为适合进行特征提取的语音。
声学特征提取单元22,负责对输入的语音进行声学特征提取,得到声学特征。
矢量转化单元23,负责对22中提取的声学特征,进行矢量化压缩得到矢量化声学特征序列。
在本发明实施例中,语音图像匹配模块3具体用于
基于隐式马尔科夫的非时序相关模型,计算输入语音的声学特征序列与图片素材对应的声学特征序列的相似度。
若从功能单元来描述,则如图8所示,语音图像匹配模块3包括特征序列对比单元31、图像选择输出单元32,具体来说:
特征序列对比单元31,负责通过模型计算将输入语音得到的特征序列与标记序列集进行比对计算,计算出与输入语音特征序列最相似的序列。
图像选择输出单元32,负责通过计算得到的与输入最相似的序列,找到素材库中对应的图片作为结果输出。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音转图像方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述语音转图像方法的步骤。
本发明实施例中,与现有技术中语音识别先转换文字,再通过文字转换图片的技术方案相比,本发明通过对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;对输入的语音进行处理,得到输入语音的声学特征序列;确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片,这样可以在不进行语音文本识别的前提下实现语音与图像的关联,产生以下价值优点:
1、通过解析语音特征与图像特性进行比对的方式,提高了识别效率,能够提供高效的转换服务。
2、通过语音统一处理的方式,用抽象的声学特征序列进行比对,消除了语素转义难点,消除了不同类语言混合场景的识别难点,对中/外语混合语音有较好的处理结果。
3、通过语音统一处理的方式,用抽象的声学特征序列进行比对,消除了词性识别的难点,对混合短语有较好的处理结果。
使用此方法及装置可以针对一段短的语音输入高效获取素材库中对应含义的图像,可以在教育、娱乐、社交等场景的语音沟通中迅速通过语音关联图像,提升视觉观感丰富交流能力。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种语音转图像方法,其特征在于,包括:
对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;
对输入的语音进行处理,得到输入语音的声学特征序列;
确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片。
2.如权利要求1所述的语音转图像方法,其特征在于,对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,包括:
对图片素材进行多次语音标注;
对多次标注语音进行声学特征提取,获得多个声学特征;
对多个声学特征进行聚合,获得最优声学特征;
对所述最优声学特征进行矢量化压缩,得到矢量化的声学特征序列。
3.如权利要求2所述的语音转图像方法,其特征在于,对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,还包括:
对多次标注的语音进行预处理,获得预处理后的多次标注语音。
4.如权利要求1所述的语音转图像方法,其特征在于,对输入的语音进行处理,得到输入语音的声学特征序列,包括:
对输入的语音进行声学特征提取,得到声学特征结果;
对所述声学特征结果进行矢量化压缩,得到矢量化声学特征序列。
5.如权利要求4所述的语音转图像方法,其特征在于,对输入的语音进行处理,得到输入语音的声学特征序列,还包括:
对输入的语音进行预处理,获得预处理的语音。
6.如权利要求1所述的语音转图像方法,其特征在于,确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,包括:
基于隐式马尔科夫的非时序相关模型,计算输入语音的声学特征序列与图片素材对应的声学特征序列的相似度。
7.一种语音转图像装置,其特征在于,包括:
图像素材标注模块,用于对图片素材进行语音标注,对标注的语音进行聚合得到声学特征序列,将声学特征序列与图片素材进行关联;
语音输入判别模块,用于对输入的语音进行处理,得到输入语音的声学特征序列;
语音图像匹配模块,用于确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度,将最大相似度对应的图片素材作为输入语音的转换图片。
8.如权利要求7所述的语音转图像装置,其特征在于,图像素材标注模块具体用于:
对图片素材进行多次语音标注;
对多次标注语音进行声学特征提取,获得多个声学特征;
对多个声学特征进行聚合,获得最优声学特征;
对所述最优声学特征进行矢量化压缩,得到矢量化的声学特征序列。
9.如权利要求8所述的语音转图像装置,其特征在于,图像素材标注模块具体用于:
对多次标注的语音进行预处理,获得预处理后的多次标注语音。
10.如权利要求7所述的语音转图像装置,其特征在于,语音输入判别模块具体用于:
对输入的语音进行声学特征提取,得到声学特征结果;
对所述声学特征结果进行矢量化压缩,得到矢量化声学特征序列。
11.如权利要求10所述的语音转图像装置,其特征在于,语音输入判别模块具体用于:
对输入的语音进行预处理,获得预处理的语音。
12.如权利要求7所述的语音转图像装置,其特征在于,语音图像匹配模块具体用于
基于隐式马尔科夫的非时序相关模型,计算输入语音的声学特征序列与图片素材对应的声学特征序列的相似度。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述语音转图像方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一所述语音转图像方法的步骤。
CN202110381038.8A 2021-04-09 2021-04-09 语音转图像方法及装置 Active CN113113043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110381038.8A CN113113043B (zh) 2021-04-09 2021-04-09 语音转图像方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110381038.8A CN113113043B (zh) 2021-04-09 2021-04-09 语音转图像方法及装置

Publications (2)

Publication Number Publication Date
CN113113043A true CN113113043A (zh) 2021-07-13
CN113113043B CN113113043B (zh) 2023-01-13

Family

ID=76714777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110381038.8A Active CN113113043B (zh) 2021-04-09 2021-04-09 语音转图像方法及装置

Country Status (1)

Country Link
CN (1) CN113113043B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000184258A (ja) * 1998-12-16 2000-06-30 Internatl Business Mach Corp <Ibm> 音声認識注釈を有するデジタル・カメラ
US20060020470A1 (en) * 2004-07-20 2006-01-26 Glen Dobbs Interactive speech synthesizer for enabling people who cannot talk but who are familiar with use of picture exchange communication to autonomously communicate using verbal language
US20070071413A1 (en) * 2005-09-28 2007-03-29 The University Of Electro-Communications Reproducing apparatus, reproducing method, and storage medium
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
CN101271689A (zh) * 2007-03-20 2008-09-24 国际商业机器公司 用数字化语音中呈现的词来索引数字化语音的方法和装置
CN110491384A (zh) * 2019-08-29 2019-11-22 联想(北京)有限公司 一种语音数据处理方法及装置
CN110598739A (zh) * 2019-08-07 2019-12-20 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000184258A (ja) * 1998-12-16 2000-06-30 Internatl Business Mach Corp <Ibm> 音声認識注釈を有するデジタル・カメラ
US20060020470A1 (en) * 2004-07-20 2006-01-26 Glen Dobbs Interactive speech synthesizer for enabling people who cannot talk but who are familiar with use of picture exchange communication to autonomously communicate using verbal language
US20070071413A1 (en) * 2005-09-28 2007-03-29 The University Of Electro-Communications Reproducing apparatus, reproducing method, and storage medium
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
CN101271689A (zh) * 2007-03-20 2008-09-24 国际商业机器公司 用数字化语音中呈现的词来索引数字化语音的方法和装置
CN110598739A (zh) * 2019-08-07 2019-12-20 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质
CN110491384A (zh) * 2019-08-29 2019-11-22 联想(北京)有限公司 一种语音数据处理方法及装置

Also Published As

Publication number Publication date
CN113113043B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN113486833B (zh) 多模态特征提取模型训练方法、装置、电子设备
CN110083729B (zh) 一种图像搜索的方法及系统
CN111488489A (zh) 视频文件的分类方法、装置、介质及电子设备
CN109377985B (zh) 一种领域词的语音识别增强方法和装置
CN114419387A (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN113065549A (zh) 基于深度学习的文档信息抽取方法及装置
CN111259196B (zh) 一种基于视频大数据的文章转视频的方法
CN106550268B (zh) 视频处理方法和视频处理装置
CN112818680A (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113113043B (zh) 语音转图像方法及装置
CN116932712A (zh) 一种多模态输入的交互信息生成方法、装置、设备和介质
CN113128284A (zh) 一种多模态情感识别方法和装置
CN115588227A (zh) 情绪识别方法、装置、电子设备和存储介质
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN111259109B (zh) 一种基于视频大数据的音频转视频的方法
CN113821675A (zh) 视频识别方法、装置、电子设备及计算机可读存储介质
CN112559841A (zh) 物品评论的处理方法、系统、电子设备及可读存储介质
US11706505B1 (en) Processing method, terminal device, and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant