CN109712607A - 一种处理方法、装置及电子设备 - Google Patents
一种处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109712607A CN109712607A CN201811644602.5A CN201811644602A CN109712607A CN 109712607 A CN109712607 A CN 109712607A CN 201811644602 A CN201811644602 A CN 201811644602A CN 109712607 A CN109712607 A CN 109712607A
- Authority
- CN
- China
- Prior art keywords
- media data
- recognition result
- identification module
- identification
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims description 26
- 235000013399 edible fruits Nutrition 0.000 claims description 25
- 241001269238 Data Species 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 description 22
- 230000000052 comparative effect Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 241000219104 Cucurbitaceae Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种处理方法、装置及电子设备,获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
Description
技术领域
本申请涉及控制领域,尤其涉及一种处理方法、装置及电子设备。
背景技术
目前,要想实现对包含至少两种语言的语音进行自动识别,通常是将语音发送至混合语音识别器,由混合语音识别器直接对包含一种或多种语言的语音进行识别,这就导致系统数据处理量大,降低处理效率的问题。
发明内容
有鉴于此,本申请提供一种处理方法、装置及电子设备,其具体方案如下:
一种处理方法,包括:
获得媒体数据;
向第一识别模块输出第一媒体数据,并获得所述第一媒体数据的第一识别结果,其中,所述第一媒体数据是所述媒体数据的至少部分;
向第二识别模块输出第二媒体数据,并获得所述第二媒体数据的第二识别结果,其中,所述第二媒体数据是所述媒体数据的至少部分;
至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果。
进一步的,其中,所述向第二识别模块输出第二媒体数据,包括:
确定所述第一识别结果是否满足预设条件;
如果所述第一识别结果满足预设条件,确定第二媒体数据;
向所述第二识别模块输出所述第二媒体数据。
进一步的,其中,所述预设条件,包括:
所述第一识别结果中包括关键词;
或,
所述第一识别结果中包括所述第一识别模块未能识别出的数据。
进一步的,其中,若所述预设条件为所述第一识别结果中包括关键词,所述向所述第二识别模块输出第二媒体数据,包括:
从多个候选关键词中确定所述第一识别结果中的关键词,从多个候选识别模块中确定对应所述关键词的至少一个第二识别模块;
向所述至少一个第二识别模块输出所述第二媒体数据。
进一步的,其中,
若所述预设条件包括:所述第一识别结果中包括关键词,则所述确定第二媒体数据,包括:
将所述第一媒体数据中处于所述关键词的预设位置处的数据确定为第二媒体数据;
或,
若所述预设条件包括:所述第一识别结果中包括所述第一识别模块未能识别出的数据,则所述确定第二媒体数据,包括:
将所述第一识别模块未能识别出的数据确定为第二媒体数据。
进一步的,其中,
若所述预设条件包括:所述第一识别结果中包括关键词,则所述至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果,包括:
确定所述第一识别结果中所述关键词的预设位置;
将所述第二识别结果放置入所述第一识别结果中所述关键词的预设位置处,以获得所述媒体数据的识别结果;
或,
若所述预设条件包括:所述第一识别结果中包括所述第一识别模块未能识别出的数据,则所述至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果,包括:
确定所述第一识别模块未能识别出的数据在所述第一识别结果中所处的位置;
将所述第二识别结果放置入所述第一识别模块未能识别出的数据在所述第一识别结果中所处的位置,以获得所述媒体数据的识别结果。
进一步的,其中,所述媒体数据、所述第一媒体数据及所述第二媒体数据相同。
进一步的,其中,所述至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果,包括:
所述第一识别结果为所述第一识别模块识别的所述媒体数据的第一部分,所述第二识别结果为所述第二识别模块识别的所述媒体数据的第二部分,将所述第一部分与所述第二部分结合,以获得所述媒体数据的识别结果;
或,
所述第一识别结果为所述第一识别模块识别的所述媒体数据的完整部分,所述第二识别结果为所述第二识别模块识别的所述媒体数据的完整部分,将所述第一识别结果与所述第二识别结果进行匹配,得到多语言综合匹配度排序;
根据所述多语言综合匹配度排序确定所述媒体数据的识别结果。
一种电子设备,包括:
处理器,所述处理器用于获得媒体数据,向第一识别模块输出第一媒体数据,并获得所述第一媒体数据的第一识别结果,其中,所述第一媒体数据是所述媒体数据的至少部分;向第二识别模块输出第二媒体数据,并获得所述第二媒体数据的第二识别结果,其中,所述第二媒体数据是所述媒体数据的至少部分;至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果;
存储器,所述存储器用于存储所述第一识别结果、所述第二识别结果及所述识别结果。
一种处理装置,包括:
第一获得单元,用于获得媒体数据;
第一结果获取单元,用于向第一识别模块输出第一媒体数据,并获得所述第一媒体数据的第一识别结果,其中,所述第一媒体数据是所述媒体数据的至少部分;
第二结果获取单元,用于向第二识别模块输出第二媒体数据,并获得所述第二媒体数据的第二识别结果,其中,所述第二识别结果是所述媒体数据的至少部分;
第二获得单元,用于至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果。
从上述技术方案可以看出,本申请公开的处理方法、装置及电子设备,获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种处理方法的流程图;
图2为本申请实施例公开的一种处理方法的流程图;
图3为本申请实施例公开的一种处理方法的流程图;
图4为本申请实施例公开的一种处理方法的流程图;
图5为本申请实施例公开的一种电子设备的结构示意图;
图6为本申请实施例公开的一种处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开了一种处理方法,其流程图如图1所示,包括:
步骤S11、获得媒体数据;
执行“获得媒体数据”这一步骤的设备可以为本身具备音频采集装置,通过音频采集装置采集音频数据,例如:麦克风;
另外,也可以为:执行“获得媒体数据”这一步骤的设备具有通信装置,该通信装置与具有音频采集装置的设备进行通信,实现通过通信装置接收音频采集装置输出的媒体数据。例如:“获得媒体数据”这一步骤在后端或服务器执行,后端或服务器接收具有麦克风的装置输出的媒体数据。
具体的,媒体数据可以为语音数据,也可以为歌曲数据。
步骤S12、向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分;
在获得媒体数据之后,从中获取至少一部分媒体数据作为第一媒体数据,并将其发送至第一识别模块,由第一识别模块进行识别,之后获取第一识别模块的第一识别结果。
其中,第一识别模块进行识别可以具体为:第一识别模块对第一媒体数据的语义进行识别,以确定第一媒体数据所表达的内容的含义;另外,第一识别模块还可以对第一媒体数据的音色进行识别,以确定第一媒体数据的发出者的信息;还可以为:第一识别模块对第一媒体数据的音量进行识别,以根据该第一识别结果确定是否对该音量进行调节;另外,还可以为:第一识别模块可以分别或同时识别第一媒体数据的语义、音色或音量中的两种或三种。当然,第一识别模块也可以用来识别第一媒体数据的其他参数,在此不做具体限定。步骤S13、向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,其中,第二媒体数据是媒体数据的至少部分;
在获得媒体数据之后,直接从中获取至少一部分媒体数据作为第二媒体数据,并将其发送至第二识别模块,由第二识别模块进行识别,之后获取第二识别模块的第二识别结果。
其中,第二识别模块进行识别可以具体为:第二识别模块对第二媒体数据的语义进行识别,以确定第二媒体数据所表达的内容的含义;另外,第二识别模块还可以对第二媒体数据的音色进行识别,以确定第二媒体数据的发出者的信息;还可以为:第二识别模块对第二媒体数据的音量进行识别,以根据该第二识别结果确定是否对该音量进行调节;另外,还可以为:第二识别模块可以分别或同时识别第二媒体数据的语义、音色或音量中的两种或三种。当然,第二识别模块也可以用来识别第二媒体数据的其他参数,在此不做具体限定。
其中,向第一识别模块输出第一媒体数据,与,向第二识别模块输出第二媒体数据,这两个过程可以同时进行,也可以依次进行;进一步的,第一识别模块识别第一媒体数据,与,第二识别模块识别第二媒体数据,这两个过程也可以同时进行,或者依次进行;获得第一媒体数据的第一识别结果,与,获得第二媒体数据的第二识别结果,可以同时进行,也可以依次进行。
另外,向第一识别模块输出的第一媒体数据,与向第二识别模块输出的第二媒体数据可以相同,也可以不同,即第一识别模块识别的第一媒体数据与第二识别模块识别的第二媒体数据可以相同,也可以不同。
进一步的,第一识别模块和第二识别模块可以识别媒体数据的相同参数,也可以识别媒体数据的不同参数。
例如:第一识别模块识别第一媒体数据的含义,第二识别模块识别第二媒体数据的音色;或者,第一识别模块识别第一媒体数据的含义,第二识别模块识别第二媒体数据的含义。
另外,第一识别模块和第二识别模块所识别的媒体数据可以为相同的媒体数据,也可以为不同的媒体数据,即第一媒体数据与第二媒体数据相同,或,第一媒体数据与第二媒体数据不同。
当不同的识别模块所识别的媒体数据相同或不同时,可以同时将相同或不同的媒体数据输出至不同的识别模块,使不同的识别模块同时对相同或不同的媒体数据进行识别,也可以为依次将相同或不同的媒体数据输出至不同的识别模块。
那么,第一识别模块所识别的媒体数据与参数可以与第二识别模块相同,也可以不同。
如:第一识别模块识别的是第一媒体数据的含义,第二识别模块识别的第二媒体数据与第一媒体数据相同,且也是识别的第一媒体数据的含义;或者,第一识别模块识别的是第一媒体数据的含义,第二识别模块识别的是第二媒体数据的含义,第一媒体数据与第二媒体数据不同;或者,第一识别模块识别的是第一媒体数据的含义,第二媒体数据识别的是第一媒体数据的音量;或者,第一识别模块识别的是第一媒体数据的含义,第二媒体数据识别的是第二媒体数据的音量等。
进一步的,第一媒体数据与第二媒体数据的总和可以为媒体数据,即媒体数据仅包括第一媒体数据及第二媒体数据,那么,第一媒体数据与第二媒体数据不同;媒体数据还可以包括除第一媒体数据及第二媒体数据外的其他媒体数据,如:第三媒体数据,那么,第一媒体数据、第二媒体数据及第三媒体数据均不相同;媒体数据还可以为第一媒体数据或第二媒体数据,即第一媒体数据与媒体数据相同,第二媒体数据仅是媒体数据中的一部分,或者,第二媒体数据与媒体数据相同,第一媒体数据仅是媒体数据的一部分;媒体数据还可以为与第一媒体数据及第二媒体数据均相同,即第一媒体数据和第二媒体数据均是完整的媒体数据,而并非是媒体数据的一部分。
当媒体数据包括除第一媒体数据及第二媒体数据外的其他媒体数据时,还需要用到其他识别模块,如:第三媒体数据及第三识别模块,第三识别模块与第二识别模块,甚至第一识别模块所识别的媒体数据的参数可以相同,可以不同,对应的第一媒体数据、第二媒体数据及第三媒体数据可以相同,也可以不同。
例如:第一媒体数据、第二媒体数据及第三媒体数据均不相同,第一识别模块、第二识别模块及第三识别模块所能够识别的媒体数据的参数也不相同,以第一识别模块、第二识别模块及第三识别模块分别识别其对应的媒体数据的含义,若第一媒体数据为中文语音,那么,第一识别模块用于对中文语音进行翻译,第二媒体数据为英文语音,那么第二识别模块用于对英文语音进行翻译,第三媒体数据为法语语音,那么第三识别模块用于对法语语音进行翻译,分别得到对应的翻译结果。
当然,识别模块并不限于有1个,2个或3个,还可以为多个,如:4个、5个等,在此不做具体限定。
步骤S14、至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。
当有两个识别模块时,对应的可以得到两个识别结果,对这两个识别结果进行分析,从而得到媒体数据的识别结果;当有三个识别模块时,对应的可以得到三个识别结果,对这三个识别结果进行分析,从而得到媒体数据的识别结果。
对至少两个识别结果进行分析,其分析的方式是与至少两个识别模块所识别的数据与参数相关的。
若至少两个识别模块中所有的识别模块所识别的数据均是相同的,即至少两个识别模块均用来识别媒体数据,并且,至少两个识别模块所识别的数据参数类型也是相同的,即均用来识别音量或音色等,那么,其分析过程是将至少两个识别模块得到的至少两个识别结果进行比对,从而确定识别结果;若至少两个识别模块中所有的识别模块所识别的数据均是相同,即至少两个识别模块均用来识别媒体数据,并且,至少两个识别模块所识别的数据参数类型是不同的,即分别用来识别不同的数据参数,那么,其分析过程是将至少两个识别模块得到的至少两个识别结果相结合,从而确定识别结果;若至少两个识别模块所识别的数据不同,且所识别的数据参数类型也不同相同,那么,其分析过程可能是将至少两个识别模块的至少两个识别结果相结合,也可以是至少两个模块所识别得到的至少两个识别结果之间没有关联,不进行结合及比对,直接输出。
具体的,当至少两个识别模块所识别的数据不同,且识别的参数也不同时,可以为:第一识别结果为第一识别模块识别的媒体数据的第一部分,第二识别结果为第二识别模块识别的媒体数据的第二部分,将第一部分与第二部分结合,以获得媒体数据的识别结果;
当至少两个识别模块所识别的数据相同,且识别的参数不同时,可以为:第一识别结果为第一识别模块识别的媒体数据的完整部分,第二识别结果为第二识别模块识别的媒体数据的完整部分,将第一识别结果与第二识别结果进行匹配,得到多语言综合匹配度排序,根据多语言综合匹配度排序确定媒体数据的识别结果。
以翻译媒体数据为例,将一句包括有中文及英文的媒体数据发送至第一识别模块及第二识别模块,当然也可以还包括其他识别模块,即第一识别模块接收的是该完整的媒体数据,第二识别模块接收的也是该完整的媒体数据,分别通过至少两个不同的识别模块对该完整的媒体数据进行识别,例如:分别通过两个不同的识别模块对“Apple是什么意思”进行识别,得到第一识别结果及第二识别结果,第一识别结果与第二识别结果均是对该完整媒体数据的完整翻译,对第一识别结果与第二识别结果进行匹配,确定出两个识别结果的匹配度。
若至少两个识别模块所翻译出的结果是相同的,则直接将该相同的结果确定为识别结果;若至少两个识别模块所翻译出的结果部分相同,则可以直接确定相同的部分,而对于不同的部分则可以继续通过其它识别模块进行识别,从而得到相似度最大的翻译结果;也可以为查找翻译记录,将翻译准确度最高的识别模块所识别出的结果作为最终的识别结果;还可以为:确定不同的识别模块翻译不同语言时的准确度,根据其准确度确定识别结果,即确定不同的识别模块翻译准确度最高的语言,将该识别模块对媒体数据中该语言部分的翻译结果作为该语言部分的识别结果,之后结合得到完整的识别结果。
如:第一识别模块翻译中文时其准确度最高,第二识别模块翻译英文时其准确度最高,则将第一识别结果中对中文部分的媒体数据的翻译结果作为中文部分的识别结果,将第二识别结果中对英文部分的媒体数据的翻译结果作为英文部分的识别结果,将这两个识别结果相结合,得到完整的识别结果。
本实施例公开的处理方法,获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
本实施例公开了一种处理方法,其流程图如图2所示,包括:
步骤S21、获得媒体数据;
步骤S22、向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分;
步骤S23、确定第一识别结果是否满足预设条件;
步骤S24、如果第一识别结果满足预设条件,确定第二媒体数据;
步骤S25、向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,其中,第二媒体数据是媒体数据的至少部分;
首先将第一媒体数据输出至第一识别模块,直至第一识别模块得到第一识别结果,之后,再根据对第一识别结果的分析确定是否将第二媒体数据输出至第二识别模块。本方案中并非是同时将相应的媒体数据发送至识别模块的,而是有先后顺序的,并且,该先后顺序还是以第一识别模块的第一识别结果为依据的。
当第一识别结果满足预设条件时,才能确定出需要输出至第二识别模块的第二媒体数据,之后再向第二识别模块输出,即是否会有第二媒体数据也是与第一识别结果相关的。
在本方案中,输出至第一识别模块的第一媒体数据可以与媒体数据相同,也可以与媒体数据不同,优选的,第一媒体数据与媒体数据相同,将媒体数据输出至第一识别模块,由第一识别模块对该完整的媒体数据进行识别,当确定媒体数据满足预设条件时,才确定第二媒体数据输出至第二识别模块;若媒体数据不满足预设条件,则无需确定第二媒体数据,也就无需传输数据至第二识别模块。
当第一媒体数据满足预设条件时,表明第一识别模块不能准确或不能完整的识别该第一媒体数据,此时需要其他识别模块辅助或共同识别才可完成对媒体数据的识别。当第一媒体数据不满足预设条件时,表明该第一识别模块可以将第一媒体数据完整准确识别,而不需要借助其他识别模块辅助或共同识别。
具体的,预设条件可以包括:第一识别结果中包括关键词,即只有第一识别结果中包括关键词时,才能确定出第二媒体数据。
具体的,该关键词可以为:能够表明第一媒体数据或媒体数据中有其他类型的语言的关键词。
其他类型的语言可以为:不同语种,或,特定类型的语言词汇,其中,特定类型的语言词汇,可以为:指定场景的词汇,如:指定地点的词汇,指定人或物的词汇,指定应用程序的词汇,或指定网页的词汇等。其中,指定地点的词汇,可以为:酒店,景区等;指定人或物的词汇,可以为:可爱,身体;指定应用程序的词汇,可以为:运行,卸载,升级,启动等;指定网页的词汇,可以为:网站,刷新等。
例如:帮我预定Burj Al Arab酒店的房间,其中,“酒店”可以被确定为指定场景,当确定该第一媒体数据中有指定场景的词汇,确定第二媒体数据,其中,第二媒体数据可以为“帮我预定Burj Al Arab酒店的房间”,也可以为“Burj Al Arab”,将第二媒体数据输出至第二识别模块,当第二媒体数据是“帮我预定Burj Al Arab酒店的房间”时,识别结果为第一识别结果与第二识别结果比对确定的结果,其中,第一识别结果为“帮我预定XXX酒店的房间”,第二识别结果可以为包括有“迪拜帆船酒店”这一特定名称的语句,此时,第二识别模块用于对第二媒体数据进行翻译;第二识别结果还可以为搜索到的与“Burj Al Arab”相关的数据或网页,此时,第二识别模块用于对第二媒体数据进行翻译。当然,第二识别模块还可以对第二媒体数据进行其他识别操作,在此不做具体限定。
将第一识别结果与第二识别结果比对,若第二识别模块对第二媒体数据进行翻译,则可得到最终的识别结果为“帮我预定迪拜帆船酒店的房间”;若第二识别模块对第二媒体数据进行相关搜索,则可得到最终的识别结果为第一识别结果与第二识别结果的结合,即“帮我预定XXX酒店的房间”以及“Burj AlArab”的相关内容。
以第二识别模块对第二媒体数据进行翻译为例,当第二媒体数据是“BurjAlArab”时,识别结果为第一识别结果与第二识别结果结合得到的结果,第一识别结果为“帮我预定XXX酒店的房间”,此时可确定第一识别结果中“XXX”可能为第二语言的词汇,因此,将“Burj Al Arab”作为第二媒体数据进行输出,那么,第二识别结果仅包括“迪拜帆船酒店”这一特定名称,可以得到最终的识别结果为“帮我预定迪拜帆船酒店的房间”。
另外,该关键词还可以为:第一识别结果中包括第一识别模块未能识别出的数据。
其中,第一识别模块未能识别出的数据可以包括:得不到结果或者得到语义不符合逻辑的结果的数据。
例如:第一识别模块仅能识别中文语句,若其中包括如“Apple”这样的英文词汇,则不能识别;或者,“古德的比较级是什么”,可以作为语义不符合逻辑的结果。
在确定第一识别结果中有第一识别模块未能识别出的数据时,可以将第一识别模块未能识别出的数据直接输出至其他识别模块,即将未能识别出的数据作为第二媒体数据,由其他识别模块中的一个或几个识别。
至少依据第一识别结果和第二识别结果获得媒体数据的识别结果,可以为:确定第一识别结果未能识别出的数据在第一识别结果中所处的位置,将第二识别结果放置入第一识别模块未能识别处的数据在第一识别结果中所处的位置,以获得媒体数据的识别结果。
例如:第一媒体数据为“Apple的复数是什么”,第一识别模块不能识别出“Apple”,就将“Apple”作为第二媒体数据输出,得到第二识别结果“苹果”,之后,将第一识别结果与第二识别结果结合,第一识别结果与第二识别结果结合时,首先确定出第一识别结果未能识别出的数据在第一识别结果中的位置,即“Apple”在第一识别结果中的位置,之后在识别出第二识别结果“苹果”之后,将“苹果”放置入第一识别结果中“Apple”所在的位置,即实现了第一识别结果与第二识别结果的结合,得到识别结果。
也可以为,在确定第一识别结果中有第一识别模块未能识别出的数据时,只要第一识别结果中有第一识别模块未能识别出的数据,就将完整的第一媒体数据输出至其他识别模块,即第一媒体数据与第二媒体数据或其他媒体数据相同。
又如:第一媒体数据为“Good的比较级是什么”,第一识别模块识别出的是“古德的比较级是什么”,属于不符合逻辑的语句,将第一媒体数据整体作为第二媒体数据输出至第二识别模块,得到第二识别结果。
另外,需要说明的是,确定第一识别结果中是否包括关键词,或,确定第一识别结果中是否包括第一识别模块未能识别出的数据,这一过程也可以为第一识别模块确定的,即由第一识别模块确定第一识别结果是否满足预设条件。
步骤S26、至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。
本实施例公开的处理方法,获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
本实施例公开了一种处理方法,其流程图如图3所示,包括:
步骤S31、获得媒体数据;
步骤S32、向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分;
步骤S33、如果确定第一识别结果中包括关键词,从多个候选关键词中确定第一识别结果中的关键词,从多个候选识别模块中确定对应关键词的至少一个第二识别模块;
步骤S34、向至少一个第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,其中,第二媒体数据是媒体数据的至少部分;
只要第一识别结果中包括有关键词,就表明第一识别模块需要由其他识别模块辅助才能实现对第一媒体数据的完整准确识别。
若后续关键词有多个,则与多个候选关键词对应的识别模块可能有一个,也可能有多个。当与多个候选关键词对应的识别模块有一个时,表明包括这多个候选关键词的媒体数据仅通过一个相同的识别模块就可以全部识别;当与多个候选关键词对应的识别模块有多个时,如:每一个候选关键词对应一个识别模块,那么,包括这多个候选关键词中的一个或多个关键词的媒体数据就需要对应的一个或多个识别模块进行识别。
具体的,若候选关键词中包括有能够表明语言种类的词汇,则根据该语言种类确定对应的识别模块。
在能够表明语言种类的词汇中,包括有:比较级、最高级、片假名、平假名、阴性、阳性、中性等。
比较级、最高级这样的词汇通常出现在英语或者法语中,片假名、平假名这样的词汇通常出现在日语中,阴性、阳性、中性这样的词汇通常出现在德语中,可以由此将候选关键词与多个识别模块对应,例如:比较级、最高级这样的词汇与英语识别模块及法语识别模块对应,片假名、平假名这样的词汇与日语识别模块对应,阴性、阳性、中性这样的词汇与德语识别模块对应。
例如:第一识别结果中的关键词为“比较级”,候选关键词中包括有“比较级”这一关键词,确定候选关键词中这一关键词对应的识别模块,如:第二识别模块,该第二识别模块可能为英语识别模块,也可能为法语识别模块,或者,直接确定两个不同的识别模块,一个为英语识别模块,一个为法语识别模块,从而保证了该媒体数据可以被准确识别。
另外,还可以为:若候选关键词中包括有指向性明确的词汇,则根据该指向性明确的词汇确定对应的识别模块。
指向性明确的关键词,可以为:日语、英语等词汇,当出现类似指向性明确的关键词时,直接将“日语”这一关键词与日语识别模块对应,将“英语”这一关键词与英语识别模块对应。
步骤S35、至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。
本实施例公开的处理方法,获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
本实施例公开了一种处理方法,其流程图如图4所示,包括:
步骤S41、获得媒体数据;
步骤S42、向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分;
步骤S43、如果第一识别结果中包括关键词,将第一媒体数据中处于关键词的预设位置处的数据确定为第二媒体数据;
若确定第一识别结果中包括关键词,则只需要根据预先设定的关键词的预设位置,确定在第一识别结果中关键词的预设位置处的词汇,将该词汇确定为第二媒体数据即可。
例如:第一媒体数据为“帮我预定Burj Al Arab酒店的房间”,第一识别模块对该第一媒体数据进行识别,得到的第一识别结果为“帮我预定XXX酒店的房间”,其中,关键词为“酒店”,而该关键词“酒店”的预设位置为其之前的预设个数的词汇,若该预设个数为3,则第二媒体数据为“Burj Al Arab”,通过第二识别模块对第二媒体数据进行识别。
进一步的,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果,可以为:确定第一识别结果中关键词的预设位置,将第二识别结果放置入第一识别结果中关键词的预设位置处,以获得媒体数据的识别结果。
其中,由于第二媒体数据是从第一识别结果中关键词的预设位置处获得的,那么,将对第二媒体数据进行识别得到的第二识别结果放置入该提取第二媒体数据的位置,即第一识别结果中关键词的预设位置处,即可实现第一识别结果与第二识别结果的结合。
以上述例子为例继续说明:第一识别结果为“帮我预定XXX酒店的房间”,关键词为“酒店”,关键词的预设位置处的词汇为“XXX”,将该关键词的预设位置处的词汇作为第二媒体数据,对该第二媒体数据识别得到第二识别结果“迪拜帆船酒店”,将第二识别结果“迪拜帆船酒店”放置入“XXX”在第一媒体数据中的位置处,用以替换“XXX”,则得到完整的识别结果。
在本方案中,第一媒体数据可以与媒体数据相同,另外,也可以不同,如:可以直接将“帮我预定XXX酒店的房间”中除“XXX”外的其他词汇组成的语句作为第一媒体数据,而在“XXX”位置处可以采用占用同等数量字符的空格表示。若采用第一媒体数据与媒体数据不同的方式,则需要首先对媒体数据进行一次判断,确定媒体数据中第一识别模块可以识别的词汇,将第一识别模块可以识别的词汇作为第一媒体数据。
步骤S44、向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果;
步骤S45、至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。
本实施例公开的处理方法,获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
本实施例公开了一种电子设备,其结果示意图如图5所示,包括:
处理器51及存储器52。
其中,处理器51用于获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分;向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,其中,第二媒体数据是媒体数据的至少部分;至少依据第一识别结果和第二识别结果获得媒体数据的识别结果;
存储器52用于存储第一识别结果、第二识别结果及识别结果。
电子设备执行“获得媒体数据”这一步骤时,可以为电子设备本身具备音频采集装置,通过音频采集装置采集音频数据,例如:麦克风;
另外,也可以为:电子设备具有通信装置,该通信装置与具有音频采集装置的设备进行通信,实现通过通信装置接收音频采集装置输出的媒体数据。
具体的,媒体数据可以为语音数据,也可以为歌曲数据。
在获得媒体数据之后,从中获取至少一部分媒体数据作为第一媒体数据,并将其发送至第一识别模块,由第一识别模块进行识别,之后获取第一识别模块的第一识别结果。
其中,第一识别模块进行识别可以具体为:第一识别模块对第一媒体数据的语义进行识别,以确定第一媒体数据所表达的内容的含义;另外,第一识别模块还可以对第一媒体数据的音色进行识别,以确定第一媒体数据的发出者的信息;还可以为:第一识别模块对第一媒体数据的音量进行识别,以根据该第一识别结果确定是否对该音量进行调节;另外,还可以为:第一识别模块可以分别或同时识别第一媒体数据的语义、音色或音量中的两种或三种。当然,第一识别模块也可以用来识别第一媒体数据的其他参数,在此不做具体限定。
在获得媒体数据之后,直接从中获取至少一部分媒体数据作为第二媒体数据,并将其发送至第二识别模块,由第二识别模块进行识别,之后获取第二识别模块的第二识别结果。
其中,第二识别模块进行识别可以具体为:第二识别模块对第二媒体数据的语义进行识别,以确定第二媒体数据所表达的内容的含义;另外,第二识别模块还可以对第二媒体数据的音色进行识别,以确定第二媒体数据的发出者的信息;还可以为:第二识别模块对第二媒体数据的音量进行识别,以根据该第二识别结果确定是否对该音量进行调节;另外,还可以为:第一识别模块可以分别或同时识别第一媒体数据的语义、音色或音量中的两种或三种。当然,第一识别模块也可以用来识别第一媒体数据的其他参数,在此不做具体限定。
其中,向第一识别模块输出第一媒体数据,与,向第二识别模块输出第二媒体数据,这两个过程可以同时进行,也可以依次进行;进一步的,第一识别模块识别第一媒体数据,与,第二识别模块识别第二媒体数据,这两个过程也可以同时进行,或者依次进行;获得第一媒体数据的第一识别结果,与,获得第二媒体数据的第二识别结果,可以同时进行,也可以依次进行。
另外,向第一识别模块输出的第一媒体数据,与向第二识别模块输出的第二媒体数据可以相同,也可以不同,即第一识别模块识别的第一媒体数据与第二识别模块识别的第二媒体数据可以相同,也可以不同。
进一步的,第一识别模块和第二识别模块可以识别媒体数据的相同参数,也可以识别媒体数据的不同参数。
例如:第一识别模块识别第一媒体数据的含义,第二识别模块识别第二媒体数据的音色;或者,第一识别模块识别第一媒体数据的含义,第二识别模块识别第二媒体数据的含义。
另外,第一识别模块和第二识别模块所识别的媒体数据可以为相同的媒体数据,也可以为不同的媒体数据,即第一媒体数据与第二媒体数据相同,或,第一媒体数据与第二媒体数据不同。
当不同的识别模块所识别的媒体数据相同或不同时,可以同时将相同或不同的媒体数据输出至不同的识别模块,使不同的识别模块同时对相同或不同的媒体数据进行识别,也可以为依次将相同或不同的媒体数据输出至不同的识别模块。
那么,第一识别模块所识别的媒体数据与参数可以与第二识别模块相同,也可以不同。
如:第一识别模块识别的是第一媒体数据的含义,第二识别模块识别的第二媒体数据与第一媒体数据相同,且也是识别的第一媒体数据的含义;或者,第一识别模块识别的是第一媒体数据的含义,第二识别模块识别的是第二媒体数据的含义,第一媒体数据与第二媒体数据不同;或者,第一识别模块识别的是第一媒体数据的含义,第二媒体数据识别的是第一媒体数据的音量;或者,第一识别模块识别的是第一媒体数据的含义,第二媒体数据识别的是第二媒体数据的音量等。
进一步的,第一媒体数据与第二媒体数据的总和可以为媒体数据,即媒体数据仅包括第一媒体数据及第二媒体数据,那么,第一媒体数据与第二媒体数据不同;媒体数据还可以包括除第一媒体数据及第二媒体数据外的其他媒体数据,如:第三媒体数据,那么,第一媒体数据、第二媒体数据及第三媒体数据均不相同;媒体数据还可以为第一媒体数据或第二媒体数据,即第一媒体数据与媒体数据相同,第二媒体数据仅是媒体数据中的一部分,或者,第二媒体数据与媒体数据相同,第一媒体数据仅是媒体数据的一部分;媒体数据还可以为与第一媒体数据及第二媒体数据均相同,即第一媒体数据和第二媒体数据均是完整的媒体数据,而并非是媒体数据的一部分。
当媒体数据包括除第一媒体数据及第二媒体数据外的其他媒体数据时,还需要用到其他识别模块,如:第三媒体数据及第三识别模块,第三识别模块与第二识别模块,甚至第一识别模块所识别的媒体数据的参数可以相同,可以不同,对应的第一媒体数据、第二媒体数据及第三媒体数据可以相同,也可以不同。
例如:第一媒体数据、第二媒体数据及第三媒体数据均不相同,第一识别模块、第二识别模块及第三识别模块所能够识别的媒体数据的参数也不相同,以第一识别模块、第二识别模块及第三识别模块分别识别其对应的媒体数据的含义,若第一媒体数据为中文语音,那么,第一识别模块用于对中文语音进行翻译,第二媒体数据为英文语音,那么第二识别模块用于对英文语音进行翻译,第三媒体数据为法语语音,那么第三识别模块用于对法语语音进行翻译,分别得到对应的翻译结果。
当然,识别模块并不限于有1个,2个或3个,还可以为多个,如:4个、5个等,在此不做具体限定。
当有两个识别模块时,对应的可以得到两个识别结果,对这两个识别结果进行分析,从而得到媒体数据的识别结果;当有三个识别模块时,对应的可以得到三个识别结果,对这三个识别结果进行分析,从而得到媒体数据的识别结果。
对至少两个识别结果进行分析,其分析的方式是与至少两个识别模块所识别的数据与参数相关的。
若至少两个识别模块中所有的识别模块所识别的数据均是相同的,即至少两个识别模块均用来识别媒体数据,并且,至少两个识别模块所识别的数据参数类型也是相同的,即均用来识别音量或音色等,那么,其分析过程是将至少两个识别模块得到的至少两个识别结果进行比对,从而确定识别结果;若至少两个识别模块中所有的识别模块所识别的数据均是相同,即至少两个识别模块均用来识别媒体数据,并且,至少两个识别模块所识别的数据参数类型是不同的,即分别用来识别不同的数据参数,那么,其分析过程是将至少两个识别模块得到的至少两个识别结果相结合,从而确定识别结果;若至少两个识别模块所识别的数据不同,且所识别的数据参数类型也不同相同,那么,其分析过程可能是将至少两个识别模块的至少两个识别结果相结合,也可以是至少两个模块所识别得到的至少两个识别结果之间没有关联,不进行结合及比对,直接输出。
具体的,当至少两个识别模块所识别的数据不同,且识别的参数也不同时,可以为:第一识别结果为第一识别模块识别的媒体数据的第一部分,第二识别结果为第二识别模块识别的媒体数据的第二部分,将第一部分与第二部分结合,以获得媒体数据的识别结果;
当至少两个识别模块所识别的数据相同,且识别的参数不同时,可以为:第一识别结果为第一识别模块识别的媒体数据的完整部分,第二识别结果为第二识别模块识别的媒体数据的完整部分,将第一识别结果与第二识别结果进行匹配,得到多语言综合匹配度排序,根据多语言综合匹配度排序确定媒体数据的识别结果。
以翻译媒体数据为例,将一句包括有中文及英文的媒体数据发送至第一识别模块及第二识别模块,当然也可以还包括其他识别模块,即第一识别模块接收的是该完整的媒体数据,第二识别模块接收的也是该完整的媒体数据,分别通过至少两个不同的识别模块对该完整的媒体数据进行识别,例如:分别通过两个不同的识别模块对“Apple是什么意思”进行识别,得到第一识别结果及第二识别结果,第一识别结果与第二识别结果均是对该完整媒体数据的完整翻译,对第一识别结果与第二识别结果进行匹配,确定出两个识别结果的匹配度。
若至少两个识别模块所翻译出的结果是相同的,则直接将该相同的结果确定为识别结果;若至少两个识别模块所翻译出的结果部分相同,则可以直接确定相同的部分,而对于不同的部分则可以继续通过其它识别模块进行识别,从而得到相似度最大的翻译结果;也可以为查找翻译记录,将翻译准确度最高的识别模块所识别出的结果作为最终的识别结果;还可以为:确定不同的识别模块翻译不同语言时的准确度,根据其准确度确定识别结果,即确定不同的识别模块翻译准确度最高的语言,将该识别模块对媒体数据中该语言部分的翻译结果作为该语言部分的识别结果,之后结合得到完整的识别结果。
如:第一识别模块翻译中文时其准确度最高,第二识别模块翻译英文时其准确度最高,则将第一识别结果中对中文部分的媒体数据的翻译结果作为中文部分的识别结果,将第二识别结果中对英文部分的媒体数据的翻译结果作为英文部分的识别结果,将这两个识别结果相结合,得到完整的识别结果。
其中,处理器51向第二识别模块输出第二媒体数据,包括:
处理器51确定第一识别结果是否满足预设条件,如果第一识别结果满足预设条件,确定第二媒体数据,向第二识别模块输出第二媒体数据。
首先将第一媒体数据输出至第一识别模块,直至第一识别模块得到第一识别结果,之后,再根据对第一识别结果的分析确定是否将第二媒体数据输出至第二识别模块。本方案中并非是同时将相应的媒体数据发送至识别模块的,而是有先后顺序的,并且,该先后顺序还是以第一识别模块的第一识别结果为依据的。
当第一识别结果满足预设条件时,才能确定出需要输出至第二识别模块的第二媒体数据,之后再向第二识别模块输出,即是否会有第二媒体数据也是与第一识别结果相关的。
在本方案中,输出至第一识别模块的第一媒体数据可以与媒体数据相同,也可以与媒体数据不同,优选的,第一媒体数据与媒体数据相同,将媒体数据输出至第一识别模块,由第一识别模块对该完整的媒体数据进行识别,当确定媒体数据满足预设条件时,才确定第二媒体数据输出至第二识别模块;若媒体数据不满足预设条件,则无需确定第二媒体数据,也就无需传输数据至第二识别模块。
当第一媒体数据满足预设条件时,表明第一识别模块不能准确或不能完整的识别该第一媒体数据,此时需要其他识别模块辅助或共同识别才可完成对媒体数据的识别。当第一媒体数据不满足预设条件时,表明该第一识别模块可以将第一媒体数据完整准确识别,而不需要借助其他识别模块辅助或共同识别。
具体的,预设条件可以包括:第一识别结果中包括关键词,即只有第一识别结果中包括关键词时,才能确定出第二媒体数据。
具体的,该关键词可以为:能够表明第一媒体数据或媒体数据中有其他类型的语言的关键词。
其他类型的语言可以为:不同语种,或,特定类型的语言词汇,其中,特定类型的语言词汇,可以为:指定场景的词汇,如:指定地点的词汇,指定人或物的词汇,指定应用程序的词汇,或指定网页的词汇等。其中,指定地点的词汇,可以为:酒店,景区等;指定人或物的词汇,可以为:可爱,身体;指定应用程序的词汇,可以为:运行,卸载,升级,启动等;指定网页的词汇,可以为:网站,刷新等。
例如:帮我预定Burj Al Arab酒店的房间,其中,“酒店”可以被确定为指定场景,当确定该第一媒体数据中有指定场景的词汇,确定第二媒体数据,其中,第二媒体数据可以为“帮我预定Burj Al Arab酒店的房间”,也可以为“Burj Al Arab”,将第二媒体数据输出至第二识别模块,当第二媒体数据是“帮我预定Burj Al Arab酒店的房间”时,识别结果为第一识别结果与第二识别结果比对确定的结果,其中,第一识别结果为“帮我预定XXX酒店的房间”,第二识别结果可以为包括有“迪拜帆船酒店”这一特定名称的语句,此时,第二识别模块用于对第二媒体数据进行翻译;第二识别结果还可以为搜索到的与“Burj Al Arab”相关的数据或网页,此时,第二识别模块用于对第二媒体数据进行翻译。当然,第二识别模块还可以对第二媒体数据进行其他识别操作,在此不做具体限定。
将第一识别结果与第二识别结果比对,若第二识别模块对第二媒体数据进行翻译,则可得到最终的识别结果为“帮我预定迪拜帆船酒店的房间”;若第二识别模块对第二媒体数据进行相关搜索,则可得到最终的识别结果为第一识别结果与第二识别结果的结合,即“帮我预定XXX酒店的房间”以及“Burj Al Arab”的相关内容。
以第二识别模块对第二媒体数据进行翻译为例,当第二媒体数据是“BurjAlArab”时,识别结果为第一识别结果与第二识别结果结合得到的结果,第一识别结果为“帮我预定XXX酒店的房间”,此时可确定第一识别结果中“XXX”可能为第二语言的词汇,因此,将“Burj Al Arab”作为第二媒体数据进行输出,那么,第二识别结果仅包括“迪拜帆船酒店”这一特定名称,可以得到最终的识别结果为“帮我预定迪拜帆船酒店的房间”。
另外,该关键词还可以为:第一识别结果中包括第一识别模块未能识别出的数据。
其中,第一识别模块未能识别出的数据可以包括:得不到结果或者得到语义不符合逻辑的结果的数据。
例如:第一识别模块仅能识别中文语句,若其中包括如“Apple”这样的英文词汇,则不能识别;或者,“古德的比较级是什么”,可以作为语义不符合逻辑的结果。
在确定第一识别结果中有第一识别模块未能识别出的数据时,可以将第一识别模块未能识别出的数据直接输出至其他识别模块,即将未能识别出的数据作为第二媒体数据,由其他识别模块中的一个或几个识别。
至少依据第一识别结果和第二识别结果获得媒体数据的识别结果,可以为:确定第一识别结果未能识别出的数据在第一识别结果中所处的位置,将第二识别结果放置入第一识别模块未能识别处的数据在第一识别结果中所处的位置,以获得媒体数据的识别结果。
例如:第一媒体数据为“Apple的复数是什么”,第一识别模块不能识别出“Apple”,就将“Apple”作为第二媒体数据输出,得到第二识别结果“苹果”,之后,将第一识别结果与第二识别结果结合,第一识别结果与第二识别结果结合时,首先确定出第一识别结果未能识别出的数据在第一识别结果中的位置,即“Apple”在第一识别结果中的位置,之后在识别出第二识别结果“苹果”之后,将“苹果”放置入第一识别结果中“Apple”所在的位置,即实现了第一识别结果与第二识别结果的结合,得到识别结果。
也可以为,在确定第一识别结果中有第一识别模块未能识别出的数据时,只要第一识别结果中有第一识别模块未能识别出的数据,就将完整的第一媒体数据输出至其他识别模块,即第一媒体数据与第二媒体数据或其他媒体数据相同。
又如:第一媒体数据为“Good的比较级是什么”,第一识别模块识别出的是“古德的比较级是什么”,属于不符合逻辑的语句,将第一媒体数据整体作为第二媒体数据输出至第二识别模块,得到第二识别结果。
另外,需要说明的是,确定第一识别结果中是否包括关键词,或,确定第一识别结果中是否包括第一识别模块未能识别出的数据,这一过程也可以为第一识别模块确定的,即由第一识别模块确定第一识别结果是否满足预设条件。
其中,若预设条件为第一识别结果中包括关键词,处理器51向第二识别模块输出第二媒体数据,包括:
从多个候选关键词中确定第一识别结果中的关键词,从多个候选识别模块中确定对应的关键词的至少一个第二识别模块,向至少一个第二识别模块输出第二媒体数据。
只要第一识别结果中包括有关键词,就表明第一识别模块需要由其他识别模块辅助才能实现对第一媒体数据的完整准确识别。
若后续关键词有多个,则与多个候选关键词对应的识别模块可能有一个,也可能有多个。当与多个候选关键词对应的识别模块有一个时,表明包括这多个候选关键词的媒体数据仅通过一个相同的识别模块就可以全部识别;当与多个候选关键词对应的识别模块有多个时,如:每一个候选关键词对应一个识别模块,那么,包括这多个候选关键词中的一个或多个关键词的媒体数据就需要对应的一个或多个识别模块进行识别。
具体的,若候选关键词中包括有能够表明语言种类的词汇,则根据该语言种类确定对应的识别模块。
在能够表明语言种类的词汇中,包括有:比较级、最高级、片假名、平假名、阴性、阳性、中性等。
比较级、最高级这样的词汇通常出现在英语或者法语中,片假名、平假名这样的词汇通常出现在日语中,阴性、阳性、中性这样的词汇通常出现在德语中,可以由此将候选关键词与多个识别模块对应,例如:比较级、最高级这样的词汇与英语识别模块及法语识别模块对应,片假名、平假名这样的词汇与日语识别模块对应,阴性、阳性、中性这样的词汇与德语识别模块对应。
例如:第一识别结果中的关键词为“比较级”,候选关键词中包括有“比较级”这一关键词,确定候选关键词中这一关键词对应的识别模块,如:第二识别模块,该第二识别模块可能为英语识别模块,也可能为法语识别模块,或者,直接确定两个不同的识别模块,一个为英语识别模块,一个为法语识别模块,从而保证了该媒体数据可以被准确识别。
另外,还可以为:若候选关键词中包括有指向性明确的词汇,则根据该指向性明确的词汇确定对应的识别模块。
指向性明确的关键词,可以为:日语、英语等词汇,当出现类似指向性明确的关键词时,直接将“日语”这一关键词与日语识别模块对应,将“英语”这一关键词与英语识别模块对应。
其中,若预设条件为:第一识别结果中包括关键词,则处理器51确定第二媒体数据,包括:
处理器51将第一媒体数据中处于关键词的预设位置处的数据确定为第二媒体数据。
若确定第一识别结果中包括关键词,则只需要根据预先设定的关键词的预设位置,确定在第一识别结果中关键词的预设位置处的词汇,将该词汇确定为第二媒体数据即可。
例如:第一媒体数据为“帮我预定Burj Al Arab酒店的房间”,第一识别模块对该第一媒体数据进行识别,得到的第一识别结果为“帮我预定XXX酒店的房间”,其中,关键词为“酒店”,而该关键词“酒店”的预设位置为其之前的预设个数的词汇,若该预设个数为3,则第二媒体数据为“Burj Al Arab”,通过第二识别模块对第二媒体数据进行识别。
进一步的,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果,可以为:确定第一识别结果中关键词的预设位置,将第二识别结果放置入第一识别结果中关键词的预设位置处,以获得媒体数据的识别结果。
其中,由于第二媒体数据是从第一识别结果中关键词的预设位置处获得的,那么,将对第二媒体数据进行识别得到的第二识别结果放置入该提取第二媒体数据的位置,即第一识别结果中关键词的预设位置处,即可实现第一识别结果与第二识别结果的结合。
以上述例子为例继续说明:第一识别结果为“帮我预定XXX酒店的房间”,关键词为“酒店”,关键词的预设位置处的词汇为“XXX”,将该关键词的预设位置处的词汇作为第二媒体数据,对该第二媒体数据识别得到第二识别结果“迪拜帆船酒店”,将第二识别结果“迪拜帆船酒店”放置入“XXX”在第一媒体数据中的位置处,用以替换“XXX”,则得到完整的识别结果。
在本方案中,第一媒体数据可以与媒体数据相同,另外,也可以不同,如:可以直接将“帮我预定XXX酒店的房间”中除“XXX”外的其他词汇组成的语句作为第一媒体数据,而在“XXX”位置处可以采用占用同等数量字符的空格表示。若采用第一媒体数据与媒体数据不同的方式,则需要首先对媒体数据进行一次判断,确定媒体数据中第一识别模块可以识别的词汇,将第一识别模块可以识别的词汇作为第一媒体数据。
本实施例公开的电子设备,处理器用于获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
本实施例公开了一种处理装置,其结构示意图如图6所示,包括:
第一获得单元61,第一结果获取单元62,第二结果获取单元63及第二获得单元64。
其中,第一获得单元61,用于获得媒体数据;
第一结果获取单元62,用于向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分;
第二结果获取单元63,用于向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,其中,第二识别结果是媒体数据的至少部分;
第二获得单元64,用于至少依据所述第一识别结果和所述第二识别结果获得媒体数据的识别结果。
本实施例公开的处理装置应用上述实施例所公开的处理方法,在此不再赘述。
本实施例公开的处理装置,处理器用于获得媒体数据,向第一识别模块输出第一媒体数据,并获得第一媒体数据的第一识别结果,其中,第一媒体数据是媒体数据的至少部分,向第二识别模块输出第二媒体数据,并获得第二媒体数据的第二识别结果,第二媒体数据是媒体数据的至少部分,至少依据第一识别结果和第二识别结果获得媒体数据的识别结果。本方案中,分别通过第一识别模块及第二识别模块对媒体数据进行识别,实现了对混合语言的识别,提高了用户体验。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种处理方法,包括:
获得媒体数据;
向第一识别模块输出第一媒体数据,并获得所述第一媒体数据的第一识别结果,其中,所述第一媒体数据是所述媒体数据的至少部分;
向第二识别模块输出第二媒体数据,并获得所述第二媒体数据的第二识别结果,其中,所述第二媒体数据是所述媒体数据的至少部分;
至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果。
2.根据权利要求1所述的方法,其中,所述向第二识别模块输出第二媒体数据,包括:
确定所述第一识别结果是否满足预设条件;
如果所述第一识别结果满足预设条件,确定第二媒体数据;
向所述第二识别模块输出所述第二媒体数据。
3.根据权利要求2所述的方法,其中,所述预设条件,包括:
所述第一识别结果中包括关键词;
或,
所述第一识别结果中包括所述第一识别模块未能识别出的数据。
4.根据权利要求3所述的方法,其中,若所述预设条件为所述第一识别结果中包括关键词,所述向所述第二识别模块输出第二媒体数据,包括:
从多个候选关键词中确定所述第一识别结果中的关键词,从多个候选识别模块中确定对应所述关键词的至少一个第二识别模块;
向所述至少一个第二识别模块输出所述第二媒体数据。
5.根据权利要求3所述的方法,其中,
若所述预设条件包括:所述第一识别结果中包括关键词,则所述确定第二媒体数据,包括:
将所述第一媒体数据中处于所述关键词的预设位置处的数据确定为第二媒体数据;
或,
若所述预设条件包括:所述第一识别结果中包括所述第一识别模块未能识别出的数据,则所述确定第二媒体数据,包括:
将所述第一识别模块未能识别出的数据确定为第二媒体数据。
6.根据权利要求5所述的方法,其中,
若所述预设条件包括:所述第一识别结果中包括关键词,则所述至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果,包括:
确定所述第一识别结果中所述关键词的预设位置;
将所述第二识别结果放置入所述第一识别结果中所述关键词的预设位置处,以获得所述媒体数据的识别结果;
或,
若所述预设条件包括:所述第一识别结果中包括所述第一识别模块未能识别出的数据,则所述至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果,包括:
确定所述第一识别模块未能识别出的数据在所述第一识别结果中所处的位置;
将所述第二识别结果放置入所述第一识别模块未能识别出的数据在所述第一识别结果中所处的位置,以获得所述媒体数据的识别结果。
7.根据权利要求1所述的方法,其中,所述媒体数据、所述第一媒体数据及所述第二媒体数据相同。
8.根据权利要求7所述的方法,其中,所述至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果,包括:
所述第一识别结果为所述第一识别模块识别的所述媒体数据的第一部分,所述第二识别结果为所述第二识别模块识别的所述媒体数据的第二部分,将所述第一部分与所述第二部分结合,以获得所述媒体数据的识别结果;
或,
所述第一识别结果为所述第一识别模块识别的所述媒体数据的完整部分,所述第二识别结果为所述第二识别模块识别的所述媒体数据的完整部分,将所述第一识别结果与所述第二识别结果进行匹配,得到多语言综合匹配度排序;
根据所述多语言综合匹配度排序确定所述媒体数据的识别结果。
9.一种电子设备,包括:
处理器,所述处理器用于获得媒体数据,向第一识别模块输出第一媒体数据,并获得所述第一媒体数据的第一识别结果,其中,所述第一媒体数据是所述媒体数据的至少部分;向第二识别模块输出第二媒体数据,并获得所述第二媒体数据的第二识别结果,其中,所述第二媒体数据是所述媒体数据的至少部分;至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果;
存储器,所述存储器用于存储所述第一识别结果、所述第二识别结果及所述识别结果。
10.一种处理装置,包括:
第一获得单元,用于获得媒体数据;
第一结果获取单元,用于向第一识别模块输出第一媒体数据,并获得所述第一媒体数据的第一识别结果,其中,所述第一媒体数据是所述媒体数据的至少部分;
第二结果获取单元,用于向第二识别模块输出第二媒体数据,并获得所述第二媒体数据的第二识别结果,其中,所述第二识别结果是所述媒体数据的至少部分;
第二获得单元,用于至少依据所述第一识别结果和所述第二识别结果获得所述媒体数据的识别结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644602.5A CN109712607B (zh) | 2018-12-30 | 2018-12-30 | 一种处理方法、装置及电子设备 |
US16/730,161 US20200211533A1 (en) | 2018-12-30 | 2019-12-30 | Processing method, device and electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644602.5A CN109712607B (zh) | 2018-12-30 | 2018-12-30 | 一种处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109712607A true CN109712607A (zh) | 2019-05-03 |
CN109712607B CN109712607B (zh) | 2021-12-24 |
Family
ID=66259708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811644602.5A Active CN109712607B (zh) | 2018-12-30 | 2018-12-30 | 一种处理方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200211533A1 (zh) |
CN (1) | CN109712607B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627432A (zh) * | 2020-04-21 | 2020-09-04 | 升智信息科技(南京)有限公司 | 主动式外呼智能语音机器人多语种交互方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050096913A1 (en) * | 2003-11-05 | 2005-05-05 | Coffman Daniel M. | Automatic clarification of commands in a conversational natural language understanding system |
WO2010061507A1 (ja) * | 2008-11-28 | 2010-06-03 | 日本電気株式会社 | 言語モデル作成装置 |
CN103038816A (zh) * | 2010-10-01 | 2013-04-10 | 三菱电机株式会社 | 声音识别装置 |
CN104282302A (zh) * | 2013-07-04 | 2015-01-14 | 三星电子株式会社 | 用于识别语音和文本的设备和方法 |
WO2015024431A1 (en) * | 2013-08-19 | 2015-02-26 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for performing speech keyword retrieval |
CN106126714A (zh) * | 2016-06-30 | 2016-11-16 | 联想(北京)有限公司 | 信息处理方法及信息处理装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7502737B2 (en) * | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
WO2004049110A2 (en) * | 2002-11-22 | 2004-06-10 | Transclick, Inc. | Language translation system and method |
JP2005025478A (ja) * | 2003-07-01 | 2005-01-27 | Fujitsu Ltd | 情報検索方法、情報検索プログラムおよび情報検索装置 |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9959865B2 (en) * | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
US20170345270A1 (en) * | 2016-05-27 | 2017-11-30 | Jagadish Vasudeva Singh | Environment-triggered user alerting |
US10114819B2 (en) * | 2016-06-24 | 2018-10-30 | Facebook, Inc. | Optimizing machine translations for user engagement |
KR20180070970A (ko) * | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
CN108509416B (zh) * | 2018-03-20 | 2022-10-11 | 京东方科技集团股份有限公司 | 句意识别方法及装置、设备和存储介质 |
US10565229B2 (en) * | 2018-05-24 | 2020-02-18 | People.ai, Inc. | Systems and methods for matching electronic activities directly to record objects of systems of record |
-
2018
- 2018-12-30 CN CN201811644602.5A patent/CN109712607B/zh active Active
-
2019
- 2019-12-30 US US16/730,161 patent/US20200211533A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050096913A1 (en) * | 2003-11-05 | 2005-05-05 | Coffman Daniel M. | Automatic clarification of commands in a conversational natural language understanding system |
WO2010061507A1 (ja) * | 2008-11-28 | 2010-06-03 | 日本電気株式会社 | 言語モデル作成装置 |
CN103038816A (zh) * | 2010-10-01 | 2013-04-10 | 三菱电机株式会社 | 声音识别装置 |
CN104282302A (zh) * | 2013-07-04 | 2015-01-14 | 三星电子株式会社 | 用于识别语音和文本的设备和方法 |
WO2015024431A1 (en) * | 2013-08-19 | 2015-02-26 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for performing speech keyword retrieval |
CN106126714A (zh) * | 2016-06-30 | 2016-11-16 | 联想(北京)有限公司 | 信息处理方法及信息处理装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627432A (zh) * | 2020-04-21 | 2020-09-04 | 升智信息科技(南京)有限公司 | 主动式外呼智能语音机器人多语种交互方法及装置 |
WO2021212929A1 (zh) * | 2020-04-21 | 2021-10-28 | 升智信息科技(南京)有限公司 | 主动式外呼智能语音机器人多语种交互方法及装置 |
CN111627432B (zh) * | 2020-04-21 | 2023-10-20 | 升智信息科技(南京)有限公司 | 主动式外呼智能语音机器人多语种交互方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109712607B (zh) | 2021-12-24 |
US20200211533A1 (en) | 2020-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
CN108447471B (zh) | 语音识别方法及语音识别装置 | |
CN104143329B (zh) | 进行语音关键词检索的方法及装置 | |
CN107945792B (zh) | 语音处理方法和装置 | |
US9564127B2 (en) | Speech recognition method and system based on user personalized information | |
CN110210029A (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
US7840399B2 (en) | Method, device, and computer program product for multi-lingual speech recognition | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CN110970021B (zh) | 一种问答控制方法、装置及系统 | |
CN103559880B (zh) | 语音输入系统和方法 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN111178081A (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN111062221A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
EP3241123B1 (en) | Voice recognition-based dialing | |
CN113535925A (zh) | 语音播报方法、装置、设备及存储介质 | |
CN109712607A (zh) | 一种处理方法、装置及电子设备 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
WO2007105615A1 (ja) | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム | |
CN111916062A (zh) | 语音识别方法、装置和系统 | |
CN108831473B (zh) | 一种音频处理方法及装置 | |
CN109255131B (zh) | 翻译方法、装置、终端及存储介质 | |
CN113763947A (zh) | 一种语音意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |