CN110770819A - 语音识别系统和方法 - Google Patents
语音识别系统和方法 Download PDFInfo
- Publication number
- CN110770819A CN110770819A CN201880039823.1A CN201880039823A CN110770819A CN 110770819 A CN110770819 A CN 110770819A CN 201880039823 A CN201880039823 A CN 201880039823A CN 110770819 A CN110770819 A CN 110770819A
- Authority
- CN
- China
- Prior art keywords
- parameter
- determining
- information
- location
- recognition results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 230000000875 corresponding effect Effects 0.000 claims description 186
- 238000003860 storage Methods 0.000 claims description 64
- 238000006243 chemical reaction Methods 0.000 claims description 36
- 230000004048 modification Effects 0.000 claims description 26
- 238000012986 modification Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 22
- 230000000737 periodic effect Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
Abstract
提供了用于语音识别的系统和方法。所述方法可以包括获得由用户发出的语音信息的至少两个候选识别结果和与至少两个候选识别结果分别对应的至少两个初步分数。所述方法可以进一步包括对于至少两个候选识别结果中的每一个,从候选识别结果中提取一个或多个关键词汇,并且确定与一个或多个提取的关键词汇有关的至少一个参数。所述方法可以进一步包括针对至少两个候选识别结果中的每一个,基于所述至少一个参数生成更新系数,并基于更新系数更新初步分数以生成更新分数。所述方法可以进一步包括从至少两个候选识别结果中基于至少两个更新分数确定目标识别结果。
Description
相关申请的交叉引用
本申请要求于2017年6月15日提交的申请号为201710451642.7的中国专利,以及于2017年6月20日提交的申请号为201710469290.8的中国专利的优先权,上述申请的内容通过引用分别被包含于此。
技术领域
本申请总体上涉及语音信息处理,尤其涉及用于语音识别的方法和系统。
背景技术
随着计算机技术的发展,人机交互越来越受欢迎。人机交互的基本要求是计算机应该理解用户提供的信息。随着声学模型和语音识别技术(如自动语音识别(ASR)技术)的发展,由于语音信息的便利性,语音信息通常是用户与计算机交互的首选。然而,目前的语音识别方法通常是单轮识别,语音信息仅转换为一种可能的识别结果。换句话说,不同场景下不同人提供的语音信息可能会被认为是相同的结果,只能匹配一个或几个人的真实意图。例如,“我想订一个高桌晚宴”的语音信息可以被认为是购买特定桌子的指令,而用户实际上想在餐馆预定正式晚餐。错误识别结果通常不会被纠正并直接显示给用户。在计算机可以准确理解他/她的意思之前,用户可能需要多次重述他的话。使用目前的语音识别方法的这种经历既不容易也不愉快。因此,希望提供用于更精确和更有效地识别语音信息的系统和方法。
发明内容
根据本申请的一个方面,提供了一种用于语音识别的方法。所述方法可以在具有至少一个存储设备的计算设备上实现,所述存储设备存储用于语音识别的指令集,所述计算设备还含有以通信方式连接到网络的数据交换端口,以及与所述至少一个存储设备和数据交换端口通信的至少一个处理器。所述方法可以包括获取由用户发出的语音信息的至少两个候选识别结果和与所述至少两个候选识别结果分别对应的至少两个初步分数。所述方法可以进一步包括,针对至少两个候选识别结果中的每一个,从候选识别结果中提取一个或多个关键词汇,并且确定与一个或多个提取的关键词汇关联的至少一个参数。所述方法可以进一步包括:针对至少两个候选识别结果中的每一个,基于至少一个参数生成更新系数,并基于更新系数更新初步分数以生成更新分数。所述方法可以进一步包括基于来自至少两个候选识别结果的至少两个更新分数来确定目标识别结果。
在一些实施例中,确定与一个或多个提取的关键词汇关联的至少一个参数可以包括经由数据交换端口从数据库获取至少两个样本关键词汇。对于所提取的所述一个或多个关键词汇中的每一个,确定与所述一个或多个提取的关键词汇相关联的至少一个参数可以进一步包括确定所述一个或多个提取的关键词汇中的每一个与所述至少两个样本关键词汇中的每一个之间的匹配度,从所述至少两个样本关键词汇中确定所述一个或多个目标样本关键词汇,所述一个或多个目标样本关键词汇中的每一个与所述提取的关键词汇之间的匹配度可以高于匹配度阈值。确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数可以进一步包括基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数。
在一些实施例中,所述至少一个参数可以包括检索参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数可以包括基于所述一个或多个目标样本关键词汇和所述一个或多个提取的关键词汇之间的所述匹配度确定检索参数。
在一些实施例中,所述至少一个参数可以包括热度参数,并且基于所述一个或多个目标样本关键词汇来确定与所述一个或多个提取的关键词汇相关联的至少一个参数可以包括获取所述一个或多个目标样本关键词汇的热度,并根据所述一个或多个目标样本关键词汇的热度确定热度参数。
在一些实施例中,所述至少一个参数可以包括偏好参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇关联的所述至少一个参数,可以包括获取所述用户对于所述一个或多个目标样本词汇的偏好度,并基于所述一个或多个目标样本关键词汇的偏好度确定偏好参数。
在一些实施例中,所述至少一个参数可以包括距离参数,基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇关联的所述至少一个参数可以包括获取与所述一个或多个目标样本关键词汇关联的位置信息,并识别候选识别结果中一个或多个位置类型指示词。对于紧接在所述一个或多个所识别的位置类型指示词之后的所述一个或多个提取的关键词汇中的每一个,基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇关联的所述至少一个参数,可以进一步包括基于相应的位置类型指示词来确定所提取的关键词汇的位置类型,以及基于与所述一个或多个目标样本关键词汇关联的位置信息以关联的所述位置信息及所述一个或多个提取的关键词汇的每一个关键词汇的位置类型,与所述一个或多个提取的关键词汇关联的距离信息。基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇关联的所述至少一个参数,可以进一步包括基于距离信息确定距离参数。
在一些实施例中,所述方法进一步包括获取第一数量的出行次数,所述第一数量的出行次数与在统计时间段中与至少一个出行方式中的每一个出行方式关联的所述距离信息相对应,以及确定与在统计时间段内所有所述至少一个出行方式关联的距离信息相对应的第二数量的出行次数。所述方法可以进一步包括,对于所述至少一个出行方式中的每一个,基于所述第一数量的出行次数和所述第二数量的出行次数确定出行方式的使用概率,并且获取与语音信息关联的出行方式。所述方法可以进一步包括基于使用与所述语音信息关联的出行方式的概率来确定距离参数。
在一些实施例中,所述至少一个参数可以包括热度参数、偏好参数、检索参数或距离参数中的至少一个。基于所述至少一个参数生成更新系数可以包括基于所述热度参数、所述偏好参数和所述检索参数生成所述更新系数,或者基于所述距离参数和所述检索参数生成所述更新系数。
在一些实施例中,所述目标识别结果可以包括出发位置或目的地,并且所述方法可以进一步包括基于目标识别结果生成服务请求。
在一些实施例中,所述方法可以进一步包括将所述服务请求发送到与服务供应商关联的用户终端。
根据本申请的另一方面,提供了一种用于语音识别的系统。所述系统可以包括至少一个存储设备,所述存储设备包括一组指令,所述系统可以进一步包括以通信方式连接到网络的数据交换端口以及与所述至少一个存储设备和所述数据交换端口通信的至少一个处理器。所述至少一个处理器可以被配置为执行所述指令集,并且被指导为使所述系统获取由用户发出的语音信息的至少两个候选识别结果以及与所述至少两个候选识别结果分别对应的至少两个初步分数。所述至少一个处理器可以进一步被指导为使所述系统针对所述至少两个候选识别结果中的每一个候选识别结果,从所述候选识别结果中提取一个或多个关键词汇,确定与所述一个或多个提取的关键词汇关联的至少一个参数,基于所述至少一个参数生成更新系数,并基于更新系数更新初步分数以生成更新分数。所述至少一个处理器可以进一步被指导为使所述系统从所述至少两个候选识别结果中基于所述至少两个更新分数确定目标识别结果。
根据本申请的另一方面,提供了一种非暂时性计算机可读介质。所述非暂时性计算机可读介质可以包括用于语音识别的一组指令。当由至少一个处理器执行时,该组指令可以指导至少一个处理器实现方法。所述方法可以包括获取由用户发出的语音信息的至少两个候选识别结果和与至少两个候选识别结果分别对应的至少两个初步分数。所述方法可以进一步包括,对于所述至少两个候选识别结果中的每一个,从所述候选识别结果中提取一个或多个关键词汇,确定与所述一个或多个提取的关键词汇关联的所述至少一个参数,基于所述至少一个参数生成更新系数,并基于所述更新系数更新初步分数以生成更新分数。所述方法可以进一步包括从至少两个候选识别结果中基于至少两个更新分数确定目标识别结果。
根据本申请的另一方面,提供了一种用于语音识别的方法。所述方法可以在具有至少一个存储设备的计算设备上实现,所述存储设备存储一组用于语音识别的指令,所述计算设备具有与所述至少一个存储设备通信的处理器。所述方法可以包括获取由当前用户提供的语音信息的至少两个候选识别结果和至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述候选识别结果中的一个。所述方法可以进一步包括基于预定关键词汇提取规则,从所述至少两个候选识别结果中的每一个中提取预设类型的一个或多个关键词汇。所述方法可以进一步包括基于提取的所述一个或多个关键词汇,来修正与所述至少两个候选识别结果中的每一个相对应的初步分数,并且基于所述修正的结果来确定语音信息的目标识别结果。
在一些实施例中,基于所述一个或多个提取的关键词汇修正与所述至少两个候选识别结果中的每一个相对应的初步分数,可以包括基于所提取的所述一个或多个关键词汇与预设样本数据库中的至少两个样本关键词汇之间的相似度,确定具有提取的所述一个或多个提取的关键词汇的至少两个候选识别结果中的每一个的更新系数。基于所述一个或多个提取的关键词汇来修正与所述至少两个候选识别结果中的每一个相对应的所述初步分数,可以进一步包括基于所述更新系数更新与所述至少两个候选识别结果中的每一个相对应的所述初步分数,以生成对应于所述至少两个候选识别结果中的每一个的更新分数。
在一些实施例中,所述预设样本数据库可以进一步包括所述至少两个样本关键词汇的热度信息或当前用户使用所述至少两个样本关键词汇的历史信息中的至少一个。
在一些实施例中,所述预设样本数据库可以进一步包括至少两个样本关键词汇的热度信息。基于提取的所述一个或多个关键词汇与预设样本数据库中的至少两个样本关键词汇之间的相似度,来确定具有所述一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数,可以包括确定所述一个或多个提取的关键词汇和所述至少两个样本关键词汇的相似度,从所述至少两个样本关键词汇中选择一个或多个样本关键词汇,根据热度信息和热度参数之间的第一转换关系,将选择的所述一个或多个样本关键词汇的热度信息转换为一个或多个热度参数,并基于所述一个或多个热度参数确定具有所述一个或多个提取的关键词汇的至少两个候选识别结果中的每一个的更新系数。所述一个或多个提取的关键词汇与所述一个或多个选择的样本关键词汇之间的相似度可以大于相似度阈值。
在一些实施例中,所述至少两个样本关键词汇的热度信息可以包括对应于所述至少两个周期性统计时间段的所述至少两个样本关键词汇的至少两个热度。根据所述热度信息与热度参数的第一转换关系,将所选择的一个或多个样本关键词汇的热度信息转换为一个或多个热度参数,包括确定当前时间所属的统计时间段,从与所述至少两个周期性统计时间段对应的所述一个或多个选择的样本关键词汇的热度中,选择与所述统计时间段对应的一个或多个热度,以及根据所述热度和所述热度参数之间的第二转换关系,将所述一个或多个热度转换为所述至少两个候选识别结果中的每一个的一个或多个热度参数。
在一些实施例中,预设样本数据库可以进一步包括至少两个样本关键词汇的热度信息和当前用户使用至少两个样本关键词汇的历史信息。基于提取的所述一个或多个关键词汇与所述预设样本数据库中的至少两个样本关键词汇之间的相似度,来确定具有一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数,可以包括确定所述一个或多个提取的关键词汇和所述至少两个样本关键词汇的相似度,根据相似度和检索参数之间的第三转换关系将所述相似度转换为检索参数,根据相似度和偏好参数之间的第四转换关系将所述相似度转换为偏好参数,以及基于所述相似度、所述至少两个样本关键词汇的所述热度信息以及热度信息与热度参数之间的第一转换关系来确定热度参数。基于提取的所述一个或多个关键词汇与所述预设样本数据库中的所述至少两个样本关键词汇之间的所述相似度,确定具有一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数,可以进一步包括通过将所述检索参数加上或乘以所述偏好参数和所述热度参数之间的较高值,来获取具有所述一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数。对于相同的相似度,根据相似度和偏好参数之间的第四转换关系转换的偏好参数,可以大于基于热度信息和热度参数之间的第一转换关系确定的热度参数。
根据本申请的另一方面,提供了一种用于语音识别的设备。所述设备可以包括至少一个存储设备,所述存储设备包括一组指令,以及所述设备可以包括与所述至少一个存储设备通信的至少一个处理器。所述至少一个处理器可以被配置为执行该组指令。所述至少一个处理器可以包括信息获取模块,被配置为获取当前用户提供的语音信息的至少两个候选识别结果以及至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述候选识别结果中的一个。所述至少一个处理器可以进一步包括信息提取模块,所述信息提取模块被配置为基于预定关键词汇提取规则从所述至少两个候选识别结果中的每一个候选识别结果中,提取预设类型的一个或多个关键词汇。所述至少一个处理器可以进一步包括结果确定模块,被配置为基于所述一个或多个提取的关键词汇修正与所述至少两个候选识别结果中的每一个对应的初步分数,并基于所述修正结果确定所述语音信息的目标识别结果。
根据本申请的另一方面,提供了一种非暂时性计算机可读介质。所述非暂时性计算机可读介质可以包括用于语音识别的一组指令。当由所述至少一个处理器执行时,所述指令可以指导至少一个处理器实现一种方法。所述方法可以包括获取由当前用户提供的语音信息的所述至少两个候选识别结果和所述至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述候选识别结果中的一个候选识别结果。所述方法也可以包括基于预定关键词汇提取规则,从所述至少两个候选识别结果中的每一个中提取预设类型的一个或多个关键词汇。所述方法可以进一步包括基于提取的所述一个或多个关键词汇来修正与所述至少两个候选识别结果中的每一个相对应的所述初步分数,并且基于所述修正的结果来确定所述语音信息的目标识别结果。
根据本申请的另一方面,提供了一种用于运输服务的语音识别的方法。所述方法可以在具有至少一个存储设备的计算设备上实现,所述存储设备存储用于运输服务中的语音识别的一组指令,并且所述计算设备具有与所述至少一个存储设备通信的至少一个处理器。所述方法可以包括接收和分析语音信息以生成语音信息的至少两个候选识别结果和至少两个初步分数。所述至少两个初步分数中的每一个可以对应于所述至少两个候选识别结果中的一个,从所述至少两个候选识别结果中的每一个中提取所述至少一个位置的信息。所述方法可以进一步包括在所述数据库中搜索与所述至少一个位置中的每一个匹配的一个或多个兴趣点(POI),并且基于搜索到的所述一个或多个POI和所述至少一个位置中的每一个的匹配结果,确定所述至少两个候选识别结果中的每一个的第一参数。所述方法可以进一步包括确定所述至少两个候选识别结果中的每一个中的所述至少一个位置中的每一个的位置类型,以及基于位置类型确定所述至少两个候选识别结果中的每一个的第二参数。所述方法可以进一步包括基于对应于所述至少两个识别结果中的每一个的所述初步分数、所述第一参数和所述第二参数,确定与所述至少两个候选识别结果中的每一个相对应的更新分数。所述方法可以进一步包括确定与所述至少两个候选识别结果相对应的所述至少两个更新分数中的最高更新分数,并输出与所述最高更新分数相对应的识别结果。
在一些实施例中,在数据库中搜索与所述至少一个位置中的每一个匹配的一个或多个POI,并且基于搜索到的一个或多个POI与所述至少一个位置中的每一个之间的匹配结果,确定至少两个候选识别结果中的每一个的第一参数可以包括:当在所述数据库中找到与所述至少一个位置相匹配的POI时,将所述识别结果的所述第一参数确定为1;当在所述数据库中未找到与所述至少一个位置相匹配的POI时,确定所述数据库中的所述一个或多个POI中的每一个与所述至少一个位置之间的匹配度;当所述一个或多个POI中的每一个与所述至少一个位置之间的匹配度小于或等于第一匹配度阈值时,将所述识别结果的所述第一参数确定为0;以及当所述一个或多个POI中的每一个与所述至少一个位置之间的匹配度大于所述第一匹配度阈值时,基于所述匹配度确定所述识别结果的第一参数,所述识别结果的第一参数可以与匹配度成正比。
在一些实施例中,确定与至少两个候选识别结果中的每一个相对应的至少一个位置中的每一个的位置类型可以包括确定识别结果是否可以在至少一个位置的信息之前包括出发位置信息。确定与至少两个候选识别结果中的每一个相对应的至少一个位置中的每一个的位置类型,可以包括:响应于确定识别结果中在任何至少一个位置的信息之前不包括出发位置信息,确定与语音信息关联的位置信息作为出发位置。确定与至少两个候选识别结果中的每一个相对应的至少一个位置中的每一个的位置类型,可以包括:响应于确定识别结果可以在至少一个出发位置的信息之前包括出发位置信息,在所述数据库中搜索与所述至少一个位置匹配的第一POI,并确定与所述第一POI对应的第一位置作为所述出发位置;或在数据库中搜索至少两个第二POI,确定与至少两个第二POI中的每一个对应的第二位置,以及基于与至少两个第二POI对应的第二位置确定第一平均位置作为出发位置。至少两个第二POI中的每一个与所述至少一个位置之间的匹配度可以大于第二匹配度阈值。
在一些实施例中,确定与所述至少两个候选识别结果中的每一个相对应的所述至少一个位置中的每一个的位置类型,可以进一步包括确定所述识别结果是否可以在所述至少一个位置的信息之前包括目的地信息。确定与所述至少两个候选识别结果中的每一个相对应的所述至少一个位置中的每一个的位置类型,可以进一步进一步包括响应于确定所述识别结果在任何所述至少第一位置的信息之前不包括目的地信息,生成用于通知用户提供目的地信息的通知。确定与所述至少两个候选识别结果中的每一个相对应的所述至少一个位置中的每一个的位置类型,可以进一步进一步包括响应于确定所述识别结果可以在至少一个位置的信息之前包括目的地信息,在数据库中搜索与所述至少一个位置的信息匹配的第三POI,并确定与所述第三POI对应的第三位置作为所述目的地;或在所述数据库中搜索至少两个第四POI,确定与所述至少两个第四POI中的每一个对应的第四位置,以及基于与所述至少两个第四POI对应的所述第二位置确定第二平均位置作为所述目的地。所述至少两个第四POI中的每一个与所述至少一个位置之间的匹配度可以大于第三匹配度阈值。
在一些实施例中,基于位置类型来确定所述至少两个候选识别结果中的每一个的所述第二参数,可以包括确定对于所述至少两个候选识别结果中的每一个,从出发位置到目的地的距离信息,确定对应于所述距离信息的至少一个出行方式,确定在统计时间段中与所述至少一个出行方式中的每一个出行方式的距离信息对应的出行次数,基于所述至少一个出行方式中的每一个相对应的出行次数与所述统计时间段中的出行总次数来确定所述至少一个出行方式中的每一个的使用概率,以及将所述使用概率确定为所述第二参数。
在一些实施例中,所述方法可以进一步包括将与每一个POI相关的名称与对应于所述POI的位置进行相关,并且将所述相关存储到数据库中。
在一些实施例中,提供了一种计算设备。所述计算设备可以包括存储一组指令的至少一个存储设备以及与所述至少一个存储设备通信的至少一个处理器。当执行所述指令时,可以指导所述至少一个处理器来实现上述方法。
在一些实施例中,提供了一种非暂时性计算机可读介质。所述非暂时性计算机可读介质可以包括用于语音识别的一组指令。当执行所述指令时,可以指导所述至少一个处理器来实现上述方法。
根据本申请的另一方面,提供了一种用于运输服务的语音识别系统。所述系统可以包括至少一个存储设备,所述存储设备包括一组指令,所述系统包括与所述至少一个存储设备通信的至少一个处理器。所述至少一个处理器可以被配置为执行该组指令。所述至少一个处理器可以包括初步分数确定模块,被配置为接收并分析语音信息以生成所述语音信息的至少两个候选识别结果和至少两个初步分数,其中所述至少两个初步分数中的每一个可以对应于至少两个候选识别结果中的一个。所述至少一个处理器可以进一步包括提取模块,被配置为从至少两个候选识别结果中的每一个中提取至少一个位置的信息。所述至少一个处理器可以进一步包括第一参数分配模块,被配置为在数据库中搜索与所述至少一个位置中的每一个匹配的一个或多个兴趣点(POI),并且基于搜索到的一个或多个POI与所述至少一个位置中的每一个的匹配结果,来确定所述至少两个候选识别结果中的每一个的第一参数。所述至少一个处理器可以进一步包括第二参数分配模块,被配置为确定所述至少两个候选识别结果中的每一个中的所述至少一个位置中的每一个的位置类型,以及基于位置类型确定所述至少两个候选识别结果中的每一个的第二参数。所述至少一个处理器可以进一步包括修正模块,被配置为基于第一参数和第二参数,确定与至少两个候选识别结果中的每一个相对应的更新分数。所述至少一个处理器可以进一步包括输出模块,被配置为确定与所述至少两个候选识别结果对应的至少两个更新分数中的最高更新分数,并输出与最高更新分数相对应的识别结果。
附加特征将在下面的描述中部分阐述,并且部分在本领域技术人员研究以下附图时将变得显而易见,或者可以通过示例的生产或操作来了解。本申请的特征可以通过实践或使用下面讨论的详细示例中阐述的方法、手段和组合的各个方面来实现和获取。
附图说明
本申请将结合示例性实施例进一步进行描述。参考附图可以详细描述所述示例性实施例。这些实施例并非限制性的,在这些实施例中,相同的组件符号表示相同的结构,其中:
图1是根据本申请的一些实施例的示例性语音识别系统的示意图;
图2是根据本申请的一些实施例的示例性计算设备的示例性硬件和/或软件组件的示意图;
图3是根据本申请的一些实施例所示的示例性终端设备的示意图;
图4是根据本申请的一些实施例所示的示例性语音识别设备的框图;
图5是根据本申请的一些实施例所示的用于语音识别的示例性过程的示意图;
图6是根据本申请的一些实施例所示的用于确定语音信息的目标识别结果的示例性过程的流程图;
图7是根据本申请的一些实施例所示的确定更新系数的示例性过程的流程图。
图8是根据本申请的一些实施例所示的用于语音识别的示例性过程的示意图;
图9是根据本申请的一些实施例所示的用于语音识别的示例性过程的示意图;以及
图10是根据本申请的一些实施例所示的用于基于语音信息生成服务请求的示例性界面的示意图。
具体实施方式
下述描述是为了使本领域普通技术人员能制造和使用本申请,并且该描述是在特定的应用及其要求的背景下提供的。对于本领域的普通技术人员来讲,对本申请披露的实施例进行的各种修正是显而易见的,并且本申请定义的通则可以适用于其他实施例和应用,而不背离本申请的精神和范围。因此,本申请不限于所示的实施例,而是符合与权力要求一致的最广泛范围。
本申请所使用的术语仅为了描述特定实施例,并不限制本申请的范围。如本文所使用的,除非上下文另外清楚地指出,否则单数形式“一”、“一个”和“所述”也可以包括复数形式。将进一步理解的是,当在本申请中使用时,术语“包括”、和/或“包括”指明所述特征、整体、步骤、操作、元件和/或组件,但并不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合的存在或增加。
考虑到以下描述,本申请的这些和其他特征与特性,以及结构的相关元件的操作方法和功能与部件的组合和制造的经济性可以变得更加明显。参考附图,所有这些都构成本说明书的一部分,然而,应当理解的是,附图仅仅是为了说明和描述目的,并不旨在限制本申请的范围。应当理解的是,附图并不是按比例绘制的。
本申请中使用的流程图示出了根据本申请中的一些实施例的系统实施的操作。明确地理解,流程图的操作可以不按顺序实施。相反,这些操作可以以相反的顺序或同时执行。而且,可以将一个或多个其他操作添加到流程图。一个或多个操作也可能会从流程图中删除。
此外,虽然本申请中公开的系统和方法主要关于运输服务中的语音识别,但是应该理解的是,这仅仅是一个示例性实施例。本申请的系统或方法可以应用于需要识别语音信息的任何其他种类场景的用户。例如,本申请的系统或方法可以应用于电子商务服务、在线购物服务、语音控制系统等或其任何组合。本申请的系统或方法的应用场景可以包括网页、浏览器的插件、客户终端、定制系统、内部分析系统、人工智能机器人等或其任意组合。
本申请中的运输服务的出发位置可以通过嵌入在无线设备(例如,用户终端等)中的定位技术来获取。本申请中使用的定位技术可以包括全球定位系统(GPS)、全球导航卫星系统(GLONASS)、北斗导航系统(COMPASS)、伽利略定位系统、准天顶卫星系统(QZSS)、北斗导航卫星系统、无线保真(WiFi)定位技术等,或其任意组合。本申请中可以互换使用一种或多种上述定位技术。例如,基于GPS的方法和基于WiFi的方法可以一起用作定位技术以定位无线设备。
如本申请中所使用的,“语音信息”可以指音频数据流。术语“语音信息”和“语音数据”可以互换使用。在一些实施例中,语音信息可以由用户终端(例如,手机、车辆的内置设备)的麦克风获取。在一些实施例中,语音信息可以在被用户终端进一步处理之前(例如,当用户正在通过语音“打字”时)被转换为文本并且显示在用户终端的屏幕上。在一些实施例中,语音信息可以被转换为用于控制用户终端的语音命令,例如播放音乐、拨打号码等。在一些实施例中,可以将语音信息转换为服务请求(例如出租车服务、导航服务等)。可以在语音信息被识别之后执行与服务请求有关的操作。例如,在目的地,出发位置和/或开始时间被识别之后,可以将出租车服务发送发送给服务提供者(例如驾驶员)。
本申请的一个方面涉及用于语音识别的系统和/或方法。例如,语音信息可以从用户终端获取。语音信息可以被处理以生成至少两个候选识别结果和对应的初步分数。可以进一步评估至少两个候选识别结果中的每一个。例如,可以从至少两个候选识别结果中的每一个中提取一个或多个关键词汇。可以将一个或多个提取的关键词汇与至少两个样本关键词汇进行比较,以从至少两个样本关键词汇中确定目标样本关键词汇。可以基于一个或多个提取的关键词汇来确定至少一个参数,所述至少一个参数包括与提取的关键词汇和目标样本关键词汇之间的匹配度相关联的检索参数,与至少两个用户对目标样本关键词汇的使用相关联的热度参数,与提供语音信息的用户对目标样本关键词汇的使用相关联的偏好参数,与基于目标样本关键词汇确定的从出发位置到目的地的道路距离相关联的距离参数等,或其任何组合。可以基于至少一个参数确定更新系数并且将所述更新系数用于更新与至少两个候选识别结果中的每一个相对应的初步分数。可以基于更新分数从至少两个候选结果中选择目标识别结果。
图1是根据本申请的一些实施例所示的示例性语音识别系统的示意图。例如,语音识别系统100可以是用于语音识别服务的服务平台。语音识别系统100可以包括服务器110、网络120、用户终端130和存储装置140(也被称为数据库)。服务器110可以包括处理引擎112。
服务器110可以用于处理语音信息。例如,服务器110可以经由网络120从用户终端130获取用户的语音信息。服务器110可以访问存储装置140中的数据库,并且基于存储装置140中的数据库识别语音信息。语音信息的识别结果可以经由网络120被发回给用户终端130。在一些实施例中,服务器110可以是单个服务器或服务器组。服务器组可以是集中式的或分布式的(例如服务器110可以是分布式系统)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以经由网络120访问存储在用户终端130和/或存储装置140中的信息和/或数据。又例如,服务器110可以直接连接到用户终端130,和/或存储装置140以访问信息和/或数据。在一些实施例中,服务器110可以在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、社区云、分布式云、中间云、多云等或其任何组合。在一些实施例中,服务器110可以在具有图1中所示的一个或多个组件的计算设备上实现,如图2所示。
在一些实施例中,服务器110可以包括处理引擎112。处理引擎112可处理语音信息以执行本申请中描述的服务器110的一个或多个功能。在一些实施例中,处理引擎112可从用户终端130获取用户的语音信息,并识别语音信息以生成至少两个候选识别结果和至少两个初步分数。处理引擎112可以进一步为每一个候选识别结果确定更新系数,并基于更新系数更新初步分数。例如,处理引擎112可以从存储在存储装置140中的一个或多个数据库获取目标数据,并基于目标数据确定更新系数。
处理引擎112可以进一步基于更新分数从候选识别结果确定目标识别结果。对于与服务请求相关的语音信息,处理引擎112可以基于目标识别结果生成服务请求,并且执行与服务请求有关的操作,例如生成服务请求,搜索与服务请求相关的服务提供者,将服务请求发送发送给服务提供者等。在一些实施例中,处理引擎112可以包括一个或多个处理引擎(例如单核处理引擎或多核处理器)。仅作为示例,处理引擎112可以包括中央处理单元(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图形处理单元(GPU)等,物理处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)等,微处理器等或其任何组合。
网络120可以促进信息和/或数据的交换。在一些实施例中,语音识别系统100中的一个或多个组件(例如服务器110、用户终端130和/或存储装置140)可以经由网络120在语音识别系统100中向其他组件发送发送信息和/或数据。例如,服务器110可以经由网络120从用户终端130获取/获取语音信息。在一些实施例中,网络120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络120可以包括电缆网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共电话交换网络(PSTN)、蓝牙网络、紫蜂网络、近场通信(NFC)网络、全球移动通信系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线业务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址(WCDMA)网络、高速下行链路分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、,传输控制协议/因特网协议(TCP/IP)网络、短消息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、红外线等或其任何组合。在一些实施例中,服务器110可以包括一个或多个网络接入点。例如,服务器110可以包括有线或无线网络接入点,例如基站和/或互联网交换点120-1、120-2等,语音识别系统100的一个或多个组件可以通过该网络接入点连接到网络120交换数据和/或信息。
用户终端130可以与用户关联。在一些实施例中,用户终端130可以从用户获取语音信息。用户终端130可以将语音信息发送到服务器110(例如处理引擎112)。在一些实施例中,用户终端130可以执行前述处理引擎112的一个或多个功能,诸如候选识别结果的生成,目标识别结果的确定或类似物。在一些实施例中,用户终端130可以执行与语音信息有关的操作,诸如播放音乐、拨打号码、确定从出发位置到目的地的导航路线、生成服务请求等。在一些实施例中,用户终端130可以包括移动设备130-1、平板计算机130-2、膝上型计算机130-3、桌面计算机130-4等或其任何组合。在一些实施例中,移动设备130-1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等或其任何组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电气设备的控制设备、智能监控设备、智能电视、智能摄像机、对讲机等或其任何组合。在一些实施例中,可穿戴设备可以包括智能手镯、智能鞋袜、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)设备等或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实眼罩、增强现实头盔、增强现实玻璃、增强现实眼罩等等或其任何组合。例如,虚拟现实设备和/或增强现实设备可以包括Google Glass、Oculus Rift、Hololens、Gear VR等。在一些实施例中,机动车辆130-4中的内置设备可以包括车载电脑、车载电视等。在一些实施例中,用户终端130可以是具有用于定位用户和/或用户终端130的定位技术的无线设备。
存储装置140可以存储数据和/或指令。在一些实施例中,存储装置140可以存储从用户终端130获取/获取的数据。在一些实施例中,存储装置140可以存储服务器110可以执行或用于执行本申请中描述的示例性方法的数据和/或指令。例如,存储装置140可以存储用于识别语音信息的识别模型。又例如,存储装置140可以存储一个或多个数据库,例如样本关键词汇数据库(在运输服务中使用时也称为POI数据库)、热度信息数据库、偏好数据库、出行方式数据库等或其组合。在一些实施例中,存储装置140可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任何组合。示例性大容量存储器可以包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带,示例性的易失性读写存储器可以包括随机存取存储器(RAM)、示例性的RAM可以包括动态RAM(DRAM)、双倍数据速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容器RAM(Z-RAM)(ROM)、可编程ROM(PROM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字多功能盘ROM等。在一些实施例中,存储装置140可以在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、社区云、分布式云、中间云、多云等或其任何组合。
在一些实施例中,存储装置140可连接到网络120以与语音识别系统100中的一个或多个组件(例如服务器110、用户终端130等)进行通信。语音识别系统100中的一个或多个组件可以经由网络120访问存储在存储装置140中的数据或指令。在一些实施例中,存储装置140可以直接连接到语音识别系统100中的一个或多个组件(例如服务器110、用户终端130等)或与之通信。在一些实施例中,存储装置140可以是服务器110的一部分。
在一些实施例中,语音识别系统100中的一个或多个组件(例如服务器110、用户终端130等)可以具有访问存储装置140的许可。在一些实施例中,语音识别系统100中的一个或多个组件可以在满足一个或多个条件时读取和/或修正与用户有关的信息。例如,服务器110可以从存储装置140获取包括样本关键词汇、热度信息、与用户终端130的用户关联的偏好信息,与至少一个出行方式有关的统计数据(也被称为出行方式信息)等或其组合。
本领域的普通技术人员将理解,当语音识别系统100的元件执行时,元件可以通过电信号和/或电磁信号执行。例如,当用户终端130处理诸如输入语音数据,识别或选择对象的任务时,用户终端130可以操作其处理器中的逻辑电路来执行这样的任务。当用户终端130将语音信息发送发送到服务器110时,服务器110的处理器可以生成编码该语言信息的电信号。服务器110的处理器然后可以将电信号发送到输出端口。如果用户终端130经由有线网络与服务器110通信,则输出端口可以物理连接到电缆,电缆进一步将电信号传输到服务器110的输入端口。如果用户终端130经由无线网络与服务器110通信,则服务请求者终端130的输出端口可以是一个或多个天线,其将电信号转换为电磁信号。在诸如用户终端130和/或服务器110的电子设备内,当其处理器处理指令,发送指令和/或执行操作时,指令和/或操作可以经由电信号而被执行。例如,当处理器从存储介质中检索或保存数据时,处理器可以将电信号传输到存储介质的读/写设备,存储介质可以读取或写入存储介质中的结构化数据。结构化数据可以经由电子设备的总线以电信号的形式传输到处理器。这里,电信号可以指一个电信号、一系列电信号和/或至少两个离散电信号。
图2是根据本申请的一些实施例所示的计算设备的示例性硬件和/或软件组件的示意图。在一些实施例中,服务器110和/或用户终端130可以在图2所示的计算设备200上实现。例如,处理引擎112可以在计算设备200上实现并且用于执行本申请中公开的处理引擎112的功能。
计算设备200可以用于实现这里描述的语音识别系统100的任何组件。例如,处理引擎112可以通过其硬件、软件程序、固件或其组合在计算设备200上实现。为了方便,尽管仅示出了一个这样的计算机,这里描述的与语音识别服务相关的计算机功能可以在至少两个类似平台上以分布式方式实现,以分配处理负载。
例如,计算设备200可以包括连接到与之连接的网络的通讯端口250,以便于数据通信。计算设备200可以进一步包括用于执行程序指令的一个或多个处理器(例如,逻辑电路)形式的处理器(例如,处理器220)。例如,处理器220可以包括其中的接口电路和处理电路。接口电路可以被配置为从总线210接收电子信号,其中电子信号对用于处理电路处理的结构化数据和/或指令进行编码。处理电路可以进行逻辑计算,然后确定编码为电子信号的结论、结果和/或指令。然后,接口电路可以经由总线210从处理电路发出电子信号。
示例性计算设备可以进一步包括不同形式的程序存储器和数据存储器,包括例如由计算设备处理和/或传送各种数据文件的磁盘270、只读存储器(ROM)230或随机存取存储器(RAM)240。示例性计算设备可以进一步包括存储由处理器220执行的在ROM 230、RAM 240和/或另一类型的非暂态存储介质中的程序指令。本申请的方法和/或过程可以作为程序指令来实现。计算设备200可以进一步包括支持计算机和其他组件之间的输入/输出的组件260,以支持电脑和其他组件之间的输入/输出。计算设备200也可以通过网络通信接收程序和数据。
仅仅为了说明,在图2中仅示出了一个处理器。也可以考虑至少两个处理器220;因此,由一个处理器220执行的操作和/或方法步骤也可以由至少两个处理器联合或单独执行。例如,如果在本申请中计算设备200的处理器220执行步骤A和步骤B两者,则应该理解,步骤A和步骤B也可以由计算设备200中的两个不同处理器220联合或单独执行(例如,第一处理器执行步骤A并且第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
图3是根据本申请的一些实施例所示的终端设备的示例性硬件和/或软件组件的示意图。在一些实施例中,用户终端130可以在图1所示的终端设备300上实现。终端设备300可以是移动设备,诸如乘客或驾驶员的移动电话,由驾驶员驾驶的车辆上的内置设备。如图3所示,终端设备300可以包括通信平台310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出350、内存360和存储器390。在一些实施例中,包括但不限于系统总线或控制器(未示出)的任何其他合适的组件也可以包括在终端设备300中。
在一些实施例中,可以从存储器390将移动操作系统370(例如,iOSTM、AndroidTM、Windows PhoneTM等)和一个或多个应用程序(application)380加载到内存360中以便被CPU340执行。在一些实施例中,终端设备300可以包括用于获取语音信息的麦克风315或类似物。麦克风315可以在终端设备300工作时或者在语音相关应用程序380运行时连续获取语音信息。例如,与语音相关的应用程序380可以包括在线运输服务App(例如滴滴打车),电子商务应用程序(例如,淘宝、易趣、亚马逊),语音控制应用程序(例如,SiriTM)等,当用户打开语音相关应用程序380时,麦克风315可以连续地获取语音信息。在一些实施例中,终端设备300可以包括录制按钮,使得当用户按下并保持录制按钮时,麦克风315可以开始获取语音信息。麦克风315可以连续获取语音信息,直到用户释放按钮或达到预设的记录时间长度。又例如,语音相关应用程序380可以经由显示器320在终端设备300的图形用户界面(GUI)上提供录制图标,使得当用户触摸录制图标时,麦克风315开始获取语音信息。在一些实施例中,CPU340可以从存储器390获取数据并识别语音信息,以基于从存储器390获取的数据来确定目标识别结果。可选地或附加地,终端设备300可以将语音信息发送到服务器110或处理引擎112以被识别。在一些实施例中,目标识别结果可以经由显示器320显示在终端设备300的GUI上。在一些实施例中,除了目标识别结果之外,候选识别结果也可以按照更新分数的降序显示在显示器320上。在一些实施例中,用户可以确认和/或修正与目标识别结果或与目标识别结果有关的服务请求。用户交互可以经由I/O 350来实现并且经由网络120被提供给语音识别系统100的服务器110和/或其它组件。终端设备300可以经由通信平台310发送/接收与语音信息有关的数据。例如,终端设备300可以经由通信平台310将语音信息发送到服务器110。
图4是根据本申请的一些实施例所示的示例性语音识别设备的框图。语音识别设备400可以与存储介质(例如语音识别系统100的存储装置140和/或终端设备300的存储器390)通信,并且可以执行存储在存储介质中的指令。在一些实施例中,处理引擎400可以包括信息获取模块410,信息提取模块420和结果确定模块430。
信息获取模块410可以被配置为获取与语音识别相关的数据/信息。例如,信息获取模块410可以从用户终端(例如,用户终端130或其麦克风)获取语音信息。用户终端可以获取用户终端当前用户发出的语音信息。信息获取模块410可以进一步获取与用户终端关联的信息,例如用户终端获取语音信息时的用户终端的定位信息,与用户关联的用户标识(例如用户账号名称)等等,或其组合。又例如,信息获取模块410可获取语音信息的至少两个候选识别结果和至少两个初步分数。
信息提取模块420可以被配置为从每一个候选识别结果中提取一个或多个关键词汇。信息提取模块420可以基于预定规则提取一个或多个关键词汇。例如,当语音信息被用于运输服务时,信息提取模块420可以提取目的地指示词(也称为目的地信息)之后的内容作为目的地的关键词汇,并且提取出发位置指示词(也称为出发位置信息)之后的内容作为出发地的关键词汇。
结果确定模块430可以被配置为确定语音信息的目标识别结果。例如,结果确定模块430可以基于提取的一个或多个关键词汇,来修正与至少两个候选识别结果中的每一个相对应的初步分数,并且基于修正的结果来确定语音信息的目标识别结果。在一些实施例中,结果确定模块430可以包括更新系数确定子模块和信息修正子模块。更新系数确定子模块可以被配置为基于一个或多个提取的关键词汇与预设样本数据库中至少两个样本关键词汇中的每一个之间的相似度(也称为“匹配度”),来为具有一个或多个提取的关键词汇的至少两个候选识别结果中的每一个确定更新系数。例如,更新系数确定子模块可以从至少两个样本关键词汇中选择一个或多个样本关键词汇作为目标样本关键词汇(也称为“选择的样本关键词汇”),其中一个或多个提取的关键词汇与一个或多个目标样本关键词汇的相似度大于相似度阈值。更新系数确定子模块可以基于与一个或多个目标样本关键词汇相关联的至少一个参数来确定,所述至少一个参数包括检索参数、热度参数、偏好参数、距离参数等,或其组合。在一些实施例中,更新系数确定子模块可以包括相似度确定单元,检索参数确定单元,偏好参数确定单元,热度参数确定单元以及更新系数确定单元。相似度确定单元可以被配置为确定一个或多个提取的关键词汇与至少两个样本关键词汇之间的相似度。检索参数确定单元可以用于根据相似度和检索参数之间的第三转换关系将相似度转换为检索参数。偏好参数确定单元可以被配置为确定一个或多个提取的关键词汇与至少两个样本关键词汇之间的相似度,并根据相似度和偏好参数之间的第四转换关系,将相似度转换为偏好参数。热度参数确定单元可以被配置为基于相似度、至少两个样本关键词汇的热度信息以及热度信息和热度参数之间的第一转换关系,来确定热度参数。更新系数确定单元可以被配置为通过例如将检索参数加上或乘以偏好参数和热度参数二者之间的较高值,来确定具有一个或多个提取的关键词汇的至少两个候选识别结果中的每一个的更新系数。信息修正子模块可以用于被配置为基于更新系数,来更新与至少两个候选识别结果中的每一个相对应的初步分数,以生成与至少两个候选识别结果中的每一个相对应的更新分数。例如,信息修正子模块可以通过将更新系数乘以初步分数来更新初步分数。在一些实施例中,对应于候选识别结果的每一个更新系数可以被归一化,即被转换为0和1之间的数字。信息修正子模块可以通过将归一化的更新系数乘以初步分数来更新初步分数。
在一些实施例中,语音识别设备400可以进一步包括初步分数确定模块、提取模块、第一参数分配模块、第二参数分配模块、修正模块和输出模块(图中未示出)。这些模块中的一些或全部可作为子模块集成到结果确定模块430中。
初步分数确定模块可被配置为接收并分析语音信息,以生成语音信息的至少两个候选识别结果和至少两个初步分数,其中至少两个初步分数中的每一个对应于至少两个候选识别结果中的一个。例如,初步分数确定模块可基于识别模型(例如,识别模型500)识别语音数据,以生成至少两个候选识别结果和对应的初步分数。
第一参数分配模块可以用于在数据库中搜索与所述至少一个位置中的每一个位置匹配的一个或多个兴趣点(POI),并且基于搜索到的一个或多个POI与所述至少一个位置中的每一个之间的匹配结果来确定所述每一个位置的第一参数(例如,检索参数)。例如,当在数据库中找到与至少一个位置相匹配的POI时,第一参数分配模块可以将识别结果的第一参数确定为1;当在所述数据库中未找到与所述至少一个位置相匹配的POI时,所述第一参数分配模块可以确定所述数据库中的所述一个或多个POI中的每一个与所述至少一个位置之间的匹配度。当所述一个或多个POI中的每一个与所述至少一个位置之间的匹配度小于或等于第一匹配度阈值时,所述第一参数分配模块可以将所述识别结果的第一参数确定为0;并且当所述一个或多个POI中的每一个与所述至少一个位置之间的匹配度大于所述第一匹配度阈值时,所述第一参数分配模块可以基于所述匹配度确定所述识别结果的所述第一参数,其中识别结果的第一参数可以与匹配度正相关(例如,成正比)。
第二参数分配模块可以被配置为确定至少两个候选识别结果中的每一个的至少一个位置中的每一个位置的位置类型,并且基于位置类型确定至少两个候选识别结果中的每一个的第二参数(例如,距离参数)。在一些实施例中,第二参数分配模块可以进一步包括出发位置确定子模块,目的地确定子模块,距离确定子模块和概率确定子模块。出发位置确定子模块可以被配置为基于至少一个位置来确定出发位置。目的地确定子模块可以被配置为基于至少一个位置来确定目的地。距离确定子模块可以被配置为针对至少两个候选识别结果中的每一个确定距离信息(例如,从出发位置到目的地的道路距离)。概率确定子模块可以被配置为基于统计时间段中的与至少一个出行方式中的每一个对应的出行次数和出行总次数,来确定至少一个出行方式中的每一个出行方式的使用概率。所述使用概率可以被确定为或转换为第二参数。
修正模块可以被配置为基于第一参数、第二参数和初步分数,来确定与至少两个候选识别结果中的每一个相对应的更新分数。
输出模块可以被配置为确定与至少两个候选识别结果对应的至少两个更新分数中的最高更新分数,并且输出与最高更新分数对应的识别结果。
在一些实施例中,语音识别设备400可以进一步包括关联模块。关联模块可以被配置为将与每一个POI有关的描述(例如名称或地址)与对应于所述POI的位置进行相关,并且将相关存储到数据库中。例如,从候选识别结果中提取的关键词汇可以是用户使用的与POI有关的描述,并且可以与样本关键词汇相同或不同。关联模块可以存储用户使用的每一个POI有关的描述与对应于POI的位置之间的相关以更新数据库。
应该注意的是,上面的描述仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域普通技术人员而言,可以在本申请的指导下进行多种变化和修正。然而,这些变化和修正不背离本申请的范围。上述模块,子模块或单元可以通过有线连接或无线连接彼此连接或通信。在一些实施例中,两个或以上模块/子模块/单元可以分别组合成单个模块/子模块/单元,并且任何一个模块/子模块/单元可以分别分成两个或以上模块/子模块/单元。
图5是根据本申请的一些实施例所示的用于语音识别的示例性过程的示意图。在一些实施例中,语音信息505可以被输入到识别模型500。识别模型500可以由用户终端130和/或处理引擎112实现或包括在用户终端130和/或处理引擎112中。基于语音信息的输入,识别模型500可以基于语音信息的输入生成至少两个候选识别结果和对应的初步分数565作为输出。每一个初步分数可以对应于候选识别结果中的一个。在一些实施例中,候选识别结果可以是与单词、短语、句子或字母相关联的文本信息。
在一些实施例中,识别模型500可以存储在存储器(例如语音识别系统100的存储装置140或终端设备300的存储器390)中。如图5所示,识别模型500可以包括预处理器510、特征提取器520、声学模型530、解码器540、发音模型550和语言模型560。
预处理器510可以预处理语音信息505。例如,待识别的语音信息505可以被预处理器510预处理以被分成至少两个音频帧。在一些实施例中,语音信息505的预处理可以进一步包括噪声滤波、增强、信道均衡、域转换,例如,经由傅立叶变换(FT)的时-频域转换,经由逆傅里叶变换(IFT)的频-时域转换等,或其任何组合。
特征提取器520可以从转换的音频帧中的频域中提取适当的声学特征信息。
声学模型530可以基于声学特征信息确定对应于音频信号的发音数据。例如,可以根据来自发音数据库(例如,存储在存储装置140中的发音数据)的至少两个样本发音和对应的样本声学特征信息来训练声学模型530。声学模型530可以使用声学特征信息作为输入,以将声学特征信息映射到对应于音频帧的发音。声学模型530可以确定将音频帧映射到每一个发音的第一概率。在一些实施例中,发音模型550可以确定与发音相对应的至少两个单词或字符以及与所述单词或字符有关的第二概率。在一些实施例中,语言模型560可以包括不同语言单元(例如,单词、字符或短语)之间的相关以及与这些相关相对应的概率。语言模型560可以估计基于语言单元构建的各种文本的第三概率。
解码器540可以基于声学模型530、语言模型560和发音模型550来构建识别网络。识别网络中的每条路径(类似于神经网络中的分支节点)可对应于文本和/或文本有关的发音。然后,解码器540可以基于由声学模型输出的发音来确定识别网络的每一个路径的初步分数,从而获取初步识别结果和相应的初步分数。
在一些实施例中,处理引擎112或终端设备300可以基于初步识别结果和对应的初步分数,来确定至少两个候选识别结果和对应的初步分数565。例如,处理引擎112或用户终端130可以从所有初步识别结果中,选择具有相对高的初步分数的至少两个初步识别结果作为候选识别结果。仅作为示例,具有高于预定分数阈值的初步分数的初步识别结果可以被确定为候选识别结果。又例如,对应于前N个分数的初步识别结果可以被确定为候选识别结果,N可以是大于1的自然数,诸如5、10、20等。在一些实施例中,所有的初步识别结果可以被确定为候选识别结果。
在一些实施例中,可以从候选识别结果确定与语音信息相对应的目标识别结果。例如,处理引擎112或用户终端130可以将与最高初始分数相对应的候选识别结果确定为目标识别结果。又例如,处理引擎112或用户终端130可基于更新系数,进一步更新与候选识别结果对应的初步分数以生成更新分数,并基于更新分数确定目标识别结果。例如,在本申请的其他位置可以找到关于基于候选识别结果确定目标识别结果的详细描述,例如在图6及其描述中。
应该注意的是,上面的描述仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域普通技术人员而言,可以在本申请的教导下进行多种变化和修正。然而,这些变化和修正不背离本申请的范围。例如,预处理器510和/或特征提取器520可以在识别模型500中被省略。又例如,识别模型500可位于语音识别系统100之外。更特别地,语音识别系统100外部的识别模型500可识别语音信息,以产生候选识别结果和相应的初步分数,并且语音识别系统100(例如,服务器110、处理引擎112、用户终端130)可以直接获取并处理候选识别结果和对应的初步分数。
图6是根据本申请的一些实施例所示的用于确定语音信息的目标识别结果的示例性过程的流程图。过程600可以由语音识别系统100执行。例如,过程600可以被实现为存储在存储器(例如,图1中的语音识别系统100的存储装置140、图3中的终端设备300的存储器390)中的一组指令(例如,应用程序)。图4中的语音识别设备400的模块可以执行指令集,并且当执行指令时,模块可以被配置为执行过程600。在一些实施例中,语音识别设备400的至少一部分可以在处理引擎112和/或终端设备300上实现。以下呈现的所示过程600的操作旨在说明。在一些实施例中,过程600可以利用未描述的一个或多个附加操作和/或不利用所讨论的一个或多个操作来完成。另外,图6所示和下面描述的过程600的操作顺序不是限制性的。
在610中,语音识别设备400(例如,信息获取模块410)可从用户终端(例如,用户终端130或其麦克风、终端设备300或其麦克风)获取语音信息。用户终端可以获取用户终端的用户发出的语音信息。在一些实施例中,语音识别设备400可以进一步获取与用户终端关联的信息,例如用户终端获取语音信息时的用户终端的定位信息,与用户关联的用户标识(例如用户账号名称)等,或其组合。
在620中,语音识别设备400(例如,结果确定模块)可以确定语音信息的至少两个候选识别结果以及与至少两个候选识别结果相对应的至少两个初步分数。在一些实施例中,语音信息可以由识别模型(例如,识别模型500)识别,以基于语音识别方法来生成至少两个候选识别结果。语音识别方法可以包括但不限于特征参数匹配算法、隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法等。
在一些实施例中,候选识别结果和对应的初步分数的确定可以由处理引擎112和/或用户终端130执行。可以成对地确定候选识别结果及其对应分数,例如(候选识别结果1、初步分数1)、(候选识别结果2、初步分数2)等。初步分数可以是任何数字,例如10、30、500等或者落在0-1的范围内,例如0.3、0.5、0.8等等。
在630中,语音识别设备400(例如,信息提取模块420)可以基于预定的关键词汇提取规则从至少两个候选识别结果中的每一个中提取一个或多个关键词汇。
当语音识别设备400用于叫车服务或导航服务时,所提取的一个或多个关键词汇可以包括兴趣点(POI)、街道名称等。当语音识别设备400用于电子商务服务时,所提取的一个或多个关键词汇可以包括商家名、商品名称、价格。可以从安装在输入语音信息的语音识别设备400中的软件或App中提取一个或多个关键词汇。例如,如果语音信息被输入到叫车应用程序App或导航服务App,则可以提取诸如POI、街道名称等的关键词汇。如果将语音信息输入到电子商务应用中,则可以提取诸如商家名称、商品名称、价格等关键词汇。
在一些实施例中,候选识别结果可以是文本形式,术语“候选识别结果”和术语“识别文本”可以互换使用。在一些实施例中,候选识别结果可以是包括主语、谓语、宾语、副词等的句子。有时,主语和副词可以被省略。例如,候选人的识别结果可能是:“我要去数字谷”、“去数字谷”、或者“我想在今天下午3点从西直门去数字谷”等。
预定关键词汇提取规则可以是用于从候选识别结果中提取关键词汇的预定规则。可以存在至少两个提取规则,并且以下示例性描述与基于结构模板的提取规则关联。在一些实施例中,结构模板可以基于历史候选识别结果来确定或者由用户手动设置。在一些实施例中,可以将候选识别结果中与结构模板匹配的内容确定为关键词汇。
以交通场景为例,与目的地有关的结构模板可以是{目的地指示词(也称为目的地信息)+POI(或位置)}。目的地指示词可以包括诸如“我要去”、“目的地是”、“去”等的文本。可以提取目的地指示词之后的内容作为目的地的关键词汇。又例如,与出发位置有关的结构模板可以是{出发位置指示词(也称为出发位置信息)+POI(或位置)}。出发位置指示词可以包括诸如“我在”、“我位于”、“从”等的文本。可以提取出发位置指示词之后的内容作为出发位置的关键词汇。当语音信息被用于交通服务时,这样提取的关键词汇也可以被称为“疑似POI”。目的地指示词和出发位置指示词也可以被称为指示词的位置类型。仅仅作为例子,对于候选识别结果“我想从西直门去数字谷”,由于出发地指示词“从”紧挨在“西直门”之前,所以可以提取“西直门”作为出发位置的疑似POI。类似地,由于在“数字谷”之前存在目的地指示词“去”,因此可以提取“数字谷”作为目的地的疑似POI。
在一些实施例中,如果从候选识别结果中未提取到满足预设类型的关键词汇,则可以减少候选识别结果的初步分数,或者可以删除候选识别结果。在一些实施例中,如果从所有候选识别结果中都没有提取出满足预设类型的关键词汇,则可以向用户终端130发送提示消息,以通知用户所提供的语音信息可能没有被识别或者不足以生成服务请求或语音命令。提示消息可以进一步包括针对用户再次提供语音信息的建议和/或指令。例如,提示消息可能是“对不起,我没有识别出来。请再说一遍。”
在640中,语音识别设备400(例如,信息获取模块410)可以获取与语音识别关联的一个或多个数据库。与语音识别关联的一个或多个数据库可以存储在存储介质(例如,图1中的语音识别系统100的存储装置140,图3中的终端设备300的存储设备390)中。在一些实施例中,与语音识别关联的一个或多个数据库可以包括样本关键词汇数据库,热度数据库,偏好数据库,出行方式数据库等或其任何组合。样本关键词汇数据库可以包括在不同场景中使用的至少两个样本关键词汇,例如POI、街道名称、商家名称、商品名称、食物名称、常用语音命令、App名称等。热度数据库可以包括与至少两个用户使用的至少两个样本关键词汇中的每一个相对应的热度信息(热度)。例如,热度可以包括使用次数(例如,总使用次数或使用频率)和/或使用至少两个样本关键词汇中的每一个作为与待识别语音信息相关的应用的输入的概率。在一些实施例中,至少两个样本关键词汇中的每一个可以对应于至少两个周期性统计时间段和/或至少两个地理区域相关的至少两个热度。周期性统计时间段可以包括一周,一个月或一个季节(春季、夏季、秋季和冬季)。周期性统计时间段还可以包括高峰时段例如上班途中的时间段和下班回家途中的时间段(例如上午8:00-9:30、下午5:00-6:30)和非高峰时段。周期性统计时间段还可以包括工作日、周末、假日等。地理区域可以包括街区、街道、城市、城镇、县、省、国家、洲等等。
偏好数据库可以包括与终端设备的用户正在使用的至少两个样本关键词汇中的每一个相对应的偏好信息(例如,偏好度)。610中的终端设备的用户可以通过从终端设备130获取的用户标识来识别。例如,偏好度可以包括与用户关联的历史信息,例如用户以前是否使用过样本关键词汇,过去用户的使用次数和/或使用样本关键词汇的概率等。在一些实施例中,至少两个样本关键词汇中的每一个可以对应于关于至少两个周期性统计时间段和/或至少两个地理区域的至少两个偏好度。在一些实施例中,偏好信息可以被包括在热度数据库中的热度信息中。例如,可以搜索热度数据库以生成关于样本关键词汇的用户的偏好信息。
出行方式数据库可以包括与各种距离信息有关的出行方式信息。出行方式信息可包括使用数量或使用与各种距离信息(例如,不同道路距离)相对应的至少两个出行方式中的每一个的概率。例如,出行方式可以包括步行、骑自行车、开车、坐出租车、坐公共汽车、坐火车、坐飞机等。仅作为示例,出行方式数据库可以包括与对应于至少两个出行方式中的每一个的不同距离信息有关的概率分布数据。在一些实施例中,概率分布数据可被描绘为对应于至少两个出行方式的至少两个概率曲线。每条概率曲线都可以展现对不同道路距离使用不同行驶方式的概率趋势。例如,在坐出租车对应的概率曲线中,当道路距离小于1千米时,概率可能相对较低,当道路距离从1千米增加到20千米时,概率逐渐增加到相对较高的值。当道路距离从20公里增加到200公里时,概率可能急剧下降。
在一些实施例中,一个或多个数据库可以被集成到一个数据库中。例如,偏好数据库可以被集成到热度数据库中。又例如,热度信息数据库和偏好信息数据库可以被集成到样本数据库中。
在650中,语音识别设备400(例如,结果确定模块430)可以基于一个或多个提取的关键词汇和与语音识别关联的一个或多个数据库,来确定与至少两个候选识别结果中的每一个相对应的更新系数。可以基于一个或多个提取的关键词汇和历史数据确定的至少一个参数来确定更新系数。该至少一个参数可以包括检索参数、热度参数、偏好参数、距离参数等或其组合。
在一些实施例中,语音识别设备400可以确定提取的关键词汇与至少两个样本关键词汇中的每一个之间的匹配度(也被称为“相似度”),并且从至少两个样本中确定一个或多个目标样本关键词汇。一个或多个目标样本关键词汇中的每一个与提取的关键词汇之间的匹配度可以高于第一匹配度阈值。语音识别设备400可以基于一个或多个目标样本关键词汇来确定至少一个参数。例如,可以基于一个或多个目标样本关键词汇与一个或多个提取的关键词汇之间的匹配度来确定检索参数。热度参数可以基于与一个或多个目标样本关键词汇关联的热度信息来确定。偏好参数可以基于与一个或多个目标样本关键词汇关联的偏好信息来确定。距离参数可以基于与一个或多个目标样本关键词汇关联的出行方式信息来确定。在一些实施例中,术语“检索参数”也可以被称为第一参数,并且术语“距离参数”也可以被称为第二参数。关于确定至少一个参数的细节可以在本公开的其他位置找到,例如在图7及其描述中。
在一些实施例中,语音识别设备400可以基于至少一个参数的平均值或加权平均值,总和或加权总和,乘积或其组合来确定更新系数。还可以使用基于至少一个参数确定更新系数的其他方法,这些方法也在本申请的保护范围内。仅作为示例,语音识别设备400可以确定热度参数和偏好参数之间的较高值,并且通过将较高值与检索参数相加来确定更新系数。又例如,语音识别设备400可以通过将检索参数乘以距离参数来确定更新系数。在一些实施例中,对应于候选识别结果的每一个更新系数可以被归一化,即被转换为0和1之间的数字。每一个更新系数的归一化可以包括将更新系数中的每一个更新系数除以更新系数中的最高更新系数。例如,三个更新系数20、40、50可分别归一化为0.4(20/50)、0.8(40/50)和1.0(50/50)。
在660中,语音识别设备400(例如,结果确定模块430)可基于更新系数来更新与至少两个候选识别结果中的每一个相对应的初步分数,以生成与至少两个候选中的每一个相对应的更新分数识别结果。例如,语音识别设备400可以通过将更新系数乘以初步分数来更新初步分数。候选识别结果的更新分数可以被表示为y{x,v(k),w[dist(a,b),D]},其中x可以是初步分数,v可以是用于确定检索参数的函数,k可以表示目标样本关键词汇的匹配度或至少两个目标样本关键词汇的平均匹配度,a可以表示出发位置,b可以表示目的地,dist可以表示用于确定两个地点之间的道路距离的函数,D可以表示与不同道路距离有关的概率分布数据,w可以是用于确定距离参数的函数,并且y可以是用于基于检索参数和距离参数确定更新分数的函数。在一些实施例中,语音识别设备400可以使用至少一个参数直接更新初步分数。例如,可以使用检索参数来更新与每一个候选识别结果对应的初步分数以生成更新的初步分数。可以使用距离参数进一步更新初步分数以生成更新分数。其他更新初步分数的方法也可以使用,并且这些方法也在本申请的保护范围内。
在670中,语音识别设备400(例如,结果确定模块430)可以基于更新分数来确定语音信息的目标识别结果。在一些实施例中,语音识别设备400可以按照对应的更新分数对候选识别结果进行降序排序。例如,可以将与最高分相对应的候选识别结果确定为目标识别结果。目标识别结果可以被发送到用户终端和/或处理引擎112。在一些实施例中,与目标识别结果有关的信息也可以被发送给用户终端和/或处理引擎112。例如,与目标识别结果有关的信息可以包括目标样本关键词汇。目标样本关键词汇可用于后续操作,例如生成服务请求。例如,可以将诸如出发位置和目的地的目标样本关键词汇发送到处理引擎112以生成运输服务请求。
在一些实施例中,候选识别结果可以对应于与至少两个出行方式对应的至少两个距离参数。因此,候选识别结果可以包括与至少两个出行方式对应的所有至少两个更新分数。语音识别设备400可比较与至少两个候选识别结果对应的所有更新分数,并将与最高分数相对应的候选识别结果确定为目标识别结果。在一些实施例中,与目标识别结果对应的出行方式可以作为推荐的出行方式被发送到用户终端。例如,当出行方式是自行车时,语音识别设备400可能为与运输服务关联的语音信息生成最高更新分数0.5,并且对于与运输服务关联的相同语音信息,当出行方式是汽车时,最高更新分数为0.8。语音识别设备400可以将具有更新分数0.8的候选识别结果确定为目标识别结果,并将汽车推荐为用户的出行方式。如果用户选择自行车作为出行方式,则具有0.5的更新分数的候选识别结果可以被确定为目标识别结果。
在一些实施例中,可以将具有相对高的更新分数的目标识别结果和至少两个候选识别结果发送给用户终端。例如,相对较高的更新分数可以指高于分数阈值的分数,或前三个/五个/十个分数等。用户可以通过用户终端130确认和/或修正目标识别结果。在一些实施例中,基于目标识别结果(例如,由服务器110或处理引擎112)生成的服务请求也可以被发送到用户终端130。用户可以通过用户终端确认和/或修正服务请求。在一些实施例中,所确认的服务请求可以被传送给诸如驾驶员之类的服务提供者。
图7是根据本申请的一些实施例的用于确定更新系数的示例性过程的流程图。过程700可以由语音识别系统100执行。例如,过程700可以被实现为存储在存储器(例如,图1中的语音识别系统100的存储装置140、图3中的终端设备300的存储器390)中的一组指令(例如,应用程序)。处理引擎112,终端设备300和/或图4中的模块可以执行该组指令,并且当执行指令时,处理引擎112、终端设备300和/或模块可以被配置为执行处理700。以下呈现的所示过程700的操作旨在说明。在一些实施例中,过程700可以利用未描述的一个或多个附加操作和/或没有所讨论的一个或多个操作来完成。另外,图7所示和下面描述的过程700的操作顺序不是限制性的。
在710中,语音识别设备400(例如,信息获取模块410)可以获取与至少两个候选识别结果中的每一个相对应的一个或多个提取的关键词汇。在一些实施例中,可以基于预定关键词汇提取规则提取一个或多个提取的关键词汇。例如,可以提取紧接于结构模板之后的关键词汇。有关提取关键词汇的详细信息,请参见本申请的其他位置,例如在图6中的操作630的描述中。在一些实施例中,所提取的关键词汇可以包括字符、单词、短语、句子或类似物。
在720中,语音识别设备400(例如,信息获取模块410)可以从一个或多个数据库获取至少两个样本关键词汇。在一些实施例中,一个或多个数据库可以包括样本关键词汇数据库(在运输服务中使用时也被称为POI数据库)、热度数据库、偏好数据库、出行方式数据库或类似物或其任意组合。例如,可以在操作640的描述中找到关于一个或多个数据库的细节。
在730中,语音识别设备400(例如,结果确定模块430)可以确定一个或多个提取的关键词汇中的每一个与至少两个样本关键词汇中的每一个之间的匹配度。在一些实施例中,匹配度可以基于编辑距离算法来确定。如本文所使用的,第一文本与第二文本之间的术语“编辑距离”可以指将第一文本转换为第二文本所需的最小数量的编辑操作。一种适用的编辑操作可以包括用另一个字符替换一个字符,插入一个字符或删除一个字符等。编辑距离可以与第一文本和第二文本之间的相似度成反比。即,编辑距离越小,第一文本和第二文本的相似度就越大。匹配度可以基于提取的一个或多个关键词汇中的每一个与至少两个样本关键词汇中的每一个之间的编辑距离来确定。
在一些实施例中,匹配度可以根据匹配长度来确定。例如,匹配度可以等于匹配长度与样本关键词汇的总长度之比。如这里所使用的,术语“匹配长度”是指样本关键词汇中也存在的提取的关键词汇中的单词或字符的数量。术语“关键词汇的总长度”是指样本关键词汇中的单词或字符的总数。仅作为示例,从候选识别结果中提取的关键词汇可能与位置有关并且可能被称为疑似POI。对于疑似POI“数字谷”(例如,提取的关键词汇),如果在样本关键词汇数据库(也称为“POI数据库”)中找到样本POI“数字谷”(例如,样本关键词汇),语音识别设备400可以确定疑似POI“数字谷”和样本POI“数字谷”完全匹配,并且提取的关键词汇与样本关键词汇之间的匹配度可以是1。对于疑似POI“Zhongguancun Street”,如果在POI数据库中没有找到样本POI“Zhongguancun Street”,但在POI数据库中存在样本POI“No.1,Zhongguancun Street”和其他类似样本POI,那么疑似POI“Zhongguancun Street”和样本POI“No.1,Zhongguancun Street”之间的匹配度可以根据匹配长度与样本POI总长度的比例确定为2/4=0.5,其中2是疑似POI“Zhongguancun Street”与样本POI之间完全匹配的单词数,4是样本POI“No.1,Zhongguancun Street”的总单词数。需要说明的是,还可以使用其他方法来确定一个或多个提取的关键词汇中的每一个与至少两个样本关键词汇中的每一个之间的匹配度,这些方法均在本申请的保护范围内。
在740中,语音识别设备400(例如,结果确定模块430)可以从至少两个样本关键词汇中确定一个或多个目标样本关键词汇,其中所述一个或多个目标样本关键词汇中的每一个与所述一个或多个提取的关键词汇中的每一个之间的匹配度高于第一匹配度阈值。第一匹配度阈值可以是预定值。例如,当基于匹配长度确定匹配度时,第一匹配度阈值可以是0-1之间的预定值,诸如0.4、0.5等等。
在750中,语音识别设备400(例如,结果确定模块430)可以基于一个或多个目标样本关键词汇的一个或多个匹配度来确定检索参数。基于匹配度和检索参数之间的第三转换关系,可以将匹配度转换为检索参数。例如,检索参数可以与匹配度正相关或成比例。在一些实施例中,匹配度可以乘以调整比以生成检索参数。调整比率可以小于或大于1。又例如,检索参数可以与匹配度相同。在一些实施例中,针对匹配小于第一匹配度阈值的度数,对应的检索参数可以是0。可选地或附加地,可以删除相应候选识别结果。
在一些实施例中,可以为每一个候选识别结果确定对应于至少两个目标样本关键词汇的至少两个匹配度。例如,可以基于至少两个匹配度中的最高匹配度来确定与每一个候选识别结果对应的检索参数。可选地或附加地,可以基于大于第一匹配度阈值的匹配度的平均值来确定检索参数。
在760中,语音识别设备400(例如,结果确定模块430)可以基于一个或多个目标样本关键词汇的热度信息来确定热度参数。例如,热度参数可以被确定为h(q)=q*,其中h可以表示用于将热度信息或热度值转换为热度参数的函数。q可以表示一个或多个目标样本关键词汇的热度信息或热度值,并且q*可以表示热度参数。更具体地,可以基于热度信息和热度参数之间的第一转换关系,将一个或多个目标样本关键词汇的热度信息转换为热度参数。或者,可以基于热度信息来确定热度值(也被称为“热度”)。可基于热度和热度参数之间的第二转换关系将热度值转换为热度参数。
在一些实施例中,每一个目标样本关键词汇可以对应于至少两个周期性统计时间段和/或至少两个地理区域的热度信息。语音识别设备400可以确定当前时间点和/或当前地理区域的统计时间段,并根据统计时间段和/或当前地理区域对应的热度值确定热度参数。可以基于使用次数(例如,总使用次数或使用频率)和/或使用至少两个样本关键词汇中的每一个的概率来确定热度值。
在一些实施例中,可以为每一个候选识别结果确定对应于至少两个目标样本关键词汇的至少两个热度。可以基于来自至少两个热度的最高热度值来确定与每一个候选识别结果相对应的热度参数。可选地或附加地,可以基于至少两个热度的平均值来确定热度参数。
在770中,语音识别设备400(例如,结果确定模块430)可以基于与用户关联的一个或多个目标样本关键词汇的偏好信息来确定偏好参数。基于偏好信息和偏好参数之间的第三转换关系,可以将偏好信息转换为偏好参数。
在一些实施例中,每一个目标样本关键词汇可以对应于至少两个周期性统计时间段和/或至少两个地理区域的偏好信息。语音识别设备400可以确定当前时间点和/或当前地理区域的统计时间段,并基于统计时间段和/或当前地理区域对应的偏好信息确定偏好参数。如果偏好信息包括提供语音信息的用户是否已经使用样本关键词汇,则可以基于与目标样本关键词汇相对应的匹配度来确定偏好参数。如果偏好信息包括与使用次数(例如,总使用次数或使用频率)关联的偏好值和/或用户使用至少两个样本关键词汇中的每一个的概率,则偏好参数可以基于与目标样本关键词汇对应的偏好值来确定。在一些实施例中,对于相同的匹配度,根据匹配度和偏好参数之间的第四转换关系转换的偏好参数,大于基于热度信息和热度参数之间的第一转换关系确定的热度参数。
在一些实施例中,可以为每一个候选识别结果确定对应于至少两个目标样本关键词汇的至少两个偏好度。例如,可以基于至少两个匹配度中的最高匹配度或基于至少两个匹配度的平均匹配度来确定偏好参数。又例如,可以基于来自至少两个偏好参数的最高偏好值或基于至少两个偏好参数的平均偏好值来确定偏好参数。
在780中,语音识别设备400(例如,结果确定模块430)可以基于一个或多个目标样本关键词汇来确定距离参数。仅作为示例,用户可以在语音识别设备400中输入语音信息以请求运输服务。所述一个或多个提取的关键词汇可以包括至少一个位置,诸如街道名称、商店名称、地址、POI等。距离参数可以基于出发位置和目的地之间的距离信息来确定。例如,距离信息可以是出发位置和目的地之间的道路距离。
语音识别设备400可以确定一个或多个提取的关键词汇的位置类型。位置类型可以包括出发位置类型和目的地类型。例如,如果候选识别结果在提取的关键词汇之前包括与出发位置相关联的位置类型指示词(即,出发位置指示词或出发位置信息),则语音识别设备400可以确定提取的位置类型关键词汇作为出发位置类型。类似地,如果候选识别结果在提取的关键词汇之前包括与目的地相关联的位置类型指示词(即,指示词或目的地信息),则语音识别设备400可以将提取的关键词汇的位置类型确定为目的地类型。
仅作为示例,如果出发位置类型的提取的关键词汇从一个或多个目标样本POI的第一POI完全匹配,则可以将与第一POI相对应的第一位置确定为出发位置。如果没有目标样本POI与出发位置类型的提取的关键词汇完全匹配,则可以从一个或多个目标样本POI中选择与匹配度高于第二匹配度阈值相对应的至少两个目标样本POI,并将其确定为第二POI。第二匹配度可以高于或等于第一匹配度。语音识别设备400可以确定与第二POI相对应的第二位置。语音识别设备400可以进一步基于第二位置确定平均位置作为出发位置。类似地,如果一个或多个的目的地类型的提取的关键词汇和一个或多个的目标样本POI中的第三POI完全匹配,则可以将与第三POI相对应的第三位置确定为目的地。如果没有目标样本POI与目的地类型的提取的目标样本关键词汇完全匹配,则可以从一个或多个目标样本POI中选择与匹配度高于第三匹配度阈值相对应的至少两个目标样本POI,并将其确定为第三POI。第三匹配度可以高于或等于第一匹配度。第三匹配度可以与第二匹配度相同或不同。语音识别设备400可以确定对应于第二POI的第四位置。语音识别设备400可以进一步基于第四位置确定第二平均位置作为目的地。
在一些实施例中,当没有提取到出发位置类型的关键词汇时,语音识别设备400可以获取语音信息的用户终端的定位信息,并确定用户终端的定位信息作为出发位置。当没有提取到目的地类型的关键词汇时,语音识别设备400可以向用户终端发送提示消息,以通知用户语音信息可能没有被识别到或者信息不足以例如生成服务请求或语音命令,并且用户可能需要再次提供语音信息。语音识别设备400可以获取重新提供的语音信息,并且基于重新提供的语音信息确定出发位置和目的地。
在一些实施例中,语音识别设备400可以基于从用户终端接收到的信息来确定用户可能使用的至少一个出行方式。例如,如果语音识别设备400确定可以使用与网约车服务关联的语音信息,则该至少一个出行方式可以是乘坐出租车。又例如,如果语音识别设备400确定可以使用与导航服务关联的语音信息,则该至少一个出行方式可以包括步行、骑自行车、乘坐公共汽车、乘坐地铁、乘坐出租车等,或其组合。距离参数可以基于与对应于至少一个出行方式中的每一个的不同距离信息有关的概率分布数据来确定。对应于出行方式的距离参数可以与使用出行方式在出发位置与目的地之间的道路距离的概率正相关。例如,当道路距离为1.5千米时,1.5千米对应的步行概率可以为0.3,1.5千米对应的骑自行车的概率可以为0.5,并且乘坐出租车的概率可以为0.2。与步行,骑自行车和乘坐出租车相对应的距离参数可分别基于0.3、0.5和0.2来确定。针对1.5千米,与骑自行车相对应的距离参数可能高于对应于步行和乘坐出租车的距离参数。
在790中,语音识别设备400(例如,结果确定模块430)可以基于检索参数、热度参数、偏好参数或距离参数中的至少一个来确定更新系数。例如,语音识别设备400可以基于至少一个参数的平均值或加权平均值、总和或加权和、乘积或其组合来确定更新系数。还可以使用基于至少一个参数确定更新系数的其他方法,这些方法在本申请的保护范围内。有关确定更新系数的详细信息,请参见本申请其他位置,例如,在图6中的操作650的描述中。
应该注意的是,上面的描述仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域普通技术人员而言,可以在本申请的教导下进行多种变化和修正。然而,这些变化和修正不背离本申请的范围。
图8是根据本申请的一些实施例的用于语音识别的示例性过程的示意图。仅作为示例,语音数据810可以用于运输服务。从候选识别结果提取的关键词汇可能与位置(例如,出发位置或目的地)有关并被称为疑似POI。在一些实施例中,语音识别设备400可以从用户终端(例如,用户终端130、终端设备300)获取语音数据810。语音识别设备400可以基于识别模型500识别语音数据810以生成至少两个候选识别结果和对应的初步分数。识别语音数据810的这种方法可以在例如图5和图6中找到。
在820中,语音识别设备400可基于预定关键词汇提取规则从至少两个候选识别结果中的每一个提取一个或多个疑似POI。语音识别设备400可以通过将疑似POI(即,所提取的关键词汇)与一个或多个数据库(诸如POI数据库860、POI热度数据库870、POI偏好数据库880或类似物)中的样本POI(即,样本关键词汇)进行比较,来评估至少两个候选识别结果中的每一个的准确性。
在830中,语音识别设备400可根据疑似POI与POI数据库860中的样本POI之间的匹配度,来确定至少两个候选识别结果中的每一个的检索参数。POI数据库860可以包括至少两个样本POI。每一个样本POI可以包括对应于位置(例如,地理坐标)的至少一个描述。该描述可以包括名称,地址等或其组合。语音识别设备400可以从样本POI中选择一个或多个目标样本POI,其中一个或多个目标样本POI与疑似POI之间的一个或多个匹配度高于第一匹配度阈值。检索参数可以基于目标样本POI和疑似POI之间的匹配度而被确定。
在840中,语音识别设备400可以基于疑似POI来确定热度参数和偏好参数。例如,热度参数可以根据POI热度数据库870中的目标样本POI对应的热度信息来确定。POI热度数据库870可以包括对应于至少两个样本POI中的每一个的热度信息。可以根据POI偏好数据库880中的目标样本POI对应的热度信息获取偏好参数。POI偏好数据库可以包括对应于与提供语音信息的当前用户关联的每一个样本POI的偏好信息。
在850中,语音识别设备400可以基于检索参数、热度参数和偏好参数来确定目标识别结果890。由于热度参数和偏好参数都可以指示疑似POI的使用信息,因此可以在热度参数和偏好参数选择具有较高值的二者之一。语音识别设备400可以基于检索参数,和热度参数与偏好参数之间具有较高值的参数,来确定与候选识别结果对应的更新系数。可以基于更新系数更新候选识别结果的分数,以生成候选识别结果的更新分数。目标识别结果890可以基于更新分数来选择。例如,可以将与最高更新分数相对应的候选识别结果确定为目标识别结果890。
应该注意的是,上面的描述仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域普通技术人员而言,可以在本申请的教导下进行多种变化和修正。然而,这些变化和修正不背离本申请的范围。例如,POI数据库860、POI热度数据库870和POI偏好数据库880中的一个或多个可以被集成到一个数据库中。
图9是示出根据本申请的一些实施例的用于语音识别的示例性过程的示意图。仅作为示例,语音信息910可以用于运输服务。从候选识别结果中提取的关键词汇可能涉及位置(例如,出发位置或目的地)并被称为疑似POI。在一些实施例中,语音识别设备400可以从用户终端(例如,用户终端130、终端设备300)获取语音信息910。语音识别设备400可以基于识别模型500识别语音信息910,以生成至少两个候选识别结果和对应的初步分数。这种识别语音信息910的方法可以在例如图5和图6中找到。
在920中,语音识别设备400可以提取一个或多个疑似POI。在一些实施例中,可以获取n个疑似POI。语音识别设备400可以通过将疑似POI与一个或多个数据库(比如POI数据库970,出行方式数据库980或类似物)中的样本POI进行比较来确定更新系数。
在930中,语音识别设备400可根据一个或多个疑似POI与POI数据库970中的样本POI之间的匹配度,来确定至少两个候选识别结果中的每一个的检索参数。POI数据库970可以包括至少两个样本POI。可以将与高于第一匹配度阈值的匹配度对应的样本POI确定为目标样本POI。在一些实施例中,可基于检索参数更新每一个疑似POI的初步分数。例如,对应于候选识别结果的更新的初步分数可以被表达为f(x,s),其中f是用于基于检索参数确定更新的初步分数的函数,x可以表示与该候选识别结果对应的初步分数,并且s可以表示与候选识别结果对应的检索参数。例如,更新的初步分数可以通过将初步分数乘以检索参数来获取,其可以表示为f(x,s)=xs。
在940中,语音识别设备400可以确定道路距离。道路距离可以基于出发位置和目的地的GPS信息来确定。出发位置和目的地可以基于与一个或多个疑似POI匹配的样本POI和疑似POI的位置类型(例如,它是出发位置还是目的地)来确定,例如在图7的操作780中所描述的。如果没有从候选识别结果中提取出发位置类型的疑似POI,则用户终端的定位信息可以由GPS确定。如果没有提取目的地类型的疑似POI,则可以向用户终端发送提示消息,以通知用户语音信息可能未被识别或者信息不足以诸如生成服务请求或语音命令。在一些实施例中,如果疑似POI与POI数据库中的目标样本POI完全匹配(即,匹配度为1),则直接提取目标样本POI的位置信息以确定出发位置或目的地。在一些实施例中,M个目标样本POI可以基于对应于目标样本POI的匹配度以降序排列。语音识别设备400可以基于与M个目标样本POI对应的GPS信息确定平均位置作为出发位置或目的地。在一些实施例中,语音识别设备400可以获取经由用户终端提供语音信息的用户采用的至少一个出行方式。在一些实施例中,可以确定对应于至少一个出行方式中的每一个的道路距离。
在950中,语音识别设备400可以确定距离参数。距离参数可以根据与出行数据库中的至少两个出行方式中的每一个对应的不同距离信息(例如,不同道路距离)有关的概率分布数据来确定。可以针对至少一个出行方式中的每一个出行方式,确定与在操作940中确定的道路距离对应的概率,并将其确定为或转换为距离参数。在一些实施例中,每一个候选识别结果的更新分数可以表示为g{F,p[dist(a,b),D]},其中F可以表示基于检索参数确定的更新的初步分数,a可以表示出发地,b可以表示目的地,dist可以表示用于确定两个位置之间的道路距离的函数,D可以表示与不同道路距离有关的概率分布数据,p可以是用于确定与道路距离相对应的目标概率的函数,并且g可以是用于基于更新的初步分数和距离参数来确定更新分数的功能。在一些实施例中,语音识别设备400可以基于检索参数和距离参数来确定更新系数。可以使用更新系数来更新初步分数以生成更新分数。
在960中,语音识别设备400可以确定目标识别结果990。在一些实施例中,每一个候选识别结果可对应于与至少一个出行方式关联的至少一个更新分数。例如,语音识别设备400可比较所有更新分数并将与最高的更新分数相对应的候选识别结果确定为目标识别结果。在一些实施例中,目标识别结果和与目标识别结果有关的信息可以被发送到用户终端130或处理引擎112。与目标识别结果有关的信息可以包括一个或多个目标样本关键词汇和/或与目标识别结果对应的出行方式。一个或多个目标样本(例如,出发位置、目的地)可以用于后续操作,例如生成服务请求。与目标识别结果对应的出行方式可以被确定针对用户的推荐出行方式。仅作为示例,服务请求可以是网约车服务的请求。服务请求可以被发送到与服务供应商关联的用户终端(例如,驾驶员)。
应该注意的是,上面的描述仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域普通技术人员而言,可以在本申请的教导下进行多种变化和修正。然而,这些变化和修正不背离本申请的范围。
图10是根据本申请的一些实施例的用于基于语音信息生成服务请求的示例性界面的示意图。图10中的界面1010-1040是与网约车服务相关联的示例性界面。例如,网约车服务可以由诸如“滴滴打车”之类的叫车服务APP提供。
当用户通过用户终端(例如,用户终端130、终端设备300)请求服务时,用户终端可以使用诸如GPS的定位技术来获取用户终端的当前位置,并且如界面1010所示,在用户终端的显示器上显示用户终端的当前位置周围的地图。可以在界面1010上显示至少两个街道的名称,例如“同福街”、“永康街”等。滴滴打车应用程序可以为用户提供两个选项,即现在提出服务请求,或为未来的服务请求预约。例如,用户可以点击带有文字“现在”的图标来提出服务请求。
在界面1010中点击“现在”之后,界面1020可以显示在用户终端的屏幕上。显示麦克风图标以指示用户可以说话以提供所需的信息。在界面1020中显示带有文字“按住并说话”的图标。用户可以按下并保持按钮图标进行讲话,用户终端的麦克风可以获取讲话信息。另外地或可选地,用户可以按住终端设备上用于说话的按钮,诸如主页按钮,音量按钮或其任何组合。例如,用户可能会说,“我想去北京大学”。当用户释放图标或者达到预设的记录时间长度时,麦克风可以停止获取语音信息。在获取语音信息之后,用户终端可以执行语音识别操作。或者,用户终端可以将语音信息发送给服务器(例如,图1中的服务器110),并且服务器可以执行语音识别操作。基于语音信息可以生成至少两个候选识别结果,并且可以从至少两个候选识别结果中选择目标识别结果。这种方法可以在例如图6-8中找到。如果语音识别操作由服务器执行,则可以向用户终端发送至少两个候选识别结果和/或目标识别结果。
在界面1030中,在“识别文本”下显示“我想去北京大学”的目标识别结果。四个候选识别结果的列表(例如“我想去北京动物园”等)在文本“候选文本”下显示在界面1030中。用户可以确认识别的文本或者从列表中选择候选文本,例如,通过点击识别的文本或选择的候选文本。如果识别的文本和候选文本不准确,则用户可以编辑识别的文本或候选文本。或者,用户可以再次录制单词以更新识别的文本。
在识别的文本被确认之后,用户终端可以在界面1040中生成服务请求。屏幕上可显示服务请求的出发位置和目的地。例如,可以基于用户终端的定位信息来确定出发位置。目的地可以是与目标识别结果对应的目的地类型的样本关键词汇。在界面1040中,出发位置在文本“从”下显示为“当前位置”,并且目的地在“去”文本下显示为“北京大学”。如果需要,用户也可以修正出发位置和/或目的地。用户可以点击“确认”图标来确认服务请求。否则,用户可以点击“取消”图标取消服务请求。如果用户确认服务请求,则可以发起服务请求并将其发送给服务供应商(例如,驾驶员)。
应该注意的是,上面的描述仅仅是为了说明的目的而提供的,并不意图限制本申请的范围。对于本领域普通技术人员而言,可以在本申请的教导下进行多种变化和修正。然而,这些变化和修正不背离本申请的范围。例如,用户终端界面上显示的内容可以与界面1010-1040不同。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述发明披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可以对本申请进行各种修正、改进和修正。该类修正、改进和修正在本申请中被建议,所以该类改变、改进、修正仍属本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。例如,术语“一个实施例”、“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性被包括在本申请的至少一个实施例中。因此,应该强调并且注意到,在本说明书各个部分两个或以上次提到的“一实施例”或“一个实施例”或“一替代实施例”并不一定都指的是相同的实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特征可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的过程、机器、产品或物质的组合,或对其任何新的和有用的改良。相应地,本申请的各个方面可完全实现为硬件,完全软件(包括固件、驻留软件、微代码等)或组合软件和硬件实现,其在本文中通常可被称为“单元”、“模块”、或“系统”。此外,本申请的各方面可以采取实现在一个或多个计算机可读介质中的计算机程序产品的形式,其中一个或多个计算机可读介质包含具有计算机可读程序代码。
计算机可读信号介质可以包括计算机可读程序代码的传播数据信号,例如在基带中或者作为载波的一部分。这种传播的信号可以采用多种形式中的任何形式,包括电磁、光学或类似物或其任何适当的组合。计算机可读信号介质可以是除计算机可读存储介质外的任何计算机可读介质,并且可以通信、传播或传输用于指令执行系统、设备或设备使用的或与之相关联的程序。体现在计算机可读信号介质上的程序代码可以使用任何适当的介质来传输,包括无线、有线、光缆、RF等,或者前述的任何适当的组合。
用于执行本申请的各个方面的操作的计算机程序代码可以以一种或多种程序设计语言的组合来编写,所述程序设计语言包括面向对象的编程语言,诸如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB;常规过程编程语言,诸如“C”编程语言,Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP;动态编程语言(诸如Python、Ruby和Groovy)或其他编程语言。程序代码可以完全在用户的计算机上,部分在用户的计算机上,作为独立的软件包,部分在用户的计算机上,部分在远程计算机上,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN)、或者可以连接到外部计算机(例如,通过使用互联网服务供应商的互联网)、或者在云计算环境中、或作为服务使用如软件即服务(SaaS)。
此外,处理元件或序列的叙述顺序或因此使用数字,字母或其他标记并非意图将要求保护的过程和方法限制为除了权利要求中可以指定的顺序之外的任何顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求幷不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比每一个权利要求中明确提及的特征多。而是,所要求保护的主题的特征可以少于上述单个申请实施例的所有特征。
Claims (48)
1.一种在计算设备上实现的方法,所述计算设备具有至少一个存储设备、数据交换端口和至少一个处理器,所述存储设备存储用于语音识别的一组指令,所述数据交换端口以通信方式连接到网络,所述至少一个处理器与所述至少一个存储设备和所述数据交换端口通信,所述方法包括:
获取由用户发出的语音信息的至少两个候选识别结果和与所述至少两个候选识别结果分别对应的至少两个初步分数;
对于所述至少两个候选识别结果中的每一个,
从所述候选识别结果中提取一个或多个关键词汇;
确定与所述一个或多个提取的关键词汇相关联的至少一个参数;
基于所述至少一个参数生成更新系数;以及
基于所述更新系数更新初步分数以生成更新分数;以及
从所述至少两个候选结果中基于所述至少两个更新分数确定目标识别结果。
2.根据权利要求1所述的方法,其中确定与所述一个或多个提取的关键词汇相关联的至少一个参数包括:
由数据交换端口从数据库中获取至少两个样本关键词汇;
对于所提取的所述一个或多个关键词汇中的每一个,
确定所述一个或多个提取的关键词汇中的每一个与所述至少两个样本关键词汇中的每一个之间的匹配度;
从所述至少两个样本关键词汇中确定一个或多个目标样本关键词汇,其中所述一个或多个目标样本关键词汇中的每一个与所述提取的关键词汇之间的匹配度高于匹配度阈值;以及
基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数。
3.根据权利要求2所述的方法,其中所述至少一个参数包括检索参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数包括:
基于所述一个或多个目标样本关键词汇与所述一个或多个提取的关键词汇之间的所述匹配度确定所述检索参数。
4.根据权利要求2所述的方法,其中所述至少一个参数包括热度参数,并且基于所述一个或多个目标样本关键词汇来确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数包括:
获取所述一个或多个目标样本关键词汇的热度;以及
基于所述一个或多个目标样本关键词汇的热度来确定热度参数。
5.根据权利要求2所述的方法,其中所述至少一个参数包括偏好参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数包括:
获取用户关于所述一个或多个目标样本关键词汇的偏好度;以及
基于所述一个或多个目标样本关键词汇的所述偏好度确定所述偏好参数。
6.根据权利要求2所述的方法,其中所述至少一个参数包括距离参数,基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数包括:
获取与所述一个或多个目标样本关键词汇相关联的位置信息;
识别所述候选识别结果中的一个或多个位置类型指示词;
对于紧接在所述一个或多个识别的位置类型指示词之后的所述一个或多个提取的关键词汇中的每一个,基于所述对应的位置类型指示词来确定所述提取的关键词汇的位置类型;
基于与所述一个或多个目标样本关键词汇相关联的所述位置信息和所述一个或多个提取的关键词汇中的每一个的位置类型,确定与所述一个或多个提取的关键词汇相关联的距离信息;以及
基于所述距离信息确定所述距离参数。
7.根据权利要求6所述的方法,进一步包括:
在统计时间段中获取对应于至少一个出行方式中的每一个相关联的所述距离信息的第一数量的出行次数;
确定在所述统计时间段中所有所述至少一个出行方式相关联的所述距离信息相对应的的第二数量的出行次数;
对于所述至少一个出行方式中的每一个,基于所述第一数量的出行次数和所述第二数量的出行次数确定所述出行方式的使用概率;
获取与语音信息相关联的出行方式;以及
基于使用与所述语音信息相关联的所述出行方式的所述概率来确定所述距离参数。
8.根据权利要求1所述的方法,其中所述至少一个参数包括热度参数、偏好参数、检索参数或距离参数中的至少一个,并且基于所述至少一个参数生成更新系数包括:
基于所述热度参数、所述偏好参数和所述检索参数生成所述更新系数;或者
基于所述距离参数和所述检索参数生成所述更新系数。
9.根据权利要求1所述的方法,其中所述目标识别结果包括出发地或目的地,并且所述方法进一步包括:
基于所述目标识别结果生成服务请求。
10.根据权利要求9所述的方法,进一步包括:
将所述服务请求发送到与服务供应商相关联的用户终端。
11.一种语音识别系统,包括:
至少一个存储设备,所述存储设备包括一组指令;
以通信方式连接到网络的数据交换端口;以及
与所述至少一个存储设备和所述数据交换端口通信的至少一个处理器,所述至少一个处理器被配置为执行所述指令集,并且被指导为使所述系统:
获取由用户发出的语音信息的至少两个候选识别结果和与所述至少两个候选识别结果分别对应的至少两个初步分数;
对于所述至少两个候选识别结果中的每一个,
从所述候选识别结果中提取一个或多个关键词汇;
确定与所述一个或多个提取的关键词汇相关联的至少一个参数;
基于所述至少一个参数生成更新系数;以及
基于所述更新系数更新所述初步分数以生成更新分数;以及
从所述至少两个候选识别结果中基于所述至少两个更新分数确定目标识别结果。
12.根据权利要求11所述的系统,其中为了确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数,所述至少一个处理器进一步被指导为使所述系统:
由所述数据交换端口从数据库获取至少两个样本关键词汇;
对于所提取的所述一个或多个关键词汇中的每一个关键词汇,
确定所述一个或多个提取的关键词汇中的每一个与所述至少两个样本关键词汇中的每一个之间的匹配度;以及
从所述至少两个样本关键词汇中确定一个或多个目标样本关键词汇,所述一个或多个目标样本关键词汇中的每一个与所述提取的关键词汇之间的匹配度高于匹配度阈值;以及
基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数。
13.根据权利要求12所述的系统,其中所述至少一个参数包括检索参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数,所述至少一个处理器进一步被指导为使所述系统:
基于所述一个或多个目标样本关键词汇和所述一个或多个提取的关键词汇之间的所述匹配度确定所述检索参数。
14.根据权利要求12所述的系统,其中所述至少一个参数包括热度参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数,所述至少一个处理器进一步被指导为使所述系统:
获取所述一个或多个目标样本关键词汇的热度;以及
基于所述一个或多个目标样本关键词汇的所述热度来确定热度参数。
15.根据权利要求12所述的系统,其中所述至少一个参数包括偏好参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数,所述至少一个处理器进一步被指导为使所述系统:
获取所述用户对于所述一个或多个目标样本关键词汇的偏好度;以及
基于所述一个或多个目标样本关键词汇的所述偏好度确定所述偏好参数。
16.根据权利要求12所述的系统,其中所述至少一个参数包括距离参数,并且基于所述一个或多个目标样本关键词汇确定与所述一个或多个提取的关键词汇相关联的所述至少一个参数,所述至少一个处理器进一步被指导为使所述系统:
获取与所述一个或多个目标样本关键词汇相关联的位置信息;
识别所述候选识别结果中一个或多个位置类型指示词;
对于紧接在所述一个或多个所识别的位置类型指示词之后的所述一个或多个提取的关键词汇中的每一个,基于所述对应的位置类型指示词来确定所述提取的关键词汇的位置类型;
基于与所述一个或多个目标样本关键词汇相关联的位置信息以及所述一个或多个提取的关键词汇中的每一个的位置类型,确定与所述一个或多个提取的关键词汇相关联的距离信息;以及
基于所述距离信息确定所述距离参数。
17.根据权利要求16所述的系统,其中所述至少一个处理器进一步被指导为使所述系统:
在统计时间段中获取对应于至少一个出行方式中的每一个相关联的所述距离信息的第一数量的出行次数;
确定在所述统计时间段中所有所述至少一个出行方式相关联的所述距离信息相对应的第二数量的出行次数;
对于所述至少一个出行方式中的每一个,基于所述第一数量的出行次数和所述第二数量的出行次数来确定所述出行方式的使用概率;
获取与所述语音信息相关联的出行方式;以及
基于使用与所述语音信息相关联的所述出行方式的概率来确定所述距离参数。
18.根据权利要求11所述的系统,其中所述至少一个参数包括热度参数、偏好参数、检索参数或距离参数中的至少一个,并且基于所述至少一个参数生成更新系数,所述至少一个处理器进一步被指导为使所述系统:
基于所述热度参数、所述偏好参数和所述检索参数生成所述更新系数;或者
基于所述距离参数和所述检索参数生成所述更新系数。
19.根据权利要求11所述的系统,其中所述目标识别结果包括出发地或目的地,并且所述至少一个处理器进一步被指导为使所述系统:
基于所述目标识别结果生成服务请求。
20.根据权利要求19所述的系统,其中所述至少一个处理器进一步被指导为使所述系统:
将所述服务请求发送到与服务供应商相关联的用户终端。
21.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括用于语音识别的一组指令,当由至少一个处理器执行时,所述指令指导所述至少一个处理器实现一种方法,所述方法包括:
获取由用户发出的语音信息的至少两个候选识别结果和与所述至少两个候选识别结果分别对应的至少两个初步分数;
对于所述至少两个候选识别结果中的每一个,
从所述候选识别结果中提取一个或多个关键词汇;
确定与所述一个或多个提取的关键词汇相关联的至少一个参数;
基于所述至少一个参数生成更新系数;以及
基于所述更新系数更新所述初步分数以生成更新分数;以及
从所述至少两个候选识别结果中基于所述至少两个更新分数确定目标识别结果。
22.一种在计算设备上实现的方法,所述计算设备具有至少一个存储设备和至少一个处理器,至少一个存储设备存储一组用于语音识别的指令,所述至少一个处理器与所述至少一个存储设备通信,所述方法包括:
获取由当前用户提供的语音信息的至少两个候选识别结果和至少两个初步分数,所述至少两个初步分数中的每一个对应于所述候选识别结果中的一个候选识别结果;
基于预定关键词汇提取规则从所述至少两个候选识别结果中的每一个中提取预设类型的一个或多个关键词汇;
基于所述提取的一个或多个关键词汇修正与所述至少两个候选识别结果中的每一个相对应的所述初步分数,并且基于修正的结果确定所述语音信息的目标识别结果。
23.根据权利要求22所述的方法,其中基于所述提取的一个或多个关键词汇修正与所述至少两个候选识别结果中的每一个相对应的所述初步分数包括:
基于所提取所述一个或多个关键词汇与预设样本数据库中的至少两个样本关键词汇之间的相似度,确定具有提取的所述一个或多个关键词汇的所述至少两个候选识别结果中的每一个的更新系数;以及
基于所述更新系数更新与所述至少两个候选识别结果中的每一个相对应的所述初步分数,以生成对应于所述至少两个候选识别结果中的每一个的更新分数。
24.根据权利要求23所述的方法,其中所述预设样本数据库进一步包括所述至少两个样本关键词汇的热度信息或当前用户使用所述至少两个样本关键词汇的历史信息中的至少一个。
25.根据权利要求24所述的方法,其中
所述预设样本数据库进一步包括所述至少两个样本关键词汇的所述热度信息,以及
基于提取的所述一个或多个关键词汇与预设样本数据库中的至少两个样本关键词汇之间的相似度,确定具有所述一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数包括:
确定所述一个或多个提取的关键词汇和所述至少两个样本关键词汇之间的相似度;
从所述至少两个样本关键词汇中选择一个或多个样本关键词汇,其中所述一个或多个提取的关键词汇与所述一个或多个选择的样本关键词汇之间的相似度大于相似度阈值;
根据热度信息和热度参数之间的第一转换关系,将选择的所述一个或多个样本关键词汇的所述热度信息转换为一个或多个热度参数;以及
基于所述一个或多个热度参数,确定具有所述一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数。
26.根据权利要求25所述的方法,其中
所述至少两个样本关键词汇的热度信息包括对应于所述至少两个周期性统计时间段相的所述至少两个样本关键词汇的至少两个热度,以及
根据所述热度信息和所述热度参数之间的第一转换关系,将所选择的一个或多个样本关键词汇的所述热度信息转换为一个或多个热度参数包括:
确定当前时间所属的统计时间段;
从与所述至少两个周期性统计时间段对应的所述一个或多个选择的样本关键词汇的至少两个热度中选择与所述统计时间段对应的一个或多个热度;以及
根据所述热度和所述热度参数之间的第二转换关系,将所述一个或多个热度转换为所述至少两个候选识别结果中的每一个的一个或多个热度参数。
27.根据权利要求24所述的方法,其中
预设样本数据库进一步包括所述至少两个样本关键词汇的热度信息和所述当前用户使用所述至少两个样本关键词汇的所述历史信息;以及
基于所提取的所述一个或多个关键词汇与预设样本数据库中的所述至少两个样本关键词汇之间的相似度,确定具有所述一个或多个提取的关键词汇的所述至少两个候选识别结果中的每一个的更新系数包括:
确定一个或多个提取的关键词汇和所述至少两个样本关键词汇之间的相似度;
根据所述相似度与检索参数之间的第三转换关系将所述相似度转换为检索参数;
根据所述相似度与偏好参数之间的第四转换关系,将所述相似度转换为偏好参数;
基于所述相似度、所述至少两个样本关键词汇的所述热度信息以及所述热度信息与热度参数之间的第一转换关系来确定热度参数;以及
通过将所述检索参数加上或乘以所述偏好参数和所述热度参数之间的较高值,来确定具有所述一个或多个提取的关键词汇的所述至少两个候选识别结果中的所述每一个的所述更新系数,
对于相同的相似度,根据相似度和偏好参数之间的所述第四转换关系转换的偏好参数是大于基于热度信息和热度参数之间的所述第一转换关系确定的热度参数。
28.一种用于语音识别的设备,包括:
至少一个存储设备,所述至少一个存储设备包括一组指令;以及
与所述至少一个存储设备通信的至少一个处理器,其中所述至少一个处理器被配置为执行所述一组指令,所述至少一个处理器包括:
信息获取模块,被配置为获取当前用户提供的语音信息的至少两个候选识别结果以及至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述候选识别结果中的一个;
信息提取模块,被配置为基于预定的关键词汇提取规则从所述至少两个候选识别结果中的每一个中提取预设类型的一个或多个关键词汇;以及
结果确定模块,被配置为基于所提取的所述一个或多个关键词汇修正与所述至少两个候选识别结果中的所述每一个相对应的所述初步分数,并基于所述修正结果确定所述语音信息的目标识别结果。
29.根据权利要求28所述的设备,其中所述结果确定模块包括:
更新系数确定子模块,被配置为基于所述一个或多个提取的关键词汇与预设样本数据库中的至少两个样本关键词汇之间的相似度,确定具有所述一个或多个提取的关键词汇的至少两个候选识别结果中的所述每一个的更新系数;以及
信息修正子模块,被配置为基于所述更新系数更新与所述至少两个候选识别结果中的所述每一个相对应的所述初步分数,以生成与所述至少两个候选识别结果中的所述每一个相对应的更新分数。
30.根据权利要求29所述的设备,其中所述预设样本数据库进一步包括所述至少两个样本关键词汇的热度信息或所述当前用户使用所述至少两个样本关键词汇的历史信息中的至少一个。
31.根据权利要求30所述的设备,其中
所述预设样本数据库进一步包括所述至少两个样本关键词汇的所述热度信息,以及
所述更新系数确定子模块进一步被配置为:
确定所述一个或多个提取的关键词汇与所述至少两个样本关键词汇之间的相似度;
从所述至少两个样本关键词汇中选择一个或多个样本关键词汇,其中所述一个或多个提取的关键词汇与所述一个或多个选择的样本关键词汇之间的相似度大于相似度阈值;
基于热度信息和热度参数之间的第一转换关系将所选择的一个或多个样本关键词汇的所述热度信息转换为一个或多个热度参数;以及
基于所述一个或多个热度参数,确定具有所提取的所述一个或多个关键词汇的所述至少两个候选识别结果中的所述每一个的更新系数。
32.根据权利要求31所述的设备,其中
所述至少两个样本关键词汇的所述热度信息包括与至少两个周期性统计时间段相对应的所述至少两个样本关键词汇的至少两个热度,以及
所述更新系数确定子模块进一步被配置为:
确定当前时间所属统计时间段;
从与至少两个周期性统计时间段相对应的所述一个或多个选择的所述样本关键词汇的所述至少两个热度中,选择与所述统计时间段相对应的一个或多个热度;以及
根据热度和热度参数之间的第二转换关系,将所述一个或多个热度转换为所述至少两个候选识别结果中的所述每一个的所述一个或多个热度参数。
33.根据权利要求30所述的设备,其中
所述预设样本数据库进一步包括所述至少两个样本关键词汇的所述热度信息和所述当前用户使用所述至少两个样本关键词汇的所述历史信息;以及
所述更新系数确定子模块包括:
相似度确定单元,被配置为确定所述一个或多个提取的关键词汇与所述至少两个样本关键词汇之间的相似度;
检索参数确定单元,被配置为根据所述相似度与检索参数之间的第三转换关系,将所述相似度转换为检索参数;
偏好参数确定单元,被配置为确定所述一个或多个提取的关键词汇与至少两个样本关键词汇之间的相似度,并根据相似度与偏好参数之间的第四转换关系将所述相似度转换为偏好参数;
热度参数确定单元,被配置为基于所述相似度、所述至少两个样本关键词汇的热度信息以及热度信息与热度参数之间的第一转换关系确定热度参数;以及
更新系数确定单元,被配置为通过将所述检索参数加上或乘以所述偏好参数和所述热度参数二者之间的较高值,来确定具有一个或多个提取的关键词汇的至少两个候选识别结果中的每一个的更新系数,
其中对于相同的相似度,根据相似度和偏好参数之间的所述第四转换关系转换的所述偏好参数大于基于热度信息和热度参数之间的所述第一转换关系确定的所述热度参数。
34.一种非暂时性计算机可读介质,包括用于语音识别的一组指令,当由至少一个处理器执行时,所述指令引导所述至少一个处理器实现方法,所述方法包括:
获取由当前用户提供的语音信息的至少两个候选识别结果和至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述候选识别结果中的一个;
基于预定关键词汇提取规则从所述至少两个候选识别结果中的每一个中提取预设类型的一个或多个关键词汇;
基于提取的所述一个或多个关键词汇来修正与所述至少两个候选识别结果中的所述每一个相对应的所述初步分数,并且基于所述修正的结果来确定所述语音信息的目标识别结果。
35.一种在计算设备上实现的方法,所述计算设备具有至少一个存储设备和至少一个处理器,所述至少一个存储设备用于运输服务中的语音识别的一组指令,所述至少一个处理器与所述至少一个存储设备通信,所述方法包括:
接收并分析语音信息以生成所述语音信息的至少两个候选识别结果和至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述至少两个候选识别结果中的一个;
从所述至少两个候选识别结果中的所述每一个中提取至少一个位置的信息;
在数据库中搜索与所述至少一个位置中的每一个位置匹配的一个或多个兴趣点,并且基于在搜索到的所述一个或多个兴趣点和所述至少一个位置中的所述每一个之间的匹配结果,来确定所述至少两个候选识别结果中的所述每一个的第一参数;
确定所述至少两个候选识别结果中的所述每一个的所述至少一个位置中的所述每一个的位置类型,并且基于所述位置类型确定所述至少两个候选识别结果中的所述每一个的第二参数;
基于对应于所述至少两个识别结果中的所述每一个的所述初步分数、所述第一参数和所述第二参数,确定与所述至少两个候选识别结果中的所述每一个相对应的更新分数;
确定与所述至少两个候选识别结果对应的至少两个更新分数中的最高更新分数,并输出与所述最高分数相对应的识别结果。
36.根据权利要求35所述的方法,其中所述在数据库中搜索与所述至少一个位置中的每一个匹配的一个或多个兴趣点,并且基于搜索到的所述一个或多个兴趣点和所述至少一个位置中的所述每一个的匹配结果确定所述至少两个候选识别结果中的所述每一个的第一参数包括:
当在所述数据库中找到与所述至少一个位置相匹配的兴趣点时,
将所述识别结果的所述第一个参数确定为1;
当在所述数据库中未找到与所述至少一个位置相匹配的兴趣点时,
确定所述数据库中的所述一个或多个兴趣点中的每一个与所述至少一个位置之间的匹配度;
当所述一个或多个兴趣点中的所述每一个与所述至少一个位置之间的所述匹配度小于或等于第一匹配度阈值时,
将所述识别结果的所述第一参数确定为0;以及
当所述一个或多个兴趣点中的所述每一个与所述至少一个位置之间的所述匹配度大于所述第一匹配度阈值时,
基于所述匹配度确定所述识别结果的所述第一参数,其中所述
识别结果的所述第一参数与所述匹配度成正比。
37.根据权利要求35所述的方法,其中所述确定与所述至少两个候选识别结果中的所述每一个相对应的所述至少一个位置中的所述每一个的位置类型包括:
确定所述识别结果是否在所述至少一个位置的信息之前包括出发地信息;
响应于确定所述识别结果在任何所述至少一个位置的所述信息之前不包括出发地信息,
确定与语音信息相关的位置信息作为所述出发地;以及
响应于确定所述识别结果在所述至少一个出发地的所述信息之前包括出发地信息,
在所述数据库中搜索与所述至少一个位置匹配的第一兴趣点,并确定与所述第一兴趣点对应的第一位置作为所述出发地;或者
在所述数据库中搜索至少两个第二兴趣点,所述至少两个第二兴趣点中的每一个与所述至少一个位置之间的匹配度大于第二匹配度阈值,确定与所述至少两个第二兴趣点中的所述每一个对应的第二位置,以及基于与所述至少两个第二兴趣点对应的所述第二位置确定第一平均位置作为所述出发地。
38.根据权利要求37所述的方法,其中所述确定与所述至少两个候选识别结果中的所述每一个相对应的所述至少一个位置中的所述每一个的位置类型进一步包括:
确定所述识别结果是否包括在所述至少一个位置的信息之前包括目的地信息;
响应于确定所述识别结果在任何的所述至少一个位置的所述信息之前不包括目的地信息,
生成用于通知用户提供目的地信息的通知;以及
响应于确定所述识别结果在所述至少一个目的地的所述信息之前包括目的地信息,
在所述数据库中搜索与所述至少一个位置的所述信息匹配的第三兴趣点,并确定与所述第三兴趣点对应的第三位置作为所述目的地;或者
在所述数据库中搜索至少两个第四兴趣点,其中所述至少两个第四兴趣点中的每一个与所述至少一个位置之间的匹配度大于第三匹配度阈值,确定与所述至少两个第四兴趣点中的所述每一个第四兴趣点对应的第四位置,以及基于与所述至少两个第四兴趣点对应的所述第二位置确定第二平均位置作为目的地。
39.根据权利要求38所述的方法,其中所述基于所述位置类型来确定所述至少两个候选识别结果中的所述每一个的所述第二参数包括:
对于所述至少两个候选识别结果中的所述每一个,确定从所述出发地到所述目的地的距离信息;
确定对应于所述距离信息的至少一个出行方式;
确定在统计时间周期中与所述至少一个出行方式中的所述每一个出行方式的所述距离信息对应的出行次数;
基于所述至少一个出行方式中的所述每一个出行方式相对应的所述出行次数与所述统计时间段中的出行总次数,来确定所述至少一个出行方式中的每一个的使用概率;以及
确定所述使用概率为第二参数。
40.根据权利要求35-39中任一项所述的方法,进一步包括:
将与每一个兴趣点有关的名称与对应于所述兴趣点的位置进行相关,并将所述相关存储到数据库中。
41.一种用于运输服务中的语音识别系统,包括:
至少一个存储设备,包括一组指令;以及
与所述至少一个存储设备通信的至少一个处理器,其中所述至少一个处理器被配置为执行所述一组指令,所述至少一个处理器包括:
初步分数确定模块,被配置为接收并分析语音信息以生成所述语音信息的至少两个候选识别结果和至少两个初步分数,其中所述至少两个初步分数中的每一个对应于所述至少两个候选识别结果中的一个;
提取模块,被配置为从所述至少两个候选识别结果中的所述每一个中提取至少一个位置的信息;
第一参数分配模块,被配置为在数据库中搜索与所述至少一个位置中的所述每一个位置匹配的一个或多个兴趣点(兴趣点),并且基于搜索到的一个或多个兴趣点与所述至少一个位置中的每一个的匹配结果来确定所述至少两个候选识别结果中的所述每一个的第一参数;
第二参数分配模块,被配置为确定所述至少两个候选识别结果中的所述每一个候选识别结果中的所述至少一个位置中的所述每一个的位置类型,以及基于位置类型确定所述至少两个候选识别结果中的所述每一个的第二参数;
修正模块,被配置为基于所述第一参数和所述第二参数确定与所述至少两个候选识别结果中的所述每一个相对应的更新分数;以及
输出模块,被配置为确定与至少两个候选识别结果对应的至少两个更新分数中的最高更新分数,并输出与所述最高更新分数相对应的识别结果。
42.根据权利要求41所述的系统,其中所述第一参数分配模块被配置为:
当在所述数据库中找到所述与至少一个位置相匹配的兴趣点时,
将识别结果的第一个参数确定为1;
当在所述数据库中未找到与所述至少一个位置匹配的兴趣点时,
确定所述数据库中的所述一个或多个兴趣点中的每一个与所述至少一个位置之间的匹配度;
当所述一个或多个兴趣点中的所述每一个与所述至少一个位置之间的所述匹配度小于或等于第一匹配度阈值时,
将所述识别结果的所述第一个参数确定为0;以及
当所述一个或多个兴趣点中的所述每一个与所述至少一个位置之间的所述匹配度大于所述第一匹配度阈值时,
基于所述匹配度确定所述识别结果的第一参数,其中所述识别结果的所述第一参数与所述匹配度成正比。
43.根据权利要求41所述的系统,其中所述第二参数分配模块包括出发地确定子模块,被配置为:
确定所述识别结果是否在所述至少一个位置的所述信息之前包括出发地信息;
响应于确定所述识别结果在任何的所述至少一个位置所述信息之前不包括出发地信息,
确定与所述语音信息有关的位置信息作为所述出发地;以及
响应于确定所述识别结果在所述至少一个位置的所述信息之前包括出发地信息,
在所述数据库中搜索与所述至少一个位置匹配的第一兴趣点,并确定与所述第一兴趣点对应的第一位置作为所述出发地;或者
在所述数据库中搜索至少两个第二兴趣点,所述至少两个第二兴趣点中的每一个与所述至少一个位置之间的匹配度大于第二匹配度阈值,确定与所述至少两个第二兴趣点中的所述每一个对应的第二位置,并且基于与所述至少两个第二兴趣点相对应的所述第二位置确定第一平均位置作为所述出发地。
44.根据权利要求43所述的系统,其中所述第二参数分配模块包括目的地确定子模块,被配置为:
确定所述识别结果是否在所述至少一个位置的所述信息之前包括目的地信息;
响应于确定所述识别结果在任何的所述至少一个位置的所述信息之前不包括目的地信息,
生成用于通知用户提供目的地信息的通知;以及
响应于确定所述识别结果在所述至少一个位置的所述信息之前包括目的地信息,
在所述数据库中搜索与所述至少一个位置的所述信息匹配的第三兴趣点,并确定与所述第三兴趣点对应的第三位置作为所述目的地;或者
在所述数据库中搜索至少两个第四兴趣点,其中所述至少两个第四兴趣点中的每一个与所述至少一个位置之间的匹配度大于第三匹配度阈值,确定与所述至少两个第四兴趣点中的所述每一个对应的第四位置,以及基于与所述至少两个第四兴趣点对应的所述第二位置确定第二平均位置作为所述目的地。
45.根据权利要求44所述的系统,其中所述第二参数分配模块进一步包括:
距离确定子模块,被配置为针对所述至少两个候选识别结果中的所述每一个,确定从所述出发地到所述目的地的距离信息;
概率确定子模块,被配置为
确定对应于所述距离信息的至少一个出行方式;
确定在统计时间周期中与所述至少一个出行方式中的所述每一个出行方式的所述距离信息相对应的出行次数;
基于所述统计时间段中的所述至少一个出行方式中的所述每一个出行方式相对应的所述出行次数与行程总次数,来确定所述至少一个出行方式中的每一个出行方式的使用概率;以及
确定所述使用概率作为所述第二参数。
46.根据权利要求41-45中任一项所述的系统,进一步包括相关模块,被配置为:
将与每一个兴趣点有关的名称与对应于所述兴趣点的位置进行相关,并将所述相关存储到所述数据库中。
47.一种计算设备,包括存储一组指令的至少一个存储设备以及与所述至少一个存储设备通信的至少一个处理器,当执行所述指令时,所述至少一个处理器被指导为实现如权利要求35-40中任一项所述的方法。
48.一种非暂时性计算机可读介质,包括用于语音识别的一组指令,当执行所述指令时,所述至少一个处理器指导执行权利要求35-40中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710451642.7A CN109145281B (zh) | 2017-06-15 | 2017-06-15 | 语音识别方法、装置及存储介质 |
CN2017104516427 | 2017-06-15 | ||
CN2017104692908 | 2017-06-20 | ||
CN201710469290.8A CN109101475B (zh) | 2017-06-20 | 2017-06-20 | 出行语音识别方法、系统和计算机设备 |
PCT/CN2018/091430 WO2018228515A1 (en) | 2017-06-15 | 2018-06-15 | Systems and methods for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110770819A true CN110770819A (zh) | 2020-02-07 |
CN110770819B CN110770819B (zh) | 2023-05-12 |
Family
ID=64660639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880039823.1A Active CN110770819B (zh) | 2017-06-15 | 2018-06-15 | 语音识别系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11302313B2 (zh) |
CN (1) | CN110770819B (zh) |
TW (1) | TW201921336A (zh) |
WO (1) | WO2018228515A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538890A (zh) * | 2020-04-02 | 2020-08-14 | 中国铁道科学研究院集团有限公司 | 一种基于语音识别的室内引导方法及系统 |
CN111845751A (zh) * | 2020-07-28 | 2020-10-30 | 盐城工业职业技术学院 | 一种可切换控制多个农用拖拉机的控制终端 |
CN112151022A (zh) * | 2020-09-25 | 2020-12-29 | 北京百度网讯科技有限公司 | 语音识别的优化方法、装置、设备以及存储介质 |
CN112163685A (zh) * | 2020-09-11 | 2021-01-01 | 广州宸祺出行科技有限公司 | 一种基于语音ai的智能撮合行程的方法及系统 |
CN113658580A (zh) * | 2021-06-24 | 2021-11-16 | 大众问问(北京)信息科技有限公司 | 语音提示方法、装置、计算机设备和存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2744063C1 (ru) * | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
CN111009240A (zh) * | 2019-12-06 | 2020-04-14 | 广州易来特自动驾驶科技有限公司 | 一种语音关键词筛选方法、装置、出行终端、设备及介质 |
TWI815658B (zh) * | 2022-09-14 | 2023-09-11 | 仁寶電腦工業股份有限公司 | 語音辨識裝置、語音辨識方法及雲端辨識系統 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1941077A (zh) * | 2005-09-27 | 2007-04-04 | 株式会社东芝 | 识别语音输入中的字符串的语音识别设备和方法 |
US20090234847A1 (en) * | 2008-03-11 | 2009-09-17 | Xanavi Informatics Comporation | Information retrieval apparatus, informatin retrieval system, and information retrieval method |
CN101785051A (zh) * | 2007-08-22 | 2010-07-21 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
CN103544140A (zh) * | 2012-07-12 | 2014-01-29 | 国际商业机器公司 | 一种数据处理方法、展示方法和相应的装置 |
JP2014077882A (ja) * | 2012-10-10 | 2014-05-01 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN104756100A (zh) * | 2012-11-30 | 2015-07-01 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN105447019A (zh) * | 2014-08-20 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于用户使用场景的输入识别结果校正方法和系统 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003025904A1 (en) | 2001-09-17 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word |
US7228275B1 (en) | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
JP4027357B2 (ja) | 2004-10-08 | 2007-12-26 | キヤノン株式会社 | 文字列入力装置およびその制御方法 |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US9478218B2 (en) | 2008-10-24 | 2016-10-25 | Adacel, Inc. | Using word confidence score, insertion and substitution thresholds for selected words in speech recognition |
CN102341843B (zh) | 2009-03-03 | 2014-01-29 | 三菱电机株式会社 | 语音识别装置 |
US8311812B2 (en) | 2009-12-01 | 2012-11-13 | Eliza Corporation | Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel |
JP5532880B2 (ja) | 2009-12-07 | 2014-06-25 | ヤマハ株式会社 | 音声認識装置 |
EP2388780A1 (en) | 2010-05-19 | 2011-11-23 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for extending or compressing time sections of an audio signal |
KR101373053B1 (ko) | 2010-07-06 | 2014-03-11 | 한국전자통신연구원 | 문장 번역 장치 및 그 방법 |
KR101122436B1 (ko) | 2010-09-30 | 2012-03-09 | 엔에이치엔(주) | 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치 |
CN102063901A (zh) | 2010-12-02 | 2011-05-18 | 深圳市凯立德欣软件技术有限公司 | 位置服务设备的语音识别方法及位置服务设备 |
CN102110362B (zh) | 2011-02-01 | 2013-05-29 | 北京汉风和科技发展有限公司 | 一种规划出行路线的处理方法及系统 |
US20130024448A1 (en) * | 2011-07-21 | 2013-01-24 | Microsoft Corporation | Ranking search results using feature score distributions |
CN103917847B (zh) | 2011-11-10 | 2017-03-01 | 三菱电机株式会社 | 导航装置及方法 |
CN103020098A (zh) | 2012-07-11 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 提供具有语音识别功能的导航业务的搜索方法 |
WO2014060054A1 (de) | 2012-10-16 | 2014-04-24 | Audi Ag | Spracherkennung in einem kraftfahrzeug |
CN103021403A (zh) | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
CN104166645A (zh) * | 2013-05-15 | 2014-11-26 | 大陆汽车投资(上海)有限公司 | 兴趣点及路径信息的获取方法和车载电子设备 |
TWI518675B (zh) | 2013-08-15 | 2016-01-21 | 中華電信股份有限公司 | 利用語者識別的切割音視訊片段的方法 |
CN103677729B (zh) | 2013-12-18 | 2017-02-08 | 北京搜狗科技发展有限公司 | 一种语音输入方法和系统 |
CN104836720B (zh) * | 2014-02-12 | 2022-02-25 | 北京三星通信技术研究有限公司 | 交互式通信中进行信息推荐的方法及装置 |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
US9833174B2 (en) | 2014-06-12 | 2017-12-05 | Rochester Institute Of Technology | Method for determining hearing thresholds in the absence of pure-tone testing |
CN105448292B (zh) * | 2014-08-19 | 2019-03-12 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别系统和方法 |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
KR102420450B1 (ko) | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
CN105702252B (zh) | 2016-03-31 | 2019-09-17 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN105931642B (zh) | 2016-05-31 | 2020-11-10 | 北京京东尚科信息技术有限公司 | 语音识别方法、设备及系统 |
CN106128462A (zh) | 2016-06-21 | 2016-11-16 | 东莞酷派软件技术有限公司 | 语音识别方法及系统 |
CN106205613B (zh) | 2016-07-22 | 2019-09-06 | 广州市迈图信息科技有限公司 | 一种导航语音识别方法及系统 |
CN106448675B (zh) | 2016-10-21 | 2020-05-01 | 科大讯飞股份有限公司 | 识别文本修正方法及系统 |
CN106776763B (zh) | 2016-11-22 | 2019-12-06 | 北京云知声信息技术有限公司 | 目的地搜索方法及装置 |
CN106776900B (zh) | 2016-11-30 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 出行方法和装置 |
CN106847288B (zh) | 2017-02-17 | 2020-12-25 | 上海创米科技有限公司 | 语音识别文本的纠错方法与装置 |
-
2018
- 2018-06-15 CN CN201880039823.1A patent/CN110770819B/zh active Active
- 2018-06-15 TW TW107120855A patent/TW201921336A/zh unknown
- 2018-06-15 WO PCT/CN2018/091430 patent/WO2018228515A1/en active Application Filing
-
2019
- 2019-12-14 US US16/714,710 patent/US11302313B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1941077A (zh) * | 2005-09-27 | 2007-04-04 | 株式会社东芝 | 识别语音输入中的字符串的语音识别设备和方法 |
CN101785051A (zh) * | 2007-08-22 | 2010-07-21 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
US20090234847A1 (en) * | 2008-03-11 | 2009-09-17 | Xanavi Informatics Comporation | Information retrieval apparatus, informatin retrieval system, and information retrieval method |
CN103544140A (zh) * | 2012-07-12 | 2014-01-29 | 国际商业机器公司 | 一种数据处理方法、展示方法和相应的装置 |
JP2014077882A (ja) * | 2012-10-10 | 2014-05-01 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
CN104756100A (zh) * | 2012-11-30 | 2015-07-01 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN105447019A (zh) * | 2014-08-20 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于用户使用场景的输入识别结果校正方法和系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538890A (zh) * | 2020-04-02 | 2020-08-14 | 中国铁道科学研究院集团有限公司 | 一种基于语音识别的室内引导方法及系统 |
CN111538890B (zh) * | 2020-04-02 | 2023-12-12 | 中国铁道科学研究院集团有限公司 | 一种基于语音识别的室内引导方法及系统 |
CN111845751A (zh) * | 2020-07-28 | 2020-10-30 | 盐城工业职业技术学院 | 一种可切换控制多个农用拖拉机的控制终端 |
CN111845751B (zh) * | 2020-07-28 | 2021-02-09 | 盐城工业职业技术学院 | 一种可切换控制多个农用拖拉机的控制终端 |
CN112163685A (zh) * | 2020-09-11 | 2021-01-01 | 广州宸祺出行科技有限公司 | 一种基于语音ai的智能撮合行程的方法及系统 |
CN112151022A (zh) * | 2020-09-25 | 2020-12-29 | 北京百度网讯科技有限公司 | 语音识别的优化方法、装置、设备以及存储介质 |
CN113658580A (zh) * | 2021-06-24 | 2021-11-16 | 大众问问(北京)信息科技有限公司 | 语音提示方法、装置、计算机设备和存储介质 |
CN113658580B (zh) * | 2021-06-24 | 2024-06-18 | 大众问问(北京)信息科技有限公司 | 语音提示方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2018228515A1 (en) | 2018-12-20 |
US11302313B2 (en) | 2022-04-12 |
TW201921336A (zh) | 2019-06-01 |
CN110770819B (zh) | 2023-05-12 |
US20200118551A1 (en) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110770819B (zh) | 语音识别系统和方法 | |
CN109785828B (zh) | 基于用户语音风格的自然语言生成 | |
CN108346430B (zh) | 对话系统、具有对话系统的车辆以及对话处理方法 | |
US10229671B2 (en) | Prioritized content loading for vehicle automatic speech recognition systems | |
US9188456B2 (en) | System and method of fixing mistakes by going back in an electronic device | |
US10176801B2 (en) | System and method of improving speech recognition using context | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
US10614799B2 (en) | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance | |
US20180096685A1 (en) | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system | |
US20190087455A1 (en) | System and method for natural language processing | |
JP2015524096A (ja) | 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡 | |
CN113506567A (zh) | 基于场境的语音识别语法选择方法和系统 | |
EP3308379B1 (en) | Motion adaptive speech processing | |
US20150379995A1 (en) | Systems and methods for a navigation system utilizing dictation and partial match search | |
US11984118B2 (en) | Artificial intelligent systems and methods for displaying destination on mobile device | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
KR20200098079A (ko) | 대화 시스템 및 대화 처리 방법 | |
CN111301312B (zh) | 语音识别系统的会话引导方法 | |
KR20190037470A (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
JP2022103675A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
KR20060098673A (ko) | 음성 인식 방법 및 장치 | |
US20240067128A1 (en) | Supporting multiple roles in voice-enabled navigation | |
CN118800234A (zh) | 一种驾驶交互方法、系统、设备、介质及程序产品 | |
CN118277515A (zh) | 基于兴趣点的问答方法、装置、设备、存储介质及车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |