CN109145281B - 语音识别方法、装置及存储介质 - Google Patents

语音识别方法、装置及存储介质 Download PDF

Info

Publication number
CN109145281B
CN109145281B CN201710451642.7A CN201710451642A CN109145281B CN 109145281 B CN109145281 B CN 109145281B CN 201710451642 A CN201710451642 A CN 201710451642A CN 109145281 B CN109145281 B CN 109145281B
Authority
CN
China
Prior art keywords
weighted value
similarity
information
heat
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710451642.7A
Other languages
English (en)
Other versions
CN109145281A (zh
Inventor
李秀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201710451642.7A priority Critical patent/CN109145281B/zh
Priority to TW107120855A priority patent/TW201921336A/zh
Priority to CN201880039823.1A priority patent/CN110770819B/zh
Priority to PCT/CN2018/091430 priority patent/WO2018228515A1/en
Publication of CN109145281A publication Critical patent/CN109145281A/zh
Priority to US16/714,710 priority patent/US11302313B2/en
Application granted granted Critical
Publication of CN109145281B publication Critical patent/CN109145281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本申请提供一种语音识别方法、装置及存储介质,涉及计算机技术领域,所述方法包括:获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。由于本申请实施例利用从候选识别结果中提取到的关键词汇对候选识别结果的分数进行修正,实现将关键词汇作为修正的因素,可以使各个候选识别结果获得更加准确的分数,从而根据修正后的分数筛选出更加准确的识别结果。

Description

语音识别方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及语音识别方法、装置及存储介质。
背景技术
随着计算机技术的发展,语音识别(Automatic Speech Recognition,ASR)技术在人机交互等领域的应用越来越多。目前,语音识别技术主要通过信号处理模块、特征提取模块、声学模型、语言模型(Language Model,LM)、发音字典和解码器(Decoder),将待识别的语音信息转换为文本信息,完成语音识别。
如图1所示,图1是相关技术中语音识别的流程图。在语音识别过程中,可以先将待识别的语音信息划分成多个语音信息帧,然后通过消除噪音、信道失真等处理对各语音信息帧进行增强,再将各语音信息帧从时域转化到频域,并从转换后的语音信息帧内提取合适的声学特征。而根据训练语音库的特征参数训练出的声学模型,以所提取的声学特征作为输入,映射到能够描述语音信息帧的发音特征的发音、并计算出语音信息帧映射到各发音的概率。
语言模型含有不同的字词(如:字、词、短语)之间关联关系、及其概率(可能性),用于估计由不同字词组成的各种文本信息的可能性。解码器可以基于己经训练好的声学模型、语言模型及发音字典建立一个识别网络,识别网络中的各路径分别与各文本信息、以及各文本信息的发音对应。然后针对声学模型输出的发音,利用识别网络对每条路径进行打分,获得候选识别结果及其分值,将分值最高的候选识别结果作为该语音信息对应的文本信息,完成语音识别。
语音识别可以应用在多种场景中,例如,网约车场景、车载系统中语音定位目的地场景等。在特定的场景中,可以根据语音识别结果中的关键词汇执行相应的服务。关键词汇可以是识别结果中预设类型的词汇,以网约车场景为例,关键词汇可以是用于描述位置的词汇,例如,POI(Point Of Interest,兴趣点/信息点)。当用户语音输入出行数据时,设备根据出行数据中的位置信息进行网约车服务。由于每种场景中关键词的数量众多,加上环境、口音等众多因素的影响,仅根据语言模型中字词间的关联性、以及声学模型中语音信息与发音的关联性,对语音信息的候选识别结果进行打分,将分值最高的候选识别结果作为该语音信息对应的文本信息,会出现语音识别结果不准确的现象。
发明内容
基于此,本申请提供了语音识别方法、装置及存储介质。
一种语音识别方法,所述方法包括:
获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;
根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;
利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
在一个可选的实现方式中,所述利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,包括:
根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值;
基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数。
在一个可选的实现方式中,所述预设的样本库中还包含以下一种或多种信息:
关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息。
在一个可选的实现方式中,若预设的样本库中还包括关键词汇样本的热度信息,所述根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值,包括:
确定所提取的关键词汇与关键词汇样本的相似度;
筛选出相似度大于相似度阈值的关键词汇样本;
基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值;
基于转换获得的热度加权值确定所述关键词汇对应的候选识别结果的加权值。
在一个可选的实现方式中,所述热度信息包括不同的周期性的统计时段下的热度值;
所述基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值,包括:
确定当前时间所属的统计时段;
从筛选出的关键词汇样本的热度值中,筛选出所述统计时段下的热度值;
基于预设的热度值到热度加权值的转换关系,将筛选出的热度值转换为热度加权值。
在一个可选的实现方式中,所述预设的样本库中还包含关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息;
所述根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值,包括:
确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度;
基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值;
获取所提取到的关键词汇与具有历史信息的关键词汇样本的相似度,基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值;
基于所确定的相似度、关键词汇样本的热度信息、以及预设的热度信息到热度加权值的转换关系,获得热度加权值;
将所述偏好加权值和热度加权值中的最大值,与所述检索加权值相乘或相加,获得所述关键词汇对应的候选识别结果的加权值;
其中,针对相同相似度,利用相似度与偏好加权值的转换关系转换获得的偏好加权值,比利用相似度与检索加权值的转换关系转换获得的检索加权值大。
一种语音识别装置,所述装置包括:
信息获取模块,用于:获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;
信息提取模块,用于:根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;
结果确定模块,用于:利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
在一个可选的实现方式中,所述结果确定模块包括:
加权值确定模块,用于:根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值;
信息修正模块,用于:基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数。
在一个可选的实现方式中,所述预设的样本库中还包含以下一种或多种信息:
关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息。
在一个可选的实现方式中,预设的样本库中还包括关键词汇样本的热度信息,所述加权值确定模块,还用于:
确定所提取的关键词汇与关键词汇样本的相似度;
筛选出相似度大于相似度阈值的关键词汇样本;
基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值;
基于转换获得的热度加权值确定所述关键词汇对应的候选识别结果的加权值。
在一个可选的实现方式中,所述热度信息包括不同的周期性的统计时段下的热度值;
所述加权值确定模块,还用于:
确定当前时间所属的统计时段;
从筛选出的关键词汇样本的热度值中,筛选出所述统计时段下的热度值;
基于预设的热度值到热度加权值的转换关系,将筛选出的热度值转换为热度加权值。
在一个可选的实现方式中,所述预设的样本库中还包含关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息;
所述加权值确定模块,包括:
相似度确定子模块,用于:确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度;
检索加权值确定子模块,用于:基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值;
偏好加权值确定子模块,用于:获取所提取到的关键词汇与具有历史信息的关键词汇样本的相似度,基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值;
热度加权值确定子模块,用于:基于所确定的相似度、关键词汇样本的热度信息、以及预设的热度信息到热度加权值的转换关系,获得热度加权值;
加权值确定子模块,用于:将所述偏好加权值和热度加权值中的最大值,与所述检索加权值相乘或相加,获得所述关键词汇对应的候选识别结果的加权值;
其中,针对相同相似度,利用相似度与偏好加权值的转换关系转换获得的偏好加权值,比利用相似度与检索加权值的转换关系转换获得的检索加权值大。
一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:
获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;
根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;
利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请实施例提供语音识别的方案,采用多候选的方式,保留语音识别生成的多个候选识别结果,然后通过文本处理,从候选识别结果中提取出关键词汇,利用所提取到的关键词汇对每个候选结果的分数进行修正,然后根据修正结果确定所述待识别语音信息的最终识别结果。由于本申请实施例利用从候选识别结果中提取到的关键词汇对候选识别结果的分数进行修正,实现将关键词汇作为修正的因素,可以使各个候选识别结果获得更加准确的分数,从而根据修正后的分数筛选出更加准确的识别结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是相关技术中语音识别的流程图。
图2是本申请根据一示例性实施例示出的一种语音识别方法的应用场景图。
图3是本申请根据一示例性实施例示出的一种语音识别方法的流程图。
图4A是本申请根据一示例性实施例示出的另一种语音识别方法的流程图。
图4B是本申请根据一示例性实施例示出的一种语音识别方法的示意图。
图5是本申请根据一示例性实施例示出的一种语音识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
语音识别可以应用于很多场景中,利用语音识别技术识别获得语音识别结果后,可以根据语音识别结果中的关键词汇执行相应的服务。以网约车场景为例,如图2所示,图2是本申请根据一示例性实施例示出的一种语音识别方法的应用场景图。在该场景中,当乘客使用出行应用时,乘客通常使用电子设备定位接驾地点(起始点)、或者是乘客通过出行应用选定或输入接驾地点,乘客也可以通过出行应用选定或输入目的地。输入的方式可以是文字输入,也可以语音输入。可见,当采用语音输入时,可以通过语音识别的方式获得接驾地点和/或目的地(关键词汇),从而实现网约车服务。
然而由于每种场景中关键词汇的数量众多,加上环境、口音等众多因素的影响,仅根据语言模型中字词间的关联性、以及声学模型中语音信息与发音的关联性,对语音信息的候选识别结果进行打分,将分值最高的候选识别结果作为该语音信息对应的文本信息,会出现语音识别结果不准确的现象。本申请针对如何提高语音识别结果准确率,提出解决方案。
针对模型训练,本申请实施例可以通过优化模型的方式提高语音识别的准确性。例如,利用领域训练语音库对声学模型进行优化,利用领域文本库对语言模型、发音词典进行优化,从而实现针对不同领域训练获得不同的声学模型、语言模型以及发音词典。具体的,往往通过收集目标领域的语音数据进行标注来提升声学模型;利用目标领域的文本语料优化语言模型和发音词典,以提升目标领域的识别效果。比如,在出行领域,可以把POI数据、或者将POI数据嵌入模板句作为训练语言模型的数据,从而使得语言模型能够较好地与POI联系起来。
其中,POI(Point Of Interest,兴趣点/信息点)可以是电子地图上的某个地标、景点,用以标示出该地所代表的政府部门、各行各业之商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场、超速照相机、速限标示)等处所。
当前用户可以将待识别语音信息输入电子设备,基于电子设备中声学模型、语言模型、发音词典等,可以获得待识别语音信息的多个候选识别结果以及每个候选识别结果的分数。
针对如何选择候选识别结果,本申请实施例可以通过获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数,并根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇,利用所提取到的关键词汇对每个候选识别结果的分数进行修正,并根据修正结果确定待识别语音信息的最终识别结果,从而提高识别结果的准确性。接下来对本申请实施例进行详细说明。
如图3所示,图3是本申请根据一示例性实施例示出的一种语音识别方法的流程图,所述方法包括如下步骤301至303:
在步骤301中,获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数。
在步骤302中,根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇。
在步骤303中,利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
本实施例中,该方法可以应用在应用程序中,且应用程序所需识别的语音输入数据包含某类型关键词汇。以下以几个例子进行示例说明。
例如,出行应用的语音输入数据包括用于描述位置的词汇,因此该方法可以应用于电子设备中安装的出行应用。
又如,导航应用的语音输入数据可以包括用于描述位置的词汇,因此该方法也可以应用于车载终端中安装的导航应用。
又如,在电商应用中可以设置语言搜索商户的功能,则由于电商应用中语音输入数据可以包括用于描述商户信息的词汇,因此该方法可以应用于电商应用中。举例,在购物应用中通过语音输入寻找目标商户,以实现跳转到目标商户的主界面。在外卖应用中通过语音输入寻找目标商户,以实现跳转到目标商户的主界面等。
为了提高语音识别结果的准确性,本申请实施例可以采用多候选的方式,保留语音识别生成的多个候选识别结果,然后通过文本处理,提取出其中的关键词汇,利用所提取到的关键词汇对每个候选结果的分数进行修正,然后将修正结果中分数最高的候选识别结果作为最终识别结果。
其中,当前用户可以是使用当前账户的用户。候选识别结果是通过识别待识别语音信息获得的文本信息。本申请实施例可以从所有识别结果中筛选出多个分数较高的识别结果作为候选识别结果。例如,可以将分数高于预设分数阈值的识别结果作为候选识别结果,也可以将分数排名前N的识别结果作为候选识别结果等,具体选择哪些识别结果作为候选识别结果可以灵活设定。如获取识别结果及其分数:(结果result 1,得分score 1),(结果result 2,得分score 2)等。
在获取候选识别结果后,可以利用预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇。
关于预设类型,预设类型可以是POI类、商户名称类、网页名称类等,预设类型可以根据该方法应用的应用程序利用语音识别所需实现的服务而定。例如,若服务为利用语音识别确定语音中的位置信息,则预设类型可以是POI类;若服务为利用语音识别确定语音中的商户名称,则预设类型可以是商户名称类等等。
关键词提取规则是预先设置的可以用于提取预设类型的关键词汇的规则。提取规则可以为多种,以下以其中一种规则进行示例说明。
在一个例子中,可以基于历史的候选识别结果设置结构性模板。在提取过程中,利用结构性模板,将候选识别结果中非结构性模板的内容确定为满足预设类型的关键词汇,或者将候选识别结果中与结构性模板存在预设位置关系的词汇确定为满足预设类型的关键词汇,从而实现关键词汇的提取。
以出行场景为例进行示例说明,结构性模板可以是“我要去”、“我在”、“目的地是”、“去”等,将“我要去”、“我在”、“目的地是”、“去”后的字符作为关键词汇进行提取。可见,利用结构性模板提取的关键词汇,可以将候选识别结果中与结构性模板存在预设位置关系的词汇确定为满足预设类型的关键词汇,该类词汇不一定是关键词汇样本,因此又可以称为疑似关键词汇样本。
进一步的,若候选识别结果中既包括起始地,又包括目的地,则在后续利用识别结果执行相应服务时,还可以根据不同的结构性模板区分关键词汇为起始地,还是目的地,从而根据区分结果进行相应的服务。
另外,如果关键词汇为空,即从候选识别结果中没有提取到满足预设类型的关键词汇,则可以降低该候选识别结果的分数,也可以将该候选识别结果删除。进一步的,如果待识别语音信息的所有识别结果中均没有提取到关键词汇,可以输出提示信息,以提醒用户输入语音信息可能有误。
在提取到预设类型的关键词汇后,可以利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
在指定的应用场景中,由于输入应用程序的语音中应当有预设类型的关键词汇,因此,在一个例子中,可以根据关键词汇是否为空来判断对应的候选识别结果的分数是否准确,从而实现对候选识别结果的分数进行修正。具体的,如果关键词汇为空,即从候选识别结果中没有提取到满足预设类型的关键词汇,则可以降低该候选识别结果的分数,或者直接淘汰该候选识别结果。如果关键词汇不为空,则从提取到关键词汇的候选识别结果中筛选出最终识别结果。
上述例子是直接利用候选识别结果中是否存在关键词汇来判断对应的候选识别结果的分数是否准确,然而,实际应用中,关键词汇是根据关键词提取规则从候选识别结果中提取的词汇,提取到的关键词汇不一定能用于执行后续的服务,因此,在另一个例子中,可以对该关键词汇进行进一步判断,通过对关键词汇的判断以实现对关键词汇对应的候选识别结果的判断。本实施例可以预先设置样本库,样本库中存储有关键词汇样本。其中,关键词汇样本可以是能用于执行后续服务的关键词汇。
鉴于此,所述利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,包括:
根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值。
基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数。
该实施例中,可以将候选识别结果进行文本解析,利用预设的文本相似度算法将所提取到的关键词汇与预设的样本库中关键词汇样本进行匹配,可以获得所提取到的关键词汇与预设的样本库中关键词汇样本的相似度。由于样本库中关键词汇样本是能用于执行后续服务的关键词汇,相似度与加权值可以呈正相关关系,因此通过提取到的关键词汇与预设的样本库中关键词汇样本的相似度来对候选识别结果的分数进行修正,可以提高候选识别结果的分数的准确性,进而提高最终识别结果的准确性。以下列举几种文本相似度算法进行示例说明。
例如,可以采用编辑距离算法确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度。其中,编辑距离(Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离越小,两个字串的相似度越大。
又如,可以根据匹配长度确定相似度。以出行场景为例,对于提取到的关键词汇(可以称为疑似POI):“数字山谷”,若样本库(可以称为POI数据库)中有关键词汇样本“数字山谷”,则判定两者完全匹配,相似度为1。对于关键词汇:“中关村大街”,若样本库中没有“中关村大街”作为关键词汇样本,但存在“中关村大街1号”等很多相似的更详细的关键词汇样本,假设最相近的是“中关村大街1号”,可以根据匹配长度占比确定相似度:5/7=0.71。
可以理解的是,本申请实施例可以采用相关技术中其他确定相似度的方法,在此不再一一赘述。
在确定相似度后,可以根据相似度确定关键词汇对应的候选识别结果的加权值。在根据相似度确定加权值的过程中,加权值可以与相似度呈正相关关系。所提取到的关键词汇与关键词汇样本越相似,代表关键词汇越接近关键词汇样本,关键词汇对应的候选识别结果准确性越高,则加权值可以越高,所提取到的关键词汇与关键词汇样本越不相似,代表关键词汇越不接近关键词汇样本,关键词汇对应的候选识别结果准确性越低,则加权值可以越低。
可见,本实施例利用样本库中关键词汇样本对提取到的关键词汇进行相似度判断,从而确定关键词汇对应的候选识别结果的加权值,在利用加权值对候选识别结果的分数进行修正后,可以使各个候选识别结果获得更加准确的分数,从而根据修正后的分数筛选出更加准确的识别结果。
接下来,基于不同的样本库介绍如何根据相似度确定加权值。
预设的样本库中包含有预设类型的关键词汇样本。以出行应用为例,样本库中可以包含POI数据;以电商应用为例,样本库中可以包含各个商户的名称等。
在一个可选的实现方式中,样本库中仅包含关键词汇样本的内容、且关键词汇样本可以是预设类型中所有可能出现的关键词汇,为了方便区分,可以将该类样本库称为基础样本库。鉴于此,在确定加权值过程中,可以将提取到的关键词汇在样本库中进行检索,根据匹配程度,确定关键词汇对应的候选识别结果的加权值。
具体的,可以确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值。由于样本库中仅存储关键词汇样本的内容,则可以将检索加权值确定为关键词汇对应的候选识别结果的加权值。
作为其中一个手段,在确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度后,可以筛选出最大相似度,基于相似度与检索加权值的转换关系,将最大相似度转换为检索加权值。
关于相似度与检索加权值的转换关系,检索加权值与相似度值可以成正相关关系。在一个例子中,检索加权值可以与相似度相同,例如相似度为1时,检索加权值为1;相似度为0.71时,检索加权值为0.71。在另一个例子中,也可以将相似度与不等于1的调整比例相乘,从而获得检索加权值。
进一步的,还可以预设相似度阈值,将低于相似度阈值的相似度转换为取值为0的检索加权值,从而排除部分偏离很大的结果。
实际应用中,针对同一待识别语音信息的不同候选识别结果可能提取到相似关键词汇。例如,可以是发音相似的关键词汇,也可以是文本相似的关键词汇等。为了能从相似关键词汇的不同候选识别结果中筛选出较为准确的候选识别结果,在一个可选的实现方式中,可以将候选识别结果中关键词汇的热度,作为从候选识别结果中筛选最终识别结果的条件。
在该实施例中,样本库中不仅包含关键词汇样本的内容,还包含关键词汇样本的热度信息。其中,热度信息是表示关键词汇样本热度的信息,以便区分不同关键词汇样本的热度情况。在一个例子中,可以通过统计关键词汇样本被用于执行相应服务的频次获得该关键词汇样本的热度信息。在另一个例子中,可以通过统计关键词汇样本被搜索的频次获得该关键词汇样本的热度信息等。进一步的,如果当前账号使用过某关键词汇样本,则该关键词汇样本的热度信息高。
鉴于此,所述根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值,包括:
确定所提取的关键词汇与关键词汇样本的相似度。
根据所确定的相似度筛选出满足预设筛选条件的关键词汇样本。
基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值。
基于转换获得的热度加权值确定所述关键词汇对应的候选识别结果的加权值。
其中,预设筛选条件是预先设置的用于筛选关键词汇样本的条件。例如,预设筛选条件可以是筛选出与所提取的关键词汇相似度最大的关键词汇样本,则根据所确定的相似度筛选出满足预设筛选条件的关键词汇样本包括:根据所确定的相似度,筛选出与所提取的关键词汇相似度最大的关键词汇样本。
然而,由于所提取的关键词汇可能与多个关键词汇样本相似,则预设筛选条件可以是筛选出相似度大于相似度阈值的关键词汇样本,即根据所确定的相似度筛选出满足预设筛选条件的关键词汇样本包括:筛选出相似度大于相似度阈值的关键词汇样本。
关于热度信息到热度加权值的转换关系,热度加权值与热度信息可以呈正相关关系,热度信息越大,热度加权值越大。在一个例子中,可以预先设置热度信息到热度加权值的转换函数:G(M个高匹配度的关键词汇样本的热度信息,热度加权值),利用预设的转换函数实现热度信息与热度加权值的转换。例如,热度信息为热度值,转换函数可以是将关键词汇样本的热度值除以平均热度值,从而获得热度加权值。平均热度值可以是某地区中各关键词汇样本的热度值的平均值,也可以是排名前N的热度值的平均值等。
热度信息到热度加权值的转换关系可以是一个热度信息与热度加权值的转换关系,也可以是多个热度信息与热度加权值的转换关系。
在一个例子中,由于可能存在多个热度信息、且热度信息到热度加权值的转换关系为一对一的转换关系,鉴于此,可以将筛选出的关键词汇样本的热度信息进行预处理,然后将预处理后的信息转换为热度加权值。
其中,预处理可以是均衡处理,例如将筛选出的关键词汇样本的热度信息进行平均值运算。预处理也可以是筛选处理,例如从筛选出的关键词汇样本的热度信息中筛选最大热度值等。
例如,针对发音相似的不同关键词汇,由于不同关键词汇的文本往往不相似,则与不同关键词汇相似的关键词汇样本一般不同,因此可以将筛选出的关键词汇样本的热度信息进行均衡处理,也可以将筛选出的关键词汇样本的热度信息进行筛选最大热度值处理。
在确定热度加权值后,如果仅将候选识别结果中关键词汇的热度,作为从候选识别结果中筛选最终识别结果的条件,则直接将转换获得的热度加权值确定为关键词汇对应的候选识别结果的加权值。在该情况下,样本库中包含具有热度信息的关键词汇样本,可以将该类样本库称为热度样本库。
如果将候选识别结果中关键词汇的热度,作为从相似候选识别结果中筛选最终识别结果的条件之一,则根据转换获得的热度加权值以及其他条件获得的加权值,确定关键词汇对应的候选识别结果的加权值。例如,根据热度加权值和检索加权值确定关键词汇对应的候选识别结果的加权值。如,可以将热度加权值和检索加权值相加获得加权值,也可以将热度加权值和检索加权值相乘获得加权值等。此实施例中,可以构建独立的热度样本库和基础样本库,也可以将热度样本库和基础样本库合二为一,通过增加基础样本库中关键词汇样本的热度属性实现样本库合成。
在实际应用中,不同时间段下关键词汇样本的热度信息可能不同,在不同时间段下都采用同样的热度信息可能会导致热度加权值不准确,从而导致最终识别结果不准确,为了解决这种情况,热度信息包括不同的周期性的统计时段下的热度值,例如,可以统计关键词汇样本在不同的周期性的统计时段下的热度值。在确定热度加权值时,确定当前时间所属的统计时段;从筛选出的关键词汇样本的热度值中,筛选出所述统计时段下的热度值;基于预设的热度值到热度加权值的转换关系,将筛选出的热度值转换为热度加权值。
其中,统计时段是具有周期性的时段,例如,若按季节划分统计时段,则统计时段可以包括春季、夏季、秋季、冬季;若按上下班划分统计时段,统计时段可以包括上班时段、下班时段、非上下班时段;若按节假日划分统计时段,统计时段可以包括工作时段、节假日时段等等。
由于不同统计时段下关键词汇样本的热度可能不同,因此按统计时段统计关键词汇样本的热度,并在确定热度加权值时按当前时间所属的统计时段,从筛选出的关键词汇样本的热度值中,筛选出统计时段下的热度值,并将筛选出的热度值转换为热度加权值,从而提高热度加权值的准确率,进而提高最终识别结果的准确率。
在另一个可选的实现方式中,鉴于当前用户提供的待识别语音信息中关键词汇更有可能是当前用户使用过的关键词汇,因此可以将候选识别结果中关键词汇被当前用户使用的历史信息,作为从相似候选识别结果中筛选最终识别结果的条件。
该实施例中,样本库中不仅包含关键词汇样本的内容,还包含当前用户使用关键词汇样本的历史信息。其中,历史信息可以是关键词汇样本是否被当前用户是否使用过,也可以是关键词汇样本被当前用户使用的频次等。例如,可以通过统计关键词汇样本被当前用户搜索的频次获得历史信息等。
鉴于此,所述根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值,包括:
获取所提取到的关键词汇与预设的样本库中具有历史信息的关键词汇样本的相似度。
基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值。
关于相似度与偏好加权值的转换关系,偏好加权值可以与相似度呈正相关关系,针对相同相似度,利用相似度与偏好加权值的转换关系转换获得的偏好加权值,比利用相似度与检索加权值的转换关系转换获得的检索加权值大。在一个例子中,将相同相似度转换获得的偏好加权值和检索加权值可以存在比例关系,且比例大于1。
在一个例子中,若历史信息为关键词汇样本是否被当前用户是否使用过,则可以直接基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值。
在另一个例子中,若历史信息为关键词汇样本被当前用户使用的频次,则在确定偏好加权值时,可以根据使用频次所属的频次范围确定相似度与偏好加权值的转换关系,根据确定的相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值。其中,不同频次范围对应不同相似度与偏好加权值的转换关系。针对相同相似度,若第一频次范围大于第二频次范围,则利用第一频次范围对应的转换关系转换获得的偏好加权值,比利用第二频次范围对应的转换关系转换获得的偏好加权值大。
关于预设的样本库,在一个例子中,预设的样本库中可以仅包含具有历史信息的关键词汇样本,这类样本库可以称为用户偏好样本库。在另一个例子中,预设的样本库中可以包含具有历史信息的关键词汇样本和不具有历史信息的关键词汇样本,即将基础样本库和用户偏好样本库合二为一,通过增加关键词汇样本的属性实现合成为一个样本库。具体是否存放在同一个样本库中可以灵活配置。
由上述实施例可见,由于当前用户提供的待识别语音信息中关键词汇更倾向于是当前用户使用过的关键词汇,因此可以将候选识别结果中关键词汇是否存在历史信息,作为从候选识别结果中筛选最终识别结果的条件,从而提高偏好加权值的准确率,进而提高最终识别结果的准确率。
可以理解的是,样本库中除了包含关键词汇样本的内容,还可以包括其他信息,例如还可以包括关键词汇样本的热度信息、当前用户使用关键词汇样本的历史信息中的一种或多种,具体可以灵活配置。
以上实施方式中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述,因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。
以下列举其中一种组合进行示例说明。
如图4A所示,图4A是本申请根据一示例性实施例示出的另一种语音识别方法的流程图,包括如下步骤401至408:
在步骤401中,获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数。
在步骤402中,根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇。
在步骤403中,确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度。
在执行完步骤403后,可以分别执行步骤404、405、406,执行步骤404、405、406可以没有先后顺序,在确定检索加权值、偏好加权值以及热度加权值后,可以执行步骤407。
在步骤404中,基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值。
在步骤405中,获取所提取到的关键词汇与具有历史信息的关键词汇样本的相似度,基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值。
在步骤406中,基于所确定的相似度、关键词汇样本的热度信息、以及预设的热度信息到热度加权值的转换关系,获得热度加权值。
在步骤407中,将所述偏好加权值和热度加权值中的最大值与所述检索加权值相乘或相加,获得所述关键词汇对应的候选识别结果的加权值。
在步骤408中,基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数,根据修正结果确定所述待识别语音信息的最终识别结果。
其中,步骤401至408与前述步骤301至303中相关技术相同,在此不再一一赘述。
如图4B所示,图4B是本申请根据一示例性实施例示出的一种语音识别方法的示意图。该示意图中以关键词汇为POI为例进行示例说明。利用预设的关键词提取规则从候选识别结果中提取关键词汇,获得疑似POI,将疑似POI分别与三个数据库中的POI数据进行相似度匹配,获得相应的加权值。POI数据库中包含所有可能出现的POI数据,根据疑似POI与POI数据库中POI数据的匹配程度,可以获得的检索加权值。POI热度数据库中包含具有热度信息的POI数据,根据疑似POI与POI热度数据库中POI数据的匹配程度,可以获得的热度加权值。POI偏好数据库中包含当前用户使用过的POI数据,根据疑似POI与POI偏好数据库中POI数据的匹配程度,可以获得的偏好加权值。由于热度加权值同偏好加权值,都可以表示疑似POI的热度,因此可以从热度加权值和偏好加权值中选择最大加权值进行热度加权,根据检索加权值、热度加权值和偏好加权值中的最大加权值,可以确定疑似POI对应的候选识别结果的加权值,进而基于加权值对候选识别结果的分数进行修正,获得候选识别结果修正后的分数,从而根据修正后的分数筛选出最优结果。
与前述语音识别方法的实施例相对应,本申请还提供了语音识别装置及其所对应的计算机存储介质的实施例。
如图5所示,图5是本申请根据一示例性实施例示出的一种语音识别装置的框图,所述装置包括:
信息获取模块51,用于:获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数。
信息提取模块52,用于:根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇。
结果确定模块53,用于:利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
本实施例中,该装置可以应用在客户端中,且客户端所需识别的语音输入数据包含某类型关键词汇。
其中,当前用户可以是使用当前账户的用户。候选识别结果是通过识别待识别语音信息获得的文本信息。本申请实施例可以从所有识别结果中筛选出多个分数较高的识别结果作为候选识别结果。例如,可以将分数高于预设分数阈值的识别结果作为候选识别结果,也可以将分数排名前N的识别结果作为候选识别结果等,具体选择哪些识别结果作为候选识别结果可以灵活设定。
在获取候选识别结果后,可以利用预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇。
其中,预设类型可以是POI类、商户名称类、网页名称类等,预设类型可以根据该方法应用的应用程序利用语音识别所需实现的服务而定。例如,若服务为利用语音识别确定语音中的位置信息,则预设类型可以是POI类;若服务为利用语音识别确定语音中的商户名称,则预设类型可以是商户名称类等等。关键词提取规则是预先设置的可以用于提取预设类型的关键词汇的规则。
在提取到预设类型的关键词汇后,可以利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
在指定的应用场景中,由于输入应用程序的语音中应当有预设类型的关键词汇,因此,在一个例子中,可以根据关键词汇是否为空来判断对应的候选识别结果的分数是否准确,从而实现对候选识别结果的分数进行修正。具体的,如果关键词汇为空,即从候选识别结果中没有提取到满足预设类型的关键词汇,则可以降低该候选识别结果的分数,或者直接淘汰该候选识别结果。如果关键词汇不为空,则从提取到关键词汇的候选识别结果中筛选出最终识别结果。
在另一个例子中,可以对该关键词汇进行进一步判断,通过对关键词汇的判断以实现对关键词汇对应的候选识别结果的判断。本实施例可以预先设置样本库,样本库中存储有关键词汇样本。其中,关键词汇样本可以是能用于执行后续服务的关键词汇。鉴于此,所述结果确定模块53包括:
加权值确定模块,用于:根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值;
信息修正模块,用于:基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数。
该实施例中,可以将候选识别结果进行文本解析,利用预设的文本相似度算法将所提取到的关键词汇与预设的样本库中关键词汇样本进行匹配,可以获得所提取到的关键词汇与预设的样本库中关键词汇样本的相似度。由于样本库中关键词汇样本是能用于执行后续服务的关键词汇,相似度与加权值可以呈正相关关系,因此通过提取到的关键词汇与预设的样本库中关键词汇样本的相似度来对候选识别结果的分数进行修正,可以提高候选识别结果的分数的准确性,进而提高最终识别结果的准确性。
在确定相似度后,可以根据相似度确定关键词汇对应的候选识别结果的加权值。在根据相似度确定加权值的过程中,加权值可以与相似度呈正相关关系。所提取到的关键词汇与关键词汇样本越相似,代表关键词汇越接近关键词汇样本,关键词汇对应的候选识别结果准确性越高,则加权值可以越高,所提取到的关键词汇与关键词汇样本越不相似,代表关键词汇越不接近关键词汇样本,关键词汇对应的候选识别结果准确性越低,则加权值可以越低。
因此,本实施例利用样本库中关键词汇样本对提取到的关键词汇进行相似度判断,从而确定关键词汇对应的候选识别结果的加权值,在利用加权值对候选识别结果的分数进行修正后,可以使各个候选识别结果获得更加准确的分数,从而根据修正后的分数筛选出更加准确的识别结果。
进一步的,所述预设的样本库中不仅包括关键词汇样本的内容,还包含以下一种或多种信息:关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息。
在一个可选的实现方式中,样本库中仅包含关键词汇样本的内容、且关键词汇样本可以是预设类型中所有可能出现的关键词汇,所述加权值确定模块,还用于:
确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度。
基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值。
由于样本库中仅存储关键词汇样本的内容,则可以将检索加权值确定为关键词汇对应的候选识别结果的加权值。作为其中一个手段,在确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度后,可以筛选出最大相似度,基于相似度与检索加权值的转换关系,将最大相似度转换为检索加权值。
进一步的,还可以预设相似度阈值,将低于相似度阈值的相似度转换为取值为0的检索加权值,从而排除部分偏离很大的结果。
在一个可选的实现方式中,预设的样本库中还包括关键词汇样本的热度信息,所述加权值确定模块,还用于:
确定所提取的关键词汇与关键词汇样本的相似度。
筛选出相似度大于相似度阈值的关键词汇样本。
基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值。
基于转换获得的热度加权值确定所述关键词汇对应的候选识别结果的加权值。
其中,热度信息是表示关键词汇样本热度的信息,以便区分不同关键词汇样本的热度情况。在一个例子中,可以通过统计关键词汇样本被用于执行相应服务的频次获得该关键词汇样本的热度信息。在另一个例子中,可以通过统计关键词汇样本被搜索的频次获得该关键词汇样本的热度信息等。
关于热度信息到热度加权值的转换关系,可以是一个热度信息与热度加权值的转换关系,也可以是多个热度信息与热度加权值的转换关系。例如,可以预先设置热度信息到热度加权值的转换函数:G(M个高匹配度的关键词汇样本的热度信息,热度加权值),利用预设的转换函数实现热度信息与热度加权值的转换。
在一个例子中,由于可能存在多个热度信息、且热度信息到热度加权值的转换关系为一对一的转换关系,鉴于此,可以将筛选出的关键词汇样本的热度信息进行预处理,然后将预处理后的信息转换为热度加权值。
其中,预处理可以是均衡处理,例如将筛选出的关键词汇样本的热度信息进行平均值运算。预处理也可以是筛选处理,例如从筛选出的关键词汇样本的热度信息中筛选最大热度值等。
进一步的,所述热度信息包括不同的周期性的统计时段下的热度值;所述加权值确定模块,还用于:
确定当前时间所属的统计时段。
从筛选出的关键词汇样本的热度值中,筛选出所述统计时段下的热度值。
基于预设的热度值到热度加权值的转换关系,将筛选出的热度值转换为热度加权值。
其中,统计时段是具有周期性的时段,例如,若按季节划分统计时段,则统计时段可以包括春季、夏季、秋季、冬季;若按上下班划分统计时段,统计时段可以包括上班时段、下班时段、非上下班时段;若按节假日划分统计时段,统计时段可以包括工作时段、节假日时段等等。
由于不同统计时段下关键词汇样本的热度可能不同,因此按统计时段统计关键词汇样本的热度,并在确定热度加权值时按当前时间所属的统计时段,从筛选出的关键词汇样本的热度值中,筛选出统计时段下的热度值,并将筛选出的热度值转换为热度加权值,从而提高热度加权值的准确率,进而提高最终识别结果的准确率。
在另一个可选的实现方式中,所述预设的样本库中还包含关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息;所述加权值确定模块,包括:
相似度确定子模块,用于:确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度。
检索加权值确定子模块,用于:基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值。
偏好加权值确定子模块,用于:获取所提取到的关键词汇与具有历史信息的关键词汇样本的相似度,基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值。
热度加权值确定子模块,用于:基于所确定的相似度、关键词汇样本的热度信息、以及预设的热度信息到热度加权值的转换关系,获得热度加权值。
加权值确定子模块,用于:将所述偏好加权值和热度加权值中的最大值,与所述检索加权值相乘或相加,获得所述关键词汇对应的候选识别结果的加权值。
其中,针对相同相似度,利用相似度与偏好加权值的转换关系转换获得的偏好加权值,比利用相似度与检索加权值的转换关系转换获得的检索加权值大。
上述提供语音识别装置中各个模块的功能和作用的实现过程具体详见上述语音识别方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:
获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数。
根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇。
利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (11)

1.一种语音识别方法,其特征在于,所述方法包括:
获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;
根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;
利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果;
所述利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,包括:
根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值;
基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数。
2.根据权利要求1所述的方法,其特征在于,所述预设的样本库中还包含以下一种或多种信息:
关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息。
3.根据权利要求2所述的方法,其特征在于,若预设的样本库中还包括关键词汇样本的热度信息,所述根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值,包括:
确定所提取的关键词汇与关键词汇样本的相似度;
筛选出相似度大于相似度阈值的关键词汇样本;
基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值;
基于转换获得的热度加权值确定所述关键词汇对应的候选识别结果的加权值。
4.根据权利要求3所述的方法,其特征在于,所述热度信息包括不同的周期性的统计时段下的热度值;
所述基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值,包括:
确定当前时间所属的统计时段;
从筛选出的关键词汇样本的热度值中,筛选出所述统计时段下的热度值;
基于预设的热度值到热度加权值的转换关系,将筛选出的热度值转换为热度加权值。
5.根据权利要求2所述的方法,其特征在于,所述预设的样本库中还包含关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息;
所述根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值,包括:
确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度;
基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值;
获取所提取到的关键词汇与具有历史信息的关键词汇样本的相似度,基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值;
基于所确定的相似度、关键词汇样本的热度信息、以及预设的热度信息到热度加权值的转换关系,获得热度加权值;
将所述偏好加权值和热度加权值中的最大值,与所述检索加权值相乘或相加,获得所述关键词汇对应的候选识别结果的加权值;
其中,针对相同相似度,利用相似度与偏好加权值的转换关系转换获得的偏好加权值,比利用相似度与检索加权值的转换关系转换获得的检索加权值大。
6.一种语音识别装置,其特征在于,所述装置包括:
信息获取模块,用于:获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;
信息提取模块,用于:根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;
结果确定模块,用于:利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果;
所述结果确定模块包括:
加权值确定模块,用于:根据所提取到的关键词汇与预设的样本库中关键词汇样本的相似度,确定所述关键词汇对应的候选识别结果的加权值;
信息修正模块,用于:基于所述加权值对所述候选识别结果的分数进行修正,获得所述候选识别结果修正后的分数。
7.根据权利要求6所述的装置,其特征在于,所述预设的样本库中还包含以下一种或多种信息:
关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息。
8.根据权利要求7所述的装置,其特征在于,预设的样本库中还包括关键词汇样本的热度信息,所述加权值确定模块,还用于:
确定所提取的关键词汇与关键词汇样本的相似度;
筛选出相似度大于相似度阈值的关键词汇样本;
基于预设的热度信息到热度加权值的转换关系,将筛选出的关键词汇样本的热度信息转换为热度加权值;
基于转换获得的热度加权值确定所述关键词汇对应的候选识别结果的加权值。
9.根据权利要求8所述的装置,其特征在于,所述热度信息包括不同的周期性的统计时段下的热度值;
所述加权值确定模块,还用于:
确定当前时间所属的统计时段;
从筛选出的关键词汇样本的热度值中,筛选出所述统计时段下的热度值;
基于预设的热度值到热度加权值的转换关系,将筛选出的热度值转换为热度加权值。
10.根据权利要求7所述的装置,其特征在于,所述预设的样本库中还包含关键词汇样本的热度信息、所述当前用户使用关键词汇样本的历史信息;
所述加权值确定模块,包括:
相似度确定子模块,用于:确定所提取到的关键词汇与预设的样本库中关键词汇样本的相似度;
检索加权值确定子模块,用于:基于相似度与检索加权值的转换关系,将所确定的相似度转换为检索加权值;
偏好加权值确定子模块,用于:获取所提取到的关键词汇与具有历史信息的关键词汇样本的相似度,基于相似度与偏好加权值的转换关系,将所获取的相似度转换为偏好加权值;
热度加权值确定子模块,用于:基于所确定的相似度、关键词汇样本的热度信息、以及预设的热度信息到热度加权值的转换关系,获得热度加权值;
加权值确定子模块,用于:将所述偏好加权值和热度加权值中的最大值,与所述检索加权值相乘或相加,获得所述关键词汇对应的候选识别结果的加权值;
其中,针对相同相似度,利用相似度与偏好加权值的转换关系转换获得的偏好加权值,比利用相似度与检索加权值的转换关系转换获得的检索加权值大。
11.一种计算机存储介质,其特征在于,所述存储介质中存储有程序指令,所述程序指令包括:
获取当前用户提供的待识别语音信息的至少两个候选识别结果及其分数;
根据预设的关键词提取规则,从每个候选识别结果中提取预设类型的关键词汇;
利用所提取到的关键词汇以及候选识别结果的分数,对每个候选识别结果的分数进行修正,并根据修正结果确定所述待识别语音信息的最终识别结果。
CN201710451642.7A 2017-06-15 2017-06-15 语音识别方法、装置及存储介质 Active CN109145281B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710451642.7A CN109145281B (zh) 2017-06-15 2017-06-15 语音识别方法、装置及存储介质
TW107120855A TW201921336A (zh) 2017-06-15 2018-06-15 用於語音辨識的系統和方法
CN201880039823.1A CN110770819B (zh) 2017-06-15 2018-06-15 语音识别系统和方法
PCT/CN2018/091430 WO2018228515A1 (en) 2017-06-15 2018-06-15 Systems and methods for speech recognition
US16/714,710 US11302313B2 (en) 2017-06-15 2019-12-14 Systems and methods for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710451642.7A CN109145281B (zh) 2017-06-15 2017-06-15 语音识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109145281A CN109145281A (zh) 2019-01-04
CN109145281B true CN109145281B (zh) 2020-12-25

Family

ID=64829860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710451642.7A Active CN109145281B (zh) 2017-06-15 2017-06-15 语音识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109145281B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148416B (zh) * 2019-04-23 2024-03-15 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN111856399B (zh) * 2019-04-26 2023-06-30 北京嘀嘀无限科技发展有限公司 基于声音的定位识别方法、装置、电子设备及存储介质
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN110471858B (zh) * 2019-08-22 2023-09-01 腾讯科技(深圳)有限公司 应用程序测试方法、装置及存储介质
CN110648659B (zh) * 2019-09-24 2022-07-01 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
CN110928999B (zh) * 2019-12-09 2023-02-24 北京小米智能科技有限公司 目的地确定方法、装置、电子设备及存储介质
CN111128183B (zh) * 2019-12-19 2023-03-17 北京搜狗科技发展有限公司 语音识别方法、装置和介质
CN111835925A (zh) * 2020-06-16 2020-10-27 杭州云嘉云计算有限公司 一种面向呼叫中心的离线语音质检及分析系统
CN111696558A (zh) * 2020-06-24 2020-09-22 深圳壹账通智能科技有限公司 智能外呼方法、装置、计算机设备及存储介质
CN112581958B (zh) * 2020-12-07 2024-04-09 中国南方电网有限责任公司 一种应用于电力领域的简短语音智能导航方法
CN113241070B (zh) * 2021-04-28 2024-02-27 北京字跳网络技术有限公司 热词召回及更新方法、装置、存储介质和热词系统
CN113360779B (zh) * 2021-08-09 2023-01-20 智者四海(北京)技术有限公司 内容推荐方法及装置、计算机设备及可读介质
CN115358241B (zh) * 2022-10-20 2023-04-04 科大讯飞股份有限公司 基于人机交互的标注方法及相关装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735565B2 (en) * 2001-09-17 2004-05-11 Koninklijke Philips Electronics N.V. Select a recognition error by comparing the phonetic
CN101785051A (zh) * 2007-08-22 2010-07-21 日本电气株式会社 语音识别装置和语音识别方法
JP2012079309A (ja) * 2010-09-30 2012-04-19 Nhn Corp 単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置
CN103677729A (zh) * 2013-12-18 2014-03-26 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN105447019A (zh) * 2014-08-20 2016-03-30 北京羽扇智信息科技有限公司 一种基于用户使用场景的输入识别结果校正方法和系统
CN105702252A (zh) * 2016-03-31 2016-06-22 海信集团有限公司 一种语音识别方法及装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735565B2 (en) * 2001-09-17 2004-05-11 Koninklijke Philips Electronics N.V. Select a recognition error by comparing the phonetic
CN101785051A (zh) * 2007-08-22 2010-07-21 日本电气株式会社 语音识别装置和语音识别方法
JP2012079309A (ja) * 2010-09-30 2012-04-19 Nhn Corp 単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置
CN103677729A (zh) * 2013-12-18 2014-03-26 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN105447019A (zh) * 2014-08-20 2016-03-30 北京羽扇智信息科技有限公司 一种基于用户使用场景的输入识别结果校正方法和系统
CN105702252A (zh) * 2016-03-31 2016-06-22 海信集团有限公司 一种语音识别方法及装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置

Also Published As

Publication number Publication date
CN109145281A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145281B (zh) 语音识别方法、装置及存储介质
CN108287843B (zh) 一种兴趣点信息检索的方法和装置、及导航设备
US11698261B2 (en) Method, apparatus, computer device and storage medium for determining POI alias
JP5462361B2 (ja) マップサーチのためのクエリパーシング
US7983913B2 (en) Understanding spoken location information based on intersections
CN101464896B (zh) 语音模糊检索方法及装置
US20070016556A1 (en) Destination searching system and method
US20150012271A1 (en) Speech recognition using domain knowledge
CN101019121A (zh) 对存储在数据库中的文档编制索引和进行检索的方法和系统
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
JP2009217585A (ja) 情報検索装置、情報検索システム及び情報検索方法
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN110770819B (zh) 语音识别系统和方法
CN110992944B (zh) 语音导航的纠错方法、语音导航装置、车辆和存储介质
CN109065020B (zh) 多语言类别的识别库匹配方法及系统
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
CN108304411B (zh) 地理位置语句的语义识别方法和装置
CN111931077B (zh) 数据处理方法、装置、电子设备及存储介质
CN109891500B (zh) 基于位置的话音查询识别
CN109213990A (zh) 一种特征提取方法、装置和服务器
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN116052671B (zh) 一种智能翻译机及翻译方法
WO2014199428A1 (ja) 候補告知装置、候補告知方法及び候補告知用プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant