CN109243461A - 语音识别方法、装置、设备及存储介质 - Google Patents

语音识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109243461A
CN109243461A CN201811105895.XA CN201811105895A CN109243461A CN 109243461 A CN109243461 A CN 109243461A CN 201811105895 A CN201811105895 A CN 201811105895A CN 109243461 A CN109243461 A CN 109243461A
Authority
CN
China
Prior art keywords
recognition result
recognition
modeling
result
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811105895.XA
Other languages
English (en)
Other versions
CN109243461B (zh
Inventor
韩文辉
蒋正翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811105895.XA priority Critical patent/CN109243461B/zh
Publication of CN109243461A publication Critical patent/CN109243461A/zh
Application granted granted Critical
Publication of CN109243461B publication Critical patent/CN109243461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种语音识别方法、装置、设备及存储介质,通过获取终端设备上搭载的音频采集设备采集获得的语音信号,以及在采集获得该语音信号时终端设备所在的第一区域,采用预先存储的与第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型对语音信号进行语音识别处理,从而基于第一语音识别模型的第一识别结果和第二语音识别模型的第二识别结果,确定并输出目标输出的识别结果。本申请实施例提供的技术方案能够提高语音识别的准确性,提高用户体验。

Description

语音识别方法、装置、设备及存储介质
技术领域
本申请实施例涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。
背景技术
在目前的语音识别场景中通常采用一个通用的语言模型来对不同地域不同发音习惯用户的语音请求进行识别。以地图场景为例,在地图场景中通常使用一个训练自所有地名的语言模型对不同地域来源的语音请求进行解码识别。但是实际情况是,不同城市的地名/建筑名称/道路名称往往存在同音不同字的情况,同一个发音经常对应不同城市的街道(如海桐路(上海)和海铜路(重庆))、酒店(如爱俪轩(上海)和爱丽轩(廊坊))、建筑等,使得语音识别系统不确定哪个识别结果是用户目标输入的结果,只能呈现给用户在统计量上输出频率较高的识别结果,然而输出频率较高的识别结果不一定就是用户目标输入的结果,从而容易出现识别错误的情况,用户体验较差。
发明内容
本申请实施例提供一种语音识别方法、装置、设备及存储介质,用以提高语音识别的准确性,尤其是提高地图场景下语音识别的准确性。
本申请实施例第一方面提供一种语音识别方法,包括:获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。
本申请实施例第二方面提供一种语音识别装置,包括:获取模块,用于获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;识别模块,用于采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;第一确定模块,用于基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。
本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;一个或多个音频采集设备,所述音频采集设备与所述处理器连接,用于采集语音信号;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过获取终端设备上搭载的音频采集设备采集获得的语音信号,以及在采集获得该语音信号时终端设备所在的第一区域,采用预先存储的与第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型对语音信号进行语音识别处理,从而基于第一语音识别模型的第一识别结果和第二语音识别模型的第二识别结果,确定并输出目标输出的识别结果。本申请实施例中第一语音识别模型是基于第一区域中的语音样本训练获得的,针对第一区域中获取到的语音信号采用第一语音模型相比于采用通用的语音识别模型一般能够得到更加符合地域特征的识别结果,使得识别结果更加准确,同时采用第一语音识别模型的同时也采用通用的第二语音识别模型,结合第一语音识别模型和第二语音识别模型的识别结果来共同确定最终目标输出的识别结果也能够进一步确保最终识别结果的准确性,避免在第二语音识别模型的识别结果不准确时对最终输出结果造成影响。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1是现有技术提供的一种适用于电子地图的语音识别场景示意图;
图2是本申请实施例提供的一种语音识别方法的应用场景示意图;
图3是本申请实施例提供的一种语音识别方法的流程图;
图4是本申请实施例提供的一种步骤S13的执行方法流程图;
图5是本申请实施例提供的一种语音识别装置的结构图;
图6是本申请实施例提供的第一确定模块53的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是现有技术提供的一种适用于电子地图的语音识别场景示意图,图1中的语音信号可以是位于任意区域(比如,上海、北京、重庆等)的用户输出的语音信号,语音识别装置可以理解为具备语音识别功能的终端设备,也可以理解为设置在终端设备中的具有语音识别功能的装置。这里以语音识别装置设置在终端设备内为例。当用户发出语音信号时,终端设备上搭载的音频采集设备采集获得该语音信号,并将该语音信号发送给语音识别装置,语音识别装置调用通用的语音识别模型对接收到的语音信号进行识别处理,从而输出识别结果。但是目前不同城市的地名/建筑名称/道路名称往往存在同音不同字的情况,同一个发音经常对应不同城市的街道(如海桐路(上海)和海铜路(重庆))、酒店(如爱俪轩(上海)和爱丽轩(廊坊))、建筑等,使得语音识别系统不确定哪个识别结果是用户目标输入的结果,只能呈现给用户在统计量上输出频率较高的识别结果,然而输出频率较高的识别结果不一定就是用户目标输入的结果,从而容易出现识别错误的情况,用户体验较差。
针对现有技术存在的上述技术问题,本申请实施例提供了一种语音识别方法,图2是本申请实施例提供的一种语音识别方法的应用场景示意图,如图2所示,在本申请实施例中涉及的语音识别模型包括各区域通用的语音识别模型,以及基于各区域中采集获得的语音样本训练获得的适用于各区域的语音识别模型。在进行语音识别时,不仅要获取待识别的语音信号还要获取终端设备在采集该语音信号时的位置区域a,从而调用基于该位置区域a中语音样本训练获得的语音识别模型,以及预先训练获得的各区域通用的语音识别模型对语音信号进行分析,并基于二者的识别结果得到最终的语音识别结果。由于本申请实施例中预设了多个语音识别模型,且每个模型均通过一个对应区域中的语音样本训练获得,从而在执行语音识别操作时,基于终端设备的位置选择相应的语音模型进行语音识别任务,就能够使得语音识别结果更加具有地域特征,提高语音识别的准确性,并且提供时采用通用语音识别模型进行语音识别也能够进一步确保最终识别结果的准确性,避免在位置区域对应的语音识别模型的识别结果不准确时对最终输出结果造成影响。
以下将结合附图来具体描述本申请实施例的技术方案。
图3是本申请实施例提供的一种语音识别方法的流程图,该方法可以由一种语音识别装置来执行,本实施例的应用场景可示例性的理解为电子地图中语音输入位置信息的场景。参见图3,该方法包括步骤S11-S13:
S11、获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域。
本实施例中终端设备上搭载的音频采集设备可示例性的理解为麦克风,麦克风的数量可以是一个也可以是多个,本实施例对其不做具体限定。
本实施例对于“第一区域”的命名仅是用于将采集获得语音信号时终端设备所在的区域与其他时刻终端设备所在的区域进行区分,而不具有其他含义。
在本实施例中终端设备上还搭载有定位装置,该定位装置按照预设定位周期更新定位信息,或者在检测到终端设备移动时更新定位信息。本实施例在获取终端设备所在的第一区域时,一种可能的方法是根据定位装置在当前定位周期内获取到的定位信息来获得终端设备所在的第一区域,比如定位装置在3秒前定位获得的位置为北京市,那么获取到的第一区域即为北京市。在另一种可能的方法中可以在语音识别的场景中主动触发定位装置进行定位操作,从而获得终端设备所在的第一区域。当然上述两种方式仅是为了方便理解所做的示例说明而不是对本申请的唯一限定。
S12、采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的。
本实施例的场景中包括多个语音识别模型,其中多个语音识别模型中包括各区域通用的语音识别模型,以及多个区域中每个区域对应的语音识别模型。其中在训练模型时,各区域通用的语音识别模型可以基于电子地图中大量的兴趣点(Point of Interest,简称POI)数据训练获得,各区域对应的语音识别模型可以是通过各区域中采集获得的语音样本(比如,地名或街道名的读音等)训练获得的个性化语音识别模型,比如在一种可能的场景中,可以针对每个区域训练获得一个对应的语音识别模型,当某一区域中不包括与其他区域同音不同字的位置名称(比如,街道名称或者建筑物名称等)时,可以基于位置名称以外的语音样本(比如人名等)训练获得该区域对应的语音识别模型。
在对语音信号进行识别处理时,首先基于获取到的第一区域的信息确定对应的第一语音识别模型,进一步的,再基于第一语音识别模型和通用的第二语音识别模型对语音信号进行识别处理。在具体处理时,第一语音识别模型和第二语音识别模型可以并处理,也可以按次序处理,其中在按次序处理的场景中,第一语音识别模型和第二语音识别模型的识别顺序可以是任意的,本实施例中不做具体限定。
S13、基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。
示例的,本实施例在确定目标输出的识别结果时,可以基于预设的概率计算模型计算目标输出的识别结果为第一识别结果的概率,以及目标输出的识别结果为第二识别结果的概率,确定第一识别结果和第二识别结果中对应概率最大的为目标输出的识别结果。
具体的,在本实施例中,第一语音识别模型和第二语音识别模型各自可能得到一个或多个识别结果,针对这种情况,本实施例中的第一识别结果和第二识别结果可分别表示多个识别结果,也可以各自只表示一个识别结果。
在第一识别结果和第二识别结果分别表示多个识别结果的场景中,确定目标输出的识别结果的方法可示例性的包括如下几种:
在一种可能的方法中,分别从第一识别结果和第二识别结果中确定出第一语音识别模型输出频率最高的识别结果,以及第二语音识别模型输出频率最高的识别结果。进一步的,基于预设概率计算模型计算前述确定出的两个识别结果的概率值,并确定二者中概率值较大的为目标输出的识别结果。或者,也可以将前述确定出的第一语音识别模型输出频率最高的识别结果与前述确定出的第二语音识别模型输出频率最高的识别结果进行对比,若二者结果一致,或者为同音不同字的词,则输出第一语音识别模型对应的输出频率最高的识别结果,若二者结果不一致,且不是同音不同字的词,则基于预设的概率计算模型计算二者各自对应的概率值,确定概率值较大的为目标输出的识别结果。
在另一种可能的方法中,可以直接基于预设的概率计算模型计算出第一识别结果和第二识别结果中概率值最高的识别结果,并将该识别结果作为目标输出的识别结果。
在第一识别结果和第二识别结果各自只表示一个识别结果的场景中,其确定目标输出的识别结果的方法可以参照上述第一种可能的方法,在这里不再赘述。
进一步的,在确定目标输出的识别结果之后,终端设备显示该识别结果,并可以在显示该识别结果的同时显示该识别结果的区域条件为第一区域,比如,在一个示例中终端设备输出的识别结果可以为如下形式:“##街道(##市/##市##区))”,当然这里仅是示例说明而不是对本申请识别结果的输出格式的唯一限定。
本实施例通过获取终端设备上搭载的音频采集设备采集获得的语音信号,以及在采集获得该语音信号时终端设备所在的第一区域,采用预先存储的与第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型对语音信号进行语音识别处理,从而基于第一语音识别模型的第一识别结果和第二语音识别模型的第二识别结果,确定并输出目标输出的识别结果。本实施例中第一语音识别模型是基于第一区域中的语音样本训练获得的,针对第一区域中获取到的语音信号采用第一语音模型相比于采用通用的语音识别模型一般能够得到更加符合地域特征的识别结果,使得识别结果更加准确,同时采用第一语音识别模型的同时也采用通用的第二语音识别模型,结合第一语音识别模型和第二语音识别模型的识别结果来共同确定最终目标输出的识别结果也能够进一步确保最终识别结果的准确性,避免在第二语音识别模型的识别结果不准确时对最终输出结果造成影响。
下面结合附图对上述实施例进行进一步的优化和扩展。
图4是本申请实施例提供的一种步骤S13的执行方法流程图,如图4所示,在图3实施例的基础上,该方法包括步骤S21-S24:
S21、对所述第一语音识别模型得到的第一识别结果和所述第二语音识别模型得到的第二识别结果进行纠错处理得到第三识别结果。
目前,在语音识别场景中常常出现三种识别错误,第一种是少字,即用户所说的有些词汇或者句子在识别的过程中丢失了。例如用户所说的是“查询今天的天气”,而识别结果只有“今天的天气”,丢弃了“查询”;第二种是多字,即识别结果中出现的文字个数多于用户实际所说的有效文字个数。例如用户所说的是“查询今天的天气”,而识别结果是“嗯查询今天的天气”,将用户的语气词也进行了识别。第三种是识别错误,即识别出来的文字和用户语音所表述的文字发音相同或接近,但是含义不同。例如用户所说的是“找最近的路线”,识别结果是“找最近的泸县”,用户所说的是“小度小度”,识别结果是“小豆小豆或小鹿小鹿”等等。上述第三种识别错误常常与用户的口音和语音识别模型本身有关,是本申请纠错的对象。针对上述第三种识别错误,可以采用如下纠错方法中的任意一种进行纠错:
在第一种可能的纠错方法中,按照音来纠错,即将识别出来的文字转化为文字对应的发音,并将该发音与预先存储的高频误识别纠错表中的发音进行比较,如果纠错表中有发音一致的发音,则将原识别结果纠正为纠错表中发音一致的发音对应的识别结果。
在第二种可能的纠错方法中,按照音来选择,第一步同上述第一种可能的纠错方法,先找到与识别结果的发音一致的高频误识别纠错表中的发音对应的文字,并将其作为候选解和原始识别结果一起用预设的分析模型判断两者的合理性,将模型得分高的那个文本作为纠正后的识别结果。
在第三种可能的纠错方法中,文本纠错。预先存储一个纠错表,纠错表中包括被纠错词汇以及被纠错词汇对应的正确识别结果,如果识别结果和纠错表中被纠错词汇一致,则将其部分或者全部替换为纠错表中正确的识别结果。
S22、基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合。
其中,形成第一集合的方法包括如下几种:
在一种可能的方法中,由第一识别结果、第二识别结果以及第三识别结果构成第一集合。
在另一种可能的方法中,先对第一识别结果、第二识别结果和第三识别结果进行特征提取,基于特征提取的结果形成第一集合。即第一集合中的元素为从第一识别结果、第二识别结果和第三识别结果中提取的特征元素。
S23、基于预设打分模型计算所述第一集合中每个识别结果的打分。
本实施例中预设的打分模型可以包括一个或多个模型,打分模型的个数和种类可以根据需要进行设定,本实施例中不做限定。
S24、基于每个识别结果的打分确定目标输出的识别结果。
在基于每个识别结果的打分确定目标输出的识别结果时,其执行方式可能包括如下几种:
在一种可能的方式中,直接将第一集合中所有识别结果中打分最高的作为目标输出的识别结果。
在另一种可能的方式中,可以首先针对第一集合中的每个识别结果,将识别结果与其对应的打分组成一个元素,进一步的再将基于第一集合中所有识别结果得到的所有元素构成第二集合,最后将第二集合中的元素输入预先训练获得的排序几种,将排序机输出的排序最高的识别结果作为目标输出的识别结果。
本实施例通过对第一识别结果、第二识别结果以及第三识别结果进行特征提取,并对每个提取结果进行打分,将打分对应的提取结果作为一个元素输入排序机,将排序机输出排序最高的识别结果作为目标输出的识别结果,减少了识别结果的数据量,降低了对识别结果的计算量,提高了语音识别的效率和准确性。
图5是本申请实施例提供的一种语音识别装置的结构图,如图5所示,装置50包括:
获取模块51,用于获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;
识别模块52,用于采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;
第一确定模块53,用于基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。
在一种可能的设计中,所述第一确定模块53,包括:
第一确定子模块,用于基于预设的概率计算模型,计算目标输出的识别结果为第一识别结果的概率,以及目标输出的识别结果为第二识别结果的概率,确定所述第一识别结果和所述第二识别结果中对应概率最大的为目标输出的识别结果。
在一种可能的设计中,所述装置还包括:
第二确定模块,用于确定所述第一语音识别模型得到的多个识别结果中输出频率最高的为第一识别结果;
第三确定模块,用于确定所述第二语音识别模型得到的多个识别结果中输出频率最高的为第二识别结果。
在一种可能的设计中,所述装置还包括:
显示模块,用于显示语音识别的区域条件为第一区域。
本实施例提供的装置能够用于执行图3实施例的技术方案,其执行方式和有益效果类似,在这里不再赘述。
图6是本申请实施例提供的第一确定模块53的结构示意图,如图6所示,在图5实施例的基础上,第一确定模块53,包括:
纠错子模块531,用于对所述第一语音识别模型得到的第一识别结果和所述第二语音识别模型得到的第二识别结果进行纠错处理得到第三识别结果;
生成子模块532,用于基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合;
打分子模块533,用于基于预设打分模型计算所述第一集合中每个识别结果的打分;
第二确定子模块534,用于基于每个识别结果的打分确定目标输出的识别结果。
在一种可能的设计中,所述生成子模块,具体用于:
分别对所述第一识别结果、第二识别结果和第三识别结果进行特征提取,基于特征提取的结果形成第一集合。
在一种可能的设计中,所述第二确定子模块,包括:
第一确定子单元,用于确定打分最高的识别结果为目标输出的识别结果。
在一种可能的设计中,所述第二确定子模块,包括:
第一构建子单元,用于针对所述第一集合中的每个识别结果,将所述识别结果与其对应的打分组成一个元素;
形成子单元,用于基于得到的所有元素形成第二集合;
第二确定子单元,用于将所述第二集合输入预先训练获得的排序机中,将排序机输出的排序最高的识别结果作为目标输出的识别结果。
本实施例提供的装置能够用于执行图4实施例的技术方案,其执行方式和有益效果类似,在这里不再赘述。
本申请实施例还提供一种计算机设备,包括:一个或多个处理器;一个或多个音频采集设备,所述音频采集设备与所述处理器连接,用于采集语音信号;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
本申请实施例还提供在一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种语音识别方法,其特征在于,包括:
获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;
采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;
基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果,包括:
基于预设的概率计算模型,计算目标输出的识别结果为第一识别结果的概率,以及目标输出的识别结果为第二识别结果的概率,确定所述第一识别结果和所述第二识别结果中对应概率最大的为目标输出的识别结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果,包括:
对所述第一语音识别模型得到的第一识别结果和所述第二语音识别模型得到的第二识别结果进行纠错处理得到第三识别结果;
基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合;
基于预设打分模型计算所述第一集合中每个识别结果的打分;
基于每个识别结果的打分确定目标输出的识别结果。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合,包括:
分别对所述第一识别结果、第二识别结果和第三识别结果进行特征提取,基于特征提取的结果形成第一集合。
5.根据权利要求4所述的方法,其特征在于,所述基于每个识别结果的打分确定目标输出的识别结果,包括:
确定打分最高的识别结果为目标输出的识别结果。
6.根据权利要求4所述的方法,其特征在于,所述基于每个识别结果的打分确定目标输出的识别结果,包括:
针对所述第一集合中的每个识别结果,将所述识别结果与其对应的打分组成一个元素;
基于得到的所有元素形成第二集合;
将所述第二集合输入预先训练获得的排序机中,将排序机输出的排序最高的识别结果作为目标输出的识别结果。
7.根据权利要求1-6中任一项所述的方法,其特征在于,当所述第一语音识别模型和所述第二语音识别模型均得到多个识别结果时,所述基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果之前,所述方法还包括:
确定所述第一语音识别模型得到的多个识别结果中输出频率最高的为第一识别结果;
确定所述第二语音识别模型得到的多个识别结果中输出频率最高的为第二识别结果。
8.根据权利要求1-6中任一项所述的方法,其特征在于,其特征在于,所述获取在采集获得所述语音信号时所述终端设备所在的第一区域之后,所述方法还包括:
显示语音识别的区域条件为第一区域。
9.一种语音识别装置,其特征在于,包括:
获取模块,用于获取终端设备上搭载的音频采集设备采集获得的语音信号,以及获取在采集获得所述语音信号时所述终端设备所在的第一区域;
识别模块,用于采用预先存储的与所述第一区域对应的第一语音识别模型以及预先设定的所有区域通用的第二语音识别模型,对所述语音信号进行语音识别处理,其中所述第一语音识别模型是基于所述第一区域中的语音样本训练获得的;
第一确定模块,用于基于所述第一语音识别模型的第一识别结果和所述第二语音识别模型的第二识别结果,确定目标输出的识别结果。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,包括:
第一确定子模块,用于基于预设的概率计算模型,计算目标输出的识别结果为第一识别结果的概率,以及目标输出的识别结果为第二识别结果的概率,确定所述第一识别结果和所述第二识别结果中对应概率最大的为目标输出的识别结果。
11.根据权利要求9所述的装置,其特征在于,所述第一确定模块,包括:
纠错子模块,用于对所述第一语音识别模型得到的第一识别结果和所述第二语音识别模型得到的第二识别结果进行纠错处理得到第三识别结果;
生成子模块,用于基于所述第一识别结果、第二识别结果和第三识别结果,形成第一集合;
打分子模块,用于基于预设打分模型计算所述第一集合中每个识别结果的打分;
第二确定子模块,用于基于每个识别结果的打分确定目标输出的识别结果。
12.根据权利要求11所述的装置,其特征在于,所述生成子模块,具体用于:
分别对所述第一识别结果、第二识别结果和第三识别结果进行特征提取,基于特征提取的结果形成第一集合。
13.根据权利要求12所述的装置,其特征在于,所述第二确定子模块,包括:
第一确定子单元,用于确定打分最高的识别结果为目标输出的识别结果。
14.根据权利要求12所述的装置,其特征在于,所述第二确定子模块,包括:
第一构建子单元,用于针对所述第一集合中的每个识别结果,将所述识别结果与其对应的打分组成一个元素;
形成子单元,用于基于得到的所有元素形成第二集合;
第二确定子单元,用于将所述第二集合输入预先训练获得的排序机中,将排序机输出的排序最高的识别结果作为目标输出的识别结果。
15.根据权利要求9-14中任一项所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于确定所述第一语音识别模型得到的多个识别结果中输出频率最高的为第一识别结果;
第三确定模块,用于确定所述第二语音识别模型得到的多个识别结果中输出频率最高的为第二识别结果。
16.根据权利要求9-14中任一项所述的装置,其特征在于,所述装置还包括:
显示模块,用于显示语音识别的区域条件为第一区域。
17.一种计算机设备,其特征在于,包括:
一个或多个处理器;
一个或多个音频采集设备,所述音频采集设备与所述处理器连接,用于采集语音信号;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201811105895.XA 2018-09-21 2018-09-21 语音识别方法、装置、设备及存储介质 Active CN109243461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811105895.XA CN109243461B (zh) 2018-09-21 2018-09-21 语音识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811105895.XA CN109243461B (zh) 2018-09-21 2018-09-21 语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109243461A true CN109243461A (zh) 2019-01-18
CN109243461B CN109243461B (zh) 2020-04-14

Family

ID=65056461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811105895.XA Active CN109243461B (zh) 2018-09-21 2018-09-21 语音识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109243461B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509473A (zh) * 2019-01-28 2019-03-22 维沃移动通信有限公司 语音控制方法及终端设备
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN110288995A (zh) * 2019-07-19 2019-09-27 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110610697A (zh) * 2019-09-12 2019-12-24 上海依图信息技术有限公司 一种语音识别方法及装置
CN110956955A (zh) * 2019-12-10 2020-04-03 苏州思必驰信息科技有限公司 一种语音交互的方法和装置
CN111049996A (zh) * 2019-12-26 2020-04-21 苏州思必驰信息科技有限公司 多场景语音识别方法及装置、和应用其的智能客服系统
CN111369992A (zh) * 2020-02-27 2020-07-03 Oppo(重庆)智能科技有限公司 指令执行方法、装置、存储介质及电子设备
CN113223522A (zh) * 2021-04-26 2021-08-06 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
US20210398538A1 (en) * 2018-10-08 2021-12-23 Sorenson Ip Holdings, Llc Transcription of communications

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
US20120065975A1 (en) * 2008-12-04 2012-03-15 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
CN103038817A (zh) * 2010-05-26 2013-04-10 谷歌公司 使用地理信息的声学模型适配
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN104160440A (zh) * 2012-03-06 2014-11-19 苹果公司 使用基于位置的语言建模的自动输入信号识别
CN104240706A (zh) * 2014-09-12 2014-12-24 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106251859A (zh) * 2016-07-22 2016-12-21 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106297797A (zh) * 2016-07-26 2017-01-04 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120065975A1 (en) * 2008-12-04 2012-03-15 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
CN103038817A (zh) * 2010-05-26 2013-04-10 谷歌公司 使用地理信息的声学模型适配
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN104160440A (zh) * 2012-03-06 2014-11-19 苹果公司 使用基于位置的语言建模的自动输入信号识别
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN104240706A (zh) * 2014-09-12 2014-12-24 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106251859A (zh) * 2016-07-22 2016-12-21 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106297797A (zh) * 2016-07-26 2017-01-04 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN107578771A (zh) * 2017-07-25 2018-01-12 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600279B2 (en) * 2018-10-08 2023-03-07 Sorenson Ip Holdings, Llc Transcription of communications
US20210398538A1 (en) * 2018-10-08 2021-12-23 Sorenson Ip Holdings, Llc Transcription of communications
CN109509473A (zh) * 2019-01-28 2019-03-22 维沃移动通信有限公司 语音控制方法及终端设备
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN110288995A (zh) * 2019-07-19 2019-09-27 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110610697A (zh) * 2019-09-12 2019-12-24 上海依图信息技术有限公司 一种语音识别方法及装置
CN110610697B (zh) * 2019-09-12 2020-07-31 上海依图信息技术有限公司 一种语音识别方法及装置
WO2021047103A1 (zh) * 2019-09-12 2021-03-18 上海依图信息技术有限公司 一种语音识别方法及装置
CN110956955B (zh) * 2019-12-10 2022-08-05 思必驰科技股份有限公司 一种语音交互的方法和装置
CN110956955A (zh) * 2019-12-10 2020-04-03 苏州思必驰信息科技有限公司 一种语音交互的方法和装置
CN111049996A (zh) * 2019-12-26 2020-04-21 苏州思必驰信息科技有限公司 多场景语音识别方法及装置、和应用其的智能客服系统
CN111369992A (zh) * 2020-02-27 2020-07-03 Oppo(重庆)智能科技有限公司 指令执行方法、装置、存储介质及电子设备
CN113223522B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113223522A (zh) * 2021-04-26 2021-08-06 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN109243461B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN109243461A (zh) 语音识别方法、装置、设备及存储介质
CN107086040B (zh) 语音识别能力测试方法和装置
CN105448292B (zh) 一种基于场景的实时语音识别系统和方法
US6718304B1 (en) Speech recognition support method and apparatus
KR100819234B1 (ko) 네비게이션 단말의 목적지 설정 방법 및 장치
JP5968578B2 (ja) ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
CN104978963A (zh) 语音识别装置、方法以及电子设备
US8374868B2 (en) Method of recognizing speech
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN110992944B (zh) 语音导航的纠错方法、语音导航装置、车辆和存储介质
WO2016136207A1 (ja) 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム
US10515634B2 (en) Method and apparatus for searching for geographic information using interactive voice recognition
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
CN107112007B (zh) 语音识别装置及语音识别方法
US6996519B2 (en) Method and apparatus for performing relational speech recognition
CN105869631B (zh) 语音预测的方法和装置
JP2015141226A (ja) 情報処理装置
JP5455355B2 (ja) 音声認識装置及びプログラム
JP2004251998A (ja) 対話理解装置
CN104965922A (zh) 利于盲人感知的信息获取方法和系统
KR101397825B1 (ko) 위치 정보에 기초한 음성 인식 시스템 및 방법
JP2007187687A (ja) 音声変換処理装置
JP2009282835A (ja) 音声検索装置及びその方法
JPH11231892A (ja) 音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant