CN107170454B - 语音识别方法及相关产品 - Google Patents

语音识别方法及相关产品 Download PDF

Info

Publication number
CN107170454B
CN107170454B CN201710401111.7A CN201710401111A CN107170454B CN 107170454 B CN107170454 B CN 107170454B CN 201710401111 A CN201710401111 A CN 201710401111A CN 107170454 B CN107170454 B CN 107170454B
Authority
CN
China
Prior art keywords
recognition
voice
standard
dialect
standard document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710401111.7A
Other languages
English (en)
Other versions
CN107170454A (zh
Inventor
白剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201710401111.7A priority Critical patent/CN107170454B/zh
Publication of CN107170454A publication Critical patent/CN107170454A/zh
Application granted granted Critical
Publication of CN107170454B publication Critical patent/CN107170454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了语音识别方法及相关产品,其中方法包括:终端设备显示标准文档,采集用户读所述标准文档的语音数据;获得所述标准文档对应的标准语音,对所述语音数据进行语音识别;对照语音识别得到的特征信息与所述标准语音之间的差异性,确定执行语音识别的识别算法。通过提供标准文档,可以让用户读标准文档,由于存在标注语音作为先验信息,那么可以更方便找到差异性从而确定方言的类型,甚至方言类型对应的更细化的习惯性口音,从而确定更为合适的算法,因此可以提高非标准语音的识别的准确率。

Description

语音识别方法及相关产品
技术领域
本发明涉及计算机技术领域,具体涉及语音识别方法及相关产品。
背景技术
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为机器的听觉系统。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如:只需口述即可设置目的地直接导航,安全、便捷。
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
如何提高语音识别的准确率以及识别速度,是该领域技术人员努力的方向;目前,由于人们说话带有口音,甚至有区别很大的方言,给语音识别造成了较大的困难,因此需要提出解决方案。
发明内容
本发明实施例提供了语音识别方法及相关产品,用于提高非标准语音的识别的准确率。
第一方面,本发明实施例提供了一种语音识别方法,包括:
终端设备显示标准文档,采集用户读所述标准文档的语音数据;
获得所述标准文档对应的标准语音,对所述语音数据进行语音识别;
对照语音识别得到的特征信息与所述标准语音之间的差异性,确定执行语音识别的识别算法。
在一个可选的实现方式中,所述确定执行语音识别的识别算法包括:
首先依据所述差异性确定方言类型,然后确定与所述方言类型对应的识别算法作为执行语音识别的识别算法。
在一个可选的实现方式中,所述显示标准文档包括:
在显示标准文档过程中,依据确定的方言类型调整所述标准文档。
在一个可选的实现方式中,所述显示标准文档之前,所述方法还包括:
按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的标准文档。
在一个可选的实现方式中,在按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的标准文档之前,所述方法还包括:
统计所述移动终端所处的位置信息得到历史记录集;分析所述历史记录集,得到所述移动终端所属的地理区域作为所述地理位置。
在一个可选的实现方式中,在确定执行语音识别的识别算法之后,所述方法还包括:
依据所述差异性确定至少两种标准语音库,使用所述至少两种语音库以及所述识别算法,获得可能性最大的至少两种识别结果;
获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。
第二方面,本发明实施例还提供了一种终端设备,包括处理单元和输入输出单元,
所述输入输出单元,用于接收输入的数据和输出数据;
所述处理单元,用于显示标准文档,采集用户读所述标准文档的语音数据;获得所述标准文档对应的标准语音,对所述语音数据进行语音识别;对照语音识别得到的特征信息与所述标准语音之间的差异性,确定执行语音识别的识别算法。
在一个可选的实现方式中,所述处理单元,用于确定执行语音识别的识别算法包括:首先依据所述差异性确定方言类型,然后确定与所述方言类型对应的识别算法作为执行语音识别的识别算法。
三方面本发明实施例还提供了一种终端设备,包括一个或多个处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述一个或多个处理器执行,所述程序包括用于执行本发明实施例提供的任一项方法中的步骤的指令。
四方面本发明实施例还提供了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法,所述计算机包括终端设备。
可以看出,本发明实施例中,通过提供标准文档,可以让用户读标准文档,由于存在标注语音作为先验信息,那么可以更方便找到差异性从而确定方言的类型,甚至方言类型对应的更细化的习惯性口音,从而确定更为合适的算法,因此可以提高非标准语音的识别的准确率。
附图说明
下面将对本发明实施例所涉及到的附图作简单地介绍。
图1是本发明实施例提供的方法的流程示意图;
图2是本发明实施例提供的方法流程示意图;
图3是本发明实施例的语音识别设备结构示意图;
图4是本发明实施例的终端设备结构示意图;
图5是本发明实施例的终端设备的结构示意图;
图6是本发明实施例的终端设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例所涉及到的终端设备可以包括各种可移动的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。为方便描述,上面提到的设备统称为终端设备。
语音识别的准确性一直是语音识别的大难题,目前使用各种算法来提高语音识别的准确性,但是对于终端设备而言,使用者千差万别,语言类型容易区分,但是各地方言造成极大困扰。
在本发明实施例中,非标准语音是相对于标准语音而言的,标准语音可以是:汉语的普通话发音,或者,某些被列入标准的方言发音。后续实施例对此不再一一赘述。在中国标准文档的标准语音可以是标准文档的普通话发音,在确定方言类型后,标准文档可以是该标准文档对应方言类型的标准发音。
下面结合附图对本发明实施例进行介绍。
请参阅图1,图1是本发明实施例提供了一种语音识别方法的流程示意图,应用于终端设备,如图所示,本拍照控制方法包括:
101,终端设备显示标准文档,采集用户读上述标准文档的语音数据;
上述采集语音数据,可以是人对着终端设备说话,由终端设备的语音拾取设备,例如:话筒,采集用户输入的语音数据。
102:获得上述标准文档对应的标准语音,对上述语音数据进行语音识别;
在语音识别的研究发展过程中,研究人员根据不同语言的发音特点,设计和制作了以汉语(包括不同方言)、英语等各类语言的语音数据库,这些语音数据库,例如:MITMedia lab Speech Dataset(麻省理工学院媒体实验室语音数据集)、Pitch and VoicingEstimates for Aurora 2(Aurora2语音库的基因周期和声调估计)、Congressionalspeech data(国会语音数据)、Mandarin Speech Frame Data(普通话语音帧数据)、用于测试盲源分离算法的语音数据等。
因此,不同的方言类型可以有不同的识别算法与之对应,特别地不同的识别算法可以对应到不同的方言类型的标准语音的语音数据库;因此对于确定的方言类型,可以有针对性地提高识别速度和准确度。
在首次识别过程中,由于还没有确定识别算法,在本步骤中可以使用普通话对应的语音数据库进行初次识别。
103:对照语音识别得到的特征信息与上述标准语音之间的差异性,确定执行语音识别的识别算法。
可以理解的是,根据差异性可以确定对应的语音数据库,例如:对于不同的方言类型,可以有不同方言的语音数据库与识别算法配套使用。需要说明的是,依据上述差异性可以确定使用终端设备的用户使用的哪一种方言,但是也可以不必确定方言类型,而是仅获得这种差异性,使用这种差异性直接对应到某一种特定的识别算法。
在本实施例中,通过提供标准文档,可以让用户读标准文档,由于存在标注语音作为先验信息,那么可以更方便找到差异性从而确定方言的类型,甚至方言类型对应的更细化的习惯性口音,从而确定更为合适的算法,因此可以提高非标准语音的识别的准确率。
在一个可选的实现方式中,本实施例还提供了依据差异性确定方言类型的实现方式,具体如下:上述确定执行语音识别的识别算法包括:
首先依据上述差异性确定方言类型,然后确定与上述方言类型对应的识别算法作为执行语音识别的识别算法。
不同的方言类型可以较为方便的建立对应的语音数据库。
方言类型是指方言所属的种类。目前在中国主要有如下七种,分别为:
1、北方话(简称:北语);
2、广东话(简称:粤语);
3、江浙话(简称:吴语);
4、福建话(简称:闽语);
5、湖南话(简称:湘语);
6、江西话(简称:赣语);
7、客家话(简称:客语)。
除此之外还有很多其他的方言类型,在此不再一一罗列。
那么可以建立上述七种方言的类型对应的语音数据库。这样可以减小数据库所需占用的存储资源,并且减少识别算法进行的计算量。
在一个可选的实现方式中,本发明实施例还提供了调整标准文档的实现方案,具体如下:上述显示标准文档包括:
在显示标准文档过程中,依据确定的方言类型调整上述标准文档。
在本实施例中,标准文档可以依各地方言的发音特点,总结一个初始的文档来初步确定方言类型,然后在语音识别过程中,调整标准文档来进一步验证之前确定的方言类型是否正确。采用本实施例方案,可以更为准确的确定方言类型。
在一个可选的实现方式中,本实施例还提供了地理位置确定标准文档的方案如下:上述显示标准文档之前,上述方法还包括:
按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的标准文档。
在本实施例中,地理位置可以使用经纬度,或者行政区划等方式来表示;也可以使用预置的方言区域划分来表示,并不仅限于经纬度的方式来表示该地理位置。由于方言区域与方言类型由直接关系,因此在确定地理位置后可以作为参考来提供更有针对性的标准文档,方便在后续语音识别过程中提取相应到差异性进行确认。
在一个可选的实现方式中,由于即时获取的地理位置信息未必是终端设备的常用或者真实的能够体现其方言区域的位置,例如:出差客户的终端设备,因此本发明实施例提供了解决方案如下:在按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的标准文档之前,上述方法还包括:
统计上述移动终端所处的位置信息得到历史记录集;分析上述历史记录集,得到上述移动终端所属的地理区域作为上述地理位置。
在本实施例中,采用历史记录集的方式来确定终端设备真实所属的区域,这样可以避免终端设备频繁在各种不同方言区域移动导致判断不准确的问题。
上述分析历史记录集的方式,可以如:确定终端设备在某地理区域持续的时间最长,则该地理区域可以作为该终端设备最可能的真实地理位置区域。例如:汽车停放最多的地理位置,手机晚上所在最多的地理位置等等。
在一个可选的实现方式中,本实施例还提供了使用多种语音库的实现方案,具体如下:在确定执行语音识别的识别算法之后,上述方法还包括:
依据上述差异性确定至少两种标准语音库,使用上述至少两种语音库以及上述识别算法,获得可能性最大的至少两种识别结果;
获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
前述实施例中以及确定了识别算法,后续可以使用多种标准语音库配套该识别算法进行识别,并输出多种识别结果;上述相对准确的识别结果可以是用户输入指令告知的信息,通过用户的配合可以进一步选择更为优选的识别算法。
对于方言而言,即是在确定了方言类型的情况下,仍然有可能会有方言差异性,可以针对更为细化的方言进行更为准确的识别,例如:
吴语又称江浙话或江南话。过去以苏州话为代表,现今随着上海市的经济发展,使上海话使用的人口不断的增多,通晓上海话也逐渐多。因此现今吴语的代表是上海话。通行地域主要是江苏省长江以南、镇江以东,南通小部份,上海及浙江大部份地区,可分为五个片:
(1)以上海话为代表的太湖片,通行地域:上海市、常州地区、杭州地区和宁波地区。
(2)以临海话为代表的台州片。
(3)以温州话为代表的东欧片。
(4)以金华话为代表婺州片。
(5)以丽水话为代表的丽衢片。
可见,即是同一个方言类型也会分为多种更为细化的分支,因此建立相应的数据库可以进一步提高语音识别的准确性。
在一个可选的实现方式中,本发明实施例还提供了进一步矫正识别算法的选择方案,如图2所示,是本发明实施例的另一种实现方案如下:
201:获得终端设备所在的地理位置,该地理位置对应了一个方言区域;该方言区域可能有一种或者一种以上的方言类型,据此初步确定方言类型;
202:显示标准文档,并采集用户读标准文档的语音数据;
该标准文档是基于前面初步确定的方言类型确定。
203:对采集的语音数据进行识别,与上述方言类型的标准语音进行比对,获得差异性;
本步骤的识别算法可以使用204中确定方言类型对应的识别算法,在首次执行的情况下可以使用与终端设备所使用的语言类型对应的识别算法,也可以使用201中初步确定的方言类型对应的识别算法。
204:依据上述差异性确定方言类型;回到202,调整标准文档到与确定的方言类型相适应的标准文档;
上述202到204,可以执行到确定的方言类型稳定,也可以执行预定次数后进入205。
205:获得与上述确定方言类型对应的识别算法,在后续语音识别的过程中使用。
如图3所示,为本发明实施例提供的一种语音识别设备,该语音识别设备可以为终端设备,具体包括:
显示单元301,用于显示标准文档;
采集单元302,用于采集用户读上述标准文档的语音数据;
语音获得单元303,用于获得上述标准文档对应的标准语音;
识别单元304,用于对上述语音数据进行语音识别;
算法确定单元305,用于对照语音识别得到的特征信息与上述标准语音之间的差异性,确定执行语音识别的识别算法。
上述采集语音数据,可以是人对着终端设备说话,由终端设备的语音拾取设备,例如:话筒,采集用户输入的语音数据。
在首次识别过程中,由于还没有确定识别算法,在本步骤中可以使用普通话对应的语音数据库进行初次识别。
可以理解的是,根据差异性可以确定对应的语音数据库,例如:对于不同的方言类型,可以有不同方言的语音数据库与识别算法配套使用。需要说明的是,依据上述差异性可以确定使用终端设备的用户使用的哪一种方言,但是也可以不必确定方言类型,而是仅获得这种差异性,使用这种差异性直接对应到某一种特定的识别算法。
在本实施例中,通过提供标准文档,可以让用户读标准文档,由于存在标注语音作为先验信息,那么可以更方便找到差异性从而确定方言的类型,甚至方言类型对应的更细化的习惯性口音,从而确定更为合适的算法,因此可以提高非标准语音的识别的准确率。
在一个可选的实现方式中,本实施例还提供了依据差异性确定方言类型的实现方式,具体如下:上述算法确定单元305,用于确定执行语音识别的识别算法包括:
首先依据上述差异性确定方言类型,然后确定与上述方言类型对应的识别算法作为执行语音识别的识别算法。
不同的方言类型可以较为方便的建立对应的语音数据库。
那么可以建立上述七种方言的类型对应的语音数据库。这样可以减小数据库所需占用的存储资源,并且减少识别算法进行的计算量。
在一个可选的实现方式中,本发明实施例还提供了调整标准文档的实现方案,具体如下:上述显示单元301,用于显示标准文档包括:
在显示标准文档过程中,依据确定的方言类型调整上述标准文档。
在本实施例中,标准文档可以依各地方言的发音特点,总结一个初始的文档来初步确定方言类型,然后在语音识别过程中,调整标准文档来进一步验证之前确定的方言类型是否正确。采用本实施例方案,可以更为准确的确定方言类型。
在一个可选的实现方式中,本实施例还提供了地理位置确定标准文档的方案如下:上述显示单元301,还用于在显示标准文档之前,按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的标准文档。
在本实施例中,地理位置可以使用经纬度,或者行政区划等方式来表示;也可以使用预置的方言区域划分来表示,并不仅限于经纬度的方式来表示该地理位置。由于方言区域与方言类型由直接关系,因此在确定地理位置后可以作为参考来提供更有针对性的标准文档,方便在后续语音识别过程中提取相应到差异性进行确认。
在一个可选的实现方式中,由于即时获取的地理位置信息未必是终端设备的常用或者真实的能够体现其方言区域的位置,例如:出差客户的终端设备,因此本发明实施例提供了解决方案如下:上述设备还包括:统计单元306,用于在按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的标准文档之前,统计上述移动终端所处的位置信息得到历史记录集;分析上述历史记录集,得到上述移动终端所属的地理区域作为上述地理位置。
在本实施例中,采用历史记录集的方式来确定终端设备真实所属的区域,这样可以避免终端设备频繁在各种不同方言区域移动导致判断不准确的问题。
上述分析历史记录集的方式,可以如:确定终端设备在某地理区域持续的时间最长,则该地理区域可以作为该终端设备最可能的真实地理位置区域。例如:汽车停放最多的地理位置,手机晚上所在最多的地理位置等等。
在一个可选的实现方式中,本实施例还提供了使用多种语音库的实现方案,具体如下:上述识别单元304,还用于在确定执行语音识别的识别算法之后,依据上述差异性确定至少两种标准语音库,使用上述至少两种语音库以及上述识别算法,获得可能性最大的至少两种识别结果;
获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
前述实施例中以及确定了识别算法,后续可以使用多种标准语音库配套该识别算法进行识别,并输出多种识别结果;上述相对准确的识别结果可以是用户输入指令告知的信息,通过用户的配合可以进一步选择更为优选的识别算法。
如图4所示,本发明实施例还提供了一种终端设备,包括处理单元401和输入输出单元403,处理单元402用于对终端设备的动作进行控制管理,例如,处理单元402用于支持终端设备执行图1中的步骤101-103或用于本文所描述的技术的其它过程。输入输出单元403用于支持数据输入和输出。终端设备还可以包括存储单元401,用于存储终端设备的程序代码和数据。
其中,处理单元402可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。上述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。输入输出单元403可以话筒、听筒、喇叭等,存储单元401可以是存储器。
其中,上述输入输出单元403,用于接收输入的数据和输出数据;
上述处理单元401,用于控制显示标准文档,采集用户读上述标准文档的语音数据;获得上述标准文档对应的标准语音,对上述语音数据进行语音识别;对照语音识别得到的特征信息与上述标准语音之间的差异性,确定执行语音识别的识别算法。
在一个可选的实现方式中,上述处理单元401,用于确定执行语音识别的识别算法包括:首先依据上述差异性确定方言类型,然后确定与上述方言类型对应的识别算法作为执行语音识别的识别算法。
上述处理器401还用于执行的其他流程可以参考前文方法实施例,在此不再一一赘述。
请参阅图5,图5是本发明实施例提供的一种终端设备的结构示意图,如图所示,该终端设备包括一个或多个处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述一个或多个处理器执行,上述程序包括用于执行以下步骤的指令;
显示标准文档,采集用户读上述标准文档的语音数据;
获得上述标准文档对应的标准语音,对上述语音数据进行语音识别;
对照语音识别得到的特征信息与上述标准语音之间的差异性,确定执行语音识别的识别算法。
上述采集语音数据,可以是人对着终端设备说话,由终端设备的语音拾取设备,例如:话筒,采集用户输入的语音数据。
在首次识别过程中,由于还没有确定识别算法,在本步骤中可以使用普通话对应的语音数据库进行初次识别。
可以理解的是,根据差异性可以确定对应的语音数据库,例如:对于不同的方言类型,可以有不同方言的语音数据库与识别算法配套使用。需要说明的是,依据上述差异性可以确定使用终端设备的用户使用的哪一种方言,但是也可以不必确定方言类型,而是仅获得这种差异性,使用这种差异性直接对应到某一种特定的识别算法。
在本实施例中,通过提供标准文档,可以让用户读标准文档,由于存在标注语音作为先验信息,那么可以更方便找到差异性从而确定方言的类型,甚至方言类型对应的更细化的习惯性口音,从而确定更为合适的算法,因此可以提高非标准语音的识别的准确率。
在一个可选的实现方式中,本实施例还提供了依据差异性确定方言类型的实现方式,具体如下:上述确定执行语音识别的识别算法包括:
首先依据上述差异性确定方言类型,然后确定与上述方言类型对应的识别算法作为执行语音识别的识别算法。
不同的方言类型可以较为方便的建立对应的语音数据库。
那么可以建立上述七种方言的类型对应的语音数据库。这样可以减小数据库所需占用的存储资源,并且减少识别算法进行的计算量。
在一个可选的实现方式中,本发明实施例还提供了调整标准文档的实现方案,具体如下:上述显示标准文档包括:
在显示标准文档过程中,依据确定的方言类型调整上述标准文档。
在本实施例中,标准文档可以依各地方言的发音特点,总结一个初始的文档来初步确定方言类型,然后在语音识别过程中,调整标准文档来进一步验证之前确定的方言类型是否正确。采用本实施例方案,可以更为准确的确定方言类型。
在一个可选的实现方式中,本实施例还提供了地理位置确定标准文档的方案如下:上述显示标准文档之前,还包括:
按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的标准文档。
在本实施例中,地理位置可以使用经纬度,或者行政区划等方式来表示;也可以使用预置的方言区域划分来表示,并不仅限于经纬度的方式来表示该地理位置。由于方言区域与方言类型由直接关系,因此在确定地理位置后可以作为参考来提供更有针对性的标准文档,方便在后续语音识别过程中提取相应到差异性进行确认。
在一个可选的实现方式中,由于即时获取的地理位置信息未必是终端设备的常用或者真实的能够体现其方言区域的位置,例如:出差客户的终端设备,因此本发明实施例提供了解决方案如下:在按照上述终端设备所处的地理位置,使用与上述地理位置所属的方言区域对应的标准文档之前,还包括:
统计上述移动终端所处的位置信息得到历史记录集;分析上述历史记录集,得到上述移动终端所属的地理区域作为上述地理位置。
在本实施例中,采用历史记录集的方式来确定终端设备真实所属的区域,这样可以避免终端设备频繁在各种不同方言区域移动导致判断不准确的问题。
上述分析历史记录集的方式,可以如:确定终端设备在某地理区域持续的时间最长,则该地理区域可以作为该终端设备最可能的真实地理位置区域。例如:汽车停放最多的地理位置,手机晚上所在最多的地理位置等等。
在一个可选的实现方式中,本实施例还提供了使用多种语音库的实现方案,具体如下:在确定执行语音识别的识别算法之后,还包括:
依据上述差异性确定至少两种标准语音库,使用上述至少两种语音库以及上述识别算法,获得可能性最大的至少两种识别结果;
获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
前述实施例中以及确定了识别算法,后续可以使用多种标准语音库配套该识别算法进行识别,并输出多种识别结果;上述相对准确的识别结果可以是用户输入指令告知的信息,通过用户的配合可以进一步选择更为优选的识别算法。
上述主要从方法侧执行过程的角度对本发明实施例的方案进行了介绍。可以理解的是,终端设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例对终端设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本发明实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本发明实施例还提供了另一种终端设备,如图6所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端设备为手机为例:
图6示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(Wireless Fidelity,WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路910可用于信息的接收和发送。通常,RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据(比如应用的使用参数等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元930可包括指纹传感器931以及其他输入设备932。指纹传感器931,可采集用户在其上的指纹数据。除了指纹传感器931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于触控屏、物理按键、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示屏941,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示屏941。虽然在图6中,指纹传感器931与显示屏941是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将指纹传感器931与显示屏941集成而实现手机的输入和播放功能。
手机还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏941的亮度,接近传感器可在手机移动到耳边时,关闭显示屏941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路960、扬声器961,传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号播放;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收后转换为音频数据,再将音频数据播放处理器980处理后,经RF电路910以发送给比如另一手机,或者将音频数据播放至存储器920以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
手机还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
前述图1和2所示的实施例中,各步骤方法流程可以基于该手机的结构实现。
前述图3~4所示的实施例中,各单元功能可以基于该手机的结构实现。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括终端设备。
本发明实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括终端设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种语音识别方法,其特征在于,包括:
终端设备显示标准文档,采集用户读所述标准文档的语音数据;
获得所述标准文档对应的标准语音,对所述语音数据进行语音识别;
对照语音识别得到的特征信息与所述标准语音之间的差异性,确定与所述差异性对应的用于执行语音识别的识别算法;在所述特征信息与所述标准语音存在差异的情况下,采集的所述语音数据为非标准语音;
依据所述差异性确定至少两种标准语音库,使用所述至少两种标准 语音库以及所述识别算法,获得可能性最大的至少两种识别结果;
获得所述至少两种识别结果中相对准确的识别结果,确定所述相对准确的识别结果所对应的识别算法作为所述终端设备后续进行语音识别使用的识别算法。
2.根据权利要求1所述方法,其特征在于,所述确定与所述差异性对应的用于执行语音识别的识别算法包括:
首先依据所述差异性确定方言类型,然后确定与所述方言类型对应的识别算法作为执行语音识别的识别算法。
3.根据权利要求2所述方法,所述显示标准文档包括:
在显示标准文档过程中,依据确定的方言类型调整所述标准文档。
4.根据权利要求1所述方法,其特征在于,所述显示标准文档之前,所述方法还包括:
按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的标准文档。
5.根据权利要求4所述方法,其特征在于,在按照所述终端设备所处的地理位置,使用与所述地理位置所属的方言区域对应的标准文档之前,所述方法还包括:
统计所述终端设备 所处的位置信息得到历史记录集;分析所述历史记录集,得到所述终端设备 所属的地理区域作为所述地理位置。
6.一种终端设备,其特征在于,包括识别单元、处理单元和输入输出单元,
所述输入输出单元,用于接收输入的数据和输出数据;
所述处理单元,用于显示标准文档,采集用户读所述标准文档的语音数据;获得所述标准文档对应的标准语音,对所述语音数据进行语音识别;对照语音识别得到的特征信息与所述标准语音之间的差异性,确定与所述差异性对应的用于执行语音识别的识别算法;在所述特征信息与所述标准语音存在差异的情况下,采集的所述语音数据为非标准语音;在确定执行语音识别的识别算法之后,依据上述差异性确定至少两种标准语音库,使用上述至少两种标准 语音库以及上述识别算法,获得可能性最大的至少两种识别结果;获得上述至少两种识别结果中相对准确的识别结果,确定上述相对准确的识别结果所对应的识别算法作为上述终端设备后续进行语音识别使用的识别算法。
7.根据权利要求6所述的终端设备,其特征在于,
所述处理单元,用于确定与所述差异性对应的用于执行语音识别的识别算法包括:首先依据所述差异性确定方言类型,然后确定与所述方言类型对应的识别算法作为执行语音识别的识别算法。
8.一种终端设备,其特征在于,包括一个或多个处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述一个或多个处理器执行,所述程序包括用于执行权利要求1-5任一项方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法,所述计算机包括终端设备。
CN201710401111.7A 2017-05-31 2017-05-31 语音识别方法及相关产品 Active CN107170454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710401111.7A CN107170454B (zh) 2017-05-31 2017-05-31 语音识别方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710401111.7A CN107170454B (zh) 2017-05-31 2017-05-31 语音识别方法及相关产品

Publications (2)

Publication Number Publication Date
CN107170454A CN107170454A (zh) 2017-09-15
CN107170454B true CN107170454B (zh) 2022-04-05

Family

ID=59821229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710401111.7A Active CN107170454B (zh) 2017-05-31 2017-05-31 语音识别方法及相关产品

Country Status (1)

Country Link
CN (1) CN107170454B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657842A (zh) * 2017-11-02 2018-02-02 北京中智高新技术研究院 一种人工智能普通话练习设备、方法以及应用
CN108010518B (zh) * 2017-12-13 2022-08-23 腾讯科技(深圳)有限公司 一种语音交互设备的语音采集方法、系统及存储介质
CN108174030B (zh) * 2017-12-26 2020-11-17 努比亚技术有限公司 定制化语音控制的实现方法、移动终端及可读存储介质
CN109036410A (zh) * 2018-08-30 2018-12-18 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及终端
CN110909134A (zh) * 2018-09-18 2020-03-24 奇酷互联网络科技(深圳)有限公司 语音转换的方法、移动终端和可读存储介质
CN109377990A (zh) * 2018-09-30 2019-02-22 联想(北京)有限公司 一种信息处理方法和电子设备
CN111223478A (zh) * 2018-11-27 2020-06-02 奇酷互联网络科技(深圳)有限公司 基于ai语音的终端控制方法、终端设备和存储介质
CN109767775A (zh) * 2019-02-26 2019-05-17 珠海格力电器股份有限公司 语音控制方法、装置和空调
CN112312181A (zh) * 2019-07-26 2021-02-02 深圳Tcl新技术有限公司 一种智能电视语音识别方法、系统及可读存储介质
CN110570837B (zh) * 2019-08-28 2022-03-11 卓尔智联(武汉)研究院有限公司 一种语音交互方法、装置及存储介质
CN110765105A (zh) * 2019-10-14 2020-02-07 珠海格力电器股份有限公司 一种唤醒指令数据库的建立方法、装置、设备及介质
CN110992928A (zh) * 2019-11-26 2020-04-10 维沃移动通信有限公司 音频处理方法及终端设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0767950B1 (en) * 1994-06-29 2000-10-25 Telia Ab Method and device for adapting a speech recognition equipment for dialectal variations in a language
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN104112445A (zh) * 2014-07-30 2014-10-22 宇龙计算机通信科技(深圳)有限公司 一种终端及语音识别方法
CN105931643A (zh) * 2016-06-30 2016-09-07 北京海尔广科数字技术有限公司 语音识别方法及装置
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0767950B1 (en) * 1994-06-29 2000-10-25 Telia Ab Method and device for adapting a speech recognition equipment for dialectal variations in a language
CN1412741A (zh) * 2002-12-13 2003-04-23 郑方 带方言背景的汉语语音识别方法
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
CN104112445A (zh) * 2014-07-30 2014-10-22 宇龙计算机通信科技(深圳)有限公司 一种终端及语音识别方法
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统
CN105931643A (zh) * 2016-06-30 2016-09-07 北京海尔广科数字技术有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
CN107170454A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN107170454B (zh) 语音识别方法及相关产品
CN107274885B (zh) 语音识别方法及相关产品
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
JP5996783B2 (ja) 声紋特徴モデルを更新するための方法及び端末
US11274932B2 (en) Navigation method, navigation device, and storage medium
US20170052947A1 (en) Methods and devices for training a classifier and recognizing a type of information
CN108984731A (zh) 歌单推荐方法、装置及存储介质
US10636420B2 (en) Method of responding to input voice of electronic device and electronic device therefor
CN106055961B (zh) 一种指纹解锁方法及移动终端
CN104217717A (zh) 构建语言模型的方法及装置
CN108563965B (zh) 文字输入方法和装置、计算机可读存储介质、终端
CN106203235B (zh) 活体鉴别方法和装置
CN107066264B (zh) 一种亮屏控制方法及移动终端
CN107316637A (zh) 语音识别方法及相关产品
CN104091600B (zh) 一种歌声位置检测方法及装置
CN108549681B (zh) 数据处理方法和装置、电子设备、计算机可读存储介质
CN114117056B (zh) 一种训练数据的处理方法、装置以及存储介质
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN112948763B (zh) 件量预测方法、装置、电子设备及存储介质
CN106383870A (zh) 一种图片播放方法及移动终端
CN110430321A (zh) 给来电用户备注的方法、存储介质以及移动终端
CN117009845A (zh) 一种类增量模型的训练方法、装置以及存储介质
CN115439141A (zh) 用户交际圈画像的处理方法、装置、电子设备及存储介质
CN109637543B (zh) 语音卡的语音数据处理方法和装置
CN106649698B (zh) 一种信息处理方法及信息处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18

Applicant after: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd.

Address before: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18

Applicant before: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd.

GR01 Patent grant
GR01 Patent grant