CN112394982B - 生成语音识别系统的方法、装置、介质及电子设备 - Google Patents
生成语音识别系统的方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN112394982B CN112394982B CN202110083362.1A CN202110083362A CN112394982B CN 112394982 B CN112394982 B CN 112394982B CN 202110083362 A CN202110083362 A CN 202110083362A CN 112394982 B CN112394982 B CN 112394982B
- Authority
- CN
- China
- Prior art keywords
- parameter
- value
- target
- parameter value
- derived
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 238000003860 storage Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 33
- 238000012986 modification Methods 0.000 claims description 26
- 230000004048 modification Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 17
- 230000001960 triggered effect Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 40
- 238000013473 artificial intelligence Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 13
- 230000001976 improved effect Effects 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了一种生成语音识别系统的方法、装置、计算机可读介质及电子设备。该生成语音识别系统的方法包括:获取待生成的语音识别系统对应的参数集合以及语音样本;基于预设的更新步长、以及从参数集合中选取出的待优化的目标参数,生成目标参数对应的衍生参数值;基于语音样本对衍生参数值对应的语音识别系统进行测试,得到衍生参数值对应的识别准确率;基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,以对参数集合进行更新;基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。本申请实施例的技术方案可以提高系统参数的确定效率和精确度,优化了语音识别系统的性能。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种生成语音识别系统的方法、装置、计算机可读介质及电子设备。
背景技术
在很多数据处理的应用中,涉及到图像识别、语音识别、图像处理等等类型的数据处理方式。相关技术中一般通过基于这些数据处理的目标构建对应的系统,以通过这些系统来直接对待处理的数据进行处理,进而得到数据处理结果。但是很多情况下这些系统中的参数都不够精确,无法保证能够得到完全正确的数据处理结果,因此,相关技术中通过使用一些参数优化方法来调整系统中的参数,例如启发式搜索算法的方式得到更加精确的参数,但是这种方式适用于离散的搜索空间,尤其是在面对参数集合维度较大、优化区间连续的情况时,收敛速度慢,且易陷入局部最优解,进而造成系统构建不精确、效率较低的问题。
发明内容
本申请的实施例提供了一种生成语音识别系统的方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高系统参数的确定效率和精确度,优化了语音识别系统的性能。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种生成语音识别系统的方法,包括:获取待生成的语音识别系统对应的参数集合、以及用于测试所述待生成的语音识别系统的语音样本;基于预设的更新步长、以及从所述参数集合中选取出的待优化的目标参数,生成所述目标参数对应的衍生参数值;基于语音样本对所述衍生参数值对应的语音识别系统进行测试,得到所述衍生参数值对应的识别准确率;基于所述衍生参数值及其对应的识别准确率,更新所述目标参数对应的参数值,以对所述参数集合进行更新;基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
根据本申请实施例的一个方面,提供了一种生成语音识别系统的装置,包括:获取单元,用于获取待生成的语音识别系统对应的参数集合、以及用于测试所述待生成的语音识别系统的语音样本;生成单元,用于基于预设的更新步长、以及从所述参数集合中选取出的待优化的目标参数,生成所述目标参数对应的衍生参数值;测试单元,用于基于语音样本对所述衍生参数值对应的语音识别系统进行测试,得到所述衍生参数值对应的识别准确率;更新单元,用于基于所述衍生参数值及其对应的识别准确率,更新所述目标参数对应的参数值,以对所述参数集合进行更新;系统单元,用于基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
生成单元包括:区间确定单元,用于在所述目标参数对应的预设取值区间内,以所述目标参数当前对应的值为区间分割点,确定所述衍生参数值对应的取值区间;衍生参数单元,用于基于设定的更新步长,在所述取值区间内确定所述目标参数对应的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述取值区间包括所述目标参数对应的预设取值区间中的极小值,与所述目标参数当前对应的数值构成的第一区间;所述衍生参数单元用于:在所述第一区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递减运算,确定所述第一区间内的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述取值区间包括所述目标参数当前对应的数值、与所述目标参数对应的预设取值区间中的极大值构成的第二区间;所述衍生参数单元用于:在所述第二区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递增运算,确定所述第二区间内的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置还用于:检测生成所述衍生参数值的次数;若所述次数大于预设迭代次数阈值,则停止生成新的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置还用于:基于所述识别准确率与历史最优识别准确率,计算识别准确率差值;若所述识别准确率差值小于预设差值阈值,则将所述历史最优识别准确率对应的衍生参数值存储至所述目标参数对应的候选参数值集合中,并停止生成所述衍生参数值。
在本申请的一些实施例中,基于前述方案,所述更新单元包括:集合构建单元,用于构建所述目标参数对应的候选参数值集合;参数更新单元,用于基于所述衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新所述候选参数值集合中的衍生参数值;参数选取单元,用于从所述候选参数值集合中选取一个参数值作为所述目标参数对应的参数值。
在本申请的一些实施例中,基于前述方案,所述参数更新单元用于若所述识别准确率与历史最优识别准确率相等,则将所述识别准确率对应的衍生参数值添加至所述候选参数值集合中。
在本申请的一些实施例中,基于前述方案,所述参数更新单元用于若所述识别准确率大于历史最优识别准确率,则删除所述候选参数值集合中所存储的所述历史最优识别准确率对应的衍生参数值,生成候选参数空集;将所述识别准确率作为所述历史最优识别准确率;将所述识别准确率对应的衍生参数值添加至所述候选参数空集中。
在本申请的一些实施例中,基于前述方案,所述参数选取单元用于若所述目标参数对应的候选参数值集合为空,则将初始化所述目标参数值时对应的参数值作为所述目标参数对应的参数值。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置还用于:在所述语音识别系统的参数配置界面中,显示各参数对应的候选参数值集合;获取用户基于所述参数集合触发选取的参数值;基于所述参数值生成所述语音识别系统对应的配置信息;将所述配置信息显示在所述参数配置界面中。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置还用于:获取用户在所述参数配置界面中触发的参数修改指令;基于所述参数修改指令中的修改目标,从所述候选参数值集合中确定所述修改目标对应的可选参数值;将所述可选参数值展示在界面中,以使用户从所述可选参数值中选取参数值。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的生成语音识别系统的方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的生成语音识别系统的方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的生成语音识别系统的方法。
在本申请的一些实施例所提供的技术方案中,通过基于从参数集合中选取出的待优化的目标参数,并基于预设的更新步长生成目标参数对应的衍生参数值,以通过语音样本对衍生参数值对应的语音识别系统进行测试,得到衍生参数值对应的识别准确率,之后基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,以对参数集合进行更新,最后基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。在缩小参数空间的基础上,基于更新步长确定对应的衍生参数值来进行测试,既缩小了参数的选择空间,又提高了系统参数的确定效率和精确度,最后通过识别准确率的方式来衡量每个衍生参数值的性能,提高了语音识别系统的性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
图2示意性示出了根据本申请的一个实施例的生成语音识别系统的方法的流程图。
图3示意性示出了根据本申请的一个实施例的生成目标参数对应的衍生参数值的流程图。
图4示意性示出了根据本申请的一个实施例的生成衍生参数值对应的取值区间的示意图。
图5示意性示出了根据本申请的一个实施例的在第一取值区间内确定目标参数对应的衍生参数值的示意图。
图6示意性示出了根据本申请的一个实施例的在第二取值区间内确定目标参数对应的衍生参数值的示意图。
图7示意性示出了根据本申请的一个实施例的确定目标参数对应的衍生参数值的示意图。
图8示意性示出了根据本申请的一个实施例的更新目标参数对应的参数值的流程图。
图9示意性示出了根据本申请的一个实施例的更新候选参数值集合的流程图。
图10示意性示出了根据本申请的一个实施例的更新候选参数值集合的示意图。
图11示意性示出了根据本申请的一个实施例的在参数配置界面配置参数的流程图。
图12示意性示出了根据本申请的一个实施例的在参数配置界面配置参数的示意图。
图13示意性示出了根据本申请的一个实施例的在参数配置界面修改参数的流程图。
图14示意性示出了根据本申请的一个实施例的生成语音识别系统的装置的框图。
图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing )、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
云存储(cloud storage)是在云计算概念上衍生和发展出来的一个新的概念,分布式云存储系统 (以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。 客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity) 等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
本实施例中可以通过大数据和云存储技术来存储系统中的各个参数,以便于随时基于用户的需要对系统参数进行调配,使得系统随时处于一个安全、精确运行的状态。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、衍生和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NatureLanguage processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例中可以基于上述人工智能的各个分支方向,在对数据进行识别、处理的过程中,针对所用到各种系统或者模型,对其中的参数进行优化和更新,进而生成更加精确的模型参数,得到数据处理效果更好的数据处理模型或者系统。
本申请实施例提供的方案涉及人工智能的各个分支等技术,具体通过如下实施例进行说明:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备通过网络104与服务器105交互,以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了待生成的语音识别系统对应的参数集合、以及用于测试待生成的语音识别系统的语音样本,服务器105获取待生成的语音识别系统对应的参数集合、以及用于测试待生成的语音识别系统的语音样本;基于预设的更新步长、以及从参数集合中选取出的待优化的目标参数,生成目标参数对应的衍生参数值;基于语音样本对衍生参数值对应的语音识别系统进行测试,得到衍生参数值对应的识别准确率;基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,以对所述参数集合进行更新;基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
需要说明的是,本申请实施例所提供的生成语音识别系统的方法一般由服务器105执行,相应地,生成语音识别系统的装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的生成语音识别系统的方案。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的生成语音识别系统的方法的流程图,该生成语音识别系统的方法可以由服务器来执行,该服务器可以是图1中所示的服务器。参照图2所示,该生成语音识别系统的方法至少包括步骤S210至步骤S250,详细介绍如下:
在步骤S210中,获取待生成的语音识别系统对应的参数集合、以及用于测试待生成的语音识别系统的语音样本。
在本申请的一个实施例中,首先获取待生成的语音识别系统对应的参数集合和用于测试语音识别系统的语音样本。具体的,本申请实施例中的参数集合中包括了语音识别系统中用于处理语音数据的各种参数,例如,语音识别结果的备选项数目、待识别语音的长度、卷积运算的次数等等。本实施例中的语音样本用于对语音识别系统进行测试,通过将语音样本输入到语音识别系统中进行语音识别处理,生成该语音识别结果之后,基于语音识别结果的精确度来衡量该参数的使用效果。
具体的,本实施例中参数集合中可以包括至少两个参数及其当前对应的数值,本实施例中的语音样本包含至少两条待识别的语音数据。
进一步的,本实施例中在获取待生成的语音识别系统对应的参数集合、以及用于测试待生成的语音识别系统的语音样本之后,在参数优化之前,先初始化系统中各个参数以及各个参数对应的当前值,组成参数集合R={r1=b1,r2=b2, ...,rN=bN},其中,r1~rN表示参数,N为参数个数,b1~bN表示对应的参数值。各个参数的最小取值L={l1,l2,...,lN}、最大取值U={u1,u2,...,uN}以及各个参数对应的更新步长集合S={s1,s2,...,sN},最大迭代次数max_ite,开始迭代次数ite=1,记录历史最优字准率his_wcr,语音测试集A,用最优参数集合配置准备好了的语音识别系统,识别测试集A,得到初始最优字准率best_wcr。
在步骤S220中,基于预设的更新步长、以及从参数集合中选取出的待优化的目标参数,生成目标参数对应的衍生参数值。
在本申请的一个实施例中,本实施例中预设有更新步长,用于表示对目标参数进行取值的单位变化值。先从参数集合中选取出一个待优化的目标参数,之后基于更新步长对目标参数进行递增或者递减处理,生成目标参数对应的衍生参数值。
示例性的,本实施例中预设的更新步长为A,选取的目标参数当前对应的数值为B,则目标参数对应的衍生参数值即在B的基础上以A为单位进行递增或者递减,得到B对应的衍生参数值,例如:B+A、B+2A、B-A或者B-2A等等。
在步骤S230中,基于语音样本对衍生参数值对应的语音识别系统进行测试,得到衍生参数值对应的识别准确率。
在本申请的一个实施例中,在生成衍生参数值之后,基于衍生参数值构建语音识别系统。之后,将语音样本输入衍生参数值对应的语音识别系统中进行语音识别,得到语音样本对应的识别结果。将语音样本对应的识别结果与语音样本对应预设的识别结果进行比较,是确定衍生参数值对应的识别准确率。
本实施例中的识别准确率可以通过计算两个识别结果之间相似度的方式来确定,例如通过余弦距离等方式。
在步骤S240中,基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,以对参数集合进行更新。
在本申请的一个实施例中,在确定了衍生参数值对应的识别准确率之后,基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,以使得目标参数所对应的参数值得到的识别准确率是最高的。
具体的,在更新目标参数对应的参数值时,基于当前衍生参数值对应的识别准确率,与历史最高识别准确率进行对比,若当前的识别准确率高于历史最高识别准确率,则将该识别准确率对应的衍生参数值作为目标参数的值;若当前识别准确率与历史最高识别准确率相同,则可以将该识别准确率对应的衍生参数值存储至该目标参数对应的集合中;若当前识别准确率小于历史最高识别准确率,则继续基于更新步长和目标参数的值生成新的衍生参数值,轮番迭代基于语音样本进行衍生参数值的测试,直至满足设定条件,得到目标参数对应的参数值,进而实现对参数集合的更新,得到更新后的参数集合。
除此之外,本实施例中还可以基于识别准确率的基础上,结合系统的识别效率,来评估衍生参数值的处理效果,进而得到更加精确、更加高效的参数系统。
在步骤S250中,基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
在本申请的一个实施例中,通过上述方式确定参数集合中各参数分别对应的参数值,之后,基于参数集合中的所有参数对应的参数值构建得到目标语音识别系统,使得最后得到的目标语音识别系统相比于参数更新之前的系统具有较好的语音识别效果,可以更加精确识别语音。
需要说明的是,上述生成系统的方式可以应用于其它系统的参数优化或者生成的过程中,例如图像识别系统、数据传输系统等等,在这些系统中的参数优化的方式与本实施例中的方式相同。
上述方案,通过基于从参数集合中选取出的待优化的目标参数,并基于预设的更新步长生成目标参数对应的衍生参数值,以通过语音样本对衍生参数值对应的语音识别系统进行测试,得到衍生参数值对应的识别准确率,之后基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,最后基于参数集合中包含的参数分别对应的参数值,构成更新后的参数集合,生成目标语音识别系统。在缩小参数空间的基础上,基于更新步长确定对应的衍生参数值来进行测试,既缩小了参数的选择空间,又提高了系统参数的确定效率和精确度,最后通过识别准确率的方式来衡量每个衍生参数值的性能,提高了语音识别系统的性能。
在本申请的一个实施例中,步骤S220中基于预设的更新步长、以及从参数集合中选取出的待优化的目标参数,生成目标参数对应的衍生参数值的过程,包括步骤S221~步骤S222:
步骤S221,在目标参数对应的预设取值区间内,以目标参数当前对应的值为区间分割点,确定衍生参数值对应的取值区间。
在本申请的一个实施例中,本实施例中针对各个参数预设有取值区间,在确定目标参数对应的衍生参数值,现基于目标参数当前对应的值,在目标参数对应的预设取值区间内,确定衍生参数值对应的取值区间。
具体的,本实施例中的取值区间包括至少两个,具体为,在预设取值范围内,以目标参数当前对应的参数值为间断点,生成目标参数对应的衍生参数值的取值区间。
示例性的,如图4所示,从参数集合R={r1=b1,r2=b2, ...,rN=bN}中选取目标参数ti,目标参数ti对应的参数值为bi。在该参数值对应的取值范围[li,ui]中,以参数值ti =bi作为区间分割点,将区间分割点左右的区间作为取值区间,即生成第一区间为[li,ti),即左区间;第二区间为[ti,ui],即右区间。
本实施例中通过基于目标参数对应的值作为衍生参数值对应的取值区间,可以缩小衍生参数值的可选区间,进而降低数据运算的次数,提高最优参数值的选取效率。
步骤S222,基于设定的更新步长,在取值区间内确定目标参数对应的衍生参数值。
在本申请的一个实施例中,预设有更新步长,用于在取值区间之内,基于目标参数当前对应的值,以更新步长为单位,进行递增或者递减的运算,生成对应的衍生参数值,具体说明如下:
在本申请的一个实施例中,取值区间包括目标参数对应的预设取值区间中的极小值,与目标参数当前对应的数值构成的第一区间,即左区间[li,ti);步骤S222中基于设定的更新步长,在取值区间内确定目标参数对应的衍生参数值,包括步骤S2221:在第一区间内,以更新步长为单位,对目标参数当前对应的数值进行递减运算,确定第一区间内的衍生参数值。
具体的,在本申请的一个实施例中,设定更新步长为A,其中,在第一区间[li,ti)内,以更新步长A为单位,对目标参数当前对应的数值进行递减运算,即ti-A,确定第一区间内的衍生参数值。
进一步的,如图5所示,本实施例中在第一次确定了衍生参数值ti-A之后,针对衍生参数值ti-A对识别模型进行测试,当测试得到的测试结果不满足测试要求时,继续进行递减运算得到之后的衍生参数值ti-2A,直至递减到ti-nA时,ti-nA小于或者等于li,则停止计算衍生参数值。
在本申请的一个实施例中,在本申请的一个实施例中,取值区间包括目标参数当前对应的数值、与目标参数对应的预设取值区间中的极大值构成的第二区间[ti,ui];步骤S222中基于设定的更新步长,在取值区间内确定目标参数对应的衍生参数值,包括步骤S2222:在第二区间内,以更新步长为单位,对目标参数当前对应的数值进行递增运算,确定第二区间内的衍生参数值。
具体的,在本申请的一个实施例中,设定更新步长为A,其中,在第二区间[ti,ui]内,以更新步长A为单位,对目标参数当前对应的数值进行递增运算,即ti+A,确定第二区间[ti,ui]内的衍生参数值。
进一步的,如图6所示,本实施例中在第一次确定了衍生参数值ti+A之后,针对衍生参数值ti+A对识别模型进行测试,当测试得到的测试结果不满足测试要求时,继续进行递减运算得到之后的衍生参数值ti+2A,直至递增到ti+nA时,ti+nA大于或者等于ui,则停止计算衍生参数值。
进一步的,本申请实施例中在第一区间和第二区间内确定衍生参数值并进行测试的方式,可以是先在第一区间内计算完毕之后,计算第二区间中的衍生参数值;也可以是在第二区间内计算完毕之后,计算第一区间中的衍生参数值。
除此之外,如图8所示,还可以通过在第一区间和第二区间内交叉计算的方式来确定衍生参数值。如图7所示,本申请实施例中先在第一区间[li,ti)中计算ti-A,之后在第二区间[ti,ui]内计算ti+A,之后在第一区间[li,ti)中计算ti-2A,之后在第二区间[ti,ui]内计算ti+2A。通过上述方式,可以围绕当前参数值ti,依次通过递增和递减的方式,扩大最优参数值的搜索范围,既降低了搜索范围,又能提高最优参数值的确定效率。
在本申请的一个实施例中,方法还包括:检测生成衍生参数值的次数;若次数大于预设迭代次数阈值,则停止生成新的衍生参数值。
具体的,本申请实施例中将i作为迭代次数,N作为预设迭代次数阈值。在生成衍生参数值的过程中,判断i是否大于N,若i>=N,则结束参数更新过程;若i<N,则更新i = i+1,并跳至之后的衍生参数值生成与测试。
步骤S230中基于语音样本对衍生参数值对应的语音识别系统进行测试,得到衍生参数值对应的识别准确率之后,还包括:基于识别准确率与历史最优识别准确率,计算识别准确率差值;若识别准确率差值小于预设差值阈值,则将历史最优识别准确率对应的衍生参数值存储至目标参数对应的候选参数值集合中,并停止生成衍生参数值。
在本申请的一个实施例中,本申请实施例中判断是否结束参数优化过程中,判断最优字准率best_wcr与历史最优字准率his_wcr的大小,若best_wcr - his_wcr的值小于预设阈值,例如预设阈值可以为0.001,则结束参数优化过程,否则更新迭代次数,并跳至之后的衍生参数值生成与测试。
在本申请的一个实施例中,通过使用的左右区间、递减和递增的遍历更新方法,能够避免无效的参数计算,有效挺高参数优化效率。
在本申请的一个实施例中,步骤S240中基于衍生参数值及其对应的识别准确率,更新目标参数对应的参数值,以对参数集合进行更新的过程,包括步骤S241~步骤S243,详细说明如下:
在步骤S241中,构建目标参数对应的候选参数值集合;
在步骤S242中,基于衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新候选参数值集合中的衍生参数值;
在步骤S243中,从候选参数值集合中选取一个参数值作为目标参数对应的参数值,以对参数集合进行更新。
本实施例中基于目标参数构建一个候选参数值集合,用于存放目标参数当前最优的衍生参数值。具体为,基于衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新候选参数值集合中的衍生参数值,以从候选参数值集合中选取一个参数值作为目标参数对应的参数值,进而实现对参数集合的更新,得到更新之后的参数集合。
本实施例中通过构建候选参数值集合的方式,使得用户可以在候选集合中随机选择参数,能够避免迭代过程陷入局部最优解,进而提高参数确定的效率。
在本申请的一个实施例中,步骤S242中基于衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新候选参数值集合中的衍生参数值的过程,包括如下步骤:
步骤S2421,若识别准确率与历史最优识别准确率相等,则将识别准确率对应的衍生参数值添加至候选参数值集合中。
在本申请的一个实施例中,目标参数ri在左区间[li, ti)上以步长si由大到小递减遍历更新ri的衍生参数值vi。每次更新ri=vi时,计算语音识别系统的识别准确率wcr,若wcr等于历史最优识别准确率last_wcr,则将vi加入候选参数值集合C中。
在本申请的一个实施例中,目标参数ri在右区间[ti, ui)上以步长si由小到大递增遍历更新ri的衍生参数值vi。每次更新ri=vi时,计算语音识别系统的识别准确率wcr,若wcr等于历史最优识别准确率last_wcr,则将vi加入候选参数值集合C中。
在本申请的一个实施例中,步骤S242中基于衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新候选参数值集合中的衍生参数值的过程,还包括步骤S2422~步骤S2424:
步骤S2422,若识别准确率大于历史最优识别准确率,则删除候选参数值集合中所存储的历史最优识别准确率对应的衍生参数值,生成候选参数空集;
步骤S2423中,将识别准确率作为历史最优识别准确率;
步骤S2424中,将识别准确率对应的衍生参数值添加至候选参数空集中。
如图10所示,在本申请的一个实施例中,目标参数ri在左区间[li, ti)上以步长si由大到小递减遍历更新ri的衍生参数值vi。每次更新ri=vi时,计算语音识别系统的识别准确率wcr。若通过vi计算得到的wcr大于历史衍生参数ci对应的历史最优识别准确率last_wcr,则删除候选参数值集合中所存储的历史最优识别准确率对应的衍生参数值,生成候选参数空集,并将识别准确率作为历史最优识别准确率,将识别准确率对应的衍生参数值添加至候选参数空集中,即更新当前识别率为该识别准确率:last_wcr = wcr;最优识别率为该识别准确率best_wcr = wcr,当前最优参数值为该衍生参数值bi = vi。
在本申请的一个实施例中,目标参数ri在右区间[ti, ui)上以步长si由小到大递增遍历更新ri的衍生参数值vi。每次更新ri=vi时,计算语音识别系统的识别准确率wcr,若wcr大于历史最优识别准确率last_wcr,则将识别准确率作为历史最优识别准确率,将识别准确率对应的衍生参数值添加至候选参数空集中,即更新当前识别率为该识别准确率:last_wcr = wcr;最优识别率为该识别准确率best_wcr = wcr,当前最优参数值为该衍生参数值bi = vi。
本申请实施例中,通过上述基于衍生参数构成的候选参数集合,来实时的对当前衍生参数进行存储或者更新等处理,提高了衍生参数的处理效率和更新效率。并能将多个衍生参数存储至候选参数集合中,便于之后对目标参数的修改和更新,提高了系统更新和调控的效率。
在本申请的一个实施例中,在步骤S243中从候选参数值集合中选取一个参数值作为目标参数对应的参数值,包括:若目标参数对应的候选参数值集合为空,则说明通过目标参数确定的衍生参数值对应的效果都不如目标参数的初始化值,因此,在这种情况下表,将初始化目标参数值时对应的参数值作为目标参数对应的参数值。使得目标参数对应的系统一直处于最优的数据处理效果。
在本申请的一个实施例中,生成语音识别系统的方法还包括步骤S1110~步骤S1140,详细说明如下:
步骤S1110中,在语音识别系统的参数配置界面中,显示各参数对应的候选参数值集合;
步骤S1120中,获取用户基于参数集合触发选取的参数值;
步骤S1130中,基于参数值生成语音识别系统对应的配置信息;
步骤S1140中,将配置信息显示在参数配置界面中。
在本申请的一个实施例中,如图12所示,在用户对语音识别系统进行处理的过程中,可以基于语音识别系统的参数配置界面对系统中的各个参数进行调配。具体的,在参数配置界面中显示有各个参数对应的候选参数集合,例如,A=a1\a2\a3\a4,用于供用户基于候选参数集合中的数值进行选择。用户可以通过点击或者拖拽的方式来选取对应的参数值,构成配置信息,之后将配置信息显示在配置参数界面中。通过上述可视化的方式,使得用户可以对语音识别系统进行随时的修改或者调整,提高了语音识别系统在配置过程中的灵活性的便捷性。
在本申请的一个实施例中,生成语音识别系统的方法还包括步骤S1310~步骤S1330,详细说明如下:
步骤S1310中,获取用户在参数配置界面中触发的参数修改指令;
步骤S1320中,基于参数修改指令中的修改目标,从候选参数值集合中确定修改目标对应的可选参数值;
步骤S1330中,将可选参数值展示在界面中,以使用户从可选参数值中选取参数值。
在本申请的一个实施例中,在对语音识别系统中的参数进行修改时,获取用户在参数配置界面中触发的参数修改指令,参数修改指令可以为将修改参数A对应的值。基于参数修改指令中的修改目标,从候选参数值集合中确定修改目标对应的可选参数值,即A可以取值为a1\a2\a3\a4,将可选参数值展示在界面中,以使用户从可选参数值中选取参数值,最后得到修改之后的语音识别系统。
需要说明的是,本申请实施例中的参数优化方式适用于各种参数优化场景,例如字准率计算较耗时,且随各维度参数变化成凸函数的规律的应用场景中,尤其适用于像语音识别系统解码参数优化的场景,本申请实施例中的方式应用到包括同声传译、语音输入法、在线语音交互系统、智能语音助手等多个项目和产品应用中,可有效提高语音识别系统的字准率。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的生成语音识别系统的方法。可以理解的是,所述装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。对于本申请装置实施例中未披露的细节,请参照本申请上述的生成语音识别系统的方法的实施例。
图14示出了根据本申请的一个实施例的生成语音识别系统的装置的框图。
参照图14所示,根据本申请的一个实施例的生成语音识别系统的装置1400,包括:获取单元1410,用于获取待生成的语音识别系统对应的参数集合、以及用于测试所述待生成的语音识别系统的语音样本;生成单元1420,用于基于预设的更新步长、以及从所述参数集合中选取出的待优化的目标参数,生成所述目标参数对应的衍生参数值;测试单元1430,用于基于语音样本对所述衍生参数值对应的语音识别系统进行测试,得到所述衍生参数值对应的识别准确率;更新单元1440,用于基于所述衍生参数值及其对应的识别准确率,更新所述目标参数对应的参数值,以对所述参数集合进行更新;系统单元1450,用于基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
在本申请的一些实施例中,基于前述方案,所述生成单元1420包括:区间确定单元,用于在所述目标参数对应的预设取值区间内,以所述目标参数当前对应的值为区间分割点,确定所述衍生参数值对应的取值区间;衍生参数单元,用于基于设定的更新步长,在所述取值区间内确定所述目标参数对应的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述取值区间包括所述目标参数对应的预设取值区间中的极小值,与所述目标参数当前对应的数值构成的第一区间;所述衍生参数单元用于:在所述第一区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递减运算,确定所述第一区间内的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述取值区间包括所述目标参数当前对应的数值、与所述目标参数对应的预设取值区间中的极大值构成的第二区间;所述衍生参数单元用于:在所述第二区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递增运算,确定所述第二区间内的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置1400还用于:检测生成所述衍生参数值的次数;若所述次数大于预设迭代次数阈值,则停止生成新的衍生参数值。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置1400还用于:基于所述识别准确率与历史最优识别准确率,计算识别准确率差值;若所述识别准确率差值小于预设差值阈值,则将所述历史最优识别准确率对应的衍生参数值存储至所述目标参数对应的候选参数值集合中,并停止生成所述衍生参数值。
在本申请的一些实施例中,基于前述方案,所述更新单元1440包括:集合构建单元,用于构建所述目标参数对应的候选参数值集合;参数更新单元,用于基于所述衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新所述候选参数值集合中的衍生参数值;参数选取单元,用于从所述候选参数值集合中选取一个参数值作为所述目标参数对应的参数值。
在本申请的一些实施例中,基于前述方案,所述参数更新单元用于若所述识别准确率与历史最优识别准确率相等,则将所述识别准确率对应的衍生参数值添加至所述候选参数值集合中。
在本申请的一些实施例中,基于前述方案,所述参数更新单元用于若所述识别准确率大于历史最优识别准确率,则删除所述候选参数值集合中所存储的所述历史最优识别准确率对应的衍生参数值,生成候选参数空集;将所述识别准确率作为所述历史最优识别准确率;将所述识别准确率对应的衍生参数值添加至所述候选参数空集中。
在本申请的一些实施例中,基于前述方案,所述参数选取单元用于若所述目标参数对应的候选参数值集合为空,则将初始化所述目标参数值时对应的参数值作为所述目标参数对应的参数值。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置1400还用于:在所述语音识别系统的参数配置界面中,显示各参数对应的候选参数值集合;获取用户基于所述参数集合触发选取的参数值;基于所述参数值生成所述语音识别系统对应的配置信息;将所述配置信息显示在所述参数配置界面中。
在本申请的一些实施例中,基于前述方案,所述生成语音识别系统的装置1400还用于:获取用户在所述参数配置界面中触发的参数修改指令;基于所述参数修改指令中的修改目标,从所述候选参数值集合中确定所述修改目标对应的可选参数值;将所述可选参数值展示在界面中,以使用户从所述可选参数值中选取参数值。
图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图15示出的电子设备的计算机系统1500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图15所示,计算机系统1500包括中央处理单元(Central Processing Unit,CPU)1501,其可以根据存储在只读存储器(Read-Only Memory,ROM)1502中的程序或者从储存部分1508加载到随机访问存储器(Random Access Memory,RAM)1503中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1503中,还存储有系统操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input /Output,I/O)接口1505也连接至总线1504。
以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1507;包括硬盘等的储存部分1508;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入储存部分1508。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (26)
1.一种生成语音识别系统的方法,其特征在于,包括:
获取待生成的语音识别系统对应的参数集合、以及用于测试所述待生成的语音识别系统的语音样本;
基于预设的更新步长以及从所述参数集合中选取出的待优化的目标参数,生成所述目标参数对应的衍生参数值;
基于语音样本对所述衍生参数值对应的语音识别系统进行测试,得到所述衍生参数值对应的识别准确率;
基于所述衍生参数值及其对应的识别准确率,更新所述目标参数对应的参数值,以对所述参数集合进行更新;
基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
2.根据权利要求1所述的方法,其特征在于,基于预设的更新步长以及从所述参数集合中选取出的待优化的目标参数,生成所述目标参数对应的衍生参数值,包括:
在所述目标参数对应的预设取值区间内,以所述目标参数当前对应的值为区间分割点,确定所述衍生参数值对应的取值区间;
基于设定的更新步长,在所述取值区间内确定所述目标参数对应的衍生参数值。
3.根据权利要求2所述的方法,其特征在于,所述取值区间包括所述目标参数对应的预设取值区间中的极小值,与所述目标参数当前对应的数值构成的第一区间;
基于设定的更新步长,在所述取值区间内确定所述目标参数对应的衍生参数值,包括:
在所述第一区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递减运算,确定所述第一区间内的衍生参数值。
4.根据权利要求2所述的方法,其特征在于,所述取值区间包括所述目标参数当前对应的数值、与所述目标参数对应的预设取值区间中的极大值构成的第二区间;
基于设定的更新步长,在所述取值区间内确定所述目标参数对应的衍生参数值,包括:
在所述第二区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递增运算,确定所述第二区间内的衍生参数值。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
检测生成所述衍生参数值的次数;
若所述次数大于预设迭代次数阈值,则停止生成新的衍生参数值。
6.根据权利要求1所述的方法,其特征在于,基于语音样本对所述衍生参数值对应的语音识别系统进行测试,得到所述衍生参数值对应的识别准确率之后,还包括:
基于所述识别准确率与历史最优识别准确率,计算识别准确率差值;
若所述识别准确率差值小于预设差值阈值,则将所述历史最优识别准确率对应的衍生参数值存储至所述目标参数对应的候选参数值集合中,并停止生成所述衍生参数值。
7.根据权利要求1所述的方法,其特征在于,基于所述衍生参数值及其对应的识别准确率,更新所述目标参数对应的参数值,以对所述参数集合进行更新,包括:
构建所述目标参数对应的候选参数值集合;
基于所述衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新所述候选参数值集合中的衍生参数值;
从所述候选参数值集合中选取一个参数值作为所述目标参数对应的参数值,以对所述参数集合进行更新。
8.根据权利要求7所述的方法,其特征在于,基于所述衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新所述候选参数值集合中的衍生参数值,包括:
若所述识别准确率与历史最优识别准确率相等,则将所述识别准确率对应的衍生参数值添加至所述候选参数值集合中。
9.根据权利要求7所述的方法,其特征在于,基于所述衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新所述候选参数值集合中的衍生参数值,包括:
若所述识别准确率大于历史最优识别准确率,则删除所述候选参数值集合中所存储的所述历史最优识别准确率对应的衍生参数值,生成候选参数空集;
将所述识别准确率作为所述历史最优识别准确率;
将所述识别准确率对应的衍生参数值添加至所述候选参数空集中。
10.根据权利要求7所述的方法,其特征在于,从所述候选参数值集合中选取一个参数值作为所述目标参数对应的参数值,包括:
若所述目标参数对应的候选参数值集合为空,则将初始化所述目标参数值时对应的参数值作为所述目标参数对应的参数值。
11.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述语音识别系统的参数配置界面中,显示各参数对应的候选参数值集合;
获取用户基于所述参数集合触发选取的参数值;
基于所述参数值生成所述语音识别系统对应的配置信息;
将所述配置信息显示在所述参数配置界面中。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取用户在所述参数配置界面中触发的参数修改指令;
基于所述参数修改指令中的修改目标,从所述候选参数值集合中确定所述修改目标对应的可选参数值;
将所述可选参数值展示在界面中,以使用户从所述可选参数值中选取参数值。
13.一种生成语音识别系统的装置,其特征在于,包括:
获取单元,用于获取待生成的语音识别系统对应的参数集合、以及用于测试所述待生成的语音识别系统的语音样本;
生成单元,用于基于预设的更新步长以及从所述参数集合中选取出的待优化的目标参数,生成所述目标参数对应的衍生参数值;
测试单元,用于基于语音样本对所述衍生参数值对应的语音识别系统进行测试,得到所述衍生参数值对应的识别准确率;
更新单元,用于基于所述衍生参数值及其对应的识别准确率,更新所述目标参数对应的参数值,以对所述参数集合进行更新;
系统单元,用于基于更新后的参数集合中包含的参数分别对应的参数值,生成目标语音识别系统。
14.根据权利要求13所述的装置,其特征在于,所述生成单元包括:区间确定单元,用于在所述目标参数对应的预设取值区间内,以所述目标参数当前对应的值为区间分割点,确定所述衍生参数值对应的取值区间;衍生参数单元,用于基于设定的更新步长,在所述取值区间内确定所述目标参数对应的衍生参数值。
15.根据权利要求14所述的装置,其特征在于,所述取值区间包括所述目标参数对应的预设取值区间中的极小值,与所述目标参数当前对应的数值构成的第一区间;所述衍生参数单元用于:在所述第一区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递减运算,确定所述第一区间内的衍生参数值。
16.根据权利要求14所述的装置,其特征在于,所述取值区间包括所述目标参数当前对应的数值、与所述目标参数对应的预设取值区间中的极大值构成的第二区间;所述衍生参数单元用于:在所述第二区间内,以所述更新步长为单位,对所述目标参数当前对应的数值进行递增运算,确定所述第二区间内的衍生参数值。
17.根据权利要求14所述的装置,其特征在于,所述生成语音识别系统的装置还用于:检测生成所述衍生参数值的次数;若所述次数大于预设迭代次数阈值,则停止生成新的衍生参数值。
18.根据权利要求13所述的装置,其特征在于,所述生成语音识别系统的装置还用于:基于所述识别准确率与历史最优识别准确率,计算识别准确率差值;若所述识别准确率差值小于预设差值阈值,则将所述历史最优识别准确率对应的衍生参数值存储至所述目标参数对应的候选参数值集合中,并停止生成所述衍生参数值。
19.根据权利要求13所述的装置,其特征在于,所述更新单元包括:集合构建单元,用于构建所述目标参数对应的候选参数值集合;参数更新单元,用于基于所述衍生参数值对应的识别准确率与历史最优识别准确率之间的关系,更新所述候选参数值集合中的衍生参数值;参数选取单元,用于从所述候选参数值集合中选取一个参数值作为所述目标参数对应的参数值。
20.根据权利要求19所述的装置,其特征在于,所述参数更新单元用于若所述识别准确率与历史最优识别准确率相等,则将所述识别准确率对应的衍生参数值添加至所述候选参数值集合中。
21.根据权利要求19所述的装置,其特征在于,所述参数更新单元用于若所述识别准确率大于历史最优识别准确率,则删除所述候选参数值集合中所存储的所述历史最优识别准确率对应的衍生参数值,生成候选参数空集;将所述识别准确率作为所述历史最优识别准确率;将所述识别准确率对应的衍生参数值添加至所述候选参数空集中。
22.根据权利要求19所述的装置,其特征在于,所述参数选取单元用于若所述目标参数对应的候选参数值集合为空,则将初始化所述目标参数值时对应的参数值作为所述目标参数对应的参数值。
23.根据权利要求19所述的装置,其特征在于,所述生成语音识别系统的装置还用于:在所述语音识别系统的参数配置界面中,显示各参数对应的候选参数值集合;获取用户基于所述参数集合触发选取的参数值;基于所述参数值生成所述语音识别系统对应的配置信息;将所述配置信息显示在所述参数配置界面中。
24.根据权利要求23所述的装置,其特征在于,所述生成语音识别系统的装置还用于:获取用户在所述参数配置界面中触发的参数修改指令;基于所述参数修改指令中的修改目标,从所述候选参数值集合中确定所述修改目标对应的可选参数值;将所述可选参数值展示在界面中,以使用户从所述可选参数值中选取参数值。
25.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的生成语音识别系统的方法。
26.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至12中任一项所述的生成语音识别系统的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110083362.1A CN112394982B (zh) | 2021-01-21 | 2021-01-21 | 生成语音识别系统的方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110083362.1A CN112394982B (zh) | 2021-01-21 | 2021-01-21 | 生成语音识别系统的方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112394982A CN112394982A (zh) | 2021-02-23 |
CN112394982B true CN112394982B (zh) | 2021-04-13 |
Family
ID=74625574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110083362.1A Active CN112394982B (zh) | 2021-01-21 | 2021-01-21 | 生成语音识别系统的方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112394982B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241063B (zh) * | 2021-06-24 | 2023-09-26 | 中国平安人寿保险股份有限公司 | 语音识别系统中的算法参数更新方法、装置、终端及介质 |
CN114120979A (zh) * | 2022-01-25 | 2022-03-01 | 荣耀终端有限公司 | 语音识别模型的优化方法、训练方法、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
JP2017134197A (ja) * | 2016-01-27 | 2017-08-03 | 日本電信電話株式会社 | パラメータ調整システム、パラメータ調整方法、プログラム |
CN108682432A (zh) * | 2018-05-11 | 2018-10-19 | 南京邮电大学 | 语音情感识别装置 |
CN110111775A (zh) * | 2019-05-17 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 一种流式语音识别方法、装置、设备及存储介质 |
CN110347426A (zh) * | 2019-08-09 | 2019-10-18 | 吉林工程技术师范学院 | 一种智能发布app平台系统及其方法 |
EP3617953A1 (en) * | 2018-08-30 | 2020-03-04 | Koninklijke Philips N.V. | An adaptable neural network |
CN111400469A (zh) * | 2020-03-12 | 2020-07-10 | 法雨科技(北京)有限责任公司 | 针对语音问答的智能生成系统及其方法 |
US20200258500A1 (en) * | 2013-11-04 | 2020-08-13 | Google Llc | Asynchronous optimization for sequence training of neural networks |
CN111739528A (zh) * | 2020-06-05 | 2020-10-02 | 北京搜狗科技发展有限公司 | 一种交互方法、装置和耳机 |
-
2021
- 2021-01-21 CN CN202110083362.1A patent/CN112394982B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200258500A1 (en) * | 2013-11-04 | 2020-08-13 | Google Llc | Asynchronous optimization for sequence training of neural networks |
JP2017134197A (ja) * | 2016-01-27 | 2017-08-03 | 日本電信電話株式会社 | パラメータ調整システム、パラメータ調整方法、プログラム |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN108682432A (zh) * | 2018-05-11 | 2018-10-19 | 南京邮电大学 | 语音情感识别装置 |
EP3617953A1 (en) * | 2018-08-30 | 2020-03-04 | Koninklijke Philips N.V. | An adaptable neural network |
CN110111775A (zh) * | 2019-05-17 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 一种流式语音识别方法、装置、设备及存储介质 |
CN110347426A (zh) * | 2019-08-09 | 2019-10-18 | 吉林工程技术师范学院 | 一种智能发布app平台系统及其方法 |
CN111400469A (zh) * | 2020-03-12 | 2020-07-10 | 法雨科技(北京)有限责任公司 | 针对语音问答的智能生成系统及其方法 |
CN111739528A (zh) * | 2020-06-05 | 2020-10-02 | 北京搜狗科技发展有限公司 | 一种交互方法、装置和耳机 |
Also Published As
Publication number | Publication date |
---|---|
CN112394982A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111247532B (zh) | 利用多任务学习进行特征提取 | |
CN110399035B (zh) | 用于交付与时间相关的虚拟现实环境的方法和系统 | |
CN111709533A (zh) | 机器学习模型的分布式训练方法、装置以及计算机设备 | |
AU2020385264B2 (en) | Fusing multimodal data using recurrent neural networks | |
CN111932386B (zh) | 用户账号确定方法及装置、信息推送方法及装置、电子设备 | |
CN110807566A (zh) | 人工智能模型评测方法、装置、设备及存储介质 | |
US11373117B1 (en) | Artificial intelligence service for scalable classification using features of unlabeled data and class descriptors | |
CN112394982B (zh) | 生成语音识别系统的方法、装置、介质及电子设备 | |
US11861469B2 (en) | Code generation for Auto-AI | |
US20200104753A1 (en) | Interactive visualization evaluation for classification models | |
CN110245310B (zh) | 一种对象的行为分析方法、装置及存储介质 | |
CN110889450A (zh) | 超参数调优、模型构建方法和装置 | |
US20180075765A1 (en) | System and method for transmission of market-ready education curricula | |
CN112561031A (zh) | 基于人工智能的模型搜索方法、装置及电子设备 | |
CN111133458B (zh) | 增强神经网络 | |
CN115238582A (zh) | 知识图谱三元组的可靠性评估方法、系统、设备及介质 | |
CN113902956A (zh) | 融合模型的训练方法、图像融合方法、装置、设备及介质 | |
CN112988851B (zh) | 反事实预测模型数据处理方法、装置、设备及存储介质 | |
Bobek et al. | KnAC: an approach for enhancing cluster analysis with background knowledge and explanations | |
CN112115744A (zh) | 点云数据的处理方法及装置、计算机存储介质、电子设备 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN111260074B (zh) | 一种超参数确定的方法、相关装置、设备及存储介质 | |
CN114611990A (zh) | 一种网络信息体系要素体系贡献率评估方法和装置 | |
CN114548237A (zh) | 一种人机交互的多模态数据融合方法、装置及设备 | |
CN109857838B (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037974 Country of ref document: HK |