CN106228980A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN106228980A
CN106228980A CN201610581652.8A CN201610581652A CN106228980A CN 106228980 A CN106228980 A CN 106228980A CN 201610581652 A CN201610581652 A CN 201610581652A CN 106228980 A CN106228980 A CN 106228980A
Authority
CN
China
Prior art keywords
training data
category
output layer
acoustic model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610581652.8A
Other languages
English (en)
Other versions
CN106228980B (zh
Inventor
李先刚
丁科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610581652.8A priority Critical patent/CN106228980B/zh
Publication of CN106228980A publication Critical patent/CN106228980A/zh
Application granted granted Critical
Publication of CN106228980B publication Critical patent/CN106228980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提出一种数据处理方法和装置,该数据处理方法包括:获取训练数据,所述训练数据包括:语音数据及对应的标注结果;根据所述训练数据生成第一声学模型;采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果;根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。该方法能够自动对训练数据进行分类,以避免人工抽检方式存在的问题。

Description

数据处理方法和装置
技术领域
本申请涉及语音识别技术领域,尤其涉及一种数据处理方法和装置。
背景技术
声学模型的性能对语音识别的性能会造成很大影响,而训练数据的规模和质量又会影响声学模型的性能。尤其当拥有大规模的训练数据后,如何控制训练数据的质量成为亟待解决的问题。
用于声学模型训练的训练数据通常包括语音数据和对应的标注数据,标注数据通常是人工标注得到的。但是,人工标注会存在一定的错误率,甚至在验收时也并不要求全部正确,例如要求准确率在95%以上即可。因此,训练数据中会包含一定的标注错误的数据。此外,训练数据中还会存在语音质量不佳的数据,例如非语音或低信噪比的语音。这些标注错误的数据或者质量不佳的数据都会严重影响声学模型的性能。
为了保证声学模型的性能,相关技术中,采用人工抽检的方式识别出上述的标注错误或质量不佳的数据,并用过滤掉这些数据后的剩余的训练数据训练生成声学模型。但是,人工抽检方式会存在费时费力等问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种数据处理方法,该方法可以自动对训练数据进行分类,以避免人工抽检方式存在的问题。
本申请的另一个目的在于提出一种数据处理装置。
为达到上述目的,本申请第一方面实施例提出的数据处理方法,包括:获取训练数据,所述训练数据包括:语音数据及对应的标注结果;根据所述训练数据生成第一声学模型;采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果;根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
本申请第二方面实施例提出的数据处理方法,通过根据训练数据生成第一声学模型,采用第一声学模型对训练数据进行语音识别,以及比较识别结果与标注结果,可以自动完成训练数据的分类,相对于人工方式,可以提高效率,节省时间。
为达到上述目的,本申请第二方面实施例提出的数据处理装置,包括:获取模块,用于获取训练数据,所述训练数据包括:语音数据及对应的标注结果;生成模块,用于根据所述训练数据生成第一声学模型;识别模块,用于采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果;分类模块,用于根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
本申请第二方面实施例提出的数据处理装置,通过根据训练数据生成第一声学模型,采用第一声学模型对训练数据进行语音识别,以及比较识别结果与标注结果,可以自动完成训练数据的分类,相对于人工方式,可以提高效率,节省时间。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的数据处理方法的流程示意图;
图2是本申请另一个实施例提出的数据处理方法的流程示意图;
图3是本申请实施例中采用的DNN的结构示意图;
图4是本申请一个实施例提出的数据处理装置的结构示意图;
图5是本申请另一个实施例提出的数据处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的数据处理方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:获取训练数据,所述训练数据包括:语音数据及对应的标注结果。
其中,可以收集尽量多的语音数据,并对语音数据进行人工标注,得到标注结果。
收集的语音数据可能包括一些语音质量不佳的数据,如非语音数据、低信噪比的语音数据。
人工标注时,可能会存在一定的标注错误。
因此,由于训练数据中可能包括语音质量不佳的数据或标注结果为错误的数据,会影响训练数据的质量。
S12:根据所述训练数据生成第一声学模型。
其中,可以采用已有的声学模型的训练方式进行处理,由训练数据训练生成声学模型,为了与后续的声学模型区分,该声学模型可以称为第一声学模型。
当训练数据的质量不佳时,根据训练数据生成的第一声学模型的质量也存在一定问题。
如果直接将第一声学模型用于语音识别,则会影响语音识别的准确度。
S13:采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果。
其中,在语音识别时除了使用声学模型,还可以使用其他模型,如语言模型。另外,在语音识别时还可以包括其他步骤,如声学特征提取。可以理解的是,本申请主要是针对声学模型的处理,因此语音识别中未特别说明的其他模型或步骤可以采用已有或将来出现的技术实现。
S14:根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
其中,训练数据属于的类别可以分为两类,具体可以称为第一类别和第二类别。当所述标注结果与所述识别结果一致时,所述训练数据属于第一类别,当所述标注结果与所述识别结果不一致时,所述训练数据属于第二类别。
比如,第一组训练数据包括第一语音数据和第一标注结果,采用第一声学模型对第一语音数据进行语音识别后得到的识别结果是第一识别结果,如果第一识别结果与第一标注结果相同,则表明第一组训练数据属于第一类别,此时的训练数据可以称为干净的训练数据,反之,当训练数据属于第二类别时,该训练数据可以称为不干净的训练数据。
本实施例中,通过根据训练数据生成第一声学模型,采用第一声学模型对训练数据进行语音识别,以及比较识别结果与标注结果,可以自动完成训练数据的分类,相对于人工方式,可以提高效率,节省时间。
在上述对训练数据进行分类时,通过比对识别结果和标注结果确定出的第二类别的训练数据(不干净的训练数据),一种可能是训练数据本身的确质量不佳,另一种可能是第一声学模型存在问题,在识别时出现错误,将实际上属于第一类别的训练数据误判为第二类别的训练数据。由于上述确定出的第二类别的训练数据中可能存在大量的误判数据,因此,如果在重新构建声学模型时直接过滤掉上述确定出的第二类别的训练数据,就会降低训练数据的规模,丢失大量的准确的训练数据,这同样会影响声学模型的质量。为此保证声学模型的质量,本申请还给出如下实施例。
图2是本申请另一个实施例提出的数据处理方法的流程示意图。
参见图2,本实施例的方法包括:
S21:获取训练数据,所述训练数据包括:语音数据及对应的标注结果。
S22:根据所述训练数据生成第一声学模型。
S23:采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果。
S24:根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
S21-S24的具体内容可以参见S11-S14,在此不再详细说明。
S25:根据属于第一类别的训练数据进行决策树聚类,确定建模单元。
为了将协同发音现象(Coarticulation)融入建模中,上下文相关的建模单元(Context Dependent Modeling Units,CD uinits)是一个很好的选择。上下文的选择方法有很多,最常见的是三音素建模单元,也就是考虑左上文右下文各一个音素,加上中心音子形成三音素对。
上下文相关建模大大提高了建模的准确性,但是同时也使得模型数量急剧膨胀,使得模型的可训练性大大降低。为了解决这一问题,就需要引入某些聚类算法来减少模型中需要训练的参数。
本实施例中采用的聚类算法是决策树聚类算法。
经过聚类后,可以解码过程的基本单元,也就是建模单元。建模单元可以是多种层次的,比如聚类后的状态,状态是比音素更小的单元,通常三个状态对应一个音素。
与通常的决策树聚类确定建模单元不同的是,本实施例中,采用第一类的训练数据进行聚类,而不是通常采用的不区分类别的训练数据。由于不区分类别的训练数据中可能会存在质量不佳的数据,如果采用不区分类别的训练数据确定建模单元会影响声学模型的质量。而本实施例中,通过根据第一类的训练数据进行聚类,可以避免被质量不佳的训练数据影响,保证建模单元的准确,进而保证声学模型的质量。
S26:构建包含第一输出层和第二输出层的神经网络。
声学模型的形式有多种,本实施例中选择神经网络形式的声学模型。
神经网络例如是深度神经网络(Deep Neural Networks,DNN)。
如图3所示,DNN包括输入层、隐层和输出层。
通常来讲,DNN包括一个输入层、多个隐层和一个输出层。
与通常的DNN不同的是,本实施例中,输出层有两个,分别称为第一输出层和第二输出层。
在声学模型训练时,输入层的参数是对语音数据进行声学特征提取后得到的声学特征,输出层包括与建模单元个数相同的节点,每个节点对应一个建模单元。隐层的层数及每层包括的节点数可设置。
本实施例中,第一输出层和第二输出层包括相同个数的节点,且每个输出层的每个节点均分别对应一个建模单元。
例如,建模单元是N个,则第一输出层和第二输出层分别包括N个节点,且每个节点分别对应一个建模单元。
S27:采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型。
在构建出图3所示的DNN后,可以根据训练数据对其进行训练,以生成声学模型。
在训练时,每个输出层对应一种类别的训练数据,比如,当输入是第一类别的训练数据时,输出选择第一输出层的输出。
进一步的,不同类别的训练数据在训练时,可以采用多任务学习机制。
多任务学习早期的研究工作源于对机器学习中的一个重要问题,即“归纳偏置(inductive bias)”问题的研究。机器学习的过程可以看作是对与问题相关的经验数据进行分析,从中归纳出反映问题本质的模型的过程。归纳偏置的作用就是用于指导学习算法如何在模型空间中进行搜索,搜索所得模型的性能优劣将直接受到归纳偏置的影响,而任何一个缺乏归纳偏置的学习系统都不可能进行有效的学习。不同的学习算法(如决策树,神经网络,支持向量机等)具有不同的归纳偏置,人们在解决实际问题时需要人工地确定采用何种学习算法,实际上也就是主观地选择了不同的归纳偏置策略。一个很直观的想法就是,是否可以将归纳偏置的确定过程也通过学习过程来自动地完成,也就是采用“学习如何去学(learning to learn)”的思想。多任务学习恰恰为上述思想的实现提供了一条可行途径,即利用相关任务中所包含的有用信息,为所关注任务的学习提供更强的归纳偏置。受上述思想的启发,R.Caruana对多任务学习的相关问题,如什么是多任务学习,该学习范式是否可行、为什么可行、在什么情况下可行等进行了初步的分析。1997年,其主要研究成果发表于国际机器学习界的权威刊物《Machine Learning》,标志着多任务学习这一机器学习概念的正式提出。当然,随着技术的发展,多任务学习的研究越来越深入,具体的多任务学习的内容可以参见已有或将来出现的各种技术。
通过上述流程生成第二声学模型后,可以将第二声学模型用于后续的语音识别。相应的,在语音识别时,该方法还可以包括:
S28:采用第二声学模型进行语音识别,其中,将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后,确定为每个建模单元的后验概率得分。
在语音识别时,声学模型用于将语音转换为建模单元(如状态、音素等),在转换时,是确定每个建模单元的后验概率得分,将得分最高的建模单元确定为语音对应的建模单元,完成语音到建模单元的转换。
本实施例中,由于存在两个输出层,在计算上述得分时,采用的是加权求和的方式。比如,两个输出层均包括N个节点,分别对应N个建模单元,假设第一个建模单元对应的第一输出层的得分是S1,第一个建模单元对应的第二输出层的得分是S2,则第一个建模单元的最终的经过声学模型处理后的得分是a*S1+b*S2,其中,a和b是两个加权值,可设置,例如均为0.5。
本实施例中,通过根据训练数据生成第一声学模型,采用第一声学模型对训练数据进行语音识别,以及比较识别结果与标注结果,可以自动完成训练数据的分类,相对于人工方式,可以提高效率,节省时间。通过根据第一类别的训练数据进行聚类,确定建模单元,可以避免质量不佳的训练数据对聚类结果的影响,提高建模单元的准确度,进而提高声学模型的质量。通过构建两个输出层的神经网络,并采用多任务学习机制训练生成声学模型,可以充分利用第二类别的训练数据中的有用信息,提高声学模型的质量。通过加权求和得到后验概率得分,可以提高识别准确度。
图4是本申请一个实施例提出的数据处理装置的结构示意图。
如图4所示,本实施例的装置40包括:获取模块41、生成模块42、识别模块43和分类模块44。
获取模块41,用于获取训练数据,所述训练数据包括:语音数据及对应的标注结果;
生成模块42,用于根据所述训练数据生成第一声学模型;
识别模块43,用于采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果;
分类模块44,用于根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
一些实施例中,所述类别包括:
第一类别和第二类别;
其中,当所述标注结果与所述识别结果一致时,所述训练数据属于第一类别,当所述标注结果与所述识别结果不一致时,所述训练数据属于第二类别;
一些实施例中,参见图5,所述装置40还包括:
确定模块45,用于根据属于第一类别的训练数据进行聚类,确定建模单元。
一些实施例中,聚类具体是决策树聚类。
一些实施例中,参见图5,所述装置40还包括:
构建模块46,用于构建包含第一输出层和第二输出层的神经网络;
训练模块47,用于采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型;
其中,所述第一输出层和所述第二输出层包含相同个数的节点,且每个节点分别对应一个建模单元。
一些实施例中,所述训练模块47具体用于:
采用多任务学习机制,采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型。
一些实施例中,参见图5,所述装置40还包括:
得分计算模块48,用于将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后,确定为每个建模单元的后验概率得分。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过根据训练数据生成第一声学模型,采用第一声学模型对训练数据进行语音识别,以及比较识别结果与标注结果,可以自动完成训练数据的分类,相对于人工方式,可以提高效率,节省时间。通过根据第一类别的训练数据进行聚类,确定建模单元,可以避免质量不佳的训练数据对聚类结果的影响,提高建模单元的准确度,进而提高声学模型的质量。通过构建两个输出层的神经网络,并采用多任务学习机制训练生成声学模型,可以充分利用第二类别的训练数据中的有用信息,提高声学模型的质量。通过加权求和得到后验概率得分,可以提高识别准确度。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
获取训练数据,所述训练数据包括:语音数据及对应的标注结果;
根据所述训练数据生成第一声学模型;
采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果;
根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
2.根据权利要求1所述的方法,其特征在于,所述类别包括:
第一类别和第二类别;
其中,当所述标注结果与所述识别结果一致时,所述训练数据属于第一类别,当所述标注结果与所述识别结果不一致时,所述训练数据属于第二类别。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据属于第一类别的训练数据进行聚类,确定建模单元。
4.根据权利要求3所述的方法,其特征在于,所述聚类包括:
决策树聚类。
5.根据权利要求3所述的方法,其特征在于,还包括:
构建包含第一输出层和第二输出层的神经网络;
采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型;
其中,所述第一输出层和所述第二输出层包含相同个数的节点,且每个节点分别对应一个建模单元。
6.根据权利要求5所述的方法,其特征在于,所述采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型,包括:
采用多任务学习机制,采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型。
7.根据权利要求5所述的方法,其特征在于,还包括:
将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后,确定为每个建模单元的后验概率得分。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括:语音数据及对应的标注结果;
生成模块,用于根据所述训练数据生成第一声学模型;
识别模块,用于采用所述第一声学模型对所述训练数据进行语音识别,得到识别结果;
分类模块,用于根据所述标注结果和所述识别结果,确定所述训练数据属于的类别。
9.根据权利要求8所述的装置,其特征在于,所述类别包括:
第一类别和第二类别;
其中,当所述标注结果与所述识别结果一致时,所述训练数据属于第一类别,当所述标注结果与所述识别结果不一致时,所述训练数据属于第二类别;
所述装置还包括:
确定模块,用于根据属于第一类别的训练数据进行聚类,确定建模单元。
10.根据权利要求9所述的装置,其特征在于,还包括:
构建模块,用于构建包含第一输出层和第二输出层的神经网络;
训练模块,用于采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型;
其中,所述第一输出层和所述第二输出层包含相同个数的节点,且每个节点分别对应一个建模单元。
11.根据权利要求10所述的装置,其特征在于,所述训练模块具体用于:
采用多任务学习机制,采用第一类别的训练数据训练第一输出层,采用第二类别的训练数据训练第二输出层,生成第二声学模型。
12.根据权利要求10或11所述的装置,其特征在于,还包括:
得分计算模块,用于将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后,确定为每个建模单元的后验概率得分。
CN201610581652.8A 2016-07-21 2016-07-21 数据处理方法和装置 Active CN106228980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610581652.8A CN106228980B (zh) 2016-07-21 2016-07-21 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610581652.8A CN106228980B (zh) 2016-07-21 2016-07-21 数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106228980A true CN106228980A (zh) 2016-12-14
CN106228980B CN106228980B (zh) 2019-07-05

Family

ID=57532139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610581652.8A Active CN106228980B (zh) 2016-07-21 2016-07-21 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106228980B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170444A (zh) * 2017-06-15 2017-09-15 上海航空电器有限公司 航空座舱环境自适应语音特征模型训练方法
CN107194416A (zh) * 2017-04-28 2017-09-22 成都天钥科技有限公司 对象识别方法及装置、终端、处理器、存储介质
CN107240395A (zh) * 2017-06-16 2017-10-10 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107368565A (zh) * 2017-07-10 2017-11-21 美的集团股份有限公司 数据处理方法、数据处理装置和计算机可读存储介质
CN107369452A (zh) * 2017-07-25 2017-11-21 上海闻泰电子科技有限公司 音频数据的处理方法及系统
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108305619A (zh) * 2017-03-10 2018-07-20 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
CN109101484A (zh) * 2018-07-06 2018-12-28 平安科技(深圳)有限公司 录音文件处理方法、装置、计算机设备及存储介质
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109841220A (zh) * 2017-11-24 2019-06-04 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109858006A (zh) * 2017-11-30 2019-06-07 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
CN110197658A (zh) * 2019-05-30 2019-09-03 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备
CN110288976A (zh) * 2019-06-21 2019-09-27 北京声智科技有限公司 数据筛选方法、装置及智能音箱
CN111177377A (zh) * 2019-12-20 2020-05-19 厦门快商通科技股份有限公司 医美训练数据评价方法、装置、设备及存储介质
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN113807434A (zh) * 2021-09-16 2021-12-17 中国联合网络通信集团有限公司 布匹的瑕疵识别方法及模型训练方法
CN114417987A (zh) * 2022-01-11 2022-04-29 支付宝(杭州)信息技术有限公司 一种模型训练方法、数据识别方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035996A (zh) * 2014-06-11 2014-09-10 华东师范大学 基于Deep Learning的领域概念抽取方法
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN104035996A (zh) * 2014-06-11 2014-09-10 华东师范大学 基于Deep Learning的领域概念抽取方法
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305619A (zh) * 2017-03-10 2018-07-20 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
WO2018161763A1 (zh) * 2017-03-10 2018-09-13 腾讯科技(深圳)有限公司 语音数据集训练方法、计算机设备和计算机可读存储介质
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
CN107194416A (zh) * 2017-04-28 2017-09-22 成都天钥科技有限公司 对象识别方法及装置、终端、处理器、存储介质
CN107170444A (zh) * 2017-06-15 2017-09-15 上海航空电器有限公司 航空座舱环境自适应语音特征模型训练方法
CN107240395A (zh) * 2017-06-16 2017-10-10 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107368565A (zh) * 2017-07-10 2017-11-21 美的集团股份有限公司 数据处理方法、数据处理装置和计算机可读存储介质
CN107369452B (zh) * 2017-07-25 2020-11-03 上海闻泰电子科技有限公司 音频数据的处理方法及系统
CN107369452A (zh) * 2017-07-25 2017-11-21 上海闻泰电子科技有限公司 音频数据的处理方法及系统
CN109841220B (zh) * 2017-11-24 2022-09-13 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109841220A (zh) * 2017-11-24 2019-06-04 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109858006A (zh) * 2017-11-30 2019-06-07 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
CN109858006B (zh) * 2017-11-30 2021-04-09 亿度慧达教育科技(北京)有限公司 科目识别训练方法、装置
CN108198574B (zh) * 2017-12-29 2020-12-08 科大讯飞股份有限公司 变声检测方法及装置
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
WO2020006879A1 (zh) * 2018-07-06 2020-01-09 平安科技(深圳)有限公司 录音文件处理方法、装置、计算机设备及存储介质
CN109101484A (zh) * 2018-07-06 2018-12-28 平安科技(深圳)有限公司 录音文件处理方法、装置、计算机设备及存储介质
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN110197658A (zh) * 2019-05-30 2019-09-03 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备
CN110197658B (zh) * 2019-05-30 2021-01-26 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备
CN110288976A (zh) * 2019-06-21 2019-09-27 北京声智科技有限公司 数据筛选方法、装置及智能音箱
CN110288976B (zh) * 2019-06-21 2021-09-07 北京声智科技有限公司 数据筛选方法、装置及智能音箱
CN111177377A (zh) * 2019-12-20 2020-05-19 厦门快商通科技股份有限公司 医美训练数据评价方法、装置、设备及存储介质
CN111354345A (zh) * 2020-03-11 2020-06-30 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN113807434A (zh) * 2021-09-16 2021-12-17 中国联合网络通信集团有限公司 布匹的瑕疵识别方法及模型训练方法
CN113807434B (zh) * 2021-09-16 2023-07-25 中国联合网络通信集团有限公司 布匹的瑕疵识别方法及模型训练方法
CN114417987A (zh) * 2022-01-11 2022-04-29 支付宝(杭州)信息技术有限公司 一种模型训练方法、数据识别方法、装置及设备

Also Published As

Publication number Publication date
CN106228980B (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN106228980A (zh) 数据处理方法和装置
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN102682760B (zh) 重叠语音检测方法和系统
CN104903954B (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN102664011B (zh) 一种快速说话人识别方法
CN102568475B (zh) 用于普通话水平测评的系统和方法
CN106683677A (zh) 语音识别方法及装置
CN110647830B (zh) 基于卷积神经网络和高斯混合模型的轴承故障诊断方法
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN110349597B (zh) 一种语音检测方法及装置
CN108922560A (zh) 一种基于混合深度神经网络模型的城市噪声识别方法
CN106098059A (zh) 可定制语音唤醒方法及系统
CN107704456B (zh) 识别控制方法以及识别控制装置
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN106874185A (zh) 一种基于语音关键字驱动的自动化测试方法及系统
CN101710490A (zh) 语音评测的噪声补偿方法及装置
CN105701120A (zh) 确定语义匹配度的方法和装置
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN107886231A (zh) 客服的服务质量评价方法与系统
CN107833059A (zh) 客服的服务质量评价方法与系统
CN107274890A (zh) 声纹谱提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant