CN111613212B - 语音识别方法、系统、电子设备和存储介质 - Google Patents
语音识别方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111613212B CN111613212B CN202010404192.8A CN202010404192A CN111613212B CN 111613212 B CN111613212 B CN 111613212B CN 202010404192 A CN202010404192 A CN 202010404192A CN 111613212 B CN111613212 B CN 111613212B
- Authority
- CN
- China
- Prior art keywords
- training
- voice
- model
- machine learning
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 203
- 238000010801 machine learning Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 2
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语音识别方法、系统、电子设备和存储介质,该方法包括:获取不同场景的训练样本集,所述训练样本集包含若干训练语音以及与所述训练语音对应的文本标签;根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型;获取待识别语音,所述待识别语音携带场景标签;从所述不同场景对应的语义模型中,获取与所述场景标签对应的语义模型;利用所述目标语义模型对所述待识别语音进行处理,得到所述待识别语音的初始识别结果;利用预设的语言模型对所述初始识别结果进行校准处理,得到所述待识别语音的目标识别结果。本发明能够解决无法针对用户的特定业务场景进行针对性语音识别,识别准确性不高的问题。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、系统、电子设备和存储介质。
背景技术
目前,随着各公司的业务发展需要,语音识别技术的应用场景越来越多,尤其是在呼叫中心领域,例如智能语音客服、客服录音质检、外呼失败原因分析等场景下,被广泛应用。而在不同应用场景下,相同发音的词,含义可能是不一样的。
传统的语音识别技术一般依赖各种复杂的模型设计,包括声学模型和隐马尔可夫模型(HMM)等。这些模型需由专门的公司为企业用户进行搭建,不仅搭建成本高,限制特殊的语音格式,而且最重要的是,仅能提供通用语音识别,无法针对用户的特定业务场景进行针对性识别,识别准确性不高。
发明内容
针对上述现有技术的不足,本发明的目的在于提供一种改进的语音识别方法、系统、电子设备和存储介质,以解决无法针对用户的特定业务场景进行针对性语音识别,识别准确性不高的问题。
为了实现上述目的,本发明提供一种语音识别方法,包括:
获取不同场景的训练样本集,所述训练样本集包含若干训练语音以及与所述训练语音对应的文本标签;
根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型;
获取待识别语音,所述待识别语音携带场景标签;
从所述不同场景对应的语义模型中,获取与所述场景标签对应的语义模型;
利用所述目标语义模型对所述待识别语音进行处理,得到所述待识别语音的初始识别结果;
利用预设的语言模型对所述初始识别结果进行校准处理,得到所述待识别语音的目标识别结果。
在本发明一个优选实施例中,所述根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型的步骤包括分别针对每个所述场景执行以下步骤:
按预定比例将目标场景的训练样本集划分为训练集和测试集;
根据所述训练集,对所述机器学习模型进行训练;
根据所述测试集,对训练得到的机器学习模型进行测试,当测试通过时,将训练得到的机器学习模型作为目标场景对应的语义模型。
在本发明一个优选实施例中,所述根据所述训练集,对所述机器学习模型进行训练的步骤包括:
将所述训练集划分为多个批次;
利用各批次的训练集依次对所述机器学习模型进行训练,直至满足训练完成条件。
在本发明一个优选实施例中,所述将所述训练集划分为多个批次的步骤包括:
将频谱特征相同或相近的训练语音划分至同一批次。
在本发明一个优选实施例中,所述将所述训练集划分为多个批次的步骤包括:
获取时长相近的多段训练语音;
通过静默音填充方式将所述多段训练语音调整为时长一致;
将所述时长调整为一致的多段训练语音划分至同一批次。
在本发明一个优选实施例中,所述机器学习模型为循环神经网络模型;和/或所述语言模型为N-grams模型。
在本发明一个优选实施例中,所述根据不同场景对应的训练样本集对预设的机器学习模型进行训练,得到不同场景对应的语义模型的步骤之前,所述方法还包括对每个所述训练样本集分别进行预处理,所述预处理包括:
提取每个训练样本集中所述训练语音的频谱特征;
对每个训练样本集中所述文本标签进行分词处理。
为了实现上述目的,本发明提供一种语音识别系统,包括:
样本获取模块,用于获取不同场景的训练样本集,所述训练样本集包含若干训练语音以及与所述训练语音对应的文本标签;
模型训练模块,用于根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型;
语音获取模块,用于获取待识别语音,所述待识别语音携带场景标签;
语义模型确定模块,用于从所述不同场景对应的语义模型中,获取与所述场景标签对应的语义模型;
模型处理模块,用于利用所述目标语义模型对所述待识别语音进行处理,得到所述待识别语音的初始识别结果;
校准模块,用于利用预设的语言模型对所述初始识别结果进行校准处理,得到所述待识别语音的目标识别结果。
在本发明一个优选实施例中,所述模型训练模块包括:
样本划分单元,用于按预定比例将目标场景的训练样本集划分为训练集和测试集;
训练单元,用于根据所述训练集,对所述机器学习模型进行训练;
测试单元,用于根据所述测试集,对训练得到的机器学习模型进行测试,当测试通过时,将训练得到的机器学习模型作为目标场景对应的语义模型。
在本发明一个优选实施例中,所述训练单元包括:
批次划分子单元,用于将所述训练集划分为多个批次;
分批训练子单元,用于利用各批次的训练集依次对所述机器学习模型进行训练,直至满足训练完成条件。
在本发明一个优选实施例中,所述批次划分子单元用于:
将频谱特征相同或相近的训练语音划分至同一批次。
在本发明一个优选实施例中,所述分批训练子单元用于:
获取时长相近的多段训练语音;
通过静默音填充方式将所述多段训练语音调整为时长一致;
将所述时长调整为一致的多段训练语音划分至同一批次。
在本发明一个优选实施例中,所述机器学习模型为循环神经网络模型;和/或所述语言模型为N-grams模型。
在本发明一个优选实施例中,所述系统还包括预处理模块,用于对每个所述训练样本集分别进行预处理,所述预处理模块包括:
频谱特征提取单元,用于提取每个训练样本集中所述训练语音的频谱特征;
分词单元,用于对每个训练样本集中所述文本标签进行分词处理。
为了实现上述目的,本发明还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明首先利用不同场景的训练样本集分别训练得到不同场景对应的语义模型;而后根据待识别语音携带的场景标签选择对应的语义模型对待识别语音进行针对性识别处理,识别准确性高;最后,通过预设的语言模型对识别结果进行校准,进一步提高识别准确性。此外,本发明不限定语音格式,适用范围广,并且模型搭建成本低。
附图说明
图1为本发明实施例1中语音识别方法的流程图;
图2为本发明实施例2中语音识别系统的结构框图;
图3为本发明实施例3中电子设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
实施例1
本实施例提供一种语音识别方法,如图1所示,具体包括以下步骤:
S1,获取不同场景的训练样本集,每个训练样本集分别包含若干训练语音以及与各训练语音对应的文本标签。
在本实施例中,不同场景可以是机票预定、酒店预定、旅游预定、火车票预定等业务场景。其中,机票预定场景的训练语音可来自于历史机票预定语音记录,训练语音被预先标注有对应的文本标签。按照类似的方式,还可以得到酒店预定、旅游预定、火车票预定等场景的训练样本集。
S2,对每个训练样本集分别进行预处理,具体包括:提取每个训练样本集中各训练语音的频谱特征;以及对每个训练样本集中各文本标签进行分词处理。
具体地,本步骤可采用现有的任何一种频谱分析方法对各训练语音进行处理,以得到各训练语音的频谱特征。
本步骤可采用现有的任何一种分词方式或分词工具对各文本标签进行处理,得到对应文本标签中的每个词。值得注意的是,本发明中提及的词可以为单个字,也可以为包含多个字的词语。例如,采用本步骤对文本标签“我想预订明天从上海到北京的机票”进行分词的结果为“我/想/预订/明天/从/上海/到/北京/的/机票”。本实施例进行分词处理的目的是为了在后续模型训练时以词为基准进行训练,相比于以句子为基准进行训练,可以提高训练效率。
S3,根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型。训练时,分别针对每个场景执行以下步骤:
S31,按预定比例将目标场景的训练样本集划分为训练集和测试集,例如,训练集和测试集的划分比例可为70%:30%。
S32,根据前述训练集,对预设的机器学习模型进行训练。具体地,首先,将训练集划分为多个批次;而后,利用各批次的训练集依次对前述机器学习模型进行训练,直至满足预设的训练完成条件。例如,可以采用随机梯度下降算法对机器学习模型进行迭代训练,直至模型的损失函数值最小化或小于预定阈值。
在本实施例中,为了加快训练速度,可以将频谱特征相同或相近的训练语音划分至同一批次,也可以将时长相近的训练语音划分至同一批次。当需要将时长相近的训练语音划分至同一批次时,具体通过如下步骤完成:首先,获取时长相近的多段训练语音;而后,通过静默音填充方式将时长相近的多段训练语音调整为时长一致;最后,将时长调整为一致的多段训练语音划分至同一批次。
S33,根据前述测试集,对步骤S32训练得到的机器学习模型进行测试,当测试通过时,确定训练得到的机器学习模型为目标场景对应的语义模型,训练结束;当测试未通过时,增加目标场景的训练样本集中的样本,并重新进行训练。优选地,本实施例可采用GPU(Graphics Processing Unit,图形处理器)加速模型训练。
在本实施例中,前述机器学习模型优选为RNN(Recurrent Neural Network,循环神经网络)模型,其包括输入层、隐藏层和输出层,隐藏层可以有多层,本申请并不对隐藏层的层数进行限制,可根据需要而定。当然,本实施例并不局限于采用RNN模型,任意何适的机器学习模型均可采用,本实施例对此不做任何限定。
S4,获取待识别语音,该待识别语音携带场景标签。例如,用户在拨打预定电话时,可以通过按下不同的按键进入相应的预订场景,如按“1”进入机票预定场景,按“2”进入酒店预定场景,则可以预先将按“1”后进行的通话语音标注机票预定场景标签,预先将按“2”后进行的通话语音标注机票预定场景标签。
S5,从不同场景对应的语义模型中,获取与前述场景标签对应的语义模型。例如,假设待识别语音携带的场景标签为机票预定场景标签,则从步骤S3训练得到的多个语义模型中获取与机票预定场景标签匹配的语义模型为目标语义模型。
S6,利用前述目标语义模型对待识别语音进行处理,得到待识别语音的初始识别结果。具体地,将待识别语音输入目标语义模型,目标语义模型便会输出对应的识别结果,此处记为初始识别结果。
S7,利用预设的语言模型对前述初始识别结果进行校准处理,得到待识别语音的目标识别结果。
在本实施例中,目标语义模型输出的初始识别结果中可能存在错别字或者表达不符合语法规则等情况,因而采用语言模型对其进行校准处理,以进一步提高识别准确性。优选地,语言模型采用开源的N-grams模型实现。
可见,本发明首先利用不同场景的训练样本集分别训练得到不同场景对应的语义模型;而后根据待识别语音携带的场景标签选择对应的语义模型对待识别语音进行针对性识别处理,识别准确性高;最后,通过预设的语言模型对识别结果进行校准,进一步提高识别准确性。此外,本发明不限定语音格式、采集频率和采集时长,适用范围广,并且模型搭建成本低。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实施例2
本实施例提供一种语音识别系统10,如图2所示,该系统10包括:
样本获取模块11,用于获取不同场景的训练样本集,所述训练样本集包含若干训练语音以及与所述训练语音对应的文本标签;
预处理模块12,用于对每个所述训练样本集分别进行预处理
模型训练模块13,用于根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型;
语音获取模块14,用于获取待识别语音,所述待识别语音携带场景标签;
语义模型确定模块15,用于从所述不同场景对应的语义模型中,获取与所述场景标签对应的语义模型;
模型处理模块16,用于利用所述目标语义模型对所述待识别语音进行处理,得到所述待识别语音的初始识别结果;
校准模块17,用于利用预设的语言模型对所述初始识别结果进行校准处理,得到所述待识别语音的目标识别结果。
在本实施例中,所述模型训练模块13可以包括:
样本划分单元,用于按预定比例将目标场景的训练样本集划分为训练集和测试集;
训练单元,用于根据所述训练集,对所述机器学习模型进行训练;
测试单元,用于根据所述测试集,对训练得到的机器学习模型进行测试,当测试通过时,将训练得到的机器学习模型作为目标场景对应的语义模型。
在本实施例中,所述训练单元可以包括:
批次划分子单元,用于将所述训练集划分为多个批次;
分批训练子单元,用于利用各批次的训练集依次对所述机器学习模型进行训练,直至满足训练完成条件。
在本实施例中,所述批次划分子单元可用于:
将频谱特征相同或相近的训练语音划分至同一批次。
在本实施例中,所述分批训练子单元可用于:
获取时长相近的多段训练语音;
通过静默音填充方式将所述多段训练语音调整为时长一致;
将所述时长调整为一致的多段训练语音划分至同一批次。
在本实施例中,所述机器学习模型为循环神经网络模型;和/或
所述语言模型为N-grams模型。
在本实施例中,所述预处理模块12包括:
频谱特征提取单元,用于提取每个训练样本集中所述训练语音的频谱特征;
分词单元,用于对每个训练样本集中所述文本标签进行分词处理。
对于本系统实施例而言,由于其与前述方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的模块作并不一定是本发明所必须的。
实施例3
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1提供的语音识别方法。
图3示出了本实施例的硬件结构示意图,如图3所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的语音识别方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的语音识别方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的语音识别方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种语音识别方法,其特征在于,包括:
获取不同场景的训练样本集,所述训练样本集包含若干训练语音以及与所述训练语音对应的文本标签;所述场景包括业务场景;
根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型;
获取待识别语音,所述待识别语音携带场景标签;
从所述不同场景对应的语义模型中,获取与所述场景标签对应的目标语义模型;
利用所述目标语义模型对所述待识别语音进行处理,得到所述待识别语音的初始识别结果;
利用预设的语言模型对所述初始识别结果进行校准处理,得到所述待识别语音的目标识别结果;
所述根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型的步骤包括分别针对每个所述场景执行以下步骤:
按预定比例将目标场景的训练样本集划分为训练集和测试集;
根据所述训练集,对所述机器学习模型进行训练;
根据所述测试集,对训练得到的机器学习模型进行测试,当测试通过时,将训练得到的机器学习模型作为目标场景对应的语义模型;所述根据所述训练集,对所述机器学习模型进行训练的步骤包括:
将所述训练集划分为多个批次;
利用各批次的训练集依次对所述机器学习模型进行训练,直至满足训练完成条件;所述将所述训练集划分为多个批次的步骤包括:
将频谱特征相同或相近的训练语音划分至同一批次;
所述机器学习模型为循环神经网络模型;
所述语言模型为N-grams模型。
2.根据权利要求1所述的语音识别方法,其特征在于,所述将所述训练集划分为多个批次的步骤包括:
获取时长相近的多段训练语音;
通过静默音填充方式将所述多段训练语音调整为时长一致;
将所述时长调整为一致的多段训练语音划分至同一批次。
3.根据权利要求1所述的语音识别方法,其特征在于,所述根据不同场景对应的训练样本集对预设的机器学习模型进行训练,得到不同场景对应的语义模型的步骤之前,所述方法还包括对每个所述训练样本集分别进行预处理,所述预处理包括:
提取每个训练样本集中所述训练语音的频谱特征;
对每个训练样本集中所述文本标签进行分词处理。
4.一种语音识别系统,其特征在于,包括:
样本获取模块,用于获取不同场景的训练样本集,所述训练样本集包含若干训练语音以及与所述训练语音对应的文本标签;所述场景包括业务场景;
模型训练模块,用于根据不同场景的训练样本集分别对预设的机器学习模型进行训练,得到不同场景对应的语义模型;
语音获取模块,用于获取待识别语音,所述待识别语音携带场景标签;
语义模型确定模块,用于从所述不同场景对应的语义模型中,获取与所述场景标签对应的目标语义模型;
模型处理模块,用于利用所述目标语义模型对所述待识别语音进行处理,得到所述待识别语音的初始识别结果;
校准模块,用于利用预设的语言模型对所述初始识别结果进行校准处理,得到所述待识别语音的目标识别结果;所述模型训练模块包括:
样本划分单元,用于按预定比例将目标场景的训练样本集划分为训练集和测试集;
训练单元,用于根据所述训练集,对所述机器学习模型进行训练;
测试单元,用于根据所述测试集,对训练得到的机器学习模型进行测试,当测试通过时,将训练得到的机器学习模型作为目标场景对应的语义模型;所述训练单元包括:
批次划分子单元,用于将所述训练集划分为多个批次;
分批训练子单元,用于利用各批次的训练集依次对所述机器学习模型进行训练,直至满足训练完成条件;所述批次划分子单元用于:
将频谱特征相同或相近的训练语音划分至同一批次;
所述机器学习模型为循环神经网络模型;
所述语言模型为N-grams模型。
5.根据权利要求4所述的语音识别系统,其特征在于,所述分批训练子单元用于:
获取时长相近的多段训练语音;
通过静默音填充方式将所述多段训练语音调整为时长一致;
将所述时长调整为一致的多段训练语音划分至同一批次。
6.根据权利要求4所述的语音识别系统,其特征在于,所述系统还包括预处理模块,用于对每个所述训练样本集分别进行预处理,所述预处理模块包括:
频谱特征提取单元,用于提取每个训练样本集中所述训练语音的频谱特征;
分词单元,用于对每个训练样本集中所述文本标签进行分词处理。
7.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404192.8A CN111613212B (zh) | 2020-05-13 | 2020-05-13 | 语音识别方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010404192.8A CN111613212B (zh) | 2020-05-13 | 2020-05-13 | 语音识别方法、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613212A CN111613212A (zh) | 2020-09-01 |
CN111613212B true CN111613212B (zh) | 2023-10-31 |
Family
ID=72201320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010404192.8A Active CN111613212B (zh) | 2020-05-13 | 2020-05-13 | 语音识别方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613212B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562648A (zh) * | 2020-12-10 | 2021-03-26 | 平安科技(深圳)有限公司 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
CN112259081B (zh) * | 2020-12-21 | 2021-04-16 | 北京爱数智慧科技有限公司 | 语音的处理方法和装置 |
CN112786055A (zh) * | 2020-12-25 | 2021-05-11 | 北京百度网讯科技有限公司 | 资源挂载方法、装置、设备、存储介质及计算机程序产品 |
CN112712797A (zh) * | 2020-12-29 | 2021-04-27 | 平安科技(深圳)有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN113782005B (zh) * | 2021-01-18 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | 语音识别方法及装置、存储介质及电子设备 |
CN112989039A (zh) * | 2021-02-08 | 2021-06-18 | 天翼物联科技有限公司 | 面向小样本场景化人工智能的实现方法、系统及存储介质 |
CN113053387A (zh) * | 2021-02-26 | 2021-06-29 | 上海声通信息科技股份有限公司 | 一种支持语义理解的语音录入系统 |
CN113066486B (zh) * | 2021-03-25 | 2023-06-09 | 北京金山云网络技术有限公司 | 数据识别方法、装置、电子设备和计算机可读存储介质 |
CN113257283B (zh) * | 2021-03-29 | 2023-09-26 | 北京字节跳动网络技术有限公司 | 音频信号的处理方法、装置、电子设备和存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003150189A (ja) * | 2001-11-14 | 2003-05-23 | Mitsubishi Electric Corp | 音声認識装置 |
CN106875943A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 一种用于大数据分析的语音识别系统 |
CN108257593A (zh) * | 2017-12-29 | 2018-07-06 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN108764304A (zh) * | 2018-05-11 | 2018-11-06 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN108764208A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN109741747A (zh) * | 2019-02-19 | 2019-05-10 | 珠海格力电器股份有限公司 | 语音场景识别方法和装置、语音控制方法和设备、空调 |
CN110197188A (zh) * | 2018-02-26 | 2019-09-03 | 北京京东尚科信息技术有限公司 | 业务场景预测、分类的方法、系统、设备和存储介质 |
CN110209831A (zh) * | 2018-02-13 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 模型生成、语义识别的方法、系统、设备及存储介质 |
CN110232182A (zh) * | 2018-04-10 | 2019-09-13 | 蔚来汽车有限公司 | 语义识别方法、装置和语音对话系统 |
CN110364146A (zh) * | 2019-08-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
CN110544477A (zh) * | 2019-09-29 | 2019-12-06 | 北京声智科技有限公司 | 一种语音识别方法、装置、设备及介质 |
CN110675864A (zh) * | 2019-09-12 | 2020-01-10 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
JP6669952B1 (ja) * | 2018-11-12 | 2020-03-18 | 株式会社日本経済新聞社 | 動画のためのタグ付け装置、方法、およびプログラム |
CN111049996A (zh) * | 2019-12-26 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 多场景语音识别方法及装置、和应用其的智能客服系统 |
CN111091099A (zh) * | 2019-12-20 | 2020-05-01 | 京东方科技集团股份有限公司 | 一种场景识别模型的构建方法、场景识别方法及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9070360B2 (en) * | 2009-12-10 | 2015-06-30 | Microsoft Technology Licensing, Llc | Confidence calibration in automatic speech recognition systems |
US20130325770A1 (en) * | 2012-06-05 | 2013-12-05 | Sap Ag | Probabilistic language model in contextual network |
US9396723B2 (en) * | 2013-02-01 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and device for acoustic language model training |
US9972322B2 (en) * | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
US10679610B2 (en) * | 2018-07-16 | 2020-06-09 | Microsoft Technology Licensing, Llc | Eyes-off training for automatic speech recognition |
-
2020
- 2020-05-13 CN CN202010404192.8A patent/CN111613212B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003150189A (ja) * | 2001-11-14 | 2003-05-23 | Mitsubishi Electric Corp | 音声認識装置 |
CN106875943A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 一种用于大数据分析的语音识别系统 |
CN108257593A (zh) * | 2017-12-29 | 2018-07-06 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110209831A (zh) * | 2018-02-13 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 模型生成、语义识别的方法、系统、设备及存储介质 |
CN110197188A (zh) * | 2018-02-26 | 2019-09-03 | 北京京东尚科信息技术有限公司 | 业务场景预测、分类的方法、系统、设备和存储介质 |
CN110232182A (zh) * | 2018-04-10 | 2019-09-13 | 蔚来汽车有限公司 | 语义识别方法、装置和语音对话系统 |
CN108764304A (zh) * | 2018-05-11 | 2018-11-06 | Oppo广东移动通信有限公司 | 场景识别方法、装置、存储介质及电子设备 |
CN108764208A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
JP6669952B1 (ja) * | 2018-11-12 | 2020-03-18 | 株式会社日本経済新聞社 | 動画のためのタグ付け装置、方法、およびプログラム |
CN109741747A (zh) * | 2019-02-19 | 2019-05-10 | 珠海格力电器股份有限公司 | 语音场景识别方法和装置、语音控制方法和设备、空调 |
CN110364146A (zh) * | 2019-08-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
CN110675864A (zh) * | 2019-09-12 | 2020-01-10 | 上海依图信息技术有限公司 | 一种语音识别方法及装置 |
CN110544477A (zh) * | 2019-09-29 | 2019-12-06 | 北京声智科技有限公司 | 一种语音识别方法、装置、设备及介质 |
CN111091099A (zh) * | 2019-12-20 | 2020-05-01 | 京东方科技集团股份有限公司 | 一种场景识别模型的构建方法、场景识别方法及设备 |
CN111049996A (zh) * | 2019-12-26 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 多场景语音识别方法及装置、和应用其的智能客服系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111613212A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111613212B (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN111883110B (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
CN107103903B (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
CN107240395B (zh) | 一种声学模型训练方法和装置、计算机设备、存储介质 | |
CN107170453B (zh) | 基于人工智能的跨语种语音转录方法、设备及可读介质 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
KR20200021429A (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
CN110010121B (zh) | 验证应答话术的方法、装置、计算机设备和存储介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN112216284B (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
CN111145733A (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
CN112885336A (zh) | 语音识别系统的训练、识别方法、装置、电子设备 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN111144118B (zh) | 口语化文本中命名实体的识别方法、系统、设备和介质 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN113535925A (zh) | 语音播报方法、装置、设备及存储介质 | |
CN112434953A (zh) | 一种基于计算机数据处理的客服人员考核方法和装置 | |
CN112309398A (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN114898734A (zh) | 基于语音合成模型的预训练方法、装置和电子设备 | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |