CN109147768A - 一种基于深度学习的语音识别方法及系统 - Google Patents
一种基于深度学习的语音识别方法及系统 Download PDFInfo
- Publication number
- CN109147768A CN109147768A CN201811069381.3A CN201811069381A CN109147768A CN 109147768 A CN109147768 A CN 109147768A CN 201811069381 A CN201811069381 A CN 201811069381A CN 109147768 A CN109147768 A CN 109147768A
- Authority
- CN
- China
- Prior art keywords
- request data
- speech
- polling request
- speech polling
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000013480 data collection Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 230000005611 electricity Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于深度学习的语音识别方法及系统,该方法包括:获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息,然后通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型,接着,获取语音查询请求数据,根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,最后,输出所述语音查询请求数据的语音识别文本结果。通过本申请提供的基于深度学习的语音识别方法可以对客户输入的语音咨询内容进行准确识别,减轻了人工客服需听取所有的咨询请求的工作量,减少了客户等待应答的时间。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种基于深度学习的语音识别方法及系统。
背景技术
随着电力体制改革的不断深入,为了使用电客户实时获取电力相关信息,电力企业需通过各种平台,向用电客户提供关于电力查询、停电公告、网点查询、耗电知识以及供电业务管理信息等多方面的咨询服务。除此之外,为了便于内部员工获取企业信息,电力企业还需向内部员工提供关于内部消息通知、业务知识查询、业务接口推送以及运维服务表查询等多方面的查询服务。
但是,发明人在本申请的研究过程中发现,在实际生产环境中,如果关于电力业务的咨询请求与查询请求是以语音的形式发出,那么便需要人工客服逐个听取语音内容,获取相关的咨询内容或查询内容,这些涉及多方面的电力业务查询请求与咨询请求形成了一个庞大的工作量,仅仅依靠人工客服负责听取所有的语音将会需要大量的时间与精力,并且增加了用电客户等待应答的时间。
发明内容
为了解决现有技术中,人工客服需花大量的时间和精力,负责听取所有用户发送的语音查询请求,使用电客户等待应答的时间较长的问题,本申请通过以下各个实施例公开一种基于深度学习的语音识别方法及系统。
在本申请的第一方面,公开一种基于深度学习的语音识别方法,包括:
获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息;
通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型;
获取待识别的语音查询请求数据;
根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,所述字典包括字或者词与音素的对应关系;
输出所述语音查询请求数据的语音识别文本结果。
可选的,所述通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型,包括:
使用语音信号特征提取算法对所述训练语音数据集进行特征提取,并获取所述训练语音数据集的特征向量,其中,所述训练语音数据集包括电力业务语音数据集;
根据所述语音标签以及声学模型算法,对所述训练语音数据集的特征向量进行训练,建立声学模型,其中,所述语音标签为与所述电力业务语音数据集相对应的语音标签,所述声学模型包括所述训练语音数据集的音素信息;
根据语言模型算法,对所述对话文本信息进行训练,建立语言模型,其中,所述对话文本信息包括电力客服与用户的对话文本信息,所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。
可选的,所述根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,包括:
使用语音信号特征提取算法对所述语音查询请求数据进行特征提取,并获取所述语音查询请求数据的特征向量;
根据所述声学模型,对所述语音查询请求数据的特征向量进行处理,获取所述语音查询请求数据的音素信息;
根据所述语音查询请求数据的音素信息以及预设的字典,获取与所述语音查询请求数据的音素信息相对应的单个字或者词;
根据所述语言模型中单个字或者词相互关联的概率,将所述与所述语音查询请求数据的音素信息相对应的单个字或者词,识别成完整的文本。
可选的,所述根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别之前,还包括:
对所述语音查询请求数据进行预处理,所述预处理包括:将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。
可选的,当需对用户的语音查询请求做出应答时,所述输出所述语音查询请求数据的语音识别文本结果之后,还包括:
获取所述语音查询请求数据的语音识别文本结果,并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比;
获取对比的结果,并根据对比的结果,获取用户的电力业务需求;
根据所述用户的电力业务需求,获取所述电力业务知识数据库中相应的解决方案;
将所述解决方案反馈至用户。
在本申请的第二方面,公开一种基于深度学习的语音识别系统,包括:
训练数据集获取模块,用于获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息;
训练模块,用于通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型;
语音查询请求数据获取模块,用于获取待识别的语音查询请求数据;
识别模块,用于根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,所述字典包括字或者词与音素的对应关系;
语音识别文本结果输出模块,用于输出所述语音查询请求数据的语音识别文本结果。
可选的,所述训练模块包括:
第一特征提取单元,用于使用语音信号特征提取算法对所述训练语音数据集进行特征提取,并获取所述训练语音数据集的特征向量,其中,所述训练语音数据集包括电力业务语音数据集;
声学模型建立单元,用于根据所述语音标签以及声学模型算法,对所述训练语音数据集的特征向量进行训练,建立声学模型,其中,所述语音标签为与所述电力业务语音数据集相对应的语音标签,所述声学模型包括所述训练语音数据集的音素信息;
语言模型建立单元,用于根据语言模型算法,对所述对话文本信息进行训练,建立语言模型,其中,所述对话文本信息包括电力客服与用户的对话文本信息,所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。
可选的,所述识别模块包括:
第二特征提取单元,用于使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取,并获取所述语音查询请求数据的特征向量;
音素获取单元,用于根据所述声学模型,对所述语音查询请求数据的特征向量进行处理,获取所述语音查询请求数据的音素信息;
字词获取单元,用于根据所述语音查询请求数据的音素信息以及预设的字典,获取与所述语音查询请求数据的音素信息相对应的单个字或者词;
文本识别单元,用于根据所述语言模型中单个字或者词相互关联的概率,将所述与所述语音查询请求数据的音素信息相对应的单个字或者词,识别成完整的文本。
可选的,所述系统还包括:
数据预处理模块,用于对所述语音查询请求数据进行预处理,所述预处理包括:将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。
可选的,当需对用户的语音查询请求做出应答时,所述系统还包括:
对比模块,用于获取所述语音查询请求数据的语音识别文本结果,并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比;
电力业务需求获取模块,用于获取对比的结果,并根据对比的结果,获取用户的电力业务需求;
解决方案获取模块,用于根据所述用户的电力业务需求,获取所述电力业务知识数据库中相应的解决方案;
反馈模块,用于将所述解决方案反馈至用户。
本申请公开了一种基于深度学习的语音识别方法及系统,该方法包括:获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息,然后通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型,接着,获取语音查询请求数据,根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,最后,输出所述语音查询请求数据的语音识别文本结果。通过本申请提供的基于深度学习的语音识别方法可以对客户输入的语音咨询内容进行准确识别,减轻了人工客服需听取所有的咨询请求的工作量,减少了客户等待应答的时间。
进一步的,本申请在获取语音查询请求数据的语音识别文本结果之后,将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比,获取用户的电力业务需求以及相应的解决方案,然后将所述解决方案反馈至用户。通过本申请公开的语音识别方法,不仅可以对用户发出的语音查询请求数据进行识别,获取用户的查询需求,并且在后续可以实现无需人工的参与,自动对用户的查询需求做出响应,将与用户查询需求相对应的解决方案自动反馈给用户,有效减轻人工客服的工作量,并且不用客户等待,能够及时给出答复,大大提高了电力客服的工作效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请公开的一种基于深度学习的语音识别方法的工作流程示意图;
图2为本申请公开的一种基于深度学习的语音识别方法中,训练过程的工作流程示意图;
图3为本申请公开的一种基于深度学习的语音识别方法中,识别过程的工作流程示意图;
图4为本申请公开的一种基于深度学习的语音识别方法中,对用户的语音查询请求做出应答的工作流程示意图;
图5为本申请公开的一种基于深度学习的语音识别系统的结构示意图;
图6为本申请公开的一种基于深度学习的语音识别系统中,训练模块的结构示意图;
图7为本申请公开的一种基于深度学习的语音识别系统中,识别模块的结构示意图。
具体实施方式
为了解决现有技术中,人工客服需花大量的时间和精力,负责听取所有用户发送的语音查询请求,使用电客户等待应答的时间较长的问题,本申请通过以下各个实施例公开一种基于深度学习的语音识别方法及系统。
本申请第一实施例公开一种基于深度学习的语音识别方法,参见图1所示的工作流程示意图,所述方法包括:
步骤S11,获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息。
其中,所述训练语音数据集是预先准备好的电力业务语音数据集,包括电力客服的录音数据,电力业务语音数据集包括但不限于:业扩报装,违约窃电,电力负荷、电费退补、手工退补、抄表核算、下载证书、授权码发送以及PKI账号等专业词汇和问题。所述语音标签为与所述电力业务语音数据集相对应的语音标签,对话文本信息为大量的电力客服与客户的对话文本信息。
步骤S12,通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型。
步骤S13,获取待识别的语音查询请求数据。
其中,所述待识别的语音查询请求数据为用户发送的查询请求。
步骤S14,根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,所述字典包括字或者词与音素的对应关系。
其中,预设的字典包括字或者词与音素信息的对应关系,用于连接声学模型与语言模型,音素是语音中最小的单位,音素信息包含英语中的音标,以及汉语中的声母和韵母。
步骤S15,输出所述语音查询请求数据的语音识别文本结果。
对所述语音查询请求数据进行语音识别之后,将语音查询请求数据转换为文本的形式输出。
深度学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,基于深度学习的语音识别方法是为了建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释声音数据。
本申请公开了一种基于深度学习的语音识别方法及系统,该方法包括:获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息,然后通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型,接着,获取语音查询请求数据,根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,最后,输出所述语音查询请求数据的语音识别文本结果。通过本申请提供的基于深度学习的语音识别方法可以对客户输入的语音咨询内容进行准确识别,减轻了人工客服需听取所有的咨询请求的工作量,减少了客户等待应答的时间。
进一步的,参见图2所示的工作流程示意图,所述通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型,包括:
步骤S121,使用语音信号特征提取算法对所述训练语音数据集进行特征提取,并获取所述训练语音数据集的特征向量,其中,所述训练语音数据集包括电力业务语音数据集。
其中,语音信号特征提取算法主要包括线性预测倒谱系数算法和Mel倒谱系数算法,能够将经过预处理分割的每一帧语音波形转换成一个包含声音信息的多维特征向量。
步骤S122,根据所述语音标签以及声学模型算法,对所述训练语音数据集的特征向量进行训练,建立声学模型,其中,所述语音标签为与所述电力业务语音数据集相对应的语音标签,所述声学模型包括所述训练语音数据集的音素信息。
其中,声学模型式把语音转化为声学表示的输出,最常用的用于建立声学模型的是隐马尔科夫模型,通过隐马尔科夫模型中所用到的声学模型算法,对所述训练语音数据集的特征向量进行训练。
步骤S123,根据语言模型算法,对所述对话文本信息进行训练,建立语言模型,其中,所述对话文本信息包括电力客服与用户的对话文本信息,所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。
进一步的,参见图3所示的工作流程示意图,所述根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,包括:
步骤S141,使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取,并获取所述语音查询请求数据的特征向量。
步骤S142,根据所述声学模型,对所述语音查询请求数据的特征向量进行处理,获取所述语音查询请求数据的音素信息。
步骤S143,根据所述语音查询请求数据的音素信息以及预设的字典,获取与所述语音查询请求数据的音素信息相对应的单个字或者词。
步骤S144,根据所述语言模型中单个字或者词相互关联的概率,将所述与所述语音查询请求数据的音素信息相对应的单个字或者词,识别成完整的文本。
进一步的,所述根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别之前,还包括:
对所述语音查询请求数据进行预处理,所述预处理包括:将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。
其中,语音查询请求数据一般包含各种噪音或者静音,为了防止这些噪音以及静音对后续的识别步骤造成干扰,首先需要将语音查询请求数据首尾端的静音切除。对所述语音查询请求数据进行分帧就是使用移动窗函数把语音切开成一小段一小段,以便对语音数据的处理。
进一步的,参见图4所示的工作流程示意图,当需对用户的语音查询请求做出应答时,所述输出所述语音查询请求数据的语音识别文本结果之后,还包括:
步骤S21,获取所述语音查询请求数据的语音识别文本结果,并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比。
其中,电力业务知识数据库中的电力业务需求包括但不限于:电力查询、停电通报、网点查询、用电知识、业务知识查询、业务接口推送以及运维服务表查询等。
步骤S22,获取对比的结果,并根据对比的结果,获取用户的电力业务需求。
步骤S23,根据所述用户的电力业务需求,获取所述电力业务知识数据库中相应的解决方案。
针对每一种电力业务需求,电力业务知识数据库中都设置有相应的解决方案,一旦系统获取用户的电力业务需求后,便自动生成相应的解决方案。
步骤S24,将所述解决方案反馈至用户。
本申请在获取语音查询请求数据的语音识别文本结果之后,将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比,获取用户的电力业务需求以及相应的解决方案,然后将所述解决方案反馈至用户。通过本申请公开的语音识别方法,不仅可以对用户发出的语音查询请求数据进行识别,获取用户的查询需求,并且在后续可以实现无需人工的参与,自动对用户的查询需求做出响应,将与用户查询需求相对应的解决方案自动反馈给用户,有效减轻人工客服的工作量,并且不用客户等待,能够及时给出答复,大大提高了电力客服的工作效率。
通过本申请公开的一种基于深度学习的语音识别方法及系统,能够结合电力客服语音录音数据和电力业务专用词汇作为语音标签,实现通过语音识别出与电力业务相关的专业业务需求,例如有关业扩报装、违约窃电、电力负荷、电费退补以及授权码发送等业务需求,通过训练过程得到声学模型以及语音模型,然后对用户发送的语音查询请求数据进行识别,并于电力业务知识数据库中对比,获取用户的业务需求,一步步引导用户并向用户反馈相应的文字解决方案,使用户更加直观的看到解决方案,这些平时只有通过人工客服才能解决的问题,只需用户通过客户端就能获得相应服务,本申请公开的基于深度学习的语音识别系统,能够为用户提供最合适的查询、处理服务,使得用户无需记住业务的专业名称,便可以直接得到所需解决方案,缩短了用户的操作和等待应答的时间,提高了用户的满意度。
下述为本申请系统实施例,可以用于执行本申请方法实施例,对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
相应的,本申请另一实施例公开一种基于深度学习的语音识别系统,参见图5所示的结构示意图,所述系统包括:
训练数据集获取模块10,用于获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息。
训练模块20,用于通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型。
语音查询请求数据获取模块30,用于获取待识别的语音查询请求数据。
识别模块40,用于根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,所述字典包括字或者词与音素的对应关系。
语音识别文本结果输出模块50,用于输出所述语音查询请求数据的语音识别文本结果。
进一步的,参见图6所示的结构示意图,所述训练模块20包括:
第一特征提取单元201,用于使用语音信号特征提取算法对所述训练语音数据集进行特征提取,并获取所述训练语音数据集的特征向量,其中,所述训练语音数据集包括电力业务语音数据集。
声学模型建立单元202,用于根据所述语音标签以及声学模型算法,对所述训练语音数据集的特征向量进行训练,建立声学模型,其中,所述语音标签为与所述电力业务语音数据集相对应的语音标签,所述声学模型包括所述训练语音数据集的音素信息。
语言模型建立单元203,用于根据语言模型算法,对所述对话文本信息进行训练,建立语言模型,其中,所述对话文本信息包括电力客服与用户的对话文本信息,所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。
进一步的,参见图7所示的结构示意图,所述识别模块40包括:
第二特征提取单元401,用于使用语音信号特征提取算法对所述语音查询请求数据进行特征提取,并获取所述语音查询请求数据的特征向量。
音素获取单元402,用于根据所述声学模型,对所述语音查询请求数据的特征向量进行处理,获取所述语音查询请求数据的音素信息。
字词获取单元403,用于根据所述语音查询请求数据的音素信息以及预设的字典,获取与所述语音查询请求数据的音素信息相对应的单个字或者词。
文本识别单元404,用于根据所述语言模型中单个字或者词相互关联的概率,将所述与所述语音查询请求数据的音素信息相对应的单个字或者词,识别成完整的文本。
进一步的,所述系统还包括:
数据预处理模块,用于对所述语音查询请求数据进行预处理,所述预处理包括:将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。
进一步的,当需对用户的语音查询请求做出应答时,所述系统还包括:
对比模块,用于获取所述语音查询请求数据的语音识别文本结果,并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比。
电力业务需求获取模块,用于获取对比的结果,并根据对比的结果,获取用户的电力业务需求。
解决方案获取模块,用于根据所述用户的电力业务需求,获取所述电力业务知识数据库中相应的解决方案。
反馈模块,用于将所述解决方案反馈至用户。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (10)
1.一种基于深度学习的语音识别方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息;
通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型;
获取待识别的语音查询请求数据;
根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,所述字典包括字或者词与音素的对应关系;
输出所述语音查询请求数据的语音识别文本结果。
2.根据权利要求1所述的方法,其特征在于,所述通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型,包括:
使用语音信号特征提取算法对所述训练语音数据集进行特征提取,并获取所述训练语音数据集的特征向量,其中,所述训练语音数据集包括电力业务语音数据集;
根据所述语音标签以及声学模型算法,对所述训练语音数据集的特征向量进行训练,建立声学模型,其中,所述语音标签为与所述电力业务语音数据集相对应的语音标签,所述声学模型包括所述训练语音数据集的音素信息;
根据语言模型算法,对所述对话文本信息进行训练,建立语言模型,其中,所述对话文本信息包括电力客服与用户的对话文本信息,所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,包括:
使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取,并获取所述语音查询请求数据的特征向量;
根据所述声学模型,对所述语音查询请求数据的特征向量进行处理,获取所述语音查询请求数据的音素信息;
根据所述语音查询请求数据的音素信息以及预设的字典,获取与所述语音查询请求数据的音素信息相对应的单个字或者词;
根据所述语言模型中单个字或者词相互关联的概率,将所述与所述语音查询请求数据的音素信息相对应的单个字或者词,识别成完整的文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别之前,还包括:
对所述语音查询请求数据进行预处理,所述预处理包括:将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。
5.根据权利要求1所述的方法,其特征在于,当需对用户的语音查询请求做出应答时,所述输出所述语音查询请求数据的语音识别文本结果之后,还包括:
获取所述语音查询请求数据的语音识别文本结果,并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比;
获取对比的结果,并根据对比的结果,获取用户的电力业务需求;
根据所述用户的电力业务需求,获取所述电力业务知识数据库中相应的解决方案;
将所述解决方案反馈至用户。
6.一种基于深度学习的语音识别系统,其特征在于,所述系统包括:
训练数据集获取模块,用于获取训练数据集,所述训练数据集包括:训练语音数据集、语音标签以及对话文本信息;
训练模块,用于通过训练过程,对所述训练数据集进行训练,建立声学模型和语言模型;
语音查询请求数据获取模块,用于获取待识别的语音查询请求数据;
识别模块,用于根据所述声学模型、所述语言模型以及预设的字典,对所述语音查询请求数据进行语音识别,所述字典包括字或者词与音素的对应关系;
语音识别文本结果输出模块,用于输出所述语音查询请求数据的语音识别文本结果。
7.根据权利要求6所述的系统,其特征在于,所述训练模块包括:
第一特征提取单元,用于使用语音信号特征提取算法对所述训练语音数据集进行特征提取,并获取所述训练语音数据集的特征向量,其中,所述训练语音数据集包括电力业务语音数据集;
声学模型建立单元,用于根据所述语音标签以及声学模型算法,对所述训练语音数据集的特征向量进行训练,建立声学模型,其中,所述语音标签为与所述电力业务语音数据集相对应的语音标签,所述声学模型包括所述训练语音数据集的音素信息;
语言模型建立单元,用于根据语言模型算法,对所述对话文本信息进行训练,建立语言模型,其中,所述对话文本信息包括电力客服与用户的对话文本信息,所述语言模型包括所述对话文本信息中单个字或者词相互关联的概率。
8.根据权利要求7所述的系统,其特征在于,所述识别模块包括:
第二特征提取单元,用于使用所述语音信号特征提取算法对所述语音查询请求数据进行特征提取,并获取所述语音查询请求数据的特征向量;
音素获取单元,用于根据所述声学模型,对所述语音查询请求数据的特征向量进行处理,获取所述语音查询请求数据的音素信息;
字词获取单元,用于根据所述语音查询请求数据的音素信息以及预设的字典,获取与所述语音查询请求数据的音素信息相对应的单个字或者词;
文本识别单元,用于根据所述语言模型中单个字或者词相互关联的概率,将所述与所述语音查询请求数据的音素信息相对应的单个字或者词,识别成完整的文本。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括:
数据预处理模块,用于对所述语音查询请求数据进行预处理,所述预处理包括:将所述语音查询请求数据首尾端的静音切除以及对所述语音查询请求数据进行分帧。
10.根据权利要求6所述的系统,其特征在于,当需对用户的语音查询请求做出应答时,所述系统还包括:
对比模块,用于获取所述语音查询请求数据的语音识别文本结果,并将所述语音识别文本结果与预设的电力业务知识数据库中的电力业务需求进行对比;
电力业务需求获取模块,用于获取对比的结果,并根据对比的结果,获取用户的电力业务需求;
解决方案获取模块,用于根据所述用户的电力业务需求,获取所述电力业务知识数据库中相应的解决方案;
反馈模块,用于将所述解决方案反馈至用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811069381.3A CN109147768A (zh) | 2018-09-13 | 2018-09-13 | 一种基于深度学习的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811069381.3A CN109147768A (zh) | 2018-09-13 | 2018-09-13 | 一种基于深度学习的语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109147768A true CN109147768A (zh) | 2019-01-04 |
Family
ID=64825289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811069381.3A Pending CN109147768A (zh) | 2018-09-13 | 2018-09-13 | 一种基于深度学习的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147768A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767791A (zh) * | 2019-03-21 | 2019-05-17 | 中国—东盟信息港股份有限公司 | 一种针对呼叫中心通话的语音情绪识别及应用系统 |
CN110310663A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 违规话术检测方法、装置、设备及计算机可读存储介质 |
CN111179928A (zh) * | 2019-12-30 | 2020-05-19 | 上海欣能信息科技发展有限公司 | 一种基于语音交互的变配电站智能控制方法 |
CN111268302A (zh) * | 2019-12-31 | 2020-06-12 | 南京理工大学 | 一种基于语音识别的垃圾分类器及其工作方法 |
CN111611370A (zh) * | 2020-05-26 | 2020-09-01 | 全球能源互联网研究院有限公司 | 电费查询方法及电子设备 |
CN111666380A (zh) * | 2020-06-12 | 2020-09-15 | 北京百度网讯科技有限公司 | 一种智能呼叫方法、装置、设备和介质 |
CN111883133A (zh) * | 2020-07-20 | 2020-11-03 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN112562652A (zh) * | 2020-12-02 | 2021-03-26 | 湖南翰坤实业有限公司 | 一种基于Untiy引擎的语音处理方法及系统 |
CN113920990A (zh) * | 2021-12-14 | 2022-01-11 | 国网山东省电力公司乳山市供电公司 | 一种用于供电客户的智能语音识别处理系统和方法 |
CN116013291A (zh) * | 2022-12-12 | 2023-04-25 | 广西电网有限责任公司 | 一种基于电力领域本体知识的语音识别系统 |
CN116074446A (zh) * | 2023-03-27 | 2023-05-05 | 北京科东电力控制系统有限责任公司 | 基于隐性马尔可夫模型训练的话务调配方法及系统 |
WO2023082467A1 (zh) * | 2021-11-11 | 2023-05-19 | 国网江苏省电力有限公司连云港供电分公司 | 一种电力需求侧语音交互方法和系统 |
CN117975968A (zh) * | 2024-04-02 | 2024-05-03 | 四川金信石信息技术有限公司 | 一种基于声音和语言模型的远程巡视系统控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
CN107644643A (zh) * | 2017-09-27 | 2018-01-30 | 安徽硕威智能科技有限公司 | 一种语音交互系统及方法 |
CN107919126A (zh) * | 2017-11-24 | 2018-04-17 | 合肥博焱智能科技有限公司 | 一种智能语音交互系统 |
CN108418744A (zh) * | 2018-02-06 | 2018-08-17 | 国网浙江省电力有限公司信息通信分公司 | 一种用于提升电力服务质量的电子坐席系统 |
-
2018
- 2018-09-13 CN CN201811069381.3A patent/CN109147768A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
CN107644643A (zh) * | 2017-09-27 | 2018-01-30 | 安徽硕威智能科技有限公司 | 一种语音交互系统及方法 |
CN107919126A (zh) * | 2017-11-24 | 2018-04-17 | 合肥博焱智能科技有限公司 | 一种智能语音交互系统 |
CN108418744A (zh) * | 2018-02-06 | 2018-08-17 | 国网浙江省电力有限公司信息通信分公司 | 一种用于提升电力服务质量的电子坐席系统 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767791A (zh) * | 2019-03-21 | 2019-05-17 | 中国—东盟信息港股份有限公司 | 一种针对呼叫中心通话的语音情绪识别及应用系统 |
CN110310663A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 违规话术检测方法、装置、设备及计算机可读存储介质 |
WO2020228173A1 (zh) * | 2019-05-16 | 2020-11-19 | 平安科技(深圳)有限公司 | 违规话术检测方法、装置、设备及计算机可读存储介质 |
CN111179928A (zh) * | 2019-12-30 | 2020-05-19 | 上海欣能信息科技发展有限公司 | 一种基于语音交互的变配电站智能控制方法 |
CN111268302A (zh) * | 2019-12-31 | 2020-06-12 | 南京理工大学 | 一种基于语音识别的垃圾分类器及其工作方法 |
CN111611370B (zh) * | 2020-05-26 | 2023-04-18 | 全球能源互联网研究院有限公司 | 电费查询方法及电子设备 |
CN111611370A (zh) * | 2020-05-26 | 2020-09-01 | 全球能源互联网研究院有限公司 | 电费查询方法及电子设备 |
CN111666380A (zh) * | 2020-06-12 | 2020-09-15 | 北京百度网讯科技有限公司 | 一种智能呼叫方法、装置、设备和介质 |
CN111883133A (zh) * | 2020-07-20 | 2020-11-03 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN111883133B (zh) * | 2020-07-20 | 2023-08-29 | 深圳乐信软件技术有限公司 | 客服语音识别方法、装置、服务器及存储介质 |
CN112562652A (zh) * | 2020-12-02 | 2021-03-26 | 湖南翰坤实业有限公司 | 一种基于Untiy引擎的语音处理方法及系统 |
CN112562652B (zh) * | 2020-12-02 | 2024-01-19 | 湖南翰坤实业有限公司 | 一种基于Untiy引擎的语音处理方法及系统 |
WO2023082467A1 (zh) * | 2021-11-11 | 2023-05-19 | 国网江苏省电力有限公司连云港供电分公司 | 一种电力需求侧语音交互方法和系统 |
CN113920990A (zh) * | 2021-12-14 | 2022-01-11 | 国网山东省电力公司乳山市供电公司 | 一种用于供电客户的智能语音识别处理系统和方法 |
CN116013291A (zh) * | 2022-12-12 | 2023-04-25 | 广西电网有限责任公司 | 一种基于电力领域本体知识的语音识别系统 |
CN116013291B (zh) * | 2022-12-12 | 2024-05-14 | 广西电网有限责任公司 | 一种基于电力领域本体知识的语音识别系统 |
CN116074446A (zh) * | 2023-03-27 | 2023-05-05 | 北京科东电力控制系统有限责任公司 | 基于隐性马尔可夫模型训练的话务调配方法及系统 |
CN116074446B (zh) * | 2023-03-27 | 2023-12-01 | 北京科东电力控制系统有限责任公司 | 基于隐性马尔可夫模型训练的话务调配方法及系统 |
CN117975968A (zh) * | 2024-04-02 | 2024-05-03 | 四川金信石信息技术有限公司 | 一种基于声音和语言模型的远程巡视系统控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147768A (zh) | 一种基于深度学习的语音识别方法及系统 | |
Kumar et al. | A Hindi speech recognition system for connected words using HTK | |
WO2021159688A1 (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
Chauhan et al. | Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database | |
Meng et al. | Overview of the speech recognition technology | |
CN110277088B (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
KR20160077190A (ko) | 자연 표현 처리 방법, 처리 및 응답 방법, 디바이스 및 시스템 | |
CN111429915A (zh) | 一种基于语音识别的调度系统及调度方法 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN109584865A (zh) | 一种应用程序控制方法、装置、可读存储介质及终端设备 | |
JP2023543780A (ja) | 音声認識トランスクリプションの改善 | |
Shahin | Novel third-order hidden Markov models for speaker identification in shouted talking environments | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
US10522135B2 (en) | System and method for segmenting audio files for transcription | |
CN112087726B (zh) | 彩铃识别的方法及系统、电子设备及存储介质 | |
CN111949778A (zh) | 一种基于用户情绪的智能语音对话方法、装置及电子设备 | |
CN111949777A (zh) | 一种基于人群分类的智能语音对话方法、装置及电子设备 | |
Mohanty et al. | Isolated Odia digit recognition using HTK: an implementation view | |
CN115691500A (zh) | 一种基于时延神经网络的电力客服语音识别方法及装置 | |
Jing et al. | Acquisition of english corpus machine translation based on speech recognition technology | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |
|
RJ01 | Rejection of invention patent application after publication |