CN112185392A - 一种用于供电智能客户的语音识别处理系统 - Google Patents
一种用于供电智能客户的语音识别处理系统 Download PDFInfo
- Publication number
- CN112185392A CN112185392A CN202011058941.2A CN202011058941A CN112185392A CN 112185392 A CN112185392 A CN 112185392A CN 202011058941 A CN202011058941 A CN 202011058941A CN 112185392 A CN112185392 A CN 112185392A
- Authority
- CN
- China
- Prior art keywords
- voice
- unit
- mode
- speech
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 65
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 21
- 230000008030 elimination Effects 0.000 claims description 18
- 238000003379 elimination reaction Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种用于供电智能客户的语音识别处理系统,包含有语音输入单元、预处理单元、特征提取单元、语音识别模型构建单元以及语音识别处理单元;通过对客户的语音信号进行预处理、进行特征提取、进行识别,获得文本格式的语音识别结果,并输出。实施本发明,由于对语音信号采用了有效的预处理工作,可以提高语音识别准确度;同时,由于采用了智能打断处理机制,可以提高智能化程度,能实现智能打断响应,从而可以提高客户的使用体验;另外,通过训练语音识别模型,可以提高语音识别的准确度。
Description
技术领域
本发明涉及供电智能客户的技术领域,具体涉及一种用于供电智能客户的语音识别处理方法及系统。
背景技术
对于客户服务工作而言,智能语音是未来发展的趋势之一,虽然很多供电企业都在积极构建智能客户服务系统,但是现有大部分系统中的语音导航系统存在一些不足之处,主要体现在智能化程度不高,语音识别效果有限,服务流程复杂、整体性较差、服务性不强等缺点。
发明内容
本发明所要解决的技术问题在于,提供一种用于供电智能客户的语音识别处理系统,可以提高语音识别效果。
为解决上述技术问题,本发明的一方面,提供一种用于供电智能客户的语音识别处理系统,其包括:
语音输入单元,用于接收通过供电智能坐席接听客户的语音信号;
预处理单元,用于对客户的语音信号进行预处理,所述预处理包括端点检测、噪音消除和智能打断处理;
特征提取单元,用于对经过预处理后的所述语音信号进行特征提取,获得所述语音信号中的语音特征;
语音识别模型构建单元,用于预先构建语音识别模型的步骤,所述语音识别模型包括声学模型、字典以及语言模型;
语音识别处理单元,用于通过预先构建的语音识别模型对所提取的语音特征进行识别,获得文本格式的语音识别结果,并输出。
优选地,所述预处理单元进一步包括:
声道转换单元,用于将语音数据转换成适于声学模型处理的数据格式,所述数据格式包括:单声道16位16000采样率的wav或pcm音频;
端点检测单元,用于对语音信号中的端点进行识别,以确定用户说话起始和终止点;
降噪单元,用于消除背景噪声,进行场景分析,先对语音信号进行场景类型判断,确定场景类型后,根据不同的场景对应预设的噪声消除方式进行噪音消除;
智能打断单元,用于实时响应用户最新的语音信号,根据所设置的中断处理模式中断当前任务或继续当前任务。
优选地,所述端点检测单元进一步包括:
接收到语音信号触发语音识别时,根据用户登录信息先判断是否有存储对应用户的说话习惯,若有,则根据用户本身说话习惯对应调整后检测参数进行端点检测;若否,则基于通用检测参数进行端点检测。
优选地,所述端点检测单元进一步通过时域特征方法和频域特征方法对语音信号中的端点进行识别。
优选地,所述智能打断单元具体包括:
中断模式类型设置单元,用于对于不同的用户预先设置不同的中断处理模式类型,所述中断处理模式类型包括:可打断模式和不可打断模式;
中断模式处理单元,用于在实时进行语音识别时,若接收到新的语音信号,则判断当前的中断处理模式类型;
如果当前为可打断模式,在接收到新的语音指令时,中断当前语音识别的响应;
如果当前为不可打断模式,在用户触发语音识别处理后,等指令执行结束才重新接收新的语音信号指令。
优选地,所述特征提取单元进一步用于采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取,获得所述语音信号中的语音特征。
优选地,在所述语音识别模型构建单元中,所述声学模型,为每个发音建立发音模板,声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异的知识表示;所述语言模型是对一组字序列构成的知识表示,其是词与词、词与句子的映射;字典构建有语音与文字之间的映射关系。
优选地,所述语音识别模型构建单元包括:
语音数据库,存储有多种语音样本资料;
特征预提取单元,用于对语音数据库中的语音样本资料进行特征提取,获得语音样本资料所对应的语音特征;
声学模型训练单元,用于对所述语音特征训练,获得语音特征到音素的映射,形成声学模型。
优选地,所述语音识别模型构建单元包括:
文本数据库,存储有多种文本样本资料;
语言模型训练单元,用于通过对文本数据库中的文本进行训练获得词与词、词与句子之间的映射,形成语言模型。
优选地,所述语音识别模型构建单元进一步包括:
字典构建单元,用于根据所述声学模型以及所述语言模型,构建语音与文字之间的映射关系,形成字典。
实施本发明实施例,具有以下的有益效果:
本发明的实施例提供一种用于供电智能客户的语音识别处理系统,通过供电智能坐席接听客户的语音信号;然后对客户的语音信号进行预处理,所述预处理包括端点检测、噪音消除和智能打断处理;对经过预处理后的所述语音信号进行特征提取,获得所述语音信号中的语音特征;通过预先构建的语音识别模型对所提取的语音特征进行识别,获得文本格式的语音识别结果,并输出。由于对语音信号采用了有效的预处理工作,可以提高语音识别准确度;同时,由于采用了智能打断处理机制,可以提高智能化程度,能实现智能打断响应,从而可以提高客户的使用体验;
另外,通过训练语音识别模型,可以提高语音识别的准确度。
附图说明
图1为本发明提供的一种用于供电智能客户的语音识别处理系统的一个实施例的结构示意图;
图2为图1中预处理单元的结构示意图;
图3为图2中智能打断单元的结构示意图;
图4为图1中语音识别模型构建单元的结构示意图;
图5为本发明涉及的一种用于供电智能客户的语音识别处理方法的一个实施例的主流程示意图;
图6为图5中步骤S11的更详细的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
为使本领域的普通技术人员更加清楚地理解发明的目的、技术方案和优点,以下结合附图和实施例对发明做进一步的阐述。
如图1所示,示出了本发明提供的一种用于供电智能客户的语音识别处理系统的一个实施例的结构示意图;一并结合图2至图4所示。在本实施例中,所述用于供电智能客户的语音识别处理系统1包括:
语音输入单元10,用于接收通过供电智能坐席接听客户的语音信号;
预处理单元11,用于对客户的语音信号进行预处理,所述预处理包括端点检测、噪音消除和智能打断处理;
特征提取单元12,用于对经过预处理后的所述语音信号进行特征提取,获得所述语音信号中的语音特征;
语音识别模型构建单元13,用于预先构建语音识别模型的步骤,所述语音识别模型包括声学模型、字典以及语言模型;
语音识别处理单元14,用于通过预先构建的语音识别模型对所提取的语音特征进行识别,获得文本格式的语音识别结果,并输出。
在一个具体的例子中,所述预处理单元11进一步包括:
声道转换单元110,用于将语音数据转换成适于声学模型处理的数据格式,所述数据格式包括:单声道16位16000采样率的wav或pcm音频;
端点检测单元111,用于对语音信号中的端点进行识别,以确定用户说话起始和终止点;
降噪单元112,用于消除背景噪声,进行场景分析,先对语音信号进行场景类型判断,确定场景类型后,根据不同的场景对应预设的噪声消除方式进行噪音消除;
智能打断单元113,用于实时响应用户最新的语音信号,根据所设置的中断处理模式中断当前任务或继续当前任务。
具体地,在一个例子中,所述端点检测单元111进一步包括:
接收到语音信号触发语音识别时,根据用户登录信息先判断是否有存储对应用户的说话习惯,若有,则根据用户本身说话习惯对应调整后检测参数进行端点检测;若否,则基于通用检测参数进行端点检测。
优选地,所述端点检测单元111进一步通过时域特征方法和频域特征方法对语音信号中的端点进行识别。
在一个具体的例子中,所述智能打断单元113具体包括:
中断模式类型设置单元1130,用于对于不同的用户预先设置不同的中断处理模式类型,所述中断处理模式类型包括:可打断模式和不可打断模式;
中断模式处理单元1131,用于在实时进行语音识别时,若接收到新的语音信号,则判断当前的中断处理模式类型;
如果当前为可打断模式,在接收到新的语音指令时,中断当前语音识别的响应;
如果当前为不可打断模式,在用户触发语音识别处理后,等指令执行结束才重新接收新的语音信号指令。
优选地,所述特征提取单元进一步用于采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取,获得所述语音信号中的语音特征。
具体地,在一个例子中,在所述语音识别模型构建单元13中,所述声学模型,为每个发音建立发音模板,声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异的知识表示;所述语言模型是对一组字序列构成的知识表示,其是词与词、词与句子的映射;字典构建有语音与文字之间的映射关系。
优选地,所述语音识别模型构建单元13包括:
语音数据库130,存储有多种语音样本资料;
特征预提取单元131,用于对语音数据库中的语音样本资料进行特征提取,获得语音样本资料所对应的语音特征;
声学模型训练单元132,用于对所述语音特征训练,获得语音特征到音素的映射,形成声学模型。
优选地,所述语音识别模型构建单元13包括:
文本数据库133,存储有多种文本样本资料;
语言模型训练单元134,用于通过对文本数据库中的文本进行训练获得词与词、词与句子之间的映射,形成语言模型。
优选地,所述语音识别模型构建单元13进一步包括:
字典构建单元135,用于根据所述声学模型以及所述语言模型,构建语音与文字之间的映射关系,形成字典。
请参阅图5所示,示出了本发明涉及的一种用于供电智能客户的语音识别处理方法的一个实施例的主流程示意图;一并结合图6所示,在本实施例中,所述用于供电智能客户的语音识别处理方法,其包括如下步骤:
步骤S10,通过供电智能坐席接听客户的语音信号;
步骤S11,对客户的语音信号进行预处理,所述预处理包括端点检测、噪音消除和智能打断处理;
在具体的例子中,所述步骤S11进一步包括:
步骤S110,将语音数据转换成适于声学模型处理的数据格式,所述数据格式包括:单声道16位16000采样率的wav或pcm音频;
步骤S111,对语音信号中的端点进行识别,以确定用户说话起始和终止点;其中,端点检测是对输入的音频流进行分析,可以确定用户说话的起始和终止的处理过程,一旦检测到用户开始说话,语音开始流向后面的识别引擎(即语音识别处理单元),直到检测到用户说话结束,语音识别中静音检测可以确定用户是否说话结束;这种方式使识别引擎在用户在说话的同时即开始进行识别处理。
步骤S112,消除背景噪声,进行场景分析,先对语音信号进行场景类型判断,确定场景类型后,根据不同的场景对应预设的噪声消除方式进行噪音消除;噪声消除主要为了消除背景噪声,可以基于用户所处场景进行分析,如对语音信号进行场景类型判断,确定场景类型后,根据不同的场景对应预设的噪声消除方式进行噪音消除,通过为各种场景类型设置对应的消噪策略,可以提高语音消噪处理效果,确保后续语音识别的准确度。在不同的场景下,可以学习不同的降噪方式;具体针对每一场景,可以通过各种降噪算法进行降噪处理,找到与该场景适配的降噪方式,确定每一场景对应事宜的降噪方式后,则可以利用对应的降噪方式对各场景进行噪声消除。
步骤S113,实时响应用户最新的语音信号,根据所设置的中断处理模式中断当前任务或继续当前任务。在一些场景中,智能打断是指用户可以在自助语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然,有助于增强客户体验。
优选地,所述步骤S111进一步包括:
接收到语音信号触发语音识别时,根据用户登录信息先判断是否有存储对应用户的说话习惯,若有,则根据用户本身说话习惯对应调整后检测参数进行端点检测;若否,则基于通用检测参数进行端点检测。通过建立不同用户的说话习惯,以配置相应的端点检测策略,可以有效提高端点检测的准确性和效率。
优选地,在所述步骤S111中,通过时域特征方法和频域特征方法对语音信号中的端点进行识别。端点检测为从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减少处理时间,而且能排除无声段的噪声干扰。目前主要有两类方法:时域特征方法和频域特征方法。时域特征方法是利用语音音量和过零率进行端点检测,计算量小,但对气音会造成误判,不同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语音检测,计算量较大。
优选地,所述步骤S112具体包括:
对于不同的用户预先设置不同的中断处理模式类型,所述中断处理模式类型包括:可打断模式和不可打断模式;
在实时进行语音识别时,若接收到新的语音信号,则判断当前的中断处理模式类型;
如果当前为可打断模式,在接收到新的语音指令时,中断当前语音识别的响应;
如果当前为不可打断模式,在用户触发语音识别处理后,等指令执行结束才重新接收新的语音信号指令。
可以理解的是,在实时进行语音识别时,若接收到新的语音信号,如用户打断语音识别,发送最新指令时,平台及时作出响应,使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然,有助于增强客户体验。具体地,还可以设置不同的模式,如可打断模式和不可打断模式,在可打断模式下,如在接收到新的语音指令时,中断当前语音识别的响应;而在不可打断模式下,在用户触发语音识别处理后,等指令执行结束才重新接收新的语音信号指令。具体的模式设置可以由用户根据个人使用习惯进行灵活配置。
可以理解的是,在不同的实施例中,预处理还可以包括滤波、A/D变换,预加重等操作。
步骤S12,对经过预处理后的所述语音信号进行特征提取,获得所述语音信号中的语音特征;
优选地,所述步骤S12中进一步包括:
采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取,获得所述语音信号中的语音特征。可以理解的是,线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性預测系数以通过使预测信号和实际信号之间的均方误差最小来唯一确定。
优选地,进一步包括:预先构建语音识别模型的步骤,所述语音识别模型包括声学模型、字典以及语言模型,具体地,所述步骤包括:
通过对语音数据库中的语音样本资料所对应的语音特征进行训练,获得语音特征到音素的映射,形成声学模型;其中,声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示;
通过对文本数据库中的文本进行训练获得语言模型,获得词与词、词与句子之间的映射,形成语言模型;语言模型是对一组字序列构成的知识表示,语言模型可以用SRILM工具做LM的训练得到;
根据所述声学模型以及所述语言模型,构建语音与文字之间的映射关系,形成字典。
总的来说,所谓声学模型就是把语音的声学特征分类对应到(解码)音素或字词这样的单元,语言模型接着把字词解码成一个完整的句子。
步骤S13,通过预先构建的语音识别模型对所提取的语音特征进行识别,获得文本格式的语音识别结果,并输出。在识别时将输入的语音特征同声学模型进行匹配与比较,得到最佳识别结果。
实施本发明实施例,具有以下的有益效果:
本发明的实施例提供一种用于供电智能客户的语音识别处理系统,首先通过供电智能坐席接听客户的语音信号;然后对客户的语音信号进行预处理,所述预处理包括端点检测、噪音消除和智能打断处理;对经过预处理后的所述语音信号进行特征提取,获得所述语音信号中的语音特征;通过预先构建的语音识别模型对所提取的语音特征进行识别,获得文本格式的语音识别结果,并输出。由于对语音信号采用了有效的预处理工作,可以提高语音识别准确度;同时,由于采用了智能打断处理机制,可以提高智能化程度,能实现智能打断响应,从而可以提高客户的使用体验;
另外,通过训练语音识别模型,可以提高语音识别的准确度。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种用于供电智能客户的语音识别处理系统,其特征在于,包括:
语音输入单元,用于接收通过供电智能坐席接听客户的语音信号;
预处理单元,用于对客户的语音信号进行预处理,所述预处理包括端点检测、噪音消除和智能打断处理;
特征提取单元,用于对经过预处理后的所述语音信号进行特征提取,获得所述语音信号中的语音特征;
语音识别模型构建单元,用于预先构建语音识别模型的步骤,所述语音识别模型包括声学模型、字典以及语言模型;
语音识别处理单元,用于通过预先构建的语音识别模型对所提取的语音特征进行识别,获得文本格式的语音识别结果,并输出。
2.如权利要求1所述的系统,其特征在于,所述预处理单元进一步包括:
声道转换单元,用于将语音数据转换成适于声学模型处理的数据格式,所述数据格式包括:单声道16位16000采样率的wav或pcm音频;
端点检测单元,用于对语音信号中的端点进行识别,以确定用户说话起始和终止点;
降噪单元,用于消除背景噪声,进行场景分析,先对语音信号进行场景类型判断,确定场景类型后,根据不同的场景对应预设的噪声消除方式进行噪音消除;
智能打断单元,用于实时响应用户最新的语音信号,根据所设置的中断处理模式中断当前任务或继续当前任务。
3.如权利要求2所述的系统,其特征在于,所述端点检测单元进一步包括:
接收到语音信号触发语音识别时,根据用户登录信息先判断是否有存储对应用户的说话习惯,若有,则根据用户本身说话习惯对应调整后检测参数进行端点检测;若否,则基于通用检测参数进行端点检测。
4.如权利要求3所的系统,其特征在于,所述端点检测单元进一步通过时域特征方法和频域特征方法对语音信号中的端点进行识别。
5.如权利要求2所述的系统,其特征在于,所述智能打断单元具体包括:
中断模式类型设置单元,用于对于不同的用户预先设置不同的中断处理模式类型,所述中断处理模式类型包括:可打断模式和不可打断模式;
中断模式处理单元,用于在实时进行语音识别时,若接收到新的语音信号,则判断当前的中断处理模式类型;
如果当前为可打断模式,在接收到新的语音指令时,中断当前语音识别的响应;
如果当前为不可打断模式,在用户触发语音识别处理后,等指令执行结束才重新接收新的语音信号指令。
6.如权利要求5所述的系统,其特征在于,所述特征提取单元进一步用于采用线性预测编码技术对所述经过预处理后的语音信号进行特征提取,获得所述语音信号中的语音特征。
7.如权利要求1至6任一项所述的系统,其特征在于,在所述语音识别模型构建单元中,所述声学模型,为每个发音建立发音模板,声学模型是对声学、语音学、环境的变量、说话人性别、口音的差异的知识表示;所述语言模型是对一组字序列构成的知识表示,其是词与词、词与句子的映射;字典构建有语音与文字之间的映射关系。
8.如权利要求7所述的系统,其特征在于,所述语音识别模型构建单元包括:
语音数据库,存储有多种语音样本资料;
特征预提取单元,用于对语音数据库中的语音样本资料进行特征提取,获得语音样本资料所对应的语音特征;
声学模型训练单元,用于对所述语音特征训练,获得语音特征到音素的映射,形成声学模型。
9.如权利要求7所述的系统,其特征在于,所述语音识别模型构建单元包括:
文本数据库,存储有多种文本样本资料;
语言模型训练单元,用于通过对文本数据库中的文本进行训练获得词与词、词与句子之间的映射,形成语言模型。
10.如权利要求7所述的系统,所述语音识别模型构建单元进一步包括:
字典构建单元,用于根据所述声学模型以及所述语言模型,构建语音与文字之间的映射关系,形成字典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011058941.2A CN112185392A (zh) | 2020-09-30 | 2020-09-30 | 一种用于供电智能客户的语音识别处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011058941.2A CN112185392A (zh) | 2020-09-30 | 2020-09-30 | 一种用于供电智能客户的语音识别处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112185392A true CN112185392A (zh) | 2021-01-05 |
Family
ID=73945560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011058941.2A Pending CN112185392A (zh) | 2020-09-30 | 2020-09-30 | 一种用于供电智能客户的语音识别处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112185392A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470652A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的语音识别及处理方法 |
CN113920990A (zh) * | 2021-12-14 | 2022-01-11 | 国网山东省电力公司乳山市供电公司 | 一种用于供电客户的智能语音识别处理系统和方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN109509471A (zh) * | 2018-12-28 | 2019-03-22 | 浙江百应科技有限公司 | 一种基于vad算法打断智能语音机器人对话的方法 |
CN109859774A (zh) * | 2019-01-02 | 2019-06-07 | 珠海格力电器股份有限公司 | 语音设备及其端点检测灵敏度调节方法、装置和存储介质 |
CN110299152A (zh) * | 2019-06-28 | 2019-10-01 | 北京猎户星空科技有限公司 | 人机对话的输出控制方法、装置、电子设备及存储介质 |
CN110517697A (zh) * | 2019-08-20 | 2019-11-29 | 中信银行股份有限公司 | 用于交互式语音应答的提示音智能打断装置 |
CN111540349A (zh) * | 2020-03-27 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 一种语音的打断方法和装置 |
-
2020
- 2020-09-30 CN CN202011058941.2A patent/CN112185392A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN109509471A (zh) * | 2018-12-28 | 2019-03-22 | 浙江百应科技有限公司 | 一种基于vad算法打断智能语音机器人对话的方法 |
CN109859774A (zh) * | 2019-01-02 | 2019-06-07 | 珠海格力电器股份有限公司 | 语音设备及其端点检测灵敏度调节方法、装置和存储介质 |
CN110299152A (zh) * | 2019-06-28 | 2019-10-01 | 北京猎户星空科技有限公司 | 人机对话的输出控制方法、装置、电子设备及存储介质 |
CN110517697A (zh) * | 2019-08-20 | 2019-11-29 | 中信银行股份有限公司 | 用于交互式语音应答的提示音智能打断装置 |
CN111540349A (zh) * | 2020-03-27 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 一种语音的打断方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470652A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的语音识别及处理方法 |
CN113920990A (zh) * | 2021-12-14 | 2022-01-11 | 国网山东省电力公司乳山市供电公司 | 一种用于供电客户的智能语音识别处理系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
US9916826B1 (en) | Targeted detection of regions in speech processing data streams | |
WO2017084360A1 (zh) | 一种用于语音识别方法及系统 | |
CN111429899A (zh) | 基于人工智能的语音响应处理方法、装置、设备及介质 | |
CN109545197B (zh) | 语音指令的识别方法、装置和智能终端 | |
US7177810B2 (en) | Method and apparatus for performing prosody-based endpointing of a speech signal | |
CN112185392A (zh) | 一种用于供电智能客户的语音识别处理系统 | |
CN110364178B (zh) | 一种语音处理方法、装置、存储介质和电子设备 | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN112185385A (zh) | 一种用于供电领域的智能客户处理方法及系统 | |
CN110767240B (zh) | 儿童口音识别的设备控制方法、设备、存储介质及装置 | |
CN114385800A (zh) | 语音对话方法和装置 | |
CN114708856A (zh) | 一种语音处理方法及其相关设备 | |
CN111816172A (zh) | 一种语音应答方法及装置 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN111949778A (zh) | 一种基于用户情绪的智能语音对话方法、装置及电子设备 | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
CN115512687B (zh) | 一种语音断句方法、装置、存储介质及电子设备 | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP3721948B2 (ja) | 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置 | |
CN112185393A (zh) | 一种用于供电智能客户的语音识别处理方法 | |
CN112185365A (zh) | 一种供电智能客户处理方法及系统 | |
CN115331670A (zh) | 一种家用电器用离线语音遥控器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |