CN109192211A - 一种语音信号识别的方法、装置及设备 - Google Patents
一种语音信号识别的方法、装置及设备 Download PDFInfo
- Publication number
- CN109192211A CN109192211A CN201811266724.5A CN201811266724A CN109192211A CN 109192211 A CN109192211 A CN 109192211A CN 201811266724 A CN201811266724 A CN 201811266724A CN 109192211 A CN109192211 A CN 109192211A
- Authority
- CN
- China
- Prior art keywords
- useless
- voice signal
- vocabulary
- spectrum analysis
- spectrogram data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 60
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 238000004378 air conditioning Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 241001413866 Diaphone Species 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 1
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音信号识别的方法、装置及设备,该方法包括:采集输入的语音信号,对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号,删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别;本发明提供的方法,有效地解决了语音识别技术中对不包括控制指令的无用语音信号识别带来的语音识别速率低,和工作效率低的问题。
Description
技术领域
本发明涉及语音识别研究领域,尤其涉及一种语音信号识别的方法、装置及设备。
背景技术
随着计算机技术和人工智能技术的发展,让计算能听、能说,是未来人机交互的重要发展方向,其中语音成为最被看好的人机交互方式,而且利用语音技术进行人机交互比其他的交互方式有更多的优点;
目前的语音识别技术越来越智能化,越来越多的智能设备使用了语音识别技术,但是现阶段的语音识别技术的识别的准确速度慢,导致一些运用语音识别技术的设备的响应慢,且在当前的智能语音识别设备的使用过程中待机时,会识别其所在环境中的所有语音如“啊、呵呵、嘻嘻…”,这时由于解析交流声音、环境声音等无用的词汇文本,浪费了大量的工作,且给用户带来的体验较差;当智能语音设备被唤醒后,也存在很大情况是识别到不包含控制指令的语音,极大的降低了智能语音识别设备的工作效率。
发明内容
本发明提供一种语音信号识别的方法、装置及设备,解决语音识别技术中对不包括控制指令的无用语音信号识别带来的语音识别速率低,和工作效率低的问题。
为了解决上述的技术问题,本发明提供了一种语音信号识别的方法、装置及设备,具体方法包括:
依照本发明第一方面,提供一种语音信号识别的方法,该方法包括:
采集输入的语音信号;
对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
依照本发明第二方面,提供一种语音信号识别的装置,该装置包括:
语音信号采集单元,用于采集输入的语音信号;
无用语音筛选单元,用于对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
语音识别单元,删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
依照本发明第三方面,提供一种语音信号识别的设备,该设备包括处理器和存储器,其中,所述处理器用于:
采集输入的语音信号;
对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
依照本发明第四方面,提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被执行时实现本发明第一方面、第二方面和第三方面任意一项所述的内容。
本发明提供的一种语音信号识别的方法、装置及设备与现有技术相比,具有如下优点和有益效果:
由于本发明通过自学习控制过程中无效、无异议的多余无用词汇,将无用词汇对应音频的频谱图数据记录到无用词汇频谱库,在识别语音时,优先根据无用词汇频谱库识别出包含无用词汇的语音信号,将其删除,无需增加包含无用词汇的语音信号的解析过程,提高了语音信号的识别速率和响应速率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为实施例一提供的一种语音信号识别的方法的步骤示意图;
图1B为实施例一提供的一种语音信号识别的方法中筛选出无用语音信号的流程图;
图2为实施例二提供的一种语音信号识别的装置的示意图;
图3为实施例三提供的一种语音信号识别的设备的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
本发明提供一种语音信号识别的方法,步骤示意图如图1A,包括:
步骤110,采集输入的语音信号;
可选地,在实施中,用语音采集装置采集用户输入的语音信号;
上述语音采集装置可以是麦克风或其他能够采集语音的装置。
步骤120,对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
可选地,在实施中,确定触发训练过程时,采集输入的语音信号,对上述语音信号进行文字识别和频谱分析;根据上述文字识别和频谱分析的结果,将上述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库;
在上述训练过程中,将文字识别的结果与预先建立的无用词汇库中无用词汇对比确定存在无用词汇时,保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数;确定上述无用词汇的计数次数大于预设值时,将上述无用词汇的频谱图数据保存到无用词汇频谱库。
上述无用词汇可以但不限于包括如下词汇:
1)常用的短促音,如:“啊”、“天啊”、“讨厌”、“早上好”、“妈妈”、“弟弟”等;
2)语气音、环境音,如:口腔音、鼻音、沙哑音、情绪变化的哭声、哈哈声、走动时的衣服窸窣音、步伐音、吃饭时吧唧声、气息声、哈欠声等;
3)天气、设备等发出的可被解析成文字的声音;
对上述无用词汇不做过多限定,本领域的技术人员可根据实际情况将影响语音信号识别的声音记录到上述无用词汇库。
对上述无用词汇的计数次数的预设值不做过多限定,本领域的技术人员可根据实际情况设置,在本实施例中,将上述预设值设置为1,即在训练过程中,上述无用词汇出现的次数大于1时,即把上述无用词汇对应音频的频谱图数据保存到无用词汇频谱库。
上述无用词汇库中一个无用词汇可以是单个字的形式,也可以是包括多个字的词的形式,也可以是包括多个词的语句的形式。
在实施中,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比;确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时,确定上述频谱图数据片段对应的语音信号为无用语音信号;
在实施中,确定上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时,确定上述频谱图数据片段为上述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。
作为一种可选的实施方式,上述相似度阈值满足设定要求可理解为:上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值小于预设阈值时,即认为上述相似度阈值满足设定要求。
步骤130,删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
采用上述语音信号识别的方法,在对语音信号进行语义识别之前,先对上述语音信号进行频谱分析,根据上述频谱分析的结果结合训练时建立的无用词汇频谱库筛选出上述语音信号中的无用语音信号,在对上述语音信号进行文字识别之前,将上述无用语音信号直接删除,不再对上述无用语音信号进行文字识别,明显地提高了语音识别的准确率和识别的速率。
作为一种可选的实施方式,该方法用于空调、电视等智能语音设备时,包括:采集输入的语音信号;对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
作为一种可选的实施方式,该方法用于服务器时,包括:接收设备端上传的语音信号;对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
可选地,服务器可以将文字识别的结果发送给设备。
以下给出一个具体的筛选出无用语音信号的流程图,参见图1B,包括:
步骤1101,采集输入的语音信号;
步骤1102,对上述文字识别和频谱分析;
步骤1103,判断文字识别的结果中是否确定存在无用词汇,确定存在无用词汇时,进入步骤1104,否则进入步骤1101;
步骤1104,保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数;
步骤1105,判断上述无用词汇的计数次数是否大于预设值时,若大于,进入步骤1106,否则,进入步骤1101;
步骤1106,将上述无用词汇的频谱图数据保存到无用词汇频谱库,并进入步骤1107;
步骤1107,判断是否指示训练结束,若结束进入步骤1108,否则进入步骤1101;
对指示训练结束的形式不做过多限定,可以是语音控制命令,也可以是设备上的一个按钮触发指示训练结束,本领域的技术人员可根据实际情况设置;
步骤1108,结束训练。
在使用上述方法进行语音识别的具体过程,如上述步骤110,步骤120和步骤130,对重复之处不做过多叙述。
实施例二:
在本实施例中,提供一种语音信号识别的装置,装置图如图2,包括:
语音信号采集单元201,用于采集输入的语音信号;
无用语音筛选单元202,用于对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
语音识别单元203,删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
上述无用语音筛选单元,用于确定触发训练过程时,采集输入的语音信号,对上述语音信号进行文字识别和频谱分析;根据上述文字识别和频谱分析的结果,将上述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库。
上述无用语音筛选单元,用于将文字识别的结果与无用词汇库中无用词汇对比确定存在无用词汇时,保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数;确定上述无用词汇的计数次数大于预设值时,将上述无用词汇的频谱图数据保存到无用词汇频谱库。
上述无用语音筛选单元,用于将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比;确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时,确定上述频谱图数据片段对应的语音信号为无用语音信号。
上述无用语音筛选单元,用于确定上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时,确定上述频谱图数据片段为上述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。
实施例三:
本发明提供一种语音信号识别的设备,该设备包括处理器301和存储器302,如图3所示,其中,上述处理器用于:
采集输入的语音信号;
对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
上述处理器具体用于,确定触发训练过程时,采集输入的语音信号,对上述语音信号进行文字识别和频谱分析;根据上述文字识别和频谱分析的结果,将上述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库。
上述处理器具体用于,将文字识别的结果与无用词汇库中无用词汇对比确定存在无用词汇时,保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数;确定上述无用词汇的计数次数大于预设值时,将上述无用词汇的频谱图数据保存到无用词汇频谱库。
上述处理器具体用于,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比;确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时,确定上述频谱图数据片段对应的语音信号为无用语音信号。
上述处理器具体用于,确定上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时,确定上述频谱图数据片段为上述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。
作为一种可选的实施方式,上述设备为空调时,上述处理器具体用于,采集输入的语音信号;对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
作为一种可选的实施方式,上述设备为服务器时,上述处理器具体用于,接收设备端上传的语音信号;对上述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;删除上述语音信号中的上述无用语音信号,并对其余的语音信号进行文字识别。
实施例四:
本实施例提供一种计算机存储介质,上述计算机存储介质存储有计算机程序,该计算机程序被执行时实现本发明实施例一、实施例二和实施例三任意一项所述的内容。
应当说明的是,本发明的各个实施例的技术方案可以相互结合,但是必须是以本领域的技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当人认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音信号识别的方法,其特征在于,包括:
采集输入的语音信号;
对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
2.如权利要求1所述的方法,其特征在于,预先建立的无用词汇频谱库,包括:
确定触发训练过程时,采集输入的语音信号,对所述语音信号进行文字识别和频谱分析;
根据所述文字识别和频谱分析的结果,将所述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库。
3.如权利要求2所述的方法,其特征在于,根据所述文字识别和频谱分析的结果,将所述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库,包括:
将文字识别的结果与无用词汇库中无用词汇对比确定存在无用词汇时,保存所述无用词汇对应音频的频谱图数据并对所述无用词汇的出现次数计数;
确定所述无用词汇的计数次数大于预设值时,将所述无用词汇的频谱图数据保存到无用词汇频谱库。
4.如权利要求1所述的方法,其特征在于,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号,包括:
将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比;
确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时,确定所述频谱图数据片段对应的语音信号为无用语音信号。
5.根据权利要求1所述的方法,其特征在于,确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段,包括:
确定所述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时,确定所述频谱图数据片段为所述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。
6.根据权利要求1所述的方法,其特征在于,该方法应用于空调,包括:
采集输入的语音信号;
对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
7.根据权利要求1所述的方法,其特征在于,该方法应用于服务器,包括:
接收设备端上传的语音信号;
对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
8.一种语音信号识别的装置,其特征在于,包括:
语音信号采集单元,用于采集输入的语音信号;
无用语音筛选单元,用于对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
语音识别单元,删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
9.一种语音信号识别的设备,其特征在于,该设备包括处理器和存储器,其中,所述处理器用于:
采集输入的语音信号;
对所述语音信号进行频谱分析,将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比,筛选出无用语音信号;
删除所述语音信号中的所述无用语音信号,并对其余的语音信号进行文字识别。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被执行时实现权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811266724.5A CN109192211A (zh) | 2018-10-29 | 2018-10-29 | 一种语音信号识别的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811266724.5A CN109192211A (zh) | 2018-10-29 | 2018-10-29 | 一种语音信号识别的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109192211A true CN109192211A (zh) | 2019-01-11 |
Family
ID=64944125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811266724.5A Pending CN109192211A (zh) | 2018-10-29 | 2018-10-29 | 一种语音信号识别的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109192211A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930986A (zh) * | 2019-12-06 | 2020-03-27 | 北京明略软件系统有限公司 | 语音处理方法、装置、电子设备及存储介质 |
WO2021012222A1 (en) * | 2019-07-24 | 2021-01-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence system for processing patient descriptions |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645064A (zh) * | 2008-12-16 | 2010-02-10 | 中国科学院声学研究所 | 一种浅层自然口语理解系统及方法 |
CN103745722A (zh) * | 2014-02-10 | 2014-04-23 | 上海金牌软件开发有限公司 | 一种语音交互智能家居系统及语音交互方法 |
CN103956162A (zh) * | 2014-04-04 | 2014-07-30 | 上海元趣信息技术有限公司 | 针对儿童的语音识别方法及装置 |
US20170110125A1 (en) * | 2015-10-14 | 2017-04-20 | Alibaba Group Holding Limited | Method and apparatus for initiating an operation using voice data |
CN106875936A (zh) * | 2017-04-18 | 2017-06-20 | 广州视源电子科技股份有限公司 | 语音识别方法及装置 |
CN107481718A (zh) * | 2017-09-20 | 2017-12-15 | 广东欧珀移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
-
2018
- 2018-10-29 CN CN201811266724.5A patent/CN109192211A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645064A (zh) * | 2008-12-16 | 2010-02-10 | 中国科学院声学研究所 | 一种浅层自然口语理解系统及方法 |
CN103745722A (zh) * | 2014-02-10 | 2014-04-23 | 上海金牌软件开发有限公司 | 一种语音交互智能家居系统及语音交互方法 |
CN103956162A (zh) * | 2014-04-04 | 2014-07-30 | 上海元趣信息技术有限公司 | 针对儿童的语音识别方法及装置 |
US20170110125A1 (en) * | 2015-10-14 | 2017-04-20 | Alibaba Group Holding Limited | Method and apparatus for initiating an operation using voice data |
CN106875936A (zh) * | 2017-04-18 | 2017-06-20 | 广州视源电子科技股份有限公司 | 语音识别方法及装置 |
CN107481718A (zh) * | 2017-09-20 | 2017-12-15 | 广东欧珀移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021012222A1 (en) * | 2019-07-24 | 2021-01-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence system for processing patient descriptions |
CN110930986A (zh) * | 2019-12-06 | 2020-03-27 | 北京明略软件系统有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN110930986B (zh) * | 2019-12-06 | 2022-05-17 | 北京明略软件系统有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10522136B2 (en) | Method and device for training acoustic model, computer device and storage medium | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN108281138B (zh) | 年龄判别模型训练及智能语音交互方法、设备及存储介质 | |
CN106331893B (zh) | 实时字幕显示方法及系统 | |
CN103021409B (zh) | 一种语音启动拍照系统 | |
CN108986826A (zh) | 自动生成会议记录的方法、电子装置及可读存储介质 | |
CN107039034B (zh) | 一种韵律预测方法及系统 | |
WO2017084197A1 (zh) | 一种基于情感识别的智能家居控制方法及其系统 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN105427858A (zh) | 实现语音自动分类的方法及系统 | |
CN103456314A (zh) | 一种情感识别方法以及装置 | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN111341305A (zh) | 一种音频数据标注方法、装置及系统 | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
Pápay et al. | Hucomtech multimodal corpus annotation | |
JP6915637B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110991175B (zh) | 多模态下的文本生成方法、系统、设备及存储介质 | |
CN110853621B (zh) | 语音顺滑方法、装置、电子设备及计算机存储介质 | |
CN108766431A (zh) | 一种基于语音识别的自动唤醒方法及电子设备 | |
CN109192211A (zh) | 一种语音信号识别的方法、装置及设备 | |
CN105869622B (zh) | 中文热词检测方法和装置 | |
Wagner et al. | Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora | |
CN114996506B (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
CN116665674A (zh) | 基于语音和预训练模型的互联网智能化招聘发布方法 | |
CN109961789A (zh) | 一种基于视频及语音交互服务设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |