CN110517692A - 热词语音识别方法和装置 - Google Patents
热词语音识别方法和装置 Download PDFInfo
- Publication number
- CN110517692A CN110517692A CN201910818462.7A CN201910818462A CN110517692A CN 110517692 A CN110517692 A CN 110517692A CN 201910818462 A CN201910818462 A CN 201910818462A CN 110517692 A CN110517692 A CN 110517692A
- Authority
- CN
- China
- Prior art keywords
- hot word
- user
- vocabulary
- request
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004044 response Effects 0.000 claims abstract description 34
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 238000007792 addition Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000002304 perfume Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开热词语音识别方法和装置,其中,一种热词语音识别方法,用于用户终端,包括:响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;将所述语音识别请求发送至云服务器进行识别。本申请的方法和装置提供的方案通过采集用户配置的热词形成热词词表,之后与采集的用户的语音一起形成语音识别请求发送至云服务器,可以使得云服务器更倾向于识别出用户配置的热词,从而极大地提高识别的准确度,提高用户的满意度。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及热词语音识别方法和装置。
背景技术
相关技术中,目前市面上的云端语音识别技术大部分还不能支持热词识别,只能做基本的通用语音识别,做不到用户级定制;某些语音识别虽然支持个性化语音识别,用户上传个性化词库之后,云端算法需要学习5-10s才能生效,做不到实时生效。
通用的语音识别技术,由于数据稀疏的问题,在训练通用语言模型时受到训练语料的限制,不可能覆盖到所有的用户说法,如涉及到专有领域、专有名词或同音字词的情况下,通用的语音识别技术只能给出发音相近的概率最大的通用说法,从而给出错误的识别结果。
针对上述识别错误问题,在通用识别的基础上,让用户提供额外的个性化词库,如用户期望识别出来的专有名词,对通用识别结果进行后处理,采用匹配等方式将错误的识别结果用用户提供的个性化词库进行替换,从而给出用户期望的识别结果。
发明人在实现本申请的过程中发现,上述方案至少存在以下缺陷:
通用语音识别技术,在个性化的识别场景下会产生较多的识别错误,给用户带来识别率低下的错觉,在语音交互的过程中增加用户的操作成本;目前市面上的支持热词识别的较少,部分支持用户上传词库的解决方案,一方面不能做到即时生效,失去了热词识别的意义,另一方面基于简单的后处理的匹配方式修改识别结果会干扰到正常的识别效果。
发明内容
本发明实施例提供一种热词语音识别方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种热词语音识别方法,用于用户终端,包括:响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;将所述语音识别请求发送至云服务器进行识别。
第二方面,本发明实施例提供一种热词语音识别方法,用于云服务器,包括:响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;判断所述热词词表是否为空;若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;使用所述混合语音识别网络对所述原始识别请求进行识别。
第三方面,本发明实施例提供一种热词语音识别装置,用于用户终端,包括:热词配置模块,配置为响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;合并模块,配置为响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;发送模块,配置为将所述语音识别请求发送至云服务器进行识别。
第四方面,本发明实施例提供一种热词语音识别装置,用于云服务器,包括:分解模块,配置为响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;判断模块,配置为判断所述热词词表是否为空;构建模块,配置为若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;连接混合模块,配置为在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;识别模块,配置为使用所述混合语音识别网络对所述原始识别请求进行识别。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的热词语音识别方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的热词语音识别方法的步骤。
本申请的方法和装置提供的方案通过采集用户配置的热词形成热词词表,之后与采集的用户的语音一起形成语音识别请求发送至云服务器,可以使得云服务器更倾向于识别出用户配置的热词,从而极大地提高识别的准确度,提高用户的满意度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种热词语音识别方法的流程图;
图2为本发明一实施例提供的另一种热词语音识别方法的流程图;
图3为本发明一实施例提供一种热词语音识别方法的一个具体实施例的流程图;
图4为本发明一实施例提供的与图3中的具体实施例对应的热词网络示意图;
图5为本发明一实施例提供的与图3中的具体实施例对应的热词网络与通用网络组合示意图;
图6为本发明一实施例提供的一种热词语音识别装置的框图;
图7为本发明一实施例提供的另一种热词语音识别装置的框图;
图8是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的热词语音识别方法一实施例的流程图,用于用户终端。本实施例的热词语音识别方法可以适用于具备语音识别能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音识别能力的智能终端等。
如图1所示,在步骤101中,响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;
在步骤102中,响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;
在步骤103中,将所述语音识别请求发送至云服务器进行识别。
在本实施例中,对于步骤101,热词语音识别装置响应于用户配置的至少一个热词,将该热词填入预设词表中以形成热词词表,该热词词表随着用户的配置实时更新。之后,对于步骤102,热词语音识别装置接收到用户的原始识别请求后,会将该热词词表并入到该原始识别请求中形成可以发送给云服务器的语音识别请求。最后,对于步骤103,将该语音识别请求发送至云服务器进行识别。
例如,用户通过在用户终端的配置,往热词词表中添加了新的热词“雨女无瓜”“真香”等热词,之后用户终端采集到用户的语音时,会将相应的热词词表与语音组合成语音识别请求发送至云服务器,然后云服务器就更倾向于向类似发音的语音识别成热词表中存在的词,从而极大地提升用户的使用体验,也能有效地提升识别的准确度。
本实施例的方法通过采集用户配置的热词形成热词词表,之后与采集的用户的语音一起形成语音识别请求发送至云服务器,可以使得云服务器更倾向于识别出用户配置的热词,从而极大地提高识别的准确度,提高用户的满意度。
在一些可选的实施例中,上述响应于用户配置的至少一个热词,生成与所述至少一个热词相关的热词词表包括:响应于用户的热词配置请求,向所述用户展示热词配置界面;基于所述热词配置界面获取所述用户配置的至少一个热词;整理获取的所述至少一个热词进行形成与所述至少一个热词相关的热词词表。
为了使得用户能够更好地配置热词,在用户终端上设置相应的热词配置界面采集用户配置的热词,进而形成相关的热词词表用于在采集到用户的原始语音识别请求时,将热词词表并入该请求中发给云服务器,从而可以使得云服务器能对用户的语音更好地识别。在另一个示例中,也可以将热词词表发送给云服务器,从而云服务器在收到该用户的语音识别请求时,自动关联相应的热词词表进行后续的处理,但是该方案对云服务器的要求较高,云服务器上如果要存很多用户的热词词表的话,将会占据很多存储空间,进而可能会影响到云服务器的计算能力,综合考虑还是之前的方式更加可行,本申请在此没有限制。
在一些可选的实施例中,上述向所述用户展示热词配置界面包括:响应于用户的热词配置请求,查询用户的热词配置历史记录;若所述用户的热词配置历史记录为空,则向所述用户展示空的热词配置界面;若所述热词配置历史记录不为空,则向所述用户展示包含历史配置热词的热词配置界面,其中,所述包含历史配置热词的热词配置界面中包括对历史热词的增删改控制控件以供用户对所述历史热词进行增删改。从而用户不仅可以向热词词表中增加新的热词,也能及时地对表中存在的热词进行删除和修改,从而能够将一些过时的词及时删除,减轻云服务器的识别负担,也能使得用户的可操作空间更大,极大地提升用户体验。
在一些可选的实施例中,当用户未配置任何热词时,热词词表为空。从而可以始终维持有用户词表,随时接收用户的热词。
请参考图2,其示出了本申请的热词语音识别方法一实施例的流程图,用于云服务器。
如图2所示,在步骤201中,响应于接收到用户终端的语音识别请求,将语音识别请求分解为原始识别请求和热词词表;
在步骤202中,判断热词词表是否为空;
在步骤203中,若热词词表不为空,实时构建与热词词表相关的热词网络;
在步骤204中,在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;
在步骤205中,使用混合语音识别网络对原始识别请求进行识别。
在本实施例中,对于步骤201,用于云服务器的热词语音识别装置在接收到用户终端的语音识别请求之后,会将语音识别请求分解为原始识别请求和热词词表,其中,热词词表用于存储用户配置的热词。之后,对于步骤202,热词语音识别装置判断该热词词表是否为空,即判断该热词词表中是否包含用户配置的热词。然后,对于步骤203,若该热词词表不为空,则说明用户配置了热词,此时需要实时构建与热词词表相关的热词网络,用于识别该热词词表中的热词。
之后,对于步骤204,热词语音识别装置在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络。最后,对于步骤205,使用该混合语音识别网络对原始识别请求进行识别。从而获得是热词识别网络的前后可以获取通用语音识别网络识别出来的上下文信息,从而一方面当遇到与热词词表中读音相同的语音时优先识别为相应的热词,一方面也能使得识别准确度更高。
本实施例的方法通过在收到用户终端发送的语音识别请求之后,先对其进行分解,分解出用户配置的热词词表,之后,基于该热词词表实时构件热词网络用于识别该热词,之后在热词网络的前后分别连接通用语音识别网络形成混合语音识别网络。从而,一方面能够很好地识别热词,另一方面由于有通用网络的上下文信息也不易误识别成热词,因此混合后的网络可以获得更高的识别准确度。
在一些可选的实施例中,在判断热词词表是否为空之后,上述方法还包括:若热词词表为空,使用通用语音识别网络对原始识别请求进行识别。从而对于热词词表为空的情况,无需加入和拼接热词网络,只需采用通用语音识别网络进行识别即可,极大地减轻云服务器的负担。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人对现有技术进行仔细研究后发现,现有技术方案的缺陷主要是由于以下原因导致的:
通用语音识别技术,在个性化的识别场景下会产生较多的识别错误,给用户带来识别率低下的错觉,因此会在语音交互的过程中增加用户的操作成本。
而部分支持用户上传词库的解决方案,一方面不能做到即时生效,失去了热词识别的意义,另一方面基于简单的后处理的匹配方式修改识别结果同时也会干扰到正常的识别效果。
本领域技术人员为了解决上述缺陷,可能会采用以下方案:
个性化的热词识别本就是语音识别中的一个技术难题,由于训练语言模型需要大量的语料及时间,但是用户的热词一般比较少,不大可能做到使用用户的热词词库实时的训练一个语言模型,所以一般都是采用后处理的方式,如同音字词匹配的方式对识别结果进行硬替换。
本申请实施例提出了一种可实时生效的热词语音识别系统,本系统的特点是可实时生成用户上传的热词网络,通过调整热词网络与通用语言模型网络之间的结构关系,使语音识别解码器在解码的过程让热词网络参与解码,这样的结构通用语言模型网络可以提供热词的上下文信息,而不是在通用识别结果的基础上对解码结果做后处理替换的方式实现热词识别。
请参考图3,其示出了本申请的方案的一个具体实施例的流程图,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
如图3所示,详细的步骤如下:
1、如图中所示,每一个送到云端的识别请求都带有一个热词词表,该词表由用户实时配置,根据该词表是否有内容判断该条请求是否需要做热词识别;
2、如果请求的热词词表为空,则没有热词识别的需求,和一般的是识别流程一致,无需任何处理,解码器直接使用内置通用网络解码,给出识别结果;
3、如果请求的热词词表不空,则需要走特殊的热词识别流程:
a)实时构建热词网络,如上图4所示,考虑到效率问题,热词网络的构建可直接使用简单的gram网络;
b)在构建出的热词网络首尾连接上通用的识别网络,注意构建的热词网络需要有从start节点到end节点的eps(epsilon,表示空)边,这样才能够保证热词的识别不影响通用的识别;
4、最终构建出的网络结构如图5所示,云端解码器使用该网络进行识别,如果请求音频中有设置的热词则会识别出该热词,且能识别出正确的上下文,如果音频中没有热词,则热词网络会被解码器跳过识别出通用的识别结果。
申请人在实现本申请的过程中还采用过如下备选方案:去除本方案的方案外,还考虑过对热词词表进行注音,然后按拼音从识别结果中查找匹配的项,使用热词替换掉查找到的项达到热词识别的目的,优点:原理简单易实现,速度快;缺点:类似暴力匹配,没有考虑上下文信息,用户体验差,权衡下还是本申请实施例的方案要优。
虽然目前的云端语音识别各个厂家都号称识别率能达到96-97%,但是这种指标只是通用识别的情况下,在涉及到个性化识别时,识别率都很低,而个性化识别在真实的用户使用场景中又占有很大的比例,就导致用户的正式感受和厂家宣传的识别率有较大的差异,用户体验很差。
上述实施例至少能够实现如下技术效果:本申请实施例提供的方案能很好地解决个性化的识别的问题,还能够很大程度上切实改善用户体验,提高用户使用语音交互的频率。
请参考图6,其示出了本发明一实施例提供的用于用户终端的热词语音识别装置的框图。
如图6所示,热词语音识别装置600,用于用户终端,包括热词配置模块610、合并模块620和发送模块630。
其中,热词配置模块610,配置为响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;合并模块620,配置为响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;发送模块630,配置为将所述语音识别请求发送至云服务器进行识别。
请参考图7,其示出了本申请的用于云服务器的热词语音识别装置的一实施例的框图。
如图7所示,热词语音识别装置700包括分解模块710、判断模块720、构建模块730、连接混合模块740和识别模块750。
其中,分解模块710,配置为响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;判断模块720,配置为判断所述热词词表是否为空;构建模块730,配置为若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;连接混合模块740,配置为在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;识别模块750,配置为使用所述混合语音识别网络对所述原始识别请求进行识别。
应当理解,图6和图7中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6和图7中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如分解模块可以描述为响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如分解模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的热词语音识别方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;
响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;
将所述语音识别请求发送至云服务器进行识别。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;
判断所述热词词表是否为空;
若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;
在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;
使用所述混合语音识别网络对所述原始识别请求进行识别。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据热词语音识别装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至热词语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项热词语音识别方法。
图8是本发明实施例提供的电子设备的结构示意图,如图8所示,该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理器810为例。热词语音识别方法的设备还可以包括:输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例热词语音识别方法。输入装置830可接收输入的数字或字符信息,以及产生与热词语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于热词语音识别装置中,用于用户终端,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;
响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;
将所述语音识别请求发送至云服务器进行识别。
作为一种实施方式,上述电子设备应用于热词语音识别装置中,用于云服务器,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;
判断所述热词词表是否为空;
若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;
在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;
使用所述混合语音识别网络对所述原始识别请求进行识别。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种热词语音识别方法,用于用户终端,包括:
响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;
响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;
将所述语音识别请求发送至云服务器进行识别。
2.根据权利要求1所述的方法,其中,所述响应于用户配置的至少一个热词,生成与所述至少一个热词相关的热词词表包括:
响应于用户的热词配置请求,向所述用户展示热词配置界面;
基于所述热词配置界面获取所述用户配置的至少一个热词;
整理获取的所述至少一个热词进行形成与所述至少一个热词相关的热词词表。
3.根据权利要求2所述的方法,其中,所述向所述用户展示热词配置界面包括:
响应于用户的热词配置请求,查询用户的热词配置历史记录;
若所述用户的热词配置历史记录为空,则向所述用户展示空的热词配置界面;
若所述热词配置历史记录不为空,则向所述用户展示包含历史配置热词的热词配置界面,其中,所述包含历史配置热词的热词配置界面中包括对历史热词的增删改控制控件以供用户对所述历史热词进行增删改。
4.根据权利要求1-3中任一项所述的方法,其中,当用户未配置任何热词时,所述热词词表为空。
5.一种热词语音识别方法,用于云服务器,包括:
响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;
判断所述热词词表是否为空;
若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;
在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;
使用所述混合语音识别网络对所述原始识别请求进行识别。
6.根据权利要求5所述的方法,其中,在所述判断所述热词词表是否为空之后,所述方法还包括:
若所述热词词表为空,使用所述通用语音识别网络对所述原始识别请求进行识别。
7.一种热词语音识别装置,用于用户终端,包括:
热词配置模块,配置为响应于用户配置的至少一个热词,将所述至少一个热词填入预设词表中以形成热词词表;
合并模块,配置为响应于接收到用户的原始识别请求,将所述热词词表并入所述原始识别请求中形成语音识别请求;
发送模块,配置为将所述语音识别请求发送至云服务器进行识别。
8.一种热词语音识别装置,用于云服务器,包括:
分解模块,配置为响应于接收到用户终端的语音识别请求,将所述语音识别请求分解为原始识别请求和热词词表;
判断模块,配置为判断所述热词词表是否为空;
构建模块,配置为若所述热词词表不为空,实时构建与所述热词词表相关的热词网络;
连接混合模块,配置为在构建出的热词网络的首尾分别连接上通用语音识别网络形成混合语音识别网络;
识别模块,配置为使用所述混合语音识别网络对所述原始识别请求进行识别。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818462.7A CN110517692A (zh) | 2019-08-30 | 2019-08-30 | 热词语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818462.7A CN110517692A (zh) | 2019-08-30 | 2019-08-30 | 热词语音识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110517692A true CN110517692A (zh) | 2019-11-29 |
Family
ID=68629845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818462.7A Pending CN110517692A (zh) | 2019-08-30 | 2019-08-30 | 热词语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517692A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583909A (zh) * | 2020-05-18 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113053359A (zh) * | 2019-12-27 | 2021-06-29 | 深圳Tcl数字技术有限公司 | 一种语音识别方法、智能终端及存储介质 |
CN113178194A (zh) * | 2020-01-08 | 2021-07-27 | 上海依图信息技术有限公司 | 一种交互式热词更新的语音识别方法与系统 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN113470619A (zh) * | 2021-06-30 | 2021-10-01 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN115497463A (zh) * | 2022-09-15 | 2022-12-20 | 思必驰科技股份有限公司 | 用于语音识别的热词替换方法、电子设备和存储介质 |
WO2024109033A1 (zh) * | 2022-11-24 | 2024-05-30 | 华为云计算技术有限公司 | 语音识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
WO2018038888A1 (en) * | 2016-08-24 | 2018-03-01 | Google Llc | Hotword detection on multiple devices |
CN108288467A (zh) * | 2017-06-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及语音识别引擎 |
CN109408815A (zh) * | 2018-10-09 | 2019-03-01 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的词库管理方法和系统 |
CN109523991A (zh) * | 2017-09-15 | 2019-03-26 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
-
2019
- 2019-08-30 CN CN201910818462.7A patent/CN110517692A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
WO2018038888A1 (en) * | 2016-08-24 | 2018-03-01 | Google Llc | Hotword detection on multiple devices |
CN108288467A (zh) * | 2017-06-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及语音识别引擎 |
CN109523991A (zh) * | 2017-09-15 | 2019-03-26 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
CN109408815A (zh) * | 2018-10-09 | 2019-03-01 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的词库管理方法和系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053359A (zh) * | 2019-12-27 | 2021-06-29 | 深圳Tcl数字技术有限公司 | 一种语音识别方法、智能终端及存储介质 |
CN113178194A (zh) * | 2020-01-08 | 2021-07-27 | 上海依图信息技术有限公司 | 一种交互式热词更新的语音识别方法与系统 |
CN113178194B (zh) * | 2020-01-08 | 2024-03-22 | 上海依图信息技术有限公司 | 一种交互式热词更新的语音识别方法与系统 |
CN111583909A (zh) * | 2020-05-18 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111583909B (zh) * | 2020-05-18 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113470619A (zh) * | 2021-06-30 | 2021-10-01 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113470619B (zh) * | 2021-06-30 | 2023-08-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
CN115497463A (zh) * | 2022-09-15 | 2022-12-20 | 思必驰科技股份有限公司 | 用于语音识别的热词替换方法、电子设备和存储介质 |
CN115497463B (zh) * | 2022-09-15 | 2024-08-16 | 思必驰科技股份有限公司 | 用于语音识别的热词替换方法、电子设备和存储介质 |
WO2024109033A1 (zh) * | 2022-11-24 | 2024-05-30 | 华为云计算技术有限公司 | 语音识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517692A (zh) | 热词语音识别方法和装置 | |
CN109147784B (zh) | 语音交互方法、设备以及存储介质 | |
CN108984157B (zh) | 用于语音对话平台的技能配置和调用方法及系统 | |
CN109951743A (zh) | 弹幕信息处理方法、系统及计算机设备 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN106796496A (zh) | 显示设备及其操作方法 | |
CN108962233A (zh) | 用于语音对话平台的语音对话处理方法及系统 | |
US20220076674A1 (en) | Cross-device voiceprint recognition | |
KR20160108348A (ko) | 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법 | |
CN107040452B (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
CN109460461A (zh) | 基于文本相似度模型的文本匹配方法及系统 | |
CN105551488A (zh) | 语音控制方法及系统 | |
US20140028780A1 (en) | Producing content to provide a conversational video experience | |
CN108877804A (zh) | 语音服务方法、系统、电子设备及存储介质 | |
CN108920128A (zh) | 演示文稿的操作方法及系统 | |
CN110223692A (zh) | 用于语音对话平台跨技能的多轮对话方法及系统 | |
CN109684805A (zh) | 用于语音对话平台的语音技能分享方法及系统 | |
CN110136713A (zh) | 用户在多模态交互中的对话方法及系统 | |
CN111831795A (zh) | 多轮对话处理方法、装置、电子设备及存储介质 | |
CN110349569A (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
CN109686370A (zh) | 基于语音控制进行斗地主游戏的方法及装置 | |
CN113938697B (zh) | 直播间内的虚拟发言方法、装置及计算机设备 | |
CN116737883A (zh) | 人机交互方法、装置、设备及存储介质 | |
CN108986804A (zh) | 人机交互处理方法、装置、用户终端、处理服务器及系统 | |
CN111105803A (zh) | 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191129 |
|
RJ01 | Rejection of invention patent application after publication |