CN113436614A - 语音识别方法、装置、设备、系统及存储介质 - Google Patents

语音识别方法、装置、设备、系统及存储介质 Download PDF

Info

Publication number
CN113436614A
CN113436614A CN202110752421.XA CN202110752421A CN113436614A CN 113436614 A CN113436614 A CN 113436614A CN 202110752421 A CN202110752421 A CN 202110752421A CN 113436614 A CN113436614 A CN 113436614A
Authority
CN
China
Prior art keywords
user
hot
voice
word
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110752421.XA
Other languages
English (en)
Other versions
CN113436614B (zh
Inventor
鲍晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202110752421.XA priority Critical patent/CN113436614B/zh
Publication of CN113436614A publication Critical patent/CN113436614A/zh
Application granted granted Critical
Publication of CN113436614B publication Critical patent/CN113436614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提出一种语音识别方法、装置、设备、系统及存储介质,该方法包括:向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;获取所述服务器发送的对所述待识别语音的解码识别结果;根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。上述方案能够实现个性化用户语音识别,并且能够保证用户个性化信息的安全。

Description

语音识别方法、装置、设备、系统及存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备、系统及存储介质。
背景技术
语音识别是人工智能领域的常见处理内容,比如在人机交互、语音转文字等场景中,语音识别是不可或缺的处理内容。
目前,通用的语音识别方案可以解决大部分的语音识别需求。但是不同用户的年龄、职业、社交范围、常用业务、受教育程度等等各方面都存在差异,因此不同用户的语音具有其个性化特点,而通用的语音识别方案无法兼顾用户的个性化信息,从而无法实现对用户语音的个性化识别。
为了能够实现个性化用户语音识别,业内提出在终端进行语音识别时,借助用户热词进行用户语音识别,从而实现在语音识别时兼顾用户个性化信息。但是终端处理性能较弱,结合用户热词的语音识别的效率太低,无法达到用户满意的个性化语音识别效果。
目前业内常用的个性化语音识别解决方案是:在语音识别服务器中存储用户热词,当用户终端产生语音识别需求时,将待识别语音发送至语音识别服务器,由语音识别服务器根据用户热词对待识别语音进行语音识别,并将语音识别结果反馈给用户终端,从而实现个性化用户语音识别。但是将用户热词存储在服务器中,很容易使得不法分子通过网络从服务器中窃取用户个性化信息,从而造成用户隐私泄露,酿成用户信息安全事故。
发明内容
基于上述技术现状,本申请提出一种语音识别方法、装置、设备、系统及存储介质,能够实现个性化语音识别。
为了达到上述目的,本申请提出如下技术方案:
一种语音识别方法,包括:
向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;
获取所述服务器发送的对所述待识别语音的解码识别结果;
根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
可选的,所述热词库的构建过程包括:
获取用户热词;
从获取的用户热词中滤除异常热词和冗余热词,由剩余的用户热词构成热词库。
可选的,所述获取用户热词,包括:
获取用户输入的热词;
从用户历史输入文本中提取热词;
根据从用户历史输入文本中提取得到的热词构建用户特征,并利用构建的用户特征推理得到与该用户对应的热词。
可选的,从获取的用户热词中滤除冗余热词,包括:
对应获取的用户热词中的每个热词,分别进行如下处理:
获取该热词的同音词;
通过语言模型对该热词以及该热词的各个同音词对应的语音进行识别,分别得到该热词的语言模型得分,以及该热词的各个同音词的语言模型得分;
如果该热词的每个同音词的语言模型得分均低于该热词的语言模型得分,则将该热词确定为冗余热词;
从获取的用户热词中删除该冗余热词。
可选的,所述方法还包括:
对热词库中的易错热词进行标记,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值。
可选的,所述根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果,包括:
利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果。
可选的,所述利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果,包括:
将所述解码识别结果中的词与预先构建的热词库中的热词进行匹配;
如果在热词库中存在与所述解码识别结果中的词匹配的热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
将对所述解码识别结果进行上述热词匹配和替换后的结果,确定为所述待识别语音的语音识别结果。
可选的,如果在热词库中存在与所述解码识别结果中的词匹配的热词,所述方法还包括:
判断与所述解码识别结果中的词匹配的热词是否为易错热词,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值;
如果不是易错热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
如果是易错热词,则将与所述解码识别结果中的该词匹配的该易错热词,作为与所述解码识别结果中的该词对应的候选词,并在所述待识别语音的语音识别结果中展示该候选词。
可选的,所述语音识别请求中还包括用户特征,所述用户特征根据与发出所述待识别语音的用户对应的热词的特征构建得到;
所述获取所述服务器发送的对所述待识别语音的解码识别结果,包括:
获取所述服务器发送的、根据所述用户特征而得到的对所述待识别语音的解码识别结果。
可选的,所述用户特征通过对发出所述待识别语音的用户对应的热词进行加权平均计算得到,其中,热词的权重为热词在用户交互中的使用频率。
一种语音识别方法,包括:
接收用户终端发送的语音识别请求,所述语音识别请求中包括待识别语音;
对所述待识别语音进行解码识别,得到解码识别结果;
将所述解码识别结果发送给所述用户终端,以使所述用户终端根据所述解码识别结果以及预先构建的热词库,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
可选的,所述语音识别请求中还包括用户特征,所述用户特征由所述用户终端根据与发出所述待识别语音的用户对应的热词库中的热词的特征构建得到;
所述对所述待识别语音进行解码识别,得到解码识别结果,包括:
根据所述用户特征,对所述待识别语音进行解码识别,得到解码识别结果。
可选的,所述对所述待识别语音进行解码识别,得到解码识别结果,包括:
利用语音识别引擎对所述待识别语音进行解码识别计算,得到解码识别结果。
一种语音识别装置,包括:
请求发送单元,用于向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;
数据获取单元,用于获取所述服务器发送的对所述待识别语音的解码识别结果;
数据处理单元,用于根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
一种语音识别装置,包括:
请求接收单元,用于接收用户终端发送的语音识别请求,所述语音识别请求中包括待识别语音;
解码识别单元,用于对所述待识别语音进行解码识别,得到解码识别结果;
数据发送单元,用于将所述解码识别结果发送给所述用户终端,以使所述用户终端根据所述解码识别结果以及预先构建的热词库,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
一种语音识别设备,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现上述的语音识别方法。
一种存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器运行时,实现上述的语音识别方法。
一种语音识别系统,包括:
至少一个用户终端,以及服务器,所述至少一个用户终端分别与所述服务器连接;
所述用户终端用于:向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;获取所述服务器发送的对所述待识别语音的解码识别结果;根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词;
所述服务器用于:接收用户终端发送的语音识别请求;对所述待识别语音进行解码识别,得到解码识别结果;将所述解码识别结果发送给所述用户终端。
本申请提出的语音识别方法,通过用户终端与服务器进行交互,实现由服务器对待识别语音进行解码识别,得到解码识别结果,然后用户终端利用本地存储的热词库以及服务器发送的解码识别结果,确定对待识别语音的语音识别结果。上述方案在确定待识别语音的语音识别结果时,应用了与用户对应的热词,即参考了用户个性化信息,因此能够从待识别语音中识别用户个性化语音内容,从而实现个性化语音识别。
进一步的,本申请实施例提出的语音识别方法,采用服务器与用户终端交互的分布式语音识别方案,由服务器对待识别语音进行解码识别,借助服务器的强大数据处理能力,可以提高识别效率;由用户终端本地存储用户热词库,并根据用户热词库对服务器解码识别结果进行处理,确定与待识别语音对应的语音识别结果,可以保证用户热词库的信息安全,避免不法分子通过网络从服务器中窃取用户个性化信息,从而保证用户隐私和信息安全。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种语音识别系统的结构示意图;
图2是本申请实施例提供的一种语音识别方法的流程示意图;
图3是本申请实施例提供的解码词网络示意图;
图4是本申请实施例提供的语音识别过程示意图;
图5是本申请实施例提供的另一种语音识别过程示意图;
图6是本申请实施例提供的另一种语音识别方法的流程示意图;
图7是本申请实施例提供的又一种语音识别方法的流程示意图;
图8是本申请实施例提供的一种语音识别装置的结构示意图;
图9是本申请实施例提供的另一种语音识别装置的结构示意图;
图10是本申请实施例提供的一种语音识别设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于语音识别应用场景中,采用本申请实施例技术方案能够结合用户热词对用户语音进行识别,从而实现个性化用户语音识别。
为了能够实现个性化用户语音识别,业内曾经提出在终端进行语音识别时,借助用户热词进行用户语音识别。用户热词是用户使用频率较高的词,这些词能够体现用户的表达习惯、常用内容等个性化信息。用户热词可以由用户终端在被使用过程中,由用户自行在终端上设置的。也就是,用户终端可以很轻易地获取到用户热词,基于此,使终端存储用户热词,并且在对待识别语音进行解码识别时能够结合用户热词,即可实现在语音识别时兼顾用户个性化信息。但是终端处理性能较弱,结合用户热词的语音识别的效率太低,无法达到用户满意的个性化语音识别效果。
目前业内常用的个性化语音识别解决方案是:将用户在终端设置的热词上传至语音识别服务器,在语音识别服务器中存储用户热词,当用户终端产生语音识别需求时,将待识别语音发送至语音识别服务器,由语音识别服务器根据用户热词对待识别语音进行语音识别,并将语音识别结果反馈给用户终端,从而实现个性化用户语音识别。但是将用户热词存储在服务器中,很容易使得不法分子通过网络从服务器中窃取用户个性化信息,或者不法分子可能在用户热词上传至服务器的过程中截获用户热词数据,从而造成用户隐私泄露,酿成用户信息安全事故。
可见,现有的个性化语音识别解决方案,要么是在终端本地进行个性化语音识别,这种方式对终端性能带来极大挑战,基本无法满足用户需求。要么是借助服务器进行个性化语音识别,但是用户热词库在服务器的存储又会对用户隐私带来风险。所以目前没有既能保证用户个性化信息安全,又能满足用户对个性化语音识别效率需求的个性化语音识别解决方案。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出的语音识别方法,应用于如图1所示的语音识别系统,该语音识别系统由用户终端和服务器构成。其中,用户终端是用户所使用的终端设备,例如可以是智能手机、智能录音笔、智能麦克风等具有音频采集及处理功能的终端设备,该终端设备可以采集用户语音并上传至服务器;该服务器用于对接收的语音进行语音识别处理,并将识别结果返回给用户终端。
上述的用户终端的数量可以为多个,即各个用户的各种类型的终端设备都可以接入上述的服务器,或者通过语音识别应用程序后台接入服务器,借助服务器实现对采集的语音的识别。上述的服务器可以是云端服务器。
基于上述的语音识别系统,本申请实施例分别提出适用于该系统的用户终端和服务器的语音识别方法,使得用户终端和服务器分别执行本申请提出的语音识别方法,通过用户终端和服务器之间的数据交互,实现对用户语音的个性化识别。
下面结合图2,对上述的用户终端和服务器交互实现用户语音的个性化识别的具体处理过程进行介绍。
参见图2所示,本申请实施例提出的语音识别方法包括:
S201、用户终端向服务器发送语音识别请求,该语音识别请求中包括待识别语音。
具体的,用户终端获取到用户语音后,将该用户语音作为待识别语音,生成语音识别请求,并将该语音识别请求发送给服务器。
其中,用户终端获取用户语音,可以是实时采集用户语音,也可以是从存储器中读取待识别的用户语音。
S202、服务器接收用户终端发送的语音识别请求。
S203、服务器对待识别语音进行解码识别,得到解码识别结果。
具体的,服务器接收到语音识别请求后,从语音识别请求中提取待识别语音,然后,对待识别语音进行解码识别处理,得到解码识别结果。
示例性的,服务器可以通过语音识别引擎,对该待识别语音进行解码识别计算,得到解码识别结果。
作为一种可选的实施方式,服务器对待识别语音的解码识别结果以解码词网络(word lattice)的形式表示。该解码词网络(word lattice)的形式可参见图3所示。
S204、服务器将解码识别结果发送给用户终端。
S205、用户终端获取服务器发送的对待识别语音的解码识别结果。
S206、用户终端根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
具体的,本申请实施例设定,在用户使用终端的过程中,用户终端不断采集与用户对应的热词,并利用采集的热词构建热词库,具体的热词采集及热词库构建过程可参见后续实施例介绍。
其中,与用户对应的热词,即为用户热词,其是在用户历史语音中的出现频率超过一定频率阈值的词,也就是用户使用频率较高的词。用户热词能够一定程度上反映用户个性化信息,比如用户常用语、常用表达方式等。
上述的热词库中,可以存储对应一个用户的热词,也可以存储对应多个用户的热词。当其存储对应多个用户的热词时,对应同一个用户的热词作为一个集合存储,这样可以便于取分与不同用户对应的热词。
由于用户热词能够体现用户的个性化信息,因此,为了防止用户信息泄露,用户终端将热词库加密后在本地存储。
上述的根据预先构建的热词库以及所述解码识别结果,确定对应待识别语音的语音识别结果,具体是根据预先构建的热词库中存储的、与发出上述待识别语音的用户对应的热词,以及上述的解码识别结果,确定对应该待识别语音的语音识别结果。
例如,上述的待识别语音是用户甲发出的语音,则在获取该语音的解码识别结果后,根据预先构建的热词库中存储的对应用户甲的热词,以及该语音的解码识别结果,确定对应该语音的语音识别结果。
一般情况下,用户终端是被某一个用户长期使用的终端设备,比如用户A的手机,其通常是长期被用户A持有并使用,因此其采集的语音基本上都是用户A的语音。所以,用户终端生成的语音识别请求中的待识别语音,基本上都是同一用户的语音。
基于上述情况,作为一种优选的实施方式,本申请实施例设置用户终端预先构建该用户终端的常用用户的热词库,也就是构建包含该用户终端的常用用户这一个用户的热词的词库。
在用户终端预先构建与用户对应的热词库的基础上,当用户终端采集到该用户的语音并向服务器发送包含该语音的语音识别请求,以及获取服务器反馈的解码识别结果后,利用本地存储的热词库中的热词,对该解码识别结果进行处理,从而得到最终的语音识别结果。
由于上述的语音识别过程结合了与用户对应的热词,因此实现了结合用户个性化信息对用户语音进行识别,从而能够实现个性化语音识别。
通过上述介绍可见,本申请实施例提出的语音识别方法,通过用户终端与服务器进行交互,实现由服务器对待识别语音进行解码识别,得到解码识别结果,然后用户终端利用本地存储的热词库以及服务器发送的解码识别结果,确定对待识别语音的语音识别结果。上述方案在确定待识别语音的语音识别结果时,应用了与用户对应的热词,即参考了用户个性化信息,因此能够从待识别语音中识别用户个性化语音内容,从而实现个性化语音识别。
进一步的,本申请实施例提出的语音识别方法,采用服务器与用户终端交互的分布式语音识别方案,由服务器对待识别语音进行解码识别,借助服务器的强大数据处理能力,可以提高识别效率;由用户终端本地存储用户热词库,并根据用户热词库对服务器解码识别结果进行处理,确定与待识别语音对应的语音识别结果,可以保证用户热词库的信息安全,避免不法分子通过网络从服务器中窃取用户个性化信息,从而保证用户隐私和信息安全。
下面具体介绍上述的热词库的构建过程。示例性的,该上述的热词库可以通过执行如下步骤A1-A2构建得到:
A1、获取用户热词。
示例性的,用户热词可以由用户输入得到,或者从用户历史输入文本中提取得到,还可以根据用户历史输入文本构建用户特征,然后利用用户特征推理得到。
具体的,当由用户输入得到用户热词时,用户在用户终端输入热词,用户终端获取用户输入的热词,并将用户输入热词存入该用户的热词库。
当从用户历史输入文本中提取热词时,具体可通过对用户历史输入文本进行如下处理实现:
通过命名实体识别确定文本实体位置,同时,通过词性预测确定文本中的主体词位置,以及,根据用户对文本的修改操作确定用户修改位置。
然后,将上述的实体位置、主体词位置和用户修改位置进行合并,即判断用户修改位置是否为实体位置或主体词位置,如果是,则将该词作为用户热词。
例如,假设某一文本为A B C D E F G H I J K,其中,用户在该文本中修改的是“B”、“GH”位置处的文本内容;该文本的实体词为“BC”、“EF”和“JK”;该文本的主题词为“A”、“D”和“JK”。则,比较可见,用户修改的“B”位置处存在实体词“BC”,因此将实体词“BC”作为用户热词。
上述方式可以从文本中挖掘出用户修改(对用户有价值)的实体词或主体词(对识别有价值),作为用户热词。
当根据用户历史输入文本构建用户特征,然后利用用户特征推理得到用户热词时,根据通过执行上述处理而从用户历史输入文本中提取得到的热词,构建用户特征,然后利用构建的用户特征推理得到与该用户对应的热词。
具体的,对于同用户历史输入文本中提取得到的热词,分别构建热词特征,然后对各个热词的热词特征进行加权求和,得到的特征作为用户特征。其中,热词的权重为热词在历史文本中的出现频率。
进一步的,根据用户特征推理用户热词时,可以将具有该相同用户特征的其他用户的热词,作为该用户的热词。例如,假设通过用户甲的用户特征可以确定用户甲为00后、大学生、性别女,则可以将其他的符合“00后”、“大学生”、“性别女”特点的用户的热词,作为用户甲的热词。
上述的从用户历史输入文本中提取得到用户热词,以及根据用户历史输入文本构建用户特征,然后利用用户特征推理得到用户热词的处理方式,可以在用户无感知的情况下自动获取用户热词,进而用于支持语音识别,从而提高了个性化语音识别的智能化水平。
A2、从获取的用户热词中滤除异常热词和冗余热词,由剩余的用户热词构成热词库。
具体的,将用户热词用于辅助语音识别,一方面可以提升对用户个性化语音内容的识别效果,另一方面,可能对语音识别带来负面影响,比如由于用户热词的激励,可能将原本不是用户热词的词,识别为用户热词,造成识别错误。所以,并不是用户热词越多越好。
通过上述步骤A1的处理,能够获取大量的用户热词,但是其中有些热词是异常词或者是不需要作为热词的词,应当对其中的异常热词和冗余热词进行过滤,从而使热词库更简洁,同时避免异常热词和冗余热词对语音识别带来负面影响。
上述的异常热词,是指在词典中不存在的词。如果某一用户热词并不是字典中存在的规范的词,则将该用户热词确定为异常热词。例如,假设某一用户热词是用户自己编造并且惯用的词,由于这个词并不是字典中的规范词,因此将该用户热词视为异常热词。从获取的用户热词中删除上述的异常热词。
上述的冗余热词,是指其本身识别正确率较高的词,通常,这些词在任意语音中均可以被正确识别。例如“今天”这个词如果存在于热词库中,“今天”已经为较高频使用词汇,识别错误的可能性较低,因此可以从热词库中剔除,节省计算量也可以降低热词误串扰问题。
作为一种可选的实现方式,本申请实施例通过如下方式从获取的用户热词中滤除冗余热词:
对于获取的用户热词中的每个热词,分别进行如下B1-B5的处理:
B1、获取该热词的同音词。
该热词的同音词,是指与该热词的发音的相似度大于设定的相似度阈值的词。本申请实施例从字典中查询与该热词的发音相似度大于设定的相似度阈值的词,作为该热词的同音词。
B2、通过语言模型对该热词以及该热词的各个同音词对应的语音进行识别,分别得到该热词的语言模型得分,以及该热词的各个同音词的语言模型得分。
具体的,语音对应的文本的语言模型得分,能够表示该语音被该语言模型正确识别的概率。因此,语音对应的文本的语言模型得分越高,则说明该文本被正确识别的概率越高。即,根据文本的语言模型得分,能够反映该文本在语音识别过程中被正确识别出的概率。
基于上述原理,本申请实施例通过语言模型对该热词,以及该热词的各个同音词对应的语音进行识别,从而获取该热词在语音识别中的语言模型得分,以及获取该热词的各个同音词在语音识别中的语言模型得分。
如果该热词的每个同音词的语言模型得分均低于该热词的语言模型得分,则执行步骤B3、将该热词确定为冗余热词;
如果该热词的各个同音词中任意一个热词的语言模型得分高于该热词的语言模型得分,则执行步骤B4、将该热词确定为非冗余热词。
具体的,如果该热词的语言模型得分高于该热词的各个同音词的语言模型得分,则可以说明在语音识别过程中,该热词的识别正确率高于其任意一个同音词的识别正确率,在语音识别过程中,该热词不会被其同音词竞争掉,没有识别错误风险,即便该热词不是热词,其也能够被正确识别,因此该热词为冗余热词。
相反,如果该热词的任意一个热词的语言模型得分高于该热词的语言模型得分,则可以说明在语音识别过程中,该热词可能被语言模型得分更高的同音词竞争掉,即存在识别错误风险,因此应当保留该热词,即确定该热词为非冗余热词。
B5、从获取的用户热词中删除该冗余热词。
按照上述方式识别到用户热词中的冗余热词后,将识别到的冗余热词删除。
当获取用户热词并且经过上述的异常热词和冗余热词滤除操作后,剩余的用户热词构成热词库。热词库中的热词可以用于对语音识别结果进行热词激励,从而提高热词识别正确率,实现个性化语音识别。
但是,某些热词可能对普通词汇的正确识别带来影响,导致热词误触发的情况。比如,假设热词库中有“金田”这一热词,该热词容易与“今天”这一常用词产生冲突。比如在语音中存在“jintian”这一发音,其本身是想表达“今天”这一词汇,但是由于“金田”这一热词的激励,可能会将“jintian”识别为“金田”,从而导致识别错误。
本申请实施例将发音与任意高频词的发音的相似度大于设定的相似度阈值的热词,称为易错热词,该易错热词容易导致识别误触发,从而导致对高频词的识别错误。
为了避免上述的易错热词对其他的通用高频词的语音识别效果产生负面影响,本申请实施例从热词库中识别易错热词,并对易错热词进行标记,从而在语音识别过程中,对于易错热词进行特别处理,避免其对通用高频词的识别产生负面影响。比如,当识别到待识别语音中某一词汇与某一易错热词相匹配时,并不直接将该词汇识别为该易错热词,而是通过进一步识别,例如通过其他识别方法再次识别该词汇是否为该易错热词,只有通过重复识别确认该词汇确实为该易错热词时,才将该词汇识别为该易错热词。
作为一种可选的实现方式,本申请实施例通过如下方式从热词库中识别易错热词:
对于热词库中的每个热词,进行如下处理:
将该热词与通用高使用频率文本进行匹配激励,如果该热词在通用文本中的匹配命中概率大于设定频率,即认为该热词有大概率造成热词激励误触发,从而对通用高频词的识别带来影响,因此将其视为易错热词。
按照上述处理,可以分别确定热词库中的每个热词是否为易错热词,从而实现对热词库中的易错热词标记。
经过上述的用户热词获取、异常热词和冗余热词过滤,以及易错热词标记处理后,用户终端将剩余的用户热词构成热词库,并对其进行加密存储在本地,以供后续语音识别应用。而且,在用户终端工作过程中,还可以不断地采集用户热词,并对热词库进行补充、更新。
另外,上述的热词库也可以在不同的用户终端之间迁移存储。比如,当用户使用用户终端X的过程中,在用户终端X中会构建并存储与该用户对应的热词库,从而使得该用户终端X能够实现对该用户的个性化语音识别。当用户换了新的用户终端Y时,如果在用户终端Y中没有用户热词库,那么就无法实现对该用户的个性化语音识别,为了解决上述问题,可以将用户终端X中存储的热词库迁移存储至用户终端Y的存储空间内,从而使得用户终端Y可以根据该热词库,实现对该用户的个性化语音识别。
下面对用户终端确定待识别语音的语音识别结果的具体处理过程进行介绍:
示例性的,用户终端根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果,具体是利用预先构建的热词库中的热词,对服务器发送的解码识别结果进行热词匹配和热词激励处理,从而确定对应上述待识别语音的语音识别结果。
具体的,如前文所述,服务器反馈的解码识别结果,是如图3所示的解码词网络形式的解码识别结果。当用户终端获取到该解码词网络后,对网络中的每个词,分别与热词库中的各个热词进行热词匹配,如果匹配到某个热词,则利用该热词对该词进行热词激励,使得该词被识别为该热词的概率增加,然后利用热词激励后的解码识别结果,确定最终的语音识别结果。
作为一种可选的实施方式,用户终端可以通过执行如下C1-C5的处理,确定与待识别语音对应的语音识别结果:
C1、将解码识别结果中的词与预先构建的热词库中的热词进行匹配。
具体的,将解码识别结果过中的词与预先构建的热词库中的热词分别进行字符比对,可以判断解码识别结果中的词与热词库中的热词是否匹配。
如果在热词库中存在与解码识别结果中的词相匹配的热词,则执行步骤C2、判断与解码识别结果中的词匹配的热词是否为易错热词。如前文所述,该易错热词是指其发音与任意高频词的发音的相似度大于设定的相似度阈值的热词。用户终端在构建热词库时,可以对该热词库中的易错热词进行识别和标记。因此,当与解码识别结果中的词匹配的热词携带有易错热词标记时,可以确定与解码识别结果中的词匹配的热词为易错热词,如果与解码识别结果中的词匹配的热词不携带易错热词标记,则可以确定与解码识别结果中的词匹配的热词不是易错热词。
如果不是易错热词,则执行步骤C3、将解码识别结果中的该词替换为与该词匹配的热词。
如果是易错热词,则执行步骤C4、将与解码识别结果中的该词匹配的该易错热词,作为与解码识别结果中的该词对应的候选词,并在待识别语音的语音识别结果中展示该候选词。
具体的,如果与解码识别结果中的词匹配的热词不是易错热词,则说明利用该热词对该词进行热词激励不会造成对该词的错误识别,因此可以利用该热词对该词进行热词激励,从而使得该词被识别为该词的概率增加。作为一种优选的处理方式,可以直接将解码识别结果中的该词替换为与其匹配的热词。
如果与解码识别结果中的词匹配的热词是易错热词,则说明利用该热词对该词进行热词激励会造成对该词的错误识别。此时,为了避免造成识别错误,本申请实施例不再利用该热词对解码识别结果中的该词进行热词激励,而是将该热词作为与解码识别结果中的该词对应的候选词,并在待识别语音的语音识别结果中展示该候选词,以供用户选择。由于展示的候选词本质上是用户热词,也就是在语音识别结果中能够展示用户热词,因此也相当于从语音中识别到用户个性化信息,即达到了个性化语音识别效果。
C5、将对解码识别结果进行上述热词匹配和替换后的结果,确定为待识别语音的语音识别结果。
经过上述的热词匹配和热词替换后,该解码识别结果中的词即可视为最终识别确定的词,因此经过上述热词匹配和热词替换后的解码识别结果,即可作为待识别语音的语音识别结果。在该语音识别结果中,还可以包括与其中的词对应的候选词(即上述的与该词对应的易错热词)。
可以理解,如果在热词库中并没有标记易错热词,则用户终端也可以跳过上述步骤C2的处理,当确定在热词库中存在与解码识别结果中的词相匹配的热词时,直接执行步骤C3以及C5即可。
综合上述介绍可以理解,本申请实施例提出的语音识别方法依靠用户终端和服务器交互实现对用户语音的个性化识别。其中,用户终端本地构建用户热词库,当产生语音识别需求时,将待识别语音发送给服务器进行解码识别,然后利用本地的热词库,对服务器的解码识别结果进行热词激励,从而得到包含用户个性化信息的语音识别结果。上述过程可参见图4所示。
作为一种优选的实施方式,参见图5所示,用户终端基于构建的用户热词库,还可以进一步根据该热词库中的、与发出待识别语音的用户对应的热词的特征构建用户特征。当对该待识别语音进行语音识别时,生成包含该待识别语音,以及上述用户特征的语音识别请求,并发送给服务器。相应的,服务器在对待识别语音进行解码识别得到解码识别结果时,具体是根据用户终端发送的上述用户特征对待识别语音进行解码识别,得到解码识别结果。相应的,用户终端获取的解码识别结果,是服务器发送的、根据上述用户特征而得到的对上述待识别语音的解码识别结果。
可以理解,基于用户热词而构建的用户特征,包含了用户个性化信息。服务器根据该用户特征,对用户发出的待识别语音进行解码识别,实际上是根据用户个性化信息,对用户发出的待识别语音进行解码识别,从而能够从待识别语音中识别用户个性化信息,即在服务器上实现了个性化语音识别,从而进一步提升了个性化语音识别效果。
另外,由于用户终端发送给服务器的是用户特征,而并非直接将用户热词发送给服务器,因此并没有将用户个性化信息明文发送给服务器,因而可以在保证用户个性化信息安全的情况下,提升服务器个性化语音识别效果。
作为一种示例性的实现方式,上述的用户特征通过对发出待识别语音的用户对应的热词进行加权平均计算得到,其中,热词的权重为热词在用户交互中的使用频率。
也就是,上述的用户特征可以通过对用户热词库中的用户热词的词向量进行加权平均计算得到。其中,用户热词库中的用户热词的权重,可以是该用户热词在该用户日常交互中的使用频率。即,先确定用户热词库中的各个用户热词的词向量,以及确定热词在用户日常交互中的使用频率作为该热词的权重,然后对用户热词库中的各个用户热词进行加权平均处理,得到的特征向量即可作为用户特征。
基于图2所示的通过用户终端与服务器交互而实现的个性化语音识别技术方案,本申请实施例还提出一种应用于用户终端的语音识别方法,参见图6所示,该方法包括:
S601、向服务器发送语音识别请求,所述语音识别请求中包括待识别语音。
S602、获取所述服务器发送的对所述待识别语音的解码识别结果。
S603、根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
具体的,上述各个处理步骤的具体处理内容,例如用户终端构建热词库的过程、用户终端根据热词库以及解码识别结果确定对应待识别语音的语音识别结果的过程,以及用户终端的其他可选处理内容等,均可以参见上述实施例的介绍,此处不再重复。
在本申请实施例提出的语音识别方法中,用户终端预先构建用户热词库,当需要对用户语音进行识别时,将待识别语音发送给服务器,由服务器对待识别语音进行解码识别,得到解码识别结果,然后用户终端利用本地存储的热词库以及服务器发送的解码识别结果,确定对待识别语音的语音识别结果。上述方案在确定待识别语音的语音识别结果时,应用了与用户对应的热词,即参考了用户个性化信息,因此能够从待识别语音中识别用户个性化语音内容,从而实现个性化语音识别。
进一步的,本申请实施例提出的语音识别方法,采用服务器与用户终端交互的分布式语音识别方案,由服务器对待识别语音进行解码识别,借助服务器的强大数据处理能力,可以提高识别效率;由用户终端本地存储用户热词库,并根据用户热词库对服务器解码识别结果进行处理,确定与待识别语音对应的语音识别结果,可以保证用户热词库的信息安全,避免不法分子通过网络从服务器中窃取用户个性化信息,从而保证用户隐私和信息安全。
同时,基于图2所示的通过用户终端与服务器交互而实现的个性化语音识别技术方案,本申请实施例还提出一种应用于服务器的语音识别方法,参见图7所示,该方法包括:
S701、接收用户终端发送的语音识别请求,所述语音识别请求中包括待识别语音。
S702、对所述待识别语音进行解码识别,得到解码识别结果。
S703、将所述解码识别结果发送给所述用户终端,以使所述用户终端根据所述解码识别结果以及预先构建的热词库,确定对应所述待识别语音的语音识别结果;其中,所述热词词库中存储与发出所述待识别语音的用户对应的热词。
具体的,上述各个处理步骤的具体处理内容,例如服务器对待识别语音进行解码识别的具体处理过程、服务器根据语音识别请求中的用户特征对待识别语音进行解码识别的具体处理过程,以及服务器的其他可选处理内容等,均可以参见上述实施例的介绍,此处不再重复。
在本申请实施例提出的语音识别方法中,用户终端预先构建用户热词库,当需要对用户语音进行识别时,将待识别语音发送给服务器,由服务器对待识别语音进行解码识别,得到解码识别结果,然后用户终端利用本地存储的热词库以及服务器发送的解码识别结果,确定对待识别语音的语音识别结果。上述方案在确定待识别语音的语音识别结果时,应用了与用户对应的热词,即参考了用户个性化信息,因此能够从待识别语音中识别用户个性化语音内容,从而实现个性化语音识别。
进一步的,本申请实施例提出的语音识别方法,采用服务器与用户终端交互的分布式语音识别方案,由服务器对待识别语音进行解码识别,借助服务器的强大数据处理能力,可以提高识别效率;由用户终端本地存储用户热词库,并根据用户热词库对服务器解码识别结果进行处理,确定与待识别语音对应的语音识别结果,可以保证用户热词库的信息安全,避免不法分子通过网络从服务器中窃取用户个性化信息,从而保证用户隐私和信息安全。
本申请实施例还提出一种语音识别系统,其组成结构如图1所示,该系统由至少一个用户终端和服务器构成。其中,系统中的用户终端执行上述的应用于用户终端的语音识别方法的处理内容,相应的,系统中的服务器执行上述的应用于服务器的语音识别方法的处理内容。
示例性的,该语音识别系统中的用户终端用于:向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;获取所述服务器发送的对所述待识别语音的解码识别结果;根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
该语音识别系统中的服务器用于:接收用户终端发送的语音识别请求;对所述待识别语音进行解码识别,得到解码识别结果;将所述解码识别结果发送给所述用户终端。
本申请实施例提出的语音识别系统由用户终端和服务器构成,用户终端预先构建用户热词库,当需要对用户语音进行识别时,将待识别语音发送给服务器,由服务器对待识别语音进行解码识别,得到解码识别结果,然后用户终端利用本地存储的热词库以及服务器发送的解码识别结果,确定对待识别语音的语音识别结果。上述方案在确定待识别语音的语音识别结果时,应用了与用户对应的热词,即参考了用户个性化信息,因此能够从待识别语音中识别用户个性化语音内容,从而实现个性化语音识别。
进一步的,本申请实施例提出的语音识别系统,采用服务器与用户终端交互的分布式语音识别方案,由服务器对待识别语音进行解码识别,借助服务器的强大数据处理能力,可以提高识别效率;由用户终端本地存储用户热词库,并根据用户热词库对服务器解码识别结果进行处理,确定与待识别语音对应的语音识别结果,可以保证用户热词库的信息安全,避免不法分子通过网络从服务器中窃取用户个性化信息,从而保证用户隐私和信息安全。
可选的,所述热词库的构建过程包括:
获取用户热词;
从获取的用户热词中滤除异常热词和冗余热词,由剩余的用户热词构成热词库。
可选的,所述获取用户热词,包括:
获取用户输入的热词;
从用户历史输入文本中提取热词;
根据从用户历史输入文本中提取得到的热词构建用户特征,并利用构建的用户特征推理得到与该用户对应的热词。
可选的,从获取的用户热词中滤除冗余热词,包括:
对应获取的用户热词中的每个热词,分别进行如下处理:
获取该热词的同音词;
通过语言模型对该热词以及该热词的各个同音词对应的语音进行识别,分别得到该热词的语言模型得分,以及该热词的各个同音词的语言模型得分;
如果该热词的每个同音词的语言模型得分均低于该热词的语言模型得分,则将该热词确定为冗余热词;
从获取的用户热词中删除该冗余热词。
可选的,所述用户终端还用于:
对热词库中的易错热词进行标记,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值。
可选的,所述根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果,包括:
利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果。
可选的,所述利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果,包括:
将所述解码识别结果中的词与预先构建的热词库中的热词进行匹配;
如果在热词库中存在与所述解码识别结果中的词匹配的热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
将对所述解码识别结果进行上述热词匹配和替换后的结果,确定为所述待识别语音的语音识别结果。
可选的,如果在热词库中存在与所述解码识别结果中的词匹配的热词,所述用户终端还用于:
判断与所述解码识别结果中的词匹配的热词是否为易错热词,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值;
如果不是易错热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
如果是易错热词,则将与所述解码识别结果中的该词匹配的该易错热词,作为与所述解码识别结果中的该词对应的候选词,并在所述待识别语音的语音识别结果中展示该候选词。
可选的,所述语音识别请求中还包括用户特征,所述用户特征根据与发出所述待识别语音的用户对应的热词的特征构建得到;
所述用户终端获取所述服务器发送的对所述待识别语音的解码识别结果,包括:
获取所述服务器发送的、根据所述用户特征而得到的对所述待识别语音的解码识别结果。
可选的,所述语音识别请求中还包括用户特征,所述用户特征由所述用户终端根据与发出所述待识别语音的用户对应的热词库中的热词的特征构建得到;
所述服务器对所述待识别语音进行解码识别,得到解码识别结果,包括:
根据所述用户特征,对所述待识别语音进行解码识别,得到解码识别结果。
具体的,上述的语音识别系统中的用户终端和服务器的具体工作内容,请参见上述的方法实施例的内容,此处不再重复。
本申请实施例还提出一种语音识别装置,参见图8所示,该装置包括:
请求发送单元001,用于向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;
数据获取单元002,用于获取所述服务器发送的对所述待识别语音的解码识别结果;
数据处理单元003,用于根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
可选的,所述热词库的构建过程包括:
获取用户热词;
从获取的用户热词中滤除异常热词和冗余热词,由剩余的用户热词构成热词库。
可选的,所述获取用户热词,包括:
获取用户输入的热词;
从用户历史输入文本中提取热词;
根据从用户历史输入文本中提取得到的热词构建用户特征,并利用构建的用户特征推理得到与该用户对应的热词。
可选的,从获取的用户热词中滤除冗余热词,包括:
对应获取的用户热词中的每个热词,分别进行如下处理:
获取该热词的同音词;
通过语言模型对该热词以及该热词的各个同音词对应的语音进行识别,分别得到该热词的语言模型得分,以及该热词的各个同音词的语言模型得分;
如果该热词的每个同音词的语言模型得分均低于该热词的语言模型得分,则将该热词确定为冗余热词;
从获取的用户热词中删除该冗余热词。
可选的,所述数据处理单元003还用于:
对热词库中的易错热词进行标记,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值。
可选的,所述根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果,包括:
利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果。
可选的,所述利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果,包括:
将所述解码识别结果中的词与预先构建的热词库中的热词进行匹配;
如果在热词库中存在与所述解码识别结果中的词匹配的热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
将对所述解码识别结果进行上述热词匹配和替换后的结果,确定为所述待识别语音的语音识别结果。
可选的,如果在热词库中存在与所述解码识别结果中的词匹配的热词,所述数据处理单元003还用于:
判断与所述解码识别结果中的词匹配的热词是否为易错热词,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值;
如果不是易错热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
如果是易错热词,则将与所述解码识别结果中的该词匹配的该易错热词,作为与所述解码识别结果中的该词对应的候选词,并在所述待识别语音的语音识别结果中展示该候选词。
可选的,所述语音识别请求中还包括用户特征,所述用户特征根据与发出所述待识别语音的用户对应的热词的特征构建得到;
所述获取所述服务器发送的对所述待识别语音的解码识别结果,包括:
获取所述服务器发送的、根据所述用户特征而得到的对所述待识别语音的解码识别结果。
可选的,所述用户特征通过对发出所述待识别语音的用户对应的热词进行加权平均计算得到,其中,热词的权重为热词在用户交互中的使用频率。
具体的,上述的语音识别装置的各个单元的具体工作内容,以及该语音识别装置所实现的功能、有益效果等,请参见上述方法实施例的内容,此处不再赘述。
本申请实施例还提出另一种语音识别装置,参见图9所示,该装置包括:
请求接收单元011,用于接收用户终端发送的语音识别请求,所述语音识别请求中包括待识别语音;
解码识别单元012,用于对所述待识别语音进行解码识别,得到解码识别结果;
数据发送单元013,用于将所述解码识别结果发送给所述用户终端,以使所述用户终端根据所述解码识别结果以及预先构建的热词库,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
可选的,所述语音识别请求中还包括用户特征,所述用户特征由所述用户终端根据与发出所述待识别语音的用户对应的热词库中的热词的特征构建得到;
所述对所述待识别语音进行解码识别,得到解码识别结果,包括:
根据所述用户特征,对所述待识别语音进行解码识别,得到解码识别结果。
可选的,所述对所述待识别语音进行解码识别,得到解码识别结果,包括:
利用语音识别引擎对所述待识别语音进行解码识别计算,得到解码识别结果。
具体的,上述的语音识别装置的各个单元的具体工作内容,以及该语音识别装置所实现的功能、有益效果等,请参见上述方法实施例的内容,此处不再赘述。
本申请另一实施例还提出一种语音识别设备,参见图10所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的语音识别方法。
具体的,上述语音识别设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器2102执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请实施例所提供的语音识别方法的各个步骤。
本申请另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现上述任一实施例提供的语音识别方法的各个步骤。
具体的,上述的语音识别设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的语音识别方法的各个实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (18)

1.一种语音识别方法,其特征在于,包括:
向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;
获取所述服务器发送的对所述待识别语音的解码识别结果;
根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
2.根据权利要求1所述的方法,其特征在于,所述热词库的构建过程包括:
获取用户热词;
从获取的用户热词中滤除异常热词和冗余热词,由剩余的用户热词构成热词库。
3.根据权利要求2所述的方法,其特征在于,所述获取用户热词,包括:
获取用户输入的热词;
从用户历史输入文本中提取热词;
根据从用户历史输入文本中提取得到的热词构建用户特征,并利用构建的用户特征推理得到与该用户对应的热词。
4.根据权利要求2所述的方法,其特征在于,从获取的用户热词中滤除冗余热词,包括:
对应获取的用户热词中的每个热词,分别进行如下处理:
获取该热词的同音词;
通过语言模型对该热词以及该热词的各个同音词对应的语音进行识别,分别得到该热词的语言模型得分,以及该热词的各个同音词的语言模型得分;
如果该热词的每个同音词的语言模型得分均低于该热词的语言模型得分,则将该热词确定为冗余热词;
从获取的用户热词中删除该冗余热词。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对热词库中的易错热词进行标记,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值。
6.根据权利要求1所述的方法,其特征在于,所述根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果,包括:
利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果。
7.根据权利要求6所述的方法,其特征在于,所述利用预先构建的热词库中的热词,对所述解码识别结果进行热词匹配和热词激励处理,从而确定对应所述待识别语音的语音识别结果,包括:
将所述解码识别结果中的词与预先构建的热词库中的热词进行匹配;
如果在热词库中存在与所述解码识别结果中的词匹配的热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
将对所述解码识别结果进行上述热词匹配和替换后的结果,确定为所述待识别语音的语音识别结果。
8.根据权利要求7所述的方法,其特征在于,如果在热词库中存在与所述解码识别结果中的词匹配的热词,所述方法还包括:
判断与所述解码识别结果中的词匹配的热词是否为易错热词,其中,所述易错热词的发音与任意高频词的发音的相似度大于设定的相似度阈值;
如果不是易错热词,则将所述解码识别结果中的该词替换为与该词匹配的热词;
如果是易错热词,则将与所述解码识别结果中的该词匹配的该易错热词,作为与所述解码识别结果中的该词对应的候选词,并在所述待识别语音的语音识别结果中展示该候选词。
9.根据权利要求1所述的方法,其特征在于,所述语音识别请求中还包括用户特征,所述用户特征根据与发出所述待识别语音的用户对应的热词的特征构建得到;
所述获取所述服务器发送的对所述待识别语音的解码识别结果,包括:
获取所述服务器发送的、根据所述用户特征而得到的对所述待识别语音的解码识别结果。
10.根据权利要求9所述的方法,其特征在于,所述用户特征通过对发出所述待识别语音的用户对应的热词进行加权平均计算得到,其中,热词的权重为热词在用户交互中的使用频率。
11.一种语音识别方法,其特征在于,包括:
接收用户终端发送的语音识别请求,所述语音识别请求中包括待识别语音;
对所述待识别语音进行解码识别,得到解码识别结果;
将所述解码识别结果发送给所述用户终端,以使所述用户终端根据所述解码识别结果以及预先构建的热词库,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
12.根据权利要求10所述的方法,其特征在于,所述语音识别请求中还包括用户特征,所述用户特征由所述用户终端根据与发出所述待识别语音的用户对应的热词库中的热词的特征构建得到;
所述对所述待识别语音进行解码识别,得到解码识别结果,包括:
根据所述用户特征,对所述待识别语音进行解码识别,得到解码识别结果。
13.根据权利要求11所述的方法,其特征在于,所述对所述待识别语音进行解码识别,得到解码识别结果,包括:
利用语音识别引擎对所述待识别语音进行解码识别计算,得到解码识别结果。
14.一种语音识别装置,其特征在于,包括:
请求发送单元,用于向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;
数据获取单元,用于获取所述服务器发送的对所述待识别语音的解码识别结果;
数据处理单元,用于根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
15.一种语音识别装置,其特征在于,包括:
请求接收单元,用于接收用户终端发送的语音识别请求,所述语音识别请求中包括待识别语音;
解码识别单元,用于对所述待识别语音进行解码识别,得到解码识别结果;
数据发送单元,用于将所述解码识别结果发送给所述用户终端,以使所述用户终端根据所述解码识别结果以及预先构建的热词库,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。
16.一种语音识别设备,其特征在于,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至13中任意一项所述的语音识别方法。
17.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器运行时,实现如权利要求1至13中任意一项所述的语音识别方法。
18.一种语音识别系统,其特征在于,包括:
至少一个用户终端,以及服务器,所述至少一个用户终端分别与所述服务器连接;
所述用户终端用于:向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;获取所述服务器发送的对所述待识别语音的解码识别结果;根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词;
所述服务器用于:接收用户终端发送的语音识别请求;对所述待识别语音进行解码识别,得到解码识别结果;将所述解码识别结果发送给所述用户终端。
CN202110752421.XA 2021-07-02 2021-07-02 语音识别方法、装置、设备、系统及存储介质 Active CN113436614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752421.XA CN113436614B (zh) 2021-07-02 2021-07-02 语音识别方法、装置、设备、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752421.XA CN113436614B (zh) 2021-07-02 2021-07-02 语音识别方法、装置、设备、系统及存储介质

Publications (2)

Publication Number Publication Date
CN113436614A true CN113436614A (zh) 2021-09-24
CN113436614B CN113436614B (zh) 2024-02-13

Family

ID=77758801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752421.XA Active CN113436614B (zh) 2021-07-02 2021-07-02 语音识别方法、装置、设备、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113436614B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577712A (zh) * 2022-12-06 2023-01-06 共道网络科技有限公司 一种文本纠错方法及装置
WO2023226700A1 (zh) * 2022-05-27 2023-11-30 京东方科技集团股份有限公司 语音交互方法及其装置、电子设备和存储介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
US20130030804A1 (en) * 2011-07-26 2013-01-31 George Zavaliagkos Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
CN105654955A (zh) * 2016-03-18 2016-06-08 华为技术有限公司 语音识别方法及装置
CN107257996A (zh) * 2015-03-26 2017-10-17 英特尔公司 环境敏感自动语音识别的方法和系统
CN107293299A (zh) * 2017-06-16 2017-10-24 朱明增 一种提高调度员查找图纸效率的语音识别定位系统
US20180096690A1 (en) * 2016-10-03 2018-04-05 Google Inc. Multi-User Personalization at a Voice Interface Device
KR20180038707A (ko) * 2016-10-07 2018-04-17 한국전자통신연구원 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统
CN108984529A (zh) * 2018-07-16 2018-12-11 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN109523991A (zh) * 2017-09-15 2019-03-26 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN110517692A (zh) * 2019-08-30 2019-11-29 苏州思必驰信息科技有限公司 热词语音识别方法和装置
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
CN111145756A (zh) * 2019-12-26 2020-05-12 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111462751A (zh) * 2020-03-27 2020-07-28 京东数字科技控股有限公司 解码语音数据的方法、装置、计算机设备和存储介质
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111696545A (zh) * 2019-03-15 2020-09-22 北京京东尚科信息技术有限公司 语音识别纠错方法、装置以及存储介质
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
CN112767917A (zh) * 2020-12-31 2021-05-07 科大讯飞股份有限公司 语音识别方法、装置及存储介质
WO2021114928A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 纠错词排序方法、装置、终端设备和存储介质

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130030804A1 (en) * 2011-07-26 2013-01-31 George Zavaliagkos Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN107257996A (zh) * 2015-03-26 2017-10-17 英特尔公司 环境敏感自动语音识别的方法和系统
CN105654955A (zh) * 2016-03-18 2016-06-08 华为技术有限公司 语音识别方法及装置
US20180096690A1 (en) * 2016-10-03 2018-04-05 Google Inc. Multi-User Personalization at a Voice Interface Device
KR20180038707A (ko) * 2016-10-07 2018-04-17 한국전자통신연구원 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
CN107293299A (zh) * 2017-06-16 2017-10-24 朱明增 一种提高调度员查找图纸效率的语音识别定位系统
CN109523991A (zh) * 2017-09-15 2019-03-26 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统
CN108984529A (zh) * 2018-07-16 2018-12-11 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN111696545A (zh) * 2019-03-15 2020-09-22 北京京东尚科信息技术有限公司 语音识别纠错方法、装置以及存储介质
CN110517692A (zh) * 2019-08-30 2019-11-29 苏州思必驰信息科技有限公司 热词语音识别方法和装置
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
WO2021114928A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 纠错词排序方法、装置、终端设备和存储介质
CN111145756A (zh) * 2019-12-26 2020-05-12 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111462751A (zh) * 2020-03-27 2020-07-28 京东数字科技控股有限公司 解码语音数据的方法、装置、计算机设备和存储介质
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN112735428A (zh) * 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备
CN112767917A (zh) * 2020-12-31 2021-05-07 科大讯飞股份有限公司 语音识别方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONG MENG ET AL: "Domain Adaptation via Teacher-Student Learning for End-to-End Speech Recognition", 2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU) *
张云翔;李智诚;: "面向电力行业的热词语音识别技术", 现代计算机, no. 22 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226700A1 (zh) * 2022-05-27 2023-11-30 京东方科技集团股份有限公司 语音交互方法及其装置、电子设备和存储介质
CN115577712A (zh) * 2022-12-06 2023-01-06 共道网络科技有限公司 一种文本纠错方法及装置

Also Published As

Publication number Publication date
CN113436614B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
US10943582B2 (en) Method and apparatus of training acoustic feature extracting model, device and computer storage medium
CN108447471B (zh) 语音识别方法及语音识别装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20150019221A1 (en) Speech recognition system and method
US10181333B2 (en) Intelligent truthfulness indicator association
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN113436614B (zh) 语音识别方法、装置、设备、系统及存储介质
JP2020004382A (ja) 音声対話方法及び装置
CN112487149A (zh) 一种文本审核方法、模型、设备及存储介质
CN112861518A (zh) 文本纠错方法、装置和存储介质及电子装置
CN113094478A (zh) 表情回复方法、装置、设备及存储介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN109660621A (zh) 一种内容推送方法及服务设备
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN103474063B (zh) 语音辨识系统以及方法
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
US20230153280A1 (en) Machine learning techniques for enhanced data mapping
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
WO2021082570A1 (zh) 基于人工智能的语义识别方法、装置和语义识别设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230504

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province

Applicant before: IFLYTEK Co.,Ltd.

GR01 Patent grant
GR01 Patent grant