CN114242047A - 一种语音处理方法、装置、电子设备及存储介质 - Google Patents

一种语音处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114242047A
CN114242047A CN202111535535.5A CN202111535535A CN114242047A CN 114242047 A CN114242047 A CN 114242047A CN 202111535535 A CN202111535535 A CN 202111535535A CN 114242047 A CN114242047 A CN 114242047A
Authority
CN
China
Prior art keywords
word
target
voice
correct
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111535535.5A
Other languages
English (en)
Inventor
周坤坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111535535.5A priority Critical patent/CN114242047A/zh
Publication of CN114242047A publication Critical patent/CN114242047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本申请实施例提供了一种语音处理方法、装置、电子设备及存储介质,应用于人工智能领域,方法包括:分别获取第一语音和第二语音,并识别出第一语音的第一词语以对第一语音响应和/或识别出第二语音的第二词语以对第二语音响应;在确定第一词语为第二词语的混淆词时,构建包括第一词语的待纠错词库;在纠错后的词库记录第一词语和第二词语的目标对应关系以及标记目标对应关系对应的正确词语;获取目标语音以识别出目标语音包括的目标词语;在确定待纠错词库包括目标词语时,根据纠错后的词库查询目标词语对应的正确词语以对目标语音进行响应,该过程可以提升语音识别准确度。本申请涉及区块链技术,如从区块链获取语音。

Description

一种语音处理方法、装置、电子设备及存储介质
技术领域
本申请涉及语音语义技术领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
得益于人工智能技术的成熟应用,机器人,例如客服机器人已然成为客服领域不可或缺的一部分,特别是在线智能客服机器人,更是大大节省人力提高客服效率。智能客服机器人目前已覆盖金融、保险、汽车、房产、电商、政府等多个领域,主要功能:知识库自动学习功能,语义识别、用户意图识别功能,仿真对话等。机器人等主要通过语音识别模型来将语音转为文本,根据文本进行相关响应,例如根据提问返回答案、进行聊天、执行指定指令,等等。然而这种方式由于语音识别模型识别误差的原因,采用这种方式语音识别准确度并不高,用户体验较差。
发明内容
本申请实施例提供了一种语音处理方法、装置、电子设备及存储介质,可以提升语音识别准确度,提升用户体验。
第一方面,本申请实施例提供了一种语音处理方法,包括:
分别获取目标用户的第一语音和第二语音,并识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语;
根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应;
在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库;
在纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在所述纠错后的词库中标记所述目标对应关系对应的正确词语;
获取所述目标用户的目标语音,并识别出所述目标语音包括的目标词语;
在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语;
根据所述目标词语对应的正确词语对所述目标语音进行响应。
第二方面,本申请实施例提供了一种语音处理装置,包括:
获取模块,用于分别获取目标用户的第一语音和第二语音;
识别模块,用于识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语;
处理模块,用于根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应;
所述处理模块,还用于在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库,以及在所述纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在纠错后的词库中标记所述目标对应关系对应的正确词语;
所述获取模块,还用于获取所述目标用户的目标语音;
所述识别模块,还用于识别出所述目标语音包括的目标词语;
所述处理模块,还用于在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语,并根据所述目标词语对应的正确词语对所述目标语音进行响应。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如第一方面所述的方法。
综上所述,电子设备可以获取目标用户的两段语音,并对其中的至少一个语音进行响应;在确定其中一段语音包括的第一词语为另一段语音包括的第二词语的混淆词时,电子设备可以利用第一词语更新待纠错词库,并在纠错后的词库记录第一词语和第二词语之间的目标对应关系以及标记目标对应关系对应的正确词语;电子设备在新获取到一段语音后,可以识别出这段语音包括的目标词语,并在确定待纠错词库包括目标词语时,根据纠错后的词库获得目标词语对应的正确词语,以用于对目标语音进行响应,上述结合待纠错词库和纠错后的词库确定正确词语以对语音进行响应的方式,并非如现有技术直接根据转换出的错误文本对语音进行响应,采用本申请能够提升语音识别的准确度,并提升用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音处理方法的流程示意图;
图2是本申请再一实施例提供的一种语音处理方法的流程示意图;
图3是本申请实施例提供的一种语音处理装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例中,电子设备可以提供一种语音处理功能,能够提升语音识别的准确度。该语音处理功能可以应用于语音唤醒,语音问答、语音聊天、语音搜索等场景。语音处理功能大致包括基于语音构建待纠错词库和纠错后的词库的方法以及在语音识别过程中如何应用待纠错词库以及纠错后的词库的方法。该语音处理功能可以应用于电子设备。该电子设备可以为用户终端或服务器。用户终端可以为智能手机、平板电脑、笔记本电脑、智能音箱、智能机器人(如智能客服机器人、智能聊天机器人)、车载信息娱乐系统等等。服务器可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。在一个实施例中,该语音处理功能可以作为独立的功能模块添加到电子设备已安装的应用软件,如语音助手、娱乐应用(社交应用、游戏应用、音乐应用等)、支付应用、购物应用、搜索引擎中,或该语音处理功能也可以作为独立的应用软件运行于电子设备中,或该语音处理功能还可以作为电子设备的独立的系统功能。
其中,所述的语音处理功能具体为:分别获取目标用户的第一语音和第二语音,并识别出第一语音包括的第一词语以及第二语音包括的第二词语;根据第一词语对第一语音进行响应和/或根据第二词语对第二语音进行响应;在确定第一词语为第二词语的混淆词时,构建包括第一词语的待纠错词库;在纠错后的词库记录第一词语和第二词语的目标对应关系,并在纠错后的词库中标记目标对应关系对应的正确词语;获取目标用户的目标语音,并识别出目标语音包括的目标词语;在确定待纠错词库包括目标词语时,根据纠错后的词库记录的词语间的对应关系以及在纠错后的词库标记的词语间的对应关系对应的正确词语,查询目标词语对应的正确词语,以根据目标词语对应的正确词语对目标语音进行响应。其中,本申请实施例提及的语音,如第一语音、第二语音、目标语音可以为唤醒语音,根据唤醒语音类型的不同,这类语音转换得到的文本可以包括唤醒词,或包括唤醒词+指令,或包括指令,等等。唤醒词,用于将机器人从待机状态切换为工作状态。也就是说,唤醒词可以用于激活机器人。指令用于指示待执行的操作。需要说明的是,本申请实施例提及的语音除了可以为唤醒语音外,还可以为其它类型的语音,如问答语音、聊天语音,本申请实施例对其不做限制。相应地,根据这些语音转换得到的文本也可以为其它类型的文本,如问答文本、聊天文本,本申请实施例对其不做限制。
在一个实施例中,所述的第二语音可以是指在第一语音后获取的语音。第二语音的获取时间与第一语音的获取时间之间的时间间隔小于预设时间间隔。也就是说,第二语音可以是目标用户在录入第一语音后紧接着录入的语音。下面以电子设备为服务器为例,对所述的语音处理功能进行阐述。在一个应用场景中,存在用户基于先录入的语音并未获取到想要的响应,而后再录入一段语音以获取到想要的响应的情况,也就是说存在用户反复录入同一语音或表达含义相同或相近的语音的情况。服务器可以在这种情况下获取到由同一用户终端先后采集的一个语音,然后依次对先后采集的语音进行响应,例如可以先对先采集的语音进行处理返回一个响应结果数据至用户终端,而后再对后采集的语音进行处理返回另一个响应结果数据至用户终端。服务器在对其中一个语音的处理过程中,可以识别出这个语音包括的词语,并根据词语获取到一个响应结果数据,然后将这个响应结果数据返回至用户终端。服务器对另一个语音的处理过程可以参见上述过程,在此不做赘述。通过上面这种方式,服务器可以获取到先采集的语音包括的词语以及后采集的语音包括的词语,然后判断先采集的语音包括的词语是否为后采集的语音包括的词语的混淆词,并在确定先采集的语音包括的词语为后采集的语音包括的词语的混淆词时,将先采集的语音包括的词语添加至待纠错词库,以及在纠错后的词库记录先采集的语音包括的词语和后采集的语音包括的词语的对应关系,并在纠错后的词库中标记该对应关系对应的正确词语,以便于后续再新录入一段语音后,如果新录入的语音包括的词语能够在待纠错词库匹配到,这时便可以根据纠错后的词库找到新录入的语音包括的词语对应的正确词语,以根据这个新录入的语音包括的词语对应的正确词语获取正确的响应结果数据以返回至用户终端。在这个场景下,无论是因为用户发音问题还是录音设备质量原因又或是因为语音识别算法本身的问题导致用户需要反复录入具有相同或相似含义的语音来尝试获取正确的响应结果数据,本申请能够获取到由同一录音装置采集的两段语音,如获取到同一录音装置间隔较短时间采集的两段语音以进行混淆词的识别,从而自动更新维护待纠错词库和纠错后的词库。由于混淆词的识别以及待纠错词库的构建等过程是在用户无感知的情况下完成的,即是在用户正常使用语音处理功能的情况下完成的混淆词的识别以及待纠错词库的构建等过程,这种方式可以有效的提升用户对具有语音处理功能的相关产品的使用体验。并且,将不断完善的待纠错词库和纠错后的词库应用到整个语音识别过程,可以有效的提升语音识别的准确度,降低用户重复录入语音的可能性,进一步提升用户对具有语音处理功能的相关产品的使用体验。
在一个实施例中,所述的第二语音可以是指与第一语音同时或近乎同时采集的语音。第一语音可以由用户终端设置的第一录音装置采集,第二语音可以由用户终端设置的第二麦克风采集。第一录音装置和第二录音装置设置的位置不同。当用户终端仅设置一个录音装置时,随着用户与录音装置之间距离的变化,用户在不同位置时这个录音装置采集的语音也会发生变化,距离的远近会影响语音识别结果的准确度,例如用户距离这个录音装置较远时,这个录音装置采集的语音会十分不清晰,不清晰的语音会使得语音识别的准确度大大降低。下面以电子设备为服务器为例对所述的语音处理功能进行阐述。在一个应用场景中,用户录入语音期间,可以通过用户终端设置的两个录音装置同时采集用户的语音。服务器可以获取到这两个录音装置同时或近乎同时采集的语音,然后对其中的任一个采集的语音进行响应,或对其中的指定录音装置采集的语音进行响应。具体地,服务器可以对第一麦克风采集的第一语音进行处理返回一个响应结果数据至用户终端,或者对第二麦克风采集的第二语音进行处理返回另一个响应结果数据至用户终端。此处,服务器在对其中一个语音的处理过程中,可以识别出这个语音包括的词语,并根据词语获取到一个响应结果数据,然后将这个响应结果数据返回至用户终端。服务器对另一个语音的处理过程可以参见上述过程,在此不做赘述。通过上面这种方式,服务器可以获取到其中一个语音包括的词语,然后判断其中一个语音包括的词语是否为另一个语音包括的词语的混淆词,并在确定其中一个语音包括的词语为另一个语音包括的词语的混淆词时,将其中一个语音的词语添加至待纠错词库,以及在纠错后的词库记录其中一个语音包括的词语和另一个语音包括的词语的对应关系,并在纠错后的词库中标记该对应关系对应的正确词语,以便于后续再新录入一段语音后,如果确定新录入的语音包括的词语为混淆词,能够找到新录入的语音包括的词语对应的正确词语返回给用户终端正确的响应结果数据。在这个场景下,可以获取两个录音装置同时或近乎同时采集的语音以进行混淆词的分析判断,从而自动维护待纠错词库和纠错后的词库。在用户位置发生变化时,语音识别过程也能够有较好的适应性,能够降低用户与录音装置之间位置变化对语音识别准确度的影响。并且,混淆词的识别以及待纠错词库的构建等过程是在用户无感知的情况下完成的,即是在用户正常使用语音处理功能的情况下完成的混淆词的识别以及待纠错词库的构建等过程,这种方式可以有效的提升用户对具有语音处理功能的相关产品的使用体验。进一步地,将不断完善的待纠错词库和纠错后的词库应用到整个语音识别过程,可以有效的提升语音识别的准确度,降低用户重复录入语音的可能性,进一步提升用户对具有语音处理功能的相关产品的使用体验。
在其它实施例中,用户终端还可以设有除第一录音装置和第二录音装置之外的其它录音装置,也就是说用户终端可能有三个及以上录音装置。而本申请实施例中可以获取对其中任意两个录音装置或指定的两个录音装置的使用权限,然后指示这两个录音装置同时采集用户的语音,后续可以根据这两个录音装置同时或近乎同时采集的语音通过分析混淆词来更新维护待纠错词库和纠错后的词库。再之后,无论对于设有两个录音装置的用户终端又或是设有三个及以上录音装置的用户终端,可以进一步指示关闭整个语音识别过程中用于采集用户的语音的两个录音装置中的一个录音装置,然后利用剩下的一个录音装置来采集用户新录入的语音,并找到新录入的语音包括的词语对应的正确词语返回给用户终端正确的响应结果数据。此处,剩下的一个录音装置可以是这两个录音装置中的任一个录音装置,或还可以是这两个录音装置中质量更好的一个录音装置,在此不做限制。在其它实施例中,录音装置质量好坏可以是根据该录音装置的设备参数确定的,或还可以根据该录音装置对应的混淆词出现概率确定的,例如可能混淆词出现概率较高的录音装置其质量可能的就更差。
在一个实施例中,本申请实施例提及的混淆词可以通过如下方式确定:判断第一词语和第二词语是否相同,若不同,则确定第一词语和第二词语之间存在混淆词。例如,在所述的第二语音是指与第一语音同时或近乎同时采集的语音时,通过对第一词语和第二词语进行比较,如果发现第一词语与第二词语不同,说明第一词语和第二词语之间存在混淆词。或者,还可以在将根据第一词语获取的响应结果数据返回至用户终端后,若确定未收到来自用户终端的指定形式的响应,则表示第一词语可能为某个词的混淆词。在将根据第二词语获取的响应结果数据返回至用户终端后,若接收到来自用户终端的指定形式的响应,则可以表示第一词语为第二词语的混淆词语。例如,可以根据第一词语获取第一数量个标准问句以返回至用户终端。在将第一数量个标准问句返回至用户终端后,若未检测到用户从第一数量个问句中选择的一个问句,而是检测到用户又重新录入了第二语音,就说明对第一语音进行的响应并不是用户想要的响应。之后,可以根据第二词语获取第二数量个标准问句以返回至用户终端。在将第二数量个标准问句返回至用户终端后,若检测到用户从第二数量个问句中选择的一个问句,则表示第一词语可能是第二词语的混淆词。
在一个实施例中,本申请实施例提及的响应结果数据可以为音频数据、图片数据、视频数据等类型的数据,或者还可以为替换混淆词后得到的文本信息、答复消息等类型的数据。答复消息可以为聊天消息,问答消息等类别的消息,答复消息包括但不限于以文本形式或语音形式等形式呈现。需要说明的是,多数情况下,响应结果数据取决于语音处理功能应用的设备的类型、应用软件的类型或功能模块的类型,根据其应用的不同,其响应结果数据也不同。例如,当语音处理功能用于智能音箱时,其响应结果数据可以为音乐数据,等等。再如,当语音处理功能用于智能客服机器人时,其响应结果数据可以为问答消息,等等。还需要说明的是,前述提及的根据词语对语音进行响应的方式,均是以根据词语获取响应结果数据以返回至用户终端为例来进行说明的,而事实上,语音处理功能在一些场景下可能是用于辅助实现其它功能,其响应方式根据其它功能的不同,也存在一定差异。也就是说,除了给到用户终端响应结果数据这种方式,也可以是执行一些其它的操作,例如,可以直接根据词语对其它设备进行一些控制或者进行一些数据的发送,等等。
本申请涉及区块链技术,如所述的响应结果数据可以存储于区块链中,电子设备可以从区块链获取所述的响应数据。或者,本申请实施例所述的语音可以加密后存储于区块链中,电子设备可以从区块链获取加密后的语音,并解密获得语音。
基于上述描述,本申请实施例提供了一种语音处理方法。该方法可以应用于前述提及的电子设备。具体地,请参见图1,该语音处理方法可以包括以下步骤:
S101、分别获取目标用户的第一语音和第二语音,并识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语。
S102、根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应。
本申请实施例中,电子设备可以获取目标用户的第一语音,并将第一语音转为第一文本。这里,电子设备可以使用语音识别技术对第一语音进行语音识别,得到第一文本。第一文本由一个或多个词组成。也就是说,电子设备可以识别出第一语音包括的一个或多个词。需要说明的是,本申请实施例提及的词由一个或多个字构成。在一个实施例中,所指的第一词语可以指所述第一文本包括的关键词,第一文本包括的关键词,可以指在对第一文本进行分词处理后,从分词结果集合提取的关键分词结果。
在一个实施例中,电子设备可以直接根据第一词语对第一语音进行响应,例如在语音搜索的场景下,可以根据识别出的词语搜索到对应的数据,然后通过用户终端输出搜索到的数据。又或是在语音聊天的场景下,可以根据识别出的词语匹配出聊天内容,然后通过用户终端输出聊天内容。在一个实施例中,电子设备还可以根据第一词语以及第一文本中除第一词语之外的其它词语对第一语音进行响应。例如,电子设备可以直接根据第一文本进行响应。在语音搜索的场景下,可以根据识别出的文本搜索到对应的数据,然后通过用户终端输出搜索到的数据。又或是在语音聊天的场景下,可以根据识别出的文本匹配出聊天内容,然后通过用户终端输出聊天内容。在一个实施例中,所述的第一文本中除第一词语之外的其它词语,可以指第一文本中除第一词语之外的所有词语,或可以指第一文本包括的会对响应方式或响应结果数据产生影响的重要词语。
在一个实施例中,在根据第一词语对第一语音进行响应时,电子设备还可以查询待纠错词库是否包括第一词语。若待纠错词库包括第一词语,则根据纠错后的词库包括的词语间的对应关系以及纠错后的词库标记的该对应关系对应的正确词语,查询第一词语对应的正确词语,并根据第一词语对应的正确词语对第一语音进行响应或根据第一词语对应的正确词语以及第一文本中除第一词语之外的其它词语对第一语音进行响应。在一个实施例中,若待纠错词库不包括第一词语,电子设备则直接根据第一词语对第一语音进行响应或根据第一词语以及第一文本中除第一词语之外的其它词语对第一语音进行响应。
同理,本申请实施例中,电子设备可以获取目标用户的第二语音,并将第二语音转为第二文本。这里,电子设备可以使用语音识别技术对第二语音进行语音识别,得到第二文本。第二文本由一个或多个词组成。也就是说,电子设备可以识别出第二语音包括的一个或多个词。需要说明的是,本申请实施例提及的词由一个或多个字构成。在一个实施例中,所指的第二词语可以指所述第二文本包括的关键词,第二文本包括的关键词,可以指在对第二文本进行分词处理后,从分词结果集合提取的关键分词结果。
同理,在一个实施例中,电子设备可以直接根据第二词语对第二语音进行响应,例如在语音搜索的场景下,可以根据识别出的词语搜索到对应的数据,然后通过用户终端输出搜索到的数据。又或是在语音聊天的场景下,可以根据识别出的词语匹配出聊天内容,然后通过用户终端输出聊天内容。在一个实施例中,电子设备还可以根据第二词语以及第二文本中除第二词语之外的其它词语对第二语音进行响应。例如,电子设备可以直接根据第二文本进行响应。例如在语音搜索的场景下,可以根据识别出的文本搜索到对应的数据,然后通过用户终端输出搜索到的数据。又或是在人与机器人语音聊天的场景下,可以根据识别出的文本匹配出聊天内容,然后通过用户终端输出聊天内容。在一个实施例中,所述的第二文本中除第二词语之外的其它词语,可以指第二文本中除第二词语之外的所有词语,或可以指第二文本包括的会对响应方式或响应结果数据产生影响的重要词语。
同理,在一个实施例中,在根据第二词语对第二语音进行响应时,电子设备还可以查询待纠错词库是否包括第二词语。若待纠错词库包括第二词语,则根据纠错后的词库包括的词语间的对应关系以及纠错后的词库标记的该对应关系对应的正确词语,查询第二词语对应的正确词语,并根据第二词语对应的正确词语对第二语音进行响应或根据第二词语对应的正确词语以及第二文本中除第二词语之外的其它词语对第二语音进行响应。在一个实施例中,若待纠错词库不包括第二词语,电子设备则直接根据第二词语对第二语音进行响应或根据第二词语以及第二文本中除第二词语之外的其它词语对第二语音进行响应。
在一个实施例中,可以在先获取第一语音,对第一语音进行响应后,再获取第二语音,然后再对第二语音进行响应。或者,可以同时获取第一语音及第二语音,并对第一语音进行响应或对第二语音进行响应。
S103、在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库。
S104、在纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在所述纠错后的词库中标记所述目标对应关系对应的正确词语。
本申请实施例中,电子设备在确定所述第一词语为所述第二词语的混淆词时,可以将第一词语更新至待纠错词库。
在一个实施例中,电子设备可以在查询到待纠错词库不存在第一词语时,将第一词语更新至待纠错词库。在一个实施例中,电子设备可以无需关注待纠错词库是否存在第一词语,直接将第一词语更新至待纠错词库。这种情况下,待纠错词库除了包括第一词语之外,还可以包括每个第一词语的更新时间。
需要说明的是,由于这里的第二词语不一定就是正确的词语,因此在确定第二词语同样为某个词的混淆词时,也就是在确定第二词语也不为正确的词语时,可以构建包括第一词语和第二词语的待纠错词库,第一词语和第二词语互为混淆词语。同样,在获取到目标用户的第三语音的情况下,例如获取到在第一语音和/或第二语音后输入的第三语音的情况下,可以根据第三语音获取到第三词语,并在确定第二词语为第三词语的混淆词时,构建包括第一词语和第二词语的待纠错词库,同时,还可以记录第一词语、第二词语、第三词语三者之间的目标对应关系,此处目标对应关系就更新为这三个词的对应关系。当目标对应关系中存在一个词语为目标对应关系中其它词语的正确词语,则标记这个词语为正确词语。若目标对应关系中不存在一个词语为目标对应关系中其它词语的正确词语,则为目标对应关系中的各个词语添加对应的正确词语。也就是说,标记正确词语的过程,可以从目标对应关系中找出正确词语标记,或者针对目标对应关系添加对应的正确词语。在一个实施例中,标记正确词语的过程,可以是通过用户终端输出目标对应关系,以由目标用户来标记正确词语。除了采用这种标记方式,也可以采用其他方式,在此不一一赘述。
在一个实施例中,电子设备判断第一词语是否为第二词语的混淆词语的方式可以如下:电子设备可以获取第二词语中每个字的拼音,并确定每个字的拼音对应的相似拼音;电子设备根据每个字的拼音对应的相似拼音获取每个字对应的目标关键字集合;电子设备从第二词语中选取第三关键字,并从第三关键字对应的目标关键字集合中确定出目标子关键字集合;电子设备利用目标子关键字集合中各个关键字依次对第二词语执行针对第三关键字的替换操作,得到替换后的词语集合,替换后的词语集合包括每次替换后的词语;电子设备当替换后的词语集合包括第一词语时,将第一词语确定为第二词语的混淆词。其中,第二词语包括第一关键字,第一关键字对应的目标关键字集合包括第二关键字,第二关键字的拼音为第一关键字的拼音的相似拼音。拼音是指由两个或两个以上因素复合而成的音。相似拼音,例如包括某一前鼻音字母的第一拼音对应的相似拼音可以为第二拼音,第二拼音包括该前鼻音字母对应的后鼻音字母以及第一拼音中除该前鼻音字母外的其它字母。例如,lan对应的相似拼音可以为nan。再如,包括某一卷舌字母的第三拼音对应的相似拼音可以为第四拼音,第四拼音包括该卷舌字母对应的平舌字母以及第三拼音中除该卷舌字母外的其它字母。例如,shi对应的相似拼音可以为si。再如,包括z或zhi的第五拼音的相似拼音可以为第六拼音,第六拼音包括j以及包括第五拼音中除z或zhi外的其它字母。例如,zhi对应的相似拼音可以为ji。再如,包括c或chi的第七拼音的相似拼音可以为第八拼音,第八拼音包括q以及包括第七拼音中除c或chi外的其它字母。
举例来说,假设第一词语为“四年”,第二词语为“十年”。电子设备可以获取“十年”中每个字的拼音,即“shi”和“nian”。在获得每个字拼音后,可以确定每个字的拼音对应的相似拼音。这里“shi”的相似拼音包括“si”,“nian”的相似拼音包括“lian”。电子设备可以根据“si”获取“十”对应的目标关键字集合,包括“四”、“司”“思”等关键字,并还可以根据“nian”获取“年”对应的目标关键字集合,包括“连”“链”“联”等关键字。电子设备从“十年”选取“十”,并从“十”对应的目标关键字集合中确定出目标子关键字集合,包括“四”等关键字;电子设备利用目标子关键字集合中各个关键字依次对“十年”执行针对“十”的替换操作,得到替换后的词语集合,替换后的词语集合包括每次替换后的词语,如“四年”等词语。这里,电子设备可以确定当替换后的词语集合包括“四年”这一词语,因此可以将“四年”确定为“十年”混淆词。需要说明的是,以上仅为针对第二词语中的某一个字进行替换的示例,电子设备还可以对第二词语中的两个及两个以上的关键字进行替换,得到替换后的词语集合,例如在上面的示例中可以得到包括“思念”“四连”等词语的替换后的词语集合。
在一个实施例中,电子设备可以获取相似拼音表,记录了多组相似拼音,并根据该相似拼音表确定每个字的拼音对应的相似拼音。在一个实施例中,电子设备可以构建多种语言类型中每种语言类型对应的相似拼音表,电子设备还可以根据第一语音和/或第二语音识别目标用户的语音类型。语音类型可以普通话或某种方言,等等。之后,电子设备可以获取目标用户的语音类型对应的相似拼音表,并根据目标用户的语音类型对应的相似拼音表确定每个字的拼音对应的相似拼音。
在一个实施例中,电子设备判断第一词语是否为第二词语的混淆词语的方式还可以如下:电子设备识别第一词语是否为第二词语的同音词,在第一词语为第二词语的同音词时,确定第一词语为第二词语的混淆词语。
S105、获取所述目标用户的目标语音,并识别出所述目标语音包括的目标词语。
本申请实施例中,电子设备可以获取目标用户的目标语音,并根据由目标语音转换得到的文本获取目标词语。其中,电子设备可以通过语音识别技术进行来进行语音到文本的转换,在此不做赘述。获取目标词语的方式可以参见前述获取第一词语的方式,在此不做赘述。
S106、在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语。
S107、根据所述目标词语对应的正确词语对所述目标语音进行响应。
其中,目标词语对应的正确词语可以为一个或多个。
在一个实施例中,由于一个词语在不同语言环境下有不同的含义,因此其对应的正确词语也可能为多个,电子设备可以当目标词语对应多个正确词语时,对由目标语音转换得到的文本进行特征提取,得到该文本的语义向量,并进一步计算该文本的语义向量与多个正确词语中每个正确词语对应的参考文本的语义向量之间的语义相似度,然后从多个正确词语中确定出语义相似度最大的正确词语,从而根据语义相似度最大的正确词语对目标语音进行响应。该过程可以将词语以及纠错后的词语代入各自对应的文本语义环境中去理解,以找到语义上最匹配的纠错后的词语。
在一个实施例中,当目标词语对应多个正确词语时,电子设备可以获取多个正确词语中每个正确词语的匹配权重,并根据每个正确词语的匹配权重,从多个正确词语中确定出匹配权重最高的正确词语,从而根据匹配权重最高的正确词语对目标语音进行响应。
在一个实施例中,正确词语的匹配权重可以是根据正确词语的标记次数确定的。相应地,电子设备获取多个正确词语中每个正确词语的匹配权重的方式可以为:电子设备统计多个正确词语中每个正确词语的标记次数,并根据标记次数确定每个词语的匹配权重。本申请实施例中,对于标记次数越高的正确词语可以给与更高的匹配权重。
在一个实施例中,正确词语的匹配权重还可以是根据正确词语的评分数据确定的。相应地,电子设备获取多个正确词语中每个正确词语的匹配权重的方式可以为:电子设备获取多个正确词语中每个正确词语的评分数据,并根据评分数据确定每个词语的匹配权重。例如,对于评分越高的正确词语给与更高的匹配权重。
在一个实施例中,所述的评分数据可以由目标用户设置,或者根据多个用户中每个用户对多个正确词语中每个正确词语的评分数据确定出。对于后者,在实际的应用过程中,有可能待纠错词库以及纠错后的词库并非是单独针对每个用户来进行维护的,有可能多个用户共用同一纠错后的词库,然而,因为个体的差异,对一些待纠错词语对应的正确词语的判断结果可能不同,这时可以获取多个用户中每个用户对目标词语对应的多个正确词语中每个正确词语的评分数据,并根据多个用户中每个用户对目标词语对应的多个正确词语中每个正确词语的评分数据确定出每个词语的评分数据。例如,多个用户包括用户1、用户2和用户3,多个正确词语包括正确词语a。电子设备可以对用户1对正确词语a的评分数据、用户2对正确词语a的评分数据、用户3对正确词语a的评分数据,也就是对这三个数据取平均,得到对正确词语a的评分数据。
在一个实施例中,电子设备根据匹配权重最高的正确词语对目标语音进行响应的方式可以为电子设备根据匹配权重最高的正确词语获取对目标语音的目标响应结果数据以返回至目标用户对应的用户终端。在根据匹配权重最高的正确词语对目标语音进行响应之后,电子设备可以当检测到用户终端根据目标响应结果数据反馈的信息时,根据反馈的信息更新匹配权重最高的词语的匹配权重。例如,电子设备可以判断是否有检测到用户终端根据第一响应结果反馈的数据,当反馈的数据为第一形式的数据时,增加匹配权重最高的纠错后的词语的匹配权重,在反馈的数据为第二形式的数据时,减小对确定出的匹配权重最高的纠错后的词语的匹配权重。也就是说,纠错后的词语的匹配权重取决于收到用户终端反馈的什么形式的数据。
可见,图1所示的实施例中,电子设备可以分别获取目标用户的第一语音和第二语音,并识别出第一语音包括的第一词语以及第二语音包括的第二词语;电子设备可以根据第一词语对第一语音进行响应和/或根据第二词语对第二语音进行响应;电子设备可以在确定第一词语为第二词语的混淆词时,构建包括第一词语的待纠错词库,并在纠错后的词库记录第一词语和第二词语的目标对应关系,并在纠错后的词库中标记目标对应关系对应的正确词语;电子设备获取目标用户的目标语音,并识别出目标语音包括的目标词语;电子设备在确定待纠错词库包括目标词语时,根据纠错后的词库记录的词语间的对应关系以及在纠错后的词库标记的词语间的对应关系对应的正确词语,查询目标词语对应的正确词语,并根据目标词语对应的正确词语对目标语音进行响应,本申请实施例结合待纠错词库以及纠错后的词库确定正确词语以对语音进行响应的方式,能够提升语音识别的准确度,并提升用户体验。
请参阅图2,为本申请再一实施例提供的一种语音处理方法的流程示意图。该方法可以应用于前述提及的电子设备。具体地,该方法可以包括以下步骤:
S201、分别获取目标用户的第一语音和第二语音,并记录所述第一语音的获取时间以及所述第二语音的获取时间。
S202、根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应。
其中,电子设备获取目标用户的第一语音和第二语音的可以参见图1实施例的步骤S101,电子设备根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应可以参见图1实施例的步骤S102,本申请实施例在此不做赘述。
S203、获取记录的所述第一语音的获取时间以及所述第二语音的获取时间。
S204、获取目标埋点事件被触发时记录的触发时间以及采集的文本。
S205、根据所述第一语音的获取时间、所述第二语音的获取时间和所述触发时间,判断所述采集的文本是否包括目标文本。
S206、在确定所述采集的文本包括所述目标文本后,判断所述第一词语是否为第二词语的混淆词。
在步骤S203-步骤S206中,电子设备可以获取记录的第一语音的获取时间、第二语音的获取时间,并获取目标埋点事件被触发时记录的触发时间以及采集的文本;电子设备根据第一语音的获取时间、第二语音的获取时间和触发时间,判断采集的文本是否包括目标文本;电子设备可以在确定采集的文本包括目标文本后,判断第一词语是否为第二词语的混淆词。
在一个实施例中,目标文本可以包括第一词语以及第一文本中除第一词语外的其它词语。例如,目标文本可以为第一文本。或目标文本可以包括第一词语对应的正确词语以及第一文本中除第一词语外的其它词语。例如,目标文本可以为对第一文本执行混淆词替换操作后得到的文本。目标埋点事件可以是在检测到对目标控件的触控操作时,获取操作的时间以及操作的文本。目标埋点事件被触发时记录的触发时间即为所述的操作的时间,目标埋点事件被触发时采集的文本即为所述的操作的文本。下面对本申请实施例的相关应用进行阐述。
在一个实施例中,本申请实施例的语音处理过程可以是对现有技术的语音转文字功能的优化,也就是对现有技术的语音识别技术的优化。现有技术的语音转文字功能,一般是在根据语音转出文字后,即在通过语音识别技术识别出文字后,通过用户终端直接输出转出的文字。用户在发现转出的文字并非是他想要的转换结果时,会不断录入相似或相同的语音以获取理想的转换结果,而现有技术由于缺乏相应的优化措施,即便用户重新录入语音,但是用户获取的转换结果极大程度上仍然不是用户想要的转换结果。而本申请实施例引入混淆词判断来优化待纠错词库以及纠错后的词库,从而基于优化后的词库对新录入的语音进行响应,可以根据优化后的词库反馈给用户较为正确的转换结果,达到最终呈现给用户较优转换结果的目的。并且,本申请实施例引入目标埋点事件,可以不必对连续录入的多段语音中每连续录入的两段语音都执行一个混淆词的判断操作,能够减少对电子设备的运行资源的消耗。在一个应用场景中,目标用户可以在发现由初始录入语音转换出的文字错误时,在用户终端点击取消发送按钮以取消发送转换出的文字。之后,目标用户可以再次录入语音,并通过电子设备获取到再次录入的语音转换出的文字,并在将再次录入的语音转为文字后,通过用户终端输出。在这个场景下,所指的目标埋点事件可以是当检测到对取消发送按钮的点击操作时,记录取消发送的时间以及取消发送的文字。
S207、在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库。
S208、在所述纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在所述纠错后的词库中标记所述目标对应关系对应的正确词语。
S209、获取所述目标用户的目标语音,并识别出所述目标语音包括的目标词语。
S210、在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语。
S211、根据所述目标词语对应的正确词语对所述目标语音进行响应。
其中,步骤S207-步骤S211可以参见图1实施例的步骤S103-步骤S107,在此不做赘述。
在一个实施例中,电子设备还可以针对获取的语音识别出该语音对应的词语碰撞场景(容易出现混淆词的场景),然后针对不同碰撞场景建立不同的待纠错词库以及纠错后的词库。后续在获取目标用户的目标语音后,可以确定目标语音对应的目标碰撞场景,进而根据碰撞场景和词库的对应关系确定目标碰撞场景对应的目标待纠错词库和目标碰撞场景对应的目标纠错后的词库。电子设备在将目标语音转为目标文本并根据目标文本获取目标词语后,若确定目标待纠错词库包括目标词语,则可以根据目标纠错后的词库记录的词语间的对应关系以及在目标纠错后的词库标记的词语间的对应关系对应的正确词语,查询目标词语对应的正确词语,从而根据目标词语对应的正确词语对目标语音进行响应,该过程可来针对语音进行更为准确的响应。
在一个实施例中,在获取到目标用户的任一语音(如第一语音、第二语音、目标语音)后,可以提取该语音的声纹信息,查询该目标用户的声纹库中是否存在该声纹信息,则执行识别出该语音包括的词语的步骤。通过声纹的比对,能够限制对语音处理功能的使用权限。
在一个实施例中,电子设备还可以在将目标用户的任一语音(如第一语音、第二语音、目标语音)转换为对应的文本后,判断文本的长度是否在预设长度范围内,若文本的长度在预设长度范围内,则执行识别出语音包括的词语的步骤。例如,在语音唤醒等场景下,通过判断文本的长度是否在预设长度范围内,能够降低电子设备因出现获取到包括与唤醒词发音相同的词语的一大段语音等情况导致设备被错误唤醒的概率。
可见,图2所示的实施例中,电子设备可以获取记录的所述第一语音的获取时间、第二语音的获取时间、目标埋点事件被触发时记录的触发时间以及采集的文本;然后,电子设备根据所述第一语音的获取时间、所述第二语音的获取时间和所述触发时间,判断所述采集的文本是否包括目标文本;之后,电子设备可以在确定所述采集的文本包括目标文本后,判断所述第一词语是否为第二词语的混淆词,并在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库,在纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在所述纠错后的词库中标记所述目标对应关系对应的正确词语,这种方式能够通过埋点事件的设置自动化智能化的进行混淆词的判断,进而达到自动维护待纠错词库和纠错后的词库的目的。
请参阅图3,为本申请实施例提供的一种语音处理装置的结构示意图。该语音处理装置可应用于前述提及的电子设备。具体地,该装置可以包括:
获取模块301,用于分别获取目标用户的第一语音和第二语音。
识别模块302,用于识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语。
处理模块303,用于根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应。
处理模块303,还用于在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库,以及在所述纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在纠错后的词库中标记所述目标对应关系对应的正确词语。
获取模块301,还用于获取所述目标用户的目标语音。
识别模块302,还用于识别出所述目标语音包括的目标词语。
处理模块303,还用于在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语,并根据所述目标词语对应的正确词语对所述目标语音进行响应。
在一种可选的实施方式中,处理模块303根据所述目标词语对应的正确词语对所述目标语音进行响应,具体为当目标词语对应多个正确词语时,获取所述多个正确词语中每个正确词语的匹配权重;根据所述每个正确词语的匹配权重,从所述多个正确词语中确定出匹配权重最高的正确词语;根据所述匹配权重最高的正确词语对所述目标语音进行响应。
在一种可选的实施方式中,处理模块303获取所述多个正确词语中每个正确词语的匹配权重,具体为获取所述多个正确词语中每个正确词语的评分数据;根据所述每个正确词语的评分数据确定所述每个正确词语的匹配权重。
在一种可选的实施方式中,处理模块303根据所述匹配权重最高的正确词语对所述目标语音进行响应,具体为根据所述匹配权重最高的正确词语获取对所述目标语音的目标响应结果数据以返回至目标用户对应的用户终端。
在一种可选的实施方式中,处理模块303在根据所述匹配权重最高的正确词语对所述目标语音进行响应之后,当检测到所述用户终端根据所述目标响应结果数据反馈的信息时,根据所述反馈的信息更新所述匹配权重最高的词语的匹配权重。
在一种可选的实施方式中,处理模块303根据所述目标词语对应的正确词语对所述目标语音进行响应,具体为当所述目标词语对应多个正确词语时,对由所述目标语音转换得到的文本进行特征提取,得到所述目标文本的语义向量;计算所述目标文本的语义向量与所述多个正确词语中每个正确词语对应的参考文本的语义向量之间的语义相似度;从所述多个正确词语中确定出语义相似度最大的正确词语,根据所述语义相似度最大的正确词语对所述目标语音进行响应。
在一种可选的实施方式中,处理模块303,还用于获取所述第二词语中每个字的拼音;确定所述每个字的拼音对应的相似拼音;根据所述每个字的拼音对应的相似拼音获取所述每个字对应的目标关键字集合,所述第二词语包括第一关键字,所述第一关键字对应的目标关键字集合包括第二关键字,所述第二关键字的拼音为所述第一关键字的拼音的相似拼音;从所述第二词语中选取第三关键字,并从所述第三关键字对应的目标关键字集合中确定出目标子关键字集合;利用所述目标子关键字集合中各个关键字依次对所述第二词语执行针对所述第三关键字的替换操作,得到替换后的词语集合,所述替换后的词语集合包括每次替换后的词语;当所述替换后的词语集合包括所述第一词语时,将所述第一词语确定为所述第二词语的混淆词。
在一种可选的实施方式中,处理模块303,还用于记录所述第一语音的获取时间;记录所述第二语音的获取时间。
在一种可选的实施方式中,处理模块303,还用于在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库之前,获取记录的所述第一语音的获取时间以及所述第二语音的获取时间;获取目标埋点事件被触发时记录的触发时间以及采集的文本;根据所述第一语音的获取时间、所述第二语音的获取时间和所述触发时间,判断所述采集的文本是否包括目标文本;在确定所述采集的文本包括所述目标文本后,判断所述第一词语是否为第二词语的混淆词。
可见,图3所示的实施例中,语音处理装置可以分别获取目标用户的第一语音和第二语音,并识别出第一语音包括的第一词语以及第二语音包括的第二词语;语音处理装置可以根据第一词语对第一语音进行响应和/或根据第二词语对第二语音进行响应;语音处理装置可以在确定第一词语为第二词语的混淆词时,构建包括第一词语的待纠错词库,并在纠错后的词库记录第一词语和第二词语的目标对应关系,并在纠错后的词库中标记目标对应关系对应的正确词语;语音处理装置获取目标用户的目标语音,并识别出目标语音包括的目标词语;语音处理装置在确定待纠错词库包括目标词语时,根据纠错后的词库记录的词语间的对应关系以及在纠错后的词库标记的词语间的对应关系对应的正确词语,查询目标词语对应的正确词语,并根据目标词语对应的正确词语对目标语音进行响应,本申请实施例结合待纠错词库以及纠错后的词库确定正确词语以对语音进行响应,能够提升语音识别的准确度,并提升用户体验。
请参阅图4,为本申请实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备可以包括:一个或多个处理器1000和存储器2000。处理器1000和存储器2000可以通过总线等方式连接。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器2000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器2000用于存储一组程序代码,处理器1000可以调用存储器2000中存储的程序代码。具体地:
处理器1000,用于分别获取目标用户的第一语音和第二语音,并识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语;根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应;在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库;在纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在所述纠错后的词库中标记所述目标对应关系对应的正确词语;获取所述目标用户的目标语音,并识别出所述目标语音包括的目标词语;在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语;根据所述目标词语对应的正确词语对所述目标语音进行响应。
在一个实施例中,处理器1000在根据所述目标词语对应的正确词语对所述目标语音进行响应时,具体用于当目标词语对应多个正确词语时,获取所述多个正确词语中每个正确词语的匹配权重;根据所述每个正确词语的匹配权重,从所述多个正确词语中确定出匹配权重最高的正确词语;根据所述匹配权重最高的正确词语对所述目标语音进行响应。
在一个实施例中,处理器1000在获取所述多个正确词语中每个正确词语的匹配权重时,具体用于获取所述多个正确词语中每个正确词语的评分数据;根据所述每个正确词语的评分数据确定所述每个正确词语的匹配权重。
在一个实施例中,处理器1000在根据所述匹配权重最高的正确词语对所述目标语音进行响应时,具体用于根据所述匹配权重最高的正确词语获取对所述目标语音的目标响应结果数据以返回至目标用户对应的用户终端;处理器1000在根据所述匹配权重最高的正确词语对所述目标语音进行响应之后,还用于当检测到所述用户终端根据所述目标响应结果数据反馈的信息时,根据所述反馈的信息更新所述匹配权重最高的词语的匹配权重。
在一个实施例中,处理器1000在根据所述目标词语对应的正确词语对所述目标语音进行响应时,具体用于当所述目标词语对应多个正确词语时,对由所述目标语音转换得到的文本进行特征提取,得到所述目标文本的语义向量;计算所述目标文本的语义向量与所述多个正确词语中每个正确词语对应的参考文本的语义向量之间的语义相似度;从所述多个正确词语中确定出语义相似度最大的正确词语,根据所述语义相似度最大的正确词语对所述目标语音进行响应。
在一个实施例中,处理器1000,还用于获取所述第二词语中每个字的拼音;确定所述每个字的拼音对应的相似拼音;根据所述每个字的拼音对应的相似拼音获取所述每个字对应的目标关键字集合,所述第二词语包括第一关键字,所述第一关键字对应的目标关键字集合包括第二关键字,所述第二关键字的拼音为所述第一关键字的拼音的相似拼音;从所述第二词语中选取第三关键字,并从所述第三关键字对应的目标关键字集合中确定出目标子关键字集合;利用所述目标子关键字集合中各个关键字依次对所述第二词语执行针对所述第三关键字的替换操作,得到替换后的词语集合,所述替换后的词语集合包括每次替换后的词语;当所述替换后的词语集合包括所述第一词语时,将所述第一词语确定为所述第二词语的混淆词。
在一个实施例中,处理器1000,还用于记录所述第一语音的获取时间;记录所述第二语音的获取时间;处理器1000,还用于在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库之前,获取记录的所述第一语音的获取时间以及所述第二语音的获取时间;获取目标埋点事件被触发时记录的触发时间以及采集的文本;根据所述第一语音的获取时间、所述第二语音的获取时间和所述触发时间,判断所述采集的文本是否包括所述目标文本;在确定所述采集的文本包括所述目标文本后,判断所述第一词语是否为第二词语的混淆词。
具体实现中,本申请实施例中所描述的处理器1000可执行图1实施例、图2实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现,也可以采样软件功能模块的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为易失性的或非易失性的。例如,该计算机存储介质可以为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

Claims (10)

1.一种语音处理方法,其特征在于,包括:
分别获取目标用户的第一语音和第二语音,并识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语;
根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应;
在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库;
在纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在所述纠错后的词库中标记所述目标对应关系对应的正确词语;
获取所述目标用户的目标语音,并识别出所述目标语音包括的目标词语;
在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语;
根据所述目标词语对应的正确词语对所述目标语音进行响应。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标词语对应的正确词语对所述目标语音进行响应,包括:
当目标词语对应多个正确词语时,获取所述多个正确词语中每个正确词语的匹配权重;
根据所述每个正确词语的匹配权重,从所述多个正确词语中确定出匹配权重最高的正确词语;
根据所述匹配权重最高的正确词语对所述目标语音进行响应。
3.根据权利要求2所述的方法,其特征在于,所述获取所述多个正确词语中每个正确词语的匹配权重,包括:
获取所述多个正确词语中每个正确词语的评分数据;
根据所述每个正确词语的评分数据确定所述每个正确词语的匹配权重。
4.根据权利要求2所述的方法,其特征在于,所述根据所述匹配权重最高的正确词语对所述目标语音进行响应,包括:
根据所述匹配权重最高的正确词语获取对所述目标语音的目标响应结果数据以返回至目标用户对应的用户终端;
所述根据所述匹配权重最高的正确词语对所述目标语音进行响应之后,所述方法还包括:
当检测到所述用户终端根据所述目标响应结果数据反馈的信息时,根据所述反馈的信息更新所述匹配权重最高的词语的匹配权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标词语对应的正确词语对所述目标语音进行响应,包括:
当所述目标词语对应多个正确词语时,对由所述目标语音转换得到的文本进行特征提取,得到所述目标文本的语义向量;
计算所述目标文本的语义向量与所述多个正确词语中每个正确词语对应的参考文本的语义向量之间的语义相似度;
从所述多个正确词语中确定出语义相似度最大的正确词语,根据所述语义相似度最大的正确词语对所述目标语音进行响应。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第二词语中每个字的拼音;
确定所述每个字的拼音对应的相似拼音;
根据所述每个字的拼音对应的相似拼音获取所述每个字对应的目标关键字集合,所述第二词语包括第一关键字,所述第一关键字对应的目标关键字集合包括第二关键字,所述第二关键字的拼音为所述第一关键字的拼音的相似拼音;
从所述第二词语中选取第三关键字,并从所述第三关键字对应的目标关键字集合中确定出目标子关键字集合;
利用所述目标子关键字集合中各个关键字依次对所述第二词语执行针对所述第三关键字的替换操作,得到替换后的词语集合,所述替换后的词语集合包括每次替换后的词语;
当所述替换后的词语集合包括所述第一词语时,将所述第一词语确定为所述第二词语的混淆词。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
记录所述第一语音的获取时间;
记录所述第二语音的获取时间;
所述在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库之前,所述方法还包括:
获取记录的所述第一语音的获取时间以及所述第二语音的获取时间;
获取目标埋点事件被触发时记录的触发时间以及采集的文本;
根据所述第一语音的获取时间、所述第二语音的获取时间和所述触发时间,判断所述采集的文本是否包括目标文本;
在确定所述采集的文本包括所述目标文本后,判断所述第一词语是否为第二词语的混淆词。
8.一种语音处理装置,其特征在于,包括:
获取模块,用于分别获取目标用户的第一语音和第二语音;
识别模块,用于识别出所述第一语音包括的第一词语以及所述第二语音包括的第二词语;
处理模块,用于根据所述第一词语对所述第一语音进行响应和/或根据所述第二词语对所述第二语音进行响应;
所述处理模块,还用于在确定所述第一词语为所述第二词语的混淆词时,构建包括所述第一词语的待纠错词库,以及在所述纠错后的词库记录所述第一词语和所述第二词语的目标对应关系,并在纠错后的词库中标记所述目标对应关系对应的正确词语;
所述获取模块,还用于获取所述目标用户的目标语音;
所述识别模块,还用于识别出所述目标语音包括的目标词语;
所述处理模块,还用于在确定所述待纠错词库包括所述目标词语时,根据所述纠错后的词库记录的词语间的对应关系以及在所述纠错后的词库标记的所述词语间的对应关系对应的正确词语,查询所述目标词语对应的正确词语,并根据所述目标词语对应的正确词语对所述目标语音进行响应。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-7任一项所述的方法。
CN202111535535.5A 2021-12-15 2021-12-15 一种语音处理方法、装置、电子设备及存储介质 Pending CN114242047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111535535.5A CN114242047A (zh) 2021-12-15 2021-12-15 一种语音处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111535535.5A CN114242047A (zh) 2021-12-15 2021-12-15 一种语音处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114242047A true CN114242047A (zh) 2022-03-25

Family

ID=80756465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111535535.5A Pending CN114242047A (zh) 2021-12-15 2021-12-15 一种语音处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114242047A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473805A (zh) * 2022-07-29 2022-12-13 青岛海尔科技有限公司 设备的更新方法和装置、存储介质及电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473805A (zh) * 2022-07-29 2022-12-13 青岛海尔科技有限公司 设备的更新方法和装置、存储介质及电子装置
CN115473805B (zh) * 2022-07-29 2024-04-19 青岛海尔科技有限公司 设备的更新方法和装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN107818781B (zh) 智能交互方法、设备及存储介质
CN108170859B (zh) 语音查询的方法、装置、存储介质及终端设备
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN107832286B (zh) 智能交互方法、设备及存储介质
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN107797984B (zh) 智能交互方法、设备及存储介质
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN111523306A (zh) 文本的纠错方法、装置和系统
CN109979450B (zh) 信息处理方法、装置及电子设备
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
KR101891498B1 (ko) 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US20180068659A1 (en) Voice recognition device and voice recognition method
CN108682421B (zh) 一种语音识别方法、终端设备及计算机可读存储介质
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN110874401A (zh) 信息处理方法、模型训练方法、装置、终端及计算设备
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
CN114678027A (zh) 语音识别结果的纠错方法、装置、终端设备及存储介质
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination