CN111354342B

CN111354342B - 一种个性化词库的更新方法、装置、设备及存储介质

Info

Publication number: CN111354342B
Application number: CN202010128641.0A
Authority: CN
Inventors: 沈法琳; 孔鑫柱; 吴国兵; 潘嘉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-07-25
Anticipated expiration: 2040-02-28
Also published as: CN111354342A

Abstract

本申请提供了一种个性化词库的更新方法、装置、设备及存储介质，方法包括：在进行语音交互后，根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词，其中，识别文本为根据当前个性化词库对输入语音进行识别得到的文本；根据目标关键词更新当前的个性化词库，将更新后的词库作为目标个性化词库；根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重。本申请可在每次进行语音交互后，基于语音交互情况对个性化词库中的关键词和关键词的权重进行更新，这使得个性化词库的时效性得以保证，且使得个性化词库中的关键词具有合适的激励权重，从而能够提升基于个性化词库进行语音识别的识别正确率。

Description

一种个性化词库的更新方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种个性化词库的更新方法、装置、设备及存储介质。

背景技术

随着人工智能技术的飞速发展，智能设备在人们的生活中扮演着越来越重要的角色，语音交互作为最方便自然的人机交互方式深受用户喜爱。

可以理解的是，语音交互顺利进行的前提是语音的正确识别，为了能够提升语音识别的正确率，目前有基于个性化词库进行语音识别的方案，但是，目前基于个性化词库进行语音识别的效果并不佳。

发明内容

有鉴于此，本申请提供了一种个性化词库的更新方法、装置、设备及存储介质，用以提升基于个性化词库进行语音识别的识别效果，进而提升用户体验，其技术方案如下：

一种个性化词库的更新方法，包括：

在进行语音交互后，根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词，其中，所述识别文本为根据当前个性化词库对所述输入语音进行识别得到的文本；

根据所述目标关键词更新当前的个性化词库，将更新后的个性化词库作为目标个性化词库；

根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重，其中，任一关键词的第一属性特征能够指示该关键词在本次语音交互中被挖掘或被激励的情况。

可选的，确定所述目标个性化词库中任一关键词的第一属性特征的过程包括：

根据所述识别文本、所述用户确认文本和所述当前个性化词库，确定该关键词的第一属性特征。

可选的，所述根据所述识别文本、所述用户确认文本和所述当前个性化词库，确定该关键词的第一属性特征，包括：

根据该关键词在所述识别文本、所述用户确认文本和所述当前个性化词库中的出现情况，确定该关键词的第一属性特征。

可选的，所述根据该关键词在所述识别文本、所述用户确认文本和所述当前个性化词库中的出现情况，确定该关键词的第一属性特征，包括：

若该关键词未出现在所述识别文本中，出现在所述用户确认文本中，且未出现在所述当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词首次被挖掘的特征；

若该关键词未出现在所述识别文本中，出现在所述用户确认文本中，且出现在所述当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词再次被挖掘的特征；

若该关键词同时出现在所述识别文本和所述用户确认文本中，且出现在所述当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词被正确激励的特征；

若该关键词出现在所述识别文本中，未出现在所述用户确认文本中，且出现在所述当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词被错误激励的特征；

若该关键词未出现在所述识别文本和所述用户确认文本中，且出现在所述当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词与本次语音交互无关的特征。

可选的，所述根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重，包括：

对于所述目标个性化词库中的每个关键词：

若该关键词的第一属性特征指示该关键词首次被挖掘，则将该关键词的激励权重设置为预设的激励权重初始值；

若该关键词的第一属性特征指示该关键词再次被挖掘，则增大该关键词词的激励权重；

若该关键词的第一属性特征指示该关键词被正确激励，则维持该关键词的激励权重不变；

若该关键词的第一属性特征指示该关键词被错误激励，则减小该关键词的激励权重；

若该关键词的第一属性特征指示该关键词与本次语音交互无关，则按预设衰减规则衰减该关键词的激励权重。

可选的，所述的个性化词库的更新方法还包括：

在更新完所述目标个性化词库中关键词的激励权重后，若所述目标个性化词库中关键词的数量大于预设数量，则根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中需要保留的、预设数量的关键词；

其中，所述目标个性化词库中任一关键词的第二属性特征能够反映该关键词的通用性、和/或被激励情况、和/或用户近期对于该关键词的使用情况。

可选的，所述目标个性化词库中任一关键词的第二属性特征包括以下特征中的一种或多种的组合：

关键词的更新时间、关键词累计被正确激励的次数、关键词累计被错误激励的次数、关键词的激励权重、关键词的通用性得分。

可选的，所述根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中需要保留的、预设数量的关键词，包括：

根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中每个关键词的优先级得分，其中，一个关键词的优先级得分用于表征将该关键词保留至所述目标个性化词库中的可能性大小；

根据所述目标个性化词库中每个关键词的优先级得分，从所述目标个性化词库中确定需要保留的、预设数量的关键词，将不需要保留的关键词删除。

一种个性化词库的更新装置，包括：关键词提取模块、个性化词库更新模块和激励权重更新模块；

所述关键词提取模块，用于在进行语音交互后，根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词，其中，所述识别文本为根据当前个性化词库对所述输入语音进行识别得到的文本；

所述个性化词库更新模块，用于根据所述目标关键词更新当前的个性化词库，将更新后的个性化词库作为目标个性化词库；

所述激励权重更新模块，用于根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重，其中，任一关键词的第一属性特征能够指示该关键词在本次语音交互中被挖掘或被激励的情况。

可选的，所述个性化词库更新模块，还用于在更新完所述目标个性化词库中关键词的激励权重后，若所述目标个性化词库中关键词的数量大于预设数量，则根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中需要保留的、预设数量的关键词；

一种个性化词库的更新设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的个性化词库的更新方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的个性化词库的更新方法的各个步骤。

经由上述方案可知，本申请提供的个性化词库的更新方法，在进行语音交互后，可首先根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词，然后根据目标关键词更新当前的个性化词库，以使更新后的个性化词库包括目标关键词，并将更新后的个性化词库作为目标个性化词库，最后根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重。由此可见，本申请提供的个性化词库的激励方法可在每次进行语音交互后，基于语音交互情况对个性化词库中的关键词和关键词的权重进行更新，这使得个性化词库的时效性得以保证，且使得个性化词库中的关键词具有合适的激励权重，即，使得个性化词库中的关键词和关键词的激励权重能够充分体现用户近期的使用习惯，进而使得基于个性化词库进行语音识别时，能够获得较高的识别正确率，从而能够提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的个性化词库的更新方法的一流程示意图；

图2为本申请实施例提供的根据输入语音的识别文本、用户确认文本和当前个性化词库确定目标个性化词库中任一关键词的第一属性特征的流程示意图；

图3为本申请实施例提供的根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重的流程示意图；

图4为本申请实施例提供的个性化词库的更新方法的另一流程示意图；

图5为本申请实施例提供的个性化词库的更新装置的结构示意图；

图6为本申请实施例提供的个性化词库的更新设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提升基于个性化词库进行语音识别的识别效果，本案发明人进行了研究，通过研究发现：基于个性化词库进行语音识别的识别效果受个性化词库中的关键词和关键词的激励权重(个性化词库中的每个关键词均具有一激励权重)的影响，若要使基于个性化词库的语音识别方案具有比较好的识别效果，需要使个性化词库中的关键词和关键词的激励权重合适，即符合用户的近期使用习惯，然而，目前基于个性化词库的语音识别的方案并没有关注到用户的使用习惯，即进行语音识别所依据的个性化词库并不符合用户的使用习惯。

有鉴于此，本案发明人起初提出了如下方案：根据某一段时间用户的关键词识别情况来设置激励权重，并且一段时间保持不变，也就是说，每隔一段时间(比如一周、一个月、三个月等)更新一下个性化词库中关键词的激励权重，其中，用户的关键词识别情况指的是关键词累积错误次数、关键词累积错误激励次数等。

本案发明人通过研究发现：上述的个性化词库的更新方法，虽然考虑到了用户的使用习惯，但关键词的时效性不高，未能及时适应用户习惯的改变，易导致有些关键词被误激励，而有些关键词激励不了，比如，关键词激励权重的更新频率是两个月，上个月用户常说“冲鸭”，不常说“香菇蓝瘦”，根据两个月的使用情况计算，“冲鸭”的激励权重比较高，“香菇蓝瘦”的激励权重比较低，假设本月用户的习惯刚好反过来，仍保持“冲鸭”的高激励权重，会导致当用户说“冲呀”时，误激励成“冲鸭”，仍保持“香菇蓝瘦”的低激励权重，会导致当用户说“香菇蓝瘦”时，该关键词的激励权重不够而无法被正确激励。

鉴于上述方案存在的问题，本案发明人进一步进行研究，通过研究发现：基于个性化词库为每个用户提供个性化语音识别服务的关键在于，需要保证个性化词库的时效性，且需要保证个性化词库中的关键词具有合适的激励权重。所谓的“时效性”是指用户的习惯用语是不断变化的，比如这段时间用户常说“香菇蓝瘦”，但过段时间变为常说“妈鸭”，因此，需要根据用户当前的使用习惯实时更新个性化词库，所谓的“合适的激励权重”是指激励权重的大小要充分体现用户近期的使用习惯，过大过小都不合适，激励权重太小不易正确激励关键词，激励权重过大容易误激励关键词，所谓的“误激励”是指将非关键词识别成关键词。

基于上述发现，本案发明人进一步进行研究，最终提出了一种能够保证个性化词库的时效性，且保证个性化词库中的关键词具有合适的激励权重的个性化词库更新方法，该方法可应用于涉及语音输入的应用场景，且该方法可应用于具有数据处理能力的终端(比如，PC、智能手机、PAD、笔记本、车载终端、智能家电等)，还可应用于服务器(可以为单个服务器，也可以为多个服务器，还可以为服务器集群)，接下来通过下述实施例对本申请提供的个性化词库的更新方法进行介绍。

请参阅图1，示出了本申请实施例提供的个性化词库的更新方法的流程示意图，该方法可以包括：

步骤S101：在进行语音交互后，根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词。

其中，输入语音为用户根据自身的需求，使用语音输入方式输入的语音，比如，用户发短信时使用语音输入方式输入的语音，再比如，用户发微信时使用语音输入方式输入的语音等。

其中，输入语音的识别文本为根据当前个性化词库对输入语音进行识别得到的文本。

可以理解的是，若要利用个性化词库进行语音识别，首先需要构建初始的个性化词库，在一种可能的实现方式中，可使初始的个性化词库为空，在后续进行语音交互时，根据输入语音的识别文本和用户确认文本提取关键词往个性化词库中添加，在另一种可能的实现方式中，初始的个性化词库可以不为空，初始的个性化词库中的关键词可从多个途径收集(比如，用户主动上传、从用户对识别文本的修改记录中挖掘等)，个性化词库中的每个关键词应有对应的激励权重，可选的，个性化词库中各关键词的初始激励权重可以为预设的固定值。根据用户个性化词库进行语音识别时，利用个性化词库中每个关键词的激励权重，增加包含相应关键词的候选识别文本的得分，以得到相应识别文本，根据用户个性化词库进行语音识别的过程为现有技术，本实施例在此不再详述。

前述内容提到，输入语音的识别文本为根据当前个性化词库对输入语音进行识别得到的文本，可以理解的是，输入语音的识别文本可能为输入语音对应的正确文本，也可能不是输入语音对应的正确文本，因此，通常需要用户对识别文本进行确认，若识别文本不是正确文本，则用户会对识别文本进行修改，若识别文本为正确文本，则用户不对识别文本进行修改，即，输入语音的识别文本对应的用户确认文本为用户对输入语音的识别文本进行确认后的正确文本。

在本实施例中，根据输入语音的识别文本从对应的用户确认文本中提取关键词的过程可以包括：将输入语音的识别文本与对应的用户确认文本对齐；对用户确认文本进行分词；以用户确认文本为基准，将用户确认文本中每个词与识别文本中每个词进行匹配，以确定用户确认文本中与识别文本有差异的词(如用户添加的词、用户修改的词)，将有差异的词作为关键词提取出来。

步骤S102：根据目标关键词更新当前的个性化词库，将更新后的词库作为目标个性化词库。

具体的，本实施例可将未位于个性化词库中的目标关键词添加至个性化词库中，以使个性化词库中包含针对本次语音交互提取的所有目标关键词。

步骤S103：根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重。

其中，任一关键词的第一属性特征能够指示该关键词在本次语音交互中被挖掘或被激励的情况，其根据输入语音的识别文本、用户确认文本和当前个性化词库确定。需要说明是，本申请提及的“当前个性化词库”指的是，在进行本次语音交互时，使用的个性化词库。

对个性化词库以及关键词的激励权重更新后，下次语音交互时，便可直接使用更新后的个性化词库及其更新后的激励权重进行语音识别，如此，可以提高语音识别正确率。

本申请实施例提供的个性化词库的更新方法，在进行语音交互后，可首先根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词，然后根据目标关键词更新当前的个性化词库，以使更新后的词库包括目标关键词，并将更新后的词库作为目标个性化词库，最后根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重。由此可见，本申请实施例提供的个性化词库的激励方法可在每次进行语音交互后，基于语音交互情况对个性化词库中的关键词和关键词的激励权重进行更新，这使得个性化词库的时效性得以保证，且使得个性化词库中的关键词具有合适的激励权重，即，使得个性化词库中的关键词和关键词的激励权重能够充分体现用户近期的使用习惯，进而使得基于个性化词库进行语音识别时，能够获得较高的识别正确率，从而能够提升用户体验。

在本申请的另一实施例中，对上述实施例中的“步骤S102：根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重”进行介绍。

上述实施例提到“任一关键词的第一属性特征可根据输入语音的识别文本、用户确认文本和当前个性化词库确定”，本实施例首先对根据输入语音的识别文本、用户确认文本和当前个性化词库，确定一关键词的第一属性特征的过程进行说明。

根据输入语音的识别文本、用户确认文本和当前个性化词库，确定一关键词的第一属性特征的过程可以包括：根据该关键词在识别文本、用户确认文本和当前个性化词库中的出现情况，确定该关键词的第一属性特征。

具体的，请参阅图2，示出了根据该关键词在识别文本、用户确认文本和当前个性化词库中的出现情况，确定该关键词的第一属性特征的示意图，可以包括：

步骤S2a、若该关键词未出现在识别文本中，出现在用户确认文本中，且未出现在当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词首次被挖掘的特征。

需要说明的是，该关键词未出现在识别文本中，但出现在用户确认文本中，说明该关键词为从本次语音交互的用户确认文本中提取的目标关键词，又由于该关键词未出现在当前个性化词库中，因此，该关键词是首次被挖掘。

步骤S2b、若该关键词未出现在识别文本中，出现在用户确认文本中，且出现在当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词再次被挖掘的特征。

需要说明的是，该关键词未出现在识别文本中，但出现在用户确认文本中，说明该关键词为从本次语音交互的用户确认文本中提取的目标关键词，又由于该关键词出现在当前个性化词库中，因此，该关键词是再次被挖掘。

步骤S2c、若该关键词同时出现在识别文本和用户确认文本中，且出现在当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词被正确激励的特征。

需要说明的是，该关键词出现在识别文本和当前个性化词库中，且出现在用户确认文本中，说明该关键词没有被用户修改掉，即该关键词被正确激励。

步骤S2d、若该关键词出现在识别文本中，未出现在用户确认文本中，且出现在当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词被错误激励的特征。

需要说明的是，该关键词出现在识别文本和当前个性化词库中，但未出现在用户确认文本中，说明该关键字被用户修改掉了，即该关键词被错误激励。

步骤S2e、若该关键词未出现在识别文本和用户确认文本中，出现在当前个性化词库中，则确定该关键词的第一属性特征为指示该关键词与本次语音交互无关的特征。

需要说明的是，若该关键词未出现在识别文本中，也未出现在用户确认文本中，则说明该关键词在本次语音交互中没有被挖掘也没有被激励，其与本次语音交互无关。

通过上述过程可获得目标个性化词库中各关键词的第一属性特征，接下来对“根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重”的具体实现过程进行介绍。

请参阅图3，示出了根据目标个性化词库中关键词的第一属性特征，更新目标个性化词库中关键词的激励权重的示意图，可以包括：

对于目标个性化词库中的每个关键词：

步骤S3a：若该关键词的第一属性特征指示该关键词首次被挖掘，则将该关键词的激励权重设置为预设的激励权重初始值。

本实施例对于首次被挖掘的关键词，将其激励权重设置为一固定值，考虑到新挖掘到的关键词被用户再次使用的几率比较高，为了使得该关键词在下次语音交互时能被正确激励，通常将该关键词的初始激励权重设置的较大。

步骤S3b：若该关键词的第一属性特征指示该关键词再次被挖掘，则增大该关键词的激励权重。

关键词再次被挖掘，说明当前个性化词库中存在该关键词，但在基于当前个性化词库进行语音识别时，仍然识别错误，即，该关键词未被正确激励，导致该关键词再次被挖掘，这说明该关键词的激励权重偏小，为了使得该关键词在后续语音交互时能被正确激励，需要增大该关键词的激励权重。增大关键词的激励权重的方式有多种，比如，将当前的激励权重增加一倍，或者在当前激励权重的基础上增加一预设值等等。

步骤S3c：若该关键词的第一属性特征指示该关键词被正确激励，则维持该关键词的激励权重不变。

关键词被正确激励，说明关键词的激励权重设置的是合适的，对于这样的关键词，保持其激励权重不变。

步骤S3d：若该关键词的第一属性特征指示该关键词被错误激励，则降低该关键词的激励权重。

可以理解的是，在进行语音识别时，对于声学得分相同的候选词，若非真实候选词的激励权重偏大，会导致其语言模型得分大于真实候选词，进而导致非真实候选词被错误激励，为此，需要对被错误激励的词给予一定的惩罚，将其激励权重减小。减小关键词的激励权重的方式有多种，比如，将当前的激励权重减小一倍，或者在当前激励权重的基础上减去一预设值等等。

步骤S3e：若该关键词的第一属性特征指示该关键词与本次语音交互无关，则按预设衰减规则衰减该关键词的激励权重。

对于与本次语音交互无关的关键词，为了避免其在下次语音交互时被错误激励，本实施例针对这样的关键词，使其激励权重随时间衰减。以上次语音交互新入库的关键词为例(该关键词的初始激励权重通常设置的较大)，假设该关键词与本次语音交互无关，如果保持该关键词的激励权重不变，可能会因该关键词的激励权重较大而导致该关键词在下次语音交互时被错误激励，为了避免该关键词被错误激励，对该关键词的激励权重进行衰减。

在一种可能的实现方式中，可利用预设的时间衰减函数对关键词的激励权重进行衰减，预设的时间衰减函数可表示为：

w_t＝f(w_t-1,w_th) (1)

其中，w_t-1是衰减前的激励权重，w_t是衰减后的激励权重，w_th是激励权重阈值，即激励权重的最小值，目标个性化词库中的每个关键词均对应有一激励权重阈值。

需要说明的是，目标个性化词库中各个关键词的激励权重阈值的初始值是统一的，随着语音交互，各个关键词的激励权重阈值会动态调整，从而导致各个关键词的激励权重阈值不再相同。

具体地，初始入库时，每个关键词的激励权重阈值统一设置为一个较小的值w_min，随着时间的推移，个性化词库中关键词的激励权重都会向该阈值靠拢。需要说明的是，若某一个关键词，在其激励权重还未衰减到w_min时，在某次语音交互中被判定为“再次被挖掘的关键词”，那么说明此时的激励权重已经无法使关键词被正确激励，此时，除了需要增大该关键词的激励权重之外，还需要将该关键词的激励权重阈值也增大，假设此时该关键词的激励权重为w_t，那么其激励权重阈值可变为w_th＝w_t+Δ，在后续的时间衰减中，该关键词的激励权重不会再低于该激励权重阈值。

可选的，可按下式对目标个性化词库中每个关键词的激励权重进行更新：

前述内容提到，首次挖掘的关键词会添加至个性化词库，可以理解的是，随着语音交互次数的增加，新挖掘出来的关键词会越来越多，使得个性化词库中关键词的数量越来越多，本案发明人通过研究发现，当个性化词库中关键词的数量较多时，虽然个性化词库的覆盖面广了，但是，关键词的误激励比例会大大增加，为了降低关键词的误激励比例，需要控制个性化词库中关键词的数量，而在控制个性化词库中关键词的数量时，如何对个性化词库中的关键词进行取舍变得至关重要。

有鉴于此，本申请提供了另一种个性化词库的更新方法，请参阅图4，示出了该个性化词库的更新方法的流程示意图，该个性化词库的更新方法除了包括上述实施例中的步骤S101～S103之外，还可以包括：

步骤S104：在更新完目标个性化词库中关键词的激励权重后，判断目标个性化词库中关键词的数量是否大于预设数量，若是，则执行步骤S105，若否，则结束本次更新。

步骤S105：根据目标个性化词库中每个关键词的第二属性特征，确定目标个性化词库中需要保留的、预设数量的关键词，将不需要保留的关键词删除。

其中，目标个性化词库中任一关键词的第二属性特征能够反映该关键词的通用性、和/或被激励情况、和/或用户近期对于该关键词的使用情况。

在一种可能的实现方式中，目标个性化词库中任一关键词的第二属性特征可以包括以下特征中的一种或多种的组合：关键词的更新时间、关键词累计被正确激励的次数、关键词累计被错误激励的次数、关键词的激励权重、关键词的通用性得分。

优选的，目标个性化词库中任一关键词的第二属性特征同时包括上述五种特征，以下分别对上述五种特征进行介绍：

关键词的更新时间，指的是关键词的入库时间或被正确激励的时间。理论上认为新挖掘到或最近使用到的关键词，用户最近再次使用的几率是比较高的，所以刚更新的关键词优先级最高，是必须保留至个性化词库的。

关键词累计被正确激励的次数，指的是截至本次语音交互，关键词被正确激励的总次数。关键词累计被正确激励的次数越多，表明其在目标个性词库中的优先级越高，即，将其保留至目标个性词库中的可能性越大。

关键词累计被错误激励的次数，指的是截至本次语音交互，关键词被错误激励的总次数。关键词累计被错误激励的次数越多，表明其在目标个性词库中的优先级越低，即，将其保留至目标个性化词库中的可能性越小。

关键词的激励权重，指的是本次更新后的激励权重。关键词的激励权重越大，表明其在目标个性词库中的优先级越高，即，将其保留至目标个性化词库中的可能性越大。

关键词的通用性得分，指的是将关键词输入预先构建的语言模型得到的得分，其反映的是关键词的通用性。关键词的通用性得分越高，其对于激励权重的依赖越小，也就是说，关键词的通用性得分越高，表明其在目标个性词库中的优先级越低，即，将其保留至目标个性化词库中的可能性越小。

接下来对上述步骤S105中“根据目标个性化词库中每个关键词的第二属性特征确定目标个性化词库中需要保留的、预设数量的关键词”的具体实现过程进行介绍。

在一种可能的实现方式中，根据目标个性化词库中每个关键词的第二属性特征确定目标个性化词库中需要保留的、预设数量的关键词的过程，可以包括：根据目标个性化词库中每个关键词的第二属性特征，确定目标个性化词库中每个关键词的优先级得分；根据目标个性化词库中每个关键词的优先级得分，从目标个性化词库中确定需要保留的、预设数量的关键词。

其中，一个关键词的优先级得分用于表征将该关键词保留至目标个性化词库中的可能性大小。

在一种可能的实现方式中，可利用目标个性化词库中每个关键词的第二属性特征和预设的函数(可以为线性函数，也可以为非线性函数)，确定目标个性化词库中每个关键词的优先级得分，具体的：

Score＝f(T,W,LMScore,ErrorHit,RightHit) (3)

其中，T为关键词的更新时间，W为关键词的激励权重，LMScore为关键词的通用性得分，RightHit为关键词累计被正确激励的次数，ErrorHit为关键词累计被错误激励的次数，Score为关键词的优先级得分，一个关键词的优先级得分Score越大，说明该关键词的优先级越高，越可能将该关键词保留至个性化词库中。需要说明的是，T、W和RightHit与Score正相关，LMScore和ErrorHit与Score负相关。

在获得目标个性化词库中每个关键词的优先级得分后，可按优先级得分对目标个性化词库中的各个关键词排序，假设预设数量为N，按优先级得分从高到低对目标个性化词库中的各个关键词排序，将前N个关键词保留至目标个性化词库中，其余关键词删除，类似的，假设预设数量为N，按优先级得分从低到高对目标个性化词库中的各个关键词排序，将后N个关键词保留至目标个性化词库中，其余关键词删除。

通过上述过程，使得个性化词库中关键词的数量始终不超过预设数量，且使得个性化词库中的关键词为相对较优的关键词，从而能够降低关键词被错误激励情况的发生。

本申请实施例提供的个性化词库的更新方法，可在每次进行语音交互后，基于语音交互情况对个性化词库中的关键词和关键词的权重进行更新，这使得个性化词库的时效性得以保证，且使得个性化词库中的关键词具有合适的激励权重，并且，本申请实施例提供的个性化词库的更新方法在个性化词库中关键词的数量超过预设数量时，可根据个性化词库中关键词的第二属性特征确定关键词在个性化词库中的优先级得分，进而根据关键词的优先级得分确定目标个性化词库中需要保留的关键词，将不需要保留的关键词删除，这使得个性化词库中关键词的数量始终不超过预设数量，且使得个性化词库中的关键词为相对较优的关键词，上述对个性化词库和关键词的激励权重进行更新的策略使得个性化词库中的关键词和关键词的激励权重能够充分体现用户近期的使用习惯，进而使得基于个性化词库进行语音识别时，能够获得较高的识别正确率，从而能够提升用户体验。

本申请实施例还提供了一种个性化词库的更新装置，下面对本申请实施例提供的个性化词库的更新装置进行描述，下文描述的个性化词库的更新装置与上文描述的个性化词库的更新方法可相互对应参照。

请参阅图5，示出了本申请实施例提供的个性化词库的更新装置的结构示意图，可以包括：关键词提取模块501、个性化词库更新模块502和激励权重更新模块503。

关键词提取模块501，用于在进行语音交互后，根据输入语音的识别文本从对应的用户确认文本中提取关键词作为目标关键词。

其中，所述识别文本为根据当前个性化词库对所述输入语音进行识别得到的文本。

个性化词库更新模块502，用于根据所述目标关键词更新当前的个性化词库，将更新后的个性化词库作为目标个性化词库。

激励权重更新模块503，用于根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重。

其中，任一关键词的第一属性特征能够指示该关键词在本次语音交互中被挖掘或被激励的情况。

本申请提供的个性化词库的激励装置，可在每次进行语音交互后，基于语音交互情况对个性化词库中的关键词和关键词的权重进行更新，这使得个性化词库的时效性得以保证，且使得个性化词库中的关键词具有合适的激励权重，即，使得个性化词库中的关键词和关键词的激励权重能够充分体现用户近期的使用习惯，进而使得基于个性化词库进行语音识别时，能够获得较高的识别正确率，从而能够提升用户体验。

在一种可能的实现方式中，上述实施例提供的个性化词库的更新装置还可以包括：属性特征确定模块。

属性特征确定模块，用于根据所述识别文本、所述用户确认文本和所述当前个性化词库，确定该关键词的第一属性特征。

在一种可能的实现方式中，上述的属性特征确定模块，具体用于根据该关键词在识别文本、用户确认文本和当前个性化词库中的出现情况，确定该关键词的第一属性特征。

在一种可能的实现方式中，上述的属性特征确定模块在根据该关键词在识别文本、用户确认文本和当前个性化词库中的出现情况，确定该关键词的第一属性特征时，具体用于：

在一种可能的实现方式中，上述实施例提供的个性化词库的更新装置中的激励权重更新模块503，具体用于对于所述目标个性化词库中的每个关键词：

在一种可能的实现方式中，上述实施例提供的个性化词库的更新装置中的个性化词库更新模块502，还用于在更新完所述目标个性化词库中关键词的激励权重后，若所述目标个性化词库中关键词的数量大于预设数量，则根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中需要保留的、预设数量的关键词。

在一种可能的实现方式中，目标个性化词库中任一关键词的第二属性特征包括以下特征中的一种或多种的组合：关键词的更新时间、关键词累计被正确激励的次数、关键词累计被错误激励的次数、关键词的激励权重、关键词的通用性得分。

在一种可能的实现方式中，个性化词库更新模块502可以包括：优先级得分确定子模块和个性化词库更新子模块。

优先级得分确定子模块，用于根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中每个关键词的优先级得分。

其中，一个关键词的优先级得分用于表征将该关键词保留至所述目标个性化词库中的可能性大小。

个性化词库更新子模块，用于根据所述目标个性化词库中每个关键词的优先级得分，从所述目标个性化词库中确定需要保留的、预设数量的关键词，将不需要保留的关键词删除。

本申请实施例还提供了一种个性化词库的更新设备，请参阅图6，示出了该个性化词库的更新设备的结构示意图，该设备可以包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604；

在本申请实施例中，处理器601、通信接口602、存储器603、通信总线604的数量为至少一个，且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

处理器601可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器603可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种个性化词库的更新方法，其特征在于，包括：

根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重，其中，任一关键词的第一属性特征能够指示该关键词在本次语音交互中被挖掘或被激励的情况；其中，所述关键词的第一属性特征包括：指示该关键词首次被挖掘的特征、指示该关键词再次被挖掘的特征、指示该关键词被正确激励的特征、指示该关键词被错误激励的特征和指示该关键词与本次语音交互无关的特征。

2.根据权利要求1所述的个性化词库的更新方法，其特征在于，确定所述目标个性化词库中任一关键词的第一属性特征的过程包括：

3.根据权利要求2所述的个性化词库的更新方法，其特征在于，所述根据所述识别文本、所述用户确认文本和所述当前个性化词库，确定该关键词的第一属性特征，包括：

4.根据权利要求3所述的个性化词库的更新方法，其特征在于，所述根据该关键词在所述识别文本、所述用户确认文本和所述当前个性化词库中的出现情况，确定该关键词的第一属性特征，包括：

5.根据权利要求4所述的个性化词库的更新方法，其特征在于，所述根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重，包括：

对于所述目标个性化词库中的每个关键词：

6.根据权利要求1所述的个性化词库的更新方法，其特征在于，还包括：

7.根据权利要求6所述的个性化词库的更新方法，其特征在于，所述目标个性化词库中任一关键词的第二属性特征包括以下特征中的一种或多种的组合：

8.根据权利要求6所述的个性化词库的更新方法，其特征在于，所述根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中需要保留的、预设数量的关键词，包括：

9.一种个性化词库的更新装置，其特征在于，包括：关键词提取模块、个性化词库更新模块和激励权重更新模块；

所述激励权重更新模块，用于根据所述目标个性化词库中关键词的第一属性特征，更新所述目标个性化词库中关键词的激励权重，其中，任一关键词的第一属性特征能够指示该关键词在本次语音交互中被挖掘或被激励的情况；其中，所述关键词的第一属性特征包括：指示该关键词首次被挖掘的特征、指示该关键词再次被挖掘的特征、指示该关键词被正确激励的特征、指示该关键词被错误激励的特征和指示该关键词与本次语音交互无关的特征。

10.根据权利要求9所述的个性化词库的更新装置，其特征在于，所述个性化词库更新模块，还用于在更新完所述目标个性化词库中关键词的激励权重后，若所述目标个性化词库中关键词的数量大于预设数量，则根据所述目标个性化词库中每个关键词的第二属性特征，确定所述目标个性化词库中需要保留的、预设数量的关键词；

11.一种个性化词库的更新设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的个性化词库的更新方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的个性化词库的更新方法的各个步骤。