CN115729360A

CN115729360A - 输入法词库更新方法、装置、设备及服务器

Info

Publication number: CN115729360A
Application number: CN202111007692.9A
Authority: CN
Inventors: 金红豆
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-03-03
Also published as: WO2023030266A1

Abstract

本申请公开了一种输入法词库更新方法、装置、设备及服务器，属于输入法领域。该输入法词库更新方法包括：基于在输入法界面输入的第一字符串显示N个候选词；接收对该N个候选词中的目标候选词的第一输入；响应于该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词，该第一候选词为该N个候选词中排序在首位的候选词；在接收到服务器发送的目标输入法词库的情况下，将原始输入法词库更新为该目标输入法词库，其中，该目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

Description

输入法词库更新方法、装置、设备及服务器

技术领域

本申请属于输入法领域，具体涉及一种输入法词库更新方法、装置、设备及服务器。

背景技术

随着终端设备的普及，终端设备中的社交应用程序、购物应用程序和支付应用程序等均依赖于输入法的支持。

目前，一个长拼音串对应的出词列表中可能包含了多个候选词组，而这些候选词组的出词顺序通常是由预先训练好的语言模型决定的。具体地，服务器会根据语言模型中的词元丰富程度、词元分布和实际应用场景，对多个候选词组打分，并将打分高的候选词组排序在前，将打分低的候选词组排序在后。

但是，某些情况下候选词组的出词顺序可能并不符合用户实际使用需求，导致输入法的长句出词的效果较差。

发明内容

本申请实施例的目的是提供一种输入法词库更新方法、装置、设备及服务器，能够解决输入法的长句出词的效果较差的问题。

第一方面，本申请实施例提供了一种输入法词库更新方法，应用于电子设备。该方法包括：基于在输入法界面输入的第一字符串显示N个候选词；接收对该N个候选词中的目标候选词的第一输入；响应于该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词，该第一候选词为该N个候选词中排序在首位的候选词；在接收到服务器发送的目标输入法词库的情况下，将原始输入法词库更新为该目标输入法词库，其中，该目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

第二方面，本申请实施例提供了一种输入法词库更新方法，应用于服务器。该方法包括：接收由电子设备发送的目标候选词和第一候选词，其中，该第一候选词为在N个候选词中排序在首位的候选词，该目标候选词为用户在N个候选词中选择的候选词，该N个候选词为基于第一字符串确定的，该第一字符串包括的音节数大于或等于预设值；在该目标候选词不为该第一候选词的情况下，将该第一候选词添加至第一列表，并将该目标候选词添加至第二列表，其中，该第一列表包括未被用户选择的至少一个排序在首位的候选词，该第二列表包括被用户选择的至少一个排序在非首位的候选词；在该目标候选词不为该第一候选词的概率大于或等于预设概率的情况下，根据该第一列表和/或第二列表，确定目标输入法词库；向电子设备发送该目标输入法词库。

第三方面，本申请实施例提供了一种输入法词库更新装置。该装置包括显示模块、接收模块、通信模块和处理模块。显示模块，用于基于在输入法界面输入的第一字符串显示N个候选词。接收模块，用于接收对显示模块显示的该N个候选词中的目标候选词的第一输入。通信模块，用于响应于接收模块接收的该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词，该第一候选词为该N个候选词中排序在首位的候选词。处理模块，用于在通信模块接收到服务器发送的目标输入法词库的情况下，将原始输入法词库更新为该目标输入法词库，其中，该目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

第四方面，本申请实施例提供了一种输入法词库更新装置。该装置包括通信模块和处理模块。通信模块，用于接收由电子设备发送的目标候选词和第一候选词，其中，该第一候选词为在N个候选词中排序在首位的候选词，该目标候选词为用户在N个候选词中选择的候选词，该N个候选词为基于第一字符串确定的，该第一字符串包括的音节数大于或等于预设值。处理模块，用于在通信模块接收的该目标候选词不为该第一候选词的情况下，将该第一候选词添加至第一列表，并将该目标候选词添加至第二列表，其中，该第一列表包括未被用户选择的至少一个排序在首位的候选词，该第二列表包括被用户选择的至少一个排序在非首位的候选词。处理模块，还用于在该目标候选词不为该第一候选词的概率大于或等于预设概率的情况下，根据该第一列表和/或第二列表，确定目标输入法词库。通信模块，还用于向电子设备发送该目标输入法词库。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令，该程序或指令被该处理器执行时实现如第一方面提供的方法的步骤。

第六方面，本申请实施例提供了一种服务器，该服务器包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令，该程序或指令被该处理器执行时实现如第二方面提供的方法的步骤。

第七方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第一方面或第二方面提供的方法的步骤。

第八方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现如第一方面或第二方面提供的方法。

在本申请实施例中，用户在输入法界面输入长音节串之后，电子设备可以响应于对N个候选词中的目标候选词的选择输入，向服务器发送该目标候选词和该N个候选词中排序在首位的第一候选词。之后，若该目标候选词不是该第一候选词，则服务器可以将第一候选词和目标候选词分别添加至第一列表和第二列表，并在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，根据该第一列表和/或第二列表，确定目标输入法词库，以及向电子设备发送该目标输入法词库。然后，电子设备可以将原始输入法词库更新为该目标输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

附图说明

图1是本申请实施例可应用的一种无线通信系统的框图；

图2是本申请实施例提供的输入法词库更新方法的流程图；

图3是本申请实施例提供的输入法词库更新装置的结构示意图之一；

图4是本申请实施例提供的输入法词库更新装置的结构示意图之二；

图5是本申请实施例提供的一种通信设备的示意图；

图6是本申请实施例提供的一种电子设备的硬件结构示意图；

图7是本申请实施例提供的一种服务器的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面对本申请实施例涉及到的术语及实现方式进行说明。

输入法词库：也称为语言模型，为基于语言模型对预训练语言词库训练得到的。需要说明的是，本申请中的语言模型可以为n-gram语言模型。n-gram是一种基于统计语言模型的算法，基本思想是将文本里面的内容按照音节进行大小为N的滑动窗口操作，形成了长度是N的音节片段序列。每一个音节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表。

剪枝：是一种将语言模型中的部分不重要的n元关系剔除，使得语言模型规模变小的技术。在训练n-gram语言模型的过程中，会存储训练数据中的n-gram信息。随着训练数据的增加，模型存储的n-gram信息也会越来越多，如果某个n-gram信息的概率和回退机制近似，可以删除掉这个n-gram信息。每一次n-gram信息的删除都需要对模型重新归一化处理。

长句出词：指用户输入长拼音串(例如大于4个音节)得到完整出词候选的过程。

混淆度：一种对语言模型本身效果评测的指标，与业务指标不相关。

负例：指输入法出词的首位并不是用户选中的输入行为。

首选率：指输入法给出的排在首位的词被用户选中的比率(0～100％)，首选率越高，表示输入法的出词效果越好。

语料：即语言材料，是语言学研究的内容。语料是构成语料库的基本单元。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的输入法词库更新方法、装置、设备及服务器进行详细地说明。

图1示出本申请实施例可应用的一种无线通信系统的框图。该无线通信系统包括电子设备11和服务器12。其中，电子设备11可以是手机、平板电脑(tablet personalcomputer)、膝上型电脑(laptop computer)或称为笔记本电脑、个人数字助理(personaldigital assistant，PDA)、掌上电脑、上网本、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、移动上网装置(mobile internet device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴式设备(wearable device)、车载设备(VUE)、行人终端(PUE)、智能家居(具有无线通信功能的家居设备，如冰箱、电视、洗衣机或者家具等)等终端设备，可穿戴式设备包括：智能手表、智能手环、智能耳机、智能眼镜、智能首饰(智能手镯、智能手链、智能戒指、智能项链、智能脚镯、智能脚链等)、智能腕带、智能服装、游戏机等。需要说明的是，在本申请实施例并不限定电子设备11的具体类型。

如图2所示，本申请实施例提供一种输入法词库更新方法。该方法可以应用于如图1所示的无线通信系统。该方法包括S201至S208。

S201、电子设备基于在输入法界面输入的第一字符串显示N个候选词。

其中，N为大于或等于2的整数。

在电子设备运行社交应用程序、购物应用程序或支付应用程序等应用程序的过程中，若接收到用户调用输入法的输入，则在该应用程序的界面的第一区域叠加显示输入法界面。然后，用户可以在输入法界面中输入第一字符串，从而电子设备可以基于第一字符串，显示与第一字符串关联的N个候选词。

可选地，N个候选词可以为服务器向电子设备提供的原始输入法词库中的候选词。该原始输入法词库为服务器对预训练语言词库剪枝得到的，且该输入法词库预先存储在电子设备中。

可选地，第一字符串可以为拼音串，即由拼音组成的字符串。相应地，N个候选词是根据拼音串中的音节确定的候选词。例如，假设第一字符串为“tiankongtianbulai”，包括5个音节“tian”“kong”“tian”“bu”“lai”，那么在输入法界面排序在首位的候选词为“天空天不来”，排序在第二位的候选词为“填空填不来”。需要说明的，“天空天不来”和“填空填不来”等候选词的出词顺序通常是由服务器预先根据语言模型中的词元丰富程度、词元分布和实际应用场景，对多个候选词组打分得到的，例如“天空天不来”的打分最高，“填空填不来”的打分次高。

S202、电子设备接收对该N个候选词中的目标候选词的第一输入。

S203、电子设备响应于该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词。

其中，第一候选词为N个候选词中排序在首位的候选词。

可选地，目标候选词可以为第一候选词；或者，也可以为N个候选词中排序在非首位的候选词，如排序在第二位或第三位的候选词。

需要说明的是，若“第一字符串包括的音节数大于或等于预设值”则可以认为第一字符串为长拼音串。例如，预设值为4，若第一字符串包括的音节数大于或等于4则认为第一字符串为长拼音串，从而执行下述S204至S208。

可选地，上述第一输入可以为对目标候选词的选择输入，具体可以为对目标候选词所在显示区域的点击输入。

进一步地，若目标候选词为由多级候选分词组成的，则第一输入包括多个子输入，一个子输入用于选择一个候选分词。

S204、服务器接收由电子设备发送的该第一候选词和该目标候选词。

其中，第一候选词为在N个候选词中排序在首位的候选词，目标候选词为用户在N个候选词中选择的候选词。N个候选词为基于第一字符串确定的。第一字符串包括的音节数大于或等于预设值。

S205、在该目标候选词不为该第一候选词的情况下，服务器将该第一候选词添加至第一列表，并将该目标候选词添加至第二列表。

其中，第一列表包括未被用户选择的至少一个排序在首位的候选词，第二列表包括被用户选择的至少一个排序在非首位的候选词。

本申请实施例的服务器中设置有第一列表和第二列表，第一列表可以称为“badlist”，第二列表可以称为“keep list”。其中，“bad list”包括未被用户选择的至少一个排序在首位的候选词，“keep list”包括被用户选择的至少一个排序在非首位的候选词。

示例性的，当第一字符串“tiankongtianbulai”为长拼音串，且用户选择的候选词为负例“填空填不来”时，服务器可以根据电子设备发送的“天空天不来”和“填空填不来”，确定输入法的出词效果不好。之后，将“天空天不来”添加至“bad list”，并将“填空填不来”添加至“keep list”。

可选地，上述S205具体可以通过下述的S205a和S205b实现。

S205a、服务器切分第一候选词，得到P个词元组；并切分目标候选词，得到T个词元组。其中，P个词元组中的每个词元组包括至少两个词元，T个词元组中的每个词元组包括至少两个词元。P、T为正整数。

S205b、服务器将P个词元组中的符合预设条件的词元组添加至第一列表；并将T个词元组中的符合预设条件的词元组添加至第二列表。

其中，预设条件为词元组包括的所有词元为输入法词库中的词元。

本申请实施例可以采用未经剪枝的语言模型计算组成第一候选词a的n元关系组合，并将这些组合收录到bad list；并且，采用同样的方式计算组成目标候选词b的n元关系组合，并将这些组合收录到keep list。

具体过程如下：

(1)根据自定义词典将词第一候选词a和目标候选词b分词。例如，将“天空天不来”切分成“天空”“天”“不来”。需要说明的是，分词结果可能是多样的，如“填空填不来”可能被分成三元关系词元组“填空”“填”“不来”或者被分成二元关系词元组“填空”“填不来”。由于语言模型是按用户真实输入的分词习惯训练的，因此有可能不存在三元关系词元组“填空”“填”“不来”这，在这种情况下就仅剩二元关系词元组“填空”“填不来”。

(2)获取与第一候选词对应的所有词元组，与目标候选词对应的所有词元组。例如“天空天不来”包含了一个三元关系词元组“天空”“天”“不来”，一个两元关系词元组“天空”“天”，另一个两元关系词元组“天”“不来”。

(3)将这些词元组输入到WFST格式的语言模型，只保留语言模型中存在的词元组。该语言模型可以接受一个任意的词元组并且判断该词元组在模型中是否存在。

(4)将第一候选词a保留的词元组收录到bad list，将目标候选词b保留的词元组收录到keep list。bad list与keep list可以认为是key-value类型的字典，key就是某个词元组，value是该词元组的累计计数。

S206、在该目标候选词不为该第一候选词的概率大于或等于预设概率的情况下，服务器根据该第一列表和/或第二列表，确定目标输入法词库。

本申请实施例中，在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，表示排序在首位的候选词的被用户选中概率低，出词顺序可能并不符合用户实际使用需求，需要更新输入法词库；而在目标候选词不为第一候选词的概率小于预设概率的情况下，表示排序在首位的候选词的被用户选中概率高，出词顺序可能符合用户实际使用需求，不需要更新输入法词库。

需要说明的是，“服务器根据第一列表和/或第二列表，确定输入法词库”具体为：根据第一列表和/或第二列表，降低输入法词库中的第一列表中候选词的出词率，并提高输入法词库中的第二列表中候选词的出词率，从而确定目标输入法词库。

对于“服务器根据第一列表和/或第二列表，确定目标输入法词库”的具体实现方式将在下面实施例中进行描述，此处不予赘述。

S207、服务器向电子设备发送目标输入法词库。

S208、在接收到服务器发送的目标输入法词库的情况下，电子设备将原始输入法词库更新为目标输入法词库。

本申请实施例中，原始输入法词库为对预训练语言词库剪枝得到的。可以参照现有技术获取输入法词库的方式，本申请不作具体限定。

目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。具体为根据用户选择的候选词和排序在首位的候选词，对原始输入法词库重新训练得到的。

本申请实施例中，在电子设备中存储有原始输入法词库。在电子设备接收由服务器发送的目标输入法词库后，电子设备可以将原始输入法词库删除，并存储目标输入法词库。

本申请实施例提供一种输入法词库更新方法，用户在输入法界面输入长音节串之后，电子设备可以响应于对N个候选词中的目标候选词的选择输入，向服务器发送该目标候选词和该N个候选词中排序在首位的第一候选词。之后，若该目标候选词不是该第一候选词，则服务器可以将第一候选词和目标候选词分别添加至第一列表和第二列表，并在该第一列表中的候选词被选中的概率较低的情况下，根据该第一列表和/或第二列表，确定目标输入法词库，以及向电子设备发送该目标输入法词库。然后，电子设备可以将原始输入法词库更新为该目标输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

在传统方式中，会训练得到一个规模较大(G量级)的语言模型，称为预训练语言词库。在对预训练语言词库剪枝之后，可以得到一个输入法词库(M量级)。本申请在传统获取输入法词库的方式基础上进行了改进，为了更清楚地示意本申请实施例提供的输入法词库更新方法，下面将通过下述的示例一和示例二，对更新输入法词库的方法进行示例性说明。

示例一

上述S206可以通过下述的S206a实现。

S206a、在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，服务器将预训练语言词库中的第一类候选词和第二类候选词删除，得到目标输入法词库。

其中，第一类候选词为包含在第一列表中的相对熵小于或等于第一阈值的候选词；第二类候选词为包含在第二列表中的相对熵小于或等于第二阈值的候选词。第一阈值大于第二阈值。

具体地，服务器可以将预训练语言词库中的第一类候选词、第二类候选词和第三类候选词删除，得到目标输入法词库。其中，第一类候选词为包含在第一列表中的相对熵小于或等于第一阈值的候选词。第二类候选词为包含在第二列表中的相对熵小于或等于第二阈值的候选词。第三类候选词为预训练语言词库中的除包含在第一列表和第二列表中的候选词之外的、相对熵小于或等于第三阈值的候选词。其中，第一阈值大于第三阈值，第三阈值大于第二阈值。

本申请实施例提供的更新输入法词库的方法具体通过(1)至(3)实现。

(1)采用传统方式训练规模较大(G量级)的语言模型。具体包括：

对大量的语料进行分词。

对所有n元关系进行词频统计。其中，n的取值与实际业务相关，在输入法业务中n通常小于或等于3。

依据特定的平滑算法(例如Witten-Bell打折法)对原始词频进行打折，使得打折后每个n元关系的估计概率小于用原始词频进行的极大似然估计(MLE)。这样多出来的部分概率可以分给语料中未出现的n元关系，避免在实际使用中出现某个输入的n元关系概率为0的不合理情况。

将训练好的ARPA格式的模型压缩成WFST格式。

(2)选择预设的剪枝算法，如基于相对熵的剪枝算法：遍历语言模型的所有n元关系，计算将每个n元关系单独删除前后的相对熵，并剔除相对熵小于阈值λ的n元关系。其中，相对熵用于衡量特定的n元关系对语言模型的影响程度，相对熵越大表示该n元关系对模型整体影响越大。

(3)在通用的基于相对熵的剪枝策略基础上，改进步骤如下：

因为阈值λ越大，删除的n元关系越多，所以可以通过动态调整阈值λ，实现保留更多想要的n元关系，并去除不想要的n元关系的目标。

对于keep list中的n元关系，可以采用更小的第二阈值λ1进行筛选，从而在最终的小语言模型中保留更多相关n元关系。具体步骤如下：

设置多个的第二阈值λ1备选值。其中，λ1的取值范围为0.1λ～0.9λ，第三阈值λ为用于删除语言模型中的除包含在第一列表和第二列表中的候选词之外的候选词的阈值；

使用多个备选值中的一个备选值对语言模型进行剪枝。需要说明的是，keep list中的n元关系小于第二阈值λ1会被删除，而其他n元关系仍然是小于第三阈值λ；

测试采用剪枝后的语言模型的输入法在测试集上的首选率；

对每个备选值进行如上操作，使用测得首选率最高的作为第二阈值λ1。

对于bad list的n元关系，可以采用更大的第一阈值λ2进行筛选，从而在最终的小语言模型中去掉更多相关n元关系。具体步骤如下：

设置多个的第一阈值λ2备选值。其中，第一阈值λ2的取值范围为2λ～10λ，第三阈值λ为用于删除语言模型中的除包含在第一列表和第二列表中的候选词之外的候选词的阈值；

使用多个备选值中的一个备选值对语言模型进行剪枝。需要说明的是，bad list中的n元关系小于第一阈值λ2会被删除，而其他n元关系仍然是小于第三阈值λ；

测试采用剪枝后的语言模型的输入法在测试集上的首选率；

对每个备选值进行如上操作，使用测得首选率最高的作为第一阈值λ2。

需要说明的是，对于语言模型中的除包含在第一列表和第二列表中的候选词之外的其他候选词，仍采用第三阈值λ进行剪枝。

在服务器从预训练语言词库中删除第一类候选词、第二类候选词和第三类候选词之后，服务器可以根据剪枝后保留的n元关系，使用预设的平滑算法重新计算每个n元关系的问题(prob)和回退(backoff)，得到训练好的新语言模型，即更新后的输入法词库。

本申请实施例提供的输入法词库更新方法，在传统的仅与语言模型自身相关的评价指标的剪枝方案基础上进行优化，对用户反馈负例中的有效词元和无效词元进行分别的剪枝策略。该过程不需要额外的标注工作，会随着输入法整体出词效果和用户使用情况动态调整的自学习。另外该过程中能优化电子设备上的语言模型中的词元分布情况，提升输入法的长句出词效果。

示例二

上述S206可以通过下述的S206b至S206e实现。

S206b、服务器为第二列表中的候选词添加预设标签。

可选地，服务器可以为第一列表(bad list)中的候选词添加负向标签(negative)，为第二列表(keep list)中的候选词添加正向标签(positive)。

S206c、服务器对添加过预设标签的候选词做数据增强处理，生成至少一个语料。

S206d、服务器将该至少一个语料添加至预训练语言词库。

S206e、服务器对添加语料的预训练语言词库剪枝，得到更新后的输入法词库。

(1)使用预训练语言模型，如transformer预训练语言模型，基于负例的语料生成与keep list相似的人造语料。具体生成方式如下：

为keep list添加正向标签，并为bad list添加负向标签，以组成训练数据。如表1所示为本申请实施例提供的一种标签与文本的对应关系表。

表1

在添加过标签的训练数据上微调(finetune)，得到一个大型的预训练语言模型(BERT/GPT2/BART)。对于GPT2，目标是去做生成任务；对于BERT，目标是要去预测被Mask的词语。

使用经过微调的语言模型，可以使用类标签和几个初始字作为模型的提示词生成新的数据。比如使用keep list的每条训练数据的前3个初始字来为训练数据做数据增强。对于BERT，掩饰(mask)每条数据的随机1～2个位置做数据增强。例如，对于添加了正向标签的“填空填不来”，可以mask后两个音节，以前三个音节为训练数据做数据增强，生成语料“填空填不好”。

(2)将生成好的语料加入到用于训练的预训练语言词库。

(3)采用传统方法对预训练语言词库进行训练，并剪枝，得到更新后的输入法词库。该输入法词库对keep list的语料具有更强的理解力。

本申请实施例提供的输入法词库更新方法，在电子设备上存储能力有限的情况下，依靠预训练模型的数据增强，且下游依然沿用传统的语言模型及剪枝方案。这样既利用了神经网络生成带来的灵活性和丰富性，又保留了语言模型的稳定性和可控性，使得与实际业务更适配。另外，不需要额外的人工干预的自学习过程，能优化电子设备存储能力受限的语言模型中的词元分布情况，并提升输入法的长句出词效果。

本申请实施例提供一种输入法词库更新方法，应用于电子设备，包括：

S1、电子设备基于在输入法界面输入的第一字符串显示N个候选词。

S2、电子设备接收对该N个候选词中的目标候选词的第一输入。

S3、电子设备响应于该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词，该第一候选词为该N个候选词中排序在首位的候选词。

S4、在接收到服务器发送的目标输入法词库的情况下，电子设备将原始输入法词库更新为该目标输入法词库，其中，该目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

本申请实施例中，在输入法界面输入长音节串之后，可以响应于对N个候选词中的目标候选词的选择输入，向服务器发送该目标候选词和该N个候选词中排序在首位的第一候选词，以使得服务器能够根据目标候选词和第一候选词确定是否得到新的输入法词库，并在确定新的输入法词库后通知该装置将原始输入法词库更新为该新的输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

本申请实施例提供一种输入法词库更新方法，应用于服务器，包括：

S5、服务器接收由电子设备发送的目标候选词和第一候选词，其中，第一候选词为在N个候选词中排序在首位的候选词，目标候选词为用户在N个候选词中选择的候选词，N个候选词为基于第一字符串确定的，第一字符串包括的音节数大于或等于预设值。

S6、在目标候选词不为第一候选词的情况下，服务器将第一候选词添加至第一列表，并将目标候选词添加至第二列表，其中，第一列表包括未被用户选择的至少一个排序在首位的候选词，第二列表包括被用户选择的至少一个排序在非首位的候选词。

S7、在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，服务器根据第一列表和/或第二列表，确定目标输入法词库。

S8、服务器向电子设备目标输入法词库。

一种可能的实现方式，S7具体可以包括：将预训练语言词库中的第一类候选词和第二类候选词删除，得到目标输入法词库。其中，第一类候选词为包含在第一列表中的相对熵小于或等于第一阈值的候选词；第二类候选词为包含在第二列表中的相对熵小于或等于第二阈值的候选词；第一阈值大于第二阈值。

另一种可能的实现方式，S7具体可以包括：为第二列表中的候选词添加预设标签；对添加过预设标签的候选词做数据增强处理，生成至少一个语料；将至少一个语料添加至预训练语言词库；对添加语料的预训练语言词库剪枝，得到目标输入法词库。

可选地，将第一候选词添加至第一列表，并将目标候选词添加至第二列表，具体可以包括：切分第一候选词，得到P个词元组，P个词元组中的每个词元组包括至少两个词元；切分目标候选词，得到T个词元组，T个词元组中的每个词元组包括至少两个词元；将P个词元组中的符合预设条件的词元组添加至第一列表；将T个词元组中的符合预设条件的词元组添加至第二列表；其中，预设条件为：词元组包括的所有词元为输入法词库中的词元，P、T为正整数。

本申请实施例中，在接收到电子设备发送的目标候选词和第一候选词之后，可以将第一候选词和目标候选词分别添加至第一列表和第二列表，并在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，根据该第一列表和/或第二列表，确定目标输入法词库，以及向电子设备发送该目标输入法词库，从而使得电子设备可以将原始输入法词库更新为该目标输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

需要说明的是，本申请实施例提供的输入法词库更新方法，执行主体可以为输入法词库更新装置，或者该输入法词库更新装置中的用于执行输入法词库更新方法的控制模块。本申请实施例中以输入法词库更新装置执行输入法词库更新方法为例，说明本申请实施例提供的输入法词库更新装置。

如图3所示，本申请实施例提供一种输入法词库更新装置300。该装置包括显示模块301、接收模块302、通信模块303和处理模块304。

显示模块301，可以用于基于在输入法界面输入的第一字符串显示N个候选词。接收模块302，可以用于接收对显示模块显示的该N个候选词中的目标候选词的第一输入。通信模块303，可以用于响应于接收模块302接收的该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词，该第一候选词为该N个候选词中排序在首位的候选词。处理模块304，可以用于在通信模块303接收到服务器发送的目标输入法词库的情况下，将原始输入法词库更新为目标输入法词库，其中，该目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

本申请实施例提供一种输入法词库更新装置，用户在输入法界面输入长音节串之后，可以响应于对N个候选词中的目标候选词的选择输入，向服务器发送该目标候选词和该N个候选词中排序在首位的第一候选词，以使得服务器能够根据目标候选词和第一候选词确定是否得到新的输入法词库，并在确定新的输入法词库后通知该装置将原始输入法词库更新为该新的输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

如图4所示，本申请实施例提供一种输入法词库更新装置400。该装置包括通信模块401和处理模块402。

通信模块401，可以用于接收由电子设备发送的目标候选词和第一候选词，其中，该第一候选词为在N个候选词中排序在首位的候选词，该目标候选词为用户在该N个候选词中选择的候选词，该N个候选词为基于第一字符串确定的，该第一字符串包括的音节数大于或等于预设值。

处理模块402，可以用于在通信模块401接收的目标候选词不为第一候选词的情况下，将第一候选词添加至第一列表，并将目标候选词添加至第二列表，其中，第一列表包括未被用户选择的至少一个排序在首位的候选词，第二列表包括被用户选择的至少一个排序在非首位的候选词。

处理模块402，还可以用于在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，根据第一列表和/或第二列表，确定目标输入法词库。

通信模块401，还可以用于向电子设备发送目标输入法词库。

可选地，处理模块402，具体可以用于：将预训练语言词库中的第一类候选词和第二类候选词删除，得到目标输入法词库。其中，该第一类候选词为包含在第一列表中的相对熵小于或等于第一阈值的候选词；该第二类候选词为包含在第二列表中的相对熵小于或等于第二阈值的候选词；该第一阈值大于该第二阈值。

可选地，处理模块402，具体可以用于：

为第二列表中的候选词添加预设标签；

对添加过预设标签的候选词做数据增强处理，生成至少一个语料；

将至少一个语料添加至预训练语言词库；

对添加语料的预训练语言词库剪枝，得到目标输入法词库。

可选地，处理模块402，具体可以用于：

切分第一候选词，得到P个词元组，P个词元组中的每个词元组包括至少两个词元；

切分目标候选词，得到T个词元组，T个词元组中的每个词元组包括至少两个词元；

将P个词元组中的符合预设条件的词元组添加至第一列表；

将T个词元组中的符合预设条件的词元组添加至第二列表；

其中，预设条件为：词元组包括的所有词元为输入法词库中的词元，P、T为正整数。

本申请实施例提供一种输入法词库更新装置，在接收到电子设备发送的目标候选词和第一候选词之后，可以将第一候选词和目标候选词分别添加至第一列表和第二列表，并在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，根据该第一列表和/或第二列表，确定目标输入法词库，以及向电子设备发送该目标输入法词库，从而使得电子设备可以将原始输入法词库更新为该目标输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

本申请实施例中的输入法词库更新装置可以是装置，具有操作系统的装置或设备，也可以是终端中的部件、集成电路、或芯片。该装置或设备可以是移动终端，也可以为非移动终端。示例性的，移动终端可以包括但不限于上述所列举的电子设备11的类型，非移动终端可以为服务器、网络附属存储器(network attached storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的输入法词库更新装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的输入法词库更新装置能够实现图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种通信设备500，包括处理器501，存储器502，存储在存储器502上并可在处理器501上运行的程序或指令。例如，该通信设备500为电子设备时，该程序或指令被处理器501执行时实现上述输入法词库更新方法实施例的各个过程，且能达到相同的技术效果。该通信设备500为服务器时，该程序或指令被处理器501执行时实现上述输入法词库更新方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

显示单元106，可以用于基于在输入法界面输入的第一字符串显示N个候选词。

用户输入单元107，可以用于接收对显示单元106显示的该N个候选词中的目标候选词的第一输入。

射频单元101，可以用于响应于用户输入单元107接收的该第一输入，在该第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送该目标候选词和第一候选词，该第一候选词为该N个候选词中排序在首位的候选词。

处理器110，可以用于在射频单元101接收到服务器发送的目标输入法词库的情况下，将原始输入法词库更新为目标输入法词库，其中，该目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

本申请实施例提供一种电子设备，用户在输入法界面输入长音节串之后，可以响应于对N个候选词中的目标候选词的选择输入，向服务器发送该目标候选词和该N个候选词中排序在首位的第一候选词，以使得服务器能够根据目标候选词和第一候选词确定是否得到新的输入法词库，并在确定新的输入法词库后通知该装置将原始输入法词库更新为该新的输入法词库。如此，实现了基于用户实际输入情况更新输入法词库，使得长字符串对应的候选词组的出词顺序更符合用户实际使用需求，并提高了输入法的长句出词的效果。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(graphicsprocessing unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种服务器，包括处理器和通信接口。通信接口用于接收由电子设备发送的目标候选词和第一候选词，其中，该第一候选词为在N个候选词中排序在首位的候选词，该目标候选词为用户在该N个候选词中选择的候选词，该N个候选词为基于第一字符串确定的，该第一字符串包括的音节数大于或等于预设值。处理器用于在目标候选词不为第一候选词的情况下，将第一候选词添加至第一列表，并将目标候选词添加至第二列表，其中，第一列表包括未被用户选择的至少一个排序在首位的候选词，第二列表包括被用户选择的至少一个排序在非首位的候选词。处理器还用于在目标候选词不为第一候选词的概率大于或等于预设概率的情况下，根据第一列表和/或第二列表，确定目标输入法词库。通信接口还用于向电子设备发送目标输入法词库。该服务器实施例是与上述服务器方法实施例对应的，上述方法实施例的各个实施过程和实现方式均可适用于该服务器实施例中，且能达到相同的技术效果。

具体地，本申请实施例还提供了一种服务器。如图7所示，该服务器700包括：天线71、射频装置72、基带装置73。天线71与射频装置72连接。在上行方向上，射频装置72通过天线71接收信息，将接收的信息发送给基带装置73进行处理。在下行方向上，基带装置73对要发送的信息进行处理，并发送给射频装置72，射频装置72对收到的信息进行处理后经过天线71发送出去。

上述频带处理装置可以位于基带装置73中，以上实施例中服务器执行的方法可以在基带装置73中实现，该基带装置73包括处理器74和存储器75。

基带装置73例如可以包括至少一个基带板，该基带板上设置有多个芯片，如图7所示，其中一个芯片例如为处理器74，与存储器75连接，以调用存储器75中的程序，执行以上方法实施例中所示的服务器操作。

该基带装置73还可以包括网络接口76，用于与射频装置72交互信息，该接口例如为通用公共无线接口(common public radio interface，CPRI)。

具体地，本发明实施例的服务器还包括：存储在存储器75上并可在处理器74上运行的指令或程序，处理器74调用存储器75中的指令或程序执行图4所示各模块执行的方法，并达到相同的技术效果，为避免重复，故不在此赘述。

本申请实施例还提供一种可读存储介质，该可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述输入法词库更新方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为实施例中的电子设备或服务器中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现上述输入法词库更新方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种输入法词库更新方法，应用于电子设备，其特征在于，所述方法包括：

基于在输入法界面输入的第一字符串显示N个候选词；

接收对所述N个候选词中的目标候选词的第一输入；

响应于所述第一输入，在所述第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送所述目标候选词和第一候选词，所述第一候选词为所述N个候选词中排序在首位的候选词；

在接收到所述服务器发送的目标输入法词库的情况下，将原始输入法词库更新为所述目标输入法词库，其中，所述目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

2.一种输入法词库更新方法，应用于服务器，其特征在于，所述方法包括：

接收由电子设备发送的目标候选词和第一候选词，其中，所述第一候选词为在N个候选词中排序在首位的候选词，所述目标候选词为用户在所述N个候选词中选择的候选词，所述N个候选词为基于第一字符串确定的，所述第一字符串包括的音节数大于或等于预设值；

在所述目标候选词不为所述第一候选词的情况下，将所述第一候选词添加至第一列表，并将所述目标候选词添加至第二列表，其中，所述第一列表包括未被用户选择的至少一个排序在首位的候选词，所述第二列表包括被用户选择的至少一个排序在非首位的候选词；

在所述目标候选词不为所述第一候选词的概率大于或等于预设概率的情况下，根据所述第一列表和/或第二列表，确定目标输入法词库；

向所述电子设备发送所述目标输入法词库。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一列表和/或第二列表，确定目标输入法词库，包括：

将预训练语言词库中的第一类候选词和第二类候选词删除，得到所述目标输入法词库；

其中，所述第一类候选词为包含在所述第一列表中的相对熵小于或等于第一阈值的候选词；所述第二类候选词为包含在所述第二列表中的相对熵小于或等于第二阈值的候选词；所述第一阈值大于所述第二阈值。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一列表和/或第二列表，确定目标输入法词库，包括：

为所述第二列表中的候选词添加预设标签；

对添加过所述预设标签的候选词做数据增强处理，生成至少一个语料；

将所述至少一个语料添加至预训练语言词库；

对添加语料的预训练语言词库剪枝，得到所述目标输入法词库。

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述将所述第一候选词添加至第一列表，并将所述目标候选词添加至第二列表，包括：

切分所述第一候选词，得到P个词元组，所述P个词元组中的每个词元组包括至少两个词元；

切分所述目标候选词，得到T个词元组，所述T个词元组中的每个词元组包括至少两个词元；

将所述P个词元组中的符合预设条件的词元组添加至所述第一列表；

将所述T个词元组中的符合预设条件的词元组添加至所述第二列表；

其中，所述预设条件为：词元组包括的所有词元为输入法词库中的词元，所述P、T为正整数。

6.一种输入法词库更新装置，其特征在于，所述装置包括显示模块、接收模块、通信模块和处理模块；

所述显示模块，用于基于在输入法界面输入的第一字符串显示N个候选词；

所述接收模块，用于接收对所述显示模块显示的所述N个候选词中的目标候选词的第一输入；

所述通信模块，用于响应于所述接收模块接收的所述第一输入，在所述第一字符串包括的音节数大于或等于预设值的情况下，向服务器发送所述目标候选词和第一候选词，所述第一候选词为所述N个候选词中排序在首位的候选词；

所述处理模块，用于在所述通信模块接收到所述服务器发送的目标输入法词库的情况下，将原始输入法词库更新为所述目标输入法词库，其中，所述目标输入法词库为根据用户选择的候选词和排序在首位的候选词确定的。

7.一种输入法词库更新装置，其特征在于，所述装置包括通信模块和处理模块；

所述通信模块，用于接收由电子设备发送的目标候选词和第一候选词，其中，所述第一候选词为在N个候选词中排序在首位的候选词，所述目标候选词为用户在所述N个候选词中选择的候选词，所述N个候选词为基于第一字符串确定的，所述第一字符串包括的音节数大于或等于预设值；

所述处理模块，用于在所述通信模块接收的所述目标候选词不为所述第一候选词的情况下，将所述第一候选词添加至第一列表，并将所述目标候选词添加至第二列表，其中，所述第一列表包括未被用户选择的至少一个排序在首位的候选词，所述第二列表包括被用户选择的至少一个排序在非首位的候选词；

所述处理模块，还用于在所述目标候选词不为所述第一候选词的概率大于或等于预设概率的情况下，根据所述第一列表和/或第二列表，确定目标输入法词库；

所述通信模块，还用于向所述电子设备发送所述目标输入法词库。

8.根据权利要求7所述的装置，其特征在于，所述处理模块，具体用于：

9.根据权利要求7所述的装置，其特征在于，所述处理模块，具体用于：

为所述第二列表中的候选词添加预设标签；

将所述至少一个语料添加至预训练语言词库；

10.根据权利要求7至9中任一项所述的装置，其特征在于，所述处理模块，具体用于：

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1所述的输入法词库更新方法的步骤。

12.一种服务器，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求2至5中任一项所述的输入法词库更新方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的输入法词库更新方法的步骤。