CN113610231A

CN113610231A - 语言模型训练方法及装置和词组推荐方法及装置

Info

Publication number: CN113610231A
Application number: CN202110955749.1A
Authority: CN
Inventors: 吴伟彤; 李长亮; 郭馨泽
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-05
Anticipated expiration: 2041-08-19
Also published as: CN113610231B

Abstract

本申请提供语言模型训练方法及装置、和词组推荐方法及装置，其中语言模型训练方法包括：获取历史输入语句，其中，历史输入语句携带场景属性信息，且历史输入语句中的两个字词之间存在关联标签；将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；基于场景属性信息对应的权重，对第一预测结果进行加权运算，得到加权结果；根据加权结果与标签信息之间的差异，调整神经网络模型的模型参数和权重，并返回执行将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤；在达到训练停止条件时，获得完成训练的语言模型。本方案可以针对用户的输入习惯和输入场景，进行个性化的词组推荐。

Description

语言模型训练方法及装置和词组推荐方法及装置

技术领域

本申请涉及词组推荐技术领域，特别涉及一种语言模型训练方法。本申请同时涉及一种词组推荐方法，一种语言模型训练装置，一种词组推荐装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术和网络技术的不断发展，计算机在人们生活、工作中的应用越来越普遍。在使用计算机的过程中，不可避免要用到输入法。为了提高使用计算机输入文字的效率和便捷性，输入法应用程序一般都提供有词组推荐功能。具体的，词组推荐功能是指根据输入的字词，相应地推荐该字词的关联词组，例如，输入词语“国庆”，可以相应地推荐关联词组“国庆放假”；输入字“太”，推荐关联词组“太阳”。

相关技术中，利用统计语言模型进行词组推荐，具体是将字词输入统计语言模型，得到该字词与各候选字词的共现概率，进而比较各候选字词对应的共现概率之间的大小，并根据比较结果确定该字词的关联词组。其中，共现概率为字词同时出现的概率。统计语言模型是一种自然语言处理的基础模型，可以预先通过以下训练过程得到：将样本文本输入初始的统计语言模型，在初始的统计语言模型统计得到样本文本中各字词的共现概率的情况下，得到统计语言模型。

但是，上述共现概率为预先统计得到的固定值，因此，对任何输入需求均按固定的相同共现概率进行词组推荐，导致词组推荐存在个性化不足的问题。

发明内容

有鉴于此，本申请实施例提供了一种语言模型训练方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了语言模型训练装置，一种词组推荐方法，一种词组推荐装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种语言模型训练方法，包括：

获取历史输入语句，其中，历史输入语句携带场景属性信息，且历史输入语句中的两个字词之间存在关联标签；

将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；

基于场景属性信息对应的权重，对第一预测结果进行加权运算，得到加权结果；

根据加权结果与标签信息之间的差异，调整神经网络模型的模型参数和权重，并返回执行将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤，其中，标签信息为历史输入语句中与样本字词存在关联标签的字词的信息；

在达到训练停止条件时，获得完成训练的语言模型。

根据本申请实施例的第二方面，提供了一种语词组推荐方法，包括：

在接收到用户输入的当前字词时，获取当前的场景属性信息；

基于当前字词和当前的场景属性信息，利用预先训练得到的语言模型，获得当前字词的关联字词，其中，语言模型采用上述语言模型训练方法得到；

基于当前字词和关联字词，推荐关联词组。

根据本申请实施例的第三方面，提供了一种语言模型训练装置，包括：

历史输入获取模块，被配置为获取历史输入语句，其中，历史输入语句携带场景属性信息，且历史输入语句中的两个字词之间存在关联标签；

预测模块，被配置为将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；

场景加权模块，被配置为基于场景属性信息对应的权重，对第一预测结果进行加权运算，得到加权结果；

循环模块，被配置为根据加权结果与标签信息之间的差异，调整神经网络模型的模型参数和权重，并返回执行将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤，其中，标签信息为历史输入语句中与样本字词存在关联标签的字词的信息；

模型确定模块，被配置为在达到训练停止条件时，获得完成训练的语言模型。

根据本申请实施例的第四方面，提供了一种词组推荐装置，包括：

场景信息获取模块，被配置为在接收到用户输入的当前字词时，获取当前的场景属性信息；

关联词组确定模块，被配置为基于当前字词和当前的场景属性信息，利用预先训练得到的语言模型，获得当前字词的关联字词，其中，语言模型采用上述语言模型训练方法得到；

推荐模块，被配置为基于当前字词和关联字词，推荐关联词组。

根据本申请实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器执行所述计算机可执行指令时实现所述语言模型训练方法，或者词组推荐方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述语言模型训练方法，或者词组推荐方法的步骤。

本申请提供的方案，通过获取历史输入语句，其中，历史输入语句携带场景属性信息，且历史输入语句中的两个字词之间存在关联标签；将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；基于场景属性信息对应的权重，对第一预测结果进行加权运算，得到加权结果；根据加权结果与标签信息之间的差异，调整神经网络模型的模型参数和权重，并返回执行将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤，其中，标签信息为历史输入语句中与样本字词存在关联标签的字词的信息；在达到训练停止条件时，获得完成训练的语言模型。

其中，历史输入语句为用户历史输入的语句，且历史输入语句中的两个字词之间存在关联标签。因此，可以保证利用语言模型确定的关联字词符合用户的输入习惯。并且，历史输入语句携带场景属性信息，训练的过程调整的参数包括对第一预测结果进行加权运算、且与场景属性信息对应的权重。因此，利用语言模型确定关联字词时，可以通过与场景属性信息对应的权重体现关联字词与当前输入场景的场景属性信息之间的匹配程度，从而保证关联字词满足当前输入场景中的输入需求。由此，基于用户输入的当前字词和当前字词的关联字词，推荐关联词组时，所推荐的关联词组符合用户的输入习惯和输入场景，实现针对不同输入需求进行个性化词组推荐的效果。

附图说明

图1是本申请一实施例提供的一种语言模型训练方法的流程图；

图2是本申请另一实施例提供的一种语言模型训练方法的流程图；

图3是本申请一实施例提供的一种词组推荐方法的流程图；

图4是本申请另一实施例提供的一种词组推荐方法的应用场景示例图；

图5是本申请一实施例提供的一种语言模型训练装置的结构示意图；

图6是本申请一实施例提供的一种词组推荐装置的结构示意图；

图7是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

在本申请中，提供了一种语言模型训练方法。本申请同时涉及一种词组推荐方法，一种语言模型训练装置，一种词组推荐装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种语言模型训练方法的流程图，具体包括以下步骤：

S101，获取历史输入语句。

其中，历史输入语句携带场景属性信息，且历史输入语句中的两个字词之间存在关联标签。

在具体应用中，字词可以包括：字或者词语。并且，可以针对每个用户，从输入法应用程序的服务器中获取该用户的历史输入语句。例如，历史输入语句“国庆节快乐”中，词语“国庆节”和词语“快乐”之间存在关联标签，字“快”和字“乐”之间存在关联标签，词语“国庆”和字“节”之间存在关联标签。历史输入语句中的两个字词之间的关联标签可以预先由人工标注。并且，安装有输入法应用程序的计算设备，可以获取用户输入字词时场景的场景属性信息，并与用户输入的字词对应记录，从而保证历史输入语句携带场景属性信息。场景属性信息可以是多种的，下面以可选实施例的形式进行具体说明。

在一种可选的实施方式中，上述场景属性信息，包括以下信息中的至少一种：

历史输入语句输入时的时间点、地理位置、展示历史输入语句的历史应用程序的类型、以及历史输入语句对应有历史通信对象时历史通信对象与用户的关系信息。

在具体应用中，不同的场景下用户的输入需求不同。例如，工作时间在公司，通信对象为同事的场景中，用户输入“国庆节”，需求的关联字词很可能为“加班”。休息时间在家中，通信对象为朋友的场景中，用户输入“国庆节”，需求的关联字词很可能为“快乐”。对此，为了针对不同场景推荐满足用户输入需求的词组，可以通过本可选实施例，以多样化的场景属性信息更加准确地表明用户的输入需求，进而提高通过场景属性信息对应的权重所表征的关联字词与输入场景之间匹配程度的准确度，从而提高后续进行个性化词组推荐的准确度。

其中，历史应用程序的类型可以按照历史应用程序的功能划分，例如，演示文稿应用程序，如PPT格式文稿和BPS格式文稿的类型为办公类型，某游戏应用程序的类型为游戏类型以及某聊天应用程序的类型为即时通讯类型等等。并且，历史通信对象与用户的关系信息为表明历史通信对象与用户之间社会关系的信息，具体可以包括：上司，同事，朋友，游戏好友，家人以及孩子等等。

历史场景属性信息可以在历史输入语句输入时获取并记录，为了便于理解和合理布局，后续在本申请实施例提供的词组推荐方法的可选实施例中，具体说明场景属性信息的获取方式。

S102，将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果。

在具体应用中，神经网络模型具体可以是卷积神经网络模型或者预训练语言模型等等。其中，预训练语言模型的获得过程包括：待训练模型的模型参数不通过随机初始化得到，而是利用关于学习输入一个字词，预测下一个字词的任务进行训练得到一套模型参数，用这套参数对待训练模型进行初始化，作为预训练语言模型。在此基础上，进一步训练预训练语言模型，以得到用于实现指定任务的模型。

为了便于理解和合理布局，后续以可选实施例的形式对神经网络模型为预训练语言模型的情况进行具体说明。

并且，第一预测结果可以是多种的。示例性的，第一预测结果可以是神经网络模型针对样本字词所确定的字词属于样本字词的关联字词的置信度；或者，第一预测结果可以是神经网络模型针对样本字词所确定的字词的特征向量。

S103，基于场景属性信息对应的权重，对第一预测结果进行加权运算，得到加权结果。

其中，第一次进行加权运算时的权重可以为根据经验设置的初始权重。并且，场景属性信息为多个的情况下，每个场景属性信息对应的初始权重可以相同，或者不同。示例性的，场景属性信息对应的权重包括：时间点对应权重K1，地理位置对应权重K2，历史应用程序的类型对应权重K3，历史通信对象和用户之间的关系对应权重K4。若第一预测结果为特征向量V1，则加权结果＝V1×(K1+K2+K3+K4)。或者，示例性的，场景属性信息对应的权重包括：场景属性信息表明的场景类型对应的权重K0。若第一预测结果为特征向量V2，则加权结果＝V2×K0。这样，不同的场景属性信息表明的场景类型不同，且不同的第一预测结果与场景类型之间的匹配程度不同。因此，可以通过权重对第一预测结果进行调整，以保证与场景类型越匹配的第一预测结果越可能被推荐。其中，可以从预先建立的场景属性信息和场景类型的对应关系中，查找历史输入语句携带的场景属性信息对应的场景类型。例如，场景属性信息“晚八点”、“家中”、“朋友”以及“游戏应用”对应场景类型“和朋友打游戏”。

S104，根据加权结果与标签信息之间的差异，调整神经网络模型的模型参数和权重。

返回执行S102，其中，标签信息为历史输入语句中与样本字词存在关联标签的字词的信息。

在具体应用中，确定加权结果与标签信息之间的差异，可以包括：计算加权结果与标签信息的特征向量之间的：差值、差值的绝对值、或者相似度等等，这都是合理的。并且，调整神经网络模型的模型参数和权重具体可以由开发人员手动调整，或者，执行上述训练的计算设备按照预设调整参数自动调整。

S105，在达到训练停止条件时，获得完成训练的语言模型。

其中，训练停止条件可以是多种的。示例性的，差异为差异值时，训练停止条件可以包括：差异值小于差异阈值；或者，差异为相似度时，训练停止条件可以包括：相似度大于或者等于相似度阈值。

差异达到训练停止条件，表明当前的神经网络模型学习到用户的输入习惯、并且通过权重调整学习到用户在不同场景下的输入需求。因此，可以确定当前的神经网络模型和上述当前的权重组成最终待使用的语言模型。

并且，执行本实施例提供的语言模型训练方法的训练设备可以是多种的。示例性的，训练设备可以不同于执行词组推荐方法的业务设备，其中，词组推荐方法利用上述语言模型实现。或者，示例性的，可以先利用计算设备进行本实施例提供的语言模型训练方法，在完成语言模型的训练之后，利用该计算设备执行词组推荐方法。

在具体应用中，上述历史输入语句可以包括多个用户的历史输入语句，进而通过本实施例提供的语言模型训练方法，以所有用户的历史输入语句为训练样本，可以训练得到一个普适性的语言模型；针对不同的用户，利用该用户的历史输入语句，对普适性的语言模型进行进一步训练，得到该用户个性化的语言模型。其中，对通用的语言模型进行训练与本实施例中对神经网络模型进行训练类似，区别在于训练的初始模型和样本不同。这样，可以针对不同的用户，利用该用户的语言模型实现词组推荐，进一步提高词组推荐的准确度，满足个性化推荐。

或者，通过本实施例提供的语言模型训练方法，针对不同的用户，利用该用户的历史输入语句，对上述神经网络模型进行训练，得到该用户个性化的语言模型；再利用多个用户的历史输入语句，对上述神经网络模型进行训练，得到一个普适性的语言模型。这样，在进行词组推荐时，可以基于当前用户的用户信息，查找相应的语言模型，如果可以查找到该用户个性化的语言模型，则利用该语言模型实现词组推荐；如果查找不到该用户个性化的语言模型，则利用普适性的语言模型实现词组推荐。这样，可以在针对不同的用户，利用该用户个性化的语言模型实现词组推荐，进一步提高词组推荐的准确度、满足个性化推荐的同时，利用普适性的语言模型保证本申请实施例提供的词组推荐方法适用于用户出现更新的情况，扩展适用场景。

本申请提供的方案中，历史输入语句为用户历史输入的语句，且历史输入语句中的两个字词之间存在关联标签。因此，可以保证利用语言模型确定的关联字词符合用户的输入习惯。并且，历史输入语句携带场景属性信息，训练的过程调整的参数包括对第一预测结果进行加权运算、且与场景属性信息对应的权重。因此，利用语言模型确定关联字词时，可以通过与场景属性信息对应的权重体现关联字词与当前输入场景的场景属性信息之间的匹配程度，从而保证关联字词满足当前输入场景中的输入需求。由此，基于用户输入的当前字词和当前字词的关联字词，推荐关联词组时，所推荐的关联词组符合用户的输入习惯和输入场景，实现针对不同输入需求进行个性化词组推荐的效果。

在一种可选的实施方式中，在上述将历史输入语句中的样本字词输入神经网络模型，得到第一预测结果之前，本申请实施例提供的语言模型训练方法，还可以包括如下步骤：

从公共语料库中获取多个公共字词；

利用多个公共字词，对初始神经网络模型进行训练，得到神经网络模型，其中，针对每个公共字词，初始神经网络模型的输出为对该公共字词的关联字词预测结果。

在具体应用中，公共语料库可以包括联合国文件数据库、语料库在线、媒体语言语料库以及美国当代英语语料库等等。并且，示例性的，初始神经网络模型具体可以包括：生成性预训练(GPT,Generative Pre-Training)模型、语言模型嵌入(ELMo,Embeddings fromLanguage Models)算法等等。GPT模型和ELMo算法均为自回归预训练模型，可以获取字词之间的联合概率：按照文本序列顺序拆解，例如从左至右分解，通过分析字词的分布情况，获取表明文本中上一个字词与下一个字词之间关系的概率，实现学习文本中词组之间的语言关系的效果。具体的，ELMo算法包括两个独立的单向长短期记忆(LSTM，Long short-termmemory)网络实现的单向语言模型，GPT模型采用多层翻译编码器(Transformer Decoder)作为特征抽取器。其中，GPT模型根据上文预测下文，因此，在词组推荐中具有很好的效果。

并且，利用多个公共字词，对初始神经网络模型进行训练，得到神经网络模型的具体方式，可以是有监督的训练，或者无监督的训练。下面以可选实施例的形式进行具体说明。

在一种可选的实施方式中，多个公共字词中的两个公共字词之间存在关联标签；相应的，上述利用多个公共字词，对初始神经网络模型进行训练，得到神经网络模型，具体可以包括如下步骤：

获取当前待处理的公共字词；

将当前待处理的公共字词输入初始神经网络模型，得到第二预测结果；

根据所述加权结果与公共标签信息之间的差异，调整所述初始神经网络模型的模型参数，将下一个待处理的公共字词作为当前待处理的公共字词，并返回执行获取当前待处理的公共字词的步骤，其中，公共标签信息为多个公共字词中与当前待处理的公共字词存在关联标签的公共字词的信息；

在达到训练停止条件时，获得完成训练的神经网络模型。

在另一种可选的实施方式中，上述利用多个公共字词，对初始神经网络模型进行训练，得到神经网络模型，具体可以包括如下步骤：

获取当前待处理的公共字词；

将第二预测结果和当前的初始神经网络模型的模型参数输入预设似然函数，得到模型参数的似然值；

若模型参数的似然值未达到预设似然函数的最大值，则调整当前的初始神经网络模型的模型参数，将下一个待处理的公共字词作为当前待处理的公共字词，并返回执行将当前待处理的公共字词输入初始神经网络模型，得到第二预测结果的步骤；

若似然值达到预设似然函数的最大值，则确定当前的初始神经网络模型为神经网络模型。

其中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性，似然性用于在已知某些结果时，对产生该结果的事物的参数进行估计。似然值达到预设似然函数的最大值，表明此时的模型参数获得的公共字词的关联字词预测结果，相对最准确，也就是当前的初始神经网络模型学习到了公共字词之间的语言关系。因此，可以确定当前的初始神经网络模型为神经网络模型。可见，本实施例通过上述预设似然函数可以实现无标签训练，提高训练效率。

综上，本可选实施例相当于通过预训练获得预训练语言模型的一种方法，可以学习公共字词之间的语言关系。与随机初始化模型参数相比，相当于更加准确的模型初始化，可以提高后续语言模型的获取效率。并且，上述第二种训练方式，以无监督训练的方式避免对大量语料标注标签的过程，降低了训练成本。

为了便于理解和合理布局，对于公共字词的获取过程，下面以可选实施例的形式进行具体说明。

在一种可选的实施方式中，上述利用多个公共字词，对初始神经网络模型进行训练，得到神经网络模型，具体可以包括如下步骤：

针对各公共字词，获取该公共字词中每个字的拼音；

利用每个字及每个字的拼音，对初始神经网络模型进行训练，得到神经网络模型。

在具体应用中，获取每个字的拼音可以是人工确定每个字的拼音，或者，计算设备自动从预先建立的字与拼音的对应关系中查找。其中，公共字词包括多个字以及每个字的拼音。因此，可以保证训练得到的神经网络模型学习到字与字之间的语言关系，从而可以预测排列在某一个字下一位的字。并且，可以保证训练得到的神经网络模型学习到字与拼音之间的语言关系，从而可以预测排列在某个拼音下一位的字。例如，初始神经网络模型的输入为“guoqing”或者“国庆”，初始神经网络模型的输出为“放假”。

可见，本实施例可以保证对输入为拼音的情况也能推荐关联的字，可以适应多种输入习惯，进而提高后续将语言模型用于词组推荐时的适用范围。

为了便于理解，下面以示例性说明的形式对上述图1实施例和可选实施例进行整合说明。图2示出了根据本申请另一实施例提供的一种语言模型训练方法的流程图，具体包括以下步骤：

S201，针对各公共字词，获取该公共字词中每个字的拼音。

S202，利用每个字及每个字的拼音，对初始神经网络模型进行训练，得到神经网络模型。

S203，获取历史输入语句，其中，历史输入语句携带场景属性信息，且历史输入语句中的两个字词之间存在关联标签。

S204，将待处理的历史输入语句中的样本字词输入神经网络模型，得到第一预测结果。

S205，基于场景属性信息对应的权重，对第一预测结果进行加权运算，得到加权结果。

S206，根据加权结果与标签信息之间的差异，调整神经网络模型的模型参数和权重。

返回执行S204。其中，标签信息为历史输入语句中与样本字词存在关联标签的字词的信息。

S207，在达到训练停止条件时，获得完成训练的语言模型。

本实施例中的各步骤与本申请上述图1实施例及可选实施例中表述相同的步骤相同，详见上述图1实施例及可选实施例的描述，在此不再赘述。

图3示出了根据本申请一实施例提供的一种词组推荐方法的流程图，具体包括以下步骤：

S301，在接收到用户输入的当前字词时，获取当前的场景属性信息。

在具体应用中，用户通过输入法应用程序输入当前字词。并且，当前的场景属性信息可以是多种的。下面以可选实施例的形式进行具体说明。

在一种可选的实施方式中，上述当前的场景属性信息，可以包括以下信息中的至少一种：

输入当前字词时的时间点、地理位置、展示当前字词的应用程序的类型、以及当前字词对应有当前通信对象时当前通信对象与用户的关系信息。

其中，当前的场景属性信息与历史输入语句携带的场景属性类似，区别在于对应场景的时间不同。对于相同部分在此不再赘述，详见上述图1可选实施例的描述。并且，获取当前的场景属性信息的具体方式可以是多种的。示例性的，获取输入当前字词时的时间点和地理位置可以包括：读取计算设备当前的本地时间作为输入当前字词时的时间点；读取计算设备当前定位的地理位置；确定展示当前字词的应用程序的名称，查找预先建立的应用程序的名称与应用程序的类型之间的对应关系表，得到展示当前字词的应用程序的类型；确定当前通信对象的名称、用户对通信对象的备注名以及用户对通信对象的称呼中的至少一种信息，提取所确定信息中的指定关键字，并查找预先建立的指定关键字与社会关系的对应关系表，得到当前通信对象与用户的关系信息。或者，示例性的，可以在接收到用户输入的当前字词时，输出场景属性信息输入界面，进而接收用户在场景属性信息输入界面中针对当前场景输入的场景属性信息。任何可以获取当前场景的场景属性信息的方式均可用于本申请，本实施例对此不作限制。

本可选实施例获取当前场景的多样化场景属性信息，可以保证后续通过步骤S302获得的关联字词符合用户在当前场景中的输入需求。

S302，基于当前字词和当前的场景属性信息，利用预先训练得到的语言模型，获得当前字词的关联字词。

其中，语言模型采用上述本申请图1实施例及图1可选实施例提供的语言模型训练方法得到，在此不再赘述，详见本申请图1实施例及图1可选实施例的描述。在具体应用中，当前字词的数量可以为一个或者多个，并且，展示在当前字词下一位的关联字词的数量可以为一个或者多个。示例性的，当前字词为“今”，关联字词可以为“天”或者“天下午”等等；当前字词为“开会的时候”，关联字词可以为“记录”，“，”或者“说”等等。

并且，在一种可选的实施方式中，上述基于当前字词和当前的场景属性信息，利用预先训练得到的语言模型，获得当前字词的关联字词，具体可以包括如下步骤：

基于当前字词的拼音和当前的场景属性信息，利用预先训练得到的语言模型，获得与当前字词的拼音关联的关联字词。

示例性的，当前字词的拼音为“huijia”，与当前字词的拼音关联的关联字词为“吃饭”。可见，本实施例可以实现对输入为拼音的情况也能推荐关联字的效果，可以适应多种输入习惯，提高本申请实施例提供的词组推荐方法的适用范围。

S303，基于当前字词和关联字词，推荐关联词组。

在具体应用中，在输入法应用程序输出当前字词时，推荐关联词组的方式可以是多种的，为了便于理解和合理布局，后续以可选实施例的形式进行具体说明。

在一种可选的实施方式中，上述基于当前字词和当前的场景属性信息，利用预先训练得到的语言模型，获得当前字词的关联字词，具体可以包括如下步骤：

将当前字词和当前的场景属性信息输入语言模型，获得当前字词的多个候选关联字词、以及每个候选关联字词的权重，其中，任一候选关联字词的权重与当前的场景属性信息对应；

针对每个候选关联字词，利用该候选关联字词的权重对该候选关联字词进行加权；

根据加权结果，从多个候选关联字词中确定当前字词的关联字词。

本实施例可以通过与场景属性信息对应的权重体现关联字词与当前输入场景的场景属性信息之间的匹配程度，从而保证关联字词满足当前输入场景中的输入需求，提高个性化字词推荐的准确度。

示例性的，将当前字词“国庆节”和当前的场景属性信息“10月1日20:00，家中，即时通讯类型，以及朋友”输入语言模型，获得当前字词的多个候选关联字词：“放假”、“加班”和“旅游”，以及针对每个候选关联字词的与当前的场景属性信息对应的权重。其中，“放假”的权重包括：时间点对应的权重K11，地点对应的权重K12，应用程序的类型对应的权重K13以及用户和通信对象的关系对应的权重K14。类似的，“加班”的权重包括：时间点对应的权重K21，地点对应的权重K22，应用程序的类型对应的权重K23以及用户和通信对象的关系对应的权重K24。“旅游”的权重包括：时间点对应的权重K31，地点对应的权重K32，应用程序的类型对应的权重K33以及用户和通信对象的关系对应的权重K34。相应的，对候选关联字词“放假”进行加权：“放假”的特征向量V1×(K11+K12+K13+K14)。对候选关联字词“加班”进行加权：“加班”的特征向量V2×(K21+K22+K23+K24)。对候选关联字词“旅游”进行加权：“旅游”的特征向量V3×(K31+K32+K33+K34)。

并且，根据加权的结果，从多个候选关联字词中确定当前字词的关联字词的具体方式可以是多种的，下面以可选实施例的形式进行具体说明。

在一种可选的实施方式中，上述根据加权的结果，从多个候选关联字词中确定当前字词的关联字词，可以包括：

从多个候选关联字词中，确定加权结果最大的候选关联字词，作为当前字词的关联字词；

相应的，上述基于当前字词和关联字词，推荐关联字词，具体可以包括如下步骤：

在当前字词的下一位置排列当前字词的关联字词，得到关联词组；

推荐关联词组。

在另一种可选的实施方式中，上述根据加权的结果，从多个候选关联字词中确定当前字词的关联字词，具体可以包括如下步骤：

按照加权结果从大到小的顺序，从多个候选关联字词中选取指定数量个字词，作为当前字词的关联字词；

相应的，上述基于当前字词和关联字词，推荐关联词组，具体可以包括如下步骤：

针对每个关联字词，在所述当前字词的下一位置排列该关联字词，得到关联词组；

推荐关联词组。

示例性的，按照加权的结果从大到小的顺序，从多个候选关联字词中选取字词“旅游”和“放假”作为当前字词“国庆节”的关联字词。在输入法应用程序输出当前字词“国庆节”时，在输入法应用程序的字词推荐栏依次输出“旅游”和“放假”。这样，用户无需输入“旅游”和“放假”，直接选定其中的一个字词作为“国庆节”的下一位即可。可见，用户输入需求是向朋友发送语句“国庆节旅游”，那么只需输入“国庆节”就可以通过本实施例自动得到“旅游”，从而快速便捷地得到语句“国庆节旅游”。

示例性的，当前字词为“wo”，“wo”对应的字字词可以包括：“我”、“握”、“卧”等等。相应的，候选关联字词可以包括：“的”、“手”、“室”。按照加权的结果从大到小的顺序，从多个候选关联字词中选取字词“的”和“室”作为当前字词“wo”的关联字词。在输入法应用程序输出当前字词“wo”时，在输入法应用程序的字词推荐栏依次输出“的”和“室”。这样，用户无需输入“的”和“室”，直接选定其中的一个字词作为“wo”的下一位即可。可见，用户输入需求是向朋友发送语句“我的”，那么即使输入“wo”，也可以通过本实施例自动得到“的”，无需用户在已经输入“wo”的情况下，重新输入“我”，因此，可以快速便捷地得到语句“wo的”。

本实施例按照加权的结果从大到小的顺序推荐指定数量个关联词组，在提高词组推荐效率的同时，可以通过顺序展示的多个关联词组提高词组推荐的准确度和用户体验。

为了便于理解，下面以示例性说明的形式对本申请实施例的应用场景进行说明。图4示出了本申请另一实施例提供的一种词组推荐方法的应用场景示例图。对于场景S1，当前输入字词为“word1”或者“pinyin2”，场景属性信息包括：聊天对象也就是通信对象“Person1”，位置信息也就是地理位置“Pos1”，时间信息也就是输入当前输入字词时的时间点“Time1”。将上述当前输入字词和场景属性信息输入本申请图1实施例以及可选实施例提供的语言模型，得到针对场景S1的推荐词也就是当前输入字词的关联字词包括：“word2”、“word3”以及“word6”。对于场景S2，与场景S1的区别在于场景属性信息均不相同，针对场景S2的关联字词包括：“word4”、“word2”以及“word5”。可见，本申请实施例可以针对不同的场景，推荐不同的关联字词。

与上述方法实施例相对应，本申请还提供了语言模型训练装置实施例，图5示出了本申请一实施例提供的一种语言模型训练装置的结构示意图。如图5所示，该装置包括：

历史输入获取模块501，被配置为获取历史输入语句，其中，所述历史输入语句携带场景属性信息，且所述历史输入语句中的两个字词之间存在关联标签；

预测模块502，被配置为将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；

场景加权模块503，被配置为基于所述场景属性信息对应的权重，对所述第一预测结果进行加权运算，得到加权结果；

循环模块504，被配置为根据所述加权结果与标签信息之间的差异，调整所述神经网络模型的模型参数和所述权重，并返回执行所述将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤，其中，所述标签信息为所述历史输入语句中与所述样本字词存在关联标签的字词的信息；

模型确定模块505，被配置为在达到训练停止条件时，获得完成训练的语言模型。

在一种可选的实施方式中，所述场景属性信息，包括以下信息中的至少一种：

所述历史输入语句输入时的时间点、地理位置、展示所述历史输入语句的历史应用程序的类型、以及所述历史输入语句对应有历史通信对象时，所述历史通信对象与用户的关系信息。

在一种可选的实施方式中，所述装置还包括：预训练模块，被配置为：

从公共语料库中获取多个公共字词；

利用所述多个公共字词，对初始神经网络模型进行训练，得到所述神经网络模型，其中，针对每个公共字词，所述初始神经网络模型的输出为该公共字词的关联字词预测结果。

在一种可选的实施方式中，所述预训练模块，进一步被配置为：

针对各公共字词，获取该公共字词中每个字的拼音；

利用所述每个字及所述每个字的拼音，对初始神经网络模型进行训练，得到所述神经网络模型。

获取当前待处理的公共字词；

将所述当前待处理的公共字词输入初始神经网络模型，得到第二预测结果；

将所述第二预测结果和当前的初始神经网络模型的模型参数输入预设似然函数，得到模型参数的似然值；

若所述模型参数的似然值未达到所述预设似然函数的最大值，则调整所述当前的初始神经网络模型的模型参数，将下一个待处理的公共字词作为当前待处理的公共字词，并返回执行所述将所述当前待处理的公共字词输入初始神经网络模型，得到第二预测结果的步骤；

若所述似然值达到所述预设似然函数的最大值，则确定当前的初始神经网络模型为所述神经网络模型。

与上述方法实施例相对应，本申请还提供了词组推荐装置实施例，图6示出了本申请一实施例提供的一种词组推荐装置的结构示意图。如图6所示，该装置包括：

场景信息获取模块601，被配置为在接收到用户输入的当前字词时，获取当前的场景属性信息；

关联字词确定模块602，被配置为基于所述当前字词和所述当前的场景属性信息，利用预先训练得到的语言模型，获得所述当前字词的关联字词，其中，所述语言模型通过上述任一语言模型训练装置训练得到；

推荐模块603，被配置为基于所述当前字词和所述关联字词，推荐关联词组。

在一种可选的实施方式中，所述当前的场景属性信息，包括以下信息中的至少一种：

输入所述当前词组时的时间点、地理位置、展示所述当前词组的应用程序的类型、以及所述当前词组对应有当前通信对象时，所述当前通信对象与用户的关系信息。

在一种可选的实施方式中，关联字词确定模块602，进一步被配置为：

基于所述当前字词的拼音和所述当前的场景属性信息，利用预先训练得到的语言模型，获得与所述当前字词的拼音关联的关联字词的字。。

在一种可选的实施方式中，所述关联字词确定模块602，进一步被配置为：

将所述当前字词和所述当前的场景属性信息输入所述语言模型，获得所述当前字词的多个候选关联字词、以及每个候选关联词组的权重，其中，任一候选关联字词的权重与所述当前的场景属性信息对应；

根据加权结果，从所述多个候选关联字词中确定所述当前字词的关联字词。

按照加权结果从大到小的顺序，从所述多个候选关联字词中选取指定数量个字词，作为所述当前字词的关联字词；

所述推荐模块603，进一步被配置为：

针对每个关联字词，在所述当前字词的下一位置排列该关联字词，得到关联词组；推荐所述关联词组。

上述为本实施例的一种语言模型训练装置以及词组推荐装置的示意性方案。需要说明的是，该语言模型训练装置的技术方案与上述的语言模型训练方法的技术方案属于同一构思，该词组推荐装置的技术方案与上述的词组推荐方法的技术方案属于同一构思，装置的技术方案未详细描述的细节内容，均可以参见上述方法的技术方案的描述。此外，装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图7示出了根据本申请一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，NetworkInterface Controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Networks)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Acess)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本申请的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行所述语言模型训练方法，或者词组推荐方法的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的语言模型训练方法、词组推荐方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述语言模型训练方法，或者词组推荐方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于语言模型训练方法，或者词组推荐方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语言模型训练方法、词组推荐方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语言模型训练方法，或者词组推荐方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语言模型训练方法，其特征在于，所述方法包括：

获取历史输入语句，其中，所述历史输入语句携带场景属性信息，且所述历史输入语句中的两个字词之间存在关联标签；

将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；

基于所述场景属性信息对应的权重，对所述第一预测结果进行加权运算，得到加权结果；

根据所述加权结果与标签信息之间的差异，调整所述神经网络模型的模型参数和所述权重，并返回执行所述将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤，其中，所述标签信息为所述历史输入语句中与所述样本字词存在关联标签的字词的信息；

在达到训练停止条件时，获得完成训练的语言模型。

2.根据权利要求1所述的方法，其特征在于，在所述将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果之前，所述方法还包括：

从公共语料库中获取多个公共字词；

3.根据权利要求2所述的方法，其特征在于，所述利用所述多个公共字词，对初始神经网络模型进行训练，得到所述神经网络模型，包括：

针对各公共字词，获取该公共字词中每个字的拼音；

4.根据权利要求2或3所述的方法，其特征在于，所述利用所述多个公共字词，对初始神经网络模型进行训练，得到所述神经网络模型，包括：

获取当前待处理的公共字词；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述场景属性信息，包括以下信息中的至少一种：

所述历史输入语句输入时的时间点、地理位置、展示所述历史输入语句的历史应用程序的类型、以及所述历史输入语句对应有历史通信对象时所述历史通信对象与用户的关系信息。

6.一种词组推荐方法，其特征在于，所述方法包括：

基于所述当前字词和所述当前的场景属性信息，利用预先训练得到的语言模型，获得所述当前字词的关联字词，其中，所述语言模型采用上述权利要求1至5任一项所述的语言模型训练方法得到；

基于所述当前字词和所述关联字词，推荐关联词组。

7.根据权利要求6所述的方法，其特征在于，所述基于所述当前字词和所述当前的场景属性信息，利用预先训练得到的语言模型，获得所述当前字词的关联字词，包括：

将所述当前字词和所述当前的场景属性信息输入所述语言模型，获得所述当前字词的多个候选关联字词、以及每个候选关联字词的权重，其中，任一候选关联字词的权重与所述当前的场景属性信息对应；

8.根据权利要求7所述的方法，其特征在于，所述根据加权结果，从所述多个候选关联字词中确定所述当前字词的关联字词，包括：

所述基于所述当前字词和所述关联字词，推荐关联词组，包括：

推荐所述关联词组。

9.根据权利要求6至8任一项所述的方法，其特征在于，所述基于所述当前字词和所述当前的场景属性信息，利用预先训练得到的语言模型，获得所述当前字词的关联字词，包括：

基于所述当前字词的拼音和所述当前的场景属性信息，利用预先训练得到的语言模型，获得与所述当前字词的拼音关联的关联字词。

10.根据权利要求6至8任一项所述的方法，其特征在于，所述当前的场景属性信息，包括以下信息中的至少一种：

输入所述当前字词时的时间点、地理位置、展示所述当前字词的应用程序的类型、以及所述当前字词对应有当前通信对象时所述当前通信对象与用户的关系信息。

11.一种语言模型训练装置，其特征在于，所述装置包括：

历史输入获取模块，被配置为获取历史输入语句，其中，所述历史输入语句携带场景属性信息，且所述历史输入语句中的两个字词之间存在关联标签；

预测模块，被配置为将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果；

场景加权模块，被配置为基于所述场景属性信息对应的权重，对所述第一预测结果进行加权运算，得到加权结果；

循环模块，被配置为根据所述加权结果与标签信息之间的差异，调整所述神经网络模型的模型参数和所述权重，并返回执行所述将所述历史输入语句中的样本字词输入神经网络模型，得到第一预测结果的步骤，其中，所述标签信息为所述历史输入语句中与所述样本字词存在关联标签的字词的信息；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：预训练模块，被配置为：

从公共语料库中获取多个公共字词；

13.根据权利要求12所述的装置，其特征在于，所述预训练模块，进一步被配置为：

针对各公共字词，获取该公共字词中每个字的拼音；

14.根据权利要求12或13所述的装置，其特征在于，所述预训练模块，进一步被配置为：

获取当前待处理的公共字词；

15.根据权利要求11至13任一项所述的装置，其特征在于，所述场景属性信息，包括以下信息中的至少一种：

16.一种词组推荐装置，其特征在于，所述装置包括：

关联字词确定模块，被配置为基于所述当前字词和所述当前的场景属性信息，利用预先训练得到的语言模型，获得所述当前字词的关联字词，其中，所述语言模型采用上述权利要求1至5任一项所述的语言模型训练方法得到；

推荐模块，被配置为基于所述当前字词和所述关联字词，推荐关联词组。

17.根据权利要求16所述的装置，其特征在于，所述关联字词确定模块，进一步被配置为：

18.根据权利要求17所述的装置，其特征在于，所述关联字词确定模块，进一步被配置为：

所述推荐模块，进一步被配置为：

推荐所述关联词组。

19.根据权利要求16至18任一项所述的装置，其特征在于，关联字词确定模块，进一步被配置为：

20.根据权利要求16至18任一项所述的装置，其特征在于，所述当前的场景属性信息，包括以下信息中的至少一种：

21.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1至5任意一项所述模型训练方法，或者权利要求6至10任意一项所述词组推荐方法的步骤。

22.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至5任意一项所述模型训练方法，或者权利要求6至10任意一项所述词组推荐方法的步骤。