CN111950291A

CN111950291A - 语义表示模型的生成方法、装置、电子设备及存储介质

Info

Publication number: CN111950291A
Application number: CN202010574268.1A
Authority: CN
Inventors: 王硕寰; 丁思宇; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-11-17
Anticipated expiration: 2040-06-22
Also published as: US20210248484A1; KR102565673B1; CN111950291B; EP3822842A2; EP3822842A3; KR20210081309A; JP2021184255A

Abstract

本申请公开了语义表示模型的生成方法、装置、电子设备及存储介质，涉及自然语言处理、深度学习技术领域。具体实现方案为：将获取到的原始文本集合中的原始文本进行知识单元识别以及切分，以获取原始文本中的知识单元以及非知识单元；接着，对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以得到乱序文本，并根据乱序文本中字符的字符属性生成训练文本集合；最后，采用训练文本集合对初始语义表示模型进行训练。这样，采用知识单元乱序建模的方式，可对原始文本中的词语及实体等进行建模，使模型学习真实世界的知识，增强了模型的效果。

Description

语义表示模型的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及自然语言处理、深度学习技术领域，尤其涉及语义表示模型的生成方法、装置、电子设备及存储介质。

背景技术

目前，NLP(Natural Language Processing，自然语言处理)是人工智能领域的一个重要的研究方向。相关技术中，针对NLP，主要通过XLNet(Permutation Language Model，乱序语言模型)进行语义分析。其中，XLNet以字为单元，将字的顺序打乱进行建模并进行语义分析。

但是，上述技术中，XLNet以字为单元进行建模，无法建模完整的词语与实体，模型效果受限。

发明内容

提供了一种语义表示模型的生成方法、装置、电子设备及存储介质。

根据第一方面，提供了一种语义表示模型的生成方法，该方法通过将原始文本进行知识单元识别以及切分，并将切分后的原始文本进行乱序处理，得到乱序文本，根据乱序文本中的字符属性对初始语义模型进行训练。这样，采用知识单元乱序建模的方式，可对原始文本中的词语及实体等进行建模，使模型学习真实世界的知识，增强了模型的效果。

本申请第二方面提出了一种语义表示模型的生成装置。

本申请第三方面提出了一种电子设备。

本申请第四方面提出了一种存储有计算机指令的非瞬时计算机可读存储介质。

本申请第一方面实施例提出了一种语义表示模型的生成方法，包括：获取原始文本集合，其中，所述原始文本集合包括原始文本；对所述原始文本进行知识单元识别以及切分，以获取所述原始文本中的知识单元以及非知识单元；对所述原始文本中的所述知识单元以及所述非知识单元进行知识单元级乱序处理，以得到乱序文本；生成所述乱序文本中每个字符的字符属性，其中，所述字符属性包括所述字符在所述原始文本中的原始位置，以及所述字符的当前位置；根据所述乱序文本中字符的字符属性生成训练文本集合；采用所述训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。

本申请实施例的语义表示模型的生成方法，通过获取原始文本集合，其中，所述原始文本集合包括原始文本；对所述原始文本进行知识单元识别以及切分，以获取所述原始文本中的知识单元以及非知识单元；对所述原始文本中的所述知识单元以及所述非知识单元进行知识单元级乱序处理，以得到乱序文本；生成所述乱序文本中每个字符的字符属性，其中，所述字符属性包括所述字符在所述原始文本中的原始位置，以及所述字符的当前位置；根据所述乱序文本中字符的字符属性生成训练文本集合；采用所述训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。该方法通过将原始文本进行知识单元识别以及切分，并将切分后的原始文本进行乱序处理，得到乱序文本，根据乱序文本中的字符属性对初始语义模型进行训练。这样，采用知识单元乱序建模的方式，可对原始文本中的词语及实体等进行建模，使模型学习真实世界的知识，增强了模型的效果。

本申请第二方面实施例提出了一种语义表示模型的生成装置，包括：第一获取模块，用于获取原始文本集合，其中，所述原始文本集合包括原始文本；识别切分模块，用于对所述原始文本进行知识单元识别以及切分，以获取所述原始文本中的知识单元以及非知识单元；处理模块，用于对所述原始文本中的所述知识单元以及所述非知识单元进行知识单元级乱序处理，以得到乱序文本；第一生成模块，用于生成所述乱序文本中每个字符的字符属性，其中，所述字符属性包括所述字符在所述原始文本中的原始位置，以及所述字符的当前位置；第二生成模块，用于根据所述乱序文本中字符的字符属性生成训练文本集合；训练模块，用于采用所述训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。

本申请第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的语义表示模型的生成方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的语义表示模型的生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请实施例的语义表示模型层次化乱序建模及训练示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请第三实施例的示意图；

图5是根据本申请实施例的任务场景下语义表示模型的生成方法示意图；

图6是根据本申请第四实施例的示意图；

图7是根据本申请第五实施例的示意图；

图8是用来实现本申请实施例的语义表示模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的语义表示模型的生成方法、装置、电子设备及存储介质。

图1是根据本申请第一实施例的示意图。其中，需要说明的是，本申请实施例的执行主体为语义表示模型的生成装置，语义表示模型的生成装置具体可以为硬件设备，或者硬件设备中的软件等。

如图1所示，语义表示模型的生成方法具体实现过程如下：

步骤101，获取原始文本集合，其中，原始文本集合包括原始文本。

在本申请实施例中，语义表示模型装置可预先设置多个原始文本，并将多个原始文本组合成原始文本集合。其中，原始文本可包括但不限于句子、短语、词语等，比如，原始文本可为“乒乓球”、“清明上河图”、“哈尔滨是黑龙江的省会，国际冰雪文化名城，被誉为欧亚大陆桥的明珠”等。

步骤102，对原始文本进行知识单元识别以及切分，以获取原始文本中的知识单元以及非知识单元。

为了实现文本的层次化建模，可选地，对原始文本进行第一级别的知识单元识别以及切分，以获取第一级别的知识单元以及非知识单元；对第一级别的知识单元进行第二级别的知识单元识别以及切分，以获取第二级别的知识单元以及非知识单元。其中，需要说明的是，第一级别可为句子级别，第二级别可为词语级别。

也就是说，由于原始文本可包括但不限于句子、词语等，在本申请实施例中，可根据原始文本的不同类型采用不同的切分方法。作为一种示例，若原始文本包括多个句子，可对原始文本中的多个句子进行识别以及切分，将原始文本切分为多个句子；接着，将每个句子进行词语的识别及切分，将句子切分为多个词语以及词语之间的连接词。其中，需要说明的是，词语可包括命名实体。

举例而言，以原始文本为“哈尔滨是黑龙江的省会，国际冰雪名城，被誉为欧亚大陆桥的明珠”为例，可将该原始文本切分为“哈尔滨是黑龙江的省会”、“国际冰雪名城”以及“被誉为欧亚大陆桥的明珠”三个句子，接着，对“哈尔滨是黑龙江的省会”、“国际冰雪名城”以及“被誉为欧亚大陆桥的明珠”三个句子分别进行词语及命名实体的识别及切分，比如，“哈尔滨是黑龙江的省会”可切分为词语“省会”、“哈尔滨”、“黑龙江”以及连接词“是”、“的”，通过对切分的词语进行命名实体识别，可确定命名实体为“哈尔滨”、“黑龙江”。

作为另一种示例，若原始文本包括一个句子，可对原始文本的句子进行词语的识别及切分，将句子切分为多个词语以及词语之间的连接词。

作为又一种示例，若原始文本包括一个或多个短语，可对原始文本中的每个短语进行词语识别及切分，比如，原始文本为“明天会更好”，对原始文本进行词语及命名实体识别及切分后，可切分为词语“明天”、“更好”以及连接词“会”。

步骤103，对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以得到乱序文本。

为了让模型能够预测整个文本，加强知识的建模和模型长距离的依赖关系，不再直接以字为单位进行乱序，采用层次化方式进行乱序，在本申请实施例中，可将原始文本中的知识单元以及非知识单元进行乱序处理，以得到乱序文本。比如，将原始文本中的知识单元以及非知识单元在原始文本中的顺序进行打乱，从而可得到乱序文本。

为了进一步实现文本的层次化建模，对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以得到乱序文本后，可对知识单元中所包括字符进行乱序处理。

步骤104，生成乱序文本中每个字符的字符属性，其中，字符属性包括字符在原始文本中的原始位置，以及字符的当前位置。

作为一种示例，在对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理之前，可对原始文本中的每个字符按照从0到N(N大于0)的顺序打上第一位置标签，该第一位置标签记录的字符位置为字符在原始文本中的原始位置；在对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以及在知识单元中对所包括的多个字符进行字符级乱序处理后，将乱序文本中的每个字符按照从0到N(N大于0)的顺序打上第二位置标签，该第二位置标签记录的字符位置为字符的当前位置。

步骤105，根据乱序文本中字符的字符属性生成训练文本集合。

步骤106，采用训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。

为了消除了模型预训练和微调之间的偏差，在本申请实施例中，可根据字符属性确定单向建模的方式。另外，由于深度学习相比于其他机器学习方法在大数据集上的表现更好，因此，在本申请实施例中，可采用深度学习的方式对初始的语义表示模型进行训练，以生成语义表示模型。其中，需要说明的是，初始语义表示模型可为自回归模型(AutoRegressive model，简称AR模型)。

作为一种示例，可根据乱序文本的字符属性，确定当前字符所在当前位置之前各个位置上的字符，从而获取当前字符的字符预测结果，根据当前字符以及当前字符的预测结果，对语义表示模型的系数进行调整，从而生成语义表示模型。详见后续实施例的描述。

为了使本领域技术人员更加清楚地了解本申请，现举例进行说明。

举例而言，如图2所示，以原始文本为“哈尔滨是黑龙江的省会，国际冰雪名城，被誉为欧亚大陆桥的明珠”为例，将该原始文本切分为“哈尔滨是黑龙江的省会”、“国际冰雪名城”以及“被誉为欧亚大陆桥的明珠”三个句子，将这三个句子进行乱序处理；接着，分别对每个句子进行词语识别及切分，在每个句子中对切分的词语进行乱序处理；最后，对每个句子中切分的词语进行字符切分，并对每个词语内部的字符进行乱序处理。乱序完成后，使用自左到右的注意力机制，去依次预测每一个字，也就是将ERNIE(Knowledge Masking Bi-direction Language Model，知识掩蔽双向语言模型)的思想，引入到AutoRegressive的模型之中。由此，根据乱序文本采用的层次化乱序建模的方式，可将完整的词与实体进行建模，使模型学习真实世界的知识，增强了模型的效果。同时，根据字符属性确定的单向建模的方式消除了模型预训练和微调之间的偏差。

综上，通过将原始文本进行知识单元识别以及切分，并将切分后的原始文本进行乱序处理，得到乱序文本，根据乱序文本中的字符属性对初始语义模型进行训练。这样，采用知识单元的层次化乱序建模的方式，可对原始文本中的词语及实体进行建模，使模型学习真实世界的知识，增强了模型的效果。同时，根据字符属性确定的单向建模的方式消除了模型预训练和微调之间的偏差。

为了消除了模型预训练和微调之间的偏差，在本申请实施例中，如图3所示，图3是根据本申请第二实施例的示意图，可根据字符属性确定单向建模的方式，并采用深度学习的方式对初始的语义表示模型进行训练，在图1所述实施例的步骤106还可包括如下步骤：

步骤301，获取训练文本集合中乱序文本的当前字符。

作为一种示例，可采用自左到右的注意力机制，将乱序文本的字符从左至右依次作为乱序文本的当前字符。

步骤302，根据乱序文本中字符的字符属性，确定第一字符，第一字符为乱序文本中当前字符所在当前位置的之前各个位置上的字符。

在本申请实施例中，可根据乱序文本中的字符位置标签，确定当前字符在乱序文本中的位置，将该当前字符在乱序文本中的位置之前的各个位置上的字符，作为第一字符。比如，乱序文本为“是尔哈滨的会省龙黑江”，若当前子符为“龙”，则第一字符为“是”、“尔”、“哈”、“滨”、“的”、“会”、“省”。

步骤303，将第一字符、第一字符的字符属性、当前字符的字符属性输入语义表示模型，获取语义表示模型对当前字符所在当前位置的字符预测结果。

作为一种示例，可将第一字符、第一字符中每个字符的字符属性、以及当前字符的字符属性输入语义表示模型中，语义表示模型可根据第一字符、第一字符的字符属性以及当前字符的字符属性预测出当前字符在当前位置的字符预测结果。其中，第一字符的字符属性为第一字符中的每个字符在乱序文本中的位置，以及在原始文本中的原始位置。

比如，乱序文本为“是尔哈滨的会省龙黑江”，当前字符为“龙”，第一字符为“是”、“尔”、“哈”、“滨”、“的”、“会”、“省”，可将该第一字符、第一字符的每个字符的字符属性、以及当前字符的字符属性输入至初始语义表示模型，初始语义表示模型可预测出当前字符所在当前位置的字符预测结果。

需要说明的是，若当前字符在乱序文本中的位置为0，也就是当前字符在乱序文本中的位置为第1位，当前字符对应的第一字符为空，语义表示模型可采用随机模型对当前位置的字符进行预测。

步骤304，根据当前字符以及字符预测结果，计算损失函数值并对语义表示模型的系数进行调整，以生成语义表示模型。

在本申请实施例中，可将当前字符与字符预测结果进行比对，将当前字符与字符预测结果的差异作为损失函数，通过调整初始语义表示模型的系数使损失函数值最小，将损失函数值最小时的初始语义表示模型作为语义表示模型。也就是在损失函数值最小时，当前字符的预测结果与当前字符最接近，可将损失函数值最小时对应的初始语义表示模型作为语义表示模型。

综上，根据乱序文本中的字符属性确定单向建模的方式，并采用深度学习的方式对初始的语义表示模型进行训练，可消除模型预训练和微调之间的偏差。

为了提高本申请实施例的可用性及可行性，在本申请实施例中，如图4所示，图4是根据本申请第三实施例的示意图，在采用训练文本集合对初始的语义表示模型进行训练，以生成语义表示模型后，可对语义表示模型进行任务场景的训练，生成任务场景下的语义表示模型，使任务场景下的语义表示模型可完成任务场景的分析和预测。图1所述实施例的步骤106之后还可包括：

步骤401，确定语义表示模型的任务场景。

在本申请实施例中，任务场景可包括但不限于自然语言处理技术领域的文本相似度预测、智能问答、情感分析、自然语言推断等，可将任务场景中的任一场景作为语义表示模型的任务场景。

步骤402，获取任务场景下的训练数据，训练数据包括：训练文本以及对应的任务目标。

在本申请实施例中，训练数据中的训练文本可为与任务相关的少量标注数据，该训练文本对应的任务目标为与任务相关的少量标注数据的标注结果。

举例而言，以任务场景为情感分析为例，任务目标为确定情感的正向分数与负向分数，或者情感的正向概率与负向概率，与情感分析相关的少量标注数据可为“口味很不错”、“性价比很低”、“环境很干净、推荐”等，训练数据可为“口味很不错”，对应的任务目标为情感正向，且情感正向概率为90％，情感负向概率为10％、“性价比很低”，对应的任务目标为情感负向，且情感负向概率为90％，情感正向概率为10％，“环境很干净、推荐”，对应的任务目标为情感正向，且情感正向概率为95％，情感负向概率为5％。

步骤403，采用训练文本以及对应的任务目标对语义表示模型进行训练，以生成任务场景下的语义表示模型。

作为一种示例，可将训练数据中的训练文本作为语义表示模型的输入，对应的任务目标作为语义表示模型的输出，从而实现语义表示模型的训练，生成任务场景下的语义表示模型。

为了使本领域技术人员可以更加清楚地了解本申请，现举例进行说明。

举例而言，如图5所示，图5中的任务模型可表示任务场景下的语义表示模型，通用的语义表示可表示语义表示模型，以任务场景为情感分析为例，采用与任务无关的海量文本对初始的语义表示模型进行训练可获得语义表示模型，对语义表示模型采用少量的与任务相关的少量标注数据进行训练，可获得任务场景下的语义表示模型，将文本输入任务场景下的语义表示模型中，可获得对应的任务目标，比如，将文本“这家饭店值得再来”输入任务场景下的语义表示模型，可获得对应的情感正向概率为87％，情感负向概率为13％。由此，可以得出，通过海量的文本对初始的语义表示模型进行训练后，生成语义表示模型，之后，采用任务场景下的训练数据对语义表示模型进行训练后，生成的任务场景下的语义表示模型可完成任务场景的分析和预测。

综上，通过确定语义表示模型的任务场景，并获取任务场景下的训练数据，采用训练数据对语义表示模型进行训练，以生成任务场景下的语义表示模型，可使任务场景下的语义表示模型完成任务场景的分析和预测。

本申请实施例的语义表示模型的生成方法，通过获取原始文本集合，其中，原始文本集合包括原始文本；对原始文本进行知识单元识别以及切分，以获取原始文本中的知识单元以及非知识单元；对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以得到乱序文本；生成乱序文本中每个字符的字符属性，其中，字符属性包括字符在原始文本中的原始位置，以及字符的当前位置；根据乱序文本中字符的字符属性生成训练文本集合；采用训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。该方法通过将原始文本进行知识单元识别以及切分，并将切分后的原始文本进行乱序处理，得到乱序文本，根据乱序文本中的字符属性对初始语义模型进行训练。这样，采用知识单元的层次化乱序建模的方式，可对原始文本的词语及实体等进行建模，使模型学习真实世界的知识，增强了模型的效果。同时，根据字符属性确定的单向建模的方式消除了模型预训练和微调之间的偏差。

为了实现上述实施例，本申请实施例还提出一种语义表示模型的生成装置。

图6是根据本申请第四实施例的示意图。如图6所示，该语义表示模型的生成装置600包括：第一获取模块610、识别切分模块620、处理模块630、第一生成模块640、第二生成模块650、训练模块660。

其中，第一获取模块610，用于获取原始文本集合，其中，原始文本集合包括原始文本；识别切分模块620，用于对原始文本进行知识单元识别以及切分，以获取原始文本中的知识单元以及非知识单元；处理模块630，用于对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以得到乱序文本；第一生成模块640，用于生成乱序文本中每个字符的字符属性，其中，字符属性包括字符在原始文本中的原始位置，以及字符的当前位置；第二生成模块650，用于根据乱序文本中字符的字符属性生成训练文本集合；训练模块660，用于采用训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。

作为本申请实施例的一种可能实现方式，识别切分模块620具体用于对原始文本进行第一级别的知识单元识别以及切分，以获取第一级别的知识单元以及非知识单元；对第一级别的知识单元进行第二级别的知识单元识别以及切分，以获取第二级别的知识单元以及非知识单元。

作为本申请实施例的一种可能实现方式，第一级别为句子级别，第二级别为词语级别。

作为本申请实施例的一种可能实现方式，训练模块660具体用于获取所述训练文本集合中乱序文本的当前字符；根据乱序文本中字符的字符属性，确定第一字符，第一字符为乱序文本中当前字符所在当前位置的之前各个位置上的字符；将第一字符、第一字符的字符属性、当前字符的字符属性输入语义表示模型，获取语义表示模型对当前字符所在当前位置的字符预测结果；根据当前字符以及字符预测结果，计算损失函数值并对语义表示模型的系数进行调整，以生成语义表示模型。

作为本申请实施例的一种可能实现方式，处理模块630还用于在知识单元中对所包括的多个字符进行字符级乱序处理。

作为本申请实施例的一种可能实现方式，如图7所示，在图6所示基础上，语义表示模型的生成装置600还包括：确定模块670、第二获取模块680、任务训练模块690。

其中，确定模块670，用于确定语义表示模型的任务场景；第二获取模块680，用于获取任务场景下的训练数据，训练数据包括：训练文本以及对应的任务目标；任务训练模块690，用于采用训练文本以及对应的任务目标对语义表示模型进行训练，以生成任务场景下的语义表示模型。

本申请实施例的语义表示模型的生成装置，通过获取原始文本集合，其中，原始文本集合包括原始文本；对原始文本进行知识单元识别以及切分，以获取原始文本中的知识单元以及非知识单元；对原始文本中的知识单元以及非知识单元进行知识单元级乱序处理，以得到乱序文本；生成乱序文本中每个字符的字符属性，其中，字符属性包括字符在原始文本中的原始位置，以及字符的当前位置；根据乱序文本中字符的字符属性生成训练文本集合；采用训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。该装置可实现通过将原始文本进行知识单元识别以及切分，并将切分后的原始文本进行乱序处理，得到乱序文本，根据乱序文本中的字符属性对初始语义模型进行训练。这样，采用知识单元的层次化乱序建模的方式，可对原始文本中的词语及实体等进行建模，使模型学习真实世界的知识，增强了模型的效果。同时，根据字符属性确定的单向建模的方式消除了模型预训练和微调之间的偏差。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的语义表示模型的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语义表示模型的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语义表示模型的生成方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语义表示模型的生成方法对应的程序指令/模块(例如，附图6所示的第一获取模块610、识别切分模块620、处理模块630、第一生成模块640、第二生成模块650、训练模块660)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语义表示模型的生成方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义表示模型的生成的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至语义表示模型的生成的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语义表示模型的生成方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与语义表示模型的生成的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语义表示模型的生成方法，包括：

获取原始文本集合，其中，所述原始文本集合包括原始文本；

对所述原始文本进行知识单元识别以及切分，以获取所述原始文本中的知识单元以及非知识单元；

对所述原始文本中的所述知识单元以及所述非知识单元进行知识单元级乱序处理，以得到乱序文本；

生成所述乱序文本中每个字符的字符属性，其中，所述字符属性包括所述字符在所述原始文本中的原始位置，以及所述字符的当前位置；

根据所述乱序文本中字符的字符属性生成训练文本集合；

采用所述训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。

2.根据权利要求1所述的方法，其中，所述对所述原始文本进行知识单元识别以及切分，包括：

对所述原始文本进行第一级别的知识单元识别以及切分，以获取所述第一级别的知识单元以及非知识单元；

对所述第一级别的知识单元进行第二级别的知识单元识别以及切分，以获取所述第二级别的知识单元以及非知识单元。

3.根据权利要求2所述的方法，其中，所述第一级别为句子级别，所述第二级别为词语级别。

4.根据权利要求1所述的方法，其中，所述采用所述训练文本集合对初始语义表示模型进行训练，包括：

获取所述训练文本集合中乱序文本的当前字符；

根据所述乱序文本中字符的字符属性，确定第一字符，所述第一字符为所述乱序文本中所述当前字符所在当前位置的之前各个位置上的字符；

将所述第一字符、所述第一字符的字符属性、所述当前字符的字符属性输入所述语义表示模型，获取所述语义表示模型对所述当前字符所在当前位置的字符预测结果；

根据所述当前字符以及所述字符预测结果，计算损失函数值并对所述语义表示模型的系数进行调整，以生成语义表示模型。

5.根据权利要求1所述的方法，其中，在所述对所述原始文本中的所述知识单元以及所述非知识单元进行知识单元级乱序处理，以得到乱序文本之后，还包括：

在所述知识单元中对所包括的多个字符进行字符级乱序处理。

6.根据权利要求1所述的方法，其中，在所述采用所述训练文本集合对初始语义表示模型进行训练，以生成语义表示模型之后，还包括：

确定所述语义表示模型的任务场景；

获取所述任务场景下的训练数据，所述训练数据包括：训练文本以及对应的任务目标；以及，

采用所述训练文本以及对应的任务目标对所述语义表示模型进行训练，以生成所述任务场景下的语义表示模型。

7.一种语义表示模型的生成装置，包括：

第一获取模块，用于获取原始文本集合，其中，所述原始文本集合包括原始文本；

识别切分模块，用于对所述原始文本进行知识单元识别以及切分，以获取所述原始文本中的知识单元以及非知识单元；

处理模块，用于对所述原始文本中的所述知识单元以及所述非知识单元进行知识单元级乱序处理，以得到乱序文本；

第一生成模块，用于生成所述乱序文本中每个字符的字符属性，其中，所述字符属性包括所述字符在所述原始文本中的原始位置，以及所述字符的当前位置；

第二生成模块，用于根据所述乱序文本中字符的字符属性生成训练文本集合；

训练模块，用于采用所述训练文本集合对初始语义表示模型进行训练，以生成语义表示模型。

8.根据权利要求7所述的装置，其中，所述识别切分模块具体用于，

9.根据权利要求8所述的装置，其中，所述第一级别为句子级别，所述第二级别为词语级别。

10.根据权利要求7所述的装置，其中，所述训练模块具体用于，

获取所述训练文本集合中乱序文本的当前字符；

11.根据权利要求7所述的装置，其中，所述处理模块还用于，

12.根据权利要求7所述的装置，其中，所述装置还包括：

确定模块，用于确定所述语义表示模型的任务场景；

第二获取模块，用于获取所述任务场景下的训练数据，所述训练数据包括：训练文本以及对应的任务目标；

任务训练模块，用于采用所述训练文本以及对应的任务目标对所述语义表示模型进行训练，以生成所述任务场景下的语义表示模型。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。