CN115048505A

CN115048505A - 语料筛选方法和装置、电子设备、计算机可读介质

Info

Publication number: CN115048505A
Application number: CN202210691092.7A
Authority: CN
Inventors: 戴松泰; 姜文斌; 孙卓; 吕雅娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-13

Abstract

本公开提供了一种语料筛选方法和装置，涉及知识图谱、自然语言处理、深度学习等人工智能技术领域。具体实现方案为：从获取的候选语料集中选取目标领域的文本样本集；基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。该实施方式提高了目标领域语料筛选的准确性。

Description

语料筛选方法和装置、电子设备、计算机可读介质

技术领域

本公开涉及人工智能技术领域，具体涉及知识图谱、自然语言处理、深度学习等技术领域，尤其涉及一种语料筛选方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术

对于目标领域的语料，一般通过人工规则或者目标领域关键字的出现频率进行筛选。

现有的筛选方式，对于不同领域需要构建不同的人工规则，对不同领域不同批次的数据都需要单独构建筛选规则，人力成本较高，并且筛选效果不好。

发明内容

提供了一种语料筛选方法和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面，提供了一种语料筛选方法，该方法包括：从获取的候选语料集中选取目标领域的文本样本集；基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。

根据第二方面，提供了一种语料筛选装置，该装置包括：集合选取单元，被配置成从获取的候选语料集中选取目标领域的文本样本集；语言训练单元，被配置成基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；确定单元，被配置成基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；筛选单元，被配置成基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。

根据第三方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。

本公开的实施例提供的语料筛选方法和装置，首先，从获取的候选语料集中选取目标领域的文本样本集；其次，基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；再次，基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；最后，基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。由此，利用目标领域的文本样本集训练语言模型，使语言模型熟悉目标领域的语言风格，利用语言模型预测文本时确定的文本概率分布，确定候选语料集中各个候选语料在目标领域的概率，从而充分利用语言模型识别性能，过滤出更多目标领域的语料，提高了目标领域语料筛选的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开语料筛选方法的一个实施例的流程图；

图2是本公开实施例语料筛选过程的一种结构示意图；

图3是根据本公开语料筛选方法的另一个实施例的流程图；

图4是本公开实施例语料筛选过程的另一种结构示意图；

图5是根据本公开语料筛选装置的实施例的结构示意图；

图6是用来实现本公开实施例的语料筛选方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本实施例中，“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

图1示出了根据本公开语料筛选方法的一个实施例的流程100，上述语料筛选方法包括以下步骤：

步骤101，从获取的候选语料集中选取目标领域的文本样本集。

本实施例中，候选语料集是借助搜索引擎或其他方式，获取得到的一批海量的语料，该候选语料集包含目标领域的语料和非目标领域的语料，其中，目标领域为筛选目标对应的领域，如医学领域；非目标领域为目标领域之外的领域。

本实施例中，文本样本集为完成筛选目标而得到的目标领域的文本样例，该文本样例的为筛选目标中少量的样例，例如，筛选目标为得到几百万条与“癌症检查”相关的语料，为此，先从候选语料集中获取少量的文本样例，比如，1000条。

本实施例中，语料筛选方法运行于其上的执行主体为了训练语言模型需要获取候选语料集，并且语料筛选方法的执行主体可以通过多种方式来获取候选语料集。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的候选语料集。再例如，执行主体也可以接收终端或其他设备实时采集的候选语料集。

本实施例中，候选语料集包括至少一个候选语料，每个候选语料可以包括：顺序排列的至少一个候选单元，基于语言模型处理的单元的不同，候选单元可以是候选字，候选词等。文本样本集包括至少一个文本样本，每个文本样本可以包括：顺序排序的至少一个单元样本，基于语言模型处理的单元不同，单元样本可以是字样本，词样本等。

本实施例中，从候选语料集中选取目标领域的文本样本集包括：基于预先设置的目标领域文本规则，从候选语料集合中选取文本样本集。

可选地，从候选语料集中选取目标领域的文本样本集还可以包括：基于预先构建的目标领域的知识图谱，将候选语料集的候选语料中候选单元分别与知识图谱中的实体名称进行匹配，响应于有至少一个候选单元与知识图谱的实体名相匹配，将具有至少一个候选单元的候选语料作为文本样本集中的文本样本。

步骤102，基于文本样本集和预先构建的语言网络，训练得到语言模型。

本实施例中，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布。

本实施例中，输入文本是输入语言模型的文本，输入语言模型的文本可以是任何适用于语言模型的文本，并且输入文本可以包括多个依次相邻的输入内容，输入内容是语言模型可以对其进行预测的单元，例如，输入文本为wt，w和t均是输入内容，将wt输入语言模型得到语言模型预测结果w’t’，其中，对w的预测预测结果是w’，w’为w属于预设词表中文本的概率分布，对t的预测预测结果是t’，t’为t属于预设词表中文本的概率分布。

本实施例中，概率分布包括多个概率值，每个概率值为语言模型得出的每个输入内容是预设词表中文本的机率，概率分布中的概率值的数量与预设词表中文本(词表的文本可以是词表的基本单元)的数量相同，例如，预设词表有100个文本，则每个输入内容的概率分布均包括100个概率值。

本实施例中，语言网络是一种初始的文本生成网络，该文本生成网络通过训练在满足训练完成之后，得到语音模型，语音模型用于对文本样本集中各个单元样本进行识别，得到对应单元样本的识别结果。

本实施例中，如图2所示，通过文本样本集训练得到语言模型，在训练语言模型时，首先要为语言模型指定预设词表，预设词表包括至少一个文本，语言网络基于指定的预设词表，在对输入内容相邻的下一个文本单元进行预测时，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布。例如，预设词表包括c、d、e三个文本，将输入文本“ad”中的“a”输入语言模型，语言模型对“a”之后相邻的下一个文本单元进行预测，得到预测结果为“c”的概率为20％，预测结果为“d”的概率为80％，预测结果为“e”的概率为10％，从而“c”—20％、“d”—80％，“e”—10％三者为“d”为预设词表中文本的概率分布，此时选取预设词表中“d”的概率80％作为输入文本中“d”的概率值。

本实施例中，为了更好地训练对应目标领域的语言模型，可以将预设词表替换为文本样本集加上常用词，从而使语言模型输出结果均在文本样本集具有相应的概率分布。语言模型输出的预测结果中的各个合格语句中每个词出现的概率可以用来表示模型的困惑度，并且困惑度也能够表征通过语言模型筛选得到的语句中各个词语之间的关联关系或依赖关系，本实施例中提供的语言模型可以通过困惑度评分区分语料所在的领域。

本实施例中，语言网络的网络结构可以采用：RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，是长短期记忆网络)、Transformer或者transformer-xl等结构。

本实施例中，语言模型的训练步骤包括：步骤一、在文本样本集中选取文本样本；步骤二、将选取的文本样本输入语言网络，使语言网络对该选取的文本样本进行解码，预测对应该选取的文本样本的预测结果；步骤三、基于语言网络的预测结果和选取的文本样本中的真值计算语言网络的损失值；步骤四、若语言网络不满足训练完成条件，则调整语言网络的参数，继续执行步骤一至步骤四，直至语言网络满足训练完成条件为止，将语言网络作为语言模型。本实施例中，训练完成条件包括：语言网络的损失达到一定损失阈值或者语言网络训练迭代次数达到预设次数，其中，训练迭代次数是指执行步骤一至步骤四的次数。

以transformer结构的语言模型为例，将文本样本集的每个文本样本逐字地输入给模型，让语言模型学习文本的下一个字是什么(在固定的几万个词语中选择模型认为最可能的)。通过以上这种训练，能够让语言模型熟悉目标领域文本的文本风格。当语言模型训练完成后，就可以使用这个语言模型对步骤101中海量的候选语料集进行筛选了。

步骤103，基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率。

本实施例中，基于语言模型处理的最小文本单元(候选单元)，各个候选语料包括至少一个候选文本，每个候选文本为一个语言模型的最小文本单元，采用语言模型对候选语料集中各个候选语料的候选文本进行预测，各个候选文本具有一个概率分布，从概率分布选取出与候选文本对应的概率，得到各个候选文本的概率，组合各个候选语料的所有候选文本的概率，得到各个候选语料的概率，由于语言模型是通过文本样本集训练得到的，具有文本样本集所在目标领域的特征，因此，各个候选语料的概率越高，证明语言模型越倾向于认为这个候选语料是语言模型所熟悉的，语言模型越认为这个候选语料属于目标领域，为此，各个候选语料的概率即为各个候选语料属于目标领域的概率。如图2，将候选语料集中的候选语料输入语言模型，得到语言模型对候选语料的概率分布，基于概率分布确定各个候选语料的属于目标领域的概率。

步骤104，基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。

本实施例中，第一筛选结果中的候选语料为目标领域的语料，基于筛选目标的要求，该第一筛选结果中的候选语料的数量可以是筛选目标要求的数量，例如数量是几百万条以上。

本实施例中，在目标领域不同时，第一筛选结果中各个候选语料所属的领域不同，例如，当目标领域为医学领域时，第一筛选结果为几百万条“癌症检查”相关的语料。

本实施例中，第一筛选结果中各个候选语料可以句子也可以段落，将属于目标领域的概率较高的候选语料筛选出来，就可以从海量的候选语料集中，过滤出目标领域的语料。候选语料属于目标领域的概率可以反映候选语料是否属于目标领域的机率的大小，为此，概率越大说明候选语料越属于第一筛选结果。上述基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果包括：确定筛选目标的筛选数量；选取筛选数量个候选语料集中大于预设概率值的候选语料作为目标领域的候选语料，并将该目标领域的候选语料作为第一筛选结果。

本实施例提供的语料筛选方法，对于任何目标领域的文本语料，筛选方法都是一样的，对不同领域不同批次的语料候选，不需要人力修改筛选策略，只需要更换目标领域的文本样本集，就可以通过训练的语言模型筛选该目标领域的语料，节省了人力成本；语言模型对语料的筛选是自适应的，可以精确匹配语料的特点，比人工规则更加精细，误删更少，得到的语料质量更高；由于不需要人工操作，所以对大批量的语料，可以在多台机器上分布式进行。运行速度快，扩展性好。

本公开的实施例提供的语料筛选方法，首先，从获取的候选语料集中选取目标领域的文本样本集；其次，基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；再次，基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；最后，基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。由此，利用目标领域的文本样本集训练语言模型，使语言模型熟悉目标领域的语言风格，利用语言模型预测文本时确定的文本概率分布，确定候选语料集中各个候选语料在目标领域的概率，从而充分利用语言模型识别性能，过滤目标领域的语料，提高了目标领域语料筛选的准确性。

在本公开的一些实施例中，语言网络为解码器，上述基于文本样本集和预先构建的语言网络，训练得到语言模型，包括：从文本样本集中选取文本样本，文本样本包括至少一个单元样本；将起始符加选取的文本样本以及结束符依次输入解码器，得到解码器输出的选取的文本样本中的各个单元样本对应的概率分布，概率分布为文本样本集中文本单元为预测结果的预测概率；响应于解码器满足训练完成条件，得到语言模型。

本可选实现方式中，单元样本由语言网络的最小工作单元确定，例如，选取的文本样本为一段文本，则单元样本为组成该段文本中的字或词。

本可选实现方式中，解码器可以是Transformer的解码器，解码器每一步都只解码一个词，起始符和结束符为解码器认可的解码工作的起始和结束，当起始符输入解码器之后，解码器对选取的文本样本的第一个单元样本进行预测，得到第一预测结果；将起始符和第一单元样本输入解码器，得到第二预测结果；当结束符和选取的文本样本输入解码器之后，解码器确定预测工作完成，通过所有预测结果与选取的文本样本计算解码器的损失，响应于解码器的损失小于等于损失阈值，确定解码器满足训练完成条件。

本可选实现方式提供的训练语言模型的方法，将起始符加选取的文本样本以及结束符依次输入解码器，得到解码器输出的选取的文本样本中的各个单元样本对应的概率分布，响应于解码器满足训练完成条件，得到语言模型，由此使用文本样本集训练语言网络，使语言网络熟悉文本样本集的语言风格，提高了语言模型训练的可靠性。

在本实施例的一些可选实现方式中，上述基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率，包括：针对候选语料集中的各个候选语料，将起始符、该候选语料以及结束符依次输入语言模型，得到对应该候选语料的各个候选字的概率分布；基于对应各个候选字的概率分布，得到各个候选字的概率；基于该候选语料的所有候选字的概率，计算得到该候选语料属于目标领域的概率。

本可选实现方式中，语言网络可以采用transformer模型结构，在transformer模型包括两大部分，分别是编码器和解码器，其中编码器负责把自然语言序列映射成为隐藏层，隐藏层即为编码输出值，编码输出值包括自然语言序列的数学表达；然后尾部解码器将编码输出值再映射为自然语言序列，从而使语言网络可以解决各种问题，如情感分类、命名实体识别、语义关系抽取、摘要生成、机器翻译等等。

本实施例中的语言模型可以用于文本生成，基于语言模型的输出的概率分布，确定输入文本的概率值。上述基于对应各个候选字的概率分布，得到各个候选字的概率包括：当各个候选语料的各个候选字输入语言模型之后，语言模型对候选语料进行预测，得到候选语料中每个候选字的概率分布，该概率分布包括预测词表所有字，以及预测词表中各个字对应的概率，选取概率分布中与每个候选字相同或者相匹配的字作为目标字，并将每个目标字对应的概率作为各个候选字的概率。

本可选实现方式提供的确定候选语料集中各个候选语料在目标领域的概率方法，首先将各个候选语料的各个候选字依次输入语言模型，得到对应各个候选字的概率分布；基于候选字的概率分布确定候选字的概率，基于候选字的概率，计算得到各个候选语料在目标领域的概率，由此，通过语言模型对目标领域语言风格的理解，得到了候选语料集中所有候选语料是否属于目标领域的结果，从而提高了目标领域语料得到的可靠性。

在本实施的一些可选实现方式中，上述基于该候选语料的所有候选字的概率，计算得到该候选语料属于目标领域的概率，包括：将该候选语料的所有候选字的概率相乘，得到该候选语料属于目标领域的概率。

本可选实现方式中，将一条候选语料候选逐字地输入给语言模型，让语言模型预测下一个字为预设词表中字的概率分布。比如候选语料是「我爱草原」，首先向语言模型输入起始符，使语言模型预测下一个子为预设词表中字的概率分布，并从概率分布中选取出[我]的概率；向语言模型输入「我」，让语言模型预测下一个字为预设词表中字的概率分布，并从概率分布中选取出「爱」的概率；然后输入「我爱」，使语言模型预测下一个字为预设词表中字的概率分布，并从概率分布中选取出「草」的概率；然后输入「我爱草」，使语言模型预测下一个字为预设词表中字的概率分布，并从概率分布中选取出「原」的概率。这样可以得到语言模型对候选语料的各个字的预测概率。把所有字的概率乘起来，就得到候选语料属于目标领域的概率。

本可选实现方式提供的计算候选语料在目标领域的概率的方法，通过将候选语料的所有候选字的概率相乘，得到候选语料在目标领域的概率，为候选语料的概率提供了一种实现方式。

可选地，上述基于该候选语料的所有候选字的概率，计算得到该候选语料属于目标领域的概率，包括：将该候选语料的所有候选字的概率求log之后相加，得到该候选语料属于目标领域的概率。

在本实施例的一些可选实现方式中，上述基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果，包括：响应于候选语料集中的候选语料属于目标领域的概率大于或等于概率阈值，将该候选语料作为第一筛选结果中的候选语料。

本可选实现方式中，如图2所示，概率阈值可以是筛选目标中确定的阈值，概率阈值还可以是根据筛选需求而设置的值，概率阈值基于候选语料在目标领域的表现形式不同，概率阈值的表现形式也不同。

本可选实现方式中，第一筛选结果包括多个候选语料，该多个候选语料均是属于目标领域的语料。

本可选实现方式提供的得到第一筛选结果的方法，将候选语料在目标领域的概率与概率阈值进行比较，可以使候选语料中目标领域的语料最大限度被筛选出来，提高了第一筛选结果得到的可靠性。

可选地，上述基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果，包括：对候选语料集中所有候选语料在目标领域的概率进行降序排序，选取前设定数目个候选语料作为第一筛选结果。

本实施例中，设定数目可以基于目标领域样本筛选需求而设置的个数，例如，设定数目为五十万。

在本公开的一些实施例中，上述语料筛选方法还包括：基于文本样本集和非目标领域的文本集，训练得到相似比较模型，相似比较模型用于判断两个输入文本之间的相似度；从文本样本集选取文本样本；将选取的文本样本和第一筛选结果中的各个候选语料输入相似比较模型，得到各个候选语料与文本样本的相似度；基于相似度，得到第二筛选结果。

本实施例中，采用文本样本集和非目标领域的文本集训练相似度比较模型，可以使相似度比较模型可以熟悉目标领域和非目标领域两种类型的文本，从而将第一筛选结果中目标领域的候选语料和非目标领域的候选语料区分开来。

本实施例中，候选语料与文本样本的相似度越大，候选语料与文本样本越接近，则候选语料越可能属于目标领域，通过相似度筛选可以在语料特征角度选取与目标领域的语料的特征相同的候选语料，从而进一步筛选了第一筛选结果。

本公开的实施例提供的语料筛选方法，在使用语言模型对候选语料集进行筛选，得到第一筛选结果的基础上，通过训练得到的相似比较模型，比较文本样本集合第一筛选结果中的候选语料，基于两者的相似度，得到第二筛选结果，从而在相似度的角度进一步对第一筛选结果进行筛选，提高了第二筛选结果中候选语料属于目标领域的准确度。

在本实施例的一些可选实现方式中，上述基于文本样本集和非目标领域的文本集，训练得到相似比较模型，包括：从文本样本集选取任意两个文本样本进行拼接，得到正样本；从非目标领域的文本集中随机选取文本，将文本样本集中的一个文本样本与选取的文本进行拼接，得到负样本；基于正样本与负样本训练相似比较网络，相似比较网络的输入为两种文本，输出为两种文本之间的相似度值；响应于相似比较网络满足训练完成条件，得到相似比较模型。

本可选实现方式提供的训练相似比较模型的方法，通过文本样本集中文本样本的拼接，以及文本样本与非目标领域的文本的拼接，可以最大化的增加正样本和负样本的多样性以及数量，提高了相似比较模型训练的可靠性。

可选地，上述基于文本样本集和非目标领域的文本集，训练得到相似比较模型，包括：从文本样本集选取文本样本作为正样本；随机选取非目标领域的文本集中的文本作为负样本；基于正样本与负样本训练相似比较网络，相似比较网络的输入为两种文本，输出为两种文本之间的相似度值；响应于相似比较网络满足训练完成条件，得到相似比较模型。

图3示出了本公开语料筛选方法的另一个实施例的流程图300，上述语料筛选方法包括以下步骤：

步骤301，从获取的候选语料集中选取目标领域的文本样本集。

步骤302，基于文本样本集和预先构建的语言网络，训练得到语言模型。

步骤303，基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率。

步骤304，基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。

应当理解，上述步骤301-步骤304中的操作和特征，分别与步骤101-104中的操作和特征相对应，因此，上述在步骤101-104中对于操作和特征的描述，同样适用于步骤301-步骤304，在此不再赘述。

步骤305，基于文本样本集和非目标领域的文本集，训练得到相似比较模型。

步骤306，将文本样本集中的文本样本和第一筛选结果中的各个候选语料输入相似比较模型，得到各个候选语料与文本样本的相似度。

步骤307，基于相似度，得到第二筛选结果。

应当理解，上述步骤305-步骤307中的操作和特征，在上述实施例已经进行了描述，在此不再赘述。

步骤308，对第二筛选结果中的候选语料进行命名实体识别，得到各个候选语料中的命名实体序列。

如图4所示，对第二筛选结果中所有候选语料进行实体识别，确定所有候选语料中的所有实体。

步骤309，基于预先构建的目标领域的知识图谱，计算各个候选语料的命名实体序列中图谱实体占比值。

如图4所示，知识图谱包括目标领域中不同实体名称的图谱实体，以及各个图谱实体之间的关联关系，将知识图谱中的图谱实体与候选语料中的所有实体进行名称匹配，并计算候选语料中图谱实体占候选语料的占比值。例如，一候选语料的文字数量为100个，其中，候选语料中有20个实体，且该20个实体中与图谱实体相匹配，则该候选语料的图谱实体占比值20/100＝20％。

步骤310，基于占比值，对第二筛选结果进行筛选，得到第三筛选结果。

本实施例中，确定第二筛选结果中各个候选语料的图谱实体占比值，基于图谱实体占比值，由大到小倒叙排序第二筛选结果中的所有候选语料，得到候选语料序列，选取候选语料序列中前设定数目个候选语料作为第三筛选结果。其种，设定数目可以基于筛选目标确定，例如，设定数目为10千个。

例如，知识图谱的图谱实体包括：u、v、i三个图谱实体；第二筛选结果包括：第一候选语料(x1、x2、x3)，第二候选语料(y1、v、y2、i)，第三候选语料(u、v、i)；第二筛选结果中的第一候选语料的图谱实体占比值为0/3；第二筛选结果中的第二候选语料的图谱实体占比值为2/4；第二筛选结果中的第三候选语料的图谱实体占比值为3/3；基于第二筛选结果中所有候选语料的占比值，由大到小排序所有候选语料得到的候选语料序列为：第三候选语料、第二候选语料、第一候选语料，当设定数目为2时，即选取候选语料序列中第三候选语料和第二候选语料作为第三筛选结果。

本公开的实施例提供的语料筛选方法，在使用语言模型对候选语料集进行筛选，得到第一筛选结果的基础上，通过训练得到的相似比较模型，比较文本样本集合第一筛选结果中的候选语料，基于两者的相似度，得到第二筛选结果；进一步，基于预先构建的目标领域的知识图谱，对第二筛选结果进行筛选，得到第三筛选结果，从而在目标领域专专业知识的角度进一步对第二筛选结果进行筛选，提高了第三筛选结果中候选语料属于目标领域的准确度。

在本公开的另一些实施例中，上述语料筛选方法包括：基于文本样本集和非目标领域的文本集，训练得到语料筛选模型，语料筛选模型用于判断输入文本属于目标领域的概率；将第一筛选结果中的各个候选语料输入语料筛选模型，得到各个候选语料属于目标领域的概率；基于各个候选语料属于目标领域的概率，得到第四筛选结果。

本可选实现方式中，语料筛选模型是通过目标领域的文本样本集和非目标领域的文本集训练得到的模型，该语料筛选模型可以文本特征的角度区分目标领域和非目标领域文本的区别。

本实施例提供的语料筛选方法，采用文本样本集和非目标领域的文本集训练语料筛选模型，通过语料筛选模型区分第一筛选结果中的候选语料，提高了第一筛选结果中候选语料属于目标领域的准确度。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了语料筛选装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图5所示，本实施例提供的语料筛选装置500包括：集合选取单元501，语言训练单元502，确定单元503，筛选单元504。其中，上述集合选取单元501，可以被配置成从获取的候选语料集中选取目标领域的文本样本集。上述语言训练单元502，可以被配置成基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布。上述确定单元503，可以被配置成基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率。上述筛选单元504，可以被配置成基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。

在本实施例中，语料筛选装置500中：集合选取单元501，语言训练单元502，确定单元503，筛选单元504的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述语言网络为解码器，上述语言训练单元502被配置成：从文本样本集中选取文本样本，文本样本包括至少一个单元样本；将起始符加选取的文本样本以及结束符依次输入解码器，得到解码器输出的选取的文本样本中的各个单元样本对应的概率分布，概率分布为文本样本集中文本单元为预测结果的预测概率；响应于解码器满足训练完成条件，得到语言模型。

在本实施例的一些可选的实现方式中，上述确定单元503可以被配置成：针对候选语料集中的各个候选语料，将起始符、该候选语料以及结束符依次输入语言模型，得到对应该候选语料的各个候选字的概率分布；基于对应各个候选字的概率分布，得到各个候选字的概率；基于该候选语料的所有候选字的概率，计算得到该候选语料属于目标领域的概率。

在本实施例的一些可选的实现方式中，上述确定单元503进一步被配置成：将该候选语料的所有候选字的概率相乘，得到该候选语料属于目标领域的概率。

在本实施例的一些可选的实现方式中，上述筛选单元504被配置成：响应于候选语料集中的候选语料属于目标领域的概率大于或等于概率阈值，将该候选语料作为第一筛选结果中的候选语料。

在本实施例的一些可选的实现方式中，上述装置500还包括：相似训练单元(图中未示出)，样本选取单元(图中未示出)，相似得到单元(图中未示出)，结果得到单元(图中未示出)。其中，上述相似训练单元，可以被配置成基于文本样本集和非目标领域的文本集，训练得到相似比较模型，相似比较模型用于判断两个输入文本之间的相似度。上述样本选取单元，可以被配置成从文本样本集选取文本样本。上述相似得到单元，可以被配置成将选取的文本样本和第一筛选结果中的各个候选语料输入相似比较模型，得到各个候选语料与文本样本的相似度。上述结果得到单元，可以被配置成基于相似度，得到第二筛选结果。

在本实施例的一些可选的实现方式中，上述相似训练单元被配置成：从文本样本集选取任意两个文本样本进行拼接，得到正样本；从非目标领域的文本集中随机选取文本，将文本样本集中的一个文本样本与选取的文本进行拼接，得到负样本；基于正样本与负样本训练相似比较网络，相似比较网络的输入为两种文本，输出为两种文本之间的相似度值；响应于相似比较网络满足训练完成条件，得到相似比较模型。

在本实施例的一些可选的实现方式中，上述装置500还包括：实体识别单元(图中未示出)，计算单元(图中未示出)，占比得到单元(图中未示出)。其中，上述实体识别单元，可以被配置成对第二筛选结果中的候选语料进行命名实体识别，得到各个候选语料中的命名实体序列。上述计算单元，可以被配置成基于预先构建的目标领域的知识图谱，计算各个候选语料的命名实体序列中图谱实体占比值。上述占比得到单元，可以被配置成基于占比值，对第二筛选结果进行筛选，得到第三筛选结果。

在本实施例的一些可选的实现方式中，上述装置500还包括：语料训练单元(图中未示出)，概率得到单元(图中未示出)，筛选得到单元(图中未示出)。其中，上述语料训练单元，可以被配置成基于文本样本集和非目标领域的文本集，训练得到语料筛选模型，语料筛选模型用于判断输入文本属于目标领域的概率。上述概率得到单元，可以被配置成将第一筛选结果中的各个候选语料输入语料筛选模型，得到各个候选语料属于目标领域的概率。上述筛选得到单元，可以被配置成基于各个候选语料属于目标领域的概率，得到第四筛选结果。

本公开的实施例提供的语料筛选装置，首先，集合选取单元501从获取的候选语料集中选取目标领域的文本样本集；其次，语言训练单元502基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；再次，确定单元503基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；最后，筛选单元504基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。由此，利用目标领域的文本样本集训练语言模型，使语言模型熟悉目标领域的语言风格，利用语言模型预测文本时确定的文本概率分布，确定候选语料集中各个候选语料在目标领域的概率，从而充分利用语言模型识别性能，过滤目标领域的语料，提高了目标领域语料筛选的准确性。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语料筛选方法。例如，在一些实施例中，语料筛选方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的方法、的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语料筛选方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程语料筛选装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语料筛选方法，所述方法包括：

从获取的候选语料集中选取目标领域的文本样本集；

基于所述文本样本集和预先构建的语言网络，训练得到语言模型，所述语言模型用于根据当前输入文本中的输入内容，预测与所述输入内容相邻的下一个文本单元为预设词表中文本的概率分布；

基于所述语言模型，确定所述候选语料集中各个候选语料属于所述目标领域的概率；

基于各个候选语料属于所述目标领域的概率，筛选所述候选语料集得到第一筛选结果。

2.根据权利要求1所述的方法，其中，所述语言网络为解码器，所述基于所述文本样本集和预先构建的语言网络，训练得到语言模型，包括：

从所述文本样本集中选取文本样本，所述文本样本包括至少一个单元样本；

将起始符加选取的文本样本以及结束符依次输入所述解码器，得到所述解码器输出的选取的文本样本中的各个单元样本对应的概率分布，所述概率分布为所述文本样本集中文本单元为预测结果的预测概率；

响应于所述解码器满足训练完成条件，得到语言模型。

3.根据权利要求1所述的方法，其中，所述基于所述语言模型，确定所述候选语料集中各个候选语料属于所述目标领域的概率，包括：

针对所述候选语料集中的各个候选语料，将起始符、该候选语料以及结束符依次输入所述语言模型，得到对应该候选语料的各个候选字的概率分布；

基于对应各个候选字的概率分布，得到各个候选字的概率；

基于该候选语料的所有候选字的概率，计算得到该候选语料属于所述目标领域的概率。

4.根据权利要求3所述的方法，其中，所述基于该候选语料的所有候选字的概率，计算得到该候选语料属于所述目标领域的概率，包括：

将该候选语料的所有候选字的概率相乘，得到该候选语料属于所述目标领域的概率。

5.根据权利要求1-4之一所述的方法，其中，所述基于各个候选语料属于所述目标领域的概率，筛选所述候选语料集得到第一筛选结果，包括：

响应于所述候选语料集中的候选语料属于所述目标领域的概率大于或等于概率阈值，将该候选语料作为第一筛选结果中的候选语料。

6.根据权利要求1所述的方法，所述方法还包括：

基于所述文本样本集和非目标领域的文本集，训练得到相似比较模型，所述相似比较模型用于判断两个输入文本之间的相似度；

从所述文本样本集选取文本样本；

将选取的文本样本和所述第一筛选结果中的各个候选语料输入所述相似比较模型，得到各个候选语料与所述文本样本的相似度；

基于所述相似度，得到第二筛选结果。

7.根据权利要求6所述的方法，其中，所述基于所述文本样本集和非目标领域的文本集，训练得到相似比较模型，包括：

从所述文本样本集选取任意两个文本样本进行拼接，得到正样本；

从所述非目标领域的文本集中随机选取文本，将所述文本样本集中的一个文本样本与选取的文本进行拼接，得到负样本；

基于所述正样本与所述负样本训练相似比较网络，所述相似比较网络的输入为两种文本，输出为所述两种文本之间的相似度值；

响应于所述相似比较网络满足训练完成条件，得到相似比较模型。

8.根据权利要求6或7所述的方法，所述方法还包括：

对所述第二筛选结果中的候选语料进行命名实体识别，得到各个候选语料中的命名实体序列；

基于预先构建的目标领域的知识图谱，计算各个候选语料的命名实体序列中图谱实体占比值；

基于所述占比值，对所述第二筛选结果进行筛选，得到第三筛选结果。

9.根据权利要求1所述的方法，所述方法包括：

基于所述文本样本集和非目标领域的文本集，训练得到语料筛选模型，所述语料筛选模型用于判断输入文本属于目标领域的概率；

将所述第一筛选结果中的各个候选语料输入所述语料筛选模型，得到各个候选语料属于目标领域的概率；

基于各个候选语料属于目标领域的概率，得到第四筛选结果。

10.一种语料筛选装置，所述装置包括：

集合选取单元，被配置成从获取的候选语料集中选取目标领域的文本样本集；

语言训练单元，被配置成基于所述文本样本集和预先构建的语言网络，训练得到语言模型，所述语言模型用于根据当前输入文本中的输入内容，预测与所述输入内容相邻的下一个文本单元为预设词表中文本的概率分布；

确定单元，被配置成基于所述语言模型，确定所述候选语料集中各个候选语料属于所述目标领域的概率；

筛选单元，被配置成基于各个候选语料属于所述目标领域的概率，筛选所述候选语料集得到第一筛选结果。

11.根据权利要求10所述的装置，其中，所述语言网络为解码器，所述语言训练单元被配置成：从所述文本样本集中选取文本样本，所述文本样本包括至少一个单元样本；将起始符加选取的文本样本以及结束符依次输入所述解码器，得到所述解码器输出的选取的文本样本中的各个单元样本对应的概率分布，所述概率分布为所述文本样本集中文本单元为预测结果的预测概率；响应于所述解码器满足训练完成条件，得到语言模型。

12.根据权利要求10所述的装置，其中，所述确定单元被配置成：针对所述候选语料集中的各个候选语料，将起始符、该候选语料以及结束符依次输入所述语言模型，得到对应该候选语料的各个候选字的概率分布；基于对应各个候选字的概率分布，得到各个候选字的概率；基于该候选语料的所有候选字的概率，计算得到该候选语料属于所述目标领域的概率。

13.根据权利要求12所述的装置，其中，所述确定单元进一步被配置成：将该候选语料的所有候选字的概率相乘，得到该候选语料属于所述目标领域的概率。

14.根据权利要求10-13之一所述的装置，其中，所述筛选单元被配置成：响应于所述候选语料集中的候选语料属于所述目标领域的概率大于或等于概率阈值，将该候选语料作为第一筛选结果中的候选语料。

15.根据权利要求10所述的装置，所述装置还包括：

相似训练单元，被配置成基于所述文本样本集和非目标领域的文本集，训练得到相似比较模型，所述相似比较模型用于判断两个输入文本之间的相似度；

样本选取单元，被配置成从所述文本样本集选取文本样本；

相似得到单元，被配置成将选取的文本样本和所述第一筛选结果中的各个候选语料输入所述相似比较模型，得到各个候选语料与所述文本样本的相似度；

结果得到单元，被配置成基于所述相似度，得到第二筛选结果。

16.根据权利要求15所述的装置，其中，所述相似训练单元被配置成：从所述文本样本集选取任意两个文本样本进行拼接，得到正样本；从所述非目标领域的文本集中随机选取文本，将所述文本样本集中的一个文本样本与选取的文本进行拼接，得到负样本；基于所述正样本与所述负样本训练相似比较网络，所述相似比较网络的输入为两种文本，输出为所述两种文本之间的相似度值；响应于所述相似比较网络满足训练完成条件，得到相似比较模型。

17.根据权利要求15或16所述的装置，所述装置还包括：

实体识别单元，被配置成对所述第二筛选结果中的候选语料进行命名实体识别，得到各个候选语料中的命名实体序列；

计算单元，被配置成基于预先构建的目标领域的知识图谱，计算各个候选语料的命名实体序列中图谱实体占比值；

占比得到单元，被配置成基于所述占比值，对所述第二筛选结果进行筛选，得到第三筛选结果。

18.根据权利要求10所述的装置，所述装置还包括：

语料训练单元，被配置成基于所述文本样本集和非目标领域的文本集，训练得到语料筛选模型，所述语料筛选模型用于判断输入文本属于目标领域的概率；

概率得到单元，被配置成将所述第一筛选结果中的各个候选语料输入所述语料筛选模型，得到各个候选语料属于目标领域的概率；

筛选得到单元，被配置成基于各个候选语料属于目标领域的概率，得到第四筛选结果。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。