CN115828925A

CN115828925A - 文本选取方法、装置、电子设备与可读存储介质

Info

Publication number: CN115828925A
Application number: CN202211474225.1A
Authority: CN
Inventors: 高亨德; 石东升; 李瑞锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-21

Abstract

本公开提供一种文本选取方法、装置、电子设备与可读存储介质，涉及自然语言处理、深度学习、云服务等人工智能技术领域。其中，文本选取方法包括：获取目标语义单元与待处理文本；根据目标语义单元，从待处理文本中选取第一候选文本；使用第一分类模型得到第一候选文本的预测结果，选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本；根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果，选取预测结果与目标语义单元对应的第二候选文本，作为目标文本。本公开能够实现选取与目标语义单元更加匹配的目标文本的目的，从而提升所选取的目标文本的准确性，降低在选取目标文本时的成本与复杂度。

Description

文本选取方法、装置、电子设备与可读存储介质

技术领域

本公开涉及数据处理技术领域，具体涉及自然语言处理、深度学习、云服务等人工智能技术领域。提供了一种文本选取方法、装置、电子设备与可读存储介质。

背景技术

现有技术需要使用已标注类型和/或领域的文本，进行文本分类模型的训练，以使得训练得到的文本分类模型能够对所输入的文本的类型和/或领域进行分类。因此，训练得到的文本分类模型的分类准确性，极大地取决于用于训练的文本数据的准确性。

通常采用编写规则的方式，从粗标注或者未标注的文本中选取能够用于文本分类模型训练的文本，导致文本选取的成本、复杂度较高，且受限于所编写的规则，还会降低所选取的文本的准确性。

发明内容

根据本公开的第一方面，提供了一种文本选取方法，包括：获取目标语义单元与待处理文本；根据所述目标语义单元，从所述待处理文本中选取第一候选文本；使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本；根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本。

根据本公开的第二方面，提供了一种文本选取装置，包括：获取单元，用于获取目标语义单元与待处理文本；第一选取单元，用于根据所述目标语义单元，从所述待处理文本中选取第一候选文本；第二选取单元，用于使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本；第三选取单元，用于根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

由以上技术方案可以看出，本公开通过使用不同的分类模型分别对第一候选文本与第二候选文本进行预测的方式，实现选取与目标语义单元更加匹配的目标文本的目的，能够提升所选取的目标文本的准确性，降低在选取目标文本时的成本与复杂度，进而提升根据目标文本训练得到的文本分类模型的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是用来实现本公开实施例的文本选取方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和机构的描述。

图1是根据本公开第一实施例的示意图。如图1所示，本实施例的文本选取方法，具体包括如下步骤：

S101、获取目标语义单元与待处理文本；

S102、根据所述目标语义单元，从所述待处理文本中选取第一候选文本；

S103、使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本；

S104、根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本。

本实施例的文本选取方法，在根据目标语义单元从待处理文本中选取第一候选文本之后，通过使用不同的分类模型分别对第一候选文本与第二候选文本进行预测的方式，实现选取与目标语义单元更加匹配的目标文本的目的，能够提升所选取的目标文本的准确性，降低目标文本的选取成本与复杂度，进而提升根据目标文本训练得到的文本分类模型的准确性。

本实施例执行S101获取的目标语义单元，可以为词语，也可以为短语；本实施例在执行S101时，可以将输入端输入的词语或者短语作为目标语义单元，也可以将输入端在网络上选择的词语或者短语作为目标语义单元。

本实施例执行S101获取的目标语义单元，可以为任意类型和/或任意领域的词语或者短语，例如类型可以为情感类型、敏感类型等，领域可以为经济领域、科技领域等，目标语义单元的数量可以为一个，也可以为多个；其中，不同的目标语义单元可以对应不同的类型和/或领域，也可以对应相同的类型和/或领域。

另外，本实施例在执行S101获取目标语义单元时，还可以采用以下方式：获取历史目标文本，该历史目标文本为之前得到的与目标语义单元对应的目标文本；从历史目标文本中得到候选语义单元，获取所得到的候选语义单元的统计值；将统计值满足预设要求的候选语义单元，作为目标语义单元。

也就是说，本实施例通过历史目标文本来获取目标语义单元，使得所获取的目标语义单元更加准确，进而提升所选取的目标文本的准确性。

其中，本实施例执行S101获取的统计值，可以为词频(TF，Term Frequency)值、逆文档频率(IDF，Inverse Document Frequency)值与词频-逆文档频率(TF-IDF，TermFrequency-Inverse Document Frequency)值中的至少一种。

本实施例在执行S101从历史目标文本中得到候选语义单元时，可以采用基于互信息和/或凝聚度的词语挖掘方式，将从历史目标文本中挖掘到的词语和/或短语作为候选语义单元；也可以采用分词的方式，将历史目标文本的分词结果作为候选语义单元。

本实施例在执行S101时，还可以同时采用词语挖掘与分词这两种方式，将词语挖掘结果与分词结果作为候选语义单元，从而提升从历史目标文本中所得到的候选语义单元的全面性。

本实施例在执行S101从历史目标文本中得到候选语义单元之后，还可以将候选语义单元中属于停用词的语义单元进行去除，能够避免将停用词作为目标语义单元所导致的降低所选取的目标文本的准确性的问题。

本实施例在执行S101将统计值满足预设要求的候选语义单元作为目标语义单元时，可以将TF值大于第一预设阈值的候选语义单元作为目标语义单元，也可以将IDF值大于第二预设阈值的候选语义单元作为目标语义单元，还可以将TF-IDF值大于第三预设阈值的候选语义单元作为目标语义单元。

本实施例在执行S101时，还可以获取候选语义单元的上述三种统计值，进而将同时满足上述三个预设要求的候选语义单元作为目标语义单元，进一步提升所获取的目标语义单元的准确性。

本实施例在执行S101将统计值满足预设要求的候选语义单元，作为目标语义单元时，还可以采用以下方式：获取历史目标文本的属性信息，属性信息可以为历史目标文本的类型(例如包含情感词的类型、包含敏感词的类型等)和/或历史目标文本所属的领域(例如金融领域、科技领域等)等；确定与属性信息对应的语义单元集合；将统计值满足预设要求、且未出现在语义单元集合中的候选语义单元，作为目标语义单元。

其中，本实施例会预先建立不同的属性信息与不同的语义单元集合之间的对应关系，在不同的语义单元集合中，包含与不同的属性信息对应的至少一个非目标语义单元。

也就是说，本实施例除了根据候选语义单元的统计值之外，还会结合与历史目标文本对应的语义单元集合，来从历史目标文本中获取目标语义单元，能够提升所获取的目标语义单元的准确性。

本实施例执行S101获取的待处理文本，可以为句子，也可以为段落，还可以为篇章；本实施例在执行S101时，可以将输入端输入的句子、段落或者篇章作为待处理文本，也可以将输入端在网络上选择的句子、段落或者篇章作为待处理文本；本实施例执行S101所获取的待处理文本的数量可以为一个，也可以为多个。

本实施例在执行S101获取待处理文本之后，还可以对待处理文本进行预处理；本实施例中的预处理包括繁简转换、大小写转换、全角半角转换、将连续数字替换为特殊符号(<num>)等。

另外，为了进一步提升所确定的目标文本的准确性，本实施例在执行S101对待处理文本进行预处理时，不对待处理文本进行去除停用词、标点符号、特殊符号等预处理。

本实施例在执行S101获取目标语义单元与待处理文本之后，执行S102根据目标语义单元，从待处理文本中选取第一候选文本；本实施例执行S102所选取的第一候选文本的数量，可以为一个，也可以为多个。

本实施例在执行S102根据目标语义单元，从待处理文本中选取第一候选文本时，可以采用的可选实现方式为：针对每个待处理文本，获取目标语义单元在该待处理文本中的出现次数；在确定所获取的出现次数大于预设次数阈值的情况下，将该待处理文本作为第一候选文本。

也就是说，本实施例根据目标语义单元在每个待处理文本中的出现次数，将出现目标语义单元较多的待处理文本作为第一候选文本，能够提升所选取的第一候选文本的准确性，避免选取出现目标语义单元较少的待处理文本作为第一候选文本。

另外，本实施例在执行S102选取了第一候选文本之后，还可以使用预设标签对第一候选文本进行标注，预设标签为目标语义单元对应的类型和/或领域，例如情感类型、敏感类型、科技领域、金融领域等。

可以理解的是，若本实施例执行S102选取的第一候选文本的数量为一个，可以采用人工校验的方式，来确定该第一候选文本是否为目标文本。

本实施例在执行S102从待处理文本中选取第一候选文本之后，执行S103使用第一分类模型得到第一候选文本的预测结果，选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本；本实施例执行S103所选取的第二候选文本的数量，可以为一个，也可以为多个。

具体地，本实施例在执行S103使用第一分类模型得到第一候选文本的预测结果时，可以采用的可选实现方式为：根据第一预设份数，将所选取的第一候选文本划分为多份文本集，每份文本集中包含相同数量的第一候选文本；选取一个文本集作为第一预测文本集，将剩余的文本集作为第一训练文本集；根据第一训练文本集训练第一分类模型，使用训练之后的第一分类模型得到第一预测文本集中各个第一候选文本的预测结果；确定是否得到了全部第一候选文本的预测结果，若否，则转至执行根据第一预设份数，将所选取的第一候选文本划分为多个文本集的步骤，直至确定得到了全部第一候选文本的预测结果。

也就是说，本实施例根据由划分第一候选文本所得到的第一训练文本集训练第一分类模型，进而使用训练之后的第一分类模型对第一预测文本集进行预测的方式，来得到全部第一候选文本的预测结果，能够实现在第一候选文本的数量较少的情况下，得到更为准确的第一候选文本的预测结果的目的。

举例来说，若第一预设份数为5份，若第一候选文本的数量为10个；本实施例在执行S103时，将不重复的2个第一候选文本作为一个文本集，使得所划分的5份文本集中的每1份，均包含2个第一候选文本。

本实施例在执行S103选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本时，可以将预测结果为目标语义单元的类型和/或领域的第一候选文本，作为第二候选文本，也可以将预测结果与预设标签一致的第一候选文本，作为第二候选文本；另外，本实施例还可以将目标语义单元的类型和/或领域作为预设标签，来标注第二候选文本。

本实施例在执行S103使用第一分类模型得到第一候选文本的预测结果，选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本时，还可以包含以下内容：根据第一候选文本中未被选取的文本，确定第一文本数量；在确定所确定的第一文本数量大于第一数量阈值的情况下，转至执行使用第一分类模型得到第一候选文本的预测结果的步骤，直至所确定的第一文本数量小于等于第一数量阈值。

也就是说，本实施例可以根据第一候选文本中未被选取的文本所确定的文本数量，循环执行根据第一分类模型对第一候选文本进行预测的过程，避免由于第一分类模型的分类效果不稳定所导致的第二候选文本的数量过少的问题，进一步提升所选取的第二候选文本的准确性。

本实施例执行S103使用的第一分类模型，为能够对长文本(例如整篇文档)进行分类的神经网络模型，例如fastText模型等，本实施例对第一分类模型的具体类型不进行限定。

本实施例在执行S103选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本之后，执行S104根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果，选取预测结果与目标语义单元对应的第二候选文本，作为目标文本；本实施例执行S104所选取的目标文本的数量，可以为一个，也可以为多个。

本实施例执行S104使用的第二分类模型，为能够对短文本(例如一篇文档中的部分句子)进行分类的神经网络模型，例如bert-base、ernie-1.0、albert-base模型等，本实施例对所使用的第二分类模型的个数、具体类型不进行限定；第一分类模型与第二分类模型的模型类型并不相同。

因此，本实施例在执行S104使用第二分类模型得到第二候选文本的预测结果时，需要首先对第二候选文本进行分句(例如256分句，即每个分句结果中包含256个字或者单词)，然后使用第二分类模型根据分句结果得到第二候选文本的预测结果。

具体地，本实施例在执行S104根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果时，可以采用的可选实现方式为：根据第二预设份数，将第二候选文本划分为多份文本集，每份文本集中包含相同数量的第二候选文本；选取一个文本集作为第二预测文本集，将剩余的文本集作为第二训练文本集；根据第二训练文本集中各个第二候选文本的分句结果，训练多个第二分类模型；根据第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到第二预测文本集中各个第二候选文本的预测结果；确定是否得到了全部第二候选文本的预测结果，若否，则转至执行根据第二预设份数，将所选取的第二候选文本划分为多个文本集的步骤，直至确定得到了全部第二候选文本的预测结果。

也就是说，本实施例根据由划分第二候选文本所得到的第二训练文本集训练多个第二分类模型，进而使用训练之后的多个第二分类模型对第二预测文本集进行预测的方式，来得到全部第二候选文本的预测结果，能够实现在第二候选文本的数量较少的情况下，得到更为准确的第二候选文本的预测结果的目的。

举例来说，若第一预设份数为5份，若第二候选文本的数量为10个；本实施例在执行S104时，将不重复的2个第二候选文本作为一个文本集，使得所划分的5份文本集中的每1份，均包含2个第二候选文本。

本实施例在执行S104根据第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到第二预测文本集中各个第二候选文本的预测结果时，可以采用的可选实现方式为：针对第二预测文本集中的每个第二候选文本，分别将该第二候选文本的分句结果输入多个第二分类模型；针对每个第二分类模型，根据该第二分类模型针对每个分句结果输出的分句预测结果，得到该第二候选文本对应该第二分类模型的候选预测结果；根据该第二候选文本对应每个第二分类模型的候选预测结果，得到该第二候选文本的预测结果。

其中，本实施例在执行S104针对每个第二分类模型，根据该第二分类模型针对每个分句结果输出的分句预测结果，得到该第二候选文本对应该第二分类模型的候选预测结果时，可以获取不同的分句预测结果的数量，进而将数量最多的分句预测结果，作为该第二候选文本对应该第二分类模型的候选预测结果，还可以将数量超过预设数量阈值的分句预测结果，作为该第二候选文本对应该第二分类模型的候选预测结果。

举例来说，若一个第二候选文本包含10个分句结果，若一个第二分类模型针对10个分句结果，分别输出了3个分句预测结果A、2个分句预测结果B以及5个分句预测结果C，则本实施例在执行S104时，可以将分句预测结果C作为该第二候选文本对该第二分类模型的候选预测结果。

本实施例在执行S104根据该第二候选文本对应每个第二分类模型的候选预测结果，得到该第二候选文本的预测结果时，可以在确定所得到的多个候选预测结果一致的情况下，将候选预测结果作为第二候选文本的预测结果。

举例来说，若第二分类模型为模型1、模型2与模型3，若该第二候选文本对应模型1的候选预测结果为预测结果C、对应模型2的候选预测结果为预测结果C、对应模型3的候选预测结果为预测结果C，则将预测结果C作为该第二候选文本的预测结果；若对应模型2的候选预测结果为预测结果B，则舍弃该第二候选文本。

另外，本实施例在执行S104根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果，选取预测结果与目标语义单元对应的第二候选文本，作为目标文本时，还可以包含以下内容：根据第二候选文本中未被选取的文本，确定第二文本数量；在确定第二文本数量大于第二数量阈值的情况下，转至执行根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果的步骤，以此循环进行，直至所确定的第二文本数量小于等于第二数量阈值。

也就是说，本实施例可以根据第二候选文本中未被选取的文本所确定的第二文本数量，循环执行根据多个第二分类模型对第二候选文本进行预测的过程，避免由于第二分类模型的分类效果不稳定所导致的目标文本的数量过少的问题，进一步提升所选取的目标文本的准确性。

本实施例在执行S104选取目标文本之后，还可以对目标文本进行进一步的处理，例如人工筛选、通过正则表达式或者关键词等进行筛选等，以进一步提升筛选得到的目标文本的准确性。

本实施例在执行S104选取目标文本之后，还可以将所选取的目标文本作为训练文本，将与目标文本对应的目标语义单元的类型和/或领域作为标注标签，对神经网络模型进行训练，使得训练得到的文本分类模型，能够根据所输入的文本，输出该文本的类型和/或领域。

图2是根据本公开第二实施例的示意图。图2示出了本实施例在根据目标语义单元选取第一候选文本之后，选取目标文本的流程图：在获取第一候选文本之后，若未对待处理文本进行预处理，则对第一候选文本进行预处理；使用预处理之后的第一候选文本训练第一分类模型，根据训练之后的第一分类模型得到第一候选文本的预测结果；根据第一候选文本的预测结果选取第二候选文本(还可以重复进行，直至未被选取的第一候选文本的数量小于等于第一数量阈值)，对第二候选文本进行分句之后，根据第二候选文本的分句结果训练多个第二分类模型(图中的第二分类模型1、第二分类模型2与第二分类模型3)，并使用训练之后的多个第二分类模型得到第二候选文本的预测结果；在确定多个第二分类模型输出的预测结果一致的情况下，将第二候选文本作为目标文本(还可以重复进行，直至未被选取的第二候选文本的数量小于等于第二数量阈值)；将目标文本作为训练样本，以进行神经网络模型的训练，得到文本分类模型。

图3是根据本公开第三实施例的示意图。如图3所示，本实施例的文本选取装置300，包括：

获取单元301、用于获取目标语义单元与待处理文本；

第一选取单元302、用于根据所述目标语义单元，从所述待处理文本中选取第一候选文本；

第二选取单元303、用于使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本；

第三选取单元304、用于根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本。

获取单元301获取的目标语义单元，可以为词语，也可以为短语；获取单元301可以将输入端输入的词语或者短语作为目标语义单元，也可以将输入端在网络上选择的词语或者短语作为目标语义单元。

获取单元301获取的目标语义单元，可以为任意类型和/或任意领域的词语或者短语，例如类型可以为情感类型、敏感类型等，领域可以为经济领域、科技领域等，目标语义单元的数量可以为一个，也可以为多个；其中，不同的目标语义单元可以对应不同的类型和/或领域，也可以对应相同的类型和/或领域。

另外，获取单元301在获取目标语义单元时，还可以采用以下方式：获取历史目标文本；从历史目标文本中得到候选语义单元，获取所得到的候选语义单元的统计值；将统计值满足预设要求的候选语义单元，作为目标语义单元。

其中，获取单元301获取的统计值，可以为词频(TF，Term Frequency)值、逆文档频率(IDF，Inverse Document Frequency)值与词频-逆文档频率(TF-IDF，Term Frequency-Inverse Document Frequency)值中的至少一种。

获取单元301在从历史目标文本中得到候选语义单元时，可以采用基于互信息和/或凝聚度的词语挖掘方式，将从历史目标文本中挖掘到的词语和/或短语作为候选语义单元；也可以采用分词的方式，将历史目标文本的分词结果作为候选语义单元。

获取单元301还可以同时采用词语挖掘与分词这两种方式，将词语挖掘结果与分词结果作为候选语义单元，从而提升从历史目标文本中所得到的候选语义单元的全面性。

获取单元301在从历史目标文本中得到候选语义单元之后，还可以将候选语义单元中属于停用词的语义单元进行去除，能够避免将停用词作为目标语义单元所导致的降低所选取的目标文本的准确性的问题。

获取单元301在将统计值满足预设要求的候选语义单元作为目标语义单元时，可以将TF值大于第一预设阈值的候选语义单元作为目标语义单元，也可以将IDF值大于第二预设阈值的候选语义单元作为目标语义单元，还可以将TF-IDF值大于第三预设阈值的候选语义单元作为目标语义单元。

获取单元301还可以获取候选语义单元的上述三种统计值，进而将同时满足上述三个预设要求的候选语义单元作为目标语义单元，进一步提升所获取的目标语义单元的准确性。

获取单元301在将统计值满足预设要求的候选语义单元，作为目标语义单元时，还可以采用以下方式：获取历史目标文本的属性信息；确定与属性信息对应的语义单元集合；将统计值满足预设要求、且未出现在语义单元集合中的候选语义单元，作为目标语义单元。

也就是说，获取单元301除了根据候选语义单元的统计值之外，还会结合与历史目标文本对应的语义单元集合，来从历史目标文本中获取目标语义单元，能够提升所获取的目标语义单元的准确性。

获取单元301获取的待处理文本，可以为句子，也可以为段落，还可以为篇章；获取单元301可以将输入端输入的句子、段落或者篇章作为待处理文本，也可以将输入端在网络上选择的句子、段落或者篇章作为待处理文本；获取单元301所获取的待处理文本的数量可以为一个，也可以为多个。

获取单元301在获取待处理文本之后，还可以对待处理文本进行预处理；本实施例中的预处理包括繁简转换、大小写转换、全角半角转换、将连续数字替换为特殊符号(<num>)等。

另外，为了进一步提升所确定的目标文本的准确性，获取单元301对待处理文本进行预处理时，不对待处理文本进行去除停用词、标点符号、特殊符号等预处理。

本实施例在由获取单元301获取目标语义单元与待处理文本之后，由第一选取单元302根据目标语义单元，从待处理文本中选取第一候选文本；第一选取单元302所选取的第一候选文本的数量，可以为一个，也可以为多个。

第一选取单元302根据目标语义单元，从待处理文本中选取第一候选文本时，可以采用的可选实现方式为：针对每个待处理文本，获取目标语义单元在该待处理文本中的出现次数；在确定所获取的出现次数大于预设次数阈值的情况下，将该待处理文本作为第一候选文本。

也就是说，第一选取单元302根据目标语义单元在每个待处理文本中的出现次数，将出现目标语义单元较多的待处理文本作为第一候选文本，能够提升所选取的第一候选文本的准确性，避免选取出现目标语义单元较少的待处理文本作为第一候选文本。

另外，第一选取单元302在选取了第一候选文本之后，还可以使用预设标签对第一候选文本进行标注，预设标签为目标语义单元对应的类型和/或领域，例如情感类型、敏感类型、科技领域、金融领域等。

可以理解的是，若第一选取单元302选取的第一候选文本的数量为一个，可以采用人工校验的方式，来确定该第一候选文本是否为目标文本。

本实施例在由第一选取单元302从待处理文本中选取第一候选文本之后，由第二选取单元303使用第一分类模型得到第一候选文本的预测结果，选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本；第二选取单元303所选取的第二候选文本的数量，可以为一个，也可以为多个。

具体地，第二选取单元303在使用第一分类模型得到第一候选文本的预测结果时，可以采用的可选实现方式为：根据第一预设份数，将所选取的第一候选文本划分为多份文本集；选取一个文本集作为第一预测文本集，将剩余的文本集作为第一训练文本集；根据第一训练文本集训练第一分类模型，使用训练之后的第一分类模型得到第一预测文本集中各个第一候选文本的预测结果；确定是否得到了全部第一候选文本的预测结果，若否，则转至执行根据第一预设份数，将所选取的第一候选文本划分为多个文本集的步骤，直至确定得到了全部第一候选文本的预测结果。

也就是说，第二选取单元303根据由划分第一候选文本所得到的第一训练文本集训练第一分类模型，进而使用训练之后的第一分类模型对第一预测文本集进行预测的方式，来得到全部第一候选文本的预测结果，能够实现在第一候选文本的数量较少的情况下，得到更为准确的第一候选文本的预测结果的目的。

第二选取单元303在选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本时，可以将预测结果为目标语义单元的类型和/或领域的第一候选文本，作为第二候选文本，也可以将预测结果与预设标签一致的第一候选文本，作为第二候选文本；另外，第二选取单元303还可以将目标语义单元的类型和/或领域作为预设标签，来标注第二候选文本。

第二选取单元303在使用第一分类模型得到第一候选文本的预测结果，选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本时，还可以包含以下内容：根据第一候选文本中未被选取的文本，确定第一文本数量；在确定所确定的第一文本数量大于第一数量阈值的情况下，转至执行使用第一分类模型得到第一候选文本的预测结果的步骤，直至所确定的第一文本数量小于等于第一数量阈值。

也就是说，第二选取单元303可以根据第一候选文本中未被选取的文本所确定的文本数量，循环执行根据第一分类模型对第一候选文本进行预测的过程，避免由于第一分类模型的分类效果不稳定所导致的第二候选文本的数量过少的问题，进一步提升所选取的第二候选文本的准确性。

第二选取单元303使用的第一分类模型，为能够对长文本(例如整篇文档)进行分类的神经网络模型，例如fastText模型等，本实施例对第一分类模型的具体类型不进行限定。

可以理解的是，若第二选取单元303选取的第二候选文本的数量为一个，可以采用人工校验的方式，来确定该第二候选文本是否为目标文本。

本实施例在由第二选取单元303选取预测结果与目标语义单元对应的第一候选文本，作为第二候选文本之后，由第三选取单元304根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果，选取预测结果与目标语义单元对应的第二候选文本，作为目标文本；第三选取单元304所选取的目标文本的数量，可以为一个，也可以为多个。

第三选取单元304使用的第二分类模型，为能够对短文本(例如一篇文档中的部分句子)进行分类的神经网络模型，例如bert-base、ernie-1.0、albert-base模型等，本实施例对所使用的第二分类模型的个数、具体类型不进行限定；第一分类模型与第二分类模型的模型类型并不相同。

因此，第三选取单元304使用第二分类模型得到第二候选文本的预测结果时，需要首先对第二候选文本进行分句，然后使用第二分类模型根据分句结果得到第二候选文本的预测结果。

具体地，第三选取单元304在根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果时，可以采用的可选实现方式为：根据第二预设份数，将第二候选文本划分为多份文本集；选取一个文本集作为第二预测文本集，将剩余的文本集作为第二训练文本集；根据第二训练文本集中各个第二候选文本的分句结果，训练多个第二分类模型；根据第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到第二预测文本集中各个第二候选文本的预测结果；确定是否得到了全部第二候选文本的预测结果，若否，则转至执行根据第二预设份数，将所选取的第二候选文本划分为多个文本集的步骤，直至确定得到了全部第二候选文本的预测结果。

也就是说，第三选取单元304根据由划分第二候选文本所得到的第二训练文本集训练多个第二分类模型，进而使用训练之后的多个第二分类模型对第二预测文本集进行预测的方式，来得到全部第二候选文本的预测结果，能够实现在第二候选文本的数量较少的情况下，得到更为准确的第二候选文本的预测结果的目的。

第三选取单元304在根据第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到第二预测文本集中各个第二候选文本的预测结果时，可以采用的可选实现方式为：针对第二预测文本集中的每个第二候选文本，分别将该第二候选文本的分句结果输入多个第二分类模型；针对每个第二分类模型，根据该第二分类模型针对每个分句结果输出的分句预测结果，得到该第二候选文本对应该第二分类模型的候选预测结果；根据该第二候选文本对应每个第二分类模型的候选预测结果，得到该第二候选文本的预测结果。

其中，第三选取单元304在针对每个第二分类模型，根据该第二分类模型针对每个分句结果输出的分句预测结果，得到该第二候选文本对应该第二分类模型的候选预测结果时，可以获取不同的分句预测结果的数量，进而将数量最多的分句预测结果，作为该第二候选文本对应该第二分类模型的候选预测结果，还可以将数量超过预设数量阈值的分句预测结果，作为该第二候选文本对应该第二分类模型的候选预测结果。

第三选取单元304在根据该第二候选文本对应每个第二分类模型的候选预测结果，得到该第二候选文本的预测结果时，可以在确定所得到的多个候选预测结果一致的情况下，将候选预测结果作为第二候选文本的预测结果。

另外，第三选取单元304在根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果，选取预测结果与目标语义单元对应的第二候选文本，作为目标文本时，还可以包含以下内容：根据第二候选文本中未被选取的文本，确定第二文本数量；在确定第二文本数量大于第二数量阈值的情况下，转至执行根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果的步骤，以此循环进行，直至所确定的第二文本数量小于等于第二数量阈值。

也就是说，第三选取单元304可以根据第二候选文本中未被选取的文本所确定的第二文本数量，循环执行根据多个第二分类模型对第二候选文本进行预测的过程，避免由于第二分类模型的分类效果不稳定所导致的目标文本的数量过少的问题，进一步提升所选取的目标文本的准确性。

本实施例在由第三选取单元304选取目标文本之后，还可以对目标文本进行进一步的处理，例如人工筛选、通过正则表达式或者关键词等进行筛选等，以进一步提升筛选得到的目标文本的准确性。

第三选取单元304在选取目标文本之后，还可以将所选取的目标文本作为训练文本，将与目标文本对应的目标语义单元的类型和/或领域作为标注标签，对神经网络模型进行训练，使得训练得到的文本分类模型，能够根据所输入的文本，输出该文本的类型和/或领域。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图4所示，是根据本公开实施例的文本选取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的展示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如文本选取方法。例如，在一些实施例中，文本选取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。

在一些实施例中，计算机程序的部分或者全部可以经由ROM402和/或通信单元409而被载入和/或安装到设备500上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的文本选取方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本选取方法。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程文本选取装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户展示信息的展示装置(例如，CRT(阴极射线管)或者LCD(液晶展示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本选取方法，包括：

获取目标语义单元与待处理文本；

根据所述目标语义单元，从所述待处理文本中选取第一候选文本；

使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本；

根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本。

2.根据权利要求1所述的方法，其中，所述获取目标语义单元包括：

获取历史目标文本；

从所述历史目标文本中得到候选语义单元，获取所述候选语义单元的统计值；

将所述统计值满足预设要求的候选语义单元，作为所述目标语义单元。

3.根据权利要求2中所述的方法，其中，所述将所述统计值满足预设要求的候选语义单元，作为所述目标语义单元包括：

获取所述历史目标文本的属性信息；

确定与所述属性信息对应的语义单元集合；

将所述统计值满足预设要求、且未出现在所述语义单元集合中的候选语义单元，作为所述目标语义单元。

4.根据权利要求1-3中任一项所述的方法，其中，所述根据所述目标语义单元，从所述待处理文本中选取第一候选文本包括：

针对每个待处理文本，获取所述目标语义单元在该待处理文本中的出现次数；

在确定所述出现次数大于预设次数阈值的情况下，将该待处理文本作为所述第一候选文本。

5.根据权利要求1-4中任一项所述的方法，其中，所述使用第一分类模型得到所述第一候选文本的预测结果包括：

根据第一预设份数，将所述第一候选文本划分为多份文本集；

选取一个文本集作为第一预测文本集，将剩余的文本集作为第一训练文本集；

根据所述第一训练文本集训练所述第一分类模型，使用训练之后的第一分类模型得到所述第一预测文本集中各个第一候选文本的预测结果；

确定是否得到了全部第一候选文本的预测结果，若否，则转至执行所述根据第一预设份数，将所述第一候选文本划分为多个文本集的步骤，直至确定得到了全部第一候选文本的预测结果。

6.根据权利要求1-5中任一项所述的方法，其中，所述使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本包括：

根据所述第一候选文本中未被选取的文本，确定第一文本数量；

在确定所述第一文本数量大于第一数量阈值的情况下，转至执行所述使用第一分类模型得到所述第一候选文本的预测结果的步骤，直至所述第一文本数量小于等于第一数量阈值。

7.根据权利要求1-6中任一项所述的方法，其中，所述根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果包括：

根据第二预设份数，将所述第二候选文本划分为多份文本集；

选取一个文本集作为第二预测文本集，将剩余的文本集作为第二训练文本集；

根据所述第二训练文本集中各个第二候选文本的分句结果，训练所述多个第二分类模型；

根据所述第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到所述第二预测文本集中各个第二候选文本的预测结果；

确定是否得到了全部第二候选文本的预测结果，若否，则转至执行所述根据第二预设份数，将所述第二候选文本划分为多个文本集的步骤，直至确定得到了全部第二候选文本的预测结果。

8.根据权利要求7所述的方法，其中，所述根据所述第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到所述第二预测文本集中各个第二候选文本的预测结果包括：

针对所述第二预测文本集中的每个第二候选文本，分别将该第二候选文本的分句结果输入所述多个第二分类模型；

针对每个第二分类模型，根据该第二分类模型针对每个分句结果输出的分句预测结果，得到该第二候选文本对应该第二分类模型的候选预测结果；

根据该第二候选文本对应每个第二分类模型的候选预测结果，得到该第二候选文本的预测结果。

9.根据权利要求1-8中任一项所述的方法，其中，所述根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本包括：

根据所述第二候选文本中未被选取的文本，确定第二文本数量；

在确定所述第二文本数量大于第二数量阈值的情况下，转至执行所述根据第二候选文本的分句结果，使用多个第二分类模型得到第二候选文本的预测结果的步骤，直至所述第二文本数量小于等于第二数量阈值。

10.一种文本选取装置，包括：

获取单元，用于获取目标语义单元与待处理文本；

第一选取单元，用于根据所述目标语义单元，从所述待处理文本中选取第一候选文本；

第二选取单元，用于使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本；

第三选取单元，用于根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本。

11.根据权利要求10所述的装置，其中，所述获取单元在获取目标语义单元时，具体执行：

获取历史目标文本；

12.根据权利要求11中所述的装置，其中，所述获取单元在将所述统计值满足预设要求的候选语义单元，作为所述目标语义单元时，具体执行：

获取所述历史目标文本的属性信息；

确定与所述属性信息对应的语义单元集合；

13.根据权利要求10-12中任一项所述的装置，其中，所述第一选取单元在根据所述目标语义单元，从所述待处理文本中选取第一候选文本时，具体执行：

14.根据权利要求10-13中任一项所述的装置，其中，所述第二选取单元在使用第一分类模型得到所述第一候选文本的预测结果时，具体执行：

15.根据权利要求10-14中任一项所述的装置，其中，所述第二选取单元在使用第一分类模型得到所述第一候选文本的预测结果，选取预测结果与所述目标语义单元对应的第一候选文本，作为第二候选文本时，具体执行：

16.根据权利要求10-15中任一项所述的装置，其中，所述第三选取单元在根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果时，具体执行：

17.根据权利要求16所述的装置，其中，所述第三选取单元在根据所述第二预测文本集中各个第二候选文本的分句结果，使用训练之后的多个第二分类模型得到所述第二预测文本集中各个第二候选文本的预测结果时，具体执行：

18.根据权利要求10-17中任一项所述的装置，其中，所述第三选取单元在根据所述第二候选文本的分句结果，使用多个第二分类模型得到所述第二候选文本的预测结果，选取预测结果与所述目标语义单元对应的第二候选文本，作为目标文本时，具体执行：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。