CN115757774A

CN115757774A - 行业领域识别方法、装置、电子设备及存储介质

Info

Publication number: CN115757774A
Application number: CN202211370948.7A
Authority: CN
Inventors: 姚相振; 翟飞飞; 张宇光; 刘行; 付西娜; 李海东; 史桂华
Original assignee: Beijing Zhongkefan Language Technology Co ltd; China Electronics Standardization Institute
Current assignee: Beijing Zhongkefan Language Technology Co ltd; China Electronics Standardization Institute
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-03-07
Anticipated expiration: 2042-11-03
Also published as: CN115757774B

Abstract

本发明提供一种行业领域识别方法、装置、电子设备及存储介质，涉及自然语言处理技术领域，该方法包括：获取待识别应用软件的隐私政策文本；对隐私政策文本中的段落进行分类，根据段落分类结果，将隐私政策文本中目标类型的段落确定为目标段落；提取目标段落中的目标词汇；基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域。本发明提供的行业领域识别方法、装置、电子设备及存储介质，能提高待识别应用软件的隐私政策文本的解析效率和解析准确率，能基于待识别应用软件的隐私政策文本更准确、更高效的识别待识别应用软件所属的行业领域，能提高用户感知。

Description

行业领域识别方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种行业领域识别方法、装置、电子设备及存储介质。

背景技术

应用软件(Application，APP)的隐私政策，指应用软件依据隐私权政策制定的对用户信息处理的政策，通常包括关于应用软件如何收集、处理、使用、存储、共享、转让或公开披露等管理用户信息数据的声明。

随着移动互联技术的发展，应用软件被广泛应用于各行业领域，例如电商、社交媒体、餐饮、汽车、金融、移动支付、出行、通信、保险、医疗、体育、房地产以及传媒等行业领域。现有技术中，可以通过解析应用软件的隐私政策，识别应用软件所属的行业领域。

但是，通常情况下应用软件的隐私政策文本的内容冗长，导致应用软件的隐私政策文本的解析效率较低，进而导致识别应用软件所属行业领域的效率较低。因此，如何提高识别应用软件所属行业领域的效率，是本领域亟待解决的技术问题。

发明内容

本发明提供一种行业领域识别方法、装置、电子设备及存储介质，用以解决现有技术中应用软件的隐私政策的解析效率较低，导致识别应用软件所属行业领域的效率较低的缺陷，实现提高识别应用软件所属行业领域的效率。

本发明提供一种行业领域识别方法，包括：

获取待识别应用软件的隐私政策文本；

对所述隐私政策文本中的段落进行分类，根据段落分类结果，将所述隐私政策文本中目标类型的段落确定为目标段落；

提取所述目标段落中的目标词汇；

基于所述目标段落中的目标词汇，确定所述待识别应用软件所属的行业领域。

根据本发明提供的一种行业领域识别方法，所述对所述隐私政策文本中的段落进行分类，包括：

将所述隐私政策文本输入段落分类模型，获取所述段落分类模型输出的所述隐私政策文本的段落分类结果；

其中，所述段落分类模型是以样本应用软件的样本隐私政策文本为样本，以所述样本隐私政策文本的段落分类结果为样本标签进行训练后得到；所述段落分类模型用于对所述隐私政策文本进行语义特征提取之后，基于所述隐私政策文本的语义特征，获取所述隐私政策文本的段落分类结果。

根据本发明提供的一种行业领域识别方法，所述基于所述目标段落中的目标词汇，确定所述待识别应用软件所属的行业领域，包括：

将所述目标段落、所述目标段落中的目标词汇以及所述隐私政策文本的文本名称输入第一分类模型，获取所述第一分类模型输出的所述待识别应用软件所属的行业领域；

其中，所述第一分类模型是以样本段落、从所述样本段落中提取到的样本词汇以及样本隐私政策文本的文本名称为样本，以样本应用软件所属的行业领域为样本标签进行训练后得到；所述样本隐私政策文本为所述样本应用软件的隐私政策文本；所述样本段落为所述样本隐私政策文本中目标类型的段落。

根据本发明提供的一种行业领域识别方法，所述第一分类模型，包括：第一特征提取单元、词汇编码单元、第二特征提取单元、第一向量拼接单元和第一结果输出单元；

所述将所述目标段落、所述目标段落中的目标词汇以及所述隐私政策文本的文本名称输入第一分类模型，获取所述第一分类模型输出的所述待识别应用软件所属的行业领域，包括：

将所述目标段落输入所述第一特征提取单元，由所述第一特征提取单元对应所述目标段落进行语义特征提取，进而获取所述第一特征提取单元输出的所述目标段落对应的第一嵌入向量；

将所述目标段落中的目标词汇输入所述词汇编码单元，由所述词汇编码单元对所述目标段落中的目标词汇进行编码，进而获取所述词汇编码单元输出的所述目标段落对应的第二嵌入向量；

将所述隐私政策文本的文本名称输入所述第二特征提取单元，由所述第二特征提取单元对所述隐私政策文本的文本名称进行特征提取，进而获取所述第二特征提取单元输出的所述目标段落对应的第三嵌入向量；

将所述第一嵌入向量、所述第二嵌入向量和所述第三嵌入向量输出所述第一向量拼接单元，由所述第一向量拼接单元对所述第一嵌入向量、所述第二嵌入向量和所述第三嵌入向量进行拼接，进而获取所述第一向量拼接单元输出的所述目标段落对应的第一特征表示向量；

将所述第一特征表示向量输入所述第一结果输出单元，获取所述第一结果输出单元输出的所述待识别应用软件所属的行业领域。

根据本发明提供的一种行业领域识别方法，所述第一分类模型，包括：词句拼接单元、第三特征提取单元、第四特征提取单元、第二向量拼接单元和第二结果输出单元；

将所述目标段落和所述目标段落中的目标词汇输入所述词句拼接单元，由所述词句拼接单元对所述目标段落中的句子与所述句子中的目标词汇进行拼接，进而获取所述句子的词句拼接结果；

将所述句子的词句拼接结果输入所述第三特征提取单元，由所述第三特征提取单元基于所述句子的词句拼接结果，获取所述句子对应的序列之后，基于所述目标段落中所有句子对应的序列，获取所述第三特征提取单元输出的所述目标段落对应的第四嵌入向量；

将所述隐私政策文本的文本名称输出所述第四特征提取单元，由所述第四特征提取单元对所述隐私政策文本的文本名称进行特征提取，进而获取所述第四特征提取单元输出的所述目标段落对应的第五嵌入向量；

将所述第四嵌入向量和所述第五嵌入向量输出所述第二向量拼接单元，由所述第二向量拼接单元对所述第四嵌入向量和所述第五嵌入向量进行拼接，进而获取所述第二向量拼接单元输出的所述目标段落对应的第二特征表示向量；

将所述第二特征表示向量输入所述第二结果输出单元，获取所述第二结果输出单元输出的所述待识别应用软件所属的行业领域。

将所述目标段落中的目标词汇输入第二分类模型，获取所述第二分类模型输出的所述待识别应用软件所属的行业领域；

其中，所述第二分类模型基于支持向量机构建，以样本词汇为样本，以样本应用软件所属的行业领域为样本标签进行训练后得到；所述样本词汇从样本段落中提取得到；所述样本段落为所述样本应用软件的样本隐私政策文本中目标类型的段落。

根据本发明提供的一种行业领域识别方法，所述段落分类模型包括：语义特征提取单元和段落分类单元；

所述将所述隐私政策文本输入段落分类模型，获取所述段落分类模型输出的所述隐私政策文本的段落分类结果，包括：

将所述隐私政策文本输入所述语义特征提取单元，获取所述语义特征提取单元输出的所述隐私政策文本对应的词向量矩阵；

将所述隐私政策文本对应的词向量矩阵输入所述段落分类单元，获取所述段落分类单元输出的所述隐私政策文本的段落分类结果。

根据本发明提供的一种行业领域识别方法，所述提取所述目标段落中的目标词汇，包括：

对所述目标段落进行预处理，获取预处理后的目标段落；

对所述预处理后的目标段落进行分词处理，获取所述目标段落对应的原始词汇集；

基于预设词汇集，在所述目标段落对应的原始词汇集中提取目标词汇；

其中，所述预处理包括剔除停用词。

本发明还提供一种行业领域识别装置，包括：

文本获取模块，用于获取待识别应用软件的隐私政策文本；

段落分类模块，用于对所述隐私政策文本中的段落进行分类，根据段落分类结果，将所述隐私政策文本中目标类型的段落确定为目标段落；

词汇提取模块，用于提取所述目标段落中的目标词汇；

领域识别模块，用于基于所述目标段落中的目标词汇，确定所述待识别应用软件所属的行业领域。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述行业领域识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述行业领域识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述行业领域识别方法。

本发明提供的行业领域识别方法、装置、电子设备及存储介质，通过对待识别应用软件的隐私政策文本中的段落进行分类，根据段落分类结果，将上述隐私政策文本中目标类型的段落确定为目标段落，并提取上述目标段落中的目标词汇之后，基于上述目标词汇，确定待识别应用软件所属的行业领域，能提高待识别应用软件的隐私政策文本的解析效率和解析准确率，能基于待识别应用软件的隐私政策文本更准确、更高效的识别待识别应用软件所属的行业领域，能提高用户感知。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的行业领域识别方法的流程示意图；

图2是本发明提供的行业领域识别装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

图1是本发明提供的行业领域识别方法的流程示意图。下面结合图1描述本发明的行业领域识别方法。如图1所示，该方法包括：步骤101、获取待识别应用软件的隐私政策文本。

需要说明的是，本发明实施例的执行主体为行业领域识别装置。

需要说明的是，待识别应用软件为本发明提供的行业领域识别方法的识别对象。基于本发明提供的行业领域识别方法，可以识别待识别应用该软件所属的行业领域。

可选地，本发明实施例中的行业领域，可以为“电商”、“社交媒体”、“餐饮”、“汽车”、“金融”、“移动支付”、“出行”、“通信”、“保险”、“医疗”、“体育”、“房地产”以及“传媒”中的任意一种。

具体地，本发明实施例中可以通过多种方式获取待识别应用软件的隐私政策文本，例如：可以通过数据查询的方式，获取待识别应用软件的隐私政策文本；或者，可以接收其他电子设备发送的待识别应用软件的隐私政策文本；又或者，可以接收用户输入的待识别应用软件的隐私政策文本。本发明实施例中对获取待识别应用软件的隐私政策文本的具体方式不作限定。

需要说明的是，本发明实施例中待识别应用软件的隐私政策文本为中文文本。

步骤102、对隐私政策文本中的段落进行分类，根据段落分类结果，将隐私政策文本中目标类型的段落确定为目标段落。

具体地，获取待识别应用软件的隐私政策文本之后，可以对上述隐私政策文本中的段落进行分类，从而可以获取上述隐私政策文本中每一段落的类型作为上述隐私政策文本的段落分类结果。

需要说明的是，本发明实施例中段落的类型，可以为“业务功能与信息收集”、“信息共享”、“转让”、“公开披露”、“信息保护”、“信息存储”、“用户权利”、“cookies技术”、“信息收集-征得授权同意的例外”、“信息共享-征得授权同意的例外”、“撤回同意的授权”、“未成年保护”、“隐私政策更新”、“投诉反馈机制”以及“无关文本”中的任意一种。

其中，在上述隐私政策文本中的任一段落的类型为“业务功能与信息收集”的情况下，该段落记载了待识别应用软件关于业务功能与信息收集的相关内容；

在上述隐私政策文本中的任一段落的类型为“信息共享”的情况下，该段落记载了待识别应用软件关于信息共享的相关内容；

在上述隐私政策文本中的任一段落的类型为“转让”的情况下，该段落记载了待识别应用软件关于转让的相关内容；

在上述隐私政策文本中的任一段落的类型为“公开披露”的情况下，该段落记载了待识别应用软件关于公开披露的相关内容；

在上述隐私政策文本中的任一段落的类型为“信息保护”的情况下，该段落记载了待识别应用软件关于信息保护的相关内容；

在上述隐私政策文本中的任一段落的类型为“信息存储”的情况下，该段落记载了待识别应用软件关于信息存储的相关内容；

在上述隐私政策文本中的任一段落的类型为“用户权利”的情况下，该段落记载了待识别应用软件关于用户权利的相关内容；

在上述隐私政策文本中的任一段落的类型为“cookies技术”的情况下，该段落记载了待识别应用软件关于cookies技术的相关内容；

在上述隐私政策文本中的任一段落的类型为“信息收集-征得授权同意的例外”的情况下，该段落记载了待识别应用软件关于信息收集-征得授权同意的例外的相关内容；

在上述隐私政策文本中的任一段落的类型为“信息共享-征得授权同意的例外”的情况下，该段落记载了待识别应用软件关于信息共享-征得授权同意的例外的相关内容；

在上述隐私政策文本中的任一段落的类型为“撤回同意的授权”的情况下，该段落记载了待识别应用软件关于撤回同意的授权的相关内容；

在上述隐私政策文本中的任一段落的类型为“未成年保护”的情况下，该段落记载了待识别应用软件关于未成年保护的相关内容；

在上述隐私政策文本中的任一段落的类型为“隐私政策更新”的情况下，该段落记载了待识别应用软件关于隐私政策更新的相关内容；

在上述隐私政策文本中的任一段落的类型为“投诉反馈机制”的情况下，该段落记载了待识别应用软件关于投诉反馈机制的相关内容；

在上述隐私政策文本中的任一段落的类型为“无关文本”的情况下，该段落记载了待识别应用软件关于无关本文的相关内容。

本发明实施例中可以通过多种方式对上述隐私政策文本中的段落进行分类，例如：可以基于深度学习技术对上述隐私政策文本中的段落进行分类；或者，可以通过关键词提取和概率分布计算的方式，对上述隐私政策文本中的段落进行分类。本发明实施例中对具体的分类方式不作限定。

对上述隐私政策文本中的段落进行分类，获得上述隐私政策文本的段落分类结果之后，可以基于上述隐私政策文本的段落分类结果，将上述隐私政策文本中目标类型的段落确定为目标段落。

可以理解的是，业务功能信息通常与行业领域具有较强的关联性。因此，本发明实施例中利用这一特性，将目标类型确定为“业务功能与信息收集”。相应地，对上述隐私政策文本中的段落进行分类，获得段落分类结果之后，可以基于上述段落分类结果，将上述隐私政策文本中类型为“业务功能与信息收集”的段落确定为目标段落。

可以理解的是，目标段落的数量可以为一个或多个。

步骤103、提取目标段落中的目标词汇。

具体地，在待识别应用软件的隐私政策文本中确定目标段落之后，可以提取上述目标段落中的目标词汇。

本发明实施例中可以通过多种方式提取上述目标段落中的目标词汇，例如：可以基于深度学习技术，提取上述目标段落中的目标词汇；或者，可以基于预设词汇集，提取上述目标段落中可以与上述预设词汇集中的任一词汇匹配的词汇，作为上述目标段落中的目标词汇。本发明实施例中对提取上述目标段落中的目标词汇的具体方式不作限定。

步骤104、基于目标词汇，确定待识别应用软件所属的行业领域。

具体地，提取上述目标段落中的目标词汇之后，可以基于上述目标词汇，通过多种方式确定待识别应用软件所属的行业领域，例如：基于上述目标词汇，可以利用深度学习技术，确定待识别应用软件所属的行业领域；或者，基于上述目标词汇，可以通过数值计算的方式，确定待识别应用软件所属的行业领域。本发明实施例中对基于上述目标词汇，确定待识别应用软件所属的行业领域的具体方式不作限定。

本发明实施例通过对待识别应用软件的隐私政策文本中的段落进行分类，根据段落分类结果，将上述隐私政策文本中目标类型的段落确定为目标段落，并提取上述目标段落中的目标词汇之后，基于上述目标词汇，确定待识别应用软件所属的行业领域，能提高待识别应用软件的隐私政策文本的解析效率和解析准确率，能基于待识别应用软件的隐私政策文本更准确、更高效的识别待识别应用软件所属的行业领域，能提高用户感知。

基于上述各实施例的内容，对隐私政策文本中的段落进行分类，包括：将隐私政策文本输入段落分类模型，获取段落分类模型输出的隐私政策文本的段落分类结果；

其中，段落分类模型是以样本应用软件的样本隐私政策文本为样本，以样本隐私政策文本的段落分类结果为样本标签进行训练后得到；段落分类模型用于对隐私政策文本进行语义特征提取之后，基于隐私政策文本的语义特征，获取隐私政策文本的段落分类结果。

需要说明的是，样本应用软件的样本隐私政策文本的段落分类结果，可以包括上述样本隐私政策文本中每一段落的类型。样本隐私政策文本的段落分类结果可以是预先标注的。

具体地，将待识别应用程序的隐私政策文本输入段落分类模型之后，段落分类模型可以利用深度学习技术，基于上述隐私政策文本的语义特征以及上述隐私政策文本中的段落在上述隐私政策文本中的位置信息，获取并输出上述隐私政策文本的段落分类结果。

可选地，段落分类模型包括：语义特征提取单元和段落分类单元。

将隐私政策文本输入段落分类模型，获取段落分类模型输出的隐私政策文本的段落分类结果，包括：将隐私政策文本输入语义特征提取单元，获取语义特征提取单元输出的隐私政策文本对应的词向量矩阵。

需要说明的是，BERT(Bidirectional Encoder Representation fromTransformers)模型是一种预训练模型，可以基于Transformer机制和Attention机制，提供强大的语言表征能力和特征提取能力。对BERT模型进行训练时，无需事先对样本数据进行标注，并能基于较少的样本数据，获得较好的训练效果。

可选地，本发明实施例中的语义特征提取单元基于BERT模型构建。

需要说明的是，上述语义特征提取单元已进行预训练。

可选地，本发明实施例中可以基于BERT-Base模型构建语义特征提取单元，上述语义特征提取单元中Transformer blocks层数可以为12层，隐藏单元的数量可以为768个，多头注意的头数可以为12个。

具体地，将待识别应用程序的隐私政策文本输入语义特征提取单元之后，语义特征提取单元可以对上述隐私政策文本进行语义特征提取，进而可以获取并输出上述隐私政策文本对应的词向量矩阵h。

将隐私政策文本对应的词向量矩阵输入段落分类单元，获取段落分类单元输出的隐私政策文本的段落分类结果。

获取待识别应用软件的隐私政策文本对应的词向量矩阵h之后，可以将h输入段落分类单元。

段落分类单元可以基于h进行softmax计算，获得上述段落为每一预设类型的概率P_cls(y|X)，具体计算公式如下：

P_clS(y|X)＝Softmax(W₂×h+b₁)

其中，y表示概率；X表示预设类型；W₂表示参数矩阵；b₁表示参数向量，维数为13。

需要说明的是，上述预设类型可以包括“业务功能与信息收集”和“其他”；或者，上述预设类型可以包括“业务功能与信息收集”以及“信息共享”、“转让”、“公开披露”、“信息保护”、“信息存储”、“用户权利”、“cookies技术”、“信息收集-征得授权同意的例外”、“信息共享-征得授权同意的例外”、“撤回同意的授权”、“未成年保护”、“隐私政策更新”、“投诉反馈机制”以及“无关文本”中的至少一种。

确定待识别应用软件的隐私政策文本中的段落为每一预设类型的概率之后，可以将概率最高的预设类型，确定为上述段落的类型。

本发明实施例中的段落分类模块，能基于待识别应用软件的隐私政策文本的文本特征和业务功能特征，更准确、更高效地对上述隐私政策文本中的段落进行分类，进而能更准确、更高效地实现对上述隐私政策文本的解析。

基于上述各实施例的内容，提取目标段落中的目标词汇，包括：对目标段落进行预处理，获取预处理后的目标段落。

其中，预处理包括剔除停用词。

具体地，在待识别应用软件的隐私政策文本中确定目标段落之后，可以对上述目标段落进行预处理，去除上述目标段落中的停用词等，从而可以获取预处理后的目标段落。

对预处理后的目标段落进行分词处理，获取目标段落对应的原始词汇集。

需要说明的是，Jieba分词工具是一种Python中文分词组件，可以基于统计词典，构造一个前缀词典，然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图(DAG)，通过动态规划算法，计算得到最大概率路径，也就得到了最终的切分形式。

具体地，获取预处理后的目标段落之后，本发明实施例中可以利用Jieba分词工具对上述预处理后的目标段落进行分词，获取上述目标段落对应的原始词汇集。

基于预设词汇集，在目标段落对应的原始词汇集中提取目标词汇。

具体地，获取上述目标段落对应的原始词汇集之后，可以基于预设词汇集，在上述原始词汇集中提取上述目标词汇。

可选地，若上述原始词汇集中的任一词汇，与预设词汇集中的任一词汇相同或匹配，则可以将上述词汇确定为目标词汇。

需要说明的是，预设词汇集与业务功能信息相关，相应地，目标词汇与业务功能信息相关。预设词汇集可以是基于先验知识和/或实际情况预先确定的。本发明实施例中对上述预设词汇集不作具体限定。

本发明实施例通过对待识别应用软件的隐私政策文本中的目标段落进行剔除停用词等预处理，获得预处理后的目标段落之后，对上述预处理后的目标段落进行分词处理，获得上述目标段落对应的原始词汇集，基于预设词汇集，在上述原始词汇集中提取目标词汇，能更准确、更高效地提取上述目标段落中的目标词汇。

基于上述各实施例的内容，基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域，包括：将目标段落、目标段落中的目标词汇以及隐私政策文本的文本名称输入第一分类模型，获取第一分类模型输出的待识别应用软件所属的行业领域。

其中，第一分类模型是以样本段落、从样本段落中提取到的样本词汇以及样本隐私政策文本的文本名称为样本，以样本应用软件所属的行业领域为样本标签进行训练后得到；样本隐私政策文本为样本应用软件的隐私政策文本；样本段落为样本隐私政策文本中目标类型的段落。

需要说明的是，可以基于上述各实施例的记载，在样本应用软件的样本隐私政策文本中确定样本段落，亦可以基于上述各实施例的记载提取上述样本段落中的样本词汇。本发明实施例中不再赘述。

需要说明的是，样本应用软件所属的行业领域，可以是基于先验知识和/或实际情况预习标注的。

具体地，以样本段落、样本段落中的样本词汇以及样本隐私政策文本的文本名称为样本，以样本应用软件所属的行业领域为样本标签对第一分类模型进行训练，可以获得训练好的第一分类模型。

提取到目标段落中的目标词汇之后，可以将上述目标段落、上述目标词汇以及待识别应用软件的隐私政策文本的文本名称输入上述训练好的第一分类模型。

其中，上述隐私政策文本中包括上述隐私政策的文本名称。上述隐私政策的文本名称可以为“A地图的隐私政策文本”、“B视频的隐私政策文本”或者“C唱吧的隐私政策文本”。

上述训练好的第一分类模型，可以基于上述目标段落、上述目标词汇以及待识别应用软件的隐私政策文本的文本名称，获取并输出待识别应用软件所属的行业领域。

作为一个可选地实施例，第一分类模型，包括：第一特征提取单元、词汇编码单元、第二特征提取单元、第一向量拼接单元和第一结果输出单元。

将目标段落、目标段落中的目标词汇以及隐私政策文本的文本名称输入第一分类模型，获取第一分类模型输出的待识别应用软件所属的行业领域，包括：将目标段落输入第一特征提取单元，由第一特征提取单元对目标段落进行语义特征提取，进而获取第一特征提取单元输出的目标段落对应的第一嵌入向量。

具体地，本发明实施例中的第一特征提取单元可以基于BERT模型构建。

需要说明的是，上述第一特征提取单元已进行预训练。

将目标段落输入上述第一特征提取单元之后，上述第一特征提取单元可以对上述目标段落进行语义特征提取，获取上述目标段落的语义特征向量，作为上述目标段落对应的第一嵌入向量，从而可以输出上述第一嵌入向量。

将目标段落中的目标词汇输入词汇编码单元，由词汇编码单元对目标段落中的目标词汇进行编码，进而获取词汇编码单元输出的目标段落对应的第二嵌入向量。

具体地，将目标段落中的目标词汇输入词汇编码单元之后，词汇编码单元可以通过对上述目标词汇进行编码，从而获得并输出上述目标段落对应的第二嵌入向量。

将隐私政策文本的文本名称输入第二特征提取单元，由第二特征提取单元对隐私政策文本的文本名称进行特征提取，进而获取第二特征提取单元输出的目标段落对应的第三嵌入向量。

具体地，将待识别应用软件的隐私政策文本的文本名称输入第二特征提取单元之后，第二特征提取单元可以对上述文本名称进行预处理，去除上述文本名称中的停用词和预设词，获取预处理后的文本名称。

需要说明的是，上述预设词可以基于先验知识和/或实际情况确定，上述预设词可以包括但不限于“APP”、“应用软件”、“隐私政策”以及“文本”。

第二特征提取单元获得预处理后的文本名称之后，可以对上述预处理后的文本名称进行分词处理，获取分词处理后的文本名称。

需要说明的是，Word2vec模型，是一群用来产生词向量的相关模型，这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。

本发明实施例中的第二特征提取单元可以基于word2vec模型构建，且上述第二特征提取单元已进行预训练。

第二特征提取单元获得分词处理后的文本名称之后，可以对上述分词处理后的文本名称进行特征提取，获取上述分词处理后的文本名称的语义特征，作为目标段落对应的第三嵌入向量，进而可以输出上述第三嵌入向量。

将第一嵌入向量、第二嵌入向量和第三嵌入向量输出第一向量拼接单元，由第一向量拼接单元对第一嵌入向量、第二嵌入向量和第三嵌入向量进行拼接，进而获取第一向量拼接单元输出的目标段落对应的第一特征表示向量。

具体地，获取目标段落对应的第一嵌入向量、第二嵌入向量和第三嵌入向量之后，可以将上述第一嵌入向量、上述第二嵌入向量和上述第三嵌入向量输入第一向量拼接单元。

上述第一向量拼接单元可以对上述第一嵌入向量、上述第二嵌入向量和上述第三嵌入向量进行向量拼接，进而可以将拼接得到的向量，作为目标段落对应的第一特征表示向量进行输出。

将第一特征表示向量输入第一结果输出单元，获取第一结果输出单元输出的待识别应用软件所属的行业领域。

具体的，获取目标段落对应的第一特征表示向量之后，可以将上述第一特征表示向量输入第一结果输出单元。

第一结果输出单元可以基于上述第一特征表示向量进行softmax计算，从而可以基于计算结果确定并输出待识别应用阮籍所属的行业领域。

可选地，第一结果输出单元可以基于上述第一特征表示向量进行softmax计算，从而可以获取待识别应用软件属于每一预设行业领域的概率。

需要说明的是，上述预设行业领域可以包括“电商”、“社交媒体”、“餐饮”、“汽车”、“金融”、“移动支付”、“出行”、“通信”、“保险”、“医疗”、“体育”、“房地产”以及“传媒”。

第一结果输出单元获得待识别应用软件属于每一预设行业领域的概率之后，可以将概率最高的预设行业领域，确定为待识别应用软件所属的行业领域。

本发明实施例中的第一分类模型，能通过对目标段落进行语义特征提取、对目标段落中的目标词汇进行编码、对待识别隐私政策文本的文本名称进行语义特征提取，获取目标段落对应的第一嵌入向量、第二嵌入向量和第三嵌入向量，进而基于上述第一嵌入向量、上述第二嵌入向量和上述第三嵌入向量，确定待识别应用软件属于每一预设行业领域的概率，能更准确、更高效地确定待识别应用软件所属的行业领域。

作为一个可选地实施例，第一分类模型，包括：词句拼接单元、第三特征提取单元、第四特征提取单元、第二向量拼接单元和第二结果输出单元。

将目标段落、目标段落中的目标词汇以及隐私政策文本的文本名称输入第一分类模型，获取第一分类模型输出的待识别应用软件所属的行业领域，包括：将目标段落和目标段落中的目标词汇输入词句拼接单元，由词句拼接单元对目标段落中的句子与句子中的目标词汇进行拼接，进而获取句子的词句拼接结果。

具体的，将目标段落和目标段落中的目标词汇输入词句拼接单元之后，词句拼接单元可以将目标段落中的每一句子，与上述每一句子中包含的目标词汇使用[sep]进行拼接，进而可以获得并输出目标段落中每一句子的词句拼接结果。

需要说明的是，本发明实施例中以句号作为分句符号。

将句子的词句拼接结果输入第三特征提取单元，由第三特征提取单元基于句子的词句拼接结果，获取句子对应的序列之后，基于目标段落中所有句子对应的序列，获取第三特征提取单元输出的目标段落对应的第四嵌入向量。

具体地，本发明实施例中的第三特征提取单元基于BERT模型构建。

需要说明的是，上述第三特征提取单元已进行预训练。

将目标段落中每一句子的词句拼接结果输入上述第三特征提取单元之后，上述第三特征提取单元可以对上述每一句子的词句拼接结果进行特征提取，获取上述每一句子对应的序列[CLS1,CLS2,……]。

上述第三特征提取单元获取目标段落中每一句子对应的序列之后，可以将目标段落中所有句子对应的序列进行相加，并将相加得到的向量，作为目标段落对应的第四嵌入向量，进而可以输出上述第四嵌入向量。

将隐私政策文本的文本名称输出第四特征提取单元，由第四特征提取单元对隐私政策文本的文本名称进行特征提取，进而获取第四特征提取单元输出的目标段落对应的第五嵌入向量。

具体地，将待识别应用软件的隐私政策文本的文本名称输入第四特征提取单元之后，第四特征提取单元可以对上述文本名称进行预处理，去除上述文本名称中的停用词和预设词，获取预处理后的文本名称。

第四特征提取单元获得预处理后的文本名称之后，可以对上述预处理后的文本名称进行分词处理，获取分词处理后的文本名称。

需要说明的是，本发明实施例中的第四特征提取单元可以基于word2vec模型构建，且上述第四特征提取单元已进行预训练。

第四特征提取单元获得分词处理后的文本名称之后，可以对上述分词处理后的文本名称进行特征提取，获取上述分词处理后的文本名称的语义特征，作为目标段落对应的第五嵌入向量，进而可以输出上述第五嵌入向量。

将第四嵌入向量和第五嵌入向量输出第二向量拼接单元，由第二向量拼接单元对第四嵌入向量和第五嵌入向量进行拼接，进而获取第二向量拼接单元输出的目标段落对应的第二特征表示向量。

具体地，获取目标段落对应的第四嵌入向量和第五嵌入向量之后，可以将上述第四嵌入向量和上述第五嵌入向量输入第二向量拼接单元。

上述第二向量拼接单元可以对上述第四嵌入向量和上述第五嵌入向量输进行向量拼接，进而可以将拼接得到的向量，作为目标段落对应的第二特征表示向量进行输出。

将第二特征表示向量输入第二结果输出单元，获取第二结果输出单元输出的待识别应用软件所属的行业领域。

具体的，获取目标段落对应的第二特征表示向量之后，可以将上述第二特征表示向量输入第二结果输出单元。

第二结果输出单元可以基于上述第二特征表示向量进行softmax计算，从而可以基于计算结果确定并输出待识别应用阮籍所属的行业领域。

本发明实施例中的第一分类模型，通过拼接目标段落中的句子以及上述句子中的目标词汇，获取目标段落对应的第四嵌入向量，通过对待识别隐私政策文本的文本名称进行语义特征提取，获取目标段落对应的第五嵌入向量，进而基于上述第四嵌入向量和上述第五嵌入向量，确定待识别应用软件属于每一预设行业领域的概率，能更准确、更高效地确定待识别应用软件所属的行业领域。

作为一个可选地实施例，基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域，包括：将目标词汇输入第二分类模型，获取第二分类模型输出的待识别应用软件属于每一预设行业领域的概率。

其中，第二分类模型基于支持向量机构建，以样本词汇为样本，以样本应用软件所属行业领域为样本标签进行训练后得到；样本词汇从样本段落中提取得到；样本段落为样本应用软件的样本隐私政策文本中目标类型的段落。

需要说明的是，支持向量机(Support Vector Machine，SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalizedlinear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)，并在求解系统中加入了正则化项以优化结构风险(structural risk)，是一个具有稀疏性和稳健性的分类器，是常见的核学习(kernel learning)方法之一。

具体地，本发明实施例中基于SVM构建第二分类模型，并基于样本词汇和样本应用软件所属行业领域的概率，对基于SVM构建的第二分类模型进行训练，可以获得训练好的第二分类模型。

在对上述基于支持向量机构建的第二分类模型进行训练的过程中，可以首先基于预设词汇序列，将上述样本词汇转换为数值化文本，再基于上述数值化文本，对上述第二分类模型进行训练。

例如，在样本词汇包括“定位”、“搜索”、“出行”和“团购”，上述预设词汇序列[“定位”，“搜索”，“出行”，“团购”，“外卖预定”，“酒旅预定”，“出行用车”，“共享单车”，“票务”，“汇款”]的情况下，基于上述预设词汇序列，可以根据样本词汇是否出现赋值1或0，将样本词汇转换为one-hot编码方式，即样本词汇“定位”＝[1,0,0,0,0,0,0,0,0,0]；样本词汇“搜索”＝[0,1,0,0,0,0,0,0,0,0]；样本词汇“出行”＝[0,0,1,0,0,0,0,0,0,0]；样本词汇“团购”＝[0,0,0,1,0,0,0,0,0,0]。

需要说明的是，上述预设词汇序列可以根据先验知识和/或实际情况预先确定。本发明实施例中对上述预设词汇序列不作具体限定。

提取到上述目标段落中的目标词汇之后，可以将上述目标词汇输入上述训练好的第二分类模型。

上述训练好的第二分类模型可以基于上述目标词汇，获取并输出待识别应用软件所属行业领域的概率。

本发明实施例通过将目标段落中的目标词汇输入基于支持向量机构建的第二分类模型，获取上述第二分类模型输出的待识别应用软件所属的行业领域，能基于目标段落中的目标词汇，更准确、更高效地确定待识别应用软件所属的行业领域。

图2是本发明提供的行业领域识别装置的结构示意图。下面结合图2对本发明提供的行业领域识别装置进行描述，下文描述的行业领域识别装置与上文描述的本发明提供的行业领域识别方法可相互对应参照。如图2所示，文本获取模块201、段落分类模块202、词汇提取模块203、领域识别模块204。

文本获取模块201，用于获取待识别应用软件的隐私政策文本；

段落分类模块202，用于对隐私政策文本中的段落进行分类，根据段落分类结果，将隐私政策文本中目标类型的段落确定为目标段落；

词汇提取模块203，用于提取目标段落中的目标词汇；

领域识别模块204，用于基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域。

具体地，文本获取模块201、段落分类模块202、词汇提取模块203、领域识别模块204电连接。

可选地，段落分类模块202可以具体用于将隐私政策文本输入段落分类模型，获取段落分类模型输出的隐私政策文本的段落分类结果；其中，段落分类模型是以样本应用软件的样本隐私政策文本为样本，以样本隐私政策文本的段落分类结果为样本标签进行训练后得到；段落分类模型用于基于隐私政策文本的语义特征以及段落在隐私政策文本中的位置信息，获取隐私政策文本的段落分类结果。

可选地，领域识别模块204可以具体用于将目标段落、目标段落中的目标词汇以及隐私政策文本的文本名称输入第一分类模型，获取第一分类模型输出的待识别应用软件所属的行业领域；其中，第一分类模型是以样本段落、从样本段落中提取到的样本词汇以及样本隐私政策文本的文本名称为样本，以样本应用软件所属的行业领域为样本标签进行训练后得到；样本隐私政策文本为样本应用软件的隐私政策文本；样本段落为样本隐私政策文本中目标类型的段落。

领域识别模块204还可以具体用于将目标段落中的目标词汇输入第二分类模型，获取第二分类模型输出的待识别应用软件所属的行业领域；其中，第二分类模型基于支持向量机构建，以样本词汇为样本，以样本应用软件所属的行业领域为样本标签进行训练后得到；样本词汇从样本段落中提取得到；样本段落为样本应用软件的样本隐私政策文本中目标类型的段落。

可选地，词汇提取模块203可以具体用于对目标段落进行预处理，获取预处理后的目标段落；对预处理后的目标段落进行分词处理，获取目标段落对应的原始词汇集；基于预设词汇集，在目标段落对应的原始词汇集中提取目标词汇；其中，预处理包括剔除停用词。

本发明实施例中的行业领域识别装置，通过对待识别应用软件的隐私政策文本中的段落进行分类，根据段落分类结果，将上述隐私政策文本中目标类型的段落确定为目标段落，并提取上述目标段落中的目标词汇之后，基于上述目标词汇，确定待识别应用软件所属的行业领域，能提高待识别应用软件的隐私政策文本的解析效率和解析准确率，能基于待识别应用软件的隐私政策文本更准确、更高效的识别待识别应用软件所属的行业领域，能提高用户感知。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行行业领域识别方法，该方法包括：获取待识别应用软件的隐私政策文本；对隐私政策文本中的段落进行分类，根据段落分类结果，将隐私政策文本中目标类型的段落确定为目标段落；提取目标段落中的目标词汇；基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的行业领域识别方法，该方法包括：获取待识别应用软件的隐私政策文本；对隐私政策文本中的段落进行分类，根据段落分类结果，将隐私政策文本中目标类型的段落确定为目标段落；提取目标段落中的目标词汇；基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的行业领域识别方法，该方法包括：获取待识别应用软件的隐私政策文本；对隐私政策文本中的段落进行分类，根据段落分类结果，将隐私政策文本中目标类型的段落确定为目标段落；提取目标段落中的目标词汇；基于目标段落中的目标词汇，确定待识别应用软件所属的行业领域。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行业领域识别方法，其特征在于，包括：

获取待识别应用软件的隐私政策文本；

提取所述目标段落中的目标词汇；

2.根据权利要求1所述的行业领域识别方法，其特征在于，所述对所述隐私政策文本中的段落进行分类，包括：

3.根据权利要求1所述的行业领域识别方法，其特征在于，所述基于所述目标段落中的目标词汇，确定所述待识别应用软件所属的行业领域，包括：

4.根据权利要求3所述的行业领域识别方法，其特征在于，所述第一分类模型，包括：第一特征提取单元、词汇编码单元、第二特征提取单元、第一向量拼接单元和第一结果输出单元；

5.根据权利要求3所述的行业领域识别方法，其特征在于，所述第一分类模型，包括：词句拼接单元、第三特征提取单元、第四特征提取单元、第二向量拼接单元和第二结果输出单元；

6.根据权利要求1所述的行业领域识别方法，其特征在于，所述基于所述目标段落中的目标词汇，确定所述待识别应用软件所属的行业领域，包括：

7.根据权利要求2所述的行业领域识别方法，其特征在于，所述段落分类模型包括：语义特征提取单元和段落分类单元；

8.根据权利要求1所述的行业领域识别方法，其特征在于，所述提取所述目标段落中的目标词汇，包括：

对所述目标段落进行预处理，获取预处理后的目标段落；

其中，所述预处理包括剔除停用词。

9.一种行业领域识别装置，其特征在于，包括：

文本获取模块，用于获取待识别应用软件的隐私政策文本；

词汇提取模块，用于提取所述目标段落中的目标词汇；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述行业领域识别方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述行业领域识别方法。