CN112446204A

CN112446204A - 一种文档标签的确定方法、系统及计算机设备

Info

Publication number: CN112446204A
Application number: CN202011415108.9A
Authority: CN
Inventors: 刘俊辰; 陈奇宁; 尤旸
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-05

Abstract

本发明提供的一种文档标签的确定方法、系统及计算机设备，方法包括：标签抽取步骤，抽取待抽取文档中不同标签类型的候选标签；标签处理步骤，根据预设规则对不同标签类型的候选标签及其在待抽取文档中的位置赋予相应的分数；标签确定步骤，对待抽取文档中不同标签类型的候选标签和其位置分数进行累加，统计出所有候选标签的最终得分数，根据最终得分数对所有候选标签进行排序，并根据预设阈值和排序结果确定待抽取文档中的目标标签。该方法采用标签抽取技术对关键词和一些特殊词进行抽取，使得抽取的标签更有价值，屏蔽了很多词频很高却无实际意义的词汇，从而免去了人工复检等工作，提高了抽取的准确性和工作效率。

Description

一种文档标签的确定方法、系统及计算机设备

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种文档标签的确定方法、系统及计算机设备。

背景技术

如今，很多企业都有大量的文档文本数据，包括产品手册，商业合同，部署文档等等专业性很强的文档。而为了便于统一管理，大多数公司将这些文档数据集中起来，并且提供查询、推荐等智能化服务。为方便查询、推荐等服务，通常情况下利用文档名或文档标题来代表文档，而文档名或文档标题中携带的信息是有限的，很多文档的一些重要信息并没有在文档名或文档标题中体现出来，这就会给查询、推荐等服务带来一定的局限性。文档标签的抽取是通过自然语言处理(NLP)技术从文档中抽取一条或几条文档的重要信息，这些信息是用户真正关注的内容，包括实体、关键短语等，利用这些信息可以使查询、推荐等服务更加智能化，更加准确，从而提升效率。

现有的技术大部分都是直接对文档进行关键词提取。如基于TF-IDF(词频-逆文档频率)，将词频和逆文档频率的乘积作为单词的得分，选取得分较高的几个单词作为关键词。基于TextRank的方法，利用局部词汇关系，即共现窗口，构建候选关键词图，采用共现关系构造任两点之间的边，根据公式迭代计算各节点的权重，直至收敛。最后，对节点权重进行排序，选取排序靠前的几个词作为关键词。

但就现有技术而言，在语料质量不高的情况下，采用现有技术的效果往往不太理想。而且，只依赖于词频或词语共现来判断词语的重要程度在有些情况下不够准确。即使在提取之前已经进行了去停用词操作，提取出的关键词仍然可能是一些出现较多却无明显意义的词汇，所以往往需要在提取后再进行人工筛选。此外，采用现有技术不能有针对性的对一些关注的词语类型(如产品名称，部门名称，文档类型等等)进行集中抽取。

发明内容

为解决现有技术中关键词抽取不准确以及无法有针对性的对一些特殊的词语进行抽取的技术问题，本发明提供了一种文档标签的确定方法，采用标签抽取技术对关键词和一些特殊词进行抽取，使得抽取的标签更有价值，屏蔽了很多词频很高却无实际意义的词汇，从而免去了人工复检等工作，提高了抽取的准确性和工作效率。

本发明提供了一种文档标签的确定方法，包括如下步骤：

标签抽取步骤，抽取待抽取文档中不同标签类型的候选标签；

标签处理步骤，根据预设规则对不同标签类型的所述候选标签及其在所述待抽取文档中的位置赋予相应的分数；

标签确定步骤，对所述待抽取文档中不同标签类型的所述候选标签的分数和其位置分数进行累加，统计出所有所述候选标签的最终得分数，根据所述最终得分数对所有所述候选标签进行排序，并根据预设阈值和排序结果确定所述待抽取文档中的目标标签。

上述的文档标签的确定方法，其中，所述标签确定步骤中统计出所有所述候选标签的最终得分数的方法，具体包括：

当所述候选标签属于单一标签类型时，以此标签类型不同位置的相同所述候选标签的分数和其位置分数的累加和作为最终得分数；

当所述候选标签属于两种以上标签类型时，分别计算一种标签类型的所述候选标签的第一得分数，所述第一得分数等于此标签类型不同位置的相同所述候选标签的位置分数和不同标签类型不同位置的相同所述候选标签的分数的累加和，以不同标签类型的相同所述候选标签的所述第一得分数的累加和作为最终得分数。

上述的文档标签的确定方法，其中，所述标签抽取步骤中所述候选标签的标签类型包括：实体标签、名词短语标签及历史标签。

上述的文档标签的确定方法，其中，所述标签抽取步骤中抽取待抽取文档中的实体标签的方法，具体包括：

采用基于词典的方法，和/或基于深度学习神经网络的方法抽取所述待抽取文档中的实体标签。

上述的文档标签的确定方法，其中，所述标签抽取步骤中所述实体标签包括：文档标题实体、文档内容中的产品实体、部门实体、作者实体及文档类型实体。

上述的文档标签的确定方法，其中，所述标签抽取步骤中抽取待抽取文档中名词短语标签的方法，具体包括：

根据Spacy模型解析所述待抽取文档的依存关系，并识别所述待抽取文档中的实体；

基于所述依存关系，抽取所述待抽取文档中的名词短语；

对token数大于1的所述名词短语进行整合；

将识别得到的所述实体和整合后的所述名词短语进行合并，确定所述待抽取文档中的所述名词短语标签。

上述的文档标签的确定方法，其中，所述标签抽取步骤中抽取待抽取文档中历史标签的方法，具体包括：

将所述待抽取文档与历史标签数据库进行匹配，若匹配成功，则从所述待抽取文档中抽取所述历史标签；

判断所述历史标签中是否包括上下文边界验证失败的所述历史标签，若是，则过滤掉上下文边界验证失败的所述历史标签。

上述的文档标签的确定方法，其中，还包括：

文本抽取步骤，根据所述目标标签及其在所述待抽取文档中的位置，抽取所述目标标签所在的上下文。

本发明还提供一种实现如上所述的文档标签的确定方法的系统，包括：

标签抽取单元，用于抽取待抽取文档中不同标签类型的候选标签；

标签处理单元，用于根据预设规则对不同标签类型的所述候选标签及其在所述待抽取文档中的位置赋予相应的分数；

标签确定单元，用于对所述待抽取文档中不同标签类型的所述候选标签的分数和其位置分数进行累加，统计出所有所述候选标签的最终得分数，根据所述最终得分数对所有所述候选标签进行排序，并根据预设阈值和排序结果确定所述待抽取文档中的目标标签。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的文档标签的确定方法。

本发明的技术效果或优点：

本发明提供的一种文档标签的确定方法，抽取待抽取文档中不同标签类型的候选标签，根据预设规则对不同标签类型的候选标签及其在待抽取文档中的位置赋予相应的分数，对待抽取文档中不同标签类型的候选标签的分数和其位置分数进行累加，统计出所有候选标签的最终得分数，根据最终得分数对所有候选标签进行排序，并根据预设阈值和排序结果确定待抽取文档中的目标标签。通过上述方式，该方法采用标签抽取技术对关键词和一些特殊词进行抽取，使得抽取的标签更有价值，屏蔽了很多词频很高却无实际意义的词汇，从而免去了人工复检等工作，提高了抽取的准确性和工作效率。

附图说明

图1为本发明实施例提供的一个文档标签的确定方法的流程图；

图2为本发明实施例提供的一个实现文档标签的确定方法的系统的结构示意图；

图3为本发明实施例提供的一个电子设备的框架图；

以上图中：

10、总线；11、处理器；12、存储器；13、通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。

本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

下面结合具体实施例及说明书附图，对本发明的技术方案作详细说明。

本实施例提供一种文档标签的确定方法，包括如下步骤：

本实施例提供的一种文档标签的确定方法，该方法采用标签抽取技术对关键词和一些特殊词进行抽取，使得抽取的标签更有价值，屏蔽了很多词频很高却无实际意义的词汇，从而免去了人工复检等工作，提高了抽取的准确性和工作效率。

具体地说，参考图1，图1为本发明实施例提供的一个文档标签的确定方法的流程图。本发明提供了一种文档标签的确定方法，包括：

标签抽取步骤S1，抽取待抽取文档中不同标签类型的候选标签。

在本实施例中，所述标签抽取步骤S1中所述候选标签的标签类型包括：实体标签、名词短语标签及历史标签。

在本实施例中，其中，所述标签抽取步骤S1中抽取待抽取文档中的实体标签的方法，具体包括：

上述的实体标签包括：文档标题实体、文档内容中的产品实体、部门实体、作者实体及文档类型实体。其中，文档内容中的文档类型实体包括部署文档、白皮书和使用手册等。

在具体应用中，若待抽取文档中无大量的标注数据，则采用基于词典的方法抽取待抽取文档中的实体标签。具体地说，对想要提取的各种类型的实体进行整理归纳，形成词典，利用词典匹配对待抽取文档中的实体标签进行抽取。若存在可用的标注数据集，则采用CRF、LSTM+CRF、Bert+CRF等序列标注模型对待抽取文档中的实体进行识别，从而抽取实体标签。

本实施例中通过引入实体识别进行实体标签抽取，可以有针对性的抽取想要的实体类型，使得抽取结果更加准确。

在本实施例中，所述标签抽取步骤S1中抽取待抽取文档中名词短语标签的方法，具体包括：

基于所述依存关系，抽取所述待抽取文档中的名词短语；

对token数大于1的所述名词短语进行整合；

在本实施例中，当确定待抽取文档中的名词短语标签后，根据名词短语的长度，过滤掉2-7字以内的名词短语，并过滤掉通用词和脏词。

在具体应用中，抽取待抽取文档中的名词短语中的名词短语具体包括常规名词短语和包含特殊动词结构的名词短语。对token数大于1的所述名词短语进行整合具体地说，对token数大于1的所述名词短语进行头尾整合。将识别得到的所述实体和整合后的所述名词短语进行合并具体地说，若整合后的名词短语中存在与识别得到的实体相同的实体，将其合并为一个名词短语，从而确定待抽取文档中的名词短语标签。

本实施例中通过引入名词短语抽取技术抽取待抽取文档中的名词短语标签，可以避免将一些组合型名词短语拆散，例如普通关键词抽取会将“知识图谱”拆成“知识”和“图谱”两个词，而名词短语抽取技术则会将其视为一个整体，提高了抽取的准确性。

在本实施例中，所述标签抽取步骤S1中抽取待抽取文档中历史标签的方法，具体包括：

本实施例中通过引入历史标签，进一步提高了抽取的准确性。

标签处理步骤S2，根据预设规则对不同标签类型的所述候选标签及其在所述待抽取文档中的位置赋予相应的分数。

在具体应用中，可按如下规则对不同标签类型的候选标签及其在待抽取文档中的位置赋予相应的分数：

(1)赋予实体标签分数

默认抽取到的既定实体类型，设置其分数为2，若实体长度在4个字以上，则设置其分数为4，若实体长度小于或等于2，则设置其分数为1。

(2)赋予名词标签分数

若名词短语的长度在4个字以上，则设置其分数为2，否则，设置其分数为1。

(3)赋予历史标签分数

对匹配上的历史标签，设置其分数为4。

(4)赋予标签位置分数

由于抽取到的实体标签、名词短语标签和历史标签同时会携带标签的位置偏移量(即标签在待抽取文档中的位置信息)。

对于从文档名称、文档标题及文档内容前200字等重要位置抽取到的标签，设置其位置分数为2，其余位置抽取到的标签，设置其位置分数为1。其中，文档重要位置可根据实际情况进行设置。

本实施例中通过位置加权得分可以对重要位置的词给予更多的关注度。

标签确定步骤S3，对所述待抽取文档中不同标签类型的所述候选标签的分数和其位置分数进行累加，统计出所有所述候选标签的最终得分数，根据所述最终得分数对所有所述候选标签进行排序，并根据预设阈值和排序结果确定所述待抽取文档中的目标标签。

在本实施例中，所述标签确定步骤中统计出所有所述候选标签的最终得分数的方法，具体包括：

在具体应用中，当待抽取文档的字数在1000字以上时，设置预设阈值为5，否则设置预设阈值为3，根据排序结果，抽取超过预设阈值排序前10位的标签作为最终的目标标签。若根据所设置的预设阈值未抽取到相应的标签，则不再根据预设阈值确定目标标签，根据排序结果，抽取排序前3位的标签作为最终的目标标签。

本实施例中相同标签的分数累加也同样将普通关键抽取方法中的词频信息考虑进来，在整篇文档中出现次数越高的词有着更高的重要性。

文本抽取步骤S4，根据所述目标标签及其在所述待抽取文档中的位置，抽取所述目标标签所在的上下文。

在具体应用中，根据目标标签及目标标签在待抽取文档中的位置，抽取目标标签所在的上下文，并控制上下文前后长度在50字。

本发明实施例还提供一种实现如上所述的文档标签的确定方法的系统，参考图2，包括：

本实施例提供的一种实现文档标签的确定方法的系统，采用标签抽取技术对关键词和一些特殊词进行抽取，使得抽取的标签更有价值，屏蔽了很多词频很高却无实际意义的词汇，从而免去了人工复检等工作，提高了抽取的准确性和工作效率。

参考图3，本实施例还提供一种计算机设备，包括存储器12、处理器11以及存储在所述存储器12上并可在所述处理器11上运行的计算机程序，所述处理器11执行所述计算机程序时实现如上所述的文档标签的确定方法。

设备可以包括处理器11以及存储有计算机程序指令的存储器12。具体地，上述处理器11可以包括中央处理器(CPU)，或者特定集成电路(Application SpecificIntegrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器12可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器12可在数据处理装置的内部或外部。在特定实施例中，存储器12是非易失性(Non-Volatile)存储器。在特定实施例中，存储器12包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器12可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器11所执行的可能的计算机程序指令。

处理器11通过读取并执行存储器12中存储的计算机程序指令，以实现上述实施例中的任意一种文档标签的确定方法。

在其中一些实施例中，计算机设备还可包括通信接口13和总线10。其中，参考图3，处理器11、存储器12、通信接口13通过总线10连接并完成相互间的通信。通信接口13用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口13还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线10包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线10包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线10可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线10可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的文档标签的确定方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种文档标签的确定方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文档标签的确定方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的文档标签的确定方法，其特征在于，所述标签确定步骤中统计出所有所述候选标签的最终得分数的方法，具体包括：

3.根据权利要求1所述的文档标签的确定方法，其特征在于，所述标签抽取步骤中所述候选标签的标签类型包括：实体标签、名词短语标签及历史标签。

4.根据权利要求3所述的文档标签的确定方法，其特征在于，所述标签抽取步骤中抽取待抽取文档中的实体标签的方法，具体包括：

5.根据权利要求4所述的文档标签的确定方法，其特征在于，所述标签抽取步骤中所述实体标签包括：文档标题实体、文档内容中的产品实体、部门实体、作者实体及文档类型实体。

6.根据权利要求3所述的文档标签的确定方法，其特征在于，所述标签抽取步骤中抽取待抽取文档中名词短语标签的方法，具体包括：

基于所述依存关系，抽取所述待抽取文档中的名词短语；

对token数大于1的所述名词短语进行整合；

7.根据权利要求3所述的文档标签的确定方法，其特征在于，所述标签抽取步骤中抽取待抽取文档中历史标签的方法，具体包括：

8.根据权利要求1所述的文档标签的确定方法，其特征在于，还包括：

9.一种实现如权利要求1至8中任一项所述的文档标签的确定方法的系统，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的文档标签的确定方法。