CN107918667B

CN107918667B - 文本标签词的生成方法、系统及装置

Info

Publication number: CN107918667B
Application number: CN201711213971.4A
Authority: CN
Inventors: 尹越
Original assignee: Hangzhou Youzan Technology Co ltd
Current assignee: Hangzhou Youzan Technology Co ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2020-09-04
Anticipated expiration: 2037-11-28
Also published as: CN107918667A

Abstract

本发明公开了一种文本标签词的生成方法、系统及装置，其中方法包括：提取文本中的标签词，根据提取的标签词，以及预设的标签词关系，生成相互关联的分组标签词；进而按照各个分组标签词之间的关联关系，对分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词，得到组合型标签词；最后根据组合型标签词以及预设的标签词关系，在文本中生成映射标签词。本发明提供的文本标签词的生成方法、系统以及装置，可操作性强，能够快速、独立地根据实际需求，为文本生成相应的标签词，无需专业人员介入。

Description

文本标签词的生成方法、系统及装置

技术领域

本发明涉及文本分类技术领域，特别涉及一种文本标签词的生成方法、系统及装置。

背景技术

现有的对于一段文本，生成标签词的主要方法是：首先对文本进行分词，然后利用分类算法，将文本划分为某一个类别，从而为这段文本生成对应的类别标签词。

这种方法对操作人员的专业度要求较高，对于非专业人员来讲，很难快速、独立的根据实际需求，为一类文本生成相应的标签词。

发明内容

基于此，本发明提供了一种文本标签词的生成方法、系统及装置，通过向词典中添加标签词以及标签词之间关系，就可以快速为文本标注上满足需求的标签词，方法简单，可操作性强。利用本发明提供的文本标签词的生成方法及系统，非技术人员可快速独立的根据实际需求，为文本生成相应的标签词，无需专业人员介入。

本发明提供的文本标签词的生成方法，包括以下步骤：

提取文本中的标签词；

根据提取的所述标签词，以及预设的标签词关系，生成相互关联的分组标签词；

按照各个所述分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词；

根据所述组合型标签词以及所述预设的标签词关系，在文本中生成映射标签词。

作为一种可实施方式，在提取文本中的标签词之前，还包括以下步骤：

根据文本内容，在标签词词典中添加标签词和标签词关系。

作为一种可实施方式，提取文本中的标签词，包括以下步骤：

利用标签词词典中新添加的标签词，对文本进行分词，提取文本中的标签词。

作为一种可实施方式，根据提取的所述标签词，以及预设的标签词关系，依次生成相互关联的分组标签词，包括以下步骤：

根据提取的所述标签词，以及所述预设的标签词关系，生成上层标签词；

根据提取的所述标签词、生成的上层标签词，以及所述预设的标签词关系，生成同义标签词；

根据提取的所述标签词、生成的上层标签词、生成的同义标签词，以及所述预设的标签词关系，生成修饰标签词。

作为一种可实施方式，按照分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词，包括以下步骤：

根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；

根据各组之间的关联关系，将所有能够关联起来的分组进行关联；

根据分组关联结果，在预设的标签词词典中查找被本文完全覆盖的标签词，得到所述组合型标签词。

本发明提供的文本标签词的生成系统，包括标签词提取模块、标签词分组模块、标签词聚合模块以及标签词生成模块；

所述标签词提取模块，用于提取文本中的标签词；

所述标签词分组模块，用于根据提取的所述标签词，以及预设的标签词关系，生成相互关联的分组标签词；

所述标签词聚合模块，用于按照各个所述分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词；

所述标签词生成模块，用于根据所述组合型标签词以及所述预设的标签词关系，在文本中生成映射标签词。

作为一种可实施方式，本发明的文本标签词的生成系统，还包括添加模块；

所述添加模块，用于根据文本内容，在词典中添加标签词和标签词关系。

作为一种可实施方式，所述标签词分组模块包括上层标签词生成单元、同义标签词生成单元、以及修饰标签词生成单元；

所述上层标签词生成单元，用于根据提取的所述标签词，以及所述预设的标签词关系，生成上层标签词；

所述同义标签词生成单元，用于根据提取的所述标签词、生成的上层标签词，以及所述预设的标签词关系，生成同义标签词；

所述修饰标签词生成单元，用于根据提取的所述标签词、生成的上层标签词、生成的同义标签词，以及所述预设的标签词关系，生成修饰标签词。

作为一种可实施方式，所述标签词聚合模块包括分组单元、关联单元以及查找单元；

所述分组单元，用于根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；

所述关联单元，用于根据各组之间的关联关系，将所有能够关联起来的分组进行关联；

所述查找单元，用于根据分组关联结果，在预设的标签词词典中查找被本文完全覆盖的标签词，得到所述组合型标签词。

本发明提供的文本标签词的生成装置，包括存储器以及连接所述存储器的处理器；

所述处理器用于提取文本中的标签词，并根据提取的所述标签词，以及存储器中预设的标签词关系，生成相互关联的分组标签词；按照各个所述分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词；根据所述组合型标签词以及所述预设的标签词关系，在文本中生成映射标签词。

本发明相比于现有技术的有益效果在于：

本发明提供的文本标签词的生成方法、系统以及装置，通过提取文本中的标签词，根据提取的标签词，以及预设的标签词关系，生成相互关联的分组标签词；进而按照各个分组标签词之间的关联关系，对分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词，得到组合型标签词；最后根据组合型标签词以及预设的标签词关系，在文本中生成映射标签词。其可操作性强，能够快速、独立地根据实际需求，为文本生成相应的标签词，无需专业人员介入。

附图说明

图1为本发明实施例一提供的文本标签词的生成方法的流程示意图；

图2为本发明另一实施例提供的文本标签词的生成方法的流程示意图；

图3为本发明实施例二提供的文本标签词的生成系统的结构示意图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

参见图1，本发明实施例一提供了一种文本标签词的生成方法，包括以下步骤：

S100，提取文本中的标签词。

标签词词典中存储有标签词和标签词关系。在上述步骤S100提取文本中的标签词之前，还可以包括以下步骤：根据文本内容，在标签词词典中添加标签词和标签词关系。标签词和标签词关系可以存储在一个词典中，也可以位于不同的词典中，例如，标签词添加在标签词词典中，标签词关系则添加在标签词关系词典中。

本实施例，首先需要向预先设置的词典中添加目标标签词以及标签词关系，已明确生成的标签的要求或者期望。具体的，可以利用标签词词典中新添加的标签词，对文本进行分词，从而提取文本中的标签词。

S200，根据提取的标签词，以及预设的标签词关系，生成相互关联的分组标签词。

提取的标签词可能会有多个，基于原始提取的标签词，再根据预设的标签词关系，例如上层关系、同义关系、或修饰关系等等，可以生成多个相互关联的分组标签词。

具体地，作为一种可实施方式，步骤S200可以通过以下步骤来实现：

S210，根据提取的标签词，以及预设的标签词关系，生成上层标签词；

S220，根据提取的标签词、生成的上层标签词，以及预设的标签词关系，生成同义标签词；

S230，根据提取的标签词、生成的上层标签词、生成的同义标签词，以及预设的标签词关系，生成修饰标签词。

一个原始的标签词与其上层标签词对应为一组，同理，一个原始的标签词与其同义标签词对应为一组，一个原始的标签词与其修饰标签词对应为一组，这样便可生成相互关联的分组标签词。

此处需要说明的是，根据文本内容，实际预设的标签词关系不局限于上述三种，可能还会有其他标签词关系，此处不一一阐述。

S300，按照各个分组标签词之间的关联关系，对分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词，得到组合型标签词。

各个分组标签词之间存在着相互交叉的关联关系，例如，1号分组标签词中包括A和a，A是a的上层标签词，2号分组标签词中包括B和b，B是b的上层标签词，同时，B又是A的修饰标签词，这样通过修饰标签词就可以将1号分组标签词合2号分组标签词关联起来，以此类推，对分组标签词进行聚合。

此处以修饰标签词进行关联，也可以以其他标签词进行关联。

具体地，作为一种可实施方式，步骤S300可以通过以下步骤来实现：

S310，根据标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；

S320，根据各组之间的关联关系，将所有能够关联起来的分组进行关联；

S330，根据分组关联结果，在文本中查找能够完全覆盖分组关联结果的标签词，得到组合型标签词。

S400，根据组合型标签词以及预设的标签词关系，在文本中生成映射标签词。

本实施例提供的文本标签词的生成方法，方法简单，可操作性强，可快速、独立地根据实际需求，为文本生成相应的标签词，无需专业人员介入。

下面以一段老师对学生的评语，希望能够给该评语标注上对学生评价以及后续对学生的鼓励措施变迁的需求标签词，作为实例，对本发明的实现过程进行说明：

文本：“小a平时考试成绩一直很好，积极帮助同学”；

标签词词典：

{"name":"小a"}；

{"name":"考试成绩"}；

{"name":"很好"}；

{"name":"学生学习优秀"}；

字段解释：

name：这个标签词本身的文本内容；

标签词关系词典：

{"left_name":"学生","rel":"rel_super","right_name":"小a"}；

{"left_name":"学习","rel":"rel_super","right_name":"考试成绩"}；

{"left_name":"学习","rel":"rel_super","right_name":"考试水品"}；

{"left_name":"优秀","rel":"rel_same","right_name":"很好"}；

{"left_name":"优秀","rel":"rel_same","right_name":"优异"}；

{"left_name":"学习","rel":"rel_modify","right_name":"学生"}；

{"left_name":"优秀","rel":"rel_modify","right_name":"学习"}；

{"left_name":"给予奖学金","rel":"rel_map","right_name":"学生学习优秀"}；

字段解释：

left_name：本条标签词关系中，位于左侧的标签词的文本内容；

rel：本条标签词关系中，左右两个标签词之间具体是什么关系；

right_name：本条标签词关系中，位于右侧的标签词的文本内容；

标签词关系解释：

rel_super：说明左侧标签词是右侧标签词的上层标签词。比如，上例中的“学生”，是“小a”这个具体学生的一个泛化概念，所以是上层标签词。

rel_same：说明左侧标签词和右侧标签词是同义词关系。比如，上例中的“很好”，“优异”，都是“优秀”的同义词。

rel_modify：说明左侧标签词和右侧标签词是修饰关系。比如，上例中的“学习”可以修饰“学生”，“优秀”可以修饰“学习”。

参见图2，具体处理步骤如下：

S10：提取在文本中出现的标签词；

利用标签词词典中添加的标签词，对文本进行分词，可以提取出原始文本的标签词如下：

0:["小a"]；

1:["考试成绩"]；

2:["很好"]；

S20：根据上面步骤生成的标签词，利用标签词关系词典中的rel_super关系，推理出上层标签词如下：

0:["小a",上层标签词:"学生"]；

1:["考试成绩",上层标签词:"学习"]；

2:["很好"]；

S30：根据上面步骤生成的标签词，利用标签词关系词典中的rel_same关系，推理出同义标签词如下：

0:["小a",上层标签词:"学生"]；

1:["考试成绩",上层标签词:"学习"]；

2:["很好",同义词标签词:优秀]；

S40：根据上面步骤生成的标签词，利用标签词关系词典中的rel_modify关系，推理出可以修饰的标签词如下：

0:["小a",上层标签词:"学生"]；

1:["考试成绩",上层标签词:"学习",修饰:"学生"]；

2:["很好",同义词标签词:优秀,修饰:"学习"]；

S50：根据上面步骤生成的标签词，得到因为修饰标签词而关联起来的标签词分组如下：

[0,1]：因为1号组的"学习"可以修饰"学生"，而“学生”存在于0号组，所以0、1号组可以关联起来；

[1,2]：因为2号组的"优秀"可以修饰"学习"，而“学习”存在于1号组，所以1，2号组可以关联起来；

S60：根据上面步骤生成的标签词，以及分组之间的关联关系，将所有可以关联起来的分组关联起来：

[0,1,2]：因为0，1号组有关联关系，1，2号组有关联关系，所以[0,1,2]号组都有关联关系；

S70：利用S50、S60生成的分组关联关系，在标签词词典中，寻找文本上可以完全覆盖分组的组合型标签词如下：

"学生学习优秀"：这是一个组合型的标签词，其中三个子标签词“学生”，“学习”，“优秀”，分别在分组0，1，2中出现，完全覆盖了步骤六中生成的[0,1,2]的关联分组，所以,"学生学习优秀",就是本步骤中所生成的标签词；

S80：根据上面步骤生成的标签词，利用标签词关系词典中的rel_map关系，推理出映射标签词如下：

"给予奖学金"：因为“学生学习优秀”和“给予奖学金”之间有rel_map关系，所以本步骤可以推理出标签词“给予奖学金”；

最终，对于给定的“小a平时考试成绩一直很好，积极帮助同学”的文本，生成了“学生学习优秀”这样的评价类型的标签词，以及“给予奖学金”这样的决定对学生采取什么鼓励措施的标签词。

基于同一发明构思，本发明实施例二还提供了一种文本标签词的生成系统，该系统与上述文本标签词的生成方法的原理相同，该系统的实现可参照上述方法的实现过程实施，此处不再冗述。

参见图3，本发明实施例二提供的文本标签词的生成系统，包括标签词提取模块100、标签词分组模块200、标签词聚合模块300以及标签词生成模块400。

具体地，标签词提取模块100用于提取文本中的标签词；

标签词分组模块200用于根据提取的标签词，以及预设的标签词关系，生成相互关联的分组标签词；

标签词聚合模块300用于按照各个分组标签词之间的关联关系，对分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词，得到组合型标签词；

标签词生成模块400用于根据组合型标签词以及预设的标签词关系，在文本中生成映射标签词。

进一步地，本实施例提供的文本标签词的生成系统，还包括添加模块，添加模块用于根据文本内容，在词典中添加标签词和标签词关系。

具体地，标签词分组模块200包括上层标签词生成单元、同义标签词生成单元、以及修饰标签词生成单元；

上层标签词生成单元用于根据提取的标签词，以及预设的标签词关系，生成上层标签词；

同义标签词生成单元用于根据提取的标签词、生成的上层标签词，以及预设的标签词关系，生成同义标签词；

修饰标签词生成单元用于根据提取的标签词、生成的上层标签词、生成的同义标签词，以及预设的标签词关系，生成修饰标签词。

具体地，标签词聚合模块300包括分组单元、关联单元以及查找单元；

分组单元用于根据标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；

关联单元用于根据各组之间的关联关系，将所有能够关联起来的分组进行关联；

查找单元用于根据分组关联结果，在预设的标签词词典中查找被本文完全覆盖的标签词，得到组合型标签词。

基于同一发明构思，本发明实施例三还提供了一种文本标签词的生成装置，该装置包括存储器以及连接存储器的处理器；

处理器用于提取文本中的标签词，并根据提取的标签词，以及存储器中预设的标签词关系，生成相互关联的分组标签词；按照各个分组标签词之间的关联关系，对分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词，得到组合型标签词；根据组合型标签词以及预设的标签词关系，在文本中生成映射标签词。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本标签词的生成方法，其特征在于，包括以下步骤：

提取文本中的标签词；

根据提取的所述标签词，以及预设的标签词关系，生成相互关联的分组标签词，具体步骤为，根据提取的所述标签词，以及所述预设的标签词关系，生成上层标签词；根据提取的所述标签词、生成的上层标签词，以及所述预设的标签词关系，生成同义标签词；根据提取的所述标签词、生成的上层标签词、生成的同义标签词，以及所述预设的标签词关系，生成修饰标签词；

按照各个所述分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词，具体步骤为：根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；根据各组之间的关联关系，将所有能够关联起来的分组进行关联；根据分组关联结果，在预设的标签词词典中查找被本文完全覆盖的标签词，得到所述组合型标签词；

2.根据权利要求1所述的文本标签词的生成方法，其特征在于，在提取文本中的标签词之前，还包括以下步骤：

根据文本内容，在标签词词典中添加标签词和标签词关系。

3.根据权利要求1所述的文本标签词的生成方法，其特征在于，提取文本中的标签词，包括以下步骤：

4.一种文本标签词的生成系统，其特征在于，包括标签词提取模块、标签词分组模块、标签词聚合模块以及标签词生成模块；

所述标签词提取模块，用于提取文本中的标签词；

所述标签词分组模块，用于根据提取的所述标签词，以及预设的标签词关系，生成相互关联的分组标签词，所述标签词分组模块包括上层标签词生成单元、同义标签词生成单元、以及修饰标签词生成单元；所述上层标签词生成单元，用于根据提取的所述标签词，以及所述预设的标签词关系，生成上层标签词；所述同义标签词生成单元，用于根据提取的所述标签词、生成的上层标签词，以及所述预设的标签词关系，生成同义标签词；所述修饰标签词生成单元，用于根据提取的所述标签词、生成的上层标签词、生成的同义标签词，以及所述预设的标签词关系，生成修饰标签词；

所述标签词聚合模块，用于按照各个所述分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词，所述标签词聚合模块包括分组单元、关联单元以及查找单元；所述分组单元，用于根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；所述关联单元，用于根据各组之间的关联关系，将所有能够关联起来的分组进行关联；所述查找单元，用于根据分组关联结果，在预设的标签词词典中查找被本文完全覆盖的标签词，得到所述组合型标签词；

5.根据权利要求4所述的文本标签词的生成系统，其特征在于，还包括添加模块；

6.一种文本标签词的生成装置，其特征在于，包括存储器以及连接所述存储器的处理器；

所述处理器用于提取文本中的标签词，并根据提取的所述标签词，以及存储器中预设的标签词关系，生成相互关联的分组标签词；

按照各个所述分组标签词之间的关联关系，对所述分组标签词进行聚合，并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词，得到组合型标签词，具体步骤为：根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组；

根据分组关联结果，在预设的标签词词典中查找被本文完全覆盖的标签词，得到所述组合型标签词；