CN113268673B

CN113268673B - 互联网行动类信息线索分析的方法和系统

Info

Publication number: CN113268673B
Application number: CN202110443364.7A
Authority: CN
Inventors: 张传新; 梁汝锋; 解峥; 王宇; 刘春阳; 刘巨安; 张旭; 陈志朋; 张翔宇; 王菲
Original assignee: Beijing Blue Light Wit Network Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Blue Light Wit Network Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2023-06-02
Anticipated expiration: 2041-04-23
Also published as: CN113268673A

Abstract

本发明公开了一种互联网行动类信息线索分析的方法，包括：从互联网获取信息文本；将信息文本输入预训练的行动线索标注算法模型中，应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词；其中，所述行动类信息线索单词的实体类型包括自定义类型，所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算。本发明可以对采集内容进行快速的语法分析，获取内容中用户关注的时间、地点、人物和活动等行动类线索信息，这样就可以对关键词信息进行标注或分类，最终让用户可以很清晰、明了的查看线索信息内容。

Description

互联网行动类信息线索分析的方法和系统

技术领域

本发明涉及计算机信息技术领域。更具体地说，本发明涉及一种互联网行动类信息线索分析的方法和系统。

背景技术

新闻网站、移动客户端App、即时通讯等是当今生活中人们生活中获取信息的一种不可或缺的方式。根据2020年8月沃指数APP报告数据显示，新闻类网站的月活跃人数中，今日头条为24169万人，排名第二是腾讯新闻的17822万人，第三的是网易新闻的12714 万人；

在即时通讯类软件中，腾讯发布的2018年财报显示，微信的月活跃量是11亿，QQ的月活跃用户是7亿。2018年9月27，Facebook就宣布每日就有高达3亿的活跃用户。目前筛选不法行为信息的方法主要是通过判断关键词的方法去识别分析内容中是否包含指定线索。在面对海量信息的时候，这种方法效率略低，并且识别度也不高，无法从多维度去分析内容信息。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种互联网行动类信息线索分析的方法和系统，可以对采集内容进行快速的语法分析，获取内容中用户关注的时间、地点、人物和活动等行动类线索信息，这样就可以对关键词信息进行标注或分类，最终让用户可以很清晰、明了的查看线索信息内容。

为了实现根据本发明的这些目的和其它优点，提供了一种互联网行动类信息线索分析的方法，其包括：

从互联网获取信息文本；

将信息文本输入预训练的行动线索标注算法模型中，应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词；

其中，所述行动类信息线索单词的实体类型包括自定义类型，所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算。

优选的是，所述行动线索标注算法模型的预训练方法包括：

获取训练语料，对训练语料分词，再对每个单词进行第一类标注；

选择标签体系，根据标签体系对训练语料中的每个字符进行第二类标注，生成包含第一类标注和第二类标注的训练数据，其中第二类标注包括行动类信息线索单词所属实体类型的标注；

选择特征模板，根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/ 或行动类信息线索单词的第二类标注确定特征模板中的特征；

将训练数据和特征模板导入行动线索标注算法模型中进行训练，以得到获取行动类信息线索单词的最优路径。

优选的是，所述第一类标注为词性标注，所述第二类标注还包括行动类信息线索单词中每个字符的位置标注。

优选的是，所述行动类信息线索单词的实体类型还包括：时间、地点、人物。

优选的是，行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。

本发明还提供一种互联网行动类信息线索分析的系统，其包括：

文本获取模块，其用于从互联网获取信息文本；

线索获取模块，其用于将信息文本输入预训练的行动线索标注算法模型中，应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词；

优选的是，还包括行动线索标注算法模型的预训练模块，所述行动线索标注算法模型的预训练模块包括：

分词标注单元，其用于获取训练语料，对训练语料分词，再对每个单词进行第一类标注；

训练数据生成单元，其用于选择标签体系，根据标签体系对训练语料中的每个字符进行第二类标注，生成包含第一类标注和第二类标注的训练数据，其中第二类标注包括行动类信息线索单词所属实体类型的标注；

特征确定单元，其用于选择特征模板，根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征；

模型训练单元，其用于将训练数据和特征模板导入行动线索标注算法模型中进行训练，以得到获取行动类信息线索单词的最优路径。

本发明至少包括以下有益效果：本发明中通过添加行动类信息线索单词的自定义类型，用户可根据需求选择想要识别的行动类线索单词，行动线索标注算法模型的灵活度更高，同时本发明对标注算法模型进行改进，通过对自定义类型的单词的权重进行增量运算，使得行动线索标注算法模型在进行状态序列的条件概率运算时，属于自定义类型的行动类信息线索单词的状态序列必然出现于最优路径解中，增加了属于自定义类型的行动类信息线索单词获取的准确率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述标注算法模型一阶链式结构的示意图；

图2为本发明所述互联网行动类信息线索分析的方法的流程图；

图3为本发明所述行动线索标注算法模型的测试结果图；

图4为本发明所述互联网行动类信息线索分析的系统的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得；在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在列举实施例前，有必要对标注算法模型进行解释：

标注算法模型主要用于对文本数据进行标注，包括词性标注或者语义标注等等，而标注算法模型最简单且最常用的是一阶链式结构(如图1所示)，即线性链结构。

在线性链结构模型中，x＝{x₁，x₂，…，x_n}表示观察序列，即可直观看到的序列， y＝{y₁，y₂，…，y_n}表示状态序列，即观察序列中的元素隐藏的属性状态的序列，根据标注算法模型的基本理论：

其中，i为当前节点位置，t_k(y_i-1,y_i,x,i)为观察序列的节点位置i-1与i之间的转移特征函数，这类特征函数只和当前节点及上一节点有关，s_l(y_i,x,i)为观察序列的节点位置i的状态特征函数，这类特征函数只和当前节点有关，λ_k为t_k的权重系数，μ_l为s_l的权重系数，Z(x)为规范化因子，；

将转移特征函数t_k(y_i-1,y_i,x,i)和状态特征函数s_l(y_i,x,i)统一为特征函数f_k(y,x)，同时将权重系数λ_k和μ_l统一为权重系数w_k后，P(y∣x)和Z(x)可分别表示为：

其中，K为转移特征函数t_k(y_i-1,y_i,x,i)和状态特征函数s_l(y_i,x,i)的总个数。

那么线性链结构模型的主要问题为：(1)特征函数的选择；(2)权重系数的学习；(3)在给定权重系数后，根据观察序列对状态序列的预测。

对于第一个问题，在对标注算法模型进行训练前，通过选择特征模板，设计特征模板中的获取特征即可解决。对于第二个问题，通过训练数据对标注算法模型进行训练即可学习到特征函数的权重系数。对于第三个问题，可通过维特比算法解决，而维特比算法是一种动态规划算法，是将全局最优解的计算过程分解为阶段最优解的计算过程，即通过先寻求局部最优路径进而寻求全局最优路径，通过最优路径即可得到观察序列的最大概率的状态序列。

如图2所示，本发明提供一种互联网行动类信息线索分析的方法，其包括：

S1、从互联网获取信息文本；

这里从互联网获取信息文本的方法可以采用网上采集算法，又称网络爬虫、网络蜘蛛或Web信息采集器，是一个自动化下载网页的计算机程序或自动化脚本。

S2、将信息文本输入预训练的行动线索标注算法模型中，应用预训练的行动线索标注算法模型获取行动类信息线索单词；

这里，行动类信息线索单词的实体类型还可以包括：时间(TIME)、地点(LOCATION)、人物(PERSON)，具体来说，如信息文本的内容为“今晚7点到人民广场参加晚会”，该信息文本中的行动类信息线索单词包括：时间为晚上7点，地点为人民广场，活动为晚会，而晚会这类单词可以由用户自定义类型，本实施例中将其设置为活动(拼音缩写HD)或者集会(拼音缩写JH)，实际上属于活动类型的单词还可以包括打架、打牌、讲课等等。

这里，行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。

这里，所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算，包括在预训练过程中对训练语料内属于自定义类型的单词的权重进行增量运算，这样用于获取训练语料中属于自定义类型的单词的特征函数的权重也会相应的增加，那么再使用训练好的行动线索标注算法模型对新的语料进行行动类信息线索单词获取时，属于自定义类型的单词的获取概率会大大增加，从而提高自定义类型的单词的获取准确率。

具体的，所述行动线索标注算法模型的预训练方法包括：

S21、获取训练语料，对训练语料分词，再对每个单词进行第一类标注；

这里训练语料可以采用常用的经典训练语料《人民日报1998中文标注语料库》，该语料库已对训练语料做好了分词与第一类标注(即词性标注)，词性标注一般包括名词n、时间词t、动词v、形容词a等等，而本实施例中由于需要获取的实体类型是时间、地点、人物和活动，因此需要标注时间词t、人名nr、地名ns、机构名称nt、其他专有名词nz。需要注意的是，需要将训练语料中的全角字符统一转为半角字符。

S22、选择标签体系，根据标签体系对训练语料中的每个字符进行第二类标注，生成包含第一类标注和第二类标注的训练数据，其中第二类标注包括行动类信息线索单词所属实体类型的标注；

这里标签体系中每个标签用于代表字符位于单词中的位置，再于行动类信息线索单词的每个字符的位置标签后缀以实体类型，即可完成第二类标注，常见的标签体系包括IO、 BIO、BMEWO、BMEWO+。

本实施例中选用的标签体系为BMEWO，该体系中B表示属于实体类型的单词的首字符，M表示属于实体类型的单词的中间字符，E表示属于实体类型的单词的末字符，W 表示属于实体类型的单词的全体字符，O表示不属于实体类型的字符。

以单字作为token，那么上述例句“今晚7点到人民广场参加晚会”经过第一类标注和第二类标注，得到的训练数据则为：

对于已经处理好的训练数据，可以将第一列作为观察序列，第二列和第三列作为状态序列，那么行动线索标注算法模型的主要目的则是得出观察序列中的行动类信息线索单词与状态序列的时间、地点、人物以及活动标注之间的连线，也即最优路径。

S23、选择特征模板，根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征；

这里行动线索标注算法模型有unigram特征模板和bigram特征模板，unigram特征模板生成状态特征函数，bigram特征模板生成转移特征函数。

本实施例中选用unigram特征模板，以字符本身作为特征而不考虑其他特征。除了当前的字符外，使用其前后3个字，以及上下文的组合作为特征。

S24、将训练数据和特征模板导入行动线索标注算法模型中进行训练，以得到获取行动类信息线索单词的最优路径。

具体的，通过使用learn命令，指定特征模板文件、训练数据文件和输出模型文件开始训练。使用-c参数可提高数据拟合度。

上述行动线索标注算法模型完成训练后，开始进行测试，使用test命令进行测试文本 “3月15号下午3点，去光明小区参加集会”，测试结果图3所示，可见本发明提供的方法能够对输入文字序列输出相应的标签，在对标签序列进行解码，得到最终的结果，完成识别任务。

如图4所示，本发明还提供一种互联网行动类信息线索分析的系统，其包括：

文本获取模块，其用于从互联网获取信息文本；

线索获取模块，其用于将信息文本输入预训练的行动线索标注算法模型中，应用预训练的行动线索标注算法模型获取行动类信息线索单词；

在另一实施例中，所述第一类标注为词性标注，所述第二类标注还包括行动类信息线索单词中每个字符的位置标注。

在另一实施例中，所述行动类信息线索单词的实体类型还包括：时间、地点、人物。

在另一实施例中，行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.互联网行动类信息线索分析的方法，其特征在于，包括：

从互联网获取信息文本；

其中，所述行动类信息线索单词的实体类型包括自定义类型，所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算；

所述行动线索标注算法模型的预训练方法包括：

选择特征模板，根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征；

将训练数据和特征模板导入行动线索标注算法模型中进行训练，以得到获取行动类信息线索单词的最优路径；

所述行动类标注算法模型为线性链结构的标注算法模型，在线性链结构模型中，x＝{x₁，x₂，…，x_n}表示观察序列，即可直观看到的序列，y＝{y₁，y₂，…，y_n}表示状态序列，即观察序列中的元素隐藏的属性状态的序列，根据标注算法模型的基本理论：

其中，i为当前节点位置，t_k(y_i-1,y_i,x,i)为观察序列的节点位置i-1与i之间的转移特征函数，这类特征函数只和当前节点及上一节点有关，s_l(y_i,x,i)为观察序列的节点位置i的状态特征函数，这类特征函数只和当前节点有关，λ_k为t_k的权重系数，μ_l为s_l的权重系数，Z(x)为规范化因子；

2.如权利要求1所述的互联网行动类信息线索分析的方法，其特征在于，所述第一类标注为词性标注，所述第二类标注还包括行动类信息线索单词中每个字符的位置标注。

3.如权利要求1所述的互联网行动类信息线索分析的方法，其特征在于，所述行动类信息线索单词的实体类型还包括：时间、地点、人物。

4.如权利要求1所述的互联网行动类信息线索分析的方法，其特征在于，行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。

5.互联网行动类信息线索分析的系统，其特征在于，包括：

文本获取模块，其用于从互联网获取信息文本；

还包括行动线索标注算法模型的预训练模块，所述行动线索标注算法模型的预训练模块包括：

模型训练单元，其用于将训练数据和特征模板导入行动线索标注算法模型中进行训练，以得到获取行动类信息线索单词的最优路径；

6.如权利要求5所述的互联网行动类信息线索分析的系统，其特征在于，所述第一类标注为词性标注，所述第二类标注还包括行动类信息线索单词中每个字符的位置标注。

7.如权利要求5所述的互联网行动类信息线索分析的系统，其特征在于，所述行动类信息线索单词的实体类型还包括：时间、地点、人物。

8.如权利要求5所述的互联网行动类信息线索分析的系统，其特征在于，行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。