CN105956740A

CN105956740A - 一种基于文本逻辑特征的语义风险计算方法

Info

Publication number: CN105956740A
Application number: CN201610245494.9A
Authority: CN
Inventors: 黄玉麟; 韩东东; 林春雨
Original assignee: Beijing Deep Times Technology Co Ltd
Current assignee: Beijing Deep Times Technology Co Ltd
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2016-09-21
Anticipated expiration: 2036-04-19
Also published as: CN105956740B

Abstract

本发明公开了一种基于文本逻辑特征的语义风险计算方法，包括：结构类型预定义，构成预定类型的语义逻辑组合；将待处理文本按段落切分成若干文本，并作切词处理；对待处理段落的词语组合，根据预定义的预定类型的语义逻辑组合进行匹配，遍历预定类型的语义逻辑组合，对命中所有定义语义结构的词语集合计算段落风险值；对所有段落，执行匹配计算处理；归类计算待处理文本所有段落匹配的风险集合，按照段落权重、段落风险值进行累加计算，规约计算后获得顺序化的风险及其分值。通过本发明能够实现高效准确的风险挖掘处理。

Description

一种基于文本逻辑特征的语义风险计算方法

技术领域

本发明涉及中文语义处理及数据挖掘技术领域，尤其涉及大规模数据下的语义风险自动识别处理方法。

背景技术

随着互联网技术的蓬勃发展，尤其是近年来互联网数据的爆发式增长，风险的识别与控制也愈发重要，典型的应用场景包括金融、情报等领域，以金融为例，现有的金融风控技术主要是针对以财务数据为代表的结构化数据的分析，但如何在海量的、非结构化的互联网数据中快速识别风险信息，成为一项重要的课题，也是以银行为代表的金融机构极为关心的内容。

现有的语义风险分析多基于关键词或关键词库进行过滤，缺乏模型的支撑，在面对复杂文本或复杂语义时既无法准确命中对象，也无法识别风险，因此在海量数据文本规模下，无法实现高效准确的风险挖掘处理，如何设计一种能够在海量多样化的数据集合下使用的语义风险挖掘技术是非常有意义的。

发明内容

有鉴于此，本发明的主要目的在于提供一种大规模数据下语义风险信息的自动识别方法，能够对海量多样化的互联网数据进行风险计算与判断。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于文本逻辑特征的语义风险计算方法，包括：

步骤1.语义结构类型预定义：按语义逻辑定义多个语义结构，将多个语义结构进行组合，构成预定类型的语义逻辑组合；

步骤2.风险类型预定义：根据语义逻辑组合定义语义风险类型，每类语义风险类型均满足语义逻辑组合规范；

步骤3.将待处理文本按段落切分成若干文本，并作切词处理，形成各段落的词语集合；

步骤4.对待处理段落的词语集合，根据步骤2预定义的语义风险类型调用语义风险预定义结构进行匹配，对匹配成功的语义风险类型，计算段落风险原始值，其中匹配成功是指该风险类型的预定义语义结构均能在该段落集合中找到匹配词；

步骤5.对所有段落的词语组合，执行如步骤4所述步骤处理；

步骤6.对所有已完成计算的段落风险原始值，按风险类型进行多段落加权计算，得到综合加权计算的风险终值；

步骤7.对匹配成功的语义风险类型相对应的风险终值队列进行规约计算，得到归一化的风险值。

所述的一种基于文本逻辑特征的语义风险计算方法，进一步的：

所述多个语义结构均为词组集合。

所述步骤4中对待处理段落的词语组合，根据步骤2预定义的语义风险类型调用语义风险预定义结构进行匹配，对匹配成功的语义风险类型，计算段落风险值具体为：获取预定义的语义风险类型的语义逻辑组合，对该语义逻辑组合中的每一种语义结构进行记录，并与所处理的任意段落的词语集合进行遍历对比，如果所述预定义语义风险类型的所有语义结构都有匹配结果，则匹配成功，对命中所有预定义语义结构的词语集合计算段落风险值。

所述步骤1中的按语义逻辑定义的多个语义结构包括：A：对象、B：地点、C：行为、D：特征，所述语义结构A-D均为词组集合；

所述步骤1中构成的预定类型的语义逻辑组合包括：

1)组合1：对象+地点+行为+特征

2)组合2：对象+地点+特征

3)组合3：对象+行为+特征

4)组合4：对象+特征。

所述步骤4计算段落风险原始值包括：

1)定义x_1i为集合A中的词语，0<i<n，n为正整数；

2)定义x_2i为集合B中的词语，0<i<n，n为正整数；

3)定义x_3i为集合C中的词语，0<i<n，n为正整数；

4)定义x_4i为集合D中的词语，0<i<n，n为正整数；

5)定义N(x_1i)为集合A中某词语x_1i在待匹配文本中出现的次数，包括重复的情况，又称词频，同理定义N(x_2i)/N(x_3i)/N(x_4i)；

6)定义M(x₁)为集合A中所有已定义关键词的数量，同理定义M(x₂)/M(x₃)/M(x₄)；

7)定义P(x₁)为在待匹配对象中出现过的集合A中的关键词的数量，该数量不包括重复出现的情况，同理定义P(x₂)/P(x₃)/P(x₄)；

8)按以下公式计算段落的原始风险值：

r (x) = Π_{j = 1}^{4} (l o g (\frac{ω * M i n (P (x_{j}), α)}{M a x (M i n (M (x_{j}), α), 1)} + 10) * l n (Σ_{i = 1}^{n} M i n (N (x_{j i}), β) + e)))

其中ω为影响因子，α、β为限定系数，分别限定单段落命中关键词个数上限及关键词频次最大值，e是自然常数，n为正整数。

所述步骤6计算综合加权计算的风险终值包括：

定义f(x)为预定风险类型，r(x)为该特定风险的段落原始值，r_com(x_i)为综合加权计算的风险终值，当f(x)仅在其中一个段落i中出现时，r_com(x)即为r_i(x)，否则按以下公式进行计算：

r_com(x)＝Max(r₁(x)，…，r_n(x))。

所述步骤7采用分段归一化方式进行规约计算：即对步骤6中计算得到的风险终值，根据统计结果进行分段，将该终值置于基于统计结果确定的数值分段区间中，按以下公式，计算归一化的风险值：

r_{f i n} (x) = \frac{x - \min_{t}}{\max_{t} - \min_{t}} * (L_{m a x} - L_{\min}) + L_{\min}

其中r_fin(x)为归一化后的风险值，t为分段区间号，min_t为该分段区间数值极小值，max_t为该分段区间数值极小值，Lmin为该分段对应归一化区间极小值，Lmax为该分段对应归一化区间极大值。

一种基于网络信息的风险识别方法，包括如上所述的基于文本逻辑特征的语义风险计算方法；

还包括将归一化后得到的风险值与预设的风险值阈值进行比较，如果计算得到的归一化的风险值大于预设的风险值阈值，则确认存在风险，输出该风险值所对应风险类型，风险识别成功；

其中待处理的文本为从互联网抓取的网页文本信息。

一种基于网络信息风险报警方法，包括如上所述的风险识别方法，还包括：

在风险识别成功后，发出风险报警信息，包括发送包含有风险类型的信息的邮件、短息或推送消息。

一种基于文本逻辑特征的语义风险计算方法，包括：

a)风险结构预定义，对不同的风险类型，按照对象(A)、地点(B)、行为(C)、特征(D)等语义结构进行构造，每类风险均为不同语义结构的不同方式组合，定义为风险语义逻辑组合R(x)；

在所述的步骤a)中，设定语义结构A＝{a₁，…，a_n}，其中n为大于等于1的整数，a₁-a_n是语义结构A中的语义词；

设定语义结构B＝{b₁，…，b_n}，其中n为大于等于1的整数，b₁-b_n是语义结构B中的语义词；

设定语义结构C＝{c_1，，…，c_n}，其中n为大于等于1的整数，c₁-c_n是语义结构C中的语义词；

设定语义结构D＝{d_1，，…，d_n}，其中n为大于等于1的整数，d₁-d_n是语义结构D中的语义词；

b)将待处理文本text按段落切分成若干文本paragraph，并作切词处理；

c)对任意段落文本paragraph，遍历风险类型f(x)，对命中所有定义语义结构的风险集合R(x)，统计其各语义结构命中词及其词频，形成(命中词-词频-权重)的映射表，并计算单个结构所有命中词在原始词表中的覆盖度C_r对所述段落的任意风险集合R(x)，就语义结构作词频及覆盖度的加权计算，计算段落风险值r(x)；

d)对所有段落，执行如c所述步骤处理；

e)归类计算待处理文本所有段落匹配的风险集合，按照段落权重、段落风险值进行累加计算，规约计算后获得顺序化的风险及其分值。

附图说明

图1a为本发明语义结构定义示意图；

图1b为本发明语义逻辑组合示意图；

图2为本发明方法的流程图。

具体实施方式

下面结合附图1、2和实施例对本发明做进一步的描述。

语义风险类型定义将不同的语义风险按语义逻辑定义为四大语义结构，分别包括对象(A)、地点(B)、行为(C)、特征(D)，A-D等语义结构均为词组集合：

设定语义结构A＝{a₁，…，a_n}，其中n为大于等于1的整数，a₁-a_n是语义结构A中的语义词；

设定语义结构D＝{d_1，，…，d_n}，其中n为大于等于1的整数，d₁-d_n是语义结构D中的语义词。

语义结构的不同组合方式构成不同的语义逻辑，具体包括以下逻辑组合方式，如下：

组合1：对象+地点+行为+特征

组合2：对象+地点+特征

组合3：对象+行为+特征

组合4：对象+特征

以组合3为例，风险所在文本语义包含类似“对象”的“行为”存在“特征”(风险)的结构，具体包括三个词组集合，每类词组集合都包含形态一致的描述词，如对象包括相应的描述名词或代称，行为包括相应的描述动作，特征包括相应的描述风险特征。

所有的语义风险类型，都将按如上所述的逻辑组合进行对应定义，

例如“高级人员贪腐风险”对应逻辑组合3)，即包含“对象”、“行为”、“特征”三类词组集合，一个实例为“知情人士向记者独家透露，DZ集团副总裁张三于6月22日被深圳警方带走，主要原因是张三负责DZ集团视频采购时期涉嫌商业贿赂”，其中“DZ集团副总裁”、“张三”命中“对象”语义，“采购”命中“行为”语义，“贿赂”命中“特征”语义，至此，该段文本符合“高级人员贪腐风险”的逻辑语义定义。

针对词组集合A-D，做如下定义：

1)定义x_1i为集合A中的词语，0<i<n，n为正整数

2)定义x_2i为集合B中的词语，0<i<n，n为正整数

3)定义x_3i为集合C中的词语，0<i<n，n为正整数

4)定义x_4i为集合D中的词语，0<i<n，n为正整数

5)定义N(x_1i)为集合A中某词语x_1i在待匹配文本中出现的次数(包括重复的情况)，又称词频，同理定义N(x_2i)/N(x_3i)/N(x_4i)(分别为集合B/C/D中某词语在待匹配文本中出现的次数)

6)定义M(x1)为集合A中所有已定义关键词的数量，同理定义M(x₂)/M(x₃)/M(x₄)(分别为集合B/C/D中所有已定义关键词的数量)

7)定义P(x₁)为在待匹配对象中出现过的集合A中的关键词的数量(不包括重复出现的情况)，同理定义P(x₂)/P(x₃)/P(x₄)(分别为在待匹配对象中出现过的集合B/C/D中的关键词的数量，不包括重复出现的情况)

8)定义f(x)为某种特定风险类型，r(x)为该特定风险的段落原始值，r_com(x_i)为综合加权计算的风险终值，当f(x)仅在其中一个段落i中出现时，r_com(x)即为r_i(x)，否则将按以下公式进行计算：

r_com(x)＝Max(r₁(x)，…，r_n(x))

其中r₁(x)为第1段落风险原始值，r_n(x)为第n段落风险原始值。

如图2所示为本发明一种基于文本语义逻辑特征的语义风险计算方法的工作流程图，包括：

段落切分步骤S201，对待处理文本(所述待处理文本可以是在互联网页面上抓取的文本信息，如在网络新闻、论坛帖子、评论、博客等页面抓取的文本信息)，将其切分成不同的段落i(0<i<n)，包括标题及物理段落，所述物理段落指正文中以段落标识符区分的语句集合，其中标题为第1段落，即i＝1，正文第一个顺序自然段为第2段落，即i＝2，以此类推。

段落文本的切词步骤S202，对完成段落切分后的待处理文本，按段落顺序对第1段文本进行文本切词，形成该段落的词语集合s，实际所得结果为类似(词语1，词语2，词语3，…词语n)的词语集合。

在风险类型遍历匹配步骤S203中，调用语义风险预定义结构(参见图1b)，对预定义的每一种语义风险类型进行匹配，所述匹配是一种基于组合构造的文本结构匹配方式，如“境外投资风险”，匹配组合1，即“对象+地点+行为+特征”，对象、地点、行为、特征均为预定义的词语集合，计算步骤S202中的词语集合s是否满足该风险定义，如满足则该风险匹配成功，具体包括以下步骤：

1)定义“境外投资风险”的词组集合对象(A₁)、地点(B₁)、行为(C₁)、特征(D₁)；

2)对待处理段落i，比较词组集合“对象”(A₁)与该段落分词后的词语集合s，是否存在相同的词语，如存在则记录其词频；

3)同理处理集合“地点”、“行为”、“特征”；

4)如该风险的四种定义词组集合均能在集合s中找到匹配词，则风险匹配成功，即待处理段落存在目标风险“境外投资风险”。

对匹配成功的风险f(x)，按步骤S204计算其所含的各语义结构的词频(某词语出现的次数)N(x_ji)(0<j<5，0<i<n)、所有已定义关键词的数量M(x_j)(0<j<5)、集合中出现过的关键词的数量P(x_j)(0<j<5)，核算覆盖度P(x_j)/M(x_j)，即C_r。结合段落权重进行多语义结构的加权累加乘积计算，获得目标风险类型f(x)的段落风险原始值r(x)。

段落的原始风险值按以下公式计算：

r (x) = Π_{j = 1}^{4} (l o g (\frac{ω * M i n (P (x_{j}), α)}{M a x (M i n (M (x_{j}), α), 1)} + 10) * l n (Σ_{i = 1}^{n} M i n (N (x_{j i}), β) + e)))

其中ω为影响因子，控制取值关键词覆盖度范围，其取值为[100-200]之间的正整数，α、β为限定系数，分别用于限定单段落命中关键词个数上限(P(x)/M(x))及关键词频次最大值(N(x))，e自然常数，是一个无限不循环小数，其值约等于2.718281828459…，n为正整数。

发明人发现，在网络上的诸多文字信息中，如博客、新闻、论坛发帖、评论等，既含有有用信息，又含有无用的垃圾信息，如恶意谩骂等信息，这些信息中虽然会出现大量的关键词，但是毫无疑问的，这类信息在语义风险计算中是干扰项，因此为了排除这一类的干扰，设定了上述的限定系数α、β，其取值可以分别是20、5，实际取值来自大量样本的统计经验值。

在其中一个实施例中，段落文本从第一种风险f(1)进行匹配，所述匹配任务采用如下方式进行：

获取所述第一种风险的组合类型，对组合类型中每一种语义结构进行记录，并与所处理段落的词语集合s进行遍历对比，如果所述风险的语义结构都有匹配结果，则风险匹配成功，根据覆盖度、命中词频等计算所述风险在目标段落文本中的段落风险原始值r(1)。

对其他匹配风险f(x)(0<x<m，m为正整数)执行S204操作，直到所有匹配成功的风险都已完成风险原始值计算，在其中一个实施例中，段落文本完成风险类型匹配，命中风险为f(2)、f(3)，段落风险原始值分别为r(2)、r(3)，综上，该处理段落共匹配三种不同类型的风险f(1)、f(2)、f(3)，所述风险原始值分别为r(1)、r(2)、r(3)。

此时对目标段落已获得所匹配所有风险的原始风险值计算，由于实际风险值依赖于全文，因此还需要对其他段落逐次计算(执行S202-S204)，直到待处理文本的所有段落都已经处理完毕，最终计算得到全文风险值r_cox(x)。

在其中一个实施例中，对一篇包含n个段落的待处理文本，共匹配风险类型5种，分别为f(1)、f(2)、f(3)、f(4)、f(5)，分别出现在n个不同的段落中，其中f(1)、f(2)、f(5)均在不同段落出现。

步骤S205，对所有已完成计算的风险原始值，按风险类型进行多段落加权计算。

在其中一个实施例中，对f(1)、f(2)、f(3)、f(4)、f(5)等不同风险类型，最终计算得到对应的不同风险值为r_com(1)、r_com(2)、r_com(3)、r_com(4)、r_com(5)。

对所述r_com(x)队列进行规约计算并排序，获得匹配风险的标准值序列输出。

本发明采用分段归一化方式进行规约计算，对2015年3月份共计163，163条风险文本进行统计，结果呈现明显的分段特征，统计结果如下表所示

对每一个分段，按照Min-max标准化进行计算，定义r_fin(x)为归一化后的风险值，则归一化计算公式如下：

r_{f i n} (x) = \frac{x - \min_{t}}{\max_{t} - \min_{t}} * (L_{m a x} - L_{\min}) + L_{\min}

其中t为分段区间号，min_t为该分段区间数值极小值，max_t为该分段区间数值极小值，Lmin为该分段对应归一化区间极小值，Lmax为该分段对应归一化区间极大值。

本发明在以上文本逻辑特征的语义风险计算方法的基础上，能够实现根据网络信息的风险识别，也即根据上述归一化后的风险值，确定风险类型，具体的将归一化后得到的一系列风险值与预设的风险值阈值进行比较，如果计算得到的归一化的风险值大于预设的风险值阈值，则可确认存在风险，输出该风险值所对应风险类型，则风险识别成功。

本发明还提供一种风险报警方法，也即在如上在识别出风险类型后，发出风险报警信号，例如可以通过向相关人员发送包含有风险类型的信息的邮件、短息、推送消息等，以实现风险报警。

通过本发明，采用基于文本逻辑特征的语义风险模型，能够快速处理大规模文本下的语义类型识别，值得指出的是，本发明所提出的思路和方法，不仅可以应用到风险领域的语义识别，还可以应用到情感分析、中文语义模型等泛数据挖掘领域。

Claims

1.一种基于文本逻辑特征的语义风险计算方法，其特征在于包括：

步骤4.对待处理段落的词语集合，根据步骤2预定义的语义风险类型调用语义风险预定义结构进行匹配，对匹配成功的语义风险类型，计算段落风险原始值；

步骤5.对所有段落的词语组合，执行如步骤4所述步骤处理；

2.根据权利要求1所述的一种基于文本逻辑特征的语义风险计算方法，其特征在于：所述多个语义结构均为词组集合。

3.根据权利要求1所述的一种基于文本逻辑特征的语义风险计算方法，其特征在于：

4.根据权利要求3所述的一种基于文本逻辑特征的语义风险计算方法，其特征在于：

所述步骤1中构成的预定类型的语义逻辑组合包括：

1)组合1：对象+地点+行为+特征

2)组合2：对象+地点+特征

3)组合3：对象+行为+特征

4)组合4：对象+特征。

5.一种基于网络信息的风险识别方法，其特征在于：包括如权利要求1所述的基于文本逻辑特征的语义风险计算方法；

其中处理的文本为从互联网抓取的网页文本信息。

6.一种基于网络信息风险报警方法，其特征在于：包括如权利要求5所述的风险识别方法，还包括：