CN108804410B

CN108804410B - 一种基于人工智能文本语义相似度分析的语义解释方法

Info

Publication number: CN108804410B
Application number: CN201710315331.8A
Authority: CN
Inventors: 朱瑾鹏; 朱笑萱; 黄诗剑
Original assignee: Beijing Dataocean Smart Technology Co ltd
Current assignee: Beijing Dataocean Smart Technology Co ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2022-03-29
Anticipated expiration: 2037-05-05
Also published as: CN108804410A

Abstract

本发明公开了一种基于人工智能文本语义相似度分析的语义解释方法，包括步骤：步骤1)建立语义解释模型；步骤2)构建语义语料库，按语义解释模型人工标注文本并存储，每个文本对应一条语料；步骤3)统计计算，依据建立的语料库，统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数；步骤4)词语语义转换，对新文本D进行分词及过滤处理后，按需选取若干特征词语进行语义转换，建立向量空间模型V₁；步骤5)建立全部文本向量空间模型，对未进行语义转换的词语建立向量空间模型V₂，合并V₁与V₂，得到全文本向量空间模型V；步骤6)对新文本D'重复步骤3、步骤4，得到其向量空间模型V'；步骤7)利用余弦公式，计算文本D与D'相似度。

Description

一种基于人工智能文本语义相似度分析的语义解释方法

技术领域

本发明涉及一种文本语义分析领域，具体涉及一种基于人工智能文本语义相似度分析的语义解释方法。

背景技术

随着计算机互联网的飞速发展，文本相似度计算在许多领域有着广发的应用。例如，在智能机器翻译中，语义相似度通过衡量参考译文与智能机器翻译输出的等价程度来评估机器翻译的质量，此外，在信息检索、情感分析、文本分类、文本聚类、自动问答、语义消歧等领域中，文本相似度计算都是一项基础又重要的手段。

目前现有通过文本相似度计算对文本语义解释主要还存在仅能依赖词形计算，计算复杂，并且现有的分析方法准确率较低。

发明内容

本发明的目的即在于克服现有技术不足，，目的在于提供一种基于人工智能文本语义相似度分析的语义解释方法，解决现有通过文本相似度计算对文本语义解释仅能依赖词形计算，计算复杂，并且现有的分析方法准确率较低的问题。

本发明通过下述技术方案实现：

一种基于人工智能文本语义相似度分析的语义解释方法，包括步骤：

步骤1)建立语义解释模型；

步骤2)构建语义语料库，按语义解释模型人工标注文本并存储，每个文本对应一条语料；

步骤3)统计计算，依据建立的语料库，统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数；

步骤4)词语语义转换，对新文本D进行分词及过滤处理后，按需选取若干特征词语进行语义转换，建立向量空间模型V₁；

步骤5)建立全部文本向量空间模型，对未进行语义转换的词语建立向量空间模型V₂，合并V₁与V₂，得到全文本向量空间模型V；

步骤6)对新文本D'重复步骤3、步骤4，得到其向量空间模型V'；

步骤7)利用余弦公式，计算文本D与D'相似度。

进一步的，所述步骤4)词语语义转换步骤包括：

步骤4.1)对于词语t，在语义语料库中选取包含t的所有语料，将原文t附近的j个词语作为t的正下文C；

步骤4.2)使用C与每条包含t的语料中的p类节点内容，计算词语匹配率；

步骤4.3)依据匹配率由高到低排序，根据设置的阈值ε，选取n条语料；

步骤4.4)在这n条语料中统计t的语义表示，将出现次数最多的p类型作为t的语义表示。

进一步的，所述步骤4.1)，对新输入文本D，分词，去停止词，得到按出现顺序排列的词语列表[t₁,t₂,……,t_n]，依据统计词频由高到低选取前m个词语[t₁',t₂',……,t_m']，m可取从1到n内的任意整数；

以t_k'为例，设其在原文排序为i,将距离其最近的j个词语作为t_k'上下文，即C:[t_i-j/2,t_i-j/2+1,……,t_i+1,……,t_i+j/2]，其中j为窗口长度，取整数；当i-j/2<0时，令j＝2i；当i-j/2在为小数时，下取整；当k+i/2为小数时，上取整。

进一步的，所述步骤4.2)，在语义语料库中，选取包含t_k'的所有语料，计算上下文C与各条语料p类节点内容的词语匹配率，公式如下：

其中，N_same为t的正下文C与某语料p类节点相同的词语数。

进一步的，所述步骤4.3)，选取匹配率高于ε的N条语料为候选语料，ε为阈值，取0到1间小数。

进一步的，所述步骤4.4)，在这N条候选语料中统计t_k'的p类型(如p₁,p₂,p₃)，将出现次数最多的p类型作为t_k'的语义表示，如此转换后，对于同一词语，由于其所处上下文不同，则可能会得到不同的语义表示，这样即对同一词语语义不同的情况进行了区分，将同一个词在语义空间转变为不同的词；依次转换剩余的m-1个词语。

进一步的，所述步骤4.4)，依据TF-IDF计算公式，计算权重，构建前m个高频词语的向量空间模型V1:[p₁,p₂,……,p_m]；TF-IDF值计算方式如下：

其中，tf为某词语经过语义转换后，该语义表示出现的频率，例如若词语为t，转换后其语义表示为p_i，则tf即指文本中，语义表示为p_i的t出现的次数；D为语义语料库中语料总数；D_w为包含t，且其语义表示为p_i的语料数。

进一步的，所述步骤5)，依据TF-IDF公式，计算余下n-m个词语的权重，构建向量空间模型V₂:[w₁,w₂,……,w_n-m]。由于这些词语未进行语义转换，因此与步骤10不同，tf即为词语在文中出现的频率，D_w为包含该词语的语料数；

合并V₁与V₂，得到文本的向量空间模型V:[p₁,p₂,……,p_m,w₁,w₂,……,w_n-m]。

进一步的，所述步骤7)，利用余弦公式，：

计算V与V'的夹角余弦值，即D与D'的文本相似度；n为文本向量维数，w_ik为文档D_i第k维的权重。

本发明与现有技术相比，具有如下的优点和有益效果：

提出一种语义解释模型，依据该模型对文本进行标注，可以有效反映词语语义，并且便于计算机存储、查询和处理。基于该模型建立的语料库，有效地保留了语义信息，可以突破目前仅能依赖词形计算的弊端，为后续文本挖掘提供良好基础，提高分析效果；

提出一种基于语义语料库的词语语义转换方法，显式表现词语语义，使计算机得以识别。另外，该方法基于语言统计特征，稳定高效，简单易实现。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于人工智能文本语义相似度分析的语义解释方法原理示意图；

图2为本发明词语语义转换实例原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1所示，本发明一种基于人工智能文本语义相似度分析的语义解释方法，以语义语料库为基础，基于词语语义转换的文本相似度计算方法如下：

步骤1)设计完善语义解释模型。自然语言灵活多变，为使计算结果尽可能准确，可依据本领域文本特点，设计事件描述维度、定义维度的各个描述阶段等，以保证模型尽量完善；

步骤2)语义标注，建立语料库。按设计的模型对原始文本语料人工进行标注并存储，每个文本对应一条语料；

步骤3)统计计算。依据建立的语料库，统计所有词语及其各个语义表示(如“p1-word”，“p2-word”)出现的语料数及语料库中的语料总数，用于后续建立文本向量空间模型；

步骤4)对新输入文本D，分词，去停止词，得到按出现顺序排列的词语列表[t₁,t₂,……,t_n]，依据统计词频由高到低选取前m个词语[t₁',t₂',……,t_m']，m可取从1到n内的任意整数；

步骤5)以t_k'为例，设其在原文排序为i,将距离其最近的j个词语作为t_k'上下文，即C:[t_i-j/2,t_i-j/2+1,……,t_i+1,……,t_i+j/2]，其中j为窗口长度，取整数；当i-j/2<0时，令j＝2i；当i-j/2在为小数时，下取整；当k+i/2为小数时，上取整；

步骤6)在语义语料库中，选取包含t_k'的所有语料，计算上下文C与各条语料p类节点内容的词语匹配率，公式如下：

其中，N_same为t的正下文C与某语料p类节点相同的词语数；

步骤7)选取匹配率高于ε的N条语料为候选语料，ε为阈值，取0到1间小数；

步骤8)在这N条候选语料中统计t_k'的p类型(如p1,p2,p₃)，将出现次数最多的p类型作为t_k'的语义表示。如此转换后，对于同一词语，由于其所处上下文不同，则可能会得到不同的语义表示，这样即对同一词语语义不同的情况进行了区分，将同一个词在语义空间转变为不同的词；

步骤9)依次转换剩余的m^-1个词语；

步骤10)依据TF-IDF计算公式，计算权重，构建前m个高频词语的向量空间模型V₁:[p₁,p₂,……,p_m]。TF-IDF值计算方式如下：

其中，tf为某词语经过语义转换后，该语义表示出现的频率，例如若词语为t，转换后其语义表示为p_i，则tf即指文本中，语义表示为p_i的t出现的次数；D为语义语料库中语料总数；D_w为包含t，且其语义表示为p_i的语料数；

步骤11)依据TF-IDF公式，计算余下n-m个词语的权重，构建向量空间模型V₂:[w₁,w₂,……,w_n-m]。由于这些词语未进行语义转换，因此与步骤10不同，tf即为词语在文中出现的频率，D_w为包含该词语的语料数；

步骤12)合并V₁与V₂，得到文本的向量空间模型V:[p₁,p₂,……,p_m,w₁,w₂,……,w_n-m]；

步骤13)对文本D'，执行步骤4到步骤12，得到D'的向量空间模型V'；

步骤14)利用余弦公式，计算V与V'的夹角余弦值，即D与D'的文本相似度。

n为文本向量维数，w_ik为文档D_i第k维的权重。

如图2所示，词语语义转换步骤如下：

1)对于词语t，在语义语料库中选取包含t的所有语料，将原文t附近的j个词语作为t的正下文C；

2)使用C与每条包含t的语料中的p类节点内容，计算词语匹配率；

3)依据匹配率由高到低排序，根据设置的阈值ε，选取n条语料；

4)在这n条语料中统计t的语义表示，将出现次数最多的p类型(如上图中的p₁,p₂,p₃)作为t的语义表示。

图中，S：发起者，即“谁说的”。对于一段文本，发起者仅有一个，即文本来源；

O：被描述对象，即“说的谁”。一段文本可以对多个对象进行描述，记为O₁,O₂,……,O_n；

T：事件，即“怎么了”，如咨询、投诉等。每个被描述对象可能对应一个或多个事件，O₁的事件记为T₁₁,T₁₂,……,T_1m；

time：事件时间；

location：事件地点；

distance：当事件地点确定时，无该节点；当地点不确定时，文本中经常会出现如“附近”、“周边”、“西南”等方位的描述，这些词语即作为事件地点的distance补充；

procedure：事件流转的过程，可以根据选取一个或多个维度对事件进行阐述；

d：事件阐述维度。如事件发展的一般进程(起因、现状、影响等)、时间次序(时间点1，时间点2，...，时间点n)、执行顺序(步骤1，步骤2，……，步骤n)等，这一部分可根据实际需求自行定义；

p：事件各个阶段阐述。

其中，图中每个叶子节点均为一个词语列表，这些词语均来自于原文。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，包括步骤：

步骤1)建立语义解释模型；

步骤2)构建语义语料库：按语义解释模型人工标注文本并存储，每个文本对应一条语料；

步骤3)统计计算：依据建立的语料库，统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数；

步骤4)词语语义转换：对新输入文本D，分词，去停止词，得到按出现顺序排列的词语列表[t₁,t₂,......,t_n]，依据统计词频由高到低选取前m个词语[t₁',t₂',......,t_m']，m可取从1到n内的任意整数，按下述步骤行语义转换后，建立向量空间模型V₁；

步骤4.1)取其中任一词语t_k'设其在原文排序为i,将距离其最近的j个词语作为t_k'上下文，即C:[t_i-j/2,t_i-j/2+1,......,t_i+1,......,t_i+j/2]，其中j为窗口长度，取整数；当i-j/2＜0时，令j＝2i；当i-j/2在不为整数时，下取整；当i+j/2不为整数时，上取整；

步骤4.2)，在语义语料库中，选取包含t_k'的所有语料，计算上下文C与各条语料p类节点内容的词语匹配率，公式如下：

其中，N_same为t_k'的上下文C与某语料p类节点内容相同的词语数；

步骤4.3)，选取匹配率高于ε的N条语料为候选语料，ε为阈值，取0到1间小数；

步骤4.4)，在N条候选语料中统计t_k'的p类节点内容，将出现次数最多的p类节点内容作为t_k'的语义表示；

步骤4.5)重复所述步骤4.1～4.4，依次转换剩余的m-1个词语；

步骤5)建立全部文本向量空间模型，对未进行语义转换的词语建立向量空间模型V₂，将V₁与V₂相加，得到全文本向量空间模型V；

步骤6)对新文本D'重复步骤3、步骤4和步骤5，得到其向量空间模型V'；

步骤7)利用余弦公式，计算文本D与D'相似度。

2.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，所述步骤4，依据TF-IDF计算公式，计算权重，构建前m个高频词语的所述向量空间模型V₁:[p₁,p₂,......,p_m]；TF-IDF值计算公式如下：

3.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，所述步骤5)，依据所述TF-IDF值计算公式，计算余下n-m个词语的权重，构建所述向量空间模型V₂:[w₁,w₂,......,w_n-m]，其中tf为词语在文中出现的频率，D_w为包含该词语的语料数。

4.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，所述步骤7)，利用余弦公式：