CN111552816B

CN111552816B - 面向大数据文本挖掘的动态认知语义匹配方法

Info

Publication number: CN111552816B
Application number: CN202010263232.1A
Authority: CN
Inventors: 赵安平; 于宇
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2020-04-05
Filing date: 2020-04-05
Publication date: 2022-07-19
Anticipated expiration: 2040-04-05
Also published as: CN111552816A

Abstract

本发明公开了一种面向大数据文本挖掘的动态认知语义匹配方法，通过对大数据文本空间进行文本特征和语义空间的量子认知表示，得到表征大数据文本空间语义空间的线性组合，针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示和语义建模，根据语义表示和语义建模进行建模，得到初始匹配模型，采用深度神经网络针对所述初始匹配模型计算词间的语义关系，获得动态认知语义空间预测模型，采用动态认知语义空间预测模型对待匹配语句进行语义匹配，以实现对待匹配语句的语义匹配。

Description

面向大数据文本挖掘的动态认知语义匹配方法

技术领域

本发明涉及面向大数据文本挖掘技术领域，尤其涉及一种面向大数据文本挖掘的动态认知语义匹配方法。

背景技术

大数据时代，从海量的非结构化文本数据中挖掘其潜在的价值,成为大数据处理技术研究的主要动力。综合分析国内外研究和技术现状，在面向大数据文本挖掘的过程中，以人的认知规律为驱动、语义智能化的动态认知语义空间匹配方面还存在三个主要问题：

1)研究的对象是大数据文本，不能采用传统的认知语义空间方法思路，更多的应该考虑在特定情境下的认知的局部的形式化，需要建立在动态语义进化情境下，建模能够可靠合理解释和评价的语义空间匹配来模拟人的各种认知心理现象。

2)面向大数据文本挖掘过程中出现全新涌现语义等现象，不能采用传统的经典概率理论框架来解释，因此，建模不同的观测视角的自然语言意义理解和语义匹配，传统方法存在一定局限性，许多现成的文本挖掘理论的结果和工具不能直接利用。

3)针对大数据文本挖掘技术中具有关键支撑作用的、符合人类认知规律的动态认知语义匹配的各个因素还需继续提炼，松散性的语义关联不能充分应用于海量的文本数据中发现新的模式、模型、规则、趋势等知识。

因此，研究如何以符合人类认知规律的方式进行认知语义匹配来支持智能的大数据文本挖掘过程，并且描述和解释在此过程中经典概率理论无法解释的人类自然语言理解和认知过程，是目前亟待解决的课题。

发明内容

针对以上问题，本发明提出一种面向大数据文本挖掘的动态认知语义匹配方法。

为实现本发明的目的，提供一种面向大数据文本挖掘的动态认知语义匹配方法，包括如下步骤：

S10，对大数据文本空间进行文本特征和语义空间的量子认知表示，得到表征大数据文本空间语义空间的线性组合；

S20，针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示和语义建模，根据语义表示和语义建模进行建模，得到初始匹配模型；

S30，采用深度神经网络针对所述初始匹配模型计算词间的语义关系，获得动态认知语义空间预测模型，采用动态认知语义空间预测模型对待匹配语句进行语义匹配。

在一个实施例中，所述对大数据文本空间进行文本特征和语义空间的量子认知表示，得到表征大数据文本空间语义空间的线性组合包括：

基于量子认知理论中对情境的隐含考虑，获取大数据文本空间的基本状态所构成的量子态向量；

根据所述量子态向量采用超空间模拟语言模型在量子认知和语义空间之间建立关联，将大数据文本空间的文本特征和语义空间嵌入到量子理论中，以将量子描述方法引入代表人类认知行为现象的认知语义空间，得到表征大数据文本空间语义空间的线性组合。

作为一个实施例，所述量子态向量包括：

B＝{|S₁>,K,|S_n>}，

其中|S_i>表示第i个基本状态，B表示量子态向量，i的取值为1、Λ、n。

在一个实施例中，所述针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示和语义建模包括：

将目标词的关联网络建模为复合量子系统，在复合量子系统中形式化认知的过程，用状态向量|11K 1>表示目标词及其所有的关联都被激活的量子系统的状态，用状态向量|00K 0>对应于没有词及关联被激活的量子系统的状态；

针对所述线性组合采用状态向量|11K 1>和状态向量|00K 0>获取所述大数据文本空间的语义表示和语义建模。

作为一个实施例，所述目标词及其整个关联结构的激活过程，表征一个量子态的叠加及纠缠的过程。

在一个实施例中，所述采用深度神经网络针对所述初始匹配模型计算词间的语义关系包括：

采用深度循环神经网络RNN模型来捕捉长距离语义情境依赖，得到语义情境依赖信息；

根据所述语义情境依赖信息针对所述初始匹配模型计算词间的语义关系。

上述面向大数据文本挖掘的动态认知语义匹配方法，通过对大数据文本空间进行文本特征和语义空间的量子认知表示，得到表征大数据文本空间语义空间的线性组合，针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示和语义建模，根据语义表示和语义建模进行建模，得到初始匹配模型，采用深度神经网络针对所述初始匹配模型计算词间的语义关系，获得动态认知语义空间预测模型，采用动态认知语义空间预测模型对待匹配语句进行语义匹配，以实现对待匹配语句的语义匹配。其面向大数据空间，采用量子认知框架，建模和解释在大数据文本挖掘的动态情境进化过程中，经典概率理论无法解释的全新语义涌现等自然语言理解和认知现象，形式化地建模在语义空间进化认知过程中的语境、语义等方面的不确定性，解决了面向大数据文本挖掘过程的认知语义匹配进化过程中如何将人的认知过程等不确定性形式化的问题，比以往的文本挖掘语义空间建模技术更具有通用型和实际价值。

附图说明

图1是一个实施例的面向大数据文本挖掘的动态认知语义匹配方法流程示意图；

图2是另一个实施例的面向大数据文本挖掘的动态认知语义匹配方法流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明的目的在于针对上述大数据文本挖掘过程中的，会产生用经典概率理论无法解释的自然语言理解和认知现象的问题，在符合工程实践的条件下，提供一种基于量子认知框架，来设计支持大数据文本挖掘过程、符合人的认知规律的动态认知语义匹配建模方法。

本发明所要解决的技术问题是：

1)大数据文本信息内在多维、动态语义交互关系的表示。表示大数据空间中语义相关联的各个方面的属性和特征，以便能够度量文本信息内在语义交互情境和蕴含因素，是从理论上建模动态认知空间，实现面向大数据文本智能挖掘过程的基础与关键。

2)认知空间的动态进化状态预测。大数据文本挖掘需要在情境变化和全新语义涌现的过程中的协作，如何在面向这种语义情境动态变化的过程中，支持语义空间在时间和语义情境维度上动态关系传播路径的有效进化预测，捕获认知语义匹配动态进化，达到人类认知预期状态，是本发明需要解决的核心问题。

整体上，将大数据文本空间理解为由大量个体文本特征数据遵循相互作用和关联规则而形成具有多维复杂网络形态的整体。把量子认知框架与机器学习整合，应用于多维关联网络，作为解决面向大数据文本挖掘的动态认知语义匹配建模问题的基本框架和核心思想。具体的技术方案围绕关联网络文本特征及语义空间的量子认知表示方法、基于量子概率的语义关联发现、动态认知语义空间的进化三部分展开。具体可以参考图1所示，图1为一个实施例的面向大数据文本挖掘的动态认知语义匹配方法流程示意图，包括如下步骤：

S10，对大数据文本空间进行文本特征和语义空间的量子认知表示，得到表征大数据文本空间语义空间的线性组合。

S20，针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示和语义建模，根据语义表示和语义建模进行建模，得到初始匹配模型。

具体地，所述量子态向量包括：

B＝{|S₁>,K,|S_n>}，

本实施例可以实现文本特征和语义空间的量子认知表示。

进一步地，语言中的词是人类认知的心理词汇，词的关联链接定义了这些词汇间的结构。人类通过经验获得这些关联链接，经验的半随机特性确保心理词汇中的词是直接和间接地通过其他的词高度相互关联。关联网络所表示的自然语义是分类认知空间中概念之间的语义依赖关联。采用量子认知条件概率的基本框架来表示大数据空间的语义关联网络。条件概率表示在某种情境线索发生的条件下，某个词所表示的含义。量子理论度量的核心是识别上下文情境提取其量子态。基于量子认知理论中对情境的隐含考虑，词及其关联模型表示的起点是一系列基本状态所构成的量子态向量B＝{|S₁>,K,|S_n>}，其中|S_n>表示一个基本状态，具体的情境线索表示为向量中的一个状态。把情境线索词表示为一个希尔伯特空间中的单位向量，基本状态向量对应于n个潜在的与情境线索的关联。不同情境线索条件下的单词，用不同的基本状态来表示，每一个基本状态建模关于给定线索条件的情境。因此，一个潜在的高维希尔伯特空间表示词在其所处的所有关联情境中自然地建模一个语义关联网络。词|w>在希尔伯特空间中表示为：

|w>＝a₁|S₁>+,K,+a_n|S_n>，

其中，∑|a_i|²＝1，基状态向量B＝{|S₁>,K,|S_n>}对应于n个与词w潜在的语义关联。

采用超空间模拟语言(HAL)模型在量子认知和语义空间之间建立关联，将语义空间嵌入到量子理论中，尝试将量子描述方法引入代表人类认知行为现象的认知语义空间。基于HAL构造词关联的矩阵来表示量子语义空间S_n×m，其中行向量V＝{v₁,v₂,K,v_n}表示语义空间中的词，列向量|w>＝{|w₁>,K,|w_m>}描述了语义空间S中词w的“意义”的状态。词的向量表示对应于基本状态的叠加，每个基本状态对应于特定的含义。考虑一组围绕词w，长度为l的y个文本窗口，语义空间S_j与文本窗口j相关联，1≤j≤m。则围绕词汇w的语义空间为：

假设词w具有m个含义，由于每个含义表示w的特定状态，则每个含义可以表示为在叠加纠缠状态下具有关联概率的语义空间：

S_w＝p₁S₁+p₂S₂+K+P_mS_m，

其中，p₁+K+p_m＝1。上述公式提供了基于量子力学的理论，根据语义空间的和来计算语义空间的依据，表达了围绕概念w的语义空间可以构想为围绕w的含义的语义空间的线性组合。

基于以上将大数据空间中，人类认知词汇及其语义空间的物理含义采用量子态来表示的方法，在实际的大数据文本挖掘中，在时间上，能够大大提高挖掘运算的效率。由于量子力学使用希尔伯特空间中的向量来描述物理系统，而希尔伯特空间本身就是完备的线性空间，对量子态的操作即在线性空间中对向量的操作。同时，量子态满足叠加性原理，对多个态可实行并行操作，故计算效率远超经典计算。在面向大数据的文本挖掘过程中，基于量子认知的表示，满足量子力学规律及数学特性，挖掘过程中能有效处理高维数据，有效解决传统机器学习方法在大数据空间文本挖掘运算效率低的问题。

具体地，所述目标词及其整个关联结构的激活过程，表征一个量子态的叠加及纠缠的过程。

进一步地，认知心理学的证据表明，对于任何单个的词会通过先前的学习激活与之相关联的词，构成相关联的网络。因而在人类认知过程中，认知空间中激活目标词的同时激活它的整个关联结构。在量子认知理论中，这种关联体现为量子的叠加和纠缠。将目标词的关联网络建模为复合量子系统，在复合量子系统中形式化这种认知的过程。用状态向量|11K 1>表示目标词及其所有的关联都被激活的量子系统的状态，即所有的量子态崩塌到状态1。相反，状态|00K 0>对应于没有词及关联被激活的状态。目标词及其整个关联结构的激活过程，是一个量子态的叠加及纠缠的过程。建模关联状态：

上述关联状态表示整个关联结构被激活(|11K 1>)或根本不激活(|00K 0>)的叠加状态，其中p表示语义关联网络被激活的概率。

考虑到人类的认知问题不能全部、完整、统一的形式化，但特定情境下的认知可以局部的形式化。在面向大数据的文本挖掘过程中，这种认知的特征体现为基于情境的语义空间发现，即语义空间中情境与概念含义的关系，概念的含义由它发生的上下文情境决定，含义随着情境的变化而发生变化。基于此，采用形态无关中心表示的语义空间发现方法，每个含义可以被表示为在叠加纠缠状态下具有的语义子空间，意义状态的量子崩塌表示了一个语义空间的发现。对于概念w的语义空间S_w，情境就像一个量子测量，它将S_w映射到一个子空间中，每个语义子空间对应于概念w的特定意义。将上下文情境表示为x，情境x的效果由操作符P_X引起。假设密度矩阵ρ_w对应于概念w，由于情境x导致的含义的崩塌刻画为：

其中

是其意义“崩溃”之后的w的状态。

大数据文本挖掘中，从海量语料中学习到的是词的通用语义信息，无法直接应用于定制业务的匹配场景。语义空间发现过程中的语义匹配问题和业务场景关系非常紧密，语义匹配作为自然语言处理经典的问题，可以用在搜索、推荐、广告等检索系统的召回、排序中，还可以用在文本的去重、归一、聚类、抽取等场景。如语义匹配相似度、点击关系相似度、用户行为相似度等。文本匹配主要计算两段文本的相似度问题，需要设计模型来充分考虑语义，来定义相似度作为优化目标。而中文的多义词、同义词等现象非常普遍，如“苹果操作非常方便”和“苹果多少钱一斤”属于不同的语义空间。基于量子概率形态无关中心表示的语义空间发现方法，利用量子态的叠加及纠缠特性，对语义表示和匹配同时建模，把传统算法中的语义空间识别转换为是对实向量间的距离作比较，可以高效地识别文本在不同的语境中表达的不同含义，做到语义层面匹配。

本实施例可以实现动态认知语义匹配进化识别。

具体地，通用数学框架表示是设计和实现智能化大数据文本挖掘算法的必要基础，通过在概率图模型中用波幅替换经典模型中的概率，将经典的概率图模型扩展到量子概率图模型，表示和定义量子语义空间中叠加和纠缠的量子态变量之间的依赖性。

一个希尔伯特空间和有限维度确定基状态向量的数量(概念的有限个含义)，每个基状态向量对应于语义特征组合(概念的语义和关系)，由基状态向量的子集所跨越的子空间表示出单个特征值。动态的量子概率图描述了如何计算在一个状态开始，跨越多个路径通过中间状态，然后在最终状态结束的量子概率。状态向量可用于表示一组语义特征的值组合的置信概率。假设有语义特征{u,v,w,x},所有特征的量子态值的所有组合形成若干个唯一事件模式的总集合。希尔伯特空间中的向量

表示组合变量的波函数(置信状态)：

其中，分配给基本状态向量的坐标

确定特征值组合的概率幅度，

定义具有观察约束的条件概率幅度。

隐含语义空间上量子态概率分布向量学习问题，类似于在经典概率图模型中基于局部观察条件下来学习概率。假设我们需要学习概率幅度向量a，分配给每个向量的先验概率密度表示为p(a)，对于语义特征{u，v，w，x}的条件状态观察表示为R，给定R中的观察值的条件下，a的后验概率通过贝叶斯规则获得：

然后，使用深度循环神经网络RNN(Recurrent Neuron Network)模型来捕捉长距离语义情境依赖，具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即：

h_t＝f(Uh_t-1+Vx_t+b)，

其中：h_t是t时刻隐藏层的输出，x_t是t时刻的输入，h_t-1是上一个隐藏层的输出，f一般是非线性的激活函数，U、V是隐藏层间和输入层与隐藏层间的链接权重，b是偏置向量。通过深度神经网络，计算词间的语义关系，实现动态认知语义空间预测模型，并提高了效率。

动态语义认知匹配的进化是语义空间中语义匹配在多维度的延伸，在典型的应用场景下，挖掘结果的呈现除了和语言层语义强相关之外，还和用户意图、用户状态等多个维度强相关，因而在不同维度下形成了认知语义空间的进化。如在美团和百度的应用场景中，用户在百度上搜索“关内关外”，其意图可能是想知道关内和关外代表的地理区域范围。而在美团上搜索“关内关外”，用户想找的可能是“关内关外”这家饭店。同样的词汇“关内关外”，在用户的不同意图维度进化为不同的语义空间。采用隐含语义空间上量子态概率分布向量学习结合深度神经网络的长距离语义情境依赖，能够自然地建模和检测这种多维度的语义匹配进化，在大数据文本挖掘中指引语义匹配模型的优化方向，最终把应用到搜索相关业务中。

本实施例具体如下技术效果：

面向大数据空间，采用量子认知框架，建模和解释在大数据文本挖掘的动态情境进化过程中，经典概率理论无法解释的全新语义涌现等自然语言理解和认知现象，形式化地建模在语义空间进化认知过程中的语境、语义等方面的不确定性，解决了面向大数据文本挖掘过程的认知语义匹配进化过程中如何将人的认知过程等不确定性形式化的问题，比以往的文本挖掘语义空间建模技术更具有通用型和实际价值。

在另一个实施例中，上述面向大数据文本挖掘的动态认知语义匹配方法也可以参考图2所示，具体包括：

首先，面向大数据文本空间，基于量子认知的语义关联网络表示方法，表达和解释认知语义空间中传统模型无法解释的词间动态、叠加纠缠等不确定的语义信息，提取结构化知识。

其次，利用量子认知理论表示在高维空间产生概念的含义及语义关联关系，发现构成语义空间的词及其关联所表示的含义，构建基于量子认知的语义空间，是大数据文本挖掘过程实现语义化、智能化的关键步骤。

最后，基于前两部分的工作基础，采用量子语义空间模型在高维空间中捕获一些文本的认知语义，预测产生代表不同动态语义空间含义的可能性，在基于情境变化的条件下发现识别动态的语义空间，实现面向大数据文本挖掘过程中认知语义匹配的进化预测。

在本实施例的整体实施方式中采用了不确定性认知的量子理论方法实现以大数据文本形态反映的语义情境进化过程中的概念交互和理解，形式化地体现了在语义空间进化认知过程中的语境、语义等方面的不确定性，解决了面向大数据文本挖掘过程中，如何将人的认知过程等不确定性形式化的动态认知语义匹配建模问题。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种面向大数据文本挖掘的动态认知语义匹配方法，其特征在于，包括如下步骤：

S20，针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示，根据语义表示进行建模，得到初始匹配模型；

S30，采用深度神经网络针对所述初始匹配模型计算词间的语义关系，获得动态认知语义空间预测模型，采用动态认知语义空间预测模型对待匹配语句进行语义匹配；所述对大数据文本空间进行文本特征和语义空间的量子认知表示，得到表征大数据文本空间语义空间的线性组合包括：

根据所述量子态向量采用超空间模拟语言模型在量子认知和语义空间之间建立关联，将大数据文本空间的文本特征和语义空间嵌入到量子理论中，以将量子描述方法引入代表人类认知行为现象的认知语义空间，得到表征大数据文本空间语义空间的线性组合；

所述针对所述线性组合采用基于量子概率的关联语义空间发现方法获取所述大数据文本空间的语义表示和语义建模包括：

将目标词的关联网络建模为复合量子系统，在复合量子系统中形式化认知的过程，用状态向量|11...1>表示目标词及其所有的关联都被激活的量子系统的状态，用状态向量|00...0>对应于没有词及关联被激活的量子系统的状态；

针对所述线性组合采用状态向量|11...1>和状态向量|00...0>获取所述大数据文本空间的语义表示和语义建模。

2.根据权利要求1所述的面向大数据文本挖掘的动态认知语义匹配方法，其特征在于，所述量子态向量包括：

B＝{|S₁>，...，|S_n>}，

其中|S₁>表示第j个基本状态，B表示量子态向量，j的取值为1、…、n。

3.根据权利要求2所述的面向大数据文本挖掘的动态认知语义匹配方法，其特征在于，所述目标词及其整个关联结构的激活过程，表征一个量子态的叠加及纠缠的过程。

4.根据权利要求1至3任一项所述的面向大数据文本挖掘的动态认知语义匹配方法，其特征在于，所述采用深度神经网络针对所述初始匹配模型计算词间的语义关系包括：