CN113435212A - 一种基于规则嵌入的文本推断方法及装置 - Google Patents
一种基于规则嵌入的文本推断方法及装置 Download PDFInfo
- Publication number
- CN113435212A CN113435212A CN202110984877.9A CN202110984877A CN113435212A CN 113435212 A CN113435212 A CN 113435212A CN 202110984877 A CN202110984877 A CN 202110984877A CN 113435212 A CN113435212 A CN 113435212A
- Authority
- CN
- China
- Prior art keywords
- network
- text
- input text
- rule
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
一种基于规则嵌入的文本推断方法,包括基于预训练的语义逻辑网络,对逻辑规则的不同组件进行神经检索及推断,且支持用户需求改变或任务迁移;结合语义逻辑网络与神经分类网络的平行结构,采用概率分布距离函数Jensen‑Shannon散度,通过网络精调训练约束其推断结果的一致性。本发明提出的语义逻辑网络将用户规则编码为语义向量,能够在检测逻辑规则的同时更好地保留文本的语义信息,支持语言灵活性和文本多样性。本发明还提出了将用户规则集成到神经分类网络中以改善文本推断性能的方法,即结合神经分类网络和语义逻辑网络推断的平行预测结构,采用一致性联合损失,能够使得语义逻辑网络和神经分类网络相互受益,并将规则的检测结果作为文本推断的证据。
Description
技术领域
本发明公开一种基于规则嵌入的文本推断方法及装置,属于自然语言处理的技术领域。
背景技术
舆情订阅是新媒体时代的重要应用场景,其是指由传媒机构依据订阅用户的需求,定期推送用户关注的互联网舆情或新闻等文本,其中用户需求通常以关键词逻辑规则的形式表达,描述了用户偏好的文本内容。基于用户需求的文本推断任务是指判定一个文本是否满足用户需求,该任务在上述场景中具有重要应用价值。
现有处理上述推断任务的技术主要分为两类,一是基于关键词布尔检索结果进行推断,通过比对文本及用户定义的关键词逻辑表达式,找出匹配逻辑表达式的文本,但是这种关键词布尔检索方式存在局限,自然语言的灵活性使得相同语义的文本表达形式具有很大自由度,影响匹配结果。另一种是基于深度学习的分类方法,基于预训练词向量和神经网络进行文本类型推断,在大规模标注数据集上进行监督学习,使得神经网络能够从语义层面理解和推断文本是否满足用户需求,如基于卷积神经网络获取文本表示向量记载在中国专利文献CN113076488A中:一种基于用户数据推荐信息的方法及系统,通过预设关键词对承载用户信息的文本中的特定语句进行特征建模,然而其缺陷是难以处理用户需求所涉及主题的多样性问题,且难以适应用户需求变化。
发明内容
针对现有技术存在的问题,本发明公开一种基于规则嵌入的文本推断方法。
本发明还公开一种实现上述文本推断方法的装置,以实现对文本的推断处理。
发明概述:
一种基于规则嵌入的文本推断方法,包括两部分:一是基于预训练的语义逻辑网络,对逻辑规则的不同组件进行神经检索及推断,且支持用户需求改变或任务迁移;二是结合语义逻辑网络与神经分类网络的平行结构,采用概率分布距离函数Jensen-Shannon散度,通过网络精调训练约束其推断结果的一致性。最后,基于语义逻辑网络和神经分类网络的预测结果进行融合推断,同时语义逻辑网络的激活结果作为文本推断结果的证据。
本发明中提出语义逻辑网络,以神经方式近似逻辑推断过程,该过程包含文本对逻辑规则中不同粒度组件的检测,并组合检测结果,组件包括项、合取和析取。通过引入三个独立的损失函数,分别验证文本对上述组件的包含关系。针对动态变化的用户需求带来的挑战,本发明使用预训练-精调机制训练语义逻辑网络。语义逻辑网络由三个模块构成,分别用于对用户规则中的项、合取规则以及析取规则的语义检测,并组合检测结果进行文本推断。从中文通用语料库如中文维基百科获取文本,并从中文同义词林如中文WordNet获取通用关键词集合语料。使用通用语料预训练每个模块,以增强网络对关键词检测的鲁棒性,并在既往用户数据上进行微调,从而提高对用户需求变更的适应性。
另外,本发明提出一种将可选神经分类网络与语义逻辑网络相结合的平行结构,通过联合训练的方式,精调网络以提升推断性能。为了联合神经分类网络与语义逻辑网络,本发明使用Jensen-Shannon损失函数作为正则化项,通过网络精调阶段训练,约束平行结构两侧预测结果的一致性。
技术术语解释:
1.用户需求:也称为用户规则,在本发明中指订阅用户描述其对于文本内容的偏好,以关键词集合形式的逻辑规则的形式给出,关键词即为学术领域中的词汇或词组。动态变更的用户需求指:当用户提出新的关注点时,通过添加或删减关键词,改变逻辑表达式进行表达。
2.文本推断:对于给定的用户需求,推断输入文本是否满足需求。
3.语义逻辑网络:指用于对输入文本的语义检测及推断的神经网络。
4.平行网络:能实现独立计算并能联合进行文本推断的两个神经网络,本发明中的平行网络包括相互平行设置的语义逻辑网络和神经分类网络。
5.一致性约束:指在损失函数中,通过引入概率分布距离函数Jensen-Shannon散度,简称JS距离,作为正则化项,约束平行网络两侧的推断结果向概率分布一致性方向优化;其中,所述JS距离是Kullback-Leibler(KL)散度的变体,解决了KL散度的非对称问题。
本发明详细的技术方案如下:
一种基于规则嵌入的文本推断方法,其特征在于,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
在公式(1)中,表示合取规则的数量,r i为第i个用户规则;所述命题公式P中,联结词取自集合,项是一个关键词集合,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式,是一条由关键词集合构成的合取规则,即,其中表示合取规则中项的个数,构成用户需求的所有合取规则集合表示为,即为用户规则集,其中表示合取规则的数量;在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删合取规则能够高效的适应用户需求的变更;本步骤中所述转化的具体过程与传统的逻辑表达式转化方式相同,不属于本发明所要保护的内容;
2)判定一个输入文本是否满足用户规则:
给定文本集合以及用户规则集;输入文本的词序列表示为;推断输出文本级概率为,表示输入文本满足用户规则的概率;规则级概率为,是长度为的序列,其第i个维度取值表示预测输入文本x满足用户规则的概率,依据的取值判定文本x满足了哪些用户规则。
本发明利用语义逻辑网络,对输入文本x进行理解,推断其是否满足用户需求对应的用户规则:
利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则,本步骤判定输入文本x是否满足用户规则中的项、合取规则、析取规则的语义,如附图1右侧所示,自底向上的三个模块分别项检测、合取规则检测以及析取规则检测。
根据本发明优选的,所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
根据本发明优选的,所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2-1)项检测
将输入文本转化为对应的预训练词向量构成的矩阵:预训练词向量指采用中文维基百科语料库和word2vec算法训练得到的中文词向量,由输入文本中所有词汇对应的预训练词向量组成的矩阵,记为,其中代表实数域,u是输入文本的截断长度,d是预训练词向量的长度,是词汇对应的长度为d的向量;
对输入文本通过编码网络ENC进行语义编码后得到文本语义向量,本发明中,可以采用不同卷积神经网络,此处优选采用TEXTCNN结构作为编码网络ENC,所使用的三种卷积核尺寸分别为2×d,3×d,4×d,其中d是预训练词向量的维度,每种卷积核数量为64;
其中,是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得;表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失以更新项检测网络中的所有参数;表示使用范数来对项检测网络的参数进行正则化以避免过拟合;本发明中所述交叉熵损失函数为交叉熵cross-entropy损失函数;
2-2)合取规则检测
合取规则嵌入网络,本发明验证了采用如或等不同结构,均具有近似逻辑合取运算的能力,合取规则包含的项构成序列,其对应项检测获得的项的表示向量构成序列,将序列中所有向量拼接作为输入,经过获得合取规则的表示向量,该输出向量蕴含输入文本对合取规则的语义包含关系:
采用交叉熵损失函数来衡量预测结果与真实结果,即规则的真实标签的差异,求损失,其中是规则的真实标签,通过相关项标签的布尔值的合取运算获得;表示训练集合样本期望;训练过程通过最小化损失以更新UNet和合取规则检测模块中的所有参数,表示使用范数来对UNet和合取规则检测模块中的所有参数进行正则化以避免过拟合:
2-3)析取范式检测
析取范式检测用于验证输入文本x是否满足完整的用户规则集,这等价于验证文本是否满足用户规则集中任意一条合取规则;
输出为:预测输入文本满足用户规则集的概率;
采用max函数来实现析取网络:将步骤2-2)所述推断结果中最大的概率作为文本推断结果,表示推断输入文本x满足用户需求的概率,其中是预测输入文本满足用户规则集的概率,表示取最大概率的函数,表示合取规则检测模块输出的推断结果:
采用交叉熵损失函数,求损失,如公式(10)所示,其中y是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,训练过程通过最小化损失以更新语义逻辑网络的所有参数,表示使用范数来对语义逻辑网络的参数进行正则化以避免过拟合:
根据本发明优选的,所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为
ENC2,优选基于CNN、RNN或BERT的编码模块;通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示,表示神经分类网络预测输入文本符合用户需求的概率,此处的是所述输出文本级标签,表示激活函数,是网络参数:
用交叉熵损失函数衡量神经分类网络的预测结果与真实结果,即输入文本的真实标签之间的差异性,公式(12)所示,得到损失,通过最小化损失以更新神经分类网络的所有参数,其中y是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,表示使用范数来对神经分类网络的所有参数进行正则化以避免过拟合:
3)对所述输入文本分别通过神经分类网络及语义逻辑网络进行推断,得到两者的预测结果,最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
一种实现上述文本推断方法的装置,其特征在于,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
根据本发明优选的,所述实现上述文本推断方法的装置还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen-Shannon散度约束两者预测结果的一致性。
本发明的技术优势在于:
(1) 本发明提出的语义逻辑网络将用户规则编码为语义向量,能够在检测逻辑规则的同时更好地保留文本的语义信息,支持语言灵活性和文本多样性。
(2) 本发明还提出了将用户规则集成到神经分类网络中以改善文本推断性能的方法,即结合神经分类网络和语义逻辑网络推断的平行预测结构,采用一致性联合损失,能够使得语义逻辑网络和神经分类网络相互受益,并将规则的检测结果作为文本推断的证据。
本发明提出的基于预训练的语义逻辑推断,能够较好地应对动态变化的用户需求。当用户提出新需求或变更需求时,难以及时获取大量标注数据的问题,为监督学习方法带来了挑战,针对该挑战,本发明利用中文维基百科等海量通用语料,及基于中文WordNet提取的同义词、近义词集合等开放领域的语言学知识,预训练语义逻辑网咯,并在特定用户数据上进行精调,增强了对关键词检测的鲁棒性,有利于高效地处理动态变化的用户需求。
附图说明
图1是本发明实现基于规则嵌入的文本推断方法的装置的示意图;
图2是本发明所述实施例中用户需求判定树示例。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
一种基于规则嵌入的文本推断方法,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
在公式(1)中,表示合取规则的数量,r i为第i个用户规则;所述命题公式P中,联结词取自集合,项是一个关键词集合,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式,是一条由关键词集合构成的合取规则,即,其中表示合取规则中项的个数,构成用户需求的所有合取规则集合表示为,即为用户规则集,其中表示合取规则的数量;在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删合取规则能够高效的适应用户需求的变更;
2)判定一个输入文本是否满足用户规则:
给定文本集合以及用户规则集;输入文本的词序列表示为;推断输出文本级概率为,表示输入文本满足用户规则的概率;规则级概率为,是长度为的序列,其第i个维度取值表示预测输入文本x满足用户规则的概率,依据的取值判定文本x满足了哪些用户规则。
本发明利用语义逻辑网络,对输入文本x进行理解,推断其是否满足用户需求对应的用户规则:
利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则。
所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2-1)项检测
将输入文本转化为对应的预训练词向量构成的矩阵:预训练词向量指采用中文维基百科语料库和word2vec算法训练得到的中文词向量,由输入文本中所有词汇对应的预训练词向量组成的矩阵,记为,其中代表实数域,u是输入文本的截断长度,d是预训练词向量的长度,是词汇对应的长度为d的向量;
对输入文本通过编码网络ENC进行语义编码后得到文本语义向量,本发明中,可以采用不同卷积神经网络,此处优选采用TEXTCNN结构作为编码网络ENC,所使用的三种卷积核尺寸分别为2×d,3×d,4×d,其中d是预训练词向量的维度,每种卷积核数量为64;
其中,是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得;表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失以更新项检测网络中的所有参数;表示使用范数来对项检测网络的参数进行正则化以避免过拟合;本发明中所述交叉熵损失函数为交叉熵cross-entropy损失函数;
2-2)合取规则检测
合取规则嵌入网络,本发明验证了采用如或等不同结构,均具有近似逻辑合取运算的能力,合取规则包含的项构成序列,其对应项检测获得的项的表示向量构成序列,将序列中所有向量拼接作为输入,经过获得合取规则的表示向量,该输出向量蕴含输入文本对合取规则的语义包含关系:
采用交叉熵损失函数来衡量预测结果与真实结果的差异,求损失,其中是规则的真实标签,通过相关项标签的布尔值的合取运算获得;表示训练集合样本期望;训练过程通过最小化损失以更新UNet和合取规则检测模块中的所有参数,表示使用范数来对UNet和合取规则检测模块中的所有参数进行正则化以避免过拟合:
2-3)析取范式检测
输出为:预测输入文本满足用户规则集的概率;
采用max函数来实现析取网络:将步骤2-2)所述推断结果中最大的概率作为文本推断结果,表示推断输入文本满足用户需求的概率,其中是预测输入文本满足用户规则集的概率,表示取最大概率的函数,表示合取规则检测模块输出的推断结果:
采用交叉熵损失函数,求损失,如公式(10)所示,其中是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,训练过程通过最小化损失以更新语义逻辑网络的所有参数,表示使用范数来对语义逻辑网络的参数进行正则化以避免过拟合:
实施例2、
如实施例1所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为
ENC2,优选基于CNN、RNN或BERT的编码模块;通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示,表示神经分类网络预测输入文本符合用户需求的概率,此处的是所述输出文本级标签,表示激活函数,是网络参数:
用交叉熵损失函数衡量神经分类网络的预测结果与真实结果之间的差异性,公式(12)所示,得到损失,通过最小化损失以更新神经分类网络的所有参数,其中是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,表示使用范数来对神经分类网络的所有参数进行正则化以避免过拟合:
3)对所述输入文本分别通过神经分类网络及语义逻辑网络进行推断,得到两者的预测结果,最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
实施例3、
一种实现如实施例1所述文本推断方法的装置,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
实施例4、
一种实现如实施例2所述文本推断方法的装置,在实施例3的基础上,所述实现上述文本推断方法的装置还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen-Shannon散度约束两者预测结果的一致性。
应用例、
如实施例1-4所述的方法和装置的实际应用方法如下。
基于通用语料的语义逻辑网络预训练:
获取通用语料,包括:从中文通用语料库如中文维基百科获取训练文本,从中文同义词林如中文版WordNet获取关键词集合。
依据实施例1中所述步骤2),结合附图1,使用通用语料预训练项检测模块和合取规则检测模块,具体包括:
在模型的embedding层,将输入的token转换为对应的预训练词向量。对于待检测的关键词集合,其向量为集合中所有词汇对应预训练词向量的均值,这是因为同义词的嵌入在语义空间具有相邻的位置关系,平均向量能够呈现共同语义特征;另一方面,对于地名集合,将地理区划上的最上辖词作为代理词,这是因为下辖的地名均蕴含着“事件发生于区域内”这一事实;
依据实施例1的步骤2-2),在预训练的UNet上添加合取规则检测模块,使用通用语料训练两个模块,具体包括:
基于用户数据精调网络,具体如下:
获取逻辑规则形式的用户需求:
某订阅用户关注特定地域内的突发事件,包括社会安全事件及自然灾害等,该用户的需求描述如附图2所示,白色节点表示逻辑或运算,黑色节点表示逻辑与运算:
对于目标文本,从叶节点开始判定,并将布尔判定值传向根节点,附图2中关键词集合的示例内容如表1所示:
表1 订阅用户的关键词集合示例
依据实施例1的步骤1)写出订阅用户的需求判定树对应的逻辑规则,与判定树等价的命题公式及析取范式如表2所示。
表2 订阅用户的逻辑规则
使用用户样本及规则精调语义逻辑网络:
将样本集的文本进行预处理,包括中文分词、文本截断或填充以及将分词后的词汇转换为token的输入形式。并且将逻辑规则中包含的所有关键词转换为token的输入形式。
使用样本集精调语义逻辑网络,具体包括:
依据骤2-2),使用用户样本集及合取规则精调网络UNet和CNet,类比预训练过程,迭代训练直到验证集准确率提升小于阈值。
依据步骤2-3),添加析取规则检测模块,使用用户样本集训练DNet,具体包括:
输入及,经过UNet和CNet获取所有合取规则的预测概率,如公式(9)所示,用MAX网络求其中的最大概率作为推断文本满足用户需求的概率。例如,有经过CNet输出的三个预测概率,分别为0.98、0.73、0.43,则MAX网络输出的概率为0.98,表明文本若满足其中任意一条规则,则满足用户需求。
基于用户数据训练平行网络,具体如下:
依据实施例2、4使用用户样本集训练平行网络结构,具体包括:
独立训练神经分类网络:使用用户样本集充分训练神经分类网络,损失函数如公式(12)。
Claims (7)
1.一种基于规则嵌入的文本推断方法,其特征在于,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
在公式(1)中,表示合取规则的数量,r i为第i个用户规则;所述命题公式P中,联结词取自集合,项是一个关键词集合,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式,是一条由关键词集合构成的合取规则,即,其中表示合取规则中项的个数,构成用户需求的所有合取规则集合表示为,即为用户规则集,其中表示合取规则的数量;在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删合取规则能够高效的适应用户需求的变更;
2)判定一个输入文本是否满足用户规则:
利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则。
2.根据权利要求1所述的一种基于规则嵌入的文本推断方法,其特征在于,所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
3.根据权利要求1所述的一种基于规则嵌入的文本推断方法,其特征在于,所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2-1)项检测
其中,是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得;表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失以更新项检测网络中的所有参数;表示使用范数来对项检测网络的参数进行正则化;
2-2)合取规则检测
采用交叉熵损失函数来衡量预测结果与真实结果,即规则的真实标签的差异,求损失,其中是规则的真实标签,通过相关项标签的布尔值的合取运算获得;表示训练集合样本期望;训练过程通过最小化损失以更新UNet和合取规则检测模块中的所有参数,表示使用范数来对UNet和合取规则检测模块中的所有参数进行正则化:
2-3)析取范式检测
输出为:预测输入文本满足用户规则集的概率;
采用交叉熵损失函数,求损失,如公式(10)所示,其中是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,训练过程通过最小化损失以更新语义逻辑网络的所有参数,表示使用范数来对语义逻辑网络的参数进行正则化:
4.根据权利要求2所述的一种基于规则嵌入的文本推断方法,其特征在于,所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为
ENC2;通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示,表示神经分类网络预测输入文本符合用户需求的概率,此处的是所述输出文本级标签,表示激活函数,是网络参数:
用交叉熵损失函数衡量神经分类网络的预测结果与真实结果,即输入文本的真实标签之间的差异性,公式(12)所示,得到损失,通过最小化损失以更新神经分类网络的所有参数,其中是输入文本的真实标签,由专家标注文本是否满足用户需求,表示训练集合样本期望,表示使用范数来对神经分类网络的所有参数进行正则化:
对所述输入文本分别通过神经分类网络及语义逻辑网络进行推断,得到两者的预测结果,最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
6.一种实现如权利要求1-5任意一项所述文本推断方法的装置,其特征在于,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
7.如权利要求6所述装置,其特征在于,还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen-Shannon散度约束两者预测结果的一致性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984877.9A CN113435212B (zh) | 2021-08-26 | 2021-08-26 | 一种基于规则嵌入的文本推断方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984877.9A CN113435212B (zh) | 2021-08-26 | 2021-08-26 | 一种基于规则嵌入的文本推断方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435212A true CN113435212A (zh) | 2021-09-24 |
CN113435212B CN113435212B (zh) | 2021-11-16 |
Family
ID=77797888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110984877.9A Active CN113435212B (zh) | 2021-08-26 | 2021-08-26 | 一种基于规则嵌入的文本推断方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435212B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003726A (zh) * | 2021-12-31 | 2022-02-01 | 山东大学 | 一种基于子空间嵌入的学术论文差异性分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103605729A (zh) * | 2013-11-19 | 2014-02-26 | 段炼 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN109840322A (zh) * | 2018-11-08 | 2019-06-04 | 中山大学 | 一种基于强化学习的完形填空型阅读理解分析模型及方法 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
US10621499B1 (en) * | 2015-08-03 | 2020-04-14 | Marca Research & Development International, Llc | Systems and methods for semantic understanding of digital information |
CN113268565A (zh) * | 2021-04-27 | 2021-08-17 | 山东大学 | 一种基于概念文本的词向量快速生成方法和装置 |
-
2021
- 2021-08-26 CN CN202110984877.9A patent/CN113435212B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
CN103605729A (zh) * | 2013-11-19 | 2014-02-26 | 段炼 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
US10621499B1 (en) * | 2015-08-03 | 2020-04-14 | Marca Research & Development International, Llc | Systems and methods for semantic understanding of digital information |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN109840322A (zh) * | 2018-11-08 | 2019-06-04 | 中山大学 | 一种基于强化学习的完形填空型阅读理解分析模型及方法 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN113268565A (zh) * | 2021-04-27 | 2021-08-17 | 山东大学 | 一种基于概念文本的词向量快速生成方法和装置 |
Non-Patent Citations (3)
Title |
---|
LI ZHAOHUI;BAI XIAOCHEN;HU RUI;LI XIAOLI: ""Measuring Phase-Amplitude Coupling Based on the Jensen-Shannon Divergence and Correlation Matrix"", 《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING : A PUBLICATION OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 * |
刘云: ""面向社会化媒体用户评论行为的属性推断"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
陈良军; 洪彧; SUJITH MANGALATHU; 勾红叶; 蒲黔辉: ""基于Jensen-Shannon散度的自适应采样方法的高效可靠性分析"", 《JOURNAL OF CENTRAL SOUTH UNIVERSITY》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003726A (zh) * | 2021-12-31 | 2022-02-01 | 山东大学 | 一种基于子空间嵌入的学术论文差异性分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113435212B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182562B2 (en) | Deep embedding for natural language content based on semantic dependencies | |
Marivate et al. | Improving short text classification through global augmentation methods | |
US11281976B2 (en) | Generative adversarial network based modeling of text for natural language processing | |
US11481416B2 (en) | Question Answering using trained generative adversarial network based modeling of text | |
US10657259B2 (en) | Protecting cognitive systems from gradient based attacks through the use of deceiving gradients | |
Mahmood et al. | Deep sentiments in roman urdu text using recurrent convolutional neural network model | |
Ezaldeen et al. | A hybrid E-learning recommendation integrating adaptive profiling and sentiment analysis | |
Suissa et al. | Text analysis using deep neural networks in digital humanities and information science | |
US11663518B2 (en) | Cognitive system virtual corpus training and utilization | |
Rauf et al. | Using bert for checking the polarity of movie reviews | |
CN110781666B (zh) | 基于生成式对抗网络的自然语言处理文本建模 | |
Essa et al. | Fake news detection based on a hybrid BERT and LightGBM models | |
Jiang et al. | A hierarchical model with recurrent convolutional neural networks for sequential sentence classification | |
Suresh Kumar et al. | Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification | |
Patil et al. | Hate speech detection using deep learning and text analysis | |
CN113435212B (zh) | 一种基于规则嵌入的文本推断方法及装置 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
Neill et al. | Meta-embedding as auxiliary task regularization | |
Nazarizadeh et al. | Using Group Deep Learning and Data Augmentation in Persian Sentiment Analysis | |
Kandi | Language Modelling for Handling Out-of-Vocabulary Words in Natural Language Processing | |
Lou | Deep learning-based sentiment analysis of movie reviews | |
Jawale et al. | Sentiment analysis and vector embedding: A comparative study | |
Ait Benali et al. | Arabic named entity recognition in social media based on BiLSTM-CRF using an attention mechanism | |
Baruah et al. | Detection of Hate Speech in Assamese Text | |
Han | Emotion Analysis of Literary Works Based on Attentional Mechanisms and the Fusion of Two-Channel Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |