CN113435212A - 一种基于规则嵌入的文本推断方法及装置 - Google Patents

一种基于规则嵌入的文本推断方法及装置 Download PDF

Info

Publication number
CN113435212A
CN113435212A CN202110984877.9A CN202110984877A CN113435212A CN 113435212 A CN113435212 A CN 113435212A CN 202110984877 A CN202110984877 A CN 202110984877A CN 113435212 A CN113435212 A CN 113435212A
Authority
CN
China
Prior art keywords
network
text
input text
rule
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110984877.9A
Other languages
English (en)
Other versions
CN113435212B (zh
Inventor
孙宇清
郑威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110984877.9A priority Critical patent/CN113435212B/zh
Publication of CN113435212A publication Critical patent/CN113435212A/zh
Application granted granted Critical
Publication of CN113435212B publication Critical patent/CN113435212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于规则嵌入的文本推断方法,包括基于预训练的语义逻辑网络,对逻辑规则的不同组件进行神经检索及推断,且支持用户需求改变或任务迁移;结合语义逻辑网络与神经分类网络的平行结构,采用概率分布距离函数Jensen‑Shannon散度,通过网络精调训练约束其推断结果的一致性。本发明提出的语义逻辑网络将用户规则编码为语义向量,能够在检测逻辑规则的同时更好地保留文本的语义信息,支持语言灵活性和文本多样性。本发明还提出了将用户规则集成到神经分类网络中以改善文本推断性能的方法,即结合神经分类网络和语义逻辑网络推断的平行预测结构,采用一致性联合损失,能够使得语义逻辑网络和神经分类网络相互受益,并将规则的检测结果作为文本推断的证据。

Description

一种基于规则嵌入的文本推断方法及装置
技术领域
本发明公开一种基于规则嵌入的文本推断方法及装置,属于自然语言处理的技术领域。
背景技术
舆情订阅是新媒体时代的重要应用场景,其是指由传媒机构依据订阅用户的需求,定期推送用户关注的互联网舆情或新闻等文本,其中用户需求通常以关键词逻辑规则的形式表达,描述了用户偏好的文本内容。基于用户需求的文本推断任务是指判定一个文本是否满足用户需求,该任务在上述场景中具有重要应用价值。
现有处理上述推断任务的技术主要分为两类,一是基于关键词布尔检索结果进行推断,通过比对文本及用户定义的关键词逻辑表达式,找出匹配逻辑表达式的文本,但是这种关键词布尔检索方式存在局限,自然语言的灵活性使得相同语义的文本表达形式具有很大自由度,影响匹配结果。另一种是基于深度学习的分类方法,基于预训练词向量和神经网络进行文本类型推断,在大规模标注数据集上进行监督学习,使得神经网络能够从语义层面理解和推断文本是否满足用户需求,如基于卷积神经网络获取文本表示向量记载在中国专利文献CN113076488A中:一种基于用户数据推荐信息的方法及系统,通过预设关键词对承载用户信息的文本中的特定语句进行特征建模,然而其缺陷是难以处理用户需求所涉及主题的多样性问题,且难以适应用户需求变化。
发明内容
针对现有技术存在的问题,本发明公开一种基于规则嵌入的文本推断方法。
本发明还公开一种实现上述文本推断方法的装置,以实现对文本的推断处理。
发明概述:
一种基于规则嵌入的文本推断方法,包括两部分:一是基于预训练的语义逻辑网络,对逻辑规则的不同组件进行神经检索及推断,且支持用户需求改变或任务迁移;二是结合语义逻辑网络与神经分类网络的平行结构,采用概率分布距离函数Jensen-Shannon散度,通过网络精调训练约束其推断结果的一致性。最后,基于语义逻辑网络和神经分类网络的预测结果进行融合推断,同时语义逻辑网络的激活结果作为文本推断结果的证据。
本发明中提出语义逻辑网络,以神经方式近似逻辑推断过程,该过程包含文本对逻辑规则中不同粒度组件的检测,并组合检测结果,组件包括项、合取和析取。通过引入三个独立的损失函数,分别验证文本对上述组件的包含关系。针对动态变化的用户需求带来的挑战,本发明使用预训练-精调机制训练语义逻辑网络。语义逻辑网络由三个模块构成,分别用于对用户规则中的项、合取规则以及析取规则的语义检测,并组合检测结果进行文本推断。从中文通用语料库如中文维基百科获取文本,并从中文同义词林如中文WordNet获取通用关键词集合语料。使用通用语料预训练每个模块,以增强网络对关键词检测的鲁棒性,并在既往用户数据上进行微调,从而提高对用户需求变更的适应性。
另外,本发明提出一种将可选神经分类网络与语义逻辑网络相结合的平行结构,通过联合训练的方式,精调网络以提升推断性能。为了联合神经分类网络与语义逻辑网络,本发明使用Jensen-Shannon损失函数作为正则化项,通过网络精调阶段训练,约束平行结构两侧预测结果的一致性。
技术术语解释:
1.用户需求:也称为用户规则,在本发明中指订阅用户描述其对于文本内容的偏好,以关键词集合形式的逻辑规则的形式给出,关键词即为学术领域中的词汇或词组。动态变更的用户需求指:当用户提出新的关注点时,通过添加或删减关键词,改变逻辑表达式进行表达。
2.文本推断:对于给定的用户需求,推断输入文本是否满足需求。
3.语义逻辑网络:指用于对输入文本的语义检测及推断的神经网络。
4.平行网络:能实现独立计算并能联合进行文本推断的两个神经网络,本发明中的平行网络包括相互平行设置的语义逻辑网络和神经分类网络。
5.一致性约束:指在损失函数中,通过引入概率分布距离函数Jensen-Shannon散度,简称JS距离,作为正则化项,约束平行网络两侧的推断结果向概率分布一致性方向优化;其中,所述JS距离是Kullback-Leibler(KL)散度的变体,解决了KL散度的非对称问题。
本发明详细的技术方案如下:
一种基于规则嵌入的文本推断方法,其特征在于,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
Figure 493000DEST_PATH_IMAGE001
(1)
在公式(1)中,
Figure 675720DEST_PATH_IMAGE002
表示合取规则的数量,r i为第i个用户规则;所述命题公式P中,联结词取自集合
Figure 252195DEST_PATH_IMAGE003
,项是一个关键词集合
Figure 178562DEST_PATH_IMAGE004
,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式,
Figure 759979DEST_PATH_IMAGE005
是一条由关键词集合构成的合取规则,即
Figure 175917DEST_PATH_IMAGE006
,其中
Figure 974108DEST_PATH_IMAGE007
表示合取规则
Figure 173008DEST_PATH_IMAGE005
中项的个数,构成用户需求的所有合取规则集合表示为
Figure 373046DEST_PATH_IMAGE008
,即为用户规则集,其中
Figure 163147DEST_PATH_IMAGE009
表示合取规则的数量;在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删合取规则能够高效的适应用户需求的变更;本步骤中所述转化的具体过程与传统的逻辑表达式转化方式相同,不属于本发明所要保护的内容;
2)判定一个输入文本是否满足用户规则:
给定文本集合
Figure 183056DEST_PATH_IMAGE010
以及用户规则集
Figure 218270DEST_PATH_IMAGE011
;输入文本
Figure 538393DEST_PATH_IMAGE012
的词序列表示为
Figure 437079DEST_PATH_IMAGE013
;推断输出文本级概率为
Figure 209863DEST_PATH_IMAGE014
,表示输入文本
Figure 547303DEST_PATH_IMAGE015
满足用户规则的概率;规则级概率为
Figure 456353DEST_PATH_IMAGE016
,是长度为
Figure 791520DEST_PATH_IMAGE017
的序列,其第i个维度取值表示预测输入文本x满足用户规则
Figure 786021DEST_PATH_IMAGE018
的概率,依据
Figure 927152DEST_PATH_IMAGE019
的取值判定文本x满足了哪些用户规则。
本发明利用语义逻辑网络,对输入文本x进行理解,推断其是否满足用户需求对应的用户规则:
利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则,本步骤判定输入文本x是否满足用户规则中的项
Figure 956288DEST_PATH_IMAGE004
、合取规则
Figure 196776DEST_PATH_IMAGE020
、析取规则的语义,如附图1右侧所示,自底向上的三个模块分别项检测、合取规则检测以及析取规则检测。
根据本发明优选的,所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
根据本发明优选的,所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2-1)项检测
项检测用于判定输入文本
Figure 711196DEST_PATH_IMAGE021
是否包含析取范式中项
Figure 124860DEST_PATH_IMAGE004
相关的语义;
输入为输入文本
Figure 211765DEST_PATH_IMAGE022
输出为检测结果记为
Figure 685472DEST_PATH_IMAGE023
,表示输入文本
Figure 654565DEST_PATH_IMAGE024
包含项
Figure 75182DEST_PATH_IMAGE025
的概率;
将输入文本
Figure 78910DEST_PATH_IMAGE026
转化为对应的预训练词向量构成的矩阵:预训练词向量指采用中文维基百科语料库和word2vec算法训练得到的中文词向量,由输入文本
Figure 926780DEST_PATH_IMAGE027
中所有词汇对应的预训练词向量组成的矩阵,记为
Figure 383169DEST_PATH_IMAGE028
,其中
Figure 404215DEST_PATH_IMAGE029
代表实数域,u是输入文本
Figure 262449DEST_PATH_IMAGE030
的截断长度,d是预训练词向量的长度,
Figure 281221DEST_PATH_IMAGE031
是词汇
Figure 454933DEST_PATH_IMAGE032
对应的长度为d的向量;
将项
Figure 14090DEST_PATH_IMAGE033
转化为向量形式:项
Figure 992410DEST_PATH_IMAGE033
的向量为
Figure 182083DEST_PATH_IMAGE033
对应关键词集合中,所有关键词对应的预训练词向量的均值,即
Figure 878644DEST_PATH_IMAGE034
,其中
Figure 975913DEST_PATH_IMAGE035
是集合中的关键词,
Figure 543160DEST_PATH_IMAGE036
Figure 903734DEST_PATH_IMAGE037
对应预训练词向量。
计算项
Figure 556433DEST_PATH_IMAGE004
与输入文本
Figure 722972DEST_PATH_IMAGE038
中每个词汇之间的交互信息,将向量
Figure 613567DEST_PATH_IMAGE039
与输入文本
Figure 443245DEST_PATH_IMAGE040
的预训练词嵌入矩阵
Figure 848819DEST_PATH_IMAGE041
通过矩阵乘法计算得到交互向量,记为
Figure 491153DEST_PATH_IMAGE042
Figure 32993DEST_PATH_IMAGE043
(2)
对输入文本
Figure 532107DEST_PATH_IMAGE044
通过编码网络ENC进行语义编码后得到文本语义向量
Figure 424977DEST_PATH_IMAGE045
,本发明中,可以采用不同卷积神经网络,此处优选采用TEXTCNN结构作为编码网络ENC,所使用的三种卷积核尺寸分别为2×d,3×d,4×d,其中d是预训练词向量的维度,每种卷积核数量为64;
将文本语义向量
Figure 667739DEST_PATH_IMAGE046
与交互向量
Figure 532927DEST_PATH_IMAGE047
拼接,并经过多层感知机网络MLP进行降维,获得向量
Figure 202943DEST_PATH_IMAGE048
,即为输入文本
Figure 317529DEST_PATH_IMAGE049
对项
Figure 567245DEST_PATH_IMAGE004
的语义包含关系:
Figure 585142DEST_PATH_IMAGE050
(3)
Figure 426059DEST_PATH_IMAGE051
经过
Figure 27942DEST_PATH_IMAGE052
函数激活的值作为检测到输入文本
Figure 815769DEST_PATH_IMAGE053
包含项
Figure 186707DEST_PATH_IMAGE054
的概率,即推断结果,该概率表示输入文本
Figure 464105DEST_PATH_IMAGE055
对项
Figure 553284DEST_PATH_IMAGE056
对应关键词集合语义的满足程度:
Figure 879223DEST_PATH_IMAGE057
(4)
Figure 370247DEST_PATH_IMAGE058
是语义逻辑网络预测输入文本x包含项
Figure 552967DEST_PATH_IMAGE059
的概率,所述向量
Figure 630906DEST_PATH_IMAGE060
还作为下一阶段合取规则模块的输入;
Figure 760536DEST_PATH_IMAGE061
表示
Figure 106067DEST_PATH_IMAGE062
激活函数,
Figure 725267DEST_PATH_IMAGE063
是网络参数;
使用交叉熵损失函数来评估推断结果
Figure 523459DEST_PATH_IMAGE064
与真实结果,即项的真实标签
Figure 456780DEST_PATH_IMAGE065
分布之间的差异性,求得损失
Figure 656817DEST_PATH_IMAGE066
Figure 446919DEST_PATH_IMAGE067
(5)
其中,
Figure 935669DEST_PATH_IMAGE068
是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得;
Figure 469418DEST_PATH_IMAGE069
表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失
Figure 789541DEST_PATH_IMAGE070
以更新项检测网络中的所有参数;
Figure 980570DEST_PATH_IMAGE071
表示使用
Figure 956616DEST_PATH_IMAGE072
范数来对项检测网络的参数进行正则化以避免过拟合;本发明中所述交叉熵损失函数为交叉熵cross-entropy损失函数;
2-2)合取规则检测
合取规则检测用于验证输入文本x是否满足合取规则
Figure 28478DEST_PATH_IMAGE073
的语义;
输入为:步骤2-1)的项表示向量
Figure 203107DEST_PATH_IMAGE075
输出为:预测输入文本包含合取规则
Figure 538273DEST_PATH_IMAGE076
的概率;
合取规则嵌入网络
Figure 798353DEST_PATH_IMAGE077
,本发明验证了采用如
Figure 673906DEST_PATH_IMAGE078
Figure 640725DEST_PATH_IMAGE079
等不同结构,均具有近似逻辑合取运算的能力,合取规则
Figure 943530DEST_PATH_IMAGE076
包含的项构成序列
Figure 690906DEST_PATH_IMAGE080
,其对应项检测获得的项的表示向量构成序列
Figure 104570DEST_PATH_IMAGE081
,将序列中所有向量拼接作为输入,经过
Figure 191475DEST_PATH_IMAGE082
获得合取规则的表示向量
Figure 166646DEST_PATH_IMAGE083
,该输出向量蕴含输入文本对合取规则
Figure 401318DEST_PATH_IMAGE084
的语义包含关系:
Figure 821935DEST_PATH_IMAGE085
(6)
其中,
Figure 560084DEST_PATH_IMAGE086
表示
Figure 470271DEST_PATH_IMAGE087
的所有项构成的序列;
Figure 926661DEST_PATH_IMAGE088
经过
Figure 885389DEST_PATH_IMAGE089
函数激活得到合取规则的检测概率,公式(7)所示,其中
Figure 9203DEST_PATH_IMAGE090
表示
Figure 762396DEST_PATH_IMAGE091
激活函数,
Figure 706081DEST_PATH_IMAGE092
是网络参数,
Figure 530817DEST_PATH_IMAGE093
是输入文本包含合取规则
Figure 446821DEST_PATH_IMAGE094
的概率,即推断结果:
Figure 934696DEST_PATH_IMAGE095
(7)
采用交叉熵损失函数来衡量预测结果
Figure 365677DEST_PATH_IMAGE096
与真实结果,即规则的真实标签
Figure 666209DEST_PATH_IMAGE097
的差异,求损失
Figure 764615DEST_PATH_IMAGE098
,其中
Figure 921927DEST_PATH_IMAGE099
是规则的真实标签,通过相关项标签的布尔值的合取运算获得;
Figure 777887DEST_PATH_IMAGE100
表示训练集合样本期望;训练过程通过最小化损失
Figure 944426DEST_PATH_IMAGE101
以更新UNet和合取规则检测模块中的所有参数,
Figure 631760DEST_PATH_IMAGE102
表示使用
Figure 163235DEST_PATH_IMAGE103
范数来对UNet和合取规则检测模块中的所有参数进行正则化以避免过拟合:
Figure 303229DEST_PATH_IMAGE104
(8)
2-3)析取范式检测
析取范式检测用于验证输入文本x是否满足完整的用户规则集,这等价于验证文本是否满足用户规则集中任意一条合取规则;
输入为:步骤2-2)中的合取规则表示向量
Figure 7880DEST_PATH_IMAGE105
和其他相关的合取规则表示向量;
输出为:预测输入文本满足用户规则集的概率;
采用max函数来实现析取网络
Figure 752982DEST_PATH_IMAGE106
:将步骤2-2)所述推断结果中最大的概率作为文本推断结果,表示推断输入文本x满足用户需求的概率,其中
Figure 19141DEST_PATH_IMAGE107
是预测输入文本满足用户规则集的概率,
Figure 646431DEST_PATH_IMAGE108
表示取最大概率的函数,
Figure 92456DEST_PATH_IMAGE109
表示合取规则检测模块输出的推断结果:
Figure 488802DEST_PATH_IMAGE110
(9)
采用交叉熵损失函数,求损失
Figure 424397DEST_PATH_IMAGE111
,如公式(10)所示,其中y是输入文本的真实标签,由专家标注文本是否满足用户需求,
Figure 742246DEST_PATH_IMAGE112
表示训练集合样本期望,训练过程通过最小化损失
Figure 788700DEST_PATH_IMAGE113
以更新语义逻辑网络的所有参数,
Figure 305132DEST_PATH_IMAGE114
表示使用
Figure 349311DEST_PATH_IMAGE115
范数来对语义逻辑网络的参数进行正则化以避免过拟合:
Figure 216773DEST_PATH_IMAGE116
(10)。
根据本发明优选的,所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为
ENC2,优选基于CNN、RNN或BERT的编码模块;通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示,
Figure 801338DEST_PATH_IMAGE117
表示神经分类网络预测输入文本符合用户需求的概率,此处的
Figure 375539DEST_PATH_IMAGE118
是所述输出文本级标签
Figure 906400DEST_PATH_IMAGE119
Figure 261158DEST_PATH_IMAGE120
表示
Figure 587097DEST_PATH_IMAGE121
激活函数,
Figure 78121DEST_PATH_IMAGE122
是网络参数:
Figure 526420DEST_PATH_IMAGE123
(11)
用交叉熵损失函数衡量神经分类网络的预测结果
Figure 40578DEST_PATH_IMAGE124
与真实结果,即输入文本的真实标签
Figure 232525DEST_PATH_IMAGE125
之间的差异性,公式(12)所示,得到损失
Figure 578056DEST_PATH_IMAGE127
,通过最小化损失
Figure 134939DEST_PATH_IMAGE127
以更新神经分类网络的所有参数,其中y是输入文本的真实标签,由专家标注文本是否满足用户需求,
Figure 198710DEST_PATH_IMAGE128
表示训练集合样本期望,
Figure 928769DEST_PATH_IMAGE129
表示使用
Figure 332068DEST_PATH_IMAGE130
范数来对神经分类网络的所有参数进行正则化以避免过拟合:
Figure 623634DEST_PATH_IMAGE131
(12)
3)对所述输入文本分别通过神经分类网络及语义逻辑网络进行推断,得到两者的预测结果,最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
采用JS距离度量神经分类网络与语义逻辑网络的预测结果分布之间的相似度,两者相似性越大,JS距离值越小,记神经分类网络输出的概率分布为
Figure 909122DEST_PATH_IMAGE132
,语义逻辑网络输出的概率分布为
Figure 380555DEST_PATH_IMAGE133
,则两者的JS距离
Figure 700678DEST_PATH_IMAGE134
的计算公式为:
Figure 661681DEST_PATH_IMAGE135
(13)
所述
Figure 637727DEST_PATH_IMAGE136
表示Kullback-Leibler(KL)散度,其计算如公式(14)所示,JS距离是KL散度的变体,解决了KL散度的非对称问题:
Figure 709588DEST_PATH_IMAGE137
(14)
将JS距离作为联合损失中的正则项,联合损失
Figure 87480DEST_PATH_IMAGE138
的计算如公式(15),其中,超参
Figure 953805DEST_PATH_IMAGE139
用于权衡不同损失项,
Figure 479464DEST_PATH_IMAGE140
取值范围是(0,1),且满足约束条件
Figure 89437DEST_PATH_IMAGE141
Figure 321835DEST_PATH_IMAGE142
为公式(12)所示的损失函数,
Figure 391684DEST_PATH_IMAGE143
为公式(10)所示的损失函数:
Figure 873481DEST_PATH_IMAGE144
(15)
平行结构的训练过程中,通过最小化联合损失
Figure 490407DEST_PATH_IMAGE145
以更新神经分类网络和语义逻辑网络的所有参数。
一种实现上述文本推断方法的装置,其特征在于,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
根据本发明优选的,所述实现上述文本推断方法的装置还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen-Shannon散度约束两者预测结果的一致性。
本发明的技术优势在于:
(1) 本发明提出的语义逻辑网络将用户规则编码为语义向量,能够在检测逻辑规则的同时更好地保留文本的语义信息,支持语言灵活性和文本多样性。
(2) 本发明还提出了将用户规则集成到神经分类网络中以改善文本推断性能的方法,即结合神经分类网络和语义逻辑网络推断的平行预测结构,采用一致性联合损失,能够使得语义逻辑网络和神经分类网络相互受益,并将规则的检测结果作为文本推断的证据。
本发明提出的基于预训练的语义逻辑推断,能够较好地应对动态变化的用户需求。当用户提出新需求或变更需求时,难以及时获取大量标注数据的问题,为监督学习方法带来了挑战,针对该挑战,本发明利用中文维基百科等海量通用语料,及基于中文WordNet提取的同义词、近义词集合等开放领域的语言学知识,预训练语义逻辑网咯,并在特定用户数据上进行精调,增强了对关键词检测的鲁棒性,有利于高效地处理动态变化的用户需求。
附图说明
图1是本发明实现基于规则嵌入的文本推断方法的装置的示意图;
图2是本发明所述实施例中用户需求判定树示例。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
一种基于规则嵌入的文本推断方法,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
Figure 639629DEST_PATH_IMAGE146
(1)
在公式(1)中,
Figure 316598DEST_PATH_IMAGE147
表示合取规则的数量,r i为第i个用户规则;所述命题公式P中,联结词取自集合
Figure 285691DEST_PATH_IMAGE148
,项是一个关键词集合
Figure 237467DEST_PATH_IMAGE149
,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式,
Figure 506774DEST_PATH_IMAGE150
是一条由关键词集合构成的合取规则,即
Figure 354644DEST_PATH_IMAGE151
,其中
Figure 811033DEST_PATH_IMAGE152
表示合取规则
Figure 832079DEST_PATH_IMAGE153
中项的个数,构成用户需求的所有合取规则集合表示为
Figure 627997DEST_PATH_IMAGE154
,即为用户规则集,其中
Figure 210550DEST_PATH_IMAGE155
表示合取规则的数量;在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删合取规则能够高效的适应用户需求的变更;
2)判定一个输入文本是否满足用户规则:
给定文本集合
Figure 154235DEST_PATH_IMAGE156
以及用户规则集
Figure 916655DEST_PATH_IMAGE157
;输入文本
Figure 894975DEST_PATH_IMAGE158
的词序列表示为
Figure 615806DEST_PATH_IMAGE159
;推断输出文本级概率为
Figure 250050DEST_PATH_IMAGE160
,表示输入文本
Figure 347319DEST_PATH_IMAGE161
满足用户规则的概率;规则级概率为
Figure 445725DEST_PATH_IMAGE162
,是长度为
Figure 540720DEST_PATH_IMAGE163
的序列,其第i个维度取值表示预测输入文本x满足用户规则
Figure 724577DEST_PATH_IMAGE164
的概率,依据
Figure 625537DEST_PATH_IMAGE165
的取值判定文本x满足了哪些用户规则。
本发明利用语义逻辑网络,对输入文本x进行理解,推断其是否满足用户需求对应的用户规则:
利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则。
所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2-1)项检测
项检测用于判定输入文本
Figure 250553DEST_PATH_IMAGE167
是否包含析取范式中项
Figure 74372DEST_PATH_IMAGE168
相关的语义;
输入为输入文本
Figure 479945DEST_PATH_IMAGE169
输出为检测结果记为
Figure 387858DEST_PATH_IMAGE170
,表示输入文本
Figure 195277DEST_PATH_IMAGE171
包含项
Figure 163233DEST_PATH_IMAGE172
的概率;
将输入文本
Figure 259365DEST_PATH_IMAGE173
转化为对应的预训练词向量构成的矩阵:预训练词向量指采用中文维基百科语料库和word2vec算法训练得到的中文词向量,由输入文本
Figure 767707DEST_PATH_IMAGE174
中所有词汇对应的预训练词向量组成的矩阵,记为
Figure 429633DEST_PATH_IMAGE175
,其中
Figure 99648DEST_PATH_IMAGE176
代表实数域,u是输入文本
Figure 417497DEST_PATH_IMAGE177
的截断长度,d是预训练词向量的长度,
Figure 198371DEST_PATH_IMAGE178
是词汇
Figure 216268DEST_PATH_IMAGE179
对应的长度为d的向量;
将项
Figure 322765DEST_PATH_IMAGE180
转化为向量形式:项
Figure 924647DEST_PATH_IMAGE181
的向量为
Figure 509212DEST_PATH_IMAGE182
对应关键词集合中,所有关键词对应的预训练词向量的均值,即
Figure 83413DEST_PATH_IMAGE183
,其中
Figure 360811DEST_PATH_IMAGE184
是集合中的关键词,
Figure 184410DEST_PATH_IMAGE185
Figure 775928DEST_PATH_IMAGE186
对应预训练词向量。
计算项
Figure 1373DEST_PATH_IMAGE149
与输入文本
Figure 449672DEST_PATH_IMAGE187
中每个词汇之间的交互信息,将向量
Figure 527612DEST_PATH_IMAGE188
与输入文本
Figure 453980DEST_PATH_IMAGE190
的预训练词嵌入矩阵
Figure 737194DEST_PATH_IMAGE191
通过矩阵乘法计算得到交互向量,记为
Figure 621973DEST_PATH_IMAGE192
Figure 420165DEST_PATH_IMAGE193
(2)
对输入文本
Figure 353486DEST_PATH_IMAGE194
通过编码网络ENC进行语义编码后得到文本语义向量
Figure 553523DEST_PATH_IMAGE195
,本发明中,可以采用不同卷积神经网络,此处优选采用TEXTCNN结构作为编码网络ENC,所使用的三种卷积核尺寸分别为2×d,3×d,4×d,其中d是预训练词向量的维度,每种卷积核数量为64;
将文本语义向量
Figure 343624DEST_PATH_IMAGE196
与交互向量
Figure 629112DEST_PATH_IMAGE197
拼接,并经过多层感知机网络MLP进行降维,获得向量
Figure 897282DEST_PATH_IMAGE198
,即为输入文本
Figure 155088DEST_PATH_IMAGE199
对项
Figure 617556DEST_PATH_IMAGE200
的语义包含关系:
Figure 390340DEST_PATH_IMAGE201
(3)
Figure 462201DEST_PATH_IMAGE202
经过
Figure 840093DEST_PATH_IMAGE203
函数激活的值作为检测到输入文本
Figure 971997DEST_PATH_IMAGE205
包含项
Figure 232077DEST_PATH_IMAGE206
的概率,即推断结果,该概率表示输入文本
Figure 45312DEST_PATH_IMAGE207
对项
Figure 340027DEST_PATH_IMAGE206
对应关键词集合语义的满足程度:
Figure 580516DEST_PATH_IMAGE208
(4)
Figure 327892DEST_PATH_IMAGE209
是语义逻辑网络预测输入文本
Figure 7135DEST_PATH_IMAGE210
包含项
Figure 94040DEST_PATH_IMAGE211
的概率,所述向量
Figure 63352DEST_PATH_IMAGE212
还作为下一阶段合取规则模块的输入;
Figure 298024DEST_PATH_IMAGE213
表示
Figure 249799DEST_PATH_IMAGE214
激活函数,
Figure 456790DEST_PATH_IMAGE215
是网络参数;
使用交叉熵损失函数来评估推断结果
Figure 835819DEST_PATH_IMAGE216
与真实结果,即项的真实标签
Figure 557787DEST_PATH_IMAGE217
分布之间的差异性,求得损失
Figure 516516DEST_PATH_IMAGE218
Figure 374750DEST_PATH_IMAGE219
(5)
其中,
Figure 190260DEST_PATH_IMAGE220
是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得;
Figure 399524DEST_PATH_IMAGE221
表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失
Figure 896364DEST_PATH_IMAGE222
以更新项检测网络中的所有参数;
Figure 438466DEST_PATH_IMAGE223
表示使用
Figure 424877DEST_PATH_IMAGE224
范数来对项检测网络的参数进行正则化以避免过拟合;本发明中所述交叉熵损失函数为交叉熵cross-entropy损失函数;
2-2)合取规则检测
合取规则检测用于验证输入文本x是否满足合取规则
Figure 590279DEST_PATH_IMAGE225
的语义;
输入为:步骤2-1)的项表示向量
Figure 953127DEST_PATH_IMAGE226
输出为:预测输入文本包含合取规则
Figure 520375DEST_PATH_IMAGE228
的概率;
合取规则嵌入网络
Figure 412108DEST_PATH_IMAGE229
,本发明验证了采用如
Figure 831850DEST_PATH_IMAGE230
Figure 732810DEST_PATH_IMAGE231
等不同结构,均具有近似逻辑合取运算的能力,合取规则
Figure 623405DEST_PATH_IMAGE232
包含的项构成序列
Figure 217198DEST_PATH_IMAGE233
,其对应项检测获得的项的表示向量构成序列
Figure 357192DEST_PATH_IMAGE234
,将序列中所有向量拼接作为输入,经过
Figure 265105DEST_PATH_IMAGE235
获得合取规则的表示向量
Figure 72524DEST_PATH_IMAGE237
,该输出向量蕴含输入文本对合取规则
Figure 571639DEST_PATH_IMAGE238
的语义包含关系:
Figure 402191DEST_PATH_IMAGE239
(6)
其中,
Figure 379375DEST_PATH_IMAGE240
表示
Figure 41300DEST_PATH_IMAGE241
的所有项构成的序列;
Figure 212781DEST_PATH_IMAGE242
经过
Figure 592947DEST_PATH_IMAGE243
函数激活得到合取规则的检测概率,公式(7)所示,其中
Figure 373821DEST_PATH_IMAGE244
表示
Figure 890253DEST_PATH_IMAGE245
激活函数,
Figure 731170DEST_PATH_IMAGE246
是网络参数,
Figure 536315DEST_PATH_IMAGE247
是输入文本包含合取规则
Figure 120880DEST_PATH_IMAGE248
的概率,即推断结果:
Figure 491818DEST_PATH_IMAGE249
(7)
采用交叉熵损失函数来衡量预测结果
Figure 769216DEST_PATH_IMAGE250
与真实结果
Figure 88421DEST_PATH_IMAGE251
的差异,求损失
Figure 476677DEST_PATH_IMAGE252
,其中
Figure 905384DEST_PATH_IMAGE253
是规则的真实标签,通过相关项标签的布尔值的合取运算获得;
Figure 353683DEST_PATH_IMAGE254
表示训练集合样本期望;训练过程通过最小化损失
Figure 930158DEST_PATH_IMAGE255
以更新UNet和合取规则检测模块中的所有参数,
Figure 59788DEST_PATH_IMAGE256
表示使用
Figure 405319DEST_PATH_IMAGE257
范数来对UNet和合取规则检测模块中的所有参数进行正则化以避免过拟合:
Figure 24519DEST_PATH_IMAGE258
(8)
2-3)析取范式检测
析取范式检测用于验证输入文本
Figure 25973DEST_PATH_IMAGE259
是否满足完整的用户规则集,这等价于验证文本是否满足用户规则集中任意一条合取规则;
输入为:步骤2-2)中的合取规则表示向量
Figure 490452DEST_PATH_IMAGE261
和其他相关的合取规则表示向量;
输出为:预测输入文本满足用户规则集的概率;
采用max函数来实现析取网络
Figure 956069DEST_PATH_IMAGE262
:将步骤2-2)所述推断结果中最大的概率作为文本推断结果,表示推断输入文本
Figure 949432DEST_PATH_IMAGE263
满足用户需求的概率,其中
Figure 736385DEST_PATH_IMAGE264
是预测输入文本满足用户规则集的概率,
Figure 270135DEST_PATH_IMAGE265
表示取最大概率的函数,
Figure 527941DEST_PATH_IMAGE266
表示合取规则检测模块输出的推断结果:
Figure 488943DEST_PATH_IMAGE267
(9)
采用交叉熵损失函数,求损失
Figure 261727DEST_PATH_IMAGE268
,如公式(10)所示,其中
Figure 536851DEST_PATH_IMAGE269
是输入文本的真实标签,由专家标注文本是否满足用户需求,
Figure 445901DEST_PATH_IMAGE270
表示训练集合样本期望,训练过程通过最小化损失
Figure 577805DEST_PATH_IMAGE271
以更新语义逻辑网络的所有参数,
Figure 572306DEST_PATH_IMAGE272
表示使用
Figure 447858DEST_PATH_IMAGE273
范数来对语义逻辑网络的参数进行正则化以避免过拟合:
Figure 775196DEST_PATH_IMAGE274
(10)
实施例2、
如实施例1所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为
ENC2,优选基于CNN、RNN或BERT的编码模块;通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示,
Figure 812423DEST_PATH_IMAGE275
表示神经分类网络预测输入文本符合用户需求的概率,此处的
Figure 763061DEST_PATH_IMAGE276
是所述输出文本级标签
Figure 176725DEST_PATH_IMAGE277
Figure 857105DEST_PATH_IMAGE278
表示
Figure 65232DEST_PATH_IMAGE279
激活函数,
Figure 34325DEST_PATH_IMAGE280
是网络参数:
Figure 753145DEST_PATH_IMAGE281
(11)
用交叉熵损失函数衡量神经分类网络的预测结果
Figure 491294DEST_PATH_IMAGE282
与真实结果
Figure 135902DEST_PATH_IMAGE283
之间的差异性,公式(12)所示,得到损失
Figure 592291DEST_PATH_IMAGE284
,通过最小化损失
Figure 551020DEST_PATH_IMAGE285
以更新神经分类网络的所有参数,其中
Figure 409254DEST_PATH_IMAGE286
是输入文本的真实标签,由专家标注文本是否满足用户需求,
Figure 224764DEST_PATH_IMAGE287
表示训练集合样本期望,
Figure 902870DEST_PATH_IMAGE288
表示使用
Figure 777807DEST_PATH_IMAGE289
范数来对神经分类网络的所有参数进行正则化以避免过拟合:
Figure 490549DEST_PATH_IMAGE290
(12)
3)对所述输入文本分别通过神经分类网络及语义逻辑网络进行推断,得到两者的预测结果,最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
采用JS距离度量神经分类网络与语义逻辑网络的预测结果分布之间的相似度,两者相似性越大,JS距离值越小,记神经分类网络输出的概率分布为
Figure 680221DEST_PATH_IMAGE291
,语义逻辑网络输出的概率分布为
Figure 111203DEST_PATH_IMAGE292
,则两者的JS距离
Figure 208472DEST_PATH_IMAGE293
的计算公式为:
Figure 572457DEST_PATH_IMAGE294
(13)
所述
Figure 464190DEST_PATH_IMAGE295
表示Kullback-Leibler(KL)散度,其计算如公式(14)所示,JS距离是KL散度的变体,解决了KL散度的非对称问题:
Figure 116888DEST_PATH_IMAGE296
(14)
将JS距离作为联合损失中的正则项,联合损失
Figure 519313DEST_PATH_IMAGE297
的计算如公式(15),其中,超参
Figure 206646DEST_PATH_IMAGE298
用于权衡不同损失项,
Figure 800438DEST_PATH_IMAGE299
取值范围是(0,1),且满足约束条件
Figure 940433DEST_PATH_IMAGE300
Figure 379504DEST_PATH_IMAGE301
为公式(12)所示的损失函数,
Figure 124606DEST_PATH_IMAGE302
为公式(10)所示的损失函数:
Figure 623721DEST_PATH_IMAGE303
(15)
平行结构的训练过程中,通过最小化联合损失
Figure 516590DEST_PATH_IMAGE304
以更新神经分类网络和语义逻辑网络的所有参数。
实施例3、
一种实现如实施例1所述文本推断方法的装置,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
实施例4、
一种实现如实施例2所述文本推断方法的装置,在实施例3的基础上,所述实现上述文本推断方法的装置还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen-Shannon散度约束两者预测结果的一致性。
应用例、
如实施例1-4所述的方法和装置的实际应用方法如下。
基于通用语料的语义逻辑网络预训练:
获取通用语料,包括:从中文通用语料库如中文维基百科获取训练文本,从中文同义词林如中文版WordNet获取关键词集合。
对通用语料进行项级别和合取规则级别的自动标注,包括:对于项标注,对于满足至少包含
Figure 962615DEST_PATH_IMAGE305
中一个关键词的文本x,其项标签
Figure 624541DEST_PATH_IMAGE306
为1:
若不满足则
Figure 796021DEST_PATH_IMAGE307
为0;对于合取规则标注,随机组合关键词集合生成合取规则;
若文本x同时满足合取规则
Figure 910608DEST_PATH_IMAGE308
中的所有项,则该文本的合取规则标签
Figure 957061DEST_PATH_IMAGE309
为1;
若至少不满足任意项,则
Figure 676756DEST_PATH_IMAGE310
为0。
依据实施例1中所述步骤2),结合附图1,使用通用语料预训练项检测模块和合取规则检测模块,具体包括:
依据步骤2-1)使用项检测网络
Figure 783252DEST_PATH_IMAGE311
输入通用语料文本x,输入通用关键词集合
Figure 119555DEST_PATH_IMAGE312
训练项检测模块;
在模型的embedding层,将输入的token转换为对应的预训练词向量。对于待检测的关键词集合,其向量为集合中所有词汇对应预训练词向量的均值,这是因为同义词的嵌入在语义空间具有相邻的位置关系,平均向量能够呈现共同语义特征;另一方面,对于地名集合,将地理区划上的最上辖词作为代理词,这是因为下辖的地名均蕴含着“事件发生于区域内”这一事实;
项检测模块输出概率对应公式(4)的
Figure 907383DEST_PATH_IMAGE313
,真实标签对应上述标签
Figure 278321DEST_PATH_IMAGE314
,求公式(5)所述损失
Figure 555719DEST_PATH_IMAGE315
,反向传播以更新项检测网络的参数,迭代训练直到验证集准确率提升小于阈值。
依据实施例1的步骤2-2),在预训练的UNet上添加合取规则检测模块,使用通用语料训练两个模块,具体包括:
输入x
Figure 644898DEST_PATH_IMAGE312
,经过UNet获取输出向量t,将合取规则中包含的所有项对应的向量t拼接输入CNet,获取合取规则检测概率
Figure 970837DEST_PATH_IMAGE316
,对应公式(7),依次检测所有合取规则;
Figure 228905DEST_PATH_IMAGE317
及标签
Figure 614887DEST_PATH_IMAGE318
求损失
Figure 925783DEST_PATH_IMAGE319
,对应公式(8),丢弃项检测模块中的预测部分,基于损失
Figure 117729DEST_PATH_IMAGE320
反向传播以更新UNet和CNet的参数。
基于用户数据精调网络,具体如下:
获取逻辑规则形式的用户需求:
某订阅用户关注特定地域内的突发事件,包括社会安全事件及自然灾害等,该用户的需求描述如附图2所示,白色节点表示逻辑或运算,黑色节点表示逻辑与运算:
对于目标文本,从叶节点开始判定,并将布尔判定值传向根节点,附图2中关键词集合的示例内容如表1所示:
表1 订阅用户的关键词集合示例
Figure 463260DEST_PATH_IMAGE321
依据实施例1的步骤1)写出订阅用户的需求判定树对应的逻辑规则,与判定树等价的命题公式及析取范式如表2所示。
表2 订阅用户的逻辑规则
Figure 816881DEST_PATH_IMAGE322
使用用户样本及规则精调语义逻辑网络:
样本集包含该用户的历史兴趣文本,即专家判定和推送的文本,这些文本构成正样本集,对应标签
Figure 349494DEST_PATH_IMAGE323
;将用户历史不感兴趣文本,即由专家判定为不推送的文本构成负样本集,对应标签
Figure 876290DEST_PATH_IMAGE324
将样本集的文本进行预处理,包括中文分词、文本截断或填充以及将分词后的词汇转换为token的输入形式。并且将逻辑规则中包含的所有关键词转换为token的输入形式。
使用样本集精调语义逻辑网络,具体包括:
依据实施例1的步骤2-1),使用用户样本集及逻辑规则的项精调项检测网络
Figure 306353DEST_PATH_IMAGE325
,类比预训练过程使用用户数据训练UNet,迭代训练直到验证集准确率提升小于阈值。
依据骤2-2),使用用户样本集及合取规则精调网络UNet和CNet,类比预训练过程,迭代训练直到验证集准确率提升小于阈值。
依据步骤2-3),添加析取规则检测模块,使用用户样本集训练DNet,具体包括:
输入
Figure 830876DEST_PATH_IMAGE326
Figure 381943DEST_PATH_IMAGE327
,经过UNet和CNet获取所有合取规则
Figure 118954DEST_PATH_IMAGE328
的预测概率
Figure 173498DEST_PATH_IMAGE329
,如公式(9)所示,用MAX网络求其中的最大概率作为推断文本满足用户需求的概率
Figure 134501DEST_PATH_IMAGE330
。例如,有经过CNet输出的三个预测概率,分别为0.98、0.73、0.43,则MAX网络输出的概率为0.98,表明文本若满足其中任意一条规则,则满足用户需求。
可选的,若使用MLP实现DNet,则将所有
Figure 907285DEST_PATH_IMAGE331
拼接并输入DNet,获得表示向量R,并基于向量R获取预测概率
Figure 182408DEST_PATH_IMAGE332
Figure 91458DEST_PATH_IMAGE333
及标签
Figure 488942DEST_PATH_IMAGE334
求损失L R ,如公式(10),丢弃项、合取规则检测模块中的预测部分,用损失L R 反向传播以更新整个语义逻辑网络的参数。
基于用户数据训练平行网络,具体如下:
依据实施例2、4使用用户样本集训练平行网络结构,具体包括:
独立训练神经分类网络:使用用户样本集充分训练神经分类网络,损失函数如公式(12)。
联合训练语义逻辑网络和神经分类网络:将训练好的语义逻辑网络和训练好的神经分类网络联合起来进行精调,在联合损失中引入JS项以约束平行结构两侧预测结果的一致性。联合损失如公式(15)。此时,平行网络两端同时预测文本所属类别,神经分类网络一侧的输出为
Figure 686705DEST_PATH_IMAGE335
,其计算如公式(11)所示,语义逻辑网络的输出为
Figure 329301DEST_PATH_IMAGE336
,其计算如公式(9)、在测试阶段,本发明优选采用
Figure 92858DEST_PATH_IMAGE337
作为最终输出结果。例如,在本应用例中,输入文本“滨州受‘利奇马’超强台风影响,暴雨来袭…”对应的预测结果为
Figure 598925DEST_PATH_IMAGE338
,判定满足用户需求;输入文本“在最近更新的剧情中,翼天瞻带着羽然回到了青州…”对应的预测结果为
Figure 346302DEST_PATH_IMAGE339
,判定不满足用户需求。

Claims (7)

1.一种基于规则嵌入的文本推断方法,其特征在于,该方法包括:
1)将描述用户需求的关键词逻辑表达式转化为等价的析取范式,用户需求是一条命题公式P,则P的析取范式为:
Figure 142509DEST_PATH_IMAGE001
(1)
在公式(1)中,
Figure 513448DEST_PATH_IMAGE002
表示合取规则的数量,r i为第i个用户规则;所述命题公式P中,联结词取自集合
Figure 790845DEST_PATH_IMAGE003
,项是一个关键词集合
Figure 880024DEST_PATH_IMAGE004
,包含描述主题或语义相关的关键词及其同义词;依据范式存在定理,命题公式P一定能够转化为与之等价的析取范式,
Figure 533859DEST_PATH_IMAGE005
是一条由关键词集合构成的合取规则,即
Figure 526348DEST_PATH_IMAGE006
,其中
Figure 240226DEST_PATH_IMAGE007
表示合取规则
Figure 285543DEST_PATH_IMAGE009
中项的个数,构成用户需求的所有合取规则集合表示为
Figure 211910DEST_PATH_IMAGE010
,即为用户规则集,其中
Figure 291862DEST_PATH_IMAGE011
表示合取规则的数量;在本步骤中,所述析取范式的英文为Disjunctive Normal Form,缩写为DNF,所述析取范式具有处理用户需求变化的灵活性,通过增删合取规则能够高效的适应用户需求的变更;
2)判定一个输入文本是否满足用户规则:
利用语义逻辑网络依次对输入文本x进行项检测、合取规则检测和析取范式检测,最终判定一个输入文本是否满足用户规则。
2.根据权利要求1所述的一种基于规则嵌入的文本推断方法,其特征在于,所述一种基于规则嵌入的文本推断方法还包括,一路与所述语义逻辑网络平行设置的神经分类网络,所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果;最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
3.根据权利要求1所述的一种基于规则嵌入的文本推断方法,其特征在于,所述依次对输入文本x进行项检测、合取规则检测和析取范式检测的具体方法包括:
2-1)项检测
项检测用于判定输入文本
Figure 645483DEST_PATH_IMAGE012
是否包含析取范式中项
Figure 178095DEST_PATH_IMAGE013
相关的语义;
输入为输入文本
Figure 908154DEST_PATH_IMAGE014
输出为检测结果记为
Figure 842612DEST_PATH_IMAGE015
,表示输入文本
Figure 101555DEST_PATH_IMAGE016
包含项
Figure 121464DEST_PATH_IMAGE017
的概率;
将输入文本
Figure 891099DEST_PATH_IMAGE018
转化为对应的预训练词向量构成的矩阵:记为
Figure 945642DEST_PATH_IMAGE019
,其中
Figure 641066DEST_PATH_IMAGE020
代表实数域,u是输入文本
Figure 148271DEST_PATH_IMAGE022
的截断长度,d是预训练词向量的长度,
Figure 954553DEST_PATH_IMAGE023
是词汇
Figure 863603DEST_PATH_IMAGE024
对应的长度为d的向量;
将项
Figure 464348DEST_PATH_IMAGE025
转化为向量形式:项
Figure 458849DEST_PATH_IMAGE026
的向量为
Figure 599981DEST_PATH_IMAGE027
对应关键词集合中,所有关键词对应的预训练词向量的均值,即
Figure 363537DEST_PATH_IMAGE028
,其中
Figure 167807DEST_PATH_IMAGE029
是集合中的关键词,
Figure 384025DEST_PATH_IMAGE031
Figure 532110DEST_PATH_IMAGE032
对应预训练词向量;
将向量
Figure 415752DEST_PATH_IMAGE033
与输入文本
Figure 623880DEST_PATH_IMAGE034
的预训练词嵌入矩阵
Figure 592973DEST_PATH_IMAGE035
通过矩阵乘法计算得到交互向量,记为
Figure 279169DEST_PATH_IMAGE036
Figure 17318DEST_PATH_IMAGE037
(2)
对输入文本
Figure 661926DEST_PATH_IMAGE038
通过编码网络ENC进行语义编码后得到文本语义向量
Figure 852736DEST_PATH_IMAGE039
将文本语义向量
Figure 342623DEST_PATH_IMAGE040
与交互向量
Figure 669699DEST_PATH_IMAGE041
拼接,并经过多层感知机网络MLP进行降维,获得向量
Figure 980814DEST_PATH_IMAGE042
,即为输入文本
Figure 658920DEST_PATH_IMAGE044
对项
Figure 218077DEST_PATH_IMAGE004
的语义包含关系:
Figure 665239DEST_PATH_IMAGE045
(3)
Figure 120491DEST_PATH_IMAGE047
经过
Figure 551472DEST_PATH_IMAGE048
函数激活的值作为检测到输入文本
Figure 383162DEST_PATH_IMAGE049
包含项
Figure 950410DEST_PATH_IMAGE050
的概率,即推断结果,该概率表示输入文本
Figure 842142DEST_PATH_IMAGE051
对项
Figure 494840DEST_PATH_IMAGE052
对应关键词集合语义的满足程度:
Figure 395800DEST_PATH_IMAGE053
(4)
Figure 53440DEST_PATH_IMAGE054
是语义逻辑网络预测输入文本x包含项
Figure 116074DEST_PATH_IMAGE055
的概率,所述向量
Figure 256068DEST_PATH_IMAGE056
还作为下一阶段合取规则模块的输入;
Figure 695140DEST_PATH_IMAGE057
表示
Figure 971400DEST_PATH_IMAGE058
激活函数,
Figure 470515DEST_PATH_IMAGE059
是网络参数;
使用交叉熵损失函数来评估推断结果
Figure 832226DEST_PATH_IMAGE060
与真实结果,即项的真实标签
Figure 809409DEST_PATH_IMAGE061
分布之间的差异性,求得损失
Figure 205756DEST_PATH_IMAGE062
Figure 610192DEST_PATH_IMAGE063
(5)
其中,
Figure 724779DEST_PATH_IMAGE064
是项的真实标签,通过文本与关键词的字符串匹配检测和同义词扩充的方式获得;
Figure 240074DEST_PATH_IMAGE065
表示训练集合样本期望;M是关键词集合的个数;训练过程通过最小化损失
Figure 992391DEST_PATH_IMAGE066
以更新项检测网络中的所有参数;
Figure 833308DEST_PATH_IMAGE067
表示使用
Figure 169612DEST_PATH_IMAGE068
范数来对项检测网络的参数进行正则化;
2-2)合取规则检测
合取规则检测用于验证输入文本
Figure 488598DEST_PATH_IMAGE069
是否满足合取规则
Figure 859536DEST_PATH_IMAGE070
的语义;
输入为:步骤2-1)的项表示向量
Figure 605775DEST_PATH_IMAGE072
输出为:预测输入文本包含合取规则
Figure 163796DEST_PATH_IMAGE073
的概率;
合取规则嵌入网络
Figure 552052DEST_PATH_IMAGE074
,合取规则
Figure 511917DEST_PATH_IMAGE075
包含的项构成序列
Figure 429058DEST_PATH_IMAGE076
,其对应项检测获得的项的表示向量构成序列
Figure 5533DEST_PATH_IMAGE077
,将序列中所有向量拼接作为输入,经过
Figure 666321DEST_PATH_IMAGE078
获得合取规则的表示向量
Figure 982158DEST_PATH_IMAGE079
Figure 601358DEST_PATH_IMAGE080
(6)
其中,
Figure 133971DEST_PATH_IMAGE081
表示
Figure 598450DEST_PATH_IMAGE082
的所有项构成的序列;
Figure 532908DEST_PATH_IMAGE083
经过
Figure 57430DEST_PATH_IMAGE084
函数激活得到合取规则的检测概率;
公式(7)所示,其中
Figure 77339DEST_PATH_IMAGE085
表示
Figure 345509DEST_PATH_IMAGE086
激活函数,
Figure 134474DEST_PATH_IMAGE087
是网络参数,
Figure 95477DEST_PATH_IMAGE088
是输入文本包含合取规则
Figure 337102DEST_PATH_IMAGE089
的概率,即推断结果:
Figure 143384DEST_PATH_IMAGE090
(7)
采用交叉熵损失函数来衡量预测结果
Figure 837056DEST_PATH_IMAGE091
与真实结果,即规则的真实标签
Figure 437802DEST_PATH_IMAGE092
的差异,求损失
Figure 432303DEST_PATH_IMAGE093
,其中
Figure 42276DEST_PATH_IMAGE094
是规则的真实标签,通过相关项标签的布尔值的合取运算获得;
Figure 805832DEST_PATH_IMAGE095
表示训练集合样本期望;训练过程通过最小化损失
Figure 577479DEST_PATH_IMAGE096
以更新UNet和合取规则检测模块中的所有参数,
Figure 324855DEST_PATH_IMAGE097
表示使用
Figure 472940DEST_PATH_IMAGE098
范数来对UNet和合取规则检测模块中的所有参数进行正则化:
Figure 91003DEST_PATH_IMAGE099
(8)
2-3)析取范式检测
析取范式检测用于验证输入文本
Figure 564710DEST_PATH_IMAGE100
是否满足完整的用户规则集;
输入为:步骤2-2)中的合取规则表示向量
Figure 268224DEST_PATH_IMAGE101
和其他相关的合取规则表示向量;
输出为:预测输入文本满足用户规则集的概率;
采用max函数来实现析取网络
Figure 954420DEST_PATH_IMAGE102
:将步骤2-2)所述推断结果中最大的概率作为文本推断结果,其中
Figure 459613DEST_PATH_IMAGE103
是预测输入文本满足用户规则集的概率,
Figure 573062DEST_PATH_IMAGE104
表示取最大概率的函数,
Figure 763872DEST_PATH_IMAGE105
表示合取规则检测模块输出的推断结果:
Figure 519339DEST_PATH_IMAGE106
(9)
采用交叉熵损失函数,求损失
Figure 111994DEST_PATH_IMAGE107
,如公式(10)所示,其中
Figure 927503DEST_PATH_IMAGE108
是输入文本的真实标签,由专家标注文本是否满足用户需求,
Figure 605609DEST_PATH_IMAGE109
表示训练集合样本期望,训练过程通过最小化损失
Figure 899187DEST_PATH_IMAGE110
以更新语义逻辑网络的所有参数,
Figure 346349DEST_PATH_IMAGE111
表示使用
Figure 332760DEST_PATH_IMAGE112
范数来对语义逻辑网络的参数进行正则化:
Figure 498162DEST_PATH_IMAGE113
(10)。
4.根据权利要求2所述的一种基于规则嵌入的文本推断方法,其特征在于,所述神经分类网络的处理方法包括:
通过文本编码模块构造输入文本的语义向量,此处采用的文本编码网络为
ENC2;通过文本编码模块获得输入文本的语义表示向量后,基于语义表示向量进行类别预测,公式(11)所示,
Figure 96896DEST_PATH_IMAGE114
表示神经分类网络预测输入文本符合用户需求的概率,此处的
Figure 664143DEST_PATH_IMAGE115
是所述输出文本级标签
Figure 821455DEST_PATH_IMAGE116
Figure 474153DEST_PATH_IMAGE117
表示
Figure 109534DEST_PATH_IMAGE118
激活函数,
Figure 531288DEST_PATH_IMAGE119
是网络参数:
Figure 859501DEST_PATH_IMAGE120
(11)
用交叉熵损失函数衡量神经分类网络的预测结果
Figure 733916DEST_PATH_IMAGE121
与真实结果,即输入文本的真实标签
Figure 172988DEST_PATH_IMAGE122
之间的差异性,公式(12)所示,得到损失
Figure 714828DEST_PATH_IMAGE123
,通过最小化损失
Figure 449828DEST_PATH_IMAGE124
以更新神经分类网络的所有参数,其中
Figure 811539DEST_PATH_IMAGE125
是输入文本的真实标签,由专家标注文本是否满足用户需求,
Figure 788722DEST_PATH_IMAGE126
表示训练集合样本期望,
Figure 185069DEST_PATH_IMAGE127
表示使用
Figure 855084DEST_PATH_IMAGE128
范数来对神经分类网络的所有参数进行正则化:
Figure 704092DEST_PATH_IMAGE129
(12)
对所述输入文本分别通过神经分类网络及语义逻辑网络进行推断,得到两者的预测结果,最后利用Jensen-Shannon散度,简称JS距离,约束两者预测结果的一致性。
5.根据权利要求4所述的一种基于规则嵌入的文本推断方法,其特征在于,
采用JS距离度量神经分类网络与语义逻辑网络的预测结果分布之间的相似度,记神经分类网络输出的概率分布为
Figure 219387DEST_PATH_IMAGE130
,语义逻辑网络输出的概率分布为
Figure 735819DEST_PATH_IMAGE131
,则两者的JS距离
Figure 311156DEST_PATH_IMAGE132
的计算公式为:
Figure 647460DEST_PATH_IMAGE133
(13)
将JS距离作为联合损失中的正则项,联合损失
Figure 232025DEST_PATH_IMAGE134
的计算如公式(15),其中,超参
Figure 337384DEST_PATH_IMAGE135
用于权衡不同损失项,
Figure 579229DEST_PATH_IMAGE136
取值范围是(0,1),且满足约束条件
Figure DEST_PATH_IMAGE137
Figure 668407DEST_PATH_IMAGE138
为公式(12)所示的损失函数,
Figure DEST_PATH_IMAGE139
为公式(10)所示的损失函数:
Figure 322243DEST_PATH_IMAGE140
(15)
通过最小化联合损失
Figure DEST_PATH_IMAGE141
以更新神经分类网络和语义逻辑网络的所有参数。
6.一种实现如权利要求1-5任意一项所述文本推断方法的装置,其特征在于,包括:语义逻辑网络模块;
语义逻辑网络模块用于:判定一个输入文本是否满足用户规则;所述语义逻辑网络模块包括:沿数据流方向依次设置的项检测模块、合取规则检测模块、析取范式检测模块。
7.如权利要求6所述装置,其特征在于,还包括,一路与所述语义逻辑网络模块平行设置的神经分类网络模块;
所述神经分类网络用于:对输入文本进行类别预测,获得输入文本符合用户需求的概率,即预测结果;
对所述输入文本分别通过神经分类网络及语义逻辑网络分别进行推断,分别得到两者的预测结果,最后利用Jensen-Shannon散度约束两者预测结果的一致性。
CN202110984877.9A 2021-08-26 2021-08-26 一种基于规则嵌入的文本推断方法及装置 Active CN113435212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110984877.9A CN113435212B (zh) 2021-08-26 2021-08-26 一种基于规则嵌入的文本推断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110984877.9A CN113435212B (zh) 2021-08-26 2021-08-26 一种基于规则嵌入的文本推断方法及装置

Publications (2)

Publication Number Publication Date
CN113435212A true CN113435212A (zh) 2021-09-24
CN113435212B CN113435212B (zh) 2021-11-16

Family

ID=77797888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110984877.9A Active CN113435212B (zh) 2021-08-26 2021-08-26 一种基于规则嵌入的文本推断方法及装置

Country Status (1)

Country Link
CN (1) CN113435212B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003726A (zh) * 2021-12-31 2022-02-01 山东大学 一种基于子空间嵌入的学术论文差异性分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103605729A (zh) * 2013-11-19 2014-02-26 段炼 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN109840322A (zh) * 2018-11-08 2019-06-04 中山大学 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
US10621499B1 (en) * 2015-08-03 2020-04-14 Marca Research & Development International, Llc Systems and methods for semantic understanding of digital information
CN113268565A (zh) * 2021-04-27 2021-08-17 山东大学 一种基于概念文本的词向量快速生成方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103605729A (zh) * 2013-11-19 2014-02-26 段炼 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
US10621499B1 (en) * 2015-08-03 2020-04-14 Marca Research & Development International, Llc Systems and methods for semantic understanding of digital information
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN109840322A (zh) * 2018-11-08 2019-06-04 中山大学 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN113268565A (zh) * 2021-04-27 2021-08-17 山东大学 一种基于概念文本的词向量快速生成方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI ZHAOHUI;BAI XIAOCHEN;HU RUI;LI XIAOLI: ""Measuring Phase-Amplitude Coupling Based on the Jensen-Shannon Divergence and Correlation Matrix"", 《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING : A PUBLICATION OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 *
刘云: ""面向社会化媒体用户评论行为的属性推断"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
陈良军; 洪彧; SUJITH MANGALATHU; 勾红叶; 蒲黔辉: ""基于Jensen-Shannon散度的自适应采样方法的高效可靠性分析"", 《JOURNAL OF CENTRAL SOUTH UNIVERSITY》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003726A (zh) * 2021-12-31 2022-02-01 山东大学 一种基于子空间嵌入的学术论文差异性分析方法

Also Published As

Publication number Publication date
CN113435212B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US11182562B2 (en) Deep embedding for natural language content based on semantic dependencies
Marivate et al. Improving short text classification through global augmentation methods
US11281976B2 (en) Generative adversarial network based modeling of text for natural language processing
US11481416B2 (en) Question Answering using trained generative adversarial network based modeling of text
US10657259B2 (en) Protecting cognitive systems from gradient based attacks through the use of deceiving gradients
Mahmood et al. Deep sentiments in roman urdu text using recurrent convolutional neural network model
Ezaldeen et al. A hybrid E-learning recommendation integrating adaptive profiling and sentiment analysis
Suissa et al. Text analysis using deep neural networks in digital humanities and information science
US11663518B2 (en) Cognitive system virtual corpus training and utilization
Rauf et al. Using bert for checking the polarity of movie reviews
CN110781666B (zh) 基于生成式对抗网络的自然语言处理文本建模
Essa et al. Fake news detection based on a hybrid BERT and LightGBM models
Jiang et al. A hierarchical model with recurrent convolutional neural networks for sequential sentence classification
Suresh Kumar et al. Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification
Patil et al. Hate speech detection using deep learning and text analysis
CN113435212B (zh) 一种基于规则嵌入的文本推断方法及装置
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
Neill et al. Meta-embedding as auxiliary task regularization
Nazarizadeh et al. Using Group Deep Learning and Data Augmentation in Persian Sentiment Analysis
Kandi Language Modelling for Handling Out-of-Vocabulary Words in Natural Language Processing
Lou Deep learning-based sentiment analysis of movie reviews
Jawale et al. Sentiment analysis and vector embedding: A comparative study
Ait Benali et al. Arabic named entity recognition in social media based on BiLSTM-CRF using an attention mechanism
Baruah et al. Detection of Hate Speech in Assamese Text
Han Emotion Analysis of Literary Works Based on Attentional Mechanisms and the Fusion of Two-Channel Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant