CN114491060A - 动态联想知识网络的更新方法、语义纠错方法 - Google Patents

动态联想知识网络的更新方法、语义纠错方法 Download PDF

Info

Publication number
CN114491060A
CN114491060A CN202111630328.8A CN202111630328A CN114491060A CN 114491060 A CN114491060 A CN 114491060A CN 202111630328 A CN202111630328 A CN 202111630328A CN 114491060 A CN114491060 A CN 114491060A
Authority
CN
China
Prior art keywords
association
dynamic
knowledge network
nominal
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111630328.8A
Other languages
English (en)
Other versions
CN114491060B (zh
Inventor
李玉林
谈辉
谢振平
夏振涛
李艳
朱立烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yozosoft Co ltd
Jiangnan University
Original Assignee
Yozosoft Co ltd
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yozosoft Co ltd, Jiangnan University filed Critical Yozosoft Co ltd
Priority to CN202111630328.8A priority Critical patent/CN114491060B/zh
Publication of CN114491060A publication Critical patent/CN114491060A/zh
Application granted granted Critical
Publication of CN114491060B publication Critical patent/CN114491060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种动态联想知识网络的更新方法和基于动态联想知识网络的语义纠错方法。所述更新方法包括:将文本语料进行分句、分词和词性标注,提取名词性术语,得到具有直接联想关系的名词性术语对以及具有直接联想关系的名词性术语对在给定窗口中的共现概率;为提取的每个名词性术语在所述动态联想知识网络中设置一个对应的节点,为得到的每个名词性术语对间的直接联想关系在所述动态联想知识网络中对应的节点间设置对应的边以及该对应边的联想强度值。这样,所述动态联想知识网络能够更好地模拟大脑的联想记忆功能,更为准确。

Description

动态联想知识网络的更新方法、语义纠错方法
技术领域
本发明涉及文本处理领域,尤其涉及动态联想知识网络的更新方法、基于动态联想知识网络的语义纠错方法、计算装置以及计算机可读介质。
背景技术
知识图谱(或称知识网络)是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。这个概念是谷歌在2012年提出的,其最初的目的是为了提升搜索引擎的能力。随后,知识图谱在辅助智能问答、自然语言理解、大数据分析、增强机器学习的可解释性、语义搜索等多个方面展现出丰富的应用价值。传统的知识图谱构建过程包括:知识抽取、知识表示、知识融合、知识推理几个模块。
然而,现有的知识图谱并未建立知识的联想关系,并未从人脑联想角度出发探索知识体系内在的联系。
发明内容
本发明的目的在于提供一种动态联想知识网络的更新方法、基于动态联想知识网络的语义纠错方法、计算装置以及计算机可读介质,其中所述动态联想知识网络中建立了知识联想关系,并且模仿人脑对于不同知识的联想的强弱设置了知识联想关系的联想强度,更为准确。
根据本发明的一个方面,本发明提供一种动态联想知识网络的更新方法,所述动态联想知识网络包括多个节点、多条边以及每条边的联想强度值,每条边是由一个节点指向另一个节点,所述更新方法包括:将文本语料进行分句、分词和词性标注,提取名词性术语,得到具有直接联想关系的名词性术语对以及具有直接联想关系的名词性术语对在给定窗口中的共现概率,其中如果两个名词性术语共同出现在一句子内,则认为这两个名词性术语间具有句子中靠前的一个名词性术语指向句子中靠后的另一个名词性术语的直接联想关系,这两个名词性术语形成具有直接联想关系的名词性术语对;为提取的每个名词性术语在所述动态联想知识网络中设置一个对应的节点,为得到的每个名词性术语对间的直接联想关系在所述动态联想知识网络中对应的节点间设置对应的边以及该对应边的联想强度值,所述联想强度值与具有直接联想关系的名词性术语对在给定窗口中的共现概率有关。
进一步的,对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中已经存在对应的边,则根据该具有直接联想关系的名词性术语对在给定窗口中的共现概率计算对应边的当前联想强度值,根据该对应的边的原有联想强度值、当前联想强度值设置对应边的更新联想强度值;对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中不存在对应的边,则在所述动态联想知识网络中对应的节点间创建对应的边,并根据该具有直接联想关系的名词性术语对在给定窗口中的共现概率计算新创建的对应边的当前联想强度值,将当前联想强度值作为新创建的对应边的更新联想强度值。
根据本发明的另一个方面,本发明提供一种基于动态联想知识网络的语义纠错方法,其包括:对观测文本进行分句、分词和标注词性处理,并提取名词性术语;得到所述观测文本的每个名词性术语与所述观测文本中其他名词性术语的相关关系对;将所述观测文本的每个名词性术语的相关关系对输入所述动态联想知识网络进行检索匹配,以找到每个名词性术语的相关关系对在所述动态联想知识网络中是否具有匹配的直接联想关系,基于每个名词性术语的相关关系对在所述动态联想知识网络中具有的匹配的直接联想关系的联想强度值计算该名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度;利用训练好的分类模型对所述观测文本的每个名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度进行分类以确定所述观测文本的每个名词性术语是否是上下文一致的。
根据本发明的另一个方面,本发明提供一种计算装置,其包括处理器和存储器,所述存储器中存储有程序指令,该程序指令由处理器执行以实现上述动态联想知识网络的更新方法,或者实现上述基于动态联想知识网络的语义纠错方法。
根据本发明的另一个方面,本发明提供一种计算机可读介质,其内存储有程序指令,该程序指令被执行以实现上述动态联想知识网络的更新方法,或者实现上述基于动态联想知识网络的语义纠错方法。
与现有技术相比,本发明中的所述动态联想知识网络中建立了知识联想关系,并且模仿人脑对于不同知识的联想的强弱设置了知识联想关系的联想强度,更为准确和科学。
附图说明
图1为本发明的动态联想知识网络的更新方法在一个实施例中的流程示意图;
图2为本发明的基于动态联想知识网络的语义纠错方法在一个实施例中的原理示意图;
图3示意出了所述动态联想知识网络G的部分网络的示例;
图4为观测文本的句子内部词共现网络的示意图;
图5为观测文本的句子之间词共现网络的示意图;
图6为观测文本的段落内词共现网络的示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。
动态联想知识网络
本发明从大脑的联想记忆这一角度出发,提出了一种新的知识网络的构建方案,即动态联想知识网络的建模或更新方法。联想记忆是人脑的一个重要功能,人脑的学习过程是一个关于形成、删除和改变信息间关系的过程即联想记忆的过程。本发明为文本语料中的知识创建联想关系,以联想强度衡量知识间关系的强弱,将给定的文本语料中的知识动态的插入联想知识网络中,构建动态联想知识网络,从而模拟人脑学习记忆的过程。动态联想知识网络的约简以及衰减则可以看做是人脑遗忘过程,文本语料的分批学习能够看到人脑的学习过程,不是一次性学习,而是不断的在学习。
图1为本发明的动态联想知识网络的更新方法100在一个实施例中的流程示意图。如图1所示的,所述更新方法100包括如下步骤。
步骤110,将文本语料进行分句、分词和词性标注,提取名词性术语,得到具有直接联想关系的名词性术语对以及具有直接联想关系的名词性术语对在给定窗口中的共现概率,其中如果两个名词性术语共同出现在一句子内,则认为这两个名词性术语间具有句子中靠前的一个名词性术语指向句子中靠后的另一个名词性术语的直接联想关系,这两个名词性术语间形成具有直接联想关系的名词性术语对。
可以利用哈工大LTP(Language Technology Platform,LTP)分词工具对文本语料库中的文本进行分句、分词和词性标注,然后从分词和词性标注结果中仅抽取名词性术语。
按照名词性术语在句子中出现的前后位置直接创建联想关系。假设一个句子中名词性术语a1在名词性术语a2前面,则认为位置在前的名词性术语a1和位置在后的名词性术语a2之间具有直接联想关系,并且所述直接联想关系是由名词性术语a1指向名词性术语a2的,这两个名词性术语a1和a2间构成具有直接联想关系的名词性术语对,即认为在一句话中后位置在后的名词性术语a2是由位置在前的名词性术语a1联想产生的。通过对文本语料进行分析,可以得到非常多个具有直接联想关系的名词性术语对以及其在给定窗口中的共现概率。为了更好的模拟人脑,具有直接联想关系的名词性术语对在给定窗口大小的文本语料中的共现概率越高,则认为该名词性术语对之间的直接联想强度越高。
步骤120,为提取的每个名词性术语在所述动态联想知识网络中设置一个对应的节点,为得到的每个名词性术语对间的直接联想关系在所述动态联想知识网络中对应的节点间设置对应的边以及该对应边的联想强度值,所述联想强度值与具有直接联想关系的名词性术语对在给定窗口中的共现概率有关。
图3示意出了所述动态联想知识网络G的部分网络的示例。如图3所示的,所述动态联想知识网络G包括多个节点310、多条边320以及每条边的联想强度值,每条边是由一个节点指向另一个节点。图3中,节点以圆圈的形式表示,边以带箭头的直线表示,每个节点对应一个名词性术语,比如圆圈d可以对应名词性术语d,圆圈a可以对应名词性术语a,圆圈d和圆圈a之间的边由圆圈d指向圆圈a,则表示名词性术语a和名词性术语d具有直接联想关系,名词性术语a和名词性术语d构成具有直接联想关系的名词性术语对,且由名词性术语d位于句子前面,名词性术语a位于句子后边,名词性术语a是由名词性术语d联想而来。
在一个实施例中,对于提取的每个名词性术语,如果所述动态联想知识网络G中已存在对应的节点,则保持不变,即不新增节点,如果所述动态联想知识网络G中不存在对应的节点,则为该名词性术语创建一个对应的节点。
在一个实施例中,对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络G中已经存在对应的边,则根据该具有直接联想关系的名词性术语对在给定窗口中的共现概率计算对应边的当前联想强度值,根据该对应的边的原有联想强度值、当前联想强度值设置对应边的更新联想强度值。对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中不存在对应的边,则在所述动态联想知识网络中对应的节点间创建对应的边,并根据该具有直接联想关系的名词性术语对在给定窗口中的共现概率计算新创建的对应边的当前联想强度值,将当前联想强度值作为新创建的对应边的更新联想强度值。
更为具体的,对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络G中已经存在对应的边,则对应边的更新联想强度值为:
Rij t+1=Rij*yi+Rij t
对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中不存在对应的边,则对应边的更新联想强度值为:
Rij t+1=Rij
其中
Figure BDA0003439611740000061
为边eij的更新联想强度值,
Figure BDA0003439611740000062
为边eij的原有联想强度值,yi为第一学习率,其大于0小于1,Rij为根据具有直接联想关系的名词性术语对wi,wj间在给定窗口中的共现概率计算得到的对应边eij的当前联想强度值,vi为名词性术语wi在所述动态联想知识网络中的节点,vj为名词性术语wj在所述动态联想知识网络中的节点,i,j为名词性术语的序号,边eij为节点vi指向节点vj的边,边eij是名词性术语对wi,wj间的直接联想关系的对应边。
需要知晓的是,在给定窗口大小的文本语料中,任意两个名词性术语a、b对应的两个节点间的边的直接联想强度Rab为:
Figure BDA0003439611740000063
式中p(a,b)表示名词性术语a、b在给定窗口中共同出现的概率;pa和pb表示名词性术语a,b在给定窗口中分别出现的概率,p(a,b)的大小与共现次数以及共现位置有关,
在给定窗口大小的文本语料中,两个名词性术语a、b的共现概率p(a,b)为:
Figure BDA0003439611740000064
Figure BDA0003439611740000065
Figure BDA0003439611740000066
<ak,bk>表示给定窗口中的具有直接联想关系的名词性术语对;p表示名词性术语a,b在给定窗口中的共现次数;Ia,Ib分别表示具有直接联想关系的两个名词性术语在给定窗口中相对位置索引值;M是给定窗口中所有具有直接联想关系的名词性术语对的集和。
在一个实施例中,所述更新方法100还包括:在计算对应边eij的更新联想强度值的同时,需要进一步更新计算节点vj指向的所有节点的边的更新联想强度值,其中节点vj指向的所有节点的边的更新联想强度值为:
Figure BDA0003439611740000071
Figure BDA0003439611740000072
为边ejx的更新联想强度值,
Figure BDA0003439611740000073
为边ejx的原有联想强度值,xi为第二学习率,其大于0小于yi,Set为节点vj指向的所有节点的集合,x属于集合Set,ejx为节点vj指向的节点x的边。
优选的,可以利用多批文本语料分批次对所述动态联想知识网络进行更新,这样可是人脑的真实学习过程,不是一次性学习,而是不断的在学习。每学习一批文本语料会根据联想强度值对所述动态网络知识网络的边进行一次约简,以删除所述动态网络知识网络中的联想强度值最弱的一些边。每学习一批文本语料会对所述动态网络知识网络的所有边的联想强度值进行一次全局衰减。所述全局衰减为:所述动态网络知识网络的所有边的更新联想强度值等于其原有联想强度值乘以衰减率,所述衰减率大于0小于1。这样可以更好的模拟人脑的遗忘过程。
具体的,删除所述动态网络知识网络中的联想强度值最弱的一些边可以为:将所述动态网络知识网络的边按照联想强度值进行排序,保留联想强度值排名靠前的预定数量的边,删除其余排名靠后的边,或者,保留联想强度值高于预定值的边,删除联想强度值低于所述预定值的边。
下面通过详细的算法介绍所述动态网络知识网络的建模或更新方案。
算法1动态联想知识网络建模
Figure BDA0003439611740000081
其中V为节点集合,E为边集合,U为联想强度集合。
算法2:动态联想网络中边的更新算法
Figure BDA0003439611740000082
在联想知识网络动态学习过程中,每学习一批文档会进行一次全局衰减,即网络中边的联想强度整体减弱,目的是模拟大脑中神经元长期不被刺激导致记忆的衰退的过程,如式(6),其中γ为衰减率,0<γ<1。
在算法2动态联想网络更新时,向网络中插入边eij时,当该边已经存在网络中时只需要更新边上的联想强度,更新规则如式(8),即用新插入的联想强度值乘以一个学习率然后累加到原来的权重上。当网络中不存在边eij,则将边eij更新到网络G中,并且直接更新边上的联想强度为Rij,如式(9)。其中xi,yi是学习率,0<xi<yi<1。
根据本发明的另一个方面,本发明提供基于上述动态联想知识网络的语义纠错方法。图2为本发明的基于动态联想知识网络的语义纠错方法在一个实施例中的原理示意图。如图2所示的,所述语义纠错方法包括如下步骤。
步骤210,对观测文本进行分句、分词和标注词性处理,并提取名词性术语。
步骤220,得到所述观测文本的每个名词性术语与所述观测文本中其他名词性术语的相关关系对。
所述观测文本的每个名词性术语与所述观测文本中其他名词性术语的相关关系对包括该名词性术语与句子内的其他名词性术语的句内相关关系对、该名词性术语与其相邻句子内的其他名词性术语的句间相关关系对和该名词性术语与所在段落内的其他名词性术语的段落相关关系对。
对于观测文本已经获得的名词性知识术语,首先基于句子内部构建词共现知识网络,设观测文本中任一短句知识词序列SQ=a,b,c,d,e,其构建的句子内部共现网络如图4(a)所示,其中名词性术语c能够获取到的上下文关系如图4(b),名词性术语c的句内相关关系对Pairc={<a,c>,<c,e>,<b,c>,<c,d>}。
获取当前句子的前后两句作为句子之间维度,构建句子之间的词共现知识网络。设观测文本中任一短句知识词序列SQ=a,b,c,d,e,获取其前后两个短句知识词序列并构建共现网络如图5所示。其中图5(a)表示获取到的短句知识序列,图5(b)为基于前后句子构建的词共现网络,获取到句子前后维度词的上下文关系如图5(c)。得到名词性术语e的句间相关关系对Paire={<e,k>,<e,r>,<t,e>,<a,e>,<b,e>,<c,e>,<d,e>}。
对于段落P={k1,k2,...,kn,km},表示段落中名词性术语集和。段落维度中,首先获取名词性术语所在的段落。然后以当前词为基准,将段落中的其他所有名词性术语作为该词的上下文关系词语,如图6。得到名词性术语kn的段落相关关系对为
Figure BDA0003439611740000091
步骤230,将所述观测文本的每个名词性术语的相关关系对输入所述动态联想知识网络进行检索匹配,以找到每个名词性术语的相关关系对在所述动态联想知识网络中是否具有匹配的直接联想关系,基于每个名词性术语的相关关系对在所述动态联想知识网络中具有的匹配的直接联想关系的联想强度值计算该名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度。
上文获取到将所述观测文本的每个名词性术语在三个维度的相关关系对Pair,即在三个不同维度得到的上下文相关名词。将所述观测文本的每个名词性术语的相关关系对输入所述动态联想知识网络进行检索匹配,以找到每个名词性术语的相关关系对在所述动态联想知识网络中是否具有匹配的直接联想关系。当存在直接联想关系时,说明该相关关系对在所述动态联想知识网络中具有较好的联想性能,该名词性术语上下文语义一致的可能性更大。图3中给出了名词性术语f的相关关系对Pairf={<f,k>,<f,h>,<f,v>,,<e,f>,<b,f>}在所述动态联想知识网络G中的检索过程,其中边eef,efv,efh表示名词性术语f的相关关系对在动态联想知识网络G中具有直接联想关系时的检索结果,Ref°,Rfv°,Rfh°为动态联想知识网络中边上的联想强度值。
因此在评估文本中名词性术语的上下文语义一致性时,从它的相关关系对在动态联想知识网络中的联想性能角度出发。为了定量评估名词性术语和它的上下文相关名词在动态联想知识网络中的联想性能,提出了联想耦合度这个概念。
根据如下公式计算该名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度Acd,
Figure BDA0003439611740000101
其中
Figure BDA0003439611740000102
为名词性术语的相关关系对,G为动态联想知识网络,
Figure BDA0003439611740000103
表示相关关系对<kn,ki>即属于
Figure BDA0003439611740000104
且在动态联想知识网络G中存在匹配的直接联想关系,
Figure BDA0003439611740000105
表示动态联想知识网络中边
Figure BDA0003439611740000106
上的联想强度值。
步骤240,利用训练好的分类模型对所述观测文本的每个名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度进行分类以确定所述观测文本的每个名词性术语是否是上下文一致的。
具体的,利用上下文一致的名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度和上下文不一致的名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度作为正负样本训练所述分类模型以得到训练好的分类模型。
这样,所述基于动态联想知识网络的语义纠错方法就可以判断观测文本中是否存在上下文不一致的名词性术语,从而实现对观测文本的流畅性的判定。
语义纠错方法的实验
实验采用3个测评指标作为评价指标,分别为准确率(Precision)、召回率(Recall)和F-测度值(F-score)作为评价指标,相应的定义如下:
Figure BDA0003439611740000111
Figure BDA0003439611740000112
Figure BDA0003439611740000113
本文在构造动态联想知识网络时使用爬虫技术从“美食百科”和“食品百科”上抓取的“健康知识”、“膳食营养”、“饮食误区”等主题的10797篇饮食相关的文章作为语料素材。
在文本语义词的分类模型的训练中,将上下文一致名词和上下文不一致名词分别作为正负样本。向100篇食品文本中随机插入1800个名词作为文本中的上下文不一致名词,并做好标记。随机向文本句子中插入名词后部分结果如表1所示。
表1向100篇文本随机插入名词术语部分结果
Figure BDA0003439611740000114
本文基于大脑中知识学习的新增和遗忘过程,提出了动态的联想知识网络构建方式,从而探究知识系统的内在联系。并且在联想知识网络动态的构建过程中引入了网络衰减来模拟人脑记忆的遗忘过程;引入网络约简来消除大规模网络中冗余信息、去除噪声。
基于构建的联想知识网络,提出了一个新的应用点即文本语义词一致性判别方案。将构建好的动态联想知识网络作为一个大的背景网络来验证观测文本中语义词的上下文一致、语义流畅。通过实验表明本文所提出的模型对于判断文本中词语的上下文一致性具有良好的判别结果。
根据本发明的另一个方面,本发明提供一种计算机可读介质,其内存储有程序指令,该程序指令由处理器执行以实现上述动态联想知识网络的更新方法100,或者实现上述基于动态联想知识网络的语义纠错方法200。
根据本发明的另一个方面,本发明提供一种计算装置,其包括处理器和存储器,所述存储器中存储有程序指令,该程序指令由处理器执行以实现上述动态联想知识网络的更新方法100,或者实现上述基于动态联想知识网络的语义纠错方法200。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
在本文中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本申请请求保护的范围。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种动态联想知识网络的更新方法,其特征在于,所述动态联想知识网络包括多个节点、多条边以及每条边的联想强度值,每条边是由一个节点指向另一个节点,所述更新方法包括:
将文本语料进行分句、分词和词性标注,提取名词性术语,得到具有直接联想关系的名词性术语对以及具有直接联想关系的名词性术语对在给定窗口中的共现概率,其中如果两个名词性术语共同出现在一句子内,则认为这两个名词性术语间具有句子中靠前的一个名词性术语指向句子中靠后的另一个名词性术语的直接联想关系,这两个名词性术语形成具有直接联想关系的名词性术语对;和
为提取的每个名词性术语在所述动态联想知识网络中设置一个对应的节点,为得到的每个名词性术语对间的直接联想关系在所述动态联想知识网络中对应的节点间设置对应的边以及该对应边的联想强度值,所述联想强度值与具有直接联想关系的名词性术语对在给定窗口中的共现概率有关。
2.如权利要求1所述的动态联想知识网络的更新方法,其特征在于,为提取的每个名词性术语在所述动态联想知识网络中设置一个对应的节点包括:
对于提取的每个名词性术语,如果所述动态联想知识网络中已存在对应的节点,则保持不变,如果所述动态联想知识网络中不存在对应的节点,则为该名词性术语创建一个对应的节点;
为得到的每个名词性术语对间的直接联想关系在所述动态联想知识网络中对应的节点间设置对应的边以及该对应边的联想强度值包括:
对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中已经存在对应的边,则根据该具有直接联想关系的名词性术语对在给定窗口中的共现概率计算对应边的当前联想强度值,根据该对应的边的原有联想强度值、当前联想强度值设置对应边的更新联想强度值;
对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中不存在对应的边,则在所述动态联想知识网络中对应的节点间创建对应的边,并根据该具有直接联想关系的名词性术语对在给定窗口中的共现概率计算新创建的对应边的当前联想强度值,将当前联想强度值作为新创建的对应边的更新联想强度值。
3.如权利要求2所述的动态联想知识网络的更新方法,其特征在于,对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中已经存在对应的边,则对应边的更新联想强度值为:
Rij t+1=Rij*yi+Rij t
对于得到的每个名词性术语对间的直接联想关系,如果所述动态联想知识网络中不存在对应的边,则对应边的更新联想强度值为:
Rij t+1=Rij
其中
Figure FDA0003439611730000021
为边eij的更新联想强度值,
Figure FDA0003439611730000022
为边eij的原有联想强度值,yi为第一学习率,其大于0小于1,Rij为根据具有直接联想关系的名词性术语对wi,wj间在给定窗口中的共现概率计算得到的对应边eij的当前联想强度值,vi为名词性术语wi在所述动态联想知识网络中的节点,vj为名词性术语wj在所述动态联想知识网络中的节点,i,j为名词性术语的序号,边eij为节点vi指向节点vj的边,边eij是名词性术语对wi,wj间的直接联想关系的对应边。
4.如权利要求3所述的动态联想知识网络的更新方法,其特征在于,在给定窗口大小的文本语料中,任意两个名词性术语a、b对应的两个节点间的边的直接联想强度Rab为:
Figure FDA0003439611730000023
式中p(a,b)表示名词性术语a、b在给定窗口中共同出现的概率;pa和pb表示名词性术语a,b在给定窗口中分别出现的概率,p(a,b)的大小与共现次数以及共现位置有关,
在给定窗口大小的文本语料中,两个名词性术语a、b的共现概率p(a,b)为:
Figure FDA0003439611730000024
Figure FDA0003439611730000025
Figure FDA0003439611730000026
<ak,bk>表示给定窗口中的具有直接联想关系的名词性术语对;p表示名词性术语a,b在给定窗口中的共现次数;Ia,Ib分别表示具有直接联想关系的两个名词性术语在给定窗口中相对位置索引值;M是给定窗口中所有具有直接联想关系的名词性术语对的集和。
5.如权利要求3所述的动态联想知识网络的更新方法,其特征在于,其还包括:
在计算对应边eij的更新联想强度值的同时,需要进一步更新计算节点vj指向的所有节点的边的更新联想强度值,其中节点vj指向的所有节点的边的更新联想强度值为:
Figure FDA0003439611730000031
Figure FDA0003439611730000032
为边ejx的更新联想强度值,
Figure FDA0003439611730000033
为边ejx的原有联想强度值,xi为第二学习率,其大于0小于yi,Set为节点vj指向的所有节点的集合,x属于集合Set,ejx为节点vj指向的节点x的边。
6.如权利要求1所述的动态联想知识网络的更新方法,其特征在于,利用多批文本语料分批次对所述动态联想知识网络进行更新。
7.如权利要求6所述的动态联想知识网络的更新方法,其特征在于,每学习一批文本语料会根据联想强度值对所述动态网络知识网络的边进行一次约简,以删除所述动态网络知识网络中的联想强度值最弱的一些边;和/或
每学习一批文本语料会对所述动态网络知识网络的所有边的联想强度值进行一次全局衰减。
8.如权利要求7所述的动态联想知识网络的更新方法,其特征在于,删除所述动态网络知识网络中的联想强度值最弱的一些边为:
将所述动态网络知识网络的边按照联想强度值进行排序,保留联想强度值排名靠前的预定数量的边,删除其余排名靠后的边;或者
保留联想强度值高于预定值的边,删除联想强度值低于所述预定值的边;
所述全局衰减为:所述动态网络知识网络的所有边的更新联想强度值等于其原有联想强度值乘以衰减率,所述衰减率大于0小于1。
9.一种基于权利要求1-8任一所述更新方法得到的动态联想知识网络的语义纠错方法,其特征在于,其包括:
对观测文本进行分句、分词和标注词性处理,并提取名词性术语;
得到所述观测文本的每个名词性术语与所述观测文本中其他名词性术语的相关关系对;
将所述观测文本的每个名词性术语的相关关系对输入所述动态联想知识网络进行检索匹配,以找到每个名词性术语的相关关系对在所述动态联想知识网络中是否具有匹配的直接联想关系,基于每个名词性术语的相关关系对在所述动态联想知识网络中具有的匹配的直接联想关系的联想强度值计算该名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度;
利用训练好的分类模型对所述观测文本的每个名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度进行分类以确定所述观测文本的每个名词性术语是否是上下文一致的。
10.如权利要求9所述的语义纠错方法,其特征在于,利用上下文一致的名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度和上下文不一致的名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度作为正负样本训练所述分类模型以得到训练好的分类模型。
11.如权利要求9所述的语义纠错方法,其特征在于,所述观测文本的每个名词性术语与所述观测文本中其他名词性术语的相关关系对包括该名词性术语与句子内的其他名词性术语的句内相关关系对、该名词性术语与其相邻句子内的其他名词性术语的句间相关关系对和该名词性术语与所在段落内的其他名词性术语的段落相关关系对。
12.如权利要求9所述的语义纠错方法,其特征在于,根据如下公式计算该名词性术语的相关关系对在所述动态联想知识网络中的联想耦合度Acd,
Figure FDA0003439611730000041
其中
Figure FDA0003439611730000042
为名词性术语的相关关系对,G为动态联想知识网络,
Figure FDA0003439611730000043
表示相关关系对<kn,ki>即属于
Figure FDA0003439611730000044
且在动态联想知识网络G中存在匹配的直接联想关系,
Figure FDA0003439611730000045
表示动态联想知识网络中边
Figure FDA0003439611730000046
上的联想强度值。
13.一种计算装置,其包括处理器和存储器,所述存储器中存储有程序指令,该程序指令由处理器执行以实现如权利要求1-8任一所述的动态联想知识网络的更新方法,或者实现如权利要求9-12任一所述的基于动态联想知识网络的语义纠错方法。
14.一种计算机可读介质,其内存储有程序指令,该程序指令被执行以实现如权利要求1-8任一所述的动态联想知识网络的更新方法,或者实现如权利要求9-12任一所述的基于动态联想知识网络的语义纠错方法。
CN202111630328.8A 2021-12-28 2021-12-28 动态联想知识网络的更新方法、语义纠错方法 Active CN114491060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111630328.8A CN114491060B (zh) 2021-12-28 2021-12-28 动态联想知识网络的更新方法、语义纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111630328.8A CN114491060B (zh) 2021-12-28 2021-12-28 动态联想知识网络的更新方法、语义纠错方法

Publications (2)

Publication Number Publication Date
CN114491060A true CN114491060A (zh) 2022-05-13
CN114491060B CN114491060B (zh) 2024-02-20

Family

ID=81496666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111630328.8A Active CN114491060B (zh) 2021-12-28 2021-12-28 动态联想知识网络的更新方法、语义纠错方法

Country Status (1)

Country Link
CN (1) CN114491060B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880477A (zh) * 2022-06-02 2022-08-09 江南大学 一种专利技术演化脉络的提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243223A (ja) * 2000-02-29 2001-09-07 Nec Corp 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
CN104881400A (zh) * 2015-05-19 2015-09-02 上海交通大学 基于联想网络的语义相关性计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243223A (ja) * 2000-02-29 2001-09-07 Nec Corp 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
CN104881400A (zh) * 2015-05-19 2015-09-02 上海交通大学 基于联想网络的语义相关性计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHENPING XIE, KUN WANG, YUAN LIU: "On Learning Associative Relationship Memory among Knowledge Concepts", 《INTERNATIONAL JOURNAL OF NETWORKED AND DISTRIBUTED COMPUTING》, pages 3 *
王坤,谢振平,陈梅婕: "基于图约简的知识联想网络建模", 《智能系统学报》, vol. 14, no. 4, pages 1 *
钟茂生,刘慧,刘磊: "词汇间语义相关关系量化计算方法", 《中文信息学报》, vol. 23, no. 2, pages 3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880477A (zh) * 2022-06-02 2022-08-09 江南大学 一种专利技术演化脉络的提取方法

Also Published As

Publication number Publication date
CN114491060B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN111259653A (zh) 基于实体关系消歧的知识图谱问答方法、系统以及终端
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN110750704B (zh) 一种查询自动补全的方法和装置
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN109165040B (zh) 一种基于随机森林模型的代码抄袭嫌疑检测的方法
CN108520033B (zh) 基于超空间模拟语言的增强伪相关反馈模型信息检索方法
CN110851714A (zh) 基于异构主题模型和词嵌入模型的文本推荐方法和系统
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
JP2021136027A (ja) 文書のテーマ・カバレッジの分析
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN114491060B (zh) 动态联想知识网络的更新方法、语义纠错方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant