CN110188347B - 一种面向文本的知识主题间认知关系抽取方法 - Google Patents

一种面向文本的知识主题间认知关系抽取方法 Download PDF

Info

Publication number
CN110188347B
CN110188347B CN201910356243.1A CN201910356243A CN110188347B CN 110188347 B CN110188347 B CN 110188347B CN 201910356243 A CN201910356243 A CN 201910356243A CN 110188347 B CN110188347 B CN 110188347B
Authority
CN
China
Prior art keywords
word
text
cognitive
knowledge
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910356243.1A
Other languages
English (en)
Other versions
CN110188347A (zh
Inventor
刘均
麻珂欣
曾宏伟
任若清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910356243.1A priority Critical patent/CN110188347B/zh
Publication of CN110188347A publication Critical patent/CN110188347A/zh
Application granted granted Critical
Publication of CN110188347B publication Critical patent/CN110188347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种面向文本的知识主题间认知关系抽取方法,不仅判断出知识主题间存在的依赖关系,更具有方向性。可根据过滤后的认知关系三元组指导知识主题的学习。其包括以下步骤:(1)对待识别文本进行预处理得到预处理结果文本;(2)结合词以及句子层面因素,抽取预处理结果文本中影响认知关系的词特征和句子特征,构成认知关系特征集;(3)利用多节点标记规则,通过训练的条件随机场模型进行句子层面序列标注;根据认知关系特征集,抽取句子中存在的所有认知关系三元组;(4)计算认知关系三元组中知识主题词重要性,根据词语重要性原则,对抽取出认知关系三元组进行过滤,从而抽取出知识主题间认知关系。

Description

一种面向文本的知识主题间认知关系抽取方法
技术领域
本发明涉及知识主题间认知关系的方法,具体为一种面向文本的知识主题间认知关系抽取方法。
背景技术
信息技术的快速发展和网络的普及带来了海量的数字资源,巨大的数字资源使学习者从中快速、有序、准确的获取所需知识造成了极大的困难,易造成学习迷航等问题。因此,如何缓解该问题已经成为了信息领域急需解决的问题之一。其核心是如何实现将数据庞大、信息缺乏的互联网信息根据知识主题之间内在的联系,即知识主题之间的认知关系,将知识主题有序的组织在一起。以知识主题为主要研究对象,挖掘其中的认知关系,并提供一种方式使得知识主题以简明、合理的方式组织起来,从而学习者可根据其中认知关系顺序以递进的方式学习,大大提高了学习效率,缓解了学习迷航等问题。
知识主题间的认知关系决定了知识主题学习的先后顺序。在传统教育或学习中都是根据经验判断知识主题间的认知关系。目前,高质量的知识主题间认知关系需要领域专家根据领域知识来进行标注,构建过程缓慢。因此,实际有效自动判断知识主题间认知关系的方法,有助于推进学习者高效有序学习。
发明内容
针对现有技术中存在的问题,本发明提供一种面向文本的知识主题间认知关系抽取方法,不仅判断出知识主题间存在的依赖关系,更具有方向性。可根据过滤后的认知关系三元组指导知识主题的学习。
本发明是通过以下技术方案来实现:
一种面向文本的知识主题间认知关系抽取方法,包括以下步骤:
(1)对待识别文本进行预处理得到预处理结果文本;
(2)结合词以及句子层面因素,抽取预处理结果文本中影响认知关系的词特征和句子特征,构成认知关系特征集;
(3)利用多节点标记规则,通过训练的条件随机场模型进行句子层面序列标注;根据认知关系特征集,抽取句子中存在的所有认知关系三元组;
(4)计算认知关系三元组中知识主题词重要性,根据词语重要性原则,对抽取出认知关系三元组进行过滤,从而抽取出知识主题间认知关系。
优选的,所述步骤(1)包括以下步骤:
(1.1)抽取待识别文本中的领域术语构成知识主题词集;
(1.2)对知识主题词集和待识别文本进行繁简体转换,将文本中繁体字均转换为对应简体中文,得到简体知识主题词集和简体待识别文本;
使用繁简体转换之后的知识主题词集构建分词自定义外部词典,使用分词自定义外部词典对简体待识别文本进行分词得到分词文本;
(1.3)使用简体知识主题词集构建知识领域词性标注自定义外部词典,词性标注自定义外部词典中每行所包含内容为(知识主题词,词性),知识主题词的词性均为名词;使用词性标注自定义外部词典对分词文本进行词性标注,识别出分词文本中动词、名词、介词、形容词、代词、助动词以及标点;
(1.4)对分词文本进行语义角色标注;语义角色标注识别出句子中的主语、宾语、间接宾语、谓语动词、方式、时间、非语义角色;在确定词语的语义角色时,根据嵌套在最底层谓词所对应的词语语义角色确定词语的语义角色;
(1.5)对待识别文本中句子进行命名实体识别,识别出句子中的人名、机构名、地名和非命名实体;对待识别文本中句子进行依存句法分析处理,识别出句子中实体之间的关系,实体间关系包括:核心关系、主谓关系、并列关系、动宾关系、定中结构和状中结构。
优选的,所述步骤(2)包括以下步骤:
(2.1)词特征选择:抽取词的位置、词性、命名实体类型、语义角色类型信息作为词的特征;其中词的位置特征计算方法为该词语在整个句子分词后,从第一个词语算起位于第几个词语;
(2.2)句子特征选择:抽取词语在句子中的语法信息作为句子的特征;
(2.3)组合词特征以及句子特征构成特征集。
优选的,所述步骤(3)包括以下步骤:
(3.1)使用多节点标记规则对预处理结果文本中所有句子进行标记;多节点标记规则中,使用“CR”表示认知关系谓词,“F”表示先序实体,“L”表示后序实体,“OT”表示其它词;同时结合“BIE”标记模式,其中,“B”表示词首,“I”表示词中,“E”表示词尾;
(3.2)使用上述标记规则对实验数据集的文本进行标记;然后将实验数据集分为训练集和测试集,分别用于验证训练模型和测试模型有效性;
(3.3)使用条件随机场模型基于句子层面进行序列标注;条件随机场模型中使用条件概率计算条件随机场模型的隐藏状态序列;
在对句子进行上述的序列标记过程中,提取出对于一个句子中存在的多个不同认知关系角色,得到句子中存在的多组认知关系三元组;
(3.4)根据认知关系特征集,使用关系三元组形式从模型训练结果提取出认知关系;关系三元组以(F,CR,L)的形式表示;其中“F”表示先序实体,“CR”表示认知关系谓词,“L”表示后序实体;关系三元组所包含认知关系为:先学习先序实体,再学习后序实体。
进一步,所述步骤(3.3)中:
其中,条件概率为:
Figure BDA0002045507920000031
式中,x为观测序列,y为隐藏状态序列,
Figure BDA0002045507920000041
λk和μl为权值,sl和tk分别为结点上和边上的状态特征函数和转移特征函数,依赖于所处位置。
优选的,所述步骤(4)包括以下步骤:
(4.1)对抽取出的认知关系三元组,使用TF-IDF衡量先序实体和后序实体的词语重要性;
(4.2)当词语的重要性值在一定区间内时,剔除该知识主题词,同时,将包含该知识主题词的认知关系三元组剔除;
(4.3)在进行认知关系三元组过滤之后,剩下的认知关系三元组则为待分析文本中实际存在的知识主题间认知关系,即成功抽取出知识主题间认知关系。
进一步,所述步骤(4.1)中,
TF-IDF值计算公式为:
Figure BDA0002045507920000042
式中,N为文档总数;dfi为词语i的词频;fij为词语i在文档dj中的词频;ni为文档中出现词语i的文档数。
与现有技术相比,本发明具有以下有益的技术效果:
本发明能够对文本内容自动分析,识别出文本中的知识主题词。结合词以及句子特征构建特征模型,通过条件随机场模型标记出句子中知识主题间认知先后顺序,并计算出知识主题词的重要性,根据知识主题词重要性进行无关知识主题词及认知关系过滤。该方法可有效抽取出文本中知识主题间认知关系,可有效帮助学生学习。
附图说明
图1为本发明的方法流程框架图。
图2为本发明实例中所述维基百科数据获取和处理流程图。
图3为本发明实例中所述维基百科词条页面示意图。
图4为本发明实例中所述维基百科词条对应解释页面示意图。
图5为本发明实例中所述语义角色标注示例。
图6为本发明实例中所述文本预处理流程图。
图7为本发明实例中所述句子序列标记示例。
图8为本发明实例中所述机器学习领域认知关系挖掘部分数据示例图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
以维基百科为知识源为例,提取维基百科词条构成知识主题词集,并且提取词条对应维基百科页面正文摘要构成待识别文本。维基百科的数据获取和处理流程如图2所示。所提取维基百科词条如图3所示,所提取维基百科正文摘要内容如图4所示。
本发明具体包括以下步骤,参见图1:
(1)对待识别文本进行预处理得到预处理结果文本,如图6所示,主要包括5个步骤:
(1.1)抽取待识别文本中的领域术语构成知识主题词集。
(1.2)对知识主题词集和待识别文本进行繁简体转换,将文本中繁体字均转换为对应简体中文,得到简体知识主题词集和简体待识别文本。使用简体知识主题词集构建分词自定义外部词典,使用分词自定义外部词典对简体待识别文本进行分词得到分词文本。
(1.3)使用简体知识主题词集构建知识领域词性标注自定义外部词典,词性标注自定义外部词典中每行所包含内容为(知识主题词,词性),知识主题词的词性均为名词。使用词性标注自定义外部词典对分词文本进行词性标注,识别出分词文本中动词、名词、介词、形容词、代词、助动词以及标点。词性标注时包括对动词、名词、介词、形容词、代词、助动词以及标点的对应标注。
(1.4)对分词文本进行语义角色标注。在语义角色标注过程中,同一个词语在不同谓词中语义角色可能不相同。语义角色标注识别出句子中的主语、宾语、间接宾语、谓语动词、方式、时间、非语义角色。在确定词语的语义角色时,根据嵌套在最底层谓词所对应的词语语义角色确定词语的语义角色。语义角色标注实例如图5所示,句子“机器学习理论主要是设计和分析一些让计算机可以自动学习的算法”中,短语“可以自动学习”在第一层分析中语义角色为A1(宾语),而在底层分析中语义角色为A2(间接宾语),因此该短语的语义角色为A2(间接宾语)。
(1.5)对分词文本中句子进行命名实体识别,识别出句子中的人名、机构名、地名和非命名实体。对分词文本中句子进行依存句法分析处理,识别出句子中的实体之间的关系,实体间关系包括:核心关系、主谓关系、并列关系、动宾关系、定中结构和状中结构。
对分词文本完成词性标注、语义角色标注和命名实体识别后得到预处理结果文本。(2)结合词以及句子层面因素,抽取预处理结果文本中影响认知关系的词特征和句子特征,构建认知关系特征集;主要包括2个步骤:
(2.1)词特征选择:抽取词的位置、词性、命名实体类型、语义角色类型信息作为词的特征。其中词的位置特征计算方法为该词语在整个句子分词后,从第一个词语算起位于第几个词语。
(2.2)句子特征选择:抽取词语在句子中的语法信息作为句子的特征。
(2.3)组合词特征以及句子特征构成特征集。
(3)利用多节点标记规则,通过训练的条件随机场模型进行句子层面序列标注;根据认知关系特征集,抽取句子中存在的所有认知关系三元组。具体主要包括3个步骤:
(3.1)使用多节点标记规则对预处理结果文本中所有句子进行标记。多节点标记规则中,使用“CR”表示认知关系谓词,“F”表示先序实体,“L”表示后序实体,“OT”表示其它词。同时结合“BIE”标记模式,其中,“B”表示词首,“I”表示词中,“E”表示词尾。
句子多节点标记示例如图7所示,对句子“机器学习理论主要是设计和分析一些让计算机可以自动学习的算法”进行认知关系标记。
知识主题词的标记由完整的包含“B”、“I”、“E”的词构成。确定一个知识主题词的详细过程如下:
Step1:初始化句子检测位置index=0;
Step2:初始化知识主题词为topic=Ф,i=0。
Step3:从句子index位置开始检测,当检测到L或者F时,则直接输出该知识主题词;当检测到第一个F-B或L-B时,将该词存入topic[i]中,i加1;
Step3:在检测到词首之后,将之后所检测到连续的词中F-I或L-I存入topic[i]中,i加1;
Step4:当检测到词尾,即F-E或L-E时,将该词存入topic[i]中,i=0,输出topic保存所检测出知识主题词。记录句子检测位置index=i;
Step5:判断句子是否结束,若未到达句子结尾,则index加一,跳转执行Step2;否则,句子中知识主题词已检测完,继续重复Step1到Step5检测下一个句子。
如图7所示,能够确定出知识主题词为机器学习理论、算法。
(3.2)使用上述标记规则对实验数据集的文本进行标记。然后将实验数据集分为训练集和测试集,分别用于验证训练模型和测试模型有效性。
(3.3)使用条件随机场模型基于句子层面进行序列标注。条件随机场模型中使用条件概率计算条件随机场模型的隐藏状态序列;
其中,条件概率为:
Figure BDA0002045507920000081
式中,x为观测序列,y为隐藏状态序列,
Figure BDA0002045507920000082
λk和μl为权值,sl和tk分别为结点上和边上的状态特征函数和转移特征函数,依赖于所处位置。所述的特征函数计算特征时同时考虑当前词语的前后三个词语的特征。
在对句子进行上述的序列标记过程中,提取出对于一个句子中存在的多个不同认知关系角色,得到句子中存在的多组认知关系三元组。
所使用条件随机场特征模板形式如下:
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
其中,Uzz表示该特征模板为Unigram类型,窗口大小为m,%x[#,#]中的两个“#”分别表示相对的行偏移与列偏移,x表示词的位置。特征模板表明对于位置i的词,还考虑其前面m个词以及后面m个词对标记的影响,本优选实例中窗口大小为3。
(3.4)根据认知关系特征集,使用关系三元组形式从模型训练结果提取出认知关系。关系三元组以(F,CR,L)的形式表示。其中“F”表示先序实体,“CR”表示认知关系谓词,“L”表示后序实体。关系三元组所包含认知关系为:先学习先序实体,再学习后序实体。
从模型训练结果中提取认知关系三元组的详细过程如下:
Step1:初始化关系三元组集合RelationSet为空,先序实体集合First为空,后序实体集合Last为空,关系谓词集RelationVerb为空;
Step2:输入一个句子的模型训练标记结果,指针fi=0、li=0、ri=0。
Step3:根据认知关系特征集,从句首开始识别,当识别到完整先序实体firstEntity,则放到先序实体集合First中,fi加1;当识别到完整后序实体时,则放到后序实体集合Last中,li加1;当识别到关系谓词时,则存放到关系谓词集RelationVerb中,ri加1。
Step4:根据认知关系特征集,每当识别到一个关系谓词,判断先序实体集合First[fi--]、后序实体集合Last[li--]是否存在元素,若均存在元素,则(First[fi--]、RelationVerb[ri--]、Last[li--])构成认知关系三元组。否则,继续向后检测,直到三个集合均不为空,得到从模型训练结果中提取出的认知关系三元组。
Step5:当句子识别完毕,则初始化先序实体集合First为空,后序实体集合Last为空,关系谓词集RelationVerb为空。若存在待识别的其它句子,则跳到Step2,否则执行完毕。
(4)计算认知关系三元组中知识主题词重要性,根据词语重要性原则,对抽取出认知关系三元组进行过滤,从而抽取出知识主题间认知关系。其中,认知关系三元组过滤,主要包括3个步骤:
(4.1)对抽取出的认知关系三元组,使用TF-IDF衡量先序实体和后序实体的词语重要性。在计算知识主题词的词语重要性之前,对预处理结果文本进行去停用词处理。TF-IDF值计算公式为:
Figure BDA0002045507920000091
式中,N为文档总数;dfi为词语i的词频;fij为词语i在文档dj中的词频;ni为文档中出现词语i的文档数。
(4.2)根据统计,当词语重要性值在一定区间内时,则该词语不是专业名词。因此当词语的重要性值在一定区间内时,剔除该知识主题词,同时,将包含该知识主题词的认知关系三元组剔除。
(4.3)在进行认知关系三元组过滤之后,剩下的认知关系三元组则为待分析文本中实际存在的知识主题间认知关系,即成功抽取出知识主题间认知关系。如图8所示为使用以上方法所抽取出机器学习领域认知关系挖掘部分数据。
本发明上述实例,从维基百科获得知识主题以及待分析文本,对知识主题词以及待分析文本进行处理,包括构建自定义外部词典、分句、分词、词性标注、命名实体识别及句法分析。根据文本分析结果构建实体间认知关系特征,通过条件随机场模型对句子进行多节点序列标记,得到句子中实体间认知关系。最后,根据词语重要性对模型抽取出认知关系三元组进行过滤,得到待识别文本中知识主题间认知关系。该方法能够对文本进行自动分析,识别出文本中存在的知识主题间的认知关系,帮助学习者高效有序的学习。

Claims (4)

1.一种面向文本的知识主题间认知关系抽取方法,其特征在于,包括以下步骤:
(1)对待识别文本进行预处理得到预处理结果文本;
(2)结合词以及句子层面因素,抽取预处理结果文本中影响认知关系的词特征和句子特征,构成认知关系特征集;
(3)利用多节点标记规则,通过训练的条件随机场模型进行句子层面序列标注;根据认知关系特征集,抽取句子中存在的所有认知关系三元组;
(4)计算认知关系三元组中知识主题词重要性,根据词语重要性原则,对抽取出认知关系三元组进行过滤,从而抽取出知识主题间认知关系;
所述步骤(2)包括以下步骤:
(2.1)词特征选择:抽取词的位置、词性、命名实体类型、语义角色类型信息作为词的特征;其中词的位置特征计算方法为该词在整个句子分词后,从第一个词语算起位于第几个词语;
(2.2)句子特征选择:抽取词语在句子中的语法信息作为句子的特征;
(2.3)组合词特征以及句子特征构成特征集;
所述步骤(3)包括以下步骤:
(3.1)使用多节点标记规则对预处理结果文本中所有句子进行标记;多节点标记规则中,使用“CR”表示认知关系谓词,“F”表示先序实体,“L”表示后序实体,“OT”表示其它词;同时结合“BIE”标记模式,其中,“B”表示词首,“I”表示词中,“E”表示词尾;
(3.2)使用上述标记规则对实验数据集的文本进行标记;然后将实验数据集分为训练集和测试集,分别用于验证训练模型和测试模型有效性;
(3.3)使用条件随机场模型基于句子层面进行序列标注;条件随机场模型中使用条件概率计算条件随机场模型的隐藏状态序列;
在对句子进行上述的序列标注过程中,提取出对于一个句子中存在的多个不同认知关系角色,得到句子中存在的多组认知关系三元组;
(3.4)根据认知关系特征集,使用关系三元组形式从模型训练结果提取出认知关系;关系三元组以(F,CR,L)的形式表示;其中“F”表示先序实体,“CR”表示认知关系谓词,“L”表示后序实体;关系三元组所包含认知关系为:先学习先序实体,再学习后序实体;
所述步骤(4)包括以下步骤:
(4.1)对抽取出的认知关系三元组,使用TF-IDF衡量先序实体和后序实体的词语重要性;
(4.2)当词语的重要性值在一定区间内时,剔除该知识主题词,同时,将包含该知识主题词的认知关系三元组剔除;
(4.3)在进行认知关系三元组过滤之后,剩下的认知关系三元组则为待分析文本中实际存在的知识主题间认知关系,即成功抽取出知识主题间认知关系。
2.根据权利要求1所述的一种面向文本的知识主题间认知关系抽取方法,其特征在于,所述步骤(1)包括以下步骤:
(1.1)抽取待识别文本中的领域术语构成知识主题词集;
(1.2)对知识主题词集和待识别文本进行繁简体转换,将文本中繁体字均转换为对应简体中文,得到简体知识主题词集和简体待识别文本;
使用繁简体转换之后的知识主题词集构建分词自定义外部词典,使用分词自定义外部词典对简体待识别文本进行分词得到分词文本;
(1.3)使用简体知识主题词集构建知识领域词性标注自定义外部词典,词性标注自定义外部词典中每行所包含内容为知识主题词,词性;知识主题词的词性均为名词;使用词性标注自定义外部词典对分词文本进行词性标注,识别出分词文本中动词、名词、介词、形容词、代词、助动词以及标点;
(1.4)对分词文本进行语义角色标注;语义角色标注识别出句子中的主语、宾语、谓语动词、方式、时间、非语义角色;在确定词语的语义角色时,根据嵌套在最底层谓词所对应的词语语义角色确定词语的语义角色;
(1.5)对待识别文本中句子进行命名实体识别,识别出句子中的人名、机构名、地名和非命名实体;对待识别文本中句子进行依存句法分析处理,识别出句子中实体之间的关系,实体间关系包括:核心关系、主谓关系、并列关系、动宾关系、定中结构和状中结构。
3.根据权利要求1所述的一种面向文本的知识主题间认知关系抽取方法,其特征在于,所述步骤(3.3)中:
其中,条件概率为:
Figure FDA0002715387890000031
式中,x为观测序列,y为隐藏状态序列,
Figure FDA0002715387890000032
λk和μl为权值,sl为节点上的状态特征函数,tk为边上的转移特征函数,sl和tk分别依赖于所处位置。
4.根据权利要求1所述的一种面向文本的知识主题间认知关系抽取方法,其特征在于,所述步骤(4.1)中,
TF-IDF值计算公式为:
Figure FDA0002715387890000033
式中,N为文档总数;dfi为词语i的词频;fij为词语i在文档dj中的词频;ni为文档中出现词语i的文档数。
CN201910356243.1A 2019-04-29 2019-04-29 一种面向文本的知识主题间认知关系抽取方法 Active CN110188347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910356243.1A CN110188347B (zh) 2019-04-29 2019-04-29 一种面向文本的知识主题间认知关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910356243.1A CN110188347B (zh) 2019-04-29 2019-04-29 一种面向文本的知识主题间认知关系抽取方法

Publications (2)

Publication Number Publication Date
CN110188347A CN110188347A (zh) 2019-08-30
CN110188347B true CN110188347B (zh) 2021-01-19

Family

ID=67715340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910356243.1A Active CN110188347B (zh) 2019-04-29 2019-04-29 一种面向文本的知识主题间认知关系抽取方法

Country Status (1)

Country Link
CN (1) CN110188347B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826316B (zh) * 2019-11-06 2021-08-10 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN111444349B (zh) * 2020-03-06 2023-09-12 深圳追一科技有限公司 信息抽取方法、装置、计算机设备和存储介质
CN111597794B (zh) * 2020-05-11 2023-06-06 浪潮软件集团有限公司 一种基于依存关系的“是”字句关系抽取方法和装置
CN113297826B (zh) * 2020-06-28 2022-06-10 上海交通大学 在自然语言文本上进行标记的方法
CN111859858B (zh) * 2020-07-22 2024-03-01 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置
CN112800175B (zh) * 2020-11-03 2022-11-25 广东电网有限责任公司 一种电力系统知识实体跨文档搜索方法
CN112380864B (zh) * 2020-11-03 2021-05-28 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112380866A (zh) * 2020-11-25 2021-02-19 厦门市美亚柏科信息股份有限公司 一种文本话题标签生成方法、终端设备及存储介质
CN112579444B (zh) * 2020-12-10 2024-05-07 华南理工大学 基于文本认知的自动分析建模方法、系统、装置及介质
CN113326700B (zh) * 2021-02-26 2024-05-14 西安理工大学 一种基于ALBert的复杂重型装备实体抽取方法
CN113158658B (zh) * 2021-04-26 2023-09-19 中国电子科技集团公司第二十八研究所 一种基于知识嵌入的结构化管制指令提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8031201B2 (en) * 2009-02-13 2011-10-04 Cognitive Edge Pte Ltd Computer-aided methods and systems for pattern-based cognition from fragmented material
CN107122444A (zh) * 2017-04-24 2017-09-01 北京科技大学 一种法律知识图谱自动构建方法
CN109376202B (zh) * 2018-10-30 2021-08-03 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法

Also Published As

Publication number Publication date
CN110188347A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188347B (zh) 一种面向文本的知识主题间认知关系抽取方法
Athar et al. Detection of implicit citations for sentiment detection
Newman et al. Bayesian text segmentation for index term identification and keyphrase extraction
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
US11170169B2 (en) System and method for language-independent contextual embedding
Hussein Arabic document similarity analysis using n-grams and singular value decomposition
Argamon Computational forensic authorship analysis: Promises and pitfalls
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
Singh et al. Review of real-word error detection and correction methods in text documents
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
Sethi et al. Automated title generation in English language using NLP
Tschuggnall et al. Countering Plagiarism by Exposing Irregularities in Authors' Grammar
Mittrapiyanuruk et al. The automatic Thai sentence extraction
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
CN110162615B (zh) 一种智能问答方法、装置、电子设备和存储介质
Sharma et al. Full-page handwriting recognition and automated essay scoring for in-the-wild essays
CN111681731A (zh) 一种对检查报告进行自动颜色标注的方法
Sharma A comparative analysis of Hindi word sense disambiguation and its approaches
Oudah et al. Person name recognition using the hybrid approach
Mekala et al. A survey on authorship attribution approaches
Dehghani et al. Persian Typographical Error Type Detection using Many-to-Many Deep Neural Networks on Algorithmically-Generated Misspellings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant