CN110888991A - 一种弱标注环境下的分段式语义标注方法 - Google Patents
一种弱标注环境下的分段式语义标注方法 Download PDFInfo
- Publication number
- CN110888991A CN110888991A CN201911190029.XA CN201911190029A CN110888991A CN 110888991 A CN110888991 A CN 110888991A CN 201911190029 A CN201911190029 A CN 201911190029A CN 110888991 A CN110888991 A CN 110888991A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- relation
- text
- weak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000007418 data mining Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims description 22
- 238000005516 engineering process Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的是一种弱标注环境下的分段式语义标注方法。(1)输入待标注文本,使用数据挖掘算法自动化构建文本主题相关的“类别‑实体‑关系‑扩展”四层领域本体;(2)使用已构建的四层领域本体对弱标记文本进行语义标注;(3)采用加入注意力机制的卷积神经网络对已标注的段落文本进行段落句群划分;(4)综合使用词袋模型验证句群划分准确性并对新生成的句群的标注信息进行筛选。本发明对历史、文学、娱乐、计算机等不同领域的文本均具有较好的标注和句群划分效果,解决了多学科弱标记资源文本无法准确处理和分析的问题,可以帮助用户缩小检索范围,快速找到搜索结果,提高搜索准确性。
Description
技术领域
本发明涉及的是一种自然语言处理(NLP)方法,具体地说是一种基于文本标注的句群划分方法。
背景技术
伴随着中文互联网世界的跨越式进步,各大中文互联网平台上积累了海量的文本数据,对这些文本数据进行分析和分类,有助于平台构建清晰的用户画像,对平台未来的发展和定位具有重要意义。
但现实生活中,大多数数据的标记都是弱标记(Weak Label),即不准确、不完整的标记。弱标记样本可能仅包含其对应标记中的小部分,又或者根本没有任何标记。而现有的较为流行的处理数据的方式,效果明显的则都是基于多标记数据的。常见的多标签分类算法如标签Powerset(Label Powerset,LP)、二元关联(Binary Relevance,BR)、组合分类器链(Ensembles of Classifier Chains,ECC)、多标签K近邻(Multi-Label K-NearestNeighbor,ML-KNN)等,都需要训练集中所有数据的标签信息完整,故均不能对弱标记样本进行有效地学习,基本无法使用弱标记训练集获得成熟的模型,也就无法对数据进行有效的分类和进一步解读。
对数据的解读,以对数据的分类标注为主。具体到文本数据,则是对文本进行语义标注。语义标注可以视作一个输入和输出的过程,其输入为无标注的文本,输出为有标注语义信息的文本,它是语义检索、知识挖掘、智能推理等研究领域的一个热点问题,常用的模型有:条件随机场(CRF)模型、递归神经网络(RNN)模型等。而文本语义标注技术,则是将非结构化的自然语言文本数据转变为结构化的语义数据的有效手段。现有的文本语义标注技术的研究方向,主要集中于借助统计学习的手段,对已有的文本资料进行全文的命名实体的标注。但根据此方法形成的语义标注数据,同样存在逻辑结构简单混乱、感情判断不清、命名实体遗漏等问题,针对这一问题,需要将文章带入相应的领域本体中。
领域本体(Domain Ontology,DO)是对领域的一种结构化描述。其具体可根据其作用的不同包含有学科中的类别、概念实体以及实体间的关系和与实体相关的扩展概念及关系间的约束等。因为知识含有显著的学科特征,领域本体可以更加直观合理的表示知识的结构。这里的“学科”其实是一种领域范围的概念,本质上是按照本体创建者的需求来划分的,它可以是一个大类别的学科,也可以是几个学科或者范围的组合,还也可以是一个学科中分出的更小的范围。
目前为止,本体工程中比较有名的几种方法包括TOVE法、Methontology方法、骨架法、IDEF-5法和七步法等,均处于人工建立领域本体的阶段。随着深度学习技术的发展,联合改进经典深度学习算法长短期记忆网络(LSTM)和条件随机场算法(CRF)构建领域本体的技术也已经出现,但准确率相对较低。由于本体工程到目前为止仍处于相对不成熟的阶段,领域本体的建设还处于探索期,因此构建过程中还存在着很多问题。因此,如何自动化的构建一个准确率高的、可以用于标注文本语义数据的领域本体就是目前急需解决的问题之一。
发明内容
本发明的目的在于提供一种能够解决多学科弱标记资源文本无法准确处理和分析的问题,可以帮助用户缩小检索范围,快速找到搜索结果,提高搜索准确性的弱标注环境下的分段式语义标注方法。
本发明的目的是这样实现的:
(1)输入待标注文本,使用数据挖掘方法根据文章标题弱标记,自动构建与文本主题相关的类别-实体-关系-扩展四层领域本体;
(2)使用分词技术将文章按段落带入已构建的四层领域本体中,对弱标记文本的初步语义标注;
(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合,使用skip-gram模型生成词向量,使用加入注意力机制的卷积神经网络进行训练,已标注的段落文本进行段落句群划分,对相邻段落是否属于同一句群进行判断;
(4)使用词袋模型验证句群生成的准确性并对新生成的句群的标注信息进行重新筛选。
本发明还可以包括:
1.步骤(1)中构建领域本体的实体词结构时,先使用分词技术,获取文章标题中的实词,并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词,公式为:W(wi)=tf(wi)×df(wi)×(1+g(wi))×fp(wi),
考虑到分词粒度对结果产生的影响,ft(wi)是wi在标题中所占的汉字数目,st(dj)是标题中全部实词的汉字总数,Q为调整系数、与标题内重复包含的该关键词个数的上限有关,经训练取整数2,取得分最高的前n个主题词作为初始的实体词,以获取其领域层次结构,n的大小与文章篇幅正相关。
2.步骤(1)中构建领域本体的类别词结构时,将提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中,在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇,再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系,保留每类中处于最上位的待选择词作为文章领域的类别词。
3.步骤(1)中构建领域本体的关系词结构时,将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱知识库中检索,爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W,并使用关系词得分公式计算关系词得分,保留得分高于阈值的关系词作为文章领域本体的关系词。
4.步骤(1)中构建领域本体的扩展词结构时,通过分别建立实体层m个实体词+关系层n个关系词所对应的m×n个词对,在必应搜索中检索m×n次词对获取网页信息,爬取检索结果前十页内网页的主要内容,分词并保留名词,统计剩余词汇和词频,通过计算TF-IDF值,保留大的词作为待选择的扩展词,通过多维度归一化Bing距离公式计算其归一化距离,公式如下:
其中,M表示Bing索引搜索到的网页总数,f(x)和f(y)分别表示搜索词x和y的命中数量,f(x,y)表示同时出现x和y的网页数量,若x和y从未一起出现在同一网页上,而只是单独出现,则它们之间的归一化Bing距离无穷大;若x和y总是同时出现,则它们之间的归一化Bing距离为0,利用归一化Bing距离对非领域内概念进行过滤,将过滤后得到的词汇作为领域本体第四层的扩展词汇。
5.步骤(2)中使用已构建的四层领域本体对弱标记文本进行语义标注时:将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历,提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。
6.步骤(3)中已标注的段落文本进行段落句群划分时,将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合后共同生成词向量。
本发明提供了一种可以将仅有弱标注的文本,通过构建领域本体的形式实现文本的段落标注,并在具有注意力机制的卷积神经网络中,将文本的段落归纳成句群的方法。
本发明主要包括:(1)输入待标注文本,使用数据挖掘算法自动化构建文本主题相关的“类别-实体-关系-扩展”四层领域本体(Domain Ontology,DO);(2)使用已构建的四层领域本体对弱标记文本进行语义标注;(3)采用加入注意力机制(Attention Mechanism)的卷积神经网络(Convolutional Neural Networks,CNN)对已标注的段落文本进行段落句群划分;(4)综合使用词袋模型验证句群划分准确性并对新生成的句群的标注信息进行筛选。本发明构建四层领域本体,解决弱标记文本的标记来源问题;采用权重因子判定手法将领域本体中的信息匹配到弱标记文本中,解决其难以标记的问题;通过将标记信息生成的词向量进行深度学习,将有相同主题的段落合并划分为句群,解决了句群划分的问题;验证提出的弱标注环境下的分段式语义标注方法对历史、文学、娱乐、计算机等不同领域的文本均具有较好的标注和句群划分效果,解决了多学科弱标记资源文本无法准确处理和分析的问题,可以帮助用户缩小检索范围,快速找到搜索结果,提高搜索准确性。
本发明与现有技术相比的优点在于:提出的基于四层领域本的弱标注环境下的分段式语义标注方法实现了在弱标注环境下对文本的语义标注和文本分类,其对历史、文学、娱乐、计算机等不同领域的弱标记文本均具有较好的适应性和标注效果,相比于传统基于主题提取的标注,基于该四层领域本体的标注方法可以使文章的标注信息呈现四层的树形结构化形式,使得文章的标注信息更加具有逻辑和条理,采用基于注意力机制的卷积神经网络对于文章的句群划分效果也优于其他方式。
附图说明
图1是本发明方法的流程图;
图2是WordNet的名词上下位词关系树结构图;
图3是构建的四层领域本体结构图。
具体实施方式
本发明在实现过程中包括如下步骤:
(1)使用数据挖掘技术根据文章标题等弱标记,实现自动化构建与文本主题相关的“类别-实体-关系-扩展”四层领域本体;
(2)使用分词技术将文章按段落带入已构建的四层领域本体中,实现对弱标记文本的初步语义标注;
(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合,使用skip-gram模型生成词向量,使用加入注意力机制的卷积神经网络进行训练,实现对相邻段落是否属于同一句群的判断;
(4)使用词袋模型验证生成句群的准确性并对新生成的句群的标注信息进行重新筛选。
上述各步骤具体包括:
1、在步骤(1)中使用分词技术获取文章标题中的实词,并按照短文本主题词抽取公式W(wi)=tf(wi)×df(wi)×(1+g(wi))×fp(wi)计算出文章前200字内的关键实体词。
fj(wi)是ωi在文档di中出现的次数,n(dj)是文档中实词的个数,df(wi)是词汇wi的权重因子,由公式求得。其中n(wi)是每50字左右出现该词汇wi的次数,N是提取样本占总样本的比值,取4;g(wi)代表词汇wi的主题表现力,由公式求得;取得分最高的前n个主题词与标题中提取的实词一起作为初始的实体词,以获取其领域层次结构。
2、在步骤(1)中提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中,在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇,再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系,保留每类中处于最上位的待选择词作为文章领域的类别词。
3、在步骤(1)中将实体词带入各大热门百科和知识库中检索,爬取搜索结果的一级目录并获取实词部分作为备选关系词集合,爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W,使用公式
计算关系词得分。其中,score(ωi)为W中词wi的关系词得分;n为第j类资源中包含有wi的词项数量;weightj为第j种资源所对应的权重;wi·length为wi的词长;turmkj为第j种资源中第k个包含有wi的词项,termkj.length为其词长;tfj(tremkj)为termkj在第j种资源中的词频;μ为调整系数,保留得分高于阈值的关系词作为文章领域本体的关系词。
4、在步骤(1)中建立“实体词+关系词”所对应的词对,在必应搜索检索词对以获取网页信息。爬取检索结果前十页内网页的主要内容,分词并保留名词,统计剩余词汇和词频,通过计算TF-IDF值,保留较大的词作为待选择的扩展词,通过多维度归一化Bing距离公式:计算其归一化距离。其中,MNBD(x,y)是多维度归一化Bing距离,M表示Bing索引的网页总数,f(x)和f(y)分别表示搜索词x和y的命中数量,f(x,y)表示同时出现x和y的网页数量。若x和y从未一起出现在同一网页上,而只是单独出现,则它们之间的归一化Bing距离无穷大;若x和y总是同时出现,则它们之间的归一化Bing距离为0。
5、在步骤(3)中将注意力机制加入池化层的卷积神经网络进行训练,利用卷积神经网络对于文本分类的优势,并通过注意力机制提高模型对于语义关系句子中与最终分类结果更相关部分的关注程度,实现对相邻段落是否属于同一句群的判断。
下面结合附图举例对本发明做更详细的描述。
结合图1,本发明的具体步骤如下:
(1)自动化构建与文本主题相关的“类别-实体-关系-扩展”四层领域本体;
使用分词技术获取文章标题中的实词,并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词:
W(wi)=tf(wi)×df(wi)×(1+g(wi))×fp(wi)
其中,tf(wi)是文档dj中的词wi的相对词频,由如下公式求得:
fj(wi)是wi在文档di中出现的次数;n(dj)是文档中实词的个数;df(wi)是词汇wi的权重因子,由如下公式求得:
其中n(wi)是每50字左右出现该词汇wi的次数,N是提取样本占总样本的比值,取4;
g(wi)代表词汇wi的主题表现力,由如下公式求得:
fp(wi)是词汇的位置权重因子,由如下公式求得:
其中,考虑到分词粒度对结果产生的影响,ft(wi)是wi在标题中所占的汉字数目,st(dj)是标题中全部实词的汉字总数,Q为调整系数,与标题内重复包含的该关键词个数的上限有关,经训练取整数2。
取得分最高的前n个主题词作为初始的实体词,以获取其领域层次结构。
将提取的实体词带入如图2已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中,在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇,再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系,保留每类中处于最上位的待选择词作为文章领域的类别词;
将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱等知识库中检索,爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W,使用如下公式计算关系词得分。
其中,score(wi)为W中词wi的关系词得分;提取第三层关系词时,由于包含六种知识来源,将m值设为6;n为第j类资源中包含有wi的词项数量;weightj为第j种资源所对应的权重;wi·length为wi的词长;turmkj为第j种资源中第k个包含有wi的词项,termkj.length为其词长;tfj(tremkj)为termkj在第j种资源中的词频;μ为调整系数,设定为10。
通过实验计算和分析,将六种资源的权重分别设置为0.24,0.32,0.11,0.10,0.08和0.15。阈值设定为2.2,关联词得分高于阈值的列为第三层属性词。
综合比较各类搜索引擎的展示现状后,通过分别建立“实体层m个实体词+关系层n个关系词”所对应的词对,在必应搜索检索m×n次词对以获取网页信息。爬取检索结果前十页内网页的主要内容,分词并保留名词,统计剩余词汇和词频,通过计算其TF-IDF值,保留TF-IDF值较大的词,作为待选择的扩展词,通过多维度归一化Bing距离公式计算其归一化距离,公式如下:
其中,MNBD(x,y)是多维度归一化Bing距离,M表示Bing索引的网页总数,f(x)和f(y)分别表示搜索词x和y的命中数量,f(x,y)表示同时出现x和y的网页数量。若x和y从未一起出现在同一网页上,而只是单独出现,则它们之间的多维度归一化Bing距离无穷大;若x和y总是同时出现,则它们之间的多维度归一化Bing距离为0。
利用多维度归一化Bing距离对无关概念进行过滤,将过滤后得到的词汇作为领域本体第四层的扩展词汇。
至此领域本体构建完成,其结构如图3所示。
(2)使用jieba分词技术,将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历,提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。
(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合,去重后使用skip-gram模型生成词向量。再使用将注意力机制加入池化层的卷积神经网络进行训练,利用卷积神经网络对于文本分类的优势,并通过注意力机制提高模型对于语义关系句子中与最终分类结果更相关部分的关注程度,实现对相邻段落是否属于同一句群的判断。
(4)对于被判断为同一句群的段落,统计每个自然段所对应的标注信息,使用词袋模型对新生成的句群的标注信息进行筛选和验证,筛选出最符合的主题作为新句群的标注。
为验证本发明提出的一种弱标注环境下的分段式语义标注方法的有效性,本文首先针对领域本体抽取关键词的能力进行评估。实验选择了著名NLP会议CoNLL提供的conlleval评分脚本,数据选择了复旦大学中文文本分类数据集的训练集中共计4000篇文章,分为20个类别。通过对比本文的四层领域本体构建方法与两种基于LSTM、BLSTM的实验模型在概念术语抽取效果上的准确率、召回率和F1值得出下表结果,可知依靠本文方法建立领域本体,在概念术语抽取的效果上有了较为显著的提升。由于该领域本体的构建更多依靠在网络中的搜索结果,故而本方法对于不同领域内的新概念或新术语词汇的识别和抽取均具有很高的健壮性和可扩展性。
针对基于领域本体的句群划分结果,由于本文的句群划分方法是自然段颗粒度,因此也采用准确率、召回率以及F值作为评价指标。若划分为同一句群的两个自然段所标注的语义信息重合率高于50%,则两段为同一句群,否则为不同句群。通过对比本文方法与两种基于知网、多元判别分析的传统方法,以及分别采用不输入标注信息的基于CNN的句群划分、输入标注信息的基于CNN的句群划分和不输入标注信息的基于ABCNN的句群划分可知,本文的方法对句群划分的效果有明显提高,且领域本体实现的标注和注意力机制的引入均对准确度的提升有所贡献。
Claims (8)
1.一种弱标注环境下的分段式语义标注方法,其特征是:
(1)输入待标注文本,使用数据挖掘方法根据文章标题弱标记,自动构建与文本主题相关的类别-实体-关系-扩展四层领域本体;
(2)使用分词技术将文章按段落带入已构建的四层领域本体中,对弱标记文本的初步语义标注;
(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合,使用skip-gram模型生成词向量,使用加入注意力机制的卷积神经网络进行训练,已标注的段落文本进行段落句群划分,对相邻段落是否属于同一句群进行判断;
(4)使用词袋模型验证句群生成的准确性并对新生成的句群的标注信息进行重新筛选。
2.根据权利要求1所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的实体词结构时,先使用分词技术,获取文章标题中的实词,并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词,公式为:W(wi)=tf(wi)×df(wi)×(1+g(wi))×fp(wi),
3.根据权利要求2所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的类别词结构时,将提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中,在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇,再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系,保留每类中处于最上位的待选择词作为文章领域的类别词。
4.根据权利要求3所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的关系词结构时,将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱知识库中检索,爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W,并使用关系词得分公式计算关系词得分,保留得分高于阈值的关系词作为文章领域本体的关系词。
5.根据权利要求4所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(1)中构建领域本体的扩展词结构时,通过分别建立实体层m个实体词+关系层n个关系词所对应的m×n个词对,在必应搜索中检索m×n次词对获取网页信息,爬取检索结果前十页内网页的主要内容,分词并保留名词,统计剩余词汇和词频,通过计算TF-IDF值,保留大的词作为待选择的扩展词,通过多维度归一化Bing距离公式计算其归一化距离,公式如下:
其中,M表示Bing索引搜索到的网页总数,f(x)和f(y)分别表示搜索词x和y的命中数量,f(x,y)表示同时出现x和y的网页数量,若x和y从未一起出现在同一网页上,而只是单独出现,则它们之间的归一化Bing距离无穷大;若x和y总是同时出现,则它们之间的归一化Bing距离为0,利用归一化Bing距离对非领域内概念进行过滤,将过滤后得到的词汇作为领域本体第四层的扩展词汇。
6.根据权利要求1-5任何一项所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(2)中使用已构建的四层领域本体对弱标记文本进行语义标注时:将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历,提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。
7.根据权利要求1-5任何一项所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(3)中已标注的段落文本进行段落句群划分时,将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合后共同生成词向量。
8.根据权利要求6所述的弱标注环境下的分段式语义标注方法,其特征是:步骤(3)中已标注的段落文本进行段落句群划分时,将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合后共同生成词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911190029.XA CN110888991B (zh) | 2019-11-28 | 2019-11-28 | 一种弱标注环境下的分段式语义标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911190029.XA CN110888991B (zh) | 2019-11-28 | 2019-11-28 | 一种弱标注环境下的分段式语义标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888991A true CN110888991A (zh) | 2020-03-17 |
CN110888991B CN110888991B (zh) | 2023-12-01 |
Family
ID=69749235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911190029.XA Active CN110888991B (zh) | 2019-11-28 | 2019-11-28 | 一种弱标注环境下的分段式语义标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888991B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
CN113743087A (zh) * | 2021-09-07 | 2021-12-03 | 珍岛信息技术(上海)股份有限公司 | 一种基于神经网络词汇扩展段落的文本生成方法及系统 |
CN115600577A (zh) * | 2022-10-21 | 2023-01-13 | 文灵科技(北京)有限公司(Cn) | 一种用于新闻稿件标注的事件分割方法及系统 |
CN116611514A (zh) * | 2023-07-19 | 2023-08-18 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
CN117494811A (zh) * | 2023-11-20 | 2024-02-02 | 南京大经中医药信息技术有限公司 | 中医典籍的知识图谱构建方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074634A1 (en) * | 2004-10-06 | 2006-04-06 | International Business Machines Corporation | Method and apparatus for fast semi-automatic semantic annotation |
US20080270384A1 (en) * | 2007-04-28 | 2008-10-30 | Raymond Lee Shu Tak | System and method for intelligent ontology based knowledge search engine |
JP2009193532A (ja) * | 2008-02-18 | 2009-08-27 | Oki Electric Ind Co Ltd | 対話管理装置、方法及びプログラム、並びに意識抽出システム |
US20110196670A1 (en) * | 2010-02-09 | 2011-08-11 | Siemens Corporation | Indexing content at semantic level |
CN103678316A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 实体关系分类装置和实体关系分类方法 |
US20150074081A1 (en) * | 2013-09-06 | 2015-03-12 | Sap Ag | Entity-relationship model extensions using annotations |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
-
2019
- 2019-11-28 CN CN201911190029.XA patent/CN110888991B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074634A1 (en) * | 2004-10-06 | 2006-04-06 | International Business Machines Corporation | Method and apparatus for fast semi-automatic semantic annotation |
US20080270384A1 (en) * | 2007-04-28 | 2008-10-30 | Raymond Lee Shu Tak | System and method for intelligent ontology based knowledge search engine |
JP2009193532A (ja) * | 2008-02-18 | 2009-08-27 | Oki Electric Ind Co Ltd | 対話管理装置、方法及びプログラム、並びに意識抽出システム |
US20110196670A1 (en) * | 2010-02-09 | 2011-08-11 | Siemens Corporation | Indexing content at semantic level |
CN103678316A (zh) * | 2012-08-31 | 2014-03-26 | 富士通株式会社 | 实体关系分类装置和实体关系分类方法 |
US20150074081A1 (en) * | 2013-09-06 | 2015-03-12 | Sap Ag | Entity-relationship model extensions using annotations |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
HE TINGTING等: "An approach to automatically constructing domain ontology", pages 150 - 157 * |
刘耀等: "领域Ontology自动构建研究", vol. 29, no. 2, pages 65 - 69 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112052646B (zh) * | 2020-08-27 | 2024-03-29 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
CN113743087A (zh) * | 2021-09-07 | 2021-12-03 | 珍岛信息技术(上海)股份有限公司 | 一种基于神经网络词汇扩展段落的文本生成方法及系统 |
CN113743087B (zh) * | 2021-09-07 | 2024-04-26 | 珍岛信息技术(上海)股份有限公司 | 一种基于神经网络词汇扩展段落的文本生成方法及系统 |
CN115600577A (zh) * | 2022-10-21 | 2023-01-13 | 文灵科技(北京)有限公司(Cn) | 一种用于新闻稿件标注的事件分割方法及系统 |
CN116611514A (zh) * | 2023-07-19 | 2023-08-18 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
CN116611514B (zh) * | 2023-07-19 | 2023-10-10 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
CN117494811A (zh) * | 2023-11-20 | 2024-02-02 | 南京大经中医药信息技术有限公司 | 中医典籍的知识图谱构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110888991B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
Liu et al. | Measuring similarity of academic articles with semantic profile and joint word embedding | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
Wang et al. | Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
Mahata et al. | Theme-weighted ranking of keywords from text documents using phrase embeddings | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
Royyan et al. | Feature Expansion Word2Vec for Sentiment Analysis of Public Policy in Twitter | |
Kausar et al. | A detailed study on information retrieval using genetic algorithm | |
Iftene et al. | Using semantic resources in image retrieval | |
Park et al. | Extracting search intentions from web search logs | |
Shalaby et al. | Mined semantic analysis: a new concept space model for semantic representation of textual data | |
Xu | A New Sub-topics Clustering Method Based on Semi-supervised Learing. | |
Zadgaonkar et al. | An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction | |
Chahal et al. | An ontology based approach for finding semantic similarity between web documents | |
Amrane et al. | Semantic indexing of multimedia content using textual and visual information | |
Nagaraj et al. | A novel semantic level text classification by combining NLP and Thesaurus concepts | |
Weiland et al. | Understanding the message of images with knowledge base traversals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |