CN109359301A - 一种网页内容的多维度标注方法及装置 - Google Patents
一种网页内容的多维度标注方法及装置 Download PDFInfo
- Publication number
- CN109359301A CN109359301A CN201811219240.5A CN201811219240A CN109359301A CN 109359301 A CN109359301 A CN 109359301A CN 201811219240 A CN201811219240 A CN 201811219240A CN 109359301 A CN109359301 A CN 109359301A
- Authority
- CN
- China
- Prior art keywords
- dimension
- class
- web page
- page contents
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 230000008520 organization Effects 0.000 claims description 38
- 238000002372 labelling Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000009412 basement excavation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网页内容的多维度标注方法及装置,该方法包括:将待标注的网页内容文本转换为词向量;根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将第二类维度实体词与第二类维度规则知识库进行匹配,得到第二类维度标注结果。本发明从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。
Description
技术领域
本发明涉及数据挖掘领域,特别是涉及一种网页内容的多维度标注方法及装置。
背景技术
如何通过分析互联网网页内容,提取并对网页进行标注是互联网数据管理和挖掘等应用的重要基础。目前,对网页进行分类标注的方法中,多采用基于词频统计的方法,其标注准确率低;同时,目前的网页标注通常只对单一维度进行标注处理,标注信息量有限,不利于全面掌握网页信息。
发明内容
本发明提供一种网页内容的多维度标注方法及装置,用以解决现有技术的分类标准方法准确率低且标注信息量有限的问题。
为解决上述技术问题,一方面,本发明提供一种网页内容的多维度标注方法,包括:将待标注的网页内容文本转换为词向量;根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。
进一步,所述将待标注的网页内容文本转换为词向量,包括:使用词向量生成工具在预设语料库中生成词向量列表;将所述待标注的网页内容文本进行分词处理;根据所述词向量列表,将所述分词转换为所述词向量。
进一步,所述将待标注的网页内容文本转换为词向量之后,还包括:将所述待标注的网页内容文本与预设应急标注项进行相似度对比;在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。
进一步,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。
进一步,所述构建第二类维度规则知识库,包括:在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。
另一方面,本发明还提供一种网页内容的多维度标注装置,包括:转换模块,用于将待标注的网页内容文本转换为词向量;第一类维度标注模块,用于根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;识别模块,用于对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建模块,用于构建第二类维度规则知识库;第二类维度标注模块,用于将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。
进一步,所述转换模块,具体用于:使用词向量生成工具在预设语料库中生成词向量列表;将所述待标注的网页内容文本进行分词处理;根据所述词向量列表,将所述分词转换为所述词向量。
进一步,还包括:对比模块,用于将所述待标注的网页内容文本与预设应急标注项进行相似度对比;所述第一类维度标注模块,还用于在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。
进一步,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。
进一步,所述构建模块,具体用于:在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。
本发明从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。
附图说明
图1是本发明第一实施例中网页内容的多维度标注方法的流程图;
图2是本发明第一实施例中CNN分类模型示意图;
图3是本发明第二实施例中网页内容的多维度标注装置的结构示意图;
图4是本发明第二实施例中另一种网页内容的多维度标注装置的结构示意图。
具体实施方式
为了解决现有技术的分类标准方法准确率低且标注信息量有限的问题,本发明提供了一种网页内容的多维度标注方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明的第一实施例公开了一种网页内容的多维度标注方法,其流程示意图如图1所示,主要包括步骤S101至S105:
S101,将待标注的网页内容文本转换为词向量。
网页的内容通常包括文本、图片、跳转链接,甚至视频播放器、音频播放器等,而对网页进行分类标注时,由于文本内容最容易获取,也最能直接反应网页需要表示的内容,因此通常只根据网页的文本内容进行标注。
在针对待标注的网页内容文本进行基于第一类维度的标注之前,在本实施例中,第一类维度为事件维度,首先将待标注的网页内容文本转换为词向量,以方便进行后续的深度自然学习和分类。具体地,将待标注的网页内容文本转换为词向量时,首先使用词向量生成工具在预设语料库中生成词向量列表,在本实施例中使用搜狗语料作为预设语料库,也可以使用其他语料库作为预设语料库;其次将待标注的网页内容文本进行分词处理,文本分词使用的是语言技术平台(LTP,Language Technology Plantform)工具,也可使用Standford coreNLP或中科院NLPIR分词系统,具体分词工具的选用根据实际情况而定;最后,根据词向量列表,将分词转换为词向量,其中,词向量生成使用的是词向量word2vec工具,也可使用其他工具进行,本实施例在此不进行限制。
S102,根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果。
根据步骤S101得到的词向量结果,通过卷积神经网络(CNN,ConvolutionalNeural Network)分类模型进行分类,根据对各个分类进行评分的阈值设定,可以得到分类结果,分类结果即为第一类维度的标注结果,本实施例中使用的CNN分类模型如图2所示。
进一步地,在将待标注的网页内容文本转换为词向量之后,可以将待标注的网页内容文本与预设应急标注项进行相似度对比,在相似度超过预设相似度的情况下,将预设应急标注项作为待标注的网页内容的第一类维度标注结果,可以对事件标注结果进行快速确定;在相似度未超过预设相似度的情况下,再使用CNN分类模型进行分类。与此同时,还可以通过人工对标注结果进行核查,将标注错误的网页添加到应急标注项,待应急标注处理使用,在后续的标注过程中,通过应急标注处理,可以对修正的事件标注结果进行快速线上更正反馈。
另外,本发明实施例中还可以对CNN分类模型进行训练和更新,根据样本数据对CNN分类器进行重新训练,训练结束后,更新分类模型,完成分类器的线下更新,保证分类算法更新灵活,线上和线下均可实现更新操作。
S103,对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词。
在本实施例中,第二类维度包括至少以下维度之一:人物维度、地点维度、时间维度、组织机构维度,即通过标注上述一种或几种第二类维度,来丰富网页内容的标注结果,达到对网页内容进行深度挖掘的目的。
在对第二类维度进行标注时,首先针对待标注的网页内容文本进行实体识别,得到对应的实体词,在本实施例中,进行实体识别的工具也可使用LTP工具或可以实现实体识别的其他工具。
S104,构建第二类维度规则知识库。
第二类维度实体识别后,构建第二类维度规则知识库。具体地,根据第二类维度的具体类别,构建不同类别的规则知识库如下:
在第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。
S105,将第二类维度实体词与第二类维度规则知识库进行匹配,得到第二类维度标注结果。
在进行第二类维度标注时,将第二类维度实体词与对应的第二类维度规则知识库进行匹配,匹配成功的实体词即作为第二类维度的标注结果,如将人名实体词与重点人物规则知识库进行匹配,得到人物标注结果;将地点实体词与地点规则知识库进行匹配,得到地点标注结果;时间实体词和与特殊时期规则知识库匹配得到的特殊时期信息,作为时间维度标注结果;组织机构实体词与组织机构规则知识库进行匹配,得到组织机构标注结果。
本实施例从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。
应当了解的是,本实施例中限定的顺序可以不是最终实现时所执行的步骤,本实施例中步骤S101和S102是具有前后逻辑关联的步骤,其目的是对于事件维度进行标注,步骤S103至S105是具有前后逻辑关联的步骤,其目的是对于人物维度、地点维度、时间维度、组织机构维度中的一项或多项进行标注,也就是说,在执行步骤S101和S102的时,可以同时执行步骤S103至S105,以同时进行第一类维度和第二类维度的标准过程。并且,由于人物维度、地点维度、时间维度、组织机构维度进行标注时,互相之间不存在逻辑关系或数据联系,因此,在标注第二类维度时,可以同时执行4次步骤S103至S105,以同时进行人物维度、地点维度、时间维度、组织机构维度的标注。
本发明的第二实施例提供了一种网页内容的多维度标注装置,其结构示意图如图3所示,主要包括:转换模块10,用于将待标注的网页内容文本转换为词向量;第一类维度标注模块20,与转换模块10耦合,用于根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;识别模块30,用于对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建模块40,与识别模块30耦合,用于构建第二类维度规则知识库;第二类维度标注模块50,与构建模块40耦合,用于将第二类维度实体词与第二类维度规则知识库进行匹配,得到第二类维度标注结果。
网页的内容通常包括文本、图片、跳转链接,甚至视频播放器、音频播放器等,而对网页进行分类标注时,由于文本内容最容易获取,也最能直接反应网页需要表示的内容,因此通常只根据网页的文本内容进行标注。
具体地,转换模块10将待标注的网页内容文本转换为词向量时,首先使用词向量生成工具在预设语料库中生成词向量列表,在本实施例中使用搜狗语料作为预设语料库,也可以使用其他语料库作为预设语料库;其次将待标注的网页内容文本进行分词处理,文本分词使用的是LTP工具,也可使用Standford coreNLP或NLPIR分词系统,具体分词工具的选用根据实际情况而定;最后,根据词向量列表,将分词转换为词向量,其中,词向量生成使用的是word2vect工具,也可使用其他工具进行,本实施例在此不进行限制。
根据转换模块10得到的词向量结果,通过CNN分类模型进行分类,根据对各个分类进行评分的阈值设定,可以得到分类结果,分类结果即为第一类维度的标注结果。
进一步地,在将待标注的网页内容文本转换为词向量之后,可以通过对比模块60将待标注的网页内容文本与预设应急标注项进行相似度对比,此时标注装置的结构示意图如图4所示,在相似度超过预设相似度的情况下,第一类维度标注模块20将预设应急标注项作为待标注的网页内容的第一类维度标注结果,可以对事件标注结果进行快速确定;在相似度未超过预设相似度的情况下,第一类维度标注模块20再使用CNN分类模型进行分类。与此同时,还可以通过人工对标注结果进行核查,将标注错误的网页添加到应急标注项,待应急标注处理使用,在后续的标注过程中,通过应急标注处理,可以对修正的事件标注结果进行快速线上更正反馈。
另外,本发明实施例中还可以对CNN分类模型进行训练和更新,根据样本数据对CNN分类器进行重新训练,训练结束后,更新分类模型,完成分类器的线下更新,保证分类算法更新灵活,线上和线下均可实现更新操作。
在本实施例中,第二类维度包括至少以下维度之一:人物维度、地点维度、时间维度、组织机构维度,即通过标注上述一种或几种第二类维度,来丰富网页内容的标注结果,达到对网页内容进行深度挖掘的目的。在对第二类维度进行标注时,首先通过识别模块30针对待标注的网页内容文本进行实体识别,得到对应的实体词,在本实施例中,进行实体识别的工具也可使用LTP工具或可以实现实体识别的其他工具。
第二类维度实体识别后,由构建模块40构建第二类维度规则知识库。具体地,根据第二类维度的具体类别,构建不同类别的规则知识库如下:
在第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。
在第二类维度标注模块50进行第二类维度标注时,将第二类维度实体词与对应的第二类维度规则知识库进行匹配,匹配成功的实体词即作为第二类维度的标注结果,如将人名实体词与重点人物规则知识库进行匹配,得到人物标注结果;将地点实体词与地点规则知识库进行匹配,得到地点标注结果;时间实体词和与特殊时期规则知识库匹配得到的特殊时期信息,作为时间维度标注结果;组织机构实体词与组织机构规则知识库进行匹配,得到组织机构标注结果。
本实施例从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
Claims (10)
1.一种网页内容的多维度标注方法,其特征在于,包括:
将待标注的网页内容文本转换为词向量;
根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;
对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;
构建第二类维度规则知识库;
将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。
2.如权利要求1所述的多维度标注方法,其特征在于,所述将待标注的网页内容文本转换为词向量,包括:
使用词向量生成工具在预设语料库中生成词向量列表;
将所述待标注的网页内容文本进行分词处理;
根据所述词向量列表,将所述分词转换为所述词向量。
3.如权利要求1所述的多维度标注方法,其特征在于,所述将待标注的网页内容文本转换为词向量之后,还包括:
将所述待标注的网页内容文本与预设应急标注项进行相似度对比;
在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。
4.如权利要求1至3中任一项所述的多维度标注方法,其特征在于,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。
5.如权利要求4所述的多维度标注方法,其特征在于,所述构建第二类维度规则知识库,包括:
在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;
在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;
在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;
在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。
6.一种网页内容的多维度标注装置,其特征在于,包括:
转换模块,用于将待标注的网页内容文本转换为词向量;
第一类维度标注模块,用于根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;
识别模块,用于对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;
构建模块,用于构建第二类维度规则知识库;
第二类维度标注模块,用于将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。
7.如权利要求6所述的多维度标注装置,其特征在于,所述转换模块,具体用于:
使用词向量生成工具在预设语料库中生成词向量列表;
将所述待标注的网页内容文本进行分词处理;
根据所述词向量列表,将所述分词转换为所述词向量。
8.如权利要求6所述的多维度标注装置,其特征在于,还包括:
对比模块,用于将所述待标注的网页内容文本与预设应急标注项进行相似度对比;
所述第一类维度标注模块,还用于在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。
9.如权利要求6至8最后那个任一项所述的多维度标注装置,其特征在于,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。
10.如权利要求9所述的多维度标注装置,其特征在于,所述构建模块,具体用于:
在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;
在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;
在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;
在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811219240.5A CN109359301A (zh) | 2018-10-19 | 2018-10-19 | 一种网页内容的多维度标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811219240.5A CN109359301A (zh) | 2018-10-19 | 2018-10-19 | 一种网页内容的多维度标注方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109359301A true CN109359301A (zh) | 2019-02-19 |
Family
ID=65345869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811219240.5A Pending CN109359301A (zh) | 2018-10-19 | 2018-10-19 | 一种网页内容的多维度标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359301A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563382A (zh) * | 2020-03-18 | 2020-08-21 | 大箴(杭州)科技有限公司 | 文本信息的获取方法、装置、存储介质及计算机设备 |
CN111818001A (zh) * | 2019-04-12 | 2020-10-23 | 长鑫存储技术有限公司 | 异常访问检测方法及装置、电子设备和计算机可读介质 |
CN113392294A (zh) * | 2020-10-15 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 样本标注方法及装置 |
CN114722823A (zh) * | 2022-03-24 | 2022-07-08 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN114969316A (zh) * | 2021-02-24 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN115187187A (zh) * | 2022-05-25 | 2022-10-14 | 中核武汉核电运行技术股份有限公司 | 一种核电数据标注工具 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464905A (zh) * | 2009-01-08 | 2009-06-24 | 中国科学院计算技术研究所 | 一种网页信息抽取的系统及方法 |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN107908749A (zh) * | 2017-11-17 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
US20180218241A1 (en) * | 2015-05-08 | 2018-08-02 | Guangzhou Ucweb Computer Technology Co., Ltd. | Webpage classification method and apparatus, calculation device and machine readable storage medium |
-
2018
- 2018-10-19 CN CN201811219240.5A patent/CN109359301A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464905A (zh) * | 2009-01-08 | 2009-06-24 | 中国科学院计算技术研究所 | 一种网页信息抽取的系统及方法 |
US20180218241A1 (en) * | 2015-05-08 | 2018-08-02 | Guangzhou Ucweb Computer Technology Co., Ltd. | Webpage classification method and apparatus, calculation device and machine readable storage medium |
CN104881458A (zh) * | 2015-05-22 | 2015-09-02 | 国家计算机网络与信息安全管理中心 | 一种网页主题的标注方法和装置 |
CN107908749A (zh) * | 2017-11-17 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种基于搜索引擎的人物检索系统及方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111818001A (zh) * | 2019-04-12 | 2020-10-23 | 长鑫存储技术有限公司 | 异常访问检测方法及装置、电子设备和计算机可读介质 |
CN111563382A (zh) * | 2020-03-18 | 2020-08-21 | 大箴(杭州)科技有限公司 | 文本信息的获取方法、装置、存储介质及计算机设备 |
CN113392294A (zh) * | 2020-10-15 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 样本标注方法及装置 |
CN113392294B (zh) * | 2020-10-15 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 样本标注方法及装置 |
CN114969316A (zh) * | 2021-02-24 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN114969316B (zh) * | 2021-02-24 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN114722823A (zh) * | 2022-03-24 | 2022-07-08 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN114722823B (zh) * | 2022-03-24 | 2023-04-14 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN115187187A (zh) * | 2022-05-25 | 2022-10-14 | 中核武汉核电运行技术股份有限公司 | 一种核电数据标注工具 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359301A (zh) | 一种网页内容的多维度标注方法及装置 | |
CN107680580A (zh) | 文本转换模型训练方法和装置、文本转换方法和装置 | |
CN107680579A (zh) | 文本正则化模型训练方法和装置、文本正则化方法和装置 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN110147451B (zh) | 一种基于知识图谱的对话命令理解方法 | |
CN107705784A (zh) | 文本正则化模型训练方法和装置、文本正则化方法和装置 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN107343223A (zh) | 视频片段的识别方法和装置 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
CN112257452B (zh) | 情感识别模型的训练方法、装置、设备和存储介质 | |
CN113268610B (zh) | 基于知识图谱的意图跳转方法、装置、设备及存储介质 | |
CN111694937A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN111159415A (zh) | 序列标注方法及系统、事件要素抽取方法及系统 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN113901170A (zh) | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 | |
CN111046674A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN113779988A (zh) | 一种通信领域过程类知识事件抽取方法 | |
CN112069781A (zh) | 一种评语生成方法、装置、终端设备及存储介质 | |
WO2019165732A1 (zh) | 基于机器人情绪状态的回复信息生成方法、装置 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
CN114117008A (zh) | 一种语义理解方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190219 |
|
RJ01 | Rejection of invention patent application after publication |