CN104063412A - 一种适用于互联网分析的本体构建方法 - Google Patents
一种适用于互联网分析的本体构建方法 Download PDFInfo
- Publication number
- CN104063412A CN104063412A CN201310430787.0A CN201310430787A CN104063412A CN 104063412 A CN104063412 A CN 104063412A CN 201310430787 A CN201310430787 A CN 201310430787A CN 104063412 A CN104063412 A CN 104063412A
- Authority
- CN
- China
- Prior art keywords
- word
- follows
- synonym
- negative
- manual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种适用于互联网分析的本体构建方法,本体分为行业本体、通用本体两个部分。其中通用本体又包括公职人员负面本体、机构组织负面本体、职位库、地域库。对于行业本体构建采用手工结合自动的构建方法。首先手工分类好公安、消防等行业,定义关键词进行采集信息得到信息集合S,并对信息集合S进行关键词提取并进行手工筛选。对于公职人员、组织机构负面本体本体构建方法与行业本体基本相同,增加了对于关键词的同义词、关联词关系的添加。本发明有效的提高了互联网信息检索、扩展。
Description
技术领域
本发明属于信息系统建模和知识工程领域,具体地说是适用于互联网分析的本体构建方法。
背景技术
随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。本体(Ontology)的概念起源于哲学领域,指的是对客观存在系统的解释和说明,近几十年来,在人工智能、计算机科学和知识工程等诸多领域得到了迅速发展。本体可以实现某种程度的知识共享和重用,使得计算机对信息和对语言的理解上升到语义层次,并在一定程度上解决语义异构问题,在信息互操作、知识理解和信息集成等领域具有很大的应用前景。
适用于互联网分析的本体构建方法,一方面应用于舆情管理领域,对搜索采集进行扩展;另一方面,可以根据本体对采集信息的进行分类。
现有构建本体方法主要分为两类:手工构建和半自动构建。手工构建是以本体描述捕获方法为代表,将本体构建的过程分为目标和团队建立、原始素材采集、素材分析、本体初步构建、本体精化和验证等5个步骤,每一步都由人手工完成。半自动构建又称本体学习,由计算机程序自动地从文本中抽取出表示概念、概念间关系等的术语,形成初步的本体,再经过人手工精化和验证。然而,目前计算机程序自动构建的初步本体在质量上通常很差,并不能有效降低对人工的依赖,因此手工构建仍是主流方法。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种可以有效的指导搜索采集信息的适用于互联网分析的本体构建方法。
本发明所要解决的技术问题是通过下述技术方案来实现的,本发明是一种适用于互联网分析的本体构建方法,其特点是:其步骤如下:
A、构建行业本体;其操作步骤如下:
A1. 手工整理归纳面向搜集监测的行业部门;
A2. 整理行业名称的同义指代;
A3. 整理行业的特定职位;
A4. 整理业务相关的正、负面词;
A5. 整理人员相关的正、负面词;
B、构建通用本体;其操作步骤如下:
B1. 构建公职人员本体;
B2. 对公职人员本体分为负面词和正面词;
B3. 其中正面词又分为核心词与普通词;
B4. 其中每个词都可以手工构建其同义词、关联词;
B5. 构建组织机构与构建公职人员本体同理;
C、构建地域本体;其操作步骤如下:
C1. 手工整理省级地域;
C2. 扩展整理地市县地域名,最小化到镇乡;
C3. 其中针对有别名的地名进行同义化处理;
D、构建职位本体;其操作步骤如下:
D1. 对各部门共有的领导职位进行整理;
D2. 对普通员工职位进行整理;
D3. 定义上下级关系及同义指代;
适用于互联网分析的本体构建方法到此结束。
与现有技术相比,本发明的适用于互联网分析的本体构建方法具有以下效果:
1、对搜索采集规则进行有效的扩展;
2、对信息分类进行有效指导。
附图说明
图1是本发明方法的一种流程框图;
图2是图1中步骤102所述为构建行业本体过程流程图;
图3是图1中步骤103所述为构建通用本体的流程结构图;
图4是图1中步骤104所述的构建地域本体的流程图。
图5是图1中步骤105所述的是构建职位本体的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。
实施例1,一种适用于互联网分析的本体构建方法,其步骤如下:
A、构建行业本体;其操作步骤如下:
A1. 手工整理归纳面向搜集监测的行业部门;
A2. 整理行业名称的同义指代;
A3. 整理行业的特定职位;
A4. 整理业务相关的正、负面词;
A5. 整理人员相关的正、负面词;
B、构建通用本体;其操作步骤如下:
B1. 构建公职人员本体;
B2. 对公职人员本体分为负面词和正面词;
B3. 其中正面词又分为核心词与普通词;
B4. 其中每个词都可以手工构建其同义词、关联词;
B5. 构建组织机构与构建公职人员本体同理;
C、构建地域本体;其操作步骤如下:
C1. 手工整理省级地域;
C2. 扩展整理地市县地域名,最小化到镇乡;
C3. 其中针对有别名的地名进行同义化处理;
D、构建职位本体;其操作步骤如下:
D1. 对各部门共有的领导职位进行整理;
D2. 对普通员工职位进行整理;
D3. 定义上下级关系及同义指代;
适用于互联网分析的本体构建方法到此结束。
实施例2,一种适用于互联网分析的本体构建方法进行的操作实验,步骤如下:
步骤102、构建行业本体,参照图2,包括如下步骤:
步骤201. 手工整理归纳面向搜集监测的行业部门
步骤202. 整理行业名称的同义指代
步骤203. 整理行业的特定职位
步骤204. 整理业务相关的正、负面词
步骤205. 整理人员相关的正、负面词
步骤103 构建通用本体,参照图3,包括如下步骤:
步骤301. 构建公职人员本体
步骤302. 对公职人员本体分为负面词和正面词
步骤303. 其中正面词又分为核心词与普通词
步骤304. 其中每个词都可以手工构建其同义词、关联词。
步骤305. 构建组织机构与构建公职人员本体同理
步骤104、构建地域本体,参照图3,包括如下步骤:
步骤401. 手工整理省级地域
步骤402. 扩展整理地市县地域名,最小化到镇乡
步骤403. 其中针对有别名的地名进行同义化处理
步骤105、对于职位本体,参照图4包括如下步骤:
步骤501. 对各部门共有的领导职位进行整理
步骤502. 对非领导职位进行整理
步骤503. 定义职位上下级关系
职位同义指代。
Claims (1)
1.一种适用于互联网分析的本体构建方法,其特征在于:其步骤如下:
A、构建行业本体;其操作步骤如下:
A1. 手工整理归纳面向搜集监测的行业部门;
A2. 整理行业名称的同义指代;
A3. 整理行业的特定职位;
A4. 整理业务相关的正、负面词;
A5. 整理人员相关的正、负面词;
B、构建通用本体;其操作步骤如下:
B1. 构建公职人员本体;
B2. 对公职人员本体分为负面词和正面词;
B3. 其中正面词又分为核心词与普通词;
B4. 其中每个词都可以手工构建其同义词、关联词;
B5. 构建组织机构与构建公职人员本体同理;
C、构建地域本体;其操作步骤如下:
C1. 手工整理省级地域;
C2. 扩展整理地市县地域名,最小化到镇乡;
C3. 其中针对有别名的地名进行同义化处理;
D、构建职位本体;其操作步骤如下:
D1. 对各部门共有的领导职位进行整理;
D2. 对普通员工职位进行整理;
D3. 定义上下级关系及同义指代;
适用于互联网分析的本体构建方法到此结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310430787.0A CN104063412A (zh) | 2013-09-22 | 2013-09-22 | 一种适用于互联网分析的本体构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310430787.0A CN104063412A (zh) | 2013-09-22 | 2013-09-22 | 一种适用于互联网分析的本体构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104063412A true CN104063412A (zh) | 2014-09-24 |
Family
ID=51551127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310430787.0A Pending CN104063412A (zh) | 2013-09-22 | 2013-09-22 | 一种适用于互联网分析的本体构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063412A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100790A1 (en) * | 2005-09-08 | 2007-05-03 | Adam Cheyer | Method and apparatus for building an intelligent automated assistant |
US20120005195A1 (en) * | 2010-06-30 | 2012-01-05 | International Business Machines Corporation | Creating an ontology using an online encyclopedia and tag cloud |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
-
2013
- 2013-09-22 CN CN201310430787.0A patent/CN104063412A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100790A1 (en) * | 2005-09-08 | 2007-05-03 | Adam Cheyer | Method and apparatus for building an intelligent automated assistant |
US20120005195A1 (en) * | 2010-06-30 | 2012-01-05 | International Business Machines Corporation | Creating an ontology using an online encyclopedia and tag cloud |
CN102708096A (zh) * | 2012-05-29 | 2012-10-03 | 代松 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
Non-Patent Citations (1)
Title |
---|
杨圣洪 等,: ""非成熟领域的本体构建方法"", 《计算机工程与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294619A (zh) | 舆情智能监管方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
Diesner | From texts to networks: Detecting and managing the impact of methodological choices for extracting network data from text data | |
CN103136337A (zh) | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 | |
CN101710343A (zh) | 一种基于文本挖掘的本体自动构建系统及方法 | |
CN103116644A (zh) | Web主题倾向性挖掘与决策支持的方法 | |
CN110533212A (zh) | 基于大数据的城市内涝舆情监测预警方法 | |
CN103279458A (zh) | 一种领域本体的构建及实例化方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN104281608A (zh) | 基于微博的突发事件分析方法 | |
CN102664915A (zh) | 云制造环境中基于资源约束的服务选取方法 | |
Farseev et al. | bbridge: A big data platform for social multimedia analytics | |
CN104408083A (zh) | 一种社会化媒体分析系统 | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
Demirbaga | HTwitt: a hadoop-based platform for analysis and visualization of streaming Twitter data | |
Aliprandi et al. | CAPER: Collaborative information, acquisition, processing, exploitation and reporting for the prevention of organised crime | |
Su et al. | An improved BERT method for the evolution of network public opinion of major infectious diseases: Case Study of COVID-19 | |
Zhao et al. | Towards events detection from microblog messages | |
Egami et al. | Construction of linked urban problem data with causal relations using crowdsourcing | |
Pathak et al. | A city traffic dashboard using social network data | |
CN104063412A (zh) | 一种适用于互联网分析的本体构建方法 | |
Park et al. | Big Data-oriented Analysis on Issues of the Hyper-connected Society | |
Zheng et al. | Architecture Descriptions Analysis Based on Text Mining and Crawling Technology | |
Di Pietro et al. | Semantic crawling: an approach based on named entity recognition | |
Wang et al. | A survey on services provision and distribution of official and commercial intellectual property platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140924 |
|
WD01 | Invention patent application deemed withdrawn after publication |