CN104462075A - 一种互联网人物信息的属性提取方法 - Google Patents
一种互联网人物信息的属性提取方法 Download PDFInfo
- Publication number
- CN104462075A CN104462075A CN201310414531.0A CN201310414531A CN104462075A CN 104462075 A CN104462075 A CN 104462075A CN 201310414531 A CN201310414531 A CN 201310414531A CN 104462075 A CN104462075 A CN 104462075A
- Authority
- CN
- China
- Prior art keywords
- information
- attribute
- attributes
- extraction
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种互联网人物属性的提取方法,其首先利用搜索引擎根据制定好的由一些特定关键字组成的规则搜索采集来的信息集合S;对信息集合S中的文章中出现的人物的属性进行提取,如单位、电话、邮箱等信息;根据属性的不同采用了不同的提取策略,如果对于电话、邮箱采用了正则表达式进行匹配提取,而对于单位等属性采用了关键词结合词性的方法进行提取。并对自定义属性进行了初步的提取。本发明方法实现了对人物属性信息的自动提取。
Description
技术领域
本发明属于互联网信息抽取领域,具体地说是互联网人物信息的属性提取方法。
背景技术
随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。大量的实践也表明,在网络上对各种不同的信息载体(新闻网、博客、论坛、微博等)进行信息采集已经可以基本达到要求,但如果进一步得到结构化的信息还有一定的技术难题。为了适应市场越来越多的需求,针对信息人物属性提取生成方法也应运而生。信息人物属性的提取生成方法,可以比较准确地对一些信息进行人物属性的提取。
互联网人物信息的属性提取方法,一方面应用于舆情管理领域,使用在公安、安全、安监等政府部门,对监测内容中的信息中人物属性进行提取,对于政府部门来说,及时的确定监测内容的中的人物可帮助有关部门了解进一步的信息;另一方面也可以使用在信息分析领域,如:招聘行业。
人物属性提取是数据挖掘的一个重要领域,李红亮提出基于规则的百科人物属性抽取,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。孟新萍提出了对维基百科人物属性的提取,对给定的属性,利用“人物姓名—属性—值”三元关系,通过模板匹配都属性提取。以上方法信息来源比较单一,主要是从百科网站进行提取,信息来源比较单一。本方法是利用人物名结合人物属性利用搜索引擎进行信息采集,并对信息集合利用规则进行提取。
发明内容
本发明要解决的技术问题是针对现有技术存在的不足,提供信息人物属性的提取生成方法,该方法可以对采集的互联网人物信息的内容进行属性提取。
本发明所要解决的技术问题是通过以下的技术方案来实现的,本发明是一种互联网人物信息的属性提取方法,其特点是,其步骤如下:
A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;如:人物张三,得到规则R 张三+工作单位。其操作步骤如下;
A1.利用目标人物人名关键词组成规则R;
A2.利用规则从互联网得信息集合S;
B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;
B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;
B2.对分词结果集合M进行人名优化;
B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;
C.对于基本属性的信息提取;其操作步骤如下;
C1.对分词后的属性进行逐个提取,对于格式相对固定的电话、网站、邮箱利用正则表达式对集合S进行正则匹配;
C2.若匹配到结果则成功,否则失败;
C3. 对于工作单位、地址,利用地点触发词,结合词性进行提取;
D.对于自定义属性的信息提取;其操作步骤如下;
D1.对自定义属性进行同义词匹配;
D2.如果与基本属性同义则转基本属性提取,否则转D3;
D3.在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性;至此,互联网人物信息的属性提取方法到此结束。
与现有技术相比,本发明的互联网人物信息的属性提取方法具有以下效果:实现了对人物属性信息的自动提取;对人物属性提取效果比较明显;对自定义属性有一定的作用。
附图说明
图1是本发明方法的一种流程框图;
图2是图1中步骤102所述为提取网站、电话属性的过程流程图;
图3是图1中步骤103所述为对于工作单位、地址等属性提取流程图;
图4是图1中步骤104所述的是对自定义属性提取的流程图。
具体实施方式
以下参照附图,进一步描述本发明的具体技术方案,以便于本领域的技术人员进一步地理解本发明,而不构成对其权利的限制。
实施例1,一种互联网人物信息的属性提取方法,其步骤如下:
A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;如:人物张三,得到规则R 张三+工作单位。其操作步骤如下;
A1.利用目标人物人名关键词组成规则R;
A2.利用规则从互联网得信息集合S;
B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;
B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;
B2.对分词结果集合M进行人名优化;
B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;
C.对于基本属性的信息提取;其操作步骤如下;
C1.对分词后的属性进行逐个提取,对于格式相对固定的电话、网站、邮箱利用正则表达式对集合S进行正则匹配;
C2.若匹配到结果则成功,否则失败;
C3. 对于工作单位、地址,利用地点触发词,结合词性进行提取;
D.对于自定义属性的信息提取;其操作步骤如下;
D1.对自定义属性进行同义词匹配;
D2.如果与基本属性同义则转基本属性提取,否则转D3;
D3.在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性;至此,互联网人物信息的属性提取方法到此结束。
实施例2,参照图1-4,互联网人物信息的属性提取方法进行的操作实验,包括如下步骤:
步骤101、根据目标人名为关键字构成的规则,利用搜索引擎进行得到关于目标人物信息集合S ,并进行分词并优化
(1) 如目标人物为张三,可以生成规则如张三+工作单位 等规则,利用搜索引擎进行搜索,得到信息集合S
(2) 对信息集合S进行分词,进行词性标注,利用职位库结合姓氏进行人名的重新标注。
步骤102 对电话、邮箱进行匹配,参照图2,包括如下步骤:
步骤201 根据信息集合S,进行正则匹配
步骤202 利用电话、邮箱的正正则表达式,进行匹配
步骤203、如果匹配成功则成功
步骤204若匹配不到,则查找电话关键字,返回整个句子。找不到电话等关键词则提取失败
步骤103、对于工作单位、地址,参照图3,包括如下步骤:
步骤301、根据生成的集合S,查找触发词;
步骤302、如果找不到触发词,则失败,否则在其后查找地点词
步骤303、若匹配不到地点词,则失败,否则在其后10个字符内查找地址结束词,如果找到,则截取地点词地址结束词为地址结果。否则返回地点词
步骤104、对于自定义属性的提取,参照图4包括如下步骤:
步骤401、对自定义属性进行同义词匹配
步骤402、如果在同义词典中,则进行基本属性的匹配
步骤403、在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性。
Claims (1)
1.一种互联网人物信息的属性提取方法,其特征在于,其步骤如下:
A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;其操作步骤如下;
A1.利用目标人物人名关键词组成规则R;
A2.利用规则从互联网得信息集合S;
B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;
B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;
B2.对分词结果集合M进行人名优化;
B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;
C.对于基本属性的信息提取;其操作步骤如下;
C1.对分词后的属性进行逐个提取,对于格式相对固定的电话、网站、邮箱利用正则表达式对集合S进行正则匹配;
C2.若匹配到结果则成功,否则失败;
C3. 对于工作单位、地址,利用地点触发词,结合词性进行提取;
D.对于自定义属性的信息提取;其操作步骤如下;
D1.对自定义属性进行同义词匹配;
D2.如果与基本属性同义则转基本属性提取,否则转D3;
D3.在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性;
至此,互联网人物信息的属性提取方法到此结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310414531.0A CN104462075A (zh) | 2013-09-12 | 2013-09-12 | 一种互联网人物信息的属性提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310414531.0A CN104462075A (zh) | 2013-09-12 | 2013-09-12 | 一种互联网人物信息的属性提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462075A true CN104462075A (zh) | 2015-03-25 |
Family
ID=52908141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310414531.0A Pending CN104462075A (zh) | 2013-09-12 | 2013-09-12 | 一种互联网人物信息的属性提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462075A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126618A (zh) * | 2016-06-22 | 2016-11-16 | 清华大学 | 基于人名的邮箱地址推荐方法及系统 |
CN106649324A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 网站校对信息的建立方法及装置 |
CN107844477A (zh) * | 2017-10-25 | 2018-03-27 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
CN112612907A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 知识图谱的生成方法、装置、电子设备和计算机可读介质 |
CN113111661A (zh) * | 2020-01-09 | 2021-07-13 | 图灵人工智能研究院(南京)有限公司 | 文本信息分类方法、系统、设备及可读存储介质 |
-
2013
- 2013-09-12 CN CN201310414531.0A patent/CN104462075A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649324A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 网站校对信息的建立方法及装置 |
CN106126618A (zh) * | 2016-06-22 | 2016-11-16 | 清华大学 | 基于人名的邮箱地址推荐方法及系统 |
CN107844477A (zh) * | 2017-10-25 | 2018-03-27 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
CN107844477B (zh) * | 2017-10-25 | 2021-03-19 | 西安影视数据评估中心有限公司 | 一种影视剧本人物名称的提取方法和装置 |
CN113111661A (zh) * | 2020-01-09 | 2021-07-13 | 图灵人工智能研究院(南京)有限公司 | 文本信息分类方法、系统、设备及可读存储介质 |
CN112612907A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 知识图谱的生成方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105653706B (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
WO2019041521A1 (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
JP5759228B2 (ja) | 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 | |
CN111597351A (zh) | 可视化文档图谱构建方法 | |
CN106095762A (zh) | 一种基于本体模型库的新闻推荐方法及装置 | |
CN105608232B (zh) | 一种基于图形数据库的bug知识建模方法 | |
KR101775883B1 (ko) | 정보 스트림의 정보를 처리하는 방법 및 시스템 | |
CN104516949B (zh) | 网页数据处理方法和装置、查询处理方法及问答系统 | |
CN104462075A (zh) | 一种互联网人物信息的属性提取方法 | |
JP2005085285A5 (zh) | ||
Alami et al. | Cybercrime profiling: Text mining techniques to detect and predict criminal activities in microblog posts | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN102073729A (zh) | 一种关系化知识共享平台及其实现方法 | |
CN104268230B (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
WO2014114175A1 (zh) | 一种提供搜索引擎标签的方法和装置 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
CN105677857A (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
Koopman et al. | Graph-based concept weighting for medical information retrieval | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
Baldwin | Social media: friend or foe of natural language processing? | |
Ding et al. | Scoring tourist attractions based on sentiment lexicon | |
CN104217026A (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
CN105320715A (zh) | 基于本体的语义查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150325 |
|
WD01 | Invention patent application deemed withdrawn after publication |