CN107357925A - 微博微信中人名分类方法 - Google Patents

微博微信中人名分类方法 Download PDF

Info

Publication number
CN107357925A
CN107357925A CN201710616154.7A CN201710616154A CN107357925A CN 107357925 A CN107357925 A CN 107357925A CN 201710616154 A CN201710616154 A CN 201710616154A CN 107357925 A CN107357925 A CN 107357925A
Authority
CN
China
Prior art keywords
name
personal
personal ledger
wechat
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710616154.7A
Other languages
English (en)
Inventor
陈志群
陈锦冰
刘晓靓
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhonghong On-Line Co Ltd
Original Assignee
Shenzhen Zhonghong On-Line Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhonghong On-Line Co Ltd filed Critical Shenzhen Zhonghong On-Line Co Ltd
Priority to CN201710616154.7A priority Critical patent/CN107357925A/zh
Publication of CN107357925A publication Critical patent/CN107357925A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

发明名称微博微信中人名分类方法摘要:本发明实施例公开了一种微博微信中人名分类方法,所述识别方法包括:建立已知人名分类库,找出微博微信文本中出现的人名,将出现在同一篇微博微信中出现人名看成是一个关联,利用关联分析将未知的人名分类,扩充已知人名分类库。

Description

微博微信中人名分类方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种微博微信中人名分类方法。
背景技术
微博微信在网民的信息获取与信息提供中占了相当大的比重,名人的微博微信更具有异乎寻常的吸引力,名人的发生事件,名人的言语牵动粉丝们的注意力,海量的微博微信中产生大量的人名,机器识别文本中的人名及对其分类判断对于智能分析文本意义不小。
然而,我国地广人多,行政区也多,在微博微信中出现的名人也多,判断文本中出现的名人姓名或人名及其分类遇到的难题也不小。首先是中文姓名自动识别问题,尤其是当人名中出现词的问题如:“卫国、保国、国庆、前进”等等,还有一些姓本身就是词如“东方、闻人”等等,再就是对人名的分类,有些名人属于多个分类,如既是作家又是演员,导演兼演员,影视歌三栖星等,在目前的论文与专利文献中,都缺少这方面的分析与研究。
发明内容
本发明实施例所要解决的技术问题在于,提供一种对微博微信中人名分类方法,利建立已知人名分类库,找出微博微信文本中出现的人名,将出现在同一篇微博微信中出现人名看成是一个关联,利用关联分析将未知的人名分类,扩充已知人名分类库,通过电脑自动识别与判断及人工把关相结合的方法,既提高效率又保证质量。
为了解决上述技术问题,本发明实施例提出了一种微博微信中人名分类方法,用于对微博微信文本中出现的未知人名进行分类,所述方法包括:。
建立已知人名分类库。
找出微博微信文本中出现的人名。
构造人名关联。
对未知的人名分类。
扩充已知人名分类库。
计算机程序实现步骤:
(1)人名分类表、微博微信表、关联表、人名分类过程表设计
(2)微博微信获取程序
(3)文本中姓名判断程序
(4)未知人名分类判断程序。
附图说明
图 1为本发明的流程图。
图 2 为本发明的建立已知人名分类库步骤流程图。
图 3 找出微博微信文本中出现的人名步骤的流程图。
图 4为本发明的对未知的人名分类步骤的流程图。
图 5 为本发明的计算机程序实现步骤的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
本发明实施例提供了一种微博微信中人名分类方法,用于判断微博微信文本中出现的系列人名,并对未知的人名进行分类,下面就结合附图和具体实施例来对本发明提供的技术方案进行详细描述。请参照图1至图5,本发明实施例的微博微信中人名分类方法主要包括: 建立已知人名分类库步骤S1,找出微博微信文本中出现的人名步骤S2,构造人名关联步骤S3,未知的人名分类步骤S4,扩充已知人名分类库S5,计算机程序实现系统S6。
建立已知人名分类库步骤S1。设置人名分类S101,分类包括但不限于: 娱乐、作家、艺术、体育、政治、科学、教育、企业、科技、经济、音乐、电影、戏剧、电视剧、旅游,通过网络如百度如百度百科、中国名人词典等获取获取人名S102并对其分类及对有多重身份的人名配置权重S103。
找出微博微信文本中出现的人名步骤S2。获取微博微信文本步骤S201,具体为,参考网页 http://www.cnblogs.com/RunForLove/p/5769997.html,新浪官网 http://open.weibo.com/, 微信公众开发平台 https://mp.weixin.qq.com/,根据常见的姓氏及名初步判断文本中的人名步骤S202,如代码1;根据人名左右的字判断此为人名的可能性步骤S203,根据人名为名词判断此为人名的可能性步骤S204,将人名与文本ID入库S205,形如表1。
代码1
String familyName="李|王|张|刘|陈|杨|赵|黄|周|吴|徐|孙|胡|朱|高|林|何|郭|马|罗|梁|宋|郑|谢|韩|唐|冯|于|董|萧|程|曹|袁|邓|许|傅|沈|曾|彭|吕|苏|卢|蒋|蔡|贾|秥|簗|薛|叶|阎|余|潘|杜|戴|夏|钟|汪|田|任|姜|范|方|石|姚|谭|廖|邹|熊|金|陆|郝|孔|白|崔|康|毛|邱|秦|江|史|顾|侯|邵|孟|龙|万|段|漕|钱|汤|尹|黎|易|常|武|乔|贺|赖|龚|文|庞|樊|兰|殷|施|陶|洪|翟|安|颜|倪|严|牛|温|芦|季|俞|章|鲁|葛|伍|韦|申|尤|毕|聂|丛|焦|向|柳|邢|路|岳|齐|沿|梅|莫|庄|辛|管|祝|左|涂|谷|祁|时|舒|耿|牟|卜|路|詹|关|苗|凌|费|纪|靳|盛|童|欧|甄|项|曲|成|游|阳|裴|席|卫|查|屈|鲍|位|覃|霍|翁|隋|植|甘|景|薄|单|包|司|柏|宁|柯|阮|桂|闵欧阳解|强|柴|华|车|冉|房|边|辜|吉|饶|刁|瞿|戚|丘|古|米|池|滕|晋|苑|邬|臧|畅|宫|来|嵺|苟|全|褚|廉|简|娄|盖|符|奚|木|穆|党|燕|郎|邸|冀|谈|姬|屠|连|郜|晏|栾|郁|商|蒙|计|喻|揭|窦|迟|宇|敖|糜|鄢|冷|卓|花|仇|艾|蓝|都|巩|稽|井|练|仲|乐|虞|卞|封|竺|冼|原|官|衣|楚|佟|栗|匡|宗|应|台|巫|鞠|僧|桑|荆|谌|银|扬|明|沙|薄|伏|岑|习|胥|保|和|蔺";
String lastName="伟|勇|军|磊|涛|斌|强|鹏|杰|峰|超|波|辉|刚|健|明|亮|俊|飞|凯|浩|华|平|鑫|毅|林|洋|宇|敏|宁|建|兵|旭|雷|锋|彬|龙|翔|阳|剑|东|博|威|海|巍|晨|炜|帅|岩|江|松|文|云|力|成|琦|进|昊|宏|欣|坤|......";
String reg = "[^\u4e00-\u9fa5]";
Pattern pat = Pattern.compile(reg);
String pattName="("+familyName+"){1}[^\u4e00-\u9fa5|^@]{0,1}("+lastName+"){1}[^\u4e00-\u9fa5|^@]{0,1}("+lastName+"){0,1}[^\u4e00-\u9fa5|^@]{0,1}";
String pattShu="《([^》]*)》";// "[《]{1}[\\S|^》|^《]{1,}[》]{1}";
long startTime=System.currentTimeMillis(); //获取开始时间
Pattern pattern = Pattern.compile(pattName);
Pattern patShu = Pattern.compile(pattShu);
Matcher mShu = patShu.matcher(dyStr);
while(mShu.find()){
System.out.println(mShu.group());
}
for (int i=0;i<1;i++){
Matcher m = pattern.matcher(dyStr);
while(m.find()){
tempName=pat.matcher(m.group()).replaceAll("");
System.out.println(tempName);
}
}。
表1
微博微信编号 人名
1156 张艺谋
1156 刘德华
1156 赵伟
构造人名关联步骤S3。具体为参考表1,寻找未知人名赵伟,列举人名为赵伟的微博微信编号1156,找到微博微信编号为1156的人名如张艺谋、刘德华,则赵伟与张艺谋、刘德华关联。
未知的人名分类步骤S4。设置判断未知人名分类的最小频次及最小频率步骤S401, 从人名关联库中以未知人名频次由大到小排序S402,根据最小频次初选未知分类的人名S403,根据未知分类的人名与已知人名的分类与权重关联计算未知人名的各个分类占比S404,如表2,赵伟关联的分类数及总权重,根据最小频次设置判断未知人名分类S405,具体为:最少关联次数为10,最低频次为88%,电脑确认张伟的分类为电影,人工确认后导入到人名分类库S501。
表2
人名分类 关联的次数 关联的权重 占比
电影 10 8.6 89.6%
歌曲 1 1 10.4%
计算机程序实现系统S6。人名分类表、微博微信表、关联表、人名分类过程表设计
S601,微博微信获取程序S602,文本中姓名判断程序S03,未知人名分类判断程序S604。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (7)

1.一种微博微信中人名分类方法,找出微博微信中出现的未知人名并对其分类,其特征在于,包含以下步骤:
1.1 建立已知人名分类库
1.2 找出微博微信文本中出现的人名
1.3构造人名关联
1.4对未知的人名分类
1.5扩充已知人名分类库。
2.如权利1要求所述的一种微博微信中人名分类方法,其特征在于,建立已知人名分类库步骤中,通过网络获取部分名人人名并对其分类与标记权重。
3.如权利1要求所述的一种微博微信中人名分类方法,其特征在于,找出微博微信文本中出现的人名步骤中,判断文本中可能出现的已知及未知人名并将文本编号一并保存入库。
4.如权利1要求所述的一种微博微信中人名分类方法,其特征在于,构造人名关联步骤中,将出现在同一个微博微信编号的人名看成一个关联。
5.如权利1要求所述的一种微博微信中人名分类方法,其特征在于,对未知的人名分类步骤中,包含以下步骤:
5.1设置最小频次及最小频率
5.2根据及未知人名与已知人名关联的分类计算的分类频次分布
5.3 根据设置将最好的符合设置条件未知人名进行分类。
6.如权利1要求所述的一种微博微信中人名分类方法,其特征在于,人工确认后导入到人名分类库步骤中,对计算机计算好的已分类的未知人名进行人工确认,导入已知人名分类库。
7.如权利1至6要求所述的一种微博微信中人名分类方法,其特征在于,计算机程序实现步骤中,包含实现此方法的数据库及程序编码。
CN201710616154.7A 2017-07-26 2017-07-26 微博微信中人名分类方法 Pending CN107357925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710616154.7A CN107357925A (zh) 2017-07-26 2017-07-26 微博微信中人名分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710616154.7A CN107357925A (zh) 2017-07-26 2017-07-26 微博微信中人名分类方法

Publications (1)

Publication Number Publication Date
CN107357925A true CN107357925A (zh) 2017-11-17

Family

ID=60284996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710616154.7A Pending CN107357925A (zh) 2017-07-26 2017-07-26 微博微信中人名分类方法

Country Status (1)

Country Link
CN (1) CN107357925A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN103593393A (zh) * 2013-09-13 2014-02-19 微梦创科网络科技(中国)有限公司 基于微博互动关系挖掘社交圈的方法及装置
CN103593454A (zh) * 2013-11-21 2014-02-19 中国科学院深圳先进技术研究院 面向微博文本分类的挖掘方法及系统
CN103678400A (zh) * 2012-09-21 2014-03-26 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
CN104573096A (zh) * 2015-01-30 2015-04-29 湖南识微科技有限公司 一种挖掘目标微博用户的方法
CN106156316A (zh) * 2016-07-04 2016-11-23 长江大学 一种大数据环境下的特殊人名与籍贯关联方法及系统
CN106708796A (zh) * 2015-07-15 2017-05-24 中国科学院计算技术研究所 一种基于文本的关键人名的提取方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678400A (zh) * 2012-09-21 2014-03-26 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN103186662A (zh) * 2012-12-28 2013-07-03 中联竞成(北京)科技有限公司 一种动态舆情关键词抽取系统和方法
CN103593393A (zh) * 2013-09-13 2014-02-19 微梦创科网络科技(中国)有限公司 基于微博互动关系挖掘社交圈的方法及装置
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
CN103593454A (zh) * 2013-11-21 2014-02-19 中国科学院深圳先进技术研究院 面向微博文本分类的挖掘方法及系统
CN104573096A (zh) * 2015-01-30 2015-04-29 湖南识微科技有限公司 一种挖掘目标微博用户的方法
CN106708796A (zh) * 2015-07-15 2017-05-24 中国科学院计算技术研究所 一种基于文本的关键人名的提取方法及系统
CN106156316A (zh) * 2016-07-04 2016-11-23 长江大学 一种大数据环境下的特殊人名与籍贯关联方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张梅,等: "人名属性知识挖掘及其在查询分类中的应用", 《现代图书情报技术》 *
曾镇,等: "搜索日志中中文人名的自动识别", 《现代图书情报技术》 *

Similar Documents

Publication Publication Date Title
Lih Wikipedia as participatory journalism: Reliable sources? metrics for evaluating collaborative media as a news resource
Wang et al. Income inequality in the People's Republic of China: trends, determinants, and proposed remedies
Pringle Trade unions in China: The challenge of labour unrest
CN106372798B (zh) 一种基于风险的用户自定义的合同生成方法和系统
CN106066856B (zh) 一种基于编辑距离以及词频和词向量的实体关系识别方法
Molvray et al. Phylogenetic relationships within Korthalsella (Viscaceae) based on nuclear ITS and plastid trnL‐F sequence data
CN106203473B (zh) 一种基于安装包列表的移动用户性别预测方法
Niskanen et al. Identifying and naming the currently known diversity of the genus Hydnum, with an emphasis on European and North American taxa
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN107545444A (zh) 一种业务广告数据推荐方法以及装置
Leão et al. Evolutionary patterns in the geographic range size of Atlantic Forest plants
Mendoza et al. From fat to obese: Political dynasties after the 2019 midterm elections
Korolkov Empire-building and market-making at the Qin frontier: Imperial expansion and economic change, 221–207 BCE
Bilton et al. Intraspecific trait variation in grassland plant species reveals fine-scale strategy trade-offs and size differentiation that underpins performance in ecological communities
CN107357925A (zh) 微博微信中人名分类方法
Joanis The politics of checkbook federalism: Can electoral considerations affect federal–provincial transfers?
JP5125071B2 (ja) スケール算出プログラム、スケール算出装置およびスケール算出方法
Ilieş et al. Romanian Rural Tourism between authentic/traditional and modern/contemporary. The case of Crişana and Maramureş area (I)
CN108121754A (zh) 一种获取关键词属性组合的方法及装置
Chiu Commercialization in Late Ming China: Seeds of Capitalism?
Hwang No “Korean wave” here: Western classical music and the changing value system in South Korea
Ismail et al. Evolution of Architectural Heritage through Typology of Traditional Houses in Negeri Sembilan
Dawid Analysis of Data Completeness in the Register of Real Estate Prices and Values Used for Real Estate Evaluation on the Example of Koszalin District in the Years 2010‒2016
Cuadros et al. Semeval-2007 task 16: Evaluation of wide coverage knowledge resources
De Wenden Immigration and cultural rights: Political recognition and cultural acceptance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171117