CN105608072A - 文本涉及地分析方法及其系统 - Google Patents

文本涉及地分析方法及其系统 Download PDF

Info

Publication number
CN105608072A
CN105608072A CN201510979376.6A CN201510979376A CN105608072A CN 105608072 A CN105608072 A CN 105608072A CN 201510979376 A CN201510979376 A CN 201510979376A CN 105608072 A CN105608072 A CN 105608072A
Authority
CN
China
Prior art keywords
text
probability
ground
relates
described text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510979376.6A
Other languages
English (en)
Other versions
CN105608072B (zh
Inventor
李晟
栾江霞
王备战
章正道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201510979376.6A priority Critical patent/CN105608072B/zh
Publication of CN105608072A publication Critical patent/CN105608072A/zh
Application granted granted Critical
Publication of CN105608072B publication Critical patent/CN105608072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本涉及地分析方法及其系统,方法包括提取文本的地域相关名词;将地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;计算地域相关名词在文本中的词频概率,确定地域区划列表中对应的文本涉及地的第一概率;根据地域相关名词及其对应的文本涉及地的语义相关度,获取文本涉及地的语义概率;根据文本所在版块的统计信息或发布人的统计信息中文本涉及地的历史概率,获取文本涉及地的第二概率;根据第一概率、语义概率和第二概率,获取文本涉及地的综合概率;若综合概率大于等于第一预设阈值,则判定文本涉及地为文本的属地;将文本涉及地添加至文本的地域属性标签。本发明可提高文本地域分析判断的准确性。

Description

文本涉及地分析方法及其系统
技术领域
本发明涉及文本分析领域,尤其涉及一种文本涉及地分析方法及其系统。
背景技术
随着网络技术的发展和用户数量的不断增长,网络中产生的数据正经历爆炸式的增长,这对网络数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术,通过相应的技术和方法对文本的语义内容进行分析,归类等一系列操作,主要用于商品推荐,舆情分析,文本搜索等领域。
在舆情分析中,需要对网络中舆情在不同的主题下进行整理和分析,例如不同地域存在的舆情热点和发展趋势。为此,对于发帖内容中所涉及的地域信息进行抽取和判断是舆情分析中一个相对重要的环节。
在地域判断这一个环节中,已存在的技术在通过分词技术提取地域相关名词后,主要通过在地域区划数据查找匹配来判断文本内容的地域属性。
基于区划数据库的方法直观、易实现。然而,该方法的效果却不理想,而且依赖文本中存在对应的地区名称。现实中,网络发帖文本中往往不直接提及区划地域名称,通常只出现一些街道、地标;而同一街道或地标名称可能对应了多个城市。在这种情况下,该方法无法提取和判断文本的地域属性。
在大数据和知识图谱的发展背景下,文本分析有新的研究方向和技术。例如通过知识图谱来对文本进行分析能够取得更好的效果。但由于知识图谱相关技术和应用仍存在效率和易用性上的问题,在实际应用中未被广泛应用。
在申请号为201210581448.8的公开文件中,提出了一种文本分析方法及文本分析器,所述方法包括:对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。但该方法主要分析文本中的实体词,无法分析文本的涉及地。
发明内容
本发明所要解决的技术问题是:提供一种文本涉及地分析方法及其系统,可对文本内容进行分析判断,获取文本属地。
为了解决上述技术问题,本发明采用的技术方案为:一种文本涉及地分析方法,包括
提取文本的地域相关名词;
将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度,获取所述文本涉及地的语义概率;
获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;
根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;将所述文本涉及地添加至所述文本的地域属性标签。
本发明还涉及一种文本涉及地分析系统,包括
提取模块,用于提取文本的地域相关名词;
匹配模块,用于将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
第一确定模块,用于计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
第一计算模块,用于计算所述地域相关名词及其对应的文本涉及地的语义相关度;
第一获取模块,用于根据所述语义相关度,获取所述文本涉及地的语义概率;
第二获取模块,用于获取所述文本所在版块的统计信息或发布人的统计信息;
第三获取模块,用于分别获取所述文本涉及地在所述统计信息中的历史概率
第四获取模块,用于根据所述历史概率,获取所述文本涉及地的第二概率;
第五获取模块,用于根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
第一判定模块,用于若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;
第一添加模块,用于将所述文本涉及地添加至所述文本的地域属性标签。
本发明的有益效果在于:对文本所在版块和发布人进行涉及地信息的统计,并将所述统计信息应用于文本的地域判断,所述统计信息能够有效地反映所述版本或人物的地域偏好特性,从而更有效地辅助判断文本的地域属性,提高地域分析判断的准确性;对地域相关名词和涉及地进行语义关联计算,并将所述关联度用于地域判断,通过对包含第一概率、语义概率和第二概率的综合概率进行分析,进一步提高了地域分析判断的准确性。
附图说明
图1为本发明一种文本涉及地分析方法的流程图;
图2为本发明实施例一的方法流程图;
图3为本发明实施例二的方法流程图;
图4为本发明一种文本涉及地分析系统的结构示意图;
图5为本发明实施例三的系统结构示意图;
图6为本发明实施例四的系统结构示意图。
标号说明:
1、提取模块;2、匹配模块;3、第一确定模块;4、第一计算模块;5、第一获取模块;6、第二获取模块;7、第三获取模块;8、第四获取模块;9、第五获取模块;10、第一判定模块;11、第一添加模块;12、第二添加模块;13、更新模块;14、第二确定模块;15、第三确定模块;16、关联模块;17、第一判断模块;18、第二判定模块;19、第二判断模块;20、修改模块。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
本发明最关键的构思在于:依据文本所在版块属地和发布人属地进行涉及地信息的统计,并将统计信息应用于文本的地域判断中。
请参阅图1,一种文本涉及地分析方法,包括
提取文本的地域相关名词;
将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度,获取所述文本涉及地的语义概率;
获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;
根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;将所述文本涉及地添加至所述文本的地域属性标签。
从上述描述可知,本发明的有益效果在于:根据文本内容获取第一概率,根据文本所在版块的统计信息或发布人的统计信息中的历史概率,获取第二概率,根据地域相关名词及其对应的文本涉及地的语义相关度,获取语义概率,通过判断包含第一概率、第二概率和语义概率的综合概率,可以有效地辅助判断文本的地域属性,提高地域分析判断的准确性。
进一步地,所述“根据所述第一概率、语义概率和第二概率,获取所述涉及地的综合概率”之后,进一步还包括:
若所述综合概率小于预设阈值,则将所述综合概率添加至文本信息;
根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息。
由上述描述可知,将文本的涉及地分析结果以概率的形式存储至文本信息中,并进一步存储至文本所在版块的统计信息或发布人的统计信息中,通过长期的统计,能有效反应该版块或人物的地域偏好特性,从而更有效地辅助判断文本的地域属性。
进一步地,所述“根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率”具体为:
确定所述文本所在版块的属地或发布人的属地;
根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率;
根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概率。
进一步地,所述“若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地”之前,进一步还包括:
判断所述文本涉及地的第一概率和奖励概率的和是否大于等于第二预设阈值,若是,则判定所述文本涉及地为所述文本的属地;若否则判断所述综合概率是否大于等于第一预设阈值。
进一步地,所述“根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率”具体为:
若所述文本涉及地与所述属地为同一城市,则所述文本涉及地获得第一奖励概率;若所述文本涉及地与所述属地属于同一省份,则所述文本涉及地获得第二奖励概率;所述第一奖励概率大于所述第二奖励概率。
由上述描述可知,通过引入奖励概率,且根据文本涉及地与版块属地或发布人属地的关系强弱,确定具体的奖励概率,进一步提高地域分析判断的准确性。
进一步地,所述“将所述地域相关名词进行地域匹配,得到包含所述文本涉及地的地域区划列表”之前,进一步还包括:将地标和街道与地域区划关联,并对区划、街道和地标数据建立索引。
由上述描述可知,当文本中不直接提及区划地域名称,而只出现一些街道或地标的名称时,也可对文本进行设计地分析判断。
进一步地,所述“将所述文本涉及地添加至所述文本的地域属性标签”之后,进一步还包括:通过反馈信息修改所述地域属性标签。
由上述描述可知,可通过人为反馈修改文本的地域属性标签,进一步提高地域分析判断的准确性。
本发明还提出了一种文本涉及地分析系统,包括
提取模块,用于提取文本的地域相关名词;
匹配模块,用于将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
第一确定模块,用于计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
第一计算模块,用于计算所述地域相关名词及其对应的文本涉及地的语义相关度;
第一获取模块,用于根据所述语义相关度,获取所述文本涉及地的语义概率;
第二获取模块,用于获取所述文本所在版块的统计信息或发布人的统计信息;
第三获取模块,用于分别获取所述文本涉及地在所述统计信息中的历史概率
第四获取模块,用于根据所述历史概率,获取所述文本涉及地的第二概率;
第五获取模块,用于根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
第一判定模块,用于若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;
第一添加模块,用于将所述文本涉及地添加至所述文本的地域属性标签。
进一步地,还包括
第二添加模块,用于若所述综合概率小于第一预设阈值,则将所述综合概率添加至文本信息;
更新模块,用于根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息。
进一步地,还包括
第二确定模块,用于确定所述文本所在版块的属地或发布人的属地;
第三确定模块,用于根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率;
所述第五获取模块具体用于根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概率。
实施例一
请参照图1-2,本发明的实施例一为:一种文本涉及地分析方法,包括如下步骤:
S1:对文本进行分词处理,提取文本的地域相关名词;可选地,可采用ANSJ分词方法进行分词,通过加入街道和地标自定义词库,提高分词效果。
S2:将地标和街道与地域区划关联,并对区划、街道和地标数据建立索引。
S3:将所述地域相关名词在数据索引中进行搜索匹配,得到包含文本涉及地的地域区划列表CITY={city1,...cityi,...citym}。
S4:计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率PT(cityi)。
S5:计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度,获取所述文本涉及地的语义概率;进一步地,所述语义相关度Semantic(cityi)通过PMI共现率或Google距离(NGD)计算,所述语义概率根据公式计算,其中m为所述地域区划列表中文本涉及地的个数。
S6:获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;进一步地,所述第二概率根据公式计算,其中PG(cityi)为文本涉及地cityi在所述统计信息中的历史概率,m为所述地域区划列表中涉及地的个数。
S7:根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;进一步地,所述综合概率根据公式 P ( city i ) = α · P T ( city i ) + β · P s e m ( city i ) + γ · P 2 ( city i ) α + β + γ 计算,其中α,β,γ为权重因子,为保证以文本内容为主要判断依据,设定α>β,γ>0。
S8:判断所述第一概率是否大于等于第三预设阈值,若否,则执行步骤S9,若是,则执行步骤S10。
S9:判断所述综合概率是否大于等于第一预设阈值,若是,则执行步骤S10,若否,则执行步骤S11。
S10:判定所述文本涉及地为所述文本的属地;将所述文本涉及地添加至所述文本的地域属性标签。
S11:将所述综合概率添加至文本信息。
S12:根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息。
可选地,所述第三预设阈值与第一预设阈值相等。
可选地,步骤S10之后,若用户发现文本的属地信息需要更正,可通过反馈的形式修改所述地域属性标签,修改结果也会被更新到统计信息中。
可选地,步骤S8可在步骤S5、S6或S7之前进行,优选地,先执行步骤S8,再根据判断结果执行步骤S5、S6和S7或执行步骤S10。
通过本实施例,可实现对文本涉及地的分析判断。
实施例二
请参照图3,本实施例为实施例一的区别在于,引入了奖励概率。本实施例的步骤S1-S6与实施例一相同,不再累述。
S7:确定所述文本所在版块的属地或发布人的属地,根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率AwardG(cityi);进一步地,若所述文本涉及地与所述属地为同一城市,则所述文本涉及地获得第一奖励概率;若所述文本涉及地与所述属地属于同一省份,则所述文本涉及地获得第二奖励概率;所述第一奖励概率大于所述第二奖励概率;所述第一奖励概率和第二奖励概率大于0,小于0.5;可选地,可通过行政区域代码判断得到奖励概率,例如,若所述文本涉及地和所述属地的行政区域代码的前两位相同,则所述文本涉及地与所述属地属于同一省份,所述文本涉及地可获得第二奖励概率,如0.2,若所述文本涉及地和所述属地的行政区域代码的前四位相同,则所述文本涉及地与所述属地属于同一城市,所述文本涉及地可获得第一奖励概率,如0.4。
S8:根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概率;进一步地,所述综合概率根据公式 P ( city i ) = α · P T ( city i ) + β · P s e m ( city i ) + γ · P 2 ( city i ) α + β + γ + A ward G ( city i ) 计算,其中α,β,γ为权重因子,为保证以文本内容为主要判断依据,设定α>β,γ>0。
S9:判断所述第一概率与奖励概率之和是否大于等于第二预设阈值,若否,则执行步骤S10,若是,则执行步骤S11。
S10:判断所述综合概率是否大于等于第一预设阈值,若是,则执行步骤S11,若否,则执行步骤S12。
S11:判定所述文本涉及地为所述文本的属地;将所述文本涉及地添加至所述文本的地域属性标签。
S12:将所述综合概率添加至文本信息。
S13:根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息。
可选地,所述第一预设阈值与第二预设阈值相等。
可选地,步骤S9可在步骤S5、S6、S7或S8之前进行,优选地,先执行步骤S9,再根据判断结果执行步骤S5、S6、S7和S8或执行步骤S11。
通过本实施例,可提高文本涉及地分析判断的准确性。
实施例三
请参照图4-5,本发明的实施例三为:一种文本涉及地分析系统,包括提取模块1、匹配模块2、第一确定模块3、第一计算模块4、第一取模块5、第二获取模块6、第三获取模块7、第四获取模块8、第五获取模块9、第一判定模块10和第一添加模块11;
所述提取模块1用于提取文本的地域相关名词;
所述匹配模块2用于将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
所述第一确定模块3用于计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
所述第一计算模块4用于计算所述地域相关名词及其对应的文本涉及地的语义相关度;
所述第一获取模块5用于根据所述语义相关度,获取所述文本涉及地的语义概率;
所述第二获取模块6用于获取所述文本所在版块的统计信息或发布人的统计信息;
所述第三获取模块7用于分别获取所述文本涉及地在所述统计信息中的历史概率;
所述第四获取模块8用于根据所述历史概率,获取所述文本涉及地的第二概率;
所述第五获取模块9用于根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
所述第一判定模块10用于若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;
所述第一添加模块11用于将所述文本涉及地添加至所述文本的地域属性标签;
还包括第二添加模块12和更新模块13;
所述第二添加模块12用于若所述综合概率小于第一预设阈值,则将所述综合概率添加至文本信息;
所述更新模块13用于根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息;
还包括关联模块16和修改模块20;
所述关联模块16用于将地标和街道与地域区划关联,并对区划、街道和地标数据建立索引;
所述修改模块20用于通过反馈信息修改所述地域属性标签。
实施例四
请参照图6,本实施例为实施例二所述的方法对应的文本涉及地分析系统,是实施例三的改进,相同之处不再累述。
还包括第二确定模块14、第三确定模块15、第一判断模块17、第二判定模块18和第二判断模块19;
所述第二确定模块14用于确定所述文本所在版块的属地或发布人的属地;
所述第三确定模块15用于根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率;
所述第五获取模块9具体用于根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概率;
所述第一判断模块17用于判断所述文本涉及地的第一概率和奖励概率的和是否大于等于第二预设阈值,得到第一判断结果;
所述第二判定模块18用于若第一判断结果为是,则判定所述文本涉及地为所述文本的属地;
所述第二判断模块19用于若第一判断结果为否,则判断所述综合概率是否大于等于第一预设阈值,得到第二判断结果。
若第二判断结果为是,则执行第一判定模块10,若第二判断结果为否,则执行第二添加模块12。
综上所述,本发明提供的一种文本涉及地分析方法及其系统,对文本所在版块和发布人进行涉及地信息的统计,并将所述统计信息应用于文本的地域判断,能够有效地反映所述版本或人物的地域偏好特性,从而更有效地辅助判断文本的地域属性,提高地域分析判断的准确性;对地域相关名词和涉及地进行语义关联计算,并将所述关联度用于地域判断,进一步提高了地域分析判断的准确性;通过引入奖励概率,且根据文本涉及地与版块属地或发布人属地的关系强弱,确定具体的奖励概率,从而更有效地辅助判断文本的地域属性;同时可通过人为反馈修改文本的地域属性标签,进一步提高地域分析判断的准确性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本涉及地分析方法,其特征在于:包括
提取文本的地域相关名词;
将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度,获取所述文本涉及地的语义概率;
获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在所述统计信息中的历史概率;根据所述历史概率,获取所述文本涉及地的第二概率;
根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;将所述文本涉及地添加至所述文本的地域属性标签。
2.根据权利要求1所述的文本涉及地分析方法,其特征在于:所述“根据所述第一概率、语义概率和第二概率,获取所述涉及地的综合概率”之后,进一步还包括:
若所述综合概率小于预设阈值,则将所述综合概率添加至文本信息;
根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息。
3.根据权利要求1所述的文本涉及地分析方法,其特征在于:所述“根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率”具体为:
确定所述文本所在版块的属地或发布人的属地;
根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率;
根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概率。
4.根据权利要求3所述的文本涉及地分析方法,其特征在于:所述“若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地”之前,进一步还包括:
判断所述文本涉及地的第一概率和奖励概率的和是否大于等于第二预设阈值,若是,则判定所述文本涉及地为所述文本的属地;若否则判断所述综合概率是否大于等于第一预设阈值。
5.根据权利要求3所述的文本涉及地分析方法,其特征在于:所述“根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率”具体为:
若所述文本涉及地与所述属地为同一城市,则所述文本涉及地获得第一奖励概率;若所述文本涉及地与所述属地属于同一省份,则所述文本涉及地获得第二奖励概率;所述第一奖励概率大于所述第二奖励概率。
6.根据权利要求1所述的文本涉及地分析方法,其特征在于:所述“将所述地域相关名词进行地域匹配,得到包含所述文本涉及地的地域区划列表”之前,进一步还包括:将地标和街道与地域区划关联,并对区划、街道和地标数据建立索引。
7.根据权利要求1所述的文本涉及地分析方法,其特征在于:所述“将所述文本涉及地添加至所述文本的地域属性标签”之后,进一步还包括:通过反馈信息修改所述地域属性标签。
8.一种文本涉及地分析系统,其特征在于:包括
提取模块,用于提取文本的地域相关名词;
匹配模块,用于将所述地域相关名词进行地域匹配,得到包含文本涉及地的地域区划列表;
第一确定模块,用于计算所述地域相关名词在所述文本中的词频概率,确定所述地域区划列表中对应的文本涉及地的第一概率;
第一计算模块,用于计算所述地域相关名词及其对应的文本涉及地的语义相关度;
第一获取模块,用于根据所述语义相关度,获取所述文本涉及地的语义概率;
第二获取模块,用于获取所述文本所在版块的统计信息或发布人的统计信息;
第三获取模块,用于分别获取所述文本涉及地在所述统计信息中的历史概率
第四获取模块,用于根据所述历史概率,获取所述文本涉及地的第二概率;
第五获取模块,用于根据所述第一概率、语义概率和第二概率,获取所述文本涉及地的综合概率;
第一判定模块,用于若所述综合概率大于等于第一预设阈值,则判定所述文本涉及地为所述文本的属地;
第一添加模块,用于将所述文本涉及地添加至所述文本的地域属性标签。
9.根据权利要求8所述的文本涉及地分析系统,其特征在于:还包括
第二添加模块,用于若所述综合概率小于第一预设阈值,则将所述综合概率添加至文本信息;
更新模块,用于根据所述文本的地域属性标签或所述文本信息,更新所述文本所在版块的统计信息或发布人的统计信息。
10.根据权利要求8所述的文本涉及地分析系统,其特征在于:还包括
第二确定模块,用于确定所述文本所在版块的属地或发布人的属地;
第三确定模块,用于根据所述文本涉及地与所述属地的关系,确定所述文本涉及地的奖励概率;
所述第五获取模块具体用于根据所述第一概率、语义概率、第二概率和奖励概率,获取所述文本涉及地的综合概率。
CN201510979376.6A 2015-12-23 2015-12-23 文本涉及地分析方法及其系统 Active CN105608072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510979376.6A CN105608072B (zh) 2015-12-23 2015-12-23 文本涉及地分析方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510979376.6A CN105608072B (zh) 2015-12-23 2015-12-23 文本涉及地分析方法及其系统

Publications (2)

Publication Number Publication Date
CN105608072A true CN105608072A (zh) 2016-05-25
CN105608072B CN105608072B (zh) 2019-02-19

Family

ID=55988016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510979376.6A Active CN105608072B (zh) 2015-12-23 2015-12-23 文本涉及地分析方法及其系统

Country Status (1)

Country Link
CN (1) CN105608072B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570130A (zh) * 2016-10-27 2017-04-19 厦门市美亚柏科信息股份有限公司 基于rdf知识库的文本地域判断方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
JP2010257267A (ja) * 2009-04-27 2010-11-11 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出装置、物体領域検出方法および物体領域検出プログラム
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
JP2010257267A (ja) * 2009-04-27 2010-11-11 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出装置、物体領域検出方法および物体領域検出プログラム
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570130A (zh) * 2016-10-27 2017-04-19 厦门市美亚柏科信息股份有限公司 基于rdf知识库的文本地域判断方法及其系统
CN106570130B (zh) * 2016-10-27 2019-10-01 厦门市美亚柏科信息股份有限公司 基于rdf知识库的文本地域判断方法及其系统

Also Published As

Publication number Publication date
CN105608072B (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
Van Eck et al. Visualizing bibliometric networks
CN102831121B (zh) 一种网页信息抽取的方法和系统
CN101681251B (zh) 从文档到排名短语的语义分析
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN105930469A (zh) 基于Hadoop的个性化旅游推荐系统及方法
CN102831131B (zh) 构建标注网页语料库的方法及装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN105426514A (zh) 个性化的移动应用app推荐方法
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN105159930A (zh) 搜索关键词的推送方法和装置
CN102609424B (zh) 评价信息抽取方法和设备
CN105069080A (zh) 一种文献检索方法及系统
JP2007072646A (ja) 検索装置、検索方法およびプログラム
CN102609539B (zh) 一种搜索方法和系统
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN105893574B (zh) 一种数据处理方法及电子设备
CN106155998B (zh) 一种数据处理方法及装置
CN104699844A (zh) 为广告确定视频标签的方法及装置
CN109710710A (zh) 兴趣点的事件挖掘方法及其装置
CN106934006B (zh) 基于多叉树模型的页面推荐方法及装置
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant