CN105608072A

CN105608072A - 文本涉及地分析方法及其系统

Info

Publication number: CN105608072A
Application number: CN201510979376.6A
Authority: CN
Inventors: 李晟; 栾江霞; 王备战; 章正道
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-05-25
Anticipated expiration: 2035-12-23
Also published as: CN105608072B

Abstract

本发明公开了一种文本涉及地分析方法及其系统，方法包括提取文本的地域相关名词；将地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；计算地域相关名词在文本中的词频概率，确定地域区划列表中对应的文本涉及地的第一概率；根据地域相关名词及其对应的文本涉及地的语义相关度，获取文本涉及地的语义概率；根据文本所在版块的统计信息或发布人的统计信息中文本涉及地的历史概率，获取文本涉及地的第二概率；根据第一概率、语义概率和第二概率，获取文本涉及地的综合概率；若综合概率大于等于第一预设阈值，则判定文本涉及地为文本的属地；将文本涉及地添加至文本的地域属性标签。本发明可提高文本地域分析判断的准确性。

Description

文本涉及地分析方法及其系统

技术领域

本发明涉及文本分析领域，尤其涉及一种文本涉及地分析方法及其系统。

背景技术

随着网络技术的发展和用户数量的不断增长，网络中产生的数据正经历爆炸式的增长，这对网络数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术，通过相应的技术和方法对文本的语义内容进行分析，归类等一系列操作，主要用于商品推荐，舆情分析，文本搜索等领域。

在舆情分析中，需要对网络中舆情在不同的主题下进行整理和分析，例如不同地域存在的舆情热点和发展趋势。为此，对于发帖内容中所涉及的地域信息进行抽取和判断是舆情分析中一个相对重要的环节。

在地域判断这一个环节中，已存在的技术在通过分词技术提取地域相关名词后，主要通过在地域区划数据查找匹配来判断文本内容的地域属性。

基于区划数据库的方法直观、易实现。然而，该方法的效果却不理想，而且依赖文本中存在对应的地区名称。现实中，网络发帖文本中往往不直接提及区划地域名称，通常只出现一些街道、地标；而同一街道或地标名称可能对应了多个城市。在这种情况下，该方法无法提取和判断文本的地域属性。

在大数据和知识图谱的发展背景下，文本分析有新的研究方向和技术。例如通过知识图谱来对文本进行分析能够取得更好的效果。但由于知识图谱相关技术和应用仍存在效率和易用性上的问题，在实际应用中未被广泛应用。

在申请号为201210581448.8的公开文件中，提出了一种文本分析方法及文本分析器，所述方法包括：对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。但该方法主要分析文本中的实体词，无法分析文本的涉及地。

发明内容

本发明所要解决的技术问题是：提供一种文本涉及地分析方法及其系统，可对文本内容进行分析判断，获取文本属地。

为了解决上述技术问题，本发明采用的技术方案为：一种文本涉及地分析方法，包括

提取文本的地域相关名词；

将所述地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；

计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率；

计算所述地域相关名词及其对应的文本涉及地的语义相关度；根据所述语义相关度，获取所述文本涉及地的语义概率；

获取所述文本所在版块的统计信息或发布人的统计信息；分别获取所述文本涉及地在所述统计信息中的历史概率；根据所述历史概率，获取所述文本涉及地的第二概率；

根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率；

若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地；将所述文本涉及地添加至所述文本的地域属性标签。

本发明还涉及一种文本涉及地分析系统，包括

提取模块，用于提取文本的地域相关名词；

匹配模块，用于将所述地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；

第一确定模块，用于计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率；

第一计算模块，用于计算所述地域相关名词及其对应的文本涉及地的语义相关度；

第一获取模块，用于根据所述语义相关度，获取所述文本涉及地的语义概率；

第二获取模块，用于获取所述文本所在版块的统计信息或发布人的统计信息；

第三获取模块，用于分别获取所述文本涉及地在所述统计信息中的历史概率

第四获取模块，用于根据所述历史概率，获取所述文本涉及地的第二概率；

第五获取模块，用于根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率；

第一判定模块，用于若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地；

第一添加模块，用于将所述文本涉及地添加至所述文本的地域属性标签。

本发明的有益效果在于：对文本所在版块和发布人进行涉及地信息的统计，并将所述统计信息应用于文本的地域判断，所述统计信息能够有效地反映所述版本或人物的地域偏好特性，从而更有效地辅助判断文本的地域属性，提高地域分析判断的准确性；对地域相关名词和涉及地进行语义关联计算，并将所述关联度用于地域判断，通过对包含第一概率、语义概率和第二概率的综合概率进行分析，进一步提高了地域分析判断的准确性。

附图说明

图1为本发明一种文本涉及地分析方法的流程图；

图2为本发明实施例一的方法流程图；

图3为本发明实施例二的方法流程图；

图4为本发明一种文本涉及地分析系统的结构示意图；

图5为本发明实施例三的系统结构示意图；

图6为本发明实施例四的系统结构示意图。

标号说明：

1、提取模块；2、匹配模块；3、第一确定模块；4、第一计算模块；5、第一获取模块；6、第二获取模块；7、第三获取模块；8、第四获取模块；9、第五获取模块；10、第一判定模块；11、第一添加模块；12、第二添加模块；13、更新模块；14、第二确定模块；15、第三确定模块；16、关联模块；17、第一判断模块；18、第二判定模块；19、第二判断模块；20、修改模块。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图详予说明。

本发明最关键的构思在于：依据文本所在版块属地和发布人属地进行涉及地信息的统计，并将统计信息应用于文本的地域判断中。

请参阅图1，一种文本涉及地分析方法，包括

提取文本的地域相关名词；

从上述描述可知，本发明的有益效果在于：根据文本内容获取第一概率，根据文本所在版块的统计信息或发布人的统计信息中的历史概率，获取第二概率，根据地域相关名词及其对应的文本涉及地的语义相关度，获取语义概率，通过判断包含第一概率、第二概率和语义概率的综合概率，可以有效地辅助判断文本的地域属性，提高地域分析判断的准确性。

进一步地，所述“根据所述第一概率、语义概率和第二概率，获取所述涉及地的综合概率”之后，进一步还包括：

若所述综合概率小于预设阈值，则将所述综合概率添加至文本信息；

根据所述文本的地域属性标签或所述文本信息，更新所述文本所在版块的统计信息或发布人的统计信息。

由上述描述可知，将文本的涉及地分析结果以概率的形式存储至文本信息中，并进一步存储至文本所在版块的统计信息或发布人的统计信息中，通过长期的统计，能有效反应该版块或人物的地域偏好特性，从而更有效地辅助判断文本的地域属性。

进一步地，所述“根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率”具体为：

确定所述文本所在版块的属地或发布人的属地；

根据所述文本涉及地与所述属地的关系，确定所述文本涉及地的奖励概率；

根据所述第一概率、语义概率、第二概率和奖励概率，获取所述文本涉及地的综合概率。

进一步地，所述“若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地”之前，进一步还包括：

判断所述文本涉及地的第一概率和奖励概率的和是否大于等于第二预设阈值，若是，则判定所述文本涉及地为所述文本的属地；若否则判断所述综合概率是否大于等于第一预设阈值。

进一步地，所述“根据所述文本涉及地与所述属地的关系，确定所述文本涉及地的奖励概率”具体为：

若所述文本涉及地与所述属地为同一城市，则所述文本涉及地获得第一奖励概率；若所述文本涉及地与所述属地属于同一省份，则所述文本涉及地获得第二奖励概率；所述第一奖励概率大于所述第二奖励概率。

由上述描述可知，通过引入奖励概率，且根据文本涉及地与版块属地或发布人属地的关系强弱，确定具体的奖励概率，进一步提高地域分析判断的准确性。

进一步地，所述“将所述地域相关名词进行地域匹配，得到包含所述文本涉及地的地域区划列表”之前，进一步还包括：将地标和街道与地域区划关联，并对区划、街道和地标数据建立索引。

由上述描述可知，当文本中不直接提及区划地域名称，而只出现一些街道或地标的名称时，也可对文本进行设计地分析判断。

进一步地，所述“将所述文本涉及地添加至所述文本的地域属性标签”之后，进一步还包括：通过反馈信息修改所述地域属性标签。

由上述描述可知，可通过人为反馈修改文本的地域属性标签，进一步提高地域分析判断的准确性。

本发明还提出了一种文本涉及地分析系统，包括

提取模块，用于提取文本的地域相关名词；

进一步地，还包括

第二添加模块，用于若所述综合概率小于第一预设阈值，则将所述综合概率添加至文本信息；

更新模块，用于根据所述文本的地域属性标签或所述文本信息，更新所述文本所在版块的统计信息或发布人的统计信息。

进一步地，还包括

第二确定模块，用于确定所述文本所在版块的属地或发布人的属地；

第三确定模块，用于根据所述文本涉及地与所述属地的关系，确定所述文本涉及地的奖励概率；

所述第五获取模块具体用于根据所述第一概率、语义概率、第二概率和奖励概率，获取所述文本涉及地的综合概率。

实施例一

请参照图1-2，本发明的实施例一为：一种文本涉及地分析方法，包括如下步骤：

S1：对文本进行分词处理，提取文本的地域相关名词；可选地，可采用ANSJ分词方法进行分词，通过加入街道和地标自定义词库，提高分词效果。

S2：将地标和街道与地域区划关联，并对区划、街道和地标数据建立索引。

S3：将所述地域相关名词在数据索引中进行搜索匹配，得到包含文本涉及地的地域区划列表CITY＝{city₁,...city_i,...city_m}。

S4：计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率P_T(city_i)。

S5：计算所述地域相关名词及其对应的文本涉及地的语义相关度；根据所述语义相关度，获取所述文本涉及地的语义概率；进一步地，所述语义相关度Semantic(city_i)通过PMI共现率或Google距离(NGD)计算，所述语义概率根据公式计算，其中m为所述地域区划列表中文本涉及地的个数。

S6：获取所述文本所在版块的统计信息或发布人的统计信息；分别获取所述文本涉及地在所述统计信息中的历史概率；根据所述历史概率，获取所述文本涉及地的第二概率；进一步地，所述第二概率根据公式计算，其中P_G(city_i)为文本涉及地city_i在所述统计信息中的历史概率，m为所述地域区划列表中涉及地的个数。

S7：根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率；进一步地，所述综合概率根据公式

P ({city}_{i}) = \frac{α \cdot P_{T} ({city}_{i}) + β \cdot P_{s e m} ({city}_{i}) + γ \cdot P_{2} ({city}_{i})}{α + β + γ}

计算，其中α,β,γ为权重因子，为保证以文本内容为主要判断依据，设定α>β,γ>0。

S8：判断所述第一概率是否大于等于第三预设阈值，若否，则执行步骤S9，若是，则执行步骤S10。

S9：判断所述综合概率是否大于等于第一预设阈值，若是，则执行步骤S10，若否，则执行步骤S11。

S10：判定所述文本涉及地为所述文本的属地；将所述文本涉及地添加至所述文本的地域属性标签。

S11：将所述综合概率添加至文本信息。

S12：根据所述文本的地域属性标签或所述文本信息，更新所述文本所在版块的统计信息或发布人的统计信息。

可选地，所述第三预设阈值与第一预设阈值相等。

可选地，步骤S10之后，若用户发现文本的属地信息需要更正，可通过反馈的形式修改所述地域属性标签，修改结果也会被更新到统计信息中。

可选地，步骤S8可在步骤S5、S6或S7之前进行，优选地，先执行步骤S8，再根据判断结果执行步骤S5、S6和S7或执行步骤S10。

通过本实施例，可实现对文本涉及地的分析判断。

实施例二

请参照图3，本实施例为实施例一的区别在于，引入了奖励概率。本实施例的步骤S1-S6与实施例一相同，不再累述。

S7：确定所述文本所在版块的属地或发布人的属地，根据所述文本涉及地与所述属地的关系，确定所述文本涉及地的奖励概率Award_G(city_i)；进一步地，若所述文本涉及地与所述属地为同一城市，则所述文本涉及地获得第一奖励概率；若所述文本涉及地与所述属地属于同一省份，则所述文本涉及地获得第二奖励概率；所述第一奖励概率大于所述第二奖励概率；所述第一奖励概率和第二奖励概率大于0，小于0.5；可选地，可通过行政区域代码判断得到奖励概率，例如，若所述文本涉及地和所述属地的行政区域代码的前两位相同，则所述文本涉及地与所述属地属于同一省份，所述文本涉及地可获得第二奖励概率，如0.2，若所述文本涉及地和所述属地的行政区域代码的前四位相同，则所述文本涉及地与所述属地属于同一城市，所述文本涉及地可获得第一奖励概率，如0.4。

S8：根据所述第一概率、语义概率、第二概率和奖励概率，获取所述文本涉及地的综合概率；进一步地，所述综合概率根据公式

P ({city}_{i}) = \frac{α \cdot P_{T} ({city}_{i}) + β \cdot P_{s e m} ({city}_{i}) + γ \cdot P_{2} ({city}_{i})}{α + β + γ} + A {ward}_{G} ({city}_{i})

S9：判断所述第一概率与奖励概率之和是否大于等于第二预设阈值，若否，则执行步骤S10，若是，则执行步骤S11。

S10：判断所述综合概率是否大于等于第一预设阈值，若是，则执行步骤S11，若否，则执行步骤S12。

S11：判定所述文本涉及地为所述文本的属地；将所述文本涉及地添加至所述文本的地域属性标签。

S12：将所述综合概率添加至文本信息。

S13：根据所述文本的地域属性标签或所述文本信息，更新所述文本所在版块的统计信息或发布人的统计信息。

可选地，所述第一预设阈值与第二预设阈值相等。

可选地，步骤S9可在步骤S5、S6、S7或S8之前进行，优选地，先执行步骤S9，再根据判断结果执行步骤S5、S6、S7和S8或执行步骤S11。

通过本实施例，可提高文本涉及地分析判断的准确性。

实施例三

请参照图4-5，本发明的实施例三为：一种文本涉及地分析系统，包括提取模块1、匹配模块2、第一确定模块3、第一计算模块4、第一取模块5、第二获取模块6、第三获取模块7、第四获取模块8、第五获取模块9、第一判定模块10和第一添加模块11；

所述提取模块1用于提取文本的地域相关名词；

所述匹配模块2用于将所述地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；

所述第一确定模块3用于计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率；

所述第一计算模块4用于计算所述地域相关名词及其对应的文本涉及地的语义相关度；

所述第一获取模块5用于根据所述语义相关度，获取所述文本涉及地的语义概率；

所述第二获取模块6用于获取所述文本所在版块的统计信息或发布人的统计信息；

所述第三获取模块7用于分别获取所述文本涉及地在所述统计信息中的历史概率；

所述第四获取模块8用于根据所述历史概率，获取所述文本涉及地的第二概率；

所述第五获取模块9用于根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率；

所述第一判定模块10用于若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地；

所述第一添加模块11用于将所述文本涉及地添加至所述文本的地域属性标签；

还包括第二添加模块12和更新模块13；

所述第二添加模块12用于若所述综合概率小于第一预设阈值，则将所述综合概率添加至文本信息；

所述更新模块13用于根据所述文本的地域属性标签或所述文本信息，更新所述文本所在版块的统计信息或发布人的统计信息；

还包括关联模块16和修改模块20；

所述关联模块16用于将地标和街道与地域区划关联，并对区划、街道和地标数据建立索引；

所述修改模块20用于通过反馈信息修改所述地域属性标签。

实施例四

请参照图6，本实施例为实施例二所述的方法对应的文本涉及地分析系统，是实施例三的改进，相同之处不再累述。

还包括第二确定模块14、第三确定模块15、第一判断模块17、第二判定模块18和第二判断模块19；

所述第二确定模块14用于确定所述文本所在版块的属地或发布人的属地；

所述第三确定模块15用于根据所述文本涉及地与所述属地的关系，确定所述文本涉及地的奖励概率；

所述第五获取模块9具体用于根据所述第一概率、语义概率、第二概率和奖励概率，获取所述文本涉及地的综合概率；

所述第一判断模块17用于判断所述文本涉及地的第一概率和奖励概率的和是否大于等于第二预设阈值，得到第一判断结果；

所述第二判定模块18用于若第一判断结果为是，则判定所述文本涉及地为所述文本的属地；

所述第二判断模块19用于若第一判断结果为否，则判断所述综合概率是否大于等于第一预设阈值，得到第二判断结果。

若第二判断结果为是，则执行第一判定模块10，若第二判断结果为否，则执行第二添加模块12。

综上所述，本发明提供的一种文本涉及地分析方法及其系统，对文本所在版块和发布人进行涉及地信息的统计，并将所述统计信息应用于文本的地域判断，能够有效地反映所述版本或人物的地域偏好特性，从而更有效地辅助判断文本的地域属性，提高地域分析判断的准确性；对地域相关名词和涉及地进行语义关联计算，并将所述关联度用于地域判断，进一步提高了地域分析判断的准确性；通过引入奖励概率，且根据文本涉及地与版块属地或发布人属地的关系强弱，确定具体的奖励概率，从而更有效地辅助判断文本的地域属性；同时可通过人为反馈修改文本的地域属性标签，进一步提高地域分析判断的准确性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本涉及地分析方法，其特征在于：包括

提取文本的地域相关名词；

2.根据权利要求1所述的文本涉及地分析方法，其特征在于：所述“根据所述第一概率、语义概率和第二概率，获取所述涉及地的综合概率”之后，进一步还包括：

3.根据权利要求1所述的文本涉及地分析方法，其特征在于：所述“根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率”具体为：

确定所述文本所在版块的属地或发布人的属地；

4.根据权利要求3所述的文本涉及地分析方法，其特征在于：所述“若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地”之前，进一步还包括：

5.根据权利要求3所述的文本涉及地分析方法，其特征在于：所述“根据所述文本涉及地与所述属地的关系，确定所述文本涉及地的奖励概率”具体为：

6.根据权利要求1所述的文本涉及地分析方法，其特征在于：所述“将所述地域相关名词进行地域匹配，得到包含所述文本涉及地的地域区划列表”之前，进一步还包括：将地标和街道与地域区划关联，并对区划、街道和地标数据建立索引。

7.根据权利要求1所述的文本涉及地分析方法，其特征在于：所述“将所述文本涉及地添加至所述文本的地域属性标签”之后，进一步还包括：通过反馈信息修改所述地域属性标签。

8.一种文本涉及地分析系统，其特征在于：包括

提取模块，用于提取文本的地域相关名词；

9.根据权利要求8所述的文本涉及地分析系统，其特征在于：还包括

10.根据权利要求8所述的文本涉及地分析系统，其特征在于：还包括