CN105404686A

CN105404686A - 一种基于地理特征层次分词的新闻事件地名地址匹配方法

Info

Publication number: CN105404686A
Application number: CN201510916549.XA
Authority: CN
Inventors: 王艳军; 李朝奎
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-03-16
Anticipated expiration: 2035-12-10
Also published as: CN105404686B

Abstract

本发明公开了一种基于地理特征层次分词的新闻事件地名地址匹配方法，包括以下步骤：构建中文分词数据库、地名地址数据库和地理特征词数据库；获取新闻事件中文段落的地理特征词及其段落位置；对地理特征词的段落位置处的各个中文分词进行地名地址数据匹配与关联判断；将成功匹配的新闻事件中文分词进行位置关联，实现地名地址编码，确定地理坐标位置。本发明结合地理信息系统和地名地址匹配算法实现新闻事件在地图上的展示和地理关联，让新闻从文字的一维转变成地理空间位置的二维，以更加直观形象地获取新闻信息，实现新闻事件的自动、准确和快速的地名地址匹配关联。

Description

一种基于地理特征层次分词的新闻事件地名地址匹配方法

技术领域

本发明涉及一种地名地址数据匹配方法，特别涉及一种基于地理特征层次分词的新闻事件地名地址匹配方法。

背景技术

在现实的世界中，人们可以通过多种方式和渠道来获取自己感兴趣的重要信息——新闻事件，比如手机、电脑等电子工具，或报纸、电视等媒体工具。新闻事件也叫“消息”，指对国内外新近发生的具有一定社会价值的人和事实的简要而迅速的报道。

传统方式中，人们主要是通过阅读获取新闻事件的文字描述或图片场景以了解新闻，但是这种方式缺乏现场直观形象、缺少地理位置理解和缺失周边环境掌握，因此是一种匮乏信息的新闻获取方式。

发明内容

为了解决上述技术问题，本发明提供一种能实现网络在线环境新闻事件文本快速抓取、新闻文本中文分词及地名地址匹配的基于地理特征层次分词的新闻事件地名地址匹配方法。

本发明解决上述问题的技术方案是：一种基于地理特征层次分词的新闻事件地名地址匹配方法，包括以下步骤：

(1)构建中文分词数据库、地名地址数据库和地理特征词数据库；

(2)输入网络在线新闻事件的网址链接或文字数据；

(3)从输入的网址链接或文字数据中获取新闻事件信息文字，整合新闻事件信息文字，形成新闻事件中文段落；

(4)确定新闻事件中文段落的地理特征词及其段落位置；

(5)在地理特征词的段落位置处利用正向和逆向中文最大匹配算法得到各个中文分词；

(6)对各个中文分词进行地名地址数据匹配与关联判断，直至新闻事件中文段落的所有字符串都处理完毕；

(7)将所有已经成功匹配的新闻事件中文分词进行位置关联，实现地名地址编码，确定地理坐标位置。

上述基于地理特征层次分词的新闻事件地名地址匹配方法，所述步骤(1)中，应用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1；结合全国省、市、县、社区街道或村组地址建立地名地址数据库DB2；根据地理关联程度的大小和地理语义相似度的度量，建立地理特征词数据库DB3。

上述基于地理特征层次分词的新闻事件地名地址匹配方法，所述步骤(1)中地理特征词数据库DB3的具体建立步骤为：针对某一单词word，其属于DB3的概率设定为p，建立地理关联程度和语义相似度量模型：

p(word∈DB3|n')＝1-e^{-(α+β*n′)}①

其中n'表示在总数为n次的中文词组地理语义关联实验中，word属于表达地理空间位置相关词组的个数；α和β表示与n'有关的未知参数，p(word∈DB3|n')即为word在观测n次地理空间位置关联个数n'时，word属于地理特征词数据库DB3的概率；

其中未知数α和β根据最大似然估计求出，用观测估计值代替p(word∈DB3|n')，word的地理关联程度和语义相似度量模型变成：

\hat{p} (w o r d &Element; D B 3 | n^{'}) = 1 - e^{- (\hat{α} + \hat{β} * n^{'})}

②

其中和是未知数α和β的相应观测估计值，则为word在观测n次地理空间位置关联个数n'时，word单词属于地理特征词数据库的概率估计值，依此最终确定地理特征词数据库。其中和的具体计算是先验知识反演过程，即针对某一个特定word，通过多次实际文本中word与地理空间位置关联的统计数据，得到一系列的已知实际观测的n、n'与值，通过最小二乘法即可拟合出公式②中word对应的和具体值；

根据公式②求取的word地理关联程度与语义相似度量计算概率，设定n'值为20(此值为满足需求的经验值，数值越大地理关联性也就越强)时，以确定word是否是地理特征词：

\{\begin{matrix} w o r d &Element; D B 3 & 0.5 \leq \hat{p} (w o r d &Element; D B 3 | n^{'}) < 1 \\ w o r d &NotElement; D B 3 & 0 \leq \hat{p} (w o r d &Element; D B 3 | n^{'}) < 0.5 \end{matrix}

③

由公式③即可构建形成地理特征词数据库DB3。

上述基于地理特征层次分词的新闻事件地名地址匹配方法，所述步骤(3)中，从输入的网址链接获取新闻事件描述信息，按网页格式转换为文本中文字符串，去掉网页的图片、HTNL标识、脚本语言、CSS样式，整合新闻事件描述信息文本，按照字符串正则匹配提取中文，形成输入新闻事件的中文段落PA。

上述基于地理特征层次分词的新闻事件地名地址匹配方法，所述步骤(4)中，针对新闻事件中文段落PA，结合地理特征词数据库DB3，应用哈希字符连接匹配方法，得到中文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。

上述基于地理特征层次分词的新闻事件地名地址匹配方法，所述步骤(5)中，在新闻事件中文段落PA位置DLi处标记分割符，将中文段落PA地理特征词所在段落DLi划分为m个分段落PAi，在每个分段落PAi中，以中文分词数据库DB1为基础，分别利用正向和逆向中文最大匹配算法进行扫描，扫描步骤如下：

第一次扫描，从某个分段落PAi中正向和逆向选择DB1中最长词个数n11的字符串str11，将字符串str11与DB1中n11个数词组匹配，若有匹配，则将字符串str11作为一个中文分词CWi₁存储，PAi中舍掉字符串str11，继续选择个数n11的字符串str11₁参与下次扫描匹配；若不匹配，则将字符串str11顺序减去一个字符，构建n12个数的字符串str12参与下次扫描匹配，n12＝n11-1；

第二次扫描，若存在待匹配字符串str11₁，则将字符串str11₁与DB1中n11个数的词组匹配，若有匹配，则将字符串str11₁作为一个中文分词CWi₂存储，PAi中再次舍掉字符串str11₁，继续选择个数n11的字符串str11₂参与下次扫描匹配，若不匹配，则将字符串str11₁顺序减去一个字符，构建n12个数的字符串str12₁参与下次扫描匹配；若存在带匹配字符串str12，则将字符串str12与DB1中n12个数的词组匹配，若有匹配，则将字符串str12作为一个中文分词CWi₂存储，PAi中再次舍掉字符串str12，继续选择个数n11的字符串str11₂参与下次扫描匹配，若不匹配，则将字符串str12顺序减去一个字符，构建n13个数的字符串str12₁参与下次扫描匹配，n13＝n12-1；

第三次扫描时，将上次扫描构成字符串str11₂或str12₁分别作为新的待匹配字符串，重复执行上述前两次扫描匹配过程；扫描中同时执行正向和逆向扫描过程直到分段落PAi的中文分词全部进行划分和提取时结束；在分段落PAi的正向和逆向扫描相邻接的部分，可能存在不同的中文分词结果，则不同的分词结果都需要进行存储记录；

重复执行上述扫描匹配过程，直到同时执行正向和逆向扫描过程，将每个分段落PAi的中文分词正好全部进行划分和提取时结束，即可确定中文段落PA地理特征词所在段落DLi正向和逆向的各个中文分词CWi。

上述基于地理特征层次分词的新闻事件地名地址匹配方法，所述步骤(6)具体步骤为：

1)针对第一个中文分词CW1，以地名地址数据库DB2为基础，应用哈希字符连接匹配方法，以判断中文分词CW1是否为DB2中的地址信息词；

判断过程如下：若根据地名地址数据库DB2信息，能够将单个中文分词CW1和地理位置坐标关联起来，即完成中文分词CW1的地名地址匹配，则中文分词CW1是地址信息词；否则中文分词CW1不是地址信息词，进入下一步骤；

2)将正向逆向中文分词过程得到的下一个分词CWk，以地名地址数据库DB2为基础，应用哈希字符连接匹配方法，以判断中文分词CWk是否为DB2中的地址信息词；

判断过程如下：若根据地名地址数据库DB2信息，能够将中文分词CWk和地理位置坐标关联起来，即完成中文分词CWk的地名地址匹配，则中文分词CWk是地址信息词；否则中文分词CWk不是地址信息词，进行下一步骤；

将所得的中文分词CWk地名地址匹配结果记录，重复执行上述步骤，直到新闻事件中文段落的所有中文分词结果都处理完毕。

本发明的有益效果在于：本发明首先从输入的网址链接形成新闻事件中文段落，然后通过在新闻事件中文段落的地理特征词段落位置处利用正向和逆向中文最大匹配算法得到各个中文分词，再对各个中文分词进行地名地址数据匹配与关联判断，提高匹配新闻地址的精度和效率，获取新闻的数据源，最后将所有成功匹配的新闻事件中文分词进行位置关联，实现地名地址编码，确定地理坐标位置，让新闻从文字的一维转变成地理空间位置的二维，以更加直观形象地获取新闻信息，结合地理信息系统和地名地址匹配算法实现新闻事件在地图上的展示和地理关联。

附图说明

图1为本发明的方法流程图。

图2为本发明的具体执行算法流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1所示，本发明包括以下步骤：

(1)构建中文分词数据库、地名地址数据库和地理特征词数据库。

应用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1；结合全国省、市、县、社区街道或村组地址建立地名地址数据库DB2；根据地理关联程度的大小和地理语义相似度的度量，建立地理特征词数据库DB3。

地理特征词数据库DB3的具体建立步骤为：针对某一单词word，其属于DB3的概率设定为p，建立地理关联程度和语义相似度量模型：

p(word∈DB3|n')＝1-e^{-(α+β*n′)}①

实际中，通过多次观测实验形成经验知识，其中未知数α和β根据最大似然估计求出，则可用观测估计值代替p(word∈DB3|n')，word的地理关联程度和语义相似度量模型变成：

\hat{p} (w o r d &Element; D B 3 | n^{'}) = 1 - e^{- (\hat{α} + \hat{β} * n^{'})}

②

\{\begin{matrix} w o r d &Element; D B 3 & 0.5 \leq \hat{p} (w o r d &Element; D B 3 | n^{'}) < 1 \\ w o r d &NotElement; D B 3 & 0 \leq \hat{p} (w o r d &Element; D B 3 | n^{'}) < 0.5 \end{matrix}

③

由公式③即可构建形成地理特征词数据库DB3。

(2)输入网络在线新闻事件的网址链接或文字数据。

(3)从输入的网址链接或文字数据中获取新闻事件信息文字，按网页格式转换为文本中文字符串，去掉网页的图片、HTNL标识、脚本语言、CSS样式等无关字符串，保留有用新闻事件描述信息，整合新闻事件描述信息文本，按照字符串正则匹配提取中文，形成输入新闻事件的中文段落PA。

(4)针对新闻事件中文段落PA，结合地理特征词数据库DB3，应用哈希字符连接匹配方法，得到中文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。

(5)在新闻事件中文段落PA位置DLi处标记分割符，将中文段落PA划分为m个分段落PAi，在每个分段落PAi中，以中文分词数据库DB1为基础，分别利用正向和逆向中文最大匹配算法进行扫描，扫描步骤如下：

(6)对各个中文分词进行地名地址数据匹配与关联判断，直至新闻事件中文段落的所有中文分词结果都处理完毕；

具体过程如下：

以上内容是对本发明所做的进一步详细说明，不能认定本发明的具体实施只限于这些说明。例如，初始的中文段落可以是手工输入或网络新闻复制粘贴的，这样就舍去了网络新闻查找与网页格式转换步骤，但是仍然可以适用于本发明的方法进行新闻事件的地名地址匹配。本领域的技术人员应该理解，在不脱离权利要求书限定的情况下，在细节上进行的各种修改，都应当视为属于本发明的保护范围之内。

Claims

1.一种基于地理特征层次分词的新闻事件地名地址匹配方法，包括以下步骤：

(2)输入网络在线新闻事件的网址链接或文字数据；

(4)确定新闻事件中文段落的地理特征词及其段落位置；

2.根据权利要求1所述的基于地理特征层次分词的新闻事件地名地址匹配方法，其特征在于：所述步骤(1)中，应用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1；结合全国省、市、县、社区街道或村组地址建立地名地址数据库DB2；根据地理关联程度的大小和地理语义相似度的度量，建立地理特征词数据库DB3。

3.根据权利要求2所述的基于地理特征层次分词的新闻事件地名地址匹配方法，其特征在于，所述步骤(1)中地理特征词数据库DB3的具体建立步骤为：针对某一单词word，其属于DB3的概率设定为p，建立地理关联程度和语义相似度量模型：

p(word∈DB3|n')＝1-e^{-(α+β*n′)}①

其中和是未知数α和β的相应观测估计值，则为word在观测n次地理空间位置关联个数n'时，word单词属于地理特征词数据库的概率估计值；

根据公式②求取的word地理关联程度与语义相似度量计算概率，确定word是否是地理特征词：

\{\begin{matrix} w o r d &Element; D B 3 & 0.5 \leq \hat{p} (w o r d &Element; D B 3 | n^{'}) < 1 \\ w o r d &NotElement; D B 3 & 0 \leq \hat{p} (w o r d &Element; D B 3 | n^{'}) < 0.5 \end{matrix}

③

由公式③即可构建形成地理特征词数据库DB3。

4.根据权利要求1所述的基于地理特征层次分词的新闻事件地名地址匹配方法，其特征在于：所述步骤(3)中，从输入的网址链接获取新闻事件描述信息，按网页格式转换为文本中文字符串，去掉网页的图片、HTNL标识、脚本语言、CSS样式，整合新闻事件描述信息文本，按照字符串正则匹配提取中文，形成输入新闻事件的中文段落PA。

5.根据权利要求4所述的基于地理特征层次分词的新闻事件地名地址匹配方法，其特征在于：所述步骤(4)中，针对新闻事件中文段落PA，结合地理特征词数据库DB3，应用哈希字符连接匹配方法，得到中文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。

6.根据权利要求5所述的基于地理特征层次分词的新闻事件地名地址匹配方法，其特征在于：所述步骤(5)中，在新闻事件中文段落PA位置DLi处标记分割符，将中文段落PA地理特征词所在段落DLi划分为m个分段落PAi，在每个分段落PAi中，以中文分词数据库DB1为基础，分别利用正向和逆向中文最大匹配算法进行扫描，扫描步骤如下：

7.根据权利要求6所述的基于地理特征层次分词的新闻事件地名地址匹配方法，其特征在于：所述步骤(6)具体步骤为：