CN105404686A - 一种基于地理特征层次分词的新闻事件地名地址匹配方法 - Google Patents

一种基于地理特征层次分词的新闻事件地名地址匹配方法 Download PDF

Info

Publication number
CN105404686A
CN105404686A CN201510916549.XA CN201510916549A CN105404686A CN 105404686 A CN105404686 A CN 105404686A CN 201510916549 A CN201510916549 A CN 201510916549A CN 105404686 A CN105404686 A CN 105404686A
Authority
CN
China
Prior art keywords
chinese
word
place name
character string
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510916549.XA
Other languages
English (en)
Other versions
CN105404686B (zh
Inventor
王艳军
李朝奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Science and Technology
Original Assignee
Hunan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Science and Technology filed Critical Hunan University of Science and Technology
Priority to CN201510916549.XA priority Critical patent/CN105404686B/zh
Publication of CN105404686A publication Critical patent/CN105404686A/zh
Application granted granted Critical
Publication of CN105404686B publication Critical patent/CN105404686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Abstract

本发明公开了一种基于地理特征层次分词的新闻事件地名地址匹配方法,包括以下步骤:构建中文分词数据库、地名地址数据库和地理特征词数据库;获取新闻事件中文段落的地理特征词及其段落位置;对地理特征词的段落位置处的各个中文分词进行地名地址数据匹配与关联判断;将成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置。本发明结合地理信息系统和地名地址匹配算法实现新闻事件在地图上的展示和地理关联,让新闻从文字的一维转变成地理空间位置的二维,以更加直观形象地获取新闻信息,实现新闻事件的自动、准确和快速的地名地址匹配关联。

Description

一种基于地理特征层次分词的新闻事件地名地址匹配方法
技术领域
本发明涉及一种地名地址数据匹配方法,特别涉及一种基于地理特征层次分词的新闻事件地名地址匹配方法。
背景技术
在现实的世界中,人们可以通过多种方式和渠道来获取自己感兴趣的重要信息——新闻事件,比如手机、电脑等电子工具,或报纸、电视等媒体工具。新闻事件也叫“消息”,指对国内外新近发生的具有一定社会价值的人和事实的简要而迅速的报道。
传统方式中,人们主要是通过阅读获取新闻事件的文字描述或图片场景以了解新闻,但是这种方式缺乏现场直观形象、缺少地理位置理解和缺失周边环境掌握,因此是一种匮乏信息的新闻获取方式。
发明内容
为了解决上述技术问题,本发明提供一种能实现网络在线环境新闻事件文本快速抓取、新闻文本中文分词及地名地址匹配的基于地理特征层次分词的新闻事件地名地址匹配方法。
本发明解决上述问题的技术方案是:一种基于地理特征层次分词的新闻事件地名地址匹配方法,包括以下步骤:
(1)构建中文分词数据库、地名地址数据库和地理特征词数据库;
(2)输入网络在线新闻事件的网址链接或文字数据;
(3)从输入的网址链接或文字数据中获取新闻事件信息文字,整合新闻事件信息文字,形成新闻事件中文段落;
(4)确定新闻事件中文段落的地理特征词及其段落位置;
(5)在地理特征词的段落位置处利用正向和逆向中文最大匹配算法得到各个中文分词;
(6)对各个中文分词进行地名地址数据匹配与关联判断,直至新闻事件中文段落的所有字符串都处理完毕;
(7)将所有已经成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置。
上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(1)中,应用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1;结合全国省、市、县、社区街道或村组地址建立地名地址数据库DB2;根据地理关联程度的大小和地理语义相似度的度量,建立地理特征词数据库DB3。
上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(1)中地理特征词数据库DB3的具体建立步骤为:针对某一单词word,其属于DB3的概率设定为p,建立地理关联程度和语义相似度量模型:
p(word∈DB3|n')=1-e-(α+β*n′)
其中n'表示在总数为n次的中文词组地理语义关联实验中,word属于表达地理空间位置相关词组的个数;α和β表示与n'有关的未知参数,p(word∈DB3|n')即为word在观测n次地理空间位置关联个数n'时,word属于地理特征词数据库DB3的概率;
其中未知数α和β根据最大似然估计求出,用观测估计值代替p(word∈DB3|n'),word的地理关联程度和语义相似度量模型变成:
p ^ ( w o r d ∈ D B 3 | n ′ ) = 1 - e - ( α ^ + β ^ * n ′ )
其中是未知数α和β的相应观测估计值,则为word在观测n次地理空间位置关联个数n'时,word单词属于地理特征词数据库的概率估计值,依此最终确定地理特征词数据库。其中的具体计算是先验知识反演过程,即针对某一个特定word,通过多次实际文本中word与地理空间位置关联的统计数据,得到一系列的已知实际观测的n、n'与值,通过最小二乘法即可拟合出公式②中word对应的具体值;
根据公式②求取的word地理关联程度与语义相似度量计算概率,设定n'值为20(此值为满足需求的经验值,数值越大地理关联性也就越强)时,以确定word是否是地理特征词:
w o r d &Element; D B 3 0.5 &le; p ^ ( w o r d &Element; D B 3 | n &prime; ) < 1 w o r d &NotElement; D B 3 0 &le; p ^ ( w o r d &Element; D B 3 | n &prime; ) < 0.5
由公式③即可构建形成地理特征词数据库DB3。
上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(3)中,从输入的网址链接获取新闻事件描述信息,按网页格式转换为文本中文字符串,去掉网页的图片、HTNL标识、脚本语言、CSS样式,整合新闻事件描述信息文本,按照字符串正则匹配提取中文,形成输入新闻事件的中文段落PA。
上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(4)中,针对新闻事件中文段落PA,结合地理特征词数据库DB3,应用哈希字符连接匹配方法,得到中文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。
上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(5)中,在新闻事件中文段落PA位置DLi处标记分割符,将中文段落PA地理特征词所在段落DLi划分为m个分段落PAi,在每个分段落PAi中,以中文分词数据库DB1为基础,分别利用正向和逆向中文最大匹配算法进行扫描,扫描步骤如下:
第一次扫描,从某个分段落PAi中正向和逆向选择DB1中最长词个数n11的字符串str11,将字符串str11与DB1中n11个数词组匹配,若有匹配,则将字符串str11作为一个中文分词CWi1存储,PAi中舍掉字符串str11,继续选择个数n11的字符串str111参与下次扫描匹配;若不匹配,则将字符串str11顺序减去一个字符,构建n12个数的字符串str12参与下次扫描匹配,n12=n11-1;
第二次扫描,若存在待匹配字符串str111,则将字符串str111与DB1中n11个数的词组匹配,若有匹配,则将字符串str111作为一个中文分词CWi2存储,PAi中再次舍掉字符串str111,继续选择个数n11的字符串str112参与下次扫描匹配,若不匹配,则将字符串str111顺序减去一个字符,构建n12个数的字符串str121参与下次扫描匹配;若存在带匹配字符串str12,则将字符串str12与DB1中n12个数的词组匹配,若有匹配,则将字符串str12作为一个中文分词CWi2存储,PAi中再次舍掉字符串str12,继续选择个数n11的字符串str112参与下次扫描匹配,若不匹配,则将字符串str12顺序减去一个字符,构建n13个数的字符串str121参与下次扫描匹配,n13=n12-1;
第三次扫描时,将上次扫描构成字符串str112或str121分别作为新的待匹配字符串,重复执行上述前两次扫描匹配过程;扫描中同时执行正向和逆向扫描过程直到分段落PAi的中文分词全部进行划分和提取时结束;在分段落PAi的正向和逆向扫描相邻接的部分,可能存在不同的中文分词结果,则不同的分词结果都需要进行存储记录;
重复执行上述扫描匹配过程,直到同时执行正向和逆向扫描过程,将每个分段落PAi的中文分词正好全部进行划分和提取时结束,即可确定中文段落PA地理特征词所在段落DLi正向和逆向的各个中文分词CWi。
上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(6)具体步骤为:
1)针对第一个中文分词CW1,以地名地址数据库DB2为基础,应用哈希字符连接匹配方法,以判断中文分词CW1是否为DB2中的地址信息词;
判断过程如下:若根据地名地址数据库DB2信息,能够将单个中文分词CW1和地理位置坐标关联起来,即完成中文分词CW1的地名地址匹配,则中文分词CW1是地址信息词;否则中文分词CW1不是地址信息词,进入下一步骤;
2)将正向逆向中文分词过程得到的下一个分词CWk,以地名地址数据库DB2为基础,应用哈希字符连接匹配方法,以判断中文分词CWk是否为DB2中的地址信息词;
判断过程如下:若根据地名地址数据库DB2信息,能够将中文分词CWk和地理位置坐标关联起来,即完成中文分词CWk的地名地址匹配,则中文分词CWk是地址信息词;否则中文分词CWk不是地址信息词,进行下一步骤;
将所得的中文分词CWk地名地址匹配结果记录,重复执行上述步骤,直到新闻事件中文段落的所有中文分词结果都处理完毕。
本发明的有益效果在于:本发明首先从输入的网址链接形成新闻事件中文段落,然后通过在新闻事件中文段落的地理特征词段落位置处利用正向和逆向中文最大匹配算法得到各个中文分词,再对各个中文分词进行地名地址数据匹配与关联判断,提高匹配新闻地址的精度和效率,获取新闻的数据源,最后将所有成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置,让新闻从文字的一维转变成地理空间位置的二维,以更加直观形象地获取新闻信息,结合地理信息系统和地名地址匹配算法实现新闻事件在地图上的展示和地理关联。
附图说明
图1为本发明的方法流程图。
图2为本发明的具体执行算法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1所示,本发明包括以下步骤:
(1)构建中文分词数据库、地名地址数据库和地理特征词数据库。
应用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1;结合全国省、市、县、社区街道或村组地址建立地名地址数据库DB2;根据地理关联程度的大小和地理语义相似度的度量,建立地理特征词数据库DB3。
地理特征词数据库DB3的具体建立步骤为:针对某一单词word,其属于DB3的概率设定为p,建立地理关联程度和语义相似度量模型:
p(word∈DB3|n')=1-e-(α+β*n′)
其中n'表示在总数为n次的中文词组地理语义关联实验中,word属于表达地理空间位置相关词组的个数;α和β表示与n'有关的未知参数,p(word∈DB3|n')即为word在观测n次地理空间位置关联个数n'时,word属于地理特征词数据库DB3的概率;
实际中,通过多次观测实验形成经验知识,其中未知数α和β根据最大似然估计求出,则可用观测估计值代替p(word∈DB3|n'),word的地理关联程度和语义相似度量模型变成:
p ^ ( w o r d &Element; D B 3 | n &prime; ) = 1 - e - ( &alpha; ^ + &beta; ^ * n &prime; )
其中是未知数α和β的相应观测估计值,则为word在观测n次地理空间位置关联个数n'时,word单词属于地理特征词数据库的概率估计值,依此最终确定地理特征词数据库。其中的具体计算是先验知识反演过程,即针对某一个特定word,通过多次实际文本中word与地理空间位置关联的统计数据,得到一系列的已知实际观测的n、n'与值,通过最小二乘法即可拟合出公式②中word对应的具体值;
根据公式②求取的word地理关联程度与语义相似度量计算概率,设定n'值为20(此值为满足需求的经验值,数值越大地理关联性也就越强)时,以确定word是否是地理特征词:
w o r d &Element; D B 3 0.5 &le; p ^ ( w o r d &Element; D B 3 | n &prime; ) < 1 w o r d &NotElement; D B 3 0 &le; p ^ ( w o r d &Element; D B 3 | n &prime; ) < 0.5
由公式③即可构建形成地理特征词数据库DB3。
(2)输入网络在线新闻事件的网址链接或文字数据。
(3)从输入的网址链接或文字数据中获取新闻事件信息文字,按网页格式转换为文本中文字符串,去掉网页的图片、HTNL标识、脚本语言、CSS样式等无关字符串,保留有用新闻事件描述信息,整合新闻事件描述信息文本,按照字符串正则匹配提取中文,形成输入新闻事件的中文段落PA。
(4)针对新闻事件中文段落PA,结合地理特征词数据库DB3,应用哈希字符连接匹配方法,得到中文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。
(5)在新闻事件中文段落PA位置DLi处标记分割符,将中文段落PA划分为m个分段落PAi,在每个分段落PAi中,以中文分词数据库DB1为基础,分别利用正向和逆向中文最大匹配算法进行扫描,扫描步骤如下:
第一次扫描,从某个分段落PAi中正向和逆向选择DB1中最长词个数n11的字符串str11,将字符串str11与DB1中n11个数词组匹配,若有匹配,则将字符串str11作为一个中文分词CWi1存储,PAi中舍掉字符串str11,继续选择个数n11的字符串str111参与下次扫描匹配;若不匹配,则将字符串str11顺序减去一个字符,构建n12个数的字符串str12参与下次扫描匹配,n12=n11-1;
第二次扫描,若存在待匹配字符串str111,则将字符串str111与DB1中n11个数的词组匹配,若有匹配,则将字符串str111作为一个中文分词CWi2存储,PAi中再次舍掉字符串str111,继续选择个数n11的字符串str112参与下次扫描匹配,若不匹配,则将字符串str111顺序减去一个字符,构建n12个数的字符串str121参与下次扫描匹配;若存在带匹配字符串str12,则将字符串str12与DB1中n12个数的词组匹配,若有匹配,则将字符串str12作为一个中文分词CWi2存储,PAi中再次舍掉字符串str12,继续选择个数n11的字符串str112参与下次扫描匹配,若不匹配,则将字符串str12顺序减去一个字符,构建n13个数的字符串str121参与下次扫描匹配,n13=n12-1;
第三次扫描时,将上次扫描构成字符串str112或str121分别作为新的待匹配字符串,重复执行上述前两次扫描匹配过程;扫描中同时执行正向和逆向扫描过程直到分段落PAi的中文分词全部进行划分和提取时结束;在分段落PAi的正向和逆向扫描相邻接的部分,可能存在不同的中文分词结果,则不同的分词结果都需要进行存储记录;
重复执行上述扫描匹配过程,直到同时执行正向和逆向扫描过程,将每个分段落PAi的中文分词正好全部进行划分和提取时结束,即可确定中文段落PA地理特征词所在段落DLi正向和逆向的各个中文分词CWi。
(6)对各个中文分词进行地名地址数据匹配与关联判断,直至新闻事件中文段落的所有中文分词结果都处理完毕;
具体过程如下:
1)针对第一个中文分词CW1,以地名地址数据库DB2为基础,应用哈希字符连接匹配方法,以判断中文分词CW1是否为DB2中的地址信息词;
判断过程如下:若根据地名地址数据库DB2信息,能够将单个中文分词CW1和地理位置坐标关联起来,即完成中文分词CW1的地名地址匹配,则中文分词CW1是地址信息词;否则中文分词CW1不是地址信息词,进入下一步骤;
2)将正向逆向中文分词过程得到的下一个分词CWk,以地名地址数据库DB2为基础,应用哈希字符连接匹配方法,以判断中文分词CWk是否为DB2中的地址信息词;
判断过程如下:若根据地名地址数据库DB2信息,能够将中文分词CWk和地理位置坐标关联起来,即完成中文分词CWk的地名地址匹配,则中文分词CWk是地址信息词;否则中文分词CWk不是地址信息词,进行下一步骤;
将所得的中文分词CWk地名地址匹配结果记录,重复执行上述步骤,直到新闻事件中文段落的所有中文分词结果都处理完毕。
(7)将所有已经成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置。
以上内容是对本发明所做的进一步详细说明,不能认定本发明的具体实施只限于这些说明。例如,初始的中文段落可以是手工输入或网络新闻复制粘贴的,这样就舍去了网络新闻查找与网页格式转换步骤,但是仍然可以适用于本发明的方法进行新闻事件的地名地址匹配。本领域的技术人员应该理解,在不脱离权利要求书限定的情况下,在细节上进行的各种修改,都应当视为属于本发明的保护范围之内。

Claims (7)

1.一种基于地理特征层次分词的新闻事件地名地址匹配方法,包括以下步骤:
(1)构建中文分词数据库、地名地址数据库和地理特征词数据库;
(2)输入网络在线新闻事件的网址链接或文字数据;
(3)从输入的网址链接或文字数据中获取新闻事件信息文字,整合新闻事件信息文字,形成新闻事件中文段落;
(4)确定新闻事件中文段落的地理特征词及其段落位置;
(5)在地理特征词的段落位置处利用正向和逆向中文最大匹配算法得到各个中文分词;
(6)对各个中文分词进行地名地址数据匹配与关联判断,直至新闻事件中文段落的所有字符串都处理完毕;
(7)将所有已经成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置。
2.根据权利要求1所述的基于地理特征层次分词的新闻事件地名地址匹配方法,其特征在于:所述步骤(1)中,应用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1;结合全国省、市、县、社区街道或村组地址建立地名地址数据库DB2;根据地理关联程度的大小和地理语义相似度的度量,建立地理特征词数据库DB3。
3.根据权利要求2所述的基于地理特征层次分词的新闻事件地名地址匹配方法,其特征在于,所述步骤(1)中地理特征词数据库DB3的具体建立步骤为:针对某一单词word,其属于DB3的概率设定为p,建立地理关联程度和语义相似度量模型:
p(word∈DB3|n')=1-e-(α+β*n′)
其中n'表示在总数为n次的中文词组地理语义关联实验中,word属于表达地理空间位置相关词组的个数;α和β表示与n'有关的未知参数,p(word∈DB3|n')即为word在观测n次地理空间位置关联个数n'时,word属于地理特征词数据库DB3的概率;
其中未知数α和β根据最大似然估计求出,用观测估计值代替p(word∈DB3|n'),word的地理关联程度和语义相似度量模型变成:
其中是未知数α和β的相应观测估计值,则为word在观测n次地理空间位置关联个数n'时,word单词属于地理特征词数据库的概率估计值;
根据公式②求取的word地理关联程度与语义相似度量计算概率,确定word是否是地理特征词:
w o r d &Element; D B 3 0.5 &le; p ^ ( w o r d &Element; D B 3 | n &prime; ) < 1 w o r d &NotElement; D B 3 0 &le; p ^ ( w o r d &Element; D B 3 | n &prime; ) < 0.5
由公式③即可构建形成地理特征词数据库DB3。
4.根据权利要求1所述的基于地理特征层次分词的新闻事件地名地址匹配方法,其特征在于:所述步骤(3)中,从输入的网址链接获取新闻事件描述信息,按网页格式转换为文本中文字符串,去掉网页的图片、HTNL标识、脚本语言、CSS样式,整合新闻事件描述信息文本,按照字符串正则匹配提取中文,形成输入新闻事件的中文段落PA。
5.根据权利要求4所述的基于地理特征层次分词的新闻事件地名地址匹配方法,其特征在于:所述步骤(4)中,针对新闻事件中文段落PA,结合地理特征词数据库DB3,应用哈希字符连接匹配方法,得到中文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。
6.根据权利要求5所述的基于地理特征层次分词的新闻事件地名地址匹配方法,其特征在于:所述步骤(5)中,在新闻事件中文段落PA位置DLi处标记分割符,将中文段落PA地理特征词所在段落DLi划分为m个分段落PAi,在每个分段落PAi中,以中文分词数据库DB1为基础,分别利用正向和逆向中文最大匹配算法进行扫描,扫描步骤如下:
第一次扫描,从某个分段落PAi中正向和逆向选择DB1中最长词个数n11的字符串str11,将字符串str11与DB1中n11个数词组匹配,若有匹配,则将字符串str11作为一个中文分词CWi1存储,PAi中舍掉字符串str11,继续选择个数n11的字符串str111参与下次扫描匹配;若不匹配,则将字符串str11顺序减去一个字符,构建n12个数的字符串str12参与下次扫描匹配,n12=n11-1;
第二次扫描,若存在待匹配字符串str111,则将字符串str111与DB1中n11个数的词组匹配,若有匹配,则将字符串str111作为一个中文分词CWi2存储,PAi中再次舍掉字符串str111,继续选择个数n11的字符串str112参与下次扫描匹配,若不匹配,则将字符串str111顺序减去一个字符,构建n12个数的字符串str121参与下次扫描匹配;若存在带匹配字符串str12,则将字符串str12与DB1中n12个数的词组匹配,若有匹配,则将字符串str12作为一个中文分词CWi2存储,PAi中再次舍掉字符串str12,继续选择个数n11的字符串str112参与下次扫描匹配,若不匹配,则将字符串str12顺序减去一个字符,构建n13个数的字符串str121参与下次扫描匹配,n13=n12-1;
第三次扫描时,将上次扫描构成字符串str112或str121分别作为新的待匹配字符串,重复执行上述前两次扫描匹配过程;扫描中同时执行正向和逆向扫描过程直到分段落PAi的中文分词全部进行划分和提取时结束;在分段落PAi的正向和逆向扫描相邻接的部分,可能存在不同的中文分词结果,则不同的分词结果都需要进行存储记录;
重复执行上述扫描匹配过程,直到同时执行正向和逆向扫描过程,将每个分段落PAi的中文分词正好全部进行划分和提取时结束,即可确定中文段落PA地理特征词所在段落DLi正向和逆向的各个中文分词CWi。
7.根据权利要求6所述的基于地理特征层次分词的新闻事件地名地址匹配方法,其特征在于:所述步骤(6)具体步骤为:
1)针对第一个中文分词CW1,以地名地址数据库DB2为基础,应用哈希字符连接匹配方法,以判断中文分词CW1是否为DB2中的地址信息词;
判断过程如下:若根据地名地址数据库DB2信息,能够将单个中文分词CW1和地理位置坐标关联起来,即完成中文分词CW1的地名地址匹配,则中文分词CW1是地址信息词;否则中文分词CW1不是地址信息词,进入下一步骤;
2)将正向逆向中文分词过程得到的下一个分词CWk,以地名地址数据库DB2为基础,应用哈希字符连接匹配方法,以判断中文分词CWk是否为DB2中的地址信息词;
判断过程如下:若根据地名地址数据库DB2信息,能够将中文分词CWk和地理位置坐标关联起来,即完成中文分词CWk的地名地址匹配,则中文分词CWk是地址信息词;否则中文分词CWk不是地址信息词,进行下一步骤;
将所得的中文分词CWk地名地址匹配结果记录,重复执行上述步骤,直到新闻事件中文段落的所有中文分词结果都处理完毕。
CN201510916549.XA 2015-12-10 2015-12-10 一种基于地理特征层次分词的新闻事件地名地址匹配方法 Active CN105404686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510916549.XA CN105404686B (zh) 2015-12-10 2015-12-10 一种基于地理特征层次分词的新闻事件地名地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510916549.XA CN105404686B (zh) 2015-12-10 2015-12-10 一种基于地理特征层次分词的新闻事件地名地址匹配方法

Publications (2)

Publication Number Publication Date
CN105404686A true CN105404686A (zh) 2016-03-16
CN105404686B CN105404686B (zh) 2018-08-31

Family

ID=55470175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510916549.XA Active CN105404686B (zh) 2015-12-10 2015-12-10 一种基于地理特征层次分词的新闻事件地名地址匹配方法

Country Status (1)

Country Link
CN (1) CN105404686B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153991A (zh) * 2017-04-28 2017-09-12 国网冀北电力有限公司物资分公司 一种财务系统中名称不一致的综合处理方法
CN107368471A (zh) * 2017-06-29 2017-11-21 中国测绘科学研究院 一种网页文本中地名地址的提取方法
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN108153860A (zh) * 2017-12-25 2018-06-12 中译语通科技(青岛)有限公司 一种基于多语言新闻的地理位置分析方法
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108510566A (zh) * 2018-03-29 2018-09-07 中国农业大学 一种应急专题地图的生成方法和系统
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN108876440A (zh) * 2018-05-29 2018-11-23 阿里巴巴集团控股有限公司 区域划分方法和服务器
CN108876687A (zh) * 2018-07-20 2018-11-23 武汉虹信技术服务有限责任公司 一种在电子地图上标注和回溯社区治安事件的系统及方法
CN109862520A (zh) * 2019-01-28 2019-06-07 深圳大学 一种融合空间认知和位置信号检测的室内定位方法及系统
CN109871502A (zh) * 2019-01-18 2019-06-11 北京赛思信安技术股份有限公司 一种基于Storm的流数据正则匹配方法
CN109933797A (zh) * 2019-03-21 2019-06-25 东南大学 基于Jieba分词及地址词库的地理编码方法和系统
CN110222139A (zh) * 2019-06-14 2019-09-10 北京百度网讯科技有限公司 道路实体数据去重方法、装置、计算设备和介质
CN111339338A (zh) * 2020-02-29 2020-06-26 西安理工大学 基于深度学习的文本图片匹配推荐方法
CN112836146A (zh) * 2021-03-09 2021-05-25 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置
CN112882678A (zh) * 2021-03-15 2021-06-01 百度在线网络技术(北京)有限公司 图文处理方法和展示方法、装置、设备和存储介质
WO2022042297A1 (zh) * 2020-08-28 2022-03-03 清华大学 文本聚类方法、装置、电子设备及存储介质
CN112836146B (zh) * 2021-03-09 2024-05-14 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1688852A1 (en) * 2005-02-02 2006-08-09 AT&T Corp. Geocoding method using multidimensional vector spaces
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101794277A (zh) * 2010-03-01 2010-08-04 苏州数字地图网络科技有限公司 一种网络文字信息中嵌入地理标签的方法及系统
CN103390068A (zh) * 2013-08-22 2013-11-13 济南中维世纪科技有限公司 一种新闻检索方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104391852A (zh) * 2014-09-15 2015-03-04 国家电网公司 一种建立关键词词库的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1688852A1 (en) * 2005-02-02 2006-08-09 AT&T Corp. Geocoding method using multidimensional vector spaces
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101794277A (zh) * 2010-03-01 2010-08-04 苏州数字地图网络科技有限公司 一种网络文字信息中嵌入地理标签的方法及系统
CN103390068A (zh) * 2013-08-22 2013-11-13 济南中维世纪科技有限公司 一种新闻检索方法
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
CN104391852A (zh) * 2014-09-15 2015-03-04 国家电网公司 一种建立关键词词库的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"《信息检索与处理》" *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153991A (zh) * 2017-04-28 2017-09-12 国网冀北电力有限公司物资分公司 一种财务系统中名称不一致的综合处理方法
CN107368471B (zh) * 2017-06-29 2020-11-27 中国测绘科学研究院 一种网页文本中地名地址的提取方法
CN107368471A (zh) * 2017-06-29 2017-11-21 中国测绘科学研究院 一种网页文本中地名地址的提取方法
CN107729314A (zh) * 2017-09-29 2018-02-23 东软集团股份有限公司 一种中文时间识别方法、装置及存储介质、程序产品
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108171529B (zh) * 2017-12-04 2021-09-14 昆明理工大学 一种地址相似度评估方法
CN108153860A (zh) * 2017-12-25 2018-06-12 中译语通科技(青岛)有限公司 一种基于多语言新闻的地理位置分析方法
CN108510566A (zh) * 2018-03-29 2018-09-07 中国农业大学 一种应急专题地图的生成方法和系统
CN108628811A (zh) * 2018-04-10 2018-10-09 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN108628811B (zh) * 2018-04-10 2022-04-12 北京京东尚科信息技术有限公司 地址文本的匹配方法和装置
CN108876440B (zh) * 2018-05-29 2021-09-03 创新先进技术有限公司 区域划分方法和服务器
CN108876440A (zh) * 2018-05-29 2018-11-23 阿里巴巴集团控股有限公司 区域划分方法和服务器
CN108876687A (zh) * 2018-07-20 2018-11-23 武汉虹信技术服务有限责任公司 一种在电子地图上标注和回溯社区治安事件的系统及方法
CN109871502B (zh) * 2019-01-18 2020-10-30 北京赛思信安技术股份有限公司 一种基于Storm的流数据正则匹配方法
CN109871502A (zh) * 2019-01-18 2019-06-11 北京赛思信安技术股份有限公司 一种基于Storm的流数据正则匹配方法
CN109862520A (zh) * 2019-01-28 2019-06-07 深圳大学 一种融合空间认知和位置信号检测的室内定位方法及系统
CN109933797A (zh) * 2019-03-21 2019-06-25 东南大学 基于Jieba分词及地址词库的地理编码方法和系统
CN110222139A (zh) * 2019-06-14 2019-09-10 北京百度网讯科技有限公司 道路实体数据去重方法、装置、计算设备和介质
CN111339338A (zh) * 2020-02-29 2020-06-26 西安理工大学 基于深度学习的文本图片匹配推荐方法
CN111339338B (zh) * 2020-02-29 2023-03-07 西安理工大学 基于深度学习的文本图片匹配推荐方法
WO2022042297A1 (zh) * 2020-08-28 2022-03-03 清华大学 文本聚类方法、装置、电子设备及存储介质
CN112836146A (zh) * 2021-03-09 2021-05-25 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置
CN112836146B (zh) * 2021-03-09 2024-05-14 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置
CN112882678A (zh) * 2021-03-15 2021-06-01 百度在线网络技术(北京)有限公司 图文处理方法和展示方法、装置、设备和存储介质
CN112882678B (zh) * 2021-03-15 2024-04-09 百度在线网络技术(北京)有限公司 图文处理方法和展示方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN105404686B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN105404686A (zh) 一种基于地理特征层次分词的新闻事件地名地址匹配方法
Bai et al. Qwen-vl: A frontier large vision-language model with versatile abilities
CN102722709B (zh) 一种垃圾图片识别方法和装置
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN102236693A (zh) 确定文档之间的相似度的方法和设备
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
US9075870B2 (en) System, method and apparatus for detecting related topics and competition topics based on topic templates and association words
CN108595582B (zh) 一种基于社会信号的灾害性气象热点事件识别方法
CN103345496B (zh) 多媒体信息检索方法和系统
WO2022227764A1 (zh) 事件检测的方法、装置、电子设备以及可读存储介质
CN103116893B (zh) 基于多示例多标记学习的数字图像标注方法
CN108376164B (zh) 一种潜力主播的展示方法及装置
CN103699594A (zh) 一种信息推送方法及系统
Tucci et al. Using spatial analysis and geovisualization to reveal urban changes: Milan, Italy, 1737–2005
Saravanou et al. Twitter floods when it rains: a case study of the UK floods in early 2014
WO2015018247A1 (zh) 事件多维度信息显示装置和方法
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
Luo et al. Coverless image steganography based on image segmentation
CN116340548A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN114241501B (zh) 影像文档处理方法、装置及电子设备
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN103678593A (zh) 一种基于空间场景草图描述的交互式空间场景检索方法
CN115203337A (zh) 一种数据库元数据关系知识图谱生成方法
CN106802958A (zh) Cad数据到gis数据的转换方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant