CN102426603A - 一种文字信息地域识别方法及装置 - Google Patents
一种文字信息地域识别方法及装置 Download PDFInfo
- Publication number
- CN102426603A CN102426603A CN2011103566313A CN201110356631A CN102426603A CN 102426603 A CN102426603 A CN 102426603A CN 2011103566313 A CN2011103566313 A CN 2011103566313A CN 201110356631 A CN201110356631 A CN 201110356631A CN 102426603 A CN102426603 A CN 102426603A
- Authority
- CN
- China
- Prior art keywords
- region
- word
- descriptor
- vector space
- word message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种文字信息地域识别方法及装置,其中识别方法包括步骤:A、获取待进行地域分析的文字信息,构建词向量序列;B、进行地域分层分析,得出地域分层路径;C、进行地域扩展分析,进一步得出相关的地域特征词;D、根据地域分层路径和由地域扩展分析得出的地域特征词,得到最优地域分层路径;E、构建第一主题词向量空间和第二主题词向量空间;F、对第一主题词向量空间和第二主题词向量空间进行相似度计算,根据最优地域分层路径和相似度计算结果判断文字信息所属地域。本发明实现了对信息内容所属地域进行了准确判断,这样不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。
Description
技术领域
本发明涉及互联网信息技术领域,更具体地说,涉及一种文字信息地域识别方法及装置。
背景技术
近年来,互联网成为广大网民提供交流的平台,它的特点是,民众发言摆脱了社会权利体制的管制或限制,可以畅所欲言无所顾忌的表达个人的观点、立场、情绪。但是有些舆论信息具有负面影响,因此应从互联网上进行封堵,以防止其扩散而造成进一步的影响。为有效预防和封堵舆情信息的扩散,必须先分析舆情事件发生的所属地。
目前一般是通过采用分词技术,将相关的舆论信息切分多个词组,与事先定义好的地区词库进行比较,设置匹配阀值,大于该匹配阀值的就判断该文章属于该地区发生的事件。
然而,如果舆论信息中只涉及某个地域名,比如“南山”,这个词在很多城市都有这个地域名,且有些是地区名,有些是路名,有些是村名等,这样通过地区词库匹配的方法就很难准确识别出地域。
另外,对于舆论信息中可能只有一两句涉及地域词库,但信息的中心思想涉及该地域的,比如:信息中是主要描述的是犯罪嫌疑人在深圳的作案,但这个信息是广州日报报道的。
再如,舆论信息中并没有出现地域词,但描述的中心是围绕这个地区进行的等,比如:信息主题描述的是大运会,并没有出现地域词。诸如这样的信息就目前的技术方法是很难准确识别出地域的。
由此可见,现有的技术难以通过分析舆论信息文章内容精确的识别出所归属地,需要不断修正地区词库的分级方式和地区匹配算法来改进。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种文字信息地域识别方法及装置。
本发明解决其技术问题所采用的技术方案是:
构造一种文字信息地域识别方法,其中,包括以下步骤:
A、获取待进行地域分析的文字信息,对所述文字信息进行分词,构建成由所述文字信息中的多个特征词语构成的词向量序列,并存储;
B、查询地域分层词典数据库,根据所述地域分层词典数据库对所述词向量序列中的特征词语进行层级分析,得出由所述特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,所述地域分层词典数据库中包含有不同层级的地域路径信息;
C、查询地域扩充词典数据库,根据所述地域扩充词典数据库对所述词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储,其中,所述地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;
D、根据所述地域分层路径和由所述地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;
E、根据所述最优地域分层路径提取地域特征信息片段,对所述地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取所述文字信息的主题词,构建成第二主题词向量空间,存储所述第一主题词向量空间和所述第二主题词向量空间;
F、对所述第一主题词向量空间和所述第二主题词向量空间进行相似度计算,根据所述最优地域分层路径和相似度计算结果判断所述文字信息所属地域。
本发明所述的文字信息地域识别方法,其中,所述步骤A具体包括:
对所述文字信息进行中文分词,过滤其中的非词语和干扰词;
统计剩下各个词语的词频;
统计剩下各个词语在所述文字信息中的位置;
根据每个所述词语的词频和在所述文字信息中的位置信息构建成所述词向量序列;
存储所述词向量序列。
本发明所述的文字信息地域识别方法,其中,所述步骤B具体包括:
查询所述地域分层词典数据库;
根据所述地域分层词典数据库,提取所述词向量序列中的地域词汇;
根据所提取的地域词汇形成所述地域分层路径;
存储所述地域分层路径。
本发明所述的文字信息地域识别方法,其中,所述步骤C具体包括:
查询所述地域扩充词典数据库;
在所述地域扩充词典数据库中查找所述词向量序列中的非地域词语,进行地域扩展分析,得出与所述非地域词语相关联的地域特征词;
存储所述地域特征词。
本发明所述的文字信息地域识别方法,其中,所述步骤E具体包括:
提取所述最优地域分层路径在所述文字信息中的上下文信息,得到所述地域特征信息片段;
提取所述地域特征信息片段中的主题词,构建成由多个词语向量构成的所述第一主题词向量空间;
对所述文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的所述第二主题词向量空间;
存储所述第一主题词向量空间和所述第二主题词向量空间。
本发明还提供了一种文字信息地域识别装置,其中,包括:
词向量序列产生模块,用于获取待进行地域分析的文字信息,对所述文字信息进行分词,构建成由所述文字信息中的多个特征词语构成的词向量序列,并存储;
地域分层分析模块,用于查询地域分层词典数据库,并根据所述地域分层词典数据库对所述词向量序列中的特征词语进行层级分析,得出由所述特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,所述地域分层词典数据库中包含有不同层级的地域路径信息;
地域扩展分析模块,用于查询地域扩充词典数据库,并根据所述地域扩充词典数据库对所述词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储,其中,所述地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;
最优路径产生模块,用于根据所述地域分层路径和由所述地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;
向量空间产生模块,用于根据所述最优地域分层路径提取地域特征信息片段,对所述地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取所述文字信息的主题词,构建成第二主题词向量空间,存储所述第一主题词向量空间和所述第二主题词向量空间;
所属地判断模块,用于对所述第一主题词向量空间和所述第二主题词向量空间进行相似度计算,根据所述最优地域分层路径和相似度计算结果判断所述文字信息所属地域。
本发明所述的文字信息地域识别装置,其中,所述词向量序列产生模块包括:
词语过滤单元,用于对所述文字信息进行中文分词,过滤其中的非词语和干扰词;
词频统计单元,用于统计剩下各个词语的词频;
位置信息统计单元,用于统计剩下各个词语在所述文字信息中的位置;
向量产生单元,用于根据每个所述词语的词频和在所述文字信息中的位置信息构建成所述词向量序列;
词向量序列存储单元,用于存储所述词向量序列。
本发明所述的文字信息地域识别装置,其中,所述地域分层分析模块包括:
分层查询单元,用于查询所述地域分层词典数据库;
地域词提取单元,用于根据所述地域分层词典数据库,提取所述词向量序列中的地域词汇;
分层路径产生单元,用于根据所提取的地域词汇形成所述地域分层路径;
分层路径存储单元,用于存储所述地域分层路径。
本发明所述的文字信息地域识别装置,其中,所述地域扩展分析模块包括:
扩充查询单元,用于查询所述地域扩充词典数据库;
扩充分析单元,用于在所述地域扩充词典数据库中查找所述词向量序列中的非地域词语,进行地域扩展分析,得出与所述非地域词语相关联的地域特征词;
特征词存储单元,用于存储所述地域特征词。
本发明所述的文字信息地域识别装置,其中,所述向量空间产生模块包括:
地域片段提取单元,用于提取所述最优地域分层路径在所述文字信息中的上下文信息,得到所述地域特征信息片段;
第一向量空间构建单元,用于提取所述地域特征信息片段中的主题词,构建成由多个词语向量构成的所述第一主题词向量空间;
第二向量空间构建单元,用于对所述文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的所述第二主题词向量空间;
向量空间存储单元,用于存储所述第一主题词向量空间和所述第二主题词向量空间。
本发明的有益效果在于:通过在已有地域词典数据库的基础上构建地域分层词典数据库和地域扩充词典数据库,并利用地域分层词典数据库和地域扩充词典数据库对从待进行地域分析的文字信息中提取的词向量序列进行地域分层分析和地域扩展分析,通过地域分层分析得出地域相关信息,同时通过地域扩充词来延伸对地域的识别,最后找出一条最优地域分层路径,并提取相应的信息片段与信息主题进行相似度计算来判断信息是否具有明显的地域特征,实现了对信息内容所属地域进行了准确判断。这样不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明较佳实施例的文字信息地域识别方法流程图;
图2是本发明较佳实施例的文字信息地域识别方法中词向量序列构建流程图;
图3是本发明较佳实施例的文字信息地域识别方法中地域分层分析流程图;
图4是本发明较佳实施例的文字信息地域识别方法中地域扩展分析流程图;
图5是本发明较佳实施例的文字信息地域识别方法中主题词向量空间构建流程图;
图6是本发明较佳实施例的文字信息地域识别装置原理框图;
图7是本发明较佳实施例的文字信息地域识别装置中词向量序列产生模块原理框图;
图8是本发明较佳实施例的文字信息地域识别装置中地域分层分析模块原理框图;
图9是本发明较佳实施例的文字信息地域识别装置中地域扩展分析模块原理框图;
图10是本发明较佳实施例的文字信息地域识别装置中向量空间产生模块原理框图。
具体实施方式
本发明较佳实施例的文字信息地域识别方法S100流程图如图1所示,该方法S100用于对文字信息进行地域信息识别,判断出被分析的文字信息中所传达的事件所发生的地域,可以采用软件实现,也可以采用硬件实现。其中,方法S100始于步骤S110。
在步骤S120中,获取待进行地域分析的文字信息,对文字信息进行分词,构建成由文字信息中的多个特征词语构成的词向量序列,并存储。一段文字信息中包括多个词语,有名词、动词、冠词、形容词等等,其中名词又可以分为表示地名的、表示人名的等等,要想从一段文字信息中分析出所传达的事件所发生的地域,必须对上述文字信息的词语进行逐一分析,如图2所示,具体包括:步骤S121,对文字信息进行中文分词,过滤其中的非词语和干扰词;步骤S122,统计剩下各个词语的词频;步骤S123,统计剩下各个词语在文字信息中的位置;步骤S124,根据每个词语的词频和在文字信息中的位置信息构建成词向量序列;存储词向量序列。
其中,非词语包括文字信息中的标点符号等,干扰词包括文字信息中的动词、冠词等,根据这些无法得出其地域信息,因此应过滤掉。但是对于有一些特定的干扰词,例如同时代表地名和某一建筑物名称、或其他意思的名词,其具有多个含义,因此应进一步对其进行分析,判断其在本文字信息中所表达的确切含义,如果是表达地名,则可以保留,如果是除地名外的其他意思,则应过滤掉。词语的词频可以反映出该词语在文字信息中的重要性,词语在文字信息中的位置信息可以确定所得出词向量序列的词语排列顺序,通过这两个信息可提炼出文字信息所要传达的主要事件,可由向量计算公式来计算出最后的词向量序列,具体计算过程在此不详细描述。
在步骤S130中,查询地域分层词典数据库,并根据地域分层词典数据库对词向量序列中的特征词语进行层级分析,得出由特征词语中的不同层级地域特征词构成的地域分层路径,并存储。其中,地域分层词典数据库中包含有不同层级的地域路径信息,可以是根据行政区划来划分的层级,并可以用不同的权重值来对不同长短路径信息进行标识。如图3所示,该步骤具体包括:步骤S131、查询地域分层词典数据库;步骤S132、根据地域分层词典数据库,提取词向量序列中的地域词汇;步骤S133、根据所提取的地域词汇形成地域分层路径;步骤S134、存储地域分层路径。即,遍历地域分层词典数据库,将上述词向量序列中的词语与地域分层词典数据库中的词语进行对比分析,排除非地域词,提取其中的地域词汇,形成地域分层路径。该地域分层路径中所包含的仅仅是文字信息中存在的明显的地域词,但并不一定就能根据此判断出文字信息所传达的地域属性,因此还要根据其他非地域词进行进一步的分析判断,即执行步骤S140。
在步骤S140中,查询地域扩充词典数据库,并根据地域扩充词典数据库对词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储。如图4所示,具体包括:步骤S141、查询地域扩充词典数据库;步骤S142、在地域扩充词典数据库中查找词向量序列中的非地域词语,进行地域扩展分析,得出与非地域词语相关联的地域特征词;步骤S143、存储地域特征词。
其中,地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息。例如,20路公交车仅在深圳南山区内运行,则非地域词语“公交车”、“20路”,可以作为地域词语“南山”的相关非地域词语在地域词语扩充词典数据库中进行存储。在查询时,可以将“公交车”、“20路”作为关键词,遍历地域扩充词典数据库进行查找,最终得到与其相关联的地域词“南山”,而原文字信息中可能并未出现过“南山”,因此可以进一步扩充地域特征词。
在步骤S150中,根据地域分层路径和由地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储。具体地,可以是将由地域扩展分析得出的地域特征词简单的加入到地域分层路径中,得到最优地域分层路径,也可以对地域分层路径和由地域扩展分析得出的地域特征词进行进一步的判断,判断其是否有明显的地域特征,如果有,则找出更加优化、完整的地域分层路径。
在步骤S160中,根据最优地域分层路径提取地域特征信息片段,对地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取文字信息的主题词,构建成第二主题词向量空间,存储第一主题词向量空间和第二主题词向量空间。如图5所示,具体包括:步骤S161、提取最优地域分层路径在文字信息中的上下文信息,得到地域特征信息片段;即将步骤S150中所得到的最优地域分层路径放回到原文字信息中,摘取其相关的上下文作为地域特征信息片段,以便于进一步分析;步骤S162、提取地域特征信息片段中的主题词,构建成由多个词语向量构成的第一主题词向量空间;其中地域特征信息片段中的主题词可以有多个,包括动词、名词等等,以便于得到更多的信息,具体提取方法可以根据实际情况设置;步骤S163、对文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的第二主题词向量空间;其中文字信息中的主题词则可以包含更多,如名词、动词等;步骤S164、存储第一主题词向量空间和第二主题词向量空间。
在步骤S170中,对上述第一主题词向量空间和第二主题词向量空间进行相似度计算,根据最优地域分层路径和相似度计算结果判断文字信息所属地域。其中,相似度计算方法可以采用多种向量计算方法,例如余弦定理等,在此不一一赘述。对于相似度计算结果,可以根据实际情况设置特定的阈值大小,在超过该阈值时,则认为相似度较高,可以得出文字信息所传达事件的所属地即为上述最优地域分层路径所表示的地域。
上述方法S100结束于步骤S180。通过采用上述方法S100可以实现对信息内容所属地域进行了准确判断,这样不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。
下面通过一个具体的例子对上述文字信息地域识别方法S100进行详细描述。例如,在广州某日报上报道了一则关于上访的新闻。采用上述方法S100对该则新闻文字信息进行分析,首先将该段文字信息进行中文分词,即将该段文字分为多个词语,然后过滤掉其中的非词语和干扰词,统计剩下词语的词频和在文字信息中的位置信息,进行向量计算,最终得到了词向量序列为:李某乘20路公交车去深圳信访局上访。然后对该词向量序列进行地域分层分析,查询地域分层词典数据库,得到其中的地域词汇有“深圳”和“信访局”,因此得到地域分层路径:深圳-信访局。再对上述词向量序列进行地域扩展分析,即将上述词向量序列中的非地域词“李某”、“20路”、“公交车”在地域扩充词典数据库中进行查询,正好在地域扩充词典数据库中存储有与深圳的南山地区相关联的非地域词汇“20路-公交车”,因此进一步得到地域词汇“南山”,另外在地域扩充词典数据库中,还存储有深圳“信访局”的详细地址,因此可以对“信访局”进行进一步的扩充。然后再根据上述地域扩展分析结果,结合地域分层分析结果,得到最优地域分层路径:深圳-南山--信访局---信访局的详细地址。再将该最优地域分层路径放回到原新闻文字信息中,截取上下文信息,再提取该上下文信息中的主题词,构成第一主题词向量空间,再提取全文信息中的主题词,构成第二主题词向量空间,并对该第一主题词向量空间和第二主题词向量空间进行相似度计算,在该第一主题词向量空间和第二主题词向量空间中,均包含关键词“上访”,正好与所得到的哦最优地域分层路径中传达的地域信息相符合,因此可以判断该段新闻信息所描述事件发生地区为:深圳-南山--信访局。或者,也可以通过信访局的详细地址进一步确认之前信息确认的一致性问题,这样通过对地域地不断扩展和效验,以及文中主题思想的提取是:上访,相似度符合要求,判断该段新闻信息所描述事件发生地区为:深圳-南山--信访局,这样就完成了一个完整的地域识别。这就解决了单纯地域词典匹配的不足、以及识别地域与主题不相关的问题。
在本发明另一实施例中,还提供了一种文字信息地域识别装置,如图6所示,包括:词向量序列产生模块10、地域分层分析模块20、地域扩展分析模块30、最优路径产生模块40、向量空间产生模块50和所属地判断模块60。上述各模块可以采用硬件实现。
其中,词向量序列产生模块10,用于获取待进行地域分析的文字信息,对文字信息进行分词,构建成由文字信息中的多个特征词语构成的词向量序列,并存储;地域分层分析模块20,用于查询地域分层词典数据库,并根据地域分层词典数据库对词向量序列中的特征词语进行层级分析,得出由特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,地域分层词典数据库中包含有用不同权重标识出不同层级的地域路径信息;地域扩展分析模块30,用于查询地域扩充词典数据库,并根据地域扩充词典数据库对词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储,其中,地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;最优路径产生模块40,用于根据地域分层路径和由地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;向量空间产生模块50,用于根据最优地域分层路径提取地域特征信息片段,对地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取文字信息的主题词,构建成第二主题词向量空间,存储第一主题词向量空间和第二主题词向量空间;所属地判断模块60,用于对第一主题词向量空间和第二主题词向量空间进行相似度计算,根据最优地域分层路径和相似度计算结果判断文字信息所属地域。
其中,相似度计算方法可以采用多种向量计算方法,例如余弦定理等,在此不一一赘述。对于相似度计算结果,可以根据实际情况设置特定的阈值大小,在超过该阈值时,则认为相似度较高,可以得出文字信息所传达事件的所属地即为上述最优地域分层路径所表示的地域。这样通过采用上述文字信息地域识别装置可以实现对信息内容所属地域进行了准确判断,不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。
在进一步的实施例中,如图7所示,上述文字信息地域识别装置的词向量序列产生模块10包括:词语过滤单元11,用于对文字信息进行中文分词,过滤其中的非词语和干扰词;词频统计单元12,用于统计剩下各个词语的词频;位置信息统计单元13,用于统计剩下各个词语在文字信息中的位置;向量产生单元14,用于根据每个词语的词频和在文字信息中的位置信息构建成词向量序列;词向量序列存储单元15,用于存储词向量序列。一段文字信息中包括多个词语,有名词、动词、冠词、形容词等等,其中名词又可以分为表示地名的、表示人名的等等,要想从一段文字信息中分析出所传达的事件所发生的地域,必须对上述文字信息的词语进行逐一分析。
其中,上述被过滤掉的非词语包括文字信息中的标点符号等,干扰词包括文字信息中的动词、冠词等,根据这些无法得出其地域信息,因此应过滤掉。但是对于有一些特定的干扰词,例如同时代表地名和某一建筑物名称、或其他意思的名词,其具有多个含义,因此应进一步对其进行分析,判断其在本文字信息中所表达的确切含义,如果是表达地名,则可以保留,如果是除地名外的其他意思,则应过滤掉。词语的词频可以反映出该词语在文字信息中的重要性,词语在文字信息中的位置信息可以确定所得出词向量序列的词语排列顺序,通过这两个信息可提炼出文字信息所要传达的主要事件,可由向量计算公式来计算出最后的词向量序列,具体计算过程在此不详细描述。
在进一步的实施例中,如图8所示,上述文字信息地域识别装置的地域分层分析模块20包括:分层查询单元21,用于查询地域分层词典数据库;地域词提取单元22,用于根据地域分层词典数据库,提取词向量序列中的地域词汇;分层路径产生单元23,用于根据所提取的地域词汇形成地域分层路径;分层路径存储单元24,用于存储地域分层路径。即,遍历地域分层词典数据库,将上述词向量序列中的词语与地域分层词典数据库中的词语进行对比分析,排除非地域词,提取其中的地域词汇,形成地域分层路径。其中,地域分层词典数据库中的地域路径信息可以是根据行政区划来划分的层级,并可以用不同的权重值来对不同长短路径信息进行标识。所形成的地域分层路径中所包含的仅仅是文字信息中存在的明显的地域词,但并不一定就能根据此判断出文字信息所传达的地域属性,因此还要根据其他非地域词进行进一步的分析判断。
在进一步的实施例中,如图9所述,上述文字信息地域识别装置的地域扩展分析模块30包括:扩充查询单元31,用于查询地域扩充词典数据库;扩充分析单元32,用于在地域扩充词典数据库中查找词向量序列中的非地域词语,进行地域扩展分析,得出与非地域词语相关联的地域特征词;特征词存储单元33,用于存储地域特征词。其中,地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息。例如,20路公交车仅在深圳南山区内运行,则非地域词语“公交车”、“20路”,可以作为地域词语“南山”的相关非地域词语在地域词语扩充词典数据库中进行存储。在查询时,可以将“公交车”、“20路”作为关键词,遍历地域扩充词典数据库进行查找,最终得到与其相关联的地域词“南山”,而原文字信息中可能并未出现过“南山”,因此可以进一步扩充地域特征词。
在进一步的实施例中,如图10所示,上述文字信息地域识别装置的向量空间产生模块50包括:地域片段提取单元51,用于提取最优地域分层路径在文字信息中的上下文信息,得到地域特征信息片段;即将所得到的最优地域分层路径放回到原文字信息中,摘取其相关的上下文作为地域特征信息片段,以便于进一步分析;还包括第一向量空间构建单元52,用于提取地域特征信息片段中的主题词,构建成由多个词语向量构成的第一主题词向量空间;还包括第二向量空间构建单元53,用于对文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的第二主题词向量空间;还包括向量空间存储单元54,用于存储第一主题词向量空间和第二主题词向量空间。其中,上述地域特征信息片段中的主题词可以有多个,包括动词、名词等等,以便于得到更多的信息,具体提取方法可以根据实际情况设置;上述文字信息中的主题词则可以包含更多,如名词、动词等。
综上所述,本发明通过在已有地域词典数据库的基础上构建地域分层词典数据库和地域扩充词典数据库,并利用地域分层词典数据库和地域扩充词典数据库对从待进行地域分析的文字信息中提取的词向量序列进行地域分层分析和地域扩展分析,通过地域分层分析得出地域相关信息,同时通过地域扩充词来延伸对地域的识别,最后找出一条最优地域分层路径,并提取相应的信息片段与信息主题进行相似度计算来判断信息是否具有明显的地域特征,实现了对信息内容所属地域进行了准确判断。这样不但判断更加准确,地域层次分明详细,还能排除与信息主题无关的地域特征词信息。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种文字信息地域识别方法,其特征在于,包括以下步骤:
A、获取待进行地域分析的文字信息,对所述文字信息进行分词,构建成由所述文字信息中的多个特征词语构成的词向量序列,并存储;
B、查询地域分层词典数据库,根据所述地域分层词典数据库对所述词向量序列中的特征词语进行层级分析,得出由所述特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,所述地域分层词典数据库中包含有不同层级的地域路径信息;
C、查询地域扩充词典数据库,根据所述地域扩充词典数据库对所述词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储,其中,所述地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;
D、根据所述地域分层路径和由所述地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;
E、根据所述最优地域分层路径提取地域特征信息片段,对所述地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取所述文字信息的主题词,构建成第二主题词向量空间,存储所述第一主题词向量空间和所述第二主题词向量空间;
F、对所述第一主题词向量空间和所述第二主题词向量空间进行相似度计算,根据所述最优地域分层路径和相似度计算结果判断所述文字信息所属地域。
2.根据权利要求1所述的文字信息地域识别方法,其特征在于,所述步骤A具体包括:
对所述文字信息进行中文分词,过滤其中的非词语和干扰词;
统计剩下各个词语的词频;
统计剩下各个词语在所述文字信息中的位置;
根据每个所述词语的词频和在所述文字信息中的位置信息构建成所述词向量序列;
存储所述词向量序列。
3.根据权利要求1所述的文字信息地域识别方法,其特征在于,所述步骤B具体包括:
查询所述地域分层词典数据库;
根据所述地域分层词典数据库,提取所述词向量序列中的地域词汇;
根据所提取的地域词汇形成所述地域分层路径;
存储所述地域分层路径。
4.根据权利要求1所述的文字信息地域识别方法,其特征在于,所述步骤C具体包括:
查询所述地域扩充词典数据库;
在所述地域扩充词典数据库中查找所述词向量序列中的非地域词语,进行地域扩展分析,得出与所述非地域词语相关联的地域特征词;
存储所述地域特征词。
5.根据权利要求1所述的文字信息地域识别方法,其特征在于,所述步骤E具体包括:
提取所述最优地域分层路径在所述文字信息中的上下文信息,得到所述地域特征信息片段;
提取所述地域特征信息片段中的主题词,构建成由多个词语向量构成的所述第一主题词向量空间;
对所述文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的所述第二主题词向量空间;
存储所述第一主题词向量空间和所述第二主题词向量空间。
6.一种文字信息地域识别装置,其特征在于,包括:
词向量序列产生模块,用于获取待进行地域分析的文字信息,对所述文字信息进行分词,构建成由所述文字信息中的多个特征词语构成的词向量序列,并存储;
地域分层分析模块,用于查询地域分层词典数据库,并根据所述地域分层词典数据库对所述词向量序列中的特征词语进行层级分析,得出由所述特征词语中的不同层级地域特征词构成的地域分层路径,并存储,其中,所述地域分层词典数据库中包含有不同层级的地域路径信息;
地域扩展分析模块,用于查询地域扩充词典数据库,并根据所述地域扩充词典数据库对所述词向量序列中的特征词语进行地域扩展分析,进一步得出相关的地域特征词,并存储,其中,所述地域扩充词典数据库中包含有与不同地域特征词相关的非地域词语信息;
最优路径产生模块,用于根据所述地域分层路径和由所述地域扩展分析得出的地域特征词,得到最优地域分层路径,并存储;
向量空间产生模块,用于根据所述最优地域分层路径提取地域特征信息片段,对所述地域特征信息片段提取主题词,构建成第一主题词向量空间,并提取所述文字信息的主题词,构建成第二主题词向量空间,存储所述第一主题词向量空间和所述第二主题词向量空间;
所属地判断模块,用于对所述第一主题词向量空间和所述第二主题词向量空间进行相似度计算,根据所述最优地域分层路径和相似度计算结果判断所述文字信息所属地域。
7.根据权利要求6所述的文字信息地域识别装置,其特征在于,所述词向量序列产生模块包括:
词语过滤单元,用于对所述文字信息进行中文分词,过滤其中的非词语和干扰词;
词频统计单元,用于统计剩下各个词语的词频;
位置信息统计单元,用于统计剩下各个词语在所述文字信息中的位置;
向量产生单元,用于根据每个所述词语的词频和在所述文字信息中的位置信息构建成所述词向量序列;
词向量序列存储单元,用于存储所述词向量序列。
8.根据权利要求6所述的文字信息地域识别装置,其特征在于,所述地域分层分析模块包括:
分层查询单元,用于查询所述地域分层词典数据库;
地域词提取单元,用于根据所述地域分层词典数据库,提取所述词向量序列中的地域词汇;
分层路径产生单元,用于根据所提取的地域词汇形成所述地域分层路径;
分层路径存储单元,用于存储所述地域分层路径。
9.根据权利要求6所述的文字信息地域识别装置,其特征在于,所述地域扩展分析模块包括:
扩充查询单元,用于查询所述地域扩充词典数据库;
扩充分析单元,用于在所述地域扩充词典数据库中查找所述词向量序列中的非地域词语,进行地域扩展分析,得出与所述非地域词语相关联的地域特征词;
特征词存储单元,用于存储所述地域特征词。
10.根据权利要求6所述的文字信息地域识别装置,其特征在于,所述向量空间产生模块包括:
地域片段提取单元,用于提取所述最优地域分层路径在所述文字信息中的上下文信息,得到所述地域特征信息片段;
第一向量空间构建单元,用于提取所述地域特征信息片段中的主题词,构建成由多个词语向量构成的所述第一主题词向量空间;
第二向量空间构建单元,用于对所述文字信息整体进行分析,并提取其中的主题词,构建成由多个词语向量构成的所述第二主题词向量空间;
向量空间存储单元,用于存储所述第一主题词向量空间和所述第二主题词向量空间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110356631.3A CN102426603B (zh) | 2011-11-11 | 2011-11-11 | 一种文字信息地域识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110356631.3A CN102426603B (zh) | 2011-11-11 | 2011-11-11 | 一种文字信息地域识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102426603A true CN102426603A (zh) | 2012-04-25 |
CN102426603B CN102426603B (zh) | 2014-06-18 |
Family
ID=45960583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110356631.3A Active CN102426603B (zh) | 2011-11-11 | 2011-11-11 | 一种文字信息地域识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102426603B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020038A (zh) * | 2012-12-25 | 2013-04-03 | 人民搜索网络股份公司 | 一种网络舆情地域相关度的计算方法 |
CN103064951A (zh) * | 2012-12-31 | 2013-04-24 | 南京烽火星空通信发展有限公司 | 一种舆情信息的地域识别方法和装置 |
CN103455596A (zh) * | 2013-09-02 | 2013-12-18 | 广东省计算中心 | 一种基于大数据的科技项目立项评估的方法 |
WO2014000518A1 (zh) * | 2012-06-26 | 2014-01-03 | 北京奇虎科技有限公司 | 一种舆情信息展示系统及方法 |
CN103853738A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
CN105159949A (zh) * | 2015-08-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 一种中文地址分词方法及系统 |
CN105608072A (zh) * | 2015-12-23 | 2016-05-25 | 厦门市美亚柏科信息股份有限公司 | 文本涉及地分析方法及其系统 |
CN106528748A (zh) * | 2016-10-27 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 一种用于确定地域词库的方法与装置 |
CN106886512A (zh) * | 2015-12-15 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 文章分类方法和装置 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN111045998A (zh) * | 2019-12-16 | 2020-04-21 | 北京智游网安科技有限公司 | 一种应用程序所属区域统计方法、系统及存储介质 |
CN112069824A (zh) * | 2020-11-11 | 2020-12-11 | 北京智慧星光信息技术有限公司 | 基于上下文概率和引证的地域识别方法、装置及介质 |
WO2021218027A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 智能面试中专业术语的提取方法、装置、设备及介质 |
WO2021241603A1 (ja) * | 2020-05-28 | 2021-12-02 | Jfeスチール株式会社 | 情報検索システム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113984A (ja) * | 2004-10-18 | 2006-04-27 | Sony Corp | 情報提供システム,メタデータ収集解析サーバ,およびコンピュータプログラム |
CN101127050A (zh) * | 2007-07-03 | 2008-02-20 | 北京大学 | 一种从网页中自动提取网站拥有者行政属地信息的方法 |
JP2010128806A (ja) * | 2008-11-27 | 2010-06-10 | Hitachi Ltd | 情報分析装置 |
CN101777082A (zh) * | 2010-03-01 | 2010-07-14 | 苏州数字地图网络科技有限公司 | 一种文字信息与地理信息的关联方法及系统 |
CN102033947A (zh) * | 2010-12-22 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 一种基于检索词的地域识别装置及方法 |
-
2011
- 2011-11-11 CN CN201110356631.3A patent/CN102426603B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006113984A (ja) * | 2004-10-18 | 2006-04-27 | Sony Corp | 情報提供システム,メタデータ収集解析サーバ,およびコンピュータプログラム |
CN101127050A (zh) * | 2007-07-03 | 2008-02-20 | 北京大学 | 一种从网页中自动提取网站拥有者行政属地信息的方法 |
JP2010128806A (ja) * | 2008-11-27 | 2010-06-10 | Hitachi Ltd | 情報分析装置 |
CN101777082A (zh) * | 2010-03-01 | 2010-07-14 | 苏州数字地图网络科技有限公司 | 一种文字信息与地理信息的关联方法及系统 |
CN102033947A (zh) * | 2010-12-22 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 一种基于检索词的地域识别装置及方法 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014000518A1 (zh) * | 2012-06-26 | 2014-01-03 | 北京奇虎科技有限公司 | 一种舆情信息展示系统及方法 |
US9705761B2 (en) | 2012-06-26 | 2017-07-11 | Beijing Qihoo Technology Co. Ltd. | Opinion information display system and method |
CN103853738A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
CN103853738B (zh) * | 2012-11-29 | 2017-06-27 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
CN103020038A (zh) * | 2012-12-25 | 2013-04-03 | 人民搜索网络股份公司 | 一种网络舆情地域相关度的计算方法 |
CN103064951A (zh) * | 2012-12-31 | 2013-04-24 | 南京烽火星空通信发展有限公司 | 一种舆情信息的地域识别方法和装置 |
CN103064951B (zh) * | 2012-12-31 | 2016-08-31 | 南京烽火星空通信发展有限公司 | 一种舆情信息的地域识别方法和装置 |
CN103455596A (zh) * | 2013-09-02 | 2013-12-18 | 广东省计算中心 | 一种基于大数据的科技项目立项评估的方法 |
CN103455596B (zh) * | 2013-09-02 | 2016-11-02 | 广东省科技基础条件平台中心 | 一种基于大数据的科技项目立项评估的方法 |
CN105159949A (zh) * | 2015-08-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 一种中文地址分词方法及系统 |
CN106886512A (zh) * | 2015-12-15 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 文章分类方法和装置 |
CN106886512B (zh) * | 2015-12-15 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 文章分类方法和装置 |
CN105608072A (zh) * | 2015-12-23 | 2016-05-25 | 厦门市美亚柏科信息股份有限公司 | 文本涉及地分析方法及其系统 |
CN105608072B (zh) * | 2015-12-23 | 2019-02-19 | 厦门市美亚柏科信息股份有限公司 | 文本涉及地分析方法及其系统 |
CN106528748A (zh) * | 2016-10-27 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 一种用于确定地域词库的方法与装置 |
CN106528748B (zh) * | 2016-10-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 一种用于确定地域词库的方法与装置 |
CN108021546A (zh) * | 2016-11-03 | 2018-05-11 | 北京嘀嘀无限科技发展有限公司 | 一种短文本特征扩展方法、装置及服务器 |
CN109271640A (zh) * | 2018-11-13 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本信息的地域属性识别方法及装置、电子设备 |
CN111045998A (zh) * | 2019-12-16 | 2020-04-21 | 北京智游网安科技有限公司 | 一种应用程序所属区域统计方法、系统及存储介质 |
WO2021218027A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 智能面试中专业术语的提取方法、装置、设备及介质 |
WO2021241603A1 (ja) * | 2020-05-28 | 2021-12-02 | Jfeスチール株式会社 | 情報検索システム |
JP7004123B1 (ja) * | 2020-05-28 | 2022-01-21 | Jfeスチール株式会社 | 情報検索システム |
CN112069824A (zh) * | 2020-11-11 | 2020-12-11 | 北京智慧星光信息技术有限公司 | 基于上下文概率和引证的地域识别方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102426603B (zh) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102426603B (zh) | 一种文字信息地域识别方法及装置 | |
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
Mubarak et al. | Using Twitter to collect a multi-dialectal corpus of Arabic | |
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
Sadat et al. | Automatic identification of arabic language varieties and dialects in social media | |
Lee et al. | When twitter meets foursquare: tweet location prediction using foursquare | |
KR101671740B1 (ko) | 토픽 추출 장치 및 방법 | |
CN102253996B (zh) | 一种多视角阶段式的图像聚类方法 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN106294619A (zh) | 舆情智能监管方法 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
CN103699625A (zh) | 基于关键词进行检索的方法及装置 | |
Hu et al. | GazPNE2: A general place name extractor for microblogs fusing gazetteers and pretrained transformer models | |
CN106354844B (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
CN103544266A (zh) | 一种搜索建议词生成的方法以及装置 | |
CN104636408A (zh) | 基于用户生成内容的新闻认证预警方法及系统 | |
CN101923556B (zh) | 根据句子序列号进行网页搜索的方法和装置 | |
Hosseini et al. | Location oriented phrase detection in microblogs | |
Zhang et al. | Extracting focused locations for web pages | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN111241299A (zh) | 一种法律咨询的知识图谱自动构建方法及其检索系统 | |
WO2015117657A1 (en) | A query expansion system and method using language and language variants | |
KR101614551B1 (ko) | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 | |
Belliardo et al. | Leave no Place Behind: Improved Geolocation in Humanitarian Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |