CN105608113A - 判断文本中poi数据的方法及装置 - Google Patents
判断文本中poi数据的方法及装置 Download PDFInfo
- Publication number
- CN105608113A CN105608113A CN201510918340.7A CN201510918340A CN105608113A CN 105608113 A CN105608113 A CN 105608113A CN 201510918340 A CN201510918340 A CN 201510918340A CN 105608113 A CN105608113 A CN 105608113A
- Authority
- CN
- China
- Prior art keywords
- poi
- word segmentation
- participle
- names
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000011218 segmentation Effects 0.000 claims abstract description 242
- 238000013479 data entry Methods 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 27
- 239000012634 fragment Substances 0.000 claims description 85
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种判断文本中POI数据的方法及装置。该方法包括:提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;从所述疑似POI名字片段中确定POI数据。本发明实施例解决了现有技术中需要将切词后的相邻字符组成的字符子串去POI名字集合建立的词典中查找,导致查找效率较低的问题。
Description
技术领域
本发明涉及互联网应用技术领域,特别涉及一种判断文本中POI数据的方法及装置。
背景技术
POI是“PointofInterest”的缩写,中文可以翻译为“兴趣点”。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等,每个POI数据可以包括名称、地址、附近的酒店饭店商铺等信息。
传统的POI数据采集方法需要技术人员采用精密的测绘仪器去获取每个POI的经纬度信息,然后标记下来,这种方法比较费时费力,导致采集得到的POI数据的数量很少。互联网上存在大量以文本形式存在的POI数据,如果从文本中提取这些POI数据供地理信息系统使用,则会节省人力和时间资源。
相关技术中,在判断文本中是否包含POI名字集合中的某些POI名字时,首先把文本串按字符切分,把n个相邻字符组成的字符子串去POI名字集合建立的词典中查找,如果能够查找到,则认为文本串包含了一个POI名字。在查找之初需要加载词典,然而当POI名字数量很大或者单个POI名字过长时,由于词典由大量POI名字组成,则相当的词典的数据量也较大,那么加载这个词典时就需要消耗较大的内存,当内存有限制的时候这种方法便失效了。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的判断文本中POI数据的方法及相应的装置。
依据本发明的一方面,提供了一种判断文本中POI数据的方法,包括:
提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;
当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;
从所述疑似POI名字片段中确定POI数据。
可选地,通过以下步骤生成所述POI数据条目:
对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
确定各类中POI名字的最长和/或最短字符长度;
基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
可选地,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;
以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
可选地,将所述一个或多个目标分词与POI数据条目进行匹配,包括:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
可选地,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;
基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
可选地,确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词,包括:
对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;
基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
可选地,基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
可选地,将所述一个或多个目标分词与POI数据条目进行匹配,包括:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
可选地,所述对POI名字集合中的各POI名字进行切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,包括:
对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;
将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。
可选地,所述将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:
将切词后顺序的第一个分词相同的各POI名字聚为一类。
可选地,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
可选地,所述将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:
将切词后逆序的第一个分词相同的各POI名字聚为一类。
可选地,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
可选地,所述方法还包括:
将所述各类中的各POI名字插入对应的类的POI数据条目中。
可选地,从所述疑似POI名字片段中确定POI数据,包括:
从所述与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;
将所述疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。
可选地,所述方法还包括:
获取所述各类中的各POI名字对应的地理数据;
将所述各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。
可选地,所述方法还包括:
从所述与该目标分词匹配的POI数据条目中,查找所述确定的POI名字对应的地理数据;
根据所述确定的POI名字对应的地理数据,在电子地图界面上展示所述确定的POI。
依据本发明的另一方面,还提供了一种判断文本中POI数据的装置,包括:
切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词;
匹配模块,适于将所述一个或多个目标分词与POI数据条目进行匹配;
读取模块,适于当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
判断模块,适于基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;
确定模块,适于从所述疑似POI名字片段中确定POI数据。
可选地,所述装置还包括生成模块,适于通过以下单元生成所述POI数据条目:
聚类单元,适于对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
确定单元,适于确定各类中POI名字的最长和/或最短字符长度;
生成单元,适于基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
可选地,所述生成单元还适于:
计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;
以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
可选地,所述匹配模块还适于:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
可选地,所述生成单元还适于:
确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;
基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
可选地,所述生成单元还适于:
对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;
基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
可选地,所述生成单元还适于:
计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
可选地,所述匹配模块还适于:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
可选地,所述聚类单元还适于:
对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;
将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。
可选地,所述聚类单元还适于:
将切词后顺序的第一个分词相同的各POI名字聚为一类。
可选地,所述判断模块还适于:
若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
可选地,所述聚类单元还适于:
将切词后逆序的第一个分词相同的各POI名字聚为一类。
可选地,所述判断模块还适于:
若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
可选地,所述生成单元还适于:
将所述各类中的各POI名字插入对应的类的POI数据条目中。
可选地,所述确定模块还适于:
从所述与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;
将所述疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。
可选地,所述生成单元还适于:
获取所述各类中的各POI名字对应的地理数据;
将所述各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。
可选地,所述装置还包括展示模块,适于:
从所述与该目标分词匹配的POI数据条目中,查找所述确定的POI名字对应的地理数据;
根据所述确定的POI名字对应的地理数据,在电子地图界面上展示所述确定的POI。
本发明实施例中,将切词处理后的一个或多个目标分词与POI数据条目进行匹配,读取匹配的POI数据条目对应的字符长度的字段值,进而基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段,使得判断出的疑似POI名字片段更有针对性,能够排除掉大量的非POI名字的片段,大大减少了后续的计算量,解决了现有技术中需要将切词后的相邻字符组成的字符子串去POI名字集合建立的词典中查找,导致查找效率较低的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的构建POI词典的方法的流程图;
图2示出了根据本发明一个实施例的判断文本中POI数据的方法的流程图;
图3示出了根据本发明一个实施例的判断文本中POI数据的装置的结构示意图;以及
图4示出了根据本发明另一个实施例的判断文本中POI数据的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
前文提及,现有技术中利用POI名字集合中各POI名字自身建立的词典提供查询服务,这样当POI名字数量很大或者单个POI名字过长时,该词典的数据量也较大,那么,在查找之初对该词典进行加载时,需要消耗较多的内存,当内存有限制的时候便无法提供查询服务。
为解决上述技术问题,本发明实施例提供了一种构建POI词典的新方法,可以应用在终端或服务器中,能够降低词典的数据量,减少内存消耗,节约系统资源。图1示出了根据本发明一个实施例的构建POI词典的方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S108:
步骤S102,对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
步骤S104,确定各类中POI名字的最长和/或最短字符长度;
步骤S106,基于各类中POI名字的指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目;
步骤S108,将各类的POI数据条目建立POI词典。
本发明实施例提供了一种构建POI词典的新方案,在POI名字集合中,对各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,随后确定各类中POI名字的最长和/或最短字符长度。之后,基于各类中POI名字的指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目,将各类的POI数据条目建立POI词典。由于POI名字的指定位置上的分词相比于POI名字本身数据量小,因而本发明实施例建立的POI词典相比于现有技术中通过POI名字本身建立的词典的数据量小,加载到内存时消耗的内存资源少。并且,本发明实施例通过聚类的方式,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,通过各类中名字的指定位置上的分词以及该类中POI名字的最长和/或最短字符长度,来替代该类中的所有POI名字构建POI词典,进一步减少了POI词典的数据量。
上文步骤S102中提及的切词策略,可以是基于字符串匹配的切词方法、基于理解的切词方法和基于统计的切词方法等,下面将分别进行介绍。
首先,基于字符串匹配的切词方法又叫做机械切词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在机器词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配切词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯切词方法和切词与标注相结合的一体化方法。常用的几种机械切词方法,如正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、最少切分(使每一句中切出的词数最小)、双向最大匹配法(进行由左到右、由右到左两次扫描),等等。
此外,还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,但这种精度还远远不能满足实际的需要。实际使用的切词系统,都是把机械切词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械切词,从而减少匹配的错误率。
另一种方法是将切词和词类标注结合起来,利用丰富的词类信息对切词决策提供帮助,并且在标注过程中又反过来对切词结果进行检验、调整,从而极大地提高切分的准确率。
其次,基于理解的切词方法,是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在切词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:切词子系统、句法语义子系统、总控部分。在总控部分的协调下,切词子系统可以获得有关词、句子等的句法和语义信息来对切词歧义进行判断,即它模拟了人对句子的理解过程,这种切词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的切词系统还处在试验阶段。
再者,基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计切词系统都要使用一部基本的切词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
基于上述切词策略,本发明实施例提供了实施步骤S102的可选方案,在该方案中,可以对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词,随后将切词后顺序的第一个分词的匹配度符合阈值(如大于或等于100%、95%等)的各POI名字聚为一类。
或者,可以对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词,随后将切词后逆序的第一个分词的匹配度符合阈值(如大于或等于100%、95%等)的各POI名字聚为一类。
在本发明一实施例中,若预设阈值取值为100%,则将切词后顺序的第一个分词相同的各POI名字聚为一类。例如,POI名字集合中包含POI名字为“北京专利事务所”、“北京专利有限公司”、“南京商标事务所”,对各POI名字进行正向切词处理,将切词后顺序的第一个分词相同的各POI名字聚为一类,即将顺序的第一个分词为“北京”的POI名字“北京专利事务所”、“北京专利有限公司”聚为一类,将顺序的第一个分词为“南京”的POI名字“南京商标事务所”聚为一类。需要说明的是,此处仅是列举,并不限制本发明。
在本发明一实施例中,若预设阈值取值为100%,则将切词后逆序的第一个分词相同的各POI名字聚为一类。仍以上面的例子为例,将切词后逆序的第一个分词相同的各POI名字聚为一类,即将逆序的第一个分词为“事务所”的POI名字“北京专利事务所”、“南京商标事务所”聚为一类,将逆序的第一个分词为“有限公司”的POI名字“北京专利有限公司”聚为一类。
在步骤S104中确定各类中POI名字的最长和/或最短字符长度,可以确定各类中POI名字的最长字符长度,也可以确定各类中POI名字的最短字符长度,还可以确定各类中POI名字的最长和最短字符长度,本发明并不做限制。进一步,可以统计各类中的各POI名字的字符长度,以确定各类中POI名字的最长和/或最短字符长度。
上文步骤S106中生成各类的POI数据条目,本发明提供了两种可选的方案,下面将分别进行详细介绍。
方案一,基于唯一标识符和键值方案。即,计算各类中POI名字的指定位置上的分词的唯一标识符,进而以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成各类的POI数据条目。这里,唯一标识所占存储空间要小于分词本身所占存储空间,以分词的唯一标识符为键,而不直接使用分词本身为键,可以进一步减少POI词典的数据量。如表1所示,各类中POI名字的指定位置上的分词的唯一标识符为T1、T2……Tn,第i(i=1、2……n)个分词对应的POI名字的最长字符长度为Li,最短字符长度为Si。这里的指定位置上的分词可以是切词后顺序的第一个分词,也可以是切词后逆序的第一个分词。
表1
Key值 | Value值 |
T1 | S1/L1 |
T2 | S2/L2 |
……. | ……. |
Tn | Sn/Ln |
方案二,基于分词的相似词的方案。即,确定各类中POI名字的指定位置上的分词的一个或多个相似词,进而基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目。这里的指定位置上的分词可以是切词后顺序的第一个分词,也可以是切词后逆序的第一个分词。
进一步,在确定各类中POI名字的指定位置上的分词的一个或多个相似词时,可以对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字,进而基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。这样,在后续使用POI数据条目进行分词匹配时,可以解决输入相似词的情况。例如,用户需要查询“智汇东方知识产权代理事务所”是否为POI数据,在输入查询词时输入了“智慧东方”,该查询词为“智汇东方”的相似词,则使用“智慧东方”仍然可以查询到对应的POI数据条目。
在基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目时,可以参照方案一中的实施方式,即,计算该分词以及该分词的一个或多个相似词各自的唯一标识符,进而以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成各类的POI数据条目。如表2所示,各类中POI名字的指定位置上的分词的唯一标识符为T1、T2……Tn,各分词的一个或多个相似词的唯一标识符为T11、T12……T1m,T21、T22……T2m,Tn1、Tn2……Tnm。第i(i=1、2……n)个分词对应的POI名字的最长字符长度为Li,最短字符长度为Si。
表2
Key值 | Value值 |
T1、T11、T12……T1m | S1/L1 |
T2、T21、T22……T2m | S2/L2 |
……. | ……. |
Tn、Tn1、Tn2……Tnm | Sn/Ln |
在本发明的一实施例中,还可以将包含有各POI名字的各类的POI数据条目建立POI词典,以备后续查询匹配使用。
在本发明的另一实施例中,还可以获取各类中的各POI名字对应的地理数据,进而将各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。
通过上文介绍可知,本发明实施例基于各类中POI名字的指定位置上的分词和/或该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目构建POI词典,其数据量相比于现有技术中通过POI名字本身建立的词典的数据量要小,加载到内存时消耗的内存资源少。并且,本发明实施例通过聚类的方式,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,通过各类中名字的指定位置上的分词和/或该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,来替代该类中的所有POI名字构建POI词典,进一步减少了POI词典的数据量。
需要说明的是,以上是利用POI名字集合中的各POI名字,生成各类的POI数据条目,进而建立POI词典。在实际应用中,还可以以POI地址、电话号码等数据生成各类的POI数据条目,进而建立POI词典。
下面将介绍利用构建的POI词典对文本中POI数据进行判断的方法,可以发现其在计算效率和查找效率上的优点。
图2示出了根据本发明一个实施例的判断文本中POI数据的方法的流程图。如图2所示,该方法至少包括以下步骤S202至步骤S208:
步骤S202,提取待判断的文本串,对待判断的文本串进行切词处理,生成一个或多个目标分词,将一个或多个目标分词与POI数据条目进行匹配;
步骤S204,当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
步骤S206,基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段;
步骤S208,从疑似POI名字片段中确定POI数据。
本发明实施例中,将切词处理后的一个或多个目标分词与POI数据条目进行匹配,读取匹配的POI数据条目对应的字符长度的字段值,进而基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段,使得判断出的疑似POI名字片段更有针对性,能够排除掉大量的非POI名字的片段,大大减少了后续的计算量,解决了现有技术中需要将切词后的相邻字符组成的字符子串去POI名字集合建立的词典中查找,导致查找效率较低的问题。
上文步骤S202中提及的POI数据条目,可以采用前文图1所示的步骤生成,即,对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类。随后,确定各类中POI名字的最长和/或最短字符长度,之后基于各类中POI名字的指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目。
这里,基于各类中POI名字的指定位置上的分词以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目,具体可以采用前文提及方案一或方案二。若采用前文提及的方案一(即,基于唯一标识符和键值方案)的步骤生成,则步骤S202中将一个或多个目标分词与POI数据条目进行匹配,即对于各个目标分词,将该目标分词与POI数据条目进行匹配,其可以实施为计算一个或多个目标分词的唯一标识符,将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
若采用前文提及的方案二(即,基于分词的相似词的方案)的步骤生成,则步骤S202中将一个或多个目标分词与POI数据条目进行匹配,即对于各个目标分词,将该目标分词与POI数据条目进行匹配,其可以实施为计算一个或多个目标分词的唯一标识符,将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
进一步,在步骤S206中,该字段值可以是最长字符长度,也可以是最短字符长度,还可以是最长和最短字符长度。
若在生成POI数据条目时,是将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类,则步骤S206中基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段,本发明提供了可选的方案,即,在待判断的文本串中,顺序确定从该目标分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似POI名字片段;或者,在待判断的文本串中,顺序确定从该目标分词开始的、长度小于或等于最长字符长度的文本子串,作为疑似POI名字片段;或者,在待判断的文本串中,顺序确定从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,作为疑似POI名字片段。
例如,待判断的文本串为“我在北京专利事务所上班,每个月有工作量的要求,但上班时间比较灵活”,对该待判断的文本串进行切词处理,将生成的一个或多个目标分词与POI数据条目进行匹配。匹配到与目标分词“北京”匹配的POI数据条目“北京10/7”,其中“北京”为POI数据条目中的键,“10”为最长字符长度,“7”为最短字符长度,此时,从与目标分词“北京”匹配的POI数据条目中查找存储POI名字的字符长度的字段,并读取字段值为“10/7”。进一步,从该待判断的文本串,顺序确定从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,即“北京专利事务所”、“北京专利事务所上班”为疑似POI名字片段。需要说明的是,此处仅是示意性的,并不限制本发明。
若在生成POI数据条目时,是将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类,则步骤S206中基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段,本发明提供了可选的方案,即,在待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似POI名字片段;或者,在待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于最长字符长度的文本子串,作为疑似POI名字片段;或者,在待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,作为疑似POI名字片段。
仍然以待判断的文本串为“我在北京专利事务所上班,每个月有工作量的要求,但上班时间比较灵活”为例,对该待判断的文本串进行切词处理,将生成的一个或多个目标分词与POI数据条目进行匹配。匹配到与目标分词“事务所”匹配的POI数据条目“事务所12/6”,其中“事务所”为POI数据条目中的键,“12”为最长字符长度,“6”为最短字符长度,此时,从与目标分词“事务所”匹配的POI数据条目中查找存储POI名字的字符长度的字段,并读取字段值为“12/6”。进一步,从该待判断的文本串,顺序确定从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,即“京专利事务所”、“北京专利事务所”、“我在北京专利事务所”为疑似POI名字片段。需要说明的是,此处仅是示意性的,并不限制本发明。
进一步,本发明实施例中,在生成POI数据条目时,还可以将各类中的各POI名字插入对应的类的POI数据条目中。此时,步骤S208从疑似POI名字片段中确定POI数据可以实施为从与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字,进而将疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。这样,只需要在查找到的各POI名字中匹配疑似POI名字片段,无需在POI名字的整个集合中去匹配,提高了匹配的效率。
在本发明的另一实施例中,还可以在电子地图界面上展示待判断的文本串中确定的POI,通过图形界面的方式给人们更加直观地展示效果。在具体实施时,可以获取各类中的各POI名字对应的地理数据,进而将各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。随后,从与该目标分词匹配的POI数据条目中,查找确定的POI名字对应的地理数据,进而根据确定的POI名字对应的地理数据,在电子地图界面上展示确定的POI。
基于上文各个实施例提供的判断文本中POI数据的方法,基于同一发明构思,本发明实施例还提供了一种判断文本中POI数据的装置。
图3示出了根据本发明一个实施例的判断文本中POI数据的装置的结构示意图。如图3所示,该装置至少可以包括切词模块310、匹配模块320、读取模块330、判断模块340以及确定模块350。
切词模块310,适于提取待判断的文本串,对待判断的文本串进行切词处理,生成一个或多个目标分词;
匹配模块320,与切词模块310相耦合,适于将一个或多个目标分词与POI数据条目进行匹配;
读取模块330,与匹配模块320相耦合,适于当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
判断模块340,与读取模块330相耦合,适于基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段;
确定模块350,与判断模块340相耦合,适于从疑似POI名字片段中确定POI数据。
在本发明一实施例中,如图4所示,图3展示的装置还可以包括生成模块360,与匹配模块320、读取模块330以及确定模块350相耦合,适于通过以下单元生成POI数据条目:
聚类单元410,适于对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
确定单元420,与聚类单元410相耦合,适于确定各类中POI名字的最长和/或最短字符长度;
生成单元430,与确定单元420相耦合,适于基于各类中POI名字的指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目。
在本发明一实施例中,生成单元430还适于:
计算各类中POI名字的指定位置上的分词的唯一标识符;
以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成各类的POI数据条目。
在本发明一实施例中,匹配模块320还适于:
计算一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
在本发明一实施例中,生成单元430还适于:
确定各类中POI名字的指定位置上的分词的一个或多个相似词;
基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成各类的POI数据条目。
在本发明一实施例中,生成单元430还适于:
对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;
基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
在本发明一实施例中,生成单元430还适于:
计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成各类的POI数据条目。
在本发明一实施例中,匹配模块320还适于:
计算一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
在本发明一实施例中,聚类单元410还适于:
对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;
将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。
在本发明一实施例中,聚类单元410还适于:
将切词后顺序的第一个分词相同的各POI名字聚为一类。
在本发明一实施例中,判断模块340还适于:
若该字段值包括最长和/或最短字符长度,则在待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似POI名字片段;或者,
在待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于最长字符长度的文本子串,作为疑似POI名字片段;或者,
在待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,作为疑似POI名字片段。
在本发明一实施例中,聚类单元410还适于:
将切词后逆序的第一个分词相同的各POI名字聚为一类。
在本发明一实施例中,判断模块340还适于:
若该字段值包括最长和/或最短字符长度,则在待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似POI名字片段;或者,
在待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于最长字符长度的文本子串,作为疑似POI名字片段;或者,
在待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,作为疑似POI名字片段。
在本发明一实施例中,生成单元430还适于:
将各类中的各POI名字插入对应的类的POI数据条目中。
在本发明一实施例中,确定模块350还适于:
从与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;
将疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。
在本发明一实施例中,生成单元430还适于:
获取各类中的各POI名字对应的地理数据;
将各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。
在本发明一实施例中,如图4所示,图3展示的装置还可以包括展示模块370,与确定模块350和生成模块360相耦合,适于从与该目标分词匹配的POI数据条目中,查找确定的POI名字对应的地理数据;根据确定的POI名字对应的地理数据,在电子地图界面上展示确定的POI。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
本发明实施例中,将切词处理后的一个或多个目标分词与POI数据条目进行匹配,读取匹配的POI数据条目对应的字符长度的字段值,进而基于该目标分词以及该字段值,在待判断的文本串中判断疑似POI名字片段,使得判断出的疑似POI名字片段更有针对性,能够排除掉大量的非POI名字的片段,大大减少了后续的计算量,解决了现有技术中需要将切词后的相邻字符组成的字符子串去POI名字集合建立的词典中查找,导致查找效率较低的问题。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的判断文本中POI数据的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例还公开了:A1、一种判断文本中POI数据的方法,包括:
提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;
当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;
从所述疑似POI名字片段中确定POI数据。
A2、根据A1所述的方法,其中,通过以下步骤生成所述POI数据条目:
对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
确定各类中POI名字的最长和/或最短字符长度;
基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
A3、根据A1或A2所述的方法,其中,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;
以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
A4、根据A1-A3任一项所述的方法,其中,将所述一个或多个目标分词与POI数据条目进行匹配,包括:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
A5、根据A1-A4任一项所述的方法,其中,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;
基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
A6、根据A1-A5任一项所述的方法,其中,确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词,包括:
对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;
基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
A7、根据A1-A6任一项所述的方法,其中,基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
A8、根据A1-A7任一项所述的方法,其中,将所述一个或多个目标分词与POI数据条目进行匹配,包括:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
A9、根据A1-A8任一项所述的方法,其中,所述对POI名字集合中的各POI名字进行切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,包括:
对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;
将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。
A10、根据A1-A9任一项所述的方法,其中,所述将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:
将切词后顺序的第一个分词相同的各POI名字聚为一类。
A11、根据A1-A10任一项所述的方法,其中,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
A12、根据A1-A11任一项所述的方法,其中,所述将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类,包括:
将切词后逆序的第一个分词相同的各POI名字聚为一类。
A13、根据A1-A12任一项所述的方法,其中,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段,包括:
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
A14、根据A1-A13任一项所述的方法,其中,还包括:
将所述各类中的各POI名字插入对应的类的POI数据条目中。
A15、根据A1-A14任一项所述的方法,其中,从所述疑似POI名字片段中确定POI数据,包括:
从所述与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;
将所述疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。
A16、根据A1-A15任一项所述的方法,其中,还包括:
获取所述各类中的各POI名字对应的地理数据;
将所述各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。
A17、根据A1-A16任一项所述的方法,其中,还包括:
从所述与该目标分词匹配的POI数据条目中,查找所述确定的POI名字对应的地理数据;
根据所述确定的POI名字对应的地理数据,在电子地图界面上展示所述确定的POI。
B18、一种判断文本中POI数据的装置,包括:
切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词;
匹配模块,适于将所述一个或多个目标分词与POI数据条目进行匹配;
读取模块,适于当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
判断模块,适于基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;
确定模块,适于从所述疑似POI名字片段中确定POI数据。
B19、根据B18所述的装置,其中,所述装置还包括生成模块,适于通过以下单元生成所述POI数据条目:
聚类单元,适于对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
确定单元,适于确定各类中POI名字的最长和/或最短字符长度;
生成单元,适于基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
B20、根据B18或B19所述的装置,其中,所述生成单元还适于:
计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;
以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
B21、根据B18-B20任一项所述的装置,其中,所述匹配模块还适于:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
B22、根据B18-B21任一项所述的装置,其中,所述生成单元还适于:
确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;
基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
B23、根据B18-B22任一项所述的装置,其中,所述生成单元还适于:
对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;
基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
B24、根据B18-B23任一项所述的装置,其中,所述生成单元还适于:
计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
B25、根据B18-B24任一项所述的装置,其中,所述匹配模块还适于:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
B26、根据B18-B25任一项所述的装置,其中,所述聚类单元还适于:
对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;
将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。
B27、根据B18-B26任一项所述的装置,其中,所述聚类单元还适于:
将切词后顺序的第一个分词相同的各POI名字聚为一类。
B28、根据B18-B27任一项所述的装置,其中,所述判断模块还适于:
若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
B29、根据B18-B28任一项所述的装置,其中,所述聚类单元还适于:
将切词后逆序的第一个分词相同的各POI名字聚为一类。
B30、根据B18-B29任一项所述的装置,其中,所述判断模块还适于:
若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段;或者,
在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似POI名字片段。
B31、根据B18-B30任一项所述的装置,其中,所述生成单元还适于:
将所述各类中的各POI名字插入对应的类的POI数据条目中。
B32、根据B18-B31任一项所述的装置,其中,所述确定模块还适于:
从所述与该目标分词匹配的POI数据条目中,查找对应的类的各POI名字;
将所述疑似POI名字片段与查找到的各POI名字进行匹配,将匹配的POI名字片段作为确定的POI名字。
B33、根据B18-B32任一项所述的装置,其中,所述生成单元还适于:
获取所述各类中的各POI名字对应的地理数据;
将所述各类中的各POI名字对应的地理数据插入对应的类的POI数据条目中。
B34、根据B18-B33任一项所述的装置,其中,还包括展示模块,适于:
从所述与该目标分词匹配的POI数据条目中,查找所述确定的POI名字对应的地理数据;
根据所述确定的POI名字对应的地理数据,在电子地图界面上展示所述确定的POI。
Claims (10)
1.一种判断文本中POI数据的方法,包括:
提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;
当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;
从所述疑似POI名字片段中确定POI数据。
2.根据权利要求1所述的方法,其中,通过以下步骤生成所述POI数据条目:
对POI名字集合中的各POI名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类;
确定各类中POI名字的最长和/或最短字符长度;
基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
3.根据权利要求1或2所述的方法,其中,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
计算所述各类中POI名字的所述指定位置上的分词的唯一标识符;
以该分词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
4.根据权利要求1-3任一项所述的方法,其中,将所述一个或多个目标分词与POI数据条目进行匹配,包括:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词的唯一标识符进行匹配。
5.根据权利要求1-4任一项所述的方法,其中,基于所述各类中POI名字的所述指定位置上的分词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词;
基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目。
6.根据权利要求1-5任一项所述的方法,其中,确定所述各类中POI名字的所述指定位置上的分词的一个或多个相似词,包括:
对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字;
基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
7.根据权利要求1-6任一项所述的方法,其中,基于该分词、该分词的一个或多个相似词,以及该类中POI名字的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中POI名字的最长和/或最短字符长度为值,生成所述各类的POI数据条目。
8.根据权利要求1-7任一项所述的方法,其中,将所述一个或多个目标分词与POI数据条目进行匹配,包括:
计算所述一个或多个目标分词的唯一标识符;
将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
9.根据权利要求1-8任一项所述的方法,其中,所述对POI名字集合中的各POI名字进行切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,包括:
对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词;
将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。
10.一种判断文本中POI数据的装置,包括:
切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词;
匹配模块,适于将所述一个或多个目标分词与POI数据条目进行匹配;
读取模块,适于当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;
判断模块,适于基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;
确定模块,适于从所述疑似POI名字片段中确定POI数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510918340.7A CN105608113B (zh) | 2015-12-10 | 2015-12-10 | 判断文本中poi数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510918340.7A CN105608113B (zh) | 2015-12-10 | 2015-12-10 | 判断文本中poi数据的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105608113A true CN105608113A (zh) | 2016-05-25 |
CN105608113B CN105608113B (zh) | 2018-09-11 |
Family
ID=55988053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510918340.7A Active CN105608113B (zh) | 2015-12-10 | 2015-12-10 | 判断文本中poi数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105608113B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145592A (zh) * | 2017-05-26 | 2017-09-08 | 浙江宇视科技有限公司 | 一种标定位置获取的方法及装置 |
CN107688562A (zh) * | 2016-08-05 | 2018-02-13 | 株式会社Ntt都科摩 | 词检测方法、装置、系统 |
CN107908783A (zh) * | 2017-12-07 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 检索文本相关性的评估方法、装置、服务器和存储介质 |
CN109241239A (zh) * | 2018-07-26 | 2019-01-18 | 四川长虹电器股份有限公司 | 考察文字排列顺序的文本相似度匹配方法 |
CN111401355A (zh) * | 2018-12-29 | 2020-07-10 | 北京奇虎科技有限公司 | 一种识别poi数据聚合关系的方法和装置 |
CN111460325A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN115577699A (zh) * | 2022-12-09 | 2023-01-06 | 杭州北冥星眸科技有限公司 | 确定文本条目合理性的方法、电子设备及存储介质 |
CN115840800A (zh) * | 2023-02-27 | 2023-03-24 | 江苏曼荼罗软件股份有限公司 | 患者信息匹配方法、系统、计算机及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020123995A1 (en) * | 2001-01-11 | 2002-09-05 | Tetsuo Shibuya | Pattern search method, pattern search apparatus and computer program therefor, and storage medium thereof |
CN103514199A (zh) * | 2012-06-25 | 2014-01-15 | 高德软件有限公司 | Poi数据处理方法及其装置、poi检索方法及其装置 |
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
CN104915453A (zh) * | 2015-07-01 | 2015-09-16 | 北京奇虎科技有限公司 | 对poi信息进行分类的方法、装置和系统 |
-
2015
- 2015-12-10 CN CN201510918340.7A patent/CN105608113B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020123995A1 (en) * | 2001-01-11 | 2002-09-05 | Tetsuo Shibuya | Pattern search method, pattern search apparatus and computer program therefor, and storage medium thereof |
CN103514199A (zh) * | 2012-06-25 | 2014-01-15 | 高德软件有限公司 | Poi数据处理方法及其装置、poi检索方法及其装置 |
CN104050196A (zh) * | 2013-03-15 | 2014-09-17 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据冗余检测方法及装置 |
CN104915453A (zh) * | 2015-07-01 | 2015-09-16 | 北京奇虎科技有限公司 | 对poi信息进行分类的方法、装置和系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688562A (zh) * | 2016-08-05 | 2018-02-13 | 株式会社Ntt都科摩 | 词检测方法、装置、系统 |
CN107145592A (zh) * | 2017-05-26 | 2017-09-08 | 浙江宇视科技有限公司 | 一种标定位置获取的方法及装置 |
CN107908783A (zh) * | 2017-12-07 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 检索文本相关性的评估方法、装置、服务器和存储介质 |
CN109241239A (zh) * | 2018-07-26 | 2019-01-18 | 四川长虹电器股份有限公司 | 考察文字排列顺序的文本相似度匹配方法 |
CN111401355A (zh) * | 2018-12-29 | 2020-07-10 | 北京奇虎科技有限公司 | 一种识别poi数据聚合关系的方法和装置 |
CN111460325A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN111460325B (zh) * | 2019-01-22 | 2023-06-27 | 阿里巴巴集团控股有限公司 | Poi搜索方法、装置与设备 |
CN115577699A (zh) * | 2022-12-09 | 2023-01-06 | 杭州北冥星眸科技有限公司 | 确定文本条目合理性的方法、电子设备及存储介质 |
CN115840800A (zh) * | 2023-02-27 | 2023-03-24 | 江苏曼荼罗软件股份有限公司 | 患者信息匹配方法、系统、计算机及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105608113B (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608113B (zh) | 判断文本中poi数据的方法及装置 | |
CN108170859B (zh) | 语音查询的方法、装置、存储介质及终端设备 | |
EP3153978B1 (en) | Address search method and device | |
CN109299320B (zh) | 一种信息交互方法、装置、计算机设备和存储介质 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN109492081B (zh) | 文本信息搜索和信息交互方法、装置、设备及存储介质 | |
CN108228657B (zh) | 一种关键字检索的实现方法及装置 | |
CN112784063B (zh) | 一种成语知识图谱构建方法及装置 | |
CN110674423A (zh) | 一种地址定位的方法、装置、可读存储介质和电子设备 | |
CN103914455B (zh) | 一种兴趣点检索方法和装置 | |
CN111460327A (zh) | 兴趣地搜索方法及装置、存储介质、计算机设备 | |
CN111814077A (zh) | 信息点查询方法、装置、设备和介质 | |
CN110688434A (zh) | 一种兴趣点处理方法、装置、设备和介质 | |
CN111984876B (zh) | 兴趣点处理方法、装置、设备及计算机可读存储介质 | |
CN110232160B (zh) | 兴趣点变迁事件检测方法、装置及存储介质 | |
CN106919603B (zh) | 计算查询词模式中分词权重的方法和装置 | |
US11734285B2 (en) | System and method for top-k searching using parallel processing | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
CN104156364B (zh) | 地图搜索结果的展现方法和装置 | |
CN106934007B (zh) | 关联信息的推送方法及装置 | |
CN105550285B (zh) | 构建poi词典的方法及装置 | |
CN111400339B (zh) | 产品数据库标识反向解析的检索方法及系统 | |
CN112579713B (zh) | 地址识别方法、装置、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220728 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |