CN106445918B - 一种中文地址处理方法及系统 - Google Patents
一种中文地址处理方法及系统 Download PDFInfo
- Publication number
- CN106445918B CN106445918B CN201610851263.2A CN201610851263A CN106445918B CN 106445918 B CN106445918 B CN 106445918B CN 201610851263 A CN201610851263 A CN 201610851263A CN 106445918 B CN106445918 B CN 106445918B
- Authority
- CN
- China
- Prior art keywords
- participle
- word
- address
- monocase
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明适用于数据处理领域,提供了一种中文地址处理方法及系统,包括:通过N种预设算法获取待分词地址的N个第一分词集合,每一种预设算法分别基于一类字符统计特征对待分词地址进行分词;通过分词合并算法对N个第一分词集合进行汇总,获取第二分词集合;通过分词矫正算法对出现分词异常状况的第二分词集合进行处理,得到第三分词集合;将第三分词集合中以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并,得到第二分词结果;第一分词结果与第二分词结果的集合输出为待分词地址的最终分词结果。本发明实施例能够逐级调整不符合实际语义的分词,提高对地址词的识别精度,解决了现有的分词方法分词准确率低问题。
Description
技术领域
本发明属于数据处理领域,尤其涉及一种中文地址处理方法及系统。
背景技术
在日常生产与生活中,地址是最常见的使用自然语言描述地理位置的参考系统之一。在GIS(Geographic Information System,地理信息系统)中,地址编码(Geocoding)是对地址描述的信息进行空间定位,建立起空间信息与非空间信息之间联系的过程。
城市地址编码的核心技术包括地址要素解析。它是将自然语言描述的一条完整地址拆分为一组具有明确空间范围的地址要素的过程,这个过程可以被看作是一种特定的中文地址分词任务。在地址自动解析方面,中文地址通常运用自然语言进行描述,各个词之间不存在自然的分隔符,而且中文地址描述手段多样化,存在人名、地名和机构名等多层嵌套的现象。中文地址的要素解析问题,已成为中文地址地理编码的最大障碍之一。
目前常用的中文地址分词算法有机械分词法、统计分词法和理解分词方法。
机械分词法是按照一定的策略将待分析的汉字串与地址词典库中的词条进行匹配,若在词典中找到某个字符串,则识别为一个词。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配。统计表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。这种精度还远远不能满足实际的需要。
统计分词法以概率论为理论基础,将汉语上下文中汉字组合串的出现抽象成随机过程。在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。但是此类方法果经常会得到一些共现频度高、但并不是词的常用字组,对地址词的识别精度差,时空开销大。
理解分词方法基本思想是分词同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,理解分词方法需要使用大量语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
综上,现有的中文地址分词算法存在对地址词的识别精度差及分词准确率低的问题。
发明内容
有鉴于此,本发明实施例提供了一种中文地址处理方法及系统,以解决现有的分词法对地址词的识别精度差及分词准确率低问题。
本发明实施例是这样实现的,一种中文地址处理方法,包括:
通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;
通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;
通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;
在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;
将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;
其中,所述N为大于1的整数。
本发明实施例的另一目的在于提供一种中文地址处理系统,包括:
获取单元,用于通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;
合并单元,用于通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;
矫正单元,用于通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;
结果显示单元,用于在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;
将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;
其中,所述N为大于1的整数。
在本发明实施例中,通过对应于N个统计特征类型的N个预设算法,分别获取待分词地址的N个第一分词集合后,对N个第一分词集合进行合并、间接矫正以及保留包含地址要素的分词等多层次处理,能够逐级调整不符合语义的分词,进一步提高了地址词的识别精度,解决了现有分词法分词准确率较低的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的中文地址处理方法的实现流程图;
图2是本发明实施例提供的中文地址处理方法的逻辑流程图;
图3是本发明优选实施例提供的中文地址处理方法S101的一个具体实现流程图;
图4是本发明优选实施例提供的中文地址处理方法S101的另一具体实现流程图;
图5是本发明实施例提供的中文地址处理方法S102的具体实现流程图;
图6是本发明实施例提供的中文地址处理方法S103的具体实现流程图;
图7是本发明实施例提供的中文地址处理方法S103的具体实施示例图;
图8是本发明实施例提供的中文地址处理方法的实现示例图;
图9是本发明实施例提供的中文地址处理系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
作为本发明的一个实施例,图1示出了本发明实施例提供的中文地址处理方法的实现流程,详述如下:
在S101中,通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词。
例如,若三类字符统计特征分别为a、b和c,则预设算法也为三个,分别为A、B和C。且每个预设算法与每个统计特征的类型一一对应,即A与a对应,B与b对应,C与c对应,所述算法为针对统计特征的类型而设置的一种处理流程。利用数理统计方法对一个地址中的汉字字符进行研究时,以字符、词语为基本单位,考察与它们相联系的某个特征,研究有关特征在样本参考数据中的分布情况,则所要考察的特征即为字符的统计特征,是对字词进行统计考察的指标。统计特征包括但不限于字频、词频、互信息等特征类型。
字频和词频表示对于某个选定的中文字或中文词,其在数据样本中出现的频率。对于包含有固定中文字数的数据样本,某个选定的中文字或中文词在样本中出现的次数越多,则该中文字和中文词的字频或词频越大。
互信息,用于度量两个对象之间的相互性,作为词和类别之间的测度,如果某个词属于该类别的话,则它们的互信息量最大,因而适用于对地址中的字符进行归类分词。设两个随机变量为(X,Y)的联合分布为p(X,Y),边际分布分别为p(X)和p(Y),则互信息I(X:Y)是联合分布p(X,Y)与乘积分布p(X)p(Y)的相对熵,即
所述预设算法用于获取待分词地址的第一分词集合,即对待分词地址执行基础、初步的分词处理,故所述预设算法可以是现有常规的分词算法。以常规的分词算法作为本发明实施例中的第一个处理步骤,将待分词地址拆分成多个分词,所述多个分词的集合输出为第一分词集合。
在S102中,通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合。
因S101中的每个预设算法均能获取一个待分词地址的第一分词集合,在多个预设算法的情况下,能够获取到待分词地址的多个第一分词集合。
为了输出一个待分词地址的最终分词结果,在多个第一分词集合存在的条件下,通过合理的分词合并算法,使多个集合转为成一个集合,即使N个第一分词集合转化为一个第二分词集合。
若所述的N个第一分词集合分别为集合1、集合2和集合3,则集合1、2和3中都存在有待分词地址的初步分词结果,并包含有多个地址分词,且集合1、2、3相互之间可能包含有由待分词地址中的同一字符构成的不同分词,因而所述分词合并算法为,对这些多分词集合进行共字分词的提取和处理,以获取一个最符合实际语义的分词集合的算法。
在S103中,通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合。
以人为对象,对待分词地址实际进行解读时,往往跟所述第二分词集合实际表达出的分词结果有所偏差,具体表现为出现分词不足或者分词过度等异常状况。所述分词不足意为词条过长,没有识别出一个分词应有的切分点位置;所述分词过度,意为将一个不应拆分的较长分词拆成了多个短分词或者单字符。通过分词矫正算法对所述第二分词集合中的这些异常状况进行矫正处理,可得到分词精确度更高的第三分词集合。
若第二分词集合没有出现分词异常状况,则直接输出为第三分词集合。
S104,在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果。
在中文地址中有一些常用于表达地理行政区域划分、街道划分的字词,且往往位于一个地址词的末尾,这些字词称为地址要素。地址要素是一个地址结尾的单位。各类别的地址要素具体如下表所示:
上述地址要素预设在系统中,因而可将以地址要素结尾的分词从第三分词集合中识别并提取出来,使得所述分词能够被确定为符合语义的分词,保留到第一分词结果中。
以非地址要素结尾的分词通过地址要素矫正算法进行处理,包括如下内容:
若分词中包含有地址要素,且以该地址要素开头,则将所述地址要素从所述分词中提取出来,合并至前邻接分词的结尾,作为一个新的分词结果存入第二分词结果中;
若分词中不包含有地址要素,则将多个连续的所述不包含有地址要素的分词直接连接合并,作为一个新的分词结果存入第二分词结果中;
其他情况下包含有地址要素的分词,直接作为不包含有地址要素的分词,并一同处理。
在S105中,将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果。
所述第一分词结果与所述第二分词结果中的所有分词共同组成整个待分词地址的最终分词结果。
为了便于理解和参考,图2示出了本发明实施例提供的中文地址处理方法的逻辑流程。
在本发明实施例中,通过对应于N个统计特征类型的N个预设算法,分别获取待分词地址的N个第一分词集合后,对N个第一分词集合进行合并、间接矫正以及保留包含地址要素的分词等多层次处理,能够逐级调整不符合语义的分词,进一步提高了地址词的识别精度,解决了现有分词法分词准确率较低的问题。且本法方法无须对待分词地址的文本格式进行规范化,对于一切包含文本形式的地址数据均适用,扩大了分词方法的适用范围、提高了分词效率。
作为本发明的一个优选实施例,S101优先为:
通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词包括:
通过第一预设算法和第二预设算法获取待分词地址的两个第一分词集合,所述第一预设算法基于字词频对所述待分词地址进行分词,所述第二预设算法基于字分词趋势值对所述待分词地址进行分词,所述字分词趋势值用于表明一个字符与前后相邻字符结合为一个分词的趋势程度。
在本发明优选实施例中,对应于字词频的统计特征类型,作为本发明的一个实施例,如图3所示,通过第一预设算法获取待分词地址的一个第一分词集合包括:
S301,根据M个预设的固定字长分词算法,获取所述待分词地址的M个第一分词候选集。
在本实施例中,字长表示一个分词所包含字符的个数。依照固定字长划分地址词语的原理,依次从待分词地址的第一个字符开始,以每K个字符划分为一个地址词并存入第一分词候选集中,直到最后一个字符被划分完时结束本次操作,所述K为大于等于1的整数。
S302,所述M个第一分词候选集分别对应M个第二分词候选集,对于每个所述第一分词候选集中的每个分词,判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小,将其中所述词频最大的分词存入对应的所述第二分词候选集。
在每个第一分词候选集中,依次以每个分词为中心,将其前后相邻的两个或一个分词选取出来,确认所述中心分词、相邻分词在预设地址库中的词频,并将其中词频最大的分词筛选出来,存入第二分词候选集。
例如,以两字长分词原理得到的第一分词候选集为“沿河|南路|11|30|号海|关验|证道|2号”,以“南路”为中心分词时,其前邻接词为“沿河”,后邻接词为“11”。在地址库中需要判断“南路”、“沿河”和“11”的词频大小。若三者中“沿河”的词频最大,则将“沿河”这一分词保留并存储至第二分词候选集。
所述地址库可以是无须依赖人工构建的标准词库,包含由多方面的信息资源所收集得到的非结构化数据。
S303,在所述M个第二分词候选集中获取词频最大的第一共字分词,并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合。
所述M为大于1的整数,所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。
在上述地址库中,确认这些第一共字分词的词频大小。
M个第二分词候选集中除所述第一共字分词外的字符,即由待分词地址中的同一字符构成的相同的分词或单字符。
在本发明优选实施例中,对应于字分词趋势值的统计特征类型,作为本发明的一个实施例,如图4所示,通过第二预设算法获取待分词地址的一个第一分词集合包括:
S401,在待分词地址中,依次获取每个字符的字分词趋势值。
字分词趋势值表示在分词过程中,对于某个字符来说,该字符是倾向于与前邻接字符结合为一个分词,还是倾向于与后邻接字结合为一个分词的趋势大小。
在本发明实施例中,所述字分词趋势值T为一个二元集合{0,1}。0表示该字符趋向于与前邻接字结合,1表示该字符倾向于与后邻接字结合。T值计算公式为:ti1表示在地址库中该字符前邻接单字集合的元素个数,ti2表示在地址库中该字符后邻接单字集合的元素个数。
通过依次获取每个字符在地址库中构成词语的前后邻接单字的元素个数,可得到每个字符的字分词趋势值T。
S402,当所述字符的字分词趋势值为零时,以所述字符为拆分点,将所述字符及所述字符前面的多个连续字符作为一个分词,并将所述分词添加到第一分词集合中;其中,所述多个连续字符的所述字分词趋势值为非零值。
当计算得出待分词地址中的某一字符的T值为0时,可知该字符倾向于与前面多个字符结合为一个分词,前面字符的个数取决于T值为1的连续字符的个数,保证每个分词中含有T值为0的字符个数仅为一个。
如,待分词地址为“沿河南路1130号海关验证道2号”,经过计算后,得知“河”、“路”、“号”、“海”、“关”、“验”、“证”、“道”和“号”这些字符的T值为0,则以它们为切分点,得出的多个分词所构成的第一分词集合为“沿河|南路|113|号|海|关|验|证|道2号”。
作为本发明的另一个实施例,图5示出了本发明实施例提供的中文地址处理方法S102的具体实现流程,详述如下:
S501,在所述N个第一分词集合中,获取地址库中词频最大的第二共字分词,并与所述N个第一分词集合中除所述第二共字分词外的字符共同输出至第三分词候选集,所述第二共字分词为所述待分词地址中的同一字符在所述N个第一分词集合中构成的不同分词。
S502,若所述第三分词候选集不包含有连续的单字符时,所述第三分词候选集直接输出,得到第二分词集合。
S503,若所述第三分词候选集中含有连续的单字符时,将所述连续的单字符进行合并处理,得到连续单字符分词。
例如,已获得的第三分词候选集为“沿河|南路|1130号|海|关|验|证|道|2号”,其中“海|关|验|证|道”为连续的单字符,因而直接将这些单字符合并,得到一个连续单字符分词“海关验证道”。
S504,将所述词频最大的第二共字分词、所述连续单字符分词与其余字符的集合输出为第二分词集合;
在所述第三分词候选集中,除所述第二共字分词以及所述连续的单字符外的所有字符为所述其余字符。
本发明实施例中未提到的实现原理与图3所述中文地址处理方法中的实现原理相一致,因此不赘述。
作为本发明的另一个实施例,图6示出了本发明实施例提供的中文地址处理方法S103的具体实现流程,详述如下:
若所述第二分词集合中含有非连续的单字符时,对于每一个所述非连续单字符,进行如下操作:
S601,将所述非连续单字符与所述非连续单字符的前邻接词结合,得到第一单字符分词。
非连续单字符在集合中表现为处于多个分词之间的一个单字符。将所述单字符与其前邻接分词合并,得到一个以所述单字符为结尾的第一单字符分词。
S602,将所述非连续单字符与所述非连续单字符的后邻接词结合,得到第二单字符分词。
将所述单字符与其后邻接分词合并,得到一个以所述单字符为开头的第二单字符分词。
S603,判断所述第一单字符分词和所述第二单字符分词在地址库中出现词频的大小,将其中词频较大的单字符分词输出为单字符分词结果;
图7作为图6所示实施例的一个实现示例,具体如下:
在本示例中,第二分词集合为“白鸽场|内|仓库”,此集合中的非连续单字符为“内”。
依照步骤S601,将“内”与其前邻接分词“白鸽场”合并,得到第一单字符分词“白鸽场内”。
依照步骤S602,将“内”与其后邻接分词“仓库”合并,得到第二单字符分词“内仓库”。
依照步骤S603,在地址库中判断“白鸽场内”与“内仓库”的词频,可得知“内仓库”出现的频率较大,因而作为本示例中的单字符分词结果。
在S604中,根据所述单字符分词结果,获取第三分词集合。
对第二分词集合中的每个非连续单字符进行如S601至S603所述的操作后,得到多个单字符分词结果。
在第二分词集合中,存在未经S601至S603步骤处理的其余字符,所述其余字符与上述多个单字符分词结果共同输出为第三分词集合。
图8为本发明实施例提供的中文地址处理方法的实现示例图,其包含图1至图7所述的中文地址处理方法的所有实现原理,详述如下:
在S801中,待分词地址为“沿河南路1130号海关验证道2号”,两个预设算法对应的统计特征类型为字词频和字分词趋势值。
在S802中,对于字词频的统计特征类型,依照图3所示实施例中S302的实现原理,获取得到的一个第二分词候选集为“沿河|2号”,另一个第二分词候选集为“130|号海关|验证道”。
在S803中,依照图3所示实施例中S303的实现原理,获取得到的基于字词频统计特征类型的第一分词集合为“沿河|南|路|1|130|号海关|验证道|2号”。
在S804中,对于字分词趋势值的统计特征类型,依照图4所示实施例中S402的实现原理,获取得到基于字分词趋势值的第一分词集合为“沿河|南路|1130号|海|关|验|证|道|2号”。
在S805中,对于S803和S804得到的两个第一分词集合,依照图5所示实施例中的实现原理,获取得到第二分词集合为“沿河|南路|1130|号海关|验证道|2号”。
因此时第二分词集合无出现S103中所述分词异常状况,因而第三分词集合直接输出为“沿河|南路|1130|号海关|验证道|2号”。
在S806中,依照图1所示实施例中S104和S105的实现原理对S805中的所述第三分词集合进行处理,提取出的地址要素为“路”、“号”和“道”,经过地址要素矫正后,获得待分词地址的最终分词结果“沿河南路|1130号|海关验证道|2号”,符合生活中解读时的实际语义。
在本发明实施例中,通过对应于N个统计特征类型的N个预设算法,分别获取待分词地址的N个第一分词集合后,对N个第一分词集合进行合并、间接矫正以及保留包含地址要素的分词等多层次处理,能够逐级调整不符合语义的分词,进一步提高了地址词的识别精度,解决了现有分词法分词准确率较低的问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文图1实施例所述的中文地址处理方法,图9示出了本发明实施例提供的中文地址处理系统的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图9,该系统包括:
获取单元91,用于通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词,其中,所述N为大于1的整数。
合并单元92,用于通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合。
矫正单元93,用于通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合。
结果显示单元94,用于在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;
将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果。
可选地,所述获取单元91还包括:
第一计算子单元,用于根据M个预设的固定字长分词算法,获取所述待分词地址的M个第一分词候选集;
所述M个第一分词候选集分别对应M个第二分词候选集,对于每个所述第一分词候选集中的每个分词,判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小;将其中所述词频最大的分词存入对应的所述第二分词候选集;
在所述M个第二分词候选集中获取词频最大的第一共字分词,并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合;
其中,所述M为大于1的整数,所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。
可选地,所述获取单元91还包括:
第二计算子单元,用于在待分词地址中,依次获取每个字符的所述字分词趋势值,所述字分词趋势值用于表明一个字符与前后相邻字符结合为一个分词的趋势程度;
当所述字符的所述字分词趋势值为零时,以所述字符为拆分点,将所述字符及所述字符前面的多个连续字符作为一个分词,并将所述分词添加到第一分词集合中;
其中,所述多个连续字符的所述字分词趋势值为非零值。
可选地,所述合并单元92具体用于:
在所述N个第一分词集合中,获取地址库中词频最大的第二共字分词,并与所述N个第一分词集合中除所述第二共字分词外的字符共同输出至第三分词候选集,所述第二共字分词为所述待分词地址中的同一字符在所述N个第一分词集合中构成的不同分词。
若所述第三分词候选集不包含有连续的单字符时,所述第三分词候选集直接输出,得到第二分词集合;
若所述第三分词候选集中含有连续的单字符时,将所述连续的单字符进行合并处理,得到连续单字符分词;
所述词频最大的第二共字分词、所述连续单字符分词与其余字符的集合输出为第二分词集合;
在所述第三分词候选集中,除所述第二共字分词以及所述连续的单字符外的所有字符为所述其余字符。
可选地,所述矫正单元93具体用于:
若所述第二分词集合中含有非连续的单字符时,对于每一个所述非连续单字符,进行如下操作:
将所述非连续单字符与所述非连续单字符的前邻接词结合,得到第一单字符分词;
将所述非连续单字符与所述非连续单字符的后邻接词结合,得到第二单字符分词;
判断所述第一单字符分词和所述第二单字符分词在地址库中出现词频的大小,将其中词频较大的单字符分词输出为单字符分词结果;
根据所述单字符分词结果,获取第三分词集合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种中文地址处理方法,其特征在于,包括:
通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;
通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;
通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;
在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;
将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;
其中,所述N为大于1的整数;
通过第一预设算法获取待分词地址的一个第一分词集合包括:
根据M个预设的固定字长分词算法,获取所述待分词地址的M个第一分词候选集;
所述M个第一分词候选集分别对应M个第二分词候选集,对于每个所述第一分词候选集中的每个分词,判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小,将其中所述词频最大的分词存入对应的所述第二分词候选集;
在所述M个第二分词候选集中获取词频最大的第一共字分词,并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合;
其中,所述M为大于1的整数,所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。
2.如权利要求1所述的方法,其特征在于,所述通过第二预设算法获取待分词地址的一个第一分词集合包括:
在待分词地址中,依次获取每个字符的字分词趋势值,所述字分词趋势值用于表明一个字符与前后相邻字符结合为一个分词的趋势程度;
当所述字符的所述字分词趋势值为零时,以所述字符为拆分点,将所述字符及所述字符前面的多个连续字符作为一个分词,并将所述分词添加到第一分词集合中;
其中,所述多个连续字符的所述字分词趋势值为非零值。
3.如权利要求1所述的方法,其特征在于,所述通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合包括:
在所述N个第一分词集合中,获取地址库中词频最大的第二共字分词,并与所述N个第一分词集合中除所述第二共字分词外的字符共同输出至第三分词候选集,所述第二共字分词为所述待分词地址中的同一字符在所述N个第一分词集合中构成的不同分词;
若所述第三分词候选集不包含有连续的单字符时,所述第三分词候选集直接输出,得到第二分词集合;
若所述第三分词候选集中含有连续的单字符时,将所述连续的单字符进行合并处理,得到连续单字符分词;
所述词频最大的第二共字分词、所述连续单字符分词与其余字符的集合输出为第二分词集合;
在所述第三分词候选集中,除所述第二共字分词以及所述连续的单字符外的所有字符为所述其余字符。
4.如权利要求1所述的方法,其特征在于,所述通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合包括:
若所述第二分词集合中含有非连续的单字符时,对于每一个所述非连续单字符,进行如下操作:
将所述非连续单字符与所述非连续单字符的前邻接词结合,得到第一单字符分词;
将所述非连续单字符与所述非连续单字符的后邻接词结合,得到第二单字符分词;
判断所述第一单字符分词和所述第二单字符分词在地址库中出现词频的大小,将其中词频较大的单字符分词输出为单字符分词结果;
根据所述单字符分词结果,获取第三分词集合。
5.一种中文地址处理系统,其特征在于,包括:
获取单元,用于通过N种预设算法获取待分词地址的N个第一分词集合,所述N种预设算法中的每一种分别基于一类字符统计特征对所述待分词地址进行分词;
合并单元,用于通过分词合并算法对所述N个第一分词集合进行汇总处理,获取第二分词集合;
矫正单元,用于通过分词矫正算法对出现分词异常状况的所述第二分词集合进行处理,以获取第三分词集合;
结果显示单元,用于在所述第三分词集合中,将以地址要素结尾的分词作为第一分词结果,将以非地址要素结尾的分词进行矫正及合并处理,得到第二分词结果;
将所述第一分词结果与所述第二分词结果的集合输出为所述待分词地址的最终分词结果;
其中,所述N为大于1的整数;
所述获取单元包括:
第一计算子单元,用于根据M个预设的固定字长分词算法,获取所述待分词地址的M个第一分词候选集;
所述M个第一分词候选集分别对应M个第二分词候选集,对于每个所述第一分词候选集中的每个分词,判断所述分词、所述分词的前邻接词以及所述分词的后邻接词在地址库中的词频大小;将其中所述词频最大的分词存入对应的所述第二分词候选集;
在所述M个第二分词候选集中获取词频最大的第一共字分词,并与所述M个第二分词候选集中除所述第一共字分词外的字符共同输出为一个第一分词集合;
其中,所述M为大于1的整数,所述第一共字分词为所述待分词地址中的同一字符在所述M个第二分词候选集中构成的不同分词。
6.如权利要求5所述的系统,其特征在于,所述获取单元还包括:
第二计算子单元,用于在待分词地址中,依次获取每个字符的字分词趋势值,所述字分词趋势值用于表明一个字符与前后相邻字符结合为一个分词的趋势程度;
当所述字符的所述字分词趋势值为零时,以所述字符为拆分点,将所述字符及所述字符前面的多个连续字符作为一个分词,并将所述分词添加到第一分词集合中;
其中,所述多个连续字符的所述字分词趋势值为非零值。
7.如权利要求5所述的系统,其特征在于,所述合并单元具体用于:
在所述N个第一分词集合中,获取地址库中词频最大的第二共字分词,并与所述N个第一分词集合中除所述第二共字分词外的字符共同输出至第三分词候选集,所述第二共字分词为所述待分词地址中的同一字符在所述N个第一分词集合中构成的不同分词;
若所述第三分词候选集不包含有连续的单字符时,所述第三分词候选集直接输出,得到第二分词集合;
若所述第三分词候选集中含有连续的单字符时,将所述连续的单字符进行合并处理,得到连续单字符分词;
所述词频最大的第二共字分词、所述连续单字符分词与其余字符的集合输出为第二分词集合;
在所述第三分词候选集中,除所述第二共字分词以及所述连续的单字符外的所有字符为所述其余字符。
8.如权利要求5所述的系统,其特征在于,所述矫正单元具体用于:
若所述第二分词集合中含有非连续的单字符时,对于每一个所述非连续单字符,进行如下操作:
将所述非连续单字符与所述非连续单字符的前邻接词结合,得到第一单字符分词;
将所述非连续单字符与所述非连续单字符的后邻接词结合,得到第二单字符分词;
判断所述第一单字符分词和所述第二单字符分词在地址库中出现词频的大小,将其中词频较大的单字符分词输出为单字符分词结果;
根据所述单字符分词结果,获取第三分词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610851263.2A CN106445918B (zh) | 2016-09-26 | 2016-09-26 | 一种中文地址处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610851263.2A CN106445918B (zh) | 2016-09-26 | 2016-09-26 | 一种中文地址处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106445918A CN106445918A (zh) | 2017-02-22 |
CN106445918B true CN106445918B (zh) | 2019-08-27 |
Family
ID=58170204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610851263.2A Active CN106445918B (zh) | 2016-09-26 | 2016-09-26 | 一种中文地址处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106445918B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241208B (zh) * | 2017-07-10 | 2022-05-27 | 阿里巴巴集团控股有限公司 | 地址定位、地址监测、信息处理方法及装置 |
CN108304377B (zh) * | 2017-12-28 | 2021-08-06 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
CN110275940B (zh) * | 2019-06-11 | 2022-04-15 | 北京贝壳时代网络科技有限公司 | 一种中文地址识别方法及设备 |
CN111914557A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 地址解析方法、装置、设备及计算机可读存储介质 |
CN113190596B (zh) * | 2021-04-22 | 2023-02-10 | 华中科技大学 | 一种地名地址混合匹配的方法和装置 |
CN113779990B (zh) * | 2021-09-10 | 2023-10-31 | 中国联合网络通信集团有限公司 | 中文分词方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
CN104317882A (zh) * | 2014-10-21 | 2015-01-28 | 北京理工大学 | 一种决策级中文分词融合方法 |
CN105335371A (zh) * | 2014-06-11 | 2016-02-17 | 富士通株式会社 | 信息处理方法、信息处理装置和信息推荐方法 |
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
CN105893380A (zh) * | 2014-12-11 | 2016-08-24 | 成都网安科技发展有限公司 | 一种改良的文本分类特征选择方法 |
-
2016
- 2016-09-26 CN CN201610851263.2A patent/CN106445918B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
CN105335371A (zh) * | 2014-06-11 | 2016-02-17 | 富士通株式会社 | 信息处理方法、信息处理装置和信息推荐方法 |
CN104317882A (zh) * | 2014-10-21 | 2015-01-28 | 北京理工大学 | 一种决策级中文分词融合方法 |
CN105893380A (zh) * | 2014-12-11 | 2016-08-24 | 成都网安科技发展有限公司 | 一种改良的文本分类特征选择方法 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
CN105426539A (zh) * | 2015-12-23 | 2016-03-23 | 成都电科心通捷信科技有限公司 | 一种基于词典的lucene中文分词方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106445918A (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106445918B (zh) | 一种中文地址处理方法及系统 | |
US20210240682A1 (en) | Automatic entity resolution with rules detection and generation system | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN110572362B (zh) | 针对多类不均衡异常流量的网络攻击检测方法及装置 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN109408818A (zh) | 新词识别方法、装置、计算机设备及存储介质 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN105488023B (zh) | 一种文本相似度评估方法及装置 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN111708888A (zh) | 基于人工智能的分类方法、装置、终端和存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN111222328A (zh) | 标签提取方法、装置和电子设备 | |
CN109543002A (zh) | 简写字符的还原方法、装置、设备及存储介质 | |
Intxaurrondo et al. | Diamonds in the rough: Event extraction from imperfect microblog data | |
CN113139043A (zh) | 问答样本生成方法、装置、电子设备和存储介质 | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN113705164A (zh) | 一种文本处理方法、装置、计算机设备以及可读存储介质 | |
CN109033078B (zh) | 语句类别识别方法及装置、存储介质、处理器 | |
CN110941638A (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN113343012B (zh) | 一种新闻配图方法、装置、设备及存储介质 | |
WO2018077059A1 (zh) | 一种条形码的识别方法和装置 | |
CN115391551A (zh) | 事件检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |