CN109858025B - 一种地址标准化语料的分词方法及系统 - Google Patents

一种地址标准化语料的分词方法及系统 Download PDF

Info

Publication number
CN109858025B
CN109858025B CN201910010993.3A CN201910010993A CN109858025B CN 109858025 B CN109858025 B CN 109858025B CN 201910010993 A CN201910010993 A CN 201910010993A CN 109858025 B CN109858025 B CN 109858025B
Authority
CN
China
Prior art keywords
business
word segmentation
word
words
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910010993.3A
Other languages
English (en)
Other versions
CN109858025A (zh
Inventor
秦海宁
郭孟振
李士勇
张瑞飞
李广刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co ltd
Original Assignee
Dingfu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co ltd filed Critical Dingfu Intelligent Technology Co ltd
Priority to CN201910010993.3A priority Critical patent/CN109858025B/zh
Publication of CN109858025A publication Critical patent/CN109858025A/zh
Application granted granted Critical
Publication of CN109858025B publication Critical patent/CN109858025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种地址标准化语料的分词方法及系统,所述方法在获取语料样本和业务文本后,通过设定频繁二项集的置信度与支持度,以及使用频繁二项集,在语料样本中发现业务新词;再向基础分词词库添加业务新词,生成种子业务词库。再根据种子业务词库,对语料样本实施分词,生成分词结果。重新统计语料样本的概率矩阵,最后使用新的概率矩阵,对业务文本实施分词。所述方法通过频繁二项集在语料样本中发现业务新词,可以更新基础分词词库,以提高针对业务文本的准确性。所述方法还利用重新统计的概率矩阵,对业务文本实施分词,进一步提高分词的准确性。

Description

一种地址标准化语料的分词方法及系统
技术领域
本申请涉及机器学习技术领域,尤其涉及一种地址标准化语料的分词方法及系统。
背景技术
文本分类是自然语言处理的一个基本任务,试图通过机器自动推断出给定文本的标签或标签集合。文本分类一般包括文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。其中,文本的表达进一步细分为:文本预处理、索引和统计、特征抽取等步骤。在文本分类的过程中,需要对待处理的文本分解为基本处理单元,以降低后续处理的开销。对于中文自然语言,即按照语义对语句进行分词处理。
分词处理,是将连续的一串字序列按照一定的规范重新组合成词序列的过程。对于中文自然语言处理中的分词任务,对应于技术方案中,可以通过词库匹配进行分词,以及可以通过求解条件随机场进行分词。其中,条件随机场(Conditional Random Fields,CRF/CRFs),又称条件随机域,是一种判别式的概率模型,可用于标注或分析中文自然语言文字等序列资料。
现有的中文自然语言分词方法主要包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三种。例如词库法,维特比算法,RNN深度学习等。在面向特定领域的语料时,需要新的调试学习,以便达到更好的分词效果,部分应用场景对词库的依赖较大。尤其对于地址标准化语料,其中包含的文字往往并不具有具体的文字含义。例如,贵州省贵阳市南明区龙兴苑小区,其中包含小区名,地名等较难分割的词语。因此,传统的分词方法无法准确的对地址标准化语料实施分词。
发明内容
本申请提供了一种地址标准化语料的分词方法及系统,以解决传统分词方法无法准确的对地址标准化语料实施分词的问题。
一方面,本申请提供一种地址标准化语料的分词方法,包括:
获取带有标准化地址信息的语料样本和业务文本;
设定频繁二项集的置信度与支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
向基础分词词库添加所述业务新词,生成种子业务词库;
根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
根据所述分词结果,重新统计所述语料样本的概率矩阵;
使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
可选的,所述设定频繁二项集的置信度与支持度的步骤包括:
提取分词使用的概率矩阵;
根据概率矩阵设定频繁二项集的置信度与支持度,包括:根据概率矩阵中字与字之间的转移概率,设定所述频繁二项集的置信度;以及,根据概率矩阵中的字发射概率,设定所述频繁二项集的支持度。
可选的,所述分词方法中,根据所述概率矩阵中字与字之间的转移概率的预设值分位数,设定所述频繁二项集的置信度;以及,根据所述概率矩阵中字发射概率的预设值分位数,设定所述频繁二项集的支持度。
可选的,在设定频繁二项集的置信度与支持度后,所述方法还包括:
使用所述频繁二项集,在所述语料样本中发现业务新词;
遍历业务新词的发现结果中每个业务新词;
根据所述业务新词,调整置信度与支持度对应的预设值分位数。
可选的,遍历业务新词的发现结果中每个业务新词的步骤后,所述方法还包括:
根据每个业务新词所包含的字数,判断发现的业务新词是否符合当前业务场景的分词要求;
如果所述业务新词中包含的字数超过判断阈值,确定所述业务新词不符合当前业务场景的分词要求;
删除所述业务新词中不符合分词要求的词语。
可选的,根据所述种子业务词库,对所述语料样本实施分词,生成分词结果的步骤,包括:
加载所述种子业务词库;
从预存储的分词工具库中,调用符合当前业务场景的分词工具;
使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词。
可选的,从预存储的分词工具库中,调用符合当前业务场景的分词工具的步骤中,调用结巴分词工具;使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词的步骤包括:
定义结巴分词工具的分词模式为精确模式;
将所述结巴分词工具的词典加载为所述种子业务词库;
依次加载所述语料样本中的业务语句;
根据定义的分词模式,使用种子业务词库和维特比算法,对所述业务语句实施分词,以及求解所述语料样本的条件随机场。
可选的,根据所述分词结果,重新统计所述语料样本的概率矩阵的步骤包括:
遍历所述分词结果,提取所述分词结果中的业务词;
统计所有所述业务词中字与字之间的转移概率;
统计所有所述业务词中的字发射概率;
根据统计的所述转移概率和字发射概率,生成重新统计的概率矩阵。
可选的,使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词的步骤包括:
获取带有标准化地址信息的业务文本的分词结果;
通过频繁二项集发现业务文本中的业务新词;
将发现的业务新词添加到种子业务词库;
根据添加新词后的种子业务词库,对语料样本和业务文本集合再次实施分词,生成二次分词结果;
根据二次分词结果再次统计语料样本和业务文本集合的概率矩阵。
另一方面,本申请还提供一种地址标准化语料的分词系统,包括相互建立网络连接的存储装置、服务器以及文本收集装置;
其中,所述存储装置中设有存储器,用于存储适用于当前业务场景的分词工具、基础分词词库以及带有标准化地址信息的语料样本;
所述文本收集装置作为业务场景的用户交互程序或用户交互的后台程序,用于收集当前业务场景下带有标准化地址信息的业务文本;
所述服务器,用于从所述存储装置中获取所述分词工具、基础分词词库以及语料样本,以及从所述文本收集装置中获取所述业务文本;所述服务器内置控制装置,所述控制装置被进一步配置为执行以下程序步骤:
获取带有标准化地址信息的语料样本和业务文本;
设定频繁二项集的置信度与支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
向基础分词词库添加所述业务新词,生成种子业务词库;
根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
根据所述分词结果,重新统计所述语料样本的概率矩阵;
使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
由以上技术方案可知,本申请提供的地址标准化语料下的分词方法及系统在实际应用中,通过设定频繁二项集的置信度和支持度并使用频繁二项集在语料样本中发现带有标准化地址信息的业务新词,从而可以更新基础分词词库,以提高针对业务文本的准确性。所述方法还利用重新统计的概率矩阵,对业务文本实施分词,进一步提高分词的准确性,解决传统分词方法无法准确的对地址标准化语料实施分词的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种地址标准化语料的分词方法流程示意图;
图2为本申请调整频繁二项集置信度和支持度的流程示意图;
图3为本申请根据字数筛选业务新词的流程示意图;
图4为本申请对语料样本实施分词生成分词结果的流程示意图;
图5为本申请通过结巴分词对语料样本进行分词的流程示意图;
图6为本申请重新统计概率矩阵的流程示意图;
图7为本申请根据业务文本集合统计概率矩阵的流程示意图;
图8为本申请一种地址标准化语料的分词系统的结构示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
参见图1,为本申请一种地址标准化语料的分词方法流程示意图。由图1可知,本申请提供的地址标准化语料的分词方法,包括以下步骤:
S1:获取带有标准化地址信息的语料样本和业务文本。
在本申请提供的技术方案中,所述标准化地址信息是指在业务文本数据中,出现的带有中文地址名称的词语。可以具体表现为,公安域或地址域中的地名、区域名称等,例如业务语句:“贵州省贵阳市南明区龙兴苑小区”,其中包含:“贵州”、“贵阳”、“南明”、“龙兴苑”这些表示地址的词语,这些表示地址的词语没有具体的含义,一旦命名完成即含义确定不再更改,并且不同地区往往不能相互混淆。地名或区域名称存在统一的标准化词语,即该业务语句带有标准化地址信息的语句。
所述语料样本和业务文本都是指当前业务场景中使用的文本数据,其中,语料样本是在开展业务处理流程中所收集、保存的各种文本文件。例如,在金融行业中,处理的各种银行业务文件,如合同文件、协议文件、业务办理文件存档等。还可以包括在数字办公平台上制定、产生以及记录的文本文件等。不同业务场景所产生的文本数据都可以作为语料样本,因此,语料样本可以作为机器学习的训练文本,即通过语料样本反复对机器学习中使用的模型进行训练,可以得到更加适合当前业务场景的模型。为了校验训练结果,通常语料样本具有正确的处理标准,如标签、标准分词结果等。
业务文本也是当前业务场景中使用的文本数据,但在实际应用中,业务文本作为分词处理的对象,是随着业务场景中的业务进行而不断产生的待处理数据。语料样本和业务文本作为可处理的对象,都可称作为语料。本申请的应用场景中,业务文本可以来源于当前场景的服务平台或者后台程序或者服务器,可以在服务平台实时获取,而语料样本作为训练样本可存储在服务器中,并且在需要时调用获取。
S2:设定频繁二项集的置信度与支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词。
本申请中所称的业务新词是指在基础分词词库中没有记载的词语。在本申请提供的技术方案中,在获取语料样本和业务文本以后,需要先通过设定频繁二项集,并使用设定好的频繁二项集在语料样本中发现业务新词,以便向分词所使用的词库中添加业务新词,更新基础分词词库。
所述频繁二项集是频繁项集中的一种,实际应用中,可通过候选集生成和情节的向下封闭检测两个阶段,来挖掘频繁项集。即通过构建的关联规则用以自动确定两种事物(如两个字)之间的关联程度。在本申请中,所述频繁二项集的支持度(support)是语料样本中的词语同时包含字X、字Y的百分比,即概率;而置信度(confidence)是语料样本中的词语已经包含字X的情况下,包含字Y的百分比,即条件概率。
本申请提供的技术方案中,频繁二项集的置信度和支持度可以根据具体的业务场景进行设定。进一步地,为了发现语料样本中的业务新词,可以通过统计语料样本的概率矩阵,或提取分词使用的概率矩阵,确定语料样本中,字与字之间的转移概率和字发射概率。并通过字与字之间的转移概率和字发射概率分别设定频繁二项集的置信度和支持度。进一步地,在根据概率矩阵设定频繁二项集的置信度与支持度的步骤中,包括:根据概率矩阵中字与字之间的转移概率,设定所述频繁二项集的置信度;以及,根据概率矩阵中的字发射概率,设定所述频繁二项集的支持度。
进一步地,可以根据所述概率矩阵中字与字之间的转移概率的预设值分位数,设定所述频繁二项集的置信度;以及,根据所述概率矩阵中字发射概率的预设值分位数,设定所述频繁二项集的支持度。例如,设定置信度为字与字之间的转移概率的50分位数;设定支持度为字发射概率的50分位数。需要说明的是,在本实施例中,所述设定频繁二项集的置信度与支持度是指设定最小置信度阈值和最小支持度阈值。以便在后续执行发现业务新词相关的步骤时,能够与之比较,最终确定发现的词语是否为业务新词。
示例地:获取的语料样本中包含如下内容:
“贵州省贵阳市南明区”;
“贵州省贵阳市乌当区”;
“贵州省贵阳市云岩区”;
将上述文本内容作为处理对象进行处理,即经过频繁项集统计以及根据基础分词词库对比后,获得的新词如下:
“贵州省”、“贵阳市”以及“贵州省贵阳市”。
在本申请的部分实施例中,如图2所示,在设定频繁二项集的置信度与支持度后,所述方法还包括以下步骤:
S21:使用所述频繁二项集,在所述语料样本中发现业务新词;
S22:遍历业务新词的发现结果中每个业务新词;
S23:根据所述业务新词,调整置信度与支持度对应的预设值分位数。
可见,在设定了频繁二项集的置信度和支持度以后,可以使用频繁二项集、以及基础分词词库,对语料样本再次进行分词处理,发现基础分词词库中不存在的业务新词。在实施发现业务新词的步骤后,再通过遍历业务新词的发现结果中的每个词语内容,或者发现的新词数量调整置信度和支持度,重新确定合适的数值,用来发现更多的业务新词。原则上为了获得更好的新词发现效果,可以将置信度调高,支持度调低。对于置信度和支持度分别为字与字之间的转移概率和字发射概率的预设值分位数的情况,则调整对应的预设分位数即可。
进一步地,如图3所示,在遍历业务新词的发现结果中每个业务新词的步骤后,所述方法还包括以下步骤:
S221:根据每个业务新词所包含的字数,判断发现的业务新词是否符合当前业务场景的分词要求;
S222:如果所述业务新词中包含的字数超过判断阈值,确定所述业务新词不符合当前业务场景的分词要求;
S223:删除所述业务新词中不符合分词要求的词语。
由以上步骤可知,针对发现的新词可以根据每个新词中包含的字数,对新词进行筛选。具体表现为,可以针对当前业务场景中容易出现的地址标准化词语所包含的字数进行统计,确定最常出现的词语长度。例如,对于部分区域的地名词语,其一般词语长度不会超过4个字,例如:贵州省、贵阳市等,因此可以将判断阈值设置为4,以便对业务文本词语进行更加有效的拆分。
在设定判断阈值后,通过遍历发现的业务新词中所包含的字数,并分别与判断阈值进行对比,如果业务新词中包含的字数超过判断阈值,则确定这一业务新词不符合当前业务场景的分词要求。针对不符合当前业务场景的分词结果,可以将不符合要求的业务新词删除,只保留符合要求的业务新词。
示例的,如果判断阈值为4,对于上述业务新词的发现结果“贵州省”、“贵阳市”以及“贵州省贵阳市”,其中,“贵州省”和“贵阳市”包含的字数均为3,未超过判断阈值4,因此符合当前业务场景的分词要求。
而“贵州省贵阳市”包含的字数为6,超过了判断阈值4,因此不符合当前业务场景的分词要求,可以将“贵州省贵阳市”删除,仅保留“贵州省”和“贵阳市”这两个业务新词。
显然,在本实施例中,对于不同的业务场景,应设有不同的判断阈值。对于一般性地址域的词语,即一般行政区域内的地名词语,形如:“北京市”、“海淀区”、“长安街”等,其名称长度不会太长,因此可以设置判断阈值较小,以3-5为佳。而对于部分行政区域内的地名词语,或者公安域词语,形如“内蒙古自治区”、“呼和浩特市”或者其他音译的名称,如塔克拉玛干等,其名称词语长度较长,因此可以设置判断阈值较大,如设置为10-15。
S3:向基础分词词库添加所述业务新词,生成种子业务词库。
在本申请提供的技术方案中,对语料样本实施处理后,如果发现业务新词,并且发现的业务新词符合当前业务场景的分词要求,则可以将业务新词添加到基础分词词库中,形成种子业务词库。显然,在本申请提供的技术方案中,如果语料样本的量足够大,并且覆盖的业务范围足够广,则发现的业务新词数量越多,即生成的种子业务词库越符合当前业务场景需求。因此,在实际应用中,为了获取更加完善的词库,可以不断通过上述方法发现业务场景中出现的新词,并添加到种子业务词库中。
由以上方案可知,在步骤S1~步骤S3的流程中,通过频繁二项集统计语料样本中的数据,可以发现语料样本中经常出现的业务新词。并且将发现的业务新词添加到词库中,使基础分词词库不断进行完善,更加适合当前业务场景。频繁二项集的使用,一方面可以发现语料样本出现的新词,另一方面还能对发现的新词进行筛选,使得发现的业务新词能够符合当前场景的分词要求,避免向词库中添加不合规范的新词内容,从而避免造成词库中数据冗余,提高后续分词效率。
需要说明的是,在本申请提供的技术方案中,对发现的新词进行筛选不仅包括删除业务新词中长度超过判断阈值的业务新词,而且由于使用频繁二项集统计语料样本,还能够去除在语料样本中出现次数较少的生僻词,进而避免业务场景无关词语和错误词语影响新词的发现结果。因此,本申请提供的方案中,被加入词库的词语,不但是业务新词,而且与当前业务场景的相关性也能够得到保证。另外,在本申请中,还可以通过不断扩充语料样本,发现更多的业务新词,完善分词使用的词库。
S4:根据所述种子业务词库,对所述语料样本实施分词,生成分词结果。
在本申请提供的技术方案中,得到种子业务词库后,可以根据新生成的种子业务词库以及相应的分词工具对语料样本实施分词,以生成分词结果。在步骤S4中,需要根据当前业务场景特点选择合适的分词工具,例如:jieba、SnowNLP、THULAC、NLPIR等比较流行的分词工具。
具体地,如图4所示,根据所述种子业务词库,对所述语料样本实施分词,生成分词结果的步骤,进一步包括以下步骤:
S41:加载所述种子业务词库;
S42:从预存储的分词工具库中,调用符合当前业务场景的分词工具;
S43:使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词。
即在本实施例中,先加载种子业务库,再从预存储的分词工具库中,调用符合当前业务场景的分词工具;也可以从预存储的分词工具库中,选择合适的分词工具后,可以通过调用该分词工具,加载种子业务词库。再使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词。
进一步地,如图5所示,从预存储的分词工具库中,调用符合当前业务场景的分词工具的步骤中,调用结巴(jieba)分词工具;使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词的步骤包括:
S421:定义结巴分词工具的分词模式为精确模式;
S422:将所述结巴分词工具的词典加载为所述种子业务词库;
S423:依次加载所述语料样本中的业务语句;
S424:根据定义的分词模式,使用种子业务词库和维特比算法,对所述业务语句实施分词,以及求解所述语料样本的条件随机场。
由以上步骤可知,本实施例中,结巴分词工具一般包括三种分词模式,即:精确模式、全模式以及搜索引擎模式;其中,精确模式为通过完善的词库,将句子最精确地切开,最适合用于文本分析;全模式是把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义问题,也不适用于带有地址标准化语料的分词任务;而搜索引擎模式在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词;因此,为了高效准确的对语料样本实施分词,本申请可以定义结巴分词工具的分词模式为精确模式。
显然,在本申请提供的技术方案中,不同的分词模式下得到的分词结果不同,当然也适用于不同情况的语料样本。本实施在面对不同的语料样本情况下,可以灵活选取不同类型的分词模式,以获得更好的分词效果。例如,语料样本来源于业务场景中的搜索程序时,可以选择搜索引擎模式。
在定义了结巴分词工具的分词模式后,通过加载种子业务词库为结巴分词工具的词典,实施对语料样本分词的基础词库。即根据定义的分词模式,使用种子业务词库和维特比算法,对所述业务语句实施分词,以及求解所述语料样本的条件随机场。由于在种子业务库中已经添加了前述步骤中发现的业务新词,因此通过种子业务词库,可以对语料样本中出现的业务新词实施有效切分。
例如,语料样本中的语句分别为:
“贵州省贵阳市南明区”;
“贵州省贵阳市乌当区”;
“贵州省贵阳市云岩区”;
通过结巴分词工具和种子业务词库,可以得到分词结果为:
“贵州省/贵阳市/南明区”;
“贵州省/贵阳市/乌当区”;
“贵州省/贵阳市/云岩区”。
S5:根据所述分词结果,重新统计所述语料样本的概率矩阵。
在使用结巴分词工具进行分词以后,本申请提供的技术方案中,可以根据分词得到的结果,重新统计语料样本的概率矩阵。进一步地,如图6所示,根据所述分词结果,重新统计所述语料样本的概率矩阵的步骤还包括:
S51:遍历所述分词结果,提取所述分词结果中的业务词;
S52:统计所有所述业务词中字与字之间的转移概率;
S53:统计所有所述业务词中的字发射概率;
S54:根据统计所述转移概率和字发射概率,生成重新统计的概率矩阵。
即在本实施例中,针对分词结果可以遍历其中的所有业务词,从而统计所有业务词中字与字之间的转移概率以及字发射概率,最后统计每个业务词对应的字在整个语料样本中的转移概率和字发射概率,生成概率矩阵,以便在后续步骤中,对业务文本进行分词处理。
具体地,本实施例中,所述使用种子业务词库和维特比算法,对所述业务语句实施分词,以及求解所述语料样本的条件随机场的过程,实质上是利用隐马尔科夫模型进行中文分词,这种方法不是仅仅依赖于词库的分词,而是以机器学习的分词为主,词库分词的方式为辅,从而兼顾分词效果和分词效率。
实际应用中,可以预先准备语料样本,即上述步骤中分词后的语料样本,用于进行机器学习。再进行初步语料样本的特征学习,即对语料样本中的业务词,可以基于学习字的状态来进行状态分析。其中,对于一个字来说,它有4个状态,分别是:词头(Begin)、词中(Middle)、词尾(End)、单字成词(Single),简称B,M,E,S或者B,I,E,S。基于上述语料样本,需要分析出每一个字的状态,例如:
“贵州省”分析出每个字的状态为“贵∣B州∣M省∣E”。
依次对语料样本中的每一个词,添加上述状态信息后,再通过进行特征学习,包括统计如下信息:
每个字在语料样本中出现的次数;
每个字,出现在业务词的词头(B)、词中(M)、词尾(E)、单字成词(S)的概率;
每个字,当其为词头(B)的时候,其转移到下一个词的状态概率;
当一个字出现的时候,其后面出现的是什么字,以及出现该字的概率;
通过统计上述信息,即可以生成重新统计的概率矩阵。本实施例中,还可以利用一个哈希表描述统计的信息。即在哈希表中,key栏存字,value栏存其对应的特征,从而表示相应的概率矩阵。
例如,语料样本中包含公安域信息的小区名称如下:
“龙兴苑”;
“龙升苑”;
“龙喜苑”;
通过统计上述小区名称中每个字,出现在业务词的词头(B)、词中(M)、词尾(E)、单字成词(S)的概率,可以得到:
“龙”在“B”概率很大,“龙”的“BM”概率也很大;
“苑”在“E”概率很大,“苑”的“EB”概率也很大。
从而确定,当业务词中词头字为“龙”,词尾字为“苑”的词,即可进行相应的切分,完成分词任务。
S6:使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
本申请提供的技术方案中,可以根据上述方法中重新统计的概率矩阵对业务文本实施分词。即在获取到业务文本后,可以先根据业务文本中的标点符号或段落标记将业务文本分割为多个语句,再依次提取每个语句,作为分词的对象。针对每个语句,可以以字为单位对其进行处理,将语句转化为字符组。
例如,从业务文本中提取的语句为:
“贵州省贵阳市南明区龙兴苑小区”;
可以将其转化为字符组,即:
“贵”、“州”、“省”、“贵”、“阳”、“市”、“南”、“明”、“区”、“龙”、“兴”、“苑”、“小”、“区”。
在将语句转化为字符组以后,可以根据上述步骤中重新统计的概率矩阵,取出每一个字对应的特征。即给每一个字确定它是B、M、E、S四个状态中的哪一种,同样可以建立一个矩阵表示每个状态,再通过维特比算法从该矩阵里求一个路径。例如,计算出“贵”字在B、M、E、S的状态值。依次计算出其他字在在B、M、E、S的状态值,再根据每个字的状态值进行组合,确定最终分词结果。
例如:“贵州省/贵阳市/南明区/龙兴苑/小区”。
由于在本申请中,要不断发现当前业务场景下的业务新词,需要对语料样本进行不断扩展,因此,可以在对业务文档进行分词后,通过校验分词结果,使业务文档也可以作为后续分词方法中的语料样本。进一步地,如图7所示,使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词的步骤还包括:
S61:获取带有标准化地址信息的业务文本的分词结果;
S62:通过频繁二项集发现业务文本中的业务新词;
S63:将发现的业务新词添加到种子业务词库;
S64:根据添加新词后的种子业务词库,对语料样本和业务文本集合再次实施分词,生成二次分词结果;
S65:根据二次分词结果再次统计语料样本和业务文本集合的概率矩阵。
可见,本实施例根据可以在业务文档分词完成后,通过对分词结果进行校验,确定无误后,将业务文档的分词结果也作为语料样本,作为后续业务文档的分词依据。应用中,其步骤与前述步骤相同,都是通过频繁二项集发现业务新词,再通过更新种子业务词库,以及求解相应的概率矩阵。本实施例中,通过不断将业务文本的分词结果作为语料样本,可以实时更新语料样本,从而达到更新分词词库以及概率矩阵的目的,使得上述方法在应用中,随着应用过程越来越适合当前应用场景。
基于上述地址标准化语料下的分词方法,如图8所示,本申请还提供一种地址标准化语料的分词系统,包括相互建立网络连接的存储装置、服务器以及文本收集装置;
其中,所述存储装置中设有存储器,用于存储适用于当前业务场景的分词工具、基础分词词库以及带有标准化地址信息的语料样本;
所述文本收集装置作为业务场景的用户交互程序或用户交互的后台程序,用于收集当前业务场景下带有标准化地址信息的业务文本;
所述服务器,用于从所述存储装置中获取所述分词工具、基础分词词库以及语料样本,以及从所述文本收集装置中获取所述业务文本;所述服务器内置控制装置,如图1所示,所述控制装置被进一步配置为执行以下程序步骤:
S1:获取带有标准化地址信息的语料样本和业务文本;
S2:设定频繁二项集的置信度与支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
S3:向基础分词词库添加所述业务新词,生成种子业务词库;
S4:根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
S5:根据所述分词结果,重新统计所述语料样本的概率矩阵;
S6:使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
需要说明的是,在本申请提供的技术方案中,公开的分词方法及分词系统适用于带有地址标准化语料的业务场景中,即方案中使用的公安域,地址域,以及统计好概率矩阵,求解新的分词任务。对于本领域的技术人员,根据应用在地址标准化语料的一个业务场景中的分词方法,能够在不付出创造性劳动的前提下,想到其他任何领域,其方案实质过程中只需要在步骤S1中,获取带有不同信息的语料样本和业务文本即可,因此,其相应联想的方案也属于本申请的保护范围。
由以上技术方案可知,本申请提供一种地址标准化语料的分词方法及系统,所述方法在获取带有标准化地址信息的语料样本和业务文本后,通过设定频繁二项集的置信度与支持度,以及使用频繁二项集,在语料样本中发现业务新词;再向基础分词词库添加业务新词,生成种子业务词库。再根据种子业务词库,对语料样本实施分词,生成分词结果,并且,重新统计语料样本的概率矩阵,最后使用新的概率矩阵,对带有标准化地址信息的业务文本实施分词。
所述方法通过设定频繁二项集的置信度和支持度并使用频繁二项集在语料样本中发现带有标准化地址信息的业务新词,从而可以更新基础分词词库,以提高针对业务文本的准确性。所述方法还利用重新统计的概率矩阵,对业务文本实施分词,进一步提高分词的准确性,解决传统分词方法无法准确的对地址标准化语料实施分词的问题。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (9)

1.一种地址标准化语料的分词方法,其特征在于,包括:
获取带有标准化地址信息的语料样本和业务文本;
提取分词使用的概率矩阵;
根据概率矩阵设定频繁二项集的置信度与支持度,包括:根据概率矩阵中字与字之间的转移概率,设定所述频繁二项集的置信度;以及,根据概率矩阵中的字发射概率,设定所述频繁二项集的支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
向基础分词词库添加所述业务新词,生成种子业务词库;
根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
根据所述分词结果,重新统计所述语料样本的概率矩阵;
使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
2.根据权利要求1所述的分词方法,其特征在于,所述分词方法中,根据所述概率矩阵中字与字之间的转移概率的预设值分位数,设定所述频繁二项集的置信度;以及,根据所述概率矩阵中字发射概率的预设值分位数,设定所述频繁二项集的支持度。
3.根据权利要求2所述的分词方法,其特征在于,在设定频繁二项集的置信度与支持度后,所述方法还包括:
使用所述频繁二项集,在所述语料样本中发现业务新词;
遍历业务新词的发现结果中每个业务新词;
根据所述业务新词,调整置信度与支持度对应的预设值分位数。
4.根据权利要求3所述的分词方法,其特征在于,遍历业务新词的发现结果中每个业务新词的步骤后,所述方法还包括:
根据每个业务新词所包含的字数,判断发现的业务新词是否符合当前业务场景的分词要求;
如果所述业务新词中包含的字数超过判断阈值,确定所述业务新词不符合当前业务场景的分词要求;
删除所述业务新词中不符合分词要求的词语。
5.根据权利要求1所述的分词方法,其特征在于,根据所述种子业务词库,对所述语料样本实施分词,生成分词结果的步骤,包括:
加载所述种子业务词库;
从预存储的分词工具库中,调用符合当前业务场景的分词工具;
使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词。
6.根据权利要求5所述的分词方法,其特征在于,从预存储的分词工具库中,调用符合当前业务场景的分词工具的步骤中,调用结巴分词工具;使用所述分词工具,以所述种子业务词库作为词库对所述语料样本求解条件随机场,完成分词的步骤包括:
定义结巴分词工具的分词模式为精确模式;
将所述结巴分词工具的词典加载为所述种子业务词库;
依次加载所述语料样本中的业务语句;
根据定义的分词模式,使用种子业务词库和维特比算法,对所述业务语句实施分词,以及求解所述语料样本的条件随机场。
7.根据权利要求1所述的分词方法,其特征在于,根据所述分词结果,重新统计所述语料样本的概率矩阵的步骤包括:
遍历所述分词结果,提取所述分词结果中的业务词;
统计所有所述业务词中字与字之间的转移概率;
统计所有所述业务词中的字发射概率;
根据统计的所述转移概率和字发射概率,生成重新统计的概率矩阵。
8.根据权利要求1所述的分词方法,其特征在于,使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词的步骤包括:
获取带有标准化地址信息的业务文本的分词结果;
通过频繁二项集发现业务文本中的业务新词;
将发现的业务新词添加到种子业务词库;
根据添加新词后的种子业务词库,对语料样本和业务文本集合再次实施分词,生成二次分词结果;
根据二次分词结果再次统计语料样本和业务文本集合的概率矩阵。
9.一种地址标准化语料的分词系统,其特征在于,包括相互建立网络连接的存储装置、服务器以及文本收集装置;
其中,所述存储装置中设有存储器,用于存储适用于当前业务场景的分词工具、基础分词词库以及带有标准化地址信息的语料样本;所述文本收集装置作为业务场景的用户交互程序或用户交互的后台程序,用于收集当前业务场景下带有标准化地址信息的业务文本;所述服务器,用于从所述存储装置中获取所述分词工具、基础分词词库以及语料样本,以及从所述文本收集装置中获取所述业务文本;
所述服务器内置控制装置,所述控制装置被进一步配置为执行以下程序步骤:
获取带有标准化地址信息的语料样本和业务文本;
设定频繁二项集的置信度与支持度;以及使用所述频繁二项集,在所述语料样本中发现业务新词;
向基础分词词库添加所述业务新词,生成种子业务词库;
根据所述种子业务词库,对所述语料样本实施分词,生成分词结果;
根据所述分词结果,重新统计所述语料样本的概率矩阵;
使用重新统计的概率矩阵,对带有标准化地址信息的业务文本实施分词。
CN201910010993.3A 2019-01-07 2019-01-07 一种地址标准化语料的分词方法及系统 Active CN109858025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910010993.3A CN109858025B (zh) 2019-01-07 2019-01-07 一种地址标准化语料的分词方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910010993.3A CN109858025B (zh) 2019-01-07 2019-01-07 一种地址标准化语料的分词方法及系统

Publications (2)

Publication Number Publication Date
CN109858025A CN109858025A (zh) 2019-06-07
CN109858025B true CN109858025B (zh) 2023-06-13

Family

ID=66894047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910010993.3A Active CN109858025B (zh) 2019-01-07 2019-01-07 一种地址标准化语料的分词方法及系统

Country Status (1)

Country Link
CN (1) CN109858025B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442856B (zh) * 2019-06-14 2023-09-26 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN111291195B (zh) * 2020-01-21 2021-08-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
CN111782729A (zh) * 2020-07-07 2020-10-16 国网湖南省电力有限公司 一种分布式基础词库的构建和同步的方法及装置
CN112818665A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 结构化地址信息的方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107273356B (zh) * 2017-06-14 2020-08-11 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质
CN108038103B (zh) * 2017-12-18 2021-08-10 沈阳智能大数据科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108647199A (zh) * 2018-03-23 2018-10-12 江苏速度信息科技股份有限公司 一种地名新词的发现方法

Also Published As

Publication number Publication date
CN109858025A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109858025B (zh) 一种地址标准化语料的分词方法及系统
CN109445834B (zh) 基于抽象语法树的程序代码相似性快速比较方法
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN111124487B (zh) 代码克隆检测方法、装置以及电子设备
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
WO2022095353A1 (zh) 语音识别结果的测评方法、装置、设备及存储介质
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN110188359B (zh) 一种文本实体抽取方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN115186654B (zh) 一种公文文本摘要生成方法
CN111178051A (zh) 建筑信息模型自适应的中文分词方法及装置
CN115687621A (zh) 一种短文本标签标注方法及装置
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN113703773B (zh) 一种基于nlp的二进制代码相似性比对方法
CN112287657B (zh) 基于文本相似度的信息匹配系统
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN116136955B (zh) 文本转写方法、装置、电子设备及存储介质
CN115688779B (zh) 一种基于自监督深度学习的地址识别方法
CN110263123A (zh) 机构名简称的预测方法、装置和计算机设备
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN110472243B (zh) 一种中文拼写检查方法
CN114564942A (zh) 一种用于监管领域的文本纠错方法、存储介质和装置
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co.,Ltd.

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant