CN113111230B - 基于正则表达式的接处警文本户籍地地址提取方法和装置 - Google Patents
基于正则表达式的接处警文本户籍地地址提取方法和装置 Download PDFInfo
- Publication number
- CN113111230B CN113111230B CN202010306816.2A CN202010306816A CN113111230B CN 113111230 B CN113111230 B CN 113111230B CN 202010306816 A CN202010306816 A CN 202010306816A CN 113111230 B CN113111230 B CN 113111230B
- Authority
- CN
- China
- Prior art keywords
- address
- household
- positive
- information
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 224
- 238000000605 extraction Methods 0.000 title claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims description 194
- 238000012360 testing method Methods 0.000 claims description 98
- 238000002372 labelling Methods 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 125000001436 propyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Alarm Systems (AREA)
Abstract
本公开实施例公开了基于正则表达式的接处警文本户籍地地址提取方法和装置。该方法的一具体实施方式包括:获取待提取户籍地地址信息接处警文本;将待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;将待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于户籍地标识位置信息序列中的每个户籍地标识位置信息,执行户籍地地址信息提取操作;将户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。该实施方式实现了自动提取接处警文本中的户籍地地址信息。
Description
技术领域
本公开实施例涉及计算机技术领域,具体涉及基于正则表达式的接处警文本户籍地地址提取方法和装置。
背景技术
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,接处警文本中经常会涉及关于涉案人员户籍地(例如,祖籍地、现户籍地等)的描述。案情分析员可以根据接处警文本中的户籍地地址信息,分析不同接处警文本中出现的相同或相近的户籍地地址信息以期进行进一步处理。例如,可以通过相同或相近的户籍地地址信息发现系列案件或关联案件。因此,提取接处警文本中的户籍地地址信息是非常重要的。
然而,目前大都是采用人工提取接处警文本中的户籍地地址信息,凭人工提取接处警文本中的户籍地地址信息的人工成本较高且依赖于个人经验。
发明内容
本公开实施例提出了基于正则表达式的接处警文本户籍地地址提取方法和装置。
第一方面,本公开实施例提供了一种基于正则表达式的接处警文本户籍地地址信息提取方法,该方法包括:获取待提取户籍地地址信息接处警文本;将待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;将待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于户籍地标识位置信息序列中的每个户籍地标识位置信息,执行以下户籍地地址信息提取操作:将该户籍地标识位置信息中的结束位置确定为目标结束位置;对于地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小;将户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
在一些实施例中,户籍地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注户籍地标识位置信息序列,标注户籍地标识位置信息包括起始位置和结束位置,标注户籍地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为户籍地标识;用第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;对于第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为户籍地标识提取正则表达式。
在一些实施例中,在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:执行第一目标数目次第一正样本子集合生成操作以生成第一目标数目个第一正样本子集合,第一正样本子集合生成操作包括:在第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,N为对L除以M的商向下取整所得的整数,L是第一正样本集合中的第一正样本数量,M是大于等于2小于L的正整数。
在一些实施例中,地址提取正则表达式是通过如下第二训练步骤预先训练得到的:获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;用第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;对于第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;基于第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为地址提取正则表达式。
在一些实施例中,在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:执行第二目标数目次第二正样本子集合生成操作以生成第二目标数目个第二正样本子集合,第二正样本子集合生成操作包括:在第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,N’为对L’除以M’的商向下取整所得的整数,L’是第二正样本集合中的第二正样本数量,M’是大于等于2小于L’的正整数。
在一些实施例中,目标地址位置信息对应的编辑距离小于预设编辑距离阈值。
在一些实施例中,预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注户籍地信息序列,其中,标注户籍地信息包括户籍地标识起始位置、户籍地标识结束位置、地址起始位置和地址结束位置,标注户籍地信息用于表征历史接处警文本中户籍地标识起始位置和户籍地标识结束位置之间为户籍地标识,且该户籍地标识所对应的户籍地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;对于第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注户籍地信息序列的各标注户籍地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注户籍地信息对应的编辑距离为该标注户籍地信息中的地址起始位置减去相应户籍地标识结束位置所得的差值;将第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为预设编辑距离阈值。
第二方面,本公开实施例提供了一种基于正则表达式的接处警文本户籍地地址信息提取装置,该装置包括:获取单元,被配置成获取待提取户籍地地址信息接处警文本;第一匹配单元,被配置成将待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;第二匹配单元,被配置成将待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;提取单元,被配置成对于户籍地标识位置信息序列中的每个户籍地标识位置信息,执行以下户籍地地址信息提取操作:将该户籍地标识位置信息中的结束位置确定为目标结束位置;对于地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小;确定单元,被配置成将户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
在一些实施例中,户籍地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注户籍地标识位置信息序列,标注户籍地标识位置信息包括起始位置和结束位置,标注户籍地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为户籍地标识;用第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;对于第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为户籍地标识提取正则表达式。
在一些实施例中,在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:执行第一目标数目次第一正样本子集合生成操作以生成第一目标数目个第一正样本子集合,第一正样本子集合生成操作包括:在第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,N为对L除以M的商向下取整所得的整数,L是第一正样本集合中的第一正样本数量,M是大于等于2小于L的正整数。
在一些实施例中,地址提取正则表达式是通过如下第二训练步骤预先训练得到的:获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;用第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;对于第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;基于第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为地址提取正则表达式。
在一些实施例中,在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:执行第二目标数目次第二正样本子集合生成操作以生成第二目标数目个第二正样本子集合,第二正样本子集合生成操作包括:在第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,N’为对L’除以M’的商向下取整所得的整数,L’是第二正样本集合中的第二正样本数量,M’是大于等于2小于L’的正整数。
在一些实施例中,目标地址位置信息对应的编辑距离小于预设编辑距离阈值。
在一些实施例中,预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注户籍地信息序列,其中,标注户籍地信息包括户籍地标识起始位置、户籍地标识结束位置、地址起始位置和地址结束位置,标注户籍地信息用于表征历史接处警文本中户籍地标识起始位置和户籍地标识结束位置之间为户籍地标识,且该户籍地标识所对应的户籍地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;对于第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注户籍地信息序列的各标注户籍地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注户籍地信息对应的编辑距离为该标注户籍地信息中的地址起始位置减去相应户籍地标识结束位置所得的差值;将第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为预设编辑距离阈值。
第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。
现有技术中一般是通过人工对接处警文本提取户籍地地址信息,可能存在以下问题:(1)历史遗留有大量未曾被提取户籍地地址信息的接处警文本,以及随着时间的推移接警处警员每天都会录入新的大量接处警文本,导致接处警文本待提取户籍地地址信息的数据体量太大,人工提取所需的人力和时间成本太高;(2)接处警文本大多采用自然语言描述、表达方式严重口语化且无规则,人工提取户籍地地址信息难度较高;(3)户籍地地址信息种类较多(例如,不同省市自治区的户籍记录方式可能不同),不同种类户籍地地址信息提取方式不同,依赖于人工经验,即人工提取过程中学习成本较高。
本公开的实施例提供的基于正则表达式的接处警文本户籍地地址提取方法和装置,通过将待提取户籍地地址信息接处警文本分别与户籍地标识提取正则表达式和地址提取正则表达式匹配,得到户籍地标识位置信息序列和地址位置信息序列,再对于户籍地标识位置信息序列中的每个户籍地标识位置信息,根据该户籍地标识位置信息中的结束位置和地址位置信息序列中的每个地址位置信息的其实位置的差值,确定待提取户籍地地址信息接处警文本中与该户籍地标识位置信息对应的户籍地地址信息,最后将户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。从而有效利用了户籍地标识提取正则表达式和地址提取正则表达式,实现了对接处警文本自动提取户籍地地址信息,无需人工操作,降低了对接处警文本进行户籍地地址信息提取的成本,提高了对接处警文本进行户籍地地址信息提取的提取速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的基于正则表达式的接处警文本户籍地地址信息提取方法的一个实施例的流程图;
图3是根据本公开的第一训练步骤的一个实施例的流程图;
图4是根据本公开的第二训练步骤的一个实施例的流程图;
图5是根据本公开的第三训练步骤的一个实施例的流程图;
图6是根据本公开的基于正则表达式的接处警文本户籍地地址信息提取装置的一个实施例的结构示意图;
图7是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的基于正则表达式的接处警文本户籍地地址信息提取方法或基于正则表达式的接处警文本户籍地地址信息提取装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如接处警记录类应用、接处警文本户籍地地址信息提取类应用、网页浏览器应用等。
终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是具有显示屏并且支持文本输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供接处警文本户籍地地址信息提取服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103可以是提供各种服务的服务器,例如对终端设备101发送的接处警文本提供户籍地地址信息提取的后台服务器。后台服务器可以对接收到的接处警文本进行分析等处理,并将处理结果(例如户籍地地址信息集合)反馈给终端设备。
在一些情况下,本公开实施例所提供的基于正则表达式的接处警文本户籍地地址信息提取方法可以由终端设备101和服务器103共同执行,例如,“获取待提取户籍地地址信息接处警文本”的步骤可以由终端设备101执行,其余步骤可以由服务器103执行。本公开对此不做限定。相应地,基于正则表达式的接处警文本户籍地地址信息提取装置也可以分别设置于终端设备101和服务器103中。
在一些情况下,本公开实施例所提供的基于正则表达式的接处警文本户籍地地址信息提取方法可以由服务器103执行,相应地,基于正则表达式的接处警文本户籍地地址信息提取装置也可以设置于服务器103中,这时,系统架构100也可以不包括终端设备101。
在一些情况下,本公开实施例所提供的基于正则表达式的接处警文本户籍地地址信息提取方法可以由终端设备101执行,相应地,基于正则表达式的接处警文本户籍地地址信息提取装置也可以设置于终端设备101中,这时,系统架构100也可以不包括服务器103。
需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供接处警文本户籍地地址信息提取服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本公开的基于正则表达式的接处警文本户籍地地址信息提取方法的一个实施例的流程200。该基于正则表达式的接处警文本户籍地地址信息提取方法,包括以下步骤:
步骤201,获取待提取户籍地地址信息接处警文本。
在本实施例中,基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体(例如,图1所示的服务器)可以获取本地存储的待提取户籍地地址信息接处警文本,或者上述执行主体也可以远程地从与上述执行主体网络连接的其他电子设备(例如,图1所示的终端设备)获取待提取户籍地地址信息接处警文本。
这里,待提取户籍地地址信息接处警文本可以是接警员根据接警电话的内容整理的文本数据或者处警员根据处警过程整理的文本数据。待提取户籍地地址信息接处警文本也可以是从终端设备接收的用户在终端设备上安装的报警类应用或者具备报警功能的网页中输入的报警文本。
步骤202,将待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列。
在本实施例中,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串可以确定给定的字符串是否匹配正则表达式的过滤逻辑,并且通过给定一个正则表达式可以从字符串中获取想要提取的特定部分。
在本实施例中,户籍地标识提取正则表达式可以是用于提取文本中的户籍地标识的正则表达式。其中,户籍地标识是用于指示户籍地地址信息开始的文本。例如,户籍地标识可以是“户籍”、“户口”、“祖籍”、“现籍”等。
这里,基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体(例如,图1所示的服务器)可以将待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式进行匹配,提取出户籍地标识位置信息,这里户籍地标识位置信息可以包括起始位置和结束位置,用于表征所提取的户籍地标识在待提取户籍地地址信息接处警文本中相应起始位置和结束位置。可以理解的是,在待提取户籍地地址信息接处警文本中可能不存在户籍地标识或者存在至少一个户籍地标识,因此可以将上述所提取的每个户籍地标识的户籍地标识位置信息按照相应户籍地标识在待提取户籍地地址信息接处警文本中的先后顺序形成户籍地位置信息序列。
例如,假设户籍地标识包括“户籍”、“户口”、“祖籍”和“现籍”,将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”与户籍地标识提取正则表达式匹配,可以得到户籍地标识位置信息序列{“起始位置-4;结束位置-5”,“起始位置-14;结束位置-15”,“起始位置-20;结束位置-21”}。即,其中“祖籍”和“现籍”为户籍地标识。
在一些可选的实现方式中,户籍地标识提取正则表达式可以是由技术人员基于对大量的包括户籍地标识的历史接处警文本中户籍地标识部分进行统计分析而制定的对字符串操作的、用于提取户籍地标识的逻辑公式。
在一些可选的实现方式中,户籍地标识提取正则表达式也可以是通过如图3所示的第一训练步骤预先训练得到的。请参考图3,图3示出了根据本公开的第一训练步骤的一个实施例的流程300。该第一训练步骤的流程300可以包括以下步骤:
步骤301,获取第一训练样本集合和第一测试样本集合。
这里,第一训练步骤的执行主体可以与上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体相同。这样,第一训练步骤的执行主体可以在训练得到户籍地标识提取正则表达式后,将户籍地标识提取正则表达式存储在上述执行主体本地,并在执行上述基于正则表达式的接处警文本户籍地地址信息提取方法的过程中读取上述训练得到的户籍地标识提取正则表达式。
这里,第一训练步骤的执行主体也可以与上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体不同。这样,第一训练步骤的执行主体可以在训练得到户籍地标识提取正则表达式后,将户籍地标识提取正则表达式发送给上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体。这样,上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体可以在执行上述基于正则表达式的接处警文本户籍地地址信息提取方法的过程中读取上述从第一训练步骤的执行主体接收到的户籍地标识提取正则表达式。
这里,第一训练步骤的执行主体可以首先获取第一训练样本集合和第一测试样本集合。其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注户籍地标识位置信息序列,标注户籍地标识位置信息可以包括起始位置和结束位置,历史接处警文本相应的标注户籍地标识位置信息用于表征该历史接处警文本在相应的标注户籍地标识位置信息中起始位置和结束位置之间为户籍地标识。需要说明的是,实践中,接处警文本中可能不包括户籍地标识或者包括至少一个户籍地标识。因此,第一训练样本和第一测试样本中包括的标注户籍地标识位置信息序列可能为空,或者可能包括至少一个标注户籍地标识位置信息。
这里,第一训练样本和第一测试样本中的标注户籍地标识位置信息序列可以是由人工对相应的历史接处警文本进行标注得到的。
实践中,为了提高训练得到的户籍地标识提取正则表达式对户籍地标识的匹配度,这里所获取的第一训练样本和第一测试样本中的历史接处警文本可以不包括无效接处警文本。例如,有的接处警文本中不包括任何户籍地地址信息,没有实际提取户籍地地址信息的价值,这样的接处警文本可以被认为是无效接处警文本。
步骤302,用第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合。
如果第一训练样本集合中的第一训练样本的标注户籍地标识位置信息序列不为空,表明该第一训练样本的历史接处警文本中包括了至少一个户籍地标识,那么该第一训练样本即为第一正样本。因此,可以用第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合。
步骤303,在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合。
在步骤302中得到了第一正样本集合之后,第一训练步骤的执行主体可以在第一正样本集合中选取第一正样本组成第一目标数目个正样本子集合。这里第一目标数目可以是预先设定的,第一目标数目也可以经由上述执行主体中提供的界面接收用户输入而确定。
在一些可选的实现方式中,步骤303可以如下执行:执行第一目标数目次第一正样本子集合生成操作以生成第一目标数目个第一正样本子集合。其中,第一正样本子集合生成操作包括:在第一正样本集合中随机选取N个第一正样本组成第一正样本子集合。其中,N为对L除以M的商向下取整所得的整数,L是第一正样本集合中的第一正样本数量,M是大于等于2小于L的正整数。举例说明,比如,第一正样本集合中包括419个第一正样本,第一目标数目为4,M为2,L即419,N为419除以2的商向下取整的正整数209,这里执行4次以下操作:从该包括419个第一正样本的第一正样本集合中随机选取209个第一正样本组成第一正样本子集合。最终可得到4个第一正样本子集合,而每个第一正样本子集合包括209个第一正样本。
在一些可选的实现方式中,步骤303也可以如下执行:
将第一正样本集合分成第一目标数目个第一正样本子集合,其中,每个第一正样本子集合中第一正样本的数目尽量接近。具体而言,设第一正样本集合包括L个第一正样本,第一目标数目为T,Q为对L除以T的商向下取整所得的正整数,R为L除以T的余数,那么当R为零的时候,可以将第一正样本集合平均分成T个第一正样本子集合,每个第一正样本子集合中的第一正样本数为Q个。当R大于零的时候,可以将第一正样本集合平均分成T个第一正样本子集合,其中,T-1个第一正样本子集合包括Q个第一正样本,而另一个第一正样本子集合包括Q+R个第一正样本。
步骤304,对于第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式。
经过步骤303,已经在第一正样本集合中选取第一正样本组成了第一目标数目个第一正样本子集合。这里,第一训练步骤的执行主体可以对于上述所生成的第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,采用各种实现方式生成候选正则表达式。具体而言,可以首先对于该第一正样本子集合中的每个第一正样本,按照该第一正样本的标注户籍地标识位置信息序列中每个标注户籍地标识位置信息中的起始位置和终止位置获取该第一正样本的历史接处警文本中的相应户籍地标识。然后,基于针对该第一正样本子集合中的各第一正样本所获取的户籍地标识,生成与该第一正样本子集合对应的候选正则表达式。需要说明的是,基于至少一个文本生成正则表达式是目前广泛研究和应用的现有技术,在此不再赘述。
经过步骤304,可以生成最多第一目标数目个候选正则表达式。
步骤305,基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率。
具体而言,第一训练步骤的执行主体可以对于步骤304中所生成的每个候选正则表达式,执行以下第一准确率确定操作:首先,对于步骤301中所获取的第一测试样本集合中的每个第一测试样本,确定该第一测试样本中的历史接处警文本是否与该候选正则表达式匹配;如果确定匹配,则表明根据该候选正则表达式该第一测试样本中的历史接处警文本包括户籍地标识,再进一步确定该第一测试样本中的标注户籍地标识位置信息序列是否为空,如果为空表明该第一测试样本中的历史接处警文本中不包括户籍地标识,则可以确定该第一测试样本相对于该候选正则表达式为负样本,如果不为空表明该第一测试样本中的历史接处警文本中包括户籍地标识,可以确定该第一测试样本相对于该候选正则表达式为正样本;如果确定不匹配,则表明根据该候选正则表达式该测试样本中的历史接处警文本不包括户籍地标识,再进一步确定该第一测试样本中的标注户籍地标识位置信息序列是否为空,如果为空表明该第一测试样本中的历史接处警文本中不包括户籍地标识,则可以确定该第一测试样本相对于该候选正则表达式为正样本,如果不为空表明该第一测试样本中的历史接处警文本中包括户籍地标识,则可以确定该第一测试样本相对于该候选正则表达式为负样本;最后,将第一测试样本集合中相对于该候选正则表达式为正样本的第一测试样本数目除以第一测试样本集合中第一测试样本的总数所得的比值确定为该候选正则表达式对应的准确率。
步骤306,将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为户籍地标识提取正则表达式。
利用上述流程300所示的第一训练步骤可以自动生成户籍地标识提取正则表达式,降低了生成户籍地标识提取正则表达式的人工成本。并且随着时间的推移,人们表达方式会产生变化,反应在接处警文本中的户籍地标识也可能会产生变化,如果还是按照固有的方式去提取接处警文本中的户籍地标识可能会出现错误。这时可以获取最新的第一训练样本集合和第一测试样本集合采用第一训练步骤重新生成户籍地标识提取正则表达式,以符合当前接处警文本的最新表达需求。
步骤203,将待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列。
在本实施例中,地址提取正则表达式可以是用于提取文本中的地址的正则表达式。
这里,基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体(例如,图1所示的服务器)可以将待提取户籍地地址信息接处警文本与地址提取正则表达式进行匹配,可以提取出地址位置信息,这里地址位置信息可以包括起始位置和结束位置,用于表征所提取的地址在待提取户籍地地址信息接处警文本中相应起始位置和结束位置。可以理解的是,在待提取户籍地地址信息接处警文本中可能不存在地址或者存在至少一个地址,因此可以将上述所提取的每个地址的地址位置信息按照相应地址在待提取户籍地地址信息接处警文本中的先后顺序形成地址位置信息序列。
例如,将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”与地址提取正则表达式匹配,可以得到地址位置信息序列{“起始位置-9;结束位置-12”,“起始位置-16;结束位置-17”,“起始位置-22;结束位置-25”}。即,“甲省乙市”、“丙市”和“丁省戊市”为地址。
在一些可选的实现方式中,地址提取正则表达式可以是由技术人员基于对大量的包括地址的历史接处警文本中地址部分进行统计分析而制定的对字符串操作的、用于提取地址的逻辑公式。
在一些可选的实现方式中,地址提取正则表达式也可以是通过如图4所示的第二训练步骤预先训练得到的。请参考图4,图4示出了根据本公开的第二训练步骤的一个实施例的流程400。该第二训练步骤的流程400可以包括以下步骤:
步骤401,获取第二训练样本集合和第二测试样本集合。
这里,第二训练步骤的执行主体可以与上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体相同。这样,第二训练步骤的执行主体可以在训练得到地址提取正则表达式后,将地址提取正则表达式存储在上述执行主体本地,并在执行上述基于正则表达式的接处警文本户籍地地址信息提取方法的过程中读取上述训练得到的地址提取正则表达式。
这里,第二训练步骤的执行主体也可以与上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体不同。这样,第二训练步骤的执行主体可以在训练得到地址提取正则表达式后,将地址提取正则表达式发送给上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体。这样,上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体可以在执行上述基于正则表达式的接处警文本户籍地地址信息提取方法的过程中读取上述从第二训练步骤的执行主体接收到的地址提取正则表达式。
这里,第二训练步骤的执行主体可以首先获取第二训练样本集合和第二测试样本集合。其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,标注地址位置信息可以包括起始位置和结束位置,历史接处警文本相应的标注地址位置信息用于表征该历史接处警文本在相应的标注地址位置信息中起始位置和结束位置之间为地址。需要说明的是,实践中,接处警文本中可能不包括地址或者包括至少一个地址。因此,第二训练样本和第二测试样本包括的标注地址位置信息序列可能为空,或者可能包括至少一个标注地址位置信息。
这里,第二训练样本和第二测试样本中的标注地址位置信息序列可以是由人工对相应的历史接处警文本进行标注得到的。
实践中,为了提高训练得到的地址提取正则表达式对地址的匹配度,这里所获取的第二训练样本和第二测试样本中的历史接处警文本可以不包括无效接处警文本。例如,有的接处警文本中不包括任何户籍地地址,没有实际提取户籍地地址信息的价值,这样的接处警文本可以被认为是无效接处警文本。
步骤402,用第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合。
如果第二训练样本集合中的第二训练样本的标注地址位置信息序列不为空,表明该第二训练样本的历史接处警文本中包括了至少一个地址,那么该第二训练样本即为第二正样本。因此,可以用第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合。
步骤403,在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合。
在步骤402中得到了第二正样本集合之后,第二训练步骤的执行主体可以在第二正样本集合中选取第二正样本组成第二目标数目个正样本子集合。这里第二目标数目可以是预先设定的,第二目标数目也可以经由上述执行主体中提供的界面接收用户输入而确定。
在一些可选的实现方式中,步骤403可以如下执行:执行第二目标数目次第二正样本子集合生成操作以生成第二目标数目个第二正样本子集合。其中,第二正样本子集合生成操作包括:在第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合。其中,N’为对L’除以M’的商向下取整所得的整数,L’是第二正样本集合中的第二正样本数量,M’是大于等于2小于L’的正整数。举例说明,比如,第二正样本集合中包括167个第二正样本,第二目标数目为3,M为2,L即167,N’为167除以2的商向下取整的正整数83,这里执行3次以下操作:从该包括167个第二正样本的第二正样本集合中随机选取83个第二正样本组成第二正样本子集合。最终可得到3个第二正样本子集合,而每个第二正样本子集合包括83个第二正样本。
在一些可选的实现方式中,步骤403也可以如下执行:
将第二正样本集合分成第二目标数目个第二正样本子集合,其中,每个第二正样本子集合中第二正样本的数目尽量接近。具体而言,设第二正样本集合包括L’个第二正样本,第二目标数目为T’,Q’为对L’除以T’的商向下取整所得的正整数,R’为L’除以T’的余数,那么当R’为零的时候,可以将第二正样本集合平均分成T’个第二正样本子集合,每个第二正样本子集合中的第二正样本数为Q’个。当R’大于零的时候,可以将第二正样本集合平均分成T’个第二正样本子集合,其中,T’-1个第二正样本子集合包括Q’个第二正样本,而另一个第二正样本子集合包括Q’+R’个第二正样本。
步骤404,对于第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式。
经过步骤403,已经在第二正样本集合中选取第二正样本组成了第二目标数目个第二正样本子集合。这里,第二训练步骤的执行主体可以对于上述所生成的第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,采用各种实现方式生成候选正则表达式。具体而言,可以首先对于该第二正样本子集合中的每个第二正样本,按照该第二正样本的标注地址位置信息序列中每个地址位置信息中的起始位置和终止位置获取该第二正样本的历史接处警文本中的相应地址。然后,基于针对该第二正样本子集合中的各第二正样本所获取的地址,生成与该第二正样本子集合对应的候选正则表达式。需要说明的是,基于至少一个文本生成正则表达式是目前广泛研究和应用的现有技术,在此不再赘述。
步骤405,基于第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率。
具体而言,第二训练步骤的执行主体可以对于步骤404中所生成的每个候选正则表达式,执行以下第二准确率确定操作:首先,对于步骤401中所获取的第二测试样本集合中的每个第二测试样本,确定该第二测试样本中的历史接处警文本是否与该候选正则表达式匹配;如果确定匹配,则表明根据该候选正则表达式该第二测试样本中的历史接处警文本包括地址,再进一步确定该第二测试样本中的标注地址位置信息序列是否为空,如果为空表明该第二测试样本中的历史接处警文本中不包括地址,则可以确定该第二测试样本相对于该候选正则表达式为负样本,如果不为空表明该第二测试样本中的历史接处警文本中包括地址,可以确定该第二测试样本相对于该候选正则表达式为正样本;如果确定不匹配,则表明根据该候选正则表达式该测试样本中的历史接处警文本不包括地址,再进一步确定该第二测试样本中的标注地址位置信息序列是否为空,如果为空表明该第二测试样本中的历史接处警文本中不包括地址,则可以确定该第二测试样本相对于该候选正则表达式为正样本,如果不为空表明该第二测试样本中的历史接处警文本中包括地址,则可以确定该第二测试样本相对于该候选正则表达式为负样本;最后,将第二测试样本集合中相对于该候选正则表达式为正样本的第二测试样本数目除以第二测试样本集合中第二测试样本的总数所得的比值确定为该候选正则表达式对应的准确率。
步骤406,将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为地址提取正则表达式。
利用上述流程400所示的第二训练步骤可以自动生成地址提取正则表达式,降低了生成地址提取正则表达式的人工成本。并且随着时间的推移,人们表达方式会产生变化,反应在接处警文本中的地址信息也可能会产生变化,如果还是按照固有的方式去提取接处警文本中的地址可能会出现错误。这时可以获取最新的第二训练样本集合和第二测试样本集合采用第二训练步骤重新生成地址提取正则表达式,以符合当前接处警文本的最新表达需求。
步骤204,对于户籍地标识位置信息序列中的每个户籍地标识位置信息,执行户籍地地址信息提取操作。
在本实施例中,基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体(例如,图1所示的服务器)可以对于户籍地标识位置信息序列中的每个户籍地标识位置信息,执行户籍地地址信息提取操作。这里,户籍地地址信息提取操作可以包括以下子步骤2041到子步骤2043:
子步骤2041,将该户籍地标识位置信息中的结束位置确定为目标结束位置。
子步骤2042,对于地址位置信息序列中的每个地址位置信息,将目标结束位置减去该地址位置信息中的起始位置所得的差确定为与该地址位置信息对应的编辑距离。
子步骤2043,将待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息。
这里,在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小。
由于实践中,每个户籍地标识之后会出现相应的户籍地地址,户籍地标识和相应的户籍地地址可以直接相邻,二者之间也可能存在其他字符,但二者之间不会相聚太远。因此,户籍地标识的结束位置在该户籍地标识对应的户籍地地址的起始位置之前,而且,户籍地标识的对应的地址的起始位置减去户籍地标识的结束位置的差应大于等于零。为便于理解步骤204的各个子步骤,下面举例说明:
假设,待提取户籍地地址信息接处警文本为“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”,经过步骤202,可以得到户籍地标识位置信息序列{“起始位置-4;结束位置-5”,“起始位置-14;结束位置-15”,“起始位置-20;结束位置-21”}。经过步骤203可以得到地址位置信息序列{“起始位置-9;结束位置-12”,“起始位置-16;结束位置-17”,“起始位置-22;结束位置-25”}。在步骤204中,可以对于户籍地标识位置信息序列{“起始位置-4;结束位置-5”,“起始位置-14;结束位置-15”,“起始位置-20;结束位置-21”}中的每个户籍地标识位置信息,执行户籍地地址信息提取操作。即,分别针对户籍地标识位置信息“起始位置-4;结束位置-5”、“起始位置-14;结束位置-15”和“起始位置-20;结束位置-21”执行户籍地地址信息提取操作。
其中,针对户籍地标识位置信息“起始位置-4;结束位置-5”执行户籍地地址信息提取操作的具体过程如下:首先,将该户籍地标识位置信息“起始位置-4;结束位置-5”中的结束位置“5”确定为目标结束位置,即目标结束位置为5。然后,对于地址位置信息序列{“起始位置-9;结束位置-12”,“起始位置-16;结束位置-17”,“起始位置-22;结束位置-25”}中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置5所得的差确定为与该地址位置信息对应的编辑距离。即,分别得到三个编辑距离{4,11,17}。最后,将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息。其中,目标地址信息为步骤203中得到的地址位置信息序列中的地址位置信息,目标地址信息对应的编辑距离为正数,且在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小。由上述所得到的三个编辑距离可知,“起始位置-9;结束位置-12”为目标地址位置信息,则这里是将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”中起始位置-9和结束位置-12”之间的文本“甲省乙市”确定为与该户籍地标识位置信息“起始位置-4;结束位置-5”对应的户籍地地址信息。
针对户籍地标识位置信息“起始位置-14;结束位置-15”执行户籍地地址信息提取操作的具体过程如下:首先,将该户籍地标识位置信息“起始位置-14;结束位置-15”中的结束位置“15”确定为目标结束位置,即目标结束位置为5。然后,对于地址位置信息序列{“起始位置-9;结束位置-12”,“起始位置-16;结束位置-17”,“起始位置-22;结束位置-25”}中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置15所得的差确定为与该地址位置信息对应的编辑距离。即,分别得到三个编辑距离{-6,1,7}。最后,将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息。其中,目标地址信息为步骤203中得到的地址位置信息序列中的地址位置信息,目标地址信息对应的编辑距离为正数,且在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小。由上述所得到的三个编辑距离可知,“起始位置-16;结束位置-17”为目标地址位置信息,则这里是将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”中“起始位置-16和结束位置-17”之间的文本“丙市”确定为与该户籍地标识位置信息“起始位置-14;结束位置-15”对应的户籍地地址信息。
针对户籍地标识位置信息“起始位置-20;结束位置-21”执行户籍地地址信息提取操作的具体过程如下:首先,将该户籍地标识位置信息“起始位置-20;结束位置-21”中的结束位置“21”确定为目标结束位置,即目标结束位置为21。然后,对于地址位置信息序列{“起始位置-9;结束位置-12”,“起始位置-16;结束位置-17”,“起始位置-22;结束位置-25”}中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置21所得的差确定为与该地址位置信息对应的编辑距离。即,分别得到三个编辑距离{-12,-6,1}。最后,将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息。其中,目标地址信息为步骤203中得到的地址位置信息序列中的地址位置信息,目标地址信息对应的编辑距离为正数,且在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小。由上述所得到的三个编辑距离可知,“起始位置-22;结束位置-25”为目标地址位置信息,则这里是将待提取户籍地地址信息接处警文本“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”中“起始位置-22;结束位置-25”之间的文本“丁省戊市”确定为与该户籍地标识位置信息“起始位置-20;结束位置-21”对应的户籍地地址信息。
步骤205,将户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
继续沿用步骤204中的举例可知,经过步骤205可以得到与“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”对应的户籍地信息集合{“甲省乙市”,“丙市”,“丁省戊市”}。
由于实践中,每个户籍地标识与其对应的户籍地地址信息之间的距离都不会太远,因此,在本实施例的一些可选的实现方式中,步骤204中针对每个户籍地标识位置信息,该户籍地标识位置信息对应的目标地址位置信息对应的编辑距离可以小于预设编辑距离阈值。这里,预设编辑距离阈值可以是人工设定的。
在本实施例的一些可选的实现方式中,预设编辑距离阈值可以是通过如5所示的第三训练步骤预先计算得到的。请参考图5,图5示出了根据本公开的第三训练步骤的一个实施例的流程500。该第三训练步骤的流程500可以包括以下步骤:
步骤501,获取第三训练样本集合。
这里,第三训练步骤的执行主体可以与上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体相同。这样,第三训练步骤的执行主体可以在训练得到预设编辑距离阈值后,将预设编辑距离阈值存储在上述执行主体本地,并在执行上述基于正则表达式的接处警文本户籍地地址信息提取方法的过程中读取上述训练得到的预设编辑距离阈值。
这里,第三训练步骤的执行主体也可以与上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体不同。这样,第三训练步骤的执行主体可以在训练得到预设编辑距离阈值后,将预设编辑距离阈值发送给上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体。这样,上述基于正则表达式的接处警文本户籍地地址信息提取方法的执行主体可以在执行上述基于正则表达式的接处警文本户籍地地址信息提取方法的过程中读取上述从第三训练步骤的执行主体接收到的预设编辑距离阈值。
这里,第三训练样本可以包括历史接处警文本和相应的标注户籍地信息序列。其中,标注户籍地信息可以包括户籍地标识起始位置、户籍地标识结束位置、地址起始位置和地址结束位置。这里,标注户籍地信息用于表征相应的历史接处警文本中该标注户籍地信息的户籍地标识起始位置和户籍地标识结束位置之间为户籍地标识,且该户籍地标识所对应的户籍地地址信息为历史接处警文本中该标注户籍地信息的地址起始位置和地址结束位置之间的地址信息。
第三训练样本中的标注户籍地信息序列可以是由人工对相应的历史接处警文本进行标注得到的。
需要说明的是,实践中,接处警文本中可能不包括户籍地信息或者包括至少一个户籍地信息。因此,第三训练样本包括的标注户籍地信息序列可能为空,或者可能包括至少一个标注户籍地信息。
步骤502,对于第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注户籍地信息序列的各标注户籍地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离。
这里,标注户籍地信息对应的编辑距离为该标注户籍地信息中的地址起始位置减去相应户籍地标识结束位置所得的差值。
为便于理解,这里距离说明每个第三训练样本对应的最大编辑距离。例如,第三训练样本中的历史接处警文本为“张某,祖籍登记为甲省乙市,现籍丙市,与现籍丁省戊市的李某系夫妻关系”,该历史接处警文本对应的标注户籍地信息序列为{“户籍地标识起始位置-4,户籍地标识结束位置-5,地址起始位置-9,地址结束位置-12”,“户籍地标识起始位置-14,户籍地标识结束位置-15,地址起始位置-16,地址结束位置-17”,“户籍地标识起始位置-20,户籍地标识结束位置-21,地址起始位置-22,地址结束位置-25”},其中:
标注户籍地信息“户籍地标识起始位置-4,户籍地标识结束位置-5,地址起始位置-9,地址结束位置-12”用于表征户籍地标识“祖籍”对应的户籍地地址信息为“甲省乙市”。该标注户籍地信息对应的编辑距离为地址起始位置9减去户籍地标识结束位置5的差4。
标注户籍地信息“户籍地标识起始位置-14,户籍地标识结束位置-15,地址起始位置-16,地址结束位置-17”用于表征户籍地标识“现籍”对应的户籍地地址信息为“丙市”。该标注户籍地信息对应的编辑距离为地址起始位置16减去户籍地标识结束位置15的差1。
标注户籍地信息“户籍地标识起始位置-20,户籍地标识结束位置-21,地址起始位置-22,地址结束位置-25”用于表征户籍地标识“现籍”对应的户籍地地址信息为“丁省戊市”。该标注户籍地信息对应的编辑距离为地址起始位置22减去户籍地标识结束位置21的差1。
因此,该第三训练样本的标注户籍地信息序列的三个标注户籍地信息中对应的编辑距离分别为4、1、1,其中的最大值为4,则将4确定为该第三训练样本对应的最大编辑距离。
步骤503,将第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为预设编辑距离阈值。
在步骤502中对于第三训练样本集合中的每个第三训练样本均确定了对应的最大编辑距离,因此,在步骤503中可以将第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为预设编辑距离阈值。
利用上述第三训练步骤训练得到的预设编辑距离阈值是经过对大量历史接处警文本的统计分析后得到的,因此,按照上述方法得到预设编辑距离阈值,并在提取接处警文本中的户籍地地址信息的过程中,按照上述预设编辑距离阈值约束目标地址位置信息,可以提高户籍地地址信息的提取精确度。
本公开的上述实施例提供的方法通过利用户籍地标识提取正则表达式和地址提取正则表达式提取待提取户籍地地址信息接处警文本中的各户籍地地址信息,实现了对接处警文本自动提取户籍地地址信息,无需人工操作,降低了对接处警文本进行户籍地地址信息提取的成本,提高了对接处警文本进行户籍地地址信息提取的提取速度。
进一步参考图6,作为对上述各图所示方法的实现,本公开提供了一种基于正则表达式的接处警文本户籍地地址信息提取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的基于正则表达式的接处警文本户籍地地址信息提取装置600包括:获取单元601、第一匹配单元602、第二匹配单元603、提取单元604和确定单元605。其中,获取单元601,被配置成获取待提取户籍地地址信息接处警文本;第一匹配单元602,被配置成将上述待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;第二匹配单元603,被配置成将上述待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;提取单元604,被配置成对于上述户籍地标识位置信息序列中的每个户籍地标识位置信息,执行以下户籍地地址信息提取操作:将该户籍地标识位置信息中的结束位置确定为目标结束位置;对于上述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去上述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将上述待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中上述目标地址位置信息对应的编辑距离最小;确定单元605,被配置成将上述户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为上述待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
在本实施例中,基于正则表达式的接处警文本户籍地地址信息提取装置500的获取单元501、第一匹配单元602、第二匹配单元603、提取单元604和确定单元605的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203、步骤204和步骤205的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述户籍地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注户籍地标识位置信息序列,标注户籍地标识位置信息包括起始位置和结束位置,标注户籍地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为户籍地标识;用上述第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;在上述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;对于上述第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;基于上述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为上述户籍地标识提取正则表达式。
在本实施例的一些可选的实现方式中,上述在上述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:执行上述第一目标数目次第一正样本子集合生成操作以生成上述第一目标数目个第一正样本子集合,上述第一正样本子集合生成操作包括:在上述第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,上述N为对L除以M的商向下取整所得的整数,上述L是上述第一正样本集合中的第一正样本数量,上述M是大于等于2小于上述L的正整数。
在本实施例的一些可选的实现方式中,上述地址提取正则表达式是通过如下第二训练步骤预先训练得到的:获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;用上述第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;在上述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;对于上述第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;基于上述第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为上述地址提取正则表达式。
在本实施例的一些可选的实现方式中,上述在上述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:执行上述第二目标数目次第二正样本子集合生成操作以生成上述第二目标数目个第二正样本子集合,上述第二正样本子集合生成操作包括:在上述第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,上述N’为对L’除以M’的商向下取整所得的整数,上述L’是上述第二正样本集合中的第二正样本数量,上述M’是大于等于2小于上述L’的正整数。
在本实施例的一些可选的实现方式中,上述目标地址位置信息对应的编辑距离小于预设编辑距离阈值。
在本实施例的一些可选的实现方式中,上述预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注户籍地信息序列,其中,标注户籍地信息包括户籍地标识起始位置、户籍地标识结束位置、地址起始位置和地址结束位置,标注户籍地信息用于表征历史接处警文本中户籍地标识起始位置和户籍地标识结束位置之间为户籍地标识,且该户籍地标识所对应的户籍地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;对于上述第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注户籍地信息序列的各标注户籍地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注户籍地信息对应的编辑距离为该标注户籍地信息中的地址起始位置减去相应户籍地标识结束位置所得的差值;将上述第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为上述预设编辑距离阈值。
需要说明的是,本公开实施例提供的基于正则表达式的接处警文本户籍地地址信息提取装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。
下面参考图7,其示出了适于用来实现本公开实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU,Central Processing Unit)701,其可以根据存储在只读存储器(ROM,Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM,Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O,Input/Output)接口705也连接至总线704。
以下部件连接至I/O接口705:包括触控屏、手写板、键盘或鼠标等的输入部分706;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,LiquidCrystalDisplay)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、第一匹配单元、第二匹配单元、提取单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待提取户籍地地址信息接处警文本的单元”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取待提取户籍地地址信息接处警文本;将上述待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;将上述待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于上述户籍地标识位置信息序列中的每个户籍地标识位置信息,执行以下户籍地地址信息提取操作:将该户籍地标识位置信息中的结束位置确定为目标结束位置;对于上述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去上述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将上述待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中上述目标地址位置信息对应的编辑距离最小;将上述户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为上述待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种基于正则表达式的接处警文本户籍地地址信息提取方法,包括:
获取待提取户籍地地址信息接处警文本;
将所述待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;
将所述待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;
对于所述户籍地标识位置信息序列中的每个户籍地标识位置信息,执行以下户籍地地址信息提取操作:将该户籍地标识位置信息中的结束位置确定为目标结束位置;对于所述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去所述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将所述待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中所述目标地址位置信息对应的编辑距离最小;
将所述户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为所述待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
2.根据权利要求1所述的方法,其中,所述户籍地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:
获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注户籍地标识位置信息序列,标注户籍地标识位置信息包括起始位置和结束位置,标注户籍地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为户籍地标识;
用所述第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;
在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;
对于所述第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;
基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述户籍地标识提取正则表达式。
3.根据权利要求2所述的方法,其中,所述在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:
执行所述第一目标数目次第一正样本子集合生成操作以生成所述第一目标数目个第一正样本子集合,所述第一正样本子集合生成操作包括:在所述第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,所述N为对L除以M的商向下取整所得的整数,所述L是所述第一正样本集合中的第一正样本数量,所述M是大于等于2小于所述L的正整数。
4.根据权利要求1所述的方法,其中,所述地址提取正则表达式是通过如下第二训练步骤预先训练得到的:
获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;
用所述第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;
在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;
对于所述第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;
基于所述第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述地址提取正则表达式。
5.根据权利要求4所述的方法,其中,所述在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:
执行所述第二目标数目次第二正样本子集合生成操作以生成所述第二目标数目个第二正样本子集合,所述第二正样本子集合生成操作包括:在所述第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,所述N’为对L’除以M’的商向下取整所得的整数,所述L’是所述第二正样本集合中的第二正样本数量,所述M’是大于等于2小于所述L’的正整数。
6.根据权利要求1所述的方法,其中,所述目标地址位置信息对应的编辑距离小于预设编辑距离阈值。
7.根据权利要求6所述的方法,其中,所述预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:
获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注户籍地信息序列,其中,标注户籍地信息包括户籍地标识起始位置、户籍地标识结束位置、地址起始位置和地址结束位置,标注户籍地信息用于表征历史接处警文本中户籍地标识起始位置和户籍地标识结束位置之间为户籍地标识,且该户籍地标识所对应的户籍地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;
对于所述第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注户籍地信息序列的各标注户籍地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注户籍地信息对应的编辑距离为该标注户籍地信息中的地址起始位置减去相应户籍地标识结束位置所得的差值;
将所述第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为所述预设编辑距离阈值。
8.一种基于正则表达式的接处警文本户籍地地址信息提取装置,包括:
获取单元,被配置成获取待提取户籍地地址信息接处警文本;
第一匹配单元,被配置成将所述待提取户籍地地址信息接处警文本与户籍地标识提取正则表达式匹配,得到户籍地标识位置信息序列;
第二匹配单元,被配置成将所述待提取户籍地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;
提取单元,被配置成对于所述户籍地标识位置信息序列中的每个户籍地标识位置信息,执行以下户籍地地址信息提取操作:将该户籍地标识位置信息中的结束位置确定为目标结束位置;对于所述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去所述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将所述待提取户籍地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该户籍地标识位置信息对应的户籍地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中所述目标地址位置信息对应的编辑距离最小;
确定单元,被配置成将所述户籍地标识位置信息序列中各户籍地标识位置信息对应的户籍地地址信息确定为所述待提取户籍地地址信息接处警文本对应的户籍地地址信息集合。
9.根据权利要求8所述的装置,其中,所述户籍地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:
获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注户籍地标识位置信息序列,标注户籍地标识位置信息包括起始位置和结束位置,标注户籍地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为户籍地标识;
用所述第一训练样本集合中标注户籍地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;
在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;
对于所述第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;
基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述户籍地标识提取正则表达式。
10.根据权利要求9所述的装置,其中,所述在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:
执行所述第一目标数目次第一正样本子集合生成操作以生成所述第一目标数目个第一正样本子集合,所述第一正样本子集合生成操作包括:在所述第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,所述N为对L除以M的商向下取整所得的整数,所述L是所述第一正样本集合中的第一正样本数量,所述M是大于等于2小于所述L的正整数。
11.根据权利要求8所述的装置,其中,所述地址提取正则表达式是通过如下第二训练步骤预先训练得到的:
获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;
用所述第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;
在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;
对于所述第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;
基于所述第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述地址提取正则表达式。
12.根据权利要求11所述的装置,其中,所述在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:
执行所述第二目标数目次第二正样本子集合生成操作以生成所述第二目标数目个第二正样本子集合,所述第二正样本子集合生成操作包括:在所述第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,所述N’为对L’除以M’的商向下取整所得的整数,所述L’是所述第二正样本集合中的第二正样本数量,所述M’是大于等于2小于所述L’的正整数。
13.根据权利要求8所述的装置,其中,所述目标地址位置信息对应的编辑距离小于预设编辑距离阈值。
14.根据权利要求13所述的装置,其中,所述预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:
获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注户籍地信息序列,其中,标注户籍地信息包括户籍地标识起始位置、户籍地标识结束位置、地址起始位置和地址结束位置,标注户籍地信息用于表征历史接处警文本中户籍地标识起始位置和户籍地标识结束位置之间为户籍地标识,且该户籍地标识所对应的户籍地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;
对于所述第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注户籍地信息序列的各标注户籍地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注户籍地信息对应的编辑距离为该标注户籍地信息中的地址起始位置减去相应户籍地标识结束位置所得的差值;
将所述第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为所述预设编辑距离阈值。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020100913138 | 2020-02-13 | ||
CN202010091313 | 2020-02-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111230A CN113111230A (zh) | 2021-07-13 |
CN113111230B true CN113111230B (zh) | 2024-04-12 |
Family
ID=76708876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306816.2A Active CN113111230B (zh) | 2020-02-13 | 2020-04-17 | 基于正则表达式的接处警文本户籍地地址提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111230B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111229B (zh) * | 2020-02-13 | 2024-04-12 | 北京明亿科技有限公司 | 基于正则表达式的接处警文本轨迹地地址提取方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007042097A (ja) * | 2005-07-29 | 2007-02-15 | Fujitsu Ltd | キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法 |
CN104794667A (zh) * | 2015-04-03 | 2015-07-22 | 南京邮电大学 | 一种智慧医疗服务下用户居家就诊系统和方法 |
CN105674998A (zh) * | 2010-06-17 | 2016-06-15 | 通腾科技股份有限公司 | 导航装置及方法 |
CN106874942A (zh) * | 2017-01-21 | 2017-06-20 | 江苏大学 | 一种基于正则表达式语义的目标模型快速构建方法 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN113111233A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的接处警文本居住地地址提取方法和装置 |
CN113111229A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的接处警文本轨迹地地址提取方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7743327B2 (en) * | 2006-02-23 | 2010-06-22 | Xerox Corporation | Table of contents extraction with improved robustness |
CN105528372B (zh) * | 2014-09-30 | 2019-05-24 | 华为技术有限公司 | 一种地址搜索方法和设备 |
-
2020
- 2020-04-17 CN CN202010306816.2A patent/CN113111230B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007042097A (ja) * | 2005-07-29 | 2007-02-15 | Fujitsu Ltd | キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法 |
CN105674998A (zh) * | 2010-06-17 | 2016-06-15 | 通腾科技股份有限公司 | 导航装置及方法 |
CN104794667A (zh) * | 2015-04-03 | 2015-07-22 | 南京邮电大学 | 一种智慧医疗服务下用户居家就诊系统和方法 |
CN106874942A (zh) * | 2017-01-21 | 2017-06-20 | 江苏大学 | 一种基于正则表达式语义的目标模型快速构建方法 |
CN110569322A (zh) * | 2019-07-26 | 2019-12-13 | 苏宁云计算有限公司 | 地址信息解析方法、装置、系统及数据获取方法 |
CN113111233A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的接处警文本居住地地址提取方法和装置 |
CN113111229A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式的接处警文本轨迹地地址提取方法和装置 |
Non-Patent Citations (7)
Title |
---|
MapMarker: Extraction of Postal Addresses and Associated Information for General Web Pages;Chia-Hui Chang;2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology;20101101;105-111 * |
基于 CRF 的城市火灾微博文本地名地址识别与精化处理方法;袁小芳;中国优秀硕士学位论文全文数据库 工程科技II辑;20201215(第12期);C038-260 * |
基于Trie树和有限状态自动机的中文地址解析模型;汪洋;刘师培;王峥;;计算机与现代化;20160715(第07期);63-70 * |
基于正则表达式的图像目标特征提取方法研究;芦兵;孙俊;许晓东;;计算机应用与软件;20180415(第04期);266-270+298 * |
基于统计的中文地址位置语义解析方法研究;谢婷婷 等;软件导刊;20171015;第16卷(第10期);19-21 * |
自然语言理解的中文地址匹配算法;宋子辉;遥感学报;20130725;第17卷(第04期);788-801 * |
非规范化中文地址的行政区划提取算法;李晓林;黄爽;卢涛;李霖;;计算机应用;20170310(第03期);270-276 * |
Also Published As
Publication number | Publication date |
---|---|
CN113111230A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460513B (zh) | 用于生成点击率预测模型的方法和装置 | |
EP3451328A1 (en) | Method and apparatus for verifying information | |
CN109447156B (zh) | 用于生成模型的方法和装置 | |
CN109976997B (zh) | 测试方法和装置 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
CN113657113A (zh) | 文本处理方法、装置和电子设备 | |
CN112309565B (zh) | 用于匹配药品信息和病症信息的方法、装置、电子设备和介质 | |
CN113111233B (zh) | 基于正则表达式的接处警文本居住地地址提取方法和装置 | |
CN110634050B (zh) | 一种鉴别房源类型的方法、装置、电子设备及存储介质 | |
CN113111230B (zh) | 基于正则表达式的接处警文本户籍地地址提取方法和装置 | |
CN113590756A (zh) | 信息序列生成方法、装置、终端设备和计算机可读介质 | |
CN111026849B (zh) | 数据处理方法和装置 | |
CN113111229B (zh) | 基于正则表达式的接处警文本轨迹地地址提取方法和装置 | |
CN113111167A (zh) | 基于深度学习模型的接处警文本车辆型号提取方法和装置 | |
CN113111234B (zh) | 基于正则表达式的处警警情类别确定方法和装置 | |
CN112131378B (zh) | 用于识别民生问题类别的方法、装置及电子设备 | |
CN111079185B (zh) | 数据库信息处理的方法、装置、存储介质及电子设备 | |
CN113111169A (zh) | 基于深度学习模型的接处警文本地址信息提取方法和装置 | |
CN113111232B (zh) | 基于正则表达式的接处警文本地址提取方法和装置 | |
CN110990528A (zh) | 一种问答方法、装置及电子设备 | |
CN113111231B (zh) | 基于正则表达式接处警文本人物信息要素提取方法和装置 | |
CN113111897A (zh) | 基于支持向量机的接警警情类别确定方法和装置 | |
CN113111228B (zh) | 基于正则表达式的接处警文本车牌号码提取方法和装置 | |
CN113111173B (zh) | 基于正则表达式的接警警情类别确定方法和装置 | |
CN113111168B (zh) | 基于深度学习模型接处警文本户籍地信息提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |