CN108804425A

CN108804425A - 智能机器人会话文本的地址信息提取方法及装置

Info

Publication number: CN108804425A
Application number: CN201810606712.6A
Authority: CN
Inventors: 杨凯程; 张青; 蒋宏飞
Original assignee: Beijing Xuan Yi Science And Technology Co Ltd
Current assignee: Beijing Xuan Yi Science And Technology Co Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-13
Also published as: CN109614472A

Abstract

本发明实施例公开一种智能机器人会话文本的地址信息提取方法及装置，该提取方法包括：获取待抽取文本；如果待抽取文本中包括至少一个中文表述的地址，则将待抽取文本转化为拼音文本；逐个将地址模型的节点上保存的拼音名与拼音文本进行比对，地址模型包括至少一个节点，在地址模型的节点上，保存有地址元素和与地址元素对应的拼音名，节点的节点等级与地址元素的等级相对应；如果节点上的拼音名与拼音文本匹配，则提取出匹配的拼音名所对应的地址元素；利用提取出的地址元素，以及提取出的地址元素在地址模型中所处的节点的节点等级，生成地址信息。通过这样的方法，可以避免遗漏包含错别字的地址元素，生成完整、准确、规范的地址信息。

Description

智能机器人会话文本的地址信息提取方法及装置

技术领域

本发明涉及信息处理与文本挖掘技术领域，具体涉及一种智能机器人会话文本的地址信息提取方法和装置。

背景技术

地址信息是当前最常用的社会公共信息资源，与大众的日常生活紧密相关，同时，也是政府基础行政管理的基础资源。随着互联网技术的发展，越来越多的场景中需要将文本中的地址信息提取出来，以便为后续的分析和利用工作做准备。

现有的从文本中提取地址信息的方法主要是利用预设的识别规则进行匹配的方法，即，构建一定的地址识别规则，例如“xx省xx市xx区”,将地址识别规则与文本进行匹配，然后从文本中提取出与地址识别规则相匹配的文本，就得到了地址信息，例如“浙江省嘉兴市南湖区”。然而，在实际应用中，文本中的地址信息表述形式多样化，并不总以标准正确的形式出现。例如，“浙江省嘉兴市南湖区”中的“嘉”，由于字形复杂，在实际应用中有人习惯将其写成“加”。对于这样在文本中存在发音相同字形不同的错别字的情况，采用现有的利用地址识别规则匹配来提取方法，很容易导致提取出地址信息发生错误，例如提取出“浙江省加兴市南湖区”这样的地址信息。

此外，也有人采用地址模型来提取地址信息。地址模型中通常包括预先建立的多个节点，每个节点存储一个地址元素，例如，“浙江省”、“嘉兴市”、“南湖区”、“河北省”均分别为一个地址元素。然后用地址模型中的地址元素逐一与文本进行匹配，如果能够匹配上，则抽取出匹配的地址元素。再将抽取出的多个地址元素组合，构成一个完整的地址信息。然而在实际生活中，文本中有时会存在错别字，例如，“嘉兴市”中的“嘉”字较为复杂，有人会将其误写为“加”；又例如，将“湖州市”误写为“胡洲市”等。当文本中存在错别字时，由于地址模型中正确的地址元素与文本中的错别字无法匹配，故而无法抽取出相应的地址元素。例如，地址模型中正确的“嘉兴市”与文本中的“加兴市”不匹配，进而只能提取得到“浙江省南湖区”这样存在遗漏的地址信息。

发明内容

为了解决前述的技术问题，本申请提供一种新的地址信息提取方法，利用此方法从文本中提取地址信息，可以提取到更加完整准确的地址信息，减少了遗漏和提取错误的情况，尤其适合应用在处理智能机器人会话文本上。

第一方面，提供一种地址信息提取方法，包括：

获取待抽取文本；

如果待抽取文本中包括至少一个中文表述的地址，则将待抽取文本转化为拼音文本；

逐个将地址模型的节点上保存的拼音名与所述拼音文本进行比对，所述地址模型包括至少一个节点，在所述地址模型的节点上，保存有地址元素和与所述地址元素对应的拼音名，所述节点的节点等级与地址元素的等级相对应；

如果节点上的拼音名与所述拼音文本匹配，则提取出匹配的拼音名所对应的地址元素；

利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息。

结合第一方面，在第一方面第一种可能的实现方式中，所述利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息的步骤，包括：

当提取出的地址元素个数大于或等于两个时，根据提取出的地址元素在所述地址模型中所处的节点的节点等级，确定提取出的地址元素中是否存在属于同一个地址信息的地址元素；

如果至少两个地址元素属于同一个地址信息，则将所述至少两个地址元素组合，生成地址信息。

结合第一方面的第一种实现方式，在第一方面第二种可能的实现方式中，所述地址模型中的地址元素包括行政区；

所述根据提取出的地址元素在所述地址模型中所处的节点的节点等级，确定提取出的地址元素中是否存在属于同一个地址信息的地址元素的步骤，包括：

选取提取出的地址元素中的任意两个；

如果选取出的两个地址元素中至少一个地址元素为行政区，并且在所述待抽取文本中的位置相隔小于预设数量个字符，则判断所述两个地址元素各自在地址模型中所处的节点是否为直属的上下级节点关系；

如果是，则确定所述两个地址元素属于同一个地址信息。

结合第一方面的第一种实现方式和/或第二种实现方式，在第一方面第三种可能的实现方式中，所述地址模型中的地址元素包括标志物；

选取提取出的地址元素中的任意两个；

如果选取出的两个地址元素均为标志物，并且选取出的两个地址元素在地址模型中所处的节点隶属于同一个上一级节点，则从待抽取文本中识别出第一文本，所述第一文本为两个地址元素在待抽取文本中对应的中文原始字符串及二者之间的文本；

判断所述第一文本与预设的第一规则是否匹配，其中，所述第一规则为表征两个地址元素之间存在方位关系的规则；

如果匹配，则确定所述两个地址元素属于同一个地址信息。

结合第一方面及上述任一种可能的实现方式，在第一方面第四种可能的实现方式中，该方法还包括：

将生成的地址信息与预设的标准格式进行比对；

如果所述地址信息与所述标准格式不匹配，则利用所述地址模型将所述地址信息补充成标准地址信息。

结合第一方面及上述任一种可能的实现方式，在第一方面第五种可能的实现方式中，当所述待抽取文本为多轮会话中当前轮次的会话文本时，该方法还包括：

将生成的地址信息与预设的标准格式进行比对；

如果所述地址信息与所述标准格式不匹配，则利用当前轮次之前的预设轮次的会话文本，将所述地址信息补充成标准地址信息。

结合第一方面及上述任一种可能的实现方式，在第一方面第六种可能的实现方式中，所述地址模型通过以下构建方法得到：

获取地址元素；

生成与地址元素对应的拼音名；

在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名，所述节点的节点等级与地址元素的等级相对应。

结合第一方面及上述任一种可能的实现方式，在第一方面第七种可能的实现方式中，保存地址元素和与所述地址元素对应的拼音名的步骤，包括：

在每一个一级节点上保存一个第一级行政区，以及与所述第一级行政区对应的拼音名，每一个所述一级节点下具有对应的至少一个二级节点；

在每一个二级节点上保存第二级行政区，以及与所述第二级行政区对应的拼音名，二级节点上的第二级行政区隶属于对应的一级节点上的第一级行政区；

结合第一方面及上述任一种可能的实现方式，在第一方面第八种可能的实现方式中，保存地址元素和与所述地址元素对应的拼音名的步骤，还包括：

在至少一个末级节点上保存标志物，以及与所述标志物对应的拼音名，末级节点上的标志物处于与该末级节点对应的上一级节点上的行政区中。

第二方面，提供一种智能机器人会话文本的地址信息提取装置，包括：

第一获取单元，用于获取待抽取文本；

第一处理单元，用于在待抽取文本中包括至少一个汉字表述的地址的情况下，将待抽取文本转化为拼音文本；将地址模型的节点上保存的拼音名逐个与所述拼音文本进行比对；在节点上的拼音名与所述拼音文本匹配的情况下，提取出匹配的拼音名所对应的地址元素；以及，利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息；其中，所述地址模型包括至少一个节点，在所述地址模型的节点上，保存有地址元素和与所述地址元素对应的拼音名，所述节点的节点等级与地址元素的等级相对应。

在本申请的技术方案中，先获取待抽取文本，如果待抽取文本中包括至少一个中文表述的地址，则将待抽取文本转化为拼音文本。在地址模型中的节点上保存有地址元素和与所述地址元素对应的拼音名，逐个将地址模型的节点上保存的拼音名与所述拼音文本进行比对，如果节点上的拼音名与所述拼音文本匹配，则提取出匹配的拼音名所对应的地址元素。通过这样的方法，可以避免待抽取文本中的地址元素中包含错别字导致无法抽取出来，或者抽取出包含错别字的地址元素的情况，提高了地址元素提取的召回率。最后利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息，从而得到完整的地址信息，并且地址信息中不包含错别字，更加准确、规范。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请地址信息提取方法的具体实施方式之一的流程图；

图2为本申请地址信息提取方法中，地址模型的构建方法的具体实施方式之一的流程图；

图3为本申请地址信息提取方法的具体实施方式之一中，S800步骤其中一种实现方式的流程图；

图4为本申请地址信息提取方法的具体实施方式之一中，S800步骤另一种实现方式的流程图；

图5为本申请地址信息提取方法的具体实施方式之二的流程图；

图6为本申请地址信息提取装置的具体实施方式之一的结构示意图。

具体实施方式

下面对本申请的实施例作详细说明。

国家为了便于行政管理，根据政治、经济、民族、历史等各种因素的不同，把领土划分成大小不同、层次不等的区域，即行政区域。根据划分原则的不同，所划分出的行政区域也可能不同。一般来说，国内的行政区域至少分为三级，分别是：(一)全国分为省、自治区、直辖市；(二)省、自治区分为自治州、县、自治县、市；(三)县、自治县分为乡、民族乡、镇。此外，也有的将行政区域分为四级，层级由上至下分别为省级行政区、地级行政区、县级行政区和乡级行政区。在乡级行政区以下还可以划分村、社区、局等村级行政区，在村级行政区以下还可以划分村民小组、社区居民小组等组级行政区。

地址通常采用不同级别的行政区来表示。此外，根据应用场景的不同，还可以结合具体的门牌号等来表示，例如“河北省石家庄市富强大街92号”。这里，不同级别的行政区、门牌楼址等均可以视为一个地址元素。例如，前述的例子中，“河北省”、“石家庄市”、“富强大街”、“92号”均可以视为地址元素，多个地址元素共同构成了一个完整的地址信息。

利用常规的地址模型来提取地址信息，容易遗漏存在错别字的地址元素，导致提取出的地址信息不完整。为了解决这个问题，本申请利用了一种新的地址信息提取方法来提取出完整准确的地址信息，该方法可以应用在文本挖掘领域，用于处理文本，尤其适用于智能机器人会话文本。

请参考图1，在本发明的第一个实施例中，提供一种智能机器人会话文本的地址信息提取方法，包括以下S400至S800的步骤。

S400：获取待抽取文本。

这里的待抽取文本可以是常规的文本，例如一条新闻文本、一篇文章中的某一段文字等。待抽取文本还可以是通过由文字、语音、视频、图片等转换得到的文本。例如在智能机器人中，由用户输入的语音信息转换得到的会话文本，这样的会话文本可以作为此处获取到的待抽取文本。又例如，由用户输入的图片中提取出的会话文本，这样的会话文本也可以作为待抽取文本。对于智能机器人来说，其与用户之间的对话常常会涉及到单轮或多轮会话。每一轮次的会话文本都可以作为一个待抽取文本。

S500：如果待抽取文本中包括至少一个中文表述的地址，则将待抽取文本转化为拼音文本。

在S500的步骤中，首先需要判断待抽取文本中是否包括中文表述的地址，判断的具体方法可以采用现有的方法，例如可以通过对待抽取文本进行中文语义分析来判断。如果包括，则将待抽取文本转化为拼音文本；如果不包含，例如待抽取文本不包括地址，或者包括非中文表述的地址等，则不对待抽取文本进行拼音转化。

例如，待抽取文本1：

昨天下午，我在河北省包定莲池区的华北电力大学培训，他在北京。

通过中文语义分析后确定待抽取文本1包括了至少一个中文表述的地址，则将其转化为拼音文本1：

zuotianxiawu，wozaihebeishengbaodinglianchiqudehuabeidianlidaxuepeixun，tazaibeijing。

S600：将地址模型的节点上保存的拼音名逐个与所述拼音文本进行比对。

这里的地址模型包括至少一个节点，在所述地址模型的节点上，保存有地址元素和与所述地址元素对应的拼音名，所述节点的节点等级与地址元素的等级相对应。

在一种实现方式中，请参考图2，地址模型可以通过以下构建方法来构建，包括S100-S300的步骤。

S100：获取地址元素。

在S100的步骤中，如前所述，不同级别的行政区、道路名称、门牌号等均可以视为一个地址元素。此外，根据构建出的地址模型的应用场景的不同，本申请中的地址元素还可以包括标志物，这里的标志物包括建筑物或单位，例如“神州泰岳大厦”、“国家知识产权局”等。这里的单位是指机关、团体、事业单位、企业等非自然人的实体或其下属部门。

S200：生成与地址元素对应的拼音名。

在S200的步骤中，地址元素对应的拼音名也可以理解为地址元素的拼音表示，一个地址元素可以对应一个拼音名，也可以对应多个拼音名。例如，“保定市”作为一个行政区域，是一个地址元素，其对应的拼音名可以包括：baodingshi和baoding。此外，在日常使用中，人们还会使用一些别称来称呼某个地址元素，例如对于“保定市”而言，其别称有保府、保州、靴城、上谷等。故而，可以将这些别称也分别生成一个拼音名，将其作为“保定市”这个地址元素所对应的拼音名。如此，“保定市”这个地址元素所对应的拼音名可以包括：baodingshi、baoding、baofu、baozhou、xuecheng和shanggu。

S300：在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名，所述节点的节点等级与地址元素的等级相对应。

常规的地址模型通常具有树形结构的框架，框架中具有多个层级的节点。处于不同层级的节点，节点的等级也相应的不同，例如，一级节点的等级就是一级；二级节点的等级就是二级。每一个节点上保存一个地址元素，并在该节点上保存该地址元素对应的拼音名。根据地址元素的等级，将地址元素及其对应的拼音名保存到对应等级的节点上。

地址元素包括不同级别的行政区，例如第一级行政区、第二级行政区等，则表征第一级行政区的地址元素的等级为一级，表征第二级行政区的地址元素的等级为二级，以此类推。

可选地，在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名的步骤，包括：

S301：在每一个一级节点上保存一个第一级行政区，以及与所述第一级行政区对应的拼音名，每一个所述一级节点下具有对应的至少一个二级节点；

S302：在每一个二级节点上保存第二级行政区，以及与所述第二级行政区对应的拼音名，二级节点上的第二级行政区隶属于对应的一级节点上的第一级行政区；

通过这样的方法所构建出的地址模型，包括了至少一个保存有第一级行政区和与第一级行政区对应的拼音名的一级节点，和至少一个保存有第二级行政区和与第二级行政区对应的拼音名的二级节点；每一个一级节点下具有对应的至少一个二级节点，并且，二级节点上的第二级行政区隶属于对应的一级节点上的第一级行政区。采用类似的方法，还可以构建出具有更多层级的地址模型。也就是说，地址模型中的节点还可以包括至少一个三级节点，三级节点上保存有第三级行政区和与第三级行政区对应的拼音名。对于一个特定的三级节点而言，其上保存的第三级行政区隶属于该三级节点的父节点(即该三级节点对应的二级节点)上保存的第二级行政区。以此类推，三级节点还可以包括子节点，即四级节点。一般来说，地址模型的节点等级不超过6-7级。

可选地，在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名的步骤，还可以包括：

S303：在至少一个末级节点上保存标志物，以及与所述标志物对应的拼音名，末级节点上的标志物处于与该末级节点对应的上一级节点上的行政区中。

通过这样的方法所构建出的地址模型，包括了至少一个保存有标志物和与标志物对应的拼音名的末级节点，并且，末级节点上的标志物处于与该末级节点对应的上一级节点上的行政区中。

本申请中的地址模型可以用于判断两个地址元素是否属于同一个地址信息，例如后面将详细说明的S811-S813的方法，以及S821-S824的方法等。此外，还可以用于将非标准格式的地址信息补充成标准地址信息，例如后面将详细说明的S910-S920的方法等。

表1为采用前述方法构建的一个地址模型的示例。其中，“河北省”为第一级行政区，其对应的拼音名包括hebeisheng、hebei，则将其保存在一级节点上；“保定市”为隶属于“河北省”的第二级行政区域，将“保定市”以及其对应的拼音名保存在该一级节点下的二级节点上。另外，行政区还可包括三级行政区、四级行政区等更多的级别，故而也可以按照实际行政区的划分，将各个行政区以及其对应的拼音名保存到相应级别的节点上。例如“涿州市”、“莲池区”等均是隶属于“保定市”的第三级行政区域，故而将这几个地址元素及其对应的拼音名保存在“保定市”这个二级节点下的三级节点上。

除了行政区域以外，地址元素还可以包括标志物，标志物通常处于某个确定的行政区内，故而可以将标志物和标志物对应的拼音名保存在地址模型中的末级节点上。也就是说，地址模型中的节点还包括至少一个保存有标志物和与标志物对应的拼音名的末级节点，并且，末级节点上的标志物处于与该末级节点对应的上一级节点上的行政区中。例如，“华北电力大学”是一个标志物，其处于第三级行政区域“莲池区”内，故而“华北电力大学”这个地址元素的等级为四级，将“华北电力大学”这个标志物的及其对应的拼音名保存在四级节点上，如表1所示。

表1地址模型局部示例

S700：如果节点上的拼音名与所述拼音文本匹配，则提取出匹配的拼音名所对应的地址元素。

在S600-S700的步骤中，利用前述方法所构建的地址模型，遍历地址模型的所有节点，逐个将节点上保存的拼音名与拼音文本进行比对。如果节点上的拼音名与拼音文本匹配，也就是拼音文本中包含了节点上的拼音名，则提取出匹配的拼音名所对应的地址元素。对于一个拼音文本而言，可能存在多个拼音名与其匹配，则相应地可以抽取出多个地址元素。

例如，利用表1中的地址模型，将其与前述的拼音文本1进行匹配，结果，一级节点上保存的“河北省”对应的拼音名、二级节点上保存的“保定市”对应的拼音名、三级节点上保存的“莲池区”对应的拼音名、四级节点上保存的“华北电力大学”对应的拼音名、另一个一级节点上保存的“北京市”对应的拼音名均与拼音文本1匹配，故而抽取出五个地址元素：“河北省”、“保定市”、“莲池区”、“华北电力大学”、“北京市”。

通过这样的方法，即便待抽取文本中的地址信息存在同音不同字的错别字，也可以提取出正确的地址元素，不会遗漏地址元素，从而生成完整准确的地址信息。

需要说明的是，在拼音名与拼音文本进行比对的时候，可以采用最长匹配原则，以减少出现匹配错误，导致抽取出错误的地址元素的情况。例如，地址元素“武义县”的拼音名包括wuyixian，“义县”的拼音名包括yixian。如果拼音文本中包括字符串“wuyixian”，则按照最长匹配元素，将会匹配到“武义县”对应的拼音名，而不匹配到“义县”对应的拼音名。

S800：利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息。

通过这样的方法，在利用该地址模型来抽取地址元素的时候，不再直接将地址元素与待抽取文本进行匹配来抽取，而是利用拼音名与拼音文本进行匹配来抽取，从而可以避免待抽取文本中的地址元素中包含错别字导致无法抽取出来的情况，或者避免抽取出包含错别字的地址元素的情况，提高了地址元素提取的召回率。最终得到完整的地址信息，并且地址信息中不包含错别字，更加准确、规范。

此外，如果一个待抽取文本的长度较长，其中可能既包含了地址元素，又包含了另一个与其他地址元素的拼音相同的词，比如“河北省博物馆在XX区XX路上……那儿最近在展出一个宋代的宝鼎”。通常情况下，由于人与智能机器人之间进行交互的会话文本都比较简短，其长度比常规的一篇文章、一段新闻等都要短，因此，一个会话文本中同时包括地址信息，以及与另一些地址元素拼音相同的词，这个概率就大大降低了。也因此，将上述的地址信息提取方法应用在处理智能机器人会话文本上，一定程度上可以减少误提取的情况。

当抽取出的地址元素只有一个时，这一个地址元素独立地构成了一个地址信息。

当提取出的地址元素的个数≥两个时，确定提取出的地址元素中是否存在属于同一个地址信息的地址元素；如果至少两个地址元素属于同一个地址信息，则合并所述至少两个地址元素，生成地址信息。也就是说，当从一个待抽取文本中提取出的地址元素超过一个的时候，需要先找出这些地址元素中，哪些属于一个地址信息，哪些属于另一个地址信息等，以及哪些单独构成一个地址信息。对于属于同一个地址信息的至少两个地址元素，则可以将其合并起来，生成完整的地址信息。

确定提取出的地址元素中是否存在属于同一个地址信息的地址元素，可以采用现有技术中的方法，也可以利用地址模型，根据提取出的地址元素在所述地址模型中所处的节点的节点等级来确定。

当两个地址元素中至少一个地址元素为行政区时，可以判断这两个地址元素之间是否存在包含关系，即一个地址元素是否位于另一个地址元素的区域内，如果二者存在包含关系，则可以确定二者属于同一个地址信息。因此，在一种实现方式中，地址模型中的地址元素包括行政区，请参考图3，确定的方法可以包括：

S811：选取提取出的地址元素中的任意两个；

S812：如果选取出的两个地址元素中至少一个地址元素为行政区，并且在所述待抽取文本中的位置相隔小于预设数量个字符，则判断所述两个地址元素各自在地址模型中所处的节点是否为直属的上下级节点关系。

S813：如果是，则所述两个地址元素属于同一个地址信息。

在S812的步骤中，地址元素在待抽取文本中的位置，指的是地址元素在待抽取文本中对应的原始字符串，其在待抽取文本中所处的位置。上述直属的上下级节点关系，指的是两个节点中，一个节点为另一个节点的直属上级节点的关系。也就是说，两个节点为父子节点的关系。

上述的方法中，在两个地址元素中至少一个为行政区的情况下，先判断两个地址元素在待抽取文本中间隔距离，如果二者两个距离较近，则认为二者可能属于同一个地址信息。然后再判断二者之间是否存在包含关系，如果是，则认为二者属于同一个的地址信息。通过这样的方法，可以更加准确的判断出两个地址元素是否属于同一个地址信息，从而提取出准确的地址信息。

沿用前述的例子，从待抽取文本1中提取出的五个地址元素：“河北省”、“保定市”、“莲池区”、“华北电力大学”、“北京市”。假设预设的两个地址元素之间相隔的数量为2个。

任意选取其中的两个地址元素“河北省”和“保定市”，由于这两个地址元素都是行政区，首先获取两个地址元素在待抽取文本中的位置。

具体地，以获取地址元素“保定市”在待抽取文本1中的位置为例，首先获取“保定市”对应的拼音名与拼音文本1所匹配的位置，即“baoding”在拼音文本1中的位置。通过该位置获取拼音文本中的“baoding”在待抽取文本1中的中文原始字符串的位置，即“包定”在待抽取文本1中的位置——第11-12个字符。类似地，可以获取到“河北省”在待抽取文本1中的位置——第8-10个字符。

在待抽取文本1中，“河北省”和“包定”之间相隔的字符数为0个，小于预设的2个字符，然后再判断两个地址元素“河北省”和“保定市”在地址模型中所处的节点是否为直属的上下级节点关系。“河北省”在表1的地址模型中所处的节点为一级节点，其直属的二级节点为“保定市”，而二者为直属的上下级节点关系，从而可以确定“河北省”和“保定市”这两个地址元素属于同一个地址信息。

再任意选取其中的两个地址元素“河北省”和“北京市”。采用与前述类似的方式获取“北京市”在待抽取文本1中的位置，即转化成拼音之前的原始字符串“北京”在待抽取文本1中的位置——第28-29个字符。在待抽取文本1中“河北省”和“北京”之间相隔的字符数超过2个，二者不属于同一个地址信息。

类似地，可以确定“保定市”和“莲池区”属于同一个地址信息。由于“河北省”和“保定市”属于同一个地址信息，故而可以确定三者属于同一个地址信息。

通过确定五个地址元素中两两之间是否属于同一个地址信息，就可以确定前述的五个地址元素中，“河北省”、“保定市”、“莲池区”和“华北电力大学”属于同一个地址信息，而“北京市”属于另一个地址信息。

在确定了“河北省”、“保定市”、“莲池区”和“华北电力大学”属于同一个地址信息以后，可以按照其各自对应的的中文原始字符串在待抽取文本中的前后顺序，将多个属于同一个地址信息的地址元素的组合，生成一个完整的地址信息，即地址信息1：河北省保定市莲池区华北电力大学。“北京市”独自构成一个地址信息，即地址信息2：北京市。

当两个地址元素中均为标志物时，可以判断这两个地址元素之间是否存在方位关系，如果二者存在方位关系，则也可以确定二者属于同一个地址信息。因此，在另一种实现方式中，地址信息中的地址元素包括标志物，请参考图4，确定提取出的地址元素中是否存在属于同一个地址信息的地址元素的方法，可以包括：

S821：选取提取出的地址元素中的任意两个；

S822：如果选取出的两个地址元素均为标志物，并且选取出的两个地址元素在地址模型中所处的节点隶属于同一个上一级节点，则从待抽取文本中识别出第一文本，所述第一文本为两个地址元素在待抽取文本中对应的中文原始字符串及二者之间的文本；

S823：判断所述第一文本与预设的第一规则是否匹配，其中，所述第一规则为表征两个地址元素之间存在方位关系的规则；

S824：如果匹配，则确定所述两个地址元素属于同一个地址信息。

在S824的步骤中，方位关系是指两个地物之间方向与位置的相对关系，例如，A位于B上面，即表征了A和B之间存在方位关系。第一规则为表征两个地址元素之间存在方位关系的规则，由用户预设。例如，在e_build{0,2}(里|左边|右边|前边|后边|里面|里头|内){0,2}e_build，其中，e_build表示标志物。上述的规则表示，如果一个文本中包括一个标志物和另一个标志物，二者之间的文本中存在“里”、“左边”、“右边”、“前边”、“后边”、“里面”、“里头”和“内”中的任意一个方位词，并且前一个标志物与方位词之间存在0-2个字符，方位词与后一个标志物之间存在0-2个字符，则该文本与上述的规则能够匹配。此处，预设的第一规则可以只有一条，也可以大于一条。当第一规则超过一条时，将第一规则逐条与第一文本进行匹配，第一规则中任意一条与第一文本匹配，则可以确定两个地址元素属于同一个地址元素。

对于同一个待抽取文本中抽取出的多个地址元素，其中可能既包括行政区，也包括标志物。选取这些地址元素中的任意两个来确定二者是否属于同一个地址信息，可以采用第一种实现方式确定，也可以采用第二种实现方式来确定，即对于同一个地址信息提取方法而言，前述的两种实现方式是可以结合的。

举例来说，待抽取文本2：

我在北京朝阳区神舟泰岳大厦里面的麦当劳吃饭。

预设的第一规则为e_build{0,2}(里|左边|右边|前边|后边|里面|里头|内){0,2}e_build。

将待抽取文本2转化为拼音文本后，将表1所示的地址模型中节点上保存的拼音名与拼音文本进行比对，可以抽取出四个地址元素：“北京市”、“朝阳区”、“神州泰岳大厦”、“麦当劳”。

在确定提取出的地址元素中是否存在属于同一个地址信息的地址元素时，假设提取出的地址元素为“神州泰岳大厦”和“麦当劳”。二者均为标志物，“神州泰岳大厦”在表1的地址模型中所处的节点为二级节点“朝阳区”下的一个三级节点，“麦当劳”在地址模型中所处的节点为二级节点“朝阳区”下的另一个三级节点，二者各自所处的节点隶属于同一个上级节点。则从待抽取文本2中识别出第一文本1，即两个地址元素在待抽取文本中对应的中文原始字符串及二者之间的文本，也就是“神舟泰岳大厦里面的麦当劳”。

然后，将预设的第一规则与识别出的第一文本1进行匹配，结果第一文本1能够与第一规则匹配，故而可以确定“神州泰岳大厦”和“麦当劳”属于一个地址信息。

采用前一种实现方式中的方法，可以确定“北京市”、“朝阳区”和“神州泰岳大厦”三个地址元素属于一个地址信息。结合“神州泰岳大厦”和“麦当劳”属于一个地址信息，可以得到这四个地址元素属于一个地址信息，从而将其按照各自对应的中文原始字符串在待抽取文本2中的先后顺序进行组合，生成地址信息2：北京市朝阳区神州泰岳大厦麦当劳。

可选地，还可以将第一文本中与第一规则中的方位词所匹配的字符串抽取出来，也就是抽取出表示两个地址元素之间的方位关系的方位词。并且在组合地址元素，生成地址信息的时候，将地址元素和方位词按照其在待抽取文本中的先后顺序进行组合，从而生成表述形式更加完整的地址信息。

沿用前述的例子，即在确定了“神州泰岳大厦”和“麦当劳”是否属于同一个地址信息以后，从第一文本中将方位词“里面”抽取出来。在组合生成地址信息的时候，将“里面”抽取出的方位词放在“神州泰岳大厦”和“麦当劳”之间，从而最后生成地址信息3：北京市朝阳区神州泰岳大厦里面的麦当劳。

可选地，请参考图5，前述的地址信息提取方法，还可以包括以下步骤：

S910：将生成的地址信息与预设的标准格式进行比对；

S920：如果所述地址信息与所述标准格式不匹配，则利用所述地址模型将所述地址信息补充成标准地址信息。

在S910的步骤中，标准格式是用户根据应用场景的不同而进行设定的。例如，对于污水处理行业来说，其所需的地址可以无需提取出确切的地址，故而可以将标准格式设置为“XX省+XX市+XX县/街道/区”这样的格式。而对于公安行业来说，其所抽取到的地址需要更加确切的地址，故而可以将标准格式设置为“XX省+XX市+XX县/街道/区+XX路+门牌号/标志物”这样的格式。

在S920的步骤中，利用所述地址模型将所述地址信息补充成标准地址信息的步骤，可以包括：

从所述地址信息中识别出基准元素，所述基准元素是生成的地址信息中等级最高的地址元素；

如果所述地址信息与所述标准格式相比缺少至少一个地址元素，并且缺少的地址元素的等级高于所述基准元素的等级，则从所述地址模型中查找出保存有所述基准元素的节点；

将保存所述基准元素的节点的上N级节点上保存的地址元素，依次补充到所述地址信息中，生成标准地址信息，N取1，2，3……q；q为与所述标准格式相比，所述地址信息缺少的等级比所述基准元素的等级高的地址元素的数量。

此外，生成标准地址信息的步骤，还可以包括：如果与标准格式相比，生成的地址信息中多余至少一个地址元素，并且多余的地址元素的等级低于标准格式中等级最低的地址元素，则将地址信息中多余的至少一个地址元素删除，得到标准地址信息。

例如，生成的地址信息4为“保定市莲池区华北电力大学”，预设的标准格式1为“XX省+XX市+XX县/街道/区”，将二者进行比对，二者不匹配。在地址信息4中，“保定市”的等级为二级，“莲池区”的等级为三级，“华北电力大学”的等级为四级，故而“保定市”的等级最高，为地址信息4中的基准元素。与标准格式1相比，地址信息4中缺少一个地址元素“XX省”，并且缺少的地址元素的等级为一级，高于“保定市”，故而从表1的地址模型中查找出保存“保定市”的节点，然后将该节点的上一级节点“河北省”补充到地址信息4中，得到地址信息“河北省保定市莲池区华北电力大学”。这其中，“华北电力大学”的等级为四级，低于标准格式1中等级最低的地址元素“XX县/街道/区”的等级(三级)，故而将“华北电力大学”删除，得到标准地址信息“河北省保定市莲池区”。

如果从待抽取文本中提取到的地址信息与标准格式不匹配，除了前述S910-S920步骤所描述的将地址信息补充完整的方法以外，可选地，当所述待抽取文本为多轮会话中当前轮次的会话文本时，还可以采用以下步骤来将地址信息补充完整：

S910：将生成的地址信息与预设的标准格式进行比对；

S930：如果所述地址信息与所述标准格式不匹配，则利用当前轮次之前的预设轮次的会话文本，将所述地址信息补充成标准地址信息。

这里的预设轮次，可以根据不同的应用场景来预设，例如可以预设为一轮，也可以预设为三轮等，本申请对具体的轮次数量不做限定。

在本步骤中，可以从之前的预设轮次的会话文本中提取出地址元素，然后判断与当前轮次的会话文本中提取出的地址元素之间是否存在包含关系，如果二者是包含关系，那么就可以用之前的预设轮次的会话文本中提取出的地址元素将地址信息补充成标准地址信息。

例如，第一轮会话文本：

输入信息：我要报警，在竞秀区第七中学门口有人被抢劫了。

回复信息：是哪里的竞秀区？

第二轮会话文本：

输入信息：保定市的竞秀区。

假设第二轮会话为当前轮次的会话，则利用前述的提取方法，可以从当前轮次的会话文本中提取出地址信息5“保定市竞秀区”。

假设该智能会话系统应用于公安系统，其预设的标准格式2为“XX省+XX市+XX县/街道/区+标志物”。将地址信息5与标准格式2比对，二者不匹配。采用前述的利用地址模型的方法，可以将地址信息5补充为地址信息6“河北省保定市竞秀区”，但是这样的地址信息仍然不能满足预设格式的要求，故而，利用地址模型从上一轮会话文本，也就是第一轮会话文本中提取出地址元素“竞秀区”和“第七中学”。由于地址信息6中已经包含了竞秀区，但是并没有包含“第七中学”，并且利用地址模型可以判断出地址元素“第七中学”隶属于“竞秀区”，故而可以将从当前轮次的会话文本中提取出的地址信息补充成标准地址信息“河北省保定市竞秀区第七中学”。

需要说明的是，如果待抽取文本为多轮会话中当前轮次的会话文本，则既可以利用地址模型来补充提取出的地址信息，也可以利用前一轮或前几轮的会话文本来补充，二者还可以结合使用，从而将提取出的地址信息补充成标准地址信息。

在本申请的第二个实施例中，请参考图6，提供与智能机器人会话文本的地址信息提取方法对应的装置，即一种智能机器人会话文本的地址信息提取装置，包括：

第一获取单元1，用于获取待抽取文本；

第一处理单元2，用于在待抽取文本中包括至少一个汉字表述的地址的情况下，将待抽取文本转化为拼音文本；将地址模型的节点上保存的拼音名逐个与所述拼音文本进行比对；在节点上的拼音名与所述拼音文本匹配的情况下，提取出匹配的拼音名所对应的地址元素；以及，利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息；其中，所述地址模型包括至少一个节点，在所述地址模型的节点上，保存有地址元素和与所述地址元素对应的拼音名，所述节点的节点等级与地址元素的等级相对应。

可选地，第一处理单元2还用于在提取出的地址元素的个数大于或等于两个的情况下，根据提取出的地址元素在所述地址模型中所处的节点的节点等级，确定提取出的地址元素中是否存在属于同一个地址信息的地址元素；以及，在至少两个地址元素属于同一个地址信息的情况下，将所述至少两个地址元素组合，生成地址信息。

可选地，第一处理单元2还用于选取提取出的地址元素中的任意两个；在选取出的两个地址元素中至少一个地址元素为行政区，并且在所述待抽取文本中的位置相隔小于预设数量个字符的情况下，判断所述两个地址元素各自在地址模型中所处的节点是否为直属的上下级节点关系；以及，在所述两个地址元素各自在地址模型中所处的节点为直属的上下级节点关系的情况下，确定所述两个地址元素属于同一个地址信息。其中，所述地址模型中的地址元素包括行政区。

可选地，第一处理单元2还用于选取提取出的地址元素中的任意两个；在选取出的两个地址元素均为标志物，并且选取出的两个地址元素在地址模型中所处的节点隶属于同一个上一级节点的情况下，从待抽取文本中识别出第一文本；判断所述第一文本与预设的第一规则是否匹配；以及，在所述第一文本与预设的第一规则匹配的情况下，确定所述两个地址元素属于同一个地址信息。其中，所述地址模型中的地址元素包括标志物，所述第一文本为两个地址元素在待抽取文本中对应的中文原始字符串及二者之间的文本，所述第一规则为表征两个地址元素之间存在方位关系的规则。

可选地，第一处理单元2还用于将生成的地址信息与预设的标准格式进行比对；以及，在所述地址信息与所述标准格式不匹配的情况下，利用所述地址模型将所述地址信息补充成标准地址信息。

可选地，当所述待抽取文本为多轮会话中当前轮次的会话文本时，第一处理单元2还用于将生成的地址信息与预设的标准格式进行比对；以及，在所述地址信息与所述标准格式不匹配的情况下，利用当前伦次之前的预设轮次的会话文本，将所述地址信息补充成标准地址信息。

可选地，所述提取装置还包括构建单元3，用于构建地址模型，具体用于获取地址元素；生成与地址元素对应的拼音名；以及，在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名，其中，所述节点的节点等级与地址元素的等级相对应。

可选地，所述构建单元3还用于在每一个一级节点上保存一个第一级行政区，以及与所述第一级行政区对应的拼音名；以及，在每一个二级节点上保存第二级行政区，以及与所述第二级行政区对应的拼音名，其中，每一个所述一级节点下具有对应的至少一个二级节点，二级节点上的第二级行政区隶属于对应的一级节点上的第一级行政区。

可选地，所述构建单元3还用于在至少一个末级节点上保存标志物，以及与所述标志物对应的拼音名，其中，末级节点上的标志物处于与该末级节点对应的上一级节点上的行政区中。

本实施例中的提取装置与前述实施例中的提取方法相对应，相应地具有前述提取方法的有益效果，此处不再赘述。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种智能机器人会话文本的地址信息提取方法，其特征在于，包括：

获取待抽取文本；

2.根据权利要求1所述的方法，其特征在于，所述利用提取出的地址元素，以及提取出的地址元素在所述地址模型中所处的节点的节点等级，生成地址信息的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述地址模型中的地址元素包括行政区；

选取提取出的地址元素中的任意两个；

如果是，则确定所述两个地址元素属于同一个地址信息。

4.根据权利要求2所述的方法，其特征在于，所述地址模型中的地址元素包括标志物；

选取提取出的地址元素中的任意两个；

如果匹配，则确定所述两个地址元素属于同一个地址信息。

5.根据权利要求2-4任一项所述的方法，其特征在于，该方法还包括：

将生成的地址信息与预设的标准格式进行比对；

6.根据权利要求2-4任一项所述的方法，其特征在于，当所述待抽取文本为多轮会话中当前轮次的会话文本时，该方法还包括：

将生成的地址信息与预设的标准格式进行比对；

7.根据权利要求1-4任一项所述的方法，其特征在于，所述地址模型通过以下构建方法得到：

获取地址元素；

生成与地址元素对应的拼音名；

8.根据权利要求7所述的方法，其特征在于，在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名的步骤，包括：

在每一个二级节点上保存第二级行政区，以及与所述第二级行政区对应的拼音名，二级节点上的第二级行政区隶属于对应的一级节点上的第一级行政区。

9.根据权利要求8所述的方法，其特征在于，在地址模型中的节点上，保存地址元素和与所述地址元素对应的拼音名的步骤，还包括：

10.一种智能机器人会话文本的地址信息提取装置，其特征在于，包括：

第一获取单元，用于获取待抽取文本；