CN115292620A

CN115292620A - 地域信息识别方法、装置、电子设备和存储介质

Info

Publication number: CN115292620A
Application number: CN202210951264.XA
Authority: CN
Inventors: 宋胜康; 徐程程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-04

Abstract

本申请实施例公开了一种地域信息识别方法、装置、电子设备和存储介质；该方法包括：获取待识别文本以及待识别文本中的地域词；对基于地域词和待识别文本得到的融合数据进行语义识别，得到地域词对应的第一特征向量；对地域词与待识别文本之间的关联数据进行编码处理，得到地域词对应的第二特征向量；基于地域词对应的第一特征向量和所述第二特征向量，计算待识别文本与地域词的匹配度；根据地域词的匹配度，从地域词中确定所述待识别文本的地域信息。在本申请实施例中融合了深层的语义特征和基于关联数据编码得到的浅层特征，使得地域词和待识别文本的特征表达更加完整准确，以提升地域信息识别的准确度。

Description

地域信息识别方法、装置、电子设备和存储介质

技术领域

本申请涉及文本处理技术领域，具体涉及一种地域信息识别方法、装置、电子设备和存储介质。

背景技术

随着互联网的快速发展，人们获取内容的方式多种多样，例如，可以是主动搜索相关内容，也可以是系统自动将内容推荐给用户。当用户搜索和地域相关的内容或者进行地域推荐时，均需要准确识别内容的地域信息。

若具有地域性的内容中仅存在一个地域词，通常可以直接将该地域词作为内容的地域信息，但是若内容中具有多个地域词，则难以准确确定内容实际所指向的地域信息。

发明内容

本申请实施例提供一种地域信息识别方法、装置、电子设备和存储介质，可以准确确定待识别文本中的地域信息。

本申请实施例提供一种地域信息识别方法，包括：

本申请实施例还提供一种地域信息识别装置，包括：

获取模块，用于获取待识别文本以及所述待识别文本中的地域词；

语义识别模块，用于对基于所述地域词和所述待识别文本得到的融合数据进行语义识别，得到所述地域词对应的第一特征向量；

编码模块，用于对所述地域词与所述待识别文本之间的关联数据进行编码处理，得到所述地域词对应的第二特征向量；

计算模块，用于基于所述地域词对应的第一特征向量和所述第二特征向量，计算所述待识别文本与所述地域词的匹配度；

确定模块，用于根据所述地域词的匹配度，从所述地域词中确定所述待识别文本的地域信息。

在一些实施例中，计算模块还包括：

融合单元，用于对所述第一特征向量和所述第二特征向量进行融合处理，得到目标特征向量；

归一化单元，用于基于所述目标特征向量进行归一化处理，得到所述待识别文本与所述地域词的匹配度。

在一些实施例中，所述融合数据包括第一融合数据和第二融合数据，语义识别模块还包括：

信息获取单元，用于获取所述待识别文本的类别信息以及发布者信息；

第一融合单元，用于将所述类别信息和所述地域词填充至预设模板，得到所述第一融合数据；

第二融合单元，用于将所述待识别文本、所述类别信息以及所述待识别文本的发布者信息按照所述预设模板进行拼接，得到所述第二融合数据；

语义识别单元，用于对所述融合数据进行语义识别，得到所述第一特征向量。

在一些实施例中，编码模块还包括：

提取单元，用于按照预设规则，从所述待识别文本中提取所述地域词与所述待识别文本之间的关联数据；

编码单元，用于对所述关联数据进行编码处理，得到所述第二特征向量。

在一些实施例中，地域信息识别装置还包括训练模块，训练模块用于：

获取第一模型以及第一样本集，所述第一样本集包括指定待识别样本和标注地域词，所述标注地域词为所述指定待识别样本中唯一的地域词；

通过所述第一模型对所述指定待识别样本进行地域词的预测，得到预测地域词；

利用所述预测地域词和所述标注地域词，对所述第一模型的模型参数进行调整，得到调整后的第一模型；

利用所述调整后的第一模型构建第二模型；

对所述第二模型进行参数调整，得到匹配度计算模型，所述匹配度计算模型用于计算待识别文本中的地域词和待识别文本的匹配度。

在一些实施例中，训练模块还用于：

获取第二样本集，所述第二样本集包括样本地域词对应的样本融合数据、样本地域词对应的样本关联数据、以及标签值；

基于所述第二模型，对所述样本融合数据和所述样本关联数据进行融合处理，得到预测值；

基于所述预测值和所述标签值，对所述第二模型的模型参数进行调整，得到所述匹配度计算模型。

本申请实施例还提供一种电子设备，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种地域信息识别方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种地域信息识别方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种地域信息识别方法中的步骤。

本申请实施例可以获取待识别文本以及待识别文本中的地域词；对基于地域词和待识别文本得到的融合数据进行语义识别，得到地域词对应的第一特征向量；对地域词与待识别文本之间的关联数据进行编码处理，得到地域词对应的第二特征向量；基于地域词对应的第一特征向量和所述第二特征向量，计算待识别文本与所述地域词的匹配度；最后根据所述地域词的匹配度，从地域词中确定待识别文本的地域信息。在进行匹配度计算时，融合了地域词以及待识别文本的语义特征和基于简单编码得到浅层特征，使得地域词和待识别文本的特征表达更加完整准确，以提升匹配度的计算准确度，从而可以准确确定待识别文本的地域信息。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的地域信息识别方法的场景示意图；

图1b是本申请实施例提供的地域信息识别方法的流程示意图；

图1c是本申请实施例提供的第一模型的结构示意图；

图1d是本申请实施例提供的匹配度计算模型的结构示意图；

图2是本申请另一实施例提供的地域信息识别方法的流程示意图；

图3是本申请实施例提供的地域信息识别装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种地域信息识别方法、装置、电子设备和存储介质。

其中，该地域信息识别装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该地域信息识别装置还可以集成在多个电子设备中，比如，地域信息识别装置可以集成在多个服务器中，由多个服务器来实现本申请的地域信息识别方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，示出了本申请实施例提供的地域信息识别方法的应用场景示意图。

如图1a中所示，用户终端101和服务器102位于无线网络或有线网络中，用户终端101和服务器102进行数据交互。服务器102可以是单独的服务器，也可以是服务器集群，可以是本地服务器，也可以是云端服务器。

服务器102能够通过用户终端101和用户相关的数据，例如，用户主动输入的数据、用户当前所处的位置信息等，具体可根据实际的需要进行数据的获取。

例如，在基于地域进行内容推荐的场景中，可以是在用户允许的情况下获取用户的当前位置信息，将和该位置信息匹配的内容推荐给用户。服务器102可以将推荐数据库中每个待推荐内容作为待识别文本，识别出待识别文本的地域信息，并将地域信息作为待推荐内容的地域标签。在推荐时，服务器102可以获取用户终端101发送的当前位置信息，确定出与位置信息匹配的地域标签所指示的待推荐内容；并将待推荐内容发送至用户终端101。

又例如，在进行地域性搜索的场景中，可以是获取用户输入的包含地域词的搜索文本。服务器102可以将数据库中每个内容作为待识别文本，识别出待识别文本的地域信息，并将地域信息作为内容的地域标签。当用户进行地域性搜索时，可以在用户终端101中输入包含地域词的搜索文本，并将包含地域词的搜索文本发送至服务器102，服务器102将与用户输入的地域词匹配的地域标签所指示的内容作为搜索结果，并将搜索结果发送至用户终端101。

其中，服务器102在进行地域信息识别时，可以是获取待识别文本以及所述待识别文本中的地域词；对基于所述地域词和所述待识别文本得到的融合数据进行语义识别，得到所述地域词对应的第一特征向量；对所述地域词与所述待识别文本之间的关联数据进行编码处理，得到所述地域词对应的第二特征向量；基于所述地域词对应的第一特征向量和所述第二特征向量，计算所述待识别文本与所述地域词的匹配度；根据所述地域词的匹配度，从所述地域词中确定所述待识别文本的地域信息。

需要说明的是，在本申请的具体实施方式中，涉及到的和用户相关的数据，例如用户账号的信息、用户输入的数据、用户的当前位置信息等，当本申请的实施例将这些数据运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，以下分别进行详说明。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本实施例中，提供了一种涉及人工智能的地域信息识别方法，如图1b所示，该地域信息识别方法的具体流程可以如下：

S110、获取待识别文本以及所述待识别文本中的地域词。

待识别文本是指需要进行地域识别的文本信息。待识别文本可以为文章、语句、短语等形式，可以包括文字、数字、字符、符号等文本信息。待识别文本可以为任一语言形式的文本，如中文、英文等，也可以为不同语言混合的文本，如中英文混合的文本。本申请实施例对待识别文本的形式不作限制。

地域词是指代表地理位置的词汇，例如，XX省，XX市、XX县、XX区、省级行政区域的简称、各个地方的简称等等。地域词的表现形式可以是单个字符、或词语等等。

其中，待识别文本可以是基于不同的方式获取到。例如，在获得用户许可或同意的情况下，将用户通过终端输入的文本信息作为待识别文本。又例如，在获得用户许可或同意的情况下，将用户发布在互联网上的内容作为待识别文本。

待识别文本的获取方式可根据具体的应用场景确定。例如，在搜索场景下，可以是将搜索所使用的数据库中的每个内容作为待识别文本。又例如，在推荐场景下，可以是将推荐所使用的数据库中的每个内容作为待识别文本。又例如，还可以是将用户输入的文本作为待识别文本等在一些实施方式中，数据库中的内容可能是视频、音频、图像或动态图像等多种不同形式的多媒体内容，则可以基于图像识别或语音识别等技术将这些内容转换为待识别文本。

在获取到待识别文本后，可以继续获取待识别文本中的地域词。在获取待识别文本中的地域词时，可以确定待识别文本的地域性；若待识别文本具有地域性，从待识别文本中抽取地域词；若待识别文本不具有地域性，直接输出待识别文本不具有地域性。

在一些实施方式中，在确定是待识别文本的地域性时，可以是通过预先训练好的地域性判别模型进行确定。例如，若地域性判别模型在训练后，可以输出“是”和“否”两个结果；若将待识别文本输入地域性判别模型，地域性判别模型输出的结果为“是”，则可以认为待识别文本具有地域性；若将待识别文本输入地域性判别模型，地域性判别模型输出的结果为“否”，则可以认为待识别文本不具有地域性。

若待识别文本不具有地域性，表明待识别文本所描述的内容并非是针对某一地域的，则直接输出待识别文本不具有地域性的结果，结束对待识别文本的处理。若待识别文本具有地域性，表明待识别文本包括至少一个地域词，则继续从待识别文本中抽取地域词。

其中，从待识别文本中抽取地域词有多种方式。作为一种实施方式，可以是预先建立地域词典，该地域词典中包括预先设置的多个预设地域词；将待识别文本与地域词典中的每个预设地域词进行匹配，将匹配成功的预设地域词作为待识别文本中的地域词。例如，地域词典中包括A、B、C、D，待识别文本中包括A和C，从而，可以确定待识别文本的地域词为A和C。

作为一种实施方式，还可以是预先对深度学习模型进行训练，得到地域词抽取模型，将待识别文本中输入地域词抽取模型，得到待识别文本中的地域词。

作为一种实施方式，还可以是使用命名实体识别(Named Entity Recognition，NER)工具，例如HanLP、CRF++等，基于该命名实体识别工具，可以直接从待识别文本中抽取出地域词。

S120、对基于所述地域词和所述待识别文本得到的融合数据进行语义识别，得到所述地域词对应的第一特征向量。

在获取到待识别文本中的地域词后，为了准确识别待识别文本的地域信息，可以是获取地域词与待识别文本的融合数据的语义特征。

在一些实施方式中，可以是将地域词与待识别文本的拼接文本作为融合数据，然后对融合数据进行语义识别，得到地域词对应的第一特征向量。

在一些实施方式中，为了提升确定语义识别的准确性，基于地域词和待识别文本得到的融合数据可以包括第一融合数据和第二融合数据。该步骤可以包括：获取所述待识别文本的类别信息以及发布者信息；将所述类别信息和所述地域词填充至预设模板，得到所述第一融合数据；将所述待识别文本、所述类别信息以及所述待识别文本的发布者信息按照所述预设模板进行拼接，得到所述第二融合数据；对所述融合数据进行语义识别，得到所述第一特征向量。

待识别文本所属的类别信息是指通过预设层级分类体系得到的待识别文本所属的类别，例如社会、娱乐、影视等等。预设层级分类体系是指预先设置的分类体系，可以包括多个不同的层级，待识别文本在每个层级下均对应一个类别。待识别文本的发布者信息可以是指发布待识别文本的用户的相关信息，例如用户账号的标识等。

预设模板是指预先设置的用于融合待识别文本和地域词的模板，其可以包括第一子模板和第二子模板，其中，基于第一子模板可以得到第一融合数据，基于第二子模板可以得到第二融合数据。

为了增强地域词的表达力，可以将类别信息和地域词填充至第一子模板，以得到第一融合数据。为了避免引入类别信息带来的噪声，可以将待识别文本、类别信息以及待识别文本的发布者信息按照第二子模板拼接，可以得到第二融合数据，第二融合数据主要包含待识别文本的具体信息。

在一些实施方式中，在得到第二融合数据之前，还可以具体区分出待识别文本中的标题以及待识别文本中的正文。例如，若待识别文本具有标题，则可以将待识别文本中的标题和正文进行区分，从而得到待识别文本的标题、待识别文本的正文；若待识别文本中不存在标题，则可以直接将待识别文本的所有内容作为正文。

例如，预设模板中的第一子模板为：【地域词】【类别信息】类文章；预设模板中的第二子模板为：【类别信息】类文章#【发布者信息】：【标题】【正文】。

待识别文本的发布者信息为：A地那些事儿；标题为：A地那些事晚版，每天发送，新鲜咨询不落下；正文为：4月5日起，B地限行尾号即将进行调整；类别信息为：社会。

若地域词待识别文本的地域词为A地，根据上述内容，可以得到第一融合数据为“A地社会类文章”；第二融合数据为“社会类文章#保定那些事儿：A地那些事晚版，每天发送，新鲜资讯不落下4月5日起B地限行尾号即将进行调整”。

其中，预设模板中引入了待识别文本所属的类别信息，并通过第一子模板将地域词扩展为一句完整的表述，可增强地域词的表达能力。为了避免引入类别信息带来的噪声，在第二子模板中也增加了类别信息。

然后将第一融合数据和第二融合数据一起作为融合数据，再对融合数据进行语义识别，得到第一特征向量。

作为一种实施方式，可以是利用BERT模型得到第一特征向量，例如，将第一融合数据和第二融合数据进行拼接，并在第一融合数据和第二融合数据之间插入分隔符，在整个融合数据的头部插入开始标识符，得到BERT的输入数据。例如分隔符可以是[SEP]、开始标识符为[CLS]，BERT的输入数据为：[CLS]第一融合数据[SEP]第二融合数据。将输入数据输入BERT后，可以获取到BERT的输出向量，将开始标识符[CLS]对应的向量作为第一特征向量。

通过BERT模型对根据预设模板得到的融合数据进行语义识别，得到了融合数据对应的深层语义特征。

S130、对所述地域词与所述待识别文本之间的关联数据进行编码处理，得到所述地域词对应的第二特征向量。

由于BERT等深度模型的泛化性较好，重点关注输入数据的深层语义信息，但缺乏记忆，由此，为了避免过度关注深层语义导致最终的匹配计算不准确，可以抽取地域词与待识别文本之间的关联数据，并进行编码，得到浅层特征表达，即得到第二特征向量。

在获取第二特征向量时，可以是按照预设规则，从所述待识别文本中提取所述地域词与所述待识别文本之间的关联数据；对所述关联数据进行编码处理，得到所述第二特征向量。

预设规则是指预先设定的关联数据的提取规则，地域词与待识别文本之间的关联数据可以包括与地域词关联的数据、与待识别文本关联的数据，以及地域词在待识别文本中的关联数据。

其中，与地域词关联的数据可以是指地域词所属的行政区划单位，例如地域词所属的省市区。

与待识别文本关联的数据可以包括待识别文本的发布者相关的信息，待识别文本的类别信息。发布者相关的信息可以包括发布者是否具有地域性、发布者的地域信息所属的行政区划单位等，待识别文本的类别信息可以包括待识别文本的一级类别、二级类别、三级类别等。

地域词在待识别文本中的关联数据可以包括地域词的出现位置和出现次数。例如，出现位置可以是确定地域词是否在发布者的用户账号的标识中出现、是否在待识别文本中的标题中出现、是否在待识别文本中的正文中出现，地域词具体出现在正文的开头、中间还是结尾。

在获取到关联数据之后，对关联数据进行编码处理，得到第二特征向量。为了弥补基于预设规则提取的关联数据的表达力较弱的情况，可以利用编码模型对关联数据进行编码。

例如，编码模型可以是GBDT模型，其中，GBDT模型为梯度提升决策树模型，可以对基于规则或人工提取的浅层特征(关联数据)进行特征划分、特征组合和特征选择，并得到高阶特征属性和非线性映射。其中，GBDT中决策树的深度决定了关联数据的交叉的维度，基于GBDT模型对关联数据进行编码，可进一步提升关联数据的表达力。

利用预先训练好的GBDT模型对关联数据进行特征划分、特征组合和特征选择，训练好的GBDT模型中可以包括多颗子树，获取关联数据落在每颗子树上的叶子节点的结果，即叶子结点编号，将其转为multi-hot编码的格式，则可以得到最终的第二特征向量。通过训练好的GBDT模型对关联数据进行编码，可以增强对基于预设规则提取关联数据的特征表达力。

S140、基于所述地域词对应的第一特征向量和所述第二特征向量，计算所述待识别文本与所述地域词的匹配度。

针对每个地域词，均可以得到地域词对应的第一特征向量和第二特征向量，为了计算出该地域词与待识别文本的匹配度，可以是对所述第一特征向量和所述第二特征向量进行融合处理，得到目标特征向量；基于所述目标特征向量进行归一化处理，得到所述待识别文本与所述地域词的匹配度。

其中，第一特征向量是基于融合数据得到的，而融合数据中的第一融合数据包含地域词和类目信息，融合数据中的第二融合数据包含待识别文本的基本信息。由此，第一特征向量中包含地域词以及待识别文本的深层语义特征。第二特征向量是基于关联数据得到的，关联数据中包含了地域词和待识别文本的基本的信息，对关联数据进进行简单的编码处理，以增强关联数据的特征表达力，可见第二特征向量中包含了地域词和待识别文本的浅层特征。

在计算地域词和待识别文本的匹配度时，可以将第一特征向量和第二特征向量进行融合处理，得到目标特征向量。

在一些实施方式中，可以是直接将第一特征向量和第二特征向量拼接在一起，得到目标特征向量。例如，第一特征向量为768维，第二特征向量为5维，拼接后得到的目标特征向量为773维。

在一些实施方式中，还可以是将第二特征向量输入前馈神经网络(Feed ForwardNetwork，FFN)，得到第三特征向量，将第一特征向量和第三特征向量进行拼接，得到目标特征向量。其中，第二特征向量经过前馈神经网络的处理之后，特征维度得到提升，可以进一步增强浅层特征的表达力。

在得到目标特征向量之后，可以对目标特征向量进行归一化处理，得到待识别文本与地域词的匹配度。例如，可以是将目标特征向量输入softmax分类器，进行二分类并输出对应的匹配度。

S150、根据所述地域词的匹配度，从所述地域词中确定所述待识别文本的地域信息。

在计算得到地域词的匹配度后，可以从地域词中确定出待识别文本的地域信息。可以理解的是，待识别文本中的地域词的数量可能是1个或多个，在根据匹配度确定待识别文本的地域信息时，可以是获取待识别文本中的地域词的数量；若数量不大于预设数量，根据匹配度和预设阈值确定待识别文本的地域信息；若数量大于预设数量，将指示匹配程度最高的匹配度对应的地域词作为待识别文本对应的地域信息。

作为一种实施方式，在获取待识别文本中地域词的数量时，可以是直接对地域词进行计数，得到地域词的数量。例如，待识别文本中的地域词为A和C，可以认为地域词的数量为2。

作为另一种实施方式，在获取待识别文本中地域词的数量时，可以是先对待识别文本中地域词进行合并处理，得到合并处理后的地域词；然后将合并处理后的地域词的数量，作为待识别文本中地域词的数量。例如，地域词为A和C，其中，A为A城市的全称，C为A城市的简称，可见A和C实质上是相同城市的不同名称，则可以将A和C合并为一个标准名称，例如，将其合并为城市的全称，则可以将A和C合并为A。由此，可以得到待识别文本中的地域词数量为1。

其中，预设数量可以是预先设置的值，在本申请实施例中，可以将预设数量设置为1。

若数量不大于1，根据匹配度和预设阈值确定待识别文本的地域信息时，可以是确定匹配度是否大于预设阈值；若大于，将该地域词确定为待识别文本的地域信息；若不大于，将待识别文本的地域信息确定为空。

其中，预设阈值为预先设置一个经验值，例如，通常在匹配度大于预设阈值时，才能表明地域词和待识别文本之间具有一定的相关性，匹配度小于预设阈值，表明该地域词和待识别文本之间的相关性低下，为了避免地域信息识别错误，则将地域信息确定为空。

若数量大于1，则直接将指示匹配程度最高的匹配度对应的地域词，作为待识别文本对应的地域信息。其中，匹配度与其指示的匹配程度通常是呈正比关系，例如匹配度的值越高，表明地域词和待识别文本的匹配程度越高，地域词为待识别文本的地域信息的可能性越大；匹配度的值越低，表明地域词和待识别文本的匹配程度越低，地域词为待识别文本的地域信息的可能性越小。由此，可以将匹配度最高的地域词确定为待识别文本的地域信息。

在一些实施方式中，为了提升确定待识别文本的地域信息的效率，从待识别文本中抽取出地域词之后，还可以根据待识别文本中的地域词的数量，确定是否根据地域词与待识别文本的匹配度确定地域信息，也即根据待识别文本中地域词的数量来确定是否执行下述步骤S120至S140的步骤。

例如，若地域词的数量为1，可以直接将地域词确定为待识别文本的地域信息。若地域词的数量大于1，则计算地域词与待识别文本的匹配度，将匹配度最高的地域词确定为待识别文本的地域信息。

在一些实施方式中，为了确保地域信息的详细完整，在获取到地域信息后，还可以对地域信息进行标准化处理，以便将地域信息精确至省市区的最深节点。例如，地域信息为D区，可以将D区对应的市级、省级补全，又例如，地域信息为C市，可以将C市对应的省级补全。

上述步骤S120至S140中，为通过匹配度计算模型得到地域词与待识别文本的匹配度，下面将对匹配度计算模型的训练过程进行详细描述。

由于匹配度计算模型需要计算出地域词与待识别文本之间的匹配度，在进行模型训练时，训练数据需要满足以下条件：待识别文本中同时存在多个同级地域词，且人工标注的最优地域词需要在地域词中出现。人工标注的最优地域词与待识别文本组合，作为训练所使用的正例；待识别文本中的其他同级地域词与待识别文本组合，作为训练所使用的负例。但是这种训练数据较少，且标注也比较耗费资源，为了兼顾训练成本和训练效果，本申请实例通过二次训练来得到最终的匹配度计算模型。

匹配度计算模型的训练过程可以包括以下步骤：获取第一模型以及第一样本集，所述第一样本集包括指定待识别样本和标注地域词，所述标注地域词为所述指定待识别样本中唯一的地域词；通过所述第一模型对所述指定待识别样本进行地域词的预测，得到预测地域词；利用所述预测地域词和所述标注地域词，对所述第一模型的模型参数进行调整，得到调整后的第一模型；利用所述调整后的第一模型构建第二模型；对所述第二模型进行参数调整，得到匹配度计算模型，所述匹配度计算模型用于计算所述第一数据和所述第二数据的匹配度。

其中，第一模型可以是由BERT模型、前馈神经网络以及softmax分类器组成，例如可参阅图1c，示出了第一模型的结构示意图。为了使得训练后的第一模型可以识别出待识别文本中的地域词，可以获取第一样本集。

其中，第一样本集包括指定待识别样本和标注地域词，指定待识别样本是指仅包含有一个地域词的待识别文本，标注地域词为该指定待识别样本中唯一的地域词。

基于指定待识别样本可以是指指定待识别样本中的标题和正文拼接，还可以是将标题、正文、指定待识别样本的发布者信息拼接。下面以指定待识别样本为标题和正文的拼接为例进行说明。

标注地域词可以是以独热编码的形式表示，例如，假设一共有1000个行政区划单位，将该标注地域词所对应的行政区划单位表示为1，其余行政区划单位表示为0。

在训练第一模型时，可以是在指定待识别样本中的标题之前插入开始标识符[CLS]，在标题和正文之间插入分隔符[SEP]，然后输入BERT模型中，取开始标识符[CLS]位置对应的向量作为整个输入编码后的表示，然后将[CLS]位置对应的向量输入前馈神经网络，并经过softmax分类器，得到1000个行政区划的对应的概率，将最大的概率所对应的行政区划作为预测地域词，其中预测地域词仍然表达为独热编码的形式。然后基于预测地域词和标注地域词计算交叉熵损失，梯度回传更新第一模型的模型参数，直到第一模型的预测地域词和标注地域词一致时，得到训练后的第一模型。

训练后的第一模型已经具备了对仅包含一个地域词的待识别文本的地域信息的预测能力，也即其可以预测出待识别文本与每个行政区划的匹配度，并将待识别文本的地域信息对应行政区划的匹配度计算为最大值。预训练有助于模型在匹配度计算中取得较好的效果。

然后基于第一模型构建出第二模型，其中第二模型可以是由第一模型中记性参数调整后的BERT和其他模型组合而成，训练后的第二模型即为匹配度计算模型，可参阅图1d，示出了匹配度计算模型的结构示意图。

其中，第二模型中的BERT是训练后的第一模型中的，对第二模型的模型参数进行调整，可以得到匹配度计算模型。例如，可以是获取第二样本集，所述第二样本集包括样本地域词对应的样本融合数据、样本地域词对应的样本关联数据、以及标签值；基于所述第二模型，对所述样本融合数据和所述样本关联数据进行融合处理，得到预测值；基于所述预测值和所述标签值，对所述第二模型的模型参数进行调整，得到所述匹配度计算模型。

第二样本集是指用于训练第二模型的样本数据，样本地域词对应的样本融合数据是指利用预设模板，对样本地域词和待识别样本进行融合得到的融合数据。样本地域词对应的样本关联数据，是指利用预设规则抽取的样本地域词与待识别样本之间的关联数据。标签值用于表示样本地域词是否为待识别样本最终的地域信息，若是，标签值为1，若否标签值为0。

在进行模型训练时，可以是将样本融合数据输入BERT模型中，得到预测的第一特征向量。将样本关联数据输入GBDT模型中，样本关联数据输入GBDT模型中之后，GBDT模型可以自动对样本关联数据进行分类，寻找子树，然后获取每棵子树上的叶子节点的编号，转为multi-hot编码的格式，得到预测的第二特征向量。

然后将预测的第二特征向量和预测的第一特征向量拼接在一起得到预测的目标特征向量，再将预测的目标特征向量输入softmax分类器，控制最终输出该样本地域词和待识别样本的预测匹配结果，若匹配，输出1，若不匹配输出0，以及样本地域词对应的概率值。

然后基于预测的匹配结果和标签值构建交叉熵损失函数，并进行梯度回传，更新第二模型的模型参数，直到其预测的匹配结果和标签值一致时，得到匹配度计算模型。

作为一种实施方式，在对第二模型进行训练时，可以是预先利用样本关联数据仅对GBDT模型进行训练，使得GBDT模型可以较好的对关联数据进行编码。然后将训练后的GBDT模型放入第二模型中，使用样本关联数据和样本融合数据对整个第二模型进行训练，得到最终的匹配度计算模型。作为另一种实施方式，也可以是直接对整个第二模型进行训练。具体可根据实际的需要进行设置，在此不做具体限定。训练得到匹配度计算模型的过程中，利用预训练以及构造样本融合数据进行提示学习，在训练中充分利用了容易获取的仅包含一个地域词的文本数据，得到了较好的训练效果。

本申请实施例提供的地域信息识别方案可以应用在各种地域信息识别场景中。比如，以文章的地域信息识别为例，不论文章中存在多少个地域词，均可以准确预测出文章实际上所指示的地域信息。采用本申请实施例提供的方案能够结合深层语义特征和基于规则提取的浅层特征，准确预测出文章的地域信息。

通过本申请实施例提供的方法可以获取待识别文本以及待识别文本中的地域词；对基于地域词和待识别文本得到的融合数据进行语义识别，得到第一特征向量；对地域词与待识别文本之间的关联数据进行编码处理，得到第二特征向量；然后融合第一特征向量和第二特征向量，以计算出待识别文本与地域词的匹配度，最后基于匹配度确定待识别文本的地域信息。在计算地域词与待识别文本的匹配度时，不仅仅是使用了深层的语义特征，还融合了直接对关联数据编码得到的浅层特征，以提升匹配度计算的准确性，进一步提升地域信息识别的准确性。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以待识别文本为文章为例，对本申请实施例的方法进行详细说明。

如图2所示，一种地域信息识别方法具体流程如下：

S210、对文章进行预设处理，获取文章的类别信息、标题、正文、发布者信息。

文章通常是具有标题和正文的文本，在对文章进行地域信息识别时，可以先对文章进行预设处理。例如，将文章的标题和正文进行区分，获取文章的发布者信息，文章的类别信息。

S220、基于标题和正文判断文章是否具有地域性；若是，执行S230；若否，执行S250。

在确定文章是否具有地域性时，可以是获取预先训练好的地域性判别模型，将文章的标题和正文拼接输入地域判别模型中，获取地域判别模型的输出，以确定文章是否具有地域性。

若文章具有地域性，则表明文章存在地域信息，从而可以继续执行S230以进行后续步骤。

若文章不具有地域性，表明文章不存在地域信息，可以直接执行S250，输出文章不具有地域性的结果。

S230、从文章中抽取地域词并确定地域词的数量是否大于1；若是，执行S240；若否，执行S250。

若文章具有地域性，则可以通过NER工具识别文章中的地名，得到地域词，然后确定抽取出的地域词的数量是否大于1。

若抽取出的地域词的数量不大于1，即抽取出的地域词的数量为0或1时，可直接执行S250，输出对应的地域性与地域信息。作为一种实施方式，若地域词的数量为1，可以直接将该地域词作为文章的地域信息，输出文章具有地域性以及该地域词。若抽取出的地域词的数量为0，即没有从文章中抽取出地域词，则直接输出文章不具有地域性的结果。

若抽取出的地域词的数量大于1，此时难以确定文章实际上所指示的地域信息具体是哪个地域词，从而可以继续执行S240，以便进一步从多个地域词确定出文章的地域信息。

S240、计算每个地域词与文章的匹配度，并将匹配度最高的地域词作为文章的地域信息。

当从文章中提取出多个地域词时，可以分别计算每个地域词与文章的匹配度，得到每个地域词对应的匹配度，然后将匹配度最高的地域词作为文章的地域信息。

在计算每个地域词与文章的匹配度时，可以是基于构建出与每个地域词对应的融合数据对和关联数据。

融合数据对可以包括第一融合数据和第二融合数据，均是基于预设模板构建得到。其中，第一融合数据将地域词与文章的类别信息组合成完整的语句表达，第二融合数据将文章的所有信息均拼接在一起。

关联数据是指基于预设规则提取的数据，通常可以包括地域词的关联数据，例如，地域词所属的行政区划单位；还可以包括文章的关联数据，例如文章的类别信息、文章发布者的标识的地域性、文章发布者的标识中的地域词所属的行政区划单位；还可以包括地域词与文章之间的关联数据，例如，地域词在文章中的位置信息、地域词在文章中出现的次数。

将地域词对应的融合数据对和关联数据输入匹配度计算模型中，以得到地域词的匹配度。其中，匹配度计算模型在计算匹配度时，可以是通过BERT模型对融合数据对进行语义识别，得到第一特征向量；通过GBDT模型对关联数据进行编码，得到第二特征向量。第一特征向量可以表征深层语义特征，第二特征向量表征基于规则提取的浅层特征。再将第一特征向量和第二特征向量进行融合处理，得到目标特征向量，然后基于目标特征向量进行二分类，得到最终的匹配度。

将每个地域词对应的融合数据对和关联数据输入匹配度计算模型，可以得到与每个地域词对应的匹配度，再基于匹配度对地域词进行排序，将匹配度最高的地域词确定为文章的地域信息。

S250、输出文章的地域性与地域信息。

最终输出文章的地域性和确定出的地域信息。

由上可知，本申请实施例可以对对文章进行地域性判断，并提取具有地域性的文章中的地域词，若提取出的地域词有多个，则分别计算出每个地域词与待识别文本的匹配度。在计算地域词与待识别文本的匹配度时，可以结合提取的深度语义特征，以及基于规则提取得到的浅层特征，避免深度模型过度关注语义特征，而忽略掉一些浅层特征，将深度语义特征和浅层特征进行融合计算出匹配度，可确保地域词和待识别文本的特征的完整性，提升计算的匹配度的准确性，进一步提升识别地域信息的准确度。

为了更好地实施以上方法，本申请实施例还提供一种地域信息识别装置，该地域信息识别装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以地域信息识别装置具体集成在服务器中为例，对本申请实施例的方法进行详细说明。

例如，如图3所示，该地域信息识别装置300可以包括获取模块310、语义识别模块320、编码模块330、计算模块340以及确定模块350。

获取模块310，用于获取待识别文本以及所述待识别文本中的地域词；

语义识别模块320，用于对基于所述地域词和所述待识别文本得到的融合数据进行语义识别，得到所述地域词对应的第一特征向量；

编码模块330，用于对所述地域词与所述待识别文本之间的关联数据进行编码处理，得到所述地域词对应的第二特征向量；

计算模块340，用于基于所述地域词对应的第一特征向量和所述第二特征向量，计算所述待识别文本与所述地域词的匹配度；

确定模块350，用于根据所述地域词的匹配度，从所述地域词中确定所述待识别文本的地域信息。

在一些实施例中，计算模块340还包括：

在一些实施例中，所述融合数据包括第一融合数据和第二融合数据，语义识别模块320还包括：

在一些实施例中，编码模块330还包括：

在一些实施例中，地域信息识别装置300还包括训练模块，训练模块用于：

利用所述调整后的第一模型构建第二模型；

在一些实施例中，训练模块还用于：

具体实施时，以上各个模块或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块或单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的地域信息识别装置可以获取待识别文本以及待识别文本中的地域词；对基于地域词和待识别文本得到的融合数据进行语义识别，得到地域词对应的第一特征向量；对地域词与待识别文本之间的关联数据进行编码处理，得到地域词对应的第二特征向量；基于地域词对应的第一特征向量和所述第二特征向量，计算待识别文本与所述地域词的匹配度；最后根据所述地域词的匹配度，从地域词中确定待识别文本的地域信息。在进行匹配度计算时，融合了地域词以及待识别文本的语义特征和基于简单编码得到浅层特征，使得地域词和待识别文本的特征表达更加完整准确，以提升匹配度的计算准确度，进一步提升识别地域信息的准确度。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监测。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，电子设备可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待识别文本以及所述待识别文本中的地域词；

对基于所述地域词和所述待识别文本得到的融合数据进行语义识别，得到所述地域词对应的第一特征向量；

对所述地域词与所述待识别文本之间的关联数据进行编码处理，得到所述地域词对应的第二特征向量；

基于所述地域词对应的第一特征向量和所述第二特征向量，计算所述待识别文本与所述地域词的匹配度；

根据所述地域词的匹配度，从所述地域词中确定所述待识别文本的地域信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例可以获取待识别文本以及待识别文本中的地域词；对基于地域词和待识别文本得到的融合数据进行语义识别，得到地域词对应的第一特征向量；对地域词与待识别文本之间的关联数据进行编码处理，得到地域词对应的第二特征向量；基于地域词对应的第一特征向量和所述第二特征向量，计算待识别文本与所述地域词的匹配度；最后根据所述地域词的匹配度，从地域词中确定待识别文本的地域信息。在进行匹配度计算时，融合了地域词以及待识别文本的语义特征和基于简单编码得到浅层特征，使得地域词和待识别文本的特征表达更加完整准确，以提升匹配度的计算准确度，进一步提升识别地域信息的准确度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种地域信息识别方法中的步骤。例如，该指令可以执行如下步骤：

获取待识别文本以及所述待识别文本中的地域词；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例中提供的地域信息识别方面或者模型训练方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种地域信息识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种地域信息识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种地域信息识别方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种地域信息识别方法，其特征在于，所述方法包括：

获取待识别文本以及所述待识别文本中的地域词；

2.根据权利要求1所述的方法，其特征在于，基于所述地域词对应的第一特征向量和所述第二特征向量，计算所述待识别文本与所述地域词的匹配度，包括：

对所述第一特征向量和所述第二特征向量进行融合处理，得到目标特征向量；

基于所述目标特征向量进行归一化处理，得到所述待识别文本与所述地域词的匹配度。

3.根据权利要求1所述的方法，其特征在于，所述融合数据包括第一融合数据和第二融合数据，所述对基于所述地域词和所述待识别文本得到的融合数据进行语义识别，得到所述地域词对应的第一特征向量，包括：

获取所述待识别文本的类别信息以及发布者信息；

将所述类别信息和所述地域词填充至预设模板，得到所述第一融合数据；

将所述待识别文本、所述类别信息以及所述待识别文本的发布者信息按照所述预设模板进行拼接，得到所述第二融合数据；

对所述融合数据进行语义识别，得到所述第一特征向量。

4.根据权利要求1所述的方法，其特征在于，所述对所述地域词与所述待识别文本之间的关联数据进行编码处理，得到所述地域词对应的第二特征向量，包括：

按照预设规则，从所述待识别文本中提取所述地域词与所述待识别文本之间的关联数据；

对所述关联数据进行编码处理，得到所述第二特征向量。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

利用所述调整后的第一模型构建第二模型；

6.根据权利要求5所述的方法，其特征在于，所述对所述第二模型进行参数调整，得到匹配度计算模型，包括：

7.一种地域信息识别装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～6任一项所述的地域信息识别方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～6任一项所述的地域信息识别方法中的步骤。

10.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1～6任一项所述的地域信息识别方法中的步骤。