CN114997147A - 基于混合mask的poi地址纠错方法、装置、存储介质和设备 - Google Patents

基于混合mask的poi地址纠错方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN114997147A
CN114997147A CN202210929735.7A CN202210929735A CN114997147A CN 114997147 A CN114997147 A CN 114997147A CN 202210929735 A CN202210929735 A CN 202210929735A CN 114997147 A CN114997147 A CN 114997147A
Authority
CN
China
Prior art keywords
sequence
error correction
mask
poi address
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210929735.7A
Other languages
English (en)
Other versions
CN114997147B (zh
Inventor
孙迎雪
赵骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yishi Huolala Technology Co Ltd
Original Assignee
Shenzhen Yishi Huolala Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yishi Huolala Technology Co Ltd filed Critical Shenzhen Yishi Huolala Technology Co Ltd
Priority to CN202210929735.7A priority Critical patent/CN114997147B/zh
Publication of CN114997147A publication Critical patent/CN114997147A/zh
Application granted granted Critical
Publication of CN114997147B publication Critical patent/CN114997147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于混合MASK的POI地址纠错方法,包括:获取用户输入的POI地址信息;将POI地址信息通过映射转换为ID序列;判断是否对ID序列进行掩码;若是,以p1概率将ID序列中的一个字符替换为MASK,或以1‑p1概率将ID序列中的至少两个字符替换为MASK,其中至少两个字符为一个实体词语的概率为p2;若否,保持ID序列不变;根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。该方法通过对POI地址信息进行预处理、序列化、基于混合MASK机制掩码,并通过纠错模型完成纠错,混合MASK机制掩码方式扩大了纠错面,提升容错率,有效保证纠错准确率,进而可以提升货运应用场景相关的POI地址信息召回能力,满足用户检索需求。

Description

基于混合MASK的POI地址纠错方法、装置、存储介质和设备
技术领域
本发明涉及数据检索技术领域,具体而言,本发明涉及一种基于混合MASK的POI地址纠错方法、装置、计算机可读存储介质和计算机设备。
背景技术
检索召回是指对用户输入的查询信息进行全方面的意图理解,从多个角度挖掘查询信息中包含的关键数据信息,进而通过多路召回返回符合需求的结果,满足用户检索需求。当用户输入查询信息时,可能会由于手误打出了错别字,如果根据这个查询信息内容进行检索召回,那返回的内容可能就不满足用户的预期,当用户需求得不到满足时,会直接影响用户发单情况,因此需要进行中文纠错。
在现有技术中,中文纠错主要采用以下几种方案:
1、基于规则的中文字符纠错方法
优点:可以直接根据中文语法的主谓关系、动宾关系、修饰关系、补充关系等,设计符合目的规则,根据中文分词结果匹配出错位位置短语;或者在某种特定场景下,设计一定的汉字组合规则即可覆盖大部分用户的搜索内容。
缺点:规则匹配方式较为粗暴,设计人员需要从历史数据中尽可能多的挖掘出用户输入的错误汉字,以此来设计出相应的规则来覆盖这些例子;与此同时,这种方式无法对未出现的状况进行解析,必须在出现问题后才能解决,不具有较好的泛化能力。
2、基于统计语言模型的中文纠错方法
优点:统计语言模型的纠错方法是基于N-Gram语言模型实现的,模型通过统计字词之间例如2-gram、3-gram前后共同出现的频次来建立词表中的各个汉字之间的关系,这个分布真实,正确的词语PPL困惑度值较低,反之,错误的词(即存在错别字的词)PPL困惑度值较高,能够直接的根据历史数据核查用户输入的汉字中是否存在错别字。
缺点:基于统计语言模型的方式同样存在泛化能力较弱的问题,同时因为统计语言模型是基于N-Gram建模,当用户输入请求较长,即其是由多个词语构成的句子时,统计语言模型的打分的真实度就会降低,PPL困惑度分数就会存在异常。
3、基于seq2seq的中文纠错方法
优点:seq2seq可采用RNN、LSTM等多种方式实现Encoder-Decoder的模型架构,模型根据大量的用户历史行为数据建模,神经网络中各层参数的非线性映射会激活在更多维空间内的潜在特征,从而更充分的理解用户意图,修正用户输入中存在的错误汉字,其具有较优的泛化能力。
缺点:模型将汉字转为对应向量时依赖于向量表示的准确性,向量所蕴含的语义影响后期向量之间的交互能力,较多依赖大量的人工标注好的数据;模型训练过程相对于其他方法代价较大,寻找一组相对完善的参数需要消耗更多的时间,不能鲁棒的预测未知的错误汉字。
因此,在地址信息检索召回应用场景中,亟需一种能够避免上述缺点的POI地址纠错方法。
发明内容
为至少能解决上述的技术缺陷之一,本发明提供了以下技术方案的基于混合MASK的POI地址纠错方法及对应的装置、计算机可读存储介质和计算机设备。
本发明的实施例根据一个方面,提供了一种基于混合MASK的POI地址纠错方法,包括如下步骤:
获取用户输入的POI地址信息;
将所述POI地址信息通过映射转换为ID序列;
判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;
根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
优选地,所述以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为实体词语的概率为p2,包括:
对于要将至少两个字符替换为MASK的ID序列,以1-p2概率将其中的任意两个字符替换为MASK,或以p2概率将其中的一个实体词语替换为MASK。
优选地,所述以p2概率将其中的一个实体词语替换为MASK,包括:
对于要将其中的一个实体词语替换为MASK的ID序列,先确认该ID序列中要被替换为MASK的一个字符,判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语,若是,将包括该字符的实体词语替换为MASK,若否,将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。
优选地,所述预设POI地址词表通过以下步骤预先生成:
获取历史用户检索POI地址信息时的历史使用数据;
从所述历史使用数据中提取POI拼接字段;
对所述POI拼接字段进行分词和词频统计,得到多个实体词语及对应的词频;
根据所述词频大小排在前预设占比的实体词语,生成预设POI地址词表。
优选地,所述根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:
获取城市信息编码;
将所述城市信息编码与保持不变的ID序列或掩码后的ID序列进行拼接,得到拼接后的序列;
根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
优选地,所述根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:
在拼接后的序列中,将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字集,通过映射转换得到最终拼接序列;
将所述最终拼接序列输入预先训练生成的纠错模型,得到纠错后的POI地址信息。
优选地,所述纠错模型为基于多头注意力机制的BP神经网络模型。
此外,本发明的实施例根据另一个方面,提供了一种基于混合MASK的POI地址纠错装置,包括:
地址信息获取模块,用于获取用户输入的POI地址信息;
序列化模块,用于将所述POI地址信息通过映射转换为ID序列;
混合MASK模块,用于判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;
模型纠错模块,用于根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
本发明的实施例根据又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于混合MASK的POI地址纠错方法。
本发明的实施例根据再一个方面,提供了一种计算机设备,所述计算机包括一个或多个处理器;存储器;一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行上述的基于混合MASK的POI地址纠错方法。
本发明与现有技术相比,具有以下有益效果:
本发明提供的基于混合MASK的POI地址纠错方法、装置、计算机可读存储介质和计算机设备,通过对用户输入的POI地址信息进行预处理、序列化、基于混合MASK机制的掩码操作,并输入至基于深度学习算法预先训练生成的纠错模型,最终得到纠错后的POI地址信息,本方案所采用的混合MASK机制掩码方式扩大了纠错面,提升容错率,有效保证纠错模型的纠错准确率,进而可以提升货运应用场景相关的POI地址信息召回能力,满足用户检索需求,从而进一步提升用户发单情况。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种基于混合MASK的POI地址纠错方法的方法流程图;
图2为本发明实施例提供的另一种基于混合MASK的POI地址纠错方法的方法流程图;
图3为本发明实施例提供的基于混合MASK的POI地址纠错装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明实施例提供了一种基于混合MASK的POI地址纠错方法,该方法主要应用于地址信息检索召回相关的应用场景,例如货运应用场景下的POI地址信息检索召回。地址信息检索召回是指对用户输入的query,即检索查询内容进行全方面的意图理解,从多个角度挖掘query中包含的关键数据信息,进而通过多路召回返回符合需求的结果,满足用户检索需求。当用户输入query时,可能会由于手误打出了错别字,如果根据这个包含错别字的query内容进行检索召回,那返回的内容可能就不满足用户的预期。在货运应用场景中,当用户需求得不到满足时,可能会直接影响用户发单情况。
如图1所示,所述基于混合MASK的POI地址纠错方法包括:
步骤S110:获取用户输入的POI地址信息。
对于本实施例,用户输入的检索查询内容具体为POI地址信息。
POI是“Point of Interest”的缩写,中文可以翻译为“兴趣点”。在地址信息检索相关的应用场景中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。在货运应用场景中,POI地址信息检索查询主要是为了获取货运服务的起点和终点的地理位置信息,进而实现对货运服务的起终点进行定位。
步骤S120:将所述POI地址信息通过映射转换为ID序列。
在获得用户输入的POI地址信息之后,对所述POI地址信息进行预处理,所述预处理具体为包含空值处理、特殊符号过滤、繁体简体转换等数据清洗操作。
对于本实施例,预先设置有向量ID映射表,在向量ID映射表中,每个字符对应一个id,id对应相应的向量表示,形如<字符,id,embedding>。在POI地址信息经过预处理后,进一步进行序列化,基于预先设置的向量ID映射表将所述POI地址信息通过映射转换为ID序列。
步骤S130:判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变。
对于本实施例,所获取的POI地址信息可以由省、市、区、实体名称、具体街道号或门牌号等多个字符构成,每个输入字符都有一定的概率是错别字。在实际应用中,对应不同的应用场景,预先统计分析有需要纠错的检索查询内容占比,该占比即为对检索查询内容进行掩码的概率。
具体地,根据基于rand()函数生成的第一随机数和所述对所述ID序列进行掩码的概率,判断是否对所述ID序列进行掩码,设定若生成的第一随机数小于该概率,则需要对所述ID序列进行掩码,否则则不需要对所述ID序列进行掩码,保持所述ID序列不变,在后续步骤中直接采用原来的ID序列。
例如,对应货运应用场景下的POI地址信息检索召回应用场景,经预先统计分析得知,用户输入检索查询内容的信息长度大多分布在12~22个字符,其中有需要纠错的检索查询内容占比约为10%,则将所述ID序列进行掩码的概率为10%,即0.1,具体地若基于rand()函数生成的第一随机数小于0.1,则需要对所述ID序列进行掩码,否则则不需要对所述ID序列进行掩码,保持所述ID序列不变,在后续步骤中直接采用原来的ID序列。对所述ID序列进行掩码的概率也可以根据实际统计分析结果调整为0.15、0.2等值,本发明实施例对该概率的具体取值不作限定。
对于本实施例,对于需要进行掩码进行的ID序列,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2。
对应不同的应用场景,预先统计分析有单字错误、二字错误和多字错误的占比,基于上述占比设定对不同数量字符进行掩码的概率。具体地,基于rand()函数生成的第二随机数,判断第二随机数是否小于所述概率p1对应的数值,若是,则将所述ID序列中的一个字符替换为MASK,若否,则将所述ID序列中的至少两个字符替换为MASK,可知将所述ID序列中的至少两个字符替换为MASK的概率为1-p1。
例如,对应货运应用场景下的POI地址信息检索召回应用场景,经预先统计分析得知,在需要纠错的检索查询内容中,单字错误占比约为90%,二字错误占比6%,其余为多字错误,因为多字错别分布较散,则所以对于需要进行掩码进行的ID序列,将ID序列中的一个字符替换为MASK的概率p1为90%,将所述ID序列中的至少两个字符替换为MASK的概率1-p1为10%。相应地,基于rand()函数生成的第二随机数,判断第二随机数是否小于所述概率p1对应的数值,即0.9,若是,则将所述ID序列中的一个字符替换为MASK,若否,则将所述ID序列中的至少两个字符替换为MASK,可知将所述ID序列中的至少两个字符替换为MASK的概率1-p1对应的数值为0.1。将ID序列中的一个字符替换为MASK的概率p1也可以根据实际统计分析结果调整为0.95、0.8等值,本发明实施例对p1的具体取值不作限定。
对于本实施例,对于需要将至少两个字符进行掩码的检索查询内容,这其中包含分散的单字符错误、连续实体词语错误。对应不同的应用场景,预先统计分析有分散的单字错误、连续实体词语错误的占比,基于上述占比设定对实体词语进行掩码的概率p2。例如,对应货运应用场景下的POI地址信息检索召回应用场景,经预先统计分析得知,对于需要将至少两个字符进行掩码的检索查询内容,实体词语错误占比约为10%,则对于需要将至少两个字符替换为MASK的ID序列,其中将一个实体词语替换为MASK的概率为10%。
步骤S140:根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
对于本实施例,根据保持不变的ID序列或掩码后的ID序列得到输入数据特征向量,将输入数据特征向量输入至预先训练生成的纠错模型中进行预测,对于掩码后的ID序列会选择概率最大的候选字符替换原来的POI地址信息,对于保持不变的ID序列则直接采用原来的POI地址信息,最终得到纠错后的POI地址信息。
对于本实施例,所述纠错模型基于深度学习算法预先训练生成,其模型训练数据的处理过程与上述用户输入的POI地址信息的处理过程一致,均通过预处理、序列化、基于混合MASK机制的掩码操作的过程,最终作为训练输入数据的格式与上述输入数据特征向量一致。对应货运应用场景下的POI地址信息检索召回应用场景,上述纠错模型学习可从多个空间维度分析历史货运地址名称等信息分布和文本语义,挖掘特征之间的关联,可以增强对未知数据的泛化能力和低频数据的正确处理能力。通过组合方式选择需要MASK的POI地址信息的字符位置,这样既可以学习实体词语之间的组合关系,也可以合理完成单个错误位置的纠错。添加词语级别的MASK,将某个词语直接屏蔽掉,促使模型根据上下文语义去推断当前位置的内容,有效提升纠错模型的实体词语识别和连贯性学习能力,混合MASK扩大了纠错面,提升容错率,使得纠错模型可以提升货运场景相关POI召回能力。
本发明提供的基于混合MASK的POI地址纠错方法,通过对用户输入的POI地址信息进行预处理、序列化、基于混合MASK机制的掩码操作,并输入至基于深度学习算法预先训练生成的纠错模型,最终得到纠错后的POI地址信息,本方案所采用的混合MASK机制掩码方式扩大了纠错面,提升容错率,有效保证纠错模型的纠错准确率,进而可以提升货运应用场景相关的POI地址信息召回能力,满足用户检索需求,从而进一步提升用户发单情况。
在一些实施例中,所述步骤S130中的以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为实体词语的概率为p2,包括:对于要将至少两个字符替换为MASK的ID序列,以1-p2概率将其中的任意两个字符替换为MASK,或以p2概率将其中的一个实体词语替换为MASK。
对于本实施例,对于需要将至少两个字符进行掩码的检索查询内容,这其中包含分散的单字符错误、连续实体词语错误。对应不同的应用场景,预先统计分析有其中分散的单字错误、连续实体词语错误的占比,基于上述占比设定对实体词语或任意两个单字符进行掩码的概率。具体地,基于rand()函数生成的第三随机数,判断第三随机数是否小于所述概率1-p2对应的数值,若是,则将其中的任意两个单字符替换为MASK,若否,则将其中的一个实体词语替换为MASK,可知对于需要将至少两个字符进行掩码的ID序列中,将其中一个实体词语替换为MASK的概率为p2。
例如,对应货运应用场景下的POI地址信息检索召回应用场景,经预先统计分析得知,对于需要将至少两个字符进行掩码的检索查询内容,实体词语错误占比约为10%,则对于需要将至少两个字符替换为MASK的ID序列,其中将一个实体词语替换为MASK的概率为10%,其中将任意两个单字符替换为MASK的概率为90%。相应地,基于rand()函数生成的第三随机数,判断第三随机数是否小于所述概率1-p2对应的数值,即0.9,若是,则其中的任意两个单字符替换为MASK,若否,则将其中一个实体词语替换为MASK,可知p2对应的数值为0.1。将其中一个实体词语替换为MASK的概率p1也可以根据实际统计分析结果调整为0.15、0.2等值,本发明实施例对p2的具体取值不作限定。
在一些实施例中,进一步的,所述以p2概率将其中的一个实体词语替换为MASK,包括:对于要将其中的一个实体词语替换为MASK的ID序列,先确认该ID序列中要被替换为MASK的一个字符,判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语,若是,将包括该字符的实体词语替换为MASK,若否,将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。
对于本实施例,假设要将其中的一个实体词语替换为MASK的ID序列为{W1,W2,...Wn},先确认该ID序列中要被替换为MASK的一个字符Wi,然后查看该字符Wi与其前后两位字符中,即[Wi-2,Wi+2]范围内是否有和Wi构成连续词语实体并且在POI地址词表中,如果有包括该字符Wi的实体词语替换为MASK,如果没有,则将该字符与其前一位字符或该字符与其后一位字符所构成的词语,即选择[Wi-1,Wi]或者[Wi,Wi+1]作为实体词语替换为MASK。这样既可以覆盖大部分用户输入的POI地址信息中的潜在错误,不会由于过多MASK而使纠错模型无法正确理解用户意图,也可以涉及到用户输入的POI地址信息中存在多个实体词语输入错误这种较少的情况。融合这两种策略的基于混合MASK机制掩码可以有效提高模型的泛化性和容错率。
在一些实施例中,所述预设POI地址词表通过以下步骤预先生成:
i、获取历史用户检索POI地址信息时的历史使用数据。获取所有历史用户或抽样历史用户检索POI地址信息时的历史使用数据,具体为从用户点击session(会话)日志中抽取用户历史点击数据,能够获得海量的数据用于POI地址词表生成及纠错模型训练。
ii、从所述历史使用数据中提取POI拼接字段。在获取历史使用数据之后,对所述历史使用数据中name(实体名称)、address(地址)和city(城市)字段进行预处理,所述预处理具体为包含空值处理、特殊符号过滤、繁体简体转换等数据清洗操作。然后将经过预处理后的字段进行拼接,提取到POI拼接字段。该方法可以丰富检索查询内容中包含的POI信息,使得模型学习到更精准的POI地址信息并提高纠错的准确率。
iii、对所述POI拼接字段进行分词和词频统计,得到多个实体词语及对应的词频。采用jieba将上一步骤中获取的海量POI拼接字段进行分词,并统计词频。
iv、根据所述词频大小排在前预设占比的实体词语,生成预设POI地址词表。例如,筛选出词频位于整体频率分布前70%频率的实体词语,同时限定实体词语中不能包含停用词和长度不得小于1,实体词语长度不得长于5,将以上实体词语作为当前应用场景的POI地址词表。所述预设占比还可以是60%、80%、90%等比例,本发明实施例所述预设占比的具体取值不作限定。
在一些实施例中,所述步骤S140根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:获取城市信息编码;将所述城市信息编码与保持不变的ID序列或掩码后的ID序列进行拼接,得到拼接后的序列;根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
对于本实施例,在POI地址信息经过预处理、序列化、基于混合MASK机制的掩码操作的过程,得到保持不变或掩码后的ID序列之后,进一步将城市信息编码与ID序列进行拼接。其中,城市信息编码方式采用word2vec训练上述历史使用数据中出现的城市字段信息,得到城市信息的embedding(嵌入)矩阵,通过id映射得到对应嵌入式表示。在一个可能实现的方式中,将所述城市信息编码拼接于保持不变的ID序列或掩码后的ID序列前面,得到拼接后的序列。通过将城市信息编码入embedding,能够缩小纠错范围,减少范围外歧义地址信息的干扰,进而提升纠错的准确率。
在一些实施例中,进一步的,所述根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:在拼接后的序列中,将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字集,通过映射转换得到最终拼接序列;将所述最终拼接序列输入预先训练生成的纠错模型,得到纠错后的POI地址信息。
对于本实施例,将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字集,所述预设字集可以是由被掩码的字符及其形近字或同音字等共同组成的字集,并进一步基于预先设置的向量ID映射表将所替换的预设字集也通过映射转换为向量化表示,得到包括城市信息编码和最终ID序列的最终拼接序列。
如图2所示,是一种基于混合MASK的POI地址纠错方法流程图,其体现了结合以上各个实施例所述的POI地址纠错过程,具体请参见上述方法实施例中的说明,在此不再赘述。
在一些实施例中,所述纠错模型为基于多头注意力机制的BP神经网络模型。
对于本实施例,将所述最终拼接序列输入预先训练生成的纠错模型,得到纠错后的POI地址信息,具体为,将最终拼接序列输入到多头注意力网络,学习向量之间的交互关系得到Hidden(隐藏层),继而输入至BP神经网络进行映射学习,最后进入激活层,输出被掩码的字符对应预设字集的各个候选词的概率,选择概率最大的进行替换,从而得到纠错后的POI地址信息。
以下,示出一个实例对所述POI地址纠错方法做进一步阐明:
(1)用户输入的 POI地址信息:上海市黄埔区制造局路584号;
(2)经预处理后得到:上海市黄埔区制造局路584号;
(3)经序列化后得到:[67, 68, 69, 101, 88, 91, 23, 25, 541, 345, 366, 2,10, 169];
(4)先确认字符级MASK:随机只遮掩一个位置[67, 68, 69, [MASK], 88, 91,23, 25, 541, 345, 366, 2, 10, 169];
(5)进行词语级MASK:前后扫描得“黄埔区”在POI地址词表中,则MASK该实体词语,得到[67, 68, 69, [MASK], [MASK], [MASK], 23, 25, 541, 345, 366, 2, 10, 169];
(6)输入至纠错模型中预测打分,预设字集[黄, 青, 静], [浦, 陂, 埔, 埔],[区, 去, 安],最后选择最大概率的组合结果为黄浦区,得到纠错后的POI地址信息:上海市黄浦区制造局路584号。
对于本实施例,所述纠错模型基于深度学习算法预先训练生成,具体的,为基于BP(Back Propagation)神经网络预先训练生成,BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。所述纠错模型还采用了多头注意力机制,能够关注输入的不同部分。
对于本实施例,所述纠错模型的训练数据的处理过程与上述用户输入的POI地址信息的处理过程一致,具体实现过程此处不再赘述。首先获取历史用户检索POI地址信息时的历史使用数据,将所述历史使用数据通过预处理、序列化、基于混合MASK机制的掩码操作的过程,得到保持不变或掩码后的ID序列,可用作纠错模型的训练输入数据,此外,还可进一步将城市信息编码与保持不变或掩码后的ID序列进行拼接。其中,城市信息编码方式采用word2vec训练上述历史使用数据中出现的城市字段信息,得到城市信息的embedding(嵌入)矩阵,通过id映射得到对应嵌入式表示。在一个可能实现的方式中,将所述城市信息编码拼接于保持不变的ID序列或掩码后的ID序列前面,得到拼接后的序列,将最终拼接序列作为纠错模型的训练输入数据。通过将城市信息编码入embedding,能够缩小纠错范围,减少范围外歧义地址信息的干扰,进而提升纠错的准确率。最终作为训练输入数据的格式与上述输入数据特征向量一致。
此外,本发明实施例提供了一种基于混合MASK的POI地址纠错装置,如图3所示,所述装置包括:
地址信息获取模块31,用于获取用户输入的POI地址信息;
序列化模块32,用于将所述POI地址信息通过映射转换为ID序列;
混合MASK模块33,用于判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;
模型纠错模块34,用于根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
在一些实施例中,所述混合MASK模块33用于以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为实体词语的概率为p2时,具体用于:
对于要将至少两个字符替换为MASK的ID序列,以1-p2概率将其中的任意两个字符替换为MASK,或以p2概率将其中的一个实体词语替换为MASK。
在一些实施例中,所述以p2概率将其中的一个实体词语替换为MASK,包括:
对于要将其中的一个实体词语替换为MASK的ID序列,先确认该ID序列中要被替换为MASK的一个字符,判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语,若是,将包括该字符的实体词语替换为MASK,若否,将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。
在一些实施例中,所述预设POI地址词表通过以下步骤预先生成:
获取历史用户检索POI地址信息时的历史使用数据;
从所述历史使用数据中提取POI拼接字段;
对所述POI拼接字段进行分词和词频统计,得到多个实体词语及对应的词频;
根据所述词频大小排在前预设占比的实体词语,生成预设POI地址词表。
在一些实施例中,所述模型纠错模块34,具体用于:
获取城市信息编码;
将所述城市信息编码与保持不变的ID序列或掩码后的ID序列进行拼接,得到拼接后的序列;
根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
在一些实施例中,所述根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:
在拼接后的序列中,将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字集,通过映射转换得到最终拼接序列;
将所述最终拼接序列输入预先训练生成的纠错模型,得到纠错后的POI地址信息。
在一些实施例中,所述纠错模型为基于多头注意力机制的BP神经网络模型。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,具体请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一实施例所述的基于混合MASK的POI地址纠错方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明方法实施例的内容均适用于本存储介质实施例,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,具体请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例还提供了一种计算机设备,本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括:一个或多个处理器,存储器,一个或多个计算机程序,其中所述一个或多个计算机程序被存储在存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行以上任一实施例所述的基于混合MASK的POI地址纠错方法。
本发明方法实施例的内容均适用于本计算机设备实施例,本计算机设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,具体请参见方法实施例中的说明,在此不再赘述。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于混合MASK的POI地址纠错方法,其特征在于,包括:
获取用户输入的POI地址信息;
将所述POI地址信息通过映射转换为ID序列;
判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;
根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
2.根据权利要求1所述的POI地址纠错方法,其特征在于,所述以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为实体词语的概率为p2,包括:
对于要将至少两个字符替换为MASK的ID序列,以1-p2概率将其中的任意两个字符替换为MASK,或以p2概率将其中的一个实体词语替换为MASK。
3.根据权利要求2所述的POI地址纠错方法,其特征在于,所述以p2概率将其中的一个实体词语替换为MASK,包括:
对于要将其中的一个实体词语替换为MASK的ID序列,先确认该ID序列中要被替换为MASK的一个字符,判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语,若是,将包括该字符的实体词语替换为MASK,若否,将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。
4.根据权利要求3所述的POI地址纠错方法,其特征在于,所述预设POI地址词表通过以下步骤预先生成:
获取历史用户检索POI地址信息时的历史使用数据;
从所述历史使用数据中提取POI拼接字段;
对所述POI拼接字段进行分词和词频统计,得到多个实体词语及对应的词频;
根据所述词频大小排在前预设占比的实体词语,生成预设POI地址词表。
5.根据权利要求1所述的POI地址纠错方法,其特征在于,所述根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:
获取城市信息编码;
将所述城市信息编码与保持不变的ID序列或掩码后的ID序列进行拼接,得到拼接后的序列;
根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
6.根据权利要求5所述的POI地址纠错方法,其特征在于,所述根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:
在拼接后的序列中,将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字集,通过映射转换得到最终拼接序列;
将所述最终拼接序列输入预先训练生成的纠错模型,得到纠错后的POI地址信息。
7.根据权利要求1至6任一项所述的POI地址纠错方法,其特征在于,所述纠错模型为基于多头注意力机制的BP神经网络模型。
8.一种基于混合MASK的POI地址纠错装置,其特征在于,包括:
地址信息获取模块,用于获取用户输入的POI地址信息;
序列化模块,用于将所述POI地址信息通过映射转换为ID序列;
混合MASK模块,用于判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1-p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;
模型纠错模块,用于根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于混合MASK的POI地址纠错方法。
10.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行根据权利要求1至7任一项所述的基于混合MASK的POI地址纠错方法。
CN202210929735.7A 2022-08-04 2022-08-04 基于混合mask的poi地址纠错方法、装置、存储介质和设备 Active CN114997147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210929735.7A CN114997147B (zh) 2022-08-04 2022-08-04 基于混合mask的poi地址纠错方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210929735.7A CN114997147B (zh) 2022-08-04 2022-08-04 基于混合mask的poi地址纠错方法、装置、存储介质和设备

Publications (2)

Publication Number Publication Date
CN114997147A true CN114997147A (zh) 2022-09-02
CN114997147B CN114997147B (zh) 2022-11-04

Family

ID=83022876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210929735.7A Active CN114997147B (zh) 2022-08-04 2022-08-04 基于混合mask的poi地址纠错方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN114997147B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228763A1 (en) * 2019-03-29 2019-07-25 Krzysztof Czarnowski On-device neural network adaptation with binary mask learning for language understanding systems
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN112784582A (zh) * 2021-02-09 2021-05-11 中国工商银行股份有限公司 纠错方法、装置和计算设备
US20210141798A1 (en) * 2019-11-08 2021-05-13 PolyAI Limited Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US20210326525A1 (en) * 2020-04-16 2021-10-21 Pusan National University Industry-University Cooperation Foundation Device and method for correcting context sensitive spelling error using masked language model
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
US20210374343A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for obtaining word vectors based on language model, device and storage medium
US20210374334A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for training language model, electronic device and readable storage medium
CN114116692A (zh) * 2021-11-04 2022-03-01 重庆大学 一种基于mask和双向模型的缺失POI轨迹补全方法
CN114169331A (zh) * 2021-11-25 2022-03-11 深圳依时货拉拉科技有限公司 地址解析方法、装置、计算机设备和存储介质
CN114580382A (zh) * 2022-02-11 2022-06-03 阿里巴巴(中国)有限公司 文本纠错方法以及装置
WO2022134356A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228763A1 (en) * 2019-03-29 2019-07-25 Krzysztof Czarnowski On-device neural network adaptation with binary mask learning for language understanding systems
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
US20210141798A1 (en) * 2019-11-08 2021-05-13 PolyAI Limited Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US20210326525A1 (en) * 2020-04-16 2021-10-21 Pusan National University Industry-University Cooperation Foundation Device and method for correcting context sensitive spelling error using masked language model
US20210374343A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for obtaining word vectors based on language model, device and storage medium
US20210374334A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for training language model, electronic device and readable storage medium
WO2022134356A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
CN112784582A (zh) * 2021-02-09 2021-05-11 中国工商银行股份有限公司 纠错方法、装置和计算设备
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN114116692A (zh) * 2021-11-04 2022-03-01 重庆大学 一种基于mask和双向模型的缺失POI轨迹补全方法
CN114169331A (zh) * 2021-11-25 2022-03-11 深圳依时货拉拉科技有限公司 地址解析方法、装置、计算机设备和存储介质
CN114580382A (zh) * 2022-02-11 2022-06-03 阿里巴巴(中国)有限公司 文本纠错方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈智鹏等: "基于N-gram统计模型的搜索引擎中文纠错", 《中国电子科学研究院学报》 *

Also Published As

Publication number Publication date
CN114997147B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN110196894B (zh) 语言模型的训练方法和预测方法
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN111159385B (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN110210043B (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN114386371B (zh) 中文拼写纠错方法、系统、设备及存储介质
CN116737759B (zh) 一种基于关系感知注意力的中文查询生成sql语句方法
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN116991875B (zh) 一种基于大模型的sql语句生成、别名映射方法及设备
CN112818666A (zh) 地址识别方法、装置、电子设备和存储介质
CN114997147B (zh) 基于混合mask的poi地址纠错方法、装置、存储介质和设备
CN115688703B (zh) 一种特定领域文本纠错方法、存储介质和装置
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN113822044B (zh) 语法纠错数据生成方法、装置、计算机设备及存储介质
CN115906878A (zh) 一种基于提示的机器翻译方法
CN115455981A (zh) 一种多语种语句的语义理解方法、装置、设备及存储介质
CN114970541A (zh) 文本语义理解方法、装置、设备及存储介质
CN111626059B (zh) 一种信息处理方法及装置
CN114333795A (zh) 语音识别方法和装置、计算机可读存储介质
CN114510925A (zh) 一种中文文本纠错方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant