CN113192534A - 地址搜索方法、装置、电子设备及存储介质 - Google Patents
地址搜索方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113192534A CN113192534A CN202110310987.7A CN202110310987A CN113192534A CN 113192534 A CN113192534 A CN 113192534A CN 202110310987 A CN202110310987 A CN 202110310987A CN 113192534 A CN113192534 A CN 113192534A
- Authority
- CN
- China
- Prior art keywords
- sequence
- pinyin
- sample
- address
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 41
- 238000002372 labelling Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 4
- 101100082036 Danio rerio pou3f3a gene Proteins 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种地址搜索方法、装置、电子设备及存储介质。地址搜索方法包括:接收用户输入的语音数据;将所述语音数据转换为拼音序列;将所述拼音序列转换为文本序列;对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;基于所述地址信息,搜索所述地址信息对应的目标地址。本发明实施例中,通过先将用户输入的语音数据转换为拼音序列,再将拼音序列转换为文本序列的方式,得到的文本序列更加准确;通过对文本序列进行地址识别,提取文本序列中包含的地址信息的方式,能够去除文本序列中非地址信息的干扰,得到更加准确的地址信息。因此,基于提取出的地址信息,能够更加准确地搜索出该地址信息对应的目标地址。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种地址搜索方法、装置、电子设备及存储介质。
背景技术
地址搜索服务,是通过制定通用地名地址数据规范,构建标准地名地址数据库,在通用标准地名地址模型与地名地址检索算法基础上构建地名地址检索服务平台,提供面向行业的地名地址检索服务和调用接口。
用户可手动输入文本形式的query(查询信息),地图搜索服务基于query搜索对应的目标地址,并展示给用户。但是,由于用户输入的文本形式的query可能会出现错别字、不完整、跨城、存在时空关系等情形,因此会导致地图搜索服务无法基于query准确搜索出目标地址。
发明内容
鉴于上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的地址搜索方法、装置、电子设备及存储介质。
第一方面,本发明实施例公开了一种地址搜索方法,其特征在于,包括:
接收用户输入的语音数据;
将所述语音数据转换为拼音序列;
将所述拼音序列转换为文本序列;
对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;
基于所述地址信息,搜索所述地址信息对应的目标地址。
可选地,所述将所述语音数据转换为拼音序列,包括:获取所述语音数据对应的声学特征向量;将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。
可选地,所述声学模型通过如下方式训练:获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。
可选地,所述将所述拼音序列转换为文本序列,包括:将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。
可选地,所述语言模型通过如下方式训练:获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;在基于所述预测文本序列和所述实际文本序列确定出所述第二初始模型训练完成后,得到训练完成的所述语言模型。
可选地,所述对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息,包括:将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。
可选地,所述地址识别模型通过如下方式训练:获取包含地址信息的样本POI文本数据对应的样本文本序列和实际BIO标注序列,将所述样本文本序列和所述实际BIO标注序列作为第三样本数据;利用所述第三样本数据对第三初始模型进行训练;其中,所述第三初始模型的输入为所述样本文本序列,输出为预测BIO标注序列;在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第三初始模型训练完成后,得到训练完成的所述地址识别模型。
第二方面,本发明实施例公开了一种地址搜索装置,其特征在于,包括:
接收模块,用于接收用户输入的语音数据;
第一转换模块,用于将所述语音数据转换为拼音序列;
第二转换模块,用于将所述拼音序列转换为文本序列;
识别模块,用于对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;
搜索模块,用于基于所述地址信息,搜索所述地址信息对应的目标地址。
可选地,所述第一转换模块包括:向量获取单元,用于获取所述语音数据对应的声学特征向量;模型转换单元,用于将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;序列获取单元,用于基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。
可选地,所述声学模型通过如下模块训练:第一获取模块,用于获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;第一训练模块,用于利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。
可选地,所述第二转换模块,具体用于将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。
可选地,所述语言模型通过如下模块训练:第二获取模块,用于获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;第二训练模块,用于利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;在基于所述预测文本序列和所述实际文本序列确定出所述第二初始模型训练完成后,得到训练完成的所述语言模型。
可选地,所述识别模块包括:模型识别单元,用于将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;地址获取单元,用于基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。
可选地,所述地址识别模型通过如下模块训练:第三获取单元,用于获取包含地址信息的样本POI文本数据对应的样本文本序列和实际BIO标注序列,将所述样本文本序列和所述实际BIO标注序列作为第三样本数据;第三训练单元,用于利用所述第三样本数据对第三初始模型进行训练;其中,所述第三初始模型的输入为所述样本文本序列,输出为预测BIO标注序列;在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第三初始模型训练完成后,得到训练完成的所述地址识别模型。
第三方面,本发明实施例公开了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质;当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如上任一项所述地址搜索方法。
第四方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的地址搜索方法。
本发明实施例中,一方面,通过先将用户输入的语音数据转换为拼音序列,再将拼音序列转换为文本序列的方式,考虑到了上下文语境信息,相比于直接将语音数据转换为文本序列的方式,本发明实施例得到的文本序列更加准确;另一方面,通过对文本序列进行地址识别,提取文本序列中包含的地址信息的方式,能够去除文本序列中非地址信息的干扰,得到更加准确的地址信息。因此,基于提取出的地址信息,能够更加准确地搜索出该地址信息对应的目标地址。
附图说明
图1是本发明实施例的一种地址搜索方法的步骤流程图。
图2是本发明实施例的一种整体处理流程图。
图3是本发明实施例的一种声学模型的示意图。
图4是本发明实施例的一种语言模型的示意图。
图5是本发明实施例的一种地址识别模型的示意图。
图6是本发明实施例的一种地址搜索装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的地址搜索方法可以应用于配送、打车、公交等场景的搜索环节中,可以大幅度提升地图搜索业务服务质量,有广阔的应用空间,广泛适用于垂直搜索领域。
本发明实施例应用于用户输入语音数据进行地址搜索的场景。通过将语音信息转化为文本序列,从中挖掘地址信息,将地址信息用于搜索过程中的召回和排序,从而从用户方面增强特征,进而在空间维度增强对地址信息的限定和提权,更加准确地搜索出该地址信息对应的目标地址。
参照图1,示出了本发明实施例的一种地址搜索方法的步骤流程图。
如图1所示,地址搜索方法可以包括以下步骤:
步骤101,接收用户输入的语音数据。
在实现中,本发明实施例的地址搜索方法可以应用于客户端,也可以应用于服务器。其中,客户端可以为能够提供地址搜索服务的APP(应用程序),比如各种地图APP等。服务器可以为上述APP对应的后台服务器。客户端所在的终端设备能够提供人机语音交互接口。
如果本发明实施例的地址搜索方法应用于客户端,则用户通过终端设备上的人机语音交互接口输入语音数据,客户端接收用户输入的语音数据。
如果本发明实施例的地址搜索方法应用于服务器,则用户通过终端设备上的人机语音交互接口输入语音数据,客户端接收用户输入的语音数据,并将语音数据发送至服务器,服务器接收用户输入的语音数据。
步骤102,将所述语音数据转换为拼音序列。
步骤103,将所述拼音序列转换为文本序列。
通常情况下,语音识别过程是直接将语音数据转换为文本序列。但是,由于该种方式未考虑语音中的上下文语境信息,因此识别结果的准确性较低。本发明实施例中,先将接收到的语音数据转换为拼音序列,再将拼音序列转换为对应的文本序列的过程中,会考虑到拼音序列中的语境信息,从而使得到的文本序列更加准确。
步骤104,对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息。
由于用户输入的语音数据中除了包含具体的地址信息,还可能会包含一些其他信息,而地址搜索主要是搜索与语音数据中包含的地址信息相关的目标地址,因此,如果直接基于转换得到的文本序列搜索对应的目标地址,则可能会存在一些干扰信息。针对上述问题,本发明实施例中针对文本序列进行地址识别,提取出文本序列中包含的地址信息。
步骤105,基于所述地址信息,搜索所述地址信息对应的目标地址。
如果本发明实施例的地址搜索方法应用于客户端,则客户端在提取出文本序列中包含的地址信息后,基于所述地址信息,搜索所述地址信息对应的目标地址。在实现中,客户端可以将所述地址信息发送给服务器,由服务器执行召回和排序过程,搜索所述地址信息对应的目标地址,并将目标地址返回给客户端。
如果本发明实施例的地址搜索方法应用于服务器,则服务器在提取出文本序列中包含的地址信息后,基于所述地址信息,执行召回和排序过程,搜索所述地址信息对应的目标地址,并将目标地址返回给客户端。
本发明实施例中,一方面,通过先将用户输入的语音数据转换为拼音序列,再将拼音序列转换为文本序列的方式,考虑到了上下文语境信息,相比于直接将语音数据转换为文本序列的方式,本发明实施例得到的文本序列更加准确;另一方面,通过对文本序列进行地址识别,提取文本序列中包含的地址信息的方式,能够去除文本序列中非地址信息的干扰,得到更加准确的地址信息。因此,基于提取出的地址信息,能够更加准确地搜索出该地址信息对应的目标地址。
参照图2,示出了本发明实施例的一种整体处理流程图。
如图2所示,整体处理流程图可以包括:
步骤201,获取样本语音数据。
声学模型是对声音发声的建模,能够把语音数据转换成声学表示的输出,更准确的说是给出语音属于某个拼音标识的概率。步骤201~步骤204为声学模型的训练过程。
本发明实施例中,由于声学模型应用于地址搜索过程中,主要识别的是地址信息,因此,在步骤201中,获取的是包含地址信息的样本语音数据。其中,地址信息可以为POI(Point of Interest,兴趣点)的名称等。POI是地理信息系统发展到一定阶段后,随着用户的个性化服务需求而出现的。一个POI可以是一个商铺、一个商场、一个公交站、一个写字楼、一个公园、一个小区,等等。
步骤202,数据处理与特征提取。
在步骤202中,对样本语音数据进行数据处理与特征提取,获取样本语音数据对应的样本声学特征向量和实际拼音标识序列。具体过程可以包括以下步骤A1~A3:
A1,将样本语音数据转换成样本频谱图数据。
在将样本语音数据转换成样本频谱图数据的过程中,对音频信号(也即样本语音数据)进行预加重、分帧和加窗,然后对每帧信号进行STFT(Short Time FourierTransform,短时傅里叶变换),得到短时幅度谱;对短时幅度谱通过Mel(梅尔)滤波器组进行滤波,得到Mel频谱图,将该Mel频谱图作为样本频谱图数据。
A2,基于样本频谱图数据,提取样本语音数据对应的样本声学特征向量。
在基于样本频谱图数据,提取样本语音数据对应的样本声学特征向量的过程中,可以利用具有图片识别能力的CNN(Convolutional Neural Networks,卷积神经网络)模型,将样本频谱图数据输入CNN模型,经过CNN模型中卷积层和池化层的处理,得到CNN模型输出的声学特征向量,该声学特征向量即为样本语音数据对应的样本声学特征向量。
A3,获取样本语音数据对应的实际拼音序列,并基于预设的拼音标识与拼音字母的对应关系,获取实际拼音序列对应的拼音标识序列,作为样本语音数据对应的实际拼音标识序列。
预先设置拼音标识与拼音字母的对应关系。比如,1~26个拼音字母对应的拼音标识分别为数值1~26,则拼音字母a对应的拼音标识为1,拼音字母b对应的拼音标识为2,拼音字母c对应的拼音标识为3……
将样本语音数据转换成实际拼音序列,基于上述对应关系,查找实际拼音序列中的各拼音字母对应的拼音标识,得到样本语音数据对应的实际拼音标识序列。
步骤203,声学模型训练。
步骤204,获得声学模型。
针对任意一个样本语音数据,将该样本语音数据对应的样本声学特征向量和实际拼音标识序列作为一个第一样本数据。利用大量第一样本数据训练声学模型。
可选地,可以将第一样本数据划分为多个batch(批),针对每个batch,选择该batch内最长的样本声学特征向量为基准,对其他样本声学特征向量进行padding(填充),比如填充0等。这样一个batch内的样本声学特征向量长度都相同,可以进行并行训练。
第一初始模型是指还未进行训练的具有声学识别能力的模型。在声学模型训练过程中,利用第一样本数据对第一初始模型进行训练,其中,第一初始模型的输入为第一样本数据中的样本声学特征向量,输出为预测拼音标识序列。
在一种可选实施方式中,根据预测拼音标识序列和第一样本数据中的实际拼音标识序列,可以计算第一损失。第一损失可以表示预测拼音标识序列与实际拼音标识序列的偏差程度,第一损失越小,模型的鲁棒性越好。因此,可以在第一损失小于预设的损失阈值时,确定训练完成,得到训练完成的所述声学模型。对于损失阈值的具体数值,本领域技术人员根据实际经验选用任意适用的值均可,比如可以设置为0.1、0.2、0.3,等等。在另一种可选实施方式中,可以设置在达到预设的迭代次数时,确定训练完成,得到训练完成的所述声学模型。对于迭代次数的具体数值,本领域技术人员根据实际经验选用任意适用的值均可。
可选地,声学模型可以选用CTC(Connectionist temporal classification,联结主义时间分类)模型等。在语音识别中,希望语音中的音素和翻译后的字符可以一一对应,CTC模型能够解决时序类数据的分类问题,保证识别的准确性。
图3是本发明实施例的一种声学模型的示意图。如图3所示,其中最左侧的图片即为样本语音数据对应的样本频谱图数据,中间的多个卷积层和池化层属于CNN模型,CNN模型后面连接的即为CTC模型。将样本频谱图数据作为CNN模型的输入,经过CNN模型进行特征提取,得到CNN模型输出的样本频谱图数据对应的样本声学特征向量,将样本声学特征向量作为CTC模型的输入,得到CTC模型输出的预测拼音标识序列。
步骤205,获取样本文本数据。
语言模型的作用之一是消除多音字的问题,在声学模型(AM)给出拼音序列之后,从候选的文本序列中找到概率最大的文本序列。语言模型(LM)可以对AM的解码做约束和重打分,让最终的识别结果符合语法规则。步骤205~步骤208为语言模型的训练过程。
本发明实施例中,由于语言模型应用于地址搜索过程中,主要识别的是地址信息,因此,在步骤205中,获取的是包含地址信息的样本POI文本数据。在实现中,可以从数据库中获取POI数据(比如POI名称、地址等)作为样本POI文本数据。
步骤206,数据处理与特征提取。
在步骤206中,对样本POI文本数据进行数据处理与特征提取,获取样本POI文本数据对应的样本拼音序列和实际文本序列。在实现中,将样本POI文本数据转换为样本拼音序列,将样本POI文本数据自身作为实际文本序列。
步骤207,语言模型训练。
步骤208,获得语言模型。
针对任意一个样本POI文本数据,将该样本POI文本数据对应的样本拼音序列和实际文本序列作为一个第二样本数据。利用大量第二样本数据训练语言模型。
第二初始模型是指还未进行训练的具有语言识别能力的模型。在语言模型训练过程中,利用所述第二样本数据对第二初始模型进行训练。其中,所述第二初始模型的输入为第二样本数据中的样本拼音序列,输出为预测文本序列。
在一种可选实施方式中,根据预测文本序列和实际文本序列,可以计算第二损失。第二损失可以表示预测文本序列和实际文本序列的偏差程度。因此,可以在第二损失小于预设的损失阈值时,确定训练完成,得到训练完成的所述语言模型。对于损失阈值的具体数值,本领域技术人员根据实际经验选用任意适用的值均可。在另一种可选实施方式中,可以设置在达到预设的迭代次数时,确定训练完成,得到训练完成的所述语言模型。对于迭代次数的具体数值,本领域技术人员根据实际经验选用任意适用的值均可。
可选地,语言模型可以选用Transformer模型等。Transformer模型中采用了Encoder(编码)-Decoder(解码)架构。对于Encoder,包含两层,一个self-attention(自注意力机制)层和一个前馈神经网络,self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义。对于Decoder,也包含Encoder提到的两层网络,但是在这两层中间还有一层attention(注意力机制)层,帮助当前节点获取到当前需要关注的重点内容。因此,语言模型能够结合上下文语境信息对拼音序列进行识别,得到对应的文本序列。
图4是本发明实施例的一种语言模型的示意图。如图4所示,语言模型的输入为拼音序列,拼音序列输入语言模型后,经过Encoder的处理,得到拼音属于每个文本的分数,然后经过Decoder的处理,选出最优的文本序列作为输出。比如,图4中输入的拼音序列为“wode mianshizai tai ji da sha”,输出的文本序列为“我的面试在太极大厦”。
步骤209,获取样本文本数据。
针对前面获取到的文本序列,需要从中提取有价值的地址信息,作用在召回层。因此构建地址识别模型程,对文本序列进行地址信息提取。步骤209~步骤212为地址识别模型的训练过程。
本发明实施例中,由于地址识别模型应用于地址搜索过程中,主要识别的是地址信息,因此,在步骤209中,获取的是包含地址信息的样本POI文本数据。在实现中,可以从数据库中获取POI数据(比如POI名称、地址等)作为样本POI文本数据。
步骤210,BIO标注。
在步骤210中,对样本POI文本数据进行BIO标注,获取样本POI文本数据对应的实际BIO标注序列,样本POI文本数据对应的样本文本序列可以为样本POI文本数据自身。
在BIO(Begin开头,Inside中间,Outside无效)标注过程中,对样本POI文本数据中属于地址相关实体的开头文字标注为B,对属于地址相关实体的中间文字标注为I,对不属于地址相关实体的文字标注为O。比如,对于文本数据“我的面试在太极大厦”,其中的“太极大厦”为地址相关实体,因此,将其中的“我”、“的”、“面”、“试”、“在”均标注为O,将其中的“太”标注为B,将其中的“极”、“大”、“厦”均标注为I。
步骤211,地址识别模型训练。
步骤212,获得地址识别模型。
针对任意一个样本POI文本数据,将该样本POI文本数据对应的样本文本序列和实际BIO标注序列作为一个第三样本数据。利用大量第三样本数据训练地址识别模型。
第三初始模型是指还未进行训练的具有地址识别识别能力的模型。在地址识别模型训练过程中,利用所述第三样本数据对第三初始模型进行训练。其中,所述第三初始模型的输入为地儿样本数据中的样本文本序列,输出为预测BIO标注序列。
在一种可选实施方式中,根据预测BIO标注序列和实际BIO标注序列,可以计算第三损失。第三损失可以表示预测BIO标注序列和实际BIO标注序列的偏差程度。因此,可以在第三损失小于预设的损失阈值时,确定训练完成,得到训练完成的所述地址识别模型。对于损失阈值的具体数值,本领域技术人员根据实际经验选用任意适用的值均可。在另一种可选实施方式中,可以设置在达到预设的迭代次数时,确定训练完成,得到训练完成的所述地址识别模型。对于迭代次数的具体数值,本领域技术人员根据实际经验选用任意适用的值均可。
可选地,地址识别模型可以选用BiLSTM(Bi-directional Long Short-TermMemory,双向循环神经网络)+CRF(Conditional Random Field,条件随机场)模型等POI-NER(Named Entity Recognition,命名实体识别)模型。其中,BiLSTM层的输出是文本属于每个标注的分数。这些分数将作为CRF层的输入,在CRF层中选择预测得分最高的标注序列作为最佳标注结果。
图5是本发明实施例的一种地址识别模型的示意图。如图5所示,其中w1、w2表示样本文本序列,tag1和tag2表示实际BIO标注序列。首先对输入进行Embedding(嵌入)处理,Embedding简单的说是将高维空间中的表示word(词)的高维向量映射到低维连续空间中的向量,映射后的向量称为词向量。然后对Embedding得到的结果进行Concat(连接)处理。之后将处理后的数据输入BiLSTM层,BiLSTM层输出文本属于每个标注的分数,这些分数作为CRF层的输入,在CRF层中选择预测得分最高的标注序列作为最佳标注结果。
经过上述过程训练得到声学模型、语言模型、地址识别模型后,即可基于这些模型进行地址搜索操作,以下具体说明。
步骤213,接收语音数据。
步骤214,特征处理。
在接收到用户输入的语音数据后,对语音数据进行特征处理。特征处理过程可以包括:将语音数据转换成频谱图数据;基于频谱图数据,提取语音数据对应的声学特征向量。对于具体的处理过程,可以参照上述步骤A1和A2的具体描述,本发明实施例在此不再详细论述。
当然,还可以对语音数据进行其他处理,比如去除噪音处理等。
步骤215,解码器语音解码。
在解码器语音解码过程中,可以利用声学模型和语言模型进行识别。
首先,利用声学模型进行处理。具体可以包括:获取所述语音数据对应的声学特征向量;将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。比如,将语音数据对应的声学特征向量输入声学模型,得到声学模型输出的拼音序列为“wo de mianshizai tai ji da sha”。
然后,利用语言模型进行处理。具体可以包括:将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。比如,将拼音序列“wo de mianshizaitai ji da sha”输入语言模型,得到语言模型输出的文本序列为“我的面试在太极大厦”。
步骤216,输出文本序列。
步骤217,地址识别得到地址信息。
利用地址识别模型对文本序列进行地址识别,提取所述文本序列中包含的地址信息。具体可以包括:将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。
比如,将文本序列“我的面试在太极大厦”输入地址识别模型,得到地址识别模型输出的BIO标注序列为OOOOOBIII。从BIO标注序列中提取出标注为B的文本为“太”,标注为I的文本为“极”、“大”、“厦”,则提取出的地址信息为“太极大厦”。
步骤218,地址搜索。
基于提取出的地址信息,搜索所述地址信息对应的目标地址。
搜索过程可以包括召回和排序。在召回过程中,将提取出的地址信息作为召回源,输入到召回模型中,得到召回模型召回的与地址信息相关的地址。在排序过程中,针对召回的地址,利用距离、热度、文本相似度等特征进行排序,提取排序在前的部分地址作为目标地址。召回的目标地址可以为POI名称、地址等。
本发明实施例中,采用声学模型、语言模型、地址识别模型对用户输入的语音数据做综合处理。语言模型采用翻译模型进行训练,解决了文本匹配未考虑上下文语境的问题,提升了模型的准确性。地址识别模型对文本序列进行地址识别,提升了模型的泛化能力。采用深度学习离线训练模型,线上预测的手段,不仅提升服务性能,还能优化模型泛化能力,从而提升搜索业务服务质量。在用户输入query之前,可以冷启动预测用户需求,同时提取的地址信息作为召回源,实现扩召回,提升了搜索召回能力。
参照图6,示出了本发明实施例的一种地址搜索装置的结构框图。
如图6所示,地址搜索装置可以包括以下模块:
地址搜索装置,其特征在于,包括:
接收模块601,用于接收用户输入的语音数据;
第一转换模块602,用于将所述语音数据转换为拼音序列;
第二转换模块603,用于将所述拼音序列转换为文本序列;
识别模块604,用于对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;
搜索模块605,用于基于所述地址信息,搜索所述地址信息对应的目标地址。
可选地,所述第一转换模块602包括:向量获取单元,用于获取所述语音数据对应的声学特征向量;模型转换单元,用于将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;序列获取单元,用于基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。
可选地,所述声学模型通过如下模块训练:第一获取模块,用于获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;第一训练模块,用于利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。
可选地,所述第二转换模块603,具体用于将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。
可选地,所述语言模型通过如下模块训练:第二获取模块,用于获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;第二训练模块,用于利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;在基于所述预测文本序列和所述实际文本序列确定出所述第二初始模型训练完成后,得到训练完成的所述语言模型。
可选地,所述识别模块604包括:模型识别单元,用于将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;地址获取单元,用于基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。
可选地,所述地址识别模型通过如下模块训练:第三获取单元,用于获取包含地址信息的样本POI文本数据对应的样本文本序列和实际BIO标注序列,将所述样本文本序列和所述实际BIO标注序列作为第三样本数据;第三训练单元,用于利用所述第三样本数据对第三初始模型进行训练;其中,所述第三初始模型的输入为所述样本文本序列,输出为预测BIO标注序列;在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第三初始模型训练完成后,得到训练完成的所述地址识别模型。
本发明实施例中,一方面,通过先将用户输入的语音数据转换为拼音序列,再将拼音序列转换为文本序列的方式,考虑到了上下文语境信息,相比于直接将语音数据转换为文本序列的方式,本发明实施例得到的文本序列更加准确;另一方面,通过对文本序列进行地址识别,提取文本序列中包含的地址信息的方式,能够去除文本序列中非地址信息的干扰,得到更加准确的地址信息。因此,基于提取出的地址信息,能够更加准确地搜索出该地址信息对应的目标地址。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本发明的实施例中,还提供了一种电子设备。该电子设备可以包括一个或多个处理器,以及其上存储有指令的一个或多个机器可读介质,指令例如应用程序。当所述指令由所述一个或多个处理器执行时,使得所述处理器执行上述的地址搜索方法。
在本发明的实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序可由电子设备的处理器执行,以完成上述的地址搜索方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种地址搜索方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种地址搜索方法,其特征在于,包括:
接收用户输入的语音数据;
将所述语音数据转换为拼音序列;
将所述拼音序列转换为文本序列;
对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;
基于所述地址信息,搜索所述地址信息对应的目标地址。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音数据转换为拼音序列,包括:
获取所述语音数据对应的声学特征向量;
将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;
基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。
3.根据权利要求2所述的方法,其特征在于,所述声学模型通过如下方式训练:
获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;
利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;
在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。
4.根据权利要求1所述的方法,其特征在于,所述将所述拼音序列转换为文本序列,包括:
将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。
5.根据权利要求4所述的方法,其特征在于,所述语言模型通过如下方式训练:
获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;
利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;
在基于所述预测文本序列和所述实际文本序列确定出所述第二初始模型训练完成后,得到训练完成的所述语言模型。
6.根据权利要求1所述的方法,其特征在于,所述对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息,包括:
将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;
基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。
7.根据权利要求6所述的方法,其特征在于,所述地址识别模型通过如下方式训练:
获取包含地址信息的样本POI文本数据对应的样本文本序列和实际BIO标注序列,将所述样本文本序列和所述实际BIO标注序列作为第三样本数据;
利用所述第三样本数据对第三初始模型进行训练;其中,所述第三初始模型的输入为所述样本文本序列,输出为预测BIO标注序列;
在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第三初始模型训练完成后,得到训练完成的所述地址识别模型。
8.一种地址搜索装置,其特征在于,包括:
接收模块,用于接收用户输入的语音数据;
第一转换模块,用于将所述语音数据转换为拼音序列;
第二转换模块,用于将所述拼音序列转换为文本序列;
识别模块,用于对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;
搜索模块,用于基于所述地址信息,搜索所述地址信息对应的目标地址。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质;
当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310987.7A CN113192534A (zh) | 2021-03-23 | 2021-03-23 | 地址搜索方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310987.7A CN113192534A (zh) | 2021-03-23 | 2021-03-23 | 地址搜索方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113192534A true CN113192534A (zh) | 2021-07-30 |
Family
ID=76973662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110310987.7A Withdrawn CN113192534A (zh) | 2021-03-23 | 2021-03-23 | 地址搜索方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192534A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794808A (zh) * | 2021-09-01 | 2021-12-14 | 北京亿心宜行汽车技术开发服务有限公司 | 代驾电话下单方法及系统 |
CN113836908A (zh) * | 2021-09-06 | 2021-12-24 | 北京三快在线科技有限公司 | 信息搜索方法、装置、电子设备和计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521539B1 (en) * | 2012-03-26 | 2013-08-27 | Nuance Communications, Inc. | Method for chinese point-of-interest search |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN111191038A (zh) * | 2018-11-15 | 2020-05-22 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN111435592A (zh) * | 2018-12-25 | 2020-07-21 | Tcl集团股份有限公司 | 一种语音识别方法、装置及终端设备 |
CN111986673A (zh) * | 2020-07-24 | 2020-11-24 | 北京奇保信安科技有限公司 | 一种用于语音识别的槽值填充方法、装置和电子设备 |
-
2021
- 2021-03-23 CN CN202110310987.7A patent/CN113192534A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521539B1 (en) * | 2012-03-26 | 2013-08-27 | Nuance Communications, Inc. | Method for chinese point-of-interest search |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN111191038A (zh) * | 2018-11-15 | 2020-05-22 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN111435592A (zh) * | 2018-12-25 | 2020-07-21 | Tcl集团股份有限公司 | 一种语音识别方法、装置及终端设备 |
CN111986673A (zh) * | 2020-07-24 | 2020-11-24 | 北京奇保信安科技有限公司 | 一种用于语音识别的槽值填充方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
何小波等: "《规则匹配和深度学习结合的文本空间信息识别及定位》", 《地理信息世界》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794808A (zh) * | 2021-09-01 | 2021-12-14 | 北京亿心宜行汽车技术开发服务有限公司 | 代驾电话下单方法及系统 |
CN113794808B (zh) * | 2021-09-01 | 2024-01-30 | 北京亿心宜行汽车技术开发服务有限公司 | 代驾电话下单方法及系统 |
CN113836908A (zh) * | 2021-09-06 | 2021-12-24 | 北京三快在线科技有限公司 | 信息搜索方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN106328147B (zh) | 语音识别方法和装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN107590135B (zh) | 自动翻译方法、设备和系统 | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN111261162B (zh) | 语音识别方法、语音识别装置及存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN112925945A (zh) | 会议纪要生成方法、装置、设备及存储介质 | |
CN112966106A (zh) | 文本的情绪识别方法、装置、设备及存储介质 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN113192534A (zh) | 地址搜索方法、装置、电子设备及存储介质 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN113792166B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN113297456B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
CN112528679A (zh) | 一种意图理解模型训练方法及装置、意图理解方法及装置 | |
CN116052671A (zh) | 一种智能翻译机及翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210730 |