CN111858921B - 兴趣点查询方法、装置以及电子设备 - Google Patents

兴趣点查询方法、装置以及电子设备 Download PDF

Info

Publication number
CN111858921B
CN111858921B CN201910907467.7A CN201910907467A CN111858921B CN 111858921 B CN111858921 B CN 111858921B CN 201910907467 A CN201910907467 A CN 201910907467A CN 111858921 B CN111858921 B CN 111858921B
Authority
CN
China
Prior art keywords
layer
initial
query
trained
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910907467.7A
Other languages
English (en)
Other versions
CN111858921A (zh
Inventor
胡娟
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910907467.7A priority Critical patent/CN111858921B/zh
Publication of CN111858921A publication Critical patent/CN111858921A/zh
Application granted granted Critical
Publication of CN111858921B publication Critical patent/CN111858921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种兴趣点查询方法、装置以及电子设备,其中,该方法包括:确定查询分词文本,查询分词文本包括至少一个分词;应用根据查询样本确定的第一规则,在查询分词文本中提取每个分词对应的第一特征;应用根据兴趣点样本确定的第二规则,在查询分词文本中提取每个分词对应的第二特征;应用根据查询样本和兴趣点样本确定的第三规则,根据查询分词文本中每个分词的第一特征和第二特征,确定查询分词文本中每个分词的类别;根据查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点。通过基于查询样本和兴趣点样本确定规则,过滤查询请求文本包括的无关信息,可以在查询请求文本包括无关信息时得到查询结果。

Description

兴趣点查询方法、装置以及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种兴趣点查询方法、装置以及电子设备。
背景技术
目前,线上到线下(O2O)服务,例如在线打车服务,由于其便利性已经在日常生活中被广泛使用。对于在线打车服务,用户可以输入与上车地点和/或目的地相关的查询请求文本。在线打车服务系统可以根据输入的查询请求文本在地图数据库中执行搜索。然而,如果用户输入的查询请求文本包括与上车地点和/或目的地无关的信息,则查询请求文本不能召回任何兴趣点(POI),并且可能需要由用户修改该查询请求文本。在一些情况下,用户可能需要重复修改查询请求文本,直到召回一个或以上POI,这样可能会很耗时。因此,期望提供一种在查询请求文本包括无关信息时自动召回POI的系统和方法。
发明内容
有鉴于此,本申请的目的在于提供一种兴趣点查询方法、装置以及电子设备,能够通过基于查询样本和兴趣点样本确定规则,过滤查询请求文本包括的无关信息,可以在查询请求文本包括无关信息时得到查询结果。
根据本申请的一个方面,提供一种电子设备,可以包括存储介质和与存储介质通信的处理器。存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行以下操作:确定查询分词文本,所述查询分词文本包括至少一个分词;应用根据查询样本确定的第一规则,在所述查询分词文本中提取每个分词对应的第一特征;应用根据兴趣点样本确定的第二规则,在所述查询分词文本中提取每个分词对应的第二特征;应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别,所述类别包括特征词和冗余词;根据所述查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点,将匹配成功的目标兴趣点作为所述查询分词文本的查询结果。
在一些实施例中,一个或多个处理器可以用于:接收用户输入的查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,一个或多个处理器可以用于:接收用户输入的查询语音,将所述查询语音转换为查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,一个或多个处理器可以用于:将所述查询请求文本中每个字作为一个分词,得到查询分词文本;或者,根据预先确定的分词规则对所述所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,一个或多个处理器可以用于:确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,所述初始特征层为BiLSTM层,所述初始分类层为BiLSTM层。
在一些实施例中,一个或多个处理器可以用于:应用根据所述查询样本和所述兴趣点样本确定的概率预测规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词对应的第三特征;应用根据兴趣点样本确定的权重确定规则,确定所述查询分词文本中每个分词对应的权重;将所述查询分词文本中每个分词对应的第三特征与权重相乘,得到所述查询分词文本中每个分词对应的第四特征;应用根据所述查询样本和所述兴趣点样本确定的约束规则,根据所述查询分词文本中每个分词对应的第四特征,确定所述查询分词文本中每个分词的类别。
在一些实施例中,一个或多个处理器可以用于:确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型、初始分类层,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括所述概率预测规则,训练后的标注子层包括所述约束规则。
在一些实施例中,所述初始特征层为BiLSTM模型,所述初始特征子层BiLSTM模型,所述初始权重子层为TF-IDF模型,所述初始标注子层为CRF模型。
在一些实施例中,所述查询样本包括标注后的指定时间段内的历史查询请求文本。所述兴趣点样本包括兴趣点数据库中的多个兴趣点文本;或者,所述兴趣点样本包括所述指定时间段内的对应于历史查询请求文本的用户选定的兴趣点。
根据本申请的另一个方面,提供一种兴趣点查询方法。包括:确定查询分词文本,所述查询分词文本包括至少一个分词;应用根据查询样本确定的第一规则,在所述查询分词文本中提取每个分词对应的第一特征;应用根据兴趣点样本确定的第二规则,在所述查询分词文本中提取每个分词对应的第二特征;应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别,所述类别包括特征词和冗余词;根据所述查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点,将匹配成功的目标兴趣点作为所述查询分词文本的查询结果。
在一些实施例中,所述确定查询分词文本包括:接收用户输入的查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,所述确定查询分词文本包括:接收用户输入的查询语音,将所述查询语音转换为查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,对所述查询请求文本进行分词,得到查询分词文本包括:将所述查询请求文本中每个字作为一个分词,得到查询分词文本;或者,根据预先确定的分词规则对所述所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,在所述确定查询分词文本之前,所述方法还包括:确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,所述应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别包括:应用根据所述查询样本和所述兴趣点样本确定的概率预测规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词对应的第三特征;应用根据兴趣点样本确定的权重确定规则,确定所述查询分词文本中每个分词对应的权重;将所述查询分词文本中每个分词对应的第三特征与权重相乘,得到所述查询分词文本中每个分词对应的第四特征;应用根据所述查询样本和所述兴趣点样本确定的约束规则,根据所述查询分词文本中每个分词对应的第四特征,确定所述查询分词文本中每个分词的类别。
在一些实施例中,在所述确定查询分词文本之前,所述方法还包括:确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型、初始分类层,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括所述概率预测规则,训练后的标注子层包括所述约束规则。
根据本申请的另一方面,提供了一种训练标注模型的方法,初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;所述方法包括:基于兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括第二规则;基于所述训练后的语言模型以及查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;所述基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练包括:基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括概率预测规则,训练后的标注子层包括约束规则。
基于本申请的另一方面,提供了一种兴趣点查询装置。包括:确定单元,用于确定查询分词文本,所述查询分词文本包括至少一个分词;第一提取单元,用于应用根据查询样本确定的第一规则,在所述查询分词文本中提取每个分词对应的第一特征;第二提取单元,用于应用根据兴趣点样本确定的第二规则,在所述查询分词文本中提取每个分词对应的第二特征;分类单元,应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别,所述类别包括特征词和冗余词;匹配单元,根据所述查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点,将匹配成功的目标兴趣点作为所述查询分词文本的查询结果。
在一些实施例中,所述确定单元具体用于:接收用户输入的查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,所述确定单元具体用于:接收用户输入的查询语音,将所述查询语音转换为查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,所述确定单元具体用于包括:将所述查询请求文本中每个字作为一个分词,得到查询分词文本;或者,根据预先确定的分词规则对所述所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,还包括训练单元,用于:确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,所述分类单元具体用于:应用根据所述查询样本和所述兴趣点样本确定的概率预测规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词对应的第三特征;应用根据兴趣点样本确定的权重确定规则,确定所述查询分词文本中每个分词对应的权重;将所述查询分词文本中每个分词对应的第三特征与权重相乘,得到所述查询分词文本中每个分词对应的第四特征;应用根据所述查询样本和所述兴趣点样本确定的约束规则,根据所述查询分词文本中每个分词对应的第四特征,确定所述查询分词文本中每个分词的类别。
在一些实施例中,还包括训练单元,用于:确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型、初始分类层,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括所述概率预测规则,训练后的标注子层包括所述约束规则。
基于本申请的另一方面,提供了一种训练标注模型的装置。初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;所述装置包括:第一训练单元,用于基于兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括第二规则;第二训练单元,用于基于所述训练后的语言模型以及查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;所述第二训练单元具体用于:基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括概率预测规则,训练后的标注子层包括约束规则。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储计算机指令,所述计算机指令执行时,执行上述任一一方面或多方面所述的方法。
基于上述任一方面通过本发明实施例,基于查询样本和兴趣点样本确定的类别预测规则,从查询分词文本筛选出特征词,得到的特征词准确度更高,根据该特征词进行POI查询,得到的查询结果更准确。降低由于冗余词的存在出现无法查询或查询结果不准确的可能,提升用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种O2O服务系统的架构示意图;
图2示出了本申请实施例提供的一种兴趣点查询方法方法的流程图;
图3示出了本申请实施例提供的兴趣点查询方法方法中,确定分词类别具体方法的流程图;
图4示出了本申请实施例提供的一种训练标注模型的方法的流程示意图;
图5示出了本申请实施例提供的另一种兴趣点查询方法方法的流程图;
图6示出了本申请实施例提供的另一种训练标注模型的方法的流程示意图;
图7示出了本申请实施例提供的另一种兴趣点查询方法方法的流程图;
图8是根据本申请的一些实施例所示的示例性标注模型的示意图;
图9示出了本申请实施例提供的一种兴趣点查询装置的结构示意图;
图10示出了本申请实施例提供的一种训练标注模型的装置的结构示意图;
图11示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“O2O服务”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕O2O服务进行描述,但是应该理解,这仅是一个示例性实施例。
本文中所使用的术语仅用于描述特定示例性实施例,并不限制本申请的范围。如本文使用的单数形式“一”、“一个”及“所述”可以同样包括复数形式,除非上下文明确提示例外情形。应该理解的是,本申请中所使用的术语“包括”与“包含”仅提示已明确标识的特征、整体、步骤、操作、元件和/或部件,而不排除可以存在或添加其他一个或以上特征、整体、步骤、操作、元件、部件和/或其组合的情况。
根据以下对附图的描述,本申请的这些和其他的特征、特点、以及结构的相关元件的功能和操作方法、以及各部分的组合和制造的经济性变得显而易见,这些都构成说明书的一部分。然而,应该理解的是,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应该理解的是,附图并不是按比例的。
本申请中使用的流程图用来说明根据本申请的实施例的系统所执行的操作。应该理解的是,流程图的操作可以不按顺序执行。相反,可以倒序或者同时实现这些步骤。同时,也可以将一个或以上其他操作添加到流程图中。同时,也可以将一个或以上其他操作从流程图中删除。
此外,尽管主要关于按需运输服务(例如,O2O服务)来描述本申请中的系统和方法,但是还应该理解的是,这仅是一个示例性实施例。本申请的系统或方法可以应用于任何其他类别的按需服务。例如,本申请的系统和方法还可应用于不同环境的运输系统,包括陆地、海洋、航空航天等,或其任意组合。运输系统的车辆可以包括出租车、私人汽车、顺风车、公交车、火车、动车、高路、地铁、船只、飞机、飞船、热气球、无人驾驶车辆等,或其任意组合。运输系统还可以包括应用管理和/或分发的任何运输系统,例如用于发送及/或接收快递的系统。本申请的系统或方法的应用场景可以包括网页、浏览器的插件、客户端、定制系统、内部分析系统、人工智能机器人等,或其任意组合。
本申请中的术语“乘客”、“请求者”、“服务请求者”和“客户”是可互换使用的,可用于表示请求或预定服务的个人、实体或工具。此外,本申请中的术语“司机”、“提供者”、“服务提供者”和“供应者”是可以互换使用的,可用于表示提供服务或协助提供服务的个人、实体或工具。在本申请中,术语“用户”可以表示请求服务、预定服务、提供服务或协助提供服务的个体、实体或工具。例如,用户可以是乘客、司机、操作员等,或其任意组合。在本申请中,“乘客”和“乘客终端”可互换使用,“司机”和“司机终端”可互换使用。
本申请中的术语“服务请求”和“订单”是可以互换使用的,可以用于表示由乘客、请求者、服务请求者、顾客、司机、提供者、服务提供者、供应者等或其任意组合发起的请求。该服务请求可以被乘客、请求者、服务请求者、顾客、司机、提供者、服务提供者或供应者中的任一者接受。服务请求可以是收费的或免费的。
本申请中使用的定位技术可以包括全球定位系统(GPS)、全球卫星导航系统(GLONASS)、北斗导航系统(COMPASS)、伽利略定位系统、准天顶卫星系统(QZSS)、无线保真(WiFi)定位技术等,或其任意组合。上述定位技术中的一种或以上可以在本申请中互换使用。
本申请的一个方面涉及一种兴趣点查询方法、装置以及电子设备。该方法可以通过基于查询样本和兴趣点样本确定的类别预测规则,从查询分词文本筛选出特征词,得到的特征词准确度更高,根据该特征词进行POI查询,得到的查询结果更准确。
值得注意的是,在本申请提出申请之前,可以根据查询样本确定预测规则。然而,本申请提供的兴趣点查询方法可以结合兴趣点样本。因此,通过结合兴趣点样本,本申请的O2O服务可以提供准确的兴趣点查询服务。
图1是本申请实施例提供的一种O2O服务系统100的架构示意图。例如,O2O服务系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台。O2O服务系统100可以包括服务器110、网络120、服务请求端130、服务提供端140、和存储设备150中的一种或多种。
在一些实施例中,服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据,以执行本申请中描述的一个或多个功能。例如,处理器可以基于从服务请求端130获得的服务请求来确定目标车辆。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、专用指令集处理器(Application Specific Instruction-setProcessor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等,或其任意组合。
在一些实施例中,服务请求端130和服务提供端140对应的设备类别可以是移动设备,比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,也可以是平板计算机、膝上型计算机、或机动车辆中的内置设备等。
在一些实施例中,存储设备150可以连接到网络120以与O2O服务系统100中的一个或多个组件(例如,服务器110,服务请求端130,服务提供端140等)通信。O2O服务系统100中的一个或多个组件可以经由网络120访问存储在存储设备150中的数据或指令。在一些实施例中,存储设备150可以直接连接到O2O服务系统100中的一个或多个组件,或者,存储设备150也可以是服务器110的一部分。
下面结合上述图1示出的O2O服务系统100中描述的内容,对本申请实施例提供的兴趣点查询方法进行详细说明。
参照图2所示,为本申请实施例提供的一种兴趣点查询方法的流程示意图,该方法可以由O2O服务系统100中的服务器来执行,具体执行过程为:
S210,确定查询分词文本。其中,该查询分词文本包括至少一个分词。
在一些实施例中,服务器可以接收查询请求文本,根据查询请求文本确定查询分词文本。
其中,该查询请求文本可以由用户通过终端(例如,请求者终端130或提供者终端140)输入。例如,查询请求文本可以包括通过字符输入设备(例如,键盘、触摸屏)输入的文本信息。再例如,查询请求文本可以包括通过麦克风输入的语音信息转换后的文本信息,其中,可以使用语音识别技术(例如,隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法等)将语音信息转换为文本信息,该语音识别过程可以由终端或服务器来实现。
另外,查询请求文本可以与位置相关,例如上车地点、目的地等。例如,查询请求文本可以包括与上车地点的名称、目的地的名称相关的信息。上车地点和/或目的地的名称可以包括小区的名称(例如,用户的家庭地址)、公司的名称(例如,用户的工作地址)、超市名称、医院名称、公交站名称、地铁站名称、火车站名称、酒店名称、美食广场名称、景区名称、街道名称等。
在一些实施例中,可以对接收到的查询请求文本进行分词,得到由多个分词构成的查询分词文本。
作为一个示例,可以将查询请求文本中每个字作为一个分词,得到查询分词文本。例如,查询请求文本为“银沙路有事情17号”,分词后的查询分词文本为“银/沙/路/有/事/情/17/号”,“/”为分词符。
作为另一个示例,根据预先确定的分词规则多所述所述查询请求文本进行分词,得到查询分词文本。例如,查询请求文本为“银沙路有事情17号”,分词后的查询分词文本为“银沙路/有事情/17号”,“/”为分词符。其中,这里可以根据分词算法对查询请求文本执行分词。示例性的分词算法可以包括基于字符匹配的分词算法(例如,最大匹配算法、全词分词算法、统计语言模型算法)、基于序列标注的分词算法(例如,词性标注)、基于深度学习的分词算法(例如,隐马尔可夫模型算法)等。
S220,应用根据查询样本确定的第一规则,在查询分词文本中提取每个分词对应的第一特征。
在一些实施例中,该第一规则可以为用于提取查询分词文本中分词的特征规则,该第一规则可以根据查询样本包括的分词以及上下文特征学习得到,通过第一特征可以预测查询样本中的各个分词的类别,该类别可以包括特征词类别和冗余词类别。
在一些实施例中,查询样本可以通过对历史查询分词文本进行标记得到。该历史查询分词文本还可以指定时间段内的历史查询分词文本,该指定时间段可以根据实际需要确定。例如,该指定时间段可以为过去一年内的历史查询分词文本。该对历史查询分词文本进行标记可以指,对历史查询分词文本包括的各个分词类型进行标记。
S230,应用根据兴趣点样本确定的第二规则,在查询分词文本中提取每个分词对应的第二特征。
在一些实施例中,该第二规则可以为用于提取查询分词文本中分词的特征规则,该第二规则可以根据测兴趣点样本包括的分词以及上下文特征学习得到的语言特征。
在一些实施例中,可以将兴趣点数据库作为兴趣点样本,也可以根据历史会话中查询到的POI作为兴趣点样本。兴趣点数据库可以由服务器预先确定,基于该兴趣点数据库可以为用户提供兴趣点查询服务。
S240,应用根据查询样本和兴趣点样本确定的第三规则,根据查询分词文本中每个分词的第一特征和第二特征,确定每个分词的类别。
在一些实施例中,步骤S220和S230可以认为是特征预处理的过程,该查询分词文本中的每个分词的第二特征可以作为对第一特征补充,基于上述过程提取到查询分词文本中的每个分词的第一特征和第二特征,可以确定每个分词的类别的依据。
在一些实施例中,该第三规则可以为分词类别的预测规则,该预测规则的依据为查询分词文本中每个分词的第一特征和第二特征。在一些实施例中,该预测规则可以包括一个或多个限制条件,该一个或多个限制条件可以通过查询样本和兴趣点样本来学习和优化。
S250,根据查询分词文本中类别为特征词的分词在兴趣点数据库中匹配兴趣点,将匹配成功的兴趣点作为查询分词文本的查询结果。
在一些实施例中,查询分词文本可以包括与上车地点或目的地有关的关键词(在本文中也称为特征词)、以及与上车地点或目的地无关的词(在本文中也称为冗余词)。可以根据查询分词文本中的一个或多个特征词在兴趣点数据库中进行匹配。仅作为示例,用户期望的POI可以是“江苏省苏州市学森路9号”。如果用户输入的查询请求文本是“学森路有工作9号”,查询请求文本包括冗余词“有”和“工作”,在从兴趣点数据库匹配期望POI之前,可以识别和移除冗余词,然后再基于查询分词文本中的特征词在兴趣点数据中匹配期望的POI。
在一些实施例中,服务器可以在终端(例如,请求者终端130、提供者终端140)上显示POI。作为一个示例,服务器可以将匹配到的多个备选POI发送到终端。终端可以基于与查询请求文本的相关性在显示器上显示POI列表,该POI列表包括匹配到的多个备选POI。用户可以从POI列表通过点击选定POI作为期望的POI。
通过本发明实施例,基于查询样本和兴趣点样本确定的类别预测规则,从查询分词文本筛选出特征词,得到的特征词准确度更高,根据该特征词进行POI查询,得到的查询结果更准确。降低由于冗余词的存在出现无法查询或查询结果不准确的可能,提升用户体验。
在一些实施例中,第三规则可以由概率预测规则、权重确定规则和约束规则中的一项或多项来实现。
作为一个示例,第三规则可以包括概率预测规则、权重确定规则和约束规则,如图3所示,上述步骤S240还可以通过如下步骤实现:
S310,应用根据查询样本和兴趣点样本确定的概率预测规则,根据查询分词文本中每个分词的第一特征和第二特征,确定查询分词文本中每个分词对应的第三特征。
该概率预测规则用于确定查询样本中每个分词到每个类别的发射概率。例如,分词A到类别n的发射概率为0.5,待类别m的发射概率为0.4,那么分词A对应的第三特征可以为“n-0.5,m-0.4”。
S320,应用根据兴趣点样本确定的权重确定规则,确定查询分词文本中每个分词对应的权重。
该第二规则可以根据查询分词文本中每个分词在兴趣点样本中的稀有程度,确定的权重。分词在兴趣点样本越稀有,权重越高。例如,可以根据文本中每个分词在兴趣点样本中的词频确定权重。
S330,将查询分词文本中每个分词对应的第三特征与权重相乘,得到查询分词文本中每个分词对应的第四特征。
通过基于兴趣点样本确定的权重与第三特征相乘,可以实现约束和丰富第三特征,以提高类别判断的准确性。
S340,应用根据查询样本和兴趣点样本确定的约束规则,根据查询分词文本中每个分词对应的第四特征,确定每个分词的类别。
约束规则可以包括多种约束条件,该多种约束条件可以根据查询样本和兴趣点样本学习得到,基于该多种约束条件,服务器可以根据查询分词文本中每个分词为冗余词或特征词的概率与权重的乘积,确定概率最大的查询分词文本标注序列为预测的标注序列,该预测的标注序列对应查询分词文本中的每个分词。
在另一些实施例中,第三规则也可以仅包括概率预测规则,服务器可以根据查询分词文本中每个分词对应发射概率最大的类别,作为该分词的类别。
在另一些实施例中,第三规则也可以仅包括概率预测规则和约束规则,服务器可以应用根据查询样本和兴趣点样本确定的约束规则,根据查询分词文本中每个分词为冗余词或特征词的发射概率,确定概率最大的查询分词文本标注序列为预测的标注序列,该预测的标注序列对应查询分词文本中的每个分词。
在一些实施例中,上述第一规则、第二规则以及第三规则通过机器学习模型来实现。例如,可以通过训练后的标注模型来实现上述规则。
作为一个示例,该训练后的标注模型至少包括特征层、语言模型以及分类层,特征层用于基于第一规则提取查询分词文本中每个分词的第一特征,语言模型用于基于第二规则查询分词文本中每个分词的第二特征,分类层用于基于第三规则,根据第一特征和第二特征,对查询分词文本中每个分词的进行类别标注。
在一些实施例中,上述特征层可以包括长短期记忆网络Long Short-TermMemory,LSTM)层或Bi_LSTM(双向LSTM)层等。上述分类层可以包括LSTM层、Bi_LSTM层、条件随机场算法(conditional random field algorithm,CRF)层或Bi_LSTM-CRF层等中的一个或多个的组合。上述语言模型可以为语言嵌入模型(Embeddings from Language Models,ELMO)等。
在一些实施例中,上述分类层可以包括特征子层、权重子层和标注子层。其中,上述特征层的输出和语言模型的输出的拼接后作为特征子层的输入,特征子层的输出与权重子层的输出相乘作为初始标注子层的输入。特征子层用于实现概率预测规则,权重子层用于实现权重确定规则,标注子层用于实现约束规则。
在一些实施例中,上述特征子层可以包括Bi_LSTM层,上述标注子层可以包括CRF层,上述权重子层可以包括逆文本频率指数(inverse document frequency,IDF)层,例如,词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)层。
其中,训练后的标注模型可以通过训练初始标注模型来得到。下面结合图4和6以及具体实施例,对训练初始标注模型的过程进行进一步地介绍。
图4为本申请实施例提供的一种训练标注模型的方法的流程示意图,该方法可以由O2O服务系统100中的服务器来执行,也可以由专门的计算机设备来执行,得到的训练后的标注模型可以发送至O2O服务系统100中的服务器,以便服务器基于训练后的标注模型来实现对查询分词文本的类别预测,如图4所示,具体训练过程为:
S410,确定初始标注模型。
其中,该初始标注模型包括初始特征层、初始语言模型以及初始分类层。初始特征层用于提取查询样本中的第一特征,初始语言模型用于提取训兴趣点样本的第二特征,初始特征层的输出和初始语言模型的输出的拼接后作为初始分类层的输入,输出为查询样本的序列标注。
S420,基于兴趣点样本对初始语言模型进行训练得到训练后的语言模型。该训练后的语言模型包括第二规则。
在一些实施例中,初始特征层和初始分类层可以作为一个整体进行训练,初始语言模型的训练可以单独进行训练。在一些实施例中,可以在对初始特征层和初始分类层单独进行训练之前,可以先对初始语言模型进行训练。
在一些实施例中,该语言模型可以为语言模型,例如,预先训练的语言模型,通过该语言模型,可以基于兴趣点样本学习到第二规则,该第二规则可以基于兴趣点样本中分词之间的相关性,表示查询分词文本中当前分词与其他分词之间的相关性,该查询分词文本中当前分词的第二特征可以包括该查询分词文本中当前分词与其他分词之间的相关性。
S430,基于训练后的语言模型以及查询样本,对初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,其中,训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,查询样本可以包括历史查询分词文本,和与历史查询分词文本对应的实际的样本标注序列。该查询样本通过对指定时间段内的历史查询分词文本进行标注得到,该指定时间段可以指历史的某一段时间,例如,过去一年内的查询分词文本。作为一个示例,服务器可以对会话(session)进行存储,该会话可以包括在搜索期望的POI时的一个或以上用户操作,包括输入历史查询请求文本、修改历史查询请求文本、或点击期望的POI等等,可以根据存储的历史会话中的历史查询请求文本,确定历史查询分词文本。仅作为示例,示例性会话可以在表1中示出。服务器可以将“银沙路有事情17号”确定为历史查询请求文本,并将“银沙路17号”确定为修改的历史查询请求文本。
表1示例性会话
在一些实施例中,可以使用第一标签(例如,0)或第二标签(例如,1)来标记历史查询分词文本中的每一个分词,得到历史查询分词文本实际的样本标注序列。在一些实施例中,冗余分词可以被标记为第一标签,特征分词可以被标记为第二标签。例如,可以使用第一标签标记“有”和“工作”,使用第二标签标记“学森路”和“9号”。
在一些实施例中,可以将每一个查询样本的分词输入到初始特征层和训练后的语言模型中,通过初始分类层输出实际输出(例如,预测的样本标签序列)。可以将与每一个查询样本中对应的实际的样本标签序列确定为期望输出。根据实际输出与期望输出差异确定损失函数。在初始标注模型的训练期间,服务器通过调整特征层和初始分类层中的权重(或参数)以使损失函数最小化。在一些实施例中,可以重复最小化损失函数过程,直到损失函数满足终止条件。满足终止条件后得到训练后的初始标注模型。
图5为本申请实施例提供的一种查询分词文本类别标注方法的流程示意图,如图5所示,基于图4所示的实施例得到的训练后的标注模型,该方法可以由O2O服务系统100中的服务器来执行,具体执行过程为:
S510,将查询分词文本输入训练后的标注模型的特征层和语言模型,输出为查询分词文本每个分词对应的第一特征和第二特征;
S520,将查询分词文本每个分词对应的第一特征和第二特征进行拼接,并作为训练后的标注模型的分类层的输入,输出为与查询分词文本各个分词对应的预测的标记序列;根据该预测的标记序列,在查询分词文本中选择类别为特征词的分词,以便根据类别为特征词的分词在兴趣点数据库中匹配兴趣点。
图6为本申请实施例提供的另一种训练标注模型的方法的流程示意图,该方法可以由O2O服务系统100中的服务器来执行,也可以由专门的计算机设备来执行,得到的训练后的标注模型可以发送至O2O服务系统100中的服务器,以便服务器基于训练后的标注模型来实现对查询分词文本的类别预测,如图6所示,具体训练过程为:
S610,确定初始标注模型。
其中,该初始标注模型包括初始特征层、初始语言模型以及初始分类层,该初始分类层包括初始特征子层、初始权重子层和初始标注子层。
初始特征层用于提取查询样本中的第一特征;
初始语言模型用于提取兴趣点样本的第二特征;
初始特征子层用于基于第一特征和第二特征进行进一步地特征提取;
初始权重子层用于确定兴趣点样本中各个分词的权重;
初始标注子层用于预测样本序列标注;
初始特征层的输出和语言模型的输出的拼接后作为初始特征子层的输入,输出为第三特征;
初始特征子层的输出与初始权重子层的输出相乘作为初始标注子层的输入,输出为预测的样本序列标注。
S620,基于兴趣点样本对初始权重子层进行训练得到训练后的权重子层。该训练后的权重子层包括权重确定规则。
S630,基于兴趣点样本对初始语言模型进行训练得到训练后的语言模型。该训练后的语言模型包括第二规则。
在一些实施例中,初始特征层、初始特征子层和初始标注子层可以作为一个整体进行训练,初始语言模型的训练和初始权重子层可以分别单独进行训练。在一些实施例中,可以在对初始特征层和初始分类层单独进行训练之前,可以先对初始语言模型和初始权重子层进行训练。
S640,基于训练后的语言模型、训练后的权重子层以及查询样本,对初始特征层、初始特征子层和初始分类层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层。其中,训练后的特征层包括第一规则,训练后的特征子层包括概率预测规则,所述训练后的标注子层包括约束规则。
在一些实施例中,可以将每一个查询样本的分词输入到初始特征层、训练后的语言模型和训练后的权重子层中;初始特征层的输出和训练后的语言模型的输出拼接后输入初始特征子层;初始特征子层的输出和训练后的权重子层的输出相乘后输入初始标注子层;通过初始标注子层输出实际输出。根据实际输出与期望输出差异确定损失函数。根据损失函数优化初始特征层、初始特征子层和初始分类层的参数得到最终的训练后的标注模型。
图7为本申请实施例提供的另一种查询分词文本类别标注方法的流程示意图,如图7所示,基于图6所示的实施例得到的训练后的标注模型,该方法可以由O2O服务系统100中的服务器来执行,具体执行过程为:
S710,将查询分词文本输入训练后的标注模型的特征层和语言模型,输出为查询分词文本每个分词对应的第一特征和第二特征;
S720,将查询分词文本每个分词对应的第一特征和第二特征进行拼接,并作为训练后的标注模型的特征子层的输入,输出为查询分词文本每个分词的第三特征;
S730,将查询分词文本输入训练后的标注模型的权重子层,输出为查询分词文本中每个分词对应的权重;
S740,将查询分词文本每个分词对应的第三特征和第权重特征进行相乘,得到查询分词文本中每个分词对应的第四特征;
S750,将查询分词文本中每个分词对应的第四特征作为训练后的标注子层的输入,输出为查询分词文本每个分词对应的预测标记序列,根据该预测标记序列在查询分词文本中选择类别为特征词的分词,以便根据类别为特征词的分词在兴趣点数据库中匹配兴趣点。
图8是根据本申请的一些实施例所示的示例性标注模型的示意图。在一些实施例中,标注模型可以是需要训练的初始标注模型。或者,标注模型可以是训练后的标注模型。如图8所示,该标注模型包括嵌入层、第一Bi_LSTM(长短期记忆)层、第二Bi_LSTM(长短期记忆)层、CRF(条件随机场)层、语言模型和IDF模型。
映射层可以用于确定查询分词文本中的每一个分词的映射向量。每个分词的映射向量可以用于丰富每个术语的特征信息以及语义。映射层可以由至少一个特征层和嵌入层构成,对与每个特征层对应于一个特征属性和权重的组合。特征属性可以包括位置属性、城市属性等,或其任何组合。词嵌入层可以被配置为提取查询请求文本的每个分词的语义信息。具体地,词嵌入层可以将查询请求文本的每一个分词映射到多维向量(也称为词嵌入向量),其可以被称为词表达。在一些实施例中,词嵌入层可以基于包括预训练的词嵌入的语料库来确定每个分词的词嵌入向量。在一些实施例中,映射层的输入可以包括查询分词文本(例如,图8中所示的,“w1”、“w2”和“w3”用于分别表示一个分词,该三个分词构成一个查询分词文本,应该知道的是,图8仅为示例,实际中可以包括更多或更少的分词),输出可以包括查询分词文本每个分词对应的特征向量(例如,如图8所示的x1、x2、x3)。
在一些实施例中,可以将查询分词文本每个分词对应的映射向量输入到第一Bi_LSTM层中输出为第一特征向量。其中,Bi_LSTM层可以用于确定每个分词到各个类别的发射概率。其中,第一Bi_LSTM层可以包括前向LSTM、后向LSTM和输出层。Bi_LSTM层可以有效地利用过去的特征(通过前向状态)和未来的特征(通过后向状态)。
在一些实施例中,可以将查询分词文本每个分词对应的映射向量输入到语言模型,输出为查询分词文本每个分词的第二特征向量。或者可以将查询分词文本每个分词输入到语言模型,输出为查询分词文本每个分词的第二特征向量。
CRF层可以用于确定查询请求文本每一个分词的预测标签。在一些实施例中,CRF层可以向预测标签添加一些约束以确保预测标签有效。在一些实施例中,CRF层可用于确定对应于查询分词文本每个分词的标签序列。标签序列可以指查询分词文本每个分词的标签的序列。例如,分词“银沙路”、“有”、“事情”、“17号”的标签序列可以包括“1/1/1/1”、“1/1/1/0”、“1/1/0/1”、“1/1/0/0”、“1/0/1/1”、“1/0/1/0”、“1/0/0/1”、“1/0/0/0”、“0/1/1/1”、“0/1/1/0”、“0/1/0/1”、“0/1/0/0”、“0/0/1/1”、“0/0/1/0”、“0/0/0/1”、“0/0/0/0”。在一些实施例中,CRF层还可以用于确定一个或以上标签序列的每一个的分数。仅作为示例,可以根据如下方程(1)确定对应于标签序列的概率:
其中“X”指的是查询分词文本;“y”指的是查询分词文本的标签序列;“S(X,y)”是指对应于标签序列“y”的概率;“i”指的是查询分词文本中分词的位置;“n”指查询分词文本中的分词的数量;“y_i”是指分词在位置i处的标签(例如,第一标签或第二标签);“A_(y_i,y_(i+1))”是指从第一标签(例如,0)到第二标签(例如,1)和/或从第二标签到第一标签的转移概率;“P_(i,y_i)”是指位置i处的术语为第一标签和/或第二标签的发射概率。
因此,根据方程(1)可以确定多个标签序列的分数。可以将具有最大分数(即,maxS(X,y))的标签序列确定为CRF层的输出。
在一些实施例中,标注模型可以是训练后的标注模型。仅作为示例,对于具有四个分词“学森路”、“有”、“工作”、“9号”的查询分词文本,四个分词可以输入到训练后的标注模型中,具有最大分数的标签序列(例如,“1/0/0/1”)可以从训练后的标注模型中输出。因此,对应于四个分词的预测标签序列可以是“1/0/0/1”。
参照图9所示,为本申请实施例提供的一种兴趣点查询装置结构示意图,所述装置包括:确定单元901、第一提取单元902、第二提取单元903、分类单元904和匹配单元905;
其中,确定单元901,用于确定查询分词文本,所述查询分词文本包括至少一个分词;
第一提取单元902,用于应用根据查询样本确定的第一规则,在所述查询分词文本中提取每个分词对应的第一特征;
第二提取单元903,用于应用根据兴趣点样本确定的第二规则,在所述查询分词文本中提取每个分词对应的第二特征;
分类单元904,应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别,所述类别包括特征词和冗余词;
匹配单元905,根据所述查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点,将匹配成功的目标兴趣点作为所述查询分词文本的查询结果。
在一些实施例中,确定单元901具体用于:
接收用户输入的查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,确定单元901具体用于:
接收用户输入的查询语音,将所述查询语音转换为查询请求文本;对所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,确定单元901具体用于包括:
将所述查询请求文本中每个字作为一个分词,得到查询分词文本;
或者,根据预先确定的分词规则对所述所述查询请求文本进行分词,得到查询分词文本。
在一些实施例中,还包括训练单元,用于:
确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;
基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;
基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,分类单元904具体用于:
应用根据所述查询样本和所述兴趣点样本确定的概率预测规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词对应的第三特征;
应用根据兴趣点样本确定的权重确定规则,确定所述查询分词文本中每个分词对应的权重;
将所述查询分词文本中每个分词对应的第三特征与权重相乘,得到所述查询分词文本中每个分词对应的第四特征;
应用根据所述查询样本和所述兴趣点样本确定的约束规则,根据所述查询分词文本中每个分词对应的第四特征,确定所述查询分词文本中每个分词的类别。
在一些实施例中,还包括训练单元,用于:
确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型、初始分类层,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;
基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;
基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;
基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括所述概率预测规则,训练后的标注子层包括所述约束规则。
参照图10所示,为本申请实施例提供的一种训练标注模型的装置结构示意图,初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;装置包括:
第一训练单元1001,用于基于兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括第二规则;
第二训练单元1002,用于基于所述训练后的语言模型以及查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则。
在一些实施例中,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;所述第二训练单元具体用于:
基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;
基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括概率预测规则,训练后的标注子层包括约束规则。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
电子设备200可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的电动单车的控制方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,如图11所示,电子设备1100可以包括连接到网络的网络端口1110、用于执行程序指令的一个或多个处理器1120、通信总线1130、和不同形式的存储介质1140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的下述任一个方法。电子设备1100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口1150。
为了便于说明,在电子设备1100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备1100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备1100的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
一个或多个处理器1120通过执行存储介质1140的程序指令,可以实现前述图2-图7所示的任意一种或多种方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述图2-图7所示的任意一种或多种方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述兴趣点查询方法,能够通过基于查询样本和兴趣点样本确定规则,过滤查询请求文本包括的无关信息,可以在查询请求文本包括无关信息时得到查询结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种兴趣点查询方法,其特征在于,包括:
确定查询分词文本,所述查询分词文本包括至少一个分词;
应用根据查询样本确定的第一规则,在所述查询分词文本中提取每个分词对应的第一特征;
应用根据兴趣点样本确定的第二规则,在所述查询分词文本中提取每个分词对应的第二特征;
应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别,所述类别包括特征词和冗余词;
根据所述查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点,将匹配成功的目标兴趣点作为所述查询分词文本的查询结果,
其中所述第一规则、所述第二规则以及所述第三规则通过训练后的标注模型来实现,所述训练后的标注模型至少包括特征层、语言模型以及分类层,所述特征层用于基于所述第一规则提取查询所述分词文本中每个分词的第一特征,所述语言模型用于基于第二规则查询所述分词文本中每个分词的第二特征,所述分类层用于基于第三规则,根据所述第一特征和所述第二特征,对所述查询分词文本中每个分词的进行类别标注。
2.根据权利要求1所述的方法,其特征在于,在所述确定查询分词文本之前,所述方法还包括:
确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;
基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;
基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则;其中,所述初始特征层为BiLSTM层,所述初始分类层为BiLSTM层。
3.根据权利要求1所述的方法,其特征在于,所述应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别包括:
应用根据所述查询样本和所述兴趣点样本确定的概率预测规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词对应的第三特征;
应用根据兴趣点样本确定的权重确定规则,确定所述查询分词文本中每个分词对应的权重;
将所述查询分词文本中每个分词对应的第三特征与权重相乘,得到所述查询分词文本中每个分词对应的第四特征;
应用根据所述查询样本和所述兴趣点样本确定的约束规则,根据所述查询分词文本中每个分词对应的第四特征,确定所述查询分词文本中每个分词的类别。
4.根据权利要求3所述的方法,其特征在于,在所述确定查询分词文本之前,所述方法还包括:
确定初始标注模型,所述初始标注模型包括初始特征层、初始语言模型、初始分类层,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;
基于所述兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括所述第二规则;
基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;
基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括所述概率预测规则,训练后的标注子层包括所述约束规则;其中,所述初始特征层为BiLSTM模型,所述初始特征子层BiLSTM模型,所述初始权重子层为TF-IDF模型,所述初始标注子层为CRF模型;所述查询样本包括标注后的指定时间段内的历史查询请求文本;所述兴趣点样本包括兴趣点数据库中的多个兴趣点文本;或者,所述兴趣点样本包括所述指定时间段内的对应于历史查询请求文本的用户选定的兴趣点。
5.一种训练标注模型的方法,其特征在于,初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;所述方法包括:
基于兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括第二规则;
基于所述训练后的语言模型以及查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则,
其中所述初始特征层用于提取查询样本中的第一特征;所述初始语言模型用于提取兴趣点样本的第二特征;所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述语言模型的输出的拼接后作为所述初始特征子层的输入,输出为所述第三特征;所述初始特征子层的输出与初始权重子层的输出相乘作为所述初始标注子层的输入,输出为预测的样本序列标注。
6.根据权利要求5所述的方法,其特征在于,所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为初始特征子层的输入,所述初始特征子层的输出与所述初始权重子层的输出相乘作为初始标注子层的输入;所述基于所述训练后的语言模型以及所述查询样本,对所述初始特征层和初始分类层进行训练包括:
基于所述兴趣点样本对所述初始权重子层进行训练得到训练后的权重子层,所述训练后的权重子层包括所述权重确定规则;
基于所述训练后的语言模型、训练后的权重子层以及所述查询样本,对所述初始特征层和初始特征子层和初始标注子层进行训练,得到训练后的特征层、训练后的特征子层和训练后的标注子层,所述训练后的特征层包括第一规则,所述训练后的特征子层包括概率预测规则,训练后的标注子层包括约束规则;
其中,所述初始特征层为BiLSTM模型,所述初始特征子层为BiLSTM模型,初始权重子层为TF-IDF模型,所述初始标注子层为CRF模型。
7.一种兴趣点查询装置,其特征在于,包括:
确定单元,用于确定查询分词文本,所述查询分词文本包括至少一个分词;
第一提取单元,用于应用根据查询样本确定的第一规则,在所述查询分词文本中提取每个分词对应的第一特征;
第二提取单元,用于应用根据兴趣点样本确定的第二规则,在所述查询分词文本中提取每个分词对应的第二特征;
分类单元,应用根据所述查询样本和所述兴趣点样本确定的第三规则,根据所述查询分词文本中每个分词的第一特征和第二特征,确定所述查询分词文本中每个分词的类别,所述类别包括特征词和冗余词;
匹配单元,根据所述查询分词文本中类别为特征词的分词在兴趣点数据库中匹配目标兴趣点,将匹配成功的目标兴趣点作为所述查询分词文本的查询结果,
其中所述第一规则、所述第二规则以及所述第三规则通过训练后的标注模型来实现,所述训练后的标注模型至少包括特征层、语言模型以及分类层,所述特征层用于基于所述第一规则提取查询所述分词文本中每个分词的第一特征,所述语言模型用于基于第二规则查询所述分词文本中每个分词的第二特征,所述分类层用于基于第三规则,根据所述第一特征和所述第二特征,对所述查询分词文本中每个分词的进行类别标注。
8.一种训练标注模型的装置,其特征在于,初始标注模型包括初始特征层、初始语言模型以及初始分类层;所述初始特征层的输出和所述初始语言模型的输出的拼接后作为所述初始分类层的输入;所述装置包括:
第一训练单元,用于基于兴趣点样本对所述初始语言模型进行训练得到训练后的语言模型,所述训练后的语言模型包括第二规则;
第二训练单元,用于基于所述训练后的语言模型以及查询样本,对所述初始特征层和初始分类层进行训练,得到训练后的特征层和训练后的分类层,所述训练后的特征层包括第一规则,所述训练后的分类层包括第三规则,
其中所述初始特征层用于提取查询样本中的第一特征;所述初始语言模型用于提取兴趣点样本的第二特征;所述初始分类层包括初始特征子层、初始权重子层和初始标注子层;所述初始特征层的输出和所述语言模型的输出的拼接后作为所述初始特征子层的输入,输出为所述第三特征;所述初始特征子层的输出与初始权重子层的输出相乘作为所述初始标注子层的输入,输出为预测的样本序列标注。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至6任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述方法的步骤。
CN201910907467.7A 2019-09-24 2019-09-24 兴趣点查询方法、装置以及电子设备 Active CN111858921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910907467.7A CN111858921B (zh) 2019-09-24 2019-09-24 兴趣点查询方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910907467.7A CN111858921B (zh) 2019-09-24 2019-09-24 兴趣点查询方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN111858921A CN111858921A (zh) 2020-10-30
CN111858921B true CN111858921B (zh) 2024-05-03

Family

ID=72970557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910907467.7A Active CN111858921B (zh) 2019-09-24 2019-09-24 兴趣点查询方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111858921B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282088A (ja) * 1994-04-01 1995-10-27 Ricoh Co Ltd マッチング装置及びマッチング方法
WO2008052205A2 (en) * 2006-10-27 2008-05-02 Jumptap, Inc. Combined algorithmic and editorial-reviewed mobile content search results
WO2011113057A1 (en) * 2010-03-12 2011-09-15 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
WO2017143338A1 (en) * 2016-02-19 2017-08-24 Jack Mobile Inc. User intent and context based search results
WO2018223331A1 (en) * 2017-06-08 2018-12-13 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for text attribute determination using conditional random field model
CN110019676A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种在查询信息中识别核心词的方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10067938B2 (en) * 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282088A (ja) * 1994-04-01 1995-10-27 Ricoh Co Ltd マッチング装置及びマッチング方法
WO2008052205A2 (en) * 2006-10-27 2008-05-02 Jumptap, Inc. Combined algorithmic and editorial-reviewed mobile content search results
WO2011113057A1 (en) * 2010-03-12 2011-09-15 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
WO2017143338A1 (en) * 2016-02-19 2017-08-24 Jack Mobile Inc. User intent and context based search results
WO2018223331A1 (en) * 2017-06-08 2018-12-13 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for text attribute determination using conditional random field model
CN110019676A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种在查询信息中识别核心词的方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向互联网的信息处理;王海峰;吴华;刘占一;;中国科学:信息科学(12);全文 *

Also Published As

Publication number Publication date
CN111858921A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN108829822A (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN110826335B (zh) 一种命名实体识别的方法和装置
CN107679234A (zh) 客服信息提供方法、装置、电子设备、存储介质
CN110008300A (zh) Poi别名的确定方法、装置、计算机设备和存储介质
CN110390054A (zh) 兴趣点召回方法、装置、服务器和存储介质
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN110765368A (zh) 用于语义检索的人工智能系统和方法
CN110709828A (zh) 使用条件随机域模型确定文本属性的系统及方法
CN112256845A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN102930048A (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN116917887A (zh) 使用基于注意力的排名系统的查询处理
CN115393606A (zh) 图像识别的方法和系统
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN111831929B (zh) 一种获取poi信息的方法及装置
CN111191107B (zh) 使用标注模型召回兴趣点的系统和方法
CN111858921B (zh) 兴趣点查询方法、装置以及电子设备
CN111444335A (zh) 中心词的提取方法及装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114329236A (zh) 一种数据处理方法及装置
CN111859977B (zh) 一种语义分析方法、装置、电子设备及存储介质
CN111263421A (zh) 无线网络的匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant